Microformats « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Was ist Semantisches Tagging?

26. Februar 2008 um 14:19 11 Kommentare

In AnschluÃŸ an den sehr fruchtbaren Workshop Social Tagging in der Wissensorganisation (Program und weitere Berichte von Mandy Schiefner, bei Joachim Wedekind und Johannes Moskaliuk) schreibe ich grade an einem Artikel Ã¼ber „Semantic Tagging“. Im Zusammenhang mit Social Tagging wurde das Thema Semantic Web zwar immer wieder genannt und die BeitrÃ¤ge dazu im letzten Panel waren alle interessant; wie den nun konkret beide Welten zusammenkommen sollen, blieb aber abgesehen vom Vortrag von Rolf Sint und Georg GÃ¼ntner von Salzburg Research) Ã¼ber das Terminologie-Modul im Projekt LIVE etwas vage – vielleicht liegt das auch an meiner Technik-zentrierten Sicht, auf Implementierungen und Spezifikationen.

So wie ich das LIVE-Projekt verstanden habe, sollen bei der Olympiade 2008 sportliche Ereignisse „live“ verschlagwortet werden, wobei freie Tags zeitnah mit Hilfe eines Thesaurus-Editors in die „Ontologie“ eingearbeitet werden; das ganze basiert auf SKOS und ist damit weitgehend Semantic-Web-kompatibel – und ein Beispiel fÃ¼r Semantic Tagging. Mit Social Tagging hat das Projekt allerdings nur noch wenig zu tun. Falls sich dennoch normale Nutzer am Tagging der PR-Olympiade beteiligen dÃ¼rfen, hier mal ein Vorschlag fÃ¼r die Tag-Cloud:

2008 Bronze Doping Gold Menschrechtsverletzung Propaganda Peking Silber Sponsor

Aber zurÃ¼ck zum Semantischen Tagging: Die Bezeichnung ist eigentlich schon aus der Linguistik besetzt; dort wird unter Semantic Tagging die Erkennung und Auszeichnung von Namen und syntaktischen Strukturen in einem Text verstanden. Ein sehr einfaches Beispiel aus dem Web sind semantische HTML-Tags wie em, strong und cite; eine andere Form semantischen Taggings im Web, die eher in Richtung Auszeichnung von Daten geht, sind Mikroformate. Von dort lÃ¤sst sich zwar wieder der Bogen zum Semantic Web spannen, aber eigentlich ist semantisches Tagging im Linguistischen Sinne etwas anderes: Gegeben ist ein Text, in dem einzelnen Bestandteile wie Subjekt, Objekt, Nebensatz, Personennamen etc. als solche markiert werden. Beim Social Tagging werden dagegen freie Tags an einen gesamten Text (oder ein anderes Objekt) angehÃ¤ngt, um seinen gesamten Inhalt zu beschreiben. Irgendwo sollte sich deshalb zwischen Semantischem Tagging innerhalb eines Textes und Semantischem Tagging als (Social) Tagging mit expliziter Semantik eine Grenze ziehen lassen.

Dachte ich. Bis ich entdeckt habe, was die Nachrichtenagentur Reuters Ende Januar online gebracht hat: Mit der kostenlosen Web-API „Calais“ lassen sich Texte analysieren, indem Reuters Namen, Orte, Zahlen und andere Angaben extrahiert (siehe API-Dokumentation) und mit RDF auszeichnet. [via Taxonomy Watch] Ob die gefundenen EntitÃ¤ten auch gleich mit URIs versehen werden oder ob nur ausgezeichnet wird, dass es sich beispielsweise um einen Firmennamen handelt, habe ich noch nicht rausgefunden – in jedem Fall dÃ¼rften die extrahierten Terme gute VorschlÃ¤ge fÃ¼r semantisches Tagging abgeben. Zum Ausprobieren kann dieses Formular verwendet werden.

Ach herrje – Ich weiÃŸ manchmal nicht, ob ich begeistert sein soll, in welch spannender Weise sich das Web zur Zeit weiterentwickelt oder ob ich daran verzweifeln sollte, wie komplex und schnell das alles geht. Inzwischen ist „Semantic Web“ ja schon so hype, dass es schwierig wird, die Spreu vom Weizen zu trennen.

Tags: Metadata, Microformats, Semantic Web, SKOS, Tagging 11 Kommentare

Relevant APIs for (digital) libraries

30. November 2007 um 14:50 5 Kommentare

My current impression of OCLC/WorldCat Service Grid is still far to abstract – instead of creating a framework, we (libraries and library associations) should agree upon some open protocols and (metadata) formats. To start with, here is a list of relevant, existing open standard APIs from my point of view:

Search: SRU/SRW (including CQL), OpenSearch, Z39.50

Harvest/Syndicate: OAI-PMH, RSS, Atom Syndication (also with ATOM Extensions)

Copy/Provide: unAPI, COinS, Microformats (not a real API but a way to provide data)

Upload/Edit: SRU Update, Atom Publishing Protocol

Identity Management: Shibboleth (and other SAML-based protocols), OpenID (see also OSIS)

For more complex applications, additional (REST)-APIs and common metadata standards need to be found (or defined) – but only if the application is just another kind of search, harvest/syndicate, copy/provide, upload/edit, or Identity Management.

P.S: I forgot NCIP, a „standard for the exchange of circulation data“. Frankly I don’t fully understand the meaning and importance of „circulation data“ and the standard looks more complex then needed. More on APIs for libraries can be found in WorldCat Developer Network, in the Jangle project and a DLF Working group on digital library APIs. For staying in the limited world if libraries, this may suffice, but on the web simplicity and availability of implementations matters – that’s why I am working on the SeeAlso linkserver protocol and now at a simple API to query availaibility information (more in August/September 2008).

P.P.S: A more detailed list of concrete library-related APIs was published by Roy Tennant based on a list by Owen Stephens.

P.P.S: And another list by Stephen Abram (SirsiDynix) from September 1st, 2009

Tags: API, ATOM, COinS, Identity Management, Microformats, OAI, OpenId, Shibboleth, Standards 5 Kommentare

Zeitreihen dynamisch visualisieren mit Timeplot

4. November 2007 um 20:21 Keine Kommentare

Im Rahmen des SIMILE-Projekts gibt es nach Timeline mit Timeplot ein weiteres schÃ¶nes neues Werkzeug zur Datenvisualisierung.

Im Gegensatz zu ManyEyes und Swivel ist etwas mehr Handarbeit angesagt, um mit JavaScript dynamisch, webbasiert Zeitreihen anzeigen zu kÃ¶nnen, dafÃ¼r ist Timeplot flexibler und kann auf eigenen Webseiten eingebunden werden. Die zu visualisierenden Daten kÃ¶nnen unter Anderem als kommaseparierte Zeitreihen oder Zeitpunkte im Timeline XML event format vorliegen (fÃ¼r welches ich leider keine gute Dokumentation aber dieses Tool gefunden habe). Mit diesem Dienst kÃ¶nnen Ereignisse im hCalender- oder vCalender-Format ins Timeline-Format konvertiert werden. Google experimentiert ebenfalls mit Zeitreihen als Antwort auf Suchanfragen aber so wie ich Google kenne, kann man die Suchergebnisse wahrscheinlich nicht weiterverwenden.

Wer ganze Mashups zur Visualisierung mit JavaScript zusammenbasteln mÃ¶chte, sollte sich das ebenfalls bei SIMILE entstandene Exhibit ansehen.

Tags: Mashup, Microformats, SIMILE, Visualisierung, Web 2.0 Keine Kommentare

GBV bietet COinS an

1. November 2007 um 16:12 3 Kommentare

Wie ich eben in INETBIB schrieb, beginnt der GBV jetzt damit, fÃ¼r seine Kataloge COinS anzubieten. Damit kÃ¶nnen bibliographische Metadaten einfach aus dem Katalog in eigene Anwendungen Ã¼bernommen werden. Zu den populÃ¤ren Anwendungen zur Literaturverwaltung gehÃ¶rt das Firefox-Plugin Zotero, welches soeben ein Jahr alt georden und in der Version 1.0 herausgekommen ist. Wie Zotero zusammen mit anderen Social-Software-Werkzeugen und dem Firefox-AbkÃ¶mmling Flock in eine hocheffizienten Arbeitsplatz integriert werden kann, zeigt dieses Video. Eine anderes Bibliographiewerkzeug, dass COinS unterstÃ¼tzen soll ist Citavi.

Wie Patrick bemerkte ist es bereits seit Anfang August mÃ¶glich, mit Zotero Daten aus dem GBV zu Ã¼bernehmen. Dazu hatte der Zotero-Entwickler Ramesh Srigiriraju einen „Scraper“ in JavaScript geschrieben, der das RIS-Format interpretieren kann, welches von der PSI-Katalogsoftware mit dem Parameter PRS=RIS exportiert wird – wer genauer sehen mÃ¶chte, wie so etwas funktioniert, sollte im Quelltext nach „GSO“ suchen.

Das Angebot von Daten via COinS ist wesentlich leichter nutzbar – sucht im im GSO-Katalog einfach mal nach einem Titel und schaut dann im HTML-Quelltext nach der Zeichenkette „Z3988“. Damit das Angebot auch in lokalen OPACs nutzbar ist, sollten meiner Meinung nach die einzelnen GBV-Bibliotheken erstmal selber Zotero ausprobieren und Ã¼berlegen, wie sie das Angebot ihren Benutzern am Besten bekannt machen kÃ¶nnen.

FÃ¼r die ganz harten Bibliothekshacker hier ein StÃ¼ck Perl, um COinS fÃ¼r eigene Anwendungen aus beliebigen Webseiten auszulesen:

use HTML::TreeBuilder::XPath;
use LWP::UserAgent;
use URI::OpenURL;
use URI;
my $url = URI->new(shift @ARGV) or die "Please specify an URL!";
my $ua = LWP::UserAgent->new();
my $res = $ua->get($url);
my $html = $res->decoded_content;
my $tree= HTML::TreeBuilder::XPath->new_from_content( $html );
my @coins = $tree->findnodes( '//span[@class="Z3988"]/@title');
@coins = map { URI::OpenURL->new("?" . $_->getValue() ); } (@coins);
foreach my $c (@coins) {
  print $c->canonical->dump() . "\n";
}

Tags: Bibliothek, COinS, Firefox, GBV, Katalog, Microformats, Perl, Zotero 3 Kommentare

Neues von Mozilla: Prism, Firefox 3 und Sunbird

27. Oktober 2007 um 13:48 2 Kommentare

Zum Wochenende einige Entwicklungen aus dem Mozilla-Projekt: Mit Prism mÃ¶chte Mozilla Webapplikationen auf den Desktop bringen – fÃ¼r den Nutzer soll es praktisch keinen groÃŸen Unterschied machen, ob er eine lokale Anwendung aufruft oder eine Anwendung im Web. Es ist also Zeit, sich Ã¼ber kleine (Widgets) und groÃŸe (Webapplikationen) praktische Anwendungen aus dem Bibliotheks- und Informationsbereich Gedanken zu machen – einige Ideen gibt es schon von Fabienne, Kommentare sind dort sehr erwÃ¼nscht!

Schon weiter fortgeschritten ist Firefox 3 – die neue Version des populÃ¤ren Webbrowsers macht zur Zeit wegen seiner auf das jeweilige Betriebssystem angepassten Optik von sich reden. Die aktuelle Experimentier-Version kann jederzeit ausprobiert werden, mit einem endgÃ¼ltigem Release wird Ende 2007 gerechnet. Ich habe mir mal die Liste der geplanten Neuerungen angesehen und mÃ¶chte folgende Features hervorheben:

VÃ¶llig Ã¼berarbeitet wurde die Lesezeichen-Verwaltung, die nun die Bezeichnung „Places“ trÃ¤gt: Neu ist vor allem, dass Lesezeichen und die Liste der besuchten Seiten gemeinsam verwaltet werden und auch mit Tags versehen werden kÃ¶nnen. Den Berichten nach, hat die Usability damit deutlich zugenommen. Offen ist fÃ¼r mich nur, wie Social Tagging-Dienste da reinpassen.

Eine weitere interessante Neuerung ist Content Type-Processing: Bisher kann Firefox auf Basis von Protokoll und MIME-Types beim Download verschiedene Anwendungen starten (Mailprogramm, Newsreader, Bildbetrachter…), RSS-Feeds kÃ¶nnen auch direkt an eine andere Webapplikation wie z.B. Bloglines weitergereicht werden. Im Rahmen eines grundsÃ¤tzlichen AufrÃ¤umens der MIME-Type-Behandlung soll die Weiterleitung auch an andere Webanwendungen mÃ¶glich sein, so dass z.B. beim Klick auf mailto:-Links der Webmailer geÃ¶ffnet wird.

Ebenfalls in die Richtung, aus dem Browser ein allgemeines Werkzeug zum AuswÃ¤hlen, Weiterleiten und Verarbeiten von Informationen zu machen, geht die bereits im Januar 2007 diskutierte UnterstÃ¼tzung von Mikroformaten. So wie ich es verstanden habe, sollen beliebige Microformats mitsamt den mit ihnen ausfÃ¼hrbaren Aktionen im Browser registriert werden kÃ¶nnen (siehe Screenshot im Notizblog. Ein Bibliothekarisches Microformat lÃ¤sst (abgesehen von COinS) ja noch auf sich warten.

Weitere Neuerungen der BenutzeroberflÃ¤che wurden bereits im Juni von Alex Faaborg zusammengefasst (mit Screenshots).

Das dritte Mozilla-Projekt, von dem es Neues zu berichten gibt, ist die Kalenderanwendung Sunbird, die gerade in der Version 0.7 herausgekommen ist. Ich habe mir trotzdem fÃ¼r 2008 wieder einen Taschenkalender aus Papier gekauft – bis es fÃ¼r den Sonnevogel ein passendes Linux-Handy gibt 😉

Tags: Browser, Firefox, Microformats, Mozilla, SOA, Widget 2 Kommentare

Blogtip und Programmtip

2. August 2007 um 20:30 Keine Kommentare

Unter www.microformats.dk betreibt SÃ¸ren Johannessen ein kleines, feines Blog Ã¼ber Mikroformate und Mashups, auf dass ich dank Trackback gestoÃŸen bin. Einiges versteht man vom DÃ¤nischen auch so und im Zweifel ist der persÃ¶nliche NachbarlÃ¤nder des Vertrauens zu fragen (eine Automatische Ãœbersetzung DÃ¤nisch-Deutsch wÃ¼rde mich wundern, da ist einfach der Markt nicht groÃŸ genug). DÃ¤nen habe ich hier auf der Wikimania bisher nicht getroffen aber neben Taiwanesen viele andere NationalitÃ¤ten. Die Erfahrung, mal so vÃ¶llig AuslÃ¤nder zu sein, weder Sprache noch Schrift noch die besonderen Gewohnheiten zu verstehen, ist fÃ¼r mich doch noch etwas neues und sehr interessant. Heute habe ich fast den ganzen Tag damit verbracht, das Programm fÃ¼r morgen fertigzustellen (hier die Endversion als PDF) und mich danach noch an meinen eigenen Vortrag gesetzt. DafÃ¼r war das Abendessen in einem guten vegetarischen (sic!) Restaurant phÃ¤nomenal. Mit umgerechnet 18 Euro war das Ã¼beraus umfangreiche Buffet eher am oberen Ende der Preisskala, ich habe auch schon sehr lecker fÃ¼r etwa 1,50 mich an Dumplings sattgegessen. Das Taiwanesische Essen ist kurzgesagt unglaublich vielfÃ¤ltig und lecker.

Tags: Microformats, Semantic Web, Wikimania2007 Keine Kommentare

Von ISBD zum Web 2.0 mit Mikroformaten

26. Juli 2007 um 14:18 15 Kommentare

Den folgenden Beitrag habe ich bereits in Ã¤hnlicher Form in INETBIB gepostet. Um ihn in die BlogosphÃ¤re einzubinden, poste ich ihn hier nochmal als Blogeintrag.

Um sich nicht im Sommerloch langweilen zu mÃ¼ssen, habe ich hier eine kleine Aufgabe fÃ¼r ISBD-Experten, Bibliothekare und andere Zukunftsinteressierte: Es geht um nicht weniger als die die Entwicklung eines bibliothekarischen Datenformates. Da der Beitrag etwas lÃ¤nger ist, hier eine

Zusammenfassung

1. Im Web sind mehr und mehr Daten direkt und in standardisierten Formaten zur Weiterverarbeitung verfÃ¼gbar
2. Durchsetzen wird sich am Ende das, was im Browser ohne Plugin unterstÃ¼tzt wird
3. So wie es aussieht, werden dies Mikroformate sein
4. FÃ¼r Bibliographsche Daten fehlt bislang ein Mikroformat
5. Wenn sich Bibliothekare nicht mit ihrem Sachverstand an der Entwicklung eines solchen Formates beteiligen, tun es andere – und das nicht unbedingt nach bibliothekarischen Gesichtspunkten.

Worum geht es?
Beitrag Von ISBD zum Web 2.0 mit Mikroformaten weiterlesen…

Tags: Bibliothek, ISBD, Microformats, Semantic Web, Standards, Web 2.0 15 Kommentare

Zotero, COins und technische Kompetenz in Bibliotheken

19. Juli 2007 um 23:22 2 Kommentare

Das Firefox-Literaturverwaltungs-Plugin Zotero wurde schon vor einigen Monaten in verschiedenen Bibliotheks-Weblogs genannt und unter Anderem auf e-teaching.org vorgestellt; da es Firefox 2.0 voraussetzt, habe ich es mir aber erst jetzt ein wenig nÃ¤her angesehen.

Zotero erkennt auf vielen Webseiten bibliographische Angaben, so dass sie mit einem Mausklick in die eigene Literatursammlung Ã¼bernommen werden kÃ¶nnen. Darunter sind auch Bibliothekskataloge, allerdings bislang noch keine aus Deutschland. Das ist allerdings auch nicht verwunderlich, denn wer sollte die Anbindung an Zotero auch umsetzen wenn nicht die so genannten „Web 2.0“-Experten mit bibliothekarischem Umfeld?

Soweit ich es verstanden habe, genÃ¼gt fÃ¼r Zotero, bei der Titelanzeige in die HTML-Seite OpenURL-Daten mittels COins (ContextObjects in Spans) einzufÃ¼gen. COins sind nicht nur fÃ¼r Zotero von Bedeutung sondern wird bereits jetzt als allgemeines Mikroformat fÃ¼r bibliographische Daten eingesetzt (die Microformats-Community werkelt derweil dennoch an einem eigenen Standard herum).

Da COins auf OpenURL basiert, dÃ¼rfte es bei Katalogen, die bereits OpenURL als Source fÃ¼r Linkresolver unterstÃ¼tzen, einfach sein, auch COins anzubieten. Dies ist nebenbei bemerkt auch ein Beispiel dafÃ¼r, wie wichtig es ist, dass Bibliotheken die technische Kompetenz zur Entwicklung ihrer OPACs selbst benÃ¶tigen anstatt die Katalogsoftware bei einem Hersteller einzukaufen ohne selber daran herumzuskripten. Denn obwohl die Einbindung von COins technisch nicht aufwendig ist, hat ein herkÃ¶mmlicher kommerzieller Hersteller in der Praxis dazu weder die MÃ¶glichkeit (auÃŸer er hat direkten Zugang zum Katalogserver) noch den Anreiz (auÃŸer er bekommt einen expliziten, bezahlten Auftrag). Die Bibliothek selber kann aber ohne die technischen FÃ¤higkeiten, weder mal eben etwas wie COins selber in die eigenen Katalogsoftware integrieren, noch seinem Softwarehersteller frÃ¼h und konkret genug sagen, was dieser genau umsetzen soll – und bekommen dann deshalb irgend etwas unzureichendes als „Web 2.0“ verkauft.

P.S.: Wie infobib mitteilt ist seit kurzem die Institutsbibliothek der SaarlÃ¤nder Informationswissenschaft schon soweit – ist ja auch kein Produkt von der Stange.

Tags: Bibliothek, Microformats, Zotero 2 Kommentare

Warum Mikroformate noch nicht so toll sind

3. Juli 2007 um 01:54 3 Kommentare

Christian hat neulich seine Links zum Thema Mikroformate/Microformats zusammengefasst und merkte an, dass auf infobib das hcard-Mikroformat fÃ¼r Personendaten verwendet wird. Ich mag Microformats ja auch aber so ganz ausgereift scheint mit das doch noch nicht zu sein:

Web2.0-Junkies mÃ¶gen ihre Freude an technischen Spezifikationen haben, aber normale Menschen interessiert sowas wie „Format“ doch zu Recht nicht die Bohne (ich darf mich hoffentlich je nachdem zu beiden Personengruppen zÃ¤hlen). Wenn sich schon jemand die MÃ¼he macht, in einheitlicher Form eine maschinenlesbare „Visitenkarte“ auf seine Webseite zu bringen, dann erwarte ich sie mit einem einfachen Klick in meiner Adressverwaltung Ã¼bertragen zu kÃ¶nnen. Dazu sind aber bislang folgende HÃ¼rden zu nehmen:

Die Ãœberwindung, sich mit Mikroformaten zu beschÃ¤ftigen, wÃ¤hrend es eigentlich einfach nur „funktionieren“ soll.
Die Wahl von Firefox als Webrowser und ein Microformats-Plugin wie zum Beispiel Operator, das die Mikroformate aus einer Webseite auslesen kann.
Das Herumkonfigurieren am Plugin (in Operator sollte „display icon in status bar“ in den Plugin-Einstellungen aktiviert werden).
Eine Anwendung, die mit dem entsprechenden Mikroformat (hier vCard) etwas anfangen kann.
Die Erkenntnis, dass bisher sowieso nur wenige Webseiten Mikroformate anbieten.

Mir war es beim vorletzten Punkt zu viel: Thunderbird kann vCard zwar beigebracht werden, aber nicht direkt aus dem Browser heraus, also muss ich die Adressdaten mit dem Operator-Plugin erst als vCard-Datei speichern und dann die Datei in Thunderbird importieren.

Bei Software-Monokulturen wie Apple oder KDE mag der Austausch von Daten Ã¼ber Programme hinweg ja einwandfrei funktionieren, aber dafÃ¼r werden eigentlich keine Mikroformate benÃ¶tigt. Bis verschiedenste Informationen problemlos aus dem Netz in andere Anwendungen Ã¼bernommen werden kÃ¶nnen, dauert es sicherlich noch etwas, zumal selbst die Web 1.0-Grundlage Mime-type (auch Content-Type in HTTP) oft nicht richtig verwendet wird.

Tags: Microformats, Semantic Web, Thunderbird, vCard 3 Kommentare

Jakoblog — Das Weblog von Jakob VoÃŸ