Was ist Semantisches Tagging?

26. Februar 2008 um 14:19 11 Kommentare

In Anschluß an den sehr fruchtbaren Workshop Social Tagging in der Wissensorganisation (Program und weitere Berichte von Mandy Schiefner, bei Joachim Wedekind und Johannes Moskaliuk) schreibe ich grade an einem Artikel über „Semantic Tagging“. Im Zusammenhang mit Social Tagging wurde das Thema Semantic Web zwar immer wieder genannt und die Beiträge dazu im letzten Panel waren alle interessant; wie den nun konkret beide Welten zusammenkommen sollen, blieb aber abgesehen vom Vortrag von Rolf Sint und Georg Güntner von Salzburg Research) über das Terminologie-Modul im Projekt LIVE etwas vage – vielleicht liegt das auch an meiner Technik-zentrierten Sicht, auf Implementierungen und Spezifikationen.

So wie ich das LIVE-Projekt verstanden habe, sollen bei der Olympiade 2008 sportliche Ereignisse „live“ verschlagwortet werden, wobei freie Tags zeitnah mit Hilfe eines Thesaurus-Editors in die „Ontologie“ eingearbeitet werden; das ganze basiert auf SKOS und ist damit weitgehend Semantic-Web-kompatibel – und ein Beispiel für Semantic Tagging. Mit Social Tagging hat das Projekt allerdings nur noch wenig zu tun. Falls sich dennoch normale Nutzer am Tagging der PR-Olympiade beteiligen dürfen, hier mal ein Vorschlag für die Tag-Cloud:

2008 Bronze Doping Gold Menschrechtsverletzung Propaganda Peking Silber Sponsor

Aber zurück zum Semantischen Tagging: Die Bezeichnung ist eigentlich schon aus der Linguistik besetzt; dort wird unter Semantic Tagging die Erkennung und Auszeichnung von Namen und syntaktischen Strukturen in einem Text verstanden. Ein sehr einfaches Beispiel aus dem Web sind semantische HTML-Tags wie em, strong und cite; eine andere Form semantischen Taggings im Web, die eher in Richtung Auszeichnung von Daten geht, sind Mikroformate. Von dort lässt sich zwar wieder der Bogen zum Semantic Web spannen, aber eigentlich ist semantisches Tagging im Linguistischen Sinne etwas anderes: Gegeben ist ein Text, in dem einzelnen Bestandteile wie Subjekt, Objekt, Nebensatz, Personennamen etc. als solche markiert werden. Beim Social Tagging werden dagegen freie Tags an einen gesamten Text (oder ein anderes Objekt) angehängt, um seinen gesamten Inhalt zu beschreiben. Irgendwo sollte sich deshalb zwischen Semantischem Tagging innerhalb eines Textes und Semantischem Tagging als (Social) Tagging mit expliziter Semantik eine Grenze ziehen lassen.

Dachte ich. Bis ich entdeckt habe, was die Nachrichtenagentur Reuters Ende Januar online gebracht hat: Mit der kostenlosen Web-API „Calais“ lassen sich Texte analysieren, indem Reuters Namen, Orte, Zahlen und andere Angaben extrahiert (siehe API-Dokumentation) und mit RDF auszeichnet. [via Taxonomy Watch] Ob die gefundenen Entitäten auch gleich mit URIs versehen werden oder ob nur ausgezeichnet wird, dass es sich beispielsweise um einen Firmennamen handelt, habe ich noch nicht rausgefunden – in jedem Fall dürften die extrahierten Terme gute Vorschläge für semantisches Tagging abgeben. Zum Ausprobieren kann dieses Formular verwendet werden.

Ach herrje – Ich weiß manchmal nicht, ob ich begeistert sein soll, in welch spannender Weise sich das Web zur Zeit weiterentwickelt oder ob ich daran verzweifeln sollte, wie komplex und schnell das alles geht. Inzwischen ist „Semantic Web“ ja schon so hype, dass es schwierig wird, die Spreu vom Weizen zu trennen.

Relevant APIs for (digital) libraries

30. November 2007 um 14:50 5 Kommentare

My current impression of OCLC/WorldCat Service Grid is still far to abstract – instead of creating a framework, we (libraries and library associations) should agree upon some open protocols and (metadata) formats. To start with, here is a list of relevant, existing open standard APIs from my point of view:

Search: SRU/SRW (including CQL), OpenSearch, Z39.50

Harvest/Syndicate: OAI-PMH, RSS, Atom Syndication (also with ATOM Extensions)

Copy/Provide: unAPI, COinS, Microformats (not a real API but a way to provide data)

Upload/Edit: SRU Update, Atom Publishing Protocol

Identity Management: Shibboleth (and other SAML-based protocols), OpenID (see also OSIS)

For more complex applications, additional (REST)-APIs and common metadata standards need to be found (or defined) – but only if the application is just another kind of search, harvest/syndicate, copy/provide, upload/edit, or Identity Management.

P.S: I forgot NCIP, a „standard for the exchange of circulation data“. Frankly I don’t fully understand the meaning and importance of „circulation data“ and the standard looks more complex then needed. More on APIs for libraries can be found in WorldCat Developer Network, in the Jangle project and a DLF Working group on digital library APIs. For staying in the limited world if libraries, this may suffice, but on the web simplicity and availability of implementations matters – that’s why I am working on the SeeAlso linkserver protocol and now at a simple API to query availaibility information (more in August/September 2008).

P.P.S: A more detailed list of concrete library-related APIs was published by Roy Tennant based on a list by Owen Stephens.

P.P.S: And another list by Stephen Abram (SirsiDynix) from September 1st, 2009

Zeitreihen dynamisch visualisieren mit Timeplot

4. November 2007 um 20:21 Keine Kommentare

Im Rahmen des SIMILE-Projekts gibt es nach Timeline mit Timeplot ein weiteres schönes neues Werkzeug zur Datenvisualisierung.

Im Gegensatz zu ManyEyes und Swivel ist etwas mehr Handarbeit angesagt, um mit JavaScript dynamisch, webbasiert Zeitreihen anzeigen zu können, dafür ist Timeplot flexibler und kann auf eigenen Webseiten eingebunden werden. Die zu visualisierenden Daten können unter Anderem als kommaseparierte Zeitreihen oder Zeitpunkte im Timeline XML event format vorliegen (für welches ich leider keine gute Dokumentation aber dieses Tool gefunden habe). Mit diesem Dienst können Ereignisse im hCalender- oder vCalender-Format ins Timeline-Format konvertiert werden. Google experimentiert ebenfalls mit Zeitreihen als Antwort auf Suchanfragen aber so wie ich Google kenne, kann man die Suchergebnisse wahrscheinlich nicht weiterverwenden.

Wer ganze Mashups zur Visualisierung mit JavaScript zusammenbasteln möchte, sollte sich das ebenfalls bei SIMILE entstandene Exhibit ansehen.

GBV bietet COinS an

1. November 2007 um 16:12 3 Kommentare

Wie ich eben in INETBIB schrieb, beginnt der GBV jetzt damit, für seine Kataloge COinS anzubieten. Damit können bibliographische Metadaten einfach aus dem Katalog in eigene Anwendungen übernommen werden. Zu den populären Anwendungen zur Literaturverwaltung gehört das Firefox-Plugin Zotero, welches soeben ein Jahr alt georden und in der Version 1.0 herausgekommen ist. Wie Zotero zusammen mit anderen Social-Software-Werkzeugen und dem Firefox-Abkömmling Flock in eine hocheffizienten Arbeitsplatz integriert werden kann, zeigt dieses Video. Eine anderes Bibliographiewerkzeug, dass COinS unterstützen soll ist Citavi.

Wie Patrick bemerkte ist es bereits seit Anfang August möglich, mit Zotero Daten aus dem GBV zu übernehmen. Dazu hatte der Zotero-Entwickler Ramesh Srigiriraju einen „Scraper“ in JavaScript geschrieben, der das RIS-Format interpretieren kann, welches von der PSI-Katalogsoftware mit dem Parameter PRS=RIS exportiert wird – wer genauer sehen möchte, wie so etwas funktioniert, sollte im Quelltext nach „GSO“ suchen.

Das Angebot von Daten via COinS ist wesentlich leichter nutzbar – sucht im im GSO-Katalog einfach mal nach einem Titel und schaut dann im HTML-Quelltext nach der Zeichenkette „Z3988“. Damit das Angebot auch in lokalen OPACs nutzbar ist, sollten meiner Meinung nach die einzelnen GBV-Bibliotheken erstmal selber Zotero ausprobieren und überlegen, wie sie das Angebot ihren Benutzern am Besten bekannt machen können.

Für die ganz harten Bibliothekshacker hier ein Stück Perl, um COinS für eigene Anwendungen aus beliebigen Webseiten auszulesen:

use HTML::TreeBuilder::XPath;
use LWP::UserAgent;
use URI::OpenURL;
use URI;
my $url = URI->new(shift @ARGV) or die "Please specify an URL!";
my $ua = LWP::UserAgent->new();
my $res = $ua->get($url);
my $html = $res->decoded_content;
my $tree= HTML::TreeBuilder::XPath->new_from_content( $html );
my @coins = $tree->findnodes( '//span[@class="Z3988"]/@title');
@coins = map { URI::OpenURL->new("?" . $_->getValue() ); } (@coins);
foreach my $c (@coins) {
  print $c->canonical->dump() . "\n";
}

Neues von Mozilla: Prism, Firefox 3 und Sunbird

27. Oktober 2007 um 13:48 2 Kommentare

Zum Wochenende einige Entwicklungen aus dem Mozilla-Projekt: Mit Prism möchte Mozilla Webapplikationen auf den Desktop bringen – für den Nutzer soll es praktisch keinen großen Unterschied machen, ob er eine lokale Anwendung aufruft oder eine Anwendung im Web. Es ist also Zeit, sich über kleine (Widgets) und große (Webapplikationen) praktische Anwendungen aus dem Bibliotheks- und Informationsbereich Gedanken zu machen – einige Ideen gibt es schon von Fabienne, Kommentare sind dort sehr erwünscht!

Schon weiter fortgeschritten ist Firefox 3 – die neue Version des populären Webbrowsers macht zur Zeit wegen seiner auf das jeweilige Betriebssystem angepassten Optik von sich reden. Die aktuelle Experimentier-Version kann jederzeit ausprobiert werden, mit einem endgültigem Release wird Ende 2007 gerechnet. Ich habe mir mal die Liste der geplanten Neuerungen angesehen und möchte folgende Features hervorheben:

Völlig überarbeitet wurde die Lesezeichen-Verwaltung, die nun die Bezeichnung „Places“ trägt: Neu ist vor allem, dass Lesezeichen und die Liste der besuchten Seiten gemeinsam verwaltet werden und auch mit Tags versehen werden können. Den Berichten nach, hat die Usability damit deutlich zugenommen. Offen ist für mich nur, wie Social Tagging-Dienste da reinpassen.

Eine weitere interessante Neuerung ist Content Type-Processing: Bisher kann Firefox auf Basis von Protokoll und MIME-Types beim Download verschiedene Anwendungen starten (Mailprogramm, Newsreader, Bildbetrachter…), RSS-Feeds können auch direkt an eine andere Webapplikation wie z.B. Bloglines weitergereicht werden. Im Rahmen eines grundsätzlichen Aufräumens der MIME-Type-Behandlung soll die Weiterleitung auch an andere Webanwendungen möglich sein, so dass z.B. beim Klick auf mailto:-Links der Webmailer geöffnet wird.

Ebenfalls in die Richtung, aus dem Browser ein allgemeines Werkzeug zum Auswählen, Weiterleiten und Verarbeiten von Informationen zu machen, geht die bereits im Januar 2007 diskutierte Unterstützung von Mikroformaten. So wie ich es verstanden habe, sollen beliebige Microformats mitsamt den mit ihnen ausführbaren Aktionen im Browser registriert werden können (siehe Screenshot im Notizblog. Ein Bibliothekarisches Microformat lässt (abgesehen von COinS) ja noch auf sich warten.

Weitere Neuerungen der Benutzeroberfläche wurden bereits im Juni von Alex Faaborg zusammengefasst (mit Screenshots).

Das dritte Mozilla-Projekt, von dem es Neues zu berichten gibt, ist die Kalenderanwendung Sunbird, die gerade in der Version 0.7 herausgekommen ist. Ich habe mir trotzdem für 2008 wieder einen Taschenkalender aus Papier gekauft – bis es für den Sonnevogel ein passendes Linux-Handy gibt 😉

Blogtip und Programmtip

2. August 2007 um 20:30 Keine Kommentare

Unter www.microformats.dk betreibt Søren Johannessen ein kleines, feines Blog über Mikroformate und Mashups, auf dass ich dank Trackback gestoßen bin. Einiges versteht man vom Dänischen auch so und im Zweifel ist der persönliche Nachbarländer des Vertrauens zu fragen (eine Automatische Übersetzung Dänisch-Deutsch würde mich wundern, da ist einfach der Markt nicht groß genug). Dänen habe ich hier auf der Wikimania bisher nicht getroffen aber neben Taiwanesen viele andere Nationalitäten. Die Erfahrung, mal so völlig Ausländer zu sein, weder Sprache noch Schrift noch die besonderen Gewohnheiten zu verstehen, ist für mich doch noch etwas neues und sehr interessant. Heute habe ich fast den ganzen Tag damit verbracht, das Programm für morgen fertigzustellen (hier die Endversion als PDF) und mich danach noch an meinen eigenen Vortrag gesetzt. Dafür war das Abendessen in einem guten vegetarischen (sic!) Restaurant phänomenal. Mit umgerechnet 18 Euro war das überaus umfangreiche Buffet eher am oberen Ende der Preisskala, ich habe auch schon sehr lecker für etwa 1,50 mich an Dumplings sattgegessen. Das Taiwanesische Essen ist kurzgesagt unglaublich vielfältig und lecker.

Von ISBD zum Web 2.0 mit Mikroformaten

26. Juli 2007 um 14:18 15 Kommentare

Den folgenden Beitrag habe ich bereits in ähnlicher Form in INETBIB gepostet. Um ihn in die Blogosphäre einzubinden, poste ich ihn hier nochmal als Blogeintrag.

Um sich nicht im Sommerloch langweilen zu müssen, habe ich hier eine kleine Aufgabe für ISBD-Experten, Bibliothekare und andere Zukunftsinteressierte: Es geht um nicht weniger als die die Entwicklung eines bibliothekarischen Datenformates. Da der Beitrag etwas länger ist, hier eine

Zusammenfassung

1. Im Web sind mehr und mehr Daten direkt und in standardisierten Formaten zur Weiterverarbeitung verfügbar
2. Durchsetzen wird sich am Ende das, was im Browser ohne Plugin unterstützt wird
3. So wie es aussieht, werden dies Mikroformate sein
4. Für Bibliographsche Daten fehlt bislang ein Mikroformat
5. Wenn sich Bibliothekare nicht mit ihrem Sachverstand an der Entwicklung eines solchen Formates beteiligen, tun es andere – und das nicht unbedingt nach bibliothekarischen Gesichtspunkten.

Worum geht es?
Beitrag Von ISBD zum Web 2.0 mit Mikroformaten weiterlesen…

Zotero, COins und technische Kompetenz in Bibliotheken

19. Juli 2007 um 23:22 2 Kommentare

Das Firefox-Literaturverwaltungs-Plugin Zotero wurde schon vor einigen Monaten in verschiedenen Bibliotheks-Weblogs genannt und unter Anderem auf e-teaching.org vorgestellt; da es Firefox 2.0 voraussetzt, habe ich es mir aber erst jetzt ein wenig näher angesehen.

Zotero erkennt auf vielen Webseiten bibliographische Angaben, so dass sie mit einem Mausklick in die eigene Literatursammlung übernommen werden können. Darunter sind auch Bibliothekskataloge, allerdings bislang noch keine aus Deutschland. Das ist allerdings auch nicht verwunderlich, denn wer sollte die Anbindung an Zotero auch umsetzen wenn nicht die so genannten „Web 2.0“-Experten mit bibliothekarischem Umfeld?

Soweit ich es verstanden habe, genügt für Zotero, bei der Titelanzeige in die HTML-Seite OpenURL-Daten mittels COins (ContextObjects in Spans) einzufügen. COins sind nicht nur für Zotero von Bedeutung sondern wird bereits jetzt als allgemeines Mikroformat für bibliographische Daten eingesetzt (die Microformats-Community werkelt derweil dennoch an einem eigenen Standard herum).

Da COins auf OpenURL basiert, dürfte es bei Katalogen, die bereits OpenURL als Source für Linkresolver unterstützen, einfach sein, auch COins anzubieten. Dies ist nebenbei bemerkt auch ein Beispiel dafür, wie wichtig es ist, dass Bibliotheken die technische Kompetenz zur Entwicklung ihrer OPACs selbst benötigen anstatt die Katalogsoftware bei einem Hersteller einzukaufen ohne selber daran herumzuskripten. Denn obwohl die Einbindung von COins technisch nicht aufwendig ist, hat ein herkömmlicher kommerzieller Hersteller in der Praxis dazu weder die Möglichkeit (außer er hat direkten Zugang zum Katalogserver) noch den Anreiz (außer er bekommt einen expliziten, bezahlten Auftrag). Die Bibliothek selber kann aber ohne die technischen Fähigkeiten, weder mal eben etwas wie COins selber in die eigenen Katalogsoftware integrieren, noch seinem Softwarehersteller früh und konkret genug sagen, was dieser genau umsetzen soll – und bekommen dann deshalb irgend etwas unzureichendes als „Web 2.0“ verkauft.

P.S.: Wie infobib mitteilt ist seit kurzem die Institutsbibliothek der Saarländer Informationswissenschaft schon soweit – ist ja auch kein Produkt von der Stange.

Warum Mikroformate noch nicht so toll sind

3. Juli 2007 um 01:54 3 Kommentare

Christian hat neulich seine Links zum Thema Mikroformate/Microformats zusammengefasst und merkte an, dass auf infobib das hcard-Mikroformat für Personendaten verwendet wird. Ich mag Microformats ja auch aber so ganz ausgereift scheint mit das doch noch nicht zu sein:

Web2.0-Junkies mögen ihre Freude an technischen Spezifikationen haben, aber normale Menschen interessiert sowas wie „Format“ doch zu Recht nicht die Bohne (ich darf mich hoffentlich je nachdem zu beiden Personengruppen zählen). Wenn sich schon jemand die Mühe macht, in einheitlicher Form eine maschinenlesbare „Visitenkarte“ auf seine Webseite zu bringen, dann erwarte ich sie mit einem einfachen Klick in meiner Adressverwaltung übertragen zu können. Dazu sind aber bislang folgende Hürden zu nehmen:

  • Die Ãœberwindung, sich mit Mikroformaten zu beschäftigen, während es eigentlich einfach nur „funktionieren“ soll.
  • Die Wahl von Firefox als Webrowser und ein Microformats-Plugin wie zum Beispiel Operator, das die Mikroformate aus einer Webseite auslesen kann.
  • Das Herumkonfigurieren am Plugin (in Operator sollte „display icon in status bar“ in den Plugin-Einstellungen aktiviert werden).
  • Eine Anwendung, die mit dem entsprechenden Mikroformat (hier vCard) etwas anfangen kann.
  • Die Erkenntnis, dass bisher sowieso nur wenige Webseiten Mikroformate anbieten.

Mir war es beim vorletzten Punkt zu viel: Thunderbird kann vCard zwar beigebracht werden, aber nicht direkt aus dem Browser heraus, also muss ich die Adressdaten mit dem Operator-Plugin erst als vCard-Datei speichern und dann die Datei in Thunderbird importieren.

Bei Software-Monokulturen wie Apple oder KDE mag der Austausch von Daten über Programme hinweg ja einwandfrei funktionieren, aber dafür werden eigentlich keine Mikroformate benötigt. Bis verschiedenste Informationen problemlos aus dem Netz in andere Anwendungen übernommen werden können, dauert es sicherlich noch etwas, zumal selbst die Web 1.0-Grundlage Mime-type (auch Content-Type in HTTP) oft nicht richtig verwendet wird.