Was ist Semantisches Tagging?

26. Februar 2008 um 14:19 11 Kommentare

In Anschluß an den sehr fruchtbaren Workshop Social Tagging in der Wissensorganisation (Program und weitere Berichte von Mandy Schiefner, bei Joachim Wedekind und Johannes Moskaliuk) schreibe ich grade an einem Artikel über „Semantic Tagging“. Im Zusammenhang mit Social Tagging wurde das Thema Semantic Web zwar immer wieder genannt und die Beiträge dazu im letzten Panel waren alle interessant; wie den nun konkret beide Welten zusammenkommen sollen, blieb aber abgesehen vom Vortrag von Rolf Sint und Georg Güntner von Salzburg Research) über das Terminologie-Modul im Projekt LIVE etwas vage – vielleicht liegt das auch an meiner Technik-zentrierten Sicht, auf Implementierungen und Spezifikationen.

So wie ich das LIVE-Projekt verstanden habe, sollen bei der Olympiade 2008 sportliche Ereignisse „live“ verschlagwortet werden, wobei freie Tags zeitnah mit Hilfe eines Thesaurus-Editors in die „Ontologie“ eingearbeitet werden; das ganze basiert auf SKOS und ist damit weitgehend Semantic-Web-kompatibel – und ein Beispiel für Semantic Tagging. Mit Social Tagging hat das Projekt allerdings nur noch wenig zu tun. Falls sich dennoch normale Nutzer am Tagging der PR-Olympiade beteiligen dürfen, hier mal ein Vorschlag für die Tag-Cloud:

2008 Bronze Doping Gold Menschrechtsverletzung Propaganda Peking Silber Sponsor

Aber zurück zum Semantischen Tagging: Die Bezeichnung ist eigentlich schon aus der Linguistik besetzt; dort wird unter Semantic Tagging die Erkennung und Auszeichnung von Namen und syntaktischen Strukturen in einem Text verstanden. Ein sehr einfaches Beispiel aus dem Web sind semantische HTML-Tags wie em, strong und cite; eine andere Form semantischen Taggings im Web, die eher in Richtung Auszeichnung von Daten geht, sind Mikroformate. Von dort lässt sich zwar wieder der Bogen zum Semantic Web spannen, aber eigentlich ist semantisches Tagging im Linguistischen Sinne etwas anderes: Gegeben ist ein Text, in dem einzelnen Bestandteile wie Subjekt, Objekt, Nebensatz, Personennamen etc. als solche markiert werden. Beim Social Tagging werden dagegen freie Tags an einen gesamten Text (oder ein anderes Objekt) angehängt, um seinen gesamten Inhalt zu beschreiben. Irgendwo sollte sich deshalb zwischen Semantischem Tagging innerhalb eines Textes und Semantischem Tagging als (Social) Tagging mit expliziter Semantik eine Grenze ziehen lassen.

Dachte ich. Bis ich entdeckt habe, was die Nachrichtenagentur Reuters Ende Januar online gebracht hat: Mit der kostenlosen Web-API „Calais“ lassen sich Texte analysieren, indem Reuters Namen, Orte, Zahlen und andere Angaben extrahiert (siehe API-Dokumentation) und mit RDF auszeichnet. [via Taxonomy Watch] Ob die gefundenen Entitäten auch gleich mit URIs versehen werden oder ob nur ausgezeichnet wird, dass es sich beispielsweise um einen Firmennamen handelt, habe ich noch nicht rausgefunden – in jedem Fall dürften die extrahierten Terme gute Vorschläge für semantisches Tagging abgeben. Zum Ausprobieren kann dieses Formular verwendet werden.

Ach herrje – Ich weiß manchmal nicht, ob ich begeistert sein soll, in welch spannender Weise sich das Web zur Zeit weiterentwickelt oder ob ich daran verzweifeln sollte, wie komplex und schnell das alles geht. Inzwischen ist „Semantic Web“ ja schon so hype, dass es schwierig wird, die Spreu vom Weizen zu trennen.

UB Mannheim führt Social Tagging ein

21. Februar 2008 um 14:59 2 Kommentare

Das zweite Panel der Workshops Social Tagging in der Wissensorganisation am Institut für Wissensmendien am 21./22. Februar 2008 fasste vier Kurzvorträge unter dem Thema „Bibliotheken und Hochschulen“ zusammen.

Im ersten Vortrag führte Christian Hänger von der Universitätsbibliothek Mannheim mit „Tagging im Kontext Bibliothekarischer Sacherschließung“ an, welche Mehrwerte Social Tagging in Bibliotheken bringen kann, obwohl Bibliotheken Tagging in Form der kontrollierten Erschließung doch schon seit jeher betreiben. Durch Social Tagging können zum einen größere Mengen von Titeln zusätzlich erschlossen werden (zum Beispiel Artikel der Nationallizenzen). Zum anderen können neue Begrifflichkeiten schneller für das Retrieval verfügbar gemacht werden, während die Aufnahme neuer Begriffe in ein kontrolliertes Vokabular relativ lange dauert. Die Nachteile und Grenzens des Tagging bestehen jedoch nach Hänger in der höheren Unschärfe durch Homonyme und Synonyme und in schlechteren Ergebnissen als die Sacherschließung durch Experten.

An der UB Mannheim soll Social Tagging in einem kommenden DFG-Projekt in den OPAC eingebunden werden. Dabei soll unter Anderem untersucht werden, ob sich durch manuelles Tagging bessere Ergebnisse als durch automatische Erschließung erzielen lassen. Auch Misch- und Übergangsformen, wie zum Beispiel das Taggen mit Normdateien sollen ausprobiert werden. Als Tagging-Systeme werden sowohl BibSonomy als auch die Tagging-Funktion von ExLibris Primo eingesetzt.

Im Fazit brachte Christian Hänger seine Einschätzung bemerkenswert auf den Punkt: Tagging wird in Zukunft ein unverzichtbarer Bestandteil der bibliothekarischen Sacherschließung. Es ist jedoch kein Ersatz für bibliothekarische Sacherschließung, sondern eine Ergänzung.

Sicherlich lassen sich beide Aussagen bezweifeln: Möglicherweise ist Tagging für Bibliotheken irrelevant oder aber es wird die bibliothekarischen Sacherschließung überflüssig machen. Die Wahrheit lieht aber eher wie so oft in der Mitte – deshalb ist es sehr zu begrüßen, dass die UB Mannheim (Blog) das Thema Tagging in Bibliotheken einfach mal in die Hand nimmt und ausprobiert anstatt es tot zu diskutieren, um am Ende den Entwicklungen hinterherlaufen zu müssen!

Social Cataloging in Wikipedia

5. Dezember 2007 um 01:19 Keine Kommentare

Last week I gave an introduction into social tagging and cataloging for librarians (some German slides here at Slideshare). In a discussion on German Wikipedia about COinS I was pointed to the French Wikipedia: They have a special namespace référence to store more detailled bibliographic information (see MediaWiki-namespaces in general), some more information is collected in Projet:Références, but my French is too little to find out much. This example may demonstrate the concept:

The article „Première période intermédiaire égyptienne“ cites the source „Nicolas Grimal, Histoire de l’Égypte ancienne, 1988“. The citation provides a link to on a special page that lists several editions of the work. Actually this is another implementation of FRBR.

I like the idea of seggregating full bibliographic record and reference in the Wikipedia article, but the concrete solution is too complicated and limited. Wikipedia with flat text is just not the right tool to store bibliographic data. Maybe Semantic MediaWiki can help, but a multilingual approach like LibraryThing does is better. French Wikipedians should not have to duplicate cataloging efforts, but just point to LibraryThing, WorldCat or whatever bibliographic authority is usable. By the way most library catalouges are not usable in this sense – on the Web noone cares how good you data is if you cannot directly link to it and use it in other context.

Schlagwortnormdatei der New York Times als OPML

19. Oktober 2007 um 13:01 Keine Kommentare

Wie Lambert berichtet hat Amy Bellinger entdeckt, dass die New York Times ihre Schlagwortdatei mit 10522 subject headings als eine große OPML-Datei verfügbar macht, worüber Dave Winer ausführlicher berichtet. Die anschließende Diskussion ist etwas verstreut, unter anderem bei Flickr, bei Dave und bei Steven Cohen.

Second day at MTSR

18. Oktober 2007 um 18:46 Keine Kommentare

It is already a week ago (conference blogging should be published immediately) so I better summarize my final notes of the MTSR conference 2007: Beitrag Second day at MTSR weiterlesen…

Kombinierte Tagsuche als Feed

15. Oktober 2007 um 00:04 Keine Kommentare

So möchte ich auch mal Arbeiten: John Udell stellt in seinem eigenen Blog die eine Frage (wie verschiedene Dienste kombiniert nach einem Tag zu durchsuchen und die Treffer zu einem Feed zusammenfassen sind) und die Blogosphäre kommt herbei, um ihm Lösungen anzubieten. [via netbib]

Bibsonomy bietet API an

7. Oktober 2007 um 19:51 1 Kommentar

Der aus Kassel stammende Social Bookmarking und Catalouging-Dienst Bibsonomy bietet seit letzter Woche eine ziemlich umfangreiche, REST-basierte API an. Ein Client für JabRef ist auch schon erhältlich, allerdings anscheinend nur als Jar-File. Außerdem ist eine Java-API in Arbeit – auf der Projektseite zum Java-CLient ist übrigens schön das interne Datenmodell von Bibsonomy dargestellt.

Eine weitere Neuerung in Bibsonomy ist die Volltextsuche über alle (oder zumindest einige?) Metadatenfelder in einem gemeinsamen Index – dadurch ist beispielsweise Ego-Suche und die Suche nach konkreten Publikationen möglich – dabei fällt mir wieder die Menge an Duplikaten auf – also nicht immer nur auf den GBV schimpfen, Duplikate haben auch andere 😉

Ich habe die API bisher noch nicht ausprobiert, dafür ist (leider nicht unüblich) ein eigener Zugriffsschlüssel zu beantragen. Wenn ich mir so die API-Dokumentation anschaue, fehlt anscheinend bisher die Metadaten-Volltextsuche – ich hoffe, das kommt noch, denn auf diese Weise könnte automatisch nach einer gegebenen DOI, ISBN etc. gesucht und in Katalogen dynamisch eingeblendet werden, ob eine bestimmte Publikation schon in BibSonomy verzeichnet ist. Das Eintragen neuer Bookmarks und Referenzen aus Bibliothekskatalogen funktioniert ja schon – Voraussetzung dafür ist, dass der OPAC BibTeX exportieren kann.

Und der Fairness halber auch die Hinweise auf APIs einiger anderer Social Bookmarking und Cataloging-Dienste:Connotea API, CiteULike hat noch keine API, LibraryThing in Ansätzen (und es gibt Datenbankauszüge zum Download!), Del.icio.us API, Mister Wong hat keine API, Digg hat eine

Und dann bin ich bei der Recherche noch auf den tollen Backlink-Service Xinureturns.com gestoßen, die Nutzen wahrscheinlich statt APIs eher eigene Scraper, die Informationen aus HTML-Seiten extrahieren – das geht natürlich auch immer, ist aber meist aufwändiger und fehleranfälliger.

Yet another semantic tagging application

14. September 2007 um 02:11 3 Kommentare

I just found another semantic tagging application: SemKey is also a Firefox-Plugin like EntityDescriber that I just wrote about. SemKey uses WordNet and Wikipedia as controlled vocabularies and help you to find the appropriate entry in them. Maurizio Tesconi and his colleauges describe SemKey in their paper SemKey: A Semantic Collaborative Tagging System at the WWW2007 Workshop on Tagging and Metadata for Social Information Organization (other papers linked here).

But the authors of SemKey don’t cite Gabrilovich and Markovitch (2006): Overcoming the brittleness bottleneck using Wikipedia: Enhancing text categorization with encyclopedic knowledge which is highly related (see also the following paper of Gabrilovich and Markovitch). Looks like both Marchetti et al. and their reviewers of the WWW 2007 workshop don’t know about their subject area. The feedback on SemKey is also little: This is science 1.0 about Web 2.0. Researchers 2.0 publishe their work on weblogs and preprint archives or even dare to fight in the jungle of Wikipedia to push forward knowledge instead of citation rank.

The Steve.museum tagging project

13. September 2007 um 22:56 1 Kommentar

Steve.museum is a tagging project that has been active for more then a year by now. Unlike other artificial prototype-tagging-research projects it is based on real world data: works of art in museum collections. Moreover its not available only by pictures in research-papers but available at sourceforge (written in PHP). More news about the project can be found at the Mailing list and the blogosphere. I stumbled upon jtran’s blog and his report from ASIST SIG-CR workshop on social cassification that took place in Texas last year. Hopefully someone from the steve.museum team will participate in Dublin Core conference 2008 or some other event the I participate!

Tagging enriched with controlled vocabularies

10. September 2007 um 03:36 7 Kommentare

For Connotea there was published „Entity Describer“ (ED), an add-on tool that allows taggers to select terms from a controlled vocabulary such as MeSH. Background information can be found in the blog of its developer Benjamin Good. Up to now Entity Describer can only be used via a Greasemonkey script. [via Catalogoblog and netbib]

I bet soon there will be more tagging applications that support controlled vocabularies. For instance Sarah Hayman and Nick Lothian plan to extend the Education Network Australia (edna) with – how they call it – taxonomy-directed folksonomy. See their IFLA-Paper (that Patrick pointed me to) for more information.

Benjamin Good also wrote a paper about his work on ED and published it on his blog before even recieving reviewers comments. I like the following discussion on whether and how to publish it – a nice example of the changes in academic publishing. Now the paper is best available as preprint, identified with hdl:10101/npre.2007.945.1 and licensed under the Creative Commons Attribution 2.5 License (!). Thanks Benjamin and thanks to Nature for making this possible!

I already cited the work in an ongoing discussion about the Wikipedia-Article „Folksonomy. The discussion is mostly about words and I hate it. Good et al also contribute in confusion: Why do they have to introduce a new term („Semantic annotation means the association of a data entity with an element from a classification scheme“) instead of using existing vocabulary? A look at my typology of tagging systems could help clarification.

Well… or maybe tagging researchers just like to add synonyms and polysems because they are so used to them – a folksonomy will emerge anyhow so just call it how you like… 🙁