Was ist Semantisches Tagging?

26. Februar 2008 um 14:19 10 Kommentare

In Anschluß an den sehr fruchtbaren Workshop Social Tagging in der Wissensorganisation (Program und weitere Berichte von Mandy Schiefner, bei Joachim Wedekind und Johannes Moskaliuk) schreibe ich grade an einem Artikel über “Semantic Tagging”. Im Zusammenhang mit Social Tagging wurde das Thema Semantic Web zwar immer wieder genannt und die Beiträge dazu im letzten Panel waren alle interessant; wie den nun konkret beide Welten zusammenkommen sollen, blieb aber abgesehen vom Vortrag von Rolf Sint und Georg Güntner von Salzburg Research) über das Terminologie-Modul im Projekt LIVE etwas vage – vielleicht liegt das auch an meiner Technik-zentrierten Sicht, auf Implementierungen und Spezifikationen.

So wie ich das LIVE-Projekt verstanden habe, sollen bei der Olympiade 2008 sportliche Ereignisse “live” verschlagwortet werden, wobei freie Tags zeitnah mit Hilfe eines Thesaurus-Editors in die “Ontologie” eingearbeitet werden; das ganze basiert auf SKOS und ist damit weitgehend Semantic-Web-kompatibel – und ein Beispiel für Semantic Tagging. Mit Social Tagging hat das Projekt allerdings nur noch wenig zu tun. Falls sich dennoch normale Nutzer am Tagging der PR-Olympiade beteiligen dürfen, hier mal ein Vorschlag für die Tag-Cloud:

2008 Bronze Doping Gold Menschrechtsverletzung Propaganda Peking Silber Sponsor

Aber zurück zum Semantischen Tagging: Die Bezeichnung ist eigentlich schon aus der Linguistik besetzt; dort wird unter Semantic Tagging die Erkennung und Auszeichnung von Namen und syntaktischen Strukturen in einem Text verstanden. Ein sehr einfaches Beispiel aus dem Web sind semantische HTML-Tags wie em, strong und cite; eine andere Form semantischen Taggings im Web, die eher in Richtung Auszeichnung von Daten geht, sind Mikroformate. Von dort lässt sich zwar wieder der Bogen zum Semantic Web spannen, aber eigentlich ist semantisches Tagging im Linguistischen Sinne etwas anderes: Gegeben ist ein Text, in dem einzelnen Bestandteile wie Subjekt, Objekt, Nebensatz, Personennamen etc. als solche markiert werden. Beim Social Tagging werden dagegen freie Tags an einen gesamten Text (oder ein anderes Objekt) angehängt, um seinen gesamten Inhalt zu beschreiben. Irgendwo sollte sich deshalb zwischen Semantischem Tagging innerhalb eines Textes und Semantischem Tagging als (Social) Tagging mit expliziter Semantik eine Grenze ziehen lassen.

Dachte ich. Bis ich entdeckt habe, was die Nachrichtenagentur Reuters Ende Januar online gebracht hat: Mit der kostenlosen Web-API “Calais” lassen sich Texte analysieren, indem Reuters Namen, Orte, Zahlen und andere Angaben extrahiert (siehe API-Dokumentation) und mit RDF auszeichnet. [via Taxonomy Watch] Ob die gefundenen Entitäten auch gleich mit URIs versehen werden oder ob nur ausgezeichnet wird, dass es sich beispielsweise um einen Firmennamen handelt, habe ich noch nicht rausgefunden – in jedem Fall dürften die extrahierten Terme gute Vorschläge für semantisches Tagging abgeben. Zum Ausprobieren kann dieses Formular verwendet werden.

Ach herrje – Ich weiß manchmal nicht, ob ich begeistert sein soll, in welch spannender Weise sich das Web zur Zeit weiterentwickelt oder ob ich daran verzweifeln sollte, wie komplex und schnell das alles geht. Inzwischen ist “Semantic Web” ja schon so hype, dass es schwierig wird, die Spreu vom Weizen zu trennen.

Semantic Wiki Workshop

5. Februar 2008 um 20:30 Keine Kommentare

The 5th European Semantic Web Conference (ESWC) at the beautiful island of Tenerife (June 1st to 5th 2008) will host the 3rd Semantic Wiki Workshop (SemWiki2008). Forget about specialized ontology editors – Wikis are the smarter way to edit information for the Semantic Web! Deadline for submission of research papers, position papers, and system demonstrations is February 22th. Unfortunately I have another meeting the same days, but you should consider to participate!

Encoding ISO 3166 in RDF with SKOS

29. Januar 2008 um 00:56 Keine Kommentare

Last year at the 2nd International Conference on Metadata and Semantics Research (MTSR 2007) I gave a talk about the Simple Knowledge Organisation System (SKOS) and its application to encode ISO 3166 country codes. The revised paper “Encoding changing country codes for the Semantic Web with ISO 3166 and SKOS” is finally ready to appear in the post-proceedings. The preprint is accessible at http://arxiv.org/abs/0801.3908. I raised three issues (notations, nesting concept schemes, and versioning) that are not included in the current SKOS draft – but the proposed solutions are compliant, beside the nesting of concept schemes with the RDF property skos:member – which could be possible by making skos:ConceptScheme a RDF subclass of skos:Collection. Therefore the paper can also be used as a general introduction to SKOS, especially to encode authority files. More details in the paper and at the public-esw-thes@w3.org mailing list. SKOS is going to become a W3C recommendation this year.

First draft of OAI-ORE

30. Dezember 2007 um 18:06 Keine Kommentare

“Web 3.0″ (or “Semantic Web” – use the buzzword of your choice) is slowly on the raise. Two weeks ago the first public draft of OAI-ORE was published and Mike Giarlo published an OAI-ORE-Plugin for WordPress – I have not actually tried it, but as far as I understand one could add RFC 5005 to OAI-ORE to support large resource sets. Or is OAI-PMH enough? Well, in the end it depends on the availability of software libraries, client and the ease of connecting it with other services. After my fancy there are still too much generalized data models but we need concrete implementations – it was not RDF and OWL but Microformats that got the Web of data started (yes, we’re in it: the next hype after “Web 2.0″). For 2008 I wish less abstract meta-meta-meta-stuff but, more little usable applications and services that can be combined.

Semantic Web aus Bibliothekssicht

14. Oktober 2007 um 23:00 2 Kommentare

Ben weist im IB-Weblog auf einen Beitrag von Allen Cho hin, der Web 3.0-Librarian-Weblog von hin, der mit Dean Giustini den Artikel The Semantic Web as a Large, Searchable Catalogue: A Librarian’s Perspective verfasst hat. Abgesehen davon, dass sie aus meiner Sicht mit einigem Durcheinander und Fehlurteilen ahnen lassen, dass über das Semantic Web ebenso viel Übertreibungen und Unsinn verbreitet werden wird, wie über Web 2.0, enthält der Artikel trotz Übertreibungen eine richtige Kernaussagen: Dokumentarische Erschließung und Semantic Web haben viele Gemeinsamkeiten. Oder wie die Autoren schreiben:

The Resource Description Framework (RDF), a method of connecting URIs in a meaningful way, is the key to making the Semantic Web possible. Making connections among and between documents and ideas is something librarians do for a living.

Nur: wieviele Bibliothekare haben sich wenigstens mal mit RDF auseinandergesetzt und zumindest die wichtigsten Eigenschaften (URIs, Unicode, Triples) verstanden? Wenn man daran denkt, welch Schattendasein FRBR nach über einem Dutzend Jahren noch immer fristet und wie noch immer eher diskutiert statt ausprobiert wird, kann man schon stark daran zweifeln, ob an der folgenden Prognose etwas dran ist:

Many of the same techniques of bibliographic control apply to the possibilities of the Semantic Web. It was the computer scientists and computer engineers who had created Web 1.0 and 2.0, but it will ultimately be individuals from library science and information science who will play a prominent role in the evolution of organizing the messiness into a coherent whole for users.

Zumindest mit “individuals from library science and information science” haben Sie recht.

Presentation about versioned ISO-3166 in SKOS

11. Oktober 2007 um 00:03 1 Kommentar

Unlike my usual habbits and thanks to W-LAN in the hotel, the slides of my presentation Encoding changing country codes in RDF with ISO 3166 and SKOS at the second International Conference on Metadata and Semantics Research (MTSR2007) are ready and online even before the conference started! The full, detailed paper is not online yet because I am revising and correcting it (I found a very relevant paper after submission). And the serendipity effect of slideshare works: looking for other presentations about SKOS I stumbled upon the very interesting slides of Sebastion Kruk who works in the Corrib project on semantic web and digital libraries.
P.S: A preprint of the revised paper is available at arXiv.org.

Neuigkeiten aus dem Wikipedia-Projekt

2. Oktober 2007 um 12:23 Keine Kommentare

Soeben ist der erste KIM-DINI-Technology-Watch-Report (ISSN 1865-3839) herausgekommen, in dem auf 35 Seiten aktuelle Entwicklungen aus dem Bereich Standards und Standardisierungender digitalen Informationsversorgung zusammengefasst werden. Ich habe einen Beitrag zu aktuellen Neuigkeiten aus dem Wikipedia-Projekt beigesteuert, den ich an dieser Stelle ebenfalls veröffentlichen möchte. Genannt werden Maßnahmen zur Qualitätssicherung und die Extraktion von Daten aus Wikipedia für das Semantic Web:
Beitrag Neuigkeiten aus dem Wikipedia-Projekt weiterlesen…

Mashups zusammenklicken mit Mashup-Editoren

25. September 2007 um 01:17 Keine Kommentare

Wie heise vermeldet (und viele andere, darunter Talis in einer Semantic-Web-Linkliste) gibt es mit Intels Mashup Maker nach Google Mashup Editor schon den zweiten großen (noch-)Vaporware-Mashup-Editor. Weitere dieser webbasierten, graphischen Benutzeroberflächen, mit denen sich verschiedene Datenquellen verknüpfen und relativ einfach Skripte zur automatischen Verarbeitung und Anreicherung von Daten erstellen lassen, sind Yahoo Pipes, Microsoft Popfly, QEDWiki und Piggy Bank – je weiter man die Definition fasst, desto mehr Tools zur Datenextraktion und Informationsintegration gibt es. Mit dem Trend, immer mehr Daten überhaupt irgendwie strukturiert (Microformats, unAPI etc.) oder sogar in einer gemeinsamen virtuellen Datenbank (Semantic Web) anzubieten, dürfte das Gemische noch mehr zunehmen – nach dem ersten großen Rausch sollte dann allerdings hoffentlich auch klar werden, dass Themen wie Informationsqualität und Data Lineage (=woher stammen die Daten eigentlich?), Datenvisualisierung und Interface-Design ebenfalls wichtig sind und dass Daten ohne (sozialen) Kontext erstmal keinen Mehrwehrt dastellen, egal wie toll sie gemischt werden.

In jedem Fall interessant zu sehen, dass nicht mehr nur Informatiker Daten hin- und herschieben können. Die Bibliothekare sind nicht die Einzige Zunft, deren praktische Tätigkeit mehr und mehr von Laien beherrscht wird, während der theoretische Hintergrund erstaunlich unbekannt bleibt ;-)

P.S.: Bei all den verschiedenen Mashup-Diensten muss natürlich irgendwann wieder vereinheitlicht werden: Netvibes hat mit der Universal Widget API (UWA) eine JavaScript-API vorlgelegt, mit deren Hilfe Anwendungen auch bei iGoogle, Apple Dashboard u.A. eingesetzt werden können. Fehlt nur noch ein universeller Mashup-Editor, der UWA ausspuckt. Kommen jetzt nach dem Browserkrieg die Mashup-Kriege? [via heise]

Tagging enriched with controlled vocabularies

10. September 2007 um 03:36 7 Kommentare

For Connotea there was published “Entity Describer” (ED), an add-on tool that allows taggers to select terms from a controlled vocabulary such as MeSH. Background information can be found in the blog of its developer Benjamin Good. Up to now Entity Describer can only be used via a Greasemonkey script. [via Catalogoblog and netbib]

I bet soon there will be more tagging applications that support controlled vocabularies. For instance Sarah Hayman and Nick Lothian plan to extend the Education Network Australia (edna) with – how they call it – taxonomy-directed folksonomy. See their IFLA-Paper (that Patrick pointed me to) for more information.

Benjamin Good also wrote a paper about his work on ED and published it on his blog before even recieving reviewers comments. I like the following discussion on whether and how to publish it – a nice example of the changes in academic publishing. Now the paper is best available as preprint, identified with hdl:10101/npre.2007.945.1 and licensed under the Creative Commons Attribution 2.5 License (!). Thanks Benjamin and thanks to Nature for making this possible!

I already cited the work in an ongoing discussion about the Wikipedia-Article “Folksonomy. The discussion is mostly about words and I hate it. Good et al also contribute in confusion: Why do they have to introduce a new term (“Semantic annotation means the association of a data entity with an element from a classification scheme”) instead of using existing vocabulary? A look at my typology of tagging systems could help clarification.

Well… or maybe tagging researchers just like to add synonyms and polysems because they are so used to them – a folksonomy will emerge anyhow so just call it how you like… :-(

Blogtip und Programmtip

2. August 2007 um 20:30 Keine Kommentare

Unter www.microformats.dk betreibt Søren Johannessen ein kleines, feines Blog über Mikroformate und Mashups, auf dass ich dank Trackback gestoßen bin. Einiges versteht man vom Dänischen auch so und im Zweifel ist der persönliche Nachbarländer des Vertrauens zu fragen (eine Automatische Übersetzung Dänisch-Deutsch würde mich wundern, da ist einfach der Markt nicht groß genug). Dänen habe ich hier auf der Wikimania bisher nicht getroffen aber neben Taiwanesen viele andere Nationalitäten. Die Erfahrung, mal so völlig Ausländer zu sein, weder Sprache noch Schrift noch die besonderen Gewohnheiten zu verstehen, ist für mich doch noch etwas neues und sehr interessant. Heute habe ich fast den ganzen Tag damit verbracht, das Programm für morgen fertigzustellen (hier die Endversion als PDF) und mich danach noch an meinen eigenen Vortrag gesetzt. Dafür war das Abendessen in einem guten vegetarischen (sic!) Restaurant phänomenal. Mit umgerechnet 18 Euro war das überaus umfangreiche Buffet eher am oberen Ende der Preisskala, ich habe auch schon sehr lecker für etwa 1,50 mich an Dumplings sattgegessen. Das Taiwanesische Essen ist kurzgesagt unglaublich vielfältig und lecker.

Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds. Valid XHTML and CSS. ^Top^