Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 4 Kommentare

Wie am Freitag bekanntgegeben wurde hat die Universitäts- und Stadtbibliothek Köln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa 1,3 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits länger von verschiedener Seite gefordert worden – zuletzt in einem guten Einführungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die Gründung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und über die Einrichtung einer eigenen Wiki-basierten Bibliografie ähnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekündigt, ein “Lizenzmodell, das die freie Verwendung der Metadaten garantiert” zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im großen Maßstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne Einschränkung weitergenutzt werden können.

Wie geht es nun weiter? Zunächst hoffe ich, dass bald weitere Bibliotheken und Bibliotheksverbünde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nächste Schritt besteht darin, die Daten so umzuformen, dass tatsächlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk “Semantic Web” in die Kataloge bringt. Darüber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschlußreichen Artikel geschrieben: Open Data bringt ähnlich wie Open Source Vorteile, da Fehler und Lücken besser gefunden und ausgebessert werden können. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung für die Daten übernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Änderungen angebracht werden können, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch für Beiträge von Dritten offen ist; für weitere bibliografische Datenbestände ist aber eine kollaborative Infrastruktur notwendig, über die Außenstehende leicht Verbesserungen vornehmen können, ohne ein vollständiges Bibliothekssystem installieren zu müssen.

In jedem Fall freue ich mich über den ersten großen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, möchte ich nur kurz hinweisen: Für Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt übermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen möchte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.

Sita Sings the Blues – ein filmisches Meisterwerk

21. Februar 2010 um 16:15 Keine Kommentare

Gestern haben wir aus dem Internet Archive den Film Sita Sings the Blues gesehen. Der Animationsfilm erzählt in feministischer Lesart das indische Nationalepos Ramayana und ist in mehrfacher Hinsicht ein bemerkenswertes und unterhaltsames Meisterwerk.

Sita Sings the Blues wurde größtenteils als Eine-Frau-Projekt von der Comiczeichnerin Nina Paley geschrieben, produziert und animiert. In vier unterschiedlich animierten Handlungsebenen wird die mehrere Tausend Jahre alte Geschichte von Rama und Sita erzählt: Rama wird von seinem Vater in die Verbannung geschickt. Seine Frau Sita begleitet ihn, wird jedoch vom Dämonenkönig Ravana nach Lanka entführt. Mit Hilfe des Affengenerals Hanuman kann Rama Sita befreien, verstößt sie jedoch danach, weil er befürchtet, dass sie “unrein” geworden sei.

Einige Szenen der Geschichte werden mit gemalten Bildern dargestellt und parallel von indischen Schattentheater-Figuren erzählt. Die Schattentheater-Figuren lockern die historische Darstellung dadurch auf, dass sie die Details der Geschichte aus heutiger Sicht humorvoll kommentieren und diskutieren. Die wichtigsten Szenen sind in einem anderen Stil animiert und mit Stücken der amerikanischen Jazz-Sängerin Annette Hanshaw (1901-1985) unterlegt. Die vierte Handlungsebene spielt in der Gegenwart und erzählt autobiographisch die Trennung von Nina und ihrem Ex-Mann, der einen Job in Indien angenommen hat.

Hier vier Bilder der unterschiedlichen Animationsstile (Ein Trailer kann u.A. bei YouTube eingesehen werden):


Bild aus Sita Sings the Blues
Bild aus Sita Sings the Blues
Bild aus Sita Sings the Blues
Bild aus Sita Sings the Blues

Die Animationen passen stilistisch hervorragend zur Erzählung, statt wie bei vielen computeranimierten 3D-Filmen durch Wow-Effekte von der Geschichte (bzw. deren Nicht-Vorhandensein) abzulenken. Bemerkenswert ist nicht nur die Entstehungsgeschichte, die zeigt dass keine großen Filmstudios und Budgets für gute Filme notwendig sind, sondern auch die Art und Weise wie einfühlsam, unaufdringlich und unterhaltsam das Ideal der treuen und moralisch untadeligen Ehefrau kritisiert wird. Ich finde es toll, wie Nina Paley die bekannte Trennungserfahrung dazu nutzt, das im westlichen Kulturkreis wenig bekannte Ramayana-Epos und die nicht unbedingt bekanntere aber grandiose Sängerin Annette Hanshaw einem größeren Publikum nahe zu bringen.

Nina Paley zeigt mit Sita Sings the Blues, dass das kulturelle Erbe der Menschheit davon lebt, ständig weitererzählt und an die Gegenwart angepasst zu werden. Deshalb hat sie ihren Film auch unter der CC-BY-SA-Lizenz zur Verfügung gestellt. Davon ausgenommen sind leider die Aufnahmen von Annette Hanshaw aus den 1920ern, die im Film eine tragende Rolle spielen. Es ist unter anderem dem Filmkritiker Roger Ebert zu verdanken, dass überhaupt eine Einigung erzielt werden konnte. Paley musste extra einen Kredit von 50.000$ aufnehmen, um den eigenen Film freizubekommen. Damit ist die Welt nicht nur um einen wunderbaren Film, sondern auch um eine starke Copyright-Kritikerin reicher (P.S: siehe auch die viertelstündige Dokumentation The revolution will be animated).

Bibliothekskataloge für mobile Endgeräte

27. Januar 2010 um 18:40 21 Kommentare

Nach der Anfang November 2009 vorgestellten Delphistudie “Zukunft und Zukunftsfähigkeit der Informations- und Kommunikationstechnologien und Medien” werden ab 2015 in Deutschland mehr Menschen das Internet regelmäßig über mobile Endgeräte als über stationäre Computer nutzen. Was das für Bibliotheken bedeutet, wird im englischsprachigen Ausland schon länger diskutiert, beispielsweise in Always on: Libraries in a world of permanent connectivity (Lorcan Dempsey, Januar 2009) und im mobile libraries blog. In Deutschland waren mobile Dienste unter Anderem auf dem BibCamp Thema und werden regelmäßig im Blog der Zukunftswerkstatt und in anderen Teilen der Biblioblogosphäre behandelt, z.B. bei Medinfo und in netbib.

Während der Bibliothekskongress 2010 schweigt, wurde auf dem ALA Midwinter Meeting von LibraryThing ein Angebot vorgestellt, dessen Preisliste nun vorliegt: für einige Hundert bis Tausend Dollar im Jahr stellt LibraryThing jeder beliebigen Bibliothek eine mobile Version ihres OPACs zur Verfügung. Wie das ganze technisch funktionieren soll, wird nicht erklärt, es ist nur von “90% aller OPACs” die Rede und es werden Bibliotheken als Erstanwender gesucht – interessierte deutschsprachige Bibliotheken bitte vor!

Während einige Bibliotheken ihr gesamtes Angebot in Form einer iPhone-App zur Verfügung stellen (die ZB Med Köln angeblich auch – weiß jemand mehr?), geht der Trend insgesamt eher dahin, die Webseiten der Bibliothek so zu gestalten, dass sie auch (oder speziell) für mobile Endgeräte einfach zu verwenden sind. Dazu muss eine auf mobile Endgeräte angepasste Version des Katalogs erstellt werden, die automatisch durch Erkennung des User-Agent oder unter einer eigenen, URL (meist m.domain statt www.domain) erreichbar ist. Während die mobilen Katalogseiten 2008 noch eher spartanisch aussahen, ist inzwischen – zumindest bei anderen Unternehmen – eine Optik im iPhone-Stil Standard. Die im Library Success Wiki aufgeführten mobilen Katalogoberflächen sehen zwar weniger schick aus, sind aber dafür auch für Menschen mit älteren Handys nutzbar, die sich noch kein iPhone oder vergleichbares Handy für den mobilen Internetzugang leisten können.

Auffällig ist in jedem Fall, dass deutsche Bibliotheken nicht gerade Vorreiter dabei sind, ihre Kataloge auch für mobile Endgeräte anzupassen – eine diesbezügliche Anfrage von Christan Hauschke blieb weitgehend unbeantwortet. Das liegt unter Anderem daran, dass der Katalog zu oft noch als ein monolithisches System verstanden wird – die Idee der Serviceorientierten Architektur ist nicht angekommen. Anstatt auf offene Schnittstellen und Standards zu setzen, werden mit Primo, Touchpoint und diversen andere kommerziellen “Discovery-interfaces” neue Einbahnstraßen zu IT-Systemen eingeschlagen, die am Ende niemand anpassen und warten kann und/oder will (während ich bei Primo nichts dergleichen gefunden habe, enthält die aktuelle Entwicklungsversion von VuFind dagegen übrigens eine Mobil-Oberfläche).

Ich vermute, dass LibraryThing mit ihrem Angebot auf Schnittstellen wie SRU und Z39.50 zurückgreift und so auf ein bestehendes lokales Bibliothekssystem aufbauen kann anstatt dieses zu ersetzen. Das hieße jedoch, dass aktuelle Ausleihinformationen außen vor bleiben, solange keine Schnittstelle für Verfügbarkeitsdaten etabliert ist. Falls eine Bibliothek auf die gleiche Weise selber einen mobilen Bibliothekskatalog entwickeln möchte, habe ich als Vorlage für die weitere Progammierung eine Mobilversion für PICA-Systeme erstellt. Die Suche läuft standardmäßig über die SRU-Schnittstelle des GVK und kann bei Bedarf auf einzelne Bibliotheken eingeschränkt werden. Der Quellcode (PHP, HTML, CSS) steht unter der AGPL frei, so dass Verbesserungen auch Anderen zugute kommen.

First complete draft of DAIA Ontology

7. Januar 2010 um 19:06 2 Kommentare

I just finished the first complete draft of an OWL ontology of the DAIA data model. Unless the final URI prefix is sure, the ontology is available in GBV Wiki in Notation3 syntax, but you can also get RDF/XML. There is also a browsable HTML view created with OWLDoc (I only wonder why it does not include URI prefixes like in the same view of the Bibliographic Ontology).

It turned out that mapping the XML format DAIA/XML to RDF is not trivial – although I kept in mind doing so when I designed DAIA. XML is mostly based on a closed world tree data model but RDF is based on an open world graph model. Last month Mike Bergman wrote a good article about the clash of Open World Assumption and Closed World Assumption. I think as long as you only view data in form of tables, lists, and trees, you will not grasp the concept of the Semantic Web. I don’t know whether I have fully grasped the concept of document availability with DAIA and the ontology surely needs some further review, but it’s something to start with – just have a look!

Freie Bibliotheksdaten mit Wikipedia und OpenStreetmap

3. Dezember 2009 um 01:29 6 Kommentare

Seit über 5 Jahren versuche ich fachkundige Menschen aus dem Bibliotheks- und Dokumentationswesen (bzw. mit Interesse an Bibliotheken und Dokumentation) zur Mitarbeit an Wikipedia zu begeistern. Das Portal Bibliothek, Information, Dokumentation fasst Wikipedia-Artikel aus diesem Themenbereich zusammen; gleichwohl ist die Zahl der aktiven Wikipedia-Autoren mit Bibliothekshintergrund überschaubar oder die Autoren schreiben lieber in anderen Bereichen. In den letzten Wochen und Tagen ist nun wieder etwas Schwung in den bibliothekarischen Bereich der Wikipedia gekommen:

Peter Kostädt im Magisterstudiengang Library and Information Science (MALIS) die Arbeitsaufgabe gestellt, einen Wikipedia-Artikel zu verfassen. Inzwischen sind die ersten Beiträge bei Wikipedia eingestellt und können dort ergänzt und umgearbeitet werden. Bislang sind dies unter anderem Artikel zur Open Library, zur E-LIB Bremen und zu DigiAuskunft. Natürlich ist jeder dazu eingeladen, die Artikel (wie alle anderen Inhalte in Wikipedia) zu ergänzen oder anderweitig zu verbessern. Mit etwas Vorbereitung können auch neue Artikel angelegt werden; so fehlen z.B. So fehlen beispielsweise Artikel zu so grundlegenden Begriffen wie Büchereifachstelle, Fachreferent, Lektoratskooperation und Universitätsverlag.

Zu einzelnen Bibliotheken gibt es in Wikipedia derzeit 580 Artikel (653-64), die in eine facettierte Systematik aus 64 Kategorien eingeordnet sind. Zur Angabe der Grunddaten in strukturierter Form habe ich die Infobox Bibliothek aktualisiert, so dass sie zum Beispiel über DBpedia ins Semantic Web übernommen werden können – so entsteht in Wikipedia ein freier Bibliotheksführer. Wie die Übersicht zeigt, gibt es noch viele Lücken und einige Artikel sind für meinen Geschmack zu affirmativ geschrieben – aber nicht kritisieren sondern selber besser machen! Als Richtlinie gibt es inzwischen auch spezifische Hinweise für Artikel über Bibliotheken.

Nicht nur in Wikipedia werden Bibliotheken gesammelt; auch bei dem vergleichbaren freien Kartenprojekt OpenStreetmap (OSM) sind innerhalb Deutschlands schon 1546 Bibliotheken und weltweit 18415 Bibliotheken verzeichnet. Allerdings sind nur etwa 5% auch explizit einzelnen Gebäuden zugeordnet während die Mehrzahl nur als Punktkoordinate erfasst ist. Zur Verknüpfung von OpenStreetmap, Wikipedia und dem ISIL/Sigelverzeichnis habe ich angeregt, die international gültige ISIL als Identifier in OpenStreetmap einzutragen. Details dazu im OSM-Wiki. Bislang sind etwa 40 Bibliotheken in OSM mit ISIL ausgezeichnet. Die Mitarbeit in OSM (z.B. um fehlende Bibliotheken einzutragen und mit ihrer ISIL zu taggen) steht ebenso wie bei Wikipedia jedem frei und die Ergebisse kommen allen zugute.

Neben Wikipedia, OSM und dem Sigelverzeichnis gibt es noch eine Reihe weiterer Verzeichnisse von Bibliotheksdaten (ich hatte im März darüber geschrieben). In libwebcat sind beispielsweise derzeit 112 Deutsche Bibliotheken vertreten. Zu den (bislang?) nicht frei zugänglichen Quellen zählen BibDir und das VdB-Jahrbuch. Weshalb hier mal wieder zahlreiche Systeme parallel gepflegt und sinnlos bibliothekarische Ressourcen verschwendet werden, lässt sich wahrscheinlich nur historisch oder politisch begründen. Die Bibliotheksdaten in Wikipedia und OpenStreetmap können jedenfalls dank der freien Lizensierung (CC-BY-SA wenn nicht sowieso Public Domain) problemlos weiterverwendet und kombiniert werden.

P.S.: Ein weiteres Verzeichnis von Bibliotheksdaten enthält das “internationale Linkportal” Bib-Link. Die Linksammlung ist jedoch nicht als gesamte Datenbank downloadbar und wäre besser in einer Social-Cataloging-Plattform aufgehoben.

How to encode the availability of documents

23. Oktober 2009 um 12:50 Keine Kommentare

Since almost a year I work on a simple encoding format and API to just get the current (!) availability status of documents in libraries. Together with Reh Uwe (hebis network) and Anne Christensen (beluga project) we created the Document Availability Information API (DAIA) which is defined as data model with encoding in XML and JSON (whichever you prefer).

This week I finished and published a reference implementation of the DAIA protocol as open source Perl-module at CPAN. The implementation includes a simple DAIA validator and converter. A public installation of this validator is also available. The next tasks include implementing server and client components for several ILS software. Every library has its own special rules and schemas – Jonathan Rochkind already wrote about the problems to implement DAIA because of ILS complexity. We cannot erase this complexity by magic (unless we refactor and clean the ILS), but at least we can try to map it to a common data model – which DAIA provides.

Core components of the DAIA data model

With the DAIA Perl package you can concentrate on writing wrappers from your library systems to DAIA and easily consume and evaluate DAIA-encoded information. Why should everyone write its own routines to grab for instance the HTML OPAC output and parse availability status? One mapping to DAIA should fit most needs, so others can build upon. DAIA can not only be helpful to connect different library systems, but also to create mashups and services like “Show me on a map, where a given book is currently hold and available” or “Send me a tweet if a given books in my library is available again” – If you have more cool ideas for client applications, just let me know!

In the context of ILS Discovery Interface Task Force and their official recommendation DAIA implements the GetAvailability method (section 6.3.1). There are numerous APIs for several tasks in library systems (SRU/SRW, Z39.50, OpenSearch, OAI-PMH, Atom, unAPI etc.) but there was no open, usable standard way just to query whether a copy of given publication – for instance book – is available in a library, in which department, whether you can loan it or only use it in the library, whether you can directly get it online, or how long it will probably take until it is available again (yes, I looked at alternatives like Z39.50, ISO 20775, NCIP, SLNP etc. but they were hardly defined, documented, implemented and usable freely on the Web). I hope that DAIA is easy enough so non-librarians can make use of it if libraries provide an API to their system with DAIA. Extensions to DAIA can be discussed for instance in Code4Lib Wiki but I’d prefer to start with this basic, predefined services:

  • presentation: an item can be used inside the institution (in their rooms, in their intranet etc.).
  • loan: an item can be used outside of the institution (by lending or online access).
  • interloan: an tem can be used mediated by another institution. That means you do not have to interact with the institution that was queried for this item. This include interlibrary loan as well as public online ressources that are not hosted or made available by the queried institution.
  • openaccess: an item can be used imediately without any restrictions by the institution, you don’t even have to give it back. This applies for Open Access publications and free copies.

Übersicht Social-Cataloging-Plattformen

12. Oktober 2009 um 22:39 4 Kommentare

Anknüpfend an die inzwischen schon etwas veraltete Übersicht webbasierter Literaturverwaltung und an die provokante Frage, ob und wie Bibliotheken das Katalogisieren lieber den Nutzern überlassen sollten, habe ich zusammen mit Silvia Czerwinski folgende Übersicht von Social-Cataloging-Plattformen zusammengestellt. Ausgenommen sind an dieser Stelle Dienste zur gemeinsamen (wissenschaftlichen) Literaturverwaltung wie Mendeley, CiteULike, Connotea und BibSonomy sowie webbasierte OpenSource-Software wie WIKINDX und Aigaion.

Die größten Social-Cataloging Plattformen für Bücher sind LibraryThing und GoodReads gefolgt von ähnlichen Dienste wie aNobii (benannt nach dem Bücherwurm Anobium Punctatum) und Shelfari. Im Open Library Project wird ebenfalls gemeinsam katalogisiert, wobei automatische Massenimports den Großteil ausmachen. Daneben gibt es Buch-Communities wie weRead (vor allem verbreitet in Sozialen Netzwerken wie Facebook, Orkut, MySpace etc.), bookJetty und BookCrossing sowie aus dem deutschsprachigen Raum Quillp und Lovelybooks. Bei diesen Communities handelt es sich jedoch nicht um vollständige Katalogisierungsplattformen, da hier nur persönliche Listen, Bewertungen und Kommentare zu bereits vorhandenen Büchern angelegt werden können. Dafür bietet Quillp die Möglichkeit, eigene Manuskripte hochzuladen und von anderen Lesern bewerten zu lassen. Die Verknüpfung mit Bibliotheken ist vor allem bei LibraryThing und bei bookJetty ausgeprägt.

Die Inhalte des größten und einflussreichsten Filmkatalogs, der Internet Movie Database (IMDb), werden ebenfalls von den Benutzern gesammelt. ImDb ist im Besitz von Amazon.com, das auch Shelfari und über Abebooks eine 40%ige Beteiligung an Librarything hält. Weitere Film-Communities ohne Katalogisierungsmöglichkeit sind u.a. Flixster und Criticker.

Zur gemeinschaftlichen Katalogisierung von Audio-Publikationen (vor allem Musik) gibt es Discogs, MusicBrainz, MusicMoz und freeDB. Im Gegensatz zu reinen Musik-Communities wie Last.fm und Rate Your Music steht nicht die Bewertung, Kommentierung und Gruppierung von Musik im Mittelpunkt, sondern die Erschließung von Künstlern, Gruppen, Stücken, Veröffentlichungen und Herausgebern. Eine Zusammenarbeit mit Institutionen wie dem Deutschen Musikarchiv oder der GEMA findet – abgesehen von der gegenseitigen Verwendung als Quelle – bislang nicht statt.

Herausragend in der Tiefenerschließung sind Social-Cataloging-Plattformen für Spezialbereiche, wie zur Katalogisierung von Comics (Grand Comic-Book Database), Computerspielen (MobyGames) oder Animes und Mangas (MyAnimeList). Hier zeigt sich, dass engagierte Nutzer in Masse einfach unschlagbar sind: ebenso wie Wikipedia dank Tausender von Freiwilligen umfangreicher und detaillierter als jede herkömmliche Enzyklopädie werden konnte, können spezialisierte Social-Cataloging-Plattformen wie LibraryThing, IMdB und die Grand Comic-Book Database ihren Sammlungsgegenstand umfangreicher und tiefer erschließen als es eine überschaubare Zahl von Bibliothekare oder Dokumentare je schaffen – allerdings nur unter der Vorraussetzung, dass eine kritische Masse und eine leistungsfähige und einfach zu bedienende Katalogisierungsoftware vorhanden sind.

LibraryThing doppelt so populär wie WorldCat

4. Oktober 2009 um 01:50 5 Kommentare

Als Mitte dieses Jahrzehnts Wikipedia immer populärer wurde, verfolgten die Wikipedianer das exponentielle Wachstum gespannt anhand der Zugriffsstatistiken der am häufigsten aufgerufenen Webseiten. Inzwischen liegt die freie, kollaborative Enzyklopädie laut Alexa.com nach Google, Facebook, Yahoo, YouTube und Windows Live auf Platz 6: 10% aller Internetnutzer eines Tages rufen mindestens einmal Wikipedia auf und verbringen dort durchschnittlich 5 Minuten. Einen ähnliche Analyse hat sich Tim Spalding für seine kollaborative Bibliographie und Literaturplattform LibraryThing angesehen und herausgefunden, dass LibraryThing fast doppelt so viel Traffic wie WorldCat hat. Die Zahlen stammen von compete.com; bei Alexa sehen die Zugriffszahlen ebenso aus – und LibraryThing wächst deutlich schneller als WorldCat. Genaugenommen könnten die Zahlen von LibraryThing noch etwas höher sein, da Aufrufe von anderen Domains als librarything.com, beispielsweise librarything.de nicht direkt mitgezählt werden. Was bedeutet das für Bibliotheken?

LibraryThing vs. WorldCat

LibraryThing vs. WorldCat (% der Internetnutzer eines Tages)

Als ich Wikipedia vor dreieinhalb Jahren auf dem Bibliothekartag vorstellte [PDF], war die Seite noch auf Platz 18 und wurde damit schon vermutlich mehr besucht als alle Bibliothekswebseiten zusammen – LibraryThing war damals gerade ein halbes Jahr alt. Der Vergleich von Wikipedia mit Bibliothekswebseiten war natürlich unangemessen und sollte nur verdeutlichen, warum sich Bibliotheken mit Wikipedia auseinandersetzen sollten. Wikipedia ist inzwischen auch für Bibliothekare eine ernstzunehmende Institution (wobei die Zusammenarbeit mit der Deutschen Nationalbibliothek im obrigkeitshörigen Bibliothekswesen wahrscheinlich mehr wiegt als alle Nutzerinteressen) – wie sieht es mit LibraryThing aus?

Während groß und breit diskutiert wird, ob und wie deutsche Bibliothekskataloge in WorldCat eingebunden werden können, warte ich mitlerweile seit Jahren darauf, dass Bibliotheken ernsthaftes Interesse and LibraryThing zeigen und als Partner wahrnehmen. Liegt es daran, dass die Mitarbeiter von LibraryThing noch genügend Zeit und Spaß dafür haben, das Benutzerinterface in Piratensprache zu übersetzen? Oder dass Belletristik den Hauptbestand in LibraryThing ausmacht? Oder dass die Suchfunktion von LibraryThing das einzige ist das fast noch schlechter ist als in herkömmlichen OPACs? (Hintergrund: LibraryThing setzt mehr auf Browsing statt daneben die Suche auszubauen und herkömmliche OPACs verwenden Boolesches Retrieval statt Vektorraum-Suche).

Ich denke, dass Bibliotheken zum einen institutionell träger sind als ein kleines Startup, dass nicht dauernd Fördergelder für befristete Stellen beantragen muss, aber zum anderen auch träger in der Wahrnehmung der stattfindenden Digitalen Revolution. Statt zu schauen, was Wikipedia und LibraryThing erfolgreich macht und wo mit ihnen kooperiert werden kann, wird neidisch auf andere Bibliotheken geguckt und einem verblassendem Bild der Bibliothek als Wissenshort nachgehangen. Dabei wird in Zukunft weder die Katalogisierung noch der eigene Bestand die Relevanz einer Bibliothek ausmachen. Katalogisieren können sowieso besser die Nutzer (wenn man ihnen die richtigen Werkzeuge in die Hand gibt) und der “eigene” Bestand erübrigt sich durch Digitalisierung und bessere Lesegeräte. Was bleibt ist die Fokusierung auf den Nutzer – und das haben sowohl Wikipedia als auch LibraryThing von Anfang an verinnerlicht .

BibRecord: Wikipedia als Literaturdatenbank

28. August 2009 um 22:48 2 Kommentare

Während die Wikimania 2009 ohne mich zu Ende geht (Videomitschnitte hier) habe ich heute mal wieder etwas mehr in Wikipedia getan und das bereits Ende 2008 erwähnte Projekt einer zentralen Wikimedia-Literaturdatenbank weiterverfolgt. Das Konzept sieht vor, einen Katalog aller Publikationen zu erstellen, die in Wikipedia-Artikeln zitiert werden. Wie bei Bildern, Videos und Audiodateien, die zentral in Wikimedia Commons verwaltet werden, sollen Literaturangaben mit einem einfachen Verweis in beliebige Artikel eingebunden werden (siehe BibRecord-Dokumentation).

Die Referenzierung der Publikationen geschieht über Identifikatoren wie ISBN, DOI, URN, Google-Books-ID, OCLC-ID und (falls die deutschen Bibliotheksverbände endlich die Relevanz von Identifikatoren wahrnehmen und entsprechend agieren) EKI. Für Titel ohne ID könnte zudem ein Bibkey-Verfahren verwendet werden. Um in Wikipedia eine bereits beschriebene Publikation zu referenzieren, genügt eine Vorlageneinbindung nach folgendem Muster:

{{BibISBN|0801857899}} (bei bekannter ISBN) oder
{{BibDOI|10.1038/35057062}} (bei bekannter DOI)

Der Zitierstil kann per format-Parameter angepasst werden (später sollte ggf. die Citation Style Language unterstützt werden). In der ISBN-Suche von Wikipedia werden bekannte Publikationen automatisch angezeigt. Die Zahl der unterstützen Datenfelder ist bislang noch etwas begrenzt und die Literaturangaben werden noch nicht in einer eigenen Datenbank, sondern in Form von Wikipedia-Seiten gespeichert (siehe ISBN/…, DOI/…). Dies geschieht mit Hilfe von Vorlage:BibRecord. Alles weitere (Import aus anderen bibliographischen Datenbanken, Werkverknüpfungen, Katalogsuche etc.) kommt getreu der Web-2.0-Philosophie des “Perpetual Beta” – nicht zu verwechseln mit “Relaunch” – später.

Class or Property? Objectification in RDF and data modeling

14. August 2009 um 00:23 4 Kommentare

A short twitter statement, in which Ross Singer asked about encoding MARC relator codes in RDF, reminded me of a basic data modeling question that I am thinking about for a while: When should you model something as class and when should you model it as property? Is there a need to distinguish at all? The question is not limited to RDF but fundamental in data/information modeling. In Entity-relationship modeling (Chen 1976) the question is whether to use an entity or a relation. Let me give an example by two subject-predicat-object statements in RDF Notation3:

:Work dc:creator :Agent
:Agent rdf:type :Creator

The first statement says that a specific agent (:Agent) has created (dc:creator) a specific work (:Work). The second statement says that :Agent is a creator (:Creator). In the first dc:creator is a property while in the second :Creator is a class. You could define that the one implies the other, but you still need two different concepts because classes and properties are disjoint (at least in OWL – I am not sure about plain RDF). In Notation3 the implications may be written as:

@forAll X1, X2. { X1 dc:creator X2 } => { X2 a _:Creator }.
@forAll Y1. { Y1 a _:Creator } => { @forSome Y2. Y2 dc:creator Y1 }.

If you define two URIs for class and property of the same concept (the concept of a creator and creating something) then the two things are tightly bound together: Everyone who ever created something is a creator, and to be a creator you must have created something. This logic rule sounds rather rude if you apply it to other concepts like to lie and to be a liar or to sing and to be a singer. Think about it!

Beside the lack of fuzzy logic on the Semantic Web I miss an easy way to do “reification” (there is another concept called “reification” in RDF but I have never seen it in the wild) or “objectification”: You cannot easily convert between classes and properties. In a closed ontology this is less a problem because you can just decide whether to use a class or a property. But the Semantic Web is about sharing and combining data! What if Ontology A has defined a “Singer” class and Ontology B defined a “sings” property which refer to the same real-world concept?

Other data modeling languages (more or less) support objectification. Terry Halpin, the creator and evangelist of Object-Role Modeling (ORM) wrote a detailed paper about objectification in ORM whithout missing to mention the underlying philosophical questions. My (doubtful)
philosophic intuition makes me think that properties are more problematic then classes because the latter can easily be modeled as sets. I think the need for objectification and to bring together classes and properties with similar meaning will increase, the more “semantic” data we work with. In many natural languages you can use a verb or adjective as noun by nominalization. The meaning may slightly change but it is still very useful for communication. Maybe we should more rely on natural language instead of dreaming of defining without ambiguity?

Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds. Valid XHTML and CSS. ^Top^

Switch to our mobile site