Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 5 Kommentare

Wie am Freitag bekanntgegeben wurde hat die Universitäts- und Stadtbibliothek Köln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa 1,3 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits länger von verschiedener Seite gefordert worden – zuletzt in einem guten Einführungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die Gründung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und über die Einrichtung einer eigenen Wiki-basierten Bibliografie ähnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekündigt, ein „Lizenzmodell, das die freie Verwendung der Metadaten garantiert“ zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im großen Maßstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne Einschränkung weitergenutzt werden können.

Wie geht es nun weiter? Zunächst hoffe ich, dass bald weitere Bibliotheken und Bibliotheksverbünde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nächste Schritt besteht darin, die Daten so umzuformen, dass tatsächlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk „Semantic Web“ in die Kataloge bringt. Darüber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschlußreichen Artikel geschrieben: Open Data bringt ähnlich wie Open Source Vorteile, da Fehler und Lücken besser gefunden und ausgebessert werden können. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung für die Daten übernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Änderungen angebracht werden können, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch für Beiträge von Dritten offen ist; für weitere bibliografische Datenbestände ist aber eine kollaborative Infrastruktur notwendig, über die Außenstehende leicht Verbesserungen vornehmen können, ohne ein vollständiges Bibliothekssystem installieren zu müssen.

In jedem Fall freue ich mich über den ersten großen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, möchte ich nur kurz hinweisen: Für Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt übermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen möchte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.

Aktuelle Entwicklungen zu Freien Daten

18. März 2009 um 21:39 Keine Kommentare

Freie Software existiert als solche seit den 1980er Jahren (vorher war Software bis in die 1960er frei) und setzt sich im (Wind-)Schatten von Open Source Software immer mehr durch. Freie Inhalte gewinnen dank Creative Commons und Wikipedia ebenfalls seit Anfang des Jahrtausend an Bedeutung. Seit etwa zwei Jahren kommen nun auch vermehrt Freie Daten. Erst im Februar hat beispielsweise Web-Begründer Tim Berners Lee auf der TED-Konferenz mit der Forderung Raw Data Now! der Notwendigkeit von Freien Daten Nachdruck verliehen. Aus verschiedenen Gründen (andere Rechtsgrundlagen, Praktikabilität …) können Lizenzen für Freie Software und Freie Inhalte bei reinen Datensammlungen nicht so einfach angewandt werden. Deshalb wird zur Zeit im Projekt OpenDataCommons (ODC) von der Open Knowledge Foundation (OKF) an einer passenden Lizenz für Freie Daten gearbeitet. Weitere Informationen zu diesem Prozess gibt es bei OpenStretmap.

Für das freie Kartenprojekt und die OpenStreetMap Foundation besteht der größte Bedarf nach einer Lizenz, weshalb sie dankenswerterweise die Sache in die Hand genommen haben. Weitere Beteiligte sind unter Anderem die Autoren Jordan Hatcher und Charlotte Waelde, Creative Commons sowie Talis. Zur Diskussion steht momentan die “Open Database License“ (ODbL) zusammen mit der „Factual Information Licence“ (ODC-Factual). Zur Freigabe als Public Domain gibt es bislang schon die ODC Public Domain Dedication and Licence (PDDL) und seit kurzem von Creative Commons die CC Zero [via Netzpolitik].

Kommentare zur ODbL werden möglichst bis zum 20. März erbeten. Weitere Grundlagen und Vorarbeiten zu Lizenzen für Freie Daten gibt es von der OKF mit dem Guide to Open Data Licensing und bei Creative Commons bzw. Science Commons mit dem Protocol for Implementing Open Access Data. Die Privatisierungs-Mafia versucht übrigens derweil am demokratischen Prozess vorbei mit Geheimabsprachen an immateriellen Monopolrechten festzuhalten.