Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 5 Kommentare

Wie am Freitag bekanntgegeben wurde hat die Universitäts- und Stadtbibliothek Köln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa 1,3 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits länger von verschiedener Seite gefordert worden – zuletzt in einem guten Einführungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die Gründung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und über die Einrichtung einer eigenen Wiki-basierten Bibliografie ähnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekündigt, ein „Lizenzmodell, das die freie Verwendung der Metadaten garantiert“ zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im großen Maßstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne Einschränkung weitergenutzt werden können.

Wie geht es nun weiter? Zunächst hoffe ich, dass bald weitere Bibliotheken und Bibliotheksverbünde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nächste Schritt besteht darin, die Daten so umzuformen, dass tatsächlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk „Semantic Web“ in die Kataloge bringt. Darüber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschlußreichen Artikel geschrieben: Open Data bringt ähnlich wie Open Source Vorteile, da Fehler und Lücken besser gefunden und ausgebessert werden können. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung für die Daten übernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Änderungen angebracht werden können, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch für Beiträge von Dritten offen ist; für weitere bibliografische Datenbestände ist aber eine kollaborative Infrastruktur notwendig, über die Außenstehende leicht Verbesserungen vornehmen können, ohne ein vollständiges Bibliothekssystem installieren zu müssen.

In jedem Fall freue ich mich über den ersten großen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, möchte ich nur kurz hinweisen: Für Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt übermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen möchte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.

Open Source Bibliothekssysteme

19. September 2007 um 16:51 3 Kommentare

Bereits im Mai berichtete ein Entwickler bei LibLime von der Einbindung von xISBN, thingISBN und oISBN (noch so ein Dienst und zwar vom Open Source Bibliothekssystem Evergreen) in den Katalog der Nelsonville Public Library, der mit (ebenfalls OpenSource) Koha betrieben wird. Die seit 2005 aktive Firma LibLime bezeichnet sich übrigens als „Leader in Open Source for Libraries“ und reiht sich damit neben Indexdata und Talis in die Reihe der „Bibliothekssoftwareanbieter 2.0“ ein, die als Davids den Goliaths SirsiDynix (Unicorn, Horizon), Endeavor (Voyager), Innovative Interfaces (Millennium), Ex Libris (Aleph) und OCLC (PICA/Sisis) möglicherweise demnächst das Fürchten lehren. Als Distributor ist LibLime in etwa sowas wie Redhat, Suse oder Ubuntu für Linux ist. VUFind haben sie anscheinend noch nicht im Angebot und dass die deutschen Lösungen OpenBib (auch Open Source) oder XOpac (kein Open Source aber mit OpenSource gebaut) den Sprung über den großen Teich schaffen, bezweifle ich – was anscheinend bisher fehlt ist ein Anbieter, der auch in Deutschland als Distributor Open Source Bibliothekssysteme zur Verfügung stellt und den lokalen Bedürfnissen anpasst (nein, ich habe nicht vor, mich selbständig zu machen ;-).

P.S: Auf der PACINET 2008 (cool, da möchte ich auch mal teilnehmen!) gab Chris Hammond Thrasher von den Fiji-Inseln einen Vortrag zu Koha and Greenstone: open source library software in the Pacific. Meineswissens ist Koha ein richtiges integriertes Bibliothekssystem (ILS) während Greenstone als Digital Library Management System für digitale Sammlungen gedacht ist.

P.P.S: Und noch ein Beitrag was Open Source und Bibliotheken gemeinsam haben.

Mehr zu Schnittstellen von Bibliothekssystemen

14. September 2007 um 11:47 5 Kommentare

Angeregt durch eine Frage zu SNLP auf Inetbib habe ich anknüpfend an meine vorhergehenden Überlegungen etwas weiter im Netz nach Schnittstellen zu Bibliothekssystemen recherchiert. Leider steht der Grad deren Dokumentation im umgekehrten Verhältnis zu ihrer Vielfalt. Die von Marshall Breeding publizierte Übersicht von Bibliothekssystemen ist auch nicht gerade vollständig, so hat er anscheinend von PICA noch nicht gehört. Deshalb erheben folgende Funde auch keinen Anspruch auf Vollständigkeit:

Zunächst einmal sind als Suchprotokolle das altehrwüdige Z39.50 und dessen Nachfolger SRU/SRW zu nennen. Zum asynchronen Abholen von Metadaten gibt es OAI-PMH. OAI wurde im Rahmen der Open Access- Bewegung für Preprint-Server eingesetzt und wird noch immer vor allem für Dokumentenserver eingesetzt. Etwas zwischen Schnittstelle und Format ist OpenURL angesiedelt, das für Linkresolver entwickelt wurde und inzwischen mit COinS auch zur Übertragung von Metadaten verwendet wird.

Was weitere Schnittstellen angeht sieht es leider etwas dürftig aus was die freie Verfügbarkeit betrifft. Die SirsiDynix-Werbeseite auf der statt auf Dokumentation auf Fortbildungen verwiesen wird, finde ich da symptomatisch: Es gibt zwar überall etwas aber jedes System hat seine eigene Schnittstelle, auf die sowieso nicht von Außen zugegriffen werden kann. Dazu gehört auch das Simple Library Network Protocol (SLNP), welches als interne API für Bibliothekssysteme der Sisis Informationssysteme GmbH entwickelt wurde und inzwischen auch von anderen Systemen wie Aleph, Bibliotheca unterstützt wird, um die Fernleihe zu koordinieren. Das alles spielt sich aber rein intern ab und hat mit Web 2.0 und Bibliotheks-Mashups noch nichts zu tun.

Auch im Open-Source-Bereich sieht es nicht besser aus. Für Koha ist bislang nur eine API geplant und die OpenSRF benannte API des ebenfalls freien Evergreen ist in seiner Unübersichtlichkeit und Komplexität auch eher für interne Zwecke gedacht. Die Talis API (siehe Dokumentation) sieht ganz gut durchdacht aus und wäre wahrscheinlich für viele Anwendungen brauchbar, aber ich kenne kein Bibliothekssystem, das sie unterstützt – dass so im luftleeren Raum dauerhaft verlässliche Schnittstellen entstehen, bezweifle ich. Etwas besser sieht die Open Library WebServices aus, die Oliver Flimm zur Anbindung von SISIS-Systemen an OpenBib entwickelt hat.

Worauf ich jedoch warte sind weitere Schnittstellen, die ohne großen Aufwand als Webservices auch von Außen benutzt können. Beispielsweise wäre nicht nur für Anbieter wie Bücherwecker eine API hilfreich, mit der Nutzer ihre Ausleihen samt Rückgabedatum abfragen können. Glücklicherweise hat – wie dem Vortrag von Norbert Weinberger auf der GBV Verbundkonferenz zu entnehmen ist – auch OCLC die Zeichen der Zeit erkannt und will in Zukunft mit einem „WorldCat Grid“ mehr in Richtung Serviceorientierte Architektur gehen. Ich bin gespannt, was sich da alles ergibt.

Falls keine API existiert oder diese nicht ausreichend dokumentiert ist, muss man wohl erstmal direkt auf die interne Datenbank des Bibliothekssystems zugreifen und selber etwas stricken. Das ist in der Regel aber nur dem Anbieter möglich und stellt keine nachhaltige Lösung dar. Bei Horizon soll das ganz gut gehen, hab ich mir sagen lassen. Möglicherweise kann auch noch mehr aus den Katalogdaten rausgeholt werden, die über Z39.50 oder SRU erhältlich sind. Bei PICA-Systemen steht der Ausleihstatus eines Mediums (ausleihbar, ausgeliehen, Präsenzbestand…) zum Beispiel anscheinend in Feld 201@, so sicher bin ich mir da aber nicht.

Für weitere Recherchen zum Thema habe ich im GBV Wiki habe ich vor einigen Wochen etwas mehr zu Webservices zusammengesammelt.

Bibliotheks-Mashups mit Hürden auf dem Vormarsch

13. Juli 2007 um 18:06 8 Kommentare

Wie von Patrick und im BibSonomy Blog berichtet wurde, bietet der Kölner UniversitätsGesamtkatalog (KUG) seit kurzem den Export von Datensätzen in das Kasseler Social-Cataloging-System Bibsonomy an. Als gemeinsames Datenformat fungiert BibTeX, das neben Dublin Core trotz einiger Probleme im Gegensatz zu Spezialformaten wie MARC und MAB De-facto-Standard für solche Anwendungen ist.

Prinzipiell kann jede Bibliothek, die BibTeX exportieren kann, den gleichen Service anbieten. Die Übergabe an BibSonomy funktioniert über eine einfache REST-API, die anscheinend in Kürze veröffentlicht werden soll. Die URL-Syntax is

http://www.bibsonomy.org/BibtexHandler?requTask=upload&encoding=ISO-8859-1&selection=…BibTeX-Datensatz…

Welche Zeichenkodierungen neben ISO-8859-1 noch möglich sind, weiß ich nicht; bislang werden auch sinnlose Werte anstandslos akzeptiert. Problematisch könnte es auch bei umfangreichen Datensätzen werden. Prinzipiell legt der HTTP-Standard zwar keine Längenbegrenzung für URLs fest, aber verlassen würde ich mich darauf nicht. Natürlich gibt es auch bei der Konvertierung noch einige Bugs, siehe zum Beispiel dieser Datensatz, bei dem die Keywords ziemlich durcheinander geworfen werden.

Dazu muss gesagt werden dass ein fehlerfreier BibTeX-Export komplizierter ist als angenommen. Der KUG wird mit der Software OpenBib betrieben, die – so sollte es sein – Open Source ist. Nach kurzer Recherche im Quelltext zeigt sich die Funktion normset2bibtex als Kernbestandteil der Konvertierung nach BibTeX. Mir ist neulich auch schon ein PICA+ nach BibTeX-Script über den Weg gelaufen, aber wenn jede Bibliothek und jeder Hersteller ihr eigenes kleines Skript schreiben, können bei der Konvertierung qualitativ keine großen Sprünge gemacht werden. Ein guter Kandidat für eine dauerhafte Lösung sind vielleicht die Bibutils bibliography conversion utilities, die als Intermediate-Format das Metadata Object Description Schema (MODS) verwenden und ebenso wie OpenBib unter der GPL zur Verfügung stehen. By the way: Warum werden von DFG & Co eigentlich laufend Anträge ohne technischen Sachverstand gefördert, bei denen am Ende nur unfreies Gewurstel rauskommt, anstatt konsequent auf Open Source zu setzen, damit am Ende alle etwas davon haben?

Und noch eine positive Überraschung brachte das Stöbern im Quellcode und der Dokumentation: Der OpenBib-Entwickler Oliver Flimm hat bereits 2005 mit den Open Library WebServices eine SOAP-Schnittstelle für Sisis-Systeme implementiert (siehe Dokumentation und Quellcode), die anscheinend direkt auf die SQL-Datenbank zugreift. Bisher hatte ich von Sisis-Systemen eher den Eindruck, dass sie mit Schnittstellen nicht so freizügig sind. Zwar gibt es beispielsweise schon seit längerer Zeit das Simple Library Network Protocol (SLNP), aber eine offene API-Dokumentation und freie Implementierungen von auf diese API zugreifenden Clients habe ich bisher nicht finden können.

Mit den Open Library WebServices können Benutzerdaten (Ausleihen, Vorbestellungen etc.) und über die interne Datenbank-ID eines Katalogdatensatzes der Medienstatus (Signatur, Exemplar, Standort, Status, Rueckgabe) sowie die vollständigen Titeldaten abgerufen werden. Um welches „nativen Kategorienschema“ es sich bei den Titeldaten handelt, kann ich leider aus Unkenntnis von Sisis-LBS-Systemen nicht sagen, vielleicht MAB2, aber dann sollte besser MABXML geliefert werden und die Konvertierungsroutine nach BibTeX wie oben angedeutet als eigenständiges MAB2-nach-BibTeX-Modul.

Jedenfalls ein großes Lob an Oliver Flimm für die Entwicklung von OpenBib. Ich hoffe, dass die Weiterentwicklung mehr in Richtung einer Serviceorientierten Architektur geht, indem einzelne Funktionen sauber getrennt und als Webservice gekapselt werden. So können Funktionen wie der BibTeX-Export und die Weiterreichung nach BibSonomy als Bausteine auch in anderen Katalogprojekten zum Einsatz kommen können, beispielsweise bei X-OPAC und E-LIB Bremen. Auch dort steckt eine Menge intelligenter Eigenentwicklung, aber noch werkelt jeder vor sich hin. Bei den Schnittstellen sollte deshalb, wie ich vor kurzem in INETBIB betonte, streng auf offene Standards gesetzt werden anstatt eigene Bastellösungen zu verwenden, dann klappt’s auch mit den Mashups.