DAIA-Server erstellen mittels Screenscraping

22. Februar 2012 um 14:59 4 Kommentare

Um die aktuelle Verfügbarkeit von Büchern und anderen Medien in GBV-Bibliotheken über eine standardisierte API abrufen zu können, entwickle ich derzeit einen zentralen DAIA-Server under daia.gbv.de. Da die verschiedenen Bibliotheken ihre lokalen Bibliothekssysteme allerdings sehr unterschiedlich konfiguriert haben, dauert die Bereitstellung von DAIA für alle Bibliotheken noch eine Weile.

Eine alternative Lösung, die auch für Bibliotheken funktioniert, die nicht im GBV sind und/oder PICA-LBS einsetzen, ist die Erstellung eines eigene DAIA-Servers. Als Grundgerüst habe ich dafür das Perl-Modul Plack::App::DAIA entwickelt und stelle es als Open Source zur Verfügung. Das Modul enthält zudem Routinen, um eigene DAIA-Server ausbgiebig auf korrekte Umsetzung zu testen – schließlich sind technische Standards, die nicht (automatisch) getestet werden können, eher unverbindliche Absichtserklärungen als wirkliche Standards. Das Perl-Modul enthält ein Beispielskript, das mittels Sceeenscraping (dank des Moduls pQuery), dem Katalog der Universitätsbibliothek Bielefeld eine DAIA-Schnittstelle aufsetzt.

4 Kommentare »

RSS Feed für Kommentare zu diesem Artikel. TrackBack URI

  1. Toll!
    Ich habe soeben versucht, den Service zu testen und stoße stets auf Identifier-Fehler.
    Z.B.
    http://daia.gbv.de/?id=gvk:isbn:9781457715402&format=rdfxml

    Mache ich da etwas falsch?

    Kommentar by Elmar — 22. Februar 2012 #

  2. Elmar: wenn ich die Fehlermeldung richtig verstehe, dann kann der DAIA-Server nicht nach ISBNs suchen. Er ist auch eigentlich nicht für die Suche gedacht, daher ist vermutlich nur die Referenzierung über PPNs (oder vielleicht noch EPNs, wie siehts aus, Jakob?) möglich.

    Wer eher PHP-affin ist, kann auch zu phpDaia greifen. Auch phpDaia kommt mit einem Beispielscript für LBS-Kataloge daher. Es basiert (leider) ebenfalls auf massivem Screenscraping.

    Wie ich auch gerade erst erfahren habe, gibt es für LBS4 (ab Version 2.8.2) auch eine Verfügbarkeits-API – zwar kein DAIA, aber im Vergleich zu PICA+ vielleicht einfacher zu verarbeiten und in DAIA zu mappen. Vielleicht ergibt sich mit dieser Schnittstelle ja noch die Möglichkeit, ein bisschen vom Screenscraping abzuweichen.

    Kommentar by Oliver — 22. Februar 2012 #

  3. Die Abfrage per ISBN wird nur für einige Kataloge unterstützt, darunter (noch) nicht der GVK. Probieren sie mal folgende Abfragen:

    http://daia.gbv.de/?id=opac-de-960:isbn:3804685153&format=xml

    http://daia.gbv.de/?id=opac-de-89:isbn:9781457715402&format=xml

    Für die elektronische Ausgabe in der zweiten Abfrage plane ich den Service-Typ “online” einzuführen, sobald jemand weiß, wie aus den PICA+ Daten zweifelsfrei ermittelt werden kann, ob eine digitale Publikation auch außerhalb der Bibliotheks nutzbar ist.

    Kommentar by jakob — 22. Februar 2012 #

  4. @Oliver: Vielen Dank für Deine Rückmeldung!
    Meines Wissens zufolge soll DAIA nach wie vor weiterbestehen, aber dann nicht mehr im Hintergrund Screenscraping machen, sondern
    via NCIP direkt auf die CORBA-Architektur zugreifen. Diese Architektur ist ab LBS4 2.8.2 verfügbar.

    @nichtich: Besten Dank für die Beispiele.

    Kommentar by Elmar — 23. Februar 2012 #

Entschuldige, das Kommentarformular ist zurzeit geschlossen.

Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds. Valid XHTML and CSS. ^Top^