Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /kunden/116716_10965/jakoblog.de/wp/wp-content/plugins/mendeleyplugin/wp-mendeley.php on line 548
heritrix « Jakoblog — Das Weblog von Jakob Voß

Verordnung zur Pflichtablieferung von Netzpublikationen in Kraft

23. Oktober 2008 um 11:21 8 Kommentare

Wie Heise berichtet, tritt heute die Verordnung zur Pflichtablieferung von Netzpublikationen (PDF) der Deutschen Nationalbibliothek (DNB) in Kraft – mehr dazu auf der Seite zu Netzpublikationen und auf Bibliotheksrecht. Der heise-Beitrag zeigt gut einige Schwierigkeiten auf, die die Verordnung mit sich bringt. Kurz gesagt macht das gesamte Verfahren eher den Eindruck, als hätte die DNB noch immer nicht verstanden, dass Netzpublikationen keine eins-zu-eins-Abbildung von Papiermedien sind. Das von der DNB präferierte Ablieferungsformat PDF stellt im Netz eher die Ausnahme dar und ist sowieso schlechte Praxis.

Der größte Knackpunkt ist allerdings der Ansatz, dass Dateien bei der DNB abgeliefert werden sollen, statt dass sie diese selber einsammelt. Die vom Internet Archive und anderen Nationalbibliotheken genutze Crawler-Software Heritrix ist frei verfügbar – vielleicht kann Gordon Mohr mit seinem Vortrag „Build Your Own Web Archive“ helfen. Crawling ist seit 1994 Praxis und mit OAI-PMH, Sitemaps, und Feeds gibt es inzwischen gängige Verfahren, um Daten und Metadaten auch besser strukturiert zum Abholen bereitzustellen.

Die jetzt zur Pflicht erkorene Praxis der Ablieferung von „Netzpublikationen“ macht den Eindruck, als sei die DNB gar nicht daran interessiert, die zur Zeit im Netz entstehenden kulturellen Werke zu sammeln und zu bewahren. Stattdessen hat sie mit der Verordnung nun ein Druckmittel in der Hand, um von Verlagen ausgewählte Publikationen geliefert zu bekommen. Das ist zwar legitim und besser als nichts – aber wenn man sich im Gegenzug anguckt, wie restriktiv die DNB auf ihren eigenen Daten sitzt, müffelt das schon etwas. Dazu ein schönes Zitat von Tim Spalding in NGC4LIB:

So, it’s not just Amazon, but now Google serving up high-quality book metadata to the world—data that libraries refuse to provide, except to each other and in antiquated formats. Another step down the long path to irrelevance.

Nach all dem Gemecker jetzt noch ein konstruktiver Vorschlag: Google propagiert den sitemaps-Standard, mit dem Betreiber von Webseiten angeben können, welche Teile ihrer Webseite von Crawlern durchsucht werden sollen. Die URLs einer sitemaps.xml-Datei können von Heritrix gecrawlt werden und werden in einer ARC-Datei abgelegt. Diese Datei kann als ZIP gepackt und bei der DNB abgeliefert werden. Wenn die DNB dieses Verfahren als Dienst anbietet, wo man zur „Pflichtablieferung von Netzpublikationen“ nur noch die URL der sitemaps-Datei angeben muss, sollte es mit dem Einsammeln von Netzpublikationen besser funktionieren.