heritrix « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Verordnung zur Pflichtablieferung von Netzpublikationen in Kraft

23. Oktober 2008 um 11:21 8 Kommentare

Wie Heise berichtet, tritt heute die Verordnung zur Pflichtablieferung von Netzpublikationen (PDF) der Deutschen Nationalbibliothek (DNB) in Kraft – mehr dazu auf der Seite zu Netzpublikationen und auf Bibliotheksrecht. Der heise-Beitrag zeigt gut einige Schwierigkeiten auf, die die Verordnung mit sich bringt. Kurz gesagt macht das gesamte Verfahren eher den Eindruck, als hÃ¤tte die DNB noch immer nicht verstanden, dass Netzpublikationen keine eins-zu-eins-Abbildung von Papiermedien sind. Das von der DNB prÃ¤ferierte Ablieferungsformat PDF stellt im Netz eher die Ausnahme dar und ist sowieso schlechte Praxis.

Der grÃ¶ÃŸte Knackpunkt ist allerdings der Ansatz, dass Dateien bei der DNB abgeliefert werden sollen, statt dass sie diese selber einsammelt. Die vom Internet Archive und anderen Nationalbibliotheken genutze Crawler-Software Heritrix ist frei verfÃ¼gbar – vielleicht kann Gordon Mohr mit seinem Vortrag „Build Your Own Web Archive“ helfen. Crawling ist seit 1994 Praxis und mit OAI-PMH, Sitemaps, und Feeds gibt es inzwischen gÃ¤ngige Verfahren, um Daten und Metadaten auch besser strukturiert zum Abholen bereitzustellen.

Die jetzt zur Pflicht erkorene Praxis der Ablieferung von „Netzpublikationen“ macht den Eindruck, als sei die DNB gar nicht daran interessiert, die zur Zeit im Netz entstehenden kulturellen Werke zu sammeln und zu bewahren. Stattdessen hat sie mit der Verordnung nun ein Druckmittel in der Hand, um von Verlagen ausgewÃ¤hlte Publikationen geliefert zu bekommen. Das ist zwar legitim und besser als nichts – aber wenn man sich im Gegenzug anguckt, wie restriktiv die DNB auf ihren eigenen Daten sitzt, mÃ¼ffelt das schon etwas. Dazu ein schÃ¶nes Zitat von Tim Spalding in NGC4LIB:

So, it’s not just Amazon, but now Google serving up high-quality book metadata to the worldâ€”data that libraries refuse to provide, except to each other and in antiquated formats. Another step down the long path to irrelevance.

Nach all dem Gemecker jetzt noch ein konstruktiver Vorschlag: Google propagiert den sitemaps-Standard, mit dem Betreiber von Webseiten angeben kÃ¶nnen, welche Teile ihrer Webseite von Crawlern durchsucht werden sollen. Die URLs einer sitemaps.xml-Datei kÃ¶nnen von Heritrix gecrawlt werden und werden in einer ARC-Datei abgelegt. Diese Datei kann als ZIP gepackt und bei der DNB abgeliefert werden. Wenn die DNB dieses Verfahren als Dienst anbietet, wo man zur „Pflichtablieferung von Netzpublikationen“ nur noch die URL der sitemaps-Datei angeben muss, sollte es mit dem Einsammeln von Netzpublikationen besser funktionieren.

Tags: dnb, heritrix, Langzeitarchivierung 8 Kommentare

Jakoblog — Das Weblog von Jakob VoÃŸ

Verordnung zur Pflichtablieferung von Netzpublikationen in Kraft

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch

Jakoblog — Das Weblog von Jakob VoÃŸ

Verordnung zur Pflichtablieferung von Netzpublikationen in Kraft

Neueste Beiträge

Neueste Kommentare

Themen

Blogroll

Feeds

Siehe auch