Verordnung zur Pflichtablieferung von Netzpublikationen in Kraft

23. Oktober 2008 um 11:21 8 Kommentare

Wie Heise berichtet, tritt heute die Verordnung zur Pflichtablieferung von Netzpublikationen (PDF) der Deutschen Nationalbibliothek (DNB) in Kraft – mehr dazu auf der Seite zu Netzpublikationen und auf Bibliotheksrecht. Der heise-Beitrag zeigt gut einige Schwierigkeiten auf, die die Verordnung mit sich bringt. Kurz gesagt macht das gesamte Verfahren eher den Eindruck, als hätte die DNB noch immer nicht verstanden, dass Netzpublikationen keine eins-zu-eins-Abbildung von Papiermedien sind. Das von der DNB präferierte Ablieferungsformat PDF stellt im Netz eher die Ausnahme dar und ist sowieso schlechte Praxis.

Der größte Knackpunkt ist allerdings der Ansatz, dass Dateien bei der DNB abgeliefert werden sollen, statt dass sie diese selber einsammelt. Die vom Internet Archive und anderen Nationalbibliotheken genutze Crawler-Software Heritrix ist frei verfügbar – vielleicht kann Gordon Mohr mit seinem Vortrag „Build Your Own Web Archive“ helfen. Crawling ist seit 1994 Praxis und mit OAI-PMH, Sitemaps, und Feeds gibt es inzwischen gängige Verfahren, um Daten und Metadaten auch besser strukturiert zum Abholen bereitzustellen.

Die jetzt zur Pflicht erkorene Praxis der Ablieferung von „Netzpublikationen“ macht den Eindruck, als sei die DNB gar nicht daran interessiert, die zur Zeit im Netz entstehenden kulturellen Werke zu sammeln und zu bewahren. Stattdessen hat sie mit der Verordnung nun ein Druckmittel in der Hand, um von Verlagen ausgewählte Publikationen geliefert zu bekommen. Das ist zwar legitim und besser als nichts – aber wenn man sich im Gegenzug anguckt, wie restriktiv die DNB auf ihren eigenen Daten sitzt, müffelt das schon etwas. Dazu ein schönes Zitat von Tim Spalding in NGC4LIB:

So, it’s not just Amazon, but now Google serving up high-quality book metadata to the world—data that libraries refuse to provide, except to each other and in antiquated formats. Another step down the long path to irrelevance.

Nach all dem Gemecker jetzt noch ein konstruktiver Vorschlag: Google propagiert den sitemaps-Standard, mit dem Betreiber von Webseiten angeben können, welche Teile ihrer Webseite von Crawlern durchsucht werden sollen. Die URLs einer sitemaps.xml-Datei können von Heritrix gecrawlt werden und werden in einer ARC-Datei abgelegt. Diese Datei kann als ZIP gepackt und bei der DNB abgeliefert werden. Wenn die DNB dieses Verfahren als Dienst anbietet, wo man zur „Pflichtablieferung von Netzpublikationen“ nur noch die URL der sitemaps-Datei angeben muss, sollte es mit dem Einsammeln von Netzpublikationen besser funktionieren.

Ãœberreste der Wikipedia aus dem Januar 2001 entdeckt

2. Oktober 2008 um 02:22 2 Kommentare

Anlässlich des 10jährigen Jubiläums hat Google seinen ältesten Suchindex reanimiert, den es noch auftreiben konnte (abzüglich einiger Seiten, siehe FAQ) und zwar aus dem Januar 2001. Die meisten Seiten gibt es inzwischen nicht mehr, weshalb in so einem Fall auf das Internet Archive verlinkt wird – doch auch dort gibt es nur manche Ausschnitte. Der Januar 2001 ist auch der Geburtsmonat der Wikipedia: am 15. ging sie unter www.wikipedia.com online. Die ältesten Aufzeichnungen aus Wikipedia finden sich nicht im Internet Archive oder in Wikipedia selber, sondern im 2001er Index von Google, der 186 Seite gerettet hat. Im Eintrag zur Wikipedia selber (http://www.wikipedia.com/wiki.cgi?WikiPedia) heisst es:

WikiPedia is an encyclopedia project built using WikiWiki software by
WikiPedians for WikiWatchers. Who knows where it will go? …

Google hat vor, den Index nach einem Monat wieder abzuschalten. So wird auch diese Webpublikation der Vergessenheit anheim fallen anstatt für zukünftigen Generationen bewahrt zu werden. Who knows where it will go?

P.S.: Und noch ein Jubiläum eines Projekts, das die Welt verändert: 25 Jahre GNU

Sex Pistols, Mondlandung, Langzeitarchivierung

11. November 2007 um 05:52 Keine Kommentare

Wie John Lydon küzlich in einem Interview erwähnte, sind angeblich die Original-Master von „Anarchy in the UK“ und „Pretty Vacant“ nicht mehr auffindbar (vgl. live 1976, 1996 und 2007) – die Aufnahmen von 1996 sind meiner Meinung nach sowieso besser. Deshalb haben die reunierten Sex Pistols sie neu aufgenommen und geben zur Zeit wieder Konzerte. Auch für die verlorenen Originalbänder der Mondlandung gibt es teilweise Ersatz: Die Sternwarte Bochum hatte damals Funksignale mitgeschnitten; als die Aufnahmen letzes Jahre gefunden wurden, gab es aber es kein passendes Abspielgerät. Was lernen wir daraus? Entweder Daten zum Kopieren freigeben und darauf hoffen, dass es genügend interessierte Sammler gibt (so geht’s), oder der Auftritt muss nachgespielt werden.

Eingeschlossene Nutzer im Datengrab Web 2.0

28. August 2007 um 00:51 1 Kommentar

Gestern Nacht hat überraschend Blogscout seinen Dienst eingestellt. Ich hatte den kostenlosen, privaten Dienst bei Markus kennengelernt und gerne genutzt, um zu schauen, von wo und wie oft mein Blog aufgerufen wird und über welche Suchanfragen and Referrer die Besucher kommen – beispielsweise wollen sie wissen, wer Bundeskanzler ist. Jetzt sind diese ganzen Statistiken weg. Das Beispiel erinnert mich daran, dass inzwischen statt Software Webservices und Daten im Zentrum stehen. Die wenigsten Webanwendungen bieten jedoch eine vollständige Exportfunktion, um die Daten auch wieder herauszubekommen. Und selbst dann ist der vollständige Umstieg auf einen anderen Dienst problematisch. Für Backups ist anscheinend der Anbieter des Webservices da (im Zweifellsfall haben die Amerikaner und Chinesen jeweils noch eine Kopie). Ein wenig erinnert mich das an die Microsoft-Produkte, deren Dateiformate den Softwarewechsel auch stark behindert haben. Tim O`Reilly hat es in einem Wired-Interview im April auf den Punkt gebracht: Web 2.0 Is About Controlling Data (aufgegriffen aber bisher nicht viel weitergesponnen von einigen Bibliotheken).

Idealerweise sollten nicht nur die Daten wieder aus dem Webdienst heraus und in eine eigene Anwendung hereinkommen sonder gleich die ganze Webanwendung frei sein. Ein Beispiel dafür ist LiPost, das man sich auch auf dem eigenen Server installieren kann. Für freie Software, die unter der Affero GPL (AGPL) lizensiert ist, ist die Zur-Verfügung-Stellung des Quelltextes bei einer Anwendung als Webdienst sogar zwingend.

Eine ausführlichere Auseinandersetzung mit dem Problem, dass Web 2.0 die durch Freie Software gewonnene Freiheit bedroht, findet sich im Artikel Free Software and the Web von Alejandro Forero Cuervo.