Kleine Übung zur Langzeitarchivierung
12. Mai 2008 um 22:51 4 KommentareDie Forderung, sich immer wieder mit neuen Techniken und Verfahren vertraut zu machen, ist zwar gerechtfertigt, aber ohne ohne konkrete Aufgabenstellung nicht so einfach. Selbstlernkurse wie Lernen 2.0 sind da sehr zu begrüßen; am Besten lernt es sich aber an einem konkreten Projekt. Da die Zahl meiner Ideen für Projekte größer ist als meine Geduld und/oder Zeit, werde ich in Zukunft hier im Blog einige davon skizzieren. Ideen sind dazu da, sie zu teilen, also kann sie jeder nutzen (solange er kein Patent darauf anmeldet) – sei es als Thema für eine Studienarbeit, für den nächsten DFG-Antrag, oder als kleine Übung zwischendurch.
Hier nun also eine kleine Übung zur Langzeitarchivierung: Die wunderbare Satire-Zeitschrift “Simplicissimus” (ZDB-ID 211633-9) ist seit letztem Jahr mit Mitteln der DFG digitalisiert online verfügbar. Die einzelnen Ausgaben können in Form von PDF-Dokumenten mit eingebetteten Bitmaps (keine Volltexte) heruntergeladen und betrachtet werden. PDF ist schonmal in Ordnung, es enthält aber keine ausreichenden Strukturdaten und Metadaten. Das adäquate Format wäre MODS in Kombination mit METS. Inzwischen gibt es mit dem DFG-Viewer (aus einem anderen DFG-Projekt) eine webbasierte Möglichkeit, METS/MODS-Digitalisate im Browser zu betrachten.
Aufgabenstellung: Erstelle aus den PDF-Dateien des digitalisierten Simplicissimus und weiteren relevanten Informationen Digitalisate im METS/MODS-Format und stelle diese so zur Verfügung, dass sie im DFG-Viewer betrachtet werden können.
Hinweise: Mit pdfimages lassen sich ohne Qualitätsverlust Bilder aus PDF-Dokumenten extrahieren. Die Benamung der PDF-Dateien scheint systematisch zu sein, so dass sich daraus automatisch Informationen herausziehen lassen. Die METS/MODS-Daten sind für die unterschiedlichen Ausgaben sehr ähnlich, am Besten ist es also von einem Beispiel auszugehen, dieses zu verallgemeinern und mit einem Skript die Dateien automatisch zu erzeugen.
Zusatzaufgabe: Die vom Projekt bereitgestellten Verzeichnis der Autoren, Beiträge, Themen und erwähnten Personen und Werke ermöglichen eine gute Tiefenerschließung – was ist notwendig, damit von dieser Erschließung auf den einzelnen Beitrag in einer bestimmten Ausgabe verlinkt werden kann?
Aktuelle Projekte und Formate zu Strukturdaten
18. Februar 2008 um 18:04 Keine KommentareMit zunächst ZVDD und nun TextGrid gibt es im deutschen Sprachraum mindestens ein größeres bibliothekarisches DFG-Projekt, dass sich auch der Erschließung von Dokumenten unterhalb der bibliographischen Ebene annimmt. Inzwischen werden im bibliothekarischen Umfeld diese Erschließungsdaten wie zum Beispiel Kapitelgliederung und Paginierung als “Strukturdaten” bezeichnet (wie es im Englischsprachigen Umfeld aussieht, weiß ich nicht). Standardformate zur Kodierung von Stukturdaten sind der Metadata Encoding and Transmission Standard (METS) und das Format der Text Encoding Initiative (TEI). Der vor kurzem in einer ersten Version veröffentlichte DFG-Viewer basiert auf Strukturdaten im MODS-Format, bislang werden allerdings noch keine Inhaltsverzeichnisses unterstützt. Bislang werden Strukturdaten vor allem im Rahme der Digitalisierung und Archivierung eingesetzt. Ein Beispiel zur Archivierung ist die Dissertation Markup Language (DiML) – als ich als HiWi daran gesessen habe, hat das allerdings noch niemand ein Strukturdatenformat genannt. Ein weiteres Format, das zur Speicherung von Strukturdaten eingesetzt werden kann ist OpenDocument (ODF). Mit der nächsten Version dürfte ODF noch interessanter werden – derzeit sitzt eine Arbeitsgruppe daran, die Einbindung von Metadaten in ODF-Dokumenten auszubauen – wer sich mit Strukturdaten beschäftigt, sollte sich das aktuelle Proposals anschauen – wie man dort sieht, geht alles in Richtung RDF. Wann welches Format vorzuziehen ist bzw. ob und wie ODF beispielsweise TEI verdrängt oder in welchem Kontext die existierenden Formate nebeneinander existieren werden, bleibt abzuwarten.
Archiving Weblogs with ATOM and RFC 5005: An alternative to OAI-PMH
19. Oktober 2007 um 11:34 1 KommentarFollowing up to my recent post (in German) I had a conversation with my colleague about harvesting and archiving blogs and ATOM vs OAI-PMH. In my opinion with the recent RFC 5005 about Feed Paging and Archiving and its proposed extension of Archived Feeds ATOM can be an alternative to OAI-PMH. Instead of arguing which is better, digital libraries should support both for harvesting and providing archived publications such as preprints and weblog entries (scientific communication and publication already takes place in both).
Instead of having every project to implementing both protocols you could create a wrapper from ATOM with archived feeds to OAI-PMH and vice versa. The mapping from OAI-PMH to ATOM is probably the easier part: You partition the repository into chunks as defined in RFC 5005 with the from and until arguments of OAI-PMH. The mapping from OAI-PMH to ATOM is more complicated because you cannot select with timestamps. If you only specify a fromargument, the corresponding ATOM feed could be harvested going backwards in time but if there is an until argument you must harvest the whole archive just to get the first entries and and throw away the rest. Luckily the most frequent use case is to get the newest entries only. Anyway: Both protocols have their pros and cons and a two-way-wrapper could help both. Of course it should be implemented as open source so anyone can use it (by the way: There seems to be no OAI-crawler in Perl yet: Sure there is OAI-Harvester but for real-world applications you have to deal with unavailable servers, corrupt feeds, duplicated or deleted entries, and a way to save the harvested records, so a whole layer above the harvester is missing).
P.S.: At code4lib Ed Summers pointed me to Stuart Weibel who asked the same question about blog archiving, and to a discussion in John Udell’s blog that include blog archiving (he also mentions BlogML as a possible part of a solution – unluckily BlogML looks very dirty to me, the spec is here). And Daniel Chudnov drafted a blog mirroring architecture.
Weblogs Sammeln, Erschließen, Verfügbar machen und Archivieren
19. Oktober 2007 um 03:03 2 KommentareIch ärgere mich ja schon seit längerer Zeit, dass praktisch keine Bibliotheken Weblogs sammeln und archivieren, obwohl diese Mediengattung bereits jetzt teilweise die Funktion von Fachzeitschriften übernimmt. Inzwischen kann ich unter den Kollegen zwar ein steigendes Interesse an Blogs feststellen (der nächste Workshop war nach kurzer Zeit ausgebucht), aber so richtig ist bei der Mehrheit noch nicht angekommen, dass hier eine mit der Einführung des Buchdrucks oder Erfindung von Zeitschriften vergleichbare Evolution im Gange ist. Ansonsten sollten doch viel mehr Bibliotheken damit beginnen Weblogs zu Sammeln, Erschließen, Verfügbar zu machen und zu Archivieren.
Anstatt erstmal darüber zu diskutieren, in welche MAB-Spezialfelder die Daten kommen und als was für eine Mediengatung Weblogs gelten, müsste nur mal einer der existierenden Open Source-Feedreader aufgebohrt werden, so dass er im großen Maßstab auf einem oder mehreren Servern läuft und wenigstens jene Feeds sammelt, die irgend ein Bibliothekar mal als sammlungswürdig eigestuft hat. Alles was wohlgeformtes XML und mit einem Mindestsatz an obligatorischen Elementen (Autor [Zeichenkette], Titel [Zeichenkette], Datum [ISO 8061], Inhalt [Zeichenkette]) ausgestattet ist, dürfte doch wenigstens so archivierbar sein, dass sich der wesentliche Teil rekonstruieren lässt – Besonderheiten wie HTML-Inhalte, Kategorien und Kommentare können ja später noch dazu kommen, wenn die Infrastruktur (Harvester zum Sammeln, Speicher zum Archivieren, Index zum Erschließen und eine Lesemöglichkeit zum Verfügbar machen) steht.
Für die Millionen von Blogartikeln, die bislang verloren sind (abgesehen von den nicht für die Archivierung zur Verfügung stehenden Blogsuchmaschinen wie Bloglines, Technorati, Google Blogsearch, Blogdigger etc.) gibt es zumindest teilweise Hoffnung:
Im September wurde RFC 5005: Feed Paging and Archiving definiert eine (auch in RSS mögliche) Erweiterung des ATOM-Formats, bei der vom Feed der letzten Einträge auf die vorhergehenden Einträge und/oder ein Archiv verwiesen wird. Im Prinzip ist das schon länger möglich und hier an einem Beispiel beschrieben, aber jetzt wurde es nochmal etwas genauer spezifiziert. Damit ist ATOM eine echte Alternative zum OAI-PMH, das zwar der Bibliothekswelt etwas näher steht, aber leider auch noch etwas stiefmütterlich behandelt wird.
Wie auch immer: Bislang werden Blogs nicht systematisch und dauerhaft für die Nachwelt gesammelt und falls Bibliotheken überhaupt eine Zukunft haben, sind sie die einzigen Einrichtungen die dafür wirklich in Frage kommen. Dazu sollte in den nächsten Jahren aber die “Erwerbung” eines Blogs für den Bibliotheksbestand ebenso vertraut werden wie die Anschaffung eines Buches oder einer Zeitschrift. Meinetwegen können dazu auch DFG-Anträge zur “Sammlung und Archivierung des in Form von Weblogs vorliegenden kulturellen Erbes” gestellt werden, obgleich ich diesem Projektwesen eher skeptisch gegenüber bin: Die Beständige Weiterentwicklung von Anwendungen als Open Source bringt mehr und es wird auch weniger häufig das Rad neu erfunden.
P.S.: Auf der Informationsseite der DNB zur Sammlung von Netzpublikationen findet sich zu Weblogs noch nichts – es liegt also an jeder einzelnen Bibliothek, sich mal Gedanken über die Sammlung von für Sie relevanten Weblogs zu machen.
Vorbereitungen zur Archivierung von Netzpublikationen bei der DNB
29. Mai 2007 um 15:25 1 KommentarAuf heise ist wieder etwas zur Archivierung von Netzpublikationen durch die Deutsche Nationalbibliothek (DNB) zu lesen. Die DNB betreibt ein Informationsportal zur Ablieferung von Publikationen, die im Netz erscheinen. Mit dem im Juni 2006 geänderten Gesetz über die Deutsche Nationalbibliothek (DNBG) fallen diese Werke auch unter den Sammelauftrag der DNB. Näheres soll die Pflichtabgabeverordnung klären, die heise im Entwurf vorliegt – allerdings ist der Entwurf anscheinend nicht öffentlich, kann das bitte jemand online stellen? Bis es soweit ist, werde ich mal schauen, wie die Ablieferung von Weblogs am Besten zu bewerkstelligen ist. Dass die DNB selber die Feeds sammeln wird, bezweifle ich (obwohl es die einfachste Variante wäre). Vielleicht hilft das unAPI-Plugin weiter, dass von Mike Giarlo betreut wird, der mit Technosophia mit einen schönen Tech-Librarian-Weblog betreib. Das Zusammenpacken und Bereitstellen der Postings eines ausgewählten Zeitraums dürfte mit einem passenden Plugin kein Problem sein; der Teufel steckt aber wahrscheinlich im Detail.
Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds.
Valid XHTML and CSS. ^Top^
Letzte Kommentare