Kleine Ãœbung zur Langzeitarchivierung

12. Mai 2008 um 22:51 4 Kommentare

Die Forderung, sich immer wieder mit neuen Techniken und Verfahren vertraut zu machen, ist zwar gerechtfertigt, aber ohne ohne konkrete Aufgabenstellung nicht so einfach. Selbstlernkurse wie Lernen 2.0 sind da sehr zu begrüßen; am Besten lernt es sich aber an einem konkreten Projekt. Da die Zahl meiner Ideen für Projekte größer ist als meine Geduld und/oder Zeit, werde ich in Zukunft hier im Blog einige davon skizzieren. Ideen sind dazu da, sie zu teilen, also kann sie jeder nutzen (solange er kein Patent darauf anmeldet) – sei es als Thema für eine Studienarbeit, für den nächsten DFG-Antrag, oder als kleine Ãœbung zwischendurch.

Hier nun also eine kleine Ãœbung zur Langzeitarchivierung: Die wunderbare Satire-Zeitschrift „Simplicissimus“ (ZDB-ID 211633-9) ist seit letztem Jahr mit Mitteln der DFG digitalisiert online verfügbar. Die einzelnen Ausgaben können in Form von PDF-Dokumenten mit eingebetteten Bitmaps (keine Volltexte) heruntergeladen und betrachtet werden. PDF ist schonmal in Ordnung, es enthält aber keine ausreichenden Strukturdaten und Metadaten. Das adäquate Format wäre MODS in Kombination mit METS. Inzwischen gibt es mit dem DFG-Viewer (aus einem anderen DFG-Projekt) eine webbasierte Möglichkeit, METS/MODS-Digitalisate im Browser zu betrachten.

Aufgabenstellung: Erstelle aus den PDF-Dateien des digitalisierten Simplicissimus und weiteren relevanten Informationen Digitalisate im METS/MODS-Format und stelle diese so zur Verfügung, dass sie im DFG-Viewer betrachtet werden können.

Hinweise: Mit pdfimages lassen sich ohne Qualitätsverlust Bilder aus PDF-Dokumenten extrahieren. Die Benamung der PDF-Dateien scheint systematisch zu sein, so dass sich daraus automatisch Informationen herausziehen lassen. Die METS/MODS-Daten sind für die unterschiedlichen Ausgaben sehr ähnlich, am Besten ist es also von einem Beispiel auszugehen, dieses zu verallgemeinern und mit einem Skript die Dateien automatisch zu erzeugen.

Zusatzaufgabe: Die vom Projekt bereitgestellten Verzeichnis der Autoren, Beiträge, Themen und erwähnten Personen und Werke ermöglichen eine gute Tiefenerschließung – was ist notwendig, damit von dieser Erschließung auf den einzelnen Beitrag in einer bestimmten Ausgabe verlinkt werden kann?