Kleine Übung zur Langzeitarchivierung

12. Mai 2008 um 22:51 4 Kommentare

Die Forderung, sich immer wieder mit neuen Techniken und Verfahren vertraut zu machen, ist zwar gerechtfertigt, aber ohne ohne konkrete Aufgabenstellung nicht so einfach. Selbstlernkurse wie Lernen 2.0 sind da sehr zu begrüßen; am Besten lernt es sich aber an einem konkreten Projekt. Da die Zahl meiner Ideen für Projekte größer ist als meine Geduld und/oder Zeit, werde ich in Zukunft hier im Blog einige davon skizzieren. Ideen sind dazu da, sie zu teilen, also kann sie jeder nutzen (solange er kein Patent darauf anmeldet) – sei es als Thema für eine Studienarbeit, für den nächsten DFG-Antrag, oder als kleine Übung zwischendurch.

Hier nun also eine kleine Übung zur Langzeitarchivierung: Die wunderbare Satire-Zeitschrift “Simplicissimus” (ZDB-ID 211633-9) ist seit letztem Jahr mit Mitteln der DFG digitalisiert online verfügbar. Die einzelnen Ausgaben können in Form von PDF-Dokumenten mit eingebetteten Bitmaps (keine Volltexte) heruntergeladen und betrachtet werden. PDF ist schonmal in Ordnung, es enthält aber keine ausreichenden Strukturdaten und Metadaten. Das adäquate Format wäre MODS in Kombination mit METS. Inzwischen gibt es mit dem DFG-Viewer (aus einem anderen DFG-Projekt) eine webbasierte Möglichkeit, METS/MODS-Digitalisate im Browser zu betrachten.

Aufgabenstellung: Erstelle aus den PDF-Dateien des digitalisierten Simplicissimus und weiteren relevanten Informationen Digitalisate im METS/MODS-Format und stelle diese so zur Verfügung, dass sie im DFG-Viewer betrachtet werden können.

Hinweise: Mit pdfimages lassen sich ohne Qualitätsverlust Bilder aus PDF-Dokumenten extrahieren. Die Benamung der PDF-Dateien scheint systematisch zu sein, so dass sich daraus automatisch Informationen herausziehen lassen. Die METS/MODS-Daten sind für die unterschiedlichen Ausgaben sehr ähnlich, am Besten ist es also von einem Beispiel auszugehen, dieses zu verallgemeinern und mit einem Skript die Dateien automatisch zu erzeugen.

Zusatzaufgabe: Die vom Projekt bereitgestellten Verzeichnis der Autoren, Beiträge, Themen und erwähnten Personen und Werke ermöglichen eine gute Tiefenerschließung – was ist notwendig, damit von dieser Erschließung auf den einzelnen Beitrag in einer bestimmten Ausgabe verlinkt werden kann?

4 Kommentare »

RSS Feed für Kommentare zu diesem Artikel. TrackBack URI

  1. Auch für Windows gibt es so ein Tool, der pdf image extraction wizard. Der war in der Version 1.2 (mittlerweile gibt es 3.0) auch mal kostenfrei, und im web ist die ältere Version auch zu finden. Übrigens hatte auch der Acrobat Reader in der Version 7 die Möglichkeit, die Bilder zu exportieren.

    Wo erfährt man denn mehr über METS / MODS? Ja, ich weiß: METS ist siebenteilig, mit folgenden Abschnitten… Mir fehlt ein einfaches “Wie mache ich mir selbst eine METS-Datei”; kennen Sie sowas? (MODS dito)

    Kommentar by jge — 13. Mai 2008 #

  2. Mehr zu METS/MODS gibt es bei der LOC unter http://www.loc.gov/standards/mets/ bzw. http://www.loc.gov/standards/mods/. Eine gute Präsentation ist http://www.loc.gov/standards/mods/presentations/mets-mods-morgan-ala07/. Die Wikipedia-Artikel erklären zumindest grundlegend, wofür METS/MODS gut sind. Beispiele, die mit dem DFG-Viewer funktionieren, gibt es an der Uni Halle, zum Beispiel dieser Datensatz.

    Kommentar by jakob — 19. Mai 2008 #

  3. [...] 48 Stunden nach meinem Vorschlag, den digitalisierten Simplicissimus vom PDF über METS/MODS im DFG-Viewer anzeigen zu lassen, [...]

    Pingback by Digitalisate weiterverarbeiten und anzeigen « Jakoblog — Das Weblog von Jakob Voß — 20. Mai 2008 #

  4. Ja, die METS-Seite der LoC ist mir ein Begriff, und den METS-Primer habe ich auch gelesen. Aber das hilft mir nicht wirklich weiter; ich brauch eher etwas wie “METS für Dummies”.

    Kommentar by jge — 21. Mai 2008 #

Hinterlasse einen Kommentar

XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds. Valid XHTML and CSS. ^Top^