Digitalisate weiterverarbeiten und anzeigen

20. Mai 2008 um 14:47 4 Kommentare

Nur 48 Stunden nach meinem Vorschlag, den digitalisierten Simplicissimus vom PDF über METS/MODS im DFG-Viewer anzeigen zu lassen, meldete sich Christian Mahnke mit einem entsprechenden Python-Skript bei mir 🙂 Inzwischen hat er sogar einige Verbesserungen vorgenommen, die Konvertierung klappt einwandfrei! Hier ein Beispiel einer erzeugten XML-Datei, im DFG-Viewer sieht das dann so aus. Statt dem DFG-Viewer kann die METS/MODS-Datei übrigens auch in einer anderen Anwendung angesehen werden, zum Beispiel mit dem METS Navigator. Weitere METS Werkzeuge listet die LOC auf.

Ein guter Ansatz ist vielleicht auch, sich mal einige der vielen existierenden Comic Viewer anzuschauen. Während in der Bibliothekswelt nämlich noch an Prototypen und Projekten gewerkelt wird, haben private Sammler längst einfache Lösungen zur Archivierung und Präsentation von Digitalisaten geschaffen. Ich vermute jedoch, dass „Wir wollen existierende OpenSource Comic-Viewer so erweitern, dass sie mit METS/MODS-Daten umgehen können“ nicht gut bei DFG-Gutachtern ankommt – womit diese mal wieder ihre mangelnde Kompetenz unter Beweis stellen würden.

Mit dem Skript von Christian lassen sich prinzipiell Digitalisate als Images aus einem PDF auslesen und in verschiedene Größen skalieren. Die Metadaten müssen jedoch anderswo herkommen. Entweder man holt sich die Daten über HTML oder über eine saubere Schnittstelle wie SRU. Im Idealfall wird sogar MARC21 angeboten, das mit Stylesheets der LOC nach MODS konvertiert werden kann.

Statt Digitalisate alter Zeitschriften können auch neue Scans von Inhaltsverzeichnissen zur Anzeige gebracht werden. So geht’s (die Suche ausgehend von einer ISBN sollte nicht schwieriger sein). Wie wäre es, statt Coverbildern im Katalog Thumbnails von Inhaltsverzeichnissen anzuzeigen? Sauber in Services getrennt könnte das folgendermaßen umgesetzt werden:

  • Webservice A bekommt ISBN/PND/Bibkey/…, ermittelt den Titel und liefert eine Thumbnail sowie einen Link zur Vollanzeige des Inhaltsverzeichnis (beispielsweise per SeeAlso)
  • Webservice B liefert zu einem Titel das PDF und die Metadaten (Beispiel: Katalog mit SRU-Schnittstelle)
  • Webservice C erhält eine PDF-URL und Metadaten in MODS-Daten und erzeugt daraus Bitmaps und METS/MODS und stellt diese bereit
  • Webservice D kann METS/MODS anzeigen (Beispiel: DFG-Viewer)

Viel Spaß beim Umsetzen, Experimentieren und Ideen sammeln!

Kleine Ãœbung zur Langzeitarchivierung

12. Mai 2008 um 22:51 4 Kommentare

Die Forderung, sich immer wieder mit neuen Techniken und Verfahren vertraut zu machen, ist zwar gerechtfertigt, aber ohne ohne konkrete Aufgabenstellung nicht so einfach. Selbstlernkurse wie Lernen 2.0 sind da sehr zu begrüßen; am Besten lernt es sich aber an einem konkreten Projekt. Da die Zahl meiner Ideen für Projekte größer ist als meine Geduld und/oder Zeit, werde ich in Zukunft hier im Blog einige davon skizzieren. Ideen sind dazu da, sie zu teilen, also kann sie jeder nutzen (solange er kein Patent darauf anmeldet) – sei es als Thema für eine Studienarbeit, für den nächsten DFG-Antrag, oder als kleine Ãœbung zwischendurch.

Hier nun also eine kleine Ãœbung zur Langzeitarchivierung: Die wunderbare Satire-Zeitschrift „Simplicissimus“ (ZDB-ID 211633-9) ist seit letztem Jahr mit Mitteln der DFG digitalisiert online verfügbar. Die einzelnen Ausgaben können in Form von PDF-Dokumenten mit eingebetteten Bitmaps (keine Volltexte) heruntergeladen und betrachtet werden. PDF ist schonmal in Ordnung, es enthält aber keine ausreichenden Strukturdaten und Metadaten. Das adäquate Format wäre MODS in Kombination mit METS. Inzwischen gibt es mit dem DFG-Viewer (aus einem anderen DFG-Projekt) eine webbasierte Möglichkeit, METS/MODS-Digitalisate im Browser zu betrachten.

Aufgabenstellung: Erstelle aus den PDF-Dateien des digitalisierten Simplicissimus und weiteren relevanten Informationen Digitalisate im METS/MODS-Format und stelle diese so zur Verfügung, dass sie im DFG-Viewer betrachtet werden können.

Hinweise: Mit pdfimages lassen sich ohne Qualitätsverlust Bilder aus PDF-Dokumenten extrahieren. Die Benamung der PDF-Dateien scheint systematisch zu sein, so dass sich daraus automatisch Informationen herausziehen lassen. Die METS/MODS-Daten sind für die unterschiedlichen Ausgaben sehr ähnlich, am Besten ist es also von einem Beispiel auszugehen, dieses zu verallgemeinern und mit einem Skript die Dateien automatisch zu erzeugen.

Zusatzaufgabe: Die vom Projekt bereitgestellten Verzeichnis der Autoren, Beiträge, Themen und erwähnten Personen und Werke ermöglichen eine gute Tiefenerschließung – was ist notwendig, damit von dieser Erschließung auf den einzelnen Beitrag in einer bestimmten Ausgabe verlinkt werden kann?

Wikisource im DFG-Viewer dank Schnittstellen

31. März 2008 um 14:52 3 Kommentare

Der DFG-Viewer ist eine relativ neue Webanwendung zur Anzeige von Digitalisaten. Das von der Deutschen Forschungsgemeinschaft geförderte Projekt soll bei der Etablierung von Standards für Digitalisierungsprojekten helfen – und macht das dank Webservices und offener Standards schon recht gut.

Angestoßen von einem Hinweis auf die Sammlung Ponickau an der ULB Sachsen-Anhalt und eine anschließende Diskussion um die andauernden Verwirrungen bezüglich URI, URN, URL Identifikatoren und Lokatoren, habe ich mir den DFG-Viewer etwas näher angesehen. Die Darstellung sieht nicht ganz so cool aus, wie bei The Open Library, dafür gibt es offene Schnittstellen. Digitalisate können dem Viewer per OAI oder direkter URL im METS/MODS-Format übergeben werden. Die einzelnen Seiten eines digitalisierten Buches und dessen innere Struktur (Gliederung) lassen sich dann durchblättern. Eine Volltextsuche ist anscheinend noch nicht implementiert und es fehlt eine eigene Zoom-Funktion; bislang ist es nur möglich zwischen verschieden großen Auflösungen zu wechseln, falls diese vom Repository ausgeliefert werden.

Ein Exemplar des auf INETBIB als Beispiel genannten Buches mit der VD17-Nummer 32:623995L ist in Halle digitalisiert vorhanden. Die Metadaten des Digitalisates können per OAI in METS/MODS abgerufen werden. Ãœbergibt man nun dem DFG-Viewer die URL, kann das Digitalisat im DFG-Viewer betrachtet werden. Im Moment ist noch ein Schritt Handarbeit notwendig, da im DFG-Viewer ein falscher (?) OAI-Server für Halle eingetragen ist, aber grundsächtlich funktioniert das Mashup. 🙂

Statt spaßeshalber eine METS-Datei mit Pornobildchen zusammenzustellen, um sie im DFG-Viewer anzeigen zu lassen, habe ich mir ein zufälliges Digitalisat von Wikisource vorgenommen. In Wikisource gibt es für jedes Digitalisat eine Indexseite, auf der einige Metadaten und die Seiten der digitalisierten Vorlage aufgelistet sind. Aus dieser Seite kann eine METS/MODS-Datei erzeugt und an den DFG-Viewer geschickt werden. Zwei bis drei Stunden später steht ein einfaches Perl-Skript, dass aus der Index-Seite in Wikisource eine METS-Datei erzeugt. Und so sieht es im DFG-Viewer aus (Draufklicken=größere Ansicht):

Das ganze ist nur ein schnell gehackter Proof-of-concept. Eine stabile Verwendung der Metadaten aus Wikisource sollte aus einer OAI-Schnittstelle bestehen, die METS/MODS liefert (und MABXML für ZVDD). Falls jemand Interesse hat (Bachelor/Diplomarbeit, eigenes Projekt etc.), biete ich gerne meine Unterstützung an – umsetzen muss er es jedoch erstmal jemand anderes da ich nicht dauernd nur neue Projekte anfangen kann. 🙁