Digitalisierung « Jakoblog — Das Weblog von Jakob Voß

Blog
About

Erster vernünftiger E-Book-Reader aus Berlin

9. März 2009 um 10:40 6 Kommentare

Bereits Ende Januar hat Dörte über den E-Book-Reader txtr berichtet. Im dritten Quartal 2009 soll das Gerät der Berliner Firma Wizpac erscheinen. Einen aktuellen CeBit-Bericht mit Video gibt es bei Golem. Im Gegensatz zu existierenden E-Book-Readern wie dem Kindle und dem Sony PRS-505 soll txtr Linuxbasiert und Quelloffen sein, so dass freie Entwickler benötigte Features einfach hinzufügen können. Standardmäßig sollen bereits PDF, HTML, Word, Powerpoint, OpenOffice u.A. unterstützt werden. Laut Spezifikation soll die Verbindung über USB, W-LAN, 3G/GPRS (Handy-Sim-Card) und Bluetooth möglich sein. Mit diesen freien Standards und Schnittstellen dürfte txtr gegenüber anderen E-Book-Readern, die jeder ihr eigenes Format propagieren, klar im Vorteil sein. Außerdem gibt es eine Verbindung mit der gleichnamigen Community-Plattform txtr. Die Bedienung scheint – wenn auch leider ohne Touchscreen – sehr einfach zu sein, nur über die Möglichkeit von Lesezeichen und Anmerkungen bin ich mir noch nicht sicher: wenn es nicht sehr einfach ist, Seiten oder Passagen zu markieren, wäre das ein deutlicher Nachteil gegenüber gedrucktem Papier.

Tags: Digitalisierung, ebook, txtr 6 Kommentare

Digitalisate weiterverarbeiten und anzeigen

20. Mai 2008 um 14:47 4 Kommentare

Nur 48 Stunden nach meinem Vorschlag, den digitalisierten Simplicissimus vom PDF über METS/MODS im DFG-Viewer anzeigen zu lassen, meldete sich Christian Mahnke mit einem entsprechenden Python-Skript bei mir 🙂 Inzwischen hat er sogar einige Verbesserungen vorgenommen, die Konvertierung klappt einwandfrei! Hier ein Beispiel einer erzeugten XML-Datei, im DFG-Viewer sieht das dann so aus. Statt dem DFG-Viewer kann die METS/MODS-Datei übrigens auch in einer anderen Anwendung angesehen werden, zum Beispiel mit dem METS Navigator. Weitere METS Werkzeuge listet die LOC auf.

Ein guter Ansatz ist vielleicht auch, sich mal einige der vielen existierenden Comic Viewer anzuschauen. Während in der Bibliothekswelt nämlich noch an Prototypen und Projekten gewerkelt wird, haben private Sammler längst einfache Lösungen zur Archivierung und Präsentation von Digitalisaten geschaffen. Ich vermute jedoch, dass „Wir wollen existierende OpenSource Comic-Viewer so erweitern, dass sie mit METS/MODS-Daten umgehen können“ nicht gut bei DFG-Gutachtern ankommt – womit diese mal wieder ihre mangelnde Kompetenz unter Beweis stellen würden.

Mit dem Skript von Christian lassen sich prinzipiell Digitalisate als Images aus einem PDF auslesen und in verschiedene Größen skalieren. Die Metadaten müssen jedoch anderswo herkommen. Entweder man holt sich die Daten über HTML oder über eine saubere Schnittstelle wie SRU. Im Idealfall wird sogar MARC21 angeboten, das mit Stylesheets der LOC nach MODS konvertiert werden kann.

Statt Digitalisate alter Zeitschriften können auch neue Scans von Inhaltsverzeichnissen zur Anzeige gebracht werden. So geht’s (die Suche ausgehend von einer ISBN sollte nicht schwieriger sein). Wie wäre es, statt Coverbildern im Katalog Thumbnails von Inhaltsverzeichnissen anzuzeigen? Sauber in Services getrennt könnte das folgendermaßen umgesetzt werden:

Webservice A bekommt ISBN/PND/Bibkey/…, ermittelt den Titel und liefert eine Thumbnail sowie einen Link zur Vollanzeige des Inhaltsverzeichnis (beispielsweise per SeeAlso)
Webservice B liefert zu einem Titel das PDF und die Metadaten (Beispiel: Katalog mit SRU-Schnittstelle)
Webservice C erhält eine PDF-URL und Metadaten in MODS-Daten und erzeugt daraus Bitmaps und METS/MODS und stellt diese bereit
Webservice D kann METS/MODS anzeigen (Beispiel: DFG-Viewer)

Viel Spaß beim Umsetzen, Experimentieren und Ideen sammeln!

Tags: Digitalisierung, METS, MODS, SOA 4 Kommentare

Erschließung von Videos mit Yovisto

20. Mai 2008 um 13:01 1 Kommentar

Letzten Samstag wurde auf dem Bibcamp 2008 unter Anderem die Videosuchmaschine Yovisto vorgestellt, die an der Uni Jena entstanden ist (siehe Überblick bei infobib und Yovisto-Blog). In Yovisto werden Videos nicht nur mit einfachen Metadaten über den Film erschlossen, sondern mit Tags und Kommentaren innerhalb eines Films. Dazu werden zum einen mittels Texterkennung automatisch Texte im Film erkannt und indexiert – vor allem aus Slideshows bei Vorträgen lassen sich so viele Inhalte ermitteln. Bei der Suche wird angezeigt, welche Wörter an welcher Stellen in einem Film vorkommen und es kann an die entsprechenen Zeitmarke gesprungen werden. Zusätzlich zur automatischen Erschließung können Nutzer zeitbezogen Tags und Kommentare abgeben. Die Benutzeroberfläche ist ziemlich angenehm und leistungsfähig und Yovisto enthält viele weitere experimentelle Funktionen, wie Wiki-Seiten zu einzelnen Filmen, OpenSearch-Schnittstelle, Podcast etc.

Die Erschließung von Videos mit Yovisto eignet sich besonders für Vorlesungsmitschnitte. Diese werden zwar immer mehr gesammelt aber nur wenig durchgehend erschlossen. Was grundsätzlich verbessert werden kann ist die Anbindung an die Bibliothek und den Katalog bzw. an die ganze Uni-Infrastruktur. So sind zwar Beispielsweise in der Digitalen Bibliothek Thüringen Aufzeichnungen von Vorlesungen katalogisiert, aber nicht direkt mit Yovisto verknüpft. Dabei sollte der Trend an Hochschulen eher dahin gehen, die sich auseinander entwickelten Systeme Bibliothek und E-Learning-Plattformen wieder zusammen zu bringen – dazu müssen allerdings alle Beteiligten über ihren Tellerrand hinaus schauen und einige ihrer alten Zöpfe und abschneiden und inkompatible Sonderwege aufgeben. Das Datenformat von Yovisto ist MPEG-7 – anstatt alles von Hand mehrfach zu katalogisieren, können damit sicherlich Daten gemeinsam genutzt werden. Techniken aus Yovisto werden auch im Video-Erschließungssystem REPLAY verwendet, das in Zusammenarbeit mit der ETH-Zürich entsteht.

Tags: Bibcamp2008, Digitalisierung, Erschließung, Tagging 1 Kommentar

Kleine Übung zur Langzeitarchivierung

12. Mai 2008 um 22:51 4 Kommentare

Die Forderung, sich immer wieder mit neuen Techniken und Verfahren vertraut zu machen, ist zwar gerechtfertigt, aber ohne ohne konkrete Aufgabenstellung nicht so einfach. Selbstlernkurse wie Lernen 2.0 sind da sehr zu begrüßen; am Besten lernt es sich aber an einem konkreten Projekt. Da die Zahl meiner Ideen für Projekte größer ist als meine Geduld und/oder Zeit, werde ich in Zukunft hier im Blog einige davon skizzieren. Ideen sind dazu da, sie zu teilen, also kann sie jeder nutzen (solange er kein Patent darauf anmeldet) – sei es als Thema für eine Studienarbeit, für den nächsten DFG-Antrag, oder als kleine Übung zwischendurch.

Hier nun also eine kleine Übung zur Langzeitarchivierung: Die wunderbare Satire-Zeitschrift „Simplicissimus“ (ZDB-ID 211633-9) ist seit letztem Jahr mit Mitteln der DFG digitalisiert online verfügbar. Die einzelnen Ausgaben können in Form von PDF-Dokumenten mit eingebetteten Bitmaps (keine Volltexte) heruntergeladen und betrachtet werden. PDF ist schonmal in Ordnung, es enthält aber keine ausreichenden Strukturdaten und Metadaten. Das adäquate Format wäre MODS in Kombination mit METS. Inzwischen gibt es mit dem DFG-Viewer (aus einem anderen DFG-Projekt) eine webbasierte Möglichkeit, METS/MODS-Digitalisate im Browser zu betrachten.

Aufgabenstellung: Erstelle aus den PDF-Dateien des digitalisierten Simplicissimus und weiteren relevanten Informationen Digitalisate im METS/MODS-Format und stelle diese so zur Verfügung, dass sie im DFG-Viewer betrachtet werden können.

Hinweise: Mit pdfimages lassen sich ohne Qualitätsverlust Bilder aus PDF-Dokumenten extrahieren. Die Benamung der PDF-Dateien scheint systematisch zu sein, so dass sich daraus automatisch Informationen herausziehen lassen. Die METS/MODS-Daten sind für die unterschiedlichen Ausgaben sehr ähnlich, am Besten ist es also von einem Beispiel auszugehen, dieses zu verallgemeinern und mit einem Skript die Dateien automatisch zu erzeugen.

Zusatzaufgabe: Die vom Projekt bereitgestellten Verzeichnis der Autoren, Beiträge, Themen und erwähnten Personen und Werke ermöglichen eine gute Tiefenerschließung – was ist notwendig, damit von dieser Erschließung auf den einzelnen Beitrag in einer bestimmten Ausgabe verlinkt werden kann?

Tags: Archivierung, Aufgabe, Digitalisierung, METS, MODS 4 Kommentare

Wikisource im DFG-Viewer dank Schnittstellen

31. März 2008 um 14:52 3 Kommentare

Der DFG-Viewer ist eine relativ neue Webanwendung zur Anzeige von Digitalisaten. Das von der Deutschen Forschungsgemeinschaft geförderte Projekt soll bei der Etablierung von Standards für Digitalisierungsprojekten helfen – und macht das dank Webservices und offener Standards schon recht gut.

Angestoßen von einem Hinweis auf die Sammlung Ponickau an der ULB Sachsen-Anhalt und eine anschließende Diskussion um die andauernden Verwirrungen bezüglich URI, URN, URL Identifikatoren und Lokatoren, habe ich mir den DFG-Viewer etwas näher angesehen. Die Darstellung sieht nicht ganz so cool aus, wie bei The Open Library, dafür gibt es offene Schnittstellen. Digitalisate können dem Viewer per OAI oder direkter URL im METS/MODS-Format übergeben werden. Die einzelnen Seiten eines digitalisierten Buches und dessen innere Struktur (Gliederung) lassen sich dann durchblättern. Eine Volltextsuche ist anscheinend noch nicht implementiert und es fehlt eine eigene Zoom-Funktion; bislang ist es nur möglich zwischen verschieden großen Auflösungen zu wechseln, falls diese vom Repository ausgeliefert werden.

Ein Exemplar des auf INETBIB als Beispiel genannten Buches mit der VD17-Nummer 32:623995L ist in Halle digitalisiert vorhanden. Die Metadaten des Digitalisates können per OAI in METS/MODS abgerufen werden. Übergibt man nun dem DFG-Viewer die URL, kann das Digitalisat im DFG-Viewer betrachtet werden. Im Moment ist noch ein Schritt Handarbeit notwendig, da im DFG-Viewer ein falscher (?) OAI-Server für Halle eingetragen ist, aber grundsächtlich funktioniert das Mashup. 🙂

Statt spaßeshalber eine METS-Datei mit Pornobildchen zusammenzustellen, um sie im DFG-Viewer anzeigen zu lassen, habe ich mir ein zufälliges Digitalisat von Wikisource vorgenommen. In Wikisource gibt es für jedes Digitalisat eine Indexseite, auf der einige Metadaten und die Seiten der digitalisierten Vorlage aufgelistet sind. Aus dieser Seite kann eine METS/MODS-Datei erzeugt und an den DFG-Viewer geschickt werden. Zwei bis drei Stunden später steht ein einfaches Perl-Skript, dass aus der Index-Seite in Wikisource eine METS-Datei erzeugt. Und so sieht es im DFG-Viewer aus (Draufklicken=größere Ansicht):

Das ganze ist nur ein schnell gehackter Proof-of-concept. Eine stabile Verwendung der Metadaten aus Wikisource sollte aus einer OAI-Schnittstelle bestehen, die METS/MODS liefert (und MABXML für ZVDD). Falls jemand Interesse hat (Bachelor/Diplomarbeit, eigenes Projekt etc.), biete ich gerne meine Unterstützung an – umsetzen muss er es jedoch erstmal jemand anderes da ich nicht dauernd nur neue Projekte anfangen kann. 🙁

Tags: Digitalisierung, Identifier, Katalog, Mashup, Metadata, METS, MODS, OAI, Wikipedia, wikisource 3 Kommentare

Mein Vetter, digitalisierter Gefangener der Gemäldegalerie

26. März 2008 um 11:29 Keine Kommentare

Für die Abteilung „Dinge, die ich nicht brauche, die aber ganz nett wären“, habe ich für meinen Wunschzettel dieses Objekt entdeckt. Da es wahrscheinlich nur mittels eines angeblich „neben Drogen- und Menschenhandel […] einträglichsten“ Verfahrens beschaffbar ist, reicht zur Not auch eine Kopie aus. Beim Wallraf-Richartz-Museum kann man Abzüge und Scans in verschiedenen Varianten online bestellen. Erst kurz vor Abschluss der Bestellung (High-end-scan RGB 300dpi bis 24x30cm/40MB, Verwendung: Veröffentlichung) steht im Kleingedruckten ein Hinweis auf die Entgeltordnung. Demnach kommen ggf. noch zahlreiche undurchsichtige Zusatzgebühren hinzu und die „Internet-Veröffentlichung“ ist sowieso nur mit Aufpreis und für 3 Monate möglich. Mein Vetter sitzt also sozusagen lebenslang – nein: über sein Ableben hinaus! – als Gefangener der Gemäldegalerie aufgrund zweifelhafter Rechtsvorstellungen fest und keine Aussicht auf Befreiung. Keine Aussicht? Der Urheber ist vor mehr als 70 Jahren gestorben, so dass keine Rechtsansprüche mehr bestehen. Ich kann gerne anbieten, sein Grab zu besuchen, um für seine Werke eine Blume niederzulegen. Aber was ich auf keinen Fall machen werde ist, Museen oder Bibliotheken Geld zur Digitalisierung in die Hand zu drücken, ohne dass dabei die Wikimedia-Empfehlungen für Rechte bei Digitalisierungsprojekten beachtet werden. Dann lieber selber digitalisieren.

P.S: Zum Thema „eigenwilliger Umgang mit Digitalisaten“ hat mein Kollege einen wunderbar treffenden und stilistisch sehr unterhaltsam geschriebenen Text des – mir bislang unbekannten – Institut für Dokumentologie und Editorik entdeckt: In diesem PDF ab Seite 18 unten bis Seite 22 🙂

Tags: Bibliothek, Digitalisierung, Freie Inhalte Keine Kommentare

Jakoblog — Das Weblog von Jakob Voß

Erster vernünftiger E-Book-Reader aus Berlin

Digitalisate weiterverarbeiten und anzeigen

Erschließung von Videos mit Yovisto

Kleine Übung zur Langzeitarchivierung

Wikisource im DFG-Viewer dank Schnittstellen

Mein Vetter, digitalisierter Gefangener der Gemäldegalerie

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch