Wikipedia in den Geisteswissenschaften: Wikisource

10. Oktober 2008 um 16:04 4 Kommentare

Vom 9. bis 12. Oktober nehme ich an der Tagung „Neue Formen wissenschaftlicher Zusammenarbeit durch kollaborative Medien – Wie Wikipedia und andere Wikiprojekte die (Geistes-) Wissenschaften verändern (können)“ teil. Die Wikimedia-Veranstaltung wird von der Alfred Toepfer Stiftung F.V.S. gefördert und findet auf dem Gut Siggen in Ostholstein statt. In der ersten Diskussionsrunde ging es es um Wikipedia-Schwesterprojekte, vor allem um Wikisource.

Wikisource ist ein editionsphilologisches Projekt freier Quellen und unterscheidet sich damit in einigen Punkten grundsätzlich von Wikipedia. Das Wiki dient als Werkzeug zur kollaborativen Textedition, indem Digitalisate gesammelt, transkribiert und zweifach korrekturgelesen werden. Die Wiki-Seiten werden anschließend für weitere Bearbeitungen gesperrt. Die deutschsprachige Ausgabe von Wikisource unterscheidet sich darin auch von anderen Sprachversionen: ab 2006 wurden gnadenlos alle Texte ohne zugehörige Scans gelöscht und genaue Editionsrichtlinien für Transkriptionen durchgesetzt.

In der Diskussion zu Wikisource kam unter Anderem der Wunsch auf, aus Transkriptionen bei Wikisource wiederum Editionen in Buchform zu erstellen. Leider ist die Erstellung von Druckformaten wie PDF aus MediaWiki grundsätzlich mangelhaft. Bei bisherigen Projekten wie WikiReader und WikiPress war immer viel Handarbeit notwendig. Problematisch ist auch die Trennung der verschiedenen Wikisource-Projekte nach Sprachen. Gerade bei älteren Sprachen ist die Abgrenzung schwierig und zur Edition von Keilschriften müsste theoretisch erst ein Wikisource-Ableger in Babylonisch erstellt werden. Schwierig ist die Trennung nicht nur für Mitarbeiter und Autoren sondern auch für Leser. Ein Punkt dabei ist, dass WikiSource nicht der eine Zugang zu Digitalisate und Editionen ist und sein wird. Im Englischsprachigen Bereich gibt es zumindest umfassende kommerzielle Datenbanken wie Eighteenth Century Collections Online (ECCO) und Early English Books Online (EBBO) während sich in Deutschland Projekte wie das Zentrale Verzeichnis Digitalisierter Drucke (ZVDD) aufgrund von Kompetenzstreitigkeiten und mangelnder Koordination schwer tun. Vor allem werden dort keine freien Digitalisate und Volltexte geboten. Abhilfe schaffen kann die Einhaltung der Wikimedia-Empfehlungen für Rechte bei Digitalisierungsprojekten und der technischen Vorgaben des DFG-Viewers.

Eine weitere Empfehlung an Wikisource war, dass die maßgeblichen verantwortlichen Bearbeiter der Textedition stärker als Autoren oder als Herausgeber herausgestellt werden sollten. Dies ist sowohl für die Zitierung von Wikisource als Quelle als auch für wissenschaftliche Mitarbeiter von Bedeutung, die ihre Editionsarbeit in Wikisource bislang nicht in ihren Publikationslisten aufführen können. Vielleicht lässt sich sowas ja mit Hilfe der Funktion der geprüften Versionen realisieren. Neben der Autorennennung fehlt oft auch eine Erläuterung der Editionsarbeit (wie und wann ist man zum Digitalisat gekommen, wer hat mitgearbeitet, welche Schwierigkeiten traten auf etc.). Eine Funktion zur einfachen Ermittlung der Autorenschaft an einzelnen Artikeln wäre übrigens auch für Wikipedia von Interesse, denn die Versionsgeschichte ist nicht nur unbekannt sondern auch unübersichtlich.

Zusammengefasst ist Wikisource zur Zeit zwar noch etwas unübersichtlich und weist an verschiedenen Stellen Schwierigkeiten auf, aber es hat den ungeheuren Vorteil, direkt und tatsächlich frei verfügbar zu sein, während man bei vergleichbaren Projekten wie TextGrid vor lauter Arbeitspaketen, Politanwendungen und Fachbeiträten die eigentlichen Inhalte und Arbeiten nicht findet.

Nach der ersten Pause ging es weiter mit einer Fortsetzung der Diskussion um Formen der Autorenschaft in Wikis sowie um Wikibooks, Wikiversity, Wiktionary, Omegawiki etc.

Der Text dieses Beitrags kann als Public Domain frei verwendet werden.

Wikisource im DFG-Viewer dank Schnittstellen

31. März 2008 um 14:52 3 Kommentare

Der DFG-Viewer ist eine relativ neue Webanwendung zur Anzeige von Digitalisaten. Das von der Deutschen Forschungsgemeinschaft geförderte Projekt soll bei der Etablierung von Standards für Digitalisierungsprojekten helfen – und macht das dank Webservices und offener Standards schon recht gut.

Angestoßen von einem Hinweis auf die Sammlung Ponickau an der ULB Sachsen-Anhalt und eine anschließende Diskussion um die andauernden Verwirrungen bezüglich URI, URN, URL Identifikatoren und Lokatoren, habe ich mir den DFG-Viewer etwas näher angesehen. Die Darstellung sieht nicht ganz so cool aus, wie bei The Open Library, dafür gibt es offene Schnittstellen. Digitalisate können dem Viewer per OAI oder direkter URL im METS/MODS-Format übergeben werden. Die einzelnen Seiten eines digitalisierten Buches und dessen innere Struktur (Gliederung) lassen sich dann durchblättern. Eine Volltextsuche ist anscheinend noch nicht implementiert und es fehlt eine eigene Zoom-Funktion; bislang ist es nur möglich zwischen verschieden großen Auflösungen zu wechseln, falls diese vom Repository ausgeliefert werden.

Ein Exemplar des auf INETBIB als Beispiel genannten Buches mit der VD17-Nummer 32:623995L ist in Halle digitalisiert vorhanden. Die Metadaten des Digitalisates können per OAI in METS/MODS abgerufen werden. Ãœbergibt man nun dem DFG-Viewer die URL, kann das Digitalisat im DFG-Viewer betrachtet werden. Im Moment ist noch ein Schritt Handarbeit notwendig, da im DFG-Viewer ein falscher (?) OAI-Server für Halle eingetragen ist, aber grundsächtlich funktioniert das Mashup. 🙂

Statt spaßeshalber eine METS-Datei mit Pornobildchen zusammenzustellen, um sie im DFG-Viewer anzeigen zu lassen, habe ich mir ein zufälliges Digitalisat von Wikisource vorgenommen. In Wikisource gibt es für jedes Digitalisat eine Indexseite, auf der einige Metadaten und die Seiten der digitalisierten Vorlage aufgelistet sind. Aus dieser Seite kann eine METS/MODS-Datei erzeugt und an den DFG-Viewer geschickt werden. Zwei bis drei Stunden später steht ein einfaches Perl-Skript, dass aus der Index-Seite in Wikisource eine METS-Datei erzeugt. Und so sieht es im DFG-Viewer aus (Draufklicken=größere Ansicht):

Das ganze ist nur ein schnell gehackter Proof-of-concept. Eine stabile Verwendung der Metadaten aus Wikisource sollte aus einer OAI-Schnittstelle bestehen, die METS/MODS liefert (und MABXML für ZVDD). Falls jemand Interesse hat (Bachelor/Diplomarbeit, eigenes Projekt etc.), biete ich gerne meine Unterstützung an – umsetzen muss er es jedoch erstmal jemand anderes da ich nicht dauernd nur neue Projekte anfangen kann. 🙁

Digital library zeno.org launched

30. September 2007 um 21:25 Keine Kommentare

Around 10 years after Directmedia Publishing started to sell electronic text editions on CD, its sister company Zenodot Verlagsgesellschaft mbH launched the digital library zeno.org. Yesterday I joined the zeno.org party and I can tell you that the guys know both: how to celebrate, and to keep up with the time and the future of digital libraries!

According to heise Zeno.org probably contains the largest free German fulltext collection on the Web with around 600 Million words. The German Projekt Gutenberg (not to confuse with the English project!) is not much smaller, but its quality much is less (missing sources and page numbers) and the publisher Hille & Partner, tries to put copyright restrictions on it. Zeno.org knows better and explicetely states if a work is in the public domain. However full downloads of large parts of the library are not allowed – so zeno.org is more free then Projekt Gutenberg (DE) and Google Book Search but less free then Wikisource and Project Gutenberg. I wonder how it would fit into the Open Content Alliance.

Somehow between in the jungle of German digitized material and digitization projects there is the Central Index of Digitized Imprints (ZVDD), a portal that was funded by the Deutsche Forschungsgemeinschaft (DFG) according to the principle „Too many cooks spoil the broth“: A large number of texts were digitized in Germany with much money and little use because no simple, consistent infrastructure was provided to distribute and archive the content. It could be so so simple with accessible metadata (OAI-PMH) and persistent identifiers…