Wikisource im DFG-Viewer dank Schnittstellen

31. März 2008 um 14:52 3 Kommentare

Der DFG-Viewer ist eine relativ neue Webanwendung zur Anzeige von Digitalisaten. Das von der Deutschen Forschungsgemeinschaft geförderte Projekt soll bei der Etablierung von Standards für Digitalisierungsprojekten helfen – und macht das dank Webservices und offener Standards schon recht gut.

Angestoßen von einem Hinweis auf die Sammlung Ponickau an der ULB Sachsen-Anhalt und eine anschließende Diskussion um die andauernden Verwirrungen bezüglich URI, URN, URL Identifikatoren und Lokatoren, habe ich mir den DFG-Viewer etwas näher angesehen. Die Darstellung sieht nicht ganz so cool aus, wie bei The Open Library, dafür gibt es offene Schnittstellen. Digitalisate können dem Viewer per OAI oder direkter URL im METS/MODS-Format übergeben werden. Die einzelnen Seiten eines digitalisierten Buches und dessen innere Struktur (Gliederung) lassen sich dann durchblättern. Eine Volltextsuche ist anscheinend noch nicht implementiert und es fehlt eine eigene Zoom-Funktion; bislang ist es nur möglich zwischen verschieden großen Auflösungen zu wechseln, falls diese vom Repository ausgeliefert werden.

Ein Exemplar des auf INETBIB als Beispiel genannten Buches mit der VD17-Nummer 32:623995L ist in Halle digitalisiert vorhanden. Die Metadaten des Digitalisates können per OAI in METS/MODS abgerufen werden. Ãœbergibt man nun dem DFG-Viewer die URL, kann das Digitalisat im DFG-Viewer betrachtet werden. Im Moment ist noch ein Schritt Handarbeit notwendig, da im DFG-Viewer ein falscher (?) OAI-Server für Halle eingetragen ist, aber grundsächtlich funktioniert das Mashup. 🙂

Statt spaßeshalber eine METS-Datei mit Pornobildchen zusammenzustellen, um sie im DFG-Viewer anzeigen zu lassen, habe ich mir ein zufälliges Digitalisat von Wikisource vorgenommen. In Wikisource gibt es für jedes Digitalisat eine Indexseite, auf der einige Metadaten und die Seiten der digitalisierten Vorlage aufgelistet sind. Aus dieser Seite kann eine METS/MODS-Datei erzeugt und an den DFG-Viewer geschickt werden. Zwei bis drei Stunden später steht ein einfaches Perl-Skript, dass aus der Index-Seite in Wikisource eine METS-Datei erzeugt. Und so sieht es im DFG-Viewer aus (Draufklicken=größere Ansicht):

Das ganze ist nur ein schnell gehackter Proof-of-concept. Eine stabile Verwendung der Metadaten aus Wikisource sollte aus einer OAI-Schnittstelle bestehen, die METS/MODS liefert (und MABXML für ZVDD). Falls jemand Interesse hat (Bachelor/Diplomarbeit, eigenes Projekt etc.), biete ich gerne meine Unterstützung an – umsetzen muss er es jedoch erstmal jemand anderes da ich nicht dauernd nur neue Projekte anfangen kann. 🙁

Freie Katalogdaten und Erschließungsmittel

12. März 2008 um 23:57 1 Kommentar

Die Open Knowledge Foundation setzt sich für freie Daten ein, also Daten die wie Freie Inhalte oder Freie Software ohne Beschränkung weiterverarbeitet, verändert und weiterverbreitet werden dürfen. Letzten Herbst hat sie dazu einen Guide to Open Data Licensing erstellt. Damals wurde der Entwurf einer Lizenz für Freie Daten von Talis und Creative Commons diskutiert – die Hintergründe gibt es unter Anderem bei Talis beschrieben und eine kurze Zusammenfassung bei Peter Suber.

Auf dem jährlichen Treffen der Open Knowledge Foundation am Samstag (15.3.2008) in London soll nun soweit ich es verstanden habe, im Rahmen von Open Data Commons die „Open Data Commons Public Domain Dedication and Licence“ (PDDL) verabschiedet werden. Ein Beispiel für Daten, die mit dieser Lizenz explizit als Public Domain oder Freie Daten gekennzeichnet werden sollten sind bibliografische Katalogdaten.

Letzte Woche gab es im OKF-Blog einen Artikel über Freie Katalogdaten – bisher sieht es trotz öffentlicher Förderung von Bibliotheken schlecht aus – nirgendwo kann explizit der gesamte Katalog heruntergeladen werden. Vielleicht hilft ja das Informationsfreiheitsgesetz – eine öffentliche Einrichtung, die Bücher verwaltet, sollte wenigstens einen vollständigen Bestandskatalog zur Verfügung stellen. Wirklich freie Bibliothekskataloge gibt es also bislang leider nicht.

Neben bibliografischen Daten nehmen die Erschließungsmittel eine zunehmende Rolle ein. Hier entstehen zur Zeit offene Alternativen und Bibliotheken sollten sich fragen, welche Rolle ihre Normdaten, Klassifikationen und Schlagwortsysteme in Zukunft noch haben werden, wenn sie nur eingeschränkt nutzbar sind. Ein Beispiel für ein nicht nutzbares Erschließungssystem nennt Anthony Williams der von Peter kommentiert wird: Die American Chemical Society (ACS) verbietet es, die CAS-Nummern weiterzuverbreiten, mit denen Chemische Verbindungen identifiziert werden. Wenn die ACS mit ihrer Meinung Recht hat, können in Wikipedia-Artikeln über Chemikalien keine CAS-Nummern aufgenommen werden – obwohl sich darüber viele weitere Informationen finden ließen, schließlich sind CAS-Nummern sowas wie „Telefonnummern der Chemischen Welt„.

Tja, anscheinend ist an verschiedenen Stellen noch einiges an Aufklärungsarbeit zu leisten.

Citation parsing

24. Januar 2008 um 19:09 6 Kommentare

Citation Analysis is used to rate authors (problematic) and to find interesting papers (good idea). Citations of papers at the famous arXiv.org preprint server are analysed by CiteBase which is very useful. Unluckily it is buggy and does not alway work. I really wonder why the full text of a paper is parsed instead of using the BibTeX source. The citation parser ParaCite has been developed in the Open Citation Project. Since then it seems to be more or less abandoned. But it’s open source so you can test you papers before uploading and one could take the suiting parts to build a better citation parser. I found out that this way you can extract citations out of a document in $file (for instance a pdf) with perl (the needed modules are available at CPAN):

my $parser = Biblio::Citation::Parser::Citebase->new;
my $content = Biblio::Document::Parser::Utils::get_content( $file );
my $doc_parser = Biblio::Document::Parser::Brody->new;
my @references = $doc_parser->parse($content);

for (my $i=0; $i < @references; $i++) {
    my $metadata = $parser->parse( $references[$i] );
    print '[' . ($i+1) . '] ' . Dumper( $metadata ) . "\n";
}

In the documented that I tested there are almost always parsing errors, but better then nothing. I wonder what CiteSeer uses to extract citations? There is more action in citation parsing in the Zotero project – even an IDE called Scaffold to create new „translators“ that extract bibliographic data out of webpages. Another playing ground is Wikipedia which contains a growing number of references. And of course there are the commericla citation indexes like SCI. I thought to use citation data for additional catalog enrichement (in addition to ISBN2Wikipedia) but quality of data seems to be too low and identifiers are missing.

P.S: Right after writing this, I found Alf Eaton’s experiment with collecting together the conversations around a paper from various academic, news, blog and other discussion channels – as soon as you have identifiers (ISBN, URL, DOI, PMID…) the world gets connected 🙂

P.P.S: ParsCit seems to be a good new reference string parsing package (open source, written in Perl).

P.P.S: Konstantin Baierer manages a bibliography on citation parsing for his parser Citation::Multi::Parser.

Persistent Identifiers: Irony of Fate or just absurd?

24. August 2007 um 01:20 4 Kommentare

The report „Implementing Persistent Identifiers: overview of concepts, guidelines and recommendations“ shows you the impracticality of URN and URN:NBN – you do not even have to read any of the 70 report’s pages to find out: If you try the „persistent identifier“ http://nbn-resolving.de/urn:nbn:de:gbv:7-isbn-90-6984-508-3-8 to get the report’s PDF, you get the following message by a resolver at http://resolver.sub.uni-goettingen.de/purl/?isbn-90-6984-508-3:

Unfortunately the URL could not be resolved. None of the underlying local document resolver were able to find a document with the given identifier. Maybe one of the services is down or a document with the number doesn’t exist. As your URL should contain a persistent identifier, please check again later.

I’d call this 404 2.0! Furthermore at http://www.cerl.org/news.htm one of the report’s publisher (CERL) points out to a review of the report at http://www.clir.org/pubs/issues/index.html#found – which gives you the current issue of CLIR issues (printed version’s ISSN 1098-6383 is not mentioned anywhere) instead of http://www.clir.org/pubs/issues/issues55.html#found. If you ask Google for the title you easily find the PDF. If you ask WorldCat for the ISBN 90-6984-508-3 you get a record where you have to click and search a lot to guess which link will bring you to the PDF – but it’s only the unresolvable URN again.

If people are already to dump to use existing identifier systems (URL, ISBN, ISSN) in the right way, I strongly doubt that persistent identifier systems will solve any problem.

Kontrollierte Informationen zu Personen

2. Mai 2007 um 19:05 2 Kommentare

Herr G. hat Quellen für Personen-Normdaten zusammengefasst. Neben der Personennamendatei (PND) über die über die DNB oder über das HBZ sind die Name Authorities der Library of Congress (auch als Webservice) und WorldCat Identities (mehr dazu bei Thom Hickey, ich schrieb bereits darüber) relevant. WorldCat Identities bietet inzwischen auch Dank Ergebnisse des Projekt VIAF etwa 60.000 Links zur PND an. Im PND-Projekt der deutschsprachigen Wikipedia sind übrigens inzwischen fast 30.000 Personenartikel mit PND-Nummern versehen (vollständige Liste vom 27.4.2007 gibt es hier). Weite Quellen finden sich im Beitrag von G. bei Archivalia und in der umfangreichen von Bernhard Ebneth zusammengestellte Linksammlung historisch-biographischer Informationsmittel. Das World Biographical Information System (WBIS) aus dem Saur-Verlag mit mehrere Millionen Kurzbiographien ist übrigens inzwischen in Deutschland als Nationallizenz verfügbar.

ISBN, EAN, UPC, ASIN – kleiner Exkurs Identifikatoren

16. April 2007 um 01:04 10 Kommentare
Barcode als Protest
Bild: normale.at/OMC

Ich bearbeite schon seit einiger Zeit das Thema Identifikatoren (künstliche Identifizierungsmerkmale wie zum Beispiel Hausnummern, Produktcodes etc.) in der deutschsprachigen Wikipedia und habe Ende 2004 dort die koordinierte Verwendung von Identifikatoren für Weblinks in Form von „Datenbanklinks“ angeregt. Vorgestern kam dort die Diskussion auf, so genannte ASIN zur Verlinkung auf Amazon zu verwenden. Die ASIN ist eine von Amazon verwendete interne Produktnummer, mit der unter Anderem auch Bücher identifiziert werden können, die keine ISBN besitzen. Dies trifft zum Beispiel auf viele Hörbücher zu. Im Hörbuch- und Hörspiel-Blog habe ich dazu einen Beitrag gefunden, der auf ein Produkt-Duplikat verweist, das durch Verwirrungen bei den Identifikatoren eines Hörbuchs entstanden ist: So wird das Hörbuch „Ich und Kaminski“ bei Amazon völlig unabhängig voneinander einmal im Bereich Buch und einmal im Bereich Musik geführt. Im ersten Fall sind die ISBN (3829114524 bzw. 978-3829114523 als vollständige ISBN-13) und im zweiten Fall die ASIN (B000G2Y666) angegeben. Die ISBN-13 ersetzt seit Anfang diesen Jahres die alten 10-stelligen ISBN, wobei sich jede 10-stellige ISBN eindeutig und automatisch in eine 13-stellige ISBN umwandeln lässt. Da solche Umstellungen nun mal lange dauern, werden bislang ISBN-10 und ISBN-13 parallel angegeben. Bei ISBN-13 handelt es sich genau genommen um eine Form des guten alten Barcodes: Das System heisst International Article Number (EAN). Neben ISBN ist inzwischen auch das amerikanisch System des Universal Product Code (UPC) in EAN aufgegangen. Es gibt also in Zukunft für Handelsartikel (egal ob Hörbuch oder Coladose) nur noch ein einheitliches System – was vielleicht kulturlos erscheinen mag, aber eigentlich doch ganz praktisch ist. Die Sache mit dem doppelten Hörbuch im Katalog ist übrigens nichts ungewöhnliches sondern leider das tägliche Brot des Systembibliothekars: Ein Teil meiner Arbeit beim GBV besteht vereinfacht ausgedrückt darin, solche und ähnliche Unstimmigkeiten zu finden und zu beheben.