Pseudo-URIs als Identifikatoren für Normdaten der Deutschen Nationalbibliothek « Jakoblog

Blog
About

Pseudo-URIs als Identifikatoren für Normdaten der Deutschen Nationalbibliothek

7. April 2008 um 03:31 7 Kommentare

Die Deutsche Nationalbibliothek (DNB) hat anscheinend Ende März eine neue Katalog-Oberfläche online gestellt – der alte OPAC ist auch noch verfügbar. Dabei sind unter Anderem die Normdaten (SWD, GKD, PND) teilweise besser integriert. Ich warte ja schon seit einiger Zeit darauf, dass endlich richtige URIs vergeben werden, so dass sich Normdaten global referenzieren lassen. Bei der aktuellen Lösung ist aber leider einiges schiefgelaufen.

Was ist eine URI?
Die Diskussion zum Thema URI/URN/URL auf Inetbib hat mal wieder gezeigt, dass es beim Thema Identifikatoren oft Missverständnisse gibt. Die international allgemeine Form globaler Identifikatoren ist der „Uniform Resource Identifier“ (URI) bzw. die Erweiterung „Internationalized Resource Identifier“ (IRI). Sie sind in RFC 3986 und RFC 3987 standardisiert. Die Vergabe von UR regelt RFC 4395. Verschiedene URI-Schemata (gekennzeichnet durch den Teil einer URI bis zum ersten Doppelpunkt) sind jeweils mit einem eigenen Standard registriert und definiert, zum Beispiel URNs durch RFC 2141.

Viele URI-Schemata legen Namensräume und eigene Regeln zur Struktur und Vergabe von Identifikatoren fest. So zum Beispiel RFC 3406 für URNs und RFC 3044 für den URN-Namensraum urn:issn zur Abbildung von ISSNs. Durch die Formulierung von ISSNs als URI können diese bereits etablierten aber nur begrenzt nutzbaren Identifikatoren auch global genutzt werden, beispielsweise im Rahmen des Semantic Web. Während die Zeichenfolge „0024-9319“ sehr unterschiedliches identifizieren kann, weist „urn:issn:0024-9319“ eindeutig auf die amerikanische Ausgabe des MAD-Magazins hin.

Um welche Identifikatoren geht es?
Zur Identifikation von Personen (PND), Begriffen (SWD) und Körperschaften (GKD) gibt es im deutschen Bibliothekssystem seit vielen Jahren etablierte Normdaten. Abgesehen von wenigen Ausnahmen fristen diese Normdaten bzw. ihre Identifikatoren jedoch eher ein Schattendasein. Andere Identifikatoren, wie beispielsweise die Nummern von OCLC und der Library of Congress werden dagegen auch zunehmend von den „global players“ im Netz verwendet (von Google und LibrayThing). Wenn sie endlich mit URIs versehen und frei veröffentlicht würden, könnten die deutschen Normdateien ebenfalls weitere Verbreitung finden – oder andernfalls an Bedeutung verlieren.

Was hat die DNB falsch gemacht?
Anscheinend ist nun bei der Erstellung von Identifikatoren für Normdaten bei der Deutschen Nationalbibliothek gleich an mehreren Stellen etwas schief gelaufen. Dabei sieht es auf den ersten Blick ganz gut aus: Beim SWD-Eintrag „Poetry Slam“ ist beispielsweise dort als „Id“ die Zeichenkette „info://d-nb.de/965692973“ angegeben:

Ist das eine URI? Nein. In der offiziellen Liste von URI-Schemata ist „info:“ als gültiges URI-Schema eingetragen, das durch RFC 4452 definiert wird. Die dort festgelegte Maintenance Authority NISO hat die Verwaltung von Namensräumen an OCLC weitergegeben. Nun bekleckert sich OCLC mit dem seit Wochen nicht erreichbaren Verzeichnis der vergebenen Unternamensräume auch nicht gerade mit Ruhm, aber immerhin gibt es klare Standards (mehr Informationen bei der LOC). Eine info-URI ist aufgebaut nach dem Schema „info:NAMENSRAUM/LOKALTEIL„. Die Zeichenkette „info://d-nb.de/965692973“ kann also schon formal keine URI sein. Außerdem ist „d-nb.de“ nicht als gültiger info-URI Namensraum registriert. Zu allem Überfluss wird nicht auf die etablierten SWD-Nummern zurückgegriffen (die SWD-Nummer für den SWD-Datensatz ist „4709615-9“), sondern als lokaler Bestandteil die nicht standardisierte, systemabhängige PND-Nummer (hier: 965692973) verwendet!

Wie lässt sich der Schlamassel beheben?
Leider ist dies nicht das erste mal, dass sich die DNB im Internet lächerlich macht. Zum Glück lassen sich die Fehler relativ einfach beheben.

1. Die bereits existierenden „Standards“ für die existierenden Normdaten-Nummern werden explizit und verlässlich festgeschrieben, d.h. erlaubte Zeichen und Wertebereiche, Berechnung der Prüfziffer und Normalisierung (siehe LCCN-Normalisierung).

2. Die DNB reserviert für die Normdaten-Nummern einen URI-Namensraum (beispielsweise info:swd, info:pnd, info:gkd). Dabei sind die Regeln zur Syntax und Vergabe von URI-Schemata und Namensräumen einzuhalten. Internationale Standards sind zum Lesen und Einhalten da und nicht zum Ignorieren und Uminterpretieren.

3. Die URIs werden verständlich dokumentiert und propagiert. Die Kür wäre eine völlige Freigabe der Normdaten als öffentlicher Datenbank-Abzug unter einer freien Lizenz.

Zur Klärung der Konfusion bezüglich URI und URL sei auf die Artikel URIs, URLs, and URNs: Clarifications and Recommendations (via Kay Heiligenhaus) und On Linking Alternative Representations To Enable Discovery And Publishing hingewiesen.

P.S: Eine bibliotheksrelevante Anwendung von von Identifikatoren für Personen wurde letzte Woche von Arjan Hogenaar and Wilko Steinhoff im Vortrag Towards a Dutch Academic Information Domain auf der Open Repositories 2008 vorgestellt.

Tags: Bibliothek, dnb, Identifier, Katalog, Semantic Web, Standards, URI 7 Kommentare

7 Comments »

RSS feed for comments on this post. TrackBack URI

Hallo Jakob,

ein kleiner Hinweis. Die Geschichte mit den ISSNs ist bei weitem nicht so einfach, wie sie scheint. Nur mal kurz an der Oberfläche gekratzt: Mal hat die Online-Ausgabe einer Zeitschrift die selber ISSN wie die Print Ausgabe, manchmal eine andere. Auerdem wurden gerade bei der ISSN einige Vergabefehler gemacht, so dass nicht von einem eineindeutigen Identifier ausgegangen werden kann. Somit sind die URN:ISSN leider für die Praxis nciht wirklich gebrauchen, da wesentliche Grundvoraussetzungen nicht erfüllt sind. Ähnliche Probleme sind ja aus dem Bereich ISBN bekannt.
VG
Patrick

Comment by PatrickD — 7. April 2008 #
Du hast ja recht, was die Funktion der ISSN und ISBN als Identifikator betrifft. Aber das ist eine völlig andere Sache als überhaupt ISSN, ISBN und andere Identifikatoren als URI ausdrücken zu können. Es ist müßig über die Chinesische Sprache und die Bedeutung von chinesischen Schriftzeichen zu diskutieren, wenn einem die grundlegenden Mittel und Wege fehlen Chinesische Schriftzeichen überhaupt als solche erkennen, ausdrücken und vergleichen zu können!

Comment by jakob — 7. April 2008 #
Sehr geehrter Herr Voss,

vielen Dank für Ihre Kritik an den im Katalog entdeckten so genannten Normdaten URIs. Wir freuen uns, dass Sie so an der Identifizierung von Normdaten interessiert sind. Leider (oder wohl besser Gott sei Dank) muss ich Ihnen mitteilen, dass es sich bei denen von Ihnen entdeckten URIs um eine Zwischenlösung zu Testzwecken in unserem Katalogsystem handelt (deswegen auch die internen PPNs und nicht die Normdatenidentnummern) und nicht um die offiziellen URIs der DNB für die Normdaten.

In der Tat werden wir allerdings in Kürze diese internen Identifier durch offizielle Permalinks für unsere Normdaten ersetzen und erarbeiten gerade das Konzept dafür. Für Ihre ausführlichen Vorschläge hierzu möchten wir schon mal bedanken und laden Sie gerne ein sich auch weiter an der Diskussion zu beteiligen.

Gerne kann ich Ihnen unsere Vorstellungen auf der InetBib noch mal etwas genauer erläutern.

Mit freundlichen Grüßen

Anke Meyer

Comment by Anke Meyer — 8. April 2008 #
Es war doch mehr oder weniger klar, dass hier nur „geübt“ wurde; die DNB wird wohl kaum, wenn sie denn schon Identifier vergibt, info-URIs vergeben, die nicht ohne zusätzlichen Aufwand auflösbar sind und für die man etablierte http-Semantiken (httpRange-14) neu erfinden muss. Ich denke, dass am Ende etwas Ähnliches rauskommen wird wir bei http://lcsh.info, also z.B. http://lcsh.info/sh95000541 bzw. http://d-nb.info/965692973. Warum kein Namespace für /swd eingefügt wird, kann wohl nur die DNB beantworten.
Bei lcsh.info ist übrigens die info-URI info:lccn/sh95000541 weiterhin mit owl:sameAs eingebunden. Natürlich werden auch hier wieder viele Probleme einfach ignoriert, z.B. der Wandel der Begriffe mit der Zeit, d.h. Versionierung usw. Auch die die SKOS-Darstellung der Begriffe ist, im Vergleich zu dem, was in MARC Authorities verfügbar, ziemlich primitiv.
Aber es ist ein Anfang.

Comment by Michael — 14. April 2008 #
[…] ist mit den bestehenden Normdaten da. Leider aber ist die Situation zu oft – wie beispielsweise neulich an der DNB – so, dass eine gute Idee in ihrer (technischen und organisatorischen) Umsetzung dem Stand der […]

Pingback by Konkurrenz zu Normdaten mit dem Scopus Affiliation Identifier « Jakoblog — Das Weblog von Jakob Voß — 30. April 2008 #
Author Disambiguation…

About. There are many people working on „Author Disambiguation“, and we are interested in it too. This is an overview of who is doing what out there in the wild. As of this revision I’m just putting down my own thoughts,……

Trackback by Confluence: Web Publishing — 21. Mai 2008 #
[…] davon aus, dass die PND “bald” endlich per Webservice verfügbar sein wird, nachdem einige Schwierigkeiten überwunden sein werden (apropos “wird sein werden”: Kann mal jemand den […]

Pingback by MPDL-Stelle zur Verwaltung von Normdaten mit Webservices « Jakoblog — Das Weblog von Jakob Voß — 27. Juni 2008 #

Sorry, the comment form is closed at this time.

Jakoblog — Das Weblog von Jakob Voß