Die Grenzen des Semantic Web
2. November 2011 um 18:42 4 KommentareEs gibt mehrere Gründe dafür, warum das Semantic Web, so wie es vor etwa zehn Jahren vorgeschlagen wurde, nicht funktioniert. Die wesentlichen Kritiken sind bereits vor mehreren Jahren vorgebracht worden und haben seitdem nichts von ihrer Gültigkeit verloren. Inzwischen ist deshalb eher von “Linked Data” statt von “semantisch” die Rede, ohne jedoch auf die Werbewirkung von “semantischen Technologien” zu verzichten.
Aufgrund der hohen Erwartungen, die so am Leben erhalten werden, gibt es immer wieder Erstaunen, wenn die Versprechen eingelöst werden sollen. Letzt Woche wurde beispielsweise von einer Praxis-Studie berichtet, bei der einige einfache Fragen mit verknüpften RDF-Daten beantwortet werden sollten (Reck, Ronald P., Kenneth B. Sall and Wendy A. Swanbeck: Determining the Impact of Eric Clapton on Music Using RDF Graphs: Selected Challenges of Semantics Across and Within Datasets. Balisage 2011). Die Studie erinnerte mich an den vergeblichen Versuch im letzten Jahr, eine einfache Frage mit Linked Data zu beantworten. Schuld sind anscheinend die uneinheitlichen und inkonsistenten Daten. Genaugenommen sind es aber die Menschen und die Realität, welche sich einfach nicht an starre Schemas und Regeln halten wollen, sondern in unzählige Einzelfälle zerfallen. Deshalb ist der Versuch, menschliches Beurteilungsvermögen automatisieren zu können, eine Illusion.
Die Grenzen des Semantic Web liegen dort, wo Menschen verschiedene Quellen beurteilen und aus unterschiedlichen Informationen Schlussfolgerungen ziehen. Diese Schlussfolgerungen haben aber wenig mit automatischen Schlussfolgerung und Inferenz-Regeln zu tun, sondern mit dem gesunden Menschenverstand und persönlichen Entscheidungen. Kein noch so ausgeklügeltes System kann uns die Aufgabe abnehmen, selber den Verstand zu benutzen.
Wie die Studien zeigen, führt der Versuch, denken zu automatisieren, im Semantic Web zu sinnlosen und falschen Ergebnissen. Dies passiert umso schneller, je mehr Daten aus verschiedenen Quellen zusammengeführt, und ohne Nachzudenken (d.h. automatisch) mit Schlussfolgerungsregeln zu weiteren Daten verarbeitet werden (“Six degrees of fallacy”). Deshalb ist es sinnvoller, Quellen einzeln und gezielt auszuwählen. Dies gilt vor allem für die Auswahl von Ontologien und automatischen Ableitungsregeln. Dass dabei Ontologie je nach Anwendungsfall umgedeutet und verändert werden, ist unumgänglich. Andernfalls müsste für jede Anwendung eine komplett eigene Ontologie erstellt werden.
Trotz aller Kritik halte ich Semantic Web und Linked Data jedoch nicht für Mythen vom Paradies auf Erden: Solange man sich darüber bewusst ist, dass sich Menschen nicht grundsätzlich ändern lassen, ist es nicht nur legitim sondern unverzichtbar,
daran zu arbeitem dem Paradies näher zu kommen. Das heisst nicht, dass wir irgendwann im Semantischen Datenhimmel ankommen; zumindest lassen sich aber einige Probleme der Aggregation von Metadaten mit RDF etwas abmildern – nicht mehr und nicht weniger.
Proposed changes in VIAF RDF
13. April 2011 um 13:42 2 KommentareThe Virtual International Authority File (VIAF) is one of the distinguished showcases of international library community projects. Since more then five years, name authority files from different countries are mapped in VIAF. With VIAF you can look up records about authors and other people, and see which identifiers are used for the same person in different national library catalogs. For some people there are also links to bibliographic articles in Wikipedia (I think only English Wikipedia, but you can get some mappings to other Wikipedias via MediaWiki API), and I hope that there will be links to LibraryThing author pages, too.
However, for two reasons VIAF is not used as much as it could be: first not enough easy-to-understand documentation, examples, and simple APIs; and second difficulties to adopt technologies by potential users. Unfortunately the second reason is the larger barrier: many libraries cannot even provide a simple way to directly link to publications from and/or about a specific person, once you got the right person identifier from VIAF. If you cannot even provide such a fundamental method to link to your database, how should you be able to integrate VIAF for better retrieval? VIAF can do little about this lack of technical skills in libraries, it can only help integrating VIAF services in library software to some degree. This brings me to the other reason: you can always further improve documentation, examples, the design of you APIs, etc. to simplify use of your services. As a developer I found VIAF well documented and not very difficult to use, but there are many small things that could be made better. This is natural and a good thing, if you communicate with your users and adopt suggested changes, as VIAF does.
For instance yesterday Jeffrey A. Young, one of the developers behind VIAF at OCLC published a blog article about proposed changes to the RDF encoding of VIAF. I hope that other people will join the discussion so we can make VIAF more usable. There is also a discussion about the changes at the library linked data mailing list. And earlier this month, at the Code4Lib mailing list, there was a a controversial thread about the problems to map authority records that are not about people (see my statement here).
I appreciate the simplification of VIAF RDF and only disagree in some details. The current proposal is illustrated in this picture (copied from Jeffrey’s original article):
This looks straightforward, doesn’t it? But it only suits for simple one-to-one mappings. Any attempt to put more complex mappings into this scheme (as well as the existing VIAF RDF scheme) will result in a disaster. There is nothing wrong with simple one-to-one mappings, with SKOS you can even express different kinds of mappings (broader, narrower, exact, close), but you should not expect too much preciseness and detail. I wonder why at one side of the diagram links are expressed via foaf:focus and at the other side via owl:sameAs. In my opinion, as VIAF is about mapping authority files, all mapping links should use SKOS mapping properties. There is nothing wrong in declaring an URI like http://viaf.org/viaf/39377930/ to stand for both a foaf:Person, a rdaEnt:Person, and a skos:Concept. And the Webpage that gives you information about the person can also get the same URI (see this article for a good defense of the HTTP-303 mess). Sure Semantic Web purists, which still dream of hard artificial intelligence, will disagree. But in the end RDF data is alway about something instead of the thing itself. For practical use it would help much more to think about how to map complex concepts at the level of concept schemes (authority records, classifications, thesauri etc.) instead of trying to find a “right” model reality. As soon as we use language (and data is a specific kind of language), all we have is concepts. In terms of RDF: using owl:Thing instead of skos:Concept in most cases is an illusion of control.
Named Entity Recognition with DBPedia
15. Februar 2011 um 14:55 5 KommentareYesterday the DBPedia team released DBPedia Spotlight, a named entity recognition service based on structured data extracted from Wikipedia. You can access the service via Web APIs or download the software as Open Source. I could not resist to feed Spotlight its own description:
DBpedia Spotlight is a tool for annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia. Text annotation has the potential of enhancing a wide range of applications including search, faceted browsing and navigation. By connecting text documents with DBpedia, our system enables a range of interesting use cases. For instance, the ontology can be used as background knowledge to display complementary information on web pages or to enhance information retrieval tasks. Moreover, faceted browsing over documents and customization of web feeds based on semantics become feasible. Finally, by following links from DBpedia into other data sources, the Linked Open Data cloud is pulled closer to the Web of Documents.
Pretty cool, isn’t it? Natural Language Processing (NLP) for information extraction seems to be the next hype after Web 2.0 and Semantic Web. I don’t neglect the innovative capabilities of DBPedia Spotlight and similar tools, but you should never forget that these are just tools, which won’t automatically solve information problems, or replace all other tools. Given the example above, there is little chance that an automatic system will extract you an exact topic of the text (for instance “named entity recognition based on data extracted from Wikipedia”) because this requires much background knowledge combining domain-specific expertise with common sense. By the way: as long as both Wikipedia and NLP-software is mainly written by white males, the result of will always mirror a limited world-view.
You can compare the results of Spotlight with similar open services:
I found little overlap between the different services. Spotlight seems to provide more results (depending on the Text) on an error rate between 10% and 30%. You could use such tools for automatic subject indexing based on abstracts and use the result at least for ranking. Unfortunately in library metadata we often have no full text or abstract to annotate. Furthermore many library entities have no DBPedia entry but catalogers create new authority records if needed. What do you think, named entity recognition and other NLP techniques can be used for in metadata land? Can we give up controlled subject indexing in libraries in favour of automatic NLP-based indexing on the one side and social tagging on the other? Or is room for all of these approaches, and how can you successfully combine them?
What is Semantic Information Retrieval?
19. August 2010 um 00:45 Keine KommentareThe most fun part of my dissertation is when I can procastinate dig deeply to the foundation of computer and information science. Lately I tried to find out when the terms “file” and the “directory” were coined in its current sense. The first commercial disk drive was the IBM 350, introduced in 1956. It had the size of a wardrobe, stored 4.4 megabytes 6-bit-characters and could be leased for 3,200$/month. Instances of it were also called “files”. But user files first appeared in the early 1960s with the Compatible Time-Sharing System (CTSS), the earliest ancestor of Unix. You should watch this great video from 1964 in which Robert Fano talks about making computers accessible to people. A wonderful demonstration of one of the very first command lines of a multi-user system! The explicit aims and concepts of computer systems are very similar to today. The more I read about history of computing, the more it seems to be that all important concepts were developed in the 1960s and 1970s. The rest is just reinventing and application on a broader scale.
Robert Fano was director of project MAC, a laboratory that brought together pioneers in operating systems, artificial intelligence, and other areas of the emerging discipline computer science. I browsed the historical publications of the laboratory at MIT where you can find a report of CTSS. Also published at MAC in 1964, I stumbled upon Bertram Raphael‘s PhD thesis. It is titled SIR: A COMPUTER PROGRAM FOR SEMANTIC INFORMATION RETRIEVAL and its abstracts sounds like todays Semantic Web propaganda:
This system demonstrates what can reasonably be called an ability to “understand” semantic information. SIR’s semantic and deductive ability is based on the construction of an internal model, which uses word associations and property lists, for the relational information normally conveyed in conversational statements. [...] The system has some capacity to recognize exceptions to general rules, resolve certain semantic ambiguities, and modify its model structure in order to save computer memory space.
The SIR expert system even seems to go beyong current RDF techniques in supporting exceptions. By the way Bertram Raphael was at MAC at the same time as Joseph Weizenbaum. Weizenbaum fooled expectations in articial intelligence with his program ELIZA that he created between 1964 and 1966. He later became an important critic of artificial intelligence and the application of computer technology in general. By the way we need more like him instead of well-meaning, megalomaniac technology evangelists. See the documentary Rebel at work about Weizenbaum or even better the promising film Plug & Pray!
So what is Semantic Information Retrieval? In short: bullshit. The term is also used independently for search indices on graph structured data (2009), digital libraries (1998) and more. But why bothering with words, meaning, and history if computers will surely “understand” soon?
Aktuelles zur Zeitschriftendatenbank
21. Mai 2009 um 12:33 Keine KommentareWie Jürgen Plieninger berichtet, wurde Anfang dieser Woche die Die Webseite der Zeitschriftendatenbank (ZDB) überarbeitet und auf das Content-Management-System (CMS) Typo3 umgestellt. Das Discovery-Interface (aka OPAC) der ZDB bleibt von den Änderungen unberührt. Um daran nachhaltig etwas zu verbessern, sollten sich meiner Meinung nach PICA-Anwender mal zusammentun und auf Open-Source-Basis (!) ein neues Interface für PICA-Kataloge erstellen. Die DNB hat beispielsweise ein eigenes Portal aufgesetzt und an der VZG werden verschiedenen Alternativen ausprobiert – z.B. die Suchkiste – aber zusammengenommen ist das noch zu wenig und zu unkoordiniert. Aber das ist ein Anderes Thema.
Über den RSS-Feed der ZDB-Webseite erfährt man zum Beispiel, dass vor kurzem die CD-ROM-Ausgabe eingestellt wurde – die ZDB ist also endgültig im Web angekommen. Um sozusagen auch im “Semantic Web” oder “Web 3.0″ anzukommen, d.h. um auch mit den aktuellen Entwicklungen des Webs Schritt zu halten, sollt die ZDB als nächstes Linked Open Data tauglich werden. Dazu müssen in erster Linie stabile URIs vergeben und die ZDB-Daten verfügbar gemacht werden. Zweitens gibt es anscheinend auch in technischen Angelegenheiten nie genügend Dokumentation und Öffentlichkeitsarbeit. Auf der Mailingliste zur Bibliographic Ontology wird schon seit mehreren Wochen darüber diskutiert, wie sich Zeitschriftendaten am besten in RDF abbilden lassen und auf welche Daten dabei zurückgegriffen werden kann. Die ZDB wurde dabei zwar schon erwähnt, ist aber in der Diskussion noch nicht aktiv in Erscheinung getreten.
Unique Identifiers for Authors, VIAF and Linked Open Data
20. Mai 2009 um 15:53 1 KommentarThe topic of unique identifiers for authors is getting more and more attention on the Web. Martin Fenner listed some research papers about it and did a quick poll – you can see the results in a short presentation [via infobib]. What striked me about the results is how unknown existing traditional identifier systems for authors are: Libraries manage so called “authority files” since years. The German Wikipedia has a cooperation with the German National Library to link biliographic Wikipedia articles [de] with the German name authority file since 2005 and there is a similar project in the Czech Wikipedia.
Maybe name authority files of libraries are so unknown because they have not been visible on the Web – but this changes. An important project to combine authority files is the Virtual International Authority File (VIAF). At the moment it already contains mappings between name authority files of six national libraries (USA, Germany, France, Sweden, Czech Republic, and Israel) and more are going to be added. At an ELAG 2008 Workshop in Bratislava I talked with VIAF project manager Thomas Hickey (OCLC) about also getting VIAF and its participating authority files into the Semantic Web. He just wrote about recent changes in VIAF: by now it almost contains 8 million records!
So why are people thinking about creating other systems of unique identifiers for authors if there already is an infrastructure? The survey that Martin did showed, that a centralized registry is wished. VIAF is an aggregator of distributed authority files which are managed by national libraries. This architecture has several advantages, for instance it is non-commercial and data is managed where it can be managed best (Czech librarians can better identify Czech authors, Israeli librarians can better identify authors from Israel, and so on). One drawback is that libraries are technically slow – many of them have not really switched to the Web and the digital age. For instance up to now there are no official URIs for Czech and Israeli authority records and VIAF is not connected yet to Linked Open Data. But the more people reuse library data instead of reinventing wheels, the faster and easier it gets.
For demonstration purpose I created a SeeAlso-wrapper for VIAF that extracts RDF triples of the mappings. At http://ws.gbv.de/seealso/viafmappings you can try out by submitting authority record URIs or the authority record codes used at VIAF. For instance a query for LC|n 79003362 in Notation3 to get a mapping for Goethe. Some returned URIs are also cool URLs, for instance at the DNB or the VIAF URI itself. At the moment owl:sameAs is used to specify the mappings, maybe the SKOS vocabulary provides better properties. You can argue a lot about how to encode information about authors, but the unique identifiers – that you can link to – already exist!
Wo sich Bibliotheken nachschlagen lassen
3. März 2009 um 20:02 3 KommentareKatalogisieren, also das einheitliche Erfassen von Datensätzen gehört (zumindest noch) zu den typischen von Bibliotheken erbrachten Tätigkeiten. Und da Bibliotheken sich gerne mit sich selbst beschäftigen ist es auch nicht erstaunlich, dass sie Kataloge angelegt haben, in denen Bibliotheken verzeichnet sind. Leider kocht jedoch jeder sein eigenes Süppchen, so dass zahlreiche, sich überschneidende Verzeichnisse und Datenbanken von Bibliotheken existieren, die mehr schlecht als recht gepflegt sind und sich deshalb teilweise widersprechen. Sobald sich etwas ändert oder hinzukommt, müssen die Angaben theoretisch in zig Datenbanken aktualisiert werden – was in der Praxis natürlich nicht passiert. Das muss nicht so sein.
Das Semantic Web ist dazu entwickelt worden, verteilte Datenbestände über das Web miteinander zu verbinden. Sobald Informationen nicht mehr nur in voneinander abgeschotteten Datensilos verwaltet werden, sondern offen im Netz als Linked Data veröffentlicht sind, reicht es in vielen Fällen aus, auf andere Datenbanken zu verweisen und die Daten mit eigenen Angaben anzureichern. Als gemeinsamer Identifikator zur Verknüpfung von Daten über Bibliotheken eignet sich das ehemalige Bibliothekssigel, das derzeit auf ISIL umgestellt wird. Ein Vorteil des ISIL-Systems ist, dass ISIL international gelten. Die ISIL-Agency verwaltet eine Liste von nationalen ISIL-Einrichtungen, zu denen auch das ISIL/Sigelverzeichnis an der Staatsbibliothek zu Berlin gehört.
Weitere Verzeichnisse von Bibliotheken sind unter Anderem:
- Deutsche Bibliotheken Online ist ein Verzeichnis des Hochschulbibliothekszentrum hbz.
- Das Jahrbuch der Deutschen Bibliotheken und das Jahrbuch der Öffentlichen Bibliotheken enthält jeweils Bibliotheksdaten auf toten Bäumen und macht sich nett im Regal.
- In WEBIS sind Bibliotheken mit Sondersammelgebieten verzeichnet.
- lib-web-cats (library web sites and catalogs) ist ein von Marshall Breeding verwaltetes Verzeichnis, das schwerpunktmäßig US-Bibliotheken enthält und vor allem die technische Ausstattung erfasst.
- LibWeb ist ein weiteres internationales Verzeichnis von Bibliotheken, allerdings werden nur Name, Ort und URL erfasst.
- OCLC meint alles zentral in WorldCat verwalten zu können und stellt für Bibliotheksdaten die WorldCat Registry bereit.
- …
Sicherlich gibt es zahlreiche weitere Datenbanken. Es bleibt also noch einiges zum Zusammenführen und Verlinken, bis Bibliotheken bzw. ihre Daten im Semantic Web ankommen.
MPDL-Stelle zur Verwaltung von Normdaten mit Webservices
27. Juni 2008 um 17:13 2 KommentareDie Max Planck Digital Library hat eine interessante Stelle als “Scientific Developer” in Berlin ausgeschrieben (siehe Stellenausschreibung als PDF). Gesucht ist als Vertretung wegen Elternzeit ein(e) Entwickler(in) zur Erstellung einer Infrastruktur (Webservices etc.) für Normdaten (Authority files) von Organisationen und Personen im Rahmen der Max Planck Institute. Normdaten spielen zur kontrollierten Erschließung eine zunehmede Rolle auch in Bezug auf die Entwicklung zum Semantic Web. Bibliotheken und Dokumentations- einrichtungen sind hier eigentlich relativ gut positioniert sofern sie ihre Normdaten aktiv zur Verfügung stellen.
Wie Patrick Danowski in einem Vortrag betont hat, wird es bald Alternativen zu bestehenden Normdaten geben (z.B. Wikipedia-Artikel selber), wenn sich bei den existieren Daten nichts tut. Bei den Normdaten zu Personen ist zumindest einiges in Bewegung geraten, ich gehe davon aus, dass die PND “bald” endlich per Webservice verfügbar sein wird, nachdem einige Schwierigkeiten überwunden sein werden (apropos “wird sein werden”: Kann mal jemand den dürftigen Wikipedia-Eintrag zu Futur II ausbauen?).
Ebenfalls relevant im Zusammenhang mit Normdaten über Webservices sind die Aktivitäten um Museumsvokabular.de. Ich bin leider noch nicht dazu gekommen, zu demonstrieren, wie mit SeeAlso ein einfaches Formular-Eingabefeld um Normdaten-Unterstützung erweitern werden kann – vielleicht hat die MPDL ja Interesse und wir können die gemeinsame Entwicklung gleich bei bibforge hosten, mal sehen.
Ach ja: Die Stelle wird nach TVöD-Bund bezahlt – in anderen Ländern würde so eine einjährige Technikerstelle vermutlich eher an einen Freiberufler vergeben werden, der dann in der Einrichtung einen Arbeitsplatz bekommt, deutlich mehr verdient, sich aber auch selber versichern muss.
Gewinner des Theseus-Wettbewerb ausgezeichnet
20. Juni 2008 um 16:40 Keine KommentareUnter 180 Bewerbungen im Rahmen des Theseus-Talente-Wettbewerbs sind vor drei Tagen die Gewinner ausgezeichnet worden. Ein Vorschlag, die Webseite des Wettbewerbs von unnötigen PDFs zu befreien, fand sich anscheinend nicht unter den Einreichungen – etwas versteckt findet sich zumindest ein “News”-Beitrag, in dem die ersten vier von 14 ausgezeichneten Gewinner kurz mit ihrem Thema genannt sind. Statt langweiligen Informatik-, Technik-, und Wirtschaftsthemen gibt es den erste Preis für einen Beitrag zum Thema “Tagging” in Verbindung mit “Semantik”. Die Autorin Sonja Kraus studiert auf Lehramt und Magister mit den Nebenfächern Angewandte Sprachwissenschaft und sprachliche Informationsverarbeitung und hat ihren Beitrag mit “Semantstrategien” betitelt. Was genau das sein soll geht auch aus ihrem Blog nicht so ganz hervor und die Originalarbeit ist auch (noch?) nicht öffentlich verfügbar, so dass es erstmal bei Buzzwords bleibt. Ich hoffe, es ergeht der Arbeit nicht wie dem ersten deutschsprachigen Buch zum Thema Social Tagging (“Social Tagging” von Sascha Carlin, ISBN 3-940317-03-9), auf das ich schon seit einem Dreivierteljahr vergeblich warte. Stattdessen wird nun das erste Buch der Sammelband “Good Tags, Bad Tags” zur Tagung Social Tagging in der Wissensorganisation, der unter Anderem einen Beitrag von mir zum Semantischen Tagging enthält (weitere Infos zum Sammelband bei Birgit Gaiser). Neben Sonjas Arbeit wurde übrigens noch ein weiterer Text zum Thema Tagging ausgezeichnet und zwar der von Kim Korte (gefunden dank Trackback in Sonjas Blog
.
Pseudo-URIs als Identifikatoren für Normdaten der Deutschen Nationalbibliothek
7. April 2008 um 03:31 7 KommentareDie Deutsche Nationalbibliothek (DNB) hat anscheinend Ende März eine neue Katalog-Oberfläche online gestellt – der alte OPAC ist auch noch verfügbar. Dabei sind unter Anderem die Normdaten (SWD, GKD, PND) teilweise besser integriert. Ich warte ja schon seit einiger Zeit darauf, dass endlich richtige URIs vergeben werden, so dass sich Normdaten global referenzieren lassen. Bei der aktuellen Lösung ist aber leider einiges schiefgelaufen.
Was ist eine URI?
Die Diskussion zum Thema URI/URN/URL auf Inetbib hat mal wieder gezeigt, dass es beim Thema Identifikatoren oft Missverständnisse gibt. Die international allgemeine Form globaler Identifikatoren ist der “Uniform Resource Identifier” (URI) bzw. die Erweiterung “Internationalized Resource Identifier” (IRI). Sie sind in RFC 3986 und RFC 3987 standardisiert. Die Vergabe von UR regelt RFC 4395. Verschiedene URI-Schemata (gekennzeichnet durch den Teil einer URI bis zum ersten Doppelpunkt) sind jeweils mit einem eigenen Standard registriert und definiert, zum Beispiel URNs durch RFC 2141.
Viele URI-Schemata legen Namensräume und eigene Regeln zur Struktur und Vergabe von Identifikatoren fest. So zum Beispiel RFC 3406 für URNs und RFC 3044 für den URN-Namensraum urn:issn zur Abbildung von ISSNs. Durch die Formulierung von ISSNs als URI können diese bereits etablierten aber nur begrenzt nutzbaren Identifikatoren auch global genutzt werden, beispielsweise im Rahmen des Semantic Web. Während die Zeichenfolge “0024-9319″ sehr unterschiedliches identifizieren kann, weist “urn:issn:0024-9319″ eindeutig auf die amerikanische Ausgabe des MAD-Magazins hin.
Um welche Identifikatoren geht es?
Zur Identifikation von Personen (PND), Begriffen (SWD) und Körperschaften (GKD) gibt es im deutschen Bibliothekssystem seit vielen Jahren etablierte Normdaten. Abgesehen von wenigen Ausnahmen fristen diese Normdaten bzw. ihre Identifikatoren jedoch eher ein Schattendasein. Andere Identifikatoren, wie beispielsweise die Nummern von OCLC und der Library of Congress werden dagegen auch zunehmend von den “global players” im Netz verwendet (von Google und LibrayThing). Wenn sie endlich mit URIs versehen und frei veröffentlicht würden, könnten die deutschen Normdateien ebenfalls weitere Verbreitung finden – oder andernfalls an Bedeutung verlieren.
Was hat die DNB falsch gemacht?
Anscheinend ist nun bei der Erstellung von Identifikatoren für Normdaten bei der Deutschen Nationalbibliothek gleich an mehreren Stellen etwas schief gelaufen. Dabei sieht es auf den ersten Blick ganz gut aus: Beim SWD-Eintrag “Poetry Slam” ist beispielsweise dort als “Id” die Zeichenkette “info://d-nb.de/965692973” angegeben:

Ist das eine URI? Nein. In der offiziellen Liste von URI-Schemata ist “info:” als gültiges URI-Schema eingetragen, das durch RFC 4452 definiert wird. Die dort festgelegte Maintenance Authority NISO hat die Verwaltung von Namensräumen an OCLC weitergegeben. Nun bekleckert sich OCLC mit dem seit Wochen nicht erreichbaren Verzeichnis der vergebenen Unternamensräume auch nicht gerade mit Ruhm, aber immerhin gibt es klare Standards (mehr Informationen bei der LOC). Eine info-URI ist aufgebaut nach dem Schema “info:NAMENSRAUM/LOKALTEIL“. Die Zeichenkette “info://d-nb.de/965692973″ kann also schon formal keine URI sein. Außerdem ist “d-nb.de” nicht als gültiger info-URI Namensraum registriert. Zu allem Überfluss wird nicht auf die etablierten SWD-Nummern zurückgegriffen (die SWD-Nummer für den SWD-Datensatz ist “4709615-9″), sondern als lokaler Bestandteil die nicht standardisierte, systemabhängige PND-Nummer (hier: 965692973) verwendet!
Wie lässt sich der Schlamassel beheben?
Leider ist dies nicht das erste mal, dass sich die DNB im Internet lächerlich macht. Zum Glück lassen sich die Fehler relativ einfach beheben.
1. Die bereits existierenden “Standards” für die existierenden Normdaten-Nummern werden explizit und verlässlich festgeschrieben, d.h. erlaubte Zeichen und Wertebereiche, Berechnung der Prüfziffer und Normalisierung (siehe LCCN-Normalisierung).
2. Die DNB reserviert für die Normdaten-Nummern einen URI-Namensraum (beispielsweise info:swd, info:pnd, info:gkd). Dabei sind die Regeln zur Syntax und Vergabe von URI-Schemata und Namensräumen einzuhalten. Internationale Standards sind zum Lesen und Einhalten da und nicht zum Ignorieren und Uminterpretieren.
3. Die URIs werden verständlich dokumentiert und propagiert. Die Kür wäre eine völlige Freigabe der Normdaten als öffentlicher Datenbank-Abzug unter einer freien Lizenz.
Zur Klärung der Konfusion bezüglich URI und URL sei auf die Artikel URIs, URLs, and URNs: Clarifications and Recommendations (via Kay Heiligenhaus) und On Linking Alternative Representations To Enable Discovery And Publishing hingewiesen.
P.S: Eine bibliotheksrelevante Anwendung von von Identifikatoren für Personen wurde letzte Woche von Arjan Hogenaar and Wilko Steinhoff im Vortrag Towards a Dutch Academic Information Domain auf der Open Repositories 2008 vorgestellt.
Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds.
Valid XHTML and CSS. ^Top^

Letzte Kommentare