Wikimedia-Projekt Bibliographisch archivalische Datenbank

10. September 2011 um 10:51 1 Kommentar

In Nürnberg findet dieses Wochenende mit der WikiConvention 2011 eine Wikimedia/Wikipedia-Tagung statt – in mehr als 80 Workshops diskutieren die über 160 Teilnehmer über vielfältige Möglichkeiten und Probleme im Wikimedia-Universum. Heute morgen habe ich an der Veranstaltung von Olaf Simons zu einer geplanten
Bibliographisch archivalischen Datenbank teilgenommen. Das von Wikimedia Deutschland geförderte Projekt lässt sich in den größeren Rahmen der Idee von „WikiData“ einordnen.

Die Kernidee der „bibliographisch-archivalischen Datenbank“ scheint für Kenner des Bibliotheksbereiches etwas naiv, soll doch nichts weniger als ein „Internationaler Katalog und Recherechewerkzeug für alle Bücher aus einem begrenzten Erscheinungszeitraum“ erstellt werden. Andererseits tut ein wenig unkoventionelle Naivität ganz gut, um die traditionellen, geschlossenen Katalogstrukturen zu überwinden. Mit der Datenbank sollen bibliographische Daten als Forschungsdaten verwendet werden können, beispielsweise um sie nach nach Erscheinungsorten, -jahren und beteiligten Personen zu durchforsten, Inhalte zu annotieren und zu korrigieren, und neue Verbindungen und Visualisierungen herzustellen. Die bestehenden Kataloge wie VD16, VD17, VD18 oder im Englischsprachigen Raum ESTC können dazu eher als Steinbruch und Datengrundlage dienen – ohne kollaborative Funktionen und einfachen Datenexport bleiben solche Projekte jedoch zwangsläufig unter ihren Möglichkeiten.

Wie Olaf Simons berichtete, gab es bei ersten Gesprächen zwischen der Bodleian Library und Wikimedia-Vertretern einige Aha-Effekte. Dort – wie auch an einigen anderen Bibliotheken – gibt es zwar schon Bestrebungen, Nicht-Bibliothekare an bibliographischen Datenbanken zu beteiligen, vor allem durch Forscher für historische Bestände. Vergleicht man die Ansätze mit Lösungen aus dem Wikimedia-Universum, scheinen jedoch oft Räder neu erfunden zu werden. Gleichzeitig sind auch die Verfahren in Wikipedia historisch gewachsen und nicht immer auf andere Kontexte anwendbar. Etwas überrascht hat mich Simons Bericht darüber, wie unsicher bisherige Forschungsprojekte zu historischen Publikationsdaten sind: Bestand und Weiternutzung der Forschungsdaten an Bibliotheken sind nach Ablauf der Projektphase in der Regel nicht möglich, was für die Bibliotheken aus meiner Sicht ein Armutszeugnis ist. Nicht nur aus diesem Grund ist es wahrscheinlich sinnvoller, die bibliographischen Datenbanken nicht primär an einer Bibliothekseinrichtung sondern bei Wikimedia, vergleichbar mit Wikisource. Im Gegensatz zu Wikisource sollte es jedoch nicht verschiedene Sprachversionen sondern gleich eine internationale Datenbank geben.

Im Verlauf des Workshop stelle Mathias Schindler einige bereits verwendete Mapping-Tools vor, mit denen Wikipedianer und andere Freiwillige schon mehrere Hunderttausend Verknüpfungen zwischen Personen, Bildern und Publikationen gefunden haben, zum Beispiel im Rahmen der Kooperation mit dem Bundesarchiv. Selbstverständlich konnten wir im kurzen WikiCon-Workshop kein fertiges Konzept für eine kollaborative, bibliographisch-archivalische Datenbank vorlegen. Sicher ist jedoch, dass wir früher oder später bibliographische Systeme haben werden, die wenig mit den geschlossenen Katalogsystemen von Bibliotheken zu tun haben. Um diese Vision voranzutreiben, sollen in dem von Olaf Simons geleiteten Projekt möglichst alle interessierten Personengruppen (Fachwissenschaftler, Wikimedia-Community, Open-Data Community, Techniker und Bibliothekare) zusammengebracht werden. Feedback ist ausdrücklich erwünscht!

Unique Identifiers for Authors, VIAF and Linked Open Data

20. Mai 2009 um 15:53 1 Kommentar

The topic of unique identifiers for authors is getting more and more attention on the Web. Martin Fenner listed some research papers about it and did a quick poll – you can see the results in a short presentation [via infobib]. What striked me about the results is how unknown existing traditional identifier systems for authors are: Libraries manage so called „authority files“ since years. The German Wikipedia has a cooperation with the German National Library to link biliographic Wikipedia articles [de] with the German name authority file since 2005 and there is a similar project in the Czech Wikipedia.

Maybe name authority files of libraries are so unknown because they have not been visible on the Web – but this changes. An important project to combine authority files is the Virtual International Authority File (VIAF). At the moment it already contains mappings between name authority files of six national libraries (USA, Germany, France, Sweden, Czech Republic, and Israel) and more are going to be added. At an ELAG 2008 Workshop in Bratislava I talked with VIAF project manager Thomas Hickey (OCLC) about also getting VIAF and its participating authority files into the Semantic Web. He just wrote about recent changes in VIAF: by now it almost contains 8 million records!

So why are people thinking about creating other systems of unique identifiers for authors if there already is an infrastructure? The survey that Martin did showed, that a centralized registry is wished. VIAF is an aggregator of distributed authority files which are managed by national libraries. This architecture has several advantages, for instance it is non-commercial and data is managed where it can be managed best (Czech librarians can better identify Czech authors, Israeli librarians can better identify authors from Israel, and so on). One drawback is that libraries are technically slow – many of them have not really switched to the Web and the digital age. For instance up to now there are no official URIs for Czech and Israeli authority records and VIAF is not connected yet to Linked Open Data. But the more people reuse library data instead of reinventing wheels, the faster and easier it gets.

For demonstration purpose I created a SeeAlso-wrapper for VIAF that extracts RDF triples of the mappings. At http://ws.gbv.de/seealso/viafmappings you can try out by submitting authority record URIs or the authority record codes used at VIAF. For instance a query for LC|n 79003362 in Notation3 to get a mapping for Goethe. Some returned URIs are also cool URLs, for instance at the DNB or the VIAF URI itself. At the moment owl:sameAs is used to specify the mappings, maybe the SKOS vocabulary provides better properties. You can argue a lot about how to encode information about authors, but the unique identifiers – that you can link to – already exist!

MPDL-Stelle zur Verwaltung von Normdaten mit Webservices

27. Juni 2008 um 17:13 2 Kommentare

Die Max Planck Digital Library hat eine interessante Stelle als „Scientific Developer“ in Berlin ausgeschrieben (siehe Stellenausschreibung als PDF). Gesucht ist als Vertretung wegen Elternzeit ein(e) Entwickler(in) zur Erstellung einer Infrastruktur (Webservices etc.) für Normdaten (Authority files) von Organisationen und Personen im Rahmen der Max Planck Institute. Normdaten spielen zur kontrollierten Erschließung eine zunehmede Rolle auch in Bezug auf die Entwicklung zum Semantic Web. Bibliotheken und Dokumentations- einrichtungen sind hier eigentlich relativ gut positioniert sofern sie ihre Normdaten aktiv zur Verfügung stellen.

Wie Patrick Danowski in einem Vortrag betont hat, wird es bald Alternativen zu bestehenden Normdaten geben (z.B. Wikipedia-Artikel selber), wenn sich bei den existieren Daten nichts tut. Bei den Normdaten zu Personen ist zumindest einiges in Bewegung geraten, ich gehe davon aus, dass die PND „bald“ endlich per Webservice verfügbar sein wird, nachdem einige Schwierigkeiten überwunden sein werden (apropos „wird sein werden“: Kann mal jemand den dürftigen Wikipedia-Eintrag zu Futur II ausbauen?).

Ebenfalls relevant im Zusammenhang mit Normdaten über Webservices sind die Aktivitäten um Museumsvokabular.de. Ich bin leider noch nicht dazu gekommen, zu demonstrieren, wie mit SeeAlso ein einfaches Formular-Eingabefeld um Normdaten-Unterstützung erweitern werden kann – vielleicht hat die MPDL ja Interesse und wir können die gemeinsame Entwicklung gleich bei bibforge hosten, mal sehen.

Ach ja: Die Stelle wird nach TVöD-Bund bezahlt – in anderen Ländern würde so eine einjährige Technikerstelle vermutlich eher an einen Freiberufler vergeben werden, der dann in der Einrichtung einen Arbeitsplatz bekommt, deutlich mehr verdient, sich aber auch selber versichern muss.

Konkurrenz zu Normdaten mit dem Scopus Affiliation Identifier

30. April 2008 um 09:34 2 Kommentare

Wie medinfo berichtet (Details dort) hat Scopus nach dem Author identifier nun den Scopus Affiliation Identifier eingeführt. Damit baut Scopus praktisch eine eigene Normdatei für Körperschaftenh auf. In Deutschland ist dafür bislang die Gemeinsame Körperschaftsdatei (GKD) verbreitet, weitere Systeme existieren in anderen Ländern.

Ich sehe die Entwicklung von Normdaten ähnlich wie Patrick Danowski, der in seiten Vorträgen (The future importance of bibliographic data Sharing and control in Web 2.0, Sharing and control) auf die Bedeutung von freien Normdaten hingewiesen hat: Wenn Bibliotheken nicht endlich ihre Normdaten aktiv und kompetent für die Nutzung im Web anbieten, machen es andere und die bibliothekarischen Normdaten versinken in der Bedeutungslosigkeit. Das Zeitfenster, in dem andere Akteure dazu gebracht werden können, die bibliothekarischen Normdaten weiterzunutzen, schließt sich langsam – wenn es zu spät ist, werden Bibliotheken den anderen herlaufen müssen anstatt umgekehrt. Das Potential für Bibliotheken, sich als relevanter Bestandteil des (Semantic) Web zu positionieren ist mit den bestehenden Normdaten da. Leider aber ist die Situation zu oft – wie beispielsweise neulich an der DNB – so, dass eine gute Idee in ihrer (technischen und organisatorischen) Umsetzung dem Stand der Entwicklung hinterherhinkt und langsam so sehr verkrustet, dass es irgendwann eben andere besser machen – und Bibliotheken damit stückweise überflüssig werden. 🙁

Kontrollierte Informationen zu Personen

2. Mai 2007 um 19:05 2 Kommentare

Herr G. hat Quellen für Personen-Normdaten zusammengefasst. Neben der Personennamendatei (PND) über die über die DNB oder über das HBZ sind die Name Authorities der Library of Congress (auch als Webservice) und WorldCat Identities (mehr dazu bei Thom Hickey, ich schrieb bereits darüber) relevant. WorldCat Identities bietet inzwischen auch Dank Ergebnisse des Projekt VIAF etwa 60.000 Links zur PND an. Im PND-Projekt der deutschsprachigen Wikipedia sind übrigens inzwischen fast 30.000 Personenartikel mit PND-Nummern versehen (vollständige Liste vom 27.4.2007 gibt es hier). Weite Quellen finden sich im Beitrag von G. bei Archivalia und in der umfangreichen von Bernhard Ebneth zusammengestellte Linksammlung historisch-biographischer Informationsmittel. Das World Biographical Information System (WBIS) aus dem Saur-Verlag mit mehrere Millionen Kurzbiographien ist übrigens inzwischen in Deutschland als Nationallizenz verfügbar.