Das Wissen der Welt

24. August 2014 um 22:32 4 Kommentare

Denny Vrandečić, einer der Köpfe hinter Semantic MediaWiki und Wikidata, hat eine clevere Metrik vorgeschlagen um den Erfolg der Wikimedia-Projekte zu messen. Die Tätigkeit und damit das Ziel der Wikimedia-Foundation wurde 2004 von Jimbo Wales so ausgedrückt:

Imagine a world in which every single person on the planet is given free access to the sum of all human knowledge. That’s what we’re doing.

In Wikiquote wird dieser bekannte Ausspruch momentan folgendermaßen übersetzt: „Stell dir eine Welt vor, in der jeder Mensch auf der Erde freien Zugang zum gesamten menschlichem Wissen hat. Das ist, was wir machen.“ Wie lässt sich nun aber quantifizieren, zu welchem Grad das Ziel erreicht ist? So wie ich es verstanden (und in meine Worte übersetzt) habe, schlägt Denny Folgendes vor:

Für jedem Menschen auf der Welt gibt es theoretisch eine Zahl zwischen Null und Eins, die angibt wieviel vom gesamten Wissens der Welt („the sum of all human knowledge“) diesem Menschen durch Wikimedia-Inhalte zugänglich ist. Der Wert lässt sich als Prozentzahl des zugänglichen Weltwissens interpretieren – da sich Wissen aber kaum so einfach messen und vergleichen lässt, ist diese Interpretation problematisch.

Der Wert von Eins ist utopisch, da Wikipedia & Co nicht alles Wissen der Welt enthält. Für Menschen ohne Internet-Zugang kann der Wert aber bei Null liegen. Selbst mit Zugang zu Wikipedia ist die Zahl bei jedem Menschen eine andere, da nicht alle Inhalte in allen Sprachen vorhanden sind und weil viele Inhalte ohne Vorwissen unverständlich und somit praktisch nicht zugänglich sind.

Die Zahlen der individuellen Zugänglichkeit des Weltwissens lassen sich nun geordnet in ein Diagram eintragen, das von links (maximales Wissen) nach rechts (kein Wissen durch zugänglich) alle Menschen aufführt. Wie Denny an folgendem Bild ausführt, kann die Wikimedia-Community ihrem Weg auf verschiedenen Wegen näher kommen:

(1) Der Ausbau von vielen Artikeln in einem komplexen Spezialgebiet oder einer kleinen Sprache kommt nur wenigen Menschen zu gute.

(2) Stattdessen könnten auch die wichtigsten Artikel bzw. Themen in Sprachen verbessert und ergänzt werden, welche von vielen Menschen verstanden werden.

(3) Schließlich kann Wikimedia auch dafür sorgen, dass mehr Menschen einen Zugang zu den Wikimedia-Ihren Inhalten bekommen – zum Beispiel durch Initiativen wie Wikipedia Zero

Ich halte die von Denny vorgeschlagene Darstellung für hilfreich um über das einfache Zählen von Wikipedia-Artikeln hinauszukommen. Wie er allerdings selber zugibt, gibt es zahlreiche offene Fragen da sich die tatsächlichen Zahlen der Verfügbarkeit von Wissen nicht einfach ermitteln lassen. Meiner Meinung nach liegt ein Grundproblem darin, dass sich Wissen – und vor allem das gesamte Wissen der Menschheit – nicht quantifizieren lässt. Es ist auch irreführend davon auszugehen, dass die Wikimedia-Produkte Wissen sammeln oder enthalten. Möglicherweise ist dieser Irrtum für die Metrik egal, nicht aber für das was eigentlich gemessen werden soll (Zugänglichkeit des Wissens der Welt).

Falls Wikimedia an einem unverstelltem Blick auf die Frage interessiert ist, wieviel des Wissens der Menschheit durch ihre Angebote den Menschen zugänglich gemacht wird, könnte es helfen mal einige Philosophen und Philosophinnen zu fragen. Ganz im Ernst. Mag sein (und so vermute ich mit meinem abgebrochenen Philosophie-Studium), dass am Ende lediglich deutlich wird, warum dass ganze Wikimedia-Projekt nicht zu realisieren ist; selbst Erkenntnisse über mögliche Gründe dieses Scheitern wären aber hilfreich. Vermutlich ist es aber zu verpönt, Philosophen ernsthaft um Rat zu fragen oder die verbliebenen Philosophen beschäftigen sich lieber mit anderen Fragen.

P.S: Eine weitere relevante Disziplin zur Beantwortung der Frage wieviel Wissen der Welt durch Wikipedia & Co der Menschheit zugänglich gemacht wird, ist die Pädagogik, aber da kenne ich mich noch weniger aus als mit der Philosophie.

Wikipedia ist keine Loseblattsammlung

12. Dezember 2011 um 23:34 1 Kommentar

Seit mittlerweile sieben Jahren gibt es mit dem Wikipedia-Portal Bibliothek, Information, Dokumentation eine Übersicht der Wikipedia-Artikel aus dem BID-Bereich. Ich gehe davon aus, dass alle Studieren der Bibliotheks- und Informationswissenschaft die dort aufgeführten Wikipedia-Inhalte auch für ihr Studium nutzen.

Wenn ich mir die Artikel anschaue, die Christoph Demmer unermüdlich als neu angelegt im BID-Portal einträgt (vielen Dank!), frage ich mich allerdings manchmal, ob das Projekt nicht gescheitert ist (wieder so eine Idee für einen LIBREAS-Artikel zum Thema Scheitern). Es ist zwar nicht so, dass Wikipedia nicht oder nur passiv verwendet würde. Der Anteil derer, die sich trauen, einen Fehler zu korrigieren oder fehlende Informationen und Zusammenhänge einzutragen, liegt eben nur im einstelligen Prozentbereich. Vereinzelt finden sich sich aber sowohl Studierende als auch Institutionen und ihre Mitarbeiter, die etwas zu Wikipedia beisteuern. Die neuen Artikel sind auch nicht unbedingt schlecht, sie müssen in der Regel nur etwas angepasst werden. Trotzdem bleibt ein wenig Enttäuschung, wenn ich mir Artikel zu Bibliotheken, Bibliothekaren und den Phänomenen mit denen sie sich beschäftigen, in Wikipedia anschauen. Was ist das Problem?

Ich glaube, dass viele Menschen Wikipedia als Loseblattsammlung missverstehen: ab und zu kommen Änderungen und neue Artikel, die Artikel haben einige Links, aber das war es auch schon. Weder dem Austausch zwischen den Wikipedia-Autoren noch dem Hypertext-Charakter der Online-Enzykopädie als Gesamtsystem wird diese Vorstellung gerecht. Dabei finde ich viel wichtiger dass Wikipedia Denkanstöße schafft, Zusammenhänge aufzeigt und einen Überblick bieten kann. Neue Artikel, wie zum Beispiel Elektronische Bibliothek Schweiz oder Primo Central, stehen jedoch eher da wie Inseln im Informationsdschungel, um eine mißglückte Metapher zu bemühen (@LIBREAS habt ihr was zu gescheiterten Metaphern?). Auf den Inseln lässt sich es sich zwar leben, geographische Grundkenntnisse bleiben aber begrenzt.

In einer Studie zum Lernverhalten im Internetzeitalter fasste kürzlich ein Tutor das Problem für die passive Wikipedia-Nutzung zusammen:

The problem with Wikipedia is it’s too easy. You can go to Wikipedia, you can get an answer, you don’t actually learn anything, you just get an answer.

Dies gilt ähnlicher Weise auch für die aktive Wikipedia-Nutzung durch das Anlegen von Artikeln. Man lernt zwar etwas über den Gegenstand des Artikels und wie man einen Artikel schreibt. Das Verständnis der Zusammenhänge bleibt jedoch eher gering, solange nicht ein ganzes Teilnetz von thematisch verwandten Artikeln überarbeitet wird.

Darum mag ich Wikimedia: Closed Access

26. Juli 2011 um 21:37 7 Kommentare

Vor knapp zwei Wochen war ich auf der Suche nach einer einfachen, ansprechenden und deutlichen Methode, um GBV-Datenbanken als frei zugänglich oder als zugangsbeschränkt zu kennzeichnen. So sind beispielsweise die Bibliothekskataloge und der Verbundkatalog frei zugänglich (also Open Access), während einige Fachdatenbanken wie zum Beispiel Online-Contents nur innerhalb der Hochschulnetze aufrufbar sind (also Closed Access). Die Public Library of Science (PLoS) hatte mal ein Logo entworfen, um auf Open-Access-Publikationen hinzuweisen:

Open Access logo PLoS white

Ich habe noch einen Button hinzugefügt: Open Access

Für Closed Access gab es bislang kein Logo. Solange Closed Access die Regel und Open Access die Ausnahme ist, mag das verständlich sein. Inzwischen ist es aber an der Zeit, nicht frei zugängliche Publikationen gezielt zu kennzeichnen und so an den Pranger zu stellen. Ich habe deshalb zwei Varianten für ein Closed-Access-Logo entworfen, in Wikimedia Commons hochgeladen und auf einer eigenen Seite verschiedene Logos und Buttons gesammelt:

Closed Access logo white Closed Access logo alternative

Und heute habe ich dann die Icons plötzlich in einem Artikel über aktuelle Wikipedia-Forschung zufällig entdeckt. Ein anderer Wikipedia-Autor hatte die Icons gefunden, für praktisch befunden, und in seine Arbeit eingebaut. Das ist möglich dank Freier Inhalte, die über Open Access hinausgehen.

Oc 80x15 blue

Freie Inhalte sind nämlich nicht nur frei zugänglich, sondern bleiben auch frei, da sie weiterverbreitet und sogar verändert werden dürfen. Dabei müssen je nach Lizenz nur die Urheber und die Lizenz genannt sowie abgeleitete Werke unter die selbe Lizenz gestellt werden (Prinzip „Share-Alike“). hier noch einige weitere Icons und Banner, die auch freie Lizenzen abdecken.

People are Knowledge

24. Juli 2011 um 22:35 Keine Kommentare

Ich könnte mich über die Löschung eines vor 6 Jahren in Wikipedia eingestellten Artikels ärgern. Oder über die Querelen in Wikimedia-Deutschland e.V. Stattdessen freue ich mich darüber, dass Wikipedia grundsätzlich funktioniert: zahlreiche wissenshungrige Engagierte recherchieren, formulieren und korrigieren gegen die allgemeine Unwissenheit und Dummheit. Dabei stellen sie im Besten Fall sich und ihre Arbeit immer wieder selber in Frage, um ihrem Gegenstand „Wissen“ besser gerecht zu werden. Ein aktuelles Beispiel ist die Auseinandersetzung mit dem Prinzip der Quellenangaben und Belege. Für viele Kulturkreise lässt es sich nicht so einfach anwenden, da keine schriftlichen Quellen nach westlichem Bewertungsmaßstab existieren. Aber es gibt überall Menschen, die ihr Wissen weitergeben. Wie lässt sich dieses Wissen in Wikipedia erschließen? Die Wikimedia Foundation hat dazu ein Forschungsprojekt zusammen mit dem indischen Centre for Internet and Society unterstützt, dessen Ergebnisse nun in Form eines 45-minütigen Filmes vorliegen.

Ein Film für Wikipedianer, Bibliothekare, Kulturwissenschaftler und alle anderen, die sich für Wissen und Wissenssammlung interessieren.

Der Film steht unter CC-BY-SA zur Verfügung, kann also weiterverbreitet und angepasst werden (z.B. durch Erstellen einer Synchronisation, die bei Interesse sicher von Wikimedia Deutschland finanziell unterstützt werden könnte). Im Wikimedia-Kurier gibt es eine kurze Zusammenfassung und auf der Wikimania 2011 in Haifa wird es zum Forschungsprojekt eine Session geben. Dass ich dieses Jahr in Haifa nicht dabei bin, ärgert mich dann allerdings schon etwas.

Affen haben keine Urheberrechte

17. Juli 2011 um 12:43 2 Kommentare

Urheberrecht und rechtskonforme Bildernutzung sind normalerweise trockene und komplizierte Themen. Selbst bei eigentlich freien Bilder, wie sie in Wikimedia Commons gesammelt werden, ist es trotz der hervorragenden Arbeit von Creative Commons manchmal nicht einfach herauszufinden, wie genau denn nun ein Bild genutzt werden darf. Zumindest gibt es zu meinem Erstaunen bislang keine Schnittstelle, über die sich die Nutzungsbedingungen eines Bildes automatisch ermitteln ließen. Bei freien Bilder gibt es folgende Möglichkeiten:

Entweder das Bild ist gemeinfrei, d.h. jeder kann damit (zumindest vom Standpunkt des Urheberrechts aus) machen was er möchte. Oder der Urheber hat das Bild unter eine freie Lizenz gestellt, unter deren Bedingungen es verwendet werden kann. Je nach Art der freien Lizenz sind folgende Nutzungsbedingungen möglich:

  • Der Urheber muss genannt werden
  • Die Lizenz muss angegeben werden
  • Es muss auf die Quelle verwiesen werden
  • Eigene Bearbeitungen des Bildes müssen unter die gleiche Lizenz gestellt werden (ShareAlike)

Wie allerdings im Detail auf Quellen, Urheber und Lizenzen verwiesen werden muss, lässt sich schwer automatisch ermitteln. Seit September 2010 gibt es zumindest in Wikimedia Commons die Funktion „Use this file“, die das Herausfinden erleichtert. Ich habe mal angefangen den JavaScript-Code dieser Funktion nach PHP zu portieren, um die automatische Einbindung von Bildern aus Commons zu erleichtern.

Damit ein Bild lizensiert werden kann, muss es erst einmal rechtsgültiger Urheber existieren und das Bild muss eine rudimentäre Schöpfungshöhe aufweisen. Einfache Digitalisate von bereits gemeinfreien Werken sind beispielsweise nicht urheberrechtlich geschützt. Dirk Franke hat nun in in seinem Blog auf einen anderen Fall hingewiesen, in die Tücken des Urheber- und Bilderrechts unterhaltsam werden:

Chimpanzee congo painting Macaca nigra self-portrait
Affengemälde: Urheberrechtsfrei Affenfoto: Urheberrechtsfrei

Vor drei Jahren hat ein Affe im indonesischen Tangkoko-Nationalpark eine Reihe von Fotos von sich selbst gemacht. Die Aufnahmen entstanden nach Aussagen des Fotografen David Slater, der die Kamera auf einem Stativ montiert hatte, nicht absichtlich. Damit gibt es weder Urheber noch Schöpfungshöhe, d.h. die Bilder fallen nicht unter das Urheberrecht. Das ist für profesionelle Fotografen und Journalisten allerdings so undenkbar wie für einen Tea-Party-Anhänger die Vorstellung von den menschlichen Ursachen der Erderwärmung. Dabei ist das Urheberrecht kein Gottgegebenes Menschenrecht, sondern ein künstliches Monopolrecht, das Rechteinhabern unter bestimmten Bedingungen zugestanden wird. Ãœber die Bedingungen lässt sich streiten, aber zumindest haben bislang Affen kein Urheberrecht. David Slater bekommt trotz der unabsichtlichen Fotos genügend Publicity, Rechtsexperten haben etwas zum diskutieren und der Betrachter freut sich. Nur der Affen hat nichts von dem ganzen Theater – er braucht auch keine Urheberrechte sondern ungestörten Lebensraum, sonst ist er bald ausgestorben.

P.S.: In Wikimedia Commons gibt es übrigens bereits nicht nur Bilder von Affen, sondern auch von einem Hund und von einem Puma. Die malenden Elefanten aus dem Elefanten-Camp bei Chiang Mai fehlen leider noch.

P.P.S: Schon gewusst, dass es im Unicode-Standard fünf verschiedene Affen gibt?: 🐒 🐵 🙈 🙉 🙊

Professoren und Journalisten bei der Arbeit

4. Juli 2011 um 15:53 2 Kommentare

Eigentlich hat die Geschichte um Wikipedia und Wiki-Watch.de alles was zu einem schönen Skandal dazugehört: ein universitäres Forschungsprojekt mit Verbindungen zu einer PR-Firma für Unternehmen, die sich „mit vollem Engagement für Ihre Ziele engagieren“ kann. Eine Pharmafirma mit einem Medikament, das aus gentechnisch veränderten Proteinen hergestellt wird und möglicherweise das Krebsrisiko erhöht, Verbindungen zu religiösen Extemisten, Burschenschaften und dem Videopodcast der Kanzlerin (das ich hier mal nicht verlinke), der Versuch die Aufdeckung von Plagiatsfällen zu behindern und schließlich Druck auf die Presse, falls diese wie die FAZ mal recherchiert, was die so genannten Professoren tatsächlich treiben (Kopien des Artikels siehe hier). Die Hintergründe sind mal wieder in Wikipedia nachzulesen, so dass andere Medien nicht mehr viel recherchieren müssten, um eine schöne Story daraus zu machen. Wer mag, kann das ganze mit Hintergründen zu den schädlichen Einflüssen von Drittmitteln an Hochschulen oder zur Funktion von Social Media anreichern.

Trotzdem tut sich bislang wenig in den Medien und auch die Hochschule schweigt sich lieber aus. Stattdessen müssen mal wieder Blog- und Twitter-Autoren die Aufgabe der Vierten Gewalt übernehmen, z.B. hier und hier. Aber vielleicht kommt ja noch was.

P.S.: Ich betone hiermit, dass ich mir die Inhalte der verlinkten Seiten nicht zu Eigen mache. Was im Detail davon den Tatsachen entspricht sollte jeder selber nachrecherchieren.

P.P.S.: Inzwischen gibt es einen Artikel im Spiegel und Michael Schmalenstroer hat die weiteren Entwicklungen zusammengefasst. So hat u.A. Wolfgang Stock, der zusammen mit Johannes Weberling Wiki-Watch.de betreibt, laut Spiegel eine eidesstattliche Erklärung abgegeben, die von @LobbyistenWatch widerlegt wurde. Mal sehen, ob die Lobbyisten damit durchkommen.

Named Entity Recognition with DBPedia

15. Februar 2011 um 14:55 5 Kommentare

Yesterday the DBPedia team released DBPedia Spotlight, a named entity recognition service based on structured data extracted from Wikipedia. You can access the service via Web APIs or download the software as Open Source. I could not resist to feed Spotlight its own description:

DBpedia Spotlight is a tool for annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia. Text annotation has the potential of enhancing a wide range of applications including search, faceted browsing and navigation. By connecting text documents with DBpedia, our system enables a range of interesting use cases. For instance, the ontology can be used as background knowledge to display complementary information on web pages or to enhance information retrieval tasks. Moreover, faceted browsing over documents and customization of web feeds based on semantics become feasible. Finally, by following links from DBpedia into other data sources, the Linked Open Data cloud is pulled closer to the Web of Documents.

Pretty cool, isn’t it? Natural Language Processing (NLP) for information extraction seems to be the next hype after Web 2.0 and Semantic Web. I don’t neglect the innovative capabilities of DBPedia Spotlight and similar tools, but you should never forget that these are just tools, which won’t automatically solve information problems, or replace all other tools. Given the example above, there is little chance that an automatic system will extract you an exact topic of the text (for instance „named entity recognition based on data extracted from Wikipedia“) because this requires much background knowledge combining domain-specific expertise with common sense. By the way: as long as both Wikipedia and NLP-software is mainly written by white males, the result of will always mirror a limited world-view.

You can compare the results of Spotlight with similar open services:

I found little overlap between the different services. Spotlight seems to provide more results (depending on the Text) on an error rate between 10% and 30%. You could use such tools for automatic subject indexing based on abstracts and use the result at least for ranking. Unfortunately in library metadata we often have no full text or abstract to annotate. Furthermore many library entities have no DBPedia entry but catalogers create new authority records if needed. What do you think, named entity recognition and other NLP techniques can be used for in metadata land? Can we give up controlled subject indexing in libraries in favour of automatic NLP-based indexing on the one side and social tagging on the other? Or is room for all of these approaches, and how can you successfully combine them?

Wikipedia, wie sie vor 10 Jahren aussah

14. Januar 2011 um 10:33 4 Kommentare

Am 15. Januar 2001, also vor zehn Jahren, wurde die Wikipedia ins Leben gerufen. WikiPedia (so der ursprüngliche Name in CamelCase) war damals eher eine Notlösung oder ein Experiment, zu dem sich Larry Sanger und Jimbo Wales aufgrund des langsamen Fortschreitens der Nupedia entschlossen hatten. So wurde eines dieser neuartigen „Wikis“ aufgesetzt (UseModWiki), in dem jeder Internetsurfer Seiten direkt bearbeiten kann. Alle Änderungen werden dabei protokolliert und können von jedem überprüft und verbessert werden – dank dieser Offenheit und Transparenz wuchs Wikipedia zu dem, was sie heute ist.

Leider wurden jedoch in der Anfangszeit ältere Bearbeitungen nach einiger Zeit gelöscht – die allerersten Artikelversionen der Englischen Wikipedia waren deshalb für immer verloren geglaubt. Bis im Dezember Tim Starling ein altes Backup entdeckte. Mehr dazu im Wikipedia-Kurier, dem internen Mitteilungsblatt der deutschsprachigen Wikipedia.

Nun hat Kurt Jansson, Wikipedianer der ersten Stunde, ein Backup der deutschsprachigen Wikipedia vom August 2001 ausgegraben. Mit einer angepassten Version der ursprünglichen Software konnten wir die Wikipedia so wieder online stellen, wie sie damals aussah – die Bearbeitungsfunktion ist allerdings abgeschaltet. In der Versionsgeschichte fehlen nur einige wenige Bearbeitungen, die aber – wie bei der englischsprachigen Wikipedia – in einer Logdatei (500kB) erhalten geblieben sind. Die Entwicklung der Wikipedia beschreibt Logograph schön (bis auf das „Mann“) in einem Artikel der aktuellen ZEIT:

2001 ist die Wikipedia als Ruderboot mit drei Mann Besatzung und einer Flasche Limo in See gestochen, um dann in voller Fahrt zu einem riesigen Dampfer ausgebaut zu werden. Was immer gerade notwendig oder wünschenswert erschien, wurde irgendwo angeschweißt.

Nachdem die „deutsche.wikipedia.com“ (später de.wikipedia.com) am 16. März 2001 ins Leben gerufen worden war, wurden zunächst einige Artikel aus der Nupedia übernommen und ins Deutsche übersetzt. Die ersten dieser Artikel waren Vergil [W], Pylos [W], SNOBOL 4 [W], Der Plalast des Nestor in Pylos (kurz darauf gelöscht) und Polymerase-Kettenreaktion [W]. Die damals beteiligten Magnus Manske und Rainer Zenz sind noch immer in Wikipedia tätig, während sich SoniC etwas rar gemacht hat.

Da sich die Versionsgeschichte des Artikels Polymerase-Kettenreaktion als bisher älteste erhalten hat, gilt dieser Artikel oft als erster Artikel der deutschsprachigen Wikipedia. Die ersten, speziell für Wikipedia neu verfassten Artikel, wurden jedoch erst kurz danach, am 17. Mai angelegt. Lars Aronsson (ebenfalls noch immer aktiver Wikipedianer) legte drei ganz kurze Artikel zu Dänemark, Kattegatt und die Nordsee an. Heute würden solch kleinen Artikelanfänge sicher als zu wenig gelöscht. Die Versionsgeschichten sind vollständig in der aktuellen Wikipedia erhalten: ausgehend ganz vom Anfang kann durch wiederholtes Klicken auf die „Nächstjüngere Version“ nachverfolgen, wie sie innerhalb von zehn Jahren immer weiter ausgebaut und verbessert wurden.

Ich wünsche allen Lesern und Autoren viel Spaß beim Stöbern und Verbessern und freue mich schon darauf, am Samstag Abend das Jubiläum zusammen mit anderen Wikipedianern gebührend zu feiern!

Tagging von OpenAccess-Artikeln mit Wikipedia

5. August 2010 um 07:38 5 Kommentare

Zur Zeit bekomme ich nur am Rande die tollen Beiträge der Biblioblogosphäre wie Ethik von unten und die Übersicht von Repository-Upload-Formularen mit, da ich intensiv an der Dissertation sitze (siehe meine Literatur). Lamberts Vorschlag Wikipedia zur Sacherschließung von Open Access zu nutzen, möchte ich jedoch nicht unkommentiert lassen.

Die Grundidee ist folgende: Wissenschaftliche Literatur aus Open Access Repositorien lässt sich 1.) direkt verlinken 2.) im Volltext analysieren und 3.) zur automatischen Erzeugung von Literaturangaben verwenden. Dagegen steht, dass die Sacherschließung dürftig ist und Artikel oft sehr speziell sind. Wikipedia ist dagegen ebenso für 1-3 verfügbar und bietet einen guten (manchmal sogar ausgewogenen) Einstiegspunkt in ein Thema – es fehlt jedoch oft an weiterführenden Hinweisen auf aktuelle Literatur. Lambert schlägt nun eine Webanwendung vor, in der Nutzer Wikipedia-Artikel und Open-Access Artikel einander zuordnen können. LibraryThing hat vorgemacht, dass Sacherschließung nicht dröge sein muss, sondern durch spielerische Anreize gute Ergebnisse liefert. Deshalb sollte die Sacherschließung mit Wikipedia auch möglichst einfach als Spiel umgesetzt werden. Die Webanwendung könnte sowohl von einer eigenen Seite als auch als Widget direkt aus Wikipedia und aus OA-Repositorien oder Suchmaschinen benutzt werden und sollte mit möglichst wenigen Klicks (im Idealfall nur ein einziger!) zu bedienen sein. Durch Auswertung der Volltexte können mit herkömmlicher Suchmaschinentechnologie (z.B. Solr oder Maui) von OA-Artikeln bzw. Wikipedia-Artikeln ähnliche Artikel der jeweils anderen Textgattung vorgeschlagen werden. Nutzer können dann die Vorschläge als passend oder als unpassend bewerten.

Ich stelle mir die Bewertung ähnlich wie bei Stackoverlow vor (siehe Screenshot-Ausschnitt rechts). Nutzer können dort Reputations-Punkte für verschiedene Aktionen bekommen (oder verlieren) – siehe Stackoverflow-FAQ. Für das Hinzufügen eines nicht-automatisch vorgeschlagenen Artikels könnte es z.B. mehr Punkte geben als für das Bestätigen eines bereits vorhandenen Artikels, so dass zusätzliche Recherchen belohnt werden. In jedem Fall sollte die Weiterentwicklung der Idee erstmal mit der Benutzeroberfläche beginnen anstatt gleich über technische Möglichkeiten nachzudenken. Eine Ãœbersicht von Webanwendungen für User-Interface Mockups gibt es hier. Papier oder Tafel und Stift reichen aber auch aus. Wichtig ist nur, dass das Design nicht von Fragen wie „wie setze ich das in HTML um?“ oder „wo und wie sollen die Daten gespeichert werden?“ beschränkt wird.

Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 5 Kommentare

Wie am Freitag bekanntgegeben wurde hat die Universitäts- und Stadtbibliothek Köln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa 1,3 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits länger von verschiedener Seite gefordert worden – zuletzt in einem guten Einführungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die Gründung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und über die Einrichtung einer eigenen Wiki-basierten Bibliografie ähnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekündigt, ein „Lizenzmodell, das die freie Verwendung der Metadaten garantiert“ zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im großen Maßstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne Einschränkung weitergenutzt werden können.

Wie geht es nun weiter? Zunächst hoffe ich, dass bald weitere Bibliotheken und Bibliotheksverbünde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nächste Schritt besteht darin, die Daten so umzuformen, dass tatsächlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk „Semantic Web“ in die Kataloge bringt. Darüber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschlußreichen Artikel geschrieben: Open Data bringt ähnlich wie Open Source Vorteile, da Fehler und Lücken besser gefunden und ausgebessert werden können. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung für die Daten übernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Änderungen angebracht werden können, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch für Beiträge von Dritten offen ist; für weitere bibliografische Datenbestände ist aber eine kollaborative Infrastruktur notwendig, über die Außenstehende leicht Verbesserungen vornehmen können, ohne ein vollständiges Bibliothekssystem installieren zu müssen.

In jedem Fall freue ich mich über den ersten großen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, möchte ich nur kurz hinweisen: Für Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt übermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen möchte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.