Das Wissen der Welt

24. August 2014 um 22:32 4 Kommentare

Denny Vrandečić, einer der Köpfe hinter Semantic MediaWiki und Wikidata, hat eine clevere Metrik vorgeschlagen um den Erfolg der Wikimedia-Projekte zu messen. Die Tätigkeit und damit das Ziel der Wikimedia-Foundation wurde 2004 von Jimbo Wales so ausgedrückt:

Imagine a world in which every single person on the planet is given free access to the sum of all human knowledge. That’s what we’re doing.

In Wikiquote wird dieser bekannte Ausspruch momentan folgendermaßen übersetzt: „Stell dir eine Welt vor, in der jeder Mensch auf der Erde freien Zugang zum gesamten menschlichem Wissen hat. Das ist, was wir machen.“ Wie lässt sich nun aber quantifizieren, zu welchem Grad das Ziel erreicht ist? So wie ich es verstanden (und in meine Worte übersetzt) habe, schlägt Denny Folgendes vor:

Für jedem Menschen auf der Welt gibt es theoretisch eine Zahl zwischen Null und Eins, die angibt wieviel vom gesamten Wissens der Welt („the sum of all human knowledge“) diesem Menschen durch Wikimedia-Inhalte zugänglich ist. Der Wert lässt sich als Prozentzahl des zugänglichen Weltwissens interpretieren – da sich Wissen aber kaum so einfach messen und vergleichen lässt, ist diese Interpretation problematisch.

Der Wert von Eins ist utopisch, da Wikipedia & Co nicht alles Wissen der Welt enthält. Für Menschen ohne Internet-Zugang kann der Wert aber bei Null liegen. Selbst mit Zugang zu Wikipedia ist die Zahl bei jedem Menschen eine andere, da nicht alle Inhalte in allen Sprachen vorhanden sind und weil viele Inhalte ohne Vorwissen unverständlich und somit praktisch nicht zugänglich sind.

Die Zahlen der individuellen Zugänglichkeit des Weltwissens lassen sich nun geordnet in ein Diagram eintragen, das von links (maximales Wissen) nach rechts (kein Wissen durch zugänglich) alle Menschen aufführt. Wie Denny an folgendem Bild ausführt, kann die Wikimedia-Community ihrem Weg auf verschiedenen Wegen näher kommen:

(1) Der Ausbau von vielen Artikeln in einem komplexen Spezialgebiet oder einer kleinen Sprache kommt nur wenigen Menschen zu gute.

(2) Stattdessen könnten auch die wichtigsten Artikel bzw. Themen in Sprachen verbessert und ergänzt werden, welche von vielen Menschen verstanden werden.

(3) Schließlich kann Wikimedia auch dafür sorgen, dass mehr Menschen einen Zugang zu den Wikimedia-Ihren Inhalten bekommen – zum Beispiel durch Initiativen wie Wikipedia Zero

Ich halte die von Denny vorgeschlagene Darstellung für hilfreich um über das einfache Zählen von Wikipedia-Artikeln hinauszukommen. Wie er allerdings selber zugibt, gibt es zahlreiche offene Fragen da sich die tatsächlichen Zahlen der Verfügbarkeit von Wissen nicht einfach ermitteln lassen. Meiner Meinung nach liegt ein Grundproblem darin, dass sich Wissen – und vor allem das gesamte Wissen der Menschheit – nicht quantifizieren lässt. Es ist auch irreführend davon auszugehen, dass die Wikimedia-Produkte Wissen sammeln oder enthalten. Möglicherweise ist dieser Irrtum für die Metrik egal, nicht aber für das was eigentlich gemessen werden soll (Zugänglichkeit des Wissens der Welt).

Falls Wikimedia an einem unverstelltem Blick auf die Frage interessiert ist, wieviel des Wissens der Menschheit durch ihre Angebote den Menschen zugänglich gemacht wird, könnte es helfen mal einige Philosophen und Philosophinnen zu fragen. Ganz im Ernst. Mag sein (und so vermute ich mit meinem abgebrochenen Philosophie-Studium), dass am Ende lediglich deutlich wird, warum dass ganze Wikimedia-Projekt nicht zu realisieren ist; selbst Erkenntnisse über mögliche Gründe dieses Scheitern wären aber hilfreich. Vermutlich ist es aber zu verpönt, Philosophen ernsthaft um Rat zu fragen oder die verbliebenen Philosophen beschäftigen sich lieber mit anderen Fragen.

P.S: Eine weitere relevante Disziplin zur Beantwortung der Frage wieviel Wissen der Welt durch Wikipedia & Co der Menschheit zugänglich gemacht wird, ist die Pädagogik, aber da kenne ich mich noch weniger aus als mit der Philosophie.

Aktuelle Entwicklungen zu Freien Daten

18. März 2009 um 21:39 Keine Kommentare

Freie Software existiert als solche seit den 1980er Jahren (vorher war Software bis in die 1960er frei) und setzt sich im (Wind-)Schatten von Open Source Software immer mehr durch. Freie Inhalte gewinnen dank Creative Commons und Wikipedia ebenfalls seit Anfang des Jahrtausend an Bedeutung. Seit etwa zwei Jahren kommen nun auch vermehrt Freie Daten. Erst im Februar hat beispielsweise Web-Begründer Tim Berners Lee auf der TED-Konferenz mit der Forderung Raw Data Now! der Notwendigkeit von Freien Daten Nachdruck verliehen. Aus verschiedenen Gründen (andere Rechtsgrundlagen, Praktikabilität …) können Lizenzen für Freie Software und Freie Inhalte bei reinen Datensammlungen nicht so einfach angewandt werden. Deshalb wird zur Zeit im Projekt OpenDataCommons (ODC) von der Open Knowledge Foundation (OKF) an einer passenden Lizenz für Freie Daten gearbeitet. Weitere Informationen zu diesem Prozess gibt es bei OpenStretmap.

Für das freie Kartenprojekt und die OpenStreetMap Foundation besteht der größte Bedarf nach einer Lizenz, weshalb sie dankenswerterweise die Sache in die Hand genommen haben. Weitere Beteiligte sind unter Anderem die Autoren Jordan Hatcher und Charlotte Waelde, Creative Commons sowie Talis. Zur Diskussion steht momentan die “Open Database License“ (ODbL) zusammen mit der „Factual Information Licence“ (ODC-Factual). Zur Freigabe als Public Domain gibt es bislang schon die ODC Public Domain Dedication and Licence (PDDL) und seit kurzem von Creative Commons die CC Zero [via Netzpolitik].

Kommentare zur ODbL werden möglichst bis zum 20. März erbeten. Weitere Grundlagen und Vorarbeiten zu Lizenzen für Freie Daten gibt es von der OKF mit dem Guide to Open Data Licensing und bei Creative Commons bzw. Science Commons mit dem Protocol for Implementing Open Access Data. Die Privatisierungs-Mafia versucht übrigens derweil am demokratischen Prozess vorbei mit Geheimabsprachen an immateriellen Monopolrechten festzuhalten.

Bibliographische Daten müssen frei sein

4. Dezember 2008 um 00:42 7 Kommentare

In der englischsprachigen Biblioblogosphäre schlägt die neue OCLC-Policy zur Nutzung von Datensätzen aus WorldCat (PDF) schon seit Wochen hohe Wellen, während es in Deutschland aufgrund der geringeren Relevanz von WorldCat eher ruhig ist. Eine gute Zusammenfassung gab es vor zwei Wochen in netbib, der aktuelle Stand lässt sich dem CODE4LIB-Wiki entnehmen.

Ein bischen tun die Kollegen von OCLC mir ja schon leid: ich bezweilfle nicht einmal, dass sie mit der Policy die Möglichkeiten zur Nutzung der Daten verbessern wollten. Aber solange (wie bei den Verlagen) an totgeweihten Finanzierungsmodellen festgehalten wird, kann das nicht funktionieren. Der einzig richtige Weg ist, die bibliographischen Daten aus WorldCat freizugeben, so dass sie jeder ohne vorherige Einwilligung weiternutzen kann. Da Datenbanken nicht einfach dem Uhrheberrecht sondern je nach Land anderen Gesetzen unterliegen, ist die Sache nicht so einfach wie bei anderen Inhalten, aber es gibt bereits verschiedene Initiativen zu freien Katalogdaten, die sich auch den rechtlichen Aspekten widmen. Die einfachste Variante ist es, die Daten völlig frei unter Public Domain zu stellen, so dass jeder damit machen kann was er möchte. Falls verhindert werden soll, dass sich beispielsweise Google die Daten für Google Books einverleibt (die Google-Policy ist noch viel restriktiver als die von OCLC!), könnte eine virale Lizenz (Copyleft) verwendet werden, so wie es zum Beispiel bei Wikipedia üblich ist.

Der Streit ob Public Domain oder Freie Inhalte ist alt (siehe BSD vs. GNU/Linux) und ich kann nicht mit Sicherheit sagen, was sich für bibliographische durchsetzen wird. Sicher ist aber dass bibliographische Daten frei sein müssen. Zur Not werden halt die interessanten Daten nochmal abgetippt (oder gescannt – Handycam und OCR sollte bald ausreichen) und der Rest vergammelt in den Bibliothekskatalogen. Drei Beispiele: die Open Library steht bereit, die Erschließungsmöglichkeiten in LibraryThing werden immer ausgefeilter (die freiwilligen Katalogisierer ebenfalls) und bis in Wikipedia der Plan für eine zentrale Literaturdatenbank umgesetzt wird, ist nur eine Frage der Zeit.

Es ist an OCLC zu entscheiden, ob ihre Daten Teil dieser Bewegung sein werden oder nicht. Das trifft übrigens ebenso auf deutsche Bibliotheken und Bibliotheksverbünde zu! Entweder die Datenbanken werden geöffnet oder in Zukunft werden andere als Katalogexperten herangezogen. Wer daran zweifelt, sollte mal an Brockhaus und Wikipedia denken 😉

Ende der Venterisierung und Napsterisierung

31. Oktober 2008 um 02:00 Keine Kommentare

Seit ich meine Wikipedia-Beobachtungsliste nur noch spärlich nutze, entdecke ich einige Änderungen erst wenn es schon praktisch zu spät ist – so zum Beispiel die Löschung der Artikel „Venterisierung“ und „Napsterisierung“ vor einigen Tagen. Reiner Kuhlen führte diese beiden Begriffe 2002 ein, um damit die „kontrollierte, private Aneignung von Wissen“ auf der einen und die „Aneignung und Weitergabe von Informationsprodukten unter Umgehung kommerzieller Gepflogenheiten“ auf der anderen Seite zu charakterisieren.

Da die im März 2004 von Agon Buchholz angelegten Artikel – im Gegensatz zu vielem anderen, was in Wikipedia gelöscht wird – eigentlich ganz gut geschrieben sind, habe ich sie ins BIT-Wiki eingestellt. Ob die Entfernung aus Wikipedia gerechtfertig ist oder nicht, kann ich nicht eindeutig sagen. Ich habe eher den Eindruck, dass sich die Begriffe weder in der Fachwelt noch in der Öffentlichkeit durchgesetzt haben. Abgesehen von einem Telepolis-Artikel stammen die meisten Erwähnungen von Kuhlen selbst.

Dennoch sind die mit Venterisierung und Napsterisierung beschriebenen Phänomene weiterhin aktuell. Sollten sie deshalb in Wikipedia erwähnt werden? Möglicherweise. Wer etwas daran auszusetzen hat, welche Inhalte aus dem Bibliotheks- und Informationsbereich sich in Wikipedia finden oder nicht finden und welche Qualität die Artikel aufweisen, soll sich daran beteiligen oder die Inhalte des de-facto Standard-Nachschlagewerks so hinnehmen wie sie sind. Die hinter Wikipedia stehende Hoffnung ist, dass relevante Inhalte, die entfernt wurden, irgendwann wieder eingestellt werden (weil jemand eine Lücke entdeckt) und dass irrelevante Inhalte, irgendwann entfernt werden (weil jemand merkt, wie unnötig sie sind). Wikipedia ist ein Community-basierter-Hypertext, der ständig in Bewegung ist. Wikipedia-Inhalte ändern sich ebenso wie sich unsere Begriffswelt ändert.

Wie Begriffe aufkommen und wieder in Vergessenheit geraten, kann man beispielsweise mit Hilfe von Google Trends analysieren. „Web 2.0“ war ursprünglich wie „Venterisierung“ und „Napsterisierung“ auch nur eine Neuschöpfung, die sich allerdings durchgesetzt hat und inzwischen langsam wieder abflaut (siehe Abbildung). Noch kürzer ist der Hype-Zyklus beispielsweise bei Second Life.

P.S: Wer sich für die herausragenden Bereiche der Qualitätssicherung in Wikipedia interessiert, sollte einen Blick auf die Bewertungen und den Schreibwettbewerb werfen. Der 9. Wettbewerb ist gerade zu Ende gegangen und die Preisträger sowie die Sieger des Publikumspreis stehen fest.

Mein Vetter, digitalisierter Gefangener der Gemäldegalerie

26. März 2008 um 11:29 Keine Kommentare

Für die Abteilung „Dinge, die ich nicht brauche, die aber ganz nett wären“, habe ich für meinen Wunschzettel dieses Objekt entdeckt. Da es wahrscheinlich nur mittels eines angeblich „neben Drogen- und Menschenhandel […] einträglichsten“ Verfahrens beschaffbar ist, reicht zur Not auch eine Kopie aus. Beim Wallraf-Richartz-Museum kann man Abzüge und Scans in verschiedenen Varianten online bestellen. Erst kurz vor Abschluss der Bestellung (High-end-scan RGB 300dpi bis 24x30cm/40MB, Verwendung: Veröffentlichung) steht im Kleingedruckten ein Hinweis auf die Entgeltordnung. Demnach kommen ggf. noch zahlreiche undurchsichtige Zusatzgebühren hinzu und die „Internet-Veröffentlichung“ ist sowieso nur mit Aufpreis und für 3 Monate möglich. Mein Vetter sitzt also sozusagen lebenslang – nein: über sein Ableben hinaus! – als Gefangener der Gemäldegalerie aufgrund zweifelhafter Rechtsvorstellungen fest und keine Aussicht auf Befreiung. Keine Aussicht? Der Urheber ist vor mehr als 70 Jahren gestorben, so dass keine Rechtsansprüche mehr bestehen. Ich kann gerne anbieten, sein Grab zu besuchen, um für seine Werke eine Blume niederzulegen. Aber was ich auf keinen Fall machen werde ist, Museen oder Bibliotheken Geld zur Digitalisierung in die Hand zu drücken, ohne dass dabei die Wikimedia-Empfehlungen für Rechte bei Digitalisierungsprojekten beachtet werden. Dann lieber selber digitalisieren.

P.S: Zum Thema „eigenwilliger Umgang mit Digitalisaten“ hat mein Kollege einen wunderbar treffenden und stilistisch sehr unterhaltsam geschriebenen Text des – mir bislang unbekannten – Institut für Dokumentologie und Editorik entdeckt: In diesem PDF ab Seite 18 unten bis Seite 22 🙂

Freie Katalogdaten und Erschließungsmittel

12. März 2008 um 23:57 1 Kommentar

Die Open Knowledge Foundation setzt sich für freie Daten ein, also Daten die wie Freie Inhalte oder Freie Software ohne Beschränkung weiterverarbeitet, verändert und weiterverbreitet werden dürfen. Letzten Herbst hat sie dazu einen Guide to Open Data Licensing erstellt. Damals wurde der Entwurf einer Lizenz für Freie Daten von Talis und Creative Commons diskutiert – die Hintergründe gibt es unter Anderem bei Talis beschrieben und eine kurze Zusammenfassung bei Peter Suber.

Auf dem jährlichen Treffen der Open Knowledge Foundation am Samstag (15.3.2008) in London soll nun soweit ich es verstanden habe, im Rahmen von Open Data Commons die „Open Data Commons Public Domain Dedication and Licence“ (PDDL) verabschiedet werden. Ein Beispiel für Daten, die mit dieser Lizenz explizit als Public Domain oder Freie Daten gekennzeichnet werden sollten sind bibliografische Katalogdaten.

Letzte Woche gab es im OKF-Blog einen Artikel über Freie Katalogdaten – bisher sieht es trotz öffentlicher Förderung von Bibliotheken schlecht aus – nirgendwo kann explizit der gesamte Katalog heruntergeladen werden. Vielleicht hilft ja das Informationsfreiheitsgesetz – eine öffentliche Einrichtung, die Bücher verwaltet, sollte wenigstens einen vollständigen Bestandskatalog zur Verfügung stellen. Wirklich freie Bibliothekskataloge gibt es also bislang leider nicht.

Neben bibliografischen Daten nehmen die Erschließungsmittel eine zunehmende Rolle ein. Hier entstehen zur Zeit offene Alternativen und Bibliotheken sollten sich fragen, welche Rolle ihre Normdaten, Klassifikationen und Schlagwortsysteme in Zukunft noch haben werden, wenn sie nur eingeschränkt nutzbar sind. Ein Beispiel für ein nicht nutzbares Erschließungssystem nennt Anthony Williams der von Peter kommentiert wird: Die American Chemical Society (ACS) verbietet es, die CAS-Nummern weiterzuverbreiten, mit denen Chemische Verbindungen identifiziert werden. Wenn die ACS mit ihrer Meinung Recht hat, können in Wikipedia-Artikeln über Chemikalien keine CAS-Nummern aufgenommen werden – obwohl sich darüber viele weitere Informationen finden ließen, schließlich sind CAS-Nummern sowas wie „Telefonnummern der Chemischen Welt„.

Tja, anscheinend ist an verschiedenen Stellen noch einiges an Aufklärungsarbeit zu leisten.

Die Open Knowledge Foundation und Freie Informationen

13. Februar 2008 um 00:20 Keine Kommentare

Die Liste der Organisationen im Bereich Freies Wissen ist fast ein Jahr alt; statt einer aktualisierten Version (zuletzt ist das niederländische Free Knowledge Institute Mitte Januar hinzugekommen) möchte ich nochmal gesondert auf die Open Knowledge Foundation (OKF) hinweisen. Die in Großbritannien beheimatete Organisation setzt sich wie die Wikimedia Foundation und ihre Chapter für Freies Wissen ein. Während bei Wikimedia allerdings der Schwerpunkt auf enzyklopädischem Wissen und damit in Zusammenhang stehenden Bildern, Tondokumenten, Sachbüchern, Nachrichten, Zitaten, Quellen etc. steht und vor allem Wikis zu Einsatz kommen, legt die Open Knowledge Foundation den Schwerpunkt auf Daten und Informationen. Darunter fallen wie in der Open Knowledge Definition der OKF genannt wird „jegliche Art von Daten, ob naturwissenschaftlich, historisch, geographisch [oder auch] Administrative und Regierungsinformationen“.

Es gibt also große Gemeinsamkeiten zwischen OKF und Wikimedia, wie auch zwischen Wikimedia und Creative Commons (CC). Noch stärker ist vom Thema her allerdings die Gemeinsamkeit der OKF mit dem CC-Projekt Science Commons: Forscher sollen mit dieser Initiative dazu ermutigt werden, ihre Forschungsdaten zur weiteren Verwendung freizugeben – eine überaus sinnvolles Anliegen!

Weitere Informationen, deren Befreiung ansteht sind unter Anderem Geoinformationen, Katalogdaten von Bibliotheken (sic!) und Informationen des öffentlichen Nahverkehrs. Um mehr Daten zu sammeln, betreibt die OKF das Comprehensive Knowledge Archive Network (CKAN) und die Datenbank KnowledgeForge. In die gleiche Richtung zielt die von Creative Commons und Electronic Frontier Foundation (EFF) initiierte Befereiung von fast 2 Millione US-Rechtsdokumenten, die es anscheinend noch in keinen deutschsprachigen Blog geschafft hat (Erster! :-))

Am 15. März 2008 veranstaltet die OKF in London die zweite Open Knowledge Conference statt. Ich hoffe mal, das da etwas mehr engagierte Streiter für freies Wissen und freie Informationen zusammenkommen – auf der Britischen Insel scheinen die Wikipedianer und Wikimedianer im Gegensatz zu den Deutschen leider etwas verschnarcht zu sein, was Aktionen außerhalb der begrenzten Welt ihres Wikis betrifft 😉

P.S: Auf eine genauere Analyse der Unterschiede zwischen Wissen und Information und ihrer Zusammenhänge verzichte ich an dieser Stelle mal, obgleich das Thema immer wichtiger wird. Dass sich hinter vielem was „Knowledge“ heisst, eher Informationen oder Daten verbergen und dass auch Wissen keine alleinige Entscheidungsgrundlage sein kann, dürfte hoffentlich klar sein!

Kapstadt Open Education Declaration

9. Februar 2008 um 17:19 Keine Kommentare

Die Ende Januar veröffentlichte Kapstadt Open Education Declaration fordert mit staatlichen Geldern geförderte Unterrichtsmaterialien frei verfügbar zu machen. Sehr erfreulich, wie immer mehr Organisationen einsehen, dass Informationen frei sein sollen. Als nächster Schritt sollten frei zugängliche Werke (Open Access) auch frei weiternutzbar sein (Open Content) wie in Wikipedia – anstatt sich mit Anachronismen und Irrwegen wie Kopierschutz und eingeschränkter Nutzung herumzuschlagen, können wir uns dann den wichtigen Themen widmen: welche Informationen sind wie verlässlich? Wann ist welches Wissen für wen relevant? Wie sieht gute Lehre aus? Entgegen gegensätzlicher Behauptungen sind Vertreter der dem Untergang geweihten Verwertungsindustrie nämlich nicht Garanten für Qualität. [via Jürgen Lübeck, der in seinem Blogbeitrag weitere Quellen für frei zugängliche Lehrmaterialien aufführt]

Open Knowledge Foundation fordert freie Katalogdaten

15. Dezember 2007 um 13:47 Keine Kommentare

Die Open Knowledge Foundation (OKF) hat, wie unter Anderem netbib berichtet in Reaktion auf den Report on the Future of Bibliographic Control der Library of Congress eine Petition für den freien Zugang zu bibliographische Daten veröffentlicht (siehe Hintergrund): „[…] Bibliographic records are key part of our shared cultural heritage. They too should therefore be made available to the public for access and re-use without restriction. […]“. Am 15. März 2008 veranstaltet die Open Knowledge Foundation übrigens die zweite Open Knowledge Conference in London, während Creative Commons heute das 5-jährige feiert.

Freie Schriftarten als freie Inhalte

26. September 2007 um 15:16 1 Kommentar
Open Font License

Nach einiger Zeit mal wieder etwas Neues im Bereich Organisationen und Initiativen im Bereich freier Inhalte: Freie Schriftarten/Fonts. Zwar gibt es im Netz massenweise kostenlose oder eigentlich frei-aber-Fonts doch freie Fonts im Sinne freier Inhalte sind eher rar. Markus wies auf das Free Font Manifesto hin, mit dem dem Mangel an freien Schriften Abhilfe geschaffen werden soll.

SIL International, mir bisher bekannt als Registration Authority für Sprachcodes nach ISO 639-3 hat dazu die SIL Open Font License veröffentlicht, die sich in die wachsende Zahl freier Lizenzen einreiht.