Qualitätssicherung von Freien Daten

14. April 2010 um 23:26 4 Kommentare

Vor etwas über einem Monat hat Nat Torkington einen Blogbeitrag mit dem Titel Truly Open Data veröffentlicht, auf den ich hier kurz hinweisen möchte. Nat versucht seit geraumer Zeit verschiedene Einrichtungen dazu zu überzeugen, ihre Daten als (Linked) Open Data freizugeben. In Truly Open Data beschreibt er, warum das Freigeben alleine leider nicht ausreicht, sondern ein offenes Qualitätsmanagement notwendig ist.

Freie Daten lassen sich prinzipiell mit Freier Software vergleichen: dank expliziter Lizensierung (zum Beispiel CC0) kann jeder die Daten kopieren, ändern (mit anderen Daten kombinieren, bereinigen, Ausschnitte bilden etc.) und weitergeben. Wenn man sich allerdings erfolgreiche Open Source Projekte anschaut, passiert in der Praxis noch mehr: Vor allem gibt es eine Community, die das Projekt pflegt und vorantreibt.

Ned weist darauf hin, dass Open Data vergleichbare Praktiken und Werzeuge benötigt, wie Open Source: Die Daten müssen gemeinsam bearbeitet werden können und es muss Personen geben, die sich für ein Datenset verantwortlich fühlen und im Zweifelsfall Entscheidungen treffen können. Zur Kommunikation und Kollaboration sind zahlreiche Tools wie Mailinglisten, Chat, Bug-Tracking-Systeme etc. hilfreich. Es muss einfach sein, sich Änderungen anzeigen zu lassen (Diff) und Vorschläge für Änderungen weitergeben zu können (Patch) – das was in Softwareprojekten durch Versionsverwaltung unterstützt wird. Außerdem mangelt es häufig – wie bei Software – an guter Dokumentation.

Insgesamt dürfen Daten nicht nur als Endprodukt gesehen werden. Es reicht nicht, Daten zu öffnen (auch wenn das der erste Schritt ist), sondern es muss sich auch die Erstellung, Pflege und Weiterverarbeitung der Daten öffnen.

Ich kann Net nur Recht geben und darauf hinweisen, dass die von ihm angesprochenen Punkte eigentlich eine Frage des Qualitätsmanagement sind. Sowohl bei Software als auch bei Daten sieht es jedoch oft sehr schlecht aus, wenn man mal schaut, wie sie entstehen und gewartet werden – wenn sie überhaupt gewartet werden anstatt vor sich hinzurotten. Open Source ist unter Anderem deshalb oft kommerziellen Produkten überlegen, weil offene Systeme nicht so einfach ihren Dreck unter den Teppich kehren können. Kein Wunder, dass viele Produzenten von Daten davor zurückschrecken, ihre Daten freizugeben: Dann wäre ja sichtbar, wie schlecht die Daten tatsächlich gepflegt sind!

Aber es gibt auch gute Beispiel und Vorbilder für offene, lebendig Datenbestände: OpenStreetmap, MusicBrainz, Wikipedia und DBPedia etc. Das Comprehensive Knowledge Archive Network (CKAN) und datapkg sind gute Ansätze. In einem Kommentare beschreibt Gerry Creager wie die Datenqualität in Forschungsprojekten durch einige Regeln verbessert werden konnte. Und Bibliotheksverbünde bieten bereits seit Jahrzehnten Werkzeuge zur gemeinsamen Datenpflege (wenn auch inzwischen etwas veraltet). Wesentlich ist aus meiner Sicht erst einmal die eindeutige Referenzierbarkeit von publizierten Daten (siehe z.B. datacite.org)

Grundsätzlich steht die kollaborative Pflege von Datenbeständen noch in den Anfängen und es gibt noch kein allgemeines Diff/Path für RDF. Ich sehe diese Herausforderungen trotzdem nicht als Grund, den ersten Schritt hinauszuzögern, bis irgendwann ein Data Publishing Framework etabliert ist. Die Freigabe von Daten als Linked Open Data kann und sollte jetzt geschehen und darauf aufgebaut werden.

Stand der gesichten und geprüften Versionen in Wikipedia

1. Juli 2008 um 19:18 2 Kommentare
Keine Version gesichtet
Gesichtet (zur aktuellen Version)
Gesichtet

In der deutschsprachigen Wikipedia sind nun seit fast zwei Monaten die gesichteten und geprüften Versionen aktiviert (siehe Ankündigung) und es sind schon mehr als die Hälfte der über 780.000 Artikel als „gesichtet“ markiert. Damit ist sichergestellt, dass ein Leser der Wikipedia bei Aufruf eines gesichteten Artikels keine mutwilligen Verunstaltungen zu Gesicht bekommt – zumindest sofern diese für regelmäßige Wikipedia-Autoren offensichtlich erkennbar sind. Noch nicht gesichtete Bearbeitungen sind auch weiterhin sofort verfügbar und zwar über den Link „zur aktuellen Version“ – schließlich ist Wikipedia eine offene Enzyklopädie, an deren Verbesserung sich jeder beteiligen darf; daran ändert sich auch mit den gesichteten und geprüften Versionen nichts. Und mit etwas Geduld werden die eigenen Bearbeitungen auch gesichtet.

Die deutschsprachige Wikipedia ist innerhalb der internationalen Wikimedia-Community so etwas wie ein Testobjekt und so sind auch schon viele gespannt, wie die neuen Funktionen zur Verbesserung beitragen. Auf der Wikimania wird Philipp Birken dazu einen Vortrag halten und das Englische Wikibooks-Projekt bereitet sich schon darauf vor, die neue Funktion in etwas anderer Konfiguration einzusetzen.

Während die gesichteten Versionen einen kleineren Mehrwert bieten, soll mit den geprüften Versionen die Verlässlichkeit und Qualität noch stärker verbessert werden. Dazu sollen Experten eine Artikelversion begutachten und als „geprüft“ markieren (geprüft), falls der Artikel „keine sachlich falschen Aussagen oder verfälschenden Lücken enthält“. Gefragt sind also „Person[en], die über ein überdurchschnittlich umfangreiches Wissen auf einem oder mehreren bestimmten Fachgebieten oder über spezielle Fähigkeiten [verfügen]“ (so steht es in einer gesichteten Version in Wikipedia – ob die Aussage stimmt, ist aber eine andere Frage, ich bin keine Experte zum Thema „Experte“ ;-). Leider scheint es in Wikipedia nicht genügend Personen mit Fachkompetenz zu geben, denn bislang wurde zwar sehr viel geredet aber wenig getan: Ganze vier Beispiele von Artikelversionen und Prüfern gibt es bisher – und bislang auch nur als Vorschlag.

Dass die Einführung der geprüften Versionen so lange dauert, liegt auch daran, dass es viele verschiedenen Meinungen und Vorstellungen dazu gibt. So meinen zum Beispiel einige, dass alles 100%ig „belegt“ sein muss – ein hoffnungsloses Unterfangen. Es sollte reichen, wenn der Artikel dem „Stand der Wissenschaft“ entspricht (übrigens ein juristischer Begriff) – absolute Sicherheit gibt es nirgendwo. Andere Wikipedianer können sich nicht vorstellen, wie das mit der Prüfung funktionieren soll. Genauso wurde aber früher über die gemeinsame und offene Erstellung von Enzyklopädischen Artikeln in Wikipedia gedacht.

Am Besten macht man sich selber ein Bild von den geprüften Versionen, indem man einen einfachen Artikel aus einem Gebiet aussucht, in dem man sich selber als Experte bezeichnen würde, und geht den Artikel dann mal Satz für Satz und Aussage für Aussage durch. Die Prüfung sollte dokumentiert und dann unter Wikipedia:Geprüfte Versionen/Beispiele eingetragen werden.

Ich habe zuerst mit dem Artikel über Blätter und innere Knoten in der Graphentheorie angefangen und bin leider sofort auf eine „verfälschende Lücke“ gestoßen. Der Artikel lautete

Ein Blatt ist in der Graphentheorie ein Knoten in einem Baum, der mit nur einem Nachbarn verbunden ist. Ein Blatt hat also immer den Grad 1. Die Knoten, die in einem Baum keine Blätter sind, werden innere Knoten genannt.

Wenn man mal genauer überlegt, wird aber die Wurzel eines gerichteten Baumes oft weder als Blatt noch als innerer Knoten bezeichnet und auch ein isolierter Knoten (ein Baum, der nur aus einem Knoten besteht) passt nicht in diese Definition. Anstatt den drei Sätzen den Prüfstatus zu verleihen (bzw. vorzuschlagen), habe ich erstmal ausgiebig recherchiert und Quellen gesichtet, um den Artikel zu korrigieren. Hier zum Beispiel die erste Darstellung von Bäumen in einer graphentheoretischen Arbeit (Cayley, 1857):

Bei der versuchten Prüfung habe ich viel über Recherchieren, Digitalisate und Mathematik gelernt – aber als geprüft würde ich den Artikel nicht bezeichnen. Beim zweiten Versuch mit dem Artikel Normdatei war es dann einfacher.

Alle Experten, die sich in Wikipedia bisher zurück gehalten haben sollten sich nun vielleicht mal an der Prüfung von Artikeln versuchen. Ich habe schon mehrere Wissenschaftler gefragt und das Feedback war immer relativ positiv. Was fehlt ist nur eine Redaktion, die zwischen der Wikipedia und den Experten vermittelt. Natürlich sind auch Experten gefragt, die bereits jetzt innerhalb der Wikipedia aktiv sind – wer oder was ein guter Experte ist, und wie man sie finden und bewerten kann, wird sich erst in der Praxis zeigen!

Review in Wikipedia mit markierten Versionen

2. April 2008 um 01:20 4 Kommentare

Die als „stabile Versionen“ diskutierte Erweiterung von Wikipedia um ein System zur Begutachtung nähert sich mühsam aber sicher ihrer Vollendung (siehe Ankündigung im Wikimedia-Deutschland-Blog und Beitrag von Tim). Zur Zeit kann die neue Funktion in einem Testwiki ausprobiert werden. Konstruktive Bugreports, Vandalismus-Tests und vor allem Hilfe bei der Verbesserung der Usability (!) sind gerne willkommen. Danach wird das System – möglichst noch diesen Monat – zunächst in der deutschsprachigen Wikipedia probeweise eingeschaltet. Und darum geht es:

Mit der neuen Funktion „markierte Versionen“ können einzelne Versionen eines Artikels markiert werden. Die Markierung als gesichtet zeigt an, dass kein Vandalismus vorhanden ist. Wenn zusätzlich jeweils zuerst die letzte gesichtete Version eines Artikels angezeigt wird, sollten offensichtlicher Blödsinn und Quatscheinträge in Wikipedia merklich abnehmen – allerdings ist es für Neuautoren möglicherweise abschreckend, wenn ihre Verbesserungen nicht sofort sichtbar sind.

Die Markierung als geprüft geht über eine gesichte Version hinaus: Sie stellt ein Qualitätsurteil eines fachkundigen Prüfers dar. Ein Prüfer gibt mit der Markierung als geprüft bekannt, dass die betreffende Artikelversion keine falschen Aussagen oder verfälschende Lücken enthält. Damit nähert sich Wikipedia dem traditionellen Review-System in den Wissenschaften an. Genauer gesagt handelt es sich um ein Offenes Peer-Review-Verfahren. Bisherige Peer-Review-Verfahren stoßen immer mehr an ihre Grenzen – zur Ãœberwindung dieser Krise könnten Wikis helfen.

Was ich besonders bemerkenswert finde: Im Unterschied zu den bereits jetzt in Wikipedia vorhandenen Review-Verfahren (lesenswerte Artikel, exzellente Artikel) treten bei der Prüfung von einzelnen Artikelversionen nicht das Kollektiv der „Wikipedianer“ in Erscheinung, sondern einzelne Personen. Wenn jemand einen Artikel prüft, muss er mit seiner vollen Reputation dafür geradestehen, dass keine Fehler übersehen wurden. Bei Wikipedia-Autoren ist das in geringerem Maße zwar auch schon der Fall; für Außenstehende ist jedoch in der Regel undurchschaubar, was ein Autor zu einem konkreten Wikipedia-Artikel geleistet hat.

Ich befürchte nur, dass den meisten Lesern aufgrund fehlender Informationskompetenz sowieso egal ist, wer für welche Inhalte in Wikipedia verantwortlich ist (nämlich die konkreten Autoren und Prüfer und nicht ein anonymes Kollektiv oder ein Herausgeber!). Die meisten Menschen wollen nämlich beim Erwerb von „Wissen“ nicht selber denken, sondern einer Autorität vertrauen, die sagt, was richtig und was falsch ist. Das ist dann aber nicht das Problem der Wikipedia sondern ein Problem der Massenverdummung unserer Gesellschaft und ihren Teilnehmern, die lieber in selbstverschuldeter Unmündigkeit verharren, anstatt eigenes Urteilsvermögen zu gebrauchen.

Ich bin gespannt, wie sich die markierten Versionen in der Praxis entwickeln werden und wie sich die offen-anarchische Wikipedia-Community und das elitär-akademische Wissenschaftssystem weiter aufeinander zubewegen – im Guten wie im Schlechten.

Neuigkeiten aus dem Wikipedia-Projekt

2. Oktober 2007 um 12:23 Keine Kommentare

Soeben ist der erste KIM-DINI-Technology-Watch-Report (ISSN 1865-3839) herausgekommen, in dem auf 35 Seiten aktuelle Entwicklungen aus dem Bereich Standards und Standardisierungender digitalen Informationsversorgung zusammengefasst werden. Ich habe einen Beitrag zu aktuellen Neuigkeiten aus dem Wikipedia-Projekt beigesteuert, den ich an dieser Stelle ebenfalls veröffentlichen möchte. Genannt werden Maßnahmen zur Qualitätssicherung und die Extraktion von Daten aus Wikipedia für das Semantic Web:
Beitrag Neuigkeiten aus dem Wikipedia-Projekt weiterlesen…