Qualitätssicherung von Freien Daten

14. April 2010 um 23:26 3 Kommentare

Vor etwas über einem Monat hat Nat Torkington einen Blogbeitrag mit dem Titel Truly Open Data veröffentlicht, auf den ich hier kurz hinweisen möchte. Nat versucht seit geraumer Zeit verschiedene Einrichtungen dazu zu überzeugen, ihre Daten als (Linked) Open Data freizugeben. In Truly Open Data beschreibt er, warum das Freigeben alleine leider nicht ausreicht, sondern ein offenes Qualitätsmanagement notwendig ist.

Freie Daten lassen sich prinzipiell mit Freier Software vergleichen: dank expliziter Lizensierung (zum Beispiel CC0) kann jeder die Daten kopieren, ändern (mit anderen Daten kombinieren, bereinigen, Ausschnitte bilden etc.) und weitergeben. Wenn man sich allerdings erfolgreiche Open Source Projekte anschaut, passiert in der Praxis noch mehr: Vor allem gibt es eine Community, die das Projekt pflegt und vorantreibt.

Ned weist darauf hin, dass Open Data vergleichbare Praktiken und Werzeuge benötigt, wie Open Source: Die Daten müssen gemeinsam bearbeitet werden können und es muss Personen geben, die sich für ein Datenset verantwortlich fühlen und im Zweifelsfall Entscheidungen treffen können. Zur Kommunikation und Kollaboration sind zahlreiche Tools wie Mailinglisten, Chat, Bug-Tracking-Systeme etc. hilfreich. Es muss einfach sein, sich Änderungen anzeigen zu lassen (Diff) und Vorschläge für Änderungen weitergeben zu können (Patch) – das was in Softwareprojekten durch Versionsverwaltung unterstützt wird. Außerdem mangelt es häufig – wie bei Software – an guter Dokumentation.

Insgesamt dürfen Daten nicht nur als Endprodukt gesehen werden. Es reicht nicht, Daten zu öffnen (auch wenn das der erste Schritt ist), sondern es muss sich auch die Erstellung, Pflege und Weiterverarbeitung der Daten öffnen.

Ich kann Net nur Recht geben und darauf hinweisen, dass die von ihm angesprochenen Punkte eigentlich eine Frage des Qualitätsmanagement sind. Sowohl bei Software als auch bei Daten sieht es jedoch oft sehr schlecht aus, wenn man mal schaut, wie sie entstehen und gewartet werden – wenn sie überhaupt gewartet werden anstatt vor sich hinzurotten. Open Source ist unter Anderem deshalb oft kommerziellen Produkten überlegen, weil offene Systeme nicht so einfach ihren Dreck unter den Teppich kehren können. Kein Wunder, dass viele Produzenten von Daten davor zurückschrecken, ihre Daten freizugeben: Dann wäre ja sichtbar, wie schlecht die Daten tatsächlich gepflegt sind!

Aber es gibt auch gute Beispiel und Vorbilder für offene, lebendig Datenbestände: OpenStreetmap, MusicBrainz, Wikipedia und DBPedia etc. Das Comprehensive Knowledge Archive Network (CKAN) und datapkg sind gute Ansätze. In einem Kommentare beschreibt Gerry Creager wie die Datenqualität in Forschungsprojekten durch einige Regeln verbessert werden konnte. Und Bibliotheksverbünde bieten bereits seit Jahrzehnten Werkzeuge zur gemeinsamen Datenpflege (wenn auch inzwischen etwas veraltet). Wesentlich ist aus meiner Sicht erst einmal die eindeutige Referenzierbarkeit von publizierten Daten (siehe z.B. datacite.org)

Grundsätzlich steht die kollaborative Pflege von Datenbeständen noch in den Anfängen und es gibt noch kein allgemeines Diff/Path für RDF. Ich sehe diese Herausforderungen trotzdem nicht als Grund, den ersten Schritt hinauszuzögern, bis irgendwann ein Data Publishing Framework etabliert ist. Die Freigabe von Daten als Linked Open Data kann und sollte jetzt geschehen und darauf aufgebaut werden.

3 Kommentare »

RSS Feed für Kommentare zu diesem Artikel. TrackBack URI

  1. Die Dinge, auf die du da hinweist, sind ja nix anderes als zeitgemäße Tools – abgeleitet aus anderen erfolgreichen Modellen zur offenen Zusammenarbeit – zur kollaborativen Erstellung und Pflege von Daten. Also das, was bisher in weitegehend “geschlossenen Communities” z.B. als “Verbundkatalogisierung” abläuft.
    Du hättest auch “Überlegungen zur Weiterentwicklung der Verbundkatalogisierung” in die Überschrift schreiben können, oder? :-)

    Kommentar by till — 17. April 2010 #

  2. Das sind sehr schöne und viel versprechende Gedanken: ein offener Verbundkatalog nach dem Vorbild erfolgreicher Open Source Sodtware (OSS).
    Auf der gerade zu Ende gegangen Inetbib in Zürich musste man noch für OSS argumentieren. Das fand ich gerade zu erschreckend! Den meisten Beteiligten dort ich wohl gar nicht beeist, wo OSS drin steckt. Daher denke ich, dass man hier einen langen und beshwerlichen, aber lohnenden Weg vor sich hat.

    Kommentar by Gerald — 17. April 2010 #

  3. Open Source? Wir müssen kein Geld für etwas bezahlen, dass wir dann nicht auf unsere Bedürfnisse anpassen können? Das kann ja nichts sein! Da kaufen wir lieber teuer die Katze im Sack und lassen uns dann vom Hersteller erzählen, dass wir ganz modern sind und uns keine weiteren Gedanken machen müssen. Bei digitalen Medien outsourcen wir dann auch noch die Katalogisierung, Lagerung (=Speicherung) und Ausleihe (=Identity-Management), so dass die Bibliothek bald automatisch ganz ohne Bibliothekarisches Fachwissen betrieben kann. Hurra!

    Kommentar by jakob — 19. April 2010 #

Entschuldige, das Kommentarformular ist zurzeit geschlossen.

Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds. Valid XHTML and CSS. ^Top^