Bibliographies of data repositories

30. Juli 2012 um 13:09 2 Kommentare

Databib, a proposed bibliography of research data repositories is calling for editors. These editors shall review submissions and edits to the bibliography. There is already an advisory board, giving Databib an academic touch.

The number of data repositories is growing fast, so it’s good to have an overview of existing repositories such as Databib. The number of similar collections of data repositories, however, is also growing. For instance, as noted by Daniel Kinzler in response to me, there is datahub.io hosted by the Open Knowledge Foundation and edited by volunteers. There is no advisory board, giving datahub.io an open community touch. And there are lists such as the list of repositories known to DataCite, the wiki-based list at Open Access Directory, the DFG-funded re3data.org project (which will likely be closed after funding stops, as known from most DFG funded projects), and many, many more.

One may ask why people cannot agree on either one list of repositories or at least one interchange format to create a virtual bibliography. Welcome to the multifaceted world of cataloging! I think there are reasons to have multiple collections, for instance there are different groups of users and different definitions of a [research] data repository (if there is any definition at all). At least one should be clear about the following:

Any list or collection of data repositories is an instance of a bibliography similar to a library catalog. Managing bibliographies and catalogs is more difficult than some imagine but it’s nothing new and it’s no rocket science. So people should not try to reinvent the wheel but build on established cataloging practices. Above all, one should (re)use identifiers to refer to repositories and one should not just ask for free-text input but use existing controlled vocabularies and authority files. This should also be familiar to people used to Linked Open Data.

By the way, any collection of data repositories, again is a data repository. Adding another level above may not really help. Maybe one should just treat published research data as one instance of a digital publication and catalog it together with other publications? What defines a „dataset“ in contrast to other digital publications? In the end it’s all a stream of bits isn’t it? 😉

Qualitätssicherung von Freien Daten

14. April 2010 um 23:26 4 Kommentare

Vor etwas über einem Monat hat Nat Torkington einen Blogbeitrag mit dem Titel Truly Open Data veröffentlicht, auf den ich hier kurz hinweisen möchte. Nat versucht seit geraumer Zeit verschiedene Einrichtungen dazu zu überzeugen, ihre Daten als (Linked) Open Data freizugeben. In Truly Open Data beschreibt er, warum das Freigeben alleine leider nicht ausreicht, sondern ein offenes Qualitätsmanagement notwendig ist.

Freie Daten lassen sich prinzipiell mit Freier Software vergleichen: dank expliziter Lizensierung (zum Beispiel CC0) kann jeder die Daten kopieren, ändern (mit anderen Daten kombinieren, bereinigen, Ausschnitte bilden etc.) und weitergeben. Wenn man sich allerdings erfolgreiche Open Source Projekte anschaut, passiert in der Praxis noch mehr: Vor allem gibt es eine Community, die das Projekt pflegt und vorantreibt.

Ned weist darauf hin, dass Open Data vergleichbare Praktiken und Werzeuge benötigt, wie Open Source: Die Daten müssen gemeinsam bearbeitet werden können und es muss Personen geben, die sich für ein Datenset verantwortlich fühlen und im Zweifelsfall Entscheidungen treffen können. Zur Kommunikation und Kollaboration sind zahlreiche Tools wie Mailinglisten, Chat, Bug-Tracking-Systeme etc. hilfreich. Es muss einfach sein, sich Änderungen anzeigen zu lassen (Diff) und Vorschläge für Änderungen weitergeben zu können (Patch) – das was in Softwareprojekten durch Versionsverwaltung unterstützt wird. Außerdem mangelt es häufig – wie bei Software – an guter Dokumentation.

Insgesamt dürfen Daten nicht nur als Endprodukt gesehen werden. Es reicht nicht, Daten zu öffnen (auch wenn das der erste Schritt ist), sondern es muss sich auch die Erstellung, Pflege und Weiterverarbeitung der Daten öffnen.

Ich kann Net nur Recht geben und darauf hinweisen, dass die von ihm angesprochenen Punkte eigentlich eine Frage des Qualitätsmanagement sind. Sowohl bei Software als auch bei Daten sieht es jedoch oft sehr schlecht aus, wenn man mal schaut, wie sie entstehen und gewartet werden – wenn sie überhaupt gewartet werden anstatt vor sich hinzurotten. Open Source ist unter Anderem deshalb oft kommerziellen Produkten überlegen, weil offene Systeme nicht so einfach ihren Dreck unter den Teppich kehren können. Kein Wunder, dass viele Produzenten von Daten davor zurückschrecken, ihre Daten freizugeben: Dann wäre ja sichtbar, wie schlecht die Daten tatsächlich gepflegt sind!

Aber es gibt auch gute Beispiel und Vorbilder für offene, lebendig Datenbestände: OpenStreetmap, MusicBrainz, Wikipedia und DBPedia etc. Das Comprehensive Knowledge Archive Network (CKAN) und datapkg sind gute Ansätze. In einem Kommentare beschreibt Gerry Creager wie die Datenqualität in Forschungsprojekten durch einige Regeln verbessert werden konnte. Und Bibliotheksverbünde bieten bereits seit Jahrzehnten Werkzeuge zur gemeinsamen Datenpflege (wenn auch inzwischen etwas veraltet). Wesentlich ist aus meiner Sicht erst einmal die eindeutige Referenzierbarkeit von publizierten Daten (siehe z.B. datacite.org)

Grundsätzlich steht die kollaborative Pflege von Datenbeständen noch in den Anfängen und es gibt noch kein allgemeines Diff/Path für RDF. Ich sehe diese Herausforderungen trotzdem nicht als Grund, den ersten Schritt hinauszuzögern, bis irgendwann ein Data Publishing Framework etabliert ist. Die Freigabe von Daten als Linked Open Data kann und sollte jetzt geschehen und darauf aufgebaut werden.