open data « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Bibliographies of data repositories

30. Juli 2012 um 13:09 2 Kommentare

Databib, a proposed bibliography of research data repositories is calling for editors. These editors shall review submissions and edits to the bibliography. There is already an advisory board, giving Databib an academic touch.

The number of data repositories is growing fast, so it’s good to have an overview of existing repositories such as Databib. The number of similar collections of data repositories, however, is also growing. For instance, as noted by Daniel Kinzler in response to me, there is datahub.io hosted by the Open Knowledge Foundation and edited by volunteers. There is no advisory board, giving datahub.io an open community touch. And there are lists such as the list of repositories known to DataCite, the wiki-based list at Open Access Directory, the DFG-funded re3data.org project (which will likely be closed after funding stops, as known from most DFG funded projects), and many, many more.

One may ask why people cannot agree on either one list of repositories or at least one interchange format to create a virtual bibliography. Welcome to the multifaceted world of cataloging! I think there are reasons to have multiple collections, for instance there are different groups of users and different definitions of a [research] data repository (if there is any definition at all). At least one should be clear about the following:

Any list or collection of data repositories is an instance of a bibliography similar to a library catalog. Managing bibliographies and catalogs is more difficult than some imagine but it’s nothing new and it’s no rocket science. So people should not try to reinvent the wheel but build on established cataloging practices. Above all, one should (re)use identifiers to refer to repositories and one should not just ask for free-text input but use existing controlled vocabularies and authority files. This should also be familiar to people used to Linked Open Data.

By the way, any collection of data repositories, again is a data repository. Adding another level above may not really help. Maybe one should just treat published research data as one instance of a digital publication and catalog it together with other publications? What defines a „dataset“ in contrast to other digital publications? In the end it’s all a stream of bits isn’t it? 😉

Tags: open data, repository 2 Kommentare

QualitÃ¤tssicherung von Freien Daten

14. April 2010 um 23:26 4 Kommentare

Vor etwas Ã¼ber einem Monat hat Nat Torkington einen Blogbeitrag mit dem Titel Truly Open Data verÃ¶ffentlicht, auf den ich hier kurz hinweisen mÃ¶chte. Nat versucht seit geraumer Zeit verschiedene Einrichtungen dazu zu Ã¼berzeugen, ihre Daten als (Linked) Open Data freizugeben. In Truly Open Data beschreibt er, warum das Freigeben alleine leider nicht ausreicht, sondern ein offenes QualitÃ¤tsmanagement notwendig ist.

Freie Daten lassen sich prinzipiell mit Freier Software vergleichen: dank expliziter Lizensierung (zum Beispiel CC0) kann jeder die Daten kopieren, Ã¤ndern (mit anderen Daten kombinieren, bereinigen, Ausschnitte bilden etc.) und weitergeben. Wenn man sich allerdings erfolgreiche Open Source Projekte anschaut, passiert in der Praxis noch mehr: Vor allem gibt es eine Community, die das Projekt pflegt und vorantreibt.

Ned weist darauf hin, dass Open Data vergleichbare Praktiken und Werzeuge benÃ¶tigt, wie Open Source: Die Daten mÃ¼ssen gemeinsam bearbeitet werden kÃ¶nnen und es muss Personen geben, die sich fÃ¼r ein Datenset verantwortlich fÃ¼hlen und im Zweifelsfall Entscheidungen treffen kÃ¶nnen. Zur Kommunikation und Kollaboration sind zahlreiche Tools wie Mailinglisten, Chat, Bug-Tracking-Systeme etc. hilfreich. Es muss einfach sein, sich Ã„nderungen anzeigen zu lassen (Diff) und VorschlÃ¤ge fÃ¼r Ã„nderungen weitergeben zu kÃ¶nnen (Patch) – das was in Softwareprojekten durch Versionsverwaltung unterstÃ¼tzt wird. AuÃŸerdem mangelt es hÃ¤ufig – wie bei Software – an guter Dokumentation.

Insgesamt dÃ¼rfen Daten nicht nur als Endprodukt gesehen werden. Es reicht nicht, Daten zu Ã¶ffnen (auch wenn das der erste Schritt ist), sondern es muss sich auch die Erstellung, Pflege und Weiterverarbeitung der Daten Ã¶ffnen.

Ich kann Net nur Recht geben und darauf hinweisen, dass die von ihm angesprochenen Punkte eigentlich eine Frage des QualitÃ¤tsmanagement sind. Sowohl bei Software als auch bei Daten sieht es jedoch oft sehr schlecht aus, wenn man mal schaut, wie sie entstehen und gewartet werden – wenn sie Ã¼berhaupt gewartet werden anstatt vor sich hinzurotten. Open Source ist unter Anderem deshalb oft kommerziellen Produkten Ã¼berlegen, weil offene Systeme nicht so einfach ihren Dreck unter den Teppich kehren kÃ¶nnen. Kein Wunder, dass viele Produzenten von Daten davor zurÃ¼ckschrecken, ihre Daten freizugeben: Dann wÃ¤re ja sichtbar, wie schlecht die Daten tatsÃ¤chlich gepflegt sind!

Aber es gibt auch gute Beispiel und Vorbilder fÃ¼r offene, lebendig DatenbestÃ¤nde: OpenStreetmap, MusicBrainz, Wikipedia und DBPedia etc. Das Comprehensive Knowledge Archive Network (CKAN) und datapkg sind gute AnsÃ¤tze. In einem Kommentare beschreibt Gerry Creager wie die DatenqualitÃ¤t in Forschungsprojekten durch einige Regeln verbessert werden konnte. Und BibliotheksverbÃ¼nde bieten bereits seit Jahrzehnten Werkzeuge zur gemeinsamen Datenpflege (wenn auch inzwischen etwas veraltet). Wesentlich ist aus meiner Sicht erst einmal die eindeutige Referenzierbarkeit von publizierten Daten (siehe z.B. datacite.org)

GrundsÃ¤tzlich steht die kollaborative Pflege von DatenbestÃ¤nden noch in den AnfÃ¤ngen und es gibt noch kein allgemeines Diff/Path fÃ¼r RDF. Ich sehe diese Herausforderungen trotzdem nicht als Grund, den ersten Schritt hinauszuzÃ¶gern, bis irgendwann ein Data Publishing Framework etabliert ist. Die Freigabe von Daten als Linked Open Data kann und sollte jetzt geschehen und darauf aufgebaut werden.

Tags: open data, QualitÃ¤t 4 Kommentare

Jakoblog — Das Weblog von Jakob VoÃŸ

Bibliographies of data repositories

QualitÃ¤tssicherung von Freien Daten

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch

Jakoblog — Das Weblog von Jakob VoÃŸ

Bibliographies of data repositories

QualitÃ¤tssicherung von Freien Daten

Neueste Beiträge

Neueste Kommentare

Themen

Blogroll

Feeds

Siehe auch