2010 April « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Die Citation Style Language (CSL) als Metadatenformat

29. April 2010 um 16:39 6 Kommentare

Auf der Code4Lib Mailingliste hat Tim Spalding vor einigen Tagen die Idee aufgeworfen, die angekÃ¼ndigten Twitter Annotations zur Ãœbertragung von bibliographischen Daten zu verwenden. Die Beteiligten waren alle der Meinung, das bibliotheksspezifische Formate wie MARC und MODS unpassend sind; BibTeX scheidet ebenfalls aus.

Nach der Ãœberlegung, dass Identifikation und Beschreibung zwei klar abzugrenzende Aufgaben von bibliographischen Daten sind, habe ich mir mal genauer die Citation Style Language (CSL) angeschaut. CSL wird unter Anderem in den Literaturverwaltungsprogrammen Zotero und Mendeley benutzt, um Literaturangaben in unzÃ¤hligen Zitationsstilen ausgeben zu kÃ¶nnen. Die Grundidee von CSL ist, Zitationsstile als CSL-Styles zu definieren, mit denen dann ein CSL-Prozessor aus bibliographischen DatensÃ¤tzen schÃ¶n formatierte Literaturangaben und Bibliographien erstellt. Der am weitesten fortgeschrittene CSL-Prozessor ist citeproc-js. Er ist in JavaScript geschrieben und wurde als Modul aus dem Programmcode von Zotero herausgelÃ¶st, so dass er auch unabhÃ¤ngig verwendet werden kann (allerdings bislang noch nicht mit allen JavaScript-Interpretern).

Die Idee ist nun, das CSL-Eingabeformat als Metadatenformat fÃ¼r bibliographische Daten in Twitter-Annotationen zu verwenden. Im Code4lib-Wiki habe ich mal zusammengefasst, was ich zur Spezifikation des CSL-Eingangsformat gefunden habe. Das Metadatenformat ist ziemlich einfach aufgebaut und soll sich dem Entwickler Frank Bennett nach in einer kommenden Zotero-Version auch einfacher aus dem Programm exportieren lassen.

Zur Vermeidung des Umwegs Ã¼ber Zotero fehlen nur ExportmÃ¶glichkeiten von CSL-Eingangsdaten aus Bibliothekskatalogen. Deren Titel kÃ¶nnten dann automatisch mit CSL in hunderten von Zitierstilen exportiert werden. In Beluga wird dazu Ã¼brigens bislang refbase verwendet, das ebenso wie der CSL-Prozessor citeproc-js als Open Source verfÃ¼gbar ist. FÃ¼r die Wikimedia-Projekte bietet sich das Format ebenso an – so kÃ¶nnten die Leser auswÃ¤hlen, welchen Zitationsstil sie bevorzugen und Literaturangaben aus Wikipedia-Artikeln direkt in ihre Literaturverwaltung Ã¼bernehmen.

Tags: CSL, Identifier, Literaturverwaltung, Metadata, twitter, Zotero 6 Kommentare

William Kent: Ein weiterer Seelenverwandter?

28. April 2010 um 01:52 1 Kommentar

Bei meinen Recherchen zu Datenmodellierung etc. bin ich Ã¼ber Lambda the Ultimate auf den 2005 verstorbenen Computerwissenschaftler William (Bill) Kent gestoÃŸen. Er hat 1978 ein Buch Ã¼ber „Data & Reality“ geschrieben hat und ebenso wie der von mir sehr geschÃ¤tze Ted Nelson scheint Kent vom „Informatik-Establishment“ nicht genÃ¼gend rezipiert zu werden. Die meisten von Kent’s Texten sind auf seiner ehemaligen Homepage verfÃ¼gbar.

In The Many Forms of a Single Fact zeigt Kent beispielsweise, wie sich eine Aussage im relationalen Datenmodell in dutzenden Varianten ausdrÃ¼cken lÃ¤sst. Ich bin sicher im RDF-Datenmodell ist das alles gaaanz anders und das Problem gleiche Information – unterschiedliche Daten lÃ¶st sich in Luft auf 😉 Die Ignoranz (oder der Fatalismus) der Mainstream-Informatik-Forschung gegenÃ¼ber der dahinter liegenden fundamentalen Begrenzung technischer Systeme ist einer der GrÃ¼nde, warum ich lieber in der Informationswissenschaft promoviere. Kent schreibt:

â€œThe questions aren’t so much about how we process data as about how we perceive reality, about the constructs and tactics we use to cope with complexity, ambiguity, incomplete information, misÂmatched viewpoints, and conflicting objectivesâ€.

Dazu fÃ¤llt mir Lotfi A. Zadeh, der Erfinder der Fuzzy Logik ein. Die erste Anwendung der Fuzzy Logik auf Datenbanken stammt Ã¼brigens von Maria Zemankova, die auch im Bereich Digitaler Bibliotheken forscht. Aber zurÃ¼ck zu Kent: Diese Notiz von ihm Ã¼ber BÃ¼cher verdeutlicht, warum ich Ã¼ber die Modellierung von bibliographischen Daten schreibe 🙂

â€œIt takes a good system and a lot of work to keep track of books.
[…] Books hold our universe, past, present, and future, and other universes, too.â€.

Mit Ted Nelson hat William Kent meinem Eindruck nach gemeinsam, dass beide jahrzentelang aus verschiedenen Blickrichtungen gegen die Begrenztheit von vorhandenen Computersysteme angeschrieben haben. Man vergleiche beispielsweise Nelsons „The Tyranny of the File“ (1986, siehe dazu hier) und Kents „Limitations of Record Based Information Models“ (1979).

Wer sich weniger mit konkreten Strukturen der Datenverwaltung beschÃ¤ftigen mÃ¶chte aber das trotzdem alles irgendwie interessant findet: Passende BÃ¼cher sind Sorting Things out von Geoffrey Bowker und Susan Leigh Star sowie Everything is Miscellaneous von David Weinberger.

Tags: Daten, Dissertation, Literatur, Personen 1 Kommentar

Was sind eigentlich Daten?

19. April 2010 um 22:19 8 Kommentare

P.S: Inzwischen habe ich einen Aufsatz zur Frage dieses Blogartikels verÃ¶ffentlicht: Jakob VoÃŸ (2013): „Was sind eigentlich Daten?“. In: LIBREAS. Library Ideas, 23 (2013). http://libreas.eu/ausgabe23/02voss/

Adrian Pohl ist in seinem Blog auf meinen in Zwickau gehaltenen Vortrag Semantic Web und Linked Data eingegangen (der Videomitschnitt des Vortrags ist noch nicht online, aber die Vortragsfolien) – vielen Dank fÃ¼r das Feedback!

Definitionen von Daten

In der ersten HÃ¤lfte des Vortrags ging es mir darum zu erklÃ¤ren, was Ã¼berhaupt Daten sind. Meine Kurzdefinition, die Adrian in seinem Beitrag auseinander nimmt ist:

Daten: Strukturen aus unterscheidbaren Zeichen, die aufgrund von Vereinbarungen Informationen darstellen

Dem setzt er folgende Definition entgegen (Hyperlinks wie im Original):

Daten sind fÃ¼r mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden kÃ¶nnen. Syntax in diesem Sinne setzt DigitalitÃ¤t (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist DigitalitÃ¤t auch Voraussetzung fÃ¼r Daten.

Zum Vergleich hier noch die aktuelle Definition (19 April 2010 16:22 UTC) aus Wikipedia:

The term data means groups of information that represent the qualitative or quantitative attributes of a variable or set of variables. [en.wikipedia]

Daten sind logisch gruppierte Informationseinheiten […], die zwischen Systemen Ã¼bertragen werden oder auf Systemen gespeichert sind. [de.wikipedia, 19 April 2010 16:22 UTC]

Kurze Analyse der Definitionen

Die Definitionen aus beiden Wikipedias halte ich fÃ¼r haltlos (Was heisst „logisch gruppiert“? Warum basieren Daten auf einer „variable“?) – sie zeigen allerdings, wie eng der Datenbegriff oft an den Informationsbegriff gekoppelt wird. Im Falle der Wikipedia-Definitionen, die Daten praktisch als eine Aggregat von Information(seinheiten) auffassen, ist diese Kopplung aber viel zu eng. Ich denke hier wÃ¼rde mir Adrian rechtgeben, da er schreibt „Nach meinem DafÃ¼rhalten […] stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mÃ¶gen.“ Nach einer Trennung des Begriffs in einen rein syntaktischen Teil (siehe seine Definition oben), auf welchen aufbauend ein „aufnehmen“, „erfassen“ oder „verstehen“ zu Informationen mÃ¶glich ist, schlÃ¤gt er in Abwandlung meiner Definition vor:

Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist

Ich halte diese Definition fÃ¼r ebenso problematisch, da unklar ist was eine „syntaktisch geordnete Menge“ sein soll und da Informationen nicht objektiv in Daten „gespeichert“ sind sondern erst aufgrund von Vereinbarungen als Informationen interpretiert werden. Von der Aussage her – so denken ich – liegen Adrian und ich jedoch nicht weit auseinander. Man kÃ¶nnte zugespitzt sagen, dass wir uns nicht Ã¼ber die Daten einig sind (wie soll die Definition lauten) aber Ã¼ber die Information (was soll die Definition bedeuten).

Daten als Strukturen

Der Begriff „Token“ zur Definition der Bestandteile von Daten ist vielleicht besser als „Zeichen“ und ich mÃ¶chte Adrian ausdrÃ¼cklich fÃ¼r den Hinweis auf den Unterschied zwischen Token und Type danken. Voraussetzung fÃ¼r Daten ist die MÃ¶glichkeit einer Unterscheidung. Erstens ist notwendig zu unterscheiden, wo ein Token anfÃ¤ngt und endet, um Ã¼berhaupt „Mengen“ identifizieren zu kÃ¶nnen. Zweitens setzen Daten die MÃ¶glichkeit voraus, dass zwei Token identisch – also eine Type – sind. ZusÃ¤tzlich ist es notwendig, dass die Token in einer Struktur angeordnet sind, zum Beispiel eine Reihenfolge. Ich wÃ¼rde sogar fast soweit gehen, die Definition auf „Daten sind Strukturen“ zu verkÃ¼rzen, weil Strukturen aus unterscheidbaren Elementen bestehen. Diese Definition blendet jedoch – auch in ausfÃ¼hrlicherer Form wie zum Beispiel als „Daten sind strukturierte Mengen unterscheidbarer Elemente“ – den Begriff der Information vÃ¶llig aus.

Informationen

Ohne Daten kann es keine Informationen geben. Der Philosoph Luciano Floridi – vermutlich der renommierteste Experte auf dem Gebiet der Informationsphilosophie – bezeichnet diese Annahme als Ontological Neutrality. Obgleich umgekehrt Daten mÃ¶glicherweise ohne Informationen existieren kÃ¶nnen (darÃ¼ber wÃ¤re zu diskutieren) finde ich es angemessen bei der Definition von Daten direkt auf Informationen zu verweisen. Bei der Definition von Information beziehe ich mich auf die von Floridi dargestellte General Definition of Information (GDI). In Is Information Meaningful Data? fasst er diese Definition zusammen und argumentiert, dass (semantische) Information zusÃ¤tzlich wahr sein muss. Diese Annahme ist umstritten, wÃ¤hrend die GDI eine stabilere Grundlage bietet. Demnach ist etwas Information genau dann wenn:

es aus einem oder mehreren Daten besteht
die Daten wohlgeformt (syntaktisch korrekt) sind
die wohlgeformten Daten eine Bedeutung (Semantik) besitzen

Im Rahmen meiner Dissertation beschÃ¤ftige ich mich damit, wie die Beziehung zwischen Daten, Wohlgeformtkeit und Bedeutung in der Praxis hergestellt wird. Wie ich in Libreas skizziert habe, sind dabei die Begriffe Format und Modell hilfreich. Auf das Modell, welches meiner Meinung nach notwendig ist, um aus Daten bedeutungsvolle Informationen zu lesen (aufnehmen, erfassen, verstehen…) verweise ich in meiner Definition mit der „Vereinbarung“. Die Vereinbarung muss implizit oder explizit als Hintergrundwissen, Kontextinformation, given information, Exformation o.Ã„. vorliegen, um Daten interpretieren zu kÃ¶nnen – denn prinzipiell kann ein gegebenes Datum sehr viele verschiedene Informationen enthalten.

DigitalitÃ¤t und Wissen

Auf den Begriff der DigitalitÃ¤t mÃ¶chte ich hier erstmal nicht weiter eingehen – finite Strukturen sind immer digital kodierbar also ist DigitalitÃ¤t nicht Voraussetzung sondern Folge von Daten. Und was Wissen ist weiÃŸ ich auch nicht: es hÃ¤ngt jedenfalls sehr davon ab, was man vom Wissensbegriff wissen mÃ¶chte 😉 Hinweisen mÃ¶chte ich aber auf die Zitatesammlung mit weiteren Definitionen von Daten von Beat DÃ¶beli Honegger und auf den schon oben verlinkten Artikel Semantic Conceptions of Information von Luciano Floridi. Und natÃ¼rlich freue ich mich sehr Ã¼ber weitere Kommentare!

Tags: Daten, Dissertation, Philosophie 8 Kommentare

QualitÃ¤tssicherung von Freien Daten

14. April 2010 um 23:26 4 Kommentare

Vor etwas Ã¼ber einem Monat hat Nat Torkington einen Blogbeitrag mit dem Titel Truly Open Data verÃ¶ffentlicht, auf den ich hier kurz hinweisen mÃ¶chte. Nat versucht seit geraumer Zeit verschiedene Einrichtungen dazu zu Ã¼berzeugen, ihre Daten als (Linked) Open Data freizugeben. In Truly Open Data beschreibt er, warum das Freigeben alleine leider nicht ausreicht, sondern ein offenes QualitÃ¤tsmanagement notwendig ist.

Freie Daten lassen sich prinzipiell mit Freier Software vergleichen: dank expliziter Lizensierung (zum Beispiel CC0) kann jeder die Daten kopieren, Ã¤ndern (mit anderen Daten kombinieren, bereinigen, Ausschnitte bilden etc.) und weitergeben. Wenn man sich allerdings erfolgreiche Open Source Projekte anschaut, passiert in der Praxis noch mehr: Vor allem gibt es eine Community, die das Projekt pflegt und vorantreibt.

Ned weist darauf hin, dass Open Data vergleichbare Praktiken und Werzeuge benÃ¶tigt, wie Open Source: Die Daten mÃ¼ssen gemeinsam bearbeitet werden kÃ¶nnen und es muss Personen geben, die sich fÃ¼r ein Datenset verantwortlich fÃ¼hlen und im Zweifelsfall Entscheidungen treffen kÃ¶nnen. Zur Kommunikation und Kollaboration sind zahlreiche Tools wie Mailinglisten, Chat, Bug-Tracking-Systeme etc. hilfreich. Es muss einfach sein, sich Ã„nderungen anzeigen zu lassen (Diff) und VorschlÃ¤ge fÃ¼r Ã„nderungen weitergeben zu kÃ¶nnen (Patch) – das was in Softwareprojekten durch Versionsverwaltung unterstÃ¼tzt wird. AuÃŸerdem mangelt es hÃ¤ufig – wie bei Software – an guter Dokumentation.

Insgesamt dÃ¼rfen Daten nicht nur als Endprodukt gesehen werden. Es reicht nicht, Daten zu Ã¶ffnen (auch wenn das der erste Schritt ist), sondern es muss sich auch die Erstellung, Pflege und Weiterverarbeitung der Daten Ã¶ffnen.

Ich kann Net nur Recht geben und darauf hinweisen, dass die von ihm angesprochenen Punkte eigentlich eine Frage des QualitÃ¤tsmanagement sind. Sowohl bei Software als auch bei Daten sieht es jedoch oft sehr schlecht aus, wenn man mal schaut, wie sie entstehen und gewartet werden – wenn sie Ã¼berhaupt gewartet werden anstatt vor sich hinzurotten. Open Source ist unter Anderem deshalb oft kommerziellen Produkten Ã¼berlegen, weil offene Systeme nicht so einfach ihren Dreck unter den Teppich kehren kÃ¶nnen. Kein Wunder, dass viele Produzenten von Daten davor zurÃ¼ckschrecken, ihre Daten freizugeben: Dann wÃ¤re ja sichtbar, wie schlecht die Daten tatsÃ¤chlich gepflegt sind!

Aber es gibt auch gute Beispiel und Vorbilder fÃ¼r offene, lebendig DatenbestÃ¤nde: OpenStreetmap, MusicBrainz, Wikipedia und DBPedia etc. Das Comprehensive Knowledge Archive Network (CKAN) und datapkg sind gute AnsÃ¤tze. In einem Kommentare beschreibt Gerry Creager wie die DatenqualitÃ¤t in Forschungsprojekten durch einige Regeln verbessert werden konnte. Und BibliotheksverbÃ¼nde bieten bereits seit Jahrzehnten Werkzeuge zur gemeinsamen Datenpflege (wenn auch inzwischen etwas veraltet). Wesentlich ist aus meiner Sicht erst einmal die eindeutige Referenzierbarkeit von publizierten Daten (siehe z.B. datacite.org)

GrundsÃ¤tzlich steht die kollaborative Pflege von DatenbestÃ¤nden noch in den AnfÃ¤ngen und es gibt noch kein allgemeines Diff/Path fÃ¼r RDF. Ich sehe diese Herausforderungen trotzdem nicht als Grund, den ersten Schritt hinauszuzÃ¶gern, bis irgendwann ein Data Publishing Framework etabliert ist. Die Freigabe von Daten als Linked Open Data kann und sollte jetzt geschehen und darauf aufgebaut werden.

Tags: open data, QualitÃ¤t 4 Kommentare

Jakoblog — Das Weblog von Jakob VoÃŸ

Die Citation Style Language (CSL) als Metadatenformat

William Kent: Ein weiterer Seelenverwandter?

Was sind eigentlich Daten?

QualitÃ¤tssicherung von Freien Daten

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch

Jakoblog — Das Weblog von Jakob VoÃŸ

Die Citation Style Language (CSL) als Metadatenformat

William Kent: Ein weiterer Seelenverwandter?

Was sind eigentlich Daten?

QualitÃ¤tssicherung von Freien Daten

Neueste Beiträge

Neueste Kommentare

Themen

Blogroll

Feeds

Siehe auch