Was sind eigentlich Daten?

19. April 2010 um 22:19 8 Kommentare

P.S: Inzwischen habe ich einen Aufsatz zur Frage dieses Blogartikels veröffentlicht: Jakob Voß (2013): „Was sind eigentlich Daten?“. In: LIBREAS. Library Ideas, 23 (2013). http://libreas.eu/ausgabe23/02voss/


Adrian Pohl ist in seinem Blog auf meinen in Zwickau gehaltenen Vortrag Semantic Web und Linked Data eingegangen (der Videomitschnitt des Vortrags ist noch nicht online, aber die Vortragsfolien) – vielen Dank für das Feedback!

Definitionen von Daten

In der ersten Hälfte des Vortrags ging es mir darum zu erklären, was überhaupt Daten sind. Meine Kurzdefinition, die Adrian in seinem Beitrag auseinander nimmt ist:

Daten: Strukturen aus unterscheidbaren Zeichen, die aufgrund von Vereinbarungen Informationen darstellen

Dem setzt er folgende Definition entgegen (Hyperlinks wie im Original):

Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten.

Zum Vergleich hier noch die aktuelle Definition (19 April 2010 16:22 UTC) aus Wikipedia:

The term data means groups of information that represent the qualitative or quantitative attributes of a variable or set of variables. [en.wikipedia]

Daten sind logisch gruppierte Informationseinheiten […], die zwischen Systemen übertragen werden oder auf Systemen gespeichert sind. [de.wikipedia, 19 April 2010 16:22 UTC]

Kurze Analyse der Definitionen

Die Definitionen aus beiden Wikipedias halte ich für haltlos (Was heisst „logisch gruppiert“? Warum basieren Daten auf einer „variable“?) – sie zeigen allerdings, wie eng der Datenbegriff oft an den Informationsbegriff gekoppelt wird. Im Falle der Wikipedia-Definitionen, die Daten praktisch als eine Aggregat von Information(seinheiten) auffassen, ist diese Kopplung aber viel zu eng. Ich denke hier würde mir Adrian rechtgeben, da er schreibt „Nach meinem Dafürhalten […] stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen.“ Nach einer Trennung des Begriffs in einen rein syntaktischen Teil (siehe seine Definition oben), auf welchen aufbauend ein „aufnehmen“, „erfassen“ oder „verstehen“ zu Informationen möglich ist, schlägt er in Abwandlung meiner Definition vor:

Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist

Ich halte diese Definition für ebenso problematisch, da unklar ist was eine „syntaktisch geordnete Menge“ sein soll und da Informationen nicht objektiv in Daten „gespeichert“ sind sondern erst aufgrund von Vereinbarungen als Informationen interpretiert werden. Von der Aussage her – so denken ich – liegen Adrian und ich jedoch nicht weit auseinander. Man könnte zugespitzt sagen, dass wir uns nicht über die Daten einig sind (wie soll die Definition lauten) aber über die Information (was soll die Definition bedeuten).

Daten als Strukturen

Der Begriff „Token“ zur Definition der Bestandteile von Daten ist vielleicht besser als „Zeichen“ und ich möchte Adrian ausdrücklich für den Hinweis auf den Unterschied zwischen Token und Type danken. Voraussetzung für Daten ist die Möglichkeit einer Unterscheidung. Erstens ist notwendig zu unterscheiden, wo ein Token anfängt und endet, um überhaupt „Mengen“ identifizieren zu können. Zweitens setzen Daten die Möglichkeit voraus, dass zwei Token identisch – also eine Type – sind. Zusätzlich ist es notwendig, dass die Token in einer Struktur angeordnet sind, zum Beispiel eine Reihenfolge. Ich würde sogar fast soweit gehen, die Definition auf „Daten sind Strukturen“ zu verkürzen, weil Strukturen aus unterscheidbaren Elementen bestehen. Diese Definition blendet jedoch – auch in ausführlicherer Form wie zum Beispiel als „Daten sind strukturierte Mengen unterscheidbarer Elemente“ – den Begriff der Information völlig aus.

Informationen

Ohne Daten kann es keine Informationen geben. Der Philosoph Luciano Floridi – vermutlich der renommierteste Experte auf dem Gebiet der Informationsphilosophie – bezeichnet diese Annahme als Ontological Neutrality. Obgleich umgekehrt Daten möglicherweise ohne Informationen existieren können (darüber wäre zu diskutieren) finde ich es angemessen bei der Definition von Daten direkt auf Informationen zu verweisen. Bei der Definition von Information beziehe ich mich auf die von Floridi dargestellte General Definition of Information (GDI). In Is Information Meaningful Data? fasst er diese Definition zusammen und argumentiert, dass (semantische) Information zusätzlich wahr sein muss. Diese Annahme ist umstritten, während die GDI eine stabilere Grundlage bietet. Demnach ist etwas Information genau dann wenn:

  1. es aus einem oder mehreren Daten besteht
  2. die Daten wohlgeformt (syntaktisch korrekt) sind
  3. die wohlgeformten Daten eine Bedeutung (Semantik) besitzen

Im Rahmen meiner Dissertation beschäftige ich mich damit, wie die Beziehung zwischen Daten, Wohlgeformtkeit und Bedeutung in der Praxis hergestellt wird. Wie ich in Libreas skizziert habe, sind dabei die Begriffe Format und Modell hilfreich. Auf das Modell, welches meiner Meinung nach notwendig ist, um aus Daten bedeutungsvolle Informationen zu lesen (aufnehmen, erfassen, verstehen…) verweise ich in meiner Definition mit der „Vereinbarung“. Die Vereinbarung muss implizit oder explizit als Hintergrundwissen, Kontextinformation, given information, Exformation o.Ä. vorliegen, um Daten interpretieren zu können – denn prinzipiell kann ein gegebenes Datum sehr viele verschiedene Informationen enthalten.

Digitalität und Wissen

Auf den Begriff der Digitalität möchte ich hier erstmal nicht weiter eingehen – finite Strukturen sind immer digital kodierbar also ist Digitalität nicht Voraussetzung sondern Folge von Daten. Und was Wissen ist weiß ich auch nicht: es hängt jedenfalls sehr davon ab, was man vom Wissensbegriff wissen möchte 😉 Hinweisen möchte ich aber auf die Zitatesammlung mit weiteren Definitionen von Daten von Beat Döbeli Honegger und auf den schon oben verlinkten Artikel Semantic Conceptions of Information von Luciano Floridi. Und natürlich freue ich mich sehr über weitere Kommentare!

8 Comments »

RSS feed for comments on this post. TrackBack URI

  1. […] Pohl hat sich zu seinem Informationsbegriff einige Gedanken gemacht, auf die Jakob Voss wiederum reagiert hat. Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte View more presentations […]

    Pingback by KoopTech » KoopTech empfiehlt ... » Jakob Voss über das semantische Netz und Linked Open Data — 20. April 2010 #

  2. Schöner Artikel den ich von Anfang bis Ende durchgelesen habe – und das ist nicht allzu häufig der Fall.

    Bei der Definition von Information solltest Du mal einen Blick hier hinein werfen: http://en.wikipedia.org/wiki/Information#As_a_property_in_physics
    (falls noch nicht geschehen)

    Comment by Hannes Carl Meyer — 20. April 2010 #

  3. Hallo Jakob,
    dein Dissertations-Thema „wie die Beziehung zwischen Daten, Wohlgeformtkeit und Bedeutung in der Praxis hergestellt wird“ hört sich hoch spannend an. Werde das verfolgen. Wenn du deine Theorien in der Praxis ausprobieren willst, biete sich Twick.it als Versuchsplattform an. Immerhin wollen wir auch Daten (Erklärungen) und Bedeutungen in möglichst reiner Form gewinnen. Leider haben wir jedoch von Semantik nicht die leiseste Ahnung. Und auch Homonyme sind problematisch. Aber wem sage ich das.

    Comment by Sean Kollak — 26. April 2010 #

  4. Grundbegriffe des Informationswesens…

    Jacob Voss und Adrian Pohl diskutieren in ihren Blogs die spannende Frage “Was sind Daten?”. Für deren Beantwortung werden immer auch weitere wichtige Grundbegriffe des Informationswesen reflektiert (vgl. dazu auch einen Beitrag in die…

    Trackback by Hapke-Weblog — 28. April 2010 #

  5. Hallo Thomas, vielen Dank auf den Hinweis auf das Capurroschen Trilemma zum Informationsbegriff und die anderen Quellen. Dass Floridi in seinem Artikel Philosophical Conceptions of Information (2009), der weitgehend dem Artikel Semantic Conceptions of Information (2005) entspricht nicht auf Capurros The Concept of Information(2003) eingeht, ist schon etwas merkwürdig. Man müsste mal die Literaturverzeichnisse der beiden Artikel vergleichen, wie weit die beiden auseinanderliegen. Capurro geht auf Floridi praktisch nur in Bezug auf sein Kernthema Informationsethik ein und Floridi hält garnichts von Capurro. Ein Fall der Umstätterschen Uncitedness IV?

    Comment by jakob — 29. April 2010 #

  6. Ist eigentlich lustig, dass offenbar jeder in jeder informationswissenschaftlichen Arbeit immer wieder damit anfangen muss, erstmal zu klären, was eigentlich Information ist (inklusive Auflistung all der vielen nuancierten Betrachtungen die es dazu gibt).
    Das erinnert mich an meine mündliche Abschlussprüfung im Fach Rechtsinformatik. Die gipfelte in der Frage (die ja so gerne gestellt wird): „Ist denn die Informationswissenschaft überhaupt eine Wissenschaft?“. Nach allerlei Austausch von Argumenten mit meinem Prüfer, kamen wir schließlich zu dem Ergebnis: Ja, denn sie hat einen eigenen Forschungsgegenstand, den sie untersucht: Information 🙂
    Tja, und das immer wieder aufs Neue… Aktion! Rekursion! Hach…

    Comment by till — 29. April 2010 #

  7. In einem Beitrag von Wolfgang Ruge findet sich der Verweis auf Lev Manovich, der digitale Medien mit 5 Eigenschaften charakterisiert – die Liste sieht sehr Geisteswissenschaftlich aus und hat einige Ãœberschneidungen, ist aber ganz interessant, da sich Daten letzendlich auf Digitalität zurückführen lassen sollten.

    Comment by jakob — 26. Mai 2010 #

  8. […] characters get too limited. Half a year ago a similar discussion with Adrian became a small series of blog articles (in German). I doubt that you can find a simple and final answer to fundamental questions about […]

    Pingback by Is data a language? In search of the new discipline data linguistics « Jakoblog — Das Weblog von Jakob Voß — 13. September 2010 #

Sorry, the comment form is closed at this time.