Data is not meaning – but a web badge

6. Januar 2011 um 00:57 3 Kommentare

I’m am sure that Douglas Adams and John Lloyd had a word for it: you know exactly what you mean, but not how to call it. Recently I tried to find information about : A particular kind of „web banner“, „button“, or „badge“ with specific size, border, and two parts. I finally found out, that it is a 80×15 web badge as introduced by Antipixel in 2002. A helpful description of the format is given by ZwahlenDesign, who also points to two online badge creation tools: Brilliant Button Maker and Button Maker. Note that the tools use „Button“ instead of „Badge“ to refer to the same thing.

I created a web badge to promote a simple philosophical web standard: data is not meaning* Here is the data as 177 bytes hexdump:

89 50 4E 47 0D 0A 1A 0A 00 00 00 0D 49 48 44 52 00 00 00 50 00 00 00 0F 01 03 00 00 00 49 07 DA CC 00 00 00 01 73 52 47 42 00 AE CE 1C E9 00 00 00 06 50 4C 54 45 FF FF FF 00 00 00 55 C2 D3 7E 00 00 00 59 49 44 41 54 08 D7 63 F8 0F 07 0C 0D 0C 50 C0 C8 B0 FF FF FF 0F D8 99 0D 10 E6 8E CF 7D 05 2D 7E 86 42 2E 85 0C BB 73 EF 6E 7E 76 C2 73 52 4A 23 C3 EE C4 3B 06 AD 7E 95 41 21 1B C1 A2 4F 3C 3C 8D 7C 26 32 EC 78 7B 77 43 8B 9F A7 90 4B 22 B2 09 D8 AD 40 72 03 C2 65 00 CA 67 45 A7 86 69 B7 81 00 00 00 00 49 45 4E 44 AE 42 60 82

If data was meaning, that should be all to say. But data is just a stream of bits, bytes, numbers, characters, strings, nodes, triples, or sometimes even words. You have to make use of it in a meaningful way. For instance you could give the data above to a specific piece of software like your web browser. Here comes the data again:

This PNG image was the smallest I was able to create with optimized colors, LZW compression etc. There is another piece of data, that is only eight bits more (178 bytes) and looks the same as GIF image:

I could also express the monochrome badge with one bit per pixel. That makes 80×15 = 1200 bits = 150 bytes uncompressed. The meaning could be the same, but not when only looking at your browser (because this piece of software cannot handle my „ad-hoc monochrome 80×15 web badge format“).

I also created a version with color. Feel free to use and modify as you like. In this case the PNG with 198 bytes is slightly larger than the GIF with 196 bytes.

PNG:

GIF:

* I was suprised that there were only seven Google hits for this phrase, none of them with the same meaning (sic!) that I try to express by this article. The badge was inspired by this important warning sign.

P.S: Enough data philosophy, time for music. There is so much more than one and zero and one and zero and one!

Is data a language? In search of the new discipline Data Linguistics

13. September 2010 um 01:24 33 Kommentare

Yesterday Jindřich asked me for a reason to treat data as a language. I really appreciate this little conversations in data philosophy, but after a while 140 characters get too limited. Half a year ago a similar discussion with Adrian became a small series of blog articles (in German). I doubt that you can find a simple and final answer to fundamental questions about data and meaning, because these questions touch the human condition. This is also the reason why we should never stop asking unless we give up being human beings.

JindÅ™ich’s question first made me wonder because for me data obviously is a language. All data is represented as sequence of bits, which can easily be defined as formal language. But this argument is stupid and wrong. Although language can be described by formal languages (as introduced by Noam Chomsky), this description only covers synax and grammar. Above all, a description of language must not be confound with language itself: the map is not the territory.

But data is used to communicate just like natural (written) language. The vast amount and heterogenity of data sometimes makes us forget that all data is created by humans for humans. Let me start with a simple argument against the view of data as language. A lot of data is created by measuring nature. As nature is not language, measured data is not language. This argument is also wrong. We (humans) design measuring devices and define their language (sic!) in terms of units like length, duration, blood pressure, and so forth. These units do not exist independent from language, but only communicated via it. And most units describe much more complex and fuzzy concepts like „name“, and „money“, which only exist as social construct. A piece of data is a statement that can be false, true, nonsense, or all of it, depending on context. Just like language.

Nowadays we create a lot of data for machines. Is this an argument against nature as language? I don’t think so. We may say that a piece of data made a machine to perform some task, but the machine was designed to act in a specific way. Machines do not „understand“ data, they just react. If I use an axe to cut a tree, I do not send the tree a message of data that it interprets to cut itself. Of course computers are much more complex then trees (and much simpler from another point of view). The chain of reaction is much more subtle. And most times there are more participants. If I create some data for a specific program, I do not communicate with the program itself, but with everyone involved in creating the program and its environment. This may sound strange but compare the situation with legal systems: a law is a piece of language, used to communicate to other people: „don’t step on the grass“. Unforunately society makes us think that laws are static and independent from us. In the same way people think that data is shaped by computers instead of people. Next time you get angry about a program, think about the vendor and programmer. Next time you get angry about a law, think about the lawmakers.

What follows from treating data as language? I think we need a new approach to data, a dedicated study of data. I would call this discipline data linguistics. Linguistics has many sub-fields concerned with particular aspects of natural language. The traditional division in syntax, semantics, and pragmatics only describes one direction to look at language. Anthropological linguistics and sociolinguistics study the relation between language and society, and historical linguistics studies the history and evolution of languages, only to mention a few disciplines. Suprisingly, the study of data is much more limited — up to now there is no data linguistics that studies data as language. The study of data is mainly focused on its form, for instance on the study of formal languages in computer science, the study of digital media in cultural studies and media studies, or the study of forms and questionnaire in graphic design and public administration (forms could be a good starting point for data linguistics).

There are some other fields that combine data and linguistics but from different viewpoints: computational linguistics studies natural language by computational means, similar to digital humanities in general. In one branch of data analysis, linguistic summaries of data are created based on fuzzy set theory. They provide natural language statements, that capture the main characteristics of data sets. Natural language processing analyses textual data by algorithmic methods. But data linguistics that analyses data in general is still waiting to be discovered. We can only conjecture possible reasons for this lack of research:

  • Data is not seen as language.
  • Digital data is a relatively new phenomenon. The creation of data on a large scale mainly began in the 20th century, so there is not enough time to historically explore the topic.
  • In contrast to natural language, data is too heterogenious to justify a combined look at data in general.
  • data seems to be well-defined, so no research is needed.

What do you think?

Was sind eigentlich Daten?

19. April 2010 um 22:19 8 Kommentare

P.S: Inzwischen habe ich einen Aufsatz zur Frage dieses Blogartikels veröffentlicht: Jakob Voß (2013): „Was sind eigentlich Daten?“. In: LIBREAS. Library Ideas, 23 (2013). http://libreas.eu/ausgabe23/02voss/


Adrian Pohl ist in seinem Blog auf meinen in Zwickau gehaltenen Vortrag Semantic Web und Linked Data eingegangen (der Videomitschnitt des Vortrags ist noch nicht online, aber die Vortragsfolien) – vielen Dank für das Feedback!

Definitionen von Daten

In der ersten Hälfte des Vortrags ging es mir darum zu erklären, was überhaupt Daten sind. Meine Kurzdefinition, die Adrian in seinem Beitrag auseinander nimmt ist:

Daten: Strukturen aus unterscheidbaren Zeichen, die aufgrund von Vereinbarungen Informationen darstellen

Dem setzt er folgende Definition entgegen (Hyperlinks wie im Original):

Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten.

Zum Vergleich hier noch die aktuelle Definition (19 April 2010 16:22 UTC) aus Wikipedia:

The term data means groups of information that represent the qualitative or quantitative attributes of a variable or set of variables. [en.wikipedia]

Daten sind logisch gruppierte Informationseinheiten […], die zwischen Systemen übertragen werden oder auf Systemen gespeichert sind. [de.wikipedia, 19 April 2010 16:22 UTC]

Kurze Analyse der Definitionen

Die Definitionen aus beiden Wikipedias halte ich für haltlos (Was heisst „logisch gruppiert“? Warum basieren Daten auf einer „variable“?) – sie zeigen allerdings, wie eng der Datenbegriff oft an den Informationsbegriff gekoppelt wird. Im Falle der Wikipedia-Definitionen, die Daten praktisch als eine Aggregat von Information(seinheiten) auffassen, ist diese Kopplung aber viel zu eng. Ich denke hier würde mir Adrian rechtgeben, da er schreibt „Nach meinem Dafürhalten […] stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen.“ Nach einer Trennung des Begriffs in einen rein syntaktischen Teil (siehe seine Definition oben), auf welchen aufbauend ein „aufnehmen“, „erfassen“ oder „verstehen“ zu Informationen möglich ist, schlägt er in Abwandlung meiner Definition vor:

Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist

Ich halte diese Definition für ebenso problematisch, da unklar ist was eine „syntaktisch geordnete Menge“ sein soll und da Informationen nicht objektiv in Daten „gespeichert“ sind sondern erst aufgrund von Vereinbarungen als Informationen interpretiert werden. Von der Aussage her – so denken ich – liegen Adrian und ich jedoch nicht weit auseinander. Man könnte zugespitzt sagen, dass wir uns nicht über die Daten einig sind (wie soll die Definition lauten) aber über die Information (was soll die Definition bedeuten).

Daten als Strukturen

Der Begriff „Token“ zur Definition der Bestandteile von Daten ist vielleicht besser als „Zeichen“ und ich möchte Adrian ausdrücklich für den Hinweis auf den Unterschied zwischen Token und Type danken. Voraussetzung für Daten ist die Möglichkeit einer Unterscheidung. Erstens ist notwendig zu unterscheiden, wo ein Token anfängt und endet, um überhaupt „Mengen“ identifizieren zu können. Zweitens setzen Daten die Möglichkeit voraus, dass zwei Token identisch – also eine Type – sind. Zusätzlich ist es notwendig, dass die Token in einer Struktur angeordnet sind, zum Beispiel eine Reihenfolge. Ich würde sogar fast soweit gehen, die Definition auf „Daten sind Strukturen“ zu verkürzen, weil Strukturen aus unterscheidbaren Elementen bestehen. Diese Definition blendet jedoch – auch in ausführlicherer Form wie zum Beispiel als „Daten sind strukturierte Mengen unterscheidbarer Elemente“ – den Begriff der Information völlig aus.

Informationen

Ohne Daten kann es keine Informationen geben. Der Philosoph Luciano Floridi – vermutlich der renommierteste Experte auf dem Gebiet der Informationsphilosophie – bezeichnet diese Annahme als Ontological Neutrality. Obgleich umgekehrt Daten möglicherweise ohne Informationen existieren können (darüber wäre zu diskutieren) finde ich es angemessen bei der Definition von Daten direkt auf Informationen zu verweisen. Bei der Definition von Information beziehe ich mich auf die von Floridi dargestellte General Definition of Information (GDI). In Is Information Meaningful Data? fasst er diese Definition zusammen und argumentiert, dass (semantische) Information zusätzlich wahr sein muss. Diese Annahme ist umstritten, während die GDI eine stabilere Grundlage bietet. Demnach ist etwas Information genau dann wenn:

  1. es aus einem oder mehreren Daten besteht
  2. die Daten wohlgeformt (syntaktisch korrekt) sind
  3. die wohlgeformten Daten eine Bedeutung (Semantik) besitzen

Im Rahmen meiner Dissertation beschäftige ich mich damit, wie die Beziehung zwischen Daten, Wohlgeformtkeit und Bedeutung in der Praxis hergestellt wird. Wie ich in Libreas skizziert habe, sind dabei die Begriffe Format und Modell hilfreich. Auf das Modell, welches meiner Meinung nach notwendig ist, um aus Daten bedeutungsvolle Informationen zu lesen (aufnehmen, erfassen, verstehen…) verweise ich in meiner Definition mit der „Vereinbarung“. Die Vereinbarung muss implizit oder explizit als Hintergrundwissen, Kontextinformation, given information, Exformation o.Ä. vorliegen, um Daten interpretieren zu können – denn prinzipiell kann ein gegebenes Datum sehr viele verschiedene Informationen enthalten.

Digitalität und Wissen

Auf den Begriff der Digitalität möchte ich hier erstmal nicht weiter eingehen – finite Strukturen sind immer digital kodierbar also ist Digitalität nicht Voraussetzung sondern Folge von Daten. Und was Wissen ist weiß ich auch nicht: es hängt jedenfalls sehr davon ab, was man vom Wissensbegriff wissen möchte 😉 Hinweisen möchte ich aber auf die Zitatesammlung mit weiteren Definitionen von Daten von Beat Döbeli Honegger und auf den schon oben verlinkten Artikel Semantic Conceptions of Information von Luciano Floridi. Und natürlich freue ich mich sehr über weitere Kommentare!