jakob « Jakoblog — Das Weblog von Jakob Voß

Blog
About

Fundstücke aus der Gender-Blogosphäre

2. Juni 2010 um 01:34 13 Kommentare

Die Mädchenmannschaft macht mit ihrer Rubrik „neues aus den Blogs“ anhand der deutschsprachigen feministischen Blogosphäre vor, wie Vernetzung funktionieren kann – ein Thema, das in der deutschsprachige Biblioblogosphäre schon seit mehreren Wochen diskutiert wird.

Oft wichtiger (und anstrengender) als Diskutieren ist jedoch Machen – das versucht die „2.0-Szene“, zu der ich irgendwie dazugehöre – den „Offlinern“ schon seit Jahren beizubringen. Peter Kruse stellte in einem vielbeachten Vortrag im April auf der re:publica jedoch fest, dass die Trennung zwischen Onlinern und Offlinern irreführend ist. Stattdessen geht es um verschiedene Werte und Netzwerke (aber schaut euch den Vortrag lieber selber an).

Eine andere, tatsächlich auf Wertevorstellungen beruhende, Trennung ist die zwischen Geschlechtern: und zwar das „soziale oder psychologische Geschlecht einer Person“ (gender). Dem Artikel über Bloggen und Gender von FxNeumann gestern entnehme ich eine mögliche Erklärung, warum es zwar mehr bloggende Frauen gibt, diese aber weniger wahrgenommen werden. Wie Dorothee Markert beschreibt, unterscheidet die italienische Journalistin Marina Terragnis zwischen „primärer Politik“ und „sekundärer Politik“: Primäre Politik bedeutet, etwas konkretes für das Zusammenleben von Menschen in einer Gesellschaft zu tun, und Sekundäre Politik bedeutet, darüber zu reden wie die Gesellschaft funktionieren sollte. Die sekundäre Politik ist jedoch das was gemeinhin als Politik verstanden wird: Menschen (vor allem Männer) sagen wie es laufen sollte und versuchen an Machtpositionen zu kommen, damit sie dann irgendwann mal etwas bewirken können. Möglicherweise bewirken viele Frauen lieber direkt etwas, oder platt ausgedrück: Männer laber rum – Frauen machen einfach.

Dieser Spruch ist natürlich quatsch, aber – um es mit Antje Schrupp auszudrücken, auf deren Beitrag ich eigentlich hinauswollte: Das Gegenteil ist genauso falsch! Klischees über Frauen und Männer sind zwar unterhaltsam aber eben Klischees, die sich jeder/jede so biegt wie sie ihm/ihr am besten passen. Dabei biegen Menschen ihre Klischees jedoch nicht selber sondern sie werden gebogen – von der Gesellschaft. Diese Erkenntnis ist nicht neu, sie findet sich zum Beispiel bei Focault und Adorno (auf die ich lieber ständig verweise statt sie selber zu lesen. Kann mir jemand eine bekannte Frau nennen, die ich stattdessen verwenden kann? Solange Frauen weniger klar als [intellektuelle] Autoritäten anerkann werden, ist das schwierig).

Der Gender-Szene ist jedenfalls zu verdanken, die Konstruiertheit von Rollenbildern wie Männlich und Weiblich aufzuzeigen. Das klingt jetzt sicher völlig unverständlich, also lest euch Antje Schrupps 15 Thesen zu Feminismus und Post-Gender durch. Hier die erste und die letzte These:

1. Der wichtigste Punkt rund um das Thema „Gender“ hat nichts mit Frauen zu tun, sondern ist die Kritik an der Sich-zur-Normsetzung des Männlichen. Frauen kommen allerdings insofern ins Spiel, als Feministinnen die ersten waren, die dieses Sich-zur-Norm-Setzen des Männlichen hinterfragt haben.

15. Diese Praxis ist aber nicht auf Frauen beschränkt. Auch Männer und alle anderen Geschlechter können – und sollten – sich daran beteiligen. Denn es geht nicht um Lobbyarbeit für Fraueninteressen, sondern um eine Welt, in der gutes Leben für alle Menschen möglich ist.

Als Individualanarchist interessiert mich das Thema Gender vor allem in Bezug auf den Freiheitsbegriff. Schrupp schreibt:

8. Eine freiheitliche Politik besteht nicht in der Behauptung einer (immer nur abstrakt denkbaren) Gleichheit der Menschen, sondern in kreativen und dem jeweiligen Kontext angemessenen Wegen, mit der (real vorhandenen) Ungleichheit der Menschen umzugehen, ohne dass daraus Herrschaft entsteht.

Hier liegt ~~der Hund~~ ~~die Katze~~ der Hase ~~in der Pfanne~~ ~~auf dem Dach~~ ~~im Pfeffer~~ begraben: Es reicht nicht aus, einfach zu behaupten, das Geschlecht spiele keine Rolle, weil wir alle Gleich sind (siehe Piratenpartei) oder der Staat solle sich aus allem heraushalten, weil wir ja alle selber entscheiden können auf was wir uns einlassen (siehe FDP). Wer danach handelt, handelt reaktionär und arbeitet für die Seite der Herrschenden. Denn wie Anatole France schreibt:

Das Gesetz in seiner erhabenen Gleichheit verbietet es Reichen wie Armen, unter den Brücken zu schlafen, auf den Straßen zu betteln und Brot zu stehlen.

Damit komme ich auch zum letzten Punkt dieses Artikels: Heute ist Internationaler Hurentag! Statt aus diesem Anlass die eigenen Vorurteile (Gesellschaft!) gegenüber Sexarbeitern von sich zu geben oder zu fordern, dass dringend etwas getan werden müsse (sekundäre Politik) ist dieser Tag vielleicht mal ein Anlass, sich mit der konkreten Lebenssituation von Huren auseinanderzusetzen. Kompetente Ansprechpartner dafür sind Selbsthilfeorganisationen wie Hydra e.V. in Berlin, Madonna e.V. in Bochum und Doña Carmen e.V. in FFM.

Tags: Gender, Politik, Prostitution, Vorurteile 13 Kommentare

An impression of the OPDS/OpenPub catalog data model

27. Mai 2010 um 00:05 7 Kommentare

A few days ago Ed Summers pointed me to the specification of the Open Publication Distribution System (OPDS) which was just released as version 0.9. OpenPub (an alias for OPDS) is part of the Internet Archive’s BookServer project to build an architecture for vending and lending digital books over the Internet. I wonder why I have not heard more of BookServer and OpenPub at recent library conferences, discussion lists, and journals but maybe current libraries prefer to stay in the physical world to become museums and archives. Anyway, I had a look at OpenPub, so here are my public notes of the first impressions – and my answer to the call for comments. Please comment if you have corrections or additions (or create an issue in the tracker)!

OPDS is a syndication format for electronic publications based on Atom (RFC 4287). Therefore it is fully based on HTTP and the Web (this place that current libraries are still about to discover). Conceptually OPDS is somehow related to OAI(-ORE) and DAIA but it is purely based on XML which makes it difficult to compare with RDF-based approaches. I tried to reengineer the conceptual data model to better seperate model and serialization like I did with DAIA. The goal of OPDS catalogs is „to make Publications both discoverable and straightforward to acquire on a range of devices and platforms“.

OPDS uses a mix of DCMI Metadata Terms (DC) elements and ATOM element enriched with some new OPDS elements. Furthermore it interprets some DC and ATOM elements in a special way (this is common in many data formats although frequently forgotten).

Core concepts

The core concepts of OPDS are Catalogs which are provided as ATOM Feeds (like Jangle which should fit nicely for library resources), Catalog Entries that each refer to one publication and Aquisition Links. There are two disjunct types of Catalogs: Navigation Feeds provide a browseable hierarchy and Acquisition Feeds contain a list of Publication Entries. I will skip the details on Navigation Feeds and search facities (possible via OpenSearch) but focus on Elements and Aquisition.

Catalog Elements

The specification distinguishes between Partial and Complete Catalog Entries but this is not relevant on the conceptual level. There we have two concepts that are not clearly seperated in the XML serialization: the Catalog Record and the Publication which a Catalog Record describes are mixed in one Catalog Element. The properties of a Catalog Record are:

atom:id: identifier of the catalog entry (MANDATORY)
atom:updated: modification timestamp of the catalog entry (MANDATORY)
atom:published: timestamp of when the catalog entry was first accessible

The properties of a Publication are:

dc:identifier: identifier of the publication
atom:title: title of the publication (MANDATORY)
atom:author: creator of the publication (possibly with sub-properties)
atom:contributors: additional contributors to the publication (dito)
atom:category: publication’s category, keywords, classification codes etc. (with sub-properties scheme, term, and label)
dc:issued: first publication date of the publication
atom:rights: rights held in and over the publications
atom:summary and atom:content: description of the publication (as plain text or some other format for atom:content)
dc:language: language(s) of the publication (any format?)
dc:extend: size or duration of the publication (?)
dc:publisher: Publisher of the publication

Moreover each publication may link to related resources. Unfortunately you cannot just use arbitrary RDF properties but the following relations (from this draft):

alternate: alternative description of the publication
copyright: copyright statement that applies to the catalog entry
latest-version: more recent version of the publication
license: license associated with the catalog entry
replies: comment on or discussion of the catalog entry

I consider this relation types one of the weakest points of OPDS. The domain and range of the links are not clear and there are much better vocabularies for links between publications, for instance in FRBR, the Bibliographic Ontology, the citation type ontology, Memento, and SIOC (which also overlaps with ODPS at other places).

In addition each publication must contain at least one atom:link element which is used to encode an Aquisition Link.

Aquisition Links

OPDS defines two Aquisition types: „Direct Acquisition“ and „Indirect Acquisition“. Direct Aquisition links must directly lead to the publication (in some format) without any login, meta or catalog page in front of it (!) while Indirect Acquisition links lead to such a portal pages that then links to the publications. There are five Aquisition types (called „Acquisition Relations“) similar to DAIA Service types:

odps:acquisition: a complete representation of the
publication that may be retrieved without payment
odps:acquisition/borrow: a complete representation of the publication
that may be retrieved as part of a lending transaction
odps:acquisition/buy: a complete representation of the publication
that may be retrieved as part of a purchase
odps:acquisition/sample: a representation of a subset of the publication
odps:acquisition/subscribe: a complete representation of the publication that may be retrieved as part of a subscription

odps:acquisition can be mapped to daia:Service/Openaccess and odps:acquisition/borrow can be mapped to daia:Service/Loan (and vice versa). odps:acquisition/buy is not defined in DAIA but could easily be added while daia:Service/Presentation and daia:Service/Interloan are not defined in ODPS. At least the first should be added to ODPS to indicate publications that require you to become a member and log in or to physically walk into an institution to get a publication (strictly limiting OPDS to pure-digital publications accessible via HTTP is stupid if you allow indirect aquisition).

The remaining two acquisition types somehow do not fit between the others: odps:acquisition/sample and odps:acquisition/subscribe should be orthogonal to the other relations. For instance you could subscribe to a paid or to a free subscription and you could buy a subset of a publication.

In addition Aquisition links may or must contain some other properties such as odps:price (containing of a currency code from ISO4217 and a value).

Cover and artwork links

Beside Aquisition links the relations opds:cover and opds:thumbnail can be used to relate a Publication with it’s cover or some other visual representation. The thumbnail should not exceed 120 pixles in height or width and images must be either GIF, JPEG, or PNG. Thumbnails may also be directly embedded via the „data“ URL schema from RFC2397.

Final thoughts

OPDS looks very promising and it is already used for benefit in practise. There are some minor issues that can easily be fixed. The random selection of relation types is surely I flaw that can be repaired by allowing arbitrary RDF properties (come on XML fanboys, you should notice that RDF is good at least at link types!) and the list of acquisition types should be cleaned and enhanced at least to support „presentation“ without lending like DAIA does. A typical use case for this are National Licenses that require you to register to access the publications. For more details I would like to compare OPDS in more depth with models like DAIA, FRBR, SIOC, OAI-ORE, Europeana etc. – but not now.

Tags: ATOM, DAIA, Data Modeling, OPDS, openpub 7 Kommentare

Die Citation Style Language (CSL) als Metadatenformat

29. April 2010 um 16:39 6 Kommentare

Auf der Code4Lib Mailingliste hat Tim Spalding vor einigen Tagen die Idee aufgeworfen, die angekündigten Twitter Annotations zur Übertragung von bibliographischen Daten zu verwenden. Die Beteiligten waren alle der Meinung, das bibliotheksspezifische Formate wie MARC und MODS unpassend sind; BibTeX scheidet ebenfalls aus.

Nach der Überlegung, dass Identifikation und Beschreibung zwei klar abzugrenzende Aufgaben von bibliographischen Daten sind, habe ich mir mal genauer die Citation Style Language (CSL) angeschaut. CSL wird unter Anderem in den Literaturverwaltungsprogrammen Zotero und Mendeley benutzt, um Literaturangaben in unzähligen Zitationsstilen ausgeben zu können. Die Grundidee von CSL ist, Zitationsstile als CSL-Styles zu definieren, mit denen dann ein CSL-Prozessor aus bibliographischen Datensätzen schön formatierte Literaturangaben und Bibliographien erstellt. Der am weitesten fortgeschrittene CSL-Prozessor ist citeproc-js. Er ist in JavaScript geschrieben und wurde als Modul aus dem Programmcode von Zotero herausgelöst, so dass er auch unabhängig verwendet werden kann (allerdings bislang noch nicht mit allen JavaScript-Interpretern).

Die Idee ist nun, das CSL-Eingabeformat als Metadatenformat für bibliographische Daten in Twitter-Annotationen zu verwenden. Im Code4lib-Wiki habe ich mal zusammengefasst, was ich zur Spezifikation des CSL-Eingangsformat gefunden habe. Das Metadatenformat ist ziemlich einfach aufgebaut und soll sich dem Entwickler Frank Bennett nach in einer kommenden Zotero-Version auch einfacher aus dem Programm exportieren lassen.

Zur Vermeidung des Umwegs über Zotero fehlen nur Exportmöglichkeiten von CSL-Eingangsdaten aus Bibliothekskatalogen. Deren Titel könnten dann automatisch mit CSL in hunderten von Zitierstilen exportiert werden. In Beluga wird dazu übrigens bislang refbase verwendet, das ebenso wie der CSL-Prozessor citeproc-js als Open Source verfügbar ist. Für die Wikimedia-Projekte bietet sich das Format ebenso an – so könnten die Leser auswählen, welchen Zitationsstil sie bevorzugen und Literaturangaben aus Wikipedia-Artikeln direkt in ihre Literaturverwaltung übernehmen.

Tags: CSL, Identifier, Literaturverwaltung, Metadata, twitter, Zotero 6 Kommentare

William Kent: Ein weiterer Seelenverwandter?

28. April 2010 um 01:52 1 Kommentar

Bei meinen Recherchen zu Datenmodellierung etc. bin ich über Lambda the Ultimate auf den 2005 verstorbenen Computerwissenschaftler William (Bill) Kent gestoßen. Er hat 1978 ein Buch über „Data & Reality“ geschrieben hat und ebenso wie der von mir sehr geschätze Ted Nelson scheint Kent vom „Informatik-Establishment“ nicht genügend rezipiert zu werden. Die meisten von Kent’s Texten sind auf seiner ehemaligen Homepage verfügbar.

In The Many Forms of a Single Fact zeigt Kent beispielsweise, wie sich eine Aussage im relationalen Datenmodell in dutzenden Varianten ausdrücken lässt. Ich bin sicher im RDF-Datenmodell ist das alles gaaanz anders und das Problem gleiche Information – unterschiedliche Daten löst sich in Luft auf 😉 Die Ignoranz (oder der Fatalismus) der Mainstream-Informatik-Forschung gegenüber der dahinter liegenden fundamentalen Begrenzung technischer Systeme ist einer der Gründe, warum ich lieber in der Informationswissenschaft promoviere. Kent schreibt:

“The questions aren’t so much about how we process data as about how we perceive reality, about the constructs and tactics we use to cope with complexity, ambiguity, incomplete information, mismatched viewpoints, and conflicting objectives”.

Dazu fällt mir Lotfi A. Zadeh, der Erfinder der Fuzzy Logik ein. Die erste Anwendung der Fuzzy Logik auf Datenbanken stammt übrigens von Maria Zemankova, die auch im Bereich Digitaler Bibliotheken forscht. Aber zurück zu Kent: Diese Notiz von ihm über Bücher verdeutlicht, warum ich über die Modellierung von bibliographischen Daten schreibe 🙂

“It takes a good system and a lot of work to keep track of books.
[…] Books hold our universe, past, present, and future, and other universes, too.”.

Mit Ted Nelson hat William Kent meinem Eindruck nach gemeinsam, dass beide jahrzentelang aus verschiedenen Blickrichtungen gegen die Begrenztheit von vorhandenen Computersysteme angeschrieben haben. Man vergleiche beispielsweise Nelsons „The Tyranny of the File“ (1986, siehe dazu hier) und Kents „Limitations of Record Based Information Models“ (1979).

Wer sich weniger mit konkreten Strukturen der Datenverwaltung beschäftigen möchte aber das trotzdem alles irgendwie interessant findet: Passende Bücher sind Sorting Things out von Geoffrey Bowker und Susan Leigh Star sowie Everything is Miscellaneous von David Weinberger.

Tags: Daten, Dissertation, Literatur, Personen 1 Kommentar

Was sind eigentlich Daten?

19. April 2010 um 22:19 8 Kommentare

P.S: Inzwischen habe ich einen Aufsatz zur Frage dieses Blogartikels veröffentlicht: Jakob Voß (2013): „Was sind eigentlich Daten?“. In: LIBREAS. Library Ideas, 23 (2013). http://libreas.eu/ausgabe23/02voss/

Adrian Pohl ist in seinem Blog auf meinen in Zwickau gehaltenen Vortrag Semantic Web und Linked Data eingegangen (der Videomitschnitt des Vortrags ist noch nicht online, aber die Vortragsfolien) – vielen Dank für das Feedback!

Definitionen von Daten

In der ersten Hälfte des Vortrags ging es mir darum zu erklären, was überhaupt Daten sind. Meine Kurzdefinition, die Adrian in seinem Beitrag auseinander nimmt ist:

Daten: Strukturen aus unterscheidbaren Zeichen, die aufgrund von Vereinbarungen Informationen darstellen

Dem setzt er folgende Definition entgegen (Hyperlinks wie im Original):

Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten.

Zum Vergleich hier noch die aktuelle Definition (19 April 2010 16:22 UTC) aus Wikipedia:

The term data means groups of information that represent the qualitative or quantitative attributes of a variable or set of variables. [en.wikipedia]

Daten sind logisch gruppierte Informationseinheiten […], die zwischen Systemen übertragen werden oder auf Systemen gespeichert sind. [de.wikipedia, 19 April 2010 16:22 UTC]

Kurze Analyse der Definitionen

Die Definitionen aus beiden Wikipedias halte ich für haltlos (Was heisst „logisch gruppiert“? Warum basieren Daten auf einer „variable“?) – sie zeigen allerdings, wie eng der Datenbegriff oft an den Informationsbegriff gekoppelt wird. Im Falle der Wikipedia-Definitionen, die Daten praktisch als eine Aggregat von Information(seinheiten) auffassen, ist diese Kopplung aber viel zu eng. Ich denke hier würde mir Adrian rechtgeben, da er schreibt „Nach meinem Dafürhalten […] stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen.“ Nach einer Trennung des Begriffs in einen rein syntaktischen Teil (siehe seine Definition oben), auf welchen aufbauend ein „aufnehmen“, „erfassen“ oder „verstehen“ zu Informationen möglich ist, schlägt er in Abwandlung meiner Definition vor:

Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist

Ich halte diese Definition für ebenso problematisch, da unklar ist was eine „syntaktisch geordnete Menge“ sein soll und da Informationen nicht objektiv in Daten „gespeichert“ sind sondern erst aufgrund von Vereinbarungen als Informationen interpretiert werden. Von der Aussage her – so denken ich – liegen Adrian und ich jedoch nicht weit auseinander. Man könnte zugespitzt sagen, dass wir uns nicht über die Daten einig sind (wie soll die Definition lauten) aber über die Information (was soll die Definition bedeuten).

Daten als Strukturen

Der Begriff „Token“ zur Definition der Bestandteile von Daten ist vielleicht besser als „Zeichen“ und ich möchte Adrian ausdrücklich für den Hinweis auf den Unterschied zwischen Token und Type danken. Voraussetzung für Daten ist die Möglichkeit einer Unterscheidung. Erstens ist notwendig zu unterscheiden, wo ein Token anfängt und endet, um überhaupt „Mengen“ identifizieren zu können. Zweitens setzen Daten die Möglichkeit voraus, dass zwei Token identisch – also eine Type – sind. Zusätzlich ist es notwendig, dass die Token in einer Struktur angeordnet sind, zum Beispiel eine Reihenfolge. Ich würde sogar fast soweit gehen, die Definition auf „Daten sind Strukturen“ zu verkürzen, weil Strukturen aus unterscheidbaren Elementen bestehen. Diese Definition blendet jedoch – auch in ausführlicherer Form wie zum Beispiel als „Daten sind strukturierte Mengen unterscheidbarer Elemente“ – den Begriff der Information völlig aus.

Informationen

Ohne Daten kann es keine Informationen geben. Der Philosoph Luciano Floridi – vermutlich der renommierteste Experte auf dem Gebiet der Informationsphilosophie – bezeichnet diese Annahme als Ontological Neutrality. Obgleich umgekehrt Daten möglicherweise ohne Informationen existieren können (darüber wäre zu diskutieren) finde ich es angemessen bei der Definition von Daten direkt auf Informationen zu verweisen. Bei der Definition von Information beziehe ich mich auf die von Floridi dargestellte General Definition of Information (GDI). In Is Information Meaningful Data? fasst er diese Definition zusammen und argumentiert, dass (semantische) Information zusätzlich wahr sein muss. Diese Annahme ist umstritten, während die GDI eine stabilere Grundlage bietet. Demnach ist etwas Information genau dann wenn:

es aus einem oder mehreren Daten besteht
die Daten wohlgeformt (syntaktisch korrekt) sind
die wohlgeformten Daten eine Bedeutung (Semantik) besitzen

Im Rahmen meiner Dissertation beschäftige ich mich damit, wie die Beziehung zwischen Daten, Wohlgeformtkeit und Bedeutung in der Praxis hergestellt wird. Wie ich in Libreas skizziert habe, sind dabei die Begriffe Format und Modell hilfreich. Auf das Modell, welches meiner Meinung nach notwendig ist, um aus Daten bedeutungsvolle Informationen zu lesen (aufnehmen, erfassen, verstehen…) verweise ich in meiner Definition mit der „Vereinbarung“. Die Vereinbarung muss implizit oder explizit als Hintergrundwissen, Kontextinformation, given information, Exformation o.Ä. vorliegen, um Daten interpretieren zu können – denn prinzipiell kann ein gegebenes Datum sehr viele verschiedene Informationen enthalten.

Digitalität und Wissen

Auf den Begriff der Digitalität möchte ich hier erstmal nicht weiter eingehen – finite Strukturen sind immer digital kodierbar also ist Digitalität nicht Voraussetzung sondern Folge von Daten. Und was Wissen ist weiß ich auch nicht: es hängt jedenfalls sehr davon ab, was man vom Wissensbegriff wissen möchte 😉 Hinweisen möchte ich aber auf die Zitatesammlung mit weiteren Definitionen von Daten von Beat Döbeli Honegger und auf den schon oben verlinkten Artikel Semantic Conceptions of Information von Luciano Floridi. Und natürlich freue ich mich sehr über weitere Kommentare!

Tags: Daten, Dissertation, Philosophie 8 Kommentare

Qualitätssicherung von Freien Daten

14. April 2010 um 23:26 4 Kommentare

Vor etwas über einem Monat hat Nat Torkington einen Blogbeitrag mit dem Titel Truly Open Data veröffentlicht, auf den ich hier kurz hinweisen möchte. Nat versucht seit geraumer Zeit verschiedene Einrichtungen dazu zu überzeugen, ihre Daten als (Linked) Open Data freizugeben. In Truly Open Data beschreibt er, warum das Freigeben alleine leider nicht ausreicht, sondern ein offenes Qualitätsmanagement notwendig ist.

Freie Daten lassen sich prinzipiell mit Freier Software vergleichen: dank expliziter Lizensierung (zum Beispiel CC0) kann jeder die Daten kopieren, ändern (mit anderen Daten kombinieren, bereinigen, Ausschnitte bilden etc.) und weitergeben. Wenn man sich allerdings erfolgreiche Open Source Projekte anschaut, passiert in der Praxis noch mehr: Vor allem gibt es eine Community, die das Projekt pflegt und vorantreibt.

Ned weist darauf hin, dass Open Data vergleichbare Praktiken und Werzeuge benötigt, wie Open Source: Die Daten müssen gemeinsam bearbeitet werden können und es muss Personen geben, die sich für ein Datenset verantwortlich fühlen und im Zweifelsfall Entscheidungen treffen können. Zur Kommunikation und Kollaboration sind zahlreiche Tools wie Mailinglisten, Chat, Bug-Tracking-Systeme etc. hilfreich. Es muss einfach sein, sich Änderungen anzeigen zu lassen (Diff) und Vorschläge für Änderungen weitergeben zu können (Patch) – das was in Softwareprojekten durch Versionsverwaltung unterstützt wird. Außerdem mangelt es häufig – wie bei Software – an guter Dokumentation.

Insgesamt dürfen Daten nicht nur als Endprodukt gesehen werden. Es reicht nicht, Daten zu öffnen (auch wenn das der erste Schritt ist), sondern es muss sich auch die Erstellung, Pflege und Weiterverarbeitung der Daten öffnen.

Ich kann Net nur Recht geben und darauf hinweisen, dass die von ihm angesprochenen Punkte eigentlich eine Frage des Qualitätsmanagement sind. Sowohl bei Software als auch bei Daten sieht es jedoch oft sehr schlecht aus, wenn man mal schaut, wie sie entstehen und gewartet werden – wenn sie überhaupt gewartet werden anstatt vor sich hinzurotten. Open Source ist unter Anderem deshalb oft kommerziellen Produkten überlegen, weil offene Systeme nicht so einfach ihren Dreck unter den Teppich kehren können. Kein Wunder, dass viele Produzenten von Daten davor zurückschrecken, ihre Daten freizugeben: Dann wäre ja sichtbar, wie schlecht die Daten tatsächlich gepflegt sind!

Aber es gibt auch gute Beispiel und Vorbilder für offene, lebendig Datenbestände: OpenStreetmap, MusicBrainz, Wikipedia und DBPedia etc. Das Comprehensive Knowledge Archive Network (CKAN) und datapkg sind gute Ansätze. In einem Kommentare beschreibt Gerry Creager wie die Datenqualität in Forschungsprojekten durch einige Regeln verbessert werden konnte. Und Bibliotheksverbünde bieten bereits seit Jahrzehnten Werkzeuge zur gemeinsamen Datenpflege (wenn auch inzwischen etwas veraltet). Wesentlich ist aus meiner Sicht erst einmal die eindeutige Referenzierbarkeit von publizierten Daten (siehe z.B. datacite.org)

Grundsätzlich steht die kollaborative Pflege von Datenbeständen noch in den Anfängen und es gibt noch kein allgemeines Diff/Path für RDF. Ich sehe diese Herausforderungen trotzdem nicht als Grund, den ersten Schritt hinauszuzögern, bis irgendwann ein Data Publishing Framework etabliert ist. Die Freigabe von Daten als Linked Open Data kann und sollte jetzt geschehen und darauf aufgebaut werden.

Tags: open data, Qualität 4 Kommentare

Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 5 Kommentare

Wie am Freitag bekanntgegeben wurde hat die Universitäts- und Stadtbibliothek Köln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa ~~1,3~~ 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits länger von verschiedener Seite gefordert worden – zuletzt in einem guten Einführungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die Gründung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und über die Einrichtung einer eigenen Wiki-basierten Bibliografie ähnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekündigt, ein „Lizenzmodell, das die freie Verwendung der Metadaten garantiert“ zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im großen Maßstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne Einschränkung weitergenutzt werden können.

Wie geht es nun weiter? Zunächst hoffe ich, dass bald weitere Bibliotheken und Bibliotheksverbünde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nächste Schritt besteht darin, die Daten so umzuformen, dass tatsächlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk „Semantic Web“ in die Kataloge bringt. Darüber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschlußreichen Artikel geschrieben: Open Data bringt ähnlich wie Open Source Vorteile, da Fehler und Lücken besser gefunden und ausgebessert werden können. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung für die Daten übernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Änderungen angebracht werden können, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch für Beiträge von Dritten offen ist; für weitere bibliografische Datenbestände ist aber eine kollaborative Infrastruktur notwendig, über die Außenstehende leicht Verbesserungen vornehmen können, ohne ein vollständiges Bibliothekssystem installieren zu müssen.

In jedem Fall freue ich mich über den ersten großen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, möchte ich nur kurz hinweisen: Für Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt übermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen möchte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.

Tags: BEACON, Bibliothek, freie daten, OpenBib, Wikimedia, Wikipedia 5 Kommentare

Sita Sings the Blues – ein filmisches Meisterwerk

21. Februar 2010 um 16:15 1 Kommentar

Gestern haben wir aus dem Internet Archive den Film Sita Sings the Blues gesehen. Der Animationsfilm erzählt in feministischer Lesart das indische Nationalepos Ramayana und ist in mehrfacher Hinsicht ein bemerkenswertes und unterhaltsames Meisterwerk.

Sita Sings the Blues wurde größtenteils als Eine-Frau-Projekt von der Comiczeichnerin Nina Paley geschrieben, produziert und animiert. In vier unterschiedlich animierten Handlungsebenen wird die mehrere Tausend Jahre alte Geschichte von Rama und Sita erzählt: Rama wird von seinem Vater in die Verbannung geschickt. Seine Frau Sita begleitet ihn, wird jedoch vom Dämonenkönig Ravana nach Lanka entführt. Mit Hilfe des Affengenerals Hanuman kann Rama Sita befreien, verstößt sie jedoch danach, weil er befürchtet, dass sie „unrein“ geworden sei.

Einige Szenen der Geschichte werden mit gemalten Bildern dargestellt und parallel von indischen Schattentheater-Figuren erzählt. Die Schattentheater-Figuren lockern die historische Darstellung dadurch auf, dass sie die Details der Geschichte aus heutiger Sicht humorvoll kommentieren und diskutieren. Die wichtigsten Szenen sind in einem anderen Stil animiert und mit Stücken der amerikanischen Jazz-Sängerin Annette Hanshaw (1901-1985) unterlegt. Die vierte Handlungsebene spielt in der Gegenwart und erzählt autobiographisch die Trennung von Nina und ihrem Ex-Mann, der einen Job in Indien angenommen hat.

Hier vier Bilder der unterschiedlichen Animationsstile (Ein Trailer kann u.A. bei YouTube eingesehen werden):

Die Animationen passen stilistisch hervorragend zur Erzählung, statt wie bei vielen computeranimierten 3D-Filmen durch Wow-Effekte von der Geschichte (bzw. deren Nicht-Vorhandensein) abzulenken. Bemerkenswert ist nicht nur die Entstehungsgeschichte, die zeigt dass keine großen Filmstudios und Budgets für gute Filme notwendig sind, sondern auch die Art und Weise wie einfühlsam, unaufdringlich und unterhaltsam das Ideal der treuen und moralisch untadeligen Ehefrau kritisiert wird. Ich finde es toll, wie Nina Paley die bekannte Trennungserfahrung dazu nutzt, das im westlichen Kulturkreis wenig bekannte Ramayana-Epos und die nicht unbedingt bekanntere aber grandiose Sängerin Annette Hanshaw einem größeren Publikum nahe zu bringen.

Nina Paley zeigt mit Sita Sings the Blues, dass das kulturelle Erbe der Menschheit davon lebt, ständig weitererzählt und an die Gegenwart angepasst zu werden. Deshalb hat sie ihren Film auch unter der CC-BY-SA-Lizenz zur Verfügung gestellt. Davon ausgenommen sind leider die Aufnahmen von Annette Hanshaw aus den 1920ern, die im Film eine tragende Rolle spielen. Es ist unter anderem dem Filmkritiker Roger Ebert zu verdanken, dass überhaupt eine Einigung erzielt werden konnte. Paley musste extra einen Kredit von 50.000$ aufnehmen, um den eigenen Film freizubekommen. Damit ist die Welt nicht nur um einen wunderbaren Film, sondern auch um eine starke Copyright-Kritikerin reicher (P.S: siehe auch die viertelstündige Dokumentation The revolution will be animated).

Tags: Anime, copyright, Feminismus, Film, Kulturelles Erbe 1 Kommentar

Bibliothekskataloge für mobile Endgeräte

27. Januar 2010 um 18:40 27 Kommentare

Nach der Anfang November 2009 vorgestellten Delphistudie „Zukunft und Zukunftsfähigkeit der Informations- und Kommunikationstechnologien und Medien“ werden ab 2015 in Deutschland mehr Menschen das Internet regelmäßig über mobile Endgeräte als über stationäre Computer nutzen. Was das für Bibliotheken bedeutet, wird im englischsprachigen Ausland schon länger diskutiert, beispielsweise in Always on: Libraries in a world of permanent connectivity (Lorcan Dempsey, Januar 2009) und im mobile libraries blog. In Deutschland waren mobile Dienste unter Anderem auf dem BibCamp Thema und werden regelmäßig im Blog der Zukunftswerkstatt und in anderen Teilen der Biblioblogosphäre behandelt, z.B. bei Medinfo und in netbib.

Während der Bibliothekskongress 2010 schweigt, wurde auf dem ALA Midwinter Meeting von LibraryThing ein Angebot vorgestellt, dessen Preisliste nun vorliegt: für einige Hundert bis Tausend Dollar im Jahr stellt LibraryThing jeder beliebigen Bibliothek eine mobile Version ihres OPACs zur Verfügung. Wie das ganze technisch funktionieren soll, wird nicht erklärt, es ist nur von „90% aller OPACs“ die Rede und es werden Bibliotheken als Erstanwender gesucht – interessierte deutschsprachige Bibliotheken bitte vor!

Während einige Bibliotheken ihr gesamtes Angebot in Form einer iPhone-App zur Verfügung stellen (die ZB Med Köln angeblich auch – weiß jemand mehr?), geht der Trend insgesamt eher dahin, die Webseiten der Bibliothek so zu gestalten, dass sie auch (oder speziell) für mobile Endgeräte einfach zu verwenden sind. Dazu muss eine auf mobile Endgeräte angepasste Version des Katalogs erstellt werden, die automatisch durch Erkennung des User-Agent oder unter einer eigenen, URL (meist m.domain statt www.domain) erreichbar ist. Während die mobilen Katalogseiten 2008 noch eher spartanisch aussahen, ist inzwischen – zumindest bei anderen Unternehmen – eine Optik im iPhone-Stil Standard. Die im Library Success Wiki aufgeführten mobilen Katalogoberflächen sehen zwar weniger schick aus, sind aber dafür auch für Menschen mit älteren Handys nutzbar, die sich noch kein iPhone oder vergleichbares Handy für den mobilen Internetzugang leisten können.

Auffällig ist in jedem Fall, dass deutsche Bibliotheken nicht gerade Vorreiter dabei sind, ihre Kataloge auch für mobile Endgeräte anzupassen – eine diesbezügliche Anfrage von Christan Hauschke blieb weitgehend unbeantwortet. Das liegt unter Anderem daran, dass der Katalog zu oft noch als ein monolithisches System verstanden wird – die Idee der Serviceorientierten Architektur ist nicht angekommen. Anstatt auf offene Schnittstellen und Standards zu setzen, werden mit Primo, Touchpoint und diversen andere kommerziellen „Discovery-interfaces“ neue Einbahnstraßen zu IT-Systemen eingeschlagen, die am Ende niemand anpassen und warten kann und/oder will (während ich bei Primo nichts dergleichen gefunden habe, enthält die aktuelle Entwicklungsversion von VuFind dagegen übrigens eine Mobil-Oberfläche).

Ich vermute, dass LibraryThing mit ihrem Angebot auf Schnittstellen wie SRU und Z39.50 zurückgreift und so auf ein bestehendes lokales Bibliothekssystem aufbauen kann anstatt dieses zu ersetzen. Das hieße jedoch, dass aktuelle Ausleihinformationen außen vor bleiben, solange keine Schnittstelle für Verfügbarkeitsdaten etabliert ist. Falls eine Bibliothek auf die gleiche Weise selber einen mobilen Bibliothekskatalog entwickeln möchte, habe ich als Vorlage für die weitere Progammierung eine Mobilversion für PICA-Systeme erstellt. Die Suche läuft standardmäßig über die SRU-Schnittstelle des GVK und kann bei Bedarf auf einzelne Bibliotheken eingeschränkt werden. Der Quellcode (PHP, HTML, CSS) steht unter der AGPL frei, so dass Verbesserungen auch Anderen zugute kommen.

Tags: Katalog, mobile web, SRU 27 Kommentare

First complete draft of DAIA Ontology

7. Januar 2010 um 19:06 6 Kommentare

I just finished the first complete draft of an OWL ontology of the DAIA data model. Unless the final URI prefix is sure, the ontology is available in GBV Wiki in Notation3 syntax, but you can also get RDF/XML. There is also a browsable HTML view created with OWLDoc (I only wonder why it does not include URI prefixes like in the same view of the Bibliographic Ontology).

It turned out that mapping the XML format DAIA/XML to RDF is not trivial – although I kept in mind doing so when I designed DAIA. XML is mostly based on a closed world tree data model but RDF is based on an open world graph model. Last month Mike Bergman wrote a good article about the clash of Open World Assumption and Closed World Assumption. I think as long as you only view data in form of tables, lists, and trees, you will not grasp the concept of the Semantic Web. I don’t know whether I have fully grasped the concept of document availability with DAIA and the ontology surely needs some further review, but it’s something to start with – just have a look!

Tags: DAIA, Data Modeling 6 Kommentare

« Vorige Seite — Nächste Seite »

Jakoblog — Das Weblog von Jakob Voß