Why do Wikimedia projects fail to deliver open content?

10. Juni 2012 um 01:02 3 Kommentare

From time to time I’d like to link to a famous quotation. I then remember Wikiquote, a wiki-based „quote compendium“ similar to Wikipedia, also run by the Wikimedia Foundation. Or I’d like to link to a famous text, and I visit Wikisource, an „online library of free content publications“, also Wikimedia project since years. But even when the quotation or text is included in Wikiquote/Wikisource, I most times leave depressed. This also applies to other Wikimedia projects, such as Wiktionary, Wikibooks, Wikimedia Commons, and even Wikipedia to some degree.



failed open content or just perpetual beta?

The reason has been mentioned by Gerard Meijssen at the Wikimedia Berlin Hackathon (#wmdevdays) a few days ago. He wrote that „Both #Wikibooks and #Wikisource do a terrible job promoting their finished product.“ I’d like to stress that Wikimedia projects do not (only) fail promoting, but they fail delivering their products. That’s sad, because Wikimedia projects are about collecting and creating open content, which anyone should be able to reuse. But conrtent is not truly open when it is only available for reuse by experts. For instance, why can’t one just…

  • …link to a single quotation in Wikiquote? (WTF?!)
  • …highlight a section in Wikipedia and get a stable link to this selection?
  • …download content from Wikibooks, Wikisource, or Wikipedia in different formats such as EPUB, LaTeX, MarkDown, OpenDocument etc.?
  • …find out the precise license of a media file from Commons?

Most of these tasks are possible if you are an expert in Wikimedia projects. You have to learn a crude WikiSyntax, know about MediaWiki API and dozens of license tags, know about extensions, do error-prone conversion on your own, deal with full dumps etc. Maybe I am too harsh because I love Wikimedia. But if you are honest about its projects, you should know: they are not designed for easy reuse of content, but more about work-in-progress collaborative editing (and even editing capability is poor compared with Google Docs and Etherpad).

Gerard suggested to create another Wikimedia project for publishing but I doubt this is the right direction. There is already a feature called Quality Revisions for marking a „final“ state of a page in MediaWiki. The core problem of reusing content from Wikimedia projects is more how to actually get content in a usable form (deep link, eBook formats, LaTeX… etc.).

Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 5 Kommentare

Wie am Freitag bekanntgegeben wurde hat die Universitäts- und Stadtbibliothek Köln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa 1,3 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits länger von verschiedener Seite gefordert worden – zuletzt in einem guten Einführungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die Gründung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und über die Einrichtung einer eigenen Wiki-basierten Bibliografie ähnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekündigt, ein „Lizenzmodell, das die freie Verwendung der Metadaten garantiert“ zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im großen Maßstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne Einschränkung weitergenutzt werden können.

Wie geht es nun weiter? Zunächst hoffe ich, dass bald weitere Bibliotheken und Bibliotheksverbünde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nächste Schritt besteht darin, die Daten so umzuformen, dass tatsächlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk „Semantic Web“ in die Kataloge bringt. Darüber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschlußreichen Artikel geschrieben: Open Data bringt ähnlich wie Open Source Vorteile, da Fehler und Lücken besser gefunden und ausgebessert werden können. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung für die Daten übernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Änderungen angebracht werden können, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch für Beiträge von Dritten offen ist; für weitere bibliografische Datenbestände ist aber eine kollaborative Infrastruktur notwendig, über die Außenstehende leicht Verbesserungen vornehmen können, ohne ein vollständiges Bibliothekssystem installieren zu müssen.

In jedem Fall freue ich mich über den ersten großen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, möchte ich nur kurz hinweisen: Für Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt übermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen möchte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.

Aktuelle Entwicklungen zu Freien Daten

18. März 2009 um 21:39 Keine Kommentare

Freie Software existiert als solche seit den 1980er Jahren (vorher war Software bis in die 1960er frei) und setzt sich im (Wind-)Schatten von Open Source Software immer mehr durch. Freie Inhalte gewinnen dank Creative Commons und Wikipedia ebenfalls seit Anfang des Jahrtausend an Bedeutung. Seit etwa zwei Jahren kommen nun auch vermehrt Freie Daten. Erst im Februar hat beispielsweise Web-Begründer Tim Berners Lee auf der TED-Konferenz mit der Forderung Raw Data Now! der Notwendigkeit von Freien Daten Nachdruck verliehen. Aus verschiedenen Gründen (andere Rechtsgrundlagen, Praktikabilität …) können Lizenzen für Freie Software und Freie Inhalte bei reinen Datensammlungen nicht so einfach angewandt werden. Deshalb wird zur Zeit im Projekt OpenDataCommons (ODC) von der Open Knowledge Foundation (OKF) an einer passenden Lizenz für Freie Daten gearbeitet. Weitere Informationen zu diesem Prozess gibt es bei OpenStretmap.

Für das freie Kartenprojekt und die OpenStreetMap Foundation besteht der größte Bedarf nach einer Lizenz, weshalb sie dankenswerterweise die Sache in die Hand genommen haben. Weitere Beteiligte sind unter Anderem die Autoren Jordan Hatcher und Charlotte Waelde, Creative Commons sowie Talis. Zur Diskussion steht momentan die “Open Database License“ (ODbL) zusammen mit der „Factual Information Licence“ (ODC-Factual). Zur Freigabe als Public Domain gibt es bislang schon die ODC Public Domain Dedication and Licence (PDDL) und seit kurzem von Creative Commons die CC Zero [via Netzpolitik].

Kommentare zur ODbL werden möglichst bis zum 20. März erbeten. Weitere Grundlagen und Vorarbeiten zu Lizenzen für Freie Daten gibt es von der OKF mit dem Guide to Open Data Licensing und bei Creative Commons bzw. Science Commons mit dem Protocol for Implementing Open Access Data. Die Privatisierungs-Mafia versucht übrigens derweil am demokratischen Prozess vorbei mit Geheimabsprachen an immateriellen Monopolrechten festzuhalten.

Wikimania 2009: Call for Participation

2. März 2009 um 22:36 Keine Kommentare

Last week the Wikimania 2009 team announced its Call for Participation for the annual, international conference of the Wikimedia Foundation. Wikimania 2009 will take place August 25-28, 2009 in Buenos Aires, Argentina at the Centro Cultural General San Martín.

Deadline for submitting workshop, panel, and presentation submissions is April 15th, posters, open space discussions, and artistic works have time until April 30th. There is a Casual Track, for members of wiki communities and interested observers to share their own experiences and thoughts and to present new ideas; and the Academic Track, for research based on the methods of scientific studies exploring the social, content or technical aspects of Wikipedia, the other Wikimedia projects, or other massively collaborative works, as well as open and free content creation and community dynamics more generally.

Wikimania 2010 will take place in Europa again in one of Amsterdam, Gdańsk, and Oxford (unless another city pops up until the end of this week).

Date of Wikimania 2009

21. Oktober 2008 um 00:18 3 Kommentare

As already announced two weeks ago (but not blogged before, only on identi.ca) Wikimania 2009 will take place August 25-28, 2009 in Buenos Aires, Argentina at the Centro Cultural General San Martín.

Zusammenarbeit zwischen Wikimedia-Projekten und Wissenschaften

20. Oktober 2008 um 20:08 Keine Kommentare

Über Möglichkeiten der Kooperation zwischen den Wissenschaften und Wiki(media)projekten haben auf der Tagung „Neue Formen wissenschaftlicher Zusammenarbeit durch kollaborative Medien” vom 9. bis 12. Oktober Teilnehmer aus dem akademischen Bereich und aus verschiedenen Wikimedia-Projekten diskutiert. Die Ergebnisse liegen nun in Form von sechs Empfehlungen vor:

Wikipedia-Sprachversionen für Nicht-Standard-Sprachen oder Dialektbündel sowie für bedrohte oder ausgestorbene Sprachen sollten kritisch hinterfragt werden. Stattdessen sollen Textkorpora mit Hilfe von WikiSource geschaffen werden, die diese Sprachen dokumentieren können.

• Es sollen Möglichkeiten geschaffen werden, in einzelnen Wikimedia-Projekten die Autorenschaft deutlicher kenntlich zu machen.

• Die meisten Wikimedia-Projekte verfügen bereits über Prozesse zur Qualitätssicherung. Diese sollen stärker transparent gemacht und benutzerfreundlich dargestellt werden.

• Es wird empfohlen, über ein neues Konzept für die Strukturierung des Bereichs wissenschaftlichen Lehrmaterials und Publikationen nachzudenken. Es gibt sowohl Überschneidungen im Bereich Wikiversity und Wikibooks als auch eine Lücke im Bereich wissenschaftlicher Fachaufsätze.

• Die Zusammenarbeit zwischen Wikipedia-Projekten und Expertenwikis bzw. Spezialprojekten soll koordiniert und gefördert werden.

• Für Wikisource soll die qualitätsorientierte, wissenschaftliche Transkription und Edition auf der Grundlage von bereitgestellten Digitalisaten Fokus sein. Wir regen ein internationales Treffen zum Erfahrungsaustausch zu Wikisource an.

Aufgrund der vielfältigen Möglichkeiten (aber auch Hindernisse) der Zusammenarbeit zwischen Wikimedia-Projekten und den Wissenschaften konnten nur einige Bereiche angeschnitten werden. Beim nächsten Mal könnte beispielsweise sollte das Thema „Wikimedia-Projekte in der Lehre“ ausgiebiger behandelt werden. Zunächst einmal ist es wichtig, sich gegenseitig kennenzulernen und Missverständnisse auf beiden Seiten auszuräumen. Dabei können weitere Treffen zu speziellen Themen helfen. Zum Beispiel könnte zu Wikisource eine Veranstaltung organisiert werden, die vergleichbar mit dem Berliner Workshop zu „digitalen Editionen“ verschiedene Projekte zusammenbringt. Die Empfehlungen zu sechs verschiedenen Aspekten der Zusammenarbeit zwischen Wissenschaften und Wikiprojekten stehen samt Erläuterungen erstmal offen zur Diskussion.

Wikipedia in den Geisteswissenschaften: Wikisource

10. Oktober 2008 um 16:04 4 Kommentare

Vom 9. bis 12. Oktober nehme ich an der Tagung „Neue Formen wissenschaftlicher Zusammenarbeit durch kollaborative Medien – Wie Wikipedia und andere Wikiprojekte die (Geistes-) Wissenschaften verändern (können)“ teil. Die Wikimedia-Veranstaltung wird von der Alfred Toepfer Stiftung F.V.S. gefördert und findet auf dem Gut Siggen in Ostholstein statt. In der ersten Diskussionsrunde ging es es um Wikipedia-Schwesterprojekte, vor allem um Wikisource.

Wikisource ist ein editionsphilologisches Projekt freier Quellen und unterscheidet sich damit in einigen Punkten grundsätzlich von Wikipedia. Das Wiki dient als Werkzeug zur kollaborativen Textedition, indem Digitalisate gesammelt, transkribiert und zweifach korrekturgelesen werden. Die Wiki-Seiten werden anschließend für weitere Bearbeitungen gesperrt. Die deutschsprachige Ausgabe von Wikisource unterscheidet sich darin auch von anderen Sprachversionen: ab 2006 wurden gnadenlos alle Texte ohne zugehörige Scans gelöscht und genaue Editionsrichtlinien für Transkriptionen durchgesetzt.

In der Diskussion zu Wikisource kam unter Anderem der Wunsch auf, aus Transkriptionen bei Wikisource wiederum Editionen in Buchform zu erstellen. Leider ist die Erstellung von Druckformaten wie PDF aus MediaWiki grundsätzlich mangelhaft. Bei bisherigen Projekten wie WikiReader und WikiPress war immer viel Handarbeit notwendig. Problematisch ist auch die Trennung der verschiedenen Wikisource-Projekte nach Sprachen. Gerade bei älteren Sprachen ist die Abgrenzung schwierig und zur Edition von Keilschriften müsste theoretisch erst ein Wikisource-Ableger in Babylonisch erstellt werden. Schwierig ist die Trennung nicht nur für Mitarbeiter und Autoren sondern auch für Leser. Ein Punkt dabei ist, dass WikiSource nicht der eine Zugang zu Digitalisate und Editionen ist und sein wird. Im Englischsprachigen Bereich gibt es zumindest umfassende kommerzielle Datenbanken wie Eighteenth Century Collections Online (ECCO) und Early English Books Online (EBBO) während sich in Deutschland Projekte wie das Zentrale Verzeichnis Digitalisierter Drucke (ZVDD) aufgrund von Kompetenzstreitigkeiten und mangelnder Koordination schwer tun. Vor allem werden dort keine freien Digitalisate und Volltexte geboten. Abhilfe schaffen kann die Einhaltung der Wikimedia-Empfehlungen für Rechte bei Digitalisierungsprojekten und der technischen Vorgaben des DFG-Viewers.

Eine weitere Empfehlung an Wikisource war, dass die maßgeblichen verantwortlichen Bearbeiter der Textedition stärker als Autoren oder als Herausgeber herausgestellt werden sollten. Dies ist sowohl für die Zitierung von Wikisource als Quelle als auch für wissenschaftliche Mitarbeiter von Bedeutung, die ihre Editionsarbeit in Wikisource bislang nicht in ihren Publikationslisten aufführen können. Vielleicht lässt sich sowas ja mit Hilfe der Funktion der geprüften Versionen realisieren. Neben der Autorennennung fehlt oft auch eine Erläuterung der Editionsarbeit (wie und wann ist man zum Digitalisat gekommen, wer hat mitgearbeitet, welche Schwierigkeiten traten auf etc.). Eine Funktion zur einfachen Ermittlung der Autorenschaft an einzelnen Artikeln wäre übrigens auch für Wikipedia von Interesse, denn die Versionsgeschichte ist nicht nur unbekannt sondern auch unübersichtlich.

Zusammengefasst ist Wikisource zur Zeit zwar noch etwas unübersichtlich und weist an verschiedenen Stellen Schwierigkeiten auf, aber es hat den ungeheuren Vorteil, direkt und tatsächlich frei verfügbar zu sein, während man bei vergleichbaren Projekten wie TextGrid vor lauter Arbeitspaketen, Politanwendungen und Fachbeiträten die eigentlichen Inhalte und Arbeiten nicht findet.

Nach der ersten Pause ging es weiter mit einer Fortsetzung der Diskussion um Formen der Autorenschaft in Wikis sowie um Wikibooks, Wikiversity, Wiktionary, Omegawiki etc.

Der Text dieses Beitrags kann als Public Domain frei verwendet werden.

User generated Metadata: Connecting the Communities

15. Juli 2008 um 10:00 Keine Kommentare

At the eighth International Conference on Dublin Core and Metadata Applications (DC-2008) Wikimedia Germany organizes a workshop on user generated metadata. The seminar will take place at Friday, the 26th of September 2008 afternoon.

During the recent years several projects like Wikipedia, LibraryThing, and OpenStreetmap have emerged on the Web. This projects enable volunteers to collect and create structured data such as bibliographies, encyclopaedic factsheets, geodata etc. However connections and exchange between different projects is still limited to seperated initiatives. Therefore Wikimedia Germany wants to bring together projects and communities on a workshop on user generated metadata. To enhance collaboration, we want to share experiences in the creation and management of communities and metadata. Standards and tools to simplify the exchange and connection with other institutions will be discussed as well as aspects of quality, rights, and privacy.

The workshop consists of one session where several projects (Wikipedia, OpenStreetMap, BibSonomy, The Open Library…) are shortly presented in 10-15 minutes each, and another session in form of a moderated podium of all projects to deeper discuss common general issues: How can we best connect and reuse user generated metadata among communities? Which data silos must be opened? What are the limits of cooperation? How can sustainability be established in dynamic communites? etc.

We invite you to visit the Dublin Core conference in general and the seminar on user generated metadata in particular. Registration fee will be reduced until end of July, so better hurry up!

related events include the Wikimedia and libraries panel at Wikimania 2008 and the Linked data initiative

Wikimania 2008 schedule published

6. Juli 2008 um 19:27 1 Kommentar

Last week the schedule of Wikimania 2008 finally was published online (Brianna already blogged). The annual conference devoted to Wikipedia, all other Wikimedia projects and free knowledge in general will take place at the Library of Alexandria in Egypt at July 17–19, 2008. There are more interesting talks then I will be able to participate – for instance about OpenStreetMap which is like Wikipedia for maps in my opinion. By the way the free OSM map of Alexandria is pretty poor – you can join in improving it!.

Die Open Knowledge Foundation und Freie Informationen

13. Februar 2008 um 00:20 Keine Kommentare

Die Liste der Organisationen im Bereich Freies Wissen ist fast ein Jahr alt; statt einer aktualisierten Version (zuletzt ist das niederländische Free Knowledge Institute Mitte Januar hinzugekommen) möchte ich nochmal gesondert auf die Open Knowledge Foundation (OKF) hinweisen. Die in Großbritannien beheimatete Organisation setzt sich wie die Wikimedia Foundation und ihre Chapter für Freies Wissen ein. Während bei Wikimedia allerdings der Schwerpunkt auf enzyklopädischem Wissen und damit in Zusammenhang stehenden Bildern, Tondokumenten, Sachbüchern, Nachrichten, Zitaten, Quellen etc. steht und vor allem Wikis zu Einsatz kommen, legt die Open Knowledge Foundation den Schwerpunkt auf Daten und Informationen. Darunter fallen wie in der Open Knowledge Definition der OKF genannt wird „jegliche Art von Daten, ob naturwissenschaftlich, historisch, geographisch [oder auch] Administrative und Regierungsinformationen“.

Es gibt also große Gemeinsamkeiten zwischen OKF und Wikimedia, wie auch zwischen Wikimedia und Creative Commons (CC). Noch stärker ist vom Thema her allerdings die Gemeinsamkeit der OKF mit dem CC-Projekt Science Commons: Forscher sollen mit dieser Initiative dazu ermutigt werden, ihre Forschungsdaten zur weiteren Verwendung freizugeben – eine überaus sinnvolles Anliegen!

Weitere Informationen, deren Befreiung ansteht sind unter Anderem Geoinformationen, Katalogdaten von Bibliotheken (sic!) und Informationen des öffentlichen Nahverkehrs. Um mehr Daten zu sammeln, betreibt die OKF das Comprehensive Knowledge Archive Network (CKAN) und die Datenbank KnowledgeForge. In die gleiche Richtung zielt die von Creative Commons und Electronic Frontier Foundation (EFF) initiierte Befereiung von fast 2 Millione US-Rechtsdokumenten, die es anscheinend noch in keinen deutschsprachigen Blog geschafft hat (Erster! :-))

Am 15. März 2008 veranstaltet die OKF in London die zweite Open Knowledge Conference statt. Ich hoffe mal, das da etwas mehr engagierte Streiter für freies Wissen und freie Informationen zusammenkommen – auf der Britischen Insel scheinen die Wikipedianer und Wikimedianer im Gegensatz zu den Deutschen leider etwas verschnarcht zu sein, was Aktionen außerhalb der begrenzten Welt ihres Wikis betrifft 😉

P.S: Auf eine genauere Analyse der Unterschiede zwischen Wissen und Information und ihrer Zusammenhänge verzichte ich an dieser Stelle mal, obgleich das Thema immer wichtiger wird. Dass sich hinter vielem was „Knowledge“ heisst, eher Informationen oder Daten verbergen und dass auch Wissen keine alleinige Entscheidungsgrundlage sein kann, dürfte hoffentlich klar sein!