Wikipedia « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Das Wissen der Welt

24. August 2014 um 22:32 4 Kommentare

Denny VrandeÄiÄ‡, einer der KÃ¶pfe hinter Semantic MediaWiki und Wikidata, hat eine clevere Metrik vorgeschlagen um den Erfolg der Wikimedia-Projekte zu messen. Die TÃ¤tigkeit und damit das Ziel der Wikimedia-Foundation wurde 2004 von Jimbo Wales so ausgedrÃ¼ckt:

Imagine a world in which every single person on the planet is given free access to the sum of all human knowledge. That’s what we’re doing.

In Wikiquote wird dieser bekannte Ausspruch momentan folgendermaÃŸen Ã¼bersetzt: „Stell dir eine Welt vor, in der jeder Mensch auf der Erde freien Zugang zum gesamten menschlichem Wissen hat. Das ist, was wir machen.“ Wie lÃ¤sst sich nun aber quantifizieren, zu welchem Grad das Ziel erreicht ist? So wie ich es verstanden (und in meine Worte Ã¼bersetzt) habe, schlÃ¤gt Denny Folgendes vor:

FÃ¼r jedem Menschen auf der Welt gibt es theoretisch eine Zahl zwischen Null und Eins, die angibt wieviel vom gesamten Wissens der Welt („the sum of all human knowledge“) diesem Menschen durch Wikimedia-Inhalte zugÃ¤nglich ist. Der Wert lÃ¤sst sich als Prozentzahl des zugÃ¤nglichen Weltwissens interpretieren – da sich Wissen aber kaum so einfach messen und vergleichen lÃ¤sst, ist diese Interpretation problematisch.

Der Wert von Eins ist utopisch, da Wikipedia & Co nicht alles Wissen der Welt enthÃ¤lt. FÃ¼r Menschen ohne Internet-Zugang kann der Wert aber bei Null liegen. Selbst mit Zugang zu Wikipedia ist die Zahl bei jedem Menschen eine andere, da nicht alle Inhalte in allen Sprachen vorhanden sind und weil viele Inhalte ohne Vorwissen unverstÃ¤ndlich und somit praktisch nicht zugÃ¤nglich sind.

Die Zahlen der individuellen ZugÃ¤nglichkeit des Weltwissens lassen sich nun geordnet in ein Diagram eintragen, das von links (maximales Wissen) nach rechts (kein Wissen durch zugÃ¤nglich) alle Menschen auffÃ¼hrt. Wie Denny an folgendem Bild ausfÃ¼hrt, kann die Wikimedia-Community ihrem Weg auf verschiedenen Wegen nÃ¤her kommen:

(1) Der Ausbau von vielen Artikeln in einem komplexen Spezialgebiet oder einer kleinen Sprache kommt nur wenigen Menschen zu gute.

(2) Stattdessen kÃ¶nnten auch die wichtigsten Artikel bzw. Themen in Sprachen verbessert und ergÃ¤nzt werden, welche von vielen Menschen verstanden werden.

(3) SchlieÃŸlich kann Wikimedia auch dafÃ¼r sorgen, dass mehr Menschen einen Zugang zu den Wikimedia-Ihren Inhalten bekommen – zum Beispiel durch Initiativen wie Wikipedia Zero

Ich halte die von Denny vorgeschlagene Darstellung fÃ¼r hilfreich um Ã¼ber das einfache ZÃ¤hlen von Wikipedia-Artikeln hinauszukommen. Wie er allerdings selber zugibt, gibt es zahlreiche offene Fragen da sich die tatsÃ¤chlichen Zahlen der VerfÃ¼gbarkeit von Wissen nicht einfach ermitteln lassen. Meiner Meinung nach liegt ein Grundproblem darin, dass sich Wissen – und vor allem das gesamte Wissen der Menschheit – nicht quantifizieren lÃ¤sst. Es ist auch irrefÃ¼hrend davon auszugehen, dass die Wikimedia-Produkte Wissen sammeln oder enthalten. MÃ¶glicherweise ist dieser Irrtum fÃ¼r die Metrik egal, nicht aber fÃ¼r das was eigentlich gemessen werden soll (ZugÃ¤nglichkeit des Wissens der Welt).

Falls Wikimedia an einem unverstelltem Blick auf die Frage interessiert ist, wieviel des Wissens der Menschheit durch ihre Angebote den Menschen zugÃ¤nglich gemacht wird, kÃ¶nnte es helfen mal einige Philosophen und Philosophinnen zu fragen. Ganz im Ernst. Mag sein (und so vermute ich mit meinem abgebrochenen Philosophie-Studium), dass am Ende lediglich deutlich wird, warum dass ganze Wikimedia-Projekt nicht zu realisieren ist; selbst Erkenntnisse Ã¼ber mÃ¶gliche GrÃ¼nde dieses Scheitern wÃ¤ren aber hilfreich. Vermutlich ist es aber zu verpÃ¶nt, Philosophen ernsthaft um Rat zu fragen oder die verbliebenen Philosophen beschÃ¤ftigen sich lieber mit anderen Fragen.

P.S: Eine weitere relevante Disziplin zur Beantwortung der Frage wieviel Wissen der Welt durch Wikipedia & Co der Menschheit zugÃ¤nglich gemacht wird, ist die PÃ¤dagogik, aber da kenne ich mich noch weniger aus als mit der Philosophie.

Tags: Freie Inhalte, Wikipedia, Wissensordnung 4 Kommentare

Wikipedia ist keine Loseblattsammlung

12. Dezember 2011 um 23:34 1 Kommentar

Seit mittlerweile sieben Jahren gibt es mit dem Wikipedia-Portal Bibliothek, Information, Dokumentation eine Ãœbersicht der Wikipedia-Artikel aus dem BID-Bereich. Ich gehe davon aus, dass alle Studieren der Bibliotheks- und Informationswissenschaft die dort aufgefÃ¼hrten Wikipedia-Inhalte auch fÃ¼r ihr Studium nutzen.

Wenn ich mir die Artikel anschaue, die Christoph Demmer unermÃ¼dlich als neu angelegt im BID-Portal eintrÃ¤gt (vielen Dank!), frage ich mich allerdings manchmal, ob das Projekt nicht gescheitert ist (wieder so eine Idee fÃ¼r einen LIBREAS-Artikel zum Thema Scheitern). Es ist zwar nicht so, dass Wikipedia nicht oder nur passiv verwendet wÃ¼rde. Der Anteil derer, die sich trauen, einen Fehler zu korrigieren oder fehlende Informationen und ZusammenhÃ¤nge einzutragen, liegt eben nur im einstelligen Prozentbereich. Vereinzelt finden sich sich aber sowohl Studierende als auch Institutionen und ihre Mitarbeiter, die etwas zu Wikipedia beisteuern. Die neuen Artikel sind auch nicht unbedingt schlecht, sie mÃ¼ssen in der Regel nur etwas angepasst werden. Trotzdem bleibt ein wenig EnttÃ¤uschung, wenn ich mir Artikel zu Bibliotheken, Bibliothekaren und den PhÃ¤nomenen mit denen sie sich beschÃ¤ftigen, in Wikipedia anschauen. Was ist das Problem?

Ich glaube, dass viele Menschen Wikipedia als Loseblattsammlung missverstehen: ab und zu kommen Ã„nderungen und neue Artikel, die Artikel haben einige Links, aber das war es auch schon. Weder dem Austausch zwischen den Wikipedia-Autoren noch dem Hypertext-Charakter der Online-EnzykopÃ¤die als Gesamtsystem wird diese Vorstellung gerecht. Dabei finde ich viel wichtiger dass Wikipedia DenkanstÃ¶ÃŸe schafft, ZusammenhÃ¤nge aufzeigt und einen Ãœberblick bieten kann. Neue Artikel, wie zum Beispiel Elektronische Bibliothek Schweiz oder Primo Central, stehen jedoch eher da wie Inseln im Informationsdschungel, um eine miÃŸglÃ¼ckte Metapher zu bemÃ¼hen (@LIBREAS habt ihr was zu gescheiterten Metaphern?). Auf den Inseln lÃ¤sst sich es sich zwar leben, geographische Grundkenntnisse bleiben aber begrenzt.

In einer Studie zum Lernverhalten im Internetzeitalter fasste kÃ¼rzlich ein Tutor das Problem fÃ¼r die passive Wikipedia-Nutzung zusammen:

The problem with Wikipedia is itâ€™s too easy. You can go to Wikipedia, you can get an answer, you donâ€™t actually learn anything, you just get an answer.

Dies gilt Ã¤hnlicher Weise auch fÃ¼r die aktive Wikipedia-Nutzung durch das Anlegen von Artikeln. Man lernt zwar etwas Ã¼ber den Gegenstand des Artikels und wie man einen Artikel schreibt. Das VerstÃ¤ndnis der ZusammenhÃ¤nge bleibt jedoch eher gering, solange nicht ein ganzes Teilnetz von thematisch verwandten Artikeln Ã¼berarbeitet wird.

Tags: Bibliothek, Wikipedia 1 Kommentar

Darum mag ich Wikimedia: Closed Access

26. Juli 2011 um 21:37 7 Kommentare

Vor knapp zwei Wochen war ich auf der Suche nach einer einfachen, ansprechenden und deutlichen Methode, um GBV-Datenbanken als frei zugÃ¤nglich oder als zugangsbeschrÃ¤nkt zu kennzeichnen. So sind beispielsweise die Bibliothekskataloge und der Verbundkatalog frei zugÃ¤nglich (also Open Access), wÃ¤hrend einige Fachdatenbanken wie zum Beispiel Online-Contents nur innerhalb der Hochschulnetze aufrufbar sind (also Closed Access). Die Public Library of Science (PLoS) hatte mal ein Logo entworfen, um auf Open-Access-Publikationen hinzuweisen:

Ich habe noch einen Button hinzugefÃ¼gt: Open Access

FÃ¼r Closed Access gab es bislang kein Logo. Solange Closed Access die Regel und Open Access die Ausnahme ist, mag das verstÃ¤ndlich sein. Inzwischen ist es aber an der Zeit, nicht frei zugÃ¤ngliche Publikationen gezielt zu kennzeichnen und so an den Pranger zu stellen. Ich habe deshalb zwei Varianten fÃ¼r ein Closed-Access-Logo entworfen, in Wikimedia Commons hochgeladen und auf einer eigenen Seite verschiedene Logos und Buttons gesammelt:

Und heute habe ich dann die Icons plÃ¶tzlich in einem Artikel Ã¼ber aktuelle Wikipedia-Forschung zufÃ¤llig entdeckt. Ein anderer Wikipedia-Autor hatte die Icons gefunden, fÃ¼r praktisch befunden, und in seine Arbeit eingebaut. Das ist mÃ¶glich dank Freier Inhalte, die Ã¼ber Open Access hinausgehen.

Freie Inhalte sind nÃ¤mlich nicht nur frei zugÃ¤nglich, sondern bleiben auch frei, da sie weiterverbreitet und sogar verÃ¤ndert werden dÃ¼rfen. Dabei mÃ¼ssen je nach Lizenz nur die Urheber und die Lizenz genannt sowie abgeleitete Werke unter die selbe Lizenz gestellt werden (Prinzip „Share-Alike“). hier noch einige weitere Icons und Banner, die auch freie Lizenzen abdecken.

Tags: Lizenzen, Logos, Open Access, Wikipedia 7 Kommentare

People are Knowledge

24. Juli 2011 um 22:35 Keine Kommentare

Ich kÃ¶nnte mich Ã¼ber die LÃ¶schung eines vor 6 Jahren in Wikipedia eingestellten Artikels Ã¤rgern. Oder Ã¼ber die Querelen in Wikimedia-Deutschland e.V. Stattdessen freue ich mich darÃ¼ber, dass Wikipedia grundsÃ¤tzlich funktioniert: zahlreiche wissenshungrige Engagierte recherchieren, formulieren und korrigieren gegen die allgemeine Unwissenheit und Dummheit. Dabei stellen sie im Besten Fall sich und ihre Arbeit immer wieder selber in Frage, um ihrem Gegenstand „Wissen“ besser gerecht zu werden. Ein aktuelles Beispiel ist die Auseinandersetzung mit dem Prinzip der Quellenangaben und Belege. FÃ¼r viele Kulturkreise lÃ¤sst es sich nicht so einfach anwenden, da keine schriftlichen Quellen nach westlichem BewertungsmaÃŸstab existieren. Aber es gibt Ã¼berall Menschen, die ihr Wissen weitergeben. Wie lÃ¤sst sich dieses Wissen in Wikipedia erschlieÃŸen? Die Wikimedia Foundation hat dazu ein Forschungsprojekt zusammen mit dem indischen Centre for Internet and Society unterstÃ¼tzt, dessen Ergebnisse nun in Form eines 45-minÃ¼tigen Filmes vorliegen.

Ein Film fÃ¼r Wikipedianer, Bibliothekare, Kulturwissenschaftler und alle anderen, die sich fÃ¼r Wissen und Wissenssammlung interessieren.

Der Film steht unter CC-BY-SA zur VerfÃ¼gung, kann also weiterverbreitet und angepasst werden (z.B. durch Erstellen einer Synchronisation, die bei Interesse sicher von Wikimedia Deutschland finanziell unterstÃ¼tzt werden kÃ¶nnte). Im Wikimedia-Kurier gibt es eine kurze Zusammenfassung und auf der Wikimania 2011 in Haifa wird es zum Forschungsprojekt eine Session geben. Dass ich dieses Jahr in Haifa nicht dabei bin, Ã¤rgert mich dann allerdings schon etwas.

Tags: Kulturwissenschaft, Wikipedia Keine Kommentare

Affen haben keine Urheberrechte

17. Juli 2011 um 12:43 2 Kommentare

Urheberrecht und rechtskonforme Bildernutzung sind normalerweise trockene und komplizierte Themen. Selbst bei eigentlich freien Bilder, wie sie in Wikimedia Commons gesammelt werden, ist es trotz der hervorragenden Arbeit von Creative Commons manchmal nicht einfach herauszufinden, wie genau denn nun ein Bild genutzt werden darf. Zumindest gibt es zu meinem Erstaunen bislang keine Schnittstelle, Ã¼ber die sich die Nutzungsbedingungen eines Bildes automatisch ermitteln lieÃŸen. Bei freien Bilder gibt es folgende MÃ¶glichkeiten:

Entweder das Bild ist gemeinfrei, d.h. jeder kann damit (zumindest vom Standpunkt des Urheberrechts aus) machen was er mÃ¶chte. Oder der Urheber hat das Bild unter eine freie Lizenz gestellt, unter deren Bedingungen es verwendet werden kann. Je nach Art der freien Lizenz sind folgende Nutzungsbedingungen mÃ¶glich:

Der Urheber muss genannt werden
Die Lizenz muss angegeben werden
Es muss auf die Quelle verwiesen werden
Eigene Bearbeitungen des Bildes mÃ¼ssen unter die gleiche Lizenz gestellt werden (ShareAlike)

Wie allerdings im Detail auf Quellen, Urheber und Lizenzen verwiesen werden muss, lÃ¤sst sich schwer automatisch ermitteln. Seit September 2010 gibt es zumindest in Wikimedia Commons die Funktion „Use this file“, die das Herausfinden erleichtert. Ich habe mal angefangen den JavaScript-Code dieser Funktion nach PHP zu portieren, um die automatische Einbindung von Bildern aus Commons zu erleichtern.

Damit ein Bild lizensiert werden kann, muss es erst einmal rechtsgÃ¼ltiger Urheber existieren und das Bild muss eine rudimentÃ¤re SchÃ¶pfungshÃ¶he aufweisen. Einfache Digitalisate von bereits gemeinfreien Werken sind beispielsweise nicht urheberrechtlich geschÃ¼tzt. Dirk Franke hat nun in in seinem Blog auf einen anderen Fall hingewiesen, in die TÃ¼cken des Urheber- und Bilderrechts unterhaltsam werden:


AffengemÃ¤lde: Urheberrechtsfrei	Affenfoto: Urheberrechtsfrei

Vor drei Jahren hat ein Affe im indonesischen Tangkoko-Nationalpark eine Reihe von Fotos von sich selbst gemacht. Die Aufnahmen entstanden nach Aussagen des Fotografen David Slater, der die Kamera auf einem Stativ montiert hatte, nicht absichtlich. Damit gibt es weder Urheber noch SchÃ¶pfungshÃ¶he, d.h. die Bilder fallen nicht unter das Urheberrecht. Das ist fÃ¼r profesionelle Fotografen und Journalisten allerdings so undenkbar wie fÃ¼r einen Tea-Party-AnhÃ¤nger die Vorstellung von den menschlichen Ursachen der ErderwÃ¤rmung. Dabei ist das Urheberrecht kein Gottgegebenes Menschenrecht, sondern ein kÃ¼nstliches Monopolrecht, das Rechteinhabern unter bestimmten Bedingungen zugestanden wird. Ãœber die Bedingungen lÃ¤sst sich streiten, aber zumindest haben bislang Affen kein Urheberrecht. David Slater bekommt trotz der unabsichtlichen Fotos genÃ¼gend Publicity, Rechtsexperten haben etwas zum diskutieren und der Betrachter freut sich. Nur der Affen hat nichts von dem ganzen Theater – er braucht auch keine Urheberrechte sondern ungestÃ¶rten Lebensraum, sonst ist er bald ausgestorben.

P.S.: In Wikimedia Commons gibt es Ã¼brigens bereits nicht nur Bilder von Affen, sondern auch von einem Hund und von einem Puma. Die malenden Elefanten aus dem Elefanten-Camp bei Chiang Mai fehlen leider noch.

P.P.S: Schon gewusst, dass es im Unicode-Standard fÃ¼nf verschiedene Affen gibt?: ðŸ’ ðŸµ ðŸ™ˆ ðŸ™‰ ðŸ™Š

Tags: affen, Wikipedia 2 Kommentare

Professoren und Journalisten bei der Arbeit

4. Juli 2011 um 15:53 2 Kommentare

Eigentlich hat die Geschichte um Wikipedia und Wiki-Watch.de alles was zu einem schÃ¶nen Skandal dazugehÃ¶rt: ein universitÃ¤res Forschungsprojekt mit Verbindungen zu einer PR-Firma fÃ¼r Unternehmen, die sich „mit vollem Engagement fÃ¼r Ihre Ziele engagieren“ kann. Eine Pharmafirma mit einem Medikament, das aus gentechnisch verÃ¤nderten Proteinen hergestellt wird und mÃ¶glicherweise das Krebsrisiko erhÃ¶ht, Verbindungen zu religiÃ¶sen Extemisten, Burschenschaften und dem Videopodcast der Kanzlerin (das ich hier mal nicht verlinke), der Versuch die Aufdeckung von PlagiatsfÃ¤llen zu behindern und schlieÃŸlich Druck auf die Presse, falls diese wie die FAZ mal recherchiert, was die so genannten Professoren tatsÃ¤chlich treiben (Kopien des Artikels siehe hier). Die HintergrÃ¼nde sind mal wieder in Wikipedia nachzulesen, so dass andere Medien nicht mehr viel recherchieren mÃ¼ssten, um eine schÃ¶ne Story daraus zu machen. Wer mag, kann das ganze mit HintergrÃ¼nden zu den schÃ¤dlichen EinflÃ¼ssen von Drittmitteln an Hochschulen oder zur Funktion von Social Media anreichern.

Trotzdem tut sich bislang wenig in den Medien und auch die Hochschule schweigt sich lieber aus. Stattdessen mÃ¼ssen mal wieder Blog- und Twitter-Autoren die Aufgabe der Vierten Gewalt Ã¼bernehmen, z.B. hier und hier. Aber vielleicht kommt ja noch was.

P.S.: Ich betone hiermit, dass ich mir die Inhalte der verlinkten Seiten nicht zu Eigen mache. Was im Detail davon den Tatsachen entspricht sollte jeder selber nachrecherchieren.

P.P.S.: Inzwischen gibt es einen Artikel im Spiegel und Michael Schmalenstroer hat die weiteren Entwicklungen zusammengefasst. So hat u.A. Wolfgang Stock, der zusammen mit Johannes Weberling Wiki-Watch.de betreibt, laut Spiegel eine eidesstattliche ErklÃ¤rung abgegeben, die von @LobbyistenWatch widerlegt wurde. Mal sehen, ob die Lobbyisten damit durchkommen.

Tags: Medien, Wikipedia 2 Kommentare

Named Entity Recognition with DBPedia

15. Februar 2011 um 14:55 5 Kommentare

Yesterday the DBPedia team released DBPedia Spotlight, a named entity recognition service based on structured data extracted from Wikipedia. You can access the service via Web APIs or download the software as Open Source. I could not resist to feed Spotlight its own description:

DBpedia Spotlight is a tool for annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia. Text annotation has the potential of enhancing a wide range of applications including search, faceted browsing and navigation. By connecting text documents with DBpedia, our system enables a range of interesting use cases. For instance, the ontology can be used as background knowledge to display complementary information on web pages or to enhance information retrieval tasks. Moreover, faceted browsing over documents and customization of web feeds based on semantics become feasible. Finally, by following links from DBpedia into other data sources, the Linked Open Data cloud is pulled closer to the Web of Documents.

Pretty cool, isn’t it? Natural Language Processing (NLP) for information extraction seems to be the next hype after Web 2.0 and Semantic Web. I don’t neglect the innovative capabilities of DBPedia Spotlight and similar tools, but you should never forget that these are just tools, which won’t automatically solve information problems, or replace all other tools. Given the example above, there is little chance that an automatic system will extract you an exact topic of the text (for instance „named entity recognition based on data extracted from Wikipedia“) because this requires much background knowledge combining domain-specific expertise with common sense. By the way: as long as both Wikipedia and NLP-software is mainly written by white males, the result of will always mirror a limited world-view.

You can compare the results of Spotlight with similar open services:

I found little overlap between the different services. Spotlight seems to provide more results (depending on the Text) on an error rate between 10% and 30%. You could use such tools for automatic subject indexing based on abstracts and use the result at least for ranking. Unfortunately in library metadata we often have no full text or abstract to annotate. Furthermore many library entities have no DBPedia entry but catalogers create new authority records if needed. What do you think, named entity recognition and other NLP techniques can be used for in metadata land? Can we give up controlled subject indexing in libraries in favour of automatic NLP-based indexing on the one side and social tagging on the other? Or is room for all of these approaches, and how can you successfully combine them?

Tags: NLP, Semantic Web, Wikipedia 5 Kommentare

Wikipedia, wie sie vor 10 Jahren aussah

14. Januar 2011 um 10:33 4 Kommentare

Am 15. Januar 2001, also vor zehn Jahren, wurde die Wikipedia ins Leben gerufen. WikiPedia (so der ursprÃ¼ngliche Name in CamelCase) war damals eher eine NotlÃ¶sung oder ein Experiment, zu dem sich Larry Sanger und Jimbo Wales aufgrund des langsamen Fortschreitens der Nupedia entschlossen hatten. So wurde eines dieser neuartigen „Wikis“ aufgesetzt (UseModWiki), in dem jeder Internetsurfer Seiten direkt bearbeiten kann. Alle Ã„nderungen werden dabei protokolliert und kÃ¶nnen von jedem Ã¼berprÃ¼ft und verbessert werden – dank dieser Offenheit und Transparenz wuchs Wikipedia zu dem, was sie heute ist.

Leider wurden jedoch in der Anfangszeit Ã¤ltere Bearbeitungen nach einiger Zeit gelÃ¶scht – die allerersten Artikelversionen der Englischen Wikipedia waren deshalb fÃ¼r immer verloren geglaubt. Bis im Dezember Tim Starling ein altes Backup entdeckte. Mehr dazu im Wikipedia-Kurier, dem internen Mitteilungsblatt der deutschsprachigen Wikipedia.

Nun hat Kurt Jansson, Wikipedianer der ersten Stunde, ein Backup der deutschsprachigen Wikipedia vom August 2001 ausgegraben. Mit einer angepassten Version der ursprÃ¼nglichen Software konnten wir die Wikipedia so wieder online stellen, wie sie damals aussah – die Bearbeitungsfunktion ist allerdings abgeschaltet. In der Versionsgeschichte fehlen nur einige wenige Bearbeitungen, die aber – wie bei der englischsprachigen Wikipedia – in einer Logdatei (500kB) erhalten geblieben sind. Die Entwicklung der Wikipedia beschreibt Logograph schÃ¶n (bis auf das „Mann“) in einem Artikel der aktuellen ZEIT:

2001 ist die Wikipedia als Ruderboot mit drei Mann Besatzung und einer Flasche Limo in See gestochen, um dann in voller Fahrt zu einem riesigen Dampfer ausgebaut zu werden. Was immer gerade notwendig oder wÃ¼nschenswert erschien, wurde irgendwo angeschweiÃŸt.

Nachdem die „deutsche.wikipedia.com“ (spÃ¤ter de.wikipedia.com) am 16. MÃ¤rz 2001 ins Leben gerufen worden war, wurden zunÃ¤chst einige Artikel aus der Nupedia Ã¼bernommen und ins Deutsche Ã¼bersetzt. Die ersten dieser Artikel waren Vergil [W], Pylos [W], SNOBOL 4 [W], Der Plalast des Nestor in Pylos (kurz darauf gelÃ¶scht) und Polymerase-Kettenreaktion [W]. Die damals beteiligten Magnus Manske und Rainer Zenz sind noch immer in Wikipedia tÃ¤tig, wÃ¤hrend sich SoniC etwas rar gemacht hat.

Da sich die Versionsgeschichte des Artikels Polymerase-Kettenreaktion als bisher Ã¤lteste erhalten hat, gilt dieser Artikel oft als erster Artikel der deutschsprachigen Wikipedia. Die ersten, speziell fÃ¼r Wikipedia neu verfassten Artikel, wurden jedoch erst kurz danach, am 17. Mai angelegt. Lars Aronsson (ebenfalls noch immer aktiver Wikipedianer) legte drei ganz kurze Artikel zu DÃ¤nemark, Kattegatt und die Nordsee an. Heute wÃ¼rden solch kleinen ArtikelanfÃ¤nge sicher als zu wenig gelÃ¶scht. Die Versionsgeschichten sind vollstÃ¤ndig in der aktuellen Wikipedia erhalten: ausgehend ganz vom Anfang kann durch wiederholtes Klicken auf die „NÃ¤chstjÃ¼ngere Version“ nachverfolgen, wie sie innerhalb von zehn Jahren immer weiter ausgebaut und verbessert wurden.

Ich wÃ¼nsche allen Lesern und Autoren viel SpaÃŸ beim StÃ¶bern und Verbessern und freue mich schon darauf, am Samstag Abend das JubilÃ¤um zusammen mit anderen Wikipedianern gebÃ¼hrend zu feiern!

Tags: Wikipedia 4 Kommentare

Tagging von OpenAccess-Artikeln mit Wikipedia

5. August 2010 um 07:38 5 Kommentare

Zur Zeit bekomme ich nur am Rande die tollen BeitrÃ¤ge der BiblioblogosphÃ¤re wie Ethik von unten und die Ãœbersicht von Repository-Upload-Formularen mit, da ich intensiv an der Dissertation sitze (siehe meine Literatur). Lamberts Vorschlag Wikipedia zur SacherschlieÃŸung von Open Access zu nutzen, mÃ¶chte ich jedoch nicht unkommentiert lassen.

Die Grundidee ist folgende: Wissenschaftliche Literatur aus Open Access Repositorien lÃ¤sst sich 1.) direkt verlinken 2.) im Volltext analysieren und 3.) zur automatischen Erzeugung von Literaturangaben verwenden. Dagegen steht, dass die SacherschlieÃŸung dÃ¼rftig ist und Artikel oft sehr speziell sind. Wikipedia ist dagegen ebenso fÃ¼r 1-3 verfÃ¼gbar und bietet einen guten (manchmal sogar ausgewogenen) Einstiegspunkt in ein Thema – es fehlt jedoch oft an weiterfÃ¼hrenden Hinweisen auf aktuelle Literatur. Lambert schlÃ¤gt nun eine Webanwendung vor, in der Nutzer Wikipedia-Artikel und Open-Access Artikel einander zuordnen kÃ¶nnen. LibraryThing hat vorgemacht, dass SacherschlieÃŸung nicht drÃ¶ge sein muss, sondern durch spielerische Anreize gute Ergebnisse liefert. Deshalb sollte die SacherschlieÃŸung mit Wikipedia auch mÃ¶glichst einfach als Spiel umgesetzt werden. Die Webanwendung kÃ¶nnte sowohl von einer eigenen Seite als auch als Widget direkt aus Wikipedia und aus OA-Repositorien oder Suchmaschinen benutzt werden und sollte mit mÃ¶glichst wenigen Klicks (im Idealfall nur ein einziger!) zu bedienen sein. Durch Auswertung der Volltexte kÃ¶nnen mit herkÃ¶mmlicher Suchmaschinentechnologie (z.B. Solr oder Maui) von OA-Artikeln bzw. Wikipedia-Artikeln Ã¤hnliche Artikel der jeweils anderen Textgattung vorgeschlagen werden. Nutzer kÃ¶nnen dann die VorschlÃ¤ge als passend oder als unpassend bewerten.

Ich stelle mir die Bewertung Ã¤hnlich wie bei Stackoverlow vor (siehe Screenshot-Ausschnitt rechts). Nutzer kÃ¶nnen dort Reputations-Punkte fÃ¼r verschiedene Aktionen bekommen (oder verlieren) – siehe Stackoverflow-FAQ. FÃ¼r das HinzufÃ¼gen eines nicht-automatisch vorgeschlagenen Artikels kÃ¶nnte es z.B. mehr Punkte geben als fÃ¼r das BestÃ¤tigen eines bereits vorhandenen Artikels, so dass zusÃ¤tzliche Recherchen belohnt werden. In jedem Fall sollte die Weiterentwicklung der Idee erstmal mit der BenutzeroberflÃ¤che beginnen anstatt gleich Ã¼ber technische MÃ¶glichkeiten nachzudenken. Eine Ãœbersicht von Webanwendungen fÃ¼r User-Interface Mockups gibt es hier. Papier oder Tafel und Stift reichen aber auch aus. Wichtig ist nur, dass das Design nicht von Fragen wie „wie setze ich das in HTML um?“ oder „wo und wie sollen die Daten gespeichert werden?“ beschrÃ¤nkt wird.

Tags: Open Access, Tagging, Wikipedia 5 Kommentare

Endlich freie bibliografische Daten aus Bibliotheken!

14. März 2010 um 23:49 5 Kommentare

Wie am Freitag bekanntgegeben wurde hat die UniversitÃ¤ts- und Stadtbibliothek KÃ¶ln (USB) zusammen mit dem Hochschul-Bibliothekszentrum Nordrhein-Westfalen (hbz) die bibliografische Daten des USB-Katalogs freigegeben. Die Stadtbibliothek KÃ¶ln will mit ihren Daten spÃ¤ter folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa ~~1,3~~ 3,1 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das verwendete OpenBib-Datenformat ist hier beschrieben.

Freie bibliografische Daten waren bereits lÃ¤nger von verschiedener Seite gefordert worden – zuletzt in einem guten EinfÃ¼hrungsartikel von Adrian Pohl (hbz). 2008 wurde das Thema im Zusammenhang mit der Diskussion um eine neue Metadaten-Policy von OCLC weiter publik und Anfang diesen Monats gab die Open Knowledge Foundation die GrÃ¼ndung einer Arbeitsgruppe Freie Bibliografische Daten bekannt. Auch Wikimedia Deutschland hatte im letzten Jahr bei verschiedenen Bibliothekseinrichtungen Lobbying betrieben und Ã¼ber die Einrichtung einer eigenen Wiki-basierten Bibliografie Ã¤hnlich der Open Library nachgedacht. Der Gemeinsame Bibliotheksverbund (GBV) hat im September 2009 in einem Strategiepapier angekÃ¼ndigt, ein „Lizenzmodell,Â dasÂ dieÂ freieÂ VerwendungÂ derÂ MetadatenÂ garantiert“ zu entwickeln. USB und hbz sind nun die erste in Deutschland, die im groÃŸen MaÃŸstab vormachen, wie Metadaten frei publiziert werden sollten: Mit CC Zero (CC0) wird klargestellt, dass die Daten gemeinfrei sind und ohne EinschrÃ¤nkung weitergenutzt werden kÃ¶nnen.

Wie geht es nun weiter? ZunÃ¤chst hoffe ich, dass bald weitere Bibliotheken und BibliotheksverbÃ¼nde dem Beispiel folgen und ebenfalls ihre Daten freigeben. Der nÃ¤chste Schritt besteht darin, die Daten so umzuformen, dass tatsÃ¤chlich von Linked Open Data gesprochen werden kann – also stabile URIs, RDF-Tripel und -Ontologien. Das ist zwar leichter gesagt als getan, aber ich bin mir sicher, dass es schneller passiert als dass RDA als offizielles Regelwerk „Semantic Web“ in die Kataloge bringt. DarÃ¼ber hinaus muss auch darauf geachtet werden, dass sich um die Daten eine Community bilden kann, die diese gemeinsam pflegt.

Vor einigen Tagen hat dazu Nat Torkington einen aufschluÃŸreichen Artikel geschrieben: Open Data bringt Ã¤hnlich wie Open Source Vorteile, da Fehler und LÃ¼cken besser gefunden und ausgebessert werden kÃ¶nnen. Allein die Daten freizugeben reicht deshalb nicht aus. Gefragt sind Maintainer, die Verantwortung fÃ¼r die Daten Ã¼bernehmen und offizielle Snapshots bereitstellen, Tools mit denen Unterschiede in Daten festgestellt und Ã„nderungen angebracht werden kÃ¶nnen, Versionierung etc. Bei den Daten der USB habe ich gute Hoffnung, dass Oliver Flimm auch fÃ¼r BeitrÃ¤ge von Dritten offen ist; fÃ¼r weitere bibliografische DatenbestÃ¤nde ist aber eine kollaborative Infrastruktur notwendig, Ã¼ber die AuÃŸenstehende leicht Verbesserungen vornehmen kÃ¶nnen, ohne ein vollstÃ¤ndiges Bibliothekssystem installieren zu mÃ¼ssen.

In jedem Fall freue ich mich Ã¼ber den ersten groÃŸen Beitrag zu freien bibliografischen Daten auch aus deutschsprachigen Bibliotheken und bin gespannt, was daraus noch alles passiert.

P.S: Auf eine ganz spezielle Art von freien Katalogdaten, die ebenfalls in den letzten Tagen frei geworden sind, mÃ¶chte ich nur kurz hinweisen: FÃ¼r Wikipedia haben Mathias Schindler, Christian Thiele und ich das BEACON-Format entwickelt, mit dem die Trefferanzahl in Katalogen und Datenbanken zu einer bestimmten Person oder einem bestimmten Objekt Ã¼bermittelt werden kann. Auf diese Weise kann aus Wikipedia direkt in Kataloge verlinkt werden wenn es passende Treffer gibt. Wer mehr dazu wissen mÃ¶chte, kann sich am Dienstag und Mittwoch auf dem Bibliothekskongress in Leipzig an mich wenden oder unter http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON informieren.

P.P.S: Am Montag hat das hbz unter http://opendata.hbz-nrw.de/ die Daten weiterer Bibliotheken freigegeben. Die bisherigen Reaktionen hat Oliver Flimm zusammengefasst.

Tags: BEACON, Bibliothek, freie daten, OpenBib, Wikimedia, Wikipedia 5 Kommentare

Nächste Seite »

Jakoblog — Das Weblog von Jakob VoÃŸ

Das Wissen der Welt

Wikipedia ist keine Loseblattsammlung

Darum mag ich Wikimedia: Closed Access

People are Knowledge

Affen haben keine Urheberrechte

Professoren und Journalisten bei der Arbeit

Named Entity Recognition with DBPedia

Wikipedia, wie sie vor 10 Jahren aussah

Tagging von OpenAccess-Artikeln mit Wikipedia

Endlich freie bibliografische Daten aus Bibliotheken!

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch