Wikipedia-Wortschatz-Analyse aktualisiert

3. Dezember 2007 um 00:55 Keine Kommentare

Wie Matthias Richter mitteilt, hat er die Wikipedia-Datenbasis im Deutschen Wortschatz-Portal aktualisiert. Neben statistisch signifikant häufig in einem Satz vorkommenden Wörtern, wird unter http://wortschatz.uni-leipzig.de/WP/ nun auch die Linkstruktur zwischen den Artikel analysiert. Siehe da: Internet wird signifikant häufiger zusammen mit Bibliothek verlinkt – noch häufiger aber sind Archiv und Museum. Ich schließe daraus unwissenschaftlicherweise, dass noch nicht ausgemacht ist, ob Bibliotheken irgendwann nur noch Archive und Museen sein werden oder im Internet auch in Zukunft für die Informationsversorgung relevant sein werden 😉

Häufig mit Bibliothek verlinkte Artikel

ISBN in Wikipedia – eine Analyse

19. Mai 2007 um 21:05 1 Kommentar
Wikipedia ISBNs nach Verlagsländern

Mathias beschäftigt sich in letzter Zeit intensiv mit den ISBNs, die den Literaturangaben von Wikipedia-Artikeln vorhanden sind und betreibt mit Weiterführende Literatur einen eigenen Blog über „Bücherreferenzierung in der Wikipedia“. Damit hat er mich so angesteckt, dass ich heute den gesamten Tag damit verbracht habe, mit den verfügbaren Daten herumzuspielen. Zunächst werden mit einem Skript von Lars Aronsson alle ISBN-Nummern aus dem Dump einer Wikipedia extrahiert. Mit dem CPAN-Modul Business::ISBN lassen sich dann die Nummern analysieren und mit weiteren Skripts auswerten. Für die Fehlerkorrektur und Statistiken habe ich in Wikipedia die Seite ISBN-Auswertung mit ersten Ergebnissen angelegt. Dabei ist unter Anderem eine Statistik der Länder, in denen die Verlage mit den meisten ISBNs in Wikipedia sitzen (Visualisierung bei many eyes) – gut 80% kommen aus dem deutschen Sprachraum (kein Wunder, ist ja auch die deutschsprachige Wikipedia). Außerdem habe ich die ISBNs mit thingISBN-Daten von LibraryThing verglichen, wodurch ich nicht nur die Abdeckung von Wikipedia-Referenzen in LibraryThing ermitteln kann (20%) sondern gleichzeitig eine FRBRisierung bekomme. Tim Spalding hatte im Februar bereits ähnliches mit der englischen Wikipedia unternommen und Verweise zu Wikipedia in LibraryThing eingebaut (siehe auch mein letzter Beitrag zu LibraryThing für Bibliotheken). Weitere Ideen für Auswertungen? [danke an Mathias, Lars und Tim]

Update: Ich habe mit R (einem ebenso mächtigen wie fast schon benutzerfeindlichen Werkzeug) ein weiteres Diagram der ISBNs nach Verlagsländern erstellt.