Literaturempfehlungen vom 27C3

3. Januar 2011 um 00:39 Keine Kommentare

Mit dem 27C3 fand zwischen den Jahren in Berlin der jährliche Kongress des Chaos Computer Club statt. Da ich in Urlaub war, um der Kälte zu entfliehen, schaue ich mir erst jetzt nach und nach die interessanten Vorträge als Videomitschnitt an. Die offiziellen Videos sind noch nicht fertig, aber aus diversen Mitschnitten verschiedener Qualität und mit dem Programm sollten sich schon einige Perlen herauspicken lassen. Weitere Empfehlungen gibt es zum Beispiel bei Annalist – was hat euch sonst besonders gefallen?

Ich möchte hier nur auf den „Literarischen Abend“ hinweisen, der am Dienstag von Andreas Lehner und Lars abgehalten wurde. Der Vortrag fängt unter diesem Mitschnitt-Torrent bei etwa 18 Minuten an. Im Grunde haben die beiden in einer Stunde nicht mehr und nicht weniger getan, als Empfehlungen für gute Science Fiction Literatur auszusprechen. Leider habe ich den Vortrag nicht gesehen, bevor ich mit Stephen Baxters Vakuum Diagrammen in den Urlaub gefahren bin (war nicht schlecht, aber auch nicht wirklich gut). Zu Weihnachten gab es zum Glück Snow Crash von Neal Stephenson, der auch auf der Empfehlungsliste ist. Im Kongress-Wiki können weitere Titel und Autoren hinzugefügt werden. Am Liebsten würde ich jetzt das Jahr 2011 verbringen, indem ich mich einmal durch die Liste lese 🙂

William Kent: Ein weiterer Seelenverwandter?

28. April 2010 um 01:52 1 Kommentar

Bei meinen Recherchen zu Datenmodellierung etc. bin ich über Lambda the Ultimate auf den 2005 verstorbenen Computerwissenschaftler William (Bill) Kent gestoßen. Er hat 1978 ein Buch über „Data & Reality“ geschrieben hat und ebenso wie der von mir sehr geschätze Ted Nelson scheint Kent vom „Informatik-Establishment“ nicht genügend rezipiert zu werden. Die meisten von Kent’s Texten sind auf seiner ehemaligen Homepage verfügbar.

In The Many Forms of a Single Fact zeigt Kent beispielsweise, wie sich eine Aussage im relationalen Datenmodell in dutzenden Varianten ausdrücken lässt. Ich bin sicher im RDF-Datenmodell ist das alles gaaanz anders und das Problem gleiche Information – unterschiedliche Daten löst sich in Luft auf 😉 Die Ignoranz (oder der Fatalismus) der Mainstream-Informatik-Forschung gegenüber der dahinter liegenden fundamentalen Begrenzung technischer Systeme ist einer der Gründe, warum ich lieber in der Informationswissenschaft promoviere. Kent schreibt:

“The questions aren’t so much about how we process data as about how we perceive reality, about the constructs and tactics we use to cope with complexity, ambiguity, incomplete information, mis­matched viewpoints, and conflicting objectives”.

Dazu fällt mir Lotfi A. Zadeh, der Erfinder der Fuzzy Logik ein. Die erste Anwendung der Fuzzy Logik auf Datenbanken stammt übrigens von Maria Zemankova, die auch im Bereich Digitaler Bibliotheken forscht. Aber zurück zu Kent: Diese Notiz von ihm über Bücher verdeutlicht, warum ich über die Modellierung von bibliographischen Daten schreibe 🙂

“It takes a good system and a lot of work to keep track of books.
[…] Books hold our universe, past, present, and future, and other universes, too.”.

Mit Ted Nelson hat William Kent meinem Eindruck nach gemeinsam, dass beide jahrzentelang aus verschiedenen Blickrichtungen gegen die Begrenztheit von vorhandenen Computersysteme angeschrieben haben. Man vergleiche beispielsweise Nelsons „The Tyranny of the File“ (1986, siehe dazu hier) und Kents „Limitations of Record Based Information Models“ (1979).

Wer sich weniger mit konkreten Strukturen der Datenverwaltung beschäftigen möchte aber das trotzdem alles irgendwie interessant findet: Passende Bücher sind Sorting Things out von Geoffrey Bowker und Susan Leigh Star sowie Everything is Miscellaneous von David Weinberger.

Social Cataloging in Wikipedia

5. Dezember 2007 um 01:19 Keine Kommentare

Last week I gave an introduction into social tagging and cataloging for librarians (some German slides here at Slideshare). In a discussion on German Wikipedia about COinS I was pointed to the French Wikipedia: They have a special namespace référence to store more detailled bibliographic information (see MediaWiki-namespaces in general), some more information is collected in Projet:Références, but my French is too little to find out much. This example may demonstrate the concept:

The article „Première période intermédiaire égyptienne“ cites the source „Nicolas Grimal, Histoire de l’Égypte ancienne, 1988“. The citation provides a link to on a special page that lists several editions of the work. Actually this is another implementation of FRBR.

I like the idea of seggregating full bibliographic record and reference in the Wikipedia article, but the concrete solution is too complicated and limited. Wikipedia with flat text is just not the right tool to store bibliographic data. Maybe Semantic MediaWiki can help, but a multilingual approach like LibraryThing does is better. French Wikipedians should not have to duplicate cataloging efforts, but just point to LibraryThing, WorldCat or whatever bibliographic authority is usable. By the way most library catalouges are not usable in this sense – on the Web noone cares how good you data is if you cannot directly link to it and use it in other context.

Evolutionstheorie in Sprache und Kultur

12. Oktober 2007 um 08:50 Keine Kommentare

Spiegel Online (SpOn) verwurschtelt eine ddp-Nachricht über Forschungsergebnisse zur Evolution der Sprache mittels mathematischer Modelle (die Halbwertzeit eines unregelmäßigen Verbs ist proportional zur Quadratwurzel seiner Verwendungshäufigkeit) – direkt weiterführende Literaturangaben (Quantifying the evolutionary dynamics of language DOI 10.1038/nature06137) und Verweise sind dort leider Mangelware. Die gibt’s unter Anderem bei scienceticker.info, dort wird allerdings nur auf Erez Lieberman und nicht auf die ebenfalls im SpOn-Artikel erwähnte Arbeit von Mark Pagel (Frequency of word-use predicts rates of lexical evolution throughout Indo-European history DOI 10.1038/nature06176)) eingegangen. Die Nature-Ausgabe enthält außerdem eine kurze Einführung. Beide Forscher wenden Methoden der Bioinformatik an, um kulturelle Phänomene zu untersuchen.

Beim Stöbern ist mir aufgefallen, dass Nature (siehe History of Nature) in der momentan stattfindenden Evolution der Wissenschaftskommunikation ziemlich gut dabei ist: Connotea, Nature Precedings, Nature Network, Nature Blogs, Nature Podcast, Second Nature etc. Es gibt aber auch noch einige Verbesserungsmöglichkeiten, so sind die verschiedenen Dienste bislang noch nicht ausreichend miteinander verknüpft.

Quality studies at Wikimania2007

4. August 2007 um 05:38 Keine Kommentare

I just participated in a Wikimania 2007 session with two very smart talks about quality studies in Wikipedia. Both were examples of rare (but hopefully growing) number of scientific studies with knowledge of Wikipedia internals and relevance to the practical needs of Wikipedia. Last but not least they both include working implementations instead of ideas only.

First there is Using Natural Language Processing to determine the quality of Wikipedia articles by Brian Mingus, Trevor Pincock and Laura Rassbach. Brian, an undergraduate student at Colorado, presented a rating system that was trained by existing Quality assesments of Wikipedia articles and a large set of features that may possible be related to quality, mainly computed by methods of natural language processing. Machine classification could predict ratings very well. Brian believes (and convinced me) that the best approach to determining article quality is a combination of human ratings and machine classifications. Human ratings serve as training data and algorithms can reverse engineer the human ratings. You should not think that binary, top-down ratings like the upcoming stable versions done by expert are the definite solution – but they may be additional information to predict quality and to train automatic systems that reproduce and summarize quality ratings. I will publish links to Brian’s slides, paper and code as soon as I get them (we collect all slides). A preliminary paper is in the Wikimania Wiki.

In the second talk Luca De Alfaro presented A Content-Driven Reputation System for the Wikipedia. The basic idea of his clever algorithm to predict trustability of Wikipedia texts is that authors of long-lived contributions gain reputation and authors of reverted contributions lose reputation. The detection and rating of remaining, changed, and reverted contributions is similar to WikiBlame but much more elaborated. Based on the analysis of the whole English, Italian, and French Wikipedia paragraphs and words can be coloured: text that is likely to be trusted is white while text that better should be checked is more orange. See the demo and the paper presented at WWW2007 (slides will follow).

I hope that Wikipedians and local Wikimedia chapters will catch up these efforts to get the tools usable in practise, for instance at Wikimedia Toolserver. Wikipedians, developers, Wikimedia organizations, and scientists need to work together tightly to bring smart ideas in Wikipedia quality research to real applications.

Neue Libreas-Ausgabe: „Bibliothek in der Stadt“

14. April 2007 um 19:43 Keine Kommentare

Die neue Ausgabe (Nummer 8/9: Frühjahr 2007) der am IBI herausgegebenen bibliothekswissenschaftlichen Open-Access-Zeitschrift LIBREAS ist gestern Abend herausgekommen. Die Schwerpunkte sind „Bibliothek in der Stadt“ und „Soziale Bibliotheksarbeit“. 14 Beiträge, 1 Interview, 8 Rezensionen. Ich habe beim Lesen u.A. gelernt, dass „Jakoblog“ zur Biblioblogosphäre gehört. [via Chaoslinie]