Wird dem Theseus-Projekt (100 Millionen) Geld für eine Begleitstudie hinterhergeworfen?

21. August 2007 um 23:48 1 Kommentar

Bis zum 15.9. läuft eine Ausschreibung des Bundesministerium für Wirtschaft und Technologie zu einer „Begleitforschung für das Forschungsprogramm THESEUS“ (ich berichtete bereits letzten Monat). Mit der Begleitforschung soll „sichergestellt werden, dass die Fördermaßnahme mit hoher Effizienz umgesetzt, die Qualität der wissenschaftlichen Arbeiten gesi­chert und das im Rahmen von THESEUS gewonnene Know-How schnell verbreitet wird“. Ich stelle hiermit meine folgende Begleitstudie dem BMWi vorab und kostenlos zur Verfügung:

Im Projekt THESEUS wurden mit Hilfe vieler Buzzwords zahlreiche Berichte, Studien und Prototypen erstellt und 100 Millionen Euro Forschungsgelder an 30 Partner aus Industrie, Wissenschaft und Forschung verteilt. Ende der Studie.

Mal im Ernst: Evaluation ist ja eine gute Idee, aber ich Frage mich, ob einem Großprojekt (bei dem jeder Teilnehmern hauptsächlich für sich möglichst viel Renommee und Geld abgreifen möchte aber am Ende für nichts in die Verantwortung genommen wird), mit solch zusätzlicher Metaforschung (bei der doch wieder die Freunde und Bekannten der Auftragnehmer im Boot sitzen) beizukommen ist. Wenn schon großspurig in der Projektbeschreibung von Web 2.0 und Web 3.0 die Rede ist, dann sollte das auch bei der Planung und Begleitung des Projektes deutlich werden. Wie wäre es statt einer aufwendigen und intransparenten Begleitstudie (die eigentlich ja auch wiederum evaluiert werden müsste) mit einigen wenigen, klaren Regeln für alle Beteiligten:

§ 1) alle im Rahmen von Theseus entwickelten Computerprogramme und Programmbibliotheken werden als Freie Software veröffentlicht und im Laufe des Projektes als Open Source zur Verfügung gestellt, so dass sie von unabhängiger Seite evaluiert, weitergenutzt und weiterentwickelt werden können.

§ 2) alle im Rahmen von Theseus erstellten Dokumente (Berichte, Anleitungen, Dokumentationen, Digitalisate etc.) werden im Laufe des Projektes als Freie Inhalte veröffentlicht, so dass sie von unabhängiger Seite evaluiert, weitergenutzt und weiterentwickelt werden können.

§ 3) die unter § 2 genannten Dokumente umfassen insbesondere auch alle im Rahmen des Theseus-Projektes anfallenden Verträge, Protokolle, Absprachen und Standards, für die zusätzlich eine zeitnahe Veröffentlichung bindent ist, so dass die innerhalb des Projektes getroffenen Entscheidungen von unabhängiger Seite kommentiert und ihre Einhaltung kontrolliert werden können sowie Geldverschwendung und Korruption durch Transparenz vermieden werden.

§ 4) bei Verstößen gegen §§ 1-3 werden den Beteiligten Projektpartern die Fördermittel gekürzt.

Zu einfach? Naiv? Undurchsetzbar? Na dann fällt bei 100 Millionen das Geld zur Augenwischerei in Form einer konsequenzlosen Begleitstudie ja auch nicht mehr ins Gewicht.

Apropos naiv: Das BMWi fordert, dass „Für die Darstellung von Ergebnissen [der Begleitstudie] […] die bestehende Internetseite http://theseus-programm.de in Absprache mit der hierfür vom THESEUS-Programm-Büro beauftragten Agentur genutzt werden [soll]“.

Abgesehen davon, dass jede qualifizierte Studie angesichts dieser Forderung zum Ergebnis kommen sollte, dass Geld für eine „Agentur“ rausgeschmissen wurde, weil die Projektpartner zu inkompetent waren, ein CMS bzw. eine gemeinsame Kommunikations- und Publikationsplattform zu nutzen, wird diese Agentur bzw. das „THESEUS-Programm-Büro“ wohl kaum relevante Kritik auf der eigenen Seite ermöglichen. Oder veröffentlicht die Chinesische Nachrichtenagentur Xinhua plötzlich auch Nachrichten über Menschenrechtsverletzungen in China?

P.S: Letzten Freitag wurde Theseus auf der Veranstaltung „Wag the long tail“ des Verbandes der deutschen Internetwirtschaft e.V Theseus „erstmals der Öffentlichkeit vorgestellt“. Die dazugehörige Pressemitteilung wurde an verschiedener Stelle (u.A. heise) rezipiert – was die viertelstündige (sic!) Vorstellung durch Stefan Wess (Geschäftsführer der Bertelsmann-Tochter Empolis) enthielt, erfährt die Öffentlichkeit aber nicht. Bei Linuxworld schreibt schreibt dazu John Blau, der anscheinend dabei war.

Bunte Bibliotheks-Tagwolke

21. August 2007 um 14:21 1 Kommentar

Auf Web4Lib haben mit der Edmont Public Library und der Elisabeth C. Miller Library zwei kleinere Bibliotheken darauf hingewiesen, dass sie die Sacherschließung ihrer Bestände als Tagcloud anbieten. Alles schön bunt und eine tolle Vorlage für ein Poster, aber so ganz erschließt sich mit der Nutzen nicht. Nicht, dass es nicht auch sinnvolle Anwendungen für Tagclouds gäbe (zum Beispiel eine Auswertung der Demokratischen Präsidentschaftskandidaten) aber mehr als einen oberflächlichen Eindruck über den Gesamtbestand bieten die Tagclouds nicht und aufgrund des unterschiedlichen Layouts ist der Vergleich (zum Beispiel mit dem LibraryThing-Bestand) schwierig.

GBV-Verbunddaten weiterverarbeiten mit SRU-Schnittstelle und Perl

20. August 2007 um 14:58 2 Kommentare

Ende Juli habe ich im Rahmen meiner Arbeit bei der VZG mit PICA::Record eine Perl-API zur Verarbeitung von PICA+-Daten veröffentlicht. PICA+ ist das interne Katalogformat von PICA-Bibliothekssystemen, die neben dem GBV und den Verbünden HeBIS und SWB auch bei der Deutschen Nationalbibliothek und für Zentralsysteme in den Niederlanden, Australien, Frankreich und England eingesetzt werden. Inzwischen ist PICA übrigens eine vollständige OCLC-Tochterfirma. Mehr zum PICA+ Format findet sich in den jeweiligen Katalogisierungsrichtlinien, zum Beispiel beim GBV und in dieser kurzen Einführung.

PICA::Record ist sozusagen ein Pendant zu Mike Rylanders CPAN-Modul MARC::Record, das bereits seit einigen Jahren bei MARC-Anwendern genutzt und in der Mailingliste perl4lib diskutiert wird. Feedback in Form von Anwendungen, Ideen, Bugreports etc. ist sehr willkommen – zum Beispiel öffentlich bei der Dokumentation im GBV-Wiki. Neben der Erzeugung von Datensätzen in PICA+, um diese in Katalogsysteme einzuspielen, eignet sich PICA::Record auch für die umgekehrte Richtung. Dazu ist ein einfacher SRU-Client implementiert; die entsprechende SRU-Schnittstelle bietet der GBV seit einiger Zeit inoffiziell und nun auch öffentlich an. Für Bibliotheks-Mashups ist die SRU-Schnittstelle ein Baustein und die Perl-API ein mögliches Bindemittel. Natürlich kann der Webservice auch mit anderen Methoden als mit Perl abgefragt werden.

Beispiele und Anleitungen gibt es unter Anderem in der API-Dokumentation, im Quelltext oder hier.

Zurück in Deutschland

17. August 2007 um 18:29 Keine Kommentare

Heute morgen sind wir wieder gut in Frankfurt angekommen – nachdem wir im größten Casino in Macao beim Roulette auf die richtige Zahl getippt haben (setz‘ auf die 23! Und die 42! … es gibt keine 42! Dann 5, die Quersumme von 23! …und es fällt… die 5!!!) sind wir auch noch mit der Business-Class nach Hause geflogen: Besseres Essen und Getränke, mehr Filmauswahl und vor allem einen riesiegen Liegesessel! Ab sofort nur noch Business 😉 Nee, wir hatten einfach das Glück, dass unser Flieger überbucht war, wir überpünktlich am Schalter waren und auf die Fragen „Do you have to travel together?“ mit „Yes“ geantwortet haben: Also haben wir ein „Upgrade“ und einen früheren Flug in einer kleineren Maschine bekommen. Alles zusammengerechnet waren die drei Wochen günstiger als erwartet: der niedrige US-Dollar macht sich auch in anderen Ländern positiv für EU-Bürger bemerkbar – also ab nach Asien und Amerika! Zurück in Deutschland können wir erstmal hunderte von Fotos sichten und uns an die heimischen Sitten zurückgewöhnen (wie ging das nochmal mit Messer und Gabel?). Schade, ich würde gerne noch mal schnell auf den Nachtmarkt 🙁

Neues aus Taiwan

7. August 2007 um 20:24 Keine Kommentare

Nachdem dem Abschluss der erfolgreichen Wikimania 2007 auf Taiwan und dem festen Entschluss, nächstes Jahr wieder dabei zu sein, haben wir den Dienstag in Tainan, der viertgrößten und ältesten Stadt Taiwans verbracht. Momentan zieht ein kleiner Taifun über die Südspitze der Insel (aktueller Verlauf und sehr schön auf den Japanischen Satellitenbildern mit Animation zu sehen). Nach Wikimedia-Konferenz und städtischer Unterhaltung (unter Anderem hat eine Chinesin mich und zwei weitere Kerle ins Plush und Room 18 mitgenommen, so dass ich jetzt von Taiwanesinnen schwärme), sowie vor allem Essen und Trinken werden wir morgen mit der Alishan-Bergbahn ins Gebirge fahren, wo es etwas kühler ist als die sonst mindestens 30°C.

Wiki-basiertes Video-Dokumentationssystem MediaVid

4. August 2007 um 23:09 Keine Kommentare

Professionelle Video-Dokumentationssysteme sind noch immer ziemlich teuer, erfordern Expertenwissen und spezielle Hardware und sind relativ unflexibel. Auf der Wikimania2007 wurde von Michael Dale mit MediaVid ein vielversprechendes Video-Dokumentationssystem vorgestellt, das webbasiert als Wiki funktioniert.

Die Erstellung und Verbreitung von Videos ist dank günstigen Equipments inzwischen nicht mehr Herrschaftswissen sondern steht prinzipiell jedem offen. Zur Popularität haben nicht zuletzt Web 2.0-Dienste wie YouTube & Co. beigetragen. Im Gegensatz zu diesen unterstützt die kommende Version von Metavid allerdings die Segmentierung von Videos und die Annotierung mit Metadaten – und das alles vollständig auf Basis von Open Source (MediaVid basierend auf MediaWiki mit der Semantic MediaWiki Extension).

Statt also für im Web darstellbare Videos nur einige freien Schlagwörter (Tags) zu vergeben, können Videos in einzelne Szenen zerlegt werden, zu denen beliebige Daten wie dargestellte Personen, Orte, Themen, Texte etc. in frei definierbaren Feldern verwaltet und durchsucht werden können.

Als Beispielanwendungen hat das Team von MediaVid Mitschnitte des amerikanischen Senats annotiert, wie sie C-SPAN gegen teures Geld anbietet. Auf diese Weise können beispielweise alle Erwähnungen von „drugs and medicines“ in Reden von Senatoren, die Spenden von Pharmaunternehmen erhalten haben, per RSS abonniert werden.

Die auf der Wikimania vorgestellte Version von MediaVid soll in etwa 1-2 Monaten veröffentlicht werden. Das sollten sich Videoaktivisten-Gruppen aber auch professionelle Mediendokumentare, wie zum Beispiel die Dokumentationsabteilung des Bundestages mal ansehen. Einen ersten Eindruck geben die Vortragsfolien und dieser Screencast (der allerdings noch nicht alle Wiki-Funktionen enthält). Weitere Informationen gibt es im MediaVid Wiki.

Quality studies at Wikimania2007

4. August 2007 um 05:38 Keine Kommentare

I just participated in a Wikimania 2007 session with two very smart talks about quality studies in Wikipedia. Both were examples of rare (but hopefully growing) number of scientific studies with knowledge of Wikipedia internals and relevance to the practical needs of Wikipedia. Last but not least they both include working implementations instead of ideas only.

First there is Using Natural Language Processing to determine the quality of Wikipedia articles by Brian Mingus, Trevor Pincock and Laura Rassbach. Brian, an undergraduate student at Colorado, presented a rating system that was trained by existing Quality assesments of Wikipedia articles and a large set of features that may possible be related to quality, mainly computed by methods of natural language processing. Machine classification could predict ratings very well. Brian believes (and convinced me) that the best approach to determining article quality is a combination of human ratings and machine classifications. Human ratings serve as training data and algorithms can reverse engineer the human ratings. You should not think that binary, top-down ratings like the upcoming stable versions done by expert are the definite solution – but they may be additional information to predict quality and to train automatic systems that reproduce and summarize quality ratings. I will publish links to Brian’s slides, paper and code as soon as I get them (we collect all slides). A preliminary paper is in the Wikimania Wiki.

In the second talk Luca De Alfaro presented A Content-Driven Reputation System for the Wikipedia. The basic idea of his clever algorithm to predict trustability of Wikipedia texts is that authors of long-lived contributions gain reputation and authors of reverted contributions lose reputation. The detection and rating of remaining, changed, and reverted contributions is similar to WikiBlame but much more elaborated. Based on the analysis of the whole English, Italian, and French Wikipedia paragraphs and words can be coloured: text that is likely to be trusted is white while text that better should be checked is more orange. See the demo and the paper presented at WWW2007 (slides will follow).

I hope that Wikipedians and local Wikimedia chapters will catch up these efforts to get the tools usable in practise, for instance at Wikimedia Toolserver. Wikipedians, developers, Wikimedia organizations, and scientists need to work together tightly to bring smart ideas in Wikipedia quality research to real applications.

Blogtip und Programmtip

2. August 2007 um 20:30 Keine Kommentare

Unter www.microformats.dk betreibt Søren Johannessen ein kleines, feines Blog über Mikroformate und Mashups, auf dass ich dank Trackback gestoßen bin. Einiges versteht man vom Dänischen auch so und im Zweifel ist der persönliche Nachbarländer des Vertrauens zu fragen (eine Automatische Übersetzung Dänisch-Deutsch würde mich wundern, da ist einfach der Markt nicht groß genug). Dänen habe ich hier auf der Wikimania bisher nicht getroffen aber neben Taiwanesen viele andere Nationalitäten. Die Erfahrung, mal so völlig Ausländer zu sein, weder Sprache noch Schrift noch die besonderen Gewohnheiten zu verstehen, ist für mich doch noch etwas neues und sehr interessant. Heute habe ich fast den ganzen Tag damit verbracht, das Programm für morgen fertigzustellen (hier die Endversion als PDF) und mich danach noch an meinen eigenen Vortrag gesetzt. Dafür war das Abendessen in einem guten vegetarischen (sic!) Restaurant phänomenal. Mit umgerechnet 18 Euro war das überaus umfangreiche Buffet eher am oberen Ende der Preisskala, ich habe auch schon sehr lecker für etwa 1,50 mich an Dumplings sattgegessen. Das Taiwanesische Essen ist kurzgesagt unglaublich vielfältig und lecker.

LibrayThing makes subject indexing not suck

30. Juli 2007 um 02:19 Keine Kommentare

I just mentioned it in my previous post – LibraryThing released a new tagging feature called „Tagmash„. Here a quick review for those of you who don’t read German and because I am not the only one who is so excited about Tagmash:

From a library and information science point of view the feature is little more then saved searches for boolean retrieval in a collaborative subject indexing system. But this „little more“ makes the difference: It’s the interface, stupid! You can create elaborated queries with OR, AND, and NOT in library catalouges and information retrieval systems since decades but most users don’t even know about it – it’s just too complicated and last but not least: it’s not fun!

Tim knows how to make OPACs not suck. It’s refreshing to see the the inventions of information retrieval beeing reinvented implemented in a way that is usable for everyone. David Weinberger got the heard of it in a comment to his posting about Tagmash:

So it is really a matter of positioning and perception. The Google url for a search on france and wwii is: http://www.google.com/search?source=ig&hl=en&q=france+wwii
LibraryThing’s url for the tagmash is http://www.librarything.com/tag/france,wwii So, it’s more human readable. More important, the tagmash page tries to assemble resources related the tagmash.

That’s the point: Assembling resources. A retrievel system where you have to type in a query in some special language to only get a list of hits (or a stupid „nothing found“ message) is just out of date. Other ways to present catalouge content in libraries are rare and experimental but they exist – we need more of them!

The query language (I suppose Tim would not call it such) of LibraryThing is going to evolve as well as the retrieval system, for instance to support weighted boolean retrieval, but the most important part will remain the user interface.

P.S: What I miss in LibraryThing tagging is RSS-Feeds for the books in Tagmashes (so you can create alerting services) and support of SKOS for the Semantic Web (which is not Tim’s job and will take some time).

Nochmal Tagging und dann los

29. Juli 2007 um 23:55 1 Kommentar

Bevor ich morgen nach Taiwan fliege (mit Zwischenlandung in Hongkong aber hoffentlich nicht so wie auf diesem Video), hier noch zwei Neuigkeiten zum Thema Tagging:

Auf der Dublin-Core Konferenz 2007 (DC-2007) in Singapur wird es eine von Liddy Nevile organisierte Session zum Thema Tagging geben. Angesichts eines fehlenden Permalinks für die Session, der Nicht-Nennung und Verlinkung der URL des im Abstract genannten Social Tagging wiki und des Tagesordnungspunktes „Election of leaders“ kann ich mir allerdings eine Spitze Bemerkung nur mühsam noch verkneifen.

Noch interessanter ist die neueste Entwicklungen der Tagging-Funktion in LibraryThing. Unter der Bezeichnung „Tagmash“ sind nun (soweit ich es auf den ersten Blick verstanden habe) gespeicherte Anfragen mit erweitertem Booleschem Retrieval über Tags möglich. Die Innovation liegt wie allgemein beim Tagging weniger in der Funktionalität als in der Umsetzung. Vom Standpunkt der Informationswissenschaft mag es keinen Unterschied machen, ob jemand seine Suchanfrage in einer speziellen Anfragesprache eingeben muss oder die Anfrage einfach zusammenklicken kann, aber in der Praxis liegen Welten dazwischen. Übrigens unterstützt LibraryThing ebenfalls bereits Möglichkeiten für hierarchische Tags (hier ein Beispiel) und terminologische Kontrolle. Die Reaktionen auf Tagmash finden sich am besten Google Blogsearch oder Bloglines (Technorati ist bei mir durch die Zumüllung ihrer Suchergebnisse mit Videos und Fotos erstmal unten durch).

Noch ein Hinweis in eigener Sache: Die kommenden Postings werden wahrscheinlich etwas kürzer ausfallen oder ich schreibe gleich in unserem Urlaubsblog.