Das Brennglas des Martin Schrettinger

23. August 2010 um 20:08 2 Kommentare

Im 1829 erschienenen 2. Band des „Versuch eines vollständigen Lehrbuches der Bibliothek-Wissenschaft“ habe ich unter der Zwischenüberschrift „Ist also alles systematisieren unnütz und zweckwidrig?“ ein schönes Zitat von Martin Schrettinger gefunden:

Ein systematischer Katalog wäre demnach einer optischen Maschine zu vergleichen in welcher alle Arten von Brenngläsern nach den Graden ihrer Konvexität nach den Verhältnissen ihrer Dimensionen und ihrer mehr oder minder Zirkel oder länglicht runden oder eckigten Form in Gestalt eines Stammbaumes über und neben einander systematisch geordnet und in dieser Ordnung befestigt wären oder wenn man lieber will einem Universal-Brennglase in welchem so viele Unterabtheilungen in systematischer Ordnung eingeschliffen wären dass durch die selben alle erdenklichen Grade von Brennpunkten erzielt werden sollten.

Ab dem zweiten Band plädierte Schrettinger wie bereits Albrecht Christoph Kayser in „Ueber die Manipulation bey der Einrichtung einer Bibliothek und der Verfertigung der Bücherverzeichnisse“ (1790) gegen einen systematischen Katalog, da dieser immer nur eine Sicht darstellen könne. Dass es einmal ein „Universal-Brennglase“ geben würde, durch das sich alle erdenklichen Grade von Brennpunkten erzielen lassen, konnte er sicher nicht ahnen. Mit etwas Fantasie lässt sich Martin Schrettinger nicht nur als Vorreiter des Social Tagging sondern auch von Linked Data (d.h. der beliebigen Rekombinierbarkeit von Katalogbestandteilen) ansehen.

Schrettinger und Kayser konnten sich unter den Bibliothekaren jedoch nicht durchsetzen – stattdessen dominierte Friedrich Adolf Ebert die weitere Entwicklung in Deutschland. Mehr zur frühen Geschichte des Katalogs findet sich bei Uwe Jochum, u.A. in „Die Idole der Bibliothekare“ (1995), Kapitel 3. Gut, dass sich viele von Jochums Texten trotz seiner Kritik an Open Access frei im Netz finden lassen (Weshalb – wie er argumentiert – durch die freie Verfügbarkeit von Publikationen die Forschungsfreiheit gefährdet sein soll, habe ich bislang nicht verstanden. Ich denke ab dieser Stelle findet sich eine Antwort im Eigentumsbegriff, über den sich an anderer Stelle streiten lässt).

P.S: Ein schöner Verriss von Schrettingers Handbuchs gab es in der Jenaischen Allgemeinen Literaturzeitung vom April 1821. Der Rezensent kritisiert (zu Recht), wie sich Schrettinger bezüglich des systematischen Katalogs selbst widerspricht.

What is Semantic Information Retrieval?

19. August 2010 um 00:45 Keine Kommentare

The most fun part of my dissertation is when I can procastinate dig deeply to the foundation of computer and information science. Lately I tried to find out when the terms „file“ and the „directory“ were coined in its current sense. The first commercial disk drive was the IBM 350, introduced in 1956. It had the size of a wardrobe, stored 4.4 megabytes 6-bit-characters and could be leased for 3,200$/month. Instances of it were also called „files“. But user files first appeared in the early 1960s with the Compatible Time-Sharing System (CTSS), the earliest ancestor of Unix. You should watch this great video from 1964 in which Robert Fano talks about making computers accessible to people. A wonderful demonstration of one of the very first command lines of a multi-user system! The explicit aims and concepts of computer systems are very similar to today. The more I read about history of computing, the more it seems to be that all important concepts were developed in the 1960s and 1970s. The rest is just reinventing and application on a broader scale.

Robert Fano was director of project MAC, a laboratory that brought together pioneers in operating systems, artificial intelligence, and other areas of the emerging discipline computer science. I browsed the historical publications of the laboratory at MIT where you can find a report of CTSS. Also published at MAC in 1964, I stumbled upon Bertram Raphael’s PhD thesis. It is titled SIR: A COMPUTER PROGRAM FOR SEMANTIC INFORMATION RETRIEVAL and its abstracts sounds like todays Semantic Web propaganda:

This system demonstrates what can reasonably be called an ability to „understand“ semantic information. SIR’s semantic and deductive ability is based on the construction of an internal model, which uses word associations and property lists, for the relational information normally conveyed in conversational statements. […] The system has some capacity to recognize exceptions to general rules, resolve certain semantic ambiguities, and modify its model structure in order to save computer memory space.

The SIR expert system even seems to go beyong current RDF techniques in supporting exceptions. By the way Bertram Raphael was at MAC at the same time as Joseph Weizenbaum. Weizenbaum fooled expectations in articial intelligence with his program ELIZA that he created between 1964 and 1966. He later became an important critic of artificial intelligence and the application of computer technology in general. By the way we need more like him instead of well-meaning, megalomaniac technology evangelists. See the documentary Rebel at work about Weizenbaum or even better the promising film Plug & Pray!

So what is Semantic Information Retrieval? In short: bullshit. The term is also used independently for search indices on graph structured data (2009), digital libraries (1998) and more. But why bothering with words, meaning, and history if computers will surely „understand“ soon?

Tagging von OpenAccess-Artikeln mit Wikipedia

5. August 2010 um 07:38 5 Kommentare

Zur Zeit bekomme ich nur am Rande die tollen Beiträge der Biblioblogosphäre wie Ethik von unten und die Übersicht von Repository-Upload-Formularen mit, da ich intensiv an der Dissertation sitze (siehe meine Literatur). Lamberts Vorschlag Wikipedia zur Sacherschließung von Open Access zu nutzen, möchte ich jedoch nicht unkommentiert lassen.

Die Grundidee ist folgende: Wissenschaftliche Literatur aus Open Access Repositorien lässt sich 1.) direkt verlinken 2.) im Volltext analysieren und 3.) zur automatischen Erzeugung von Literaturangaben verwenden. Dagegen steht, dass die Sacherschließung dürftig ist und Artikel oft sehr speziell sind. Wikipedia ist dagegen ebenso für 1-3 verfügbar und bietet einen guten (manchmal sogar ausgewogenen) Einstiegspunkt in ein Thema – es fehlt jedoch oft an weiterführenden Hinweisen auf aktuelle Literatur. Lambert schlägt nun eine Webanwendung vor, in der Nutzer Wikipedia-Artikel und Open-Access Artikel einander zuordnen können. LibraryThing hat vorgemacht, dass Sacherschließung nicht dröge sein muss, sondern durch spielerische Anreize gute Ergebnisse liefert. Deshalb sollte die Sacherschließung mit Wikipedia auch möglichst einfach als Spiel umgesetzt werden. Die Webanwendung könnte sowohl von einer eigenen Seite als auch als Widget direkt aus Wikipedia und aus OA-Repositorien oder Suchmaschinen benutzt werden und sollte mit möglichst wenigen Klicks (im Idealfall nur ein einziger!) zu bedienen sein. Durch Auswertung der Volltexte können mit herkömmlicher Suchmaschinentechnologie (z.B. Solr oder Maui) von OA-Artikeln bzw. Wikipedia-Artikeln ähnliche Artikel der jeweils anderen Textgattung vorgeschlagen werden. Nutzer können dann die Vorschläge als passend oder als unpassend bewerten.

Ich stelle mir die Bewertung ähnlich wie bei Stackoverlow vor (siehe Screenshot-Ausschnitt rechts). Nutzer können dort Reputations-Punkte für verschiedene Aktionen bekommen (oder verlieren) – siehe Stackoverflow-FAQ. Für das Hinzufügen eines nicht-automatisch vorgeschlagenen Artikels könnte es z.B. mehr Punkte geben als für das Bestätigen eines bereits vorhandenen Artikels, so dass zusätzliche Recherchen belohnt werden. In jedem Fall sollte die Weiterentwicklung der Idee erstmal mit der Benutzeroberfläche beginnen anstatt gleich über technische Möglichkeiten nachzudenken. Eine Ãœbersicht von Webanwendungen für User-Interface Mockups gibt es hier. Papier oder Tafel und Stift reichen aber auch aus. Wichtig ist nur, dass das Design nicht von Fragen wie „wie setze ich das in HTML um?“ oder „wo und wie sollen die Daten gespeichert werden?“ beschränkt wird.