Diagramme aus R mit OpenOffice weiterverarbeiten

27. Februar 2008 um 18:16 3 Kommentare

Meine Einstellung zu der Statistik-Software R lässt sich am ehensten als Hassliebe bezeichnen. Einerseits kann man mit R alles machen, was auch nur irgendwie mit Statistik und aus Datenreihen zu tun hat. Alle Funktionen sind frei programmierbar, so dass sich Datananalyse schön automatisieren lässt – zum Beispiel mit Rpad. Andererseits ist die Lernkurve von R wirklich nicht flach und die Bedienung, naja… Kommandozeile halt. Vereinfacht ausgedrückt verhält sich R in etwa zu Excel wie LaTeX zu Word. Allein schon der bekloppte Name, wie soll man denn danach Googeln? Als hilfreich kann ich die R Reference Card von Tom Short empfehlen, weitere Tips gibt es im R Wiki.

Nach viel zu viel Herumprobieren, habe ich herausgefunden, dass sich Diagramme aus R nach OpenOffice exportieren lassen – ohne etwas Feinschliff in Handarbeit sehen automatisch erzeugte Diagramm nämlich meist doch recht mäßig aus. Und das geht so:

  • Diagram wie gewohnt in R erstellen (plot etc.). Die Größe des Grafikfensters lässt sich mit der Maus anpassen.
  • Mit dev.copy(xfig,encoding='latin1',width=par()$din[1],height=par()$din[2]); dev.off() wird die aktuelle Grafikausgabe gespeichert im XFig-Format. Mit dem Parameter family kann zusätzlich eine Schriftart ausgewählt werden (siehe ?xfig).
  • Mit dem Programm fig2sxd von Alexander Bürger (vielen Dank!) wird die .fig-Datei nach OpenOffice Draw konvertiert. Ich muss bisher die Datei vorher jedesmal kurz mit XFig öffnen und speichern, vielleicht lässt sich das noch vereinfachen.
  • In OpenOffice Draw können nun Änderungen und Ergänzungen am Diagram vorgenommen werden. Irgendwie komme ich bisher nicht an die Texte ran, aber das finde ich hoffentlich auch noch raus.

Natürlich kann man auch mit XFig arbeiten, was von der Usability aber recht dürftig ist. Am liebsten wäre mir, wenn R gleich SVG exportieren würde, dann könnte man mit Incscape rangehen, vielleicht kommt das ja noch – ist schließlich alles OpenSource, da kann und/oder muss man fehlende Funktionen im Zweifelsfall eben selber dazu stricken.

Was ist Semantisches Tagging?

26. Februar 2008 um 14:19 11 Kommentare

In Anschluß an den sehr fruchtbaren Workshop Social Tagging in der Wissensorganisation (Program und weitere Berichte von Mandy Schiefner, bei Joachim Wedekind und Johannes Moskaliuk) schreibe ich grade an einem Artikel über „Semantic Tagging“. Im Zusammenhang mit Social Tagging wurde das Thema Semantic Web zwar immer wieder genannt und die Beiträge dazu im letzten Panel waren alle interessant; wie den nun konkret beide Welten zusammenkommen sollen, blieb aber abgesehen vom Vortrag von Rolf Sint und Georg Güntner von Salzburg Research) über das Terminologie-Modul im Projekt LIVE etwas vage – vielleicht liegt das auch an meiner Technik-zentrierten Sicht, auf Implementierungen und Spezifikationen.

So wie ich das LIVE-Projekt verstanden habe, sollen bei der Olympiade 2008 sportliche Ereignisse „live“ verschlagwortet werden, wobei freie Tags zeitnah mit Hilfe eines Thesaurus-Editors in die „Ontologie“ eingearbeitet werden; das ganze basiert auf SKOS und ist damit weitgehend Semantic-Web-kompatibel – und ein Beispiel für Semantic Tagging. Mit Social Tagging hat das Projekt allerdings nur noch wenig zu tun. Falls sich dennoch normale Nutzer am Tagging der PR-Olympiade beteiligen dürfen, hier mal ein Vorschlag für die Tag-Cloud:

2008 Bronze Doping Gold Menschrechtsverletzung Propaganda Peking Silber Sponsor

Aber zurück zum Semantischen Tagging: Die Bezeichnung ist eigentlich schon aus der Linguistik besetzt; dort wird unter Semantic Tagging die Erkennung und Auszeichnung von Namen und syntaktischen Strukturen in einem Text verstanden. Ein sehr einfaches Beispiel aus dem Web sind semantische HTML-Tags wie em, strong und cite; eine andere Form semantischen Taggings im Web, die eher in Richtung Auszeichnung von Daten geht, sind Mikroformate. Von dort lässt sich zwar wieder der Bogen zum Semantic Web spannen, aber eigentlich ist semantisches Tagging im Linguistischen Sinne etwas anderes: Gegeben ist ein Text, in dem einzelnen Bestandteile wie Subjekt, Objekt, Nebensatz, Personennamen etc. als solche markiert werden. Beim Social Tagging werden dagegen freie Tags an einen gesamten Text (oder ein anderes Objekt) angehängt, um seinen gesamten Inhalt zu beschreiben. Irgendwo sollte sich deshalb zwischen Semantischem Tagging innerhalb eines Textes und Semantischem Tagging als (Social) Tagging mit expliziter Semantik eine Grenze ziehen lassen.

Dachte ich. Bis ich entdeckt habe, was die Nachrichtenagentur Reuters Ende Januar online gebracht hat: Mit der kostenlosen Web-API „Calais“ lassen sich Texte analysieren, indem Reuters Namen, Orte, Zahlen und andere Angaben extrahiert (siehe API-Dokumentation) und mit RDF auszeichnet. [via Taxonomy Watch] Ob die gefundenen Entitäten auch gleich mit URIs versehen werden oder ob nur ausgezeichnet wird, dass es sich beispielsweise um einen Firmennamen handelt, habe ich noch nicht rausgefunden – in jedem Fall dürften die extrahierten Terme gute Vorschläge für semantisches Tagging abgeben. Zum Ausprobieren kann dieses Formular verwendet werden.

Ach herrje – Ich weiß manchmal nicht, ob ich begeistert sein soll, in welch spannender Weise sich das Web zur Zeit weiterentwickelt oder ob ich daran verzweifeln sollte, wie komplex und schnell das alles geht. Inzwischen ist „Semantic Web“ ja schon so hype, dass es schwierig wird, die Spreu vom Weizen zu trennen.

Bibliotheksveranstaltungen CODE4LIB und BibCamp 2008

24. Februar 2008 um 19:51 3 Kommentare

In der kommenden Woche findet in Portland, Oregon die dritte vierte* CODE4LIB-Konferenz statt. Mein französischer Bibliotheks-Informatik-Bruder Nicolas Morin fasst zusammen, auf welche Teile des Programms er sich am meisten freut. Ich war nach zwei sehr produktiven Workshops Ende letzter Woche so konferenzmüde, dass das BarCamp Hannover ausfallen musste. Bei der CODE4LIB wäre ich aber schon gerne dabei, um herauszufinden, was sich hinter so interessanten Vortragstitel wie „Finding Relationships in Marc Data“ von Rob Styles, „Zotero and You, or Bibliography on the Semantic Web“ von Trevor Owens, „Can Resource Description become Rigorous Data?“ von Karen Coyle und „RDF and RDA: declaring and modeling library metadata“ von Corey Harper versteckt und um all die andere Bibliothekstechnik-Nerds zu treffen 🙂

Am ehesten einen Ersatz bietet das Bibcamp am 16 und 17.05.2008 in Berlin, auf das ich hiermit nochmal ausdrücklich hinweisen möchte. Hier wird es im Gegensatz zur CODE4LIB vorranging deutschsprachig und weniger techniklastig zugehen, so dass für alle etwas dabei sein sollte, die an Neuerungen in Bibliotheken interessiert sind. Es wäre nett, sich in die inoffizielle Teilnehmerliste im Wiki einzutragen. Wir sehen uns in Berlin!

P.S.: Wo die nächste CODE4LIB 2009 stattfindet, wird im Laufe der nächsten Woche zwischen vier Kandidaten entschieden. *Laut Peter Murray bzw. Mike. Ich tippe mal auf Ohio, also schon wieder USA 🙁

Neues zum Thema Whistleblowing

24. Februar 2008 um 19:14 Keine Kommentare

Am übernächsten Dienstag (4.3.2008) läuft auf Arte ein Themenabend zu Whistleblowing [via Whistleblower-Netzwerk-Blog]. Die Whistleblower-Plattform Wikileaks wurde vor einigen Tagen wegen einer Klage der Schweizer Privatbank Julius Bär gesperrt. Anscheinend hat ein Mitarbeiter interne Dokumente durchsichern lassen, die zeigen, dass die traditionsreichen Schweizer Bank Kunden bei der Steuerhinterziehung hilft. Hat etwa jemand anderes vermutet? Wahrscheinlich gab es diesmal auch kein Geld für den Informaten, in der Schweiz kennt sich die CDU ja selbst genügend mit Schwarzgeld aus. Mit dem kleinen, putzigen Liechtenstein ist auch ein Sündenbock gefunden, während sich „Führende Vertreter der Wirtschaft“ öffentlich distanzieren, als handle es sich bei Asozialität nicht um eine inhärenter Systemeingenschaft des Kapitalismus (Nochmal zur Aufklärung: Kapitalismus ist nicht zwingende Vorraussetzung für Soziale Marktwirtschaft und „eine andere Welt ist möglich“, auch jenseits des Staatssozialismus und Kommunismus).

Anstatt die Aufdeckung von Missständen durch Whisteblower zu unterstützen, werden in Zukunft wahrscheinlich Angestellte besser überwacht, damit es mit dem Greenwashing wieder klappt [via Telepolis]. Bleibt zu hoffen, dass Menschen trotzdem den Mund aufmachen, wenn es angebracht ist – zum Beispiel Mark Klein, der – wie vor drei Tagen bekanntgegeben wurde von der Electronic Frontier Foundation für die Aufdeckung illegaler Ãœberwachung durch AT&T und NSA ausgezeichnet wurde. Apropos USA: Manche Dokumente kommen anscheinend auch durch eigene Unachtsamkeit an die Öffentlichkeit – zum Beispiel Informationen über US-Internierungslager, in denen „im Ernstfall“ Hunderttausende massenweise eingesperrt werden sollen. [via fefes blog]

Eigentlich müsste es doch auch aus dem Umfeld islamistischer Terroristen Whistleblower geben, denen der Mord an Unschuldigen zu weit geht. Wenn aber gleichzeitig die Unschuldigen Nachbarn/Familie etc. umgebracht werden von Blackwater & Co, die dann auch noch ungestraft davonkommen, fällt es schon schwerer die Mörder aus den eigenen Reihen zu verpfeifen.

UB Mannheim führt Social Tagging ein

21. Februar 2008 um 14:59 2 Kommentare

Das zweite Panel der Workshops Social Tagging in der Wissensorganisation am Institut für Wissensmendien am 21./22. Februar 2008 fasste vier Kurzvorträge unter dem Thema „Bibliotheken und Hochschulen“ zusammen.

Im ersten Vortrag führte Christian Hänger von der Universitätsbibliothek Mannheim mit „Tagging im Kontext Bibliothekarischer Sacherschließung“ an, welche Mehrwerte Social Tagging in Bibliotheken bringen kann, obwohl Bibliotheken Tagging in Form der kontrollierten Erschließung doch schon seit jeher betreiben. Durch Social Tagging können zum einen größere Mengen von Titeln zusätzlich erschlossen werden (zum Beispiel Artikel der Nationallizenzen). Zum anderen können neue Begrifflichkeiten schneller für das Retrieval verfügbar gemacht werden, während die Aufnahme neuer Begriffe in ein kontrolliertes Vokabular relativ lange dauert. Die Nachteile und Grenzens des Tagging bestehen jedoch nach Hänger in der höheren Unschärfe durch Homonyme und Synonyme und in schlechteren Ergebnissen als die Sacherschließung durch Experten.

An der UB Mannheim soll Social Tagging in einem kommenden DFG-Projekt in den OPAC eingebunden werden. Dabei soll unter Anderem untersucht werden, ob sich durch manuelles Tagging bessere Ergebnisse als durch automatische Erschließung erzielen lassen. Auch Misch- und Übergangsformen, wie zum Beispiel das Taggen mit Normdateien sollen ausprobiert werden. Als Tagging-Systeme werden sowohl BibSonomy als auch die Tagging-Funktion von ExLibris Primo eingesetzt.

Im Fazit brachte Christian Hänger seine Einschätzung bemerkenswert auf den Punkt: Tagging wird in Zukunft ein unverzichtbarer Bestandteil der bibliothekarischen Sacherschließung. Es ist jedoch kein Ersatz für bibliothekarische Sacherschließung, sondern eine Ergänzung.

Sicherlich lassen sich beide Aussagen bezweifeln: Möglicherweise ist Tagging für Bibliotheken irrelevant oder aber es wird die bibliothekarischen Sacherschließung überflüssig machen. Die Wahrheit lieht aber eher wie so oft in der Mitte – deshalb ist es sehr zu begrüßen, dass die UB Mannheim (Blog) das Thema Tagging in Bibliotheken einfach mal in die Hand nimmt und ausprobiert anstatt es tot zu diskutieren, um am Ende den Entwicklungen hinterherlaufen zu müssen!

Aktuelle Projekte und Formate zu Strukturdaten

18. Februar 2008 um 18:04 1 Kommentar

Mit zunächst ZVDD und nun TextGrid gibt es im deutschen Sprachraum mindestens ein größeres bibliothekarisches DFG-Projekt, dass sich auch der Erschließung von Dokumenten unterhalb der bibliographischen Ebene annimmt. Inzwischen werden im bibliothekarischen Umfeld diese Erschließungsdaten wie zum Beispiel Kapitelgliederung und Paginierung als „Strukturdaten“ bezeichnet (wie es im Englischsprachigen Umfeld aussieht, weiß ich nicht). Standardformate zur Kodierung von Stukturdaten sind der Metadata Encoding and Transmission Standard (METS) und das Format der Text Encoding Initiative (TEI). Der vor kurzem in einer ersten Version veröffentlichte DFG-Viewer basiert auf Strukturdaten im MODS-Format, bislang werden allerdings noch keine Inhaltsverzeichnisses unterstützt. Bislang werden Strukturdaten vor allem im Rahme der Digitalisierung und Archivierung eingesetzt. Ein Beispiel zur Archivierung ist die Dissertation Markup Language (DiML) – als ich als HiWi daran gesessen habe, hat das allerdings noch niemand ein Strukturdatenformat genannt. Ein weiteres Format, das zur Speicherung von Strukturdaten eingesetzt werden kann ist OpenDocument (ODF). Mit der nächsten Version dürfte ODF noch interessanter werden – derzeit sitzt eine Arbeitsgruppe daran, die Einbindung von Metadaten in ODF-Dokumenten auszubauen – wer sich mit Strukturdaten beschäftigt, sollte sich das aktuelle Proposals anschauen – wie man dort sieht, geht alles in Richtung RDF. Wann welches Format vorzuziehen ist bzw. ob und wie ODF beispielsweise TEI verdrängt oder in welchem Kontext die existierenden Formate nebeneinander existieren werden, bleibt abzuwarten.

Nobelpreis in Bibliotheks- und Informationswissenschaft

15. Februar 2008 um 23:09 Keine Kommentare

Unbeachtet vom Fachpublikum und den interessierten Laien ist letztes Jahr eine bibliothekswissenschaftliche Arbeit mit dem Literatur-Nobelpreis ausgezeichnet worden! Der Ig-Nobelpreis ging an Glenda Browne für ihre Arbeit über die Indexierung des Artikels ‚the‘, die bereits 2001 in der April-Ausgabe (Band 22, Nummer 3) der Fachzeitschrift The Indexer erschien. In den Annals of Improbable Research (ISSN 1079-5146, abonniert an der SUB Köln und verfügbar als Open Access) hat es dieser spezielle Teilaspekt der Indexierung und Katalogisierung sogar auf die Titelseite der Juli/August-Ausgabe 2006 (Band 12, Nummer 4) geschafft und wird auf den Seiten 6-11 genauer behandelt! So macht Wissenschaft Spaß und das nächste mal wenn jemand fragt, ob Bibliotheks- und Informationswissenschaft überhaupt eine richtige Wissenschaft sei, gibt es endlich ein schlagendes Argument. 🙂

Digital ist besser

15. Februar 2008 um 17:23 11 Kommentare

Eigentlich habe ich ja nichts gegen gedruckte Artikel – ich blättere immer gerne in Zeitschriften jeder Art. Neulich bin ich beispielsweise auf einen anscheinend interessanten Artikel in einer gedruckten Fachzeitschrift gestoßen. Praktischerweise ist die SUB Göttingen gleich gegenüber. Dass ich erst nach über 10 Minuten das richtige Regal gefunden habe, schreibe ich mal meiner eigenen Konfusion zu. Leider waren die drei letzten Ausgaben gerade nicht vorhanden – naja vielleicht hat sie ein anderer Nutzer. Als sie jedoch die nächste Woche noch immer nicht da waren, habe ich eine freundliche Bibliothekarin gefragt, die erstmal herumtelefonieren musste. Wie sich herausstellte sind die letzten drei Ausgaben allesamt im Umlaufverfahren irgendwo im Haus und es gibt auch keine Möglichkeit herauszufinden, wer sie gerade hat. Dass eine Ausgabe einer Fachzeitschrift ein Dreivierteljahr nach Erscheinen noch immer nicht verfügung steht, weil sie bei irgendwelchen Mitarbeitern herumliegt, ist nicht nur schlechter Service sondern zeigt auch, dass das Medium Papier so manche Nachteile hat.

Papier ist ja ganz nett und vielleicht praktisch zum Archivieren, aber für neue Publikationen einfach nicht mehr zeitgemäß. Sobald in einigen Jahren elektronisches Papier leistungsfähig genug ist (und das ist deutlich abzusehen!) gibt es keinen Grund mehr, Fachartikel auf toten Bäumen zu verteilen. Sorry, aber wir verwenden auch keine Tontafeln und Pergament mehr – genau so wird es mit Papier geschehen. Bitte in Zukunft nur noch digital und Open Access. Wer sich auf den Wandel von Papier nach Digital nicht einstellen kann oder will, kann zwar mitunter Verständis für seine Situation erwarten, aber nicht dass die Entwicklung aufzuhalten sei. Wie Tocotronic schon 1995 erkannt haben: Digital ist besser.

P.S: Belletristik, Taschenbücher, Bildbände, Zeitungen etc. sind erstmal ausgenommen.

Linkserver auch beim BSZ

14. Februar 2008 um 00:20 1 Kommentar

Ich muss zugeben, dass ich den Verbundkatalog des Südwestdeutschen Bibliotheksverbundes (SWB) nur sehr selten nutze und auch nur ganz zufällig darauf gestoßen bin – jedenfalls ist mir gerade aufgefallen, dass das BSZ (die Zentrale des SWB) ebenfalls einen Linkserver für seine Kataloge anbietet. Die Eigenentwicklung des BSZ wird folgendermaßen beschrieben:

Anreicherung des Katalogs mit Internet-Ressourcen:
Die Einzeltrefferanzeige im Web-Katalog kann ergänzt werden durch die Einblendung von dynamisch erzeugten Links zum Buchhandel (z.Zt. amazon, lehmanns, kno-k&v, libri, abebooks, booklooker, zvab). Soweit dort vorhanden werden das Cover und ein direkter Link zum Medium (i.e. der ISBN) angezeigt. Der Link-Server läuft zentral im BSZ

ISBN-Suche

Im Verbundkatalog werden die Links mit dem Button „Verfügbarkeit im Buchhandel prüfen“ eingeblendet, wie zum Beispiel bei diesem guten Buch ausprobiert werden kann (siehe nebenstehendes Bild). Die Einbindung geschieht zwar nicht über eine sauber definierte Schnittstellen sondern als proprietärer HTML-Batzen, aber prinzipiell sehe ich kein Hindernis, den Service auf SeeAlso umzustellen, so dass verschiedene Linkserver einfacher gemeinsam in unterschiedliche Anwendungen eingebunden werden können. Ich habe mir erstmal verkniffen, zur Demonstration einen vollständigen SeeAlso-Proxy zu schreiben zumal dazu ein kleiner Trick notwendig wäre (stattdessen gibt es einen experimentellen Proxy für Google Buchsuche). Das Prinzip ist jedenfalls das selbe wie bei den Linkservern der VZG des GBV. Ein spontanes Lob an die Kollegen im Süden!

P.S: Der Linkserver des BSZ nimmt wie isbn2wikipedia auch ISBNs und liefert (in zusätzlichem HTML) eingebettete Links – ich hoffe das führt nicht zur irrigen Annahme, dass Linkserver nur mit ISBNs funktionieren!

P.P.S: Ich höre schon (wie bei Wikipedia) den Aufschrei der Entrüstung, aber muss es mal deutlich sagen: Google Buchsuche ist sehr nützlich und ein Link darauf fast immer ein Mehrwert. So habe ich im konkreten Fall zwar keinen Volltext aber wie gesucht Rezensionen gefunden (die FAZ-Kritik von Martin Lhotzky ist übrigens Bullshit) – Bibliotheken müssten für sowas wahrscheinlich erstmal Analysen und Regelwerke erstellen, was eine Rezension sei und wer wie wann bestimmen darf, was wie wo genau als zusätzlicher Link eingetragen wird – anstatt den Nutzer einfach selber entscheiden zu lassen.

Die Open Knowledge Foundation und Freie Informationen

13. Februar 2008 um 00:20 Keine Kommentare

Die Liste der Organisationen im Bereich Freies Wissen ist fast ein Jahr alt; statt einer aktualisierten Version (zuletzt ist das niederländische Free Knowledge Institute Mitte Januar hinzugekommen) möchte ich nochmal gesondert auf die Open Knowledge Foundation (OKF) hinweisen. Die in Großbritannien beheimatete Organisation setzt sich wie die Wikimedia Foundation und ihre Chapter für Freies Wissen ein. Während bei Wikimedia allerdings der Schwerpunkt auf enzyklopädischem Wissen und damit in Zusammenhang stehenden Bildern, Tondokumenten, Sachbüchern, Nachrichten, Zitaten, Quellen etc. steht und vor allem Wikis zu Einsatz kommen, legt die Open Knowledge Foundation den Schwerpunkt auf Daten und Informationen. Darunter fallen wie in der Open Knowledge Definition der OKF genannt wird „jegliche Art von Daten, ob naturwissenschaftlich, historisch, geographisch [oder auch] Administrative und Regierungsinformationen“.

Es gibt also große Gemeinsamkeiten zwischen OKF und Wikimedia, wie auch zwischen Wikimedia und Creative Commons (CC). Noch stärker ist vom Thema her allerdings die Gemeinsamkeit der OKF mit dem CC-Projekt Science Commons: Forscher sollen mit dieser Initiative dazu ermutigt werden, ihre Forschungsdaten zur weiteren Verwendung freizugeben – eine überaus sinnvolles Anliegen!

Weitere Informationen, deren Befreiung ansteht sind unter Anderem Geoinformationen, Katalogdaten von Bibliotheken (sic!) und Informationen des öffentlichen Nahverkehrs. Um mehr Daten zu sammeln, betreibt die OKF das Comprehensive Knowledge Archive Network (CKAN) und die Datenbank KnowledgeForge. In die gleiche Richtung zielt die von Creative Commons und Electronic Frontier Foundation (EFF) initiierte Befereiung von fast 2 Millione US-Rechtsdokumenten, die es anscheinend noch in keinen deutschsprachigen Blog geschafft hat (Erster! :-))

Am 15. März 2008 veranstaltet die OKF in London die zweite Open Knowledge Conference statt. Ich hoffe mal, das da etwas mehr engagierte Streiter für freies Wissen und freie Informationen zusammenkommen – auf der Britischen Insel scheinen die Wikipedianer und Wikimedianer im Gegensatz zu den Deutschen leider etwas verschnarcht zu sein, was Aktionen außerhalb der begrenzten Welt ihres Wikis betrifft 😉

P.S: Auf eine genauere Analyse der Unterschiede zwischen Wissen und Information und ihrer Zusammenhänge verzichte ich an dieser Stelle mal, obgleich das Thema immer wichtiger wird. Dass sich hinter vielem was „Knowledge“ heisst, eher Informationen oder Daten verbergen und dass auch Wissen keine alleinige Entscheidungsgrundlage sein kann, dürfte hoffentlich klar sein!