Programme zur Annotation von PDF-Dateien

14. Oktober 2010 um 21:59 9 Kommentare

Die anhaltende Verbreitung des seitenorientierten Portable Document Format (PDF) kann ich als Informationswissenschaftler als reaktionäres Phänomen zur fortschreitenden Digitalisierung von Dokumenten ansehen, Mittelfristig wird sich der Dokumentbegriff von traditionellen Konzepten wie „Original“ und „Seite“ lösen. Hier und jetzt lassen sich PDF-Dateien aber nicht vermeiden und sind zudem ein relativ einfache Methode, Texte so zu verbreiten, dass sie beim Empfänger auch so ankommen, wie es sich der Autor gedacht hat.

Im Gegensatz zum Papier fehlt PDF-Dateien aber oft die einfache Möglichkeit, Anmerkungen, Korrekturen und Kommentare anzubringen. Dies ist im PDF-Format zwar vorgesehen, aber den meisten PDF-Viewern fehlt diese Funktion. Zudem ist das Annotieren von Texten am Bildschirm nicht so Bequem wie auf Papier, was sich mit besseren Lesegeräten aber schnell ändern kann. Praktisch wäre auch ein etabliertes Dateiformat, um nur die Anmerkungen platzsparend getrennt von ihrer PDF-Datei weitergeben zu können. Ich habe mal ein wenig recherchiert, was es für Programme gibt, mit denen PDF-Dateien kommentiert werden können. Die Kommentare sollten dabei gespeichert und weitergegeben werden können, so dass sie mit jedem gängigen PDF-Viewer lesbar sind.

Wie hier beschrieben beinhaltet Apples Standard-PDF Reader unter OS X die Möglichkeit, Anmerkungen an PDF-Dateien anzubringen. Unter iPhone und iPad bietet anscheinend das Programm Aji Annotate PDF ähnliche Funktionen, allerdings habe ich nicht ausprobiert, ob die Anmerkungen auch direkt im PDF gespeichert werden, so dass sie bei Weitergabe der Datei verfügbar sind (das Programm kostet 4 Euro).

Für Windows habe ich zwei PDF-Reader mit Kommentarfunktion gefunden. Abgesehen von der Adobe-PDF-Suite, die für den Privatgebrauch viel zu teuer ist, gibt es Foxit PDF (download) und PDF-XChange Viewer. Beide Programme sind kostenlos, besitzen aber erweiterte Versionen, die man sich dazukaufen kann – zum einfachen Anmerken von Dokumenten sollte es auch so reichen. Außerdem gibt es noch PDF Annotator in der 60-Tage Testversion.

Für Linux sah es lange Zeit schlecht aus; neben einer Version des proprietären Foxit Reader, gibt es das Programm Xournal (siehe Bericht). PDF-Dateien können in Xournal allerdings nur als Hintergrundbild geladen, also beispielsweise nicht durchsucht werden, aber die Anmerkungen lassen sich direkt im PDF speichern. Beim Öffnen mit dem Ubuntu-PDF-Viewer Evince sind die Anmerkungen zwar sichtbar, können aber nicht gezielt durchblättert oder ein- und ausgeschaltet werden, weil sie von Xournal nur als normaler Teil des Dokumentes gespeichert werden. In Evince selber wird momentan die Unterstützung für Anmerkungen eingebaut (bzw. ist teilweise schon ab Gnome 2.28 vorhanden), aber die Anmerkungen werden nicht im PDF selber gespeichert. Schade, das ist für mich ein Ausschlußkriterium, mir jetzt schon ein Linux-basiertes Tablet zuzulegen.

Eine passende Webanwendung ist a.nnotate.com. Die PDF-Datei wird hier hochgeladen und kann dann online bearbeitet und mit Anmerkungen heruntergeladen werden. Allerdings sind nur 30 Seiten pro Monat kostenlos.

Und natürlich kann man die PDF-Datei auch ausdrucken, darin herumkritzeln und anschließend ggf. wieder einscannen. Was benutzt ihr um PDF-Dokumente zu kommentieren, z.B. zum Korrekturlesen?

P.S: I summarized some ideas on how to express and exchange annotations in a new project to extract/merge PDF annotation in XFDF format. There is also an overview of existing works on annotation and the „beyond the PDF“ projects collects ideas.

P.P.S: Interessant in diesem Zusammenhang ist auch die Möglichkeit, Anmerkungen per elektronischem Stift anzubringen, z.B. mit dem CoScribe Smartpen.

Zwei Jahre PICA::Record

20. Juli 2009 um 17:06 3 Kommentare

Heute vor zwei Jahren habe ich die erste öffentliche Version von PICA::Record auf CPAN hochgeladen. Das Comprehensive Perl Archive Network (CPAN) ist ein umfassendes Repository von Open-Source-Modulen für die Programmiersprache Perl. Mit Perl habe ich erst relativ spät angefangen, die die Sprache nicht sauber definiert und für ihre mögliche Unleserlichkeit bekannt ist. Andererseits trifft zu, was Larry Wall, der Autor von Perl 1999 sagte:

The very fact that it’s possible to write messy programs in Perl is also what makes it possible to write programs that are cleaner in Perl than they could ever be in a language that attempts to enforce cleanliness.

Die Tatsache, dass Programme (und damit ist hier der Quellcode gemeint) als „schön“ bezeichnet werden können zeigt, dass Programmieren auch als eine Kunst angesehen werden kann – und die Bühne für Perl ist dabei CPAN 🙂 Ãœbrigens habe ich bislang noch keine schöne kommerzielle Bibliothekssoftware gesehen – aber Bibliotheken geht es beim Erwerb von Software ja auch weniger darum, dass sie etwas schönes und sinnvolles mit der Software anfangen können, sondern darum dass sie die Verantwortung an einen Softwarehersteller abschieben können.

Das Modul PICA::Record hat wahrscheinlich nur einen ziemlich begrenzten Anwenderkreis, da das PICA+ Datenformat sogar bei vielen Bibliothekaren eher unbekannt ist. Inzwischen ist wahrscheinlich PICA::Record mit allen Beschreibungen, Tests und Beispielen selbst die umfangreichste Dokumentation zu PICA+. Seit dem Bibliothekstag 2009 gibt es auch eine Kurzbeschreibung als Faltblatt auf Deutsch („Verarbeiten von PICA+ Daten mit PICA::Record„). Die aktuelle Version enthält als neuestes die Möglichkeit, PICA-Daten in einer SQL-Datenbank (bislang: SQLite) zu speichern (PICA::SQLiteSTore) und über ein Wiki (PICA+Wiki) darauf zuzugreifen. Für kommende Versionen ist der Ausbau dieses „CMS-Light“, einer Erweiterung der SOAP-API zum Lesen und Schreiben von Datensätzen sowie eine bessere Unterstützung von Lokaldaten geplant.

Sicher gibt es schönere Programmiersprachen als Perl, aber wenn schon mehr Personen im Bibliotheksumfeld programmieren (oder zumindest skripten) lernen – was unbedingt notwendig ist – könnte Perl die richtige Wahl sein, da sich mit PICA::Record bereits nach kurzer Zeit praxistaugliche Ergebnisse erzielen lassen. Zum deutschsprachigen Austausch zwischen Entwicklern im Bibliotheksbereich gibt es übrigens die Mailingliste bibcode.

Neues aus der Bibliotheksentwickler-Szene

2. Februar 2009 um 13:12 2 Kommentare

Wie aus einer Pressemitteilung zu entnehmen, geht Andrew Nagy, der Hauptentwickler der Discovery-Plattform VuFind zu Serials Solutions. Die Firma entwickelt Anwendungen zum Electronic Ressource Management (ERM). Ich stelle mir das ziemlich schwierig vor, da weder Verlage noch Bibliotheken genau wissen, was unter ERM zu verstehen ist Рdabei sind die Grundprobleme von ERM organisatorischer und rechtlicher Natur und lassen sich deshalb nicht einfach mit Software erschlagen. Am Besten man setzt ganz auf Open Access, kauft den Rest pauschal als Nationallizenz und spart sich damit eine Menge unn̦tiger, komplexer Rechteverwaltung.

Serial Solutions gehört zur Cambridge Information Group (CIG), die vor kurzem eine Minderheitsbeteiligung an LibraryThing gekauft hat. Der von deutschen Bibliotheken bislang eher verschmähte Dienst LibraryThing for Libraries wird in Zukunft über die CIG-Tochter Bowker vertrieben. Weitere Firmen von CIG sind unter Anderem AquaBrowser, ProQuest, Dialog und RefWorks. Damit ist CIG ein nicht zu unterschätzender Anbieter von Bibliothekssoftware und -diensten. Bleibt zu hoffen, dass die Open Source-Entwicklung nicht darunter leidet, denn proprietäre, geschlossene Produkten können noch so innovativ sein, sie bleiben Einbahnstraßen.

Mehr zu Bibliothekssoftware

7. Mai 2008 um 12:45 Keine Kommentare

Anknüpfend an die US-Umfrage zu Bibliothekssystemen möchte ich auf die unterhaltsame, vonLibrary Mistress ausgegrabene Liste „Bibliothekssoftware 1991“ hinweisen. Vor acht Jahren gab es vom DBI mal eine Umfrage zum „Softwareeinsatz in Bibliotheken“ – das ist aber höchstens noch historisch von Interesse. Michael Lackhoff bietet eine Linksammlung zu Bibliothekssoftware, die allerdings auch nur einen Ausschnitt enthält und nicht ganz aktuell ist – so fehlen beispielsweise die gesamten PICA-Produkte (was auch daran liegt, dass PICA bzw. OCLC, die Produkte nicht richtig vermarkten), neuere Entwicklungen wie VuFind und Evergreen und hoch-relevante Hintergrund-Techniken wie Lucene (mehr zu aktuellen Entwicklungen bei OSS4LIB).

Statt monolithischer Bibliothekssoftware „von der Stange“ sind nämlich die einzelnen Komponenten (Services) und ihre Verzahnung wichtig. Leider ist dagegen noch immer die Vorstellung verbreitet, dass man sich als Bibliothek besser an einen Hersteller wendet, der einem in schön bunter Verpackung, eine Black-Box verkauft. Eine Bibliothek, die sich aber nicht selbst Gedanken darüber macht, welche Daten aus welchen Quellen wie zusammengeführt und in welcher Form bereitgestellt werden, kann eigentlich gleich ihre Mitarbeiter entlassen und auf vollautomatischen Betrieb umstellen – denn in Zukunft wird es sich bei immer mehr Publikationen um elektronische Publikationen handeln, also Daten. Folgende Vorstellung ist leider nicht aus der Luft gegriffen:

Ich dachte wir kaufen Produkt X und die richtigen Daten kommen von Zauberhand hinein, konvertieren sich von alleine und werden auf magische Weise so bereitgestellt, wie es der Nutzer möchte.

Umfrage und Studie zu Bibliothekssystemen

29. April 2008 um 10:47 6 Kommentare

Die Ergebnisse einer 2007 durchgeführten internationalen Umfrage zu Bibliothekssystemen (ILS) sind seit Januar verfügbar. Marshall Breeding hat die Umfrage durchgeführt und stellt mehrere Statistiken bereit (ansonsten schreibt Breeding an verschiedenen Stellen zur „New Generation of Library Interfaces„). Die in Deutschland verwendeten Bibliothekssysteme sucht man vergeblich: PICA LBS: 1 Antwort, LIBERO: 3 Antworten, Allegro: 0 Antworten, SISIS-SunRise: 0 Antworten. Angesichts der niedrigen Beteiligung aus Deutschland ist das aber auch nicht verwunderlich: von 1783 Antworten kamen genausoviele von Deutschen Bibliotheken, wie beispielsweise aus Malaysia, Libanon oder Singapur: nämlich 2. Es sei aber bemerkt, dass auch aus den im Vergleich zu Deutschland hinsichtlich ihrer Bibliothekssysteme aktiveren Niederlanden nur 5 Antworten kommen, die Masse ist aus dem Englischsprachigen Raum.

Ein wenig seltsam finde ich das schon, was ist die Schlussfolgerung? Deutsche Bibliotheken interessieren sich nicht für ihre Bibliothekssysteme? Deutsche Bibliotheken nehmen nicht an internationalen Umfragen teil? Die in Deutschland verwendeten Bibliothekssysteme sind sowieso hoffnungslos irrelevant? Was Softwaremäßig außerhalb des deutschen Bibliothekstellerands geschieht interessiert nicht? Umfragen werden überbewertet? …

Auf eine weitere Studie weist Lorcan Dempsey hin: „Library Management Systems Study: An Evaluation and horizon scan of the current library management systems and related systems landscape for UK higher education“ (PDF). Die Studie enthält einige sehr bemerkenswerten allgemeinen Aussagen („Key trends“) über die Entwicklung von Bibliothekssystemen: Standards, Web Services, Konsortien, Open Source, Open Data, Entkoppelte Systeme (Serviceorientierte Architektur). Es lohnt sich also auch hier mal reinzuschauen (wenn man sich für die Zukunft von Bibliothekssystemen interessiert). [via Web4lib].

Diagramme aus R mit OpenOffice weiterverarbeiten

27. Februar 2008 um 18:16 3 Kommentare

Meine Einstellung zu der Statistik-Software R lässt sich am ehensten als Hassliebe bezeichnen. Einerseits kann man mit R alles machen, was auch nur irgendwie mit Statistik und aus Datenreihen zu tun hat. Alle Funktionen sind frei programmierbar, so dass sich Datananalyse schön automatisieren lässt – zum Beispiel mit Rpad. Andererseits ist die Lernkurve von R wirklich nicht flach und die Bedienung, naja… Kommandozeile halt. Vereinfacht ausgedrückt verhält sich R in etwa zu Excel wie LaTeX zu Word. Allein schon der bekloppte Name, wie soll man denn danach Googeln? Als hilfreich kann ich die R Reference Card von Tom Short empfehlen, weitere Tips gibt es im R Wiki.

Nach viel zu viel Herumprobieren, habe ich herausgefunden, dass sich Diagramme aus R nach OpenOffice exportieren lassen – ohne etwas Feinschliff in Handarbeit sehen automatisch erzeugte Diagramm nämlich meist doch recht mäßig aus. Und das geht so:

  • Diagram wie gewohnt in R erstellen (plot etc.). Die Größe des Grafikfensters lässt sich mit der Maus anpassen.
  • Mit dev.copy(xfig,encoding='latin1',width=par()$din[1],height=par()$din[2]); dev.off() wird die aktuelle Grafikausgabe gespeichert im XFig-Format. Mit dem Parameter family kann zusätzlich eine Schriftart ausgewählt werden (siehe ?xfig).
  • Mit dem Programm fig2sxd von Alexander Bürger (vielen Dank!) wird die .fig-Datei nach OpenOffice Draw konvertiert. Ich muss bisher die Datei vorher jedesmal kurz mit XFig öffnen und speichern, vielleicht lässt sich das noch vereinfachen.
  • In OpenOffice Draw können nun Änderungen und Ergänzungen am Diagram vorgenommen werden. Irgendwie komme ich bisher nicht an die Texte ran, aber das finde ich hoffentlich auch noch raus.

Natürlich kann man auch mit XFig arbeiten, was von der Usability aber recht dürftig ist. Am liebsten wäre mir, wenn R gleich SVG exportieren würde, dann könnte man mit Incscape rangehen, vielleicht kommt das ja noch – ist schließlich alles OpenSource, da kann und/oder muss man fehlende Funktionen im Zweifelsfall eben selber dazu stricken.

OCLC Grid Services – first insights

28. November 2007 um 10:58 1 Kommentar

I am just sitting at a library developer meeting at OCLC|PICA in Leiden to get to know more about OCLC Service Grid, WorldCat Grid, or whatever the new service-oriented product portfolio of OCLC will be called. As Roy Tennant pointed out, our meeting is „completely bloggable“ so here we are – a dozen of European kind-of system librarians.

The „Grid Services“ that OCLC is going to provide is based on the „OCLC Services Architecture“ (OSA), a framework by which network services are built – I am fundamentally sceptical on additional frameworks, but let’s have a look.

The basic idea about services is to provide a set of small methods for a specific purpose that can be accessed via HTTP. People can then use this services and build and share unexpected application with them – a principle that is called Mashups.

The OCLC Grid portfolio will have four basic pillars:

network services: search services, metadata extraction, identity management, payment services, social services (voting, commenting, tagging…) etc.

registries and data resources: bibliographic registries, knowledge bases, registries of institutions etc. (see WorldCat registries)

reusable components: a toolbox of programming components (clients, samples, source code libraries etc.)

community: a developer network, involvement in open source developement etc.

Soon after social services were mentioned, at heavy discussion on reviews, and commenting started – I find the questions raised with user generated content are less technical but more social. Paul stressed that users are less and less interested in metadata but directly want the content of an information object (book, article, book chapter etc.). The community aspect is still somehow vague to me, we had some discussion about it too. Service oriented architecture also implies a different way of software engineering, which can partly be described by the „perpetual beta“ principle. I am very exited about this change and how it will be practised at OCLC|PICA. Luckily I don’t have to think about the business model and legal part which is not trivial: everyone wants to use services for free, but services need work to get established and maintained, so how do we best distribute the costs among libraries?

That’s all for the introduction, we will get into more concrete services later.

Mashups und Mashup-Editoren

26. November 2007 um 01:50 4 Kommentare

Unter der Bezeichnung ‚Mashups‘ spielt im Internet das Zusammenführen von verschiedenen Quellen und Diensten eine zunehmende Rolle. Der folgende studentische Beitrag gibt eine kurze Einführung in das Thema Mashups und Mashup-Editoren. Dazu gibt es eine passendes Beispiel bei Pageflakes und eine weiterführende Literaturliste bei BibSonomy.
Beitrag Mashups und Mashup-Editoren weiterlesen…

Library Software Manifesto

7. November 2007 um 11:23 Keine Kommentare

Auf CODE4LIB, einer Mailingliste für Programmierung im Bibliotheks- und Informationsbereich, hat Roy Tennant den Entwurf eines „Library Software Manifesto“ veröffentlicht:

Consumer Rights:
– I have a right to use what I buy
– I have a right to the API if I’ve bought the product
– I have a right to accurate, complete documentation
– I have a right to my data
– I have a right to not have simple things needlessly complicated

Consumer Responsibilities:
– I have a responsibility to communicate my needs clearly and specifically
– I have a responsibility to report reproducible bugs in a way as to
facilitate reproducing it
– I have a responsibility to report irreproducible bugs with as much detail
as I can provide
– I have a responsibility to request new features responsibly
– I have a responsibility to view any adjustments to default settings
critically

Bemerkenswert ist, dass sowohl „Consumer Rights“ als auch „Consumer Responsibilities“ aufgeführt werden. Letztere werden aus Entwicklersicht momentan sogar stärker diskutiert. Aus meiner eigenen Erfahrung kann ich bestätigen, dass in Bibliotheken Software noch immer zu oft passiv als fertiges Produkt verstanden wird, anstatt als Werkzeugkasten, mit dem man sich auseinandersetzen muss.

Open Source Bibliothekssysteme

19. September 2007 um 16:51 3 Kommentare

Bereits im Mai berichtete ein Entwickler bei LibLime von der Einbindung von xISBN, thingISBN und oISBN (noch so ein Dienst und zwar vom Open Source Bibliothekssystem Evergreen) in den Katalog der Nelsonville Public Library, der mit (ebenfalls OpenSource) Koha betrieben wird. Die seit 2005 aktive Firma LibLime bezeichnet sich übrigens als „Leader in Open Source for Libraries“ und reiht sich damit neben Indexdata und Talis in die Reihe der „Bibliothekssoftwareanbieter 2.0“ ein, die als Davids den Goliaths SirsiDynix (Unicorn, Horizon), Endeavor (Voyager), Innovative Interfaces (Millennium), Ex Libris (Aleph) und OCLC (PICA/Sisis) möglicherweise demnächst das Fürchten lehren. Als Distributor ist LibLime in etwa sowas wie Redhat, Suse oder Ubuntu für Linux ist. VUFind haben sie anscheinend noch nicht im Angebot und dass die deutschen Lösungen OpenBib (auch Open Source) oder XOpac (kein Open Source aber mit OpenSource gebaut) den Sprung über den großen Teich schaffen, bezweifle ich – was anscheinend bisher fehlt ist ein Anbieter, der auch in Deutschland als Distributor Open Source Bibliothekssysteme zur Verfügung stellt und den lokalen Bedürfnissen anpasst (nein, ich habe nicht vor, mich selbständig zu machen ;-).

P.S: Auf der PACINET 2008 (cool, da möchte ich auch mal teilnehmen!) gab Chris Hammond Thrasher von den Fiji-Inseln einen Vortrag zu Koha and Greenstone: open source library software in the Pacific. Meineswissens ist Koha ein richtiges integriertes Bibliothekssystem (ILS) während Greenstone als Digital Library Management System für digitale Sammlungen gedacht ist.

P.P.S: Und noch ein Beitrag was Open Source und Bibliotheken gemeinsam haben.