PICA « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Mapping bibliographic record subfields to JSON

13. April 2011 um 16:26 4 Kommentare

The current issue of Code4Lib journal contains an article about mapping a bibliographic record format to JSON by Luciano Ramalho. Luciano describes two approaches to express the CDS/ISIS format in a JSON structure to be used in CoudDB. The article already provoked some comments – that’s how an online journal should work!

The commentators mentioned Ross Singer’s proposal to serialize MARC in JSON and Bill Dueber’s MARC-HASH. There is also a MARC-JSON draft from Andrew Houghton, OCLC. The ISIS format reminded me at PICA format which is also based on fields and subfields. As noted by Luciano, you must preserves subfield ordering and allow for repeated subfields. The existing proposals use the following methods for subfields:

Luciano’s ISIS/JSON:

[ ["x","foo"],["a","bar"],["x","doz"] ]

Ross’s MARC/JSON:

"subfields": [ {"x":"foo"},{"a":"bar"},{"x":"doz"} ]

Bill’s MARC-HASH:

[ ["x","foo"],["a","bar"],["x","doz"] ]

Andrew’s MARC/JSON:

"subfield": [
  {"code":"x","data":"foo"},{"code":"a","data":"bar"},
  {"code":"x","data":"doz"} ]

In the end the specific encoding does not matter that much. Selecting the best form depends on what kind of actions and access are typical for your use case. However, I could not hesitate to throw my encoding used in luapica into the ring:

{ "foo", "bar", "doz", 
  ["codes"] = { 
    ["x"] = {1,3}
    ["a"] = {2}
}}

I think about further simplifying this to:

{ "foo", "bar", "doz", ["x"] = {1,3}, ["a"] = {2} }

If f is a field than you can access subfield values by position (f[1], f[2], f[3]) or by subfield code f[f.x[1]],f[f.a[1]],f[f.x[2]]. By overloading the table access method, and with additional functions, you can directly write f.x for f[f.x[1]] to get the first subfield value with code x and f:all("x") to get a list of all subfield values with that code. The same structure in JSON would be one of:

{ "values":["foo", "bar", "doz"], "x":[1,3], "a":[2] }

{ "values":["foo", "bar", "doz"], "codes":{"x":[1,3], "a":[2]} }

I think a good, compact mapping to JSON that includes an index could be:

[ ["x", "a", "x"], {"x":[1,3], "a":[2] },
  ["foo", "bar", "doz"], {"foo":[1], "bar":[2], "doz":[3] } ]

And, of course, the most compact form is:

["x","foo","a","bar","x","doz"]

Tags: Data Modeling, Formats, JSON, PICA 4 Kommentare

Zwei Jahre PICA::Record

20. Juli 2009 um 17:06 3 Kommentare

Heute vor zwei Jahren habe ich die erste Ã¶ffentliche Version von PICA::Record auf CPAN hochgeladen. Das Comprehensive Perl Archive Network (CPAN) ist ein umfassendes Repository von Open-Source-Modulen fÃ¼r die Programmiersprache Perl. Mit Perl habe ich erst relativ spÃ¤t angefangen, die die Sprache nicht sauber definiert und fÃ¼r ihre mÃ¶gliche Unleserlichkeit bekannt ist. Andererseits trifft zu, was Larry Wall, der Autor von Perl 1999 sagte:

The very fact that itâ€™s possible to write messy programs in Perl is also what makes it possible to write programs that are cleaner in Perl than they could ever be in a language that attempts to enforce cleanliness.

Die Tatsache, dass Programme (und damit ist hier der Quellcode gemeint) als „schÃ¶n“ bezeichnet werden kÃ¶nnen zeigt, dass Programmieren auch als eine Kunst angesehen werden kann – und die BÃ¼hne fÃ¼r Perl ist dabei CPAN 🙂 Ãœbrigens habe ich bislang noch keine schÃ¶ne kommerzielle Bibliothekssoftware gesehen – aber Bibliotheken geht es beim Erwerb von Software ja auch weniger darum, dass sie etwas schÃ¶nes und sinnvolles mit der Software anfangen kÃ¶nnen, sondern darum dass sie die Verantwortung an einen Softwarehersteller abschieben kÃ¶nnen.

Das Modul PICA::Record hat wahrscheinlich nur einen ziemlich begrenzten Anwenderkreis, da das PICA+ Datenformat sogar bei vielen Bibliothekaren eher unbekannt ist. Inzwischen ist wahrscheinlich PICA::Record mit allen Beschreibungen, Tests und Beispielen selbst die umfangreichste Dokumentation zu PICA+. Seit dem Bibliothekstag 2009 gibt es auch eine Kurzbeschreibung als Faltblatt auf Deutsch („Verarbeiten von PICA+ Daten mit PICA::Record„). Die aktuelle Version enthÃ¤lt als neuestes die MÃ¶glichkeit, PICA-Daten in einer SQL-Datenbank (bislang: SQLite) zu speichern (PICA::SQLiteSTore) und Ã¼ber ein Wiki (PICA+Wiki) darauf zuzugreifen. FÃ¼r kommende Versionen ist der Ausbau dieses „CMS-Light“, einer Erweiterung der SOAP-API zum Lesen und Schreiben von DatensÃ¤tzen sowie eine bessere UnterstÃ¼tzung von Lokaldaten geplant.

Sicher gibt es schÃ¶nere Programmiersprachen als Perl, aber wenn schon mehr Personen im Bibliotheksumfeld programmieren (oder zumindest skripten) lernen – was unbedingt notwendig ist – kÃ¶nnte Perl die richtige Wahl sein, da sich mit PICA::Record bereits nach kurzer Zeit praxistaugliche Ergebnisse erzielen lassen. Zum deutschsprachigen Austausch zwischen Entwicklern im Bibliotheksbereich gibt es Ã¼brigens die Mailingliste bibcode.

Tags: Perl, PICA, Software 3 Kommentare

Umfrage und Studie zu Bibliothekssystemen

29. April 2008 um 10:47 6 Kommentare

Die Ergebnisse einer 2007 durchgefÃ¼hrten internationalen Umfrage zu Bibliothekssystemen (ILS) sind seit Januar verfÃ¼gbar. Marshall Breeding hat die Umfrage durchgefÃ¼hrt und stellt mehrere Statistiken bereit (ansonsten schreibt Breeding an verschiedenen Stellen zur „New Generation of Library Interfaces„). Die in Deutschland verwendeten Bibliothekssysteme sucht man vergeblich: PICA LBS: 1 Antwort, LIBERO: 3 Antworten, Allegro: 0 Antworten, SISIS-SunRise: 0 Antworten. Angesichts der niedrigen Beteiligung aus Deutschland ist das aber auch nicht verwunderlich: von 1783 Antworten kamen genausoviele von Deutschen Bibliotheken, wie beispielsweise aus Malaysia, Libanon oder Singapur: nÃ¤mlich 2. Es sei aber bemerkt, dass auch aus den im Vergleich zu Deutschland hinsichtlich ihrer Bibliothekssysteme aktiveren Niederlanden nur 5 Antworten kommen, die Masse ist aus dem Englischsprachigen Raum.

Ein wenig seltsam finde ich das schon, was ist die Schlussfolgerung? Deutsche Bibliotheken interessieren sich nicht fÃ¼r ihre Bibliothekssysteme? Deutsche Bibliotheken nehmen nicht an internationalen Umfragen teil? Die in Deutschland verwendeten Bibliothekssysteme sind sowieso hoffnungslos irrelevant? Was SoftwaremÃ¤ÃŸig auÃŸerhalb des deutschen Bibliothekstellerands geschieht interessiert nicht? Umfragen werden Ã¼berbewertet? …

Auf eine weitere Studie weist Lorcan Dempsey hin: „Library Management Systems Study: An Evaluation and horizon scan of the current library management systems and related systems landscape for UK higher education“ (PDF). Die Studie enthÃ¤lt einige sehr bemerkenswerten allgemeinen Aussagen („Key trends“) Ã¼ber die Entwicklung von Bibliothekssystemen: Standards, Web Services, Konsortien, Open Source, Open Data, Entkoppelte Systeme (Serviceorientierte Architektur). Es lohnt sich also auch hier mal reinzuschauen (wenn man sich fÃ¼r die Zukunft von Bibliothekssystemen interessiert). [via Web4lib].

Tags: Bibliothek, ILS, PICA, Sisis, Software 6 Kommentare

Schnittstelle fÃ¼r VerfÃ¼gbarkeitsdaten von BibliotheksbestÃ¤nden

21. Januar 2008 um 11:22 4 Kommentare

Letzen Dezember habe ich Ã¼ber Serviceorientierte Architektur geschrieben und bin unter Anderem auf den Heidelberger UB-Katalog eingegangen. Dabei ging es darum, wie Daten einzelner Exemplare von BibliotheksbestÃ¤nden – speziell VerfÃ¼gbarkeitsdaten – Ã¼ber eine Schnittstelle abgefragt werden kÃ¶nnen. Bislang gibt es dafÃ¼r keinen einfachen, einheitlichen Standards sondern hÃ¶chstens verschiedende proprietÃ¤re Verfahren. Till hat mich zu Recht auf den Artikel „Beyond OPAC 2.0: Library Catalog as Versatile Discovery Platform“ hingewiesen, in dem die API-Architektur des Katalogs an der North Carolina State University vorgestellt wurde. Die Beispiele zeigen gut, was mit dem Buzzword „Serviceorientierte Architektu“ eigentlich gemeint ist, wie sowas in Bibliotheken umgesetzt werden kann und was fÃ¼r Vorteile der Einsatz von einfachen, webbasierten Schnittstellen bringt. Die als CatalogWS bezeichnete API ist – wie es sich gehÃ¶rt – offen dokumentiert. CatalogWS enthÃ¤lt einen Catalog Availability Web Service, der ausgehend von einer ISBN ermittelt, in welchen (Teil)bibliotheken ein Titel verfÃ¼gbar oder ausgeliehen ist.

Bei Bedarf kÃ¶nnte ich mal versuchen, diese API fÃ¼r die GBV-Kataloge zu implementieren. Andererseits sollte man sich vielleicht erstmal Gedanken darÃ¼ber machen, was es noch fÃ¼r Kandidaten fÃ¼r eine VerfÃ¼gbarkeitsschnittstelle gibt und welche Daten Ã¼ber so eine Schnittstelle abfragbar sein sollten: Das NCIP-Protokoll scheint mir wie Z39.50 nicht wirklich zukunftsfÃ¤hig zu sein. Janifer Gatenby macht in ihrem Vortrag „Bridging the gap between discovery and delivery“ (PPT) weitere durchdachte VorschlÃ¤ge. Auf den Mailinglisten CODE4LIB und PERL4LIB habe ich letzte Woche herumposaunt, wie wichtig eine Holding-API wÃ¤re und dass das doch alles eigentlich ganz einfach sei. Neben Iinteressanten Bemerkungen zu FRBR bin ich daraufhin auf Holding-data in Z39.50 hingewiesen worden. In den PICA-LBS-Systemen stehen die VerfÃ¼gbarkeitsdaten soweit ich es herausgefunden, habe im Feld 201@, aber nur teilweise. FÃ¼r die weitere Umsetzung wÃ¤re es wahrscheinlich sinnvoll, erstmal alle in der Praxis vorkommenden VerfÃ¼gbarkeits-Stati (ausleihbar, PrÃ¤senzbestand, Kurzausleihe, ausgeliehen, unbekannt…) zu ermitteln. FÃ¼r elektronische Publikationen sollte die Schnittstelle auÃŸerdem irgendwie mit existierenden Linkresolvern zusammenarbeiten kÃ¶nnen. Eine einfache Schnittstelle fÃ¼r VerfÃ¼gbarkeitsdaten von Bibliotheken ist also nicht ganz trivial, aber solange nicht jeder Spezialfall berÃ¼cksichtigt wird oder erstmal ein Gremium eingesetzt werden muss, dÃ¼rfte es machbar sein. Hat sonst noch jemand Interesse?

Tags: API, Bibliothek, GBV, Katalog, PICA, SOA 4 Kommentare

OCLC Grid Services – first insights

28. November 2007 um 10:58 1 Kommentar

I am just sitting at a library developer meeting at OCLC|PICA in Leiden to get to know more about OCLC Service Grid, WorldCat Grid, or whatever the new service-oriented product portfolio of OCLC will be called. As Roy Tennant pointed out, our meeting is „completely bloggable“ so here we are – a dozen of European kind-of system librarians.

The „Grid Services“ that OCLC is going to provide is based on the „OCLC Services Architecture“ (OSA), a framework by which network services are built – I am fundamentally sceptical on additional frameworks, but let’s have a look.

The basic idea about services is to provide a set of small methods for a specific purpose that can be accessed via HTTP. People can then use this services and build and share unexpected application with them – a principle that is called Mashups.

The OCLC Grid portfolio will have four basic pillars:

network services: search services, metadata extraction, identity management, payment services, social services (voting, commenting, tagging…) etc.

registries and data resources: bibliographic registries, knowledge bases, registries of institutions etc. (see WorldCat registries)

reusable components: a toolbox of programming components (clients, samples, source code libraries etc.)

community: a developer network, involvement in open source developement etc.

Soon after social services were mentioned, at heavy discussion on reviews, and commenting started – I find the questions raised with user generated content are less technical but more social. Paul stressed that users are less and less interested in metadata but directly want the content of an information object (book, article, book chapter etc.). The community aspect is still somehow vague to me, we had some discussion about it too. Service oriented architecture also implies a different way of software engineering, which can partly be described by the „perpetual beta“ principle. I am very exited about this change and how it will be practised at OCLC|PICA. Luckily I don’t have to think about the business model and legal part which is not trivial: everyone wants to use services for free, but services need work to get established and maintained, so how do we best distribute the costs among libraries?

That’s all for the introduction, we will get into more concrete services later.

Tags: digital library, Mashup, Open Source, PICA, Software 1 Kommentar

Mehr zu Schnittstellen von Bibliothekssystemen

14. September 2007 um 11:47 5 Kommentare

Angeregt durch eine Frage zu SNLP auf Inetbib habe ich anknÃ¼pfend an meine vorhergehenden Ãœberlegungen etwas weiter im Netz nach Schnittstellen zu Bibliothekssystemen recherchiert. Leider steht der Grad deren Dokumentation im umgekehrten VerhÃ¤ltnis zu ihrer Vielfalt. Die von Marshall Breeding publizierte Ãœbersicht von Bibliothekssystemen ist auch nicht gerade vollstÃ¤ndig, so hat er anscheinend von PICA noch nicht gehÃ¶rt. Deshalb erheben folgende Funde auch keinen Anspruch auf VollstÃ¤ndigkeit:

ZunÃ¤chst einmal sind als Suchprotokolle das altehrwÃ¼dige Z39.50 und dessen Nachfolger SRU/SRW zu nennen. Zum asynchronen Abholen von Metadaten gibt es OAI-PMH. OAI wurde im Rahmen der Open Access- Bewegung fÃ¼r Preprint-Server eingesetzt und wird noch immer vor allem fÃ¼r Dokumentenserver eingesetzt. Etwas zwischen Schnittstelle und Format ist OpenURL angesiedelt, das fÃ¼r Linkresolver entwickelt wurde und inzwischen mit COinS auch zur Ãœbertragung von Metadaten verwendet wird.

Was weitere Schnittstellen angeht sieht es leider etwas dÃ¼rftig aus was die freie VerfÃ¼gbarkeit betrifft. Die SirsiDynix-Werbeseite auf der statt auf Dokumentation auf Fortbildungen verwiesen wird, finde ich da symptomatisch: Es gibt zwar Ã¼berall etwas aber jedes System hat seine eigene Schnittstelle, auf die sowieso nicht von AuÃŸen zugegriffen werden kann. Dazu gehÃ¶rt auch das Simple Library Network Protocol (SLNP), welches als interne API fÃ¼r Bibliothekssysteme der Sisis Informationssysteme GmbH entwickelt wurde und inzwischen auch von anderen Systemen wie Aleph, Bibliotheca unterstÃ¼tzt wird, um die Fernleihe zu koordinieren. Das alles spielt sich aber rein intern ab und hat mit Web 2.0 und Bibliotheks-Mashups noch nichts zu tun.

Auch im Open-Source-Bereich sieht es nicht besser aus. FÃ¼r Koha ist bislang nur eine API geplant und die OpenSRF benannte API des ebenfalls freien Evergreen ist in seiner UnÃ¼bersichtlichkeit und KomplexitÃ¤t auch eher fÃ¼r interne Zwecke gedacht. Die Talis API (siehe Dokumentation) sieht ganz gut durchdacht aus und wÃ¤re wahrscheinlich fÃ¼r viele Anwendungen brauchbar, aber ich kenne kein Bibliothekssystem, das sie unterstÃ¼tzt – dass so im luftleeren Raum dauerhaft verlÃ¤ssliche Schnittstellen entstehen, bezweifle ich. Etwas besser sieht die Open Library WebServices aus, die Oliver Flimm zur Anbindung von SISIS-Systemen an OpenBib entwickelt hat.

Worauf ich jedoch warte sind weitere Schnittstellen, die ohne groÃŸen Aufwand als Webservices auch von AuÃŸen benutzt kÃ¶nnen. Beispielsweise wÃ¤re nicht nur fÃ¼r Anbieter wie BÃ¼cherwecker eine API hilfreich, mit der Nutzer ihre Ausleihen samt RÃ¼ckgabedatum abfragen kÃ¶nnen. GlÃ¼cklicherweise hat – wie dem Vortrag von Norbert Weinberger auf der GBV Verbundkonferenz zu entnehmen ist – auch OCLC die Zeichen der Zeit erkannt und will in Zukunft mit einem „WorldCat Grid“ mehr in Richtung Serviceorientierte Architektur gehen. Ich bin gespannt, was sich da alles ergibt.

Falls keine API existiert oder diese nicht ausreichend dokumentiert ist, muss man wohl erstmal direkt auf die interne Datenbank des Bibliothekssystems zugreifen und selber etwas stricken. Das ist in der Regel aber nur dem Anbieter mÃ¶glich und stellt keine nachhaltige LÃ¶sung dar. Bei Horizon soll das ganz gut gehen, hab ich mir sagen lassen. MÃ¶glicherweise kann auch noch mehr aus den Katalogdaten rausgeholt werden, die Ã¼ber Z39.50 oder SRU erhÃ¤ltlich sind. Bei PICA-Systemen steht der Ausleihstatus eines Mediums (ausleihbar, ausgeliehen, PrÃ¤senzbestand…) zum Beispiel anscheinend in Feld 201@, so sicher bin ich mir da aber nicht.

FÃ¼r weitere Recherchen zum Thema habe ich im GBV Wiki habe ich vor einigen Wochen etwas mehr zu Webservices zusammengesammelt.

Tags: Bibliothek, Katalog, Katalog 2.0, OpenBib, PICA, Sisis, SOA, Webservices 5 Kommentare

GBV-Verbunddaten weiterverarbeiten mit SRU-Schnittstelle und Perl

20. August 2007 um 14:58 2 Kommentare

Ende Juli habe ich im Rahmen meiner Arbeit bei der VZG mit PICA::Record eine Perl-API zur Verarbeitung von PICA+-Daten verÃ¶ffentlicht. PICA+ ist das interne Katalogformat von PICA-Bibliothekssystemen, die neben dem GBV und den VerbÃ¼nden HeBIS und SWB auch bei der Deutschen Nationalbibliothek und fÃ¼r Zentralsysteme in den Niederlanden, Australien, Frankreich und England eingesetzt werden. Inzwischen ist PICA Ã¼brigens eine vollstÃ¤ndige OCLC-Tochterfirma. Mehr zum PICA+ Format findet sich in den jeweiligen Katalogisierungsrichtlinien, zum Beispiel beim GBV und in dieser kurzen EinfÃ¼hrung.

PICA::Record ist sozusagen ein Pendant zu Mike Rylanders CPAN-Modul MARC::Record, das bereits seit einigen Jahren bei MARC-Anwendern genutzt und in der Mailingliste perl4lib diskutiert wird. Feedback in Form von Anwendungen, Ideen, Bugreports etc. ist sehr willkommen – zum Beispiel Ã¶ffentlich bei der Dokumentation im GBV-Wiki. Neben der Erzeugung von DatensÃ¤tzen in PICA+, um diese in Katalogsysteme einzuspielen, eignet sich PICA::Record auch fÃ¼r die umgekehrte Richtung. Dazu ist ein einfacher SRU-Client implementiert; die entsprechende SRU-Schnittstelle bietet der GBV seit einiger Zeit inoffiziell und nun auch Ã¶ffentlich an. FÃ¼r Bibliotheks-Mashups ist die SRU-Schnittstelle ein Baustein und die Perl-API ein mÃ¶gliches Bindemittel. NatÃ¼rlich kann der Webservice auch mit anderen Methoden als mit Perl abgefragt werden.

Beispiele und Anleitungen gibt es unter Anderem in der API-Dokumentation, im Quelltext oder hier.

Tags: Bibliothek, GBV, Mashup, Perl, PICA, Webservices 2 Kommentare

Jakoblog — Das Weblog von Jakob VoÃŸ

Mapping bibliographic record subfields to JSON

Zwei Jahre PICA::Record

Umfrage und Studie zu Bibliothekssystemen

Schnittstelle fÃ¼r VerfÃ¼gbarkeitsdaten von BibliotheksbestÃ¤nden

OCLC Grid Services – first insights

Mehr zu Schnittstellen von Bibliothekssystemen

GBV-Verbunddaten weiterverarbeiten mit SRU-Schnittstelle und Perl

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch

Neueste Beiträge

Neueste Kommentare

Themen

Blogroll

Feeds

Siehe auch