Von ISBD zum Web 2.0 mit Mikroformaten

26. Juli 2007 um 14:18 15 Kommentare

Den folgenden Beitrag habe ich bereits in ähnlicher Form in INETBIB gepostet. Um ihn in die Blogosphäre einzubinden, poste ich ihn hier nochmal als Blogeintrag.

Um sich nicht im Sommerloch langweilen zu müssen, habe ich hier eine kleine Aufgabe für ISBD-Experten, Bibliothekare und andere Zukunftsinteressierte: Es geht um nicht weniger als die die Entwicklung eines bibliothekarischen Datenformates. Da der Beitrag etwas länger ist, hier eine

Zusammenfassung

1. Im Web sind mehr und mehr Daten direkt und in standardisierten Formaten zur Weiterverarbeitung verfügbar
2. Durchsetzen wird sich am Ende das, was im Browser ohne Plugin unterstützt wird
3. So wie es aussieht, werden dies Mikroformate sein
4. Für Bibliographsche Daten fehlt bislang ein Mikroformat
5. Wenn sich Bibliothekare nicht mit ihrem Sachverstand an der Entwicklung eines solchen Formates beteiligen, tun es andere – und das nicht unbedingt nach bibliothekarischen Gesichtspunkten.

Worum geht es?

Im Rahmen des „Web 2.0“-Hypes tauchen immer wieder Begriffe wie „Web 3.0“ oder „Semantic Web“ auf. Damit wird (abgesehen von der Verwendung als Buzzword) auf die folgende wichtige Entwicklung des Webs angespielt: Immer mehr Daten stehen direkt und in standardisierten Formaten zur Weiterverarbeitung zur Verfügung. Einfache Beispiele sind RSS und Dublin Core; auf der anderen Skala der Komplexität stehen Ontologien und RDF. Auch das Millionenprojekt Theseus hat zum Ziel, so genannte „semantische Technologien“ zu entwickeln.

Ich gehe jede Wette ein, dass in Zukunft mehr und mehr Daten mittels „Semantischem Markup“ in Webseiten integriert werden – bislang fehlte es jedoch an einer „Killerapplikation“ und noch ist nicht festgelegt, in welcher Form die Daten in Webseiten eingebunden werden. Eine bereits jetzt nutzbare Form für bibliographische Daten ist das auf OpenURL basierende COinS (ContextObjects in Spans). Allgemeinere Formen für verschiedene Arten von Daten sind Microformats und RDFa (hier ein Vergleich der beiden und ein Beispiel auf Deutsch hier von Carsten Schulze).

Ob und wo sich Webstandards langfristig durchsetzen, hängt nicht zuletzt davon ab, ob sie standardmäßig von Webbrowsern unterstützt werden – bislang ist dies an über HTML hinausgehenden Formaten nur für RSS der Fall. Nun ist es so, dass die vorraussichtlich Ende 2007 erscheinende Version 3.0 des Firefox-Webbrowsers Microformats unterstützen wird. Und Microsoft ist dabei, die Zwischenablage so zu erweitern, dass einzelne Objekte von Webseiten kopiert werden können (auszuprobieren mit Live Clipboard)- die ersten Anwendungen sind die Mikroformate hCal und hCard. Damit ist klar, wohin die Entwicklung geht.

Was sind Mikroformate?

Mit Mikroformaten können Webseiten so durch Markup angereichert werden, dass ihre Inhalte möglichst detailliert auch für Computerprogramme verarbeitbar sind (dazu gibt es eine gute Einführung). Hier als Beispiel meine Dienstanschrift:

So kann es ein Mensch verstehen:

Verbundzentrale des GBV
Jakob Voß
Platz der Goettinger Sieben 1
37073 Göttingen
+49 (0)551 39-10242
jakob.voss@gbv.de

Und so muss es in HTML als vcard-Microformat angegeben sein, damit es auch Computer verstehen (erstellt mit dem Generator für hCard:

<div class="vcard">
 <div class="org">Verbundzentrale des GBV</div>
 <span class="fn">Jakob Voß</span>
 <div class="adr" class="work">
   <div class="street-address">Platz der Goettinger Sieben 1</div>
     <span class="postal-code">37073</span>
     <span class="locality">Göttingen</span>
 </div>
 <div class="tel">+49 (0)551 39-10242</div>
 <div class="email">
     <a href="mailto:jakob.voss@gbv.de"; class="email" >jakob.voss@gbv.de</a>
 </div>
</div>

Derzeit gibt es eine Reihe von etablierten Mikroformaten und weitere sind in Entwicklung. Die Dokumentation und Diskussion findet offen in einem Wiki statt. Eine Einführung in Mikroformate bietet auch das Buch „Microformats: Empowering Your Markup for Web 2.0“ und ein weiteres eBook auf deutsch.

Was hat das alles mit Bibliotheken zu tun?

Derzeit gibt es noch kein einheitliches Microformat für bibliographische Angaben – allerdings schon einige Ansätze. Es ist zwar alles andere als trivial, ein bibliographisches Datenformat zu entwickeln, aber das Web funktioniert pragmatisch – ich gehe davon aus, dass sich ein citation-Microformat durchsetzen wird, sobald jemand einen Standard dafür festlegt und umsetzt. Dabei kommt es nicht darauf an, wie gut dieser Standard ist, sondern dass er gut dokumentiert, verfügbar und benutzbar ist und dass er von einer kritischen Masse von Anbietern verwendet wird (siehe dazu VHS vs. Betamax und Video 2000).

Nun können wir als bibliothekarisches Fachpersonal a) entweder abwarten, bis sich der citation-Microformat-Standard stabilisiert hat und danach darüber wundern, dass er aus bibliothekarischer Sicht an der einen oder anderen Stelle völlig unzureichend ist oder b) uns aktiv an der Entwicklung des citation-Microformat-Standards beteiligen und ihre bibliothekarische Sachkompetenz einfließen lassen.

Und hier kommt ISBD ins Spiel!

Ich möchte zunächst betonen, dass die der Katalogisierung, Ansetzung und dem Aufbau von Titelanzeigen nicht mein Fachgebiet sind. Soweit ich das Konzept der International Standard Bibliographic Description (ISBD) verstanden habe, legt dieser Standard fest, wie eine Titelaufnahme im Katalog aussehen sollte – vereinfacht gesagt also die Reihenfolge und Trennzeichen von Autor, Titel, Verlag und all die anderen Datenfelder einer Titelaufnahme. Obgleich viele Kataloge sich nicht streng an ISBD halten ist das Prinzip das gleiche: irgendwo ist festgelegt, welche Titeldaten in welcher Weise formatiert angezeigt werden.

Bei Mikroformaten ist es ganz ähnlich. Nur wird bei einem Mikroformat statt mit Sonderzeichen wie ; – [..] und , mit HTML-Tags <div> <span> und dem class-Attribut strukturiert.

Die Aufgabe besteht, wie schon von anderer Seite angedeuted also darin, eine Abbildung von ISBD (bzw. der am häufigsten in OPAC-Titelanzeigen verwendeten Untermenge) auf ein Mikroformat zu finden. Hier mal ein naiver Ansatz anhand eines konkreten Beispiels der folgenden Titelaufnahme (übrigens Herzlichen Glückwunsch an die Braunschweiger, die als erste GBV-Verbundbibliothek den neuen Harry Potter im Bestand haben 🙂

Titel: Harry Potter and the deathly hallows / Joanne K. Rowling. – [Children’s ed.], 1. ed. – London : Bloomsbury, 2007
ISBN: 0-7475-9105-9 – 978-0-7475-9105-4 (Children’s edition)

Die bedeutungstragenden Bestandteile werden nun hierarchisch ausgezeichnet, ohne den Text selber zu verändern (das geht auch gut mit Papier und verschiedenfarbigen Stiften):

<div class='hCitation'>
  Titel:
  <span class='title'>Harry Potter and the deathly hallows</span> /
  <span class='n'>
    </span><span class='given-name'>Joanne K.</span>
    <span class='family-name'>Rowling</span>
  </div>. -
  [<span class='edition'>Children's ed.</span>], <span class='edition-number'>1.</span> ed. -
  <span class='location'>London</span> : <span class='publisher-name'>Bloomsbury</span>,
  <span class='publication-year'>2007</span>
</div>
<div>
  ISBN:
  <span class='ISBN'>0-7475-9105-9</span> -
  <span class='ISBN'>978-0-7475-9105-4</span>
  (<span class='edition'>Children's edition</span>)
</div>

Dabei muss festgelegt werden, wie fein die Daten aufgespalten werden sollen und wie die einzelnen Elemente mit class=“…“ benannt werden. Sicherlich können nicht alle in ISBD vorhandenen Spezialfelder und Sonderregeln berücksichtigt werden, die Anzahl der Felder soll schließlich überschaubar bleiben. Aüßerdem müssen wo möglich, bereits bestehende Microformats und andere Formate berücksichtigt werden – so sind die Feldbezeichnungen für Namen mit ’n‘, ‚given-name‘ und
‚familiy-name‘ bereits im hCard-Standard festgelegt, da gibt es also nichts zu ändern.

Was also zu erstellen ist, ist eine genaue Festlegung eines Mikroformats für bibliographische Angaben. Vielleicht kann auch von anderen Standards als ISBD ausgegangen werden (OpenURL, RAK, AACR, MAB, MARC, MODS, BibTeX…) – in jedem Fall muss aber die Titelanzeige ausgezeichnet werden, so wie sie der Nutzer im Katalog sieht. Um es nochmal zu betonen: Wenn Firefox und Microsoft sich auf Mikroformate festlegen und diese von Haus aus unterstützen, ist es völlig egal, wie gut Mikroformate sind und ob es Alternativen gibt.

Der traditionelle Weg wäre vermutlich, eine Arbeitsgruppe „Mikroformate“ mit den entsprechenden Experten einzurichten. Das kann
zwar grundsätzlich nicht schaden, jedoch sollte folgendes bedacht werden: Erstens hätte diese AG sowieso keinerlei Entscheidungsbefugnisse, da die Diskussion offen im Microformate-Wiki stattfindet, wo sich jeder beteiligen kann und zweitens haben wir keine Zeit für langwierige Projektplanungsphasen. Was zählt ist nur das direkt online verfügbare Ergebnis und kein Projektbericht oder Sitzungsprotokoll. Siehe dazu dieses schöne Posting, das den Konflikt von Bibliothekaren mit solch pragmatischen Lösungen darlegt.

Das das Format am Ende allen erdenklichen bibliothekarischen Ansprüchen genügen wird, bezweifle ich, aber es besteht zumindest die Möglichkeit, Einfluss zu nehmen und den bibliothekarischen Sachverstand einfliessen zu lassen – noch.

Wie kommen nun bibliothekarisches Know-How und Mikroformate zusammen?

Zunächst einmal sollte man sich etwas mit Mikroformaten vertraut machen – dazu gibt es die genannten Bücher und verschiedene Einführungen im Netz. Danach sind ISBD oder die Regeln zur Erzeugung der Titelanzeige im eigenen Katalog vorzunehmen und die atomaren bedeutungstragenden Bestandteile herauszuarbeiten. Diese sollten danach übersichtlich im Microformats-Wiki dargestellt und dort an konkreten Beispielen ausdiskutiert werden.

15 Comments »

RSS feed for comments on this post. TrackBack URI

  1. Lieber Jacob,

    vielen Dank für deinen Denkanstoß. Ich gebe Dir völlig Recht, dass Bibliotheken sich schnellstens an der Erarbeitung von Mikroformaten für bibliographische Daten beteiligen sollten. Ansonsten würde man, wie Du richtig erwähnst, vor vollendete Tatsachen gestellt.

    Dennoch dürfte dieser Gedanke ja nicht völlig neu sein und da frage ich mich was denn unsere ausländischen Kollegen sich da schon alles überlegt haben (d.h. man muss das Rad ja nicht völlig neu erfinden). Die einzige Anregung, die ich mal eben finden konnte ist diese hier (verweist auf ein paar Vorarbeiten).

    Dein Ansatzpunkt, dass Firefox 3 standardmäßig Mikroformate unterstützen wird, und man daher auf den Mikroformate-Zug aufspringen sollte, ist nachvollziehbar. Schade finde ich nur, dass RDFa bei dem Thema etwas zu kurz kommt, denn obwohl die Entwicklung von RDFa in der Hand des W3C liegt, ist man doch nicht abhängig von der Entwicklung eines Mikroformats für bibliographische Daten, sondern greift auf schon vorhandene Namensräume zurück (z.B. xmlns:marc, aber dann doch eher isbd). Somit ist die Entwicklung eines Mikroformats eher mittelfristig durch den Browserdruck zu rechtfertigen, die wirkliche „Killerapplikation“ sehe ich allerdings langfristig mit RDFa.

    Gruß,

    Carsten

    p.s.: ich sehe gerade dass es eine Diplomarbeit von Florian Beer zu Mikroformaten gibt, in der RDFa kurz in einem Kapitel abgebügelt wird. Na ja, da ist das letzte Wort noch nicht gesprochen…

    Comment by Carsten — 26. Juli 2007 #

  2. Test!

    FF-Cache gelöscht. Bin mir sicher, dass ich hier vorhin ein Kommentar hinterlassen habe. Liegt das an mir?

    Comment by Carsten — 26. Juli 2007 #

  3. Ahh! Jetzt ist er da. Ist das normal, dass bei manchen Blogs der erste Kommentar erst mit dem zweiten erscheint? Das ist mir schon mal passiert. Oder liegt das an meinem FF? Im Moment werden zwei Kommentare angezeigt aber nur einer gezählt!? Ich bin verwirrt.

    Comment by Carsten — 26. Juli 2007 #

  4. Ich muss Kommentare manchmal erst freischalten, keine Ahnung wie da die Heuristik ist, ich glaube alles was Hyperlinks enthält, wird nicht automatisch freigegeben.

    Die Killerapplikation des Web war der Webbrowser, die Killerapplikation des Web 2.0 war der (nun AJAX unterstützende) Webbrowser und die Killerapplikation der kommenden Entwicklungen (Semantic Desktop, Writable Web, Web Clipboard…) wird weiterhin der Webbrowser sein. RDF ist mit 10 Jahren (sic!) praktisch schon uralt aber es setzt sich erst durch, wenn praxisrelevante Anwendungen direkt vom Browser unterstützt werden. Mit dem total vermurksten RDFXML hat das W3C selber dazu beigetragen, dass sich RDF nicht durchsetzt und noch immer wird an den Techniken um RDF weiterentwickelt (z.B. RDF/JSON). Das W3C ist zwar offener als ISO, DIN und Co aber noch immer zu oft eine relativ träge, praxisferne Organisation. Deshalb geht die Entwicklung erstmal über Mikroformate, die haben zwar ihre Grenzen aber sie werden jetzt schon eingesetzt, da kann RDFa noch so toll sein. Mittelfristig sehe ich aber keine Konkurrenz, mit GRDDL kann aus einem Mikroformat wieder RDF erzeugt werden. Und gleich eine saubere RDF-Repräsentation für bibliographischen Daten erstellen zu wollen, halte ich für wahnwitzig (ich hatte mal kurz mit Personennormdaten angefangen). Also besser eins nach dem anderen: Wenn sich Bibliothekare am citation-Mikroformat beteiligen und dafür sorgen, dass die ganz normalen Titelanzeigen in bestehenden OPACs mit Markup versehen werden, wäre schon viel erreicht.

    Comment by jakob — 27. Juli 2007 #

  5. […] at sammenflette microformats og ISBD (International Standard Bibliographic Description) – I “Von ISBD zum Web 2.0 mit Mikroformaten” viser han et eksempel pÃ¥ hvordan den nye Harry Porter bog kan beskrives med microformats. […]

    Pingback by microformats.dk » Lidt microformats nyheder — 31. Juli 2007 #

  6. Jetzt wo ich noch einaml über die Sache nachgedacht habe, muss ich Dir noch einmal in einer bestimmten Sache wiedersprechen.

    Soweit ich das Konzept der International Standard Bibliographic Description (ISBD) verstanden habe, legt dieser Standard fest, wie eine Titelaufnahme im Katalog aussehen sollte.

    Richtig!

    Bei Mikroformaten ist es ganz ähnlich. Nur wird bei einem Mikroformat statt mit Sonderzeichen wie ; – [..] und , mit HTML-Tags <div> <span> und dem class-Attribut strukturiert.

    Falsch! Denn wie Du in deinem Harry Potter Beispiel selbst zeigst, ersetzen eben nicht die HTML-Elemente die Titelaufnahme-Sonderzeichen, sondern schließen sie aus. Mit den HTML-Elementen werden nur die Inhalte umschlossen.

    Was heißt das? Meiner Meinung nach hat ein Mikroformat, das bibliographische Daten einschließen sollte nix mit einem bibliothekarischen Regelwerk wie ISBD, RAK, AACR etc. zu tun. Im Gegenteil, ein Mikroformat sollte unabhängig von einem solchen Regelwerk existieren – die sind auf der Welt eh überall anders.

    Aber ein Mikroformat sollte die Aufgabe eines bibliographischen Austauschformates übernehmen. Hier ist es vor allem wichtig alle, Elemente eines Titels in das Mikroformat zu integrieren (bitte korrigiere mich, aber die Reihenfolge in einem Mikroformat ist egal). Somit scheint das Zitationsformat von microformats.org auf einem guten Weg zu sein (das heißt hier können sich Bibliothekare noch immer bestens einbringen).

    p.s.: Ich wollte hier eigentlich keine Fußnotendiskussion starten, sehe aber im Moment keinen geeigneten Ort, um sich der Sache erst einmal klar zu werden (in der inetbib würde wieder über irgendwelche gruseligen Ausschüsse gesprochen).

    Comment by carsten — 5. August 2007 #

  7. Vielleicht habe ich mich da unklar ausgedrückt: Die Sonder- und Interpunktionszeichen der Titelanzeige werden nicht im HTML ersetzt sondern nur aus dem Mikroformat ausgeschlossen, so dass sie bei der Weiterverarbeitung der Daten wegfallen. Die Reihenfolge ist für die meisten Mikroformate egal (Gegenbeispiel könnte eine Autorenliste sein). Dass ein Mikroformat jedoch unabhängig von Regelwerken ist, sehe ich nicht so. Das Regelwerk legt fest, welche Datenfelder es gibt, wobei bibliothekarische Regelwerke noch darüber hinausgehen und Trennzeichen für die Felder festlegen. Wesentlich sind für Mikroformate nur die Felder, aber diese müssen ja erstmal definiert, dokumentiert und mit Beispielen erklärt werden. Wenn nun unabhängig von bibliothekarischen Regelwerken und Datenformat von ein Mikroformat für bibliographische Daten erstellt wird, wird es schwierig, die Bibliotheksbestände ohne großen Verluste (wie bei Dublin Core) darauf abzubilden – deshalb ist es so wichtig, dass Bibliothekare sich einbringen und von ihren vorhandenen Daten ausgehen.

    Comment by jakob — 5. August 2007 #

  8. Ich denke, daß der einzig sinnvolle Weg eine Adaption des BibTEX Standards ist… ich werde mich aber auch aktiv an der Entwicklung beteiligen, da dies die Zitierfähigkeit elektronischer Quellen verbessert und dies auch im Sinne des eLib Projektes ist…

    http://www.literature.at/elib/

    Vielen Dank für die Infos,

    gh

    Comment by GH — 19. September 2007 #

  9. Haha, BibTeX und Standard? Es gibt ja noch nicht mal ein Feld für die ISBN (manche nennen das zusätzliche Feld ‚ISBN‘, aber ich habe auch schon andere Lösungen gesehen!) und keine einheitliche Methode, um URLs anzugeben. Ich verwende inzwischen howpublished={\url{http:...}}, damit die URL in den mir vorgeschriebenen Zitationsstilen angezeigt wird (Trennung von Daten und Darstellung? Fehlanzeige). Unicode ist auch nicht drin. BibTeX ist wirklich ein sehr kleiner gemeinsamer Nenner – aber man kommt halt nicht drum und richtig besseres gibt es auch nicht, außer vielleicht openURL/COinS. Vielen Dank für den Hinweis auf eLib.

    Comment by jakob — 19. September 2007 #

  10. BibTeX ist ja auch eher für Literaturverwaltungsprogramme konzipiert, Literaturlisten müssen ja keine ISBN enthalten (URLs schon…). Ist also eher ein Ausgabe-, kein Datenaustauschformat. Was Unicode anbelangt: wenigstens lassen sich alle Sonderzeichen recht flexibel und eindeutig mit LaTex definieren, z.B. Transliterationen aus OPACs originalschriftlich ausgeben, abhängig von Datenquelle und Ausgabeabsicht. Also kein universelles, sondern zweckgebundenes Mittel. Für viele Web 2.0-Anwendungen heute allerdings die einzige Verständigungsmöglichkeit mit der Welt der bibliographischen Daten – eine Art Pidgin eben.

    Comment by AG — 20. September 2007 #

  11. […] Aktionen im Browser registriert werden können (siehe Screenshot im Notizblog. Ein Bibliothekarisches Microformat lässt (abgesehen von COinS) ja noch auf sich […]

    Pingback by Neues von Mozilla: Prism, Firefox 3 und Sunbird « Jakoblog — Das Weblog von Jakob Voß — 27. Oktober 2007 #

  12. Also ich wollte eine kurze Rückmeldung geben. eLib hat jetzt Bibliographiedaten zur direkten Übernahme eingebunden. Ich habe auch die netten Leute von Citavi, einer Bibliographie- und Wissensorganisationssoftware gebeten, daß sie das mal mit ihren Picker testen, der in der neuen Form auch COinS unterstützt und habe erfahren, daß es gut funktioniert.

    Daneben haben wir auch Zitiervorschläge für das Zitat als Website und Hinweise auf Tools, die das Zitieren (zB durch Offline/online Archivierung) erleichtern. Alle Werke werden auch in der Form Titel – Autor – Jahr gespeichert.

    Schaut es euch mal an und gebt mir doch Rückmeldung. Hier ein Beispiel.

    Cheers,
    gh

    Comment by GH — 10. November 2007 #

  13. Die Übergabe nach Zotero funktioniert noch nicht richtig, da ersten der Publikationstyp nicht als Buch angegeben ist (rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Adc statt rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Abook), so dass nur Autor, Titel und URL übernommen werden und zweitens der Autor falsch angesetzt ist (rft.au=Kolker Robert statt rft.au=Kolker, Robert oder rft.aufirst=Robert Phillip&rft.aulast=Kolker).

    Comment by jakob — 10. November 2007 #

  14. Hm, und nochmals hm…interessant der Zusammenhang zwischen Microformaten und bibliographischen „Titelaufnahmen“. Aber bitte helft mir auf die Sprünge, wo Microformate eingebunden werden…in der täglichen Katalogisierungspraxis schlage ich mich nämlich (noch) täglich mit MAB 2 (der Auseinandersetzung der korrekten Feldbelegung eines Paralleltitels, fehlende Einbindung von Persistent identifier etc.), RAK-Kleinkram und Tücken der Bibliothekssoftware auseinander, so dass mir hier anscheinend der Horizont/die Vision fehlt!

    Comment by Petra — 8. Februar 2008 #

  15. Microformats werden erst in der HTML-Anzeige erzeugt, dazu muss grundsätzlich erstmal nichts im Katalog geändert werden. Um Microformats und andere einfache bibliographische Datenformate (z.B. BibTeX) für den Export zu unterstützen, reicht es zunächst, eine Datenkonvertierung von MAB2 (oder einem anderen unterstützen Format) zu erstellen. Dazu muss man sich einfache Formate anschauen und überlegen, wie die vorhandenen tausende von Feldern auf einen einfachen Satz von Feldern abgebildet werden können. Beispielsweise könnte man mal schauen was für Fälle für „Titel“ und „Parallelsachtitel“ es alle von MAB 2 und RAK vorgebeben gibt, und welche davon tatsächlich für Normalsterbliche notwendig und welche man zusammenschmeißen kann. Sowas passiert schon jetzt bei der Titelanzeige im Katalog, wo ja auch mehrere Felder zusammen angezeigt werden. Daneben hilft es auch sehr, mal offen zu sagen, an welchen Stellen die weiterverarbeitung nicht so einfach funktioniert – wo zum Beispiel fehlen persistente Identifier?

    Comment by jakob — 9. Februar 2008 #

Sorry, the comment form is closed at this time.