Metadata « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Some thoughts on IIIF and Metadata

5. Mai 2017 um 22:40 1 Kommentar

Yesterday at DINI AG Kim Workshop 2017 I Martin Baumgartner and Stefanie RÃ¼hle gave an introduction to the International Image Interoperability Framework (IIIF) with focus on metadata. I already knew that IIIF is a great technology for providing access to (especially large) images but I had not have a detailed look yet. The main part of IIIF is its Image API and I hope that all major media repositories (I am looking at you, Wikimedia Commons) will implement it. In addition the IIIF community has defined a „Presentation API“, a „Search API“, and an „Authentication API“. I understand the need of such additional APIs within the IIIF community, but I doubt that solving the underlying problems with their own standards (instead of reusing existing standards) is the right way to go. Standards should better „Do One Thing and Do It Well“ (Unix philosophy). If Images are the „One Thing“ of IIIF, then Search and Authentication are different matter.

In the workshop we only looked at parts of the Presentation API to see where metadata (creator, dates, places, provenance etc. and structural metadata such as lists and hierarchies) could be integrated into IIIF. Such metadata is already expressed in many other formats such as METS/MODS and TEI so the question is not whether to use IIIF or other metadata standards but how to connect IIIF with existing metadata standards. A quick look at the Presentation API surprised me to find out that the metadata element is explicitly not intended for additional metadata but only „to be displayed to the user“. The element contains an ordered list of key-value pairs that „might be used to convey the author of the work, information about its creation, a brief physical description, or ownership information, amongst other use cases“. At the same time the standard emphasizes that „there are no semantics conveyed by this information“. Hello, McFly? Without semantics conveyed it isn’t information! In particular there is no such thing as structured data (e.g. a list of key-value pairs) without semantics.

I think the design of field metadata in IIIF is based on a common misconception about the nature of (meta)data, which I already wrote about elsewhere (Sorry, German article – some background in my PhD and found by Ballsun-Stanton).

In a short discussion at Twitter Rob Sanderson (Getty) pointed out that the data format of IIIF Presentation API to describe intellectual works (called a manifest) is expressed in JSON-LD, so it can be extended by other RDF statements. For instance the field „license“ is already defined with dcterms:rights. Addition of a field „author“ for dcterms:creator only requires to define this field in the JSON-LD @context of a manifest. After some experimenting I found a possible way to connect the „meaningless“ metadata field with JSON-LD fields:

{
  "@context": [
    "http://iiif.io/api/presentation/2/context.json",
    { 
      "author": "http://purl.org/dc/terms/creator",
      "bibo": "http://purl.org/ontology/bibo/"
    }
  ],
  "@id": "http://example.org/iiif/book1/manifest",
  "@type": ["sc:Manifest", "bibo:book"],
  "metadata": [
    {
      "label": "Author",
      "property": "http://purl.org/dc/terms/creator",
      "value": "Allen Smithee"
    },
    { 
      "label": "License",
      "property": "http://purl.org/dc/terms/license",      
      "value": "CC-BY 4.0" 
    }
   ],
   "license": "http://creativecommons.org/licenses/by/4.0/",
   "author": {
     "@id": "http://www.wikidata.org/entity/Q734916",
     "label": "Allen Smithee"
   }
}

This solution requires an additional element property in the IIIF specification to connect a metadata field with its meaning. IIIF applications could then enrich the display of metadata fields for instance with links or additional translations. In JSON-LD some names such as „CC-BY 4.0“ and „Allen Smithee“ need to be given twice, but this is ok because normal names (in contrast to field names such as „Author“ and „License“) don’t have semantics.

Tags: iiif, Metadata 1 Kommentar

Gibt es Diskurse in Metadaten?

9. Juli 2012 um 00:35 3 Kommentare

Im Libreas Weblog (wahrscheinlich unfreiwillig eines der Instanzen von #newLIS) haben Ben Kaden und Karsten Schuldt eine zwischen ihnen gefÃ¼hrte Debatte zu folgender Forschungsfrage zusammengefasst:

Wie viel oder wie wenig Diskurs findet sich in Metadaten beziehungsweise Netzwerken von Metadaten Und was davon kann wie informationswissenschaftlich ausgewertet werden?

GrundsÃ¤tzlich begrÃ¼ÃŸe ich es sehr wenn die beiden ihre ausfÃ¼hrlichen Informations-wissenchaftlichen BeitrÃ¤ge zusammenzufassen. Noch mehr begrÃ¼ÃŸe ich Auseinandersetzungen mit Begriffen von Daten und Metadaten. Ich hoffe, deshalb, dass ihre Forschung nicht nur im Diskurs weiterlebt, sondern sich auch als Ergebnis in einer Beantwortung der Forschungsfrage niederschlÃ¤gt. In ihrem Blogartikel Ã¤uÃŸern die beiden Autoren fÃ¼nf Grundannahmen, von denen ich die ersten vier teile. Die fÃ¼nfte Grundannahme, dass die „Bibliotheks- und Informationswissenschaft […] vorrangig eine befragende und beschreibende Wissenschaft“ sei, teile ich nicht. Ich befÃ¼rchte stattdessen, dass die beiden beim Fragen und Beschreiben stehen (bzw. in Bewegung) bleiben. Nach meinem Eindruck ziehen sie es vor, darÃ¼ber zu diskutieren, „was eine Bibliotheks- und Informationswissenschaft sein soll“ statt die eingangs gestellt Forschungsfrage zielgerichtet zu beantworten.

Mich interessieren jedenfalls Antworten auf die Frage nach Diskursen in Metadaten. Hier nur einige Anregungen:

(1) ZunÃ¤chst ist es notwendig die Kernbegriffe Diskurs und Metadaten zu definieren.

(2) Interessant am Konzept der Metadaten sind zwei Aspekte: ihre beschreibende Funktion und ihre digitale Struktur.

(3) Hilfreich ist wie so oft der Blick Ã¼ber den Tellerand auf verwandte PhÃ¤nomene. Aus der Forschungsfrage ergeben sich unter anderem folgende vorlÃ¤ufige Teilfragen:

1. Wie viel oder wie wenig Diskurs findet sich in (reinen) Beschreibungen?

2. Wie viel oder wie wenig Diskurs findet sich (reinen) Strukturen?

FÃ¼r die Aufgabenstellung eine Master- oder die Ausgangslage einer Doktorarbeit sollte das genÃ¼gen. Vielleicht lÃ¤sst sich die Frage zumindest teilweise auch bereits in Form eines Fachartikels beantworten.

Tags: informationswissenschaft, Metadata 3 Kommentare

Metadaten – Versuch einer Kurzdefiniton

26. Februar 2011 um 17:21 14 Kommentare

Obgleich ich dem Lexikon der Bibliotheks- und Informationswissenschaft (LBI) von Anfang an mit gemischten GefÃ¼hlen gegenÃ¼ber stand â€“ das Vorhaben eines gedruckten Lexikons ist anachronistisch und verspielt eine Chancen, die deutschsprachige Bibliotheks- und Informationswissenschaft als auf der HÃ¶he der Zeit darzustellen â€“ habe ich als EnzyklopÃ¤dist inzwischen einige Artikel Ã¼bernommen. Ich muss zugeben, dass die BeschrÃ¤nkungen des LBI auch einen gewissen Reiz haben. Vor allem ist die LÃ¤nge der Artikel vorgegeben, so dass es darauf ankommt, einen Begriff in seiner GÃ¤nze auf das Wesentliche zu reduzieren. Der Begriff „Metadaten“, fÃ¼r den nÃ¤chste Woche Abgabefrist ist, fÃ¤llt mit bis zu 4.000 Zeichen in die umfangreichste Kategorie. Ich habe mit der Geschichte des Begriffs begonnen und versucht, das Wesentliche in diesem Umfang zusammenzufassen. Da sich die Bedeutung eines Begriffs erst aus seinen Relationen zu anderen Begriffen ergibt, habe ich auf mÃ¶glichst viele andere, verwandte EintrÃ¤gen des LBI verwiesen. Im Laufe der Diskussion vorgenommene Ã„nderungen sind orange markiert.

Bei Google Books Ngram kann man schÃ¶n den Anstieg der Verwendung des Begriffs nachvollziehen: Der deutlich zu erkennende Knick 1995 ist auf die Dublin Core Initiative zurÃ¼ckzufÃ¼hren. Nun aber die Definition in ihrer aktuellen Form:

„Daten Ã¼ber Daten“, d.h. â†— Daten die andere Daten oder Objekte strukturiert beschreiben. Ob und um welche Art von M. es sich bei Daten handelt, hÃ¤ngt vom jeweiligen â†— Kontext und Zweck der ihrer Anwendung ab.

Bis Ende der 1980er wurden lediglich bei â†— Datenbanken deren technische Beschreibungsdaten wie â†— Datenfeld und â†— Datenmodell im Gegensatz zur â†— Datenbasis als M. bezeichnet. SpÃ¤ter wurden M. auf Beschreibungen von â†— PrimÃ¤rdaten bei der â†— Datendokumentation ausgeweitet. Ab Mitte der 1990er prÃ¤gte das ursprÃ¼nglich zur â†— Katalogisierung von â†— Netzpublikationen entwickelte â†— Dublin Core Metadata Element Set die Vorstellung von M. Inzwischen kÃ¶nnen alle strukturierten Beschreibungen von â†— Informationsobjekten und alle als Daten vorliegenden Formen der â†— ErschlieÃŸung als M. bezeichnet werden, also auch alle bibliographischen Daten.

Ein Metadatensatz fasst M., die sich auf ein Referenzobjekt (ein â†— Dokument oder eine â†— Dokumentarische Bezugseinheit) beziehen zu einer â†— Dokumentationseinheit zusammen. Bei Containerformaten wie z.B. â†— METS kann ein â†— Datensatz auch M. zu mehreren Objekten enthalten. Die klassische Form eines M.satzes in der Bibliothekspraxis ist das â†— Katalogisat.

Wesentlich fÃ¼r M. ist das Vorhandensein einer einheitlichen Struktur. Diese kann u.A. als Schema (â†— Kategorienkatalog, â†— Datendefinitionssprache), Profil, Regelwerk, â†— Datenformat oder Modell (â†— Ontologiesprache) vorliegen. Die Attribute und Beziehungstypen einer M.struktur sowie die in ihr verwendeten EintrÃ¤ge einer â†— Indexierungssprache werden auch als Metadatenterme bezeichnet. Die Nutzbarkeit von M. Ã¼ber verschiedenen Systeme (â†— InteroperabilitÃ¤t) wird durch â†— Standardisierung ermÃ¶glicht. Hilfreich sind dabei Metadaten-Registries und die Vergabe von â†— URIs fÃ¼r M.terme. Zur â†— Datenkonvertierung zwischen verschiedenen M.strukturen dienen M.mappings („crosswalks“). M.strukturen sind hÃ¤ufig in Beschreibungsebenen verschachtelt und aufeinander bezogen; so ist beispielsweise â†— MODS durch ein â†— XML Schema als â†— XML-Format definiert.

~~Ob es sich bei konkreten Daten um M. handelt und welche Art von M. vorliegen, hÃ¤ngt jeweils vom â†— Kontext der Anwendung ab.~~ Ãœblich ist eine Unterteilung von M. in beschreibende M., verwaltende oder administrative M. und Strukturdaten. Beschreibende M. geben mittels â†— SacherschlieÃŸung und â†— FormalerschlieÃŸung Inhalt und Form des Referenzobjekt wieder. Sie dienen vor allem seiner Auffindbarkeit und Identifizierung. Administrative Metadaten enthalten u.A. Angaben zu Nutzungsbedingungen, â†— Provenienz und â†— Archivierung sowie Angaben zur technischen Verarbeitung. Zu M. Ã¼ber das Objekt kommen dabei „Meta-Metadaten“ mit M. Ã¼ber dessen Beschreibung. Angaben Ã¼ber Beziehungen zu anderen Objekten sowie zur Bewertung und Nutzung gehÃ¶ren je nach Anwendung zu beschreibenden oder verwaltenden M. oder bilden eigene M.typen. Strukturdaten beschreiben die Gliederung des Objekts in â†— Informationelle Einheiten, z.B. mittels â†— METS und â†— OAI-ORE. Je nach â†— GranularitÃ¤t kann diese Beschreibung von einem einfachen â†— Inhaltsverzeichnis bis zur detaillierten ReprÃ¤sentation der Binnenstruktur reichen, so dass hier die Grenze zwischen M. und Objektdaten flieÃŸend ist. Da vernetze Informationsobjekte (z.B. im â†— Semantic Web) im Gegensatz zu physischen Objekten keine eindeutigen Grenzen aufweisen, kÃ¶nnen M. auch als konstituierend fÃ¼r ein digitales Objekt angesehen werden. Dies spielt vor allem bei der â†— digitalen Langzeitarchivierung eine Rolle, wo M. und Meta-M. Ã¼ber mehrere â†— Migrationsschritte mitunter einen grÃ¶ÃŸeren Umfang als das ursprÃ¼ngliche Dokument annehmen kÃ¶nnen.

Eine alternative Unterteilung von M.typen besteht aus konstituierenden M., die den eigentlichen Inhalt eines Dokuments beschreiben, abgeleiteten M., die sich automatisch aus dem Inhalt des Dokuments ermitteln lassen, beigefÃ¼gten M., die Relationen zu anderen Objekten beinhalten, und operationalen M., die das Verhalten von M. verarbeitenden Systemen steuern (â†— Programmierung).

Ãœber Korrekturen, ErgÃ¤nzungen, Kritik und vorschlÃ¤ge fÃ¼r ein bis drei Literaturangaben wÃ¼rde ich mich freuen.

P.S.: Bei Mendeley habe ich eine Bibliographie mit Encyclopaedias of Library and Information Science erstellt. Im Terminosaurus Rex gibt es leider keinen Eintrag „Metadaten“.

Tags: Bibliothekswissenschaft, informationswissenschaft, Metadata 14 Kommentare

XML Schema vs. Library APIs (OAI-PMH/SRU/unAPI…)

24. Februar 2011 um 18:33 2 Kommentare

Much of our work at GBV library network has to do with record formats and APIs. We harvest or get metadata records in a wide range of formats (with many different interpretations and misconstructions of these formats), convert records to a wide range of formats (with many special request how to interpret this formats), and provide records through various APIs. Some of these APIs allow you to select different record formats, for instance OAI-PMH (first published 2001), SRU (2003), and unAPI (2006). These APIs are based on HTTP for transport and XML for encoding of the records. There are also older APIs and encoding formats like Z39.50 and newer APIs like pure Linked Data and SPARQL for RDF. unAPI also supports non-XML formats, but in this article I will concentrate on XML-based formats.

The basic question (that I deal with since years) is „what exactely is a format and how do you refer to it?“. All three APIs provide a method for listing of all formats that are supported by a particular server. unAPI provides a „list of object formats“. Each format has a „name“, a „type“ (which must be an official Internet media type), and an optional documentation URL („docs“), which may refer to some human-readable documentation, or to an XML Schema (XSD) file. Here are three examples:

<format name="oai_dc" type="application/xml"
  docs="http://www.openarchives.org/OAI/2.0/oai_dc.xsd" 
/>
<format name="pubmed" type="application/xml" 
  docs="http://www.nlm.nih.gov/bsd/licensee/elements_descriptions.html"
/>
<format name="mods" type="application/xml"
  docs="http://www.loc.gov/standards/mods/" 
/>
<format name="marcxml" type="application/xml" 
  docs="http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd"
/>

To avoid the uncertainty whether „docs“ references a formal schema or a plain document, there should have been a „schema“ attribute (first problem). To refer to a format in an unAPI request, you use the format’s „name“. In OAI-PMH you refer to a format by its „metadataPrefix“. You can get a list of supported formats with the ListMetadataFormats request. In addition to the „metadataPrefix“ each format has the location of an XML Schema („schema“) and an XML Namespace URI („metadataNamespace“). In theory the latter is dispensable, because each XSD document declares a namespace URI in its „targetNamespace“ attribute: Given a format with a schema that defines namespace „http://example.org/“ like this

<xs:schema targetNamespace="http://example.org/">

I would expect records in this format to use this namespace, at least for the XML root element:

<record xmlns="http://example.org/">

The OAI-PMH specification does not explicitly say that the „metadataNamespace“ must match the namespace in the schema file „schema“. What does it mean if they differ? (second problem).

In SRU a format is known as „schema“. A list of supported formats is contained in an explain request. Each schema has an optional „title“, a „name“ (used to refer to schemas in the „recordSchema“ HTTP parameter when doing a search query), an „identifier“, and an optional „location“. The „identifier“ contains an additional URI, and the „location“ contains a link to an XML Schema file or to some human-readable documentation (like the „docs“ attribute in unAPI). There is a list of known schemas at the SRU page, for instance:

title and location	name	identifier
MODS Schema Version 3.0	mods	info:srw/schema/1/mods-v3.0
MODS Schema Version 3.3	mods	info:srw/schema/1/mods-v3.3
MARCXML	marcxml	info:srw/schema/1/marcxml-v1.1

Note that one name (for instance „mods“) can refer to several schemas, but one particular SRU server can only provide one particular format under this name. The additional identifier neither refers to a particular XML Schema (Third problem). The identifier may only give a hint which particular version or interpretation of a format is provided.

Does anyone really need this diverse methods to refer to formats? I found in practice you cannot rely on the claimed format anyway, unless you can automatically validate it. That’s what XML Schema can be used for. I don’t say that XML Schema is the best or only method to formally describe an XML-based format (personally I much bettter like RELAX NG), but if there is an XML Schema – shouldn’t this schema be enough to identify the format?. Is there really a need of four independent identifiers to refer to an XML-based format? In the worst case we have:

Schema Name (e.g. mods)
Schema Location (e.g. http://www.loc.gov/standards/mods/v3/mods-3-3.xsd)
Schema Identifier (e.g. info:srw/schema/1/mods-v3.3)
Schema Namespace (e.g. http://www.loc.gov/mods/v3)

This is bad design, because you cannot say which of the four is the right one and how they relate to each other. A clean solution would only have two identifiers for XML-based formats:

The local name, which is only unique for a particular API and a particular server
The global schema Location, which is a cool URI that resolves to an XML Schema file.

The Schema Namespace is included as „targetNamespace“ in the XML Schema, and the Schema Identifier is delusion anyway. Either you can identify a format by a formal schema (that can also be used to validate records) or you just cannot guarantee which format your records will be in. Sure you can give some hints by linking to documentations, examples, and guidelines. But adding more identifiers is a fakery of control. You are still allowed to provide more specific formats, variants, application profiles, and interpretations under different names. But these formats don’t get more clear or usable if you give them a „Schema Identifier“. Does anyone uses SRU’s Schema Identifiers anyway? I think for XML we can better live with XML Schemas that the XML namespaces can be extracted from. An application can identify a format by its schema location, by the XML namespace, and/or by other information contained in the schema. Additional pointers to human-readable documentation are great. But don’t confuse description with identification if you need to refer to a data format.

P.S. At Code4lib mailing list Rob Sanderson pointed to our discussion we had about the same topic in 2009, and one of my earlier postings on XML4Lib also deals with SRU and namespaces.

Tags: API, Metadata, XML 2 Kommentare

Die Citation Style Language (CSL) als Metadatenformat

29. April 2010 um 16:39 6 Kommentare

Auf der Code4Lib Mailingliste hat Tim Spalding vor einigen Tagen die Idee aufgeworfen, die angekÃ¼ndigten Twitter Annotations zur Ãœbertragung von bibliographischen Daten zu verwenden. Die Beteiligten waren alle der Meinung, das bibliotheksspezifische Formate wie MARC und MODS unpassend sind; BibTeX scheidet ebenfalls aus.

Nach der Ãœberlegung, dass Identifikation und Beschreibung zwei klar abzugrenzende Aufgaben von bibliographischen Daten sind, habe ich mir mal genauer die Citation Style Language (CSL) angeschaut. CSL wird unter Anderem in den Literaturverwaltungsprogrammen Zotero und Mendeley benutzt, um Literaturangaben in unzÃ¤hligen Zitationsstilen ausgeben zu kÃ¶nnen. Die Grundidee von CSL ist, Zitationsstile als CSL-Styles zu definieren, mit denen dann ein CSL-Prozessor aus bibliographischen DatensÃ¤tzen schÃ¶n formatierte Literaturangaben und Bibliographien erstellt. Der am weitesten fortgeschrittene CSL-Prozessor ist citeproc-js. Er ist in JavaScript geschrieben und wurde als Modul aus dem Programmcode von Zotero herausgelÃ¶st, so dass er auch unabhÃ¤ngig verwendet werden kann (allerdings bislang noch nicht mit allen JavaScript-Interpretern).

Die Idee ist nun, das CSL-Eingabeformat als Metadatenformat fÃ¼r bibliographische Daten in Twitter-Annotationen zu verwenden. Im Code4lib-Wiki habe ich mal zusammengefasst, was ich zur Spezifikation des CSL-Eingangsformat gefunden habe. Das Metadatenformat ist ziemlich einfach aufgebaut und soll sich dem Entwickler Frank Bennett nach in einer kommenden Zotero-Version auch einfacher aus dem Programm exportieren lassen.

Zur Vermeidung des Umwegs Ã¼ber Zotero fehlen nur ExportmÃ¶glichkeiten von CSL-Eingangsdaten aus Bibliothekskatalogen. Deren Titel kÃ¶nnten dann automatisch mit CSL in hunderten von Zitierstilen exportiert werden. In Beluga wird dazu Ã¼brigens bislang refbase verwendet, das ebenso wie der CSL-Prozessor citeproc-js als Open Source verfÃ¼gbar ist. FÃ¼r die Wikimedia-Projekte bietet sich das Format ebenso an – so kÃ¶nnten die Leser auswÃ¤hlen, welchen Zitationsstil sie bevorzugen und Literaturangaben aus Wikipedia-Artikeln direkt in ihre Literaturverwaltung Ã¼bernehmen.

Tags: CSL, Identifier, Literaturverwaltung, Metadata, twitter, Zotero 6 Kommentare

KIM-Session zu Metadaten auf dem Bibliothekstag 2008

4. Juni 2008 um 16:38 Keine Kommentare

Der Vortrag zu „Strukturierten Metadaten in Wikipedia“ auf dem Bibliothekstag 2008 ist gut angenommen worden. Fragen kamen vor allem zu ISBN, PND und Personendaten. Leider konnte ich wahrscheinlich nicht ganz rÃ¼berbringen, dass dies nur Beispiele fÃ¼r Metadaten aus Wikipedia sind und dass die VerknÃ¼pfung und Weiternutzung von Metadaten insgesamt zunimmt; Wikipedia ist hierbei nur ein wesentlicher Nucleus. Vielleicht hÃ¤tte zum VerstÃ¤ndnis noch der EinfÃ¼hrungsvortag von Bernhard Haslhofer zum Semantic Web geholfen, der leider krankheitsbedingt ausfallen musste. Der Vortrag „Metadaten im digitalen Workflow“ von Jens Klump aus Potsdam hat mir gefallen, ich vermute nur, dass er fÃ¼r viele Besucher schwer zu verstehen war – Metadaten sind halt auch ein etwas trockenes Thema, schon verwunderlich, dass die Session mit schÃ¤tzungsweise 100 Personen so gut besucht war. Bei dem Vortrag von Steffen Lamparter Ã¼ber „Metadaten in Service Registries“ konnte ich zunÃ¤chst bei einigen grundlegenden Punkte zustimmen (Trend zu immer mehr Produzenten von Inhalten und Metadaten, fortschreitende Automatisierung, immer mehr Dienste etc.), aber als er spÃ¤ter zu Ontologien kam, wurde es etwas zu unkonkret und praxisfern. Die EinschÃ¤tzung liegt vielleicht auch an meiner generell skeptischen Haltung gegenÃ¼ber Ontologien. AbschlieÃŸend widmeten sich Tom Baker und Stefanie RÃ¼hle der Frage „Kann Zertifizierung der ModellkonformitÃ¤t helfen“ und knÃ¼pften damit an den EinfÃ¼hrungsvortrag von Mirjam KeÃŸler Ã¼ber das KIM-Projekt an.

Tags: bibliothekartag2008, KIM, Metadata Keine Kommentare

Wikisource im DFG-Viewer dank Schnittstellen

31. März 2008 um 14:52 3 Kommentare

Der DFG-Viewer ist eine relativ neue Webanwendung zur Anzeige von Digitalisaten. Das von der Deutschen Forschungsgemeinschaft gefÃ¶rderte Projekt soll bei der Etablierung von Standards fÃ¼r Digitalisierungsprojekten helfen – und macht das dank Webservices und offener Standards schon recht gut.

AngestoÃŸen von einem Hinweis auf die Sammlung Ponickau an der ULB Sachsen-Anhalt und eine anschlieÃŸende Diskussion um die andauernden Verwirrungen bezÃ¼glich URI, URN, URL Identifikatoren und Lokatoren, habe ich mir den DFG-Viewer etwas nÃ¤her angesehen. Die Darstellung sieht nicht ganz so cool aus, wie bei The Open Library, dafÃ¼r gibt es offene Schnittstellen. Digitalisate kÃ¶nnen dem Viewer per OAI oder direkter URL im METS/MODS-Format Ã¼bergeben werden. Die einzelnen Seiten eines digitalisierten Buches und dessen innere Struktur (Gliederung) lassen sich dann durchblÃ¤ttern. Eine Volltextsuche ist anscheinend noch nicht implementiert und es fehlt eine eigene Zoom-Funktion; bislang ist es nur mÃ¶glich zwischen verschieden groÃŸen AuflÃ¶sungen zu wechseln, falls diese vom Repository ausgeliefert werden.

Ein Exemplar des auf INETBIB als Beispiel genannten Buches mit der VD17-Nummer 32:623995L ist in Halle digitalisiert vorhanden. Die Metadaten des Digitalisates kÃ¶nnen per OAI in METS/MODS abgerufen werden. Ãœbergibt man nun dem DFG-Viewer die URL, kann das Digitalisat im DFG-Viewer betrachtet werden. Im Moment ist noch ein Schritt Handarbeit notwendig, da im DFG-Viewer ein falscher (?) OAI-Server fÃ¼r Halle eingetragen ist, aber grundsÃ¤chtlich funktioniert das Mashup. 🙂

Statt spaÃŸeshalber eine METS-Datei mit Pornobildchen zusammenzustellen, um sie im DFG-Viewer anzeigen zu lassen, habe ich mir ein zufÃ¤lliges Digitalisat von Wikisource vorgenommen. In Wikisource gibt es fÃ¼r jedes Digitalisat eine Indexseite, auf der einige Metadaten und die Seiten der digitalisierten Vorlage aufgelistet sind. Aus dieser Seite kann eine METS/MODS-Datei erzeugt und an den DFG-Viewer geschickt werden. Zwei bis drei Stunden spÃ¤ter steht ein einfaches Perl-Skript, dass aus der Index-Seite in Wikisource eine METS-Datei erzeugt. Und so sieht es im DFG-Viewer aus (Draufklicken=grÃ¶ÃŸere Ansicht):

Das ganze ist nur ein schnell gehackter Proof-of-concept. Eine stabile Verwendung der Metadaten aus Wikisource sollte aus einer OAI-Schnittstelle bestehen, die METS/MODS liefert (und MABXML fÃ¼r ZVDD). Falls jemand Interesse hat (Bachelor/Diplomarbeit, eigenes Projekt etc.), biete ich gerne meine UnterstÃ¼tzung an – umsetzen muss er es jedoch erstmal jemand anderes da ich nicht dauernd nur neue Projekte anfangen kann. 🙁

Tags: Digitalisierung, Identifier, Katalog, Mashup, Metadata, METS, MODS, OAI, Wikipedia, wikisource 3 Kommentare

Was ist Semantisches Tagging?

26. Februar 2008 um 14:19 11 Kommentare

In AnschluÃŸ an den sehr fruchtbaren Workshop Social Tagging in der Wissensorganisation (Program und weitere Berichte von Mandy Schiefner, bei Joachim Wedekind und Johannes Moskaliuk) schreibe ich grade an einem Artikel Ã¼ber „Semantic Tagging“. Im Zusammenhang mit Social Tagging wurde das Thema Semantic Web zwar immer wieder genannt und die BeitrÃ¤ge dazu im letzten Panel waren alle interessant; wie den nun konkret beide Welten zusammenkommen sollen, blieb aber abgesehen vom Vortrag von Rolf Sint und Georg GÃ¼ntner von Salzburg Research) Ã¼ber das Terminologie-Modul im Projekt LIVE etwas vage – vielleicht liegt das auch an meiner Technik-zentrierten Sicht, auf Implementierungen und Spezifikationen.

So wie ich das LIVE-Projekt verstanden habe, sollen bei der Olympiade 2008 sportliche Ereignisse „live“ verschlagwortet werden, wobei freie Tags zeitnah mit Hilfe eines Thesaurus-Editors in die „Ontologie“ eingearbeitet werden; das ganze basiert auf SKOS und ist damit weitgehend Semantic-Web-kompatibel – und ein Beispiel fÃ¼r Semantic Tagging. Mit Social Tagging hat das Projekt allerdings nur noch wenig zu tun. Falls sich dennoch normale Nutzer am Tagging der PR-Olympiade beteiligen dÃ¼rfen, hier mal ein Vorschlag fÃ¼r die Tag-Cloud:

2008 Bronze Doping Gold Menschrechtsverletzung Propaganda Peking Silber Sponsor

Aber zurÃ¼ck zum Semantischen Tagging: Die Bezeichnung ist eigentlich schon aus der Linguistik besetzt; dort wird unter Semantic Tagging die Erkennung und Auszeichnung von Namen und syntaktischen Strukturen in einem Text verstanden. Ein sehr einfaches Beispiel aus dem Web sind semantische HTML-Tags wie em, strong und cite; eine andere Form semantischen Taggings im Web, die eher in Richtung Auszeichnung von Daten geht, sind Mikroformate. Von dort lÃ¤sst sich zwar wieder der Bogen zum Semantic Web spannen, aber eigentlich ist semantisches Tagging im Linguistischen Sinne etwas anderes: Gegeben ist ein Text, in dem einzelnen Bestandteile wie Subjekt, Objekt, Nebensatz, Personennamen etc. als solche markiert werden. Beim Social Tagging werden dagegen freie Tags an einen gesamten Text (oder ein anderes Objekt) angehÃ¤ngt, um seinen gesamten Inhalt zu beschreiben. Irgendwo sollte sich deshalb zwischen Semantischem Tagging innerhalb eines Textes und Semantischem Tagging als (Social) Tagging mit expliziter Semantik eine Grenze ziehen lassen.

Dachte ich. Bis ich entdeckt habe, was die Nachrichtenagentur Reuters Ende Januar online gebracht hat: Mit der kostenlosen Web-API „Calais“ lassen sich Texte analysieren, indem Reuters Namen, Orte, Zahlen und andere Angaben extrahiert (siehe API-Dokumentation) und mit RDF auszeichnet. [via Taxonomy Watch] Ob die gefundenen EntitÃ¤ten auch gleich mit URIs versehen werden oder ob nur ausgezeichnet wird, dass es sich beispielsweise um einen Firmennamen handelt, habe ich noch nicht rausgefunden – in jedem Fall dÃ¼rften die extrahierten Terme gute VorschlÃ¤ge fÃ¼r semantisches Tagging abgeben. Zum Ausprobieren kann dieses Formular verwendet werden.

Ach herrje – Ich weiÃŸ manchmal nicht, ob ich begeistert sein soll, in welch spannender Weise sich das Web zur Zeit weiterentwickelt oder ob ich daran verzweifeln sollte, wie komplex und schnell das alles geht. Inzwischen ist „Semantic Web“ ja schon so hype, dass es schwierig wird, die Spreu vom Weizen zu trennen.

Tags: Metadata, Microformats, Semantic Web, SKOS, Tagging 11 Kommentare

Aktuelle Projekte und Formate zu Strukturdaten

18. Februar 2008 um 18:04 1 Kommentar

Mit zunÃ¤chst ZVDD und nun TextGrid gibt es im deutschen Sprachraum mindestens ein grÃ¶ÃŸeres bibliothekarisches DFG-Projekt, dass sich auch der ErschlieÃŸung von Dokumenten unterhalb der bibliographischen Ebene annimmt. Inzwischen werden im bibliothekarischen Umfeld diese ErschlieÃŸungsdaten wie zum Beispiel Kapitelgliederung und Paginierung als „Strukturdaten“ bezeichnet (wie es im Englischsprachigen Umfeld aussieht, weiÃŸ ich nicht). Standardformate zur Kodierung von Stukturdaten sind der Metadata Encoding and Transmission Standard (METS) und das Format der Text Encoding Initiative (TEI). Der vor kurzem in einer ersten Version verÃ¶ffentlichte DFG-Viewer basiert auf Strukturdaten im MODS-Format, bislang werden allerdings noch keine Inhaltsverzeichnisses unterstÃ¼tzt. Bislang werden Strukturdaten vor allem im Rahme der Digitalisierung und Archivierung eingesetzt. Ein Beispiel zur Archivierung ist die Dissertation Markup Language (DiML) – als ich als HiWi daran gesessen habe, hat das allerdings noch niemand ein Strukturdatenformat genannt. Ein weiteres Format, das zur Speicherung von Strukturdaten eingesetzt werden kann ist OpenDocument (ODF). Mit der nÃ¤chsten Version dÃ¼rfte ODF noch interessanter werden – derzeit sitzt eine Arbeitsgruppe daran, die Einbindung von Metadaten in ODF-Dokumenten auszubauen – wer sich mit Strukturdaten beschÃ¤ftigt, sollte sich das aktuelle Proposals anschauen – wie man dort sieht, geht alles in Richtung RDF. Wann welches Format vorzuziehen ist bzw. ob und wie ODF beispielsweise TEI verdrÃ¤ngt oder in welchem Kontext die existierenden Formate nebeneinander existieren werden, bleibt abzuwarten.

Tags: Archivierung, ErschlieÃŸung, Informationsarchitektur, Metadata, Standards 1 Kommentar

Citation parsing

24. Januar 2008 um 19:09 6 Kommentare

Citation Analysis is used to rate authors (problematic) and to find interesting papers (good idea). Citations of papers at the famous arXiv.org preprint server are analysed by CiteBase which is very useful. Unluckily it is buggy and does not alway work. I really wonder why the full text of a paper is parsed instead of using the BibTeX source. The citation parser ParaCite has been developed in the Open Citation Project. Since then it seems to be more or less abandoned. But it’s open source so you can test you papers before uploading and one could take the suiting parts to build a better citation parser. I found out that this way you can extract citations out of a document in $file (for instance a pdf) with perl (the needed modules are available at CPAN):

my $parser = Biblio::Citation::Parser::Citebase->new;
my $content = Biblio::Document::Parser::Utils::get_content( $file );
my $doc_parser = Biblio::Document::Parser::Brody->new;
my @references = $doc_parser->parse($content);

for (my $i=0; $i < @references; $i++) {
    my $metadata = $parser->parse( $references[$i] );
    print '[' . ($i+1) . '] ' . Dumper( $metadata ) . "\n";
}

In the documented that I tested there are almost always parsing errors, but better then nothing. I wonder what CiteSeer uses to extract citations? There is more action in citation parsing in the Zotero project – even an IDE called Scaffold to create new „translators“ that extract bibliographic data out of webpages. Another playing ground is Wikipedia which contains a growing number of references. And of course there are the commericla citation indexes like SCI. I thought to use citation data for additional catalog enrichement (in addition to ISBN2Wikipedia) but quality of data seems to be too low and identifiers are missing.

P.S: Right after writing this, I found Alf Eaton’s experiment with collecting together the conversations around a paper from various academic, news, blog and other discussion channels – as soon as you have identifiers (ISBN, URL, DOI, PMID…) the world gets connected 🙂

P.P.S: ParsCit seems to be a good new reference string parsing package (open source, written in Perl).

P.P.S: Konstantin Baierer manages a bibliography on citation parsing for his parser Citation::Multi::Parser.

Tags: Citation, Identifier, Metadata, Perl 6 Kommentare

Nächste Seite »

Jakoblog — Das Weblog von Jakob VoÃŸ