Links Sammeln und Verteilen mit BEACON

12. Juni 2012 um 12:45 9 Kommentare

Seit ich Ende letzten Jahres auf der Semantic Web in Bibliotheken (SWIB11) einen Vortrag zur Linkaggregation mit BEACON gehalten haben (hier der Mitschnitt) hat sich einiges getan.

Das BEACON-Format wurde ursprünglich Anfang 2010 von Mathias Schindler als ad-hoc Lösung vorgeschlagen, um über Identifier der Gemeinsame Normdatei (GND) zwischen Wikipedia-Artikeln und passenden Webseiten in Personenlexika und Bibliothekskatalogen zu verlinken. Beispielsweise findet sich Literatur zu Tina Modotti im Katalog der Bayerischen Staatsbibliothek (BSB) unter folgender URL:

http://opacplus.bsb-muenchen.de/search?pnd=11858295X

Die URI des GND-Eintrags von Modotti ist:

http://d-nb.info/gnd/11858295X

Sofern die Links einheitlich aufgebaut sind, reicht für die Verknüpfung in einer BEACON-Datei die GND-Nummer 11858295X aus. Zusätzlich kann beispielsweise die Anzahl der Treffer im BSB-Katalog (momentan acht) angegeben werden. Hier ein Beispiel für eine BEACON-Datei:

#FORMAT: BEACON
#PREFIX: http://d-nb.info/gnd/
#TARGET: http://opacplus.bsb-muenchen.de/search?pnd={ID}
#DESCRIPTION: Links auf Literatur zu Personen im Katalog der BSB
#MESSAGE: {annotation} Einträge im BSB-Katalog

11858295X|8

Diese einfache Form der Weitergabe von Links hat sich inzwischen durchgesetzt und es sind zahlreiche BEACON-Dateien verfügbar. Wie bei ad-hoc Standards üblich, haben sich allerdings unterschiedliche Interpretationen und Erweiterungen von BEACON entwickelt. Wir sind deshalb dabei, BEACON endgültig exakt zu spezifizieren, um es schließlich als Internet-Standard (RFC) zu verabschieden. Die Entwicklung kann auf github verfolgt werden, wobei der aktuelle Stand hier (HTML) bzw. hier (TXT) einsehbar ist.

Im wesentlichen muss zum Verständnis von BEACON zwischen zwei Ebenen unterschieden werden: Ein BEACON Link Dump ist eine Menge von einheitlich aufgebautem Links, die ggf. mit einigen Metadaten angereichert ist. In welchem Format die Links gespeichert werden, ist davon unabhängig. Jeder Link besteht aus genau vier Teilen:

  • Einer Quelle (link source), beispielsweise der URL
    http://d-nb.info/gnd/11858295X
  • Einem Ziel (link target), beispielsweise der URL
    http://opacplus.bsb-muenchen.de/search?pnd=11858295X
  • Einem Beziehungstyp (link relation type), beispielsweise der URI
    http://www.w3.org/2000/01/rdf-schema#seeAlso
  • Einer Anmerkung (link annotation), beispielsweise der Zeichenkette
    8 Einträge im BSB-Katalog.

Der Beziehungstyp ist für alle Links in einem BEACON Link Dump gleich. Quelle, Ziel und Anmerkung können bei der Speicherung abgekürzt werden. Die Form zur Speicherung und Weitergabe (Serialisierung) ist die Zweite Ebene von BEACON. Neben dem ursprünglichen BEACON-Text-Format gibt es ein einfaches BEACON-XML-Format. Das oben angegebene Beispiel könnte in BEACON-XML folgendermaßen ausgedrückt werden:

<?xml version="1.0" encoding="UTF-8"?>
<beacon xmlns="http://purl.org/net/beacon"
       prefix="http://d-nb.info/gnd/"
       target="http://opacplus.bsb-muenchen.de/search?pnd="
  description="Links auf Literatur zu Personen im Katalog der BSB"
      message="{annotation} Einträge im BSB-Katalog">
   <link source="11858295X" annotation="8" />
</beacon>

Daneben können Links aus BEACON auch nach RDF übersetzt werden, was für die Anwendung als Linked Open Data von Bedeutung ist. Der Link in RDF/Turtle-Syntax (hier ohne Anmerkung) wäre bswp.:

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
<http://d-nb.info/gnd/11858295X>
rdfs:seeAlso 
<http://opacplus.bsb-muenchen.de/search?pnd=11858295X> .

Zum Ausdrücken der Anmerkung eines Links ist das Meta-Feld „qualifier“ vorgeschlagen, so dass sich BEACON Dumps auch vollständig in RDF übertragen lassen. In jedem Fall ist BEACON nicht auf GND-Nummern beschränkt und Quelle und Ziel müssen nicht zwangsläufig eine gemeinsame ID verwenden. So stellt beispielsweise lobid.org ein Mapping zwischen Lobid-URIs und Wikipedia-Artikeln bereit. Die dabei verwendete Form von BEACON weicht noch etwas vom endgültigen BEACON-Standard ab. Auch aus diesem Grund benötigen wir zum Aktuellen Entwurf des BEACON-Spezifkation noch Feedback und Korrekturleser.

Why do Wikimedia projects fail to deliver open content?

10. Juni 2012 um 01:02 3 Kommentare

From time to time I’d like to link to a famous quotation. I then remember Wikiquote, a wiki-based „quote compendium“ similar to Wikipedia, also run by the Wikimedia Foundation. Or I’d like to link to a famous text, and I visit Wikisource, an „online library of free content publications“, also Wikimedia project since years. But even when the quotation or text is included in Wikiquote/Wikisource, I most times leave depressed. This also applies to other Wikimedia projects, such as Wiktionary, Wikibooks, Wikimedia Commons, and even Wikipedia to some degree.



failed open content or just perpetual beta?

The reason has been mentioned by Gerard Meijssen at the Wikimedia Berlin Hackathon (#wmdevdays) a few days ago. He wrote that „Both #Wikibooks and #Wikisource do a terrible job promoting their finished product.“ I’d like to stress that Wikimedia projects do not (only) fail promoting, but they fail delivering their products. That’s sad, because Wikimedia projects are about collecting and creating open content, which anyone should be able to reuse. But conrtent is not truly open when it is only available for reuse by experts. For instance, why can’t one just…

  • …link to a single quotation in Wikiquote? (WTF?!)
  • …highlight a section in Wikipedia and get a stable link to this selection?
  • …download content from Wikibooks, Wikisource, or Wikipedia in different formats such as EPUB, LaTeX, MarkDown, OpenDocument etc.?
  • …find out the precise license of a media file from Commons?

Most of these tasks are possible if you are an expert in Wikimedia projects. You have to learn a crude WikiSyntax, know about MediaWiki API and dozens of license tags, know about extensions, do error-prone conversion on your own, deal with full dumps etc. Maybe I am too harsh because I love Wikimedia. But if you are honest about its projects, you should know: they are not designed for easy reuse of content, but more about work-in-progress collaborative editing (and even editing capability is poor compared with Google Docs and Etherpad).

Gerard suggested to create another Wikimedia project for publishing but I doubt this is the right direction. There is already a feature called Quality Revisions for marking a „final“ state of a page in MediaWiki. The core problem of reusing content from Wikimedia projects is more how to actually get content in a usable form (deep link, eBook formats, LaTeX… etc.).