Kurz-URL-Archive als Beacon-Linkdumps

13. November 2012 um 16:16 2 Kommentare

Kurz-URL-Dienste wie bit.ly, goo.gl und t.co gehören zu den eher merkwürdigen Auswüchsen des Web. Eigentlich haben sie vor allem Nachteile, trotzdem werden sie eifrig genutzt. Spätere Generationen werden sich vielleicht sicher fragen, warum die Menschen Anfang des 3. Jahrtausend ihre eigene Infrastruktur kaputt gemacht haben – unter anderem die einfache Adressierung von Webseiten mittels URLs. Weil Kurz-URL-Dienste so eine blöde Idee sind und damit nach ihrem Ableben spätere Generationen die ganzen Kurz-URLs zurückverfolgen können, hat eine Gruppe von Freiwilligen Archivaren 2011 das URLTeam gegründet (siehe Vortrag auf der Defcon 2011). Auf der Wiki-Seite des URLTeam sind zahlreiche, teilweise schon nicht mehr aktive Linkresolver aufgeführt. Der letzte Linkdump ist etwa ein Jahr alt und umfasst 48 Gigabyte (gepackt!). Ich habe das Dateiformat etwas aufgebohrt, so dass die archivierten Linkdumps dem Beacon Text Format entsprechen. Hier ein Beispiel:

Felix hatte zur GBV Verbundkonferenz 2009 in einem Tweet auf ein „Wordle“ des GBV Strategiepapiers verwiesen. Der Tweet enthielt die URL http://tr.im/ykr2. Den Kurz-URL-Dienst tr.im gibt es jedoch inzwischen nicht mehr. Bevor tr.im abgeschaltet wurde, hat das URLTeam allerdings geschafft, knapp zwei Millionen URL-Mappings zu sichern. Im frei verfügbaren Torrent befindet sich die Datei tr.im.txt.xz, in der auch der gesuchte Kurz-Link steckt:

ykr2|http://www.wordle.net/show/wrdl/1114322/GBV_Strategiepapier

Ich habe den Linkdump mit diesem Perl-Skript um folgende Metadaten im Beacon-Format erweitert:

#FORMAT: BEACON
#CREATOR: URLTeam
#HOMEPAGE: http://urlte.am/
#RELATION: http://dbpedia.org/resource/HTTP_301
#DESCRIPTION: Shortened URLs from http://tr.im
#PREFIX: http://tr.im/
#SOURCESET: http://tr.im/
#TIMESTAMP: 2011-12-31

Der so in eine Beacon-Datei umgewandelte Linkdump steht (gepackt mit XZ) unter http://uri.gbv.de/downloads/links/tr.im.beacon.xz als Beispiel zur Verfügung.

2 Comments »

RSS feed for comments on this post. TrackBack URI

  1. Finde ich eine super Idee! Daran hätte ich nie gedacht, diese Links zu archivieren… Wird wirklich in Zukunft sicherlich nützlich sein.

    Comment by Holger — 13. November 2012 #

  2. vielen dank für diese krasse Idee … stellt sich mir die Frage ob die nicht mal von einer Umstrukturierung überworfen wird … aktuell scheint ja alles denkbar 😉

    Comment by Donny — 13. Februar 2013 #

Sorry, the comment form is closed at this time.