Archivierung « Jakoblog — Das Weblog von Jakob VoÃŸ

Blog
About

Kurz-URL-Archive als Beacon-Linkdumps

13. November 2012 um 16:16 2 Kommentare

Kurz-URL-Dienste wie bit.ly, goo.gl und t.co gehÃ¶ren zu den eher merkwÃ¼rdigen AuswÃ¼chsen des Web. Eigentlich haben sie vor allem Nachteile, trotzdem werden sie eifrig genutzt. SpÃ¤tere Generationen werden sich ~~vielleicht~~ sicher fragen, warum die Menschen Anfang des 3. Jahrtausend ihre eigene Infrastruktur kaputt gemacht haben – unter anderem die einfache Adressierung von Webseiten mittels URLs. Weil Kurz-URL-Dienste so eine blÃ¶de Idee sind und damit nach ihrem Ableben spÃ¤tere Generationen die ganzen Kurz-URLs zurÃ¼ckverfolgen kÃ¶nnen, hat eine Gruppe von Freiwilligen Archivaren 2011 das URLTeam gegrÃ¼ndet (siehe Vortrag auf der Defcon 2011). Auf der Wiki-Seite des URLTeam sind zahlreiche, teilweise schon nicht mehr aktive Linkresolver aufgefÃ¼hrt. Der letzte Linkdump ist etwa ein Jahr alt und umfasst 48 Gigabyte (gepackt!). Ich habe das Dateiformat etwas aufgebohrt, so dass die archivierten Linkdumps dem Beacon Text Format entsprechen. Hier ein Beispiel:

Felix hatte zur GBV Verbundkonferenz 2009 in einem Tweet auf ein „Wordle“ des GBV Strategiepapiers verwiesen. Der Tweet enthielt die URL http://tr.im/ykr2. Den Kurz-URL-Dienst tr.im gibt es jedoch inzwischen nicht mehr. Bevor tr.im abgeschaltet wurde, hat das URLTeam allerdings geschafft, knapp zwei Millionen URL-Mappings zu sichern. Im frei verfÃ¼gbaren Torrent befindet sich die Datei tr.im.txt.xz, in der auch der gesuchte Kurz-Link steckt:

ykr2|http://www.wordle.net/show/wrdl/1114322/GBV_Strategiepapier

Ich habe den Linkdump mit diesem Perl-Skript um folgende Metadaten im Beacon-Format erweitert:

#FORMAT: BEACON
#CREATOR: URLTeam
#HOMEPAGE: http://urlte.am/
#RELATION: http://dbpedia.org/resource/HTTP_301
#DESCRIPTION: Shortened URLs from http://tr.im
#PREFIX: http://tr.im/
#SOURCESET: http://tr.im/
#TIMESTAMP: 2011-12-31

Der so in eine Beacon-Datei umgewandelte Linkdump steht (gepackt mit XZ) unter http://uri.gbv.de/downloads/links/tr.im.beacon.xz als Beispiel zur VerfÃ¼gung.

Tags: Archivierung, BEACON 2 Kommentare

Kleine Ãœbung zur Langzeitarchivierung

12. Mai 2008 um 22:51 4 Kommentare

Die Forderung, sich immer wieder mit neuen Techniken und Verfahren vertraut zu machen, ist zwar gerechtfertigt, aber ohne ohne konkrete Aufgabenstellung nicht so einfach. Selbstlernkurse wie Lernen 2.0 sind da sehr zu begrÃ¼ÃŸen; am Besten lernt es sich aber an einem konkreten Projekt. Da die Zahl meiner Ideen fÃ¼r Projekte grÃ¶ÃŸer ist als meine Geduld und/oder Zeit, werde ich in Zukunft hier im Blog einige davon skizzieren. Ideen sind dazu da, sie zu teilen, also kann sie jeder nutzen (solange er kein Patent darauf anmeldet) – sei es als Thema fÃ¼r eine Studienarbeit, fÃ¼r den nÃ¤chsten DFG-Antrag, oder als kleine Ãœbung zwischendurch.

Hier nun also eine kleine Ãœbung zur Langzeitarchivierung: Die wunderbare Satire-Zeitschrift „Simplicissimus“ (ZDB-ID 211633-9) ist seit letztem Jahr mit Mitteln der DFG digitalisiert online verfÃ¼gbar. Die einzelnen Ausgaben kÃ¶nnen in Form von PDF-Dokumenten mit eingebetteten Bitmaps (keine Volltexte) heruntergeladen und betrachtet werden. PDF ist schonmal in Ordnung, es enthÃ¤lt aber keine ausreichenden Strukturdaten und Metadaten. Das adÃ¤quate Format wÃ¤re MODS in Kombination mit METS. Inzwischen gibt es mit dem DFG-Viewer (aus einem anderen DFG-Projekt) eine webbasierte MÃ¶glichkeit, METS/MODS-Digitalisate im Browser zu betrachten.

Aufgabenstellung: Erstelle aus den PDF-Dateien des digitalisierten Simplicissimus und weiteren relevanten Informationen Digitalisate im METS/MODS-Format und stelle diese so zur VerfÃ¼gung, dass sie im DFG-Viewer betrachtet werden kÃ¶nnen.

Hinweise: Mit pdfimages lassen sich ohne QualitÃ¤tsverlust Bilder aus PDF-Dokumenten extrahieren. Die Benamung der PDF-Dateien scheint systematisch zu sein, so dass sich daraus automatisch Informationen herausziehen lassen. Die METS/MODS-Daten sind fÃ¼r die unterschiedlichen Ausgaben sehr Ã¤hnlich, am Besten ist es also von einem Beispiel auszugehen, dieses zu verallgemeinern und mit einem Skript die Dateien automatisch zu erzeugen.

Zusatzaufgabe: Die vom Projekt bereitgestellten Verzeichnis der Autoren, BeitrÃ¤ge, Themen und erwÃ¤hnten Personen und Werke ermÃ¶glichen eine gute TiefenerschlieÃŸung – was ist notwendig, damit von dieser ErschlieÃŸung auf den einzelnen Beitrag in einer bestimmten Ausgabe verlinkt werden kann?

Tags: Archivierung, Aufgabe, Digitalisierung, METS, MODS 4 Kommentare

Aktuelle Projekte und Formate zu Strukturdaten

18. Februar 2008 um 18:04 1 Kommentar

Mit zunÃ¤chst ZVDD und nun TextGrid gibt es im deutschen Sprachraum mindestens ein grÃ¶ÃŸeres bibliothekarisches DFG-Projekt, dass sich auch der ErschlieÃŸung von Dokumenten unterhalb der bibliographischen Ebene annimmt. Inzwischen werden im bibliothekarischen Umfeld diese ErschlieÃŸungsdaten wie zum Beispiel Kapitelgliederung und Paginierung als „Strukturdaten“ bezeichnet (wie es im Englischsprachigen Umfeld aussieht, weiÃŸ ich nicht). Standardformate zur Kodierung von Stukturdaten sind der Metadata Encoding and Transmission Standard (METS) und das Format der Text Encoding Initiative (TEI). Der vor kurzem in einer ersten Version verÃ¶ffentlichte DFG-Viewer basiert auf Strukturdaten im MODS-Format, bislang werden allerdings noch keine Inhaltsverzeichnisses unterstÃ¼tzt. Bislang werden Strukturdaten vor allem im Rahme der Digitalisierung und Archivierung eingesetzt. Ein Beispiel zur Archivierung ist die Dissertation Markup Language (DiML) – als ich als HiWi daran gesessen habe, hat das allerdings noch niemand ein Strukturdatenformat genannt. Ein weiteres Format, das zur Speicherung von Strukturdaten eingesetzt werden kann ist OpenDocument (ODF). Mit der nÃ¤chsten Version dÃ¼rfte ODF noch interessanter werden – derzeit sitzt eine Arbeitsgruppe daran, die Einbindung von Metadaten in ODF-Dokumenten auszubauen – wer sich mit Strukturdaten beschÃ¤ftigt, sollte sich das aktuelle Proposals anschauen – wie man dort sieht, geht alles in Richtung RDF. Wann welches Format vorzuziehen ist bzw. ob und wie ODF beispielsweise TEI verdrÃ¤ngt oder in welchem Kontext die existierenden Formate nebeneinander existieren werden, bleibt abzuwarten.

Tags: Archivierung, ErschlieÃŸung, Informationsarchitektur, Metadata, Standards 1 Kommentar

Archiving Weblogs with ATOM and RFC 5005: An alternative to OAI-PMH

19. Oktober 2007 um 11:34 1 Kommentar

Following up to my recent post (in German) I had a conversation with my colleague about harvesting and archiving blogs and ATOM vs OAI-PMH. In my opinion with the recent RFC 5005 about Feed Paging and Archiving and its proposed extension of Archived Feeds ATOM can be an alternative to OAI-PMH. Instead of arguing which is better, digital libraries should support both for harvesting and providing archived publications such as preprints and weblog entries (scientific communication and publication already takes place in both).

Instead of having every project to implementing both protocols you could create a wrapper from ATOM with archived feeds to OAI-PMH and vice versa. The mapping from OAI-PMH to ATOM is probably the easier part: You partition the repository into chunks as defined in RFC 5005 with the from and until arguments of OAI-PMH. The mapping from OAI-PMH to ATOM is more complicated because you cannot select with timestamps. If you only specify a fromargument, the corresponding ATOM feed could be harvested going backwards in time but if there is an until argument you must harvest the whole archive just to get the first entries and and throw away the rest. Luckily the most frequent use case is to get the newest entries only. Anyway: Both protocols have their pros and cons and a two-way-wrapper could help both. Of course it should be implemented as open source so anyone can use it (by the way: There seems to be no OAI-crawler in Perl yet: Sure there is OAI-Harvester but for real-world applications you have to deal with unavailable servers, corrupt feeds, duplicated or deleted entries, and a way to save the harvested records, so a whole layer above the harvester is missing).

P.S.: At code4lib Ed Summers pointed me to Stuart Weibel who asked the same question about blog archiving, and to a discussion in John Udell’s blog that include blog archiving (he also mentions BlogML as a possible part of a solution – unluckily BlogML looks very dirty to me, the spec is here). And Daniel Chudnov drafted a blog mirroring architecture.

Tags: Archivierung, ATOM, BlogML, Feed, OAI 1 Kommentar

Weblogs Sammeln, ErschlieÃŸen, VerfÃ¼gbar machen und Archivieren

19. Oktober 2007 um 03:03 2 Kommentare

Ich Ã¤rgere mich ja schon seit lÃ¤ngerer Zeit, dass praktisch keine Bibliotheken Weblogs sammeln und archivieren, obwohl diese Mediengattung bereits jetzt teilweise die Funktion von Fachzeitschriften Ã¼bernimmt. Inzwischen kann ich unter den Kollegen zwar ein steigendes Interesse an Blogs feststellen (der nÃ¤chste Workshop war nach kurzer Zeit ausgebucht), aber so richtig ist bei der Mehrheit noch nicht angekommen, dass hier eine mit der EinfÃ¼hrung des Buchdrucks oder Erfindung von Zeitschriften vergleichbare Evolution im Gange ist. Ansonsten sollten doch viel mehr Bibliotheken damit beginnen Weblogs zu Sammeln, ErschlieÃŸen, VerfÃ¼gbar zu machen und zu Archivieren.

Anstatt erstmal darÃ¼ber zu diskutieren, in welche MAB-Spezialfelder die Daten kommen und als was fÃ¼r eine Mediengatung Weblogs gelten, mÃ¼sste nur mal einer der existierenden Open Source-Feedreader aufgebohrt werden, so dass er im groÃŸen MaÃŸstab auf einem oder mehreren Servern lÃ¤uft und wenigstens jene Feeds sammelt, die irgend ein Bibliothekar mal als sammlungswÃ¼rdig eigestuft hat. Alles was wohlgeformtes XML und mit einem Mindestsatz an obligatorischen Elementen (Autor [Zeichenkette], Titel [Zeichenkette], Datum [ISO 8061], Inhalt [Zeichenkette]) ausgestattet ist, dÃ¼rfte doch wenigstens so archivierbar sein, dass sich der wesentliche Teil rekonstruieren lÃ¤sst – Besonderheiten wie HTML-Inhalte, Kategorien und Kommentare kÃ¶nnen ja spÃ¤ter noch dazu kommen, wenn die Infrastruktur (Harvester zum Sammeln, Speicher zum Archivieren, Index zum ErschlieÃŸen und eine LesemÃ¶glichkeit zum VerfÃ¼gbar machen) steht.

FÃ¼r die Millionen von Blogartikeln, die bislang verloren sind (abgesehen von den nicht fÃ¼r die Archivierung zur VerfÃ¼gung stehenden Blogsuchmaschinen wie Bloglines, Technorati, Google Blogsearch, Blogdigger etc.) gibt es zumindest teilweise Hoffnung:

Im September wurde RFC 5005: Feed Paging and Archiving definiert eine (auch in RSS mÃ¶gliche) Erweiterung des ATOM-Formats, bei der vom Feed der letzten EintrÃ¤ge auf die vorhergehenden EintrÃ¤ge und/oder ein Archiv verwiesen wird. Im Prinzip ist das schon lÃ¤nger mÃ¶glich und hier an einem Beispiel beschrieben, aber jetzt wurde es nochmal etwas genauer spezifiziert. Damit ist ATOM eine echte Alternative zum OAI-PMH, das zwar der Bibliothekswelt etwas nÃ¤her steht, aber leider auch noch etwas stiefmÃ¼tterlich behandelt wird.

Wie auch immer: Bislang werden Blogs nicht systematisch und dauerhaft fÃ¼r die Nachwelt gesammelt und falls Bibliotheken Ã¼berhaupt eine Zukunft haben, sind sie die einzigen Einrichtungen die dafÃ¼r wirklich in Frage kommen. Dazu sollte in den nÃ¤chsten Jahren aber die „Erwerbung“ eines Blogs fÃ¼r den Bibliotheksbestand ebenso vertraut werden wie die Anschaffung eines Buches oder einer Zeitschrift. Meinetwegen kÃ¶nnen dazu auch DFG-AntrÃ¤ge zur „Sammlung und Archivierung des in Form von Weblogs vorliegenden kulturellen Erbes“ gestellt werden, obgleich ich diesem Projektwesen eher skeptisch gegenÃ¼ber bin: Die BestÃ¤ndige Weiterentwicklung von Anwendungen als Open Source bringt mehr und es wird auch weniger hÃ¤ufig das Rad neu erfunden.

P.S.: Auf der Informationsseite der DNB zur Sammlung von Netzpublikationen findet sich zu Weblogs noch nichts – es liegt also an jeder einzelnen Bibliothek, sich mal Gedanken Ã¼ber die Sammlung von fÃ¼r Sie relevanten Weblogs zu machen.

Tags: Archivierung, ATOM, Bibliothek, Feed, OAI, Web 2.0 2 Kommentare

Vorbereitungen zur Archivierung von Netzpublikationen bei der DNB

29. Mai 2007 um 15:25 1 Kommentar

Auf heise ist wieder etwas zur Archivierung von Netzpublikationen durch die Deutsche Nationalbibliothek (DNB) zu lesen. Die DNB betreibt ein Informationsportal zur Ablieferung von Publikationen, die im Netz erscheinen. Mit dem im Juni 2006 geÃ¤nderten Gesetz Ã¼ber die Deutsche Nationalbibliothek (DNBG) fallen diese Werke auch unter den Sammelauftrag der DNB. NÃ¤heres soll die Pflichtabgabeverordnung klÃ¤ren, die heise im Entwurf vorliegt – allerdings ist der Entwurf anscheinend nicht Ã¶ffentlich, kann das bitte jemand online stellen? Bis es soweit ist, werde ich mal schauen, wie die Ablieferung von Weblogs am Besten zu bewerkstelligen ist. Dass die DNB selber die Feeds sammeln wird, bezweifle ich (obwohl es die einfachste Variante wÃ¤re). Vielleicht hilft das unAPI-Plugin weiter, dass von Mike Giarlo betreut wird, der mit Technosophia mit einen schÃ¶nen Tech-Librarian-Weblog betreib. Das Zusammenpacken und Bereitstellen der Postings eines ausgewÃ¤hlten Zeitraums dÃ¼rfte mit einem passenden Plugin kein Problem sein; der Teufel steckt aber wahrscheinlich im Detail.

Tags: Archivierung, Bibliothek, dnb 1 Kommentar

Jakoblog — Das Weblog von Jakob VoÃŸ

Kurz-URL-Archive als Beacon-Linkdumps

Kleine Ãœbung zur Langzeitarchivierung

Aktuelle Projekte und Formate zu Strukturdaten

Archiving Weblogs with ATOM and RFC 5005: An alternative to OAI-PMH

Weblogs Sammeln, ErschlieÃŸen, VerfÃ¼gbar machen und Archivieren

Vorbereitungen zur Archivierung von Netzpublikationen bei der DNB

Neueste Beiträge

Neueste Kommentare

Blogroll

Feeds

Siehe auch