Citation parsing
24. Januar 2008 um 19:09 6 KommentareCitation Analysis is used to rate authors (problematic) and to find interesting papers (good idea). Citations of papers at the famous arXiv.org preprint server are analysed by CiteBase which is very useful. Unluckily it is buggy and does not alway work. I really wonder why the full text of a paper is parsed instead of using the BibTeX source. The citation parser ParaCite has been developed in the Open Citation Project. Since then it seems to be more or less abandoned. But it’s open source so you can test you papers before uploading and one could take the suiting parts to build a better citation parser. I found out that this way you can extract citations out of a document in $file (for instance a pdf) with perl (the needed modules are available at CPAN):
my $parser = Biblio::Citation::Parser::Citebase->new;
my $content = Biblio::Document::Parser::Utils::get_content( $file );
my $doc_parser = Biblio::Document::Parser::Brody->new;
my @references = $doc_parser->parse($content);
for (my $i=0; $i < @references; $i++) {
my $metadata = $parser->parse( $references[$i] );
print '[' . ($i+1) . '] ' . Dumper( $metadata ) . "\n";
}
In the documented that I tested there are almost always parsing errors, but better then nothing. I wonder what CiteSeer uses to extract citations? There is more action in citation parsing in the Zotero project – even an IDE called Scaffold to create new “translators” that extract bibliographic data out of webpages. Another playing ground is Wikipedia which contains a growing number of references. And of course there are the commericla citation indexes like SCI. I thought to use citation data for additional catalog enrichement (in addition to ISBN2Wikipedia) but quality of data seems to be too low and identifiers are missing.
P.S: Right after writing this, I found Alf Eaton’s experiment with collecting together the conversations around a paper from various academic, news, blog and other discussion channels – as soon as you have identifiers (ISBN, URL, DOI, PMID…) the world gets connected
P.P.S: ParsCit seems to be a good new reference string parsing package (open source, written in Perl).
P.P.S: Konstantin Baierer manages a bibliography on citation parsing for his parser Citation::Multi::Parser.
Persistent Identifiers: Irony of Fate or just absurd?
24. August 2007 um 01:20 4 KommentareThe report “Implementing Persistent Identifiers: overview of concepts, guidelines and recommendations” shows you the impracticality of URN and URN:NBN – you do not even have to read any of the 70 report’s pages to find out: If you try the “persistent identifier” http://nbn-resolving.de/urn:nbn:de:gbv:7-isbn-90-6984-508-3-8 to get the report’s PDF, you get the following message by a resolver at http://resolver.sub.uni-goettingen.de/purl/?isbn-90-6984-508-3:
Unfortunately the URL could not be resolved. None of the underlying local document resolver were able to find a document with the given identifier. Maybe one of the services is down or a document with the number doesn’t exist. As your URL should contain a persistent identifier, please check again later.
I’d call this 404 2.0! Furthermore at http://www.cerl.org/news.htm one of the report’s publisher (CERL) points out to a review of the report at http://www.clir.org/pubs/issues/index.html#found – which gives you the current issue of CLIR issues (printed version’s ISSN 1098-6383 is not mentioned anywhere) instead of http://www.clir.org/pubs/issues/issues55.html#found. If you ask Google for the title you easily find the PDF. If you ask WorldCat for the ISBN 90-6984-508-3 you get a record where you have to click and search a lot to guess which link will bring you to the PDF – but it’s only the unresolvable URN again.
If people are already to dump to use existing identifier systems (URL, ISBN, ISSN) in the right way, I strongly doubt that persistent identifier systems will solve any problem.
Kontrollierte Informationen zu Personen
2. Mai 2007 um 19:05 2 KommentareHerr G. hat Quellen für Personen-Normdaten zusammengefasst. Neben der Personennamendatei (PND) über die über die DNB oder über das HBZ sind die Name Authorities der Library of Congress (auch als Webservice) und WorldCat Identities (mehr dazu bei Thom Hickey, ich schrieb bereits darüber) relevant. WorldCat Identities bietet inzwischen auch Dank Ergebnisse des Projekt VIAF etwa 60.000 Links zur PND an. Im PND-Projekt der deutschsprachigen Wikipedia sind übrigens inzwischen fast 30.000 Personenartikel mit PND-Nummern versehen (vollständige Liste vom 27.4.2007 gibt es hier). Weite Quellen finden sich im Beitrag von G. bei Archivalia und in der umfangreichen von Bernhard Ebneth zusammengestellte Linksammlung historisch-biographischer Informationsmittel. Das World Biographical Information System (WBIS) aus dem Saur-Verlag mit mehrere Millionen Kurzbiographien ist übrigens inzwischen in Deutschland als Nationallizenz verfügbar.
ISBN, EAN, UPC, ASIN – kleiner Exkurs Identifikatoren
16. April 2007 um 01:04 3 KommentareIch bearbeite schon seit einiger Zeit das Thema Identifikatoren (künstliche Identifizierungsmerkmale wie zum Beispiel Hausnummern, Produktcodes etc.) in der deutschsprachigen Wikipedia und habe Ende 2004 dort die koordinierte Verwendung von Identifikatoren für Weblinks in Form von “Datenbanklinks” angeregt. Vorgestern kam dort die Diskussion auf, so genannte ASIN zur Verlinkung auf Amazon zu verwenden. Die ASIN ist eine von Amazon verwendete interne Produktnummer, mit der unter Anderem auch Bücher identifiziert werden können, die keine ISBN besitzen. Dies trifft zum Beispiel auf viele Hörbücher zu. Im Hörbuch- und Hörspiel-Blog habe ich dazu einen Beitrag gefunden, der auf ein Produkt-Duplikat verweist, das durch Verwirrungen bei den Identifikatoren eines Hörbuchs entstanden ist: So wird das Hörbuch “Ich und Kaminski” bei Amazon völlig unabhängig voneinander einmal im Bereich Buch und einmal im Bereich Musik geführt. Im ersten Fall sind die ISBN (3829114524 bzw. 978-3829114523 als vollständige ISBN-13) und im zweiten Fall die ASIN (B000G2Y666) angegeben. Die ISBN-13 ersetzt seit Anfang diesen Jahres die alten 10-stelligen ISBN, wobei sich jede 10-stellige ISBN eindeutig und automatisch in eine 13-stellige ISBN umwandeln lässt. Da solche Umstellungen nun mal lange dauern, werden bislang ISBN-10 und ISBN-13 parallel angegeben. Bei ISBN-13 handelt es sich genau genommen um eine Form des guten alten Barcodes: Das System heisst International Article Number (EAN). Neben ISBN ist inzwischen auch das amerikanisch System des Universal Product Code (UPC) in EAN aufgegangen. Es gibt also in Zukunft für Handelsartikel (egal ob Hörbuch oder Coladose) nur noch ein einheitliches System – was vielleicht kulturlos erscheinen mag, aber eigentlich doch ganz praktisch ist. Die Sache mit dem doppelten Hörbuch im Katalog ist übrigens nichts ungewöhnliches sondern leider das tägliche Brot des Systembibliothekars: Ein Teil meiner Arbeit beim GBV besteht vereinfacht ausgedrückt darin, solche und ähnliche Unstimmigkeiten zu finden und zu beheben.
Powered by WordPress with Theme based on Pool theme and Silk Icons.
Entries and comments feeds.
Valid XHTML and CSS. ^Top^
Letzte Kommentare