Wikipedia:Literatur/ISBN-Auswertung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Auf dieser Seite werden verschiedene Auswertungen der in den Literaturangaben der Wikipedia vorhandenen ISBNs aufgelistet. Die dazu verwendeten Hilfsmittel werden noch ausführlicher erklärt.

Zur Erstellung der #ISBN-Fehlerliste werden folgende Kommandos ausgeführt

zcat isbn-all-dewiki-070427.gz | isbnproject/isbnlist.pl -F '|' -k 2 -invalid invalid -v valid
awk -F'|' '{print "* [["$1"]]: \"ISBN "$2"\""}' invalid > errorlist

dabei muss die Ausgangsdatei mit einem anderen Skript erstellt worden sein und das Skript isbnlist.pl vorhanden sein. Das Skript erstellt gleichzeitig eine #Statistik.

Bitte entfernt korrigierte ISBN aber behaltet die Statistik bei!

Weitere Ideen und Wünsche

[Quelltext bearbeiten]
  • Verlagsstatistik
  • Überlappung mit Bibliotheksbeständen und Buchhändlern
  • ...
  • ISBN: 197359
  • Valid: 196637 (99,63 %)
  • Invalid: 722 (0,37 %)
  • ISBN-13: 5097 (2,58 %)

Länder und Verlage

[Quelltext bearbeiten]

Eine Statistik der Länder aus denen die zu ISBNs in Wikipedia gehörige Verlage kommen, wird folgendermaßen erstellt:

awk -F'|' '{print $4"\t"}' valid | ./hist | sort -nrk1 > countries

Dabei ist hist ein weiteres Hilfsskript (ja, das wird noch vereinfacht). Eine Visualisierung findet sich hier (benötigt Java). Die häufigsten Länder sind:

ISBNs Country
158547 Germany
28498 English
2914 French
1076 Belgium and Netherlands
749 Italian
641 unknown
415 Czech Republic
372 China
336 Spain
327 Poland
300 Denmark
213 Sweden
196 Russian Federation
177 Japan
171 Norway
153 Hungary
146 Turkey
142 India
130 Thailand
116 Finland

Werke und LibraryThing-Abdeckung

[Quelltext bearbeiten]

Da mehrere ISBNs mehrmals vorkommen, ist die Anzahl der verschiedenen ISBNs von Interesse:

awk -F'|' '{print $1}' valid | sort | uniq > uniq

Es ergibt sich, dass es 130.553 verschiedene korrekte ISBNs gibt (bei insgesamt 196.637 korrekten ISBN-Angaben). Da die Zahl der Vorkommen schief verteilt ist, macht es keinen Sinn, einen normalen Mittelwert anzugeben.

Eine weitere Statistik betrifft die Überlappung zwischen Wikipedia und Literaturdatenbanken. Ich habe mir die ISBN-Nummern aus LibraryThing besorgt und überprüft, wieviele der ISBN aus Wikipedia auch in LibraryThing vorkommen. Es zeigt sich, dass von den 130.553 verschiedenen korrekte ISBNs 25.674 (19,7 %) bereits in LibraryThing eingetragen sind. Die Treffer gehören zu 24.287 verschiedenen Werken, wenn man mit Hilfe von thingISBN verschiedene Auflagen und Übersetzungen zusammenfasst.

cat uniq | isbnproject/isbn_works.pl
awk -F';' '$2{print $2}' validuniquewithworks | wc -l
awk -F';' '$2{print $2}' validuniquewithworks | sort | uniq | wc -l

ISBN-Fehlerliste

[Quelltext bearbeiten]

Siehe Benutzer:APPER/ISBN.