Wikipedia:DVD/Digibib/Rohdaten

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Diese Seite gehört zum Wikipedia-Archiv.

Der Inhalt dieser Seite ist nicht mehr aktuell. Sie wird aber nicht gelöscht, damit die Geschichte der Wikipedia nicht verloren geht. Falls es sich um eine Arbeitsunterlage handelt, ist sie womöglich durch andere Seiten ersetzt worden. Bestehende Weiterleitungen auf diese Seite sollen das Wiederauffinden ermöglichen.

Wenn du meinst, diese Seite sei weiterhin von aktueller Bedeutung, solle weiter benutzt werden und ihre Funktion sei nicht besser in bestehende Seiten integriert, dann kümmere dich bitte um ihre Aktualisierung.

Auf der DVD der Wikipedia-Distribution sind einige Daten dabei, die sich gut für Untersuchungen verwenden lassen. An dieser Stelle ein wenig Reverse Engineering mit Unterstützung von Directmedia.

Verzeichnisstruktur[Quelltext bearbeiten]

DVD[Quelltext bearbeiten]

  • Autoren
    • AutKurz.txt: Quellenangabe (vermutliche Hauptautoren). Zeilenweise pro Artikel: Titel, Autoren (per @ getrennte Liste), IPCount (Anzahl anonymer Autoren).
    • AutLang.txt: Bearbeitungsgeschichte eines jeden Artikels (jeweils eine Liste mit allen Bearbeitungsschritten und den Feldern Datum/Zeit, Autor, minorflag, Kommentar).
    • AutLang.idx: Indexdatei zum Zugriff auf AutLang.txt
  • Data
    • Coverm84.bmp: Cover der DVD (klein)
    • Index.htx: Hashtabelle
    • Index.set: Nicht benötigt.
    • Index.wlx: Wortliste mit diversen Zeigern
    • Tree.dka: Verzeichnisstruktur (u.A. alle Artikeltitel). Zeilenweise und per Leerzeichen eingerückt (Achtung: die Artikeltitel von Personenartikeln sind permutiert)
    • lemmata.txt: Artikeltitel#LemmatagruppeSeite Lemmatagruppe ist dabei "A" für Sachartikel und "B" für Personenartikel.
    • DigiBib.txt: ini-Datei mit Einstellungen der DVD
    • Index.plx: Reverse Index
    • Index.ttx: Sequentielle Wortnummern
    • Text.dki: Die gesamten Texte der Wikipedia (komprimiert)
    • tabelle0.tab: Personendaten, internes Format. Hier als Tab-getrennte Textdatei.
  • db
    • Gindex.dbz: Passwordgeschützes Zip-Archiv mit Covern, Inhaltsverzeichnissen und Lemmatalisten aller Titel der Digitalen Bibliothek. Die Unterverzeichnisse DB001/Data bis TYP09/Data enthalten jeweils vier Dateien: CovermXY.bmp (wobei XY eine Zahl), lemmata.txt, tree.dki und tree.idx. Installiert man die Wikipedia auf die Festplatte und wählt "auch Suchinformationen anderer Bände", werden diese Dateien im Klartext in entsprechende Unterverzeichnisse entpackt. Hat nichts mit der Wikipedia zu tun.
  • HTML
    • HTML.dat: Virtuelles Verzeichnis mit hintereinandergepappten HTML-Dateien
    • HTML.idx: Index-Datei zum Zugriff auf HTML.dat. Zeilenweisen: Dateiname Position Länge. Die Dateinamen sind von ta000000.html bis ta038748.html durchnummeriert. Dabei handelt es sich höchstwahrscheinlich um die in die Artikel eingebundenen Tabellen.
  • Images: Alle Bilder in einer Datei
  • linux: Programmdateien
  • PDA: Daten im Mobipocket Reader Format

CD[Quelltext bearbeiten]

  • images alle Bilder (2.378 Dateien, 22MB)
  • ...der Rest scheint nicht direkt verarbeitbar (durch Knoppix/Lamppix komprimiert)

Die Quelldaten sind online erhältlich. Da der Generator der Digibib es nicht allzu genau nimmt, hat der Dump2Digibib-Konverter es auch nicht allzu genau genommen... Teilweise gibt es überlappende Tags. Wenn jemand wirklich wohlgeformte Daten braucht, bitte an Vlado wenden.