Wikipedia:Personendaten/Auswertung

aus Wikipedia, der freien Enzyklopädie

Wechseln zu: Navigation, Suche

Auf dieser Seite werden verschiedene Auswertungen der Personendaten gesammelt. Auswertungen für Wartungszwecke stehen unter Wikipedia:Personendaten/Wartung. Unter Wikipedia:Personendaten/Datenextraktion ist beschrieben, wie die Rohdaten aus dem Datenbankdump extrahiert oder direkt heruntergeladen werden können (siehe Datenbankschema und Datenbankinhalt).

Beiträge zu weiteren Auswertungen sind erwünscht!

Inhaltsverzeichnis

[Bearbeiten] Geschlecht und Kategorien

Aus dem Dump vom 1. Juli 2007:

[Bearbeiten] Wie alt geworden?

Beispielsweise alle Personen, die genau 100 Jahre alt geworden sind ermitteln:

SELECT pd_article FROM pub_pd WHERE d_year-b_year = 100 AND b_note='' AND d_note='';

b_note='' AND d_note='' ist notwendig damit Datumsangaben wie "um 1970" nicht berücksichtigt werden.

[Bearbeiten] Namen TOP 100

[Bearbeiten] Vornamen

Siehe Wikipedia:Personendaten/Auswertung/Vornamen

[Bearbeiten] Nachnamen

Müller (83), Fischer (55), Baden (51), Schneider (46), Schmidt (43), Jones (41), Smith (39), Meyer (36), Hoffmann (34), Bach (32), Weber (32), Becker (31), Richter (31), Williams (31), Wagner (29), Gonzaga (28), Fuchs (27), Taylor (26), Anderson (26), Berg (26), Jackson (26), Koch (25), Davis (25), Adams (25), Johnson (25), Berger (25), Braun (25), Lehmann (24), Wilson (24), Neumann (23), Wolf (23), Brown (21), Bauer (20), Miller (20), King (20), Huber (19), Roth (19), Moore (19), Hofmann (18), Carter (18), Lange (18), Hartmann (18), Walter (18), Schulz (18), White (18), Klein (18), Khan (17), Medici (17), Otto (17), Simon (17), Lang (16), Lee (16), Albrecht (16), Hill (16), Arnold (16), Russell (16), Visconti (16), Baumann (16), Mann (16), Martin (16), Graf (15), Evans (15), Beck (15), Lenz (15), Werner (15), Frank (15), Thomas (15), Zimmermann (15), Sforza (15), Barth (14), Kramer (14), Mayer (14), Scott (14), Douglas (14), Böhm (14), Ross (14), James (14), Hahn (14), Haas (14), Herrmann (14), Wright (14), Clark (14), Busch (13), May (13), Stein (13), Steiner (13), Krüger (13), Krause (13), Brandt (13), Peters (13), Schmitt (13), Baker (13), Heine (13), Hamilton (13), Keller (13), Young (13), Adler (13), Friedrich (13), Kühn (13), Lewis (13)

[Bearbeiten] Datumsangaben

Die Datumsangaben werden bei der Transformation geparst um möglichst viele Fälle erkennen zu können.

Siehe auch Wikipedia:Personendaten/Datumsangaben.

Statistik der Personendaten der ersten DVD:

Art Geburtdatum Sterbedatum
Tag 26750 17294
Monat 118 167
Jahr 6486 3509
Jahrhundert 48 17
Keine Angabe 1937 14355
Unbekannt 31 23
Fehler 30 35
Summe 35404 35404

[Bearbeiten] Visualisierung

Sind die Daten erst einmal in ein einheitliches Format gebracht, kann man schöne Sachen damit anstellen, zum Beispiel die Verteilung der Geburtsdaten pro Jahrzehnt (hier bisher nur die Tagesangaben):

[Bearbeiten] Relevanz von Personen

Diese Seiten sind Teil einer Untersuchung nach veschiedenen Relevanzkriterien:

dadurch sollten objektive und automatisierbare Verfahren zur Selektion von wichtigen Personen gefunden und verglichen werden, zudem sollte die Objektivität und Ausgewogenheit der Wikipedia geprüft werden. Ein weiteres Kriterium könnte die Anzahl der Edits pro Artikel sein.

Die Top100pagesize-Statistik basiert auf der Annahme, dass über wichtige Personen mehr geschrieben wird als über unwichtige. Bei der Top1000linksto wird die Anzahl der Links auf eine Seite ausgewertet. Top1000views basiert auf einer leider veralteten (2005) Besucherstatistik der Wikipedia. Ansprechpartner: Benutzer:Kolossos

[Bearbeiten] Personendaten über Vorlagenauswertung

Über das Projekt Wikipedia:WikiProjekt Vorlagenauswertung können auch Personendaten ausgewertet werden. Beispiel:

Alle Personen die in London geboren wurden in der deutschsp. bzw. englischen Wikipedia.

[Bearbeiten] Literatur

  • Jakob Voß: Metadata with Personendaten and beyond. In: Proceedings of the First Wikimania Conference, 2005 [1]
Persönliche Werkzeuge