Wikipedia Diskussion:Personendaten/Wartung/Fehlerliste/Archiv/2010

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Geburts- oder Sterbeort fehlt im Text

Seit ein paar Stunden erhalte ich folgende Fehlermeldung: Software error: DBD::mysql::st execute failed: Got error 5 from storage engine at ./pd.cgi line 634. Andim 00:28, 3. Jan. 2010 (CET)

Der Fehler tritt bei allen Kategorien mit vielen Einträgen auf. Andim 01:02, 3. Jan. 2010 (CET)

Kategorien in Weiterleitungen

Bislang habe ich die Kategorien und eventuell vorhandene PD aus den Weiterleitungen gelöscht. Das haben wie ich gesehen habe auch andere gemacht. Zum Hergang bitte diesen Link ansehen.[1] --Graphikus 17:56, 12. Jan. 2010 (CET)

Bitte auch diesen Beitrag beachten: FzW Personenartikel - Kategorien bei redirects --Graphikus 18:04, 12. Jan. 2010 (CET)

Fehlermeldung

Die Fehlermeldung: "DBI connect('u_sk_yarrow:host=sql','sk',...) failed: User 'sk' has exceeded the 'max_user_connections' resource (current value: 15) at ./pd.cgi line 28 " kommt häufig vor. Da macht es keinen Spaß mehr, die Fehler abzuarbeiten. Kann man da was machen?? Gruss --Pelz 22:20, 18. Jan. 2010 (CET)

Heute läuft die Liste überhaupt nicht. --Pelz 21:28, 19. Jan. 2010 (CET)
Ich hab gestern mal auf dem Server geschaut. Da hatte sich ein Knoten gebildet. :-) Heute sollte es wieder laufen. Ein Skript hat sich mehrfach gestartet und dadurch alle 15 "Max_user_connections" beschlagnahmt. Bin da am umorganisieren. Hab auch schon richtig gute Ideen, wie das funktionieren könnte, brauch nur noch ein paar Stunden Luft, um dass mal zu implementieren. -- sk 10:35, 20. Jan. 2010 (CET)
Wenn sowas nochmal passieren sollte (also Totalausfall), einfach mal eine Mail schicken. Ich versuche wenigstens jeden Tag einmal meine Mails zu lesen. Leider schaffe ich es nicht jeden Tag auf die Diskussionseite zu schauen. Deswegen hab ich es erst heute deinen Eintrag gelesen. -- sk 10:37, 20. Jan. 2010 (CET)

keine Personendaten

Claus Priesner obwohl die eingefügt wurden werden keine angezeigt. Habe auch schon weblinks und Einzelnachweise umgestellt hat aber nichts gebracht. --Graphikus 12:25, 20. Jan. 2010 (CET)

Das lag am References siehe meine Änderung. -- sk 12:49, 20. Jan. 2010 (CET)
Danke, gesehen, wieder was gelernt. --Graphikus 12:55, 20. Jan. 2010 (CET)

Personendaten fehlen, aber Personenkategorien vorhanden

Ich habe den Eindruck, dass diese Überprüfung versagt, wenn nur eine Kategorie angeben ist, vgl. z.B. die Versionsgeschichte von Lo Hesse, Chris Milk oder Claus Rüdrich. Andim 10:58, 12. Feb. 2010 (CET)

Das liegt wohl an Zeilen 1421 ff.
		my $number_of_cat = @kategorien;
		$number_of_cat = $number_of_cat -1;
		for (my $i = 0; $i < $number_of_cat; $i ++) {
Wenn mich meine mangelnden perl-Kenntnisse nicht im Stich lassen, müsste die zweite Zeile entweder wegfallen, oder die Schleife bis $i <= $number_of_cat gehen. Den höchsten Index erhält man übrigens auch mit $#kategorien. --Schnark 09:35, 13. Feb. 2010 (CET)
Ich sehe gerade: Wenn das $title ne $test nur für den Filmregisseur da war, dann kann es entfallen, der wird nämlich durch die Ausnahme mit dem Leerzeichen aufgefangen. Wenn du zusätzlich noch Zeile 1436
               and index($kategorien[$i], '| ]') == -1
ersetzt durch
               and index($kategorien[$i], '| ') == -1
werden wir auch den Briganten los. --Schnark 09:45, 15. Feb. 2010 (CET)
Ich schau mir das mal an, wenn ich zeit habe. Der Tipp mit $#kategorien ist gut. Als Autodidakt, muss man da erstmal drauf kommen. -- sk 11:21, 16. Feb. 2010 (CET)
 Ok, eingebaut. -- sk 21:48, 17. Feb. 2010 (CET)

Abkürzungen in Persondendaten

Hallo, immer wieder fällt mir auf, dass in der Kurzbeschreibung Abkürzungen verwendet werden. Beispiel von gerade eben: "Komponist & Musikproduzent" statt "Komponist und Musikproduzent". Bei Eigennamen mag das ja korrekt sein aber wäre es möglich, mal testweise nach solchen Textpassagen (beispielsweise auch nach "u.") zu suchen? --RonaldH 11:43, 16. Jan. 2010 (CET)

Sterbedatum mit zwei Zeilen (ID 1086)

Hi. Bei 1086 wird seit Tagen John Spencer (Snookerspieler) gelistet, ich kann aber nicht erkennen, was das Problem ist... --APPER\☺☹ 15:04, 6. Mär. 2010 (CET)

Wurde schon mal angesprochen, das zweite Datum kommt möglicherweise aus der Infobox --Graphikus 16:25, 6. Mär. 2010 (CET)

Fehler 1105

Bei Fehler 1105 müssten die Leerzeichen am Anfang der Kurzbeschreibung eliminiert werden, bevor die Position des ersten Leerzeichens bestimmt wird. Konkret: In if ($ok eq 'true') muss $first_word =~ s/^[ ]//g; nach oben vor my $pos = index ($kurz_plain, ' '); wandern. Andernfalls gibt es Probleme, wenn die Kurzbeschreibung mit einem Leerzeichen beginnt. --Schnark 10:05, 9. Mär. 2010 (CET)

Danke für die 3 Hinweise (auch oben). Ich werde das einbauen sobald ich Luft habe. Scheinbar kennst du dich gut aus mit Perl. Wenn du Lust hast, kannst du auch gerne eigene neue Fehler beisteuern. -- sk 11:56, 9. Mär. 2010 (CET)
Hehe... "du kannst gerne eigene neue Fehler zu meinem Programm beisteuern". Das hört man viel zu selten von Programmierern ;). --APPER\☺☹ 11:25, 10. Mär. 2010 (CET)

"nigerisch"

Bei der Hauptseitendiskussion von neulich ist mir aufgefallen, dass in der Unterfunktion Rechtschreibung2 ein

Rechtschreibung3 ($test_data, 'nigrisch',	'nigerisch');

hilfreich sein könnte. Die Nigrer, die als nigerianisch bezeichnet wurden, habe ich gerade korrigiert, die drei nigerischen Personen lasse ich mal als Testfall. --Schnark 10:04, 22. Feb. 2010 (CET)

 Ok, eingebaut. -- sk 21:31, 10. Mär. 2010 (CET)

Falsches Jahrhundert

Bei den Fehlern 1111 und 1112 gibt es Probleme mit Daten wie "1. Januar um 1234". Dem Kommentar entnehme ich, dass du in Zeile 10643 statt "if ($jh =~ /^[0-9]+/){" den regulären Ausdruck /^[0-9]+$/ verwenden wolltest. Besser wäre es aber wohl, 4 Zeilen darüber statt "$jh =~ s/([ ]+)?um //;"

$jh =~ s/^.*um //;

zu schreiben, ebenso dann bei gestorben. --Schnark 11:41, 5. Mär. 2010 (CET)

 Ok, eingebaut. Mal schauen wie es morgen dann ausschaut. -- sk 21:47, 10. Mär. 2010 (CET)

Fehler 4

hier werden nun über 500 Artikel gelistet. --Graphikus 22:04, 10. Mär. 2010 (CET)

Dies kommt daher, dass nun alle Kategorien ausgewertet werden. Bis vor kurzem wurde irrtümlicherweise die letzte Kategorie ignoriert. Andim 22:59, 10. Mär. 2010 (CET)
Vielleicht sollte man bei diesem Fehler die Weiterleitungen ausschließen. Andim 23:12, 10. Mär. 2010 (CET)

Männer und Frauen ohne PD, die nicht gefunden werden

Kleines Ratespiel: Was haben folgende Artikel gemeinsam, außer der Tatsache, dass sie bei "PD fehlen" auftauchen müssten und es nicht tun?

Zunächst einmal Nano Nagle, Armida Barelli, Gaetana Sterni. Autor ist jeweils Benutzer:Grani, Grund fürs Nichtfinden das Leerzeichen bei den Kategorien.

Weiter: Charles II. d'Albret. Auch hier ist ein Leerzeichen bei der Kategorie :Mann, aber eigentlich müsste zumindest die Gestorben-Kategorie gefunden werden.

Von Benutzer:EdgarvonSchleck ist auch wieder einer dabei: Hamed Jannat.

Benutzer:Abfall-Reiniger schrieb Joan van Hoorn und Abraham van Riebeeck, Benutzer:HieRo GlyPhe schrieb Christian Günther III. (Schwarzburg-Sondershausen) und Günther XLIII. (Schwarzburg-Sondershausen), von Benutzer:Xquenda stammen Debaki Bose und Sibi Malayil.

Völlig ohne von mir erkennbaren Zusammenhang gibt es noch Maura O’Donohue, Barbara Heitger, Fiva & Radrum, Otto Berndt, Thomas Christ, Tomas N'Evergreen, Wolfskehlmeister, Mr. Brainwash, Nikephoros I. (Patriarch) und Klaus Lefringhausen.

Das Problem mit den Leerzeichen sollte durch ein

$all_categories =~ s/\s*:\s*/:/g;

nach

$all_categories =~ s/^\t//g;

in Zeile 954 behebbar sein.

Bei den anderen sehe ich aber überhaupt nicht, wieso sie nicht gefunden werden. Vielleicht findet aber jemand bei dieser doch recht großen Datengrundlage irgendeinen Zusammenhang. --Schnark 10:58, 11. Mär. 2010 (CET)

Hast du selbst den Dump irgenwie gescannt oder wie kommst du zu den Daten? Das mit dem Leerzeichen geht fix zu ändern. Bei Fiva & Radrum könnte es die Kategorie:Hip-Hop-Gruppe sein, die zum ausscheiden führt. Ich habe das Skript so gebaut, dass zuerst nach Mann/Frau gesucht wird. Das heißt Artikel die nicht Mann oder Frau sind, werden nach Personenkategorien durchsucht. Ich weiß jetzt nicht ob ich da auch Geboren- und Gestorben-Kategorien drin habe, eigentlich aber müssten die da schon drin sein. -- sk 11:58, 11. Mär. 2010 (CET)
Ich hab mit diesem Tool auf dem Toolserver gesucht und alle aufgelistet, die schon vor dem 8. März die entsprechenden Kategorien hatten. Die Kategorie:Hip-Hop-Gruppe erklärt natürlich, warum dieser Artikel nicht gefunden wird, du prüfst ja erst auf Nicht-Personen-Kategorien und danach auf Mann/Frau/Geboren/Gestorben/Infobox (ab Zeile 1360, falls du die Stelle gerade nicht findest). Bei allen anderen rätsle ich aber immer noch. --Schnark 12:10, 11. Mär. 2010 (CET)
Fehler gefunden! Ersetze die Zeile 1365
$is_a_noperson = 1 if (index ( $low_cat , lc( $_ )) > -1 );
durch (ich hoffe die Syntax stimmt, meine Perl-Kenntnisse sind nicht so gut, wie sie vielleicht scheinen)
$is_a_noperson = 1 if (index ( $low_cat , ":".lc( $_ )."]") > -1 );
EdgarvonSchleck schreibt nun einmal über Radsportler, und Orte sind keine Personen. Ähnliches gilt auch bei den anderen. --Schnark 12:31, 11. Mär. 2010 (CET)
Aha, die berühmt berüchtigten Radsportler. Na dann wird mir einiges klar. -- sk 13:30, 11. Mär. 2010 (CET)

Neue eigene Datenbank

Hallöchen zusammen, habe heute meinen Nachmittag damit verbracht, die Fehlerauswertung der Personendaten in eine komplett eigenständige Datenbank zu verfrachten. Das neue Interface greift jetzt also auf eine andere Datenbank zu als das das CheckWikipedia-Projekt macht. Bisher waren die in einer DB zusammen und haben sich in letzter Zeit mehr und mehr gestört. Ich musste das Interface etwas anpassen, aber jetzt sollte alles wieder ordentlich laufen. Falls es Problem mit der Umstellung gibt, einfach hier melden. -- sk 21:50, 7. Mär. 2010 (CET)

Ich habe seit gestern Abend Probleme, Fehler mit vielen Einträgen aufzurufen. Diese Zugriffe dauern sehr lange, manchmal erscheint die Fehlermeldung "User 'sk' has exceeded the 'max_user_connections' resource". Könntest Du hier bitte den aktuellen Dump von gestern einspielen. Andim 12:29, 8. Mär. 2010 (CET)
Das kann ich heute auch noch bestätigen. Bei einer Fehlerkat mit >1600 Einträgen rödelt die Kiste minutenlang rum, um dann nichts anzuzeigen. In der Adresszeile steht dann:http://toolserver.org/~sk/cgi-bin/pd/pd.cgi?view=only&id=1107 Vielleicht war die eigene Datenbank doch keine so gute Idee. --Pelz 20:32, 8. Mär. 2010 (CET)
Es läuft gerade durch und es sieht genauso aus wie vor dem Durchlaufen, d.h. exakt dieselben Verbesserungsvorschläge vom Vortag. Al-Musta'in_bi-llah hatte gestern 4 Verbesserungsvorschläge, jeweils 2x 1055 und 1106, heute wieder. Mich verwundert aber dabei, dass 1111 und 1112 wieder auftauchen, obwohl die gestern jemand weggeklickt hat. Die Problem von Andim und Pelz hab ich in unregelmäßigen Abständen seit 2 Monaten. Betrifft alle Kategorien mit über 500 Einträgen. --HS13 04:59, 9. Mär. 2010 (CET)
Danke, erstmal für die Hinweise. Das mit der eigenen Datenbank ist schon deshalb von Vorteil, weil wir uns dann hier nicht mehr mit diesem Problem der max. 15 User rumschlagen müssen. Ich denke die Probleme rühren von einem fehlenden Index her. Werde mir das noch anschauen, aber diese Woche werde ich wahrscheinlich erst gegen Freitag dazu kommen. Dann kann ich gleich mal den neusten Dump einspielen. -- 212.111.241.81 09:16, 9. Mär. 2010 (CET)
Ich hab heute früh die Datenbank geleert und einen weiteren Index angelegt. Danach hab ich jetzt den neuen Dumpscan gestartet. Der läuft also gerade ein. Leider musste ich jetzt feststellen, dass die Performance noch nicht signifikant gebessert hat. Bin noch am grübeln woran das liegt. Ich hoffe, ich kann spätestens am Wochenende wieder ein ordentlich fixes Interface anbieten. Mal schauen wie ich bis dahin Zeit habe. -- sk 08:21, 10. Mär. 2010 (CET)
Soweit ich das gerade sehe, scheint aber die Detailansicht für einen Artikel wesentlich sich beschleunigt zu haben. -- sk 08:56, 10. Mär. 2010 (CET)
So, jetzt hab ich auch noch eine weitere Beschleunigung eingebaut. Lag an einem ungünstigen SQL-Statement. :-) -- sk 21:09, 10. Mär. 2010 (CET)
wenns so bleibt ist es Super :) --Graphikus 21:36, 10. Mär. 2010 (CET)
Mensch, so schnell ist das ja noch nie gewesen. Herzlichen Dank Stefan das Du das trotz Deiner angespannten Zeitlage hinbekommen hast. Du solltest einen Orden bekommen! --Pelz 10:27, 11. Mär. 2010 (CET)
Ich freue mich, dass mein Tool so gern genutzt wird. Steckt viel Arbeit drin. :-) Gleich nochmal vielen Dank an alle Abarbeiter. -- sk 10:54, 11. Mär. 2010 (CET)
Bei der Abarbeitung von Fehler 1107 hatte ich heute Abend ein einziges Mal wieder den Fehler mit den 15 Usern. Weiter ist mir aufgefallen, dass die innerhalb einer Fehlerrubrik keine Sortierung mehr besteht. Die Sortierung halte ich schon aus verschiedenen Gründen für ziemlich wichtig. Gruss --Pelz 23:40, 11. Mär. 2010 (CET)
Wenn wirklich mehr als 15 Benutzer gleichzeitig das CGI-Skript aufrufen, dann werden halt 15 Datenbankverbindungen aufgemacht. Da müsste ich jetzt sowas wie ein Jobverwaltung aufbauen, was ich noch nie gemacht habe. Das heißt die ersten Jobs werden erstmal abgearbeitet und der 16. steht dann in einer Warteschleife. Scheint mir derzeit noch zu aufwendig und erstmal auch nicht notwendig. - Die Standardsortierung nach Titel bei der Ausgabe hab ich rausgenommen, da dadurch die Geschwindigkeit der ersten Ausgabe deutlich steigt. Wer eine Sortierung braucht kann das aber immer noch mit den Pfeilen an den einzelnen Spalten machen. -- sk 08:13, 12. Mär. 2010 (CET)

Kategorie Geboren im falschen Jahrhundert

Hallo Stefan, ich sah in der angegebenen Fehlerkategorie den Text „Das 19. Jahrhundert z.B. begann 1800 und geht bis 1899“. Das ist nach allgemeiner Auffassung nicht so, siehe etwa 19. Jahrhundert. Vielmehr geht das 19. Jahrhundert von 1801 bis 1900, da es in unserem Alltagskalender kein Jahr Null gibt. An sich nicht wichtig, führt es bei Daten wie 1900 leider zu einer falschen Kategorisierung. Vielleicht ist aber auch nur der Text falsch, das Programm nicht? Bei der Gelegenheit: Danke für Deine Arbeit an den PD, Gruß, --Griot 10:21, 12. Mär. 2010 (CET)

Gut das dir das auffällt. Mir war das schonmal augefallen, aber ich habs wieder vergessen und nicht geändert. Werde das mal korrigieren. -- sk 11:20, 12. Mär. 2010 (CET)

Fehler 4

Der Fehler wurde nun einmal von mir komplett durchsucht. Dabei sind ca. 100 fehlende Personendaten in Biografien gefunden worden. Was die Suche kompliziert ist dass hierrein, auch wie Andim schon oben bemerkte, die Weiterleitungen einlaufen. Stichproben haben ergeben, dass die Weiterleitungen in der Regel nur eine Kategorie beinhalten. Es würde viel Zeit sparen wenn hier keine Weiterleitungen einlaufen würden. Ist das machbar? --Graphikus 21:11, 14. Mär. 2010 (CET)

Hmm, mal schauen ob ich für den Fehler die Weiterleitungen ausschalten kann. Muss aber erstmal überlegen, ob das auch sinnvoll ist. Nicht das nachher die Weiterleitungen keine Personendaten bekommen. Manchmal ist das ja auch sinnvoll. Z.B. bei Musikgruppen etc. -- sk 18:13, 15. Mär. 2010 (CET)
Ich habe zwar den Vorschlag oben schon gemacht, bin mir aber auch nicht mehr sicher, ob er gut ist. Andim 18:41, 15. Mär. 2010 (CET)
Alternativ wäre eine extra Fehlerkategorie für fehlende Personendaten in Weiterleitungen. -- sk 22:01, 15. Mär. 2010 (CET)

Keine neuen Artikel mehr

Die neue Datenbank funktioniert sehr gut. Ich habe aber den Eindruck, dass die neuen Artikel nicht mehr überprüft werden. Andim 08:56, 15. Mär. 2010 (CET)

Oups, da hab ich scheinbar was übersehen. Mal schauen was sich da machen lässt. -- sk 18:10, 15. Mär. 2010 (CET)
Bin gerade am einbauen. -- sk 21:28, 17. Mär. 2010 (CET)
 Ok, eingebaut. Sollte jetzt neue und geänderte Artikel beachten. -- sk 22:18, 17. Mär. 2010 (CET)
ja, da kommt schon einiges. --Graphikus 22:32, 17. Mär. 2010 (CET)
Irgendwas ist schief gegangen. Kann mir das aber erst heute Nachmittag anschauen. -- sk 09:19, 18. Mär. 2010 (CET)
Für diejenigen, den es in der Zwischenzeit langweilig wird: Unter [2] findet man genug Artikel mit fehlenden Personendaten. --Schnark 12:02, 18. Mär. 2010 (CET)
Also es handelt sich um ein hartnäckiges Problem, das ich erst am heute Abend beheben kann. Sorry für die Unterbrechung. -- sk 11:11, 19. Mär. 2010 (CET)
Bis gestern Abend lief es bei mir noch. Jetzt gibt es null Fehler. Da haben die Heinzelmännchen wohl in der letzten Nacht alles abgearbeitet. Vielleicht eine Maßnahme der Bundesregierung zur Förderung gemeinnütziger Arbeit. --Pelz 13:39, 19. Mär. 2010 (CET)
Nein leider nicht. Ich hab am 17.3. die Umbauten im Skript gemacht. Es lief alles. Am 18.3. morgens gab es aber Probleme mit der Datenbankverbindung. Hab es Nachmittags so gegen 17:00Uhr manuell gestartet. Lief auch fast durch, musste es dann aber abbrechen, da ich Rechner runter fahren musste. Heute früh lief es leider wieder nicht automatisch durch. Ich schau mal ob ich heute abend nochmal Zeit finde. -- sk 16:15, 19. Mär. 2010 (CET)
Also ich hab gerade eine Idee, woran es liegen könnte. Dazu muss ich aber einiges Umstricken. Dazu hab ich aber vielleicht erst Ende nächster Woche Zeit. Ich denke ich schalte das mit den neuen Artikeln nochmal ab, wenn es morgen erneut scheitert. -- sk 21:51, 19. Mär. 2010 (CET)
Heute früh musste ich es erneut von Hand starten. Das nervt. Ich hab jetzt mal die "Neuen" und "Letzten Änderungen" deaktiviert. Ich schau mal was ich da nächstes Wochenende machen kann. Die nächsten Tage werde ich keine Zeit haben, das großartig umzubauen. -- sk 22:06, 20. Mär. 2010 (CET)
Nur zur Info, unter [3] gibt es einen neuen Dump. Vielleicht kannst Du ihn einspielen, da ja diese Woche die neuen und geänderten Artikel nicht überprüft wurden. Andim 23:10, 26. Mär. 2010 (CET)
Hallo Andim, ich hatte die letzten Tage viel zu tun. Ich werd mal die Woche schauen, ob ich nicht das wieder einbauen kann. Dann kann ich auch gleich mal wieder den neuen Dump einpsielen, aber wichtiger sind die neuen Artikel und die letzten Änderungen. -- sk 22:00, 28. Mär. 2010 (CEST)
Ich hab jetzt an dem Skript gearbeitet. Die neuen und geänderten Artikel werden jetzt ordentlich berücksichtigt. Ich hoffe morgen läuft es sauber rein. -- sk 21:49, 2. Apr. 2010 (CEST)
Super. Danke für Deine Arbeit. Ostern ist gerettet! ;) -- HS13 21:53, 2. Apr. 2010 (CEST)
Erstmal vielen Dank für Deine Arbeit. Du hast Dir viele Ostereier verdient. Noch eine Kleinigkeit, auf der Startseite gibt es nun einen etwas seltsamen Link zwischen allen und höchster Priorität. Andim 23:46, 2. Apr. 2010 (CEST)
Heute lief es wieder nicht ordentlich. Wenn das Skript in der Datenbank nach den Artikel vom letzten Scan abfragt, also ca. 30000 Zeilen bekommen müsste, kriegt es nur eine blöde Fehlermeldung vom MySQL. "Got error 5". Wenn das morgen wieder nicht klappt, muss ich das Skript umschreiben, so das es sich kleiner Häppchen holt. - Ich will die nächsten Tage es noch weiter umschreiben, so das wie bei "Check Wikipedia" alle Fehler sichtbar sind, dass heißt auch wenn eine Fehlerrubrik nicht gefunden wird, wird sie angezeigt. Dadurch können wir besser sehen, wonach schon alles überprüft wird. Viele Fehler tauchen sonst nur kurz nach dem Dumpscan auf. -- sk 09:12, 4. Apr. 2010 (CEST)

Neuer Fehler: zu viele Vornamen im Feld NAME

Hi. Ein häufiges Problem ist folgendes: Artikel "Hans Meier" beginnt mit "Hans Artur Meier (*...". Dann sollten die PD so aussehen: "NAME=Meier, Hans|ALTNAME=Meier, Hans Artur". So einfach ist das mit dem Testen nicht, da recht schnell bei irgendwelchen britischen Lords oder so Unklarheiten entstehen. Aber folgendes Verfahren müsste doch funktionieren und würde sicher auch viele Fälle vorspülen:

  1. Gucke, ob NAME in der Form "A, B C (D...)"
  2. Gucke, ob Lemma in der Form "B A"
  3. Melde...

Klar? Sollte doch recht leicht gemacht sein und ist so restriktiv, dass ich mir wenige Falschmeldungen vorstellen kann. Also ein Fall wie [4] würde auf jeden Fall gefunden. Was hältst du davon? Machbar? Sinnvoll? --APPER\☺☹ 12:07, 15. Feb. 2010 (CET)

Okay, vielleicht noch ein Spezialfall: Lemma in der Forma "B C. A" (wobei C. nur der erste Buchstabe von C ist). Es gibt nämlich verdammt viele solche Amerikaner. --APPER\☺☹ 12:16, 15. Feb. 2010 (CET)
Auf jeden Fall sinnvoll! Klingt auch machbar. Ich werde das mal ausprobieren. -- sk 11:23, 16. Feb. 2010 (CET)
Ich hab mal einen einfache Abfrage gemacht
select title, name from pd 
where regexp_like (name, '[^ ]+, [^ ]+ [^ ]+')
and regexp_like (title, '^[^ ]+ [^ ]+$')
Da bekomme ich ca. 6580 Leute raus. Das werde ich mal einbauen und um Spezialfälle kümmern wir uns danach. -- sk 11:35, 16. Feb. 2010 (CET)
Unter Vorschlag Nr.1113 sollte morgen einiges kommen. Heute hab ich aber irgendwie Netzwerkprobleme. "Error 400 Bad Request Powered by Zeus Technology", was auch immer das bedeutet. -- sk 22:40, 17. Feb. 2010 (CET)
Hat geklappt: 5645 Artikel sind jetzt dort aufgelistet. -- sk 08:49, 18. Feb. 2010 (CET)

Wie ist die Handhabe hierfür? Er taucht unter Vorschlag Nr.1113 auf. -- HS13 02:42, 1. Mär. 2010 (CET)

Immer diese Araber… Das sollte mit
	if ( $name =~ '[^ ]+, [^ ]+ [^ ]+[^-]'
statt der bisherigen Zeile 10713 zu beheben sein. Im Fehlertext müsste es übrigens ganz am Ende heißen: "… in das Feld ALTERNATIVNAMEN." --Schnark 10:29, 2. Mär. 2010 (CET)
Nee, das bringt keine Punkt. Hab ich gerade ausprobiert. -- sk 16:01, 14. Mär. 2010 (CET)
Vermutlich muss der Bindestrich noch geschützt werden:
	if ( $name =~ '[^ ]+, [^ ]+ [^ ]+[^\-]'
--Schnark 10:38, 19. Mär. 2010 (CET)
Nach längerem Nachdenken: Das ist es nicht. Der Ausdruck muss am Ende verankert werden.
	if ( $name =~ '[^ ]+, [^ ]+ [^ ]+[^-]$'
müsste sich so verhalten, wie es soll. --Schnark 09:21, 6. Apr. 2010 (CEST)

Archiv

Nachdem ich durch Schließen aller geschweiften Klammern, die ich geöffnet hatte, den Archivbot wieder davon überzeugen konnte, bei uns vorbeizuschauen, ist nur ein noch nicht erledigter Abschnitt ins Archiv gewandert: Sterbedatum mit zwei Zeilen. --Schnark 10:03, 1. Apr. 2010 (CEST)

Super. Danke. -- sk 08:48, 2. Apr. 2010 (CEST)

Ebenfalls noch nicht erledigt, aber schon archiviert:

Bei Fehler 1105 müssten die Leerzeichen am Anfang der Kurzbeschreibung eliminiert werden, bevor die Position des ersten Leerzeichens bestimmt wird. Konkret: In if ($ok eq 'true') muss $first_word =~ s/^[ ]//g; nach oben vor my $pos = index ($kurz_plain, ' '); wandern. Andernfalls gibt es Probleme, wenn die Kurzbeschreibung mit einem Leerzeichen beginnt. --Schnark 10:02, 10. Apr. 2010 (CEST)

Ausfall

Hallo Stefan, heute funktioniert nichts. Andim 17:21, 8. Apr. 2010 (CEST)

die Liste der Biografien liefen gestern und heute auch nicht, liegt evtl. daran ? [5] --Graphikus 17:51, 8. Apr. 2010 (CEST)
Derzeit läuft das Skript nicht ganz rund. In einer Woche hab ich etwas Urlaub und hab mir vorgenommen da mal was dran zu machen. Ich hab ja das Skript umgebaut, damit ich auch ordentlich die Neuen Artikel und letzten Änderungen einpflegen kann, aber das hat neue Problem mit sich gebracht. Ich will deswegen das Skript weiter so umbauen das es vom Prinzip her wie bei CheckWikipedia funktioniert. Dort wird nicht jeden Tag die gesamte Fehlertabelle geleert, sondern nur bei einem neuen Dump. Das hab ich aber bei den PD derzeit noch jeden Tag drin. Das heißt es wird jeden Tag die Tabelle geleert und dann neu gefüllt (halt nachts). Hierzu will ich noch einiges verändern, so das alle Verbesserungskategorien in Zukunft angezeigt werden, auch wenn aktuell kein Artikel enthalten ist. Dazu muss ich aber die 200 Fehler im Skript umschreiben. Das braucht mal eine ruhige Minute. :-) -- sk 21:30, 12. Apr. 2010 (CEST)

Kurzbeschreibung mit Star

Ich glaube mich erinnern zu können, dass es einmal solch eine Fehlerrubrik gab. Falls es die noch gibt: Warum werden Artikel wie: Daniel Küblböck, Eddie Cochran, Dean Reed, Sandra Bernhard, Peter Basch, Danuta Lato, BoA, Gordon Ramsay, Ryan Jenkins nicht erkannt? --Ephraim33 18:07, 11. Apr. 2010 (CEST)

Es gibt sie (Nr. 1051), aber funktioniert nicht mit Bindestrichen vor dem Star. @Stefan:
if (( $kurz_plain =~ /\bStar\b/
sollte sich so verhalten, wie es soll. --Schnark 10:45, 12. Apr. 2010 (CEST)
Ich hab mal fix einen Bindestrich noch mit eingebaut, mal schauen ob da die genannten mit rauskommen. Das mit dem \b muss ich noch mal in Ruhe testen. -- sk 21:22, 12. Apr. 2010 (CEST)

Alternativnamen mit Slash

Zu der einen Ausnahme in Fehler 209 gesellt sich noch Jager Afrikaner. --Schnark 10:22, 15. Apr. 2010 (CEST)

Dann muss aber Jonker Afrikaner und Jan Jonker Afrikaner auch dazu. Gibt es da noch mehr? -- sk 17:16, 15. Apr. 2010 (CEST)
Wenn bei allen der Alternativname eingetragen wäre, kämen noch ein paar dazu: Vorlagenverwendung von Khi. Das ergibt natürlich die Möglichkeit, einen Schrägstrich zu akzeptieren, wenn die Vorlage Khi im Text auftaucht.
Da wir gerade bei Ausnahmen sind: Stiletto (Künstler) taucht bei 53 und 203 (Komma ohne Leerzeichen) auf. --132.230.1.28 (Schnark mit gerade abgelaufenen Cookie) 10:32, 16. Apr. 2010 (CEST)
Ich kümmere mich drum. Hab jetzt fast Urlaub. JUHU. Schreibt mir also einfach alle gefundenen Ausnahmen hier mit rein. -- sk 14:35, 16. Apr. 2010 (CEST)
Diese Schreibungen sind mit sehr hoher Wahrscheinlichkeit alle falsch (oder jedenfalls schlecht), sie dürften aus einer Zeit stammen, als es handhabbare Darstellungen (und speziell den Unicode) noch nicht gab. Die Schreibung '/' scheint ein Ersatz für '|' zu sein, welches früher als Notbehelf verwendet wurde. (So z.B. durchweg auf [6], für Jager/Jonker/Jan Jonker Afrikaner, nie wird dort '/' verwendet. S. etwa auch Khoekhoegowab und den dortigen Beispieltext, ein Ausschnitt daraus: "ǀnoóku náú ǀúrún ǀxáa".) Heute steht uns das Zeichen "ǀ" zur Verfügung, hier auch darstellbar in der Form '&#448;' (das liefert 'ǀ'), – (U+01C0 (448) „Lateinischer Buchstabe dentaler Klick“ („LATIN LETTER DENTAL CLICK“) aus dem Unicode-Block Lateinisch, erweitert-B. (Hier nicht wichtig: Allem Anschein nach wird für das IPA (Liste der IPA-Zeichen#Sonstige, Dentaler Klick) dasselbe Zeichen, mit demselben Code verwendet.)
Natürlich wäre es gut, ein Fachmann könnte das noch einmal überprüfen – sollte sich aber keiner finden, scheint mir dies sicher genug, dass die Namen mit '|', nach jeweiliger Überprüfung auch die mit '/' jeweils in solche mit 'ǀ' umgewandelt werden könnten und sollten. Das hier behandelte slash-Ausnahme-Problem entfiele also für diese Namen. --Griot 23:50, 16. Apr. 2010 (CEST)

Personendaten fehlen, aber Personenkategorien vorhanden

Weitere Nichtpersonenkategorien, die ausgeschlossen werden sollten:

Künstlerpaar
Militärischer Verband (United States Army)
Unternehmen (Wien)
Popband
Girlgroup
Pkw-Modell
Deutsche Familie

Andim 13:17, 17. Apr. 2010 (CEST)

 Ok, eingebaut. Sollte morgen raus gefiltert werden. -- sk 21:41, 17. Apr. 2010 (CEST)
Hat noch nicht geklappt, die 17. US-Luftlandedivision wird noch aufgeführt. Andim 13:13, 18. Apr. 2010 (CEST)
Es gibt mehr Probleme, z.B. erscheint auch Rimini Protokoll, obwohl die Kategorie Künstlergruppe ausgeschlossen wird. Andim 13:44, 23. Apr. 2010 (CEST)

Interface kaputt

Irgendwie ist alle paar Tage das Interface kaputt, heute zum Beispiel wieder. Der HTML-Code der Tabelle sieht so aus:

<table class="table"><tr><th class="table">&nbsp;</th><th class="table">Vorschläge</th><th class="table">Erledigt</th></tr>
<tr><td class="table" align="right"><a href="http://toolserver.org/~sk/cgi-bin/pd/pd.cgi?view=</a></td><td class="table" align="right"  valign="middle">34907</td><td class="table" align="right"  valign="middle">299</td></tr>
</table>

Man kann zwar Fehler abarbeiten, indem man sich die URL mit ?view=only&id=x selbst zusammenbastelt, dort fehlen dann aber die Beschreibungen, sodass alles recht mühsam ist. --Schnark 10:27, 21. Apr. 2010 (CEST)

Ich stelle gerade das komplette Skript um. Hab schon mehrere Stunden dafür Zeit investiert. Hoffe das ich heute noch die Umstellung hinbekomme. Mal schauen. Nutze derzeit meinen Balkonien-Urlaub für diese Umstellung, wenn auch nicht ausschließlich. Jeden Tag ein bisschen. Wenn die Umstellung fertig ist, wird alles besser. :-) -- sk 12:44, 21. Apr. 2010 (CEST)
Vergess aber auf Balkonien nicht den Regenschirm. Wäre ja schade, wenn das Script auch noch nass wird. Gruss --Pelz 13:42, 21. Apr. 2010 (CEST)
So der erste große Schritt ist getan. Ich habe alle 260 Fehlerkategorien umgestellt, auf ein neues System. Das war eine Menge Arbeit. Dadurch wird das Skript schneller und wir können problemlos eine Liste aller Fehler ausgeben, die schon eingebaut sind. Ich will die nächsten Tage das Interface noch überarbeiten, so dass man auch nach den Fehlerzahlen, Erledigten oder IDs sortieren kann. Aber das dauert noch etwas. - Die größte Sichtbaren Änderungen sind die neuen fortlaufenden ID von 1-260 und das das Interface jetzt alle Fehlerrubriken anzeigt. -- sk 16:45, 22. Apr. 2010 (CEST)
Bei Fehler 14 ist der Fehlername falsch, er ist identisch mit Fehler 13. Andim 19:20, 22. Apr. 2010 (CEST)
Ach genau, das vergaß ich zu sagen: Wenn euch irgendwas komisch vorkommt, dann einfach melden. Das mit Fehler 13/14 repariere ich gleich mal. -- sk 11:28, 23. Apr. 2010 (CEST)
Jetzt ist die Liste aber ziemlich leer geworden. Da scheint doch noch ein Problem im Detail zu stecken. --Pelz 14:05, 23. Apr. 2010 (CEST)
Was meinst Du genau. Meiner Meinung passt alles. Andim 14:27, 23. Apr. 2010 (CEST)
Momentan werden ca. 34.000 Fehler angezeigt. Im Gegensatz zu früher werden nun auch die Rubriken angezeigt in denen keine Fehler gefunden werden, wenn ich das so richtig verstanden habe. --Graphikus 16:03, 23. Apr. 2010 (CEST)
Ich wollt mich an der Stelle mal bei Stefan und den Abarbeitern bedanken - die letzte Zeit, in der das Tool Probleme hatte, gab es schon signifikant mehr Probleme bei meiner Personendatenauswertung - Dutzende Artikel mit falschen Parametern etc. Danke, dass ihr die Daten mittels des Tools so gut haltet! --APPER\☺☹ 17:44, 23. Apr. 2010 (CEST)
Das geht runter wie Öl. :-) Auch von meiner Seite herzlichen Dank an die Abarbeiter und dich APPER. -- sk 22:05, 23. Apr. 2010 (CEST)

Ausnahmen

Mit bitte um Einbau, d.h. Herausfilterung dieser Ausnahmen. --Ephraim33 15:14, 29. Apr. 2010 (CEST)

Steht jetzt auf der To-Do-Liste. -- sk 17:55, 2. Mai 2010 (CEST)
Noch eine Frage hierzu. Bisher behandelst Du ja die Ausnahmen im Quellcode. Kann oder sollte man diese in der Datenbank[-Abfrage] behandeln und diese dann über eine Unterseite hier verwalten? Andim 18:24, 2. Mai 2010 (CEST)
Hmm, also man könnte das schon über eine Unterseite machen, aber bisher hat sich eigentlich gezeigt, dass nur wirklich sinnvolle Ausnahmen länger im Datenbestand drin bleiben. Das heißt dann lohnt es sich diese wirklich im Quellcode einzubauen. Für mich ist es eher wichtig direkt beim Quellcode selbst die Ausnahmen stehen zu haben. - Man könnte aber über ein Webinterface nachdenken, das es ermöglicht Ausnahmen zu melden. Wenn sich so eine gemeldeter Titel länger als X Tage in der Liste bleibt, wird er dann von mir in den Quellcode eingebaut. -- sk 15:21, 25. Mai 2010 (CEST)
Ein Gedanke war Arbeitserleichterung für Dich, und ein Sauberhalten des Quellcodes, ein anderer die Performance. Aber inzwischen wird mir klar, dass Deine Vorgehensweise wahrscheinlich effizienter ist. Andim 22:56, 25. Mai 2010 (CEST)
Ich überlege ob ich eine zentrale Liste der Ausnahmen jeweils mit einbaue. Dadurch könnte man die besser einsehbar machen. Aber das ist erstmal nur eine Idee und noch nichts konkretes. -- sk 10:49, 26. Mai 2010 (CEST)

 Ok, hab alle Ausnahmen eingebaut bzw. das Skript verbessert. Einzigstes Problem bleibt Zet (Manetho), der als Personenartikel gewertet wird, da dort die "Infobox Pharao" enthalten ist. Ich habe einige dieser Infoboxen bisher auch als Indikator für Personenartikel genutzt. Hier sollte man überlegen ob der Artikel umgebaut werden sollte oder das Skript nicht mehr auf die "Infobox Pharao" achten soll. Anbei noch eine Liste weiterer Infoboxen die ich bisher erfolgreich nutze:

		  or index($text, 'Infobox Badmintonspieler')>-1
		  or index($text, 'Infobox Beachvolleyballspieler')>-1
		  or index($text, 'Infobox Boxer')>-1
		  or index($text, 'Infobox DTM- und Formel-1-Fahrer')>-1
		  or index($text, 'Infobox DTM-Fahrer')>-1
		  or index($text, 'Infobox Feldhockeyspieler')>-1
		  or index($text, 'Infobox Formel-1-Fahrer')>-1
		  or index($text, 'Infobox Fußballspieler')>-1
		  or index($text, 'Infobox Golfer')>-1
		  or index($text, 'Infobox Handballer')>-1
		  or index($text, 'Infobox Kaiser von China')>-1
		  or index($text, 'Infobox NASCAR-Rennfahrer')>-1
		  or index($text, 'Infobox NFL-Spieler')>-1
		  or index($text, 'Infobox Nguyễn Dynastie')>-1
		  or index($text, 'Infobox Pharao')>-1
		  or index($text, '{Infobox Pokerprofi')>-1
		  or index($text, 'Infobox Poolbillardspieler')>-1
		  or index($text, 'Infobox Raumfahrer')>-1
		  or index($text, 'Infobox Rugbyspieler')>-1
		  or index($text, 'Infobox Schachspieler')>-1
		  or index($text, 'Infobox Snookerspieler')>-1
		  or index($text, 'Infobox Sumōringer')>-1
		  or index($text, 'Infobox Tennisspieler')>-1
		  or index($text, 'Infobox Volleyballspieler')>-1
		  or index($text, 'Infobox Wrestler')>-1
		  or index($text, '{{MMAKämpfer')>-1  #}} (dieser Kommentar steht hier nur um den Archivbot nicht zu verwirren)

Vielleicht hat ja jemand Verbesserungsideen. -- sk 21:20, 26. Mai 2010 (CEST)

Neue Vorschläge: Falsches Jahrhundert

  • Bei Raoul Shungu ist mir aufgefallen, dass bisher Widersprüche im Geburtsjahrhundert zwischen Kategorie und Personendaten nicht gefunden werden. Ebenso für Sterbejahrhundert.
  • Außerdem könnte man danach suchen, wenn Geburtsjahrhundert und Sterbejahr mehr als 130 Jahre auseinanderliegen (zum Beispiel: Geboren im 18. Jahrhundert und gestorben 1930 (oder später)), auch umgekehrt (zum Beispiel: Geboren 1770 (oder früher), Gestorben im 20. Jahrhundert).
  • Und dritten könnte man zu früh gestorbene suchen, zum Beispiel Geboren im 17. Jahrhundert, Gestorben im 16. Jahrhundert. Oder Geboren im 18. Jahrhundert, gestorben 1700 (oder früher)

--Ephraim33 12:56, 4. Mai 2010 (CEST)

Super Ideen. werde das demnächst mal mit einbauen. -- sk 15:30, 25. Mai 2010 (CEST)
Ich hab mit dem ersten Fehler anfangen wollen, hab aber fix was anderes gebastelt (ID 261 und 262). Das mit den Jahrhunderten muss ich noch einbauen. -- sk 23:02, 26. Mai 2010 (CEST)
Gute Idee! Bei ID 262 hat sich noch ein kleiner Tippfehler eingeschlichen: Kategorie:Gestorben nicht in GeburtsdatumSterbedatum. Andim 23:08, 26. Mai 2010 (CEST)
Interessant. Bei [7] schlägt nur ID 261 und 262 an. Eigentlich hätten dies 131 und 132 tun sollen. Andim 23:13, 26. Mai 2010 (CEST)
Ich denke, dass ich den Fehler gefunden habe. So wie der Quellcode für mich aussieht, suchst Du bei 131 das Geburtsjahr in allen Kategorien. Es wäre besser nach "Geboren Geburtsjahr" in den Kategorien zu suchen. Analog bei 132. Andim 15:13, 27. Mai 2010 (CEST)
Da hast du recht. Baue ich ein. -- sk 17:31, 27. Mai 2010 (CEST)
 Ok, eingebaut. -- sk 21:22, 27. Mai 2010 (CEST)
Werde den Fehler korrigieren. Der zweite Fehlervorschlag wird schon durch 243 teilweise abgedeckt. Ich hab mal die DB gecheckt, konnte aber für deinen kompletten zweiten Fehlervorschlag kein einziges Beispiel finden. Scheinbar wird das durch die anderen Fehler schon immer mit aufgedeckt. -- sk 11:53, 27. Mai 2010 (CEST)
Für den ersten Fehlervorschlag kriege ich fast 300 Vorkommen, die aber teilweise schon abgearbeitet wurden. Ich werde das mit einbauen. Der letzte Stichpunkt müsste nur nochmal auf die Jahrhunderte geprüft werden, ansonsten wird das schon durch 96, 109 oder 79 aufgedeckt. -- sk 11:58, 27. Mai 2010 (CEST)
 Ok, ich hab jetzt 263 und 264 neu eingebaut. Außerdem ist mir noch 265 mit einem Alternativnamen-Problem eingefallen. -- sk 22:40, 27. Mai 2010 (CEST)
Danke! Noch etwas: Bei Johann von Durazzo war ein Fehler zwischen Kategorie:Geboren und GEBURTSDATUM, wobei das 'um' anscheinend nicht erfasst wird. Wird danach irgendwo gesucht? Gruß -- HS13 00:44, 28. Mai 2010 (CEST)
Das "um" bei der Jahreszahl am Artikelanfang wird derzeit nicht mit erfasst, da dort sicherlich ziemlich viele kommen würden. Ob es technisch machbar ist, hab ich noch nicht ausprobiert. -- sk 07:25, 28. Mai 2010 (CEST)
Bei 263 und 264 gibt es noch 2 Probleme: Z.B. Ayane (Sänger): 9. Oktober 20. Jahrhundert widerspricht nicht Kategorie:Geboren im 20. Jahrhundert, und z.B. Meribre: vor 16. Jahrhundert v. Chr. widerspricht nicht Kategorie:Geboren im 2. Jahrtausend v. Chr. Andim 08:48, 28. Mai 2010 (CEST)
Nehme ich bei nächster Gelegenheit raus. Hatte gestern dafür keine Zeit mehr. -- sk 09:57, 28. Mai 2010 (CEST)

Layoutwünsche

  • Ich wünschen mir zwei mögliche Ansichten von der ganzen Liste, zwischen denen ich hin- und herschalten kann. Einmal alle Fehler (auch die, die heute gar nicht auftreten) und einmal nur die Fehlerkategorien, die mehr als Null Treffer haben.
  • Nett wäre es auch, wenn man bei der ganzen Liste in die Tabellenspalte "Anzahl" auf- und absteigend sortieren könnte (wie innerhalb von Wikipedia mit class="wikitable sortable").
  • Außerdem würde ich bei Fehlerkategorien mit vielen Artikeln wie dieser gerne zum letzten Treffer springen können, ohne an der URL rumwursteln zu müssen.
  • Wenn die Links in der Liste auch lila würden, wenn man draufgeklickt hat, hätte man auch einen besseren Überblick, an welchen Fehlerkategorien man sich schon versucht hat, und wo man vielleicht nicht noch einmal nachsehen muss.

--Ephraim33 12:56, 4. Mai 2010 (CEST)

Möchte mich mit Wünschen anschließen:
  • Auf der Startseite Datum des letzten Updates angeben. wichtig
  • die Anzahl der Veränderungen (plus/minus) seit dem letzten Update. nice

Danke Gruss --Pelz 13:43, 4. Mai 2010 (CEST)

Hallo ihr zwei, eure Wünsche sind legitim und ich würde sie euch gerne heute denn morgen erfüllen. Ich hab aber durch die Pflege eines Familienmitgliedes nur ein sehr begrenzten Zeitrahmen, in dem ich mich darum kümmern kann. Habt also bitte noch Geduld. Ich mache was möglich ist. Sammelt aber ruhig schon mal hier diese Ideen, die euch das Arbeiten erleichtern. Vielleicht könnt ihr ja eure Wunschliste in eine Rangfolge bringen (Wichtig bis "nice to have"), dann könnte ich mit dem wichtigsten anfangen. -- sk 14:16, 4. Mai 2010 (CEST)
Gemacht. Und bitte keine Hetze. Deine Gründe gehen jedem noch so dringend erscheinenden Wunsch der WP natürlich vor!! Gruss --Pelz 23:12, 4. Mai 2010 (CEST)

Kurzbeschreibung ohne Leerzeichen vor oder nach "und"

Wie in Maria von Antiochien zu sehen, sollte Bohemund als Ausnahme hinzugefügt werden. Andim 12:45, 24. Mai 2010 (CEST)

Bitte immer die ID mit angeben, da find ich das schneller. (id=56) Ich bau es ein. -- sk 10:44, 26. Mai 2010 (CEST)
 Ok, eingebaut. -- sk 20:52, 27. Mai 2010 (CEST)

Geburtsdatum ohne Inhalt, aber Kategorie:Geboren im Jahrhundert

Hallo, dieser Fehler sollte auch auf die Kategorien Geborem im x. oder x+1. Jahrhundert, Geboren im x. Jahrtausend und Geboren unbekannt erweitert werden. Du kannst einfach auf "Kategorie:Geboren (i|u)" suchen, eine Alternative ist, diesen Fehler mit "Geburtsdatum leer, aber Kategorie:Geboren vorhanden" zusammenzulegen. Dann reicht es, auf "Kategorie:Geboren" zu suchen. Analog für Gestorben. Andim 15:09, 24. Mai 2010 (CEST)

 Ok, das hab ich eingebaut. Es wird nur noch nach "Geboren" gesucht. -- sk 17:00, 9. Jun. 2010 (CEST)

Name ohne Leerzeichen

Gerade bei Sewahenre Senebmiu festgestellt, der Fehler wird nicht erkannt, wenn hinter einem Wort noch ein Leerzeichen kommt, also "NAME=bla ". Andim 11:42, 25. Mai 2010 (CEST)

Sehr interessant, da dürften noch mehr solcher Fehler enthalten sein. Ich schau mal wie ich das ändern kann. -- sk 10:45, 26. Mai 2010 (CEST)

Ausfall

Aktuell, ist das Skript ausgefallen, weil der Toolserver-Admin eine neue Perl-Version eingespielt und zahlreiche Packages mit einem Update versehen hat. Ich hab ihm auf den Fehler hingewiesen und warte jetzt mal auf das Feedback bzw. die Reparatur. -- sk 22:03, 31. Mai 2010 (CEST)

wie immer: never change a running system! --Pelz 23:18, 31. Mai 2010 (CEST)

Neuer Dump!

Hallo, es gibt seit längerem mal wieder einen neuen Dump. Bin mal gespannt, was sich so alles angesammelt hat. Könntest Du ihn bitte hier und bei Check Wikipedia einspielen? Andim 08:55, 4. Jun. 2010 (CEST)

Ich weiß. Hiermit beobachte ich ja die Dumps. Wenn ein Dump dort auftaucht, sind alle Dump-Bestandteile enthalten. Ich brauch zwar nur die Artikel, aber vielleicht für die Zukunft. Ich hab gestern abend geschaut, da war er noch nicht fertig. Heute Abend wird er gleich mal gescannt. -- sk 16:24, 4. Jun. 2010 (CEST)
Aus reiner Interesse: Nutzt du dafür die Feeds? Oder wie ermittelst du diese Informationen? Der Umherirrende 17:13, 4. Jun. 2010 (CEST)
Ein Skript von mir scannt diese Seite nach den Schlüsselwort "Dump complete". Dann weiß es das der Dump ok ist. Starten tue ich den Scan derzeit manuell, da ich den Toolserver nicht zu massive belasten möchte. -- sk 20:38, 4. Jun. 2010 (CEST)
Man köönte noch nach "in-progress All pages with complete page edit history" suchen, damit erwischt man die großen Dumps, die mehrere Tage brauchen, schneller. Andim 12:17, 28. Jul. 2010 (CEST)
Warum es länger keine Dumps gab, kann man hier nachlesen. Der Umherirrende 17:13, 4. Jun. 2010 (CEST)

Künstlername und eigentlicher Name

Ich bin gerade wieder mal über so einen Namen gestolpert, denn wir nicht nennen sollen. Atze Schröder ist ja seinerzeit durch die Presse gegangen. Nun stand in den PD von Max Raabe folgender Kommentar. Ich hab den Kommentar mal vor die PD gestellt. Sollte bei sowas nicht besser die OTRS-Nummer mit in den Kommentar? Bei Künstlern wie Atze Schröder und Max Raabe finde ich es eigentlich blöd nicht den eigentlichen Namen anzugeben, nicht umsonst wollen wir ja eine Enzyklopädie sein, aber ich verstehe auch die Gründe warum es manchmal eben nicht sein soll (Zeugenschutzprogramm oder sowas). Wenn aber wie bei AS der Name sogar im Vorspann einer Fernsehserie steht, ist er für mich eigentlich öffentlich Wissen. Kennt jemand den Hintergrund bei Max Raabe? Kennt ihr weitere problematische Fälle? Ich würde hier gerne mal eine Liste solcher Problemfälle aufstellen. -- sk 09:02, 6. Jun. 2010 (CEST)

Ich habe die Ticketnummer mal ergänzt, da ich sie im Rahmen der Transparenz für sinnvoll halte. Für die Hintergründe müsstest du mal ein Supportler fragen. Solche Fälle wird es sicher öfters geben, ob eine Liste aber hilfreich ist, weiß ich nicht. Der Umherirrende 12:24, 6. Jun. 2010 (CEST)

Kurzbeschreibung mit Abkürzung

Sind die Fehler 53, 155 und 254 nicht gleich? Auch wenn sie nicht identisch bestimmt werden, geben sie doch den gleichen Sachverhalt wieder und sollten zusammengefasst werden. --Ephraim33 15:32, 6. Jun. 2010 (CEST)

Das ganze ist ja Stück für Stück gewachsen. Werde mir das mal bei Gelegenheit im Quellcode anschauen. -- sk 22:42, 6. Jun. 2010 (CEST)
 Ok, ich hab sie mal zusammengeführt unter 53. Bei diesem einfachem Fehler geht es noch. -- sk 18:35, 8. Jun. 2010 (CEST)
Ich hab mal den 155 gleich neu mit einem anderen Fehler aufgesetzt. -- sk 20:38, 8. Jun. 2010 (CEST)

Datum mit geschütztem Leerzeichen im Text

Werden im Text innerhalb eines Datums geschützte Leerzeichen verwendet, dann findet das Skript kein Datum und der Artikel landet hier in der PD-Wartung. Laut Datumskonventionen ist noch nicht entschieden, ob auf diese geschützten Leerzeichen verzichtet werden sollte, sie sind also erlaubt. Könnte es sein, dass das Skript diese Möglichkeit beim Datum innerhalb des Textes noch nicht berücksichtigt? Beispiel: [† [[19. Februar]] im Artikel von Cassius_McDonald_Barnes. Ich hätte hier gerne für mich ein wenig Klarheit.--Silke Ewering 11:45, 13. Jun. 2010 (CEST)

Hallo Silke, erstmal vielen Dank für die viele Hilfe, die du dem Projekt zukommen lässt. Für meine Begriffe ist das geschützte Leerzeichen im Fließtext total überflüssig. Der Zeilenumbruch hängt ja immer von der Browserbreite ab. Eigentlich müsste sowas die Mediawiki-Software direkt managen. Ich lösche sowas deshalb im Fließtext immer. In Tabellen oder Vorlagen hat es durchaus seinen Sinn, aber im Fließtext nicht. -- sk 16:28, 13. Jun. 2010 (CEST)
Aber extra dafür eine Bearbeitung zutätigen kommt sicher nicht gut bei den Beobachtern des Artikels an, daher sollten die Artikel nicht hier gelistet werden, würde ich meinen. Dann brauchen sie auch nicht "korrigiert" werden. Die Erweiterung eines RegEx für die Suche sollte nicht so schwierig sein. Am besten dabei auch an thinsp und die Zahlenvarianten denken. Der Umherirrende 18:46, 13. Jun. 2010 (CEST)
Also beim Fehler 122 waren heute 112 Artikel gelistet. 63 sind noch übrig. Das heißt bei 326690 Personendaten im letzten Dump reden wir hier von 1 Promille aller Personendaten. Die sollten meiner Meinung nach angepasst werden. Oder hab ich was übersehen? -- sk 22:00, 13. Jun. 2010 (CEST)

SORTIERUNG/DEFAULTSORT

finde in letzter Zeit verstärkt solche Einträge, die die Sortierung voranstellt: {{SORTIERUNG:Martens #Florian}} Normal einsortieren und Raute rausnehmen? --Graphikus 23:30, 14. Jun. 2010 (CEST)

Würde ich dringend empfehlen, bevor das noch Schule macht. Ich habe den Benutzer auf seiner Diskussionsseite angesprochen und ihn gebeten, etwas dazu zu sagen. --RonaldH 09:19, 15. Jun. 2010 (CEST)
Dem ich hiermit nachgekommen bin. Gruß, --Darev 20:53, 15. Jun. 2010 (CEST)
Die Sortierung macht Sinn, großen sogar, aber nicht in den Personendaten. da ist sie schädlich und wirft die ganze Kategorisierung über den Haufen. Bei dem von mir oben angeführten Beispiel wird Florian M. nun als erster vor allen einsortiert. Also Vorname F. noch vor A. So geht das nicht. Der Gedanke war ja zum Beispiel das Buch- oder Filmtitel in die richtige Reihenfolge kommen. Diese Sortierung in der Kat Mann (und nicht nur da), bringt nun alles durcheinander. Personen sind nach wie vor von der Sortierung mit Raute auszunehmen. Den Erfolg solcher Sortierung bitte mal in der Kategorie:Mann Kategorie:Mann/Mart einsehen. --Graphikus 21:40, 15. Jun. 2010 (CEST)
Nachsatz: Mir gings im Grunde nicht um die Änderung von DEFAULTSORT in SORTIERUNG, einzig die Reihung ist mir wichtig. die Sortierung wird vorangestellt, soll heißen, Einsortierung zu Beginn. --Graphikus 21:47, 15. Jun. 2010 (CEST)
Liegt möglicherweise daran, dass die anderen Martens nur mit Komma sortiert werden. Wenn man diese auch mit Raute sortiern würde, würde es IMO passen. Oder habe ich was übersehen? Gruß, --Darev 21:48, 15. Jun. 2010 (CEST)
Willst Du allen Ernstes alle 230.000 Biografien mit Raute versehen? --Graphikus 21:50, 15. Jun. 2010 (CEST)
Wo hab ich das geschrieben? Ich habe nur gefragt. --Darev 21:54, 15. Jun. 2010 (CEST)
So kanns nicht bleiben.--Graphikus 21:54, 15. Jun. 2010 (CEST)
Bei der zwischenzeitlichen Anzahl von Biographie-Artikeln wahrscheinlich leider nicht mehr. Gruß, --Darev 21:59, 15. Jun. 2010 (CEST)
Vorschlag: Darev beschränkt sich künftig bei dem Setzen der # auf Filmtitel u.ä.. Um die bisher betroffenen Personenartikel zu ermitteln, könnte man vermutlich ein Skript basteln oder einen Bot beauftragen, der eine entsprechende Liste erzeugt. Da z.B. auch Umlaute an der Stelle unerwünscht sind, könnte man die bei der Gelegenheit auch gleich einsammeln. Die Reparatur müsste dann manuell erfolgen. Gruß --RonaldH 00:16, 16. Jun. 2010 (CEST)

Nein, da braucht kein Skript gebastelt werden. Es gibt hier schon eine Fehlernummer die auch diese erfasst. ID 186 = Name versus Defaultsort. Das System erschien mir heute jedoch etwas "instabiel", aber morgen kann ich mal mich daransetzen. Ob allerdings das Rausfiltern der Umlaute für Stefan eine Möglichkeit bietet, kann ich nicht sagen. --Graphikus 00:53, 16. Jun. 2010 (CEST)

Die Rauten sind nun wieder raus. Der Grund für die Umstellungen war eigentlich bei den Fürsten, Grafen ect. zu suchen. Da hätte es noch Sinn gemacht. Bei den "normalen" Menschen hat es das Umgekehrte bewirkt. Aber auch bei den Fürsten ist eine Sortierung mit Raute nicht notwendig, wenn die PDs dem Seitenlemma entsprechen, weil das Klammerlemma automatisch auch nach Alphabet sortiert wird. --Graphikus 22:35, 18. Jun. 2010 (CEST)
Hallo zusammen! Graphikus hat mich hierher gelotst, nachdem ich ihn auf seiner Diskussionsseite angesprochen habe, weil mir aufgefallen ist, dass er in Artikeln die Rauten aus den Sortierschlüsseln entfernt hat. Es sieht also so aus, dass die Regeln auf Hilfe:Kategorien in Widerspruch zum Wartungsskript der Personendaten stehen. Meiner Meinung nach kann man das nicht lösen, in dem man die Sortierschlüssel verkürzt (und damit die Sortierung ändert). Müssen die Kategorie-Regeln geändert werden? Oder muss man das Wartungsskript ändern? Ich bin übrigens einer derjenigen, die in den Sortierschlüsseln von vielen Herrscher-Artikeln die römischen Ziffern durch arabische ersetzen, damit richtig einsortiert wird. Dabei füge ich selbstverständlich auch die Rauten ein. Es ist natürlich etwas unbefriedigend, wenn man feststellt, dass die Änderungen teilrevertiert wurden, ohne dass auf Hilfe Diskussion:Kategorien Bescheid gegeben wird, dass da größere Widersprüche bestehen. Mir dagegen wird gesagt, die Kategorien-Pfleger hätten hier Bescheid geben sollen, wobei es nicht unbedingt auf der Hand liegt, dass der Sortierschlüssel für die Personendaten verwendet wird. Offenbar liegen hier unterschiedliche Interessen vor. Bei der derzeitigen Praxis kann es jedenfalls nicht bleiben, da muss eine prinzipielle Einigung her. Was wollen wir, was können wir tun, was ist das beste? --Asdert 19:05, 19. Jun. 2010 (CEST)
Hallo Asdert, zuerst mal meinen Dank, dass Du den Weg hierher gegangen bist. Zuerst muss ich mal feststellen, dass wir keineswegs unterschiedliche Interessen haben. Ziel ist es falsche Einsortierungen zu beseitigen.
Meiner Meinung nach schließen sich diese Einsortierungen in Kategorien und in Personendaten nicht aus. Bei meinen Änderungen ist mir aufgefallen, dass zwar durch die Setzung der Raute die Biografie in dieser ID gelistet wurde, die Personendaten aber teilweise zusätzlich falsch eingetragen waren. Nun habe ich in diesm Fall nicht nur die Raute und evtl. Zusatz aus der Sortierung entfernt sondern auch die PD so umgestellt, dass sie dem Lemma entsprechen. Daher sollte die Reihung ja auch in der Kategorie richtig sein. Ich habe allerdings in den Kategorien danach Unregelmäßigkeiten gefunden, die nicht auf diese Änderungen zurückzuführen sind, sondern auf weitere falsche Sortierungen (ohne Raute). Die Fehlergruppe <ID 186 Name versus Defaultsort> beinhaltet noch cirka 550 Fehler die teilweise auf die falsche Eintragung unter SORTIERUNG oder Personendaten =NAME zurückgehen, manchmal sind auch beide falsch. Wohlgemerkt das Skript kann hier nur Fehler ausgeben, wenn PD + SORT unterschiedlich sind. Die falsch sortierten in PD und auch so sortierten in SORTIERUNG erwischt es nicht. Und gerade diese bleiben in der Kategorie Mann/Frau dann in falscher Reihenfolge stehen. Die Eintragung der arabischen Ziffern habe ich nicht rückgängig gemacht, da das Skript diese als korrekt erkennt im Gegensatz bei einem Zusatz der in den PD fehlt. Hintergrund ist ja hier dass bei der Katsortierung nicht IX. nicht vor V. kommt. Mir ist sehr an einer einvernehmlichen Lösung gelegen, da es ja auch andere, die Fehlerlisten abarbeiten, betrifft und falsche Sortierungen in den beiden Datenblöcken immer wieder vorkommen werden. --Graphikus 20:13, 19. Jun. 2010 (CEST)
Nachdem ich mir die Kat:Mann unter Heinrich genau angesehen habe, musste ich feststellen dass dort sehr viele Links gelistet sind die Raute haben, aber nicht in unsere Fehler ID einlaufen. Die nun bei den Adeligen gemachten Korrekturen bewirken, dass die Reihung nicht mehr gegeben ist. Merkwürdiger Weise stehen einzelne Biografien ohne Raute oder auch ganz ohne Sortschlüssel an der richtigen Stelle. Eine Veränderung des Sortschlüssels oder die Hinzufügung des Schlüssels ohne Raute bewirkt immer eine unkontrollierte Sortierung. Künftig Raute ignorieren, was letzlich ja die Anzahl an Fehler erhöht und die Abarbeitung unübersichtlicher macht? Auch ist damit noch nicht gesagt ob die PD,s korrekt sind. Was ist zu tun? --Graphikus 17:56, 20. Jun. 2010 (CEST)
Hallo Graphikus! Gerade bei den Heinrichs (da gibt es ca. 500, die unter diesem Vornamen geführt werden) habe ich Ende April bis Anfang Juni vieleviele Sortierschlüssel geändert damit sie in Kategorie:Mann korrekt numerisch und alphabetisch einsortiert werden. Eine Sortierung nach Lemma ist dort einfach nicht korrekt. Was meinst Du mit dem Satz "Die nun bei den Adeligen gemachten Korrekturen bewirken, dass die Reihung nicht mehr gegeben ist"? (Mit Deinem Telegrammstil komme ich nicht immer zurecht) Meinst Du mit Korrekturen meine Änderungen im Sortierschlüssel? Meinst Du mit Reihung die Sortierung in der Kategorie? Aber die stimmt doch jetzt. Ich verstehe immer noch nicht, wo das Problem liegt, wenn man Hilfe:Kategorien und Hilfe:Personendaten/Name#Mitglieder von Fürstenhäusern anwendet. Einige Beispiele:
Lemma Sortierschlüssel Personendaten
Heinrich I. (Anhalt) {{SORTIERUNG:Heinrich 01 #Anhalt}} NAME=Heinrich I.
Heinrich II. (Bayern) {{SORTIERUNG:Heinrich 02 #Bayern}} NAME=Heinrich II.
Heinrich III. (Nassau) {{SORTIERUNG:Heinrich 03 #Nassau}} NAME=Heinrich III.
So steht es derzeit in drei willkürlich herausgegriffenen Artikeln. Hier den Teil hinter Raute aus dem Sortierschlüssel herauszunemhen ist schlichtweg nicht richtig. Oder liegt das Problem anderswo? --Asdert 13:32, 22. Jun. 2010 (CEST)
Meine Bemerkung bezog sich auf die von mir gemachten Änderungen. Eventuell kann Stefan das Skript so konfigurieren, dass es die Raute ignoriert. Würde die Fehlermenge der ID reduzieren. 500x Heinrich, sind das alles Fürsten, Grafen usw? Bei Otto Normalverbraucher, und über die bin ich ja gestolpert, ist aber absolut keine Raute zu setzen, weil das die Sortierung ja wirklich durcheinander bringt. --Graphikus 15:38, 22. Jun. 2010 (CEST)
Pardon, ich habe mich getäuscht, es sind nicht 500, sondern nur ca. 360 Männer, die unter ihrem Vornamen Heinrich einsortiert sind. Da sind viele Herrscher dabei, aber auch mittelalterliche Personen. Ich schätze, dass 270 Heinrichs eine Raute im Sortierschlüssel haben, damit sie bei gleichem Vornamen und gleicher Nummer ein drittes Sortierkriterium haben. (Heinrich I. (Österreich) vor Heinrich I. (Ostfrankenreich) trotz Umlaut). Aber es betrifft ja nicht nur Heinrichs, sondern alle Herrschernamen, die in verschiedenen Ländern/Gebieten/Staaten verwendet wurden. Nein, "normale" Leute mit Vor- und Familiennamen sollten keine Raute haben, da wird ja mit Komma getrennt, und da sind wir uns ja einig. --Asdert 18:04, 22. Jun. 2010 (CEST)
Die Rauten bei der Suche komplett auszuklammern, wäre nicht förderlich. Damit würde ein Fehler wie der Auslöser für diese Diskussion gar nicht erst gefunden worden. Wäre es denn möglich, beispielsweise Leute aus den Unterkategorien von Kategorie:Herrscher nach Titel vor der Ergebnisanzeige herauszufiltern? --RonaldH 18:20, 22. Jun. 2010 (CEST)
Nein, die Kategorie:Herrscher reicht nicht. Heinrich I. von Rosenberg war kein Herrscher, sondern nur Oberstkämmerer. Er braucht aber die Raute im Sortierschlüssel, damit er korrekt zwischen den beiden Herrschern Heinrich I. (Portugal) und Heinrich I. von Schwalenberg einsortiert wird. --Asdert 13:30, 23. Jun. 2010 (CEST)
Wenn PD-Name und Sortierschlüssel verglichen werden, dann wird doch falls notwendig im Skript eine Umwandlung von römischen Zahlen in arabische vorgenommen ("II." wird zu "02"). In diesen Fällen wird dann auch häufig eine Raute auftauchen. Könnte man dann, wenn diese Umwandlung vorgenommen wird, den Teil hinter der Raute ignorieren? Die korrekt nummerierten Friedrichs, Heinrichs und Ludwigs wären dann außen vor, während man eine falsche Raute bei Florian Martens (mit dem alles angefangen hat) erkennt. --Asdert 18:02, 29. Jun. 2010 (CEST)
Kann ich bei meinen Aufräumarbeiten weitermachen? Ich würde gerne bei den Sortierschlüsseln der nummerierten Herrscher weiterhin die römischen Zahlen durch arabische ersetzen und die zusätzliche Sortierung durch eine Rauten-Erweiterung erzwingen. Auf die PD kann ich ja jetzt auch achten, kein Problem (siehe Tabelle oben). Ich möchte nur nicht, dass auf 100 von meinen Edits 98 Teilreverts folgen. Unsere Arbeit soll ja effektiv sein. Spricht etwas dagegen, Hilfe:Kategorien und Hilfe:Personendaten/Name umzusetzen? --Asdert 09:09, 3. Jul. 2010 (CEST)

@Stefan: Ich möchte Dich bitten, wenn es keine andere Möglichkeit gibt hier die Herrschernamen auszuschließen, in der Listung bei Name versus Defaultsort = ID 186 einen Hinweis einzufügen, dass unter Beachtung der Sortierung mit Raute nur nach fehlerhafter Rautensetzung (zB bei Personen der Neuzeit) gesucht werden soll.
@Asdert: Wenn Du die Personendaten bei Deinen Änderungen an das Seitenlemma anpasst, erfolgt schonmal zumindest in einer anderen Fehler-ID keine Auflistung mehr. --Graphikus 12:25, 4. Jul. 2010 (CEST)

Okay, ich achte künftig darauf. Gerade habe ich bei den Davids aufgeräumt, und dabei David Tiberios einen expliziten Sortierschlüssel verpasst, der dem Lemma entspricht. Bitte gebt Bescheid, wenn das nicht mehr nötig ist. --Asdert 12:50, 5. Jul. 2010 (CEST)

Alternativnamen enthält mehrfach Wort aus Titel (id=265)

Alternativnamen enthält mehrfach Wort aus Titel sollte nicht anspringen, wenn ein Wort nur als Bestandteil anderer Wörter mehrmals auftaucht: zum Beispiel "Lauritzen, Lauritz" im Artikel Lau Lauritzen senior oder "Janssen, Jan" im Artikel Jan Jakobs Janssen. --Ephraim33 11:06, 21. Jun. 2010 (CEST)

zur gef. Beachtung

konsequent --Graphikus 16:55, 22. Jun. 2010 (CEST)

Das ist meiner Meinung nach nicht konsequent sondern falsch. Das Lemma müsste Paulus (Catena) oder noch besser Paulus (Notarius) heißen. Die Aneinanderreihung der beiden nicht gemeinsam verwendeten Namen ergibt überhaupt keinen Sinn. --RonaldH 18:25, 22. Jun. 2010 (CEST)
war ja auch ironisch gemeint. Aber wer sich bei der Lemmawahl so sicher ist, diskutiert auch nicht über dergleichen Änderungen in den PDs und stellt die zurück. Da gibt es auch immer wieder Benutzer die bei der Sortierung lieber das Pseudonym sehen möchten, und dann auch noch extra vermerken, dass die Person unter dem Namen bekannt ist. Sehr konsequent. Aber wenn das einem öfter passiert, ist die Lust auf eine Korrektur dahin. --Graphikus 19:57, 22. Jun. 2010 (CEST)

Erneuerung der Fehlerliste

ist 2./3. Juli nicht erfolgt. --Pelz 11:24, 3. Jul. 2010 (CEST)

Doch, nur sehr langsam, da der neue Dump eingeladen wurde. -- sk 11:19, 4. Jul. 2010 (CEST)

Bemerkung

Bei der Abarbeitung von ID 202 habe ich festgestellt, dass in ca. 90% der dort gelisteten Fälle auch der Defsort <> Lemma war. --Pelz 23:33, 13. Jul. 2010 (CEST)

Das kann schon sein. Die Fehler werden halt über verschiedene Verfahren ermittelt und die Ergebnisse überschneiden sich. Was schlägst du vor? Stört das irgendwie? -- sk 19:36, 14. Jul. 2010 (CEST)
Ein Großteil davon sind arabische Namen, wo ein Problem mit dem abgespaltenen ar-, as- usw. besteht oder haben ein ' im Lemma. Da muss wahrscheinlich eher der Artikel mit anderem Zeichen im Lemma verschoben werden. -- HS13 20:15, 14. Jul. 2010 (CEST)
Also "gefühlt" (ich habe ja keine Statistik geführt) sind es nicht die arabischen Namen. Es sind vielfach reine Tippfehler wie z.B. Jakob und Jacob, es gab auch Fälle da hieß das Lemma "Schmitz, X" und im Defsort stand "Meier, Y". Vielleicht sollte man doch in einer Rubrik Defsort<>Lemma überlegen. --Pelz 22:30, 15. Jul. 2010 (CEST)
Ok, da hab ich etwas falsch verstanden (die arabischen Namen und das ' sind trotzdem hier und da ein Problem). Eine Rubrik Defsort<>Lemma wäre gut, da mir das Schmitz-Meier-Problem auch häufiger begegnet ist. In diesem Zusammenhang wäre auch interessant, bei niedriger Priorität die Artikel zu listen, die noch gar kein Feld SORTIERUNG besitzen, im PD-Name aber abweichend vom Lemma sind (also die Artikel, wo die Sortierung noch im Feld Kategorie erfolgt, z.B. Kategorie:Mann|Schmitz, X). Diese Artikel tauchen später bei ID242 auf, sobald eine neue Kategorie in den Artikel eingefügt wird, aber der Zusatz '|Schmitz, X' vergessen wird. -- HS13 02:33, 16. Jul. 2010 (CEST)
Bei dem Apostroph gab es mal ein Problem im Skript, da ein ' im Dump als &#039; steht. Ich weiß nicht, ob es schon korrigiert wird. Name versus Defaultsort gibt es unter ID 186. Ich würde immer warten bis der Fehler bei ID242 auftaucht, der ein oder andere Bearbeiter wird den nötigen Sortierschlüssel oder SORTIERUNG setzen, dann ist es unnötige Arbeit das vorher zu machen. Man sollte warten, bis es wirklich falsch ist. Der Umherirrende 21:39, 16. Jul. 2010 (CEST)
@Umherirrender. Wenn ich mir z.B. den in ID 202 gelisteten Artikel Se'ew Schiff ansehe, so finde ich keinen Fehler. Das könnte also doch ein Skriptfehler sein!? --Pelz 20:32, 19. Jul. 2010 (CEST)
Es wäre ja auch nur interessant ;) ID186 ist PD Name <> SORT, Pelz und ich denken an Lemma <> SORT. -- HS13 17:03, 18. Jul. 2010 (CEST)
@Pelz. Kann es sein, dass der Fehler SORT ungleich Lemma nur besteht, wenn fürs Sortierfeld DEFAULTSORT verwendet wird? -- HS13 23:26, 18. Jul. 2010 (CEST)
kann ich leider weder bestätigen noch verneinen. Habe ich nicht drauf geachtet, ob das eine Rolle spielen könnte. --Pelz 20:25, 19. Jul. 2010 (CEST)
Spielt keine Rolle. Hatte zwar gestern 100% DEFAULTSORT, aber heute sind mir 2 mit SORTIERUNG untergekommen. Hätte ja sein können... -- HS13 03:59, 20. Jul. 2010 (CEST)
Ah, falsch gelesen. Dann sollte aber die Klammer bei Klammerlemma ignoriert werden (und bei der Sortierung alles nach der Raute). Der Umherirrende 19:48, 19. Jul. 2010 (CEST)

ID 259

Die hier heute noch enthaltenen Fehler, sind, soweit ich das gesehen habe, wohl auch keine "echten" Fehler. Auch Skriptfehler? --Pelz 20:54, 19. Jul. 2010 (CEST)

Der Verdacht erhärtet sich: In der ID 252 steht Ali Chamene'i noch drin, obwohl ich den Titel 1:1 in den Namen kopiert habe. Wenn das mit dem Skriptfehler dann tatsächlich stimmt, sind wir auf einen Schlag verdammt viele "Fehler" los. --Pelz 22:32, 22. Jul. 2010 (CEST)
Siehe auch bei ID 252 Henri d'Artois. Ich finde auch dort keine tatsächliche Abweichung zwischen Lemma + Name. Wenn meine Beobachungen richtig sind, dann bitte ich dringend um die Berichtigung der Auswertung. Sonst packt man unnötig viele Artikel an die keine Fehler enthalten. Gruss --Pelz 21:36, 2. Aug. 2010 (CEST)
Liegt die Ursache beim Apostroph im Lemma? Bei ID 252 deutet der Hinweis der Liste auf ein &, das im Lemma gar nicht auftaucht, aber immer dann, wenn ein Apostroph im Lemma ist. --Asdert 00:22, 3. Aug. 2010 (CEST)

Geboren im 19. Jahrhundert (oder früher) und nicht gestorben

Personen, die im 19. Jahrhundert (oder früher) geboren sind (über Kategorien zu prüfen), sollten auch eine Sterbekategorie haben. Beispielsweise Drenpa Namkha. --Ephraim33 20:31, 22. Jul. 2010 (CEST)

Deine Aussage ist natürlich richtig. Bei Deinem Beispiel kann aber wohl nichts eingetragen werden. Vielleicht führen wir dann dafür Kats wie: "Geboren ?" oder "Gestorben ?" ein. --Pelz 21:36, 22. Jul. 2010 (CEST)
Wir haben doch bereits die Kategorie:Geboren unbekannt und Kategorie:Gestorben unbekannt. Ich denke, dass beide für Drenpa Namkha zutreffen würden. Dass er im 8. Jahrhundert gewirkt hat, schließt nicht aus, dass er im 7. Jahrhundert geboren wurde. --RonaldH 21:55, 22. Jul. 2010 (CEST)
Kategorie:Geboren im 1. Jahrtausend und Kategorie:Gestorben im 1. Jahrtausend wären die richtige Wahl. --RonaldH 21:56, 22. Jul. 2010 (CEST)
Kategorie:Geboren im 7. oder 8. Jahrhundert und Kategorie:Gestorben im 8. oder 9. Jahrhundert ist besser. --Ephraim33 08:44, 23. Jul. 2010 (CEST)

Aber wieder zurück zum allgemeinen Fall: Ist es möglich, das in die Fehlersuche einzubauen? --Ephraim33 08:44, 23. Jul. 2010 (CEST)

Eigentlich sollte ja jede Person, die verstorben ist, eine Sterbekategorie bekommen. Bis vor kurzem gab es ja auch noch nicht die schöne Möglichkeit mit Kategorie:Gestorben im 7. oder 8. Jahrhundert. Seit dem wir diese Kategorien haben sollten sich eigentlich 99,9% der Personen kategorisieren lassen. Wobei es manche indische Gurus gibt, die ich auch da nicht einordnen konnte. Ich werde das mal einbauen. Aber bitte nicht wundern wenn es zu viele sind. Das Einbauen kann aber noch ein paar Wochen dauern, bin derzeit im Dauerstress, aber Urlaub ist in Sicht. -- sk 15:16, 28. Jul. 2010 (CEST)

Datenfeld mit Komma am Ende

Ein neuer Vorschlag: Ich sehe ab und zu mal ein Geburts- oder Sterbedatum mit Komma am Ende. Andim 17:16, 30. Jul. 2010 (CEST)

Ein Datenfeld sollte auch nicht mit "-" enden. Andim 22:31, 5. Aug. 2010 (CEST)

Neue Rubrik: am gefolgt von Geburts- oder Sterbedatum

Ich bin heute über dies gestolpert. Daher kommt auch die Idee für eine neue Rubrik "am gefolgt von Geburts- oder Sterbedatum", um solche Konstellationen (* am 7. Dezember 1895) zu finden. Ich schätze, wenn man die Einleitung der Artikel scannt, ohne viele falsch positive auskommen kann. Meinungen willkommen. Der Umherirrende 11:55, 5. Aug. 2010 (CEST)

Idee ist richtig. Mir ist allerdings nicht erinnerlich, sowas schon mal gesehen zu haben. Schätze, Dein Fund hat seltenheitswert. Gruß --Pelz 19:18, 5. Aug. 2010 (CEST)
Jetzt habe ich auch davon was gefunden. Scheint mir in der ID 155 mit abgedeckt zu sein. --Pelz 21:19, 5. Aug. 2010 (CEST)
Könnte auch sein, weil ja "*" nicht gefolgt vom Geburtsdatum ist. Da bin ich mir nicht sicher. Ich bin davon ausgegangen, dass der Artikel unter der ID 155 gelistet ist, weil das "†" fehlt. Der Umherirrende 21:26, 5. Aug. 2010 (CEST)

nochmal Personendaten fehlen, aber Personenkategorien vorhanden

Bei "Personendaten fehlen, aber Personenkategorien vorhanden" werden trotz des Hinweises auf der Fehlerseite Bands angezeigt (zum Beispiel The Rounder Girls), oder Familien (Callinet), oder Künstlerpaare (wie Friederike & Uwe), oder Künstlergruppen (wie Chrennikows Sieben). In allen Fällen handelt es sich ja um Personengruppen, die korrekt kategorisiert sind und die keine Personendaten erhalten sollten. Alle Artikel der Kategorie:Personengruppe und aller Unterkategorien sollten rausgefiltert und nicht mehr angezeigt werden. Außerdem werden bei diesem Fehler falsche Zahlen in der Spalte "Mehrere" angezeigt. Lustigerweise ist es immer die Quadratzahlen der wirklichen Fehleranzahl. Also bei 2 Fehlern steht dort 4, bei 3 Fehlern steht dort 9. --Ephraim33 15:14, 29. Apr. 2010 (CEST)

Seit einiger Zeit scheint der alte Mechanismus nicht mehr zu funktionieren. Woran das genau liegt, kann ich noch nicht sagen. Ich schreib es aber auf meine To-Do-Liste. -- sk 17:54, 2. Mai 2010 (CEST)
Noch eine Idee dazu, man könnte die auszuschließenden Kategorien auch über eine Unterseite hier verwalten. Andim 18:22, 2. Mai 2010 (CEST)
Hmm, die Verwaltung der Kategorien möchte ich ungern in eine Unterseite verlagern. IMHO: Technisch gibt es da eigentlich keinen Grund, aber wenn ich es auf dem Server nur selber ändere, dann sind meine Problemefälle sicherlich geringer. - Wo läge der Vorteil? Jeder könnte Änderungen einbringen. Wo liegen die Nachteile? Aus meiner Sicht könnte dann im schlimmsten Fall der Durchlauf scheitern, wenn irgendwelcher Blössinn eingebaut wurde. -- sk 15:28, 25. Mai 2010 (CEST)
Vorteil wäre eine Arbeitserleichterung für Dich, die Gefahr von Vandalismus halte ich für gering, auch wegen den Beobachtungslisten. Andim 22:59, 25. Mai 2010 (CEST)

 Ok, Ich jetzt den Fehler repariert. Die Artikel schrumpften von 800 auf ca. 300. Hatte beim Umbau vor ein paar Tagen eine Funktion vergessen einzubauen, die die Nicht-Personen-Kategorien in das Skript lädt. - Ich werde mal den Vorschlag von Andim aufgreifen und für die Kategorien bei nächster Gelegenheit solche Unterseiten anlegen. Mal schauen wie das klappt. -- sk 10:07, 26. Mai 2010 (CEST)

Dieser Abschnitt kann archiviert werden. sk 11:35, 19. Aug. 2010 (CEST)

Kategorie:Gestorben doppelt

Dieser Fehler müsste wie Kategorie:Geboren doppelt angepasst werden, d.h. es sollte nur auf "Kategorie:Gestorben" gesucht werden. Das einfachste ist wahrscheinlich bei beiden Fehler nur auf "Kategorie:Geboren" bzw. "Kategorie:Gestorben" zu suchen, denn dann wird auch die Kategorie:Geboren unbekannt erfasst. Andim 21:24, 24. Mai 2010 (CEST)

Pseudonyme mit Alternativnamen ohne Klammerzusatz

Artikel die in der Kategorie:Pseudonym sind und bei den ein Alternativnamen ohne Klammerzusatz eingetragen ist, ließen sich auch gut auflisten. Meistens ist der Alternativname dann der bürgerliche Name und könnte als solcher gekennzeichnet werden. Beispielsweise habe ich dies gerade bei Howlin’ Wolf gemacht. Oder ist der Klammerzusatz dort überflüssig? Der Umherirrende 16:42, 2. Jul. 2010 (CEST)

Zu hohes Alter

Yuthog Nyingma Yönten Gönpo kann als Ausnahme bei Fehler 96 aufgenommen werden, sein hohes Alter ist zumindest kein Fehler in den PD. --Schnark 11:06, 27. Jul. 2010 (CEST)

 Ok, als Ausnahme im Skript aufgenommen. -- sk 11:25, 19. Aug. 2010 (CEST)

Geburts- oder Sterbedatum mit J

Fehler Nr. 209: "Jahrtausend" sollte auch gestattet sein. --Ephraim33 14:31, 30. Jul. 2010 (CEST)

 Ok, im Skript eingebaut. -- sk 11:27, 19. Aug. 2010 (CEST)

Alternativnamen mit Doppelpunkt

Fehler Nr. 40: Florian Penner bitte rausnehmen, der Doppelpunkt ist Teil des Künstlernamens. --Ephraim33 14:31, 30. Jul. 2010 (CEST)

 Ok, im Skript eingebaut. -- sk 11:32, 19. Aug. 2010 (CEST)

Kurzbeschreibung mit Punkt am Ende

Fehler Nr. 58: Bei Marcia Barrett ist die Kurzbeschreibung "jamaikanische Sängerin, Mitglied der Popgruppe Boney M." Dort ist der Punkt am Ende kein Fehler. --Ephraim33 16:08, 30. Jul. 2010 (CEST)

 Ok, im Skript eingebaut. -- sk 11:24, 19. Aug. 2010 (CEST)

Kurzbeschreibung mit zwei Grossbuchstaben am Anfang

Fehler Nr. 201: Bei Eric Chase ist "DJ" kein Fehler, Nationalität ist leider nicht bekannt. --Ephraim33 16:08, 30. Jul. 2010 (CEST)

 Ok, hat sich erledigt. Inzwischen stand dabei, dass er ein deutscher DJ ist. -- sk 11:21, 19. Aug. 2010 (CEST)

Rechtschreibung

Ein paar Rechtschreibfehler, die ich gefunden habe:

--Ephraim33 18:43, 2. Aug. 2010 (CEST)

 Ok, im Skript angepasst, geht demnächst online. Danke für die Korrekturen. -- sk 11:12, 19. Aug. 2010 (CEST)

Yuthog_Nyingma_Yönten_Gönpo

Bitte aus der Liste mit zu hohem Alter herausnehmen. --Hhdw1 07:56, 3. Aug. 2010 (CEST)

Ich schreib mal hier fix, für alle fleißigen Fehlermelder, die sich wundern, dass ich es nicht fix einbaue. Ich habe privat eine ganze Menge an der Backe, so das keine Zeit bleibt für Wikipedia. Ich schau mal ob ich in den nächsten drei Wochen irgendwann dazu komme, aber versprechen kann ich nix. Bin zu 120% ausgelastet. Also nicht traurig sein, dass eure Fehler nicht heute und morgen abgearbeitet werden. Danke für Euer Verständnis. -- sk 13:49, 3. Aug. 2010 (CEST)
 Ok, eingebaut. Geht demnächst online. -- sk 11:13, 19. Aug. 2010 (CEST)

Personenkategorie ?

Die Kategorie:Oblaten des hl. Franz von Sales enthält - entgegen dem möglichen ersten Anschein - keine Personen, sondern Artikel zum Thema Orden. Ergo ist die dort einsortierte Schule und z.B. auch Klöster/Kirchen wohl eher nicht mit Personendaten zu versehen. Die Personenkategorie befindet sich darunter und heißt Kategorie:Oblate des hl. Franz von Sales. M.E. ist das ein Zuordnungsfehler im Script, aber vielleicht weiß dazu jemand was genaueres. Die Einordnung Personenkategorie wurde am 27. Februar 2010 auch wieder entfernt. --Pflastertreter 17:12, 11. Aug. 2010 (CEST)

 Ok, eingebaut. -- sk 21:28, 18. Aug. 2010 (CEST)

Datenfelder nur mit Leerzeichen

Ein Problem, dass mir manchmal begegnet, meistens im Fehler 142 (Geburts- oder Sterbeort eventuell im Text), aber auch bei anderen Fehlern hat dies seltsame Auswirkungen: Im Skript wird an vielen Stellen geprüft, ob ein Datenfeld leer ist. Dieses Prüfung schlägt fehl, wenn das Datenfeld nur aus einem Leerzeichen besteht. Ich sehe drei Möglichkeiten: 1) Man überprüft jedesmal, wenn auf leer geprüft wird, auch auf "nur Leerzeichen". 2) Man kann diese kombinierte Prüfung in eine eigene Funktion stecken. 3) Am Anfang wird der Inhalt jedes Datenfeldes einer Variable zugewiesen. Man könnte dieser Variable den leeren String zuweisen, wenn der Inhalt nur aus Leerzeichen besteht. Diese Zuweisung darf aber erst nach Abarbeitung der Fehler, die auf überflüssige Leerzeichen suchen, geschehen. Andim 20:49, 11. Aug. 2010 (CEST)

Hmm, da hab ich wohl etwas noch nicht eingebaut, was wirklich sinnvoll wäre. Hab gerade mal in der Datenbank geschaut. Da tummelt sich einiges an Karteileichen dieser Art rum. Z.B. ist bei Daniel Lipstorp nicht aufgefallen, dass er keine Kurzbeschreibung hatte. Weil eben ein Leerzeichen drin war. Ich bau da mal was neues ein. Am besten eine Fehlerkategorie die alle Datenfelder auf nur Leerzeichen prüft. Ich glaube ich hatte das noch nicht gemacht, weil wir uns anfangs nicht einig waren ob Vorlagen in den Personendaten erlaubt sind oder nicht. (Diese wurden vom Skript vorsorglich rausgeschmissen, so dass eine leeres Feld damals noch nicht unbedingt was falsches sein musste.) Nachdem wir das aber irgendwann mal generell verboten haben, wäre nun die Anpassung des Skriptes möglich. -- sk 17:04, 23. Aug. 2010 (CEST)
Warum nicht generell alle führende und angehängte Leerzeichen eines Feldes entfernen? Wer die Personendaten weiterverwenden möchte, wird dies sicher machen und es ist auch kein Akt. Ich sehe es als unnötig an, einen Artikel nur zu bearbeiten um ein leeres Feld wirklich leer zu machen. Während einer Bearbeitung habe ich keine Probleme (und mach das auch generell), aber Ich denke, die Toleranz gegenüber Leerzeichen sollte erhöht werden. Der Umherirrende 18:51, 23. Aug. 2010 (CEST)
Eigentlich würde ich einen Fehler "Datenfeld besteht nur aus Leerzeichen" begrüßen, befürchte aber zu vielen Widerstand. Was spricht denn gegen meinen Vorschlag 3? Andim 22:02, 24. Aug. 2010 (CEST)

Geburtsort gleich Sterbeort, aber nicht verlinkt

Bei diesem Artikel war mir aufgefallen, das der Sterbeort nicht verlinkt war, obwohl er gleich dem Geburtsort ist. Meiner Ansicht nach ist es aber erforderlich, dass der Sterbeort verlinkt wird, damit erkannt werden kann, das es auch der identische Ort ist. Es gibt häufig gleichnamige Orte und es wäre möglich, dass die Person in einem gleichennamigen Ort, aber nicht dem selben Ort verstorben ist. Der Umherirrende 22:59, 20. Aug. 2010 (CEST)

Als ich mit dem Skript angefangen habe die Personendaten zu scannen, hatten wir genügend andere Probleme. Damals wäre eine Zwangsverlinkung nicht akzeptiert worden. Ich denke inzwischen haben wir die gröbsten Schnitzer entfernt und können uns auf solche Feinheiten stürzen. Eine einfache Regel z.B.: Geburtsort und Sterbeort müssen einen Link aufweisen sind schnell eingebaut, werden aber sicherlich große Listen erzeugen und brauchen lange in der Abarbeitung. Wenn das gewünscht ist, dann baue ich es ein. -- sk 16:35, 23. Aug. 2010 (CEST)
Nur mal so eine Zahl: derzeit sind bei ca. 30000 Artikeln ein Ort nicht verlinkt. Wenn man davon nochmal die nimmt, wo beide Orte identisch sind, aber einer nicht verlinkt wurde, dann bleiben noch ca 3000 Artikel übrig, die ordentlich verlinkt werden müssen. Soll ich das einbauen? -- sk 16:55, 23. Aug. 2010 (CEST)
Mit 3000 hätte ich jetzt nicht gerechnet (das war meine eigentliche Frage). Vielleicht sollte noch gewartet werden, ist ja noch genug zu tuen. Der Umherirrende 18:53, 23. Aug. 2010 (CEST)

Arbeitsforschritt als Bild

Falls es jemanden interessiert. --Ephraim33 19:14, 5. Sep. 2010 (CEST)

Sehr schöm, sowas wollte ich immer schon mal einbauen, aber mir fehlte es an Zeit das umzusetzen. Bei den checkwikipedia-Seiten sammele ich aber schon die Daten. Da kann ich später mal was mit machen. -- sk 22:12, 6. Sep. 2010 (CEST)

Name ungleich Titel

Bei der Abarbeitung der ID 248 (Alternativname falsch sortiert) ist es mir jetzt schon häufiger aufgefallen, dass auch der Name nicht dem Titel entspricht. Oft handelte es sich um Adelsbezeichnungen (Freiherr, Herzog etc.), die im Namen auftauchten und dort nicht hingehörten. Bei diesem Artikel aber sieht es anders aus. Sollten noch mehr solcher "Fehler" durch ID 259 (Name ungleich Titel) nicht gefunden werden? Liebe Gruesse, --Silke Ewering 11:25, 2. Sep. 2010 (CEST)

Das Skript schaut halt ob der erste Namensteil im Feld "NAME" vor einem Semikolon kommt. Also wenn "NAME=Müller, Hans" dann ist "ALTERNATIVNAME=Otto Müller; Karl Müller" mit "Müller;" in den meisten Fällen falsch. Ich würde jetzt einfach Marià Fortuny als Ausnahme mit aufnehmen, weil ich nicht weiß wie ich solche Fälle sonst automatisch erkennen soll. -- sk 07:16, 3. Sep. 2010 (CEST)
Hallo Stefan, ich fürchte Du hast mich nicht richtig verstanden... Bitte diesen Namen nicht als Ausnahme aufnehmen! Mir geht es eigentlich nicht um die ID 248, sondern eher um die ID 259. Ich habe die Vermutung, dass immer dann, wenn im Namen der PD mehr Buchstaben vorhanden sind als im Titel, die ID 259 (Name und Titel abweichend) nicht richtig greift?! Soll ich vielleicht einfach in den nächsten Tagen ein paar Beispiele sammeln, damit Du Dir diese anschauen kannst? Liebe Gruesse --Silke Ewering 08:23, 3. Sep. 2010 (CEST)
Ja, mir wäre es lieb wenn du mir mal ein paar Beispiele gibts, damit kann ich dann besser nach der Ursache suchen. Danke für deine Unterstützung. -- sk 10:21, 3. Sep. 2010 (CEST)
Hier sind sie nun die versprochenen Beispiele: Johann Carl Friedrich von Dallwitz, Ilse von Bredow, Gustav Flügel (Orientalist), Jacques-Louis Randon, Xie Shiguang, Johannes von Welczeck. Ich drücke die Daumen, dass Du den Fehler schnell findest--Silke Ewering 20:44, 8. Sep. 2010 (CEST)
Achso, ich verstehe. Du meinst, dass im Feld NAME ein Wortbestandteil auftaucht, der nicht im Titel enthalten ist. Danach kann man auch prüfen, hat bisher noch niemand vorgeschlagen, weil wahrscheinlich noch zu viel zu tun war. Ich werde das mal mit einbauen, aber erst nach meinem Umzug. -- sk 16:34, 9. Sep. 2010 (CEST)
WOW, das sind viele. Und nicht nur Adlige. Irgendwie hab ich das noch nicht eingebaut. Wahrscheinlich wegen der Masse. Allein mit den ersten zwei Worten aus dem Namensfeld krieg ich in einem älteren Dump schon ca. 2000 Artikel.

Hier mal die ersten 30 (aus einem älteren Dump):

Bau das doch vielleicht noch heute ein. -- sk 16:46, 9. Sep. 2010 (CEST)

Habs jetzt eingebaut. Da sollten morgen etwas mehr Artikel in ID 259 stehen, da das Skript jetzt auch auf Längenunterschiede und nach einzelnen Wörter aus dem Namensfeld testet. Nach dem nächstem Dumpscan werden dann dort alle angezeigt. -- sk 22:40, 9. Sep. 2010 (CEST)

Personendaten fehlen, aber Personenkategorien vorhanden

Beim Fehler Personendaten fehlen, aber Personenkategorien vorhanden (id=4) sollte die Kategorie:Landsknecht rausgenommen werden, Personen und Sachartikel wurden getrennt, Personen sind nun in Kategorie:Landsknecht (Person). Kategorie:Inuit kann auch herausgenommen werden, die Personen haben nun ihre eigene Kategorie:Person (Inuit). Außerdem bitte Kategorie:Musikproduzententeam (neu), Kategorie:Künstlerduo (nach Umbenennung, war früher Kategorie:Künstlerpaar) und Kategorie:Autorenduo (war früher Kategorie:Autorenpaar) rausnehmen. --Ephraim33 19:14, 5. Sep. 2010 (CEST)

PS: Die Kategorie:Deutsches Reich (1933–1945) sollte auch ausgespart bleiben. --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Jahrtausend erlauben

Bei den Fehlern Geburts- oder Sterbedatum mit falschem Format (94) und Geburts- oder Sterbedatum mit falschem Ende (115) sollte auch Jahrtausend erlaubt sein und nicht mehr zur Fehlermeldung führen. --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Neuer Vorschlag: Alle Personen sollen einen GEBURTSDATUM-Eintrag haben

Das GEBURTSDATUM-Feld darf nie leer sein. Alle Personen müssen ja irgendwann geboren worden sein. --Ephraim33 17:42, 12. Sep. 2010 (CEST)

2 x Kategorie gestorben

Childebert (Ripuarier) wurde nicht bei Fehler Kategorie:Gestorben doppelt (130) angezeigt. --Ephraim33 17:42, 12. Sep. 2010 (CEST) PS: zusammen mit dem obigen Fehler scheint es mir, als würdest du nur reine Jahrhundertkategorien prüfen aber keine "im-x.-oder-y.-Jahrhundert"-Kategorien. --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Dopplung streichen

Alternativnamen ohne Leerzeichen nach Komma (35) ist durch Datenfeld ohne Leerzeichen nach Komma (14) vollständig abgedeckt. Fehler 35 kann gestrichen werden. --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Alternative

Wenn es immer wieder DBI connect('u_sk_pd_p:host=sql','sk',...) failed: User 'sk' has exceeded the 'max_user_connections' resource (current value: 15) at ./pd.cgi line 28 gibt, kann man auch CatScan nutzen um Fehler zu finden, zum Beispiel: Personen die vor 1900 geboren wurden und noch keine Gestorben-Kategorie haben. Diese Personen haben dann auch keinen Eintrag im STERBEDATUM-Feld, sonst würde Fehler Kategorie:Gestorben fehlt total (194) anspringen: Teil 1 (v. Chr.), Teil 2 (n. Chr.) --Ephraim33 17:42, 12. Sep. 2010 (CEST)

2 x der gleiche Alternativname

Du prüfst ja schon ob Alternativname = Lemma (Alternativnamen identisch mit Titel (38)) und ob Alternativname = Name (Alternativnamen identisch mit Name (39)). Du könntest auch noch prüfen, ob Alternativname1 = Alternativname2 ist (Beispiel). --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Man könnte auch bei mehreren Alternativnamen (AN1, AN2, ...) diese Überprüfungen für jeden Alternativnamen vornehmen. Andim 10:30, 13. Sep. 2010 (CEST)

Fehler: Sterbedatum ohne Inhalt, aber Kategorie:Gestorben im Jahrhundert (120)

Der Artikel Kalypso (Malerin) wird nicht angezeigt, obwohl er eine Gestorben-Kategorie hat und das STERBEDATUM-Feld leer ist. --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Ausweitung von Fehler Kategoriensortierung mit Kleinbuchstaben am Wortanfang (224)

Kategoriensortierung mit Kleinbuchstaben am Wortanfang (224) kann auf alle Buchstaben erweitert werden. Die Beschränkung auf die ersten zehn Buchstaben war ja nur zum testen, oder? --Ephraim33 17:42, 12. Sep. 2010 (CEST)

Falls Du diese komplette Ausweitung nicht willst, sollte zumindest das zweite Wort (auch wenn es erst nach mehr als 10 Buchstaben beginnt) großgeschrieben sein. Andim 10:32, 13. Sep. 2010 (CEST)
Wobei sich das in Zukunft ändern könnte: Wikipedia:Projektneuheiten#Allgemeines (Vorschau), Punkt Kategoriesierung. --Schnark 11:32, 13. Sep. 2010 (CEST)
Achso, die ersten zehn Buchstaben innerhalb des Sortierschlüssels, nicht A–J (ohne K–Z). Ok, dann verstehe ich die Beschränkung (Bei "Goethe, Johann Wolfgang von" spielt das kleine "v" ja für die Sortierung praktisch keine Rolle mehr). Andims Vorschlag hört sich vernünftig an. Aber wenn das in Zukunft keine Rolle mehr spielt, ist das eh nicht mehr wichtig. --Ephraim33 20:16, 13. Sep. 2010 (CEST)

Falsche Fehler?

Bei einigen Rubriken (z.B. ID=155) fällt mir auf, das allein auf der ersten der Fehlerseiten viele der bemängelten Artikel über einen umfangreichen BKL-Abschnitt (-> {{Dieser Artikel|...}}) verfügen oder mit einem ausführlich beschriebenen Bild (->[[Datei:xy.jpg|thumb|...]] und vergleichbar..) beginnen. Kann das möglicherweise dazu führen, das die realiter vorhandenen (Lebens-)Daten nicht erkannt werden, weil sie sich außerhalb des gelesenen Datenfensters befinden? Wie wäre es, etwaige BKL-/Bild-Anfänge in Artikeln unberücksichtigt zu lassen? Die Daten gehören ja schließlich in den Artikeltext rein und nicht in erster Linie in die BKL/Bildbeschreibung (obwohl sie da aber auch keinen Schaden anrichten...).--Pflastertreter 12:33, 19. Sep. 2010 (CEST)

Ausnahme für ID 260 (Geburts- oder Sterbeort mit Zahl)

Hallo, bitte Ivan Patzaichin und die anderen Sportler von hier als Ausnahme für ID 260 (Geburts- oder Sterbeort mit Zahl) definieren. Der Ort heißt tatsächlich Mila 23, siehe auch Liste der Orte im Kreis Tulcea bzw. Benutzer Diskussion:Stefan Kühn/Archiv/2008/Feb#Wikipedia:Personendaten/Wartung/Fehlerliste#GEBURTSORT/STERBEORT mit Zahl. Danke und Grüße --RonaldH 13:07, 19. Sep. 2010 (CEST)

Hier nochmal die Aufschlüsselung des externen Links. Es handelt sich um folgende fünf Sportler: Serghei Covaliov, Maria Nichiforov, Agafia Constantin, Ivan Patzaichin und Atanasie Sciotnic, allesamt Medaillenträger bei den Olympischen Spielen und daher hoffentlich bald auch alle mit eigenem Artikel. Gegen eine präventive Aufnahme in die Ausnahmeliste sollte aber nichts sprechen. --RonaldH 13:13, 19. Sep. 2010 (CEST)
Außer dem Ort "Mila 23" finden sich noch nummerierte Speziallager und der Berg K2. Die sind wohl auch korrekte Sterbeorte mit Zahlen. Bei nummerierten Straßen kann man geteilter Meinung sein. Bei Anne McLaren gibt es wohl keine genaueren Angaben. Bei Wolfgang Dyck halte ich den Ort für wichtiger als den Streckenabschnitt, aber die Angaben sind leicht widersprüchlich. Im Text steht "bei Hachenburg", in den Personendaten "Bundesstraße 414 zwischen Herborn und Nister-Möhrendorf". --Asdert 21:24, 19. Sep. 2010 (CEST)

Fehler 4

Bei Fehler 4 (Personendaten fehlen, aber Personenkategorien vorhanden) tauchen ein paar Artikel fälschlicherweise auf, da die Suche nach den Kategorien noch fehlerhaft ist: Da "Reichsminister (Deutsches Reich 1933–1945)" eine Personenkat. ist, wird auch Gleichschaltung mit der Kat. "Deutsches Reich 1933–1945" gefunden. Siehe auch #Personendaten fehlen, aber Personenkategorien vorhanden. --Schnark 12:25, 20. Sep. 2010 (CEST)

ID 248

Der Artikel Stefan Tomas taucht fälschlich in der o.a. ID auf. Solch ein Konstellation ist mir schon ein paar Mal aufgefallen. Da scheint mir ein Abfragefehler vorzuliegen. Gruß --Pelz 22:07, 26. Okt. 2010 (CEST)

ID 199 (Kurzbeschreibung mit falschem Artikel für eine Frau)

[8] und [9] wurden nicht erkannt. Wenn ich den Quellcode korrekt lese, wird im Prinzip der Fehler ausgegeben, falls im ersten Wort "isch", aber nicht "ische" enthalten ist. Man sollte überprüfen, ob "ischer" enthalten ist. Andim 15:58, 30. Okt. 2010 (CEST)

Javascript

Ich habe in der letzten Woche ein Skript geschrieben, das die Bearbeitung und vor allem die Erstellung von Personendaten erleichtert und das inzwischen so gut funktioniert, dass es auch von anderen benutzt werden kann. Wer also Lust hat, kann in seine vector.js (bzw. monobook.js) die Zeile

importScript('Benutzer:Schnark/js/personendaten.js'); //[[Benutzer:Schnark/js/personendaten.js]]

schreiben. Etwas mehr steht unter Benutzer:Schnark/js/personendaten. Kurzgefasst: Es gibt eine Bearbeiten-Maske für die Felder der Personendaten, SORTIERUNG und die Kategorien Geboren, Gestorben, Mann/Frau. Sind bereits PD vorhanden, ruft man diese Maske durch einen Klick auf Bearbeiten in der PD-Box auf, fehlen sie trotz eindeutiger Kategorien, so wird die Maske automatisch angezeigt und mit den Daten aus der Einleitung belegt. Durch einen Klick auf Übernehmen kommt man in den Bearbeiten-Modus, wo die entsprechenden Änderungen bereits vorgenommen sind. Vorsicht sollte man vor allem bei Alternativnamen und den Zeilenumbrüchen, die eingefügt werden walten lassen. Fehler können mir auf meiner Diskussionsseite gemeldet werden.

Und da ich gerade schon dabei bin: Ebenfalls ein nützliches Skript beim Bearbeiten von Personendaten ist WikisyntaxTextMod von PerfektesChaos, das unter anderem die Personendaten in die Standardform bringt, fehlende ALTERNATIVNAMEN-Zeilen etc. hinzufügt, Geburts- und Sterbedatum entlinkt und vieles mehr. --Schnark 11:14, 15. Okt. 2010 (CEST)

Ganz, ganz lieben Dank für dieses Helferlein. Es funktioniert total einfach und ist eine echte Arbeitserleichterung. Es hat zwar etwas gedauert, bis "Frau" das Skript an die richtige Stelle bekommen hat, aber nun habe ich wieder ein Stückchen hinzugelernt. Danke!--Silke Ewering 11:10, 16. Okt. 2010 (CEST)
Und um die Schnütchen etwas wässriger zu machen, hier der PD-bezogene Teil von WikisyntaxTextMod. Grüße --PerfektesChaos 21:27, 7. Nov. 2010 (CET)

ID 88

Hier taucht imho Charles Rabemananjara falsch auf. Gruß --Pelz 23:27, 1. Nov. 2010 (CET)

Das gleiche bei Willy Spühler. Das Problem ist vermutlich, dass in den PD und im Text "A-[[B]]" steht, aber nach "A-B" gesucht wird. Andim 23:44, 1. Nov. 2010 (CET)
 Ok, erledigt. Ich hab mir das angeschaut, da denke ich muss ich nix im Skript ändern. -- sk 10:38, 14. Nov. 2010 (CET)

Neues Problem auf der Startseite

Unter [10] gibt es seit heute eine weitere Zeile mit Namen "913". Andim 13:47, 15. Nov. 2010 (CET)

Das liegt an der neuen ID266 "Geburtsdatum leer". Ähnliche Probleme gab es früher auch schon. Ist sicher nur etwas im Skript verrutscht. HS13 17:13, 15. Nov. 2010 (CET)
 Ok, erledigt. Heute ist es nicht wieder erschienen, kann also als erledigt betrachtet werden. Mir fällt jetzt auch nicht direkt ein, warum es dort stand, dazu sind die Skripte mittlerweile zu komplex geworden, aber ich denke dort ist bei einem Update irgendwo die Reihenfolge der Updates nicht nicht ordentlich implementiert worden. Das kann schon mal passieren wenn an so einer Software über mehrere Jahre hinweg geschraubt und gebastelt wurde. -- sk 11:15, 16. Nov. 2010 (CET)

Vorschlag: Alternativname fehlt

In der Kopfzeile ist ein anderer Name angegeben als im Lemma, jedoch im Feld |ALTERNATIVNAMEN= kein Eintrag. --Graphikus 13:06, 19. Okt. 2010 (CEST)

Dürfte knifflig werden. Ich überlege mir mal was. Vielleicht kann man die ersten fetten Wörter rausextrahieren und mit dem Lemma vergleichen. Das sollte eigentlich helfen. -- sk 12:28, 16. Nov. 2010 (CET)
Also das mit den fetten Wörtern am Textanfang müsste gehen. Mal schauen ob ich das programmieren kann. Dabei ist mir eine weitere Idee gekommen. Leute wie Pilo oder DeLía wird man auch damit nicht besser finden. Aber wenn ich sage, nach 1875 ist in Deutschland keiner mehr ohne zwei Namensbestandteile (Vor- und Familienname) gewesen, dann kann man solche Leute leicht finden. Interessant finde ich Crauss, der angeblich vornamslos ist. -- sk 16:40, 16. Nov. 2010 (CET)
 Ok, hab mal einen neuen Erkennung (267) in das Skript eingebaut. Sollte morgen früh online sein. -- sk 22:01, 16. Nov. 2010 (CET)
Danke Stefan. Heute 2.200 neue Fehler. Gruß --Graphikus 10:09, 17. Nov. 2010 (CET)

ID 170

Die Artikel:

sollten imho aus der Fehlerliste rausgenommen werden. M.E. sind die richtig. Gruß --Pelz 00:22, 5. Nov. 2010 (CET)

 Ok, eingebaut ins Skript. Kommen demnächst nicht mehr. -- sk 10:34, 14. Nov. 2010 (CET)
Danke Stefan. Es gab noch einige weitere Änderungswünsche und Problemdiskussionen, die mittlerweile im Archiv 2010 gelandet sind. Kannst Du abschätzen, wann diese eingebaut werden könnten? Keine Hektik, ist ja trotz weniger als 10000 Fehlern noch genug zu tun. Gruß --HS13 17:23, 15. Nov. 2010 (CET)
Weise mich einfach hier auf der Diskussion noch mal erneut auf das entsprechende Thema hin. Im Archiv kann man ja schlecht darüber diskutieren. Ich hab einige Fehler aus dem Archiv abgearbeitet, aber nicht alle. Ich kann dort aber schlecht "ok" schreiben, weil bei mir dort unter den überschriften der Bearbeitungsbutton fehlt. Sollte dir was auffallen, dann schreib es hier einfach erneut rein. -- sk 15:11, 17. Nov. 2010 (CET)

Alte Version

Unter [11] erscheint die Startseite einer alten Version des Skriptes. In der Zip-Datei [12] ist im Unterverzeichnis home die aktuelle Version enthalten, im Unterverzeichnis pd findet sich noch eine alte Version, außerdem sind die txt-Dateien dort veraltet. Andim 22:14, 16. Nov. 2010 (CET)

Die Startseite ist nicht alt, sondern soll mal die neue Werden, so wie bei Checkwikipedia soll alle 15 Minuten nur die Seite aktuallisiert werden. Dadurch würde seltener hoffentlich die Fehlermeldung "mehr als 15 Nutzer" kommen. Die Zip-Datei muss ich mal anpassen. -- sk 13:43, 17. Nov. 2010 (CET)

ID 162

Hier sollten Gustaf nagel und K.d. lang als Ausnahmen hinzugefügt werden. Andim 22:46, 16. Nov. 2010 (CET)

 Ok, eingebaut ins Skript. -- sk 10:32, 17. Nov. 2010 (CET)

ID 119 und 120

Hier sollte nur auf "Geboren im" gesucht werden, damit auch "Geboren im 1. oder 2. Jahrhundert" und "Geboren im 2. Jahrtausend" und "Geboren im 1. oder 2. Jahrtausend" erfasst werden. Andim 08:57, 17. Nov. 2010 (CET)

 Ok, im Skript eingebaut. -- sk 13:46, 17. Nov. 2010 (CET)

ID 129 und 130

Meiner Meinung nach ist 129 besser aufgebaut als 130, da in 129 mehr Fälle abgedeckt sind. Ich denke aber auch in 129 erwischt Du nicht alle Fälle, z.B. "Geboren 129" und "Geboren unbekannt". Besser wäre es, nur zu überprüfen, ob in den Kategorien zweimal "Geboren" bzw. "Gestorben" vorkommt. Andim 09:04, 17. Nov. 2010 (CET)

 Ok, im Skript eingebaut. -sk 13:53, 17. Nov. 2010 (CET)

Datenfelder bestehen nur aus Leerzeichen

Ich will nochmal auf meinen Vorschlag 3 in Wikipedia Diskussion:Personendaten/Wartung/Fehlerliste/Archiv/2010#Datenfelder nur mit Leerzeichen hinweisen. Andim 09:09, 17. Nov. 2010 (CET)

 Ok. Ich hab mal eingebaut das in Zukunft alle führenden und abschließenden Leerzeichen entfernt werden. Mal schauen ob beim nächsten Dumpscan dann einige leere Felder zum vorschein kommen. Ich hab keinen eigenen Fehler dafür angelegt, da die Felder ja so oder so schon alle einzeln überprüft werden, ob sie leer sind. -- sk 15:06, 17. Nov. 2010 (CET)

Zeilenumbrüche in den PD

Man könnte Fehler 233 erweitern. In den Personendaten sollen genau acht Zeilenumbrüche vorkommen. Andim 09:15, 17. Nov. 2010 (CET)

ID 175

In der Liste stehen heute die folgenden Namen: Yazdegerd III., Yazdegerd II. und Avraham Tehomi.

Alle haben bei den Alternativname am Anfang den Namen in Landesschrift. Die Fehlerabfrage "sieht" diese offenbar nicht. Gruß --Pelz 21:23, 18. Nov. 2010 (CET)

Das Problem war, dass dort Sprachvorlagen verwendet wurden. Ich habe diese entfernt. Andim 23:05, 18. Nov. 2010 (CET)

Fett- und Kursivschrift

Wenn man sich die Rubrik anschaut, sieht man das das Semikolon vor dem Sternchen innerhalb einer Fettschreibung oder Kursivschrift steht (beispielsweise bei Charles Chaplin). Ich bin mir unsicher ob das Semikolon auch fett/kursiv sein soll oder nicht. Ich habe auch mal gelesen, das ein Satzzeichen nach einem formatierten Wort in der gleichen Formatierung sein sollte, weiß aber nicht mehr wo. Wie seht ihr das? Der Umherirrende 20:40, 21. Jun. 2010 (CEST)

Danke für die Frage. Sehe ich auch als Problem. Meiner Meinung nach müsste das nicht fett/kursiv sein, aber ich kenne da keine offizielle Regel. -- sk 10:37, 23. Jun. 2010 (CEST)

nbsp als Leerzeichenersatz

Im Artikel Abraham B. Jehoshua wird ;&nbsp;* genutzt. Dieses und die weiteren Zeichen sollten als Leerzeichen betrachtet werden. Der Umherirrende 12:01, 3. Jul. 2010 (CEST)

Wenn man solch einen Artikel gerade bearbeitet, kann man dieses Zeichen gleich mit entsorgen, da es überflüssig und an dieser Stelle unüblich ist. Dann taucht es in der Ergebnisliste der Suche automatisch nicht mehr auf. --RonaldH 18:26, 25. Jul. 2010 (CEST)
Ja, dann würde ich das auch machen, aber bei den meisten Artikel ist sonst nichts zu machen, daher plädiere ich dafür, das "anzuerkennnen". Wikitext ist sehr tolerant (bzw. der Parser). Der Umherirrende 21:46, 28. Jul. 2010 (CEST)
In vielen Fällen wird das nbsp genutzt, um die Textrichtung zu erhalten, da Rechts-nach-Links-Text die Eigenheit hat, alles durcheinander aussehen zu lassen. Durch nbsp steht aber Text mit einer eigenen Textrichtung hinter dem Text mit der anderen Textrichtung und die Browser können das besser im Editor darstellen. Ob ein LTR/RTL-Marker besser ist, weiß ich nicht. Es ist aber meistens möglich das nbsp zwischen den Sternchen und Datum zu verschieben, dort scheint es dem Skript hier weniger zu stören, hat aber noch die gleiche Wirkung. Der Umherirrende 20:07, 22. Aug. 2010 (CEST)

Übermäßige Leerzeichen

Im Artikel Xu Beihong sind zwei Leerzeichen zwischen dem Semikolon und dem Sternchen. Ich denke, das sollte als "richtig" erkannt werden, da die Anzeige ja richtig ist. Der Umherirrende 11:34, 25. Jul. 2010 (CEST)

Selbe Meinung wie zum Fall drüber. Nur weil die Anzeige passt, ist der Code noch lange nicht "richtig". Auch hier spricht nichts gegen eine Bereinigung en passant. --RonaldH 18:26, 25. Jul. 2010 (CEST)
Stellt sich die Frage, um was es geht. Ich würde eher sagen, das es dem Leser einheitlicher vorkommt. Aber das ist auch wieder Geschmackssache. Der Umherirrende 21:46, 28. Jul. 2010 (CEST)

Alternative Zeichen für Gestorben

Im Artikel William Ponsonby wird ein X verwendet. Laut Genealogische Zeichen handelt es sich um "gekreuzte Schwerter", da der Betroffende gefallen ist. Hat jemand eine Idee? Auch ein Kreuz setzen oder so lassen? Der Umherirrende 17:19, 25. Jul. 2010 (CEST)

auf der genannten Seite steht aber auch dass es sich bei dem X um ein Ersatzzeichen handelt. Habe nun mal das korrekte Zeichen eingefügt, in der Hoffnung, dass das nun auch für jeden sichtbar ist. Imho sollte das künfigt verwendet werden. --Graphikus 18:05, 25. Jul. 2010 (CEST)
Ich halte gar nichts von diesem Sonderzeichen. Da gibt es doch nur wieder Streit, wann jemand als "gefallen" gilt und wann nicht. Sympatisanten bestimmter Organisationen werden "ihre Kämpfer" als "gefallen" bezeichnen, obwohl diese Organisationen nach westeuropäischem Rechtsverständis kriminell sind. Lassen wir es besser beim mehrheitlich anerkannten †. --Pelz 13:46, 27. Jul. 2010 (CEST)
Der Einwand hat Sinn, ich weiß garnicht ob es für das Symbol eine anerkannte Definition außerhalb der Wikipedia gibt. So brauch auch nichts am Skript angepasst werden. Der Umherirrende 21:46, 28. Jul. 2010 (CEST)

griechische Wörter vor dem Datum

Auf meiner Diskussionsseite wurde mir geschrieben, das ein Semikolon nach einem griechischem Wort falsch ist, da das Semikolon im griechischen ein Fragezeichen entspricht und somit dort schlecht platziert ist. Ich kenne mich da überhaupt nicht aus und wollte es nur notieren. Der Umherirrende 20:33, 13. Aug. 2010 (CEST)

Es handelt sich um die Vorlagen mit dem Präfix ELS --Der Umherirrende 20:03, 22. Aug. 2010 (CEST)

ID 265

Ephraim33 hatte schon mal angemerkt, dass ID265 nicht anspringen sollte, wenn ein Wort nur als Bestandteil anderer Wörter mehrmals auftaucht. Das betrifft den Großteil der angezeigten Artikel. Artikel wie Jerome K. Jerome und Hermann Friedrich Friedrich sollten als Ausnahmen hinzugefügt werden. --HS13 03:37, 22. Nov. 2010 (CET)

Apostroph '

Ein Großteil der Artikel mit 3 oder mehr Verbesserungsvorschlägen besitzt ein ' im Namen und schlägt dann in IDs 202, 252 und 259 an, scheint aber nicht fehlerhaft zu sein. Eine kurze Diskussion dazu gab es mal, siehe Anmerkungen vom Umherirrenden und Pelz. Liegt's an dem &#039;? --HS13 03:50, 22. Nov. 2010 (CET)

ID 26 und 252

Die Artikel Euphranor vom Isthmos, Aristoteles der Dialektiker, Homeros aus Byzantion, Aristokles aus Sikyon und Aristokles aus Kydonia können als Ausnahmen hinzugefügt werden. --HS13 03:59, 22. Nov. 2010 (CET)

ID 144

Der Artikel Augustin Jamund kann als Ausnahme hinzugefügt werden. --HS13 03:59, 22. Nov. 2010 (CET)

Personendaten fehlen, aber Personenkategorien vorhanden

Wie bei "Personendaten fehlen" gibt es hier seit einigen Tagen keine Einträge. Andim 08:42, 24. Nov. 2010 (CET)

Ich hab den Fehler noch nicht gefunden. Das Skript läuft, aber aus irgendeinem Grund startet der Cronjob nicht. -- sk 17:42, 26. Nov. 2010 (CET)

Geburts- und Sterbedatum

Hallo, ein Vorschlag, um die vielen Datumsfehler und die Diskrepanzen mit den Kategorien zu vereinheitlichen:

Regulärer Ausdruck

Man müsste das zulässige Datumsformat durch einen regulären Ausdruck beschreiben. Mein Vorschlag in Backus-Naur-Form:

<Zahl>::=1|2| u.s.w.
<Monatszahl>::=1|2|...|31
<Monat>::=Januar|Februar|...|Dezember
<Jahr>::=<Zahl>|<Zahl> v. Chr.
<Jahrhundert>::=<Zahl>. Jahrhundert|<Zahl>. Jahrhundert v. Chr.
<Tag>::=<Monatszahl>.
<TagMonat>::=<Tag> <Monat>|<Monat> 
<Datum>::=<TagMonat> <Jahr>|<Jahr>|<Jahrhundert>|<TagMonat> <Jahrhundert>
<Datum2>::=<Datum>|vor <Datum>|nach <Datum>|um <Datum>|zwischen <Datum> und <Datum>|<TagMonat> vor <Jahr>|<TagMonat> nach <Jahr>|<TagMonat> um <Jahr>|<TagMonat> zwischen <Jahr> und <Jahr>
<Datum3>::=<Datum2>|<Datum2> oder <Datum2>
<Geburtsdatum>::=<Datum3>|getauft <Datum3>|unsicher: <Datum3>|unsicher: getauft <Datum3>
<Sterbedatum>::=<Datum3>|begraben <Datum3>|unsicher: <Datum3>|unsicher: begraben <Datum3>

Man muss vorher aber die Verlinkungsklammern entfernen. Natürlich könnte man diese Klammern auch noch in den regulären Ausdruck aufnehmen. Fälle, wie 31. April müssten danach ausgeschlossen werden, kann aber auch noch mit in den regulären Ausdruck aufgenommen werden. 29. Februar in einem Nichtschaltjahr kann praktisch nur danach geprüft werden.

Ein weiteres Problem sind die Jahresangaben wie "333/332 v. Chr." oder "um 360/370". Man kann diese leicht mit

<Jahr>::=<Zahl>|<Zahl> v. Chr.|<Jahr>/<Jahr>|<Jahr>/<Jahr> v. Chr.

zulassen. Damit erlaubt man zuviel, also müsste nachher noch extra geprüft werden.

Wenn man die zweite Version für <Jahr> verwendet, reichen folgende Fehler aus, wenn man vorher die Verlinkungsklammern entfernt:

  • Datum trifft nicht auf den regulären Ausdruck zu.
  • Datum enthält 30. Februar, 31. Februar, 31. April, 31. Juni, 31. September, 31. November. Dabei genügt es, nach diesen Strings zu suchen.
  • Datum enthält 29. Februar und Nicht-Schaltjahr. Dabei muss man für alle maximalen Teilstrings der Form "29. Februar Zahl", denen kein Punkt folgt, untersuchen, ob Zahl durch 4, aber nicht durch 100, oder durch 400 teilbar ist, falls Zahl größer als 1583 ist. Falls Zahl kleiner als 1583 ist, reicht es, auf die Teilbarkeit durch 4 zu achten. Damit erlaubt man sowas wie 29. Februar 19. Jahrhundert, was in Ordnung ist.
  • Datum liegt in der Zukunft. Man sucht nach maximalen Zahlen, denen kein "." oder " v" folgt, diese dürfen nicht größer als 2010 sein. Man sucht nach maximalen Zahlen, denen ". Jahrhundert" folgt, aber nicht ". Jahrhundert v", diese dürfen nicht größer als 21 sein.
  • Datum enthält "/". Wahrscheinlich muss man Heuristiken, wie bisher, verwenden, um die erlaubten Fälle zu finden.

Zuordnung Datum-Zeitintervall

Die Grundidee: Man ordnet dem GEBURTSDATUM und dem STERBEDATUM ein Intervall zu. D.h. GEBURTSDATUM=[g1,g2] und STERBEDATUM=[s1,s2]. Ebenso ordnet man den Geboren und Gestorben-Kategorien ein Intervall zu. D.h. Geboren=[kg1,kg2] und Gestorben=[ks1,ks2]. Mit G1:=min(max(g1,kg1),s2), G2:=min(g2,kg2,s2), S1:=max(s1,ks1,g1) und S2:=max(min(s2,ks2),g1) erhält man genauere Intervalle [G1,G2] und [S1,S2] für das Geburts- bzw. Sterbedatum.

Folgende Fehler müssten überprüft werden:

  • s2<g1: Tod vor Geburt laut Personendaten
  • ks2<kg1: Tod vor Geburt laut Kategorien
  • S2<G1: Tod vor Geburt laut Personendaten+Kategorien
  • Schnitt von [g1,g2] und [kg1,kg2] ist leer: Widerspruch zwischen GEBURTSDATUM und Geboren-Kategorie
  • Schnitt von [s1,s2] und [sg1,sg2] ist leer: Widerspruch zwischen STERBEDATUM und Gestorben-Kategorie

Wie erhält man so eine Zuordnung? Wenn man den regulären Ausdruck von oben verwendet, ist sichergestellt, dass die Datumsangaben aus elementaren Ausdrücken aufgebaut sind. Die Grundidee ist folgende: Man ordnet jeder elementaren Angabe ein Intervall auf Tagesbasis zu:

  • 5. Mai 2010 = [5. Mai 2010, 5. Mai 2010]
  • Mai 2010 = [1. Mai 2010, 31. Mai 2010]
  • Juni 2010 = [1. Juni 2010, 30. Juni 2010]
  • Februar 2010 = [1. Februar 2010, 28. Februar 2010]
  • Februar 2008 = [1. Februar 2008, 29. Februar 2008]
  • 2010 = [1. Januar 2010, 31. Dezember 2010]
  • 20. Jahrhundert = [1. Januar 1901, 31. Dezember 2000]
  • 5. Mai 20. Jahrhundert = Mai 20. Jahrhundert = 20. Jahrhundert = [1. Januar 1901, 31. Dezember 2000]
  • keine Angabe = [-unendlich, unendlich]

Problematisch ist "um" und "unsicher:". Ein Vorschlag:

  • um [a,b] = [a-10 Jahre, b+10 Jahre]

Dies ist großzügig, da aber PD und Kategorie verwendet wird, wahrscheinlich akzeptabel. So wird aus STERBEDATUM=um 5. Mai 2010 und Kategorie:Gestorben 2010 das Intervall [1. Januar 2010, 31. Dezember 2010]. Vielleicht sollte man das Intervall auch in Abhängigkeit von [a,b] wählen. Bei "begraben" und "getauft" kann man jeweils ein Jahr abziehen bzw. dazu addieren. Bei "unsicher:" ist die Situation komplizierter. Im Zweifelsfalle [-unendlich, unendlich]

Dann kann man weitermachen

  • vor [a,b] = [-unendlich,b]
  • nach [a,b] = [a,unendlich]
  • zwischen [a,b] und [c,d] = [a,d]
  • [a,b] oder [c,d] = zwischen [a,b] und [c,d] = [a,d]

Für die Kategorien ist es einfacher:

  • Geboren 2010 = [1. Januar 2010, 31. Dezember 2010]
  • Geboren im 20. Jahrhundert = [1. Januar 1901, 31. Dezember 2000]
  • Geboren im 19. oder 20. Jahrhundert = [1. Januar 1801, 31. Dezember 2000]
  • Geboren im 2. Jahrtausend = [1. Januar 1001, 31. Dezember 2000]
  • Geboren unbekannt = [-unendlich, unendlich]
  • keine Kategorie = [-unendlich, unendlich]

Mit Daten lässt es sich schlecht rechnen. Also sollte man eine Zahlencodierung wählen. Mein Vorschlag: Tag Monat Jahr wird für positive Jahre zu Jahr*10000+Monat*100+Tag, wobei Monat eben 1,2,...,12 ist. Für Jahre v. Chr. also negative Jahre bietet sich Jahr*10000+(10000-Monat*100-Tag) an. Also:

  • 5. Mai 2010 = 20100505
  • 3. Dezember 1876 = 18761203
  • 1. Januar 1 = 10101
  • 31. Dezember 1. v. Chr. = -18769
  • 30. Dezember 1. v. Chr. = -18770
  • 2. Januar 1 v. Chr. = -19898
  • 1. Januar 1 v. Chr. = -19899

Damit ist die Codierung streng monoton bezüglich der Zeit. Ein weiterer Vorteil ist, dass man z.B. leicht erkennen kann, dass bei [a,b] a und b in einem Jahr liegen, nämlich wenn sich a und b nur an den letzten 4 Stellen unterscheiden. Wenn sie sich nur an den letzten 2 Stellen unterscheiden, so liegen a und b sogar im gleichen Monat.

Ich weiß, dass ist sicherlich nicht ganz einfach zu programmieren, aber bietet meiner Meinung nach große Vorteile. Man könnte diese Codierung z.B. auch in APPERs Datenbank verwenden. Andim 15:45, 23. Mai 2010 (CEST)

Also die Idee mit den Intervallen ist sicherlich sehr effizient, aber dazu müsste ich die komplette Anwendung umschreiben. Bisher sind wir mit dem Weg sehr gut gefahren, dass wir uns einzelne Probleme raus picken und dann dafür eine Fehlermeldung speziell generieren. Ich glaube die Mehrzahl der Probleme decken wir schon sehr gut ab. Nur durch die Einführung neuer Kategorien wie "Geboren 9. oder 10. Jahrhundert", muss ich noch einige Dinge neu einbauen. -- sk 15:43, 25. Mai 2010 (CEST)
Ein noch ganz unbefriedigendes Python-Programm, welches einen Teil der in diesem und dem vorhergehenden Abschnitt vorgeschlagenen Aufgaben erfüllt, habe ich unter meine Benutzerseite gestellt. (Dort im Vorspann auch kurze Bemerkungen zu Mängeln des Programms.) Es ist arbeitsfähig, angewandt auf die Personenartikel im Dump vom 26. März beanstandet es 231 GEBURTS/STERBEDATUMs-Zeilen. Darunter viele, die Stefan meldet (es fehlen mehrzeilige Angaben und mehrere gleichartige Angaben in einem PD-Block, vor allem aber aus dem Kontext abgeleitete Widersprüche), aber auch ein paar weitere (der wohl häufigste Fall: [[5. Mai 555]]). Eine Weiterentwicklung ist geplant, wird aber aus Zeitmangel etwas dauern. Sie soll dann auch die Kategorien und den Abgleich mit ihnen sowie zwischen Geburts- und Sterbedaten umfassen.
Etwas unglücklich ist hier die Parallelarbeit, teilweise bedingt durch die verschiedenen verwendeten Programmiersprachen. Sicher gibt es aber Möglichkeiten, anderssprachige Programme/Funktionen einzubinden? (Die Möglichkeiten regulärer Ausdrücke scheinen mir für eine gründliche Prüfung jedenfalls nicht ausreichend zu sein.) --Griot 17:54, 25. Mai 2010 (CEST)
Ich hab von Python keinen Plan, aber man sieht an dem Programm sehr schön, wie viel Programmierarbeit da reingesteckt werden muss, um sowas umzusetzen. Ich bin dankbar über jeden Hinweis auf unentdeckte Fehler. Ich versuche die auch zeitnahe einzubauen. Ich denke wir haben schon fast alle drin. - Vielleicht sollten wir sowas wie ein Testfeld in Form mehrere Testunterseite bauen, die alle möglichen Fehler auflistet und schauen was die Software davon findet. Sowas wie Pseudpersonenartikel ("Max Mustermann-a", "Max Mustermann-b" mit allen möglichen Fehlern. Dadurch würden wir den Artikelnamensraum nicht verschmutzen und würden aber sehen was uns noch fehlt. -- sk 10:42, 26. Mai 2010 (CEST)
Eine genaue Festlegung des Formats mittels BNF finde ich sehr gut, ich dachte, ich hätte sowas auch schonmal vorgeschlagen, aber nur Vorschläge von Griot gefunden. Im Grunde sollte so etwas irgendwann mal auf einer Unterseite von Hilfe:Personendaten vermerkt werden.
Eine Erweiterung der Personensuche, dass diese Intervalle aufnimmt, habe ich auch schon mehrfach überlegt, ist aber jedes Mal aus Zeitgründen gescheitert. --APPER\☺☹ 03:47, 27. Mai 2010 (CEST)
Stefans Vorschlag eines Testfelds halte ich für sehr gut. Und den Wunsch nach einer BNF-definierten Syntax für berechtigt. Das erfordert aber noch die Klärung alter vertagter Fragen... Leider bin ich für ein bis zwei Monate stark eingebunden, so dass mir nennenswerte Mitarbeit nicht möglich ist. So eilig ist's aber vielleicht auch nicht? – Bei der Gelegenheit: Fortschritte bei der Bearbeitung der Fehler "Diskrepanz zwischen NAME-Feld und Lemma" würden mich sehr freuen, den Grund beschrieb ich kurz in dieser Diskussion (alles Wesentliche steht im zweiten Beitrag). Das sind wohl Stefans Fehlerkategorien 252, 28, 202, 259. --Griot 00:22, 28. Mai 2010 (CEST)
Ich hab vorher noch nie von der Backus-Naur-Form gehört. Gefällt mir aber sehr gut. Ich schau mal wie man das in Perl einbauen kann bzw. umsetzen kann. -- sk 10:03, 28. Mai 2010 (CEST)
Du kannst natürlich aus meiner BNF-Formulierung einen regulären Ausdruck erhalten, indem Du die Bezeichner rekursiv ersetzt. Andim 16:52, 29. Mai 2010 (CEST)

Umsetzung BNF

Ich hab mal mit Perl etwas rumgespielt und habe versucht die oben angesprochenen BNF einzubauen. Mit den Daten aus einem der letzten Dumps bekomme ich noch knapp 200 falsche Datumsangaben. Das ist schon mal sehr gut bei über 130000 PD sind dass nur 0,15%. Vieles sind echte Tippfehler, aber es gibt auch zahlreiche Angaben wie "183/182 v. Chr.". Wenn wir jetzt so eine strikte Überprüfung einführen müssen wir auch diese ordentlich händeln oder durch was besseres ersetzten. Ich weiß das wird ein Aufschrei bei den Historikern geben, aber wir müssen das mal klären. Anbei die offenen Problemfälle. -- sk 10:22, 24. Aug. 2010 (CEST)

* 	" 18. Juni 1993,  "
* 	" 195x"
* 	" 2.November 1977"
* 	"<!--24. September 1660 oder -->16. Juli 1662 oder 16. September 1662 oder 24. September 1662"
* 	"01. April 1919"
* 	"01. April 1950"
* 	"02. Januar 1845"
* 	"02. März 1882"
* 	"02. November 1649"
* 	"04. Oktober 1966"
* 	"06. Mai 1966"
* 	"06.10.1988"
* 	"07. September 1846"
* 	"09. März 1927"
* 	"1. Dezember 1779 (Taufdatum)"
* 	"1. Jahrhundert n. Chr."
* 	"1. Jahrtausend"
* 	"1. Oktober 1790c"
* 	"1. oder 2. Jahrhundert"
* 	"1.Oktober 1959"
* 	"1.September 1824"
* 	"10. Juni  1850"
* 	"10. März] 1880"
* 	"10. Okotber 1905"
* 	"10. oder 11. Juni 1051"
* 	"11. April  1840"
* 	"11. Mai  1926"
* 	"11.August 1984"
* 	"11.Februar 1988"
* 	"113. Juli 886"
* 	"1158/1160"
* 	"12. Oktober  1767"
* 	"12. Oktober1860"
* 	"12.Januar 1987"
* 	"12.Juni 1958"
* 	"13. Mai  1990"
* 	"13. oder 15. Dezember 1644"
* 	"13. oder 16. August 1920"
* 	"13.September 1969"
* 	"14.Februar 1991"
* 	"1470/80"
* 	"15. Jänner 1953"
* 	"15. Mai  1981"
* 	"15.(?) September 1941"
* 	"1587/1589"
* 	"16.August 1932"
* 	"16.Dezember 1708"
* 	"16.November 1979"
* 	"1637/1638"
* 	"1687/88"
* 	"17 . Mai 1963"
* 	"17. Dezember 1979]"
* 	"17. Jänner 1784"
* 	"17. Jänner 1874"
* 	"17. Jänner 1943"
* 	"17.08.1964"
* 	"17.Mai 1953"
* 	"17.September 1985"
* 	"18. Jänner 1880"
* 	"18. oktober 1880"
* 	"18.Dezember 1984"
* 	"183/182 v. Chr."
* 	"19. Juni  1919"
* 	"19. Juni 1919 (nach KCL 1930: 1921)"
* 	"19. oder 20. Jahrhundert"
* 	"19.9.1740"
* 	"2. Jahrhundert n. Chr."
* 	"2. oder 1. Jahrhundert v. Chr."
* 	"20. Jänner 1936  "
* 	"20. März 1760 (Taufdatum)"
* 	"20. Novemberr 1978"
* 	"20. oder 25. März 1907"
* 	"20.Juli 1982"
* 	"20.September 1972"
* 	"21. August 1550 (Taufe)"
* 	"21. Jänner 1884"
* 	"21. Jänner 1983"
* 	"21.März 1745"
* 	"22. Jänner 1904"
* 	"22. Jänner 1959"
* 	"22. März  2010"
* 	"22. März (?) 2010"
* 	"22.August 1952"
* 	"22.Februar 1765"
* 	"22.Juni 1981"
* 	"22.Juni 1982"
* 	"22.November 1823"
* 	"22.Oktober 1978"
* 	"24. Juli"
* 	"24. Mai  1805"
* 	"24. Mai 196ß"
* 	"24.3.1891"
* 	"24.April 1964"
* 	"24.Dezember 1969 "
* 	"25. Jänner 1927"
* 	"25. September  1521"
* 	"25.Oktober 1939"
* 	"252/251 v. Chr."
* 	"26. Februar"
* 	"26. Jänner 1803"
* 	"26.September 1989"
* 	"27. Jänner 1944"
* 	"27. Juni1963"
* 	"27. September"
* 	"27.November 1790"
* 	"27.September 1991"
* 	"28. Septe,mber 1959"
* 	"28.03.1956"
* 	"28.6.1839"
* 	"29. Jänner 1994"
* 	"29. Mai  1870"
* 	"29. Mai  1977"
* 	"29.August 1962"
* 	"29.Januar 1988"
* 	"29: März 1754 "
* 	"3. Juni  1938"
* 	"30. Jänner 2009"
* 	"30.April 1806"
* 	"311/310 v. Chr."
* 	"314/313 v. Chr."
* 	"327/326 v. Chr."
* 	"332/331 v. Chr."
* 	"348/347 v. Chr."
* 	"352/351 v. Chr."
* 	"353/352 v. Chr."
* 	"359/358 v. Chr."
* 	"374/373 v. Chr."
* 	"377/376 v. Chr."
* 	"396/395 v. Chr."
* 	"4. Dezember"
* 	"4. Jänner 1924"
* 	"428/427 v. Chr."
* 	"5.Fenruar 1976"
* 	"5.März 2010"
* 	"6 Februar 1958"
* 	"6. November"
* 	"6.Mai 1987"
* 	"6/5 v. Chr."
* 	"631/627 v. Chr."
* 	"69/68 v. Chr."
* 	"7. Juli  1977"
* 	"7.Februar 1888"
* 	"7.Februar 1982"
* 	"7.März 2010"
* 	"8.  September 1914"
* 	"8. August 1978, "
* 	"8. oder 9. Jahrhundert"
* 	"9. Jänner 1891"
* 	"9. März1965"
* 	"9.Mai 1694"
* 	"? (nach 1938, wird noch geklärt)"
* 	"Jahreswende 1740/1741 "
* 	"Juni 1943 (vermisst)"
* 	"Padua, Italien"
* 	"ca. 1942"
* 	"ca. 1949"
* 	"im 13. Jahrhundert"
* 	"im 19. oder 20. Jahrhundert"
* 	"im 20. Jahrhundert"
* 	"im 9. Jahrhundert"
* 	"nach 120/119 v. Chr."
* 	"nach 317/316 v. Chr."
* 	"nach 325/324 v. Chr."
* 	"nach dem 5. August 1942"
* 	"um 1030–1040"
* 	"um 1035–1040"
* 	"um 1095–1100"
* 	"um 1129–1135"
* 	"um 1209/1215"
* 	"um 1254–1258"
* 	"um 1290–1295"
* 	"um 1355–1360"
* 	"um 1360–1364"
* 	"um 1468/69"
* 	"um 1490–1500"
* 	"um 1509–1530"
* 	"um 1514–1535"
* 	"um 1539–1535 v. Chr. oder um 1522 v. Chr."
* 	"um 1774/1777?"
* 	"um 213/212 v. Chr."
* 	"um 25/24 v. Chr."
* 	"um 30–32"
* 	"um 375–370 v. Chr."
* 	"um 410–407 v. Chr."
* 	"um 435/429 v. Chr."
* 	"um 787–782 v. Chr."
* 	"um 800–796 v. Chr."
* 	"um 801–798 v. Chr."
* 	"um 837–835 v. Chr."
* 	"um 85–90"
* 	"um 852–849 v. Chr."
* 	"um 874–869 v. Chr."
* 	"um 885–876 v. Chr."
* 	"um 886–877 v. Chr."
* 	"unbekannt"
* 	"unsicher : vor 630"
* 	"wohl 1640"
Wenn ich es richtig sehe, dann sind davon ca.100 reine Tippfehler die im Wesentlichen unproblematisch sein dürften. Natürlich könnte eine Änderung von "Jänner" auf "Januar" bei unseren österreichischen Freunden auf Kritik stoßen. Bie den Angaben wie "um 1509-1430" kann man sicher auf "16. Jahrhundert" ändern. Dann wird noch ein gewisser Bodensatz übrigbleiben, zu den mir jedenfalls dann nichts mehr einfällt. Gruß --Pelz 20:27, 24. Aug. 2010 (CEST)
Wenn man "x. Jahrtausend" und "y. Jahrtausend v. Chr." noch erlaubt, bleiben als kritische Fälle doch nur sowas wie "320/319 v. Chr." und "um 85-90" übrig. Letzteres kann man mit zwischen auflösen. Andim 22:01, 24. Aug. 2010 (CEST)
Dieses Auflösen mit "zwischen" wurde uns beim letzten Mal schwer angekreidet. Vielleicht sollten wir das bei Jahreszahlen vor 400 noch mit aufnehmen. -- sk 22:39, 24. Aug. 2010 (CEST)
Die Klärung einiger offener Punkte ist sicher nötig. Da sie aber bereits mehrere Jahre verschoben wurde und kein aktuell dringender Grund zu sehen ist, muss sie vielleicht nicht in kürzester Zeit erfolgen. Ich bitte um ein paar Wochen Aufschub, um mich an der Diskussion beteiligen zu können. (Zur Zeit bin ich leider ohne eigenen Internetanschluss.) Eine vollständige BNF-Darstellung, die allerdings etwas mehr Freiheiten gewährt, als die gültigen PD-Vorschriften, ist übrigens verstreut in den Kommentarzeilen meines oben bereits genannten Programms enthalten. --Griot 23:08, 30. Aug. 2010 (CEST)

Text ohne Geburts- oder Sterbedatum

getauft/begraben

Ein getauft (oder begraben) in den Personendaten sollte man ausschließen oder nach den entsprechenem Text suchen (Peter von Winter) --Der Umherirrende 16:37, 2. Jul. 2010 (CEST)

HTML-Kommentar

Im Artikel Tsenshab Serkong Rinpoche befindet sich ein Kommentar zwischen Klammer und Stern. Der Umherirrende 21:13, 30. Jul. 2010 (CEST)

ID 7 - Kategorien fehlen

Seit Tagen taucht dort auf, obwohl die Löschung bereits am 13. Oktober erfolgte. --Schnark 11:13, 4. Nov. 2010 (CET)

 Ok, erledigt. Scheint sich ohne mein Zutun erledigt zu haben. -- sk 11:29, 16. Nov. 2010 (CET)
Nein, bei mir taucht er immer noch als erster Eintrag hier auf. --Schnark 12:17, 16. Nov. 2010 (CET)
Dann scheint gestern als ich das Überprüft habe jemand mit "Erledigt" das schon weggeklickt zu haben. Ich schau mir das mal an. -- sk 12:25, 16. Nov. 2010 (CET)
 Ok, erledigt. Hab es von Hand rausgeschmissen. -- sk 08:58, 17. Nov. 2010 (CET)
Nein, das Ding ist verdammt hartnäckig. Gestern war es drin, heute ist es drin. Dummerweise ist es auch noch in einem privaten Unicode-Bereich, sodass nicht einmal die Hoffnung besteht, dass sich ein relevanter Künstler dieses Zeichen als Künstlernamen zulegt. --Schnark 09:39, 19. Nov. 2010 (CET)
Auch Hans-Adam (Begriffsklärung) ist sehr hartnäckig. Andim 17:25, 26. Nov. 2010 (CET)
Ebenso merkwürdig: Unter ID 76 taucht heute der Artikel Dungkhurba Wangchug Trashi auf. Der war vor ein paar Wochen schon mal da, aber sicher nicht in den letzten geschätzten (Pi mal Daumen) zwei Wochen. Die letzte Bearbeitung des Artikels datiert allerdings auf den 11. September. Er scheint irgendwie eine Weile vom Skript übergangen worden zu sein. Gruß --HS13 22:05, 27. Nov. 2010 (CET)

Personendaten fehlen

Diese Rubrik ist schon seit Tagen leer, obwohl es genug (auch genug neue) Artikel gibt, die dort aufgelistet werden sollten. Wer Geduld mitbringt, kann mal die Liste abarbeiten, die Catscan liefert: [13] --Schnark 12:42, 18. Nov. 2010 (CET)Abfrage auskommentiert, Ergebnis: --Ephraim33 14:28, 18. Nov. 2010 (CET) Auskommentierung zurückgenommen. --Ephraim33 18:13, 21. Nov. 2010 (CET)

Liste vom 18. November ist abgearbeitet.

Da die Liste zu erzeugen, bei mit erst erst beim xten Mal geklappt hat, stelle ich sie hierhin, damit nicht jeder die komplexe und zeitaufwändige Abfrage durchführen muss. --Ephraim33 14:28, 18. Nov. 2010 (CET)

Hier eine neue Liste: --Ephraim33 18:13, 21. Nov. 2010 (CET)

erledigt --Graphikus 16:40, 22. Nov. 2010 (CET)

Neue Liste: --Schnark 11:53, 25. Nov. 2010 (CET)

erledigt --Pelz 00:13, 26. Nov. 2010 (CET)

Neue Daten: --Graphikus 18:23, 30. Nov. 2010 (CET)

erledigt --Graphikus 17:16, 1. Dez. 2010 (CET)

Neue Daten: --Schnark 12:08, 7. Dez. 2010 (CET)

erledigt --Graphikus 18:29, 7. Dez. 2010 (CET)

Neuer Bot

Nur zu eurer Info, lest mal das hier. Nur damit sich nachher keiner wundert. -- sk 10:17, 9. Dez. 2010 (CET)

Hier mal ein Beispiel einer solchen generierten Wartungsliste mit Hinweisen zu fehlerhaften Personendaten. -- sk 11:01, 9. Dez. 2010 (CET)
Besser mal Wikipedia:Redaktion_Chemie/Arbeitslisten/allgemeine_Textbausteine als Beispiel anschauen. Da ist mehr los (größerer Artikelbereich) und die arbeiten auch immer einiges ab. Merlissimo 11:35, 9. Dez. 2010 (CET)

ID 141 Text ohne Semikolon vor dem Sterbezeichen

Hier sind (überwiegend) Fälle gelistet, wo nur das Sterbe- aber nicht das Geburtsdatum bekannt ist. Vor dem † in diesen Fällen ein Semikolon zu setzten halte ich für überflüssig um nicht zu sagen für falsch. M.E. sollten hier nur die Fälle auftauchen, die vorher ein * haben. Gruß --Pelz 22:42, 29. Nov. 2010 (CET)

Das Feld GEBURTSDATUM dürfte aber gefüllt sein (siehe Beschreibung), wenn der Artikel in der Liste auftaucht. Vielleicht sollten ungenaue GEBURTSDATUM (vor/nach/um) hier nicht beachtet werden. Der Umherirrende 18:28, 1. Dez. 2010 (CET)
Meiner Meinung nach sollte doch aber im Einleitungstext das ungenaue Geburtsdatum stehen als XY (* vor 567; † 577) was aber z.B. bei Vitalian nicht so ist. Im schlimmsten Fall steht dort das Jahrhundert also XY (* 6. Jahrhundert; † 577). -- sk 15:13, 10. Dez. 2010 (CET)

ID 88 – Geburts- oder Sterbeort fehlt im Text

Drei Fragen/Vorschläge:

  1. Wem muss dafür gedankt werden, dass dieser unübersichtliche Haufen von uneinheitlichen Schreibweisen und katastrophalen Fehlern zu einer mehr oder weniger leeren Rubrik geworden ist?
  2. "zwischen" sollte analog zu "bei" und "unsicher:" ignoriert werden, besser noch wäre es, in diesen Fällen nach dem zweiten Wort zu suchen
  3. Eigentlich halte ich es für angebracht, diesen Fehler als hohe Priorität einzustufen. --Schnark 12:18, 7. Dez. 2010 (CET)
Ich glaube, da darf man Pelz danken. Andim 21:40, 8. Dez. 2010 (CET)
Ich war es ganz sicher nicht alleine. Aber Danke für die "Blumen". Gruß --Pelz 00:13, 11. Dez. 2010 (CET)

Name ohne Leerzeichen (ID 26)

Bei diesem Fehler müsste es viel mehr (und vor allem automatisch) Ausnahmen geben, da gerade bei Personen aus der Antike Zusätze mit "von", "der", "aus" so verwendet werden, wie bei Artikeln über neuere Personen Klammerzusätze. Ich schlage daher vor, bei Personen, die vor 1000 lebten und ein "von", "der", "aus" im Lemma tragen als Ausnahme zu deklarieren. --Schnark 09:49, 18. Dez. 2010 (CET)

Nachtrag: Das betrifft natürlich auch ID 252: Name mit fehlenden Buchstaben. --Schnark 10:12, 18. Dez. 2010 (CET)

Philippe Perrenoud (Kategorie mit Nationalität fehlt)

Der Artikel wird unter Portal:Bern/Wartung gemeldet. IMHO zu Unrecht, da er in Kategorie:Kantonspolitiker (Bern), die ihrerseits im Kategoriebaum Schweizer ist, enthält. --Leyo 17:44, 20. Dez. 2010 (CET)

Laut Kategorie:Politiker nach Staat sollen Staatsangehörigkeit und Funktion klar getrennt sein. Kategorie:Politiker (Schweiz) ist ein Unterkat, die eine andere Obkat besitzt, die zu Kategorie:Person nach Staatsangehörigkeit gehört. Bei Kategorie:Politiker (Deutschland) ist dies nicht der Fall. Aber Schweiz ist nicht die einzige Kat, die das so macht: [14]
Vielleicht mal im WikiProjekt Politiker fragen, wie man das nun durchziehen will. Merlissimo 23:07, 20. Dez. 2010 (CET)
Danke, ich wollte auch grad… --Leyo 23:16, 20. Dez. 2010 (CET)

Name versus Defaultsort

Die Liste scheint nicht komplett abarbeitbar zu sein. Neben den "Maler von" gibt es auch reverts von Änderungen, die auf dieser Liste basieren. Wie ist es richtig? Ist es in Ordnung, wenn Name und Katsortierung in der Reihenfolge abweichen? Vielen Dank. Der Umherirrende 19:50, 20. Dez. 2010 (CET)

Der Verlinkte revert ist ja kommentarlos geschehen. Sprich doch mal den Benutzer auf den Revert an. Vielleicht kann er uns hier kurz erklären warum das so seiner Meinung nach sein sollte. Kenn mich mit den Namen der alten Römer zu wenig aus. -- sk 11:28, 21. Dez. 2010 (CET)
Ich habe ihn angeschrieben: Benutzer Diskussion:Tolanor#Römische Namen und die Reihenfolge bei Kategoriesortierung sowie in den Personendaten. Nach Hilfe:Kategorien#Besonderheiten bei Personennamen gibt es bei Personen der Antike keinen Nachnamen, somit müsste kein Komma in PD-Name und Kategoriesortierung auftauchen. Der Umherirrende 21:10, 21. Dez. 2010 (CET)
Na ja, so einfach ist dieses bei den römischen Namen aber auch nicht. Sie gehören zwar zur Antike haben aber eine eigene Hilfe. Unter Hilfe:Personendaten/Name#Antikes Rom nachzulesen. Da ich für die, aus heutiger Sicht, verunglückte Bearbeitung der Personendaten verantwortlich bin, wollte ich dieses hier anbringen. Ich war von der ersten Erklärung ausgegangen. Also Ansetzung unter dem mittleren Namen. Ich vermute einmal nach dem Revert, dass Isidor der bekanntere Name ist und aus diesem Grunde auch unter diesem Namen angesetzt werden sollte. Da mir aber auch die "Römer" ein Buch mit sieben Siegeln sind, habe ich schon seit Monaten diese Artikel gemieden :-) Eine Erklärung von Tolanor wäre auch für mich sehr begrüßenswert!--Silke Ewering 22:58, 21. Dez. 2010 (CET)

Datenfeld beginnt mit Gleichheitszeichen

Ich habe gerade das gefunden: Ein Datenfeld fängt mit einem Gleichheitszeichen an. Ich denke, da gibt es keine sinnvolle Verwendung für. Bitte vorher Leerzeichen wegtrimmen. Vielen Dank. Der Umherirrende 00:40, 31. Dez. 2010 (CET)

Auf ToDo-Liste gesetzt. Der Umherirrende 19:16, 2. Jan. 2011 (CET)

Datenfeld enthält Zeilenumbruch

Ein Zeilenumbruch innerhalb eines Datenfeldes ist unnötig (Beispiel). Der Umherirrende 15:04, 31. Dez. 2010 (CET)

Auf ToDo-Liste gesetzt. Der Umherirrende 19:16, 2. Jan. 2011 (CET)

Erstmals seit langer Zeit wieder unter 10.000 Fehler

--Ephraim33 11:21, 9. Nov. 2010 (CET)

Das können wir sicher ganz schnell ändern: Alle Artikel mit Personenkats einbauen, die kein Defsort bzw. Sortierung haben.... --Pelz 20:35, 15. Nov. 2010 (CET)
Dafür haben wir doch den Fehler 242 "Kategoriensortierung fehlt", Andim 21:22, 15. Nov. 2010 (CET)
Ich glaube einfach nicht, dass wir nur (aktuell) 4 Personenarktikel haben, die keinen Defsort haben. Ich schätze die Anzahl wohl auf >30.000. Es wäre zu schön, wenn ich mich gewaltig irren würde. Gruß --Pelz 22:06, 15. Nov. 2010 (CET)
Eine ähnliche Diskussion wurde schon mal angerissen. Siehe hier. Gruß --HS13 22:58, 15. Nov. 2010 (CET)
Meiner Meinung nach braucht nicht jeder Personenartikel ein DEFAULTSORT, sondern nur die Artikel, die in NAME ein Komma haben und nicht in jeder Kategorie durch "|" einsortiert werden, und dies wird im Fehler 242 überprüft. Andim 23:03, 15. Nov. 2010 (CET)
Erst mal vielen Dank an alle Helfer, dass die tausenden Probleme in den Personendaten behoben wurden. Ich denke mal wir werden die Liste nie wirklich vollständig auf null bekommen, da wir ja auch täglich neue Artikel hinzubekommen. Deswegen hab ich ja auch diese Tool gestrickt, weil uns diese Probleme auch in Zukunft ja treffen werden. Der derzeitige Tiefstand des Zählers hat drei Ursachen. Erstens natürlich die unermüdliche Abarbeitung durch euch. Zweitens das es derzeit hier keine neuen Dumps gibt und drittens ich einen Umzug hinter mir habe bei dem ich fast 2 Monate keinen Internetzugang hatte. Dank Förderverein Bürgernetz Dresden e.V. bin ich jetzt wieder online und hab am Wochenende mal ein paar alte Dinge aus dem Archive abgearbeitet. Wenn euch also was auf den Nägeln brennt haut es hier einfach noch mal in der Diskussion erneut rein. Hab es nicht absichtlich unterschlagen. -- sk 11:12, 16. Nov. 2010 (CET)
Ja, auch von mir mal Dank an die Helfer! Ich kann sagen, dass ich inzwischen viele Personendatenbanken gesehen habe und inzwischen hat die Wikipedia eine der qualitativ hochwertigsten Datenbanken. --APPER\☺☹ 17:33, 17. Nov. 2010 (CET)
Ich möchte nochmal auf meine Bemerkung mit den fehlenden Sortierungen zurückkommen. Bei meiner Abarbeitung fallen mir immer wieder Artikel ohne Kat-Sortierung auf, die durchaus eine gebrauchen könnten (Name, Vorname) aber nicht in ID 242 gelistet waren. Wenn es nicht zuviel Mühe macht, könnte Stefan vielleicht mal nur so zur Probe einen entsprechenden Test mit Artikel machen, die Personenkats habe und wo Name Komma Vorname vorhanden sind. Da bin ich mal sehr gespannt, was dabei rauskommt. --Pelz 21:49, 30. Dez. 2010 (CET)
Kannst Du bitte mal ein Beispiel nennen, mich interessiert, warum dies nicht durch Fehler 242 abgefangen wird. Andim 22:02, 30. Dez. 2010 (CET)
Kann ich leider nicht, mir ist das 3-4x bei meiner heutigen Abarbeitung begegnet. Nach meiner Erinnerung waren das alles Fälle, wo auch keine Sortierung hinter jeder Kat eingefügt war. Lassen wir doch SK mal einfach eine entsprechende Auswertung machen. Wenn dabei nichts herauskommt, ich also "gefühlt" danebenliege, spende ich am Sonntag ein Kerze in der Kirche und ritze WP rein! --Pelz 23:43, 30. Dez. 2010 (CET)
Ich habe gerade mal ein Beispiel gefunden. Der Umherirrende 22:41, 30. Dez. 2010 (CET)
Hier hätte beim nächsten Durchlauf der Fehler 242 angeschlagen. In dieser Version sind alle Kategorien richtig sortiert (auch ohne SORTIERUNG), durch diese Änderung kommt der Fehler, den das Skript beim nächsten Durchlauf erkennt. Es ist die Frage, wollen wir Artikel ohne SORTIERUNG, bei denen in allen Kategorien einzeln sortiert wird, als Fehler betrachten oder nicht. Andim 22:53, 30. Dez. 2010 (CET)
Wenn jede Kategorie einzeln die Sortierung hat, ist das völlig in Ordnung und sollte nicht als Fehler gewertet werden, das macht nur unnötig Arbeit. Ist natürlich Ärgerlich, wenn jemand nachher eine Kategorie ohne Sortierung anfügt. Ich denke aber eher, das häufig eine Kategorie mit Sortierung oder sofort SORTIERUNG gesetzt wird, als das es sich lohnt das zu ändern. Die oben genannte und 36 weitere Konstellationen hatte ich im Dump vom 13.10.2010 gefunden. Ich weiß leider nicht, welcher der letzte zugrunde liegende Dump hier ist. Wenn es der vom 03.09.2010 oder eher ist, möchte ich nichts gesagt haben, aber im Dump vom 02.10.2010 oder vom 13.10.2010 hätte die Konstellation gefunden werden können. Der Umherirrende 23:22, 30. Dez. 2010 (CET)
Momentan wird der Dump vom 15. August verwendet, ich habe Stefan schon gebeten, den Dump vom 13. Oktober einzuspielen. Bald soll es auch wieder neue Dumps geben. Ich bin auch der Meinung, dass es es in Ordnung ist, wenn in jeder Kategorie einzeln sortiert wird. Wenn dann jemand eine weitere Kategorie ohne Sortierung einfügt, wird es spätestens beim nächsten Dump entdeckt. Andim 23:40, 30. Dez. 2010 (CET)
Dieser Abschnitt kann archiviert werden. sk 21:30, 11. Jan. 2011 (CET)

ID 155 Text ohne Geburts- oder Sterbedatum

Ich habe eine Reihe von Fällen wie in Anatole France gefunden. Beide Daten sind richtig im Text und in den PD. Allerdings finde ich vor dem *: Anatole France (François Anatole Thibault; in Kursiv. Da scheint mir vielfach das Problem zu liegen. Es stellt sich die Frage, ob nach dem ; eine geschlossene Klammer und vor dem * ein öffnende Klammer eingefügt werden sollte um evtl. damit den Fehler zu umgehen. Besser wäre natürlich, wenn solch ein "Vorspann" vom Script gehändelt werden könnte. Gruß --Pelz 22:31, 29. Nov. 2010 (CET)

Man sollte vielleicht auch "; *", ", *", "; *", ", *" erlauben. Andim 11:29, 18. Dez. 2010 (CET)
Also ich hab mal noch vier weitere Sachen eingebaut.
					and index($text ,"''; *") == -1
					and index($text ,"'', *") == -1
					and index($text ,"'''; *") == -1
					and index($text ,"'''; *") == -1
Dabei ist mir wichtig, das das Semikolon/Komma erst nach dem Ende von der Formatierung kommen darf. Wenn also in Anatole France das Semikolon verschoben wird, dann passt es. -- sk 21:43, 11. Jan. 2011 (CET)

ID 267

Ich sehe keinen Fehler z.B. in Roger Federer, Stefan Edberg und Daniela Hantuchová. Allerdings sind das alles Tennisspieler. Brauche ich eine neue Brille? --Pelz 23:27, 2. Dez. 2010 (CET)

Jetzt habe ich noch ein paar Tennisspieler in der Liste gesichtet. Spielt die Infobox dem Script hier einen Streich? --Pelz 23:38, 2. Dez. 2010 (CET)
Ich glaube schon, das Skript sucht nach dem ersten fett geschriebenen Ausdruck, und das ist bei den Tennisspielern das "S" in der Infobox. Andim 08:22, 3. Dez. 2010 (CET)
Eigentlich müsste hier die Vorlage der Tennisspieler angepasst werden, da die Formatierung niemals in den Daten abgelegt werden sollte. Ich werde die jetzt einfach mal kurzerhand ausschließen bei dem Fehler. -- sk 15:04, 10. Dez. 2010 (CET)
Da sind aber noch andere Vorlagen problematisch. Überall wo irgendwas von Hand fett in der Vorlage formatiert wird. -- sk 15:08, 10. Dez. 2010 (CET)

Ein anderes Problem gibt es bei Weiterleitungen, dort gibt es ja keinen Artikeltext, also sollten Weiterleitungen bei diesem Fehler herausgenommen werden. Andim 08:22, 3. Dez. 2010 (CET)

Hast du mal ein Beispiel für die Weiterleitung? -- sk 15:09, 10. Dez. 2010 (CET)
Z.B. Maria Knapp oder Will Champion, Andim 16:42, 10. Dez. 2010 (CET)
Ok, das sollte einfach einzubauen sein. -- sk 17:31, 10. Dez. 2010 (CET)

Heute habe ich ein paar Einträge gefunden, wo ich nicht erkennen konnte, warum die hier gelistet sind, z.B. Wilhelm Bahlburg, Friedrich Bogislav von Tauentzien --Pelz 23:03, 7. Dez. 2010 (CET)

Das liegt am Leerzeichen vor oder hinter dem Namen, welches noch innerhalb des Fettdrucks ist. Gruß --HS13 01:58, 8. Dez. 2010 (CET)
Ach so, da hätte ich ja auch draufkommen können. Danke. --Pelz 13:56, 8. Dez. 2010 (CET)

Ich schlage zur Behebung vor, den Code ab der Definition von $test_3 zu ersetzen durch

my $test_3 = $text;

$test_3 =~ s/\{\{\s*Infobox\b([^{}]*\{\{[^{}]*\}\})*[^{}]*\}\}//i; #remove infoboxes
$test_3 =~ m/(\'\'\'(.*)\'\'\')/;		#get title from articletext
my $text_title = '';
$text_title = $1 if ($1);

#problem arabic names --> manual get secound ''''
$text_title =~ s/\'\'\'//;				# first '''
my $pos= index($text_title, "'''");
$text_title = substr($text_title, 0 , $pos);

$text_title =~ s/^\s+//;
$text_title =~ s/\s+$//;

my $notice = $test_title.' vs. '.$text_title;

if ($text_title ne $test_title and $text_title ne '') {
	fehlermeldung($error_code, $title, $notice);
}

Dieser Code entfernt Infoboxen (dürfen selbst auch Vorlagen enthalten, nur nicht verschachtelt), führende und abschließende Leerzeichen und meckert nur, wenn es tatsächlich einen fetten Text gibt. Der reguläre Ausdruck für das Entfernen der Infoboxen sieht zwar seltsam aus, funktioniert aber in meinem Skript problemlos. --Schnark 09:26, 15. Dez. 2010 (CET)

Wenn es keinen fetten Text gibt, sollte meiner Meinung nach ein Fehler ausgegeben werden. Andim 13:53, 16. Dez. 2010 (CET)

Verlinkungen im Fettdruck tauchen auch bei ID267 auf. Gruß --HS13 00:28, 17. Dez. 2010 (CET)

@Andim: Das war eigentlich für den Fall mit den Weiterleitungen gedacht. Statt der letzten drei Zeilen wäre aber in der Tat
if ($text_title ne $test_title and not $text =~ /#(weiterleitung|redirect)/i) {
	fehlermeldung($error_code, $title, $notice);
}
besser geeignet. --Schnark 09:42, 18. Dez. 2010 (CET)
Es sollte noch der mögliche Namensraumpräfix für Vorlagen beachtet werden: $test_3 =~ s/\{\{[\s_]*(?:(?::[\s_]*)?(?:template|vorlage)[\s_]*:[\s_]*)?Infobox\b([^{}]*\{\{[^{}]*\}\})*[^{}]*\}\}//i. Außerdem kann man Unterstriche und Leerzeichen gleichermaßen verwenden. Der Umherirrende 10:55, 4. Jan. 2011 (CET)

Es tauchen immer noch Artikel in dieser Rubrik auf die m.E. ok sind aber eine Infobox haben. Stefan, könntest Du das bitte nochmal prüfen? Danke und an alle hier fleißig mitarbeitenden Kolleginnen und Kollegen einen guten Rutsch. Gruss --Pelz 21:07, 30. Dez. 2010 (CET)

Neben den Infoboxen und Weiterleitungen gibt es noch das Problem, dass teilweise Leerzeichen nicht korrekt verarbeitet werden. Beispiel: Martin Schwanholz. Im Einleitungssatz steht ein Leerzeichen zwischen ''' und Namen. Das ist soweit korrekter Wiki-Syntax und rechtfertigt keine Änderung. Eine Art Trim-Befehl wäre also wohl nicht schlecht. --APPER\☺☹ 22:10, 30. Dez. 2010 (CET)

 Ok, ich hab da mal eure Vorschläge eingebaut. Mal schauen wie es morgen aussieht. -- sk 21:10, 11. Jan. 2011 (CET)
Bei zu tief verschachtelten Vorlagen funktioniert der reguläre Ausdruck natürlich so nicht: Sven Hannawald, aber falls das nicht zu viele sind, kann man es vermutlich verschmerzen. --Schnark 09:44, 12. Jan. 2011 (CET)

Aktueller Dump

Hallo Stefan, gemäß [15] dauert es noch etwas länger, bis es neue Dumps gibt. Könntest Du vielleicht das Skript nochmal über den letzten vorhandenen Dump laufen lassen, damit die neuen und veränderten Fehler auf allen Artikeln überprüft werden. Viele Grüße, Andim 22:53, 9. Dez. 2010 (CET)

Kann ich am Wochenende mal starten. -- sk 10:34, 10. Dez. 2010 (CET)
Hab das gerade mal gestartet. Der letzte Dump auf dem Toolserver ist vom 15.8.2010 Hoffentlich hilft das. -- sk 14:08, 12. Dez. 2010 (CET)
So in dem Dump vom August waren 68680 Verbesserungsvorschläge. Mal schauen wieviel daon noch nach dem Abgleich mit der Live-Wikipedia übrig bleiben. -- sk 18:13, 12. Dez. 2010 (CET)
Ok, sind also fast 40000 übrig geblieben. Viel Spaß. -- sk 19:47, 12. Dez. 2010 (CET)
Immerhin scheint dabei auch der Fehler unter #ID 7 - Kategorien fehlen verschwunden zu sein. --Schnark 10:00, 14. Dez. 2010 (CET)
Zumindest kann man die alten Dumps wieder herunterladen. Unter [16] ist der neuste Dump von de (13. Oktober) zu finden. Andim 13:50, 16. Dez. 2010 (CET)
Ohh, schön, da muss ich am Wochenende wohl nochmal ran. -- sk 17:53, 17. Dez. 2010 (CET)
Hallo Stefan! Schaffst Du es dabei irgendwie ein paar der hier auf der Diskussion aufgeführten Probleme zu lösen und Ausnahmen einzubauen? Leider sind gefühlt einige 1000 von den über 30000 Vorschlägen gar keine Fehler. Danke und Gruß --HS13 19:15, 18. Dez. 2010 (CET)
Hallo HS13, ich habe ein sehr begrenzten Freizeit, da ich als pflegender Angehöriger wichtigeren Dingen Vorrang gewähren muss. Ich versuche alles zeitnah einzubauen, aber manche Dinge sind nur schwer in Quellcode zu gießen. Wenn dir was unter den Nägeln brennt, einfach immer auf dieser Diskussionseite als neue Überschrift einbauen, denn sonst kann ich manchmal was vergessen. In der Weihnachtszeit komme ich vielleicht wieder zu einigen Änderungen. -- sk 11:26, 21. Dez. 2010 (CET)
Ein "neuer" ist auch schon in Arbeit, braucht aber wohl noch etwas. Der Umherirrende 18:39, 17. Dez. 2010 (CET)
Dieser war in Arbeit, als das System am 10.11. down ging. Wenn irgendwann wieder neue Dumps produziert werden, wird dieser sicherlich nicht fertiggestellt, sondern ein neuer begonnen. Andim 20:19, 17. Dez. 2010 (CET)
Stimmt, die Zahlen dort ändern sich nicht. Ich dachte, das der Prozess dort weiter macht, wo er aufgehört hat, da ich "Dump process is idle." auf der Seite übersehen hatte. Der Umherirrende 10:31, 18. Dez. 2010 (CET)
Dieser Abschnitt kann archiviert werden. sk 21:25, 11. Jan. 2011 (CET)

Alternativname fehlt, Sonderfall Klammerlemma

Laut WP:PD hat Heinrich Smidt (Senator) korrekte PD-Einträge - wird hier aber angemeckert. --Quarz 21:44, 11. Dez. 2010 (CET)

Das Problem waren die Leerzeichen ''' Heinrich Smidt ''' statt '''Heinrich Smidt''' , Andim 22:14, 11. Dez. 2010 (CET)
Dieser Abschnitt kann archiviert werden. sk 21:43, 11. Jan. 2011 (CET)

Sándor Végh

Moin, Sándor Végh wird als "Kategorie mit Nationalität fehlt" markiert, obwohl er als "Ungarischer Musiker" und "Österreichischer Musiker" klassifiziert ist. Warum? --Flominator 11:24, 19. Dez. 2010 (CET)

Weil in der Kurzbeschreibung "französischer Dirigent" steht. Das Skript sucht vergeblich nach einer französischen Kategorie. Andim
Wo liest du "französisch"? --Flominator 11:58, 19. Dez. 2010 (CET)
Wie ich sehe, hast Du es gefunden. Andim 12:14, 19. Dez. 2010 (CET)
Dieser Abschnitt kann archiviert werden. sk 07:50, 12. Jan. 2011 (CET)

Neuer Vorschlag: Nationalität in Beschreibung, aber keine entsprechende Kategorie

Ein neuer Vorschlag: KURZBESCHREIBUNG beginnt mit einer Nationalität, aber keine entsprechende Kategorie ist vorhanden. Dies ist etwas komplizierter zu programmieren, da z.B. bei einer Kurzbeschreibung mit "deutsch" in den Kategorien nach "Deutscher" oder "Deutschland" gesucht werden muss. Wenn Du den Fehler implementieren willst, kann ich Dir eine Liste mit den Adjektiven und entsprechenden Ländern erstellen. Andim 21:34, 15. Nov. 2010 (CET)

Oje, das ist sicherlich ein ganz heißes Eisen was du dort ausgräbst. Willst du das wirklich? ;-) Generell gebe ich dir recht. So sollte es sein, aber dann hab ich wieder das praktisch/technische vor Augen. War Nikolaus Kopernikus Pole? Und wie filtere ich die Kategorie:Sportler (Dresden) und ähnliche ordentlich heraus. Eine statische Liste ist blöd, da auf Dauer fehlerträchtig. Ist jeder "Sportler (Dresden)" ein Deutscher? Oder gibt es vielleicht einen Vietnamesen/Kongolesen/... der bei Dynamo Dresden spielt? Wie gesagt ganz heißes Eisen was du da ausbuddelst. Bin gespannt auf weitere Anmerkungen dazu. -- sk 11:21, 16. Nov. 2010 (CET)
Vielleicht sollten wir erstmal die letzten 1000 von Kurzbeschreibung ohne Nationalität abarbeiten. Dort sind noch viele Tretminen. -- sk 11:24, 16. Nov. 2010 (CET)
Anmerkungen kann ich geben ;). Wenn möglich sollen alle Personen in einer Unterkategorie von Kategorie:Person nach Staatsangehörigkeit stehen, insofern ist die Thematik der Unterkategorien recht unproblematisch. Bei Sportlern ist es z.B. bis auf Japaner so, dass diese sich innerhalb der Nationalitätenkategorien befinden (also zumindest sowas wie "Tennisspieler (Deutschland)"), da diese ja nur für das Land antreten können, deren Nationalität sie haben. Bei Politikern wiederum ist es andersrum: die tauchen nicht unterhalb der Nationalitätenkategorien auf.
Was du aber korrekt erwähnst: wie handhabt man das mit Nikolaus Kopernikus? Der ist nichtmal so problematisch, der ist in den Kategorien Pole und Deutscher. Aber es gibt vor allem bei alten Personen echte Probleme. Ist ein sächsischer Herzog von 1200 "Deutscher"? Bei den Serben/Jugoslawen etc. wirds nochmal komplizierter. Oder "schlesischer ..." oder "jiddischer ...".
Trotzdem ist das ein echtes Problem. Ich gehe immer mal wieder einzelne Geburtstage oder Nationalitäten durch und ergänze großflächig, aber es gibt noch einige Lücken. Meine Personensuche zeigt ja die Nationalitäten an, es ist daher recht einfach, darüber fehlende Zuordnungen zu finden. Beispiel: hessische Politiker. Unabhängig davon, dass man sagen könnte "hessischer Politiker" ist keine gute Kurzbeschreibung, weil die Nationalität rein soll (was ich nicht finde), ist klar, dass die Kategorie:Deutscher rein soll, fast alle sind auch nach 1800 geboren, wo sowas okay ist. Die entsprechende Suche zeigt, dass am Anfang ziemlich viele Personen die Zuordnung haben (weil ich das letztens mal gemacht habe). Guckt man sich aber die nach 1916 an, sieht man, dass gefühlten 90% die Kategorie fehlt. Da gibt es ohne Ende zu tun.
Ich bin nicht unbedingt der Meinung, dass du dir da großen Programmieraufwand aufladen musst, da man mit meiner Personensuche jederzeit hunderte solcher Edits machen kann. Natürlich habe ich nirgends eine "Liste fehlender Nationalitätenzuordnungen" und eine vollständige Fehlerzahl in deinem Tool ist auch was gutes. Insofern: nötig ist es, aber man muss aufpassen. Ich denke aber z.B. für nach-1900-geborene ist das eine machbare Sache, davor zumindest schwierig bzw. sehr abhängig vom Land. --APPER\☺☹ 22:53, 16. Nov. 2010 (CET)
Kopernikus ist bei meinem Vorschlag kein Problem, da die Kurzbeschreibung nur "Astronom" lautet. Mein Vorschlag bezieht sich nur auf Personen, bei denen das erste Wort in der Kurzbeschreibung ein Nationaladjektiv ist, also z.B. deutscher Maler, Schweizer Mathematiker, u.s.w, also kein hessischer Politiker. Jene Personen sollten also eine Kategorie haben, die "deutsch" oder "Deutschland" bzw. "Schweizer" oder "Schweiz" enthält. Mein Vorschlag bezieht sich also nur auf die einfachen Fällen. Normalerweise sollte ein Dresdner Sportler beispielsweise die Kurzbeschreibung "deutscher Fußballspieler" haben, dann gehört er aber auch in die Kategorie "Fußballspieler (Deutschland)", also müsstest Du nicht filtern. So wie ich mir das vorstelle, brauchst Du eine Liste mit den Nationaladjektiven und den dazugehörigen Ländern, wenn das erste Wort in der Kurzbeschreibung ein Nationaladjektiv ist, prüfst Du ob in den Kategorien dieses Adjektiv oder das entsprechende Land vorkommt, falls nicht wird ein Fehler ausgegeben. Andim 00:04, 17. Nov. 2010 (CET)
Ok, ich probier das mal aus. -- sk 09:09, 17. Nov. 2010 (CET)
Eine Liste der Adjektive und Staaten gibt es unter Wikipedia:NK/S. Wenn Du mir sagst, in welchem Format Du die Daten haben willst, kann ich sie Dir erstellen. Andim 10:06, 17. Nov. 2010 (CET)
Ok, ich hab das eingebaut. Lass es nachher gleich mal durchlaufen. Die Form in der ich es brauche sieht so aus:
					# zuerst das Suchwort für die Kurzbeschreibung, dann alle Wörter die möglicherweise in den Kategorien auftauchen
					$i++; $array_land[$i] = 'dänisch, Däne, Dänin, Dänemark';
					$i++; $array_land[$i] = 'deutsch, Deutscher, Deutschland, DDR';
					$i++; $array_land[$i] = 'französisch, Franzose, Frankreich';
					$i++; $array_land[$i] = 'nigerianisch, Nigerianer, Nigeria';
					$i++; $array_land[$i] = 'polnisch, Pole, Polen';
					$i++; $array_land[$i] = 'niederländisch, Niederländer, Niederlande';
					$i++; $array_land[$i] = 'Schweizer, Schweiz, schweizerisch';
					$i++; $array_land[$i] = 'schweizerisch, Schweiz, Schweizer';
					$i++; $array_land[$i] = 'ungarisch, Ungar, Ungarn';
					$i++; $array_land[$i] = 'US-amerikanisch, US-Amerikaner, USA, Vereinigte Staaten';
Dadurch findet man dann fix Leute wie Arno Faust oder Alba Rohrwacher. @Admin, wäre hilfreich, wenn du mir die Liste hier vervollständigst. Danke im Vorraus! -- sk 10:28, 17. Nov. 2010 (CET)
Eingebaut (268). Warte nun auf mehr Suchwörter. -- sk 10:41, 17. Nov. 2010 (CET)
Ich habe bei "deutsch" mal DDR eingefügt, da alle Sportler (DDR) automatisch in der Kategorie:Deutscher sind. --APPER\☺☹ 17:34, 17. Nov. 2010 (CET)
Ergänzung: das sind echt viele, also ohne die Ausfilterung von DDR gibts da viele Falschmeldungen. Kannst du übrigens auf der Ergebnisseite wie [17] die Gesamtanzahl anzeigen? --APPER\☺☹ 17:35, 17. Nov. 2010 (CET)
Hm, es wird kompliziert. Da du nicht den Kategorienbaum nimmst, sondern nach bestimmten Wörtern guckst, sind die Vorschläge nicht ganz korrekt. Z.B. sollten alle in der Kategorie:Politiker (Deutschland) angezeigt werden, werden sie aber derzeit nicht. Wie erwähnt, ist "Politiker (Deutschland)" nicht ausreichend für eine Nationalitätenzuordnung. Das einfachste wäre: es werden alle Personen angezeigt, die ein entsprechendes Wort haben ("deutsch", "US-amerikanisch"), aber in keiner der Unterkategorien der Kategorie:Person nach Staatsangehörigkeit sind. Eine Liste aller Unterkategorien erstelle ich wöchentlich und ist auf dem Toolserver in /home/apper/pd_update/country_categories.php zu finden (PHP-Format, aber das sollte leicht einlesbar sein). --APPER\☺☹ 17:44, 17. Nov. 2010 (CET)
Ok, dann hatte ich das falsch verstanden. Ich dachte Kategorie:Politiker (Deutschland) ist eine Nationalitätenzuordnung. Du möchtest also das bei jedem der "Kategorie:Politiker (Deutschland)" auch die "Kategorie:Deutscher" drin steht. Oder anders gesagt, jeder muss mindestens einer Kategorie aus Kategorie:Person nach Staatsangehörigkeit haben. Ich hatte oben das mit der "Kategorie:Fußballer (Deutschland)" eben so verstanden, dass das ausreicht zu Nationaltitätsbestimmung. Bevor ich jetzt hier weitermache, muss das erstmal genau geklärt werden, damit ich da nicht doppelt arbeit reinstecke. -- sk 19:17, 17. Nov. 2010 (CET)
Fast. Es ist eben viel komplizierter ;). Nicht jeder muss direkt in einer Unterkategorie von Kategorie:Person nach Staatsangehörigkeit stehen, also nicht bei jedem muss "Kategorie:Deutscher" drinstehen, es reicht, wenn er in einer Unterkategorie davon steht. Kategorie:Fußballspieler (Deutschland) ist in der Kategorie:Sportler (Deutschland), die in der Kategorie:Deutscher ist. Deshalb muss bei allen, die in der Kategorie:Fußballspieler (Deutschland) sind nichts getan werden. Dies betrifft größtenteils alle Sportler. Die, die aber in der Kategorie:Politiker (Deutschland) stehen, sind nicht in der Kategorie:Deutscher. Für Deutschland gesprochen: alle, die in keiner Unterkategorie von Kategorie:Deutscher sind, aber mit "deutsch*" anfangen, benötigen zusätzlich die Kategorie:Deutscher. Der viel einfachere Schritt wäre, die Kategorie:Politiker (Deutschland) mit der Kategorie:Deutscher zu versehen - aber da haben die Politik- und Kategorie-Experten viel drüber diskutiert und sind zu dem Schluss gekommen, dass das halt nicht zutrifft. Genauso wie es den Konsens gibt, dass "Sportler (Japan)" nicht in der Kategorie:Japaner ist. Wir stecken da nicht in der Materie sondern müssen uns einfach an die vorhandene Kategorienstruktur halten. Vor allem ist es halt nicht möglich, sofort am Kategoriennamen zu sehen, ob jemand eine Nationalitätenkategorie hat oder nicht. Z.B. ist auch die Kategorie:Mitglied einer Sportfördergruppe der deutschen Polizei direkt unterhalb der Kategorie:Deutscher - und dort muss nichts ergänzt werden. --APPER\☺☹ 14:36, 19. Nov. 2010 (CET)

Hier mal die erstmal vollständige Liste:

$i++;$array_land[$i] = 'afghanisch, afghanisch, Afghane, Afghanistan';
$i++;$array_land[$i] = 'ägyptisch, ägyptisch, Ägypter, Ägypten';
$i++;$array_land[$i] = 'albanisch, albanisch, Albaner, Albanien';
$i++;$array_land[$i] = 'algerisch, algerisch, Algerier, Algerien';
$i++;$array_land[$i] = 'andorranisch, andorranisch, Andorraner, Andorra';
$i++;$array_land[$i] = 'angolanisch, angolanisch, Angolaner, Angola';
$i++;$array_land[$i] = 'antiguanisch, antiguanisch, Antiguaner, Antigua';
$i++;$array_land[$i] = 'äquatorialguineisch, äquatorialguineisch, Äquatorialguineer, Äquatorialguinea';
$i++;$array_land[$i] = 'argentinisch, argentinisch, Argentinier, Argentinien';
$i++;$array_land[$i] = 'armenisch, armenisch, Armenier, Armenien';
$i++;$array_land[$i] = 'aserbaidschanisch, aserbaidschanisch, Aserbaidschaner, Aserbaidschan';
$i++;$array_land[$i] = 'äthiopisch, äthiopisch, Äthiopier, Äthiopien';
$i++;$array_land[$i] = 'australisch, australisch, Australier, Australien';
$i++;$array_land[$i] = 'bahamaisch, bahamaisch, Bahamaer, Bahamas';
$i++;$array_land[$i] = 'bahrainisch, bahrainisch, Bahrainer, Bahrain';
$i++;$array_land[$i] = 'bangladeschisch, bangladeschisch, Bangladescher, Bangladesch';
$i++;$array_land[$i] = 'barbadisch, barbadisch, Barbadier, Barbados';
$i++;$array_land[$i] = 'belarussisch, belarussisch, Weißrusse, Weißrussland';
$i++;$array_land[$i] = 'weißrussisch, weißrussisch, Weißrusse, Weißrussland';
$i++;$array_land[$i] = 'belgisch, belgisch, Belgier, Belgien';
$i++;$array_land[$i] = 'belizisch, belizisch, Belizer, Belize';
$i++;$array_land[$i] = 'beninisch, beninisch, Beniner, Benin';
$i++;$array_land[$i] = 'bhutanisch, bhutanisch, Bhutaner, Bhutan';
$i++;$array_land[$i] = 'bolivianisch, bolivianisch, Bolivianer, Bolivien';
$i++;$array_land[$i] = 'bosnisch, bosnisch, Bosnier, Bosnien';
$i++;$array_land[$i] = 'bosnisch-herzegowinisch, bosnisch-herzegowinisch, Bosnier, Bosnien';
$i++;$array_land[$i] = 'botsuanisch, botsuanisch, Botsuaner, Botswana';
$i++;$array_land[$i] = 'brasilianisch, brasilianisch, Brasilianer, Brasilien';
$i++;$array_land[$i] = 'bruneiisch, bruneiisch, Bruneier, Brunei';
$i++;$array_land[$i] = 'bulgarisch, bulgarisch, Bulgare, Bulgarien';
$i++;$array_land[$i] = 'burkinisch, burkinisch, Burkiner, Burkina';
$i++;$array_land[$i] = 'burundisch, burundisch, Burundier, Burundi';
$i++;$array_land[$i] = 'chilenisch, chilenisch, Chilene, Chile';
$i++;$array_land[$i] = 'chinesisch, chinesisch, Chinese, China';
$i++;$array_land[$i] = 'costa-ricanisch, costa-ricanisch, Costa-Ricaner, Costa Rica';
$i++;$array_land[$i] = 'dänisch, dänisch, Däne, Dänemark';
$i++;$array_land[$i] = 'deutsch, deutsch, Deutscher, Deutschland, DDR';
$i++;$array_land[$i] = 'dominicanisch, dominicanisch, Dominicaner, Dominica';
$i++;$array_land[$i] = 'dschibutisch, dschibutisch, Dschibutier, Dominikanische';
$i++;$array_land[$i] = 'ecuadorianisch, ecuadorianisch, Ecuadorianer, Ecuador';
$i++;$array_land[$i] = 'ivorisch, ivorisch, Ivorer, Elfenbeinküste';
$i++;$array_land[$i] = 'salvadorianisch, salvadorianisch, Salvadorianer, Salvador';
$i++;$array_land[$i] = 'eritreisch, eritreisch, Eritreer, Eritrea';
$i++;$array_land[$i] = 'estnisch, estnisch, Este, Estland';
$i++;$array_land[$i] = 'fidschianisch, fidschianisch, Fidschianer, Fidschi';
$i++;$array_land[$i] = 'finnisch, finnisch, Finne, Finnland';
$i++;$array_land[$i] = 'französisch, französisch, Franzose, Frankreich';
$i++;$array_land[$i] = 'gabunisch, gabunisch, Gabuner, Gabun';
$i++;$array_land[$i] = 'gambisch, gambisch, Gambier, Gambia';
$i++;$array_land[$i] = 'georgisch, georgisch, Georgier, Georgien';
$i++;$array_land[$i] = 'ghanaisch, ghanaisch, Ghanaer, Ghana';
$i++;$array_land[$i] = 'grenadisch, grenadisch, Grenader, Grenada';
$i++;$array_land[$i] = 'griechisch, griechisch, Grieche, Griechenland';
$i++;$array_land[$i] = 'guatemaltekisch, guatemaltekisch, Guatemalteke, Guatemala';
$i++;$array_land[$i] = 'guineisch, guineisch, Guineer, Guinea';
$i++;$array_land[$i] = 'guinea-bissauisch, guinea-bissauisch, Guinea-Bissauer, Guinea-Bissau';
$i++;$array_land[$i] = 'guyanisch, guyanisch, Guyaner, Guyana';
$i++;$array_land[$i] = 'haitianisch, haitianisch, Haitianer, Haiti';
$i++;$array_land[$i] = 'honduranisch, honduranisch, Honduraner, Honduras';
$i++;$array_land[$i] = 'indisch, indisch, Inder, Indien';
$i++;$array_land[$i] = 'indonesisch, indonesisch, Indonesier, Indonesien';
$i++;$array_land[$i] = 'irakisch, irakisch, Iraker, Irak';
$i++;$array_land[$i] = 'iranisch, iranisch, Iraner, Iran';
$i++;$array_land[$i] = 'irisch, irisch, Ire, Irland';
$i++;$array_land[$i] = 'isländisch, isländisch, Isländer, Island';
$i++;$array_land[$i] = 'israelisch, israelisch, Israeli, Israel';
$i++;$array_land[$i] = 'italienisch, italienisch, Italiener, Italien';
$i++;$array_land[$i] = 'jamaikanisch, jamaikanisch, Jamaikaner, Jamaika';
$i++;$array_land[$i] = 'japanisch, japanisch, Japaner, Japan';
$i++;$array_land[$i] = 'jemenitisch, jemenitisch, Jemenit, Jemen';
$i++;$array_land[$i] = 'jordanisch, jordanisch, Jordanier, Jordanien';
$i++;$array_land[$i] = 'kambodschanisch, kambodschanisch, Kambodschaner, Kambodscha';
$i++;$array_land[$i] = 'kamerunisch, kamerunisch, Kameruner, Kamerun';
$i++;$array_land[$i] = 'kanadisch, kanadisch, Kanadier, Kanada';
$i++;$array_land[$i] = 'kap-verdisch, kap-verdisch, Kap-Verdier, Kap Verde';
$i++;$array_land[$i] = 'kasachisch, kasachisch, Kasache, Kasachstan';
$i++;$array_land[$i] = 'katarisch, katarisch, Katarer, Katar';
$i++;$array_land[$i] = 'kenianisch, kenianisch, Kenianer, Kenia';
$i++;$array_land[$i] = 'kirgisisch, kirgisisch, Kirgise, Kirgisien';
$i++;$array_land[$i] = 'kiribatisch, kiribatisch, Kiribatier, Kiribati';
$i++;$array_land[$i] = 'kolumbianisch, kolumbianisch, Kolumbianer, Kolumbien';
$i++;$array_land[$i] = 'komorisch, komorisch, Komorer, Komoren';
$i++;$array_land[$i] = 'kongolesisch, kongolesisch, Kongolese, Kongo';
$i++;$array_land[$i] = 'koreanisch, koreanisch, Koreaner, Nordkoreaner, Südkoreaner, Nordkorea, Südkorea, Korea';
$i++;$array_land[$i] = 'nordkoreanisch, nordkoreanisch, Koreaner, Nordkoreaner, Korea, Nordkorea';
$i++;$array_land[$i] = 'südkoreanisch, südkoreanisch, Koreaner, Nordkoreaner, Korea, Südkorea';
$i++;$array_land[$i] = 'nord-koreanisch, nord-koreanisch, Koreaner, Nordkoreaner, Korea, Nordkorea';
$i++;$array_land[$i] = 'süd-koreanisch, süd-koreanisch, Koreaner, Nordkoreaner, Korea, Südkorea';
$i++;$array_land[$i] = 'kosovarisch, kosovarisch, Kosovare, Kosovo';
$i++;$array_land[$i] = 'kroatisch, kroatisch, Kroate, Kroatien';
$i++;$array_land[$i] = 'kubanisch, kubanisch, Kubaner, Kuba';
$i++;$array_land[$i] = 'kuwaitisch, kuwaitisch, Kuwaiter, Kuwait';
$i++;$array_land[$i] = 'laotisch, laotisch, Laote, Laos';
$i++;$array_land[$i] = 'lesothisch, lesothisch, Lesother, Lesotho';
$i++;$array_land[$i] = 'lettisch, lettisch, Lette, Lettland';
$i++;$array_land[$i] = 'libanesisch, libanesisch, Libanese, Libanon';
$i++;$array_land[$i] = 'liberianisch, liberianisch, Liberianer, Liberia';
$i++;$array_land[$i] = 'libysch, libysch, Libyer, Libyen';
$i++;$array_land[$i] = 'liechtensteinisch, liechtensteinisch, Liechtensteiner, Liechtenstein';
$i++;$array_land[$i] = 'Liechtensteiner, Liechtensteiner, Liechtenstein';
$i++;$array_land[$i] = 'litauisch, litauisch, Litauer, Litauen';
$i++;$array_land[$i] = 'luxemburgisch, luxemburgisch, Luxemburger, Luxemburg';
$i++;$array_land[$i] = 'Luxemburger, Luxemburger, Luxemburg';
$i++;$array_land[$i] = 'madagassisch, madagassisch, Madagasse, Madagaskar';
$i++;$array_land[$i] = 'malawisch, malawisch, Malawier, Malawi';
$i++;$array_land[$i] = 'malaysisch, malaysisch, Malaysier, Malaysia';
$i++;$array_land[$i] = 'maledivisch, maledivisch, Malediver, Malediven';
$i++;$array_land[$i] = 'malisch, malisch, Malier, Mali';
$i++;$array_land[$i] = 'maltesisch, maltesisch, Malteser, Malta';
$i++;$array_land[$i] = 'marokkanisch, marokkanisch, Marokkaner, Marokko';
$i++;$array_land[$i] = 'marshallisch, marshallisch, Marshaller, Marshall';
$i++;$array_land[$i] = 'mauretanisch, mauretanisch, Mauretanier, Mauretanien';
$i++;$array_land[$i] = 'mauritisch, mauritisch, Mauritier, Mauritius';
$i++;$array_land[$i] = 'mazedonisch, mazedonisch, Mazedonier, Mazedonien';
$i++;$array_land[$i] = 'mexikanisch, mexikanisch, Mexikaner, Mexiko';
$i++;$array_land[$i] = 'mikronesisch, mikronesisch, Mikronesier, Mikronesien';
$i++;$array_land[$i] = 'moldauisch, moldauisch, Moldawier, Moldawien';
$i++;$array_land[$i] = 'moldawisch, moldawisch, Moldawier, Moldawien';
$i++;$array_land[$i] = 'monegassisch, monegassisch, Monegasse, Monaco';
$i++;$array_land[$i] = 'mongolisch, mongolisch, Mongole, Mongolei';
$i++;$array_land[$i] = 'montenegrinisch, montenegrinisch, Montenegriner, Montenegro';
$i++;$array_land[$i] = 'mosambikanisch, mosambikanisch, Mosambikaner, Mosambik';
$i++;$array_land[$i] = 'myanmarisch, myanmarisch, Myanmare, Myanmar, Birma, Burma';
$i++;$array_land[$i] = 'birmanisch, birmanisch, Myanmare, Myanmar, Birma, Burma';
$i++;$array_land[$i] = 'burmesisch, burmesisch, Myanmare, Myanmar, Birma, Burma';
$i++;$array_land[$i] = 'namibisch, namibisch, Namibier, Namibia';
$i++;$array_land[$i] = 'nauruisch, nauruisch, Nauruer, Nauru';
$i++;$array_land[$i] = 'nepalesisch, nepalesisch, Nepalese, Nepal';
$i++;$array_land[$i] = 'neuseeländisch, neuseeländisch, Neuseeländer, Neuseeland';
$i++;$array_land[$i] = 'nicaraguanisch, nicaraguanisch, Nicaraguaner, Nicaragua';
$i++;$array_land[$i] = 'niederländisch, niederländisch, Niederländer, Niederlande';
$i++;$array_land[$i] = 'nigrisch, nigrisch, Nigrer, Niger';
$i++;$array_land[$i] = 'nigerianisch, nigerianisch, Nigerianer, Nigeria';
$i++;$array_land[$i] = 'niueanisch, niueanisch, Niueaner, Niue';
$i++;$array_land[$i] = 'norwegisch, norwegisch, Norweger, Norwegen';
$i++;$array_land[$i] = 'omanisch, omanisch, Omaner, Oman';
$i++;$array_land[$i] = 'österreichisch, österreichisch, Österreicher, Österreich';
$i++;$array_land[$i] = 'osttimoresisch, osttimoresisch, Osttimorese, Osttimor';
$i++;$array_land[$i] = 'pakistanisch, pakistanisch, Pakistaner, Pakistan';
$i++;$array_land[$i] = 'palauisch, palauisch, Palauer, Palau';
$i++;$array_land[$i] = 'panamaisch, panamaisch, Panamaer, Panama';
$i++;$array_land[$i] = 'papua-neuguineisch, papua-neuguineisch, Papua-Neuguineer, Papua-Neuguinea';
$i++;$array_land[$i] = 'paraguayisch, paraguayisch, Paraguayer, Paraguay';
$i++;$array_land[$i] = 'peruanisch, peruanisch, Peruaner, Peru';
$i++;$array_land[$i] = 'philippinisch, philippinisch, Philippiner, Philippinen';
$i++;$array_land[$i] = 'polnisch, polnisch, Pole, Polen';
$i++;$array_land[$i] = 'portugiesisch, portugiesisch, Portugiese, Portugal';
$i++;$array_land[$i] = 'ruandisch, ruandisch, Ruander, Ruanda';
$i++;$array_land[$i] = 'rumänisch, rumänisch, Rumäne, Rumänien';
$i++;$array_land[$i] = 'russisch, russisch, Russe, Russland';
$i++;$array_land[$i] = 'salomonisch, salomonisch, Salomoner, Salomonen';
$i++;$array_land[$i] = 'sambisch, sambisch, Sambier, Sambia';
$i++;$array_land[$i] = 'samoanisch, samoanisch, Samoaner, Samoa';
$i++;$array_land[$i] = 'san-marinesisch, san-marinesisch, San-Marinese, San Marino';
$i++;$array_land[$i] = 'são-toméisch, são-toméisch, São-Toméer, São Tomé';
$i++;$array_land[$i] = 'saudi-arabisch, saudi-arabisch, Saudi-Arabier, Saudi-Arabien';
$i++;$array_land[$i] = 'schwedisch, schwedisch, Schwede, Schweden';
$i++;$array_land[$i] = 'Schweizer, Schweizer, Schweiz';
$i++;$array_land[$i] = 'schweizerisch, schweizerisch, Schweizer, Schweiz';
$i++;$array_land[$i] = 'senegalesisch, senegalesisch, Senegalese, Senegal';
$i++;$array_land[$i] = 'serbisch, serbisch, Serbe, Serbien';
$i++;$array_land[$i] = 'seychellisch, seychellisch, Seycheller, Seychellen';
$i++;$array_land[$i] = 'sierra-leonisch, sierra-leonisch, Sierra-Leoner, Sierra Leone';
$i++;$array_land[$i] = 'simbabwisch, simbabwisch, Simbabwer, Simbabwe';
$i++;$array_land[$i] = 'singapurisch, singapurisch, Singapurer, Singapur';
$i++;$array_land[$i] = 'slowakisch, slowakisch, Slowake, Slowakei';
$i++;$array_land[$i] = 'slowenisch, slowenisch, Slowene, Slowenien';
$i++;$array_land[$i] = 'somalisch, somalisch, Somalier, Somalia';
$i++;$array_land[$i] = 'spanisch, spanisch, Spanier, Spanien';
$i++;$array_land[$i] = 'sri-lankisch, sri-lankisch, Sri-Lanker, Sri Lanka';
$i++;$array_land[$i] = 'lucianisch, lucianisch, Lucianer, Lucia';
$i++;$array_land[$i] = 'vincentisch, vincentisch, Vincenter, Vincent';
$i++;$array_land[$i] = 'südafrikanisch, südafrikanisch, Südafrikaner, Südafrika';
$i++;$array_land[$i] = 'sudanesisch, sudanesisch, Sudanese, Sudan';
$i++;$array_land[$i] = 'surinamisch, surinamisch, Surinamer, Surinam';
$i++;$array_land[$i] = 'swasiländisch, swasiländisch, Swasi, Swasiland';
$i++;$array_land[$i] = 'syrisch, syrisch, Syrer, Syrien';
$i++;$array_land[$i] = 'tadschikisch, tadschikisch, Tadschike, Tadschikistan';
$i++;$array_land[$i] = 'taiwanisch, taiwanisch, Taiwaner, Taiwan';
$i++;$array_land[$i] = 'tansanisch, tansanisch, Tansanier, Tansania';
$i++;$array_land[$i] = 'thailändisch, thailändisch, Thailänder, Thailand';
$i++;$array_land[$i] = 'togoisch, togoisch, Togoer, Togo';
$i++;$array_land[$i] = 'tongaisch, tongaisch, Tongaer, Tonga';
$i++;$array_land[$i] = 'tschadisch, tschadisch, Tschader, Tschad';
$i++;$array_land[$i] = 'tschechisch, tschechisch, Tscheche, Tschechien';
$i++;$array_land[$i] = 'tunesisch, tunesisch, Tunesier, Tunesien';
$i++;$array_land[$i] = 'türkisch, türkisch, Türke, Türkei';
$i++;$array_land[$i] = 'turkmenisch, turkmenisch, Turkmene, Turkmenistan';
$i++;$array_land[$i] = 'tuvaluisch, tuvaluisch, Tuvaluer, Tuvalu';
$i++;$array_land[$i] = 'ugandisch, ugandisch, Ugander, Uganda';
$i++;$array_land[$i] = 'ukrainisch, ukrainisch, Ukrainer, Ukraine';
$i++;$array_land[$i] = 'ungarisch, ungarisch, Ungar, Ungarn';
$i++;$array_land[$i] = 'uruguayisch, uruguayisch, Uruguayer, Uruguay';
$i++;$array_land[$i] = 'usbekisch, usbekisch, Usbeke, Usbekistan';
$i++;$array_land[$i] = 'vanuatuisch, vanuatuisch, Vanuatuer, Vanuatu';
$i++;$array_land[$i] = 'vatikanisch, vatikanisch, Vatikan';
$i++;$array_land[$i] = 'venezolanisch, venezolanisch, Venezolaner, Venezuela';
$i++;$array_land[$i] = 'US-amerikanisch, US-amerikanisch, US-Amerikaner, USA, Vereinigte Staaten';
$i++;$array_land[$i] = 'britisch, britisch, Brite, Großbritannien, England, Britannien';
$i++;$array_land[$i] = 'vietnamesisch, vietnamesisch, Vietnamese, Vietnam';
$i++;$array_land[$i] = 'saharauisch, saharauisch, Sahraui, Sahara, Westsahara';
$i++;$array_land[$i] = 'zentralafrikanisch, zentralafrikanisch, Zentralafrikaner, Zentralafrikanische';
$i++;$array_land[$i] = 'zyprisch, zyprisch, Zyprer, Zypern';
$i++;$array_land[$i] = 'zypriotisch, zypriotisch, Zyprer, Zypern';
$i++;$array_land[$i] = 'amerikanisch, amerikanisch, Amerikaner, US-amerikanisch, Amerika, US-Amerikaner';
$i++;$array_land[$i] = 'englisch, englisch, Engländer, England';
$i++;$array_land[$i] = 'tschechoslowakisch, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei';
$i++;$array_land[$i] = 'schottisch, schottisch, Schotte, Schottland';
$i++;$array_land[$i] = 'nordirisch, nordirisch, Nordire, Nordirland';
$i++;$array_land[$i] = 'altägyptisch, ägyptisch, Ägypter, Ägypten';
$i++;$array_land[$i] = 'römisch, römisch, Römer, Rom';
$i++;$array_land[$i] = 'grönländisch, grönländisch, Grönländer, Grönland';
$i++;$array_land[$i] = 'sowjetisch, sowjetisch, Sowjetbürger, Sowjetunion';
$i++;$array_land[$i] = 'persisch, persisch, Perser, Persien, Iran, iranisch';
$i++;$array_land[$i] = 'jugoslawisch, jugoslawisch, Jugoslawe';
$i++;$array_land[$i] = 'holländisch, holländisch, Holländer, Holland, Niederlande, Niederländer, niederländisch';

Andim 22:39, 17. Nov. 2010 (CET)

Ein weiterer Vorteil dieses Fehlers: bei Javier Suárez konnte ich dadurch eine falsche Kurzbeschreibung berichtigen. Andim 23:04, 17. Nov. 2010 (CET)

Ein Fehler, der mir unterlaufen ist, es muss heißen:
$i++;$array_land[$i] = 'dschibutisch, dschibutisch, Dschibutier, Dschibuti';
$i++;$array_land[$i] = 'saudi-arabisch, saudi-arabisch, Saudi-Araber, Saudi-Arabien';
$i++;$array_land[$i] = 'britisch, britisch, Brite, Großbritannien, England, Britannien, Vereinigtes Königreich';
$i++;$array_land[$i] = 'iranisch, iranisch, Iraner, Iran, persisch, Perser, Persien';
$i++;$array_land[$i] = 'russisch, russisch, Russe, Russland, sowjetisch, Sowjetbürger, Sowjetunion';
$i++;$array_land[$i] = 'slowakisch, slowakisch, Slowake, Slowakei, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei';
$i++;$array_land[$i] = 'tschechisch, tschechisch, Tscheche, Tschechien, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei';
$i++;$array_land[$i] = 'amerikanisch, amerikanisch, Amerikaner, US-amerikanisch, Amerika, US-Amerikaner, Vereinigte Staaten';
$i++;$array_land[$i] = 'englisch, englisch, Engländer, England, Vereinigtes Königreich, britisch, Brite, Großbritannien';
$i++;$array_land[$i] = 'schottisch, schottisch, Schotte, Schottland, Vereinigtes Königreich, britisch, Brite, Großbritannien';
$i++;$array_land[$i] = 'nordirisch, nordirisch, Nordire, Nordirland, Vereinigtes Königreich, britisch, Brite, Großbritannien,';
$i++;$array_land[$i] = 'tschechoslowakisch, tschechoslowakisch, tschechoslowakisch, Tschechoslowakei, tschechisch, Tscheche, Tschechien';
$i++;$array_land[$i] = 'sowjetisch, sowjetisch, Sowjetbürger, Sowjetunion, russisch, Russe, Russland';

Andim 10:04, 19. Nov. 2010 (CET)

 Ok, eingebaut. Spiele gerade das Skript nochmal durch. -- sk 13:24, 20. Nov. 2010 (CET)
Bitte lies auch meine Hinweise weiter oben. Hier werden sehr viele "falsche Fehler" aufgelistet und die damit verbundenen Edits sind nicht nur unnötig sondern werden von den Chef-Kategorisierern auch als falsch angesehen (siehe Wikipedia:Kategorien: Grundsätzlich soll eine Seite nicht gleichzeitig in einer Kategorie und einer ihrer Ober- oder Unterkategorien eingeordnet werden.). Bei der Bearbeitung von PD-Fehlern müssen wir behutsam vorgehen, weil zuviel unnötige Bearbeitung dazu führt, dass das Ansehen des PD-Projekts sinkt.
Beispiel: Derzeit ist in der Liste John Barry (Filmkomponist) zu finden, weil er "britisch" ist. Er ist aber in der Kategorie "Englischer Komponist", die wiederum in der Kat:Britischer Komponist und diese in der Kategorie:Britischer Künstler ist - und diese in der Kat:Brite. Wenn jetzt jemand Kat:Brite hinzufügt, ist das ein unnötiger Edit und es widerspricht unseren Kategorisierungsregeln. --APPER\☺☹ 13:48, 20. Nov. 2010 (CET)
Da hilft
$i++;$array_land[$i] = 'britisch, britisch, Brite, Großbritannien, englisch, Engländer, England, Britannien, Vereinigtes Königreich, schottisch, Schotte, Schottland, nordirisch, Nordire, Nordirland, walisisch, Waliser, Wales';

, Andim 15:23, 20. Nov. 2010 (CET)

D

 Ok, eingebaut. -- sk 19:54, 20. Nov. 2010 (CET)

Das kann ein sehr langes Spiel werden: Luis Lintner gehört z.B. nicht rein, weil Kategorie:Person (Südtirol) indirekt in Kategorie:Italiener ist. Gerd Schwandner ist indirekt über die Kategorie:Staatsrat (Bremen) schon in der Kat:Deutscher. Markus Baltensperger ist indirekt in der Kat:Deutscher über Kategorie:Musiker (Schleswig-Holstein). Ganz ehrlich: ich denke nicht, dass diese Fehlerkategorie ohne vollständige Kat-Liste machbar ist. Ist natürlich ein wenig Mehraufwand, aber wie schon erwähnt, liegt bei mir im Verzeichnis auf dem Toolserver eine entsprechende Liste. Die wird wöchentlich aktualisiert und wenn du willst, kann ich die dir in beliebiger Form ausgeben, damit du sie für diesen Fehler einlesen kannst. --APPER\☺☹ 20:28, 20. Nov. 2010 (CET)

Das ist ein guter Ansatz, es werden dadurch einerseits mehr Fehler gefunden, da bei meinem Ansatz zu viele Kategorien erfasst werden, andererseits auch falsche Fehler ausgeschlossen. Andim 21:20, 26. Nov. 2010 (CET)

Ein weiterer Fehler:

 $i++;$array_land[$i] = 'kirgisisch, kirgisisch, Kirgise, Kirgisien, Kirgisistan';

Andim 21:17, 26. Nov. 2010 (CET)

 Ok, eingebaut. -- sk 21:12, 24. Dez. 2010 (CET)

Eine für mich nicht erklärliche Beobachtung: Es werden einige Ägypter und Äthiopier aufgeführt: z.B. Ejigayehu Shibabaw, obwohl sie in der Kategorie Kategorie:Äthiopischer Musiker ist, oder Mohamed Mounir trotz Kategorie:Ägyptischer Musiker . Andim 11:51, 25. Dez. 2010 (CET)

Es fehlt auch 'Botsuana', da Diphetogo Selolwane hier gelistet wird. -- HS13 21:46, 20. Jan. 2011 (CET)

Bei den Ägypter und Äthiopier denke ich, dass es an dem deutschen Umlaut liegt. Hab mal versucht das mit einzubauen. Mal schauen ob das klappt. 'Botsuana' hab ich reingenommen, aber 'Botswana' dafür rausgenommen. Wir sollten das schon einheitlich machen. -- sk 21:25, 21. Jan. 2011 (CET)

Artikel mit minimalen Kategorien

Kann man hier eine Suche für Artikel in der Kategorie:Person nach Tätigkeit erstellen, in der alle Artikel angeführt werden, die gesamt weniger als 5 Kategorien beinhalten? Lebende Personen sollten doch in mindestens 4 Kategorien sortiert sein: Mann/Frau, Geboren, Nationalität, Tätigkeit; verstorbene Personen zusätzlich Gestorben. Gruß --Friedrichheinz 16:46, 31. Dez. 2010 (CET)

Tolle Idee, werde das mal bei nächster Gelegenheit versuchen. Vorher muss ich aber noch anderes reparieren. -- sk 18:47, 1. Jan. 2011 (CET)
Gefällt mir auch, zur Implementierung würde ich vorschlagen, es muss neben der Geschlechts- (Mann, Frau, Intersexueller), Nationalität- (Hauptkategorien von Kategorie:Person nach Staatsangehörigkeit, Kategorie:Person eines historischen Volkes und Kategorie:Person nach Ethnie), Geburts- und Sterbekategorie mindestens eine weitere Kategorie vorhanden sein. Andim 12:53, 2. Jan. 2011 (CET)
Doppelte Nationalitätenkategorien (Clive Williams Nicol) lassen sich ja noch entsprechen behandeln, aber wenn Kategorien in Navigationsleisten (Abdallah von Córdoba) stehen, wird es schwierig. Die Artikel sind jetzt erstmal drin, da fällt mir auf die schnelle nichts zu ein (Ich untersuche den Wikitext, nicht die Hilfstabellen, wo die Kategorieeinträge drin stehen). Ich komme auf 2.487 Artikel. Schöner ist es natürlich, wenn Stefan das in sein Tool einbaut, vorallem, da man dort dann auch als erledigt markieren kann, sowie das ganze immer berücksichtigt wird. Da ich aber gerade Zeit hatte, habe ich mir gedacht, mal einen Überblick zu geben. Der Umherirrende 17:54, 2. Jan. 2011 (CET)
An dieser Stelle drängt sich mir erneut die Frage auf, wessen Idee es war, Weiterleitungen wie Adolphe Caille zu kategorisieren. Da es sich hierbei um keine Artikel handelt, würde ich dafür plädieren, die Kategorien grundsätzlich zu entfernen. Die entsprechenden Meta-Informationen sollten sich im verlinkten Artikel finden lassen. --RonaldH 18:50, 2. Jan. 2011 (CET)
Bei Personengruppen werden die Personendaten in eine Weiterleitung geschrieben (WP:PD#Verwendung), damit die Einzelperson entsprechend kategorisiert und auch mit Personendaten versehen werden kann. Entsprechende Links hatte ich jetzt nicht extra gekennzeichnet. Der Umherirrende 19:14, 2. Jan. 2011 (CET)

Danke an Benutzer:Umherirrender für die oben verlinkte Arbeitsliste. Kannst du für einen Laien wie mich erklären, nach welchen Kriterien diese erstellt wurde? Findet man damit z. B. auch einen Artikel mit Kategorie:Physiker, Kategorie:Schweizer, aber ohne Kat:Mann/Frau, Kat:Geboren, Kat:Gestorben und ohne Personendaten? --Friedrichheinz 18:55, 2. Jan. 2011 (CET)

Ich habe nur Artikel mit Personendaten betrachtet. Aus den Wikitext des Artikels habe ich mir die Kategorien extrahiert und anschließend jede gefundene Kategorie geprüft: Ist sie in der Liste der Nationalitätenkategorien (wie von Andim angegeben, ist aber wohl nicht der sicherste Weg), ist sie Mann/Frau/Intersexueller oder startet sie mit Geboren/Gestorben. Falls es eine Kategorie gibt, die nicht auf die Kriterien zutrifft, wird der Artikel ignoriert, ansonsten habe ich ihn in die Fehlerliste ausgegeben. Artikel mit Personendaten und ohne Kategorie Mann/Frau/Intersexueller sollte es nicht geben (ID128). Deinen Vorschlag würde nicht gefunden werden, da Kategorie Physiker nicht den Kritierien entspricht, somit ist der Artikel in Ordnung. Ich hoffe, das ich es verständlich erklärt habe. Der Umherirrende 19:14, 2. Jan. 2011 (CET)
@Umherirrender, danke für die Vorarbeit. Jetzt brauche ich nur noch die Zeit es einzubauen. Ich denke für den Anfang ist das schonmal nicht schlecht. Ich wäre genauso auch vorgegangen. Nur was Personendaten hat, wird überhaupt so einer strengeren Prüfung unterworfen. --sk 21:39, 4. Jan. 2011 (CET)
Wenn alles geklappt hat, dann sollte ab morgen Vorschlag 269 gefüllt werden. -- sk 23:11, 6. Jan. 2011 (CET)
Vielen Dank, bin schon gespannt. Könntest Du den letzten Dump von Oktober einspielen, dann sehen wir vielleicht besser, ob es Probleme gibt. Andim 23:32, 6. Jan. 2011 (CET)
Noch eine kleine Ergänzung, die Kategorie:Römer sollte noch aufgenommen werden. Andim 09:31, 7. Jan. 2011 (CET)
Wie ist die Differenz von ca. 2000 gefundenen Artikeln zur Liste von Umherirrender zu erklären? --Friedrichheinz 09:49, 7. Jan. 2011 (CET)
Ich hab nicht den Dump gescant, sondern nur die bereits als fehlerhaft gekennzeichneten. Wenn der nächste Dumpscan passiert, dann stimmt die Zahl auch überein. Dazu muss ich aber erstmal mir den letzten Dump auf den Toolserver runterladen, wozu ich gestern nicht mehr die Zeit hatte. Dafür durchläuft in Zukunft jeder Artikel die entsprechende Überprüfung. -- sk 09:59, 7. Jan. 2011 (CET)
Wieso steht Kategorie:Römer nicht in den oben genannten: Kategorie:Person nach Staatsangehörigkeit, Kategorie:Person eines historischen Volkes und Kategorie:Person nach Ethnie. Hab gestern nur die fix zusammengebastelt und im Script abgelegt. -- sk 10:02, 7. Jan. 2011 (CET)
Staatsangehörigkeit ist kein antiker Begriff, das römisches Reich war ein Vielvölkerstaat, also passen die Volks- bzw. Ethnienkategorien auch nicht. Aber dafür ist Römer in Kategorie:Historische Person nach Region eingetragen, diese Kategorien sollten auch noch verwendet werden. Andim 12:34, 7. Jan. 2011 (CET)

Hab gestern nochmal mit einem alten Dump das durchlaufen lassen und da waren es nun mit Römern 2400 Artikel. Hab mir dann über Nacht den Dump vom 13.Oktober geholt und den heute früh erneut gestartet. -- sk 08:00, 8. Jan. 2011 (CET)

Beim gestrigen Einspielen ging etwas schief, die Artikel wurden nicht live nochmals gecheckt, d.h. es wurden alle Artikel mit Fehlern aus dem Augustdump aufgenommen, auch wenn die Fehler schon lange behoben sind.
Das ist richtig. Das Skript kann nur einen Dump- oder Live-Modus. Gerade eben läuft der Dump-Modus zum Scannen des Dumps vom 13. Oktober 2010, danach werfe ich nochmal den Live-Modus an. -- sk 11:49, 8. Jan. 2011 (CET)
Danke für die Info, Das ist mir bisher gar nicht aufgefallen. Ich dachte, beim Scannen eines Dumps wird erstmal eine Liste erstellt (aber nicht in die Datenbank eingefügt), danach wird die Liste mit einem Livescan in die Datenbank eingefügt. Andim 12:30, 8. Jan. 2011 (CET)
So jetzt ist der Live-Scan durch. 2364 Artikel haben zu wenige Kategorien. Schaut euch das mal in Ruhe an. Ich staune, dass es keine Kategorie:Häuptling gibt. Deswegen haben wir so viele Indianer dabei. -- sk 16:00, 8. Jan. 2011 (CET)
Dank an Stefan Kühn für die geleistete Arbeit. Bevor ich die Kategorie:Häuptling anlege, werde ich vorsichtshalber das Portal:Kategorien befragen. Da könnte es Probleme mit der politischen Korrektheit geben, in der englischen WP heißt die Kat Native American Leaders. --Friedrichheinz 08:32, 12. Jan. 2011 (CET)

Ich habe mal nach weiteren Kategorien in den 4 Hauptkategorien gesucht, die hier passen:

Armenier (Osmanisches Reich)
Chinese (Hongkong)
Taiwaner
Moldauer
Alamanne
Cherusker
Franke
Gote
Langobarde
Vandale
Spartaner
Perser der Antike
Achämeniden
Nordfriese
Ostfriese
Grieche (Rhodos)
Apache
Shawnee-Indianer
Burgenland-Roma (Person)
Person (Baden)
Person (Hohenzollernsche Lande)
Person (Württemberg)
Person (Altwürttemberg)
Osmane
Person in der Konföderation von Targowica

Andim 22:21, 12. Jan. 2011 (CET)

Auch noch

Historische Person (Bulgarisches Reich)

Andim 09:36, 13. Jan. 2011 (CET)

Sollen die mit im Skript eingefügt werden? Ich würde aber gerne strikt bei den vier Hauptkategorien bleiben. -- sk 10:26, 13. Jan. 2011 (CET)
Diese sind halt in Unterkategorien der 4 Hauptkategorien versteckt. Besonders Chinese (Hongkong) und Taiwaner sind meiner Meinung nach wichtig, ich würde aber alle aufnehmen. Andim 23:05, 13. Jan. 2011 (CET)

Kategorie:Frauenrechtler ist eine Unterkategorie von Kategorie:Menschenrechtler - Kategorie:Bürgerrechtler - Kategorie:Person nach Tätigkeit. Warum scheinen die Frauenrechtlerinnen trotzdem in der Fehlerkategorie auf? --Friedrichheinz 15:06, 18. Jan. 2011 (CET)

Der Fehler ist, dass das Skript bei "Frau", "Mann" nicht auf Gleichheit wie bei den Nationalitäten sondern auf enthalten prüft. Andim 22:58, 18. Jan. 2011 (CET)
Ich habe das Skript angepasst. Ich hab die historischen Kategorien hinzugefügt und das Problem mit den Frauenrechtlern behoben. -- sk 20:50, 21. Jan. 2011 (CET)

Alte/neue Fehlermeldung

Heute hatte ich ein paar Mal die schon längst "totgeglaubte" Fehlermeldung: DBI connect('u_sk_pd_p:host=sql','sk',...) failed: User 'sk' has exceeded the 'max_user_connections' resource (current value: 15) at ./pd.cgi line 28 Gruss --Pelz 22:24, 9. Jun. 2010 (CEST)

Ist mir auch aufgefallen. Bitte am besten immer hier melden. Ich bin am überlegen, ob ich wie beim Checkwiki-Interface die Übersichtsseiten als statische HTML-Seiten erstelle und alle 15 Minuten diese aktualisiere. -- sk 21:27, 10. Jun. 2010 (CEST)
Bei Deiner Überlegung kann ich Dir in Ermangelung von speziellen Kenntnissen natürlich nicht helfen. Heute(gestern) ist es mir 1x wieder aufgefallen. Gruss --Pelz 00:43, 11. Jun. 2010 (CEST)
Heute (gestern) auch schon wieder x-mal. Gruss --Pelz 00:05, 15. Jun. 2010 (CEST)
Und gerade schon wieder. --Pelz 13:50, 16. Jun. 2010 (CEST)
Jetzt auch. --Pelz 07:32, 18. Jun. 2010 (CEST)
So wie es aussieht werde ich mich da mal doch noch mal eine besseres System überlegen müssen. -- sk 21:08, 18. Jun. 2010 (CEST)
Ja Stefan, das wäre schön. Gerade bin ich mal wieder an der Abarbeitung gehindert. Ist schon frustierend an so einem technischen "Mist" zu scheitern. Gruss --Pelz 15:32, 19. Jun. 2010 (CEST)
Leider passiert das immer noch --Pelz 22:56, 28. Jun. 2010 (CEST)
...und immer wieder kommt das Fehlerlein --Pelz 22:16, 12. Jul. 2010 (CEST)
hoffentlich kann SK das bald richten. Mein linker Zeigefinger (der sog. "F5"-Finger) tut schon gewaltig weh. --Pelz 23:39, 17. Aug. 2010 (CEST)
Leider ist der Fehler immer noch aktuell --Pelz 23:29, 30. Aug. 2010 (CEST)
..auch heute schon wieder. --Pelz 20:41, 6. Sep. 2010 (CEST)
Lese erst jetzt, dass hier diese "Fehlermeldung" gepostet werden sollte. Damit denn auch einmal jemand anderes als Benutzer:Pelz hier postet, melde auch ich diesen Fehler. Heute, gestern, eigentlich schon so lange wie ich hier mithelfe :-) Wäre schön, wenn hier Abhilfe geschaffen werden könnte...--Silke Ewering 21:37, 6. Sep. 2010 (CEST)
... auch eben wieder. Und das dann bei einer sowieso langsamen Reisecompi. Gruss --Pelz 17:19, 19. Sep. 2010 (CEST)
nächste Meldung --Pelz 14:19, 26. Sep. 2010 (CEST)
Ich dachte schon, gestern/heute liefe mal alles glatt. Leider nicht. --Pelz 00:40, 1. Okt. 2010 (CEST)
Gelegentlich bin auch ich davon betroffen. Andim 19:58, 3. Okt. 2010 (CEST)
Schön, dass nicht nur ich das feststelle. Gestern auch schon wieder. --Pelz 00:44, 6. Okt. 2010 (CEST)
Da ich leide derzeit mit meinem Rechner zwangsoffline bin nach Umzug und noch andere Sachen an der Backe habe, muss ich euch um Geduld bitten. Derzeit läuft das Tool live. Das heißt jeder Mausklick löst ein select-statment in der datenbank aus. Teilweise brachen die Abfragen wegen "group by" oder "order by"-Klauseln etwas länger in der DB. Wenn nun mehr leute es gleichzeitig nutzen, kommt immer die Regel "Maximal 15 Nutzer" ins Spiel. Das heißt wenn 10 nutzer mit der CheckWikipedia-Tool arbeiten, dann bleiben noch 5 für das PD-Tool. Eine Erhöhung der Nutzerzahl wollen die Admins des Toolservers nicht. Ich kann das PD-Tool so umstricken wie das Check-Wikipedia-Tool. Dadurch werden nur alle 15 Minuten die Daten aktualisiert, aber dafür sind die Abfragen auf die DB deutlich schneller, weshalb dann nicht mehr so oft die Fehlermeldung bekommt. -- sk 10:48, 7. Okt. 2010 (CEST)
Ich will nur mal so vermelden, dass der Fehler noch immer existiert. Leider. --Pelz 22:42, 15. Nov. 2010 (CET)
...immer noch --Pelz 16:33, 21. Nov. 2010 (CET)
Lieber Stefan, könntest Du uns nicht ein schönes Weihnachtsgeschenk machen und den Fehler irgendwie ausbügeln? --Pelz 21:53, 29. Nov. 2010 (CET)
Noch haben wir kein Weihnachten, der Fehler ist auch noch da. Vielleicht beschenkt uns Stefan doch noch. --Pelz 21:46, 21. Dez. 2010 (CET)
Die TS-Admins können das Limit auf Anfrage anheben. Mein Tipp wäre auf FastCGI zu wechseln. FastCGI startet einen neuen Interpreter nur recht ungern, weshalb die Anfragen meist sequentiell abgearbeitet werden. Damit würde sich die Anzahl der gleichzeitigen Datenbankverbindungen deutlich reduzieren. Zudem wird das ganze Script durch FastCGI schneller, damit die Dauer einer DB-Verbindung kürzer, was die Überschneidung ebenfalls reduziert.
Wenn du es noch mehr tunen willst, kannst du dadurch mit einem Scriptaufruf und einer Schleife direkt mehrere Serveranfragen beantworten. Damit kannst du über eine DB-Verbindung gleich mehrere Anfragen beantworten und der Overhead für den Verbindungsaufbau entfallen lassen. Ich habe mir dein pd-Script angesehen. Das kann man ganz schnell umschreiben. Du musst nur den Header anders setzen und die Parameter anders auslesen, was du aber eh nur einmal an Anfang machst und deshalb am Rest des Script nichts ändern musst.
Dein Versuch mit den statischen Seiten finde ich zu umständlich - kostet deutlich mehr Schreibarbeit. Merlissimo 22:32, 21. Dez. 2010 (CET)

@sk Ich habe mir eben mal dein Script vorgenommen und so einige Verbesserungen eingebaut. Aufgrund deines Scriptaufbaus waren folgende Änderungen aber sehr einfach vorzunehmen:

  1. Umstellung auf FastCGI-Interpreter (Interpreter muss nicht ständig neu gestartet werden -> Performancegewinn)
  2. Mehrere Serveranfragen durch einen Scriptaufruf beantworten (Datenbankverbindung muss nicht jedesmal neu aufgebaut werden -> Performancegewinn)
  3. Einige SQL-Abfragen umgeschrieben (einige subselects und group by vermieden, wodurch kleinere Temporärtabellen entstehen und Keyeffizienz erhöht wird, was die Abfrage z.T. deutlich beschleinigt)
  4. Durch Punkt 2 ergibt sich die Möglichkeit die PreparedStatements zu cachen und wiederzuverwenden (Query muss im Cache-Fall nicht neu kompiliert werden -> Performancegewinn)
  5. SQL-Parameter dynamisch gebunden statt schon im Statement (Cache-Hit-W'keit wird stark erhöht)
  6. Ein bisschen Debug-Ausgabe am Ende des Scripts (Laufzeit, Server, pid)
  7. Scriptpfade angepasst, so dass sie sich automatisch dem aktuellen Pfad anpassen
  8. mysql-Password wird nun aus ~/.my.cnf ausgelesen (sollte damit auf jeden TS-Account funktionieren)

Ich habe ein paar wenige Kommentare eingebaut, aber ich denke, das solltest du recht schnell überblicken können, da ich deinen Programmierstiel beibehalten habe. Zudem sind es, bis auf den Anfang, nur Kleinigkeiten. Ich denke damit wird das Script deutlich mehr parallele Anfragen verkraften und das bei weniger Datenbankverbindungen. Problem ist natürlich, dass dies wenig nutzt, wenn sich nun dein Checkwikipedia-Script die DB-Verindungen einheimst und somit keine mehr übrig bleiben.

Du solltest es einfach so ohne Probleme übernehmen können, jedoch darf es nicht mehr im cgi-bin-Verzeichnis stehen, da dort FastCGI nicht funktioniert. Die Anfragen kannst du per rewrite.script umleiten, damit du nicht direkt alle Link in WP ändern musst. Falls du dich nicht mit ZWS auskennen solltest, frag einfach nach (ist tricky, wenn man nur mod_rewrite kennt - habe damals auch einige Zeit bei der schlechten Doku gebraucht).

Die gepimpte Version befindet sich derzeit unter http://toolserver.org/~merl/test/pd.fcgi (lösche ich aber später wieder). Quellcode kannst du einfach auf den TS über /home/merl/public_html/test/pd.fcgi beziehen. Ich hoffe das war dir recht und du kannst dir die Arbeit einer Snapshot-Version sparen. Eine Anfrage, wo sich mehrere Verbesserungsfaktoren von oben vereinen ist z.B. diese Abfrage: http://toolserver.org/~merl/test/pd.fcgi?view=only&id=267 (<<0,1 sek verbessert sich noch bei häufigem Aufruf) und http://toolserver.org/~merl/cgi-bin/pd.cgi?view=only&id=267 (Ursprungsversion, nur um Scriptlaufzeitausgabe am Ende ergänzt: 5-15 sek). Merlissimo 08:37, 22. Dez. 2010 (CET)

WOW, vielen dank Merlissimo. Ich schau mir das mal in Ruhe an. Ich danke dir erstmal für die konkrete Hilfe. Zu deiner Info bei CGI bin ich Autodidakt und bin schon glücklich überhaupt sowas hinbekommen zu haben. Mal schauen was ich da noch alles lernen kann aus deinen Verbesserungen. Würde sie dann auch mit in das Checkwiki-Skript übertragen. Das läuft fast genauso. -- sk 09:51, 22. Dez. 2010 (CET)
Die Ergebnisse sind beeindruckend. Alles so viel schneller durch das FastCGI. Wusste nicht das es sowas gibt. Die Notlösung mit den statischen Seiten musste ich gehen, um mit meinen begrenzten Wissen noch einen Blumentopf zu gewinnen. :-) Ich kann mir zwar erst heute abend oder morgen den Quellcode anschauen, bin aber schon ganz gespannt. Darf ich die bei Perl-Fragen anmailen? Ich bin noch auf der Suche nach einem Gesprächspartner, der mir bei Perl ab und an mal einen Tipp oder Hinweis geben kann. Wenn man nicht weiß wonach man suchen soll, ist es meist sehr viel schwieriger etwas zu finden. -- sk 10:00, 22. Dez. 2010 (CET)
Ehrlich gesagt habe ich erst eine handvoll Scripte in Perl geschrieben. Nie eine wirkliche Webseite oder gar was Großes. Jeden Befehl musste ich auch erst in der API nachsehen - auch die Syntax. Ich bevorzuge php bei den Scriptsprachen. Aber ich habe natürlich Informatik studiert und, wenn man die paar Basiskonzepte und ein Dutzend andere Sprachen gut kennt, kann man sich schnell nach einem kurzen Blick reindenken.
Hauptproblem bei dem Beispiel oben war aber mysql und nicht Perl. Den Nutzen von FastCGI und gecachten Statements siehst du erst, wenn du eine Seite mehrmals hintereinander lädst. Beim ersten Aufruf wirkt sich FastCGI nur auf den Speicherverbrauch aus und noch nicht auf die Laufzeit (Interpreter- und DB-Verbindungs-Initialisierung fallen erst bei der Wiederverwendung weg). Der gleichzeitige Zugriff und die damit verbundenen parallelen SQL-Zugriffe verursachen aber das hier angesprochene Problem, das FastCGI minimieren kann. Die Mysql/Cache-Optimierung verkürzt die Laufzeit auch beim ersten Aufruf, was eine Überschneidung nur unwahrscheinlicher macht. Du musst nur beim Debuggen aufpassen, weil nun eine Anfrage an ein Script gehen kann, dass schon vor einigen Minuten gestartet wurde und somit noch nicht deine letzte Änderung am Quellcode mitbekommen hat.
Die Select-Query mit join zwischen SubSelect und Table bei get_(done_)article_of_error war echt übel, weil die innere Query erstmal mehrere zehntausend Ergebnisse in eine temporäre Tabelle kopieren muss und kaum was optimieren kann. Der join mit sich selbst plus group und kleinem limit ist da deutlich schneller, weil gar nicht erst alle Datensätze geladen werden müssen. Wenn du diese eine Query nach checkwikipedia übernimmst, wäre die größte Not auch schon behoben. Beim Rest einfach zwei Editoren nebeneinander und die beiden Versionen Zeile für Zeile vergleichen - ist wirklich nicht viel geändert. Merlissimo 12:09, 22. Dez. 2010 (CET)
Unter http://toolserver.org/~merl/test/pd2.fcgi habe ich dir noch eine Version gebaut, wo zusätzlich noch die Hauptübersichtsseiten (high, middle, low, all) gecached werden. (Von hier geklaut.) Merlissimo 13:02, 22. Dez. 2010 (CET)
Ich hab mir jetzt mal die CGI-Skripte lokal kopiert. Bin seit kurzem mit Ubuntu unterwegs und muss jetzt mal schauen wie ich dort die CGI-Skripte testen kann. -- sk 21:52, 24. Dez. 2010 (CET)
..gerade war der Fehler mal wieder da. --Pelz 20:50, 27. Dez. 2010 (CET)
@Pelz: Ich arbeite dran. Die Fast-CGI-Geschichte wird uns weiterhelfen, aber dazu muss ich es erstmal lokal zum laufen kriegen und verstehen. Sonst kann ich das Skript später nicht mehr selber warten.--sk 21:26, 1. Jan. 2011 (CET)

@Merlissimo: Also ich kämpfe gerade mit der Aktivierung von Fast-CGI auf meinem Rechner. Ich hab einen Unterordner /home/sk/public_html/fcgi/test.cgi der die fast-cgi-Skripte enthalten soll. Dort ist auch das test-Skript und hat alle Rechte. Unter /etc/apache2/apache2.conf hab ich jetzt eingetragen:

# cgi
ScriptAlias /cgi-bin/ /home/sk/public_html/cgi-bin/

<Directory /home/sk/public_html/cgi-bin/>
Options ExecCGI
AddHandler cgi-script cgi pl
</Directory>


# fast-cgi

ScriptAlias /fcgi/  /home/sk/public_html/fcgi/

<Directory /home/sk/public_html/fcgi/>
Options +ExecCGI
SetHandler fcgid-script
</Directory>

Dann hab ich mit sudo /etc/init.d/apache2 force-reload durchgestartet, aber das test.cgi mit dem Beispiel für Fast-CGI will nicht laufen. Vielleicht hast du ja noch eine Idee. -- sk 21:26, 1. Jan. 2011 (CET)

Nur hier zur Info, dass ich deine Mail beantwortet habe (falls du den Account nicht ständig nachschaust). Einzig großer Unterschied ist, dass ich noch "a2enmod fastcgi" ausgeführt habe. Merlissimo 17:20, 12. Jan. 2011 (CET)
Eben war der Fehler mal wieder da. --Pelz 10:54, 13. Jan. 2011 (CET)
@Pelz, ich weiß das sie immer bei starker belastung wieder auftritt. Ich bin dank Merlissimo an einer Lösung dran.
Danke Stefan, fühl Dich bitte nicht bedrängt durch meine Meldungen. Damit will ich nur jeweils einen praktischen Sachstand aus meiner isolierten Sicht geben. Gruss --Pelz 17:55, 13. Jan. 2011 (CET)
@Merlissimo, ich hab deine Mail erhalten aber noch nicht lesen können (viel Text) da ich diese Woche sehr viel um die Ohren hatte. Ich hoffe ich schaffe am Wochenende eine Umstieg auf FastCGI. Wenn das klappt, dann stelle ich auch zeitnah Checkwiki um, und dann haben wir wieder mehr Luft. -- sk 11:54, 13. Jan. 2011 (CET)
Sorry, aber langsam wird es mir doch etwas zuviel. Es ist ja wundschön und Euch, die ihr daran beteiligt sein danke ich dafür, dass wir hier immer mehr neue Fehler einbauen, das Script super verfeinern und alles viel sauberer gestalten. Nur dieser sch... Fehler behindert die Abarbeiter immer wieder, das schöne Ziel von (fast) fehlerfreien PD auch umzusetzen. Ich möchte darum einmal vorschlagen, alle weiteren Verbesserungen der Ausmerzung dieses Abarbeitungshindernisse unterzuordnen. Danke. Viele Grüsse --Pelz 21:39, 31. Jan. 2011 (CET)
Gerade ist es mal wieder sehr hinterlich. --Pelz 20:25, 21. Feb. 2011 (CET)

Seit dem 21.2.11 habe ich den Fehler nicht mehr gehabt.Zufall? --Pelz 23:20, 24. Mär. 2011 (CET)

gebe mir die Antwort selbst: gerade ist er mal wieder aufgetaucht! --Pelz 20:11, 5. Apr. 2011 (CEST)