Benutzer:SirJective/Datenbank-Abfragen
Hier koennt ihr mir Anfragen fuer Abfragen hinterlassen, wenn ihr mich nicht im Wikipedia:Chat trefft. Wenn es euch nicht darauf ankommt, dass ausgerechnet ich eurem Wunsch nachkomme, dann stellt eure Anfrage bitte auf Wikipedia:Offline-Abfragen, wo sich (jedenfalls ist's so geplant) auch andere Helferlein um euch kümmern werden.
Eine Liste der meisten in der WP stehenden Datenbank-Abfragen ist hier: Benutzer:SirJective/Seiten mit Datenbank-Abfragen.
Was ich kann und nicht kann
[Bearbeiten | Quelltext bearbeiten]Ich kann selbst Abfragen ausfuehren, die nur folgende Daten erfordern:
- die Artikel in der neuesten Revision,
- die Verlinkungsinformation (Links auf vorhandene oder fehlende Artikel),
- Kategorie-Einordnung der Artikel,
- die Angaben, wann welches Bild von wem hochgeladen wurde.
Nicht bearbeiten kann ich Abfragen, die eine der folgenden Daten erfordern:
- aeltere Artikelversionen (weil die Datenbanktabelle einfach zu gross ist um sie regelmaessig runterzuladen),
- Benutzerdaten (Einstellungen, Emails etc.), und Beobachtungslisten (sind Verschlusssache).
Wenn ihr eine Abfrage wollt, die diese Daten verwendet, wendet euch an meta:Requests for queries, aber denkt daran, dass persoenliche Daten normalerweise nicht rausgegeben werden.
Welche Informationen ich von euch brauche
[Bearbeiten | Quelltext bearbeiten]Die meisten Anfragen sind von der Art "gib mir eine Liste aller Artikel, die XXX enthalten". Da brauche ich neben dem genauen Suchwort (oder den Suchwoertern) noch die Angaben:
- nur Artikel, oder auch andere Namensraeume (wenn ja welche),
- ob Redirects, BKS oder andere Seiten ausgeschlossen werden sollen (oder in der Ausgabe markiert werden sollen),
- welche Daten des Artikels (Titel, letzter Bearbeiter, letzte Bearbeitungszeit, etc.),
- Sortierreihenfolge (Titel, Zeit, etc.).
Immer brauche ich die Angabe
- auf welcher Seite das Ergebnis gespeichert werden soll (z.B. eine Benutzer-Unterseite).
Bei komplexeren Anfragen schreibt auf, was euch wichtig ist, ich werde ggf. nachfragen.
Erledigte Anfragen
[Bearbeiten | Quelltext bearbeiten]Ich schreibe meistens die verwendete SQL-Abfrage mit auf die Ergebnisseite oder die zugehoerige Diskussionsseite: Fuer mich als Sicherungskopie und fuer andere die wie ich lernen wollen, wie man die Abfrage realisieren kann.
Benutzer:SirJective/Datenbank-Abfragen/Archiv
Nicht kategorisierte Seiten
[Bearbeiten | Quelltext bearbeiten]Hallo SirJective, Benutzer:Bierdimpfl hat eine Liste mit nicht kategoriesierten Seiten (Benutzer:Bierdimpfl/Nicht kategorisierte Seiten), allerdings scheint er sich zur Zeit eine Pause zu gönnen (Stand der Seite ist noch etwa Sylvester, letzter Benutzeredit Anfang Februar), aber bei dem Klima in den letzten Monaten kann ich's ihm nicht mal verübeln. Könntest Du beim nächsten Dump diese Auflistung mal aktualisieren? Dabei würde ich vorschlagen, dass Du die selben Kriterien wie bei den Personen anwendest (Wartungskats ignorieren). Danke im Voraus, -- srb ♋ 06:02, 3. Apr 2005 (CEST)
Interwikilinks de / pl
[Bearbeiten | Quelltext bearbeiten]Wäre es sehr aufwendig, die Liste der gleichartigen, nicht verlinkten Artikel auch für das Sprachpaar de / pl zu erstellen? Ich würde mich dann um die Abarbeitung bemühen. --mrehker 09:00, 15. Mai 2005 (CEST)
- Nein, ist kein großer Aufwand. Da hast: Benutzer:SirJective/Gleichlautender Titel/de-pl, 1573 Artikel. --SirJective 20:34, 15. Mai 2005 (CEST)
- Mei, das war ja fix. Danke! --mrehker 22:52, 15. Mai 2005 (CEST)
Neue Anfragen
[Bearbeiten | Quelltext bearbeiten]Schreibt hier neue Anfragen auf. Ich nutze diese Seite ebenfalls um mir Anfragewuensche aus dem Chat zu merken, die ich nicht sofort ausfuehren kann.
Wikiquote
[Bearbeiten | Quelltext bearbeiten]Hallo, es geht um das Finden von langen Zitaten, die Urheberrechtlich bedenklich sind. Rechtlich besonders bedenklich sind in der Zitatsammlung Wikiquote alle Zitate, die nicht mehr als Kurzzitat gelten können. Da alle Zitate in "Anführungszeichen" stehen sollten und durch Aufzählungszeichen getrennt sind müßte es eigentlich möglich sein die bedenklich langen Zitate durch eine SQL-Abfrage zu finden oder? --Timt 00:23, 17. Dez 2004 (CET)
- Hallo Timt,
- das Projekt Wikiquote scheint mehrere Diskussionsseiten zu haben, wo Urheberrechtsfragen besprochen werden. Hast du dort schon eine Seite, auf der speziell die langen Zitate thematisiert werden?
- Ich kann den Dump von wikiquote runterladen und versuchen, lange Zitate zu identifizieren. Ob es durch reines SQL geht, muss ich schauen (ggf. erweitere ich mein JAVA-Programm). Ich setz mich bei Gelegenheit ran. --SirJective 12:17, 17. Dez 2004 (CET)
- Im Moment eilt es noch nicht, da es im Moment noch einigermassen überschaubar ist, wer was anlegt und wie gross es ist, aber in letzter Zeit nimmt die Beteiligung doch zu und dann könnte es unübersichtlich werden. Das mit der Diskussionsseite ist nee gute Idee, ich werde es wohl mal in die Richtlinien aufnehmen. --Timt 22:10, 17. Dez 2004 (CET)
math durch sup oder sub ersetzen
[Bearbeiten | Quelltext bearbeiten]Hallo SirJective, im IRC riet man mir, mich mit folgender Bitte an dich zu wenden. Ich würde gerne in den mathematisch orientierten Artikeln ein wenig aufräumen und dort, wo unnötigerweise der math-Tag verwendet wurde, sub-Tags einbauen, z.B. statt Ai usw. Hierzu wäre eine vernünftige Datenbank abfrage mit entsprechenden regulären Ausdrücken hilfreich, die eine Liste der Artikel erzeugt, die man daraufhin abklopfen kann. In erster Näherung könnten das z.B. alle math-Tags sein, die nicht mehr als 3 Zeichen enthalten, da es sich dabei meist um derartige Kurzausdrücke mit Index oder Exponent handeln dürfte, die man ersetzen kann. Vielleicht fällt dir auch noch was Schlaueres ein. Kannst du mir mitteilen, ob und falls ja wann eine solche Liste machbar wäre? Die Liste kannst du z.B. unter Benutzer:Mkleine/Ablage speichern. Viele Grüße --Mkleine 00:28, 13. Jan 2005 (CET)
- Gibt es für dieses Vorhaben Zustimmung seitens anderer Bearbeiter mathematischer Artikel? Bitte diskutiere dieses Vorhaben zunächst auf der Projektseite oder der Portalseite. Eine zentrale Frage, die bisher noch nicht zufriedenstellend geklärt wurde, ist, wo math-Tags nötig oder unnötig sind, und wo sie erwünscht oder unerwünscht sind.
- Meine Meinung dazu ist: Will man reines HTML verwenden, dann sollte man Ai schreiben. Damit erhält man in der Ausgabe fast dasselbe Ergebnis wie mit (die Schriftart ist anscheinend eine andere). Andererseits bin ich im Hinblick auf eine zukünftige Erweiterung durch MathML oder andere Darstellungsformen, und zusätzlich zum Zwecke einer semantischen (statt einer syntaktischen) Textauszeichnung, eher dazu geneigt, die vorhandenen mathematischen Verwendungen von sup und sub durch math ersetzen zu wollen. --SirJective 11:43, 13. Jan 2005 (CET)
- Ich verweise in dieser Frage zunächsteinmal auf das folgende Zitat aus Wikipedia:TeX: "Bei Fragen zum Stil bezüglich des Setzens von mathematischem Code, siehe WikiProjekt Mathematik. Insbesondere sollte dies als Teil einer Zeile oder Fließtextes vermieden werden, da die Formeln in der Zeile nicht richtig ausgerichtet werden und die Schrift zu groß ist." Diese Richtlinie gilt imho seit vielen Monaten unverändert. Ich persönlich bin nicht an politischen Diskussionen dieser Art interessiert und war davon ausgegangen, dass die genannte Richtlinie eindeutig ist. Ich wäre bereit, diese Richtlinie ggf. wie oben beschrieben umzusetzen. Sollte die Frage tatsächlich ein diskussionswürdiges Thema sein, so sollte dies von den Mathematikern gelöst werden - ich ziehe mich dann hiermit wieder zurück. --Mkleine 12:16, 13. Jan 2005 (CET)
- Ja du hast recht, dort und auch auf des Projektseite wird empfohlen, für einfache Ausdrücke HTML zu verwenden und komplexere Ausdrücke abzusetzen. Ich werde die Frage nach der Akzeptanz dieser Regel an geeigneter Stelle stellen. Sobald ein klares Meinungsbild vorliegt, melde ich mich bei dir. --SirJective 12:43, 13. Jan 2005 (CET)
- Bisher gab es wenige Stimmen dafür und wenige Stimmen dagegen. Wie im IRC besprochen, genügt uns das noch nicht als Grundlage für weitreichende Ersetzungen. Du kannst gern einzelne Stellen ändern, die dir auffallen; so wie andere das auch tun (nur teilweise in die andere Richtung). --SirJective 20:08, 25. Jan 2005 (CET)
Personendaten
[Bearbeiten | Quelltext bearbeiten]Auf Anfrage von srb am 15. Jan 2005, 04:40 (CET) hatte ich mich damit beschäftigt, anlässlich der Wikipedia:Wikipedia-Distribution die Erfassung der Personendaten zu unterstützen. Gewünscht wurde eine Liste von Artikel in Kategorie:Person und Unterkategorien, abzüglich einzelner Kategorien wie Kategorie:Fiktive Person, die noch keine Personendaten haben.
Im Dump vom 7. Januar fand ich 1637 Kategorien, die unter Person aber nicht unter Fiktive Person oder Personengruppe liegen, sowie 32.879 Artikel in den genannten Kategorien, davon 27.406 ohne Personendaten.
Unter Verwendung von APPERs Tool, welches die Eintragung von Personendaten in den meisten Fällen auf wenige Klicks reduzierte, verringerte die "Wikipedia Tagging-Party" die Anzahl der verbleibenden Artikel drastisch. Dadurch gab ich meine Versuche auf, die Artikel nach Kategorien zu sortieren, und hab am 5. Februar nach zwei Teil-Listen endlich die Liste Benutzer:SirJective/Personen ohne Personendaten erstellt.
(Zusammenfassung --SirJective 17:50, 26. Feb 2005 (CET))
unkategorisierte Personen
[Bearbeiten | Quelltext bearbeiten]Am 15. Januar 2005 hatte Stern die Idee, nach bisher unkategorisierten Personenartikeln zu suchen. Die von Stern und srb vorgeschlagenen Suchkriterien
- "(* ... )", "(† ...)", "(* ... † ...)"
fand ich 1800 Artikel, die ich in einer Liste hochlud: Benutzer:SirJective/Unkategorisierte Personen.
Diese Liste enthielt viele Artikel, in denen Lebensdaten von Personen angegeben wurden, die aber keine Personenartikel waren. Eine Beschränkung der Suche auf den ersten Absatz wurde verworfen, weil zuviele Artikel nicht mehr erkannt wurden (Daten vor dem ersten Textabsatz bereiteten Probleme).
Seit dem 27. Januar werden zusätzlich unkategorisierte Artikel geliefert, die die Personendaten-Vorlage verwenden, und solche, die bis zum Ende des ersten Absatzes, der eine Fettschrift-Markierung enthält, eines der Wörter "geboren", "gestorben", "lebte" verwendet.
Eine weitere Idee, am 18. Januar von srb vorgeschlagen, ist, alle Artikel aufzulisten, die in und nur in Wartungskategorien eingeordnet sind. Ziel ist es, diesen Artikeln mehr Aufmerksamkeit zukommen zu lassen, indem man sie thematisch kategorisiert und den zugehörigen Projekten und Portalen bekanntmacht. Sie sind nämlich technisch gesehen kategorisiert und fallen dadurch aus der Liste der unkategorisierten Artikel raus. Auszuschließen wäre da die Löschkandidaten, da die ja sowieso behandelt werden. Als Beispiel wurde meine Liste Benutzer:SirJective/Kurze Artikel/Astronomie genannt: Sie umfasst nur Artikel, die bereits kategorisiert sind. Zur Lösung dieses Problems müssten die Artikel erst kategorisiert werden.
Meine am 25. Januar gegebenene Zusage, die Liste der nur in Wartungskategorien eingeordneten ArtikelTM anzulegen, muss ich noch einlösen.
Zusammenfassung: --SirJective 14:07, 8. Mär 2005 (CET)
Schauspieler und Filmtitel ohne Vorlage
[Bearbeiten | Quelltext bearbeiten]Hallo Christian,
zusammen mit Benutzer:BLueFiSH.as hatte ich mich gestern der Vorlage:IMDb Titel und der Vorlage:IMDb Name angenommen, mit deren Hilfe die Links zur Internet Movie Database vereinheitlich werden können. Könntest Du uns zur Weiterführung unserer Arbeit folgende Listen bereitstellen:
- alle Artikel, denen die Kategorie:Filmtitel zugeordnet ist, in den aber nicht die Vorlage:IMDb Titel eingebaut ist.
- alle Artikel, denen entweder die Kategorie:Schauspieler (incl. Unterkategorien mit Ländern) oder die Kategorie:Entertainer, Kategorie:Fernsehschauspieler, Kategorie:Filmschauspieler, Kategorie:Hofschauspieler, Kategorie:Komiker, Kategorie:Pornodarsteller, Kategorie:Stummfilmschauspieler, Kategorie:Theaterschauspieler, Kategorie:Filmkomponist, Kategorie:Filmproduzent, Filmregisseur, Kategorie:Filmschaffende, Kategorie:Kameramann, Kategorie:Kinderstar, Kategorie:Oscarpreisträger, Kategorie:Synchronsprecher zugeordnet ist, in den aber nicht die Vorlage:IMDb Name eingebaut ist.
Ziel dieser Abfragen ist es, alle Artikel zu ermitteln, die bisher nicht auf die IMDb verweisen oder einen Link haben, ohne die standartisierte Vorlage. Bei Rückfragen gib einfach Bescheid. Herzlichen Dank -- Wohltäter 19:13, 20. Jan 2005 (CET)
- Das lässt sich einrichten. Im Dump vom 7. Januar finde ich
- 993 Filmtitel in der Kategorie, keiner davon hat die Vorlage,
- 2635 Einträge in den genannten Schauspieler-Kategorien und Unterkategorien, davon 475 mit und 2160 ohne die Vorlage.
- Damit eure bisherige Arbeit sichtbar wird, müsstet ihr bis zum nächsten Dump warten (der eigentlich schon überfällig ist). Auf welcher Seite soll ich euch die Listen (nach Vornamen sortiert) speichern? --SirJective 14:11, 21. Jan 2005 (CET)
Uuuh ... das klingt nach Arbeit. Aber OK. Uns würde auch schon der Stand 7. Januar reichen. Kurzer Hinweis noch: bis letzte Wocher gab es noch die reichlich unscharfe Kategorie: Vorlage:Imdb. Alle Artikel, die diese Vorlage nutzten sind aber schon auf die neuen Vorlagen umgestellt. Leg's einfach unter Benutzer:Triebtäter/IMDb ab. Herzlichen Dank für Deine Unterstützung. -- Wohltäter 18:31, 22. Jan 2005 (CET)
- Ist jetzt hochgeladen. Für Neugierige steht die verwendete Abfrage dabei. --SirJective 20:08, 25. Jan 2005 (CET)
- Prima, danke! ich hab aber grad gesehen, dass du zwar Kategorie:Filmtitel mit aufgenommen hast, aber ich denke wenn wir schon dabei sind, dann sollten wir uns auch gleich um Kategorie:Fernsehserie kümmern. kannst du die noch nachreichen bitte? Viele Grüße --BLueFiSH ✉! 21:50, 25. Jan 2005 (CET)
Syntaxprüfung Personendaten
[Bearbeiten | Quelltext bearbeiten]Mir sind mittlerweile mehrere Syntaxprobleme bei den PD aufgefallen, z.T. sind mir die Fehler auch selbst unterlaufen (ich hoffe, ich habe sie alle gemerkt):
- Bei der Vorlage müssen alle Feldnamen vorhanden sein, sonst kommt es zu einem unschönen Einfügen des Feldnamens in doppelten geschweiften Klammern
- Es darf kein Ungleichgewicht bei eckigen Klammern vorhanden sein, sonst kommt die ganze Vorlage aus dem Takt (passiert leicht beim Copy&Paste)
Könntest Du dazu einen Check durchführen? (zu Punkt 2: ist im Prinzip ein Teil Deiner Liste über Klammerungleichgewichte, aber eine getrennte Liste wäre wg. des Termindrucks m.E. sinnvoll). -- srb ♋ 11:03, 25. Jan 2005 (CET)
- Für den ersten Punkt hab ich eine Liste Benutzer:SirJective/Personendaten erstellt. Dort werde ich auch die Ergebnisse für den zweiten Punkt hochladen. --SirJective 20:08, 25. Jan 2005 (CET)
Weblinks
[Bearbeiten | Quelltext bearbeiten]Hallo SirJective, kannst Du eine Liste von Artikeln mit sehr vielen Weblinks erzeugen? Vielleicht die ersten 100 Artikel, welche die meisten Weblinks enthalten. Ein Hintergrund: Wikipedia:Ich brauche Hilfe#Hilfe - obskure Linkfarmen. -- tsor 10:53, 26. Feb 2005 (CET)
- Gibt es irgendwo in WP schon eine (eventuell veraltete) Liste von Weblink-reichen Artikeln? Dann kann ich direkt den Platz weiterverwenden :)
- Ich hab jetzt eine ganz einfache Suche gemacht, die nur zählt, wie oft "http" in einem Artikel vorkommt. Das dürfte einen groben Richtwert liefern.
- Ich finde im Dump vom 9. Februar etwa 500 Artikel, die mindestens 20 Weblinks haben, davon 112 mit mindestens 40 Weblinks. Gabs da nicht mal eine 5-Weblink-Regel? *g* --SirJective 13:00, 26. Feb 2005 (CET)
- Bitte veröffentliche mal die 500 Artikel mit mind. 20 Weblinks. Die sollten wir uns näher ansehen. ("Bielefeld" kannst Du direkt streichen, da habe ich bereits tabula rasa gemacht ;-) ). -- tsor 17:01, 26. Feb 2005 (CET)
- OK. Benutzer:SirJective/Wartungslisten/Artikel mit vielen Weblinks --SirJective 17:32, 26. Feb 2005 (CET)
Überschriften
[Bearbeiten | Quelltext bearbeiten]Hallo SirJective, mich würde mal interessieren, bei welchen reinen Artikeln die Hierarchie der Überschriften "unlogisch" aufgebaut ist:
- Welche Artikel enthalten neben der Artikelüberschrift Überschriften 1. Ordnung?
- Welche Artikel enthalten Überschriften mindestens 3. Ordnung, aber keine solche 2. Ordnung?
- Welche Artikel enthalten Überschriften mindestens 4. Ordnung, die unmittelbar einer Überschrift 2. Ordnung folgen?
Hierüber hätte ich (bei Gelegenheit) gern eine oder mehrere alphabetisch sortierte Liste(n) der Artikelnamen, vielleicht auf einer Unterseite meiner Benutzerseite, falls es nicht zu viele sind. Bei Problemen mit regulären Ausdrücken könnte ich dir vielleicht helfen. Vielen Dank schonmal! --Wiegels 04:06, 8. Mär 2005 (CET)
- Das klingt nach einer interessanten Herausforderung.
- Das Hauptproblem wird darin bestehen, die Überschriften zu finden, denn man muss HTML-Kommentare, math-Tags, nowiki-Tags beachten. Ich werde versuchen, die Routine anzupassen, die ich benutze, um die Sichtbarkeit von Datumsangaben zu testen. Ein echter Parser wäre schön, aber ich hab noch von keinem Wiki-Parser in JAVA gehört.
- --SirJective 13:46, 8. Mär 2005 (CET)
- Mir reicht es, wenn du alle Zeilen betrachtest, die mit Gleichheitszeichen beginnen und mit Gleichheitszeichen, möglicherweise gefolgt von Leerzeichen, enden. Auch wenn diese innerhalb von HTML-Kommentaren stehen, sind sie nicht ganz uninteressant, und zwischen math- oder nowiki-Elementen dürften sie nur selten auftauchen. --Wiegels 16:14, 8. Mär 2005 (CET)
- Hier hab ich erstmal eine "Probeliste": Benutzer:SirJective/Wartungslisten/Überschriften. --SirJective 23:43, 8. Mär 2005 (CET)
- Prima, das ist im Prinzip genau das, was mich interessiert. Eigentlich müsstest du die Überschriften nicht mit aufzählen lassen oder höchstens die markierte(n). Es scheint allerdings reichlich viele Treffer zu geben. Vielleicht könntest du mir in einem ersten Schritt nur die Artikel mit unausgeglichenen oder h1-Überschrift liefern. Vielen Dank --Wiegels 02:14, 9. Mär 2005 (CET)
- Das Problem der vielen Treffer wird vor allem auch daran liegen, dass in vielen Fällen die 1. und 2. Ebene bewußt ausgelassen wird, da sie (zumindest im Monobook-Skin) mit einer Trennlinie vor dem Absatz begleitet ist - zumindest vermeide ich diese Ebene bei kurzen Artikeln. Vielleicht solltest Du - zumindest erstmal - diese Varianten (keine Ebene mit = bzw. ==) nicht auflisten. -- srb ♋ 02:34, 9. Mär 2005 (CET)
- "Keine h1-Überschrift" ist ja genau, was wir in den Artikeln wollen: Die höchste Überschrift innerhalb des Artikels sollte == (h2) sein. Da du aber auf kosmetische Mängel der h2-Überschrift in kurzen Artikeln aufmerksam machst, lass ich Artikel erstmal raus, deren einziges Problem ist, dass h3 oder h4 die höchste Überschrift ist.
- Ich werde also eine Liste hochladen, die nur Artikel mit Sprüngen (z.B. ==== direkt nach ==), unausgeglichenen Überschriften ("===Eigenschaften==") und h1-Überschriften ("=Leben=") enthält.
- Ich werd zusehen, dass ich nur die interessierenden Überschriften angebe. --SirJective 21:14, 9. Mär 2005 (CET)
- Hab die Liste jetzt aktualisiert. Die Durchsuchung der (vorher ermittelten) 120.000 Artikel mit Überschriften hat 25 min gedauert. :) --SirJective 22:09, 9. Mär 2005 (CET)
- Super, klasse Service! Damit werde ich erstmal beschäftigt sein, andere vielleicht auch. --Wiegels 22:28, 9. Mär 2005 (CET)
- Hallo SirJective, die Liste habe ich weitgehend abgearbeitet. Nur in Ausnahmefällen habe ich die Gliederung beibehalten, dann nämlich, wenn ein Artikel nur eine einzige h1-Überschrift besitzt, die ganz vorne steht und eine Alternative zum vorhandenen Lemma darstellt. Könntest du die Listen ("Sprung" und "h1") nach dem nächsten Dump mal erneuern? Frohe Ostern --Wiegels 13:17, 27. Mär 2005 (CEST)
- Hallo SirJective, falls es ein frisches Dump gibt, oder nach dem nächsten hätte ich gerne neue Listen "Sprung" und "h1". Außerdem fände ich interessant zu erfahren, in welchen Überschriftstrukturen es Rücksprünge gibt, also typischerweise eine h3-Überschrift vor der ersten h2-Überschrift. Wenn in solchen Fällen ein Inhaltsverzeichnis vorhanden ist, fängt die Zählung zwischendurch wieder mit 1 an. Vielen Dank --Wiegels 14:00, 3. Mai 2005 (CEST)
- Ich arbeite daran, die Abfrage neu zu schreiben (die alte hab ich verloren). --SirJective 00:34, 15. Mai 2005 (CEST)
HTML-Elemente
[Bearbeiten | Quelltext bearbeiten]Hallo SirJective, mir begegnen immer wieder Artikel, die HTML-Elemente enthalten, z. B. <i>, <p>, <ul>, <ol>, <li>, <table>, <tr>, <th>, <td> zzgl. Attributen, die sich durch wiki-Syntax ersetzen lassen. In vielen Fällen halte ich auch die Verwendung von <br/> und dessen Abarten <br>, <br />, <br>...</br> (schon gesehen!) für unnötig. Gibt es schon eine Liste, die solche Vorkommen aufzählt? --Wiegels 13:34, 27. Mär 2005 (CEST)
- Ich weiß von keiner solchen Liste. Tabellen wurden (werden?) von Zwobot umgewandelt, alle anderen Tags werden meines Wissens nicht bot-o-matisch verändert (höchstens halbautomatisch von Edit-Tools). Ich kann dir solche Listen geben. Wohin hättste sie gern? --SirJective 13:43, 27. Mär 2005 (CEST)
- Hallo SirJective, die Ergebnisliste ist zwar erst halb abgearbeitet, aber einige der restlichen Artikel wurden inzwischen von anderen Benutzern überarbeitet und andere brauchen spezielle HTML-Elemente, z.B. für geteilte Listen. Könntest du mir deshalb neue, diesmal getrennte Listen erzeugen von Artikeln, in denen folgende Muster vorkommen?
- </br> -> Benutzer:Wiegels/HTML/br
- <p </p> -> Benutzer:Wiegels/HTML/p
- <b> <cite> <i> -> Benutzer:Wiegels/HTML/cite
- <ol> <ul> -> Benutzer:Wiegels/HTML/ol
- <table <tr <th <td -> Benutzer:Wiegels/HTML/table
- Vielen Dank --Wiegels 14:17, 3. Mai 2005 (CEST)
- Hallo SirJective, die Ergebnisliste ist zwar erst halb abgearbeitet, aber einige der restlichen Artikel wurden inzwischen von anderen Benutzern überarbeitet und andere brauchen spezielle HTML-Elemente, z.B. für geteilte Listen. Könntest du mir deshalb neue, diesmal getrennte Listen erzeugen von Artikeln, in denen folgende Muster vorkommen?
- Endlich komme ich dazu. --SirJective 00:05, 15. Mai 2005 (CEST)
Nicht verlinkte Redirs
[Bearbeiten | Quelltext bearbeiten]Hallo SirJective, könntest du eine Liste aller Redirects erstellen, auf die von keinen anderen Artikeln verlinkt wird? Dann könnte man systematisch prüfen, welche Redirects möglicherweise noch benötigt werden oder inzwischen veraltet sind und nicht mehr benötigt werden. Mwka 22:59, 5. Apr 2005 (CEST)
- Was möchtest Du damit abarbeiten? Redirs sollten eigentlich grundsätzlich nicht verlinkt sein. -- srb ♋ 23:24, 5. Apr 2005 (CEST)
- Das könnte ich tun. Ich hab aber ein paar Rückfragen:
- 1. Wann nennst du einen Redirect veraltet?
- 2. Woran kann ich erkennen, ob ein Redirect als Ziel eines Interwiki-Links von irgendeiner der 100 anderen Wikipedias genutzt wird?
- 3. Woran kann ich erkennen, ob ein Redirect von irgendeiner anderen Webseite als Linkziel genutzt wird? Eine mögliche externe Verlinkung sehe ich insbesondere bei "frischen" Verschiebe-Redirects von bereits länger existierenden Artikeln als Grund gegen eine Löschung an.Siehe dazu auch mein kurzes Gespräch mit Gunther: hier.
- Gibt es ein Projekt im Internet, das mir sagen kann, von wo aus eine Seite verlinkt wird, quasi eine Netz-weite "Links auf diese Seite"-Funktion? (Mir ist klar, dass das nur mit indizierbare Seiten funktionieren würde; google z.B. sollte die nötigen Informationen eigentlich besitzen, oder?)
- --SirJective 00:40, 6. Apr 2005 (CEST)
Doppelte Redirs
[Bearbeiten | Quelltext bearbeiten]Hast Du eine doppelte redirs herauszufiltern, d.h. redirs die auf einen weiteren redir verweisen? Mir ist grade auf den Löschdiskussionen eine Verschiebeaktion aufgefallen, bei der 11 (!) bestehende redirs (davon die meisten auch als Verweisziel) vergessen worden waren. Gruß -- srb ♋ 16:39, 7. Apr 2005 (CEST)
- Die werden meines Wissens bereits von anderen bearbeitet, ich weiss nur nicht mehr, von wem. :( Der pywikipediabot hat eine entsprechende Funktion, und ich denke, dass sie von dem einen oder anderen Bot genutzt wird. --SirJective 13:01, 6. Mai 2005 (CEST)
Wikipedia-Zeitgeist
[Bearbeiten | Quelltext bearbeiten]Hi, was hälst Du von einer regelmäßig aktualisierten Liste mit, den am häufigsten bearbeiteten Artikel der letzten Woche (vielleicht nur die aus dem Artikel-Namensraum). So würde man sehen, wo besonders aktiv gearbeitet wird, wo Edit-Wars herrschen. Langfristig natürlich, ob sich da Verschiebungen in Thematik gibt. Das wäre dann sowas wie der Google Zeitgeist. --Jorges (?) 16:58, 26. Apr 2005 (CEST)
- So eine Liste würde wohl nicht nur mich interessieren. :)
- Ich denke direkt an die Realisierbarkeit einer solchen Liste...
- Eine Möglichkeit wäre, möglichst alle Recent Changes zu sammeln und die Bearbeitungszeitpunkte aller Artikel festzuhalten. Die erfordert eine ständige Überwachung der RC, hätte aber den Vorteil, jederzeit eine aktuelle Liste liefern zu können.
- Eine weitere Möglichkeit wäre, die Datenbank auszuwerten und die Bearbeitungen auszuzählen. Das erfordert jedoch einen Zugriff auf eine möglichst aktuelle Version der Datenbank. Mit Dumps wäre das nur sporadisch hinzukriegen (ganz unabhängig davon, dass ich mir die 13GB old-Tabelle nicht laden würde).
- Soweit ich weiß, sollte APPER die technischen Möglichkeiten haben, die erste Möglichkeit zu realisieren. --SirJective 17:18, 26. Apr 2005 (CEST)
- Hmm... dort wo der Zugriff erfolgt (im RC-IRC-Channel) erfasse ich nur anonyme Änderungen und die Artikeländerungen und übertrage diese an einen anderen Server. Mehr möglichkeiten habe ich leider derzeit nicht. Aber mittelfristig sitze ich sowieso an einer relativ komplexen Sache, die auch sowas dann ermöglichen wird ;). Solange... mal sehen, ob ich irgendwas zwischendurch machen kann... denke aber eher nicht... --APPER\☺☹ 01:04, 27. Apr 2005 (CEST)
Ich hab auf der Mailingliste Wikitech-l mal nachgefragt und diesen Vorschlag für eine Datenbank-Abfrage bekommen. Die soll die 10 am häufigsten bearbeiteten Artikel der letzten Woche zurückliefern. Hast Du einen (alten) Dump mit den oldversions zum Testen der Abfrage. Wenn sie läuft und nicht viel Ressourcen verbraucht, könnte sie ja ein Admin regelmäßig auf Spezial:Asksql stellen. --Jorges (?) 22:37, 5. Mai 2005 (CEST)
- Wenn ich sie nicht schon weggeschmissen hab, dann hab ich noch einen old-Dump vom November 2004 - der ist auch schon 11GB gross. Ich werd die Abfrage naechste Woche mal testen (bin uebers WE nicht da, und muss dann den Dump auch erstmal importieren). Meine Anfrage, einen modifizierten old-Dump bereitzustellen, der alles ausser dem Text enthaelt, wurde abgelehnt. Aber irgendwann soll ja ein Datenbankschema kommen, das den Text separiert hat, so dass die uebrigen Daten besser handhabbar sind (beim genannten November-Dump sind diese uebrigen Daten der old-Tabelle etwa 300MB gross). --SirJective 12:44, 6. Mai 2005 (CEST)
- Ich hab den alten Dump nicht mehr, und auch keine Lust, einen aktuellen zu ziehen. --SirJective 22:16, 12. Mai 2005 (CEST)
UTF8-Missbrauch
[Bearbeiten | Quelltext bearbeiten]Hallochen, wiedermal eine Aufräumfrage: mittlerweile zieht der UTF8-Missbrauch, der auf der Anzeigegleichheit von Zeichen aus verschiedenen UTF8-Zeichensätzen beruht, weitere Kreise - nicht nur Carolus Magnus ist betroffen, sondern heute ist es mir auch bei Karin Stoiber aufgefallen. Da von dem Problem potenziell alle Lemmata betroffen sein können, wäre eine entsprechende "Wartungsabfrage" m.E. sehr wichtig, da mittlerweile nicht mehr davon ausgegangen werden kann, dass alle "falschen" Artikel erkannt werden. Entsprechende Zeichen könnte man evtl. aus dem Löschlogbuch extrahieren. -- srb ♋ 00:51, 1. Mai 2005 (CEST)
- Hilfreich wäre eine Liste von Gruppen ähnlich aussehender Zeichen, könntest du mir da einen Start geben?
- Ohne die könnte ich z.B. erstmal darauf schauen, ob ich Titel finde, die sich nur in einem Zeichen unterscheiden, wobei eines der verschiedenen Zeichen aus dem Latin-Alphabet stammt und das andere ein hohes Unicode-Zeichen (vermutlich sollte es größer als 00FF sein) ist. "Erlaubte" Fälle, wie "e,é,è,ê" etc. muss ich natürlich rausfiltern, falls sie auftreten. --SirJective 14:31, 1. Mai 2005 (CEST)
- Da ich eine Positivliste hoher Zeichencodes führe, werden mir auch unsichtbare Sonderzeichen auffallen, wenn sie verwendet werden. --SirJective 11:01, 4. Mai 2005 (CEST)
- Danke für deine Mail, srb. Ich habe die letzten Löschlogbücher (2000 Einträge) halbautomatisch ausgewertet, und hab genau ein Zeichen mehr gefunden als du (ein "I"-Ersatz). Ich hab den Dump (21.04.05) nach diesen Zeichen durchsucht, und hab auch einige Artikel gefunden. Die unerwünschten sind aber bereits gelöscht.
- Ich werde den Dump nach weiteren Sonderzeichen durchsuchen, vielleicht stoß' ich noch auf was interessantes. --SirJective 21:04, 1. Mai 2005 (CEST)
- Danke für deine Mail, srb. Ich habe die letzten Löschlogbücher (2000 Einträge) halbautomatisch ausgewertet, und hab genau ein Zeichen mehr gefunden als du (ein "I"-Ersatz). Ich hab den Dump (21.04.05) nach diesen Zeichen durchsucht, und hab auch einige Artikel gefunden. Die unerwünschten sind aber bereits gelöscht.
- Im Dump vom 21.4. dürften wohl nur die Carolus-Varianten drin gewesen sein, die Ausweitung auf andere Artikel scheint erst gestern begonnen zu haben. Vielleicht könntest Du auch die Neuen Artikel nach dem UTF8-Müll durchsuchen (wie Du es bei den Dopplungen schon getan hattest) - auf diese Weise hätten wir dann schneller einen Hinweis auf weitere Lemmata, die von den Vandalen verwendet werden - neben den bisher erkannten Carolus und Stoiber. Gruß -- srb ♋ 21:58, 1. Mai 2005 (CEST)
- Ich habe angefangen, die im Dump verwendeten hohen Unicode-Zeichen einzusammeln. Dabei sind mir einige ähnliche Zeichen aufgefallen (es gibt z.B. die Zeichen "Đ, Ð, Ɖ"); ich müsste aber noch systematisch die betroffenen Zeichensatz-Regionen abgrasen, um weitere nicht im Dump aufgetretene Ähnlichkeiten zu finden.
- Die Idee, die neuen Artikel zu scannen, ist super; ich werde in den nächsten Tagen die passenden Skripte zusammenstöpseln. --SirJective 23:50, 1. Mai 2005 (CEST)
- Ich habe angefangen, die im Dump verwendeten hohen Unicode-Zeichen einzusammeln. Dabei sind mir einige ähnliche Zeichen aufgefallen (es gibt z.B. die Zeichen "Đ, Ð, Ɖ"); ich müsste aber noch systematisch die betroffenen Zeichensatz-Regionen abgrasen, um weitere nicht im Dump aufgetretene Ähnlichkeiten zu finden.
- Das Skript läuft. Ich durchsuche nun täglich (tief in der Nacht) die Liste der neuen Artikel, und werde übersehene "Bösartigkeiten" bekanntgeben. --SirJective 11:01, 4. Mai 2005 (CEST)
Index A&R
[Bearbeiten | Quelltext bearbeiten]Hallo Christian, könntest Du den A&R-Index mal aktualisieren (Rivi scheint seit einiger Zeit beruflich sehr ausgelastet zu sein)? Der derzeitige Stand ist vom 15. September. Der Index enthält alle Einträge aus den Kategorieästen Kategorie:Astronomie und Kategorie:Raumfahrt, die Einordung (und auch die Anzeige) erfolgt entsprechend der Sortierangaben in den Kat-Einträgen. Ich hoffe, das ist ohne großen Programmieraufwand möglich. -- srb ♋ 18:41, 5. Mai 2005 (CEST)
- Gern tu ich das. Die noetigen Abfragen stehen mir zur Verfuegung, ich muss sie nur noch "zusammenstoepseln". Im Laufe der naechsten Woche werde ich alle Artikel in den genannten Kategorien und ihren Unterkategorien nach ihrem Sortierschluessel sortiert auflisten. --SirJective 12:57, 6. Mai 2005 (CEST)
- Ich hab jetzt eine Liste von 6344 Artikeln in den 192 Unterkategorien von Astronomie und Raumfahrt.
- Das schließt auch etwa 2400 Jahres-, Jahrzehnt-, etc. -artikel ein. Ein manuell ermittelter Pfad ist: "1000 -> Kategorie:Jahr (10. Jh.) -> Kategorie:Jahr -> Kategorie:Kalender -> Kategorie:Astronomischer Zeitbegriff -> Kategorie:Astronomische Maßeinheit -> Kategorie:Astronomie". Sollen diese Artikel mit aufgelistet werden?
- Außerdem sind 25 Artikel unter mehreren Schluesseln in verschiedene Kategorien einsortiert, z.B. Chiron (Asteroid) als "[[Kategorie:Anderer individueller Asteroid]]" und als "[[Kategorie:Individueller Komet|Chiron]]". Sollen diese Artikel an beiden Stellen angegeben werden, oder nur an einer (z.B. der alphabetisch ersten)? --SirJective 22:16, 12. Mai 2005 (CEST)
- Hab mir die Kategorie:Kalender nochmal angeschaut - irgendwie ist da mit Kategorisierung etwas schief gelaufen: Ich schaue mir z.B. den Pirelli-Kalender sehr gern an - aber Sterne seh dabei trotzdem selten ;-) Laß am besten die ganze Kat weg (samt Unterkategorien) - da müssen wir uns erstmal anschauen, ob da überhaupt noch was sinnvolles (für den A&R-Bereich drin ist.
- Zu den Mehrfacheinträgen: Ein Eintrag reicht (den mit Sortierkriterium, falls mehrere würfel einfach), zusätzlich wäre es schön, wenn Du noch eine Liste auswerfen könntest, bei welchen Artikeln die Katsortierung differiert. Manchmal könnte es Sinn machen, aber meist wohl nicht - da können wir uns dann mal ans abgleichen machen. -- srb ♋ 22:50, 12. Mai 2005 (CEST)
- Hab den Index aktualisiert; die verwendete Abfrage steht auf der dortigen Diskussionsseite.
- Hier ist eine Liste der 201 Artikel mit mehreren Astronomie-Kategorien (nach zusätzlichen Nicht-Astronomie-Kategorien hab ich nicht geschaut) sowie eine Liste der 25 Artikel mit mehreren Sortierschlüsseln: Benutzer:Srbauer/Mehrfach_kategorisierte_Astronomieartikel. --SirJective 10:48, 14. Mai 2005 (CEST)
- Danke Dir. Ein erster Blick auf die unterschiedlichen Sortierschlüssel zeigt, dass dies bei einigen Artikeln (v.a. Listen) sinnvoll ist - Ich würde vorschlagen, wir entfernen die Artikel, die korrigiert wurden, und entlinken die sinnvollen (evtl. den Schlüssel stehenlassen, der in Zukunft im Index verwendet werden soll), damit sie bei weiteren Aktualisierungen nicht mehr auftauchen. Was hältst Du davon? -- srb ♋ 17:45, 14. Mai 2005 (CEST)
- OK. Artikel, die nur noch einen Sortierschlüssel verwenden, werden aus der unteren Teilliste entfernt. Artikel, bei denen mehrere Schlüssel erwünscht sind, werden entlinkt und mit dem Schlüssel stehengelassen, der in Zukunft in der alphabetischen Liste verwendet werden soll. --SirJective 20:12, 14. Mai 2005 (CEST)
Zusatz: Katzugehörigkeit auflisten
[Bearbeiten | Quelltext bearbeiten]Zuätzlich wäre auch eine Auflistung der Artikel entsprechend ihrer Kategoriezugehörigkeit mit Angabe der Artikelgröße (z.B. für die Vorbereitung von WikiReadern bzw. WikiPress) interessant - optimal wäre eine Größenangabe des Textbereichs ohne Tabellen etc., aber ich befürchte, das wäre wohl zu aufwendig. Die entsprechende Liste könntest Du z.B. unter Benutzer:Srbauer/A&R-Artikel ablegen, evtl. auf einige Unterseiten verteilt. Wäre hilfreich, wenn das möglich wäre, Gruß -- srb ♋ 18:41, 5. Mai 2005 (CEST)
- Was genau meinst du mit "entsprechend ihrer Kategoriezugehoerigkeit"? Moechtest du die Angabe, in welche Kategorien die Artikel direkt eingeordnet sind, oder auch bestimmte Oberkategorien?
- Alle Tabellen aus einem Artikel unberuecksichtigt zu lassen, sollte (nicht mit SQL, aber mit meinem JAVA-Programm) kein Problem sein. Soll ich aber ungeprueft alle vorhandenen Tabellen wegrechnen, oder nur bestimmte Formate? Vielleicht gibt es ja neben den verschiedenen Infoboxen noch andere Tabellen (z.B. ist Planet (Tabelle) ohne Tabellen ziemlich leer *g*). Ich kann auch problemlos beide Groessen angeben, also die Komplettgroesse und die reduzierte Groesse.
- --SirJective 12:57, 6. Mai 2005 (CEST)
- wg. Katzugehörigkeit: es geht im Prinzip nur um eine Auflistung der Katinhalte mit Angaben zur Größe der Artikel. Der Kategorienbaum würde dann die natürliche Gliederungsstruktur bilden - eine Auflistung der Artikel in den Oberkategorien ist nicht notwendig. Sorry, war wirklich etwas schlecht formuliert.
- Planet (Tabelle) ist ohne Tabelle wirklich sehr kurz ;-) Im Prinzip geht es bei den Tabellen, die weggelassen werden sollen, um die tabellarische Zusammenstellung der wichtigsten Fakten am Anfang vieler Artikel, die einige sehr kurze Artikel trotzdem in den Bereich von 2-3 kB katapultieren - mittelfristig sollen die durch Vorlagen ersetzt werden, da sind wir allerdings in einigen Bereichen noch an der Diskussion der Vorlagen. Sehr weit ist eigentlich nur die Vorlage:Asteroid, aber die Vorlagen sollten entsprechend auch weggelassen werden (daran hatte ich gestern noch gar nicht gedacht). Da es mir im Prinzip nur darum geht, diese "langen stubs" auf Anhieb zu erkennen, reicht es eigentlich aus, wenn beide Angaben angegeben sind - in Zusammenhang mit dem Lemma sollte eigentlich sofort klar werden, um was für eine Art von Tabellen es sich handelt. -- srb ♋ 14:27, 6. Mai 2005 (CEST)
- Ui, ich hab noch nie einen Kategoriebaum ausgegeben. Eine neue Herausforderung. *gg*
- Was mach ich mit Artikeln, die in mehreren Kategorien einsortiert sind? Geb ich dir an beiden Stellen aus (vllt. mit Vermerk der anderen Kategorie)? --SirJective 22:16, 12. Mai 2005 (CEST)
- Ja, bitte in jeder Kat aufführen - ein Vermerk auf die anderen Einordnungen wäre auch nicht schlecht, mal schaun, was wir da für Überraschungen sehen ;-) Vielleicht noch mal zum Zweck dieser Liste: Ziel ist es im Wesentlichen, einen Überblick über die Artikel in einem Teilbereich vorliegen zu haben, um für Zusammenstellungen wie WikiReader oder WikiPress einen leichteren Einstieg zu bekommen. Zusätzlich kann man basierend auf dem Überblick dann noch Konsistenzchecks durchführen (ist was drin, was nicht reingehört - was fehlt), ohne sich jedesmal in die Kats klicken zu müssen, oder sich gezielt die knapperen Artikel anzuschauen, ob man sie nicht relativ leicht erweitern kann. -- srb ♋ 23:04, 12. Mai 2005 (CEST)
- Ich hab jetzt eine 250KB-Datei mit den Artikeln (als Zeilen der Form "Kategorie TAB Titel, Größe"), und zusätzlich eine 7KB-Datei mit dem Kategorie-Graphen (als Zeilen der Form "Unterkategorie TAB Oberkategorie"). Jetzt bräuchte ich nur noch einen Weg, die Kategorien hierarchisch anzuordnen und die Artikel in diese Hierarchie einzusortieren...
- Die jeweils andere Einordnung bei den 200 doppelt kategorisierten Artikeln müsste auch aus diesen Angaben ableitbar sein, ist aber noch nicht explizit angegeben. --SirJective 22:05, 15. Mai 2005 (CEST)
- Ich hatte eigentlich an eine normale Gliederung gedacht:
- == [[:Kategorie:Astronomie]] ==
- Artikel in der Kategorie:Astronomie (da würde sich eine Tabelle anbieten)
- === [[:Kategorie:Beobachtende Astronomie]] === (Unterkategorien von Kategorie:Astronomie)
- ...
- == [[:Kategorie:Raumfahrt]] ==
- ...
- == [[:Kategorie:Astronomie]] ==
- Ich hatte eigentlich an eine normale Gliederung gedacht:
- Bei dem Umfang von mehreren hundert kB ist es wohl sinnvoll, für jede der 15 Unterkategorien (10 in Astronomie sowie 5 in Raumfahrt) eine eigene Unterseite anzulegen, so dass auf der Einstiegsseite nur die beiden Hauptkats mit den Artikeln sowie Links auf die 15 Unterseiten stehen - dort stehen dann alle weiteren Artikel und Kats in dem jeweiligen Ast.
- Bei mehreren Kats in einem Artikel könnten die weiteren in der letzten Tabellespalte stehen.
- Ein anderer Weg, die Artikel aufzulisten und gleichzeitig auch die Katzugehörigkeiten darzustellen fällt mir im Moment eigentlich auch nicht ein. -- srb ♋ 22:33, 15. Mai 2005 (CEST)
- Das Ziel war mir ungefähr klar, nur beim Weg dahin hapert's ;) Du hast nicht zufällig ein Programm oder Skript, welches meine zwei Dateien in einen formatierten Wiki-Text umstrukturiert?
- Ich hab erstmal hier (65KB Zip) die beiden Dateien hinterlegt, vielleicht kannst du damit schon was anfangen, bis ich die fertige Hierarchie in die WP hochladen kann. --SirJective 23:03, 15. Mai 2005 (CEST)
- Ferdsch: Benutzer:Srbauer/A&R-Artikel. Wie gefällt es dir? --SirJective 15:40, 16. Mai 2005 (CEST)
- Sorry, dass ich mich erst jetzt melde, war die letzten Tage nicht viel im Netz - die Übersicht sieht gut aus, so hatte ich es mir gedacht, danke.
- Zu den von Dir angesprochenen weiteren Listen: Neben Kategorie Diskussion:Raumfahrt und Kategorie Diskussion:Raumfahrt/kompakte Liste gibt es noch Kategorie_Diskussion:Astronomie, eine Komplettliste über alle WP-Kats ist unter Wikipedia:Kategorien/Übersicht zu finden (alles Stand 2004), falls Du die auch aktualisieren willst ;-) -- srb ♋ 14:12, 18. Mai 2005 (CEST)
- Kein Problem, ich selbst sollte eigentlich viel weniger Zeit in der WP verbringen ;)
- Die beiden JAVA-Programme, mit denen ich das SQL-Ergebnis in den wiki-Text umwandele, haben mir richtig Spass gemacht: Zum erstenmal hab ich ausführlich von der neuen 1.5-Syntax Gebrauch gemacht. *gg*
- Ich importiere gerade den Dump vom 16.05.2005, die anderen Kat-Bäume aktualisiere ich dann bei Gelegenheit. --SirJective 18:30, 18. Mai 2005 (CEST)
Exzellente Artikel
[Bearbeiten | Quelltext bearbeiten]Es gibt permanent Diskrepanzen zwischen Wikipedia:Exzellente Artikel und Kategorie:Exzellenter Artikel - bei mehr als 400 Einträgen wird die Suche langsam mühselig. Könntest Du einen Abgleich über die Unterschiede fahren? Sinnvoll wäre ein Abgleich "Nahe-Echtzeit" (d.h. aus den Wikipediaseiten), da die Dumps zuletzt sehr unregelmäßig kamen. Ein möglicher Ablageort wäre z.B. Wikipedia:Exzellente Artikel/Diskrepanz. In Kategorie:Exzellenter Artikel sind derzeit 414 Einträge (incl. 2 Vorlagen), in Wikipedia:Exzellente Artikel jedoch nur 410. -- srb ♋ 05:21, 22. Mai 2005 (CEST)
- Ich arbeite daran. --SirJective 16:00, 22. Mai 2005 (CEST)
- In den (von einer halben Stunde) aktuellen Versionen des Artikels und der Kategorie finde ich 403 Übereinstimmungen, folgende Titel im Artikel aber nicht in der Kategorie: [...] folgende Titel in der Kategorie aber nicht im Artikel: [...] Beim eta liegt es an der Groß-/Kleinschreibung, die Vorlagen sollen eh nicht in den Artikel. Die Herstellung dieser Liste ist noch ziemlich umständlich, aber auch daran arbeite ich noch ;) --SirJective 16:22, 22. Mai 2005 (CEST)
- Die Seite Wikipedia:Exzellente Artikel nach Datum hat auch leichte Diskrepanzen sowohl zum Artikel als auch zur Kategorie: [...] --SirJective 16:39, 22. Mai 2005 (CEST)
- Ob ich das könnte und ob ich das kann, sind zwei verschiedene Dinge ;) Da ich diese Listen momentan komplett mit Programmen wie wget, sed und diff erzeuge (an das soeben installierte perl traue ich mich noch nicht so richtig ran), sind meine Möglichkeiten etwas eingeschränkt. --SirJective 17:33, 22. Mai 2005 (CEST)
O.k., die Listen wurden bereinigt - aber mittlerweile scheint in der kat schon wieder ein Artikel mehr zu stehen. Könntest Du nochmal aktualisieren? -- srb ♋ 00:31, 24. Mai 2005 (CEST)
- Ab jetzt auf Wikipedia:Exzellente Artikel/Diskrepanz. --SirJective 20:39, 24. Mai 2005 (CEST)
Personenartikel mit Klammerzusatz
[Bearbeiten | Quelltext bearbeiten]Mir ist vorhin der neue Artikel Friedrich Josias von Sachsen-Coburg-Saalfeld aufgefallen, Friedrich Josias (Sachsen-Coburg-Saalfeld) exisistiert jedoch schon seit einiger Zeit. Die Links auf die beiden Seiten sind ziemlich gleich verteilt, aber m.E. ist die Klammerversion nach Namenskonvention die korrekte. Könntest Du mal einen Suchlauf durchführen nach Links die a) eine Klammerversion als Ziel haben sowie b) Links, die den Bereich vor der Klammer und den Klammerinhalt enthalten? Ein entsprechender Abgleich könnte uns einige Doppelartikel ersparen - vielleicht wäre es auch mal sinnvoll, trotz Namenskonvention zumindest einen Redirect mit der alternativen Schreibweise anzulegen (nur ein Gedanke, müßte man mal klären - vielleicht könntest Du da auch mal rein statistisch nach bereits vorhandenen Redirects suchen). -- srb ♋ 07:52, 22. Mai 2005 (CEST)
- Vielleicht solltest Du noch heraussuchen c) Links, die nur den Bereich vor der Klammer enthalten, aber keine Begriffsklärung sind. Beispiel:
- Friedrich Josias von Sachsen-Coburg-Saalfeld - Friedrich Josias (Sachsen-Coburg-Saalfeld) - Friedrich Josias
- sofern "Friedrich Josias" keine BKL ist. -- tsor 09:35, 22. Mai 2005 (CEST)
- Ihr meint vermutlich Artikeltitel, nicht Links ;)
- Also, wir suchen Artikeltitel "A (B)", für die es Artikeltitel gibt, welche die Teile A und B ohne Klammern enthalten: "A x B" (oder auch "x A y B z" oder gar auch "x B y A z"?).
- Zusätzlich suchen wir Artikeltitel "A (B)", für die ein Artikeltitel "A" existiert, der aber zu einer Nicht-BKS gehört.
- Hab ich das soweit richtig verstanden? Soll ich die Suche auf Personenartikel beschränken oder gleich alle Artikel durchforsten?
- Zusätzlich kann ich für beide Listen noch angeben, wie oft jeder der beiden Titel verlinkt ist. --SirJective 16:00, 22. Mai 2005 (CEST)
- Im Prinzip wird man das auf Personenartikel beschränken können - ausgeschlossen können auch Titel werden, die als Redirect aufeinander verweisen.
- Den Begriff "Links" habe ich bewußt gewählt, da es auch um die roten Links noch nicht geschriebener Artikel geht. Hintergrund: Bei Friedrich Josias waren z.B. annähernd gleichviel Links auf den neuen Artikel mit "von" wie auf den bereits geschriebenen Artikel mit Klammerzusatz. Es geht mir in erster Linie um die Vermeidung neuer Doppelartikel durch Linkfixes bzw. Anlegen von Redirects, die Suche nach bereits vorhandenen ist da eigentlich nur ein Nebeneffekt. -- srb ♋ 16:56, 22. Mai 2005 (CEST)
- Hmm, lieber nicht auf Personenartikel beschränken. Beispielsweise kann so etwas auch bei Ortsartikeln vorkommen. -- tsor 17:17, 22. Mai 2005 (CEST)
- Ich verstehe hoffentlich jetzt. :) Ich dehne die Suche also von Artikeltiteln auch auf die Ziele von roten Links aus. Falls einer der beiden Titel in einem Paar ("A (B)", "A x B") ein Redirect auf den anderen ist, sollen sie nicht gelistet werden. --SirJective 17:29, 22. Mai 2005 (CEST)
Dann fangen wir mal Benutzer:SirJective/Wartungslisten/Artikel_mitohne_Klammern ;) --SirJective 23:17, 22. Mai 2005 (CEST)
- Ups, den Eintrag hatte ich doch glatt übersehen - werde mich morgen gleich drübermachen. -- srb ♋ 00:35, 24. Mai 2005 (CEST)
- Da fehlt ein "/" hinter "http:/" -- tsor 13:08, 24. Mai 2005 (CEST)
Noch eine Frage: ist es (ohne größeren Aufwand) möglich, die Broken Links von bestimmten Seiten auszufiltern? Grund: einige der Broken Links sind Falschschreibungen - z.B. "Troll (Internet" - und entsprechende Artikel wurden (wie in diesem Beispiel) gelöscht, ergo: es existieren Links aus den Löschlogbüchern oder mitunter auch von Löschkandidatenseiten. -- srb ♋ 16:17, 24. Mai 2005 (CEST)
- Der Fehler mit dem http-Link ist jetzt in der Abfrage und der aktuellen Liste korrigiert.
- Es ist relativ einfach möglich, Links von bestimmten Seiten auszuschließen. Ich soll also die Löschlogbücher und die Löschkandidatenseiten ausschließen - kein Problem. Gibts weitere auszuschließende? Es gehen auch ganze Namensräume, ich könnte mich z.B. auf Links von Artikeln beschränken. --SirJective 20:47, 24. Mai 2005 (CEST)
- Hab jetzt eine Kombination von Abfragen zusammengestellt, die nicht nach 5 Stunden immer noch beschäftigt ist (der ersten Abfrageversion hatte ich soviel Zeit gegeben), sondern "nur" anderthalb Stunden braucht. Mit dem nächsten Dump aktualisiere ich die Liste - bisher als korrekt erkannte Paare werden dabei ausgeschlossen. --SirJective 13:20, 5. Jun 2005 (CEST)
Familiennamen ohne Begriffsklärungen
[Bearbeiten | Quelltext bearbeiten]Siehe bitte Wikipedia:Offline-Abfragen/Neue Abfragen. --SirJective 19:19, 3. Jun 2005 (CEST)
- Gelöscht, liegt nun unter Wikipedia:Datenbankabfragen/Wünsche --Flominator 19:56, 3. Aug. 2007 (CEST)