Wikipedia:Lua/Werkstatt/Defekter Weblink Bot

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Auf dieser Seite wird manuell archiviert nach WD:Lua/Werkstatt/Archiv/Defekter Weblink Bot


Eröffnungsabschnitt[Quelltext bearbeiten]

Ein Problem beim Botlauf Sommer 2012 war das Fehlen der URL in der Vorlageneinbindung. Dadurch war es nicht möglch, systematisch nach Domains durch Experten für die jeweilige Domain die Seiten abzuarbeiten und gleichgelagerte Fälle routiniert zu lösen.

  • Ich hätte beispielsweise gern die dx.doi.org gefixt, weil meist Syntaxfehler.

--PerfektesChaos 22:26, 21. Mai 2013 (CEST)Beantworten

Zeithorizont und Wer-macht-Was?[Quelltext bearbeiten]

  • Mitte der ersten Novemberwoche 2015 werden alle bisherigen Mechanismen heruntergefahren und in den Schlummerzustand versetzt.
  • WE 7./8. November Scharfschaltung der neuen Softwarekomponenten.
  • Erste Bot-Schreibversuche im Viertelstundenabstand an welchem Tag, Uhrzeit?
Was Start/Zeitbedarf/wann fertig Freiwillige
Klärung der Frage: Was passiert mit komplett geleerter Disku? WP:Meinungsbilder/Art der Markierung defekter Weblinks läuft vom 2.–15. Januar 2014 Yellowcard/Giftpflanze/Mabschaaf (Initiatoren)
Programmierung des Lua-Moduls für die Disku-Seiten Grünes Häkchensymbol für ja
  • PerfektesChaos
Festlegung der Methodik; Funktionsumfang Ausdiskutiert.
  • Wer so mitmacht
Programmierung der Oberfläche für die Diskus
Integriert in Lua; bindet Hinweisbox ein
  • reicht das?
  • PerfektesChaos
Klären, was mit dem Ergebnis von 2012 oder früher geschehen soll und auf welche Weise durch den Bot die URL deaktiviert werden. #Alt-Abschnitte

Grünes Häkchensymbol für ja

  • Programmierung der neuen Bot-Features
    • Verlässliche Erkennung toter Weblinks auf Labs Grünes Häkchensymbol für ja
    • Gleiche URL in verschiedenen Artikeln Grünes Häkchensymbol für ja
    • example.com etc. ignorieren Grünes Häkchensymbol für ja
    • Logfile ausgeben Grünes Häkchensymbol für ja
    • Artikel-Statistik Grünes Häkchensymbol für ja
    • Neues Ausgabeformat umsetzen Grünes Häkchensymbol für ja
    • Linkvariation Grünes Häkchensymbol für ja
    • Zuordnung wirklicher Link ↔ normalisierter Link Grünes Häkchensymbol für ja
  • Detektieren der Ergebnisse früherer Läufe (2012 und vorher)
    Löschung früherer Abschnitte auf der Diskussionsseite, damit Abschnittsverlinkung und Weblinksuche dadurch nicht gestört werden Grünes Häkchensymbol für ja
  • Nach dem Lauf Vorlagen updaten: erledigte Links rausnehmen und neue eintragen Grünes Häkchensymbol für ja
  • 2013
  • unbestimmt
  • Grünes Häkchensymbol für ja
  • Giftpflanze
Festlegen des Erscheinungsbilds auf der Disku
  • 2015
  • ?
  • Grünes Häkchensymbol für ja
  • Mabschaaf
  • ...
Projekt-/Hilfe-Seiten vorbereiten/aktualisieren, nachdem die offenen Fragen geklärt sind.
  • 2015
  • ?
  • Grünes Häkchensymbol für ja
  • Mabschaaf
  • ...
Erprobung auf beta.wmflabs.org
(Bot, Lua, Dummies, Disku)
Letzte Abstimmung der Detailfragen
  • 2015
  • ?
  • Grünes Häkchensymbol für ja
  • Alle (die arbeiten und die mitreden)
Ermittlung der def. Links (5-fache Prüfung) auf de.wikipedia.org
  • 1. September, 15. September, 1. Oktober, 15. Oktober, 1. November Grünes Häkchensymbol für ja
  • Giftpflanze
Ankündigung in Kurier
  • Gut eine Woche vor Start des Schreibens auf Disku
  • ?
  • Di 2015-11-17 Grünes Häkchensymbol für ja
Deaktivierung bisheriger Technologien
  • Nach dem Kurier-Artikel, ein paar Tage vor Start des Schreibens auf Disku
  • Stunde
  • 2015-11-19 (bis auf Wikipedia:Defekte Weblinks) Grünes Häkchensymbol für ja
  • Mabschaaf / PerfektesChaos
Beo / Site-Notice
  • 24–36 h vor Start des Schreibens auf Disku
  • 5 Minuten
  • danach
Mabschaaf Grünes Häkchensymbol für ja
Beobachten der Startphase
  • 24–36 h vor Start des Schreibens auf Disku
  • 5 Minuten
  • danach
Jeder Admin Grünes Häkchensymbol für ja
Aufräumen abweichender alter Meldungen (Liste: Benutzer:GiftBot/Meldungen)
  • ab sofort
  • 4376 Diskussionsseiten
  • offen
wer möchte, prinzipiell jeder
Aufräumen alter Technik aus 2012
  • ab Ende WBW; Anfang Dezember 2015
  • 1218 alte Kats löschen; alte Untervorlagen usw.
  • ?
  • Mabschaaf / PerfektesChaos

Verteilung an Portale[Quelltext bearbeiten]

Ist es gewährleistet, dass, sobald GiftBot loslegt, Merlbot die betroffenen Artikel auf den Portal-Wartungslisten einträgt? Ein Delay wäre kontraproduktiv. 129.13.72.198 13:03, 27. Okt. 2015 (CET)Beantworten

MerlBot nimmt als Grundlage die bereits verteilten Meldungen, d.h. noch nicht verteilte Meldungen können dann noch nicht aufscheinen. Ich weiß nicht, ob die Wartungslisten täglich oder wöchentlich oder auf eine andere Weise aktualisiert werden, das muss Merlissimo beantworten. Des weiteren weiß ich nicht, ob er es per Kategorie oder Vorlage macht, der Vorlagenname hat sich auf jeden Fall geändert. – Giftpflanze 13:07, 27. Okt. 2015 (CET)Beantworten
Ich erfasse die Meldungen über die Vorlage. Was hat sich da geändert?
Die Aktualisierung aller Listen erfolgt im WP- und Portal-NS täglich, sonst seltener. Merlissimo 19:24, 29. Okt. 2015 (CET)Beantworten
@Merlissimo: Bisher wurde die Vorlage:Defekter Weblink Bot verwendet, zukünftig wird es die Vorlage:Defekter Weblink sein.--Mabschaaf 21:06, 29. Okt. 2015 (CET)Beantworten
Wird die Vorlage wie zuvor die Andere auch danach entfernt, oder wie weiß ich welche Meldungen aktiv sind? Merlissimo 21:42, 29. Okt. 2015 (CET)Beantworten
Im Prinzip ja. Die Vorlage wirft bei Vorhandensein auch immer die Kategorie:Wikipedia:Defekter Weblink Bot. An der könntest Du Dich alternativ auch orientieren.
Abweichend gegenüber der alten Vorlage sind nun auch alle gelisteten defekten Weblinks umklammert - damit kann es natürlich dazu kommen, dass diese von Benutzern alle entfernt werden, die leere Vorlage dann aber stehenbleibt. Die "merkt" das aber selbst und wirft dann die Wartungskat Kategorie:Wikipedia:Defekter Weblink Bot: Keine URL mehr - diese Seiten könntest Du dann ausschließen.--Mabschaaf 21:55, 29. Okt. 2015 (CET)Beantworten
@Mabschaaf Die Verteilung an die Portale funktioniert derzeit nicht, weil ich nach deinem Hinweis von damals für meinen Bot immer sowohl Vorlage:Defekter Weblink Bot als auch Kategorie:Wikipedia:Defekter Weblink Bot prüfe. Letzteres ist aber derzeit nie gegeben - wie ich eben bemerkt habe. Wie muss ich die Bedingung genau ändern um Disk mit aktiven Fehlermeldungen zu finden? Einfach auf die zweite Bedingung auf Kategorie:Wikipedia:Defekte_Weblinks/Bot ändern? Was ist aber mit den dortigen Unterkategorien? Muss ich die berücktigstigen oder sind alle aktiven Fälle auch immer in der Hauptkategorie? Merlissimo 16:00, 27. Nov. 2015 (CET)Beantworten
@Merlissimo: Ja, Kategorie:Wikipedia:Defekte_Weblinks/Bot ist die entscheidende (der Name hat sich kurzfristig nochmals geändert). Die Unterkategorien kannst Du ignorieren, die werden bestenfalls zusätzlich vergeben. Ausschlußkat wäre Kategorie:Wikipedia:Defekte Weblinks/Bot/Keine URL mehr. Die alte Kat, Kategorie:Wikipedia:Defekter Weblink Bot, ist ein Auslaufmodell, die dort gelisteten Einträge werden momentan von Giftbot parallel mit dem Eintrag der neuen Meldungen abgeräumt. Wann Du die Prüfung auf diese Kat abschaltest, kannst Du selbst entscheiden.--Mabschaaf 16:08, 27. Nov. 2015 (CET)Beantworten

Statistik[Quelltext bearbeiten]

Zusatz zu WP:WLW#Statistik:

Funktionserweiterung für nächsten Lauf[Quelltext bearbeiten]

Ist zwar etwas früh, schon über den nachfolgenden Lauf nachzudenken, bevor der erste gestartet ist, aber trotzdem:

Der Bot meldet ja nun weitere Seiten mit gleichem Link (Beispiel: Seiten A, B und C). Wenn nun bis zum nachfolgenden Lauf der Link auf Seite B gefixt wurde, auf den Seiten A und C aber nicht (und wenn es hundertmal in der Anleitung steht), dann wird dies niemand bemerken.
Ist denn vorstellbar, dass im nachfolgenden Lauf für diese Fälle vom Bot eine zusätzliche Info auf die Diskuseiten von A und C geschrieben wird, dass das Problem zwischenzeitlich auf Seite B gelöst wurde?
Natürlich kann der Link dort entweder gefixt oder entfernt worden sein. Aber möglicherweise ist es einfacher, die schon einmal durchgeführte Lösung des Problems wikiintern nachzuvollziehen und auf weitere Seiten zu übertragen als komplett neu nach Ersatz zu suchen.--Mabschaaf 17:52, 21. Nov. 2015 (CET)Beantworten

Das hört sich wolkig und vielversprechend an, aber wird in der Praxis nichts bringen, weil überhaupt nicht klar ist, warum das Problem auf Seite B nicht mehr besteht.
  • Seite B kann gelöscht worden sein.
  • Der ganze Abschnitt auf Seite B kann gelöscht worden sein.
  • Die enzyklopädische Aussage auf Seite B kann umformuliert oder entfernt worden sein; oder es war von vornherein eine andere Aussage als auf Seite A thematisiert, als deren Beleg sich völlig andere Werke eignen.
  • Jemand kann ganz simpel den Beleg eliminiert haben, und Ruhe ist.
Niemand kann einen gültigen Schluss ziehen, dass der Grund dafür, dass die URL auf B nicht mehr auftritt, derjenige sei, dass man dort exakt das gleiche Dokument an anderer Stelle im Web gefunden habe und nun ja bloß noch die URL kopieren bräuchte.
Es würde nur mit extremen Aufwand ein riesiges Spaghettiknäuel konstruiert, durch das sich kein Autor durchfindet, das über zig vorangegangene Diffpages und Permalinks führen würde (man müsste ja erstmal die Stelle der bisherigen URL blamen und ihren seinerzeitigen inhaltlichen Kontext ermitteln; vielleicht kam das aus einer Vorlage), das selbst Experten nicht handhaben können und das am Ende niemand was gebracht haben wird, aber reichlich Ressourcen verpulvert, von denen wir ohnehin viel zu wenig haben.
Im Übrigen bin ich ziemlich missgestimmt, weil der Bot noch keine einzige Zeile geschrieben hat, wir alle Kräfte und Aufmerksamkeit darauf verwenden sollten, dass das jetzt glatt und sauber läuft, und erst Ostern nächsten Jahres überhaupt die Reste von 2012 beseitigt sein werden. Und dann sind einige Hunderttausend URL zu fixen. Und ob diese Krückenkonstruktion mit Diskussionsseiten überhaupt jemals wieder eingesetzt werden sollte und wird oder ob man das nicht sehr viel eleganter und zeitnäher auf Labs lösen sollte, wurde noch überhaupt nicht thematisiert. Insofern ist das definitiv das falsche Jahr, um über mögliche zukünftige Bot-Läufe zu räsonnieren, wenn die akuten Aufgaben noch nicht über die Bühne gegangen sind.
LG --PerfektesChaos 20:51, 21. Nov. 2015 (CET)Beantworten

Bug So Sonderzeichen[Quelltext bearbeiten]

Diskussion:Bernstein: |4=-wba=20120828084124 http://www.ambermuseum.ru/museum/

  • Vielleicht ist eine archivierte Version geeignet: archive.org [mit abschließendem /]
  • URL ohne Sonderzeichen am Ende funktioniert

-wba bedeutet: url ohne satzzeichen gibts im archiv. zweite zeile streichen, erste modifizieren. – Giftpflanze 16:21, 22. Nov. 2015 (CET)Beantworten

Kenntnis genommen; Denkmaschine gestartet. LG --PerfektesChaos 16:33, 22. Nov. 2015 (CET)Beantworten
Hmmm, das hat mehrere Tücken:
  • Der Schrägstrich zählt hier nicht als „Sonderzeichen“, das irrtümlich an die URL geraten wäre, sondern ist ganz normaler Bestandteil der URL.
  • Die „Sonderzeichen“ sind nur die Pipe und die Satzzeichen (,.;? – siehe Pipe-Symbol in URL und URL endet auf Sonderzeichen sowie die Modul-Doku.
  • Es geht nur um die Situation eines http://example.org, wenn ich den in Klammern setze und vergesse, das Komma rauszupfriemeln.
  • Ich habe größere Schwierigkeiten, im laufenden Betrieb da noch was umzumodeln und das überhaupt anders sauber zu erkennen.
  • Auf Diskussion:Düsseldorf #deadurl_2015-10 lacht mich auch ein Schrägstrich an.
  • Mal ins Unreine gedacht: Kannst du nicht in deiner Pipeline alle -wba und -cit ohne Minuszeichen schreiben, die da schon mal einen Schrägstrich haben, und die überhaupt nicht (,.;?| am Ende haben? Das Minuszeichen ist hier völlig überflüssig, und wenn es außerhalb der Archive keine funktionierende URL gibt, verwirrt die Ansage den Benutzer noch mehr. Aber was stand da im Artikel, und was hast du im Archiv gefunden? Passt das Archivlink dann noch?
Noch was anderes ist mir aufgefallen, und seit heute live, ließe sich aber wegen geringer Fallzahl auch manuell flicken: Wenn der Seitenname einen Schrägstrich enthält, wie /dev/null oder Beatles/Diskografie, dann ist die Diskussionsseite eine Unterseite, der Artikel aber nicht, und die beiden gehören nicht mehr zusammen, was das Modul grundsätzlich als unerlaubt ansieht. Mit Unterseite=1 kann es erlaubt werden (siehe Lemma im Unterseitenformat und Kategorie:Wikipedia:Defekte Weblinks/Bot/Einbindung auf Unterseite). Müsste in diesen Fällen hübscher vom Bot in die Parameterliste geschrieben werden, kann man aber auch hinterherflicken.
LG --PerfektesChaos 17:04, 22. Nov. 2015 (CET)Beantworten
Das mit dem / ist für Fälle, wo jemand an alle URLs noch ein / ranklatscht (weil so viele ja eines am Schluss haben und man denkt, das müsste so, zb. .html/ etc.). In der obigen Diskussion ist das -wba natürlich völliger Käse, es ging mir nur um das Modul. – Giftpflanze 17:10, 22. Nov. 2015 (CET)Beantworten
Die Antwort habe ich jetzt nicht ganz verstanden.
  • Es geht nur um den Schrägstrich, nicht Bindestrich, Prozentzeichen oder Dollarzeichen – richtig?
  • Ich kann meine Detektierung und die Dokus um dieses eine Zeichen erweitern; mit der von dir gegebenen Begründung.
    • Wonach genau soll ich jetzt im Archiv verlinken?
    • Soll ich die Meldung (2) dem Benutzer überhaupt noch anzeigen, wenn es kein einzelner - ist, sondern -wba oder -cit?
  • „In der obigen Diskussion ist das -wba natürlich völliger Käse“ – äh, das sagt mir jetzt was?
Kriegen wir schon hin, LG --PerfektesChaos 17:34, 22. Nov. 2015 (CET)Beantworten
Das sagt dir, dass -wba vom Bot völlig fehlerhaft gesetzt wurde, im Archiv gibts nichts Brauchbares. Die zweite Zeile soll nicht mehr angezeigt werden, richtig. Verlinkt werden soll die URL minus das letzte Zeichen, denn diese um das letzte Zeichen verminderte URL gibts im Archiv. – Giftpflanze 17:57, 22. Nov. 2015 (CET)Beantworten
Mir ist Folgendes aufgefallen: Diskussion:Neil Armstrong/Archiv. Hier wird die Kategorie Interner Fehler statt Einbindung auf Unterseite gesetzt. – Giftpflanze 22:28, 22. Nov. 2015 (CET)Beantworten
Danke, das war ein Fehler in der Fehlermeldung. Die Absturzsicherung hat das aber abgefangen und einen internen Fehler draus gemacht.
Auf dem BETA-Testfall-Archiv hatte noch eine Laufkennung von 2014 gestanden; die Archivierungsverhinderung gilt aber nur für die momentane Laufkennung. Jahre später kann man eine komplette Seite als Archiv verschieben, ohne in Kats zu landen oder überall irgendwelche exotischen Parameter setzen zu müssen. Deshalb sah das beim Testen normal aus.
LG --PerfektesChaos 13:09, 23. Nov. 2015 (CET)Beantworten

Sonderzeichen Domain[Quelltext bearbeiten]

Diskussion:Demokratische Republik Kongo:

  • Zeichen jenseits von ASCII gefunden: [und dann nix mehr]

Das bringt genau was (auch wenn da tatsächlich ein Zeichen stehen würde)? – Giftpflanze 17:58, 22. Nov. 2015 (CET)Beantworten

  • Naja, das ist gewissermaßen dein Umlautproblem, nur rückwärts.
  • Das Modul staunte über das ö in bevölkerungsstatistik und hätte bev%C3%B6lkerungsstatistik vermutet; das als mögliche Fehlerursache registriert, so von wegen Non-UTF-8-Decoding und so. Nur als Anregung. Unterscheidet sowieso nicht zwischen hostname und path; der hostname steht immer in UTF-8 und wird nur so von DNS aufgelöst, aber ein path könnte auf alten Servern statt example.org/bev%C3%B6lkerung als example.org/bev%F6lkerung erwartet werden.
LG --PerfektesChaos 18:15, 22. Nov. 2015 (CET)Beantworten
hint: Internationalized Domain Name (IDN) rfc:3490 und rfc:5890 Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht21:09, 22. Nov. 2015 (CET)Beantworten
Und was will uns das sagen? – Giftpflanze 22:22, 24. Nov. 2015 (CET)Beantworten
Dort sind die Regeln für IDNs festgeschrieben, auch dass Punycode für den Domain-Namen verwendet wird, ist aber nicht so wichtig, da du das Problem so oder so schon gelöst hast. btw. Ich bin etwas überrascht, dass keine doppelten Hochkomma vorkommen. Einfache Hochkomma kommen vor auch in der recht kritischen Zwillingsvariante »''«.  Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht22:50, 24. Nov. 2015 (CET)Beantworten
Keine Ahnung; die RFC kenne ich auswendig.
Die neue Modulversion ignoriert 8-Bit-Codes im host-part und meckert nur noch über den path-part. War aber heute abend zu groggy, um eine Produktivversion verantwortungsvoll zu testen.
LG --PerfektesChaos 22:48, 24. Nov. 2015 (CET)Beantworten
Wunderbar. – Giftpflanze 23:05, 24. Nov. 2015 (CET)Beantworten

Pipe in URL[Quelltext bearbeiten]

...scheint mir eine fehlerhafte Meldung zu sein (siehe Diskussion:Hawaii): Aus

  • www.example.de/bla|blubb

wird die Nachricht:

  • mal ohne probieren: |blubb]]

sollte mM sein:

  • mal ohne probieren: [www.example.de/bla]

--Mabschaaf 19:28, 22. Nov. 2015 (CET)Beantworten

Und noch eine Anmerkung zu Spezial:PermaLink/148301325: Die Meldung "URL ohne Sonderzeichen am Ende funktioniert" und "Pipe-Symbol in URL; mal ohne probieren:" sind einerseits doppelt, andererseits widersprechen sie sich. Wenn gemeldet wird, dass es funktioniert, muss ich nix mehr probieren. Außerdem wären sie mM in der Reihenfolge vor dem Archivlink zu platzieren.

Der Hinweis

sollte besser lauten:

  • Vielleicht ist eine archivierte Version geeignet: archive.org (ohne Pipe-Symbol in URL!)

Mit "mal probieren" hat das nichts mehr zu tun, es ist ja vom Bot schon getestet, dass es eine Archivversion ohne Pipe gibt.--Mabschaaf 08:29, 23. Nov. 2015 (CET)Beantworten

Das Problem mit den Pipes und anderer offensichtlich invalider URLs ist vermutlich in Kürze im ANR erledigt. Ich habe heute früh schon eine handvoll solcher Seiten editiert. Danke nochmals an Giftpflanze für die Liste.  Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht12:11, 23. Nov. 2015 (CET)Beantworten
Es ist keine Frage, dass Du eine entsprechende Liste abarbeiten kannst - nur sollte die Meldung prinzipiell schon so funktionieren wie ursprünglich geplant.--Mabschaaf 12:19, 23. Nov. 2015 (CET)Beantworten
  1. Zum allgemeinen Meldungstext:
    • Nee, das war schon im Sinne des Erfinders, aber ist im Telegrammstil mühsam. Ich habe es um das Wort „Anhang“ ergänzt.
    • Gemeint ist, dass du in den Quelltext gucken sollst, ob dort ein Brocken |blubb]] vorkommt; mit Pipe und zwei eckigen Klammern. Das trifft man häufiger mal an.
    • Bei Hawaii ist das aber in zuviel Aloha ausgeartet und war unschwer als beabsichtigter Teil der URL zu erkennen.
    • Beschreibung auf Kategorie:Wikipedia:Defekte Weblinks/Bot/Pipe-Symbol in URL.
    • Sollte auch auf WP:DW/B kurz erwähnt und auf Detail verlinkt werden.
  2. Zum Archivlink:
    • Das ist seit 2014 neu dazugekommen und in der exakten Interpretation von -wba und -cit in jüngerer Zeit etwas durcheinandergegangen; Dublette zu #Bug So Sonderzeichen.
    • Fix ist zumindest für oben schon geschrieben; aber sorgfältige Erprobung geht der Liveschaltung voran, zunächst dann auf BETA.

VG --PerfektesChaos 13:09, 23. Nov. 2015 (CET)Beantworten

"Vielleicht ist eine archivierte Version geeignet: "[Quelltext bearbeiten]

im Giftbot-Abschnitt auf Diskussionsseiten ist etwas zu verführerisch, nicht großartig nach einer neuen Adresse zu suchen. Jedenfalls habe ich bisher ein paar Linkfixes nach archive.org von zwei Kollegen rückgängig gemacht, die neue Adresse war eigentlich immer leicht zu finden. Vorschläge:

  • Ergänzung am Zeilenende: Suche zunächst mit Hilfe markanter Ausschnitte des archivierten Textes nach der neuen Adresse.
  • Ergänzung am Zeilenende: Mit Hilfe markanter Ausschnitte des archivierten Textes wird die neue Adresse eventuell gefunden.
  • Ersatz: Vielleicht hilft eine archivierte Version, eine neue Adresse zu finden:

Thoken (Diskussion) 12:46, 25. Nov. 2015 (CET)Beantworten

@Thoken: Die Box auf der Disku und die Infos bei den einzelnen gelisteten defekten URLs sind keine vollständige Handlungsanleitung - und sollen das auch nicht sein. Es sind lediglich informative Häppchen, die hilfreich sein können. Wenn Du dagegen der Meinung bist, dass die Hilfeseiten WP:DWL und WP:DWL/B verbessert werden können/sollten, nur zu.--Mabschaaf 12:50, 25. Nov. 2015 (CET)Beantworten
Das Wort "geeignet" sollte dort besser nicht benutzt werden, archivierte Versionen sind primär ungeeignet oder nur unter Vorbehalt geeignet. "Vielleicht" ist kein ausreichender Vorbehalt, bezieht sich nämlich darauf, dass Giftbot sich nicht sicher ist, ob die archivierte Version überhaupt einen brauchbaren Inhalt hat, und nicht darauf, ob mit der archivierten Version gefixt werden kann/soll. Thoken (Diskussion) 13:12, 25. Nov. 2015 (CET)Beantworten
+1 Grundsätzliche Zustimmung. Allerdings sollte wir aufpassen, dass wir durch die Bevorzugung von Livelinks nicht noch ungeeignetere Mirrors verlinkt bekommen. Allgemein ist es schon eine Hilfe wenn statt des toten Links wenigsten ein Archiv angegeben ist. Ich habe im Vorjahr archive.is/today mal von 5000 auf 2000 Stück reduziert, wobei der Workflow dahinter recht einfach und erfreulich flott vonstatten ging. Das Internet Archive mit rund 108000 Verlinkungen ist da schon ein anderes Kaliber. Als ersten Schritt, der die Sache deutlich beschleunigen würde, ist es vernünftige Linktexte zu generieren. Ein entsprechender Wartungslink dazu existiert: https://de.wikipedia.org/wiki/Spezial:Linkliste/Vorlage:Webarchiv/Wartung/Linktext_fehlt Mit Hilfe der Linktexte ließen sich dann schon mal halbautomatisch Vorschläge für Livelinks finden. Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht13:37, 25. Nov. 2015 (CET)Beantworten
(BK)
Naja, die Meldung Vielleicht ist eine archivierte Version geeignet: meint das sowohl inhaltlich wie auch technisch.
  • Idealerweise ist das genau der Dokument-Inhalt, den damals der Autor vor Augen gehabt hatte, als er den Beleg eingefügt hatte.
  • Wenn das einfach nur die Pressemitteilung vom 6. Dezember 2012 war, und die nur die Pressemitteilungen der letzten zwei Jahre auf ihrem Server halten, dann ist ein Archiv schon völlig okay.
Es ist aber richtig, dass viel zu viele Leute viel zu leichtfertig mit dem archiv.org sind, statt erstmal innerhalb der ursprünglichen Domain nach einem neuen Pfad zu suchen, oder einer Nachfolgedomain.
Deine Vorschläge würden als Handlungsanleitung nach WP:DWL gehören, da das immer und für alle wie auch immer gefundenen kaputten Weblinks gilt und primär nichts mit dem Bot zu tun hat.
  • Auf WP:DWL/B könnte man darauf hinweisen, dass zwar Direktverlinkungen in Archive angeboten sein können, dies jedoch zweite Wahl gegenüber aktiven Originalservern ist.
Die Hinweise auf der Disku sind ultrakurz, könnten sich für fünf URL mit gleicher Ansage wiederholen und geben nur die Richtung an. Einen Bedienungsanleitung würde hier die Liste sprengen.
Sprich doch nach Verbesserung der Projektseiten die fraglichen Benutzer an; wenn die serienmäßig abarbeiten, dann müssten sie dazulernen.
PS: externalLinkProblem hat auch eine Google-Option.
LG --PerfektesChaos 13:55, 25. Nov. 2015 (CET)Beantworten

@Thoken: Ich bin mir nicht sicher, ob Du über die nötige Erfahrung verfügst, die Dinge der Weblinkwartung abschließend und umfassend bewerten zu können. Ich selbst wäre dazu nicht in der Lage. Wenn ich Deine obenstehenden Einlassungen lese und diese mit Deinen Bearbeitungen vergleiche, dann muss ich für mich feststellen, dass es vermutlich eher nicht der Fall ist. Sofern ich Dich richtig verstehe, bewertest Du die Wiederherstellung der Erreichbarkeit eines Weblinks, durch die Einpflege eines Weblinks auf eine entsprechende Archivversion, als zu einfach oder unnötig, da die Inhalte bei umfassenderer Suche ggf. auch noch online verfügbar sind. Sollte ich Dich hier richtig verstehen, so teile ich Deine Meinung in diesem Punkte nicht. Deinen dazu erfolgten Revert erachte ich gelinde gesagt als überflüssig – da er lediglich eine korrekte Archivversion gegen eine wiedergefundene Online-Alternative austauscht – eine gewöhnliche Bearbeitung hätte es da auch getan. Wenn ich allerdings Deine hier vorgenommene Bearbeitung ansehe, dann komme ich zu der oben bereits geschilderten Bewertung: mangelnde Erfahrung in der WLW. Für mich ist die Wiederherstellung der Erreichbarkeit einer verlorengangenen Information wichtiger, als die Befriedigung des hin und wieder geäusserten Bedürfnisses, nur Online-Links und möglichst wenige Achiv-Links zur Anwendung gelangen zu lassen – beide dienen dem gleichen Zweck: Beleg für einen hier vorhandenen Inhalt! --Bwbuz (Diskussion) 23:14, 25. Nov. 2015 (CET) P.S.: Und wenn Du meinst, per Revert einen Kollegen unbedingt auf seine schlechte Arbeit hinweisen zu müssen, dann mache Dir doch bitte auch die Mühe, das mit einer echten Artikelverbesserung zu verbinden und keine unformatierten Weblinks erneut fortzuschreiben – siehe dazu beispielsweise meine nachfolgende Bearbeitung. --Bwbuz (Diskussion) 23:38, 25. Nov. 2015 (CET)Beantworten

Thoken würde ich schon zu den erfahrenen Benutzern zählen. Fehler in der Weblinkwartung macht jeder, ich bin immer froh, wenn mir jemand eine fehlerhafte Bearbeitung meinerseits meldet, weil ich aus solchen Fehlern lernen kann. Das Grundproblem ist oft, dass man gar nicht genau weiß was auf der Seite des toten Links genau stand, und somit das Auffinden eines passenden Ersatzes immer ein wenig Glücksspielcharakter hat. Die oben angesprochene Empfehlung Livelinks zu verwenden wo dies möglich ist, ist ein zweischneidiges Schwert. In der Theorie hört sich das gut an, in der Praxis wir aber dann ein toter Link auf eine FAZ durch eine schlecht recherchierte und nochdazu gekürze Agenturmeldung in einem Boulevard-Blatt ersetzt, oder irgend ein windiger Mirror eingesetzt. Wenn diese dann auch offline gehen findet man kaum noch zum ehemals guten Originallink zurück, von dem aus man wesentlich bessere Quellen gefunden hätte. Wenn ich auf meine Anfangszeit im Weblinkfixen zurückdenke, dann wäre ich froh hätte ich damals mehr Archivlinks und weniger Livelinks verwendet. Auch 2012 lautet die Empfehlung nach Möglichkeit Livelinks zu verwenden.
Mit dem neuen Botlauf werden wir hoffentlich einige neue Leute für die Weblinkwartung gewinnen. Ich bin hier für möglichst hohe Toleranz was fehlerhafte Edits betrifft. It's a wiki. Fehler kann man leicht ausbessern. Bei mir bekannten Benutzern verwende ich dazu die Rückgängig-Funktion, zusammen mit einem möglicht nützlichen Kommentar, bei neunen Benutzern ist wahrscheinlich eine Ansprache auf der Disk sinnvoller. Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht00:00, 26. Nov. 2015 (CET)Beantworten
@Boshomi: Du hast ja grundsätzlich recht und ich folge hier gern Deiner Einschätzung, dass Thoken hier vermutlich nur die besten Absichten hatte. Jedoch, kann ich so seine vorgenommenen Beabeitungen in Summe nur als nicht gelungen einschätzen. Netten Gruß nach Österreich --Bwbuz (Diskussion) 00:19, 26. Nov. 2015 (CET)Beantworten
Wie gesagt, ich bin grundsätzlich für einen freundlich offenen Umgang mit neuen Leuten. Dank der Liste von Benutzerin:Giftpflanze habe ich jetzt sowieso eine hervorragende Grundlage für ein brauchbares Controlling, sodass ich eventuelle Benutzerfehler recht gelassen hinnehmen kann. Wichtig ist nur, dass wir ein Auge darauf werfen, dass möglichst keine Einzelnachweise ersatzlos entfernt werden.  Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht00:33, 26. Nov. 2015 (CET)Beantworten

Ich staune. Die Gründe sind bekannt, warum Wikipedia:Weblinks#Archivierte Versionen gilt. Finde es aber nicht falsch, das lockerer zu sehen.<eg> Ziehe den Vorschlag zurück. --Thoken (Diskussion) 15:47, 26. Nov. 2015 (CET)Beantworten

Archivierte Meldungen[Quelltext bearbeiten]

Wäre es nicht besser, wenn Meldungen mit dem Parameter Archiv=1 die einzelnen Links nicht mehr aktiv darstellen würde? – Giftpflanze 12:00, 20. Dez. 2015 (CET)Beantworten

Äh – planmäßig sollten sie zusammenklappen und auf den Quelltext verweisen.
Wo siehst du sowas?
Merke aber gerade, dass bei irgendeinem kürzlichen Umbau dieser Effekt abhandenkam; wird schon wieder. Ging wohl bei den „Unterseiten“ /dev/null verloren. Danke für den Hinweis.
LG --PerfektesChaos 12:25, 20. Dez. 2015 (CET)Beantworten
Ich habe eben in besagtem Archiv versucht den Parameter hinzuzufügen und in der Vorschau gemerkt, dass da nix passiert. – Giftpflanze 12:31, 20. Dez. 2015 (CET)Beantworten
Meine Testfälle stehen auf http://de.wikipedia.beta.wmflabs.org/wiki/Diskussion:Defekte_Weblinks/Archiv
Bei Gutes Archiv hatte es sich sowieso schon zusammengeklappt, weil bereits ein erl. hinter der URL gestanden hatte. Dummer Testfall; aber so hätte ich den Arbeitsablauf erwartet.
Der andere Fall ist jetzt auch gefixt, wie am Abschnitt zwei drunter zu sehen ist, und bereits live hier.
LG --PerfektesChaos 23:31, 20. Dez. 2015 (CET)Beantworten

Mit Parameter Problem=xxxx getaggte DOIs[Quelltext bearbeiten]

Das Setzen des Parameters |Problem=2015 führt nicht zur Deaktivierung des doi-Links im Artikel. Gifti meldet daher weiterhin, dass der Link nicht erreichbar ist. Beispiel: Diskussion:Rautengewächse, getaggt seit 11. Oktober. Dafür sollten wir eine Lösung finden.--Mabschaaf 16:00, 20. Dez. 2015 (CET)Beantworten

Haha. Dazu müsste man mir erst einmal sagen, dass hier etwas ignoriert werden muss. Ich werde es irgendwann mal einbauen … – Giftpflanze 16:06, 20. Dez. 2015 (CET)Beantworten
Betrachte es hiermit als gesagt... ;-) --Mabschaaf 16:08, 20. Dez. 2015 (CET)Beantworten
Betrachte es als ungesagt.
Die wirft von sich aus ja noch nicht mal eine Wartungskat.
Es gibt im gesamten ANR ganze 67 Vorlage:DOI mit Problem= – dafür lohnt sich kein Gifti-Aufriss.
Ich habe für nächstes Jahr vorgesehen, alle defekten (also die momentan mit Problem= markierten Vorlageneinbindungen und die ohne und die nackten URL ohne Vorlage und die Parameterwerte in den Zitationsvorlagen) dx.doi.org in einer Unterkat von Kategorie:Wikipedia:Defekte Weblinks/Bot/Domains zu sammeln. Dann kann man weiterdenken; nach Verlagen analysieren. Die Gifti-Info ist zur Beurteilung wertvoll und liefert einen Puzzlestein.
LG --PerfektesChaos 16:16, 20. Dez. 2015 (CET)Beantworten
Das ist natürlich besser. :) – Giftpflanze 16:19, 20. Dez. 2015 (CET)Beantworten
Schön, dass wir drüber geredet haben.--Mabschaaf 16:25, 20. Dez. 2015 (CET)Beantworten
Ja.
Übrigens wird der Pfad als Sortierschlüssel in der Wartungskat genommen; damit stehen alle 10.1043 aus der dx.doi.org/10.1043/F06-48.1 hintereinanderweg. Dann kann man identifizieren, ob vielleicht alle von dieser Sorte auf andere DOI umgezogen sind, oder was auch immer.
LG --PerfektesChaos 16:30, 20. Dez. 2015 (CET)Beantworten

@Mabschaaf: Ich muss mich berichtigen.

  • Streiche oben: „2016“. Setze: „2015“.
  • Guck mal.
  • Und dann möchte ich jetzt bei frühlingsmild weit geöffnetem Fenster ein Aaaaaahh hören; und zwar völlig egal, wo in Westeuropa du dich grad aufhalten magst. Der Schallgeschwindigkeit geschuldete Verzögerung sei zugestanden.

LG --PerfektesChaos 00:04, 21. Dez. 2015 (CET)Beantworten

Ooooh, aaaah, Alpia! (ups, Werbung...)
Hat es eigentlich einen tieferen Grund, weshalb die Vorlage:Doi keine Wartungskat wirft, wenn Problem= gesetzt ist?
Und, Zusatzfrage: Weshalb hast Du gerade die DOIs aus der Erkennung von externalLinkProblem ausgenommen? Ein rosa Rahmen um eine defekte doi würde das Auffinden im Wust von Einzelnachweisen durchaus erleichtern...--Mabschaaf 14:35, 21. Dez. 2015 (CET)Beantworten
  • Wartungskat:
    • Der Grund ist, dass sich noch niemals jemand eine Wartungskat gewünscht hatte, und dass es auch noch nie ein Procedere gab, was mit dem Inhalt einer solchen Wartungskat dann geschehen solle.
    • Der Parameter ist ja nicht sinnlos: Er löst (zurzeit nicht erreichbar) aus, und man hat schon mal einen zeitlichen Anhaltswert, wann das zuerst beobachtet wurde. Wenn man irgendwann eine Wartungskat möchte, kann man das sofort auslösen. Im Moment ist die Gifti-Analyse aber umfassender.
  • externalLinkProblem:
    • Ich habe nichts ausgenommen von der Erkennung.
    • Ursache dürfte sein, dass die URL unterschiedlich sind:
      • Gifti: https://dx.doi.org/10.1043%2F06-48.1
      • HTML: //dx.doi.org/10.1043%2F06-48.1
    • Wenn ich mal Langeweile habe, werde ich die protokoll-relativen in externalLinkProblem zu https normalisieren; und die DOI als Testfall nehmen. Könnte schon unterm Baum liegen.
    • Anschließend könnte man im Prinzip die Generierung umstellen auf https. Da die Module aber auch Wikia- und privatwikitauglich sind, würde ich das in den Bibliotheken eher nicht machen wollen.
  • Generell ist es ein Problem, dass die bei Gifti=Mediawiki-EL standardisierten URL-Formate nicht übereinstimmen mit dem, was im HTML-Dokument steht, und schon gar nicht mit dem, was im expandierten Wiki-Quelltext steht. Sobald da ein Prozentzeichen auftaucht, wird es abenteuerlich.
LG --PerfektesChaos 21:36, 21. Dez. 2015 (CET)Beantworten

Nächster Durchgang[Quelltext bearbeiten]

Nachdem die Daten für den nächsten Durchgang ja schon gesammelt sind (obwohl der erste noch ein paar Tage braucht, um fertig verteilt zu sein) schon mal folgende Frage vorab:

@PerfektesChaos, Giftpflanze: Ihr hattet da mal Differenzen über die Laufkennung: Einerseits wird {{Anker|deadurl_2015-10}} in der Überschrift genutzt, andererseits der Parameter |Lauf=2015-10. Wie sollte beides nun aussehen für die zweite Runde, das Datenalter entspricht wohl 2016-02 - nicht damit es dann kurzfristig irgendwo ein Programmierungs- oder Verlinkungsproblem gibt.

Spannend fände ich übrigens aus diesen Daten irgendwann mal eine kleine Statistik zu machen: Wie viele der 2015-10 gemeldeten Links waren schon 2012 broken, wieviele der 2016-02 gemeldeten stammen aus 2012, wieviele aus 2015-10 usw.?--Mabschaaf 11:31, 7. Feb. 2016 (CET)Beantworten

Es stehen zunächst erstmal die folgenden Maßnahmen an:
  • Beendigung des Laufes Herbst 2015: Verteilung auf Disku
  • Erholungspause für Gifti, reinfinden in Studium
  • Abräumen der liegengebliebenen Relikte aus 2006/2008, sofern trivial möglich
    • Entweder weil fragliche defekte URL seit einem Jahrzehnt nicht mehr im Artikel vorkommen, überhaupt keine defekte URL 2015 gefunden worden war
    • oder weil irgendwas bei der letzten Schreibaktion schiefging.
  • Abräumen der liegengebliebenen Relikte aus 2012, sofern trivial möglich; Gründe wie eben.
  • Abräumen der ersten Reste aus 2015, etwa Kategorie:Wikipedia:Defekte Weblinks/Bot/Keine URL mehr.
  • Abarbeiten der ersten 100.000 bis 200.000 Meldungen und Artikel aus 2015.
Zwischenzeitlich: Aufstellen eines Live-Zugriffs auf die zukünftige Datenbank mit allen URL in Artikeln der WMF und ihres zuletzt bekanntgewordenen Status.
  • externalLinkProblem ist längst darauf vorbereitet, dieses Ergebnis statt des Diskussionsseiten-Abschnitts darzustellen.
Nie wieder Diskussionsseiten vier Monate lang vollsauen.
  • Das war eine extrem stressige Angelegenheit, nervt beobachtende Autoren und alle Beteiligten.
  • Mich hat es massiv belastet und von anderen Arbeiten abgezogen; letztlich schon über mehrere Jahre.
  • Es gibt von meiner Seite keinen Support mehr für zukünftige Aktionen auf Diskussionsseiten.
Was die Eingangsfrage angeht, ist die Antwort ganz trivial:
  • In dem Moment, in dem die Kennung für den „gültigen Lauf“ sich gegenüber 2015-10 ändert, klappen alle einschlägigen Vorlagen zu, verbergen ihre URL und bereinigen alle Kategorien.
VG --PerfektesChaos 11:48, 7. Feb. 2016 (CET)Beantworten
Diese Statistik kann man auf jeden Fall machen (denke ich, die Daten liegen soweit vor, glaube ich). Und wie PC schon schrieb, legen wir erstmal eine Pause ein vor weiteren Datenveröffentlichungen (dann über eine Datenbank, ich freu mich schon auf deinen Vorschlag). Bevor ich jedoch irgendwas programmieren kann, brauche ich Muße, und wenn ich die habe, braucht es Entwicklungszeit. Solange kann ich aber weiter Daten sammeln, denn das dürfe sich später nicht großartig verändern. – Giftpflanze 11:55, 7. Feb. 2016 (CET)Beantworten
Sorry, aber ich kann gerade nur wenig nachvollziehen, was ihr schreibt. Die aktuelle Technik ist ja stabil, es spricht doch überhaupt nichts dagegen, zwischenzeitlich neu gewonnene Daten auch auf Diskus zu verteilen – genau so, wie es von mir im Kurier (Abschnitt Ausblick) angekündigt und von euch beiden damals akzeptiert wurde. Giftbot soll hinter sich selbst herräumen, also mit einem Lauf 2016-xx das wegputzen, was von menschlichen Fixern erledigt, aber auf den Diskus nicht entfernt wurde.
Ich sehe da für Euch überhaupt keinen Zeitbedarf an Programmierung – es sei denn, das Modul macht merkwürdige Sachen, wenn sich |Lauf=2015-10 auf |Lauf=2016-xx ändert oder neben dem Flag 2012 nun noch ein Flag 2015-10 hinzukommt.
Wann Gifti es hinkriegt, auf den aktuelleren Datenbestand aus 2016-02 zuzugreifen und dem Bot dafür den Marschbefehl zu erteilen, mag sie selbst entscheiden. Richtig ist natürlich, dass erst mal der Durchgang 2015-10 abgeschlossen sein muss, aber das habe ich ja nie in Frage gestellt.
Hinsichtlich der Abarbeitung alter Meldungen: Gerade dafür wäre ein weiterer Giftbot-Lauf höchst wünschenswert, der die 20.000(?) Meldungen noch wegräumt, die im Januar irrtümlich auf den Diskus verblieben sind. Alle anderen wird der Bot dann nie mehr aufräumen können - und das sind für Mensch gerade noch genug.
Dass eine Neuprogrammierung auf Datenbankbasis wesentlich zeitaufwändiger ist (aber dafür auch nochmals neue Möglichkeiten bietet) ist unbestritten, das verlangt auch gerade niemand, und schon gar nicht kurzfristig. Es geht schlicht um das weiterlaufenlassen bestehender Technik.--Mabschaaf 12:12, 7. Feb. 2016 (CET)Beantworten
Es wurde von mir nichts „akzeptiert“, sondern mit stillschweigender Missbilligung zur Kenntnis genommen. Wenn du das realisieren kannst, dann mach es wie im Kurier angekündigt; aber ohne mich. --PerfektesChaos 12:26, 7. Feb. 2016 (CET)Beantworten
Natürlich werde ich noch über die vom Bot fälschlicherweise noch nicht entfernten alten Meldungen drübergehen (sollte schnell zu konfigurieren sein). Und ich werde auch die erledigten, aber nicht entfernten Meldungen entfernen. Ich würde hier trennen zwischen einer Neuverteilung von neuen Meldungen und der Pflege der Meldungen des aktuellen Laufs. Zweiteres ja, ersteres jein. Ich habe Bauchschmerzen ein nicht unterstütztes System zu nutzen, denn das Scribunto-Lua-System ist mir ein Buch mit sieben Siegeln. Was soll ich mit einem Backstein machen, den ich weder debuggen noch modifizieren kann, soll ich mir den gegen den Kopf hauen? Ich kenne zumindest keine fähigen Lua-Spezialisten, die uns hier unterstützen könnten, aber vielleicht gibts ja welche. – Giftpflanze 12:49, 7. Feb. 2016 (CET)Beantworten
Lieber PC, das ist schon ein dickes Ding, „mit stillschweigender Missbilligung zur Kenntnis genommen“. Da fühle ich mich schon mächtig veräppelt. Warum stillschweigend?? Hätte man das nicht damals klären und richtigstellen können?
Ich kann auch nicht nachvollziehen, wo Deine seit einigen Monaten in ihrer Bissigkeit (oder: Verbittertheit?) zunehmenden Antworten ihre Ursache haben. Es wäre mir nicht bewusst, dass ich Dir irgendwo auf die Füße getreten hätte - sollte es so sein, dann lass uns das klären. Ich kann gut trennen zwischen "dafür habe ich keine Kapazitäten, aber der Vorschlag ist gut" und "der Vorschlag ist Murks". Wenn Du immer nur abblockst ist keine konstruktive Zusammenarbeit mehr möglich. --Mabschaaf 13:00, 7. Feb. 2016 (CET)Beantworten
  • Die Aktion „Defekte Weblinks“ bindet seit drei bis sechs Monaten 50 %, phasenweise 75 % meiner Wiki-Aktivität; das obendrein mit dem Anspruch auf schnellste Beseitgung von für alle Benutzer problematischer Situationen.
    • Das ist dann und nur dann akzeptabel, wenn diese Dauerbelastung für diesen einen Aspekt aus einem sehr breiten Spektrum meiner Wiki-Betätigung irgendwann mal ein absehbares Ende haben würde.
    • Statt dessen kamen immer neue immer verstiegenere Wünsche nach immer mehr Links und Buttons und Aktionen und Zusatzprogrammierungen; das ganze für ein ersichtlich endliches Sortiment von teilweise ganzen zwei Dutzend Artikeln, für die eine eigene Benutzeroberfläche programmiert werden solle.
    • Ich habe eine Reihe anderer Felder zugunsten „Defekte Weblinks“ zurückgestellt; hänge insbesondere bei den Zitationsvorlagen um ein halbes Jahr zurück, und habe auch noch eigene Kinderchen zu versorgen und aktuell zu halten. „Defekte Weblinks“ haben jetzt genug Energie gekostet; nun sind wieder andere dran.
    • Insbesondere werde ich keinerlei Aufwand mehr in eine Fortentwicklung der längst als tot bekannten Disku-Technologie stecken; das ist sinnlos verbratene Lebensenergie, die anderswo fehlt.
  • Die Phantasien, man müsse angesichts einer halben Million unbearbeiteter URL in wohl 350.000 Artikeln jetzt die Diskussionsseiten ganz schnell wieder auf einen um einige weniger Monate aktuelleren Stand bringen, während die Verteilungsaktion selbst schon vier Monate dauert und die Arbeitenden reichlich Kraft und Nerven gekostet hatte, hatte ich seit einem Jahr überall zurückgewiesen, wo sie unmittelbar thematisiert wurden.
  • Die Methodik „Diskussionsseite“ war bereits bei den Konflikten 2012 mit Recht als vorsintflutlich eingestuft worden.
    • 2012/2013 hatten wir nichts Besseres als diese Krücke gehabt. Der Toolserver ging seinem Ende entgegen, und die Labs brauchten Jahre, um aus den Kinderschuhen herauszuwachsen.
    • 2013 hatte ich deshalb erstmal das Lua-Modell programmiert, um das bisherige System der Bot-Läufe in der zum damaligen Zeitpunkt einzig verfügbaren Technik verbessert fortzuführen.
    • Insbesondere den Mangel des Laufs 2012 und aller seiner Vorgänger, dass man die vorangegangenen ungültigen Läufe, Bearbeitungshinweise und URL-Listen nicht zentral abschalten kann, wenn ein neuer und gültiger Lauf stattfindet, hatte ich durch Einführung der Lauf-Kennung behoben.
    • Dies war auch von Anfang an in allen Software-Beschreibungen so dokumentiert.
    • Den jetzt 2015 gestarteteten Lauf habe ich ob der starken Überalterung im Artikelbestand und hinsichtlich der oft schon von selbst erledigten und gefixten Disku-Hinweise von 2012 und der mittlerweile marschbereiten Programmierungen noch einmal hingenommen.
  • Alle Kraft, die jetzt dafür investiert wird, die gerade mal wenige Monate alten Disku-Meldungen ganz frisch neu zu schreiben, geht der zukunftsfähigen Weiterentwicklung einer aktuellen Live-Abfrage verloren.
    • Diese Ressourcen sind nur genau einmal vorhanden.
    • Damit investiert man in die Vergangenheit, statt in die Zukunft zu gucken.
    • Es wurde auch nie deutlich, wer bei der Bearbeitung genau welchen Artikels davon profitieren soll, dass die wenige Monate alte Meldung nach dem Gießkannenprinzip ganz frisch wieder neu geschrieben wurde, und ob jemals irgendwer den Unterschied bei genau diesem Artikel wahrnehmen würde. Die Nerverei für Autoren wie Kanalarbeiter steht in keinem vernünftigen Verhältnis zum theoretisch selten mal vorstellbaren Nutzen.
    • Die 500.000 heute bereits als kaputt bekannten URL sind in einem halben Jahr immer noch kaputt, jede Wette. Arbeitet die erstmal ab, dann kann man weitersehen.
VG --PerfektesChaos 13:42, 7. Feb. 2016 (CET)Beantworten
Ich kann Deinen offenbar erhöhten Adrenalinspiegel noch immer nicht nachvollziehen. Wir haben aktuell ein funktionierendes System. Dafür habt ihr beide großartiges geleistet und viel Zeit aufgebracht - natürlich gerade auch für Folgewünsche die erst deutlich wurden, als man sich mit einigen Dutzend bis Hundert Livebeispielen ans Abarbeiten machen konnte.
Ich kann nachvollziehen, wenn Du das aktuelle Konstrukt nicht mehr weiterentwicklen willst, weil Dir eine noch bessere Lösung vorschwebt - die ihrerseits ebenfalls wieder sehr aufwendig zu realisieren sein wird.
Ich kann aber gar nicht nachvollziehen, warum man das zur Verfügung stehende System nicht bis zur Ablösung durch ein besseres - so wie es ist - nutzen sollte. Den Aufwand sehe ich (von außen, klar) wirklich nur darin, die in der Eingangsfrage genannten Parameter für einen (oder mehrere) Folgeläufe so anzupassen, dass die Schnittstelle zwischen beiden Softwarepaketen stimmt. Und wenn ich das hier richtig lese, hatte Gifti den nächsten Lauf auch fest im Blick, egal, ob der jetzt schon im April oder aus Real-Life-Gründen erst im September ansteht.
Dass aktuelle Meldungen auf den Diskus wertvoll sind, steht wohl außer Frage. Spannend finde ich schon, wieviel Edits im nachfolgenden Lauf überhaupt nötig sind, um alle Diskus wieder auf den aktuellen Stand zu bringen. Das hatte ich auch mit dieser Frage im Sinn. Es werden ja kaum 365.000 Edits wie jetzt sein, sondern nur ... (keine Ahnung, vielleicht 100.000?)--Mabschaaf 14:10, 7. Feb. 2016 (CET)Beantworten
Du hast aber kein „funktionierendes System“.
  • Du hast eine für Autoren, Artikelbeobachter, Versionsgeschichten, URL-Abarbeiter, Gifti und mich extrem stressende Behelfskrücke, um sich irgendwie in der alten Technik durchzuwursteln.
  • Für alles und jedes (URL hinzufügen, URL als abgearbeitet markieren) sind Seitenbearbeitungen erforderlich, die dann wieder auf Beo aufschlagen.
  • Die Krönung sind dann die manuellen Löschungen leergearbeiteter Disku-Seiten.
  • Mit Hilfskonstrukten versuchen wir klarzukommen, wenn sich gegenüber dem Bot als unerreichbar gebende Websites dann Browsern gegenüber gnädiger zeigen. Gifti hatte wochenlang Disku-Seiten nachbearbeitet und das schließlich aufgegeben und es dann doch Lua überlassen.
Du hast nur deshalb ein scheinbar „funktionierendes System“, weil du den Aufwand ignorierst, der verbraten wird, um diese Ersatzbehelfstechnologie am Laufen zu halten.
Wenn mindestens zwölf Monate nach Beendigung der letzten Verteilaktion, also offenbar Februar/März 2017, noch kein Nachfolgesystem einsetzbar ist, und so Stücker 100.000 bis 200.000 URL von diesmal weggeputzt wurden, dann kann man mit mir über einen neuen Lauf reden.
  • Jetzt aber anzukommen mit einer neuen Laufkennung „2016-02“ und die frisch geschriebenen Disku-Abschnitte erneut überschreiben zu wollen, noch bevor die Bytes auf der Festplatte getrocknet sind und irgendwas zur flächendeckenden Abarbeitung passieren konnte, ist schon keck.
Wenn du unsere Energien permanent völlig daran bindest, dass Gifti weitere Verteilaktionen betreuen muss und ich der alten Technik softwareseitig hinterherflicken soll, dann wird es niemals irgendeinen Nachfolger geben können.
  • Gib jetzt einfach mal ein Jahr Ruhe; wir haben es in einem Jahrzehnt noch nicht mal geschafft, die Trümmer von 2006 zu beseitigen.
VG --PerfektesChaos 14:59, 7. Feb. 2016 (CET)Beantworten
Ich gebe dann Ruhe, wenn man mich argumentativ überzeugt hat. Du versuchst es aber weitgehend mit "Basta"-Rufen. Für mich ist noch immer nicht erkennbar, dass eine Aktualisierung der Diskus mit der derzeitigen Technik großen Aufwand darstellt oder von der Community (und für die machen wir schließlich das Ganze) nicht gewünscht wäre.
Wie schon oben geschrieben ist Dein Schweigen damals und Dein Mauern jetzt irgendwo zwischen unverständlich und sehr enttäuschend. --Mabschaaf 16:34, 7. Feb. 2016 (CET)Beantworten
  • Du bist es, der etwas haben will, und der fordert, dass andere Leute dafür schuften sollen, und wieder andere die permanente Belästigung auf den Beos dulden sollen.
    • Somit bist du es, der nachweisen muss, dass in Zigtausenden von Diskussionsseiten, die seither wahrscheinlich noch nie eines Menschen Auge erblickt hatte, jetzt ganz dringend was umgeschrieben werden müsse, weil es ja nach ein paar Wochen schon so furchtbar veraltet wäre, dass der Aufwand für einen ganzjährig ununterbrochenen Botlauf-Terror gerechtfertigt sei.
  • Du ignorierst seit Monaten alle Stoppschilder, und weigerst dich vermutlich auch, sowas zur Kenntnis zu nehmen. Es hat seinen Grund, warum nach dem Abschluss des Botlaufs erstmal Erholungspause auf der Agenda steht, danach Abräumen der Hinterlassenschaften von 2006, 2008, 2012. Dann wieder Erholungspause.
  • Die Behauptung, ich würde mauern, ist schlicht falsch.
    • Ich hatte nie die Spur eines Zweifels daran gelassen, dass ein unmittelbar nachfolgender Botlauf mit mir nicht zu wollen ist, sondern allenfalls nach einem längeren Zeitraum mit Gelegenheit zur Abarbeitung der angehäuften Hunderttausende.
    • Das habe ich bei diversen Gelegenheiten kommentiert, wo jemand mit dieser Schnapsidee rüberkam. Das alles aus diversen Archiven rauszusuchen ist mir jetzt zu blöd.
    • Es gibt aber sehr naheliegend: WD:Lua/Werkstatt/Archiv/Defekter Weblink Bot
      • Suche darin nach: 14:43, 30. Nov. 2014 (CET)
      • Oder nach: 01:07, 25. Nov. 2014 (CET)
      • Oder ganz trivial nach #Laufkennung.
  • Ich bin hier kein Sklave, sondern Freiwilliger.
    • Wieviel Zeit und Nerven ich woran verwende, bestimme ich immer noch selbst.
    • Die bestehende Funktionalität für den Lauf 2015-10 werde ich pflegen und funktionierend halten; bei sich ergebender Gelegenheit minimal weiterentwickeln.
    • Eine dynamische Neuentwicklung ohne Inanspruchnahme von Diskussionsseiten werde ich fördern und unterstützen.
    • Alles, was mit Botlauf-Wiederholung vor März 2017 zu tun hätte, hat von meiner Seite nullkommanullnull Sekunden Support.
    • Es ist schon fies genug, mir meinen Sonntag zu ruinieren und mir für mehrere Stunden Ärger und Kilobytes aufzudrücken. Diese Stunden hätte ich lieber gutgelaunt und motiviert mit Neuprogrammierungen verbracht an all den Sachen, die in den vergangenen Monaten zugunsten der Aktion „Defekte Weblinks“ liegengeblieben sind.
  • Falls irgend jemand inzwischen Langeweile haben sollte – ich wüsste da 500.000 kaputte URL in 350.000 Artikeln. Die Webseiten dazu sind in einem und in zwei Jahren immer noch genauso kaputt, versprochen. Dazu muss auch nichts „aktualisiert“ werden. Vielleicht sind es ja irgendwann nur 400.000 URL, aber die Reparierer löschen ja auch immer die URL aus der schrecklichen Vorlage und halten damit die Diskussionsseite dort aktuell, wo Menschen sich um etwas kümmern. Der Rest ist Datenmüll.

VG --PerfektesChaos 18:18, 7. Feb. 2016 (CET)Beantworten

Gerade der von Dir verlinkte Abschnitt #Laufkennung ist mal mindestens kontrovers - um nicht zu sagen innerhalb der 4 Teilnehmer stand es 3:1 gegen Dich. Richtig ist, dass das nie konsensuell gelöst wurde, sondern Du lediglich Kraft Deiner LUA-Fähigkeiten eine Laufkennung der Form yyyy umgesetzt hast und nicht die ebenfalls diskutierte yyyymm.
Anyhow, nur um das mal festzuhalten: Ich habe in diesem ganzen Abschnitt hier nicht eine einzige Forderung gestellt, wie Du mir vorwirfst. Dass es keinen Folgelauf mit dieser Technik geben soll, war keinem hier klar - außer Dir. Wie soll ich da riechen, dass Du das als Affront betrachtest? Selbstverständlich respektiere ich Giftis Real-Life-Aktivitäten (wie oben schon geschrieben - es ist wurscht, ob der Lauf im April oder September losgeschubst wird).
Ob Benutzer das als "Vollrotzen" der Disku sehen? „Citation needed“ würde ich da mal sagen. Autoren, die ihre Babies pflegen, sind für zeitnahe Hinweise dankbar, eine Disku, die nie einer anfasst, hat mit einiger Wahrscheinlichkeit a) keinen erneuten Änderungsbedarf und b) vermutlich eine Beobachterzahl kleiner 3 und damit auch niemanden, der belästigt wird.
Und nun zum dritten Mal: Ich wollte lediglich, dass Du Gifti sehr frühzeitig die neuen Laufkennungen/Parameter nennst, mit denen Dein Modul klaglos funktioniert und die sie nutzen kann um irgendwann ganz nach belieben den nächsten Lauf zu starten. Zeitaufwand für Dich: Ein Einzeiler, keine kB-Disku.--Mabschaaf 20:09, 7. Feb. 2016 (CET)Beantworten
Erstmals Danke an PerfektesChaos und Giftpflanze, es ist schon eine toller Job denn ihr hier leistet. Zum Botlauf: der läuft deutlich besser als ich das dachte, meine Erwartungen waren da deutlich tiefer angesetzt, insbesondere was die Beteiligung betrifft.
Ich verstehe schon, dass die Arbeit hier manchmal etwas zu viel wird, und dass man sich gelegentlich mal etwas zurück nehmen muss, auch wenn das gar nicht so leicht fällt.
Dinge die mich derzeit freuen sind etwa, dass die Anteil der Internet Archive-Verlinkungen die von mir stammen drastisch gesunken ist. Stammten von den ersten 100000 Verlinkungen im ANR gut ein Drittel von mir, ist der Anteil derzeit gerade mal im einstelligen Bereich. Das ist in meinen Augen schon ein gewaltiger Fortschritt, denn es ist grob ungesund, wenn zu viel von einer einzigen Person abhängt.: Auch dass die Botaufträge über WP:WLWBot an Benutzer:Luke081515Bot derzeit schon von mehren Leuten bedient werden können freut mich sehr.
Oder dass wir nun seit einiger Zeit sämtliche Archiv-Verlinkungen durch Vorlagen abdecken ist auch recht erfreulich. Das Äquivalente zu diesem schönen Regexp würde bei uns wesentlich einfacher aussehen.
Wenn ich mir was wünschen dürfte, dann wäre es ein etwas offenerer Zugang. Dass derzeit, das Modul, die Vorlage und selbst die Kategorie vollgesterrt sind, ist nicht wirklich notwendig, die Server brechen auch dann nicht zusammen, wenn am die 500 000 Einbindungen der Vorlage im 5-Minuten-Takt ändert, da hat sich in letzter Zeit schon einiges verbessert, und der Vandalismus auf Diskussionsseiten hält sich sowieso in Grenzen.
zu Wikipedia:Defekte_Weblinks/Bot2015-Problem: könnte es da helfen, wenn bestimmte erfahrene Benutzer, die dort sowieso zu den Stammgästen gehören, die Links gleich in eine Art White-List eintragen, die dann ohne weiteren Arbeitsaufwand direkt vom Bot verwendet wird? Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht20:58, 7. Feb. 2016 (CET)Beantworten

Es ist geschafft![Quelltext bearbeiten]

Der erste Meilenstein ist erreicht. Der Bot ist durch. Halleluja. – Giftpflanze 14:27, 22. Feb. 2016 (CET)Beantworten

Congratulations.
Und nun verschnauf erstmal, und kümmer dich um deinen Schulkrams.
Liebe Grüße --PerfektesChaos 14:28, 22. Feb. 2016 (CET)Beantworten
Glückwunsch!! 129.13.72.198 15:17, 22. Feb. 2016 (CET)Beantworten
Auch von mir: Herzlichen Dank - und weiterhin gute Nerven (für was auch immer)!--Mabschaaf 22:27, 22. Feb. 2016 (CET)Beantworten

Einigermaßen zeitnah sollte jetzt erledigt werden:

-- 129.13.72.198 16:32, 23. Feb. 2016 (CET)Beantworten

Es gibt auch noch alte Hinweise von Benutzer:KuhloBot, die gehören natürlich auch weg. 88.67.121.78 11:59, 31. Dez. 2017 (CET)Beantworten
Ja, aber keine Angelegenheit dieser Werkstatt, sondern der Bot-Betreiber(-in), welch letzterer das auch sehr gut und seit Jahren bekannt ist. Guten Rutsch.

Deaktivieren von Wikipedia:Defekte Weblinks/Bot2015-Problem[Quelltext bearbeiten]

Liebe Mitstreiter,

der Bot (genauer die Aufgabe des Suchens und Meldens toter Links) ist so gut wie tot. Auf Tool Labs gibt es keine Möglichkeit mehr, die Replikas mit eigenen Datenbanken zu joinen. Weblinks werden schon lange nicht mehr geprüft. Ich werde an den Skripten nicht mehr arbeiten (keine mögliche Restrukturierung, keine Ausweitung auf weitere Projekte). Viele Einträge auf der verlinkten Seite sind obsolet, da Domains mit einer Idee Cyberpowers daraufhin geprüft werden können, ob sie wirklich down sind oder sich bloß vor einer automatischen Prüfung verschließen. Es werden aber weiterhin Meldungen abgesetzt. Ich bin deshalb dafür, den Verweis auf die Problem-Seite aus der Vorlage zu tilgen (?) und die Anleitung anzupassen. Die Problemseite selbst kann bleiben, vielleicht ist sie ja noch für irgendwas nützlich. – Giftpflanze 13:49, 20. Mär. 2019 (CET)Beantworten

Tjo, das musst du wissen.
Die Eintragungen auf den Artikeldisk bleiben ja denjenigen, die sie abarbeiten möchten, noch längere Zeit erhalten.
Ohnehin sind dort auch Problemtypen markiert, die dem IABot nicht zugänglich sind.
Realisierte Fixe mittels zwischenzeitlich parallel aufgeschlagenen IABot würden sie automatisch deaktivieren.
Die Problemseite müsste im Kopf einen entsprechenden Hinweis erhalten.
Dass Meldungen von Problemen nunmehr nicht mehr abgearbeitet würden müsste den bisherigen verlinkten Text in der Vorlage ergänzen.
Schönen Dank für deine große Arbeit und die langjährige kontinuierliche Betreuung.
LG --PerfektesChaos 15:32, 20. Mär. 2019 (CET)Beantworten
@Giftpflanze: Sehr schade. Ich hatte immer gehofft, dass der Bot irgendwann quasi kontinuierlich läuft, neue Fehler meldet und alte Meldungen selbst wieder wegfrisst, wenn die Probleme warum auch immer nicht mehr bestehen.
Wenn inzwischen die Infrastruktur dafür weggebröselt ist, dann sei es so.
Das Konzept hier ist aber IABot mM meilenweit voraus.
Auch von meiner Seite: Großen Dank für die vielen investierten Nerven!--Mabschaaf 08:26, 24. Mär. 2019 (CET)Beantworten
Hm, vielleicht überleg ich es mir doch noch. – Giftpflanze 15:21, 24. Mär. 2019 (CET)Beantworten
Gifti, du müsstest ja auch noch eine Datei mit PDF-URL und der Größe in KB haben; die bitte auf jeden Fall aus irgendwelchen Trümmern retten.
IABot kann nur auf direkt angegebene Einzel-URL wirken und diese kommentieren. Alle anderen, sonstwie entstehenden und womöglich 500-fach gleichen URL können nur per Disku sinnvoll und ohne Giga-Gaga-ANR-Verunstaltung aufgearbeitet werden.
LG --PerfektesChaos 15:44, 24. Mär. 2019 (CET)Beantworten
Ich hab grad mal nachgeguckt, in dem, was noch da ist, ist keine solche Datei. Habe ich eine solche mal unter toollabs:giftbot zum Download angeboten? Die dortigen Dateien sind wohl einer Aufräumaktion zum Opfer gefallen. Ich habe in den Quelltextdateien immer wieder Bezüge auf die Downloadgröße gefunden, aber die waren auskommentiert. In den vorhandenen Prüfungs-Ausgabe-Dateien ist keine Größenspalte vorhanden. Die Datenbank ist wohl futsch, im Schema gabs aber auch keinen Hinweis mehr auf die PDF-Größe. – Giftpflanze 17:51, 24. Mär. 2019 (CET)Beantworten
Du hattest das mal nebenbei gesammelt, aber war ja ohnehin 2015/16 und wäre nicht mehr vollständig mit dem heutigen Bestand.
Die Idee ist, eines Tages mal den ANR durchzugehen und alle gut identifizierbaren Quelltexte, insbesondere per Vorlage formal gut auslesbar, mit einem nicht-HTML-Format und der Ressourcengröße nachzurüsten, wenn zweifelsfrei ausgeschlossen werden kann, dass das schon irgendwo mit beisteht.
Wegen allgemeiner Überlastung und vieler anderer Aufgaben aber derzeit nicht auf der Agenda. Insofern auch nicht schlimm.
Wenn 2015 die Größe eines PDF-Dokuments mal bekannt war, dann wird sich unter derselben URL das nur sehr selten geändert haben, und da wo wir das 2009 mal händisch erfasst hatten, prüft ja später auch keiner mehr nach, ob diese Zahl heute noch stimmen würde.
LG --PerfektesChaos 18:42, 24. Mär. 2019 (CET)Beantworten