Benutzer Diskussion:SirJective/Gleichlautender Titel

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 18 Jahren von APPER in Abschnitt Alle Sprachen prüfen
Zur Navigation springen Zur Suche springen

Keim dieser Liste[Quelltext bearbeiten]

(Diskussion von Wikipedia Diskussion:Datenbank-Abfragen hierher verschoben. --SirJective 01:12, 7. Feb 2005 (CET))

Falls jemand neben der deutschen Tabelle auch die englische Installiert hat, wäre eine Liste interessant, in der alle deutschen Artikel stehen, die keine interwiki-Links haben, zu denen es aber englische Artikel mit dem gleichen Lemma gibt. Ich habe bei Personen in der letzten Zeit bemerkt, dass es häufig noch gar keine Interwiki-Verbindung gibt und in beiden Sprachen Artikel existieren. Die interwiki-Bots aktualisieren ja nur anhand vorhandener Interwiki-Links, aber die erste Verbindung herzustellen ist ja nicht unbedingt automatisch möglich, aber eine Liste würde helfen, grade bei Personen. MfG --APPER\☺☹ 20:37, 21. Dez 2004 (CET)

Das sollte nicht allzu schwierig sein. Derzeit hab ich die englische DB nicht da, aber mit dem nächsten Dump kann ich sie runterladen.
Die SQL-Abfrage für der Existenz von Interwiki-Links ist etwas umfangreicher, ich hab da auf Benutzer Diskussion:Mathias Schindler/Interwikiliste eine Abfrage, von der man ausgehen könnte. Damit könnte man eine Liste der Titel deutscher Artikel erzeugen, die keinen Interwiki-Link haben. Diese Liste kann man dann mit den englischen Titeln abgleichen. Ich hab die Abfrage bildlich vor Augen *gg* --SirJective 22:03, 21. Dez 2004 (CET)
Ich bin seit ein paar Tagen dabei, dies von Hand zu machen, an Hand der Kategorien "Niederländer" und "Franzose". Ist schon mühselig, aber es bringt auch was. Problem ist auf jeden Fall die unterschiedliche Schreibweise der Namen: mal mit, mal ohne Akzente, mal nur ein Vorname, mal alle Vornamen... --Raymond 22:09, 21. Dez 2004 (CET)^
Ja, diese Unterschiede könnten die Automatik ausbremsen. Ich werd erstmal schauen, was die Abfrage so findet, vielleicht reicht es ja schon als Start. --SirJective 23:11, 21. Dez 2004 (CET)
Ja technisch ist das zumindest bei gleichen Lemmas kein Problem, ich arbeite auch schon lange genug mit SQL um das hinzubekommen, aber ich will mir nicht noch die englische Datenbank installieren, mir reicht schon die deutsche ;). Die Abfrage nach interwiki sollte nicht sooo umständlich sein, wenn man sich auf einige große beschränkt und in diesem Fall würde ja vielleicht sogar reichen die zu übernehmen, die keinen en:-Link haben. Dann jeweils alle löschen lassen, die in einer anderen Tabelle nicht existieren ist sql-technisch im Gegensatz zu dem was du sonst schon gemacht hast (Hut ab!) kein Problem. MfG --APPER\☺☹ 04:44, 22. Dez 2004 (CET)

Noch eine kleine Ergänzung: Dies betrifft natürlich auch Ortsnamen. Doch dort unterscheidet sich das Lemma auch manchmal, z.B. Martigny VS in der deutschen, en:Martigny, Switzerland in der englischen, fr:Martigny (Valais) in der französischen. --Filzstift 08:24, 22. Dez 2004 (CET)

Das stimmt. In diesem Beispiel würde immerhin die BKS en:Martigny (ebenso auf fr:) gefunden werden. Schlimmstenfalls würde die Abfrage also eine Zuordnung der Begriffsklärungsseiten liefern. Ich werde übrigens Redirects nicht aus der Abfrage ausschließen, sondern lediglich markieren (u.U. eignet sich ja der Zielartikel für einen Interwiki-Link).
Mir machen die Umlaute und Akzente mehr Sorgen, da auf de UTF-8 verwendet wird, aber auf en LATIN1. Da aber beide als LATIN1-Binär-Strings in der DB gespeichert sind, müssen die deutschen Titel erstmal als UTF-8 eingelesen werden. Ich weiß nicht, ob und wie MySQL 4.0.16 das kann. Falls es nicht geht, kann ich den Vergleich selbst aber immer noch mit einem JAVA-Programm machen (da kann ich bequem die Textkodierung angeben). --SirJective 16:36, 22. Dez 2004 (CET)
Ich hab jetzt etwa 10.000 Artikel, die
  • sowohl in de: als auch in en: existieren,
  • weder in de: noch in en: ein Redirect sind,
  • in de: keinen Interwiki-Link nach en: haben.
Da ich das oben erwähnte Problem der verschiedenen Textkodierung noch nicht behoben habe, umfassen diese Artikel nur Artikel, in denen weder Umlaute noch Akzente vorkommen. Einen kleinen Teil der Liste lade ich hoch: Benutzer:SirJective/Gleichlautender Titel in de und en. --SirJective 19:20, 11. Jan 2005 (CET)
Okay danke, das sieht gut aus ;). Die Frage ist nur, wie man verhindern kann, dass abgearbeitete Artikel bei einem eventuellen Neudurchlauf in ein paar Monaten wieder erkannt werden - aber ich denke mal, dass das nicht sooo schnell vorkommt, also werd ich einfach mal anfangen zu vergleichen und mal schauen, bei wievielen artikeln sich das lohnt... wenn es wirklich viele sind, würd ich vorschlagen, die ganze liste irgendwo abzulegen, dass sich die leute dem widmen können ;) MfG --APPER\☺☹ 22:04, 11. Jan 2005 (CET)
So erster Bericht: ich habe die angegebenen 9 Z-Lemmas durchgeschaut: Es ergibt sich dabei ein Fall, der die meisten Fehler bringt: de ist Begriffsklärung, en verlinkt korrekt auf einen der begriffsgeklärten Artikel. Das ist bei vier der neun Artikel so. Vier weitere sind richtige Erkennungen, das heißt die Interwiki-Links fehlten völlig. Im neunten Fall existierte zwar ein Link von en auf de, aber nicht umgekehrt. Daraus ergibt sich: es wäre praktisch, wenn die Fälle ausgeschlossen werden, in denen aus en nicht auf "de:Exaktes Lemma" gelinkt wird, sondern auf irgendeine andere de-Seite. Damit würde man die BKL-Sache ausschließen können, die wie gesagt im kleinen Test mehr als 40% ausgemacht hat. MfG --APPER\☺☹ 22:30, 11. Jan 2005 (CET)
Artikel, für die kein sinnvoller Interwiki-Link gefunden wird, könnte ich in eine Ausschlussliste übernehmen, die von den Bearbeitern der Liste gefüllt wird.
Nach Interwikis auf der en-Seite hab ich noch nicht geschaut. Ich dachte mir schon, dass es nötig wird, auch die zu untersuchen.
Du meinst also, wenn die en-Seite bereits auf eine andere als die namensgleiche de-Seite verweist, sollte dieser Titel weggelassen werden - klingt sinnvoll. (Den de-Link von en:Zwiebelkuchen hab übrigens ich angelegt. *g* Den Rücklink hab ich aus unbekannten Gründen verpennt.)
Korrekt markierte BKS kann ich durch die verwendeten Vorlagen identifizieren. Ich könnte ja erstmal nur Paare listen, wo keiner der beiden eine BKS ist; das dürften auch einige tausend sein. --SirJective 22:57, 11. Jan 2005 (CET)
Warum die BKS ausschließen? Interwikilinks von de:BKS auf en:BKS und umgekehrt sind auch auch sehr sinnvoll. --Raymond 08:43, 13. Jan 2005 (CET)
Hallo SirJective, ja absolut klasse die Liste. Ich habe mir einige angeschaut und man kann damit gut arbeiten. Evtl. kannst Du noch die Interwiki-Links, die von en: irgendwohin (abgesehen von de:) zeigen, mit auflisten? de en (--> fr zh) usw. Und falls möglich, auch einen Abgleich zwischen de und fr bzw. fr und en? Könnte natürlich etwas viel werden... --Raymond 21:01, 11. Jan 2005 (CET) (von Raymonds Disk. hierher kopiert. SirJective 22:57, 11. Jan 2005 (CET))
Diese Liste war gedacht als Keim für die bereits durch Wikipedia:Bots stattfindende Weiterverlinkung. Siehe vor allem Benutzer:Zwobot. D.h. die Weiterverlinkung aller anderen Sprachen wird primär durch Bots erledigt. Die haben durch widersprüchliche Verlinkungen genug Probleme bei der Abarbeitung, wo jede Hilfe willkommen ist.
Eine Angabe der Interwiki-Links der Seiten wäre möglich, für eine manuelle Bearbeitung halte ich sie aber für weniger hilfreich.
Eine analoge Prüfung zwischen anderen Sprachen könnte ich natürlich auch durchführen. --SirJective 22:57, 11. Jan 2005 (CET)
Ok, mit dem Zwobot habe ich mich noch nie näher beschäftigt, aber macht Sinn was Du sagst. --Raymond 08:43, 13. Jan 2005 (CET)

(Ende des verschobenen Teils.)

Alle Sprachen prüfen[Quelltext bearbeiten]

Hier bräuchte man auch ein tool vergleichbar dem Apper-Personendaten-Tool um ggf alle Sprachen in denen es gleichgeschriebene Artikel gibt abzuchecken. --Flacus 00:23, 7. Feb 2005 (CET)

Dafür sind eigentlich die Interwiki-Bots da (Wikipedia:Bots, vor allem der Zwobot), und diese Liste diente nur als Keim für jene. Diese Bots folgen Interwiki-Links zu anderen WPs, aber wo noch keine sind, sind sie natürlich machtlos.
Ich könnte die Namenslisten der anderen WPs herunterladen und abgleichen; allein damit könnte ich aber noch nicht prüfen, ob die Seiten dort Redirects sind oder ob sie bereits auf eine andere de-Seite verweisen. Die kompletten Artikeltexte herunterzuladen würde ich zwar auch runterladen können, das wäre mir aber vermutlich in Summe zu aufwändig (für einige andere WPs könnte ich das natürlich tun).
Ich glaube nicht, dass ein Tool, das z.B. in allen 100+ WPs nach Artikeln mit einem bestimmten Titel sucht, gegenüber einem Abgleich der Dumps von Vorteil wäre.
Ich möchte an dieser Stelle übrigens auch mal auf eine verwandte Liste hinweisen:
Benutzer:Mathias_Schindler/Interwikiliste, diese Liste enthält die Seiten mit den meisten Interwiki-Links, denen aber ein Link zu einer vorgegebenen Sprache noch fehlt.
--SirJective 01:12, 7. Feb 2005 (CET)

Ein 3 Frame Fenster ... links einen Deutschen , rechts eine Englischen Eintrag und unten ein ist gleich ja/Nein. So könnte man schnell lsiten abarbeiten udn später dann mittels Bot alles setzen. ggf könnte man dann auch de<->fr oder de<->es laufen lassen. --Flacus 03:21, 8. Feb 2005 (CET)

Das ist eine gute Idee. Wie könnte man sie umsetzen? --SirJective 12:17, 8. Feb 2005 (CET)
Gar nicht so leicht, da sich Wikipedia-Seiten nicht in Frames packen lassen (brechen per Javascript aus). Wenn jemand dafür eine Lösung finden würde... Am einfachsten wär, alles selbst irgendwie zu parsen und darzustellen, aber ich hab keine Lust, mir das Mediawiki-Zeug noch genauer anzuschauen. Ein Mini-Mediawiki, dass einfach nur die parse()-Funktion bereitstellt und der man den Quelltext gibt in PHP wär wünschenswert. Aber selbst dann muss nach dem Ja/Nein das ja noch irgendwie eingefügt werden... Wird nur eine Liste für einen Bot angelegt? Finde ich kritisch... Also ich denke nicht, dass das so ohne weiteres automatisierbar ist. MfG --APPER\☺☹ 05:50, 28. Mai 2005 (CEST)Beantworten