Wikipedia Diskussion:Technik/Archiv/Umstellung auf Unicode

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Ältere und aktuell nicht unbedingt relevante Diskussionen wurden nach Wikipedia Diskussion:Archiv/Umstellung auf Unicode/Archiv verschoben.

Wieso ist es nötig den Schreibzugriff für die Dauer der Konvertierung zu sperren? Wie im Text bereits erwähnt, funktionieren HTML-Entities auch mit Unicode. Würde es nicht reichen in das Konvertierungstool ein Delay einzubauen, um die Last zu senken und es parallel zu den normalen Edits in der Nacht laufen zu lassen? — Matthäus Wander 00:22, 22. Mär 2004 (CET)

Siehe [1] - die Datenbank wird komplett kopiert, dann wird die Kopie mit einem externen Programm konvertiert. Während der Konvertierung wird noch die alte Datenbank angezeigt; wenn die Konvertierung abgeschlossen wird, wird sie aber gelöscht und die konvertierte Version neu eingespielt. Darum muss sie solange schreibgeschützt werden. Ich gehe davon aus, dass ein Lesezugriff während der ganzen Aktion möglich ist, bis auf die Phase, wo die konvertierte Version eingespielt wird. --Head 00:53, 22. Mär 2004 (CET)


Seiten mit HTML-Entities im Titel[Quelltext bearbeiten]

Bitte hier Seiten (auch Redirects) zusammentragen, die HTML-Entities im Titel haben. Diese werden nämlich bei der Konvertierung nicht automatisch umbenannt, sondern müssen anschließend manuell verschoben werden.

Wie ist das mit Umlauten wie in Pferdestärke? -Bill Öŝn 11:29, 31. Mär 2004 (CEST)

Hier geht's nicht um die Sonderzeichen selbst, sondern nur um deren Kodierung. Im Prinzip gilt das auch für Umlaute. Da die Kodierung von Umlauten in ISO-8859-1 jedoch kein Problem darstellt wird kaum jemand schreiben „Pferdestärke“ (Namensentität), oder „Pferdestärke“ (numerische (dezimale) Entität), sondern einfach „Pferdestärke“ (d.h. direkte Verwendung von „ä“ in ISO-8859-1-Kodierung - bei Verwendung in der URI werden diese vom Browser automatisch URI-kodiert). Es geht darum, solche Sonderzeichen zu finden, die als Entität (also als „&irgenwas;“) kodiert werden. --SteffenB 14:26, 31. Mär 2004 (CEST)

Seiten mit Windows-1252-Zeichen im Titel[Quelltext bearbeiten]

Diese Seiten könnten bei der Umstellung evtl. Probleme machen und sollten ggf. temporär verschoben/gelöscht werden.

Ich habe alle in diesem und im nächsten Abschnitt gelisteten (sowie noch einige weitere hier nicht gelistete gleichgelagerten) Fälle bearbeite, indem ich die Artikel, sofern sie noch unter den hier gelisteten Titeln standen, zu Titeln ohne Sonderzeichen verschoben, die Versionsgeschichten der Redirects, sofern sie mehr als Redirects enthielten, mit denen der Artikel selbst vereinigt, alle Links auf die problematischen Redirect-Seiten geändert und dann die übriggebliebenen verwaisten Redirects gelöscht habe. Lediglich bei den beiden Bildern funktioniert dieses Verfahren nicht, die müssen wohl unter anderem Titel erneut hochgeladen werden. 1001 16:40, 29. Jul 2004 (CEST)

Diese beiden Bilder habe ich nun neu hochgeladen, die Artikel korrigiert und die alten Bilder gelöscht. --Raymond 17:30, 29. Jul 2004 (CEST)
  • [[:Bild:Neujahr 2002 - Blick auf das %80urosymbol.JPG]]
  • [[:Bild:MILAN_%8AUFFLAY.jpg]]
  • [[Aleksandar Ti%9Ama]] mit Diskussionsseite
  • [[Slavoj %8Ei%9Eek]] mit Diskussionsseite
  • der Redirect [[Ko%9Aice]]
  • der Redirect [[Franti%9Akovy Lázne]]
  • [[Tom%E1%9A_Garrigue_Masaryk]] und der Redirect [[Tom%E1%9A_G._Masaryk]]
  • der Redirect [[Franz Pre%9Aeren]] (nach der Umstellung sollte die Seite dort landen)
  • [[Edvard Bene%9A]] mit Diskussionsseite und Redirect [[Eduard_Bene%9A]]
  • ČSSR (auch in der nächsten Kategorie)
  • Krzysztof_Kieślowski (auch in der nächsten Kategorie)
  • Ōsaka (auch in der nächsten Kategorie)
  • Czesław_Miłosz (auch in der nächsten Kategorie)
  • [[Ni%9A]]
  • [[Jaroslav Ha%9Aek]]
  • der Redirect Škoda
  • [[%84W%FCste%93_Blaca_auf_der_Insel_Brac]]
  • der Redirect [[Otto_%8Aimanek]]
  • [[%8Earko_Petan]] mit Diskussionsseite
  • der Redirect [[%8Eupan]]
  • die Redirects Milan Šufflay und Šufflay
  • der Redirect [[Jakub_Bart-Ci%9Ainski]]

Seiten mit rohem UTF-8 im Titel[Quelltext bearbeiten]

Redirects, bei denen munter ignoriert wurde, dass wir noch nicht auf UTF-8 umgestellt haben

Ich habe mal Wikipedia:Browser-FAQ gestartet. Wäre gut, wenn da jemand helfen könnte. --Head 16:41, 14. Apr 2004 (CEST)

Was fehlt jetzt noch?[Quelltext bearbeiten]

Mich würde interessieren, in welchem Zeitraum mit einer Umstellung zu rechnen ist. Eigentlich fehlt doch nicht mehr viel oder interpretiere ich das falsch? Stern 23:45, 4. Mai 2004 (CEST)Beantworten

Würde ich auch gerne wissen. Wie gesagt, je länger wir warten, desto mehr Artikel werden umgestellt, ich würde ein spätestens-Datum vorschlagen (Bsp.: Ende 2004). Allerdings sollte für alle Seiten, die ein Unicode-Sonderzeichen (oder auch nicht-Unicode) enthalten gemäß Namenskonventionen ein Redirect eingesetzt werden. Ich freue mich auf Unicode! -- Jan G 08:12, 6. Mai 2004 (CEST)Beantworten

Wird es nach der Unicodeumstellung eigentlich nicht mehr möglich sein, HTML-Entitäten zu verwenden (was ich schade fände)? Stern 22:57, 7. Mai 2004 (CEST)Beantworten

Soweit ich das verstanden habe, kann man nachher noch genauso wie vorher HTML-Entitäten verwenden, es geht darum, dass man nicht mehr muss.
Ich würd auch sagen: Energie!
Das größte Problem ist wohl IE unter Mac OS. Meinungen dazu? – Hokanomono|Diskussion 11:32, 10. Mai 2004 (CEST)Beantworten
wenn ich das richtig sehe, gibt es da Ausweichmöglichkeiten? Ich bin für sofortiges Umstellen! (wie schon ganz oben geschrieben) -- Schusch 12:09, 10. Mai 2004 (CEST)Beantworten

Wenn man wirklich so viel Angst vor der Umstellung hat, erkundige man sich doch bei Wikipedias, die schon länger Unicode verwenden, wie sie die Probleme gelöst haben (falls diese bei denen überhaupt auftraten). -- Jan G 07:42, 18. Mai 2004 (CEST)Beantworten

  • Die Angst ist durchaus berechtigt. Die umgestellten Wiki sind entweder sehr klein, oder stammen aus Gegenden, wo man schon immer mit ISO8859-1 nicht sehr weit kam und daher andere Browser verwendet hat. Es ist kein Zufall, dass für die 6 verbliebenen 8859er Wikis gilt:
welcher anonymus das auch immer geschrieben haben mag - welche "Angst"? Wenn, dann ist es Vorsicht - allerdings wird die Umstellung eben mit jedem Tag (mit jedem Artikel) mühsamer, und sie kommt irgendwann doch. Zum Thema "kein Zufall" - soweit ich weiß (da kann ich mich irren, aber das ist auch nicht so wichtig) fehlt im französischen ein Buchstabe, das "oe" in iso-8859-1 ... das heißt, sie kommen unserer Situation immerhin sehr nahe, und es scheint funktioniert zu haben - klar kann man immer vorsichtig sein ... aber ich bin weiterhin für eine sofortige Umstellung! Damit schließlich würden wir uns auch von der amerikanisierung unseres Zeichensatzes endlich lossagen und ein wesentlich größeren Zeichensatz zur Verfügung haben - man muß ja nicht gleich alles benutzen, aber zumindest die Basis ist dann geschaffen -- Schusch 00:43, 20. Mai 2004 (CEST)Beantworten
Bei der Gelegenheit möchte ich mal darauf hinweisen, dass das deutsche Wiktionary bereits umgestellt. Aus den Erfahrungen, die ich dabei gesammelt habe, möchte ich vorerst gegen einen Umstieg stimmen. Es gibt immenoch Seiten, die falsch angezeigt werden (die Auflistung der Spezialseiten zum Beispiel) und alle MediaWikibausteine mussten überarbeitet weden. Außerdem waren kurzfristig alle Versionen nicht erreichbar, die vor der umstellung lagen (wir sind nicht sicher, ob jetzt alle da sind). Nur meine Meinung. --DaB. 10:04, 20. Mai 2004 (CEST)Beantworten
  • Schusch:"Welche Angst?": 6. Wort im Beitrag von Jan G.
    Umstellung von fr: offenbar ist fr die einzige große Wiki, die je umgestellt wurde. Es hat dort Schwierigkeiten gegeben, aber immerhin kann man auf der Basis der dortigen Erfahrungen es in de besser machen. In en gibt es eine Unicode-Diskussion mit der Essenz, dass es vermutlich nie eine Umstellung geben würde, erst die Umstellung von fr hat dort eine Aussicht auf Machbarkeit aufgezeigt.
    "wesentlich größerer Zeichensatz/Lossagung von der Amerikanisierung":Ja genau! Künftig nur noch deutſche Schrift (ausser für die Schweizer) und immer den Unterſchied von ſ und s beachten :-) (nicht signierter Beitrag von 195.93.72.17 (Diskussion)) 10:22, 20. Mai 2004 (CEST)Beantworten


Es fehlt nichts mehr außer "Bescheid" zu sagen. In der französischen Wikipedia gibt es etwa alle zwei Wochen eine durch falsche Browser zerschossene Seite und um das zu reparieren sind wohl genug Benutzer da. -- Müssen wir jetzt über die Umstellung abstimmen oder gehts diesmal ohne? -- Schnargel 21:21, 21. Mai 2004 (CEST)Beantworten

Argumente gegen die sofortige Umstellung gibt es nicht gerade Kistenweise. Es sind:
  • Netscape 4 kommt damit nicht zurecht - wobei das nicht viel am aktuellen Zustand ändert, die Startseite ist ihm auch schon zu hoch.
  • MSIE auf MacOS macht Unicode kaputt. Das Ding ist rapide dabei, selten zu werden. Die Kompatibilität zur Windows-Version hält sich gewaltig in Grenzen, so dass das kein Argument ist ihn zu erhalten. Afaik gibt es sogar in Frankreich mehr Mac-User als hier...
  • Einige Textbrowser brauchen spezielle Einstellungen.
alle diese Problemkinder haben eines gemeinsam: sie sind selten und werden noch seltener. Ich rechne nicht mit Problemen, die nicht binnen Tagen (=einmal versucht, dann erkannt dass der benutzte Browser nix taugt) weg sind. TheK 18:59, 2. Jun 2004 (CEST)


Da das ganze hier nicht wirklich vorwärts geht und einige immer noch starke Bedenken haben, würde ich vorschlagen, einen Testlauf mit einer Kopie zu starten.

Der einfachste Weg wäre wohl, die Developer zu bitten, de2.wikipedia.org oder so einzurichten und es auf UTF-8 umzustellen. Das hätte auch den Vorteil, dass diejenigen, die nachher die echte Wikipedia umstellen, schonmal "üben" können. Allerdings könnte ich mir vorstellen, dass die DB-Server sowieso schon ächzen und eine Test-Konvertierung sie in die Knie zwängen könnte.

Darum die Alternatividee: jemand setzt eine lokale Wikipedia-Kopie auf, lädt sich das Konvertierungsscript von Med runter und stellt auf UTF-8 um. Ich würd das gern machen, hab aber leider absolut keine Ahnung von Apache, SQL und php, am besten macht es also jemand, der schonmal eine lokale Wikipedia aufgesetzt hat.

Anschließend versuchen alle ein paar Tage lang, das ganze mit verschiedenen Browsern kaputtzukriegen. Mit den Ergebnissen könnten wir dann die Browserliste und die Browser-FAQ weiter füllen und ein Gefühl dafür entwickeln, an welchen typischen Fehlern man nicht-kompatible Browser erkennt, um dann den entsprechenden Benutzern möglichst schnell Hinweistexte auf die Diskussionsseite stellen zu können. --Head 00:59, 5. Jun 2004 (CEST)

Zustimmung (aber keine Möglichkeit für einen Webserver) -- Schusch 01:36, 5. Jun 2004 (CEST)
Gute Idee. --DaB. 12:57, 12. Jun 2004 (CEST)
Auf in die Zukunft! -- sk 14:41, 12. Jun 2004 (CEST)
Ein Testlauf wäre wirklich nicht schlecht. --zeno 10:49, 13. Jul 2004 (CEST)

Usernamen / "impostor"[Quelltext bearbeiten]

Werden Usernamen nach der Umstellung ebenfalls Unicode-Zeichen enthalten können? Ich bin entschieden dagegen, da sich Trolle unter Usernamen anmelden würden, die denen anderer Wikipedianer (auch und gerade Sysops) sehr ähnlich sehen werden. Geschehen auf der englischen Wikipedia mit einem Troll, der sich mit RìckK, RickK·, RïckK, RíckK anmeldete und sich als Sysop RickK ausgab. Unicode bietet eine Unmenge von Zeichen, die gleich aussehen, aber unterschiedliche Codes haben. -- Stw 01:35, 12. Jun 2004 (CEST)

Wozu sollen solche Trolle Unicode nehmen: Du hast gerade perfekt demonstriert, dass es auch mit 8859-1 geht. Solche Probleme gab's auch mit Ex-Thomasx1, der sich als Ulrich Fuchs (statt Ulrich.Fuchs) oder so ähnlich ausgab, etc. -- Ichs Meinung 11:16, 2. Jul 2004 (CEST)
Mit Unicode kann man Benutzernamen noch viel besser fälschen. Es gibt im Unicode Buchstaben, die komplett identisch aussehen, aber einen anderen Code haben. Das trifft wohl besonders auf "e" und "c" zu. Bei den 8859-1 sehen die Buchstaben noch leicht unterschiedlich aus, bei Unicode wären sie identisch! --DaB. 00:53, 8. Jul 2004 (CEST)
Es gibt sogar ein Feature hier, mit dem ich einstellen kann, welcher Name bei einer Tildenunterschrift angezeigt werden soll. Ausserdem braucht man nicht mit Tilden unterschreiben, sondern kann auch direkt eine gefälscht Unterschrift in den Wikitext schreiben. Bei der Versionsgeschichte ist das meines Erachtens nicht so kritisch, da der Link zur richtigen Seite führt und Beschwerden daher an der richtigen Adresse ankommen. Ansonsten gilt sinnvolles Handeln. Wenn jemand einen Benutzernamen fälscht und damit vandaliert, wird er eben gesperrt. Wozu seid ihr Admins? -- Dishayloo [ +] 12:01, 8. Jul 2004 (CEST)
Unfug läßt sich wie gesagt auch ohne Unicode treiben. Wie oft gesagt wird, gibt es selten technische Lösungen für soziale Probleme. Link zum Thema ;-) http://www.rnicrosoft.com -- Pjacobi 09:46, 29. Jul 2004 (CEST)

Ich bin ebenfalls defintiv für die Umstellung auf Unicode. Eins sollte allen hier klar sein: Je länger wir warten desto komplizierter wird es (längere dowtime etc. (nicht signierter Beitrag von Drzed (Diskussion | Beiträge)) 21:59, 26. Jun. 2004 (CEST)Beantworten

ein paar interessante Fakten zu Problembrowsern[Quelltext bearbeiten]

  • Netscape 4/Linux stellt die utf-8 Seite im Bearbeiten-Fenster nur bis zum ersten ihm bekannten Sonderzeichen dar, dann ist Ende. Es ist also nicht zu übersehen, dass das nix wird.
  • Die Anzeige der Startseite in Netscape 4 ist einfach zu beschreiben: es wird alles übereinander angezeigt, auf nds: sieht man gleich gar nichts. Beide Versionen sind mit dem "Ding" also nicht benutzbar.
  • auf fr: waren bei der Umstellung 6,5% Problembrowser, heute sind es 2,5%. Bei uns sind es derzeit unter 1%.
TheK 17:27, 7. Jul 2004 (CEST)

Spanische Wikipedia wurde umgestellt[Quelltext bearbeiten]

Zur Information: die spanische Wikipedia plant ihre UTF-8-Umstellung [2]. Sie haben ebenso wie die französische Wikipedia eine Abstimmung abgehalten, die 8:1 ausging (bei den Franzosen 25:1 oder so). Sollten wir auch ein Meinungsbild starten? Für die, die spanisch können: es:Wikipedia:Paso a UTF-8 --Head Diskussion 17:44, 12. Jul 2004 (CEST)

Die Umstellung von es: ist jetzt beendet. Die Beschriftung des MediaWiki-Interfaces wurde nicht konvertiert, das lässt sich aber notfalls auch manuell korrigieren: wenn man mit Mozilla die HTML-Version von Spezial:Allmessages betrachtet, erscheinen die kaputten Sonderzeichen als auffällige eingekreiste Fragezeichen.
Evtl. kann uns auch das deutsche Wiktionary helfen. --Head Diskussion 00:04, 19. Jul 2004 (CEST)
Das Problem mit dem nicht-Anpassen des Interfaces scheint doch schwerwiegender zu sein. Ich sehe zumindest immer noch keine korrekten Sonderzeichen, und dieser Fehler hat zumindest auch zu Problemen beim Lösch-Logbuch geführt. Das sollten wir unbedingt klären, bevor wir de: umstellen. --Head Diskussion 14:23, 19. Jul 2004 (CEST)

Meinungsbild[Quelltext bearbeiten]

verschoben auf Wikipedia:Meinungsbilder/Umstellung auf Unicode, mit besserer Erklärung.

Kacke, da schaut man mal 'n paar Tage nicht hin und verpasst die Abstimmumg (auch wenn „paar“ relativ viele sind). Aber endlich wird mal umgestellt! Das finde ich gut! Volle Unterstützung!! -- Ichs Meinung 21:35, 27. Jul 2004 (CEST)

Warnhinweis umformulieren[Quelltext bearbeiten]

Hallo, wo kann man denn den Hinweis zur herannahenden Umstellung bearbeiten? Er sollte benutzerfreundlicher formuliert werden, etwa so:

In der Nacht vom 29. auf den 30. Juli wird die Wikipedia auf den internationalen Zeichensatz UTF-8 umgestellt. Während dieser Zeit ist möglicherweise der Server nicht erreichbar, oder es werden keine Schreibzugriffe auf Seiten möglich sein.

Viele Grüße, Langec 22:02, 27. Jul 2004 (CEST)

Artikelnamen nach der Umstellung[Quelltext bearbeiten]

Wenn es dazu an anderer Stelle schon eine Diskussion gibt, leitet mich bitte dahin.

  1. Sind nach der UTF-8 Umstellung Artikelnamen mit nicht-ISO-8859-1 Zeichen erwünscht/empfohlen?
  2. Falls der "korrektere", nicht mit ISO-8859-1 darstellbare Name, vorzuziehen ist: Sollen dann auch die alten Artikel im Laufe der Zeit umgestellt werden?
  3. An die Techniker: Kann dann die Suchfunktion ein Mapping auf ASCII bekommen, d.h. "Munchen" findet "München", "Nirvana" findet "Nirvāṇa", "Breidablik" findet "Breiðablik" und "CSSR" findet "ČSSR"?

Pjacobi 09:40, 29. Jul 2004 (CEST)

Ja, das waere echt toll. Es ist ganz schoen nervig, wenn man auf US-Tastaturen staendig die Layouts wechseln muss
es ist nur noch "nicht-ISO-8859-1" möglich, da ISO-8859-1 durch UTF-8 ersetzt wird. Du meinst aber natürlich, ob man z.B. einen Artikel "ζ" oder "Zeta" nennen sollte. Die Antwort ist: den "korrekteren" Namen verwenden, und Redirects machen! Das gilt auch schon für bestehende Artikel, aber da können wir nach und nach umstellen, falls nötig. Zur Frage 3: kann schon, aber jemand muss es machen ;-) -- stw (Talk) 13:31, 29. Jul 2004 (CEST)
Danke für Klarstellung. Ich meinte natürlich Zeichen, die im ISO-8859-1 Zeichenvorrat vorkommen bzw. nicht vorkommen. Daß die Zeichen nicht mehr mit der ISO-8859-1 Zeichencodierung codiert werden, ist hoffentlich allgemein klar. Redirects: Aber nicht "Munchen" zu "München"", oder? Das machen wir nur, falls jemand die technische Lösung spendet, nehme ich an. -- Pjacobi 18:55, 29. Jul 2004 (CEST)