Diskussion:GB 18030

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 8 Jahren von GiftBot in Abschnitt Defekter Weblink
Zur Navigation springen Zur Suche springen

Notizen (für mich sebst und alle, die hier weiterschrauben wollen)

Pjacobi 16:28, 15. Sep 2005 (CEST)

Auch nicht zugeordnete Unicode-Codepoints ?

[Quelltext bearbeiten]

Laut Chinesische Zeichenkodierung sind nicht 27.484, sondern 110000 Zeichen kodiert.

GB18030 kann alle Unicode-Codepoints darstellen, d.h. 17 * 256 * 256 - ein paar zerquetschte. Die meisten dieser Codepoints sind noch nicht zugeordnet. Ca, 98.000 Zeichen (ohne Steuerzeichen, Private Use und Seltsames) sind Unicode 4.1 -und damit auch in GB18030- definiert. Davon sind 64.000 CJK-Ideogramme (24.000 in der BMP und 40.000 in der SIP), Platz für weitere 24.000 CJK-Ideogramme ist quasi reserviert. --Pjacobi 20:50, 29. Okt 2005 (CEST)

Sind Mappings für die definierten Unicode-Zeichen (etwa 90000) festgelegt, oder gibt es Mappings für alle potentiellen Unicode-Codepoints (1,1 Mill.)? Das sollte im Artikel klar herausgearbeitet werden.

Alle Codepoints, die Zuordnung ist algorithmisch (bis auf gewisse Legacy-Bereiche). --Pjacobi 14:12, 11. Nov 2005 (CET)

Byte Order Mark ?

[Quelltext bearbeiten]

Gibt es für GB18030 eine Byte Order Mark, wenn ja, wie sieht die aus ? Oder ein anderen Verfahren um diese Codierung bei einer einfachen Textdatei zu erkennen ? -- Gerd Fahrenhorst 08:47, 17. Jul. 2007 (CEST)Beantworten

Da die Kodierung auf Bytes basiert braucht man doch garkein BOM? 84.59.108.82 19:37, 16. Mär. 2008 (CET)Beantworten
Man braucht die BOM zwar nicht dafür, die Reihenfolge der Bytes im Wort zu erkennen, könnte sie aber nutzen, um bei einem unbekannten Text die Art der Kodierung zu erfahren - denn wie soll man die sonst ermitteln? -- Gerd Fahrenhorst 19:49, 16. Mär. 2008 (CET)Beantworten
Na, indem man sie wo anders festlegt. Zum Beispiel im E-Mail-Header, oder im HTML-Header. Ein BOM zu benutzen, um das Character-Set zu bestimmen, ist schlechter Stil. Wenn ueberhaupt sollte man es nur benutzen, um die Byte-Order kenntlich zu machen, wobei selbst das eigentlich ins Protokoll selbst gehoert und nicht in die Daten. 84.59.222.42 19:00, 8. Apr. 2008 (CEST)Beantworten

„chinesischer Zeichenkodierungsstandard“

[Quelltext bearbeiten]

Ganz am Anfang des Artikels wird GB18030 als „chinesische[r] Zeichenkodierungsstandard“ bezeichnet, mit einem Link zum Artikel Chinesische Zeichenkodierung, der sich mit der Kodierung chinesischer Schriftzeichen befasst. Ich habe den Link zwar stehen lassen, halte das Ganze aber für irreführend. Speziell chinesisch ist GB18030 nur hinsichtlich seines Herkunftslandes, nicht hinsichtlich der kodierten Schriften.

Es war damals die Zeit, als die VR China der Welthandelsorganisation beitrat, und das erregte dort viel Aufsehen; man wollte für den sich so eröffnenden fast globalen Markt auch durch eine globale Zeichenkodierung gewappnet sein; und was die Schriften Chinas angeht, ging es dabei hauptsächlich auch um Yi, Tibetisch (mit Schriftvariante für Mandschurisch, das bis zur Abdankung Pu Yis 1911 noch Amtssprache im ganzen Reich war), Arabisch (für Uighurisch usw.), Hangeul (für die Koreaner in der Mandschurei), Mongolisch, Kyrillisch (jawohl, es gibt eine kleine offiziell anerkannte alteingesessene russische Minderheit in China!) und noch ein paar weitere.

Wird im Artikel eigentlich erwähnt, dass GB18030 sogar über mehr Codepunkte für die Zukunft verfügt als Unicode mit seinen „nur“ 1.114.112? —LiliCharlie 21:52, 23. Jun. 2014 (CEST)Beantworten

[Quelltext bearbeiten]

GiftBot (Diskussion) 21:40, 22. Dez. 2015 (CET)Beantworten