Teletext-Zeichensätze (ETSI EN 300 706)

Die folgenden Tabellen beschreiben die in ETSI EN 300 706 definierten 7-Bit-Zeichensätze des in Europa verwendeten Teletext-Standards.

Allgemeines[Bearbeiten | Quelltext bearbeiten]

Die jeweils ersten 32 Positionen (00_hex bis 1F_hex) der Zeichensätze sind nicht definiert. Diese Zeichencodes sind aber in der einfachen Level-1-Teletext-Seite als Steuerzeichen definiert.

Das Zeichen 24_hex stellt im lateinischen G0-Standard-Primärzeichensatz das allgemeine Währungssymbol (¤) und in den anderen G0-Primärzeichensätzen das Dollarzeichen ($) dar.

Das Zeichen 2A_hex in den G0-Primärzeichensätzen stellt abhängig von der Ansteuerung das Sternchen (*) oder das At-Zeichen (@) dar.

Das ausgefüllte Rechteck an der Position 7F_hex in den G0-Primärzeichensätzen und in manchen G2-Ergänzungszeichensätzen ist so groß wie die maximale Ausdehnung aller Buchstaben ohne Unterlänge. Es besitzt keine festgelegte Unicode-Zuordnung und ist hier wie das Zeichen FE_hex (■) in DOS-Zeichensätzen codiert, was auch bei vielen softwarebasierten Decodern gebräuchlich ist. Das genaue Layout des Unicode-Zeichens ist stark von der Schriftart abhängig, aber zumindest in der Schriftfamilie „Courier“ entspricht das ausgefüllte Quadrat (■) mit der Unicodenummer 25A0_hex weitgehend dem in ETSI EN 300 706 angegebenen Beispiellayout. Allerdings ist das Rechteck im arabischen G0-Primärzeichensatz mit etwas Unterlänge wie der arabische Buchstabe Alif maqṣūra (‭ﻯ) an der Position 70_hex dargestellt, was aber auch nicht bei allen Decodern der Fall ist.^[1]

Die G2-Ergänzungszeichensätze und der G3-Zeichensatz „Hochauflösende Grafik“ werden ab Teletext-Präsentationslevel 1.5 unterstützt. Bei vielen Level-1.5-Decodern ist der Zeichenvorrat dieser Zeichensätze aber noch eingeschränkt.

Legende[Bearbeiten | Quelltext bearbeiten]

A	Γ	Buchstabe des Grundalphabets (lateinische / nicht-lateinische Schrift)
ß	ά	Sonderbuchstabe oder Ergänzung
`	΄	Diakritisches Zeichen (alleinstehend)
ò		Diakritisches Zeichen (kombinierend)
2	٢	Ziffer des Zahlensystems
½		Zahlzeichen
@	₪	Interpunktions- oder Sonderzeichen
o̲		Kombinierendes Sonderzeichen
▌	◣	Grafik- oder Rahmenelement (in Unicode definiert / nicht definiert)
␠	_RLM	Leer- oder Steuerzeichen
		Undefiniertes Zeichen
\| ¦		Zeichen mit Layoutvariation (oftmals der niedrigen Auflösung geschuldet oder historisch bedingt^[2] )
₄₁	₄₁	Siehe Anmerkungen zur Tabelle (eindeutige / verschiedene Codierungen)
Α A	‭ﺏ ﺐ	Kontextabhängige Bedeutung (identisches Layout / passende Form)
У (Y)	‭ﺁ (ﺂ)	Kontextabhängige Bedeutung (unterschiedliches Layout / fehlende Form)
Ë\|$		Verschiedene Codierungen (von der Ansteuerung oder dem Decoder abhängig)

Bei den Unicodenummern ist jeweils der offizielle Unicode-Name als (ungültiger) Weblink angegeben, damit dieser als Hinweistext angezeigt werden kann – eine bessere Möglichkeit dafür sieht die Wikisyntax nicht vor. Bei Zeichen ohne Unicode-Zuordnung („N/A“) wird hier ein beschreibender Name verwendet, der sich an den Namen ähnlicher Unicode-Zeichen orientiert.

Lateinisch[Bearbeiten | Quelltext bearbeiten]

Die lateinischen G0- (Variante „Standard“) und G2-Zeichensätze sind im Wesentlichen identisch mit dem 8-Bit-Zeichensatz ISO 6937-2:1983/Add 1:1989 (ISO-IR-142) ergänzt durch die zwei Zeichen A6_hex (#) und A8_hex (¤) aus dem äquivalenten 8-Bit-Zeichensatz ITU T.61 (siehe dazu auch die aktuelle Fassung ISO 6937:2001), wobei der G2-Ergänzungszeichensatz den Zeichen A0_hex bis FF_hex entspricht.

Lateinischer G0-Primärzeichensatz (Europäisch)
Auswahlbits: siehe nationale Varianten
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	# ⋕ 0023 23	¤ 00A4 24	% 0025 25	& 0026 26	' ’ 0027 27	( 0028 28	) 0029 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	, 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	; 003B 3B	< 003C 3C	= 003D 3D	> 003E 3E	? 003F 3F
4_	@ 0040 40	A 0041 41	B 0042 42	C 0043 43	D 0044 44	E 0045 45	F 0046 46	G 0047 47	H 0048 48	I 0049 49	J 004A 4A	K 004B 4B	L 004C 4C	M 004D 4D	N 004E 4E	O 004F 4F
5_	P 0050 50	Q 0051 51	R 0052 52	S 0053 53	T 0054 54	U 0055 55	V 0056 56	W 0057 57	X 0058 58	Y 0059 59	Z 005A 5A	[ 005B 5B	\ 005C 5C	] 005D 5D	^ 005E 5E	_ 005F 5F
6_	` ‵ 0060 60	a 0061 61	b 0062 62	c 0063 63	d 0064 64	e 0065 65	f 0066 66	g 0067 67	h 0068 68	i 0069 69	j 006A 6A	k 006B 6B	l 006C 6C	m 006D 6D	n 006E 6E	o 006F 6F
7_	p 0070 70	q 0071 71	r 0072 72	s 0073 73	t 0074 74	u 0075 75	v 0076 76	w 0077 77	x 0078 78	y 0079 79	z 007A 7A	{ 007B 7B	\| ¦ 007C 7C	} 007D 7D	~ ~ 007E 7E	■ 25A0 7F

Das Zeichen 7F_hex (■) ist abweichend zu ISO 6937 codiert.

Das doppelte Anführungszeichen (") an der Position 22_hex ist in ETSI EN 300 706 im Beispiellayout typografisch korrekt als schließendes Anführungszeichen im Englischen (”) mit der Unicodenummer 201D_hex dargestellt. Allerdings sollte das Zeichen trotzdem gemäß ISO 6937 als neutrale Variante codiert werden, um optisch und semantisch besser auch als öffnendes Anführungszeichen im Englischen (“) verwendet werden zu können. Außerdem ist die typografisch korrekte Variante zusätzlich an der Position 3A_hex im lateinischen G2-Ergänzungszeichensatz mit anderem Beispiellayout eher als schließendes Anführungszeichen dargestellt.

Das Nummernzeichen (#) an der Position 23_hex ist in ETSI EN 300 706 im Beispiellayout mit senkrechten Strichen dargestellt, wobei es sich aber nur um eine Layoutvariation handelt, die wohl der niedrigen Auflösung geschuldet sein dürfte.

Das Hochkomma (') an der Position 27_hex ist in ETSI EN 300 706 im Beispiellayout typografisch korrekt dargestellt und könnte auch mit den optisch passenderen, alternativen Unicode-Zeichen schließendes einfaches Anführungszeichen im Englischen (’) mit der Unicodenummer 2019_hex oder modifizierendes Hochkomma (ʼ) mit der Unicodenummer 02BC_hex codiert werden, was aber beides abweichend zu ISO 6937 wäre und bei einer Verwendung als öffnendes Anführungszeichen im Englischen (‘) optisch und semantisch nicht passen würde. Außerdem ist die typografisch korrekte Variante zusätzlich an der Position 39_hex im lateinischen G2-Ergänzungszeichensatz mit anderem Beispiellayout eher als schließendes Anführungszeichen dargestellt.

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Das Sternchen (*) an der Position 2A_hex ist in ETSI EN 300 706 im Beispiellayout groß, sechsstrahlig, auf einem Strahl stehend und vertikal zentriert dargestellt und könnte auch mit dem optisch passenderen, alternativen Unicode-Zeichen Sternchen-Operator (∗) mit der Unicodenummer 2217_hex codiert werden, was aber abweichend zu ISO 6937 wäre.

Der Kurzstrich (-) an der Position 2D_hex kann entsprechend EBU Tech 3232-a und ITU T.61 auch kontextabhängig als Bindestrich (‐) mit der Unicodenummer 2010_hex oder als Minuszeichen (−) mit der Unicodenummer 2212_hex codiert werden. Außerdem kann das Zeichen auch als Gedankenstrich (–) mit der Unicodenummer 2013_hex verwendet werden.^[3] Allerdings sollte für den langen Gedankenstrich im Englischen (—) mit der Unicodenummer 2014_hex besser die horizontale Linie (―) an der Position 60_hex in der Variante „Englisch“ und an der Position 50_hex im lateinischen G2-Ergänzungszeichensatz oder zwei aufeinanderfolgende Kurzstriche verwendet werden.^[4]^[5]

Der Großbuchstabe I an der Position 49_hex kann als Großbuchstabe für den Kleinbuchstaben i an der Position 69_hex und als Großbuchstabe für den Kleinbuchstaben i ohne Punkt (ı) an der Position 60_hex bzw. 5F_hex in den beiden Varianten „Türkisch“ und „Rumänisch“, sowie an der Position 75_hex im lateinischen G2-Ergänzungszeichensatz verwendet werden. Der Kleinbuchstabe i an der Position 69_hex kann als Kleinbuchstabe für den Großbuchstaben I an der Position 49_hex und als Kleinbuchstabe für den Großbuchstaben I mit Punkt (İ) an der Position 40_hex in der Variante „Türkisch“ und für die entsprechende Kombination im lateinischen G2-Ergänzungszeichensatz verwendet werden. Auch in Unicode wird jeweils nicht zwischen den beiden optisch identischen Zeichen unterschieden.^[6]

Der Zirkumflex (^) an der Position 5E_hex ist in ETSI EN 300 706 im Beispiellayout groß und hochgestellt dargestellt, so wie es auch in modernen Druckschriften üblich ist.^[7]

Der Unterstrich (_) an der Position 5F_hex ist in ETSI EN 300 706 im Beispiellayout links und rechts nicht verbindend dargestellt, was aber in modernen Druckschriften unüblich ist.^[8]

Das alleinstehende diakritische Zeichen Gravis (`) an der Position 60_hex ist in ETSI EN 300 706 im Beispiellayout von der Größe und Höhenlage passend als vertikal gespiegeltes Gegenstück zur typografisch korrekten Form des Hochkommas (’) an der Position 27_hex dargestellt, hat aber noch die gerade Linienform und Schräglage eines Gravis. Trotzdem könnte das Zeichen eventuell auch als öffnendes einfaches Anführungszeichen im Englischen (‛) mit der Unicodenummer 201B_hex verwendet werden, was aber abweichend zu ISO 6937 wäre und semantisch nicht passen würde.^[9]

Der senkrechte Strich (|) an der Position 7C_hex ist in ETSI EN 300 706 im Beispiellayout in der Mitte unterbrochen (sowie oben und unten nicht verbindend) dargestellt und könnte auch mit dem optisch passenderen, alternativen Unicode-Zeichen unterbrochener Strich (¦) mit der Unicodenummer 00A6_hex codiert werden, was aber abweichend zu ISO 6937 wäre. Außerdem handelt es sich dabei nur um eine historisch bedingte Layoutvariation.^[10]

Die Tilde (~) an der Position 7E_hex ist in ETSI EN 300 706 im Beispiellayout groß und hochgestellt dargestellt und ist in dieser Form in Unicode nicht als eigenständiges Zeichen definiert. Das alleinstehende diakritische Zeichen Tilde (˜) mit der Unicodenummer 02DC_hex passt zwar von der Höhenlage, ist aber zu klein. Entsprechend EBU Tech 3232-a und ITU T.101 kann zur Codierung alternativ auch das Unicode-Zeichen Überstrich (‾) mit der Unicodenummer 203E_hex oder eventuell auch das alleinstehende diakritische Zeichen Makron (¯) mit der Unicodenummer 00AF_hex verwendet werden, was aber beides abweichend zu ISO 6937 wäre und abweichend zu ITU T.101 üblicherweise links und rechts verbindend ist.^[11]

Die Codierung der anderen fett umrahmten Zeichen ist von der Ansteuerung und der ausgewählten nationalen Variante abhängig.

Lateinischer G0-Primärzeichensatz – Nationale Varianten
	0_	1_	2_	3_	4_	6_	8_	23	24	40	5B	5C	5D	5E	5F	60	7B	7C	7D	7E
	Auswahlbits G2 = Arabischer G2							23	24	40	5B	5C	5D	5E	5F	60	7B	7C	7D	7E
Standard								# ⋕ 0023 23	¤ 00A4 24	@ 0040 40	[ 005B 5B	\ 005C 5C	] 005D 5D	^ 005E 5E	_ 005F 5F	` ‵ 0060 60	{ 007B 7B	\| ¦ 007C 7C	} 007D 7D	~ ~ 007E 7E
Tschechisch/Slowakisch	06	16			46			# ⋕ 0023 23	ů 016F 24	č 010D 40	ť tˇ 0165 5B	ž 017E 5C	ý 00FD 5D	í 00ED 5E	ř 0159 5F	é 00E9 60	á 00E1 7B	ě 011B 7C	ú 00FA 7D	š 0161 7E
Englisch	00		20				80 G2	£ 00A3 23	$ 0024 24	@ 0040 40	← 2190 5B	½ 00BD 5C	→ 2192 5D	↑ 2191 5E	# ⋕ 0023 5F	― 2015 60	¼ 00BC 7B	∥ 2225 7C	¾ 00BE 7D	÷ 00F7 7E
Estnisch					42			# ⋕ 0023 23	õ 00F5 24	Š 0160 40	Ä 00C4 5B	Ö 00D6 5C	Ž 017D 5D	Ü 00DC 5E	Õ 00D5 5F	š 0161 60	ä 00E4 7B	ö 00F6 7C	ž 017E 7D	ü 00FC 7E
Französisch	04	14	24				84 G2	é 00E9 23	ï 00EF 24	à 00E0 40	ë 00EB 5B	ê 00EA 5C	ù 00F9 5D	î 00EE 5E	# ⋕ 0023 5F	è 00E8 60	â 00E2 7B	ô 00F4 7C	û 00FB 7D	ç 00E7 7E
Deutsch	01	11	21		41			# ⋕ 0023 23	$ 0024 24	§ 00A7 40	Ä 00C4 5B	Ö 00D6 5C	Ü 00DC 5D	^ 005E 5E	_ 005F 5F	° 00B0 60	ä 00E4 7B	ö 00F6 7C	ü 00FC 7D	ß 00DF 7E
Italienisch	03	13	23					£ 00A3 23	$ 0024 24	é 00E9 40	° 00B0 5B	ç 00E7 5C	→ 2192 5D	↑ 2191 5E	# ⋕ 0023 5F	ù 00F9 60	à 00E0 7B	ò 00F2 7C	è 00E8 7D	ì 00EC 7E
Lettisch/Litauisch					43			# ⋕ 0023 23	$ 0024 24	Š 0160 40	ė 0117 5B	ę 0119 5C	Ž 017D 5D	č 010D 5E	ū 016B 5F	š 0161 60	ą 0105 7B	ų 0173 7C	ž 017E 7D	į 012F 7E
Polnisch		10						# ⋕ 0023 23	ń 0144 24	ą 0105 40	Ż Ƶ 017B 5B	Ś 015A 5C	Ł 0141 5D	ć 0107 5E	ó 00F3 5F	ę 0119 60	ż 017C 7B	ś 015B 7C	ł 0142 7D	ź 017A 7E
Portugiesisch/Spanisch	05		25					ç 00E7 23	$ 0024 24	¡ 00A1 40	á 00E1 5B	é 00E9 5C	í 00ED 5D	ó 00F3 5E	ú 00FA 5F	¿ 00BF 60	ü 00FC 7B	ñ 00F1 7C	è 00E8 7D	à 00E0 7E
Rumänisch				37				# ⋕ 0023 23	¤ 00A4 24	Ț 021A 40	Â 00C2 5B	Ș 0218 5C	Ă 0102 5D	Î 00CE 5E	ı 0131 5F	ț 021B 60	â 00E2 7B	ș 0219 7C	ă 0103 7D	î 00EE 7E
Serbisch/Kroatisch/Slowenisch				35				# ⋕ 0023 23	Ë 00CB 24	Č 010C 40	Ć 0106 5B	Ž 017D 5C	Đ 0110 5D	Š 0160 5E	ë 00EB 5F	č 010D 60	ć 0107 7B	ž 017E 7C	đ 0111 7D	š 0161 7E
Schwedisch/Finnisch, Ungarisch	02	12	22					# ⋕ 0023 23	¤ 00A4 24	É 00C9 40	Ä 00C4 5B	Ö 00D6 5C	Å 00C5 5D	Ü 00DC 5E	_ 005F 5F	é 00E9 60	ä 00E4 7B	ö 00F6 7C	å 00E5 7D	ü 00FC 7E
Türkisch			26			66		Tʟ N/A 23	ğ 011F 24	İ 0130 40	Ş 015E 5B	Ö 00D6 5C	Ç 00C7 5D	Ü 00DC 5E	Ğ 011E 5F	ı 0131 60	ş 015F 7B	ö 00F6 7C	ç 00E7 7D	ü 00FC 7E

In den nationalen Varianten sind das Háček (ˇ) und das Breve (˘) bei den Sonderbuchstaben in ETSI EN 300 706 ungenau gleich dargestellt. In den Sprachen der drei Varianten „Tschechisch/Slowakisch“, „Lettisch/Litauisch“ und „Serbisch/Kroatisch/Slowenisch“ wird nur das Háček verwendet, während in den Sprachen der beiden Varianten „Rumänisch“ und „Türkisch“ nur das Breve verwendet wird. Dementsprechend sind die betreffenden Buchstaben in den Varianten codiert.^[12]

In der Variante „Tschechisch/Slowakisch“ ist beim Kleinbuchstaben t mit Háček (ť) an der Position 5B_hex in ETSI EN 300 706 das Háček (ˇ) in normaler Form dargestellt, wird aber in modernen Druckschriften beim Kleinbuchstaben t häufig in einer Form ähnlich einem Hochkomma (ʼ) rechts neben dem Grundzeichen dargestellt. Die Codierung ist identisch, da es sich dabei nur um eine Layoutvariation handelt.^[13]

Die Variante „Englisch“ ist im Wesentlichen identisch mit dem 7-Bit-Zeichensatz des britischen Viewdata-Standards (ISO-IR-47), nur das Zeichen 5F_hex (#) ist abweichend codiert.

Die beiden Pfeile nach links (←) und rechts (→) an den Positionen 5B_hex und 5D_hex sind in ETSI EN 300 706 im Beispiellayout passend zur horizontalen Linie (―) an der Position 60_hex dargestellt und können jeweils am Anfang mit dieser nahtlos verbunden werden. In so einer Kombination sollte die horizontale Linie semantisch passend als horizontale Linienerweiterung (⎯) mit der Unicodenummer 23AF_hex codiert werden, wobei das Unicode-Zeichen aber derzeit nur von sehr wenigen Schriftarten (korrekt) unterstützt wird.

Das Doppelkreuz (#) an der Position 5F_hex ist in ETSI EN 300 706 gleich dargestellt wie das Nummernzeichen an der Position 23_hex in der Variante „Standard“ und dementsprechend identisch codiert. Das Zeichen ist im Viewdata-Standard als Viewdata-Quadrat (⌗) mit der Unicodenummer 2317_hex codiert, das zwar optisch ähnlich ist, aber korrekt dargestellt doch anders aussieht (siehe ISO-IR-47)^[14] und eine andere semantische Bedeutung als Abschlusszeichen für Adressen hat, die im Teletext nicht gegeben ist.

Die horizontale Linie (―) an der Position 60_hex kann gleichermaßen auch als langer Gedankenstrich im Englischen (—) mit der Unicodenummer 2014_hex verwendet werden^[4] und ist in ETSI EN 300 706 im Beispiellayout links und rechts verbindend dargestellt.^[15]

Der vertikale Doppelstrich an der Position 7C_hex ist entsprechend EBU Tech 3232-a als Parallelzeichen (∥) codiert und in ETSI EN 300 706 im Beispiellayout oben und unten nicht verbindend dargestellt. Entsprechend der Zeichenbezeichnung im Viewdata-Standard kann zur Codierung eventuell auch das optisch identische Unicode-Zeichen doppelte vertikale Linie (‖) mit der Unicodenummer 2016_hex verwendet werden. Allerdings ist dieses Zeichen gemäß RFC 1345^[16] auch dort als Parallelzeichen codiert. Aber unabhängig von der primären Codierung kann das Zeichen gleichermaßen als Parallelzeichen und als doppelte vertikale Linie verwendet werden.

Die Variante „Deutsch“ ist im Wesentlichen identisch mit dem deutschen 7-Bit-Zeichensatz DIN 66003 (ISO-IR-21), nur das Zeichen 60_hex (°) ist abweichend codiert.

In der Variante „Lettisch/Litauisch“ sind die beiden Kleinbuchstaben e mit Ogonek (ę) und i mit Ogonek (į) an den Positionen 5C_hex und 7E_hex in ETSI EN 300 706 wohl falsch mit Cedille (¸) dargestellt, da diese im Lettischen oder Litauischen nie mit Cedille, dafür aber mit Ogonek (˛) verwendet werden. Eine alternative Codierung ist nicht erforderlich, da die falsch dargestellten Buchstaben nicht einmal im europäischen Raum vorkommen, also wohl auch niemals verwendet werden dürften.^[12]

In der Variante „Polnisch“ ist der Großbuchstabe Z mit Überpunkt (Ż) an der Position 5B_hex in ETSI EN 300 706 zwar als Z mit Querstrich (Ƶ) dargestellt, wird aber üblicherweise nicht so codiert, da es sich dabei nur um eine Layoutvariation handelt.^[17] Außerdem ist der zugehörige Kleinbuchstabe an der Position 7B_hex auch in ETSI EN 300 706 als z mit Überpunkt (ż) dargestellt.

In der Variante „Rumänisch“ sind die beiden Buchstaben T mit Unterkomma (Ț/ț) und S mit Unterkomma (Ș/ș) an den Positionen 40_hex/60_hex und 5C_hex/7C_hex entsprechend der rumänischen Standardisierungsbehörde mit Unterkomma ( ̦ ) codiert (siehe auch ISO 8859-16). Allerdings wurden diese bis Anfang der 1990er Jahre in internationalen Standards lediglich als Layoutvariationen der Buchstaben T mit Cedille (Ţ/ţ) und S mit Cedille (Ş/ş) betrachtet, und auch in ISO 6937 sind nur die Sonderbuchstaben mit Cedille (¸) vorhanden.^[18]

In der Variante „Serbisch/Kroatisch/Slowenisch“ stellt das Zeichen 24_hex anstelle des Großbuchstabens E mit Trema (Ë) bei manchen Decodern das Dollarzeichen ($) mit der Unicodenummer 0024_hex oder den gemeinen Bruch ein Halb (½) mit der Unicodenummer 00BD_hex dar.

Die Variante „Schwedisch/Finnisch, Ungarisch“ ist identisch mit dem schwedischen 7-Bit-Zeichensatz SEN 850200 Annex C (ISO-IR-11).

In der Variante „Türkisch“ ist das Zeichen für die türkische Währung (Tʟ) an der Position 23_hex in dieser Form nur im Teletext zu finden und wird ansonsten ganz normal mit den zwei einzelnen Großbuchstaben TL dargestellt. Dafür gibt es in Unicode aber verschiedene Währungssymbole, die für die türkische Währung verwendet werden können: das Türkische Lirazeichen (₺) mit der Unicodenummer 20BA_hex, das Lirazeichen (₤) mit der Unicodenummer 20A4_hex und das Pfundzeichen (£) mit der Unicodenummer 00A3_hex.

Lateinischer G2-Ergänzungszeichensatz (Europäisch)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	¡ 00A1 21	¢ 00A2 22	£ 00A3 23	$ 0024 24	¥ 00A5 25	# ⋕ 0023 26	§ 00A7 27	¤ 00A4 28	‘ 2018 29	“ 201C 2A	« 00AB 2B	← 2190 2C	↑ 2191 2D	→ 2192 2E	↓ 2193 2F
3_	° 00B0 30	± 00B1 31	² 00B2 32	³ 00B3 33	× 00D7 34	µ 00B5 35	¶ 00B6 36	· 00B7 37	÷ 00F7 38	’ 2019 39	” 201D 3A	» 00BB 3B	¼ 00BC 3C	½ 00BD 3D	¾ 00BE 3E	¿ 00BF 3F
4_	40	` 0060 41	´ 00B4 42	ˆ 02C6 43	˜ 02DC 44	¯ ˉ 00AF 45	˘ 02D8 46	˙ 02D9 47	¨ 00A8 48	̣ N/A 49	˚ 02DA 4A	¸ (̦ ) 00B8 (N/A) 4B	_ 005F 4C	˝ 02DD 4D	˛ 02DB 4E	ˇ 02C7 4F
Komb.	40	ò 0300 41	ó (ģ) 0301 (0327) 42	ô 0302 43	õ 0303 44	ō 0304 45	ŏ 0306 46	ȯ 0307 47	ö 0308 48	ọ 0323 49	å 030A 4A	ç (o̦) 0327 (0326) 4B	o̲ 0332 4C	ő 030B 4D	ǫ 0328 4E	ǒ 030C 4F
5_	― 2015 50	¹ 00B9 51	® 00AE 52	© 00A9 53	™ 2122 54	♪ 266A 55	₠ 20A0 56	‰ 2030 57	∝ 221D 58	59	5A	5B	⅛ 215B 5C	⅜ 215C 5D	⅝ 215D 5E	⅞ 215E 5F
6_	Ω 2126 60	Æ 00C6 61	Đ Ð 0110 00D0 62	ª 00AA 63	Ħ 0126 64	65	Ĳ 0132 66	Ŀ 013F 67	Ł 0141 68	Ø 00D8 69	Œ 0152 6A	º 00BA 6B	Þ 00DE 6C	Ŧ 0166 6D	Ŋ 014A 6E	ŉ 0149 6F
7_	ĸ 0138 70	æ 00E6 71	đ 0111 72	ð 00F0 73	ħ 0127 74	ı 0131 75	ĳ 0133 76	ŀ 0140 77	ł 0142 78	ø 00F8 79	œ 0153 7A	ß 00DF 7B	þ 00FE 7C	ŧ 0167 7D	ŋ 014B 7E	■ 25A0 7F

Die sechs Zeichen 20_hex (Leerzeichen), 49_hex (   ̣), 56_hex (₠), 57_hex (‰), 58_hex (∝) und 7F_hex (■) sind abweichend zu ISO 6937 und ITU T.61 codiert.

Das Leerzeichen an der Position 20_hex kann entsprechend ISO 6937 eventuell auch als geschütztes Leerzeichen mit der Unicodenummer 00A0_hex codiert werden. Allerdings ist das Zeilenumbruchverhalten im Teletext ohne Bedeutung.

Die beiden Pfeile nach links (←) und rechts (→) an den Positionen 2C_hex und 2E_hex sind in ETSI EN 300 706 im Beispiellayout passend zur horizontalen Linie (―) an der Position 50_hex dargestellt und können jeweils am Anfang mit dieser nahtlos verbunden werden. In so einer Kombination sollte die horizontale Linie semantisch passend als horizontale Linienerweiterung (⎯) mit der Unicodenummer 23AF_hex codiert werden, wobei das Unicode-Zeichen aber derzeit nur von sehr wenigen Schriftarten (korrekt) unterstützt wird.

Das alleinstehende diakritische Zeichen Gravis (`) an der Position 41_hex ist im lateinischen G0-Standard-Primärzeichensatz in ETSI EN 300 706 mit anderem Beispiellayout dargestellt und kann zur Unterscheidung auch mit dem alternativen Unicode-Zeichen modifizierender Gravis (ˋ) mit der Unicodenummer 02CB_hex codiert werden. Allerdings sind diese beiden Zeichen in modernen Druckschriften optisch identisch.^[9] Passend dazu könnte dann eventuell auch das alleinstehende diakritische Zeichen Akut (´) an der Position 42_hex mit dem alternativen Unicode-Zeichen modifizierender Akut (ˊ) mit der Unicodenummer 02CA_hex codiert werden, was aber abweichend zu ISO 6937 wäre.

Da die alleinstehenden diakritischen Zeichen Zirkumflex (ˆ) an der Position 43_hex und Tilde (˜) an der Position 44_hex im lateinischen G0-Standard-Primärzeichensatz in ETSI EN 300 706 mit anderem Beispiellayout dargestellt sind, wird eine optisch passendere, alternative Codierung als in ISO 6937 verwendet (siehe Windows-1252).^[7]^[11]

Das Layout des alleinstehenden diakritischen Unicode-Zeichens Makron (¯) an der Position 45_hex ist ebenfalls stark von der Schriftart abhängig und gleicht oftmals eher dem Überstrich (‾), daher müsste zur Codierung eigentlich das optisch passendere, alternative Unicode-Zeichen modifizierendes Makron (ˉ) mit der Unicodenummer 02C9_hex verwendet werden, was aber abweichend zu ISO 6937 wäre.^[19]

Das diakritische Zeichen in Form eines horizontalen Doppelpunktes (¨) an der Position 48_hex kann entsprechend EBU Tech 3232-a und ITU T.61 als Trema und als Umlautpunkte verwendet werden. Auch in Unicode wird nicht zwischen diesen beiden optisch identischen Zeichen unterschieden. Wenn eine semantische Unterscheidung notwendig ist^[20] dann kann das diakritische Zeichen Trema mit der Unicode-Zeichenfolge kombinierender Graphemverbinder mit der Unicodenummer 034F_hex und kombinierendes Trema (¨) mit der Unicodenummer 0308_hex codiert werden, während das diakritische Zeichen Umlautpunkte ganz normal mit dem Unicode-Zeichen kombinierendes Trema (¨) mit der Unicodenummer 0308_hex oder den mit Trema zusammengesetzten Unicode-Zeichen codiert wird.^[21] Dabei sollte man sich nicht durch die Namen der Unicode-Zeichen irritieren lassen.^[22]

Das diakritische Zeichen Cedille (¸) an der Position 4B_hex kann historisch betrachtet auch als Unterkomma ( ̦ ) verwendet werden.^[18]

Die kombinierende Unterstreichung (_) und damit einhergehend auch der Unterstrich an der Position 4C_hex sind in ETSI EN 300 706 im Beispiellayout links und rechts nicht verbindend dargestellt^[8] und sollten besser mit Hilfe der Schriftauszeichnung „Unterstreichen“ realisiert werden.^[23] Dementsprechend sollte eventuell auch der Unterstrich an der Position 5F_hex im lateinischen G0-Primärzeichensatz bei der Schriftauszeichnung „Unterstreichen“ als geschütztes Leerzeichen codiert werden, um eine doppelte Linie zu vermeiden und eine einheitliche Linienführung zu erreichen. Aber zumindest in der Schriftfamilie „Courier“ ist der Unterstrich optisch kompatibel mit der Schriftauszeichnung „Unterstreichen“.

Die horizontale Linie (―) an der Position 50_hex kann gleichermaßen auch als langer Gedankenstrich im Englischen (—) mit der Unicodenummer 2014_hex verwendet werden^[4] und ist in ETSI EN 300 706 im Beispiellayout links und rechts verbindend dargestellt.^[15]

Das Proportionalzeichen (∝) an der Position 58_hex wird in EBU Tech 3232-a wohl falsch als Alpha bezeichnet, ist aber nicht zu verwechseln mit dem griechischen Kleinbuchstaben Alpha (α), da beide Zeichen in ETSI EN 300 706 mit unterschiedlichem Beispiellayout dargestellt sind.^[24]

Das Zeichen 62_hex kann entsprechend EBU Tech 3232-a und ISO 6937 als Großbuchstabe D mit Querstrich (Đ) für den gleichnamigen Kleinbuchstaben (đ) an der Position 72_hex und als isländischer Großbuchstabe Eth (Ð) für den gleichnamigen Kleinbuchstaben (ð) an der Position 73_hex verwendet werden. Im Zweifelsfall ist die erste Unicodenummer gemäß ISO 6937 zu wählen.

Das Zeichen für den unbestimmten Artikel in Afrikaans (ŉ) an der Position 6F_hex ist nur in Kleinschreibung vorhanden und wird üblicherweise auch immer kleingeschrieben. In Versalschreibweise wird das Zeichen ganz normal mit dem Großbuchstaben N an der Position 4E_hex mit einem vorangestellten modifizierenden Hochkomma (ʼ) an der Position 27_hex jeweils im lateinischen G0-Primärzeichensatz dargestellt.^[25] Die großgeschriebene Form ist auch in Unicode nicht als eigenständiges Zeichen definiert.

Der früher verwendete grönländische Buchstabe Kra (ĸ) an der Position 70_hex ist nur als Kleinbuchstabe vorhanden. Der zugehörige Großbuchstabe wird mit dem Großbuchstaben K an der Position 4B_hex mit einem nachfolgenden modifizierenden Hochkomma (ʼ) an der Position 27_hex jeweils im lateinischen G0-Primärzeichensatz dargestellt und ist auch in Unicode nicht als eigenständiges Zeichen definiert.^[26]

Als Großbuchstabe für den türkischen Kleinbuchstaben i ohne Punkt (ı) an der Position 75_hex wird der Großbuchstabe I an der Position 49_hex im lateinischen G0-Primärzeichensatz verwendet. Das ist auch in Unicode so vorgesehen (siehe auch Anmerkung zum lateinischen G0-Primärzeichensatz).^[27]

Der deutsche Buchstabe Eszett (ß) an der Position 7B_hex ist nur als Kleinbuchstabe vorhanden. Die Großschreibung erfolgt üblicherweise mit zwei aufeinanderfolgenden Großbuchstaben S an der Position 53_hex im lateinischen G0-Primärzeichensatz und ist in dieser Form auch in Unicode nicht als eigenständiges Zeichen definiert.^[28] Erst 2008 wurde das Eszett in Großbuchstabenform (ẞ) als neues Zeichen in Unicode aufgenommen und ist seit 2017 Bestandteil der amtlichen deutschen Rechtschreibung.^[29]

Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die unterstützten Kombinationen sind vom Decoder abhängig. Im Zweifelsfall sollte man sich auf die in ISO 6937 festgelegten Kombinationen beschränken. Dementsprechend wird auch zur Darstellung des Kleinbuchstabens g mit Cedille (ģ) der Kleinbuchstabe g abweichend zu Unicode mit dem Akut (´) an der Position 42_hex kombiniert. Auch bei den beiden kyrillischen und griechischen G2-Ergänzungszeichensätzen sollten die kombinierenden Zeichen nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.

Kyrillisch[Bearbeiten | Quelltext bearbeiten]

Die kyrillischen G0-Primärzeichensätze sind größtenteils identisch mit dem 7-Bit-Zeichensatz GOST 13052 (übernommen in ISO-IR-111), wobei die Großbuchstaben und Kleinbuchstaben vertauscht und somit wie in den anderen Zeichensätzen angeordnet sind.

Kyrillischer G0-Primärzeichensatz – Variante 1 – Serbisch/Kroatisch
Auswahlbits: 40
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	# ⋕ 0023 23	$ 0024 24	% 0025 25	& 0026 26	' ’ 0027 27	( 0028 28	) 0029 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	, 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	; 003B 3B	< 003C 3C	= 003D 3D	> 003E 3E	? 003F 3F
4_	Ч 0427 40	А A 0410 0041 41	Б 0411 42	Ц 0426 43	Д 0414 44	Е 0415 45	Ф 0424 46	Г 0413 47	Х X 0425 0058 48	И 0418 49	Ј 0408 4A	К 041A 4B	Л 041B 4C	М M 041C 004D 4D	Н H 041D 0048 4E	О O 041E 004F 4F
5_	П 041F 50	Ќ 040C 51	Р P 0420 0050 52	С C 0421 0043 53	Т T 0422 0054 54	У (Y) 0423 (0059) 55	В B 0412 0042 56	Ѓ 0403 57	Љ 0409 58	Њ 040A 59	З 0417 5A	Ћ 040B 5B	Ж 0416 5C	Ђ 0402 5D	Ш 0428 5E	Џ 040F 5F
6_	ч 0447 60	а a 0430 0061 61	б 0431 62	ц 0446 63	д 0434 64	е 0435 65	ф 0444 66	г 0433 67	х x 0445 0078 68	и 0438 69	ј 0458 6A	к 043A 6B	л 043B 6C	м (m) 043C (006D) 6D	н (h) 043D (0068) 6E	о o 043E 006F 6F
7_	п 043F 70	ќ 045C 71	р p 0440 0070 72	с c 0441 0063 73	т (t) 0442 (0074) 74	у y 0443 0079 75	в (b) 0432 (0062) 76	ѓ 0453 77	љ 0459 78	њ 045A 79	з 0437 7A	ћ 045B 7B	ж 0436 7C	ђ 0452 7D	ш 0448 7E	■ 25A0 7F

Die zwei Zeichen 24_hex ($), 7F_hex (■) und zwölf kyrillische Buchstabenpaare sind abweichend zu GOST 13052 codiert und so weit wie möglich passend zur lateinischen G0-Variante „Serbisch/Kroatisch/Slowenisch“ angeordnet (siehe Kyrillisches Alphabet, Serbisch, Serbokroatisch und Montenegrinisch).

Das Zeichen 24_hex stellt anstelle des Dollarzeichens ($) bei manchen Decodern den kyrillischen Großbuchstaben Jo (Ё) mit der Unicodenummer 0401_hex bzw. den lateinischen Großbuchstaben E mit Trema (Ë) mit der Unicodenummer 00CB_hex dar.^[1]

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Der kyrillische Buchstabe Dže (Џ) an der Position 5F_hex ist nur als Großbuchstabe vorhanden. Der zugehörige Kleinbuchstabe џ mit der Unicodenummer 045F_hex kann ersatzweise mit den zwei aufeinanderfolgenden kyrillischen Kleinbuchstaben De (д) und Sche/Že (ж) an den Positionen 64_hex und 7C_hex dargestellt werden.^[30]

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Kyrillischer G0-Primärzeichensatz – Variante 2 – Russisch/Bulgarisch
Auswahlbits: 44
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	# ⋕ 0023 23	$ 0024 24	% 0025 25	ы 044B 26	' ’ 0027 27	( 0028 28	) 0029 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	, 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	; 003B 3B	< 003C 3C	= 003D 3D	> 003E 3E	? 003F 3F
4_	Ю 042E 40	А A 0410 0041 41	Б 0411 42	Ц 0426 43	Д 0414 44	Е 0415 45	Ф 0424 46	Г 0413 47	Х X 0425 0058 48	И 0418 49	Й (Ѝ) 0419 (040D) 4A	К 041A 4B	Л 041B 4C	М M 041C 004D 4D	Н H 041D 0048 4E	О O 041E 004F 4F
5_	П 041F 50	Я 042F 51	Р P 0420 0050 52	С C 0421 0043 53	Т T 0422 0054 54	У (Y) 0423 (0059) 55	Ж 0416 56	В B 0412 0042 57	Ь 042C 58	Ъ 042A 59	З 0417 5A	Ш 0428 5B	Э 042D 5C	Щ 0429 5D	Ч 0427 5E	Ы 042B 5F
6_	ю 044E 60	а a 0430 0061 61	б 0431 62	ц 0446 63	д 0434 64	е 0435 65	ф 0444 66	г 0433 67	х x 0445 0078 68	и 0438 69	й (ѝ) 0439 (045D) 6A	к 043A 6B	л 043B 6C	м (m) 043C (006D) 6D	н (h) 043D (0068) 6E	о o 043E 006F 6F
7_	п 043F 70	я 044F 71	р p 0440 0070 72	с c 0441 0063 73	т (t) 0442 (0074) 74	у y 0443 0079 75	ж 0436 76	в (b) 0432 (0062) 77	ь 044C 78	ъ 044A 79	з 0437 7A	ш 0448 7B	э 044D 7C	щ 0449 7D	ч 0447 7E	■ 25A0 7F

Die drei Zeichen 24_hex ($), 26_hex (ы) und 7F_hex (■) sind abweichend zu GOST 13052 codiert, sowie die beiden kyrillischen Buchstabenpaare an den Positionen 59_hex/79_hex (Ъ/ъ) und 5F_hex/26_hex (Ы/ы) entsprechend der bulgarischen Variante vertauscht.

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Der kyrillische Buchstabe Je (Е/е) an den Positionen 45_hex und 65_hex kann ersatzweise auch für den kyrillischen Buchstaben Jo (Ё/ё) mit den Unicodenummern 0401_hex und 0451_hex verwendet werden, da dieser im Russischen oftmals ohne Trema dargestellt wird.^[31]

Beim kyrillischen Buchstaben kurzes I (Й/й) an den Positionen 4A_hex und 6A_hex ist in ETSI EN 300 706 das Breve (˘) wohl falsch wie der Überpunkt (˙) dargestellt. Aber eventuell wurde das gemacht, um optisch besser auch als kyrillischer Buchstabe I mit Gravis (Ѝ/ѝ) verwendet werden zu können.^[32]

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Kyrillischer G0-Primärzeichensatz – Variante 3 – Ukrainisch
Auswahlbits: 45
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	# ⋕ 0023 23	$ 0024 24	% 0025 25	ї 0457 26	' ’ 0027 27	( 0028 28	) 0029 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	, 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	; 003B 3B	< 003C 3C	= 003D 3D	> 003E 3E	? 003F 3F
4_	Ю 042E 40	А A 0410 0041 41	Б 0411 42	Ц 0426 43	Д 0414 44	Е 0415 45	Ф 0424 46	Г 0413 47	Х X 0425 0058 48	И 0418 49	Й (Ѝ) 0419 (040D) 4A	К 041A 4B	Л 041B 4C	М M 041C 004D 4D	Н H 041D 0048 4E	О O 041E 004F 4F
5_	П 041F 50	Я 042F 51	Р P 0420 0050 52	С C 0421 0043 53	Т T 0422 0054 54	У (Y) 0423 (0059) 55	Ж 0416 56	В B 0412 0042 57	Ь 042C 58	І 0406 59	З 0417 5A	Ш 0428 5B	Є 0404 5C	Щ 0429 5D	Ч 0427 5E	Ї 0407 5F
6_	ю 044E 60	а a 0430 0061 61	б 0431 62	ц 0446 63	д 0434 64	е 0435 65	ф 0444 66	г 0433 67	х x 0445 0078 68	и 0438 69	й (ѝ) 0439 (045D) 6A	к 043A 6B	л 043B 6C	м (m) 043C (006D) 6D	н (h) 043D (0068) 6E	о o 043E 006F 6F
7_	п 043F 70	я 044F 71	р p 0440 0070 72	с c 0441 0063 73	т (t) 0442 (0074) 74	у y 0443 0079 75	ж 0436 76	в (b) 0432 (0062) 77	ь 044C 78	і 0456 79	з 0437 7A	ш 0448 7B	є 0454 7C	щ 0449 7D	ч 0447 7E	■ 25A0 7F

Die drei Zeichen 24_hex ($), 26_hex (ї), 7F_hex (■) und drei kyrillische Buchstabenpaare sind abweichend zu GOST 13052 codiert.

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Beim kyrillischen Buchstaben kurzes I (Й/й) an den Positionen 4A_hex und 6A_hex ist in ETSI EN 300 706 das Breve (˘) wohl falsch wie der Überpunkt (˙) dargestellt. Aber eventuell wurde das gemacht, um optisch besser auch als kyrillischer Buchstabe I mit Gravis (Ѝ/ѝ) verwendet werden zu können.^[32]

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Kyrillischer G2-Ergänzungszeichensatz
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	¡ 00A1 21	¢ 00A2 22	£ 00A3 23	$ 0024 24	¥ 00A5 25	26	§ 00A7 27	28	‘ 2018 29	“ 201C 2A	« 00AB 2B	← 2190 2C	↑ 2191 2D	→ 2192 2E	↓ 2193 2F
3_	° 00B0 30	± 00B1 31	² 00B2 32	³ 00B3 33	× 00D7 34	µ 00B5 35	¶ 00B6 36	· 00B7 37	÷ 00F7 38	’ 2019 39	” 201D 3A	» 00BB 3B	¼ 00BC 3C	½ 00BD 3D	¾ 00BE 3E	¿ 00BF 3F
4_	40	` 0060 41	´ 00B4 42	ˆ 02C6 43	˜ 02DC 44	¯ ˉ 00AF 45	˘ 02D8 46	˙ 02D9 47	¨ 00A8 48	̣ N/A 49	˚ 02DA 4A	¸ (̦ ) 00B8 (N/A) 4B	_ 005F 4C	˝ 02DD 4D	˛ 02DB 4E	ˇ 02C7 4F
Komb.	40	ò 0300 41	ó (ģ) 0301 (0327) 42	ô 0302 43	õ 0303 44	ō 0304 45	ŏ 0306 46	ȯ 0307 47	ö 0308 48	ọ 0323 49	å 030A 4A	ç (o̦) 0327 (0326) 4B	o̲ 0332 4C	ő 030B 4D	ǫ 0328 4E	ǒ 030C 4F
5_	― 2015 50	¹ 00B9 51	® 00AE 52	© 00A9 53	™ 2122 54	♪ 266A 55	₠ 20A0 56	‰ 2030 57	∝ 221D 58	Ł 0141 59	ł 0142 5A	ß 00DF 5B	⅛ 215B 5C	⅜ 215C 5D	⅝ 215D 5E	⅞ 215E 5F
6_	D 0044 60	E 0045 61	F 0046 62	G 0047 63	I І 0049 0406 64	J Ј 004A 0408 65	K 004B 66	L 004C 67	N 004E 68	Q 0051 69	R 0052 6A	S Ѕ 0053 0405 6B	U 0055 6C	V 0056 6D	W 0057 6E	Z 005A 6F
7_	d 0064 70	e 0065 71	f 0066 72	g 0067 73	i і 0069 0456 74	j ј 006A 0458 75	k 006B 76	l 006C 77	n 006E 78	q 0071 79	r 0072 7A	s ѕ 0073 0455 7B	u 0075 7C	v 0076 7D	w 0077 7E	z 007A 7F

Die Zeichen 20_hex bis 5F_hex sind im Wesentlichen identisch mit dem lateinischen G2-Ergänzungszeichensatz ohne die zwei zusätzlichen Zeichen aus ITU T.61. Die drei Zeichen 59_hex bis 5B_hex sind abweichend davon mit lateinischen Sonderbuchstaben codiert.

Die Zeichen 60_hex bis 7F_hex sind mit lateinischen Buchstaben codiert, die zusammen mit ähnlich aussehenden Buchstaben in den kyrillischen G0-Primärzeichensätzen jeweils das vollständige lateinische Alphabet abbilden.

Die alternative Codierung der fett umrahmten Zeichen kann zur Ergänzung des codierten kyrillischen Alphabets verwendet werden, wobei die beiden kyrillischen Buchstaben weißrussisch-ukrainisches I (І/і) und serbisches Je (Ј/ј) an den Positionen 64_hex/74_hex und 65_hex/75_hex bereits in der kyrillischen G0-Variante 3 „Ukrainisch“ bzw. 1 „Serbisch/Kroatisch“ vorhanden sind.

Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die kombinierenden Zeichen sollten wie beim lateinischen G2-Ergänzungszeichensatz nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.

Griechisch[Bearbeiten | Quelltext bearbeiten]

Der griechische G0-Primärzeichensatz ist im Wesentlichen identisch mit den Zeichen 20_hex bis 3F_hex und C0_hex bis FE_hex des 8-Bit-Zeichensatzes ELOT 928 (identisch mit ISO 8859-7).

Griechischer G0-Primärzeichensatz
Auswahlbits: 67
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	# ⋕ 0023 23	$ 0024 24	% 0025 25	& 0026 26	' ’ 0027 27	( 0028 28	) 0029 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	, 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	; 003B 3B	« 00AB 3C	= 003D 3D	» 00BB 3E	? 003F 3F
4_	ΐ 0390 40	Α A 0391 0041 41	Β B 0392 0042 42	Γ 0393 43	Δ 0394 44	Ε E 0395 0045 45	Ζ 0396 46	Η H 0397 0048 47	Θ 0398 48	Ι I 0399 0049 49	Κ K 039A 004B 4A	Λ 039B 4B	Μ M 039C 004D 4C	Ν N 039D 004E 4D	Ξ 039E 4E	Ο O 039F 004F 4F
5_	Π 03A0 50	Ρ P 03A1 0050 51	΄ 0384 52	Σ 03A3 53	Τ T 03A4 0054 54	Υ 03A5 55	Φ 03A6 56	Χ X 03A7 0058 57	Ψ 03A8 58	Ω 03A9 59	Ϊ 03AA 5A	Ϋ 03AB 5B	ά 03AC 5C	έ 03AD 5D	ή 03AE 5E	ί 03AF 5F
6_	ΰ 03B0 60	α 03B1 61	β 03B2 62	γ 03B3 63	δ 03B4 64	ε 03B5 65	ζ 03B6 66	η 03B7 67	θ 03B8 68	ι 03B9 69	κ 03BA 6A	λ 03BB 6B	μ 03BC 6C	ν 03BD 6D	ξ 03BE 6E	ο o 03BF 006F 6F
7_	π 03C0 70	ρ 03C1 71	ς 03C2 72	σ 03C3 73	τ 03C4 74	υ 03C5 75	φ 03C6 76	χ 03C7 77	ψ 03C8 78	ω 03C9 79	ϊ 03CA 7A	ϋ 03CB 7B	ό 03CC 7C	ύ 03CD 7D	ώ 03CE 7E	■ 25A0 7F

Die vier Zeichen 3C_hex («), 3E_hex (»), 52_hex (΄) und 7F_hex (■) sind abweichend zu ELOT 928 codiert.

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Der alleinstehende Tonos (΄) an der Position 52_hex ist in ETSI EN 300 706 im Beispiellayout rechtsbündig dargestellt, so dass er für einen nachfolgenden Großbuchstaben korrekt positioniert ist. Dadurch ergibt sich auch bereits ein ausreichender Leerraum zur Worttrennung.

Der Tonos (΄) ist in ETSI EN 300 706 historisch bedingt als alleinstehendes Zeichen an der Position 52_hex und bei den griechischen Kleinbuchstaben mit Dialytika und Tonos (΅) an den Positionen 40_hex und 60_hex senkrecht ('), sowie bei den griechischen Kleinbuchstaben mit Tonos an den Positionen 5C_hex bis 5F_hex und 7C_hex bis 7E_hex wie der Überpunkt (˙) dargestellt.^[33]

Der griechische Kleinbuchstabe Iota (ι) an der Position 69_hex, sowie mit Diakritika (ΐ, ί und ϊ) an den Positionen 40_hex, 5F_hex und 7A_hex ist in ETSI EN 300 706 ungenau wie der lateinische Kleinbuchstabe punktloses i mit Serifen (ı) dargestellt.

Die Variante für das Wortende des griechischen Kleinbuchstabens Sigma (ς) an der Position 72_hex ist in ETSI EN 300 706 ungenau wie der lateinische Kleinbuchstabe s dargestellt.

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im griechischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Griechischer G2-Ergänzungszeichensatz
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	a 0061 21	b 0062 22	£ 00A3 23	e 0065 24	h 0068 25	i 0069 26	§ 00A7 27	: 003A 28	‘ 2018 29	“ 201C 2A	k 006B 2B	← 2190 2C	↑ 2191 2D	→ 2192 2E	↓ 2193 2F
3_	° 00B0 30	± 00B1 31	² 00B2 32	³ 00B3 33	× 00D7 34	m 006D 35	n 006E 36	p 0070 37	÷ 00F7 38	’ 2019 39	” 201D 3A	t 0074 3B	¼ 00BC 3C	½ 00BD 3D	¾ 00BE 3E	x 0078 3F
4_	40	` 0060 41	´ 00B4 42	ˆ 02C6 43	˜ 02DC 44	¯ ˉ 00AF 45	˘ 02D8 46	˙ 02D9 47	¨ 00A8 48	̣ N/A 49	˚ 02DA 4A	¸ (̦ ) 00B8 (N/A) 4B	_ 005F 4C	˝ 02DD 4D	˛ 02DB 4E	ˇ 02C7 4F
Komb.	40	ò 0300 41	ó (ģ) 0301 (0327) 42	ô 0302 43	õ 0303 44	ō 0304 45	ŏ 0306 46	ȯ 0307 47	ö 0308 48	ọ 0323 49	å 030A 4A	ç (o̦) 0327 (0326) 4B	o̲ 0332 4C	ő 030B 4D	ǫ 0328 4E	ǒ 030C 4F
5_	? 003F 50	¹ 00B9 51	® 00AE 52	© 00A9 53	™ 2122 54	♪ 266A 55	₠ 20A0 56	‰ 2030 57	∝ 221D 58	Ί 038A 59	Ύ 038E 5A	Ώ 038F 5B	⅛ 215B 5C	⅜ 215C 5D	⅝ 215D 5E	⅞ 215E 5F
6_	C 0043 60	D 0044 61	F 0046 62	G 0047 63	J 004A 64	L 004C 65	Q 0051 66	R 0052 67	S 0053 68	U 0055 69	V 0056 6A	W 0057 6B	Y 0059 6C	Z 005A 6D	Ά 0386 6E	Ή 0389 6F
7_	c 0063 70	d 0064 71	f 0066 72	g 0067 73	j 006A 74	l 006C 75	q 0071 76	r 0072 77	s 0073 78	u 0075 79	v 0076 7A	w 0077 7B	y 0079 7C	z 007A 7D	Έ 0388 7E	■ 25A0 7F

Die Zeichen 20_hex bis 5F_hex und 7F_hex sind größtenteils identisch mit dem lateinischen G2-Ergänzungszeichensatz ohne die zwei zusätzlichen Zeichen aus ITU T.61. Die drei Zeichen 59_hex bis 5B_hex sind abweichend davon mit griechischen Sonderbuchstaben, sowie weitere elf Zeichen mit lateinischen Kleinbuchstaben codiert. Außerdem sind die beiden Zeichen 28_hex und 50_hex abweichend als Doppelpunkt (:) und Fragezeichen (?) codiert, obwohl diese bereits im griechischen G0-Primärzeichensatz enthalten sind. Eventuell ist das historisch bedingt, weil diese beiden Zeichen nicht im 7-Bit-Zeichensatz ISO-IR-27 vorhanden sind.

Die Zeichen 60_hex bis 7E_hex sind mit lateinischen Buchstaben und griechischen Sonderbuchstaben codiert. Die lateinischen Buchstaben bilden zusammen mit ähnlich aussehenden Buchstaben im griechischen G0-Primärzeichensatz das vollständige lateinische Alphabet ab.

Bei den griechischen Großbuchstaben mit Tonos an den Positionen 59_hex bis 5B_hex, 6E_hex, 6F_hex und 7E_hex ist in ETSI EN 300 706 der Tonos (΄) historisch bedingt senkrecht (') dargestellt.^[33]

Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die kombinierenden Zeichen sollten wie beim lateinischen G2-Ergänzungszeichensatz nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.

Arabisch[Bearbeiten | Quelltext bearbeiten]

Der arabische G0-Primärzeichensatz ist größtenteils identisch mit dem 7-Bit-Zeichensatz ASMO 449 (übernommen in ISO 8859-6), wobei für die Sonderzeichen die lateinische G0-Variante „Englisch“ verwendet wird und die arabischen Buchstaben mit ihren Präsentationsformen dargestellt sind. Fünf Sonderbuchstaben wurden in den arabischen G2-Ergänzungszeichensatz verschoben, der auch weitere Buchstaben für das Persische beinhaltet.

Die arabischen Buchstaben mit mehreren Codierungen und optionaler Verbindung nach rechts sind in ETSI EN 300 706 rechts ohne eigene verbindende Linie dargestellt und dementsprechend jeweils primär als initiale oder isolierte Präsentationsform codiert. Abweichend davon sind die drei arabischen Buchstaben der „Ǧīm“-Familie (‭ﺝ, ﺡ und ﺥ) an den Positionen 4C_hex bis 4E_hex im arabischen G0-Primärzeichensatz zwar jeweils eher als mediale Präsentationsform (mit gerader Grundlinie) dargestellt, aber trotzdem primär als initiale Präsentationsform codiert, da die medialen Präsentationsformen (ohne gerade Grundlinie) zusätzlich an den Positionen 5C_hex bis 5E_hex im arabischen G0-Primärzeichensatz vorhanden sind (siehe auch Anmerkung zur Tabelle).

Außerdem ist der arabische Buchstabe Yāʾ (‭ﻱ) an der Position 27_hex im arabischen G0-Primärzeichensatz und mit Hamza darüber (‭ﺉ) an der Position 27_hex im arabischen G2-Ergänzungszeichensatz jeweils eher als finale Präsentationsform dargestellt und dementsprechend primär codiert, da die isolierte Präsentationsform optisch keine korrekte Verbindung nach rechts zulässt.

Die arabischen Buchstaben mit mehreren Codierungen und optionaler Verbindung nach links sind in ETSI EN 300 706 links mit verbindender Linie dargestellt und dementsprechend jeweils primär als initiale Präsentationsform codiert. Abweichend davon sind die vier arabischen Buchstaben der „Sīn“-Familie (‭ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53_hex bis 56_hex im arabischen G0-Primärzeichensatz links ohne Abschluss oder eigene verbindende Linie dargestellt und müssen jeweils mit einem zweiten Zeichen vervollständigt werden (siehe Anmerkung zur Tabelle).

Bei arabischen Buchstaben mit mehreren Unicodenummern muss bei der Ausgabe in Unicode entweder die passende Unicodenummer entsprechend den beiden Nachbarzeichen links und rechts ausgewählt oder im einfachsten Fall jeweils die erste Unicodenummer verwendet werden. Eine fett dargestellte Unicodenummer steht für das eigentliche Zeichen. Wenn bei der Ausgabe in Unicode anstelle der Präsentationsformen die eigentlichen Zeichen verwendet werden, dann müssen ggf. der breitenlose Nichtverbinder (ZWNJ) mit der Unicodenummer 200C_hex oder der breitenlose Verbinder (ZWJ) mit der Unicodenummer 200D_hex eingefügt werden, um die automatische Auswahl der Glyphen auf die möglichen Präsentationsformen der jeweiligen Zeichen zu beschränken.

Die arabische Schrift wird zwar von rechts nach links geschrieben, aber die Anordnung im Teletext erfolgt wie sonst auch von links nach rechts. Daher muss bei der Ausgabe in Unicode entweder der Unicode-Bidi-Algorithmus rückwärts angewendet oder im einfachsten Fall jeder Zeile das bidirektionale Steuerzeichen Links-nach-rechts-Zwang (LRO) mit der Unicodenummer 202D_hex vorangestellt werden.

Arabischer G0-Primärzeichensatz
Auswahlbits: 87 oder A7
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	£ 00A3 23	$ 0024 24	% 0025 25	‭ﹳ ﮞ FE73 26	‭ﻲ ﻱ FEF2 FEF1 064A 27	) 0029 28	( 0028 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	، , 060C 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	؛ 061B 3B	> 003E 3C	= 003D 3D	< 003C 3E	؟ 061F 3F
4_	‭ﺔ FE94 0629 40	‭ﺀ FE80 0621 41	‭ﺒ FE92 0628 42	‭ﺏ ﺐ FE8F FE90 0628 43	‭ﺘ FE98 062A 44	‭ﺕ ﺖ FE95 FE96 062A 45	‭ﺎ FE8E 0627 46	‭ﺍ FE8D 0627 47	‭ﺑ FE91 0628 48	‭ﺓ FE93 0629 49	‭ﺗ FE97 062A 4A	‭ﺛ FE9B 062B 4B	‭ﺟ ﺠ ﺟ ﺠ FE9F FEA0 062C 4C	‭ﺣ ﺤ ﺣ ﺤ FEA3 FEA4 062D 4D	‭ﺧ ﺨ ﺧ ﺨ FEA7 FEA8 062E 4E	‭ﺩ ﺪ FEA9 FEAA 062F 4F
5_	‭ﺫ ﺬ FEAB FEAC 0630 50	‭ﺭ ﺮ FEAD FEAE 0631 51	‭ﺯ ﺰ FEAF FEB0 0632 52	‭ﺳ ﺴ (ﺱ ﺲ) FEB3 FEB4 (FEB1 FEB2) 0633 53	‭ﺷ ﺸ (ﺵ ﺶ) FEB7 FEB8 (FEB5 FEB6) 0634 54	‭ﺻ ﺼ (ﺹ ﺺ) FEBB FEBC (FEB9 FEBA) 0635 55	‭ﺿ ﻀ (ﺽ ﺾ) FEBF FEC0 (FEBD FEBE) 0636 56	‭ﻃ ﻁ ﻂ ﻄ FEC3 FEC1 FEC2 FEC4 0637 57	‭ﻇ ﻅ ﻆ ﻈ FEC7 FEC5 FEC6 FEC8 0638 58	‭ﻋ FECB 0639 59	‭ﻏ FECF 063A 5A	‭ﺜ FE9C 062B 5B	‭ﺠ ﺠ FEA0 062C 5C	‭ﺤ ﺤ FEA4 062D 5D	‭ﺨ ﺨ FEA8 062E 5E	# ⋕ 0023 5F
6_	‭ـ 0640 60	‭ﻓ FED3 0641 61	‭ﻗ FED7 0642 62	‭ﻛ ﻜ FEDB FEDC 0643 63	‭ﻟ FEDF 0644 64	‭ﻣ FEE3 0645 65	‭ﻧ FEE7 0646 66	‭ﻫ FEEB 0647 67	‭ﻭ ﻮ FEED FEEE 0648 68	‭ﻰ FEF0 0649 69	‭ﻳ FEF3 064A 6A	‭ﺙ ﺚ FE99 FE9A 062B 6B	‭ﺝ ﺞ FE9D FE9E 062C 6C	‭ﺡ ﺢ FEA1 FEA2 062D 6D	‭ﺥ ﺦ FEA5 FEA6 062E 6E	‭ﻴ FEF4 064A 6F
Pers.	‭ﯼ FBFC 06CC 70			‭ﮐ ﮎ ﮏ ﮑ FB90 FB8E FB8F FB91 06A9 63						‭ﯽ FBFD 06CC 69	‭ﯾ FBFE 06CC 6A					‭ﯿ FBFF 06CC 6F
7_	‭ﻯ FEEF 0649 70	‭ﻌ FECC 0639 71	‭ﻐ FED0 063A 72	‭ﻔ FED4 0641 73	‭ﻑ ﻒ FED1 FED2 0641 74	‭ﻘ FED8 0642 75	‭ﻕ ﻖ FED5 FED6 0642 76	‭ﻙ ﻚ FED9 FEDA 0643 77	‭ﻠ FEE0 0644 78	‭ﻝ ﻞ FEDD FEDE 0644 79	‭ﻤ FEE4 0645 7A	‭ﻡ ﻢ FEE1 FEE2 0645 7B	‭ﻨ FEE8 0646 7C	‭ﻥ ﻦ FEE5 FEE6 0646 7D	ﻻ FEFB 7E	■ 25A0 7F

Die zwei Zeichen 26_hex (‭ﹳ) und 27_hex (‭ﻱ) sind abweichend zu ASMO 449 codiert. Außerdem wurden fünf Sonderbuchstaben und fast alle Sonderzeichen an den Positionen 40_hex bis 7E_hex durch weitere Präsentationsformen der codierten arabischen Buchstaben ersetzt.

Das Zeichen 26_hex (‭ﹳ) dient als Abschlussteil für die isolierten und finalen Präsentationsformen der vier arabischen Buchstaben der „Sīn“-Familie (‭ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53_hex bis 56_hex.^[34]

Die beiden runden Klammern („)“ und „(“) an den Positionen 28_hex und 29_hex, sowie die beiden Vergleichszeichen (> und <) an den Positionen 3C_hex und 3E_hex sind wie in den anderen Zeichensätzen rechtsläufig codiert, da die Anordnung aller Zeichen im Teletext immer von links nach rechts erfolgt.

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Das arabische Komma (‭،) an der Position 2C_hex ist in ETSI EN 300 706 im Beispiellayout so dargestellt, dass es optisch auch als normales Komma (,) verwendet werden kann.

Die kombinierten initialen-medialen Präsentationsformen der drei arabischen Buchstaben der „Ǧīm“-Familie (‭ﺟ/ﺠ, ﺣ/ﺤ und ﺧ/ﺨ) an den Positionen 4C_hex bis 4E_hex sind in ETSI EN 300 706 passend zu den initialen und medialen Präsentationsformen des persischen Buchstabens Tsche (‭ﭼ/ﭽ) an den Positionen 28_hex und 29_hex im arabischen G2-Ergänzungszeichensatz mit gerader Grundlinie dargestellt. Die Codierungen als mediale Präsentationsformen sind aber identisch mit den medialen Präsentationsformen ohne gerade Grundlinie (‭ﺠ, ﺤ und ﺨ) an den Positionen 5C_hex bis 5E_hex, da es sich dabei jeweils nur um eine Layoutvariation handelt. Entsprechendes gilt für die Verwendung als initiale Präsentationsformen, wobei hier allerdings auch keine eigenen Zeichen für die Layoutvariation ohne gerade Grundlinie (‭ﺟ, ﺣ und ﺧ) vorhanden sind.

Die vier arabischen Buchstaben der „Sīn“-Familie (‭ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53_hex bis 56_hex sind links ohne Abschluss oder eigene verbindende Linie dargestellt und müssen jeweils mit einem zweiten Zeichen vervollständigt werden. Bei einer Verwendung als isolierte oder finale Präsentationsform muss das Abschlussteil (‭ﹳ) an der Position 26_hex links angefügt werden.^[34] Bei einer Verwendung als initiale oder mediale Präsentationsform muss das modifizierende Zeichen Taṭwīl (‭ـ) an der Position 60_hex links angefügt werden, wenn das linke Nachbarzeichen keine eigene Verbindungslinie nach rechts besitzt oder diese sehr kurz ist.

Die alternative Codierung (bei identischem Layout) der in der Zeile „Persisch“ stehenden Buchstaben dient der Vervollständigung der im arabischen G2-Ergänzungszeichensatz codierten persischen Buchstaben.

Arabischer G2-Ergänzungszeichensatz
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	‭ﻉ FEC9 0639 21	‭ﺁ (ﺂ) FE81 (FE82) 0622 22	‭ﺃ (ﺄ) FE83 (FE84) 0623 23	‭ﺅ ﺆ FE85 FE86 0624 24	‭ﺇ (ﺈ) FE87 (FE88) 0625 25	‭ﺋ FE8B 0626 26	‭ﺊ ﺉ FE8A FE89 0626 27	‭ﭼ ﭼ FB7C 0686 28	‭ﭽ ﭽ FB7D 0686 29	‭ﭺ ﭻ FB7A FB7B 0686 2A	‭ﭘ FB58 067E 2B	‭ﭙ FB59 067E 2C	‭ﭖ ﭗ FB56 FB57 067E 2D	‭ﮊ ﮋ FB8A FB8B 0698 2E	‭ﮔ ﮒ ﮓ ﮕ FB94 FB92 FB93 FB95 06AF 2F
3_	٠ 0660 30	١ 0661 31	٢ 0662 32	٣ 0663 33	٤ 0664 34	٥ 0665 35	٦ 0666 36	٧ 0667 37	٨ 0668 38	٩ 0669 39	‭ﻎ FECE 063A 3A	‭ﻍ FECD 063A 3B	ﻼ FEFC 3C	‭ﻬ FEEC 0647 3D	‭ﻪ FEEA 0647 3E	‭ﻩ FEE9 0647 3F
4_	à 00E0 40	A 0041 41	B 0042 42	C 0043 43	D 0044 44	E 0045 45	F 0046 46	G 0047 47	H 0048 48	I 0049 49	J 004A 4A	K 004B 4B	L 004C 4C	M 004D 4D	N 004E 4E	O 004F 4F
5_	P 0050 50	Q 0051 51	R 0052 52	S 0053 53	T 0054 54	U 0055 55	V 0056 56	W 0057 57	X 0058 58	Y 0059 59	Z 005A 5A	ë 00EB 5B	ê 00EA 5C	ù 00F9 5D	î 00EE 5E	‭ﻊ FECA 0639 5F
6_	é 00E9 60	a 0061 61	b 0062 62	c 0063 63	d 0064 64	e 0065 65	f 0066 66	g 0067 67	h 0068 68	i 0069 69	j 006A 6A	k 006B 6B	l 006C 6C	m 006D 6D	n 006E 6E	o 006F 6F
7_	p 0070 70	q 0071 71	r 0072 72	s 0073 73	t 0074 74	u 0075 75	v 0076 76	w 0077 77	x 0078 78	y 0079 79	z 007A 7A	â 00E2 7B	ô 00F4 7C	û 00FB 7D	ç 00E7 7E	7F

Der Zeichensatz ist teilweise identisch mit dem lateinischen G0-Primärzeichensatz. Die Ziffern sind abweichend davon mit ihren arabisch-indischen Varianten codiert. Außerdem sind alle Sonderzeichen durch Präsentationsformen arabischer Buchstaben und modifizierte lateinische Kleinbuchstaben zur Schreibung des Französischen ersetzt (siehe Windows-1256), wobei letztere im Wesentlichen wie in der lateinischen G0-Variante „Französisch“ angeordnet sind.

Die alternative Codierung der fett umrahmten Zeichen ist notwendig zur Vervollständigung aller Präsentationsformen der codierten arabischen Buchstaben.

Hebräisch[Bearbeiten | Quelltext bearbeiten]

Der hebräische G0-Primärzeichensatz ist im Wesentlichen identisch mit dem 7-Bit-Zeichensatz SI 960 (übernommen in ISO 8859-8), wobei für die Sonderzeichen die lateinische G0-Variante „Englisch“ verwendet wird. Ein hebräischer G2-Ergänzungszeichensatz ist nicht definiert, es wird der arabische G2-Ergänzungszeichensatz verwendet.

Die hebräische Schrift wird zwar von rechts nach links geschrieben, aber die Anordnung im Teletext erfolgt wie sonst auch von links nach rechts. Daher muss bei der Ausgabe in Unicode entweder der Unicode-Bidi-Algorithmus rückwärts angewendet oder im einfachsten Fall jeder Zeile das bidirektionale Steuerzeichen Links-nach-rechts-Zwang (LRO) mit der Unicodenummer 202D_hex vorangestellt werden.

Hebräischer G0-Primärzeichensatz
Auswahlbits: A5
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	! 0021 21	" ” 0022 22	£ 00A3 23	$ 0024 24	% 0025 25	& 0026 26	' ’ 0027 27	( 0028 28	) 0029 29	*∗\|@ 002A\|0040 2A	+ 002B 2B	, 002C 2C	- 002D 2D	. 002E 2E	/ 002F 2F
3_	0 0030 30	1 0031 31	2 0032 32	3 0033 33	4 0034 34	5 0035 35	6 0036 36	7 0037 37	8 0038 38	9 0039 39	: 003A 3A	; 003B 3B	< 003C 3C	= 003D 3D	> 003E 3E	? 003F 3F
4_	@ 0040 40	A 0041 41	B 0042 42	C 0043 43	D 0044 44	E 0045 45	F 0046 46	G 0047 47	H 0048 48	I 0049 49	J 004A 4A	K 004B 4B	L 004C 4C	M 004D 4D	N 004E 4E	O 004F 4F
5_	P 0050 50	Q 0051 51	R 0052 52	S 0053 53	T 0054 54	U 0055 55	V 0056 56	W 0057 57	X 0058 58	Y 0059 59	Z 005A 5A	← 2190 5B	½ 00BD 5C	→ 2192 5D	↑ 2191 5E	# ⋕ 0023 5F
6_	א 05D0 60	ב 05D1 61	ג 05D2 62	ד 05D3 63	ה 05D4 64	ו 05D5 65	ז 05D6 66	ח 05D7 67	ט 05D8 68	י 05D9 69	ך 05DA 6A	כ 05DB 6B	ל 05DC 6C	ם 05DD 6D	מ 05DE 6E	ן 05DF 6F
7_	נ 05E0 70	ס 05E1 71	ע 05E2 72	ף 05E3 73	פ 05E4 74	ץ 05E5 75	צ 05E6 76	ק 05E7 77	ר 05E8 78	ש 05E9 79	ת 05EA 7A	₪ 20AA 7B	∥ 2225 7C	¾ 00BE 7D	÷ 00F7 7E	■ 25A0 7F

Das Zeichen 7B_hex (₪) ist abweichend zu SI 960 als Schekel-Währungssymbol codiert (siehe Windows-1255).

Die Codierung des Zeichens 2A_hex ist von der Ansteuerung abhängig.

Grafik[Bearbeiten | Quelltext bearbeiten]

Beim analogen Fernsehen im 4:3-Format betrug das Verhältnis von Breite zu Höhe eines Teletext-Zeichens bei Fernsehnormen mit 625 Zeilen ungefähr 3:4 und bei Fernsehnormen mit 525 Zeilen ungefähr 7:10.^[35] Dieses ist für die seitengerechte Darstellung einer Grafik zu beachten.

Da das genaue Layout der Unicode-Zeichen stark von der Schriftart abhängig ist und diese auch nicht immer zueinander passen, sollten ggf. alle Grafikzeichen selbst gezeichnet werden. Für eine weitgehend korrekte Darstellung aller Grafikzeichen in den beiden G1- und G3-Zeichensatz-Tabellen kann z. B. die für die private Nutzung frei verfügbare Schriftart „Symbola“ ab Version 13.00 verwendet werden.^[36]

Die Zeichen mit einer 5-stelligen Unicodenummer (1FBxx_hex) wurden im März 2020 mit der Version 13.0.0 in Unicode aufgenommen.^[37]

G1-Zeichensatz Blockgrafik
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	␠ 0020 20	🬀 1FB00 21	🬁 1FB01 22	🬂 1FB02 23	🬃 1FB03 24	🬄 1FB04 25	🬅 1FB05 26	🬆 1FB06 27	🬇 1FB07 28	🬈 1FB08 29	🬉 1FB09 2A	🬊 1FB0A 2B	🬋 1FB0B 2C	🬌 1FB0C 2D	🬍 1FB0D 2E	🬎 1FB0E 2F
3_	🬏 1FB0F 30	🬐 1FB10 31	🬑 1FB11 32	🬒 1FB12 33	🬓 1FB13 34	▌ 258C 35	🬔 1FB14 36	🬕 1FB15 37	🬖 1FB16 38	🬗 1FB17 39	🬘 1FB18 3A	🬙 1FB19 3B	🬚 1FB1A 3C	🬛 1FB1B 3D	🬜 1FB1C 3E	🬝 1FB1D 3F
4_	[G0] 40	[G0] 41	[G0] 42	[G0] 43	[G0] 44	[G0] 45	[G0] 46	[G0] 47	[G0] 48	[G0] 49	[G0] 4A	[G0] 4B	[G0] 4C	[G0] 4D	[G0] 4E	[G0] 4F
5_	[G0] 50	[G0] 51	[G0] 52	[G0] 53	[G0] 54	[G0] 55	[G0] 56	[G0] 57	[G0] 58	[G0] 59	[G0] 5A	[G0] 5B	[G0] 5C	[G0] 5D	[G0] 5E	[G0] 5F
6_	🬞 1FB1E 60	🬟 1FB1F 61	🬠 1FB20 62	🬡 1FB21 63	🬢 1FB22 64	🬣 1FB23 65	🬤 1FB24 66	🬥 1FB25 67	🬦 1FB26 68	🬧 1FB27 69	▐ 2590 6A	🬨 1FB28 6B	🬩 1FB29 6C	🬪 1FB2A 6D	🬫 1FB2B 6E	🬬 1FB2C 6F
7_	🬭 1FB2D 70	🬮 1FB2E 71	🬯 1FB2F 72	🬰 1FB30 73	🬱 1FB31 74	🬲 1FB32 75	🬳 1FB33 76	🬴 1FB34 77	🬵 1FB35 78	🬶 1FB36 79	🬷 1FB37 7A	🬸 1FB38 7B	🬹 1FB39 7C	🬺 1FB3A 7D	🬻 1FB3B 7E	█ 🬦🬓🬹 🬦🬓🬹 🬦🬓🬹 2588 7F

Die 63 Blockelemente und das Leerzeichen an den Positionen 20_hex bis 3F_hex und 60_hex bis 7F_hex sind so angeordnet, dass jeweils das Bitmuster des Zeichencodes direkt bestimmt, aus welchen der sechs einzelnen rechteckigen Blöcke ① (oben links) bis ⑥ (unten rechts) ein Grafikzeichen zusammengesetzt ist: 0⑥1⑤ ④③②①_bin (0 🬞 1 🬏 🬇 🬃 🬁 🬀).

Das Grafik-Leerzeichen an der Position 20_hex ist so breit wie die Blockelemente an den Positionen 21_hex bis 3F_hex und 60_hex bis 7F_hex und kann als normales oder geschütztes Leerzeichen codiert werden, da diese zumindest in einer Schriftart mit fester Zeichenbreite genauso breit sind. Allerdings wäre eine Codierung als eigenständiges Zeichen ähnlich dem Ziffern-Leerzeichen mit der Unicodenummer 2007_hex besser, die aber in Unicode nicht vorhanden ist. Das Attribut „Getrennte Blockgrafik/Unterstreichen“ hat keine Auswirkung auf das Grafik-Leerzeichen.

Die 63 Blockelemente an den Positionen 21_hex bis 3F_hex und 60_hex bis 7F_hex werden abhängig vom zugehörigen Attribut wie abgebildet in zusammenhängender oder alternativ wie rechts neben dem vollen Block (█) an der Position 7F_hex in getrennter Form dargestellt. Bei der getrennten Form sind die sechs rechteckigen Blöcke, aus denen sich diese Grafikzeichen zusammensetzen, kleiner und nicht miteinander verbunden. Die getrennten Formen sind in Unicode nicht als eigenständige Zeichen definiert.

Für die 32 Positionen 40_hex bis 5F_hex werden die entsprechenden Zeichen des ausgewählten G0-Primärzeichensatzes verwendet.

G3-Zeichensatz Hochauflösende Grafik
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	🬼 1FB3C 20	🬽 1FB3D 21	🬾 1FB3E 22	🬿 1FB3F 23	🭀 1FB40 24	▖🭯🭬 (25E3) 25	🭁 1FB41 26	🭂 1FB42 27	🭃 1FB43 28	🭄 1FB44 29	🭅 1FB45 2A	🭆 1FB46 2B	🭨 1FB68 2C	🭩 1FB69 2D	│ (1FB70) (1FB71) 2E	▒ 2592 2F
3_	🭇 1FB47 30	🭈 1FB48 31	🭉 1FB49 32	🭊 1FB4A 33	🭋 1FB4B 34	▗🭯🭮 (25E2) 35	🭌 1FB4C 36	🭍 1FB4D 37	🭎 1FB4E 38	🭏 1FB4F 39	🭐 1FB50 3A	🭑 1FB51 3B	🭪 1FB6A 3C	🭫 1FB6B 3D	│ (1FB75) (1FB74) 3E	█ 2588 3F
4_	╵🬋 (2537) 40	╷🬋 (252F) 41	│🬇 (251D) 42	│🬃 (2525) 43	🮤 1FBA4 44	🮥 1FBA5 45	🮦 1FBA6 46	🮧 1FBA7 47	🮠 1FBA0 48	🮡 1FBA1 49	🮢 1FBA2 4A	🮣 1FBA3 4B	│🬋 (253F) 4C	⚫ 26AB 4D	⬤ 2B24 4E	◯ 25EF 4F
5_	│ 2502 50	─\|― 2500\|2015 51	┌ 250C 52	┐ 2510 53	└ 2514 54	┘ 2518 55	├ 251C 56	┤ 2524 57	┬ 252C 58	┴ 2534 59	┼ 253C 5A	⭢\|→ 2B62\|2192 5B	⭠\|← 2B60\|2190 5C	⭡\|↑ 2B61\|2191 5D	⭣ 2B63 5E	␠ 0020 5F
6_	🭒 1FB52 60	🭓 1FB53 61	🭔 1FB54 62	🭕 1FB55 63	🭖 1FB56 64	▝🭭🭮 (25E5) 65	🭗 1FB57 66	🭘 1FB58 67	🭙 1FB59 68	🭚 1FB5A 69	🭛 1FB5B 6A	🭜 1FB5C 6B	🭬 1FB6C 6C	🭭 1FB6D 6D	6E	6F
7_	🭝 1FB5D 70	🭞 1FB5E 71	🭟 1FB5F 72	🭠 1FB60 73	🭡 1FB61 74	▘🭭🭬 (25E4) 75	🭢 1FB62 76	🭣 1FB63 77	🭤 1FB64 78	🭥 1FB65 79	🭦 1FB66 7A	🭧 1FB67 7B	🭮 1FB6E 7C	🭯 1FB6F 7D	7E	7F

Die 57 geglätteten Blockelemente an den Positionen 20_hex bis 2D_hex, 30_hex bis 3D_hex, 3F_hex, 60_hex bis 6D_hex und 70_hex bis 7D_hex werden bei manchen Decodern abhängig vom zugehörigen Attribut wie abgebildet in zusammenhängender oder alternativ wie die Blockelemente im G1-Blockgrafik-Zeichensatz in getrennter Form dargestellt (siehe ITU T.101). Die getrennten Formen sind in Unicode nicht als eigenständige Zeichen definiert.

Bei den vier Dreiecken an den Positionen 25_hex, 35_hex, 65_hex und 75_hex sind die ersatzweise codierten Unicode-Zeichen nicht wie die Teletext-Zeichen verbindende Grafikelemente, sondern auf der Grundlinie ausgerichtete geometrische Formen, die jeweils an allen vier Seiten von Leerraum umgeben sind.

Die linke dünne vertikale Rahmenlinie (│) an der Position 2E_hex ist zum linken halben Block (▌) an der Position 35_hex im G1-Blockgrafik-Zeichensatz horizontal zentriert ausgerichtet. Die ersatzweise codierten Unicode-Zeichen sind dagegen keine Linien, sondern vertikale achtel Blöcke links und rechts der Linienposition.

Die rechte dünne vertikale Rahmenlinie (│) an der Position 3E_hex ist zum rechten halben Block (▐) an der Position 6A_hex im G1-Blockgrafik-Zeichensatz horizontal zentriert ausgerichtet. Die ersatzweise codierten Unicode-Zeichen sind dagegen keine Linien, sondern vertikale achtel Blöcke rechts und links der Linienposition.

Die 14 geglätteten Blockelemente und die Rahmenlinie an den Positionen 30_hex bis 3E_hex entsprechen den vertikal (Zeichen 30_hex bis 3C_hex und 3E_hex) oder horizontal (Zeichen 3D_hex) gespiegelten Darstellungen der Zeichen 20_hex bis 2E_hex.

Bei den 16 Rahmenelementen und vier Pfeilen an den Positionen 40_hex bis 43_hex, 4C_hex und 50_hex bis 5E_hex sind die vertikalen Linien (│) horizontal zentriert und die horizontalen Linien (─ und 🬋) vertikal zentriert ausgerichtet. Bei den acht Rahmenelementen an den Positionen 44_hex bis 4B_hex sind die vier möglichen Endpunkte der diagonalen Linien (🮮) jeweils passend dazu horizontal oder vertikal zentriert ausgerichtet.

Bei den fünf Rahmenelementen an den Positionen 40_hex bis 43_hex und 4C_hex entspricht die dicke horizontale Linie dem mittleren horizontalen drittel Block (🬋) an der Position 2C_hex im G1-Blockgrafik-Zeichensatz. Bei den ersatzweise codierten Unicode-Zeichen entspricht die dicke horizontale Linie dagegen der dicken horizontalen Rahmenlinie (━) mit der Unicodenummer 2501_hex, die deutlich dünner ist.

Die folgenden drei Kreise besitzen keine festgelegte Unicode-Zuordnung und sind hier in Anlehnung an Unicode Technical Report #25^[38] codiert. Das genaue Layout der Unicode-Zeichen ist stark von der Schriftart abhängig, sofern sie denn überhaupt unterstützt werden. Für die beiden großen Kreise in voller Blockbreite sollten aber zumindest in einer Schriftart mit fester Zeichenbreite die größten Unicode-Kreise am besten passen, und selbst in der proportionalen Schriftart „Arial Unicode MS“ ist die große Kreislinie (◯) mit der Unicodenummer 25EF_hex genauso breit wie der volle Block (█) an der Position 3F_hex.

Der ausgefüllte kleine Kreis (⚫) an der Position 4D_hex ist so groß wie der sechstel Block (🬃) an der Position 24_hex im G1-Blockgrafik-Zeichensatz und zentriert ausgerichtet.

Der ausgefüllte große Kreis (⬤) an der Position 4E_hex und die große Kreislinie (◯) an der Position 4F_hex sind jeweils so breit wie der volle Block (█) an der Position 3F_hex und vertikal zentriert ausgerichtet.

Die beiden Pfeile nach rechts (⭢) und links (⭠) an den Positionen 5B_hex und 5C_hex passen zu den dünnen horizontalen Rahmenlinien (─) der Zeichen 51_hex bis 5A_hex und können jeweils am Anfang mit diesen nahtlos verbunden werden. Diese Zeichen sind in ETSI EN 300 706 im Beispiellayout mit einer dickeren Strichstärke dargestellt als die drei Zeichen mit ähnlichem Layout (→, ← und ―) an den Positionen 5D_hex, 5B_hex und 60_hex in der lateinischen G0-Variante „Englisch“ und an den Positionen 2E_hex, 2C_hex und 50_hex im lateinischen G2-Ergänzungszeichensatz und sollten nicht gemischt kombiniert werden.

Die beiden Pfeile nach oben (⭡) und unten (⭣) an den Positionen 5D_hex und 5E_hex passen zu den dünnen vertikalen Rahmenlinien (│) der Zeichen 40_hex bis 4C_hex und 50_hex bis 5A_hex und können jeweils am Anfang mit diesen nahtlos verbunden werden.

Das Grafik-Leerzeichen an der Position 5F_hex ist mit dem Grafik-Leerzeichen an der Position 20_hex im G1-Blockgrafik-Zeichensatz identisch und sollte dementsprechend identisch codiert werden.

Die 28 geglätteten Blockelemente an den Positionen 60_hex bis 6D_hex und 70_hex bis 7D_hex sind identisch mit den invertierten Darstellungen der Zeichen 20_hex bis 2D_hex und 30_hex bis 3D_hex. Bei einer Grafik werden für den oberen Teil eher letztere Zeichen und für den unteren Teil eher die „invertierten Darstellungen“ verwendet, was bei älteren Teletext- und Videotex-Standards mit Zeichensätzen, die jeweils nur eine Hälfte dieser Zeichen beinhalteten, die Codierung vereinfachte. Eine Ausnahme bildet das Zeichen an der Position 3D_hex (🭫), welches wohl auch deshalb in einem älteren britischen Teletext-Standard dessen Invertierung an der Position 7D_hex (🭯) darstellte, sofern die Abbildung im CCIR-Report 957 korrekt ist.^[39]

Die Zeichen mit der Unicodenummer in Klammern sind den in ETSI EN 300 706 angegebenen Beispiellayouts zwar ähnlich, aber in der Regel optisch und semantisch nicht zu den anderen Grafikzeichen passend. Allerdings gibt es für diese Zeichen keine bessere Codierung in Unicode.

Viele Level-1.5-Decoder unterstützen nur die vier fett umrahmten Zeichen, daher liegt die Vermutung nahe, dass diese dafür die Zeichen mit ähnlichem Layout aus der lateinischen G0-Variante „Englisch“ verwenden, und die Zeichen in dem Fall entsprechend alternativ zu codieren sind.

Zeichensatzauswahl[Bearbeiten | Quelltext bearbeiten]

Mit den Auswahlbits in den nationalen G0-Zeichensatz-Tabellen wird in der Regel auch der zugehörige G2-Zeichensatz ausgewählt. Die erste hexadezimale Ziffer gibt die höherwertigen vier Bits (die Region) und die zweite Ziffer die niederwertigen drei Bits (die nationale Variante) an.

Auswahlbits der nationalen G0/G2-Zeichensätze
	Westeuropäisch	Mitteleuropäisch (Polnisch)	Türkisch (Westeuropäisch)	Südosteuropäisch (Rumänisch)	Osteuropäisch (Kyrillisch)	Griechisch/Türkisch	Arabisch	Hebräisch/Arabisch
	0_	1_	2_	3_	4_	6_	8_	A_
_0	Englisch	Polnisch	Englisch		Kyrillisch 1 (Serbisch/Kroatisch)		Englisch
_0	Lateinisch G2 00	Lateinisch G2 10	Lateinisch G2 20		Kyrillisch G2 40		Arabisch G2 80
_1	Deutsch	Deutsch	Deutsch		Deutsch
_1	Lateinisch G2 01	Lateinisch G2 11	Lateinisch G2 21		Lateinisch G2 41
_2	Schwedisch/Finnisch, Ungarisch	Schwedisch/Finnisch, Ungarisch	Schwedisch/Finnisch, Ungarisch		Estnisch
_2	Lateinisch G2 02	Lateinisch G2 12	Lateinisch G2 22		Lateinisch G2 42
_3	Italienisch	Italienisch	Italienisch		Lettisch/Litauisch
_3	Lateinisch G2 03	Lateinisch G2 13	Lateinisch G2 23		Lateinisch G2 43
_4	Französisch	Französisch	Französisch		Kyrillisch 2 (Russisch/Bulgarisch)		Französisch
_4	Lateinisch G2 04	Lateinisch G2 14	Lateinisch G2 24		Kyrillisch G2 44		Arabisch G2 84
_5	Portugiesisch/Spanisch		Portugiesisch/Spanisch	Serbisch/Kroatisch/Slowenisch	Kyrillisch 3 (Ukrainisch)			Hebräisch
_5	Lateinisch G2 05		Lateinisch G2 25	Lateinisch G2 35	Kyrillisch G2 45			Arabisch G2 A5
_6	Tschechisch/Slowakisch	Tschechisch/Slowakisch	Türkisch		Tschechisch/Slowakisch	Türkisch
_6	Lateinisch G2 06	Lateinisch G2 16	Lateinisch G2 26		Lateinisch G2 46	Lateinisch G2 66
_7				Rumänisch		Griechisch	Arabisch	Arabisch
_7				Lateinisch G2 37		Griechisch G2 67	Arabisch G2 87	Arabisch G2 A7

Zweiter G0					Englisch⁠¹ 4+		Englisch⁠² 8+	Arabisch⁠³ A+

Anmerkungen zum G0-Zeichensatz:

Bei der X/26-Auswahl und allen anderen X/26-Funktionen zur Zeichenauswahl wird bei Lateinisch (grün hinterlegt) immer die Variante „Standard“ verwendet.

Isländische Sender verwenden die lateinische G0-Variante „Portugiesisch/Spanisch“ und den lateinischen G2-Ergänzungszeichensatz.^[40]

Anmerkungen zum zweiten G0-Zeichensatz:

¹

Bei Kyrillisch muss der zweite G0-Zeichensatz für russische Sender mit der lateinischen Variante „Englisch“ voreingestellt werden.^[41]

²

Bei Arabisch muss der zweite G0-Zeichensatz für iranische Sender mit der lateinischen Variante „Englisch“ voreingestellt werden.

³

Bei Hebräisch muss der zweite G0-Zeichensatz für israelische Sender mit „Arabisch“ voreingestellt werden.^[42]

Auswahl der nationalen G0/G2-Zeichensätze
		1 = höchste	höherwertig	niederwertig	Standard	Zweiter G0	X/26-Auswahl	Standard	Standard	X/26-Auswahl
	Level	Priorität	Auswahlbits für Standard-G0/G2		G0-Zeichensatz			G1-Zeichensatz	G2-Zeichensatz
X/0 (Seitenkopf)	alle	8	Decoder⁠¹	Seitenkopf	●	○⁠²			○⁠³ (ab Level 1.5)
X/28/1	≤ 1.5⁠⁴	4	Paket	Seitenkopf	●	○⁠⁵		●	○⁠⁵ (ab Level 1.5)
M/29/1	≤ 1.5⁠⁴	7	Paket	Seitenkopf	●	○⁠⁵		●	○⁠⁵ (ab Level 1.5)
X/28/0 Format 1	≥ 2.5	2	Paket	Seitenkopf (bei manchen Level-2.5-Decodern aus dem Paket)	●	●			●
X/28/4	≥ 3.5	3	Paket	Seitenkopf	●	●			●
M/29/0	≥ 2.5	5	Paket	Seitenkopf (bei manchen Level-2.5-Decodern aus dem Paket)	●	●			●
M/29/4	≥ 3.5	6	Paket	Seitenkopf	●	●			●
X/26-Spaltenfunktion … … 08_hex „Modified G0 and G2 Character Set“	≥ 2.5	1					●⁠⁶^,⁠⁷			●⁠⁷

Voreinstellungen für jede Teletext-Seite:

¹

Die höherwertigen Auswahlbits für die Standard-G0/G2-Zeichensätze sind vom Decoder und der dort eingestellten Region abhängig. Ab Level 2.5 ist als neutrale Voreinstellung der Wert 0 (Westeuropäisch) – Lateinisch – vorgesehen.

²

Die Auswahl des zweiten G0-Zeichensatzes ist vom Decoder und der dort eingestellten Region abhängig. Ob an dieser Stelle die Auswahl des Standard-G0-Zeichensatzes einen Einfluss auf den zweiten G0-Zeichensatz haben soll, ist nicht spezifiziert, aber wohl notwendig.^[43]

³

Bei vielen Level-1.5-Decodern ist die Auswahl und der Zeichenvorrat des G2-Zeichensatzes eingeschränkt. Ob an dieser Stelle die Auswahl des Standard-G0-Zeichensatzes überhaupt einen Einfluss auf den G2-Zeichensatz haben soll, ist nicht spezifiziert, wäre aber sinnvoll. Allerdings stellt sich diese Frage auch nur bei den beiden höherwertigen Auswahlbits 4 (Osteuropäisch, Kyrillisch) und 6 (Griechisch/Türkisch), wo jeweils mehr als ein G2-Zeichensatz definiert ist.

Anmerkungen zu den Paketen X/28/1 und M/29/1:

⁴

Die Zeichensatzauswahl-Funktionen in diesen Paketen sind in früheren Spezifikationen definiert und aus Kompatibilität mit entsprechenden Level-1- und Level-1.5-Decodern beibehalten worden. Sie sind nicht zur Verwendung durch Level-2.5- und Level-3.5-Decoder gedacht.

⁵

Ob an dieser Stelle die Auswahl des Standard-G0-Zeichensatzes einen Einfluss auf den zweiten G0-Zeichensatz und den G2-Zeichensatz haben soll, ist unbekannt, wäre aber sinnvoll.

Anmerkungen zur X/26-Auswahl:

⁶

Bei der X/26-Auswahl wird bei Lateinisch immer die Variante „Standard“ verwendet.

⁷

Bei Level 2.5 ist für jede Teletext-Seite neben dem Standard-G0/G2-Zeichensatzpaar nur ein weiteres G0/G2-Zeichensatzpaar möglich, ab Level 3.5 beliebig viele.

Auswahl der Zeichen
		Steuerzeichen 00_hex..1F_hex	Standard	Zweiter G0	X/26-Auswahl	Zeichen 2A_hex	Lateinische Variante	Standard⁠^a	Standard	X/26-Auswahl	Standard⁠^b
	Level	Steuerzeichen 00_hex..1F_hex	G0-Zeichensatz					G1-Zeichensatz	G2-Zeichensatz		G3-Zeichensatz
X/0 bis X/25 Einfache Level-1-Teletext-Seite	alle	●⁠¹	●⁠²^,⁠³	●⁠³		*	national	●⁠⁴
X/26-Spaltenfunktion …
… 10_hex „G0 Character“	≥ 1.5		●		● (ab Level 2.5)	@	Standard
… 09_hex „G0 Character (Levels 2.5 & 3.5)“	≥ 2.5		●		●	*	Standard
… 11_hex bis 1F_hex „G0 Character with diacritical mark“	≥ 1.5		●		● (ab Level 2.5)	*	Standard		kombinierend	kombinierend (ab Level 2.5)
… 01_hex „G1 Character“	≥ 2.5		○⁠⁵		○⁠⁵		Standard	●⁠⁵
… 0F_hex „G2 Character“	≥ 1.5								●⁠⁶	● (ab Level 2.5)
… 02_hex „G3 Character (Level 1.5)“	≥ 1.5										●⁠⁶
… 0B_hex „G3 Character (Levels 2.5 & 3.5)“	≥ 2.5										●

Anmerkungen zu den G1- und G3-Zeichensätzen:

^a

Beim G1-Zeichensatz kann die Form der 63 Blockelemente (Positionen 21_hex bis 3F_hex und 60_hex bis 7F_hex) mit den beiden Steuerzeichen 19_hex „Contiguous Mosaic Graphics“ (zusammenhängend) und 1A_hex „Separated Mosaic Graphics“ (getrennt), sowie ab Level 2.5 mit der X/26-Spaltenfunktion 0C_hex „Display attributes“ als Attribut festgelegt werden. Zu Beginn von jeder Zeile ist die zusammenhängende Form voreingestellt.

^b

Beim G3-Zeichensatz kann bei manchen Decodern die Form der 57 geglätteten Blockelemente (Positionen 20_hex bis 2D_hex, 30_hex bis 3D_hex, 3F_hex, 60_hex bis 6D_hex und 70_hex bis 7D_hex) wie bei den Blockelementen im G1-Zeichensatz als Attribut festgelegt werden.

Anmerkungen zur einfachen Level-1-Teletext-Seite:

¹

Bei einem Steuerzeichen wird im Normalfall das Leerzeichen an der Position 20_hex im ausgewähltem Zeichensatz angezeigt. Im Grafik-Haltemodus wird bei ausgewähltem G1-Zeichensatz das zuletzt ausgewählte G1-Blockelement/Leerzeichen (Positionen 20_hex bis 3F_hex und 60_hex bis 7F_hex) angezeigt. Dieses Haltezeichen wird zu Beginn von jeder Zeile, bei einem G0/G1-Zeichensatzwechsel oder einer realen Größenänderung auf das Leerzeichen zurückgesetzt. Der Haltemodus kann mit den beiden Steuerzeichen 1E_hex „Hold Mosaics“ und 1F_hex „Release Mosaics“ ein- und ausgeschaltet werden, wobei jeweils das aktuelle Haltezeichen bereits bzw. noch angezeigt wird. Zu Beginn von jeder Zeile ist der Haltemodus ausgeschaltet.

²

Zu Beginn von jeder Zeile ist immer der erste G0-Zeichensatz ausgewählt.

³

Der G0-Zeichensatz kann mit den acht Steuerzeichen 00_hex bis 07_hex „Alpha Colour Codes“ ausgewählt werden. Zwischen dem ersten und zweiten G0-Zeichensatz kann mit dem Steuerzeichen 1B_hex „ESC“ umgeschaltet werden.

⁴

Der G1-Zeichensatz kann mit den acht Steuerzeichen 10_hex bis 17_hex „Mosaic Colour Codes“ ausgewählt werden. Für die 32 Positionen 40_hex bis 5F_hex werden die entsprechenden Zeichen des ausgewählten G0-Zeichensatzes (Standard oder Zweiter G0) verwendet.

Anmerkung zur X/26-Spaltenfunktion 01_hex „G1 Character“:

⁵

Beim G1-Zeichensatz werden für die 32 Positionen 40_hex bis 5F_hex die entsprechenden Zeichen des ausgewählten G0-Zeichensatzes (Standard oder X/26-Auswahl) verwendet.

Anmerkung zu den X/26-Spaltenfunktionen 0F_hex „G2 Character“ und 02_hex „G3 Character (Level 1.5)“:

⁶

Bei vielen Level-1.5-Decodern ist der Zeichenvorrat der G2- und G3-Zeichensätze eingeschränkt.

Weblinks[Bearbeiten | Quelltext bearbeiten]

ETSI EN 300 706 – Enhanced Teletext specification (2003) und ETS 300 706 (1997), ETSI (englisch)
ITU-T Recommendation T.101 : International interworking for Videotex services (1994) und ITU-T Recommendation T.101, Annex C (1990), ITU (englisch)
EBU Tech 3232 – Displayable Character Sets for Broadcast Teletext und EBU Tech 3232-a – Appendices, EBU, 1982 (englisch)
STV5348 (PDF) STMicroelectronics, 2004 (englisch)
Philips SAA5243 (1991), Philips SAA5244A (1992), Philips SAA5249 (1996), Philips SAA5254 (1996), Philips SAA5281 (1996), Philips SAA5288 (1997) und Philips SAA5290 (1995), Philips (englisch)
The Cyrillic Charset Soup, Roman Czyborra, 1998 (englisch)
Notes on some Unicode Arabic characters: recommendations for usage (PDF; 218 kB) Jonathan Kew, Draft 2, 2005 (englisch)
Unicode 8.0 Character Code Charts, Unicode, 2015 (englisch)
Graphic character identifiers, IBM (englisch)
Keld Simonsen: RFC 1345 – Character Mnemonics & Character Sets. 1992 (englisch).

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

↑ ^a ^b Philips SAA5246A (PDF) Philips, 1993 (englisch)
↑ Character histories: notes on some Ascii code positions, Jukka „Yucca“ Korpela, 2006 (englisch);
7-bit character sets, Aivosto Oy, 2016 (englisch)
↑ Viertelgeviertstrich, Bindestrich/Divis, Wikipedia: „Im älteren ASCII-Zeichensatz und in den Zeichensätzen der Normenfamilie ISO 8859 [...] wird das Bindestrich-Minus verwendet, das als gemeinsames Zeichen für Bindestrich, Gedankenstrich und Minuszeichen mit der Schreibmaschine eingeführt wurde.“;
IT and communication - Characters and encodings: The ISO Latin 1 character repertoire: Detailed descriptions of the characters, „- HYPHEN, MINUS SIGN (HYPHEN-MINUS) U+002D“, Jukka „Yucca“ Korpela, 2006 (englisch): „In situations where sufficient support to Unicode can be safely assumed (very rarely at present!), it is best to replace the use of hyphen-minus by Unicode hyphen (U+2010) or non-breaking hyphen (U+2011) or minus sign (U+2212) or, if hyphen-minus had been used e.g. in place of a dash symbol, some other Unicode character such as en dash (U+2013) or em dash (U+2014) or horizontal bar (U+2015).“
↑ ^a ^b ^c Minuszeichen, Ähnliche Zeichen, U+2015 horizontal bar, Wikipedia: „⁽²⁾ Dieses Zeichen gleicht im Regelfall in Länge, Form und Höhenlage einem Geviertstrich und unterscheidet sich von diesem nur durch seine Zeilenumbruch-Eigenschaften.“
↑ On the use of some MS Windows characters in HTML, Suggested substitutes, Dashes, Jukka „Yucca“ Korpela, 2017 (englisch): „In typewritten material, the em dash is represented by two hyphens with no space around them, and an en dash is represented by a hyphen.“
↑ Internationalization for Turkish: Dotted and Dotless Letter "I", Tex Texin, 2010 (englisch);
Resolving dotted and dotless "i", John Cowan, 1997 (englisch)
↑ ^a ^b Zirkumflex, Zeichensätze, Wikipedia: „Der Zeichensatz ASCII enthält nur das Zeichen ^ (in Unicode an Position U+005E), das heute als einzeln stehendes, universell einsetzbares Zeichen interpretiert wird. [...] Im Unicode-Standard sind zusätzlich zum Universalzeichen ^ (U+005E) das typografisch bessere Zeichen ˆ (U+02C6) sowie weitere fertig zusammengesetzte Zeichen mit Zirkumflex enthalten (z. B. Ẑ, ẑ).“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM43 Arrowhead upwards, circumflex shape“
↑ ^a ^b ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM48 Lower bar (not jointive) low line, spacing underline (equivalent to SP09 of ISO 6937)“
↑ ^a ^b „Additionally ASCII grave accent character (U+0060 ` Grave accent) was often used as surrogate of opening single quote, together with ASCII typewriter apostrophe (U+0027 ' Apostrophe) used as closing single quote; double quotes were sometimes substituted by two consecutive grave accents and two consecutive typewriter apostrophes (``…'').“;
ASCII and Unicode quotation marks, Markus Kuhn, 2007 (englisch): „Only old X Window System fonts and some old video terminals show ASCII 0x60/0x27 as left and right quotation marks, while most modern systems follow the ISO and Unicode standards instead.“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM44 Upper reverse solidus, grave accent shape“
↑ Character histories: notes on some Ascii code positions, VERTICAL LINE, Jukka „Yucca“ Korpela, 2006 (englisch)
↑ ^a ^b Unicode Explained, Chapter 8: Character Usage, ASCII (Basic Latin), Tilde ~ (U+007E), S. 401, Jukka K. Korpela, 2006 (englisch): „As a spacing clone of a diacritic tilde (i.e., spacing counterpart of combining tilde U+0303), use the small tilde ˜ (U+02CD [richtig: U+02DC]).“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM47 Upper bar (not jointive) bar or tilde shape“
↑ ^a ^b Liste lateinisch-basierter Alphabete, Erweiterungen, Wikipedia;
Alles über Unicode, Litauische Sonderzeichen, Jens Meyer, 2007;
Sonderbuchstaben und diakritische Zeichen für die europäischen Sprachen des lateinischen Schriftkreises (PDF; 253 kB) Wolfgang Hendlmeier und Gerhard Helzel, 2012
↑ Hatschek, Verwendung und Zeichensätze, Wikipedia: „In modernen Druckschriften wird das Zeichen auf dem Großbuchstaben L sowie auf den Kleinbuchstaben d, l und t häufig in einer Form ähnlich einem Komma rechts oben neben dem Grundzeichen dargestellt.“
und „Es ist zu beachten, dass diese Codes auch dann verwendet werden, wenn das Hatschek auf d, l, L und t in Kommaform dargestellt wird.“
↑ Telefontastatur, Empfehlung ITU-T E.161, Platzierung, Aussehen und Benennung des Symbols ⌗, Wikipedia: „Dieses Symbol ist in Unicode als U+2317 viewdata square enthalten [...]. Dabei müssen die Linienenden bei der quadratischen Form pro Seite zwischen 8 % und 18 % der Kantenlinienlänge überstehen, bei der schrägen Form (Innenwinkel 80°) stets um 18 %.“;
Proposal to incorporate two telephony symbols into Unicode by glyph and annotation changes (PDF; 135 kB) Karl Pentzlin, 2013 (englisch): „The viewdata square, as its name implies, is introduced anyway as a character for "Viewdata" which is an application related to telephony introduced in the 1980s. It can be presumed that it had to be in fact the same symbol as the E.161 symbol.
However, the proportions of its representative glyph are not within the constraints given in E.161.“;
ITU-T Recommendation E.161 : Arrangement of digits, letters and symbols on telephones and other devices that can be used for gaining access to a telephone network, 3.2.2 12 push-buttons, Symbols, S. 3+4, ITU, 2001 (englisch)
↑ ^a ^b ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 76, ITU, 1994 (englisch): „SM12 Central horizonal bar jointive“
↑ Keld Simonsen: RFC 1345 – Character Mnemonics & Character Sets. 1992 (englisch).
↑ ż, Wiktionary: „Als typographische Variante existiert ƶ/Ƶ. Diese wird jedoch in der Regel nur dann verwendet, wenn das ganze Wort in Majuskeln geschrieben wird und oberhalb des Z nicht mehr ausreichend Platz für den Punkt zur Verfügung steht.“;
Teletext mappings, Marcin „Qrczak“ Kowalczyk, 2001 (englisch): „In Polish capital Z with dot above is sometimes rendered with stroke instead of the dot. It’s just a glyph variant, the meaning is exactly the same. The letter should be consistently encoded as Z WITH DOT ABOVE even if it’s rendered with a stroke.“
↑ ^a ^b Unterkomma, Kodierung, Wikipedia: „Bis Anfang der 1990er Jahre wurde in internationalen Standards kein Unterschied zwischen dem Komma und der Cedille gemacht. [...] Erst später setzte sich die Auffassung durch, dass es sich hierbei um zwei verschiedene Diakritika handelt. So enthält Unicode heute sowohl S und T mit Cedille als auch S und T mit Komma.“;
ISO/IEC 6937:2001 (PDF; 748 kB) Table 4 - Specification of the repertoire, S. 15 und 18, ISO/IEC, 2001 (englisch): „NOTE 2: The letters used in the Romanian language LATIN CAPITAL LETTER S WITH COMMA BELOW and LATIN CAPITAL LETTER T WITH COMMA BELOW are different from the LATIN CAPITAL LETTER S WITH CEDILLA and LATIN CAPITAL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“
und „NOTE 5: The letters used in the Romanian language LATIN SMALL LETTER S WITH COMMA BELOW and LATIN SMALL LETTER T WITH COMMA BELOW are different from the LATIN SMALL LETTER S WITH CEDILLA and LATIN SMALL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“;
Cedillas and commas below (PDF; 164 kB) Eric Muller, Adobe, 2013 (englisch);
Comments on cedilla and comma below (revision 2) (PDF; 1,9 MB) Denis Moyogo Jacquerye, 2013 (englisch);
Romanian diacritic marks, Cristian Kit Paul, 2008 (englisch)
↑ Überstrich, Verfügbare Zeichen, Wikipedia: „In mehreren Zeichensätzen der Normenfamilie ISO 8859 und davon abgeleitet auch im Unicode-Standard existiert ein Zeichen U+00AF (175_dec), das gleichermaßen als Überstrich wie auch als Makron verwendbar ist. [...] Der Überstrich wird unter anderem deshalb häufig falsch als „Makron“ bezeichnet, sollte jedoch nicht mit den anderen Unicode-Zeichen dieses Namens verwechselt werden. Die Schriftzeichen an den Kodepunkten U+02C9 (modifier letter macron) sowie U+0304 (combining macron) sind deutlich kürzer als ihre mit overline benannten Gegenstücke.“
↑ Die moderne Bibliothek, 10.2.4 Zeichensatz und 10.2.5 Sortierung (Alphabetisierung), S. 229–232, Rudolf Frankenberger und Klaus Haller, 2004
↑ Trema, Unicode, Wikipedia: „Die meisten Standards für Zeichensätze, darunter Unicode, unterscheiden nicht zwischen Umlaut und Trema. Wenn in der Datenverarbeitung eine Unterscheidung von Umlaut und Trema notwendig ist, empfiehlt ISO/IEC JTC 1/SC 2/WG 2 Folgendes:
• Darstellung des Tremas durch: Combining Grapheme Joiner (CGJ, 034F) + Combining Diaeresis (0308)
• Darstellung des Umlauts durch: Combining Diaeresis (0308)“;
Frequently Asked Questions, Characters and Combining Marks, „Q: Unicode doesn’t seem to distinguish between tréma and umlaut, but I need to distinguish. What shall I do?“, Unicode, 2016 (englisch)
↑ Unicode Technical Note #27 – Known Anomalies in Unicode Character Names, Unicode, 2017 (englisch)
↑ CCITT Recommendation T.61 : Character repertoire and coded character sets for the international teletex service, 3.2.3.9 Non-spacing characters, S. 13, ITU, 1988 (englisch): „Note – The Non-spacing underline character is never used individually but always in combination with some other graphic character to represent the graphic rendition “underlined” for the associated character. The Non-spacing underline character can be used in combination with any graphic character of the repertoire, including an accented letter or an umlaut, or Space. It is recommended to implement the “underline” function by means of the control function SGR(4) instead of the “non-spacing underline” graphic character.“
↑ Proportionality Symbol, Doctor Peterson, 2003 (englisch): „If you prefer to describe it by its appearance rather than strictly by its usage, you might call it an "open alpha" or "loose alpha," rather than "fishy alpha." People do often describe it (wrongly) as an alpha, but I haven't seen these modifiers used anywhere.“
↑ „The upper case, or majuscule form has never been included in any international keyboards Therefore, it is decomposable by simply combining ʼ (U+02BC) and N. 〔ʼN〕“;
Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0149 ŉ LATIN SMALL LETTER N PRECEDED BY APOSTROPHE, Unicode, 2017 (englisch): „uppercase is 02BC ʼ 004E N“
↑ „The letter can be capitalized as Kʼ, but it is not encoded separately as a single letter because it is very similar to the Latin capital letter K followed by an apostrophe, preferably the modifier letter apostrophe, U+02BC ʼ modifier letter apostrophe (HTML ʼ).“;
Status of Mapping between Characters of ISO 5426-2 and ISO/IEC 10646-1 (UCS) (PDF; 126 kB) 4. ADDITIONAL MAPPINGS, 63 LATIN CAPITAL LETTER KRA, S. 5, Joan M. Aliprand, 2002 (englisch): „The capital form of the letter kra letter can be encoded as the sequence U+004B LATIN CAPTIAL LETTER K followed by U+02BC MODIFIER LETTER APOSTROPHE.“
↑ Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0131 ı LATIN SMALL LETTER DOTLESS I, Unicode, 2017 (englisch): „uppercase is 0049 I“
↑ ß, Großschreibweise und Besonderheiten der Verwendung, sowie Großes ß, Versalien ohne großes ß, Wikipedia;
Unicode 10.0 Character Code Charts, C1 Controls and Latin-1 Supplement (PDF; 573 kB) 00DF ß LATIN SMALL LETTER SHARP S, Unicode, 2017 (englisch): ‚uppercase is “SS”‘
↑ Großes ß, Wikipedia: „Anfang 2008 wurde das große ß als neues Zeichen in den internationalen Standard Unicode für Computerzeichensätze aufgenommen, am 24. Juni 2008 trat die entsprechende Ergänzung der Norm ISO/IEC 10646 in Kraft. Seit dem 29. Juni 2017 ist das ẞ Bestandteil der amtlichen deutschen Rechtschreibung.“
↑ „Dzhe corresponds in other Cyrillic alphabets to the digraphs дж or чж, or to the letters Che with descender (Ҷ ҷ), Che with vertical stroke (Ҹ ҹ), Khakassian Che (Ӌ ӌ), Zhe with breve (Ӂ ӂ), Zhe with diaeresis (Ӝ ӝ), or Zhje (Җ җ).“
↑ Jo, Wikipedia: „Ё wird vor allem in Druckerzeugnissen durch Е ersetzt, [...].“;
Russisches Alphabet, Ё ё, URRA Interactive: „Anmerkungen: [...] – wird oft ohne die zwei Punkte geschrieben“
↑ ^a ^b „When not available, the character ⟨ѝ⟩ is often replaced by an ordinary ⟨и⟩ (not recommended, but still orthographically correct) or in Bulgarian by the letter ⟨й⟩ (formally this is considered a spelling error).“
↑ ^a ^b Tonos, Wikipedia: „In manchen Schriftarten steht der Tonos senkrecht, also in einer im Gegensatz zum nach rechts geneigten Akut und zum nach links geneigten Gravis ‚neutralen‘ Position, bisweilen ist er auch nur ein Punkt, ein auf der Spitze stehendes Dreieck o. Ä. Dieser Usus stammt aus den 1970er Jahren, also aus der Zeit vor der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung, als Orthographiereformer auf diese Weise einen ‚neutralen‘ Akzent benutzten, der sich von den in der polytonischen Orthographie vorhandenen unterscheiden musste. Mit der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung 1980 wurde die Unterscheidung des Tonos von den polytonischen Akzenten jedoch unnötig, und alle Stilvorgaben sehen vor, dass der monotonische Tonos graphisch identisch mit dem polytonischen Akut ist. So ist es auch in Unicode vorgesehen.“
↑ ^a ^b Arabic character tail for final Seen family (Seen, Sheen, Saad, Daad) (PDF; 300 kB) IBM Egypt, 2001 (englisch)
↑ Philips SAA5x9x family (PDF) 9.19 Horizontal timing, 9.20 Vertical timing, „Fig.15 625-line display format.“ und „Fig.16 525-line display format.“, S. 46–49, Philips, 1998 (englisch)
↑ Unicode Fonts for Ancient Scripts, George Douros, 2020 (englisch)
↑ Unicode 13.0.0, Unicode, 2020 (englisch);
The Unicode Consortium auf Twitter, Unicode, 2019 (englisch);
Proposal to add characters from legacy computers and teletext to the UCS (PDF; 3,9 MB) Doug Ewell, Rebecca Bettencourt und andere, 2019 (englisch);
Map from Teletext G1 character set to Unicode, Rebecca Bettencourt, 2018 (englisch);
Map from Teletext G3 character set to Unicode, Rebecca Bettencourt, 2018 (englisch)
↑ Unicode Technical Report #25 – Unicode Support for Mathematics, 2.11 Geometrical Shapes, Unicode, 2007 (englisch)
↑ Recommendations and Reports of the CCIR, 1982, Volume XI — Part 1, Broadcasting Service (Television) (PDF; 13 MB) Report 957 – Characteristics of teletext systems, Annex I – United Kingdom teletext system, Figure 14 — Smoothed mosaic graphics set, S. 119, ITU, 1982 (englisch)
↑ Bug Reports DVBViewer Pro/GE – Teletext with Cyrillic, Griga, 2012 (englisch): „P.S. The following screenshot from Derrick’s sample (see above) shows clearly which characters originate from which source:
- White characters are from the Latin G0 Character Set (identical for all countries with a latin alphabet)
- Red characters are from the Spanisch/Portuguese National Option Subset.
- Green characters added by packets X/26 are from the Latin G2 Supplementary Set.“
↑ Siemens MEGATEXT PLUS SDA 5275-2 Delta Specification / Application Notes (PDF) 2.5.2 Example for Russian Market, S. 56, Siemens, 1998 (englisch): „The bit SEC_LA should be set and the secondary language should be defined to English because currently, no Russian broadcaster transmits packet X/28 or X/29.“
↑ Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table, e.g. to change from the Hebrew alphabet to the Arabic alphabet on an Arab/Hebrew device.“
↑ Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table [...]. For some national option languages the alternate code table is the default, and a twist control character will switch to the first code table.“

[Philips_SAA5246A-1] Philips SAA5246A (PDF) Philips, 1993 (englisch)

[2] Character histories: notes on some Ascii code positions, Jukka „Yucca“ Korpela, 2006 (englisch);
7-bit character sets, Aivosto Oy, 2016 (englisch)

[3] Viertelgeviertstrich, Bindestrich/Divis, Wikipedia: „Im älteren ASCII-Zeichensatz und in den Zeichensätzen der Normenfamilie ISO 8859 [...] wird das Bindestrich-Minus verwendet, das als gemeinsames Zeichen für Bindestrich, Gedankenstrich und Minuszeichen mit der Schreibmaschine eingeführt wurde.“;
IT and communication - Characters and encodings: The ISO Latin 1 character repertoire: Detailed descriptions of the characters, „- HYPHEN, MINUS SIGN (HYPHEN-MINUS) U+002D“, Jukka „Yucca“ Korpela, 2006 (englisch): „In situations where sufficient support to Unicode can be safely assumed (very rarely at present!), it is best to replace the use of hyphen-minus by Unicode hyphen (U+2010) or non-breaking hyphen (U+2011) or minus sign (U+2212) or, if hyphen-minus had been used e.g. in place of a dash symbol, some other Unicode character such as en dash (U+2013) or em dash (U+2014) or horizontal bar (U+2015).“

[Geviertstrich-4] Minuszeichen, Ähnliche Zeichen, U+2015 horizontal bar, Wikipedia: „⁽²⁾ Dieses Zeichen gleicht im Regelfall in Länge, Form und Höhenlage einem Geviertstrich und unterscheidet sich von diesem nur durch seine Zeilenumbruch-Eigenschaften.“

[5] On the use of some MS Windows characters in HTML, Suggested substitutes, Dashes, Jukka „Yucca“ Korpela, 2017 (englisch): „In typewritten material, the em dash is represented by two hyphens with no space around them, and an en dash is represented by a hyphen.“

[6] Internationalization for Turkish: Dotted and Dotless Letter "I", Tex Texin, 2010 (englisch);
Resolving dotted and dotless "i", John Cowan, 1997 (englisch)

[Zirkumflex-7] Zirkumflex, Zeichensätze, Wikipedia: „Der Zeichensatz ASCII enthält nur das Zeichen ^ (in Unicode an Position U+005E), das heute als einzeln stehendes, universell einsetzbares Zeichen interpretiert wird. [...] Im Unicode-Standard sind zusätzlich zum Universalzeichen ^ (U+005E) das typografisch bessere Zeichen ˆ (U+02C6) sowie weitere fertig zusammengesetzte Zeichen mit Zirkumflex enthalten (z. B. Ẑ, ẑ).“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM43 Arrowhead upwards, circumflex shape“

[Unterstrich-8] ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM48 Lower bar (not jointive) low line, spacing underline (equivalent to SP09 of ISO 6937)“

[Gravis-9] „Additionally ASCII grave accent character (U+0060 ` Grave accent) was often used as surrogate of opening single quote, together with ASCII typewriter apostrophe (U+0027 ' Apostrophe) used as closing single quote; double quotes were sometimes substituted by two consecutive grave accents and two consecutive typewriter apostrophes (``…'').“;
ASCII and Unicode quotation marks, Markus Kuhn, 2007 (englisch): „Only old X Window System fonts and some old video terminals show ASCII 0x60/0x27 as left and right quotation marks, while most modern systems follow the ISO and Unicode standards instead.“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM44 Upper reverse solidus, grave accent shape“

[10] Character histories: notes on some Ascii code positions, VERTICAL LINE, Jukka „Yucca“ Korpela, 2006 (englisch)

[Tilde-11] Unicode Explained, Chapter 8: Character Usage, ASCII (Basic Latin), Tilde ~ (U+007E), S. 401, Jukka K. Korpela, 2006 (englisch): „As a spacing clone of a diacritic tilde (i.e., spacing counterpart of combining tilde U+0303), use the small tilde ˜ (U+02CD [richtig: U+02DC]).“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM47 Upper bar (not jointive) bar or tilde shape“

[Sonderbuchstaben-12] Liste lateinisch-basierter Alphabete, Erweiterungen, Wikipedia;
Alles über Unicode, Litauische Sonderzeichen, Jens Meyer, 2007;
Sonderbuchstaben und diakritische Zeichen für die europäischen Sprachen des lateinischen Schriftkreises (PDF; 253 kB) Wolfgang Hendlmeier und Gerhard Helzel, 2012

[13] Hatschek, Verwendung und Zeichensätze, Wikipedia: „In modernen Druckschriften wird das Zeichen auf dem Großbuchstaben L sowie auf den Kleinbuchstaben d, l und t häufig in einer Form ähnlich einem Komma rechts oben neben dem Grundzeichen dargestellt.“
und „Es ist zu beachten, dass diese Codes auch dann verwendet werden, wenn das Hatschek auf d, l, L und t in Kommaform dargestellt wird.“

[14] Telefontastatur, Empfehlung ITU-T E.161, Platzierung, Aussehen und Benennung des Symbols ⌗, Wikipedia: „Dieses Symbol ist in Unicode als U+2317 viewdata square enthalten [...]. Dabei müssen die Linienenden bei der quadratischen Form pro Seite zwischen 8 % und 18 % der Kantenlinienlänge überstehen, bei der schrägen Form (Innenwinkel 80°) stets um 18 %.“;
Proposal to incorporate two telephony symbols into Unicode by glyph and annotation changes (PDF; 135 kB) Karl Pentzlin, 2013 (englisch): „The viewdata square, as its name implies, is introduced anyway as a character for "Viewdata" which is an application related to telephony introduced in the 1980s. It can be presumed that it had to be in fact the same symbol as the E.161 symbol.
However, the proportions of its representative glyph are not within the constraints given in E.161.“;
ITU-T Recommendation E.161 : Arrangement of digits, letters and symbols on telephones and other devices that can be used for gaining access to a telephone network, 3.2.2 12 push-buttons, Symbols, S. 3+4, ITU, 2001 (englisch)

[Horizontale_Linie-15] ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 76, ITU, 1994 (englisch): „SM12 Central horizonal bar jointive“

[16] Keld Simonsen: RFC 1345 – Character Mnemonics & Character Sets. 1992 (englisch).

[17] ż, Wiktionary: „Als typographische Variante existiert ƶ/Ƶ. Diese wird jedoch in der Regel nur dann verwendet, wenn das ganze Wort in Majuskeln geschrieben wird und oberhalb des Z nicht mehr ausreichend Platz für den Punkt zur Verfügung steht.“;
Teletext mappings, Marcin „Qrczak“ Kowalczyk, 2001 (englisch): „In Polish capital Z with dot above is sometimes rendered with stroke instead of the dot. It’s just a glyph variant, the meaning is exactly the same. The letter should be consistently encoded as Z WITH DOT ABOVE even if it’s rendered with a stroke.“

[Komma_(Unterzeichen)-18] Unterkomma, Kodierung, Wikipedia: „Bis Anfang der 1990er Jahre wurde in internationalen Standards kein Unterschied zwischen dem Komma und der Cedille gemacht. [...] Erst später setzte sich die Auffassung durch, dass es sich hierbei um zwei verschiedene Diakritika handelt. So enthält Unicode heute sowohl S und T mit Cedille als auch S und T mit Komma.“;
ISO/IEC 6937:2001 (PDF; 748 kB) Table 4 - Specification of the repertoire, S. 15 und 18, ISO/IEC, 2001 (englisch): „NOTE 2: The letters used in the Romanian language LATIN CAPITAL LETTER S WITH COMMA BELOW and LATIN CAPITAL LETTER T WITH COMMA BELOW are different from the LATIN CAPITAL LETTER S WITH CEDILLA and LATIN CAPITAL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“
und „NOTE 5: The letters used in the Romanian language LATIN SMALL LETTER S WITH COMMA BELOW and LATIN SMALL LETTER T WITH COMMA BELOW are different from the LATIN SMALL LETTER S WITH CEDILLA and LATIN SMALL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“;
Cedillas and commas below (PDF; 164 kB) Eric Muller, Adobe, 2013 (englisch);
Comments on cedilla and comma below (revision 2) (PDF; 1,9 MB) Denis Moyogo Jacquerye, 2013 (englisch);
Romanian diacritic marks, Cristian Kit Paul, 2008 (englisch)

[19] Überstrich, Verfügbare Zeichen, Wikipedia: „In mehreren Zeichensätzen der Normenfamilie ISO 8859 und davon abgeleitet auch im Unicode-Standard existiert ein Zeichen U+00AF (175_dec), das gleichermaßen als Überstrich wie auch als Makron verwendbar ist. [...] Der Überstrich wird unter anderem deshalb häufig falsch als „Makron“ bezeichnet, sollte jedoch nicht mit den anderen Unicode-Zeichen dieses Namens verwechselt werden. Die Schriftzeichen an den Kodepunkten U+02C9 (modifier letter macron) sowie U+0304 (combining macron) sind deutlich kürzer als ihre mit overline benannten Gegenstücke.“

[20] Die moderne Bibliothek, 10.2.4 Zeichensatz und 10.2.5 Sortierung (Alphabetisierung), S. 229–232, Rudolf Frankenberger und Klaus Haller, 2004

[21] Trema, Unicode, Wikipedia: „Die meisten Standards für Zeichensätze, darunter Unicode, unterscheiden nicht zwischen Umlaut und Trema. Wenn in der Datenverarbeitung eine Unterscheidung von Umlaut und Trema notwendig ist, empfiehlt ISO/IEC JTC 1/SC 2/WG 2 Folgendes:
• Darstellung des Tremas durch: Combining Grapheme Joiner (CGJ, 034F) + Combining Diaeresis (0308)
• Darstellung des Umlauts durch: Combining Diaeresis (0308)“;
Frequently Asked Questions, Characters and Combining Marks, „Q: Unicode doesn’t seem to distinguish between tréma and umlaut, but I need to distinguish. What shall I do?“, Unicode, 2016 (englisch)

[22] Unicode Technical Note #27 – Known Anomalies in Unicode Character Names, Unicode, 2017 (englisch)

[23] CCITT Recommendation T.61 : Character repertoire and coded character sets for the international teletex service, 3.2.3.9 Non-spacing characters, S. 13, ITU, 1988 (englisch): „Note – The Non-spacing underline character is never used individually but always in combination with some other graphic character to represent the graphic rendition “underlined” for the associated character. The Non-spacing underline character can be used in combination with any graphic character of the repertoire, including an accented letter or an umlaut, or Space. It is recommended to implement the “underline” function by means of the control function SGR(4) instead of the “non-spacing underline” graphic character.“

[24] Proportionality Symbol, Doctor Peterson, 2003 (englisch): „If you prefer to describe it by its appearance rather than strictly by its usage, you might call it an "open alpha" or "loose alpha," rather than "fishy alpha." People do often describe it (wrongly) as an alpha, but I haven't seen these modifiers used anywhere.“

[25] „The upper case, or majuscule form has never been included in any international keyboards Therefore, it is decomposable by simply combining ʼ (U+02BC) and N. 〔ʼN〕“;
Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0149 ŉ LATIN SMALL LETTER N PRECEDED BY APOSTROPHE, Unicode, 2017 (englisch): „uppercase is 02BC ʼ 004E N“

[26] „The letter can be capitalized as Kʼ, but it is not encoded separately as a single letter because it is very similar to the Latin capital letter K followed by an apostrophe, preferably the modifier letter apostrophe, U+02BC ʼ modifier letter apostrophe (HTML ʼ).“;
Status of Mapping between Characters of ISO 5426-2 and ISO/IEC 10646-1 (UCS) (PDF; 126 kB) 4. ADDITIONAL MAPPINGS, 63 LATIN CAPITAL LETTER KRA, S. 5, Joan M. Aliprand, 2002 (englisch): „The capital form of the letter kra letter can be encoded as the sequence U+004B LATIN CAPTIAL LETTER K followed by U+02BC MODIFIER LETTER APOSTROPHE.“

[27] Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0131 ı LATIN SMALL LETTER DOTLESS I, Unicode, 2017 (englisch): „uppercase is 0049 I“

[28] ß, Großschreibweise und Besonderheiten der Verwendung, sowie Großes ß, Versalien ohne großes ß, Wikipedia;
Unicode 10.0 Character Code Charts, C1 Controls and Latin-1 Supplement (PDF; 573 kB) 00DF ß LATIN SMALL LETTER SHARP S, Unicode, 2017 (englisch): ‚uppercase is “SS”‘

[29] Großes ß, Wikipedia: „Anfang 2008 wurde das große ß als neues Zeichen in den internationalen Standard Unicode für Computerzeichensätze aufgenommen, am 24. Juni 2008 trat die entsprechende Ergänzung der Norm ISO/IEC 10646 in Kraft. Seit dem 29. Juni 2017 ist das ẞ Bestandteil der amtlichen deutschen Rechtschreibung.“

[30] „Dzhe corresponds in other Cyrillic alphabets to the digraphs дж or чж, or to the letters Che with descender (Ҷ ҷ), Che with vertical stroke (Ҹ ҹ), Khakassian Che (Ӌ ӌ), Zhe with breve (Ӂ ӂ), Zhe with diaeresis (Ӝ ӝ), or Zhje (Җ җ).“

[31] Jo, Wikipedia: „Ё wird vor allem in Druckerzeugnissen durch Е ersetzt, [...].“;
Russisches Alphabet, Ё ё, URRA Interactive: „Anmerkungen: [...] – wird oft ohne die zwei Punkte geschrieben“

[I_mit_Gravis_(kyrillisch)-32] „When not available, the character ⟨ѝ⟩ is often replaced by an ordinary ⟨и⟩ (not recommended, but still orthographically correct) or in Bulgarian by the letter ⟨й⟩ (formally this is considered a spelling error).“

[Tonos-33] Tonos, Wikipedia: „In manchen Schriftarten steht der Tonos senkrecht, also in einer im Gegensatz zum nach rechts geneigten Akut und zum nach links geneigten Gravis ‚neutralen‘ Position, bisweilen ist er auch nur ein Punkt, ein auf der Spitze stehendes Dreieck o. Ä. Dieser Usus stammt aus den 1970er Jahren, also aus der Zeit vor der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung, als Orthographiereformer auf diese Weise einen ‚neutralen‘ Akzent benutzten, der sich von den in der polytonischen Orthographie vorhandenen unterscheiden musste. Mit der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung 1980 wurde die Unterscheidung des Tonos von den polytonischen Akzenten jedoch unnötig, und alle Stilvorgaben sehen vor, dass der monotonische Tonos graphisch identisch mit dem polytonischen Akut ist. So ist es auch in Unicode vorgesehen.“

[Sin_Abschlussteil-34] Arabic character tail for final Seen family (Seen, Sheen, Saad, Daad) (PDF; 300 kB) IBM Egypt, 2001 (englisch)

[35] Philips SAA5x9x family (PDF) 9.19 Horizontal timing, 9.20 Vertical timing, „Fig.15 625-line display format.“ und „Fig.16 525-line display format.“, S. 46–49, Philips, 1998 (englisch)

[36] Unicode Fonts for Ancient Scripts, George Douros, 2020 (englisch)

[37] Unicode 13.0.0, Unicode, 2020 (englisch);
The Unicode Consortium auf Twitter, Unicode, 2019 (englisch);
Proposal to add characters from legacy computers and teletext to the UCS (PDF; 3,9 MB) Doug Ewell, Rebecca Bettencourt und andere, 2019 (englisch);
Map from Teletext G1 character set to Unicode, Rebecca Bettencourt, 2018 (englisch);
Map from Teletext G3 character set to Unicode, Rebecca Bettencourt, 2018 (englisch)

[38] Unicode Technical Report #25 – Unicode Support for Mathematics, 2.11 Geometrical Shapes, Unicode, 2007 (englisch)

[39] Recommendations and Reports of the CCIR, 1982, Volume XI — Part 1, Broadcasting Service (Television) (PDF; 13 MB) Report 957 – Characteristics of teletext systems, Annex I – United Kingdom teletext system, Figure 14 — Smoothed mosaic graphics set, S. 119, ITU, 1982 (englisch)

[40] Bug Reports DVBViewer Pro/GE – Teletext with Cyrillic, Griga, 2012 (englisch): „P.S. The following screenshot from Derrick’s sample (see above) shows clearly which characters originate from which source:
- White characters are from the Latin G0 Character Set (identical for all countries with a latin alphabet)
- Red characters are from the Spanisch/Portuguese National Option Subset.
- Green characters added by packets X/26 are from the Latin G2 Supplementary Set.“

[41] Siemens MEGATEXT PLUS SDA 5275-2 Delta Specification / Application Notes (PDF) 2.5.2 Example for Russian Market, S. 56, Siemens, 1998 (englisch): „The bit SEC_LA should be set and the secondary language should be defined to English because currently, no Russian broadcaster transmits packet X/28 or X/29.“

[42] Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table, e.g. to change from the Hebrew alphabet to the Arabic alphabet on an Arab/Hebrew device.“

[43] Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table [...]. For some national option languages the alternate code table is the default, and a twist control character will switch to the first code table.“

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

1

2

3

[40]

[41]

[42]

1

2

3

4

5

6

7

[43]

a

b

1

2

3

4

5

6

Teletext-Zeichensätze (ETSI EN 300 706)

Inhaltsverzeichnis

Allgemeines[Bearbeiten | Quelltext bearbeiten]

Legende[Bearbeiten | Quelltext bearbeiten]

Lateinisch[Bearbeiten | Quelltext bearbeiten]

Kyrillisch[Bearbeiten | Quelltext bearbeiten]

Griechisch[Bearbeiten | Quelltext bearbeiten]

Arabisch[Bearbeiten | Quelltext bearbeiten]

Hebräisch[Bearbeiten | Quelltext bearbeiten]

Grafik[Bearbeiten | Quelltext bearbeiten]

Zeichensatzauswahl[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Teletext-Zeichensätze (ETSI EN 300 706)

Allgemeines[Bearbeiten | Quelltext bearbeiten]

Legende[Bearbeiten | Quelltext bearbeiten]

Lateinisch[Bearbeiten | Quelltext bearbeiten]

Kyrillisch[Bearbeiten | Quelltext bearbeiten]

Griechisch[Bearbeiten | Quelltext bearbeiten]

Arabisch[Bearbeiten | Quelltext bearbeiten]

Hebräisch[Bearbeiten | Quelltext bearbeiten]

Grafik[Bearbeiten | Quelltext bearbeiten]

Zeichensatzauswahl[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Suche