Teletext-Zeichensätze (ETSI EN 300 706)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die folgenden Tabellen beschreiben die in ETSI EN 300 706 definierten 7-Bit-Zeichensätze des in Europa verwendeten Teletext-Standards.

Allgemeines[Bearbeiten | Quelltext bearbeiten]

Die jeweils ersten 32 Positionen (00hex bis 1Fhex) der Zeichensätze sind nicht definiert. Diese Zeichencodes sind aber in der einfachen Level-1-Teletext-Seite als Steuerzeichen definiert.

Das Zeichen 24hex stellt im lateinischen G0-Standard-Primärzeichensatz das allgemeine Währungssymbol (¤) und in den anderen G0-Primärzeichensätzen das Dollarzeichen ($) dar.

Das Zeichen 2Ahex in den G0-Primärzeichensätzen stellt abhängig von der Ansteuerung das Sternchen (*) oder das At-Zeichen (@) dar.

Das ausgefüllte Rechteck an der Position 7Fhex in den G0-Primärzeichensätzen und in manchen G2-Ergänzungszeichensätzen ist so groß wie die maximale Ausdehnung aller Buchstaben ohne Unterlänge. Es besitzt keine festgelegte Unicode-Zuordnung und ist hier wie das Zeichen FEhex (■) in DOS-Zeichensätzen codiert, was auch bei vielen softwarebasierten Decodern gebräuchlich ist. Das genaue Layout des Unicode-Zeichens ist stark von der Schriftart abhängig, aber zumindest in der Schriftfamilie „Courier“ entspricht das ausgefüllte Quadrat () mit der Unicodenummer 25A0hex weitgehend dem in ETSI EN 300 706 angegebenen Beispiellayout. Allerdings ist das Rechteck im arabischen G0-Primärzeichensatz mit etwas Unterlänge wie der arabische Buchstabe Alif maqṣūra (‭ﻯ) an der Position 70hex dargestellt, was aber auch nicht bei allen Decodern der Fall ist.[1]

Die G2-Ergänzungszeichensätze und der G3-Zeichensatz „Hochauflösende Grafik“ werden ab Teletext-Präsentationslevel 1.5 unterstützt. Bei vielen Level-1.5-Decodern ist der Zeichenvorrat dieser Zeichensätze aber noch eingeschränkt.

Legende[Bearbeiten | Quelltext bearbeiten]

A Γ Buchstabe des Grundalphabets (lateinische / nicht-lateinische Schrift)
ß ά Sonderbuchstabe oder Ergänzung
` ΄ Diakritisches Zeichen (alleinstehend)
ò Diakritisches Zeichen (kombinierend)
2 ٢ Ziffer des Zahlensystems
½ Zahlzeichen
@ Interpunktions- oder Sonderzeichen
Kombinierendes Sonderzeichen
Grafik- oder Rahmenelement (in Unicode definiert / nicht definiert)
RLM Leer- oder Steuerzeichen
Undefiniertes Zeichen
| ¦ Zeichen mit Layoutvariation (oftmals der niedrigen Auflösung geschuldet oder historisch bedingt[2] )
41 41 Siehe Anmerkungen zur Tabelle (eindeutige / verschiedene Codierungen)
Α A ‭ﺏ ﺐ Kontextabhängige Bedeutung (identisches Layout / passende Form)
У (Y) ‭ﺁ (ﺂ) Kontextabhängige Bedeutung (unterschiedliches Layout / fehlende Form)
Ë|$ Verschiedene Codierungen (von der Ansteuerung oder dem Decoder abhängig)

Bei den Unicodenummern ist jeweils der offizielle Unicode-Name als (ungültiger) Weblink angegeben, damit dieser als Hinweistext angezeigt werden kann – eine bessere Möglichkeit dafür sieht die Wikisyntax nicht vor. Bei Zeichen ohne Unicode-Zuordnung („N/A“) wird hier ein beschreibender Name verwendet, der sich an den Namen ähnlicher Unicode-Zeichen orientiert.

Lateinisch[Bearbeiten | Quelltext bearbeiten]

Die lateinischen G0- (Variante „Standard“) und G2-Zeichensätze sind im Wesentlichen identisch mit dem 8-Bit-Zeichensatz ISO 6937-2:1983/Add 1:1989 (ISO-IR-142) ergänzt durch die zwei Zeichen A6hex (#) und A8hex (¤) aus dem äquivalenten 8-Bit-Zeichensatz ITU T.61 (siehe dazu auch die aktuelle Fassung ISO 6937:2001), wobei der G2-Ergänzungszeichensatz den Zeichen A0hex bis FFhex entspricht.

Lateinischer G0-Primärzeichensatz (Europäisch)
Auswahlbits: siehe nationale Varianten
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

#

0023
23

¤

00A4
24

%

0025
25

&

0026
26

'

0027
27

(

0028
28

)

0029
29

*|@ 

002A|​0040
2A

+

002B
2B

,

002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

;

003B
3B

<

003C
3C

=

003D
3D

>

003E
3E

?

003F
3F

4_

@

0040
40

A

0041
41

B

0042
42

C

0043
43

D

0044
44

E

0045
45

F

0046
46

G

0047
47

H

0048
48

I

0049
49

J

004A
4A

K

004B
4B

L

004C
4C

M

004D
4D

N

004E
4E

O

004F
4F

5_

P

0050
50

Q

0051
51

R

0052
52

S

0053
53

T

0054
54

U

0055
55

V

0056
56

W

0057
57

X

0058
58

Y

0059
59

Z

005A
5A

[

005B
5B

\

005C
5C

]

005D
5D

^

005E
5E

_

005F
5F

6_

`

0060
60

a

0061
61

b

0062
62

c

0063
63

d

0064
64

e

0065
65

f

0066
66

g

0067
67

h

0068
68

i

0069
69

j

006A
6A

k

006B
6B

l

006C
6C

m

006D
6D

n

006E
6E

o

006F
6F

7_

p

0070
70

q

0071
71

r

0072
72

s

0073
73

t

0074
74

u

0075
75

v

0076
76

w

0077
77

x

0078
78

y

0079
79

z

007A
7A

{

007B
7B

| ¦

007C
7C

}

007D
7D

~ ~

007E
7E

25A0
7F

Das Zeichen 7Fhex (■) ist abweichend zu ISO 6937 codiert.

Das doppelte Anführungszeichen (") an der Position 22hex ist in ETSI EN 300 706 im Beispiellayout typografisch korrekt als schließendes Anführungszeichen im Englischen (”) mit der Unicodenummer 201Dhex dargestellt. Allerdings sollte das Zeichen trotzdem gemäß ISO 6937 als neutrale Variante codiert werden, um optisch und semantisch besser auch als öffnendes Anführungszeichen im Englischen (“) verwendet werden zu können. Außerdem ist die typografisch korrekte Variante zusätzlich an der Position 3Ahex im lateinischen G2-Ergänzungszeichensatz mit anderem Beispiellayout eher als schließendes Anführungszeichen dargestellt.

Das Nummernzeichen (#) an der Position 23hex ist in ETSI EN 300 706 im Beispiellayout mit senkrechten Strichen dargestellt, wobei es sich aber nur um eine Layoutvariation handelt, die wohl der niedrigen Auflösung geschuldet sein dürfte.

Das Hochkomma (') an der Position 27hex ist in ETSI EN 300 706 im Beispiellayout typografisch korrekt dargestellt und könnte auch mit den optisch passenderen, alternativen Unicode-Zeichen schließendes einfaches Anführungszeichen im Englischen (’) mit der Unicodenummer 2019hex oder modifizierendes Hochkomma (ʼ) mit der Unicodenummer 02BChex codiert werden, was aber beides abweichend zu ISO 6937 wäre und bei einer Verwendung als öffnendes Anführungszeichen im Englischen (‘) optisch und semantisch nicht passen würde. Außerdem ist die typografisch korrekte Variante zusätzlich an der Position 39hex im lateinischen G2-Ergänzungszeichensatz mit anderem Beispiellayout eher als schließendes Anführungszeichen dargestellt.

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Das Sternchen (*) an der Position 2Ahex ist in ETSI EN 300 706 im Beispiellayout groß, sechsstrahlig, auf einem Strahl stehend und vertikal zentriert dargestellt und könnte auch mit dem optisch passenderen, alternativen Unicode-Zeichen Sternchen-Operator () mit der Unicodenummer 2217hex codiert werden, was aber abweichend zu ISO 6937 wäre.

Der Kurzstrich (-) an der Position 2Dhex kann entsprechend EBU Tech 3232-a und ITU T.61 auch kontextabhängig als Bindestrich (‐) mit der Unicodenummer 2010hex oder als Minuszeichen (−) mit der Unicodenummer 2212hex codiert werden. Außerdem kann das Zeichen auch als Gedankenstrich (–) mit der Unicodenummer 2013hex verwendet werden.[3] Allerdings sollte für den langen Gedankenstrich im Englischen (—) mit der Unicodenummer 2014hex besser die horizontale Linie (―) an der Position 60hex in der Variante „Englisch“ und an der Position 50hex im lateinischen G2-Ergänzungszeichensatz oder zwei aufeinanderfolgende Kurzstriche verwendet werden.[4][5]

Der Großbuchstabe I an der Position 49hex kann als Großbuchstabe für den Kleinbuchstaben i an der Position 69hex und als Großbuchstabe für den Kleinbuchstaben i ohne Punkt (ı) an der Position 60hex bzw. 5Fhex in den beiden Varianten „Türkisch“ und „Rumänisch“, sowie an der Position 75hex im lateinischen G2-Ergänzungszeichensatz verwendet werden. Der Kleinbuchstabe i an der Position 69hex kann als Kleinbuchstabe für den Großbuchstaben I an der Position 49hex und als Kleinbuchstabe für den Großbuchstaben I mit Punkt (İ) an der Position 40hex in der Variante „Türkisch“ und für die entsprechende Kombination im lateinischen G2-Ergänzungszeichensatz verwendet werden. Auch in Unicode wird jeweils nicht zwischen den beiden optisch identischen Zeichen unterschieden.[6]

Der Zirkumflex (^) an der Position 5Ehex ist in ETSI EN 300 706 im Beispiellayout groß und hochgestellt dargestellt, so wie es auch in modernen Druckschriften üblich ist.[7]

Der Unterstrich (_) an der Position 5Fhex ist in ETSI EN 300 706 im Beispiellayout links und rechts nicht verbindend dargestellt, was aber in modernen Druckschriften unüblich ist.[8]

Das alleinstehende diakritische Zeichen Gravis (`) an der Position 60hex ist in ETSI EN 300 706 im Beispiellayout von der Größe und Höhenlage passend als vertikal gespiegeltes Gegenstück zur typografisch korrekten Form des Hochkommas (’) an der Position 27hex dargestellt, hat aber noch die gerade Linienform und Schräglage eines Gravis. Trotzdem könnte das Zeichen eventuell auch als öffnendes einfaches Anführungszeichen im Englischen (‛) mit der Unicodenummer 201Bhex verwendet werden, was aber abweichend zu ISO 6937 wäre und semantisch nicht passen würde.[9]

Der senkrechte Strich (|) an der Position 7Chex ist in ETSI EN 300 706 im Beispiellayout in der Mitte unterbrochen (sowie oben und unten nicht verbindend) dargestellt und könnte auch mit dem optisch passenderen, alternativen Unicode-Zeichen unterbrochener Strich (¦) mit der Unicodenummer 00A6hex codiert werden, was aber abweichend zu ISO 6937 wäre. Außerdem handelt es sich dabei nur um eine historisch bedingte Layoutvariation.[10]

Die Tilde (~) an der Position 7Ehex ist in ETSI EN 300 706 im Beispiellayout groß und hochgestellt dargestellt und ist in dieser Form in Unicode nicht als eigenständiges Zeichen definiert. Das alleinstehende diakritische Zeichen Tilde (˜) mit der Unicodenummer 02DChex passt zwar von der Höhenlage, ist aber zu klein. Entsprechend EBU Tech 3232-a und ITU T.101 kann zur Codierung alternativ auch das Unicode-Zeichen Überstrich (‾) mit der Unicodenummer 203Ehex oder eventuell auch das alleinstehende diakritische Zeichen Makron (¯) mit der Unicodenummer 00AFhex verwendet werden, was aber beides abweichend zu ISO 6937 wäre und abweichend zu ITU T.101 üblicherweise links und rechts verbindend ist.[11]

Die Codierung der anderen fett umrahmten Zeichen ist von der Ansteuerung und der ausgewählten nationalen Variante abhängig.

Lateinischer G0-Primärzeichensatz – Nationale Varianten
Auswahlbits
G2 = Arabischer G2
23 24 40 5B 5C 5D 5E 5F 60 7B 7C 7D 7E
0_ 1_ 2_ 3_ 4_ 6_ 8_
Standard

#

0023
23

¤

00A4
24

@

0040
40

[

005B
5B

\

005C
5C

]

005D
5D

^

005E
5E

_

005F
5F

`

0060
60

{

007B
7B

| ¦

007C
7C

}

007D
7D

~ ~

007E
7E

Tschechisch/​Slowakisch 06 16 46

#

0023
23

ů

016F
24

č

010D
40

ť tˇ

0165
5B

ž

017E
5C

ý

00FD
5D

í

00ED
5E

ř

0159
5F

é

00E9
60

á

00E1
7B

ě

011B
7C

ú

00FA
7D

š

0161
7E

Englisch 00 20 80
G2

£

00A3
23

$

0024
24

@

0040
40

2190
5B

½

00BD
5C

2192
5D

2191
5E

#

0023
5F

2015
60

¼

00BC
7B

2225
7C

¾

00BE
7D

÷

00F7
7E

Estnisch 42

#

0023
23

õ

00F5
24

Š

0160
40

Ä

00C4
5B

Ö

00D6
5C

Ž

017D
5D

Ü

00DC
5E

Õ

00D5
5F

š

0161
60

ä

00E4
7B

ö

00F6
7C

ž

017E
7D

ü

00FC
7E

Französisch 04 14 24 84
G2

é

00E9
23

ï

00EF
24

à

00E0
40

ë

00EB
5B

ê

00EA
5C

ù

00F9
5D

î

00EE
5E

#

0023
5F

è

00E8
60

â

00E2
7B

ô

00F4
7C

û

00FB
7D

ç

00E7
7E

Deutsch 01 11 21 41

#

0023
23

$

0024
24

§

00A7
40

Ä

00C4
5B

Ö

00D6
5C

Ü

00DC
5D

^

005E
5E

_

005F
5F

°

00B0
60

ä

00E4
7B

ö

00F6
7C

ü

00FC
7D

ß

00DF
7E

Italienisch 03 13 23

£

00A3
23

$

0024
24

é

00E9
40

°

00B0
5B

ç

00E7
5C

2192
5D

2191
5E

#

0023
5F

ù

00F9
60

à

00E0
7B

ò

00F2
7C

è

00E8
7D

ì

00EC
7E

Lettisch/​Litauisch 43

#

0023
23

$

0024
24

Š

0160
40

ė

0117
5B

ę

0119
5C

Ž

017D
5D

č

010D
5E

ū

016B
5F

š

0161
60

ą

0105
7B

ų

0173
7C

ž

017E
7D

į

012F
7E

Polnisch 10

#

0023
23

ń

0144
24

ą

0105
40

Ż Ƶ

017B
5B

Ś

015A
5C

Ł

0141
5D

ć

0107
5E

ó

00F3
5F

ę

0119
60

ż

017C
7B

ś

015B
7C

ł

0142
7D

ź

017A
7E

Portugiesisch/​Spanisch 05 25

ç

00E7
23

$

0024
24

¡

00A1
40

á

00E1
5B

é

00E9
5C

í

00ED
5D

ó

00F3
5E

ú

00FA
5F

¿

00BF
60

ü

00FC
7B

ñ

00F1
7C

è

00E8
7D

à

00E0
7E

Rumänisch 37

#

0023
23

¤

00A4
24

Ț

021A
40

Â

00C2
5B

Ș

0218
5C

Ă

0102
5D

Î

00CE
5E

ı

0131
5F

ț

021B
60

â

00E2
7B

ș

0219
7C

ă

0103
7D

î

00EE
7E

Serbisch/​Kroatisch/​Slowenisch 35

#

0023
23

Ë

00CB
24

Č

010C
40

Ć

0106
5B

Ž

017D
5C

Đ

0110
5D

Š

0160
5E

ë

00EB
5F

č

010D
60

ć

0107
7B

ž

017E
7C

đ

0111
7D

š

0161
7E

Schwedisch/​Finnisch, Ungarisch 02 12 22

#

0023
23

¤

00A4
24

É

00C9
40

Ä

00C4
5B

Ö

00D6
5C

Å

00C5
5D

Ü

00DC
5E

_

005F
5F

é

00E9
60

ä

00E4
7B

ö

00F6
7C

å

00E5
7D

ü

00FC
7E

Türkisch 26 66

Tʟ

N/A
23

ğ

011F
24

İ

0130
40

Ş

015E
5B

Ö

00D6
5C

Ç

00C7
5D

Ü

00DC
5E

Ğ

011E
5F

ı

0131
60

ş

015F
7B

ö

00F6
7C

ç

00E7
7D

ü

00FC
7E

In den nationalen Varianten sind das Háček (ˇ) und das Breve (˘) bei den Sonderbuchstaben in ETSI EN 300 706 ungenau gleich dargestellt. In den Sprachen der drei Varianten „Tschechisch/​Slowakisch“, „Lettisch/​Litauisch“ und „Serbisch/​Kroatisch/​Slowenisch“ wird nur das Háček verwendet, während in den Sprachen der beiden Varianten „Rumänisch“ und „Türkisch“ nur das Breve verwendet wird. Dementsprechend sind die betreffenden Buchstaben in den Varianten codiert.[12]

In der Variante „Tschechisch/Slowakisch“ ist beim Kleinbuchstaben t mit Háček (ť) an der Position 5Bhex in ETSI EN 300 706 das Háček (ˇ) in normaler Form dargestellt, wird aber in modernen Druckschriften beim Kleinbuchstaben t häufig in einer Form ähnlich einem Hochkomma (ʼ) rechts neben dem Grundzeichen dargestellt. Die Codierung ist identisch, da es sich dabei nur um eine Layoutvariation handelt.[13]

Die Variante „Englisch“ ist im Wesentlichen identisch mit dem 7-Bit-Zeichensatz des britischen Viewdata-Standards (ISO-IR-47), nur das Zeichen 5Fhex (#) ist abweichend codiert.

Die beiden Pfeile nach links (←) und rechts (→) an den Positionen 5Bhex und 5Dhex sind in ETSI EN 300 706 im Beispiellayout passend zur horizontalen Linie (―) an der Position 60hex dargestellt und können jeweils am Anfang mit dieser nahtlos verbunden werden. In so einer Kombination sollte die horizontale Linie semantisch passend als horizontale Linienerweiterung () mit der Unicodenummer 23AFhex codiert werden, wobei das Unicode-Zeichen aber derzeit nur von sehr wenigen Schriftarten (korrekt) unterstützt wird.

Das Doppelkreuz (#) an der Position 5Fhex ist in ETSI EN 300 706 gleich dargestellt wie das Nummernzeichen an der Position 23hex in der Variante „Standard“ und dementsprechend identisch codiert. Das Zeichen ist im Viewdata-Standard als Viewdata-Quadrat () mit der Unicodenummer 2317hex codiert, das zwar optisch ähnlich ist, aber korrekt dargestellt doch anders aussieht (siehe ISO-IR-47)[14] und eine andere semantische Bedeutung als Abschlusszeichen für Adressen hat, die im Teletext nicht gegeben ist.

Die horizontale Linie (―) an der Position 60hex kann gleichermaßen auch als langer Gedankenstrich im Englischen (—) mit der Unicodenummer 2014hex verwendet werden[4] und ist in ETSI EN 300 706 im Beispiellayout links und rechts verbindend dargestellt.[15]

Der vertikale Doppelstrich an der Position 7Chex ist entsprechend EBU Tech 3232-a als Parallelzeichen (∥) codiert und in ETSI EN 300 706 im Beispiellayout oben und unten nicht verbindend dargestellt. Entsprechend der Zeichenbezeichnung im Viewdata-Standard kann zur Codierung eventuell auch das optisch identische Unicode-Zeichen doppelte vertikale Linie (‖) mit der Unicodenummer 2016hex verwendet werden. Allerdings ist dieses Zeichen gemäß RFC 1345[16] auch dort als Parallelzeichen codiert. Aber unabhängig von der primären Codierung kann das Zeichen gleichermaßen als Parallelzeichen und als doppelte vertikale Linie verwendet werden.

Die Variante „Deutsch“ ist im Wesentlichen identisch mit dem deutschen 7-Bit-Zeichensatz DIN 66003 (ISO-IR-21), nur das Zeichen 60hex (°) ist abweichend codiert.

In der Variante „Lettisch/Litauisch“ sind die beiden Kleinbuchstaben e mit Ogonek (ę) und i mit Ogonek (į) an den Positionen 5Chex und 7Ehex in ETSI EN 300 706 wohl falsch mit Cedille (¸) dargestellt, da diese im Lettischen oder Litauischen nie mit Cedille, dafür aber mit Ogonek (˛) verwendet werden. Eine alternative Codierung ist nicht erforderlich, da die falsch dargestellten Buchstaben nicht einmal im europäischen Raum vorkommen, also wohl auch niemals verwendet werden dürften.[12]

In der Variante „Polnisch“ ist der Großbuchstabe Z mit Überpunkt (Ż) an der Position 5Bhex in ETSI EN 300 706 zwar als Z mit Querstrich (Ƶ) dargestellt, wird aber üblicherweise nicht so codiert, da es sich dabei nur um eine Layoutvariation handelt.[17] Außerdem ist der zugehörige Kleinbuchstabe an der Position 7Bhex auch in ETSI EN 300 706 als z mit Überpunkt (ż) dargestellt.

In der Variante „Rumänisch“ sind die beiden Buchstaben T mit Unterkomma (Ț/ț) und S mit Unterkomma (Ș/ș) an den Positionen 40hex/60hex und 5Chex/7Chex entsprechend der rumänischen Standardisierungsbehörde mit Unterkomma ( ̦ ) codiert (siehe auch ISO 8859-16). Allerdings wurden diese bis Anfang der 1990er Jahre in internationalen Standards lediglich als Layoutvariationen der Buchstaben T mit Cedille (Ţ/ţ) und S mit Cedille (Ş/ş) betrachtet, und auch in ISO 6937 sind nur die Sonderbuchstaben mit Cedille (¸) vorhanden.[18]

In der Variante „Serbisch/Kroatisch/Slowenisch“ stellt das Zeichen 24hex anstelle des Großbuchstabens E mit Trema (Ë) bei manchen Decodern das Dollarzeichen ($) mit der Unicodenummer 0024hex oder den gemeinen Bruch ein Halb (½) mit der Unicodenummer 00BDhex dar.

Die Variante „Schwedisch/Finnisch, Ungarisch“ ist identisch mit dem schwedischen 7-Bit-Zeichensatz SEN 850200 Annex C (ISO-IR-11).

In der Variante „Türkisch“ ist das Zeichen für die türkische Währung (Tʟ) an der Position 23hex in dieser Form nur im Teletext zu finden und wird ansonsten ganz normal mit den zwei einzelnen Großbuchstaben TL dargestellt. Dafür gibt es in Unicode aber verschiedene Währungssymbole, die für die türkische Währung verwendet werden können: das Türkische Lirazeichen (₺) mit der Unicodenummer 20BAhex, das Lirazeichen (₤) mit der Unicodenummer 20A4hex und das Pfundzeichen (£) mit der Unicodenummer 00A3hex.

Lateinischer G2-Ergänzungszeichensatz (Europäisch)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

¡

00A1
21

¢

00A2
22

£

00A3
23

$

0024
24

¥

00A5
25

#

0023
26

§

00A7
27

¤

00A4
28

2018
29

201C
2A

«

00AB
2B

2190
2C

2191
2D

2192
2E

2193
2F

3_

°

00B0
30

±

00B1
31

²

00B2
32

³

00B3
33

×

00D7
34

µ

00B5
35

00B6
36

·

00B7
37

÷

00F7
38

2019
39

201D
3A

»

00BB
3B

¼

00BC
3C

½

00BD
3D

¾

00BE
3E

¿

00BF
3F

4_


40

`

0060
41

´

00B4
42

ˆ

02C6
43

˜ 

02DC
44

¯ ˉ

00AF
45

˘

02D8
46

˙

02D9
47

¨

00A8
48

̣ 

N/A
49

˚

02DA
4A

¸ (̦ )

00B8 (N/A)
4B

_

005F
4C

˝

02DD
4D

˛

02DB
4E

ˇ

02C7
4F

Komb.


40

ò

0300
41

ó (ģ)

0301 (0327)
42

ô

0302
43

õ

0303
44

ō

0304
45

ŏ

0306
46

ȯ

0307
47

ö

0308
48

0323
49

å

030A
4A

ç (o̦)

0327 (0326)
4B

0332
4C

ő

030B
4D

ǫ

0328
4E

ǒ

030C
4F

5_

2015
50

¹

00B9
51

®

00AE
52

©

00A9
53

2122
54

266A
55

20A0
56

2030
57

221D
58


59


5A


5B

215B
5C

215C
5D

215D
5E

215E
5F

6_

Ω

2126
60

Æ

00C6
61

Đ Ð

0110 00D0
62

ª

00AA
63

Ħ

0126
64


65

IJ

0132
66

Ŀ

013F
67

Ł

0141
68

Ø

00D8
69

Œ

0152
6A

º

00BA
6B

Þ

00DE
6C

Ŧ

0166
6D

Ŋ

014A
6E

ʼn

0149
6F

7_

ĸ

0138
70

æ

00E6
71

đ

0111
72

ð

00F0
73

ħ

0127
74

ı

0131
75

ij

0133
76

ŀ

0140
77

ł

0142
78

ø

00F8
79

œ

0153
7A

ß

00DF
7B

þ

00FE
7C

ŧ

0167
7D

ŋ

014B
7E

25A0
7F

Die sechs Zeichen 20hex (Leerzeichen), 49hex (   ̣), 56hex (₠), 57hex (‰), 58hex (∝) und 7Fhex (■) sind abweichend zu ISO 6937 und ITU T.61 codiert.

Das Leerzeichen an der Position 20hex kann entsprechend ISO 6937 eventuell auch als geschütztes Leerzeichen mit der Unicodenummer 00A0hex codiert werden. Allerdings ist das Zeilenumbruchverhalten im Teletext ohne Bedeutung.

Die beiden Pfeile nach links (←) und rechts (→) an den Positionen 2Chex und 2Ehex sind in ETSI EN 300 706 im Beispiellayout passend zur horizontalen Linie (―) an der Position 50hex dargestellt und können jeweils am Anfang mit dieser nahtlos verbunden werden. In so einer Kombination sollte die horizontale Linie semantisch passend als horizontale Linienerweiterung () mit der Unicodenummer 23AFhex codiert werden, wobei das Unicode-Zeichen aber derzeit nur von sehr wenigen Schriftarten (korrekt) unterstützt wird.

Das alleinstehende diakritische Zeichen Gravis (`) an der Position 41hex ist im lateinischen G0-Standard-Primärzeichensatz in ETSI EN 300 706 mit anderem Beispiellayout dargestellt und kann zur Unterscheidung auch mit dem alternativen Unicode-Zeichen modifizierender Gravis (ˋ) mit der Unicodenummer 02CBhex codiert werden. Allerdings sind diese beiden Zeichen in modernen Druckschriften optisch identisch.[9] Passend dazu könnte dann eventuell auch das alleinstehende diakritische Zeichen Akut (´) an der Position 42hex mit dem alternativen Unicode-Zeichen modifizierender Akut (ˊ) mit der Unicodenummer 02CAhex codiert werden, was aber abweichend zu ISO 6937 wäre.

Da die alleinstehenden diakritischen Zeichen Zirkumflex (ˆ) an der Position 43hex und Tilde (˜) an der Position 44hex im lateinischen G0-Standard-Primärzeichensatz in ETSI EN 300 706 mit anderem Beispiellayout dargestellt sind, wird eine optisch passendere, alternative Codierung als in ISO 6937 verwendet (siehe Windows-1252).[7][11]

Das Layout des alleinstehenden diakritischen Unicode-Zeichens Makron (¯) an der Position 45hex ist ebenfalls stark von der Schriftart abhängig und gleicht oftmals eher dem Überstrich (‾), daher müsste zur Codierung eigentlich das optisch passendere, alternative Unicode-Zeichen modifizierendes Makron (ˉ) mit der Unicodenummer 02C9hex verwendet werden, was aber abweichend zu ISO 6937 wäre.[19]

Das diakritische Zeichen in Form eines horizontalen Doppelpunktes (¨) an der Position 48hex kann entsprechend EBU Tech 3232-a und ITU T.61 als Trema und als Umlautpunkte verwendet werden. Auch in Unicode wird nicht zwischen diesen beiden optisch identischen Zeichen unterschieden. Wenn eine semantische Unterscheidung notwendig ist[20] dann kann das diakritische Zeichen Trema mit der Unicode-Zeichenfolge kombinierender Graphemverbinder mit der Unicodenummer 034Fhex und kombinierendes Trema (¨) mit der Unicodenummer 0308hex codiert werden, während das diakritische Zeichen Umlautpunkte ganz normal mit dem Unicode-Zeichen kombinierendes Trema (¨) mit der Unicodenummer 0308hex oder den mit Trema zusammengesetzten Unicode-Zeichen codiert wird.[21] Dabei sollte man sich nicht durch die Namen der Unicode-Zeichen irritieren lassen.[22]

Das diakritische Zeichen Cedille (¸) an der Position 4Bhex kann historisch betrachtet auch als Unterkomma ( ̦ ) verwendet werden.[18]

Die kombinierende Unterstreichung (_) und damit einhergehend auch der Unterstrich an der Position 4Chex sind in ETSI EN 300 706 im Beispiellayout links und rechts nicht verbindend dargestellt[8] und sollten besser mit Hilfe der Schriftauszeichnung „Unterstreichen“ realisiert werden.[23] Dementsprechend sollte eventuell auch der Unterstrich an der Position 5Fhex im lateinischen G0-Primärzeichensatz bei der Schriftauszeichnung „Unterstreichen“ als geschütztes Leerzeichen codiert werden, um eine doppelte Linie zu vermeiden und eine einheitliche Linienführung zu erreichen. Aber zumindest in der Schriftfamilie „Courier“ ist der Unterstrich optisch kompatibel mit der Schriftauszeichnung „Unterstreichen“.

Die horizontale Linie (―) an der Position 50hex kann gleichermaßen auch als langer Gedankenstrich im Englischen (—) mit der Unicodenummer 2014hex verwendet werden[4] und ist in ETSI EN 300 706 im Beispiellayout links und rechts verbindend dargestellt.[15]

Das Proportionalzeichen (∝) an der Position 58hex wird in EBU Tech 3232-a wohl falsch als Alpha bezeichnet, ist aber nicht zu verwechseln mit dem griechischen Kleinbuchstaben Alpha (α), da beide Zeichen in ETSI EN 300 706 mit unterschiedlichem Beispiellayout dargestellt sind.[24]

Das Zeichen 62hex kann entsprechend EBU Tech 3232-a und ISO 6937 als Großbuchstabe D mit Querstrich (Đ) für den gleichnamigen Kleinbuchstaben (đ) an der Position 72hex und als isländischer Großbuchstabe Eth (Ð) für den gleichnamigen Kleinbuchstaben (ð) an der Position 73hex verwendet werden. Im Zweifelsfall ist die erste Unicodenummer gemäß ISO 6937 zu wählen.

Das Zeichen für den unbestimmten Artikel in Afrikaans (ʼn) an der Position 6Fhex ist nur in Kleinschreibung vorhanden und wird üblicherweise auch immer kleingeschrieben. In Versalschreibweise wird das Zeichen ganz normal mit dem Großbuchstaben N an der Position 4Ehex mit einem vorangestellten modifizierenden Hochkomma (ʼ) an der Position 27hex jeweils im lateinischen G0-Primärzeichensatz dargestellt.[25] Die großgeschriebene Form ist auch in Unicode nicht als eigenständiges Zeichen definiert.

Der früher verwendete grönländische Buchstabe Kra (ĸ) an der Position 70hex ist nur als Kleinbuchstabe vorhanden. Der zugehörige Großbuchstabe wird mit dem Großbuchstaben K an der Position 4Bhex mit einem nachfolgenden modifizierenden Hochkomma (ʼ) an der Position 27hex jeweils im lateinischen G0-Primärzeichensatz dargestellt und ist auch in Unicode nicht als eigenständiges Zeichen definiert.[26]

Als Großbuchstabe für den türkischen Kleinbuchstaben i ohne Punkt (ı) an der Position 75hex wird der Großbuchstabe I an der Position 49hex im lateinischen G0-Primärzeichensatz verwendet. Das ist auch in Unicode so vorgesehen (siehe auch Anmerkung zum lateinischen G0-Primärzeichensatz).[27]

Der deutsche Buchstabe Eszett (ß) an der Position 7Bhex ist nur als Kleinbuchstabe vorhanden. Die Großschreibung erfolgt üblicherweise mit zwei aufeinanderfolgenden Großbuchstaben S an der Position 53hex im lateinischen G0-Primärzeichensatz und ist in dieser Form auch in Unicode nicht als eigenständiges Zeichen definiert.[28] Erst 2008 wurde das Eszett in Großbuchstabenform (ẞ) als neues Zeichen in Unicode aufgenommen und ist seit 2017 Bestandteil der amtlichen deutschen Rechtschreibung.[29]

Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die unterstützten Kombinationen sind vom Decoder abhängig. Im Zweifelsfall sollte man sich auf die in ISO 6937 festgelegten Kombinationen beschränken. Dementsprechend wird auch zur Darstellung des Kleinbuchstabens g mit Cedille (ģ) der Kleinbuchstabe g abweichend zu Unicode mit dem Akut (´) an der Position 42hex kombiniert. Auch bei den beiden kyrillischen und griechischen G2-Ergänzungszeichensätzen sollten die kombinierenden Zeichen nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.

Kyrillisch[Bearbeiten | Quelltext bearbeiten]

Die kyrillischen G0-Primärzeichensätze sind größtenteils identisch mit dem 7-Bit-Zeichensatz GOST 13052 (übernommen in ISO-IR-111), wobei die Großbuchstaben und Kleinbuchstaben vertauscht und somit wie in den anderen Zeichensätzen angeordnet sind.

Kyrillischer G0-Primärzeichensatz – Variante 1 – Serbisch/Kroatisch
Auswahlbits: 40
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

#

0023
23

$

0024
24

%

0025
25

&

0026
26

'

0027
27

(

0028
28

)

0029
29

*|@ 

002A|​0040
2A

+

002B
2B

,

002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

;

003B
3B

<

003C
3C

=

003D
3D

>

003E
3E

?

003F
3F

4_

Ч

0427
40

А A

0410 0041
41

Б

0411
42

Ц

0426
43

Д

0414
44

Е

0415
45

Ф

0424
46

Г

0413
47

Х X

0425 0058
48

И

0418
49

Ј

0408
4A

К

041A
4B

Л

041B
4C

М M

041C 004D
4D

Н H

041D 0048
4E

О O

041E 004F
4F

5_

П

041F
50

Ќ

040C
51

Р P

0420 0050
52

С C

0421 0043
53

Т T

0422 0054
54

У (Y)

0423 (0059)
55

В B

0412 0042
56

Ѓ

0403
57

Љ

0409
58

Њ

040A
59

З

0417
5A

Ћ

040B
5B

Ж

0416
5C

Ђ

0402
5D

Ш

0428
5E

Џ

040F
5F

6_

ч

0447
60

а a

0430 0061
61

б

0431
62

ц

0446
63

д

0434
64

е

0435
65

ф

0444
66

г

0433
67

х x

0445 0078
68

и

0438
69

ј

0458
6A

к

043A
6B

л

043B
6C

м (m)

043C (006D)
6D

н (h)

043D (0068)
6E

о o

043E 006F
6F

7_

п

043F
70

ќ

045C
71

р p

0440 0070
72

с c

0441 0063
73

т (t)

0442 (0074)
74

у y

0443 0079
75

в (b)

0432 (0062)
76

ѓ

0453
77

љ

0459
78

њ

045A
79

з

0437
7A

ћ

045B
7B

ж

0436
7C

ђ

0452
7D

ш

0448
7E

25A0
7F

Die zwei Zeichen 24hex ($), 7Fhex (■) und zwölf kyrillische Buchstabenpaare sind abweichend zu GOST 13052 codiert und so weit wie möglich passend zur lateinischen G0-Variante „Serbisch/​Kroatisch/​Slowenisch“ angeordnet (siehe Kyrillisches Alphabet, Serbisch, Serbokroatisch und Montenegrinisch).

Das Zeichen 24hex stellt anstelle des Dollarzeichens ($) bei manchen Decodern den kyrillischen Großbuchstaben Jo (Ё) mit der Unicodenummer 0401hex bzw. den lateinischen Großbuchstaben E mit Trema (Ë) mit der Unicodenummer 00CBhex dar.[1]

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Der kyrillische Buchstabe Dže (Џ) an der Position 5Fhex ist nur als Großbuchstabe vorhanden. Der zugehörige Kleinbuchstabe џ mit der Unicodenummer 045Fhex kann ersatzweise mit den zwei aufeinanderfolgenden kyrillischen Kleinbuchstaben De (д) und Sche/Že (ж) an den Positionen 64hex und 7Chex dargestellt werden.[30]

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Kyrillischer G0-Primärzeichensatz – Variante 2 – Russisch/Bulgarisch
Auswahlbits: 44
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

#

0023
23

$

0024
24

%

0025
25

ы

044B
26

'

0027
27

(

0028
28

)

0029
29

*|@ 

002A|​0040
2A

+

002B
2B

,

002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

;

003B
3B

<

003C
3C

=

003D
3D

>

003E
3E

?

003F
3F

4_

Ю

042E
40

А A

0410 0041
41

Б

0411
42

Ц

0426
43

Д

0414
44

Е

0415
45

Ф

0424
46

Г

0413
47

Х X

0425 0058
48

И

0418
49

Й (Ѝ)

0419 (040D)
4A

К

041A
4B

Л

041B
4C

М M

041C 004D
4D

Н H

041D 0048
4E

О O

041E 004F
4F

5_

П

041F
50

Я

042F
51

Р P

0420 0050
52

С C

0421 0043
53

Т T

0422 0054
54

У (Y)

0423 (0059)
55

Ж

0416
56

В B

0412 0042
57

Ь

042C
58

Ъ

042A
59

З

0417
5A

Ш

0428
5B

Э

042D
5C

Щ

0429
5D

Ч

0427
5E

Ы

042B
5F

6_

ю

044E
60

а a

0430 0061
61

б

0431
62

ц

0446
63

д

0434
64

е

0435
65

ф

0444
66

г

0433
67

х x

0445 0078
68

и

0438
69

й (ѝ)

0439 (045D)
6A

к

043A
6B

л

043B
6C

м (m)

043C (006D)
6D

н (h)

043D (0068)
6E

о o

043E 006F
6F

7_

п

043F
70

я

044F
71

р p

0440 0070
72

с c

0441 0063
73

т (t)

0442 (0074)
74

у y

0443 0079
75

ж

0436
76

в (b)

0432 (0062)
77

ь

044C
78

ъ

044A
79

з

0437
7A

ш

0448
7B

э

044D
7C

щ

0449
7D

ч

0447
7E

25A0
7F

Die drei Zeichen 24hex ($), 26hex (ы) und 7Fhex (■) sind abweichend zu GOST 13052 codiert, sowie die beiden kyrillischen Buchstabenpaare an den Positionen 59hex/79hex (Ъ/ъ) und 5Fhex/26hex (Ы/ы) entsprechend der bulgarischen Variante vertauscht.

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Der kyrillische Buchstabe Je (Е/е) an den Positionen 45hex und 65hex kann ersatzweise auch für den kyrillischen Buchstaben Jo (Ё/ё) mit den Unicodenummern 0401hex und 0451hex verwendet werden, da dieser im Russischen oftmals ohne Trema dargestellt wird.[31]

Beim kyrillischen Buchstaben kurzes I (Й/й) an den Positionen 4Ahex und 6Ahex ist in ETSI EN 300 706 das Breve (˘) wohl falsch wie der Überpunkt (˙) dargestellt. Aber eventuell wurde das gemacht, um optisch besser auch als kyrillischer Buchstabe I mit Gravis (Ѝ/ѝ) verwendet werden zu können.[32]

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Kyrillischer G0-Primärzeichensatz – Variante 3 – Ukrainisch
Auswahlbits: 45
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

#

0023
23

$

0024
24

%

0025
25

ї

0457
26

'

0027
27

(

0028
28

)

0029
29

*|@ 

002A|​0040
2A

+

002B
2B

,

002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

;

003B
3B

<

003C
3C

=

003D
3D

>

003E
3E

?

003F
3F

4_

Ю

042E
40

А A

0410 0041
41

Б

0411
42

Ц

0426
43

Д

0414
44

Е

0415
45

Ф

0424
46

Г

0413
47

Х X

0425 0058
48

И

0418
49

Й (Ѝ)

0419 (040D)
4A

К

041A
4B

Л

041B
4C

М M

041C 004D
4D

Н H

041D 0048
4E

О O

041E 004F
4F

5_

П

041F
50

Я

042F
51

Р P

0420 0050
52

С C

0421 0043
53

Т T

0422 0054
54

У (Y)

0423 (0059)
55

Ж

0416
56

В B

0412 0042
57

Ь

042C
58

І

0406
59

З

0417
5A

Ш

0428
5B

Є

0404
5C

Щ

0429
5D

Ч

0427
5E

Ї

0407
5F

6_

ю

044E
60

а a

0430 0061
61

б

0431
62

ц

0446
63

д

0434
64

е

0435
65

ф

0444
66

г

0433
67

х x

0445 0078
68

и

0438
69

й (ѝ)

0439 (045D)
6A

к

043A
6B

л

043B
6C

м (m)

043C (006D)
6D

н (h)

043D (0068)
6E

о o

043E 006F
6F

7_

п

043F
70

я

044F
71

р p

0440 0070
72

с c

0441 0063
73

т (t)

0442 (0074)
74

у y

0443 0079
75

ж

0436
76

в (b)

0432 (0062)
77

ь

044C
78

і

0456
79

з

0437
7A

ш

0448
7B

є

0454
7C

щ

0449
7D

ч

0447
7E

25A0
7F

Die drei Zeichen 24hex ($), 26hex (ї), 7Fhex (■) und drei kyrillische Buchstabenpaare sind abweichend zu GOST 13052 codiert.

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Beim kyrillischen Buchstaben kurzes I (Й/й) an den Positionen 4Ahex und 6Ahex ist in ETSI EN 300 706 das Breve (˘) wohl falsch wie der Überpunkt (˙) dargestellt. Aber eventuell wurde das gemacht, um optisch besser auch als kyrillischer Buchstabe I mit Gravis (Ѝ/ѝ) verwendet werden zu können.[32]

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Kyrillischer G2-Ergänzungszeichensatz
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

¡

00A1
21

¢

00A2
22

£

00A3
23

$

0024
24

¥

00A5
25


26

§

00A7
27


28

2018
29

201C
2A

«

00AB
2B

2190
2C

2191
2D

2192
2E

2193
2F

3_

°

00B0
30

±

00B1
31

²

00B2
32

³

00B3
33

×

00D7
34

µ

00B5
35

00B6
36

·

00B7
37

÷

00F7
38

2019
39

201D
3A

»

00BB
3B

¼

00BC
3C

½

00BD
3D

¾

00BE
3E

¿

00BF
3F

4_


40

`

0060
41

´

00B4
42

ˆ

02C6
43

˜ 

02DC
44

¯ ˉ

00AF
45

˘

02D8
46

˙

02D9
47

¨

00A8
48

̣ 

N/A
49

˚

02DA
4A

¸ (̦ )

00B8 (N/A)
4B

_

005F
4C

˝

02DD
4D

˛

02DB
4E

ˇ

02C7
4F

Komb.


40

ò

0300
41

ó (ģ)

0301 (0327)
42

ô

0302
43

õ

0303
44

ō

0304
45

ŏ

0306
46

ȯ

0307
47

ö

0308
48

0323
49

å

030A
4A

ç (o̦)

0327 (0326)
4B

0332
4C

ő

030B
4D

ǫ

0328
4E

ǒ

030C
4F

5_

2015
50

¹

00B9
51

®

00AE
52

©

00A9
53

2122
54

266A
55

20A0
56

2030
57

221D
58

Ł

0141
59

ł

0142
5A

ß

00DF
5B

215B
5C

215C
5D

215D
5E

215E
5F

6_

D

0044
60

E

0045
61

F

0046
62

G

0047
63

І

0049 0406
64

Ј

004A 0408
65

K

004B
66

L

004C
67

N

004E
68

Q

0051
69

R

0052
6A

Ѕ

0053 0405
6B

U

0055
6C

V

0056
6D

W

0057
6E

Z

005A
6F

7_

d

0064
70

e

0065
71

f

0066
72

g

0067
73

і

0069 0456
74

ј

006A 0458
75

k

006B
76

l

006C
77

n

006E
78

q

0071
79

r

0072
7A

ѕ

0073 0455
7B

u

0075
7C

v

0076
7D

w

0077
7E

z

007A
7F

Die Zeichen 20hex bis 5Fhex sind im Wesentlichen identisch mit dem lateinischen G2-Ergänzungszeichensatz ohne die zwei zusätzlichen Zeichen aus ITU T.61. Die drei Zeichen 59hex bis 5Bhex sind abweichend davon mit lateinischen Sonderbuchstaben codiert.

Die Zeichen 60hex bis 7Fhex sind mit lateinischen Buchstaben codiert, die zusammen mit ähnlich aussehenden Buchstaben in den kyrillischen G0-Primärzeichensätzen jeweils das vollständige lateinische Alphabet abbilden.

Die alternative Codierung der fett umrahmten Zeichen kann zur Ergänzung des codierten kyrillischen Alphabets verwendet werden, wobei die beiden kyrillischen Buchstaben weißrussisch-ukrainisches I (І/і) und serbisches Je (Ј/ј) an den Positionen 64hex/74hex und 65hex/75hex bereits in der kyrillischen G0-Variante 3 „Ukrainisch“ bzw. 1 „Serbisch/​Kroatisch“ vorhanden sind.

Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die kombinierenden Zeichen sollten wie beim lateinischen G2-Ergänzungszeichensatz nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.

Griechisch[Bearbeiten | Quelltext bearbeiten]

Der griechische G0-Primärzeichensatz ist im Wesentlichen identisch mit den Zeichen 20hex bis 3Fhex und C0hex bis FEhex des 8-Bit-Zeichensatzes ELOT 928 (identisch mit ISO 8859-7).

Griechischer G0-Primärzeichensatz
Auswahlbits: 67
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

#

0023
23

$

0024
24

%

0025
25

&

0026
26

'

0027
27

(

0028
28

)

0029
29

*|@ 

002A|​0040
2A

+

002B
2B

,

002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

;

003B
3B

«

00AB
3C

=

003D
3D

»

00BB
3E

?

003F
3F

4_

ΐ

0390
40

Α A

0391 0041
41

Β B

0392 0042
42

Γ

0393
43

Δ

0394
44

Ε E

0395 0045
45

Ζ

0396
46

Η H

0397 0048
47

Θ

0398
48

Ι I

0399 0049
49

Κ K

039A 004B
4A

Λ

039B
4B

Μ M

039C 004D
4C

Ν N

039D 004E
4D

Ξ

039E
4E

Ο O

039F 004F
4F

5_

Π

03A0
50

Ρ P

03A1 0050
51

΄

0384
52

Σ

03A3
53

Τ T

03A4 0054
54

Υ

03A5
55

Φ

03A6
56

Χ X

03A7 0058
57

Ψ

03A8
58

Ω

03A9
59

Ϊ

03AA
5A

Ϋ

03AB
5B

ά

03AC
5C

έ

03AD
5D

ή

03AE
5E

ί

03AF
5F

6_

ΰ

03B0
60

α

03B1
61

β

03B2
62

γ

03B3
63

δ

03B4
64

ε

03B5
65

ζ

03B6
66

η

03B7
67

θ

03B8
68

ι

03B9
69

κ

03BA
6A

λ

03BB
6B

μ

03BC
6C

ν

03BD
6D

ξ

03BE
6E

ο o

03BF 006F
6F

7_

π

03C0
70

ρ

03C1
71

ς

03C2
72

σ

03C3
73

τ

03C4
74

υ

03C5
75

φ

03C6
76

χ

03C7
77

ψ

03C8
78

ω

03C9
79

ϊ

03CA
7A

ϋ

03CB
7B

ό

03CC
7C

ύ

03CD
7D

ώ

03CE
7E

25A0
7F

Die vier Zeichen 3Chex («), 3Ehex (»), 52hex (΄) und 7Fhex (■) sind abweichend zu ELOT 928 codiert.

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Der alleinstehende Tonos (΄) an der Position 52hex ist in ETSI EN 300 706 im Beispiellayout rechtsbündig dargestellt, so dass er für einen nachfolgenden Großbuchstaben korrekt positioniert ist. Dadurch ergibt sich auch bereits ein ausreichender Leerraum zur Worttrennung.

Der Tonos (΄) ist in ETSI EN 300 706 historisch bedingt als alleinstehendes Zeichen an der Position 52hex und bei den griechischen Kleinbuchstaben mit Dialytika und Tonos (΅) an den Positionen 40hex und 60hex senkrecht ('), sowie bei den griechischen Kleinbuchstaben mit Tonos an den Positionen 5Chex bis 5Fhex und 7Chex bis 7Ehex wie der Überpunkt (˙) dargestellt.[33]

Der griechische Kleinbuchstabe Iota (ι) an der Position 69hex, sowie mit Diakritika (ΐ, ί und ϊ) an den Positionen 40hex, 5Fhex und 7Ahex ist in ETSI EN 300 706 ungenau wie der lateinische Kleinbuchstabe punktloses i mit Serifen (ı) dargestellt.

Die Variante für das Wortende des griechischen Kleinbuchstabens Sigma (ς) an der Position 72hex ist in ETSI EN 300 706 ungenau wie der lateinische Kleinbuchstabe s dargestellt.

Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im griechischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.

Griechischer G2-Ergänzungszeichensatz
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

a

0061
21

b

0062
22

£

00A3
23

e

0065
24

h

0068
25

i

0069
26

§

00A7
27

:

003A
28

2018
29

201C
2A

k

006B
2B

2190
2C

2191
2D

2192
2E

2193
2F

3_

°

00B0
30

±

00B1
31

²

00B2
32

³

00B3
33

×

00D7
34

m

006D
35

n

006E
36

p

0070
37

÷

00F7
38

2019
39

201D
3A

t

0074
3B

¼

00BC
3C

½

00BD
3D

¾

00BE
3E

x

0078
3F

4_


40

`

0060
41

´

00B4
42

ˆ

02C6
43

˜ 

02DC
44

¯ ˉ

00AF
45

˘

02D8
46

˙

02D9
47

¨

00A8
48

̣ 

N/A
49

˚

02DA
4A

¸ (̦ )

00B8 (N/A)
4B

_

005F
4C

˝

02DD
4D

˛

02DB
4E

ˇ

02C7
4F

Komb.


40

ò

0300
41

ó (ģ)

0301 (0327)
42

ô

0302
43

õ

0303
44

ō

0304
45

ŏ

0306
46

ȯ

0307
47

ö

0308
48

0323
49

å

030A
4A

ç (o̦)

0327 (0326)
4B

0332
4C

ő

030B
4D

ǫ

0328
4E

ǒ

030C
4F

5_

?

003F
50

¹

00B9
51

®

00AE
52

©

00A9
53

2122
54

266A
55

20A0
56

2030
57

221D
58

Ί

038A
59

Ύ

038E
5A

Ώ

038F
5B

215B
5C

215C
5D

215D
5E

215E
5F

6_

C

0043
60

D

0044
61

F

0046
62

G

0047
63

J

004A
64

L

004C
65

Q

0051
66

R

0052
67

S

0053
68

U

0055
69

V

0056
6A

W

0057
6B

Y

0059
6C

Z

005A
6D

Ά

0386
6E

Ή

0389
6F

7_

c

0063
70

d

0064
71

f

0066
72

g

0067
73

j

006A
74

l

006C
75

q

0071
76

r

0072
77

s

0073
78

u

0075
79

v

0076
7A

w

0077
7B

y

0079
7C

z

007A
7D

Έ

0388
7E

25A0
7F

Die Zeichen 20hex bis 5Fhex und 7Fhex sind größtenteils identisch mit dem lateinischen G2-Ergänzungszeichensatz ohne die zwei zusätzlichen Zeichen aus ITU T.61. Die drei Zeichen 59hex bis 5Bhex sind abweichend davon mit griechischen Sonderbuchstaben, sowie weitere elf Zeichen mit lateinischen Kleinbuchstaben codiert. Außerdem sind die beiden Zeichen 28hex und 50hex abweichend als Doppelpunkt (:) und Fragezeichen (?) codiert, obwohl diese bereits im griechischen G0-Primärzeichensatz enthalten sind. Eventuell ist das historisch bedingt, weil diese beiden Zeichen nicht im 7-Bit-Zeichensatz ISO-IR-27 vorhanden sind.

Die Zeichen 60hex bis 7Ehex sind mit lateinischen Buchstaben und griechischen Sonderbuchstaben codiert. Die lateinischen Buchstaben bilden zusammen mit ähnlich aussehenden Buchstaben im griechischen G0-Primärzeichensatz das vollständige lateinische Alphabet ab.

Bei den griechischen Großbuchstaben mit Tonos an den Positionen 59hex bis 5Bhex, 6Ehex, 6Fhex und 7Ehex ist in ETSI EN 300 706 der Tonos (΄) historisch bedingt senkrecht (') dargestellt.[33]

Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die kombinierenden Zeichen sollten wie beim lateinischen G2-Ergänzungszeichensatz nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.

Arabisch[Bearbeiten | Quelltext bearbeiten]

Der arabische G0-Primärzeichensatz ist größtenteils identisch mit dem 7-Bit-Zeichensatz ASMO 449 (übernommen in ISO 8859-6), wobei für die Sonderzeichen die lateinische G0-Variante „Englisch“ verwendet wird und die arabischen Buchstaben mit ihren Präsentationsformen dargestellt sind. Fünf Sonderbuchstaben wurden in den arabischen G2-Ergänzungszeichensatz verschoben, der auch weitere Buchstaben für das Persische beinhaltet.

Die arabischen Buchstaben mit mehreren Codierungen und optionaler Verbindung nach rechts sind in ETSI EN 300 706 rechts ohne eigene verbindende Linie dargestellt und dementsprechend jeweils primär als initiale oder isolierte Präsentationsform codiert. Abweichend davon sind die drei arabischen Buchstaben der „Ǧīm“-Familie (‭ﺝ, ﺡ und ﺥ) an den Positionen 4Chex bis 4Ehex im arabischen G0-Primärzeichensatz zwar jeweils eher als mediale Präsentationsform (mit gerader Grundlinie) dargestellt, aber trotzdem primär als initiale Präsentationsform codiert, da die medialen Präsentationsformen (ohne gerade Grundlinie) zusätzlich an den Positionen 5Chex bis 5Ehex im arabischen G0-Primärzeichensatz vorhanden sind (siehe auch Anmerkung zur Tabelle).

Außerdem ist der arabische Buchstabe Yāʾ (‭ﻱ) an der Position 27hex im arabischen G0-Primärzeichensatz und mit Hamza darüber (‭ﺉ) an der Position 27hex im arabischen G2-Ergänzungszeichensatz jeweils eher als finale Präsentationsform dargestellt und dementsprechend primär codiert, da die isolierte Präsentationsform optisch keine korrekte Verbindung nach rechts zulässt.

Die arabischen Buchstaben mit mehreren Codierungen und optionaler Verbindung nach links sind in ETSI EN 300 706 links mit verbindender Linie dargestellt und dementsprechend jeweils primär als initiale Präsentationsform codiert. Abweichend davon sind die vier arabischen Buchstaben der „Sīn“-Familie (‭ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53hex bis 56hex im arabischen G0-Primärzeichensatz links ohne Abschluss oder eigene verbindende Linie dargestellt und müssen jeweils mit einem zweiten Zeichen vervollständigt werden (siehe Anmerkung zur Tabelle).

Bei arabischen Buchstaben mit mehreren Unicodenummern muss bei der Ausgabe in Unicode entweder die passende Unicodenummer entsprechend den beiden Nachbarzeichen links und rechts ausgewählt oder im einfachsten Fall jeweils die erste Unicodenummer verwendet werden. Eine fett dargestellte Unicodenummer steht für das eigentliche Zeichen. Wenn bei der Ausgabe in Unicode anstelle der Präsentationsformen die eigentlichen Zeichen verwendet werden, dann müssen ggf. der breitenlose Nichtverbinder (ZWNJ) mit der Unicodenummer 200Chex oder der breitenlose Verbinder (ZWJ) mit der Unicodenummer 200Dhex eingefügt werden, um die automatische Auswahl der Glyphen auf die möglichen Präsentationsformen der jeweiligen Zeichen zu beschränken.

Die arabische Schrift wird zwar von rechts nach links geschrieben, aber die Anordnung im Teletext erfolgt wie sonst auch von links nach rechts. Daher muss bei der Ausgabe in Unicode entweder der Unicode-Bidi-Algorithmus rückwärts angewendet oder im einfachsten Fall jeder Zeile das bidirektionale Steuerzeichen Links-nach-rechts-Zwang (LRO) mit der Unicodenummer 202Dhex vorangestellt werden.

Arabischer G0-Primärzeichensatz
Auswahlbits: 87 oder A7
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

£

00A3
23

$

0024
24

%

0025
25

‭ﹳ

FE73
26

‭ﻲ ﻱ

FEF2 FEF1
064A
27

)

0029
28

(

0028
29

*|@ 

002A|​0040
2A

+

002B
2B

، ,

060C 002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

؛

061B
3B

>

003E
3C

=

003D
3D

<

003C
3E

؟

061F
3F

4_

‭ﺔ

FE94
0629
40

‭ﺀ

FE80
0621
41

‭ﺒ

FE92
0628
42

‭ﺏ ﺐ

FE8F FE90
0628
43

‭ﺘ

FE98
062A
44

‭ﺕ ﺖ

FE95 FE96
062A
45

‭ﺎ

FE8E
0627
46

‭ﺍ

FE8D
0627
47

‭ﺑ

FE91
0628
48

‭ﺓ

FE93
0629
49

‭ﺗ

FE97
062A
4A

‭ﺛ

FE9B
062B
4B

‭ﺟ ﺠ  

FE9F FEA0
062C
4C

‭ﺣ ﺤ  

FEA3 FEA4
062D
4D

‭ﺧ ﺨ  

FEA7 FEA8
062E
4E

‭ﺩ ﺪ

FEA9 FEAA
062F
4F

5_

‭ﺫ ﺬ

FEAB FEAC
0630
50

‭ﺭ ﺮ

FEAD FEAE
0631
51

‭ﺯ ﺰ

FEAF FEB0
0632
52

‭ﺳ ﺴ (ﺱ ﺲ)

FEB3 FEB4 (FEB1 FEB2)
0633
53

‭ﺷ ﺸ (ﺵ ﺶ)

FEB7 FEB8 (FEB5 FEB6)
0634
54

‭ﺻ ﺼ (ﺹ ﺺ)

FEBB FEBC (FEB9 FEBA)
0635
55

‭ﺿ ﻀ (ﺽ ﺾ)

FEBF FEC0 (FEBD FEBE)
0636
56

‭ﻃ ﻁ ﻂ ﻄ

FEC3 FEC1 FEC2 FEC4
0637
57

‭ﻇ ﻅ ﻆ ﻈ

FEC7 FEC5 FEC6 FEC8
0638
58

‭ﻋ

FECB
0639
59

‭ﻏ

FECF
063A
5A

‭ﺜ

FE9C
062B
5B

‭ﺠ

FEA0
062C
5C

‭ﺤ

FEA4
062D
5D

‭ﺨ

FEA8
062E
5E

#

0023
5F

6_

‭ـ

0640
60

‭ﻓ

FED3
0641
61

‭ﻗ

FED7
0642
62

‭ﻛ ﻜ

FEDB FEDC
0643
63

‭ﻟ

FEDF
0644
64

‭ﻣ

FEE3
0645
65

‭ﻧ

FEE7
0646
66

‭ﻫ

FEEB
0647
67

‭ﻭ ﻮ

FEED FEEE
0648
68

‭ﻰ

FEF0
0649
69

‭ﻳ

FEF3
064A
6A

‭ﺙ ﺚ

FE99 FE9A
062B
6B

‭ﺝ ﺞ

FE9D FE9E
062C
6C

‭ﺡ ﺢ

FEA1 FEA2
062D
6D

‭ﺥ ﺦ

FEA5 FEA6
062E
6E

‭ﻴ

FEF4
064A
6F

Pers.

‭ﯼ

FBFC
06CC
70

‭ﮐ ﮎ ﮏ ﮑ

FB90 FB8E FB8F FB91
06A9
63

‭ﯽ

FBFD
06CC
69

‭ﯾ

FBFE
06CC
6A

‭ﯿ

FBFF
06CC
6F

7_

‭ﻯ

FEEF
0649
70

‭ﻌ

FECC
0639
71

‭ﻐ

FED0
063A
72

‭ﻔ

FED4
0641
73

‭ﻑ ﻒ

FED1 FED2
0641
74

‭ﻘ

FED8
0642
75

‭ﻕ ﻖ

FED5 FED6
0642
76

‭ﻙ ﻚ

FED9 FEDA
0643
77

‭ﻠ

FEE0
0644
78

‭ﻝ ﻞ

FEDD FEDE
0644
79

‭ﻤ

FEE4
0645
7A

‭ﻡ ﻢ

FEE1 FEE2
0645
7B

‭ﻨ

FEE8
0646
7C

‭ﻥ ﻦ

FEE5 FEE6
0646
7D

FEFB
7E

25A0
7F

Die zwei Zeichen 26hex (‭ﹳ) und 27hex (‭ﻱ) sind abweichend zu ASMO 449 codiert. Außerdem wurden fünf Sonderbuchstaben und fast alle Sonderzeichen an den Positionen 40hex bis 7Ehex durch weitere Präsentationsformen der codierten arabischen Buchstaben ersetzt.

Das Zeichen 26hex (‭ﹳ) dient als Abschlussteil für die isolierten und finalen Präsentationsformen der vier arabischen Buchstaben der „Sīn“-Familie (‭ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53hex bis 56hex.[34]

Die beiden runden Klammern („)“ und „(“) an den Positionen 28hex und 29hex, sowie die beiden Vergleichszeichen (> und <) an den Positionen 3Chex und 3Ehex sind wie in den anderen Zeichensätzen rechtsläufig codiert, da die Anordnung aller Zeichen im Teletext immer von links nach rechts erfolgt.

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Das arabische Komma (‭،) an der Position 2Chex ist in ETSI EN 300 706 im Beispiellayout so dargestellt, dass es optisch auch als normales Komma (,) verwendet werden kann.

Die kombinierten initialen-medialen Präsentationsformen der drei arabischen Buchstaben der „Ǧīm“-Familie (‭ﺟ/, / und /) an den Positionen 4Chex bis 4Ehex sind in ETSI EN 300 706 passend zu den initialen und medialen Präsentationsformen des persischen Buchstabens Tsche (‭ﭼ/) an den Positionen 28hex und 29hex im arabischen G2-Ergänzungszeichensatz mit gerader Grundlinie dargestellt. Die Codierungen als mediale Präsentationsformen sind aber identisch mit den medialen Präsentationsformen ohne gerade Grundlinie (‭ﺠ, und ) an den Positionen 5Chex bis 5Ehex, da es sich dabei jeweils nur um eine Layoutvariation handelt. Entsprechendes gilt für die Verwendung als initiale Präsentationsformen, wobei hier allerdings auch keine eigenen Zeichen für die Layoutvariation ohne gerade Grundlinie (‭ﺟ, und ) vorhanden sind.

Die vier arabischen Buchstaben der „Sīn“-Familie (‭ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53hex bis 56hex sind links ohne Abschluss oder eigene verbindende Linie dargestellt und müssen jeweils mit einem zweiten Zeichen vervollständigt werden. Bei einer Verwendung als isolierte oder finale Präsentationsform muss das Abschlussteil (‭ﹳ) an der Position 26hex links angefügt werden.[34] Bei einer Verwendung als initiale oder mediale Präsentationsform muss das modifizierende Zeichen Taṭwīl (‭ـ) an der Position 60hex links angefügt werden, wenn das linke Nachbarzeichen keine eigene Verbindungslinie nach rechts besitzt oder diese sehr kurz ist.

Die alternative Codierung (bei identischem Layout) der in der Zeile „Persisch“ stehenden Buchstaben dient der Vervollständigung der im arabischen G2-Ergänzungszeichensatz codierten persischen Buchstaben.

Arabischer G2-Ergänzungszeichensatz
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

‭ﻉ

FEC9
0639
21

‭ﺁ (ﺂ)

FE81 (FE82)
0622
22

‭ﺃ (ﺄ)

FE83 (FE84)
0623
23

‭ﺅ ﺆ

FE85 FE86
0624
24

‭ﺇ (ﺈ)

FE87 (FE88)
0625
25

‭ﺋ

FE8B
0626
26

‭ﺊ ﺉ

FE8A FE89
0626
27

‭ﭼ

FB7C
0686
28

‭ﭽ

FB7D
0686
29

‭ﭺ ﭻ

FB7A FB7B
0686
2A

‭ﭘ

FB58
067E
2B

‭ﭙ

FB59
067E
2C

‭ﭖ ﭗ

FB56 FB57
067E
2D

‭ﮊ ﮋ

FB8A FB8B
0698
2E

‭ﮔ ﮒ ﮓ ﮕ

FB94 FB92 FB93 FB95
06AF
2F

3_

٠

0660
30

١

0661
31

٢

0662
32

٣

0663
33

٤

0664
34

٥

0665
35

٦

0666
36

٧

0667
37

٨

0668
38

٩

0669
39

‭ﻎ

FECE
063A
3A

‭ﻍ

FECD
063A
3B

FEFC
3C

‭ﻬ

FEEC
0647
3D

‭ﻪ

FEEA
0647
3E

‭ﻩ

FEE9
0647
3F

4_

à

00E0
40

A

0041
41

B

0042
42

C

0043
43

D

0044
44

E

0045
45

F

0046
46

G

0047
47

H

0048
48

I

0049
49

J

004A
4A

K

004B
4B

L

004C
4C

M

004D
4D

N

004E
4E

O

004F
4F

5_

P

0050
50

Q

0051
51

R

0052
52

S

0053
53

T

0054
54

U

0055
55

V

0056
56

W

0057
57

X

0058
58

Y

0059
59

Z

005A
5A

ë

00EB
5B

ê

00EA
5C

ù

00F9
5D

î

00EE
5E

‭ﻊ

FECA
0639
5F

6_

é

00E9
60

a

0061
61

b

0062
62

c

0063
63

d

0064
64

e

0065
65

f

0066
66

g

0067
67

h

0068
68

i

0069
69

j

006A
6A

k

006B
6B

l

006C
6C

m

006D
6D

n

006E
6E

o

006F
6F

7_

p

0070
70

q

0071
71

r

0072
72

s

0073
73

t

0074
74

u

0075
75

v

0076
76

w

0077
77

x

0078
78

y

0079
79

z

007A
7A

â

00E2
7B

ô

00F4
7C

û

00FB
7D

ç

00E7
7E


7F

Der Zeichensatz ist teilweise identisch mit dem lateinischen G0-Primärzeichensatz. Die Ziffern sind abweichend davon mit ihren arabisch-indischen Varianten codiert. Außerdem sind alle Sonderzeichen durch Präsentationsformen arabischer Buchstaben und modifizierte lateinische Kleinbuchstaben zur Schreibung des Französischen ersetzt (siehe Windows-1256), wobei letztere im Wesentlichen wie in der lateinischen G0-Variante „Französisch“ angeordnet sind.

Die alternative Codierung der fett umrahmten Zeichen ist notwendig zur Vervollständigung aller Präsentationsformen der codierten arabischen Buchstaben.

Hebräisch[Bearbeiten | Quelltext bearbeiten]

Der hebräische G0-Primärzeichensatz ist im Wesentlichen identisch mit dem 7-Bit-Zeichensatz SI 960 (übernommen in ISO 8859-8), wobei für die Sonderzeichen die lateinische G0-Variante „Englisch“ verwendet wird. Ein hebräischer G2-Ergänzungszeichensatz ist nicht definiert, es wird der arabische G2-Ergänzungszeichensatz verwendet.

Die hebräische Schrift wird zwar von rechts nach links geschrieben, aber die Anordnung im Teletext erfolgt wie sonst auch von links nach rechts. Daher muss bei der Ausgabe in Unicode entweder der Unicode-Bidi-Algorithmus rückwärts angewendet oder im einfachsten Fall jeder Zeile das bidirektionale Steuerzeichen Links-nach-rechts-Zwang (LRO) mit der Unicodenummer 202Dhex vorangestellt werden.

Hebräischer G0-Primärzeichensatz
Auswahlbits: A5
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

!

0021
21

"

0022
22

£

00A3
23

$

0024
24

%

0025
25

&

0026
26

'

0027
27

(

0028
28

)

0029
29

*|@ 

002A|​0040
2A

+

002B
2B

,

002C
2C

-

002D
2D

.

002E
2E

/

002F
2F

3_

0

0030
30

1

0031
31

2

0032
32

3

0033
33

4

0034
34

5

0035
35

6

0036
36

7

0037
37

8

0038
38

9

0039
39

:

003A
3A

;

003B
3B

<

003C
3C

=

003D
3D

>

003E
3E

?

003F
3F

4_

@

0040
40

A

0041
41

B

0042
42

C

0043
43

D

0044
44

E

0045
45

F

0046
46

G

0047
47

H

0048
48

I

0049
49

J

004A
4A

K

004B
4B

L

004C
4C

M

004D
4D

N

004E
4E

O

004F
4F

5_

P

0050
50

Q

0051
51

R

0052
52

S

0053
53

T

0054
54

U

0055
55

V

0056
56

W

0057
57

X

0058
58

Y

0059
59

Z

005A
5A

2190
5B

½

00BD
5C

2192
5D

2191
5E

#

0023
5F

6_

א

05D0
60

ב

05D1
61

ג

05D2
62

ד

05D3
63

ה

05D4
64

ו

05D5
65

ז

05D6
66

ח

05D7
67

ט

05D8
68

י

05D9
69

ך

05DA
6A

כ

05DB
6B

ל

05DC
6C

ם

05DD
6D

מ

05DE
6E

ן

05DF
6F

7_

נ

05E0
70

ס

05E1
71

ע

05E2
72

ף

05E3
73

פ

05E4
74

ץ

05E5
75

צ

05E6
76

ק

05E7
77

ר

05E8
78

ש

05E9
79

ת

05EA
7A

20AA
7B

2225
7C

¾

00BE
7D

÷

00F7
7E

25A0
7F

Das Zeichen 7Bhex (₪) ist abweichend zu SI 960 als Schekel-Währungssymbol codiert (siehe Windows-1255).

Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.

Grafik[Bearbeiten | Quelltext bearbeiten]

Beim analogen Fernsehen im 4:3-Format betrug das Verhältnis von Breite zu Höhe eines Teletext-Zeichens bei Fernsehnormen mit 625 Zeilen ungefähr 3:4 und bei Fernsehnormen mit 525 Zeilen ungefähr 7:10.[35] Dieses ist für die seitengerechte Darstellung einer Grafik zu beachten.

Da das genaue Layout der Unicode-Zeichen stark von der Schriftart abhängig ist und diese auch nicht immer zueinander passen, sollten ggf. alle Grafikzeichen selbst gezeichnet werden. Für eine weitgehend korrekte Darstellung aller Grafikzeichen in den beiden G1- und G3-Zeichensatz-Tabellen kann z. B. die für die private Nutzung frei verfügbare Schriftart „Symbola“ ab Version 13.00 verwendet werden.[36]

Die Zeichen mit einer 5-stelligen Unicodenummer (1FBxxhex) wurden im März 2020 mit der Version 13.0.0 in Unicode aufgenommen.[37]

G1-Zeichensatz Blockgrafik
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

0020
20

🬀

1FB00
21

🬁

1FB01
22

🬂

1FB02
23

🬃

1FB03
24

🬄

1FB04
25

🬅

1FB05
26

🬆

1FB06
27

🬇

1FB07
28

🬈

1FB08
29

🬉

1FB09
2A

🬊

1FB0A
2B

🬋

1FB0B
2C

🬌

1FB0C
2D

🬍

1FB0D
2E

🬎

1FB0E
2F

3_

🬏

1FB0F
30

🬐

1FB10
31

🬑

1FB11
32

🬒

1FB12
33

🬓

1FB13
34

258C
35

🬔

1FB14
36

🬕

1FB15
37

🬖

1FB16
38

🬗

1FB17
39

🬘

1FB18
3A

🬙

1FB19
3B

🬚

1FB1A
3C

🬛

1FB1B
3D

🬜

1FB1C
3E

🬝

1FB1D
3F

4_

[G0]

 
40

[G0]

 
41

[G0]

 
42

[G0]

 
43

[G0]

 
44

[G0]

 
45

[G0]

 
46

[G0]

 
47

[G0]

 
48

[G0]

 
49

[G0]

 
4A

[G0]

 
4B

[G0]

 
4C

[G0]

 
4D

[G0]

 
4E

[G0]

 
4F

5_

[G0]

 
50

[G0]

 
51

[G0]

 
52

[G0]

 
53

[G0]

 
54

[G0]

 
55

[G0]

 
56

[G0]

 
57

[G0]

 
58

[G0]

 
59

[G0]

 
5A

[G0]

 
5B

[G0]

 
5C

[G0]

 
5D

[G0]

 
5E

[G0]

 
5F

6_

🬞

1FB1E
60

🬟

1FB1F
61

🬠

1FB20
62

🬡

1FB21
63

🬢

1FB22
64

🬣

1FB23
65

🬤

1FB24
66

🬥

1FB25
67

🬦

1FB26
68

🬧

1FB27
69

2590
6A

🬨

1FB28
6B

🬩

1FB29
6C

🬪

1FB2A
6D

🬫

1FB2B
6E

🬬

1FB2C
6F

7_

🬭

1FB2D
70

🬮

1FB2E
71

🬯

1FB2F
72

🬰

1FB30
73

🬱

1FB31
74

🬲

1FB32
75

🬳

1FB33
76

🬴

1FB34
77

🬵

1FB35
78

🬶

1FB36
79

🬷

1FB37
7A

🬸

1FB38
7B

🬹

1FB39
7C

🬺

1FB3A
7D

🬻

1FB3B
7E

🬦🬓🬹
🬦🬓🬹
🬦🬓🬹

2588
7F

Die 63 Blockelemente und das Leerzeichen an den Positionen 20hex bis 3Fhex und 60hex bis 7Fhex sind so angeordnet, dass jeweils das Bitmuster des Zeichencodes direkt bestimmt, aus welchen der sechs einzelnen rechteckigen Blöcke ① (oben links) bis ⑥ (unten rechts) ein Grafikzeichen zusammengesetzt ist: 0⑥1⑤ ④③②①bin (0 🬞 1 🬏 🬇🬃🬁🬀).

Das Grafik-Leerzeichen an der Position 20hex ist so breit wie die Blockelemente an den Positionen 21hex bis 3Fhex und 60hex bis 7Fhex und kann als normales oder geschütztes Leerzeichen codiert werden, da diese zumindest in einer Schriftart mit fester Zeichenbreite genauso breit sind. Allerdings wäre eine Codierung als eigenständiges Zeichen ähnlich dem Ziffern-Leerzeichen mit der Unicodenummer 2007hex besser, die aber in Unicode nicht vorhanden ist. Das Attribut „Getrennte Blockgrafik/Unterstreichen“ hat keine Auswirkung auf das Grafik-Leerzeichen.

Die 63 Blockelemente an den Positionen 21hex bis 3Fhex und 60hex bis 7Fhex werden abhängig vom zugehörigen Attribut wie abgebildet in zusammenhängender oder alternativ wie rechts neben dem vollen Block (█) an der Position 7Fhex in getrennter Form dargestellt. Bei der getrennten Form sind die sechs rechteckigen Blöcke, aus denen sich diese Grafikzeichen zusammensetzen, kleiner und nicht miteinander verbunden. Die getrennten Formen sind in Unicode nicht als eigenständige Zeichen definiert.

Für die 32 Positionen 40hex bis 5Fhex werden die entsprechenden Zeichen des ausgewählten G0-Primärzeichensatzes verwendet.

G3-Zeichensatz Hochauflösende Grafik
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
2_

🬼

1FB3C
20

🬽

1FB3D
21

🬾

1FB3E
22

🬿

1FB3F
23

🭀

1FB40
24

🭯🭬

(25E3)
25

🭁

1FB41
26

🭂

1FB42
27

🭃

1FB43
28

🭄

1FB44
29

🭅

1FB45
2A

🭆

1FB46
2B

🭨

1FB68
2C

🭩

1FB69
2D

(1FB70) (1FB71)
2E

2592
2F

3_

🭇

1FB47
30

🭈

1FB48
31

🭉

1FB49
32

🭊

1FB4A
33

🭋

1FB4B
34

🭯🭮

(25E2)
35

🭌

1FB4C
36

🭍

1FB4D
37

🭎

1FB4E
38

🭏

1FB4F
39

🭐

1FB50
3A

🭑

1FB51
3B

🭪

1FB6A
3C

🭫

1FB6B
3D

(1FB75) (1FB74)
3E

2588
3F

4_

🬋

(2537)
40

🬋

(252F)
41

🬇

(251D)
42

🬃

(2525)
43

🮤

1FBA4
44

🮥

1FBA5
45

🮦

1FBA6
46

🮧

1FBA7
47

🮠

1FBA0
48

🮡

1FBA1
49

🮢

1FBA2
4A

🮣

1FBA3
4B

🬋

(253F)
4C

26AB
4D

2B24
4E

25EF
4F

5_

2502
50

|

2500|​2015
51

250C
52

2510
53

2514
54

2518
55

251C
56

2524
57

252C
58

2534
59

253C
5A

|→

2B62|​2192
5B

|←

2B60|​2190
5C

|↑

2B61|​2191
5D

2B63
5E

0020
5F

6_

🭒

1FB52
60

🭓

1FB53
61

🭔

1FB54
62

🭕

1FB55
63

🭖

1FB56
64

🭭🭮

(25E5)
65

🭗

1FB57
66

🭘

1FB58
67

🭙

1FB59
68

🭚

1FB5A
69

🭛

1FB5B
6A

🭜

1FB5C
6B

🭬

1FB6C
6C

🭭

1FB6D
6D


6E


6F

7_

🭝

1FB5D
70

🭞

1FB5E
71

🭟

1FB5F
72

🭠

1FB60
73

🭡

1FB61
74

🭭🭬

(25E4)
75

🭢

1FB62
76

🭣

1FB63
77

🭤

1FB64
78

🭥

1FB65
79

🭦

1FB66
7A

🭧

1FB67
7B

🭮

1FB6E
7C

🭯

1FB6F
7D


7E


7F

Die 57 geglätteten Blockelemente an den Positionen 20hex bis 2Dhex, 30hex bis 3Dhex, 3Fhex, 60hex bis 6Dhex und 70hex bis 7Dhex werden bei manchen Decodern abhängig vom zugehörigen Attribut wie abgebildet in zusammenhängender oder alternativ wie die Blockelemente im G1-Blockgrafik-Zeichensatz in getrennter Form dargestellt (siehe ITU T.101). Die getrennten Formen sind in Unicode nicht als eigenständige Zeichen definiert.

Bei den vier Dreiecken an den Positionen 25hex, 35hex, 65hex und 75hex sind die ersatzweise codierten Unicode-Zeichen nicht wie die Teletext-Zeichen verbindende Grafikelemente, sondern auf der Grundlinie ausgerichtete geometrische Formen, die jeweils an allen vier Seiten von Leerraum umgeben sind.

Die linke dünne vertikale Rahmenlinie () an der Position 2Ehex ist zum linken halben Block (▌) an der Position 35hex im G1-Blockgrafik-Zeichensatz horizontal zentriert ausgerichtet. Die ersatzweise codierten Unicode-Zeichen sind dagegen keine Linien, sondern vertikale achtel Blöcke links und rechts der Linienposition.

Die rechte dünne vertikale Rahmenlinie () an der Position 3Ehex ist zum rechten halben Block (▐) an der Position 6Ahex im G1-Blockgrafik-Zeichensatz horizontal zentriert ausgerichtet. Die ersatzweise codierten Unicode-Zeichen sind dagegen keine Linien, sondern vertikale achtel Blöcke rechts und links der Linienposition.

Die 14 geglätteten Blockelemente und die Rahmenlinie an den Positionen 30hex bis 3Ehex entsprechen den vertikal (Zeichen 30hex bis 3Chex und 3Ehex) oder horizontal (Zeichen 3Dhex) gespiegelten Darstellungen der Zeichen 20hex bis 2Ehex.

Bei den 16 Rahmenelementen und vier Pfeilen an den Positionen 40hex bis 43hex, 4Chex und 50hex bis 5Ehex sind die vertikalen Linien (│) horizontal zentriert und die horizontalen Linien (─ und 🬋) vertikal zentriert ausgerichtet. Bei den acht Rahmenelementen an den Positionen 44hex bis 4Bhex sind die vier möglichen Endpunkte der diagonalen Linien (🮮) jeweils passend dazu horizontal oder vertikal zentriert ausgerichtet.

Bei den fünf Rahmenelementen an den Positionen 40hex bis 43hex und 4Chex entspricht die dicke horizontale Linie dem mittleren horizontalen drittel Block (🬋) an der Position 2Chex im G1-Blockgrafik-Zeichensatz. Bei den ersatzweise codierten Unicode-Zeichen entspricht die dicke horizontale Linie dagegen der dicken horizontalen Rahmenlinie (━) mit der Unicodenummer 2501hex, die deutlich dünner ist.

Die folgenden drei Kreise besitzen keine festgelegte Unicode-Zuordnung und sind hier in Anlehnung an Unicode Technical Report #25[38] codiert. Das genaue Layout der Unicode-Zeichen ist stark von der Schriftart abhängig, sofern sie denn überhaupt unterstützt werden. Für die beiden großen Kreise in voller Blockbreite sollten aber zumindest in einer Schriftart mit fester Zeichenbreite die größten Unicode-Kreise am besten passen, und selbst in der proportionalen Schriftart „Arial Unicode MS“ ist die große Kreislinie () mit der Unicodenummer 25EFhex genauso breit wie der volle Block () an der Position 3Fhex.

Der ausgefüllte kleine Kreis () an der Position 4Dhex ist so groß wie der sechstel Block (🬃) an der Position 24hex im G1-Blockgrafik-Zeichensatz und zentriert ausgerichtet.

Der ausgefüllte große Kreis () an der Position 4Ehex und die große Kreislinie () an der Position 4Fhex sind jeweils so breit wie der volle Block (█) an der Position 3Fhex und vertikal zentriert ausgerichtet.

Die beiden Pfeile nach rechts (⭢) und links (⭠) an den Positionen 5Bhex und 5Chex passen zu den dünnen horizontalen Rahmenlinien (─) der Zeichen 51hex bis 5Ahex und können jeweils am Anfang mit diesen nahtlos verbunden werden. Diese Zeichen sind in ETSI EN 300 706 im Beispiellayout mit einer dickeren Strichstärke dargestellt als die drei Zeichen mit ähnlichem Layout (→, ← und ―) an den Positionen 5Dhex, 5Bhex und 60hex in der lateinischen G0-Variante „Englisch“ und an den Positionen 2Ehex, 2Chex und 50hex im lateinischen G2-Ergänzungszeichensatz und sollten nicht gemischt kombiniert werden.

Die beiden Pfeile nach oben (⭡) und unten (⭣) an den Positionen 5Dhex und 5Ehex passen zu den dünnen vertikalen Rahmenlinien (│) der Zeichen 40hex bis 4Chex und 50hex bis 5Ahex und können jeweils am Anfang mit diesen nahtlos verbunden werden.

Das Grafik-Leerzeichen an der Position 5Fhex ist mit dem Grafik-Leerzeichen an der Position 20hex im G1-Blockgrafik-Zeichensatz identisch und sollte dementsprechend identisch codiert werden.

Die 28 geglätteten Blockelemente an den Positionen 60hex bis 6Dhex und 70hex bis 7Dhex sind identisch mit den invertierten Darstellungen der Zeichen 20hex bis 2Dhex und 30hex bis 3Dhex. Bei einer Grafik werden für den oberen Teil eher letztere Zeichen und für den unteren Teil eher die „invertierten Darstellungen“ verwendet, was bei älteren Teletext- und Videotex-Standards mit Zeichensätzen, die jeweils nur eine Hälfte dieser Zeichen beinhalteten, die Codierung vereinfachte. Eine Ausnahme bildet das Zeichen an der Position 3Dhex (🭫), welches wohl auch deshalb in einem älteren britischen Teletext-Standard dessen Invertierung an der Position 7Dhex (🭯) darstellte, sofern die Abbildung im CCIR-Report 957 korrekt ist.[39]

Die Zeichen mit der Unicodenummer in Klammern sind den in ETSI EN 300 706 angegebenen Beispiellayouts zwar ähnlich, aber in der Regel optisch und semantisch nicht zu den anderen Grafikzeichen passend. Allerdings gibt es für diese Zeichen keine bessere Codierung in Unicode.

Viele Level-1.5-Decoder unterstützen nur die vier fett umrahmten Zeichen, daher liegt die Vermutung nahe, dass diese dafür die Zeichen mit ähnlichem Layout aus der lateinischen G0-Variante „Englisch“ verwenden, und die Zeichen in dem Fall entsprechend alternativ zu codieren sind.

Zeichensatzauswahl[Bearbeiten | Quelltext bearbeiten]

Mit den Auswahlbits in den nationalen G0-Zeichensatz-Tabellen wird in der Regel auch der zugehörige G2-Zeichensatz ausgewählt. Die erste hexadezimale Ziffer gibt die höherwertigen vier Bits (die Region) und die zweite Ziffer die niederwertigen drei Bits (die nationale Variante) an.

Auswahlbits der nationalen G0/G2-Zeichensätze
0_ 1_ 2_ 3_ 4_ 6_ 8_ A_
Westeuropäisch Mitteleuropäisch (Polnisch) Türkisch (Westeuropäisch) Südosteuropäisch (Rumänisch) Osteuropäisch (Kyrillisch) Griechisch/​Türkisch Arabisch Hebräisch/​Arabisch
_0 Englisch Polnisch Englisch Kyrillisch 1 (Serbisch/​Kroatisch) Englisch
Lateinisch G2

00

Lateinisch G2

10

Lateinisch G2

20

Kyrillisch G2

40

Arabisch G2

80

_1 Deutsch Deutsch Deutsch Deutsch
Lateinisch G2

01

Lateinisch G2

11

Lateinisch G2

21

Lateinisch G2

41

_2 Schwedisch/​Finnisch, Ungarisch Schwedisch/​Finnisch, Ungarisch Schwedisch/​Finnisch, Ungarisch Estnisch
Lateinisch G2

02

Lateinisch G2

12

Lateinisch G2

22

Lateinisch G2

42

_3 Italienisch Italienisch Italienisch Lettisch/​Litauisch
Lateinisch G2

03

Lateinisch G2

13

Lateinisch G2

23

Lateinisch G2

43

_4 Französisch Französisch Französisch Kyrillisch 2 (Russisch/​Bulgarisch) Französisch
Lateinisch G2

04

Lateinisch G2

14

Lateinisch G2

24

Kyrillisch G2

44

Arabisch G2

84

_5 Portugiesisch/​Spanisch Portugiesisch/​Spanisch Serbisch/​Kroatisch/​Slowenisch Kyrillisch 3 (Ukrainisch) Hebräisch
Lateinisch G2

05

Lateinisch G2

25

Lateinisch G2

35

Kyrillisch G2

45

Arabisch G2

A5

_6 Tschechisch/​Slowakisch Tschechisch/​Slowakisch Türkisch Tschechisch/​Slowakisch Türkisch
Lateinisch G2

06

Lateinisch G2

16

Lateinisch G2

26

Lateinisch G2

46

Lateinisch G2

66

_7 Rumänisch Griechisch Arabisch Arabisch
Lateinisch G2

37

Griechisch G2

67

Arabisch G2

87

Arabisch G2

A7

Zweiter G0 Englisch 1

4+

Englisch 2

8+

Arabisch 3

A+

Anmerkungen zum G0-Zeichensatz:

Anmerkungen zum zweiten G0-Zeichensatz:

1 
Bei Kyrillisch muss der zweite G0-Zeichensatz für russische Sender mit der lateinischen Variante „Englisch“ voreingestellt werden.[41]
2 
Bei Arabisch muss der zweite G0-Zeichensatz für iranische Sender mit der lateinischen Variante „Englisch“ voreingestellt werden.
3 
Bei Hebräisch muss der zweite G0-Zeichensatz für israelische Sender mit „Arabisch“ voreingestellt werden.[42]
Auswahl der nationalen G0/G2-Zeichensätze
Level Priorität Auswahlbits für Standard-G0/G2 G0-Zeichensatz G1-Zeichensatz G2-Zeichensatz

1 = höchste

höherwertig niederwertig Standard Zweiter G0 X/26-​Auswahl Standard Standard X/26-​Auswahl
X/0 (Seitenkopf) alle 8 Decoder 1 Seitenkopf  2  3

(ab Level 1.5)

X/28/1 ≤ 1.5 4 4 Paket Seitenkopf  5  5

(ab Level 1.5)

M/29/1 ≤ 1.5 4 7 Paket Seitenkopf  5  5

(ab Level 1.5)

X/28/0 Format 1 ≥ 2.5 2 Paket Seitenkopf

(bei manchen Level-2.5-​Decodern aus dem Paket)

X/28/4 ≥ 3.5 3 Paket Seitenkopf
M/29/0 ≥ 2.5 5 Paket Seitenkopf

(bei manchen Level-2.5-​Decodern aus dem Paket)

M/29/4 ≥ 3.5 6 Paket Seitenkopf
X/26-Spaltenfunktion …
… 08hex „Modified G0 and G2 Character Set“
≥ 2.5 1  67  7

Voreinstellungen für jede Teletext-Seite:

1 
Die höherwertigen Auswahlbits für die Standard-G0/G2-Zeichensätze sind vom Decoder und der dort eingestellten Region abhängig. Ab Level 2.5 ist als neutrale Voreinstellung der Wert 0 (Westeuropäisch)Lateinisch – vorgesehen.
2 
Die Auswahl des zweiten G0-Zeichensatzes ist vom Decoder und der dort eingestellten Region abhängig. Ob an dieser Stelle die Auswahl des Standard-G0-Zeichensatzes einen Einfluss auf den zweiten G0-Zeichensatz haben soll, ist nicht spezifiziert, aber wohl notwendig.[43]
3 
Bei vielen Level-1.5-Decodern ist die Auswahl und der Zeichenvorrat des G2-Zeichensatzes eingeschränkt. Ob an dieser Stelle die Auswahl des Standard-G0-Zeichensatzes überhaupt einen Einfluss auf den G2-Zeichensatz haben soll, ist nicht spezifiziert, wäre aber sinnvoll. Allerdings stellt sich diese Frage auch nur bei den beiden höherwertigen Auswahlbits 4 (Osteuropäisch, Kyrillisch) und 6 (Griechisch/Türkisch), wo jeweils mehr als ein G2-Zeichensatz definiert ist.

Anmerkungen zu den Paketen X/28/1 und M/29/1:

4 
Die Zeichensatzauswahl-Funktionen in diesen Paketen sind in früheren Spezifikationen definiert und aus Kompatibilität mit entsprechenden Level-1- und Level-1.5-Decodern beibehalten worden. Sie sind nicht zur Verwendung durch Level-2.5- und Level-3.5-Decoder gedacht.
5 
Ob an dieser Stelle die Auswahl des Standard-G0-Zeichensatzes einen Einfluss auf den zweiten G0-Zeichensatz und den G2-Zeichensatz haben soll, ist unbekannt, wäre aber sinnvoll.

Anmerkungen zur X/26-Auswahl:

6 
Bei der X/26-Auswahl wird bei Lateinisch immer die Variante „Standard“ verwendet.
7 
Bei Level 2.5 ist für jede Teletext-Seite neben dem Standard-G0/G2-Zeichensatzpaar nur ein weiteres G0/G2-Zeichensatzpaar möglich, ab Level 3.5 beliebig viele.
Auswahl der Zeichen
Level Steuer­zeichen

00hex..1Fhex

G0-Zeichensatz G1-Zeichensatz G2-Zeichensatz G3-Zeichensatz
Standard Zweiter G0 X/26-​Auswahl Zeichen 2Ahex Lateinische Variante Standard a Standard X/26-​Auswahl Standard b
X/0 bis X/25 Einfache Level-1-​Teletext-Seite alle  1  23  3 * national  4
X/26-Spaltenfunktion …
… 10hex „G0 Character“ ≥ 1.5

(ab Level 2.5)

@ Standard
… 09hex „G0 Character (Levels 2.5 & 3.5)“ ≥ 2.5 * Standard
… 11hex bis 1Fhex „G0 Character with diacritical mark“ ≥ 1.5

(ab Level 2.5)

* Standard kombinierend kombinierend

(ab Level 2.5)

… 01hex „G1 Character“ ≥ 2.5  5  5 Standard  5
… 0Fhex „G2 Character“ ≥ 1.5  6

(ab Level 2.5)

… 02hex „G3 Character (Level 1.5)“ ≥ 1.5  6
… 0Bhex „G3 Character (Levels 2.5 & 3.5)“ ≥ 2.5

Anmerkungen zu den G1- und G3-Zeichensätzen:

a 
Beim G1-Zeichensatz kann die Form der 63 Blockelemente (Positionen 21hex bis 3Fhex und 60hex bis 7Fhex) mit den beiden Steuerzeichen 19hex „Contiguous Mosaic Graphics“ (zusammenhängend) und 1Ahex „Separated Mosaic Graphics“ (getrennt), sowie ab Level 2.5 mit der X/26-Spaltenfunktion 0Chex „Display attributes“ als Attribut festgelegt werden. Zu Beginn von jeder Zeile ist die zusammenhängende Form voreingestellt.
b 
Beim G3-Zeichensatz kann bei manchen Decodern die Form der 57 geglätteten Blockelemente (Positionen 20hex bis 2Dhex, 30hex bis 3Dhex, 3Fhex, 60hex bis 6Dhex und 70hex bis 7Dhex) wie bei den Blockelementen im G1-Zeichensatz als Attribut festgelegt werden.

Anmerkungen zur einfachen Level-1-Teletext-Seite:

1 
Bei einem Steuerzeichen wird im Normalfall das Leerzeichen an der Position 20hex im ausgewähltem Zeichensatz angezeigt. Im Grafik-Haltemodus wird bei ausgewähltem G1-Zeichensatz das zuletzt ausgewählte G1-Blockelement/Leerzeichen (Positionen 20hex bis 3Fhex und 60hex bis 7Fhex) angezeigt. Dieses Haltezeichen wird zu Beginn von jeder Zeile, bei einem G0/G1-Zeichensatzwechsel oder einer realen Größenänderung auf das Leerzeichen zurückgesetzt. Der Haltemodus kann mit den beiden Steuerzeichen 1Ehex „Hold Mosaics“ und 1Fhex „Release Mosaics“ ein- und ausgeschaltet werden, wobei jeweils das aktuelle Haltezeichen bereits bzw. noch angezeigt wird. Zu Beginn von jeder Zeile ist der Haltemodus ausgeschaltet.
2 
Zu Beginn von jeder Zeile ist immer der erste G0-Zeichensatz ausgewählt.
3 
Der G0-Zeichensatz kann mit den acht Steuerzeichen 00hex bis 07hex „Alpha Colour Codes“ ausgewählt werden. Zwischen dem ersten und zweiten G0-Zeichensatz kann mit dem Steuerzeichen 1Bhex „ESC“ umgeschaltet werden.
4 
Der G1-Zeichensatz kann mit den acht Steuerzeichen 10hex bis 17hex „Mosaic Colour Codes“ ausgewählt werden. Für die 32 Positionen 40hex bis 5Fhex werden die entsprechenden Zeichen des ausgewählten G0-Zeichensatzes (Standard oder Zweiter G0) verwendet.

Anmerkung zur X/26-Spaltenfunktion 01hex „G1 Character“:

5 
Beim G1-Zeichensatz werden für die 32 Positionen 40hex bis 5Fhex die entsprechenden Zeichen des ausgewählten G0-Zeichensatzes (Standard oder X/26-Auswahl) verwendet.

Anmerkung zu den X/26-Spaltenfunktionen 0Fhex „G2 Character“ und 02hex „G3 Character (Level 1.5)“:

6 
Bei vielen Level-1.5-Decodern ist der Zeichenvorrat der G2- und G3-Zeichensätze eingeschränkt.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b Philips SAA5246A (PDF) Philips, 1993 (englisch)
  2. Character histories: notes on some Ascii code positions, Jukka „Yucca“ Korpela, 2006 (englisch);
    7-bit character sets, Aivosto Oy, 2016 (englisch)
  3. Viertelgeviertstrich, Bindestrich/Divis, Wikipedia: „Im älteren ASCII-Zeichensatz und in den Zeichensätzen der Normenfamilie ISO 8859 [...] wird das Bindestrich-Minus verwendet, das als gemeinsames Zeichen für Bindestrich, Gedankenstrich und Minuszeichen mit der Schreibmaschine eingeführt wurde.“;
    IT and communication - Characters and encodings: The ISO Latin 1 character repertoire: Detailed descriptions of the characters, „- HYPHEN, MINUS SIGN (HYPHEN-MINUS) U+002D“, Jukka „Yucca“ Korpela, 2006 (englisch): „In situations where sufficient support to Unicode can be safely assumed (very rarely at present!), it is best to replace the use of hyphen-minus by Unicode hyphen (U+2010) or non-breaking hyphen (U+2011) or minus sign (U+2212) or, if hyphen-minus had been used e.g. in place of a dash symbol, some other Unicode character such as en dash (U+2013) or em dash (U+2014) or horizontal bar (U+2015).“
  4. a b c Minuszeichen, Ähnliche Zeichen, U+2015 horizontal bar, Wikipedia: „(2) Dieses Zeichen gleicht im Regelfall in Länge, Form und Höhenlage einem Geviertstrich und unterscheidet sich von diesem nur durch seine Zeilenumbruch-Eigenschaften.“
  5. On the use of some MS Windows characters in HTML, Suggested substitutes, Dashes, Jukka „Yucca“ Korpela, 2017 (englisch): „In typewritten material, the em dash is represented by two hyphens with no space around them, and an en dash is represented by a hyphen.“
  6. Internationalization for Turkish: Dotted and Dotless Letter "I", Tex Texin, 2010 (englisch);
    Resolving dotted and dotless "i", John Cowan, 1997 (englisch)
  7. a b Zirkumflex, Zeichensätze, Wikipedia: „Der Zeichensatz ASCII enthält nur das Zeichen ^ (in Unicode an Position U+005E), das heute als einzeln stehendes, universell einsetzbares Zeichen interpretiert wird. [...] Im Unicode-Standard sind zusätzlich zum Universalzeichen ^ (U+005E) das typografisch bessere Zeichen ˆ (U+02C6) sowie weitere fertig zusammengesetzte Zeichen mit Zirkumflex enthalten (z. B. Ẑ, ẑ).“;
    ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM43 Arrowhead upwards, circumflex shape“
  8. a b ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM48 Lower bar (not jointive) low line, spacing underline (equivalent to SP09 of ISO 6937)“
  9. a b „Additionally ASCII grave accent character (U+0060 ` Grave accent) was often used as surrogate of opening single quote, together with ASCII typewriter apostrophe (U+0027 ' Apostrophe) used as closing single quote; double quotes were sometimes substituted by two consecutive grave accents and two consecutive typewriter apostrophes (``…'').“;
    ASCII and Unicode quotation marks, Markus Kuhn, 2007 (englisch): „Only old X Window System fonts and some old video terminals show ASCII 0x60/0x27 as left and right quotation marks, while most modern systems follow the ISO and Unicode standards instead.“;
    ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM44 Upper reverse solidus, grave accent shape“
  10. Character histories: notes on some Ascii code positions, VERTICAL LINE, Jukka „Yucca“ Korpela, 2006 (englisch)
  11. a b Unicode Explained, Chapter 8: Character Usage, ASCII (Basic Latin), Tilde ~ (U+007E), S. 401, Jukka K. Korpela, 2006 (englisch): „As a spacing clone of a diacritic tilde (i.e., spacing counterpart of combining tilde U+0303), use the small tilde ˜ (U+02CD [richtig: U+02DC]).“;
    ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM47 Upper bar (not jointive) bar or tilde shape“
  12. a b Liste lateinisch-basierter Alphabete, Erweiterungen, Wikipedia;
    Alles über Unicode, Litauische Sonderzeichen, Jens Meyer, 2007;
    Sonderbuchstaben und diakritische Zeichen für die europäischen Sprachen des lateinischen Schriftkreises (PDF; 253 kB) Wolfgang Hendlmeier und Gerhard Helzel, 2012
  13. Hatschek, Verwendung und Zeichensätze, Wikipedia: „In modernen Druckschriften wird das Zeichen auf dem Großbuchstaben L sowie auf den Kleinbuchstaben d, l und t häufig in einer Form ähnlich einem Komma rechts oben neben dem Grundzeichen dargestellt.“
    und „Es ist zu beachten, dass diese Codes auch dann verwendet werden, wenn das Hatschek auf d, l, L und t in Kommaform dargestellt wird.“
  14. Telefontastatur, Empfehlung ITU-T E.161, Platzierung, Aussehen und Benennung des Symbols ⌗, Wikipedia: „Dieses Symbol ist in Unicode als U+2317 viewdata square enthalten [...]. Dabei müssen die Linienenden bei der quadratischen Form pro Seite zwischen 8 % und 18 % der Kantenlinienlänge überstehen, bei der schrägen Form (Innenwinkel 80°) stets um 18 %.“;
    Proposal to incorporate two telephony symbols into Unicode by glyph and annotation changes (PDF; 135 kB) Karl Pentzlin, 2013 (englisch): „The viewdata square, as its name implies, is introduced anyway as a character for "Viewdata" which is an application related to telephony introduced in the 1980s. It can be presumed that it had to be in fact the same symbol as the E.161 symbol.
    However, the proportions of its representative glyph are not within the constraints given in E.161.“;
    ITU-T Recommendation E.161 : Arrangement of digits, letters and symbols on telephones and other devices that can be used for gaining access to a telephone network, 3.2.2 12 push-buttons, Symbols, S. 3+4, ITU, 2001 (englisch)
  15. a b ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 76, ITU, 1994 (englisch): „SM12 Central horizonal bar jointive“
  16. Keld Simonsen: RFC 1345 – Character Mnemonics & Character Sets. 1992 (englisch).
  17. ż, Wiktionary: „Als typographische Variante existiert ƶ/Ƶ. Diese wird jedoch in der Regel nur dann verwendet, wenn das ganze Wort in Majuskeln geschrieben wird und oberhalb des Z nicht mehr ausreichend Platz für den Punkt zur Verfügung steht.“;
    Teletext mappings, Marcin „Qrczak“ Kowalczyk, 2001 (englisch): „In Polish capital Z with dot above is sometimes rendered with stroke instead of the dot. It’s just a glyph variant, the meaning is exactly the same. The letter should be consistently encoded as Z WITH DOT ABOVE even if it’s rendered with a stroke.“
  18. a b Unterkomma, Kodierung, Wikipedia: „Bis Anfang der 1990er Jahre wurde in internationalen Standards kein Unterschied zwischen dem Komma und der Cedille gemacht. [...] Erst später setzte sich die Auffassung durch, dass es sich hierbei um zwei verschiedene Diakritika handelt. So enthält Unicode heute sowohl S und T mit Cedille als auch S und T mit Komma.“;
    ISO/IEC 6937:2001 (PDF; 748 kB) Table 4 - Specification of the repertoire, S. 15 und 18, ISO/IEC, 2001 (englisch): „NOTE 2: The letters used in the Romanian language LATIN CAPITAL LETTER S WITH COMMA BELOW and LATIN CAPITAL LETTER T WITH COMMA BELOW are different from the LATIN CAPITAL LETTER S WITH CEDILLA and LATIN CAPITAL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“
    und „NOTE 5: The letters used in the Romanian language LATIN SMALL LETTER S WITH COMMA BELOW and LATIN SMALL LETTER T WITH COMMA BELOW are different from the LATIN SMALL LETTER S WITH CEDILLA and LATIN SMALL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“;
    Cedillas and commas below (PDF; 164 kB) Eric Muller, Adobe, 2013 (englisch);
    Comments on cedilla and comma below (revision 2) (PDF; 1,9 MB) Denis Moyogo Jacquerye, 2013 (englisch);
    Romanian diacritic marks, Cristian Kit Paul, 2008 (englisch)
  19. Überstrich, Verfügbare Zeichen, Wikipedia: „In mehreren Zeichensätzen der Normenfamilie ISO 8859 und davon abgeleitet auch im Unicode-Standard existiert ein Zeichen U+00AF (175dec), das gleichermaßen als Überstrich wie auch als Makron verwendbar ist. [...] Der Überstrich wird unter anderem deshalb häufig falsch als „Makron“ bezeichnet, sollte jedoch nicht mit den anderen Unicode-Zeichen dieses Namens verwechselt werden. Die Schriftzeichen an den Kodepunkten U+02C9 (modifier letter macron) sowie U+0304 (combining macron) sind deutlich kürzer als ihre mit overline benannten Gegenstücke.“
  20. Die moderne Bibliothek, 10.2.4 Zeichensatz und 10.2.5 Sortierung (Alphabetisierung), S. 229–232, Rudolf Frankenberger und Klaus Haller, 2004
  21. Trema, Unicode, Wikipedia: „Die meisten Standards für Zeichensätze, darunter Unicode, unterscheiden nicht zwischen Umlaut und Trema. Wenn in der Datenverarbeitung eine Unterscheidung von Umlaut und Trema notwendig ist, empfiehlt ISO/IEC JTC 1/SC 2/WG 2 Folgendes:
    • Darstellung des Tremas durch: Combining Grapheme Joiner (CGJ, 034F) + Combining Diaeresis (0308)
    • Darstellung des Umlauts durch: Combining Diaeresis (0308)“;
    Frequently Asked Questions, Characters and Combining Marks, „Q: Unicode doesn’t seem to distinguish between tréma and umlaut, but I need to distinguish. What shall I do?“, Unicode, 2016 (englisch)
  22. Unicode Technical Note #27 – Known Anomalies in Unicode Character Names, Unicode, 2017 (englisch)
  23. CCITT Recommendation T.61 : Character repertoire and coded character sets for the international teletex service, 3.2.3.9 Non-spacing characters, S. 13, ITU, 1988 (englisch): „Note – The Non-spacing underline character is never used individually but always in combination with some other graphic character to represent the graphic rendition “underlined” for the associated character. The Non-spacing underline character can be used in combination with any graphic character of the repertoire, including an accented letter or an umlaut, or Space. It is recommended to implement the “underline” function by means of the control function SGR(4) instead of the “non-spacing underline” graphic character.“
  24. Proportionality Symbol, Doctor Peterson, 2003 (englisch): „If you prefer to describe it by its appearance rather than strictly by its usage, you might call it an "open alpha" or "loose alpha," rather than "fishy alpha." People do often describe it (wrongly) as an alpha, but I haven't seen these modifiers used anywhere.“
  25. „The upper case, or majuscule form has never been included in any international keyboards Therefore, it is decomposable by simply combining ʼ (U+02BC) and N. 〔ʼN〕“;
    Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0149 ʼn LATIN SMALL LETTER N PRECEDED BY APOSTROPHE, Unicode, 2017 (englisch): „uppercase is 02BC ʼ 004E N“
  26. „The letter can be capitalized as , but it is not encoded separately as a single letter because it is very similar to the Latin capital letter K followed by an apostrophe, preferably the modifier letter apostrophe, U+02BC ʼ modifier letter apostrophe (HTML &#700;).“;
    Status of Mapping between Characters of ISO 5426-2 and ISO/IEC 10646-1 (UCS) (PDF; 126 kB) 4. ADDITIONAL MAPPINGS, 63 LATIN CAPITAL LETTER KRA, S. 5, Joan M. Aliprand, 2002 (englisch): „The capital form of the letter kra letter can be encoded as the sequence U+004B LATIN CAPTIAL LETTER K followed by U+02BC MODIFIER LETTER APOSTROPHE.“
  27. Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0131 ı LATIN SMALL LETTER DOTLESS I, Unicode, 2017 (englisch): „uppercase is 0049 I“
  28. ß, Großschreibweise und Besonderheiten der Verwendung, sowie Großes ß, Versalien ohne großes ß, Wikipedia;
    Unicode 10.0 Character Code Charts, C1 Controls and Latin-1 Supplement (PDF; 573 kB) 00DF ß LATIN SMALL LETTER SHARP S, Unicode, 2017 (englisch): ‚uppercase is “SS”‘
  29. Großes ß, Wikipedia: „Anfang 2008 wurde das große ß als neues Zeichen in den internationalen Standard Unicode für Computerzeichensätze aufgenommen, am 24. Juni 2008 trat die entsprechende Ergänzung der Norm ISO/IEC 10646 in Kraft. Seit dem 29. Juni 2017 ist das ẞ Bestandteil der amtlichen deutschen Rechtschreibung.“
  30. „Dzhe corresponds in other Cyrillic alphabets to the digraphs дж or чж, or to the letters Che with descender (Ҷ ҷ), Che with vertical stroke (Ҹ ҹ), Khakassian Che (Ӌ ӌ), Zhe with breve (Ӂ ӂ), Zhe with diaeresis (Ӝ ӝ), or Zhje (Җ җ).“
  31. Jo, Wikipedia: „Ё wird vor allem in Druckerzeugnissen durch Е ersetzt, [...].“;
    Russisches Alphabet, Ё ё, URRA Interactive: „Anmerkungen: [...] – wird oft ohne die zwei Punkte geschrieben“
  32. a b „When not available, the character ⟨ѝ⟩ is often replaced by an ordinary ⟨и⟩ (not recommended, but still orthographically correct) or in Bulgarian by the letter ⟨й⟩ (formally this is considered a spelling error).“
  33. a b Tonos, Wikipedia: „In manchen Schriftarten steht der Tonos senkrecht, also in einer im Gegensatz zum nach rechts geneigten Akut und zum nach links geneigten Gravis ‚neutralen‘ Position, bisweilen ist er auch nur ein Punkt, ein auf der Spitze stehendes Dreieck o. Ä. Dieser Usus stammt aus den 1970er Jahren, also aus der Zeit vor der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung, als Orthographiereformer auf diese Weise einen ‚neutralen‘ Akzent benutzten, der sich von den in der polytonischen Orthographie vorhandenen unterscheiden musste. Mit der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung 1980 wurde die Unterscheidung des Tonos von den polytonischen Akzenten jedoch unnötig, und alle Stilvorgaben sehen vor, dass der monotonische Tonos graphisch identisch mit dem polytonischen Akut ist. So ist es auch in Unicode vorgesehen.“
  34. a b Arabic character tail for final Seen family (Seen, Sheen, Saad, Daad) (PDF; 300 kB) IBM Egypt, 2001 (englisch)
  35. Philips SAA5x9x family (PDF) 9.19 Horizontal timing, 9.20 Vertical timing, „Fig.15 625-line display format.“ und „Fig.16 525-line display format.“, S. 46–49, Philips, 1998 (englisch)
  36. Unicode Fonts for Ancient Scripts, George Douros, 2020 (englisch)
  37. Unicode 13.0.0, Unicode, 2020 (englisch);
    The Unicode Consortium auf Twitter, Unicode, 2019 (englisch);
    Proposal to add characters from legacy computers and teletext to the UCS (PDF; 3,9 MB) Doug Ewell, Rebecca Bettencourt und andere, 2019 (englisch);
    Map from Teletext G1 character set to Unicode, Rebecca Bettencourt, 2018 (englisch);
    Map from Teletext G3 character set to Unicode, Rebecca Bettencourt, 2018 (englisch)
  38. Unicode Technical Report #25 – Unicode Support for Mathematics, 2.11 Geometrical Shapes, Unicode, 2007 (englisch)
  39. Recommendations and Reports of the CCIR, 1982, Volume XI — Part 1, Broadcasting Service (Television) (PDF; 13 MB) Report 957 – Characteristics of teletext systems, Annex I – United Kingdom teletext system, Figure 14 — Smoothed mosaic graphics set, S. 119, ITU, 1982 (englisch)
  40. Bug Reports DVBViewer Pro/GE – Teletext with Cyrillic, Griga, 2012 (englisch): „P.S. The following screenshot from Derrick’s sample (see above) shows clearly which characters originate from which source:
    - White characters are from the Latin G0 Character Set (identical for all countries with a latin alphabet)
    - Red characters are from the Spanisch/Portuguese National Option Subset.
    - Green characters added by packets X/26 are from the Latin G2 Supplementary Set.“
  41. Siemens MEGATEXT PLUS SDA 5275-2 Delta Specification / Application Notes (PDF) 2.5.2 Example for Russian Market, S. 56, Siemens, 1998 (englisch): „The bit SEC_LA should be set and the secondary language should be defined to English because currently, no Russian broadcaster transmits packet X/28 or X/29.“
  42. Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table, e.g. to change from the Hebrew alphabet to the Arabic alphabet on an Arab/Hebrew device.“
  43. Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table [...]. For some national option languages the alternate code table is the default, and a twist control character will switch to the first code table.“