T.51/ISO/IEC 6937 - T.51/ISO/IEC 6937

T.51
Lateinische codierte Zeichensätze für Telematikdienste
Status In voller Stärke
Jahr begonnen 1984
Letzte Version (09/92)
September 1992
Organisation ITU-T
Komitee Studiengruppe VIII
Zugehörige Normen T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022
Domain Codierung
Lizenz Kostenlos erhältlich
Webseite https://www.itu.int/rec/T-REC-T.51

T.51 / ISO/IEC 6937:2001 , Informationstechnologie - Codierter grafischer Zeichensatz für die Textkommunikation - Lateinisches Alphabet , ist eine Multibyte-Erweiterung von ASCII bzw. ISO/IEC 646 -IRV. Es wurde gemeinsam mit ITU-T (damals CCITT ) für Telematikdienste unter dem Namen T.51 entwickelt und wurde erstmals 1983 zum ISO-Standard. Bestimmte Bytecodes werden als Leitbytes für Buchstaben mit diakritischen Zeichen ( Akzenten ) verwendet. Der Wert des Lead-Byte gibt oft an, welches diakritische Zeichen der Buchstabe hat, und das Folge-Byte hat dann den ASCII-Wert für den Buchstaben, auf dem das diakritische Zeichen steht.

Die Architekten von ISO/IEC 6937 waren Hugh McGregor Ross , Peter Fenwick, Bernard Marti und Loek Zeckendorf .

ISO6937/2 definiert 327 Zeichen in modernen europäischen Sprachen unter Verwendung des lateinischen Alphabets . Nicht-lateinische Zeichen wie Kyrillisch und Griechisch sind nicht im Standard enthalten. Auch einige diakritische Zeichen, die mit dem lateinischen Alphabet verwendet werden, wie das rumänische Komma, sind nicht enthalten, stattdessen wurde Cedille verwendet, da zu dieser Zeit keine Unterscheidung zwischen Cedille und Komma gemacht wurde.

Die IANA hat die Zeichensatznamen ISO_6937-2-25 und ISO_6937-2-add für zwei (ältere) Versionen dieses Standards (plus Kontrollcodes) registriert . In der Praxis wird diese Zeichenkodierung im Internet jedoch nicht verwendet.

Einzelbyte-Zeichen

Der Primärsatz (erste Hälfte) , gefolgt ursprünglich ISO 646-IRV vor der ISO / IEC 646: 1991 Revision, die, meist finden Sie ASCII , aber mit Charakter 0x24 noch als „bezeichnete internationale Währungszeichen “ (¤) anstelle der Dollar - Zeichen ($). Die Ausgabe von ITU T.51 von 1992 erlaubt es bestehenden CCITT-Diensten, 0x24 weiterhin als internationales Währungszeichen zu interpretieren, schreibt jedoch vor, dass neue Telekommunikationsanwendungen es für das Dollarzeichen verwenden sollten (dh nach der aktuellen ISO 646-IRV) und stattdessen das internationale Währungszeichen unter Verwendung des Ergänzungssatzes.

Der Ergänzungssatz (zweite Hälfte) enthält eine Auswahl von Leerzeichen und Zeichen ohne Leerzeichen, zusätzliche Symbole und einige Stellen, die für zukünftige Standardisierungen reserviert sind.

Beides sind grafische ISO/IEC 2022- Zeichensätze, wobei der primäre Satz ein 94-Code-Satz und der sekundäre Satz ein 96-Code-Satz ist. In Kontexten, in denen ISO 2022- Codeerweiterungstechniken nicht verwendet werden, wird der primäre Satz als G0-Satz bezeichnet und über GL ( 0x 20..0x7F) aufgerufen, während der ergänzende Satz als G2-Satz bezeichnet und über GR (0xA0 ..0xFF) in einer 8-Bit-Umgebung oder durch Verwendung des Steuercodes 0x19 als Single-Shift in einer 7-Bit-Umgebung. Diese Codierung des Single Shift Two-Codes stimmt mit seiner Position in ISO-IR -106 überein.

Die ISO/IEC 2022- Escape-Sequenz , um den ergänzenden Satz von ISO/IEC 6937 als den G2-Satz zu bezeichnen, ist ESC . R(hex 1B 2E 52). Der ältere Ergänzungssatz nach ISO 6937/2:1983 wird als 94-Code-Satz registriert und mit ESC * l(hex 1B 2A 6C) als G2 bezeichnet .

Zwei-Byte-Zeichen

Akzentbuchstaben, denen keine Einzelcodes im Primär- oder Ergänzungssatz zugeordnet sind, werden mit zwei Bytes codiert. Dem ersten Byte, dem "diakritischen Zeichen ohne Leerzeichen", folgt ein Buchstabe aus dem Basissatz, zB:

small e with acute accent (é) = [Acute]+e

Der ITU T.51-Standard ordnet Spalte 4 des Ergänzungssatzes (dh 0x C0–CF bei Verwendung im 8-Bit-Format) diakritischen Zeichen ohne Leerzeichen zu. ISO/IEC 6937 definiert jedoch ein vollständig spezifiziertes Zeichenrepertoire, das eine Liste von Kompositionssequenzen auf ISO/IEC 10646-Zeichennamen abbildet . Die isolierten Bytes ohne Leerzeichen sind in diesem Repertoire nicht enthalten, obwohl Leerzeichenvarianten der diakritischen Zeichen enthalten sind, die ansonsten in ASCII nicht vorhanden sind, wobei der ASCII-Raum das Trail-Byte ist. Daher entsprechen nur bestimmte Kombinationen von Lead-Byte und Follow-Byte dem ISO/IEC-Standard.

Dieses Repertoire ist auch der ITU-Version der Spezifikation als Anhang A beigefügt, obwohl die ITU-Version nicht im Haupttext darauf verweist. Es wird als "einheitliche Obermenge" des lateinischen Schriftzeichenrepertoires beschrieben. Es entspricht dem Repertoire der ISO/IEC 10367, wenn die Sätze ASCII, Latin-1 (oder Latin-5 ), Latin-2 und ergänzende Latin- Sets verwendet werden.

Dieses System unterscheidet sich auch von dem Unicode- Kombinationszeichensystem darin , dass der diakritische Code dem Buchstaben vorangeht (im Gegensatz zu ihm), was es ANSEL ähnlicher macht .

Eine kleine Anomalie ist, dass der lateinische Kleinbuchstabe G mit Cedille so codiert wird, als ob er mit einem akuten Akzent, dh mit einem 0xC2 Lead-Byte, codiert wäre, da der Kleinbuchstabe aufgrund seiner Unterlänge, die eine Cedille stört, normalerweise mit einem gedrehten Komma darüber steht : Ģ ģ .

Auf insgesamt 13 diakritische Zeichen können die ausgewählten Zeichen aus dem Primärsatz folgen:

Akzent Code Zweiter Charakter Ergebnis
Grab 0xC1 AEIOUaeiou àèìòù
Akut 0xC2 ACEILNORSUYZacegilnorsuyz áćéģíĺńóŕśúýź
Zirkumflex 0xC3 ACEGHIJOSUWYaceghijosuwy ÂĈÊĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ
Tilde 0xC4 AINOUainou ÃĨÑÕŨãĩñõũ
Längezeichen 0xC5 AEIOUaeiou ĀĒĪŌŪāēīōū
Breve 0xC6 AGUagu ĂĞŬăğŭ
Punkt 0xC7 CEGIZcegz ĊĖĠİŻċėġż
Umlaut oder Diæresis 0xC8 AEIOUYaeiouy ÄËÏÖÜŸäëïöüÿ
Ring 0xCA Au Au Au Au
Cedille 0xCB CGKLNRSTcklnrst çķļņŗşţ
Doppelakut 0xCD OUou ouou
Ogonek 0xCE AEIUaeiu ĄĘĮŲąęįų
Caron 0xCF CDELNRSTZcdelnrstz čďěľňřšťž

Codepage-Layout

Der Verweis auf das Kombinieren von Zeichen im Bereich U+0300—U+036F für die Codes im Bereich 0xC1—0xCF unten unterliegt den oben genannten Vorbehalten; sie können nicht einfach den aufgeführten Codepunkten zugeordnet werden. Außerdem unterscheidet Unicode 0xE2 in D mit Stroke und Großbuchstaben Eth , die normalerweise für die Kleinbuchstaben (0xF2 und 0xF3) unterschiedlich aussehen.

Die ältere Ausgabe von ITU T.51 von 1988 definierte zwei Versionen des Ergänzungssatzes, wobei der ersten Version das geschützte Leerzeichen , der weiche Bindestrich , das Vorzeichen ( ¬ ) und der unterbrochene Strich ( ¦ ) in der zweiten Version fehlten . Die erste Version wurde als Erweiterung des Ergänzungssets T.61 und die zweite Version als Erweiterung der ersten Version definiert. Die aktuelle Ausgabe (1992) enthält nur die zweite Version, verzichtet auf bestimmte Zeichen und aktualisiert den Primärsatz auf das aktuelle ISO-646-IRV ( ASCII ), obwohl bestehende Telematikdienste das ältere Verhalten beibehalten dürfen.

ISO/IEC 6937 oder ITU T.51 (lateinisch)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _EIN _B _C _D _E _F
0_
1_
2_ SP
0020
!
0021
"
0022
#
0023
$ / ¤
0024/00A4
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_ 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_ @
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Ich
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_ P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_ `
0060
ein
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
ich
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_ p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
9_
EIN_ NBSP
00A0
¡
00A1
¢
00A2
£
00A3
0024 $
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018

201C
«
00AB

2190

2191

2192

2193
B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
µ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼ 00 v.
Chr.
½
00BD
¾
00BE
¿
00BF
C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
D_ -
2015
¹
00B9
®
00AE
©
00A9

2122

266A
¬
00AC
|
00A6

215B

215C

215D

215E
E_ Ω
2126
Æ
00C6
Đ / Ð
0110 / 00D0
ª
00AA
Ħ
0126
ij
0132
L
013F
Ł
0141
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
F_ ÿ
0138
æ
00E6
đ
0111
ð
00F0
ħ
0127
I
0131
ij
0133
L
0140
ł
0142
ø
00F8

0153
ß
00DF
þ
00FE
ŧ
0167
ŋ
014B
SCHÜCHTERN
00AD

  Brief  Nummer  Interpunktion  Symbol  Sonstiges  Nicht definiert  Unterschiede zu T.61

Videotex-Version

Die vom ITU T.101-Standard für Videotex verwendeten Versionen des Ergänzungssatzes basieren auf dem ersten Ergänzungssatz der 1988er Ausgabe von T.51.

Das Standard - G2 - Set für Daten Syntax 2 fügt eine auf 0xC0, für die Kombination mit Codes aus einem griechischen Primärsatz.

Der Ergänzungssatz für die Datensyntax 3 fügt Zeichen ohne Leerzeichen für den Überstrich und den Solidus sowie einige halbgrafische Zeichen hinzu .

ETS 300 706-Version

Der ETS 300 706-Standard für World System Teletext basiert seinen G2-Satz auf ISO 6937. Er ist ein Obersatz des Ergänzungssatzes von T.61 und ein Obersatz des ersten Ergänzungssatzes der 1988er Ausgabe von T.51, kollidiert jedoch mit die aktuelle Ausgabe von T.51 an bestimmten Positionen. Diakritische Codes in der ETS-Version werden als "zur Verknüpfung mit" Zeichen aus dem verwendeten G0-Satz angegeben , wie z. B. US-ASCII oder BS_viewdata . Diese Version ist in der folgenden Tabelle dargestellt.

Weltsystem-Teletext, lateinisches G2-Set (ETS 300 706:1997)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _EIN _B _C _D _E _F
2_/A_ SP
00A0
¡
00A1
¢
00A2
£
00A3
0024 $
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018

201C
«
00AB

2190

2191

2192

2193
3_/B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
µ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼ 00 v.
Chr.
½
00BD
¾
00BE
¿
00BF
4_/C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̣̣
0323
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
5_/D_ -
2015
¹
00B9
®
00AE
©
00A9

2122

266A

20A0

2030
a
03B1

215B

215C

215D

215E
6_/E_ Ω
2126
Æ
00C6
Đ / Ð
0110 / 00D0
ª
00AA
Ħ
0126
ij
0132
L
013F
Ł
0141
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
7_/F_ ÿ
0138
æ
00E6
đ
0111
ð
00F0
ħ
0127
I
0131
ij
0133
L
0140
ł
0142
ø
00F8

0153
ß
00DF
þ
00FE
ŧ
0167
ŋ
014B

25A0

  Brief  Nummer  Interpunktion  Symbol  Sonstiges  Nicht definiert  Unterschiede zu T.51

Siehe auch

Fußnoten

Verweise

Externe Links