Einheitlicher Hangul-Code - Unified Hangul Code

Einheitlicher Hangul-Code
Unified Hangul Code.svg
Layout des einheitlichen Hangul-Codes
Alias(e) Windows-Codepage 949, IBM-Codepage 1363
Sprachen) Koreanisch
Standard WHATWG-Kodierungsstandard (als "EUC-KR")
Einstufung Erweiterte ISO 646 , Codierung mit variabler Breite , CJK-Codierung
Erweitert EUC-KR
Andere verwandte Codierung(en) KPS 9566 -2003 , KPS 9566-2011

Unified Hangul Code ( UHC ) oder Extended Wansung , unter Microsoft Windows auch als Codepage 949 ( Windows-949 , MS949 oder mehrdeutig CP949 ) bekannt, ist die Microsoft Windows -Codepage für die koreanische Sprache . Es ist eine Erweiterung des Wansung-Codes ( KS C 5601 : 1987, codiert als EUC-KR ), um alle 11172 nicht-partiellen Hangul- Silben in Johab (KS C 5601: 1992, Anhang 3) einzuschließen . Dies entspricht den vorkomponierten Silben, die in Unicode 2.0 und höher verfügbar sind .

Wansung Code hat den Nachteil, dass er nur Codes für die 2350 vorkomponierten Hangul-Silben zuweist, die ihre eigenen KS X 1001 (KS C 5601)-Codepunkte haben (von insgesamt 11172, die veraltetes Jamo nicht mitgezählt) und erfordert, dass andere acht verwenden -Byte-Kompositionssequenzen, die von einigen Teilimplementierungen des Standards nicht unterstützt werden. UHC löst dies durch die Zuweisung einzelner Codes für alle möglichen Silben, die mit modernem Jamo konstruiert wurden, indem Zuweisungen außerhalb des für KS X 1001 verwendeten Codierungsraums vorgenommen werden.

Der Lead-Byte-Bereich wird auf 0x 81–FE und der Trail-Byte-Bereich auf 0x41–5A, 0x61–7A und 0x81–FE erweitert (bei EUC-KR sind beide Bereiche 0xA1–FE). Für den zusätzlichen Hangul werden die Codes außerhalb der EUC-KR-Bereiche verwendet. Getrennt betrachtet sind sowohl der EUC-KR-Hangul-Block als auch der UHC-erweiterte Hangul-Abschnitt in Unicode-Reihenfolge.

Terminologie

Unified Hangul Code ist nicht als Standard bei der IANA registriert , um Informationen über das Internet zu kommunizieren. Alternativen umfassen UTF-8 . Der von HTML5 verwendete W3C / WHATWG- Kodierungsstandard bezieht jedoch die Unified Hangul Code-Erweiterungen in seine Definition von "EUC-KR" ein.

Microsoft weist Windows-949 das Label "ks_c_5601-1987" zu, das richtigerweise für KS X 1001 selbst gilt ( KS C 5601 ist der ursprüngliche Name von KS X 1001). Die WHATWG behandelt das Label "ks_c_5601-1987" austauschbar mit "EUC-KR" mit der Absicht, "kompatibel mit bereitgestellten Inhalten" zu sein. Die "OBSOLETE/EASTASIA"-Sammlung zurückgezogener Mappings des Unicode-Konsortiums enthielt Mappings für den Unified Hangul Code als "KSC5601.TXT", wobei die automatisch abgeleiteten Mappings für 7-Bit-KS X 1001 als "KSX1001.TXT" enthalten waren.

Die Codepage 949 von IBM ist eine weitere, ansonsten nicht verwandte Erweiterung von EUC-KR. International Components for Unicode (ICU) verwendet "cp949", "949" oder "ibm-949", um auf diese IBM-Codepage zu verweisen, und "ms949" oder "windows-949" (oder mehrere Varianten von "ks_c_5601-1987") auf die Windows-Zuordnung von UHC verweisen. Python hingegen erkennt "cp949", "949", "ms949" und "uhc" als Labels für UHC und enthält keinen IBM-949-Codec. Von den Etiketten, die die Codepage-Nummer enthalten, erkennt die WHATWG nur "windows-949".

Die Codepage von IBM für Unified Hangul Code heißt Codepage 1363 ( IBM-1363 ) oder „koreanisches MS-Win“. Es ist eine Kombination aus SBCS- Codepage 1126 und DBCS- Codepage 1362. Es unterscheidet sich dadurch, dass es eine einzelne Byte-Zuordnung von 0x5C auf das Won-Zeichen (U+20A9) hat; Windows ordnet 0x5C U+005C (der Unicode-Codepunkt für den Backslash ) wie in ASCII zu, obwohl Schriftarten es oft immer noch als Won-Zeichen darstellen. Die Unicode-Zuordnung des Wellenstrichs (0xA1AD) unterscheidet sich ebenfalls, wobei die IBM-Zuordnung U+301C bevorzugt, während die Microsoft-Zuordnung U+223C (Tilde-Operator) bevorzugt. Das IBM-Mapping für UHC ist in ICU als "ibm-1363" verfügbar, während der ICU-Codec "windows-949" in einigen ICU-Quellcodekommentaren als IBM-1261 bezeichnet wird.

Single-Byte-Codes

Es folgt der Einzelbyte-Teil der Codepage, wie von IBM definiert. Ähnlich Codeseite 437 , der Steuercodes kann Bytes als Steuercodes oder graphische Codes verwendet werden , abhängig von kontext der grafischen Codes sind unten gezeigt. Microsoft verwendet ASCII-Zuordnungen für alle ASCII-Bytes, obwohl der umgekehrte Schrägstrich immer noch als gewonnenes Zeichen gerendert werden kann .

Codeseite 1126
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _EIN _B _C _D _E _F
0_
0
NUL
0000

250C

2510

2514

2518

2502

2500

2022

25D8

25CB

25D9

2642

2640

266A

266B

263C
1_
16

253C

25C4

2195
!
203C

00B6

2534

252C

2524

2191

251C

2192

2190

221F

2194

25b2

25 v. Chr.
2_
32
SP
0020
!
0021
"
0022
#
0023
0024 $
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Ich
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B

20A9
]
005D
^
005E
_
005F
6_
96
`
0060
ein
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
ich
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E

2302

  Brief  Nummer  Interpunktion  Symbol  Sonstiges  Nicht definiert  Unterschiede zur Codepage 437

Fußnoten

Verweise

Externe Links