Einheitlicher Hangul-Code - Unified Hangul Code
Alias(e) | Windows-Codepage 949, IBM-Codepage 1363 |
---|---|
Sprachen) | Koreanisch |
Standard | WHATWG-Kodierungsstandard (als "EUC-KR") |
Einstufung | Erweiterte ISO 646 , Codierung mit variabler Breite , CJK-Codierung |
Erweitert | EUC-KR |
Andere verwandte Codierung(en) | KPS 9566 -2003 , KPS 9566-2011 |
Unified Hangul Code ( UHC ) oder Extended Wansung , unter Microsoft Windows auch als Codepage 949 ( Windows-949 , MS949 oder mehrdeutig CP949 ) bekannt, ist die Microsoft Windows -Codepage für die koreanische Sprache . Es ist eine Erweiterung des Wansung-Codes ( KS C 5601 : 1987, codiert als EUC-KR ), um alle 11172 nicht-partiellen Hangul- Silben in Johab (KS C 5601: 1992, Anhang 3) einzuschließen . Dies entspricht den vorkomponierten Silben, die in Unicode 2.0 und höher verfügbar sind .
Wansung Code hat den Nachteil, dass er nur Codes für die 2350 vorkomponierten Hangul-Silben zuweist, die ihre eigenen KS X 1001 (KS C 5601)-Codepunkte haben (von insgesamt 11172, die veraltetes Jamo nicht mitgezählt) und erfordert, dass andere acht verwenden -Byte-Kompositionssequenzen, die von einigen Teilimplementierungen des Standards nicht unterstützt werden. UHC löst dies durch die Zuweisung einzelner Codes für alle möglichen Silben, die mit modernem Jamo konstruiert wurden, indem Zuweisungen außerhalb des für KS X 1001 verwendeten Codierungsraums vorgenommen werden.
Der Lead-Byte-Bereich wird auf 0x 81–FE und der Trail-Byte-Bereich auf 0x41–5A, 0x61–7A und 0x81–FE erweitert (bei EUC-KR sind beide Bereiche 0xA1–FE). Für den zusätzlichen Hangul werden die Codes außerhalb der EUC-KR-Bereiche verwendet. Getrennt betrachtet sind sowohl der EUC-KR-Hangul-Block als auch der UHC-erweiterte Hangul-Abschnitt in Unicode-Reihenfolge.
Terminologie
Unified Hangul Code ist nicht als Standard bei der IANA registriert , um Informationen über das Internet zu kommunizieren. Alternativen umfassen UTF-8 . Der von HTML5 verwendete W3C / WHATWG- Kodierungsstandard bezieht jedoch die Unified Hangul Code-Erweiterungen in seine Definition von "EUC-KR" ein.
Microsoft weist Windows-949 das Label "ks_c_5601-1987" zu, das richtigerweise für KS X 1001 selbst gilt ( KS C 5601 ist der ursprüngliche Name von KS X 1001). Die WHATWG behandelt das Label "ks_c_5601-1987" austauschbar mit "EUC-KR" mit der Absicht, "kompatibel mit bereitgestellten Inhalten" zu sein. Die "OBSOLETE/EASTASIA"-Sammlung zurückgezogener Mappings des Unicode-Konsortiums enthielt Mappings für den Unified Hangul Code als "KSC5601.TXT", wobei die automatisch abgeleiteten Mappings für 7-Bit-KS X 1001 als "KSX1001.TXT" enthalten waren.
Die Codepage 949 von IBM ist eine weitere, ansonsten nicht verwandte Erweiterung von EUC-KR. International Components for Unicode (ICU) verwendet "cp949", "949" oder "ibm-949", um auf diese IBM-Codepage zu verweisen, und "ms949" oder "windows-949" (oder mehrere Varianten von "ks_c_5601-1987") auf die Windows-Zuordnung von UHC verweisen. Python hingegen erkennt "cp949", "949", "ms949" und "uhc" als Labels für UHC und enthält keinen IBM-949-Codec. Von den Etiketten, die die Codepage-Nummer enthalten, erkennt die WHATWG nur "windows-949".
Die Codepage von IBM für Unified Hangul Code heißt Codepage 1363 ( IBM-1363 ) oder „koreanisches MS-Win“. Es ist eine Kombination aus SBCS- Codepage 1126 und DBCS- Codepage 1362. Es unterscheidet sich dadurch, dass es eine einzelne Byte-Zuordnung von 0x5C auf das Won-Zeichen (U+20A9) hat; Windows ordnet 0x5C U+005C (der Unicode-Codepunkt für den Backslash ) wie in ASCII zu, obwohl Schriftarten es oft immer noch als Won-Zeichen darstellen. Die Unicode-Zuordnung des Wellenstrichs (0xA1AD) unterscheidet sich ebenfalls, wobei die IBM-Zuordnung U+301C bevorzugt, während die Microsoft-Zuordnung U+223C (Tilde-Operator) bevorzugt. Das IBM-Mapping für UHC ist in ICU als "ibm-1363" verfügbar, während der ICU-Codec "windows-949" in einigen ICU-Quellcodekommentaren als IBM-1261 bezeichnet wird.
Single-Byte-Codes
Es folgt der Einzelbyte-Teil der Codepage, wie von IBM definiert. Ähnlich Codeseite 437 , der Steuercodes kann Bytes als Steuercodes oder graphische Codes verwendet werden , abhängig von kontext der grafischen Codes sind unten gezeigt. Microsoft verwendet ASCII-Zuordnungen für alle ASCII-Bytes, obwohl der umgekehrte Schrägstrich immer noch als gewonnenes Zeichen gerendert werden kann .
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _EIN | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 |
NUL 0000 |
┌ 250C |
┐ 2510 |
└ 2514 |
┘ 2518 |
│ 2502 |
─ 2500 |
• 2022 |
◘ 25D8 |
○ 25CB |
◙ 25D9 |
♂ 2642 |
♀ 2640 |
♪ 266A |
♫ 266B |
☼ 263C |
1_ 16 |
┼ 253C |
◄ 25C4 |
↕ 2195 |
! 203C |
¶ 00B6 |
┴ 2534 |
┬ 252C |
┤ 2524 |
↑ 2191 |
├ 251C |
→ 2192 |
← 2190 |
∟ 221F |
↔ 2194 |
▲ 25b2 |
▼ 25 v. Chr. |
2_ 32 |
SP 0020 |
! 0021 |
" 0022 |
# 0023 |
0024 $ |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ 48 |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ 64 |
@ 0040 |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
Ich 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ 80 |
P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
₩ 20A9 |
] 005D |
^ 005E |
_ 005F |
6_ 96 |
` 0060 |
ein 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
ich 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ 112 |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
⌂ 2302 |
Brief Nummer Interpunktion Symbol Sonstiges Nicht definiert Unterschiede zur Codepage 437
Fußnoten
Verweise
Externe Links
- Microsofts Referenz für Windows-949
- Dokumentation von IBM für IBM-1363
- Zuordnung von Windows-949 zu Unicode
- International Components for Unicode (ICU) Mapping - Dateien: ibm-1363_P110-1997.ucm , ibm-1363_P11B-1998.ucm und Fenster-949-2000.ucm
- ICU-Demonstration für Windows-949 (mit ASCII-Zuordnungen)
- ICU-Demonstration für IBM-1363 (mit 0x5C als Won-Zeichen)