Die großen 5 - Big5

Die großen 5
MIME / IANA Die großen 5
Alias(e) Big-5,
Sprachen) Traditionelles Chinesisch , Englisch
Erstellt von Institut für Informationswirtschaft
Einstufung Erweitertes ASCII , Codierung mit variabler Breite , DBCS , CJK-Codierung
Erweitert ASCII
Erweiterungen Windows-950 , Big5-HKSCS , zahlreiche andere
Andere zugehörige Codierung(en) CNS 11643

Big-5 oder Big5 ist eine chinesische Zeichencodierungsmethode , die in Taiwan , Hongkong und Macau für traditionelle chinesische Zeichen verwendet wird .

Die Volksrepublik China (VRC) , die vereinfachte chinesische Zeichen verwendet , verwendet stattdessen den Zeichensatz GB 18030 .

Big5 hat seinen Namen von dem Konsortium aus fünf Unternehmen in Taiwan, das es entwickelt hat.

Organisation

Der ursprüngliche Big5-Zeichensatz wird zuerst nach Verwendungshäufigkeit, dann nach Strichzahl und zuletzt nach Kangxi-Radikal sortiert .

Im ursprünglichen Big5-Zeichensatz fehlten viele häufig verwendete Zeichen. Um dieses Problem zu lösen, hat jeder Anbieter seine eigene Erweiterung entwickelt. Die ETen-Erweiterung wurde durch Popularität Teil des aktuellen Big5-Standards.

Der Aufbau von Big5 entspricht nicht dem ISO 2022- Standard, sondern weist eine gewisse Ähnlichkeit mit der Shift-JIS- Kodierung auf. Es handelt sich um einen Doppelbytezeichensatz (DBCS) mit folgendem Aufbau:

Erstes Byte ("Lead-Byte") 0x81 bis 0xfe (oder 0xa1 bis 0xf9 für nicht benutzerdefinierte Zeichen)
Zweites Byte 0x40 bis 0x7e, 0xa1 bis 0xfe

(das Präfix 0x steht für hexadezimale Zahlen).

Standardzuweisungen (mit Ausnahme von Hersteller- oder benutzerdefinierten Erweiterungen) verwenden weder die Bytes 0x7F bis 0xA0 noch 0xFF als führende (erste) oder nachfolgende (zweite) Bytes. Die Bytes 0xA1 bis 0xFE werden sowohl für Lead- als auch für Trail-Bytes für Doppelbyte-Codes (Big5) verwendet. Die Bytes 0x40 bis 0x7E werden als Trail-Bytes nach einem Lead-Byte oder ansonsten für Single-Byte-Codes verwendet. Wenn das zweite Byte in keinem der Bereiche liegt, ist das Verhalten nicht spezifiziert (dh variiert von System zu System). Zusätzlich können bestimmte Varianten des Big5 Zeichensatz, zum Beispiel die HKSCS , verwenden einen erweiterten Bereich für das führende Byte, einschließlich der Werte in dem 0x81 bis 0xA0 Bereich (ähnlich JIS Umschalt ), wohingegen andere führen Bytebereiche reduzierten Einsatz (zB die Apple Macintosh-Variante verwendet 0xFD bis 0xFF als Einzelbyte-Codes, wodurch der führende Bytebereich auf 0xA1 bis 0xFC begrenzt wird).

Der Zahlenwert einzelner Big5-Codes wird häufig als 4-stellige Hexadezimalzahl angegeben, die die beiden Bytes beschreibt, aus denen der Big5-Code besteht, als ob die beiden Bytes eine Big-Endian- Darstellung einer 16-Bit-Zahl wären . Zum Beispiel wird der Big5-Code für einen Leerraum voller Breite, bei dem es sich um die Bytes 0xa1 0x40 handelt, normalerweise als 0xa140 oder nur als A140 geschrieben.

Streng genommen enthält die Big5-Codierung nur DBCS-Zeichen. In der Praxis werden die Big5-Codes jedoch immer zusammen mit einem nicht spezifizierten, systemabhängigen Single-Byte-Zeichensatz ( ASCII , oder einem 8-Bit-Zeichensatz wie Codepage 437 ) verwendet, sodass Sie eine Mischung aus DBCS Zeichen und Einzelbytezeichen in Big5-codiertem Text. Bytes im Bereich 0x00 bis 0x7f, die nicht Teil eines Doppelbyte-Zeichens sind, werden als Einzelbyte-Zeichen angenommen. (Eine detailliertere Beschreibung dieses Problems finden Sie unten in der Diskussion zu "The Matching SBCS".)

Die Bedeutung von Nicht-ASCII-Einzelbytes außerhalb der zulässigen Werte, die nicht Teil eines Doppelbyte-Zeichens sind, variiert von System zu System. In alten MSDOS-basierten Systemen werden sie wahrscheinlich als 8-Bit-Zeichen angezeigt; in modernen Systemen führen sie wahrscheinlich entweder zu unvorhersehbaren Ergebnissen oder erzeugen einen Fehler.

Ein genauerer Blick auf die Organisation

Im ursprünglichen Big5 ist die Codierung in verschiedene Zonen unterteilt:

0x8140 bis 0xa0fe Reserviert für benutzerdefinierte Zeichen 造字
0xa140 bis 0xa3bf "Grafische Zeichen" 圖形碼
0xa3c0 bis 0xa3fe Reserviert, nicht für benutzerdefinierte Zeichen
0xa440 bis 0xc67e Häufig verwendete Zeichen 常用字
0xc6a1 bis 0xc8fe Reserviert für benutzerdefinierte Zeichen
0xc940 bis 0xf9d5 Weniger häufig verwendete Zeichen 次常用字
0xf9d6 bis 0xfefe Reserviert für benutzerdefinierte Zeichen

Die "grafischen Zeichen" bestehen eigentlich aus Satzzeichen, teilweisen Satzzeichen (z. B. halber Bindestrich, halber Auslassungspunkt; siehe unten), Dingbats , Fremdzeichen und andere Sonderzeichen (z. B. Darstellungsformen in voller Breite, Ziffern für Suzhou-Ziffern , Zhuyin Fuhao usw.)

Bei den meisten Erweiterungen von Herstellern werden erweiterte Zeichen in den verschiedenen Zonen platziert, die für benutzerdefinierte Zeichen reserviert sind, von denen jede normalerweise als der vorhergehenden Zone zugeordnet betrachtet wird. Beispielsweise wird erwartet, dass zusätzliche „grafische Zeichen“ (z. B. Satzzeichen) im Bereich 0xa3c0–0xa3fe platziert werden und zusätzliche Logogramme entweder im Bereich 0xc6a1–0xc8fe oder 0xf9d6–0xfefe platziert werden. Manchmal ist dies aufgrund der großen Anzahl der hinzuzufügenden erweiterten Zeichen nicht möglich; zum Beispiel wurden kyrillische Buchstaben und japanisches Kana in die Zone mit "häufig verwendeten Zeichen" eingefügt .

Was ein Big5-Code eigentlich codiert

Ein einzelner Big5-Code stellt nicht immer eine vollständige semantische Einheit dar. Die Big5-Codes von Logogrammen sind immer Logogramme, aber Codes im Abschnitt "grafische Zeichen" sind nicht immer vollständige "grafische Zeichen". Was Big5 kodiert, sind bestimmte grafische Darstellungen von Zeichen oder Teilen von Zeichen, die zufällig in den Raum passen, der von zwei ASCII-Zeichen mit Monospace eingenommen wird. Dies ist eine Eigenschaft von Doppelbyte-Zeichensätzen, wie sie normalerweise beim CJK-Computing (Chinesisch, Japanisch und Koreanisch) verwendet werden, und ist kein einzigartiges Problem von Big5.

(Das Obige bedarf möglicherweise einer Erklärung aus historischer Perspektive, da es theoretisch falsch ist: Damals, als Personal Computing im Textmodus noch die Norm war, wurden Zeichen normalerweise als einzelne Bytes dargestellt und jedes Zeichen nimmt eine Position auf dem Bildschirm ein. Es gab daher ein praktischer Grund, darauf zu bestehen, dass Doppelbyte-Zeichen zwei Positionen auf dem Bildschirm einnehmen müssen, nämlich dass handelsübliche, in den USA hergestellte Software dann ohne Modifikation in einem DBCS-basierten System verwendbar wäre beliebig viele Bildschirmpositionen, Software, die davon ausgeht, dass ein Byte Text eine Bildschirmposition einnimmt, würde zu einer falschen Ausgabe führen.Wenn ein Computer sich nie mit dem Textbildschirm beschäftigen müsste, würde der Hersteller diese künstliche Einschränkung natürlich nicht durchsetzen; die Apple Macintosh ist ein Beispiel, dennoch muss die Kodierung selbst so gestaltet sein, dass sie auf Textbildschirm-basierten Systemen korrekt funktioniert.)

Um diesen Punkt zu veranschaulichen, betrachten Sie den Big5-Code 0xa14b (…). Für Englischsprachige sieht dies wie ein Auslassungszeichen aus und der Unicode-Standard identifiziert es als solches; Im Chinesischen besteht die Ellipse jedoch aus sechs Punkten, die in den Raum von zwei chinesischen Zeichen passen (……), sodass es tatsächlich keinen Big5-Code für die chinesischen Ellipsen gibt und der Big5-Code 0xa14b nur die Hälfte einer chinesischen Ellipse darstellt . Es stellt nur die Hälfte einer Ellipse dar, da die gesamte Ellipse den Platz von zwei chinesischen Zeichen einnehmen sollte, und in vielen DBCS-Systemen muss ein DBCS-Zeichen genau den Platz eines chinesischen Zeichens einnehmen.

In Big5 codierte Zeichen stellen nicht immer Dinge dar, die ohne weiteres in Klartextdateien verwendet werden können; ein Beispiel ist "Zitatzeichen" (0xa1ca, ﹋), das, wenn es verwendet wird, unter dem Titel literarischer Werke gesetzt werden muss. Ein weiteres Beispiel sind die Suzhou-Zahlen , eine Form der wissenschaftlichen Notation , bei der die Zahl in einer 2-D-Form mit mindestens zwei Reihen angeordnet werden muss.

Das passende SBCS

In der Praxis kann Big5 nicht ohne einen passenden Single Byte Character Set (SBCS) verwendet werden ; Dies hat meistens mit einem Kompatibilitätsgrund zu tun. Wie bei anderen CJK-DBCS-Zeichensätzen wurde jedoch nie das zu verwendende SBCS angegeben. Big5 wurde immer als DBCS definiert, obwohl es bei der Verwendung mit einem geeigneten, nicht spezifizierten SBCS gepaart werden muss und daher als das verwendet wird, was manche Leute als MBCS bezeichnen ; trotzdem ist Big5 selbst, wie definiert, strikt ein DBCS.

Dass das zu verwendende SBCS nicht spezifiziert ist, impliziert, dass das verwendete SBCS theoretisch von System zu System variieren kann. Heutzutage ist ASCII das einzig mögliche SBCS, das man verwenden würde. In alten DOS- basierten Systemen war jedoch Codepage 437 – mit seinen zusätzlichen Sonderzeichen im Kontrollcodebereich einschließlich Position 127 – viel häufiger. Auf einem Macintosh-System mit dem Chinese Language Kit oder auf einem Unix-System, auf dem der Terminalemulator cxterm läuft, wäre das mit Big5 gepaarte SBCS jedoch nicht Codepage 437.

Außerhalb des gültigen Bereichs von Big5 würden die alten DOS-basierten Systeme routinemäßig die Dinge gemäß dem SBCS interpretieren, das auf diesem System mit Big5 gepaart ist. In solchen Systemen wurden die Zeichen 127 bis 160 zum Beispiel sehr wahrscheinlich nicht vermieden, weil sie ungültige Big5 erzeugen würden, sondern verwendet, weil sie gültige Zeichen in Codepage 437 wären.

Die moderne Charakterisierung von Big5 als MBCS, bestehend aus dem DBCS von Big5 plus dem SBCS von ASCII, ist daher historisch falsch und potenziell fehlerhaft, da die Wahl des passenden SBCS völlig unabhängig von der verwendeten Big5-Variante war und ist .

Geschichte

Die Unfähigkeit von ASCII , große Zeichensätze zu unterstützen, wie sie für Chinesisch, Japanisch und Koreanisch verwendet werden, führte dazu, dass Regierungen und die Industrie kreative Lösungen fanden, um die Wiedergabe ihrer Sprachen auf Computern zu ermöglichen. Eine Vielzahl von Ad-hoc- und meist proprietären Eingabemethoden führten zu Bemühungen, ein Standardsystem zu entwickeln. Als Ergebnis wurde die Big5-Codierung 1984 vom Institute for Information Industry of Taiwan definiert. Der Name "Big5" ist eine Anerkennung dafür, dass der Standard aus der Zusammenarbeit von fünf der größten IT-Firmen Taiwans hervorgegangen ist: Acer (宏碁); MiTAC (神通); JiaJia (佳佳), ZERO ONE Technology (零壹 oder 01tech ); und, Erster internationaler Computer (FIC) (大眾).

Big5 wurde in Taiwan und weltweit unter Chinesen schnell populär, die den traditionellen chinesischen Zeichensatz durch die Übernahme in mehrere kommerzielle Softwarepakete verwendeten, insbesondere das chinesische DOS- Eingabesystem E-TEN ( ETen Chinese System ). Die Republik China Regierung erklärte Big5 als Standard in Mitte der 1980er Jahre , da war es bis dahin die De - facto - Standard für die auf den Computern der traditionellen chinesischen verwenden.

Erweiterungen

Die ursprünglichen Big-5 enthalten nur CJK-Logogramme aus den Charts of Standard Forms of Common National Characters (4808 Zeichen) und Less-Than-Common National Characters (6343 Zeichen), aber keine Buchstaben aus Personennamen, Ortsnamen, Dialekten, Chemie . Biologie , japanisches Kana . Infolgedessen enthalten viele Big-5-unterstützende Software Erweiterungen, um die Probleme zu beheben.

Die Vielzahl an Variationen macht UTF-8 oder UTF-16 zu einer konsistenteren Codepage für den modernen Gebrauch.

Anbietererweiterungen

ETEN-Erweiterungen

Im chinesischen ETEN (倚天)-Betriebssystem werden die folgenden Codepunkte hinzugefügt, um es mit der IBM5550- Codepage kompatibel zu machen :

  • A3C0–A3E0: 33 Steuerzeichen.
  • C6A1–C875: Kreis 1–10, Klammer 1–10, römische Ziffern 1–9 (i–ix), CJK -Radikalglyphen , japanisches Hiragana , japanisches Katakana , kyrillische Zeichen
  • F9D6–F9FE: '碁', '銹', '恒', '裏', '墻', '粧', '嫺' und 34 zusätzliche Symbole.

In einigen Versionen von Eten gibt es zusätzliche grafische Symbole und vereinfachte chinesische Schriftzeichen.

Microsoft-Codepages

Microsoft (微軟) hat eine eigene Version der Big5-Erweiterung als Codepage 950 für die Verwendung mit Microsoft Windows erstellt , die die Erweiterungen von ETEN unterstützt, jedoch nur die F9D6-F9FE-Codepunkte. In Windows ME wurde das Euro- Währungssymbol dem Big-5-Codepunkt A3E1 zugeordnet, jedoch nicht in späteren Versionen des Betriebssystems.

Nach der Installation des HKSCS-Patches von Microsoft auf dem traditionellen chinesischen Windows (oder einer beliebigen Version von Windows 2000 und höher mit dem richtigen Sprachpaket) verwenden Anwendungen, die Codepage 950 verwenden, automatisch eine versteckte Codepage 951-Tabelle. Die Tabelle unterstützt alle Codepunkte in HKSCS-2001, mit Ausnahme der vom Standard angegebenen Kompatibilitätscodepunkte.

Die von Windows 2000 und Windows XP verwendete Codepage 950 ordnet Hiragana- und Katakana-Zeichen beim Exportieren in Unicode dem Block des privaten Unicode-Bereichs zu, aber den richtigen Hiragana- und Katakana-Unicode-Blöcken in Windows Vista.

ChinaSea-Schriftart

ChinaSea- Schriften (中國海字集) sind traditionelle chinesische Schriften von ChinaSea. Die Schriftarten werden selten separat verkauft, sind jedoch mit anderen Produkten gebündelt, beispielsweise der chinesischen Version von Microsoft Office 97 . Die Schriftarten unterstützen japanisches Kana , Kokuji und andere Zeichen, die in Big-5 fehlen. Infolgedessen sind die ChinaSea-Erweiterungen beliebter als die von der Regierung unterstützten Erweiterungen. Einige Hong Kong BBSes hatte Codierungen in ChinaSea Fonts vor der Einführung der verwendeten HKSCS .

'Sakura'-Schriftart

Die Schriftart 'Sakura' (日和字集 Sakura-Version) wird in Hongkong entwickelt und ist so konzipiert, dass sie mit HKSCS kompatibel ist . Es fügt Unterstützung für Kokuji und proprietäre Dingbats (einschließlich Doraemon ) hinzu, die in HKSCS nicht zu finden sind.

Unicode-at-on

Unicode-at-on ( Unicode補完計畫), ehemals BIG5-Erweiterung, erweitert BIG-5 durch die Änderung von Codepage-Tabellen, verwendet jedoch die ChinaSea-Erweiterungen ab Version 2. Mit dem Bankrott von ChinaSea, der späten Entwicklung und der zunehmenden Popularität von HKSCS und Unicode (das Projekt ist nicht mit HKSCS kompatibel), ist der Erfolg dieser Erweiterung bestenfalls begrenzt.

Trotz der Probleme werden Zeichen, die zuvor dem Unicode Private Use Area zugeordnet wurden, beim Exportieren von Zeichen in das Unicode-Format wieder den standardisierten Äquivalenten zugeordnet.

OPG

Die Websites der Oriental Daily News und Sun Daily , die zur Oriental Press Group Limited (東方報業集團有限公司) in Hongkong gehören, verwendeten eine herunterladbare Schriftart mit einer anderen Big-5-Erweiterungscodierung als die HKSCS .

Offizielle Erweiterungen

Schriftart des taiwanesischen Bildungsministeriums

Das taiwanesische Bildungsministerium hat seine eigene Schrift, die Schrift des taiwanesischen Bildungsministeriums (臺灣教育部造字檔) zur internen Verwendung bereitgestellt.

Schriftart des taiwanesischen Landwirtschaftsrates

Taiwans Council of Agriculture-Schriftart, Executive Yuan, führte eine benutzerdefinierte Schriftart mit 133 Zeichen ein, die Taiwan Council of Agriculture-Schriftart (臺灣農委會常用中文外字集), die 84 Zeichen aus dem „Fisch“-Radikal und 7 aus dem „Vogel“-Radikal enthält .

Big5+

Die Chinese Foundation for Digitization Technology (中文數位化技術推廣委員會) führte 1997 Big5+ ein, das über 20000 Codepunkte verwendet, um alle CJK-Logogramme in Unicode 1.1 zu integrieren. Die zusätzlichen Codepunkte überstiegen jedoch die ursprüngliche Big-5-Definition (Big5+ verwendet High-Byte-Werte 81-FE und Low-Byte-Werte 40-7E und 80-FE), was eine Installation unter Microsoft Windows ohne neue Codepage-Dateien verhindert.

Big-5E

Um Windows-Benutzern die Verwendung benutzerdefinierter Schriftarten zu ermöglichen, führte die Chinese Foundation for Digitization Technology Big-5E ein, das 3954 Zeichen (in drei Blöcken von Codepunkten: 8E40-A0FE, 8140-86DF, 86E0-875C) hinzufügte und das japanische Kana aus . entfernte die ETEN-Erweiterung. Im Gegensatz zu Big-5+ erweitert Big5E Big-5 innerhalb seiner ursprünglichen Definition. Mac OS X 10.3 und höher unterstützt Big-5E in den Schriftarten LiHei Pro (儷黑 Pro.ttf) und LiSong Pro (儷宋 Pro.ttf).

Big5-2003

Die Chinesische Stiftung für Digitalisierungstechnologie hat eine Big5-Definition erstellt und in Notizform in CNS 11643 aufgenommen, wodurch sie zu einem Teil des offiziellen Standards in Taiwan wurde.

Big5-2003 enthält alle Big-5-Zeichen, die in den ETEN-Erweiterungen von 1984 eingeführt wurden (Codepunkte A3C0-A3E0, C6A1-C7F2 und F9D6-F9FE) und das Euro-Symbol. Kyrillische Zeichen wurden nicht aufgenommen, da die Behörde behauptete, CNS 11643 enthalte solche Zeichen nicht.

CDP

Die Academia Sinica hat Ende der 1990er Jahre eine chinesische Datenverarbeitungsschrift (漢字構形資料庫) entwickelt, die in der neuesten Version 2.5 112.533 Zeichen enthielt, einige weniger als die Mojikyo- Schriften.

HKSCS

Hongkong hat auch Big5 für die Zeichencodierung übernommen. Allerdings geschrieben Kantonesisch hat seine eigenen Zeichen nicht im normalen Big5 - Zeichensatz. Um dieses Problem zu lösen, hat die Hongkonger Regierung 1995 die Big5-Erweiterungen Government Chinese Character Set (GCCS) und 1999 den Hong Kong Supplementary Character Set erstellt . Die Hongkong-Erweiterungen wurden allgemein als Patch verteilt. Es wird immer noch als Patch von Microsoft verteilt, aber eine vollständige Unicode-Schrift ist auch auf der Website der Hongkonger Regierung erhältlich.

Es gibt zwei Kodierungsschemata von HKSCS: Ein Kodierungsschema ist für den Big-5-Kodierungsstandard und das andere für den ISO 10646- Standard. Nach der ersten Veröffentlichung gibt es auch HKSCS-2001 und HKSCS-2004. Das HKSCS-2004 ist technisch an der ISO/IEC 10646:2003 und deren im April 2004 von der International Organization for Standardization (ISO) veröffentlichten Amendment 1 angeglichen.

HKSCS enthält alle Zeichen der gemeinsamen ETEN-Erweiterung sowie einige Zeichen aus dem vereinfachten Chinesisch , Ortsnamen, Personennamen und kantonesische Ausdrücke (einschließlich Obszönitäten ).

Ab 2020 ist die neueste Ausgabe von HKSCS HKSCS-2016; Die letzte Ausgabe von HKSCS, die alle seine Zeichen in Big5 codierte, war jedoch HKSCS-2008, während die in neueren Ausgaben hinzugefügten Zeichen nur ISO 10646 / Unicode zugeordnet sind ( gegebenenfalls als horizontale Glyphenerweiterung von CJK Unified Ideographs ). Darüber hinaus ähnlich wie Hong Kong Situation gibt es auch Zeichen , die von Macao benötigt werden , ist aber weder in Big5 noch HKSCS enthalten, damit der Macao Ergänzungszeichensatz wurde entwickelt, mit Zeichen , die nicht in Big5 oder HKSCS gefunden; dies ist jedoch auch nicht in Big5 kodiert. Die erste Charge von 121 MSCS-Zeichen wurde 2009 zur Aufnahme in die Zuordnung zu Unicode eingereicht, und die erste endgültige Version von MSCS wurde 2020 erstellt.

Kana und Kyrillisch

Es gibt zwei große Big5-Erweiterungslayouts zum Kodieren von Kana , Russisch-Kyrillisch und Listenmarkierungen im Bereich 0xC6A1 bis 0xC875. Diese sind nicht miteinander kompatibel. Sie werden in der folgenden Tabelle verglichen.

Das ETEN-Layout von Kana und Kyrillisch wird auch von den Varianten HKSCS (einschließlich HTML5 ) und Unicode-At-On sowie von IBMs Version der Codepage 950 verwendet, und das ETEN-Layout von Kana (ohne Kyrillisch) wird ebenfalls verwendet von der Big5-2003-Variante verwendet. Die veröffentlichten Zuordnungsdateien für Windows-950 enthalten keines von beiden, und dieser Big5-Bereich wird von der Windows-950-Implementierung von International Components for Unicode dem Private Use Area zugeordnet . Die integrierte Codec-Implementierung von Python , die auf Nicht-Windows-Systemen verwendet wird oder wenn Codepage 950 nicht die aktive Windows-Codepage ist, verwendet das BIG5.TXT-Layout. Die klassische Mac OS- Version enthält keines der Layouts. cp950

Siehe auch

Verweise

Externe Links