Vietnamesische Sprache und Computer - Vietnamese language and computers

Die vietnamesische Sprache wird in lateinischer Schrift mit diakritischen Zeichen geschrieben, die beim Tippen auf Telefon oder Computer mehrere Anpassungen erfordert. Softwarebasierte Systeme sind die beliebteste Form, Vietnamesisch zu schreiben. Telex ist die älteste Eingabemethode, die entwickelt wurde, um die vietnamesische Sprache zu codieren, und wird oft als Standard auf virtuellen Tastaturen auf Telefonen und Touchscreen-Geräten eingestellt. Andere Eingabemethoden können auch VNI und VIQR umfassen , die mehr für physische PCs oder Laptops geeignet sind.

Die VNI-Eingabemethode ist nicht mit der VNI-Codepage zu verwechseln.

Historisch wurde Vietnamesisch auch in chữ Nôm geschrieben , das heute für zeremonielle und traditionelle Zwecke verwendet wird und im Bereich der Historiker und Philologen bleibt .

Schriftarten und Zeichenkodierungen

Vietnamesisches Alphabet

Es ist üblich, dass zwei diakritische Zeichen auf einem einzigen vietnamesischen Vokal platziert werden. Einige Schriftarten stapeln diese diakritischen Zeichen, während andere die Tonmarkierung versetzen.

Es gibt bis zu 46 Zeichenkodierungen für die Darstellung des vietnamesischen Alphabets . Unicode ist aufgrund seiner hervorragenden Kompatibilität und Softwareunterstützung zur beliebtesten Form für viele Schreibsysteme der Welt geworden. Diakritische Zeichen können entweder als Kombinationszeichen oder als vorkomponierte Zeichen codiert werden , die zwischen den Blöcken Latin Extended-A , Latin Extended-B und Latin Extended Additional verstreut sind. Das vietnamesische đồng- Symbol ist im Währungssymbolblock codiert . Historisch gesehen verwendete die vietnamesische Sprache andere Zeichen als das moderne Alphabet. Das Mittel Vietnamesisch Brief B mit gedeihen (ꞗ) in dem im Lieferumfang enthaltenen Latin Extended-D - Block. Der Apex ist in Unicode nicht enthalten, aber U+1DC4 ◌᷄ COMBINING MACRON-ACUTE kann als grobe Näherung dienen.

Frühe Versionen von Unicode haben die Zeichen U+0340 ◌̀ COMBINING GRAVE TONE MARK und U+0341 ◌́ COMBINING ACUTE TONE MARK zugewiesen , um diese Zeichen neben einem Zirkumflex zu platzieren, wie es in der vietnamesischen Typografie üblich ist. Diese beiden Zeichen sind veraltet; U + 0301 COMBINING ACUTE ACCENT und U + 0300 GRAB ACCENT COMBINING nun verwendet werden , unabhängig von einer gegenwärtigen Zirkumflex.

Für Systeme, die Unicode nicht unterstützen, wurden Dutzende von vietnamesischen 8-Bit- Codepages entwickelt. Die am häufigsten verwendeten von ihnen waren VISCII , VSCII (TCVN 5712:1993), VNI , VPS und Windows-1258 . Wenn ASCII erforderlich ist, beispielsweise wenn die Lesbarkeit in Klartext-E-Mails sichergestellt wird, werden vietnamesische Buchstaben häufig nach Vietnamese Quoted-Readable (VIQR) oder VSCII- Mnemonic (VSCII-MNEM) codiert, obwohl die Verwendung von beiden Schemata mit variabler Breite zurückgegangen ist dramatisch nach der Einführung von Unicode im World Wide Web . Zum Beispiel wurde die Unterstützung für alle oben genannten 8-Bit-Codierungen mit Ausnahme von Windows-1258 von der Mozilla- Software im Jahr 2014 eingestellt.

Viele vietnamesische Schriftarten für Desktop-Publishing sind in VNI oder TCVN3 ( VSCII ) kodiert . Solche Schriftarten werden als "ABC-Schriften" bezeichnet. Beliebte Webbrowser unterstützen keine speziellen vietnamesischen Kodierungen, sodass jede Webseite, die diese Schriftarten verwendet, auf Systemen ohne sie als unverständliches Mojibake angezeigt wird.

Rechts ein í , das seinen Titel behält .

Vietnamesisch stapelt häufig diakritische Zeichen, daher müssen Schriftdesigner darauf achten, dass gestapelte diakritische Zeichen nicht mit benachbarten Buchstaben oder Zeilen kollidieren. Wenn ein Tonzeichen zusammen mit einem anderen diakritischen Zeichen verwendet wird, bewahrt das Versetzen des Tonzeichens nach rechts die Konsistenz und vermeidet eine Verlangsamung der Sakkaden . In Werbeschildern und in kursiver Handschrift nehmen diakritische Zeichen oft Formen an, die anderen lateinischen Alphabeten fremd sind. Zum Beispiel behält der Kleinbuchstabe I seinen Titel in ì , , ĩ und í bei . Diese Nuancen werden in Computerumgebungen selten berücksichtigt.

Ansätze

Vietnamesische Schrift erfordert 134 zusätzliche Buchstaben (zwischen beiden Fällen) neben den 52, die bereits in ASCII vorhanden sind. Dies übersteigt die 128 zusätzlichen Zeichen, die in einer herkömmlichen erweiterten ASCII- Kodierung verfügbar sind . Obwohl dies durch die Verwendung einer Codierung mit variabler Breite gelöst werden kann (wie bei UTF-8 ), wurden eine Reihe von Ansätzen von anderen Codierungen verwendet, um Vietnamesisch zu unterstützen, ohne dies zu tun:

  • Ersetzen Sie mindestens sechs ASCII-Zeichen, die entweder in Vietnamesisch ungewöhnlich und/oder in ISO 646 oder DEC NRCS (wie in VNI für DOS ) nicht invariant sind .
  • Lassen Sie die am seltensten verwendeten Großbuchstaben oder alle Großbuchstaben mit Tonmarkierungen (wie in VSCII-3 (TCVN3)) weg. Diese Buchstaben können weiterhin in Großbuchstaben geliefert werden.
  • Lassen Sie Formen des Buchstabens Y mit Tonzeichen fallen, was die Verwendung des Buchstabens I unter diesen Umständen erforderlich macht . Dieser Ansatz wurde von den Designern von VISCII mit der Begründung abgelehnt, dass eine Zeichencodierung nicht versuchen sollte, ein Problem der Rechtschreibreform zu lösen.
  • Ersetzen Sie mindestens sechs C0-Steuerzeichen (wie in VISCII , VSCII-1 (TCVN1) und VPS ).
  • Verwenden Sie Kombinationszeichen, damit ein Vokal mit Akzenten vollständig durch eine Zeichenfolge dargestellt werden kann (wie in VNI , VSCII-2 (TCVN2), Windows-1258 und ANSEL ).

Chữ Nom

𬖾
Das nôm- Zeichen für phở .

Unicode umfasst über 10.000 nôm- Zeichen als Teil des Unicode-Repertoires an CJK Unified Ideographs . Von diesen Zeichen befinden sich 10.082 im Block CJK Unified Ideographs Extension B , während der Rest auf die Blöcke CJK Unified Ideographs , CJK Unified Ideographs Extension A und CJK Unified Ideographs Extension C verteilt ist . Weitere 1.028 Zeichen, darunter über 400 spezifische Zeichen für die Tày-Sprache , sind im CJK Unified Ideographs Extension E- Block codiert . Die Zeichen sind den vietnamesischen Standards TCVN 5773:1993 und TCVN 6909:2001 [Fehler für TCVN 6056:1995?] sowie aus Recherchen des Han-Nom Research Institute und anderer Gruppen entnommen. Alle Zeichen in TCVN 5773:1993 und etwa 95 % der Zeichen in TCVN 6909:2001 [Fehler für TCVN 6056:1995?] haben entsprechende Codepunkte in Unicode 5.1, obwohl TCVN 5773:1993 selbst die meisten seiner Zeichen dem Private zugeordnet hat Verwenden Sie den Unicode-Bereich. Unicode 13.0 fügte dem Block Ideographische Symbole und Satzzeichen zwei diakritische Zeichen hinzu , die üblicherweise verwendet wurden, um entlehnte Zeichen in chữ Nôm anzuzeigen .

Die beiden umfassendsten nôm Fonts sind die Vietnamese nom Preservation Foundation ‚s nom Na tong Licht und die Community entwickelten HAN NOM A / HAN NOM B , die beide eine große Anzahl von nicht standardisierten Zeichen in dem Platz für privaten Gebrauch Bereiche .

Die Unihan- Datenbank des Unicode-Konsortiums enthält vietnamesische Lesarten einiger Zeichen, unterscheidet jedoch nicht zwischen chinesisch-vietnamesischen und nôm- Lesungen.

Wie andere CJKV-Schriftsysteme wird chữ Nôm traditionell vertikal von oben nach unten und von rechts nach links geschrieben.

Chữ Hán und chữ nom auch kommentiert werden können unter Verwendung von Rubin Zeichen , das ist die gleiche wie chữ Quốc ngữ für Vietnamesen.

Text Eingabe

Eine rein physische vietnamesische Tastatur wäre unpraktisch, aufgrund der schieren Zahl von Buchstaben-diakritischen-diakritischen Kombinationen im Alphabet zB á, à, ả, ã, ạ, â, ấ usw. Stattdessen stützt sich die vietnamesische Eingabe auf formelhafte softwarebasierte Tastaturlayouts, virtuelle Tastaturen oder Eingabemethoden (auch als IMEs bekannt).

Tastaturlayouts

Microsoft Windows enthält ein vietnamesisches Tastaturlayout basierend auf TCVN 6064:1995.
AZERTY-basierte vietnamesische Schreibmaschinen-Tastaturlayout

Vietnamesische Tastaturlayouts verlassen sich auf tote Tasten , um Buchstaben mit diakritischen Zeichen zu schreiben. Die meisten Desktop-Betriebssysteme enthalten ein vietnamesisches Tastaturlayout ähnlich dem TCVN 6064:1995  [ vi ] , einem vietnamesischen nationalen Standard. Früher verwendeten Schreibmaschinen ein AZERTY-basiertes vietnamesisches Layout.

Eingabemethoden

xvnkb, ein IME, der mit dem X Input Method Framework auf Unix-Systemen kompatibel ist, unterstützt die Ausgabe in sechs Zeichenkodierungen.

Die drei häufigsten vietnamesischen Eingabemethoden sind Telex , VNI und VIQR . Telex kennzeichnet diakritische Zeichen mit Buchstaben, die am Ende eines Wortes wahrscheinlich nicht vorkommen, während VNI die Zifferntasten oder Funktionstasten umfunktioniert und VIQR verschiedene Satzzeichen umfunktioniert. Die Telex- und VIQR-Konventionen stammen aus einer früheren Ära von Telex- Maschinen bzw. Schreibmaschinen.

Unterstützung für diese Eingabemethoden bieten Eingabemethoden-Editoren (IMEs), die auf Vietnamesisch als bộ gõ bekannt sind , wörtlich "Peckers" oder "Percussion" im Allgemeinen. IMEs können vom Betriebssystem bereitgestellt, als Drittanbieteranwendung installiert, als Browsererweiterung installiert oder von einer einzelnen Website in Form eines Skripts bereitgestellt werden . Zu den gängigen Anwendungen von Drittanbietern gehören GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey und xvnkb. Auf Unix-ähnlichen Betriebssystemen unterstützen die IBus- und SCIM- Frameworks beide Vietnamesisch. IME-Skripte wie AVIM, Mudim und VietTyping sind in den meisten vietnamesischen Message Boards , der vietnamesischen Wikipedia und anderen textintensiven Websites zu finden. Der vietnamesische Webbrowser Cốc Cốc verfügt über eine integrierte Eingabemethode.

Eingabemethoden ermöglichen es, Wörter in einer flexibleren Reihenfolge zu erstellen, als es die Tastaturlayouts erlauben. Um beispielsweise das Wort „ viết “ mit dem Tastaturlayout TCVN 6064:1995 einzugeben, muss VI38Tman in dieser Reihenfolge eingeben . Im Gegensatz dazu erlauben die meisten IMEs dem Benutzer, diakritische Zeichen am Ende des Wortes einzufügen: VIEETSim Telex, VIET61im VNI oder VIET^'im VIQR. Einige IMEs erlauben sogar die Eingabe von diakritischen Zeichen vor ihren Grundbuchstaben. Abhängig von der Implementierung eines IME kann es auch möglich sein, die diakritischen Zeichen eines vorhandenen Wortes zu bearbeiten, ohne das Wort erneut einzugeben.

In Anlehnung an eine bei chinesischen Eingabemethoden übliche Funktion erlauben es einige vietnamesische IMEs, diakritische Zeichen vollständig zu überspringen, und stattdessen kann der Benutzer nach der Eingabe der Grundbuchstaben das Wort mit Akzent aus einer Kandidatenliste auswählen. Um diese Autovervollständigungsliste bereitzustellen , muss der IME möglicherweise mit einem Webdienst kommunizieren . Einige IMEs verwenden auch Kandidatenlisten, um dem Benutzer zu ermöglichen, Text aus dem vietnamesischen Alphabet in chữ Nôm umzuwandeln , da es keine Eins-zu-eins-Entsprechung zwischen alphabetischen Wörtern und nôm- Zeichen gibt.

Andere Überlegungen

Typischer vietnamesischer Text enthält einen hohen Anteil zusammengesetzter Wörter. Zusammengesetzte Wörter werden im heutigen Sprachgebrauch nie getrennt, sodass die Rechtschreibprüfung auf die Prüfung einzelner Silben beschränkt ist, es sei denn, es wird ein statistisches Sprachmodell herangezogen.

Vietnamesisch hat strenge Rechtschreibregeln und wenige Ausnahmen, so dass Text-to-Speech-Engines Wörterbuch-Suchen vermeiden können, außer wenn ein ausländisches Lehnwort gefunden wird. TTS-Engines müssen Töne berücksichtigen , die für die Bedeutung jedes vietnamesischen Wortes wesentlich sind, zB má (Mutter) ist ein anderes Wort als mà (aber).

Siehe auch

Verweise

Weiterlesen

Externe Links