Vorgefertigter Charakter - Precomposed character

Ein vorkomponiertes Zeichen (alternativ zusammengesetztes Zeichen oder zerlegbares Zeichen ) ist eine Unicode- Entität, die auch als Folge eines oder mehrerer anderer Zeichen definiert werden kann. Ein vorkomponiertes Zeichen kann typischerweise einen Buchstaben mit einem diakritischen Zeichen darstellen , wie z. B. é (lateinischer Kleinbuchstabe e mit akutem Akzent ). Technisch gesehen ist é (U+00E9) ein Zeichen, das in eine äquivalente Zeichenfolge des Basisbuchstabens e (U+0065) zerlegt werden kann und den akuten Akzent (U+0301) kombiniert . Ebenso sind Ligaturen Vorkompositionen ihrer konstituierenden Buchstaben oder Grapheme .

Vorgefertigte Zeichen sind die Legacy-Lösung für die Darstellung vieler Sonderbuchstaben in verschiedenen Zeichensätzen . In Unicode sind sie in erster Linie enthalten, um Computersystemen mit unvollständiger Unicode-Unterstützung zu helfen, bei denen äquivalente zerlegte Zeichen falsch wiedergegeben werden können.

Vergleich von vorkomponierten und zerlegten Zeichen

Im folgenden Beispiel gibt es einen gemeinsamen schwedischen Nachnamen Åström, der in den beiden alternativen Methoden geschrieben wird, der erste mit einem vorkomponierten Å (U+00C5) und ö (U+00F6) und der zweite mit einem zerlegten Basisbuchstaben A ( U+0041) mit einem kombinierenden Ring oben (U+030A) und einem o (U+006F) mit einer kombinierenden Diaerese (U+0308).

  1. Å str ö m (U+00C5U+0073 U+0074 U+0072U+00F6U+006D)
  2. ström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Abgesehen von den unterschiedlichen Farben sind die beiden Lösungen gleichwertig und sollten identisch wiedergegeben werden. In der Praxis haben einige Unicode-Implementierungen jedoch immer noch Schwierigkeiten mit zerlegten Zeichen. Im schlimmsten Fall werden kombinierte diakritische Zeichen ignoriert oder als unerkannte Zeichen nach ihren Grundbuchstaben wiedergegeben, da sie nicht in allen Schriftarten enthalten sind . Um die Probleme zu überwinden, versuchen einige Anwendungen möglicherweise einfach, die zerlegten Zeichen durch die entsprechenden vorzusammengesetzten Zeichen zu ersetzen.

Bei einer unvollständigen Schriftart können jedoch auch vorkomponierte Zeichen problematisch sein – insbesondere wenn sie exotischer sind, wie im folgenden Beispiel (das das rekonstruierte proto-indoeuropäische Wort für "Hund" zeigt):

  1. Kuo n (U + U + 1E31 1E77 1E53 U +U + 006E)
  2. n (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

In einigen Situationen können die vorkomponierten grünen k , u und o mit diakritischen Zeichen als unerkannte Zeichen wiedergegeben werden , oder ihr typografisches Erscheinungsbild kann sich stark vom letzten Buchstaben n ohne diakritischen Zeichen unterscheiden. In der zweiten Zeile sollten die Grundbuchstaben zumindest korrekt wiedergegeben werden, auch wenn die verbindenden diakritischen Zeichen nicht erkannt werden konnten.

OpenType hat das ccmp- "Feature-Tag", um Glyphen zu definieren, die Kompositionen oder Zerlegungen sind, bei denen Zeichen kombiniert werden.

chinesische Charaktere

Theoretisch könnten die meisten chinesischen Zeichen, wie sie durch die Han-Vereinigung und ähnliche Schemata kodiert wurden, als vorkomponierte Zeichen behandelt werden, da sie mit chinesischen Zeichenbeschreibungssprachen auf ihre konstituierenden Striche und ideographischen Beschreibungen reduziert (zerlegt) werden können . Ein solcher Ansatz könnte die Anzahl der Zeichen im Zeichensatz von Zehntausenden auf wenige Hundert reduzieren. Andererseits würde ein derart stark zerlegter Zeichensatz Herausforderungen für die Such- und Bearbeitungssoftware mit sich bringen und mehr Codierungsbytes pro Dokument erfordern.

Siehe auch

Quellen

Externe Links