Codepunkt - Code point

In der Zeichencodierungsterminologie ist ein Codepunkt oder eine Codeposition jeder der numerischen Werte, aus denen der Coderaum besteht . Viele Codepunkte stellen einzelne Zeichen dar, können aber auch andere Bedeutungen haben, beispielsweise für die Formatierung.

Zum Beispiel umfasst das Zeichencodierungsschema ASCII 128 Codepunkte im Bereich 0 hex bis 7F hex , Extended ASCII umfasst 256 Codepunkte im Bereich 0 hex bis FF hex und Unicode umfasst 1.114.112 Codepunkte im Bereich 0 hex bis 10FFFF hex . Der Unicode-Coderaum ist in siebzehn Ebenen (die grundlegende mehrsprachige Ebene und 16 ergänzende Ebenen) mit jeweils 65.536 (= 2 16 ) Codepunkten unterteilt. Somit beträgt die Gesamtgröße des Unicode-Coderaums 17 × 65.536 = 1.114.112.

Definition

Der Begriff eines Codepunktes wird zur Abstraktion verwendet, um beides zu unterscheiden:

  • die Zahl aus einer Kodierung als Folge von Bits und
  • das abstrakte Zeichen aus einer bestimmten grafischen Darstellung ( Glyphe ).

Dies liegt daran, dass man diese Unterscheidungen treffen möchte zu:

  • einen bestimmten Coderaum auf unterschiedliche Weise codieren, oder
  • ein Zeichen über verschiedene Glyphen anzeigen.

Bei Unicode wird die bestimmte Bitfolge als Codeeinheit bezeichnet – bei der UCS-4- Kodierung wird jeder Codepunkt als 4- Byte- ( Oktett- ) Binärzahl kodiert , während bei der UTF-8- Kodierung verschiedene Codepunkte kodiert werden als Sequenzen von ein bis vier Bytes lang, die einen selbstsynchronisierenden Code bilden . Siehe Vergleich der Unicode-Codierungen für Details. Codepunkte werden normalerweise abstrakten Zeichen zugewiesen . Ein abstraktes Zeichen ist keine grafische Glyphe, sondern eine Textdateneinheit. Codepunkte können jedoch auch für zukünftige Zuweisungen reserviert bleiben (der größte Teil des Unicode-Coderaums ist nicht zugewiesen) oder andere bestimmte Funktionen erhalten.

Der Unterschied zwischen einem Codepunkt und dem entsprechenden abstrakten Zeichen wird in Unicode nicht ausgesprochen, ist aber für viele andere Codierungsschemata offensichtlich, bei denen für einen einzelnen Coderaum zahlreiche Codepages existieren können.

Geschichte

Das Konzept eines Codepunkts ist Teil der Lösung von Unicode für ein schwieriges Rätsel, mit dem Entwickler von Zeichenkodierungen in den 1980er Jahren konfrontiert waren. Wenn sie mehr Bits pro Zeichen hinzufügen würden, um größere Zeichensätze zu berücksichtigen, würde diese Designentscheidung auch eine inakzeptable Verschwendung von damals knappen Computerressourcen für die Benutzer der lateinischen Schrift darstellen (die damals die überwiegende Mehrheit der Computerbenutzer ausmachten), da diese zusätzlichen Bits bit würde für solche Benutzer immer auf Null gesetzt. Der Codepunkt vermeidet dieses Problem, indem er die alte Idee einer direkten Eins-zu-Eins-Entsprechung zwischen Zeichen und bestimmten Bitfolgen bricht.

Siehe auch

Verweise

Externe Links