ISO/IEC 8859 - ISO/IEC 8859
Standard | ISO/IEC 8859 |
---|---|
Einstufung | 8-Bit erweitertes ASCII , ISO 4873 Level 1 |
Erweitert | US-ASCII |
Vorangestellt | ISO 646 |
gefolgt von | ISO/IEC 10646 ( Unicode ) |
Andere verwandte Codierung(en) | ISO/IEC 10367 , Windows-125x |
ISO/IEC 8859 ist eine gemeinsame Normenreihe von ISO und IEC für 8-Bit- Zeichenkodierungen . Die Normenreihe besteht aus nummerierten Teilen wie ISO/IEC 8859-1 , ISO/IEC 8859-2 usw. Es gibt 15 Teile, mit Ausnahme der aufgegebenen ISO/IEC 8859-12 . Die ISO-Arbeitsgruppe, die diese Normenreihe pflegt, wurde aufgelöst.
ISO/IEC 8859, Teile 1, 2, 3 und 4, waren ursprünglich der internationale Ecma- Standard ECMA-94 .
Einführung
Während die Bitmuster der 95 druckbaren ASCII- Zeichen ausreichen, um Informationen im modernen Englisch auszutauschen , benötigen die meisten anderen Sprachen, die lateinische Alphabete verwenden, zusätzliche Symbole, die nicht von ASCII abgedeckt werden. ISO/IEC 8859 versuchte, dieses Problem zu beheben, indem das achte Bit in einem 8-Bit- Byte verwendet wurde , um Positionen für weitere 96 druckbare Zeichen zu ermöglichen. Frühe Codierungen waren aufgrund von Einschränkungen einiger Datenübertragungsprotokolle und teilweise aus historischen Gründen auf 7 Bit beschränkt. Es wurden jedoch mehr Zeichen benötigt, als in eine einzelne 8-Bit-Zeichencodierung passen konnten, und so wurden mehrere Zuordnungen entwickelt, darunter mindestens zehn, die für verschiedene lateinische Alphabete geeignet sind.
Die Normteile der ISO/IEC 8859 definieren nur druckbare Zeichen, unterscheiden jedoch die Byte-Bereiche 0x00–1F und 0x7F–9F explizit als „Kombinationen, die keine grafischen Zeichen darstellen“ (dh die für die Verwendung als Steuerzeichen reserviert sind ) gemäß mit ISO/IEC 4873 ; sie wurden entwickelt, um in Verbindung mit einem separaten Standard verwendet zu werden, der die mit diesen Bytes verbundenen Steuerfunktionen definiert, wie z. B. ISO 6429 oder ISO 6630 . Zu diesem Zweck fügt eine Reihe von Kodierungen, die bei der IANA registriert sind , den C0- Kontrollsatz (auf die Bytes 0 bis 31 abgebildete Steuerzeichen) von ISO 646 und den C1- Kontrollsatz (auf die Bytes 128 bis 159) abgebildete Kontrollsatz von ISO 6429 hinzu, was zu vollständige 8-Bit-Zeichentabellen mit den meisten, wenn nicht allen, zugewiesenen Bytes. Diese Sets haben ISO-8859- n als bevorzugten MIME- Namen oder, falls kein bevorzugter MIME-Name angegeben ist, ihren kanonischen Namen. Viele Leute verwenden die Begriffe ISO/IEC 8859- n und ISO-8859- n synonym. ISO/IEC 8859-11 hat einen solchen Zeichensatz nicht zugewiesen bekommen, vermutlich weil er fast identisch mit TIS 620 war .
Zeichen
Der ISO/IEC 8859-Standard ist auf den zuverlässigen Informationsaustausch ausgelegt, nicht auf Typografie ; der Standard verzichtet auf Symbole, die für eine hochwertige Typografie erforderlich sind, wie optionale Ligaturen, geschweifte Anführungszeichen, Bindestriche usw. Daher verwenden hochwertige Satzsysteme häufig proprietäre oder idiosynkratische Erweiterungen zusätzlich zu den Standards ASCII und ISO/IEC 8859 , oder verwenden Sie stattdessen Unicode .
Eine ungenaue Regel aus der Praxis besagt, dass ein Zeichen oder Symbol, wenn es nicht bereits Teil eines weit verbreiteten datenverarbeitenden Zeichensatzes war und auch auf Schreibmaschinentastaturen für eine Landessprache üblicherweise nicht vorgesehen war, nicht hineinkam. Daher die Richtungs doppelte Anführungszeichen « und », die für einige europäische Sprachen verwendet werden, wurden aufgenommen, aber nicht die direktionalen doppelten Anführungszeichen " und ", die für Englisch und einige andere Sprachen verwendet werden.
Französisch hat seine œ- und Œ- Ligaturen nicht erhalten, weil sie als 'oe' eingegeben werden konnten. Ebenso wurde Ÿ , das für Text in Großbuchstaben benötigt wird , ebenfalls weggelassen . Wenn auch unter anderen Codepunkten, wurden diese drei Zeichen später mit der ISO/IEC 8859-15 im Jahr 1999 wieder eingeführt, die auch das neue Eurozeichen-Zeichen € einführte . Ebenso hat die Holländer nicht bekommen ij und ij Briefe, weil niederländische Sprecher diese als zwei Buchstaben eingeben , anstatt werden benutzt hatte.
Rumänisch erhielt seine Buchstaben Ș / ș und Ț / ț ( mit Komma ) zunächst nicht, da diese Buchstaben ursprünglich vom Unicode-Konsortium mit Ş / ş und Ţ / ţ ( mit Cedille ) vereinigt wurden , wobei die Formen mit Komma darunter als Glyphenvarianten der Formen mit Cedille. Die Buchstaben mit explizitem Komma unten wurden jedoch später dem Unicode-Standard hinzugefügt und sind auch in ISO/IEC 8859-16 enthalten .
Die meisten der ISO/IEC 8859-Kodierungen bieten diakritische Zeichen, die für verschiedene europäische Sprachen mit lateinischer Schrift erforderlich sind. Andere bieten nicht-lateinische Alphabete: Griechisch , Kyrillisch , Hebräisch , Arabisch und Thai . Die meisten Codierungen enthalten nur Leerzeichen , obwohl die thailändischen, hebräischen und arabischen auch Kombinationszeichen enthalten .
Die Schriften ostasiatischer Sprachen ( CJK ) sind im Standard nicht vorgesehen , da deren ideografische Schriftsysteme viele tausend Codepunkte benötigen. Obwohl es lateinische Zeichen verwendet, passt Vietnamesisch auch nicht in 96 Positionen (ohne kombinierte diakritische Zeichen wie in Windows-1258 zu verwenden ). Jedes japanische Silbenalphabet (Hiragana oder Katakana, siehe Kana ) würde passen, wie in JIS X 0201 , aber wie einige andere Alphabete der Welt sind sie nicht im ISO/IEC 8859-System kodiert.
Die Teile von ISO/IEC 8859
ISO/IEC 8859 gliedert sich in folgende Teile:
Teil | Name | Überarbeitungen | Andere Normen | Beschreibung |
---|---|---|---|---|
Teil 1 |
Latein-1 Westeuropäisch |
1987 , 1998 | ECMA-94 ( 1985 , 1986) | Vielleicht der am weitesten verbreitete Teil von ISO/IEC 8859, der die meisten westeuropäischen Sprachen abdeckt: Dänisch (teilweise), Niederländisch (teilweise), Englisch , Färöisch , Finnisch (teilweise), Französisch (teilweise), Deutsch , Isländisch , Irisch , Italienisch , Norwegisch , Portugiesisch , Rätoromanisch , Schottisch-Gälisch , Spanisch , Katalanisch und Schwedisch . Auch Sprachen aus anderen Teilen der Welt werden abgedeckt, darunter: Osteuropäisches Albanisch , Südostasiatisches Indonesisch sowie die afrikanischen Sprachen Afrikaans und Swahili .
Eine Modifikation von DEC MCS ; der ersten (1985) Standardversion auf ECMA-Ebene fehlten das Zeitzeichen und der Divisions-Obelus , die im nächsten Jahr hinzugefügt wurden. Das fehlende Eurozeichen und Großbuchstabe Ÿ befinden sich in der überarbeiteten Version ISO/IEC 8859-15 (siehe unten). Der entsprechende IANA-Zeichensatz ist ISO-8859-1. |
Teil 2 |
Latein-2 Mitteleuropäisch |
1987 , 1999 | ECMA-94 (1986) | Unterstützt die mittel- und osteuropäischen Sprachen, die das lateinische Alphabet verwenden, einschließlich Bosnisch , Polnisch , Kroatisch , Tschechisch , Slowakisch , Slowenisch , Serbisch und Ungarisch . Das fehlende Eurozeichen ist in der Version ISO/IEC 8859-16 zu finden. |
Teil 3 |
Latein-3 Südeuropäisch |
1988 , 1999 | Türkisch , Maltesisch und Esperanto . Weitgehend ersetzt durch ISO/IEC 8859-9 für Türkisch. | |
Teil 4 |
Latein-4 Nordeuropäisch |
1988 , 1998 | Estnisch , Lettisch , Litauisch , Grönländisch und Samisch . | |
Teil 5 | Latein/Kyrillisch | 1988 , 1999 | ECMA-113 (1988, 1999) | Deckt hauptsächlich slawische Sprachen ab, die ein kyrillisches Alphabet verwenden , einschließlich Weißrussisch , Bulgarisch , Mazedonisch , Russisch , Serbisch und Ukrainisch (teilweise). |
Teil 6 | Latein/Arabisch | 1987 , 1999 | ASMO 708 (1986) / ECMA-114 (1986, 2000) | Deckt die gebräuchlichsten arabischen Zeichen ab. Unterstützt keine anderen Sprachen, die die arabische Schrift verwenden . Muss für die Anzeige in BiDi und kursiver Verbindung verarbeitet werden. |
Teil 7 | Latein/Griechisch | 1987 , 2003 | ELOT 928 (1986) / ECMA-118 (1986) | Deckt die neugriechische Sprache ab ( monotone Orthographie ). Kann auch für die Antike verwendet werden , Griechisch geschrieben , ohne Akzente oder in monotoner Orthographie, aber es fehlt die diakritischen Zeichen für polytonisches Orthographie . Diese wurden mit Unicode eingeführt. Aktualisiert 2003 , um das Eurozeichen , das Drachmenzeichen und das Abstandsypogegrammeni hinzuzufügen . |
Teil 8 | Latein/Hebräisch | 1988 , 1999 | ECMA-121 (1987, 2000) / SI 1311 ( 2002 ) | Deckt das moderne hebräische Alphabet ab, wie es in Israel verwendet wird. In der Praxis existieren zwei verschiedene Codierungen, logische Reihenfolge (muss für die Anzeige BiDi- verarbeitet werden) und visuelle (von links nach rechts) Reihenfolge ( tatsächlich nach Bidi-Verarbeitung und Zeilenumbruch). 1999 aktualisiert, um LRM und RLM hinzuzufügen . 2002 auf nationaler Standardebene aktualisiert, um Euro- und Schekelzeichen und mehr bidirektionale Formateffektoren hinzuzufügen; die Ergänzungen von 2002 wurden nie wieder in die ISO-Standardversion eingearbeitet. |
Teil 9 |
Latein-5 Türkisch |
1989 , 1999 | ECMA-128 (1988, 1999) | Weitgehend identisch mit ISO/IEC 8859-1, wobei die selten verwendeten isländischen Buchstaben durch türkische ersetzt werden. |
Teil 10 |
Latein-6 Nordisch |
1992 , 1998 | ECMA-144 (1990, 1992, 2000) | Eine Neuordnung von Latin-4. Wird für nordische Sprachen als nützlicher erachtet. Baltische Sprachen verwenden Latein-4 mehr. |
Teil 11 | Latein/Thai | 2001 | TIS-620 (1986, 1990) | Enthält Zeichen, die für die thailändische Sprache benötigt werden . Die erste Revision wurde 1986 auf nationaler Standardebene als TIS 620 erstellt . 2001 als Teil von ISO 8859 in den ISO-Standardstatus erhoben, mit einem geschützten Leerzeichen . |
|
Latein/Devanagari | N / A | - | Die Arbeit zur Herstellung eines Teils von 8859 für Devanagari wurde 1997 offiziell eingestellt. ISCII und Unicode/ISO/IEC 10646 decken Devanagari ab. |
Teil 13 |
Latin-7 Baltic Rim |
1998 | - | Einige Zeichen für baltische Sprachen hinzugefügt, die in Latin-4 und Latin-6 fehlten. Bezieht sich auf das früher veröffentlichte Windows-1257 . |
Teil 14 |
Latein-8 Keltisch |
1998 | - | Deckt keltische Sprachen wie Gälisch und Bretonisch ab . Walisische Buchstaben entsprechen der früheren (1994) ISO-IR-182 . |
Teil 15 | Latein-9 | 1999 | - | Eine Überarbeitung von 8859-1, die einige selten verwendete Symbole entfernt und sie durch das Eurozeichen € und die Buchstaben Š , š , Ž , ž , Œ , œ und Ÿ ersetzt , was die Abdeckung des Französischen , Finnischen und Estnischen vervollständigt . |
Teil 16 |
Latein-10 Südosteuropäisch |
2001 | SR 14111 (1998) | Vorgesehen für Albanisch , Kroatisch , Ungarisch , Italienisch , Polnisch , Rumänisch und Slowenisch , aber auch Finnisch, Französisch, Deutsch und Irisch-Gälisch (neue Rechtschreibung). Der Fokus liegt mehr auf Buchstaben als auf Symbolen. Das Währungszeichen wird durch das Eurozeichen ersetzt . |
Jeder Teil von ISO/IEC 8859 wurde entwickelt, um Sprachen zu unterstützen, die sich oft voneinander entlehnen, sodass die von jeder Sprache benötigten Zeichen normalerweise in einem einzigen Teil untergebracht werden. Es gibt jedoch einige Zeichen und Sprachkombinationen, die ohne Transkriptionen nicht berücksichtigt werden. Es wurde versucht, die Umstellung so reibungslos wie möglich zu gestalten. Zum Beispiel hat das Deutsche in allen lateinischen Varianten (1–4, 9, 10, 13–16) alle seine sieben Sonderzeichen an den gleichen Stellen, und an vielen Stellen unterscheiden sich die Zeichen nur in den diakritischen Zeichen zwischen den Sätzen. Insbesondere die Varianten 1–4 wurden gemeinsam entwickelt und haben die Eigenschaft, dass jedes codierte Zeichen entweder an einer bestimmten Stelle oder gar nicht vorkommt.
Tisch
Binär | Okt | Dezember | Verhexen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | fünfzehn | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Geschützter Raum (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | Ich | EIN | H | EIN | Ё | ' | Ich | EIN | ก | ” | B | Ich | EIN | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ÿ | Ђ | ' | ¢ | ¢ | Ē | ข | ¢ | B | ¢ | ein | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | R | Ѓ | £ | G | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | ICH | ค | ¤ | C | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | ICH | Ѕ | ₯ | ¥ | ICH | ฅ | „ | C | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | | | S | H | Ļ | І | | | Ķ | ฆ | | | D | S | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ö | W | S | ||||||||
1010 1001 | 251 | 169 | A9 | © | S | ICH | S | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | S | Ē | Њ | ͺ | × | ª | S | ช | R | W | ª | S | |||
1010 1011 | 253 | 171 | AB | « | T | G | G | Ћ | « | T | ซ | « | D | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | J | T | Ќ | Ich | ¬ | Ž | ฌ | ¬ | ÿ | ¬ | Ź | |||
1010 1101 | 255 | 173 | ANZEIGE | Weicher Bindestrich (SHY) | ญ | SCHÜCHTERN | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | Ÿ | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | Ich | ¯ | N | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | F | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | ein | h | ein | Б | ± | ein | ฑ | ± | F | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ç | ฒ | ² | G | ² | C | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | R | Г | ³ | g | ณ | ³ | g | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | ich | ด | “ | M | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | ich | Е | ΅ | µ | ich | ต | µ | m | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | S | h | ï | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | P | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ï | ธ | Ö | W | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | S | ich | S | Й | Ή | ¹ | đ | น | ¹ | P | ¹ | C | |||
1011 1010 | 272 | 186 | BA | º | S | ç | К | Ί | ÷ | º | S | บ | R | W | º | S | |||
1011 1011 | 273 | 187 | BB | » | T | g | g | Л | Ich | » | T | ป | » | S | » | ||||
1011 1100 | 274 | 188 | BC | ¼ | Ÿ | J | T | М | Ό | ¼ | ž | ผ | ¼ | ÿ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | N | Н | ½ | Ich | ฝ | ½ | W | œ | |||||
1011 1110 | 276 | 190 | SEIN | ¾ | ž | ž | О | Ύ | ¾ | û | พ | ¾ | W | Ÿ | |||||
1011 1111 | 277 | 191 | BF | Ich | ż | n | П | Ich | Ώ | Ich | n | ฟ | æ | S | Ich | ż | |||
1100 0000 | 300 | 192 | C0 | EIN | R | EIN | EIN | Р | ΐ | EIN | EIN | ภ | EIN | EIN | |||||
1100 0001 | 301 | 193 | C1 | EIN | С | ء | Α | EIN | ม | ICH | EIN | ||||||||
1100 0010 | 302 | 194 | C2 | EIN | Т | آ | Β | EIN | ย | EIN | EIN | ||||||||
1100 0011 | 303 | 195 | C3 | EIN | EIN | EIN | У | أ | Γ | EIN | ร | C | EIN | EIN | |||||
1100 0100 | 304 | 196 | C4 | EIN | Ф | ؤ | Δ | EIN | ฤ | EIN | |||||||||
1100 0101 | 305 | 197 | C5 | EIN | Ĺ | C | EIN | Х | إ | Ε | EIN | ล | EIN | C | |||||
1100 0110 | 306 | 198 | C6 | Æ | C | C | Æ | Ц | ئ | Ζ | Æ | ฦ | Ę | Æ | |||||
1100 0111 | 307 | 199 | C7 | C | ICH | Ч | ا | Η | C | ICH | ว | Ē | C | ||||||
1100 1000 | 310 | 200 | C8 | È | C | È | C | Ш | ب | Θ | È | C | ศ | C | È | ||||
1100 1001 | 311 | 201 | C9 | É | Щ | ة | Ι | É | ษ | É | |||||||||
1100 1010 | 312 | 202 | CA | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | ||||
1100 1011 | 313 | 203 | CB | Ë | Ы | ث | Λ | Ë | ห | Ė | Ë | ||||||||
1100 1100 | 314 | 204 | CC | ICH | Ě | ICH | Ė | Ь | ج | Μ | ICH | Ė | ฬ | G | ICH | ||||
1100 1101 | 315 | 205 | CD | ICH | Э | ح | Ν | ICH | อ | Ķ | ICH | ||||||||
1100 1110 | 316 | 206 | CE | ICH | Ю | خ | Ξ | ICH | ฮ | ICH | ICH | ||||||||
1100 1111 | 317 | 207 | CF | ICH | D | ICH | ICH | Я | د | Ο | ICH | ฯ | Ļ | ICH | |||||
Binär | Okt | Dezember | Verhexen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | fünfzehn | 16 | |
1101 0000 | 320 | 208 | D0 | D | Đ | Đ | auch | ذ | Π | G | D | ะ | S | W ^ | D | ||||
1101 0001 | 321 | 209 | D1 | N | N | N | N | б | ر | Ρ | N | N | ั | N | N | N | |||
1101 0010 | 322 | 210 | D2 | Ö | N | Ö | Ö | • | ز | Ö | Ö | า | N | Ö | |||||
1101 0011 | 323 | 211 | D3 | Ö | Ķ | г | س | Σ | Ö | ำ | Ö | ||||||||
1101 0100 | 324 | 212 | D4 | Ö | ä | ش | Τ | Ö | ิ | Ö | Ö | ||||||||
1101 0101 | 325 | 213 | D5 | Ö | Ö | G | Ö | е | ص | Υ | Ö | ี | Ö | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | T | × | S | |||||
1101 1000 | 330 | 216 | D8 | Ö | R | G | Ö | и | ظ | Ψ | Ö | ุ | Ų | Ö | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | é | ع | Ω | Ù | Ų | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | DA | Ú | к | غ | Ϊ | Ú | ฺ | S | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | Ý | ù | Ũ | н | έ | ICH | Ý | Ż | Ý | Ę | ||||||
1101 1110 | 336 | 222 | DE | NS | T | S | Ū | о | ή | S | NS | Ž | Ŷ | NS | T | ||||
1101 1111 | 337 | 223 | DF | ß | п | ί | Ich | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | ein | R | ein | ein | р | ـ | ΰ | א | ein | ein | เ | ein | ein | |||
1110 0001 | 341 | 225 | E1 | ein | с | ف | α | ב | ein | แ | ich | ein | |||||||
1110 0010 | 342 | 226 | E2 | ein | т | ق | β | ג | ein | โ | ein | ein | |||||||
1110 0011 | 343 | 227 | E3 | ein | ein | ein | du | ك | γ | ד | ein | ใ | C | ein | ein | ||||
1110 0100 | 344 | 228 | E4 | ein | ф | ل | δ | ה | ein | ไ | ein | ||||||||
1110 0101 | 345 | 229 | E5 | ein | ĺ | C | ein | х | م | ε | ו | ein | ๅ | ein | C | ||||
1110 0110 | 346 | 230 | E6 | æ | C | C | æ | ц | ن | ζ | ז | æ | ๆ | ê | æ | ||||
1110 0111 | 347 | 231 | E7 | C | ich | ч | ه | η | ח | C | ich | ็ | ç | C | |||||
1110 1000 | 350 | 232 | E8 | è | C | è | C | ш | و | θ | ט | è | C | ่ | C | è | |||
1110 1001 | 351 | 233 | E9 | é | щ | ى | ι | י | é | ้ | é | ||||||||
1110 1010 | 352 | 234 | EA | ê | ê | ê | ê | ъ | ي | κ | ך | ê | ê | ๊ | Ÿ | ê | |||
1110 1011 | 353 | 235 | EB | ë | ы | ً | λ | כ | ë | ๋ | ë | ë | |||||||
1110 1100 | 354 | 236 | EC | ich | ě | ich | ë | ь | ٌ | μ | ל | ich | ë | ์ | g | ich | |||
1110 1101 | 355 | 237 | ED | ich | э | ٍ | ν | ם | ich | ํ | ķ | ich | |||||||
1110 1110 | 356 | 238 | EE | ich | ю | َ | ξ | מ | ich | ๎ | ich | ich | |||||||
1110 1111 | 357 | 239 | EF | ich | D | ich | ich | я | ُ | ο | ן | ich | Ich | ï | ich | ||||
1111 0000 | 360 | 240 | F0 | D | đ | đ | № | ِ | π | נ | g | D | 0 | S | ŵ | D | đ | ||
1111 0001 | 361 | 241 | F1 | n | n | n | n | ё | ّ | ρ | ס | n | n | 1 | n | n | n | ||
1111 0010 | 362 | 242 | F2 | Ö | n | Ö | Ö | ђ | ْ | ς | ע | Ö | Ö | 2 | n | Ö | |||
1111 0011 | 363 | 243 | F3 | Ö | ķ | ѓ | σ | ף | Ö | 3 | Ö | ||||||||
1111 0100 | 364 | 244 | F4 | Ö | є | τ | פ | Ö | 4 | Ö | Ö | ||||||||
1111 0101 | 365 | 245 | F5 | Ö | Ö | g | Ö | ѕ | υ | ץ | Ö | 5 | Ö | ||||||
1111 0110 | 366 | 246 | F6 | Ö | і | φ | צ | Ö | 6 | Ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | 7 | ÷ | T | ÷ | S | |||||
1111 1000 | 370 | 248 | F8 | Ö | R | g | Ö | ј | ψ | ר | Ö | 8 | ù | Ö | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ù | ù | ù | љ | ω | ש | ù | ù | 9 | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | Ich | S | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | Ich | û | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | ich | ý | ż | ý | ê | |||||
1111 1110 | 376 | 254 | FE | NS | T | S | û | ў | ώ | RLM | S | NS | ž | ŷ | NS | T | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ÿ | ' | ÿ | |||||||||
Binär | Okt | Dezember | Verhexen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | fünfzehn | 16 |
An Position 0xA0 steht immer das geschützte Leerzeichen und 0xAD ist meistens der weiche Bindestrich , der nur bei Zeilenumbrüchen erscheint . Andere leere Felder sind entweder nicht zugeordnet oder das verwendete System kann diese nicht anzeigen.
Es gibt Neuzugänge als ISO/IEC 8859-7:2003 und ISO/IEC 8859-8:1999 Versionen. LRM steht für Links-nach-rechts-Markierung (U+200E) und RLM steht für Rechts-nach-Links-Markierung (U+200F).
Beziehung zu Unicode und dem UCS
Seit 1991 arbeitet das Unicode-Konsortium mit ISO und IEC zusammen, um den Unicode-Standard und ISO/IEC 10646: den Universal Character Set (UCS) gemeinsam zu entwickeln. Neuere Ausgaben von ISO/IEC 8859 drücken Zeichen in Bezug auf ihre Unicode/UCS-Namen und die U+nnnn- Notation aus, was effektiv dazu führt, dass jeder Teil von ISO/IEC 8859 ein Unicode/UCS-Zeichencodierungsschema ist, das eine sehr kleine Teilmenge der UCS in einzelne 8-Bit-Bytes. Die ersten 256 Zeichen in Unicode und UCS sind identisch mit denen in ISO/IEC-8859-1 ( Latin-1 ).
Einzelbyte-Zeichensätze einschließlich der Teile von ISO/IEC 8859 und deren Ableitungen wurden in den 1990er Jahren bevorzugt und hatten den Vorteil, dass sie sich gut etabliert und leichter in Software implementieren lassen: Die Gleichung von einem Byte zu einem Zeichen ist einfach und angemessen für die meisten einsprachigen Anwendungen, und es gibt keine Kombinationszeichen oder Variantenformen. Mit zunehmender Verbreitung von Unicode-fähigen Betriebssystemen wurden ISO/IEC 8859 und andere Legacy-Codierungen weniger populär. Während Reste von ISO 8859- und Einzelbyte-Zeichenmodellen in vielen Betriebssystemen, Programmiersprachen, Datenspeichersystemen, Netzwerkanwendungen, Anzeigehardware und Endbenutzer-Anwendungssoftware verankert sind, verwenden die meisten modernen Computeranwendungen intern Unicode und sind auf Konvertierung angewiesen Tabellen, um bei Bedarf anderen Codierungen zuzuordnen.
Aktueller Status
Der ISO/IEC 8859-Standard wurde vom ISO/IEC Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3) gepflegt. Im Juni 2004 wurde die AG 3 aufgelöst und die Instandhaltungsaufgaben auf das SC 2 übertragen . Der Standard wird derzeit nicht aktualisiert, da sich die einzige verbleibende Arbeitsgruppe des Unterausschusses , die WG 2, auf die Entwicklung des universellen codierten Zeichensatzes von Unicode konzentriert .
Der WHATWG- Kodierungsstandard, der die in HTML5 zulässigen Zeichenkodierungen festlegt, die kompatible Browser unterstützen müssen, enthält die meisten Teile von ISO/IEC 8859, mit Ausnahme der Teile 1, 9 und 11, die stattdessen als Windows-1252 , Windows-1254 und . interpretiert werden Windows-874 bzw. Autoren neuer Seiten und Entwickler neuer Protokolle werden angewiesen, stattdessen UTF-8 zu verwenden.
Siehe auch
- Liste der Computerzeichensätze
- RPL-Zeichensatz (ein ISO 8859-1-Supersatz auf HP-Rechnern, auch als "ECMA-94" bezeichnet)
- DEC Multinationaler Zeichensatz (MCS)
- DEC Nationaler Ersatzzeichensatz (NRCS)
Anmerkungen
Verweise
- Veröffentlichte Versionen jedes Teils von ISO/IEC 8859 sind gegen eine Gebühr auf der ISO-Katalog-Site und im IEC Webstore erhältlich .
- PDF-Versionen der endgültigen Entwürfe einiger Teile von ISO/IEC 8859, wie sie dem ISO/IEC JTC 1/SC 2/WG 3 zur Überprüfung und Veröffentlichung vorgelegt wurden, sind auf der WG 3-Website verfügbar :
- ISO/IEC 8859-1: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 1: Lateinisches Alphabet Nr. 1 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. April 1998)
- ISO/IEC 8859-4: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 4: Lateinisches Alphabet Nr. 4 (Entwurf vom 12. Februar 1998, veröffentlicht am 1. Juli 1998)
- ISO/IEC 8859-7: 1999 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 7: Lateinisches/Griechisches Alphabet (Entwurf vom 10. Juni 1999; ersetzt durch ISO/IEC 8859-7: 2003, veröffentlicht am 10. Oktober, 2003)
- ISO/IEC 8859-10: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 10: Lateinisches Alphabet Nr. 6 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. Juli 1998)
- ISO/IEC 8859-11:1999 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 11: Lateinischer/Thailändischer Zeichensatz (Entwurf vom 22. Juni 1999; ersetzt durch ISO/IEC 8859-11:2001, veröffentlicht am 15. Dezember 2001)
- ISO/IEC 8859-13: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 13: Lateinisches Alphabet Nr. 7 (Entwurf vom 15. April 1998, veröffentlicht am 15. Oktober 1998)
- ISO/IEC 8859-15: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 15: Lateinisches Alphabet Nr. 9 (Entwurf vom 1. August 1997; ersetzt durch ISO/IEC 8859-15: 1999, veröffentlicht am 15. März) , 1999)
- ISO/IEC 8859-16:2000 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 16: Lateinisches Alphabet Nr. 10 (Entwurf vom 15. November 1999; ersetzt durch ISO/IEC 8859-16: 2001, veröffentlicht am 15. Juli , 2001)
-
ECMA- Standards, die in der Absicht genau den ISO/IEC 8859-Zeichensatzstandards entsprechen, finden Sie unter:
- Standard ECMA-94 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinische Alphabete Nr. 1 bis Nr. 4 2. Ausgabe (Juni 1986)
- Standard ECMA-113 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinisches/kyrillisches Alphabet 3. Ausgabe (Dezember 1999)
- Standard ECMA-114 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - lateinisches/arabisches Alphabet 2. Ausgabe (Dezember 2000)
- Standard ECMA-118 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - lateinisches/griechisches Alphabet (Dezember 1986)
- Standard ECMA-121 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinisches/Hebräisches Alphabet 2. Auflage (Dezember 2000)
- Standard ECMA-128 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinisches Alphabet Nr. 5 2. Ausgabe (Dezember 1999)
- Standard ECMA-144 : 8-Bit-Single-Byte-codierte Zeichensätze - Lateinisches Alphabet Nr. 6 3. Ausgabe (Dezember 2000)
- ISO/IEC 8859-1 zu Unicode- Zuordnungstabellen als Nur-Text-Dateien befinden sich auf der Unicode-FTP-Site.
- Informelle Beschreibungen und Codetabellen für die meisten ISO/IEC 8859-Standards sind in ISO/IEC 8859 Alphabet Soup (Mirror) verfügbar.