ISO/IEC 8859 - ISO/IEC 8859

ISO 8859-Kodierungsfamilie
Standard ISO/IEC 8859
Einstufung 8-Bit erweitertes ASCII , ISO 4873 Level 1
Erweitert US-ASCII
Vorangestellt ISO 646
gefolgt von ISO/IEC 10646 ( Unicode )
Andere verwandte Codierung(en) ISO/IEC 10367 , Windows-125x

ISO/IEC 8859 ist eine gemeinsame Normenreihe von ISO und IEC für 8-Bit- Zeichenkodierungen . Die Normenreihe besteht aus nummerierten Teilen wie ISO/IEC 8859-1 , ISO/IEC 8859-2 usw. Es gibt 15 Teile, mit Ausnahme der aufgegebenen ISO/IEC 8859-12 . Die ISO-Arbeitsgruppe, die diese Normenreihe pflegt, wurde aufgelöst.

ISO/IEC 8859, Teile 1, 2, 3 und 4, waren ursprünglich der internationale Ecma- Standard ECMA-94 .

Einführung

Während die Bitmuster der 95 druckbaren ASCII- Zeichen ausreichen, um Informationen im modernen Englisch auszutauschen , benötigen die meisten anderen Sprachen, die lateinische Alphabete verwenden, zusätzliche Symbole, die nicht von ASCII abgedeckt werden. ISO/IEC 8859 versuchte, dieses Problem zu beheben, indem das achte Bit in einem 8-Bit- Byte verwendet wurde , um Positionen für weitere 96 druckbare Zeichen zu ermöglichen. Frühe Codierungen waren aufgrund von Einschränkungen einiger Datenübertragungsprotokolle und teilweise aus historischen Gründen auf 7 Bit beschränkt. Es wurden jedoch mehr Zeichen benötigt, als in eine einzelne 8-Bit-Zeichencodierung passen konnten, und so wurden mehrere Zuordnungen entwickelt, darunter mindestens zehn, die für verschiedene lateinische Alphabete geeignet sind.

Die Normteile der ISO/IEC 8859 definieren nur druckbare Zeichen, unterscheiden jedoch die Byte-Bereiche 0x00–1F und 0x7F–9F explizit als „Kombinationen, die keine grafischen Zeichen darstellen“ (dh die für die Verwendung als Steuerzeichen reserviert sind ) gemäß mit ISO/IEC 4873 ; sie wurden entwickelt, um in Verbindung mit einem separaten Standard verwendet zu werden, der die mit diesen Bytes verbundenen Steuerfunktionen definiert, wie z. B. ISO 6429 oder ISO 6630 . Zu diesem Zweck fügt eine Reihe von Kodierungen, die bei der IANA registriert sind , den C0- Kontrollsatz (auf die Bytes 0 bis 31 abgebildete Steuerzeichen) von ISO 646 und den C1- Kontrollsatz (auf die Bytes 128 bis 159) abgebildete Kontrollsatz von ISO 6429 hinzu, was zu vollständige 8-Bit-Zeichentabellen mit den meisten, wenn nicht allen, zugewiesenen Bytes. Diese Sets haben ISO-8859- n als bevorzugten MIME- Namen oder, falls kein bevorzugter MIME-Name angegeben ist, ihren kanonischen Namen. Viele Leute verwenden die Begriffe ISO/IEC 8859- n und ISO-8859- n synonym. ISO/IEC 8859-11 hat einen solchen Zeichensatz nicht zugewiesen bekommen, vermutlich weil er fast identisch mit TIS 620 war .

Zeichen

Der ISO/IEC 8859-Standard ist auf den zuverlässigen Informationsaustausch ausgelegt, nicht auf Typografie ; der Standard verzichtet auf Symbole, die für eine hochwertige Typografie erforderlich sind, wie optionale Ligaturen, geschweifte Anführungszeichen, Bindestriche usw. Daher verwenden hochwertige Satzsysteme häufig proprietäre oder idiosynkratische Erweiterungen zusätzlich zu den Standards ASCII und ISO/IEC 8859 , oder verwenden Sie stattdessen Unicode .

Eine ungenaue Regel aus der Praxis besagt, dass ein Zeichen oder Symbol, wenn es nicht bereits Teil eines weit verbreiteten datenverarbeitenden Zeichensatzes war und auch auf Schreibmaschinentastaturen für eine Landessprache üblicherweise nicht vorgesehen war, nicht hineinkam. Daher die Richtungs doppelte Anführungszeichen « und », die für einige europäische Sprachen verwendet werden, wurden aufgenommen, aber nicht die direktionalen doppelten Anführungszeichen " und ", die für Englisch und einige andere Sprachen verwendet werden.

Französisch hat seine œ- und Œ- Ligaturen nicht erhalten, weil sie als 'oe' eingegeben werden konnten. Ebenso wurde Ÿ , das für Text in Großbuchstaben benötigt wird , ebenfalls weggelassen . Wenn auch unter anderen Codepunkten, wurden diese drei Zeichen später mit der ISO/IEC 8859-15 im Jahr 1999 wieder eingeführt, die auch das neue Eurozeichen-Zeichen € einführte . Ebenso hat die Holländer nicht bekommen ij und ij Briefe, weil niederländische Sprecher diese als zwei Buchstaben eingeben , anstatt werden benutzt hatte.

Rumänisch erhielt seine Buchstaben Ș / ș und Ț / ț ( mit Komma ) zunächst nicht, da diese Buchstaben ursprünglich vom Unicode-Konsortium mit Ş / ş und Ţ / ţ ( mit Cedille ) vereinigt wurden , wobei die Formen mit Komma darunter als Glyphenvarianten der Formen mit Cedille. Die Buchstaben mit explizitem Komma unten wurden jedoch später dem Unicode-Standard hinzugefügt und sind auch in ISO/IEC 8859-16 enthalten .

Die meisten der ISO/IEC 8859-Kodierungen bieten diakritische Zeichen, die für verschiedene europäische Sprachen mit lateinischer Schrift erforderlich sind. Andere bieten nicht-lateinische Alphabete: Griechisch , Kyrillisch , Hebräisch , Arabisch und Thai . Die meisten Codierungen enthalten nur Leerzeichen , obwohl die thailändischen, hebräischen und arabischen auch Kombinationszeichen enthalten .

Die Schriften ostasiatischer Sprachen ( CJK ) sind im Standard nicht vorgesehen , da deren ideografische Schriftsysteme viele tausend Codepunkte benötigen. Obwohl es lateinische Zeichen verwendet, passt Vietnamesisch auch nicht in 96 Positionen (ohne kombinierte diakritische Zeichen wie in Windows-1258 zu verwenden ). Jedes japanische Silbenalphabet (Hiragana oder Katakana, siehe Kana ) würde passen, wie in JIS X 0201 , aber wie einige andere Alphabete der Welt sind sie nicht im ISO/IEC 8859-System kodiert.

Die Teile von ISO/IEC 8859

ISO/IEC 8859 gliedert sich in folgende Teile:

Teil Name Überarbeitungen Andere Normen Beschreibung
Teil 1 Latein-1
Westeuropäisch
1987 , 1998 ECMA-94 ( 1985 , 1986) Vielleicht der am weitesten verbreitete Teil von ISO/IEC 8859, der die meisten westeuropäischen Sprachen abdeckt: Dänisch (teilweise), Niederländisch (teilweise), Englisch , Färöisch , Finnisch (teilweise), Französisch (teilweise), Deutsch , Isländisch , Irisch , Italienisch , Norwegisch , Portugiesisch , Rätoromanisch , Schottisch-Gälisch , Spanisch , Katalanisch und Schwedisch . Auch Sprachen aus anderen Teilen der Welt werden abgedeckt, darunter: Osteuropäisches Albanisch , Südostasiatisches Indonesisch sowie die afrikanischen Sprachen Afrikaans und Swahili .

Eine Modifikation von DEC MCS ; der ersten (1985) Standardversion auf ECMA-Ebene fehlten das Zeitzeichen und der Divisions-Obelus , die im nächsten Jahr hinzugefügt wurden. Das fehlende Eurozeichen und Großbuchstabe Ÿ befinden sich in der überarbeiteten Version ISO/IEC 8859-15 (siehe unten). Der entsprechende IANA-Zeichensatz ist ISO-8859-1.

Teil 2 Latein-2
Mitteleuropäisch
1987 , 1999 ECMA-94 (1986) Unterstützt die mittel- und osteuropäischen Sprachen, die das lateinische Alphabet verwenden, einschließlich Bosnisch , Polnisch , Kroatisch , Tschechisch , Slowakisch , Slowenisch , Serbisch und Ungarisch . Das fehlende Eurozeichen ist in der Version ISO/IEC 8859-16 zu finden.
Teil 3 Latein-3
Südeuropäisch
1988 , 1999 Türkisch , Maltesisch und Esperanto . Weitgehend ersetzt durch ISO/IEC 8859-9 für Türkisch.
Teil 4 Latein-4
Nordeuropäisch
1988 , 1998 Estnisch , Lettisch , Litauisch , Grönländisch und Samisch .
Teil 5 Latein/Kyrillisch 1988 , 1999 ECMA-113 (1988, 1999) Deckt hauptsächlich slawische Sprachen ab, die ein kyrillisches Alphabet verwenden , einschließlich Weißrussisch , Bulgarisch , Mazedonisch , Russisch , Serbisch und Ukrainisch (teilweise).
Teil 6 Latein/Arabisch 1987 , 1999 ASMO 708 (1986) / ECMA-114 (1986, 2000) Deckt die gebräuchlichsten arabischen Zeichen ab. Unterstützt keine anderen Sprachen, die die arabische Schrift verwenden . Muss für die Anzeige in BiDi und kursiver Verbindung verarbeitet werden.
Teil 7 Latein/Griechisch 1987 , 2003 ELOT 928 (1986) / ECMA-118 (1986) Deckt die neugriechische Sprache ab ( monotone Orthographie ). Kann auch für die Antike verwendet werden , Griechisch geschrieben , ohne Akzente oder in monotoner Orthographie, aber es fehlt die diakritischen Zeichen für polytonisches Orthographie . Diese wurden mit Unicode eingeführt. Aktualisiert 2003 , um das Eurozeichen , das Drachmenzeichen und das Abstandsypogegrammeni hinzuzufügen .
Teil 8 Latein/Hebräisch 1988 , 1999 ECMA-121 (1987, 2000) / SI 1311 ( 2002 ) Deckt das moderne hebräische Alphabet ab, wie es in Israel verwendet wird. In der Praxis existieren zwei verschiedene Codierungen, logische Reihenfolge (muss für die Anzeige BiDi- verarbeitet werden) und visuelle (von links nach rechts) Reihenfolge ( tatsächlich nach Bidi-Verarbeitung und Zeilenumbruch). 1999 aktualisiert, um LRM und RLM hinzuzufügen . 2002 auf nationaler Standardebene aktualisiert, um Euro- und Schekelzeichen und mehr bidirektionale Formateffektoren hinzuzufügen; die Ergänzungen von 2002 wurden nie wieder in die ISO-Standardversion eingearbeitet.
Teil 9 Latein-5
Türkisch
1989 , 1999 ECMA-128 (1988, 1999) Weitgehend identisch mit ISO/IEC 8859-1, wobei die selten verwendeten isländischen Buchstaben durch türkische ersetzt werden.
Teil 10 Latein-6
Nordisch
1992 , 1998 ECMA-144 (1990, 1992, 2000) Eine Neuordnung von Latin-4. Wird für nordische Sprachen als nützlicher erachtet. Baltische Sprachen verwenden Latein-4 mehr.
Teil 11 Latein/Thai 2001 TIS-620 (1986, 1990) Enthält Zeichen, die für die thailändische Sprache benötigt werden . Die erste Revision wurde 1986 auf nationaler Standardebene als TIS 620 erstellt . 2001 als Teil von ISO 8859 in den ISO-Standardstatus erhoben, mit einem geschützten Leerzeichen .
Teil 12 Latein/Devanagari N / A - Die Arbeit zur Herstellung eines Teils von 8859 für Devanagari wurde 1997 offiziell eingestellt. ISCII und Unicode/ISO/IEC 10646 decken Devanagari ab.
Teil 13 Latin-7
Baltic Rim
1998 - Einige Zeichen für baltische Sprachen hinzugefügt, die in Latin-4 und Latin-6 fehlten. Bezieht sich auf das früher veröffentlichte Windows-1257 .
Teil 14 Latein-8
Keltisch
1998 - Deckt keltische Sprachen wie Gälisch und Bretonisch ab . Walisische Buchstaben entsprechen der früheren (1994) ISO-IR-182 .
Teil 15 Latein-9 1999 - Eine Überarbeitung von 8859-1, die einige selten verwendete Symbole entfernt und sie durch das Eurozeichen und die Buchstaben Š , š , Ž , ž , Œ , œ und Ÿ ersetzt , was die Abdeckung des Französischen , Finnischen und Estnischen vervollständigt .
Teil 16 Latein-10
Südosteuropäisch
2001 SR 14111 (1998) Vorgesehen für Albanisch , Kroatisch , Ungarisch , Italienisch , Polnisch , Rumänisch und Slowenisch , aber auch Finnisch, Französisch, Deutsch und Irisch-Gälisch (neue Rechtschreibung). Der Fokus liegt mehr auf Buchstaben als auf Symbolen. Das Währungszeichen wird durch das Eurozeichen ersetzt .

Jeder Teil von ISO/IEC 8859 wurde entwickelt, um Sprachen zu unterstützen, die sich oft voneinander entlehnen, sodass die von jeder Sprache benötigten Zeichen normalerweise in einem einzigen Teil untergebracht werden. Es gibt jedoch einige Zeichen und Sprachkombinationen, die ohne Transkriptionen nicht berücksichtigt werden. Es wurde versucht, die Umstellung so reibungslos wie möglich zu gestalten. Zum Beispiel hat das Deutsche in allen lateinischen Varianten (1–4, 9, 10, 13–16) alle seine sieben Sonderzeichen an den gleichen Stellen, und an vielen Stellen unterscheiden sich die Zeichen nur in den diakritischen Zeichen zwischen den Sätzen. Insbesondere die Varianten 1–4 wurden gemeinsam entwickelt und haben die Eigenschaft, dass jedes codierte Zeichen entweder an einer bestimmten Stelle oder gar nicht vorkommt.

Tisch

Vergleich der verschiedenen Teile (1–16) der ISO/IEC 8859
Binär Okt Dezember Verhexen 1 2 3 4 5 6 7 8 9 10 11 13 14 fünfzehn 16
1010 0000 240 160 A0 Geschützter Raum (NBSP)
1010 0001 241 161 A1 Ich EIN H EIN Ё   '   Ich EIN B Ich EIN
1010 0010 242 162 A2 ¢ ˘ ÿ Ђ   ' ¢ ¢ Ē ¢ B ¢ ein
1010 0011 243 163 A3 £ Ł £ R Ѓ   £ G £ Ł
1010 0100 244 164 A4 ¤ Є ¤ ¤ ICH ¤ C
1010 0101 245 165 A5 ¥ Ľ   ICH Ѕ   ¥ ICH C ¥
1010 0110 246 166 A6 | S H Ļ І   | Ķ | D S
1010 0111 247 167 A7 § Ї   § §
1010 1000 250 168 A8 ¨ Ј   ¨ Ļ Ö W S
1010 1001 251 169 A9 © S ICH S Љ   © Đ ©
1010 1010 252 170 AA ª S Ē Њ   ͺ × ª S R W ª S
1010 1011 253 171 AB « T G G Ћ   « T « D «
1010 1100 254 172 AC ¬ Ź J T Ќ Ich ¬ Ž ¬ ÿ ¬ Ź
1010 1101 255 173 ANZEIGE Weicher Bindestrich (SHY) SCHÜCHTERN
1010 1110 256 174 AE ® Ž   Ž Ў     ® Ū ® Ÿ
1010 1111 257 175 AF ¯ Ż ¯ Џ   Ich ¯ N Æ Ÿ ¯ Ż
1011 0000 260 176 B0 ° А   ° ° F °
1011 0001 261 177 B1 ± ein h ein Б   ± ein ± F ±
1011 0010 262 178 B2 ² ˛ ² ˛ В   ² ç ² G ² C
1011 0011 263 179 B3 ³ ł ³ R Г   ³ g ³ g ³ ł
1011 0100 264 180 B4 ´ Д   ΄ ´ ich M Ž
1011 0101 265 181 B5 µ ľ µ ich Е   ΅ µ ich µ m µ
1011 0110 266 182 B6 S h ï Ж   Ά ķ
1011 0111 267 183 B7 · ˇ · ˇ З   · · P ·
1011 1000 270 184 B8 ¸ И   Έ ¸ ï Ö W ž
1011 1001 271 185 B9 ¹ S ich S Й   Ή ¹ đ ¹ P ¹ C
1011 1010 272 186 BA º S ç К   Ί ÷ º S R W º S
1011 1011 273 187 BB » T g g Л Ich » T » S »
1011 1100 274 188 BC ¼ Ÿ J T М   Ό ¼ ž ¼ ÿ Œ
1011 1101 275 189 BD ½ ˝ ½ N Н   ½ Ich ½ W œ
1011 1110 276 190 SEIN ¾ ž   ž О   Ύ ¾ û ¾ W Ÿ
1011 1111 277 191 BF Ich ż n П Ich Ώ   Ich n æ S Ich ż
1100 0000 300 192 C0 EIN R EIN EIN Р   ΐ   EIN EIN EIN EIN
1100 0001 301 193 C1 EIN С ء Α   EIN ICH EIN
1100 0010 302 194 C2 EIN Т آ Β   EIN EIN EIN
1100 0011 303 195 C3 EIN EIN   EIN У أ Γ   EIN C EIN EIN
1100 0100 304 196 C4 EIN Ф ؤ Δ   EIN EIN
1100 0101 305 197 C5 EIN Ĺ C EIN Х إ Ε   EIN EIN C
1100 0110 306 198 C6 Æ C C Æ Ц ئ Ζ   Æ Ę Æ
1100 0111 307 199 C7 C ICH Ч ا Η   C ICH Ē C
1100 1000 310 200 C8 È C È C Ш ب Θ   È C C È
1100 1001 311 201 C9 É Щ ة Ι   É É
1100 1010 312 202 CA Ê Ę Ê Ę Ъ ت Κ   Ê Ę Ź Ê
1100 1011 313 203 CB Ë Ы ث Λ   Ë Ė Ë
1100 1100 314 204 CC ICH Ě ICH Ė Ь ج Μ   ICH Ė G ICH
1100 1101 315 205 CD ICH Э ح Ν   ICH Ķ ICH
1100 1110 316 206 CE ICH Ю خ Ξ   ICH ICH ICH
1100 1111 317 207 CF ICH D ICH ICH Я د Ο   ICH Ļ ICH
Binär Okt Dezember Verhexen 1 2 3 4 5 6 7 8 9 10 11 13 14 fünfzehn 16
1101 0000 320 208 D0 D Đ   Đ auch ذ Π   G D S W ^ D
1101 0001 321 209 D1 N N N N б ر Ρ   N N N N N
1101 0010 322 210 D2 Ö N Ö Ö ز     Ö Ö N Ö
1101 0011 323 211 D3 Ö Ķ г س Σ   Ö Ö
1101 0100 324 212 D4 Ö ä ش Τ   Ö Ö Ö
1101 0101 325 213 D5 Ö Ö G Ö е ص Υ   Ö Ö
1101 0110 326 214 D6 Ö ж ض Φ   Ö Ö
1101 0111 327 215 D7 × з ط Χ   × Ũ × T × S
1101 1000 330 216 D8 Ö R G Ö и ظ Ψ   Ö Ų Ö Ű
1101 1001 331 217 D9 Ù Ů Ù Ų é ع Ω   Ù Ų Ł Ù
1101 1010 332 218 DA Ú к غ Ϊ   Ú S Ú
1101 1011 333 219 DB Û Ű Û л   Ϋ   Û   Ū Û
1101 1100 334 220 DC Ü м   ά   Ü   Ü
1101 1101 335 221 DD Ý ù Ũ н   έ   ICH Ý   Ż Ý Ę
1101 1110 336 222 DE NS T S Ū о   ή   S NS   Ž Ŷ NS T
1101 1111 337 223 DF ß п   ί Ich ß ฿ ß
1110 0000 340 224 E0 ein R ein ein р ـ ΰ א ein ein ein ein
1110 0001 341 225 E1 ein с ف α ב ein ich ein
1110 0010 342 226 E2 ein т ق β ג ein ein ein
1110 0011 343 227 E3 ein ein   ein du ك γ ד ein C ein ein
1110 0100 344 228 E4 ein ф ل δ ה ein ein
1110 0101 345 229 E5 ein ĺ C ein х م ε ו ein ein C
1110 0110 346 230 E6 æ C C æ ц ن ζ ז æ ê æ
1110 0111 347 231 E7 C ich ч ه η ח C ich ç C
1110 1000 350 232 E8 è C è C ш و θ ט è C C è
1110 1001 351 233 E9 é щ ى ι י é é
1110 1010 352 234 EA ê ê ê ê ъ ي κ ך ê ê Ÿ ê
1110 1011 353 235 EB ë ы ً λ כ ë ë ë
1110 1100 354 236 EC ich ě ich ë ь ٌ μ ל ich ë g ich
1110 1101 355 237 ED ich э ٍ ν ם ich ķ ich
1110 1110 356 238 EE ich ю َ ξ מ ich ich ich
1110 1111 357 239 EF ich D ich ich я ُ ο ן ich Ich ï ich
1111 0000 360 240 F0 D đ   đ ِ π נ g D 0 S ŵ D đ
1111 0001 361 241 F1 n n n n ё ّ ρ ס n n 1 n n n
1111 0010 362 242 F2 Ö n Ö Ö ђ ْ ς ע Ö Ö 2 n Ö
1111 0011 363 243 F3 Ö ķ ѓ   σ ף Ö 3 Ö
1111 0100 364 244 F4 Ö є   τ פ Ö 4 Ö Ö
1111 0101 365 245 F5 Ö Ö g Ö ѕ   υ ץ Ö 5 Ö
1111 0110 366 246 F6 Ö і   φ צ Ö 6 Ö
1111 0111 367 247 F7 ÷ ї   χ ק ÷ ũ 7 ÷ T ÷ S
1111 1000 370 248 F8 Ö R g Ö ј   ψ ר Ö 8 ù Ö ű
1111 1001 371 249 F9 ù ù ù ù љ   ω ש ù ù 9 ł ù
1111 1010 372 250 FA ú њ   ϊ ת ú Ich S ú
1111 1011 373 251 FB û ű û ћ   ϋ   û Ich û û
1111 1100 374 252 FC ü ќ   ό   ü   ü
1111 1101 375 253 FD ý ŭ ũ §   ύ LRM ich ý   ż ý ê
1111 1110 376 254 FE NS T S û ў   ώ RLM S NS   ž ŷ NS T
1111 1111 377 255 FF ÿ ˙ џ       ÿ ÿ   ' ÿ
Binär Okt Dezember Verhexen 1 2 3 4 5 6 7 8 9 10 11 13 14 fünfzehn 16

An Position 0xA0 steht immer das geschützte Leerzeichen und 0xAD ist meistens der weiche Bindestrich , der nur bei Zeilenumbrüchen erscheint . Andere leere Felder sind entweder  nicht zugeordnet oder das verwendete System kann diese nicht anzeigen.

Es gibt   Neuzugänge als ISO/IEC 8859-7:2003 und ISO/IEC 8859-8:1999 Versionen. LRM steht für Links-nach-rechts-Markierung (U+200E) und RLM steht für Rechts-nach-Links-Markierung (U+200F).

Beziehung zu Unicode und dem UCS

Seit 1991 arbeitet das Unicode-Konsortium mit ISO und IEC zusammen, um den Unicode-Standard und ISO/IEC 10646: den Universal Character Set (UCS) gemeinsam zu entwickeln. Neuere Ausgaben von ISO/IEC 8859 drücken Zeichen in Bezug auf ihre Unicode/UCS-Namen und die U+nnnn- Notation aus, was effektiv dazu führt, dass jeder Teil von ISO/IEC 8859 ein Unicode/UCS-Zeichencodierungsschema ist, das eine sehr kleine Teilmenge der UCS in einzelne 8-Bit-Bytes. Die ersten 256 Zeichen in Unicode und UCS sind identisch mit denen in ISO/IEC-8859-1 ( Latin-1 ).

Einzelbyte-Zeichensätze einschließlich der Teile von ISO/IEC 8859 und deren Ableitungen wurden in den 1990er Jahren bevorzugt und hatten den Vorteil, dass sie sich gut etabliert und leichter in Software implementieren lassen: Die Gleichung von einem Byte zu einem Zeichen ist einfach und angemessen für die meisten einsprachigen Anwendungen, und es gibt keine Kombinationszeichen oder Variantenformen. Mit zunehmender Verbreitung von Unicode-fähigen Betriebssystemen wurden ISO/IEC 8859 und andere Legacy-Codierungen weniger populär. Während Reste von ISO 8859- und Einzelbyte-Zeichenmodellen in vielen Betriebssystemen, Programmiersprachen, Datenspeichersystemen, Netzwerkanwendungen, Anzeigehardware und Endbenutzer-Anwendungssoftware verankert sind, verwenden die meisten modernen Computeranwendungen intern Unicode und sind auf Konvertierung angewiesen Tabellen, um bei Bedarf anderen Codierungen zuzuordnen.

Aktueller Status

Der ISO/IEC 8859-Standard wurde vom ISO/IEC Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3) gepflegt. Im Juni 2004 wurde die AG 3 aufgelöst und die Instandhaltungsaufgaben auf das SC 2 übertragen . Der Standard wird derzeit nicht aktualisiert, da sich die einzige verbleibende Arbeitsgruppe des Unterausschusses , die WG 2, auf die Entwicklung des universellen codierten Zeichensatzes von Unicode konzentriert .

Der WHATWG- Kodierungsstandard, der die in HTML5 zulässigen Zeichenkodierungen festlegt, die kompatible Browser unterstützen müssen, enthält die meisten Teile von ISO/IEC 8859, mit Ausnahme der Teile 1, 9 und 11, die stattdessen als Windows-1252 , Windows-1254 und . interpretiert werden Windows-874 bzw. Autoren neuer Seiten und Entwickler neuer Protokolle werden angewiesen, stattdessen UTF-8 zu verwenden.

Siehe auch

Anmerkungen

Verweise

  • Veröffentlichte Versionen jedes Teils von ISO/IEC 8859 sind gegen eine Gebühr auf der ISO-Katalog-Site und im IEC Webstore erhältlich .
  • PDF-Versionen der endgültigen Entwürfe einiger Teile von ISO/IEC 8859, wie sie dem ISO/IEC JTC 1/SC 2/WG 3 zur Überprüfung und Veröffentlichung vorgelegt wurden, sind auf der WG 3-Website verfügbar :
    • ISO/IEC 8859-1: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 1: Lateinisches Alphabet Nr. 1 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. April 1998)
    • ISO/IEC 8859-4: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 4: Lateinisches Alphabet Nr. 4 (Entwurf vom 12. Februar 1998, veröffentlicht am 1. Juli 1998)
    • ISO/IEC 8859-7: 1999 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 7: Lateinisches/Griechisches Alphabet (Entwurf vom 10. Juni 1999; ersetzt durch ISO/IEC 8859-7: 2003, veröffentlicht am 10. Oktober, 2003)
    • ISO/IEC 8859-10: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 10: Lateinisches Alphabet Nr. 6 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. Juli 1998)
    • ISO/IEC 8859-11:1999 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 11: Lateinischer/Thailändischer Zeichensatz (Entwurf vom 22. Juni 1999; ersetzt durch ISO/IEC 8859-11:2001, veröffentlicht am 15. Dezember 2001)
    • ISO/IEC 8859-13: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 13: Lateinisches Alphabet Nr. 7 (Entwurf vom 15. April 1998, veröffentlicht am 15. Oktober 1998)
    • ISO/IEC 8859-15: 1998 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 15: Lateinisches Alphabet Nr. 9 (Entwurf vom 1. August 1997; ersetzt durch ISO/IEC 8859-15: 1999, veröffentlicht am 15. März) , 1999)
    • ISO/IEC 8859-16:2000 - 8-Bit-Single-Byte-codierte Grafikzeichensätze, Teil 16: Lateinisches Alphabet Nr. 10 (Entwurf vom 15. November 1999; ersetzt durch ISO/IEC 8859-16: 2001, veröffentlicht am 15. Juli , 2001)
  • ECMA- Standards, die in der Absicht genau den ISO/IEC 8859-Zeichensatzstandards entsprechen, finden Sie unter:
    • Standard ECMA-94 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinische Alphabete Nr. 1 bis Nr. 4 2. Ausgabe (Juni 1986)
    • Standard ECMA-113 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinisches/kyrillisches Alphabet 3. Ausgabe (Dezember 1999)
    • Standard ECMA-114 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - lateinisches/arabisches Alphabet 2. Ausgabe (Dezember 2000)
    • Standard ECMA-118 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - lateinisches/griechisches Alphabet (Dezember 1986)
    • Standard ECMA-121 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinisches/Hebräisches Alphabet 2. Auflage (Dezember 2000)
    • Standard ECMA-128 : 8-Bit-Single-Byte-codierte Grafikzeichensätze - Lateinisches Alphabet Nr. 5 2. Ausgabe (Dezember 1999)
    • Standard ECMA-144 : 8-Bit-Single-Byte-codierte Zeichensätze - Lateinisches Alphabet Nr. 6 3. Ausgabe (Dezember 2000)
  • ISO/IEC 8859-1 zu Unicode- Zuordnungstabellen als Nur-Text-Dateien befinden sich auf der Unicode-FTP-Site.
  • Informelle Beschreibungen und Codetabellen für die meisten ISO/IEC 8859-Standards sind in ISO/IEC 8859 Alphabet Soup (Mirror) verfügbar.