Homoglyphe - Homoglyph

Die Homoglyphen lateinischer Kleinbuchstabe A (Unicode 0061) und kyrillischer Kleinbuchstabe A (Unicode 0430) überlagert. Beide Charaktere sind in Helvetica LT Std. eingestellt.

In der Orthografie und Typografie ist ein Homoglyph eines von zwei oder mehr Graphemen , Zeichen oder Glyphen mit identischen oder sehr ähnlichen Formen. Die Bezeichnung wird auch auf Zeichenfolgen angewendet, die diese Eigenschaften teilen.

Synoglyphen sind Glyphen, die anders aussehen, aber dasselbe bedeuten. Synoglyphen werden auch informell als Darstellungsvarianten bezeichnet . Der Begriff Homograph wird manchmal synonym mit Homoglyphe verwendet, aber im üblichen sprachlichen Sinne sind Homographen Wörter , die gleich geschrieben werden, aber unterschiedliche Bedeutungen haben, eine Eigenschaft von Wörtern, nicht von Zeichen.

Im Jahr 2008 veröffentlichte das Unicode-Konsortium seinen Technical Report #36 zu einer Reihe von Problemen, die sich aus der visuellen Ähnlichkeit von Zeichen sowohl in einzelnen Skripten als auch aus Ähnlichkeiten zwischen Zeichen in verschiedenen Skripten ergeben.

Ein Beispiel für homoglyphische Verwirrung in historischer Hinsicht ergibt sich aus der Verwendung eines 'y', um ein 'þ' darzustellen, wenn ältere englische Texte in Schriftarten gesetzt werden, die das letztgenannte Zeichen nicht enthalten. Es hat sich in der heutigen Zeit zu Phänomenen wie führte Ye olde shoppe , was bedeutet falsch , dass das Wort die früher geschrieben wurde ye / j i / . Für weitere Diskussionen siehe Dorn .

Beispiele für homoglyphische Symbole sind (a) die Diaerese und der Umlaut (beide ein Punktpaar, aber mit unterschiedlicher Bedeutung, obwohl mit den gleichen Codepunkten codiert ); und (b) der Bindestrich und das Minuszeichen (beide ein kurzer horizontaler Strich, aber mit unterschiedlicher Bedeutung, obwohl oft mit demselben Codepunkt codiert ). Bei Ziffern und Buchstaben werden Ziffer 1 und Kleinbuchstaben l immer separat kodiert, aber in vielen Schriftarten werden sehr ähnliche Glyphen angegeben, und Ziffer 0 und Großbuchstabe O werden immer separat kodiert, aber in vielen Schriftarten werden sehr ähnliche Glyphen angegeben. Praktisch jedes Beispiel eines homoglyphischen Zeichenpaares kann potentiell grafisch mit klar unterscheidbaren Glyphen und separaten Codepunkten unterschieden werden, aber dies wird nicht immer getan. Schriftarten , die die Eins / El - und Null / Oh - Homoglyphen nicht ausdrücklich unterscheiden , gelten als ungeeignet zum Schreiben von Formeln , URLs , Quellcode , IDs und anderen Texten , bei denen Zeichen ohne Kontext nicht immer unterschieden werden können . Für diese Anwendungen werden Schriftarten bevorzugt, die Glyphen beispielsweise durch eine durchgestrichene Null unterscheiden.

Umlaut und Durchfall

Zu Zeiten der mechanischen Schreibmaschinen wurden diese mit der gleichen Taste geschrieben, die auch für ein doppeltes Anführungszeichen verwendet wurde. Der Umlaut entstand jedoch speziell als Paar kurzer vertikaler Linien (nicht zwei Punkte) (siehe Sutterlin ). Übrigens werden die beiden Punkte über dem Buchstaben E im Albanisch als Diaresis bezeichnet, erfüllen aber nicht die Funktion einer Diaresis.

0 und 0; 1, ich und ich

Zwei gebräuchliche und wichtige Sätze von heute verwendeten Homoglyphen sind die Ziffer Null und der Großbuchstabe O (dh 0 und O); und die Ziffer Eins, den Kleinbuchstaben L und den Großbuchstaben i (dh 1, l und I). In den frühen Tagen der mechanischen Schreibmaschinen gab es sehr wenig oder keinen visuellen Unterschied zwischen diesen Glyphen, und Schreibkräfte behandelten sie austauschbar als Tastaturkürzel. Tatsächlich hatten die meisten Tastaturen nicht einmal eine Taste für die Ziffer „1“, sodass die Benutzer stattdessen den Buchstaben „l“ eingeben mussten, und einige ließen auch die 0 weg , ihre alten Tastaturgewohnheiten setzten sich mit ihnen fort und sorgten gelegentlich für Verwirrung.

Die meisten aktuellen Schriftentwürfe unterscheiden sorgfältig zwischen diesen Homoglyphen, normalerweise indem die Ziffer Null schmaler und die Ziffer Eins mit markanten Serifen gezeichnet wird . Frühe Computerausdrucke gingen noch weiter und markierten die Null mit einem Schrägstrich oder Punkt, was zu einem neuen Konflikt zwischen dem skandinavischen Buchstaben „ Ø “ und dem griechischen Buchstaben Φ ( phi ) führte. Die Neugestaltung der Zeichentypen zur Unterscheidung dieser Zeichen hat zu weniger Verwirrung geführt. Der Grad, in dem zwei verschiedene Charaktere einem bestimmten Beobachter gleich erscheinen, wird als "visuelle Ähnlichkeit" bezeichnet.

Homoglyphen mit mehreren Buchstaben

St efan Szczotkowski sieht aus wie A effan Szczotkowski auf dem Grabstein.

Einige andere Buchstabenkombinationen sehen ähnlich aus, zum Beispiel sieht rn ähnlich aus wie m , cl sieht ähnlich aus wie d und vv sieht ähnlich aus wie w .

In bestimmten Schriftarten mit engen Abständen (wie Tahoma ) wird durch das Platzieren des Buchstabens c neben einem Buchstaben wie j, l oder i eine Homoglyphe wie cj cl ci (gda) erstellt.

Wenn einige Charaktere nebeneinander platziert werden, erwecken sie auf einen Blick zusammen den visuellen Eindruck eines anderen, nicht verwandten Charakters. Genauer gesagt, können einige typografische Ligaturen eigenständigen Glyphen ähneln. Zum Beispiel kann die Fi- Ligatur ( fi ) in einigen Schriftarten oder Schriftarten ähnlich wie A aussehen . Diese Verwechslungsgefahr ist manchmal ein Argument gegen die Verwendung von Ligaturen.

Unicode-Homoglyphen

Die drei bekanntesten europäischen Alphabete (griechisch, kyrillisch und lateinisch) teilen viele Buchstabenformen, die in Unicode unter separaten Codepunkten kodiert sind.

Der Unicode- Zeichensatz enthält viele stark homoglyphische Zeichen, die als "Confusables" bekannt sind. Diese stellen in einer Vielzahl von Situationen Sicherheitsrisiken dar (adressiert in UTR#36) und wurden kürzlich in Bezug auf internationalisierte Domainnamen besonders aufmerksam gemacht . Man könnte einen Domainnamen absichtlich fälschen, indem man ein Zeichen durch seine Homoglyphe ersetzt, wodurch ein zweiter Domainname entsteht, der nicht ohne weiteres vom ersten zu unterscheiden ist und der beim Phishing ausgenutzt werden kann ( siehe Hauptartikel IDN-Homografenangriff ). In vielen Schriftarten sind der griechische Buchstabe 'Α', der kyrillische Buchstabe 'А' und der lateinische Buchstabe 'A' optisch identisch, ebenso der lateinische Buchstabe 'a' und der kyrillische Buchstabe 'а' (dasselbe gilt für die Lateinische Buchstaben "aBeHKopcTxy" und die kyrillischen Buchstaben " ВеНКорсТху "). Ein Domainname kann einfach gefälscht werden, indem eine dieser Formen in einem separat registrierten Namen durch eine andere ersetzt wird. Es gibt auch viele Beispiele für Beinahe-Homoglyphen innerhalb derselben Schrift wie 'í' (mit einem spitzen Akzent) und 'i', É (E-akut) und Ė (E-Punkt oben) und È (E-Grab), Í (mit Akut-Akzent) und ĺ (Kleines L mit Akut). Bei der Erörterung dieses speziellen Sicherheitsproblems können zwei beliebige Sequenzen ähnlicher Zeichen hinsichtlich ihres Potenzials als „Homoglyphenpaar“ bewertet werden, oder wenn die Sequenzen eindeutig Wörter zu sein scheinen, als „Pseudo-Homografen“ (nochmals darauf hingewiesen) dass diese Begriffe in anderen Zusammenhängen selbst für Verwirrung sorgen können). In der chinesischen Sprache sind viele vereinfachte chinesische Schriftzeichen Homoglyphen der entsprechenden traditionellen chinesischen Schriftzeichen .

Bemühungen von TLD-Registrys und Webbrowser- Designern sind im Gange, um das Risiko homoglyphischer Verwechslungen zu minimieren. Im Allgemeinen wird dies dadurch erreicht, dass Namen verboten werden, die Zeichensätze aus mehreren Sprachen mischen ( spielzeug-Я-us.org mit dem kyrillischen Buchstaben Я wäre ungültig, aber wíkipedia.org und wikipedia.org existieren immer noch als unterschiedliche Websites); Kanadas .ca- Registry geht noch einen Schritt weiter, indem es verlangt, dass Namen, die sich nur in diakritischen Zeichen unterscheiden , denselben Eigentümer und denselben Registrar haben. Der Umgang mit chinesischen Schriftzeichen ist unterschiedlich: Bei .org und .info ist bei der Registrierung einer Variante die andere für niemanden verfügbar, während bei .biz die traditionelle und vereinfachte Version desselben Namens als Zwei-Domain-Bundle geliefert wird, die beide auf die gleichen Domain-Name-Server .

Entsprechende Dokumentation finden Sie sowohl auf den Websites der Entwickler als auch in einem von ICANN bereitgestellten IDN-Forum .

Kanonisierung

Homoglyphen aller Art können durch einen Prozess namens „doppelte Kanonisierung“ erkannt werden. Der erste Schritt in diesem Prozess besteht darin, Homoglyphensätze zu identifizieren, dh Zeichen, die einem bestimmten Beobachter gleich erscheinen. Von hier aus wird ein einzelnes Token angegeben, um den Homoglyphensatz darzustellen. Dieses Token wird als Kanon bezeichnet. Der nächste Schritt besteht darin, jedes Zeichen im Text in den entsprechenden Kanon in einem Prozess namens Kanonisierung umzuwandeln. Wenn die Kanons zweier Textreihen gleich sind, aber der Originaltext unterschiedlich ist, dann existiert eine Homoglyphe im Text.

Siehe auch

IDN-Homografenangriff – Optisch ähnliche Buchstaben in Domainnamen
Doppelte Zeichen in Unicode
Serife
minim (Paläographie) – Kurzer vertikaler Strich in der Handschrift
Auf den Kfz-Kennzeichen von Bosnien und Herzegowina werden nur Zahlen und Buchstaben verwendet, die im lateinischen und kyrillischen Alphabet gleich aussehen.

Verweise

Externe Links

https://www.unicode.org/Public/security/latest/confusables.txt – empfohlene Verwechslungszuordnung für IDN.

Languages

In other projects