Maschinenübersetzung - Machine translation

Maschinelle Übersetzung , manchmal auch mit der Abkürzung MT bezeichnet (nicht zu verwechseln mit computergestützter Übersetzung , maschinengestützter menschlicher Übersetzung oder interaktiver Übersetzung ), ist ein Teilgebiet der Computerlinguistik , das den Einsatz von Software zur Übersetzung von Text oder Sprache untersucht von einer Sprache zur anderen.

Auf einer grundlegenden Ebene führt MT eine mechanische Ersetzung von Wörtern in einer Sprache durch Wörter in einer anderen durch, aber dies allein führt selten zu einer guten Übersetzung, da die Erkennung ganzer Phrasen und ihrer nächsten Entsprechungen in der Zielsprache erforderlich ist. Nicht alle Wörter in einer Sprache haben äquivalente Wörter in einer anderen Sprache, und viele Wörter haben mehr als eine Bedeutung.

Die Lösung dieses Problems mit korpusstatistischen und neuronalen Techniken ist ein schnell wachsendes Feld, das zu besseren Übersetzungen, dem Umgang mit Unterschieden in der sprachlichen Typologie , der Übersetzung von Redewendungen und der Isolierung von Anomalien führt.

Aktuelle maschinelle Übersetzungssoftware ermöglicht oft eine Anpassung nach Domänen oder Beruf (wie Wetterberichten ), wodurch die Ausgabe verbessert wird, indem der Umfang der zulässigen Ersetzungen eingeschränkt wird. Diese Technik ist besonders effektiv in Bereichen, in denen formale oder formelhafte Sprache verwendet wird. Daraus folgt, dass die maschinelle Übersetzung von Regierungs- und Rechtsdokumenten leichter brauchbare Ergebnisse liefert als Konversation oder weniger standardisierter Text.

Eine verbesserte Ausgabequalität kann auch durch menschliche Eingriffe erreicht werden: Einige Systeme können beispielsweise genauer übersetzen, wenn der Benutzer eindeutig identifiziert hat, welche Wörter im Text Eigennamen sind. Mit Hilfe dieser Techniken hat sich MT als nützliches Werkzeug zur Unterstützung menschlicher Übersetzer erwiesen und kann in einer sehr begrenzten Anzahl von Fällen sogar Ausgaben erzeugen, die so wie sie sind (zB Wetterberichte) verwendet werden können.

Der Fortschritt und das Potenzial der maschinellen Übersetzung wurden im Laufe ihrer Geschichte viel diskutiert. Seit den 1950er Jahren haben eine Reihe von Wissenschaftlern, allen voran Yehoshua Bar-Hillel , die Möglichkeit einer qualitativ hochwertigen vollautomatischen maschinellen Übersetzung in Frage gestellt.

Geschichte

Ursprünge

Die Ursprünge der maschinellen Übersetzung können auf die Arbeit zurückverfolgt werden Al-Kindi , eine neunten Jahrhundert arabischen Kryptograph der Techniken für die systemische Sprachübersetzung entwickelt, einschließlich der Kryptoanalyse , Frequenzanalyse und Wahrscheinlichkeit und Statistik , die in der modernen maschinellen Übersetzung verwendet werden. Die Idee der maschinellen Übersetzung tauchte später im 17. Jahrhundert auf. 1629 schlug René Descartes eine universelle Sprache vor, mit gleichwertigen Ideen in verschiedenen Sprachen, die ein Symbol teilen.

Die Idee, digitale Computer für die Übersetzung natürlicher Sprachen zu verwenden, wurde bereits 1946 von Englands AD Booth und Warren Weaver gleichzeitig von der Rockefeller Foundation vorgeschlagen . "Das 1949 von Warren Weaver verfasste Memorandum ist vielleicht die einflussreichste Einzelpublikation in den Anfängen der maschinellen Übersetzung." Andere folgten. An der APEXC- Maschine am Birkbeck College ( Universität London ) wurde 1954 eine rudimentäre Übersetzung des Englischen ins Französische demonstriert . Zu dieser Zeit wurden mehrere Artikel zu diesem Thema veröffentlicht und sogar Artikel in populären Zeitschriften (zum Beispiel ein Artikel von Cleave und Zacharov in der September-Ausgabe 1955 von Wireless World ). Eine ähnliche Anwendung, die damals ebenfalls am Birkbeck College entwickelt wurde, war das Lesen und Verfassen von Braille- Texten am Computer.

1950er Jahre

Der erste Forscher auf diesem Gebiet, Yehoshua Bar-Hillel , begann seine Forschungen am MIT (1951). Ein MT-Forschungsteam der Georgetown University unter der Leitung von Professor Michael Zarechnak folgte (1951) mit einer öffentlichen Demonstration seines Georgetown-IBM-Experimentsystems im Jahr 1954. MT-Forschungsprogramme entstanden in Japan und Russland (1955), und die erste MT-Konferenz war in London (1956).

David G. Hays „schrieb bereits 1957 über computergestützte Sprachverarbeitung“ und „war von 1955 bis 1968 Projektleiter für Computerlinguistik bei Rand “.

1960–1975

Als in den USA die Association for Machine Translation and Computational Linguistics (1962) und die National Academy of Sciences das Automatic Language Processing Advisory Committee (ALPAC) für das Studium der MT (1964) gegründet wurden, kamen weitere Forscher hinzu. Die wirklichen Fortschritte waren jedoch viel langsamer, und nach dem ALPAC-Bericht (1966), der feststellte, dass die zehnjährige Forschung die Erwartungen nicht erfüllt hatte, wurden die Mittel stark reduziert. Laut einem Bericht des Direktors für Verteidigungsforschung und -technik (DDR&E) aus dem Jahr 1972 wurde die Machbarkeit groß angelegter MT durch den Erfolg des Logos MT-Systems bei der Übersetzung von Militärhandbüchern ins Vietnamesische während dieses Konflikts wiederhergestellt.

Auch das französische Textilinstitut setzte MT ein, um Abstracts aus dem Französischen, Englischen, Deutschen und Spanischen zu übersetzen (1970); Die Brigham Young University startete ein Projekt zur Übersetzung mormonischer Texte durch automatisierte Übersetzung (1971).

1975 und später

SYSTRAN , das in den 1960er Jahren "auf dem Gebiet im Rahmen von Verträgen mit der US-Regierung Pionierarbeit leistete", wurde von Xerox verwendet, um technische Handbücher zu übersetzen (1978). Ab den späten 1980er Jahren, als die Rechenleistung zunahm und billiger wurde, wurde ein größeres Interesse an statistischen Modellen für die maschinelle Übersetzung geweckt . MT wurde nach dem Aufkommen der Computer immer beliebter. Das erste Implementierungssystem von SYSTRAN wurde 1988 vom Online-Dienst Minitel der französischen Post implementiert . Es wurden auch verschiedene computerbasierte Übersetzungsunternehmen gegründet, darunter Trados (1984), das als erstes Unternehmen die Translation-Memory-Technologie entwickelte und vermarktete (1989), obwohl dies nicht mit MT identisch ist. Das erste kommerzielle MT-System für Russisch / Englisch / Deutsch-Ukrainisch wurde an der Staatlichen Universität Kharkov (1991) entwickelt.

1998 konnte man "für nur 29,95 Dollar" ein Programm kaufen, um zwischen Englisch und einer der wichtigsten europäischen Sprachen Ihrer Wahl in eine Richtung zu übersetzen, um auf einem PC zu laufen.

MT im Web begann damit, dass SYSTRAN die kostenlose Übersetzung kleiner Texte anbot (1996) und diese dann über AltaVista Babelfish bereitstellte, das täglich 500.000 Anfragen sammelte (1997). Der zweite kostenlose Übersetzungsdienst im Internet war GlobaLink von Lernout & Hauspie . Das Atlantic Magazine schrieb 1998, dass "Babelfish von Systran und Comprende von GlobaLink" "Don't bank on it" mit einer "kompetenten Leistung" behandelten.

Franz Josef Och (der zukünftige Leiter der Übersetzungsentwicklung bei Google) gewann den Speed-MT-Wettbewerb von DARPA (2003). Weitere Innovationen während dieser Zeit waren MOSES, die Open-Source-Statistik-MT-Engine (2007), ein Text-/SMS-Übersetzungsdienst für Mobiltelefone in Japan (2008) und ein Mobiltelefon mit integrierter Sprach-zu-Sprache-Übersetzungsfunktion für Englisch , Japanisch und Chinesisch (2009). Im Jahr 2012 gab Google bekannt, dass Google Translate ungefähr genug Text übersetzt, um 1 Million Bücher an einem Tag zu füllen.

Übersetzungsprozess

Der menschliche Übersetzungsprozess kann wie folgt beschrieben werden:

  1. Entschlüsselung der Bedeutung des Quelltextes ; und
  2. RE- kodiert diese Bedeutung in der Zielsprache.

Hinter diesem vermeintlich einfachen Verfahren verbirgt sich eine komplexe kognitive Operation. Um die Bedeutung des Ausgangstextes in seiner Gesamtheit zu entschlüsseln , muss der Übersetzer alle Merkmale des Textes interpretieren und analysieren, ein Prozess, der tiefgehende Kenntnisse der Grammatik , Semantik , Syntax , Idiome usw. der Ausgangssprache erfordert , sowie die Kultur seiner Sprecher. Der Übersetzer benötigt dasselbe fundierte Wissen, um die Bedeutung in der Zielsprache neu zu kodieren.

Darin liegt die Herausforderung bei der maschinellen Übersetzung: einen Computer zu programmieren, der einen Text wie ein Mensch „versteht“ und der einen neuen Text in der Zielsprache „erzeugt“, der klingt, als wäre er von einer Person geschrieben worden . Sofern nicht von einer 'Wissensbasis' unterstützt, bietet MT nur eine allgemeine, wenn auch unvollkommene Annäherung an den Originaltext, um den "Wesen" davon zu erhalten (ein Vorgang, der "Gisting" genannt wird). Dies ist für viele Zwecke ausreichend, einschließlich der optimalen Nutzung der begrenzten und teuren Zeit eines menschlichen Übersetzers, die für Fälle reserviert ist, in denen absolute Genauigkeit unabdingbar ist.

Nähert sich

Die Pyramide von Bernard Vauquois zeigt vergleichende Tiefen der intermediären Repräsentation, interlinguale maschinelle Übersetzung an der Spitze, gefolgt von transferbasierter, dann direkter Übersetzung.

Die maschinelle Übersetzung kann eine Methode verwenden, die auf linguistischen Regeln basiert , was bedeutet, dass Wörter sprachlich übersetzt werden – die am besten geeigneten (mündlich gesprochenen) Wörter der Zielsprache ersetzen die in der Ausgangssprache.

Es wird oft argumentiert, dass für den Erfolg der maschinellen Übersetzung zuerst das Problem des natürlichen Sprachverständnisses gelöst werden muss.

Im Allgemeinen parsen regelbasierte Verfahren einen Text, wobei in der Regel eine vermittelnde, symbolische Repräsentation erstellt wird, aus der der Text in der Zielsprache generiert wird. Je nach Art der vermittelnden Darstellung wird ein Ansatz als interlinguale maschinelle Übersetzung oder transferbasierte maschinelle Übersetzung bezeichnet . Diese Methoden erfordern umfangreiche Lexika mit morphologischen , syntaktischen und semantischen Informationen sowie umfangreiche Regelwerke.

Wenn genügend Daten vorhanden sind, funktionieren maschinelle Übersetzungsprogramme oft gut genug, damit ein Muttersprachler einer Sprache die ungefähre Bedeutung des Geschriebenen des anderen Muttersprachlers erhält. Die Schwierigkeit besteht darin, genügend Daten der richtigen Art zu erhalten, um die jeweilige Methode zu unterstützen. Beispielsweise ist der große mehrsprachige Datenkorpus, der für das Funktionieren statistischer Verfahren erforderlich ist, für die grammatikbasierten Verfahren nicht erforderlich. Die Grammatikmethoden benötigen jedoch einen erfahrenen Linguisten, um die von ihnen verwendete Grammatik sorgfältig zu entwerfen.

Um zwischen eng verwandten Sprachen zu übersetzen, kann die Technik verwendet werden, die als regelbasierte Maschinenübersetzung bezeichnet wird.

Regelbasiert

Das Paradigma der regelbasierten maschinellen Übersetzung umfasst die übertragungsbasierte maschinelle Übersetzung, die interlinguale maschinelle Übersetzung und die wörterbuchbasierten Paradigmen der maschinellen Übersetzung. Diese Art der Übersetzung wird hauptsächlich bei der Erstellung von Wörterbüchern und Grammatikprogrammen verwendet. Im Gegensatz zu anderen Methoden beinhaltet RBMT mehr Informationen über die Linguistik der Ausgangs- und Zielsprachen, wobei die morphologischen und syntaktischen Regeln und die semantische Analyse beider Sprachen verwendet werden. Der grundlegende Ansatz besteht darin, die Struktur des Eingabesatzes mit der Struktur des Ausgabesatzes unter Verwendung eines Parsers und eines Analysators für die Quellsprache, eines Generators für die Zielsprache und eines Transferlexikons für die eigentliche Übersetzung zu verknüpfen. Der größte Nachteil von RBMT besteht darin, dass alles explizit gemacht werden muss: orthographische Variationen und fehlerhafte Eingaben müssen in den Quellsprachenanalysator aufgenommen werden, um damit fertig zu werden, und es müssen lexikalische Auswahlregeln für alle Fälle von Mehrdeutigkeit geschrieben werden. Die Anpassung an neue Domänen an sich ist nicht so schwer, da die Kerngrammatik in allen Domänen gleich ist und die domänenspezifische Anpassung auf die Anpassung der lexikalischen Auswahl beschränkt ist.

Transferbasierte maschinelle Übersetzung

Transferbasierte maschinelle Übersetzung ähnelt der interlingualen maschinellen Übersetzung darin, dass sie eine Übersetzung aus einer Zwischendarstellung erstellt, die die Bedeutung des ursprünglichen Satzes simuliert. Im Gegensatz zu interlingualer MÜ hängt sie teilweise von dem an der Übersetzung beteiligten Sprachpaar ab.

Interlingual

Interlinguale maschinelle Übersetzung ist ein Beispiel für regelbasierte maschinelle Übersetzungsansätze. Bei diesem Ansatz wird die Ausgangssprache, also der zu übersetzende Text, in eine interlinguale Sprache, dh eine sprachneutrale, sprachunabhängige Darstellung transformiert. Aus dem interlingua wird dann die Zielsprache generiert . Einer der Hauptvorteile dieses Systems besteht darin, dass die Interlingua mit zunehmender Anzahl von Zielsprachen, in die sie umgewandelt werden kann, an Wert gewinnt. Das einzige interlinguale maschinelle Übersetzungssystem, das auf kommerzieller Ebene in Betrieb genommen wurde, ist jedoch das System KANT (Nyberg und Mitamura, 1992), das darauf ausgelegt ist, Caterpillar Technical English (CTE) in andere Sprachen zu übersetzen.

Wörterbuchbasiert

Die maschinelle Übersetzung kann eine Methode verwenden, die auf Wörterbucheinträgen basiert , was bedeutet, dass die Wörter so übersetzt werden, wie sie von einem Wörterbuch vorliegen.

Statistisch

Statistische Maschinenübersetzung versucht, Übersetzungen mit statistischen Methoden zu erstellen , die auf zweisprachigen Textkorpora basieren, wie dem kanadischen Hansard- Korpus, dem englisch-französischen Datensatz des kanadischen Parlaments und EUROPARL , dem Datensatz des Europäischen Parlaments . Wo solche Korpora verfügbar sind, lassen sich gute Ergebnisse bei der Übersetzung ähnlicher Texte erzielen, aber solche Korpora sind für viele Sprachpaare noch selten. Die erste statistische maschinelle Übersetzungssoftware war CANDIDE von IBM . Google verwendete SYSTRAN mehrere Jahre lang, wechselte jedoch im Oktober 2007 zu einer statistischen Übersetzungsmethode. Übersetzungsgenauigkeit verbessert. Google Translate und ähnliche statistische Übersetzungsprogramme arbeiten, indem sie Muster in Hunderten von Millionen von Dokumenten erkennen, die zuvor von Menschen übersetzt wurden, und basierend auf den Ergebnissen intelligente Vermutungen anstellen. Im Allgemeinen gilt: Je mehr von Menschen übersetzte Dokumente in einer bestimmten Sprache verfügbar sind, desto wahrscheinlicher ist es, dass die Übersetzung von guter Qualität ist. Neuere Ansätze zur statistischen maschinellen Übersetzung wie METIS II und PRESEMT verwenden eine minimale Korpusgröße und konzentrieren sich stattdessen auf die Ableitung der syntaktischen Struktur durch Mustererkennung. Bei weiterer Entwicklung kann dies ermöglichen, dass die statistische maschinelle Übersetzung von einem einsprachigen Textkorpus aus abläuft. Der größte Nachteil von SMT besteht darin, dass es von riesigen Mengen paralleler Texte abhängig ist, seine Probleme mit morphologiereichen Sprachen (insbesondere bei der Übersetzung in solche Sprachen) und seine Unfähigkeit, Singleton-Fehler zu korrigieren.

Beispielbasiert

Der Ansatz der beispielbasierten maschinellen Übersetzung (EBMT) wurde 1984 von Makoto Nagao vorgeschlagen. Die beispielbasierte maschinelle Übersetzung basiert auf der Idee der Analogie. Bei diesem Ansatz wird ein Korpus verwendet, der bereits übersetzte Texte enthält. Bei einem zu übersetzenden Satz werden Sätze aus diesem Korpus ausgewählt, die ähnliche Teilsätze enthalten. Die ähnlichen Sätze werden dann verwendet, um die Teilsätze des ursprünglichen Satzes in die Zielsprache zu übersetzen, und diese Phrasen werden zu einer vollständigen Übersetzung zusammengesetzt.

Hybrid-MT

Hybrid Machine Translation (HMT) nutzt die Stärken statistischer und regelbasierter Übersetzungsmethoden. Mehrere MT-Organisationen behaupten einen hybriden Ansatz, der sowohl Regeln als auch Statistiken verwendet. Die Ansätze unterscheiden sich in vielerlei Hinsicht:

  • Regeln durch Statistiken nachbearbeitet : Übersetzungen werden mit einer regelbasierten Engine durchgeführt. Statistiken werden dann verwendet, um die Ausgabe der Regelmaschine anzupassen/zu korrigieren.
  • Durch Regeln geführte Statistiken : Regeln werden verwendet, um Daten vorzuverarbeiten, um die Statistik-Engine besser zu steuern. Regeln werden auch verwendet, um die statistische Ausgabe nachzuverarbeiten, um Funktionen wie die Normalisierung auszuführen. Dieser Ansatz bietet viel mehr Leistung, Flexibilität und Kontrolle beim Übersetzen. Es bietet auch umfassende Kontrolle darüber, wie der Inhalt sowohl während der Vorübersetzung (zB Auszeichnung von Inhalten und nicht übersetzbaren Begriffen) als auch nach der Übersetzung (zB Korrekturen und Anpassungen nach der Übersetzung) verarbeitet wird.

In jüngerer Zeit, mit dem Aufkommen von Neural MT, entsteht eine neue Version der hybriden maschinellen Übersetzung, die die Vorteile von Regeln, statistischer und neuronaler maschineller Übersetzung kombiniert. Der Ansatz ermöglicht es, von der Vor- und Nachbearbeitung in einem regelgesteuerten Workflow sowie von NMT und SMT zu profitieren. Der Nachteil ist die inhärente Komplexität, die den Ansatz nur für bestimmte Anwendungsfälle geeignet macht.

Neuronale MT

Die neuronale maschinelle Übersetzung, ein auf Deep Learning basierender Ansatz für MÜ, hat in den letzten Jahren rasante Fortschritte gemacht, und Google hat angekündigt, dass seine Übersetzungsdienste diese Technologie nun gegenüber seinen bisherigen statistischen Methoden bevorzugen. Ein Microsoft-Team behauptete, 2018 auf der WMT-2017 ("EMNLP 2017 Second Conference On Machine Translation") die menschliche Parität erreicht zu haben, was einen historischen Meilenstein darstellt. Viele Forscher haben diese Behauptung jedoch kritisiert und ihre Experimente wiederholt und diskutiert; Derzeitiger Konsens ist, dass die erreichte sogenannte menschliche Parität nicht real ist, da sie vollständig auf begrenzten Domänen, Sprachpaaren und bestimmten Testanzügen basiert, dh es fehlt ihr an statistischer Signifikanz. Es ist noch ein langer Weg, bis NMT echte menschliche Paritätsleistungen erreicht.

Um die Übersetzung idiomatischer Phrasen, Mehrwortausdrücke und niederfrequente Wörter (auch als OOV oder Wortübersetzung außerhalb des Vokabulars bezeichnet) anzugehen, wurden sprachfokussierte linguistische Funktionen in modernsten neuronalen Maschinen untersucht Übersetzungsmodelle (NMT). Beispielsweise haben sich die Zerlegungen der chinesischen Schriftzeichen in Radikale und Striche als hilfreich für die Übersetzung von Mehrwortausdrücken in NMT erwiesen.

Große Probleme

Die maschinelle Übersetzung kann einige nicht verständliche Sätze erzeugen.
Broken Chinese "沒有進入" aus maschineller Übersetzung in Bali, Indonesien . Der gebrochene chinesische Satz klingt wie "es existiert kein Eintrag" oder "noch nicht eingegeben"

Begriffsklärung

Die Begriffsklärung im Wortsinn betrifft das Finden einer geeigneten Übersetzung, wenn ein Wort mehr als eine Bedeutung haben kann. Das Problem wurde erstmals in den 1950er Jahren von Yehoshua Bar-Hillel angesprochen . Er wies darauf hin, dass eine Maschine ohne eine "universelle Enzyklopädie" niemals in der Lage sein würde, zwischen den beiden Bedeutungen eines Wortes zu unterscheiden. Heute gibt es zahlreiche Ansätze, um dieses Problem zu lösen. Sie lassen sich grob in „flache“ und „tiefe“ Ansätze unterteilen.

Flache Ansätze setzen keine Kenntnis des Textes voraus. Sie wenden einfach statistische Methoden auf die Wörter an, die das mehrdeutige Wort umgeben. Tiefe Ansätze setzen eine umfassende Kenntnis des Wortes voraus. Bisher waren flache Ansätze erfolgreicher.

Claude Piron , ein langjähriger Übersetzer für die Vereinten Nationen und die Weltgesundheitsorganisation , schrieb, dass maschinelle Übersetzung im besten Fall den einfacheren Teil der Arbeit eines Übersetzers automatisiert; der schwierigere und zeitaufwendigere Teil besteht in der Regel darin, umfangreiche Recherchen durchzuführen , um Mehrdeutigkeiten im Quelltext aufzulösen , die aufgrund der grammatikalischen und lexikalischen Anforderungen der Zielsprache gelöst werden müssen:

Warum braucht ein Übersetzer einen ganzen Arbeitstag, um fünf Seiten zu übersetzen, und nicht ein oder zwei Stunden? ..... Etwa 90% eines durchschnittlichen Textes entsprechen diesen einfachen Bedingungen. Aber leider gibt es die anderen 10%. Es ist dieser Teil, der sechs [mehr] Arbeitsstunden erfordert. Es gibt Unklarheiten, die gelöst werden müssen. So zitierte der Autor des Quelltextes, ein australischer Arzt, das Beispiel einer Epidemie, die während des Zweiten Weltkriegs in einem "japanischen Kriegsgefangenenlager" ausgerufen wurde. Spricht er von einem amerikanischen Lager mit japanischen Gefangenen oder einem japanischen Lager mit amerikanischen Gefangenen? Der Engländer hat zwei Sinne. Es ist daher notwendig, Nachforschungen anzustellen, vielleicht bis zu einem Telefonat nach Australien.

Der ideale tiefe Ansatz würde erfordern, dass die Übersetzungssoftware alle für diese Art der Begriffsklärung erforderlichen Recherchen selbst durchführt; dies würde jedoch einen höheren Grad an KI erfordern, als bisher erreicht wurde. Ein oberflächlicher Ansatz, der einfach den Sinn des mehrdeutigen englischen Satzes erraten würde, den Piron erwähnt (vielleicht basierend darauf, welche Art von Kriegsgefangenenlager in einem bestimmten Korpus häufiger erwähnt wird) hätte eine vernünftige Chance, falsch zu raten häufig. Ein oberflächlicher Ansatz, der beinhaltet, den Benutzer nach jeder Mehrdeutigkeit zu fragen, würde nach Pirons Schätzung nur etwa 25 % der Arbeit eines professionellen Übersetzers automatisieren, während die schwierigeren 75 % noch von einem Menschen erledigt werden müssten.

Nicht-Standard-Sprache

Einer der größten Tücken von MT ist die Unfähigkeit, nicht standardisierte Sprachen mit der gleichen Genauigkeit wie Standardsprachen zu übersetzen. Heuristisch oder statistisch basierte MT nimmt Eingaben aus verschiedenen Quellen in Standardform einer Sprache entgegen. Die regelbasierte Übersetzung umfasst naturgemäß keine üblichen nicht standardmäßigen Verwendungen. Dies führt zu Fehlern bei der Übersetzung aus einer einheimischen Quelle oder in die Umgangssprache. Einschränkungen bei der Übersetzung von beiläufiger Sprache führen zu Problemen bei der Verwendung der maschinellen Übersetzung in mobilen Geräten.

Benannte Entitäten

Bei der Informationsextraktion beziehen sich benannte Entitäten im engeren Sinne auf konkrete oder abstrakte Entitäten in der realen Welt wie Personen, Organisationen, Unternehmen und Orte, die einen Eigennamen haben: George Washington, Chicago, Microsoft. Es bezieht sich auch auf Ausdrücke von Zeit, Raum und Menge wie 1. Juli 2011, $500.

Im Satz "Smith ist der Präsident von Fabrionix" werden sowohl Smith als auch Fabrionix als Entitäten bezeichnet und können über den Vornamen oder andere Informationen weiter qualifiziert werden; "Präsident" ist es nicht, da Smith früher eine andere Position bei Fabrionix hätte bekleiden können, zB Vizepräsident. Der Begriff starrer Bezeichner definiert diese Verwendungen für die Analyse in der statistischen maschinellen Übersetzung.

Benannte Entitäten müssen zuerst im Text identifiziert werden; wenn nicht, werden sie möglicherweise fälschlicherweise als allgemeine Substantive übersetzt, was höchstwahrscheinlich die BLEU- Bewertung der Übersetzung nicht beeinflussen würde, aber die menschliche Lesbarkeit des Textes verändern würde. Sie können in der Ausgabeübersetzung weggelassen werden, was ebenfalls Auswirkungen auf die Lesbarkeit und Aussage des Textes hätte.

Die Transliteration umfasst das Finden der Buchstaben in der Zielsprache, die dem Namen in der Ausgangssprache am ehesten entsprechen. Dies wurde jedoch manchmal als Verschlechterung der Übersetzungsqualität angeführt. Für "Südkalifornien" sollte das erste Wort direkt übersetzt werden, während das zweite Wort transliteriert werden sollte. Maschinen transkribieren oft beides, weil sie sie als eine Einheit behandelten. Wörter wie diese sind für maschinelle Übersetzer, selbst solche mit einer Transliterationskomponente, schwer zu verarbeiten.

Verwendung einer "Nicht übersetzen"-Liste, die das gleiche Endziel hat – Transliteration im Gegensatz zu Übersetzung. verlässt sich immer noch auf die korrekte Identifizierung benannter Entitäten.

Ein dritter Ansatz ist ein klassenbasiertes Modell. Benannte Entitäten werden durch ein Token ersetzt, um ihre "Klasse" darzustellen; "Ted" und "Erica" ​​würden beide durch das Klassen-Token "Person" ersetzt. Dann kann die statistische Verteilung und Verwendung von Personennamen im Allgemeinen analysiert werden, anstatt die Verteilungen von "Ted" und "Erica" ​​einzeln zu betrachten, so dass die Wahrscheinlichkeit eines Vornamens in einer bestimmten Sprache die zugeordnete Wahrscheinlichkeit nicht beeinflusst einer Übersetzung. Eine Studie von Stanford zur Verbesserung dieses Übersetzungsbereichs gibt die Beispiele, dass „David is going for a walk“ und „Ankit is going for a walk“ für Englisch als Zielsprache aufgrund der unterschiedlichen Häufigkeiten mit unterschiedlichen Wahrscheinlichkeiten belegt werden für jeden Namen in den Trainingsdaten. Ein frustrierendes Ergebnis derselben Studie von Stanford (und anderer Versuche, die Übersetzung mit benannter Erkennung zu verbessern) ist, dass oft ein Rückgang der BLEU- Scores für die Übersetzung aus der Einbeziehung von Methoden für die Übersetzung benannter Entitäten resultiert.

Etwas verwandt sind die Sätze "Tee trinken mit Milch" vs. "Tee trinken mit Molly".

Übersetzung aus multiparallelen Quellen

Es wurde einiges an der Verwendung von multiparallelen Korpora geleistet , d. h. einem Textkörper, der in 3 oder mehr Sprachen übersetzt wurde. Unter Verwendung dieser Verfahren kann ein Text, der in zwei oder mehr Sprachen übersetzt wurde, in Kombination verwendet werden, um eine genauere Übersetzung in eine dritte Sprache bereitzustellen, als wenn nur eine dieser Ausgangssprachen allein verwendet würde.

Ontologien in MT

Eine Ontologie ist eine formale Darstellung von Wissen, die die Konzepte (wie Objekte, Prozesse usw.) in einer Domäne und einige Beziehungen zwischen ihnen umfasst. Sind die gespeicherten Informationen sprachlicher Natur, kann man von einem Lexikon sprechen. Im NLP können Ontologien als Wissensquelle für maschinelle Übersetzungssysteme verwendet werden. Durch den Zugriff auf eine große Wissensdatenbank können Systeme in die Lage versetzt werden, viele (insbesondere lexikalische) Mehrdeutigkeiten selbst aufzulösen. In den folgenden klassischen Beispielen können wir als Menschen die Präpositionalphrase kontextbezogen interpretieren, weil wir unser in unseren Lexika gespeichertes Weltwissen nutzen:

"Ich habe einen Menschen/Stern/Molekül mit einem Mikroskop/Teleskop/Fernglas gesehen."

Ein maschinelles Übersetzungssystem wäre zunächst nicht in der Lage, die Bedeutungen zu unterscheiden, da sich die Syntax nicht ändert. Mit einer ausreichend großen Ontologie als Wissensquelle können jedoch die möglichen Interpretationen mehrdeutiger Wörter in einem bestimmten Kontext reduziert werden. Weitere Einsatzgebiete für Ontologien im NLP sind Information Retrieval , Informationsextraktion und Textzusammenfassung .

Ontologien aufbauen

Die 1993 für das wissensbasierte maschinelle Übersetzungssystem PANGLOSS erstellte Ontologie kann als Beispiel dafür dienen, wie eine Ontologie für NLP- Zwecke erstellt werden kann:

  • Eine umfangreiche Ontologie ist notwendig, um das Parsen in den aktiven Modulen des maschinellen Übersetzungssystems zu unterstützen.
  • Im PANGLOSS-Beispiel sollten etwa 50.000 Knoten unter den kleineren, manuell erstellten oberen (abstrakten) Bereich der Ontologie subsumiert werden . Aufgrund seiner Größe musste es automatisch erstellt werden.
  • Ziel war es, die beiden Ressourcen LDOCE online und WordNet zusammenzuführen , um die Vorteile beider zu kombinieren: prägnante Definitionen von Longman und semantische Beziehungen, die eine halbautomatische Taxonomie in die Ontologie von WordNet ermöglichen.
    • Eine Definition Match - Algorithmus wurde geschaffen , um automatisch die richtigen Bedeutungen von mehrdeutigen Wörtern zwischen den beiden Online - Ressourcen zusammenführen, basierend auf den Worten , dass die Definitionen dieser Bedeutungen gemeinsam in LDOCE haben und WordNet. Unter Verwendung einer Ähnlichkeitsmatrix lieferte der Algorithmus Übereinstimmungen zwischen Bedeutungen, einschließlich eines Konfidenzfaktors. Dieser Algorithmus allein passte jedoch nicht alle Bedeutungen für sich allein richtig an.
    • Daher wurde ein zweiter Hierarchie-Match- Algorithmus geschaffen, der die taxonomischen Hierarchien von WordNet (tiefe Hierarchien) und teilweise von LDOCE (flache Hierarchien) verwendet. Dies funktioniert, indem zuerst eindeutige Bedeutungen abgeglichen werden und dann der Suchraum auf die jeweiligen Vorfahren und Nachkommen dieser übereinstimmenden Bedeutungen beschränkt wird. Somit passte der Algorithmus lokal eindeutige Bedeutungen an (zum Beispiel, während das Wort Siegel als solches mehrdeutig ist, gibt es nur eine Bedeutung von "Siegel" in der Unterhierarchie der Tiere ).
  • Beide Algorithmen ergänzten sich und halfen beim Aufbau einer groß angelegten Ontologie für das maschinelle Übersetzungssystem. Die WordNet-Hierarchien, verbunden mit den passenden Definitionen von LDOCE, wurden dem oberen Bereich der Ontologie untergeordnet . Als Ergebnis konnte das PANGLOSS MT-System diese Wissensbasis hauptsächlich in seinem Generierungselement nutzen.

Anwendungen

Während kein System den Heiligen Gral der vollautomatischen qualitativ hochwertigen maschinellen Übersetzung von uneingeschränktem Text bietet, produzieren viele vollautomatische Systeme eine vernünftige Ausgabe. Die Qualität der maschinellen Übersetzung wird wesentlich verbessert, wenn die Domäne eingeschränkt und kontrolliert wird.

Trotz ihrer inhärenten Einschränkungen werden MT-Programme auf der ganzen Welt verwendet. Der wahrscheinlich größte institutionelle Nutzer ist die Europäische Kommission . DieDas von der Universität Göteborg koordinierte MOLTO- Projekt erhielt beispielsweisemehr als 2,375 Millionen Euro Projektunterstützung von der EU, um ein zuverlässiges Übersetzungstool zu schaffen, das die meisten EU-Sprachen abdeckt. Die Weiterentwicklung von MÜ-Systemen erfolgt zu einer Zeit, in der Budgetkürzungen bei der Humanübersetzung die Abhängigkeit der EU von zuverlässigen MÜ-Programmen erhöhen können. Die Europäische Kommission hat (über ihr ISA-Programm) 3,072 Millionen Euro zur Schaffung von MT@EC beigetragen, einem statistischen maschinellen Übersetzungsprogramm, das auf die administrativen Bedürfnisse der EU zugeschnitten ist, um ein früheres regelbasiertes maschinelles Übersetzungssystem zu ersetzen.

Im Jahr 2005 behauptete Google , dass mit einer proprietären statistischen maschinellen Übersetzungsmaschine vielversprechende Ergebnisse erzielt wurden. Die statistische Übersetzungs - Engine in den verwendete Google Sprachtool für Arabisch <-> Englisch und Chinesisch <-> Englisch hatte eine Gesamtnote von 0,4281 über den Zweitplatzierten IBMs BLEU -4 Punktzahl von 0,3954 (Sommer 2006) in Tests , die von der National durchgeführt Institut für Normen und Technik.

Mit der jüngsten Konzentration auf den Terrorismus haben die Militärquellen in den Vereinigten Staaten erhebliche Geldbeträge in die Entwicklung natürlicher Sprache investiert. In-Q-Tel (ein Risikokapitalfonds , der größtenteils von der US-Geheimdienstgemeinschaft finanziert wird, um neue Technologien durch Unternehmer aus dem Privatsektor zu fördern) brachte Unternehmen wie Language Weaver hervor . Derzeit ist die Militärgemeinde an der Übersetzung und Verarbeitung von Sprachen wie Arabisch , Paschtu und Dari interessiert . Innerhalb dieser Sprachen liegt der Fokus auf Schlüsselsätzen und der schnellen Kommunikation zwischen Militärangehörigen und Zivilisten durch die Nutzung von Handy-Apps. Das Büro für Informationsverarbeitungstechnologie in DARPA beherbergt Programme wie TIDES und Babylon Übersetzer . Die US Air Force hat einen Auftrag über 1 Million US-Dollar zur Entwicklung einer Sprachübersetzungstechnologie vergeben.

Der bemerkenswerte Anstieg der sozialen Netzwerke im Internet in den letzten Jahren hat eine weitere Nische für die Anwendung von maschineller Übersetzungssoftware geschaffen – in Dienstprogrammen wie Facebook oder Instant Messaging- Clients wie Skype, GoogleTalk, MSN Messenger usw. – die es den Benutzern ermöglichen, zu sprechen verschiedene Sprachen miteinander kommunizieren. Maschinenübersetzungsanwendungen wurden auch für die meisten mobilen Geräte veröffentlicht, einschließlich Mobiltelefone, Pocket-PCs, PDAs usw. Aufgrund ihrer Portabilität werden solche Instrumente als mobile Übersetzungstools bezeichnet , die eine mobile Geschäftsvernetzung zwischen Partnern ermöglichen, die verschiedene Sprachen sprechen, oder Erleichtert sowohl das Erlernen von Fremdsprachen als auch das unbegleitete Reisen in fremde Länder ohne die Vermittlung eines menschlichen Übersetzers.

Obwohl sie 1966 vom Automated Language Processing Advisory Committee der US-Regierung als unwürdiger Konkurrent der menschlichen Übersetzung bezeichnet wurde, wurde die Qualität der maschinellen Übersetzung inzwischen so weit verbessert, dass ihre Anwendung in der Online-Zusammenarbeit und im medizinischen Bereich möglich ist werden untersucht. Die Anwendung dieser Technologie in medizinischen Einrichtungen, in denen menschliche Übersetzer fehlen, ist ein weiteres Forschungsthema, aber aufgrund der Bedeutung genauer Übersetzungen bei medizinischen Diagnosen ergeben sich Schwierigkeiten.

Auswertung

Es gibt viele Faktoren, die sich darauf auswirken, wie maschinelle Übersetzungssysteme bewertet werden. Zu diesen Faktoren gehören die beabsichtigte Verwendung der Übersetzung, die Art der maschinellen Übersetzungssoftware und die Art des Übersetzungsprozesses.

Verschiedene Programme können für verschiedene Zwecke gut funktionieren. Beispielsweise übertrifft die statistische maschinelle Übersetzung (SMT) in der Regel die beispielbasierte maschinelle Übersetzung (EBMT), aber die Forscher fanden heraus, dass EBMT bei der Bewertung der Übersetzung vom Englischen ins Französische besser abschneidet. Das gleiche Konzept gilt für technische Dokumente, die aufgrund ihrer formalen Sprache leichter von SMT übersetzt werden können.

Bei bestimmten Anwendungen, z. B. Produktbeschreibungen, die in einer kontrollierten Sprache geschrieben sind , hat ein wörterbuchbasiertes maschinelles Übersetzungssystem jedoch zufriedenstellende Übersetzungen erzeugt, die außer für die Qualitätsprüfung kein menschliches Eingreifen erfordern.

Es gibt verschiedene Möglichkeiten, die Ausgabequalität von maschinellen Übersetzungssystemen zu bewerten. Die älteste ist die Verwendung menschlicher Richter, um die Qualität einer Übersetzung zu beurteilen. Auch wenn die Bewertung durch den Menschen zeitaufwändig ist, ist sie immer noch die zuverlässigste Methode, um verschiedene Systeme wie regelbasierte und statistische Systeme zu vergleichen. Zu den automatisierten Auswertungsmitteln gehören BLEU , NIST , METEOR und LEPOR .

Wenn man sich ausschließlich auf die unbearbeitete maschinelle Übersetzung verlässt, wird die Tatsache ignoriert, dass die Kommunikation in menschlicher Sprache in den Kontext eingebettet ist und es eine Person braucht, um den Kontext des Originaltexts mit einer angemessenen Wahrscheinlichkeit zu verstehen . Es ist sicher richtig, dass auch rein menschlich erstellte Übersetzungen fehleranfällig sind. Um sicherzustellen, dass eine maschinell erstellte Übersetzung für einen Menschen nützlich ist und eine publikationsfähige Übersetzung erreicht wird, müssen solche Übersetzungen daher von einem Menschen überprüft und bearbeitet werden. Der verstorbene Claude Piron schrieb, dass maschinelle Übersetzung im besten Fall den einfacheren Teil der Arbeit eines Übersetzers automatisiert; der schwierigere und zeitaufwendigere Teil besteht in der Regel darin, umfangreiche Recherchen durchzuführen , um Mehrdeutigkeiten im Quelltext aufzulösen , die aufgrund der grammatikalischen und lexikalischen Anforderungen der Zielsprache gelöst werden müssen. Eine solche Recherche ist ein notwendiger Auftakt für die Vorbearbeitung, die notwendig ist, um Eingaben für maschinelle Übersetzungssoftware bereitzustellen, damit die Ausgabe nicht bedeutungslos ist .

Zusätzlich zu Begriffsklärungsproblemen kann eine verringerte Genauigkeit aufgrund unterschiedlicher Niveaus von Trainingsdaten für Maschinenübersetzungsprogramme auftreten. Sowohl die beispielbasierte als auch die statistische maschinelle Übersetzung stützen sich auf eine Vielzahl realer Beispielsätze als Übersetzungsgrundlage, und wenn zu viele oder zu wenige Sätze analysiert werden, ist die Genauigkeit gefährdet. Die Forscher fanden heraus, dass die Genauigkeit tatsächlich abnimmt, wenn ein Programm mit 203.529 Satzpaaren trainiert wird. Das optimale Niveau der Trainingsdaten scheint bei etwas über 100.000 Sätzen zu liegen, möglicherweise weil mit zunehmenden Trainingsdaten die Anzahl der möglichen Sätze zunimmt, was es schwieriger macht, eine exakte Übersetzung zu finden.

Maschinelle Übersetzung als Lehrmittel nutzen

Obwohl es Bedenken hinsichtlich der Genauigkeit der maschinellen Übersetzung gab, hat Dr. Ana Nino von der University of Manchester einige der Vorteile des Einsatzes maschineller Übersetzung im Unterricht untersucht. Eine solche pädagogische Methode wird als "MT als schlechtes Modell" bezeichnet. MT als schlechtes Modell zwingt den Sprachlerner, Inkonsistenzen oder fehlerhafte Aspekte einer Übersetzung zu erkennen; die Person wiederum wird (hoffentlich) ein besseres Sprachverständnis besitzen. Dr. Nino führt an, dass dieses Lehrmittel Ende der 1980er Jahre eingeführt wurde. Am Ende verschiedener Semester konnte Dr. Nino Umfrageergebnisse von Studenten erhalten, die MT als schlechtes Modell (sowie andere Modelle) verwendet hatten Vertrauen in ihre Zielsprache.

Maschinelle Übersetzung und Gebärdensprachen

In den frühen 2000er Jahren waren die Möglichkeiten der maschinellen Übersetzung zwischen gesprochenen und gebärdensprachen stark eingeschränkt. Es war ein allgemeiner Glaube, dass gehörlose Menschen traditionelle Übersetzer verwenden könnten. Stress, Intonation, Tonhöhe und Timing werden in gesprochenen Sprachen jedoch ganz anders vermittelt als in Gebärdensprachen. Daher kann eine gehörlose Person die Bedeutung eines geschriebenen Textes, der auf einer gesprochenen Sprache basiert, falsch interpretieren oder verwirrt werden.

Die Forscher Zhao et al. (2000), entwickelte einen Prototyp namens TEAM (Übersetzung vom Englischen in die ASL durch Maschine), der Übersetzungen vom Englischen in die Amerikanische Gebärdensprache (ASL) fertigstellte . Das Programm würde zunächst die syntaktischen, grammatikalischen und morphologischen Aspekte des englischen Textes analysieren. Nach diesem Schritt griff das Programm auf einen Zeichensynthesizer zu, der als Wörterbuch für ASL fungierte. Dieser Synthesizer beherbergte den Prozess, den man befolgen muss, um ASL-Zeichen zu vervollständigen, sowie die Bedeutung dieser Zeichen. Sobald der gesamte Text analysiert ist und die zum Abschließen der Übersetzung erforderlichen Zeichen im Synthesizer lokalisiert sind, taucht ein computergenerierter Mensch auf und verwendet ASL, um dem Benutzer den englischen Text zu signieren.

Urheberrechte ©

Nur Arbeiten , die ursprünglich unterliegen dem Copyright - Schutz, so einige Wissenschaftler , dass die maschinelle Übersetzung Ergebnisse behaupten , nicht dem Schutz des Urheberrechts berechtigt sind , weil MT nicht beteiligt ist Kreativität . Das strittige Urheberrecht gilt für ein abgeleitetes Werk ; Der Urheber des Originalwerks in der Originalsprache verliert seine Rechte bei der Übersetzung eines Werkes nicht: Ein Übersetzer muss die Erlaubnis haben , eine Übersetzung zu veröffentlichen .

Siehe auch

Anmerkungen

Weiterlesen

Externe Links