Philipp Köhn - Philipp Koehn

Philipp Köhn
Geboren ( 1971-08-01 )1. August 1971 (Alter 50)
Staatsbürgerschaft Deutschland
Alma Mater Albert Schweitzer High School (Erlangen) , Universität Erlangen-Nürnberg , University of Tennessee , University of Southern California
Bekannt für Europarl-Korpus , Moses
Auszeichnungen Finalist – Europäischer Erfinderpreis des EPA 2013
Wissenschaftlicher Werdegang
Felder Informatik , Verarbeitung natürlicher Sprache , maschinelle Übersetzung , sprachübergreifende Informationsbeschaffung
Institutionen University of Edinburgh , Johns Hopkins University
Doktoratsberater Kevin Ritter

Philipp Koehn (* 1. August 1971 in Erlangen , BRD ) ist Informatiker und Forscher auf dem Gebiet der maschinellen Übersetzung . Sein Hauptforschungsinteresse gilt der statistischen maschinellen Übersetzung und er ist einer der Erfinder einer Methode, die sich Phrasenbasierte maschinelle Übersetzung nennt. Dies ist ein Teilgebiet statistischer Übersetzungsverfahren, das Wortfolgen (oder sogenannte "Phrasen") als Übersetzungsgrundlage verwendet und die bisherigen wortbasierten Ansätze erweitert. Ein 2003 von ihm zusammen mit Franz Josef Och und Daniel Marcu verfasstes Papier mit dem Titel Statistische Phrasenbasierte Übersetzung hat in der Gemeinschaft der maschinellen Übersetzung große Aufmerksamkeit auf sich gezogen und wurde über tausend Mal zitiert. Phrasenbasierte Methoden werden häufig in maschinellen Übersetzungsanwendungen in der Industrie verwendet.

Philipp Koehn promovierte 2003 in Informatik an der University of Southern California , wo er unter der Leitung von Kevin Knight am Information Sciences Institute arbeitete . Nach einem Jahr als Postdoc unter Michael Collins am Massachusetts Institute of Technology , er trat Universität Edinburgh als Dozent in der Fakultät für Informatik im Jahr 2005 wurde er zum Leser im Jahr 2012 im Jahr 2010 und Professor Im Jahr 2014 war er Ernennung zum Professor an der Fakultät für Informatik der Johns Hopkins University , wo er dem Center for Language and Speech Processing angegliedert ist .

Moses Statistical Machine Translation Decoder

Der Moses- Decoder für maschinelle Übersetzung ist ein Open-Source-Projekt, das von Philipp Koehn erstellt wurde und unter dessen Leitung gepflegt wird. Der Moses- Decoder ist eine Plattform zur Entwicklung von statistischen maschinellen Übersetzungssystemen mit einem parallelen Korpus für ein beliebiges Sprachpaar. Der Decoder wurde hauptsächlich von Hieu Hoang und Philipp Koehn an der University of Edinburgh entwickelt und während eines Sommerworkshops der Johns Hopkins University erweitert und im Rahmen der Projektförderung von Euromatrix und GALE weiterentwickelt . Der Decoder (der Teil eines vollständigen Toolkits für die statistische maschinelle Übersetzung ist) ist der De-facto-Benchmark für die Forschung auf diesem Gebiet.

Obwohl Koehn weiterhin eine wichtige Rolle bei der Entwicklung von Moses spielt, wurde der Moses-Decoder von den europäischen Framework-6-Projekten Euromatrix , TC-Star, den europäischen Framework-7-Projekten EuroMatrixPlus , Let's MT, META-NET und MosesCore und der DARPA GALE . unterstützt Projekt sowie mehrere Universitäten wie die University of Edinburgh , die University of Maryland , ITC-irst, Massachusetts Institute of Technology und andere. Wesentliche zusätzliche Beiträge zum Moses-Decoder sind Hieu Hoang, Chris Dyer, Josh Schroeder, Marcello Federico, Richard Zens und Wade Shen.

Europarl-Korpus

Das Europarl-Korpus ist eine Sammlung von Dokumenten, die aus den Berichten des Europäischen Parlaments von 1996 bis heute besteht. Das Korpus wurde von einer Forschergruppe unter der Leitung von Philipp Koehn an der University of Edinburgh zusammengestellt und erweitert . Die Daten, aus denen das Korpus besteht, wurden der Website des Europäischen Parlaments entnommen und dann für die sprachliche Forschung aufbereitet. Die neueste Version (2012) umfasste bis zu 60 Millionen Wörter pro Sprache, wobei 21 europäische Sprachen vertreten sind: Romanisch (Französisch, Italienisch, Spanisch, Portugiesisch, Rumänisch), Germanisch (Englisch, Niederländisch, Deutsch, Dänisch, Schwedisch), Slawisch (Bulgarisch , Tschechisch, Polnisch, Slowakisch, Slowenisch), Finno-Ugrisch (Finnisch, Ungarisch, Estnisch), Baltisch (Lettisch, Litauisch) und Griechisch.

Andere Interessen und Aktivitäten in chronologischer Reihenfolge

  • Koehn ist Professor an der Johns Hopkins University, wo er seine Forschungen zur maschinellen Übersetzung durch seine Zugehörigkeit zum Center for Language and Speech Processing fortsetzt
  • Koehn ist Professor und Lehrstuhl für Maschinelle Übersetzung an der University of Edinburgh ‚s School of Informatics und trägt zu ihrer Statistischen Maschinelle Übersetzung - Gruppe , die rund um das Thema Workshop, Seminare und Projekt organisiert.
  • Koehn hat SYSTRAN regelmäßig zwischen 2006 und 2011 konsultiert .   SYSTRAN wurde im April 2014 von CLSI, einem koreanischen Unternehmen für maschinelle Übersetzungen, übernommen.
  • Koehn ist außerdem Chief Scientist bei Omniscien Technologies und seit 2007 Gesellschafter von Omniscien Technologies. Omniscien Technologies ist ein privates Unternehmen, das maschinelle Übersetzungstechnologien entwickelt und vermarktet.
  • Koehn hat 2009 ein Buch mit dem Titel „Statistische maschinelle Übersetzung“ und 2020 ein Buch mit dem Titel „Neurale maschinelle Übersetzung“ verfasst.

Auszeichnungen und Anerkennung

  • 2013: Einer von drei Finalisten in der Kategorie Forschung für den Europäischen Erfinderpreis 2013 des Europäischen Patentamts (EPA) . Koehn wurde für das Patent EP 1488338 B, Phrasen-Based Joint Probability Model for Statistical Machine Translations, anerkannt, ein Übersetzungsmodell, das mathematische Wahrscheinlichkeiten verwendet, um die wahrscheinlichste Interpretation von Textblöcken zwischen Fremdsprachen zu bestimmen.
  • 2015: Koehn erhält den Ehrenpreis der International Association for Machine Translation

Verweise