Computerlexikologie - Computational lexicology

Die Computerlexikologie ist ein Zweig der Computerlinguistik , der sich mit der Verwendung von Computern beim Studium des Lexikons befasst . Einige Wissenschaftler (Amsler, 1980) haben es enger beschrieben als die Verwendung von Computern beim Studium maschinenlesbarer Wörterbücher . Es unterscheidet sich von der Computerlexikographie , bei der es sich besser um die Verwendung von Computern bei der Erstellung von Wörterbüchern handelt, obwohl einige Forscher die Computerlexikographie als Synonym verwendet haben .

Geschichte

Die Computerlexikologie entwickelte sich als eigenständige Disziplin innerhalb der Computerlinguistik mit dem Erscheinen maschinenlesbarer Wörterbücher, beginnend mit der Erstellung der maschinenlesbaren Bänder des Merriam-Webster Seventh Collegiate Dictionary und des Merriam-Webster New Pocket Dictionary in den 1960er Jahren von John Olney et al. bei der System Development Corporation . Die Computerlexikologie ist heute am besten durch die Erstellung und Anwendung von WordNet bekannt . Da die rechnerische Verarbeitung der Forscher im Laufe der Zeit zunahm, wurde die Verwendung der rechnerischen Lexikologie in der Textanalyse allgegenwärtig angewendet. 1987 haben unter anderem Byrd, Calzolari und Chodorow Rechenwerkzeuge für die Textanalyse entwickelt. Das Modell wurde insbesondere zur Koordinierung der Assoziationen entwickelt, an denen die Sinne polysemischer Wörter beteiligt sind.

Studium des Lexikons

Die rechnergestützte Lexikologie hat zum Verständnis des Inhalts und der Einschränkungen von Druckwörterbüchern für Rechenzwecke beigetragen (dh es wurde klargestellt, dass die bisherige Arbeit der Lexikographie für die Anforderungen der Computerlinguistik nicht ausreichend war). Durch die Arbeit von Computerlexikologen wurde fast jeder Teil eines gedruckten Wörterbucheintrags untersucht, angefangen von:

  1. Was ist ein Stichwort? Wird zur Erstellung von Rechtschreibkorrekturlisten verwendet.
  2. Welche Varianten und Beugungen bildet das Stichwort - verwendet, um die Morphologie empirisch zu verstehen?
  3. wie das Stichwort in Silben abgegrenzt wird;
  4. wie das Schlagwort ausgesprochen wird - wird in Sprachgenerierungssystemen verwendet;
  5. die Wortarten, die das Stichwort annimmt - für POS-Tagger verwendet ;
  6. alle speziellen Themen oder Verwendungscodes, die dem Stichwort zugewiesen sind - zur Identifizierung von Textdokumenten;
  7. die Definitionen des Stichworts und ihre Syntax - werden als Hilfsmittel zur Disambiguierung von Wörtern im Kontext verwendet;
  8. die Etymologie des Stichworts und seine Verwendung zur Charakterisierung des Wortschatzes nach Herkunftssprachen - zur Charakterisierung des Textvokabulars nach seinen Herkunftssprachen;
  9. die Beispielsätze;
  10. die Run-Ons (zusätzliche Wörter und Mehrwortausdrücke, die aus dem Stichwort gebildet werden); und
  11. verwandte Wörter wie Synonyme und Antonyme .

Viele Computerlinguisten waren von den gedruckten Wörterbüchern als Ressource für Computerlinguistik enttäuscht, weil ihnen ausreichende syntaktische und semantische Informationen für Computerprogramme fehlten . Die Arbeit an der rechnerischen Lexikologie führte schnell zu Bemühungen in zwei weitere Richtungen.

Nachfolger der Computerlexikologie

Erstens führten gemeinsame Aktivitäten zwischen Computerlinguisten und Lexikographen zu einem Verständnis der Rolle, die Korpora bei der Erstellung von Wörterbüchern spielten. Die meisten Computerlexikologen bauten große Korpora auf, um die Basisdaten zu sammeln, mit denen Lexikographen Wörterbücher erstellt hatten. Die ACL / DCI (Data Collection Initiative) und das LDC ( Linguistic Data Consortium ) sind diesen Weg gegangen. Das Aufkommen von Markup-Sprachen führte zur Schaffung von markierten Korpora, die leichter analysiert werden konnten, um rechnergestützte Sprachsysteme zu erstellen. Teil-der-Sprache-markierte Korpora und semantisch markierte Korpora wurden erstellt, um POS-Tagger und die Technologie der semantischen Begriffsklärung zu testen und zu entwickeln .

Die zweite Richtung war die Schaffung von Lexical Knowledge Bases (LKBs). Eine lexikalische Wissensdatenbank wurde als das angesehen, was ein Wörterbuch für rechnergestützte sprachliche Zwecke sein sollte, insbesondere für rechnerische lexikalische semantische Zwecke. Es sollte die gleichen Informationen wie in einem gedruckten Wörterbuch enthalten, jedoch hinsichtlich der Bedeutung der Wörter und der entsprechenden Verbindungen zwischen den Sinnen vollständig erläutert werden. Viele begannen, die Ressourcen zu erstellen, die sie sich für Wörterbücher gewünscht hatten, wenn sie für die Verwendung in der Computeranalyse erstellt worden waren. WordNet kann als eine solche Entwicklung angesehen werden, ebenso wie die neueren Bemühungen, syntaktische und semantische Informationen wie die FrameNet-Arbeit von Fillmore zu beschreiben. Außerhalb der Computerlinguistik kann die Ontologie-Arbeit der künstlichen Intelligenz als evolutionäre Anstrengung zum Aufbau einer lexikalischen Wissensbasis für KI-Anwendungen angesehen werden.

Standardisierung

Die Optimierung der Produktion, Wartung und Erweiterung von Rechenlexika ist einer der entscheidenden Aspekte, die sich auf NLP auswirken . Das Hauptproblem ist die Interoperabilität : Verschiedene Lexika sind häufig nicht kompatibel. Die häufigste Situation ist: Wie werden zwei Lexika oder Fragmente von Lexika zusammengeführt? Ein sekundäres Problem besteht darin, dass ein Lexikon normalerweise speziell auf ein bestimmtes NLP-Programm zugeschnitten ist und Schwierigkeiten hat, in anderen NLP-Programmen oder -Anwendungen verwendet zu werden.

In diesem Zusammenhang werden die verschiedenen Datenmodelle von Computational Lexicons seit 2003 von ISO / TC37 im Rahmen des lexikalischen Markup- Projekts untersucht, das 2008 zu einem ISO-Standard führte.

Verweise

Amsler, Robert A. 1980. Ph.D. Dissertation "Die Struktur des Merriam-Webster Pocket Dictionary". Die Universität von Texas in Austin.

Externe Links