Informationsrückgewinnung - Information retrieval

Information Retrieval ( IR ) ist der Prozess des Abrufens von Informationssystemressourcen , die für einen Informationsbedarf relevant sind, aus einer Sammlung dieser Ressourcen. Die Suche kann auf Volltext- oder anderer inhaltsbasierter Indizierung basieren. Information Retrieval ist die Wissenschaft der Suche nach Informationen in einem Dokument, der Suche nach Dokumenten selbst und auch der Suche nach Metadaten , die Daten beschreiben, sowie nach Datenbanken mit Texten, Bildern oder Tönen.

Automatisierte Informationsabrufsysteme werden verwendet, um die sogenannte Informationsüberflutung zu reduzieren . Ein IR-System ist ein Softwaresystem, das den Zugriff auf Bücher, Zeitschriften und andere Dokumente ermöglicht; speichert und verwaltet diese Dokumente. Websuchmaschinen sind die sichtbarsten IR-Anwendungen.

Überblick

Ein Informationsabrufprozess beginnt, wenn ein Benutzer eine Abfrage in das System eingibt. Abfragen sind formale Angaben zum Informationsbedarf, zum Beispiel Suchstrings in Websuchmaschinen. Beim Informationsabruf identifiziert eine Abfrage kein einzelnes Objekt in der Sammlung eindeutig. Stattdessen können mehrere Objekte mit der Abfrage übereinstimmen, möglicherweise mit unterschiedlichem Relevanzgrad .

Ein Objekt ist eine Entität, die durch Informationen in einer Inhaltssammlung oder Datenbank dargestellt wird . Benutzerabfragen werden mit den Datenbankinformationen abgeglichen. Im Gegensatz zu klassischen SQL-Abfragen einer Datenbank können die zurückgegebenen Ergebnisse beim Informationsabruf jedoch mit der Abfrage übereinstimmen oder nicht, sodass die Ergebnisse normalerweise in eine Rangfolge gebracht werden. Diese Rangfolge der Ergebnisse ist ein wesentlicher Unterschied zwischen der Suche nach Information Retrieval und der Suche in Datenbanken.

Je nach Anwendung können die Datenobjekte beispielsweise Textdokumente, Bilder, Audio, Mindmaps oder Videos sein. Oftmals werden die Dokumente selbst nicht direkt im IR-System gehalten oder gespeichert, sondern durch Dokumentensurrogate oder Metadaten im System abgebildet .

Die meisten IR-Systeme berechnen eine numerische Bewertung, wie gut jedes Objekt in der Datenbank mit der Abfrage übereinstimmt, und ordnen die Objekte entsprechend diesem Wert ein. Dem Benutzer werden dann die ranghöchsten Objekte angezeigt. Der Prozess kann dann wiederholt werden, wenn der Benutzer die Abfrage verfeinern möchte.

Geschichte

es gibt ... eine Maschine namens Univac ... bei der Buchstaben und Zahlen als Muster magnetischer Punkte auf einem langen Stahlband kodiert werden. Auf diese Weise kann der Text eines Dokuments mit vorangestelltem Betreff-Code-Symbol erfasst werden ... die Maschine ... wählt und tippt automatisch mit einer Geschwindigkeit von 120 Wörtern pro Minute die beliebig codierten Referenzen aus

—  JE Holmstrom, 1948

Die Idee, Computer zu verwenden, um nach relevanten Informationen zu suchen, wurde 1945 in dem Artikel As We May Think von Vannevar Bush populär gemacht . Es scheint, dass Bush von Patenten für eine "Statistikmaschine" inspiriert wurde - eingereicht von Emanuel Goldberg in den 1920er Jahren und 30er - die nach auf Film gespeicherten Dokumenten suchten. Die erste Beschreibung eines Computers, der nach Informationen suchte, wurde 1948 von Holmstrom beschrieben, wobei der Univac- Computer bereits früh erwähnt wurde . Automatisierte Informationsabrufsysteme wurden in den 1950er Jahren eingeführt: eines kam sogar in der romantischen Komödie von 1957 vor, Desk Set . In den 1960er Jahren wurde die erste große Forschungsgruppe für Information Retrieval von Gerard Salton in Cornell gegründet. In den 1970er Jahren wurde gezeigt, dass mehrere verschiedene Abruftechniken bei kleinen Textkorpora wie der Cranfield-Sammlung (mehrere tausend Dokumente) gut funktionieren. Anfang der 1970er Jahre kamen groß angelegte Retrieval-Systeme wie das Lockheed Dialog-System zum Einsatz.

1992 hat das US-Verteidigungsministerium zusammen mit dem National Institute of Standards and Technology (NIST) die Text Retrieval Conference (TREC) als Teil des TIPSTER-Textprogramms gesponsert. Ziel war es, die Information-Retrieval-Community zu untersuchen, indem die Infrastruktur bereitgestellt wird, die für die Evaluierung von Text-Retrieval-Methoden in einer sehr großen Textsammlung benötigt wird. Dies katalysierte die Erforschung von Methoden, die sich auf riesige Korpora skalieren lassen . Die Einführung von Websuchmaschinen hat den Bedarf an sehr großen Retrievalsystemen noch weiter erhöht.

Anwendungen

Zu den Bereichen, in denen Informationsabruftechniken eingesetzt werden, gehören (die Einträge sind innerhalb jeder Kategorie in alphabetischer Reihenfolge):

Allgemeine Anwendungen

Domänenspezifische Anwendungen

Andere Abrufmethoden

Zu den Methoden/Techniken, bei denen Information Retrieval-Techniken eingesetzt werden, gehören:

Modelltypen

Kategorisierung von IR-Modellen (übersetzt aus dem deutschen Eintrag , Originalquelle Dominik Kuropka ).

Um relevante Dokumente effektiv durch IR-Strategien aufzufinden, werden die Dokumente typischerweise in eine geeignete Repräsentation umgewandelt. Jede Abrufstrategie enthält ein spezifisches Modell für ihre Dokumentdarstellungszwecke. Das Bild rechts veranschaulicht die Beziehung einiger gängiger Modelle. Im Bild sind die Modelle nach zwei Dimensionen kategorisiert: der mathematischen Basis und den Eigenschaften des Modells.

Erste Dimension: mathematische Basis

Zweite Dimension: Eigenschaften des Modells

  • Modelle ohne Terminterdependenzen behandeln verschiedene Terme/Wörter als unabhängig. Diese Tatsache wird üblicherweise in Vektorraummodellen durch die Orthogonalitätsannahme von Termvektoren oder in probabilistischen Modellen durch eine Unabhängigkeitsannahme für Termvariablen repräsentiert .
  • Modelle mit immanenten Terminterdependenzen ermöglichen eine Darstellung von Wechselwirkungen zwischen Termen. Der Grad der Interdependenz zwischen zwei Begriffen wird jedoch durch das Modell selbst definiert. Sie wird in der Regel direkt oder indirekt (zB durch Dimensionsreduktion ) aus dem gemeinsamen Vorkommen dieser Begriffe im gesamten Dokumentensatz abgeleitet.
  • Modelle mit transzendenten Terminterdependenzen erlauben eine Darstellung von Wechselwirkungen zwischen Termen, behaupten jedoch nicht, wie die Interdependenz zwischen zwei Termen definiert ist. Sie verlassen sich auf eine externe Quelle für den Grad der gegenseitigen Abhängigkeit zwischen zwei Begriffen. (Zum Beispiel ein Mensch oder ausgeklügelte Algorithmen.)

Leistungs- und Korrektheitsmaßnahmen

Die Bewertung eines Informationsabrufsystems ist der Prozess der Bewertung, wie gut ein System die Informationsbedürfnisse seiner Benutzer erfüllt. Im Allgemeinen betrachtet die Messung eine Sammlung von zu durchsuchenden Dokumenten und eine Suchanfrage. Herkömmliche Bewertungsmetriken, die für den booleschen Abruf oder den Top-k-Abruf entwickelt wurden, umfassen Präzision und Recall . Alle Maßnahmen gehen von einem Ground-Truth- Konzept der Relevanz aus: Jedes Dokument ist für eine bestimmte Abfrage entweder relevant oder nicht relevant. In der Praxis können Anfragen falsch gestellt sein und unterschiedliche Relevanznuancen aufweisen.

Zeitleiste

  • Vor 1900
    1801 : Joseph Marie Jacquard erfindet den Jacquard-Webstuhl , die erste Maschine, die Lochkarten verwendet, um einen Arbeitsablauf zu steuern.
    1880er Jahre : Herman Hollerith erfindet einen elektromechanischen Datentabulator, der Lochkarten als maschinenlesbares Medium verwendet.
    Hollerith- Karten , Keypunches und Tabulatoren von 1890 , die zur Verarbeitung der US-Volkszählungsdaten von 1890 verwendet wurden.
  • 1920er-1930er Jahre
    Emanuel Goldberg meldet Patente für seine "Statistical Machine" an, eine Dokumentensuchmaschine, die photoelektrische Zellen und Mustererkennung verwendet, um die Metadaten auf Rollen von mikroverfilmten Dokumenten zu durchsuchen.
  • 1940er – 1950er Jahre
    Ende der 1940er Jahre : Das US-Militär sah sich mit Problemen bei der Indexierung und dem Abruf von wissenschaftlichen Forschungsdokumenten aus Kriegszeiten konfrontiert, die von Deutschen erbeutet wurden.
    1945 : Vannevar Bush ‚s As We May Think in erschien Atlantic Monthly .
    1947 : Hans Peter Luhn (seit 1941 Forschungsingenieur bei IBM) beginnt mit der Arbeit an einem mechanisierten Lochkartensystem zur Suche nach chemischen Verbindungen.
    1950er Jahre : Die wachsende Besorgnis in den USA über eine "Wissenschaftslücke" mit der UdSSR motiviert, fördert die Finanzierung und bietet einen Hintergrund für mechanisierte Literatursuchsysteme ( Allen Kent et al. ) und die Erfindung des Zitationsindex durch Eugene Garfield .
    1950 : Der Begriff "Information Retrieval" wurde von Calvin Mooers geprägt .
    1951 : Philip Bagley führte in einer Masterarbeit am MIT das früheste Experiment zum computergestützten Dokumentenabruf durch .
    1955 : Allen Kent trat der Case Western Reserve University bei und wurde schließlich stellvertretender Direktor des Zentrums für Dokumentations- und Kommunikationsforschung. Im selben Jahr veröffentlichten Kent und Kollegen ein Papier in American Documentation, in dem die Präzisions- und Rückrufmaßnahmen beschrieben sowie ein vorgeschlagener "Rahmen" für die Bewertung eines IR-Systems beschrieben wurden, der statistische Stichprobenverfahren zur Bestimmung der Anzahl relevanter Dokumente enthielt, die nicht abgerufen wurden.
    1958 : Internationale Konferenz für wissenschaftliche Informationen in Washington DC schließt die Betrachtung von IR-Systemen als Lösung für identifizierte Probleme ein. Siehe: Proceedings of the International Conference on Scientific Information, 1958 (National Academy of Sciences, Washington, DC, 1959)
    1959 : Hans Peter Luhn veröffentlicht "Auto-Encoding von Dokumenten zur Informationsbeschaffung".
  • 1960er Jahre :
    Anfang der 1960er Jahre : Gerard Salton begann seine Arbeit im Bereich IR in Harvard, wechselte später nach Cornell.
    1960 : Melvin Earl Maron und John Lary Kuhns veröffentlichen "On Relevanz, Probabilistic Indexing, and Information Retrieval" im Journal of the ACM 7(3):216–244, Juli 1960.
    1962 :
    • Cyril W. Cleverdon veröffentlichte erste Ergebnisse der Cranfield-Studien und entwickelte ein Modell für die IR-Systembewertung. Siehe: Cyril W. Cleverdon, "Report on the Testing and Analysis of an Investigation in the Comparative Efficiency of Indexing Systems". Cranfield Collection of Aeronautics, Cranfield, England, 1962.
    • Kent veröffentlichte Information Analysis and Retrieval .
    1963 :
    • Der Weinberg-Bericht "Wissenschaft, Regierung und Information" formulierte die Idee einer "Krise der wissenschaftlichen Information" vollständig. Der Bericht wurde nach Dr. Alvin Weinberg benannt .
    • Joseph Becker und Robert M. Hayes haben einen Text zur Informationsbeschaffung veröffentlicht. Becker, Joseph; Hayes, Robert Mayo. Informationsspeicherung und -abruf: Werkzeuge, Elemente, Theorien . New York, Wiley (1963).
    1964 :
    • Karen Spärck Jones beendete ihre Dissertation in Cambridge, Synonymy and Semantic Classification , und setzte ihre Arbeit zur Computerlinguistik in Bezug auf die IR fort.
    • Das National Bureau of Standards sponserte ein Symposium mit dem Titel "Statistical Association Methods for Mechanized Documentation". Mehrere sehr bedeutende Veröffentlichungen, darunter G. Saltons erster veröffentlichter Hinweis (wir glauben) auf das SMART- System.
    Mitte der 1960er Jahre :
    • Die National Library of Medicine hat das MEDLARS Medical Literature Analysis and Retrieval System entwickelt, das erste große maschinenlesbare Datenbank- und Batch-Retrieval-System.
    • Projekt Intrex am MIT.
    1965 : JCR Licklider veröffentlicht Bibliotheken der Zukunft .
    1966 : Don Swanson war an einem Studium an der University of Chicago über Anforderungen für zukünftige Kataloge beteiligt.
    Ende der 1960er Jahre : F. Wilfrid Lancaster schloss Evaluierungsstudien des MEDLARS-Systems ab und veröffentlichte die erste Ausgabe seines Textes über das Abrufen von Informationen.
    1968 :
    • Gerard Salton veröffentlichte Automatic Information Organization and Retrieval .
    • John W. Sammon, Jr.s RADC Tech-Bericht "Some Mathematics of Information Storage and Retrieval..." skizzierte das Vektormodell.
    1969 : Sammons " A nonlinear Mapping for data structure analysis " (IEEE Transactions on Computers) war der erste Vorschlag für eine Visualisierungsschnittstelle zu einem IR-System.
  • 1970er
    Anfang der 1970er Jahre :
    • Erste Online-Systeme – AIM-TWX von NLM, MEDLINE; Lockheeds Dialog; ORBIT der DEZA.
    • Theodor Nelson fördert das Konzept des Hypertexts , veröffentlichte Computer Lib/Dream Machines .
    1971 : Nicholas Jardine und Cornelis J. van Rijsbergen veröffentlichten "The use of hierarchic clustering in information Retrieval", in dem die "Cluster-Hypothese" artikuliert wurde.
    1975 : Drei sehr einflussreiche Veröffentlichungen von Salton formulierten sein Vektorverarbeitungs-Framework und sein Begriffsdiskriminierungsmodell vollständig :
    • A Theory of Indexing (Gesellschaft für industrielle und angewandte Mathematik)
    • Eine Theorie der Bedeutung von Begriffen in der automatischen Textanalyse ( JASIS v. 26)
    • Ein Vektorraummodell für die automatische Indizierung ( CACM 18:11)
    1978 : Die erste ACM SIGIR- Konferenz.
    1979 : CJ van Rijsbergen veröffentlicht Information Retrieval (Butterworths). Starker Schwerpunkt auf probabilistischen Modellen.
    1979 : Tamas Doszkocs implementiert die CITE- Benutzeroberfläche in natürlicher Sprache für MEDLINE an der National Library of Medicine. Das CITE-System unterstützte die Eingabe von Abfragen in freier Form, die Ausgabe nach Rang und das Relevanz-Feedback.
  • 1980er Jahre
    1980 : Erste internationale ACM SIGIR-Konferenz, gemeinsam mit der IR-Gruppe der British Computer Society in Cambridge.
    1982 : Nicholas J. Belkin , Robert N. Oddy und Helen M. Brooks schlagen den ASK-Standpunkt (Anomalous State of Knowledge) für die Informationsbeschaffung vor. Dies war ein wichtiges Konzept, obwohl sich ihr automatisiertes Analysetool letztendlich als enttäuschend erwies.
    1983 : Salton (und Michael J. McGill) veröffentlichten Introduction to Modern Information Retrieval (McGraw-Hill), mit starkem Schwerpunkt auf Vektormodellen.
    1985 : David Blair und Bill Maron veröffentlichen: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System
    Mitte der 1980er Jahre : Bemühungen zur Entwicklung von Endbenutzerversionen kommerzieller IR-Systeme.
    1985–1993 : Key Papers zu und experimentellen Systemen für Visualisierungsschnittstellen.
    Arbeiten von Donald B. Crouch , Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri und anderen.
    1989 : Erste World Wide Web- Vorschläge von Tim Berners-Lee am CERN .
  • 1990er Jahre
    1992 : Erste TREC- Konferenz.
    1997 : Veröffentlichung von Korfhage 's Information Storage and Retrieval mit Schwerpunkt auf Visualisierung und Multi-Referenzpunktsystemen.
    1999 : Veröffentlichung von Ricardo Baeza-Yates und Berthier Ribeiro-Netos Modern Information Retrieval von Addison Wesley, dem ersten Buch, das versucht, alle IR abzudecken.
    Ende der 1990er Jahre : Web-Suchmaschinen implementieren viele Funktionen, die früher nur in experimentellen IR-Systemen zu finden waren. Suchmaschinen werden zur gebräuchlichsten und vielleicht besten Instanziierung von IR-Modellen.

Große Konferenzen

Auszeichnungen im Bereich

Siehe auch

Verweise

Weiterlesen

Externe Links