Turing-Test -Turing test

Die „Standardinterpretation“ des Turing-Tests, bei der Spieler C, der Vernehmer, die Aufgabe erhält, herauszufinden, welcher Spieler – A oder B – ein Computer und welcher ein Mensch ist. Der Vernehmungsbeamte ist darauf beschränkt, die Antworten auf schriftliche Fragen zu verwenden, um die Entscheidung zu treffen.

Der Turing-Test , der ursprünglich 1950 von Alan Turing als Imitationsspiel bezeichnet wurde, ist ein Test der Fähigkeit einer Maschine, intelligentes Verhalten an den Tag zu legen, das dem eines Menschen entspricht oder nicht davon zu unterscheiden ist. Turing schlug vor, dass ein menschlicher Bewerter Gespräche in natürlicher Sprache zwischen einem Menschen und einer Maschine beurteilen würde, die darauf ausgelegt ist, menschenähnliche Antworten zu erzeugen. Dem Auswerter wäre bewusst, dass einer der beiden Gesprächspartner eine Maschine ist und alle Teilnehmer voneinander getrennt wären. Die Konversation wäre auf einen Nur-Text-Kanal wie eine Computertastatur und einen Bildschirm beschränkt, sodass das Ergebnis nicht von der Fähigkeit der Maschine abhängen würde, Wörter als Sprache wiederzugeben. Wenn der Bewerter die Maschine nicht zuverlässig vom Menschen unterscheiden könnte, hätte die Maschine den Test bestanden. Die Testergebnisse würden nicht von der Fähigkeit der Maschine abhängen, richtige Antworten auf Fragen zu geben, sondern nur davon, wie sehr ihre Antworten denen eines Menschen ähneln.

Der Test wurde 1950 von Turing in seiner Arbeit „ Computing Machinery and Intelligence “ eingeführt, während er an der Universität von Manchester arbeitete . Es beginnt mit den Worten: „Ich schlage vor, die Frage zu erwägen, ‚Können Maschinen denken? “ Weil „Denken“ schwer zu definieren ist, entschließt sich Turing, „die Frage durch eine andere zu ersetzen, die eng damit verwandt ist und in ihr zum Ausdruck kommt relativ eindeutige Worte." Turing beschreibt die neue Form des Problems in Form eines Drei-Personen-Spiels namens "Imitation Game", bei dem ein Vernehmer einem Mann und einer Frau in einem anderen Raum Fragen stellt, um das richtige Geschlecht der beiden Spieler zu bestimmen. Turings neue Frage lautet: "Gibt es vorstellbare digitale Computer, die sich im Imitationsspiel gut machen würden ?" Diese Frage, glaubte Turing, war eine, die tatsächlich beantwortet werden konnte. Im Rest des Papiers argumentierte er gegen alle großen Einwände gegen die Behauptung, dass "Maschinen denken können".

Seit Turing seinen Test eingeführt hat, war er sowohl einflussreich als auch weithin kritisiert und hat sich zu einem wichtigen Konzept in der Philosophie der künstlichen Intelligenz entwickelt . Einige seiner Kritikpunkte, wie John Searles chinesisches Zimmer , sind selbst umstritten.

Geschichte

Philosophischer Hintergrund

Die Frage, ob es für Maschinen möglich ist zu denken, hat eine lange Geschichte, die fest in der Unterscheidung zwischen dualistischen und materialistischen Sichtweisen des Geistes verankert ist. René Descartes nimmt Aspekte des Turing-Tests in seinem Diskurs über die Methode von 1637 vorweg, wenn er schreibt:

[W] Wie viele verschiedene Automaten oder sich bewegende Maschinen durch die Industrie des Menschen hergestellt werden können ... Denn wir können leicht verstehen, wie eine Maschine konstituiert ist, so dass sie Worte äußern und sogar einige Reaktionen auf Handlungen körperlicher Art aussenden kann , was eine Veränderung seiner Organe bewirkt; zum Beispiel, wenn es in einem bestimmten Teil berührt wird, kann es fragen, was wir ihm sagen möchten; wenn es in einem anderen Teil ausruft, dass es verletzt wird, und so weiter. Aber es kommt nie vor, dass es seine Rede auf verschiedene Weise einrichtet, um auf alles, was in seiner Gegenwart gesagt werden kann, angemessen zu antworten, wie es selbst der niedrigste Menschentypus tun kann.

Hier stellt Descartes fest, dass Automaten in der Lage sind, auf menschliche Interaktionen zu reagieren, argumentiert jedoch, dass solche Automaten nicht angemessen auf Dinge reagieren können, die in ihrer Gegenwart gesagt werden, wie es jeder Mensch kann. Descartes präfiguriert daher den Turing-Test, indem er die Unzulänglichkeit einer angemessenen sprachlichen Reaktion als das definiert, was den Menschen vom Automaten trennt. Descartes zieht die Möglichkeit nicht in Betracht, dass zukünftige Automaten in der Lage sein könnten, eine solche Unzulänglichkeit zu überwinden, und schlägt daher den Turing-Test als solchen nicht vor, selbst wenn er seinen konzeptionellen Rahmen und sein Kriterium vorwegnimmt.

Denis Diderot formuliert in seinem Buch Pensées philosophiques von 1746 ein Turing-Test-Kriterium, obwohl die wichtige implizite einschränkende Annahme beibehalten wird, dass die Teilnehmer natürliche Lebewesen sind, anstatt geschaffene Artefakte zu berücksichtigen:

"Wenn sie einen Papagei finden, der auf alles antworten kann, würde ich ohne zu zögern behaupten, dass er ein intelligentes Wesen ist."

Das heißt nicht, dass er damit einverstanden ist, aber dass es damals schon ein gängiges Argument der Materialisten war.

Gemäß dem Dualismus ist der Geist nicht -physisch (oder hat zumindest nicht-physische Eigenschaften ) und kann daher nicht rein physikalisch erklärt werden. Gemäß dem Materialismus kann der Geist physikalisch erklärt werden, was die Möglichkeit eines künstlich hergestellten Geistes offen lässt.

1936 beschäftigte sich der Philosoph Alfred Ayer mit der philosophischen Standardfrage des anderen Geistes : Woher wissen wir, dass andere Menschen die gleichen bewussten Erfahrungen machen wie wir? In seinem Buch Language, Truth and Logic schlug Ayer ein Protokoll vor, um zwischen einem bewussten Menschen und einer unbewussten Maschine zu unterscheiden: „Der einzige Grund, den ich haben kann, um zu behaupten, dass ein Objekt, das bewusst zu sein scheint, nicht wirklich ein bewusstes Wesen ist, aber nur ein Dummy oder eine Maschine, besteht darin, dass sie einen der empirischen Tests nicht erfüllt, durch die das Vorhandensein oder Fehlen von Bewusstsein bestimmt wird. (Dieser Vorschlag ist dem Turing-Test sehr ähnlich, befasst sich aber eher mit Bewusstsein als mit Intelligenz. Außerdem ist es nicht sicher, ob Ayers populärer philosophischer Klassiker Turing vertraut war.) Mit anderen Worten, ein Ding ist nicht bewusst, wenn es den Test nicht besteht Bewusstseinstest.

Alan Turing

Forscher im Vereinigten Königreich haben sich bis zu zehn Jahre vor der Gründung des Forschungsbereichs Künstliche Intelligenz ( KI ) im Jahr 1956 mit „maschineller Intelligenz“ beschäftigt. Es war ein gemeinsames Thema unter den Mitgliedern des Ratio Club , einer informellen Gruppe der britischen Kybernetik- und Elektronikforscher , darunter Alan Turing.

Insbesondere Turing befasste sich seit mindestens 1941 mit dem Begriff der Maschinenintelligenz, und eine der frühesten bekannten Erwähnungen von „Computerintelligenz“ stammt von ihm aus dem Jahr 1947. In Turings Bericht „Intelligent Machinery“ untersuchte er „the Frage, ob es für Maschinen möglich ist, intelligentes Verhalten zu zeigen" und schlug im Rahmen dieser Untersuchung vor, was als Vorläufer seiner späteren Tests angesehen werden könnte:

Es ist nicht schwierig, eine Papiermaschine zu entwickeln, die ein nicht sehr schlechtes Schachspiel spielt. Holen Sie sich nun drei Männer A, B und C als Probanden für das Experiment. A und C sollen eher schlechte Schachspieler sein, B ist der Operator, der die Papiermaschine bedient. ... Zwei Räume werden mit einigen Vorkehrungen für die Kommunikation von Zügen verwendet, und es wird ein Spiel zwischen C und entweder A oder der Papiermaschine gespielt. C kann es ziemlich schwierig finden zu sagen, was er spielt.

Computing Machinery and Intelligence “ ( 1950 ) war die erste veröffentlichte Arbeit von Turing, die sich ausschließlich mit maschineller Intelligenz befasste. Turing beginnt den Aufsatz von 1950 mit der Behauptung: „Ich schlage vor, die Frage ‚Können Maschinen denken? zu betrachten. “ Wie er hervorhebt, besteht die traditionelle Herangehensweise an eine solche Frage darin, mit Definitionen zu beginnen und sowohl die Begriffe „Maschine“ als auch „Intelligenz“ zu definieren ". Turing beschließt, dies nicht zu tun; stattdessen ersetzt er die Frage durch eine neue, "die eng damit zusammenhängt und in relativ eindeutigen Worten ausgedrückt wird". Im Wesentlichen schlägt er vor, die Frage von "Können Maschinen denken?" zu "Können Maschinen tun, was wir (als denkende Einheiten) können?" Der Vorteil der neuen Frage, argumentiert Turing, besteht darin, dass sie "eine ziemlich scharfe Grenze zwischen den körperlichen und intellektuellen Fähigkeiten eines Menschen zieht".

Um diesen Ansatz zu demonstrieren, schlägt Turing einen von einem Gesellschaftsspiel inspirierten Test vor , der als "Imitationsspiel" bekannt ist, bei dem ein Mann und eine Frau in getrennte Räume gehen und die Gäste versuchen, sie voneinander zu unterscheiden, indem sie eine Reihe von Fragen schreiben und das Geschriebene lesen Antworten zurückgeschickt. In diesem Spiel wollen sowohl der Mann als auch die Frau die Gäste davon überzeugen, dass sie der andere sind. (Huma Shah argumentiert, dass diese Zwei-Menschen-Version des Spiels von Turing nur präsentiert wurde, um den Leser in den maschinell-menschlichen Frage-Antwort-Test einzuführen.) Turing beschrieb seine neue Version des Spiels wie folgt:

Wir stellen nun die Frage: "Was wird passieren, wenn eine Maschine in diesem Spiel die Rolle von A übernimmt?" Wird der Vernehmer bei einem solchen Spiel genauso oft falsch entscheiden wie bei einem Spiel zwischen Mann und Frau? Diese Fragen ersetzen unser Original "Können Maschinen denken?"

Später in der Abhandlung schlägt Turing eine „äquivalente“ alternative Formulierung vor, bei der ein Richter nur mit einem Computer und einem Mann spricht. Während keine dieser Formulierungen genau der heute allgemein bekannteren Version des Turing-Tests entspricht, schlug er 1952 eine dritte vor. In dieser Version, die Turing in einer BBC -Radiosendung diskutierte, stellt eine Jury Fragen zu einem Computer und der Rolle des Computers besteht darin, einen beträchtlichen Teil der Jury glauben zu machen, dass es sich wirklich um einen Mann handelt.

Turings Papier berücksichtigte neun mutmaßliche Einwände, die alle wichtigen Argumente gegen künstliche Intelligenz beinhalten , die in den Jahren seit der Veröffentlichung des Papiers vorgebracht wurden (siehe „ Computing Machinery and Intelligence “).

ELISA und PARRY

1966 schuf Joseph Weizenbaum ein Programm, das den Turing-Test zu bestehen schien. Das als ELIZA bekannte Programm funktionierte, indem es die eingegebenen Kommentare eines Benutzers auf Schlüsselwörter untersuchte. Wenn ein Schlüsselwort gefunden wird, wird eine Regel angewendet, die die Kommentare des Benutzers umwandelt, und der resultierende Satz wird zurückgegeben. Wenn ein Schlüsselwort nicht gefunden wird, antwortet ELIZA entweder mit einer allgemeinen Antwort oder indem sie einen der früheren Kommentare wiederholt. Darüber hinaus entwickelte Weizenbaum ELIZA, um das Verhalten eines Rogerianischen Psychotherapeuten zu replizieren , wodurch ELIZA "die Freiheit hatte, die Pose einzunehmen, fast nichts von der realen Welt zu wissen". Mit diesen Techniken konnte Weizenbaums Programm einigen Menschen vorgaukeln, dass sie mit einer realen Person sprachen, wobei einige Personen „sehr schwer zu überzeugen waren, dass ELIZA […] kein Mensch ist“. Daher wird ELIZA von einigen behauptet, eines der Programme (vielleicht das erste) zu sein, das in der Lage ist, den Turing-Test zu bestehen, obwohl diese Ansicht höchst umstritten ist (siehe Naivität der Vernehmer weiter unten).

Kenneth Colby gründete 1972 PARRY , ein Programm, das als „ELIZA mit Haltung“ beschrieben wird. Es wurde versucht, das Verhalten eines paranoiden Schizophrenen zu modellieren , wobei ein ähnlicher (wenn auch fortschrittlicherer) Ansatz wie der von Weizenbaum verwendet wurde. Um die Arbeit zu validieren, wurde PARRY in den frühen 1970er Jahren mit einer Variation des Turing-Tests getestet. Eine Gruppe erfahrener Psychiater analysierte eine Kombination aus echten Patienten und Computern, auf denen PARRY über Fernschreiber lief . Einer anderen Gruppe von 33 Psychiatern wurden Abschriften der Gespräche gezeigt. Die beiden Gruppen wurden dann gebeten, zu identifizieren, welche der "Patienten" Menschen und welche Computerprogramme waren. Die Psychiater konnten nur in 52 Prozent der Fälle die richtige Identifizierung vornehmen – eine Zahl, die mit zufälligem Raten übereinstimmt.

Auch im 21. Jahrhundert täuschen Versionen dieser Programme (heute als „ Chatbots “ bekannt) weiterhin Menschen. "CyberLover", ein Malware - Programm, macht Jagd auf Internetnutzer, indem es sie dazu verleitet, "Informationen über ihre Identität preiszugeben oder sie dazu zu bringen, eine Website zu besuchen, die schädliche Inhalte auf ihre Computer liefert". Das Programm hat sich als „Valentine-Risiko“ entpuppt, das mit Menschen flirtet, „die online Beziehungen suchen, um ihre persönlichen Daten zu sammeln“.

Das chinesische Zimmer

John Searles 1980 erschienener Aufsatz Minds, Brains, and Programs schlug das Gedankenexperiment „ chinesisches Zimmer “ vor und argumentierte, dass der Turing-Test nicht verwendet werden könne, um festzustellen, ob eine Maschine denken könne. Searle stellte fest, dass Software (wie ELIZA) den Turing-Test bestehen konnte, indem sie einfach Symbole manipulierte, von denen sie kein Verständnis hatten. Ohne Verständnis könnten sie nicht im gleichen Sinne als „denkend“ beschrieben werden wie Menschen. Daher, schloss Searle, könne der Turing-Test nicht beweisen, dass Maschinen denken können. Ähnlich wie der Turing-Test selbst wurde Searles Argument sowohl vielfach kritisiert als auch unterstützt.

Argumente wie die von Searle und anderen, die sich mit der Philosophie des Geistes beschäftigten , lösten eine intensivere Debatte über die Natur der Intelligenz, die Möglichkeit intelligenter Maschinen und den Wert des Turing-Tests aus, die sich in den 1980er und 1990er Jahren fortsetzte.

Loebner-Preis

Der Loebner-Preis bietet eine jährliche Plattform für praktische Turing-Tests mit dem ersten Wettbewerb, der im November 1991 stattfand. Er wird von Hugh Loebner garantiert . Das Cambridge Centre for Behavioral Studies in Massachusetts , USA, organisierte die Preise bis einschließlich des Wettbewerbs 2003. Wie Loebner es beschrieb, besteht ein Grund für die Schaffung des Wettbewerbs darin, den Stand der KI-Forschung zumindest teilweise voranzutreiben, da trotz 40-jähriger Diskussionen niemand Schritte unternommen hatte, um den Turing-Test zu implementieren.

Der erste Loebner-Preis-Wettbewerb im Jahr 1991 führte zu einer erneuten Diskussion über die Brauchbarkeit des Turing-Tests und den Wert, ihn weiterzuverfolgen, sowohl in der populären Presse als auch in der Wissenschaft. Der erste Wettbewerb wurde von einem geistlosen Programm ohne identifizierbare Intelligenz gewonnen, das es schaffte, naive Vernehmer dazu zu bringen, die falsche Identifizierung vorzunehmen. Dies hob mehrere der Mängel des Turing-Tests hervor (siehe unten ): Der Gewinner gewann zumindest teilweise, weil er in der Lage war, „menschliche Tippfehler nachzuahmen“; die anspruchslosen Vernehmer ließen sich leicht täuschen; und einige KI-Forscher haben das Gefühl bekommen, dass der Test lediglich eine Ablenkung von fruchtbarerer Forschung ist.

Die Preise in Silber (nur Text) und Gold (Audio und Bild) wurden noch nie gewonnen. Allerdings vergibt der Wettbewerb jedes Jahr die Bronzemedaille für das Computersystem, das nach Meinung der Jury das "menschlichste" Gesprächsverhalten unter den diesjährigen Einsendungen zeigt. Artificial Linguistic Internet Computer Entity (ALICE) hat in letzter Zeit dreimal die Bronze-Auszeichnung gewonnen (2000, 2001, 2004). Learning AI Jabberwacky gewann 2005 und 2006.

Der Loebner-Preis testet die Gesprächsintelligenz; Gewinner sind in der Regel Chatterbot- Programme oder Artificial Conversational Entities (ACE)s . Der frühe Loebner-Preis regelt eingeschränkte Gespräche: Jeder Eintrag und jeder verborgene Mensch unterhielt sich über ein einziges Thema, daher waren die Vernehmer auf eine Fragelinie pro Entitätsinteraktion beschränkt. Für den Loebner-Preis 1995 wurde die eingeschränkte Konversationsregel aufgehoben. Die Interaktionsdauer zwischen Richter und Entität war bei den Loebner-Preisen unterschiedlich. In Loebner 2003 an der University of Surrey wurden jedem Vernehmer fünf Minuten Zeit gegeben, um mit einer Entität, einer Maschine oder einem verborgenen Menschen zu interagieren. Zwischen 2004 und 2007 betrug die bei den Loebner-Preisen erlaubte Interaktionszeit mehr als zwanzig Minuten.

Versionen

Das Imitationsspiel, wie es Alan Turing in „Computing Machinery and Intelligence“ beschreibt. Spieler C versucht durch eine Reihe schriftlicher Fragen festzustellen, welcher der beiden anderen Spieler ein Mann und welcher der beiden die Frau ist. Spieler A, der Mann, versucht, Spieler C dazu zu bringen, die falsche Entscheidung zu treffen, während Spieler B versucht, Spieler C zu helfen. Abbildung nach Saygin, 2000.

Saul Traiger argumentiert, dass es mindestens drei Hauptversionen des Turing-Tests gibt, von denen zwei in „Computing Machinery and Intelligence“ angeboten werden und eine, die er als „Standardinterpretation“ bezeichnet. Während es einige Debatten darüber gibt, ob die "Standardinterpretation" die von Turing beschriebene ist oder stattdessen auf einer Fehlinterpretation seines Artikels basiert, werden diese drei Versionen nicht als gleichwertig angesehen und ihre Stärken und Schwächen sind unterschiedlich.

Huma Shah weist darauf hin, dass sich Turing selbst damit beschäftigt hat, ob eine Maschine denken kann, und eine einfache Methode zur Verfügung gestellt hat, um dies zu untersuchen: durch Mensch-Maschine-Frage-Antwort-Sitzungen. Shah argumentiert, dass es ein Nachahmungsspiel gibt, das Turing auf zwei verschiedene Arten praktizieren könnte: a) Eins-zu-Eins-Befrager-Maschinen-Test und b) gleichzeitiger Vergleich einer Maschine mit einem Menschen, die beide parallel von einem Befrager befragt werden. Da der Turing-Test ein Test auf Ununterscheidbarkeit der Leistungsfähigkeit ist, verallgemeinert sich die verbale Version natürlich auf die gesamte menschliche Leistungsfähigkeit, sowohl verbal als auch nonverbal (robotisch).

Imitationsspiel

Turings Originalartikel beschreibt ein einfaches Partyspiel mit drei Spielern. Spieler A ist ein Mann, Spieler B ist eine Frau und Spieler C (der die Rolle des Vernehmers spielt) ist von beiden Geschlechtern. In dem Nachahmungsspiel kann Spieler C weder Spieler A noch Spieler B sehen und kann mit ihnen nur durch schriftliche Notizen kommunizieren. Durch Fragen an Spieler A und Spieler B versucht Spieler C herauszufinden, wer von beiden der Mann und wer die Frau ist. Die Rolle von Spieler A besteht darin, den Vernehmer dazu zu bringen, die falsche Entscheidung zu treffen, während Spieler B versucht, dem Vernehmer dabei zu helfen, die richtige Entscheidung zu treffen.

Turing fragt dann:

"Was passiert, wenn eine Maschine in diesem Spiel die Rolle von A übernimmt? Wird der Vernehmer bei diesem Spiel genauso oft falsch entscheiden wie bei einem Spiel zwischen einem Mann und einer Frau?" Diese Fragen ersetzen unser Original "Können Maschinen denken?"

Der ursprüngliche Nachahmungsspieltest, bei dem der Spieler A durch einen Computer ersetzt wird. Der Computer übernimmt nun die Rolle des Mannes, während Spieler B weiterhin versucht, dem Vernehmungsbeamten zu helfen. Abbildung adaptiert von Saygin, 2000.

Die zweite Version erschien später in Turings Aufsatz von 1950. Ähnlich wie beim Originalimitationsspieltest wird die Rolle von Spieler A von einem Computer übernommen. Die Rolle von Spieler B wird jedoch von einem Mann und nicht von einer Frau wahrgenommen.

Lassen Sie uns unsere Aufmerksamkeit auf einen bestimmten digitalen Computer C richten. Stimmt es, dass C dazu gebracht werden kann, die Rolle zufriedenstellend zu spielen , indem man diesen Computer so modifiziert, dass er einen angemessenen Speicher hat, seine Aktionsgeschwindigkeit angemessen erhöht und ihn mit einem geeigneten Programm ausstattet? von A im Nachahmungsspiel, wobei die Rolle von B von einem Mann übernommen wird?

In dieser Version versuchen sowohl Spieler A (der Computer) als auch Spieler B, den Vernehmer dazu zu bringen, eine falsche Entscheidung zu treffen.

Standard-Wurzelinterpretation

Die Standardinterpretation ist in der Originalarbeit nicht enthalten, wird aber akzeptiert und diskutiert. Es ist allgemein bekannt, dass der Zweck des Turing-Tests nicht speziell darin besteht, festzustellen, ob ein Computer in der Lage ist, einem Vernehmer vorzutäuschen, dass er ein Mensch ist, sondern eher, ob ein Computer einen Menschen imitieren könnte . Während umstritten ist, ob diese Interpretation von Turing beabsichtigt war, glaubt Sterrett, dass dies der Fall war, und verschmilzt daher die zweite Version mit dieser, während andere, wie Traiger, dies nicht tun – dies hat dennoch zu dem geführt, was als " Standardinterpretation." In dieser Version ist Spieler A ein Computer und Spieler B eine Person beiderlei Geschlechts. Die Rolle des Vernehmers besteht nicht darin, festzustellen, wer männlich und wer weiblich ist, sondern wer ein Computer und wer ein Mensch ist. Das grundlegende Problem bei der Standardinterpretation besteht darin, dass der Vernehmer nicht unterscheiden kann, welcher Responder ein Mensch und welcher eine Maschine ist. Es gibt Probleme mit der Dauer, aber die Standardinterpretation betrachtet diese Einschränkung im Allgemeinen als etwas, das angemessen sein sollte.

Imitationsspiel vs. Standard-Turing-Test

Es ist umstritten, welche der alternativen Formulierungen des Tests Turing beabsichtigte. Sterrett argumentiert, dass zwei unterschiedliche Tests aus seiner Arbeit von 1950 entnommen werden können und dass sie, um Turings Bemerkung voranzukommen, nicht äquivalent sind. Der Test, der das Partyspiel verwendet und Erfolgshäufigkeiten vergleicht, wird als "Original Imitation Game Test" bezeichnet, während der Test, bei dem sich ein menschlicher Richter mit einem Menschen und einer Maschine unterhält, als "Standard Turing Test" bezeichnet wird. unter Hinweis darauf, dass Sterrett dies eher mit der "Standardinterpretation" als mit der zweiten Version des Nachahmungsspiels gleichsetzt. Sterrett stimmt zu, dass der Standard-Turing-Test (STT) die von seinen Kritikern angeführten Probleme hat, ist aber der Meinung, dass im Gegensatz dazu der so definierte ursprüngliche Imitationsspieltest (OIG-Test) gegen viele von ihnen immun ist, aufgrund eines entscheidenden Unterschieds: Anders als der STT macht Ähnlichkeit mit menschlicher Leistung nicht zum Kriterium, obwohl es menschliche Leistung verwendet, um ein Kriterium für maschinelle Intelligenz festzulegen. Ein Mann kann den OIG-Test nicht bestehen, aber es wird argumentiert, dass es eine Tugend eines Intelligenztests ist, dass ein Versagen auf einen Mangel an Einfallsreichtum hinweist: Der OIG-Test erfordert den mit Intelligenz verbundenen Einfallsreichtum und nicht nur die "Simulation menschlichen Gesprächsverhaltens". Die allgemeine Struktur des OIG-Tests könnte sogar mit nonverbalen Versionen von Nachahmungsspielen verwendet werden.

Wieder andere Autoren haben Turing dahingehend interpretiert, dass das Nachahmungsspiel selbst der Test ist, ohne anzugeben, wie Turings Aussage zu berücksichtigen ist, dass der von ihm vorgeschlagene Test mit der Partyversion des Nachahmungsspiels auf einem Kriterium der relativen Erfolgshäufigkeit basiert in diesem Nachahmungsspiel, anstatt die Fähigkeit, in einer Runde des Spiels erfolgreich zu sein.

Saygin hat vorgeschlagen, dass das ursprüngliche Spiel vielleicht eine Möglichkeit ist, ein weniger voreingenommenes experimentelles Design vorzuschlagen, da es die Beteiligung des Computers verbirgt. Das Nachahmungsspiel beinhaltet auch einen "sozialen Hack", der in der Standardinterpretation nicht zu finden ist, da in dem Spiel sowohl der Computer als auch der männliche Mensch so spielen müssen, als würden sie vorgeben, jemand zu sein, der sie nicht sind.

Sollte der Vernehmer von dem Computer wissen?

Ein entscheidender Teil jedes Labortests ist, dass es eine Kontrolle geben sollte. Turing macht nie deutlich, ob dem Vernehmer bei seinen Tests bewusst ist, dass einer der Teilnehmer ein Computer ist. Er gibt nur an, dass Spieler A durch eine Maschine ersetzt werden soll, nicht, dass Spieler C auf diesen Ersatz aufmerksam gemacht werden soll. Als Colby, FD Hilf, S. Weber und AD Kramer PARRY testeten, taten sie dies, indem sie annahmen, dass die Vernehmer nicht wissen müssten, dass einer oder mehrere der Befragten während des Verhörs ein Computer waren. Wie Ayse Saygin, Peter Swirski und andere hervorgehoben haben, macht dies einen großen Unterschied für die Durchführung und das Ergebnis des Tests. In einer experimentellen Studie, die sich mit Verletzungen der Maxime von Grice befasste und Transkripte von Loebners Eins-zu-Eins-Preis für KI-Wettbewerbe (Interrogator-versteckter Gesprächspartner) zwischen 1994 und 1999 verwendete, fand Ayse Saygin signifikante Unterschiede zwischen den Antworten von Teilnehmern, die sich mit Computern auskannten und nicht beteiligt sein.

Stärken

Lenkbarkeit und Einfachheit

Die Stärke und Anziehungskraft des Turing-Tests beruht auf seiner Einfachheit. Die Philosophie des Geistes , die Psychologie und die modernen Neurowissenschaften waren nicht in der Lage, Definitionen von „Intelligenz“ und „Denken“ zu liefern, die präzise und allgemein genug sind, um auf Maschinen angewendet zu werden. Ohne solche Definitionen lassen sich die zentralen Fragen der Philosophie der Künstlichen Intelligenz nicht beantworten. Der Turing-Test, auch wenn er unvollkommen ist, liefert zumindest etwas, das tatsächlich gemessen werden kann. Als solches ist es ein pragmatischer Versuch, eine schwierige philosophische Frage zu beantworten.

Breite der Thematik

Das Format des Tests ermöglicht es dem Vernehmer, der Maschine eine Vielzahl von intellektuellen Aufgaben zu stellen. Turing schrieb, dass "die Frage-und-Antwort-Methode geeignet zu sein scheint, um fast alle Bereiche menschlichen Strebens vorzustellen, die wir einbeziehen möchten." John Haugeland fügt hinzu, dass "es nicht ausreicht, die Worte zu verstehen; man muss auch das Thema verstehen ."

Um einen gut gestalteten Turing-Test zu bestehen, muss die Maschine natürliche Sprache verwenden , vernünftig denken , Wissen haben und lernen . Der Test kann erweitert werden, um Videoeingaben sowie eine "Luke" einzuschließen, durch die Objekte geführt werden können: Dies würde die Maschine dazu zwingen, auch den geschickten Einsatz von gut gestalteter Vision und Robotik zu demonstrieren . Zusammen stellen diese fast alle großen Probleme dar, die die Forschung im Bereich der künstlichen Intelligenz lösen möchte.

Der Feigenbaum-Test wurde entwickelt, um das breite Spektrum an Themen zu nutzen, die einem Turing-Test zur Verfügung stehen. Es ist eine eingeschränkte Form von Turings Frage-Antwort-Spiel, das die Maschine mit den Fähigkeiten von Experten auf bestimmten Gebieten wie Literatur oder Chemie vergleicht . Die Watson -Maschine von IBM erzielte Erfolg in einer TV-Quizshow Mensch gegen Maschine über menschliches Wissen, Jeopardy!

Betonung emotionaler und ästhetischer Intelligenz

Als Cambridge-Honours-Absolvent in Mathematik hätte man von Turing erwarten können, dass er einen Test für Computerintelligenz vorschlägt, der Expertenwissen auf einem hochtechnischen Gebiet erfordert, und somit einen neueren Ansatz zu diesem Thema vorwegnimmt . Stattdessen erfordert der Test, den er in seiner wegweisenden Arbeit von 1950 beschrieb, wie bereits erwähnt, dass der Computer in der Lage sein muss, erfolgreich an einem gewöhnlichen Partyspiel teilzunehmen, und dies, indem er bei der Beantwortung einer Reihe von Fragen so gut abschneidet wie der typische Mann überzeugend vorgeben, die Kandidatin zu sein.

Angesichts des Status des menschlichen Geschlechtsdimorphismus als eines der ältesten Themen ist es daher im obigen Szenario implizit, dass die zu beantwortenden Fragen weder spezielles Faktenwissen noch Informationsverarbeitungstechniken erfordern. Die Herausforderung für den Computer besteht vielmehr darin, Empathie für die Rolle der Frau zu demonstrieren und auch eine charakteristische ästhetische Sensibilität zu demonstrieren – beides Qualitäten, die in diesem von Turing entworfenen Dialogausschnitt zum Ausdruck kommen:

Vernehmungsbeamter: Würde X mir bitte die Länge seines oder ihres Haares sagen?
Kandidat: Mein Haar ist geschindelt und die längsten Strähnen sind etwa neun Zoll lang.

Wenn Turing Fachwissen in einen seiner imaginären Dialoge einbringt, geht es nicht um Mathematik oder Elektronik, sondern um Poesie:

Vernehmer: In der ersten Zeile Ihres Sonetts, die lautet: „Soll ich dich mit einem Sommertag vergleichen“, wäre „ein Frühlingstag“ nicht genauso gut oder besser?
Zeuge: Es würde nicht scannen .
Vernehmer: Wie wäre es mit "einem Wintertag". Das würde in Ordnung scannen.
Zeuge: Ja, aber niemand will mit einem Wintertag verglichen werden.

Damit demonstriert Turing einmal mehr sein Interesse an Empathie und ästhetischer Sensibilität als Bestandteil einer künstlichen Intelligenz; und angesichts eines zunehmenden Bewusstseins für die Bedrohung durch eine Amok laufende KI wurde vermutet, dass dieser Fokus möglicherweise eine kritische Intuition von Turings Seite darstellt, dh dass emotionale und ästhetische Intelligenz eine Schlüsselrolle bei der Schaffung einer " freundliche KI ". Es wird jedoch weiterhin darauf hingewiesen, dass jede Inspiration, die Turing in dieser Richtung geben könnte, von der Bewahrung seiner ursprünglichen Vision abhängt, was weiter heißt, dass die Verkündung einer „Standardinterpretation“ des Turing-Tests – dh , die sich nur auf eine diskursive Intelligenz konzentriert, muss mit einiger Vorsicht betrachtet werden.

Schwächen

Turing erklärte nicht ausdrücklich, dass der Turing-Test als Maß für „ Intelligenz “ oder irgendeine andere menschliche Eigenschaft verwendet werden könnte. Er wollte eine klare und verständliche Alternative zum Wort "denken" bieten, mit der er dann auf die Kritik an der Möglichkeit "denkender Maschinen" antworten und Wege aufzeigen könnte, wie die Forschung vorankommen könnte. Zahlreiche Experten auf diesem Gebiet, darunter der Kognitionswissenschaftler Gary Marcus , bestehen darauf, dass der Turing-Test nur zeigt, wie einfach es ist, Menschen zu täuschen, und kein Hinweis auf maschinelle Intelligenz ist.

Dennoch wurde der Turing-Test als Maß für die „Denkfähigkeit“ oder „Intelligenz“ einer Maschine vorgeschlagen. Dieser Vorschlag wurde sowohl von Philosophen als auch von Informatikern kritisiert. Es geht davon aus, dass ein Vernehmer feststellen kann, ob eine Maschine „denkt“, indem er ihr Verhalten mit menschlichem Verhalten vergleicht. Jedes Element dieser Annahme wurde in Frage gestellt: die Zuverlässigkeit des Urteils des Vernehmers, der Wert, nur das Verhalten zu vergleichen, und der Wert, die Maschine mit einem Menschen zu vergleichen. Aufgrund dieser und anderer Überlegungen haben einige KI-Forscher die Relevanz des Tests für ihr Fachgebiet in Frage gestellt.

Menschliche Intelligenz vs. Intelligenz im Allgemeinen

Schwäche des Turing-Tests 1.svg

Der Turing-Test testet nicht direkt, ob sich der Computer intelligent verhält. Es testet nur, ob sich der Computer wie ein Mensch verhält. Da menschliches Verhalten und intelligentes Verhalten nicht genau dasselbe sind, kann der Test die Intelligenz auf zwei Arten nicht genau messen:

Manches menschliche Verhalten ist unintelligent
Der Turing-Test erfordert, dass die Maschine alle menschlichen Verhaltensweisen ausführen kann, unabhängig davon, ob sie intelligent sind. Es testet sogar auf Verhaltensweisen, die vielleicht gar nicht als intelligent gelten, wie die Anfälligkeit für Beleidigungen, die Versuchung zu lügen oder einfach eine hohe Häufigkeit von Tippfehlern . Wenn eine Maschine diese unintelligenten Verhaltensweisen nicht im Detail nachahmen kann, besteht sie den Test nicht.
Dieser Einwand wurde von The Economist in einem Artikel mit dem Titel „ künstliche Dummheit “ erhoben, der kurz nach dem ersten Wettbewerb um den Loebner-Preis im Jahr 1992 veröffentlicht wurde menschliche Tippfehler." Turing selbst hatte vorgeschlagen, dass Programme Fehler in ihre Ausgabe einfügen sollten, um bessere "Spieler" des Spiels zu sein.
Manches intelligente Verhalten ist unmenschlich
Der Turing-Test testet nicht hochintelligente Verhaltensweisen wie die Fähigkeit, schwierige Probleme zu lösen oder originelle Erkenntnisse zu gewinnen. Vielmehr bedarf es gerade der Täuschung seitens der Maschine: Ist die Maschine intelligenter als ein Mensch, muss sie bewusst vermeiden, zu intelligent zu erscheinen . Wenn es ein Rechenproblem lösen würde, das für einen Menschen praktisch unmöglich zu lösen ist, würde der Befrager wissen, dass das Programm nicht menschlich ist, und die Maschine würde den Test nicht bestehen.
Da er keine Intelligenz messen kann, die über die Fähigkeiten von Menschen hinausgeht, kann der Test nicht verwendet werden, um Systeme zu bauen oder zu bewerten, die intelligenter als Menschen sind. Aus diesem Grund wurden mehrere Testalternativen vorgeschlagen, die in der Lage wären, superintelligente Systeme zu bewerten.

Der sprachzentrische Einwand

Ein weiterer bekannter Einwand gegen den Turing-Test betrifft seine ausschließliche Fokussierung auf das sprachliche Verhalten (dh es handelt sich lediglich um ein „sprachbasiertes“ Experiment, während alle anderen kognitiven Fähigkeiten nicht getestet werden). Dieser Nachteil schmälert die Rolle anderer modalitätsspezifischer „intelligenter Fähigkeiten“ in Bezug auf Menschen, die der Psychologe Howard Gardner in seiner „ Theorie der multiplen Intelligenz “ zu berücksichtigen vorschlägt (verbal-linguistische Fähigkeiten sind nur eine davon). .

Bewusstsein vs. Bewusstseinssimulation

Beim Turing-Test geht es ausschließlich darum, wie der Proband handelt  – das äußere Verhalten der Maschine. In dieser Hinsicht verfolgt es einen behavioristischen oder funktionalistischen Ansatz für das Studium des Geistes. Das Beispiel von ELIZA legt nahe, dass eine Maschine, die den Test besteht, in der Lage sein könnte, menschliches Gesprächsverhalten zu simulieren, indem sie einer einfachen (aber großen) Liste mechanischer Regeln folgt, ohne zu denken oder überhaupt einen Verstand zu haben.

John Searle hat argumentiert, dass externes Verhalten nicht verwendet werden kann, um festzustellen, ob eine Maschine „tatsächlich“ denkt oder nur „das Denken simuliert“. Sein chinesisches Raumargument soll zeigen, dass der Turing-Test, selbst wenn er eine gute operative Definition von Intelligenz ist, möglicherweise nicht darauf hinweist, dass die Maschine einen Verstand , ein Bewusstsein oder eine Intentionalität hat . (Intentionalität ist ein philosophischer Begriff für die Macht der Gedanken, „um“ etwas zu gehen.)

Turing nahm diese Kritik in seiner ursprünglichen Arbeit vorweg und schrieb:

Ich möchte nicht den Eindruck erwecken, dass ich denke, dass Bewusstsein kein Geheimnis ist. Es ist zum Beispiel mit jedem Versuch, es zu lokalisieren, etwas Paradoxes verbunden. Aber ich glaube nicht, dass diese Rätsel unbedingt gelöst werden müssen, bevor wir die Frage beantworten können, mit der wir uns in diesem Papier beschäftigen.

Naivität der Vernehmer

In der Praxis können die Testergebnisse leicht nicht von der Intelligenz des Computers, sondern von der Einstellung, dem Können oder der Naivität des Fragestellers dominiert werden.

Turing gibt in seiner Beschreibung des Tests nicht die genauen Fähigkeiten und Kenntnisse an, die der Vernehmer benötigt, aber er verwendet den Begriff „durchschnittlicher Vernehmer“: „[der] durchschnittliche Vernehmer hätte nicht mehr als 70 Prozent Chance, richtig zu liegen Identifizierung nach fünfminütiger Befragung".

Chatterbot-Programme wie ELIZA haben wiederholt ahnungslosen Menschen vorgegaukelt, dass sie mit Menschen kommunizieren. In diesen Fällen sind sich die „Befrager“ nicht einmal der Möglichkeit bewusst, dass sie mit Computern interagieren. Um erfolgreich menschlich zu erscheinen, braucht die Maschine keinerlei Intelligenz, sondern nur eine oberflächliche Ähnlichkeit mit menschlichem Verhalten.

Frühe Wettbewerbe um den Loebner-Preis verwendeten "unausgereifte" Vernehmer, die von den Maschinen leicht getäuscht werden konnten. Seit 2004 setzen die Organisatoren des Loebner-Preises unter den Vernehmern Philosophen, Informatiker und Journalisten ein. Dennoch wurden einige dieser Experten von den Maschinen getäuscht.

Ein interessantes Merkmal des Turing-Tests ist die Häufigkeit des konföderierten Effekts , wenn die konföderierten (getesteten) Menschen von den Vernehmern fälschlicherweise als Maschinen identifiziert werden. Es wurde angedeutet, dass das, was Vernehmer als menschliche Antworten erwarten, nicht unbedingt typisch für Menschen ist. Infolgedessen können einige Personen als Maschinen kategorisiert werden. Dies kann daher zugunsten einer Konkurrenzmaschine wirken. Die Menschen werden angewiesen, "selbst zu handeln", aber manchmal ähneln ihre Antworten eher dem, was der Vernehmer von einer Maschine erwartet. Dies wirft die Frage auf, wie sichergestellt werden kann, dass die Menschen motiviert werden, „menschlich zu handeln“.

Schweigen

Ein kritischer Aspekt des Turing-Tests ist, dass sich eine Maschine durch ihre Äußerungen als Maschine preisgeben muss. Ein Befrager muss dann die "richtige Identifizierung" vornehmen, indem er die Maschine korrekt als genau das identifiziert. Wenn jedoch eine Maschine während eines Gesprächs stumm bleibt, dann ist es für einen Befrager nicht möglich, die Maschine anders als durch eine berechnete Vermutung genau zu identifizieren. Selbst die Berücksichtigung eines parallelen/verborgenen Menschen als Teil des Tests kann die Situation nicht verbessern, da Menschen oft fälschlicherweise als Maschinen identifiziert werden können.

Unpraktikabilität und Irrelevanz: Der Turing-Test und die KI-Forschung

GPT-3-Talkbot-Versuch

Mainstream-KI-Forscher argumentieren, dass der Versuch, den Turing-Test zu bestehen, lediglich eine Ablenkung von fruchtbarerer Forschung ist. Tatsächlich ist der Turing-Test kein aktiver Fokus großer akademischer oder kommerzieller Bemühungen – wie Stuart Russell und Peter Norvig schreiben: „KI-Forscher haben dem Bestehen des Turing-Tests wenig Aufmerksamkeit gewidmet.“ Es gibt verschiedene Gründe.

Erstens gibt es einfachere Möglichkeiten, ihre Programme zu testen. Die meisten aktuellen Forschungen in KI-bezogenen Bereichen zielen auf bescheidene und spezifische Ziele ab, wie z. B. Objekterkennung oder Logistik . Um die Intelligenz der Programme zu testen, die diese Probleme lösen, geben KI-Forscher ihnen einfach direkt die Aufgabe. Stuart Russell und Peter Norvig schlagen eine Analogie zur Fluggeschichte vor : Flugzeuge werden danach getestet, wie gut sie fliegen, nicht indem sie mit Vögeln verglichen werden. „ Luftfahrttechnische Texte“, schreiben sie, „definieren das Ziel ihres Fachgebiets nicht als ‚Maschinen zu bauen, die so genau wie Tauben fliegen, dass sie andere Tauben täuschen können . “

Zweitens ist die Erstellung lebensechter Simulationen von Menschen ein schwieriges Problem für sich, das nicht gelöst werden muss, um die grundlegenden Ziele der KI-Forschung zu erreichen. Glaubwürdige menschliche Charaktere mögen in einem Kunstwerk, einem Spiel oder einer ausgeklügelten Benutzeroberfläche interessant sein , aber sie sind nicht Teil der Wissenschaft der Schaffung intelligenter Maschinen, d. h. von Maschinen, die Probleme mithilfe von Intelligenz lösen.

Turing wollte seine Idee nicht dazu verwenden, die Intelligenz von Programmen zu testen – er wollte ein klares und verständliches Beispiel liefern, um die Diskussion über die Philosophie der künstlichen Intelligenz zu unterstützen . John McCarthy argumentiert, dass wir uns nicht wundern sollten, wenn sich eine philosophische Idee als nutzlos für praktische Anwendungen herausstellt. Er stellt fest, dass die Philosophie der KI „wahrscheinlich keinen größeren Einfluss auf die Praxis der KI-Forschung haben wird, als die Wissenschaftstheorie im Allgemeinen auf die Praxis der Wissenschaft hat“.

Variationen

Im Laufe der Jahre wurden zahlreiche andere Versionen des Turing-Tests entwickelt, einschließlich der oben erläuterten.

Reverse-Turing-Test und CAPTCHA

Eine Modifikation des Turing-Tests, bei der das Ziel einer oder mehrerer Rollen zwischen Maschinen und Menschen vertauscht wurde, wird als umgekehrter Turing-Test bezeichnet. Ein Beispiel ist die Arbeit des Psychoanalytikers Wilfred Bion , der besonders fasziniert war von dem „Sturm“, der aus der Begegnung eines Geistes mit einem anderen resultierte. In seinem Buch aus dem Jahr 2000 diskutierte der Literaturwissenschaftler Peter Swirski neben mehreren anderen originellen Punkten in Bezug auf den Turing-Test ausführlich die Idee dessen, was er den Swirski-Test nannte – im Wesentlichen den umgekehrten Turing-Test. Er wies darauf hin, dass es die meisten, wenn nicht alle Standardeinwände überwindet, die gegen die Standardversion erhoben wurden.

RD Hinshelwood führte diese Idee weiter und beschrieb den Geist als einen „Geist erkennenden Apparat“. Die Herausforderung bestünde darin, dass der Computer feststellen könnte, ob er mit einem Menschen oder einem anderen Computer interagiert. Dies ist eine Erweiterung der ursprünglichen Frage, die Turing zu beantworten versuchte, aber vielleicht einen ausreichend hohen Standard bieten würde, um eine Maschine zu definieren, die auf eine Weise „denken“ könnte, die wir typischerweise als charakteristisch menschlich definieren.

CAPTCHA ist eine Form des Reverse-Turing-Tests. Bevor dem Benutzer erlaubt wird, eine Aktion auf einer Website durchzuführen, werden dem Benutzer alphanumerische Zeichen in einem verzerrten grafischen Bild präsentiert und er wird aufgefordert, sie einzugeben. Damit soll verhindert werden, dass automatisierte Systeme zum Missbrauch der Seite eingesetzt werden. Der Grund dafür ist, dass es keine ausreichend ausgeklügelte Software gibt, um das verzerrte Bild genau zu lesen und zu reproduzieren (oder für den durchschnittlichen Benutzer nicht verfügbar ist), so dass jedes System, das dazu in der Lage ist, wahrscheinlich ein Mensch ist.

Software, die CAPTCHA mit einiger Genauigkeit umkehren konnte, indem sie Muster in der generierenden Engine analysierte, begann kurz nach der Erstellung von CAPTCHA mit der Entwicklung. 2013 gaben Forscher von Vicarious bekannt, dass sie ein System entwickelt haben, um CAPTCHA-Herausforderungen von Google , Yahoo! , und PayPal bis zu 90 % der Zeit. Im Jahr 2014 demonstrierten Google-Ingenieure ein System, das CAPTCHA-Herausforderungen mit einer Genauigkeit von 99,8 % meistern konnte. Im Jahr 2015 erklärte Shuman Ghosemajumder , ehemaliger Klickbetrugs - Zar von Google, dass es cyberkriminelle Websites gibt, die CAPTCHA-Herausforderungen gegen eine Gebühr besiegen würden, um verschiedene Formen des Betrugs zu ermöglichen.

Fachexperte Turing-Test

Eine weitere Variante wird als Fachexperten- Turing-Test bezeichnet, bei dem die Antwort einer Maschine nicht von der eines Experten auf einem bestimmten Gebiet unterschieden werden kann. Dies ist auch als "Feigenbaum-Test" bekannt und wurde von Edward Feigenbaum in einem Artikel aus dem Jahr 2003 vorgeschlagen.

Kognitionstest auf „niedrigem Niveau“.

Robert French (1990) argumentiert, dass ein Vernehmungsbeamter zwischen menschlichen und nichtmenschlichen Gesprächspartnern unterscheiden kann, indem er Fragen stellt, die die niederen (dh unbewussten) Prozesse der menschlichen Kognition enthüllen, wie sie von der Kognitionswissenschaft untersucht werden . Solche Fragen enthüllen die genauen Details der menschlichen Verkörperung des Denkens und können einen Computer entlarven, es sei denn, er erlebt die Welt wie Menschen.

Totaler Turing-Test

Die vom Kognitionswissenschaftler Stevan Harnad vorgeschlagene „Total Turing Test“-Variante des Turing-Tests fügt dem traditionellen Turing-Test zwei weitere Anforderungen hinzu. Der Vernehmer kann auch die Wahrnehmungsfähigkeiten des Subjekts (erfordert Computervision ) und die Fähigkeit des Subjekts, Objekte zu manipulieren (erfordert Robotik ), testen.

Elektronische Gesundheitsakte

Ein in Communications of the ACM veröffentlichter Brief beschreibt das Konzept der Generierung einer synthetischen Patientenpopulation und schlägt eine Variation des Turing-Tests vor, um den Unterschied zwischen synthetischen und echten Patienten zu bewerten. In dem Schreiben heißt es: „Könnte im EHR-Kontext, obwohl ein menschlicher Arzt leicht zwischen synthetisch erzeugten und echten menschlichen Patienten unterscheiden kann, eine Maschine die Intelligenz erhalten, um eine solche Bestimmung selbst zu treffen?“ und weiter heißt es in dem Schreiben: „Bevor synthetische Patientenidentitäten zu einem Problem der öffentlichen Gesundheit werden, könnte der legitime EHR-Markt von der Anwendung von Turing-Test-ähnlichen Techniken profitieren, um eine größere Datenzuverlässigkeit und einen größeren diagnostischen Wert zu gewährleisten. Alle neuen Techniken müssen daher die Heterogenität der Patienten berücksichtigen und sind es auch wahrscheinlich eine größere Komplexität haben, als der Wissenschaftstest der achten Klasse von Allen benoten kann.

Minimaler intelligenter Signaltest

Der minimale intelligente Signaltest wurde von Chris McKinstry als "die maximale Abstraktion des Turing-Tests" vorgeschlagen, bei dem nur binäre Antworten (wahr/falsch oder ja/nein) erlaubt sind, um sich nur auf die Denkfähigkeit zu konzentrieren. Es eliminiert Text-Chat-Probleme wie Anthropomorphism Bias und erfordert keine Emulation unintelligenten menschlichen Verhaltens , wodurch Systeme ermöglicht werden, die die menschliche Intelligenz übertreffen. Die Fragen müssen jedoch jeweils für sich stehen, was es eher einem IQ-Test als einem Verhör gleicht. Es wird normalerweise verwendet, um statistische Daten zu sammeln, anhand derer die Leistung von Programmen für künstliche Intelligenz gemessen werden kann.

Hutter-Preis

Die Organisatoren des Hutter-Preises glauben, dass das Komprimieren von Text in natürlicher Sprache ein schwieriges KI-Problem ist, das dem Bestehen des Turing-Tests gleichkommt.

Der Datenkomprimierungstest hat gegenüber den meisten Versionen und Variationen eines Turing-Tests einige Vorteile, darunter:

  • Es gibt eine einzige Zahl, die direkt verwendet werden kann, um zu vergleichen, welche von zwei Maschinen "intelligenter" ist.
  • Es ist nicht erforderlich, dass der Computer den Richter anlügt

Die Hauptnachteile der Verwendung von Datenkomprimierung als Test sind:

  • Es ist nicht möglich, Menschen auf diese Weise zu testen.
  • Es ist nicht bekannt, welche bestimmte „Punktzahl“ bei diesem Test – falls vorhanden – dem Bestehen eines Turing-Tests auf menschlicher Ebene entspricht.

Andere Tests basieren auf Komprimierung oder Kolmogorov-Komplexität

Ein verwandter Ansatz zu Hutters Preis, der Ende der 1990er Jahre viel früher auftauchte, ist die Einbeziehung von Kompressionsproblemen in einen erweiterten Turing-Test. oder durch Tests, die vollständig von der Kolmogorov-Komplexität abgeleitet sind . Andere verwandte Tests in dieser Reihe werden von Hernandez-Orallo und Dowe vorgestellt.

Algorithmic IQ, kurz AIQ, ist ein Versuch, das theoretische Universal Intelligence Measure von Legg und Hutter (basierend auf Solomonoffs induktiver Inferenz ) in einen funktionierenden praktischen Test der maschinellen Intelligenz umzuwandeln.

Zwei Hauptvorteile einiger dieser Tests sind ihre Anwendbarkeit auf nichtmenschliche Intelligenzen und das Fehlen einer Anforderung an menschliche Tester.

Ebert-Test

Der Turing-Test inspirierte den 2011 vom Filmkritiker Roger Ebert vorgeschlagenen Ebert-Test , bei dem es sich um einen Test handelt, ob eine computerbasierte synthetisierte Stimme über ausreichende Fähigkeiten in Bezug auf Intonation, Flexion, Timing usw. verfügt, um Menschen zum Lachen zu bringen.

Vom universellen Turing-Test inspirierte Black-Box-basierte Maschinenintelligenzmetriken

Ausgehend von der großen Vielfalt intelligenter Systeme sollten die vom Turing-Test inspirierten universellen Metriken verwendet werden, die in der Lage sind, die Maschinenintelligenz zu messen und die Systeme anhand ihrer Intelligenz zu vergleichen. Eine Eigenschaft einer Intelligenzmetrik sollte die Behandlung des Aspekts der Variabilität der Intelligenz sein. Blackbox-basierte Intelligenzmetriken wie MetrIntPair und MetrIntPairII sind universell, da sie nicht von der Architektur der Systeme abhängen, deren Intelligenz sie messen. MetrIntPair ist eine genaue Metrik, die die Intelligenz zweier Systeme gleichzeitig messen und vergleichen kann. MetrIntPairII ist eine genaue und robuste Metrik, die die Intelligenz einer beliebigen Anzahl intelligenter Systeme gleichzeitig messen und vergleichen kann. Beide Metriken verwenden spezifische paarweise basierte Intelligenzmessungen und können die untersuchten Systeme in Intelligenzklassen einteilen.

Google LaMDA-Chatbot

Im Juni 2022 erhielt der Chatbot Google LaMDA (Language Model for Dialog Applications) eine breite Berichterstattung über Behauptungen, er habe Bewusstsein erlangt. Ursprünglich sagte Google Research Fellow Blaise Agüera y Arcas in einem Artikel in The Economist , der Chatbot habe ein gewisses Verständnis für soziale Beziehungen gezeigt. Einige Tage später behauptete der Google-Ingenieur Blake Lemoine in einem Interview mit der Washington Post , dass LaMDA empfindungsfähig geworden sei. Lemoine war von Google wegen entsprechender interner Behauptungen beurlaubt worden. Agüera y Arcas (ein Vizepräsident von Google) und Jen Gennai (Leiterin von Responsible Innovation) hatten die Behauptungen untersucht, aber zurückgewiesen. Lemoines Behauptung wurde von anderen Experten auf diesem Gebiet rundweg zurückgewiesen und darauf hingewiesen, dass ein Sprachmodell, das menschliche Konversation nachzuahmen scheint, nicht darauf hindeutet, dass dahinter irgendeine Intelligenz vorhanden ist, obwohl es den Turing-Test zu bestehen scheint. Die weit verbreitete Diskussion von Befürwortern für und gegen die Behauptung, dass LaMDA die Empfindungsfähigkeit erreicht hat, hat eine Diskussion auf allen Social-Media-Plattformen ausgelöst, um die Definition der Bedeutung von Empfindungsfähigkeit sowie dessen, was es bedeutet, ein Mensch zu sein, einzuschließen.

Konferenzen

Turing-Kolloquium

1990 jährte sich die Erstveröffentlichung von Turings „Computing Machinery and Intelligence“-Papier zum vierzigsten Mal, und das Interesse an dem Test wurde erneut geweckt. In diesem Jahr fanden zwei bedeutende Ereignisse statt: Das erste war das Turing Colloquium, das im April an der University of Sussex stattfand und Akademiker und Forscher aus einer Vielzahl von Disziplinen zusammenbrachte, um den Turing-Test in Bezug auf seine Vergangenheit und Gegenwart zu diskutieren , und Zukunft; Die zweite war die Gründung des jährlichen Loebner-Preiswettbewerbs .

Blay Whitby zählt vier große Wendepunkte in der Geschichte des Turing-Tests auf – die Veröffentlichung von „Computing Machinery and Intelligence“ im Jahr 1950, die Ankündigung von Joseph Weizenbaums ELIZA im Jahr 1966, Kenneth Colbys Kreation von PARRY , das erstmals beschrieben wurde 1972 und das Turing Colloquium 1990.

2005 Kolloquium zu Gesprächssystemen

Im November 2005 veranstaltete die University of Surrey ein eintägiges Eröffnungstreffen von Entwicklern künstlicher Konversationseinheiten, an dem die Gewinner praktischer Turing-Tests des Loebner-Preises teilnahmen: Robby Garner , Richard Wallace und Rollo Carpenter . Zu den eingeladenen Rednern gehörten David Hamill , Hugh Loebner (Sponsor des Loebner-Preises ) und Huma Shah .

2008 AISB-Symposium

Parallel zur Verleihung des Loebner-Preises 2008 an der University of Reading veranstaltete die Society for the Study of Artificial Intelligence and the Simulation of Behavior (AISB) ein eintägiges Symposium zur Erörterung des Turing-Tests, das von John Barnden , Mark Bishop , organisiert wurde , Huma Shah und Kevin Warwick . Zu den Rednern gehörten die Direktorin der Royal Institution, Baroness Susan Greenfield , Selmer Bringsjord , Turings Biograf Andrew Hodges und der Bewusstseinsforscher Owen Holland . Für einen kanonischen Turing-Test kam es zu keiner Einigung, obwohl Bringsjord zum Ausdruck brachte, dass ein beträchtlicher Preis dazu führen würde, dass der Turing-Test früher bestanden würde.

Das Alan-Turing-Jahr und Turing100 im Jahr 2012

Im Laufe des Jahres 2012 fanden zahlreiche große Veranstaltungen statt, um Turings Leben und seinen wissenschaftlichen Einfluss zu feiern. Die Turing100 -Gruppe unterstützte diese Veranstaltungen und organisierte am 23. Juni 2012 in Bletchley Park eine spezielle Turing-Testveranstaltung , um den 100. Geburtstag von Turing zu feiern.

Siehe auch

Anmerkungen

Verweise

Weiterlesen

  • Cohen, Paul R. (2006), "Wenn nicht Turings Test, was dann?" , AI Magazine , 26 (4).
  • Marcus, Gary , „Bin ich ein Mensch?: Forscher brauchen neue Wege, um künstliche Intelligenz von der natürlichen Art zu unterscheiden“, Scientific American , vol. 316, Nr. 3 (März 2017), S. 58–63. Mehrere Tests zur Wirksamkeit künstlicher Intelligenz sind erforderlich, denn „so wie es keinen einzigen Test für sportliche Fähigkeiten gibt, kann es keinen ultimativen Test für Intelligenz geben “. Ein solcher Test, eine „Construction Challenge“, würde Wahrnehmung und körperliches Handeln testen – „zwei wichtige Elemente intelligenten Verhaltens, die im ursprünglichen Turing-Test völlig fehlten“. Ein weiterer Vorschlag bestand darin, Maschinen die gleichen standardisierten Tests in Naturwissenschaften und anderen Disziplinen zu geben, die Schulkinder absolvieren. Ein bisher unüberwindbarer Stolperstein der künstlichen Intelligenz ist die Unfähigkeit zur zuverlässigen Begriffsklärung . "[Praktisch] jeder Satz [den die Leute erzeugen] ist mehrdeutig , oft in mehrfacher Hinsicht." Ein prominentes Beispiel ist das sogenannte „Pronomen-Disambiguierungsproblem“: Eine Maschine hat keine Möglichkeit festzustellen, auf wen oder was sich ein Pronomen in einem Satz – etwa „er“, „sie“ oder „es“ – bezieht.
  • Moor, James H. (2001), "The Status and Future of the Turing Test" , Minds and Machines , 11 (1): 77–93, doi : 10.1023/A:1011218925467 , ISSN  0924-6495 , S2CID  35233851 .
  • Warwick, Kevin und Shah, Huma (2016), „Turings Imitationsspiel: Gespräche mit dem Unbekannten“, Cambridge University Press.

Externe Links