Emotionserkennung - Emotion recognition

Emotionserkennung ist der Prozess der Identifizierung menschlicher Emotionen . Menschen unterscheiden sich stark in ihrer Genauigkeit beim Erkennen der Emotionen anderer. Der Einsatz von Technologie zur Unterstützung von Menschen mit Emotionserkennung ist ein relativ junges Forschungsgebiet. Im Allgemeinen funktioniert die Technologie am besten, wenn sie mehrere Modalitäten im Kontext verwendet. Bisher wurde die meiste Arbeit an der Automatisierung der Erkennung von Gesichtsausdrücken aus Video, gesprochenen Ausdrücken aus Audio, schriftlichen Ausdrücken aus Text und Physiologie , gemessen durch Wearables, durchgeführt.

Mensch

Menschen zeigen eine große Variabilität in ihrer Fähigkeit, Emotionen zu erkennen. Ein wichtiger Punkt, den Sie beim Erlernen der automatisierten Emotionserkennung beachten sollten, ist, dass es mehrere Quellen für die "Grundwahrheit" gibt, oder die Wahrheit über die wahre Emotion. Angenommen, wir versuchen, die Emotionen von Alex zu erkennen. Eine Quelle ist "Was würden die meisten Leute sagen, was Alex fühlt?" In diesem Fall entspricht die „Wahrheit“ möglicherweise nicht dem, was Alex fühlt, aber möglicherweise dem, was die meisten Leute sagen würden, dass es so aussieht, als würde Alex fühlen. Alex ist zum Beispiel vielleicht traurig, aber er lächelt breit und die meisten Leute sagen, er sieht glücklich aus. Wenn eine automatisierte Methode die gleichen Ergebnisse erzielt wie eine Gruppe von Beobachtern, kann sie als genau angesehen werden, auch wenn sie nicht wirklich misst, was Alex wirklich fühlt. Eine andere Quelle der „Wahrheit“ ist, Alex zu fragen, was er wirklich fühlt. Dies funktioniert, wenn Alex ein gutes Gespür für seinen inneren Zustand hat und Ihnen sagen möchte, was er ist, und ihn genau in Worte oder Zahlen fassen kann. Manche Menschen sind jedoch alexithymisch und haben kein gutes Gespür für ihre inneren Gefühle oder sind nicht in der Lage, sie mit Worten und Zahlen genau zu kommunizieren. Im Allgemeinen kann es einige Arbeit erfordern, die Wahrheit darüber herauszufinden, welche Emotionen tatsächlich vorhanden sind, kann je nach den ausgewählten Kriterien variieren und erfordert normalerweise ein gewisses Maß an Unsicherheit.

Automatisch

Die Entwicklung und Evaluierung von Methoden zur automatisierten Emotionserkennung wurde über Jahrzehnte wissenschaftlicher Forschung betrieben. Inzwischen gibt es eine umfangreiche Literatur, die Hunderte von verschiedenen Arten von Methoden vorschlägt und bewertet, die Techniken aus verschiedenen Bereichen wie Signalverarbeitung , maschinelles Lernen , Computer Vision und Sprachverarbeitung nutzen . Zur Interpretation von Emotionen können verschiedene Methoden und Techniken verwendet werden, wie beispielsweise Bayes-Netzwerke . , Gaußsche Mischungsmodelle und Hidden Markov Modelle und tiefe neuronale Netze .

Ansätze

Die Genauigkeit der Emotionserkennung wird normalerweise verbessert, wenn sie die Analyse menschlicher Ausdrücke aus multimodalen Formen wie Text, Physiologie, Audio oder Video kombiniert. Durch die Integration von Informationen aus Mimik , Körperbewegung und Gestik sowie Sprache werden verschiedene Emotionstypen erkannt . Die Technologie soll zur Entstehung des sogenannten emotionalen oder emotionalen Internets beitragen .

Die bestehenden Ansätze der Emotionserkennung zur Klassifizierung bestimmter Emotionstypen lassen sich im Allgemeinen in drei Hauptkategorien einteilen: wissensbasierte Techniken, statistische Methoden und hybride Ansätze.

Wissensbasierte Techniken

Wissensbasierte Techniken (manchmal als Lexikon basierte Techniken), nutzen Domänenwissen und die semantischen und syntaktischen Merkmale der Sprache , um sicher zu erkennen Emotion Typen. Bei diesem Ansatz ist es üblich, während des Emotionsklassifizierungsprozesses wissensbasierte Ressourcen wie WordNet , SenticNet , ConceptNet und EmotiNet zu verwenden, um nur einige zu nennen. Einer der Vorteile dieses Ansatzes ist die Zugänglichkeit und Wirtschaftlichkeit, die durch die große Verfügbarkeit solcher wissensbasierten Ressourcen bewirkt wird. Eine Einschränkung dieser Technik ist andererseits ihre Unfähigkeit, mit Konzeptnuancen und komplexen linguistischen Regeln umzugehen.

Wissensbasierte Techniken lassen sich hauptsächlich in zwei Kategorien einteilen: wörterbuchbasierte und korpusbasierte Ansätze. Wörterbuchbasierte Ansätze finden Meinungs- oder Emotions- Seed-Wörter in einem Wörterbuch und suchen nach ihren Synonymen und Antonymen , um die anfängliche Liste von Meinungen oder Emotionen zu erweitern . Korpusbasierte Ansätze hingegen beginnen mit einer Seed-Liste von Meinungs- oder Emotionswörtern und erweitern die Datenbank, indem sie andere Wörter mit kontextspezifischen Merkmalen in einem großen Korpus finden . Korpusbasierte Ansätze berücksichtigen zwar den Kontext, ihre Leistung variiert jedoch in verschiedenen Domänen, da ein Wort in einer Domäne in einer anderen Domäne eine andere Orientierung haben kann.

statistische Methoden

Statistische Verfahren beinhalten im Allgemeinen die Verwendung verschiedener überwachter maschineller Lernalgorithmen , bei denen eine große Menge kommentierter Daten in die Algorithmen eingespeist wird, damit das System die entsprechenden Emotionstypen lernt und vorhersagt . Algorithmen des maschinellen Lernens bieten im Allgemeinen eine angemessenere Klassifizierungsgenauigkeit im Vergleich zu anderen Ansätzen, aber eine der Herausforderungen beim Erzielen guter Ergebnisse im Klassifizierungsprozess besteht in der Notwendigkeit eines ausreichend großen Trainingssatzes.

Zu den am häufigsten verwendeten Algorithmen für maschinelles Lernen gehören Support Vector Machines (SVM) , Naive Bayes und Maximum Entropy . Deep Learning , das zur unbeaufsichtigten Familie des maschinellen Lernens gehört , wird auch häufig bei der Emotionserkennung eingesetzt. Zu den bekannten Deep-Learning- Algorithmen gehören verschiedene Architekturen von Artificial Neural Network (ANN) wie Convolutional Neural Network (CNN) , Long Short-Term Memory (LSTM) und Extreme Learning Machine (ELM) . Die Popularität von Deep-Learning- Ansätzen im Bereich der Emotionserkennung kann hauptsächlich auf ihren Erfolg in verwandten Anwendungen wie Computer Vision , Spracherkennung und Natural Language Processing (NLP) zurückgeführt werden .

Hybride Ansätze

Hybride Ansätze der Emotionserkennung sind im Wesentlichen eine Kombination aus wissensbasierten Techniken und statistischen Methoden, die komplementäre Eigenschaften beider Techniken ausnutzen. Einige der Arbeiten, die ein Ensemble wissensgesteuerter linguistischer Elemente und statistischer Methoden angewendet haben, umfassen Sentic Computing und iFeel, die beide die wissensbasierte Ressource SenticNet auf Konzeptebene übernommen haben. Die Rolle solcher wissensbasierter Ressourcen bei der Umsetzung hybrider Ansätze ist im Emotionsklassifizierungsprozess von großer Bedeutung . Da hybride Techniken von den Vorteilen sowohl wissensbasierter als auch statistischer Ansätze profitieren, weisen sie tendenziell eine bessere Klassifikationsleistung auf als der unabhängige Einsatz wissensbasierter oder statistischer Methoden. Ein Nachteil der Verwendung von Hybridtechniken ist jedoch die Rechenkomplexität während des Klassifizierungsprozesses.

Datensätze

Daten sind ein integraler Bestandteil der bestehenden Ansätze der Emotionserkennung und in den meisten Fällen ist es eine Herausforderung, annotierte Daten zu erhalten, die zum Trainieren von maschinellen Lernalgorithmen erforderlich sind . Für die Aufgabe, verschiedene Emotionstypen aus multimodalen Quellen in Form von Texten, Audio, Videos oder physiologischen Signalen zu klassifizieren , stehen folgende Datensätze zur Verfügung:

HUMAINE: bietet natürliche Clips mit Emotionswörtern und Kontextbezeichnungen in mehreren Modalitäten
Belfast-Datenbank: bietet Clips mit unterschiedlichsten Emotionen aus TV-Sendungen und Interviewaufnahmen
SEMAINE: stellt audiovisuelle Aufnahmen zwischen einer Person und einem virtuellen Agenten bereit und enthält emotionale Anmerkungen wie z. B. wütend, glücklich, Angst, Ekel, Traurigkeit, Verachtung und Belustigung
IEMOCAP: bietet Aufnahmen von dyadischen Sitzungen zwischen Schauspielern und enthält emotionale Anmerkungen wie Glück, Wut, Traurigkeit, Frustration und neutraler Zustand
eNTERFACE: bietet audiovisuelle Aufnahmen von Personen aus sieben Nationalitäten und enthält emotionale Anmerkungen wie Freude, Wut, Traurigkeit, Überraschung, Ekel und Angst
DEAP: bietet Elektroenzephalographie ( EEG ), Elektrokardiographie ( EKG ) und Gesichtsvideoaufzeichnungen sowie emotionale Anmerkungen in Bezug auf Wertigkeit , Erregung und Dominanz von Personen, die sich Filmclips ansehen clip
DREAMER: bietet Elektroenzephalographie- ( EEG ) und Elektrokardiographie- ( EKG ) Aufzeichnungen sowie emotionale Anmerkungen in Bezug auf Wertigkeit , Erregung und Dominanz von Zuschauern von Filmclips
MELD: ist ein Konversationsdatensatz mit mehreren Teilnehmern, bei dem jede Äußerung mit Emotionen und Gefühlen gekennzeichnet ist. MELD bietet Konversationen im Videoformat und ist damit für die multimodale Emotionserkennung und Sentimentanalyse geeignet . MELD ist nützlich für die multimodale Sentimentanalyse und Emotionserkennung, Dialogsysteme und Emotionserkennung in Gesprächen .
MuSe: bietet audiovisuelle Aufzeichnungen natürlicher Interaktionen zwischen einer Person und einem Objekt. Es verfügt über diskrete und kontinuierliche Emotionsannotationen in Bezug auf Valenz, Erregung und Vertrauenswürdigkeit sowie Sprachthemen, die für die multimodale Sentimentanalyse und Emotionserkennung nützlich sind .
UIT-VSMEC: ist ein standardmäßiges vietnamesisches Social Media Emotion Corpus (UIT-VSMEC) mit etwa 6.927 von Menschen kommentierten Sätzen mit sechs Emotionslabels, die zur Emotionserkennungsforschung in Vietnamesisch beitragen, einer Sprache mit geringem Ressourcenaufwand in der Verarbeitung natürlicher Sprache (NLP). .
BED: bietet Elektroenzephalographie ( EEG )-Aufzeichnungen sowie emotionale Anmerkungen in Bezug auf Wertigkeit und Erregung von Personen, die Bilder betrachten. Es umfasst auch Elektroenzephalographie ( EEG ) Aufzeichnungen von Personen, die verschiedenen Reizen ausgesetzt sind ( SSVEP , Ruhe mit geschlossenen Augen, Ruhe mit offenen Augen, kognitive Aufgaben) für die Aufgabe der EEG-basierten Biometrie .

Anwendungen

Emotionserkennung wird in der Gesellschaft aus verschiedenen Gründen eingesetzt. Affectiva , das aus dem MIT hervorgegangen ist , bietet eine Software für künstliche Intelligenz , die es effizienter macht, Aufgaben zu erledigen, die zuvor manuell von Menschen durchgeführt wurden, hauptsächlich zum Sammeln von Informationen über Gesichtsausdruck und Stimmausdruck in Bezug auf bestimmte Kontexte, in denen die Zuschauer zugestimmt haben, diese Informationen weiterzugeben. Anstatt beispielsweise eine lange Umfrage darüber auszufüllen, wie Sie sich an jedem Punkt beim Anschauen eines Lehrvideos oder einer Werbung fühlen, können Sie zustimmen, dass eine Kamera Ihr Gesicht beobachtet und sich anhört, was Sie sagen, und notieren, bei welchen Teilen der Erfahrung Sie Zeigen Sie Ausdrücke wie Langeweile, Interesse, Verwirrung oder Lächeln. (Beachten Sie, dass dies nicht bedeutet, dass es Ihre innersten Gefühle liest – es liest nur, was Sie äußerlich ausdrücken.) Andere Anwendungen von Affectiva umfassen die Unterstützung von Kindern mit Autismus, die Unterstützung von Blinden beim Lesen von Gesichtsausdrücken und die Unterstützung von Robotern bei der intelligenteren Interaktion mit Menschen , und Überwachung von Aufmerksamkeitszeichen während der Fahrt, um die Sicherheit des Fahrers zu erhöhen.

Ein von Snapchat im Jahr 2015 eingereichtes Patent beschreibt eine Methode zum Extrahieren von Daten über Menschenmengen bei öffentlichen Veranstaltungen, indem eine algorithmische Emotionserkennung auf den mit Geotags versehenen Selfies von Benutzern durchgeführt wird .

Emotient war ein Startup-Unternehmen, das Emotionserkennung auf das Lesen von Stirnrunzeln, Lächeln und anderen Gesichtsausdrücken anwendete, nämlich künstliche Intelligenz , um "Einstellungen und Handlungen basierend auf Mimik" vorherzusagen. Apple kaufte Emotient im Jahr 2016 und verwendet Emotionserkennungstechnologie, um die emotionale Intelligenz seiner Produkte zu verbessern.

nViso bietet Echtzeit-Emotionserkennung für Web- und mobile Anwendungen über eine Echtzeit- API . Visage Technologies AB bietet Emotionsschätzung als Teil ihres Visage SDK für Marketing und wissenschaftliche Forschung und ähnliche Zwecke an.

Eyeris ist ein Emotionserkennungsunternehmen, das mit Herstellern von eingebetteten Systemen , darunter Automobilherstellern und sozialen Roboterunternehmen, bei der Integration seiner Gesichtsanalyse- und Emotionserkennungssoftware zusammenarbeitet. sowie mit Video-Content-Erstellern, um ihnen zu helfen, die wahrgenommene Effektivität ihrer Kurz- und Langform-Video-Creatives zu messen.

Es gibt auch viele Produkte, um Informationen aus online kommunizierten Emotionen zu sammeln, einschließlich durch Drücken von "Gefällt mir"-Tasten und durch Zählen von positiven und negativen Phrasen in Texten und die Erkennung von Affekten wird zunehmend in einigen Arten von Spielen und in der virtuellen Realität verwendet, sowohl für Bildungszwecke als auch für Geben Sie den Spielern eine natürlichere Kontrolle über ihre sozialen Avatare.

Teilbereiche der Emotionserkennung

Die Emotionserkennung ist wahrscheinlich das beste Ergebnis, wenn mehrere Modalitäten angewendet werden, indem verschiedene Objekte kombiniert werden, einschließlich Text (Gespräch), Audio, Video und Physiologie , um Emotionen zu erkennen.

Emotionserkennung im Text

Textdaten sind ein günstiges Forschungsobjekt für die Emotionserkennung, wenn sie kostenlos und überall im menschlichen Leben verfügbar sind. Im Vergleich zu anderen Datentypen ist die Speicherung von Textdaten aufgrund der häufigen Wiederholung von Wörtern und Zeichen in Sprachen leichter und einfach zu komprimieren, um die beste Leistung zu erzielen. Emotionen können aus zwei wesentlichen Textformen extrahiert werden: geschriebenen Texten und Gesprächen (Dialogen). Bei geschriebenen Texten konzentrieren sich viele Wissenschaftler auf die Arbeit auf Satzebene, um „Wörter/Phrasen“ zu extrahieren, die Emotionen darstellen.

Emotionserkennung in Audio

Anders als bei der Emotionserkennung in Text werden für die Erkennung Sprachsignale verwendet, um Emotionen aus Audio zu extrahieren .

Emotionserkennung im Video

Videodaten sind eine Kombination aus Audiodaten, Bilddaten und manchmal Texten (bei Untertiteln ).

Emotionserkennung im Gespräch

Emotion Recognition in Conversation (ERC) extrahiert Meinungen zwischen Teilnehmern aus massiven Gesprächsdaten in sozialen Plattformen wie Facebook , Twitter , YouTube und anderen. ERC kann Eingabedaten wie Text, Audio, Video oder eine Kombinationsform verwenden, um verschiedene Emotionen wie Angst, Lust, Schmerz und Vergnügen zu erkennen.

Siehe auch

Verweise

Languages

In other projects