Robotertechnik “Um Menschen zu verstehen, müssen Maschinen Emotionen verstehen“

Maschine wird menschlich: In dem Film „Ex Machina“ geht es darum, wie eine Roboterfrau lernt, die Personen in ihrer Umgebung zu manipulieren. Foto: Universal

Verständnisvolle Roboter werden immer wichtiger. Der Informatiker Björn Schuller erklärt im Interview, wohin das führt – und warum Deutschland eine wichtige Rolle bei den Forschungsarbeiten spielt.

Stuttgart - Seit Jahren beschäftigt sich Björn Schuller mit dem sogenannten Affective Computing. In diesem Teilbereich der Informatik wollen die Forscher den Maschinen beibringen, menschliche Emotionen nicht nur zu verstehen, sondern auch selbst zu zeigen.

 
Herr Schuller, kommt das Affective Computing wie so viele derartige Forschungsrichtungen aus den USA?
Nein, zumindest nicht nur. Deutschland ist eine treibende Kraft. Europa insgesamt ist hier vorne mit dabei: Das erste System, das in Echtzeit über Audio und Video im Gespräch Emotionen erkannte und gleichzeitig passend selbst emotional reagierte, wurde vor zehn Jahren im Rahmen eines EU-Projektes umgesetzt. Auch der Dachverband des Affective Computing wurde in Europa gegründet, 2004, damals noch unter dem Namen Humaine. Heute heißt er Association for the Advancement of Affective Computing – und auch hier spielen Deutsche eine große Rolle: So war ich der Gründungspräsident der AAAC. Nicht zuletzt habe ich mit einem deutschen Team beispielsweise die jeweils ersten weltweiten Wettbewerbe in der Emotionserkennung angestoßen und organisiert – sei es via Audio, Video oder Physiologie.
Wieso sind sie so überzeugt davon, dass Maschinen dieses Verständnis für Emotionen brauchen?
Weil Menschen es zum Überleben gebraucht haben – also wird es auch die künstliche Intelligenz befördern. Und damit Maschinen Menschen besser verstehen, müssen sie Emotionen verstehen. Maschinen müssen dafür auch Emotionen zeigen können und im Extremfall selbst haben. Aber Letzteres ist noch weniger ein Thema.
Ihr Forschungsgebiet wächst enorm. Liegt das an den neuen Technologien des maschinellen Lernens wie Deep Learning, die Maschinen immer besser darin machen, Muster zu erkennen?
Ja, das liegt sicherlich auch daran. Auch hier spielt Deutschland übrigens vorne in der Liga: Deep Learning wurde hier mit als Erstes in der Emotionserkennung eingesetzt, zudem gibt es hier viele gelabelte Daten, also Sprache und Bilder beispielsweise, denen Menschen eine Emotion zugeordnet haben und aus denen maschinelle neuronale Netze lernen können, diese zu erkennen.
Emotionserkennung funktioniert also mit sogenanntem überwachtem Lernen, indem Menschen Maschinen Beispiele zeigen?
Wir gehen immer mehr in die Richtung Unabhängigkeit vom Menschen. So hat ein System gelernt, Youtube-Videos nach den darin vorkommenden Gefühlen zu sortieren. Da genügt zunächst ein einziges Beispielvideo. Über die Verlinkung sucht sich das System dann Kandidaten heraus, die möglicherweise Ähnliches enthalten, und überprüft das anhand des Inhaltes. Nur bei Zweifelsfragen fragt es einen Menschen um Rat.
Viele Anwendungsfälle haben mit Robotern zu tun, die alte oder kranke Menschen im Alltag begleiten sollen. Sie hingegen forschen viel im Bereich Autismus. Was versprechen Sie sich davon?
Durch die Interaktion mit emotionalen Robotern lernen Kinder soziale Verhaltensmuster und Emotionen besser zu verstehen. Wir haben etwa mit sogenannten Serious Games experimentiert, in denen die Kinder in einem Videospiel mit dem Computer üben können, Emotionen auszudrücken oder zu verstehen. Es gab klare Verbesserungen darin, Emotionen zu zeigen.
Was nicht heißt, dass diese Kinder die Emotionen empfinden können. Sie würden sie imitieren, ähnlich wie Roboter. Ist das nicht eher ein Überstülpen gesellschaftlicher Normen?
Ob autistische Personen dies dann übernehmen, ist eine zweite Frage. Zunächst lernen sie die Fähigkeit, Emotionen zu lesen und zu zeigen, so wie andere lesen und schreiben lernen. Es bereichert ihre Möglichkeiten – und das verschafft ihnen zumindest die Wahlfreiheit im Vergleich zu vorher.
Hilft die maschinelle Mustererkennung bei der Diagnose von Autismus?
Ja, das zeigen unsere Versuche eindeutig: Ein Computer kann beliebig geduldig Kinder beobachten. So ein System ist dann besser trainiert als ein einzelner Arzt, der ja nur eine sehr begrenzte Anzahl an Fällen behandeln und nur begrenzt einzelne Kinder beobachten kann. Wir haben ein System mit Heimvideos trainiert, darunter auch Kinder, die später als autistisch diagnostiziert wurden. Wir konnten mit einer Wahrscheinlichkeit von 80 Prozent vorhersagen, welche Kinder später die Diagnose bekamen. Teils im Alter von nur zehn Monaten hat unser System das schon erkannt. Das ist ein Alter, in dem Ärzte normalerweise noch keine Aussagen treffen.
Besteht nicht die Gefahr, dass Menschen anfangen, solche Systeme an der Nase herumzuführen?
Ich bin mir sicher, dass Computer lernen werden, echte Emotionen von gespielten zu unterscheiden. Schließlich sind die neuen Methoden maschinellen Lernens gut darin, Muster zu erkennen. Dafür brauchen wir allerdings noch viele Daten – physiologische Daten, Mimik, Sprachdaten und Stimmdaten.
Bisher konzentrieren sich die Systeme auf die Mimik. Aber sie können kein falsches von einem echten Lächeln unterscheiden. Sind Stimmdaten hier die Lösung?
Unsere Stimme ist sehr aussagekräftig was Emotionen betrifft. Es gibt beispielsweise ein System, das über das Smartphone Depressionen erkennt – allein anhand der Stimme und der Bewegungsdaten. Insgesamt sehe ich eine Tendenz, dass solche Systeme immer mehr in den Alltag integriert werden. Das ist schwierig mit einer Kamera zur Mimik-Erkennung, denn die Menschen haben Bedenken, wenn sie bildlich aufgenommen werden. Und es ist auch keineswegs leicht, im Alltag jeweils eine Kamera auf sich gerichtet zu haben und sich beobachtet zu fühlen.
Dann müssten Sprachassistenten wie Alexa und Siri Ihrer Branche einen Aufschwung bescheren.
Ja, der Aufschwung kommt gerade schon. Es gibt immer mehr Start-ups wie auch das unsere – die Audeering GmbH –, die mit der Stimme arbeiten und Emotionen erkennen. Die nächste Killer-App wird das erste Dialogsystem sein, das einen emotionalen Dialog führen kann – weil die Informationen aus der Stimme genügen, um Emotionen zu erkennen und passend darauf zu reagieren. Visionen wie aus den Filmen „Her“ oder sogar „Ex Machina“ sind also gar nicht so unrealistisch.

Gefragter Informatiker

Wissenschaftler
Björn Schuller (42) ist Professor an der Universität Augsburg und Inhaber des ZD.B Lehrstuhls für Embedded Intelligence for Health Care and Wellbeing. Er ist assoziierter Professor für maschinelles Lernen am Imperial College in London, wo er die Gruppe Language Audio & Music leitet und permanenter Gastprofessor am HIT in China.

Unternehmer
Schuller hat das Start-up Audeering mitbegründet, welches intelligente Audioanalyse anbietet, vor allem im Bereich der Sprachemotionserkennung. Er berät darüber hinaus globale Unternehmen wie Huawei oder Samsung. Das World Economic Forum hatte ihn 2015/16 als einen der 40 herausragenden Wissenschaftler unter 40 Jahren gekürt.

Hier lesen Sie weitere StZ-Plus-Texte

Weitere Themen

Weitere Artikel zu Roboter Emotionen Gefühle Interview