Forscher aus Tübingen Wie Videos und Bilder manipuliert werden

Welches Bild ist das Original? Dank Künstlicher Intelligenz können Bilder beliebig verändert werden. Foto: Adobe Stock/meyerandmeyer

Justus Thies forscht im Tübinger Cyber Valley daran, wie Computer die Gesichtszüge eines Menschen auf einen anderen übertragen können. Ein Interview darüber, wie Künstliche Intelligenz unseren Alltag revolutionieren könnte.

Tübingen - Auf der Digitalmesse Republica geht es vom 20. Mai an um Facebook, Datenschutz und Cybersicherheit. Vor dem Auftakt der dreitägigen Veranstaltung spricht der Tübinger Forscher Justus Thies über Chancen und Risiken neuer Techniken.

 

Herr Thies, Sie forschen zu „Deep Fakes“ – erklären Sie das bitte so, dass es Ihre Oma beim Kaffee versteht.

Ich würde ihr zunächst zeigen, was heutzutage mit Handys schon alles möglich ist. Dank Filtern kann ich bei Instagram meinem Profilbild Karnevalsmasken aufsetzen oder Falten glätten. Das sind Vorstufen zu sogenannten Deep Fakes – realistisch wirkenden Fotos oder Videos, die mit Techniken der Künstlichen Intelligenz (KI) verändert werden. Dabei kann ich sogar die Mimik der Person anpassen. Es wird ein Lächeln hinzugefügt, wo jemand traurig aussah. Das kann jeder inzwischen selbst am Handy machen.

Das klingt vergleichsweise harmlos. Was kann die Technik noch?

Heutzutage können Sie nicht nur einzelne Bilder verändern, sondern komplette Videos. Kennen Sie die gefälschten Weihnachtsansprachen der Queen? Im vergangenen Jahr hat sie vermeintlich erzählt, dass sie endlich mal locker sprechen könne, ohne die lästigen Vorgaben vom Palast oder von der Regierung. Das hat sie in Wahrheit natürlich niemals so gesagt.

Und so wird aus der seriösen Queen eine vermeintliche Plaudertasche.

Genau. Bei Deep Fakes geht es meistens darum, Gesichter auszutauschen oder Gesichtsausdrücke zu verändern. Ich habe ein Originalbild einer Schauspielerin und verändere es so, dass sie Nicolas Cage ähnelt. Das Netzwerk lernt in dem Fall, wie aus beliebigen Gesichtszügen das Gesicht von Nicolas Cage erzeugt wird.

Das klingt nach Spielerei.

Aber es ist in Wahrheit viel mehr. Viele Netflix-Serien werden ins Deutsche übersetzt – da hat man das Problem, dass der Ton nicht zur Lippenbewegung passt. Dank KI lässt sich das ändern: Die Lippenbewegungen des Synchronsprechers werden mit jenen des Schauspielers synchronisiert. Die Dialoge passen dann eins zu eins zu den Bewegungen der Lippen.

So bleibt der Zuschauer künftig noch mehr im Ungewissen, wie viel Echtes auf der Leinwand zu sehen ist.

Die technischen Eingriffsmöglichkeiten werden weiter zunehmen. Der nächste Schritt wäre es, eine Stimme künstlich zu erzeugen. So könnten Sie ein Video von einer Person sehen, die eigentlich in einer Ihnen fremden Sprache spricht – aber Sie hören sie bereits übersetzt in Ihrer eigenen Sprache.

Dann müssen wir künftig keine Fremdsprachen mehr lernen?

Idealerweise müsste ich sie nicht mehr lernen, weil Computer für mich in Echtzeit übersetzen.

In Ihrer Welt droht Technik unser Vertrauen in Echtheit zu untergraben. Nehmen wir an, es taucht ein Video auf, das Joe Biden zeigt, der China mit einem Militärschlag droht. Ist es echt?

Ich forsche daran, dem etwas entgegenzusetzen. Das nennt sich Media-Forensik – dabei geht es darum, wie ich erkennen kann, ob ein Video oder ein Bild gefälscht wurde. Dieses Forschungsgebiet ist gerade für soziale Netzwerke und für Nachrichtenseiten im Netz wichtig. In vielen Fällen können automatisierte Verfahren Fälschungen entlarven – dabei wird auch die Künstliche Intelligenz trainiert. Sie lernt anhand von Beispielen, was echt ist und was gefälscht.

Woran erkennt die KI die Fälschungen?

Wenn ich Bilder oder Videos manipuliere, entstehen meistens typische Fehler. Verpixelte Regionen im Bild, Kanten im Gesicht. Die KI erkennt solche Unstimmigkeiten und meldet die etwaige Fälschung.

Ein Katz-und-Maus-Spiel zwischen Fälschern und Aufklärern. Und Sie machen auf beiden Seiten des Spiels mit.

Für mich überwiegen die Chancen. Ich will die Kommunikation zwischen Menschen auf das nächste Level bringen.

Corona hat uns doch gerade erst ins Zeitalter der Videokonferenzen geführt.

Das ist nur eine zweidimensionale Welt. In Zukunft werden sich die Leute in dreidimensionalen Räumen unterhalten. Ich finde es faszinierend, jemandem gegenüberzusitzen, obwohl er sich woanders befindet. Wenn ich eine Person erfassen und ein künstliches Abbild von ihr an einem anderen Ort wiedergeben kann, bietet das neue Möglichkeiten. Sie rufen Ihre Oma an, haben eine 3-D-Brille auf und sehen den Avatar von Ihrer Oma vor sich im Raum sitzen. Dabei beobachten Sie, wie diese Figur ihre Lippen bewegt zu dem, was die Oma tatsächlich erzählt.

Werden Menschen eines Tages nach ihrem Tod als fotorealistische Kopie ihrer selbst weiterleben?

Es gibt schon Firmen, die sich darauf spezialisiert haben, verstorbene Stars zum Leben zu erwecken. Die bauen beispielsweise Avatare von Michael Jackson nach, um ihn bei einem Konzert noch einmal auftreten zu lassen. Inzwischen gibt es Stars, die nie gelebt haben, die aber digital erzeugt wurden. Ein Künstler erschafft einen Star, der dann von einem Konzern genutzt wird. Dieser digitale Star teilt Bilder auf Instagram und hat Fragestunden auf Youtube.

Eine echt gefakte Parallelwelt.

Genau. Als ich das kürzlich meiner Mutter zeigte, sagte sie nur trocken: „Für mich sind das animierte Schaufensterpuppen.“

Weitere Themen