Noch nie war es so leicht, Fotos, Videos und Tondokumente zu fälschen. Wir erklären, welche Methoden eingesetzt werden und wie man Manipulationen erkennt.
Welche Arten von Deepfakes gibt es? Schon länger kursieren gefälschte Fotos, die mit Hilfe Künstlicher Intelligenz (KI) erstellt wurden. Eines zeigt etwa den Papst in einer dicken Daunenjacke, die er in Wirklichkeit nie getragen hat. Auch Bewegtbilder und Sprache lassen sich immer besser manipulieren. Eine Methode ist das sogenannte Face Swapping – also der Austausch von Gesichtern in Videos. Damit kann man ein beliebiges Gesicht in eine Filmsequenz hineinmontieren oder das Originalgesicht durch eine Variante ersetzen, deren Mimik und Bewegungen nahezu in Echtzeit denen eines Angreifers folgen. Audiofakes machen es wiederum möglich, beliebige Inhalte mit der Stimme einer bekannten Person wiederzugeben.
Wie wird die Technik eingesetzt? Man kann zum Beispiel Personen in Situationen zeigen, in denen sie sich nie befunden haben. So lassen sich etwa belastende Videos produzieren, in denen eine Zielperson kriminelle oder moralisch verwerfliche Handlungen begeht. Auch Videoidentifikationsverfahren lassen sich überlisten. In Videokonferenzen kann ein Angreifer sich als Mitarbeiter ausgeben und so an interne Informationen kommen oder den Chef Dinge sagen lassen, die dem Unternehmen schaden. Audiofakes ermöglichen besonders überzeugende Schockanrufe, bei denen sich Angreifer als Verwandte oder Bekannte ausgeben (Enkeltrick). Eine weitere Möglichkeit sind Phishing-Anrufe, bei denen ein Angreifer mit der Stimme eines Kollegen oder Vorgesetzten spricht, um Daten und Informationen für spätere Angriffe auf ein Unternehmen abzugreifen. Sehr real ist auch die Gefahr von Desinformationskampagnen. So verbreiteten unbekannte Urheber im vergangenen Jahr ein Fake-Video, in dem der ukrainische Präsident Wolodymyr Selenskyj zur Kapitulation im Kampf gegen Russland aufrief. Für Wirbel sorgte im vergangenen Juni auch ein Gespräch von Berlins damaliger Regierender Bürgermeisterin Franziska Giffey mit einem Video-Fake des Kiewer Bürgermeisters Vitali Klitschko. Der Vorfall zeigt, wie schwer es inzwischen ist, zwischen Wirklichkeit und Fälschung zu unterscheiden.
Was hat das mit KI zu tun? Die Programme, die solche Fälschungen möglich machen, nutzen so genannte tiefe neuronale Netze. Sie lassen sich stark vereinfacht mit Netzwerken aus biologischen Nervenzellen vergleichen und bilden die Grundlage leistungsstarker KI-Anwendungen wie etwa ChatGPT. Tiefe neuronale Netze können anhand von Trainingsdaten lernen, Muster in Bewegungen oder Sprache zu erkennen und zu imitieren. Fachleute sprechen von Deep Learning, wovon sich auch der Begriff Deepfakes ableitet. Generative KI kann auf Basis der Eingaben eines Nutzers auch direkt realitätsnahe Bilder mit beliebigen Inhalten erstellen.
Welche Daten werden genutzt? Für das Training einer KI-Software eignen sich beispielsweise Videokonferenzen, Videos, die auf Social Media geteilt werden, oder Tonaufnahmen der Zielperson. Dabei wird immer weniger Ausgangsmaterial benötigt. Mittlerweile reiche eine einminütige Videosequenz oder Tonaufnahme, heißt es beim Bundesamt für Sicherheit in der Informationstechnik (BSI). Und diese Zeitspanne werde weiter schrumpfen. Wichtig ist auch die Qualität der Trainingsdaten. Wenn die Zielperson dort nie zur Seite schaut oder nie eine bestimmte Mimik hat, ist es natürlich schwieriger, eine solche Situation in einem Fake Video glaubhaft darzustellen.
Wie häufig sind Betrugsversuche auf Basis von Deepfakes – und wie ist die Tendenz? „Von der Tendenz her beobachten wir mehr Fälle, in denen Deepfakes verwendet werden. Genaue Zahlen dazu gibt es bis jetzt aber nicht“, teilt das BSI mit. Zudem würden die Attacken immer vielfältiger. Nach Ansicht der Behörde hängt das unter anderem mit der besseren Verfügbarkeit entsprechender Technologien zusammen. „Vor fünf Jahren war es zum Beispiel nur mit einem extremen Aufwand möglich, gute Audio-Deepfakes zu erstellen“, sagt ein BSI-Sprecher. „Inzwischen gibt es dafür cloudbasierte Dienste, mit denen das praktisch jeder Laie kann“. Es sei klar, „dass da in Zukunft eine große Herausforderung auf uns zukommt“.
Wie kann man Deepfakes erkennen?
Das BSI nennt eine ganze Reihe von Kriterien. So wirke der Übergang zwischen Gesicht und Hintergrund beim Face Swapping teilweise unnatürlich. Auch Hautfarbe und Textur könnten wechseln. Hinzu kämen häufig verwaschene Konturen und eine begrenzte Mimik. Audio Fakes zeichneten sich teilweise durch einen metallischen Sound, falsche Aussprache, unnatürliche Betonungen und Verzögerungen aus. Aus der Abwesenheit dieser Merkmale folge aber nicht zwangsläufig, dass ein Video oder Tondokument echt sei. „Dafür sind viele Fälschungen mittlerweile einfach zu gut“. Grundsätzlich solle man sich immer fragen, woher solche Inhalte stammen: „Wurde das von irgendwem auf Social Media gepostet – oder sind das von seriösen Journalisten geprüfte Informationen?“
Mit KI gegen KI-Deepfakes
Detektion
Die steigende Qualität der Deepfakes macht diese immer schwerer erkennbar. Abhilfe sollen Detektionsprogramme schaffen, die ebenfalls auf KI basieren. Experten erwarten einen Wettlauf zwischen Systemen zur Herstellung von Deepfakes und zu ihrer Erkennung.
Signaturen
Geforscht wird auch an digitalen Signaturen, die die Echtheit von Fotos, Videos, Texten oder Tondateien belegen. Doch auch diese versprechen keinen vollkommenen Schutz vor Manipulation.