Die menschliche Sprache ist für Maschinen lange undurchsichtig gewesen. Doch mit den erweiterten technischen Möglichkeiten lassen sich etwa aus Mails oder Twitter-Nachrichten Rückschlüsse auf Personen ziehen. Wohin kann das führen?

Stuttgart - Eine Schlagzeile im „Wall Street Journal“ öffnete Michael Strube die Augen. „Wie die NSA so schnell so schlau wurde“: Wie konnte der größte Auslandsgeheimdienst der USA nicht nur massenhaft Daten sammeln, sondern vor allem auch auswerten, insbesondere Sprachdaten aus E-Mails und Telefonaten? Der Computerlinguist vom Heidelberger Institut für Theoretische Studien war damals auf einer Konferenz in den USA, die Zeitung lag auf dem Frühstückstisch im Hotel. Zehn Tage nach den Enthüllungen des Ex-CIA-Mitarbeiters Edward Snowden bewegte das die Welt – und auch Strube. Schließlich wurde im Artikel detailliert erläutert, wie seine Disziplin die Spione maßgeblich stark gemacht hatte: Natural Language Processing (NLP) lehrt Computer, menschliche Sprache zu verstehen.

 

Algorithmen können psychologische Feinheiten erkennen

„Der Öffentlichkeit ist bekannt, dass die Geheimdienste auf Metadaten zugreifen“, sagt Strube, also auf Daten wie Absender oder Betreff einer Mail. „Aber die wenigsten wissen, wie gut wir unstrukturierte Daten analysieren können.“ Unstrukturiert, das ist aus Sicht der Informatik beispielsweise die menschliche Sprache, die für Maschinen lange eine undurchsichtige Sache war. Und auch wenn man allein aus den Metadaten von E-Mails viele Rückschlüsse auf eine Person und ihr Umfeld ziehen kann: Wer den Inhalt automatisch auswerten kann, erfährt noch viel mehr. Seither liest Strube Publikationen aus seinem Fach mit anderen Augen. Er kann nicht mehr nur staunen, welche psychologischen Feinheiten die Algorithmen aus Texten herauslesen können. Es werde an Maschinen gearbeitet, die die Meinung im Internet manipulieren, sagt er: „Vielen ist nicht bewusst, dass das gefährlich ist.“ Eine Studie darüber, wie aus dem Roman „Alice im Wunderland“ von Lewis Carroll Netzwerke zwischen Personen extrahiert werden können – allein aus dem Text? Beeindruckend. Aber als Strube nachsah, wer die Forschung finanziert hatte, stieß er auf die Darpa (Defense Advanced Research Projects Agency), eine Forschungsagentur des US-Verteidigungsministeriums. „Alice klingt so harmlos“, sagt Strube, aber dieselben Algorithmen können aus Mails und Briefen herauslesen, welche Menschen in welchem Verhältnis zueinander stehen – und das im Zweifel gegen sie verwenden. „Dual Use“ heißt das Stichwort dafür, dass Forschung häufig für gute ebenso wie für schlechte Zwecke genutzt werden kann. Strube kannte das bisher vor allem aus anderen Fachbereichen: „Als Forscher sollte man bestimmte Förderungen nicht annehmen, denn man ist Diener dieses Herrn.“

Algorithmen haben Einfluss auf die Gesellschaft

Ähnlich geht es Dirk Hovy von der Universität Kopenhagen. „Bisher war unsere Forschung vor allem akademisch, man ist nicht davon ausgegangen, dass Individuen betroffen sein könnten“, sagt er. „Jetzt sind die Algorithmen an diesem Punkt angekommen.“ Unter anderem die Recherche der amerikanischen Journalistenvereinigung Propublica hat ihn aufgeweckt, die zeigte, wie ein Computersystem Schwarze diskriminierte. Das Prinzip sei eigentlich ganz einfach, sagt Margaret Mitchell von Google Research: „Stecken wir Vorurteile rein, kommen Vorurteile raus.“ Allerdings werde dieser Mechanismus häufig nicht bemerkt. Durch die Deep Learning Revolution, einen Zweig des maschinellen Lernens, wobei die aufeinander folgenden Schichten jeweils die Ergebnisse der vorherigen Schicht nutzen, so dass es einen kontinuierlichen „Lernprozess“ gibt, seien „mächtige Technologien“ entstanden, sagt Mitchell. Erst allmählich werde klar, welchen Einfluss solche Algorithmen auf die Gesellschaft haben können – und wie stark sie deren Gesetzmäßigkeiten auch offenbaren könnten: „Tendenzen in den Daten werden manchmal erst durch den Output der Systeme sichtbar.“ Aber nur, wenn sich die Entwickler dessen bewusst sind, dass sie die Ergebnisse infrage stellen müssen.

Viele Modelle für die deutsche Sprache basieren auf einem 20 Jahre alten Datensatz aus Artikeln aus der „Frankfurter Allgemeinen Zeitung“, erklärt Hovy: „Aber wer spricht schon wie Artikel in der FAZ?“ Mit Kollegen zeigte er kürzlich, dass Systeme auf dieser Basis die Sprache von Menschen über 45 Jahren signifikant besser verstanden als die von unter 35-Jährigen. Ähnlich verhält es sich mit afroamerikanischem Englisch: Eine große Studie mit Twitter-Daten zeigte, dass die Algorithmen diese Sprache nicht „verstanden“ oder sie missinterpretierten. Noch schlechter steht es um Sprachen wie Tamil oder andere weit verbreitete Sprachen des indischen Subkontinents, für die es kaum computerlinguistische Ressourcen gibt. „Also funktioniert Spracherkennung am besten für weiße Amerikaner über 45“, sagt Hovy. Noch gebe es keine Lösung, wie man jene Tendenzen in den Daten systematisch aufspüren kann, die zu Diskriminierung führen können, gibt die Google-Forscherin Mitchell zu: „Diese Technologie muss erst entwickelt werden.“ Gerade an der Schnittstelle zwischen Bild- und Texterkennung gibt es immer wieder Pannen: Kürzlich hatte eine Google-Software das Foto eines Dunkelhäutigen automatisch mit der Unterschrift „Gorilla“ versehen.

Daten könnten missbraucht werden

Was hilft? Ein Bewusstsein dafür zu schaffen sei der erste Schritt, sind sich die Forscher einig. Aber es ist eine Gratwanderung. Als kürzlich ein Student die Idee hatte zu erforschen, ob es eine „typische“ Schwulensprache gebe, lobte Hovy zwar das linguistische Interesse. Tatsächlich können Maschinen heutzutage schon mit recht guter Zuverlässigkeit allein anhand der Sprache etwa in Twitter-Daten erkennen, ob jemand homosexuell ist. Aber wollen die Menschen, dass man sie auf diese Weise durchleuchtet? „Könnte das nicht missbraucht werden?“, fragte Hovy. Der Student erschrak: So weit hatte er nicht gedacht.

Weniger eindeutig liegt der Fall bei einer Studie, in der Hovy mit Margaret Mitchell zeigt, wie man aus Social-Media-Texten ablesen kann, ob Nutzer zu Depressionen neigen. Einerseits kann man so etwas nutzen, um Betroffenen Hilfe anzubieten. Andererseits kann es auch verwendet werden, um Einzelne beispielsweise in Bewerbungsverfahren auszusortieren. Die Forscher entschieden sich dafür, ihr Wissen zu publizieren und im Vorwort auf die Missbrauchsgefahr hinzuweisen. Wer bis zum Ende der Veröffentlichung liest, findet als finanzielle Unterstützer die Darpa, Amazon, Google, Facebook und Microsoft. Bei dem ein oder anderen könnte man sich fragen, ob die Forschung dem richtigen Herrn dient.