Stuttgarter Linguisten bringen Maschinen bei, Texte zu verstehen. Das klappt schon ganz gut, denn die Computer greifen auf große Datenbanken zurück. Aber der Teufel steckt dann doch im Detail, erläutert Jonas Kuhn von der Universität Stuttgart.

Stuttgart - Als er vor 25 Jahren mit der Computerlinguistik angefangen habe, sei er häufig gefragt worden, ob er sich mit Programmiersprachen beschäftige, erinnert sich Jonas Kuhn. Heute muss er nur noch ein paar Stichworte in den Raum werfen, um klarzumachen, wofür sein Fach gebraucht wird: maschinelle Übersetzungen, Dialogsysteme oder auch die Analyse großer Textmengen. Letzteres ist das Steckenpferd des Professors am Institut für Maschinelle Sprachverarbeitung der Uni Stuttgart. Andere Disziplinen können davon profitieren, indem sie etwa Zeitungsartikel aus mehreren Jahrzehnten auf bestimmte Fragestellungen hin untersuchen.

 

Was Kuhn allerdings immer noch erklären muss ist, wieso menschliche Sprache für Maschinen so schwer zu verstehen ist. Kuhn zeigte bei den Alcatel-Lucent-Lectures an der Uni Stuttgart am Beispiel des Verbs „einstellen“, welche Fallen die deutsche Sprache der maschinellen Logik stellt. Mal bedeutet das eine Jobzusage, mal das Ende eines Verfahrens, mal das Justieren der Heizung, mal steht das Subjekt, mal das Objekt näher am Verb. Beim Satz „Die Oper stellte sie ein“ muss der Computer klären, ob die im Satz zuvor genannte Opernsängerin einen Arbeitsvertrag erhielt oder das Haus für immer geschlossen wird. Was ist hier Subjekt, was Objekt ist? Das kann für eine Maschine kompliziert sein.

Worte sind im Deutschen häufig mehrdeutig, dazu kommen umständliche Arten des Satzbaus und Pronomina, deren Bezug erst gefunden werden muss. „Um so etwas korrekt zu machen, braucht man Wissen über die grammatische Struktur der deutschen Sprache“, sagt Kuhn. Aber wie erlangt eine Maschine dieses Wissen am besten? Häufig in Form maschinellen Lernens, der statistischen Auswertung von Texten. Diese datenbasierte Methode kommt ohne vorgegebene Regeln aus, sie analysiert, wie andere Sätze aufgebaut sind und was deren Bedeutung ist. Wenn nun das Weltwissen dazukommt, das aussagt, dass der Betrieb eines Opernhauses in der Regel von Bürgermeistern eingestellt wird, Sänger hingegen vom Opernhaus eingestellt werden, hilft auch dies beim Verstehen.

Zum Verstehen braucht man auch Weltwissen

Dem gegenüber steht das symbolische Modell: das System lernt nicht aus Daten, vielmehr gehen ihm Menschen die Regeln vor, die Sprache beschreiben. Das ist aufwendig. „Und man denkt nie an alle Varianten, die möglich sind“, sagt Kuhn. Dieses Modell liefert meist schlechtere Ergebnisse als das statistische. „Man kommt mit einem statistischen Modell erstaunlich weit“, sagt Kuhn. Er zeigt das anhand von Beispielen aus der automatischen Übersetzung von Google: tatsächlich wird das Wort „eingestellt“ in seinen unterschiedlichen Bedeutungen stets richtig übersetzt. „Das ist überraschend, dass diese komplizierte Sache funktioniert“, sagt Kuhn.

Aber die Statistik hat auch ihre Grenzen. Der englische Satz „Producing fluent German tends to be quite hard“ wird bei Googletranslate beispielsweise mit „Herstellung fließend Deutsch neigt dazu, ziemlich hart“ übersetzt, obwohl gemeint ist, dass es eher schwierig sei, Deutsch fließend hinzubekommen.

Am besten versteht ein Computer laut Kuhns Forschungen menschliche Sprache, wenn er sein Wissen aus beiden Modellen bezieht. Etwa 90 Prozent interpretiert ein solcher kombinierter Algorithmus richtig. „Allerdings ist diese Kombination nicht einfach“, sagt Kuhn: wer dem symbolischen Modell zu viel Raum gibt, mindert die Wirkung des datenbasierten Modells. Ein weiteres Problem: sobald ein System selbst lernt, kann es zu falschen Schlüssen kommen. Beim symbolischen Modell hingegen wissen die Forscher, auf welcher Basis es entscheidet. Man brauche einen Blick hinter die Kulissen, wenn das statistische Modell beteiligt sei, sagt Kuhn. Jemand muss die Ergebnisse stichprobenartig überprüfen. Hier können Kollegen helfen: Historiker oder Politologen nutzen die Algorithmen, um große Textmengen zu analysieren und melden Fehler an die Computerlinguisten zurück.

Auch Googletranslate hat Kuhn ein wenig übers Ohr gehauen, wie ein Zuhörer am Ende anmerkt: Der Satz „Das Land stellte viele Lehrer ein“ wurde in „The country hired many teachers“ übersetzt, das Verb „einstellen“ also richtig interpretiert. Aber in Deutschland stellt nicht die Regierung, sondern das Bundesland die Lehrer ein. Ob da Google noch ein wenig Weltwissen über den deutschen Föderalismus fehlt?