Computerlinguistik Was sagst du da, Roboter?

Von Eva Wolfangel 

Würden Maschinen mit Betonungsregeln gefüttert, klänge ihre Sprache natürlicher. Aber manche dieser Regeln sind nicht einmal den Menschen bekannt. Wissenschaftler der Uni Stuttgart erforschen sie mit anderen – und sind manchmal selbst überrascht.

Wer auch immer C-3PO aus Starwars das Sprechen beigebracht hat: er war recht erfolgreich. Der Roboter plappert seither ohne Unterlass – bei richtiger Betonung. Foto: Verleih
Wer auch immer C-3PO aus Starwars das Sprechen beigebracht hat: er war recht erfolgreich. Der Roboter plappert seither ohne Unterlass – bei richtiger Betonung.Foto: Verleih

Kleiner Test am Anfang. Stammt folgender Satz von einem Menschen oder einer Maschine? „Folgen Sie der Berliner STRASSE und biegen dann rechts ab in die Hamburger STRASSE.“ Klingt komisch und gleichzeitig irgendwie vertraut? Könnte Ihr Navi gesagt haben? Sätze wie diese klingen unnatürlich, weil sie an der falschen Stelle betont sind. Ein Mensch würde in diesem Fall die Worte „Hamburger“ und „Berliner“ betonen. Maschinen haben mit solchen Fragen ihre Schwierigkeiten, weil die Regeln für die Betonung kompliziert sind, und weil die Entwickler von Sprachsynthesesystemen darauf bislang wenig Wert gelegt haben.

„Dabei kann durch falsche Betonung der Sinn eines Satzes ins Gegenteil verkehrt werden“, sagt Arndt Riester vom Institut für maschinelle Sprachverarbeitung der Universität Stuttgart. Er zitiert einen Beispielsatz aus der „Süddeutschen Zeitung“: „Familie, Gott und Vaterland – nichts zählt mehr in dem Land, das in wenigen Wochen einen neuen politischen Leader sucht.“ Wäre die Betonung auf „zählt“, stünde es schlecht um die USA, die zu dieser Zeit mitten im Präsidentschaftswahlkampf stand. Die Betonung auf „mehr“ hingegen lässt das Land in einem guten Licht erscheinen.

Wir erschließen uns die sinnvolle Betonung aus dem Kontext – und andersherum. Wollen wir das Maschinen beibringen, müssen wir die Regeln dafür verstehen, wann in einem Satz welches Wort betont wird. „Schon vor über 40 Jahren haben Wissenschaftler angefangen, das zu erforschen“, sagt Riester. Manche Sprachsynthesesysteme haben die einfachsten Regeln bereits implantiert. Eine davon lautet: normalerweise ist das letzte Substantiv im Satz betont. Das gilt für einen unspezifischen Kontext, wenn der Sinn keine besondere Betonung erfordert. Deshalb betonen diese Systeme im obigen Beispiel „Straße“. Denn dass Berlin und Hamburg in diesem Fall Gegensätze sind und deshalb betont werden müssen – wie eine weitere, stärkere Regel besagt – ist für sie gar nicht so einfach zu verstehen.

Neue Regeln erschließen sich dank Computerhilfe

Im Gegensatz zu seinen Kollegen vor 40 Jahren haben Forscher wie Riester heute Unterstützung an ihrer Seite: Computer helfen zumindest teilweise, Sprache automatisch zu analysieren. Die Forscher der Uni Stuttgart greifen dafür auf eine große Menge Radiobeiträge zurück. Der Vorteil: sie existieren bereits in schriftlicher sowie in gesprochener Form. Per Hand fügen die Sprachwissenschaftler den Daten wichtige Informationen hinzu, beispielsweise markieren sie Gegensätze oder Synonyme. Selbst hinter Fällen, die seine Disziplin früher als persönlichen Stil eines Sprechers abgetan hätte, hat Riester dank der Masse an Sprachdaten Regeln erkannt. So sei früher die Auswahl zwischen Sätzen wie „Das Geschenk habe ich dem Mann gegeben“ versus „dem Mann habe ich das Geschenk gegeben“ mit persönlichem Stil erklärt worden. Heute weiß man, dass Eigenschaften der vorangegangenen Sätze zwingend zum einen oder anderen Ergebnis führen.

Auch auf Wortebene gibt es Unterschiede: Stefan Baumann von der Uni Köln untersucht die genaue Intonation einzelner Wörter im Satz, die Sprachmelodie. So kann es sein, dass ein Wort in zwei Fällen betont ist, aber trotzdem anders klingt. Beispielsweise die Antwort auf die Frage: „Was hast du heute gemacht?“ „Ich habe mit Lena telefoniert.“ Das Wort „Lena“ ist betont gemäß der Regel, dass in einem unspezifischen Kontext das letzte Nomen im Satz akzentuiert ist. Ist dieser Satz allerdings die Antwort auf die Frage: „Hast du mit Tina telefoniert?“, wird „Lena“ ebenfalls betont. Nur eben ein bisschen anders. In der Regel geht die Stimme bei „Le“ nach oben, im ersten Fall hingegen oft nach unten. Selbst diese Feinheiten, so Baumann, beeinflussen die Bedeutung eines Satzes. „Eine Tonhöherbewegung führt zu einer besonderen Wahrnehmung von Prominenz“, sagt Baumann. Das überprüft er mit Probanden, denen er Sätze mit verschiedenen Betonungsmustern vorspielt.

Noch schwieriger wird es bei Teil-Ganzes-Relationen. „Da vorne steht ein Dobermann. Ich hasse Hunde.“ Hier wird „Hund“ wie eine Wiederholung behandelt und nicht akzentuiert. Andersherum hingegen bei folgender Teil-Ganzes-Relation: „Waren Sie schonmal in Italien? Ja, ich liebe Neapel.“ Hier wird „Neapel“ betont, als wäre es etwas Neues. Es kommt also darauf an, in welcher Reihenfolge Teil und Ganzes im Gespräch vorkommen. Man kann sich vorstellen, wie schwierig das einer Maschine beizubringen ist, die erst einmal lernen muss, wie Neapel und Italien oder Hund und Dobermann in Beziehung stehen.

Maschinen bräuchten ein Diskursgedächtnis

Schon vor einigen Jahren hat Baumann das Sprachsynthesesystem „Mary“ des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) mitentwickelt und zwei einfache Regeln eingearbeitet: Jedes Substantiv und jedes Adjektiv bekam einen Akzent. Zusätzlich lernte das System, im Kontext zurückzublicken: Kam ein Wort schon vor? Bei Wiederholungen wurde der Akzent gestrichen. „Das vermeidet die schlimmsten Fehler“, sagt Baumann. Im Eingangsbeispiel wäre dann zwar „Berlin“ und „Hamburg“ nicht betont, aber „Straße“ dafür auch nicht. Es klänge schon ein ganzes Stück natürlicher.

Maschinen bräuchten ein Diskursgedächtnis, um solche Betonungen natürlich zu erzeugen, sagt Frank Kügler von der Uni Potsdam: Sie müssten wissen, was schon alles im Gespräch vorkam und wie das mit dem aktuell zu sprechenden zusammenhängt. Anhand von aufgezeichneten Handyverkaufsgesprächen analysiert Kügler mit seinen Kollegen die Betonungsregeln. Der Vorteil dieses Genres: Wiederholungen und Gegensätze sind in all ihren Feinheiten relativ üblich, mal geht es um die Größe des Displays, mal um die der Tastatur, mal um höhere oder niedrigere Preise. Allein Betonungen gegensätzlicher Informationen führen laut seiner Erkenntnis zu einer deutlichen Verbesserung: Er entwickelt das „Mary“-System mit diesen Regeln entsprechend weiter, kennzeichnete Kontraste und spielte die auf Basis dieser Regeln erzeugten Sätze Probanden vor. Systeme außerhalb der Labore, wie die Ansage am Bahnhof, sind hingegen noch weit von einer solchen Verbesserung entfernt. Häufig argumentieren die Unternehmen, dass die Nutzer es auch so irgendwie verstehen.

Und selbst wenn die Forscher die Unternehmen eines Tages überzeugt haben, dass ihre Erkenntnisse für das Verständnis durchaus relevant sind, steht schon die nächste Hürde bereit: „Es gibt viele weitere Aspekte, die Natürlichkeit beeinflussen“, sagt Kügler. Kleine Pausen, Atemgeräusche, Füllwörter wie „äh“ und sogenannte Backchannels, die ein Zuhörer produziert, während der Sprecher spricht: etwa „hm“ und „ja“. „Sie erhöhen die Natürlichkeit, haben aber keine grammatikalisch regelhaften Vorkommen.“ Zumindest nach dem aktuellen Stand der Forschung. Aber wer weiß, ob intelligente Maschinen eines Tages auf der Basis von genügend Trainingsmaterial nicht doch bis heute noch versteckte Regeln dafür finden.

  Artikel teilen
0 KommentareKommentar schreiben
Artikel kommentieren

Melden Sie sich jetzt an!
Um Artikel kommentieren zu können, ist eine Registrierung erforderlich. Sie müssen dabei Ihren Namen sowie eine gültige E-Mail-Adresse (wird nicht veröffentlicht) angeben. Bei Abgabe Ihrer Kommentare wird Ihr Name angezeigt. Alternativ können Sie sich mit Ihrem Facebook-Account anmelden.