Sprachtechnologie: Computern Sprechen lehren

Sprachtechnologie Computern Sprechen lehren

21.10.2011 - 14:42 Uhr

Der Bedarf an Informatikern und Linguisten zur Entwicklung von Sprachtechnologien steigt.

Peter Ilg

21.10.2011 - 14:42 Uhr

Wer die Wahl hat, entscheidet sich für die Frauenstimme. Zu diesem Ergebnis kam der Computerverband Bitkom in einer Umfrage zum Nutzerverhalten bei Navigationssystemen. Die meisten Navis lassen nicht nur zwischen Frau und Mann die Wahl, sondern auch zwischen Dialekt oder Promistimmen bis hin zu Mundart - vieles ist möglich. Es gibt zwei gängige Varianten, um die Sprache zu erzeugen. „Entweder die Ansagen werden aufgenommen und dann als Audio-Schnipsel aus den Konserven für die Sprachausgabe zusammengesetzt. Oder sie sind synthetisiert, das heißt, aus sehr kleinen Schnipseln zusammengesetzt. Diese digitalen Stimmen können dann zum Beispiel auch Straßennamen sagen und nicht nur ,nächste rechts'”, sagt Dr. Marc Schröder, Senior Researcher am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken und dort Projektleiter im Bereich Sprachsynthese und emotionale interaktive Systeme. Andere Einsatzmöglichkeiten automatischer Ansagen kennt man aus Zügen oder von Flughäfen.

Experten sagen Sprachsynthese dazu, wenn der Computer spricht. Telefondialogsysteme sind eine weitere etablierte Anwendung dafür. Sie sind der Versuch, über das Telefon Sprache zu erkennen, was häufig anhand von Schlüsselwörtern geschieht. „Die Benutzer mögen diese unnatürliche Interaktion nicht besonders, doch die Firmen sparen dadurch Geld, weil Call-Center-Mitarbeiter durch den Computer ersetzt werden können”, so Schröder. Der dritte Einsatzbereich von Sprachsystemen ist ziemlich neu und nach Meinung des Wissenschaftlers spannend: Es ist internetbasierte Sprachein- und -ausgabe. Wenn der Computer aus der Spracheingabe einen Text generiert - sei das verbal oder in Schriftform - ist das Spracherkennung. Google ist mit Voice-Search dort vorgeprescht: In Handys mit dem Google-Betriebssystem Android können Suchanfragen diktiert werden, anstatt sie auf dem Touchscreen der Smartphones einzugeben.

Apple geht nun einen intelligenten Schritt weiter mit seinem iPhone 4S, das es seit Mitte Oktober im Handel ist: Wer wissen möchte, wie das Wetter wird oder ob es kurzfristig Flüge nach New York gibt, kann das der Software-Assistentin Siri sagen. Möglich macht das die Verbindung von Sprachanalyse mit künstlicher Intelligenz: Auf die Frage „Brauche ich morgen einen Regenschirm?” liefert sie postwendend den Wetterbericht.

Weil die Erkennung nicht auf dem Handy, sondern in der Computer-Cloud stattfindet, ist die Anwendung sehr mächtig. „Riesige Datenmengen führen zu einer erstaunlich guten Qualität bei der Spracherkennung.” Dass solche Dienste langsam in den Alltag einziehen, ist ein Verdienst von Sprachtechnologen. Ein Studium der Computerlinguistik ist eine typische Ausbildung dieser Leute, oder sie haben an einer Hochschule Informatik studiert, an der Experten auf diesem Gebiet lehren. „Sprache und Informatik ist ein schwieriges Überlappungsfeld an Kompetenzen. Daher gibt es nicht viele, die beides können,” so Schröder. Er ist Phonetiker und Autodidakt in Sachen Informatik. Ein umgekehrter Weg zum Sprachtechnologen ist, wenn Computerspezialisten lernen, wie menschliche Sprache funktioniert.

Sprachapplikationen werden zunehmen, prognostiziert Schröder optimistisch. Vor allem im mobilen Internetbereich, etwa in Smartphones. „Ich meine, dass ganz viele Firmen in der Zukunft Speech-Interfaces für ihre Webdienste anbieten, und dafür werden Fachleute gebraucht.”

Zum Beispiel bei der Telekom. Dr. Joachim Stegmann leitet die Abteilung Future-Communications bei den Telekom-Laboratories (T-Labs) in Berlin. Die T-Labs betreiben Forschung und Innovationsentwicklung auf allen für das Unternehmen relevanten Gebieten. „Wir selbst entwickeln keine Spracherkennungssoftware, die lizenzieren wir von spezialisierten Technologiepartnern und entwickeln darauf basierend Applikationen.” Stegmann hat etwa 20 Mitarbeiter, die sich um Sprachdienste kümmern. Darunter Informatiker, Linguisten, Phonetiker, Psychologen und Ingenieure. „Die Zusammensetzung der Gruppe ist - wie die Aufgabe selbst - eine interdisziplinäre.” Und ob Informatikstudenten im Studium etwas über Sprachtechnologien lernen, hänge von der Hochschule ab. Weil zum Beispiel an der RWTH Aachen, der Uni Karlsruhe, der TU Berlin und an der Universität Saarbrücken absolute Experten auf diesem Gebiet lehrten, würde dort das Thema im Studium vermittelt.

Neben Kenntnissen der Web-Programmierung brauchen seine Mitarbeiter ähnliche Fähigkeiten und Kenntnisse wie Softwareentwickler. Dazu gehören Methodenwissen, Projektmanagement- und Softwarekenntnisse in den Smart-Phone-Sprachen Android und iOS. „Und weil diese Themen rasend schnell voranschreiten, muss man durch ständiges Lernen am Ball bleiben, besser eine Nasenspitze voraus sein.”

Auch Stegmann ist überzeugt, dass künftig mehr Sprachspezialisten in der Informatik gebraucht werden, weil immer häufiger Sprache in Interfaces integriert würde. Seine Mitarbeiter arbeiten beispielsweise an SMS, die mittels Spracheingabe generiert werden, und an einer sprachgesteuerten Fernbedienung für Entertain, dem Internetfernsehen der Telekom.