In Zeiten des KI-Hypes versuchen Computer mehr und mehr, sich wie Menschen zu verhalten – mit überschaubarem Erfolg, wie unser Kolumnist Peter Glaser festgestellt hat.

Stuttgart - Wenn jemand spricht, strömt Luft aus der Lunge, versetzt die Stimmbänder in Vibration und lässt so bestimmte akustische Wellenmuster entstehen. Ihre Eigenschaften hängen von der Anordnung vor allem der Zunge und der Lippen ab. Im Kehlkopf wird zunächst ein Grundton mit zahlreichen Obertönen erzeugt. Auf dem Weg zur Mundöffnung wird ein Teil von ihnen gedämpft, ein anderer Teil durch Resonanz verstärkt. Vokale konzentrieren sich dabei in speziellen Frequenzbereichen, den sogenannten Formanten. Konsonanten sind schwieriger zu orten. So besteht etwa der Konsonant p im Wort sprechen quasi aus Stille und kann nur anhand der Übergänge zu den Nachbarvokalen dingfest gemacht werden.