Denkt man an "Computerstimme", fallen einem vielleicht der Supercomputer WOPR aus dem 80er-Jahre-Streifen //Wargames// und die Sprachsynthese von Stephen Hawking ein: Gleichförmig, künstlich, robotisch.
Dass die Technologie in der Praxis deutlich weiter ist, hat Google/Deepmind 2016 mit [https://www.heise.de/newsticker/meldung/Google-DeepMind-Sprachsynthese-soll-menschlicher-klingen-3317810.html WaveNet] dargestellt. Die ziemlich beeindruckende Technologie auf Basis neuronaler Netze war in den [https://cloud.google.com/text-to-speech/docs/wavenet englischsprachigen Beispielen] kaum noch von tatsächlich gesprochenen Sätzen zu unterscheiden.
Im Frühjahr 2018 hat Google dann eine [https://www.golem.de/news/google-deepmind-cloud-text-to-speech-liest-texte-mit-fast-natuerlichem-klang-1803-133567.html Vorlese-API vorgestellt], die man als Entwickler recht einfach in seine Anwendungen einbauen kann. //Text-to-Speech// bot in der damaligen Beta virtuelle Stimmen für doch einige Sprachen an. Leider war eine WaveNet-basierte Synthese eigentlich nur für Englisch möglich, alle anderen Sprachen wurden "nur" mit den klassischen Ansätzen bereitgestellt - so auch Deutsch.
Nun, das Warten hat ein Ende: Ich bin vorgestern mal wieder auf die [https://cloud.google.com/text-to-speech/docs/voices entsprechende Doku-Seite der API] vorbeigesurft. WaveNet ist seit 21. August für Deutsch verfügbar, und das gleich in verschiedenen Stimmausprägungen! Auch andere Sprachen wie etwa Koreanisch oder Italienisch wurden berücksichtigt.
Im Vergleich zu den englischen Varianten klingen die deutschen Stimmen für mich allerdings noch merklich künstlicher. Das wird aber mit der Zeit sicher noch besser werden. Falls noch nicht geschehen, wäre ein offensichtlicher Pfad dahin der Einsatz des Tacotron-2-Systems, das Google [https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html Ende 2017 vorstellte.]
Es gibt valide ethische Bedenken für den allzu sorglosen Einsatz täuschend natürlich wirkender Sprachsynthese. Und die Technik wird sicherlich auch für Gaunereien eingesetzt werden. Als verhaltener Optimist freue ich mich trotzdem über die absehbaren Einsatzgebiete in der Computer-Mensch-Kommunikation: "Smarte" Assistenten, Reha, Ambient Assisted Living (AAL) sowie Unterricht und Lehre.
Wie die Stimmen denn nun klingen, kann man direkt auf der [https://cloud.google.com/text-to-speech/ Einstiegsseite des API-Angebots] herausfinden.