Vergleich von Text-to-Speech-Systemen

28.6.2018 | 5 Minuten Lesezeit

Computer haben angefangen mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech-(TTS-)Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann man sogar kaum noch zwischen Mensch und Maschine unterscheiden.

In einem unserer neuesten codecentric.AI Videos haben wir euch einen Vergleich von Text-to-Speech-Systemen gezeigt: Wir haben einen kleinen Wettbewerb zwischen Polly, Alexa, Siri und Co mit verschiedenen Zungenbrechern veranstaltet und geguckt, was diese Systeme so alles können. Um uns anzuhören, wie die verschiedenen Systeme klingen, haben wir deutsche und englische Stimmen verglichen und auch selber ein paar Zungenbrecher aufgesagt.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Übrigens: Wer diesen Artikel lieber hören statt lesen möchte, findet hier die Audioversion – natürlich powered by TTS AI (Amazon Polly) !

Text-to-Speech-Systeme

Text-to-Speech (TTS) bezeichnet Systeme oder Applikationen, die geschriebenen Text als Input nehmen und in gesprochene Audioversionen umwandeln; sie lesen uns also digitalen Text laut vor. Der computergenerierte akustische Output soll dabei möglichst menschlich und “echt” klingen. Mithilfe von neuronalen Netzen und Deep Learning sind TTS Systeme dabei in den vergangenen Jahren deutlich besser geworden. Heute gibt es Modelle, die schon sehr natürlich klingen und teilweise kaum noch von einem Menschen zu unterscheiden sind.

TTS-Systeme finden in vielen Programmen Anwendung; die bekanntesten sind sicherlich persönliche Assistenten wie Siri, Alexa, Cortana und Google. Aber auch in “kleineren” Programmen findet sich TTS-Technologie! So hilft TTS zum Beispiel Sehbehinderten dabei, mit Computern, Tablets, Smartphones oder anderen digitalen Geräten arbeiten zu können. TTS kann auch mit anderen Techniken aus der Spracherkennung kombiniert werden, wie zum Beispiel Optical Character Recognition (OCR), um Text auf Bildern zu lesen oder Voice Recognition, um gesprochenen Input zu verstehen und darauf zu antworten. Wir können uns Nachrichten, Bücher oder Artikel vorlesen lassen, während wir z.B. Auto fahren oder Programme über Sprachanweisungen steuern ohne die Hände nutzen zu müssen.

Wie funktioniert TTS?

Herausforderungen für gute TTS-Systeme sind die Komplexität der menschlichen Sprache: je nachdem wie wir einen Satz betonen, kann er unterschiedliche Bedeutungen haben. AI-basierte TTS Systeme berücksichtigen Phoneme und Satzmelodie. Es gibt mehrere Ansätze für die künstliche Erzeugung von Sprache.

Eine der wichtigsten ist die Unit-Selection-Synthese. Hierbei wird der Text zunächst normalisiert und in kleine Einheiten aufgeteilt; das können Sätze, Wörter, Silben, Phoneme etc. sein. Die Strukturen (z. B. die Aussprache) dieser Einheiten werden im Kontext gelernt. Dieser Teil fällt unter das sogenannte Natural Language Processing (NLP). Außerdem wird eine Sprachdatenbank generiert, die basierend auf dem segmentierten Text durchsucht wird, um passende Sprachbausteine zu finden (Unit Selection). Diese Suche passiert heutzutage in der Regel mit Entscheidungsbäumen, Neuronalen Netzen oder Hidden-Markov-Modellen. Die Sprachdatenbank selber kann aus menschengesprochenen Audiostücken bestehen oder die entsprechenden Phoneme werden von einem Computer generiert. Letzteres nennen wir Formantensynthese. Sie bietet deutlich mehr Möglichkeiten, denn der Sprachschatz ist nicht limiert; auch jedes unbekannte Wort kann vom Computer generiert werden und die Stimmen können flexibel ausgetauscht werden. Bis vor Kurzem klang aus menschengesprochenen Bausteinen synthetisierte Sprache noch deutlich besser als aus der Formantensynthese. Aber das ändert sich gerade deutlich und es gibt schon viele “künstliche” TTS-Systeme, die sehr menschlich klingen.

Welche TTS-Systeme gibt es?

Alexa hat sich weltweit millionenfach verkauft. Dein Google Navi erzählt dir, wo du abbiegen musst. Siri erinnert dich an deine Termine. Cortana gibt dir Windows-Tipps. Watson beantwortet Support-Anfragen usw. Aber es gibt auch eine Reihe von webbasierten Programmen oder Handy-Apps, die einen eingegebenen Text vorlesen.

In vielen digitalen Geräten gibt es schon eingebaute TTS-Systeme, z. B. in Computern, Smartphones, usw.

Microsoft/Windows: besitzt das eingebaute TTS-System Narrator und die Microsoft Speech API
Mac: hat VoiceOver (oder auf älteren Rechnern PlainTalk)
Linux: verschiedene TTS Programme können installiert werden, z.B. eSpeak

Viele TTS-Systeme gibt es als Software zum Herunterladen und Installieren und/oder webbasiert im Browser bzw. als API. Die großen Cloud-Anbieter wie Amazon, Google, IBM und Microsoft bieten TTS-Systeme “as a Service” an, so dass man mit wenig Aufwand Sprachausgabe in seine eigenen Programme integrieren kann. Aber es existieren auch einige Open-Source-Projekte für TTS (allerdings sind die meistens nur für Windows verfügbar). Hier eine unvollständige Liste von Systemen:

Text-to-Speech von der Kommandozeile aus

Mit espeak können wir auch direkt von der Kommandozeile aus TTS generieren:

1espeak -v german -w 'tongue_twister_intro2.wav' 'Computer haben angefangen mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech (TTS) Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann man sogar kaum noch zwischen Mensch und Maschine unterscheiden.'

Das Ergebnis hört ihr hier .

Text-to-Speech in Python

Auch mit Python kann man schnell und einfach TTS erzeugen, z. B. mit dem gTTS-Paket, das die Google Text-to-Speech (TTS) API nutzt:

1# Python3
2pip install gTTS

1# Python3
2from gtts import gTTS
3import os
4 
5# Text
6mytext = 'Computer haben angefangen, mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech-(TTS-)Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann man sogar kaum noch zwischen Mensch und Maschine unterscheiden.'
7 
8# Sprache (ISO Code)
9language = 'de'
10 
11# Erzeugen der Sprachausgabe
12myobj = gTTS(text=mytext, lang=language, slow=False)
13 
14# Speichern als mp3
15myobj.save("tongue_twister_intro.mp3")

Das Ergebnis hört ihr hier .

Wer spricht am besten?

Mit der Vielzahl an (frei verfügbaren) TTS Systemen ist es inzwischen sehr leicht, TTS in eigene Programme oder Apps einzubauen. Ein paar Beispiele habt ihr hier kennengelernt. In unserem Video und in der Audioversion von diesem Blogpost konntet ihr verschiedene TTS-Systeme im Vergleich hören. Im Moment klingen die englischen Stimmen meist noch deutlich besser als die deutschen. Die deutschen Stimmen klingen bei den meisten Anbietern noch ziemlich blechern. Auch ist es noch problematisch, wenn z. B. englische Ausdrücke in einem deutschen Text vorkommen, wie in der vorgelesenen Versionen dieses Artikels deutlich zu hören ist; da wir uns nur für eine Sprache entscheiden können, wird in der deutschen Variante auch englischer Text von den TTS-Systemen sehr “deutsch” ausgesprochen. Aber wie wir im Video gehört haben, gibt es bereits ein paar Modelle, die deutlich besser klingen als andere. Es ist nur noch eine Frage der Zeit, bis diese für alle Services einsatzbereit sind.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Shirin Elsinghorst

People Lead & Principal Consultant Data/AI

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Shirin Elsinghorst

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Dieser Artikel begleitet meinen Vortrag The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren, den ich am 20.10.2020 auf der data2day gehalten habe. Datenvisualisierung ist ausschlaggebend für Verständnis und Kommunikation Datenvisualisierung...

Data
Data Science

19.10.2020 | 11 Minuten Lesezeit

Shirin Elsinghorst

Simple Deep Learning mit Amazon SageMaker

In unserem neuesten codecentric.AI-Video geben wir eine kurze Einführung in Amazon SageMaker und zeigen, wie man damit schnell und einfach ein Bildklassifikationsmodell trainieren kann, das Brillenträger von Nicht-Brillenträgern unterscheidet. Mit...

Big Data
AWS
Cloud
Data
Machine Learning
Künstliche Intelligenz
Python

11.7.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

Oliver Moser

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability...

Am 21. und 22. Mai hatte ich die Ehre, an der rOpenSci Unkonferenz in Seattle teilnehmen zu dürfen. Es war ein großartiges Event, bei dem ich viele tolle Menschen kennenlernen konnte. Hier berichte ich über das Event und das Projekt, an dem ich dort ...

Data
Machine Learning

18.6.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

Künstliche Intelligenz Initiative: „codecentric.AI“

Im April 2018 haben wir bei codecentric eine AI (Artificial Intelligence bzw. KI = künstliche Intelligenz) Initiative gestartet. Unter dem Projektnamen „codecentric.AI “ werden wir versuchen zu zeigen, was heute mit künstlicher Intelligenz möglich ist...

Computer Vision
Künstliche Intelligenz
Python

10.4.2018 | 3 Minuten Lesezeit

Oliver Moser

Shirin Elsinghorst

Deep Learning Workshop bei der codecentric AG in Solingen

Big Data – ein Schlagwort, das zur Zeit in aller Munde ist, egal ob in nerdigen Blogs, wissenschaftlichen Artikeln oder der Tageszeitung. Doch wie funktionieren Analysen von Big Data eigentlich? Um das heraus zu finden, habe ich an dem Workshop über ...

Big Data
Data
Künstliche Intelligenz
Machine Learning

6.2.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

Fraud-Analyse mit Data-Science-Techniken

Was ist Fraud und was macht es für Data Science interessant? Im Zusammenhang mit Data Science beschreibt das englische Wort „Fraud“ in der Regel Betrug im Online-, Kreditkarten- oder Versicherungsgeschäft. Betrugsversuche bei Geschäftsabschlüssen gibt...

Big Data
Data
Machine Learning

5.9.2017 | 9 Minuten Lesezeit

Shirin Elsinghorst

Soziale-Netzwerk-Analyse und Topic Modeling mit codecentrics Twitter-Freunden...

Vor kurzem hat Matthias Radtke einen spannenden Blog-Artikel über Topic Modeling der codecentric Blog-Artikel geschrieben. Dort gibt er eine umfassende Einführung in Topic Modeling. In diesem Artikel hier zeige ich ein reales Beispiel dafür, wie wir...

Open Source
Künstliche Intelligenz
Data
Data Science

24.7.2017 | 8 Minuten Lesezeit

Shirin Elsinghorst

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

In der heutigen schnelllebigen Welt ist die nahtlose Integration von Anwendungen und Daten entscheidend für den Erfolg eines Unternehmens. In diesem Blogpost werden Konzepte wie die Maslowsche Pyramide, Team Topologies, evolutionäre Architekturen, API...

API
Data
Integration

25.7.2024 | 9 Minuten Lesezeit

Daniel Kocot

Mit Applied Data Products zum datengetriebenen Unternehmen

In den letzten Jahren ist der Hype um den Wert von Daten kontinuierlich gestiegen. Gleichzeitig sind eine Vielzahl von Konzepten und Methoden aufgekommen, wie man als Unternehmen "datengetrieben" werden kann. Vom strategischen Top-Management bis zum ...

Agilität
Big Data
Data
Produktmanagement
Digitalisierung
Data Science
Business Intelligence

18.5.2024 | 8 Minuten Lesezeit

Dr. Florian Rademacher

Stephan Hochhaus

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Bessere SQL-Datenpipelines mit dbt

SQL ist weiterhin aus der Datenanalyse nicht wegzudenken – es ist vergleichsweise einfach zu lernen und Anwender können es ohne zusätzliche Werkzeuge auf einer Datenbank ausführen. Entsprechend ist es bei vielen Datenanalysten und Engineers beliebt. ...

Data

22.2.2023 | 2 Minuten Lesezeit

Matthias Niehoff

Streaming Wikipedia mit Apache Kafka

Apache Kafka ist in aller Munde und entwickelt sich im Kontext von verteilten Systemen zum De-facto-Standard als Plattform für Event Streaming. Im Rahmen unserer OffProject Time (Weiterbildungszeit) haben wir uns die Plattform auch näher angeschaut und...

Kotlin
Data
Java
Messaging
Spring

15.8.2022 | 10 Minuten Lesezeit

Christoph Metzger

Felix Rieß

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

In diesem Artikel möchte ich euch mit einem Python Jupyter Notebook zeigen, wie ihr Anwendungsfälle der Tourenoptimierung inklusive Nebenbedingungen lösen und visualisieren könnt. Außerdem zeige ich euch, wie ihr mit OpenStreetMaps die Route zwischen...

Data

21.6.2022 | 7 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

In diesem Artikel möchte ich euch zeigen, wie ihr Probleme der Tourenoptimierung in einem Python Jupyter Notebook lösen und visualisieren könnt. Am Beispiel eines Fahrradkurierdienst zeige ich außerdem, wie das Grundproblem um gängige Nebenbedingungen...

Data

16.6.2022 | 9 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung (1/3)

In vielen Unternehmen fallen täglich verschiedene Transportprozesse an. Klassische Beispiele sind die Optimierung von Warenein- und ausgängen, die Einsatzplanung von Servicetechnikern oder die optimale Reihenfolge der Auslieferung bei Lieferdiensten....

Data

12.6.2022 | 8 Minuten Lesezeit

Lukas Heidemann

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Die Qualität bzw. Nützlichkeit von Machine-Learning-Modellen lässt sich mit Hilfe von Testdaten und Metriken bewerten. Allerdings in welchem Umfang? Manuell, automatisiert, einmalig, regelmäßig? Manuell lassen sich die ersten Modelle als Ergebnis eines...

Data
Machine Learning
Softwareentwicklung
CI/CD

7.12.2021 | 7 Minuten Lesezeit

Berthold Schulte

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Machine Learning (ML) kann nur durch Modelle in der Produktion Business Value erzeugen. Allerdings kann die Zeitspanne zwischen der Entwicklung der nächsten Iteration eines Modells und dessen Einsatz in einer Produktionsumgebung massiv sein. Dies gilt...

Accelerate
Cloud
Data
Google Cloud
Machine Learning

26.7.2021 | 11 Minuten Lesezeit

Niklas Haas

Timo Böhm

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Heutzutage steht fast alles, was mit den Labels „künstliche Intelligenz (KI)“ oder „Machine Learning (ML)“ versehen ist, für Fortschritt. Seltsamerweise schließt diese Assoziation jedoch häufig die Themen Daten und Dateninfrastruktur nicht ausreichend...

Kultur
Data
Machine Learning

21.6.2021 | 12 Minuten Lesezeit

Marcel Mikl

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Dieser Artikel begleitet meinen Vortrag The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren, den ich am 20.10.2020 auf der data2day gehalten habe.Datenvisualisierung ist ausschlaggebend für Verständnis und KommunikationDatenvisualisierung...

Data
Data Science

19.10.2020 | 11 Minuten Lesezeit

Shirin Elsinghorst

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

Jetzt für unseren Newsletter anmelden

Alles Wissenswerte auf einen Klick:
Unser Newsletter bietet dir die Möglichkeit, dich ohne großen Aufwand über die aktuellen Themen bei codecentric zu informieren.

Vergleich von Text-to-Speech-Systemen

Text-to-Speech-Systeme

Wie funktioniert TTS?

Welche TTS-Systeme gibt es?

Text-to-Speech von der Kommandozeile aus

Text-to-Speech in Python

Wer spricht am besten?

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Simple Deep Learning mit Amazon SageMaker

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability...

Künstliche Intelligenz Initiative: „codecentric.AI“

Deep Learning Workshop bei der codecentric AG in Solingen

Fraud-Analyse mit Data-Science-Techniken

Soziale-Netzwerk-Analyse und Topic Modeling mit codecentrics Twitter-Freunden...

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Weitere Artikel in diesem Themenbereich

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

Mit Applied Data Products zum datengetriebenen Unternehmen

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Bessere SQL-Datenpipelines mit dbt

Streaming Wikipedia mit Apache Kafka

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

Einführung in die Welt der Tourenoptimierung (1/3)

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Schnelles Training eines Recommendation-Modells durch BigQuery ML

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Jetzt für unseren Newsletter anmelden