Seit kurzem bietet OpenAI, der Hersteller des allseits bekannten ChatGPT, eine neue API an, die Audio API. Damit können Apps oder webbasierte Dienste künftig Texte KI-basiert in authentisch klingendes Audio umwandeln lassen.

Solche Dienste gibt es schon lange: Google Cloud Services etwa bietet mit „WaveNet“ gut klingende „Stimmen“ an, die ich zum Beispiel schon vor drei Jahren in meine App Let Us Listen integriert habe und so Nutzer*innen ermögliche, Texte zum Beispiel für den Einsatz im Unterricht komfortabel und einfach in verblüffend authentische Audio-Dateien in vielen Sprachen umzuwandeln.

Neue Anbieter wie ElevenLabs setzen seit ein paar Monaten qualitativ eine riesige Schippe drauf – allerdings nicht nur bei der Authentizität, sondern auch beim Preis. Bisher habe ich nicht gewagt, die ElevenLabs Stimmen in meine Apps zu integrieren und meinen Kund*innen die Kosten dafür weiterzugeben.

Die Preise der Audio API von ElevenLabs hingegen machen es ggf. nun spannend, Let Us Listen und hyFee mit KI-basierter Text-zu-Sprache-Umwandlung zu verbessern (zum Vergleich: was bei ElevenLabs 22 Dollar kostet, kostet bei OpenAI 1,5-3 Dollar). Auch in anderen (KI-)Tools wird die Funktion sicherlich bald Einzug halten.

Ich habe zum Vergleich mal eine SZ-Schlagzeile mit verschiedenen Stimmen mit der Audio API umwandeln lassen. Zum Vergleich unten dann auch noch „Daniel“ von ElevenLabs:

OpenAI Nova HD:

OpenAI Onyx:

OpenAI Fable HD:

ElevenLabs Daniel:

Was meint ihr, wenn ihr die Stimmen (unter Berücksichtigung der Aspekte Preis,Qualität und deren Verhältnis) vergleicht? Kommentare gern auf BlueSky oder Mastodon 😄