Amazon hat heute Nova Sonic vorgestellt, ein fortschrittliches Spracherkennungsmodell, mit dem Entwickler Anwendungen entwickeln können, die in Echtzeit mit menschenähnlichen Stimmen kommunizieren. Laut Amazon bietet das neue Akustikmodell ein branchenführendes Preis-Leistungs-Verhältnis und geringe Latenzzeiten.
Normalerweise müssen Entwickler bei der Entwicklung einer sprachgesteuerten Anwendung mit mehreren Modellen gleichzeitig arbeiten:
- Spracherkennungsmodell zum Konvertieren von Audio in Text.
- Large Language Model (LLM) zum Verstehen und Generieren von Antworten.
- Text-to-Speech-Modell.
Dieser Ansatz ist nicht nur komplex, sondern lässt auch häufig wichtige akustische Zusammenhänge wie Tonfall, Prosodie und Sprechstil außer Acht.

Nova Sonic bewältigt diese Herausforderung, indem es Sprachverständnis und -generierung in einem einzigen Modell integriert. Dieser einheitliche Ansatz hilft dem Modell, Ton, Stil und Audioeingabe zu erfassen und so einen natürlicheren Dialog zu erzeugen. Es bestimmt außerdem, wann angemessen reagiert werden muss, und verarbeitet Einmischungen besser.
Nova Sonic unterstützt sowohl männliche als auch weibliche Stimmen mit verschiedenen englischen Akzenten, darunter amerikanische und britische. Entwickler können über Amazon Bedrock auf das Modell zugreifen, indem sie eine bidirektionale Streaming-API verwenden, die Funktionsaufrufe unterstützt. Das Modell enthält außerdem integrierte Schutzfunktionen wie Inhaltsmoderation und Wasserzeichen.
In diesem Zusammenhang kündigte OpenAI letzten Monat eine neue Generation von Sprache-zu-Text-Modellen an – gpt-4o-transcribe und gpt-4o-mini-transcribe – mit erheblichen Verbesserungen bei Wortfehlerrate, Spracherkennung und Genauigkeit im Vergleich zu früheren Whisper-Modellen.