Amazon kündigt Nova Sonic Soundmodell an und behauptet, dass die Leistung OpenAI und Google übertrifft

Amazon hat heute Nova Sonic vorgestellt, ein fortschrittliches Spracherkennungsmodell, mit dem Entwickler Anwendungen entwickeln können, die in Echtzeit mit menschenähnlichen Stimmen kommunizieren. Laut Amazon bietet das neue Akustikmodell ein branchenführendes Preis-Leistungs-Verhältnis und geringe Latenzzeiten.

Normalerweise müssen Entwickler bei der Entwicklung einer sprachgesteuerten Anwendung mit mehreren Modellen gleichzeitig arbeiten:

  • Spracherkennungsmodell zum Konvertieren von Audio in Text.
  • Large Language Model (LLM) zum Verstehen und Generieren von Antworten.
  • Text-to-Speech-Modell.

Dieser Ansatz ist nicht nur komplex, sondern lässt auch häufig wichtige akustische Zusammenhänge wie Tonfall, Prosodie und Sprechstil außer Acht.

Amazon kündigt Nova Sonic Soundmodell an und behauptet, dass die Leistung OpenAI und Google übertrifft

Nova Sonic bewältigt diese Herausforderung, indem es Sprachverständnis und -generierung in einem einzigen Modell integriert. Dieser einheitliche Ansatz hilft dem Modell, Ton, Stil und Audioeingabe zu erfassen und so einen natürlicheren Dialog zu erzeugen. Es bestimmt außerdem, wann angemessen reagiert werden muss, und verarbeitet Einmischungen besser.

Nova Sonic unterstützt sowohl männliche als auch weibliche Stimmen mit verschiedenen englischen Akzenten, darunter amerikanische und britische. Entwickler können über Amazon Bedrock auf das Modell zugreifen, indem sie eine bidirektionale Streaming-API verwenden, die Funktionsaufrufe unterstützt. Das Modell enthält außerdem integrierte Schutzfunktionen wie Inhaltsmoderation und Wasserzeichen.

In diesem Zusammenhang kündigte OpenAI letzten Monat eine neue Generation von Sprache-zu-Text-Modellen an – gpt-4o-transcribe und gpt-4o-mini-transcribe – mit erheblichen Verbesserungen bei Wortfehlerrate, Spracherkennung und Genauigkeit im Vergleich zu früheren Whisper-Modellen.

Sign up and earn $1000 a day ⋙

Leave a Comment

5 Gründe, warum Menschen die Anmeldung per Passwort der E-Mail vorziehen

5 Gründe, warum Menschen die Anmeldung per Passwort der E-Mail vorziehen

E-Mail-Logins mögen zwar praktisch erscheinen, bergen aber oft versteckte Fallstricke. Sie können Ihre Geschwindigkeit verlangsamen, Ihre Sicherheit gefährden und Sie anfälliger für Angriffe machen, als es mit Passwörtern möglich wäre.

Neuester Code Aline Run Away

Neuester Code Aline Run Away

Durch die Aktualisierung des Aline Girl-Codes und kontinuierliches Ausführen haben Sie mehr Geld zum Ausgeben, mehr Skins zum Verwenden und viele andere attraktive Belohnungen.

Vampir-Spatz: Seltsamer Vogel, der Blut trinkt, um zu überleben

Vampir-Spatz: Seltsamer Vogel, der Blut trinkt, um zu überleben

Vampirfinken leben seit 500.000 Jahren auf Darwin Island und Wolf Island (beide Teil der Galapagosinseln – Ecuador).

Wie hoch ist die Geschwindigkeit des Flugzeugs auf der Landebahn?

Wie hoch ist die Geschwindigkeit des Flugzeugs auf der Landebahn?

Auf Flughäfen gibt es keine Geschwindigkeitsbegrenzungen, da die Piloten anhand der Fluglinienverfahren und der Wetterbedingungen entscheiden, wie schnell das Flugzeug die Landebahn entlangfahren kann.

Lustiges Telefon-Entsperr-Hintergrundbild, tolles Troll-Entsperr-Hintergrundbild

Lustiges Telefon-Entsperr-Hintergrundbild, tolles Troll-Entsperr-Hintergrundbild

Suchen Sie nach lustigen Hintergrundbildern zum Entsperren Ihres Telefons? Schauen Sie sich die folgenden Hintergrundbilder an und wählen Sie selbst ein cooles Hintergrundbild zum Entsperren Ihres Telefons.

Brandbekämpfungscode: Neuestes Erbe und wie man den Code einlöst, um Belohnungen zu erhalten

Brandbekämpfungscode: Neuestes Erbe und wie man den Code einlöst, um Belohnungen zu erhalten

Beim Eintausch des Codes „Fire Annihilation: Heritage“ erhältst du Goldmünzen, EXP-Edelsteine, Edelsteine ​​und Heldenbeschwörungstickets sowie viele weitere attraktive Belohnungen.

Neuester Skibidi Tower Defense-Code und wie man den Code gegen Belohnungen einlöst

Neuester Skibidi Tower Defense-Code und wie man den Code gegen Belohnungen einlöst

Der Spielcode von Skibidi Tower Defense hilft Ihnen dabei, Ihre Basis leichter zu verteidigen, indem er Ihnen während des Spiels kostenlose Münzen, Glückstränke und Goldverdoppelungstränke zur Verfügung stellt.

So ändern Sie Maßeinheiten in Apple Maps

So ändern Sie Maßeinheiten in Apple Maps

Mit der Apple Maps-Anwendung können Sie die Maßeinheit je nach Bedarf und Nutzungsgewohnheiten der jeweiligen Person zwischen km, Meile und Meilen ändern.

7 ChatGPT- und KI-Apps zur kostenlosen Reiseplanung

7 ChatGPT- und KI-Apps zur kostenlosen Reiseplanung

Diese kostenlosen Reiseplanungs-Apps verwenden KI- und Machine-Learning-Tools wie ChatGPT, um Ihre Reiseroute in Sekundenschnelle vorzubereiten.

So verwenden Sie Gemini über die Adressleiste von Google Chrome

So verwenden Sie Gemini über die Adressleiste von Google Chrome

Google integriert KI-Funktionen in den Google Chrome-Browser und nutzt seit neuestem Gemini aus der Google Chrome-Adressleiste.

4 Möglichkeiten zum Ändern des Benutzerkontotyps in Windows

4 Möglichkeiten zum Ändern des Benutzerkontotyps in Windows

Neben der Erstellung mehrerer Benutzer können Sie in Windows 10 auch die Aktionen anderer Benutzer auf einem gemeinsam genutzten PC einschränken, indem Sie mehrere Arten von Konten bereitstellen, nämlich Standardbenutzerkonten und Administratorkonten.

10 nützliche Tastenkombinationen zur Steigerung der Produktivität in Microsoft Edge

10 nützliche Tastenkombinationen zur Steigerung der Produktivität in Microsoft Edge

Tastaturkürzel sind ein großartiges Produktivitätstool, insbesondere für diejenigen, deren Arbeit viel Tipparbeit erfordert.

Schwerwiegender Fehler zwingt Google, die KI-Funktion zum Erstellen von Bildern mit Text zu pausieren

Schwerwiegender Fehler zwingt Google, die KI-Funktion zum Erstellen von Bildern mit Text zu pausieren

Google hat angekündigt, dass es die Funktion zur Generierung von Personenbildern aus Text seines KI-Modells Gemini aufgrund eines schwerwiegenden historischen Fehlers aussetzt.

So verwenden Sie Copilot in PowerPoint

So verwenden Sie Copilot in PowerPoint

Copilot hilft Ihnen dabei, Ihren PowerPoint-Inhaltsfolien kreative Ideen hinzuzufügen oder den schlechten Inhalt Ihrer Präsentationsfolien zu korrigieren.

So löschen Sie Google Gemini-Konversationen

So löschen Sie Google Gemini-Konversationen

Anstatt Ihren gesamten Google Gemini-Verlauf zu löschen, können Sie auch nur die gewünschten Konversationen löschen. Dieser Artikel führt Sie durch das Löschen Ihrer Google Gemini-Konversationen.