Am 29. März stellte OpenAI die Voice Engine vor, eine Software, die mithilfe künstlicher Intelligenz Stimmen aus kurzen 15-sekündigen Audioaufnahmen generiert und Texte vorlesen kann. Sie kann auch Stimmen in Fremdsprachen nachbilden, selbst aus rein englischen Aufnahmen.
Voice Engine wird seit 2022 von OpenAI entwickelt und Ende 2023 mit einer Gruppe von Kunden getestet. Dabei hat die Software die Fähigkeit bewiesen, das Lesen zu unterstützen, Inhalte zwischen verschiedenen Sprachen zu übersetzen und Stimmen für Menschen zu erstellen, die die Fähigkeit zum Sprechen verloren haben.

OpenAI betonte jedoch auch die potenziellen Risiken der Stimmnachahmungstechnologie, insbesondere im Kontext der US-Präsidentschaftswahlen. Dies ist einer der Gründe, warum man sich dazu entschieden hat, den Zugang zu beschränken und die Technologie nicht allgemein zugänglich zu machen.
Die Ankündigung von Voice Engine soll laut ChatGPT-Inhaber Aufsichtsbehörden und die Öffentlichkeit zu mehr Wachsamkeit gegenüber KI-basierten Betrügereien ermutigen. Die Entwickler warnen zudem davor, dass Kriminelle Software zur Stimmfälschung nutzen könnten, um persönliche Informationen zu stehlen oder in Banksicherheitssysteme einzudringen.
„Es ist wichtig, dass die Menschen verstehen, wohin diese Technologie führt, unabhängig davon, ob wir sie weithin veröffentlichen oder nicht“, sagte OpenAI.

Eine Sprachbearbeitungstechnologie auf Basis künstlicher Intelligenz erregte Aufmerksamkeit, nachdem im Januar eine Aufnahme in den sozialen Medien viral ging, die die Stimme von US-Präsident Joe Biden imitierte und die Menschen aufforderte, „nicht an den Vorwahlen der Demokraten in New Hampshire teilzunehmen“.
Pindrop Security, ein auf die Erkennung von Stimmenbetrug spezialisiertes Unternehmen, analysierte die Aufnahme anschließend und kam zu dem Schluss, dass es sich um einen Deepfake handelte. Dabei kam die Technologie von ElevenLabs zum Einsatz, einem Startup, das Software auf Basis künstlicher Intelligenz entwickelt, die Stimmen in mehr als 20 Sprachen generiert.
Laut dem Magazin „Fortune“ bereitet Bidens Stimm-Deepfake vielen Experten und US-Wahlbeamten Sorge. Sie bezeichnen ihn als „einen Versuch, die Wahl mithilfe künstlicher Intelligenz zu beeinflussen“. Einige Einschätzungen zeigen, dass die Verbreitung von Deepfakes von Audiodateien nicht nur einfach ist, sondern auch das Risiko birgt, dass Kriminelle diese Technologie nutzen, um Wahlergebnisse zu beeinflussen und Wähler von der Wahl abzuhalten.