EMO (Emotive Portrait Alive) ist eine neue generative KI, die vom Institute of Intelligent Computing (IIC) von Alibaba erforscht wird und die Fähigkeit besitzt, jedes Bild „auf magische Weise“ so zu verwandeln, dass es realistisch sprechen und singen kann.
Mit anderen Worten: Die KI von Alibaba kann ein statisches Referenzbild und Sprachaudio in ein Video umwandeln, das mit natürlichem Ausdruck sprechen und singen kann.
Frühere KIs haben nur den Mund und einen Teil des Gesichts verändert, während EMO Gesichtsausdrücke, natürliche Mundausdrücke, präzise Lippensynchronisation, bewegte Augenbrauen, runzelte die Stirn oder kann sich sogar zur Musik bewegen.
Alibaba hat einige Videos veröffentlicht, die zeigen, wie Bilder im Handumdrehen in Videos umgewandelt und importierte Lieder gesungen werden. EMO unterstützt Englisch, Chinesisch und viele weitere Sprachen.
Alibaba gab bekannt, dass EMO, um realistische Gesichtsausdrücke erzeugen zu können, mit einer großen Menge an Bild-, Audio- und Videodaten über ein eigenes Diffusionsmodell namens Audio2Video trainiert wurde.
Um die derzeit große Herausforderung des Realismus und der Ausdrucksstärke bei der Videogenerierung aus Bildern und Tönen zu bewältigen, konzentrierte sich das Forschungsteam auf die Beziehung und Nuancen zwischen Audiosignalen und Gesichtsbewegungen. Dabei wurden die zwischengeschaltete 3D-Modellverknüpfung oder Gesichtsmerkmale umgangen, Frames nahtlos überführt und die Konsistenz des Videos gewahrt.
Alibaba hat nicht bekannt gegeben, wann diese KI der Öffentlichkeit zugänglich gemacht wird, hat aber die Daten von EMO auf Github veröffentlicht und Forschungsarbeiten auf ArXiv gepostet.