Google DeepMind hat im Bereich der KI stetige Fortschritte erzielt und regelmäßig hochgelobte Updates für Gemini, Imagen, Veo, Gemma und AlphaFold veröffentlicht. Heute sorgt Googles KI-Team erneut für Schlagzeilen: Es gibt seinen offiziellen Einstieg in die Robotikbranche bekannt und stellt zwei neue Modelle auf Basis von Gemini 2.0 vor: Gemini Robotics und Gemini Robotics-ER.
Gemini Robotics: Fortschrittliches Vision-Language-Action-Modell
Gemini Robotics ist ein fortschrittliches Vision-Language-Action-Modell (VLA), das auf Gemini 2.0 aufbaut und physische Aktionen als neue Ausgabemethode zur Robotersteuerung hinzufügt. Google behauptet, dass dieses neue Modell Situationen verstehen kann, die es während des Trainings noch nicht einmal erlebt hat.
Im Vergleich zu anderen führenden VLA-Modellen schneidet Gemini Robotics bei umfassenden Generalisierungsbenchmarks doppelt so gut ab. Da es auf dem Gemini 2.0-Modell basiert, versteht es eine Vielzahl natürlicher Sprachen und somit menschliche Befehle präziser.
Google behauptet, dass Gemini Robotics komplexe, mehrstufige Aufgaben bewältigen kann, die präzises Manipulieren erfordern. So kann das Modell beispielsweise Origami falten oder Snacks in Ziploc-Beutel packen.
Gemini Robotics-ER: Ein visuell-sprachliches Modell mit Fokus auf räumlichem Denken
Gemini Robotics-ER ist ein fortschrittliches visuell-linguistisches Modell mit Fokus auf räumlichem Denken, das Robotikern die Integration in ihre bestehenden Low-Level-Controller ermöglicht. Mit diesem Modell verfügen Robotiker über alle Schritte zur sofortigen Robotersteuerung, einschließlich Wahrnehmung, Zustandsschätzung, räumlichem Verständnis, Planung und Codegenerierung.
Die Zukunft von Gemini Robotics
Google arbeitet mit Apptronik zusammen, um humanoide Roboter auf Basis der Gemini 2.0-Modelle zu bauen. Google arbeitet außerdem mit einer Reihe vertrauenswürdiger Testpartner zusammen, darunter Agile Robots, Agility Robotics, Boston Dynamics und Enchanted Tools, um die zukünftige Entwicklung von Gemini Robotics-ER voranzutreiben.
Indem Google DeepMind Robotern ermöglicht, komplexe Aufgaben mit größerer Genauigkeit und Anpassungsfähigkeit zu verstehen und auszuführen, ebnet es den Weg für eine Zukunft, in der sich Roboter nahtlos in viele Aspekte unseres Lebens integrieren können.