Der chinesische Technologiekonzern Alibaba hat gerade ein neues KI-Modell namens QVQ-Max aus der Qwen-Serie angekündigt, das einen Durchbruch im Bereich der Multimedia-KI darstellt. Die Besonderheit dieses Modells ist die Fähigkeit, Bild- und Videoinhalte zu analysieren und anschließend auf Grundlage der gewonnenen Informationen Argumente und Lösungen zu entwickeln.
Beeindruckende Fähigkeiten
QVQ-Max wird von Alibaba als Brücke zwischen rein textbasierten KI-Modellen und der realen Welt beschrieben. Dank seiner visuellen Denkfähigkeiten kann das System:
- Bilder analysieren und Schlüsselelemente identifizieren
- Vielseitige Anwendung in vielen Bereichen von Illustrationsdesign, Videoskripterstellung bis hin zum Charakter-Rollenspiel
- Probleme mit Diagrammen lösen (Mathematik, Physik)
- Schritt-für-Schritt-Kochanleitung anhand von Rezeptbildern
Laut Alibaba schließt das Modell die Lücke zwischen textbasierter KI und faktenbasierten Informationen. Dank seiner bildbasierten Denkfähigkeiten kann QVQ-Max die Welt um sich herum „sehen, verstehen und darüber nachdenken“. Das Modell zeichne sich durch hervorragende Bildanalyse und die Identifizierung von Schlüsselelementen aus und sei flexibel genug, um in Bereichen wie Illustrationsdesign, Videoskripting und Rollenspielen eingesetzt zu werden, so das Unternehmen.

Wie andere KI-Chatbots unterstützt QVQ-Max Arbeit, Bildung und Privatleben, löst dank visueller Integration jedoch auch spezifischere Aufgaben, wie etwa das Lösen von Mathematik-/Physikproblemen mit Diagrammen oder Kochanleitungen durch Rezeptbilder.
Alibaba betrachtet QVQ-Max als erste Version und hat einen Plan für zukünftige Upgrades skizziert. Zunächst soll die Genauigkeit der Bilderkennung mithilfe von Grounding-Techniken verbessert werden. Zweitens soll das Modell für die Bewältigung mehrerer Aufgaben und komplexer Probleme wie die Bedienung eines Telefons, Computers oder das Spielen eines Spiels optimiert werden. Schließlich plant Alibaba, die Textinteraktion auf die Tool-Verifizierung und die Generierung von Bildinhalten auszuweiten.
Benutzer können QVQ-Max folgendermaßen erleben:
- chat.qwen.ai besuchen
- Wählen Sie das Modellmenü in der linken Ecke → " Weitere Modelle erweitern "
- Wählen Sie QVQ-Max und beginnen Sie mit dem Chatten
- Hängen Sie Bilddateien an, um die KI-Verarbeitungsfunktionen zu erkunden
Mit der Einführung von QVQ-Max behauptet Alibaba seine Position im Wettlauf um die Entwicklung multimedialer KI und konkurriert direkt mit globalen Technologiegiganten. Das Modell verspricht praktische Anwendungen in Beruf, Bildung und Privatleben.