OpenAI hat kürzlich offiziell ein bemerkenswertes Upgrade der KI-Bildgenerierungsfunktion in ChatGPT vorgestellt. Dies ist ein wichtiger Schritt, um ein separates Bildgenerierungsmodell wie das vorherige DALL-E zu ersetzen. Diese neue Funktion wurde direkt in GPT-4o integriert und bringt bemerkenswerte Verbesserungen mit sich.
Inhärente Einschränkungen überwinden
Viele aktuelle KI-Modelle zur Bildgenerierung können zwar beeindruckende künstlerische Bilder erstellen, haben aber oft Schwierigkeiten mit Elementen wie Text, Logos und Alltagsgegenständen. OpenAI behauptet, dass sein neuer GPT-4o diese Einschränkungen überwinden kann, indem er:
- Text richtig anzeigen
- Halten Sie sich strikt an die Benutzeranforderungen
- Nutzen Sie Hintergrundwissen und Gesprächskontext
- Ermöglicht die Bearbeitung hochgeladener Fotos oder die Erstellung neuer Fotos basierend auf Originalfotos
- Weit verbreitet
Diese neue Funktion wird derzeit für ChatGPT Free-, ChatGPT Plus-, Pro- und Team-Nutzer eingeführt und wird in den kommenden Wochen auch für ChatGPT Enterprise und Edu verfügbar sein. Es wird das Standard-Tool zur Bilderstellung in ChatGPT sein und ermöglicht Nutzern einen einfachen Zugriff ohne zusätzliche Optionen. Nutzer können Bilder anpassen mit:
- Spezifisches Seitenverhältnis
- Genaue Farbe (mit Hex-Code)
- Transparenter Hintergrund
- Multiplattform-Unterstützung

Zusätzlich zu ChatGPT wird diese Funktion auch auf Plattformen wie Sora (Bildgenerierung), dediziertem DALL·E GPT und GPT-4o API (für Entwickler, Start in den kommenden Wochen) verfügbar sein.
Trotz der vielen versprochenen Verbesserungen weist das neue Modell noch einige Einschränkungen auf:
- Die Bildgenerierungszeit kann aufgrund der hohen Detailgenauigkeit bis zu 1 Minute betragen
- Unerwünschtes Zuschneiden bei vertikalen Fotos
- Manchmal werden Informationen „erfunden“, ohne dass ein Kontext erforderlich ist.
- Schwierigkeiten, mehr als 10–20 Konzepte gleichzeitig zu verarbeiten
- Schwierigkeiten mit nicht-lateinischen Sprachen
- Detaillierte Korrekturen (wie Rechtschreibfehler) sind nicht sehr effektiv
- Bei kleinen Größen ist es schwierig, detaillierte Informationen anzuzeigen
Alle von GPT-4o generierten Bilder enthalten C2PA-Metadaten, die eine Herkunftsüberprüfung mit den internen Tools von OpenAI ermöglichen.
Trotz einiger Einschränkungen verspricht GPT-4o präzisere und individuellere Bilder. OpenAI kündigt an, das Modell in den kommenden Monaten weiter zu verbessern und so neue Möglichkeiten für die KI-gestützte Erstellung visueller Inhalte zu eröffnen.
Mit diesem wichtigen Update baut OpenAI seine Führungsposition im Rennen um kreative KI weiter aus und bietet Benutzern auf mehreren Plattformen ein nahtloseres und leistungsfähigeres Erlebnis.