Google behauptet, Gemini 2.5 übertreffe die besten Modelle von OpenAI, DeepSeek und anderen KI-Technologiegiganten

Google hat gerade Gemini 2.5 vorgestellt, das laut Unternehmen sein „bisher intelligentestes KI-Modell“. Die erste Version des Modells, Gemini 2.5 Pro, erzielte in verschiedenen Tests beeindruckende Benchmark-Ergebnisse.

Google behauptet, dass Gemini 2.5 die besten Modelle von OpenAI, DeepSeek und anderen KI-Technologiegiganten übertrifft

Gemini 2.5 Pro ist jetzt über Google AI Studio und in der Gemini-App verfügbar, wenn Sie ein Gemini Advanced- Benutzer sind. Gemini 2.5 Pro wird in naher Zukunft auch über Vertex AI verfügbar sein.

Google hat derzeit noch keine Preise für Gemini 2.5 Pro oder andere Gemini 2.5-Modelle bekannt gegeben.

Alle von Gemini 2.5 verwendeten Modelle sind „denkende Modelle“, das heißt, sie können den Denkprozess verarbeiten, bevor sie eine Antwort generieren. Diese „schlussfolgernden“ Modelle sind der nächste große Trend im KI-Bereich, da sie komplexere und oft präzisere Antworten generieren.

„Jetzt haben wir mit Gemini 2.5 ein neues Leistungsniveau erreicht, indem wir ein deutlich verbessertes Basismodell mit verbessertem Post-Training kombiniert haben “, sagte Google.

„In Zukunft werden wir diese Denkfähigkeiten direkt in alle unsere Modelle einbauen, damit sie komplexere Probleme bewältigen und Agenten mit noch besserer Kontextwahrnehmung unterstützen können .“

Wie schneidet Gemini 2.5 im Vergleich zu OpenAI-Modellen ab?

Google behauptet, Gemini 2.5 übertreffe die besten Modelle von OpenAI, DeepSeek und anderen KI-Technologiegiganten
Google Gemini 2.5 Benchmark

Die Gemini 2.5 Pro-Modelle von Google übertreffen die bisherigen Topmodelle von OpenAI und DeepSeek.

Die von Google veröffentlichten Benchmark-Ergebnisse für Gemini 2.5 sind recht beeindruckend. Gemini 2.5 Pro Experimental erreichte bei Humanity's Last Exam 18,5 %.

Dieses Ergebnis bedeutet, dass Gemini 2.5 Pro Experimental zumindest derzeit das beste Modell in dieser Hinsicht ist. Es übertrifft OpenAI 03-mini (14 %) und DeepSeek R1 (8,6 %).

Dieser spezielle Test gilt als schwierig, obwohl er nicht die einzige Möglichkeit ist, die Leistung eines KI-Modells zu messen.

Google hob außerdem die Programmierfähigkeiten des Gemini 2.5 Pro sowie die mathematischen und naturwissenschaftlichen Benchmarks des Modells hervor. Gemini 2.5 Pro ist derzeit führend in den mathematischen und naturwissenschaftlichen Benchmarks, gemessen an GPQA und AIME 2025.

Ist es möglich, in Gemini 2.5 zu programmieren?

Der Schwerpunkt von Gemini 2.5 liegt auf der Programmierung. Google verspricht einen „großen Sprung gegenüber 2.0“ und kündigt weitere Verbesserungen an.

Googles neues Modell kann Web-Apps und Agentencode erstellen. Eine Demo von Google zeigt, wie mit dem Gemini 2.5 Pro ein Spiel aus einer einzigen Eingabeaufforderung erstellt wird.

4 Gründe, warum Googles Gemini 2.5 Pro für Enterprise-KI wichtig ist

Hier sind vier wichtige Punkte, die Unternehmensteams bei der Bewertung des Gemini 2.5 Pro beachten sollten.

1. Strukturiertes, transparentes Denken – ein neuer Standard für klares Denken

Was Gemini 2.5 Pro auszeichnet, ist nicht nur seine Intelligenz, sondern auch die Klarheit, mit der diese Intelligenz ihre Arbeit demonstriert. Googles schrittweise Trainingsmethode erzeugt einen strukturierten Gedankengang (CoT), der sich nicht wie ein Geschwafel oder Rätselraten anfühlt, wie wir es von Modellen wie DeepSeek kennen . Diese CoTs werden nicht wie die Modelle von OpenAI in oberflächliche Zusammenfassungen verkürzt. Das neue Gemini-Modell präsentiert Ideen in nummerierten Schritten mit Unterpunkten und einer äußerst klaren internen Logik.

In der Praxis bedeutet dies einen Durchbruch in puncto Zuverlässigkeit und Nachvollziehbarkeit. Geschäftsanwender, die Ergebnisse für kritische Aufgaben auswerten – wie etwa die Überprüfung politischer Implikationen, die Kodierung von Logik oder die Zusammenfassung komplexer Forschungsergebnisse – können nun sehen, wie das Modell zu einer Antwort gelangt ist. Das bedeutet, dass sie Antworten sicherer validieren, korrigieren oder umleiten können. Dies ist ein großer Fortschritt gegenüber dem „Blackbox“-Gefühl, das in vielen Ergebnissen großer Sprachmodelle (LLM) noch immer vorhanden ist .

Um einen tieferen Einblick in die Funktionsweise dieses Modells zu erhalten, sehen Sie sich das Analysevideo an, in dem Gemini 2.5 Pro live getestet wird. Ein Beispiel: Bei der Frage nach den Grenzen großer Sprachmodelle zeigte Gemini 2.5 Pro ein bemerkenswertes Bewusstsein. Es skizzierte häufige Schwächen und kategorisierte sie in Bereiche wie „physikalische Intuition“, „Synthese neuer Konzepte“, „Langzeitplanung“ und „moralische Nuancen“. Dies lieferte einen Rahmen für das Verständnis des Modellwissens und der Problemlösung.

Unternehmensentwicklungsteams können diese Funktion nutzen, um:

  • Debuggen Sie komplexe Logikketten in unternehmenskritischen Anwendungen
  • Besseres Verständnis der Modellbeschränkungen in bestimmten Domänen
  • Transparenz für Stakeholder durch KI-gestützte Entscheidungen schaffen
  • Verbessern Sie Ihr eigenes kritisches Denken, indem Sie den Ansatz des Modells studieren

Eine bemerkenswerte Einschränkung besteht darin, dass dieses strukturierte Denken zwar in der Gemini-App und im Google AI Studio verfügbar ist, derzeit jedoch nicht über die API zugänglich ist – ein Manko für Entwickler, die diese Funktion in Unternehmensanwendungen integrieren möchten.

2. Ein echter Anwärter auf Spitzentechnologie – nicht nur in der Theorie

Das Modell führt derzeit die Chatbot Arena-Bestenliste mit deutlichem Vorsprung an – mehr als 35 Elo-Punkte vor dem nächstbesten Modell, insbesondere angesichts der Tatsache, dass das OpenAI 4o-Update einen Tag nach der Veröffentlichung des Gemini 2.5 Pro erschien. Und obwohl Benchmark-Dominanz oft flüchtig ist (wöchentlich kommen neue Modelle auf den Markt), fühlt sich der Gemini 2.5 Pro wirklich anders an.

Google behauptet, Gemini 2.5 übertreffe die besten Modelle von OpenAI, DeepSeek und anderen KI-Technologiegiganten

Es eignet sich hervorragend für Aufgaben, die tiefes Denken erfordern: Programmieren, differenziertes Problemlösen, dokumentübergreifendes Zusammenfassen und sogar abstraktes Planen. In internen Tests schnitt es besonders gut bei bislang schwierigen Benchmarks wie „Humanity's Last Exam“ ab, einem beliebten Benchmark zur Aufdeckung von LLM-Schwächen in abstrakten und differenzierten Bereichen.

Für Wirtschaftsverbände ist es vielleicht egal, welches Modell welche akademischen Rankings gewinnt. Wichtig ist ihnen aber, dass das Modell denken kann – und Ihnen zeigt, wie es denkt. Vibe-Tests sind wichtig.

Der angesehene KI-Ingenieur Nathan Lambert bemerkt: „Google verfügt wieder über die besten Modelle, denn sie hätten den KI-Boom auslösen sollen. Ein schwerwiegender Fehler wurde korrigiert.“ Geschäftsanwender sollten dies nicht nur als einen Schritt Googles zur Konkurrenz sehen, sondern als ein Potenzial, diese in für Geschäftsanwendungen wichtigen Funktionen zu übertreffen.

3. Schließlich ist Googles Verschlüsselungsspiel stark

Traditionell hinkte Google in Bezug auf die entwicklerorientierte Programmierunterstützung OpenAI und Anthropic hinterher. Gemini 2.5 Pro ändert das.

In praktischen Tests zeigte es eine starke Leistung bei Programmieraufgaben, darunter die Erstellung eines funktionierenden Tetris-Spiels, das nach dem Export in Replit auf Anhieb lief – ganz ohne Debugging. Besonders bemerkenswert ist, dass es die Codestruktur klar erklärte, Variablen und Schritte sorgfältig beschriftete und seinen Ansatz vorstellte, bevor auch nur eine einzige Codezeile geschrieben wurde.

Dieses Modell konkurriert mit Anthropics Claude 3.7 Sonnet, das als führend in der Codegenerierung gilt und ein Hauptgrund für Anthropics Erfolg im Unternehmensbereich ist. Gemini 2.5 bietet jedoch einen entscheidenden Vorteil: ein riesiges Token-Kontextfenster von einer Million. Claude 3.7 Sonnet bietet derzeit nur 500.000 Token.

Dieses große Kontextfenster eröffnet neue Möglichkeiten für die Analyse der gesamten Codebasis, das Lesen von Online-Dokumentationen und die Arbeit mit mehreren abhängigen Dateien. Die Erfahrung des Softwareentwicklers Simon Willison verdeutlicht diesen Vorteil.

Mithilfe von Gemini 2.5 Pro wurde eine neue Funktion in unserer Codebasis implementiert. Das Modell identifizierte die notwendigen Änderungen in 18 verschiedenen Dateien und schloss das gesamte Projekt in etwa 45 Minuten ab, wobei die durchschnittliche Zeit pro geänderter Datei weniger als 3 Minuten betrug. Dies ist ein wichtiges Tool für Unternehmen, die mit Agenten-Frameworks oder KI-gestützten Entwicklungsumgebungen experimentieren.

4. Multimethodenintegration mit agentenähnlichem Verhalten

Während einige Modelle wie das neueste 40 von OpenAI mit auffälliger Bildgenerierung mehr Glanz zeigen, scheint es, als würde das Gemini 2.5 Pro still und leise neu definieren, wie fundiertes multimodales Denken aussieht.

In einem Beispiel demonstrierte Ben Dicksons praktisches Experiment für VentureBeat die Fähigkeit des Modells, wichtige Informationen aus einem technischen Dokument über Suchalgorithmen zu extrahieren und ein entsprechendes SVG-Flussdiagramm zu erstellen. Anschließend konnte dieses Flussdiagramm verbessert werden, wenn eine gerenderte Version mit visuellen Fehlern präsentiert wurde. Dieses multimodale Denken ermöglicht neue Arbeitsabläufe, die mit reinen Textmodellen bisher nicht möglich waren.

In einem anderen Beispiel lud Entwickler Sam Witteveen einen einfachen Screenshot einer Karte von Las Vegas hoch und fragte, welche Google-Events am 9. April in der Nähe stattfanden. Das Modell identifizierte den Standort, schlussfolgerte die Absicht des Nutzers, führte eine Online-Suche durch und lieferte genaue Details zu Google Cloud Next, einschließlich Datum, Ort und Quellenangabe. All dies geschah ohne ein benutzerdefiniertes Agent-Framework, nur mit dem Kernmodell und der integrierten Suche.

Tatsächlich geht dieses multimodale Input-Argumentationsmodell über die bloße Betrachtung hinaus. Es zeigt, wie der Workflow eines Unternehmens in sechs Monaten aussehen könnte: Laden Sie Dokumente, Diagramme und Dashboards hoch und lassen Sie das Modell basierend auf den Inhalten synthetisieren, planen oder sinnvolle Maßnahmen ergreifen.

Sign up and earn $1000 a day ⋙

Leave a Comment

ChatGPT-Suche oder Google ist besser?

ChatGPT-Suche oder Google ist besser?

Viele Leute versuchen schon seit langem herauszufinden, ob sie Google tatsächlich durch die Chrome-Erweiterung ChatGPT Search ersetzen können.

Google veröffentlicht Pixel-Update für Dezember, das größtenteils mit Gemini zusammenhängt

Google veröffentlicht Pixel-Update für Dezember, das größtenteils mit Gemini zusammenhängt

Dieses neueste Update führt Verbesserungen in Bezug auf die Kamera, Audio- und Videotools und vor allem Gemini, den KI-Assistenten von Google, ein.

9 nützliche Google-Apps, die auf Android-Telefonen nicht vorinstalliert sind

9 nützliche Google-Apps, die auf Android-Telefonen nicht vorinstalliert sind

Wenn Sie Google-Dienste mögen, können diese weniger bekannten Apps Ihrem Gerät einen überraschenden Mehrwert verleihen.

Google trennt sich von Qualcomm und entscheidet sich für das 5G-Modem von MediaTek für die Pixel 10-Serie

Google trennt sich von Qualcomm und entscheidet sich für das 5G-Modem von MediaTek für die Pixel 10-Serie

Google hat beschlossen, die langjährige Partnerschaft mit Qualcomm zu beenden und stattdessen das T900-Modem von MediaTek in der Pixel 10-Serie zu verwenden.

Perplexitys Social Search benötigt diese 3 Funktionen, um mit Google konkurrieren zu können

Perplexitys Social Search benötigt diese 3 Funktionen, um mit Google konkurrieren zu können

Die reguläre Suchmaschine von Perplexity ist großartig, aber die Social-Search-Funktion lässt zu wünschen übrig. Bevor Perplexity überhaupt daran denken kann, in diesem Bereich mit Google zu konkurrieren, benötigt es diese neuen Funktionen.

Die kostenlose Version von Geminis hat gerade eine wichtige Einschränkung entfernt

Die kostenlose Version von Geminis hat gerade eine wichtige Einschränkung entfernt

Als eines der leistungsstärksten Text-zu-Bild-KI-Modelle ist Google Imagen 3 bereits in Gemini-Apps verfügbar, allerdings nur in gewissem Umfang.

So schützen Sie Ihr Google-Konto mit Private Checkup

So schützen Sie Ihr Google-Konto mit Private Checkup

Google leistet großartige Arbeit, wenn es darum geht, all diese Informationen so privat wie möglich zu halten. Dennoch kann es nicht schaden, einen Blick darauf zu werfen und sich mit dem Tool „Datenschutzcheck“ vertraut zu machen, wie Sie Ihr Google-Konto schützen können.

Googles KI kann Chips schneller und besser entwickeln als Menschen

Googles KI kann Chips schneller und besser entwickeln als Menschen

Mithilfe einer komplexen neuronalen Netzwerkarchitektur auf Basis von Kantengraphen kann das KI-Modell von Google Brains Grundrisse in einem Bruchteil der Zeit entwerfen, die ein Mensch dafür benötigt.

Amazon kündigt Nova Sonic Soundmodell an und behauptet, dass die Leistung OpenAI und Google übertrifft

Amazon kündigt Nova Sonic Soundmodell an und behauptet, dass die Leistung OpenAI und Google übertrifft

Amazon hat heute Nova Sonic vorgestellt, ein fortschrittliches Spracherkennungsmodell, das es Entwicklern ermöglicht, Apps zu erstellen, die in Echtzeit mit menschenähnlichen Stimmen kommunizieren können.

Google erweitert Google Workspace auf der Cloud Next 2024 um weitere KI-Funktionen

Google erweitert Google Workspace auf der Cloud Next 2024 um weitere KI-Funktionen

Zusätzlich zu Vids erhält Google Workspace auf der Cloud Next 2024 eine Reihe neuer Gemini-Funktionen und -Funktionalitäten.

Anleitung zum Spielen des olympischen Doodle Champion Island Sports Game, das gerade von Google eingeführt wurde

Anleitung zum Spielen des olympischen Doodle Champion Island Sports Game, das gerade von Google eingeführt wurde

Champion Island wird ab dem 23. Juli 2021, dem Tag der Eröffnungszeremonie der Olympischen Spiele 2020 in Tokio, auf der Google-Startseite verfügbar sein.

Google benennt Bard in Gemini um, bringt mobile App und neue Ultra 1.0-Version heraus

Google benennt Bard in Gemini um, bringt mobile App und neue Ultra 1.0-Version heraus

Google hat gerade offiziell die Umbenennung des Bard AI-Chatbots in Gemini angekündigt, ähnlich dem leistungsstärksten KI-Modell des Unternehmens.

Der Fahrmodus von Google Assistant verwandelt sich jetzt in eine Sprachleiste

Der Fahrmodus von Google Assistant verwandelt sich jetzt in eine Sprachleiste

Google hat angekündigt, eine Reihe von Google Assistant-Funktionen einzustellen. Eine der entfernten Funktionen ist der „App Launcher“ im Fahrmodus des Google Assistant.

Gemini AI kann jetzt YouTube-Videos für Sie ansehen und spart so Stunden an Zeit

Gemini AI kann jetzt YouTube-Videos für Sie ansehen und spart so Stunden an Zeit

Mit dem neuesten Update von Google Gemini können Sie jetzt erkennen, worum es bei langen YouTube-Videos geht, ohne sie anzusehen.

6 Gründe, warum die Intelligenz von Apple nicht beeindruckend ist

6 Gründe, warum die Intelligenz von Apple nicht beeindruckend ist

Apple Intelligence versprach Großes, doch viele Leute waren enttäuscht, nachdem sie die Funktionen erkundet hatten.

Diese kreativen KI-Designfunktionen sind Ihre Zeit wirklich wert

Diese kreativen KI-Designfunktionen sind Ihre Zeit wirklich wert

KI-Design-Tools machen zwar Spaß, manche lenken aber oft von der Ernsthaftigkeit des kreativen Designs ab. Es gibt jedoch eine Vielzahl kreativer KI-Tools, die Ihre Zeit tatsächlich wert sind.

Vo Lam: Binh Lam Thanh Ha neuester Code und wie man den Code einlöst

Vo Lam: Binh Lam Thanh Ha neuester Code und wie man den Code einlöst

Viele attraktive Belohnungen in Vo Lam Binh Lam Thanh Ha sind im Geschenkcode enthalten, den der Spieleherausgeber neuen Spielern gibt.

Tower Defense Simulator-Codes vom 25. April 2025 und wie man sie eingibt

Tower Defense Simulator-Codes vom 25. April 2025 und wie man sie eingibt

Der Tower Defense Simulator Code ist eine dauerhafte Belohnung im Spiel. Die Unterstützung besteht aus XP und Truppen. Dank des Geschenkcodes kommst du im Spiel schneller und einfacher voran.

Wie erhöht das Betrachten von Bildschirmen elektronischer Geräte das Myopierisiko?

Wie erhöht das Betrachten von Bildschirmen elektronischer Geräte das Myopierisiko?

Ende 2024 bestätigte eine umfassende Studie, die im British Journal of Ophthalmology veröffentlicht wurde, dass die Myopierate bei Kindern weltweit deutlich ansteigt und weiter ansteigen wird.

Forscher entwickeln wiederaufladbare Lithiumbatterie

Forscher entwickeln wiederaufladbare Lithiumbatterie

Warum für ein altes Gerät einen neuen Akku kaufen, wenn man für wenig Geld auf einen neuen umsteigen kann? Um dieses Problem zu lösen, entwickeln Forscher umweltfreundlichere wiederaufladbare Lithiumbatterien.

Das weltweit größte 3D-gedruckte Stadtviertel steht kurz vor der Fertigstellung

Das weltweit größte 3D-gedruckte Stadtviertel steht kurz vor der Fertigstellung

Der Vulcan-Drucker von ICON in Georgetown, Texas, steht kurz vor der Fertigstellung von 100 Häusern in der Wolf Ranch-Gemeinde und schafft damit die weltweit größte 3D-gedruckte Nachbarschaft.

Neue Batterietechnologie könnte Lithium-Ionen bald ersetzen

Neue Batterietechnologie könnte Lithium-Ionen bald ersetzen

Group1, ein Startup-Unternehmen in Texas (USA), hat gerade die weltweit erste Kalium-Ionen-Batterie (KiB) mit der Industriestandardgröße 18650 angekündigt und verspricht, Lithium-Ionen-Batterien zu ersetzen.

Sehen Sie seltene Livebilder eines jupiterähnlichen Exoplaneten

Sehen Sie seltene Livebilder eines jupiterähnlichen Exoplaneten

Exoplaneten sind Planeten außerhalb des Sonnensystems.

Weltweit erster KI-Kandidat tritt bei Parlamentswahlen an

Weltweit erster KI-Kandidat tritt bei Parlamentswahlen an

AI Steve ist ein virtueller Kandidat, der von künstlicher Intelligenz (KI) mit dem Prototyp des Geschäftsmanns Steve Endacott erstellt wurde und bei den diesjährigen Parlamentswahlen im Bezirk Brighton Pavillion antreten wird – einer Küstenstadt im Süden Englands.

Wird die manuelle Fotobearbeitung mit dem Fortschritt der KI überflüssig?

Wird die manuelle Fotobearbeitung mit dem Fortschritt der KI überflüssig?

Sie haben wahrscheinlich gehört, dass jeder Aspekt der Kreativität durch KI überflüssig wird. Das stimmt jedoch nicht ganz. Die manuelle Fotobearbeitung wird trotz fortschreitender KI nicht verschwinden, und hier ist der Grund.

Sollten Sie angesichts der Einführung von KI-Tools immer noch Ihre eigene Musik komponieren?

Sollten Sie angesichts der Einführung von KI-Tools immer noch Ihre eigene Musik komponieren?

KI-Musiker versprechen fertige Songs. Lohnt es sich trotzdem, selbst Songs zu produzieren?

So öffnen Sie Ordneroptionen oder Datei-Explorer-Optionen in Windows 10

So öffnen Sie Ordneroptionen oder Datei-Explorer-Optionen in Windows 10

Mit den Datei-Explorer-Optionen (auch Ordneroptionen genannt) können Sie das Verhalten von Dateien und Ordnern sowie die Anzeige von Elementen auf Ihrem Computer ändern. Diese Anleitung zeigt Ihnen verschiedene Möglichkeiten zum Öffnen der Ordner- bzw. Datei-Explorer-Optionen in Windows 10.

Schöne Free Fire-Namen, gute FF-Namen

Schöne Free Fire-Namen, gute FF-Namen

Dies ist ein schöner Free Fire-Name, ein guter Free Fire-Name, mit dem Sie Ihren Charakter oder Ihre Armee benennen können.

Leistungsstärkster Röntgenlaser der Welt

Leistungsstärkster Röntgenlaser der Welt

Die Linac Coherent Light Source (LCLS), der weltweit leistungsstärkste Röntgenlaser im SLAC National Accelerator Laboratory in den USA, wird einer umfassenden Modernisierung unterzogen, bei der die Röntgenenergie der Maschine um das 3.000-fache erhöht wird.