Home
» Wiki
»
Die 3 besten neuen Funktionen des Meta AI Llama 4-Modells
Die 3 besten neuen Funktionen des Meta AI Llama 4-Modells
Anfang April 2025 brachte Meta Llama 4 auf den Markt , die neueste KI-Modellreihe, die das Unternehmen auf die nächste Stufe heben soll. Jedes neue Llama 4-Modell bietet deutliche Verbesserungen gegenüber seinen Vorgängern. Hier sind die wichtigsten Neuerungen zum Ausprobieren.
3. Experten-Mix-Architektur (MoE)
Eines der bemerkenswertesten Merkmale der Llama 4-Modelle ist die neue MoE-Architektur, eine Premiere für die Llama-Serie, die einen anderen Ansatz als frühere Modelle verfolgt. Bei der neuen Architektur wird nur ein kleiner Teil der Modellparameter für jedes Token aktiviert, anders als bei herkömmlichen dichten Transformer-Modellen wie Llama 3 und darunter, bei denen alle Parameter für jede Aufgabe aktiviert werden.
Beispielsweise verwendet der Llama 4 Maverick nur 17 Milliarden aktive Parameter von 400 Milliarden, mit 128 gerouteten Experten und einem gemeinsam genutzten Experten. Der Llama 4 Scout, die kleinste Version der Serie, verfügt über insgesamt 109 Milliarden Parameter, von denen nur 17 Milliarden mit 16 Experten aktiv sind.
Der größte der drei, Llama 4 Behemoth, verwendet 288 Milliarden aktive Parameter (mit 16 Spezialisten), insgesamt also fast zwei Billionen Parameter. Dank dieser neuen Architektur sind jeder Aufgabe nur zwei Spezialisten zugewiesen.
Dank der Architekturänderung sind die Modelle der Llama 4-Serie beim Training und bei der Inferenz rechnerisch effizienter. Die Aktivierung nur eines kleinen Teils der Parameter reduziert zudem die Bereitstellungskosten und die Latenz. Dank der MoE-Architektur kann Llama laut Meta auf einer einzigen Nvidia H100 GPU ausgeführt werden – eine beeindruckende Leistung angesichts der Anzahl der Parameter. Obwohl keine konkreten Zahlen verfügbar sind, wird davon ausgegangen, dass jede Abfrage an ChatGPT mehrere Nvidia GPUs nutzt, was in nahezu jeder messbaren Metrik einen höheren Overhead verursacht.
2. Native multimodale Verarbeitungsfunktionen
Ein weiteres wichtiges Update der Llama 4-KI-Modelle ist die native multimodale Verarbeitung, was bedeutet, dass das Trio Text und Bilder gleichzeitig verstehen kann.
Dies ist der Fusion in der anfänglichen Trainingsphase zu verdanken, in der Text- und Bild-Token in eine einheitliche Architektur integriert werden. Die Modelle werden mit einer großen Menge unbeschrifteter Text-, Bild- und Videodaten trainiert.
Besser geht es nicht. Wie Sie sich erinnern, führte Metas Llama 3.2- Upgrade, das im September 2024 veröffentlicht wurde, eine Reihe neuer Modelle (insgesamt zehn) ein, darunter fünf multimodale Vision-Modelle und fünf Textmodelle. Dank nativer multimodaler Verarbeitung muss das Unternehmen mit dieser Generation keine separaten Text- und Vision-Modelle mehr veröffentlichen.
Darüber hinaus verwendet Llama 4 einen verbesserten visuellen Encoder, der es Modellen ermöglicht, komplexe visuelle Inferenzaufgaben und Multi-Bild-Eingaben zu verarbeiten. Dadurch sind sie für Anwendungen geeignet, die ein fortgeschrittenes Text- und Bildverständnis erfordern. Dank der multimodalen Verarbeitung können LLama 4-Modelle zudem in einem breiten Anwendungsspektrum eingesetzt werden.
1. Branchenführendes Kontextfenster
Die KI-Modelle von Llama 4 verfügen über ein beispielloses Kontextfenster von bis zu 10 Millionen Token. Während sich Llama 4 Behemoth zum Zeitpunkt der Veröffentlichung noch in der Entwicklung befindet, setzt Llama 4 Scout mit seiner Fähigkeit, Kontextlängen von bis zu 10 Millionen Token zu unterstützen, einen neuen Branchenmaßstab. Damit können Sie Text mit über 5 Millionen Wörtern eingeben.
Diese erweiterte Kontextlänge stellt eine deutliche Steigerung gegenüber den 8.000 Token von Llama 3 bei dessen Einführung und sogar der anschließenden Erweiterung auf 128.000 Token nach dem Llama 3.2-Upgrade dar. Und nicht nur die 10 Millionen Kontextlänge von Llama 4 Scout ist interessant; auch Llama 4 Maverick mit seiner Kontextlänge von einer Million ist eine beeindruckende Leistung.
Llama 3.2 ist derzeit einer der besten KI-Chatbots für längere Gespräche. Das erweiterte Kontextfenster von Llama 4 bringt Llama jedoch in Führung und übertrifft Geminis bisheriges Top-Kontextfenster mit 2 Millionen Token, die 200.000 Token von Claude 3.7 Sonnet und die 128.000 Token von GPT-4.5.
Dank des großen Kontextfensters kann die Llama 4-Serie Aufgaben bewältigen, die große Eingabemengen erfordern. Dieses große Fenster ist nützlich für Aufgaben wie die Analyse langer Dokumente mit mehreren Dokumenten, die detaillierte Analyse großer Codebasen und die logische Schlussfolgerung anhand großer Datensätze.
Es ermöglicht Llama 4 außerdem, längere Gespräche zu führen, im Gegensatz zu früheren Llama-Modellen und Modellen anderer KI-Unternehmen. Wenn Gemini 2.5 Pro aufgrund seines großen Kontextfensters das beste Reasoning-Modell ist, können Sie sich vorstellen, wie leistungsstark ein 5- oder 10-faches Kontextfenster ist.
Die Modelle der Llama 3-Serie von Meta gehörten bereits zu den besten LLMs auf dem Markt. Mit der Veröffentlichung der Llama 4-Serie geht Meta jedoch noch einen Schritt weiter und konzentriert sich nicht nur auf eine verbesserte Inferenzleistung (dank eines neuen branchenführenden Kontextfensters), sondern sorgt auch durch den Einsatz einer neuen MoE-Architektur während Training und Inferenz für möglichst effiziente Modelle.
Die nativen multimodalen Verarbeitungsfunktionen, die effiziente MoE-Architektur und das große Kontextfenster von Llama 4 positionieren es als offenes, leistungsstarkes, flexibles, gewichtetes KI-Modell, das bei Inferenz, Kodierung und vielen anderen Aufgaben mit führenden Modellen konkurrieren oder diese übertreffen kann.