Llama 3 und GPT-4 sind zwei der fortschrittlichsten öffentlich verfügbaren Large Language Models (LLMs) . Wir vergleichen beide Modelle hinsichtlich Multimodalität, Kontextlänge, Leistung und Kosten, um herauszufinden, welches LLM besser ist.
Inhaltsverzeichnis
Was ist GPT-4?
GPT-4 ist das neueste von OpenAI entwickelte Large Language Model (LLM). Es baut auf den Grundlagen der älteren GPT-3-Modelle auf und nutzt verschiedene Trainings- und Optimierungstechniken mit einem deutlich größeren Datensatz. Dadurch hat sich die Parametergröße von GPT-4 deutlich erhöht. Gerüchten zufolge verfügt GPT-4 über insgesamt 1,7 Billionen Parameter aus seinen kleineren Expertenmodellen. Dank des neuen Trainings, der Optimierungen und der größeren Parameteranzahl bietet GPT-4 Verbesserungen in den Bereichen Argumentation, Problemlösung, Kontextverständnis und besseren Umgang mit nuancierten Anweisungen.
Derzeit gibt es 3 Varianten des Modells:
- GPT-4 : Eine Weiterentwicklung von GPT-3 mit erheblichen Verbesserungen bei Geschwindigkeit, Genauigkeit und Wissensbasis.
- GPT-4 Turbo : Eine optimierte Version von GPT-4, die eine schnellere Leistung bei gleichzeitiger Senkung der Betriebskosten bietet.
- GPT-4o (Omni) : Erweitert die Funktionen von GPT-4 durch die Integration multimodaler Ein- und Ausgaben, einschließlich Text, Bildern und Audio.
Sie können jetzt auf alle drei GPT-4-Modelle zugreifen, indem Sie den API-Dienst von OpenAI abonnieren, mit ChatGPT interagieren oder Dienste wie Descript, Perplexity AI und viele andere Zusatzdienste von Microsoft nutzen.
Was ist Lama 3?
Llama 3 ist ein Open-Source-LLM, das von Meta AI (dem Mutterkonzern von Facebook, Instagram und WhatsApp) entwickelt wurde. Es wird mithilfe einer Kombination aus überwachtem Tuning, Sampling und Richtlinienoptimierung anhand eines vielfältigen Datensatzes trainiert, der Millionen menschlicher Anmerkungen enthält. Das Training konzentriert sich beispielsweise auf hochwertige Eingabeaufforderungen und Prioritätsrankings, wodurch ein flexibles und leistungsfähiges KI-Modell entsteht.
Sie können auf Llama 3 über Meta AI, den Generative-AI-Chatbot, zugreifen. Alternativ können Sie LLM lokal auf Ihrem Computer ausführen, indem Sie Llama 3-Modelle herunterladen und über Ollama, Open WebUI oder LM Studio laden.
Multimodal
Die Veröffentlichung von GPT-4o brachte endlich erste Informationen darüber, dass GPT-4 über multimodale Fähigkeiten verfügt. Sie können nun auf diese multimodalen Funktionen zugreifen, indem Sie mit ChatGPT über das GPT-4o-Modell interagieren. Stand Juni 2024 verfügt GPT-4o noch nicht über eine integrierte Möglichkeit zur Generierung von Video und Audio. Es ist jedoch in der Lage, Text und Bilder basierend auf Video- und Audioeingaben zu generieren.
Llama 3 plant außerdem, ein multimodales Modell für das kommende Llama 3 400B bereitzustellen. Es wird höchstwahrscheinlich ähnliche Technologien wie CLIP (Contrast Language-Imager Pre-Training) integrieren, um Bilder mithilfe von Zero-Shot-Learning-Techniken zu generieren. Da sich Llama 400B jedoch noch im Training befindet, können die Modelle 8B und 70B Bilder nur mithilfe von Erweiterungen wie LLaVa, Visual-LLaMA und LLaMA-VID generieren. Llama 3 ist derzeit ein rein sprachbasiertes Modell, das Text, Bilder und Audio als Eingabe zur Textgenerierung verwenden kann.
Kontextlänge
Die Kontextlänge bezeichnet die Textmenge, die ein Modell gleichzeitig verarbeiten kann. Dies ist ein wichtiger Faktor bei der Beurteilung der Fähigkeiten eines LLM, da sie die Kontextmenge bestimmt, mit der das Modell bei der Interaktion mit einem Benutzer arbeiten kann. Generell verbessert eine höhere Kontextlänge ein LLM, da sie für mehr Kohärenz und Kontinuität sorgt und Wiederholungsfehler bei Interaktionen reduzieren kann.
Modell
|
Beschreibung der Trainingsdaten
|
Parameter
|
Kontextlänge
|
Güteprüfung
|
Anzahl der Token
|
Begrenztes Wissen
|
Lama 3
|
Kombinieren Sie öffentlich verfügbare Online-Daten
|
8B
|
8k
|
Haben
|
15T+
|
März 2023
|
Lama 3
|
Kombinieren Sie öffentlich verfügbare Online-Daten
|
70B
|
8k
|
Haben
|
15T+
|
Dezember 2023
|
Die Llama 3-Modelle haben eine effektive Kontextlänge von 8.000 Token (ca. 6.400 Wörter). Das bedeutet, dass das Llama 3-Modell während der Interaktion über ein Kontextgedächtnis von ca. 6.400 Wörtern verfügt. Alle Wörter, die das Limit von 8.000 Token überschreiten, werden vergessen und liefern während der Interaktion keinen zusätzlichen Kontext.
Modell
|
Beschreiben
|
Kontextfenster
|
Trainingsdaten
|
GPT-4o
|
Multimodales Modell, günstiger und schneller als GPT-4 Turbo
|
128.000 Token (API)
|
Bis Oktober 2023
|
GPT-4-Turbo
|
Das GPT-4 Turbo-Modell ist stromlinienförmig und bietet Sichtbarkeit.
|
128.000 Token (API)
|
Bis Dezember 2023
|
GPT-4
|
Das erste GPT-4-Modell
|
8.192 Token
|
Bis September 2021
|
Im Gegensatz dazu unterstützt GPT-4 derzeit deutlich größere Kontextlängen von 32.000 Token (ca. 25.600 Wörter) für ChatGPT-Nutzer und 128.000 Token (ca. 102.400 Wörter) für Nutzer des API-Endpunkts. Dies verschafft dem GPT-4-Modell einen Vorteil bei der Verwaltung längerer Konversationen und ermöglicht das Lesen langer Dokumente oder sogar ganzer Bücher.
Effizienz
Vergleichen wir die Leistung anhand des Llama 3-Benchmark-Berichts von Meta AI vom 18. April 2024 und des GPT-4-GitHub-Berichts von OpenAI vom 14. Mai 2024. Hier sind die Ergebnisse:
Modell
|
MMLU
|
GPQA
|
MATHE
|
Menschliche Eval
|
FALLEN
|
GPT-4o
|
88,7
|
53,6
|
76,6
|
90,2
|
83,4
|
GPT-4 Turbo
|
86,5
|
49.1
|
72,2
|
87,6
|
85,4
|
Lama3 8B
|
68,4
|
34.2
|
30,0
|
62,2
|
58,4
|
Lama3 70B
|
82,0
|
39,5
|
50,4
|
81,7
|
79,7
|
Llama3 400B
|
86,1
|
48,0
|
57,8
|
84,1
|
83,5
|
Folgendes wird von den einzelnen Kriterien gemessen:
- MMLU (Massive Multitask Language Understanding) : Bewertet die Fähigkeit des Modells, Fragen zu verschiedenen akademischen Themen zu verstehen und zu beantworten.
- GPTQA (General Purpose Question Answering) : Bewertet die Fähigkeit des Modells, reale Fragen in einem offenen Bereich zu beantworten
- MATHEMATIK : Testen Sie die Fähigkeit des Modells, Probleme zu lösen.
- HumanEval : Misst die Fähigkeit des Modells, auf der Grundlage vorgegebener menschlicher Programmieranweisungen korrekten Code zu generieren.
- DROP (Discrete Reasoning Over Paragraphs) : Bewertet die Fähigkeit des Modells, diskretes Denken durchzuführen und Fragen basierend auf Textpassagen zu beantworten.
Aktuelle Benchmarks verdeutlichen die Leistungsunterschiede zwischen den Modellen GPT-4 und Llama 3. Während das Llama 3 8B-Modell deutlich zurückliegt, schneiden die Modelle 70B und 400B in den Bereichen akademisches und allgemeines Wissen, Leseverständnis, logisches Denken und Programmieren zwar schlechter, aber ähnlich gut ab wie die Modelle GPT-4o und GPT-4 Turbo. In der reinen Mathematik hat jedoch bisher kein Llama 3-Modell die Leistung von GPT-4 erreicht.
Preis
Die Kosten sind für viele Nutzer ein wichtiger Faktor. Das GPT-4o-Modell von OpenAI ist für alle ChatGPT-Nutzer kostenlos verfügbar und bietet ein Limit von 16 Nachrichten alle 3 Stunden. Wenn Sie mehr benötigen, müssen Sie ChatGPT Plus für 20 $/Monat abonnieren, um das Nachrichtenlimit von GPT-4o auf 80 zu erweitern und Zugriff auf andere GPT-4-Modelle zu erhalten.
Andererseits sind sowohl das Llama 3 8B- als auch das 70B-Modell Open Source und kostenlos, was für Entwickler und Forscher, die nach einer kostengünstigen Lösung ohne Kompromisse bei der Leistung suchen, ein erheblicher Vorteil sein kann.
Zugänglichkeit
GPT-4-Modelle sind über OpenAIs Generative-AI-Chatbot ChatGPT und dessen API allgemein zugänglich. Sie können GPT-4 auch kostenlos auf Microsoft Copilot nutzen . Diese breite Verfügbarkeit stellt sicher, dass Nutzer die Funktionen in verschiedenen Anwendungsfällen problemlos nutzen können. Im Gegensatz dazu ist Llama 3 ein Open-Source-Projekt, das Modellflexibilität bietet und breitere Experimente und Zusammenarbeit innerhalb der KI-Community fördert. Dieser Open-Access-Ansatz kann KI-Technologie demokratisieren und einem breiteren Publikum zugänglich machen.
Obwohl beide Modelle verfügbar sind, ist GPT-4 deutlich einfacher zu verwenden, da es in gängige Produktivitätstools und -dienste integriert ist. Llama 3 hingegen ist hauptsächlich in Forschungs- und Geschäftsplattformen wie Amazon Bedrock, Ollama und DataBricks integriert (mit Ausnahme der Meta-AI-Chat-Unterstützung), was einen größeren Markt nicht-technischer Benutzer nicht anspricht.
GPT-4 oder Llama 3, was ist besser?
Welches LLM ist also besser? GPT-4 ist das bessere LLM. GPT-4 zeichnet sich durch Multimodalität mit erweiterten Funktionen für die Verarbeitung von Text-, Bild- und Audioeingaben aus, während ähnliche Funktionen von Llama 3 noch in der Entwicklung sind. GPT-4 bietet zudem deutlich größere Kontextlängen und eine bessere Performance und ist über gängige Tools und Dienste allgemein zugänglich, was GPT-4 benutzerfreundlicher macht.
Es ist jedoch wichtig zu betonen, dass sich die Llama 3-Modelle für ein kostenloses Open-Source-Projekt sehr gut bewährt haben. Daher bleibt Llama 3 ein prominentes LLM, das von Forschern und Unternehmen aufgrund seines kostenlosen Open-Source-Charakters geschätzt wird und gleichzeitig beeindruckende Leistung, Flexibilität und zuverlässige Sicherheitsfunktionen bietet. Auch wenn der breite Verbraucher Llama 3 möglicherweise nicht sofort nutzen kann, bleibt es für viele Forscher und Unternehmen die praktikabelste Option.
Zusammenfassend lässt sich sagen, dass GPT-4 sich durch seine erweiterten multimodalen Funktionen, die größere Kontextlänge und die nahtlose Integration in gängige Tools auszeichnet. Llama 3 hingegen bietet mit seinem Open-Source-Charakter eine wertvolle Alternative, die mehr Anpassungsmöglichkeiten und Kosteneinsparungen ermöglicht. Anwendungstechnisch ist GPT-4 ideal für alle, die Wert auf Benutzerfreundlichkeit und umfassende Funktionen in einem Modell legen, während Llama 3 sich gut für Entwickler und Forscher eignet, die Wert auf Flexibilität und Anpassungsfähigkeit legen.