GPT-5.4: OpenAI startet sein leistungsfähigstes Frontier-Modell

OpenAI setzt ein starkes Zeichen. GPT-5.4 ist ab sofort in ChatGPT (unter dem Namen GPT-5.4 Thinking), in der API und in Codex verfügbar. Es ist das leistungsfähigste und effizienteste Frontier-Modell, das OpenAI je für professionelle Arbeit entwickelt hat. Die Version GPT-5.4 Pro steht ebenfalls für diejenigen bereit, die maximale Leistung bei den komplexesten Aufgaben benötigen.

Das Wichtigste in 30 Sekunden

GPT-5.4 vereint fortschrittliches Reasoning, erstklassiges Coding und agentische Workflows in einem einzigen Modell. Ein Kontextfenster von 1 Million Token, native Computernutzung (Computer Use), intelligente Tool-Suche und Benchmarks, die bei bestimmten Aufgaben die menschliche Leistung übertreffen. Verfügbar für Plus-, Team- und Pro-Abonnenten.

Was GPT-5.4 konkret verändert

GPT-5.4 vereint das Beste der jüngsten Fortschritte von OpenAI in einem einzigen Modell. Es integriert die Coding-Fähigkeiten von GPT-5.3-Codex und verbessert gleichzeitig die Arbeit mit Tools, Softwareumgebungen und professionellen Aufgaben wie Tabellenkalkulationen, Präsentationen und Dokumenten erheblich.

Das Ergebnis: ein Modell, das komplexe Arbeit präzise und effizient erledigt und das gewünschte Ergebnis mit weniger Nachfragen liefert. Schluss mit den drei Nachbesserungen, um das richtige Tabellenformat oder das passende Layout zu erhalten.

1 Million Token: Ein Gedächtnis auf der Höhe der Zeit

GPT-5.4 unterstützt bis zu 1 Million Token Kontext – mehr als das Doppelte der 400.000 Token von GPT-5.2. Konkret bedeutet das: Das Modell kann ganze Codebasen, vollständige Dokumentationsbibliotheken oder lange Gesprächsverläufe verarbeiten, ohne den Faden zu verlieren.

Dieses erweiterte Gedächtnis geht mit einer deutlich besseren Informationsbewahrung einher: GPT-5.4 erinnert sich über lange Sitzungen hinweg an Ihre Anweisungen und den Kontext. Das Vergessen von Vorgaben nach 20 Nachrichten gehört der Vergangenheit an. Für Entwickler, die Codex nutzen, ist das ein entscheidender Wandel: Das Modell kann Aufgaben über lange Sequenzen hinweg planen, ausführen und überprüfen.

'Extremes' Reasoning: Der xhigh-Modus

GPT-5.4 führt eine neue Reasoning-Stufe namens xhigh ein. Dieser Modus stellt deutlich mehr Rechenressourcen für das Nachdenken vor der Antwort bereit – eine Strategie des langsamen Rechnens, die sich bei Fachthemen, komplexen Analysen und mehrstufigen Aufgaben als entscheidend erweist.

In ChatGPT kann GPT-5.4 Thinking nun vorab einen Denkplan präsentieren, sodass Sie die Richtung während der Bearbeitung anpassen können. Sie erhalten ein Endergebnis, das besser Ihren Erwartungen entspricht, ohne das Gespräch neu starten zu müssen.

Computer Use: GPT-5.4 steuert Ihren Computer

Das ist die spektakulärste Neuerung. GPT-5.4 ist das erste universelle OpenAI-Modell mit nativen Computer-Use-Fähigkeiten. Es kann im Web navigieren, Formulare ausfüllen, E-Mails senden und Benutzeroberflächen bedienen – alles durch Interpretation von Screenshots und Senden von Tastatur-/Mausbefehlen.

Auf OSWorld-Verified, das die Fähigkeit eines Modells misst, in einer Desktop-Umgebung zu navigieren, erreicht GPT-5.4 eine Erfolgsquote von 75,0% und übertrifft damit die 47,3% von GPT-5.2 sowie die menschliche Leistung von 72,4% deutlich. Wir sprechen hier von einem Modell, das buchstäblich besser als ein durchschnittlicher Mensch darin ist, einen Computer über Screenshots zu bedienen.

Benchmark	GPT-5.4	GPT-5.2	Mensch
OSWorld-Verified (Desktop)	75,0%	47,3%	72,4%
WebArena-Verified (Browser)	67,3%	65,4%	-
Online-Mind2Web (Browser)	92,8%	-	-

Computer-Use-Leistungen von GPT-5.4

Professionelle Arbeit: Tabellen, Präsentationen, Dokumente

OpenAI hat besonderen Wert darauf gelegt, die Fähigkeiten von GPT-5.4 beim Erstellen und Bearbeiten von Tabellenkalkulationen, Präsentationen und Dokumenten zu verbessern. Bei einem internen Benchmark für Tabellenmodellierungsaufgaben (Niveau Junior-Analyst im Investmentbanking) erzielt GPT-5.4 einen Score von 87,3%, gegenüber 68,4% bei GPT-5.2.

Bei Präsentationen bevorzugten menschliche Bewerter die Folien von GPT-5.4 in 68% der Fälle gegenüber GPT-5.2, dank besserer Ästhetik, mehr visueller Vielfalt und effektiverem Einsatz der Bildgenerierung.

Auf GDPval, das die Fähigkeiten von Agenten bei realen Arbeitsaufgaben in 44 Berufen testet, stellt GPT-5.4 einen neuen Rekord auf: Es erreicht oder übertrifft Fachleute in 83% der Vergleiche, gegenüber 70,9% bei GPT-5.2.

Weniger Halluzinationen, mehr Genauigkeit

GPT-5.4 ist das faktisch zuverlässigste Modell von OpenAI. Bei einer Reihe von Anfragen, bei denen Nutzer zuvor Sachfehler gemeldet hatten, sind die einzelnen Aussagen von GPT-5.4 33% weniger wahrscheinlich falsch, und seine vollständigen Antworten enthalten 18% weniger Fehler im Vergleich zu GPT-5.2.

Coding: Verschmelzung der Stärken von GPT-5.3-Codex

GPT-5.4 verschmilzt die Coding-Fähigkeiten von GPT-5.3-Codex mit seinen eigenen Stärken in Reasoning und Computer Use. Es erreicht oder übertrifft GPT-5.3-Codex auf SWE-Bench Pro (57,7% vs. 56,8%) und ist dabei auf allen Reasoning-Stufen schneller.

Der /fast-Modus in Codex bietet mit GPT-5.4 bis zu 1,5-fache Token-Generierungsgeschwindigkeit. Gleiches Modell, gleiche Intelligenz – nur schneller. OpenAI hebt außerdem hervor, dass das Modell bei komplexen Frontend-Aufgaben hervorragend abschneidet, mit visuell ausgereifteren Ergebnissen als alles bisher Veröffentlichte.

Tool Search: Tausende Tools intelligent verwalten

GPT-5.4 führt Tool Search ein, eine Funktion, die für agentische Workflows bahnbrechend ist. Bisher wurden alle Tool-Definitionen im Prompt mitgeliefert, was bei jeder Anfrage Zehntausende zusätzlicher Token bedeuten konnte. Mit Tool Search erhält das Modell eine kompakte Liste verfügbarer Tools und lädt die vollständige Definition erst bei Bedarf.

Das Ergebnis beim MCP-Atlas-Benchmark mit 36 MCP-Servern: 47% weniger Token bei gleicher Genauigkeit. Für MCP-Server mit Zehntausenden Token an Tool-Definitionen sind die Einsparungen erheblich.

Die Benchmarks im Detail

Benchmark	GPT-5.4	GPT-5.4 Pro	GPT-5.2
GDPval (professionelle Arbeit)	83,0%	82,0%	70,9%
SWE-Bench Pro (Coding)	57,7%	-	55,6%
OSWorld (Computer Use)	75,0%	-	47,3%
BrowseComp (Websuche)	82,7%	89,3%	65,8%
Toolathlon (Tools)	54,6%	-	45,7%
ARC-AGI-2 (Reasoning)	73,3%	83,3%	52,9%
GPQA Diamond (Wissenschaft)	92,8%	94,4%	92,4%
Humanity's Last Exam	52,1%	58,7%	45,5%

Leistungen von GPT-5.4 vs. GPT-5.2 bei den wichtigsten Benchmarks

Preise und Verfügbarkeit

GPT-5.4 Thinking ist ab sofort für Abonnenten von ChatGPT Plus, Team und Pro verfügbar und ersetzt GPT-5.2 Thinking. Letzteres bleibt noch 3 Monate im Bereich Legacy Models zugänglich, bevor es am 5. Juni 2026 eingestellt wird. GPT-5.4 Pro ist den Plänen Pro und Enterprise vorbehalten.

API-Modell	Input-Preis	Cached Input	Output-Preis
gpt-5.2	1,75$ / M Token	0,175$ / M Token	14$ / M Token
gpt-5.4	2,50$ / M Token	0,25$ / M Token	15$ / M Token
gpt-5.4-pro	30$ / M Token	-	180$ / M Token

API-Preise von GPT-5.4

GPT-5.4 kostet pro Token mehr als GPT-5.2, aber seine höhere Token-Effizienz reduziert die Gesamtzahl der benötigten Token für viele Aufgaben. Batch- und Flex-Tarife sind zum halben Preis verfügbar.

Was sich für ChatGPT-Nutzer ändert

Für den täglichen ChatGPT-Nutzer bringt GPT-5.4 drei wesentliche Verbesserungen: präzisere Antworten mit weniger Halluzinationen, bessere Kontextverfolgung über lange Gespräche hinweg und die Möglichkeit, den Denkplan des Modells während der Bearbeitung einzusehen und anzupassen.

Für Entwickler und Fachleute sind es Computer Use und Tool Search, die den Unterschied machen. Die Fähigkeit, Agenten zu erstellen, die im Web navigieren, Formulare ausfüllen und komplexe Aufgaben autonom verketten, eröffnet Möglichkeiten, die bisher maßgeschneiderten Lösungen vorbehalten waren.

GPT-5.2 Thinking wird am 5. Juni 2026 eingestellt. Wenn Sie Workflows oder API-Integrationen auf Basis dieses Modells haben, planen Sie die Migration zu GPT-5.4 in den kommenden Wochen.

Das Rennen der Modelle verlangsamt sich nicht

Mit GPT-5.4 antwortet OpenAI direkt auf den Konkurrenzdruck. Claude von Anthropic macht Fortschritte bei Reasoning und Coding, Gemini von Google treibt Multimodalität und langen Kontext voran, und DeepSeek überrascht weiterhin bei der Effizienz. Dieser Launch ist eindeutig ein Versuch, das in den letzten Monaten verlorene Terrain zurückzugewinnen.

Die eigentliche Frage bleibt die nach der Nachhaltigkeit des Vorsprungs. GPT-5.4 ist heute beeindruckend, aber in einem Markt, in dem jede Woche ein neues Frontier-Modell erscheint – wie lange werden diese Benchmarks an der Spitze bleiben?

Bleiben Sie über KI auf dem Laufenden

Erhalten Sie die neuesten Nachrichten über KI-Modelle, Launches und Innovationen, die zählen.

Kein Spam. Abmeldung mit 1 Klick.

GPT-5.4: OpenAI startet sein leistungsfähigstes Modell mit 1 Million Token und nativer Computersteuerung

Was GPT-5.4 konkret verändert

1 Million Token: Ein Gedächtnis auf der Höhe der Zeit

'Extremes' Reasoning: Der xhigh-Modus

Computer Use: GPT-5.4 steuert Ihren Computer

Professionelle Arbeit: Tabellen, Präsentationen, Dokumente

Weniger Halluzinationen, mehr Genauigkeit

Coding: Verschmelzung der Stärken von GPT-5.3-Codex

Tool Search: Tausende Tools intelligent verwalten

Die Benchmarks im Detail

Preise und Verfügbarkeit

Was sich für ChatGPT-Nutzer ändert

Das Rennen der Modelle verlangsamt sich nicht

Bleiben Sie über KI auf dem Laufenden

Verwandte Artikel

AWS Setzt $58 Milliarden auf OpenAI und Anthropic: Der Cloud-KI-Krieg Verschärft Sich

ChatGPT vs. Claude vs. Gemini vs. Mistral: Welches KI-Modell sollten Sie 2026 wählen?

data.gouv.fr Startet Seinen MCP-Server: Wenn KI mit Französischen Öffentlichen Daten Spricht

Bereit, die besten KI-Tools zu entdecken?

Bleiben Sie über die neuesten KI-Nachrichten informiert

GPT-5.4: OpenAI startet sein leistungsfähigstes Modell mit 1 Million Token und nativer Computersteuerung

Was GPT-5.4 konkret verändert

1 Million Token: Ein Gedächtnis auf der Höhe der Zeit

'Extremes' Reasoning: Der xhigh-Modus

Computer Use: GPT-5.4 steuert Ihren Computer

Professionelle Arbeit: Tabellen, Präsentationen, Dokumente

Weniger Halluzinationen, mehr Genauigkeit

Coding: Verschmelzung der Stärken von GPT-5.3-Codex

Tool Search: Tausende Tools intelligent verwalten

Die Benchmarks im Detail

Preise und Verfügbarkeit

Was sich für ChatGPT-Nutzer ändert

Das Rennen der Modelle verlangsamt sich nicht

Ist GPT-5.4 kostenlos verfügbar?

Was ist der Unterschied zwischen GPT-5.4 und GPT-5.4 Pro?

Was passiert mit GPT-5.2?

Ist Computer Use in ChatGPT verfügbar?

Bleiben Sie über KI auf dem Laufenden

Verwandte Artikel

AWS Setzt $58 Milliarden auf OpenAI und Anthropic: Der Cloud-KI-Krieg Verschärft Sich

ChatGPT vs. Claude vs. Gemini vs. Mistral: Welches KI-Modell sollten Sie 2026 wählen?

data.gouv.fr Startet Seinen MCP-Server: Wenn KI mit Französischen Öffentlichen Daten Spricht

Bereit, die besten KI-Tools zu entdecken?

Bleiben Sie über die neuesten KI-Nachrichten informiert