OpenAI setzt ein starkes Zeichen. GPT-5.4 ist ab sofort in ChatGPT (unter dem Namen GPT-5.4 Thinking), in der API und in Codex verfügbar. Es ist das leistungsfähigste und effizienteste Frontier-Modell, das OpenAI je für professionelle Arbeit entwickelt hat. Die Version GPT-5.4 Pro steht ebenfalls für diejenigen bereit, die maximale Leistung bei den komplexesten Aufgaben benötigen.
Was GPT-5.4 konkret verändert
GPT-5.4 vereint das Beste der jüngsten Fortschritte von OpenAI in einem einzigen Modell. Es integriert die Coding-Fähigkeiten von GPT-5.3-Codex und verbessert gleichzeitig die Arbeit mit Tools, Softwareumgebungen und professionellen Aufgaben wie Tabellenkalkulationen, Präsentationen und Dokumenten erheblich.
Das Ergebnis: ein Modell, das komplexe Arbeit präzise und effizient erledigt und das gewünschte Ergebnis mit weniger Nachfragen liefert. Schluss mit den drei Nachbesserungen, um das richtige Tabellenformat oder das passende Layout zu erhalten.
1 Million Token: Ein Gedächtnis auf der Höhe der Zeit
GPT-5.4 unterstützt bis zu 1 Million Token Kontext – mehr als das Doppelte der 400.000 Token von GPT-5.2. Konkret bedeutet das: Das Modell kann ganze Codebasen, vollständige Dokumentationsbibliotheken oder lange Gesprächsverläufe verarbeiten, ohne den Faden zu verlieren.
Dieses erweiterte Gedächtnis geht mit einer deutlich besseren Informationsbewahrung einher: GPT-5.4 erinnert sich über lange Sitzungen hinweg an Ihre Anweisungen und den Kontext. Das Vergessen von Vorgaben nach 20 Nachrichten gehört der Vergangenheit an. Für Entwickler, die Codex nutzen, ist das ein entscheidender Wandel: Das Modell kann Aufgaben über lange Sequenzen hinweg planen, ausführen und überprüfen.
'Extremes' Reasoning: Der xhigh-Modus
GPT-5.4 führt eine neue Reasoning-Stufe namens xhigh ein. Dieser Modus stellt deutlich mehr Rechenressourcen für das Nachdenken vor der Antwort bereit – eine Strategie des langsamen Rechnens, die sich bei Fachthemen, komplexen Analysen und mehrstufigen Aufgaben als entscheidend erweist.
In ChatGPT kann GPT-5.4 Thinking nun vorab einen Denkplan präsentieren, sodass Sie die Richtung während der Bearbeitung anpassen können. Sie erhalten ein Endergebnis, das besser Ihren Erwartungen entspricht, ohne das Gespräch neu starten zu müssen.
Computer Use: GPT-5.4 steuert Ihren Computer
Das ist die spektakulärste Neuerung. GPT-5.4 ist das erste universelle OpenAI-Modell mit nativen Computer-Use-Fähigkeiten. Es kann im Web navigieren, Formulare ausfüllen, E-Mails senden und Benutzeroberflächen bedienen – alles durch Interpretation von Screenshots und Senden von Tastatur-/Mausbefehlen.
Auf OSWorld-Verified, das die Fähigkeit eines Modells misst, in einer Desktop-Umgebung zu navigieren, erreicht GPT-5.4 eine Erfolgsquote von 75,0% und übertrifft damit die 47,3% von GPT-5.2 sowie die menschliche Leistung von 72,4% deutlich. Wir sprechen hier von einem Modell, das buchstäblich besser als ein durchschnittlicher Mensch darin ist, einen Computer über Screenshots zu bedienen.
| Benchmark | GPT-5.4 | GPT-5.2 | Mensch |
|---|---|---|---|
| OSWorld-Verified (Desktop) | 75,0% | 47,3% | 72,4% |
| WebArena-Verified (Browser) | 67,3% | 65,4% | - |
| Online-Mind2Web (Browser) | 92,8% | - | - |
Computer-Use-Leistungen von GPT-5.4
Professionelle Arbeit: Tabellen, Präsentationen, Dokumente
OpenAI hat besonderen Wert darauf gelegt, die Fähigkeiten von GPT-5.4 beim Erstellen und Bearbeiten von Tabellenkalkulationen, Präsentationen und Dokumenten zu verbessern. Bei einem internen Benchmark für Tabellenmodellierungsaufgaben (Niveau Junior-Analyst im Investmentbanking) erzielt GPT-5.4 einen Score von 87,3%, gegenüber 68,4% bei GPT-5.2.
Bei Präsentationen bevorzugten menschliche Bewerter die Folien von GPT-5.4 in 68% der Fälle gegenüber GPT-5.2, dank besserer Ästhetik, mehr visueller Vielfalt und effektiverem Einsatz der Bildgenerierung.
Auf GDPval, das die Fähigkeiten von Agenten bei realen Arbeitsaufgaben in 44 Berufen testet, stellt GPT-5.4 einen neuen Rekord auf: Es erreicht oder übertrifft Fachleute in 83% der Vergleiche, gegenüber 70,9% bei GPT-5.2.
Weniger Halluzinationen, mehr Genauigkeit
GPT-5.4 ist das faktisch zuverlässigste Modell von OpenAI. Bei einer Reihe von Anfragen, bei denen Nutzer zuvor Sachfehler gemeldet hatten, sind die einzelnen Aussagen von GPT-5.4 33% weniger wahrscheinlich falsch, und seine vollständigen Antworten enthalten 18% weniger Fehler im Vergleich zu GPT-5.2.
Coding: Verschmelzung der Stärken von GPT-5.3-Codex
GPT-5.4 verschmilzt die Coding-Fähigkeiten von GPT-5.3-Codex mit seinen eigenen Stärken in Reasoning und Computer Use. Es erreicht oder übertrifft GPT-5.3-Codex auf SWE-Bench Pro (57,7% vs. 56,8%) und ist dabei auf allen Reasoning-Stufen schneller.
Der /fast-Modus in Codex bietet mit GPT-5.4 bis zu 1,5-fache Token-Generierungsgeschwindigkeit. Gleiches Modell, gleiche Intelligenz – nur schneller. OpenAI hebt außerdem hervor, dass das Modell bei komplexen Frontend-Aufgaben hervorragend abschneidet, mit visuell ausgereifteren Ergebnissen als alles bisher Veröffentlichte.
Tool Search: Tausende Tools intelligent verwalten
GPT-5.4 führt Tool Search ein, eine Funktion, die für agentische Workflows bahnbrechend ist. Bisher wurden alle Tool-Definitionen im Prompt mitgeliefert, was bei jeder Anfrage Zehntausende zusätzlicher Token bedeuten konnte. Mit Tool Search erhält das Modell eine kompakte Liste verfügbarer Tools und lädt die vollständige Definition erst bei Bedarf.
Das Ergebnis beim MCP-Atlas-Benchmark mit 36 MCP-Servern: 47% weniger Token bei gleicher Genauigkeit. Für MCP-Server mit Zehntausenden Token an Tool-Definitionen sind die Einsparungen erheblich.
Die Benchmarks im Detail
| Benchmark | GPT-5.4 | GPT-5.4 Pro | GPT-5.2 |
|---|---|---|---|
| GDPval (professionelle Arbeit) | 83,0% | 82,0% | 70,9% |
| SWE-Bench Pro (Coding) | 57,7% | - | 55,6% |
| OSWorld (Computer Use) | 75,0% | - | 47,3% |
| BrowseComp (Websuche) | 82,7% | 89,3% | 65,8% |
| Toolathlon (Tools) | 54,6% | - | 45,7% |
| ARC-AGI-2 (Reasoning) | 73,3% | 83,3% | 52,9% |
| GPQA Diamond (Wissenschaft) | 92,8% | 94,4% | 92,4% |
| Humanity's Last Exam | 52,1% | 58,7% | 45,5% |
Leistungen von GPT-5.4 vs. GPT-5.2 bei den wichtigsten Benchmarks
Preise und Verfügbarkeit
GPT-5.4 Thinking ist ab sofort für Abonnenten von ChatGPT Plus, Team und Pro verfügbar und ersetzt GPT-5.2 Thinking. Letzteres bleibt noch 3 Monate im Bereich Legacy Models zugänglich, bevor es am 5. Juni 2026 eingestellt wird. GPT-5.4 Pro ist den Plänen Pro und Enterprise vorbehalten.
| API-Modell | Input-Preis | Cached Input | Output-Preis |
|---|---|---|---|
| gpt-5.2 | 1,75$ / M Token | 0,175$ / M Token | 14$ / M Token |
| gpt-5.4 | 2,50$ / M Token | 0,25$ / M Token | 15$ / M Token |
| gpt-5.4-pro | 30$ / M Token | - | 180$ / M Token |
API-Preise von GPT-5.4
GPT-5.4 kostet pro Token mehr als GPT-5.2, aber seine höhere Token-Effizienz reduziert die Gesamtzahl der benötigten Token für viele Aufgaben. Batch- und Flex-Tarife sind zum halben Preis verfügbar.
Was sich für ChatGPT-Nutzer ändert
Für den täglichen ChatGPT-Nutzer bringt GPT-5.4 drei wesentliche Verbesserungen: präzisere Antworten mit weniger Halluzinationen, bessere Kontextverfolgung über lange Gespräche hinweg und die Möglichkeit, den Denkplan des Modells während der Bearbeitung einzusehen und anzupassen.
Für Entwickler und Fachleute sind es Computer Use und Tool Search, die den Unterschied machen. Die Fähigkeit, Agenten zu erstellen, die im Web navigieren, Formulare ausfüllen und komplexe Aufgaben autonom verketten, eröffnet Möglichkeiten, die bisher maßgeschneiderten Lösungen vorbehalten waren.
Das Rennen der Modelle verlangsamt sich nicht
Mit GPT-5.4 antwortet OpenAI direkt auf den Konkurrenzdruck. Claude von Anthropic macht Fortschritte bei Reasoning und Coding, Gemini von Google treibt Multimodalität und langen Kontext voran, und DeepSeek überrascht weiterhin bei der Effizienz. Dieser Launch ist eindeutig ein Versuch, das in den letzten Monaten verlorene Terrain zurückzugewinnen.
Die eigentliche Frage bleibt die nach der Nachhaltigkeit des Vorsprungs. GPT-5.4 ist heute beeindruckend, aber in einem Markt, in dem jede Woche ein neues Frontier-Modell erscheint – wie lange werden diese Benchmarks an der Spitze bleiben?
Bleiben Sie über KI auf dem Laufenden
Erhalten Sie die neuesten Nachrichten über KI-Modelle, Launches und Innovationen, die zählen.
Kein Spam. Abmeldung mit 1 Klick.





