GPT‑5 passe à un système unifié. Un routeur choisit en temps réel entre un modèle rapide et un modèle de raisonnement plus profond. Les performances progressent nettement en code, en math et sur des tâches factuelles exigeantes. Le taux d’hallucinations baisse. Le modèle arrive dans ChatGPT et dans l’écosystème Microsoft. Le tout avec de nouveaux leviers pour piloter coût et latence.
Ce que GPT‑5 change officiellement
Le cœur évolue vers un système unifié. Deux profils coopèrent. Un modèle principal rapide, référencé comme gpt‑5‑main, traite l’essentiel. Un modèle de raisonnement, gpt‑5‑thinking, prend le relais sur les cas complexes. Un routeur arbitre selon la nature de la tâche et le contexte. Le choix se fait à la volée. Ce design met fin au dilemme vitesse ou profondeur sur un même flux. Mieux encore, l’API expose des niveaux de raisonnement configurables. Minimal, low, medium, high. On gagne une molette claire pour doser qualité, coût et temps de réponse.
La disponibilité s’élargit. GPT‑5 alimente ChatGPT, avec une ouverture annoncée jusque dans l’offre gratuite, sous réserve de paliers d’usage. Les abonnements paient l’accès avancé et des limites plus hautes. Côté entreprise, Microsoft intègre GPT‑5 dans Microsoft 365 Copilot, Azure AI Foundry et GitHub Copilot. Le routage automatique du bon modèle se fait côté plateforme. Les équipes qui ont déjà standardisé Copilot et Azure peuvent tester vite, sans refonte.
Le cadre d’usage s’améliore. OpenAI revendique moins d’hallucinations et introduit des complétions sûres. Le modèle privilégie des réponses plus bornées plutôt que des refus abrupts. Les campagnes de sûreté dépassent plusieurs milliers d’heures de tests. Le message est clair. Davantage de réponses utiles, moins de surprises en production.
Les capacités techniques suivent. Entrées texte et image, sorties texte. Une fenêtre de contexte large, avec des limites typiques relevées autour de 272k tokens en entrée et près de 128k tokens en sortie, en tenant compte des tokens de raisonnement invisibles. Le socle de connaissances s’arrête fin septembre 2024. Côté coût, les prix API se positionnent de façon compétitive. Un ordre de grandeur communiqué par des sources développeurs indique environ 1,25 dollar par million de tokens en entrée et 10 dollars par million en sortie pour GPT‑5, avec des variantes mini et nano moins chères. Ces repères aident à budgéter à la tâche et à penser le routage interne.
Performances et implications
Le code progresse de manière significative. Sur les principaux benchmarks vérifiant les performances en développement, SWE‑bench Verified, GPT‑5 atteint environ 74,9 pour cent. Sur Aider Polyglot, autour de 88 pour cent. En pratique, la correction et l’édition de code multi langages deviennent plus fiables. Les assistants de maintenance applicative gagnent en utilité. Les tâches de dev‑ops léger s’automatisent mieux. Le modèle comprend le contexte, propose un patch, ajuste le style, puis commente le changement.
Par ailleurs l'usage de GPT-5 en tant qu'agent devrait également apporter des améliorations, avec une capacité accrue pour gérer des appels aux outils, et le contexte amélioré permettant de faire de plus longues tâches. Ces améliorations s'appliquent aussi pour le "Mode agent" d'open ai utilisant un ordinateur virtuel.
Le raisonnement scientifique et mathématique se raffermit. AIME 2025 sans outils approche 94,6 pour cent. GPQA, un benchmark difficile, grimpe vers 88,4 pour cent pour GPT‑5 Pro. Cette puissance se traduit par des chaînes de pensée plus stables. Les étapes d’analyse et de validation logique résistent mieux aux cas bord. Les orchestrations gagnent en robustesse. Moins de boucles inutiles. Plus de décisions justes au premier passage.
La santé et la factualité suivent la même pente. Sur HealthBench Hard, GPT‑5 dépasse 46 pour cent là où un modèle de raisonnement antérieur tournait autour de 31,6 pour cent. Les métriques LongFact et FActScore indiquent un recul net des hallucinations. Les évaluations rapportent jusqu’à 45 pour cent d’erreurs factuelles en moins par rapport à GPT‑4o avec recherche web. La conséquence opérationnelle tient en peu de mots. Des réponses plus ancrées, plus vérifiables, et donc plus simples à encadrer par des garde fous.
La vitesse reste pilotable. Le paramètre reasoning minimal permet d’obtenir des retours rapides sur des demandes simples. On réserve le raisonnement intense aux branches difficiles. Cette approche réduit la latence moyenne et le coût par exécution. Elle évite aussi de saturer la fenêtre de contexte avec des traces de raisonnement superflues.
À retenir
GPT‑5 apporte un routage intelligent entre vitesse et profondeur, des gains de performance solides et une meilleure maîtrise de la factualité. Par ailleurs l'équilibre performance côut en fait un atout sérieux dans le cadre d'automatisations de complexité variable. Bien-sûr, avant de migrer de modèle LLM, il reste important d'évaluer les performance nouvelles avant toute mise en production