Les hallucinations des LLM sont un problème majeur dans la mise en place de l’IA dans les entreprises, empêchant une confiance totale dans les processus l’utilisant. Recemment, une IA utilisé dans le logiciel de vibe code Replit qui a halluciné a supprimé l’entièreté d’une base de donnée d’une entreprise. Du fait de l’importance de la problématique, la startup Française Giskard, spécialisée dans le test de modèle d’IA, a publié un classement des modèles qui hallucinent le plus.

Que sont les hallucinations des modèles d’IA ?

Les hallucinations sont des moments où l’IA s’égare et propose une réponse qui semble plausible mais ne correspond pas aux faits. Elles apparaissent surtout lorsque la question posée ne trouve aucune réponse directe ou fiable dans les données d’entraînement. Rappelons que les LLM sont formés sur de larges corpus hétérogènes : l’apprentissage consiste à prédire, à partir d’un prompt, le prochain mot (ou token) et à ajuster en continu cette prédiction afin qu’elle paraisse la plus réaliste et cohérente possible. Or, la solidité de ce processus dépend de la qualité des données : jeux incomplets, biaisés, erronés, ou même empoisonnés volontairement peuvent conduire le modèle à intégrer des associations fautives. Dans ces conditions, l’IA comble les lacunes par des extrapolations hasardeuses, invente des références ou confond des concepts voisins. En somme, l’hallucination n’est pas un “mensonge” intentionnel, mais la conséquence de limites informationnelles et statistiques.

Quelle méthode employée pour classer les LLMs ?

Giskard a utilisé une méthodologie précise permettant d’évaluer la taux d’erreur et d’hallucination des IA de manière “cohérente et équitable”. Le but était de collecter un nombre important de sources fiables (en anglais, français et espagnol), puis de générer des tests d’évaluation à partir de ces données (par exemple une question à propos du contexte d’un article de presse). Ensuite une review humaine a été menée pour séléctionner des exemples de qualité, puis les modèles d’IA ont étés évalués sur ces exemples.

Quels LLMs hallucinent le moins ?

En tête de liste on retrouve Claude 3.5 Sonnet qui arrive le mieux à décoder le vrai du faux avec 97 % de réussite, suivi par Sonnet 3.5 et Haiku 3.5 (avec respectivement 81% et 72% de réussite). A noter cependant que le taux d’hallucination dépend du prompt de l’utilisateur. En effet un prompt écris avec plus d’assurance aura pour effet d’induire l’IA en erreur et de confirmer le propos, même si celui-ci est faux. Par ailleurs, le fait de demander une réponse courte peut aussi contribuer à la hausse des hallucinations. A noter que le benchmark ne prends pas en compte les modèles dit de raisonnement, où le modèle prends le temps de simuler un processus de pensée avant de répondre. Voici le classement complet :

Modele	Provider	Résistance aux hallucinations
Claude 3.5 Sonnet	Anthropic	91.89%
Claude 3.7 Sonnet	Anthropic	89.26%
Gemini 1.5 Pro	Google	87.86%
Claude 3.5 Haiku	Anthropic	86.97%
GPT-40	OpenAI	83.89%
Mistral Large	Mistral	79.72%
Gemini 2.0 Flash	Google	78.13%
Deepseek V3	Deepseek	77.91%
Deepseek V3 (0324)	Deepseek	77.86%
Mistral Small 3.1 24B	Mistral	77.72%
Grok 2	xAI	77.35%
Qwen 2.5 Max	Alibaba Qwen	77.12%
Llama 4 Maverick	Meta	77.02%
Llama 3.1 405B	Meta	75.54%
Llama 3.3 70B	Meta	73.41%
Gemma 3 27B	Google	69.90%

Quelles solutions pour lutter contre les hallucinations dans le cadre d’automations ?

Cette problématique est majeure dans la mise en place d’automatisation, car contrairement à une question directement posée par un humain, les automatisations sont souvent mises en place de manière programmatique, ce qui implique que les sorties des LLM peuvent ne pas être vérifiés. Une solution consiste à introduire des modules “Human in the loop” (par exemple disponible sur Make ou n8n) qui permettent d’envoyer des notifications à l’utilisateur avant de faire valider un contenu généré par une intelligence artificielle. Par exemple, un cas d’usage particulièrement adapté est une automatisation de la publication d’articles sur les réseaux sociaux, où un module human in the loop permettrait de valider en amont le contenu du post avant une éventuelle publication.

Une autre solution réside dans la façon d’écrire le prompt. En effet, il est judicieux de préciser que l’IA ne doit pas fournir une réponse si elle n’est pas sûr de ce qu’elle avance, et qu’elle doit fournir une justification précise sur les éléments générés.

Lorsque l’IA est utilisée de manière programmatique (API), il est également possible de régler la température du modèle, qui permet de jouer sur la créativité de celui-ci. Pour des usages où la rigueur est de mise, il est conseillé de baisser la température du modèle. Aussi le choix du modèle est important, et un modèle de raisonnement ou agentique est plus enclin à vérifier les informations qu'il retourne grâce à son processus de réflexion préalable.

Quand le modèle doit agir sur des données spécifiques, il peut être pertinent d’inclure un module de génération augmentée par récupération, qui permet d’enrichir le contexte fournis à l’IA, dans le but de fournir une réponse plus précise.

Enfin, l’outil d’automatisation n8n propose un système d’évaluation, permettant de tester la qualité de l’IA dans le contexte d’une automatisation, avec des données variés. Cela permet de confirmer que les données attendues sont produites, et de détecter toute régression lors de la maintenance de l’automatisation contenant le module IA.

Si vous avez besoin d'un accompagnement pour mettre en place un système d'automatisation robuste et fiable, n'hésitez pas à nous contacter pour en discuter. Nous sommes spécialisés dans la création de solutions d'automatisation adaptées à vos besoins.

Hallucinations des IA: le classement et des astuces pour y remédier

IA

Hallucinations

Automatisation

Que sont les hallucinations des modèles d’IA ?

Quelle méthode employée pour classer les LLMs ?

Quels LLMs hallucinent le moins ?

Quelles solutions pour lutter contre les hallucinations dans le cadre d’automations ?

Ces articles pourraient vous intéresser

Quel modèle d’IA choisir en 2025 ? Le match Gemini 2.5 Pro, GPT-4.5, Claude Opus 4

IA

LLM

Optimisation

Nano Banana (Gemini 2.5 Flash Image) : l’IA de Google qui industrialise la production visuelle

IA industrielle

Génération d'images

Automatisation no-code

Technologie visuelle

Comment optimiser un scénario Make efficacement ?

Make

NoCode

Optimisation

Workflows

RPA

Simplifiez l’intégration de l’IA dans vos projets d’applications grâce à OpenRouter

OpenRouter

IA

Automatisation

No-Code

Liens utiles

Solutions

Plateformes