Les grands modèles de langage montrent des performances incohérentes en matière de conseils médicaux
En un coup d'œil
- Une étude dirigée par Oxford a trouvé que les LLM donnent des conseils médicaux incohérents
- Les participants utilisant des LLM n'ont pas surpassé les méthodes traditionnelles
- D'autres études rapportent des réponses de chatbot dangereuses ou inexactes
Des recherches récentes ont évalué comment les grands modèles de langage (LLM) se comportent lorsqu'ils assistent le public dans la prise de décisions médicales. Plusieurs études ont examiné la fiabilité et la sécurité des chatbots IA dans la fourniture de conseils liés à la santé.
Une étude publiée dans Nature Medicine le 10 février 2026, dirigée par l'Oxford Internet Institute et le Nuffield Department of Primary Care Health Sciences de l'Université d'Oxford, a évalué l'utilisation des LLM dans des scénarios de santé publique. La recherche a été menée en partenariat avec MLCommons et d'autres organisations et s'est concentrée sur l'exactitude et la cohérence des conseils médicaux fournis par ces modèles.
L'étude d'Oxford a impliqué un essai randomisé avec près de 1 300 participants. Les individus ont été invités à utiliser des LLM pour évaluer des scénarios médicaux et déterminer des actions telles que visiter un médecin généraliste ou se rendre à l'hôpital. L'étude a comparé les décisions prises par les utilisateurs de LLM à celles s'appuyant sur des ressources traditionnelles telles que des recherches en ligne ou un jugement personnel.
Les résultats de l'essai ont indiqué que les participants utilisant des LLM ne prenaient pas de meilleures décisions que ceux utilisant des méthodes traditionnelles. L'étude a également identifié plusieurs défis, notamment l'incertitude des utilisateurs quant aux informations à fournir, des réponses incohérentes des LLM à des questions similaires, et des réponses qui combinaient à la fois des recommandations utiles et inutiles, rendant difficile l'identification des conseils les plus sûrs.
Ce que les chiffres montrent
- L'étude d'Oxford a inclus près de 1 300 participants dans un essai randomisé
- Une étude de red-teaming a trouvé des taux de réponses de chatbot dangereuses allant de 5 % à 13 %
- Les réponses problématiques des chatbots variaient de 21,6 % à 43,2 % dans une étude séparée
Des recherches supplémentaires publiées sur arXiv en juillet 2025 ont évalué quatre chatbots disponibles publiquement—Claude, Gemini, GPT-4o, et Llama3-70B—en utilisant 222 questions médicales posées par des patients. Cette étude a rapporté des réponses dangereuses dans 5 % à 13 % des cas, avec des réponses problématiques survenant dans 21,6 % à 43,2 % des instances.
Une autre étude de Mount Sinai, publiée en août 2025 dans Communications Medicine, a examiné comment les chatbots IA gèrent les informations médicales fausses intégrées dans les invites des utilisateurs. Les chercheurs ont découvert que les chatbots pouvaient répéter et développer des informations incorrectes, mais l'introduction d'une brève invite d'avertissement réduisait ces erreurs.
Une revue systématique de 137 études jusqu'en octobre 2023, publiée dans JAMA Network Open, a révélé que la plupart des recherches se concentraient sur des LLM à code fermé et utilisaient des mesures de performance subjectives. Moins d'un tiers des études abordaient des questions éthiques, réglementaires ou de sécurité des patients.
Des recherches publiées en novembre 2023 ont évalué les réponses des chatbots IA aux questions de soins d'urgence et ont trouvé des inexactitudes fréquentes et des conseils incomplets, y compris des informations potentiellement dangereuses. Les auteurs ont recommandé des recherches supplémentaires, un perfectionnement et une réglementation de ces systèmes.
Des chercheurs du MIT ont également étudié comment des éléments non cliniques dans les messages des patients, tels que des erreurs typographiques ou un langage informel, peuvent induire les LLM en erreur et les amener à fournir des conseils médicaux incorrects. Dans certains cas, ces facteurs ont conduit les chatbots à suggérer des soins personnels pour des conditions graves.
* Cet article est basé sur des informations publiquement disponibles au moment de la rédaction.
Sources et pour aller plus loin
- [2507.18905] Large language models provide unsafe answers to patient-posed medical questions
- Jamanetwork
- New study warns of risks in AI chatbots giving medical advice | University of Oxford
- Research: AI Chatbots Spread Medical Misinformation | Mirage News
- Accuracy of Prospective Assessments of 4 Large Language Model Chatbot Responses to Patient Questions About Emergency Care: Experimental Comparative Study - PubMed
Note: Les sources sont en anglais, donc certains liens peuvent être en anglais | Cette section n'est pas fournie dans les flux.
Plus sur Santé
-
Le passage à faune Wallis Annenberg vise à relier les habitats montagneux
La construction du passage à faune Wallis Annenberg a commencé en avril 2022, visant à connecter les collines de Simi et les montagnes de Santa Monica d'ici l'automne 2026.
-
Takeda et Iambic signent une collaboration pluriannuelle pour la découverte de médicaments
Un accord pluriannuel se concentre sur les programmes de médicaments en oncologie et en gastro-entérologie, selon des rapports. Iambic pourrait recevoir plus de 1,7 milliard de dollars.
-
L'utilisation des chatbots IA dans le secteur de la santé soulève des préoccupations en matière de sécurité et de confiance
ECRI a identifié l'utilisation abusive des chatbots IA comme le principal danger technologique de la santé pour 2026, avec des taux de réponse non sécurisés variant entre 5 % et 13 %, selon les rapports.