Les LLM montrent leur potentiel en tant qu'aides aux cliniciens lors des examens physiques

Les examens physiques sont des outils de diagnostic importants qui peuvent révéler des informations essentielles sur la santé d'un patient, mais des conditions complexes peuvent être négligées si un clinicien manque de formation spécialisée dans ce domaine. Alors que des recherches antérieures ont étudié l'utilisation de grands modèles de langage (LLM) comme outils d'aide à l'établissement de diagnostics, leur utilisation dans les examens physiques reste inexploitée. Pour combler cette lacune, les chercheurs du Mass General Brigham ont incité le LLM GPT-4 à recommander des instructions d'examen physique basées sur les symptômes du patient. L'étude suggère le potentiel d'utiliser les LLM comme aides pour les cliniciens lors des examens physiques. Les résultats sont publiés dans le Journal de l'intelligence artificielle médicale.

Les professionnels de la santé au début de leur carrière peuvent être confrontés à des difficultés pour réaliser un examen physique adapté au patient en raison de leur expérience limitée ou d’autres facteurs dépendants du contexte, tels que des environnements dotés de ressources limitées. Les LLM ont le potentiel de servir de pont et de soutenir parallèlement les médecins et autres professionnels de la santé avec des techniques d'examen physique et d'améliorer leurs capacités de diagnostic au point de service.

Marc D. Succi, MD, auteur principal, responsable de l'innovation stratégique chez Mass General Brigham Innovation, président associé de l'innovation et de la commercialisation pour la radiologie d'entreprise et directeur exécutif de l'incubateur Medically Engineered Solutions in Healthcare (MESH) chez Mass General Brigham

Succi et ses collègues ont incité GPT-4 à recommander des instructions d'examen physique basées sur le principal symptôme du patient, par exemple une hanche douloureuse. Les réponses de GPT-4 ont ensuite été évaluées par trois médecins traitants sur une échelle de 1 à 5 points basée sur l'exactitude, l'exhaustivité, la lisibilité et la qualité globale. Ils ont constaté que GPT-4 fonctionnait bien dans la fourniture d’instructions, obtenant au moins 80 % des points possibles. Le score le plus élevé était pour « Douleur aux jambes à l'effort » et le plus bas était pour « Douleur abdominale inférieure ».

« GPT-4 a bien fonctionné à bien des égards, mais son imprécision ou ses omissions occasionnelles dans des domaines critiques, comme la spécificité du diagnostic, nous rappellent la nécessité du jugement du médecin pour garantir des soins complets aux patients », a déclaré l'auteur principal Arya Rao, étudiante-chercheuse à l'Université de Toronto. Incubateur MESH fréquentant la Harvard Medical School.

Bien que GPT-4 fournisse des réponses détaillées, les chercheurs ont constaté qu’il omettait parfois des instructions clés ou était trop vague, indiquant la nécessité d’un évaluateur humain. Selon les chercheurs, les solides performances du LLM suggèrent son potentiel en tant qu'outil permettant de combler les lacunes des connaissances des médecins et de faciliter le diagnostic des problèmes médicaux à l'avenir.