Un chatbot IA fournit des recommandations incorrectes sur le traitement du cancer

Dans un article récent publié dans JAMA Oncologieles chercheurs évaluent si les chatbots alimentés par de grands modèles linguistiques (LLM) pilotés par des algorithmes d’intelligence artificielle (IA) pourraient fournir des recommandations précises et fiables en matière de traitement du cancer.

Étude: Utilisation de chatbots d’intelligence artificielle pour les informations sur le traitement du cancer. Crédit d’image : papillon vert/Shutterstock.com

Sommaire

Arrière-plan

Les LLM se sont révélés prometteurs dans le codage des données cliniques et la formulation de recommandations diagnostiques, certains de ces systèmes étant récemment utilisés pour passer, puis réussir, l’examen de licence médicale des États-Unis (USMLE). De même, l’application OpenAI ChatGPT, qui fait partie de la famille de modèles de transformateurs de pré-formation génératifs (CPT), a également été utilisée pour identifier des sujets de recherche potentiels, ainsi que pour informer les médecins, les infirmières et autres professionnels de la santé des développements récents dans leurs domaines respectifs.

Les LLM peuvent également imiter les dialectes humains et fournir des réponses rapides, détaillées et cohérentes aux requêtes. Cependant, dans certains cas, les LLM peuvent fournir des informations moins fiables, ce qui pourrait induire en erreur les personnes qui utilisent souvent l’IA à des fins d’auto-éducation. Bien qu’elle fournisse à ces systèmes des données fiables et de haute qualité, l’IA reste vulnérable aux biais, limitant son applicabilité aux applications médicales.

Les chercheurs prédisent que les utilisateurs généraux pourraient utiliser un chatbot LLM pour demander des conseils médicaux liés au cancer. Ainsi, un chatbot fournissant des informations apparemment correctes mais une réponse erronée ou moins précise liée au diagnostic ou au traitement du cancer pourrait induire la personne en erreur et générer et amplifier des informations erronées.

À propos de l’étude

Dans la présente étude, les chercheurs évaluent les performances d’un chatbot LLM pour fournir des recommandations de traitement du cancer de la prostate, du poumon et du sein, conformément aux directives du National Comprehensive Cancer Network (NCCN).

La date de fin des connaissances du chatbot LLM étant fixée à septembre 2021, ce modèle s’est appuyé sur les lignes directrices du NCCN 2021 pour établir des recommandations de traitement.

Quatre modèles d’invites sans tir ont également été développés et utilisés pour créer quatre variantes de 26 descriptions de diagnostics de cancer, pour un total final de 104 invites. Ces invites ont ensuite été fournies en entrée au GPT-3.5 via l’interface ChatGPT.

L’équipe d’étude comprenait quatre oncologues certifiés, dont trois ont évalué la concordance des résultats du chatbot avec les lignes directrices 2021 du NCCN sur la base de cinq critères de notation développés par les chercheurs. La règle de la majorité a été utilisée pour déterminer le score final.

Le quatrième oncologue a aidé les trois autres à résoudre des désaccords, qui survenaient principalement lorsque le résultat du chatbot LLM n’était pas clair. Par exemple, LLM n’a pas précisé quels traitements combiner pour un type spécifique de cancer.

Résultats de l’étude

Un total de 104 invites uniques notées sur cinq critères de notation ont donné 520 notes, parmi lesquelles les trois annotateurs étaient d’accord sur 322, soit 61,9 % des notes. De plus, le chatbot LLM a fourni au moins une recommandation pour 98 % des invites.

Toutes les réponses avec une recommandation de traitement comprenaient au minimum un traitement concordant au NCCN. De plus, 35 des 102 résultats recommandaient un ou plusieurs traitements non concordants. Dans 34,6 % des descriptions de diagnostics de cancer, les quatre modèles d’invite ont reçu les mêmes scores sur les cinq critères de score.

Plus de 12 % des réponses des chatbots n’étaient pas considérées comme des traitements recommandés par le NCCI. Ces réponses, décrites comme des « hallucinations » par les chercheurs, étaient principalement l’immunothérapie, le traitement localisé d’une maladie avancée ou d’autres thérapies ciblées.

Les recommandations du chatbot LLM variaient également selon la façon dont les chercheurs formulaient leurs questions. Dans certains cas, le chatbot a produit des résultats peu clairs, ce qui a conduit à des désaccords entre trois annotateurs.

D’autres désaccords sont survenus en raison d’interprétations différentes des lignes directrices du NCCN. Néanmoins, ces accords ont mis en évidence la difficulté d’interpréter de manière fiable les résultats du LLM, en particulier les résultats descriptifs.

Conclusions

Le chatbot LLM évalué dans cette étude mélangeait des recommandations incorrectes en matière de traitement du cancer avec des recommandations correctes, que même les experts n’ont pas réussi à détecter ces erreurs. En conséquence, 33,33 % de ses recommandations de traitement étaient au moins partiellement non conformes aux directives du NCCN.

Les résultats de l’étude démontrent que le chatbot LLM était associé à des performances inférieures à la moyenne pour fournir des recommandations fiables et précises en matière de traitement du cancer.

En raison de l’utilisation de plus en plus répandue de l’IA, il est crucial pour les prestataires de soins de santé d’informer correctement leurs patients sur la désinformation potentielle que cette technologie peut fournir. Ces résultats soulignent également l’importance des réglementations fédérales sur l’IA et d’autres technologies susceptibles de nuire au grand public en raison de leurs limites inhérentes et de leur utilisation inappropriée.