Dans un récent article « Fast Facts » publié dans la revue BMJ, les chercheurs discutent des progrès récents en matière d'intelligence artificielle (IA) générative, de l'importance de la technologie dans le monde d'aujourd'hui et des dangers potentiels qui doivent être abordés avant que les grands modèles de langage (LLM) tels que ChatGPT puissent devenir les sources fiables d'informations factuelles que nous croyez-le.
Faits en bref sur le BMJ : Qualité et sécurité des informations de santé générées par l’intelligence artificielle. Crédit d’image : Le Panda/Shutterstock
Sommaire
Qu’est-ce que l’IA générative ?
« L'intelligence artificielle générative (IA) » est un sous-ensemble de modèles d'IA qui créent du contenu dépendant du contexte (texte, images, audio et vidéo) et constituent la base des modèles de langage naturel qui alimentent les assistants d'IA (Google Assistant, Amazon Alexa et Siri) et des applications de productivité, notamment ChatGPT et Grammarly AI. Cette technologie représente l’un des secteurs du calcul numérique à la croissance la plus rapide et a le potentiel de faire progresser considérablement divers aspects de la société, notamment les soins de santé et la recherche médicale.
Malheureusement, les progrès de l'IA générative, en particulier les grands modèles de langage (LLM) comme ChatGPT, ont largement dépassé les contrôles éthiques et de sécurité, introduisant ainsi un risque de conséquences graves, à la fois accidentelles et délibérées (malveillantes). La recherche estime que plus de 70 % des personnes utilisent Internet comme principale source d’informations sur la santé et les soins médicaux, et que de plus en plus d’individus accèdent chaque jour à des LLM tels que Gemini, ChatGPT et Copilot pour leurs requêtes. Le présent article se concentre sur trois aspects vulnérables de l’IA, à savoir les erreurs d’IA, la désinformation sur la santé et les problèmes de confidentialité. Il met en lumière les efforts de nouvelles disciplines, notamment la sécurité de l’IA et l’IA éthique, pour remédier à ces vulnérabilités.
Erreurs d'IA
Les erreurs dans le traitement des données constituent un défi commun à toutes les technologies d’IA. À mesure que les ensembles de données d’entrée deviennent plus étendus et que les résultats des modèles (texte, audio, images ou vidéo) deviennent plus sophistiqués, les informations erronées ou trompeuses deviennent de plus en plus difficiles à détecter.
« Le phénomène des « hallucinations de l'IA » a pris de l'importance avec l'utilisation généralisée de chatbots d'IA (par exemple, ChatGPT) alimentés par les LLM. Dans le contexte de l'information sur la santé, les hallucinations de l'IA sont particulièrement préoccupantes car les individus peuvent recevoir des informations de santé incorrectes ou trompeuses de la part des LLM. sont présentés comme des faits. »
Pour les profanes incapables de faire la distinction entre des informations factuelles et des informations inexactes, ces erreurs peuvent très rapidement devenir très coûteuses, notamment en cas d'informations médicales erronées. Même les professionnels de la santé qualifiés peuvent souffrir de ces erreurs, compte tenu du nombre croissant de recherches menées à l’aide des LLM et de l’IA générative pour l’analyse des données.
Heureusement, de nombreuses stratégies technologiques visant à atténuer les erreurs de l'IA sont actuellement en cours de développement, la plus prometteuse consiste à développer des modèles d'IA génératifs qui se « fondent » sur des informations provenant de sources crédibles et faisant autorité. Une autre méthode consiste à intégrer « l’incertitude » dans le résultat du modèle d’IA – lors de la présentation d’un résultat. Le modèle présentera également son degré de confiance dans la validité des informations présentées, permettant ainsi à l'utilisateur de référencer des référentiels d'informations crédibles dans des cas de forte incertitude. Certains modèles d'IA générative intègrent déjà des citations dans leurs résultats, encourageant ainsi l'utilisateur à se renseigner davantage avant d'accepter le résultat du modèle à sa valeur nominale.
Désinformation sur la santé
La désinformation se distingue des hallucinations de l’IA dans la mesure où ces dernières sont accidentelles et involontaires, tandis que les premières sont délibérées et malveillantes. Alors que la pratique de la désinformation est aussi ancienne que la société humaine elle-même, l'IA générative présente une plate-forme sans précédent pour la génération d'une « désinformation diversifiée, de haute qualité et ciblée à grande échelle » sans aucun coût financier pour l'acteur malveillant.
« Une option pour prévenir la désinformation sur la santé générée par l'IA implique d'affiner les modèles pour les aligner sur les valeurs et les préférences humaines, notamment en évitant la génération de réponses nuisibles ou de désinformation connues. Une alternative consiste à créer un modèle spécialisé (séparé du modèle d'IA générative) pour détecter les demandes et réponses inappropriées ou nuisibles.
Bien que les deux techniques ci-dessus soient viables dans la guerre contre la désinformation, elles sont expérimentales et fondées sur des modèles. Pour empêcher que des données inexactes n’atteignent le modèle pour traitement, des initiatives telles que les filigranes numériques, conçus pour valider des données exactes et représenter le contenu généré par l’IA, sont actuellement en préparation. Tout aussi important, la création d’agences de vigilance en matière d’IA serait nécessaire avant que l’on puisse faire confiance sans réserve à l’IA en tant que système robuste de diffusion d’informations.
Confidentialité et préjugés
Les données utilisées pour la formation des modèles d'IA générative, en particulier les données médicales, doivent être examinées pour garantir qu'aucune information identifiable n'est incluse, respectant ainsi la vie privée de ses utilisateurs et des patients sur lesquels les modèles ont été formés. Pour les données issues du crowdsourcing, les modèles d’IA incluent généralement des conditions générales de confidentialité. Les participants à l'étude doivent s'assurer qu'ils respectent ces conditions et ne fournissent pas d'informations permettant de remonter au volontaire en question.
Le biais est le risque hérité des modèles d'IA de fausser les données en fonction du matériel source de formation du modèle. La plupart des modèles d’IA sont formés sur de nombreux ensembles de données, généralement obtenus sur Internet.
« Malgré les efforts des développeurs pour atténuer les préjugés, il reste difficile d'identifier et de comprendre pleinement les préjugés des LLM accessibles en raison du manque de transparence sur les données et le processus de formation. En fin de compte, les stratégies visant à minimiser ces risques incluent l'exercice d'une plus grande discrétion dans la sélection. des données de formation, un audit approfondi des résultats de l'IA générative et la prise de mesures correctives pour minimiser les biais identifiés.
Conclusions
Les modèles d'IA générative, dont les plus populaires incluent des LLM tels que ChatGPT, Microsoft Copilot, Gemini AI et Sora, représentent certaines des meilleures améliorations de la productivité humaine de l'ère moderne. Malheureusement, les progrès dans ces domaines ont largement dépassé les contrôles de crédibilité, ce qui entraîne un risque d'erreurs, de désinformation et de biais, ce qui pourrait entraîner de graves conséquences, en particulier en ce qui concerne les soins de santé. Le présent article résume certains des dangers de l’IA générative dans sa forme actuelle et met en évidence les techniques sous-développées pour atténuer ces dangers.