L’intelligence artificielle (IA) a des applications pratiquement illimitées dans le domaine de la santé, allant de la rédaction automatique de messages aux patients dans MyChart à l’optimisation de la transplantation d’organes et à l’amélioration de la précision de l’ablation des tumeurs. Malgré leur potentiel avantage pour les médecins et les patients, ces outils ont été accueillis avec scepticisme en raison des préoccupations liées à la confidentialité des patients, à la possibilité de biais et à la précision des appareils.
En réponse à l’évolution rapide de l’utilisation et de l’approbation des dispositifs médicaux d’IA dans les soins de santé, une équipe multi-institutionnelle de chercheurs de la faculté de médecine de l’UNC, de l’université Duke, d’Ally Bank, de l’université d’Oxford, de l’université Colombia et de l’université de Miami s’est donné pour mission de renforcer la confiance du public et d’évaluer comment exactement l’IA et les technologies algorithmiques sont approuvées pour une utilisation dans les soins aux patients.
Ensemble, Sammy Chouffani El Fassi, candidat en médecine à la faculté de médecine de l'UNC et chercheur au Duke Heart Center, et Gail E. Henderson, PhD, professeur au département de médecine sociale de l'UNC, ont mené une analyse approfondie des données de validation clinique de plus de 500 dispositifs d'IA médicale, révélant qu'environ la moitié des outils autorisés par la Food and Drug Administration (FDA) des États-Unis manquaient de données de validation clinique. Leurs conclusions ont été publiées dans Médecine naturelle.
Bien que les fabricants d'appareils d'intelligence artificielle se vantent de la crédibilité de leur technologie auprès de la FDA, l'autorisation ne signifie pas que les appareils ont été correctement évalués quant à leur efficacité clinique à l'aide de données réelles de patients. Grâce à ces résultats, nous espérons encourager la FDA et l'industrie à renforcer la crédibilité de l'autorisation des appareils en menant des études de validation clinique sur ces technologies et en rendant les résultats de ces études accessibles au public.
Chouffani El Fassi, premier auteur de l'article
Depuis 2016, le nombre moyen d’autorisations de dispositifs médicaux d’IA par la FDA par an est passé de 2 à 69, ce qui indique une croissance considérable de la commercialisation des technologies médicales d’IA. La majorité des technologies médicales d’IA approuvées sont utilisées pour aider les médecins à diagnostiquer des anomalies dans l’imagerie radiologique, l’analyse des lames pathologiques, le dosage des médicaments et la prédiction de la progression des maladies.
L'intelligence artificielle est capable d'apprendre et d'exécuter des fonctions de type humain en utilisant des combinaisons d'algorithmes. La technologie reçoit ensuite une pléthore de données et d'ensembles de règles à suivre, afin qu'elle puisse « apprendre » à détecter facilement des modèles et des relations. À partir de là, les fabricants d'appareils doivent s'assurer que la technologie ne se contente pas de mémoriser les données précédemment utilisées pour entraîner l'IA, et qu'elle peut produire des résultats précis en utilisant des solutions inédites.
Réglementation dans un contexte de prolifération rapide des dispositifs médicaux IA
Suite à la prolifération rapide de ces dispositifs et demandes auprès de la FDA, Chouffani El Fassi et Henderson et al. se sont demandés dans quelle mesure les dispositifs autorisés étaient cliniquement efficaces et sûrs. Leur équipe a analysé toutes les soumissions disponibles dans la base de données officielle de la FDA, intitulée « Dispositifs médicaux basés sur l'intelligence artificielle et l'apprentissage automatique (IA/ML) ».
« De nombreux appareils sortis après 2016 étaient de nouveaux produits, ou étaient peut-être similaires à un produit déjà sur le marché », a déclaré Henderson. « En utilisant ces centaines d'appareils dans cette base de données, nous avons voulu déterminer ce que cela signifie réellement pour un appareil médical d'IA d'être autorisé par la FDA. »
Sur les 521 autorisations de dispositifs, 144 ont été étiquetées comme « validées rétrospectivement », 148 « validées prospectivement » et 22 ont été validées à l'aide d'essais contrôlés randomisés. Plus particulièrement, 226 des 521 dispositifs médicaux approuvés par la FDA, soit environ 43 %, ne comportaient pas de données de validation clinique publiées. Quelques-uns des dispositifs utilisaient des « images fantômes » ou des images générées par ordinateur qui ne provenaient pas d'un vrai patient, ce qui ne répondait pas techniquement aux exigences de validation clinique.
En outre, les chercheurs ont constaté que le dernier projet de lignes directrices, publié par la FDA en septembre 2023, ne fait pas clairement la distinction entre les différents types d’études de validation clinique dans ses recommandations aux fabricants.
Types de validation clinique et nouvelle norme
Dans le domaine de la validation clinique, il existe trois méthodes différentes par lesquelles les chercheurs et les fabricants d’appareils valident l’exactitude de leurs technologies : la validation rétrospective, la validation prospective et un sous-ensemble de validation prospective appelé essais contrôlés randomisés.
La validation rétrospective consiste à alimenter le modèle d’IA avec des données d’images du passé, telles que des radiographies thoraciques de patients prises avant la pandémie de COVID-19. La validation prospective, en revanche, produit généralement des preuves scientifiques plus solides, car le dispositif d’IA est validé sur la base de données en temps réel provenant de patients. Selon les chercheurs, cette méthode est plus réaliste, car elle permet à l’IA de prendre en compte des variables de données qui n’existaient pas au moment de son apprentissage, telles que les radiographies thoraciques de patients qui ont été affectées par des virus pendant la pandémie de COVID.
Les essais contrôlés randomisés sont considérés comme la référence absolue en matière de validation clinique. Ce type d’étude prospective utilise des contrôles d’assignation aléatoire pour les variables de confusion qui différencieraient les groupes expérimentaux et témoins, isolant ainsi l’effet thérapeutique du dispositif. Par exemple, les chercheurs pourraient évaluer les performances du dispositif en assignant aléatoirement des patients à un radiologue (groupe témoin) ou à un IA (groupe expérimental) pour lire leurs tomodensitogrammes.
Étant donné que les études rétrospectives, les études prospectives et les essais contrôlés randomisés produisent différents niveaux de preuves scientifiques, les chercheurs impliqués dans l’étude recommandent à la FDA et aux fabricants de dispositifs de faire clairement la distinction entre les différents types d’études de validation clinique dans leurs recommandations aux fabricants.
Dans leur Médecine naturelle publication, Chouffani El Fassi et Henderson et al. présentent des définitions pour les méthodes de validation clinique qui peuvent être utilisées comme norme dans le domaine de l'IA médicale.
« Nous avons partagé nos conclusions avec les directeurs de la FDA qui supervisent la réglementation des dispositifs médicaux, et nous espérons que nos travaux éclaireront leur prise de décision réglementaire », a déclaré Chouffani El Fassi. « Nous espérons également que notre publication incitera les chercheurs et les universités du monde entier à mener des études de validation clinique sur l'IA médicale afin d'améliorer la sécurité et l'efficacité de ces technologies. Nous attendons avec impatience l'impact positif que ce projet aura sur les soins aux patients à grande échelle. »
Les algorithmes peuvent sauver des vies
Chouffani El Fassi travaille actuellement avec les chirurgiens cardiothoraciques de l'UNC Aurelie Merlo et Benjamin Haithcock ainsi qu'avec l'équipe de direction de l'UNC Health pour mettre en œuvre un algorithme dans leur système de dossiers médicaux électroniques qui automatise le processus d'évaluation et d'orientation des donneurs d'organes.
Contrairement à la production rapide d’appareils d’intelligence artificielle, la médecine manque d’algorithmes de base, comme des logiciels informatiques permettant de diagnostiquer les patients à partir de simples valeurs de laboratoire dans les dossiers médicaux électroniques. Chouffani El Fassi explique que cela est dû au fait que la mise en œuvre est souvent coûteuse et nécessite des équipes interdisciplinaires qui ont une expertise à la fois en médecine et en informatique.
Malgré le défi, UNC Health a pour mission d’améliorer l’espace de transplantation d’organes.
« Trouver un donneur d’organes potentiel, évaluer ses organes, puis faire intervenir l’organisme chargé de l’approvisionnement en organes pour coordonner la transplantation est un processus long et compliqué », a déclaré Chouffani El Fassi. « Si cet algorithme informatique très basique fonctionne, nous pourrions optimiser le processus de don d’organes. Un seul donneur supplémentaire signifie plusieurs vies sauvées. Avec un seuil de réussite aussi bas, nous espérons offrir à davantage de personnes une seconde chance de vivre. »