L’IA en médecine : outils révolutionnaires, résultats incertains

L’IA peut-elle vraiment révolutionner les soins de santé ? Une revue systématique révèle les lacunes cachées dans les avantages pour les patients et les obstacles à une intégration clinique significative.

Étude : Avantages et inconvénients associés à l’utilisation de systèmes décisionnels algorithmiques liés à l’IA par les professionnels de la santé : une revue systématique. Crédit d'image : Antonio Marca/Shutterstock

Dans une étude récente publiée dans The Lancet Santé régionale – Europeun groupe de chercheurs a évalué les avantages et les inconvénients des systèmes de prise de décision algorithmique (ADM) liés à l'intelligence artificielle (IA) utilisés par les professionnels de la santé par rapport aux soins standard, en se concentrant sur les résultats pertinents pour les patients.

Sommaire

Arrière-plan

Les progrès de l’IA ont permis aux systèmes de surpasser les experts médicaux dans des tâches telles que le diagnostic, la médecine personnalisée, le suivi des patients et le développement de médicaments. Malgré ces progrès, il reste difficile de savoir si l’amélioration de la précision du diagnostic et des mesures de performance se traduit par des avantages tangibles pour les patients, tels qu’une réduction de la mortalité ou de la morbidité.

Les recherches actuelles donnent souvent la priorité aux performances analytiques plutôt qu’aux résultats cliniques, et de nombreux dispositifs médicaux basés sur l’IA sont approuvés sans preuves appropriées provenant d’essais contrôlés randomisés (ECR).

De plus, le manque de transparence et d’évaluations standardisées des dommages associés à ces technologies soulève des préoccupations éthiques et pratiques. Cela met en évidence une lacune critique dans la recherche et le développement de l’IA, nécessitant des évaluations plus approfondies axées sur les résultats pertinents pour les patients afin de garantir une intégration significative et sûre dans les soins de santé.

À propos de l'étude

Cette revue systématique a suivi les lignes directrices PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) pour garantir la rigueur méthodologique. Des recherches ont été effectuées dans le système d'analyse et de récupération de la littérature médicale en ligne (MEDLINE), la base de données Excerpta Medica (EMBASE), le public/éditeur MEDLINE (PubMed) et l'Institute of Electrical and Electronics Engineers (IEEE) Xplore, couvrant une période de 10 ans. jusqu'au 27 mars 2024, date à laquelle les systèmes ADM liés à l'IA sont devenus pertinents dans les études sur les soins de santé. La recherche comprenait des termes liés à l’IA, à l’apprentissage automatique (ML), aux algorithmes de prise de décision, aux professionnels de la santé et aux résultats pour les patients.

Les études éligibles comprenaient des conceptions interventionnelles ou observationnelles impliquant des systèmes d’aide à la décision par l’IA développés avec ou utilisant le ML. Les études devaient rendre compte des résultats pertinents pour les patients, tels que la mortalité, la morbidité, la durée du séjour à l'hôpital, la réadmission ou la qualité de vie liée à la santé. Les critères d'exclusion comprenaient des études sans pré-enregistrement, dépourvues d'un contrôle de norme de soins ou se concentrant sur la robotique ou d'autres systèmes sans rapport avec la prise de décision basée sur l'IA. Le protocole de cette revue a été pré-enregistré sur le Registre prospectif international des revues systématiques (PROSPERO), avec toutes les modifications documentées.

Les évaluateurs ont examiné les titres, les résumés et les textes intégraux en utilisant des critères prédéfinis. L'extraction des données et l'évaluation de la qualité ont été réalisées de manière indépendante à l'aide de formulaires standardisés. Le risque de biais a été évalué à l'aide de l'outil Cochrane Risk of Bias 2 (RoB 2) et de l'outil Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) pour traiter les facteurs de confusion potentiels, tandis que la transparence des rapports a été évaluée à l'aide des normes consolidées. Extension des essais de reporting – Intelligence artificielle (CONSORT-AI) et reporting transparent d'un modèle de prédiction multivariable pour le pronostic ou le diagnostic individuel – Intelligence artificielle (TRIPOD-AI).

Les données extraites comprenaient les paramètres de l'étude, la conception, les détails de l'intervention et du comparateur, les données démographiques des patients et des professionnels, les caractéristiques de l'algorithme et les mesures des résultats. Les études ont également été classées par type de système d’IA, domaine clinique, objectifs de prédiction et informations réglementaires et de financement. L’analyse a également examiné si les contributions uniques des systèmes d’IA aux résultats étaient isolées et validées.

Résultats de l'étude

La revue systématique comprenait 19 études, comprenant 18 ECR et une étude de cohorte prospective, sélectionnées après avoir examiné 3 000 dossiers. Ces études ont été menées dans diverses régions, dont neuf aux États-Unis, quatre en Europe, trois en Chine et d'autres réparties dans le monde. Les paramètres comprenaient 14 études en milieu hospitalier, trois dans des cliniques externes, une dans une maison de retraite et une dans un environnement mixte.

Les études couvraient une gamme de spécialités médicales, notamment l'oncologie (4 études), la psychiatrie (3 études), la médecine hospitalière interne, la neurologie et l'anesthésiologie (2 études chacune), ainsi que des études uniques en diabétologie, pneumologie, soins intensifs et autres spécialités. .

Le nombre médian de participants dans les études était de 243, avec un âge médian de 59,3 ans. La représentation féminine était en moyenne de 50,5 % et la composition raciale ou ethnique a été rapportée dans 10 études, avec une médiane de 71,4 % de participants blancs. Douze études ont décrit les utilisateurs professionnels de santé prévus, tels que les infirmières responsables ou les prestataires de soins primaires, et neuf protocoles de formation détaillés, allant de brèves introductions à la plateforme à des sessions supervisées de plusieurs jours.

Les systèmes d'IA variaient en type et en fonction, avec sept études utilisant des systèmes de surveillance pour une surveillance en temps réel et des alertes prédictives, six employant des systèmes de personnalisation du traitement et quatre intégrant plusieurs fonctionnalités. Les exemples comprenaient des algorithmes pour le contrôle glycémique du diabète, des soins psychiatriques personnalisés et la surveillance de la thromboembolie veineuse. Les sources de données de développement allaient de grands ensembles de données internes à des données multi-institutionnelles regroupées, avec divers modèles de ML appliqués, tels que l'augmentation de gradient, les réseaux neuronaux, les classificateurs bayésiens et les modèles basés sur la régression. Malgré ces développements, la validation externe des algorithmes était limitée dans la plupart des études, ce qui soulevait des inquiétudes quant à leur généralisabilité à des populations de patients plus larges.

Le risque de biais a été évalué comme faible dans quatre ECR, modéré dans sept et élevé dans sept autres, tandis que l'étude de cohorte a démontré un risque de biais sérieux. La conformité aux directives CONSORT-AI et TRIPOD-AI était variable, trois études atteignant une conformité totale, tandis que d'autres variaient de élevée à faible. La plupart des études menées avant l'introduction de ces lignes directrices ont montré une adhésion modérée, même si les références explicites aux lignes directrices étaient rares.

Les résultats ont mis en évidence un mélange d’avantages et d’inconvénients. Douze études ont rapporté des bénéfices significatifs pour les patients, notamment une réduction de la mortalité, une meilleure gestion de la dépression et de la douleur, ainsi qu'une meilleure qualité de vie. Cependant, seules huit études incluaient des évaluations standardisées des risques, et la plupart n’avaient pas réussi à documenter de manière exhaustive les événements indésirables. Bien que six systèmes d’IA aient reçu les approbations réglementaires, les associations entre le statut réglementaire, la qualité des études et les résultats pour les patients ne sont pas concluantes.

Conclusions

Cette revue systématique souligne la rareté d’études de haute qualité évaluant les résultats pertinents pour les patients des systèmes ADM liés à l’IA dans les soins de santé. Alors que la psychiatrie a constamment montré des bénéfices, d'autres domaines ont donné des résultats mitigés, avec des preuves limitées sur la mortalité, l'anxiété et l'amélioration du séjour à l'hôpital. La plupart des études manquaient d’évaluations équilibrées des bénéfices et des inconvénients et ne parvenaient pas à isoler les contributions uniques de l’IA.

Les résultats mettent en évidence le besoin urgent de rapports transparents, de pratiques de validation robustes et de cadres standardisés pour guider l’intégration sûre et efficace de l’IA dans les milieux cliniques.