*Avis important: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.
Dans une récente étude publiée sur medRxiv* serveur de préimpression, des chercheurs australiens, finlandais et néo-zélandais ont examiné le succès translationnel des modèles d’intelligence artificielle (IA) dans les soins de santé, en particulier ceux utilisés dans les études sur la maladie à coronavirus 2019 (COVID-19).
Étude: Application d’un cadre d’évaluation complet aux études sur la maladie à coronavirus 19 : une revue systématique des aspects translationnels de l’intelligence artificielle dans les soins de santé. Crédit d’image : sdecoret / Shutterstock.com
Sommaire
Arrière-plan
Bien que certaines applications d’IA soient en cours d’essais cliniques pour déterminer leur intégration potentielle dans les systèmes d’information médicale, il reste un manque d’études démontrant leur capacité à améliorer les résultats cliniques. Cependant, des études ont démontré la supériorité de l’IA dans des contextes expérimentaux ou pilotes. En raison des performances réduites de ces applications d’IA sur la validation externe et de la faible acceptation par les cliniciens, les flux de travail cliniques existants n’ont pas encore initié leur intégration.
À propos de l’étude
Dans la présente étude, les chercheurs évaluent les modèles d’IA COVID-19 développés entre décembre 2019 et 2020 à l’aide de l’évaluation translationnelle de l’IA des soins de santé (TEHAI), un cadre d’évaluation complet pour les évaluations de la valeur translationnelle des modèles d’IA.
TEHAI évalue l’adoption, la capacité inhérente et l’utilité des études scientifiques pour se concentrer sur les statistiques de ses 15 sous-composantes. Ce cadre formalisé piloté par des experts atténue la subjectivité d’un individu et la remplace par le pouvoir consensuel de plusieurs examinateurs. Chaque critère de ce cadre a donné un score entre zéro et trois points, selon la qualité de l’étude.
Cette revue systématique a utilisé la plateforme logicielle Covidence. Alors que neuf examinateurs indépendants ont évalué la littérature scientifique pour sa valeur translationnelle, les deux autres ont recueilli des données descriptives de chaque étude. Un troisième examinateur a comparé les scores d’évaluation et extrait les données de toutes les études pour résoudre les divergences, le cas échéant.
Le test exact de Fisher a été utilisé pour évaluer les associations entre les regroupements d’articles scientifiques et les distributions des scores des sous-composantes. Enfin, la formule de Kendall a été utilisée pour calculer les associations entre les 15 sous-composantes.
Résultats
Le dépistage couvrant une période d’un an a produit plus de 3 000 études éligibles, suggérant ainsi une activité élevée dans ce domaine. Cependant, seules 102 études ont produit les résultats attendus.
La plupart des études ont obtenu des résultats remarquables dans la composante des capacités, mais n’ont pas obtenu de notes élevées dans les composantes de l’utilité et de l’adoption des services du cadre TEHAI.
La plupart des études ont obtenu des scores élevés pour la capacité technique, mais des scores faibles en termes de traduisibilité clinique. Cependant, la plupart des études ont également échoué sur des paramètres liés à l’IA, tels que l’éthique, la sécurité, la validation de modèles externes et la qualité de l’intégration avec les systèmes médicaux.
Soixante-neuf des 102 études étaient liées à l’analyse de l’imagerie médicale, avec un réseau neuronal convolutif comme mode d’apprentissage automatique le plus populaire. Ce résultat était anticipé, car les techniques d’imagerie sont maintenant largement comprises et sont facilement appliquées dans des contextes cliniques réels. Cependant, les études sans imagerie ont obtenu des scores plus élevés dans les sous-composantes d’adoption et d’utilité.
Étonnamment, les études avec de grands ensembles de données n’ont pas progressé dans les domaines de l’utilité ou de l’adoption. Cela était également attendu, car le nombre d’études à analyser augmenterait, les différences entre les petits et les grands ensembles de données deviendraient également significatives.
Seules quelques études indépendantes ont testé les affirmations selon lesquelles les modèles d’IA identifient des résultats plus précis et spécifiques en temps réel que les experts humains. Ainsi, malgré leur potentiel, les modèles d’IA sont généralement inadaptés à la traduction clinique et, s’ils sont déployés prématurément, ils pourraient entraîner des résultats indésirables. Certains effets indésirables pourraient inclure un stress accru sur le système de santé et les patients soumis à des procédures invasives redondantes, ce qui pourrait entraîner des décès dus à des diagnostics erronés.
La plupart des études nécessitaient des considérations plus adéquates pour le domaine d’adoption des services du cadre TEHAI, qui était associé aux applications réelles des modèles basés sur l’IA dans l’industrie médicale. Par conséquent, davantage de données pilotes provenant de tests réels sur de nouveaux outils basés sur l’IA sont nécessaires pour ajuster le coût d’une mauvaise classification et d’un déploiement du point de vue de la sécurité des patients. Il y a aussi un besoin urgent de comptabilisation préliminaire des besoins en matière de charge de travail.
conclusion
La présente revue a évalué 102 études sur l’IA COVID-19 pour démontrer une lacune notable dans la plupart des études qui pourrait avoir un impact négatif sur leur traduction clinique. Ces résultats soulignent l’importance de relever le défi de la traduisibilité de l’IA dans le domaine des systèmes d’information médicale.
Les chercheurs devraient également introduire des interventions appropriées au début du cycle de développement de l’IA pour améliorer la traduisibilité. À cet égard, le cadre d’évaluation TEHAI pourrait être bénéfique. De plus, les résultats de son application pourraient informer toutes les parties prenantes, y compris les développeurs, les chercheurs et les cliniciens, pour déployer des modèles d’IA plus traduisibles dans les soins de santé.
*Avis important: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.