Cette revue évalue la capacité de l'IA à évaluer la santé des embryons en analysant des images pour prédire les conditions chromosomiques sans méthodes invasives, offrant ainsi des avancées potentielles dans le dépistage non invasif de la FIV.
Étude: Prédiction non invasive de la ploïdie embryonnaire humaine à l'aide de l'intelligence artificielle : une revue systématique et une méta-analyse. Crédit d’image : Krakenimages.com/Shutterstock.com
Dans une étude récente publiée dans eMédecineCliniqueles chercheurs évaluent l'efficacité des algorithmes d'intelligence artificielle (IA) pour prédire de manière non invasive la ploïdie embryonnaire à partir d'images embryonnaires.
Sommaire
Comment détecte-t-on l’aneuploïdie embryonnaire ?
L'aneuploïdie embryonnaire est définie comme un nombre anormal de chromosomes qui est l'une des principales causes d'échec d'implantation, de fausses couches et d'anomalies congénitales.
Dans in vitro Lors de la fécondation FIV, les taux d'aneuploïdie varient de 25 à 40 % chez les embryons à un stade précoce, leur prévalence augmentant avec l'âge de la mère. Bien que le test génétique préimplantatoire pour l'aneuploïdie (PGT-A), une technique basée sur la biopsie, améliore les résultats de la FIV en déterminant la ploïdie embryonnaire, il est coûteux, invasif et limité par des limitations éthiques et juridiques, limitant ainsi son accessibilité.
L’IA, grâce à l’apprentissage automatique et aux modèles d’apprentissage profond, a montré son potentiel pour prédire avec précision la ploïdie embryonnaire. Cependant, des recherches supplémentaires sont nécessaires pour améliorer la fiabilité prédictive et l’applicabilité clinique de ces méthodes.
À propos de l'étude
L'étude actuelle a été enregistrée auprès du Registre prospectif international des revues systématiques (PROSPERO), suivie des éléments de rapport préférés pour les revues systématiques et les méta-analyses (PRISMA) et de l'évaluation critique et de l'extraction de données pour les revues systématiques des études de modélisation de prédiction (CHARMS).
Des recherches documentaires approfondies ont été menées dans l'éditeur Medline (PubMed), le Medical Literature Analysis and Retrieval System Online (MEDLINE), la base de données Excerpta Medica (Embase), l'Institute of Electrical and Electronics Engineers (IEEE), SCOPUS, Web of Science et Cochrane Central. Enregistrez des bases de données. Cette recherche a identifié des études sur les algorithmes d’IA développés pour évaluer la ploïdie embryonnaire humaine à partir de l’imagerie médicale.
La stratégie de recherche comprenait des termes pour l’IA, les tests génétiques et les anomalies chromosomiques. Les études publiées jusqu’au 10 août 2024 étaient éligibles si elles rapportaient des résultats diagnostiques tels que la sensibilité, la spécificité et les valeurs prédictives ou si elles contenaient des données de contingence 2×2 pertinentes.
Les articles ont été examinés par deux évaluateurs indépendants, avec récupération du texte intégral et consultation d'un troisième évaluateur en cas de divergence. Les études dépourvues de modèles d’IA ou celles utilisant des échantillons non humains, des doublons et divers types de publications, tels que des éditoriaux, ont été exclues de l’analyse.
Deux examinateurs ont systématiquement extrait les données à l'aide d'un formulaire standardisé pour garantir leur exactitude. Les paramètres de diagnostic tels que la sensibilité et la spécificité ont été calculés à partir de tableaux de contingence lorsqu'ils étaient disponibles.
L'évaluation de la qualité a été réalisée à l'aide des critères d'évaluation de la qualité des études d'exactitude du diagnostic pour l'intelligence artificielle (QUADAS-AI), et les biais potentiels et l'applicabilité ont été évalués, les différences éventuelles étant résolues par un troisième examinateur. Les mesures des critères de jugement principaux, notamment la sensibilité (Se), la spécificité (Sp) et l'aire sous la courbe (AUC), ont été analysées au moyen de courbes caractéristiques de fonctionnement du récepteur récapitulatives hiérarchiques et d'un modèle bivarié à effets aléatoires.
L'hétérogénéité a été explorée par méta-régression, avec des facteurs tels que le type d'algorithme et l'emplacement géographique évalués. Le tracé en entonnoir de Deek a évalué le biais de publication, tandis que les analyses de sous-groupes ont identifié des sources d'hétérogénéité supplémentaires, telles que le type de modèle d'IA, la méthode d'annotation et le risque de biais.
Résultats de l'étude
La recherche initiale a donné 4 774 enregistrements, dont 1 543 doublons ont été supprimés. Les titres et résumés de sélection ont exclu 2 837 études, laissant 65 études pour l’examen du texte intégral.
Au final, 20 études répondaient aux critères d'inclusion, dont 12 fournissaient suffisamment de données pour la méta-analyse. Seize de ces études étaient rétrospectives, deux étaient prospectives avec une évaluation en double aveugle du modèle d'IA et deux ne précisaient pas le plan de recherche. Aucune des études n'utilisait d'images en libre accès, alors que huit études excluaient les images de mauvaise qualité et douze n'abordaient pas ce facteur.
Une validation externe avec des ensembles de données hors échantillon a été réalisée dans sept études. Dix études ont utilisé l'apprentissage profond (DL), cinq ont utilisé l'apprentissage automatique (ML) et cinq ont utilisé les deux méthodes.
Les systèmes d’aide à la décision (DSS) basés sur l’IA ont été classés en catégories de boîtes noires, mates et en verre dans quatre, cinq et cinq études, respectivement. Quatre études utilisaient soit des modèles de boîte noire, soit des modèles de boîte mate, tandis que deux utilisaient soit une boîte mate, soit une boîte en verre.
Les performances diagnostiques regroupées des algorithmes d’IA ont montré un Se de 0,67, une Sp de 0,58 et une AUC de 0,67. La sélection des tableaux de contingence les plus précis dans les études a amélioré Se et Sp à 0,71 et 0,75, respectivement, avec une AUC de 0,80. L'analyse de l'utilité clinique au moyen d'un nomogramme de Fagan a déterminé une valeur prédictive positive de 71 % et une valeur prédictive négative de 75 %, en supposant une prévalence de 46 % d'embryons euploïdes.
La qualité des études a été évaluée à l'aide de l'outil QUADAS-AI, qui a indiqué un risque de biais élevé ou incertain dans la sélection des patients pour 19 études, principalement en raison de données open source limitées et du manque de validation externe rigoureuse. L'analyse d'hétérogénéité a révélé une variabilité significative, avec un indice d'incohérence (I²) de 97,7 % pour Se et de 92,2 % pour Sp. Un effet de seuil a contribué à cette hétérogénéité, avec des variations dans les valeurs seuils de diagnostic pour les embryons euploïdes.
La méta-régression a identifié des facteurs influençant l'hétérogénéité, notamment le type d'algorithme d'IA, la catégorie DSS, la méthode d'annotation, la validation externe, le risque de biais, l'âge de la mère, la taille de l'échantillon et l'année de publication. Se et Sp étaient corrélés négativement, ce qui est fréquemment observé dans les études sur l'exactitude du diagnostic. Le tracé en entonnoir de Deek n'a montré aucune preuve de biais de publication.
Les analyses de sous-groupes ont indiqué que les modèles DL avaient une AUC plus élevée que les modèles ML, à 0,71 et 0,63, respectivement. Les études intégrant à la fois des images et des données cliniques ont montré des performances améliorées, avec une ASC de 0,71 contre 0,62.
La validation externe, le risque de biais plus faible, l'inclusion de l'âge de la mère et la taille plus grande des échantillons ont eu un impact positif sur les résultats du modèle. Des études plus récentes ont également été associées à une spécificité et une AUC plus élevées, démontrant ainsi des améliorations de la précision du modèle d’IA au fil du temps.
Conclusions
Bien que le PGT-A soit largement utilisé pour améliorer l’issue de la grossesse en détectant des anomalies chromosomiques, son caractère invasif augmente le risque de certaines complications, notamment la prééclampsie et le placenta praevia, avec des avantages limités sur les taux de grossesse ou de naissances vivantes. Il est donc crucial de développer des méthodes de prédiction de la ploïdie fiables et non invasives.
L’IA, qui est déjà appliquée dans divers domaines cliniques, a le potentiel de soutenir l’évaluation des embryons dans le cadre de la procréation assistée. Cependant, les modèles d’IA existants pour la prévision de la ploïdie n’ont pas la précision requise pour remplacer le PGT-A et devraient servir d’outils de support pour la sélection des embryons.