Dans une étude récente publiée dans NEJM AI, les chercheurs ont développé le modèle MARRVEL (Model Organism Aggregated Resources for Rare Variant Exploration) basé sur l’intelligence artificielle (IA) pour sélectionner les gènes causals et leurs mutations pour les maladies mendéliennes en fonction des caractéristiques cliniques et des séquences génétiques.
Étude : AI-MARRVEL — Un système d'IA basé sur la connaissance pour diagnostiquer les troubles mendéliens. Crédit d’image : Antiv/Shutterstock.com
Arrière-plan
Des millions d’individus dans le monde naissent avec des maladies génétiques, généralement des maladies mendéliennes causées par des mutations d’un seul gène. L’identification de ces mutations demande des efforts et nécessite une expertise importante.
Des procédures complètes, systématiques et efficaces pourraient augmenter la vitesse et la précision du diagnostic. L’IA a montré son potentiel mais n’a eu qu’un succès médiocre en matière de diagnostic primaire.
La réévaluation basée sur la bioinformatique est moins coûteuse mais a une précision limitée, ce qui rend fastidieuse la priorisation des variations non codantes et nécessite l'utilisation de données de simulation.
À propos de l'étude
Dans la présente étude, les chercheurs introduisent le modèle basé sur la connaissance MARRVEL AI (AIM) pour identifier les maladies mendéliennes.
AIM est un classificateur d'apprentissage automatique qui combine plus de 3,5 millions de variations provenant de milliers de cas identifiés et de variables conçues par des experts pour améliorer le diagnostic moléculaire. L’équipe a comparé AIM aux patients de trois cohortes et a développé un score de confiance pour trouver des instances diagnosticables dans des pools non résolus.
Ils ont formé AIM sur des échantillons de haute qualité et des fonctionnalités développées par des experts. Ils ont testé le modèle sur trois ensembles de données de patients pour diverses applications telles que le diagnostic dominant, récessif, triple, l'identification de nouveaux gènes de maladie et la réévaluation à grande échelle.
Les chercheurs ont collecté des mots-clés et des séquences d'exomes de l'ontologie du phénotype humain (HPO) auprès de trois groupes de patients : DiagLab, le réseau des maladies non diagnostiquées (UDN) et le projet Deciphering Developmental Disorders (DDD). Ils ont divisé les données DiagLab en ensembles de données de formation et de test et ont testé DDD et UDN séparément.
Ils ont guidé l'AIM par une ingénierie de caractéristiques basée sur la connaissance, qui a utilisé l'expertise clinique et les principes génétiques pour sélectionner 56 caractéristiques brutes telles que la fréquence allélique mineure, la base de données sur les maladies, la conservation évolutive, l'impact des variantes, l'appariement des phénotypes, le modèle d'héritage, les scores d'estimation de la pathogénicité des variantes, la contrainte génétique. , la qualité du séquençage et la prédiction de l'épissage.
L'équipe a créé six modules pour la prise de décision en matière de diagnostic génétique, résultant en 47 caractéristiques supplémentaires. Ils ont utilisé des classificateurs de forêts aléatoires comme principal algorithme d’IA et ont consulté des publications d’analyse comparative et les plus performants.
Ils ont utilisé des caractéristiques telles que SpliceAI pour prioriser les variations d'épissage. Ils ont développé le modèle AIM-sans-VarDB pour examiner l’impact des données phénotypiques erronées.
Ils ont utilisé l'approche « escalade des caractéristiques » pour évaluer la contribution de chaque caractéristique et classer toutes les caractéristiques en fonction de leur signification biologique.
Les chercheurs ont développé un score croisé pour estimer les chances qu'une variation diagnostique soit diagnostiquée avec succès chez un patient utilisant l'AIM.
Ils ont divisé les patients en deux groupes en fonction de leur niveau de confiance : ceux ayant un niveau de confiance élevé ont fait l'objet d'un examen manuel, tandis que ceux ayant un niveau de confiance faible ont subi une nouvelle analyse.
Ils ont construit quatre degrés de confiance, les ont appliqués aux échantillons UDN et DDD et les ont évalués en distinguant les patients positifs des négatifs et les parents non affectés des patients de novo.
Résultats
AIM a considérablement augmenté la précision du diagnostic génétique, triplant le nombre de cas résolus par rapport aux approches comparées dans trois cohortes du monde réel. AIM a atteint un taux de précision de 98 % et a détecté 57 % des diagnostics sur 871.
Il s'est également révélé prometteur dans la découverte de nouveaux gènes de maladies en prédisant avec précision deux gènes récemment signalés par le réseau des maladies non diagnostiquées. AIM a surpassé les méthodes existantes sur trois ensembles de données distincts, surpassant Genomiser dans les cohortes UDN et DiagLab.
La méthode AIM a réussi à distinguer les variations pathogènes non diagnostiques et diagnostiques de ClinVar. AIM-sans-VarDB a connu une légère baisse de performances mais a néanmoins surpassé les autres techniques de référence.
Le développement de fonctionnalités expertes a augmenté la précision du modèle de visée tout en retardant la saturation de l'entraînement. En utilisant 20 % des données de formation, AIM a maintenu une précision diagnostique de premier ordre de 54 %. Avec plus d'échantillons d'entraînement, le modèle entraîné à l'aide des variables techniques a montré une précision de 66 %, tandis que le modèle sans fonctionnalités d'ingénierie était précis à 58 %.
Les chercheurs ont découvert une baisse de 11 % de la précision du diagnostic top-1, démontrant qu’une annotation phénotypique précise est essentielle. Même avec des informations phénotypiques inutiles, l’AIM a obtenu une précision diagnostique de 78 % parmi les 5 premiers, soulignant l’importance des preuves moléculaires.
Une augmentation du score de similarité phénotypique basé sur l'OMIM de zéro à 0,25 a augmenté les résultats de prédiction de 60,0 % à 90,0 %. Cependant, les augmentations ultérieures supérieures à 0, 3 n'ont entraîné qu'une légère augmentation, indiquant un manque d'exigence de correspondance précise avec les phénotypes OMIM.
Le classificateur trio (AIM-Trio) a surpassé les modèles Exomiser et Genomiser Trio tout en surpassant légèrement le modèle proband-only (AIM). Le modèle AIM-NDG a supprimé les caractéristiques liées aux bases de données de maladies reconnues.
Basé sur les résultats de l’étude, AIM est un outil de diagnostic génétique par apprentissage automatique capable d’identifier de nouveaux gènes de maladies et d’analyser des milliers d’échantillons en quelques jours. Il est très précis et bénéfique pour le diagnostic initial, la réanalyse des cas non résolus et l’identification de nouveaux gènes de maladies.
AIM analyse environ 3,5 millions de points de données de variation provenant de milliers de cas diagnostiqués et fournit une interface Web permettant aux utilisateurs de soumettre des cas et d'examiner les résultats.
Cependant, les limites incluent le fait de ne pas évaluer les changements structurels ou de nombre de copies et de se concentrer sur les situations de mutations codantes. Les grands modèles de langage, tels que PhenoBCBERT et PhenoGPT, ont démontré des performances supérieures.