Déverrouiller la prédiction des maladies : comment le cadre MILTON utilise les données multi-omiques pour transformer les connaissances en matière de santé.
Étude: La prédiction des maladies à l'aide de la multi-omique et des biomarqueurs permet des découvertes génétiques cas-témoins dans la UK BiobankCrédit photo : Xray Computer/Shutterstock.com
Dans une étude récente publiée dans Génétique de la natureun groupe de chercheurs a développé et appliqué un cadre d'apprentissage automatique d'ensemble (MILTON) pour prédire les maladies et améliorer les analyses d'association génétique à l'aide de données multi-omiques de la United Kingdom Biobank (UKB).
Sommaire
Arrière-plan
L’identification des individus à haut risque de développer des maladies est essentielle à la médecine préventive. Pourtant, les outils traditionnels d’évaluation des risques, qui s’appuient sur des facteurs tels que l’âge et les antécédents familiaux, ne parviennent pas à saisir pleinement la complexité de la biologie des maladies.
Les biobanques à grande échelle, telles que l'UKB, intègrent des données multi-omiques telles que des analyses sanguines, la protéomique et la métabolomique, qui offrent des opportunités de découvrir de nouveaux biomarqueurs.
Ces ensembles de données complets permettent d’identifier des combinaisons de biomarqueurs qui améliorent la prédiction des maladies au-delà des marqueurs individuels. Des recherches supplémentaires sont nécessaires pour mieux comprendre les processus biologiques sous-jacents aux maladies complexes et améliorer les modèles prédictifs.
À propos de l'étude
La cohorte UKB comprend 502 226 participants âgés de 37 à 73 ans, avec un âge médian de 58 ans. Parmi eux, 54,4 % sont des femmes. Les données fournissent des informations complètes telles que les dossiers de diagnostic, la biochimie sanguine, les mesures de la taille du corps, les données génomiques et protéomiques. Tous les participants ont donné leur consentement éclairé et ont participé volontairement.
La cohorte Finnish Gene (FinnGen) se compose de 412 181 personnes, dont 55,9 % sont des femmes, avec un âge médian de 63 ans. Les participants ont également fourni un consentement éclairé et ont participé volontairement.
Les données de FinnGen n'ont pas été consultées au niveau des patients ; seules les statistiques récapitulatives de l'étude d'association pangénomique (GWAS) ont été utilisées. La recherche a respecté toutes les réglementations éthiques, avec l'approbation des comités d'éthique appropriés.
L'étude UKB a reçu l'approbation du Comité d'éthique de la recherche du Centre du Nord-Ouest. Dans le même temps, le Comité de coordination d'éthique du district hospitalier d'Helsinki et d'Uusimaa a approuvé l'étude FinnGen.
L'Institut finlandais de la santé et du bien-être, l'Agence des services numériques et démographiques, l'Institut d'assurance sociale et Statistique Finlande ont accordé des approbations supplémentaires à FinnGen.
Les deux études ont traité les données avec soin, en veillant à ce que les définitions des cas et des témoins soient précises. Un filtrage approfondi a été appliqué aux cas et aux témoins afin de maintenir la cohérence dans la distribution de l'âge, du sexe et d'autres caractéristiques de base.
Résultats de l'étude
Les biomarqueurs cliniques jouent un rôle crucial dans le diagnostic et l'évaluation des maladies en fournissant des indications mesurables sur la présence et la gravité d'une pathologie. Dans le cadre des études d'association phénoménologique (PheWAS), les biomarqueurs offrent également la possibilité d'identifier les cas mal classés ou cryptiques.
MILTON, une méthode d'apprentissage automatique, a été introduite pour utiliser des biomarqueurs quantitatifs afin de prédire l'état de la maladie pour 3 213 phénotypes de maladie. La technique consiste d'abord à apprendre une signature spécifique à la maladie à partir des patients diagnostiqués, puis à prédire de nouveaux cas potentiels parmi les témoins d'origine. Ces cohortes augmentées sont utilisées pour l'analyse de l'effondrement des variantes rares afin de les comparer aux cohortes de base.
Les modèles de prédiction de la maladie de MILTON sont définis en fonction du délai entre le prélèvement d'échantillons de biomarqueurs et le diagnostic. Dans l'UKB, les échantillons peuvent avoir été prélevés jusqu'à 16,5 ans avant ou 50 ans après le diagnostic.
L'étude MILTON a été formée à l'aide de trois modèles temporels différents : pronostique (jusqu'à 10 ans après la collecte de l'échantillon), diagnostique (jusqu'à 10 ans avant) et indépendant du temps (tous les cas diagnostiqués). Une limite de 10 ans a été déterminée comme optimale après une analyse de sensibilité sur 400 codes de la Classification internationale des maladies, 10e révision (CIM10) sélectionnés au hasard.
MILTON a été formé sur 67 caractéristiques, notamment la biochimie sanguine et les mesures de numération, les analyses d'urine, la taille du corps, la pression artérielle, le sexe, l'âge, la spirométrie et le temps de jeûne. Les performances du modèle ont été évaluées à l'aide de la mesure de l'aire sous la courbe (AUC). MILTON a obtenu une AUC ≥ 0,7 pour 1 091 codes ICD10, une AUC ≥ 0,8 pour 384 codes et une AUC ≥ 0,9 pour 121 codes sur tous les modèles temporels et toutes les ascendances.
Les modèles diagnostiques ont généralement obtenu de meilleurs résultats que les modèles pronostiques sur 1 466 codes CIM10. Par exemple, chez les participants d'origine européenne (EUR), les modèles diagnostiques avaient une AUC médiane plus élevée (0,668 contre 0,647) et une sensibilité (0,586 contre 0,570).
MILTON a également montré des performances stables pour les ascendances EUR et africaines, tandis que les performances se sont améliorées pour les modèles de diagnostic sud-asiatiques à mesure que le nombre de cas augmentait.
La capacité de MILTON à prédire la maladie avant son apparition a été validée. Lorsque les individus présentant une probabilité de cas élevée (0,7 ≤ Pcase ≤ 1) ont été analysés, 97,41 % des codes CIM10 étaient significativement enrichis chez les participants qui ont ensuite été diagnostiqués avec les conditions correspondantes. Ces résultats confirment l'efficacité de MILTON pour identifier les cas émergents et augmenter les analyses d'association génétique.
Conclusions
En résumé, MILTON prédit les maladies à l'aide de la multi-omique et de biomarqueurs, améliorant ainsi les études cas-témoins sur cinq lignées UKB. Malgré le large ensemble de caractéristiques non spécifiques à la maladie, MILTON a atteint un pouvoir prédictif élevé pour de nombreux phénotypes, avec une AUC > 0,7 pour 1 091 codes ICD10, une AUC > 0,8 pour 384 et une AUC > 0,9 pour 121.
Cependant, pour certaines maladies, le pouvoir prédictif reste faible, indiquant la nécessité de fonctionnalités plus informatives.
MILTON a souvent obtenu de meilleurs résultats que les scores de risque polygénique (PRS), mais a obtenu de moins bons résultats dans des maladies comme le mélanome et le cancer du sein. Les données protéomiques ont amélioré les prévisions pour 52 phénotypes. MILTON a également identifié 182 nouveaux signaux putatifs de gènes et de maladies nécessitant une validation supplémentaire.