Une myriade de facteurs génétiques peuvent influencer l’apparition de maladies comme l’hypertension artérielle, les maladies cardiaques et le diabète de type 2. Si nous devions savoir comment l’ADN influence le risque de développer de telles maladies, nous pourrions passer de soins réactifs à des soins plus préventifs, non seulement en améliorant la qualité de vie des patients, mais également en économisant de l’argent dans le système de santé.
Cependant, le traçage des connexions entre l’ADN et l’apparition de la maladie nécessite des modèles statistiques solides qui fonctionnent de manière fiable sur de très grands ensembles de données de plusieurs centaines de milliers de patients.
Matthew Robinson, professeur assistant à l’Institut des sciences et de la technologie (IST) Autriche, avec une équipe internationale de chercheurs a maintenant développé un nouveau modèle mathématique qui améliore la qualité prédictive obtenue à partir de grands ensembles de données génomiques de patients. Cette méthode pourrait aider à développer des prédictions personnalisées sur les risques pour la santé, similaires à ce que fait un médecin lorsqu’il discute des antécédents médicaux d’une famille.
Échantillonnage à partir de milliards
L’ADN humain se compose de plusieurs milliards de paires de bases qui codent notre structure et nos fonctions biologiques. Dans leur étude, les scientifiques ont sélectionné plusieurs centaines de milliers de marqueurs génétiques – des parties courtes de la séquence d’ADN – pour leurs recherches.
À l’aide de leur modèle statistique, ils ont ensuite lié la composition de ces marqueurs à l’apparition d’hypertension artérielle, de cardiopathie ou de diabète de type 2 chez les patients de la base de données. Les chercheurs se sont particulièrement intéressés à l’âge des patients au début de la maladie. Avec ces informations, ils peuvent ensuite utiliser leur modèle pour prédire les probabilités de survenue d’une maladie.
Pourtant, ce modèle statistique ne peut pas construire de relations directes entre certains gènes et l’apparition de la maladie, mais fournit seulement une meilleure prédiction des probabilités d’apparition de la maladie. Il existe également une différence importante entre les modèles de boîte noire couramment utilisés pour les études sur les mégadonnées et cette méthode de Robinson et ses collègues: les modèles de boîte noire produisent des prédictions, mais leur fonctionnement interne ne peut pas être facilement compris par les humains en raison des nombreuses couches d’abstraction. ils utilisent. En revanche, le modèle de Robinson et de ses collègues fournit des calculs statistiques traçables.
Être capable de comprendre le fonctionnement interne d’un modèle mathématique pour produire des prédictions sur la santé et l’apparition de la maladie est un élément important d’une approche éthique de l’utilisation de grands ensembles de données sensibles sur les patients. Avec cela, le chercheur peut expliquer comment les prédictions ont été générées.
Utilisation des données patient
Pour exploiter tout le potentiel de ces méthodes prédictives, il faut à la fois des modèles efficaces et la collecte de grands ensembles de données génomiques qui s’accompagne de ses propres préoccupations en matière de sécurité et de confidentialité des données, auxquelles les chercheurs et le système de santé doivent répondre.
Des mesures strictes de sécurité des données doivent être respectées lors de l’utilisation des données des patients. Ce n’est qu’avec l’autorisation des comités d’éthique respectifs que les chercheurs ont pu accéder aux données anonymisées des patients à partir de biobanques financées par l’État – de vastes collections de données génétiques sur les patients – au Royaume-Uni et en Estonie.
Ils ont utilisé les données du Royaume-Uni pour construire leur modèle et les données de l’Estonie pour tester son pouvoir prédictif. Ce dernier a même produit des premières évaluations personnalisées des risques d’apparition de la maladie. Ceux-ci seront ensuite relayés par le système de santé estonien vers les patients, ce qui les incitera à prendre des mesures préventives.
Le nouveau modèle statistique de Robinson et de ses collègues n’est qu’une étape vers l’utilisation du plein potentiel des grands ensembles de données génomiques pour les soins de santé préventifs. Les modèles et l’infrastructure de données des biobanques, ainsi qu’un système de protection des données robuste et sécurisé, sont nécessaires pour tenir les promesses de la médecine prédictive personnalisée.
La source:
Institut des sciences et technologies Autriche
Référence du journal:
Ojavee, SE, et al. (2021) Architecture génomique et prédiction des phénotypes de temps à événement censurés avec une analyse bayésienne à l’échelle du génome. Communications de la nature. doi.org/10.1038/s41467-021-22538-w.