L’intelligence artificielle a explosé dans nos fils d’actualités, ChatGPT et les technologies d’IA connexes devenant l’objet d’un examen public approfondi. Au-delà des chatbots populaires, les biologistes trouvent des moyens de tirer parti de l’IA pour sonder les fonctions essentielles de nos gènes.
Auparavant, les chercheurs de l’Université de Californie à San Diego qui étudient les séquences d’ADN qui activent les gènes ont utilisé l’intelligence artificielle pour identifier une pièce de puzzle énigmatique liée à l’activation des gènes, un processus fondamental impliqué dans la croissance, le développement et la maladie. À l’aide de l’apprentissage automatique, un type d’intelligence artificielle, le professeur James T. Kadonaga de l’École des sciences biologiques et ses collègues ont découvert la région promotrice centrale en aval (DPR), un code d’activation de l’ADN « passerelle » impliqué dans le fonctionnement d’un tiers des nos gènes.
S’appuyant sur cette découverte, Kadonaga et les chercheurs Long Vo ngoc et Torrey E. Rhyne ont maintenant utilisé l’apprentissage automatique pour identifier des séquences d’ADN « extrêmes synthétiques » avec des fonctions spécifiquement conçues dans l’activation des gènes. Publication dans la revue Gènes & Développementles chercheurs ont testé des millions de séquences d’ADN différentes grâce à l’apprentissage automatique (IA) en comparant l’élément d’activation du gène DPR chez l’homme par rapport aux mouches des fruits (Drosophile). En utilisant l’IA, ils ont pu trouver des séquences DPR rares et personnalisées qui sont actives chez l’homme mais pas chez les mouches des fruits et vice versa. Plus généralement, cette approche pourrait désormais être utilisée pour identifier des séquences d’ADN synthétiques ayant des activités qui pourraient être utiles en biotechnologie et en médecine.
À l’avenir, cette stratégie pourrait être utilisée pour identifier des séquences d’ADN extrêmes synthétiques avec des applications pratiques et utiles. Au lieu de comparer les humains (condition X) aux mouches des fruits (condition Y), nous pourrions tester la capacité du médicament A (condition X) mais pas du médicament B (condition Y) à activer un gène. Cette méthode pourrait également être utilisée pour trouver des séquences d’ADN personnalisées qui activent un gène dans le tissu 1 (condition X) mais pas dans le tissu 2 (condition Y). Il existe d’innombrables applications pratiques de cette approche basée sur l’IA. Les séquences d’ADN extrêmes synthétiques pourraient être très rares, peut-être une sur un million ; s’ils existent, ils pourraient être trouvés en utilisant l’IA. »
James T. Kadonaga, professeur, Département de biologie moléculaire, Université de Californie à San Diego
L’apprentissage automatique est une branche de l’IA dans laquelle les systèmes informatiques s’améliorent et apprennent continuellement en fonction des données et de l’expérience. Dans la nouvelle recherche, Kadonaga, Vo ngoc (un ancien chercheur postdoctoral de l’UC San Diego maintenant à Velia Therapeutics) et Rhyne (un associé de recherche du personnel) ont utilisé une méthode connue sous le nom de régression vectorielle de support pour « former » des modèles d’apprentissage automatique avec 200 000 séquences d’ADN établies. basé sur des données d’expériences de laboratoire dans le monde réel. Ce sont les objectifs présentés comme exemples pour le système d’apprentissage automatique. Ils ont ensuite « introduit » 50 millions de séquences d’ADN de test dans les systèmes d’apprentissage automatique pour les humains et les mouches des fruits et leur ont demandé de comparer les séquences et d’identifier des séquences uniques dans les deux énormes ensembles de données.
Alors que les systèmes d’apprentissage automatique ont montré que les séquences humaines et de mouches des fruits se chevauchaient largement, les chercheurs se sont concentrés sur la question centrale de savoir si les modèles d’IA pouvaient identifier de rares cas où l’activation des gènes est très active chez l’homme mais pas chez les mouches des fruits. La réponse a été un « oui » retentissant. Les modèles d’apprentissage automatique ont réussi à identifier des séquences d’ADN spécifiques à l’homme (et à la mouche des fruits). Il est important de noter que les fonctions prédites par l’IA des séquences extrêmes ont été vérifiées dans le laboratoire de Kadonaga en utilisant des méthodes de test conventionnelles (laboratoire humide).
« Avant de nous lancer dans ce travail, nous ne savions pas si les modèles d’IA étaient suffisamment « intelligents » pour prédire les activités de 50 millions de séquences, en particulier des séquences « extrêmes » aberrantes avec des activités inhabituelles. Il est donc très impressionnant et assez remarquable que le Les modèles d’IA pourraient prédire les activités des rares séquences extrêmes d’une sur un million », a déclaré Kadonaga, qui a ajouté qu’il serait pratiquement impossible de mener les 100 millions d’expériences comparables en laboratoire humide que la technologie d’apprentissage automatique a analysées depuis chaque laboratoire humide. l’expérience prendrait près de trois semaines.
Les séquences rares identifiées par le système d’apprentissage automatique servent de démonstration réussie et préparent le terrain pour d’autres utilisations de l’apprentissage automatique et d’autres technologies d’IA en biologie.
« Dans la vie de tous les jours, les gens trouvent de nouvelles applications pour les outils d’IA tels que ChatGPT. Ici, nous avons démontré l’utilisation de l’IA pour la conception d’éléments d’ADN personnalisés dans l’activation des gènes. Cette méthode devrait avoir des applications pratiques dans la biotechnologie et la recherche biomédicale, », a déclaré Kadonaga. « Plus généralement, les biologistes sont probablement au tout début de l’exploitation de la puissance de la technologie de l’IA. »