Des chercheurs de la faculté de médecine de l’Université de Californie à San Diego ont démontré que les grands modèles de langage (LLM), tels que GPT-4, pourraient aider à automatiser la recherche en génomique fonctionnelle, qui cherche à déterminer le rôle des gènes et la manière dont ils interagissent. L’approche la plus fréquemment utilisée en génomique fonctionnelle, appelée enrichissement des ensembles de gènes, vise à déterminer la fonction d’ensembles de gènes identifiés expérimentalement en les comparant aux bases de données génomiques existantes. Cependant, la biologie plus intéressante et nouvelle dépasse souvent la portée des bases de données établies. L’utilisation de l’intelligence artificielle (IA) pour analyser des ensembles de gènes pourrait épargner aux scientifiques de nombreuses heures de travail intensif et rapprocher la science de l’automatisation de l’une des méthodes les plus largement utilisées pour comprendre comment les gènes travaillent ensemble pour influencer la biologie.
En testant cinq LLM différents, les chercheurs ont découvert que GPT-4 était le plus efficace, atteignant un taux de précision de 73 % dans l'identification des fonctions communes d'ensembles de gènes sélectionnés à partir d'une base de données génomique couramment utilisée. Lorsqu'on lui a demandé d'analyser des ensembles de gènes aléatoires, GPT-4 a refusé de fournir un nom dans 87 % des cas, démontrant ainsi le potentiel de GPT-4 à analyser des ensembles de gènes avec une hallucination minimale. GPT-4 était également capable de fournir des récits détaillés pour soutenir son processus de dénomination.
Bien que des recherches supplémentaires soient nécessaires pour explorer pleinement le potentiel des LLM dans l’automatisation de la génomique fonctionnelle, l’étude met en évidence la nécessité d’investir de manière continue dans le développement des LLM et leurs applications en génomique et en médecine de précision. Pour soutenir cela, les chercheurs ont créé un portail Web pour aider d'autres chercheurs à intégrer les LLM dans leurs flux de travail en génomique fonctionnelle. Plus largement, les résultats démontrent également le pouvoir de l’IA pour révolutionner le processus scientifique en synthétisant des informations complexes pour générer de nouvelles hypothèses testables en une fraction du temps.
L'étude, publiée dans Méthodes naturellesétait dirigé par Trey Ideker, Ph.D., professeur à la faculté de médecine de l'UC San Diego et à la Jacobs School of Engineering de l'UC San Diego, Dexter Pratt, Ph.D., architecte logiciel du groupe d'Ideker, et Clara Hu, une doctorant en sciences biomédicales dans le groupe d'Ideker. L'étude a été financée, en partie, par les National Institutes of Health.