Un modèle d'IA améliore la prédiction des gènes du cancer et le pronostic des patients

Le modèle d'intelligence artificielle (IA) GPT-4, connu pour son application dans ChatGPT, présente des capacités impressionnantes dans la recherche biomédicale et peut être utilisé de nombreuses façons pour les simulations. Un simulateur développé à la MedUni de Vienne et basé sur GPT-4 montre une précision accrue dans la classification de l'importance des gènes dans les cellules cancéreuses, ainsi que dans le pronostic des patients atteints de cancer. Les résultats de l'étude ont été publiés dans la revue Computers in Biology and Medicine.

Les grands modèles de langage comme GPT-4 se sont révélés extrêmement utiles dans divers domaines, notamment en biomédecine. Une équipe de recherche de l'Institut d'intelligence artificielle de la MedUni de Vienne et du Centre de recherche en médecine moléculaire du CeMM, dirigée par Matthias Samwald et Christoph Bock, a montré qu'un grand modèle de langage comme GPT-4 peut être utilisé efficacement comme simulateur pour les systèmes biologiques.

L'étude teste l'hypothèse selon laquelle la simulation par étapes de processus biologiques et médicaux avec GPT-4 conduit à de meilleurs résultats. Cela est pertinent pour les applications futures dans la recherche biomédicale ainsi que pour la compréhension de ces nouveaux modèles.

Les simulations informatiques de processus biologiques sont un outil important pour la recherche biomédicale, mais nécessitent généralement beaucoup d'expertise et d'ajustements manuels. L'équipe de recherche a développé « SimulateGPT », une méthode de simulation basée sur les connaissances via des entrées structurées dans GPT-4. Cette méthode a été testée et validée par des experts dans divers scénarios tels que des expériences sur des souris, l'assistance au traitement du sepsis, la prédiction de gènes essentiels dans les cellules cancéreuses et la survie sans progression des patients atteints de cancer. La méthode est conçue pour la recherche fondamentale et n'est pas destinée à un usage clinique.

Entrées structurées et instructions ciblées

Les modèles de langage tels que GPT-4 sont pilotés par des entrées de texte, appelées « invites », pour effectuer des tâches spécifiques ou résoudre des problèmes. Les modèles modernes tels que ChatGPT/GPT-4 répondent directement à des questions simples, mais ont du mal à résoudre des scénarios plus complexes, courants en biomédecine. Dans l'étude, les scientifiques ont configuré GPT-4 avec des entrées structurées et des instructions ciblées afin qu'il simule des scénarios donnés en détail avec du texte. L'étude a montré que ce simulateur basé sur GPT-4 obtenait des résultats nettement meilleurs. Les expériences de l'étude ont démontré que les experts biomédicaux préféraient les prédictions de SimulateGPT aux réponses directes de GPT-4. De plus, SimulateGPT a amélioré la précision dans la détermination des gènes essentiels dans les cellules cancéreuses et dans la prédiction de la survie sans progression des patients atteints de cancer par rapport aux réponses traditionnelles de GPT-4.

Cette étude montre que les grands modèles de langage (LLM) tels que GPT-4 pourraient permettre une nouvelle classe de simulateurs biomédicaux. Les simulations textuelles sont particulièrement adaptées à la modélisation et à la compréhension des systèmes vivants, car le texte et le langage offrent la flexibilité et l'interprétabilité nécessaires pour décrire la complexité de la biologie. Pour le développement ultérieur des simulateurs biomédicaux basés sur les LLM, nous proposons plusieurs directions, notamment l'intégration de bases de données biologiques et de modélisation mathématique, ainsi que la formation de nouveaux modèles d'IA avec des données expérimentales.

Matthias Samwald, Université de médecine de Vienne