Les grands modèles linguistiques, un type d'IA qui analyse le texte, peuvent prédire les résultats des études de neurosciences proposées avec plus de précision que les experts humains, révèle une nouvelle étude menée par des chercheurs de l'UCL (University College London).
Les résultats, publiés dans Comportement humaindémontrent que les grands modèles linguistiques (LLM) formés sur de vastes ensembles de données de texte peuvent distiller des modèles de la littérature scientifique, leur permettant de prévoir les résultats scientifiques avec une précision surhumaine.
Les chercheurs affirment que cela met en évidence leur potentiel en tant qu’outils puissants pour accélérer la recherche, allant bien au-delà de la simple récupération de connaissances.
Depuis l'avènement de l'IA générative comme ChatGPT, de nombreuses recherches se sont concentrées sur les capacités de réponse aux questions des LLM, mettant en valeur leur remarquable capacité à résumer les connaissances à partir de données de formation approfondies. Cependant, plutôt que de mettre l’accent sur leur capacité rétrospective à récupérer des informations passées, nous avons examiné si les LLM pouvaient synthétiser les connaissances pour prédire les résultats futurs.
Le progrès scientifique repose souvent sur des essais et des erreurs, mais chaque expérience méticuleuse demande du temps et des ressources. Même les chercheurs les plus compétents peuvent négliger des éléments essentiels de la littérature. Notre travail vérifie si les LLM peuvent identifier des modèles à travers de vastes textes scientifiques et prévoir les résultats des expériences. »
Dr Ken Luo, Auteur principal, UCL Psychologie & Sciences du Langage
L'équipe de recherche internationale a commencé son étude en développant BrainBench, un outil permettant d'évaluer dans quelle mesure les grands modèles de langage (LLM) peuvent prédire les résultats des neurosciences.
BrainBench se compose de nombreuses paires de résumés d'études en neurosciences. Dans chaque paire, une version est un véritable résumé d'étude qui décrit brièvement le contexte de la recherche, les méthodes utilisées et les résultats de l'étude. Dans l’autre version, le contexte et les méthodes sont les mêmes, mais les résultats ont été modifiés par des experts du domaine pertinent des neurosciences pour aboutir à un résultat plausible mais incorrect.
Les chercheurs ont testé 15 LLM à usage général différents et 171 experts en neurosciences humaines (qui avaient tous passé un test de dépistage pour confirmer leur expertise) pour voir si l'IA ou la personne pouvait déterminer correctement lequel des deux résumés appariés était le vrai avec le résultats réels de l’étude.
Tous les LLM ont surpassé les neuroscientifiques, les LLM ayant une précision moyenne de 81 % et les humains une précision moyenne de 63 %. Même lorsque l’équipe d’étude a limité les réponses humaines à ceux possédant le plus haut degré d’expertise dans un domaine donné des neurosciences (sur la base de l’expertise autodéclarée), l’exactitude des neuroscientifiques était toujours inférieure aux LLM, à 66 %. De plus, les chercheurs ont découvert que lorsque les LLM étaient plus confiants dans leurs décisions, ils étaient plus susceptibles d’avoir raison. Les chercheurs affirment que cette découverte ouvre la voie à un avenir dans lequel les experts humains pourraient collaborer avec des modèles bien calibrés.
Les chercheurs ont ensuite adapté un LLM existant (une version de Mistral, un LLM open source) en le formant spécifiquement à la littérature en neurosciences. Le nouveau LLM spécialisé en neurosciences, qu'ils ont baptisé BrainGPT, était encore meilleur pour prédire les résultats des études, atteignant une précision de 86 % (une amélioration par rapport à la version à usage général de Mistral, qui était précise à 83 %).
L'auteur principal, le professeur Bradley Love (UCL Psychology & Language Sciences) a déclaré : « À la lumière de nos résultats, nous pensons qu'il ne faudra pas longtemps avant que les scientifiques utilisent des outils d'IA pour concevoir l'expérience la plus efficace pour leur question. neurosciences, notre approche était universelle et devrait s’appliquer avec succès à l’ensemble de la science.
« Ce qui est remarquable, c'est à quel point les LLM peuvent prédire la littérature en neurosciences. Ce succès suggère qu'une grande partie de la science n'est pas vraiment nouvelle, mais se conforme aux modèles de résultats existants dans la littérature. Nous nous demandons si les scientifiques sont suffisamment innovants et exploratoires. «
Le Dr Luo a ajouté : « En nous appuyant sur nos résultats, nous développons des outils d'IA pour aider les chercheurs. Nous envisageons un avenir dans lequel les chercheurs pourront saisir leurs projets d'expériences proposés et leurs résultats anticipés, l'IA offrant des prédictions sur la probabilité de divers résultats. itération plus rapide et prise de décision plus éclairée dans la conception des expériences.
L'étude a été soutenue par le Conseil de recherches économiques et sociales (ESRC), Microsoft et une bourse Wolfson de la Royal Society, et a impliqué des chercheurs de l'UCL, de l'Université de Cambridge, de l'Université d'Oxford, de l'Institut Max Planck de neurobiologie du comportement (Allemagne), de Bilkent. Université (Turquie) et autres institutions au Royaume-Uni, aux États-Unis, en Suisse, en Russie, en Allemagne, en Belgique, au Danemark, au Canada, en Espagne et en Australie.
Lorsqu'il est présenté avec deux résumés, le LLM calcule la probabilité de chacun, en attribuant un score de perplexité pour représenter le degré de surprise de chacun, en fonction de ses propres connaissances acquises ainsi que du contexte (contexte et méthode). Les chercheurs ont évalué la confiance des LLM en mesurant la différence dans la façon dont les modèles ont trouvé des résumés réels et faux – plus cette différence est grande, plus la confiance est grande, ce qui est en corrélation avec une plus grande probabilité que le LLM ait choisi le bon résumé.