Dans une étude récente publiée sur le arXiv, les chercheurs du serveur de prépublication* ont développé et validé un modèle de langage étendu (LLM) visant à générer des commentaires utiles sur les articles scientifiques. Basé sur le cadre Generative Pre-trained Transformer 4 (GPT-4), le modèle a été conçu pour accepter les manuscrits scientifiques PDF bruts comme entrées, qui sont ensuite traités d’une manière qui reflète la structure d’évaluation des revues scientifiques interdisciplinaires. Le modèle se concentre sur quatre aspects clés du processus d’examen des publications : 1. Nouveauté et importance, 2. Raisons de l’acceptation, 3. Raisons du rejet et 4. Suggestions d’amélioration.
Étude : Les grands modèles de langage peuvent-ils fournir des commentaires utiles sur les articles de recherche ? Une analyse empirique à grande échelle. Crédit image : métamorworks / Shutterstock
*Avis important: arXiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.
Les résultats de leur analyse systématique à grande échelle mettent en évidence que leur modèle était comparable à celui des chercheurs humains dans les commentaires fournis. Une étude de suivi auprès des utilisateurs potentiels au sein de la communauté scientifique a révélé que plus de 50 % des chercheurs étaient satisfaits des commentaires fournis, et un nombre extraordinaire de 82,4 % ont trouvé les commentaires GPT-4 plus utiles que les commentaires reçus des évaluateurs humains. Pris ensemble, ces travaux montrent que les LLM peuvent compléter les commentaires humains au cours du processus d’examen scientifique, les LLM se révélant encore plus utiles aux premières étapes de la préparation du manuscrit.
Sommaire
Une brève histoire de « l’entropie de l’information »
La conceptualisation de l’application d’un cadre mathématique structuré à l’information et à la communication est attribuée à Claude Shannon dans les années 1940. Le plus grand défi de Shannon dans cette approche a été de trouver un nom pour sa nouvelle mesure, un problème contourné par John von Neumann. Neumann a reconnu les liens entre la mécanique statistique et le concept de Shannon, proposant les fondements de la théorie moderne de l’information et a conçu « l’entropie de l’information ».
Historiquement, les pairs scientifiques ont considérablement contribué aux progrès dans le domaine en vérifiant la validité, l’exactitude de l’interprétation et la communication du contenu des manuscrits de recherche, mais ils se sont également révélés essentiels à l’émergence de nouveaux paradigmes scientifiques interdisciplinaires grâce au partage d’idées et de méthodes constructives. débats. Malheureusement, ces derniers temps, compte tenu du rythme de plus en plus rapide de la recherche et de la vie personnelle, le processus d’évaluation scientifique devient de plus en plus laborieux, complexe et gourmand en ressources.
Les dernières décennies ont exacerbé ce démérite, notamment en raison de l’augmentation exponentielle des publications et de la spécialisation croissante des domaines de recherche scientifique. Cette tendance est mise en évidence dans les estimations des coûts de l’examen par les pairs, qui s’élèvent en moyenne à plus de 100 millions d’heures de recherche et à plus de 2,5 milliards de dollars américains par an.
« Si le manque de retours d’information de haute qualité constitue une contrainte fondamentale à la croissance durable de la science dans son ensemble, il devient également une source d’aggravation des inégalités scientifiques. Les chercheurs marginalisés, en particulier ceux issus d’institutions non élitistes ou de régions aux ressources limitées, sont souvent confrontés à des difficultés disproportionnées pour accéder à des commentaires précieux, perpétuant ainsi un cycle d’inégalité scientifique systémique.
Ces défis présentent un besoin pressant et impératif de mécanismes efficaces et évolutifs capables d’alléger partiellement la pression exercée sur les chercheurs, tant ceux qui publient que ceux qui révisent, dans le processus scientifique. La découverte ou le développement de tels mécanismes contribuerait à réduire la charge de travail des scientifiques, leur permettant ainsi de consacrer leurs ressources à des projets supplémentaires (et non à des publications) ou à des loisirs. Notamment, ces outils pourraient potentiellement conduire à une meilleure démocratisation de l’accès au sein de la communauté de recherche.
Les grands modèles de langage (LLM) sont des algorithmes d’apprentissage automatique (ML) d’apprentissage profond qui peuvent effectuer diverses tâches de traitement du langage naturel (NLP). Un sous-ensemble de celles-ci utilise des architectures basées sur Transformer, caractérisées par leur adoption de l’auto-attention, pondérant différemment l’importance de chaque partie des données d’entrée (qui inclut la sortie récursive). Ces modèles sont formés à l’aide de nombreuses données brutes et sont principalement utilisés dans les domaines de la PNL et de la vision par ordinateur (CV). Ces dernières années, les LLM ont été de plus en plus explorés en tant qu’outils de sélection papier, de vérification des listes de contrôle et d’identification des erreurs. Cependant, leurs avantages et inconvénients ainsi que les risques associés à leur utilisation autonome dans la publication scientifique restent à tester.
À propos de l’étude
Dans la présente étude, les chercheurs visaient à développer et à tester un LLM basé sur le cadre Generative Pre-trained Transformer 4 (GPT-4) comme moyen d’automatiser le processus d’examen scientifique. Leur modèle se concentre sur des aspects clés, notamment l’importance et la nouveauté de la recherche examinée, les raisons potentielles d’acceptation ou de rejet d’un manuscrit pour publication et les suggestions d’amélioration de la recherche/du manuscrit. Ils ont combiné une étude rétrospective et prospective des utilisateurs pour former puis valider leur modèle, cette dernière impliquant les commentaires d’éminents scientifiques dans divers domaines de recherche.
Les données de l’étude rétrospective ont été collectées auprès de 15 revues sous le Nature parapluie de groupe. Les articles provenaient du 1er janvier 2022 et du 17 juin 2023 et comprenaient 3 096 manuscrits comprenant 8 745 critiques individuelles. Des données ont en outre été collectées auprès de la Conférence internationale sur les représentations de l’apprentissage (ICLR), une publication centrée sur l’apprentissage automatique qui utilise une politique de révision ouverte permettant aux chercheurs d’accéder aux manuscrits acceptés et notamment rejetés. Pour ce travail, l’ensemble de données ICLR comprenait 1 709 manuscrits et 6 506 revues. Tous les manuscrits ont été récupérés et compilés à l’aide de l’API OpenReview.
Le développement du modèle a commencé en s’appuyant sur le cadre GPT-4 d’OpenAI en saisissant les données manuscrites au format PFD et en analysant ces données à l’aide de l’analyseur PDF ScienceBeam basé sur ML. Étant donné que GPT-4 limite les données d’entrée à un maximum de 8 192 jetons, les 6 500 jetons obtenus à partir de l’écran de publication initiale (titre, résumé, mots-clés, etc.) ont été utilisés pour les analyses en aval. Ces jetons dépassent la moyenne des jetons de l’ICLR (5 841,46), et environ la moitié des La nature (12 444,06) a été utilisé pour la formation du modèle. GPT-4 a été codé pour fournir des commentaires sur chaque article analysé en un seul passage.
Les chercheurs ont développé un pipeline de correspondance de commentaires en deux étapes pour étudier le chevauchement entre les commentaires du modèle et les sources humaines. L’étape 1 impliquait une approche de synthèse de texte extractive, dans laquelle une sortie JavaScript Object Notation (JSON) était générée pour pondérer différemment les points spécifiques/clés des manuscrits, mettant en évidence les critiques des évaluateurs. L’étape 2 a utilisé une correspondance de texte sémantique, dans laquelle les JSON obtenus à la fois par le modèle et par les examinateurs humains ont été saisis et comparés.
«Étant donné que nos expériences préliminaires ont montré que la correspondance de GPT-4 était indulgente, nous avons introduit un mécanisme d’évaluation de la similarité. En plus d’identifier les paires correspondantes de commentaires correspondants, GPT-4 a également été chargé d’auto-évaluer les similitudes des correspondances sur une échelle de 5 à 10. Nous avons observé que les correspondances notées « 5. » Un peu lié » ou « 6. Modérément lié »a introduit une variabilité qui ne correspondait pas toujours aux évaluations humaines. Nous n’avons donc retenu que les matchs classés « 7. Fortement lié » ou supérieur pour des analyses ultérieures. »
La validation des résultats a été effectuée manuellement dans le cadre de laquelle 639 revues sélectionnées au hasard (150 LLM et 489 humains) ont identifié de vrais positifs (points clés identifiés avec précision), de faux négatifs (commentaires clés manqués) et de faux positifs (commentaires pertinents divisés ou mal extraits) dans le GPT. L’algorithme de correspondance de 4. Le brassage des revues, une méthode dans laquelle les commentaires LLM étaient d’abord mélangés puis comparés pour déterminer leur chevauchement avec les commentaires rédigés par des humains, a ensuite été utilisé pour les analyses de spécificité.
Pour les analyses rétrospectives, des métriques de chevauchement par paires représentant GPT-4 par rapport à l’humain et l’humain par rapport à l’humain ont été générées. Pour réduire les biais et améliorer les résultats du LLM, les taux de réussite entre les mesures ont été contrôlés en fonction du nombre de commentaires spécifiques au papier. Enfin, une étude prospective auprès des utilisateurs a été menée pour confirmer les résultats de validation de la formation et des analyses du modèle décrits ci-dessus. Une démo Gradio du modèle GPT-4 a été lancée en ligne et les scientifiques ont été encouragés à télécharger les versions en cours de leurs manuscrits sur le portail en ligne, après quoi une révision organisée par LLM a été envoyée par courrier électronique au téléchargeur.
Les utilisateurs ont ensuite été invités à fournir leurs commentaires via une enquête de 6 pages, qui comprenait des données sur les antécédents de l’auteur, la situation générale d’évaluation rencontrée par l’auteur précédemment, les impressions générales de l’évaluation du LLM, une évaluation détaillée des performances du LLM et une comparaison avec des humains. qui a peut-être également examiné le projet.
Résultats de l’étude
Les résultats de l’évaluation rétrospective ont montré des scores de précision F1 de 96,8 % (extraction), soulignant que le modèle GPT-4 était capable d’identifier et d’extraire presque toutes les critiques pertinentes avancées par les évaluateurs dans les ensembles de données de formation et de validation utilisés dans ce projet. La correspondance entre les suggestions de manuscrits générés par GPT-4 et celles des manuscrits humains était tout aussi impressionnante, à 82,4 %. Les analyses des retours LLM ont révélé que 57,55 % des commentaires suggérés par l’algorithme GPT-4 ont également été suggérés par au moins un évaluateur humain, suggérant un chevauchement considérable entre l’homme et la machine (modèle d’apprentissage), soulignant l’utilité du modèle ML même au début. étapes de son développement.
Les analyses métriques de chevauchement par paires ont mis en évidence que le modèle a légèrement surpassé les humains en ce qui concerne plusieurs évaluateurs indépendants identifiant des points de préoccupation/amélioration identiques dans les manuscrits (LLM contre humain – 30,85 % ; humain contre humain – 28,58 %), renforçant ainsi l’exactitude et la fiabilité. du modèle. Les résultats de l’expérience de brassage ont montré que le LLM ne générait pas de commentaires « génériques » et que les commentaires étaient spécifiques au papier et adaptés à chaque projet, soulignant ainsi son efficacité à fournir des commentaires individualisés et à faire gagner du temps à l’utilisateur.
Les études d’utilisateurs potentiels et l’enquête associée montrent que plus de 70 % des chercheurs ont trouvé un « chevauchement partiel » entre les commentaires du LLM et leurs attentes à l’égard des évaluateurs humains. Parmi eux, 35 % ont trouvé l’alignement substantiel. Les performances du modèle Overlap LLM se sont révélées impressionnantes, avec 32,9 % des personnes interrogées trouvant les performances du modèle non génériques et 14 % trouvant les suggestions plus pertinentes que prévu de la part des évaluateurs humains.
Plus de 50 % (50,3 %) des personnes interrogées ont jugé les commentaires LLM utiles, nombre d’entre eux faisant remarquer que le modèle GPT-4 fournissait des commentaires nouveaux mais pertinents que les évaluations humaines avaient manquées. Seuls 17,5 % des chercheurs considéraient le modèle comme inférieur au feedback humain. Plus particulièrement, 50,5 % des personnes interrogées ont attesté vouloir réutiliser le modèle GPT-4 à l’avenir, avant la soumission du manuscrit dans la revue, soulignant le succès du modèle et l’intérêt du développement futur d’outils d’automatisation similaires pour améliorer la qualité de vie des chercheurs. .
Conclusion
Dans le présent travail, les chercheurs ont développé et formé un modèle ML basé sur l’architecture du transformateur GPT-4 pour automatiser le processus d’examen scientifique et compléter le pipeline de publication manuelle existant. Leur modèle s’est avéré capable d’égaler, voire de dépasser, les experts scientifiques en fournissant des commentaires de recherche pertinents et non génériques aux auteurs potentiels. Cet outil d’automatisation et d’autres similaires pourraient, à l’avenir, réduire considérablement la charge de travail et la pression auxquelles sont confrontés les chercheurs qui sont censés non seulement mener leurs projets scientifiques, mais également évaluer les travaux des autres et répondre eux-mêmes aux commentaires des autres. Bien qu’il ne soit pas destiné à remplacer purement et simplement l’apport humain, ce modèle et des modèles similaires pourraient compléter les systèmes existants au sein du processus scientifique, à la fois en améliorant l’efficacité de la publication et en réduisant l’écart entre les scientifiques marginalisés et « d’élite », démocratisant ainsi la science dans les jours à venir.
*Avis important: arXiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.