Une équipe de scientifiques des matériaux au Lawrence Berkeley National Laboratory (Berkeley Lab) – des scientifiques qui passent normalement leur temps à rechercher des choses comme des matériaux hautes performances pour les thermoélectriques ou les cathodes de batterie – ont construit un outil d'exploration de texte en un temps record pour aider la communauté scientifique mondiale. synthétiser la montagne de littérature scientifique sur COVID-19 générée chaque jour.
L'outil, en direct sur covidscholar.org, utilise des techniques de traitement du langage naturel non seulement pour numériser et rechercher rapidement des dizaines de milliers de documents de recherche, mais aussi pour aider à tirer des informations et des connexions qui autrement ne seraient pas apparentes. L'espoir est que l'outil pourrait éventuellement permettre une «science automatisée».
Sur Google et d'autres moteurs de recherche, les gens recherchent ce qu'ils pensent être pertinent. Notre objectif est de faire l'extraction d'informations afin que les gens puissent trouver des informations et des relations non évidentes. C'est toute l'idée d'apprentissage automatique et de traitement du langage naturel qui sera appliquée à ces ensembles de données. «
Gerbrand Ceder, scientifique et l'un des chefs de projet, Berkeley Lab
COVIDScholar a été développé en réponse à un appel à l'action du 16 mars du Bureau des politiques scientifiques et technologiques de la Maison Blanche qui a demandé aux experts en intelligence artificielle de développer de nouvelles techniques d'exploration de données et de texte pour aider à trouver des réponses aux questions clés sur COVID-19.
L'équipe de Berkeley Lab a obtenu un prototype de COVIDScholar opérationnel en environ une semaine. Maintenant, un peu plus d'un mois plus tard, il a collecté plus de 61 000 articles de recherche – environ 8 000 d'entre eux spécifiquement sur COVID-19 et le reste sur des sujets connexes, tels que d'autres virus et pandémies en général – et compte plus de 100 utilisateurs uniques tous les jours, de bouche à oreille.
Et il y a toujours plus d'articles ajoutés – 200 nouveaux articles de journaux sont publiés chaque jour sur le coronavirus. « Dans les 15 minutes suivant la publication du document en ligne, il sera sur notre site Web », a déclaré Amalie Trewartha, une boursière postdoctorale qui est l'une des développeurs principaux.
Cette semaine, l'équipe a publié une version mise à niveau prête à être utilisée par le public – la nouvelle version donne aux chercheurs la possibilité de rechercher des «articles connexes» et de trier les articles en utilisant le réglage de la pertinence basé sur l'apprentissage automatique.
Le volume de recherche dans n'importe quel domaine scientifique, mais surtout celui-ci, est intimidant. « Il ne fait aucun doute que nous ne pouvons pas suivre la littérature en tant que scientifiques », a déclaré Kristin Persson, scientifique du Berkeley Lab, qui codirige le projet. «Nous avons besoin d'aide pour trouver rapidement les documents pertinents et établir des corrélations entre les documents qui ne semblent pas, à première vue, parler de la même chose.»
L'équipe a créé des scripts automatisés pour récupérer de nouveaux papiers, y compris des papiers préimprimés, les nettoyer et les rendre consultables. Au niveau le plus élémentaire, COVIDScholar agit comme un moteur de recherche simple, bien que hautement spécialisé.
« Google Scholar contient des millions de documents sur lesquels vous pouvez effectuer des recherches », a déclaré John Dagdelen, étudiant diplômé de l'Université de Californie à Berkeley et chercheur au Berkeley Lab, qui est l'un des principaux développeurs.
« Cependant, lorsque vous recherchez » rate « ou » dommages à la rate « – et il y a des recherches à venir maintenant que la rate peut être attaquée par le virus – vous obtiendrez 100 000 papiers sur la rate, mais ils ne sont pas vraiment pertinents pour ce que dont vous avez besoin pour COVID-19. Nous avons la plus grande collection de documentation sur COVID-19. «
En plus de renvoyer les résultats de recherche de base, COVIDScholar recommandera également des résumés similaires et triera automatiquement les articles dans des sous-catégories, telles que les tests ou la dynamique de transmission, permettant aux utilisateurs de faire des recherches spécialisées.
Maintenant, après avoir passé les premières semaines à mettre en place l'infrastructure pour collecter, nettoyer et rassembler les données, l'équipe aborde la phase suivante. « Nous sommes prêts à faire de grands progrès en termes de traitement du langage naturel pour la » science automatisée « », a déclaré Dagdelen.
Par exemple, ils peuvent entraîner leurs algorithmes à rechercher des connexions inaperçues entre les concepts. « Vous pouvez utiliser les représentations générées pour les concepts des modèles d'apprentissage automatique pour trouver des similitudes entre des choses qui ne se produisent pas réellement ensemble dans la littérature, afin que vous puissiez trouver des choses qui devraient être connectées mais qui ne l'ont pas encore été », a déclaré Dagdelen.
Un autre aspect consiste à travailler avec des chercheurs de la division de génomique environnementale et de biologie des systèmes du laboratoire de Berkeley et à l'Institut de génomique innovant d'UC Berkeley pour améliorer les algorithmes de COVIDScholar.
«Nous relions l'apprentissage automatique non supervisé que nous faisons avec ce sur quoi ils ont travaillé, en organisant toutes les informations autour des liens génétiques entre les maladies et les phénotypes humains, et les façons possibles de découvrir de nouvelles connexions au sein de la nôtre. « , a déclaré Dagdelen.
L'outil complet fonctionne sur les supercalculateurs du Centre national de recherche scientifique et énergétique (NERSC), une installation utilisateur du DOE Office of Science située à Berkeley Lab. Cette synergie entre disciplines – des biosciences à l'informatique en passant par la science des matériaux – a rendu ce projet possible.
Le moteur de recherche et le portail en ligne sont alimentés par la plate-forme cloud Spin du NERSC; leçons tirées des opérations réussies du projet Matériaux, servant des millions d'enregistrements de données par jour aux utilisateurs, développement éclairé de COVIDScholar.
« Cela n'aurait pas pu se produire ailleurs », a expliqué Trewartha. «Nous progressons beaucoup plus rapidement que ce qui aurait été possible ailleurs. C'est vraiment l'histoire de Berkeley Lab. En travaillant avec nos collègues du NERSC, dans les biosciences (Area of Berkeley Lab), à UC Berkeley, nous sommes en mesure d'itérer sur nos idées rapidement. «
Il est également important de noter que le groupe a construit essentiellement le même outil pour la science des matériaux, appelé MatScholar, un projet soutenu par le Toyota Research Institute et Shell. « La raison principale pour laquelle tout cela pourrait être fait si rapidement est que cette équipe avait trois ans d'expérience dans le traitement du langage naturel pour la science des matériaux », a déclaré Ceder.
Ils ont publié une étude dans La nature l'année dernière, au cours de laquelle ils ont montré qu'un algorithme sans formation en science des matériaux pouvait révéler de nouvelles connaissances scientifiques.
L'algorithme a analysé les résumés de 3,3 millions d'articles publiés sur la science des matériaux, puis analysé les relations entre les mots; il a pu prédire des découvertes de nouveaux matériaux thermoélectriques des années à l'avance et suggérer des matériaux encore inconnus comme candidats pour les matériaux thermoélectriques.
Au-delà de l'aide dans la lutte contre COVID-19, l'équipe pense qu'elle pourra également en apprendre beaucoup sur l'exploration de texte. « Il s'agit d'un test pour savoir si un algorithme peut être meilleur et plus rapide pour l'assimilation d'informations que n'importe lequel d'entre nous lisant un tas d'articles », a déclaré Ceder.
La source:
DOE / Lawrence Berkeley National Laboratory