La quantité de données produites chaque année par les installations d’utilisateurs scientifiques telles que celles des laboratoires nationaux ou des organisations gouvernementales peut aller jusqu’à plusieurs milliards de gigaoctets par an. Cette quantité massive de données générées a maintenant commencé à dépasser la capacité des chercheurs à analyser efficacement ces données afin d’atteindre leurs objectifs scientifiques – ; un problème surdimensionné lorsqu’il s’agit de réaliser de nouvelles avancées scientifiques.
Pour développer de nouvelles techniques mathématiques et informatiques afin de réduire la taille de ces ensembles de données, le département américain de l’Énergie (DOE) a accordé 13,7 millions de dollars à neuf projets dans le cadre du programme Advanced Scientific Computing Research (ASCR) en septembre 2021. Une équipe dirigée par le Dr Byung-Jun Yoon, professeur agrégé au département de génie électrique et informatique de la Texas A&M University, a reçu 2,4 millions de dollars pour relever les défis liés au déplacement, au stockage et au traitement des énormes ensembles de données produits et traités par les flux de travail scientifiques.
Le principe général de ce projet est de se concentrer sur les objectifs scientifiques de chaque ensemble de données et de maintenir la rétention des quantités d’intérêt (QoI) qui se rapportent aux objectifs. En optimisant la représentation des données tout en gardant l’accent sur les objectifs scientifiques à portée de main, l’équipe de Yoon est en mesure de préserver les informations importantes qui peuvent conduire à des avancées scientifiques malgré la réduction significative de la taille des données.
Notre idée est non seulement de réduire considérablement la quantité de données, mais aussi de préserver en fin de compte les objectifs pour lesquels les données sont censées servir. C’est pourquoi nous l’appelons la réduction des données basée sur les objectifs pour les flux de travail scientifiques. Nous voulons réduire la quantité de données mais ne pas sacrifier les quantités ou les qualités d’intérêt. »
Dr Byung-Jun Yoon, professeur agrégé, Département de génie électrique et informatique, Texas A&M University
L’une des premières étapes que l’équipe de Yoon prendra pour atteindre cet objectif consiste à utiliser une approche théorique de l’information pour trouver une représentation compacte des données en exploitant la sémantique et les invariances. Ils examineront également l’impact de la réduction des données sur la réalisation des objectifs finaux, sur la base desquels ils optimiseront conjointement les modèles qui composent les flux de travail scientifiques généraux.
Un exemple de la façon dont une quantité écrasante de données peut devenir ingérable est la microscopie électronique cryogénique (cryo-EM), qui est une méthode largement utilisée pour l’analyse de la structure moléculaire. Au cours de la cryo-EM, les ensembles de données typiques sont composés de milliers de micrographies contenant des images de projection des molécules dans diverses orientations d’une taille de plusieurs téraoctets. Un autre exemple est celui des expériences de diffusion des rayons X, qui sont régulièrement effectuées pour analyser la structure du matériau. Lorsqu’elle est effectuée dans un mode de cartographie où les expositions aux rayons X sont effectuées sur la section transversale d’un échantillon, une carte de diffusion unique est un ensemble de données 4D pouvant contenir environ 10 milliards de valeurs.
« Ce qui me passionne le plus, c’est probablement pour la première fois que nous examinons ce problème de réduction des données d’un point de vue objectif, ce qui, je pense, n’a peut-être pas été fait par d’autres », a déclaré Yoon. « Nous proposons une métrique qui peut être utilisée pour quantifier de manière objective l’impact de la réduction des données, puis optimiser le pipeline de réduction des données en utilisant cette métrique afin que nous puissions préserver l’utilisabilité des données pour soutenir l’objectif final. Les performances ultimes que nous pouvons apporter en appliquant cette idée à notre réduction de données sont également très excitantes. »
La mission du programme ASCR est de découvrir, développer et déployer des capacités de calcul et de mise en réseau pour analyser, modéliser, simuler et prédire des phénomènes complexes importants pour le DOE et l’avancement de la science.