Dans cette interview, Rami Mehio, responsable des logiciels et de l’informatique chez Illumina, partage ses expériences et ses contributions à des projets génomiques majeurs comme le séquençage complet du génome de la UK Biobank. Il discute des défis et des innovations dans l’analyse des données génomiques, soulignant le rôle d’Illumina dans l’avancement de la recherche génétique et de la médecine de précision.
Sommaire
Pourriez-vous vous présenter et nous donner une brève description de votre parcours professionnel ?
Je m’appelle Rami Mehio. Je dirige le développement logiciel et informatique chez Illumina. J’ai rejoint Illumina en 2018 dans le cadre de l’acquisition d’Edico Genome et je suis depuis responsable de la supervision de la bioinformatique, des logiciels séquenceurs, des plates-formes de données cloud et des logiciels cliniques dans l’ensemble du portefeuille d’Illumina. Avant de rejoindre Illumina, j’étais chez Edico et j’ai dirigé le développement du processeur DRAGEN BioIT et aidé à sa commercialisation.
Pourriez-vous décrire le rôle et les contributions spécifiques d’Illumina dans l’ensemble du projet de séquençage du génome de la UK Biobank, notamment en termes de technologie et d’expertise fournies ?
Illumina est le partenaire technologique de séquençage du projet, ce qui signifie que le séquençage du génome entier (WGS) a été réalisé avec les séquenceurs Illumina. Illumina a également été choisi comme partenaire bioinformatique dans l’analyse de chaque génome et leur appel conjoint à une cohorte. En tant que telle, l’analyse secondaire a été réalisée à l’aide du pipeline de lignées germinales primé de DRAGEN avec sa cartographie graphique multi-génome et son appel de variantes. Pour suivre les tâches de calcul et de stockage de 500 000 WGS, l’agrégation a été réalisée avec le génotypage itératif gVCF (IGG) DRAGEN sur la plate-forme cloud Illumina Connected Analytics (ICA) et a utilisé un filtrage basé sur ML permettant une sensibilité et une précision améliorées des variantes.
La manipulation et l’analyse d’un ensemble de données aussi vaste ont dû présenter des défis uniques. Quels étaient ces défis et comment la technologie d’Illumina les a-t-elle résolus ?
Le principal défi consistait à garantir que nous disposions des infrastructures informatiques adéquates pour prendre en charge l’analyse de 500 000 génomes. L’analyse secondaire des 500 000 génomes a été réalisée en six semaines environ sur Amazon Web Service (AWS). Nous avons dû mettre en place des processus d’assurance qualité pour nous assurer que les tâches d’analyse du reste de nos clients ne manquaient pas de nœuds de calcul.
Un autre défi que nous avons rencontré concernait l’agrégation, notamment en termes de nombre de fichiers, de nombre d’appels d’API, de taille des données et de coût. Cet exercice nous a permis d’architecturer et de régler DRAGEN IGG et ICA pour en faire un produit sans précédent et capable d’agréger des millions de génomes avec une haute précision et un faible coût. L’architecture a également permis de résoudre le problème N+1. Cela signifie que si nous devions regrouper mille génomes supplémentaires, nous serions capables de le faire de manière incrémentielle et non de faire le travail de 510 000.
Comment la technologie d’Illumina améliore-t-elle l’identification de variantes génétiques moins fréquentes, et quel impact cela a-t-il sur la recherche génétique ?
Le pipeline DRAGEN possède des fonctionnalités uniques qui améliorent la sensibilité et la précision des données, ce qui signifie que nous pouvons détecter des variantes que d’autres pipelines ont du mal à identifier. DRAGEN y parvient en utilisant une technologie génomique multiréférence qui correspond mieux à la référence aux échantillons. Cela permet une détection et une cartographie précises dans les régions difficiles et hautement polymorphes du génome. Nous avons également introduit l’apprentissage automatique dans nos versions ultérieures de DRAGEN, ce qui nous a permis de réduire considérablement les faux positifs tout en améliorant la sensibilité. La précision et la sensibilité de DRAGEN ont été mises à l’épreuve et corroborées par deux prix PrecisionFDA dans les domaines des maladies germinales, des maladies héréditaires et de l’oncologie.
De quelle manière votre technologie garantit-elle que les données de ce projet sont compatibles et comparables avec d’autres études à grande échelle sur la santé de la population ?
Le mérite en revient à la biobanque britannique et à ses membres du consortium pharmaceutique, à certains des dirigeants du programme All of Us et de ses centres de séquençage associés, ainsi qu’au leadership de Genomics England. Ils ont convenu d’adopter la même version du pipeline DRAGEN, et Illumina a pu soutenir et supprimer les obstacles. Nous avons fourni des détails sur le pipeline et les configurations sur notre emplacement centralisé et avons travaillé en étroite collaboration avec chaque programme pour garantir la cohérence entre les groupes. Un pipeline commun est une nécessité essentielle pour que les données soient compatibles et augmentent la puissance statistique des cohortes.
Quelles avancées en matière de logiciels et d’informatique ont émergé de ce projet, et comment repoussent-elles les limites de la recherche génomique ?
Il s’agit probablement du plus grand regroupement de séquençage de génome entier au monde à l’heure actuelle. Habituellement, le regroupement de grandes cohortes est assez difficile. D’après notre expérience, les projets ont souvent tendance à avoir des difficultés lorsqu’ils traitent plus de 10 000 échantillons. DRAGEN IGG sur ICA est désormais capable de s’adapter à des centaines de milliers d’échantillons tout en résolvant également le problème N+1 : l’ajout de 10 000 échantillons supplémentaires à la cohorte de 500 000 ne nécessite pas que l’utilisateur redémarre l’appel conjoint depuis le début.
Sur la base des résultats de ce projet, quelles sont les implications plus larges pour la recherche et les soins de santé futurs, en particulier dans le contexte de la médecine de précision ?
Les données WGS permettront aux chercheurs d’identifier des variantes rares non codantes qui contribuent à l’apparition et à la progression de la maladie. Il identifiera également les mutations qui protègent contre les maladies. En combinant les données du WGS avec les riches données cliniques et de style de vie des participants de la UK Biobank, les chercheurs sont désormais particulièrement bien équipés pour répondre aux questions sur les raisons pour lesquelles certaines personnes développent des maladies particulières alors que d’autres ne le font pas et pourquoi certaines conditions s’aggravent chez certaines personnes au fil du temps.
Cela contribuera également à accélérer la découverte et le développement de médicaments en permettant aux chercheurs d’identifier de nouvelles cibles médicamenteuses. Ceci est important car les sociétés pharmaceutiques ont découvert que les cibles médicamenteuses potentielles étayées par des preuves génétiques claires ont deux fois plus de chances de donner lieu à des médicaments efficaces.
Pouvez-vous discuter de l’importance de la collaboration et du partenariat, comme celui observé dans le projet UK Biobank, pour faire progresser la recherche génomique ?
Grâce à la collaboration, ce partenariat a permis de concrétiser le rêve de séquencer et d’analyser un grand nombre de génomes dans le but d’améliorer les soins de santé.
La vision de la UK Biobank de produire et de rendre publiques ces cohortes de données est louable. Cela ouvre la porte à des évaluations du score de risque polygénique et à des découvertes de médicaments plus précises.
Grâce à cette collaboration, le logiciel d’Illumina a mûri et nos capacités se sont développées. Nous avons établi nos capacités dans le domaine informatique et cela nous a permis de donner une signification plus précise aux données.
Où les lecteurs peuvent-ils trouver plus d’informations ?
À propos de Rami Mehio
Rami est le responsable mondial du développement logiciel et informatique chez Illumina. Il a rejoint Illumina en 2018 dans le cadre de l’acquisition d’Edico Genome et a continuellement élargi son leadership, qui comprend désormais la supervision de tous les logiciels d’instruments, des plates-formes cloud, de la bioinformatique et des logiciels cliniques dans l’ensemble du portefeuille d’Illumina. Au cours des dernières années, l’organisation de Rami a contribué à faire d’Illumina un fournisseur leader en informatique, en proposant des produits logiciels innovants et fiables développés en étroite collaboration avec des KOL.
Comment le stress réduit la motilité des spermatozoïdes en altérant les mitochondries