Un nouveau modèle d'apprentissage profond, LucaProt, a détecté plus de 251 000 nouvelles espèces de virus à ARN dans les écosystèmes mondiaux, révélant une diversité virale sans précédent dans des endroits comme les sédiments de l'Antarctique et les environnements aquatiques extrêmes. Découvrez comment cette avancée pourrait remodeler notre compréhension de l’évolution virale.
Étude : Utiliser l’intelligence artificielle pour documenter la virosphère cachée de l’ARN
Dans une étude récente publiée dans la revue Celluleles chercheurs ont développé un modèle d'apprentissage profond, « LucaProt », un modèle d'IA basé sur un transformateur pour détecter des séquences d'ARN polymérase (RdRP) dépendantes de l'acide ribonucléique (ARN) très divergentes dans les méta-transcriptomes de divers écosystèmes. Ils ont identifié 180 supergroupes de virus à ARN et 161 979 espèces putatives de virus à ARN, montrant que les virus à ARN sont répandus et présents même dans des environnements extrêmes.
Sommaire
Arrière-plan
Les virus à ARN sont répandus et infectent diverses espèces, mais leur rôle dans les écosystèmes mondiaux n’a été reconnu que récemment grâce aux efforts de découverte de virus à grande échelle. Ces études, utilisant principalement des séquences RdRP, ont élargi la virosphère connue en identifiant des milliers de nouvelles espèces de virus. Cependant, les outils actuels négligent souvent des virus à ARN très divergents, ce qui nécessite des stratégies d’identification améliorées.
L'apprentissage profond, en particulier les algorithmes tels que les réseaux neuronaux convolutifs (CNN), les réseaux neuronaux récurrents (RNN) et les transformateurs, a révolutionné de nombreux domaines des sciences de la vie en offrant des approches plus précises et plus flexibles pour identifier les virus. Bien que les CNN et les RNN aient été efficaces, ils sont confrontés à des limites dans le traitement de séquences longues ou complexes. Les architectures de transformateurs, qui excellent dans la capture des relations à courte et longue portée, présentent une alternative prometteuse pour découvrir des virus à ARN très divergents.
Par conséquent, les chercheurs de la présente étude ont développé un outil d’intelligence artificielle (IA) basé sur un transformateur nommé LucaProt, qui a été rigoureusement comparé à plusieurs autres outils de découverte de virus tels que Diamond, HMMscan, HH-suite et PalmScan. LucaProt a atteint le taux de rappel le plus élevé (98,22 %) et a surpassé ces méthodes en termes de rappel et de traitement de séquences longues. De plus, LucaProt a maintenu un taux de faux positifs inférieur à celui de ces outils pour détecter des virus à ARN très divergents provenant des méta-transcriptomes afin de potentiellement révéler une diversité virale cachée.
À propos de l'étude
Au total, 10 487 méta-transcriptomes, comprenant 51 téraoctets de données de séquençage, ont été analysés, dont 10 437 ont été obtenus à partir des archives de lecture de séquence de la base de données du Centre national d'information sur la biotechnologie, couvrant divers environnements tels que l'eau, le sol, l'hôte, et les habitats extrêmes.
De plus, 50 ensembles de données ont été générés en Antarctique et en Chine, couvrant des échantillons marins, d'eau douce, de sol et de sédiments. Le séquençage et l’extraction d’ADN/ARN ont été effectués. Les lectures de séquence ont été assemblées en contigs et les protéines potentielles ont été prédites à l'aide d'ORFfinder.
Deux stratégies ont été utilisées pour identifier les RdRP virales potentielles : LucaProt et ClstrSearch (une approche traditionnelle qui regroupe les protéines en fonction de la similarité des séquences). Le modèle LucaProt a été formé sur 235 413 échantillons, dont 5 979 séquences positives et 229 434 séquences négatives, garantissant ainsi un ensemble de données complet et bien validé.
Les résultats ont été comparés à une autre méthode basée sur le regroupement de protéines homologues. Un test d'analyse comparative a comparé LucaProt aux outils Diamond, HMMscan, HH-suite et PalmScan. LucaProt a surpassé ces outils traditionnels, révélant nettement plus de nouveaux virus à ARN.
Les tests basés sur la réaction en chaîne par polymérase par transcription inverse ont validé la présence d'organismes à ARN provenant de supergroupes viraux. De plus, AlphaFold2 a été utilisé pour prédire les structures tridimensionnelles (3D) des RdRP virales, leurs similitudes structurelles avec les polymérases virales et eucaryotes connues étant minutieusement évaluées.
Résultats et discussion
LucaProt a montré une grande précision (0,014 % de faux positifs) et une grande spécificité (1,72 % de faux négatifs). Un total de 513 134 contigs viraux d’ARN ont été identifiés à l’aide des deux méthodes, représentant 161 979 espèces virales potentielles (avec plus de 90 % d’identité RdRP) et 180 supergroupes viraux d’ARN, comparables aux classifications virales existantes du Comité international de taxonomie des virus.
Notamment, LucaProt a identifié 70 458 virus putatifs uniques, dont 60 supergroupes jusqu’alors non identifiés, avec le taux de rappel le plus élevé parmi toutes les méthodes testées. Parmi ceux-ci, 99,9 % des contigs viraux et 87,2 % des supergroupes ont été identifiés par les deux méthodes, tandis que LucaProt a identifié exclusivement 444 contigs supplémentaires et 23 supergroupes.
LucaProt a atteint le taux de rappel le plus élevé de 98,22 % parmi les outils. D'autres outils ont identifié moins de 42 % des nouveaux virus exclusifs à LucaProt. Notamment, LucaProt a rappelé plus de 98 % des RdRP d’autres études. La validation a confirmé que les 180 nouveaux supergroupes viraux étaient des virus à ARN basés sur des motifs RdRP et une similarité de séquence.
Une analyse plus approfondie utilisant AlphaFold2 a révélé des similitudes structurelles entre les RdRP virales nouvellement identifiées et les polymérases virales existantes, renforçant ainsi la confiance dans l'identification de nouveaux virus à ARN.
L’étude a également révélé certains des génomes de virus à ARN les plus complexes jamais identifiés, notamment un génome de 47,3 kilobases de long, l’un des virus à ARN les plus longs découverts à ce jour. La plupart des génomes de virus à ARN comptaient environ 2 131 nucléotides. Des protéines supplémentaires ont été identifiées dans de nouveaux génomes, renforçant leur classification comme virus à ARN.
La virosphère d’ARN s’est considérablement développée, avec une multiplication par 55,9 du nombre d’espèces par rapport aux classifications précédentes. Une grande diversité phylogénétique a été trouvée dans les supergroupes nouvellement découverts, indiquant un potentiel de virus à ARN plus divergents.
La présence généralisée du virus a été révélée dans 32 sous-types d’écosystèmes et 1 612 emplacements, 33,3 % des groupes identifiés par LucaProt n’ayant pas été signalés auparavant. La diversité alpha, une mesure de la diversité des espèces au sein d'un écosystème, était la plus élevée dans des environnements tels que les feuilles mortes, tandis que l'abondance virale atteignait son maximum dans les sédiments et les environnements marins de l'Antarctique.
De nombreux nouveaux supergroupes viraux étaient principalement aquatiques ou sédimentaires, quelques-uns étant associés à des écosystèmes hôtes spécifiques. Cependant, les biais systémiques dans la génération de données peuvent affecter les comparaisons entre les écosystèmes. Les limites de l'étude incluent les difficultés de classification des virus très divergents, le manque de données ADN correspondantes pour certains groupes de virus et l'identification de génomes viraux partiels uniquement axés sur les segments RdRP.
Conclusion
Cette étude améliore notre compréhension de la virosphère d’ARN en identifiant plus de 251 000 nouvelles espèces virales et 180 nouveaux supergroupes grâce à l’apprentissage profond et à l’analyse méta-transcriptomique à grande échelle. Ces résultats mettent en évidence la vaste diversité génétique des virus dans les échantillons environnementaux, soulignant l’importance des recherches en cours en écologie et en santé publique liées aux agents pathogènes viraux et à la dynamique des écosystèmes.