Dans une étude récente publiée dans Virus, les chercheurs discutent d’un pipeline bioinformatique open-source et automatisé pour analyser et intégrer de manière prospective et systématique les données de séquence hétérogènes du virus de l’immunodéficience humaine (VIH)-1. Cette approche a été appliquée sur 18 jeux de données mensuels générés entre janvier 2020 et juin 2022 dans le Rhode Island (RI) aux États-Unis.
Le pipeline proposé a facilité la collaboration de routine entre les chercheurs et le ministère de la Santé du RI (RIDOH) en temps quasi réel. Cette approche a également permis aux chercheurs de comparer l’effet de méthodes phylogénétiques distinctes et d’algorithmes de distance uniquement avec des ensembles de données d’analyses de grappes de séquences du VIH-1.
Étude: Un pipeline bioinformatique automatisé informant les réponses de santé publique en temps quasi réel aux nouveaux diagnostics de VIH dans une épidémie de VIH à l’échelle de l’État. Crédit d’image : CI Photos / Shutterstock.com
Sommaire
Arrière-plan
Les défis associés à l’intégration, à l’analyse et à l’interprétation des données en temps réel retardent les réponses de santé publique, en particulier lorsque le VIH est pris en compte. Ainsi, l’analyse des données génomiques sur le VIH ou des séquences du VIH-1 pourrait éclairer les réponses de santé publique et, en fin de compte, surmonter les problèmes de gestion des données, de calcul et d’analyse.
Les agences de santé publique recueillent régulièrement des séquences du VIH-1 pendant les soins cliniques pour les tests de résistance aux médicaments. Les mêmes échantillons pourraient également aider à estimer l’évolution virale d’un individu à l’autre.
Tout comme la recherche des contacts établit des réseaux sociaux et sert de proxy pour le réseau de transmission réel du VIH, les relations phylogénétiques entre les séquences pourraient fournir des informations pertinentes pour guider les réponses de santé publique. En fait, la recherche des contacts est une source indépendante d’informations sur les réseaux sociaux, qui, à son tour, pourrait aider à détecter les cas de VIH non diagnostiqués ou diagnostiqués hors soins.
À propos de l’étude
Dans la présente étude, les chercheurs recherchent et intègrent des données moléculaires sur le VIH à l’échelle de l’État à partir de bases de données cliniques, de séquences et de santé publique.
Les principes SQUAT ont ensuite été utilisés pour analyser ces données et identifier les séquences avec plus de 5 % de codons d’arrêt, l’hypermutation guanosine-adénosine, les mutations atypiques et la distance exacte par paire de nucléotides d’édition entre les nouvelles séquences. Ces séquences ont ensuite été comparées aux séquences moléculaires historiques du VIH-1.
Après des analyses de qualité, le pipeline a été utilisé pour détecter des clusters moléculaires dans des séquences récemment ajoutées à partir de nouveaux cas index. À cette fin, le pipeline a utilisé MAFFT v. 7.313 pour effectuer des alignements de séquences de la séquence initiale unique du VIH-1 plusieurs fois pour chaque patient.
Le pipeline a mis en œuvre cinq méthodes phylogénétiques et des paramètres de définition de cluster qui ont favorisé les clusters de faux positifs et maximisé les informations disponibles. De même, la nouvelle approche a utilisé HIV-TRACE v. 0.4.4 pour effectuer un regroupement de séquences à distance uniquement.
À un seuil de distance de 1,5 %, HIV-TRACE a détecté un nombre de clusters similaire à celui des méthodes phylogénétiques. En outre, ce pipeline a comparé le regroupement entre l’ensemble de données à l’échelle de l’État du RI avec un sous-ensemble obtenu à partir d’une seule grande clinique du RI pour évaluer l’effet d’une densité d’échantillonnage accrue.
Après l’intégration des données, chaque composant du pipeline a généré automatiquement des rapports. Alors que les rapports au niveau individuel résumaient le regroupement, la démographie et les informations cliniques des séquences nouvellement ajoutées, un rapport au niveau de la population a fourni des résumés de regroupement à l’échelle de l’État. Ces données ont identifié la croissance des grappes au fil du temps, décrivant ainsi l’appartenance aux grappes des cas index nouveaux et précédents.
Résultats
Le pipeline développé dans la présente étude incorporait quatre nouvelles fonctionnalités non disponibles dans les approches automatisées d’analyse de grappes du VIH antérieures. Tout d’abord, il comportait une étape de signalisation qui explorait la qualité de la séquence. Deuxièmement, il a mis en œuvre plusieurs méthodes de regroupement phylogénétique et de distance uniquement.
La nouvelle approche a également détecté des individus regroupés en utilisant une combinaison des cinq méthodes phylogénétiques. Enfin, ce pipeline a résumé les résultats de regroupement à l’aide de représentations visuelles.
Alors que les analyses par grappes utilisant des méthodes à distance uniquement ont également identifié de grands réseaux de transmission virale, ce pipeline a aidé les responsables de la santé publique à gérer les cas de VIH en temps réel. De plus, le pipeline a éliminé de manière transparente les obstacles à l’analyse phylogénétique tout en facilitant la réplicabilité.
Par rapport aux méthodes à distance uniquement, le pipeline proposé a détecté 76 % de cas de VIH groupés en plus. Plus précisément, il a identifié 37 nouveaux cas de VIH pour les discussions de gestion de cas.
Le pipeline a également aidé les chercheurs à examiner les différences d’identification des grappes entre un ensemble de données clinique et à l’échelle de l’État, indiquant ainsi l’importance d’un bon échantillonnage. Les auteurs ont noté que la densité d’échantillonnage de séquences élevée à l’échelle de l’État du RI était bénéfique.
Il est également impératif d’interpréter soigneusement et d’accumuler longitudinalement les données de cluster pour obtenir des résultats plus robustes compensant la réduction des clusters induite par l’ajout de séquences.
conclusion
La gestion de l’épidémie de VIH en cours est une priorité du Département américain de la santé et des services sociaux. L’approche multidisciplinaire adoptée dans cette étude a facilité la gestion des cas pour perturber la transmission du VIH en temps quasi réel en RI. En outre, l’approche pourrait permettre une évaluation prospective des avantages des données phylogénétiques et des discussions fondées sur des preuves pour guider les stratégies d’intervention en santé publique.
L’intégration optimale des données génomiques et cliniques, y compris les données bioinformatiques, analytiques et de laboratoire humide des organismes de santé et de santé publique, pourrait améliorer les résultats pour la santé. Les auteurs ont publié ce pipeline pour l’analyse automatisée des clusters du VIH sous la forme d’un package open source mis à disposition sur https://github.com/kantorlab/hiv-real-time-phylogeny