Dans une étude récente publiée dans le Médical Journal, les chercheurs ont formé des modèles d’apprentissage automatique (ML) pour analyser les signatures moléculaires de l’ARN dans le sang des patients et ont évalué leurs performances pour distinguer les maladies pédiatriques infectieuses courantes.
Leurs résultats montrent que les modèles ML évaluant les niveaux différentiels d’expression génique peuvent rapidement différencier 18 maladies inflammatoires et infectieuses chez les enfants. Il convient de noter que la précision diagnostique de ces modèles était comparable à celle des professionnels de la santé examinant les données cliniques conventionnelles.
Compte tenu de la faible précision du diagnostic et des retards importants des approches diagnostiques actuelles, cette preuve de concept s’avère très prometteuse pour le diagnostic des maladies lors des soins pédiatriques à l’avenir.
Étude: Diagnostic de la maladie fébrile infantile à l’aide d’une signature moléculaire d’ARN sanguin multiclasse. Crédit d’image : NDABCreativity/Shutterstock.com
Sommaire
Les limites des diagnostics pédiatriques actuels
Les enfants nécessitant des soins médicaux souffrent le plus souvent de maladies inflammatoires et infectieuses en milieu hospitalier et communautaire.
Parmi ceux-ci, seule une petite partie des enfants est infectée par des maladies bactériennes ou inflammatoires graves, ce qui pose aux équipes cliniques l’énigme d’identifier et de traiter correctement cette cohorte sans surtraiter la plupart des patients souffrant d’infections virales spontanément résolutives.
« Les tests de diagnostic conventionnels ne peuvent pas distinguer la multitude d’étiologies potentielles avec suffisamment de rapidité et de précision pour éclairer le traitement initial. Le diagnostic microbiologique basé sur la culture est lent, et bien que les techniques de diagnostic moléculaire soient plus rapides, elles sont limitées par les agents pathogènes inclus dans le panel et des résultats positifs peuvent identifier des agents pathogènes qui ne sont pas la cause de la maladie actuelle, en particulier pour les échantillons respiratoires.
La détection conventionnelle d’agents pathogènes viraux identifie souvent un seul agent pathogène viral, mais ne parvient pas à capturer les infections de plusieurs microbes en interaction, ce qui limite leur application diagnostique.
Les infections les plus graves sont localisées dans des sites difficiles d’accès (en particulier les poumons), ce qui entraîne des rapports faussement négatifs malgré de graves symptômes cliniques d’infection. Les maladies inflammatoires, notamment la maladie de Kawasaki (KD) et l’arthrite juvénile idiopathique, ne disposent actuellement pas de tests permettant de confirmer ou d’infirmer le diagnostic, ce qui entraîne de graves retards dans l’initiation du traitement ou, pire encore, une identification erronée de la maladie.
Il est alarmant de constater que moins de la moitié des enfants admis avec de la fièvre ou même dans une unité de soins intensifs pédiatriques reçoivent finalement un verdict diagnostique définitif.
Cela oblige les professionnels de la santé à recourir à des interventions impliquant des antibiotiques à large spectre, même pour les infections les plus inoffensives, contribuant ainsi au problème croissant de la résistance aux médicaments antimicrobiens.
Récemment, le séquençage de l’ARN (RNA-seq) a été exploré comme approche diagnostique alternative, non limitée par les temps d’attente associés aux procédures de diagnostic conventionnelles.
Un nombre croissant de recherches démontrent que les signatures transcriptionnelles dans les échantillons de sang total peuvent distinguer rapidement et précisément les infections bactériennes et virales, la dengue, le paludisme, le rotavirus, le virus respiratoire syncytial, la tuberculose (TB) et les affections inflammatoires, notamment le lupus érythémateux disséminé (LED). ) et KD.
Une limite notable de ces études est qu’elles se concentrent sur des distinctions binaires simplifiées – un contre un (infection bactérienne ou virale) ou un contre tous (TB ou toute autre maladie) – réduisant ainsi leurs applications cliniques pratiques.
À propos de l’étude
La présente étude utilise un opérateur de retrait et de sélection le moins absolu (LASSO) et une approche de sélection et de classification de caractéristiques dérivées d’un hybride de régression Ridge pour atténuer les limites des recherches antérieures entreprises dans le domaine.
Les chercheurs ont formé des classificateurs ML sur 12 ensembles de données de puces à ADN d’expression génique et ont ensuite testé les performances du modèle sur une cohorte de patients indépendante dont les données de séquençage d’ARN de sang total ont été acquises.
Pour découvrir le panel de biomarqueurs utilisé pour la formation des modèles, 12 ensembles de données de puces à ADN accessibles au public concernant des enfants (n = 1 212) atteints d’une maladie fébrile aiguë et des témoins sains ont été utilisés.
Les données de contrôle ont été utilisées pour corriger les résultats par lots à l’aide de la méthode COmbat CO-Normalization Using conTrols (COCONUT). Les patients pour lesquels une validation clinique de la maladie était disponible ont été inclus dans l’étude, tandis que ceux présentant de multiples agents pathogènes potentiels ont été exclus.
Cela a abouti à un ensemble de données final de 338 cas bactériens, 290 viraux et 487 inflammatoires. Le paludisme était le seul pathogène parasitaire identifié dans l’ensemble de données (n = 97). Cet ensemble de données a été divisé au hasard en données de formation (75 %) et de test (25 %) en utilisant une approche d’exclusion stratifiée pour maintenir les proportions de classe.
Cinq modèles ML ont été formés et évalués, parmi lesquels le modèle hybride LASSO + Ridge a été identifié comme le modèle le mieux adapté permettant une évaluation de la sensibilité aux coûts.
La sensibilité aux coûts (également appelée « apprentissage sensible aux coûts ») est un modèle d’algorithme de pénalisation qui utilise le jugement consensuel de plusieurs experts de terrain pour attribuer une « pondération » aux inconvénients d’une mauvaise identification d’une maladie ou de retards dans l’initiation du traitement. Cela a permis de prioriser les prédictions en faveur des affections pour lesquelles les conséquences d’un diagnostic erroné sont les plus élevées.
Bien que l’approche ci-dessus soit utile pour l’identification de maladies spécifiques et l’intervention clinique à long terme, la plupart des cas pédiatriques, en particulier les infections graves, nécessitent un traitement immédiat du large groupe d’agents responsables (bactériens, viraux ou inflammatoires).
Toutes les données ont été classées en virus, bactéries ou inflammatoires pour répondre à ce besoin et réanalysées. Étant donné que la tuberculose et la maladie de Parkinson diffèrent significativement des autres affections bactériennes et inflammatoires, respectivement, par leur pathologie, leur prise en charge et leurs signatures de transcription, elles ont été traitées comme des classes indépendantes.
« Ces prédictions permettent au modèle de refléter la classification diagnostique utilisée dans la prise de décision clinique et de répondre simultanément à plusieurs questions cliniques. Les équipes cliniques peuvent recevoir les probabilités pour chaque patient d’appartenir à chaque classe comme contribution optimale à la prise de décision.
Le modèle ML final a été validé de manière croisée sur un ensemble de données indépendant comprenant des données de séquençage d’ARN de sang total provenant de 411 patients couvrant toutes les grandes classes de diagnostic et 18 maladies sous-étudiées pour valider les performances du modèle hybride LASSO-Ridge.
Enfin, les modèles ML ont été comparés à des études précédentes un contre tous en utilisant les coefficients du modèle linéaire, les caractéristiques de fonctionnement du récepteur (ROC) et les mesures de l’aire sous la courbe (AUC).
Résultats de l’étude
Le modèle LASSO-Ridge ML a identifié 161 sondes d’ARN comprenant 155 gènes capables de distinguer 18 pathologies pédiatriques possibles. Étant donné que 10 gènes étaient sous-représentés dans les ensembles de données ou représentaient des transcriptions qui ne pouvaient pas être suffisamment vérifiées, 145 gènes ont été définis comme la cohorte finale de biomarqueurs.
Des analyses de classes générales ont révélé que les six classes incluses (virale, bactérienne, paludisme, tuberculose, KD, inflammatoire) pouvaient être distinguées avec précision dans des analyses un contre un et un contre tous.
Les résultats de prédiction des ensembles de tests ont révélé que les modèles ML peuvent prédire de manière fiable la plupart des classes de diagnostic, même si les performances de prédiction dépendent de la taille de l’échantillon d’entraînement.
Cependant, la classification des classes à grande échelle était fiable, indépendamment de la taille de l’échantillon de formation, ce qui met en évidence les applications futures des données de séquençage d’ARN pour éclairer les interventions précoces en matière de maladies pédiatriques.
Cette étude présente des limites notables dans le manque actuel de données de séquençage d’ARN pour la formation de modèles : à l’exception des 18 affections étudiées, la plupart des maladies pédiatriques ne disposent pas de suffisamment de données de formation de cohortes de cas accessibles au public, ce qui empêche l’expansion de la sensibilité du modèle ML.
En effet, le séquençage d’ARN à haut débit actuel d’échantillons de sang total est coûteux et nécessite des installations et une expertise technique dépassant la portée de la plupart des cliniques de diagnostic.
« Pour garantir l’utilité clinique, le développement ultérieur de l’approche nécessitera de grandes cohortes de patients potentiels, avec des phénotypes cliniques cohérents, détaillés et précis. En élargissant la gamme d’affections incluses dans la découverte des panels de transcription, il pourrait être possible d’améliorer le traitement d’un grand nombre de patients, en particulier pour les affections rares et sous-diagnostiquées pour lesquelles une détection précoce et donc un traitement pourraient présenter un avantage significatif. .»
Conclusions
La présente étude montre comment les modèles ML peuvent utiliser efficacement un seul échantillon de sang total pour diagnostiquer et distinguer avec précision et rapidité les affections pédiatriques courantes.
Le modèle hybride LASSO-Ridge a été identifié comme le modèle le plus performant après la pénalisation du modèle via un « apprentissage sensible aux coûts », une approche qui donne la priorité aux diagnostics précis de maladies potentiellement mortelles plutôt qu’à l’identification erronée de conditions moins morbides.
L’analyse de l’ARN-seq sur sang total s’est ainsi avérée comme une alternative rapide et fiable aux approches diagnostiques cliniques conventionnelles, ces dernières prenant historiquement des jours ou des semaines, avec une précision diagnostique inférieure à 50 %.
«… étant donné les cohortes cliniques et les ensembles de données d’expression génique appropriés, il pourrait être possible d’étendre ce principe à d’autres populations telles que les adultes, les patients présentant des comorbidités et les populations affectées par des agents pathogènes spécifiques à certaines zones géographiques, comme la dengue, les infections à arbovirus ou maladies zoonotiques telles que la maladie de Lyme et le typhus, qui posent des défis diagnostiques considérables.
Ainsi, cette étude représente une preuve de concept qui pourrait ouvrir la voie à une nouvelle ère dans les diagnostics pédiatriques, avec des résultats potentiellement salvateurs.
Avec la baisse progressive des dépenses associées au séquençage de nouvelle génération et l’adoption plus large de ces outils, les futurs cliniciens pourraient avoir accès à des informations diagnostiques en quelques heures, réduisant ainsi considérablement les erreurs d’identification, améliorant les résultats cliniques et réduisant indirectement le fardeau mondial des antibiotiques. pathogènes résistants.