Les modèles d’apprentissage automatique (ML) sont de plus en plus utilisés en oncologie clinique pour le diagnostic du cancer, la prédiction des résultats et la planification de la thérapie oncologique. L’identification précoce et le traitement rapide du cancer, révolutionnés par l’analyse rapide et précise des images radiologiques et pathologiques des tissus à l’aide d’algorithmes ML, peuvent améliorer la probabilité de survie et la qualité des soins prodigués aux patients atteints de cancer.
Dans une récente revue publiée dans la revue Celluledes chercheurs de l’Université de Stanford examinent l’application du ML pour améliorer le diagnostic, le traitement et le pronostic du cancer.
Étude: Des modèles aux patients : progrès de l’apprentissage automatique clinique pour le diagnostic, le pronostic et le traitement du cancer. Crédit image : Bonne journée Photo / Shutterstock.com
Modèles ML courants en oncologie
Les modèles ML sont basés sur l’apprentissage supervisé, chaque point de données ayant une étiquette associée. Les modèles ML couramment utilisés incluent les modèles de forêt aléatoire, les machines à vecteurs de support (SVM), les modèles de régression, les réseaux de neurones, les modèles de réseau de neurones récurrents (RNN), les modèles de réseau de neurones convolutionnels (CNN), les transformateurs et les modèles de réseau de neurones graphiques (GNN).
Les modèles de forêts aléatoires effectuent des estimations en construisant des arbres décisionnels basés sur plusieurs décisions binaires pour les entrées. Les modèles SVM fournissent des lignes ou des hyperplans multidimensionnels pour les caractéristiques tumorales en séparant différentes classes de points de données de la plus grande marge probable entre les classes de données. Les modèles de régression combinent les entrées de manière linéaire pour estimer les étiquettes continues et les étiquettes binaires par régression linéaire et régression logistique, respectivement.
Les réseaux neuronaux comprennent plusieurs couches neuronales calculant de manière itérative des assimilations de type linéaire de variables d’entrée suivies de fonctions non linéaires pour estimer des résultats tels que la probabilité de cancer. Les modèles RNN traitent les informations séquentielles, y compris les séquences génomiques et les séries d’images, en appliquant des couches similaires de réseaux de neurones à tous les objets présents dans les séquences et en mémorisant les objets observés.
Les modèles CNN appliquent des correctifs neuronaux ou des « filtres » qui analysent les images et identifient les modèles. Les couches initiales détectent les caractéristiques de bas niveau telles que les bords, tandis que les couches suivantes détectent les caractéristiques de haut niveau telles que la morphologie des cellules tumorales. Les transformateurs analysent les informations séquentielles par application répétée de l’opération d’attention pour comparer le séquentiel à d’autres composants et mettre à jour les représentations de séquence internes.
Les modèles GNN évaluent les informations structurées en graphiques telles que les graphiques d’interaction cellule à cellule. Les modèles codent les caractéristiques de base des nœuds et des arêtes dans les graphes. Ces informations sont ensuite transmises par les couches des réseaux de neurones lorsqu’elles se déplacent sur les graphiques ML pour mettre à jour les représentations correspondantes.
Les représentations sont utilisées pour estimer les étiquettes de graphe. Toutes les classes de modèles généraux ont une architecture particulière et diffèrent par la taille et le nombre de leurs couches de réseau neuronal.
ML pour le diagnostic, le pronostic et le traitement du cancer
Pour chaque patient, des images sont capturées à l’aide de modalités d’imagerie pathologiques, radiologiques et autres. L’image haute résolution est décomposée en mosaïques d’image qui couvrent l’intégralité de l’image ou uniquement la région d’intérêt (ROI) pour le traitement par les modèles ML. Les modèles CNN traitent les tuiles d’image et génèrent des prédictions au niveau des pixels ou des tuiles, avec des cartes thermiques prédisant les sites où les tumeurs sont susceptibles d’apparaître.
De plus, les sorties au niveau des tuiles sont agrégées en une seule sortie à l’aide de formules ou de modèles ML comme le RNN. Les composants d’estimation finaux, comme les réseaux de neurones, utilisent la sortie de mosaïque intégrée pour les prédictions d’étiquettes qui sont évaluées à l’aide de métriques. Les étiquettes peuvent être obtenues à partir de diverses sources, telles que des biopsies ou la radiologie, et peuvent être de plusieurs types, y compris des étiquettes binaires pour la classification des tumeurs et des étiquettes à valeur réelle pour la régression tumorale.
Les images radiologiques sont utilisées pour détecter des lésions potentiellement malignes lors d’un dépistage régulier ou pour des cas symptomatiques. Si les images radiologiques suggèrent un cancer, des biopsies sont obtenues et le diagnostic est confirmé par l’analyse des images histopathologiques. Les images radiologiques et pathologiques sont également utilisées pour l’évaluation pronostique et la sélection de la thérapie la plus appropriée.
Les ensembles de données moléculaires courants, qui peuvent être obtenus par la transcriptomique unicellulaire et la protéomique spatiale, le séquençage en masse de l’acide ribonucléique (ARN) des biopsies tumorales et le séquençage du génome entier, comprennent l’acide désoxyribonucléique acellulaire circulant (cfDNA), la fragmentomique, les modifications épigénétiques, et l’état de la méthylation de l’ADN. Ces ensembles de données sont intégrés dans des SVM, des modèles de réseaux élastiques, des classificateurs de forêts aléatoires et des modèles bayésiens pour sélectionner le type de réponse aux traitements anticancéreux et prédire leur réponse.
Les classificateurs forestiers aléatoires peuvent identifier l’origine de la tumeur à l’aide de sites d’ADN de cytosine et de guanine (CpG) apparaissant consécutivement et de micro-ARN (miARN). Les profils génétiques spécifiques au type de cellule peuvent être déduits à l’aide de ML sans isoler physiquement les cellules. Les GNN peuvent prédire les résultats du cancer à partir de la protéomique spatiale des cancers de la tête et du cou.
Les modèles de réseaux élastiques peuvent prédire la réponse à l’immunothérapie à partir de profils fragmentomiques d’ADN. Les considérations de données pour ML incluent le rapport signal sur bruit, la parcimonie, la dimensionnalité et la sélection des fonctionnalités.
Plusieurs dispositifs médicaux ML pour le cancer ont été autorisés par la Food and Drug Administration (FDA) des États-Unis et les modifications d’amélioration des laboratoires cliniques (CLIA) pour une utilisation dans la mammographie du cancer du sein, l’endoscopie gastro-intestinale et la détection du cancer de la prostate à partir de l’imagerie par résonance magnétique (IRM) avec SVM et cancers du poumon à partir de radiographies thoraciques et de tomodensitométrie (TDM) avec CNN. Les dispositifs ML ont également été utilisés pour détecter les cancers de l’ovaire.
conclusion
L’examen actuel met en évidence les modèles ML utilisés en oncologie et le pipeline ML régulier pour les estimations diagnostiques, thérapeutiques et pronostiques basées sur l’image du cancer à partir des caractéristiques moléculaires d’échantillons de tissus liquides et solides.
Les prédictions ML peuvent stratifier les risques de cancer, évaluer les facteurs de risque tels que la densité mammaire pour le cancer du sein, détecter les cellules tumorales, aider à la sélection du traitement et prédire les résultats du cancer en identifiant le sous-type de cancer, le statut mutationnel, les métastases tumorales, l’instabilité des microsatellites, la survie des patients et la réponse. à la radiothérapie, à la chimiothérapie et à l’immunothérapie.