Des chercheurs de Penn Medicine et d’Intel Corporation ont dirigé le plus grand effort mondial d’apprentissage automatique à ce jour pour agréger en toute sécurité les connaissances issues des scintigraphies cérébrales de 6 314 patients atteints de glioblastome (GBM) sur 71 sites à travers le monde et développer un modèle qui peut améliorer l’identification et la prédiction des limites dans trois sous-compartiments tumoraux, sans compromettre l’intimité du patient. Leurs conclusions ont été publiées aujourd’hui dans Communication Nature.
Il s’agit de l’ensemble de données le plus vaste et le plus diversifié sur les patients atteints de glioblastome jamais pris en compte dans la littérature, et a été rendu possible grâce à l’apprentissage fédéré. Plus nous pouvons alimenter les modèles d’apprentissage automatique en données, plus ils deviennent précis, ce qui peut à son tour améliorer notre capacité à comprendre, traiter et éliminer le glioblastome chez les patients avec plus de précision. »
Spyridon Bakas, PhD, auteur principal, professeur adjoint de pathologie et de médecine de laboratoire et de radiologie, à la Perelman School of Medicine de l’Université de Pennsylvanie
Les chercheurs qui étudient des maladies rares, comme le GBM, un type agressif de tumeur cérébrale, ont souvent des populations de patients limitées à leur propre établissement ou emplacement géographique. En raison de la législation sur la protection de la vie privée, telle que la loi de 1996 sur la portabilité et la responsabilité en matière d’assurance maladie (HIPAA) aux États-Unis et le règlement général sur la protection des données (RGPD) en Europe, les collaborations de partage de données entre les institutions sans compromettre la confidentialité des données des patients constituent un obstacle majeur. pour de nombreux fournisseurs de soins de santé.
Une nouvelle approche d’apprentissage automatique, appelée apprentissage fédéré, offre une solution à ces obstacles en amenant l’algorithme d’apprentissage automatique aux données au lieu de suivre le paradigme actuel de centralisation des données vers les algorithmes. Apprentissage fédéré – ; une approche mise en œuvre pour la première fois par Google pour la fonctionnalité de correction automatique des claviers ; forme un algorithme d’apprentissage automatique sur plusieurs appareils ou serveurs décentralisés (dans ce cas, des institutions) contenant des échantillons de données locaux, sans les échanger réellement. Il a déjà été démontré qu’il permettait aux cliniciens d’institutions de différents pays de collaborer à la recherche sans partager de données privées sur les patients.
Bakas a dirigé cette étude collaborative massive avec les premiers auteurs Sarthak Pati, MS, développeur de logiciels senior au Penn’s Center for Biomedical Image Computing & Analytics (CBICA), Ujjwal Baid, PhD, chercheur postdoctoral au CBICA, Brandon Edwards, PhD, chercheur scientifique chez Intel Labs et Micah Sheller, chercheur chez Intel Labs.
« Les données aident à stimuler la découverte, en particulier dans les cancers rares où les données disponibles peuvent être rares. L’approche fédérée que nous décrivons permet d’accéder à un maximum de données tout en réduisant les charges institutionnelles liées au partage des données. » a déclaré Jill Barnholtz-Sloan, PhD, professeur adjoint à la Case Western Reserve University School of Medicine.
Le modèle a suivi une approche par étapes. La première étape, appelée modèle initial public, a été pré-formé à l’aide des données accessibles au public du défi BraTS (International Brain Tumor Segmentation). Le modèle a été chargé d’identifier les limites de trois sous-compartiments tumoraux GBM : « amélioration de la tumeur » (ET), représentant la rupture de la barrière hémato-encéphalique vasculaire dans la tumeur ; le « tumor core » (TC), qui comprend les ET et la partie qui tue les tissus, et représente la partie de la tumeur pertinente pour les chirurgiens qui les retirent ; et la « tumeur entière » (WT), qui est définie par l’union du TC et du tissu infiltré, qui est l’ensemble de la zone qui serait traitée par rayonnement.
Il s’agit d’abord des données de 231 cas de patients provenant de 16 sites, et le modèle résultant a été validé par rapport aux données locales de chaque site. La deuxième étape, appelée la modèle de consensus préliminaire, a utilisé le modèle initial public et a incorporé davantage de données provenant de 2 471 cas de patients provenant de 35 sites, ce qui a amélioré sa précision. La dernière étape, ou modèle de consensus finala utilisé le modèle mis à jour et a incorporé la plus grande quantité de données provenant de 6 314 cas de patients (3 914 680 images) sur 71 sites, sur 6 continents, pour optimiser davantage et tester la généralisabilité à des données invisibles.
Comme contrôle pour chaque étape, les chercheurs ont exclu 20 % du nombre total de cas fournis par chaque site participant du processus de formation du modèle et utilisés comme « données de validation locales ». Cela leur a permis de mesurer la précision de la méthode collaborative. Pour évaluer davantage la généralisabilité des modèles, six sites n’ont été impliqués dans aucune des étapes de formation pour représenter une population de données « hors échantillon » complètement invisible de 590 cas. Notamment, le site de l’American College of Radiology a validé son modèle en utilisant les données d’une étude d’essai clinique nationale.
Après la formation du modèle, le modèle de consensus final a enregistré des améliorations significatives des performances par rapport aux données de validation locales des collaborateurs. Le modèle de consensus final présentait une amélioration de 27 % dans la détection des limites ET, de 33 % dans la détection des limites TC et de 16 % pour la détection des limites WT. Le résultat amélioré est une indication claire de l’avantage qui peut être offert par l’accès à plus de cas, non seulement pour améliorer le modèle, mais aussi pour le valider.
Pour l’avenir, les auteurs espèrent qu’en raison de la méthodologie générique de l’apprentissage fédéré, ses applications dans la recherche médicale pourront être de grande envergure, s’appliquant non seulement à d’autres cancers, mais à d’autres conditions, comme la neurodégénérescence, et au-delà. Ils prévoient également davantage de recherches pour démontrer que l’apprentissage fédéré peut respecter les protocoles de sécurité et de confidentialité dans le monde entier.