Dans une étude récente publiée dans La santé numérique du Lancetun groupe de chercheurs a développé et évalué une solution d’apprentissage fédéré évolutive et préservant la confidentialité utilisant la micro-informatique à faible coût pour le dépistage de la maladie à coronavirus 2019 (COVID-19) dans les hôpitaux du Royaume-Uni.
Arrière-plan
L’utilisation des données des patients dans la recherche sur l’intelligence artificielle (IA) médicale est confrontée à des défis éthiques, juridiques et techniques, notamment des risques d’utilisation abusive et de violation de la vie privée. L’apprentissage fédéré offre une approche respectueuse de la vie privée en permettant le développement de modèles d’IA sans partager de données en dehors des organisations. Il permet une formation locale sur les données, contrairement à la formation centralisée traditionnelle.
Cette méthode, en particulier l’apprentissage fédéré client-serveur, implique le partage des poids du modèle, et non des données des patients, pour le développement d’un modèle global. Les implémentations hospitalières réelles sont rares et nécessitent souvent une expertise technique et une séparation des données des systèmes cliniques.
Des recherches supplémentaires sont nécessaires pour affiner et valider l’approche d’apprentissage fédéré dans divers contextes de soins de santé et pour relever les défis de mise en œuvre en vue d’une adoption plus large dans des environnements cliniques réels.
À propos de l’étude
La présente étude impliquait un processus détaillé pour développer et tester une solution d’apprentissage fédéré pour le dépistage du COVID-19 dans les hôpitaux britanniques. Les chercheurs ont sélectionné quatre groupes hospitaliers du National Health Service (NHS) : les hôpitaux universitaires d’Oxford (OUH), les hôpitaux universitaires de Birmingham (UHB), les hôpitaux du Bedfordshire (BH) et l’université des hôpitaux de Portsmouth (PUH) et ont utilisé les appareils Raspberry Pi 4 modèle B pour une utilisation complète. empiler l’apprentissage fédéré. Cette configuration a permis à chaque hôpital de former, de calibrer et d’évaluer des modèles d’IA localement à l’aide de données de patients anonymisées, garantissant ainsi la confidentialité.
Des critères d’inclusion et d’exclusion ont été fournis aux fiducies du NHS pour l’extraction de données à partir des dossiers de santé électroniques. La désidentification des données a été rigoureusement menée par des équipes cliniques ou des informaticiens du NHS. L’étude a utilisé une cohorte de contrôle pré-pandémique et une cohorte positive au COVID-19 pour la formation, avec des données comprenant les signes vitaux, les données démographiques et les résultats des tests sanguins. Les extraits de données ont été chargés sur les appareils clients pour la formation, l’étalonnage et l’évaluation fédérés.
La formation fédérée a utilisé la régression logistique et des classificateurs de réseaux neuronaux profonds. Les caractéristiques ont été prétraitées dans un format commun et les données manquantes ont été imputées à l’aide de valeurs médianes locales. L’algorithme FedAvg a facilité la formation entre les groupes hospitaliers, les clients transmettant les paramètres du modèle au serveur central pour agrégation. Calibrage des modèles locaux visant un seuil de sensibilité défini, avec des résultats d’évaluation agrégés par le serveur.
L’évaluation fédérée impliquait l’utilisation de cohortes prospectives provenant de divers hôpitaux. Les stratégies de calage et d’imputation variaient selon que les sites participaient à la fois à la formation et à l’évaluation ou à l’évaluation uniquement. Le réglage du modèle spécifique au site a testé l’adaptabilité du modèle global, et une évaluation centralisée côté serveur a vérifié la fidélité de l’évaluation fédérée. L’étude a également examiné l’impact des caractéristiques individuelles sur les prédictions du modèle.
L’analyse statistique s’est concentrée sur la comparaison des performances du modèle dans différentes configurations et méthodes de formation, en utilisant des mesures telles que l’AUROC, la sensibilité et la spécificité.
Résultats de l’étude
Dans l’étude, la comparaison a révélé une augmentation notable de l’AUROC du modèle de régression logistique. Par exemple, l’OUH a connu une augmentation de l’AUROC de 0,685 à 0,829, et le PUH a connu une augmentation de 0,731 à 0,865. De même, les modèles de réseaux neuronaux profonds ont montré des améliorations encore plus significatives, les valeurs AUROC passant de 0,574 à 0,872 à OUH et de 0,622 à 0,876 à PUH.
Trois fiducies du NHS – OUH, UHB et PUH – ont participé à cette formation fédérée, fournissant des données provenant d’une large cohorte de patients. L’évaluation fédérée comprenait des données sur des patients admis pendant la deuxième vague de la pandémie, avec des taux de prévalence du COVID-19 et des âges médians variables selon les sites participants.
Lorsque les modèles globaux finaux ont été évalués en externe, les modèles de régression logistique et de réseau neuronal profond ont démontré des performances de classification élevées. L’étalonnage fédéré a atteint des sensibilités impressionnantes, avec le modèle de régression logistique à 83,4 % et le modèle de réseau neuronal profond à 89,7 %.
Les performances de ces modèles sont restées stables sur les différents sites d’évaluation. Le modèle de réseau neuronal profond, en particulier, a montré une amélioration plus marquée grâce à la fédération que le modèle de régression logistique, atteignant un plateau de performances après environ 75 à 100 tours.
Le réglage spécifique au site des modèles globaux a entraîné une légère amélioration du modèle de réseau neuronal profond au PUH. Cependant, aucune amélioration significative n’a été observée pour le modèle de régression logistique. Cela suggère un niveau élevé de généralisabilité des modèles globaux et des changements minimes dans la distribution des prédicteurs entre les sites.
L’analyse du modèle global de régression logistique a mis en évidence plusieurs prédicteurs clés, tels que le nombre de granulocytes et les concentrations d’albumine, ce qui s’aligne sur les études précédentes mettant l’accent sur leur rôle dans la réponse inflammatoire. L’analyse du modèle de réseau neuronal profond utilisant les explications additives de Shapley a révélé que le nombre d’éosinophiles était un prédicteur très influent.