Dans un récent article de perspective publié dans npj Digital Medicine, les chercheurs ont discuté des avantages et des limites possibles des données générées artificiellement dans le contexte de l’analyse des soins de santé.
Étude: Exploiter la puissance des données synthétiques dans le domaine de la santé : innovation, application et confidentialité. Crédit d’image : PopTika/Shutterstock.com
Sommaire
Arrière-plan
La prise de décision basée sur les données sous-tend l’analyse prédictive et l’innovation dans la recherche clinique et la santé publique. Dans les domaines bancaire et économique, les informations synthétiques ont démontré un potentiel prometteur pour améliorer le développement d’algorithmes, l’évaluation des risques et l’optimisation des portefeuilles.
D’un autre côté, les risques plus élevés, les responsabilités possibles et les doutes des professionnels de la santé rendent difficile l’utilisation clinique d’informations générées artificiellement.
À propos du point de vue
Dans la perspective actuelle, les chercheurs ont examiné l’utilisation, les applications, les défis et les limites des données synthétiques dans le secteur de la santé.
Données synthétiques : introduction et applications
Les informations synthétiques constituent une alternative viable aux données de santé standard, offrant un moyen d’accéder à des ensembles de données de haute qualité. Il est développé à l’aide de modèles mathématiques ou d’algorithmes, tels que des structures d’apprentissage en profondeur telles que les réseaux contradictoires génératifs (GAN) et les auto-encodeurs variationnels (VAE), pour relever des défis spécifiques en matière de science des données.
Dans des contextes cliniques, les données synthétiques peuvent être utilisées pour quantifier l’efficacité des programmes de dépistage, enrichir les algorithmes d’intelligence artificielle, former des modèles basés sur l’apprentissage automatique pour des groupes de patients particuliers et améliorer les performances des modèles de bien-être de la population afin d’anticiper les épidémies de maladies infectieuses.
Les données synthétiques peuvent également aider à étudier les implications des politiques de santé, notamment en ce qui concerne le vieillissement démographique, en générant un ensemble de données de synthèse et en testant les choix politiques à l’aide de techniques de microsimulation.
En outre, des données synthétiques peuvent être utilisées pour évaluer l’influence des politiques sur les résultats en matière de santé, notamment la morbidité, l’assistance communautaire et le comportement des médecins. Les difficultés cliniques impliquant plusieurs personnes et les pandémies telles que la maladie à coronavirus 2019 (COVID-19) pourraient bénéficier de données synthétiques.
Pendant la pandémie, des données synthétiques ont été utilisées pour augmenter le volume d’informations dans les investigations d’imagerie, améliorant ainsi la précision des méthodes de détection du coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) par rapport aux ensembles de données d’origine.
Les informations synthétiques peuvent également bénéficier aux jumeaux numériques ou aux clones virtuels de processus ou de systèmes physiques utilisés pour la prédiction des comportements en temps réel.
Les données synthétiques peuvent être utilisées pour simuler différents contextes hospitaliers et prédire les résultats, améliorant ainsi les résultats pour les patients et peut-être réduisant les dépenses en construisant des modèles de patients sur mesure.
Limites et défis de l’utilisation des données synthétiques
Les informations générées artificiellement sont utiles pour l’évaluation des risques dans des scénarios cliniques. Cependant, elle présente également des inconvénients, tels qu’une imprécision de la modélisation, une mauvaise interprétabilité et un manque d’outils efficaces pour vérifier la qualité des données.
L’IA peut aider à résoudre ces difficultés en utilisant des méthodes automatisées, telles que des méthodes d’identification d’anomalies, pour trouver des occurrences qui diffèrent considérablement de la distribution des données d’entraînement.
Les algorithmes de génération de type boîte noire, les limites des mesures d’évaluation et la possibilité de sous-ajustement ou de surajustement peuvent cependant réduire la confiance dans les informations synthétiques, augmentant ainsi la difficulté de tirer des conclusions précises ou de prendre des décisions éclairées pour les chercheurs et les professionnels de la santé.
Bien que les approches XAI puissent aider à déterminer si les données synthétiques conservent les corrélations entrées-sorties requises comparables aux données réelles, l’interprétabilité et les explications offertes par les méthodes XAI peuvent être dépendantes du contexte et subjectives.
Dans les cas où les approches XAI ne parviennent pas à évaluer l’exactitude et la représentativité des données, des procédures d’audit robustes sont nécessaires. Les modèles basés sur l’apprentissage automatique et les approches statistiques avancées peuvent évaluer efficacement les similitudes entre les ensembles de données du monde réel et synthétiques, améliorant ainsi la représentativité des données.
Les critères d’évaluation spécifiques à un domaine et les données de référence sont utiles pour comparer les performances de différentes techniques de création de données synthétiques.
Lors du travail avec des données cliniques, une mentalité de « confidentialité dès la conception » doit être adoptée pour garantir que les données artificielles générées à partir de dossiers médicaux ne révèlent pas par inadvertance des informations identifiables concernant des individus et n’entraînent pas une réidentification, enfreignant ainsi les principes de sécurité et de confidentialité des données.
Conclusions
Dans cette perspective, les informations générées artificiellement peuvent transformer les soins de santé en améliorant la capacité de recherche et en développant des solutions rentables. Cependant, des difficultés telles que des informations biaisées, des problèmes de qualité des données et des menaces à la vie privée sont critiques.
Pour exploiter le pouvoir révolutionnaire de l’information synthétique, le secteur de la santé doit participer activement aux dialogues et aux partenariats avec les patients, les agences de réglementation et les développeurs de technologies.
Les données synthétiques ont des applications concrètes dans le domaine de la santé, telles que l’amélioration de la confidentialité des données, l’enrichissement des ensembles de données pour l’analyse prédictive et la promotion de l’ouverture et de la responsabilité.
Les organismes de réglementation contribuent à l’ouverture et à la responsabilité en proposant des techniques d’atténuation des risques, notamment la confidentialité différentielle (DP) et un ensemble de données sur la chaîne de conservation numérique. La protection de la santé des patients et le respect des normes éthiques sont essentiels pour encourager une utilisation sûre des données générées artificiellement.
La confidentialité différentielle apparaît comme une méthode solide, fiable et viable, et le secteur de la santé doit prendre des précautions contre la propagation d’ensembles de données synthétiques en adoptant et en appliquant une législation appropriée.
Il est essentiel d’établir une chaîne de conservation numérique solide pour maintenir la confidentialité, l’intégrité et la sécurité des données tout au long de leur durée de vie.