En donnant aux participants des appareils portables et un accès à Internet, l’étude américaine Life in Realtime comble le fossé quant à la véritable identité des données de santé numériques, prouvant que l’inclusivité et une conception rigoureuse peuvent rendre les soins de santé basés sur l’IA plus équitables pour tous.
Étude : American Life in Realtime : Benchmark, données de santé générées par les personnes accessibles au public pour l’équité en matière de santé de précision. Crédit image : Lomb/Shutterstock.com
Dans un article récent dans Nexus PNAS, les chercheurs ont élaboré une étude longitudinale et représentative sur la santé à l’échelle nationale appelée La vie américaine en temps réel (ALiR) pour collecter des données de santé générées par la personne (PGHD) via des appareils portables et connectés à Internet fournis par l'étude.
Leur approche aborde les limites des études PGHD existantes qui dépendent des appareils personnels et excluent souvent les populations défavorisées. ALiR peut ainsi servir de référence pour une recherche numérique en santé équitable et généralisable.
Sommaire
Lutter contre la sous-représentation historique
La santé de précision vise à améliorer la prévention et le traitement des maladies en adaptant les stratégies aux contextes biologiques, sociaux et environnementaux uniques des individus. Un élément clé de cette approche est PGHD, qui est collecté via des outils numériques quotidiens tels que les smartphones et les appareils portables.
Ces données fournissent des informations continues sur les comportements et les expositions responsables de la plupart des risques pour la santé modifiables, ce qui les rend essentielles pour identifier les inégalités en matière de santé et améliorer les résultats parmi les groupes marginalisés.
Cependant, le domaine manque d'ensembles de données de référence PGHD, c'est-à-dire de ressources de données standardisées, représentatives et validées qui permettent le développement équitable et reproductible de modèles d'intelligence artificielle (IA). Les auteurs notent qu'une référence PGHD idéale devrait représenter la diversité de la population, inclure des mesures validées à plusieurs reprises, être longitudinale, contenir des données de qualité et de quantité suffisantes et être largement accessible, qui sont des critères remplis par ALiR.
Les ensembles de données actuels, tels que ceux des National Institutes of Health Nous tous et le Biobanque britanniquesous-représentent les populations noires, autochtones, âgées et à faible revenu, s’appuyant souvent sur des données irrégulières ou non structurées. Cela limite la généralisabilité du modèle et risque d’aggraver les disparités en raison de prédictions biaisées.
La pandémie de maladie à coronavirus 2019 (COVID-19) a mis en évidence ces défis, révélant à quel point les inégalités sociales amplifient le fardeau de la maladie. De nombreuses études de détection du COVID basées sur le PGHD reposaient sur des échantillons de commodité qui excluaient les individus défavorisés, en partie à cause d’obstacles au recrutement tels qu’un accès limité à la technologie ou une méfiance.
Pour surmonter ces biais, l’étude ALiR a été mise en place. Il utilise un échantillonnage probabiliste et du matériel fourni par l’étude pour promouvoir l’inclusion et créer une référence pour une recherche en santé de précision et équitable.
Conception de l'étude
L'étude ALiR a été conçue comme une cohorte de santé numérique longitudinale et représentative à l'échelle nationale utilisant les meilleures pratiques en matière d'échantillonnage probabiliste, d'analyse comparative et de normes de données FAIR (Findable, Accessible, Interoperable, Réutilisable).
Les participants ont été sélectionnés au hasard dans la Understanding America Study (UAS), un large panel d’adultes américains basé sur l’adresse. Les personnes consentant à participer ont reçu un appareil portable et un accès à une application mobile personnalisée pour un suivi biométrique continu et des enquêtes courtes et fréquentes.
Ces enquêtes, menées tous les un à trois jours, ont recueilli des informations sur la santé physique et mentale, les comportements, les données démographiques, les expositions environnementales et sociales et les déterminants structurels tels que le revenu, le logement et la discrimination.
Les données ont été liées à des ensembles de données contextuelles, notamment les dossiers de santé, la météo, la qualité de l'air et la criminalité, pour enrichir les informations environnementales et sanitaires. L'étude a également fourni des tablettes électroniques aux participants n'ayant pas accès à Internet afin de minimiser les biais de sélection et de garantir l'inclusion des groupes sous-représentés.
Entre août 2021 et mars 2022, 2 468 membres de l’UAS ont été invités, avec un suréchantillonnage de minorités raciales/ethniques et de groupes peu instruits. Parmi eux, 1 386 ont consenti (64 %) et 1 038 se sont inscrits (75 %).
Des analyses logistiques et forestières aléatoires ont révélé que le non-consentement était le plus associé à un âge avancé, tandis que la non-scolarisation était liée à un niveau d'éducation inférieur.
Les performances d'ALiR
ALiR a atteint une large représentativité dans toutes les caractéristiques de la population américaine, notamment les traits de personnalité, la santé, la démographie et le statut socio-économique.
Les minorités raciales et ethniques étaient surreprésentées (54 % contre 38 % dans la population), tandis que les individus blancs étaient sous-représentés (46 % contre 62 %), ce qui correspond à un suréchantillonnage délibéré visant à améliorer l'inclusivité.
Les participants à faible revenu ou ayant un accès numérique limité étaient bien représentés, avec 77 % n'ayant aucun appareil portable auparavant et 2 % n'ayant pas accès à Internet avant le matériel fourni par l'étude. Les ajustements pondérés ont corrigé la plupart des déséquilibres démographiques mineurs, même si les retraités et les hypertendus restent légèrement sous-représentés.
Par rapport aux études sur les vêtements portables basées sur la commodité, telles que Nous tous Ensemble de données Fitbit « bring-your-own-device » (BYOD), ALiR a démontré un alignement et une diversité de population bien supérieurs. Lorsqu’ils sont utilisés pour entraîner un modèle de classification des infections au COVID-19, les modèles basés sur ALiR ont atteint des performances robustes à la fois dans l’échantillon et hors échantillon, indiquant une forte généralisabilité à tous les sous-groupes démographiques.
Plus précisément, le modèle d'ALiR a atteint une aire sous la courbe (AUC) de 0,84 lorsqu'il a été testé à la fois dans l'échantillon et hors échantillon, maintenant ainsi des performances constantes dans tous les sous-groupes.
En revanche, un modèle formé de manière identique et basé sur Nous tous les données ont atteint une ASC de 0,93 dans l'échantillon, mais sont tombées à 0,68 hors échantillon, soit une perte de précision de 35 %, avec les baisses les plus marquées (22 à 40 %) chez les femmes plus âgées et les participants non blancs.
Conclusions
ALiR est la première étude longitudinale basée sur la population à intégrer les données des appareils portables avec des mesures de santé et comportementales validées à plusieurs reprises, offrant ainsi une référence pour une recherche de précision et équitable sur la santé.
Ses stratégies d'échantillonnage basé sur les probabilités, de fourniture de matériel et de suréchantillonnage ont efficacement minimisé les biais, obtenant une large représentation démographique et socio-économique des États-Unis, améliorant la commodité et les études « apportez votre propre appareil » comme Nous tous.
Le modèle COVID-19 d'ALiR a fonctionné de manière robuste dans divers groupes, montrant que des échantillons représentatifs plus petits, de haute qualité peuvent produire des résultats plus généralisables que des ensembles de données plus grands et biaisés.
Cependant, certains préjugés persistaient, en particulier la sous-représentation des personnes âgées malgré la fourniture d'appareils, ce qui suggère que les obstacles au-delà de l'accès à la technologie, tels que la méfiance ou le désintérêt, affectent la participation. L'étude s'est également concentrée sur le consentement et l'inscription, avec des travaux en cours sur l'engagement à long terme. Les auteurs soulignent que l’ensemble de données ALiR et le code de l’application d’étude qui l’accompagne seront accessibles au public fin 2025, fournissant ainsi une ressource ouverte pour développer et valider des modèles d’IA équitables.
En résumé, ALiR établit non seulement une référence publique en matière de recherche inclusive sur la santé numérique, mais démontre également qu’une conception d’étude réfléchie peut surmonter les obstacles de longue date à la représentation. En fournissant un cadre méthodologiquement solide, ALiR soutient le développement de modèles d’IA plus généralisables et contribue à améliorer l’équité dans la recherche numérique et de précision en santé.
Téléchargez votre copie PDF maintenant !

























