Samuel (Sandy) Aronson, ALM, MA, directeur exécutif des solutions informatiques et d'IA pour Mass General Brigham Personalized Medicine et directeur principal des solutions informatiques et d'IA pour l'Accélérateur de transformation clinique, est l'auteur correspondant d'un article publié dans NEJM AI qui examinait si l'IA générative pouvait être prometteuse pour améliorer l'analyse de la littérature scientifique sur les variantes dans les tests génétiques cliniques. Leurs conclusions pourraient avoir un impact important au-delà de ce cas d'utilisation.
Sommaire
Comment résumeriez-vous votre étude pour un public profane ?
Nous avons testé si l’IA générative peut être utilisée pour identifier si les articles scientifiques contiennent des informations pouvant aider les généticiens à déterminer si les variantes génétiques sont nocives pour les patients. En testant ce travail, nous avons identifié des incohérences dans l’IA générative qui pourraient présenter un risque pour les patients si elles ne sont pas correctement traitées. Nous suggérons des formes de test et de surveillance qui pourraient améliorer la sécurité.
Sur quelle question enquêtiez-vous ?
Nous avons étudié si l'IA générative peut être utilisée pour déterminer : 1) si un article scientifique contient des preuves sur une variante qui pourraient aider un généticien à évaluer une variante génétique et 2) si les preuves trouvées sur la variante soutiennent une conclusion bénigne, pathogène, intermédiaire ou non concluante.
Quelles méthodes ou approches avez-vous utilisées ?
Nous avons testé une stratégie d’IA générative basée sur GPT-4 en utilisant un ensemble de données étiquetées de 72 articles et comparé l’IA générative aux évaluations de généticiens experts.
Qu'as-tu trouvé ?
L'IA générative a donné des résultats relativement satisfaisants, mais des améliorations sont nécessaires pour la plupart des cas d'utilisation. Cependant, à mesure que nous avons exécuté nos tests à plusieurs reprises, nous avons observé un phénomène que nous avons jugé important : l'exécution répétée du même ensemble de données de test a produit des résultats différents. En exécutant de manière répétée l'ensemble de tests au fil du temps, nous avons caractérisé la variabilité. Nous avons constaté que la dérive (changements dans les performances du modèle au fil du temps) et le non-déterminisme (incohérence entre les exécutions consécutives) étaient présents. Nous avons développé des visualisations qui démontrent la nature de ces problèmes.
Quelles sont les implications ?
Si un développeur d'outils cliniques n'est pas conscient que les grands modèles linguistiques peuvent présenter une dérive et un non-déterminisme importants, il peut exécuter son ensemble de tests une fois et utiliser les résultats pour déterminer si son outil peut être introduit dans la pratique. Cela pourrait être dangereux.
Quelles sont les prochaines étapes ?
Nos résultats montrent qu'il pourrait être important d'exécuter un ensemble de tests plusieurs fois pour démontrer le degré de variabilité (non-déterminisme) présent. Nos résultats montrent également qu'il est important de surveiller les changements de performance (dérive) au fil du temps.