Le champ d’application de l’intelligence artificielle (IA) et du deep learning (DL) s’est considérablement élargi depuis 2015, notamment en ophtalmologie. DL utilise des données ophtalmiques, telles que la tomographie par cohérence optique et les photographies du fond d’œil, pour la reconnaissance d’images. Les principales caractéristiques de DL ont été récemment combinées avec l’IA pour le traitement du langage naturel (PNL) en ophtalmologie, ce qui a permis une interaction avec le langage humain.
Les scientifiques ont développé un grand modèle de langage (LLM) qui produit un texte de type humain. OpenAI, par exemple, a développé ChatGPT, un LLM générique basé sur la série Generative Pre-trained Transformer 3 (GPT-3). Plusieurs expériences ont montré que la précision globale de ChatGPT est supérieure à 50 %.
Une récente Sciences de l’ophtalmologie étude a évalué les performances de ChatGPT en ophtalmologie.
Étude: Évaluation des performances de ChatGPT en ophtalmologie : une analyse de ses succès et de ses lacunes. Crédit d’image : metamorworks/Shutterstock.com
Sommaire
Arrière-plan
La PNL a attiré l’attention en raison de la récente publication de modèles de base, qui peuvent être ajustés en fonction de l’application donnée grâce à un processus connu sous le nom d’apprentissage par transfert. Les modèles de base peuvent inclure des milliards de paramètres en raison des progrès du matériel informatique, de la disponibilité de grandes quantités de données de formation et de l’architecture du modèle de transformateur.
GPT-3, un LLM, a été formé sur un vaste ensemble de données de texte comprenant plus de 400 milliards de mots provenant d’Internet, y compris des articles, des livres et des sites Web. Récemment, le LLM a été évalué pour sa capacité à comprendre et à générer le langage naturel en médecine. Cependant, le domaine médical défie la performance des LLM en raison de sa forte demande de raisonnement clinique, qui nécessite des années de formation et d’expérience.
En 2022, les performances de PaLM, un LLM de 540 milliards de paramètres, ont été évaluées sur la base de ses performances dans les questions à choix multiples du United States Medical Licensing Exam (USMLE), qui a révélé une précision de 67,6%. Fait intéressant, ChatGPT a également été en mesure de fournir des explications pertinentes pour étayer leurs réponses.
À propos de l’étude
Des études limitées ont évalué les performances des LLM dans l’espace de questions-réponses en ophtalmologie. Compte tenu de cette lacune dans la recherche, la présente étude a examiné les performances de ChatGPT en ophtalmologie à l’aide de deux banques de questions populaires, notamment la banque de questions en ligne OphthoQuestions et le programme d’auto-évaluation du cours de sciences fondamentales et cliniques (BCSC) de l’American Academy of Ophthalmology.
ChatGPT fonctionne au-delà de la prédiction du mot suivant, car il a été formé à l’aide de commentaires humains. Deux versions de ChatGPT ont été évaluées ; le premier a été publié le 9 janvier 2023, connu sous le nom de modèle hérité, tandis que l’autre modèle mis à niveau a été lancé le 30 janvier 2023. Le modèle mis à jour comprenait « des capacités factuelles et mathématiques améliorées ».
OpenAI a également lancé ChatGPT Plus, qui offre une réponse plus rapide. Les auteurs ont utilisé ChatGPT Plus pour leur analyse, car les versions précédentes étaient inaccessibles.
Plusieurs expériences ont été menées à l’aide de ChatGPT Plus, ce qui a établi la reproductibilité des résultats. Un ensemble de 260 questions de test a été généré à partir du BCSC Self-Assessment Program et 260 autres questions à partir d’OphthoQuestions.
Vingt questions aléatoires ont été sélectionnées à partir de treize sections de l’examen standardisé du programme d’évaluation des connaissances en ophtalmologie (OKAP). Les performances de ChatGPT ont été analysées en fonction du sujet, du type de question et du niveau de difficulté.
Résultats de l’étude
L’étude actuelle a fourni des preuves de la performance de ChatGPT pour répondre aux questions de l’examen OKAP. Une amélioration significative des performances de ChatGPT a été observée lors de l’expérimentation. ChatGPT Plus a montré une précision de 59,4 % sur l’examen OKAP simulé basé sur l’ensemble de tests BCSC et de 49,2 % en utilisant l’ensemble de tests OphthoQuestions.
Sur la base des données historiques agrégées sur les performances humaines, les humains obtiennent un score de 74 % sur la banque de questions de la BCSC. De plus, le groupe de résidents en ophtalmologie ayant terminé leur formation en 2022 a obtenu 63 % sur OphthoQuestions.
Il convient de noter que les performances de ChatGPT en ophtalmologie sont prometteuses car elles correspondent aux niveaux de précision des LLM avancés dans la réponse aux questions médicales générales, qui se situent généralement entre 40 et 50 %, comme indiqué dans les publications récentes de 2022.
La précision du modèle hérité dépendait de la section d’examen, indépendamment de la prise en compte de la difficulté de la question et du niveau cognitif. Cependant, cet effet était moins important dans la version mise à jour de ChatGPT.
Il est important de noter que les performances de ChatGPT se sont constamment améliorées dans les domaines Fondamentaux, Médecine générale et Cornée, ce qui pourrait être dû à la quantité et à la disponibilité massives de données et de ressources de formation sur Internet.
ChatGPT a donné de mauvais résultats en pathologie ophtalmique, en neuro-ophtalmologie et en tumeurs intraoculaires. Ce sont des domaines hautement spécialisés, qui pourraient même être difficiles au sein de la communauté ophtalmologique. Il faut noter qu’environ 40 % des patients adressés aux services de neuro-ophtalmologie et d’oncologie oculaire sont mal diagnostiqués.
Bien que le modèle ChatGPT Plus mis à jour ait montré des performances améliorées dans les tumeurs et pathologies intraoculaires par rapport aux versions précédentes, ses performances sont restées inchangées en neuro-ophtalmologie. De plus, les prédictions ChatGPT se sont révélées plus précises lorsqu’un pourcentage plus élevé d’humains ont répondu correctement à des questions spécifiques. Cette découverte indique que les réponses de ChatGPT correspondent à la compréhension collective des stagiaires en ophtalmologie.
Perspectives d’avenir
À l’avenir, les auteurs prévoient de mener une analyse qualitative pour identifier les domaines qui nécessitent une amélioration dans l’espace ophtalmique. La précision de ChatGPT pourrait être améliorée en incorporant d’autres modèles de base spécialisés formés avec des sources spécifiques à un domaine, telles que EyeWiki.
Actuellement, ChatGPT ne peut pas être implémenté en ophtalmologie en raison de son incapacité à traiter les images. Une nouvelle interface de programmation d’application (API) pour ChatGPT aiderait à valider cette technologie et à atténuer la nature fastidieuse du processus.