Un nouveau système d’IA multimodal massif formé sur des dizaines de millions d’images médicales pourrait aider à unifier les outils de radiologie fragmentés et aider les médecins à interpréter les analyses et à générer des rapports plus efficacement.
Étude : MedVersa : Un modèle de base généraliste pour diverses tâches d'imagerie médicale. Crédit d'image : Thitisan/Shutterstock
Dans une étude récente publiée dans la revue NEJM IAles chercheurs ont introduit « MedVersa », une intelligence artificielle généraliste (IA) modèle capable d'ingérer et d'interpréter un large éventail de modalités d'imagerie médicale et de types de tâches. Contrairement aux traditionnels IA modèles formés pour des tâches spécifiques et limitées, MedVersa a été construite sur des dizaines de millions d’instances d’imagerie médicale, lui permettant de détecter des pathologies et de générer des rapports dans un cadre analytique unifié.
Il est encourageant de constater que lorsque les performances de MedVersa ont été comparées à celles d'un radiologue humain dans une évaluation en aveugle des rapports de radiographie thoracique, le modèle a produit des rapports jugés cliniquement comparables aux rapports rédigés par des humains dans de nombreux cas, en particulier pour les examens avec des résultats normaux, tout en réduisant considérablement le temps passé par les radiologues humains à documenter leurs résultats. Ensemble, ces résultats font de MedVersa une étape prometteuse vers le développement d’une nouvelle génération de modèles de base unifiés et multimodaux qui pourraient aider à consolider l’écosystème actuellement fragmenté de IA outils actuellement utilisés dans les milieux de soins cliniques.
Sommaire
Contexte : Fragmentation des outils d’intelligence artificielle médicale
Alors que les progrès récents en matière de puissance de calcul et d’intelligence artificielle (IA) la logique du modèle a permis d'approuver plusieurs de ces outils pour une utilisation dans le domaine médical, leur utilisation est souvent fragmentée. Les modèles formés sur des ensembles de données radiologiques peuvent détecter avec précision la pneumonie sur les radiographies pulmonaires des patients, mais ne peuvent pas utiliser IRM ou des données échographiques pour une évaluation holistique du patient.
Ces modèles « spécialisés » ont souvent du mal à s'adapter aux flux de travail cliniques complexes où le diagnostic d'un patient implique plusieurs types de données. Les biologistes computationnels ont cherché à remédier à cet écart en introduisant le concept d'intelligence artificielle médicale généraliste (GMAI).
Leur objectif était de créer un « modèle de base » (similaire à la technologie « agentique » adoptée par ChatGPT, Google Gemini et d'autres grands modèles linguistiques (LLMs)) qui peut traiter des entrées et des sorties multimodales. Malheureusement, les tentatives précédentes pour concrétiser ce concept se sont largement concentrées sur des entrées textuelles et se sont révélées incapables d'élucider les tâches visuelles complexes indispensables en radiologie.
Développement du modèle d'IA multimodal MedVersa
La présente étude visait à combler cette lacune fonctionnelle en concevant « MedVersa », un généraliste axé sur la radiologie. IA modèle capable d'ingérer, d'annoter, de diagnostiquer, de rapporter et de documenter des données d'imagerie clinique multimodales. Le modèle a été formé à l’aide de « MedInterp », un ensemble de données massif regroupant 91 ensembles de données publiques comprenant ensemble plus de 29 millions d’instances médicales, y compris des images, des annotations de cadre de délimitation, des masques de segmentation, des légendes et d’autres signaux de supervision vision-langage utilisés dans diverses tâches d’imagerie.
Le modèle présente une architecture unique qui utilise un LLM en tant qu'« orchestrateur », évaluant les exigences des utilisateurs (par exemple, « Où se trouve la tumeur du patient ? ») et sélectionnant dynamiquement les modules de vision internes appropriés dans le cadre MedVersa pour l'exécution des demandes. Contrairement aux précédents GMAIs, qui étaient principalement basés sur du texte, MedVersa a été conçu pour générer une réponse textuelle ou déployer des « modules de vision » spécialisés pour la détection ou la segmentation d'objets.
MedVersa peut par conséquent traiter des entrées aussi diverses que des radiographies 2D, 3D CT et IRM scans et le texte des antécédents cliniques des patients simultanément. Après une formation sur modèle, les performances de MedVersa ont été validées par rapport à deux concurrents traditionnels distincts sur neuf tâches d'imagerie distinctes : 1. Spécialiste agréé IA modèles, 2. Radiologues certifiés (n = 10).
Cadre d'évaluation et tests comparatifs
L'évaluation des performances nécessitait l'intervention d'un expert (un IA modèle ou un radiologue humain) pour examiner les rapports générés par les humains, ChatGPT-4o et MedVersa pour les radiographies pulmonaires. Surtout, les experts ne connaissaient pas la source des données. La performance a été notée en fonction de l'exactitude clinique des résultats des experts et de l'efficacité de l'évaluation (temps nécessaire pour terminer l'évaluation et générer un rapport).
Résultats de l'étude : performances dans les tâches d'imagerie
Les résultats de l'étude ont révélé que MedVersa GMAI L'architecture était compétitive et dépassait fréquemment les modèles spécialisés traditionnels « de référence » pour de nombreuses mesures d'évaluation de détection d'objets et de segmentation.
Lors de l'évaluation de la génération de rapports de modèles, dans le test BLEU-4 (plus c'est élevé, mieux c'est, mesure la similarité du texte), MedVersa a obtenu un score de 17,8, contre 14,2 pour MAIRA, 12,0 pour BiomedGPT et 11,5 pour Med-PaLM M. Dans le test RadCliQ (le plus bas est le mieux, mesure l'écart par rapport aux rapports cliniques humains), MedVersa a obtenu un score de 2,71 contre 3,10 pour MAIRA et 3,25 pour BiomedGPT. Alors que Med-PaLM M rapportait un score RadCliQ légèrement meilleur (2,67), celui-ci était statistiquement impossible à distinguer de MedVersa.
Comparaison avec les rapports des radiologues humains
Comparés à des experts humains, les chercheurs ont constaté que les rapports de MedVersa étaient cliniquement comparables aux rapports rédigés par des humains dans 64 % des cas. Pour les examens avec des résultats normaux, cette équivalence est passée à 91 %. Cependant, pour les examens présentant des résultats anormaux impliquant une pathologie plus complexe, l’équivalence était nettement inférieure et les radiologues examinateurs préféraient plus souvent les rapports rédigés par des humains.
Les chercheurs ont également démontré que l’utilisation de MedVersa comme assistant permettait aux médecins de réaliser plus rapidement les flux de travail de rédaction de rapports. Cela a réduit le temps de rédaction des rapports et, surtout, a entraîné moins d'écarts « urgents » (erreurs nécessitant une attention immédiate) que les rapports rédigés par GPT-4o (une réduction de 20 % de l'intervalle de reporting de 5 à 10 minutes).
Conclusions : vers des assistants cliniques unifiés en IA
La présente étude révèle que MedVersa représente une étape importante vers le développement d'un assistant clinique unifié plutôt que de s'appuyer sur des outils traditionnellement fragmentés. IA outils. Son architecture, qui exploite un LLM pour orchestrer des outils de vision spécialisés, a permis à ce nouveau modèle d'atteindre des performances compétitives ou dépassant celles des systèmes spécialisés. IA modèles sur plusieurs tâches tout en rationalisant et en accélérant considérablement les flux de travail des radiologues humains experts.
Cependant, l'étude souligne que même si MedVersa excellait dans les cas de routine, les radiologues certifiés restent préférés pour les cas complexes et anormaux impliquant des pathologies complexes, soulignant l'importance de la supervision d'experts. Les auteurs notent également qu'une généralisabilité plus large à travers les modalités d'imagerie reste un défi permanent, car plusieurs ensembles de données non radiologiques thoraciques de l'étude étaient dominés par des tâches de segmentation plutôt que par une interprétation diagnostique complète.
Par conséquent, même si la présente étude valide MedVersa comme une puissante preuve de concept, les futurs GMAI les modèles doivent être formés avec des ensembles de données élargis qui incluent davantage de modalités (par exemple, des informations génétiques et des dossiers de santé électroniques (DSEs)) pour réaliser pleinement le potentiel de IA-soins aux patients assistés et médiés par des experts humains.

























