Dans une étude récente publiée dans Nature Génie biomédicalles chercheurs ont proposé l’utilisation d’un modèle de transformateur de vision pour décoder les activités du chirurgien à partir de vidéos chirurgicales.
Sommaire
Arrière-plan
L’objectif principal de la chirurgie est d’améliorer l’état de santé général des patients après une intervention chirurgicale. Des preuves récentes ont indiqué que les résultats des interventions chirurgicales sont considérablement influencés par l’activité chirurgicale peropératoire, qui fait référence aux actions entreprises par le chirurgien au cours de l’intervention et à la compétence avec laquelle elles sont exécutées.
La plupart des procédures chirurgicales manquent d’une description complète de l’activité chirurgicale peropératoire. Cette situation est fréquemment observée dans divers domaines médicaux, où les déterminants des résultats spécifiques des patients restent non identifiés ou se présentent de manière distincte.
À propos de l’étude
Dans la présente étude, les chercheurs ont présenté un système d’apprentissage automatique qui utilise un transformateur de vision ainsi qu’un apprentissage contrastif supervisé pour décoder les éléments impliqués dans les activités chirurgicales peropératoires à partir de vidéos obtenues lors de chirurgies robotiques.
Le processus chirurgical a été déconstruit en utilisant un système d’intelligence artificielle chirurgicale (SAIS) pour différencier trois sous-phases distinctes : la manipulation de l’aiguille, la conduite de l’aiguille et le retrait de l’aiguille. Toutes les procédures expérimentales impliquaient une formation exclusive de SAIS sur des échantillons vidéo obtenus uniquement de l’Université de Californie du Sud (USC). Le modèle SAIS a été implémenté sur les échantillons vidéo de test USC, et par la suite, les courbes de caractéristique de fonctionnement du récepteur (ROC) ont été générées et stratifiées en fonction des trois sous-phases.
Pour évaluer la généralisabilité du SAIS aux chirurgiens qui n’ont pas été observés auparavant dans différents établissements médicaux, les chercheurs ont mené une analyse à l’aide d’échantillons vidéo obtenus du Houston Methodist Hospital (HMH) et du St. Antonius Hospital (SAH).
Pour acquérir une meilleure compréhension de la mesure dans laquelle les éléments constitutifs du SAIS ont joué un rôle dans son efficacité globale, l’équipe a mené des expériences impliquant des versions modifiées du SAIS, dans lesquelles certains composants ont été supprimés ou modifiés. Les résultats de ces expériences ont ensuite été analysés en termes de leur valeur prédictive positive (PPV) vis-à-vis du décodage des sous-phases chirurgicales. L’étude a également étudié l’efficacité du SAIS dans le décodage des gestes chirurgicaux exécutés lors des procédures de suture et de dissection des tissus.
Dans la tâche de suture, le SAIS a été formé pour différencier quatre gestes de suture distincts, à savoir le coup droit sous (R1), le coup droit gauche sous (L1), le coup droit sur (R2) et le coup droit combiné sur (C1). L’étude impliquait une activité de dissection communément appelée épargne nerveuse (NS), dans laquelle six gestes de dissection distincts, à savoir la coupe à froid (c), le clip (k), le crochet (h), le pelage (p), le déplacement de la caméra (m) , et la rétraction (r), ont été soumis à la formation SAIS pour les différencier.
Le SAIS a été mis en place pour déchiffrer les gestes de dissection présents dans les vidéos NS complètes de l’USC. La précision des prédictions a été rapportée après un processus de confirmation manuelle pour vérifier si les échantillons vidéo correspondants décrivaient avec précision le geste prévu. La précision a été stratifiée en fonction de la région anatomique du faisceau neurovasculaire par rapport à la glande prostatique.
Résultats
Les résultats de l’étude ont indiqué que le SAIS présentait un décodage cohérent des sous-phases chirurgicales, avec une aire sous la courbe ROC de 0,925 pour l’enfoncement de l’aiguille, 0,945 pour la manipulation de l’aiguille et 0,951 pour le retrait de l’aiguille. Il a été noté que le SAIS pouvait déchiffrer avec compétence les étapes avancées des procédures chirurgicales, y compris, mais sans s’y limiter, la suture et la dissection. L’étude a montré que le SAIS a démontré des performances exceptionnelles, avec des valeurs d’AUC égales ou supérieures à 0,857 dans toutes les sous-phases et tous les hôpitaux.
L’étude a révélé que la voie de l’auto-attention (SA) jouait un rôle important dans la performance du SAIS, car son absence entraînait une diminution d’environ -20 du ∆PPV. Cela suggérait que l’interprétation précise de l’activité chirurgicale peropératoire nécessitait la capture précise du séquençage temporel et de l’interdépendance des cadres.
Les résultats ont également indiqué que l’utilisation d’entrées à double modalité avait un impact plus significatif sur les performances par rapport à l’utilisation d’une seule modalité de données. Le modèle a démontré une diminution moyenne de ∆PPV de presque -3 par rapport à la mise en œuvre de référence lorsque les trames RVB ou le flux optique ont été éliminés.
L’étude a également révélé que le SAIS avait une faible probabilité d’acquérir une méthode anatomique spécialisée pour interpréter les gestes et qu’il résiste à l’aspect directionnel du mouvement gestuel. Cette observation est étayée par les performances comparables du modèle déployé sur des échantillons vidéo présentant des gestes exécutés dans les faisceaux neurovasculaires droit et gauche.
La précision des prédictions des gestes en crochet (h) était d’environ 0,75 dans les deux régions anatomiques. Lors de l’inspection manuelle d’échantillons vidéo classés sous le geste de coupe à froid (c), il a été observé que la précision était faible. Cependant, il a été noté que SAIS était capable d’identifier avec précision un geste de coupe distinct, communément appelé coupe à chaud.
Conclusion
Les résultats de l’étude ont démontré que le décodage des sous-phases chirurgicales, des compétences et des gestes par SAIS pouvait être réalisé de manière fiable, évolutive et objective à l’aide d’échantillons vidéo chirurgicaux. Alors que SAIS a été introduit comme un outil pour décoder des éléments particuliers dans les chirurgies robotiques, il a le potentiel d’être utilisé pour décoder divers autres éléments de l’activité peropératoire à travers diverses procédures chirurgicales.
La présente étude a introduit le SAIS et ses techniques associées, qui peuvent être appliquées à tout domaine impliquant l’interprétation d’indices visuels et de mouvement pour le décodage informationnel.