Imaginez un modèle d'intelligence artificielle (IA) capable d'observer et de comprendre des images en mouvement avec la subtilité d'un cerveau humain. Aujourd'hui, les scientifiques de Scripps Research ont fait de cela une réalité en créant MovieNet : une IA innovante qui traite les vidéos de la même manière que notre cerveau interprète les scènes de la vie réelle au fur et à mesure qu'elles se déroulent au fil du temps.
Ce modèle d'IA inspiré du cerveau, détaillé dans une étude publiée dans le Actes de l'Académie nationale des sciences le 19 novembre 2024, pourra percevoir des scènes en mouvement en simulant la manière dont les neurones – ou les cellules cérébrales – donnent un sens au monde en temps réel. L'IA conventionnelle excelle dans la reconnaissance des images fixes, mais MovieNet introduit une méthode permettant aux modèles d'apprentissage automatique de reconnaître des scènes complexes et changeantes ; une avancée qui pourrait transformer les domaines du diagnostic médical à la conduite autonome, où la détection de changements subtils au fil du temps est cruciale. MovieNet est également plus précis et plus durable sur le plan environnemental que l'IA conventionnelle.
Le cerveau ne voit pas seulement les images fixes ; cela crée un récit visuel continu. La reconnaissance d'images statiques a parcouru un long chemin, mais la capacité du cerveau à traiter des scènes fluides, comme regarder un film, nécessite une forme beaucoup plus sophistiquée de reconnaissance de formes. En étudiant comment les neurones capturent ces séquences, nous avons pu appliquer des principes similaires à l'IA. »
Hollis Cline, Ph.D., auteur principal, directeur du Dorris Neuroscience Center et professeur Hahn de neurosciences à Scripps Research
Pour créer MovieNet, Cline et le premier auteur Masaki Hiramoto, chercheur chez Scripps Research, ont examiné comment le cerveau traite les scènes du monde réel sous forme de courtes séquences, semblables à des extraits de films. Plus précisément, les chercheurs ont étudié comment les neurones des têtards répondaient aux stimuli visuels.
« Les têtards ont un très bon système visuel et nous savons qu'ils peuvent détecter et répondre efficacement aux stimuli en mouvement », explique Hiramoto.
Lui et Cline ont identifié des neurones qui répondent à des caractéristiques semblables à celles d'un film, telles que les changements de luminosité et la rotation de l'image, et peuvent reconnaître les objets lorsqu'ils se déplacent et changent. Situés dans la région de traitement visuel du cerveau connue sous le nom de tectum optique, ces neurones assemblent des parties d'une image en mouvement en une séquence cohérente.
Considérez ce processus comme un puzzle lenticulaire : chaque pièce seule n'a peut-être pas de sens, mais ensemble, elles forment une image complète en mouvement. Différents neurones traitent diverses « pièces de puzzle » d’une image animée réelle, que le cerveau intègre ensuite dans une scène continue.
Les chercheurs ont également découvert que les neurones optiques du tectum des têtards distinguaient des changements subtils dans les stimuli visuels au fil du temps, capturant des informations dans des clips dynamiques d'environ 100 à 600 millisecondes plutôt que dans des images fixes. Ces neurones sont très sensibles aux modèles de lumière et d'ombre, et la réponse de chaque neurone à une partie spécifique du champ visuel aide à construire une carte détaillée d'une scène pour former un « clip vidéo ».
Cline et Hiramoto ont formé MovieNet pour émuler ce traitement semblable à celui du cerveau et encoder des clips vidéo sous la forme d'une série de petits repères visuels reconnaissables. Cela a permis au modèle d'IA de distinguer des différences subtiles entre les scènes dynamiques.
Pour tester MovieNet, les chercheurs lui ont montré des clips vidéo de têtards nageant dans différentes conditions. Non seulement MovieNet a atteint une précision de 82,3 pour cent dans la distinction des comportements de nage normaux et anormaux, mais il a également dépassé les capacités des observateurs humains qualifiés d'environ 18 pour cent. Il a même surpassé les modèles d'IA existants tels que GoogLeNet de Google, qui n'ont atteint qu'une précision de 72 pour cent malgré ses ressources de formation et de traitement étendues.
« C'est là que nous avons vu un réel potentiel », souligne Cline.
L’équipe a déterminé que MovieNet était non seulement meilleur que les modèles d’IA actuels pour comprendre les changements de scènes, mais qu’il utilisait également moins de données et de temps de traitement. La capacité de MovieNet à simplifier les données sans sacrifier la précision le distingue également de l'IA conventionnelle. En décomposant les informations visuelles en séquences essentielles, MovieNet compresse efficacement les données comme un fichier compressé qui conserve les détails critiques.
Au-delà de sa grande précision, MovieNet est un modèle d’IA respectueux de l’environnement. Le traitement conventionnel de l’IA nécessite une énergie immense, laissant une lourde empreinte environnementale. Les exigences réduites en matière de données de MovieNet offrent une alternative plus écologique qui économise l'énergie tout en respectant des normes élevées.
« En imitant le cerveau, nous avons réussi à rendre notre IA beaucoup moins exigeante, ouvrant la voie à des modèles non seulement puissants mais durables », explique Cline. « Cette efficacité ouvre également la porte au développement de l'IA dans des domaines où les méthodes conventionnelles sont coûteuses. »
De plus, MovieNet a le potentiel de remodeler la médecine. À mesure que la technologie progresse, elle pourrait devenir un outil précieux pour identifier des changements subtils dans des conditions à un stade précoce, comme la détection d'un rythme cardiaque irrégulier ou la détection des premiers signes de maladies neurodégénératives comme la maladie de Parkinson. Par exemple, de petits changements moteurs liés à la maladie de Parkinson, qui sont souvent difficiles à discerner pour l'œil humain, pourraient être signalés dès le début par l'IA, ce qui donnerait aux cliniciens un temps précieux pour intervenir.
En outre, la capacité de MovieNet à percevoir les changements dans les habitudes de nage des têtards lorsque ceux-ci sont exposés à des produits chimiques pourrait conduire à des techniques de dépistage de drogues plus précises, car les scientifiques pourraient étudier les réponses cellulaires dynamiques plutôt que de s'appuyer sur des instantanés statiques.
« Les méthodes actuelles négligent les changements critiques car elles ne peuvent analyser que les images capturées à intervalles réguliers », remarque Hiramoto. « L'observation des cellules au fil du temps signifie que MovieNet peut suivre les changements les plus subtils lors des tests de dépistage de drogues. »
Pour l'avenir, Cline et Hiramoto prévoient de continuer à affiner la capacité de MovieNet à s'adapter à différents environnements, en améliorant sa polyvalence et ses applications potentielles.
« S'inspirer de la biologie continuera d'être un domaine fertile pour faire progresser l'IA », déclare Cline. « En concevant des modèles qui pensent comme des organismes vivants, nous pouvons atteindre des niveaux d'efficacité qui ne sont tout simplement pas possibles avec les approches conventionnelles. »