Les scientifiques du MIT produisent un nouveau modèle de vision

Lorsque nous ouvrons les yeux, nous voyons immédiatement notre environnement dans les moindres détails. Comment le cerveau est capable de former si rapidement ces représentations du monde riches en détails est l'un des plus grands casse-tête non résolus de l'étude de la vision.

Les scientifiques qui étudient le cerveau ont essayé de reproduire ce phénomène en utilisant des modèles informatiques de vision, mais jusqu'à présent, les modèles de pointe n'effectuent que des tâches beaucoup plus simples telles que sélectionner un objet ou un visage sur un fond encombré.

Maintenant, une équipe dirigée par des scientifiques cognitifs du MIT a produit un modèle informatique qui capture la capacité du système visuel humain à générer rapidement une description détaillée de la scène à partir d'une image, et offre un aperçu de la façon dont le cerveau y parvient.

Ce que nous essayions de faire dans ce travail est d'expliquer comment la perception peut être tellement plus riche que de simplement attacher des étiquettes sémantiques sur des parties d'une image, et d'explorer la question de savoir comment voyons-nous tout le monde physique. «

Josh Tenenbaum, professeur de sciences cognitives computationnelles

Tenenbaum c'est aussi membre du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) et du Center for Brains, Minds and Machines (CBMM).

Le nouveau modèle postule que lorsque le cerveau reçoit une entrée visuelle, il effectue rapidement une série de calculs qui inversent les étapes qu'un programme d'infographie utiliserait pour générer une représentation 2D d'un visage ou d'un autre objet.

Ce type de modèle, connu sous le nom de graphiques inverses efficaces (EIG), est également en bonne corrélation avec les enregistrements électriques provenant de régions sélectives pour le visage dans le cerveau de primates non humains, ce qui suggère que le système visuel des primates peut être organisé de la même manière que le modèle informatique. , disent les chercheurs.

Ilker Yildirim, un ancien post-doctorant du MIT qui est maintenant professeur adjoint de psychologie à l'Université de Yale, est l'auteur principal de l'article, qui paraît aujourd'hui dans Avancées scientifiques. Tenenbaum et Winrich Freiwald, professeur de neurosciences et de comportement à l'Université Rockefeller, sont les principaux auteurs de l'étude. Mario Belledonne, étudiant diplômé à Yale, est également auteur.

Graphiques inversés

Des décennies de recherche sur le système visuel du cerveau ont étudié en détail comment l'apport de lumière sur la rétine est transformé en scènes cohérentes.

Cette compréhension a aidé les chercheurs en intelligence artificielle à développer des modèles informatiques qui peuvent reproduire des aspects de ce système, tels que la reconnaissance de visages ou d'autres objets.

« La vision est l'aspect fonctionnel du cerveau que nous comprenons le mieux, chez l'homme et les autres animaux », explique Tenenbaum. « Et la vision par ordinateur est l'un des domaines les plus réussis de l'IA à ce stade. Nous tenons pour acquis que les machines peuvent désormais regarder les images et reconnaître très bien les visages, et détecter d'autres types d'objets. »

Cependant, même ces systèmes sophistiqués d'intelligence artificielle ne se rapprochent pas de ce que le système visuel humain peut faire, dit Yildirim.

« Notre cerveau ne détecte pas simplement qu'il y a un objet là-bas, ni ne reconnaît et met une étiquette sur quelque chose », dit-il. « Nous voyons toutes les formes, la géométrie, les surfaces, les textures. Nous voyons un monde très riche. »

Il y a plus d'un siècle, le médecin, physicien et philosophe Hermann von Helmholtz a émis l'hypothèse que le cerveau crée ces riches représentations en inversant le processus de formation de l'image.

Il a émis l'hypothèse que le système visuel comprend un générateur d'images qui serait utilisé, par exemple, pour produire les visages que nous voyons pendant les rêves.

Faire fonctionner ce générateur à l'envers permettrait au cerveau de travailler en arrière à partir de l'image et de déduire quel type de visage ou d'autre objet produirait cette image, disent les chercheurs.

Cependant, la question restait: comment le cerveau pouvait-il exécuter ce processus, connu sous le nom de graphiques inverses, si rapidement?

Les informaticiens ont essayé de créer des algorithmes qui pourraient réaliser cet exploit, mais les meilleurs systèmes précédents nécessitent de nombreux cycles de traitement itératif, prenant beaucoup plus de temps que les 100 à 200 millisecondes dont le cerveau a besoin pour créer une représentation visuelle détaillée de ce que vous voyez.

Les neuroscientifiques croient que la perception dans le cerveau peut se dérouler si rapidement car elle est mise en œuvre dans un passage principalement à action directe à travers plusieurs couches de traitement neuronal organisées hiérarchiquement.

L'équipe dirigée par le MIT a entrepris de créer un type spécial de modèle de réseau de neurones profond pour montrer comment une hiérarchie neuronale peut rapidement déduire les caractéristiques sous-jacentes d'une scène – dans ce cas, un visage spécifique.

Contrairement aux réseaux de neurones profonds standard utilisés en vision par ordinateur, qui sont formés à partir de données étiquetées indiquant la classe d'un objet dans l'image, le réseau des chercheurs est formé à partir d'un modèle qui reflète les représentations internes du cerveau de ce que les scènes avec des visages peuvent ressembler.

Leur modèle apprend ainsi à inverser les étapes d'un programme d'infographie pour générer des visages.

Ces programmes graphiques commencent par une représentation tridimensionnelle d'un visage individuel, puis la convertissent en une image bidimensionnelle, vue d'un point de vue particulier. Ces images peuvent être placées sur une image d'arrière-plan arbitraire.

Les chercheurs théorisent que le système visuel du cerveau peut faire quelque chose de similaire lorsque vous rêvez ou évoquez une image mentale du visage de quelqu'un.

Les chercheurs ont formé leur réseau neuronal profond pour effectuer ces étapes à l'envers – c'est-à-dire qu'il commence par l'image 2D et ajoute ensuite des fonctionnalités telles que la texture, la courbure et l'éclairage, pour créer ce que les chercheurs appellent une représentation « 2.5D ».

Ces images 2.5D spécifient la forme et la couleur du visage d'un point de vue particulier. Celles-ci sont ensuite converties en représentations 3D, qui ne dépendent pas du point de vue.

« Le modèle rend compte au niveau des systèmes du traitement des visages dans le cerveau, lui permettant de voir une image et finalement d'arriver à un objet 3D, qui comprend des représentations de forme et de texture, à travers cette étape intermédiaire importante d'une image 2.5D « , Dit Yildirim.

Performances du modèle

Les chercheurs ont découvert que leur modèle est cohérent avec les données obtenues en étudiant certaines régions du cerveau de singes macaques. Dans une étude publiée en 2010, Freiwald et Doris Tsao de Caltech ont enregistré l'activité des neurones dans ces régions et analysé comment ils ont répondu à 25 visages différents, vus de sept points de vue différents.

Cette étude a révélé trois étapes de traitement de visage de niveau supérieur, qui, selon l'équipe du MIT, correspondent désormais à trois étapes de leur modèle graphique inverse: en gros, une étape dépendante du point de vue 2,5D; une scène qui fait le pont entre 2,5 et la 3D; et une étape 3D, invariante du point de vue, de la représentation du visage.

« Ce que nous montrons, c'est que les propriétés de réponse à la fois quantitatives et qualitatives de ces trois niveaux du cerveau semblent s'accorder remarquablement bien avec les trois premiers niveaux du réseau que nous avons construit », a déclaré Tenenbaum.

Les chercheurs ont également comparé les performances du modèle à celles des humains dans une tâche qui implique de reconnaître les visages de différents points de vue.

Cette tâche devient plus difficile lorsque les chercheurs modifient les visages en supprimant la texture du visage tout en préservant sa forme ou en déformant la forme tout en préservant la texture relative.

Les performances du nouveau modèle étaient beaucoup plus similaires à celles des humains que les modèles informatiques utilisés dans les logiciels de reconnaissance faciale de pointe, preuve supplémentaire que ce modèle pourrait être plus proche de l'imitation de ce qui se passe dans le système visuel humain.

Les chercheurs prévoient maintenant de continuer à tester l'approche de modélisation sur des images supplémentaires, y compris des objets qui ne sont pas des visages, pour déterminer si des graphiques inverses pourraient également expliquer comment le cerveau perçoit d'autres types de scènes.

De plus, ils pensent que l'adaptation de cette approche à la vision par ordinateur pourrait conduire à des systèmes d'IA plus performants.

« Si nous pouvons montrer que ces modèles peuvent correspondre à la façon dont le cerveau fonctionne, ce travail pourrait amener les chercheurs en vision par ordinateur à prendre plus au sérieux et à investir plus de ressources d'ingénierie dans cette approche graphique inverse de la perception », a déclaré Tenenbaum. « Le cerveau est toujours la référence pour tout type de machine qui voit le monde rapidement et richement. »

La source:

Massachusetts Institute of Technology