L’incarnation interne pourrait être la clé de systèmes d’IA plus sûrs

Lorsqu’une personne traverse une table pour passer le sel, son cerveau fait quelque chose de bien plus complexe que de reconnaître une demande et d’exécuter un mouvement. Il s'appuie sur une vie d'expérience corporelle – où se trouve la main dans l'espace, à quoi ressemble une salière, la conscience sociale de qui a demandé et pourquoi. En une fraction de seconde, leur corps et leur cerveau ne font qu’un.

Les systèmes d'intelligence artificielle les plus avancés d'aujourd'hui ne disposent pas de tels mécanismes corporels et une nouvelle étude menée par UCLA Health affirme que cela a des implications significatives sur la façon dont ces modèles se comportent ainsi que sur leur sécurité et leur fiabilité.

Dans un article publié dans la revue NeuroneAkila Kadambi, chercheur postdoctoral à UCLA Health, et ses collègues proposent qu'il manque aux systèmes d'IA actuels deux ingrédients essentiels que les humains tiennent pour acquis : un corps qui interagit avec le monde physique et une conscience interne des propres états de ce corps, tels que la fatigue, l'incertitude ou les besoins physiologiques. Les chercheurs appellent cette propriété combinée « incarnation interne » et proposent que la construction d’analogues fonctionnels dans l’IA représente l’une des frontières les plus cruciales et sous-explorées dans le domaine.

Alors que la modélisation du monde se concentre actuellement sur l'incarnation externe, comme nos interactions extérieures avec le monde, beaucoup moins d'attention est accordée à la dynamique interne, ou à ce que nous appelons « l'incarnation interne ». Chez l’humain, le corps agit comme notre régulateur expérientiel du monde, comme une sorte de système de sécurité intégré. Si vous n'êtes pas sûr, si vous êtes épuisé, si quelque chose entre en conflit avec votre survie, votre corps l'enregistre. Les systèmes d’IA n’ont actuellement pas d’équivalent. Ils peuvent sembler expérientiels, qu’ils le devraient ou non, et c’est un réel problème pour de nombreuses raisons, en particulier lorsque ces systèmes sont déployés dans des contextes conséquents. »

Akila Kadambi, boursier postdoctoral, Département de psychiatrie et des sciences biocomportementales de la David Geffen School of Medicine de l'UCLA et premier auteur de l'article

L’écart corporel de l’IA

Le document se concentre sur les grands modèles de langage multimodaux, qui constituent la classe de technologie qui alimente des outils tels que ChatGPT et Gemini de Google. Bien que ces systèmes puissent traiter et générer du texte, des images et des vidéos pour décrire une tasse d’eau, par exemple, ils ne peuvent pas savoir ce que l’on ressent lorsqu’on a soif, affirment les auteurs.

Cette distinction n’est pas seulement philosophique, affirment les auteurs, mais a également des conséquences mesurables sur la manière dont ces systèmes fonctionnent et se comportent. Dans une illustration tirée de l'article, les chercheurs ont montré à plusieurs modèles d'IA de premier plan une image simple : un petit nombre de points disposés pour suggérer une figure humaine en mouvement, ce qui est un test de perception bien établi connu sous le nom d'affichage ponctuel que même les nouveau-nés peuvent reconnaître comme humain. Plusieurs modèles n'ont pas réussi à identifier le personnage comme une personne, l'un d'entre eux le décrivant plutôt comme une constellation d'étoiles. Lorsque la même image était tournée de seulement 20 degrés, même les modèles les plus performants tombaient en panne.

Les humains n'échouent pas à ce test parce que la perception humaine est ancrée dans une vie d'expérience corporelle qu'ils ont vécue en tant qu'agents agissant dans le monde. Les systèmes d’IA, formés sur de vastes bibliothèques de textes et d’images mais sans expérience corporelle, correspondent à des modèles sans cet ancrage, affirment les auteurs de l’étude.

Deux types d'« incarnation »

L’article établit une distinction qui n’a pas encore été explicitée dans la recherche sur l’IA. Il définit « l'incarnation externe » comme la capacité d'un système à interagir avec le monde physique, à percevoir son environnement, à planifier des actions et à répondre aux retours du monde réel, ce qui constitue un objectif important dans les modèles d'IA multimodaux actuels. Toutefois, le mode de réalisation interne n'a pas été mis en œuvre dans ces modèles. Les auteurs définissent cela comme la surveillance continue de ses propres états internes, l'équivalent biologique de savoir que l'on est fatigué, incertain ou dans le besoin.

Les humains régulent ces états internes de manière constante et automatique à l’aide des organes, des hormones et du système nerveux du corps. Les humains utilisent ces informations non seulement pour maintenir leur santé physique, mais aussi pour façonner leur attention, leur mémoire, leurs émotions et leur comportement social.

« En revanche, les systèmes d'IA actuels n'ont pas de mécanisme équivalent. Ils traitent les entrées et génèrent des sorties sans aucun état interne persistant qui régule leur comportement au fil du temps », a déclaré le Dr Marco Iacoboni, professeur au Département de psychiatrie et des sciences biocomportementales de l'École de médecine David Geffen et auteur principal de l'article. ou se comporter de manière cohérente.

Ce qui vient ensuite

Les auteurs affirment que l’article vise à guider les recherches futures à mesure que la technologie de l’IA se développe. Les auteurs proposent ce qu'ils appellent un « cadre à double incarnation », ou un ensemble de principes pour construire des systèmes d'IA qui modélisent à la fois leurs interactions avec le monde extérieur et leurs propres états internes.

Ces variables d'état internes n'auraient pas besoin de reproduire directement la biologie humaine, mais fonctionneraient comme des signaux persistants traquant des éléments tels que l'incertitude, la charge de traitement et la confiance, qui pourraient façonner les résultats du système et contraindre son comportement au fil du temps.

Les auteurs proposent également une nouvelle classe de tests, ou benchmarks, conçus pour mesurer l'incarnation interne d'un système. Les benchmarks d'IA existants se concentrent presque exclusivement sur les performances externes, par exemple si le système peut naviguer dans un espace, identifier un objet et accomplir une tâche. Les chercheurs de l'UCLA affirment que ce domaine a besoin d'évaluations qui vérifient si un système peut surveiller ses propres états internes, maintenir la stabilité lorsque ces états sont perturbés et se comporter de manière prosociale d'une manière qui émerge de représentations internes partagées plutôt que d'un mimétisme statistique.

« Ce travail permet d'appliquer directement ces informations au développement de l'IA », a déclaré Iacoboni. « Si nous voulons des systèmes d'IA véritablement alignés sur le comportement humain – et pas seulement superficiellement fluides – nous devrons peut-être leur donner des vulnérabilités et des contrôles qui fonctionnent comme des autorégulateurs internes. »