Les chercheurs ont réussi à former l'IA pour générer un langage naturel directement à partir des enregistrements cérébraux, nous rapprochant de la communication cerveau à texte sans couture.
Recherche: reconstruction générative du langage à partir des enregistrements cérébraux. Crédit d'image: Jackie Niam / Shutterstock
Imaginez pouvoir traduire les pensées en mots sans parler ni taper. Les scientifiques se rapprochent de la réalité. Une étude récente publiée dans la revue Biologie des communications Exploré comment les enregistrements cérébraux peuvent être utilisés pour générer un langage. Cela fait progresser notre compréhension de la façon dont le cerveau traite le langage, avec des applications potentielles dans la formation modèle, la communication basée sur l'intelligence artificielle (IA) et peut-être même dans les thérapies contre les troubles de la parole.
Sommaire
Décoder la langue et les pensées
Le cerveau humain est capable d'un traitement complexe du langage, mais le décodage des pensées directement à partir de l'activité cérébrale a longtemps été un défi. Des recherches antérieures ont tenté cela en utilisant des modèles de classification qui correspondent à l'activité cérébrale aux options de langage prédéfinies. Bien que ces méthodes aient montré un certain succès, elles sont limitées en flexibilité et ne parviennent pas à capturer la complexité complète de l'expression humaine.
Les progrès récents dans les modèles de grande langue (LLMS), tels que ceux qui alimentent les chatbots AI comme Chatgpt, ont révolutionné la génération de texte en prédisant des séquences de mots probables. Cependant, ces modèles n'ont pas été intégrés de manière transparente aux enregistrements cérébraux. Le défi consiste à déterminer si nous pouvons générer directement un langage naturel à partir de l'activité cérébrale sans compter sur un ensemble restreint d'options prédéfinies.
À propos de l'étude
Dans la présente étude, les chercheurs ont développé un nouveau système appelé Brainllm, qui intègre les enregistrements cérébraux à un LLM pour générer un langage naturel. L'étude a utilisé des données d'imagerie par résonance magnétique fonctionnelle non invasive (IRMf) collectées auprès des participants pendant qu'ils écoutaient ou lisent des stimuli linguistiques.
Le modèle a été formé sur trois ensembles de données publics contenant des enregistrements IRMf de participants exposés à divers stimuli linguistiques. Les chercheurs ont conçu un «adaptateur cérébral», un réseau neuronal qui traduit l'activité cérébrale en un format compréhensible par un LLM. Cet adaptateur a extrait les caractéristiques des signaux cérébraux et les a combinés avec des entrées de texte traditionnelles, permettant au LLM de générer des mots qui s'alignent étroitement sur les informations linguistiques codées dans l'activité cérébrale.
Les chercheurs ont d'abord collecté des données d'activité cérébrale pendant que les participants ont traité la langue écrite ou parlée. Ces enregistrements ont ensuite été convertis en une représentation mathématique de l'activité cérébrale. Un réseau de neurones spécialisé a cartographié ces représentations sur un espace compatible avec les intégres du texte du LLM.
Le modèle a ensuite traité ces entrées combinées et généré des séquences de mots en fonction de l'activité cérébrale et des invites de texte antérieures. En entraînant le système sur des milliers de scanneurs cérébrales et des apports linguistiques correspondants, les chercheurs ont affiné le cerveau pour mieux prédire et générer des mots alignés sur l'activité cérébrale.
Contrairement aux méthodes antérieures, qui nécessitaient de sélectionner des mots à partir d'un ensemble prédéfini, Brainllm pourrait générer du texte continu sans contraintes prédéfinies.
L'étude a ensuite évalué les performances de Brainllm contre les modèles existants. L'équipe a testé le système sur une variété de tâches linguistiques, notamment en prédisant le mot suivant dans une séquence, en reconstruisant des passages entiers et en comparant du texte généré avec des continuations de langage perçues par l'homme.
Conclusions majeures
Les chercheurs ont démontré que Brainllm était nettement meilleur pour générer un langage qui s'alignait étroitement sur l'activité cérébrale par rapport aux méthodes traditionnelles basées sur la classification. Plus précisément, il a produit du texte plus cohérent et contextuellement approprié lors du traitement des enregistrements cérébraux. Le modèle a montré la précision la plus élevée lorsqu'elle est formée avec des ensembles de données plus importants, ce qui suggère que l'augmentation de la quantité de données cérébrales pourrait améliorer encore les performances.
L'une des percées clés était la capacité de Brainllm à générer du texte continu plutôt que de sélectionner parmi les options prédéfinies. Contrairement aux méthodes antérieures qui reposaient sur la classification – où le système a choisi parmi un ensemble limité de mots – Brainllm pourrait produire des phrases ouvertes en fonction de l'apport du cerveau. Cela représentait un progrès majeur vers les applications du monde réel, où la communication sans restriction est cruciale.
De plus, les évaluateurs humains ont préféré le texte généré par Brainllm sur les modèles de base, indiquant qu'il a capturé des modèles linguistiques significatifs. Notamment, Brainllm a été particulièrement efficace pour reconstruire le langage «surprenant» – des mots ou des phrases qu'un LLM seul aurait du mal à prédire. Cela démontre que les signaux cérébraux améliorent la modélisation du langage de manière inattendue.
Le système a mieux fonctionné lors de l'analyse de l'activité cérébrale à partir de régions connues pour être impliquées dans le traitement du langage, comme la zone de Broca et le cortex auditif. La précision la plus élevée a été observée lors de l'utilisation de signaux de la zone de Broca, suggérant son rôle central dans la reconstruction du langage naturel. Cela suggère que le raffinement de la cartographie du signal cérébral pourrait encore augmenter la précision et la fiabilité.
Cependant, bien que le modèle ait bien fonctionné, sa précision variait entre les individus et la reconstruction du langage ouvert à partir des enregistrements cérébraux n'était pas optimale. L'étude a également discuté des limites de l'IRMf, qui n'est pas un outil pratique pour les applications en temps réel en raison de son coût et de sa complexité élevés.
Conclusions
Dans l'ensemble, l'étude a marqué une étape importante vers la technologie du cerveau au texte, démontrant que l'intégration des enregistrements cérébraux avec de grands modèles de langage peut améliorer la génération de langage naturel. Bien que les applications du monde réel puissent être encore dans des années, cette recherche jette les bases des interfaces cérébrales-ordinateur qui pourraient un jour aider les individus ayant des troubles de la parole à communiquer de manière transparente.
Les chercheurs pensent que les recherches futures devront explorer des techniques d'imagerie du cerveau alternatives, telles que l'électroencéphalographie (EEG), ce qui pourrait permettre le décodage en temps réel du langage de l'activité cérébrale. De plus, ils suggèrent d'intégrer BrainllM aux interfaces de computeur cérébral (BCIS) à base de moteur, qui ont été utilisées avec succès pour la communication liée au mouvement, pour développer des systèmes neuroprosthétiques plus robustes. Ces progrès dans le décodage du signal cérébral et l'apprentissage automatique pourraient nous rapprocher d'un monde où les pensées peuvent être directement traduites en mots.
















