Un nouveau modèle peut localiser les sons dans le monde réel

Le cerveau humain est finement réglé non seulement pour reconnaître des sons particuliers, mais aussi pour déterminer de quelle direction ils proviennent. En comparant les différences de sons qui atteignent l’oreille droite et l’oreille gauche, le cerveau peut estimer l’emplacement d’un chien qui aboie, d’un camion de pompiers qui gémit ou d’une voiture qui approche.

Les neuroscientifiques du MIT ont maintenant développé un modèle informatique qui peut également effectuer cette tâche complexe. Le modèle, qui se compose de plusieurs réseaux de neurones convolutifs, non seulement accomplit la tâche aussi bien que les humains, mais il lutte également de la même manière que les humains.

Nous avons maintenant un modèle capable de localiser les sons dans le monde réel. Et lorsque nous avons traité le modèle comme un participant expérimental humain et simulé ce vaste ensemble d’expériences sur lesquelles les gens avaient testé des humains dans le passé, ce que nous avons trouvé maintes et maintes fois, c’est que le modèle récapitule les résultats que vous voyez chez les humains. »

Josh McDermott, professeur agrégé de sciences du cerveau et cognitives et membre du McGovern Institute for Brain Research du MIT

Les résultats de la nouvelle étude suggèrent également que la capacité des humains à percevoir l’emplacement est adaptée aux défis spécifiques de notre environnement, explique McDermott, qui est également membre du Center for Brains, Minds, and Machines du MIT.

McDermott est l’auteur principal de l’article, qui paraît aujourd’hui dans Nature Comportement humain. L’auteur principal de l’article est Andrew Francl, étudiant diplômé du MIT.

Localisation de la modélisation

Lorsque nous entendons un son tel qu’un sifflet de train, les ondes sonores atteignent nos oreilles droite et gauche à des moments et des intensités légèrement différentes, selon la direction d’où provient le son. Certaines parties du mésencéphale sont spécialisées pour comparer ces légères différences afin d’aider à estimer la direction d’où provient le son, une tâche également connue sous le nom de localisation.

Cette tâche devient nettement plus difficile dans des conditions réelles – ; où l’environnement produit des échos et de nombreux sons sont entendus à la fois.

Les scientifiques ont longtemps cherché à construire des modèles informatiques capables d’effectuer le même type de calculs que le cerveau utilise pour localiser les sons. Ces modèles fonctionnent parfois bien dans des environnements idéalisés sans bruit de fond, mais jamais dans des environnements réels, avec leurs bruits et leurs échos.

Pour développer un modèle de localisation plus sophistiqué, l’équipe du MIT s’est tournée vers les réseaux de neurones convolutionnels. Ce type de modélisation informatique a été largement utilisé pour modéliser le système visuel humain, et plus récemment, McDermott et d’autres scientifiques ont également commencé à l’appliquer à l’audition.

Les réseaux de neurones convolutifs peuvent être conçus avec de nombreuses architectures différentes, donc pour les aider à trouver celles qui fonctionneraient le mieux pour la localisation, l’équipe du MIT a utilisé un supercalculateur qui leur a permis de former et de tester environ 1 500 modèles différents. Cette recherche en a identifié 10 qui semblaient les mieux adaptées à la localisation, que les chercheurs ont ensuite formées et utilisées pour toutes leurs études ultérieures.

Pour former les modèles, les chercheurs ont créé un monde virtuel dans lequel ils peuvent contrôler la taille de la pièce et les propriétés de réflexion des murs de la pièce. Tous les sons transmis aux modèles provenaient de quelque part dans l’une de ces salles virtuelles. L’ensemble de plus de 400 sons d’entraînement comprenait des voix humaines, des sons d’animaux, des sons de machines tels que des moteurs de voiture et des sons naturels tels que le tonnerre.

Les chercheurs ont également veillé à ce que le modèle commence avec les mêmes informations fournies par les oreilles humaines. L’oreille externe, ou pavillon, a de nombreux plis qui réfléchissent le son, modifiant les fréquences qui pénètrent dans l’oreille, et ces réflexions varient en fonction de l’origine du son. Les chercheurs ont simulé cet effet en faisant passer chaque son par une fonction mathématique spécialisée avant qu’il n’entre dans le modèle informatique.

« Cela nous permet de donner au modèle le même type d’informations qu’une personne aurait », explique Francl.

Après avoir formé les modèles, les chercheurs les ont testés dans un environnement réel. Ils ont placé un mannequin avec des microphones dans ses oreilles dans une pièce réelle et ont joué des sons de différentes directions, puis ont introduit ces enregistrements dans les modèles. Les modèles se sont comportés de manière très similaire aux humains lorsqu’on leur a demandé de localiser ces sons.

« Bien que le modèle ait été formé dans un monde virtuel, lorsque nous l’avons évalué, il pouvait localiser les sons dans le monde réel », explique Francl.

Modèles similaires

Les chercheurs ont ensuite soumis les modèles à une série de tests que les scientifiques ont utilisés dans le passé pour étudier les capacités de localisation des humains.

En plus d’analyser la différence de temps d’arrivée aux oreilles droite et gauche, le cerveau humain fonde également ses jugements de localisation sur les différences d’intensité du son qui atteint chaque oreille. Des études antérieures ont montré que le succès de ces deux stratégies varie en fonction de la fréquence du son entrant. Dans la nouvelle étude, l’équipe du MIT a découvert que les modèles montraient ce même schéma de sensibilité à la fréquence.

« Le modèle semble utiliser les différences de synchronisation et de niveau entre les deux oreilles de la même manière que les gens le font, d’une manière qui dépend de la fréquence », explique McDermott.

Les chercheurs ont également montré que lorsqu’ils rendaient les tâches de localisation plus difficiles, en ajoutant plusieurs sources sonores jouées en même temps, les performances des modèles informatiques diminuaient d’une manière qui imitait étroitement les modèles d’échec humain dans les mêmes circonstances.

« Au fur et à mesure que vous ajoutez de plus en plus de sources, vous obtenez un schéma spécifique de déclin de la capacité des humains à juger avec précision du nombre de sources présentes et de leur capacité à localiser ces sources », explique Francl. « Les humains semblent se limiter à localiser environ trois sources à la fois, et lorsque nous avons effectué le même test sur le modèle, nous avons constaté un comportement vraiment similaire. »

Parce que les chercheurs ont utilisé un monde virtuel pour former leurs modèles, ils ont également pu explorer ce qui se passe lorsque leur modèle apprend à se localiser dans différents types de conditions non naturelles. Les chercheurs ont formé un ensemble de modèles dans un monde virtuel sans échos, et un autre dans un monde où il n’y avait jamais plus d’un son entendu à la fois. Dans un troisième, les modèles n’étaient exposés qu’à des sons avec des plages de fréquences étroites, au lieu de sons naturels.

Lorsque les modèles entraînés dans ces mondes non naturels étaient évalués sur la même batterie de tests comportementaux, les modèles s’écartaient du comportement humain et la manière dont ils échouaient variait en fonction du type d’environnement dans lequel ils avaient été entraînés. Ces résultats soutiennent l’idée que les capacités de localisation du cerveau humain sont adaptées aux environnements dans lesquels les humains ont évolué, affirment les chercheurs.

Les chercheurs appliquent maintenant ce type de modélisation à d’autres aspects de l’audition, tels que la perception de la hauteur et la reconnaissance de la parole, et pensent qu’il pourrait également être utilisé pour comprendre d’autres phénomènes cognitifs, tels que les limites de ce à quoi une personne peut prêter attention ou se souvenir. , dit McDermott.

La recherche a été financée par la National Science Foundation et le National Institute on Deafness and Other Communication Disorders.