Dans une étude récente publiée dans Nature Communications, les chercheurs ont réalisé des enregistrements neuronaux micro-électrocorticographiques (µECoG) à haute résolution pour le décodage de la parole afin d’améliorer les prothèses vocales.
Étude: Les enregistrements neuronaux haute résolution améliorent la précision du décodage de la parole. Crédit d’image : fizkes/Shutterstock.com
Sommaire
Arrière-plan
La capacité de communication et la qualité de vie peuvent être affectées par des troubles neurodégénératifs tels que la sclérose latérale amyotrophique (SLA). En déchiffrant les impulsions cérébrales, les prothèses neuronales vocales pourraient rétablir la communication.
Les approches actuelles sont toutefois entravées par des enregistrements grossiers qui ne parviennent pas à capturer la structure spatio-temporelle complexe de l’activité cérébrale humaine. Bien que les technologies assistées par ordinateur se soient révélées prometteuses pour améliorer la qualité de vie, elles sont parfois entravées par la lenteur du traitement et l’inefficacité.
Les enregistrements cérébraux à haute résolution peuvent permettre un décodage précis des informations parlées, ouvrant ainsi la voie au développement efficace de prothèses.
À propos de l’étude
Dans la présente étude, les chercheurs ont discuté de l’utilisation de réseaux microélectrocorticographiques à haute densité (µECoG) pour améliorer la précision du décodage de la parole chez les personnes souffrant de troubles moteurs tels que la SLA et les syndromes d’enfermement.
Au cours des activités de production de la parole, les chercheurs ont enregistré les activations neuronales de la parole à partir de la moelle épinière à l’aide de réseaux ECoG à couches minces de polymère à cristaux liquides (LCP-TF). Les électrodes ont déchiffré la parole en anticipant les phonèmes prononcés provenant des activations cérébrales à bande gamma élevée (HG).
Pour corroborer les résultats, les données ECG haute densité ont été comparées au décodage de la parole neuronale provenant d’une électroencéphalographie intracrânienne régulière (IEEG). Quatre individus, dont une femme, âgés en moyenne de 53 ans, ont été étudiés pour déterminer l’activité cérébrale de décodage de la parole à une micro-échelle.
Deux variantes des réseaux d’électrodes ECoG à couches minces de polymère à cristaux liquides ont été utilisées, avec une densité d’électrodes ≤ 57 supérieure à celle des réseaux d’électrocorticographie de taille macro et une densité ≤ 9 fois supérieure à celle des réseaux d’électrocorticographie à haute densité.
Les individus S1, S2 et S3 ont été opérés pour des difficultés de mouvement, et des implants à 128 canaux ont été tunnelisés à travers des trous de fraise lors d’une stimulation cérébrale profonde (DBS). L’étude des activations spatio-temporelles propres aux unités de production de la parole (propriétés articulatoires de phonèmes particuliers) a été menée.
L’activité HG normalisée a été moyennée sur des essais axés sur les phonèmes de première position des énoncés autres que des mots. Des modèles d’articulateur similaires axés sur la population ont été trouvés pour ECoG HG dans un espace d’état cortical.
Les chercheurs ont déterminé si cette disposition dépendait de l’espace. À l’aide d’une modélisation discriminante linéaire supervisée (LDA), un modèle de décodage en 20 couches, validé de manière croisée, de phonèmes alignés manuellement, basé sur un sous-espace de faible dimension, a été appliqué.
Les performances de décodage univarié du phonème de chaque électrode ECG ont été évaluées, ainsi que la valeur HG-ESNR (dB) correspondante.
Les sujets S1 et S2 ont été utilisés pour tester l’effet de la résolution spatiale et de la couverture spatiale des signaux neuronaux sur le décodage, car ils possédaient tous deux le SNR et la quantité de données requis pour leur analyse de décodage.
Sans connaissance préalable du lien statistique entre les phonèmes (phonotactique), une approche de génération de phonèmes a été utilisée pour décoder les phonèmes positionnels dans la parole. Les activations HG de toutes les électrodes ECoG critiques ont été envoyées dans un réseau neuronal récurrent « codeur-décodeur » pour chaque phrase.
Résultats
Par rapport au macro-ECoG et au SEEG, les chercheurs ont obtenu des signaux cérébraux avec une résolution spatiale 57 fois supérieure et des rapports signal/bruit 48 % plus élevés, ce qui a amélioré le décodage de 35 % par rapport aux signaux intracrâniens standard. La haute résolution spatiale de l’interface neuronale était nécessaire pour un décodage précis.
Les modèles de décodage non linéaires qui utilisent des informations neuronales spatio-temporelles améliorées ont surpassé les approches linéaires.
Au cours de l’articulation de la parole, il y a eu un changement significatif dans les activations cérébrales spectro-temporelles, notamment une augmentation significative de la puissance de la bande HG. Par rapport aux enregistrements IEEG typiques, les signaux neuronaux obtenus à partir des enregistrements ECoG présentaient une augmentation de 48 % des rapports signal/bruit observés, comme l’indique le coefficient de corrélation de l’enveloppe de la bande gamma élevée (-500,0 millisecondes à 500,0 millisecondes avant l’énoncé parlé). commencé) entre les paires de micro-électrodes.
Les activations de bandes neuronales à gamma élevé ont montré une adaptation spatiale à échelle fine à travers les réseaux, démontrant que les électrodes de type informatif de la parole pourraient être regroupées spatialement.
À des échelles <2,0 mm, les informations vocales incluses dans les activations neuronales à bande gamma élevée étaient spatialement discriminantes. Concernant le début d'un énoncé verbal, les quatre personnes avaient des modèles spatio-temporels différents pour quatre articulateurs différents.
Les enregistrements cliniques standards ont été dépassés de 36 % par les réseaux ECG, ce qui indique leur potentiel à capturer des activations à micro-échelle SNR plus élevées et à déchiffrer la parole.
Les ajustements du modèle linéaire ont révélé des corrélations modestes mais substantielles pour S1, S2 et S3, ainsi qu’une forte association pour S4. Des erreurs systémiques ont été observées dans le décodage ECoG haute densité, principalement liées à la structure articulatoire de la parole.
Avec une résolution spatiale accrue, les performances de décodage se sont considérablement améliorées. La précision du décodage diminuait à mesure que la taille de contact prévue augmentait, la taille de contact la plus basse donnant la précision maximale.
L’espacement nécessaire pour obtenir une capacité de décodage complète était inversement proportionnel au nombre de phonèmes décodés de manière unique, démontrant que la valeur de l’utilisation d’enregistrements cérébraux à haute résolution augmente à mesure que le nombre de phonèmes décodés de manière unique augmente. À mesure que les modèles évoluent, un échantillonnage spatial élevé devient encore plus essentiel.
Conclusion
Dans l’ensemble, les résultats de l’étude ont montré que les réseaux LCP-TF ECoG haute densité permettaient aux prothèses vocales neuronales de décoder la parole avec une haute qualité.
Les enregistrements à micro-échelle ont démontré un décodage de la parole plus précis que les électrodes IEEG classiques et ont permis une meilleure compréhension des processus neurologiques de la production de la parole.
Les résultats soutiennent l’utilisation d’ECoG haute densité pour les interfaces cerveau-ordinateur afin de récupérer la parole chez les personnes souffrant de déficiences motrices qui ont perdu leurs capacités de communication verbale. Les travaux futurs pourraient impliquer la création d’algorithmes de co-enregistrement automatique et la création de grilles ECoG avec des marqueurs de référence.