La pathologie vocale fait référence à un problème résultant de conditions anormales, telles que la dysphonie, la paralysie, les kystes et même le cancer, qui provoquent des vibrations anormales dans les cordes vocales (ou cordes vocales). Dans ce contexte, la détection des pathologies vocales (VPD) a reçu beaucoup d’attention en tant que moyen non invasif de détecter automatiquement les problèmes vocaux.
Il se compose de deux modules de traitement : un module d’extraction de caractéristiques pour caractériser les voix normales et un module de détection vocale pour détecter les voix anormales. Les méthodes d’apprentissage automatique telles que les machines à vecteurs de support (SVM) et les réseaux de neurones convolutifs (CNN) ont été utilisées avec succès comme modules de détection vocale pathologique pour obtenir de bonnes performances VPD. En outre, un modèle auto-supervisé et pré-entraîné peut apprendre une représentation générique et riche des caractéristiques vocales, au lieu de caractéristiques vocales explicites, ce qui améliore encore ses capacités VPD. Cependant, le réglage fin de ces modèles pour le VPD conduit à un problème de surapprentissage, dû à un déplacement de domaine de la conversation vers la tâche VPD. En conséquence, le modèle pré-entraîné devient trop concentré sur les données d’entraînement et ne fonctionne pas bien sur les nouvelles données, empêchant la généralisation.
Pour atténuer ce problème, une équipe de chercheurs de l’Institut des sciences et technologies de Gwangju (GIST) en Corée du Sud, dirigée par le professeur Hong Kook Kim, a proposé une méthode d’apprentissage contrastive révolutionnaire impliquant Wave2Vec 2.0 ; un modèle pré-entraîné auto-supervisé pour signaux vocaux- ;avec une nouvelle approche appelée préentraînement adaptatif aux tâches contradictoires (A-TAPT). Ici, ils ont incorporé la régularisation contradictoire au cours du processus d’apprentissage continu.
Les chercheurs ont réalisé diverses expériences sur le VPD à l’aide de la base de données vocale de Saarbrucken, constatant que l’A-TAPT proposé montrait une amélioration de 12,36 % et de 15,38 % du rappel moyen non pondéré (UAR), par rapport au SVM et au CNN ResNet50, respectivement. Il a également atteint un UAR 2,77 % plus élevé que l’apprentissage TAPT conventionnel. Cela montre qu’A-TAPT parvient mieux à atténuer le problème du surapprentissage.
Parlant des implications à long terme de ce travail, M. Park indique qui est le premier auteur de cet article : « D’ici cinq à dix ans, notre recherche pionnière sur le VPD, développée en collaboration avec le MIT, pourrait transformer fondamentalement les soins de santé, la technologie et diverses industries. En permettant un diagnostic précoce et précis des troubles liés à la voix, cela pourrait conduire à davantage de progrès. des traitements efficaces, améliorant la qualité de vie d’innombrables personnes.
Leur article a été mis en ligne le 24 juillet 2023 et publié dans le volume 30 de la revue Lettres de traitement du signal IEEE. Leurs recherches, réalisées dans le cadre d’un projet financé par le GIST et intitulé « Extending Contrastive Learning to New Data Modalities and Resource-Limited Scenarios » en collaboration avec le MIT, Cambridge, MA, États-Unis, s’engagent sur une voie qui promet de redéfinir le paysage du VPD. et l’intelligence artificielle dans les applications médicales. L’équipe du projet comprend Hong Kook Kim (EECS, GIST) et Dina Katabi (EECS, MIT) en tant que chercheurs principaux (PI), ainsi que Jeany Son (AI Graduate School, GIST), Moongu Jeon (EECS, GIST) et Piotr Indyk. (EECS, MIT) en tant que co-PI.
Le professeur Kim souligne : « Notre partenariat avec le MIT a joué un rôle déterminant dans ce succès, facilitant l’exploration continue de l’apprentissage contrastif. La collaboration est plus qu’un simple partenariat ; c’est une fusion d’esprits et de technologies qui s’efforcent de remodeler non seulement les applications médicales mais aussi divers domaines nécessitant des technologies intelligentes et adaptatives. solutions. »
En outre, il est prometteur pour la surveillance de la santé dans des professions exigeantes en termes de voix, comme celles d’agent de centre d’appels, en garantissant une authentification vocale robuste dans les systèmes de sécurité, en rendant les assistants vocaux d’intelligence artificielle plus réactifs et adaptatifs et en développant des outils pour améliorer la qualité vocale dans l’industrie du divertissement.
Espérons de nouvelles innovations dans le domaine de l’apprentissage auto-supervisé et de l’apprentissage contrastif !