Le nouvel algorithme de reconnaissance des gestes de la main établit un équilibre entre complexité, précision et applicabilité

Dans le film à succès de science-fiction de 2002 Rapport minoritaire, le personnage de Tom Cruise, John Anderton, utilise ses mains, gainées de gants spéciaux, pour s’interfacer avec son écran d’ordinateur transparent de la taille d’un mur. L’ordinateur reconnaît ses gestes pour agrandir, zoomer et balayer.

Bien que cette vision futuriste de l’interaction ordinateur-humain ait maintenant 20 ans, les humains d’aujourd’hui s’interfacent toujours avec les ordinateurs à l’aide d’une souris, d’un clavier, d’une télécommande ou d’un petit écran tactile. Cependant, de nombreux efforts ont été consacrés par les chercheurs pour débloquer des formes de communication plus naturelles sans nécessiter de contact entre l’utilisateur et l’appareil. Les commandes vocales sont un exemple frappant qui ont trouvé leur place dans les smartphones modernes et les assistants virtuels, nous permettant d’interagir et de contrôler les appareils par la parole.

Les gestes de la main constituent un autre mode important de communication humaine qui pourrait être adopté pour les interactions homme-machine. Les progrès récents dans les systèmes de caméras, l’analyse d’images et l’apprentissage automatique ont fait de la reconnaissance optique des gestes une option plus attrayante dans la plupart des contextes que les approches reposant sur des capteurs portables ou des gants de données, comme utilisé par Anderton dans Rapport minoritaire.

Cependant, les méthodes actuelles sont entravées par diverses limitations, notamment une complexité de calcul élevée, une faible vitesse, une faible précision ou un faible nombre de gestes reconnaissables. Pour résoudre ces problèmes, une équipe dirigée par Zhiyi Yu de l’Université Sun Yat-sen, en Chine, a récemment développé un nouvel algorithme de reconnaissance des gestes de la main qui établit un bon équilibre entre complexité, précision et applicabilité. Comme détaillé dans leur article, qui a été publié dans le Journal d’imagerie électronique, l’équipe a adopté des stratégies innovantes pour surmonter les principaux défis et réaliser un algorithme qui peut être facilement appliqué aux appareils grand public.

L’une des principales caractéristiques de l’algorithme est son adaptabilité à différents types de mains. L’algorithme essaie d’abord de classer le type de main de l’utilisateur comme étant mince, normal ou large sur la base de trois mesures tenant compte des relations entre la largeur de la paume, la longueur de la paume et la longueur des doigts. Si cette classification est réussie, les étapes suivantes du processus de reconnaissance des gestes de la main comparent uniquement le geste d’entrée avec des échantillons stockés du même type de main.

Les algorithmes simples traditionnels ont tendance à souffrir de faibles taux de reconnaissance car ils ne peuvent pas gérer différents types de mains. En classant d’abord le geste d’entrée par type de main, puis en utilisant des exemples de bibliothèques correspondant à ce type, nous pouvons améliorer le taux de reconnaissance global avec une consommation de ressources presque négligeable. »

Zhiyi Yu, Université Sun Yat-sen

Un autre aspect clé de la méthode de l’équipe est l’utilisation d’une « fonction de raccourci » pour effectuer une étape de pré-reconnaissance. Alors que l’algorithme de reconnaissance est capable d’identifier un geste d’entrée sur neuf gestes possibles, la comparaison de toutes les caractéristiques du geste d’entrée avec celles des échantillons stockés pour tous les gestes possibles prendrait beaucoup de temps.

Pour résoudre ce problème, l’étape de pré-reconnaissance calcule un rapport de la surface de la main pour sélectionner les trois gestes les plus probables sur les neuf possibles. Cette fonctionnalité simple est suffisante pour réduire le nombre de gestes candidats à trois, parmi lesquels le geste final est décidé à l’aide d’une extraction de caractéristiques beaucoup plus complexe et de haute précision basée sur les « moments invariants Hu ». Yu déclare : « L’étape de pré-reconnaissance des gestes réduit non seulement le nombre de calculs et de ressources matérielles requis, mais améliore également la vitesse de reconnaissance sans compromettre la précision.

L’équipe a testé son algorithme à la fois dans un processeur PC commercial et une plate-forme FPGA à l’aide d’une caméra USB. Ils ont demandé à 40 volontaires de faire les neuf gestes de la main plusieurs fois pour constituer la bibliothèque d’échantillons, et à 40 autres volontaires pour déterminer l’exactitude du système. Dans l’ensemble, les résultats ont montré que l’approche proposée pouvait reconnaître les gestes de la main en temps réel avec une précision supérieure à 93 %, même si les images des gestes d’entrée étaient tournées, traduites ou mises à l’échelle. Selon les chercheurs, les travaux futurs se concentreront sur l’amélioration des performances de l’algorithme dans de mauvaises conditions d’éclairage et sur l’augmentation du nombre de gestes possibles.

La reconnaissance gestuelle a de nombreux domaines d’application prometteurs et pourrait ouvrir la voie à de nouvelles façons de contrôler les appareils électroniques. Une révolution dans l’interaction homme-machine est peut-être à portée de main !