Technologie d’assistance aux voyants à distance (RSA) – ; qui met en relation des personnes malvoyantes avec des agents humains via un appel vidéo en direct sur leur smartphone – ; aide les personnes malvoyantes ou aveugles à naviguer dans les tâches qui nécessitent la vue. Mais que se passe-t-il lorsque la technologie de vision par ordinateur existante n’aide pas pleinement un agent à répondre à certaines demandes, telles que la lecture d’instructions sur un flacon de médicament ou la reconnaissance d’informations de vol sur l’écran numérique d’un aéroport ?
Selon des chercheurs du Penn State College of Information Sciences and Technology, certains défis ne peuvent être résolus avec les techniques de vision par ordinateur existantes. Au lieu de cela, les chercheurs postulent qu’ils seraient mieux traités par les humains et l’IA travaillant ensemble pour améliorer la technologie et améliorer l’expérience des utilisateurs malvoyants et des agents qui les soutiennent.
Dans une étude récente présentée lors de la 27e Conférence internationale sur les interfaces utilisateur intelligentes (IUI) en mars, les chercheurs ont mis en évidence cinq problèmes émergents avec RSA qui, selon eux, justifient un nouveau développement dans la collaboration homme-IA. La résolution de ces problèmes pourrait faire progresser la recherche sur la vision par ordinateur et initier la prochaine génération de service RSA, selon John M. Carroll, éminent professeur de sciences et technologies de l’information.
Nous sommes intéressés à développer ce paradigme particulier parce qu’il s’agit d’une activité collaborative impliquant des personnes voyantes et non voyantes, ainsi que des capacités de vision par ordinateur. Nous l’avons encadré d’une manière très riche où il y a beaucoup de questions intéressantes d’interaction homme-homme, d’interaction homme-technologie et d’innovation technologique. »
John M. Carroll , professeur distingué de sciences et technologies de l’information
La technologie d’assistance aux personnes voyantes à distance est actuellement disponible via des applications gratuites qui mettent en relation des utilisateurs malvoyants avec des volontaires voyants ou en tant que service payant les connectant à des agents voyants. La technologie est déployée lorsqu’une personne malvoyante a besoin d’aide pour une tâche quotidienne nécessitant la vue – ; comme trouver une table vide dans un restaurant, lire une étiquette d’emballage alimentaire ou identifier la couleur d’un objet – ; et appelle un agent à l’aide d’une fonction vidéo en direct sur son appareil mobile. L’agent voit alors le monde de l’utilisateur à travers cette lentille, lui servant d’yeux pour l’aider à naviguer dans sa demande.
Mais selon Syed Billah, professeur adjoint de l’IST et co-auteur de l’article, le soutien fourni par les agents n’est pas facile.
« Par exemple, créer une vision du monde en regardant à travers la caméra est mentalement exigeant pour les agents », a déclaré Billah. « La bonne nouvelle est qu’une partie de cette tâche peut être déchargée sur des ordinateurs exécutant un algorithme de reconstruction 3D. »
Cependant, une partie du soutien fourni par les agents – ; comme aider un utilisateur malvoyant à naviguer dans un parking ou à lire une étiquette sur une bouteille de médicament – ; vient avec des enjeux plus élevés.
« Pour résoudre ces problèmes, il y a place à amélioration avec la technologie actuelle de vision par ordinateur », a déclaré Billah.
Dans leur étude, les chercheurs ont passé en revue les technologies RSA existantes et interrogé les utilisateurs pour comprendre les défis techniques et de navigation auxquels ils sont confrontés lors de l’utilisation du service. Ils ont ensuite identifié un sous-ensemble de défis qui pourraient être résolus avec les technologies de vision par ordinateur existantes et ont proposé des idées de conception pour les résoudre. Ils ont également identifié cinq problèmes émergents qui, en raison de leur complexité, ne peuvent être résolus par les techniques de vision par ordinateur existantes.
Les chercheurs pensent que ces problèmes pourraient ouvrir de nouvelles opportunités pour améliorer la conception et l’expérience RSA en :
- Reconnaître que les objets communément identifiés comme des obstacles par les caméras des smartphones peuvent ne pas être considérés comme des obstacles par les personnes malvoyantes, mais plutôt comme des outils utiles. Par exemple, un mur bordant un trottoir peut être affiché comme un obstacle dans les applications de navigation courantes, mais une personne malvoyante marchant avec une canne peut s’en servir pour naviguer dans ses pas.
- Aider les utilisateurs à naviguer dans leur environnement lorsqu’un flux de caméra en direct peut être perdu lorsque la bande passante cellulaire est faible, ce qui se produit fréquemment dans les environnements intérieurs.
- Reconnaître le contenu sur les écrans LCD numériques, tels que les informations de vol dans un aéroport ou les panneaux de contrôle de la température dans une chambre d’hôtel.
- Reconnaître des textes sur des surfaces irrégulières. Souvent, des informations importantes sont imprimées d’une manière qui rend la lecture difficile pour les agents humains aidant les personnes malvoyantes ; par exemple, des instructions de médicaments sur un flacon de pilules incurvé ou une liste d’ingrédients sur un sac de croustilles.
- Prédire comment les personnes ou les objets hors cadre se déplaceront. Les agents doivent être capables de communiquer rapidement des informations environnementales dans l’environnement public d’un utilisateur, par exemple d’autres piétons ou une voiture en mouvement, pour aider l’utilisateur à éviter les collisions et à assurer sa sécurité. Cependant, les chercheurs ont constaté qu’il est actuellement difficile pour les agents de suivre ces autres personnes et objets, et presque impossible de prédire leurs trajectoires.
Les chercheurs espèrent que leur étude améliorera l’expérience des utilisateurs et des agents malvoyants.
« A l’avenir, nous imaginons pouvoir utiliser la vision par ordinateur pour donner à l’agent une expérience très immersive et lui fournir la technologie de réalité mixte », a déclaré Rui Yu, doctorant de l’IST « Et nous pourrons directement aider les utilisateurs à obtenir quelques informations de base sur leur environnement basées sur la technologie de vision par ordinateur. »
Sooyeon Lee, ancien doctorant au College of IST et chercheur postdoctoral actuel au Rochester Institute of Technology, et Jingyi Xie, doctorant en informatique, ont également collaboré à l’étude, qui a été soutenue par les National Institutes of Health des États-Unis et la Bibliothèque nationale. de Médecine.