En apprenant à l’intelligence artificielle à repérer chaque bouchée d’un enfant, les scientifiques révèlent des habitudes alimentaires cachées qui pourraient transformer la façon dont nous prévenons l’obésité dès la table.
Étude : ByteTrack : une approche d'apprentissage en profondeur pour la détection du nombre de bouchées et du taux de bouchées à l'aide de vidéos de repas chez les enfants. Crédit image : Andrii Spy_k/Shutterstock.com
Les comportements alimentaires mettent en lumière les risques de surconsommation et d’obésité. Une nouvelle étude publiée dans la revue Frontières de la nutrition présente un système d'apprentissage en profondeur pour analyser le comportement de morsure chez les enfants, à l'aide de vidéos qui enregistrent les repas des enfants.
Sommaire
Introduction
La microstructure des repas décrit les différents comportements qui se produisent au cours d'un repas : les bouchées, les mastications, le taux de bouchées et la taille des bouchées. L’analyse de la microstructure des repas permet d’identifier les habitudes alimentaires individuelles et leurs variations dans un large spectre de types d’aliments et de découvrir les mécanismes à l’origine des troubles de l’alimentation et de l’obésité.
Les enfants qui développent l’obésité sont plus susceptibles de prendre des bouchées plus grosses et de manger plus rapidement, ce qui augmente la quantité de nourriture consommée. Les interventions préventives pourraient être adaptées en utilisant la microstructure observée des repas, offrant ainsi un nouveau moyen de freiner cette épidémie.
La référence en matière d'analyse des morsures et de la microstructure est le codage observationnel manuel, qui consiste à visualiser manuellement des enregistrements vidéo des comportements alimentaires des enfants et à les annoter avec des horodatages. Bien que très fiable et précise, cette méthode demande beaucoup de travail et beaucoup de temps, en plus d’être coûteuse.
Comparés au codage manuel, les systèmes automatisés de détection des morsures pourraient être beaucoup plus efficaces et évolutifs. Cependant, ceux-ci utilisent principalement les données des adultes provenant de capteurs acoustiques et d’accéléromètres, basées sur des limites de mouvement prédéfinies. De tels capteurs peuvent interpréter à tort le fait de boire ou de faire des gestes, par exemple, comme des morsures.
Là encore, diverses méthodes de consommation (avec des cuillères, des baguettes ou à la main) pourraient poser des problèmes de détection en augmentant la difficulté de l'acte. De plus, la grande variabilité de l’acte lui-même rend difficile l’automatisation de sa détection dans différents contextes.
Cela a conduit à l’utilisation de plateformes automatisées pour détecter les piqûres. Ces plates-formes peuvent utiliser des critères basés sur la localisation (distance main-visage, ouverture de la bouche) ou des méthodes de flux optique pour suivre les mouvements sur des images successives. Cependant, ils ne peuvent pas distinguer de manière fiable le comportement alimentaire des autres mouvements particulièrement courants chez les enfants.
Cela a suscité l'intérêt pour les méthodes d'apprentissage en profondeur utilisant des réseaux de neurones convolutifs (CNN), principalement formés et testés sur des enregistrements vidéo étroitement contrôlés d'aliments, souvent par des adultes. Dans le monde réel, de telles vidéos sont rares ; la norme est un mauvais éclairage et des différences dans les mouvements alimentaires. La technologie d’apprentissage profond pourrait aider à surmonter les difficultés d’interprétation causées par de tels artefacts.
À propos de l'étude
ByteTrack est un système d'apprentissage en profondeur qui utilise les repas des enfants enregistrés sur vidéo pour déterminer le nombre de bouchées et le taux de bouchées. Il a été formé sur 242 vidéos (1 440 minutes) enregistrées auprès de 94 enfants âgés de 7 à 9 ans, qui ont chacun suivi quatre séances de repas à une semaine d'intervalle. Un sous-ensemble de 52 vidéos a été utilisé pour entraîner le composant de détection de visage du système. Les vidéos ont été augmentées pour introduire des changements réalistes dans les conditions d’enregistrement.
Pour l’enregistrement vidéo, les enfants ont pris quatre repas, à une semaine d’intervalle, comprenant la même nourriture mais en quantités différentes. Le système fonctionne en deux étapes. La première étape est utilisée pour la détection des visages, en verrouillant le visage de l'enfant cible tout en ignorant les autres personnes et objets.
Deux systèmes ont été utilisés à cet effet, l'un axé sur la reconnaissance rapide des visages et l'autre sur la reconnaissance dans des situations difficiles lorsque le visage est partiellement bloqué. La combinaison vise ainsi à obtenir une détection de visage efficace et précise.
La seconde utilise ces données claires pour distinguer l’activité de morsure des autres mouvements. À cette fin, un réseau neuronal convolutif (CNN) EfficientNet a été combiné avec un réseau récurrent de mémoire à long terme (LSTM). Le modèle s'est adapté au flou, à la faible luminosité, au changement d'orientation, à la rotation, au bougé de l'appareil photo et aux mains ou ustensiles bloquant la vue de la bouche. Les résultats obtenus par le modèle ont été comparés au codage observationnel manuel.
Résultats de l'étude
Les tests ByteTrack ont montré une grande exactitude de rappel et de précision, à >98 %. Cela a montré que la technologie équilibrait la vitesse avec la capacité de tolérer des apparences visuelles variables liées au comportement de morsure.
La deuxième étape a montré des performances modérées en matière de détection des morsures, atteignant en moyenne une précision de 79 %, un rappel de 68 % et un score F1 d'environ 71 %. Il y avait un surdénombrement global des piqûres, surtout au début du repas. Les séances de repas plus longues ou la dernière partie du repas avaient tendance à être associées à une sous-estimation des bouchées.
Les raisons incluent une morsure rapide et une détection de morsure faussement croissante. Plus tard, les enfants commencent à se désintéresser de la nourriture, ce qui pourrait produire davantage de mouvements, y compris ceux qui bloquent la bouche, réduisant ainsi la détection des morsures.
Il avait un coefficient de corrélation intraclasse (ICC) de 0,66 avec le codage de référence, bien que les vidéos dans lesquelles l'enfant bougeait trop ou dans lesquelles les mains ou les ustensiles bloquaient la bouche étaient moins fiables. Néanmoins, ByteTrack reflète plus précisément les situations du monde réel, avec d'autres personnes présentes pendant que l'enfant mangeait (environ 80 % des repas enregistrés incluaient des personnes supplémentaires pour simuler des environnements naturels de repas).
Il est moins intrusif que d'autres capteurs portables montés sur des lunettes ou des montres à compteur de touches qui doivent être allumés et éteints, ce qui peut perturber le flux naturel du processus alimentaire. Bien que ByteTrack doive être démarré et arrêté manuellement, il n'est pas encore optimisé pour la détection des morsures en temps réel. Il reste néanmoins moins intrusif et plus proche des observations naturalistes que les systèmes portables.
Les caméras des smartphones pourraient à l’avenir être utilisées pour un enregistrement naturel et combinées à des plateformes comme ByteTrack, à condition que la confidentialité des données puisse être garantie. Le temps et les efforts économisés grâce à de telles applications technologiques sont énormes, ce qui indique un vaste besoin de développement. De plus, ceux-ci éliminent les sources d’erreur humaine comme la fatigue, l’inexpérience et les mauvaises interprétations en utilisant les mêmes critères pour interpréter toutes les vidéos. Des améliorations supplémentaires sont nécessaires avant que ces plates-formes soient disponibles pour une utilisation en temps réel.
Conclusions
Cette étude pilote démontre la faisabilité d'un outil évolutif et automatisé pour la détection des morsures dans les repas des enfants.»
ByteTrack est le premier système automatisé spécifiquement développé pour analyser le comportement alimentaire des enfants, et son succès modéré est encourageant.
Les limites de cette méthode étaient évidentes et de nouvelles techniques doivent être conçues pour augmenter la fiabilité en présence d'occlusions ou en cas de mouvements importants. Des travaux futurs sont nécessaires pour rendre la plateforme plus robuste auprès de différentes populations et dans différentes situations d'enregistrement.
Téléchargez votre copie PDF maintenant !
























