Un système robotique se concentre sur les objets les plus utiles pour aider les humains

Une nouvelle approche pourrait permettre l'utilisation de robots intuitifs dans les foyers, sur les lieux de travail et dans les entrepôts.

30.04.2025

Pour un robot, le monde réel est très difficile à appréhender. Donner un sens à chaque point de données d'une scène peut nécessiter un effort de calcul et un temps considérables. Utiliser ces informations pour décider de la meilleure façon d'aider un être humain est un exercice encore plus délicat.

Courtesy of the researchers

Caption:À l'aide d'un nouveau cadre de pertinence développé au MIT, le robot identifie et hiérarchise les objets de la scène afin d'assister les humains de manière autonome, transparente, intelligente et sûre.

Aujourd'hui, les roboticiens du MIT ont trouvé un moyen d'éliminer le bruit des données et d'aider les robots à se concentrer sur les caractéristiques d'une scène qui sont les plus pertinentes pour aider les humains.

Leur approche, qu'ils ont judicieusement baptisée "Relevance", permet à un robot d'utiliser les indices d'une scène, tels que les informations sonores et visuelles, pour déterminer l'objectif d'un humain, puis d'identifier rapidement les objets les plus susceptibles de contribuer à la réalisation de cet objectif. Le robot effectue ensuite une série de manœuvres pour offrir en toute sécurité les objets ou les actions pertinents à l'homme.

Les chercheurs ont démontré cette approche par une expérience simulant un buffet de petit-déjeuner de conférence. Ils ont installé une table avec divers fruits, boissons, en-cas et vaisselle, ainsi qu'un bras robotisé équipé d'un microphone et d'une caméra. En appliquant la nouvelle approche de la pertinence, ils ont montré que le robot était capable d'identifier correctement l'objectif d'un humain et de l'aider de manière appropriée dans différents scénarios.

Dans un cas, le robot a capté les indices visuels d'un être humain tendant la main vers une boîte de café préparée, et lui a rapidement tendu du lait et un bâtonnet. Dans un autre scénario, le robot a capté une conversation entre deux personnes parlant de café et leur a offert une boîte de café et de la crème.

Dans l'ensemble, le robot a été capable de prédire l'objectif d'un humain avec une précision de 90 % et d'identifier les objets pertinents avec une précision de 96 %. La méthode a également amélioré la sécurité du robot, en réduisant le nombre de collisions de plus de 60 % par rapport à l'exécution des mêmes tâches sans appliquer la nouvelle méthode.

"Cette approche de la pertinence pourrait permettre à un robot d'interagir plus facilement avec les humains", explique Kamal Youcef-Toumi, professeur de génie mécanique au MIT. "Un robot n'aurait pas à poser autant de questions à l'homme sur ce dont il a besoin. Il se contenterait de prendre activement des informations sur la scène pour déterminer comment l'aider."

Le groupe de Youcef-Toumi étudie la manière dont les robots programmés avec Relevance peuvent contribuer à la fabrication intelligente et aux entrepôts, où ils envisagent que les robots travaillent aux côtés des humains et les assistent intuitivement.

Youcef-Toumi, ainsi que les étudiants diplômés Xiaotong Zhang et Dingcheng Huang, présenteront leur nouvelle méthode lors de la conférence internationale de l'IEEE sur la robotique et l'automatisation (ICRA) en mai. Ces travaux s'appuient sur un autre document présenté à l'ICRA l'année précédente.

Trouver le point de mire

L'approche de l'équipe s'inspire de notre propre capacité à évaluer ce qui est pertinent dans la vie quotidienne. Les êtres humains peuvent filtrer les distractions et se concentrer sur ce qui est important, grâce à une région du cerveau connue sous le nom de système réticulaire activateur (RAS). Le SRA est un faisceau de neurones situé dans le tronc cérébral qui agit inconsciemment pour éliminer les stimuli inutiles, afin qu'une personne puisse percevoir consciemment les stimuli pertinents. Le SRA contribue à prévenir la surcharge sensorielle, en nous empêchant, par exemple, de faire une fixation sur chaque objet posé sur le comptoir de la cuisine et en nous aidant plutôt à nous concentrer sur la préparation d'une tasse de café.

"Ce qui est étonnant, c'est que ces groupes de neurones filtrent tout ce qui n'est pas important et permettent au cerveau de se concentrer sur ce qui est pertinent à ce moment-là", explique Youcef-Toumi. "C'est essentiellement ce que nous proposons.

Avec son équipe, il a mis au point un système robotique qui imite largement la capacité du SRA à traiter et à filtrer les informations de manière sélective. L'approche consiste en quatre phases principales. La première est une phase de "perception" d'observation et d'apprentissage, au cours de laquelle un robot reçoit des signaux audio et visuels, par exemple d'un microphone et d'une caméra, qui sont continuellement introduits dans une "boîte à outils" d'intelligence artificielle. Cette boîte à outils peut comprendre un modèle de langage étendu (LLM) qui traite les conversations audio pour identifier les mots-clés et les phrases, ainsi que divers algorithmes qui détectent et classent les objets, les humains, les actions physiques et les objectifs de la tâche. La boîte à outils de l'IA est conçue pour fonctionner en permanence en arrière-plan, à l'instar du filtrage subconscient effectué par le RAS du cerveau.

La deuxième étape est une phase de "vérification du déclenchement", c'est-à-dire une vérification périodique que le système effectue pour évaluer si quelque chose d'important se produit, comme la présence ou l'absence d'un être humain. Si un être humain est entré dans l'environnement, la troisième phase du système entre en action. Cette phase est le cœur du système de l'équipe, qui détermine les caractéristiques de l'environnement les plus susceptibles d'aider l'être humain.

Pour déterminer la pertinence, les chercheurs ont mis au point un algorithme qui prend en compte les prédictions en temps réel faites par la boîte à outils d'IA. Par exemple, le LLM de la boîte à outils peut détecter le mot-clé "café", et un algorithme de classification des actions peut étiqueter une personne qui attrape une tasse comme ayant pour objectif de "faire du café". La méthode de pertinence de l'équipe prendrait en compte ces informations pour déterminer d'abord la "classe" d'objets qui a la plus forte probabilité d'être pertinente par rapport à l'objectif de "faire du café". Cette méthode pourrait automatiquement éliminer des classes telles que les "fruits" et les "snacks", au profit des "tasses" et des "crèmes". L'algorithme peut ensuite filtrer davantage les classes pertinentes pour déterminer les "éléments" les plus pertinents. Par exemple, sur la base d'indices visuels de l'environnement, le système peut étiqueter la tasse la plus proche d'une personne comme étant plus pertinente - et utile - qu'une tasse plus éloignée.

Dans la quatrième et dernière phase, le robot prend les objets pertinents identifiés et planifie un chemin pour accéder physiquement aux objets et les offrir à l'homme.

Mode aide

Les chercheurs ont testé le nouveau système lors d'expériences simulant un buffet de petit-déjeuner de conférence. Ils ont choisi ce scénario en se basant sur la base de données publique Breakfast Actions Dataset, qui comprend des vidéos et des images d'activités typiques réalisées par des personnes au moment du petit-déjeuner, telles que la préparation du café, la cuisson de crêpes, la préparation de céréales et la friture d'œufs. Les actions de chaque vidéo et image sont étiquetées, de même que l'objectif général (faire frire des œufs ou préparer du café).

À l'aide de cet ensemble de données, l'équipe a testé divers algorithmes de sa boîte à outils d'IA, de sorte que, lorsqu'ils reçoivent les actions d'une personne dans une nouvelle scène, les algorithmes puissent étiqueter et classer avec précision les tâches et les objectifs de l'homme, ainsi que les objets pertinents qui y sont associés.

Dans leurs expériences, ils ont installé un bras robotique et une pince et ont demandé au système d'aider les humains à s'approcher d'une table remplie de boissons, d'en-cas et d'ustensiles de table. Ils ont constaté qu'en l'absence d'humains, la boîte à outils d'intelligence artificielle du robot fonctionnait en permanence en arrière-plan, étiquetant et classant les objets sur la table.

Lorsque, au cours d'un contrôle de déclenchement, le robot a détecté un être humain, il s'est mis au garde-à-vous, a activé sa phase de pertinence et a rapidement identifié les objets de la scène les plus susceptibles d'être pertinents, en fonction de l'objectif de l'être humain, qui a été déterminé par la boîte à outils d'IA.

"La pertinence peut guider le robot pour qu'il fournisse une assistance transparente, intelligente, sûre et efficace dans un environnement très dynamique", explique Zhang, coauteur de l'étude.

À l'avenir, l'équipe espère appliquer le système à des scénarios qui ressemblent à des environnements de travail et d'entrepôt, ainsi qu'à d'autres tâches et objectifs généralement accomplis à la maison.

"Je voudrais tester ce système chez moi pour voir, par exemple, si je lis le journal, s'il peut m'apporter du café. Si je fais la lessive, il peut m'apporter un panier à linge. Si je fais des réparations, il peut m'apporter un tournevis", explique M. Zhang. "Notre objectif est de permettre des interactions homme-robot beaucoup plus naturelles et fluides.

Cette recherche a été rendue possible grâce au soutien et au partenariat du King Abdulaziz City for Science and Technology (KACST) par l'intermédiaire du Center for Complex Engineering Systems du MIT et du KACST.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails