Un sistema robótico localiza los objetos más importantes para ayudar a los humanos
Un nuevo enfoque podría permitir el uso de robots de ayuda intuitivos en el hogar, el lugar de trabajo y los almacenes.
Para un robot, el mundo real es mucho que asimilar. Comprender todos los datos de una escena puede requerir mucho tiempo y esfuerzo computacional. Utilizar esa información para decidir cuál es la mejor manera de ayudar a un humano es un ejercicio aún más espinoso.

Pie de foto:Utilizando un novedoso marco de relevancia desarrollado en el MIT, el robot identifica y prioriza objetos en la escena para asistir de forma autónoma a los humanos de manera fluida, inteligente y segura.
Courtesy of the researchers
Ahora, unos especialistas en robótica del MIT han descubierto una forma de eliminar el ruido de los datos y ayudar a los robots a centrarse en las características de una escena más relevantes para ayudar a los humanos.
Su método, al que han bautizado con el acertado nombre de "Relevancia", permite a un robot utilizar las pistas de una escena, como la información sonora y visual, para determinar el objetivo de un humano y, a continuación, identificar rápidamente los objetos que tienen más probabilidades de ser relevantes para cumplir ese objetivo. A continuación, el robot lleva a cabo una serie de maniobras para ofrecer de forma segura los objetos o acciones relevantes al humano.
Los investigadores demostraron el método con un experimento que simulaba el buffet de desayuno de una conferencia. Colocaron una mesa con varias frutas, bebidas, aperitivos y vajilla, junto con un brazo robótico equipado con un micrófono y una cámara. Aplicando el nuevo enfoque de Relevancia, demostraron que el robot era capaz de identificar correctamente el objetivo de un humano y ayudarle adecuadamente en diferentes escenarios.
En un caso, el robot captó las señales visuales de una persona que buscaba una lata de café preparado y rápidamente le entregó leche y una varilla. En otro caso, el robot captó una conversación entre dos personas que hablaban de café y les ofreció una lata de café y crema.
En conjunto, el robot fue capaz de predecir el objetivo de un humano con una precisión del 90% y de identificar objetos relevantes con una precisión del 96%. El método también mejoró la seguridad del robot, reduciendo el número de colisiones en más de un 60 por ciento, en comparación con la realización de las mismas tareas sin aplicar el nuevo método.
"Este método de permitir la relevancia podría facilitar mucho la interacción de un robot con los humanos", afirma Kamal Youcef-Toumi, profesor de ingeniería mecánica del MIT. "Un robot no tendría que hacer tantas preguntas a un humano sobre lo que necesita. Se limitaría a tomar activamente información de la escena para averiguar cómo ayudar".
El grupo de Youcef-Toumi está estudiando cómo pueden ayudar los robots programados con Relevance en entornos de fabricación inteligente y almacenes, donde prevén que los robots trabajen junto a los humanos y los asistan intuitivamente.
Youcef-Toumi, junto con los estudiantes Xiaotong Zhang y Dingcheng Huang, presentarán su nuevo método en la Conferencia Internacional de Robótica y Automatización (ICRA) del IEEE que se celebrará en mayo. El trabajo se basa en otro presentado en ICRA el año anterior.
Encontrar el foco
El método del equipo se inspira en nuestra propia capacidad para calibrar lo que es relevante en la vida cotidiana. Los humanos podemos filtrar las distracciones y centrarnos en lo importante gracias a una región del cerebro conocida como Sistema de Activación Reticular (SRA). El SRA es un conjunto de neuronas del tronco encefálico que actúa inconscientemente para eliminar los estímulos innecesarios, de modo que la persona pueda percibir conscientemente los estímulos relevantes. El SRA ayuda a evitar la sobrecarga sensorial, impidiendo, por ejemplo, que nos fijemos en cada uno de los objetos de la encimera de la cocina y ayudándonos a concentrarnos en servir una taza de café.
"Lo sorprendente es que estos grupos de neuronas filtran todo lo que no es importante y hacen que el cerebro se centre en lo que es relevante en ese momento", explica Youcef-Toumi. "En eso consiste básicamente nuestra propuesta".
Él y su equipo desarrollaron un sistema robótico que imita a grandes rasgos la capacidad del SRA para procesar y filtrar selectivamente la información. El método consta de cuatro fases principales. La primera es una fase de "percepción" de observación y aprendizaje, durante la cual un robot recibe señales sonoras y visuales, por ejemplo de un micrófono y una cámara, que se introducen continuamente en un "conjunto de herramientas" de inteligencia artificial. Este conjunto de herramientas puede incluir un gran modelo de lenguaje (LLM) que procesa las conversaciones de audio para identificar palabras clave y frases, y varios algoritmos que detectan y clasifican objetos, personas, acciones físicas y objetivos de tareas. El conjunto de herramientas de IA está diseñado para funcionar continuamente en segundo plano, de forma similar al filtrado subconsciente que realiza el SRA del cerebro.
La segunda etapa es una fase de "comprobación de activación", que es una comprobación periódica que el sistema realiza para evaluar si está ocurriendo algo importante, como si hay un humano presente o no. Si un ser humano ha entrado en el entorno, se activa la tercera fase del sistema. Esta fase es el núcleo del sistema del equipo, que actúa para determinar las características del entorno que probablemente sean relevantes para ayudar al ser humano.
Para determinar la relevancia, los investigadores desarrollaron un algoritmo que tiene en cuenta las predicciones en tiempo real del conjunto de herramientas de IA. Por ejemplo, el LLM del kit de herramientas puede captar la palabra clave "café", y un algoritmo de clasificación de acciones puede etiquetar a una persona que coge una taza con el objetivo de "hacer café". El método de Relevancia del equipo tendría en cuenta esta información para determinar primero la "clase" de objetos que tienen la mayor probabilidad de ser relevantes para el objetivo de "hacer café". Esto podría filtrar automáticamente clases como "frutas" y "aperitivos", en favor de "tazas" y "cremas". A continuación, el algoritmo filtraría aún más dentro de las clases relevantes para determinar los "elementos" más relevantes. Por ejemplo, basándose en las señales visuales del entorno, el sistema puede etiquetar la taza más cercana a una persona como más relevante -y útil- que una taza que esté más lejos.
En la cuarta y última fase, el robot tomaría los objetos relevantes identificados y planificaría una ruta para acceder físicamente a ellos y ofrecérselos a la persona.
Modo de ayuda
Los investigadores probaron el nuevo sistema en experimentos que simulaban el bufé del desayuno de una conferencia. Escogieron este escenario basándose en la base de datos pública Breakfast Actions Dataset, que incluye vídeos e imágenes de actividades típicas que la gente realiza durante el desayuno, como preparar café, cocinar tortitas, hacer cereales y freír huevos. Las acciones de cada vídeo e imagen están etiquetadas, junto con el objetivo general (freír huevos, frente a preparar café).
Con este conjunto de datos, el equipo probó varios algoritmos de su conjunto de herramientas de IA, de forma que, al recibir acciones de una persona en una escena nueva, los algoritmos pudieran etiquetar y clasificar con precisión las tareas y objetivos humanos, así como los objetos relevantes asociados.
En sus experimentos, instalaron un brazo robótico y una pinza y ordenaron al sistema que ayudara a los humanos a acercarse a una mesa llena de bebidas, aperitivos y vajilla. Comprobaron que, cuando no había personas presentes, el conjunto de herramientas de IA del robot funcionaba continuamente en segundo plano, etiquetando y clasificando los objetos de la mesa.
Cuando, durante una comprobación de activación, el robot detectaba a un humano, se ponía alerta, activaba su fase de Relevancia e identificaba rápidamente los objetos de la escena que tenían más probabilidades de ser relevantes, basándose en el objetivo del humano, determinado por el conjunto de herramientas de IA.
"La relevancia puede guiar al robot para que genere una asistencia fluida, inteligente, segura y eficiente en un entorno muy dinámico", afirma Zhang, coautor del estudio.
De cara al futuro, el equipo espera aplicar el sistema a escenarios que se asemejen a entornos de trabajo y almacenes, así como a otras tareas y objetivos que suelen realizarse en entornos domésticos.
"Me gustaría probar este sistema en mi casa para ver, por ejemplo, si estoy leyendo el periódico, quizá pueda traerme café. Si estoy haciendo la colada, puede traerme una cápsula. Si estoy haciendo una reparación, puede traerme un destornillador", dice Zhang. "Nuestra visión es permitir interacciones humano-robot que puedan ser mucho más naturales y fluidas".
Esta investigación ha sido posible gracias al apoyo y la colaboración de la Ciudad del Rey Abdulaziz para la Ciencia y la Tecnología (KACST) a través del Centro de Sistemas Complejos de Ingeniería del MIT y KACST.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.