Sistema robótico identifica os objectos mais relevantes para ajudar os humanos

Uma nova abordagem poderia permitir ajudantes robóticos intuitivos para o lar, o local de trabalho e o armazém.

30.04.2025

Para um robô, o mundo real é muito complicado. Dar sentido a cada ponto de dados numa cena pode exigir uma enorme quantidade de esforço e tempo computacional. Utilizar essa informação para decidir qual a melhor forma de ajudar um humano é um exercício ainda mais difícil.

Courtesy of the researchers

Legenda: Utilizando uma nova estrutura de relevância desenvolvida no MIT, o robô identifica e dá prioridade aos objectos na cena para ajudar autonomamente os seres humanos de uma forma contínua, inteligente e segura.

Agora, os roboticistas do MIT têm uma forma de eliminar o ruído dos dados, para ajudar os robôs a concentrarem-se nas caraterísticas de uma cena que são mais relevantes para ajudar os humanos.

A sua abordagem, que apelidam apropriadamente de "Relevância", permite que um robô utilize pistas numa cena, tais como informação áudio e visual, para determinar o objetivo de um humano e, em seguida, identificar rapidamente os objectos que são mais susceptíveis de serem relevantes para o cumprimento desse objetivo. O robô executa então um conjunto de manobras para oferecer em segurança os objectos ou acções relevantes ao ser humano.

Os investigadores demonstraram a abordagem com uma experiência que simulava um buffet de pequeno-almoço de uma conferência. Montaram uma mesa com várias frutas, bebidas, snacks e utensílios de mesa, juntamente com um braço robótico equipado com um microfone e uma câmara. Aplicando a nova abordagem de relevância, mostraram que o robô era capaz de identificar corretamente o objetivo de um humano e de o ajudar adequadamente em diferentes cenários.

Num caso, o robô recebeu pistas visuais de uma pessoa que procurava uma lata de café preparado e rapidamente lhe entregou leite e um pauzinho para mexer. Noutro cenário, o robô captou uma conversa entre duas pessoas que falavam de café e ofereceu-lhes uma lata de café e um creme.

No geral, o robô conseguiu prever o objetivo de um humano com 90% de precisão e identificar objectos relevantes com 96% de precisão. O método também melhorou a segurança do robô, reduzindo o número de colisões em mais de 60%, em comparação com a execução das mesmas tarefas sem aplicar o novo método.

"Esta abordagem que permite a relevância pode tornar muito mais fácil a interação de um robô com os seres humanos", afirma Kamal Youcef-Toumi, professor de engenharia mecânica no MIT. "Um robô não teria de fazer tantas perguntas a um humano sobre as suas necessidades. Apenas teria de recolher ativamente informações do local para descobrir como ajudar."

O grupo de Youcef-Toumi está a explorar a forma como os robôs programados com Relevance podem ajudar no fabrico inteligente e em armazéns, onde prevêem que os robôs trabalhem lado a lado e ajudem intuitivamente os humanos.

Youcef-Toumi, juntamente com os estudantes graduados Xiaotong Zhang e Dingcheng Huang, apresentará o seu novo método na Conferência Internacional de Robótica e Automação (ICRA) do IEEE, em maio. O trabalho baseia-se num outro documento apresentado na ICRA no ano anterior.

Encontrar o foco

A abordagem da equipa é inspirada na nossa própria capacidade de avaliar o que é relevante na vida quotidiana. Os seres humanos conseguem filtrar as distracções e concentrar-se no que é importante, graças a uma região do cérebro conhecida como Sistema de Ativação Reticular (SRA). O SRA é um feixe de neurónios no tronco cerebral que actua subconscientemente para eliminar os estímulos desnecessários, de modo a que uma pessoa possa perceber conscientemente os estímulos relevantes. O RAS ajuda a evitar a sobrecarga sensorial, impedindo-nos, por exemplo, de nos fixarmos em cada um dos objectos que estão na bancada da cozinha e ajudando-nos a concentrarmo-nos em servir uma chávena de café.

"O que é espantoso é que estes grupos de neurónios filtram tudo o que não é importante e depois fazem com que o cérebro se concentre no que é relevante no momento", explica Youcef-Toumi. "Basicamente, é essa a nossa proposta".

Youcef-Toumi e a sua equipa desenvolveram um sistema robótico que imita amplamente a capacidade do RAS de processar e filtrar informações de forma selectiva. A abordagem consiste em quatro fases principais. A primeira é uma fase de "perceção" de observação e aprendizagem, durante a qual um robô recebe sinais sonoros e visuais, por exemplo de um microfone e de uma câmara, que são continuamente introduzidos num "kit de ferramentas" de IA. Este conjunto de ferramentas pode incluir um modelo de linguagem de grande dimensão (LLM) que processa conversas áudio para identificar palavras-chave e frases, e vários algoritmos que detectam e classificam objectos, seres humanos, acções físicas e objectivos de tarefas. O conjunto de ferramentas de IA foi concebido para funcionar continuamente em segundo plano, à semelhança da filtragem subconsciente que o RAS do cérebro efectua.

A segunda etapa é uma fase de "verificação de ativação", que é uma verificação periódica que o sistema efectua para avaliar se está a acontecer algo importante, como a presença ou não de um ser humano. Se um humano tiver entrado no ambiente, a terceira fase do sistema entrará em ação. Esta fase é o coração do sistema da equipa, que actua para determinar as caraterísticas do ambiente que são mais provavelmente relevantes para ajudar o ser humano.

Para determinar a relevância, os investigadores desenvolveram um algoritmo que tem em conta as previsões em tempo real efectuadas pelo conjunto de ferramentas de IA. Por exemplo, o LLM do conjunto de ferramentas pode captar a palavra-chave "café" e um algoritmo de classificação de acções pode rotular uma pessoa que pega numa chávena como tendo o objetivo de "fazer café". O método de Relevância da equipa teria em conta esta informação para determinar primeiro a "classe" de objectos que têm a maior probabilidade de serem relevantes para o objetivo de "fazer café". Isto pode filtrar automaticamente classes como "frutas" e "snacks", em favor de "chávenas" e "cremes". O algoritmo filtraria depois as classes relevantes para determinar os "elementos" mais relevantes. Por exemplo, com base em pistas visuais do ambiente, o sistema pode rotular uma chávena mais próxima de uma pessoa como mais relevante - e útil - do que uma chávena que está mais longe.

Na quarta e última fase, o robô pega nos objectos relevantes identificados e planeia um caminho para aceder fisicamente e oferecer os objectos ao ser humano.

Modo de ajuda

Os investigadores testaram o novo sistema em experiências que simulam um buffet de pequeno-almoço de uma conferência. Escolheram este cenário com base no Breakfast Actions Dataset, disponível ao público, que inclui vídeos e imagens de actividades típicas que as pessoas realizam durante o pequeno-almoço, como preparar café, cozinhar panquecas, fazer cereais e fritar ovos. As acções em cada vídeo e imagem são rotuladas, juntamente com o objetivo geral (fritar ovos, versus fazer café).

Utilizando este conjunto de dados, a equipa testou vários algoritmos no seu conjunto de ferramentas de IA, de modo a que, ao receber acções de uma pessoa numa nova cena, os algoritmos pudessem rotular e classificar com precisão as tarefas e os objectivos humanos, bem como os objectos relevantes associados.

Nas suas experiências, montaram um braço robótico e uma pinça e deram instruções ao sistema para ajudar os seres humanos à medida que se aproximavam de uma mesa cheia de várias bebidas, snacks e utensílios de mesa. Descobriram que, quando não estavam presentes humanos, o conjunto de ferramentas de IA do robô funcionava continuamente em segundo plano, etiquetando e classificando objectos na mesa.

Quando, durante uma verificação do gatilho, o robô detectou um humano, chamou a atenção, ligando a sua fase de Relevância e identificando rapidamente os objectos na cena com maior probabilidade de serem relevantes, com base no objetivo do humano, que foi determinado pelo kit de ferramentas de IA.

"A relevância pode orientar o robô para gerar uma assistência contínua, inteligente, segura e eficiente num ambiente altamente dinâmico", afirma o coautor Zhang.

No futuro, a equipa espera aplicar o sistema a cenários que se assemelhem a ambientes de trabalho e de armazém, bem como a outras tarefas e objectivos tipicamente realizados em ambientes domésticos.

"Eu gostaria de testar este sistema em minha casa para ver, por exemplo, se estou a ler o jornal, talvez ele me possa trazer café. Se estiver a lavar roupa, pode trazer-me uma cápsula para lavar a roupa. Se estiver a fazer reparações, pode trazer-me uma chave de fendas", diz Zhang. "A nossa visão é permitir interações entre humanos e robôs que possam ser muito mais naturais e fluentes."

Esta investigação foi possível graças ao apoio e à parceria da Cidade Rei Abdulaziz para a Ciência e Tecnologia (KACST) através do Centro de Sistemas de Engenharia Complexos do MIT e da KACST.

Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Inglês pode ser encontrado aqui.

Outras notícias do departamento ciência

Notícias mais lidas

Mais notícias de nossos outros portais