Il sistema robotico individua gli oggetti più rilevanti per aiutare gli esseri umani

Un nuovo approccio potrebbe consentire l'utilizzo di aiutanti robotici intuitivi per la casa, il lavoro e i magazzini.

30.04.2025

Per un robot, il mondo reale è molto impegnativo. Dare un senso a tutti i dati presenti in una scena può richiedere un enorme sforzo di calcolo e di tempo. Utilizzare queste informazioni per decidere come aiutare al meglio un essere umano è un esercizio ancora più difficile.

Courtesy of the researchers

Didascalia:Utilizzando un'innovativa struttura di rilevanza sviluppata al MIT, il robot identifica e dà priorità agli oggetti nella scena per assistere autonomamente gli esseri umani in modo continuo, intelligente e sicuro.

Ora i robot del MIT hanno trovato un modo per tagliare il rumore dei dati e aiutare i robot a concentrarsi sulle caratteristiche di una scena che sono più importanti per assistere gli esseri umani.

Il loro approccio, chiamato giustamente "Relevance", consente a un robot di utilizzare gli indizi presenti in una scena, come le informazioni audio e visive, per determinare l'obiettivo di un essere umano e quindi identificare rapidamente gli oggetti che hanno maggiori probabilità di essere rilevanti per raggiungere tale obiettivo. Il robot esegue quindi una serie di manovre per offrire in modo sicuro gli oggetti o le azioni rilevanti all'uomo.

I ricercatori hanno dimostrato l'approccio con un esperimento che simulava il buffet della colazione di una conferenza. Hanno allestito un tavolo con frutta, bevande, snack e stoviglie varie, insieme a un braccio robotico dotato di microfono e telecamera. Applicando il nuovo approccio Relevance, hanno dimostrato che il robot era in grado di identificare correttamente l'obiettivo di un essere umano e di assisterlo in modo appropriato in diversi scenari.

In un caso, il robot ha recepito le indicazioni visive di un essere umano che stava prendendo una lattina di caffè preparato e gli ha passato rapidamente il latte e un bastoncino per mescolare. In un altro scenario, il robot ha colto una conversazione tra due persone che parlavano di caffè e ha offerto loro una lattina di caffè e una crema.

Complessivamente, il robot è stato in grado di prevedere l'obiettivo di un essere umano con un'accuratezza del 90% e di identificare gli oggetti rilevanti con un'accuratezza del 96%. Il metodo ha anche migliorato la sicurezza del robot, riducendo il numero di collisioni di oltre il 60% rispetto all'esecuzione degli stessi compiti senza applicare il nuovo metodo.

"Questo approccio di abilitazione della pertinenza potrebbe rendere molto più facile per un robot interagire con gli esseri umani", afferma Kamal Youcef-Toumi, professore di ingegneria meccanica al MIT. "Un robot non dovrebbe fare tante domande a un umano su ciò di cui ha bisogno. Si limiterebbe a raccogliere attivamente le informazioni dalla scena per capire come aiutare".

Il gruppo di Youcef-Toumi sta studiando come i robot programmati con Relevance possano essere d'aiuto in contesti di produzione e magazzino intelligenti, dove si immagina che i robot lavorino a fianco dell'uomo e lo assistano in modo intuitivo.

Youcef-Toumi, insieme agli studenti laureati Xiaotong Zhang e Dingcheng Huang, presenteranno il loro nuovo metodo alla Conferenza internazionale sulla robotica e l'automazione (ICRA) dell'IEEE a maggio. Il lavoro si basa su un altro documento presentato all'ICRA l'anno precedente.

Trovare il focus

L'approccio del team si ispira alla nostra capacità di valutare ciò che è rilevante nella vita quotidiana. Gli esseri umani sono in grado di filtrare le distrazioni e di concentrarsi su ciò che è importante, grazie a una regione del cervello nota come Sistema Reticolare Attivante (RAS). Il RAS è un fascio di neuroni nel tronco encefalico che agisce inconsciamente per eliminare gli stimoli non necessari, in modo che una persona possa percepire consapevolmente gli stimoli rilevanti. Il RAS aiuta a prevenire il sovraccarico sensoriale, impedendoci, ad esempio, di fissarci su ogni singolo oggetto presente sul bancone della cucina e aiutandoci invece a concentrarci sul versare una tazza di caffè.

"La cosa sorprendente è che questi gruppi di neuroni filtrano tutto ciò che non è importante e fanno sì che il cervello si concentri su ciò che è rilevante in quel momento", spiega Youcef-Toumi. "Questa è sostanzialmente la nostra proposta".

Lui e il suo team hanno sviluppato un sistema robotico che imita ampiamente la capacità del RAS di elaborare e filtrare selettivamente le informazioni. L'approccio consiste in quattro fasi principali. La prima è una fase di "percezione" di osservazione e apprendimento, durante la quale il robot riceve indicazioni audio e visive, ad esempio da un microfono e da una telecamera, che vengono continuamente inserite in un "kit di strumenti" di intelligenza artificiale. Questo toolkit può includere un modello linguistico di grandi dimensioni (LLM) che elabora le conversazioni audio per identificare parole chiave e frasi, e vari algoritmi che rilevano e classificano oggetti, esseri umani, azioni fisiche e obiettivi del compito. Il toolkit dell'intelligenza artificiale è progettato per funzionare continuamente in background, in modo simile al filtraggio subconscio che il RAS del cervello esegue.

Il secondo stadio è una fase di "controllo di attivazione", ovvero un controllo periodico che il sistema esegue per valutare se sta accadendo qualcosa di importante, come la presenza o meno di un umano. Se un essere umano è entrato nell'ambiente, si attiva la terza fase del sistema. Questa fase è il cuore del sistema del team, che agisce per determinare le caratteristiche dell'ambiente che sono più probabilmente rilevanti per assistere l'uomo.

Per stabilire la rilevanza, i ricercatori hanno sviluppato un algoritmo che tiene conto delle previsioni fatte in tempo reale dal toolkit di intelligenza artificiale. Ad esempio, l'LLM del toolkit potrebbe rilevare la parola chiave "caffè" e un algoritmo di classificazione delle azioni potrebbe etichettare una persona che prende una tazza con l'obiettivo di "fare il caffè". Il metodo di pertinenza del team tiene conto di queste informazioni per determinare innanzitutto la "classe" di oggetti che hanno la più alta probabilità di essere rilevanti per l'obiettivo di "fare il caffè". Questo potrebbe filtrare automaticamente classi come "frutta" e "snack", a favore di "tazze" e "creme". L'algoritmo filtrerebbe ulteriormente all'interno delle classi pertinenti per determinare gli "elementi" più rilevanti. Per esempio, in base alle indicazioni visive dell'ambiente, il sistema potrebbe etichettare una tazza più vicina a una persona come più rilevante - e utile - di una tazza più lontana.

Nella quarta e ultima fase, il robot prende gli oggetti rilevanti identificati e pianifica un percorso per accedere fisicamente agli oggetti e offrirli all'uomo.

Modalità di aiuto

I ricercatori hanno testato il nuovo sistema in esperimenti che simulavano il buffet della colazione di una conferenza. Hanno scelto questo scenario basandosi sul Breakfast Actions Dataset, disponibile pubblicamente, che comprende video e immagini di attività tipiche che le persone svolgono durante la colazione, come preparare il caffè, cucinare i pancake, preparare i cereali e friggere le uova. Le azioni in ogni video e immagine sono etichettate, insieme all'obiettivo generale (friggere le uova, piuttosto che preparare il caffè).

Utilizzando questo set di dati, il team ha testato diversi algoritmi del proprio toolkit di intelligenza artificiale, in modo che, quando ricevevano le azioni di una persona in una nuova scena, gli algoritmi potessero etichettare e classificare accuratamente i compiti e gli obiettivi umani e gli oggetti rilevanti associati.

Nei loro esperimenti, hanno installato un braccio robotico e una pinza e hanno istruito il sistema ad assistere gli esseri umani mentre si avvicinavano a un tavolo pieno di bevande, snack e stoviglie. Hanno scoperto che in assenza di umani, il toolkit AI del robot operava continuamente in background, etichettando e classificando gli oggetti sul tavolo.

Quando, durante un controllo di attivazione, il robot ha rilevato la presenza di un umano, è scattato sull'attenti, attivando la fase di rilevanza e identificando rapidamente gli oggetti della scena che avevano maggiori probabilità di essere rilevanti, in base all'obiettivo dell'uomo, determinato dal toolkit di intelligenza artificiale.

"La pertinenza può guidare il robot a generare un'assistenza continua, intelligente, sicura ed efficiente in un ambiente altamente dinamico", afferma il coautore Zhang.

In futuro, il team spera di applicare il sistema a scenari che assomiglino a luoghi di lavoro e magazzini, nonché ad altri compiti e obiettivi tipicamente svolti in ambienti domestici.

"Vorrei testare questo sistema a casa mia per vedere, ad esempio, se sto leggendo il giornale, forse può portarmi il caffè. Se sto facendo il bucato, può portarmi un contenitore per il bucato. Se sto facendo delle riparazioni, può portarmi un cacciavite", spiega Zhang. "La nostra visione è quella di consentire interazioni uomo-robot molto più naturali e fluenti".

Questa ricerca è stata resa possibile grazie al sostegno e alla partnership della King Abdulaziz City for Science and Technology (KACST) attraverso il Center for Complex Engineering Systems del MIT e il KACST.

Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Inglese può essere trovato qui.

Altre notizie dal dipartimento scienza

Le notizie più lette

Altre notizie dagli altri portali