Robotersystem findet die Objekte, die für die menschliche Hilfe am wichtigsten sind
Ein neuer Ansatz könnte intuitive robotische Helfer für Haushalt, Arbeitsplatz und Lager ermöglichen.
Für einen Roboter ist die reale Welt sehr anstrengend. Jeden Datenpunkt in einer Szene zu erfassen, kann einen enormen Rechenaufwand und viel Zeit in Anspruch nehmen. Die Verwendung dieser Informationen, um dann zu entscheiden, wie man einem Menschen am besten helfen kann, ist eine noch schwierigere Aufgabe.

Bildunterschrift: Mithilfe eines neuartigen, am MIT entwickelten Relevanz-Frameworks identifiziert und priorisiert der Roboter Objekte in der Szene, um Menschen auf nahtlose, intelligente und sichere Weise autonom zu unterstützen.
Courtesy of the researchers
Jetzt haben Roboterforscher des MIT einen Weg gefunden, das Datenrauschen zu durchdringen und den Robotern zu helfen, sich auf die Merkmale in einer Szene zu konzentrieren, die für die Unterstützung des Menschen am wichtigsten sind.
Ihr Ansatz, den sie treffend "Relevanz" nennen, ermöglicht es einem Roboter, anhand von Hinweisen in einer Szene, z. B. akustischen und visuellen Informationen, das Ziel eines Menschen zu bestimmen und dann schnell die Objekte zu identifizieren, die für die Erfüllung dieses Ziels am ehesten relevant sind. Der Roboter führt dann eine Reihe von Manövern aus, um dem Menschen die entsprechenden Objekte oder Aktionen sicher anzubieten.
Die Forscher demonstrierten den Ansatz mit einem Experiment, das ein Frühstücksbuffet auf einer Konferenz simulierte. Sie stellten einen Tisch mit verschiedenen Früchten, Getränken, Snacks und Geschirr sowie einen mit Mikrofon und Kamera ausgerüsteten Roboterarm auf. Unter Anwendung des neuen Relevanz-Ansatzes zeigten sie, dass der Roboter in der Lage war, das Ziel eines Menschen korrekt zu erkennen und ihm in verschiedenen Szenarien angemessen zu helfen.
In einem Fall nahm der Roboter visuelle Hinweise eines Menschen auf, der nach einer Kanne Kaffee griff, und reichte der Person schnell Milch und einen Rührstab. In einem anderen Szenario nahm der Roboter ein Gespräch zwischen zwei Personen auf, die sich über Kaffee unterhielten, und bot ihnen eine Dose Kaffee und Kaffeesahne an.
Insgesamt war der Roboter in der Lage, das Ziel eines Menschen mit 90 Prozent Genauigkeit vorherzusagen und relevante Objekte mit 96 Prozent Genauigkeit zu identifizieren. Die Methode verbesserte auch die Sicherheit des Roboters, indem sie die Anzahl der Kollisionen um mehr als 60 Prozent verringerte, verglichen mit der Durchführung derselben Aufgaben ohne Anwendung der neuen Methode.
"Dieser Ansatz zur Ermöglichung von Relevanz könnte die Interaktion eines Roboters mit dem Menschen wesentlich erleichtern", sagt Kamal Youcef-Toumi, Professor für Maschinenbau am MIT. "Ein Roboter müsste einem Menschen nicht so viele Fragen stellen, was er braucht. Er würde einfach aktiv Informationen aus der Umgebung aufnehmen, um herauszufinden, wie er helfen kann.
Youcef-Toumis Gruppe erforscht, wie Roboter, die mit Relevanz programmiert wurden, in intelligenten Fertigungs- und Lagerumgebungen helfen können, wo sie sich vorstellen, dass Roboter neben Menschen arbeiten und diese intuitiv unterstützen.
Youcef-Toumi und seine Doktoranden Xiaotong Zhang und Dingcheng Huang werden ihre neue Methode auf der IEEE International Conference on Robotics and Automation (ICRA) im Mai vorstellen. Die Arbeit baut auf einer anderen Arbeit auf, die im Vorjahr auf der ICRA vorgestellt wurde.
Den Fokus finden
Der Ansatz des Teams ist von unserer eigenen Fähigkeit inspiriert, zu erkennen, was im täglichen Leben wichtig ist. Dank einer Gehirnregion, die als Retikuläres Aktivierendes System (RAS) bekannt ist, kann der Mensch Ablenkungen herausfiltern und sich auf das konzentrieren, was wichtig ist. Das RAS ist ein Bündel von Neuronen im Hirnstamm, das unbewusst unnötige Reize ausblendet, so dass der Mensch die relevanten Reize bewusst wahrnehmen kann. Das RAS trägt dazu bei, eine Reizüberflutung zu verhindern, indem es uns beispielsweise davon abhält, jeden einzelnen Gegenstand auf dem Küchentisch zu fixieren, und uns stattdessen hilft, uns auf das Einschenken einer Tasse Kaffee zu konzentrieren.
"Das Erstaunliche ist, dass diese Neuronengruppen alles Unwichtige herausfiltern und das Gehirn dazu bringen, sich auf das zu konzentrieren, was gerade relevant ist", erklärt Youcef-Toumi. "Das ist im Grunde unser Vorschlag."
Er und sein Team entwickelten ein Robotersystem, das die Fähigkeit des RAS, Informationen selektiv zu verarbeiten und zu filtern, weitgehend nachahmt. Der Ansatz besteht aus vier Hauptphasen. Die erste ist eine "Wahrnehmungs"-Phase, in der ein Roboter Audio- und visuelle Hinweise aufnimmt, z. B. von einem Mikrofon und einer Kamera, die kontinuierlich in ein KI-"Toolkit" eingespeist werden. Dieses Toolkit kann ein großes Sprachmodell (LLM) enthalten, das Audiogespräche verarbeitet, um Schlüsselwörter und Phrasen zu identifizieren, sowie verschiedene Algorithmen, die Objekte, Menschen, physische Handlungen und Aufgabenziele erkennen und klassifizieren. Das KI-Toolkit ist so konzipiert, dass es kontinuierlich im Hintergrund läuft, ähnlich wie die unbewusste Filterung, die das RAS des Gehirns vornimmt.
Die zweite Stufe ist eine "Trigger-Check"-Phase, in der das System regelmäßig prüft, ob etwas Wichtiges passiert, z. B. ob ein Mensch anwesend ist oder nicht. Wenn ein Mensch die Umgebung betreten hat, wird die dritte Phase des Systems eingeleitet. Diese Phase ist das Herzstück des Systems, das die Merkmale der Umgebung bestimmt, die für die Unterstützung des Menschen am ehesten relevant sind.
Um die Relevanz festzustellen, entwickelten die Forscher einen Algorithmus, der die Vorhersagen des KI-Toolkits in Echtzeit berücksichtigt. So kann das LLM des Toolkits beispielsweise das Schlüsselwort "Kaffee" erkennen, und ein Algorithmus zur Klassifizierung von Handlungen kann eine Person, die nach einer Tasse greift, als Person mit dem Ziel "Kaffee kochen" einstufen. Die Relevanzmethode des Teams würde diese Informationen berücksichtigen, um zunächst die "Klasse" von Objekten zu bestimmen, die die höchste Wahrscheinlichkeit haben, für das Ziel "Kaffee kochen" relevant zu sein. Dies könnte automatisch Klassen wie "Früchte" und "Snacks" zugunsten von "Tassen" und "Milchkännchen" herausfiltern. Der Algorithmus würde dann innerhalb der relevanten Klassen weiter filtern, um die wichtigsten "Elemente" zu ermitteln. Auf der Grundlage visueller Hinweise aus der Umgebung kann das System beispielsweise eine Tasse, die sich in der Nähe einer Person befindet, als relevanter - und hilfreicher - einstufen als eine Tasse, die weiter entfernt ist.
In der vierten und letzten Phase würde der Roboter dann die identifizierten relevanten Objekte nehmen und einen Weg planen, um die Objekte physisch zu erreichen und dem Menschen anzubieten.
Helfender Modus
Die Forscher testeten das neue System in Experimenten, die ein Frühstücksbuffet auf einer Konferenz simulierten. Sie wählten dieses Szenario auf der Grundlage des öffentlich zugänglichen Breakfast Actions Dataset, das Videos und Bilder von typischen Tätigkeiten enthält, die Menschen während des Frühstücks ausführen, wie z. B. Kaffee zubereiten, Pfannkuchen kochen, Müsli machen und Eier braten. Die Handlungen in jedem Video und Bild werden zusammen mit dem Gesamtziel (Eier braten oder Kaffee kochen) beschriftet.
Anhand dieses Datensatzes testete das Team verschiedene Algorithmen seines KI-Toolkits, die bei der Aufnahme von Handlungen einer Person in einer neuen Szene die menschlichen Aufgaben und Ziele sowie die zugehörigen relevanten Objekte genau benennen und klassifizieren konnten.
In ihren Experimenten bauten sie einen Roboterarm und einen Greifer auf und wiesen das System an, Menschen zu unterstützen, wenn diese sich einem Tisch näherten, der mit verschiedenen Getränken, Snacks und Geschirr gefüllt war. Sie stellten fest, dass das KI-Toolkit des Roboters, wenn kein Mensch anwesend war, kontinuierlich im Hintergrund arbeitete und die Objekte auf dem Tisch beschriftete und klassifizierte.
Wenn der Roboter während einer Triggerprüfung einen Menschen entdeckte, schaltete er seine Relevanzphase ein und identifizierte schnell die Objekte in der Szene, die am wahrscheinlichsten relevant waren, basierend auf dem Ziel des Menschen, das vom KI-Toolkit bestimmt wurde.
"Relevanz kann den Roboter zu einer nahtlosen, intelligenten, sicheren und effizienten Unterstützung in einer hochdynamischen Umgebung führen", sagt Mitautor Zhang.
Das Team hofft, das System in Zukunft auf Szenarien anwenden zu können, die Arbeitsplatz- und Lagerumgebungen ähneln, sowie auf andere Aufgaben und Ziele, die typischerweise im Haushalt ausgeführt werden.
"Ich würde dieses System gerne zu Hause testen, um zu sehen, ob es mir zum Beispiel einen Kaffee bringen kann, wenn ich gerade die Zeitung lese. Wenn ich Wäsche wasche, kann es mir einen Wäschebehälter bringen. Wenn ich eine Reparatur durchführe, kann es mir einen Schraubenzieher bringen", sagt Zhang. "Unsere Vision ist es, Mensch-Roboter-Interaktionen zu ermöglichen, die viel natürlicher und fließender sind."
Diese Forschung wurde durch die Unterstützung und Partnerschaft der King Abdulaziz City for Science and Technology (KACST) über das Center for Complex Engineering Systems am MIT und KACST ermöglicht.
Hinweis: Dieser Artikel wurde mit einem Computersystem ohne menschlichen Eingriff übersetzt. LUMITOS bietet diese automatischen Übersetzungen an, um eine größere Bandbreite an aktuellen Nachrichten zu präsentieren. Da dieser Artikel mit automatischer Übersetzung übersetzt wurde, ist es möglich, dass er Fehler im Vokabular, in der Syntax oder in der Grammatik enthält. Den ursprünglichen Artikel in Englisch finden Sie hier.