MIT の専門家が家庭用ロボットの計画時間を半分に短縮するための PIGINet を開発
ホームページホームページ > ニュース > MIT の専門家が家庭用ロボットの計画時間を半分に短縮するための PIGINet を開発

MIT の専門家が家庭用ロボットの計画時間を半分に短縮するための PIGINet を開発

May 28, 2023

新しい家庭用ロボットが家に配達され、あなたはロボットにコーヒーを入れてもらうように頼みます。 模擬キッチンでの以前の練習でいくつかの基本的なスキルを知っていますが、蛇口をひねる、トイレを流す、小麦粉の容器を空にするなど、実行できるアクションが多すぎます。 ただし、役立つ可能性のあるアクションは少数です。 ロボットは、新しい状況においてどのような手順が賢明であるかをどのように判断するのでしょうか。家庭用ロボットの問題解決能力を効率的に強化することを目的とした新しいシステムである PIGINet を使用することができます。 MIT のコンピューター サイエンスおよび人工知能研究所 (CSAIL) の研究者は、機械学習を使用して、考えられるすべてのアクションを考慮したタスク計画の典型的な反復プロセスを削減しています。 PIGINet は、衝突のない要件を満たせないタスク プランを排除し、300 ~ 500 の問題のみでトレーニングした場合に計画時間を 50 ~ 80 パーセント削減します。 通常、ロボットはさまざまなタスク プランを試行し、実行可能な解決策が見つかるまで動作を繰り返し調整しますが、特に可動障害物や多関節障害物がある場合、これは非効率的で時間がかかる可能性があります。 たとえば、調理後、すべてのソースをキャビネットに入れたいと思うかもしれません。 その時点で世界がどのように見えるかに応じて、この問題には 2 から 8 のステップがかかる可能性があります。 ロボットは複数のキャビネットのドアを開ける必要がありますか? それとも、スペースを作るためにキャビネット内に移動する必要がある障害物はありますか? ロボットの動作が煩わしいほど遅いことは望ましくありません。考えている間に夕食を焦げてしまったら、さらに悪いことになります。家庭用ロボットは通常、あらかじめ定義されたレシピに従ってタスクを実行すると考えられていますが、これは多様な環境や変化する環境に必ずしも適しているとは限りません。 。 では、PIGINet はどのようにしてこれらの事前定義されたルールを回避するのでしょうか? PIGINet は、「計画、イメージ、目標、初期事実」を取り込み、実行可能な動作計画を見つけるためにタスク計画を改良できる確率を予測するニューラル ネットワークです。 簡単に言うと、データ シーケンスで動作するように設計された多用途の最先端モデルであるトランス エンコーダーを採用しています。 この場合、入力シーケンスは、検討しているタスク プラン、環境の画像、初期状態と望ましい目標の記号エンコードに関する情報です。 エンコーダーはタスク プラン、画像、テキストを組み合わせて、選択されたタスク プランの実現可能性に関する予測を生成します。 キッチンに物を置いたまま、チームは何百もの模擬環境を作成しました。それぞれに異なるレイアウトと、カウンター、冷蔵庫、キャビネット、シンク、調理鍋の間で物体を再配置する必要がある特定のタスクが含まれています。 問題解決にかかる時間を測定することで、PIGINet を以前のアプローチと比較しました。 正しい作業計画の 1 つは、冷蔵庫の左側のドアを開ける、鍋の蓋を外す、キャベツを鍋から冷蔵庫に移動する、ジャガイモを冷蔵庫に移動する、シンクから瓶を拾う、シンクに瓶を置く、瓶を拾う、などです。トマト、またはトマトを置きます。 PIGINet は、単純なシナリオでは計画時間を 80 パーセント大幅に短縮し、計画シーケンスが長くトレーニング データが少ないより複雑なシナリオでは 20 ~ 50 パーセントを大幅に短縮しました。しかし、学習ベースの提案を検証し、新しい問題を解決するために「第一原理」の計画手法に頼ることもでき、両方の長所を提供して、さまざまな問題に対して信頼性が高く効率的な汎用ソリューションを提供します」と MIT は述べています。教授で CSAIL 主任研究員の Leslie Pack Kaelbling.PIGINet が入力シーケンスでマルチモーダル埋め込みを使用することにより、複雑な幾何学的関係をより適切に表現し、理解できるようになりました。 画像データを使用することで、オブジェクトの 3D メッシュを知らなくてもモデルが空間配置やオブジェクトの構成を把握して正確な衝突チェックを行うことができ、さまざまな環境での迅速な意思決定が可能になりました。 PIGINet の開発中に直面した大きな課題の 1 つは、適切なトレーニング データが不足していることでした。これは、実行可能な計画も実行不可能な計画もすべて従来のプランナーによって生成される必要があり、そもそも時間がかかるためです。 しかし、事前トレーニング済みのビジョン言語モデルとデータ拡張トリックを使用することで、チームはこの課題に対処することができ、目に見えるオブジェクトの問題だけでなく、これまで見えなかったオブジェクトに対するゼロショットの一般化でも、計画時間の大幅な短縮を示しました。ロボットは単にレシピに従うだけではなく、適応性のある問題解決者であるべきです。 私たちの重要なアイデアは、汎用タスク プランナーに候補タスク プランを生成させ、深層学習モデルを使用して有望なものを選択させることです。 その結果、より効率的で順応性が高く、複雑で動的な環境でも機敏に移動できる実用的な家庭用ロボットが誕生しました。 さらに、PIGINet の実用的な応用は家庭に限定されません」と、MIT CSAIL 博士課程の学生であり、この研究の筆頭著者である Zhutian Yang 氏は述べています。 「私たちの将来の目標は、PIGINet をさらに改良して、実行不可能なアクションを特定した後に代替タスク プランを提案することです。これにより、汎用プランナーをゼロからトレーニングするための大きなデータセットを必要とせずに、実行可能なタスク プランの生成がさらに高速化されます。」 これにより、ロボットが開発中にトレーニングされ、その後、すべての家庭に適用される方法に革命が起こる可能性があると私たちは信じています。」 「この論文は、汎用ロボットを実装する際の基本的な課題、つまり、多数の可動障害物や多関節障害物で満たされた非構造化環境における意思決定プロセスをスピードアップするために、過去の経験から学ぶ方法について述べています。」と Beomjoon Kim PhD '20 は述べています。 , 韓国科学技術院(KAIST)人工知能大学院助教授。 「このような問題における中心的なボトルネックは、高レベルの計画を実現する低レベルの動作計画が存在するように、高レベルのタスク計画をどのように決定するかということです。 通常、動作計画とタスク計画の間を行き来する必要があり、これにより大幅な計算効率の低下が生じます。 Zhutian 氏の研究は、学習を利用して実行不可能なタスク プランを排除することでこの問題に取り組んでおり、有望な方向への一歩です。」Yang 氏は、NVIDIA 研究科学者の Caelan Garrett とともにこの論文を執筆しました。 MIT 電気工学およびコンピュータ サイエンス学科の教授、CSAIL メンバーのトマス ロザノ ペレス氏とレスリー ケルブリング氏。 NVIDIA のロボット研究シニア ディレクターおよびワシントン大学のディーター フォックス教授。 このチームは、AI シンガポールと国立科学財団、空軍科学研究局、陸軍研究局からの助成金によって支援されました。 このプロジェクトは、Yang が NVIDIA Research でインターンをしていたときに部分的に実施されました。 彼らの研究は、7 月に開催されるカンファレンス Robotics: Science and Systems で発表される予定です。