MIT 전문가, 가정용 로봇이 계획 시간을 절반으로 단축할 수 있도록 PIGINet 개발

당신의 새로운 가정용 로봇이 집으로 배달되고, 당신은 로봇에게 커피 한 잔을 만들어 달라고 요청합니다. 시뮬레이션된 주방의 이전 실습에서 얻은 몇 가지 기본 기술을 알고 있지만 수도꼭지를 틀고, 변기 물을 내리며, 밀가루 통을 비우는 등 취할 수 있는 작업이 너무 많습니다. 하지만 유용할 수 있는 작업의 수가 적습니다. 로봇은 새로운 상황에서 어떤 단계가 합리적인지 어떻게 파악할까요? 가정용 로봇의 문제 해결 능력을 효율적으로 향상시키는 것을 목표로 하는 새로운 시스템인 PIGINet을 사용할 수 있습니다. MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 연구원들은 기계 학습을 사용하여 가능한 모든 조치를 고려하는 작업 계획의 일반적인 반복 프로세스를 줄이고 있습니다. PIGINet은 충돌 없는 요구 사항을 충족할 수 없는 작업 계획을 제거하고 300~500개의 문제만 교육하면 계획 시간을 50~80% 단축합니다. 일반적으로 로봇은 다양한 작업 계획을 시도하고 실행 가능한 솔루션을 찾을 때까지 동작을 반복적으로 개선합니다. 이는 특히 이동 가능하고 관절로 연결된 장애물이 있는 경우 비효율적이고 시간 소모적일 수 있습니다. 예를 들어, 요리를 마친 후에 모든 소스를 캐비닛에 넣고 싶을 수도 있습니다. 그 문제는 그 순간 세상이 어떤 모습인지에 따라 2~8단계를 거쳐야 할 수도 있습니다. 로봇이 여러 개의 캐비닛 도어를 열어야 하나요? 아니면 공간을 확보하기 위해 캐비닛 내부에 재배치해야 하는 장애물이 있나요? 로봇이 짜증날 정도로 느려지는 것을 원하지 않을 것입니다. 생각하는 동안 저녁 식사를 태워 버리면 상황은 더욱 악화될 것입니다. 가정용 로봇은 일반적으로 작업을 수행하기 위해 미리 정의된 레시피를 따르는 것으로 생각되지만, 이는 다양하거나 변화하는 환경에 항상 적합한 것은 아닙니다. . 그렇다면 PIGINet은 미리 정의된 규칙을 어떻게 방지합니까? PIGINet은 "계획, 이미지, 목표 및 초기 사실"을 받아들인 다음 작업 계획을 구체화하여 실행 가능한 동작 계획을 찾을 수 있는 확률을 예측하는 신경망입니다. 간단히 말해서 데이터 시퀀스에서 작동하도록 설계된 다목적 최첨단 모델인 변환기 인코더를 사용합니다. 이 경우 입력 시퀀스는 고려 중인 작업 계획, 환경 이미지, 초기 상태 및 원하는 목표의 기호 인코딩에 대한 정보입니다. 인코더는 작업 계획, 이미지 및 텍스트를 결합하여 선택한 작업 계획의 타당성에 관한 예측을 생성합니다. 주방에 물건을 보관하면서 팀은 수백 개의 시뮬레이션 환경을 만들었습니다. 각 환경에는 카운터, 냉장고, 캐비닛, 싱크대, 조리 냄비 사이에서 물건을 재배치해야 하는 다양한 레이아웃과 특정 작업이 포함되어 있습니다. 문제를 해결하는 데 걸리는 시간을 측정함으로써 PIGINet을 이전 접근 방식과 비교했습니다. 올바른 작업 계획 중 하나에는 왼쪽 냉장고 문 열기, 냄비 뚜껑 제거, 양배추를 냄비에서 냉장고로 옮기기, 감자를 냉장고로 옮기기, 싱크대에서 병 집어 올리기, 싱크대에 병 놓기, 냄비에 있는 병 집어 올리기 등이 포함될 수 있습니다. 토마토, 또는 토마토를 배치. PIGINet은 더 단순한 시나리오에서 계획 시간을 80%, 더 긴 계획 순서와 더 적은 훈련 데이터를 포함하는 더 복잡한 시나리오에서 20-50%까지 크게 줄였습니다. “PIGINet과 같은 시스템은 데이터 기반 방법의 강력한 기능을 사용하여 익숙한 사례를 효율적으로 처리합니다. MIT는 학습 기반 제안을 검증하고 새로운 문제를 해결하기 위해 여전히 "첫 번째 원칙" 계획 방법을 사용하여 두 세계의 장점을 모두 제공하고 다양한 문제에 대한 신뢰할 수 있고 효율적인 범용 솔루션을 제공할 수 있다고 말합니다. 교수이자 CSAIL 수석 연구원인 Leslie Pack Kaelbling.PIGINet은 입력 시퀀스에 다중 모드 임베딩을 사용하여 복잡한 기하학적 관계를 더 잘 표현하고 이해할 수 있었습니다. 이미지 데이터를 활용하면 모델이 객체를 알지 못해도 공간 배열과 객체 구성을 파악하는 데 도움이 되었습니다. 3D 메쉬를 통해 정확한 충돌 확인이 가능해 다양한 환경에서 빠른 의사결정이 가능해졌습니다. PIGINet을 개발하는 동안 직면한 주요 과제 중 하나는 좋은 훈련 데이터가 부족하다는 점이었습니다. 왜냐하면 모든 실행 가능한 계획과 실행 불가능한 계획은 애초에 느린 기존 계획자에 의해 생성되어야 하기 때문입니다. 그러나 팀은 사전 훈련된 비전 언어 모델과 데이터 증강 트릭을 사용하여 이 문제를 해결할 수 있었으며, 보이는 객체에 대한 문제뿐만 아니라 이전에 볼 수 없었던 객체에 대한 제로 샷 일반화에 대한 인상적인 계획 시간 단축을 보여주었습니다. “모든 사람이 집에 있기 때문입니다. 로봇은 단순히 레시피를 따르는 것이 아니라 적응력이 뛰어난 문제 해결자가 되어야 합니다. 우리의 핵심 아이디어는 범용 작업 계획자가 후보 작업 계획을 생성하고 딥러닝 모델을 사용하여 유망한 작업 계획을 선택하도록 하는 것입니다. 그 결과, 복잡하고 역동적인 환경에서도 민첩하게 탐색할 수 있는 더욱 효율적이고 적응력이 뛰어나며 실용적인 가정용 로봇이 탄생했습니다. 더욱이 PIGINet의 실제 적용은 가정에만 국한되지 않습니다.”라고 MIT CSAIL 박사 과정 학생이자 해당 연구의 주요 저자인 Zhutian Yang이 말했습니다. “우리의 미래 목표는 실행 불가능한 작업을 식별한 후 대체 작업 계획을 제안하도록 PIGINet을 더욱 개선하는 것입니다. 이를 통해 범용 계획자를 처음부터 교육하기 위한 대규모 데이터 세트가 필요 없이 실행 가능한 작업 계획 생성 속도를 더욱 높일 수 있습니다. 우리는 이것이 개발 과정에서 로봇을 훈련하고 모든 사람의 가정에 적용하는 방식에 혁명을 일으킬 수 있다고 믿습니다.” "이 논문은 범용 로봇을 구현하는 데 있어 근본적인 과제를 다루고 있습니다. 즉, 관절로 연결되고 움직일 수 있는 수많은 장애물로 가득 찬 비구조적 환경에서 의사 결정 프로세스의 속도를 높이기 위해 과거 경험을 통해 학습하는 방법"이라고 김범준 박사는 말합니다. , 한국과학기술원(KAIST) AI대학원 조교수. “이러한 문제의 핵심 병목 현상은 높은 수준의 계획을 실현하는 낮은 수준의 동작 계획이 존재하도록 높은 수준의 작업 계획을 어떻게 결정하는가입니다. 일반적으로 동작 계획과 작업 계획 사이를 오가야 하므로 상당한 계산 비효율성이 발생합니다. Zhutian의 작업은 학습을 통해 실행 불가능한 작업 계획을 제거함으로써 이 문제를 해결하며 유망한 방향으로 나아가는 단계입니다.”Yang은 NVIDIA 연구 과학자 Caelan Garrett SB '15, MEng '15, PhD '21과 함께 논문을 썼습니다. MIT 전기 공학 및 컴퓨터 과학부 교수 및 CSAIL 회원 Tomás Lozano-Pérez 및 Leslie Kaelbling; NVIDIA의 로봇공학 연구 수석 이사이자 워싱턴 대학의 Dieter Fox 교수입니다. 이 팀은 AI Singapore의 지원을 받았으며 국립 과학 재단, 공군 과학 연구실 및 육군 연구실의 보조금을 받았습니다. 이 프로젝트는 양씨가 NVIDIA Research에서 인턴으로 근무하는 동안 부분적으로 진행되었습니다. 그들의 연구는 7월 로봇 공학: 과학 및 시스템 컨퍼런스에서 발표될 예정입니다.