본문 바로가기

인공지능 논문 정리

Mr. Steve: Instruction-Following Agents in Minecraft with What-Where-When Memory

Minecraft와 같은 오픈월드 환경에서 범용적인 에이전트를 만드는 것은 인공지능 연구에서 큰 도전 과제 중 하나입니다. 이러한 환경에서 에이전트는 긴 시계열에 걸친 다양한 하위 목표를 수행해야 합니다. 특히, 최근엔 대규모 언어 모델(LLM)로 강화된 하이레벨 플래너를 사용해, 상위 계획(예: “나무를 베어 도구를 만들기”)을 생성하고, 이를 하위 레벨 컨트롤러(로우레벨 정책)가 실행하도록 하는 계층적 접근 방식이 각광받고 있습니다. 그러나 현재의 하위 레벨 컨트롤러들은 종종 과거 정보를 충분히 기억하지 못해 동일한 자원을 반복해서 찾아다니거나 이미 방문했던 장소를 헛되이 재탐색하는 비효율을 보입니다. 이로 인해, 비록 상위 플래너가 뛰어난 계획을 세워도, 하위 레벨 컨트롤러 때문에 전체 시스템이 발목을 잡히는 경우가 많습니다.

이러한 문제를 해결하기 위해, 본 연구는 MR.STEVE를 제안합니다. MR.STEVE는 기존 STEVE-1(Lifshitz et al., 2024) 기반의 로우레벨 명령 수행 에이전트에 장기 에피소드 메모리(episodic memory)를 추가하여, 과거 탐색 경로에서 어떤 일이 일어났는지, 어디서(re: 위치) 무슨 이벤트가(re: 사건) 언제 발생했는지를 구조적으로 저장하고, 필요할 때 재활용합니다.


왜 메모리가 필요할까?

지금까지의 하위 레벨 컨트롤러들은 단기 메모리(예: 최근 수 초간의 화면)만을 활용했습니다. 이는 다음과 같은 문제가 있습니다.

  • 긴 에피소드: 대규모 환경에서 특정 자원(예: 소, 양, 물)을 찾는 것은 수천 스텝 이상 소요될 수 있습니다. 이 경우, 이미 수백 스텝 전에 봤던 목표 자원을 기억하지 못한다면 매번 무작정 재탐색을 해야 합니다.
  • 순차적 작업 수행: 예를 들어 “소를 찾고(작업 A) → 씨앗을 얻은 후(작업 B) → 다시 소에게 돌아가라(작업 A’)” 같은 연속적 과제를 수행할 때, 마지막에 다시 소를 찾아야 할 때 위치 정보를 기억하고 있으면 재탐색 시간을 크게 줄일 수 있습니다.

결국, 단기 메모리만 가진 기존 컨트롤러(예: STEVE-1)는 두 번째 혹은 세 번째로 같은 리소스가 필요한 상황에서 비효율적이며, 이를 보완하기 위해선 무엇을(What), 어디서(Where), 언제(When) 관측했는지 저장하는 에피소드 메모리가 필수적입니다.


MR.STEVE의 핵심 아이디어

1. Place Event Memory(PEM): MR.STEVE는 “장소-이벤트 메모리”를 제안합니다. 이는 에이전트가 지나온 모든 위치를 클러스터링하여 장소(place) 단위로 관리하고, 각 장소 내에서 발생한 다양한 사건(event)을 추출합니다. 예를 들어, 같은 장소에서도 “양을 본 장면”, “소를 본 장면”, “나무가 있는 장면”을 각각 이벤트 클러스터로 관리하는 식입니다. 이를 통해 메모리 검색 시, 단순히 FIFO(선입선출) 구조로 모두 저장하는 대신, 장소 및 이벤트 중심으로 구조화하여 효율적이고 빠른 검색이 가능합니다.

2. 탐색(Explore) 모드와 실행(Execute) 모드: MR.STEVE는 탐색 전략도 개선했습니다. 아직 원하는 리소스를 찾지 못했다면, “최소 방문” 지향의 계층적 탐색을 수행해 새로운 지역을 찾아다닙니다(Explore 모드). 만약 메모리에 해당 리소스 관련 정보가 있다면, 바로 그 장소로 이동하여 하위 컨트롤러(STEVE-1)로 해당 목표를 수행합니다(Execute 모드). 이런 모드 전환은 메모리에 기반한 조건부 탐색을 가능하게 하며, 불필요한 재탐색을 최소화합니다.

3. 네비게이션 개선(VPT-Nav): 단순히 위치만 알아도, 지형이 복잡하면 목적지에 도달하기 어렵습니다. 이를 위해 MR.STEVE는 VPT(Vision-Pre-Training) 모델을 기초로 PPO로 파인튜닝한 “VPT-Nav” 네비게이터를 사용합니다. 이 네비게이터는 인간 시연 기반 학습으로 다양한 지형에서 효율적으로 목표 지점까지 이동할 수 있습니다.


실험 결과

  1. 탐색 성능: MR.STEVE의 탐색 방식은 다른 기법보다 훨씬 넓고 효율적으로 맵을 커버하였습니다. 같은 크기의 맵에서 다른 베이스라인 대비 불필요한 재방문을 줄이고, 광범위한 지역을 빠르게 탐색했습니다.
  2. 일련의 작업 수행(Sequential Tasks): ABA-Sparse 등으로 명명한 시나리오(예: “물 얻기→ 씨앗 얻기→ 다시 물 얻기”)에서 MR.STEVE는 훨씬 적은 시간에 목표를 달성합니다. 기존 STEVE-1은 매번 목표를 새로 찾느라 수천 스텝을 낭비하지만, MR.STEVE는 PEM을 활용해 과거 방문했던 장소의 사건을 기억하고 바로 이동하여 빠른 해결을 보여줍니다.
  3. 메모리 제한 상황: 메모리 용량이 제한된 상황에서도 이벤트와 장소를 기반으로 효율적으로 정보를 압축해 저장하며, 여전히 탁월한 작업 수행 능력을 유지했습니다.
  4. 장기 대규모 태스크: 수십만 스텝에 이르는 장기 태스크에서도 MR.STEVE는 이전에 본 리소스를 기억하고, 필요할 때 즉시 재활용하여 뛰어난 확장성을 검증했습니다.

결론 및 전망

MR.STEVE는 오픈월드 환경(Minecraft)에서 장기 기억을 효과적으로 통합한 새로운 하위 레벨 컨트롤러입니다. 단순히 상위 LLM 기반 플래너에 의존하는 대신, 로우레벨 컨트롤러 자체가 메모리를 지녀서, 과거 관측과 경험을 활용하고 복잡한 과제도 효율적으로 해결할 수 있음을 보여줍니다.

향후 방향으로는 LLM 플래너와의 결합으로 더 복잡한 멀티스킬 연속 작업 처리, 로봇 플랫폼에서의 적용, 실제 물리 환경에서의 유효성 검증 등이 기대됩니다. 본 연구진은 코드를 공개할 예정으로, 이를 통해 더 많은 연구자들이 범용 로봇 에이전트를 향한 도전에 참여할 수 있을 것입니다.