복잡한 세계에서 다중 에이전트 협력은 왜 어려울까?
현실 세계 혹은 복잡한 3D 시뮬레이션 환경에서 여러 대의 로봇(혹은 가상 에이전트)이 함께 협력하여 어떤 목표를 달성한다고 상상해봅시다. 이들은 모두 서로 다른 위치, 다른 시야를 갖고 있으며, 각자 egocentric(1인칭) 시점의 RGB-D 영상 관측치만 얻습니다. 전방위 시야를 갖는 단일 에이전트 문제보다 훨씬 복잡한 이유는 다음과 같습니다.
- Partial Observability(부분 관측): 각 에이전트는 제한된 카메라 시야로, 세계의 전체 상태를 직접 볼 수 없습니다. 여러 에이전트가 모여도 정보가 불완전하고 노이즈가 많습니다.
- Joint Actions(공동 행동) 시뮬레이션: 다중 에이전트는 동시에 행동합니다. 단일 에이전트의 동작만 고려할 때보다 훨씬 많은 행동 조합이 있고, 이를 잘 시뮬레이션해야 미래 상태를 정확히 예측할 수 있습니다.
협력을 위해서는, “내가 이 행동을 하면 다른 에이전트는 어떻게 반응하고, 그 결과 세계 상태는 어떻게 변할까?”를 예측하는 능력이 필요합니다. 이를 위해 ‘월드 모델(World Model)’을 학습하고, 이 월드 모델을 활용한 계획(planning)이 중요한데, 다중 에이전트 시나리오에서는 이 월드 모델을 어떻게 효율적으로 학습할지가 큰 도전 과제입니다.
COMBO: 조합적 월드 모델을 이용한 다중 에이전트 협력
논문에서는 이 문제를 해결하기 위해 COMBO (Compositional wOrld Model-based emBOdied multi-agent planning)라는 프레임워크를 제안합니다. 핵심 포인트는 다음과 같습니다.
조합적(Compositional) 확산 모델을 통한 월드 시뮬레이션:
다중 에이전트의 행동은 자연스럽게 분해 가능합니다. 예를 들어 4명의 에이전트가 있다면, 각 에이전트 행동을 텍스트 형태로 표현한 뒤, 이를 개별 조건(condition)으로 하는 확산(diffusion) 기반 비디오 생성 모델을 학습할 수 있습니다. 이때, 모든 행동을 하나의 거대 텍스트로 주는 대신, 각각의 에이전트 행동 조건을 별도로 모델링하고, 최종적으로 이 조건들을 곱(factorization)하는 형식으로 영상 프레임을 합성적으로(compositionally) 생성합니다. 이를 통해 여러 에이전트 행동 조합에도 유연하고 정확하게 미래를 예측할 수 있습니다.
부분 관측 문제 해결
각 에이전트가 가진 1인칭 RGB-D 관측을 모아, 탑다운(top-down) 정사영(orthographic) 이미지 형태로 변환합니다. 초기에는 이 이미지가 불완전하고 노이즈가 많지만, 여기서 또 하나의 확산 모델을 이용해 이 ‘불완전한’ 세계 상태를 인페인팅(inpainting)하여 보다 완전하고 명확한 전체 세계 상태를 추정합니다.
비전-언어 모델(Vision-Language Model)과의 결합으로 계획
전체 세계 상태가 주어지면, 이제 에이전트는 무엇을 할지 고민해야 합니다. 이를 위해 VLM 기반의 세 가지 모듈을 사용합니다.
- Action Proposer: 현재 상태와 목표를 보고, 에이전트 자신이 할 수 있는 candidate actions를 텍스트 형태로 제안.
- Intent Tracker: 다른 에이전트들이 과거 행위를 바탕으로 다음에 무엇을 할지 추론.
- Outcome Evaluator: 특정 행동 조합을 월드 모델로 시뮬레이션한 결과 얻은 미래 상태를 평가(점수 매김)하는 모듈.
이러한 모듈들을 트리 탐색(tree search)과 결합해, 여러 단계 앞을 내다보는 장기 계획을 수립합니다. 즉, Action Proposer가 몇 가지 가능한 액션을 제안하면, Intent Tracker가 다른 에이전트의 의도를 추론하여 조합적 월드 모델(CWM)로 미래를 시뮬레이션합니다. 그리고 Outcome Evaluator가 그 미래 상태의 가치를 평가하여 더 나은 계획을 선택하는 식입니다.
실험 환경 및 결과
실험 환경: 논문은 ThreeDWorld라는 시뮬레이션 환경을 사용해 TDW-Game(퍼즐 맞추기)와 TDW-Cook(요리 레시피 완성) 두 가지 과제를 제안합니다.
- TDW-Game: 3~4명의 에이전트가 테이블 위 퍼즐 조각들을 서로 건네주며 올바른 상자에 넣는 협력 문제.
- TDW-Cook: 2명의 에이전트가 식재료를 자르고(pass), 특정 조리도구(예: 도마) 위에 놓아 레시피에 맞는 요리를 완성하는 협력 문제.
또한 2D-FetchQ라는 추가 과제도 실험에 활용했습니다.
비교 대상:
- Recurrent World Models나 MAPPO 같은 강화학습 기반 방식
- CoELA나 LLaVA같은 LLM/VLM 기반 에이전트
- 전지적(Oracle) 시야와 정책을 아는 강력한 기반 기법(Shared Belief Cooperator)
결과:
- COMBO는 다른 기법들보다 훨씬 높은 협력 효율(정확도, 성공률)을 달성.
- 특히 조합적 월드 모델을 사용했을 때, 단일 비디오 확산 모델(AVDC)보다 다중 에이전트 행동을 훨씬 더 정확히 시뮬레이션할 수 있었고, 이로 인해 장기 계획 성능이 크게 개선.
- Intent Tracker 모듈 추가 시, 다른 에이전트의 의도를 더 잘 파악함으로써 협력 효율이 더 향상.
- 같은 데이터로 학습했음에도 4에이전트 환경에서 학습한 모델이 3에이전트, 2에이전트 환경으로 쉽게 일반화되는 강력한 확장성도 확인.
예를 들어, TDW-Game에서 기존 LLM 에이전트나 VLM 에이전트 대비 더 적은 스텝으로 100% 성공률에 가까운 수행을 이끌어냈습니다. 또, 확산 모델 학습 시 Agent-Dependent Loss Scaling 기법을 적용하여 각 에이전트의 행동 영역에 비중을 두어 학습한 것이 시뮬레이션 성능 향상에 크게 기여했습니다.
실패 사례 분석
조합적 월드 모델도 완벽하진 않아, 약 25% 정도 다중 에이전트 행동 조합에서 영상 품질 저하나 조건 해석 오류가 발생했다고 합니다. 주된 오류원인은:
- 이미지 품질(artifacts): CFG(조건부 가이던스)로 인해 상반되는 요구사항이 강하게 주어졌을 때, 이미지에 모순적 표현(한 에이전트가 한 블록을 두 군데 동시에 놓는 등)이 나타나는 경우.
- 조건 해석 오류: 텍스트 조건 이해 부족으로 약간 다른 위치나 다른 동작을 수행하는 경우.
이 문제는 더 많은 데이터, 물리 파라미터 고려, 또는 추가적인 후처리로 개선 가능할 것이라 언급합니다.
실세계 적용 가능성
논문에서는 실제 로봇과 인간이 협력하는 시나리오로 TDW-Game에서 학습한 COMBO를 실제 테이블과 로봇팔(XArm) 세팅에 적용해보는 실험을 소개합니다. 최소한의 파인튜닝으로도 로봇이 인간과 협력적 과제를 수행하고, 조합적 월드 모델 기반 시뮬레이션으로 향상된 협력 전략을 세울 수 있음을 보였습니다.
결론 및 향후 과제
COMBO는 다중 에이전트 협력을 위한 새로운 접근 방식을 제시했습니다. 핵심은 조합적 월드 모델을 통한 미래 상태 예측 및 비전-언어 모델과의 결합을 통한 의도 추론, 행동 제안, 결과 평가를 통합한 계획 기법입니다. 이를 통해 다중 에이전트 협력 문제에서 강력한 성능과 확장성을 보여주었습니다.
앞으로 해결할 과제로는 실시간성 강화(계획 속도 향상), 더 복잡한 물리 요소 반영, 다양한 환경 및 에이전트 수에 대한 범용성 강화 등이 있습니다.
결국 COMBO는 “협력”이라는 난해한 문제를 다루는 데 있어, 월드 모델을 조합적으로 구성하고, VLM/LLM 활용으로 계획 모듈을 강화하는 방향성을 제시합니다. 이는 실제 로봇 협력, 멀티에이전트 게임, 산업 자동화 등의 분야에서 응용될 수 있는 중요한 진전입니다.
더 자세한 내용과 영상 데모는 논문 및 https://combo-iclr.github.io/COMBO/ 에서 확인할 수 있습니다.