복잡한 세계에서의 LLM 기반 에이전트 계획: 왜 어려울까?
최근 대규모 언어 모델(LLM)은 놀라운 추론 능력을 보여주고 있지만, 이들이 사람처럼 물리적 환경에서 복잡한 임무를 오래도록 수행하는 것은 아직도 도전적인 과제입니다. 특히 Embodied AI 시나리오에서는 단순히 언어적 추론 능력 뿐 아니라, 동적인 환경 상태 파악, 긴 시퀀스의 액션 계획, 다양한 상황으로의 일반화 능력이 필요합니다. 예를 들어, 주방에 있는 금속을 녹이고 식물을 기르고, 전기 회로를 연결하는 등 수십 스텝에 걸쳐 진행되는 복잡한 과학 실험이나 가정 내 업무를 수행하려면, 단순히 한두 번의 자율 추론만으로는 부족합니다.
이러한 문제를 해결하기 위해 일부 연구는 LLM이 환경과 상호작용하는 과정에서 스스로 행동을 평가(Reflection)하거나, Tree-of-Thoughts 기법을 활용하거나, 대규모 시연(demonstration)을 통해 모델을 미리 학습시키는 방법을 시도해왔습니다. 하지만 이러한 방식은 다음과 같은 한계를 지닙니다.
- 결과 후 피드백 의존: 대부분의 기존 방식은 최종 결과(성공/실패)에 기반한 피드백에 의존하여 LLM을 개선하려 합니다. 즉, 모든 과정을 마치고 나서야 잘못된 부분을 알 수 있어 중간 단계에서의 세밀한 조정이 어렵습니다.
- 데이터 비용: 규모가 큰 시연 데이터나 사람의 피드백(예: RLHF) 획득에는 막대한 비용과 시간이 필요합니다.
- 일관된 장기 정책 수립의 어려움: 긴 시퀀스를 다룰 때, 초기 단계의 작은 실수가 뒤로 갈수록 누적되어 큰 실패로 이어집니다. 이를 막기 위해서는 각 스텝마다 '올바른 방향으로 가고 있는지' 점검할 수 있는 섬세한 피드백이 필요합니다.
DGAP(Discriminator-Guided Action Optimization): 소수 시연데이터와 스텝별 점수 기반 계획
이 논문에서는 Discriminator-Guided Action OPtimization (DGAP)라는 새로운 프레임워크를 제안합니다. DGAP의 핵심 아이디어는 다음과 같습니다.
- Discriminator(판별기)를 통한 단계별(스텝별) 점수 피드백 제공:
LLM이 환경 상태와 목표를 보고 행동을 내놓으면, 미리 학습한 Discriminator가 그 액션이 전문가 시연 데이터의 "이상적 행동"과 얼마나 유사한지를 점수(0~10)로 매깁니다. 이는 단일 최종 결과가 아닌, 매 액션 단계별 '세밀한' 정성적 피드백을 제공하여 LLM이 실시간으로 계획을 수정하고 최적화할 수 있게 돕습니다. - 시연 데이터의 효율적 활용:
많은 양의 전문가 시연 데이터 없이도, 소수의 시연을 바탕으로 시연+증강 데이터셋을 구성하여 Discriminator를 학습합니다. 이로써 Discriminator는 다양한 상황에서 LLM 액션의 '전문가 친화도'를 측정할 수 있어, LLM이 전혀 본 적 없는 상황에서도 충분히 유용한 점수 피드백을 받을 수 있습니다. - LLM을 암묵적인 최적화 기법으로 활용:
LLM은 본래 자연어를 샘플링하는 '생성자' 역할을 합니다. 하지만 DGAP에서는 스텝별 점수라는 guidance를 통해 LLM을 일종의 '최적화 알고리즘'처럼 동작하게 만들 수 있습니다. 즉, LLM은 지금까지의 액션-점수 히스토리를 기반으로 다음 액션을 점점 더 고득점 방향으로 개선합니다. - 끊임없는 재계획(Re-plan)으로 안정된 정책 형성:
만약 Discriminator가 특정 액션에 낮은 점수를 준다면, LLM은 해당 액션을 즉시 수정하려 재생성하게 됩니다. 이 과정을 통해 전체 정책이 단계별 피드백으로 점진적 개선을 이루어냅니다.
이론적 고찰: RLHF와의 연관성, Critic-정규화 형태의 최적화
논문에서는 DGAP가 일정 조건 하에서 'critic-regularized optimization' 형태를 이룬다는 점을 제안합니다. Discriminator가 주는 점수가 곧 '비용 함수' 또는 '보상 함수' 역할을 하며, LLM은 기존 정책($π_{llm}$)에서 그리 멀어지지 않으면서도(즉, KL 발산 제한) 점수를 높이는 방향으로 업데이트됩니다. 이러한 구조는 기존의 RLHF(Reinforcement Learning from Human Feedback) 구조와 유사하나, RLHF가 주로 사람의 피드백으로 보상을 학습하는 데 비해, DGAP는 시연 데이터로 훈련한 Discriminator를 통해 보상을 제공한다는 차이점이 있습니다. 더구나 DGAP는 LLM 파라미터를 업데이트하지 않고, 프롬프트 레벨에서 이 최적화를 수행하므로 더 손쉽게 적용 가능하다는 장점이 있습니다.
실험 결과
ScienceWorld: 다양한 과학 실험이 가능한 텍스트 시뮬레이션 환경에서 DGAP를 테스트한 결과, 기존 대표적 기법(예: SwiftSage, Reflexion, SFT, TDT) 대비 높은 성공률, 더 짧은 액션 시퀀스 내 성공 달성, 그리고 다양한 난이도(단순·중간·장기 과제)에서 일관되게 우수한 성능을 보였습니다.
- 예를 들어, 평균 50스텝 이상의 긴 과제들(Long tasks)에서도 DGAP는 약 85% 이상의 성공률을 보이며, 기존 방법보다 훨씬 안정적으로 장기 계획을 수행했습니다.
- 짧은 과제(Short tasks)에서는 다른 방법들도 상당히 우수했으나, DGAP는 특정 상황에서 Discriminator의 점수가 오히려 불필요한 정보를 제공할 수도 있음을 보여주기도 했습니다.
VirtualHome: 가정 내 다양한 작업 수행(예: “청구서 지불하기”, “우유를 식탁 위에 놓기”)을 요구하는 VirtualHome 환경에서도 DGAP는 전반적으로 높은 성공률과 안정성을 발휘했습니다. NovelScenes나 NovelTasks 같이 환경 또는 목표가 변하는 상황에서도 DGAP는 목표를 효과적으로 달성했고, 평균 행동 실행 가능성(EXEC)와 성공률(SR)을 모두 개선했습니다.
추가로, 집안의 여러 가지 장기 작업(Long tasks, 60스텝 이상)에서도 DGAP를 적용해보니, 기존 기법보다 훨씬 높은 성공률을 보였습니다. 이는 DGAP가 길고 복잡한 태스크에서 특히 강력한 일반화 능력과 안정적 정책 형성을 제공함을 시사합니다.
Qualitative Analysis
- 세밀한 피드백으로 인한 즉각적 개선:
기존 방법은 실패 발생 이후에나 수정이 가능했습니다. 반면 DGAP는 액션 단위로 피드백(점수)를 제공하므로, LLM이 "지금 이 액션이 과연 전문가 행위와 유사한가?"를 즉시 판단하고 개선할 수 있습니다. 예를 들어 전기회로를 만드는 작업에서, 기존 방법은 불필요한 객체를 거치는 비효율적 경로를 택했을 때 끝까지 잘못된 방향으로 갈 수 있지만, DGAP는 즉각적인 점수 하락을 감지하고 더 효율적인 행동 선택으로 전환합니다. - 환경 변화 대응력 강화:
일부 상황에서 GPT-4나 Llama3 같은 모델도 환경 관련 정보 이해에 한계가 있지만, DGAP는 Discriminator 점수 피드백 덕분에 해당 한계를 보완합니다. 즉, 잘못된 추론이나 불필요한 행동을 했을 때 점수가 떨어지면 즉각 재계획을 유도함으로써 최종적으로 목표를 달성할 확률을 높입니다.
한계와 향후 과제
DGAP는 일부 단기 과제에서 점수 피드백이 오히려 성능을 방해하는 경우도 있었습니다. 이는 증강 데이터와 실제 환경 간 차이로 인한 오차일 수 있으며, 이를 줄이려면 더 정교한 증강 방법, 더 많은 도메인 지식, 또는 환경정보(이미지, 구체적 위치 정보)의 더 적절한 활용이 필요할 수 있습니다.
또한, 여전히 시연 데이터를 수집해야 하며, 이 과정에서 데이터 품질과 분포에 따른 영향이 존재합니다. 향후에는 더 효율적인 데이터 구성 전략, 적은 시연 데이터로도 범용적 스코어러를 학습할 수 있는 방법, 또는 LLM 내부지식을 더 효과적으로 활용하는 방향이 모색될 수 있습니다.
결론
DGAP는 시연 데이터로 학습한 Discriminator를 통해 스텝별로 정량적 점수를 제공, LLM을 암묵적인 최적화 기법으로 활용하는 혁신적인 접근법입니다. 이는 환경 상호작용이 긴 시나리오에서 안정적인 장기 계획 수립 능력을 크게 높여주며, 기존 기법 대비 높은 성공률, 효율적인 액션 선택, 안정적 성능을 입증했습니다.
실험 결과와 이론적 분석을 통해, DGAP는 LLM 기반 에이전트가 복잡하고 동적인 embodied task를 수행하는 새로운 패러다임을 제시합니다. 이는 향후 소수 시연 데이터 기반의 LLM 계획 전략, RLHF 대안적 접근, 초장기 과제 최적화 등 다양한 연구 방향에 유용한 통찰을 제공합니다.