본문 바로가기

LLM

(11)
You Only Cache Once:Decoder-Decoder Architectures for Language Models (NeurIPS 2024, Oral paper) 내용 정리 Introduction언어 모델은 최근 다양한 분야에서 매우 큰 영향력을 보이며, 특히 Large Language Model(LLM) 형태로 크게 발전해왔다. 일반적으로 LLM에서는 decoder-only Transformer 구조가 가장 널리 활용되고 있으며, 이 구조는 key-value (KV) cache를 통해 매 단계에서 과거 계산을 재사용하게 만들어 준다. 그러나 시퀀스 길이가 커질수록, 모든 layer에 대해 KV cache가 증가하게 되어 GPU 메모리를 크게 소모하고, 긴 context를 다루는 시나리오에서 prefilling 시간이 기하급수적으로 늘어나는 문제가 존재한다.본 논문에서는 이 문제를 해결하기 위한 새로운 접근인 YOCO(You Only Cache Once) 구조를 소개한다. ..
RL-GPT: Integrating Reinforcement Learning and Code-as-policy (NeurIPS 2024, Oral paper) 내용 정리 Introduction오픈 월드 환경에서 에이전트를 학습시키는 문제는 AI 분야에서 오랫동안 도전적인 주제였다. 특히 Minecraft와 같은 복잡한 환경에서는 단순히 많은 데이터나 규칙 기반 코드를 활용하는 것만으로는 고난도 행동을 효율적으로 학습하기 어렵다. 최근 Large Language Models(LLMs)가 다양한 툴을 다루는 뛰어난 능력을 보여주고 있지만, 긴 논리적 사고나 정밀 제어가 필요한 open-world 환경의 태스크들을 직접 해결하기에는 한계가 있다. 반면, Reinforcement Learning(RL)은 상호작용을 통해 스스로 학습하는 데 강점이 있으나, 복잡한 태스크 구조나 긴 탐색 시간이 필요한 상황에서는 여전히 큰 비용이 든다.본 논문에서는 이러한 한계를 극복하기 위해, ..
Discriminator-Guided Embodied Planning For LLM Agent 복잡한 세계에서의 LLM 기반 에이전트 계획: 왜 어려울까?최근 대규모 언어 모델(LLM)은 놀라운 추론 능력을 보여주고 있지만, 이들이 사람처럼 물리적 환경에서 복잡한 임무를 오래도록 수행하는 것은 아직도 도전적인 과제입니다. 특히 Embodied AI 시나리오에서는 단순히 언어적 추론 능력 뿐 아니라, 동적인 환경 상태 파악, 긴 시퀀스의 액션 계획, 다양한 상황으로의 일반화 능력이 필요합니다. 예를 들어, 주방에 있는 금속을 녹이고 식물을 기르고, 전기 회로를 연결하는 등 수십 스텝에 걸쳐 진행되는 복잡한 과학 실험이나 가정 내 업무를 수행하려면, 단순히 한두 번의 자율 추론만으로는 부족합니다.이러한 문제를 해결하기 위해 일부 연구는 LLM이 환경과 상호작용하는 과정에서 스스로 행동을 평가(Refl..