본문 바로가기

분류 전체보기

(40)
Not All Tokens Are What You Need for Pretraining (NeurIPS 2024, Best paper Runner-up) 내용 정리 Introduction대규모 Language Model(LLM)을 훈련할 때, 일반적으로 전체 토큰에 대해 일률적으로 next-token prediction(Causal Language Modeling, CLM) 방식으로 학습해왔다. 그러나 이 논문은 이러한 접근에 의문을 제기하며, 훈련 코퍼스에 있는 모든 토큰이 학습에 똑같이 중요한 것은 아니다라는 문제 제기를 한다. 즉, 노이즈가 많거나 의미가 불분명한 토큰까지 모두 학습에 포함하는 것이 최적이 아닐 수 있다는 것이다.이 논문에서는 그 문제 상황을 동기 삼아, Selective Language Modeling(SLM)이라는 새로운 접근을 제안한 RHO-1 모델을 소개한다. RHO-1은 모든 토큰을 대상으로 하기보다는, 중요하다고 판단되는 토큰에 대해..
You Only Cache Once:Decoder-Decoder Architectures for Language Models (NeurIPS 2024, Oral paper) 내용 정리 Introduction언어 모델은 최근 다양한 분야에서 매우 큰 영향력을 보이며, 특히 Large Language Model(LLM) 형태로 크게 발전해왔다. 일반적으로 LLM에서는 decoder-only Transformer 구조가 가장 널리 활용되고 있으며, 이 구조는 key-value (KV) cache를 통해 매 단계에서 과거 계산을 재사용하게 만들어 준다. 그러나 시퀀스 길이가 커질수록, 모든 layer에 대해 KV cache가 증가하게 되어 GPU 메모리를 크게 소모하고, 긴 context를 다루는 시나리오에서 prefilling 시간이 기하급수적으로 늘어나는 문제가 존재한다.본 논문에서는 이 문제를 해결하기 위한 새로운 접근인 YOCO(You Only Cache Once) 구조를 소개한다. ..
RL-GPT: Integrating Reinforcement Learning and Code-as-policy (NeurIPS 2024, Oral paper) 내용 정리 Introduction오픈 월드 환경에서 에이전트를 학습시키는 문제는 AI 분야에서 오랫동안 도전적인 주제였다. 특히 Minecraft와 같은 복잡한 환경에서는 단순히 많은 데이터나 규칙 기반 코드를 활용하는 것만으로는 고난도 행동을 효율적으로 학습하기 어렵다. 최근 Large Language Models(LLMs)가 다양한 툴을 다루는 뛰어난 능력을 보여주고 있지만, 긴 논리적 사고나 정밀 제어가 필요한 open-world 환경의 태스크들을 직접 해결하기에는 한계가 있다. 반면, Reinforcement Learning(RL)은 상호작용을 통해 스스로 학습하는 데 강점이 있으나, 복잡한 태스크 구조나 긴 탐색 시간이 필요한 상황에서는 여전히 큰 비용이 든다.본 논문에서는 이러한 한계를 극복하기 위해, ..
The Road Less Scheduled (NeurIPS 2024, Oral paper) 내용 정리 배경 및 문제 제기일반적으로 stochastic optimization 문제, 특히 deep learning 모델 학습에서는 학습 과정을 안정적으로 수렴시키기 위해 learning rate schedule을 사용한다. 이러한 schedule은 특정 시간에 따른 learning rate 감소나 형태 변화를 명시적으로 설정하여, training 중 성능을 향상시키는 전략이다. 하지만 schedule을 사용하려면 미리 학습 종료 시점(T)을 가정하거나 전체 training 횟수(epoch)를 알고 있어야 하고, hyper-parameter tuning이 복잡해진다.한편, 기존 이론들은 non-smooth convex setting에서 단순한 SGD를 평균화한 Polyak-Ruppert averaging(PA)..
Reinforcement Learning from Wild Animal Videos 내용 정리 Introduction동물 다큐멘터리나 자연서식지에 촬영된 수많은 야생 동물 비디오를 활용해 로봇 보행 기술을 학습할 수 있다면 어떨까? 사자, 치타, 개미, 새 등 다양한 종들의 영상을 분석해 그 안에 내재된 자연스러운 움직임의 특징을 뽑아낸 뒤, 이를 로봇의 다리 제어 정책으로 옮긴다면, 보다 풍부하고 일반화된 로봇 움직임을 손쉽게 얻을 수 있을 것이다.본 연구에서는 이처럼 인터넷에서 수집한 수천 개의 야생 동물 비디오로부터 로봇 보행 스킬을 학습하는 새로운 방법인 Reinforcement Learning from Wild Animal Videos (RLWAV)를 제안합니다. 이를 통해 특정 동물이나 환경에 특화된 모션 캡처 데이터나 보상 함수를 미리 설계하지 않고도, 단순히 비디오를 보고 로봇에게 ..
Discriminator-Guided Embodied Planning For LLM Agent 복잡한 세계에서의 LLM 기반 에이전트 계획: 왜 어려울까?최근 대규모 언어 모델(LLM)은 놀라운 추론 능력을 보여주고 있지만, 이들이 사람처럼 물리적 환경에서 복잡한 임무를 오래도록 수행하는 것은 아직도 도전적인 과제입니다. 특히 Embodied AI 시나리오에서는 단순히 언어적 추론 능력 뿐 아니라, 동적인 환경 상태 파악, 긴 시퀀스의 액션 계획, 다양한 상황으로의 일반화 능력이 필요합니다. 예를 들어, 주방에 있는 금속을 녹이고 식물을 기르고, 전기 회로를 연결하는 등 수십 스텝에 걸쳐 진행되는 복잡한 과학 실험이나 가정 내 업무를 수행하려면, 단순히 한두 번의 자율 추론만으로는 부족합니다.이러한 문제를 해결하기 위해 일부 연구는 LLM이 환경과 상호작용하는 과정에서 스스로 행동을 평가(Refl..
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation 내용 정리 복잡한 세계에서 다중 에이전트 협력은 왜 어려울까?현실 세계 혹은 복잡한 3D 시뮬레이션 환경에서 여러 대의 로봇(혹은 가상 에이전트)이 함께 협력하여 어떤 목표를 달성한다고 상상해봅시다. 이들은 모두 서로 다른 위치, 다른 시야를 갖고 있으며, 각자 egocentric(1인칭) 시점의 RGB-D 영상 관측치만 얻습니다. 전방위 시야를 갖는 단일 에이전트 문제보다 훨씬 복잡한 이유는 다음과 같습니다. Partial Observability(부분 관측): 각 에이전트는 제한된 카메라 시야로, 세계의 전체 상태를 직접 볼 수 없습니다. 여러 에이전트가 모여도 정보가 불완전하고 노이즈가 많습니다.Joint Actions(공동 행동) 시뮬레이션: 다중 에이전트는 동시에 행동합니다. 단일 에이전트의 동작만 고려할..
Mr. Steve: Instruction-Following Agents in Minecraft with What-Where-When Memory Minecraft와 같은 오픈월드 환경에서 범용적인 에이전트를 만드는 것은 인공지능 연구에서 큰 도전 과제 중 하나입니다. 이러한 환경에서 에이전트는 긴 시계열에 걸친 다양한 하위 목표를 수행해야 합니다. 특히, 최근엔 대규모 언어 모델(LLM)로 강화된 하이레벨 플래너를 사용해, 상위 계획(예: “나무를 베어 도구를 만들기”)을 생성하고, 이를 하위 레벨 컨트롤러(로우레벨 정책)가 실행하도록 하는 계층적 접근 방식이 각광받고 있습니다. 그러나 현재의 하위 레벨 컨트롤러들은 종종 과거 정보를 충분히 기억하지 못해 동일한 자원을 반복해서 찾아다니거나 이미 방문했던 장소를 헛되이 재탐색하는 비효율을 보입니다. 이로 인해, 비록 상위 플래너가 뛰어난 계획을 세워도, 하위 레벨 컨트롤러 때문에 전체 시스템이 발..