rl (4) 썸네일형 리스트형 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 내용 정리 Intorduction최근 Large Language Models(LLMs)의 발전 속도는 인공지능(AI)이 Artificial General Intelligence(AGI)로 나아가는 과정에서 중요한 연구 방향을 제시하고 있다. 특히, 사전 훈련 이후 모델을 개선하는 Post-Training 기법이 주목받고 있다. 이는 모델의 reasoning 성능을 향상시키고, 사회적 가치에 맞추며, 사용자의 선호도에 적응할 수 있도록 한다. DeepSeek-AI에서는 이러한 post-training 기법 중 Reinforcement Learning(RL)을 활용하여 reasoning 능력을 강화하는 새로운 모델 DeepSeek-R1을 개발하였다. DeepSeek-R1은 기존의 Supervised Fine-Tunin.. Policy Learning from Tutorial Books via Understanding, Rehearsing and Introspecting (NeurIPS 2024, Oral paper) 내용 정리 Introduction강화학습은 일반적으로 환경과 상호작용하면서 데이터를 수집하고, 이를 바탕으로 에이전트를 학습시키는 방식으로 이루어져 왔다. 그러나 사람이 새로운 기술을 배우는 상황을 떠올려 보면, 직접 시행착오를 겪기 이전에 “교과서”나 “튜토리얼 책”을 통해 지식을 습득하고 이를 머릿속에서 리허설(Rehearse)해보는 과정을 거친다. 이 논문에서는 이러한 인간의 학습 방식을 모사해, 환경과 직접 상호작용하지 않고도 “튜토리얼 책”에 담긴 지식을 활용해 정책을 학습하는 Policy Learning from tutorial Books(PLfB) 문제를 새롭게 제시하고, 이를 해결하기 위한 URI(Understanding, Rehearsing, Introspecting) 프레임워크를 제안한다.문제: .. RL-GPT: Integrating Reinforcement Learning and Code-as-policy (NeurIPS 2024, Oral paper) 내용 정리 Introduction오픈 월드 환경에서 에이전트를 학습시키는 문제는 AI 분야에서 오랫동안 도전적인 주제였다. 특히 Minecraft와 같은 복잡한 환경에서는 단순히 많은 데이터나 규칙 기반 코드를 활용하는 것만으로는 고난도 행동을 효율적으로 학습하기 어렵다. 최근 Large Language Models(LLMs)가 다양한 툴을 다루는 뛰어난 능력을 보여주고 있지만, 긴 논리적 사고나 정밀 제어가 필요한 open-world 환경의 태스크들을 직접 해결하기에는 한계가 있다. 반면, Reinforcement Learning(RL)은 상호작용을 통해 스스로 학습하는 데 강점이 있으나, 복잡한 태스크 구조나 긴 탐색 시간이 필요한 상황에서는 여전히 큰 비용이 든다.본 논문에서는 이러한 한계를 극복하기 위해, .. Reinforcement Learning from Wild Animal Videos 내용 정리 Introduction동물 다큐멘터리나 자연서식지에 촬영된 수많은 야생 동물 비디오를 활용해 로봇 보행 기술을 학습할 수 있다면 어떨까? 사자, 치타, 개미, 새 등 다양한 종들의 영상을 분석해 그 안에 내재된 자연스러운 움직임의 특징을 뽑아낸 뒤, 이를 로봇의 다리 제어 정책으로 옮긴다면, 보다 풍부하고 일반화된 로봇 움직임을 손쉽게 얻을 수 있을 것이다.본 연구에서는 이처럼 인터넷에서 수집한 수천 개의 야생 동물 비디오로부터 로봇 보행 스킬을 학습하는 새로운 방법인 Reinforcement Learning from Wild Animal Videos (RLWAV)를 제안합니다. 이를 통해 특정 동물이나 환경에 특화된 모션 캡처 데이터나 보상 함수를 미리 설계하지 않고도, 단순히 비디오를 보고 로봇에게 .. 이전 1 다음