인공지능 논문 정리 (21) 썸네일형 리스트형 Decompose, Analyze and Rethink:Solving Intricate Problems with Human-like Reasoning Cycle (NeurIPS 2024, Oral paper) Introduction최근 들어 Large Language Model(LLM)이 논리적이고 복잡한 문제를 푸는 능력이 크게 향상되었으나, 여전히 해결해야 할 이슈가 존재한다. 예컨대, 기존 접근법으로는 잘못된 중간 추론 단계가 최종 답안까지 이어질 위험이 크다. 이를 해소하기 위해, 본 논문에서는 DeAR(Decompose-Analyze-Rethink)라는 새 프레임워크를 제안했다. DeAR은 한 번의 Reasoning 루프에서 문제를 반복적으로 분해하고(Decompose), 해결한 뒤(Analyze), 기존 해결 과정을 재검토(Rethink)함으로써, 인간의 추론 과정과 유사하게 문제를 풀 수 있도록 지원한다.Background1) LLM의 추론 이슈Chain-of-Thought(CoT)이나 Tree-.. LOGIC-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning (EMNLP 2023 Findings) 내용 정리 Introduction최근 Large Language Model(LLM)이 자연어 추론에서 놀라운 성능을 보였으나, 복잡한 Logical Reasoning 문제에서는 여전히 한계를 드러내고 있다. 이 논문에서는 LLM을 Symbolic Solver와 결합하여 보다 정교하고 신뢰할 수 있는 논리 추론을 수행하는 방법을 제안한다. 이를 위해 LOGIC-LM이라는 프레임워크를 제안했으며, 논리적 문제를 자연어에서 Symbolic Form으로 변환하고, 이후 Symbolic Solver가 정확하고 해석 가능한 방식으로 추론을 수행하도록 했다. 결과적으로 LLM이 단독으로 문제를 풀이할 때 발생하기 쉬운 “불성실한 추론” 문제를 완화하고, 복잡한 논리 문제 해결 능력을 크게 향상시켰다.Background and .. Policy Learning from Tutorial Books via Understanding, Rehearsing and Introspecting (NeurIPS 2024, Oral paper) 내용 정리 Introduction강화학습은 일반적으로 환경과 상호작용하면서 데이터를 수집하고, 이를 바탕으로 에이전트를 학습시키는 방식으로 이루어져 왔다. 그러나 사람이 새로운 기술을 배우는 상황을 떠올려 보면, 직접 시행착오를 겪기 이전에 “교과서”나 “튜토리얼 책”을 통해 지식을 습득하고 이를 머릿속에서 리허설(Rehearse)해보는 과정을 거친다. 이 논문에서는 이러한 인간의 학습 방식을 모사해, 환경과 직접 상호작용하지 않고도 “튜토리얼 책”에 담긴 지식을 활용해 정책을 학습하는 Policy Learning from tutorial Books(PLfB) 문제를 새롭게 제시하고, 이를 해결하기 위한 URI(Understanding, Rehearsing, Introspecting) 프레임워크를 제안한다.문제: .. Not All Tokens Are What You Need for Pretraining (NeurIPS 2024, Best paper Runner-up) 내용 정리 Introduction대규모 Language Model(LLM)을 훈련할 때, 일반적으로 전체 토큰에 대해 일률적으로 next-token prediction(Causal Language Modeling, CLM) 방식으로 학습해왔다. 그러나 이 논문은 이러한 접근에 의문을 제기하며, 훈련 코퍼스에 있는 모든 토큰이 학습에 똑같이 중요한 것은 아니다라는 문제 제기를 한다. 즉, 노이즈가 많거나 의미가 불분명한 토큰까지 모두 학습에 포함하는 것이 최적이 아닐 수 있다는 것이다.이 논문에서는 그 문제 상황을 동기 삼아, Selective Language Modeling(SLM)이라는 새로운 접근을 제안한 RHO-1 모델을 소개한다. RHO-1은 모든 토큰을 대상으로 하기보다는, 중요하다고 판단되는 토큰에 대해.. You Only Cache Once:Decoder-Decoder Architectures for Language Models (NeurIPS 2024, Oral paper) 내용 정리 Introduction언어 모델은 최근 다양한 분야에서 매우 큰 영향력을 보이며, 특히 Large Language Model(LLM) 형태로 크게 발전해왔다. 일반적으로 LLM에서는 decoder-only Transformer 구조가 가장 널리 활용되고 있으며, 이 구조는 key-value (KV) cache를 통해 매 단계에서 과거 계산을 재사용하게 만들어 준다. 그러나 시퀀스 길이가 커질수록, 모든 layer에 대해 KV cache가 증가하게 되어 GPU 메모리를 크게 소모하고, 긴 context를 다루는 시나리오에서 prefilling 시간이 기하급수적으로 늘어나는 문제가 존재한다.본 논문에서는 이 문제를 해결하기 위한 새로운 접근인 YOCO(You Only Cache Once) 구조를 소개한다. .. RL-GPT: Integrating Reinforcement Learning and Code-as-policy (NeurIPS 2024, Oral paper) 내용 정리 Introduction오픈 월드 환경에서 에이전트를 학습시키는 문제는 AI 분야에서 오랫동안 도전적인 주제였다. 특히 Minecraft와 같은 복잡한 환경에서는 단순히 많은 데이터나 규칙 기반 코드를 활용하는 것만으로는 고난도 행동을 효율적으로 학습하기 어렵다. 최근 Large Language Models(LLMs)가 다양한 툴을 다루는 뛰어난 능력을 보여주고 있지만, 긴 논리적 사고나 정밀 제어가 필요한 open-world 환경의 태스크들을 직접 해결하기에는 한계가 있다. 반면, Reinforcement Learning(RL)은 상호작용을 통해 스스로 학습하는 데 강점이 있으나, 복잡한 태스크 구조나 긴 탐색 시간이 필요한 상황에서는 여전히 큰 비용이 든다.본 논문에서는 이러한 한계를 극복하기 위해, .. The Road Less Scheduled (NeurIPS 2024, Oral paper) 내용 정리 배경 및 문제 제기일반적으로 stochastic optimization 문제, 특히 deep learning 모델 학습에서는 학습 과정을 안정적으로 수렴시키기 위해 learning rate schedule을 사용한다. 이러한 schedule은 특정 시간에 따른 learning rate 감소나 형태 변화를 명시적으로 설정하여, training 중 성능을 향상시키는 전략이다. 하지만 schedule을 사용하려면 미리 학습 종료 시점(T)을 가정하거나 전체 training 횟수(epoch)를 알고 있어야 하고, hyper-parameter tuning이 복잡해진다.한편, 기존 이론들은 non-smooth convex setting에서 단순한 SGD를 평균화한 Polyak-Ruppert averaging(PA).. Reinforcement Learning from Wild Animal Videos 내용 정리 Introduction동물 다큐멘터리나 자연서식지에 촬영된 수많은 야생 동물 비디오를 활용해 로봇 보행 기술을 학습할 수 있다면 어떨까? 사자, 치타, 개미, 새 등 다양한 종들의 영상을 분석해 그 안에 내재된 자연스러운 움직임의 특징을 뽑아낸 뒤, 이를 로봇의 다리 제어 정책으로 옮긴다면, 보다 풍부하고 일반화된 로봇 움직임을 손쉽게 얻을 수 있을 것이다.본 연구에서는 이처럼 인터넷에서 수집한 수천 개의 야생 동물 비디오로부터 로봇 보행 스킬을 학습하는 새로운 방법인 Reinforcement Learning from Wild Animal Videos (RLWAV)를 제안합니다. 이를 통해 특정 동물이나 환경에 특화된 모션 캡처 데이터나 보상 함수를 미리 설계하지 않고도, 단순히 비디오를 보고 로봇에게 .. 이전 1 2 3 다음