LLM (11) 썸네일형 리스트형 Diverse Preference Optimization 내용 정리 Introduction최근 LLM 모델의 학습 과정에서 사용자 선호(또는 Reward)와 일치하도록 모델을 튜닝하는 preference optimization 기법이 활발히 연구되고 있다. RLHF 또는 DPO와 같은 파이프라인은 높은 퀄리티의 답변을 만들어내는 데 효과적이지만, 동시에 모델의 출력 다양성이 급격히 감소하는 현상이 여러 연구에서 보고되었다. 이런 현상을 Alignment Collapse라고 부르기도 한다.Problem: Diversity의 감소기존 reinforcement learning이나 preference optimization 방법들은 최적의 보상(Reinforcement)만을 강조해, 결과적으로 모델 출력 분포가 한정된 일부 토큰·패턴에 집중하는 경향이 발생한다. 예컨대, cre.. Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs 내용 정리 Introduction최근 OpenAI가 선보인 o1 계열 모델은, 테스트 시점에서 더 많은 연산을 허용하며 reasoning을 길게 수행하는 방식으로 복잡한 수학 및 과학 문제를 해결하는 능력을 선보였다. 그러나, 이러한 깊은 사고(deep thinking) 프로세스가 언제나 효율적으로 작동하는 것은 아니라는 관점이 제기되었다. 본 글에서는 o1 계열 LLM들이 underthinking을 나타내는 현상을 소개하고, 이를 완화하기 위한 간단한 기법(Thought-switching penalty)에 관해 논의한다.Underthinking이란o1 계열 LLM들은 문제 해결을 위해, reasoning 체인을 구성하고 중간에 여러 아이디어(Thought)로 전환하기도 한다. 하지만 다음과 같은 문제가 포착되었다.. s1: Simple test-time scaling 내용 정리 Introduction최근 LLM 기반 응용들이 복잡한 추론 문제를 해결하기 위해 test-time scaling이라는 새로운 접근을 시도하고 있다. 이는 학습된 모델을 그대로 두면서, 테스트 시점에서 추가 연산을 허용하여 성능을 더 높이는 개념이다. 예컨대, OpenAI가 선보인 o1 모델은 테스트 시점에 더 많은 연산을 사용해 성능을 꾸준히 향상시켜, 다양한 수학·과학 문제에서 좋은 결과를 보였다. 그러나 해당 기법이 비공개였기에 많은 연구 그룹이 유사한 시도를 했으나, 흔히 RL이나 상당한 양의 data를 사용하는 방식이었다.이번 글에서는 Simple Test-time Scaling을 표방하는 새로운 방법론과, 이를 이용해 만든 오픈 모델인 s1-32B를 다룬다. 핵심 포인트는 다음과 같다.1,00.. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 내용 정리 Intorduction최근 Large Language Models(LLMs)의 발전 속도는 인공지능(AI)이 Artificial General Intelligence(AGI)로 나아가는 과정에서 중요한 연구 방향을 제시하고 있다. 특히, 사전 훈련 이후 모델을 개선하는 Post-Training 기법이 주목받고 있다. 이는 모델의 reasoning 성능을 향상시키고, 사회적 가치에 맞추며, 사용자의 선호도에 적응할 수 있도록 한다. DeepSeek-AI에서는 이러한 post-training 기법 중 Reinforcement Learning(RL)을 활용하여 reasoning 능력을 강화하는 새로운 모델 DeepSeek-R1을 개발하였다. DeepSeek-R1은 기존의 Supervised Fine-Tunin.. Decompose, Analyze and Rethink:Solving Intricate Problems with Human-like Reasoning Cycle (NeurIPS 2024, Oral paper) Introduction최근 들어 Large Language Model(LLM)이 논리적이고 복잡한 문제를 푸는 능력이 크게 향상되었으나, 여전히 해결해야 할 이슈가 존재한다. 예컨대, 기존 접근법으로는 잘못된 중간 추론 단계가 최종 답안까지 이어질 위험이 크다. 이를 해소하기 위해, 본 논문에서는 DeAR(Decompose-Analyze-Rethink)라는 새 프레임워크를 제안했다. DeAR은 한 번의 Reasoning 루프에서 문제를 반복적으로 분해하고(Decompose), 해결한 뒤(Analyze), 기존 해결 과정을 재검토(Rethink)함으로써, 인간의 추론 과정과 유사하게 문제를 풀 수 있도록 지원한다.Background1) LLM의 추론 이슈Chain-of-Thought(CoT)이나 Tree-.. LOGIC-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning (EMNLP 2023 Findings) 내용 정리 Introduction최근 Large Language Model(LLM)이 자연어 추론에서 놀라운 성능을 보였으나, 복잡한 Logical Reasoning 문제에서는 여전히 한계를 드러내고 있다. 이 논문에서는 LLM을 Symbolic Solver와 결합하여 보다 정교하고 신뢰할 수 있는 논리 추론을 수행하는 방법을 제안한다. 이를 위해 LOGIC-LM이라는 프레임워크를 제안했으며, 논리적 문제를 자연어에서 Symbolic Form으로 변환하고, 이후 Symbolic Solver가 정확하고 해석 가능한 방식으로 추론을 수행하도록 했다. 결과적으로 LLM이 단독으로 문제를 풀이할 때 발생하기 쉬운 “불성실한 추론” 문제를 완화하고, 복잡한 논리 문제 해결 능력을 크게 향상시켰다.Background and .. Policy Learning from Tutorial Books via Understanding, Rehearsing and Introspecting (NeurIPS 2024, Oral paper) 내용 정리 Introduction강화학습은 일반적으로 환경과 상호작용하면서 데이터를 수집하고, 이를 바탕으로 에이전트를 학습시키는 방식으로 이루어져 왔다. 그러나 사람이 새로운 기술을 배우는 상황을 떠올려 보면, 직접 시행착오를 겪기 이전에 “교과서”나 “튜토리얼 책”을 통해 지식을 습득하고 이를 머릿속에서 리허설(Rehearse)해보는 과정을 거친다. 이 논문에서는 이러한 인간의 학습 방식을 모사해, 환경과 직접 상호작용하지 않고도 “튜토리얼 책”에 담긴 지식을 활용해 정책을 학습하는 Policy Learning from tutorial Books(PLfB) 문제를 새롭게 제시하고, 이를 해결하기 위한 URI(Understanding, Rehearsing, Introspecting) 프레임워크를 제안한다.문제: .. Not All Tokens Are What You Need for Pretraining (NeurIPS 2024, Best paper Runner-up) 내용 정리 Introduction대규모 Language Model(LLM)을 훈련할 때, 일반적으로 전체 토큰에 대해 일률적으로 next-token prediction(Causal Language Modeling, CLM) 방식으로 학습해왔다. 그러나 이 논문은 이러한 접근에 의문을 제기하며, 훈련 코퍼스에 있는 모든 토큰이 학습에 똑같이 중요한 것은 아니다라는 문제 제기를 한다. 즉, 노이즈가 많거나 의미가 불분명한 토큰까지 모두 학습에 포함하는 것이 최적이 아닐 수 있다는 것이다.이 논문에서는 그 문제 상황을 동기 삼아, Selective Language Modeling(SLM)이라는 새로운 접근을 제안한 RHO-1 모델을 소개한다. RHO-1은 모든 토큰을 대상으로 하기보다는, 중요하다고 판단되는 토큰에 대해.. 이전 1 2 다음