인공지능 논문 정리 (22) 썸네일형 리스트형 Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 1. Introduction최근 Language Model(LLM) 분야에서 모델이 추론에 필요한 계산량을 유연하게 조절할 수 있게 하는 방법에 대한 관심이 높아지고 있다. 전통적으로는 모델 크기(파라미터 수)를 키우거나, Chain-of-Thought(CoT) 를 활용해 추론할 때 더 많은 토큰을 생산하도록 하여 inference 단에서의 계산량을 늘려왔다. 그러나, 항상 길고 명시적인 토큰 시퀀스를 통해 “생각”을 드러내는 방식은 다양한 한계가 있다. 이 글에서는 Recurrent Depth(순환형 깊이)라는 새로운 모델 아키텍처가 제안되어, 잠재 공간에서 반복적 계산을 수행함으로써 test-time compute를 자연스럽게 확장하는 방법을 살펴본다. Recurrent Depth 모델은 기존의 Tr.. Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 내용 정리 Introduction최근 Large Language Model(LLM)은 다양한 자연어 처리 및 reasoning 문제에서 우수한 성능을 보이고 있다. 특히 수학 문제 풀이, 과학적 추론, 복잡한 증명 등에 있어 사람 수준 혹은 그 이상의 결과를 보이는 모델이 등장하고 있다. 하지만 이러한 Chain-of-Thought(CoT) 중심의 접근은 여전히 어려운 문제에서 한계를 드러내고 있다. 많은 복잡한 reasoning 작업이 실제로는 반복적 탐색과 검증 과정을 거치는데, 현재의 CoT는 이를 온전히 나타내지 못한다는 비판이 이어지고 있다.여기서 제안되는 것이 Meta Chain-of-Thought(이하 Meta-CoT)이다. 이는 CoT보다 한 단계 더 확장된 개념으로, 모델이 결과를 도출하는 단계별 .. Diverse Preference Optimization 내용 정리 Introduction최근 LLM 모델의 학습 과정에서 사용자 선호(또는 Reward)와 일치하도록 모델을 튜닝하는 preference optimization 기법이 활발히 연구되고 있다. RLHF 또는 DPO와 같은 파이프라인은 높은 퀄리티의 답변을 만들어내는 데 효과적이지만, 동시에 모델의 출력 다양성이 급격히 감소하는 현상이 여러 연구에서 보고되었다. 이런 현상을 Alignment Collapse라고 부르기도 한다.Problem: Diversity의 감소기존 reinforcement learning이나 preference optimization 방법들은 최적의 보상(Reinforcement)만을 강조해, 결과적으로 모델 출력 분포가 한정된 일부 토큰·패턴에 집중하는 경향이 발생한다. 예컨대, cre.. Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs 내용 정리 Introduction최근 OpenAI가 선보인 o1 계열 모델은, 테스트 시점에서 더 많은 연산을 허용하며 reasoning을 길게 수행하는 방식으로 복잡한 수학 및 과학 문제를 해결하는 능력을 선보였다. 그러나, 이러한 깊은 사고(deep thinking) 프로세스가 언제나 효율적으로 작동하는 것은 아니라는 관점이 제기되었다. 본 글에서는 o1 계열 LLM들이 underthinking을 나타내는 현상을 소개하고, 이를 완화하기 위한 간단한 기법(Thought-switching penalty)에 관해 논의한다.Underthinking이란o1 계열 LLM들은 문제 해결을 위해, reasoning 체인을 구성하고 중간에 여러 아이디어(Thought)로 전환하기도 한다. 하지만 다음과 같은 문제가 포착되었다.. s1: Simple test-time scaling 내용 정리 Introduction최근 LLM 기반 응용들이 복잡한 추론 문제를 해결하기 위해 test-time scaling이라는 새로운 접근을 시도하고 있다. 이는 학습된 모델을 그대로 두면서, 테스트 시점에서 추가 연산을 허용하여 성능을 더 높이는 개념이다. 예컨대, OpenAI가 선보인 o1 모델은 테스트 시점에 더 많은 연산을 사용해 성능을 꾸준히 향상시켜, 다양한 수학·과학 문제에서 좋은 결과를 보였다. 그러나 해당 기법이 비공개였기에 많은 연구 그룹이 유사한 시도를 했으나, 흔히 RL이나 상당한 양의 data를 사용하는 방식이었다.이번 글에서는 Simple Test-time Scaling을 표방하는 새로운 방법론과, 이를 이용해 만든 오픈 모델인 s1-32B를 다룬다. 핵심 포인트는 다음과 같다.1,00.. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 내용 정리 Intorduction최근 Large Language Models(LLMs)의 발전 속도는 인공지능(AI)이 Artificial General Intelligence(AGI)로 나아가는 과정에서 중요한 연구 방향을 제시하고 있다. 특히, 사전 훈련 이후 모델을 개선하는 Post-Training 기법이 주목받고 있다. 이는 모델의 reasoning 성능을 향상시키고, 사회적 가치에 맞추며, 사용자의 선호도에 적응할 수 있도록 한다. DeepSeek-AI에서는 이러한 post-training 기법 중 Reinforcement Learning(RL)을 활용하여 reasoning 능력을 강화하는 새로운 모델 DeepSeek-R1을 개발하였다. DeepSeek-R1은 기존의 Supervised Fine-Tunin.. DeepSeek-V3 Technical Report 내용 정리 DeepSeek-V3 개요모델 스펙전체 파라미터: 6710억 개활성화 파라미터: 370억 개학습 데이터: 14.8조 토큰핵심 특징Multi-Head Latent Attention (MLA): 효율적인 Key-value 캐시를 지원하면서 성능 저하를 최소화하는 Attention layer 구조를 활용DeepSeekMoE 아키텍처: Shared expert와 Router expert를 동시에 이용하고, Router expert를 세분화하여 활용함으로써 효율적인 추론을 수행Auxiliary-loss-free Load Balancing: 기존의 보조 손실(auxiliary loss) 없이도 전문가(expert) 간의 부하를 효과적으로 균형 조정하는 방법을 도입Multi-Token Prediction (MTP):.. What type of inference is planning? (NeurIPS 2024, Spotlight paper) 내용 정리 Introduction이 논문에서는 Markov Decision Process (MDP)에서의 planning 문제가, probabilistic graphical model에서의 여러 inference(marginal, MAP, MMAP 등) 가운데 어느 것과 가장 유사한지, 그리고 기존 방식들이 실제로 어떤 식으로 planning을 근사하고 있는지를 Variational Inference (VI) 관점에서 새롭게 분석했다. 결론적으로, 논문은 planning은 “기존 inference 중 어디에도 완벽히 속하지 않는 별도의 inference”에 해당하며, 이 planning inference가 확률 그래프 구조에서의 entropy 항을 특정 방식으로 가중하는 것과 정확히 일치한다고 주장했다.이 관점에서.. 이전 1 2 3 다음 목록 더보기