인공지능 논문 정리 (21) 썸네일형 리스트형 Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 내용 정리 Introduction최근 Large Language Model(LLM)은 다양한 자연어 처리 및 reasoning 문제에서 우수한 성능을 보이고 있다. 특히 수학 문제 풀이, 과학적 추론, 복잡한 증명 등에 있어 사람 수준 혹은 그 이상의 결과를 보이는 모델이 등장하고 있다. 하지만 이러한 Chain-of-Thought(CoT) 중심의 접근은 여전히 어려운 문제에서 한계를 드러내고 있다. 많은 복잡한 reasoning 작업이 실제로는 반복적 탐색과 검증 과정을 거치는데, 현재의 CoT는 이를 온전히 나타내지 못한다는 비판이 이어지고 있다.여기서 제안되는 것이 Meta Chain-of-Thought(이하 Meta-CoT)이다. 이는 CoT보다 한 단계 더 확장된 개념으로, 모델이 결과를 도출하는 단계별 .. Diverse Preference Optimization 내용 정리 Introduction최근 LLM 모델의 학습 과정에서 사용자 선호(또는 Reward)와 일치하도록 모델을 튜닝하는 preference optimization 기법이 활발히 연구되고 있다. RLHF 또는 DPO와 같은 파이프라인은 높은 퀄리티의 답변을 만들어내는 데 효과적이지만, 동시에 모델의 출력 다양성이 급격히 감소하는 현상이 여러 연구에서 보고되었다. 이런 현상을 Alignment Collapse라고 부르기도 한다.Problem: Diversity의 감소기존 reinforcement learning이나 preference optimization 방법들은 최적의 보상(Reinforcement)만을 강조해, 결과적으로 모델 출력 분포가 한정된 일부 토큰·패턴에 집중하는 경향이 발생한다. 예컨대, cre.. Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs 내용 정리 Introduction최근 OpenAI가 선보인 o1 계열 모델은, 테스트 시점에서 더 많은 연산을 허용하며 reasoning을 길게 수행하는 방식으로 복잡한 수학 및 과학 문제를 해결하는 능력을 선보였다. 그러나, 이러한 깊은 사고(deep thinking) 프로세스가 언제나 효율적으로 작동하는 것은 아니라는 관점이 제기되었다. 본 글에서는 o1 계열 LLM들이 underthinking을 나타내는 현상을 소개하고, 이를 완화하기 위한 간단한 기법(Thought-switching penalty)에 관해 논의한다.Underthinking이란o1 계열 LLM들은 문제 해결을 위해, reasoning 체인을 구성하고 중간에 여러 아이디어(Thought)로 전환하기도 한다. 하지만 다음과 같은 문제가 포착되었다.. s1: Simple test-time scaling 내용 정리 Introduction최근 LLM 기반 응용들이 복잡한 추론 문제를 해결하기 위해 test-time scaling이라는 새로운 접근을 시도하고 있다. 이는 학습된 모델을 그대로 두면서, 테스트 시점에서 추가 연산을 허용하여 성능을 더 높이는 개념이다. 예컨대, OpenAI가 선보인 o1 모델은 테스트 시점에 더 많은 연산을 사용해 성능을 꾸준히 향상시켜, 다양한 수학·과학 문제에서 좋은 결과를 보였다. 그러나 해당 기법이 비공개였기에 많은 연구 그룹이 유사한 시도를 했으나, 흔히 RL이나 상당한 양의 data를 사용하는 방식이었다.이번 글에서는 Simple Test-time Scaling을 표방하는 새로운 방법론과, 이를 이용해 만든 오픈 모델인 s1-32B를 다룬다. 핵심 포인트는 다음과 같다.1,00.. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 내용 정리 Intorduction최근 Large Language Models(LLMs)의 발전 속도는 인공지능(AI)이 Artificial General Intelligence(AGI)로 나아가는 과정에서 중요한 연구 방향을 제시하고 있다. 특히, 사전 훈련 이후 모델을 개선하는 Post-Training 기법이 주목받고 있다. 이는 모델의 reasoning 성능을 향상시키고, 사회적 가치에 맞추며, 사용자의 선호도에 적응할 수 있도록 한다. DeepSeek-AI에서는 이러한 post-training 기법 중 Reinforcement Learning(RL)을 활용하여 reasoning 능력을 강화하는 새로운 모델 DeepSeek-R1을 개발하였다. DeepSeek-R1은 기존의 Supervised Fine-Tunin.. DeepSeek-V3 Technical Report 내용 정리 DeepSeek-V3 개요모델 스펙전체 파라미터: 6710억 개활성화 파라미터: 370억 개학습 데이터: 14.8조 토큰핵심 특징Multi-Head Latent Attention (MLA): 효율적인 Key-value 캐시를 지원하면서 성능 저하를 최소화하는 Attention layer 구조를 활용DeepSeekMoE 아키텍처: Shared expert와 Router expert를 동시에 이용하고, Router expert를 세분화하여 활용함으로써 효율적인 추론을 수행Auxiliary-loss-free Load Balancing: 기존의 보조 손실(auxiliary loss) 없이도 전문가(expert) 간의 부하를 효과적으로 균형 조정하는 방법을 도입Multi-Token Prediction (MTP):.. What type of inference is planning? (NeurIPS 2024, Spotlight paper) 내용 정리 Introduction이 논문에서는 Markov Decision Process (MDP)에서의 planning 문제가, probabilistic graphical model에서의 여러 inference(marginal, MAP, MMAP 등) 가운데 어느 것과 가장 유사한지, 그리고 기존 방식들이 실제로 어떤 식으로 planning을 근사하고 있는지를 Variational Inference (VI) 관점에서 새롭게 분석했다. 결론적으로, 논문은 planning은 “기존 inference 중 어디에도 완벽히 속하지 않는 별도의 inference”에 해당하며, 이 planning inference가 확률 그래프 구조에서의 entropy 항을 특정 방식으로 가중하는 것과 정확히 일치한다고 주장했다.이 관점에서.. Human Expertise in Algorithmic Prediction (NeurIPS 2024, Oral paper) 내용 정리 소개최근 많은 영역에서 예측 모델이 인간 전문가의 성능을 뛰어넘는 사례가 보고되고 있으나, 실제 의사결정에서는 여전히 인간의 전문 지식이 중요한 역할을 하고 있다. 예컨대, 응급실에서 의사가 환자를 분류(triage)할 때, 전자차트(EMR)나 이미지(X-ray)만 활용하는 예측 모델은 환자의 상태를 충분히 반영하지 못할 수 있다. 반면 모델은 수많은 과거 사례를 학습해 오차율이 낮다는 장점이 있다. 결국, “언제, 어떻게 인간의 전문 지식을 예측 모델과 결합해야 하는가?”라는 문제가 중요한 화두가 된다.본 논문은 이러한 문제를 해결하기 위해 인간 전문 지식을 어떻게 예측 알고리즘에 반영할 것인가라는 새로운 관점을 제안한다. 특히, algorithms가 “구별할 수 없는” 입력들, 즉 서로 다른 입력 데.. 이전 1 2 3 다음