본문 바로가기

deepseek

(4)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs 내용 정리 Introduction최근 OpenAI가 선보인 o1 계열 모델은, 테스트 시점에서 더 많은 연산을 허용하며 reasoning을 길게 수행하는 방식으로 복잡한 수학 및 과학 문제를 해결하는 능력을 선보였다. 그러나, 이러한 깊은 사고(deep thinking) 프로세스가 언제나 효율적으로 작동하는 것은 아니라는 관점이 제기되었다. 본 글에서는 o1 계열 LLM들이 underthinking을 나타내는 현상을 소개하고, 이를 완화하기 위한 간단한 기법(Thought-switching penalty)에 관해 논의한다.Underthinking이란o1 계열 LLM들은 문제 해결을 위해, reasoning 체인을 구성하고 중간에 여러 아이디어(Thought)로 전환하기도 한다. 하지만 다음과 같은 문제가 포착되었다..
s1: Simple test-time scaling 내용 정리 Introduction최근 LLM 기반 응용들이 복잡한 추론 문제를 해결하기 위해 test-time scaling이라는 새로운 접근을 시도하고 있다. 이는 학습된 모델을 그대로 두면서, 테스트 시점에서 추가 연산을 허용하여 성능을 더 높이는 개념이다. 예컨대, OpenAI가 선보인 o1 모델은 테스트 시점에 더 많은 연산을 사용해 성능을 꾸준히 향상시켜, 다양한 수학·과학 문제에서 좋은 결과를 보였다. 그러나 해당 기법이 비공개였기에 많은 연구 그룹이 유사한 시도를 했으나, 흔히 RL이나 상당한 양의 data를 사용하는 방식이었다.이번 글에서는 Simple Test-time Scaling을 표방하는 새로운 방법론과, 이를 이용해 만든 오픈 모델인 s1-32B를 다룬다. 핵심 포인트는 다음과 같다.1,00..
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 내용 정리 Intorduction최근 Large Language Models(LLMs)의 발전 속도는 인공지능(AI)이 Artificial General Intelligence(AGI)로 나아가는 과정에서 중요한 연구 방향을 제시하고 있다. 특히, 사전 훈련 이후 모델을 개선하는 Post-Training 기법이 주목받고 있다. 이는 모델의 reasoning 성능을 향상시키고, 사회적 가치에 맞추며, 사용자의 선호도에 적응할 수 있도록 한다. DeepSeek-AI에서는 이러한 post-training 기법 중 Reinforcement Learning(RL)을 활용하여 reasoning 능력을 강화하는 새로운 모델 DeepSeek-R1을 개발하였다. DeepSeek-R1은 기존의 Supervised Fine-Tunin..
DeepSeek-V3 Technical Report 내용 정리 DeepSeek-V3 개요모델 스펙전체 파라미터: 6710억 개활성화 파라미터: 370억 개학습 데이터: 14.8조 토큰핵심 특징Multi-Head Latent Attention (MLA): 효율적인 Key-value 캐시를 지원하면서 성능 저하를 최소화하는 Attention layer 구조를 활용DeepSeekMoE 아키텍처: Shared expert와 Router expert를 동시에 이용하고, Router expert를 세분화하여 활용함으로써 효율적인 추론을 수행Auxiliary-loss-free Load Balancing: 기존의 보조 손실(auxiliary loss) 없이도 전문가(expert) 간의 부하를 효과적으로 균형 조정하는 방법을 도입Multi-Token Prediction (MTP):..