본문 바로가기

분류 전체보기

(40)
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 내용 정리 Introduction최근 Large Language Model(LLM)은 다양한 자연어 처리 및 reasoning 문제에서 우수한 성능을 보이고 있다. 특히 수학 문제 풀이, 과학적 추론, 복잡한 증명 등에 있어 사람 수준 혹은 그 이상의 결과를 보이는 모델이 등장하고 있다. 하지만 이러한 Chain-of-Thought(CoT) 중심의 접근은 여전히 어려운 문제에서 한계를 드러내고 있다. 많은 복잡한 reasoning 작업이 실제로는 반복적 탐색과 검증 과정을 거치는데, 현재의 CoT는 이를 온전히 나타내지 못한다는 비판이 이어지고 있다.여기서 제안되는 것이 Meta Chain-of-Thought(이하 Meta-CoT)이다. 이는 CoT보다 한 단계 더 확장된 개념으로, 모델이 결과를 도출하는 단계별 ..
Diverse Preference Optimization 내용 정리 Introduction최근 LLM 모델의 학습 과정에서 사용자 선호(또는 Reward)와 일치하도록 모델을 튜닝하는 preference optimization 기법이 활발히 연구되고 있다. RLHF 또는 DPO와 같은 파이프라인은 높은 퀄리티의 답변을 만들어내는 데 효과적이지만, 동시에 모델의 출력 다양성이 급격히 감소하는 현상이 여러 연구에서 보고되었다. 이런 현상을 Alignment Collapse라고 부르기도 한다.Problem: Diversity의 감소기존 reinforcement learning이나 preference optimization 방법들은 최적의 보상(Reinforcement)만을 강조해, 결과적으로 모델 출력 분포가 한정된 일부 토큰·패턴에 집중하는 경향이 발생한다. 예컨대, cre..
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs 내용 정리 Introduction최근 OpenAI가 선보인 o1 계열 모델은, 테스트 시점에서 더 많은 연산을 허용하며 reasoning을 길게 수행하는 방식으로 복잡한 수학 및 과학 문제를 해결하는 능력을 선보였다. 그러나, 이러한 깊은 사고(deep thinking) 프로세스가 언제나 효율적으로 작동하는 것은 아니라는 관점이 제기되었다. 본 글에서는 o1 계열 LLM들이 underthinking을 나타내는 현상을 소개하고, 이를 완화하기 위한 간단한 기법(Thought-switching penalty)에 관해 논의한다.Underthinking이란o1 계열 LLM들은 문제 해결을 위해, reasoning 체인을 구성하고 중간에 여러 아이디어(Thought)로 전환하기도 한다. 하지만 다음과 같은 문제가 포착되었다..
s1: Simple test-time scaling 내용 정리 Introduction최근 LLM 기반 응용들이 복잡한 추론 문제를 해결하기 위해 test-time scaling이라는 새로운 접근을 시도하고 있다. 이는 학습된 모델을 그대로 두면서, 테스트 시점에서 추가 연산을 허용하여 성능을 더 높이는 개념이다. 예컨대, OpenAI가 선보인 o1 모델은 테스트 시점에 더 많은 연산을 사용해 성능을 꾸준히 향상시켜, 다양한 수학·과학 문제에서 좋은 결과를 보였다. 그러나 해당 기법이 비공개였기에 많은 연구 그룹이 유사한 시도를 했으나, 흔히 RL이나 상당한 양의 data를 사용하는 방식이었다.이번 글에서는 Simple Test-time Scaling을 표방하는 새로운 방법론과, 이를 이용해 만든 오픈 모델인 s1-32B를 다룬다. 핵심 포인트는 다음과 같다.1,00..
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning 내용 정리 Intorduction최근 Large Language Models(LLMs)의 발전 속도는 인공지능(AI)이 Artificial General Intelligence(AGI)로 나아가는 과정에서 중요한 연구 방향을 제시하고 있다. 특히, 사전 훈련 이후 모델을 개선하는 Post-Training 기법이 주목받고 있다. 이는 모델의 reasoning 성능을 향상시키고, 사회적 가치에 맞추며, 사용자의 선호도에 적응할 수 있도록 한다. DeepSeek-AI에서는 이러한 post-training 기법 중 Reinforcement Learning(RL)을 활용하여 reasoning 능력을 강화하는 새로운 모델 DeepSeek-R1을 개발하였다. DeepSeek-R1은 기존의 Supervised Fine-Tunin..
DeepSeek-V3 Technical Report 내용 정리 DeepSeek-V3 개요모델 스펙전체 파라미터: 6710억 개활성화 파라미터: 370억 개학습 데이터: 14.8조 토큰핵심 특징Multi-Head Latent Attention (MLA): 효율적인 Key-value 캐시를 지원하면서 성능 저하를 최소화하는 Attention layer 구조를 활용DeepSeekMoE 아키텍처: Shared expert와 Router expert를 동시에 이용하고, Router expert를 세분화하여 활용함으로써 효율적인 추론을 수행Auxiliary-loss-free Load Balancing: 기존의 보조 손실(auxiliary loss) 없이도 전문가(expert) 간의 부하를 효과적으로 균형 조정하는 방법을 도입Multi-Token Prediction (MTP):..
기호논리학 10. 술어 논리의 자연 연역 보편 양화사 제거 (∀ 제거)1. (∀x)A(x) 2. A(t)여기서 'A(t)'는 'A(x)'에 나타나는 모든 자유변항 'x'를 이름 't'로 대체함으로써 얻어진 대체예이다. 보편 양화문장의 대체예를 형성할 때, 대체되는 변항은 모든 곳에서 같은 이름으로 대체되어야 한다.ex) (∀x)Lxx에서 x를 a로 대체한다면 Lxa나 Lax 가 아닌 Laa가 되어야 한다. 변항을 이름으로 대체할때 양화사를 제거하고 자유 변항이 되는 것만 대체해 주어야 한다.ex) '(∀x)Ax→(∀x)Bx' 에서 첫번째 양화사를 제거하고 x를 e로 대체하면'Ae→(∀x)Bx' 두번째 x가 자유변항이 되지 않는다는 것에 주의하라. 존재 양화사 도입(∃ 도입)1. A(t) 2. (∃x)A(x)제한사항: 'A(t)' 에서 't'가 ..
기호논리학 9. 다중 양화 문장 다중 양화 문장(sentences containing multiple quantification)x, y: 임의의 실수Pxy : y=3+x 1) (∀x)(∀y)Pxy모든 x에 대해, 모든 y가 Pxy를 참이 되게 만든다.풀어 말하자면, x,y에 뭘 집어넣어도 참이 되면 위의 문장이 참이다.(Pxy: x+y=x+y 면 성립)따라서, 위의 문장은 거짓이다. 2) (∀x)(∃y)Pxy모든 x에 대해, Pxy를 만족시키는 y가 하나는 존재한다.풀어 말하자면, 모든 x에 대해서 y가 하나는 존재하면 된다. (위의 함수가 일대일함수 이면 된다.)따라서, 위의 문장은 참이다. 3) (∀x)(∃y)Pyx (↔(∀y)(∃x)Pxy)모든 x에 대해, Pyx를 만족시키는 y가 하나는 존재한다.풀어 말하자면, 모든 y에 대해..