본문 바로가기

Qwen

(1)

s1: Simple test-time scaling 내용 정리 Introduction최근 LLM 기반 응용들이 복잡한 추론 문제를 해결하기 위해 test-time scaling이라는 새로운 접근을 시도하고 있다. 이는 학습된 모델을 그대로 두면서, 테스트 시점에서 추가 연산을 허용하여 성능을 더 높이는 개념이다. 예컨대, OpenAI가 선보인 o1 모델은 테스트 시점에 더 많은 연산을 사용해 성능을 꾸준히 향상시켜, 다양한 수학·과학 문제에서 좋은 결과를 보였다. 그러나 해당 기법이 비공개였기에 많은 연구 그룹이 유사한 시도를 했으나, 흔히 RL이나 상당한 양의 data를 사용하는 방식이었다.이번 글에서는 Simple Test-time Scaling을 표방하는 새로운 방법론과, 이를 이용해 만든 오픈 모델인 s1-32B를 다룬다. 핵심 포인트는 다음과 같다.1,00..

이전 1 다음

티스토리툴바