plfb (1) 썸네일형 리스트형 Policy Learning from Tutorial Books via Understanding, Rehearsing and Introspecting (NeurIPS 2024, Oral paper) 내용 정리 Introduction강화학습은 일반적으로 환경과 상호작용하면서 데이터를 수집하고, 이를 바탕으로 에이전트를 학습시키는 방식으로 이루어져 왔다. 그러나 사람이 새로운 기술을 배우는 상황을 떠올려 보면, 직접 시행착오를 겪기 이전에 “교과서”나 “튜토리얼 책”을 통해 지식을 습득하고 이를 머릿속에서 리허설(Rehearse)해보는 과정을 거친다. 이 논문에서는 이러한 인간의 학습 방식을 모사해, 환경과 직접 상호작용하지 않고도 “튜토리얼 책”에 담긴 지식을 활용해 정책을 학습하는 Policy Learning from tutorial Books(PLfB) 문제를 새롭게 제시하고, 이를 해결하기 위한 URI(Understanding, Rehearsing, Introspecting) 프레임워크를 제안한다.문제: .. 이전 1 다음