본문 바로가기

인공지능 논문 정리

Reinforcement Learning from Wild Animal Videos 내용 정리

Introduction

동물 다큐멘터리나 자연서식지에 촬영된 수많은 야생 동물 비디오를 활용해 로봇 보행 기술을 학습할 수 있다면 어떨까? 사자, 치타, 개미, 새 등 다양한 종들의 영상을 분석해 그 안에 내재된 자연스러운 움직임의 특징을 뽑아낸 뒤, 이를 로봇의 다리 제어 정책으로 옮긴다면, 보다 풍부하고 일반화된 로봇 움직임을 손쉽게 얻을 수 있을 것이다.

본 연구에서는 이처럼 인터넷에서 수집한 수천 개의 야생 동물 비디오로부터 로봇 보행 스킬을 학습하는 새로운 방법인 Reinforcement Learning from Wild Animal Videos (RLWAV)를 제안합니다. 이를 통해 특정 동물이나 환경에 특화된 모션 캡처 데이터나 보상 함수를 미리 설계하지 않고도, 단순히 비디오를 보고 로봇에게 다양한 보행 스킬(정지 유지, 걷기, 달리기, 제자리 점프 등)을 학습시킬 수 있음을 보였다.

왜 야생 동물 비디오를 활용할까?

로봇 제어를 학습하는 전통적 방법은 주로 다음과 같은 과정을 거친다:

  1. 실험자가 일정한 보상 함수를 정의하거나, 혹은 특정 목표 동작을 수학적으로 표현.
  2. 시뮬레이터나 실제 로봇 상에서 강화학습으로 제어 정책을 학습.
  3. 나아가 결과 모션을 비디오로 확인한 뒤, 마음에 들지 않으면 다시 보상함수나 알고리즘을 수정.

그런데, 이러한 루프는 시간이 오래 걸리고, 사람들이 원하는 특정 모션 특성을 반영하기 쉽지 않다. 한편, 인터넷에는 이미 수많은 동물 행동 영상이 축적되어 있습니다. 이 영상들은 종 다양성, 서식지 다양성, 시나리오 다양성을 갖추고 있어, 특정 동물에게만 한정되지 않은 풍부한 “움직임의 우주”를 제공한다. 더욱이, 인간 관찰자는 다른 종의 동물이라 할지라도 특정 행동(예: 달리기, 걷기, 정지 유지, 점프)을 쉽게 구분한다. 이를 머신러닝 모델로 대체할 수 있다면, 로봇이 전혀 다른 체형의 생물로부터도 행동 개념을 추출해낼 수 있을 것이다.

하지만 여기에 큰 난관이 있습니다. 인간이나 유사 체형 동물의 데이터와 달리, 야생 동물의 영상은 다음과 같은 문제가 발생한다:

  • 다양한 종: 새, 포유류, 파충류 등 형태나 다리 개수, 크기가 제각각임.
  • 촬영환경 다양: 자연 다큐멘터리는 조명, 시야, 배경 모두 통제되지 않은 상태의 영상.
  • 모션 특성 파악의 어려움: 추적용 마커나 3D pose 데이터 없이, 순수 RGB 영상만으로 동작을 일반화해야 함.

이번 논문에서는 이 문제를 다음 두 단계를 통해 해결한다.

핵심 아이디어

1단계: 야생 동물 비디오로부터 보상 함수 학습하기

먼저, 연구진은 Animal Kingdom 데이터셋이라는 대규모 야생 동물 비디오 컬렉션을 활용했습니다. 이 데이터셋은 850여 종에 달하는 다양한 동물들이 자연 서식지에서 보여주는 행동을 약 140여 가지 라벨로 정리한 것이다. 이 중 로봇이 모방하기에 유용할 것으로 보이는 기본 동작인 “정지(Keeping still)”, “걷기(Walking)”, “달리기(Running)”, “점프(Jumping)” 4가지에 집중했다.

이러한 행동 라벨을 이용해 비디오 액션 인식 모델(Uniformer-S 기반 비디오 분류기)을 학습한다. 즉, 영상을 입력하면 해당 영상에서 어떤 동물이 어떤 동작(4가지 중 하나)을 하고 있는지 확률로 출력하는 모델이다. 이 모델은 단지 야생 동물 영상에 맞춰 학습했을 뿐이지만, 목표는 이 모델이 로봇 움직임을 영상으로 촬영했을 때도 “정지”, “걷기”, “달리기”, “점프” 중 어떤 행동과 유사한지를 분류하도록 하는 것이다. 물론, 이는 도메인 갭(야생동물 vs 로봇)과 화질/환경 차이 등 많은 난관이 있지만, 대규모 데이터와 다양한 종의 동물 비디오에 노출된 액션 인식 모델은 상당한 일반화를 기대할 수 있다.

비디오 분류 모델이 완성되면, 이 모델의 출력을 로봇 학습 시뮬레이션에서 보상 함수로 사용한다. 즉, 시뮬레이터에서 로봇을 움직인 뒤, 일정 간격으로 제3자 시점 카메라로 로봇 움직임을 촬영하여 8프레임짜리 짧은 동영상을 만든다. 이 영상을 앞서 학습한 비디오 분류기에 넣어, 명령한 스킬(예: "걷기")에 해당하는 클래스 점수를 얻는다. 이 점수가 클수록, 해당 모션이 그 스킬에 가까운 것으로 판단하고 그 타임스텝에 높은 보상을 부여한다. 이렇게 하면 “참조 궤적이나 특별한 모션 캡처 데이터 없이” 순수하게 비디오 분류를 통한 클래스 확률로 보상함수를 정의하게 된다.

2단계: 시뮬레이션 기반 강화학습으로 로봇 정책 학습하기

이제 보상 함수가 정해졌으니, 기존 강화학습(PPO) 기법으로 로봇 제어 정책을 학습할 수 있다. 하지만 여기서 한 가지 중요한 점은, 단순히 비디오 분류 점수만 의지하면 로봇이 물리적으로 실현 불가능한 자세를 만들거나, 시뮬레이터 허점을 파고들 수도 있다. 이를 막고 안정적인 모션을 얻기 위해, 논문에서는 다음과 같은 물리 제약(Constraints)을 추가한다:

  • 관절 각도 제한
  • 토크(힘) 제한
  • 발이 지면을 지나치게 미끄러지지 않도록 하는 발 공중시간(foot air time) 제약
  • 몸체 자세(롤 방향) 제약
  • 행동 변화율 제한 등

이러한 제약들은 특정 스킬에 종속되지 않고 공통으로 적용되므로, 실질적으로 스킬 간 차이를 만드는 것은 오직 비디오 기반 보상 함수뿐이다. 로봇은 이 보상과 제약 조건 하에서 다양한 스킬 명령("걷기", "정지", "점프" 등)에 맞춰 다른 모션을 구현하게 된다.

학습이 끝나면, 시뮬레이터에서 얻은 정책을 실제 로봇(Solo-12)에 바로 이식(sim-to-real)이 가능하다. 논문 결과에 따르면 이식 과정에서 별다른 추가 튜닝 없이도 야외에서 정지, 걷기, 점프 등의 동작을 수행하는 데 성공하였다.

실험 결과

시뮬레이션 상 성능:
연구진은 “정지”, “걷기”, “달리기”, “점프” 4가지 스킬 명령을 로봇에게 내렸을 때, 로봇이 얼마나 해당 동작을 잘 수행하는지 다양한 지표로 평가한다. 각 스킬별로 시뮬레이션에서 원하는 행동이 잘 나타났음을 확인했는데:

  • 정지(Keeping still): 로봇이 실제로 거의 움직이지 않고 가만히 서있는 모션을 구현.
  • 걷기(Walking), 달리기(Running): “걷기” 명령 시 중간 정도 속도로 앞으로 이동하는 자세를, “달리기” 명령 시 약간 더 다이내믹한 전진 움직임을 보인다. 비록 달리기 스킬이 기대만큼 완전히 다른 형태(예: 완전한 공중보행 단계)로 나타나지는 않았지만, 그래도 전진 속도나 다리 사용 패턴에 차이가 있었다고 한다.
  • 점프(Jumping): 로봇이 제자리에서 다리를 굽혔다 펴며 제자리 점프 동작을 반복. 다리로 바닥을 밀어내어 순간적으로 네 발이 모두 지면에서 떨어지는 상황을 재현하는 등, 동물 영상에서 본 “제자리 점프”류 동작을 유사하게 구현하였다.

비디오 분류기 학습의 중요성:
모델 수프(model soup) 기법이나 데이터 전처리를 하지 않았을 때, 즉 비디오 분류기의 학습 방식이 열악해지면, 점프나 달리기 같은 스킬의 성능이 확연히 떨어진다. 또한, 학습 데이터셋을 줄일수록 성능 저하가 두드러져, 충분히 큰 야생동물 비디오 데이터셋으로 학습해야 다양한 모션 개념을 안정적으로 일반화할 수 있음을 시사한다.

정책 학습 설계 요소들의 영향:
카메라 위치, 이미지 캡처 빈도(예: 매 5 스텝마다 vs 매 8 스텝마다), 로봇 초기자세 등 RL 학습 환경의 작은 변화도 결과 모션에 영향을 미친다. 예를 들어, 보상 빈도를 낮추면(8스텝에 한 번 비디오 보상 계산) 보상 신호가 희박해져 학습 성능이 떨어진다. 마찬가지로 카메라 위치가 로봇을 잘 관찰하지 못하는 각도에서는 원하는 모션 성능을 충분히 끌어내기 어려웠다. 이는 비디오 분류기의 일반화 능력에도 불구하고, 여전히 로봇을 잘 볼 수 있는 최적의 관찰 각도가 중요함을 보여준다.

실험실 밖, 실제 로봇에서의 검증:
학습 완료한 정책을 그대로 실제 Solo-12 로봇에 적용한 결과, 정지, 걷기, 점프 동작이 야외 환경에서도 구현되었다. 걷기 동작은 비록 완벽한 안정된 보행 스타일은 아니었지만, 로봇이 실외의 다소 불규칙한 지면 위에서도 비교적 안정적으로 전진하는 모습을 보였다. 점프 또한 현실적으로 잘 재현되었고, 정지 유지 동작은 아주 간단히 이식되었다.

이처럼 RLWAV 기법은, 전혀 다른 종의 야생 동물 영상에서 추출한 행동 개념을 로봇에게 이식할 수 있음을 입증한다. 이는 기존에 사람이 직접 보상 함수를 설계하거나, 또는 유사체형 동물의 3D 포즈 데이터를 얻어 추적했던 방식에 비해 훨씬 더 확장성 있고, 수많은 동물 종의 행동을 적극 활용할 수 있는 장점을 갖는다.

결론 및 전망

이번 논문은 대규모 야생 동물 비디오로부터 행동 개념을 추출하고, 이를 로봇 강화학습의 보상으로 활용함으로써, 로봇이 동물행동과 유사한 보행 스킬을 자연스럽게 익힐 수 있음을 보여주었다. 이는 동물 종에 구애받지 않고, 수많은 자연환경에서 포착된 영상 데이터를 모아 하나의 거대한 행동 사전으로 활용하는 “비주얼 대규모 모델”과 “로봇 RL” 간의 융합 가능성을 제시한다.

물론 아직 해결해야 할 과제들도 있다. 예를 들어, 달리기 동작은 기대만큼 날렵하고 역동적인 모션으로 나타나지 않았다. 또한 완전히 제어 불가능한 자연영상에 기반해 더 복잡한 스킬(예: 특정 장애물 넘기, 수평 이동 등)을 학습하려면 더 정교한 비디오 이해 기술이 필요할 것이다. 그러나 이 연구의 시사점은 분명하다: 수많은 야생 동물 비디오가 우리 손에 있고, 이를 통해 로봇이 지금까지 상상하지 못했던 형태의 자연스럽고 범용적인 움직임을 학습하게 하는 길을 열었다. 앞으로 더 세련된 비디오 이해 모델, 더 큰 데이터셋, 더 똑똑한 RL 알고리즘이 등장한다면, 로봇은 더욱 풍부하고 다양하며, 진정한 “동물적 감각”을 갖춘 보행 기술을 손에 넣을지도 모른다.


요약: 이 논문은 인터넷에 널린 야생 동물 다큐멘터리 비디오로부터 로봇의 보행 스킬(정지, 걷기, 달리기, 점프)을 강화학습하는 방법을 제안한다. 특별한 모션 캡처나 정교한 보상 설계 없이, 단지 동물 비디오 분류 모델을 활용한 보상 신호만으로도, 로봇이 다양한 행동 스타일을 습득할 수 있음을 입증한다. 이는 로봇 제어학습 분야에서 인터넷 규모의 영상 데이터 활용이라는 새로운 패러다임을 제시하며, 향후 더 일반적이고 범용적인 로봇 모션 학습 방법을 열어줄 것으로 기대된다.