WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

pretrained WAM에서 actor만 RL fine-tuning하지 않고, successful online rollout으로 world model을 KL-regularized video SFT하며, actor는 imagined future와 executed future의 reconstruction consistency reward로 RL update하는 WAM post-training framework

Overview Figure

wam-rl_overview

Summary

  1. 기존 WAM은 future observation과 action을 함께 모델링해 long-horizon decision making에 유리하지만, 대부분 expert trajectory 기반 supervised learning에 의존해 demonstration distribution 밖의 fine-grained skill을 배우거나 interaction으로 지속 개선하기 어렵다.
  2. 이 논문은 WAM에 RL을 넣을 때 actor만 update하면 world model latent space에 묶인 actor가 accumulated prediction errors over long horizons를 고치지 못한다는 문제를 다룬다.
  3. 핵심 아이디어는 WAM의 주된 capability가 world model에서 나오고 actor는 latent prediction을 executable action으로 번역하는 translator에 가깝기 때문에, world model과 actor를 함께 co-evolve시켜야 한다는 것이다.
  4. world model을 successful online rollout으로 video self-supervised fine-tuning(SFT)하되 KL regularization으로 pretrained latent geometry를 보존하고, actor는 imagined future와 실제 실행 결과 사이의 similarity를 reconstruction-based dense reward로 삼아 policy gradient로 학습한다.
  5. 실험에서는 LIBERO-Object에서 Base 68%, actor-only $\pi_{\text{RL}}$ 78%, WAM-RL 82%, RLBench Water Plants에서 Base 19%, $\pi_{\text{RL}}$ 18%, WAM-RL 22%를 달성하며, 특히 video SFT가 failed grasp 이후 recovery behavior를 예측하게 만든다고 주장한다.