τ0-WM: A Unified Video-Action World Model for Robotic Manipulation
action generation, video prediction, action-conditioned evaluation을 하나의 shared video diffusion backbone 위에서 통합한 manipulation framework
Overview
- VAM(Video Action Model)은 current multi-view observation, language instruction, robot state를 입력받아 future video latent와 continuous action chunk를 함께 예측한다.
- ACVS(Action-Conditioned Video Simulator)는 후보 action chunk를 condition으로 future multi-view rollout과 dense task-progress reward를 예측해, 실행 전에 action의 결과를 평가한다.
- 추론 시에는 여러 action 후보를 샘플링하고 RCS(Re-denoising Consistency Score)로 1차 선택한 뒤, 불확실하면 LAR(Low-quality Action Rectification)로 ACVS가 고른 좋은 미래를 조건으로 VAM을 다시 호출해 action을 수정한다.