τ0-WM: A Unified Video-Action World Model for Robotic Manipulation

2026-06-02 Korean WAM success-rate foundation-Model

action generation, video prediction, action-conditioned evaluation을 하나의 shared video diffusion backbone 위에서 통합한 manipulation framework

Overview Figure

tau_0_overview

VAM(Video Action Model)은 current multi-view observation, language instruction, robot state를 입력받아 future video latent와 continuous action chunk를 함께 예측한다.
ACVS(Action-Conditioned Video Simulator)는 후보 action chunk를 condition으로 future multi-view rollout과 dense task-progress reward를 예측해, 실행 전에 action의 결과를 평가한다.
추론 시에는 여러 action 후보를 샘플링하고 RCS(Re-denoising Consistency Score)로 1차 선택한 뒤, 불확실하면 LAR(Low-quality Action Rectification)로 ACVS가 고른 좋은 미래를 조건으로 VAM을 다시 호출해 action을 수정한다.