Inference-time Policy Steering via Vision and Touch

frozen diffusion robot policy의 weights는 바꾸지 않고, action-conditioned visuo-tactile latent world model로 후보 action chunk의 future outcome을 예측한 뒤, long-horizon vision으로 global action mode를 선택하고 short-horizon touch로 local contact execution을 diffusion editing하는 inference-time steering method

Overview Figure

vital_overview

Summary

  1. 기존 inference-time steering은 candidate action을 visual future로 rollout하고 VLM/reward로 검증하는 방식이 많았지만, pipetting, wiping, insertion 같은 contact-rich manipulation에서는 force, slip, pressure, insertion alignment 같은 핵심 성공 요인이 이미지로 충분히 보이지 않는다.
  2. 이 논문은 vision은 global semantic progress / mode selection에 강하고, touch는 local contact quality / force-sensitive execution에 강하다는 observation에서 출발한다.
  3. 핵심 아이디어는 multimodal reward를 하나로 섞지 않고, bi-level optimization으로 나누어 먼저 visual sampling-and-verification으로 long-horizon action mode를 선택하고, 그 선택된 action anchor의 앞부분을 tactile-guided diffusion editing으로 짧게 수정하는 것이다.
  4. 이를 위해 frozen DINOv3 / AnyTouch2 encoder 위에 action-conditioned visuo-tactile latent world model을 학습하고, ROBOMETER 기반 visual verifiertext-conditioned tactile latent reward를 사용한다.
  5. 실제 Franka robot의 wiping, insertion, pipette transfer 3개 task에서 ViTaL은 논문 기준 base policy 대비 overall success +51% improvement를 달성하고, unimodal steering 대비 최소 33%, naive multimodal fusion 대비 최소 20% 높은 성능을 달성한다.