Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

2026-06-17 Korean inference-time success-rate VLA fine-tuning Writing

pretrained generalist robot policy를 stochastic action generator로 사용하고, geometric verifier로 Best-of-N action chunk를 선택한 뒤, 성공한 verified rollout을 BC fine-tuning data로 재사용하는 inference-time steering + autonomous policy improvement framework

Overview Figure

veritas_overview veritas_overview_2

Top-Down Summary

기존 robot foundation model / VLA는 대규모 human demonstration에 크게 의존하고, human-in-the-loop correction이나 expert relabeling은 비용이 선형적으로 증가한다는 문제가 있다.
이 논문은 추가 human demonstration 없이, 배포 중인 robot policy가 자신의 경험에서 성공 trajectory를 만들고 이를 학습 데이터로 재사용하는 self-improvement 문제를 다룬다.
핵심 아이디어는 pretrained policy를 여러 action chunk를 샘플링하는 generator로 보고, VLM이 만든 pixel-space waypoint trace를 기준으로 candidate action을 평가하는 gradient-free visual verifier를 붙여 Best-of-N action selection을 수행하는 것이다.
Inference 때는 policy parameter를 고정하고 sample → verify → select → execute를 반복하며, 이후 성공한 verified rollout만 모아 $\mathcal{D}_{\text{auto}}$를 만들고 standard behavior cloning objective로 policy를 fine-tuning한다.
실험에서는 SIMPLER simulation과 real-world DROID setup에서 inference-time steering이 base policy보다 성공률을 높이며, 제한된 4개 real-world task에서 verified self-generated data가 human expert demonstration과 유사하거나 일부 budget에서는 더 나은 data efficiency를 보인다.

Closed-loop control pipeline에서의 위치

Observation + instruction
      ↓
Pretrained VLA policy samples N action chunks
      ↓
Visual verifier scores candidate chunks
      ↓
Best-of-N selected chunk
      ↓
Low-level robot execution for H steps
      ↓
New observation → repeat

VERITAS는 policy output과 robot execution 사이에 들어가는 inference-time action selector이다.

Main Idea

기존 가정:
  VLA는 한 번 query해서 action을 실행한다.

문제점:
  generative policy는 좋은 action을 낮은 확률로 알고 있을 수 있지만,
  greedy / single sample deployment에서는 그 후보가 선택되지 않을 수 있다.

새 관점:
  policy를 deterministic controller가 아니라 stochastic generator로 보자.
  여러 action chunk를 sample하고, 외부 verifier가 task-aligned / physically plausible action을 고르자.

구조 반영:
  VLM이 initial observation + instruction으로 visual waypoint trace를 만든다.
  각 candidate action chunk의 projected EEF/gripper trajectory를 trace와 비교한다.
  가장 높은 verifier score의 action chunk를 실행한다.

학습 반영:
  성공한 verified rollout을 D_auto로 모아 behavior cloning fine-tuning한다.

Robot behavior 변화:
  즉시 성능은 Best-of-N filtering으로 올라가고,
  장기적으로는 verifier가 고른 행동 패턴이 policy weight에 distill된다.

VERITAS의 핵심은 pretrained VLA policy를 deterministic controller가 아니라 stochastic action generator로 사용하는 것이다. 매 decision step마다 policy는 현재 observation $o_t$와 instruction $l$을 조건으로 $N$개의 action chunk를 샘플링한다.

\[\mathbf{a}^{(i)}_{t:t+H} \sim \pi_\theta(\cdot \mid o_t, l), \quad i = 1,\dots,N\]

각 candidate action chunk는 visual verifier $V$(e.g., VLMs, geometric constraints, or learned value models)에 의해 score된다.

\[v_i = V(o_t, \mathbf{a}^{(i)}_{t:t+H}, l)\]

그 후 가장 높은 score를 받은 action chunk만 실제 robot에서 실행한다.

\[i^\star = \arg\max_i v_i, \quad \mathbf{a}^{\star}_{t:t+H} = \mathbf{a}^{(i^\star)}_{t:t+H}\]

이 단계에서는 policy parameter $\theta$를 업데이트하지 않는다. 따라서 online success-rate gain은 학습이 아니라 test-time compute에서 나온다.

실행이 성공하면 해당 trajectory는 $\mathcal{D}_{\text{auto}}$에 저장되고, 이후 standard behavior cloning objective로 base policy를 fine-tuning한다.

\[\theta' \leftarrow \arg\min_\theta \mathbb{E}_{\mathcal{D}_{\text{auto}}} [-\log \pi_\theta(\mathbf{a}^{\star}_{t:t+H} \mid o_t, l)]\]

Experiments

Limitations

1. Inference Compute Cost

repeated sampling을 통해 task performance를 얻기 때문에 latency-critical application에서는 계산 비용이 부담될 수 있다.

2. Static Visual Trace

현재 verifier는 episode 시작 시 생성한 static visual trace에 의존하므로 quasi-static manipulation에는 충분하지만, scene이 빠르게 바뀌는 dynamic environment에서는 어려울 수 있다.

3. Policy prior limitation

verifier는 policy가 제안한 후보 중 best를 고를 뿐이므로, pretrained policy의 exploration prior 안에 좋은 후보가 없으면 개선할 수 없다.

Additional Points

Visual trace는 task success와 같지 않다
- EEF/gripper가 VLM waypoint trace를 따라가도 실제 object를 grasp하지 못하거나, contact force가 부족하거나, object가 미끄러지면 실패할 수 있다. Pixel-space path consistency는 success의 proxy이지 success 자체가 아니다.
3D geometry / occlusion / camera calibration 취약성
- verifier는 pixel-space trace와 EEF pixel을 비교하므로 camera calibration, perspective distortion, occlusion, depth ambiguity에 취약할 수 있다. 논문도 real-world setup에서 reliable visual verification을 위해 calibrated front-facing camera를 추가했다고 설명한다.
Long-horizon task에는 static trace가 부족할 수 있다
- drawer opening, tool use, deformable object manipulation, multi-stage assembly처럼 intermediate state가 크게 바뀌는 task에서는 initial VLM trace가 빠르게 부정확해질 수 있다.
Failure data를 버리는 구조
- 성공 rollout만 BC target으로 쓰면 positive-only imitation이 된다. 실패 trajectory에서 “무엇을 피해야 하는지”를 배우는 contrastive signal은 약하다.
Verifier hacking 가능성
- policy가 fine-tuning을 반복하면 실제 task success보다 verifier score에 맞는 trajectory를 더 많이 생성할 수 있다. 예를 들어 waypoint를 따라가지만 object interaction은 실패하는 behavior가 강화될 가능성이 있다.
Safety / collision constraint 부재
- visual trace proximity만으로는 collision, joint limit, force safety, human proximity 같은 safety constraint를 충분히 보장하지 못한다. Safety-critical deployment에는 별도 safety layer가 필요하다.
Real-world task 수가 제한적
- real-world는 2개 policy에 대해 policy당 2개 task, 총 4개 task로 평가된다. “general robot self-improvement” claim을 완전히 뒷받침하기에는 task diversity가 아직 제한적이다.
Compute-success scaling이 포화됨
- 논문은 $N > 8$ 이후 performance가 saturate한다고 보고한다. 단순 Best-of-N scaling만으로는 무한한 improvement를 기대하기 어렵다.