Inference

Paper notes on real-time inference systems

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement 2026-06-17
pretrained generalist robot policy를 stochastic action generator로 사용하고, geometric verifier로 Best-of-N action chunk를 선택한 뒤, 성공한 verified rollout을 BC fine-tuning data로 재사용하는 inference-time steering + autonomous policy improvement framework
Korean inference-time success-rate VLA fine-tuning Writing
ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models 2026-05-29
VLA가 매 control step마다 전부 “생각”하지 않고, 현재 로봇 phase가 안정적인지/민감한지를 보고 Vision-LLM과 action head 계산을 동적으로 재사용하는 plug-in inference scheduler
Korean VLA scheduler-training
SANTS: A State-Adaptive Scheduler for World Action Models 2026-05-28
WAM이 매번 미래 영상을 끝까지 denoise하지 않고, 현재 로봇 상태에 따라 “여기서 멈출지”와 “얼마나 크게 건너뛸지”를 결정해 full-denoising WAM 대비 success-latency tradeoff를 개선하는 state-adaptive video denoising scheduler
Korean WAM scheduler-training
Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs 2026-05-21
π0-style flow-matching dVLA의 replanning latency를 lightweight draft와 flow-consistency verification으로 줄이는 speculative inference framework
Korean VLA auxiliary-module-training
DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies 2026-05-20
fresh observation에서 나온 action이 stale observation에서 나온 action보다 선호된다는 label-free preference pair를 이용해서 async VLA의 delay-robustness를 높이는 offline post-training 방법
Korean VLA fine-tuning Writing
OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism 2026-05-19
MoT VLA에서 action과 language task가 공유하는 observation KV cache를 통합 관리해 중복 prefill과 resource contention을 줄이고 action frequency와 language throughput을 동시에 높이는 inference system
Korean VLA training-free