Weekly Review #3

2026.06.15 ~ 2026.06.19

이번 Weekly Review는 /paper/inference, /paper/success-rate, /paper/briefs 중 2026년 6월 15일부터 6월 19일까지 읽은 논문을 커버한다.

이 기간에는 Briefs 21편과 Inference 1편이 추가되었고, Success Rate category에는 새 글이 없었다. 다만 success-rate 관점은 거의 모든 글에서 closed-loop success, failure detection, robustness, OOD generalization, evaluator correlation의 형태로 나타났다.

이번 주의 핵심은 pretrained VLA를 완결된 end-to-end controller로 보기보다 action proposal prior로 두고, 그 주변의 execution-time system이 compute allocation, future prediction, verification, retrieval, tactile feedback, residual correction을 통해 실제 행동을 선택·수정·평가하는 방향으로 이동했다는 점이다. WAM도 단순 future video generator가 아니라 candidate action의 phase consistency, action recoverability, cross-view coherence, imagined–executed future consistency를 검사하는 closed-loop evaluator가 되고 있다. 동시에 camera-space action, 3D interaction trace, object pose, tactile latent처럼 human / robot / simulation data와 여러 embodiment를 하나의 물리적 interface로 정렬하는 representation이 foundation-model scaling의 전제조건으로 올라왔다.


지난 Weekly Review와 비교

지난 Weekly Review #2는 closed-loop robot behavior를 막는 병목을 action head, sensor clock, execution horizon, planner–executor phase mismatch, critic / reward feedback 같은 interface 단위로 분해했다.

이번 주는 한 단계 더 나아가, 그 interface를 실제 execution loop 안에서 어떻게 감시하고 닫을 것인지에 집중한다.

비교 대상 Weekly Review #2 Weekly Review #3
중심 질문 “Closed-loop robot behavior에서 실제 병목이 되는 interface는 무엇인가?” “Pretrained policy를 실행 중 어떻게 감시·수정·확장하고, 그 경험으로 다시 개선할 것인가?”
WAM 해석 fast latent planner, reward / value evaluator, policy steering module action-recoverability, latent phase, cross-view geometry, imagined–executed consistency를 검사하는 evaluator이자 online-adaptable dynamics model
Inference-time 관점 sensor clock, execution horizon, planner–executor phase mismatch, flow-noise steering state-dependent compute / horizon allocation, sample–verify–select, candidate switching, retrieval, visual–tactile editing, residual correction
Data 관점 suboptimal data의 diffusion-time routing, egocentric human video → executable robot data camera frame·morphology·physical time·label reliability alignment, verified / corrected rollout의 self-improvement data화
Action representation voxel heatmap, geometry-aware latent action token, whole-body motion token, noise-space action learnable source prior, camera-frame EEF action, 3D interaction / point trace, object-pose residual state, multi-rate tactile action
실험의 focus real-time frequency, chunk latency, closed-loop success, reward / critic correlation failure detection, virtual–real evaluation correlation, zero-shot sim-to-real correction, contact robustness, OOD / cross-embodiment generalization

한 줄로 말하면, 지난 리뷰가 “closed-loop control을 막는 interface bottleneck 목록”이었다면 이번 리뷰는 “그 bottleneck을 실행 중 감시하고 닫는 closed-loop operating system의 설계도”에 가깝다.


이번 주 핵심 Axis

Axis 핵심 변화 대표 논문
Adaptive generative inference / asynchronous execution 모든 state에 고정된 denoising budget, query period, chunk length, semantic update rate와 observation-independent source distribution을 쓰는 가정이 깨지고 있다. State difficulty에 따라 compute와 feedback frequency를 배분하거나, one-to-few-step generator·delay-aware condition·state-conditioned source prior를 사용해 high-rate control을 만든다. EQRL, ReactVLA, Acting While Understanding, LAGO Policy, LeaP
Policy as proposal prior / inference-time correction Base policy output을 최종 action으로 바로 실행하지 않고, 여러 candidate를 sample·retrieve·dream한 뒤 visual / tactile verifier, latent matching, object-centric residual controller가 실제 실행할 action을 선택하거나 수정한다. ViTaL, ReCAP, VERITAS, DREAM-Chunk, Object-Centric Residual RL
WAM as consistency evaluator / self-improvement loop WAM의 가치는 photorealistic future rendering보다 control-relevant consistency로 이동한다. Forward–inverse action consistency, cross-view coherence, latent phase matching, imagined–executed future consistency를 이용해 rollout을 평가하고 world model 자체도 online data로 개선한다. WAM-RL, SC3-Eval, DREAM-Chunk, ViTaL
3D geometry / interaction trace as predictive state Dense RGB reconstruction 대신 future depth, sparse 3D interaction trace, object-attached point trajectory, geometric latent, multi-view 3D consistency처럼 action과 직접 연결되는 structured state를 world prediction target으로 사용한다. WAM4D, µ0, GAM, PAIWorld, MolmoMotion
Alignment-first scaling / embodiment conversion Data scaling의 병목은 양 자체보다 서로 다른 source를 하나의 physical interface로 정렬하는 데 있다. Coordinate frame, morphology, temporal horizon, label reliability를 맞추고, human / other-robot trajectory를 retrieval memory나 dynamically feasible robot trajectory로 변환한다. ACE-Ego-0, Qwen-RobotManip, ReCAP, Do as I Do
Contact-aware robustness / uncertainty / recovery Vision-only nominal imitation을 넘어 touch, task-object pose, ensemble uncertainty, collision-free trajectory optimization을 사용해 failure를 감지하고 local correction 또는 recovery를 수행한다. Policy 전체를 다시 학습하기보다 deployment-time feedback layer를 강화하는 흐름이다. T-Rex, VFD / SAVE, Object-Centric Residual RL, LAGO Policy, ViTaL

논문 핵심 regime 해석

논문 핵심 regime 해석
Elastic Queries Reinforcement Learning scheduler-training + auxiliary-module-training + RL Base $\pi_0$ VLA는 frozen으로 유지하고, lightweight RL adaptor만 각 query의 latent steering $w$, denoising step $K$, execution chunk length $C$를 선택한다. Critic ensemble disagreement를 state difficulty로 사용하고 episode-level NFE budget을 두므로, action model fine-tuning이 아니라 compute와 feedback 주기를 학습하는 execution policy에 가깝다.
ReactVLA component-scratch-training + low-step flow generation Multi-step diffusion / flow action head를 improved Mean Flow 기반 one-to-few-step generator로 바꾸고, AttnRes로 한 번의 forward pass에서도 multimodal context를 강하게 보존한다. 핵심 성능원은 test-time candidate search가 아니라 per-query action-generation latency 자체를 줄여 더 reactive한 control loop를 만드는 것이다.
WAM4D WAM fine-tuning + auxiliary-module-training + component-scratch-training Causal video-action WAM에 spatial register token과 pretrained geometric head를 붙여 future depth를 auxiliary target으로 예측한다. Geometry branch는 training 때만 사용하고 deployment에서는 제거하므로, 이름과 달리 dense 4D geometry를 runtime에 생성하는 모델이 아니라 geometric prior를 action latent에 distill한 fast WAM이다.
µ0 world-model pretraining + component-scratch-training + frozen transfer Action label 없는 heterogeneous video에서 object / tool / hand / contact의 semantic 3D interaction trace를 예측하도록 world model을 pretrain한다. Downstream에서는 $\mu_0$를 freeze하고 partial denoising hidden feature만 gated cross-attention으로 별도 action expert에 전달하므로, online planner보다는 embodiment-independent motion representation prior로 작동한다.
Acting While Understanding VLA fine-tuning + component-scratch-training + asynchronous inference VLA 내부를 low-frequency semantic understanding과 high-frequency action generation으로 분리하고 semantic condition을 cache한다. Historical action conditioning과 time-misalignment training으로 stale semantics를 견디게 하므로, 단순 KV-cache 최적화가 아니라 서로 다른 semantic / control clock을 학습 단계부터 정렬한 asynchronous policy다.
Geometric Action Model GFM fine-tuning + component-scratch-training + joint world-action learning Pretrained Geometric Foundation Model을 feature extractor로 고정하지 않고 중간 layer에서 split한 뒤 causal future predictor를 삽입한다. Future geometric token과 action token을 함께 예측하고 future-feature / depth / action loss로 학습해, geometry backbone 자체를 causal World-Action Policy로 전환한다.
Inference-time Policy Steering via Vision and Touch auxiliary-module-training + training-free inference-time steering Frozen diffusion policy 위에 action-conditioned visuo-tactile latent world model과 reward를 학습한다. Vision은 long-horizon candidate mode를 고르고 touch는 선택된 action의 short-horizon contact segment를 diffusion editing하므로, modality score를 단순 합산하지 않는 global visual selection + local tactile correction 구조다.
ReCAP one-time fine-tuning + training-free retrieval adaptation Target robot과 cheap pool embodiment의 paired task data로 한 번 cross-embodiment policy를 학습한 뒤, 새 task는 human / other-robot demonstration을 retrieval pool에 추가하는 것만으로 확장한다. Retrieved action을 coarse prior로 두고 target action residual을 예측하지만, 완전한 zero-shot method라기보다 사전 paired alignment를 전제로 한 weight-free per-task adaptation이다.
T-Rex foundation-model pretraining + tactile mid-training + asynchronous multi-rate control Human egocentric video pretraining 뒤 tactile-rich robot data로 mid-training하고, variable-rate Mixture-of-Transformer Experts를 사용한다. Low-rate action expert가 visuomotor plan을 만들고 high-rate tactile expert가 cached vision-language context 위에서 action을 빠르게 보정해, touch를 static feature가 아니라 contact-sensitive closed-loop refinement signal로 사용한다.
ACE-Ego-0 VLA pretraining + mixed-source alignment + reliability-aware auxiliary learning Human, robot, simulation data를 head-camera-frame action, morphology token, physical-time-aligned chunk로 통합한다. Human pseudo-action은 clean robot label과 동일하게 취급하지 않고 reliability-aware auxiliary loss로 제한하므로, 핵심은 data volume보다 spatial / structural / temporal / supervision-quality alignment다.
LAGO Policy scratch-training + auxiliary goal training + inference-time trajectory optimization Diffusion Policy에 delay-randomized future-action conditioning과 latency-aware CFG를 넣고, demonstration-derived goal head를 함께 학습한다. Deployment에서는 A* guide, B-spline optimization, spatial-temporal smoothing으로 collision과 jerk를 줄이므로, learned generative policy와 optimization-based motion planning을 결합한 hybrid controller다.
Qwen-RobotManip foundation-model pretraining + dual-stream co-training + downstream post-training Canonical 80D state-action vector, dimension mask, camera-frame delta EEF action, embodiment prompt, in-context policy adaptation으로 heterogeneous manipulation data를 먼저 정렬한 뒤 대규모 pretraining한다. 핵심 주장은 단순 scale이 아니라 alignment가 확보되어야 data scale이 OOD / cross-embodiment generalization으로 전환된다는 것이다.
Uncertainty Quantification for Flow-Based VLA Models ensemble training + uncertainty-guided active fine-tuning Small VLA ensemble의 action-generation ODE를 따라 velocity field disagreement를 측정해 epistemic uncertainty를 추정한다. 이 score를 failure detection과 SAVE의 demonstration acquisition에 사용하므로, uncertainty는 별도 confidence head가 아니라 flow dynamics 자체의 model disagreement에서 나온다.
WAM-RL online video SFT + actor RL fine-tuning Successful online rollout으로 world model을 KL-regularized video SFT하고, actor는 imagined future와 executed future의 reconstruction consistency를 dense reward로 받아 RL update한다. Actor-only RL보다 long-horizon 성능에 유리하다는 결과는 WAM에서 world model이 고정 simulator가 아니라 policy improvement의 직접적인 optimization target임을 보여준다.
LeaP scratch-training + learnable source-prior training Observation-independent $\mathcal{N}(0,I)$ 대신 proprioception-conditioned diagonal Gaussian source prior를 학습한다. Flow-matching, NLL, contrastive alignment로 prior를 학습하되 downstream generator와 solver는 거의 유지하므로, action decoder를 키우기보다 generative transport가 시작되는 distribution을 task-relevant region으로 이동시킨다.
VERITAS training-free inference-time steering + autonomous BC fine-tuning Frozen generalist policy를 stochastic generator로 두고 여러 action chunk를 sample한 뒤, VLM-derived pixel-space trace를 이용한 geometric verifier로 Best-of-$N$을 선택한다. Inference steering 자체는 weight update가 없지만, 성공한 verified rollout을 behavior cloning data로 재사용해 test-time selection을 autonomous data flywheel로 연결한다.
PAIWorld video world-model fine-tuning + 3D representation distillation 14B flow-matching video DiT에 cross-view attention, camera-aware Geo-RoPE, Depth Anything 3 기반 Latent 3D-REPA를 결합해 action-conditioned multi-view future를 3D-consistent하게 생성한다. 다만 action을 출력하는 policy / WAM 전체는 아니며, 실제 policy success 향상도 검증하지 않아 WAM의 world-prediction backbone 후보로 해석하는 것이 정확하다.
Object-Centric Residual RL frozen VLA + simulation residual RL + optional self-generated SFT Simulation의 TD3 residual policy가 object 6-DoF pose, proprioception, current base VLA action만 입력받아 correction을 학습하고, deployment에서는 sim VLA를 frozen real VLA로 교체한다. Object pose가 visual domain gap을 우회하는 bridge가 되며, corrected rollout은 다시 base VLA SFT에 사용할 수 있지만 reliable pose estimation과 task-object specification에 의존한다.
MolmoMotion motion foundation-model pretraining + downstream policy fine-tuning Human / robot / in-the-wild video에서 language-conditioned sparse 3D point trajectory를 예측하도록 autoregressive 또는 flow-matching model을 pretrain한다. Robot experiment는 predicted trajectory를 online planner로 직접 추종한 것이 아니라 pretrained motion representation으로 policy를 초기화한 뒤 action data로 fine-tuning한 것이므로, 현재 contribution은 embodiment-independent motion prior transfer에 가깝다.
DREAM-Chunk frozen VLA + auxiliary latent world-model training + test-time scaling Base action-chunking policy는 고정하고 observation encoder와 action-conditioned latent dynamics만 별도로 학습한다. 한 query에서 여러 chunk와 dreamed latent future를 만든 뒤 매 control step 현재 observation에 가장 가까운 candidate의 동일 phase action으로 전환해, policy를 재호출하지 않고 within-chunk closed-loop reactivity를 만든다.
Do as I Do training-free foundation-model reuse + offline data generation + physics-based trajectory optimization Monocular human video의 hand–object motion을 복원하고, SAM 3D guided flow sampling으로 temporally coherent object pose를 얻은 뒤 MuJoCo Warp의 MPPI-style optimization으로 executable dexterous trajectory를 만든다. 이는 policy-learning method가 아니라 human video → dynamically feasible robot trajectory offline data engine이며, downstream policy success나 visual closed-loop robustness는 아직 검증하지 않았다.
SC3-Eval video foundation-model fine-tuning + auxiliary evaluator training + virtual closed-loop evaluation Shared Cosmos3-Nano transformer를 forward dynamics, inverse dynamics, cross-view inpainting mode로 공동 fine-tuning한다. Inference에서는 commanded action과 generated video에서 복원한 action의 불일치를 rollout reliability signal로 사용해 frozen VLA를 virtual closed loop에서 평가한다. 높은 real-policy correlation을 보였지만, 동일 scene / embodiment / policy family 범위와 self-consistent-but-wrong rollout 가능성은 남는다.