Weekly Review #2

2026.06.08 ~ 2026.06.12

이번 Weekly Review는 /paper/inference, /paper/success-rate, /paper/briefs 중 2026년 6월 8일부터 6월 12일까지 읽은 논문을 커버한다.

단, 이 기간에는 Inference category에 새 글은 없었다. 대신 inference-time / real-time control 흐름은 BriefsSuccess Rate 글 안에 강하게 섞여 나타났다.

이번 주의 핵심은 “foundation model을 더 크게 만든다”가 아니라, robot policy가 closed-loop control에서 실제로 실패하는 지점을 interface로 분해하고, 각 interface를 learned module 또는 inference-time procedure로 고치는 방향이다. WAM은 미래 video generator에서 latent evaluator / fast planner / reward-aware data engine으로 이동하고, VLA는 backbone보다 action head, asynchronous sensor buffer, execution horizon, critic/reward feedback 같은 control-facing component가 중요해지고 있다.


지난 Weekly Review와 비교

지난 Weekly Review #1은 지금까지 읽은 VLA/WAM 계열 논문들을 넓게 묶어, robot foundation model이 어떤 방향으로 확장되는지를 정리했다. 핵심 축은 generalist VLA, WAM/VAM, inference-time adaptation, data/sim-to-real loop, structured reasoning / spatial prior였다.

이번 주는 그보다 더 좁고 실전적이다.

비교 대상 Weekly Review #1 Weekly Review #2
중심 질문 “Robot foundation model은 어떤 큰 방향으로 진화하는가?” “Closed-loop robot behavior에서 실제 병목이 되는 interface는 무엇인가?”
WAM 해석 future video / action-conditioned rollout / world prior fast latent planner, reward/value evaluator, policy steering module
Inference-time 관점 compute scheduling, cache, replanning cost 절감 sensor clock, execution horizon, planner-executor phase mismatch, flow-noise steering
Data 관점 sim-to-real, failure-driven data repair, synthetic rollout suboptimal data의 diffusion-time routing, egocentric human video → executable robot data
Action representation token/action/world representation의 큰 흐름 voxel heatmap, geometry-aware latent action token, whole-body motion token, noise-space action
실험의 focus broad benchmark improvement real-time frequency, chunk latency, closed-loop success, reward/critic correlation

한 줄로 말하면, 지난 리뷰가 “Physical AI stack의 지도”였다면 이번 리뷰는 “그 stack에서 실제 robot control을 막는 interface bottleneck 목록”에 가깝다.


이번 주 핵심 Axis

Axis 핵심 변화 대표 논문
Real-time WAM / fast future imagination WAM이 photorealistic future video generator에서 벗어나, action generation에 필요한 coarse future cue, latent context, intermediate denoising feature만 빠르게 제공하는 방향으로 이동한다. AHA-WAM, Efficient-WAM, MotionWAM, WEAVER
Asynchronous closed-loop control 모든 modality와 action을 같은 clock에 맞추는 synchronous VLA 가정이 깨지고, modality별 sensor rate, planner-executor phase, execution horizon을 따로 다루는 구조가 중요해진다. DAM-VLA, AHA-WAM, Dynamic Execution Horizon Prediction
Action representation as a first-class design variable 성능 개선이 backbone scale만이 아니라 action head / action token / motion token / noise-space action 설계에서 나온다. Action space의 geometry와 embodiment structure를 policy가 직접 활용하게 만드는 흐름이다. ActionMap, GEAR-VLA, MotionWAM, Flow Reversal Steering
Reward/value-guided policy improvement BC 이후의 policy improvement가 핵심 주제로 올라왔다. Learned Q, dense reward model, latent reward/critic, FRS-based RL bootstrap이 flow/diffusion/VLA policy를 실제 task success 쪽으로 밀어준다. Q-VGM, SARM2, WEAVER, Flow Reversal Steering
Data quality routing and data conversion “더 많은 data”보다 “어떤 data를 어떤 학습 구간에 쓸 것인가”가 중요해진다. Suboptimal data는 diffusion timestep에 따라 selective하게 쓰고, egocentric human video는 digital twin을 거쳐 robot-executable data로 변환한다. Ambient Diffusion Policy, EgoEngine, WEAVER
Geometry / embodiment grounding 2D visual-language representation만으로는 unseen object, background shift, robot embodiment transfer, contact-rich manipulation을 충분히 다루기 어렵다. 3D geometry, relative EE action, whole-body motion token, force/torque memory가 중요해진다. GEAR-VLA, ActionMap, DAM-VLA, MotionWAM

논문 핵심 regime 해석

논문 핵심 regime 해석
ActionMap fine-tuning + component-scratch-training VLA backbone을 크게 바꾸기보다 action decoder를 voxel heatmap head로 교체한다. 핵심은 continuous action을 직접 회귀하지 않고, translation / rotation / gripper distribution으로 예측해 action space의 geometric proximity를 학습 신호로 쓰는 것이다.
Q-VGM fine-tuning + auxiliary critic training + offline RL few-shot SFT된 $\pi_{0.5}$ flow-matching VLA를 self-rollout buffer와 learned Q-critic으로 개선한다. 중요한 점은 Q-gradient를 terminal action label이 아니라 denoising-time residual velocity supervision으로 바꾼다는 것이다.
MotionWAM WAM fine-tuning + component-scratch-training + real-time humanoid control Video DiT의 fully denoised future video를 기다리지 않고, intermediate denoising feature를 Motion DiT action policy에 주입한다. 또한 humanoid upper/lower body split을 버리고 SONIC 기반 whole-body motion token으로 loco-manipulation을 하나의 action space에 묶는다.
GEAR-VLA fine-tuning + auxiliary-module-training + component-scratch-training Qwen2.5-VL 기반 VLA에 latent action token, DiT flow action expert, VGGT 기반 3D spatial encoder, embodiment canonicalization을 결합한다. 핵심은 VLM semantic space와 3D/action geometry를 분리하지 않고 연결하되, continuous action loss가 VLM backbone을 오염시키지 않도록 stop-gradient 구조를 둔다는 점이다.
AHA-WAM WAM fine-tuning + asynchronous inference-time architecture Video-DiT world planner는 low-frequency로 long-horizon latent context를 만들고, Action-DiT executor는 high-frequency로 최신 observation을 반영한다. OVCR과 horizon-adaptive offset training은 planner-executor phase mismatch를 다루기 위한 핵심 장치다.
Efficient-WAM WAM distillation/fine-tuning + inference acceleration WAM의 future video prediction을 photorealistic generation이 아니라 action generation을 돕는 low-cost future guidance로 재정의한다. Compact video expert, token-sparse future latent, asymmetric video-action denoising이 핵심이다.
SARM2 auxiliary reward model training + on-policy residual RL Long-horizon manipulation에서 BC 이후 self-improvement를 위해 dense reward/value model을 만든다. Action primitive 기반 stage estimator와 MMoE value head를 SPIRAL의 residual RL loop에 넣어 autonomous rollout을 policy improvement data로 바꾼다.
Dynamic Execution Horizon Prediction scheduler-training + auxiliary-module-training Base action-chunk policy는 frozen으로 유지하고, 현재 observation과 predicted action chunk를 보고 실행 horizon $h$만 PPO로 학습한다. Action generator를 바꾸지 않고 open-loop chunk execution과 closed-loop replanning 사이의 tradeoff를 학습한다는 점이 중요하다.
Ambient Diffusion Policy scratch-training / data-mixture training Suboptimal data를 단순히 섞지 않고 diffusion timestep에 따라 사용할 구간을 제한한다. High noise는 global plan, low noise는 local refinement에 해당한다는 spectral power law 해석을 robot action data mixture에 연결한다.
DAM-VLA VLA fine-tuning + component-scratch-training + asynchronous latent memory VLA의 synchronous clock 가정을 비판하고, modality별 latent buffer를 sensor rate에 맞게 갱신한다. Force/torque 같은 high-frequency modality는 pretrained self-attention에 직접 섞지 않고 Gated Cross-Attention residual pathway로 action token에 주입한다.
EgoEngine data-generation + auxiliary-module-training Egocentric human video를 robot observation video와 executable robot action trajectory로 변환하는 data engine이다. 핵심은 human hand retargeting만이 아니라 object-centric digital twin에서 visual branch와 action branch를 병렬로 생성한다는 점이다.
Flow Reversal Steering training-free inference-time steering + optional auxiliary-model-training + RL bootstrap Frozen flow-matching VLA의 reverse ODE를 이용해 coarse reference action을 latent noise로 보낸 뒤 다시 denoise한다. FRS 자체는 training-free지만, 성공 noise를 distill하면 DSBC가 되고, RL 초기화를 제공하면 DSRL + FRS가 된다.
WEAVER world model pretraining/fine-tuning + reward/critic auxiliary training + inference-time planning + synthetic data generation Multi-view RGB, proprioception, action chunk를 latent space에서 rollout하고 reward/value를 예측한다. WEAVER의 핵심은 future video fidelity가 아니라 policy evaluation, synthetic-data policy improvement, test-time best-of-N planning까지 이어지는 action-conditioned latent simulator라는 점이다.