Weekly Review #2
2026.06.08 ~ 2026.06.12
이번 Weekly Review는 /paper/inference, /paper/success-rate, /paper/briefs 중 2026년 6월 8일부터 6월 12일까지 읽은 논문을 커버한다.
단, 이 기간에는 Inference category에 새 글은 없었다. 대신 inference-time / real-time control 흐름은 Briefs와 Success Rate 글 안에 강하게 섞여 나타났다.
이번 주의 핵심은 “foundation model을 더 크게 만든다”가 아니라, robot policy가 closed-loop control에서 실제로 실패하는 지점을 interface로 분해하고, 각 interface를 learned module 또는 inference-time procedure로 고치는 방향이다. WAM은 미래 video generator에서 latent evaluator / fast planner / reward-aware data engine으로 이동하고, VLA는 backbone보다 action head, asynchronous sensor buffer, execution horizon, critic/reward feedback 같은 control-facing component가 중요해지고 있다.
지난 Weekly Review와 비교
지난 Weekly Review #1은 지금까지 읽은 VLA/WAM 계열 논문들을 넓게 묶어, robot foundation model이 어떤 방향으로 확장되는지를 정리했다. 핵심 축은 generalist VLA, WAM/VAM, inference-time adaptation, data/sim-to-real loop, structured reasoning / spatial prior였다.
이번 주는 그보다 더 좁고 실전적이다.
| 비교 대상 | Weekly Review #1 | Weekly Review #2 |
|---|---|---|
| 중심 질문 | “Robot foundation model은 어떤 큰 방향으로 진화하는가?” | “Closed-loop robot behavior에서 실제 병목이 되는 interface는 무엇인가?” |
| WAM 해석 | future video / action-conditioned rollout / world prior | fast latent planner, reward/value evaluator, policy steering module |
| Inference-time 관점 | compute scheduling, cache, replanning cost 절감 | sensor clock, execution horizon, planner-executor phase mismatch, flow-noise steering |
| Data 관점 | sim-to-real, failure-driven data repair, synthetic rollout | suboptimal data의 diffusion-time routing, egocentric human video → executable robot data |
| Action representation | token/action/world representation의 큰 흐름 | voxel heatmap, geometry-aware latent action token, whole-body motion token, noise-space action |
| 실험의 focus | broad benchmark improvement | real-time frequency, chunk latency, closed-loop success, reward/critic correlation |
한 줄로 말하면, 지난 리뷰가 “Physical AI stack의 지도”였다면 이번 리뷰는 “그 stack에서 실제 robot control을 막는 interface bottleneck 목록”에 가깝다.
이번 주 핵심 Axis
| Axis | 핵심 변화 | 대표 논문 |
|---|---|---|
| Real-time WAM / fast future imagination | WAM이 photorealistic future video generator에서 벗어나, action generation에 필요한 coarse future cue, latent context, intermediate denoising feature만 빠르게 제공하는 방향으로 이동한다. | AHA-WAM, Efficient-WAM, MotionWAM, WEAVER |
| Asynchronous closed-loop control | 모든 modality와 action을 같은 clock에 맞추는 synchronous VLA 가정이 깨지고, modality별 sensor rate, planner-executor phase, execution horizon을 따로 다루는 구조가 중요해진다. | DAM-VLA, AHA-WAM, Dynamic Execution Horizon Prediction |
| Action representation as a first-class design variable | 성능 개선이 backbone scale만이 아니라 action head / action token / motion token / noise-space action 설계에서 나온다. Action space의 geometry와 embodiment structure를 policy가 직접 활용하게 만드는 흐름이다. | ActionMap, GEAR-VLA, MotionWAM, Flow Reversal Steering |
| Reward/value-guided policy improvement | BC 이후의 policy improvement가 핵심 주제로 올라왔다. Learned Q, dense reward model, latent reward/critic, FRS-based RL bootstrap이 flow/diffusion/VLA policy를 실제 task success 쪽으로 밀어준다. | Q-VGM, SARM2, WEAVER, Flow Reversal Steering |
| Data quality routing and data conversion | “더 많은 data”보다 “어떤 data를 어떤 학습 구간에 쓸 것인가”가 중요해진다. Suboptimal data는 diffusion timestep에 따라 selective하게 쓰고, egocentric human video는 digital twin을 거쳐 robot-executable data로 변환한다. | Ambient Diffusion Policy, EgoEngine, WEAVER |
| Geometry / embodiment grounding | 2D visual-language representation만으로는 unseen object, background shift, robot embodiment transfer, contact-rich manipulation을 충분히 다루기 어렵다. 3D geometry, relative EE action, whole-body motion token, force/torque memory가 중요해진다. | GEAR-VLA, ActionMap, DAM-VLA, MotionWAM |
논문 핵심 regime 해석
| 논문 | 핵심 regime | 해석 |
|---|---|---|
| ActionMap | fine-tuning + component-scratch-training | VLA backbone을 크게 바꾸기보다 action decoder를 voxel heatmap head로 교체한다. 핵심은 continuous action을 직접 회귀하지 않고, translation / rotation / gripper distribution으로 예측해 action space의 geometric proximity를 학습 신호로 쓰는 것이다. |
| Q-VGM | fine-tuning + auxiliary critic training + offline RL | few-shot SFT된 $\pi_{0.5}$ flow-matching VLA를 self-rollout buffer와 learned Q-critic으로 개선한다. 중요한 점은 Q-gradient를 terminal action label이 아니라 denoising-time residual velocity supervision으로 바꾼다는 것이다. |
| MotionWAM | WAM fine-tuning + component-scratch-training + real-time humanoid control | Video DiT의 fully denoised future video를 기다리지 않고, intermediate denoising feature를 Motion DiT action policy에 주입한다. 또한 humanoid upper/lower body split을 버리고 SONIC 기반 whole-body motion token으로 loco-manipulation을 하나의 action space에 묶는다. |
| GEAR-VLA | fine-tuning + auxiliary-module-training + component-scratch-training | Qwen2.5-VL 기반 VLA에 latent action token, DiT flow action expert, VGGT 기반 3D spatial encoder, embodiment canonicalization을 결합한다. 핵심은 VLM semantic space와 3D/action geometry를 분리하지 않고 연결하되, continuous action loss가 VLM backbone을 오염시키지 않도록 stop-gradient 구조를 둔다는 점이다. |
| AHA-WAM | WAM fine-tuning + asynchronous inference-time architecture | Video-DiT world planner는 low-frequency로 long-horizon latent context를 만들고, Action-DiT executor는 high-frequency로 최신 observation을 반영한다. OVCR과 horizon-adaptive offset training은 planner-executor phase mismatch를 다루기 위한 핵심 장치다. |
| Efficient-WAM | WAM distillation/fine-tuning + inference acceleration | WAM의 future video prediction을 photorealistic generation이 아니라 action generation을 돕는 low-cost future guidance로 재정의한다. Compact video expert, token-sparse future latent, asymmetric video-action denoising이 핵심이다. |
| SARM2 | auxiliary reward model training + on-policy residual RL | Long-horizon manipulation에서 BC 이후 self-improvement를 위해 dense reward/value model을 만든다. Action primitive 기반 stage estimator와 MMoE value head를 SPIRAL의 residual RL loop에 넣어 autonomous rollout을 policy improvement data로 바꾼다. |
| Dynamic Execution Horizon Prediction | scheduler-training + auxiliary-module-training | Base action-chunk policy는 frozen으로 유지하고, 현재 observation과 predicted action chunk를 보고 실행 horizon $h$만 PPO로 학습한다. Action generator를 바꾸지 않고 open-loop chunk execution과 closed-loop replanning 사이의 tradeoff를 학습한다는 점이 중요하다. |
| Ambient Diffusion Policy | scratch-training / data-mixture training | Suboptimal data를 단순히 섞지 않고 diffusion timestep에 따라 사용할 구간을 제한한다. High noise는 global plan, low noise는 local refinement에 해당한다는 spectral power law 해석을 robot action data mixture에 연결한다. |
| DAM-VLA | VLA fine-tuning + component-scratch-training + asynchronous latent memory | VLA의 synchronous clock 가정을 비판하고, modality별 latent buffer를 sensor rate에 맞게 갱신한다. Force/torque 같은 high-frequency modality는 pretrained self-attention에 직접 섞지 않고 Gated Cross-Attention residual pathway로 action token에 주입한다. |
| EgoEngine | data-generation + auxiliary-module-training | Egocentric human video를 robot observation video와 executable robot action trajectory로 변환하는 data engine이다. 핵심은 human hand retargeting만이 아니라 object-centric digital twin에서 visual branch와 action branch를 병렬로 생성한다는 점이다. |
| Flow Reversal Steering | training-free inference-time steering + optional auxiliary-model-training + RL bootstrap | Frozen flow-matching VLA의 reverse ODE를 이용해 coarse reference action을 latent noise로 보낸 뒤 다시 denoise한다. FRS 자체는 training-free지만, 성공 noise를 distill하면 DSBC가 되고, RL 초기화를 제공하면 DSRL + FRS가 된다. |
| WEAVER | world model pretraining/fine-tuning + reward/critic auxiliary training + inference-time planning + synthetic data generation | Multi-view RGB, proprioception, action chunk를 latent space에서 rollout하고 reward/value를 예측한다. WEAVER의 핵심은 future video fidelity가 아니라 policy evaluation, synthetic-data policy improvement, test-time best-of-N planning까지 이어지는 action-conditioned latent simulator라는 점이다. |