Weekly Review #2

2026-06-13 Korean

2026.06.08 ~ 2026.06.12

이번 Weekly Review는 /paper/inference, /paper/success-rate, /paper/briefs 중 2026년 6월 8일부터 6월 12일까지 읽은 논문을 커버한다.

단, 이 기간에는 Inference category에 새 글은 없었다. 대신 inference-time / real-time control 흐름은 Briefs와 Success Rate 글 안에 강하게 섞여 나타났다.

이번 주의 핵심은 “foundation model을 더 크게 만든다”가 아니라, robot policy가 closed-loop control에서 실제로 실패하는 지점을 interface로 분해하고, 각 interface를 learned module 또는 inference-time procedure로 고치는 방향이다. WAM은 미래 video generator에서 latent evaluator / fast planner / reward-aware data engine으로 이동하고, VLA는 backbone보다 action head, asynchronous sensor buffer, execution horizon, critic/reward feedback 같은 control-facing component가 중요해지고 있다.

지난 Weekly Review와 비교

지난 Weekly Review #1은 지금까지 읽은 VLA/WAM 계열 논문들을 넓게 묶어, robot foundation model이 어떤 방향으로 확장되는지를 정리했다. 핵심 축은 generalist VLA, WAM/VAM, inference-time adaptation, data/sim-to-real loop, structured reasoning / spatial prior였다.

이번 주는 그보다 더 좁고 실전적이다.

중심 질문

Weekly Review #1: “Robot foundation model은 어떤 큰 방향으로 진화하는가?”
Weekly Review #2: “Closed-loop robot behavior에서 실제 병목이 되는 interface는 무엇인가?”

WAM 해석

Weekly Review #1: future video / action-conditioned rollout / world prior
Weekly Review #2: fast latent planner, reward/value evaluator, policy steering module

Inference-time 관점

Weekly Review #1: compute scheduling, cache, replanning cost 절감
Weekly Review #2: sensor clock, execution horizon, planner-executor phase mismatch, flow-noise steering

Data 관점

Weekly Review #1: sim-to-real, failure-driven data repair, synthetic rollout
Weekly Review #2: suboptimal data의 diffusion-time routing, egocentric human video → executable robot data

Action representation

Weekly Review #1: token/action/world representation의 큰 흐름
Weekly Review #2: voxel heatmap, geometry-aware latent action token, whole-body motion token, noise-space action

실험의 focus

Weekly Review #1: broad benchmark improvement
Weekly Review #2: real-time frequency, chunk latency, closed-loop success, reward/critic correlation

한 줄로 말하면, 지난 리뷰가 “Physical AI stack의 지도”였다면 이번 리뷰는 “그 stack에서 실제 robot control을 막는 interface bottleneck 목록”에 가깝다.

이번 주 핵심 Axis

Real-time WAM / fast future imagination

핵심 변화: WAM이 photorealistic future video generator에서 벗어나, action generation에 필요한 coarse future cue, latent context, intermediate denoising feature만 빠르게 제공하는 방향으로 이동한다.
대표 논문: AHA-WAM, Efficient-WAM, MotionWAM, WEAVER

Asynchronous closed-loop control

핵심 변화: 모든 modality와 action을 같은 clock에 맞추는 synchronous VLA 가정이 깨지고, modality별 sensor rate, planner-executor phase, execution horizon을 따로 다루는 구조가 중요해진다.
대표 논문: DAM-VLA, AHA-WAM, Dynamic Execution Horizon Prediction

Action representation as a first-class design variable

핵심 변화: 성능 개선이 backbone scale만이 아니라 action head / action token / motion token / noise-space action 설계에서 나온다. Action space의 geometry와 embodiment structure를 policy가 직접 활용하게 만드는 흐름이다.
대표 논문: ActionMap, GEAR-VLA, MotionWAM, Flow Reversal Steering

Reward/value-guided policy improvement

핵심 변화: BC 이후의 policy improvement가 핵심 주제로 올라왔다. Learned Q, dense reward model, latent reward/critic, FRS-based RL bootstrap이 flow/diffusion/VLA policy를 실제 task success 쪽으로 밀어준다.
대표 논문: Q-VGM, SARM2, WEAVER, Flow Reversal Steering

Data quality routing and data conversion

핵심 변화: “더 많은 data”보다 “어떤 data를 어떤 학습 구간에 쓸 것인가”가 중요해진다. Suboptimal data는 diffusion timestep에 따라 selective하게 쓰고, egocentric human video는 digital twin을 거쳐 robot-executable data로 변환한다.
대표 논문: Ambient Diffusion Policy, EgoEngine, WEAVER

Geometry / embodiment grounding

핵심 변화: 2D visual-language representation만으로는 unseen object, background shift, robot embodiment transfer, contact-rich manipulation을 충분히 다루기 어렵다. 3D geometry, relative EE action, whole-body motion token, force/torque memory가 중요해진다.
대표 논문: GEAR-VLA, ActionMap, DAM-VLA, MotionWAM

논문 핵심 regime 해석

ActionMap

핵심 regime: fine-tuning + component-scratch-training
해석: VLA backbone을 크게 바꾸기보다 action decoder를 voxel heatmap head로 교체한다. 핵심은 continuous action을 직접 회귀하지 않고, translation / rotation / gripper distribution으로 예측해 action space의 geometric proximity를 학습 신호로 쓰는 것이다.

Q-VGM

핵심 regime: fine-tuning + auxiliary critic training + offline RL
해석: few-shot SFT된 $\pi_{0.5}$ flow-matching VLA를 self-rollout buffer와 learned Q-critic으로 개선한다. 중요한 점은 Q-gradient를 terminal action label이 아니라 denoising-time residual velocity supervision으로 바꾼다는 것이다.

MotionWAM

핵심 regime: WAM fine-tuning + component-scratch-training + real-time humanoid control
해석: Video DiT의 fully denoised future video를 기다리지 않고, intermediate denoising feature를 Motion DiT action policy에 주입한다. 또한 humanoid upper/lower body split을 버리고 SONIC 기반 whole-body motion token으로 loco-manipulation을 하나의 action space에 묶는다.

GEAR-VLA

핵심 regime: fine-tuning + auxiliary-module-training + component-scratch-training
해석: Qwen2.5-VL 기반 VLA에 latent action token, DiT flow action expert, VGGT 기반 3D spatial encoder, embodiment canonicalization을 결합한다. 핵심은 VLM semantic space와 3D/action geometry를 분리하지 않고 연결하되, continuous action loss가 VLM backbone을 오염시키지 않도록 stop-gradient 구조를 둔다는 점이다.

AHA-WAM

핵심 regime: WAM fine-tuning + asynchronous inference-time architecture
해석: Video-DiT world planner는 low-frequency로 long-horizon latent context를 만들고, Action-DiT executor는 high-frequency로 최신 observation을 반영한다. OVCR과 horizon-adaptive offset training은 planner-executor phase mismatch를 다루기 위한 핵심 장치다.

Efficient-WAM

핵심 regime: WAM distillation/fine-tuning + inference acceleration
해석: WAM의 future video prediction을 photorealistic generation이 아니라 action generation을 돕는 low-cost future guidance로 재정의한다. Compact video expert, token-sparse future latent, asymmetric video-action denoising이 핵심이다.

SARM2

핵심 regime: auxiliary reward model training + on-policy residual RL
해석: Long-horizon manipulation에서 BC 이후 self-improvement를 위해 dense reward/value model을 만든다. Action primitive 기반 stage estimator와 MMoE value head를 SPIRAL의 residual RL loop에 넣어 autonomous rollout을 policy improvement data로 바꾼다.

Dynamic Execution Horizon Prediction

핵심 regime: scheduler-training + auxiliary-module-training
해석: Base action-chunk policy는 frozen으로 유지하고, 현재 observation과 predicted action chunk를 보고 실행 horizon $h$만 PPO로 학습한다. Action generator를 바꾸지 않고 open-loop chunk execution과 closed-loop replanning 사이의 tradeoff를 학습한다는 점이 중요하다.

Ambient Diffusion Policy

핵심 regime: scratch-training / data-mixture training
해석: Suboptimal data를 단순히 섞지 않고 diffusion timestep에 따라 사용할 구간을 제한한다. High noise는 global plan, low noise는 local refinement에 해당한다는 spectral power law 해석을 robot action data mixture에 연결한다.

DAM-VLA

핵심 regime: VLA fine-tuning + component-scratch-training + asynchronous latent memory
해석: VLA의 synchronous clock 가정을 비판하고, modality별 latent buffer를 sensor rate에 맞게 갱신한다. Force/torque 같은 high-frequency modality는 pretrained self-attention에 직접 섞지 않고 Gated Cross-Attention residual pathway로 action token에 주입한다.

EgoEngine

핵심 regime: data-generation + auxiliary-module-training
해석: Egocentric human video를 robot observation video와 executable robot action trajectory로 변환하는 data engine이다. 핵심은 human hand retargeting만이 아니라 object-centric digital twin에서 visual branch와 action branch를 병렬로 생성한다는 점이다.

Flow Reversal Steering

핵심 regime: training-free inference-time steering + optional auxiliary-model-training + RL bootstrap
해석: Frozen flow-matching VLA의 reverse ODE를 이용해 coarse reference action을 latent noise로 보낸 뒤 다시 denoise한다. FRS 자체는 training-free지만, 성공 noise를 distill하면 DSBC가 되고, RL 초기화를 제공하면 DSRL + FRS가 된다.

WEAVER

핵심 regime: world model pretraining/fine-tuning + reward/critic auxiliary training + inference-time planning + synthetic data generation
해석: Multi-view RGB, proprioception, action chunk를 latent space에서 rollout하고 reward/value를 예측한다. WEAVER의 핵심은 future video fidelity가 아니라 policy evaluation, synthetic-data policy improvement, test-time best-of-N planning까지 이어지는 action-conditioned latent simulator라는 점이다.