Weekly Review #1

2026-06-06 Korean

2026.05.19 ~ 2026.06.05

이번 Weekly Review는 첫 번째 review이므로, 최근 일주일이 아니라 지금까지 읽었던 모든 논문을 커버한다.

최근 VLA/WAM 계열 연구는 단순한 “image + language → action” policy를 넘어, 로봇의 closed-loop behavior를 위해 action representation, latent reasoning, future prediction, inference scheduling, data repair loop까지 포함하는 structured robot intelligence stack으로 이동하고 있다.

이번 주 핵심 Axis

Generalist VLA / Foundation Model

핵심 변화: 여러 task, embodiment, environment를 하나의 embodied action/world-modeling framework로 통합
대표 논문: Qwen-VLA, Cosmos 3, $\tau_{0}$-WM

World Action Model / Video-Action Model

핵심 변화: 미래 video, action-conditioned rollout, 3D point dynamics, skeleton-conditioned representation을 action reasoning에 사용
대표 논문: $\tau_{0}$-WM, OSCAR, PointAction, SANTS, Flash-WAM

Inference-time Adaptation

핵심 변화: 모든 control step에 같은 compute를 쓰지 않고 state, phase, uncertainty, delay, task deadline에 따라 scheduling/post-training/execution을 조절
대표 논문: ElegantVLA, SANTS, DVAC, PACE, Realtime-VLA FLASH, OxyGen, DEFLECT

Data and Sim-to-Real Loop

핵심 변화: 실패 케이스, recovery trajectory, high-fidelity simulation, digital generation을 통해 data coverage 확장
대표 논문: HyperSim, VLAMotor, GRAIL, Factory-Floor case study

Structured Reasoning / Skill / Spatial Priors

핵심 변화: language CoT 대신 continuous latent reasoning, 3D priors, skill-aware MoE, visual evidence budget을 도입
대표 논문: Continuous Reasoning, 3DThinkVLA, SMoDP, See Less Specify More

논문 핵심 regime 해석

Qwen-VLA

핵심 regime: mixed foundation-model training
해석: pretrained VLM + scratch action expert + T2A/CPT/SFT/RL

Cosmos 3

핵심 regime: foundation-model pretraining/post-training
해석: omnimodal world model + robot policy post-training

$\tau_{0}$-WM

핵심 regime: WAM training / foundation-model-style training
해석: VAM, ACVS, action selection/rectification을 통합

SMoDP

핵심 regime: scratch-training
해석: skill-conditioned MoE diffusion policy 학습

Factory-Floor VLA

핵심 regime: fine-tuning
해석: pretrained π0.5를 industrial task에 맞게 fine-tuning

HyperSim

핵심 regime: fine-tuning / sim-to-real co-training
해석: simulation data + small real data로 policy 학습

VLAMotor

핵심 regime: fine-tuning via data synthesis
해석: failure-derived repaired data로 VLA fine-tuning

GRAIL

핵심 regime: data-generation + policy fine-tuning
해석: generated 4D HOI data로 tracking/visual policy 학습

3DThinkVLA

핵심 regime: fine-tuning + auxiliary-module-training + component-scratch-training
해석: 3D teacher/adapters를 학습 중 사용하고, inference에서는 2D image-only VLA로 동작

PointAction