Briefs
Short paper notes for 3-line summaries or reading memos
- Cosmos 3: Omnimodal World Models for Physical AI 2026-06-03
language, image, video, audio, action을 하나의 Mixture-of-Transformers (MoT) 기반 omnimodal world model로 통합해, VLM·video generator·forward/inverse dynamics·robot policy를 하나의 Physical AI backbone으로 다루는 NVIDIA의 대규모 foundation model
KoreanWAMFoundation Model - Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies 2026-06-03
last denoising step들에서 clean-action estimate들의 variance를 future action별 stability proxy로 사용해, 안정적인 action prefix만 실행하고 고분산 구간 전에 replan
KoreanVLAinference-time - PointAction: 3D Points as Universal Action Representations for Robot Control 2026-06-03
pretrained video diffusion model이 RGB뿐 아니라 temporally consistent XYZ pointmap까지 생성하게 만들고, 이 3D point dynamics를 embodiment-specific diffusion action decoder가 action chunk로 변환
KoreanWAMfine-tuning - See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs 2026-06-03
VLA executor가 coarse goal과 full image에서 “무엇을 할지/무엇을 볼지”를 스스로 추론하지 않도록 goal-preserving local language와 learned visual evidence budget을 함께 학습시키는 planner-executor VLA generalization framework
KoreanVLAfine-tuning - Continuous Reasoning for Vision-Language-Action 2026-06-02
VLA의 reasoning을 자연어 CoT가 아니라, 다른 VLA instance도 consume할 수 있는 WAE-regularized Gaussian continuous reasoning interface로 정의
KoreanVLAreasoning - PACE: Phase-Aware Chunk Execution for Robot Policies with Action Chunking 2026-06-02
action chunking robot policy에서 고정 execution horizon 대신, predicted action chunk의 low-speed valley를 phase boundary로 사용해 매 query마다 실행 길이를 동적으로 선택하는 training-free test-time execution 방법
KoreanVLAinference-time - VLAMotor: Test-Guided Enhancement of Vision-Language-Action Models via Agent-Based Data Synthesis 2026-06-02
training distribution에서 멀고 서로 중복되지 않는 테스트 케이스로 VLA 실패를 적극적으로 찾고, 그 실패 trajectory를 VLM agent가 성공 trajectory로 고쳐 fine-tuning data로 쓰는 failure-driven VLA enhancement framework
KoreanVLAfine-tuning - τ0-WM: A Unified Video-Action World Model for Robotic Manipulation 2026-06-02
action generation, video prediction, action-conditioned evaluation을 하나의 shared video diffusion backbone 위에서 통합한 manipulation framework
KoreanWAMFoundation Model