All Posts
All notes and posts, grouped only by date order
- Cosmos 3: Omnimodal World Models for Physical AI
language, image, video, audio, action을 하나의 Mixture-of-Transformers (MoT) 기반 omnimodal world model로 통합해, VLM·video generator·forward/inverse dynamics·robot policy를 하나의 Physical AI backbone으로 다루는 NVIDIA의 대규모 foundation model
KoreanWAMFoundation Model - Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies
last denoising step들에서 clean-action estimate들의 variance를 future action별 stability proxy로 사용해, 안정적인 action prefix만 실행하고 고분산 구간 전에 replan
KoreanVLAinference-time - PointAction: 3D Points as Universal Action Representations for Robot Control
pretrained video diffusion model이 RGB뿐 아니라 temporally consistent XYZ pointmap까지 생성하게 만들고, 이 3D point dynamics를 embodiment-specific diffusion action decoder가 action chunk로 변환
KoreanWAMfine-tuning - See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs
VLA executor가 coarse goal과 full image에서 “무엇을 할지/무엇을 볼지”를 스스로 추론하지 않도록 goal-preserving local language와 learned visual evidence budget을 함께 학습시키는 planner-executor VLA generalization framework
KoreanVLAfine-tuning - 3. Nsight Systems profiling & further optimization
Nsight Systems를 이용해서 bottleneck 지점을 더 정확하게 찾고 원인 분석 및 최적화
KoreanPythonProfilingNsight Systems - Continuous Reasoning for Vision-Language-Action
VLA의 reasoning을 자연어 CoT가 아니라, 다른 VLA instance도 consume할 수 있는 WAE-regularized Gaussian continuous reasoning interface로 정의
KoreanVLAreasoning - PACE: Phase-Aware Chunk Execution for Robot Policies with Action Chunking
action chunking robot policy에서 고정 execution horizon 대신, predicted action chunk의 low-speed valley를 phase boundary로 사용해 매 query마다 실행 길이를 동적으로 선택하는 training-free test-time execution 방법
KoreanVLAinference-time - VLAMotor: Test-Guided Enhancement of Vision-Language-Action Models via Agent-Based Data Synthesis
training distribution에서 멀고 서로 중복되지 않는 테스트 케이스로 VLA 실패를 적극적으로 찾고, 그 실패 trajectory를 VLM agent가 성공 trajectory로 고쳐 fine-tuning data로 쓰는 failure-driven VLA enhancement framework
KoreanVLAfine-tuning - τ0-WM: A Unified Video-Action World Model for Robotic Manipulation
action generation, video prediction, action-conditioned evaluation을 하나의 shared video diffusion backbone 위에서 통합한 manipulation framework
KoreanWAMFoundation Model - Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
Qwen3.5 VLM + DiT flow-matching action decoder / embodiment-aware prompt / joint pretraining → generalist VLA (manipulation, navigation, human egocentric motion, trajectory prediction)
KoreanVLAFoundation Model - 0. VAE(Variational AutoEncoder)
DDPM의 variational perspective를 이해하는 데 필요한 VAE의 핵심 개념을 정리
KoreanWriting - ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models
VLA가 매 control step마다 전부 “생각”하지 않고, 현재 로봇 phase가 안정적인지/민감한지를 보고 Vision-LLM과 action head 계산을 동적으로 재사용하는 plug-in inference scheduler
KoreanVLA - SANTS: A State-Adaptive Scheduler for World Action Models
WAM이 매번 미래 영상을 끝까지 denoise하지 않고, 현재 로봇 상태에 따라 “여기서 멈출지”와 “얼마나 크게 건너뛸지”를 결정해 full-denoising WAM 대비 success-latency tradeoff를 개선하는 state-adaptive video denoising scheduler
KoreanWAM - A Factory-Floor Deployment Case Study of VLA Pipelines for Industrial Packaging Task: Workflow, Failures, and Lessons
데이터 수집·teleoperation·runtime·failure analysis 루프를 설계해서 pretrained π0.5를 실제 공장 포장 작업에 배포하는 시도, 그리고 거기서 얻은 교훈들
Koreanreal-worldVLA - HyperSim: A Holistic Sim-To-Real Framework For Robust Robotic Manipulation
더 현실적인 시뮬레이션 + 더 다양한 recovery trajectory + 소량 real data co-training → zero-shot/few-shot sim-to-real 성능 향상
Koreansim2realVLA - 2. Shallow-π Baseline Latency Check
Profiling tool들을 사용하기 전에 profiler 없는 순수 latency를 먼저 확인
KoreanPythonProfiling - C++ Coding Test Pitfalls
A concise collection of common C++ mistakes and debugging notes from algorithmic problem-solving practice.
EnglishC++Writing - SMoDP: Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation
Diffusion policy의 MoE router를 skill-aware하게 만들어 multi-task manipulation에서 expert를 의미 있는 skill 단위로 재사용하게 만든다
KoreanMoEmulti-taskDiffusion Policy - OpenPI
ChatGPT랑 codex를 이용해서 openpi 레포지토리 분석하게 시켜보기
KoreanGraduate School - Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs
π0-style flow-matching dVLA의 replanning latency를 lightweight draft와 flow-consistency verification으로 줄이는 speculative inference framework
KoreanVLA - DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies
fresh observation에서 나온 action이 stale observation에서 나온 action보다 선호된다는 label-free preference pair를 이용해서 async VLA의 delay-robustness를 높이는 offline post-training 방법
KoreanVLAWriting - 1. Shallow-π implementation
π0 distillation을 통해 Shallow-π 구현 완료
KoreanPython - OxyGen: Unified KV Cache Management for VLA Inference under Multi-Task Parallelism
MoT VLA에서 action과 language task가 공유하는 observation KV cache를 통합 관리해 중복 prefill과 resource contention을 줄이고 action frequency와 language throughput을 동시에 높이는 inference system
KoreanVLA