ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

대규모 egocentric human video를 robot-compatible pseudo-action으로 변환하고, camera-space action / morphology conditioning / time-aligned chunking / reliability-aware auxiliary loss를 결합해 human + robot + simulation 데이터를 함께 VLA pretraining에 쓰는 unified VLA pretraining framework

Overview Figure

ace-ego_overview ace-ego_overview_2 ace-ego_overview_3

Summary

  1. 기존 VLA 모델은 대규모 robot demonstration에 의존하지만, robot trajectory 수집은 비싸고 느리며, human egocentric video는 풍부하지만 robot action과 coordinate frame, embodiment, temporal frequency, label quality가 맞지 않는 문제가 있다.
  2. 이 논문은 human egocentric video와 multi-embodiment robot/simulation data를 하나의 VLA policy pretraining corpus로 통합하는 문제를 해결하려 한다.
  3. 핵심 아이디어는 human hand motion과 robot end-effector action을 모두 head-camera coordinate frame의 camera-space action으로 맞추고, robot URDF 또는 human surrogate embedding으로 morphology를 conditioning하며, dataset별 control frequency 차이를 physical time 기준 action chunk로 align하는 것이다.
  4. 모델은 Qwen3-VL-4B-Instruct를 vision-language backbone으로 사용하고, 약 600M parameter의 flow-matching DiT action expert가 morphology token과 VLM embedding을 받아 continuous action chunk를 생성한다.
  5. 실험에서는 4.53K hours robot/simulation data와 1.48K hours pseudo-action-labeled human data를 사용해 RoboCasa 72.8%, RoboTwin 2.0 Easy/Hard 91.12%/90.62%, real ARX bimanual tasks 평균 78.3%를 달성하며, human video 추가가 pretraining과 data-scarce fine-tuning 모두에서 성능을 끌어올린다고 주장한다.

Key Components

  • Unified VLA policy pretraining corpus 이 논문의 핵심은 human video, robot demonstrations, simulation rollouts를 단순히 하나의 dataloader에 섞은 것이 아니라, 하나의 VLA policy가 학습할 수 있는 공통 observation-action interface로 정렬했다는 점이다. Pretraining pool은 약 4.53K hours robot/simulation data + 1.48K hours pseudo-action-labeled egocentric human data로 구성되며, robot/simulation data는 sensor-logged action을 제공하고, human video는 vision pipeline으로 복원한 pseudo-action을 제공한다.

  • Head-camera coordinate frame의 camera-space action 서로 다른 robot dataset은 base frame, world frame, robot-specific frame 등 action coordinate convention이 다를 수 있다. ACE-EGO-0는 robot end-effector trajectory와 human hand pseudo-trajectory를 모두 head-camera coordinate frame으로 변환해, observation과 action이 같은 camera-centric coordinate system 안에 놓이도록 만든다. 즉 policy는 “이미지에서 보이는 장면 기준으로 어떻게 움직일지”를 배우고, deployment 시에는 예측된 camera-frame end-effector action을 camera extrinsic의 inverse transform으로 robot execution frame에 되돌려 실행한다.

  • Robot action과 human pseudo-action의 공통 action layout Robot data에서는 left/right end-effector pose, gripper, activity flag를 camera-space action으로 변환한다. Human video에서는 실제 robot end-effector가 없기 때문에, wrist joint를 proxy end-effector origin으로 쓰고, palm-plane orientation과 thumb-to-palm distance를 이용해 robot-compatible pseudo-action을 만든다. 최종 training action은 bimanual 기준 22D action vector로 정리되며, 각 arm은 3D position + 6D rotation + gripper + activity flag로 구성된다.

  • Spatial / structural / temporal alignment “하나의 corpus”가 되기 위해서는 action 좌표계만 맞추는 것으로 충분하지 않다. ACE-EGO-0는 세 축을 함께 맞춘다.
    1. Spatial alignment: 모든 action을 head-camera frame의 camera-space action으로 변환
    2. Structural alignment: robot은 URDF graph embedding, human source는 learned surrogate embedding으로 morphology token을 만들어 action expert에 condition
    3. Temporal alignment: dataset마다 control frequency가 다르므로 fixed step 수가 아니라 physical time 기준으로 action chunk horizon을 설정 즉, 같은 policy가 human / robot / sim trajectory를 볼 때 “어느 좌표계인가, 어떤 embodiment인가, 몇 초 뒤까지 예측하는가”가 최대한 일관되도록 만든다.
  • Morphology conditioning Camera-space action으로 좌표계를 맞춰도 robot마다 arm length, joint limit, kinematic chain이 다르다. 그래서 ACE-EGO-0는 robot source에는 URDF graph encoder로 만든 morphology token을 붙이고, human video source에는 learned human surrogate token을 붙인다. 중요한 점은 이 morphology token이 VLM backbone 전체를 바꾸는 것이 아니라, action expert의 decoding 단계에만 주입된다는 것이다. 덕분에 VLM은 embodiment-agnostic semantic representation을 유지하고, action expert가 embodiment-specific action generation을 담당한다.

  • Time-aligned action chunking 서로 다른 dataset이 10 Hz, 20 Hz, 30 Hz처럼 다른 control frequency로 수집되면, 같은 20-step action chunk라도 실제 물리 시간은 달라진다. ACE-EGO-0는 dataset별 frequency $f_d$와 target physical duration $T^{\star}$를 이용해 $H_{d} = \text{round}(f_{d} T^{\star})$로 action horizon을 정한다. 따라서 모든 dataset이 대략 같은 future physical window를 supervise하게 되고, mixed-source pretraining에서 temporal mismatch를 줄인다.

  • Reliability-aware human auxiliary loss Human pseudo-action은 robot sensor-logged action만큼 정확하지 않다. 특히 hand reconstruction 기반 rotation과 gripper proxy는 occlusion, tracking jitter, depth ambiguity에 취약하다. 그래서 robot/simulation sample은 primary flow-matching action loss로 학습하고, human sample은 reliability-aware auxiliary loss로만 넣는다. 이때 human supervision은 주로 wrist position channel에 집중되고, noisy한 rotation / gripper channel은 매우 약하게 반영된다. 핵심은 human video를 clean robot demonstration처럼 믿는 것이 아니라, broad but noisy auxiliary supervision으로 활용한다는 점이다.

  • Flow-matching VLA action expert 모델은 Qwen3-VL-4B-Instruct를 vision-language backbone으로 사용하고, 약 600M parameter의 flow-matching DiT action expert가 VLM embedding과 morphology token을 받아 continuous camera-space action chunk를 생성한다. 따라서 이 논문은 explicit world model이나 planner를 붙인 WAM 계열이라기보다는, large-scale mixed embodied data로 학습한 flow-based VLA policy pretraining framework에 가깝다.