T-Rex: Tactile-Reactive Dexterous Manipulation

tactile-free human egocentric pretraining으로 얻은 visuomotor prior를 tactile-rich robot mid-training으로 contact dynamics에 맞춘 뒤, slow action expert와 fast tactile expert를 cascaded flow matching으로 연결해 action chunk 내부에서도 tactile feedback에 반응하는 tactile-reactive dexterous VLA

Overview Figure

t-rex_overview t-rex_overview_2

Summary

  1. 기존 VLA / dexterous manipulation policy는 대부분 vision 중심이라 force variation, micro-slip, deformation 같은 tactile signal을 충분히 활용하지 못하고, tactile을 넣더라도 static encoder나 task-specific imitation learning에 머무르는 문제가 있다.
  2. T-Rex는 contact-rich dexterous manipulation에서 필요한 high-frequency tactile reaction을 foundation-style VLA에 통합하는 문제를 다룬다.
  3. 핵심 아이디어는 tactile-free human egocentric video pretraining으로 broad visuomotor prior를 얻고, 100h tactile-synchronized robot data로 tactile-grounded mid-training을 수행한 뒤, inference에서는 slow action expert와 fast tactile expert를 cascaded flow matching으로 연결하는 것이다.
  4. 모델은 latent expert, action expert, tactile expert로 구성된 Mixture-of-Transformer-Experts (MoT) 구조이며, action expert는 약 5 Hz로 coarse action chunk를 만들고 tactile expert는 약 20 Hz로 cached visual-language context를 재사용해 tactile-conditioned refinement를 수행한다.
  5. 실험에서는 12개 real-world tactile-reactive task에서 평균 성공률 65%를 기록해 가장 강한 baseline인 EgoScale 35%보다 +30 percentage points 높았지만, screw lightbulb, open lock, extract card, apply toothpaste 같은 tight contact / force-sensitive / long-horizon task에서는 object collision, slipping, excessive force, sliding misalignment가 여전히 남아 있다.