[Robot] Point trajectory를 이용한 Policy Learning

[Sep 3 2025] Robot Learning: Mingyu's class

Any-point Trajectory Modeling for Policy Learning

✅ 로봇 정책을 학습하려면 보통 action-labeled demonstration (상태+행동 짝 데이터)이 필요

✅ Idea : Action 라벨 없는 비디오로도, 로봇이 쓸만한 representation을 뽑아내서 policy 학습을 돕자

임의의 point를 집어넣으면, 그 point가 앞으로 어디로 움직일지 trajectory를 예측하는 모델을 학습.
이 trajectory 예측 능력이 곧 세계의 동역학/물리 이해로 이어짐.
- 컵 위 점을 추적하면 → 컵이 앞으로 어디로 갈지 앎
- 손 위 점을 추적하면 → 손의 궤적을 예측 가능
이렇게 학습된 모델을 통해, 비디오만 보고도 “object-level 동작 예측”이 가능해짐.
- 컵 위에 점을 찍음
- 이 점이 앞으로 어디로 이동해야 할지를 trajectory로 예측함
  - 예: 컵이 테이블에서 로봇 손 쪽으로 옮겨진다 → trajectory가 테이블에서 로봇 방향으로 움직임
- 로봇 policy는 “현재 비전 관찰 + 이 trajectory”를 입력으로 받아,
  이 trajectory를 따라가도록 로봇의 action을 결정함.

✅ 최종 Track Token 구성

위 세 가지 벡터를 합치거나(concatenation) 더한 뒤(linear fusion) 최종 임베딩을 얻음.
즉, track token은 **(좌표 위치 + 주변 시각 정보 + 시간 정보)**가 합쳐진 하나의 dense vector.
- (x, y) 좌표 → “이 포인트가 화면 어디에 있는지”
- 비주얼 특징 → “이 포인트가 어떤 물체/질감을 가진 영역인지”
- 시간 정보 → “이 포인트가 언제 등장한 것인지”

✅ Policy 학습 단계 (Stage 2)

Pre-training Point Trajectory Prediction Model (Stage 1)
- 인터넷/휴먼/로봇 action-free 비디오에서 trajectory 예측 모델(Track Transformer)을 학습.
- 이때는 action 라벨 전혀 필요 없음.
Policy learning (Stage 2)
- 이제 action-labeled demonstration은 아주 소량만 사용.
- 이때 policy network는:
  - 입력: 현재 프레임 + (ATM이 예측한 미래 trajectory)
  - 출력: 로봇의 action (예: end-effector 이동, gripper open/close 등)
- 즉, trajectory = sub-goal guidance 역할을 함.
  - 예: “컵 위 점은 앞으로 여기까지 이동해야 한다 → 따라서 로봇 팔을 이렇게 움직여야 한다”

✅ 결과적으로 데모 수를 확 줄이고도 높은 성공률의 로봇 조작 정책을 학습 가능.

[Robot] GR-2를 보고 정리하는 OOD (Out-Of-Distribution) setting (0)	2025.09.11
[Robot] GR-1: Video generation을 robot manipulation에 활용하기 (1)	2025.09.09
[Daily] Unified Reward Model for Multimodal Understanding and Generation (0)	2025.03.13