Fig 5 — End-to-End VLA vs Decomposition 최종 비교

Exp11(end-to-end VLA), Step2(초기 decomposition), Exp49(최종 decomposition)의 closed-loop 결과 전체 비교.

원본 그래프

Exp11 CL 성공률

66.7%

Step2 CL 성공률

100%

Exp49 CL 성공률

×18

FPE 개선 (1.45m→0.08m)

경로 타입별 Closed-Loop 상세 (FPE)

경로	Exp11	Step2	Exp49
중앙 직진	✗ 1.72m	✗ 0.95m	✓ 0.10m
중앙→좌	✗ 1.85m	✓ 0.36m	✓ 0.08m
중앙→우	✗ 1.14m	✓ 0.23m	✓ 0.04m
좌 직진	✗ 1.19m	✓ 0.23m	✓ 0.00m
좌→좌	✗ 1.80m	✓ 0.21m	✓ 0.11m
좌→우	✗ 1.18m	✓ 0.38m	✓ 0.12m
우 직진	✗ 1.26m	✓ 0.34m	✓ 0.00m
우→좌	✗ 1.91m	✗ 0.52m	✓ 0.00m
우→우	✗ 1.03m	✗ 1.77m	✓ 0.32m

💡 왜 decomposition이 압도적으로 유리한가:
End-to-end는 VLM의 text path가 이미 붕괴되어(text attn=0%) 공간 정보를 제대로 활용하지 못한다. Decomposition은 VLM이 이미 잘 인코딩한 spatial feature(bbox cx/cy/area)를 명시적으로 꺼내 작은 MLP에 전달하기 때문에 VLM의 내부 spatial representation을 직접 활용할 수 있다.