← 전체 연구 여정으로

Fig 5 — End-to-End VLA vs Decomposition 최종 비교

Exp11(end-to-end VLA), Step2(초기 decomposition), Exp49(최종 decomposition)의 closed-loop 결과 전체 비교.

원본 그래프

fig5
0%
Exp11 CL 성공률
66.7%
Step2 CL 성공률
100%
Exp49 CL 성공률
×18
FPE 개선 (1.45m→0.08m)

경로 타입별 Closed-Loop 상세 (FPE)

경로 Exp11 Step2 Exp49
중앙 직진✗ 1.72m✗ 0.95m✓ 0.10m
중앙→좌✗ 1.85m✓ 0.36m✓ 0.08m
중앙→우✗ 1.14m✓ 0.23m✓ 0.04m
좌 직진✗ 1.19m✓ 0.23m✓ 0.00m
좌→좌✗ 1.80m✓ 0.21m✓ 0.11m
좌→우✗ 1.18m✓ 0.38m✓ 0.12m
우 직진✗ 1.26m✓ 0.34m✓ 0.00m
우→좌✗ 1.91m✗ 0.52m✓ 0.00m
우→우✗ 1.03m✗ 1.77m✓ 0.32m
💡 왜 decomposition이 압도적으로 유리한가:
End-to-end는 VLM의 text path가 이미 붕괴되어(text attn=0%) 공간 정보를 제대로 활용하지 못한다. Decomposition은 VLM이 이미 잘 인코딩한 spatial feature(bbox cx/cy/area)를 명시적으로 꺼내 작은 MLP에 전달하기 때문에 VLM의 내부 spatial representation을 직접 활용할 수 있다.