핵심 발견
"Google-robot post-training이 text 경로를 완전히 붕괴시킴. LoRA/head-only 모두 복구 불가. 이것이 end-to-end VLA 실패의 구조적 원인."
Google-robot backbone: text attention 0.000% — 모든 24개 레이어에서 확인
Pure HF text
22.9%
정상 — 텍스트 주목
Google-robot text
0.000%
완전 붕괴
Google-robot image
91.7%
이미지만 봄
레이어별 Text Attention 비율 비교
── Pure HF Kosmos-2 (정상) ──────────────────────────────
Layer 0: image=73.8% text=26.2%
Layer 4: image=71.2% text=28.8%
Layer 12: image=78.9% text=21.1%
Layer 23: image=76.4% text=23.6%
Overall: image=77.1% text=22.9% ← 텍스트에 주목함
── Google-robot post-trained (붕괴) ─────────────────────
Layer 0: image=46.4% text=0.000% self=53.6%
Layer 4: image=62.1% text=0.000% self=37.9%
Layer 12: image=89.3% text=0.000% self=10.7%
Layer 23: image=94.2% text=0.000% self=5.8%
Overall: image=91.7% text=0.000% ← 텍스트를 완전히 무시
측정: scripts/measure_attention.py (Exp15, Exp41 등 다수 확인)
의미: Google-robot 사전 학습이 텍스트 경로를 붕괴시켜, LoRA로 텍스트를 주입해도
attention 가중치가 0에서 올라오지 않습니다. Exp15(head-only), Exp39(last-4 LoRA) 모두 동일.
이것이 end-to-end VLA에서 instruction이 무시되는 구조적 원인입니다.
해결책 (Exp49): 텍스트 → LLM attention 경로를 포기하고, 대신
Kosmos-2 grounding(물체 위치 cx,cy,area)으로 변환. 표현이 달라도 같은 물체면 같은 좌표 → 같은 행동.
이 방식으로 paraphrase 100% 달성.