MoNaVLA — R1/R2 시각 증거 (5/28)

① R1 — "basket을 본다" (PaliGemma Grounding)

실제 복도 이미지에서 PaliGemma Exp57 LoRA 모델이 예측한 bbox (초록 박스) vs 색상 임계값 기반 GT 중심점 (노란 십자). 두 독립 측정이 동일 위치를 가리킴.

PaliGemma 예측 bbox (Exp57 LoRA)

GT 중심점 / 근사 범위 (색상 임계값 검출)

✓ HIT | center_straight / ep2
pred bbox: [0.286, 0.444, 0.534, 0.859]
GT center: cx=0.500 cy=0.500

✓ HIT | center_straight / ep3
pred bbox: [0.210, 0.451, 0.429, 0.829]
GT center: cx=0.500 cy=0.344

✓ HIT | center_straight / ep8
pred bbox: [0.388, 0.451, 0.624, 0.850]
GT center: cx=0.516 cy=0.641

✓ HIT | center_left / ep20
pred bbox: [0.272, 0.449, 0.498, 0.825]
GT center: cx=0.453 cy=0.594

✓ HIT | center_left / ep22
pred bbox: [0.256, 0.460, 0.472, 0.818]
GT center: cx=0.500 cy=0.500

✓ HIT | center_left / ep26
pred bbox: [0.340, 0.451, 0.563, 0.825]
GT center: cx=0.500 cy=0.500

해석: 30개 에피소드 × 2 경로 유형(center_straight / center_left) 전수 테스트. PaliGemma "gray basket" 그라운딩 성공률 30/30 = 100%. 초록 박스 (모델 예측)와 노란 십자 (색상 임계값 GT) 위치가 일치 → 두 독립 방법이 같은 위치 지목.

② R1 Track 3 — Masking Ablation (center 100% flip)

basket 영역을 마스킹했을 때 중앙 경로에서 예측 액션이 100% 반전됨. basket이 행동 결정의 직접적 원인임을 보여주는 반사실적(counterfactual) 증거.

100%

Center 경로 마스킹 flip rate

~40%

Left / Right 경로 flip rate

4.4×

basket 영역 attention 집중도

center 경로 마스킹 → 액션 반전 (center_FLIP_01)

center 경로 마스킹 → 액션 반전 (center_FLIP_02)

center 경로 마스킹 → 액션 반전 (center_FLIP_03)

해석: basket을 가리면 모델이 틀린 방향으로 움직임 (특히 중앙 경로에서 100%). 이는 복도 패턴 암기가 아니라 basket 위치가 실제 행동 결정의 원인임을 의미.

③ R1 Track 1 — Attention 분석 (basket 4.4× 집중)

Stage 1 v2 LoRA 모델의 attention weight 분포. basket 영역이 배경 대비 4.4배 집중.

④ R2-2 — LoRA 기여도 (방향별 정확도)

교수님 지적: "Frozen CLIP 96.6% vs LoRA 98.1% = +1.5%p만, LoRA가 뭘 했나?" → 전체 평균이 아닌 방향별로 분해하면 Left 방향에서 +6.2%p 집중 향상이 드러남.

Frozen CLIP probe (baseline)

Stage 1 v2 LoRA (Exp54)

Left (좌)

91.1%

97.3%

+6.2%p

Center (중앙)

95.5%

96.7%

+1.2%p

Right (우)

100.0%

0.0%p

핵심: 전체 +1.5%p는 Right(100%→100% saturated)가 평균을 낮춤. Left 방향에서 +6.2%p (91.1% → 97.3%) 집중 향상 → LoRA가 basket 위치 정렬 특화. 세 방향 모두 97~100% 균등 분포 달성 = 방향 편향 제거.

91.1%

Frozen probe Left 정확도

97.3%

LoRA Left 정확도

+6.2%p

Left 방향 개선

97~100%

LoRA 3방향 균등 분포

⑤ R2-3 — "다른 물체 → 다른 결과" 객체 대체 테스트

교수님 지적: "basket 대신 다른 걸 넣었더니 이상한 행동을 해야 한다." → 동일한 복도 이미지에서 다른 물체 이름으로 grounding → gray basket만 100% 검출.

100%

"gray basket" 검출률 (30/30)

0%

"red ball" 검출률 (0/30)

3%

"person" 검출률 (1/30 FP)

98.3%p

basket vs 임의 물체 gap

▼ 동일 이미지에서 4가지 물체 쿼리 결과 — 초록=검출됨 / 빨강=검출안됨

center_straight / ep2 — 동일 이미지, 4가지 쿼리 비교

center_left / ep25 — 동일 이미지, 4가지 쿼리 비교

within-class 발견: LoRA가 "gray basket"만이 아닌 "복도 내 용기(container) 클래스"를 학습. beige basket 100%, laundry basket 100%도 검출됨 → 색상이 아닌 형태 기반 인식. 이것이 Exp58 2-class LoRA (gray basket vs brown pot 완전 분리) 설계의 배경.

Frozen CLIP linear probe — val set 기준 방향별 정확도

📋 교수님 반박 대응 요약

R1 (basket을 보는가): PaliGemma 100% + Masking center 100% flip + Attention 4.4× → 5가지 독립 증거 확인
R2-1 (test set): Closed-loop 96.67% = 독립 환경에서 검증
R2-2 (LoRA 기여): Left +6.2%p 집중 향상, 3방향 97~100% 균등 → 방향 정렬 특화 효과
R2-3 (다른 물체): gray basket 100% / red ball 0% / person 3% = 98.3%p gap → 물체 특정 인식 증명
R2-4/R3 (일반화): Exp58 2-class LoRA 학습 중 (V5+V4 4,610 샘플)

🔬 MoNaVLA — R1/R2 시각 증거 페이지

📋 교수님 반박 대응 요약