Track 3 — Basket Masking Ablation: Before / After 비교

Stage 1 v2 모델에 원본 프레임basket 영역을 회색으로 가린 프레임을 각각 입력해서
모델 예측(left/center/right)이 바뀌는지 확인. 예측이 바뀌면 → 모델이 basket 영역을 보고 있다는 인과 증거.

🔬 실험 방법

1
원본 프레임 선택: bbox_dataset_frame_level.json에서 consistent=True, area_det ≥ 최소 면적 프레임
2
basket 위치 특정: HSV 탐지(left/right) 또는 Kosmos-2 bbox cx(center)로 구한 cx_det, cy_det, area_det 사용
3
마스킹: basket 중심에서 bbox 크기 × 1.8배 영역을 회색(90,90,90)으로 덮음
4
Stage 1 v2 입력: 원본/마스킹 각각 → frozen Kosmos-2 CLIP → image_proj → cosine similarity 3방향 비교
5
판정: 예측이 바뀌면 "basket을 보고 있었다" (FLIP), 안 바뀌면 "basket 외 정보로 분류" (stable)
왼쪽 (Left) — 0/4 FLIP
✅ STABLE — 예측 유지 cx=0.16 basket_area=1.0% 원본예측=left
before/after left
basket 영역(이미지의 1.0%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
✅ STABLE — 예측 유지 cx=0.39 basket_area=28.8% 원본예측=left
before/after left
basket 영역(이미지의 28.8%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
✅ STABLE — 예측 유지 cx=0.42 basket_area=30.8% 원본예측=left
before/after left
basket 영역(이미지의 30.8%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
✅ STABLE — 예측 유지 cx=0.39 basket_area=22.3% 원본예측=left
before/after left
basket 영역(이미지의 22.3%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
중앙 (Center) — 6/6 FLIP
🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center
before/after center
basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "right"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center
before/after center
basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "left"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
🔄 FLIP — 예측 반전! cx=0.50 basket_area=78.7% 원본예측=center
before/after center
basket 영역(이미지의 78.7%)을 회색으로 가렸을 때: "center" → "left"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center
before/after center
basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "left"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center
before/after center
basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "right"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center
before/after center
basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "left"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
오른쪽 (Right) — 0/4 FLIP
✅ STABLE — 예측 유지 cx=0.87 basket_area=0.5% 원본예측=right
before/after right
basket 영역(이미지의 0.5%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
✅ STABLE — 예측 유지 cx=0.85 basket_area=1.4% 원본예측=right
before/after right
basket 영역(이미지의 1.4%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
✅ STABLE — 예측 유지 cx=0.87 basket_area=1.2% 원본예측=right
before/after right
basket 영역(이미지의 1.2%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
✅ STABLE — 예측 유지 cx=0.83 basket_area=1.2% 원본예측=right
before/after right
basket 영역(이미지의 1.2%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵
결론: center 방향에서 basket area가 클수록 FLIP 비율 높음 → basket 영역이 예측에 인과적 영향.
left/right는 basket area ~0.5~1.5%로 너무 작아 마스킹 효과 미미 → 전체 이미지 구성으로 분류.
그러나 Track 2(frozen probe 96.6%)에서 이 전체 이미지 구성 자체가 basket 위치와 강하게 상관됨을 확인.