Track 3 — Basket Masking Before/After

Stage 1 v2 모델에 원본 프레임과 basket 영역을 회색으로 가린 프레임을 각각 입력해서
모델 예측(left/center/right)이 바뀌는지 확인. 예측이 바뀌면 → 모델이 basket 영역을 보고 있다는 인과 증거.

🔬 실험 방법

원본 프레임 선택: bbox_dataset_frame_level.json에서 consistent=True, area_det ≥ 최소 면적 프레임

basket 위치 특정: HSV 탐지(left/right) 또는 Kosmos-2 bbox cx(center)로 구한 cx_det, cy_det, area_det 사용

마스킹: basket 중심에서 bbox 크기 × 1.8배 영역을 회색(90,90,90)으로 덮음

Stage 1 v2 입력: 원본/마스킹 각각 → frozen Kosmos-2 CLIP → image_proj → cosine similarity 3방향 비교

판정: 예측이 바뀌면 "basket을 보고 있었다" (FLIP), 안 바뀌면 "basket 외 정보로 분류" (stable)

왼쪽 (Left) — 0/4 FLIP

✅ STABLE — 예측 유지 cx=0.16 basket_area=1.0% 원본예측=left

basket 영역(이미지의 1.0%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

✅ STABLE — 예측 유지 cx=0.39 basket_area=28.8% 원본예측=left

basket 영역(이미지의 28.8%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

✅ STABLE — 예측 유지 cx=0.42 basket_area=30.8% 원본예측=left

basket 영역(이미지의 30.8%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

✅ STABLE — 예측 유지 cx=0.39 basket_area=22.3% 원본예측=left

basket 영역(이미지의 22.3%)을 회색으로 가렸을 때: 원본과 동일하게 "left" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

중앙 (Center) — 6/6 FLIP

🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center

basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "right"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center

basket 영역(이미지의 75.7%)을 회색으로 가렸을 때: "center" → "left"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

🔄 FLIP — 예측 반전! cx=0.50 basket_area=78.7% 원본예측=center

basket 영역(이미지의 78.7%)을 회색으로 가렸을 때: "center" → "left"로 반전.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

🔄 FLIP — 예측 반전! cx=0.50 basket_area=75.7% 원본예측=center

오른쪽 (Right) — 0/4 FLIP

✅ STABLE — 예측 유지 cx=0.87 basket_area=0.5% 원본예측=right

basket 영역(이미지의 0.5%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

✅ STABLE — 예측 유지 cx=0.85 basket_area=1.4% 원본예측=right

basket 영역(이미지의 1.4%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

✅ STABLE — 예측 유지 cx=0.87 basket_area=1.2% 원본예측=right

basket 영역(이미지의 1.2%)을 회색으로 가렸을 때: 원본과 동일하게 "right" 유지.
왼쪽: 원본 프레임 + 녹색 박스(basket 위치) + confidence 바 + 어텐션 맵
오른쪽: 마스킹 후 프레임 + 빨간 박스(가려진 영역) + confidence 바 + 어텐션 맵

✅ STABLE — 예측 유지 cx=0.83 basket_area=1.2% 원본예측=right

Track 3 — Basket Masking Ablation: Before / After 비교

🔬 실험 방법