Exp09와 Exp11의 8-class 정책이 실제로 좌우 계열을 어떻게 예측하는지 빠르게 점검한 sanity benchmark 정리.
서버 환경은 2026-04-17 기준 CPU only였습니다. nvidia-smi 단계에서 드라이버를 못 잡았고, sanity 스크립트는 validation config 반영, 배치 추론, subset 집계를 지원하도록 확장된 상태였습니다.
Reference: check_v5_left_right_sanity.py
| Subset | GT | Prediction | Heuristic |
|---|---|---|---|
left_left | LEFT | RIGHT | right |
left_left | FWD+L | RIGHT | left |
right_right | RIGHT | RIGHT | none |
right_right | FWD+R | RIGHT | right |
Exp11의 문제는 단순 LEFT=0%가 아니라, left-side 계열을 right-side 계열로 접는 구조적 bias에 가깝습니다.
| Subset | GT | Prediction | Heuristic |
|---|---|---|---|
right_right | RIGHT | FWD+R | none |
right_right | FWD+R | FWD+R | right |
Exp09는 Exp11처럼 우측 모든 계열을 RIGHT로 접지는 않지만, FWD+R로 수렴하는 경향이 남아 있습니다.
현재 validation split 자체가 고정 benchmark가 아니라 실험마다 남는 샘플 분포가 다릅니다. heuristic basket detector도 none 비율이 높아서 판정용으로는 약합니다. 그래서 이 페이지의 sanity 결과는 발견용이고, 실제 채택 기준은 고정 benchmark split으로 넘어가야 합니다.