← Back to main
Exp14 BBox Navigation Comparison
동일한 BBox 기반 네비게이션 계열을 한 페이지에서 비교합니다. 지금 기준 결론은 두 단계입니다.
첫째, Exp10 checkpoint의 free-form BBox generation은 degenerate라 rule tuning으로는 거의 못 올립니다.
둘째, 그 대신 Step 1은 68.4%, Step 2는 75.9%까지 올라가며 현재 가장 강한 실용 baseline이 됐습니다.
Step 0
31.1%
Pure HF Kosmos-2 grounding + fixed rule
Step 0-B
34.4%
Exp10 ckpt grounding + fixed rule
Step 1
68.4%
BBox feature MLP, history=3
Step 2
75.9%
BBox + 16x16 image feature MLP
Reference
Exp11 PM 58.6%는 현재 남아 있는 기존 학습형 기준점입니다. Exp14 Step 2가 이를 가장 크게 넘어섰습니다.
즉 현재 Pages 기준 공식 비교는 Exp11 58.6% vs Step 2 75.9%입니다. same-split direct compare는 별도 빠른 검증 트랙으로 추가 중입니다.
재현성 실험
재현성 실험은 기존에 본 Step 2 우세가 다시 나오는지를 빠르게 확인하는 트랙입니다.
현재 Pages에 올라간 quick repro는 seed 0 / 8 epoch만 다시 돌린 5분 컷 smoke check이고,
정식 최종 수치가 아니라 split 민감도를 보는 보조 진단으로만 해석합니다.
가장 최신 실험
최신 실험의 목적은 성능 튜닝보다 원인 분리입니다.
공식 비교는 Exp11 58.6%와 Step 2 75.9%로 두고,
same-split direct compare, quick repro, 체크포인트 혼선 여부는 별도 검증 트랙으로 분리해 관리합니다.
핵심 판정
1. Step 0-B는 64.4%가 아니라 34.4%입니다. 초기 고득점은 BBox 없음 → default FORWARD로 잘못 매핑된 허수였습니다.
2. Exp10 checkpoint는 free-form generation에서 patch_index가 0 또는 1023 근처로 붕괴합니다. teacher-forced score와 generation quality가 다릅니다.
3. Step 1은 68.4%, Step 2는 75.9%로 모두 Exp11 58.6%를 넘었습니다. 현재 실용적인 baseline은 Step 2입니다.
Overall Comparison
| 실험 | PM | 설정 | 현재 해석 |
| Step 0 | 31.11% | Pure HF grounding + fixed rule | 학습 없는 최저 baseline |
| Step 0-B | 34.44% | Exp10 grounding + fixed rule | generation degenerate, 미미한 개선 |
| Step 0-C | 64.44% | 기존 summary에 남아 있는 old tuning artifact | 현재는 신뢰하지 않음 |
| Step 1 | 68.35% | BBox feature MLP | 현재 최고 성능 |
| Step 2 | 75.95% | BBox + low-res image feature MLP | 현재 최강 baseline |
| Exp11 | 58.62% | 학습형 action baseline | 기존 기준점 |
| Exp04 | 0% | Google-Robot policy ckpt inference | FWD+L/FWD+R collapse |
Path-wise Comparison
| Path Type | Step 0 | Step 0-B | Step 1 | Step 2 | 2 - 1 |
| center_straight | 60.0% | 50.0% | 100.0% | 85.7% | -14.3p |
| center_left | 40.0% | 20.0% | 44.4% | 66.7% | +22.3p |
| center_right | 10.0% | 40.0% | 38.9% | 44.4% | +5.5p |
| left_straight | 40.0% | 40.0% | 77.8% | 88.9% | +11.1p |
| left_left | 30.0% | 40.0% | 73.7% | 78.9% | +5.2p |
| left_right | 0.0% | 40.0% | 68.4% | 84.2% | +15.8p |
| right_straight | 40.0% | 20.0% | 88.9% | 88.9% | 0p |
| right_left | 40.0% | 30.0% | 66.7% | 83.3% | +16.6p |
| right_right | 20.0% | 30.0% | 62.5% | 62.5% | 0p |
왜 Step 0-B가 무너졌나
Exp10의 val_loss 0.012와 IoU 0.87은 teacher-forced token scoring 성격이 강했습니다.
하지만 실제 free-form generation으로 patch index를 뽑으면 bbox 중심이 거의 항상 0.02 또는 0.98로 튀어,
rule 단계에서 의미 있는 spatial control이 안 됐습니다.
왜 Step 2가 더 올라갔나
Step 1이 bbox history만 썼다면, Step 2는 여기에 16x16 grayscale image feature를 붙였습니다.
그 결과 특히 center_left, left_right, right_left 같은 애매한 케이스가 더 올라갔고,
시각 정보가 bbox만으로 부족한 구간을 보완하는 효과가 확인됐습니다.
샘플 확인 경로
주의
Step 0 / 0-B는 동일한 90-frame 샘플 집합입니다. Step 1은 episode-level 80/20 split에서 나온 158-sample test set입니다.
따라서 Step 1이 가장 강하다는 방향성은 유효하지만, 완전 동일 split의 apples-to-apples 비교는 아닙니다.
현재 Pages의 공식 기준은
Exp11 58.6%와
Step 2 75.9% 비교이며,
same-split direct compare와 quick repro는 별도 보조 검증으로 취급합니다.
5분 컷 smoke check로 만든
Step 2 Quick Repro는
seed0 / 8 epoch만 돌린 값이라,
정식 재현성 지표가 아니라 "새 split에서 빠르게 다시 학습했을 때 민감도가 크다"는 경고로 읽어야 합니다.
또한
Step 0-C summary의 64.4%는 현재 비교 표준에서 제외하고, 재생성 전까지는 참고치로만 취급해야 합니다.
소스