← Back to main

Exp14 BBox Navigation Comparison

동일한 BBox 기반 네비게이션 계열을 한 페이지에서 비교합니다. 지금 기준 결론은 두 단계입니다. 첫째, Exp10 checkpoint의 free-form BBox generation은 degenerate라 rule tuning으로는 거의 못 올립니다. 둘째, 그 대신 Step 1은 68.4%, Step 2는 75.9%까지 올라가며 현재 가장 강한 실용 baseline이 됐습니다.

Step 0
31.1%
Pure HF Kosmos-2 grounding + fixed rule
Step 0-B
34.4%
Exp10 ckpt grounding + fixed rule
Step 1
68.4%
BBox feature MLP, history=3
Step 2
75.9%
BBox + 16x16 image feature MLP
Reference
Exp11 PM 58.6%는 현재 남아 있는 기존 학습형 기준점입니다. Exp14 Step 2가 이를 가장 크게 넘어섰습니다.
즉 현재 Pages 기준 공식 비교는 Exp11 58.6% vs Step 2 75.9%입니다. same-split direct compare는 별도 빠른 검증 트랙으로 추가 중입니다.

재현성 실험

재현성 실험은 기존에 본 Step 2 우세가 다시 나오는지를 빠르게 확인하는 트랙입니다. 현재 Pages에 올라간 quick repro는 seed 0 / 8 epoch만 다시 돌린 5분 컷 smoke check이고, 정식 최종 수치가 아니라 split 민감도를 보는 보조 진단으로만 해석합니다.

가장 최신 실험

최신 실험의 목적은 성능 튜닝보다 원인 분리입니다. 공식 비교는 Exp11 58.6%Step 2 75.9%로 두고, same-split direct compare, quick repro, 체크포인트 혼선 여부는 별도 검증 트랙으로 분리해 관리합니다.

핵심 판정

1. Step 0-B는 64.4%가 아니라 34.4%입니다. 초기 고득점은 BBox 없음 → default FORWARD로 잘못 매핑된 허수였습니다.
2. Exp10 checkpoint는 free-form generation에서 patch_index가 0 또는 1023 근처로 붕괴합니다. teacher-forced score와 generation quality가 다릅니다.
3. Step 1은 68.4%, Step 2는 75.9%로 모두 Exp11 58.6%를 넘었습니다. 현재 실용적인 baseline은 Step 2입니다.

Overall Comparison

실험PM설정현재 해석
Step 031.11%Pure HF grounding + fixed rule학습 없는 최저 baseline
Step 0-B34.44%Exp10 grounding + fixed rulegeneration degenerate, 미미한 개선
Step 0-C64.44%기존 summary에 남아 있는 old tuning artifact현재는 신뢰하지 않음
Step 168.35%BBox feature MLP현재 최고 성능
Step 275.95%BBox + low-res image feature MLP현재 최강 baseline
Exp1158.62%학습형 action baseline기존 기준점
Exp040%Google-Robot policy ckpt inferenceFWD+L/FWD+R collapse

Path-wise Comparison

Path TypeStep 0Step 0-BStep 1Step 22 - 1
center_straight60.0%50.0%100.0%85.7%-14.3p
center_left40.0%20.0%44.4%66.7%+22.3p
center_right10.0%40.0%38.9%44.4%+5.5p
left_straight40.0%40.0%77.8%88.9%+11.1p
left_left30.0%40.0%73.7%78.9%+5.2p
left_right0.0%40.0%68.4%84.2%+15.8p
right_straight40.0%20.0%88.9%88.9%0p
right_left40.0%30.0%66.7%83.3%+16.6p
right_right20.0%30.0%62.5%62.5%0p

왜 Step 0-B가 무너졌나

Exp10의 val_loss 0.012IoU 0.87은 teacher-forced token scoring 성격이 강했습니다. 하지만 실제 free-form generation으로 patch index를 뽑으면 bbox 중심이 거의 항상 0.02 또는 0.98로 튀어, rule 단계에서 의미 있는 spatial control이 안 됐습니다.

왜 Step 2가 더 올라갔나

Step 1이 bbox history만 썼다면, Step 2는 여기에 16x16 grayscale image feature를 붙였습니다. 그 결과 특히 center_left, left_right, right_left 같은 애매한 케이스가 더 올라갔고, 시각 정보가 bbox만으로 부족한 구간을 보완하는 효과가 확인됐습니다.

샘플 확인 경로

주의
Step 0 / 0-B는 동일한 90-frame 샘플 집합입니다. Step 1은 episode-level 80/20 split에서 나온 158-sample test set입니다. 따라서 Step 1이 가장 강하다는 방향성은 유효하지만, 완전 동일 split의 apples-to-apples 비교는 아닙니다. 현재 Pages의 공식 기준은 Exp11 58.6%Step 2 75.9% 비교이며, same-split direct compare와 quick repro는 별도 보조 검증으로 취급합니다. 5분 컷 smoke check로 만든 Step 2 Quick Reproseed0 / 8 epoch만 돌린 값이라, 정식 재현성 지표가 아니라 "새 split에서 빠르게 다시 학습했을 때 민감도가 크다"는 경고로 읽어야 합니다. 또한 Step 0-C summary의 64.4%는 현재 비교 표준에서 제외하고, 재생성 전까지는 참고치로만 취급해야 합니다.

소스

Step 0 summary.json
Step 0-B summary.json
Step 1 summary.json
Step 2 summary.json
Step 2 quick repro summary.json
Step 1 bbox_dataset.json
Exp11 PM 58.62 source