← Back to main

Exp14 BBox Navigation Comparison

동일한 BBox 기반 네비게이션 계열을 한 페이지에서 비교합니다. 지금 기준 결론은 두 단계입니다. 첫째, Exp10 checkpoint의 free-form BBox generation은 degenerate라 rule tuning으로는 거의 못 올립니다. 둘째, 그 대신 Step 1은 68.4%, Step 2는 75.9%까지 올라가며 현재 가장 강한 실용 baseline이 됐습니다.

Step 0 Detail Step 0-B Detail Step 0-C Detail Step 1 Detail Step 2 Detail Step 2 Quick Repro V5 Dashboard V5 Dev Log

Step 0

31.1%

Pure HF Kosmos-2 grounding + fixed rule

Step 0-B

34.4%

Exp10 ckpt grounding + fixed rule

Step 1

68.4%

BBox feature MLP, history=3

Step 2

75.9%

BBox + 16x16 image feature MLP

Reference

Exp11 PM 58.6%는 현재 남아 있는 기존 학습형 기준점입니다. Exp14 Step 2가 이를 가장 크게 넘어섰습니다.

즉 현재 Pages 기준 공식 비교는 Exp11 58.6% vs Step 2 75.9%입니다. same-split direct compare는 별도 빠른 검증 트랙으로 추가 중입니다.

재현성 실험

재현성 실험은 기존에 본 Step 2 우세가 다시 나오는지를 빠르게 확인하는 트랙입니다. 현재 Pages에 올라간 quick repro는 seed 0 / 8 epoch만 다시 돌린 5분 컷 smoke check이고, 정식 최종 수치가 아니라 split 민감도를 보는 보조 진단으로만 해석합니다.

가장 최신 실험

최신 실험의 목적은 성능 튜닝보다 원인 분리입니다. 공식 비교는 Exp11 58.6%와 Step 2 75.9%로 두고, same-split direct compare, quick repro, 체크포인트 혼선 여부는 별도 검증 트랙으로 분리해 관리합니다.

핵심 판정

1. Step 0-B는 64.4%가 아니라 34.4%입니다. 초기 고득점은 BBox 없음 → default FORWARD로 잘못 매핑된 허수였습니다.
2. Exp10 checkpoint는 free-form generation에서 patch_index가 0 또는 1023 근처로 붕괴합니다. teacher-forced score와 generation quality가 다릅니다.
3. Step 1은 68.4%, Step 2는 75.9%로 모두 Exp11 58.6%를 넘었습니다. 현재 실용적인 baseline은 Step 2입니다.

Overall Comparison

실험	PM	설정	현재 해석
Step 0	31.11%	Pure HF grounding + fixed rule	학습 없는 최저 baseline
Step 0-B	34.44%	Exp10 grounding + fixed rule	generation degenerate, 미미한 개선
Step 0-C	64.44%	기존 summary에 남아 있는 old tuning artifact	현재는 신뢰하지 않음
Step 1	68.35%	BBox feature MLP	현재 최고 성능
Step 2	75.95%	BBox + low-res image feature MLP	현재 최강 baseline
Exp11	58.62%	학습형 action baseline	기존 기준점
Exp04	0%	Google-Robot policy ckpt inference	FWD+L/FWD+R collapse

Path-wise Comparison

Path Type	Step 0	Step 0-B	Step 1	Step 2	2 - 1
center_straight	60.0%	50.0%	100.0%	85.7%	-14.3p
center_left	40.0%	20.0%	44.4%	66.7%	+22.3p
center_right	10.0%	40.0%	38.9%	44.4%	+5.5p
left_straight	40.0%	40.0%	77.8%	88.9%	+11.1p
left_left	30.0%	40.0%	73.7%	78.9%	+5.2p
left_right	0.0%	40.0%	68.4%	84.2%	+15.8p
right_straight	40.0%	20.0%	88.9%	88.9%	0p
right_left	40.0%	30.0%	66.7%	83.3%	+16.6p
right_right	20.0%	30.0%	62.5%	62.5%	0p

왜 Step 0-B가 무너졌나

Exp10의 val_loss 0.012와 IoU 0.87은 teacher-forced token scoring 성격이 강했습니다. 하지만 실제 free-form generation으로 patch index를 뽑으면 bbox 중심이 거의 항상 0.02 또는 0.98로 튀어, rule 단계에서 의미 있는 spatial control이 안 됐습니다.

왜 Step 2가 더 올라갔나

Step 1이 bbox history만 썼다면, Step 2는 여기에 16x16 grayscale image feature를 붙였습니다. 그 결과 특히 center_left, left_right, right_left 같은 애매한 케이스가 더 올라갔고, 시각 정보가 bbox만으로 부족한 구간을 보완하는 효과가 확인됐습니다.

샘플 확인 경로

Step 0 프레임별 예시: bbox_nav_step0/index.html
Step 0-B 프레임별 예시: bbox_nav_step0b/index.html
Step 1 test summary: bbox_nav_step1/index.html
Step 2 test summary: bbox_nav_step2/index.html
Step 2 quick repro: bbox_nav_step2_repro/index.html
Exp11/Exp04 기존 실험 로그는 비교용 문서와 plan에 정리

주의
Step 0 / 0-B는 동일한 90-frame 샘플 집합입니다. Step 1은 episode-level 80/20 split에서 나온 158-sample test set입니다. 따라서 Step 1이 가장 강하다는 방향성은 유효하지만, 완전 동일 split의 apples-to-apples 비교는 아닙니다. 현재 Pages의 공식 기준은 Exp11 58.6%와 Step 2 75.9% 비교이며, same-split direct compare와 quick repro는 별도 보조 검증으로 취급합니다. 5분 컷 smoke check로 만든 Step 2 Quick Repro는 seed0 / 8 epoch만 돌린 값이라, 정식 재현성 지표가 아니라 "새 split에서 빠르게 다시 학습했을 때 민감도가 크다"는 경고로 읽어야 합니다. 또한 Step 0-C summary의 64.4%는 현재 비교 표준에서 제외하고, 재생성 전까지는 참고치로만 취급해야 합니다.

소스

Step 0 summary.json
Step 0-B summary.json
Step 1 summary.json
Step 2 summary.json
Step 2 quick repro summary.json
Step 1 bbox_dataset.json
Exp11 PM 58.62 source