빠른 이동 → §F 파이프라인Ablation §G Head&Window Ablation ★NEW §G1 Head §G2 Window §G3 전체비교 ← CH33 ← CH34 ← CH35

🎯 Grounding Evaluation Hub

교수님이 보신 "이상한 에피소드 · 오예측"을 grounding 관점에서 해부한다.
측면·OOD에서 base PaliGemma2가 바구니를 안정적으로 잡는다면 → 오예측은 grounding이 아닌 action head 문제다.
→ §G에서 Action Head · Window 크기 Ablation 전체 결과 확인 가능 (CH34/CH35 연동)

0 무엇을 어떻게 측정했나 (목표 · 데이터 · 지표)

🎯 grounding 목표(goal) — 모델에 넣은 프롬프트

모든 모델에 동일한 목표를 줬다: "gray basket" (회색 바구니) 한 객체.

PaliGemma 계열(base PG2 · exp57 · exp58 · exp59 · exp64): "<image>detect gray basket"
Kosmos 계열(pure Kosmos · exp56): "<grounding><phrase> gray basket</phrase>" (Kosmos 전용 grounding 문법)

모델은 이 텍스트에 해당하는 객체의 BBox(<loc> 좌표 또는 Kosmos patch 좌표)를 출력한다. 학습/튜닝 없이 프롬프트만으로 위치를 묻는 zero-shot grounding.

📂 평가 데이터

표준 49프레임: V5 basket 에피소드를 위치(좌/중/우) × 거리(원/중/근) 9개 시점 버킷으로 나눠 균등 샘플.
측면 4경로: 좌좌·우우·좌우·우좌 경로, 경로당 4ep × 6프레임(시간순).
OOD 11장: 학습에 없던 의자 이미지(오탐 검증).

📐 지표 & 정답 기준

hit: BBox를 내놓았나.
cx_MAE: 박스 중심 x가 정답과 얼마나 가까운가. 정답 = HSV 색분할로 검출한 회색 바구니 중심(근사 GT).
full-frame: 박스 면적>0.9 비율(화면 거의 다 덮음 = 위치정보 무력).
OOD 오탐: 바구니 없는 의자에 박스 친 비율.

⚠️ cx_MAE의 정답(HSV 중심)은 색분할 기반 근사값이라 그 자체로 ±오차가 있다 — 모델 간 상대 비교용으로 해석.

A 핵심 결론

✅ base PG2 — grounding 견고

측면 4경로 주행구간(f3+) 추적 100% · full-frame 0%. miss는 출발 첫 프레임뿐. 좌좌/우우/좌우/우좌 전 시점에서 바구니를 끝까지 추적. grounding은 문제가 아니다.

⚠️ LoRA들 — 붕괴/불안정

exp64(vision) full-frame 92%, exp58 OOD 오탐 27%, exp56(Kosmos) generate 사망. LoRA가 base를 못 이긴다.

→ 오예측 = grounding이 아니라 action head 문제. decomposition의 BBox grounding은 base PG2를 그대로 쓰고, 개선 노력은 action 쪽(의자 데이터 재수집 + Stage2 재학습)에 집중한다.

🔍 교수님 "객체 인식 못함"의 정체 = exp59의 간헐적 full-frame 붕괴

실주행에 쓰인 exp59는 표준 프레임(full-frame 6%)에선 멀쩡해 보이지만, 실환경 변동에서 무너진다: free 극단 시나리오에서 로봇거리 22% · 저조도 17% · 대각선 14% full-frame, 증강 회전 8~16% · 가림 8% full-frame. 그 순간 action head는 "바구니=화면 전체" 신호를 받아 조향이 붕괴 → 교수님이 본 오예측. base PG2는 같은 조건에서 full-frame 0~2% — 모델을 base로 바꾸면 간헐 붕괴가 사라진다.

B 모델 비교 매트릭스 — 표준 49프레임 + 의자 11장

모델	백본 / LoRA	hit	cx_MAE	full-frame	OOD 오탐	판정
base PG2	PaliGemma2 / 없음	98%	0.126	0%	9%	✅ 최균형
pure Kosmos-2	Kosmos-2 / 없음	100%	0.123	0%	100%	바구니↑·OOD구분 제로
exp57	PaliGemma1 / LM	84%	0.115	0%	9%	hit↓·cx정밀
exp58	PaliGemma2 / LM	100%	0.191	57%	27%	부분붕괴+OOD최악
exp59	PaliGemma2 / LM hard-neg	98%	0.129	6%	0%	OOD억제 최고
exp64	PaliGemma2 / vision	94%	0.150	92%	9%	full-frame 붕괴
exp56	Kosmos-2 / LM	0%	—	—	—	LoRA가 Kosmos grounding 파괴

cx_MAE = 중심 오차(낮을수록 정확) · full-frame = area>0.9 박스 비율(높을수록 붕괴) · OOD 오탐 = 의자에 basket 박스 친 비율.

C 측면 경로 에피소드 갤러리 — base PG2, 교수님 오예측 대응

📌 base PG2 miss의 정체: 측면 경로의 base miss는 정확히 f0(출발 첫 프레임, 바구니 화면 밖)뿐. 주행 시작(f3) 후 hit 100%. → 실제 주행 구간 추적률 전 경로 100%, full-frame 0%.

모델	left_left	right_right	left_right	right_left	판정
base PG2	100/0	83/0	100/0	83/0	✅ 깔끔(miss=f0만)
pure Kosmos	100/0	100/0	100/0	100/0	측면 hit 최고(단 OOD 100%)
exp57(PG1)	100/0	61/0	94/0	78/0	측면 검출률 하락
exp58	100/61	100/56	100/78	100/39	부분 full-frame 붕괴
exp59	100/6	83/6	100/6	83/11	비교적 깔끔
exp64	100/100	100/100	100/100	94/94	측면도 full-frame 전면붕괴
exp56(Kosmos)	0/0	0/0	0/0	0/0	LoRA가 Kosmos 파괴

셀 = hit / full-frame (%). 셀 클릭 아닌 아래 선택기로 그리드 확인.

모델 선택

base PG2

pure Kosmos

exp57

exp58

exp59

exp64

exp56

경로 선택

left_left

right_right

left_right

right_left

행=에피소드, 열=시간순 프레임. 파랑=정상·빨강=full-frame, 라벨 cx로 위치 추적. 같은 측면 프레임에 7모델을 비교 — exp64/exp58은 빨강(full-frame)이, base/exp59는 파랑(타이트)이 지배적.

C2 극단·다양성 시나리오 (free 데이터, base PG2) — "데이터가 적은가?" 보강

경로 데이터 외에 free_* 21개 에피소드(바구니 극단위치·로봇 원/근거리·대각선·저조도)를 추가 grounding. 4모델 비교(붕괴/사망 모델 exp58·exp64·exp56 제외).

모델	basket극단	로봇거리	대각선	저조도	판정
base PG2	92/0	94/0	95/2	100/0	✅ 전부 깔끔
pure Kosmos	100/0	100/0	100/0	100/0	견고(단 OOD 100%)
exp57(PG1)	86/3	86/0	88/2	92/0	hit 낮음, full 소량
exp59	92/8	92/22	95/14	100/17	극단조건 full-frame 붕괴

셀=hit/full-frame(%). exp59가 로봇거리 22%·저조도 17% full-frame → 실환경 변동에서 무너진다. base는 0~2%.

basket_extreme

robot_distance

diagonal

lighting_diff

base PG2가 극단위치·원근·대각선·저조도 전부 92~100% hit / full-frame ~0%. → 데이터 다양성 측면에서도 base grounding 견고. 측면4경로 + free21 = 추가 표본으로 결론 보강.

C3 OOD 오탐 — 지금 중요한가? — 의자에 "detect gray basket"

현 시점 우선순위: 2순위. base PG2 선택의 결정적 근거는 full-frame collapse(타겟 추적 실패)였지 OOD가 아니다. OOD(미학습 객체 오탐)는 basket→chair 객체 전환 시 비로소 1순위가 된다 — 실제 방의 다른 가구를 타겟으로 오인하면 안 되므로. 지금은 타겟 추적 품질이 먼저고, OOD는 보조 지표로 기록.

base vs exp64 — 의자 11장. 대부분 박스 없음(정상). 둘 다 Eames 가죽의자 1개만 오탐(9%).

OOD 오탐률 요약

base PG2: 9% (의자 구분 양호)
exp64: 9% / exp57: 9% / exp59: 0% (hard-neg 효과)
exp58: 27% / pure Kosmos: 100% (전부 오탐)

pure Kosmos는 의자 11장 전부에 바구니 박스 — negative 구분 불가. 측면 hit는 최고였지만 이 약점으로 탈락. exp59의 0%(hard-neg)는 chair 전환 시 참고할 유일한 미덕.

C4 증강(Augmentation) 강건성 — base PG2 — "데이터셋이 적은가?"의 직접 답

실제 에피소드가 한정적이므로, 기존 basket 프레임에 11가지 변형(밝기·대비·블러·노이즈·저해상도·회전±12°·좌우반전·부분가림)을 가해 grounding이 흔들리는지 점검. 변형에 약한 축 = 데이터셋이 보강해야 할 다양성. 원본 검출 성공 12프레임 기준, 중심 이동(cx_drift)으로 안정성 측정.

변형	hit	cx_drift	full-frame	변형	hit	cx_drift	full-frame
original	100%	0.000	0%	downscale	100%	0.001	0%
bright_up	100%	0.001	0%	rotate +12°	100%	0.008	0%
bright_down	100%	0.001	0%	rotate −12°	100%	0.009	0%
low_contrast	92%	0.001	0%	hflip(좌우반전)	100%	0.002	0%
blur	100%	0.001	0%	occlude(부분가림)	100%	0.002	0%
noise	100%	0.001	0%

모델	회전±12°	가림	저대비	나머지(밝기·블러·노이즈·저해상도·반전)
base PG2	100/0	100/0	92/0	전부 100/0
pure Kosmos	100/0	100/0	100/0	전부 100/0
exp57(PG1)	100/0	100/0	100/0	전부 100/0
exp59	100/8~16	100/8	100/0	나머지 100/0

셀=hit/full-frame(%). exp59만 회전·가림에서 full-frame 붕괴. base는 저대비에서만 hit 92%(검출 실패), 붕괴는 0.

위 그리드 = base PG2. 행=대표 3프레임, 열=11변형. 초록 박스가 모든 변형에서 바구니에 고정. cx_drift ~0.001.

→ 결론: base PG2 grounding은 데이터 부족 문제가 아니다. 좌우반전·회전·저해상도·부분가림·조명 극단 전부 hit 100%·중심 이동 ~0로 견고. 사전학습 지식이 우리 소규모 데이터가 못 덮는 변형까지 일반화한다. 유일한 약점은 저대비(92%) — 저조도/역광 환경이 데이터셋 보강 1순위 후보.

D 모델별 BBox 그리드 — 같은 8프레임, 초록=정상·빨강=full-frame

base PG2

pure Kosmos

exp57(PG1)

exp58

exp59

exp64(vision)

exp56(Kosmos)

타이트한 박스, full-frame 0%, OOD 오탐 9%.

바구니 100% 검출·full-frame 0%로 base급. 단 의자 등 미학습 객체에 100% 오탐 — negative 구분 불가.

PG1 LM-LoRA. 박스 정상, 일부 미검출(hit 84%).

PG2 LM-LoRA. full-frame 57% 부분붕괴.

hard-neg. full-frame 6%, OOD 오탐 0%로 가장 깔끔한 LoRA.

vision-LoRA. full-frame 92% 전면붕괴 (CH31/32).

Kosmos generate 사망 — 박스 없음.

E 해석 & 다음 단계

1. 측면·OOD에서 base PG2가 견고(주행구간 추적 100%, full-frame 0%) → 오예측의 원인은 grounding이 아니다. 실주행 궤적 붕괴는 action head(조향)·action chunk·데이터 분포 쪽 문제로 좁혀진다. 유일한 grounding 약점은 출발 첫 프레임(바구니 화면 밖)인데, 이는 STOP/대기 로직으로 처리할 영역이지 grounding 모델 교체로 풀 문제가 아니다.

2. 7개 모델 중 base PG2를 종합적으로 이긴 것은 없다. pure Kosmos는 바구니 검출은 100%지만 의자에 100% 오탐(negative 구분 불가), vision-LoRA(exp64)·exp58은 full-frame 붕괴, exp56은 LoRA가 Kosmos를 파괴. exp59만 OOD 억제(0%)라는 부분 미덕이나 cx 안정성은 더 나쁨.

2-1. LoRA의 보편적 위험: Kosmos LoRA(exp56)·PG2 vision LoRA(exp64)·PG2 LM LoRA(exp58) 모두 grounding을 악화시켰다. 소규모 데이터 LoRA가 사전학습된 grounding 표현을 망가뜨린다는 일관된 신호.

3. 데이터 부족 문제 아님: 11가지 증강(회전·반전·블러·저해상도·가림·조명)에 base PG2가 hit 100%·중심이동 ~0으로 견고. 사전학습 지식이 소규모 데이터의 빈틈을 메운다. 유일 약점 = 저대비(92%) → 저조도 데이터가 보강 1순위.

4. 결론: grounding = base PG2 고정. 다음 작업은 의자 객체 데이터 재수집 + Stage2 action 재학습으로 오예측(action)을 직접 공략.

평가 스크립트: scripts/eval_grounding_hub.py · scripts/grounding_sideangle_episodes.py · 데이터: docs/v5/grounding_hub/hub_results.json

F 파이프라인 Ablation — CL 성능과 Grounding 품질의 관계

질문: cx 소스(grounding 모델)를 바꾸면 closed-loop(CL) 성능이 달라지는가? 파이프라인(L2-norm + bbox 증강)이 실제 성능 결정 요소인가?
exp65b(대조군, 단순 MLP)와 exp66·exp67(동일 파이프라인, cx 소스만 변경)을 비교해 파이프라인과 grounding 품질의 기여를 분리한다.

실험	cx 소스	파이프라인	val_acc	CL 성공률	평균 FPE
exp54 (참고)	HSV	L2-norm + bbox 증강	92.6%	96.6%	0.09m
exp65b (대조)	base PG2	단순 MLP	90.2%	10.3%	—
exp66 ✅	base PG2	L2-norm + bbox 증강	93.5%	96.6%	0.10m
exp67 ✅	exp59 LoRA	L2-norm + bbox 증강	94.5%	96.6%	0.11m

CL = closed-loop 성공률 · FPE = Final Position Error (낮을수록 정확) · exp65b는 동일 cx 소스(base PG2)지만 파이프라인이 다름.

✅ Ablation 결론 (3가지)

1. cx 소스(grounding 품질)는 CL 성능에 영향 없음. base PG2(exp66)와 exp59 LoRA(exp67)는 cx_MAE가 다름에도 CL 성공률 96.6%로 동일. grounding 모델을 더 정밀한 것으로 교체해도 action 성능은 변하지 않는다.

2. L2-norm + bbox 증강이 유일한 성능 결정 요소. 같은 cx 소스(base PG2)라도 단순 MLP(exp65b)는 10.3%, L2-norm 파이프라인(exp66)은 96.6%. cx 좌표의 정규화 방식과 학습 증강이 grounding 품질보다 훨씬 크게 작용한다.

3. LoRA grounding 개선은 action 성능에 기여하지 않음 (음성 결과). exp67(exp59 LoRA)이 exp66(base PG2)보다 val_acc가 높지만(94.5% vs 93.5%) CL 성공률은 동일. grounding 정밀도를 높여도 현재 파이프라인에서는 포화(ceiling effect)에 도달해 있다. → LoRA 개선 방향은 현 단계에서 우선순위가 낮다.

→ 실용 지침: decomposition 파이프라인의 성능 병목은 grounding 모델이 아니라 L2-norm 정규화 · bbox 증강 · action head 재학습에 있다. cx 소스는 base PG2 고정으로 충분하며, 다음 개선 여지는 파이프라인 구조(증강 전략, 정규화 방식) 또는 action 데이터 자체에서 찾아야 한다.

실험 코드: scripts/train_active/run_v5_ablations.sh · config: configs/v5_ablation/ · → Section G에서 Head/Window Ablation 전체 결과 확인

🔬 Section G — Action Head & Window Ablation CH34 · CH35 → 연구 히스토리 CH34 → CH35

G1 · Action Head Ablation (CH34 — exp68/69/70/54)

파이프라인 고정(L2-norm + bbox aug), cx 소스 고정(base PG2, exp68/69/70 공통), Head만 변경. RoboVLMs 계열 decoder와 우리 ActionMLP의 직접 비교.

Linear (1-layer)

69.0%

CL · FPE 0.377m

FCHead (deep MLP)

93.1%

CL · FPE 0.109m

LSTMHead (RoboVLMs)

96.6%

CL · FPE 0.112m

ActionMLP (ours) ★

96.6%

CL · FPE 0.102m

실험	Head	원형	val_acc	CL ↑	FPE ↓	비고
exp68	Linear	1-layer FC (단순 선형)	76.8%	69.0%	0.377m	비선형성·용량 부족
exp69	FCHead	RoboVLMs FCDecoder (deep MLP, no temporal)	95.3%	93.1%	0.109m	depth 필요. temporal 없으면 부족
exp70	LSTMHead	RoboVLMs MobileVLAClassificationDecoder	95.7%	96.6%	0.112m	temporal 有 · ActionMLP와 동등 (CL 96.6%)
exp66	ActionMLP (ours) ★	Window-flattened flat MLP	93.5%	96.6%	0.102m	LSTM과 CL 동등, FPE 더 낮음 (0.102m vs 0.112m) · 더 경량

핵심: ActionMLP(ours) = LSTMHead at w=8 — 96.6% = 96.6% (FPE: 0.102m vs 0.112m). MLP의 window pre-baking이 LSTM sequential 처리와 동등한 CL을 달성하면서 더 경량·낮은 FPE. RoboVLMs LSTM decoder와 비교 검증 완료.
FCHead(depth 有, temporal 無): 93.1% — temporal context 없으면 부족. Linear: 69.0% — 비선형성·용량 모두 부족.
※ 동일 30-ep fixed val set 기준 (Exp66 split, seed=42)

CH34 상세: research_story.html#ch34 · 스크립트: scripts/eval_exp54_stage2_v2_closedloop.py

G2 · Window Size Ablation (CH35 — MLP w=2/4/8/16, LSTM w=4/8/16)

파이프라인 고정(L2+aug), window 크기만 변경. MLP w=2/4/16은 HSV cx 소스, w=8(baseline exp66)은 base PG2. LSTM은 sequential SEQ_DIM=260 per-frame. ※ 동일 30-ep fixed val set 기준

MLP w=4 (FPE 최저)

96.6%

CL · FPE 0.094m ★

MLP w=8 (baseline)

96.6%

CL · FPE 0.102m

LSTM w=16 (전체 FPE 최저)

96.6%

CL · FPE 0.080m ★★

MLP (w=2/4/8/16)

LSTM (w=4/8/16)

전체 비교

Head	Window	val_acc	CL ↑	FPE ↓	비고
MLP	2	94.9%	93.1%	0.145m	CL 하락 — 2프레임으로는 방향 파악 불충분
MLP	4	92.9%	96.6%	0.094m	MLP FPE 최저 — 최소 필요 window
MLP	8 (baseline)	93.5%	96.6%	0.102m	exp66 기준점
MLP	16	89.6%	96.6%	0.102m	val_acc 하락 (입력 희석), CL 유지 — flat concat 한계

Head	Window	val_acc	CL ↑	FPE ↓	비고
LSTM	4	95.1%	96.6%	0.123m	짧은 window에서도 96.6% 달성
LSTM	8 (baseline, exp70)	95.7%	96.6%	0.112m	exp70 기준점
LSTM	16	96.9%	96.6%	0.080m	전체 실험 최저 FPE — 긴 맥락 활용

Head	Window	val_acc	CL ↑	FPE ↓	비고
MLP	2	94.9%	93.1%	0.145m	최소 window 부족
MLP	4	92.9%	96.6%	0.094m	MLP FPE 최저
MLP	8 ★	93.5%	96.6%	0.102m	baseline
MLP	16	89.6%	96.6%	0.102m
LSTM	4	95.1%	96.6%	0.123m
LSTM	8 (exp70)	95.7%	96.6%	0.112m	baseline
LSTM	16	96.9%	96.6%	0.080m	전체 FPE 최저

핵심: MLP: w≥4에서 CL 96.6% 포화, w=2에서만 93.1%로 하락 — 최소 4프레임 히스토리 필요. FPE는 MLP w=4 (0.094m) · LSTM w=16 (0.080m)이 양 극단 최저.
MLP w=4가 FPE 0.094m으로 w=8 baseline보다 낮음 — 너무 긴 윈도우는 MLP에 noise. LSTM은 모든 window에서 96.6% 유지, w=16에서 전체 최저 FPE 0.080m 달성 — 긴 맥락 sequential 처리 강점. ※ 동일 30-ep fixed val set 기준 (Exp66 split, seed=42)

CH35 상세: research_story.html#ch35 · 표 2-D: docs/v5/TABLE1_PAPER_DRAFT.md

G3 · 모든 실험 통합 비교 (Section F + G 전체 — 파이프라인 × Head × Window)

이 Hub에서 테스트된 모든 모델 · 조건의 CL 성능. 파이프라인(§F)부터 Head/Window(§G)까지 한눈에.

※ 동일 fixed val set 30ep 기준 (Exp66 split, seed=42) — 전 모델 공정 비교
Section	실험	파이프라인	cx 소스	Head	Window	CL ↑	FPE ↓
§F	exp65b	단순 MLP	base PG2	MLP	8	10.3%	0.941m
§F	exp54	L2+aug	HSV	MLP	8	96.6%	0.110m
§F	exp66 ★	L2+aug	base PG2	MLP	8	96.6%	0.102m
§F	exp67	L2+aug	exp59 LoRA	MLP	8	96.6%	0.111m
§G1	exp68	L2+aug	base PG2	Linear	8	69.0%	0.377m
§G1	exp69	L2+aug	base PG2	FCHead	8	93.1%	0.113m
§G1	exp70	L2+aug	base PG2	LSTM	8	96.6%	0.112m
§G1	exp66 ★	L2+aug	base PG2	MLP	8	96.6%	0.102m
§G2	—	L2+aug	HSV	MLP	2	93.1%	0.145m
§G2	—	L2+aug	HSV	MLP	4	96.6%	0.094m
§G2	exp66 ★	L2+aug	base PG2	MLP	8	96.6%	0.102m
§G2	—	L2+aug	HSV	MLP	16	96.6%	0.102m
§G2	—	L2+aug	base PG2	LSTM	4	96.6%	0.123m
§G2	exp70	L2+aug	base PG2	LSTM	8	96.6%	0.112m
§G2	—	L2+aug	base PG2	LSTM	16	96.6%	0.080m

파이프라인: 10.3% → 96.6% (×9.4배)

Head: Linear 69% → MLP=LSTM 96.6% · FC 93.1%

Window: MLP w≥4 96.6%, w=2 93.1% · LSTM w=16 FPE 최저 0.080m