← 연구 히스토리로
빠른 이동 → §F 파이프라인Ablation §G Head&Window Ablation ★NEW §G1 Head §G2 Window §G3 전체비교 ← CH33 ← CH34 ← CH35

🎯 Grounding Evaluation Hub

교수님이 보신 "이상한 에피소드 · 오예측"을 grounding 관점에서 해부한다.
측면·OOD에서 base PaliGemma2가 바구니를 안정적으로 잡는다면 → 오예측은 grounding이 아닌 action head 문제다.
→ §G에서 Action Head · Window 크기 Ablation 전체 결과 확인 가능 (CH34/CH35 연동)

0 무엇을 어떻게 측정했나 (목표 · 데이터 · 지표)

🎯 grounding 목표(goal) — 모델에 넣은 프롬프트
모든 모델에 동일한 목표를 줬다: "gray basket" (회색 바구니) 한 객체.
  • PaliGemma 계열(base PG2 · exp57 · exp58 · exp59 · exp64): "<image>detect gray basket"
  • Kosmos 계열(pure Kosmos · exp56): "<grounding><phrase> gray basket</phrase>" (Kosmos 전용 grounding 문법)
모델은 이 텍스트에 해당하는 객체의 BBox(<loc> 좌표 또는 Kosmos patch 좌표)를 출력한다. 학습/튜닝 없이 프롬프트만으로 위치를 묻는 zero-shot grounding.
📂 평가 데이터
표준 49프레임: V5 basket 에피소드를 위치(좌/중/우) × 거리(원/중/근) 9개 시점 버킷으로 나눠 균등 샘플.
측면 4경로: 좌좌·우우·좌우·우좌 경로, 경로당 4ep × 6프레임(시간순).
OOD 11장: 학습에 없던 의자 이미지(오탐 검증).
📐 지표 & 정답 기준
hit: BBox를 내놓았나.
cx_MAE: 박스 중심 x가 정답과 얼마나 가까운가. 정답 = HSV 색분할로 검출한 회색 바구니 중심(근사 GT).
full-frame: 박스 면적>0.9 비율(화면 거의 다 덮음 = 위치정보 무력).
OOD 오탐: 바구니 없는 의자에 박스 친 비율.
⚠️ cx_MAE의 정답(HSV 중심)은 색분할 기반 근사값이라 그 자체로 ±오차가 있다 — 모델 간 상대 비교용으로 해석.

A 핵심 결론

✅ base PG2 — grounding 견고
측면 4경로 주행구간(f3+) 추적 100% · full-frame 0%. miss는 출발 첫 프레임뿐. 좌좌/우우/좌우/우좌 전 시점에서 바구니를 끝까지 추적. grounding은 문제가 아니다.
⚠️ LoRA들 — 붕괴/불안정
exp64(vision) full-frame 92%, exp58 OOD 오탐 27%, exp56(Kosmos) generate 사망. LoRA가 base를 못 이긴다.
→ 오예측 = grounding이 아니라 action head 문제. decomposition의 BBox grounding은 base PG2를 그대로 쓰고, 개선 노력은 action 쪽(의자 데이터 재수집 + Stage2 재학습)에 집중한다.
🔍 교수님 "객체 인식 못함"의 정체 = exp59의 간헐적 full-frame 붕괴
실주행에 쓰인 exp59는 표준 프레임(full-frame 6%)에선 멀쩡해 보이지만, 실환경 변동에서 무너진다: free 극단 시나리오에서 로봇거리 22% · 저조도 17% · 대각선 14% full-frame, 증강 회전 8~16% · 가림 8% full-frame. 그 순간 action head는 "바구니=화면 전체" 신호를 받아 조향이 붕괴 → 교수님이 본 오예측. base PG2는 같은 조건에서 full-frame 0~2% — 모델을 base로 바꾸면 간헐 붕괴가 사라진다.

B 모델 비교 매트릭스 — 표준 49프레임 + 의자 11장

모델백본 / LoRAhitcx_MAEfull-frameOOD 오탐판정
base PG2PaliGemma2 / 없음98%0.1260%9%✅ 최균형
pure Kosmos-2Kosmos-2 / 없음100%0.1230%100%바구니↑·OOD구분 제로
exp57PaliGemma1 / LM84%0.1150%9%hit↓·cx정밀
exp58PaliGemma2 / LM100%0.19157%27%부분붕괴+OOD최악
exp59PaliGemma2 / LM hard-neg98%0.1296%0%OOD억제 최고
exp64PaliGemma2 / vision94%0.15092%9%full-frame 붕괴
exp56Kosmos-2 / LM0%LoRA가 Kosmos grounding 파괴
cx_MAE = 중심 오차(낮을수록 정확) · full-frame = area>0.9 박스 비율(높을수록 붕괴) · OOD 오탐 = 의자에 basket 박스 친 비율.

C 측면 경로 에피소드 갤러리 — base PG2, 교수님 오예측 대응

📌 base PG2 miss의 정체: 측면 경로의 base miss는 정확히 f0(출발 첫 프레임, 바구니 화면 밖)뿐. 주행 시작(f3) 후 hit 100%. → 실제 주행 구간 추적률 전 경로 100%, full-frame 0%.
모델left_leftright_rightleft_rightright_left판정
base PG2100/083/0100/083/0✅ 깔끔(miss=f0만)
pure Kosmos100/0100/0100/0100/0측면 hit 최고(단 OOD 100%)
exp57(PG1)100/061/094/078/0측면 검출률 하락
exp58100/61100/56100/78100/39부분 full-frame 붕괴
exp59100/683/6100/683/11비교적 깔끔
exp64100/100100/100100/10094/94측면도 full-frame 전면붕괴
exp56(Kosmos)0/00/00/00/0LoRA가 Kosmos 파괴
셀 = hit / full-frame (%). 셀 클릭 아닌 아래 선택기로 그리드 확인.
모델 선택
base PG2
pure Kosmos
exp57
exp58
exp59
exp64
exp56
경로 선택
left_left
right_right
left_right
right_left
side-angle per model
행=에피소드, 열=시간순 프레임. 파랑=정상·빨강=full-frame, 라벨 cx로 위치 추적. 같은 측면 프레임에 7모델을 비교 — exp64/exp58은 빨강(full-frame)이, base/exp59는 파랑(타이트)이 지배적.

C2 극단·다양성 시나리오 (free 데이터, base PG2) — "데이터가 적은가?" 보강

경로 데이터 외에 free_* 21개 에피소드(바구니 극단위치·로봇 원/근거리·대각선·저조도)를 추가 grounding. 4모델 비교(붕괴/사망 모델 exp58·exp64·exp56 제외).
모델basket극단로봇거리대각선저조도판정
base PG292/094/095/2100/0✅ 전부 깔끔
pure Kosmos100/0100/0100/0100/0견고(단 OOD 100%)
exp57(PG1)86/386/088/292/0hit 낮음, full 소량
exp5992/892/2295/14100/17극단조건 full-frame 붕괴
셀=hit/full-frame(%). exp59가 로봇거리 22%·저조도 17% full-frame → 실환경 변동에서 무너진다. base는 0~2%.
basket_extreme
robot_distance
diagonal
lighting_diff
base PG2가 극단위치·원근·대각선·저조도 전부 92~100% hit / full-frame ~0%. → 데이터 다양성 측면에서도 base grounding 견고. 측면4경로 + free21 = 추가 표본으로 결론 보강.

C3 OOD 오탐 — 지금 중요한가? — 의자에 "detect gray basket"

현 시점 우선순위: 2순위. base PG2 선택의 결정적 근거는 full-frame collapse(타겟 추적 실패)였지 OOD가 아니다. OOD(미학습 객체 오탐)는 basket→chair 객체 전환 시 비로소 1순위가 된다 — 실제 방의 다른 가구를 타겟으로 오인하면 안 되므로. 지금은 타겟 추적 품질이 먼저고, OOD는 보조 지표로 기록.
base vs exp64 — 의자 11장. 대부분 박스 없음(정상). 둘 다 Eames 가죽의자 1개만 오탐(9%).
OOD 오탐률 요약
base PG2: 9% (의자 구분 양호)
exp64: 9% / exp57: 9% / exp59: 0% (hard-neg 효과)
exp58: 27% / pure Kosmos: 100% (전부 오탐)
pure Kosmos는 의자 11장 전부에 바구니 박스 — negative 구분 불가. 측면 hit는 최고였지만 이 약점으로 탈락. exp59의 0%(hard-neg)는 chair 전환 시 참고할 유일한 미덕.

C4 증강(Augmentation) 강건성 — base PG2 — "데이터셋이 적은가?"의 직접 답

실제 에피소드가 한정적이므로, 기존 basket 프레임에 11가지 변형(밝기·대비·블러·노이즈·저해상도·회전±12°·좌우반전·부분가림)을 가해 grounding이 흔들리는지 점검. 변형에 약한 축 = 데이터셋이 보강해야 할 다양성. 원본 검출 성공 12프레임 기준, 중심 이동(cx_drift)으로 안정성 측정.
변형hitcx_driftfull-frame 변형hitcx_driftfull-frame
original100%0.0000%downscale100%0.0010%
bright_up100%0.0010%rotate +12°100%0.0080%
bright_down100%0.0010%rotate −12°100%0.0090%
low_contrast92%0.0010%hflip(좌우반전)100%0.0020%
blur100%0.0010%occlude(부분가림)100%0.0020%
noise100%0.0010%
모델회전±12°가림저대비나머지(밝기·블러·노이즈·저해상도·반전)
base PG2100/0100/092/0전부 100/0
pure Kosmos100/0100/0100/0전부 100/0
exp57(PG1)100/0100/0100/0전부 100/0
exp59100/8~16100/8100/0나머지 100/0
셀=hit/full-frame(%). exp59만 회전·가림에서 full-frame 붕괴. base는 저대비에서만 hit 92%(검출 실패), 붕괴는 0.
증강 강건성 그리드 (base PG2)
위 그리드 = base PG2. 행=대표 3프레임, 열=11변형. 초록 박스가 모든 변형에서 바구니에 고정. cx_drift ~0.001.
→ 결론: base PG2 grounding은 데이터 부족 문제가 아니다. 좌우반전·회전·저해상도·부분가림·조명 극단 전부 hit 100%·중심 이동 ~0로 견고. 사전학습 지식이 우리 소규모 데이터가 못 덮는 변형까지 일반화한다. 유일한 약점은 저대비(92%) — 저조도/역광 환경이 데이터셋 보강 1순위 후보.

D 모델별 BBox 그리드 — 같은 8프레임, 초록=정상·빨강=full-frame

base PG2
pure Kosmos
exp57(PG1)
exp58
exp59
exp64(vision)
exp56(Kosmos)
타이트한 박스, full-frame 0%, OOD 오탐 9%.
바구니 100% 검출·full-frame 0%로 base급. 단 의자 등 미학습 객체에 100% 오탐 — negative 구분 불가.
PG1 LM-LoRA. 박스 정상, 일부 미검출(hit 84%).
PG2 LM-LoRA. full-frame 57% 부분붕괴.
hard-neg. full-frame 6%, OOD 오탐 0%로 가장 깔끔한 LoRA.
vision-LoRA. full-frame 92% 전면붕괴 (CH31/32).
Kosmos generate 사망 — 박스 없음.

E 해석 & 다음 단계

1. 측면·OOD에서 base PG2가 견고(주행구간 추적 100%, full-frame 0%) → 오예측의 원인은 grounding이 아니다. 실주행 궤적 붕괴는 action head(조향)·action chunk·데이터 분포 쪽 문제로 좁혀진다. 유일한 grounding 약점은 출발 첫 프레임(바구니 화면 밖)인데, 이는 STOP/대기 로직으로 처리할 영역이지 grounding 모델 교체로 풀 문제가 아니다.

2. 7개 모델 중 base PG2를 종합적으로 이긴 것은 없다. pure Kosmos는 바구니 검출은 100%지만 의자에 100% 오탐(negative 구분 불가), vision-LoRA(exp64)·exp58은 full-frame 붕괴, exp56은 LoRA가 Kosmos를 파괴. exp59만 OOD 억제(0%)라는 부분 미덕이나 cx 안정성은 더 나쁨.

2-1. LoRA의 보편적 위험: Kosmos LoRA(exp56)·PG2 vision LoRA(exp64)·PG2 LM LoRA(exp58) 모두 grounding을 악화시켰다. 소규모 데이터 LoRA가 사전학습된 grounding 표현을 망가뜨린다는 일관된 신호.

3. 데이터 부족 문제 아님: 11가지 증강(회전·반전·블러·저해상도·가림·조명)에 base PG2가 hit 100%·중심이동 ~0으로 견고. 사전학습 지식이 소규모 데이터의 빈틈을 메운다. 유일 약점 = 저대비(92%) → 저조도 데이터가 보강 1순위.

4. 결론: grounding = base PG2 고정. 다음 작업은 의자 객체 데이터 재수집 + Stage2 action 재학습으로 오예측(action)을 직접 공략.

평가 스크립트: scripts/eval_grounding_hub.py · scripts/grounding_sideangle_episodes.py · 데이터: docs/v5/grounding_hub/hub_results.json

F 파이프라인 Ablation — CL 성능과 Grounding 품질의 관계

질문: cx 소스(grounding 모델)를 바꾸면 closed-loop(CL) 성능이 달라지는가? 파이프라인(L2-norm + bbox 증강)이 실제 성능 결정 요소인가?
exp65b(대조군, 단순 MLP)와 exp66·exp67(동일 파이프라인, cx 소스만 변경)을 비교해 파이프라인과 grounding 품질의 기여를 분리한다.
실험 cx 소스 파이프라인 val_acc CL 성공률 평균 FPE
exp54 (참고) HSV L2-norm + bbox 증강 92.6% 96.6% 0.09m
exp65b (대조) base PG2 단순 MLP 90.2% 10.3%
exp66 base PG2 L2-norm + bbox 증강 93.5% 96.6% 0.10m
exp67 exp59 LoRA L2-norm + bbox 증강 94.5% 96.6% 0.11m
CL = closed-loop 성공률 · FPE = Final Position Error (낮을수록 정확) · exp65b는 동일 cx 소스(base PG2)지만 파이프라인이 다름.
✅ Ablation 결론 (3가지)

1. cx 소스(grounding 품질)는 CL 성능에 영향 없음. base PG2(exp66)와 exp59 LoRA(exp67)는 cx_MAE가 다름에도 CL 성공률 96.6%로 동일. grounding 모델을 더 정밀한 것으로 교체해도 action 성능은 변하지 않는다.

2. L2-norm + bbox 증강이 유일한 성능 결정 요소. 같은 cx 소스(base PG2)라도 단순 MLP(exp65b)는 10.3%, L2-norm 파이프라인(exp66)은 96.6%. cx 좌표의 정규화 방식과 학습 증강이 grounding 품질보다 훨씬 크게 작용한다.

3. LoRA grounding 개선은 action 성능에 기여하지 않음 (음성 결과). exp67(exp59 LoRA)이 exp66(base PG2)보다 val_acc가 높지만(94.5% vs 93.5%) CL 성공률은 동일. grounding 정밀도를 높여도 현재 파이프라인에서는 포화(ceiling effect)에 도달해 있다. → LoRA 개선 방향은 현 단계에서 우선순위가 낮다.

→ 실용 지침: decomposition 파이프라인의 성능 병목은 grounding 모델이 아니라 L2-norm 정규화 · bbox 증강 · action head 재학습에 있다. cx 소스는 base PG2 고정으로 충분하며, 다음 개선 여지는 파이프라인 구조(증강 전략, 정규화 방식) 또는 action 데이터 자체에서 찾아야 한다.
실험 코드: scripts/train_active/run_v5_ablations.sh · config: configs/v5_ablation/  ·  → Section G에서 Head/Window Ablation 전체 결과 확인

🔬 Section G — Action Head & Window Ablation CH34 · CH35 → 연구 히스토리 CH34 → CH35

G1  ·  Action Head Ablation (CH34 — exp68/69/70/54)

파이프라인 고정(L2-norm + bbox aug), cx 소스 고정(base PG2, exp68/69/70 공통), Head만 변경. RoboVLMs 계열 decoder와 우리 ActionMLP의 직접 비교.

Linear (1-layer)
69.0%
CL · FPE 0.377m
FCHead (deep MLP)
93.1%
CL · FPE 0.109m
LSTMHead (RoboVLMs)
96.6%
CL · FPE 0.112m
ActionMLP (ours) ★
96.6%
CL · FPE 0.102m
실험 Head 원형 val_acc CL ↑ FPE ↓ 비고
exp68 Linear 1-layer FC (단순 선형) 76.8% 69.0% 0.377m 비선형성·용량 부족
exp69 FCHead RoboVLMs FCDecoder (deep MLP, no temporal) 95.3% 93.1% 0.109m depth 필요. temporal 없으면 부족
exp70 LSTMHead RoboVLMs MobileVLAClassificationDecoder 95.7% 96.6% 0.112m temporal 有 · ActionMLP와 동등 (CL 96.6%)
exp66 ActionMLP (ours) ★ Window-flattened flat MLP 93.5% 96.6% 0.102m LSTM과 CL 동등, FPE 더 낮음 (0.102m vs 0.112m) · 더 경량
핵심: ActionMLP(ours) = LSTMHead at w=8 — 96.6% = 96.6% (FPE: 0.102m vs 0.112m). MLP의 window pre-baking이 LSTM sequential 처리와 동등한 CL을 달성하면서 더 경량·낮은 FPE. RoboVLMs LSTM decoder와 비교 검증 완료.
FCHead(depth 有, temporal 無): 93.1% — temporal context 없으면 부족. Linear: 69.0% — 비선형성·용량 모두 부족.
※ 동일 30-ep fixed val set 기준 (Exp66 split, seed=42)
CH34 상세: research_story.html#ch34 · 스크립트: scripts/eval_exp54_stage2_v2_closedloop.py

G2  ·  Window Size Ablation (CH35 — MLP w=2/4/8/16, LSTM w=4/8/16)

파이프라인 고정(L2+aug), window 크기만 변경. MLP w=2/4/16은 HSV cx 소스, w=8(baseline exp66)은 base PG2. LSTM은 sequential SEQ_DIM=260 per-frame. ※ 동일 30-ep fixed val set 기준

MLP w=4 (FPE 최저)
96.6%
CL · FPE 0.094m ★
MLP w=8 (baseline)
96.6%
CL · FPE 0.102m
LSTM w=16 (전체 FPE 최저)
96.6%
CL · FPE 0.080m ★★
MLP (w=2/4/8/16)
LSTM (w=4/8/16)
전체 비교
HeadWindowval_accCL ↑FPE ↓비고
MLP294.9% 93.1%0.145m CL 하락 — 2프레임으로는 방향 파악 불충분
MLP492.9% 96.6%0.094m MLP FPE 최저 — 최소 필요 window
MLP8 (baseline)93.5% 96.6%0.102m exp66 기준점
MLP1689.6% 96.6%0.102m val_acc 하락 (입력 희석), CL 유지 — flat concat 한계
HeadWindowval_accCL ↑FPE ↓비고
LSTM495.1% 96.6%0.123m 짧은 window에서도 96.6% 달성
LSTM8 (baseline, exp70)95.7% 96.6%0.112m exp70 기준점
LSTM1696.9% 96.6%0.080m 전체 실험 최저 FPE — 긴 맥락 활용
HeadWindowval_accCL ↑FPE ↓비고
MLP294.9%93.1%0.145m최소 window 부족
MLP492.9%96.6%0.094mMLP FPE 최저
MLP8 ★93.5%96.6%0.102mbaseline
MLP1689.6%96.6%0.102m
LSTM495.1%96.6%0.123m
LSTM8 (exp70)95.7%96.6%0.112mbaseline
LSTM1696.9%96.6%0.080m전체 FPE 최저
핵심: MLP: w≥4에서 CL 96.6% 포화, w=2에서만 93.1%로 하락 — 최소 4프레임 히스토리 필요. FPE는 MLP w=4 (0.094m) · LSTM w=16 (0.080m)이 양 극단 최저.
MLP w=4가 FPE 0.094m으로 w=8 baseline보다 낮음 — 너무 긴 윈도우는 MLP에 noise. LSTM은 모든 window에서 96.6% 유지, w=16에서 전체 최저 FPE 0.080m 달성 — 긴 맥락 sequential 처리 강점. ※ 동일 30-ep fixed val set 기준 (Exp66 split, seed=42)
CH35 상세: research_story.html#ch35 · 표 2-D: docs/v5/TABLE1_PAPER_DRAFT.md

G3  ·  모든 실험 통합 비교 (Section F + G 전체 — 파이프라인 × Head × Window)

이 Hub에서 테스트된 모든 모델 · 조건의 CL 성능. 파이프라인(§F)부터 Head/Window(§G)까지 한눈에.

Section실험파이프라인cx 소스HeadWindowCL ↑FPE ↓
※ 동일 fixed val set 30ep 기준 (Exp66 split, seed=42) — 전 모델 공정 비교
§Fexp65b단순 MLPbase PG2MLP810.3%0.941m
§Fexp54L2+augHSVMLP896.6%0.110m
§Fexp66 ★L2+augbase PG2MLP896.6%0.102m
§Fexp67L2+augexp59 LoRAMLP896.6%0.111m
§G1exp68L2+augbase PG2Linear869.0%0.377m
§G1exp69L2+augbase PG2FCHead893.1%0.113m
§G1exp70L2+augbase PG2LSTM896.6%0.112m
§G1exp66 ★L2+augbase PG2MLP896.6%0.102m
§G2L2+augHSVMLP293.1%0.145m
§G2L2+augHSVMLP496.6%0.094m
§G2exp66 ★L2+augbase PG2MLP896.6%0.102m
§G2L2+augHSVMLP1696.6%0.102m
§G2L2+augbase PG2LSTM496.6%0.123m
§G2exp70L2+augbase PG2LSTM896.6%0.112m
§G2L2+augbase PG2LSTM1696.6%0.080m
파이프라인: 10.3% → 96.6% (×9.4배)
Head: Linear 69% → MLP=LSTM 96.6% · FC 93.1%
Window: MLP w≥4 96.6%, w=2 93.1% · LSTM w=16 FPE 최저 0.080m