교수님이 보신 "이상한 에피소드 · 오예측"을 grounding 관점에서 해부한다.
측면·OOD에서 base PaliGemma2가 바구니를 안정적으로 잡는다면 → 오예측은 grounding이 아닌 action head 문제다.
→ §G에서 Action Head · Window 크기 Ablation 전체 결과 확인 가능 (CH34/CH35 연동)
"<image>detect gray basket""<grounding><phrase> gray basket</phrase>" (Kosmos 전용 grounding 문법)<loc> 좌표 또는 Kosmos patch 좌표)를 출력한다. 학습/튜닝 없이 프롬프트만으로 위치를 묻는 zero-shot grounding.
| 모델 | 백본 / LoRA | hit | cx_MAE | full-frame | OOD 오탐 | 판정 |
|---|---|---|---|---|---|---|
| base PG2 | PaliGemma2 / 없음 | 98% | 0.126 | 0% | 9% | ✅ 최균형 |
| pure Kosmos-2 | Kosmos-2 / 없음 | 100% | 0.123 | 0% | 100% | 바구니↑·OOD구분 제로 |
| exp57 | PaliGemma1 / LM | 84% | 0.115 | 0% | 9% | hit↓·cx정밀 |
| exp58 | PaliGemma2 / LM | 100% | 0.191 | 57% | 27% | 부분붕괴+OOD최악 |
| exp59 | PaliGemma2 / LM hard-neg | 98% | 0.129 | 6% | 0% | OOD억제 최고 |
| exp64 | PaliGemma2 / vision | 94% | 0.150 | 92% | 9% | full-frame 붕괴 |
| exp56 | Kosmos-2 / LM | 0% | — | — | — | LoRA가 Kosmos grounding 파괴 |
| 모델 | left_left | right_right | left_right | right_left | 판정 |
|---|---|---|---|---|---|
| base PG2 | 100/0 | 83/0 | 100/0 | 83/0 | ✅ 깔끔(miss=f0만) |
| pure Kosmos | 100/0 | 100/0 | 100/0 | 100/0 | 측면 hit 최고(단 OOD 100%) |
| exp57(PG1) | 100/0 | 61/0 | 94/0 | 78/0 | 측면 검출률 하락 |
| exp58 | 100/61 | 100/56 | 100/78 | 100/39 | 부분 full-frame 붕괴 |
| exp59 | 100/6 | 83/6 | 100/6 | 83/11 | 비교적 깔끔 |
| exp64 | 100/100 | 100/100 | 100/100 | 94/94 | 측면도 full-frame 전면붕괴 |
| exp56(Kosmos) | 0/0 | 0/0 | 0/0 | 0/0 | LoRA가 Kosmos 파괴 |
| 모델 | basket극단 | 로봇거리 | 대각선 | 저조도 | 판정 |
|---|---|---|---|---|---|
| base PG2 | 92/0 | 94/0 | 95/2 | 100/0 | ✅ 전부 깔끔 |
| pure Kosmos | 100/0 | 100/0 | 100/0 | 100/0 | 견고(단 OOD 100%) |
| exp57(PG1) | 86/3 | 86/0 | 88/2 | 92/0 | hit 낮음, full 소량 |
| exp59 | 92/8 | 92/22 | 95/14 | 100/17 | 극단조건 full-frame 붕괴 |





| 변형 | hit | cx_drift | full-frame | 변형 | hit | cx_drift | full-frame | |
|---|---|---|---|---|---|---|---|---|
| original | 100% | 0.000 | 0% | downscale | 100% | 0.001 | 0% | |
| bright_up | 100% | 0.001 | 0% | rotate +12° | 100% | 0.008 | 0% | |
| bright_down | 100% | 0.001 | 0% | rotate −12° | 100% | 0.009 | 0% | |
| low_contrast | 92% | 0.001 | 0% | hflip(좌우반전) | 100% | 0.002 | 0% | |
| blur | 100% | 0.001 | 0% | occlude(부분가림) | 100% | 0.002 | 0% | |
| noise | 100% | 0.001 | 0% |
| 모델 | 회전±12° | 가림 | 저대비 | 나머지(밝기·블러·노이즈·저해상도·반전) |
|---|---|---|---|---|
| base PG2 | 100/0 | 100/0 | 92/0 | 전부 100/0 |
| pure Kosmos | 100/0 | 100/0 | 100/0 | 전부 100/0 |
| exp57(PG1) | 100/0 | 100/0 | 100/0 | 전부 100/0 |
| exp59 | 100/8~16 | 100/8 | 100/0 | 나머지 100/0 |







1. 측면·OOD에서 base PG2가 견고(주행구간 추적 100%, full-frame 0%) → 오예측의 원인은 grounding이 아니다. 실주행 궤적 붕괴는 action head(조향)·action chunk·데이터 분포 쪽 문제로 좁혀진다. 유일한 grounding 약점은 출발 첫 프레임(바구니 화면 밖)인데, 이는 STOP/대기 로직으로 처리할 영역이지 grounding 모델 교체로 풀 문제가 아니다.
2. 7개 모델 중 base PG2를 종합적으로 이긴 것은 없다. pure Kosmos는 바구니 검출은 100%지만 의자에 100% 오탐(negative 구분 불가), vision-LoRA(exp64)·exp58은 full-frame 붕괴, exp56은 LoRA가 Kosmos를 파괴. exp59만 OOD 억제(0%)라는 부분 미덕이나 cx 안정성은 더 나쁨.
2-1. LoRA의 보편적 위험: Kosmos LoRA(exp56)·PG2 vision LoRA(exp64)·PG2 LM LoRA(exp58) 모두 grounding을 악화시켰다. 소규모 데이터 LoRA가 사전학습된 grounding 표현을 망가뜨린다는 일관된 신호.
3. 데이터 부족 문제 아님: 11가지 증강(회전·반전·블러·저해상도·가림·조명)에 base PG2가 hit 100%·중심이동 ~0으로 견고. 사전학습 지식이 소규모 데이터의 빈틈을 메운다. 유일 약점 = 저대비(92%) → 저조도 데이터가 보강 1순위.
4. 결론: grounding = base PG2 고정. 다음 작업은 의자 객체 데이터 재수집 + Stage2 action 재학습으로 오예측(action)을 직접 공략.
scripts/eval_grounding_hub.py · scripts/grounding_sideangle_episodes.py · 데이터: docs/v5/grounding_hub/hub_results.json| 실험 | cx 소스 | 파이프라인 | val_acc | CL 성공률 | 평균 FPE |
|---|---|---|---|---|---|
| exp54 (참고) | HSV | L2-norm + bbox 증강 | 92.6% | 96.6% | 0.09m |
| exp65b (대조) | base PG2 | 단순 MLP | 90.2% | 10.3% | — |
| exp66 ✅ | base PG2 | L2-norm + bbox 증강 | 93.5% | 96.6% | 0.10m |
| exp67 ✅ | exp59 LoRA | L2-norm + bbox 증강 | 94.5% | 96.6% | 0.11m |
1. cx 소스(grounding 품질)는 CL 성능에 영향 없음. base PG2(exp66)와 exp59 LoRA(exp67)는 cx_MAE가 다름에도 CL 성공률 96.6%로 동일. grounding 모델을 더 정밀한 것으로 교체해도 action 성능은 변하지 않는다.
2. L2-norm + bbox 증강이 유일한 성능 결정 요소. 같은 cx 소스(base PG2)라도 단순 MLP(exp65b)는 10.3%, L2-norm 파이프라인(exp66)은 96.6%. cx 좌표의 정규화 방식과 학습 증강이 grounding 품질보다 훨씬 크게 작용한다.
3. LoRA grounding 개선은 action 성능에 기여하지 않음 (음성 결과). exp67(exp59 LoRA)이 exp66(base PG2)보다 val_acc가 높지만(94.5% vs 93.5%) CL 성공률은 동일. grounding 정밀도를 높여도 현재 파이프라인에서는 포화(ceiling effect)에 도달해 있다. → LoRA 개선 방향은 현 단계에서 우선순위가 낮다.
scripts/train_active/run_v5_ablations.sh · config: configs/v5_ablation/
· → Section G에서 Head/Window Ablation 전체 결과 확인
파이프라인 고정(L2-norm + bbox aug), cx 소스 고정(base PG2, exp68/69/70 공통), Head만 변경. RoboVLMs 계열 decoder와 우리 ActionMLP의 직접 비교.
| 실험 | Head | 원형 | val_acc | CL ↑ | FPE ↓ | 비고 |
|---|---|---|---|---|---|---|
| exp68 | Linear | 1-layer FC (단순 선형) | 76.8% | 69.0% | 0.377m | 비선형성·용량 부족 |
| exp69 | FCHead | RoboVLMs FCDecoder (deep MLP, no temporal) | 95.3% | 93.1% | 0.109m | depth 필요. temporal 없으면 부족 |
| exp70 | LSTMHead | RoboVLMs MobileVLAClassificationDecoder | 95.7% | 96.6% | 0.112m | temporal 有 · ActionMLP와 동등 (CL 96.6%) |
| exp66 | ActionMLP (ours) ★ | Window-flattened flat MLP | 93.5% | 96.6% | 0.102m | LSTM과 CL 동등, FPE 더 낮음 (0.102m vs 0.112m) · 더 경량 |
scripts/eval_exp54_stage2_v2_closedloop.py파이프라인 고정(L2+aug), window 크기만 변경. MLP w=2/4/16은 HSV cx 소스, w=8(baseline exp66)은 base PG2. LSTM은 sequential SEQ_DIM=260 per-frame. ※ 동일 30-ep fixed val set 기준
| Head | Window | val_acc | CL ↑ | FPE ↓ | 비고 |
|---|---|---|---|---|---|
| MLP | 2 | 94.9% | 93.1% | 0.145m | CL 하락 — 2프레임으로는 방향 파악 불충분 |
| MLP | 4 | 92.9% | 96.6% | 0.094m | MLP FPE 최저 — 최소 필요 window |
| MLP | 8 (baseline) | 93.5% | 96.6% | 0.102m | exp66 기준점 |
| MLP | 16 | 89.6% | 96.6% | 0.102m | val_acc 하락 (입력 희석), CL 유지 — flat concat 한계 |
| Head | Window | val_acc | CL ↑ | FPE ↓ | 비고 |
|---|---|---|---|---|---|
| LSTM | 4 | 95.1% | 96.6% | 0.123m | 짧은 window에서도 96.6% 달성 |
| LSTM | 8 (baseline, exp70) | 95.7% | 96.6% | 0.112m | exp70 기준점 |
| LSTM | 16 | 96.9% | 96.6% | 0.080m | 전체 실험 최저 FPE — 긴 맥락 활용 |
| Head | Window | val_acc | CL ↑ | FPE ↓ | 비고 |
|---|---|---|---|---|---|
| MLP | 2 | 94.9% | 93.1% | 0.145m | 최소 window 부족 |
| MLP | 4 | 92.9% | 96.6% | 0.094m | MLP FPE 최저 |
| MLP | 8 ★ | 93.5% | 96.6% | 0.102m | baseline |
| MLP | 16 | 89.6% | 96.6% | 0.102m | |
| LSTM | 4 | 95.1% | 96.6% | 0.123m | |
| LSTM | 8 (exp70) | 95.7% | 96.6% | 0.112m | baseline |
| LSTM | 16 | 96.9% | 96.6% | 0.080m | 전체 FPE 최저 |
docs/v5/TABLE1_PAPER_DRAFT.md이 Hub에서 테스트된 모든 모델 · 조건의 CL 성능. 파이프라인(§F)부터 Head/Window(§G)까지 한눈에.
| Section | 실험 | 파이프라인 | cx 소스 | Head | Window | CL ↑ | FPE ↓ |
|---|---|---|---|---|---|---|---|
| §F | exp65b | 단순 MLP | base PG2 | MLP | 8 | 10.3% | 0.941m |
| §F | exp54 | L2+aug | HSV | MLP | 8 | 96.6% | 0.110m |
| §F | exp66 ★ | L2+aug | base PG2 | MLP | 8 | 96.6% | 0.102m |
| §F | exp67 | L2+aug | exp59 LoRA | MLP | 8 | 96.6% | 0.111m |
| §G1 | exp68 | L2+aug | base PG2 | Linear | 8 | 69.0% | 0.377m |
| §G1 | exp69 | L2+aug | base PG2 | FCHead | 8 | 93.1% | 0.113m |
| §G1 | exp70 | L2+aug | base PG2 | LSTM | 8 | 96.6% | 0.112m |
| §G1 | exp66 ★ | L2+aug | base PG2 | MLP | 8 | 96.6% | 0.102m |
| §G2 | — | L2+aug | HSV | MLP | 2 | 93.1% | 0.145m |
| §G2 | — | L2+aug | HSV | MLP | 4 | 96.6% | 0.094m |
| §G2 | exp66 ★ | L2+aug | base PG2 | MLP | 8 | 96.6% | 0.102m |
| §G2 | — | L2+aug | HSV | MLP | 16 | 96.6% | 0.102m |
| §G2 | — | L2+aug | base PG2 | LSTM | 4 | 96.6% | 0.123m |
| §G2 | exp70 | L2+aug | base PG2 | LSTM | 8 | 96.6% | 0.112m |
| §G2 | — | L2+aug | base PG2 | LSTM | 16 | 96.6% | 0.080m |