V5 프로젝트 Exp01 ~ Exp54까지 — 모든 실험의 결과, 판단 근거, 계보를 한 화면에
Kosmos-2 + LoRA로 이미지+언어 → action 직접 예측. Google-Robot backbone 도입 후 text attention=0% 구조 문제 발견. Exp01~Exp16이 이 계열. PM이 높아도 CL 0%가 반복되며 end-to-end 한계를 증명.
| 실험 | 날짜 | 카테고리 | 구조 / 핵심 변경 | PM / Val Acc | CL 성공률 | 상태 | 핵심 발견 / 노트 |
|---|---|---|---|---|---|---|---|
| Exp01 | Apr 2026 | End2End | 전체 데이터(150 ep) baseline, 8-class | 낮음 | — | 폐기 | FORWARD shortcut 강하게 발현. 문제의 출발점. |
| Exp02 | Apr 2026 | End2End | 직선(center_straight) 제거 | 낮음 | — | 폐기 | class ratio 조절만으로는 FORWARD collapse 해결 불가. |
| Exp03 | Apr 2026 | End2End | alignment/norm loss 보강 | 낮음 | — | 폐기 | val_loss 개선 ≠ policy 개선. optimization gain / policy gain은 별개. |
| Exp04 | Apr 2026 | End2End | Google-Robot backbone 첫 도입, 8-class | val_loss 0.776 | 0% | 폐기 | val_loss 착시 첫 사례. PM 0% collapse — loss 좋아도 실제 정책 무너짐. |
| Exp05 | Apr 2026 | End2End | action-aware instruction, temporal consistency | 낮음 | — | 폐기 | instruction 설계 ≠ text path 활용. prompt만으로 해결 불가. |
| Exp06 | Apr 2026 | End2End | pure HF alignment, tokenizer 정렬 | 낮음 | — | 폐기 | grounding token 호환성 개선. 근본 해결은 아님. |
| Exp07 | Apr 2026 | End2End | path-type grounding instruction | 낮음 | — | 폐기 | text-ignore 확인 이후 무의미 판정. |
| Exp08 | Apr 2026 | End2End | center-goal awareness, stop/goal prompt | 낮음 | — | 폐기 | prompt conditioning 효과 없음. |
| Exp09 | Apr 2026 | End2End | 정리된 end-to-end baseline, 8-class | 중간 | — | 폐기 | bias 잔존. 중간 이정표 역할만. |
| Exp10 | Apr 2026 | Grounding | BBox grounding 직접 학습 (bbox regression) | IoU 0.87 | — | 참조용 | teacher-forced val_loss 0.012. rule 기반 전이 34.4%. "볼 수는 있지만 못 움직임". |
| Exp11 | Apr 14~16 | End2End | Google-Robot + 8-class, 최종 end-to-end baseline | 58.6% | 0% | baseline | val_loss 1.010. CL 0% — FPE 1.45m. text attention 0% 측정 완료. end-to-end 한계 확정. |
| Exp12 | Apr 2026 | Oracle | oracle 성격 검증 | — | — | 분석용 | 구조 문제 의심 강화. |
| Exp13 | Apr 2026 | End2End | instruction embedding → action head 명시 주입 | 낮음 | — | 폐기 | left/right 구분 실패. 후단 주입만으로 conditioning 불가. |
| Exp14 S1 | Apr 17 | Decomp | MLP (bbox history 32-dim only) | 68.4% | — | 완료 | Exp11(58.6%) 초과. bbox history만으로도 end-to-end 압도. decomposition 첫 증명. |
| Exp14 S2 | Apr 17 | Decomp | MLP (bbox 32 + 16×16 grayscale image 256) | 75.9% | 66.7% | baseline | 5-seed 76.6±1.6%. FPE 0.55m. Exp11 CL 0% → 66.7%. 당시 최강 practical baseline. |
| Exp15 | Apr 2026 | Ablation | VLM 완전 frozen, action head만 학습 | 37.5% | — | 폐기 | text attention 0% 재확인. Google-Robot backbone 구조적 문제 확정. |
| Exp16 | Apr 2026 | End2End | 전체 150 ep (center_straight 포함), 8-class | 학습 중단 | — | 중단 | 교수 프로토콜 Step 2. Exp49 GoalNav로 우회 해결돼 이 계열 종료. |
"text attention이 왜 0%인가"를 규명하는 계열. Pure HF Kosmos-2, decoder LoRA, 다양한 conditioning 시도. 모든 접근이 text attn=0%를 확인 → Google-Robot post-training이 text 경로를 구조적으로 붕괴시켰음 결론.
| 실험 | 날짜 | 카테고리 | 구조 / 핵심 변경 | PM | CL | 상태 | 핵심 발견 / 노트 |
|---|---|---|---|---|---|---|---|
| Exp17~18 | Apr 21 | Text fix | Pure HF backbone 실험 (Google-Robot 아님) | 다양 | — | 폐기 | text attn 여전히 0%. Pure HF도 동일 문제. backbone 교체만으론 해결 불가. |
| Exp19~20 | Apr 2026 | Text fix | bbox proxy signal 실험 (grounding aux) | 다양 | — | 폐기 | proxy signal로 grounding 보강 시도. text pathway 미개선. |
| Exp21~24 | Apr 2026 | Text fix | decoder LoRA, last-4 layer LoRA 변형 | 다양 | 0% | 폐기 | text attn=0% 모든 시도에서 재확인. Phase A FAIL 최종 선언. |
scripts/measure_attention.py
end-to-end를 포기하지 않고 objective / sampling / preprocessing을 다양하게 조합. Exp25가 당시 best practical baseline(CL 55.6%). Exp26은 PM 높지만 CL 0% — PM/CL 괴리 재확인.
| 실험 | 날짜 | 카테고리 | 구조 / 핵심 변경 | PM | CL | 상태 | 핵심 발견 / 노트 |
|---|---|---|---|---|---|---|---|
| Exp25 | Apr 22 | End2End | balanced objective (path_type 균등), 전체 150ep | 52.38% | 55.6% | 당시 baseline | 당시 실전 기준 best. FPE 0.382, TLD 0.936. 이후 Exp46에 의해 대체. |
| Exp26 | Apr 22 | Ablation | direct224 preprocessing (letterbox 없이 직접 resize) | 70.24% | 0% | 반례 | PM/CL 괴리 극단 사례. PM 좋아도 CL 0%. FPE 1.189. PM 신뢰도 문제 재확인. |
| Exp27 | Apr 23 | Ablation | letterbox224 preprocessing | 15.48% | 33.3% | reference | Exp25보다 전반 약함. FPE 0.932. |
| Exp28 | Apr 23 | Ablation | grounding aux + turn-family oversampling | 38.10% | 0% | 폐기 | bbox loss 추가했지만 실제 effective share는 여전히 action 99.6%. rollout 개선 없음. |
| Exp29 | Apr 23 | Ablation | coarse-only 5ep short ablation | 21.43% | — | 폐기 | IoU 0.0. coarse만으로는 bbox recovery 불가. |
| Exp30 | Apr 24 | Ablation | bbox+coarse 5ep short ablation | 14.29% | — | 폐기 | IoU 0.0. bbox 추가해도 악화. 빠른 수렴 불가. |
| Exp31 | Apr 24 | Ablation | learned loss mixing 5ep | 평가 미완 | — | 중단 | 학습 완료, PM/rollout 미평가. 이후 decomposition으로 방향 전환. |
left-only minimal run, pure HF controlled ablation, object recognition proof, cross-attention 등 다양한 방향. Exp35 left-only 5ep에서 PM 56% 전부 FORWARD collapse 확인. Exp40에서 object recognition 기초 증명. Exp41~43 Phase A/B/C/D 체계적 진단 후 모든 end-to-end 계열 종료 선언.
| 실험 | 날짜 | 카테고리 | 핵심 변경 | PM | CL | 상태 | 핵심 발견 |
|---|---|---|---|---|---|---|---|
| Exp32~34 | Apr 2026 | Text fix | Pure HF backbone controlled ablation 시리즈 | 낮음 | — | 폐기 | Text attn=0% 재확인. backbone 무관 문제 확정. |
| Exp35 | Apr 25 | Text fix | left-only 5ep, last-4 decoder LoRA | 56.16% | FORWARD collapse | 폐기 | 422 프레임 전부 FORWARD 예측. 학습 split에서도 collapse. end-to-end 방식 최종 포기. |
| Exp36~39 | Apr 2026 | Recognition | object recognition 단계별 증명 실험 | 분석용 | — | 참조용 | grounding bbox overlay 생성. initial frame 인식률 분석. |
| Exp40 | Apr 2026 | Recognition | object recognition proof (bbox truth 검증) | 분석용 | — | 참조용 | bbox_truth 18개 초기 프레임 기반 인식률 측정. grounding 기초 증명 문서화. |
| Exp41 | Apr~May 2026 | Phase A/B/C | prompt lock-in, phase 체계 진단 | 다양 | 0% | 분석 완료 | Phase A/B/C 전체 FAIL 공식 선언. text 경로 회복 불가능 결론. |
| Exp42 | May 2026 | Counterfactual | counterfactual 데이터 augmentation (config flag) | — | — | 폐기 | counterfactual은 구현됨. end-to-end 경로가 막혀 효과 없음. |
| Exp43 | May 2026 | Phase D | cross-attention 기반 text conditioning | — | — | 폐기 | Phase D 최종 시도. text path 완전 사망 확정. decomposition으로 전환. |
| Exp44~45 | May 2026 | Misc | 기타 보강 실험 | — | — | 폐기 | GoalNav 전환 이전 마지막 탐색들. |
Kosmos-2 grounding → goal_pos(cx0) → MLP 구조로 전환. Exp46에서 CL 100% 첫 달성. Exp47은 text embedding 추가했으나 paraphrase 74.1%로 실패. Exp49에서 goal proximity signal로 paraphrase 100% + CL 100% 동시 달성. 이후 augmentation 실험(Exp50~52)에서 Exp49가 여전히 최선 확인.
| 실험 | 날짜 | 카테고리 | 구조 / 핵심 변경 | PM | CL | paraphrase | 상태 | 핵심 발견 |
|---|---|---|---|---|---|---|---|---|
| Exp46 | May 2026 | GoalNav | MLP (bbox 32 + vision 1024), 전체 150ep | 93.2% | 100% | N/A | 완료 | GoalNav 구조 첫 100% CL. Exp14 Step2 66.7% → 100% 도약. |
| Exp47 | May 2026 | GoalNav | +text embedding (2048-dim, path_type instruction) | 98.7% | 100% | 74.1% ❌ | 한계 확인 | PM 최고지만 paraphrase 실패 → 언어 외운 것. text fingerprinting 문제. |
| Exp48 | May 2026 | GoalNav | 중간 탐색 실험 | — | — | — | 폐기 | Exp49 설계를 위한 bridge 실험. |
| Exp49 ⭐ | May 11 | GoalNav | goal proximity signal (cx0,cy0,area0) — 언어→기하학 | 96.4% | 100% | 100% ✅ | 현재 BEST | 5-seed 95.1%±0.7%. FPE 0.081m. paraphrase 45/45 일치. 실로봇 평가 중(96.7% 오프라인 CL). |
| Exp50 | May 2026 | Aug | +horizontal flip augmentation | 92.0% | 100% | 100% ✅ | Exp49 열위 | flip 6/9 path에서 오히려 하락. aug 불필요 첫 신호. |
| Exp51 | May 11 | Aug | +random crop augmentation | 93.3% | 100% | 100% ✅ | Exp49 열위 | crop 78/100%. Exp49(96.4%) 대비 -3.1%p. augmentation 불필요 확정. |
| Exp52 | May 2026 | Aug | aug 조합 추가 비교 | Exp49 열위 | 100% | — | 참조용 | 모든 augmentation 조합에서 Exp49 무증강이 최선. 최종 확정. |
교수님 질문 "박스를 본 건가, 텍스트를 외운 건가"에 구조적으로 답하기 위한 2-Stage 접근. Exp53은 bbox fake detection 문제 발견. Exp54는 Stage 1(CLIP contrastive)로 basket 인식 먼저 증명 후 Stage 2(action head)로 navigation 학습.
| 실험 | 날짜 | 카테고리 | 구조 / 핵심 변경 | PM / Val Acc | CL | 상태 | 핵심 발견 |
|---|---|---|---|---|---|---|---|
| Exp53 | May 18 | CLIP LoRA | CLIP LoRA (layers 16-23, r=16) + MLP end-to-end | 94.7% | 미평가 | 진단 완료 | grounding live 탐지 0%. bbox_dataset 실제 매칭 17%(83%는 쓰레기통/에어컨). 높은 PM = "복도 암기". basket 인식 아님. |
| Exp54 S1 v1 | May 19 | CLIP contrastive | 텍스트-이미지 정렬 (에피소드 단위 레이블) | retrieval 100% | — | 완료 | val_acc 100%이지만 early/late 격차 0%p → 에피소드 패턴 암기. frame-level 재학습 필요. |
| Exp54 S1 v2 | May 22 | CLIP contrastive | frame-level cx_det 레이블 / hybrid: center=Kosmos-2 cx, left/right=HSV | 98.1% | — | 완료 ✅ | 1,844 consistent 프레임. center 96.7% 복구. Zero-shot linear probe 96.6% — frozen CLIP이 이미 basket 위치 인코딩. masking → center 100% flip (인과 증거). |
| Exp54 S2 | May 22~ | Action Head | Stage 1 v2 frozen + MLP action head (재학습 예정) | — | — | ⏳ 예정 | v2 Stage 1 위에 action head 재학습. 목표: Exp49(96.4%) 초과 후 closed-loop 평가. |
| 실험 | PM | CL | 이정표 의미 |
|---|---|---|---|
| Exp11 | 58.6% | 0% | End-to-End 한계 확정. text attn=0%, CL 0%. |
| Exp14 S2 | 75.9% | 66.7% | Decomposition 첫 증명. Exp11 CL 0% → 66.7% 도약. |
| Exp25 | 52.4% | 55.6% | End-to-End 마지막 시도에서의 최선. |
| Exp46 | 93.2% | 100% | GoalNav 100% 첫 달성. 방향 전환의 성과. |
| Exp47 | 98.7% | 100% | PM 최고. paraphrase 실패 → "언어 외운 것" 증명. |
| Exp49 ⭐ | 96.4% | 100% | 현재 최강. paraphrase 100%, 5-seed 안정. 실로봇 평가 중. |
| Exp53 | 94.7% | 미평가 | CLIP LoRA 첫 시도. bbox fake 문제 발견 → Exp54 설계 계기. |
| Exp54 S1 v2 | 98.1% | — | frame-level 재학습. frozen probe 96.6% + masking 100% flip → "basket 본다" 5-track 증명. |
| Exp54 S2 | 예정 | 예정 | v2 Stage 1 위에 action head 재학습 → closed-loop 평가. |