🏠 메인 📖 연구 여정 전체 실험 총집합

전체 실험 총집합

V5 프로젝트 Exp01 ~ Exp54까지 — 모든 실험의 결과, 판단 근거, 계보를 한 화면에

54
총 실험 수
96.4%
최고 PM (Exp49)
100%
최고 CL (Exp46~52)
2
현재 진행 중
Phase A

End-to-End Policy — Backbone 탐색

Kosmos-2 + LoRA로 이미지+언어 → action 직접 예측. Google-Robot backbone 도입 후 text attention=0% 구조 문제 발견. Exp01~Exp16이 이 계열. PM이 높아도 CL 0%가 반복되며 end-to-end 한계를 증명.

실험날짜카테고리구조 / 핵심 변경 PM / Val AccCL 성공률상태핵심 발견 / 노트
Exp01 Apr 2026 End2End 전체 데이터(150 ep) baseline, 8-class 낮음 폐기 FORWARD shortcut 강하게 발현. 문제의 출발점.
Exp02 Apr 2026 End2End 직선(center_straight) 제거 낮음 폐기 class ratio 조절만으로는 FORWARD collapse 해결 불가.
Exp03 Apr 2026 End2End alignment/norm loss 보강 낮음 폐기 val_loss 개선 ≠ policy 개선. optimization gain / policy gain은 별개.
Exp04 Apr 2026 End2End Google-Robot backbone 첫 도입, 8-class val_loss 0.776 0% 폐기 val_loss 착시 첫 사례. PM 0% collapse — loss 좋아도 실제 정책 무너짐.
Exp05 Apr 2026 End2End action-aware instruction, temporal consistency 낮음 폐기 instruction 설계 ≠ text path 활용. prompt만으로 해결 불가.
Exp06 Apr 2026 End2End pure HF alignment, tokenizer 정렬 낮음 폐기 grounding token 호환성 개선. 근본 해결은 아님.
Exp07 Apr 2026 End2End path-type grounding instruction 낮음 폐기 text-ignore 확인 이후 무의미 판정.
Exp08 Apr 2026 End2End center-goal awareness, stop/goal prompt 낮음 폐기 prompt conditioning 효과 없음.
Exp09 Apr 2026 End2End 정리된 end-to-end baseline, 8-class 중간 폐기 bias 잔존. 중간 이정표 역할만.
Exp10 Apr 2026 Grounding BBox grounding 직접 학습 (bbox regression) IoU 0.87 참조용 teacher-forced val_loss 0.012. rule 기반 전이 34.4%. "볼 수는 있지만 못 움직임".
Exp11 Apr 14~16 End2End Google-Robot + 8-class, 최종 end-to-end baseline 58.6% 0% baseline val_loss 1.010. CL 0% — FPE 1.45m. text attention 0% 측정 완료. end-to-end 한계 확정.
Exp12 Apr 2026 Oracle oracle 성격 검증 분석용 구조 문제 의심 강화.
Exp13 Apr 2026 End2End instruction embedding → action head 명시 주입 낮음 폐기 left/right 구분 실패. 후단 주입만으로 conditioning 불가.
Exp14 S1 Apr 17 Decomp MLP (bbox history 32-dim only) 68.4% 완료 Exp11(58.6%) 초과. bbox history만으로도 end-to-end 압도. decomposition 첫 증명.
Exp14 S2 Apr 17 Decomp MLP (bbox 32 + 16×16 grayscale image 256) 75.9% 66.7% baseline 5-seed 76.6±1.6%. FPE 0.55m. Exp11 CL 0% → 66.7%. 당시 최강 practical baseline.
Exp15 Apr 2026 Ablation VLM 완전 frozen, action head만 학습 37.5% 폐기 text attention 0% 재확인. Google-Robot backbone 구조적 문제 확정.
Exp16 Apr 2026 End2End 전체 150 ep (center_straight 포함), 8-class 학습 중단 중단 교수 프로토콜 Step 2. Exp49 GoalNav로 우회 해결돼 이 계열 종료.

Phase B

Text Attention 사망 확인 — Exp17~Exp24

"text attention이 왜 0%인가"를 규명하는 계열. Pure HF Kosmos-2, decoder LoRA, 다양한 conditioning 시도. 모든 접근이 text attn=0%를 확인 → Google-Robot post-training이 text 경로를 구조적으로 붕괴시켰음 결론.

실험날짜카테고리구조 / 핵심 변경 PMCL상태핵심 발견 / 노트
Exp17~18 Apr 21 Text fix Pure HF backbone 실험 (Google-Robot 아님) 다양 폐기 text attn 여전히 0%. Pure HF도 동일 문제. backbone 교체만으론 해결 불가.
Exp19~20 Apr 2026 Text fix bbox proxy signal 실험 (grounding aux) 다양 폐기 proxy signal로 grounding 보강 시도. text pathway 미개선.
Exp21~24 Apr 2026 Text fix decoder LoRA, last-4 layer LoRA 변형 다양 0% 폐기 text attn=0% 모든 시도에서 재확인. Phase A FAIL 최종 선언.
Phase B 최종 결론: Exp17~41C 모두 text attn=0%. Google-Robot post-training이 이미 text 경로 붕괴. 우리 LoRA/학습과 무관. 측정 스크립트: scripts/measure_attention.py

Phase C

Objective / Preprocessing Ablation — Exp25~Exp31

end-to-end를 포기하지 않고 objective / sampling / preprocessing을 다양하게 조합. Exp25가 당시 best practical baseline(CL 55.6%). Exp26은 PM 높지만 CL 0% — PM/CL 괴리 재확인.

실험날짜카테고리구조 / 핵심 변경 PMCL상태핵심 발견 / 노트
Exp25 Apr 22 End2End balanced objective (path_type 균등), 전체 150ep 52.38% 55.6% 당시 baseline 당시 실전 기준 best. FPE 0.382, TLD 0.936. 이후 Exp46에 의해 대체.
Exp26 Apr 22 Ablation direct224 preprocessing (letterbox 없이 직접 resize) 70.24% 0% 반례 PM/CL 괴리 극단 사례. PM 좋아도 CL 0%. FPE 1.189. PM 신뢰도 문제 재확인.
Exp27 Apr 23 Ablation letterbox224 preprocessing 15.48% 33.3% reference Exp25보다 전반 약함. FPE 0.932.
Exp28 Apr 23 Ablation grounding aux + turn-family oversampling 38.10% 0% 폐기 bbox loss 추가했지만 실제 effective share는 여전히 action 99.6%. rollout 개선 없음.
Exp29 Apr 23 Ablation coarse-only 5ep short ablation 21.43% 폐기 IoU 0.0. coarse만으로는 bbox recovery 불가.
Exp30 Apr 24 Ablation bbox+coarse 5ep short ablation 14.29% 폐기 IoU 0.0. bbox 추가해도 악화. 빠른 수렴 불가.
Exp31 Apr 24 Ablation learned loss mixing 5ep 평가 미완 중단 학습 완료, PM/rollout 미평가. 이후 decomposition으로 방향 전환.

Phase D

Text Path 회복 시도 — Exp32~Exp45

left-only minimal run, pure HF controlled ablation, object recognition proof, cross-attention 등 다양한 방향. Exp35 left-only 5ep에서 PM 56% 전부 FORWARD collapse 확인. Exp40에서 object recognition 기초 증명. Exp41~43 Phase A/B/C/D 체계적 진단 후 모든 end-to-end 계열 종료 선언.

실험날짜카테고리핵심 변경 PMCL상태핵심 발견
Exp32~34 Apr 2026 Text fix Pure HF backbone controlled ablation 시리즈 낮음 폐기 Text attn=0% 재확인. backbone 무관 문제 확정.
Exp35 Apr 25 Text fix left-only 5ep, last-4 decoder LoRA 56.16% FORWARD collapse 폐기 422 프레임 전부 FORWARD 예측. 학습 split에서도 collapse. end-to-end 방식 최종 포기.
Exp36~39 Apr 2026 Recognition object recognition 단계별 증명 실험 분석용 참조용 grounding bbox overlay 생성. initial frame 인식률 분석.
Exp40 Apr 2026 Recognition object recognition proof (bbox truth 검증) 분석용 참조용 bbox_truth 18개 초기 프레임 기반 인식률 측정. grounding 기초 증명 문서화.
Exp41 Apr~May 2026 Phase A/B/C prompt lock-in, phase 체계 진단 다양 0% 분석 완료 Phase A/B/C 전체 FAIL 공식 선언. text 경로 회복 불가능 결론.
Exp42 May 2026 Counterfactual counterfactual 데이터 augmentation (config flag) 폐기 counterfactual은 구현됨. end-to-end 경로가 막혀 효과 없음.
Exp43 May 2026 Phase D cross-attention 기반 text conditioning 폐기 Phase D 최종 시도. text path 완전 사망 확정. decomposition으로 전환.
Exp44~45 May 2026 Misc 기타 보강 실험 폐기 GoalNav 전환 이전 마지막 탐색들.

Phase E ★

GoalNav MLP — 100% 성공 달성 (Exp46~Exp52)

Kosmos-2 grounding → goal_pos(cx0) → MLP 구조로 전환. Exp46에서 CL 100% 첫 달성. Exp47은 text embedding 추가했으나 paraphrase 74.1%로 실패. Exp49에서 goal proximity signal로 paraphrase 100% + CL 100% 동시 달성. 이후 augmentation 실험(Exp50~52)에서 Exp49가 여전히 최선 확인.

실험날짜카테고리구조 / 핵심 변경 PMCLparaphrase상태핵심 발견
Exp46 May 2026 GoalNav MLP (bbox 32 + vision 1024), 전체 150ep 93.2% 100% N/A 완료 GoalNav 구조 첫 100% CL. Exp14 Step2 66.7% → 100% 도약.
Exp47 May 2026 GoalNav +text embedding (2048-dim, path_type instruction) 98.7% 100% 74.1% ❌ 한계 확인 PM 최고지만 paraphrase 실패 → 언어 외운 것. text fingerprinting 문제.
Exp48 May 2026 GoalNav 중간 탐색 실험 폐기 Exp49 설계를 위한 bridge 실험.
Exp49 ⭐ May 11 GoalNav goal proximity signal (cx0,cy0,area0) — 언어→기하학 96.4% 100% 100% ✅ 현재 BEST 5-seed 95.1%±0.7%. FPE 0.081m. paraphrase 45/45 일치. 실로봇 평가 중(96.7% 오프라인 CL).
Exp50 May 2026 Aug +horizontal flip augmentation 92.0% 100% 100% ✅ Exp49 열위 flip 6/9 path에서 오히려 하락. aug 불필요 첫 신호.
Exp51 May 11 Aug +random crop augmentation 93.3% 100% 100% ✅ Exp49 열위 crop 78/100%. Exp49(96.4%) 대비 -3.1%p. augmentation 불필요 확정.
Exp52 May 2026 Aug aug 조합 추가 비교 Exp49 열위 100% 참조용 모든 augmentation 조합에서 Exp49 무증강이 최선. 최종 확정.

Phase F 🔄

CLIP LoRA 2-Stage — "박스를 본 건가" (Exp53~Exp54)

교수님 질문 "박스를 본 건가, 텍스트를 외운 건가"에 구조적으로 답하기 위한 2-Stage 접근. Exp53은 bbox fake detection 문제 발견. Exp54는 Stage 1(CLIP contrastive)로 basket 인식 먼저 증명 후 Stage 2(action head)로 navigation 학습.

실험날짜카테고리구조 / 핵심 변경 PM / Val AccCL상태핵심 발견
Exp53 May 18 CLIP LoRA CLIP LoRA (layers 16-23, r=16) + MLP end-to-end 94.7% 미평가 진단 완료 grounding live 탐지 0%. bbox_dataset 실제 매칭 17%(83%는 쓰레기통/에어컨). 높은 PM = "복도 암기". basket 인식 아님.
Exp54 S1 v1 May 19 CLIP contrastive 텍스트-이미지 정렬 (에피소드 단위 레이블) retrieval 100% 완료 val_acc 100%이지만 early/late 격차 0%p → 에피소드 패턴 암기. frame-level 재학습 필요.
Exp54 S1 v2 May 22 CLIP contrastive frame-level cx_det 레이블 / hybrid: center=Kosmos-2 cx, left/right=HSV 98.1% 완료 ✅ 1,844 consistent 프레임. center 96.7% 복구. Zero-shot linear probe 96.6% — frozen CLIP이 이미 basket 위치 인코딩. masking → center 100% flip (인과 증거).
Exp54 S2 May 22~ Action Head Stage 1 v2 frozen + MLP action head (재학습 예정) ⏳ 예정 v2 Stage 1 위에 action head 재학습. 목표: Exp49(96.4%) 초과 후 closed-loop 평가.
5-Track 증명 완료: frozen CLIP 96.6% → basket 위치 기인코딩 | early→late +8%p(left), +5%p(center) → basket 가까울수록 ↑ | center 어텐션 4.4× → basket 집중 | masking 100% flip → 인과 증거 | → "복도 패턴 암기 아님, basket을 본다" 구조적 증명.

요약

전체 흐름 — 이정표 실험만 추려서

실험PMCL이정표 의미
Exp1158.6%0%End-to-End 한계 확정. text attn=0%, CL 0%.
Exp14 S275.9%66.7%Decomposition 첫 증명. Exp11 CL 0% → 66.7% 도약.
Exp2552.4%55.6%End-to-End 마지막 시도에서의 최선.
Exp4693.2%100%GoalNav 100% 첫 달성. 방향 전환의 성과.
Exp4798.7%100%PM 최고. paraphrase 실패 → "언어 외운 것" 증명.
Exp49 ⭐ 96.4% 100% 현재 최강. paraphrase 100%, 5-seed 안정. 실로봇 평가 중.
Exp5394.7%미평가CLIP LoRA 첫 시도. bbox fake 문제 발견 → Exp54 설계 계기.
Exp54 S1 v298.1%frame-level 재학습. frozen probe 96.6% + masking 100% flip → "basket 본다" 5-track 증명.
Exp54 S2예정예정v2 Stage 1 위에 action head 재학습 → closed-loop 평가.
📖 연구 여정 (스토리) 📄 Exp54 v2 5-Track 증명 (5/22) 📄 Exp54 초기 (5/19) 📄 Exp14 교수님 업데이트 🏠 메인