MoNaVLA V5 — 전체 실험 결과 총집합 (Exp01~Exp54)

Phase A

End-to-End Policy — Backbone 탐색

Kosmos-2 + LoRA로 이미지+언어 → action 직접 예측. Google-Robot backbone 도입 후 text attention=0% 구조 문제 발견. Exp01~Exp16이 이 계열. PM이 높아도 CL 0%가 반복되며 end-to-end 한계를 증명.

실험	날짜	카테고리	구조 / 핵심 변경	PM / Val Acc	CL 성공률	상태	핵심 발견 / 노트
Exp01	Apr 2026	End2End	전체 데이터(150 ep) baseline, 8-class	낮음	—	폐기	FORWARD shortcut 강하게 발현. 문제의 출발점.
Exp02	Apr 2026	End2End	직선(center_straight) 제거	낮음	—	폐기	class ratio 조절만으로는 FORWARD collapse 해결 불가.
Exp03	Apr 2026	End2End	alignment/norm loss 보강	낮음	—	폐기	val_loss 개선 ≠ policy 개선. optimization gain / policy gain은 별개.
Exp04	Apr 2026	End2End	Google-Robot backbone 첫 도입, 8-class	val_loss 0.776	0%	폐기	val_loss 착시 첫 사례. PM 0% collapse — loss 좋아도 실제 정책 무너짐.
Exp05	Apr 2026	End2End	action-aware instruction, temporal consistency	낮음	—	폐기	instruction 설계 ≠ text path 활용. prompt만으로 해결 불가.
Exp06	Apr 2026	End2End	pure HF alignment, tokenizer 정렬	낮음	—	폐기	grounding token 호환성 개선. 근본 해결은 아님.
Exp07	Apr 2026	End2End	path-type grounding instruction	낮음	—	폐기	text-ignore 확인 이후 무의미 판정.
Exp08	Apr 2026	End2End	center-goal awareness, stop/goal prompt	낮음	—	폐기	prompt conditioning 효과 없음.
Exp09	Apr 2026	End2End	정리된 end-to-end baseline, 8-class	중간	—	폐기	bias 잔존. 중간 이정표 역할만.
Exp10	Apr 2026	Grounding	BBox grounding 직접 학습 (bbox regression)	IoU 0.87	—	참조용	teacher-forced val_loss 0.012. rule 기반 전이 34.4%. "볼 수는 있지만 못 움직임".
Exp11	Apr 14~16	End2End	Google-Robot + 8-class, 최종 end-to-end baseline	58.6%	0%	baseline	val_loss 1.010. CL 0% — FPE 1.45m. text attention 0% 측정 완료. end-to-end 한계 확정.
Exp12	Apr 2026	Oracle	oracle 성격 검증	—	—	분석용	구조 문제 의심 강화.
Exp13	Apr 2026	End2End	instruction embedding → action head 명시 주입	낮음	—	폐기	left/right 구분 실패. 후단 주입만으로 conditioning 불가.
Exp14 S1	Apr 17	Decomp	MLP (bbox history 32-dim only)	68.4%	—	완료	Exp11(58.6%) 초과. bbox history만으로도 end-to-end 압도. decomposition 첫 증명.
Exp14 S2	Apr 17	Decomp	MLP (bbox 32 + 16×16 grayscale image 256)	75.9%	66.7%	baseline	5-seed 76.6±1.6%. FPE 0.55m. Exp11 CL 0% → 66.7%. 당시 최강 practical baseline.
Exp15	Apr 2026	Ablation	VLM 완전 frozen, action head만 학습	37.5%	—	폐기	text attention 0% 재확인. Google-Robot backbone 구조적 문제 확정.
Exp16	Apr 2026	End2End	전체 150 ep (center_straight 포함), 8-class	학습 중단	—	중단	교수 프로토콜 Step 2. Exp49 GoalNav로 우회 해결돼 이 계열 종료.

Phase B

Text Attention 사망 확인 — Exp17~Exp24

"text attention이 왜 0%인가"를 규명하는 계열. Pure HF Kosmos-2, decoder LoRA, 다양한 conditioning 시도. 모든 접근이 text attn=0%를 확인 → Google-Robot post-training이 text 경로를 구조적으로 붕괴시켰음 결론.

실험	날짜	카테고리	구조 / 핵심 변경	PM	CL	상태	핵심 발견 / 노트
Exp17~18	Apr 21	Text fix	Pure HF backbone 실험 (Google-Robot 아님)	다양	—	폐기	text attn 여전히 0%. Pure HF도 동일 문제. backbone 교체만으론 해결 불가.
Exp19~20	Apr 2026	Text fix	bbox proxy signal 실험 (grounding aux)	다양	—	폐기	proxy signal로 grounding 보강 시도. text pathway 미개선.
Exp21~24	Apr 2026	Text fix	decoder LoRA, last-4 layer LoRA 변형	다양	0%	폐기	text attn=0% 모든 시도에서 재확인. Phase A FAIL 최종 선언.

Phase B 최종 결론: Exp17~41C 모두 text attn=0%. Google-Robot post-training이 이미 text 경로 붕괴. 우리 LoRA/학습과 무관. 측정 스크립트: scripts/measure_attention.py

Phase C

Objective / Preprocessing Ablation — Exp25~Exp31

end-to-end를 포기하지 않고 objective / sampling / preprocessing을 다양하게 조합. Exp25가 당시 best practical baseline(CL 55.6%). Exp26은 PM 높지만 CL 0% — PM/CL 괴리 재확인.

실험	날짜	카테고리	구조 / 핵심 변경	PM	CL	상태	핵심 발견 / 노트
Exp25	Apr 22	End2End	balanced objective (path_type 균등), 전체 150ep	52.38%	55.6%	당시 baseline	당시 실전 기준 best. FPE 0.382, TLD 0.936. 이후 Exp46에 의해 대체.
Exp26	Apr 22	Ablation	direct224 preprocessing (letterbox 없이 직접 resize)	70.24%	0%	반례	PM/CL 괴리 극단 사례. PM 좋아도 CL 0%. FPE 1.189. PM 신뢰도 문제 재확인.
Exp27	Apr 23	Ablation	letterbox224 preprocessing	15.48%	33.3%	reference	Exp25보다 전반 약함. FPE 0.932.
Exp28	Apr 23	Ablation	grounding aux + turn-family oversampling	38.10%	0%	폐기	bbox loss 추가했지만 실제 effective share는 여전히 action 99.6%. rollout 개선 없음.
Exp29	Apr 23	Ablation	coarse-only 5ep short ablation	21.43%	—	폐기	IoU 0.0. coarse만으로는 bbox recovery 불가.
Exp30	Apr 24	Ablation	bbox+coarse 5ep short ablation	14.29%	—	폐기	IoU 0.0. bbox 추가해도 악화. 빠른 수렴 불가.
Exp31	Apr 24	Ablation	learned loss mixing 5ep	평가 미완	—	중단	학습 완료, PM/rollout 미평가. 이후 decomposition으로 방향 전환.

Phase D

Text Path 회복 시도 — Exp32~Exp45

left-only minimal run, pure HF controlled ablation, object recognition proof, cross-attention 등 다양한 방향. Exp35 left-only 5ep에서 PM 56% 전부 FORWARD collapse 확인. Exp40에서 object recognition 기초 증명. Exp41~43 Phase A/B/C/D 체계적 진단 후 모든 end-to-end 계열 종료 선언.

실험	날짜	카테고리	핵심 변경	PM	CL	상태	핵심 발견
Exp32~34	Apr 2026	Text fix	Pure HF backbone controlled ablation 시리즈	낮음	—	폐기	Text attn=0% 재확인. backbone 무관 문제 확정.
Exp35	Apr 25	Text fix	left-only 5ep, last-4 decoder LoRA	56.16%	FORWARD collapse	폐기	422 프레임 전부 FORWARD 예측. 학습 split에서도 collapse. end-to-end 방식 최종 포기.
Exp36~39	Apr 2026	Recognition	object recognition 단계별 증명 실험	분석용	—	참조용	grounding bbox overlay 생성. initial frame 인식률 분석.
Exp40	Apr 2026	Recognition	object recognition proof (bbox truth 검증)	분석용	—	참조용	bbox_truth 18개 초기 프레임 기반 인식률 측정. grounding 기초 증명 문서화.
Exp41	Apr~May 2026	Phase A/B/C	prompt lock-in, phase 체계 진단	다양	0%	분석 완료	Phase A/B/C 전체 FAIL 공식 선언. text 경로 회복 불가능 결론.
Exp42	May 2026	Counterfactual	counterfactual 데이터 augmentation (config flag)	—	—	폐기	counterfactual은 구현됨. end-to-end 경로가 막혀 효과 없음.
Exp43	May 2026	Phase D	cross-attention 기반 text conditioning	—	—	폐기	Phase D 최종 시도. text path 완전 사망 확정. decomposition으로 전환.
Exp44~45	May 2026	Misc	기타 보강 실험	—	—	폐기	GoalNav 전환 이전 마지막 탐색들.

Phase E ★

GoalNav MLP — 100% 성공 달성 (Exp46~Exp52)

Kosmos-2 grounding → goal_pos(cx0) → MLP 구조로 전환. Exp46에서 CL 100% 첫 달성. Exp47은 text embedding 추가했으나 paraphrase 74.1%로 실패. Exp49에서 goal proximity signal로 paraphrase 100% + CL 100% 동시 달성. 이후 augmentation 실험(Exp50~52)에서 Exp49가 여전히 최선 확인.

실험	날짜	카테고리	구조 / 핵심 변경	PM	CL	paraphrase	상태	핵심 발견
Exp46	May 2026	GoalNav	MLP (bbox 32 + vision 1024), 전체 150ep	93.2%	100%	N/A	완료	GoalNav 구조 첫 100% CL. Exp14 Step2 66.7% → 100% 도약.
Exp47	May 2026	GoalNav	+text embedding (2048-dim, path_type instruction)	98.7%	100%	74.1% ❌	한계 확인	PM 최고지만 paraphrase 실패 → 언어 외운 것. text fingerprinting 문제.
Exp48	May 2026	GoalNav	중간 탐색 실험	—	—	—	폐기	Exp49 설계를 위한 bridge 실험.
Exp49 ⭐	May 11	GoalNav	goal proximity signal (cx0,cy0,area0) — 언어→기하학	96.4%	100%	100% ✅	현재 BEST	5-seed 95.1%±0.7%. FPE 0.081m. paraphrase 45/45 일치. 실로봇 평가 중(96.7% 오프라인 CL).
Exp50	May 2026	Aug	+horizontal flip augmentation	92.0%	100%	100% ✅	Exp49 열위	flip 6/9 path에서 오히려 하락. aug 불필요 첫 신호.
Exp51	May 11	Aug	+random crop augmentation	93.3%	100%	100% ✅	Exp49 열위	crop 78/100%. Exp49(96.4%) 대비 -3.1%p. augmentation 불필요 확정.
Exp52	May 2026	Aug	aug 조합 추가 비교	Exp49 열위	100%	—	참조용	모든 augmentation 조합에서 Exp49 무증강이 최선. 최종 확정.

Phase F 🔄

CLIP LoRA 2-Stage — "박스를 본 건가" (Exp53~Exp54)

교수님 질문 "박스를 본 건가, 텍스트를 외운 건가"에 구조적으로 답하기 위한 2-Stage 접근. Exp53은 bbox fake detection 문제 발견. Exp54는 Stage 1(CLIP contrastive)로 basket 인식 먼저 증명 후 Stage 2(action head)로 navigation 학습.

실험	날짜	카테고리	구조 / 핵심 변경	PM / Val Acc	CL	상태	핵심 발견
Exp53	May 18	CLIP LoRA	CLIP LoRA (layers 16-23, r=16) + MLP end-to-end	94.7%	미평가	진단 완료	grounding live 탐지 0%. bbox_dataset 실제 매칭 17%(83%는 쓰레기통/에어컨). 높은 PM = "복도 암기". basket 인식 아님.
Exp54 S1 v1	May 19	CLIP contrastive	텍스트-이미지 정렬 (에피소드 단위 레이블)	retrieval 100%	—	완료	val_acc 100%이지만 early/late 격차 0%p → 에피소드 패턴 암기. frame-level 재학습 필요.
Exp54 S1 v2	May 22	CLIP contrastive	frame-level cx_det 레이블 / hybrid: center=Kosmos-2 cx, left/right=HSV	98.1%	—	완료 ✅	1,844 consistent 프레임. center 96.7% 복구. Zero-shot linear probe 96.6% — frozen CLIP이 이미 basket 위치 인코딩. masking → center 100% flip (인과 증거).
Exp54 S2	May 22~	Action Head	Stage 1 v2 frozen + MLP action head (재학습 예정)	—	—	⏳ 예정	v2 Stage 1 위에 action head 재학습. 목표: Exp49(96.4%) 초과 후 closed-loop 평가.

5-Track 증명 완료: frozen CLIP 96.6% → basket 위치 기인코딩 | early→late +8%p(left), +5%p(center) → basket 가까울수록 ↑ | center 어텐션 4.4× → basket 집중 | masking 100% flip → 인과 증거 | → "복도 패턴 암기 아님, basket을 본다" 구조적 증명.

요약

전체 흐름 — 이정표 실험만 추려서

실험	PM	CL	이정표 의미
Exp11	58.6%	0%	End-to-End 한계 확정. text attn=0%, CL 0%.
Exp14 S2	75.9%	66.7%	Decomposition 첫 증명. Exp11 CL 0% → 66.7% 도약.
Exp25	52.4%	55.6%	End-to-End 마지막 시도에서의 최선.
Exp46	93.2%	100%	GoalNav 100% 첫 달성. 방향 전환의 성과.
Exp47	98.7%	100%	PM 최고. paraphrase 실패 → "언어 외운 것" 증명.
Exp49 ⭐	96.4%	100%	현재 최강. paraphrase 100%, 5-seed 안정. 실로봇 평가 중.
Exp53	94.7%	미평가	CLIP LoRA 첫 시도. bbox fake 문제 발견 → Exp54 설계 계기.
Exp54 S1 v2	98.1%	—	frame-level 재학습. frozen probe 96.6% + masking 100% flip → "basket 본다" 5-track 증명.
Exp54 S2	예정	예정	v2 Stage 1 위에 action head 재학습 → closed-loop 평가.

📖 연구 여정 (스토리) 📄 Exp54 v2 5-Track 증명 (5/22) 📄 Exp54 초기 (5/19) 📄 Exp14 교수님 업데이트 🏠 메인