종합 실험 매트릭스 (Phase 2 Focus)
| ID | 핵심 설명 (Technical Theme) | 기반 모델 | 액션 체계 | Val Loss | 상태 |
|---|---|---|---|---|---|
| Exp 01 | 초기 이산(Discrete) 모델 베이스라인 | V4 Reg. | 6-Class | 2.270 | Bias (직진 편향) |
| Exp 02 | 직진 데이터 제거 및 회전 웨이트 강화 | V4 Reg. | 6-Class | 2.210 | Improved |
| Exp 03 | 지시문 일관성을 위한 CLIP Norm Loss 도입 | Exp 02 | 6-Class | 1.784 | Semantic Sync |
| Exp 04 | Google-Robot Foundation으로 전면 교체 | 6-Class | 0.776 | Breakthrough | |
| Exp 05 | Action-Aware Context Prompting | 6-Class | - | Contextual | |
| Exp 06 | Pure HuggingFace Tokenizer Alignment | 6-Class | - | HF Sync | |
| Exp 07 | Path-Type Grounding (Explicit Turn logic) | 6-Class | - | Grounded | |
| Exp 08 | "Center-Goal" 목표 지향형 지시문 적용 | 6-Class | - | Goal-Centric | |
| Exp 09 | 8-Class 통합 시스템 (3DOF: lx, ly, az) | 8-Class | 1.203 | Forward Bias |
* Exp 09는 전체 데이터셋(직진 포함) 기준이며, Exp 04 대비 훨씬 복잡한 태스크를 수행 중입니다.
Ablation Study ID(A1~A3, B1~B3, C1)별 Closed-Loop 성공 및 실패 궤적과 실제 그라운딩(BBox) 추론 프레임의 대조 매칭 결과입니다. 9-Panel 궤적 동적 전환 및 VLM Noise Augment 원리를 가시적으로 확인할 수 있습니다.
대시보드 바로가기V4 체크포인트의 시각 오염(Backbone Blindness)을 해결하기 위해 Google-Robot 사전학습 가중치를 도입했습니다. 그 결과 Val Loss가 1/3 수준으로 감소하며 시각 정보 기반의 경로 생성이 정상화되었습니다.
상세 리포트 보기Exp 09의 Val Accuracy는 83%로 높으나, 실제 행동 예측은 직진(Forward)에 100% 쏠리는 현상이 관찰되었습니다. 이는 데이터 불균형으로 인한 국소 최적점(Local Minimum)에 빠진 것으로 분석됩니다.
편향성 분석 리포트정정 후 기준으로 Pure HF rule은 31.1%, Exp10 grounding + rule은 34.4%에 그쳤고, Step 1은 68.4%, Step 2(BBox + low-res image feature)는 75.9%까지 올라갔습니다. 현재 가장 강한 실용 baseline은 Exp14 Step 2입니다.
Exp14 ComparisonExp17은 PM 76.95% / closed-loop 11.1%, Exp18은 PM 27.62% / closed-loop 11.1%이었습니다. 즉 최신 end-to-end branch 둘 다 Exp14 Step2 기준선(66.7%)을 넘지 못했습니다.
Exp18 상태 리포트논문 본문에 바로 옮길 수 있도록 V5 주요 결과 표, booktabs LaTeX, 한국어 캡션, Experimental Results 초안을 한 페이지로 정리했습니다. Exp18은 이제 evaluation failed 상태로 반영했습니다.
Paper Results PageExp19는 PM 76.58% / closed-loop 55.6%로 end-to-end보다는 확실히 강했지만, Step2 기준선 66.7%은 넘지 못했습니다. Exp20 auxiliary head는 75.32%로 더 약했습니다.
현재 계획 보기Pure HF Kosmos는 text attention이 약 22.6% 살아 있지만, Google-Robot policy track은 Exp11뿐 아니라 head-only Exp15에서도 text attention이 0.000%입니다. 즉 LoRA가 없어도 collapse가 관측됩니다.
Root-Cause 문서`Exp21/22/23`로 raw HF Kosmos 기준 `head-only / LoRA / both` 3축을 같은 8-class V5 조건으로 다시 돌릴 준비를 마쳤습니다. 다음 root-cause 분기점은 이 통제 실험입니다.
Ablation Runbook`Exp01~24`를 실험 나열이 아니라, 어떤 가설이 생겼고 무엇이 반박됐으며 왜 현재 practical baseline과 root-cause 방향이 이렇게 정리됐는지의 추론선으로 다시 묶었습니다.
`2026-04-18 ~ 2026-04-23` 핵심 커밋을 기준으로, 각 커밋에서 무엇을 했고 교수님께는 어떤 문장으로 설명하면 되는지까지 한 번에 정리했습니다.
4/24 대면 미팅 후속으로, 초기 18프레임 grounding 증명과 left-only action 검증, pure Kosmos last-4 LoRA 상태 문서를 월요일 실험 축 기준으로 새로 묶었습니다.
Exp 09 행동 예측 정밀 분석 (Behavioral Analysis)
| GT \ Pred | Stop | Fwd | Left | Right | FL | FR | TL | TR |
|---|---|---|---|---|---|---|---|---|
| Stop | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
| Forward | 0 | 42 | 0 | 0 | 0 | 0 | 0 | 0 |
| Left | 0 | 4 | 0 | 0 | 0 | 0 | 0 | 0 |
| Right | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
| FL | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
판단: 가중치 조정에도 불구하고 모델이 Forward로 수렴함. 데이터의 절대적 빈도가 학습을 지배하고 있음.
GitHub Pages에서는 로컬 실험 이미지 경로를 직접 노출하지 않습니다.
대신 아래 문서에서 실제 failure pattern과 최근 판정을 바로 확인할 수 있게 정리했습니다.
Exp09의 핵심 패턴은 forward-biased policy collapse, Exp11의 핵심 패턴은 left-family to right-family collapse로 요약됩니다.