# 상태 리포트 2026-04-21 (Exp17 평가 완료)

**작성일:** 2026-04-21  
**실험:** Exp17 Step 3 - 33/33/34 균등 비율 end-to-end 재학습  
**평가 완료:** PM 평가 ✅ / Closed-loop 평가 ✅  
**결론:** Decomposition (Exp14 Step2)가 end-to-end (Exp17)를 압도

---

## 🎯 최종 평가 결과

### Perfect Match (PM) 평가
| 모델 | PM | 특이사항 |
|------|-----|---------|
| **Exp17** | **76.95%** ⭐ | Exp14 Step2 초과 (+1.01%) |
| **Exp14 Step2** | 75.94% | 기준 |

**경로별 Exp17 성능:**
- right_straight: 98.6% ✓ 최고
- left_straight: 94.4% ✓ 높음
- center_right: 46.3% ⚠️ 최저

### Closed-Loop 평가 (실제 시뮬레이션)
| 모델 | 성공률 | FPE | 평가 |
|------|-------|-----|------|
| **Exp14 Step2** | **66.7%** ✅ | 0.55m | 우수 |
| **Exp17** | **11.1%** ❌ | 1.04m | 실패 |
| Exp11 | 0.0% ❌ | 1.45m | 완전 실패 |

**분석:**
- PM에서 76.95% → Closed-loop에서 11.1% (급락)
- End-to-end 구조: 누적 오류 폭발
- Decomposition이 55.6% 포인트 우수

---

## 요약

Exp17은 교수님 프로토콜 Step 3를 검증하기 위한 end-to-end 재학습 트랙입니다.

- 목표: Exp16에서 드러난 FORWARD bias를 데이터 비율 교정으로 줄일 수 있는지 확인
- 설정: `left/straight/right = 0.33 / 0.33 / 0.34`
- 결과: 학습은 종료됐고, validation 기준 best checkpoint는 확보됨
- 미완료: PM / closed-loop 평가는 아직 수행하지 않음

## 📊 최종 판정

**교수님 프로토콜 Step 3 검증 결과:**

> Exp17은 PM에서 Exp14 Step2를 미세 초과했으나,  
> **실제 closed-loop 성능에서는 압도적으로 열위**입니다.  
> (PM 76.95% → Closed-loop 11.1%, -55.6%p)
>
> **결론:** End-to-end 접근의 근본적 한계가 확인되었습니다.  
> **Strongest practical baseline: Exp14 Step 2 (closed-loop 66.7%)**

---

## 학습 설정

| 항목 | 값 |
|------|-----|
| 목적 | 교수님 프로토콜 Step 3: 균등 비율에서 end-to-end가 동작하는가 |
| config | `configs/mobile_vla_v5_exp17_step3_balanced.json` |
| 데이터 | V5 150 episodes |
| 샘플링 | `path_type_weights = {left: 0.33, straight: 0.33, right: 0.34}` |
| 백본 | HF Kosmos-2 + Google-robot pretrain (LoRA) |
| 출력 | 8-class discrete action |

---

## 학습 결과 스냅샷

확인된 validation 흐름:

```text
Epoch 0: val_loss = 3.715
Epoch 3: val_loss = 2.270   <- best
Epoch 4: val_loss = 2.358
Epoch 6: val_loss = 2.327
Epoch 7: val_loss = 2.322 / 2.405 (restart traces)
Epoch 10: val_loss = 2.370, early stopping
```

핵심 포인트:

- 초반 수렴은 있었지만, `epoch 3` 이후 뚜렷한 개선은 없었습니다.
- 학습은 `early stopping`으로 종료됐습니다.
- 현재 best checkpoint 후보는 `epoch 03 / val_loss 2.270`입니다.

---

## 현재 해석

### 긍정 신호

- Exp16의 심한 비율 문제를 그대로 두지 않고, 샘플링 교정 실험까지는 완료했습니다.
- 최소한 "균등 비율에서 학습 자체가 수렴하는가"는 확인했습니다.

### 아직 결론 내릴 수 없는 부분

- `val_loss`만으로는 실제 PM / closed-loop 성능을 판단할 수 없습니다.
- 이 프로젝트에서는 과거에도 `val_loss`와 실제 주행 성능이 크게 어긋난 사례가 있었습니다.

### 공개 기준 현재 판정

- **best decomposition baseline**: Exp14 Step 2
  - PM `75.9%`
  - closed-loop `66.7%`
- **best end-to-end baseline**: Exp11
  - PM `58.6%`
  - closed-loop `0%`
- **Exp17**:
  - 학습 종료
  - best ckpt 확보
  - **평가 전이라 아직 순위 미정**

---

## 왜 아직 평가를 안 했는가

Exp17 full PM / closed-loop 평가는 현재 환경에서 GPU 메모리 여유가 작아 OOM 위험이 있습니다.

따라서 현재는 다음 원칙으로 진행합니다.

- 문서는 먼저 학습 종료 상태까지 반영
- 무거운 full evaluation은 보류
- 필요 시 작은 subset / 축소 설정으로 먼저 점검

---

## 다음 스텝

1. best checkpoint 기준으로 축소판 PM 평가
2. 가능하면 축소 closed-loop 또는 subset evaluation
3. OOM 안전성이 확보되면 full evaluation
4. 그 결과를 `docs/v5/bbox_nav_step3/`와 Pages에 반영

---

## 참고 경로

- 학습 config: `configs/mobile_vla_v5_exp17_step3_balanced.json`
- run output: `runs/v5_nav/kosmos/mobile_vla_v5_exp17/2026-04-20/v5-exp17-step3-balanced/`
- 이전 비교 기준: `docs/v5/PROF_UPDATE_20260417_EXP14.md`

---

**현재 한 줄 결론:**  
Exp17은 학습까지는 끝났고 best checkpoint도 확보했지만, **평가 전이므로 아직 Exp14 Step 2를 넘었다고 말할 수는 없습니다.**