MoNaVLA V5 Development Log

Exp	Core Attempt	Status	Training	Trace
Exp01	6-class discrete baseline	완료	학습됨	report / config
Exp02	no-straight / rotation focus	완료	학습됨	config
Exp03	semantic alignment / CLIP norm	완료	학습됨	config
Exp04	Google-Robot foundation shift	재평가 필요	학습됨	report / config
Exp05	action-aware instruction	완료	학습됨	report / config
Exp06	pure HF alignment	완료	학습됨	report / config
Exp07	path-type aware instruction	완료	학습됨	report / config
Exp08	goal / center-aware instruction	완료	학습됨	report / config
Exp09	8-class balanced policy integration	실패 사례	학습됨	report / config
Exp10	bbox grounding / alignment track	점수-생성 괴리	학습됨	report / alignment / config
Exp11	Google-Robot + 8-class retry	현재 학습형 최고	학습됨	sanity / config
Exp12	per-frame action-aware instruction alignment	시도 후 폐기	학습 안 함	config / plan
Exp13	instruction-conditioned action head	구현 완료 대기	학습 안 함	config / plan

2026-04-11 to 2026-04-21 Timeline

V5 문서화, 시각화, 평가 체계 정리, Exp11 실패 분석, Exp14 decomposition 정리, Exp16/17 교수 프로토콜 트랙까지의 실제 흔적을 날짜 기준으로 재배열했습니다.

2026-04-11

Exp04가 당시 정책 baseline 후보로 굳어짐

Google-Robot foundation이 V4 checkpoint보다 훨씬 낫다는 결론이 정리되며, 당시 문서 흐름에서는 이후 V5 정책 실험의 기준점이 Exp04로 고정됐습니다.

2026-04-14

V5 문서 허브와 Exp09 8-class 흐름이 등장

대시보드와 archive가 정리되고, Exp09 8-class 통합 정책 실험이 문서 허브에 본격적으로 등장했습니다.

b70a1a45 interactive track 1 report
a582683e optimized 8-class action model
1857c921 technical HTML reports consolidation

2026-04-15 AM

Exp01~09 문서가 GitHub Pages용으로 정리됨

V5 experiment comparison 페이지와 Exp05~08 개별 문서가 올라가며, GitHub Pages에서 V5 흐름을 읽을 수 있는 최소 구조가 완성됐습니다.

92a9696d V5 experiment comparison
e3d5b028 Exp05~08 reports
V5 Dashboard

2026-04-15 PM

Exp10이 계획 단계에서 정렬 분석/시각화 단계로 넘어감

bbox grounding, action alignment, H5 verification, sequence evaluation, batch analysis viewer까지 이어지며 Exp10이 최근 가장 빠르게 진전한 트랙이 됐습니다.

22135088 Exp10 BBox training report
8a470c8b visualization and H5 verification
ee290c8a action alignment analysis
Exp10 Action Alignment

2026-04-16

Exp11과 평가 프레임워크 정리가 시작됨

Exp11 config 추가와 함께 benchmark pipeline, V5 evaluation protocol, closed-loop simulation 계획, agent entrypoint 문서가 이어서 추가됐습니다.

04fa0d4b Exp10 batch analysis and Exp11 config
ee7b7da3 benchmark pipeline and evaluation framework
Benchmark Pipeline Design
V5 Evaluation Protocol

2026-04-17

Exp11 실패 분석 → Exp12 폐기 → Exp13 설계

Exp11 sanity 분석으로 좌측 계열이 우측으로 붕괴하는 구조가 드러났고, Exp12는 oracle 확인 뒤 폐기됐습니다. 이후 instruction-conditioned action head인 Exp13 방향이 설계됐습니다.

2026-04-17 Later

Exp14 재평가와 Step 1/2 등장

Exp10 checkpoint의 free-form BBox generation이 degenerate라 Step 0-B는 실제로 34.4%에 그친다는 점이 확인됐습니다. 동시에 Exp04 PM이 0% collapse로 재평가됐고, BBox feature 기반 Step 1 MLP는 68.4%, 여기에 작은 image feature를 붙인 Step 2는 75.9%까지 올라 현재 가장 강한 실용 baseline이 됐습니다.

2026-04-17 Latest

재현성 실험과 최신 실험을 분리

재현성 실험은 Step 2를 seed 0 / 8 epoch로 축소해 빠르게 다시 보는 진단 트랙으로 정리했고, 최신 실험은 Exp11 same-split direct compare와 체크포인트 혼선 여부를 원인 분리 관점에서 따로 관리하기로 했습니다.

공식 비교: Exp11 58.6% vs Exp14 Step 2 75.9%
보조 진단: Step 2 quick repro, same-split direct compare

2026-04-18

Text Attention 붕괴의 인과 증거 확보 — Google-robot pretrain 기인

Exp11·Exp13의 self-attention weight를 24 레이어 × 16 헤드 전체에서 실측한 결과, text token region attention = 0.000%로 완전히 붕괴한 것이 확인됐습니다. 결정적으로 Exp15 (VLM 완전 frozen, head만 학습)에서도 동일하게 0%가 측정되면서, 붕괴 원인이 우리 LoRA 학습이 아니라 Google-robot post-training 단계에서 이미 image_to_text_projection이 오염된 것임이 증명됐습니다. Pure HF Kosmos-2는 동일 측정에서 22.7%를 기록해 대조군 역할을 완료했습니다.

Attention Analysis (Text=0%)
Attention Collapse Mechanism (24-Layer)
Exp15 head-only: PM 37.5%, text attention 0% 재확인 (인과 확정)

2026-04-18

Feature Ablation — Image가 핵심 driver, BBox는 노이즈 수준

Step 1→Step 2의 +7.5%p 향상이 image feature 때문인지 MLP 용량 증가 때문인지를 분리하기 위해, 동일한 MLP 구조에서 bbox_only / image_only / bbox+image 세 조건을 각 5 seed × 220 epoch으로 평가했습니다. image_only가 75.6%±0.8%로 bbox+image(76.7%±1.3%)와 동등한 수준이며, BBox 추가 기여는 +1.1%p(노이즈 범위)에 불과합니다. Pure Kosmos-2가 제공하는 grounding(cx,cy,area)은 16×16 raw image 픽셀 대비 정보량이 낮다는 결론.

Feature Ablation: BBox vs Image
bbox_only 67.4%±9.8% / image_only 75.6%±0.8% / bbox+image 76.7%±1.3%

2026-04-18

Closed-Loop Simulation (Phase 1) — Step 2 66.7% vs Exp11 0%

frame-level PM을 넘어 episode-level trajectory 성공률을 측정하기 위해 kinematic simulation을 구현했습니다. 각 프레임 예측을 body-frame pose update로 누적해 expert trajectory와 비교(FPE / TLD 지표). 9개 에피소드에서 Step 2는 6/9 성공(66.7%), Exp11은 0/9(0%)를 기록했습니다. TLD는 둘 다 1.03으로 이동 거리는 동일하지만, Exp11은 방향 오류가 누적되어 FPE가 2.6배 높습니다. Decomposition 접근(Step 2)이 closed-loop 궤적 안정성에서 end-to-end policy를 압도한다는 결론.

Closed-Loop 평가 결과
Step 2: FPE 0.55m / Exp11: FPE 1.45m
성공 기준: FPE < 0.5m AND TLD ∈ [0.7, 1.5]

2026-04-18 Latest

Exp16 학습 시작 — 교수 프로토콜 Step 2 (직선 포함)

교수님 테스트 프로토콜 Step 2 "50/50 비율 → 동작하는가?"를 검증하기 위해 Exp16 학습을 시작했습니다. Exp11에서 제외했던 center_straight 20 에피소드를 포함해 전체 150 ep를 사용합니다. 8-class, Google-robot backbone, FORWARD class weight 0.5→0.4 소폭 조정 외 Exp11과 동일한 설정. 현재 학습 진행 중(2026-04-18 기준 Epoch 3).

config: configs/mobile_vla_v5_exp16_all_paths.json
데이터: 150 ep 전체 (center_straight 포함), FORWARD 74.4%
학습 중 — 결과 업데이트 예정

2026-04-20

Exp17 시작 — 교수 프로토콜 Step 3 (33/33/34 균등 비율)

Exp16에서 드러난 FORWARD bias가 데이터 비율 문제인지 구조 문제인지 분리하기 위해, Step 3 균등비율 샘플링 실험 Exp17을 시작했습니다. 동일한 150 episode를 사용하되 path type sampling을 left/straight/right = 0.33/0.33/0.34로 맞췄습니다.

config: configs/mobile_vla_v5_exp17_step3_balanced.json
목표: Step 2의 비율 문제와 architecture 한계를 분리
run dir: runs/v5_nav/kosmos/mobile_vla_v5_exp17/2026-04-20/v5-exp17-step3-balanced/

2026-04-21

Exp17 학습 종료 — best ckpt 확보, full eval 보류

Exp17은 early stopping으로 종료됐고, 확인된 best validation checkpoint는 epoch 03 / val_loss 2.270입니다. 다만 현재 환경에서는 full PM / closed-loop 평가를 바로 돌리면 GPU OOM 위험이 있어, 공개 기준 상태는 "trained, evaluation pending"으로 유지합니다.

best val trace: epoch0 3.715 → epoch3 2.270 → epoch10 2.370 stop
현재 strongest practical baseline은 여전히 Exp14 Step 2
Exp17 Status Report

Reading Path

새 에이전트나 협업자가 V5를 빠르게 파악할 때 들어가야 할 진입점입니다.

1. V5 Dashboard

2. Exp14 Step 2 (75.9%)

3. Closed-Loop Sim

4. Attention Analysis

5. Feature Ablation

6. 교수님 업데이트

7. Agent Entrypoint

Current Position 2026-04-21

Text attention = 0%: Google-robot post-training 기인. Exp15(head-only)에서 인과 확정.

Image가 핵심: feature ablation — bbox_only 67% / image_only 76% / bbox+image 77%. BBox 기여 노이즈 수준.

Closed-loop: Step 2 66.7% vs Exp11 0%. Decomposition이 end-to-end를 압도.

Best PM: Exp14 Step 2 75.9% (5 seeds 76.6±1.6%).

End-to-end baseline: Exp11 58.6% (closed-loop 0%).

Exp17: 학습 종료, best ckpt 확보, full evaluation 대기.

교수 프로토콜: Step 1 ✅ / Step 2 결과 정리 필요 / Step 3 학습 완료, 평가 대기.

MoNaVLA V5
Development Timeline

Exp01~13 Status Matrix

2026-04-11 to 2026-04-21 Timeline

Exp04가 당시 정책 baseline 후보로 굳어짐

V5 문서 허브와 Exp09 8-class 흐름이 등장

Exp01~09 문서가 GitHub Pages용으로 정리됨

Exp10이 계획 단계에서 정렬 분석/시각화 단계로 넘어감

Exp11과 평가 프레임워크 정리가 시작됨

Exp11 실패 분석 → Exp12 폐기 → Exp13 설계

Exp14 재평가와 Step 1/2 등장

재현성 실험과 최신 실험을 분리

Text Attention 붕괴의 인과 증거 확보 — Google-robot pretrain 기인

Feature Ablation — Image가 핵심 driver, BBox는 노이즈 수준

Closed-Loop Simulation (Phase 1) — Step 2 66.7% vs Exp11 0%

Exp16 학습 시작 — 교수 프로토콜 Step 2 (직선 포함)

Exp17 시작 — 교수 프로토콜 Step 3 (33/33/34 균등 비율)

Exp17 학습 종료 — best ckpt 확보, full eval 보류

Reading Path

Current Position 2026-04-21

MoNaVLA V5 Development Timeline

Exp01~13 Status Matrix

2026-04-11 to 2026-04-21 Timeline

Exp04가 당시 정책 baseline 후보로 굳어짐

V5 문서 허브와 Exp09 8-class 흐름이 등장

Exp01~09 문서가 GitHub Pages용으로 정리됨

Exp10이 계획 단계에서 정렬 분석/시각화 단계로 넘어감

Exp11과 평가 프레임워크 정리가 시작됨

Exp11 실패 분석 → Exp12 폐기 → Exp13 설계

Exp14 재평가와 Step 1/2 등장

재현성 실험과 최신 실험을 분리

Text Attention 붕괴의 인과 증거 확보 — Google-robot pretrain 기인

Feature Ablation — Image가 핵심 driver, BBox는 노이즈 수준

Closed-Loop Simulation (Phase 1) — Step 2 66.7% vs Exp11 0%

Exp16 학습 시작 — 교수 프로토콜 Step 2 (직선 포함)

Exp17 시작 — 교수 프로토콜 Step 3 (33/33/34 균등 비율)

Exp17 학습 종료 — best ckpt 확보, full eval 보류

Reading Path

Current Position 2026-04-21

MoNaVLA V5
Development Timeline