V5 Development Log

MoNaVLA V5
Development Timeline

2026년 4월 11일부터 4월 21일까지의 V5 실험 흐름을 한 페이지에 정리한 로그입니다. 학습 완료 여부와 별개로, Exp01부터 Exp17까지 실제로 시도된 변경, 문서화, 평가, 설계 분기들을 GitHub Pages에서 바로 읽을 수 있도록 시간축으로 묶었습니다.

Current Policy Best
Exp11 / 58.6%
Exp04 재평가에서 PM 0% collapse가 드러난 뒤, 현재 남아 있는 학습형 기준점은 Exp11입니다.
Current Strongest Track
Exp14 Step 2 / 75.9%
BBox history에 작은 image feature를 결합한 경량 정책이 현재 가장 높은 PM을 기록했습니다.
Current Reading
Exp11 58.6 vs Step 2 75.9
현재 Pages 공식 비교는 Exp11 대비 Exp14 Step 2 우세입니다. same-split과 repro는 보조 검증으로 분리합니다.

Exp01~13 Status Matrix

각 실험의 핵심 시도, 현재 상태, 실제 학습 여부를 한 번에 보기 위한 요약 표입니다. 문서와 설정 파일 링크를 같이 걸어 두어, GitHub Pages에서 바로 원문으로 들어갈 수 있게 구성했습니다.

Exp Core Attempt Status Training Trace
Exp01 6-class discrete baseline 완료 학습됨 report / config
Exp02 no-straight / rotation focus 완료 학습됨 config
Exp03 semantic alignment / CLIP norm 완료 학습됨 config
Exp04 Google-Robot foundation shift 재평가 필요 학습됨 report / config
Exp05 action-aware instruction 완료 학습됨 report / config
Exp06 pure HF alignment 완료 학습됨 report / config
Exp07 path-type aware instruction 완료 학습됨 report / config
Exp08 goal / center-aware instruction 완료 학습됨 report / config
Exp09 8-class balanced policy integration 실패 사례 학습됨 report / config
Exp10 bbox grounding / alignment track 점수-생성 괴리 학습됨 report / alignment / config
Exp11 Google-Robot + 8-class retry 현재 학습형 최고 학습됨 sanity / config
Exp12 per-frame action-aware instruction alignment 시도 후 폐기 학습 안 함 config / plan
Exp13 instruction-conditioned action head 구현 완료 대기 학습 안 함 config / plan

2026-04-11 to 2026-04-21 Timeline

V5 문서화, 시각화, 평가 체계 정리, Exp11 실패 분석, Exp14 decomposition 정리, Exp16/17 교수 프로토콜 트랙까지의 실제 흔적을 날짜 기준으로 재배열했습니다.

2026-04-11

Exp04가 당시 정책 baseline 후보로 굳어짐

Google-Robot foundation이 V4 checkpoint보다 훨씬 낫다는 결론이 정리되며, 당시 문서 흐름에서는 이후 V5 정책 실험의 기준점이 Exp04로 고정됐습니다.

2026-04-14

V5 문서 허브와 Exp09 8-class 흐름이 등장

대시보드와 archive가 정리되고, Exp09 8-class 통합 정책 실험이 문서 허브에 본격적으로 등장했습니다.

  • b70a1a45 interactive track 1 report
  • a582683e optimized 8-class action model
  • 1857c921 technical HTML reports consolidation
2026-04-15 AM

Exp01~09 문서가 GitHub Pages용으로 정리됨

V5 experiment comparison 페이지와 Exp05~08 개별 문서가 올라가며, GitHub Pages에서 V5 흐름을 읽을 수 있는 최소 구조가 완성됐습니다.

  • 92a9696d V5 experiment comparison
  • e3d5b028 Exp05~08 reports
  • V5 Dashboard
2026-04-15 PM

Exp10이 계획 단계에서 정렬 분석/시각화 단계로 넘어감

bbox grounding, action alignment, H5 verification, sequence evaluation, batch analysis viewer까지 이어지며 Exp10이 최근 가장 빠르게 진전한 트랙이 됐습니다.

  • 22135088 Exp10 BBox training report
  • 8a470c8b visualization and H5 verification
  • ee290c8a action alignment analysis
  • Exp10 Action Alignment
2026-04-16

Exp11과 평가 프레임워크 정리가 시작됨

Exp11 config 추가와 함께 benchmark pipeline, V5 evaluation protocol, closed-loop simulation 계획, agent entrypoint 문서가 이어서 추가됐습니다.

2026-04-17

Exp11 실패 분석 → Exp12 폐기 → Exp13 설계

Exp11 sanity 분석으로 좌측 계열이 우측으로 붕괴하는 구조가 드러났고, Exp12는 oracle 확인 뒤 폐기됐습니다. 이후 instruction-conditioned action head인 Exp13 방향이 설계됐습니다.

2026-04-17 Later

Exp14 재평가와 Step 1/2 등장

Exp10 checkpoint의 free-form BBox generation이 degenerate라 Step 0-B는 실제로 34.4%에 그친다는 점이 확인됐습니다. 동시에 Exp04 PM이 0% collapse로 재평가됐고, BBox feature 기반 Step 1 MLP는 68.4%, 여기에 작은 image feature를 붙인 Step 2는 75.9%까지 올라 현재 가장 강한 실용 baseline이 됐습니다.

2026-04-17 Latest

재현성 실험과 최신 실험을 분리

재현성 실험은 Step 2를 seed 0 / 8 epoch로 축소해 빠르게 다시 보는 진단 트랙으로 정리했고, 최신 실험은 Exp11 same-split direct compare와 체크포인트 혼선 여부를 원인 분리 관점에서 따로 관리하기로 했습니다.

  • 공식 비교: Exp11 58.6% vs Exp14 Step 2 75.9%
  • 보조 진단: Step 2 quick repro, same-split direct compare
2026-04-18

Text Attention 붕괴의 인과 증거 확보 — Google-robot pretrain 기인

Exp11·Exp13의 self-attention weight를 24 레이어 × 16 헤드 전체에서 실측한 결과, text token region attention = 0.000%로 완전히 붕괴한 것이 확인됐습니다. 결정적으로 Exp15 (VLM 완전 frozen, head만 학습)에서도 동일하게 0%가 측정되면서, 붕괴 원인이 우리 LoRA 학습이 아니라 Google-robot post-training 단계에서 이미 image_to_text_projection이 오염된 것임이 증명됐습니다. Pure HF Kosmos-2는 동일 측정에서 22.7%를 기록해 대조군 역할을 완료했습니다.

2026-04-18

Feature Ablation — Image가 핵심 driver, BBox는 노이즈 수준

Step 1→Step 2의 +7.5%p 향상이 image feature 때문인지 MLP 용량 증가 때문인지를 분리하기 위해, 동일한 MLP 구조에서 bbox_only / image_only / bbox+image 세 조건을 각 5 seed × 220 epoch으로 평가했습니다. image_only가 75.6%±0.8%로 bbox+image(76.7%±1.3%)와 동등한 수준이며, BBox 추가 기여는 +1.1%p(노이즈 범위)에 불과합니다. Pure Kosmos-2가 제공하는 grounding(cx,cy,area)은 16×16 raw image 픽셀 대비 정보량이 낮다는 결론.

2026-04-18

Closed-Loop Simulation (Phase 1) — Step 2 66.7% vs Exp11 0%

frame-level PM을 넘어 episode-level trajectory 성공률을 측정하기 위해 kinematic simulation을 구현했습니다. 각 프레임 예측을 body-frame pose update로 누적해 expert trajectory와 비교(FPE / TLD 지표). 9개 에피소드에서 Step 2는 6/9 성공(66.7%), Exp11은 0/9(0%)를 기록했습니다. TLD는 둘 다 1.03으로 이동 거리는 동일하지만, Exp11은 방향 오류가 누적되어 FPE가 2.6배 높습니다. Decomposition 접근(Step 2)이 closed-loop 궤적 안정성에서 end-to-end policy를 압도한다는 결론.

2026-04-18 Latest

Exp16 학습 시작 — 교수 프로토콜 Step 2 (직선 포함)

교수님 테스트 프로토콜 Step 2 "50/50 비율 → 동작하는가?"를 검증하기 위해 Exp16 학습을 시작했습니다. Exp11에서 제외했던 center_straight 20 에피소드를 포함해 전체 150 ep를 사용합니다. 8-class, Google-robot backbone, FORWARD class weight 0.5→0.4 소폭 조정 외 Exp11과 동일한 설정. 현재 학습 진행 중(2026-04-18 기준 Epoch 3).

  • config: configs/mobile_vla_v5_exp16_all_paths.json
  • 데이터: 150 ep 전체 (center_straight 포함), FORWARD 74.4%
  • 학습 중 — 결과 업데이트 예정
2026-04-20

Exp17 시작 — 교수 프로토콜 Step 3 (33/33/34 균등 비율)

Exp16에서 드러난 FORWARD bias가 데이터 비율 문제인지 구조 문제인지 분리하기 위해, Step 3 균등비율 샘플링 실험 Exp17을 시작했습니다. 동일한 150 episode를 사용하되 path type sampling을 left/straight/right = 0.33/0.33/0.34로 맞췄습니다.

  • config: configs/mobile_vla_v5_exp17_step3_balanced.json
  • 목표: Step 2의 비율 문제와 architecture 한계를 분리
  • run dir: runs/v5_nav/kosmos/mobile_vla_v5_exp17/2026-04-20/v5-exp17-step3-balanced/
2026-04-21

Exp17 학습 종료 — best ckpt 확보, full eval 보류

Exp17은 early stopping으로 종료됐고, 확인된 best validation checkpoint는 epoch 03 / val_loss 2.270입니다. 다만 현재 환경에서는 full PM / closed-loop 평가를 바로 돌리면 GPU OOM 위험이 있어, 공개 기준 상태는 "trained, evaluation pending"으로 유지합니다.

  • best val trace: epoch0 3.715 → epoch3 2.270 → epoch10 2.370 stop
  • 현재 strongest practical baseline은 여전히 Exp14 Step 2
  • Exp17 Status Report

Reading Path

새 에이전트나 협업자가 V5를 빠르게 파악할 때 들어가야 할 진입점입니다.

Current Position 2026-04-21

Text attention = 0%: Google-robot post-training 기인. Exp15(head-only)에서 인과 확정.

Image가 핵심: feature ablation — bbox_only 67% / image_only 76% / bbox+image 77%. BBox 기여 노이즈 수준.

Closed-loop: Step 2 66.7% vs Exp11 0%. Decomposition이 end-to-end를 압도.

Best PM: Exp14 Step 2 75.9% (5 seeds 76.6±1.6%).

End-to-end baseline: Exp11 58.6% (closed-loop 0%).

Exp17: 학습 종료, best ckpt 확보, full evaluation 대기.

교수 프로토콜: Step 1 ✅ / Step 2 결과 정리 필요 / Step 3 학습 완료, 평가 대기.