MoNaVLA V5 Exp01~11 Analysis

Policy Baseline

Exp11

기존 학습형 action baseline 중에서는 Exp11이 58.6%로 가장 높습니다.

Failure Case

Exp09

8-class 형식 통합은 됐지만 실제 정책은 forward bias를 못 벗어났습니다.

Current Strongest

Exp14 Step 2

BBox history + low-res image MLP가 75.9%로 현재 가장 강한 실용 baseline입니다.

Key Correction

Exp10 ≠ policy win

Exp10 checkpoint는 generation 시 degenerate bbox를 내므로 rule-only transfer는 34.4%에 그칩니다.

전체 비교표

Exp01~04는 실패 원인 추적과 foundation 교체, Exp05~08은 표현 최적화, Exp09는 8-class 실패, Exp10은 perception evidence, Exp11은 기존 학습형 기준점, Exp14는 bbox-navigation transfer 개선 흐름으로 읽는 게 현재 가장 정확합니다.

Exp	핵심 질문	핵심 변경	백본	대표 결과	현재 판정
Exp01	분류로 바꾸면 해결되는가	Discrete classification	V4	val_loss 2.270, FORWARD 100%	실패 baseline
Exp02	직선 편향 제거 효과	straight 제거	V4	val_loss 2.210	부분 개선
Exp03	텍스트 의미 정렬 강화	CLIP Norm Loss	Exp02	val_loss 1.784	정렬 가능성
Exp04	foundation 교체 효과	Google-Robot pretrained	Google-Robot	val_loss 0.776, PM 0%	학습 collapse
Exp05	행동 문맥 prompt	action-aware instruction	Google-Robot	transition 안정화	중간 최적화
Exp06	HF 표준 정렬	grounding token alignment	Google-Robot	OOD 일반화 개선	인프라 정비
Exp07	path type conditioning	path-type aware instruction	Google-Robot	좌우 혼동 감소	보조 성공
Exp08	STOP 조건 학습	center-goal prompt	Google-Robot	첫 STOP 성공	표현 개선
Exp09	8-class full policy	8-class + weights	Google-Robot	val_loss 1.203, PM/DM 85.7%	정책 실패
Exp10	Grounding 직접 학습	BBox next-token	Kosmos-2	val_loss 0.012, IoU 0.87, rule transfer 34.4%	perception strong
Exp11	Exp04 + 8-class 재결합	8-class 재설계	Google-Robot	PM 58.6%	학습형 기준점
Exp14 Step 0/1/2	BBox를 policy proxy로 전환	rule → bbox MLP → bbox+image MLP	Kosmos-2 perception + small head	31.1% → 68.4% → 75.9%	현재 최강

실험별 상세 해석

Exp01

연속 회귀 대신 discrete action classification으로 강제 선택 구조를 만든 baseline입니다. 결과는 거의 모든 장면에서 Forward로 붕괴했고, 문제는 회귀보다 데이터 불균형과 backbone 오염에 가까웠습니다.

Exp02

straight 제거와 split 조정으로 FORWARD bias를 줄이려 했지만, V4 기반 한계가 여전히 컸습니다. 데이터 분포 조정 방향 자체는 맞았지만 결정타는 아니었습니다.

Exp03

CLIP Norm Loss로 left/right instruction 의미를 action representation에 더 강하게 붙이려 했습니다. loss는 좋아졌지만, 행동 지표까지 완전히 닫힌 문서는 부족합니다.

Exp04

Google-Robot foundation으로 전환하며 V5 정책 계열의 전환점이 됐습니다. 다만 최근 재평가 결과 PM 0% collapse로 확인돼, 좋은 loss가 실제 inference를 보장하지 않는다는 반례가 됐습니다.

Exp05~08

Action-aware, HF token alignment, path-type conditioning, goal-centered prompt로 이어지는 표현 최적화 구간입니다. foundation을 바꾼 Exp04만큼 크지는 않지만 정책 표현과 STOP 조건 이해를 안정화하는 역할을 했습니다.

Exp09

8-class를 형식적으로 통합한 실험입니다. 숫자는 좋아 보였지만 문서 결론은 명확합니다. Forward Bias가 남아 있고 rotation/stop이 실제로 잘 안 배워졌습니다.

Exp10

정책 대신 grounding/BBox 자체를 실증한 트랙입니다. IoU와 alignment는 강하지만, free-form generation으로 바로 action rule에 연결하면 bbox가 corner로 붕괴해 policy transfer는 34.4%에 그쳤습니다.

Exp11

Exp04의 foundation 장점과 Exp09의 8-class를 재결합한 학습형 action baseline입니다. LEFT 계열 취약점은 남아 있지만, 현재 남아 있는 학습형 계열 중에서는 58.6%로 가장 높은 기준점입니다.

Exp14 Step 0~2

Exp10 perception을 작게 action으로 바꾸는 우회 경로입니다. Step 0 rule은 31.1%, Exp10 ckpt rule은 34.4%로 제한적이었지만, bbox history를 학습한 Step 1은 68.4%, 여기에 작은 image feature를 더한 Step 2는 75.9%까지 올라 현재 가장 강한 실용 baseline이 됐습니다.

신뢰도 분류

확정된 결론

Exp04는 PM 0% collapse, Exp11은 기존 학습형 기준점 58.6%, Exp10은 perception strong but transfer weak, Exp14 Step 2는 75.9%로 현재 최강이라는 점은 지금 문서 근거가 일치합니다.

애매하지만 유력

Exp03의 semantic alignment가 행동에도 도움 됐을 가능성, Exp05~08의 표현 안정화 효과, Step 2가 center ambiguity를 image feature로 보완했다는 해석은 유력하지만 더 큰 split 검증은 아직 없습니다.

아직 미확정

Step 2가 더 넓은 benchmark와 closed-loop에서도 유지되는지, Exp10 generation을 고치면 Step 2를 넘길 수 있는지, 차기 Step 3가 추가 이득을 주는지는 아직 미확정입니다.