V5 Exp01~11 Analysis

기존 정책 계열과 Exp14 bbox-navigation 계열을 함께 놓고, 지금 시점의 실제 기준점을 한 페이지로 정리한 V5 종합 분석.

Policy Baseline
Exp11
기존 학습형 action baseline 중에서는 Exp11이 58.6%로 가장 높습니다.
Failure Case
Exp09
8-class 형식 통합은 됐지만 실제 정책은 forward bias를 못 벗어났습니다.
Current Strongest
Exp14 Step 2
BBox history + low-res image MLP가 75.9%로 현재 가장 강한 실용 baseline입니다.
Key Correction
Exp10 ≠ policy win
Exp10 checkpoint는 generation 시 degenerate bbox를 내므로 rule-only transfer는 34.4%에 그칩니다.

전체 비교표

Exp01~04는 실패 원인 추적과 foundation 교체, Exp05~08은 표현 최적화, Exp09는 8-class 실패, Exp10은 perception evidence, Exp11은 기존 학습형 기준점, Exp14는 bbox-navigation transfer 개선 흐름으로 읽는 게 현재 가장 정확합니다.

Exp핵심 질문핵심 변경백본대표 결과현재 판정
Exp01분류로 바꾸면 해결되는가Discrete classificationV4val_loss 2.270, FORWARD 100%실패 baseline
Exp02직선 편향 제거 효과straight 제거V4val_loss 2.210부분 개선
Exp03텍스트 의미 정렬 강화CLIP Norm LossExp02val_loss 1.784정렬 가능성
Exp04foundation 교체 효과Google-Robot pretrainedGoogle-Robotval_loss 0.776, PM 0%학습 collapse
Exp05행동 문맥 promptaction-aware instructionGoogle-Robottransition 안정화중간 최적화
Exp06HF 표준 정렬grounding token alignmentGoogle-RobotOOD 일반화 개선인프라 정비
Exp07path type conditioningpath-type aware instructionGoogle-Robot좌우 혼동 감소보조 성공
Exp08STOP 조건 학습center-goal promptGoogle-Robot첫 STOP 성공표현 개선
Exp098-class full policy8-class + weightsGoogle-Robotval_loss 1.203, PM/DM 85.7%정책 실패
Exp10Grounding 직접 학습BBox next-tokenKosmos-2val_loss 0.012, IoU 0.87, rule transfer 34.4%perception strong
Exp11Exp04 + 8-class 재결합8-class 재설계Google-RobotPM 58.6%학습형 기준점
Exp14 Step 0/1/2BBox를 policy proxy로 전환rule → bbox MLP → bbox+image MLPKosmos-2 perception + small head31.1% → 68.4% → 75.9%현재 최강

실험별 상세 해석

Exp01

연속 회귀 대신 discrete action classification으로 강제 선택 구조를 만든 baseline입니다. 결과는 거의 모든 장면에서 Forward로 붕괴했고, 문제는 회귀보다 데이터 불균형과 backbone 오염에 가까웠습니다.

Exp02

straight 제거와 split 조정으로 FORWARD bias를 줄이려 했지만, V4 기반 한계가 여전히 컸습니다. 데이터 분포 조정 방향 자체는 맞았지만 결정타는 아니었습니다.

Exp03

CLIP Norm Loss로 left/right instruction 의미를 action representation에 더 강하게 붙이려 했습니다. loss는 좋아졌지만, 행동 지표까지 완전히 닫힌 문서는 부족합니다.

Exp04

Google-Robot foundation으로 전환하며 V5 정책 계열의 전환점이 됐습니다. 다만 최근 재평가 결과 PM 0% collapse로 확인돼, 좋은 loss가 실제 inference를 보장하지 않는다는 반례가 됐습니다.

Exp05~08

Action-aware, HF token alignment, path-type conditioning, goal-centered prompt로 이어지는 표현 최적화 구간입니다. foundation을 바꾼 Exp04만큼 크지는 않지만 정책 표현과 STOP 조건 이해를 안정화하는 역할을 했습니다.

Exp09

8-class를 형식적으로 통합한 실험입니다. 숫자는 좋아 보였지만 문서 결론은 명확합니다. Forward Bias가 남아 있고 rotation/stop이 실제로 잘 안 배워졌습니다.

Exp10

정책 대신 grounding/BBox 자체를 실증한 트랙입니다. IoU와 alignment는 강하지만, free-form generation으로 바로 action rule에 연결하면 bbox가 corner로 붕괴해 policy transfer는 34.4%에 그쳤습니다.

Exp11

Exp04의 foundation 장점과 Exp09의 8-class를 재결합한 학습형 action baseline입니다. LEFT 계열 취약점은 남아 있지만, 현재 남아 있는 학습형 계열 중에서는 58.6%로 가장 높은 기준점입니다.

Exp14 Step 0~2

Exp10 perception을 작게 action으로 바꾸는 우회 경로입니다. Step 0 rule은 31.1%, Exp10 ckpt rule은 34.4%로 제한적이었지만, bbox history를 학습한 Step 1은 68.4%, 여기에 작은 image feature를 더한 Step 2는 75.9%까지 올라 현재 가장 강한 실용 baseline이 됐습니다.

신뢰도 분류

확정된 결론

Exp04는 PM 0% collapse, Exp11은 기존 학습형 기준점 58.6%, Exp10은 perception strong but transfer weak, Exp14 Step 2는 75.9%로 현재 최강이라는 점은 지금 문서 근거가 일치합니다.

애매하지만 유력

Exp03의 semantic alignment가 행동에도 도움 됐을 가능성, Exp05~08의 표현 안정화 효과, Step 2가 center ambiguity를 image feature로 보완했다는 해석은 유력하지만 더 큰 split 검증은 아직 없습니다.

아직 미확정

Step 2가 더 넓은 benchmark와 closed-loop에서도 유지되는지, Exp10 generation을 고치면 Step 2를 넘길 수 있는지, 차기 Step 3가 추가 이득을 주는지는 아직 미확정입니다.