기존 정책 계열과 Exp14 bbox-navigation 계열을 함께 놓고, 지금 시점의 실제 기준점을 한 페이지로 정리한 V5 종합 분석.
Exp01~04는 실패 원인 추적과 foundation 교체, Exp05~08은 표현 최적화, Exp09는 8-class 실패, Exp10은 perception evidence, Exp11은 기존 학습형 기준점, Exp14는 bbox-navigation transfer 개선 흐름으로 읽는 게 현재 가장 정확합니다.
| Exp | 핵심 질문 | 핵심 변경 | 백본 | 대표 결과 | 현재 판정 |
|---|---|---|---|---|---|
| Exp01 | 분류로 바꾸면 해결되는가 | Discrete classification | V4 | val_loss 2.270, FORWARD 100% | 실패 baseline |
| Exp02 | 직선 편향 제거 효과 | straight 제거 | V4 | val_loss 2.210 | 부분 개선 |
| Exp03 | 텍스트 의미 정렬 강화 | CLIP Norm Loss | Exp02 | val_loss 1.784 | 정렬 가능성 |
| Exp04 | foundation 교체 효과 | Google-Robot pretrained | Google-Robot | val_loss 0.776, PM 0% | 학습 collapse |
| Exp05 | 행동 문맥 prompt | action-aware instruction | Google-Robot | transition 안정화 | 중간 최적화 |
| Exp06 | HF 표준 정렬 | grounding token alignment | Google-Robot | OOD 일반화 개선 | 인프라 정비 |
| Exp07 | path type conditioning | path-type aware instruction | Google-Robot | 좌우 혼동 감소 | 보조 성공 |
| Exp08 | STOP 조건 학습 | center-goal prompt | Google-Robot | 첫 STOP 성공 | 표현 개선 |
| Exp09 | 8-class full policy | 8-class + weights | Google-Robot | val_loss 1.203, PM/DM 85.7% | 정책 실패 |
| Exp10 | Grounding 직접 학습 | BBox next-token | Kosmos-2 | val_loss 0.012, IoU 0.87, rule transfer 34.4% | perception strong |
| Exp11 | Exp04 + 8-class 재결합 | 8-class 재설계 | Google-Robot | PM 58.6% | 학습형 기준점 |
| Exp14 Step 0/1/2 | BBox를 policy proxy로 전환 | rule → bbox MLP → bbox+image MLP | Kosmos-2 perception + small head | 31.1% → 68.4% → 75.9% | 현재 최강 |
연속 회귀 대신 discrete action classification으로 강제 선택 구조를 만든 baseline입니다. 결과는 거의 모든 장면에서 Forward로 붕괴했고, 문제는 회귀보다 데이터 불균형과 backbone 오염에 가까웠습니다.
straight 제거와 split 조정으로 FORWARD bias를 줄이려 했지만, V4 기반 한계가 여전히 컸습니다. 데이터 분포 조정 방향 자체는 맞았지만 결정타는 아니었습니다.
CLIP Norm Loss로 left/right instruction 의미를 action representation에 더 강하게 붙이려 했습니다. loss는 좋아졌지만, 행동 지표까지 완전히 닫힌 문서는 부족합니다.
Google-Robot foundation으로 전환하며 V5 정책 계열의 전환점이 됐습니다. 다만 최근 재평가 결과 PM 0% collapse로 확인돼, 좋은 loss가 실제 inference를 보장하지 않는다는 반례가 됐습니다.
Action-aware, HF token alignment, path-type conditioning, goal-centered prompt로 이어지는 표현 최적화 구간입니다. foundation을 바꾼 Exp04만큼 크지는 않지만 정책 표현과 STOP 조건 이해를 안정화하는 역할을 했습니다.
8-class를 형식적으로 통합한 실험입니다. 숫자는 좋아 보였지만 문서 결론은 명확합니다. Forward Bias가 남아 있고 rotation/stop이 실제로 잘 안 배워졌습니다.
정책 대신 grounding/BBox 자체를 실증한 트랙입니다. IoU와 alignment는 강하지만, free-form generation으로 바로 action rule에 연결하면 bbox가 corner로 붕괴해 policy transfer는 34.4%에 그쳤습니다.
Exp04의 foundation 장점과 Exp09의 8-class를 재결합한 학습형 action baseline입니다. LEFT 계열 취약점은 남아 있지만, 현재 남아 있는 학습형 계열 중에서는 58.6%로 가장 높은 기준점입니다.
Exp10 perception을 작게 action으로 바꾸는 우회 경로입니다. Step 0 rule은 31.1%, Exp10 ckpt rule은 34.4%로 제한적이었지만, bbox history를 학습한 Step 1은 68.4%, 여기에 작은 image feature를 더한 Step 2는 75.9%까지 올라 현재 가장 강한 실용 baseline이 됐습니다.
Exp04는 PM 0% collapse, Exp11은 기존 학습형 기준점 58.6%, Exp10은 perception strong but transfer weak, Exp14 Step 2는 75.9%로 현재 최강이라는 점은 지금 문서 근거가 일치합니다.
Exp03의 semantic alignment가 행동에도 도움 됐을 가능성, Exp05~08의 표현 안정화 효과, Step 2가 center ambiguity를 image feature로 보완했다는 해석은 유력하지만 더 큰 split 검증은 아직 없습니다.
Step 2가 더 넓은 benchmark와 closed-loop에서도 유지되는지, Exp10 generation을 고치면 Step 2를 넘길 수 있는지, 차기 Step 3가 추가 이득을 주는지는 아직 미확정입니다.