V5 Evaluation Protocol

loss, 오프라인 PM/DM, rollout, 실기 테스트를 하나의 공식 판정 흐름으로 묶는 V5 평가 프로토콜.

핵심 원칙

정성 평가는 발견용, 정량 평가는 판정용입니다. V5 실험은 학습 loss만으로 닫히지 않고, perception → policy → rollout → real-world 평가 단계를 통과해야 완료된 것으로 봅니다.

4-Layer Evaluation Stack

Policy 실험이든 grounding 실험이든, 아래 레이어를 어디까지 통과했는지로 공식 상태를 판정합니다.

1

Static Perception

BBox IoU, center offset, direction accuracy.

2

Offline Policy

PM, DM, confusion matrix, forward bias, stop/turn recall.

3

Closed-Loop Rollout

success rate, timeout, deviation, overshoot, recovery.

4

Real Robot

고정 시나리오 success rate, intervention count, completion time.

공식 판정 순서

  1. Layer 1 통과 또는 면제 여부 확인
  2. Layer 2 오프라인 정책 평가
  3. Layer 3 closed-loop rollout
  4. Layer 4 실기 테스트

Policy 실험은 Layer 2와 Layer 3를 모두 통과해야 합니다. Grounding 실험은 Layer 1이 우선이지만, policy transfer를 주장하려면 Layer 3 연결 증거가 필요합니다.

실험 유형별 적용

유형L1L2L3L4
Pure policy선택필수필수최종
Grounding필수보조transfer 시 필수필요 시
Hybrid필수필수필수최종

공통 리더보드 포맷

ExpSplitPerceptionPMDMForward BiasStop RecallSim SuccessReal SuccessVerdict
Exp04valN/A??????미완료
Exp09valN/A85.7?높음낮음 추정??bias 지속
Exp10valIoU 0.87간접간접N/Astop discrepancy미연결?grounding 성공
Exp11valN/A미실행미실행미실행미실행미실행미실행계획

Failure Taxonomy

forward_collapsefalse_stopmissed_stoplate_turnearly_turnleft_right_confusionrotation_missingoscillationovershootperception_misstrajectory_divergence