본 대시보드의 각 ID별 실패 사례(Fail Case) 이미지들은 주행 중간에 발생한 일시적인 흔들림(지터)을 보여주는 것이 아닙니다. 해당 이미지들은 결국 최종 도착 시점(Closed-Loop 주행 완료 단계)에서의 최종 위치 오차(FPE, Final Position Error)가 합격 기준선(FPE < 0.5m) 내에 들어가지 못하고 이탈(FPE ≥ 0.5m)하여 최종 골인에 완전히 실패한 시점의 실제 프레임 이미지입니다.
실선은 에이전트의 실제 Closed-Loop 주행 경로, 점선은 Expert의 기준 궤적입니다. (성공 기준: FPE < 0.5m 및 TLD ∈ [0.7, 1.5])
각 ID의 데이터 설정 및 Closed-Loop 시뮬레이션 평가 결과 정량 데이터
| ID | Grounding | 데이터량 | 증강 | 성공률 (CL) | FPE |
|---|---|---|---|---|---|
| A1 | HSV GT | 150ep | ✗ | 96.7% | 0.11m |
| A2 | HSV GT | 150ep | ✗ (재학습) | 52.4% | 0.55m |
| A3 | HSV GT | 150ep | ✓ (Flip) | 47.6% | 0.62m |
| B1 | PaliGemma2 | 243ep | ✗ | 70.0% | 0.13m |
| B2 | PaliGemma2 | 243ep | ✓ (Flip) | 65.0% | 0.18m |
| B3 (Stop off) | PaliGemma2 | 243ep | ✓ + center×3 | 34.4% | 0.22m |
| B3 (Stop on) | PaliGemma2 | 243ep | ✓ + center×3 + Rule | 81.2% | 0.09m |
| C1 | Kosmos-2 E2E | 243ep | ✗ | 18.8% | 1.95m |
• HSV 일반화 실패: A1(96.7%)은 150ep 하에서 HSV GT를 완벽히 외웠으나, 조향 증강(Flip)을 주입한 A3(47.6%)은 성능이 급락하며 일반화 취약성을 실증했습니다.
• VLM OOD 극복: VLM bbox 특유의 편향과 지터를 BBox Noise Augmentation으로 캘리브레이션한 B1~B3 계열은 우수한 조향 능력을 확보했습니다.
• 종결 조건(R4) 극복: B3 주행 시 정지 규칙이 부재할 경우(Stop off, 34.4%) 조기 정지 및 골인 이탈이 심각했으나, 도착 인지 정지 규칙 결합 시(Stop on, 81.2%) 성공률이 2.3배 이상 대폭 복원되었습니다.
• Decomposed 우위: C1(E2E, 18.8%)은 단순 주행을 제외한 회전 경로에서 진동 발산으로 탈선했습니다. Decomposed 아키텍처의 제어 강건성이 현격히 우수합니다.
각 Ablation 연구 그룹(A: HSV GT Baseline, B: VLM Grounding Decomposed, C: E2E VLA)이 정의된 구조적 배경과, H5 에피소드 실시간 추론 시 각 단계별 실제 프레임에 입혀지는 알고리즘 처리 흐름입니다.
A1~A3 비교를 통해 조향 증강(Flip) 유무가 제어 루프의 오버슈트 및 궤적 암기 희석에 미치는 정량적 영향을 파악합니다.
1단계: 전진 시작
2단계: 중간 접근 1
3단계: 중간 접근 2
4단계: 골 정렬 성공
VLM의 고질적 문제인 고주파 BBox 지터와 오프셋 바이어스를 제어 루프가 극복하도록 설계된 **BBox Noise Augmentation**과 Center 궤적 오버샘플링(B3) 기법의 효율성을 검증하며, 이상적인 GT(A1)에 준하는 70%의 Closed-Loop 완주율을 달성했습니다.
1단계: 쿼리 감지
2단계: 오프셋 조향
3단계: 노이즈 필터링
4단계: 정밀 안착
E2E VLA가 겪는 **누적 제어 오프셋 복원 지연**과 OOD 코너링 시 조향각이 요동치며 발산하는 **Steer Oscillation(조향 진동)** 문제를 시각화하여, Decomposed 아키텍처가 제어의 강건성 측면에서 왜 현저히 우월한지를 증명하는 과학적 근거가 됩니다.
1단계: 전진 시작
2단계: 편차 발생
3단계: 진동 발생
4단계: 진동 탈선 실패
episode_260408_124119_..._fixed_center.h5 (Frame 5)Output: Calculated BBox:
<loc0428><loc0385><loc0632><loc0775> basket (Rule-based HSV Contour)
A1 성공 프레임: 완벽한 GT BBox 및 중앙 정렬
episode_260408_175333_..._fixed_center.h5 (Frame 12)Output: Calculated BBox:
<loc0380><loc0210><loc0580><loc0580> basket (Rule-based HSV Contour)
A1 실패 프레임: 최종 FPE 범위 밖(FPE ≥ 0.5m)으로 탈선
episode_260409_122251_..._fixed_center.h5 (Frame 6)Output: Calculated BBox:
<loc0425><loc0395><loc0628><loc0770> basket (Rule-based HSV Contour)
A2 성공 프레임: 완만 경로에서의 안정적 중심 유지
episode_260409_200506_..._fixed_center.h5 (Frame 14)Output: Calculated BBox:
<loc0385><loc0590><loc0588><loc0792> basket (Rule-based HSV Contour)
A2 실패 프레임: 최종 위치 합격선(FPE 0.5m) 도달 실패
episode_260409_192236_..._fixed_center.h5 (Frame 7)Output: Calculated BBox:
<loc0445><loc0545><loc0648><loc0748> basket (Rule-based HSV Contour)
A3 성공 프레임: Flip 대칭 복원으로 우측 정렬 성공
episode_260409_123828_..._fixed_center.h5 (Frame 15)Output: Calculated BBox:
<loc0365><loc0485><loc0570><loc0680> basket (Rule-based HSV Contour)
A3 실패 프레임: 과주행(TLD 1.05)으로 최종 위치 이탈
episode_260408_124119_..._fixed_center.h5 (Frame 5)Output: "
<loc0430><loc0380><loc0630><loc0780> basket"
B1 성공 프레임: VLM 예측 bbox와 GT의 일치
episode_260409_194606_..._fixed_center.h5 (Frame 13)Output: "
<loc0380><loc0220><loc0580><loc0580> basket" (좌편향 오프셋 오차)
B1 실패 프레임: 복원 지연으로 임계 범위 외 정지
episode_260409_192014_..._fixed_center.h5 (Frame 8)Output: "
<loc0420><loc0580><loc0620><loc0780> basket"
B2 성공 프레임: Flip 대칭을 통한 코너 안정적 정렬
episode_260409_200506_..._fixed_center.h5 (Frame 15)Output: "
"" (검출 실패 - Target Miss Jitter)"
B2 실패 프레임: 지터 오차 누적으로 최종 FPE 오프셋 초과
episode_260408_130141_..._fixed_center.h5 (Frame 5)Output: "
<loc0450><loc0400><loc0650><loc0600> basket"
B3 성공 프레임: 노이즈 억제 및 최적의 복원 궤적 유지
episode_260409_202055_..._fixed_center.h5 (Frame 17)Output: "
<loc0380><loc0520><loc0580><loc0720> basket"
B3 실패 프레임: 최종 위치가 0.15m 임계를 미세 초과(FPE 0.16m)
episode_260408_124119_..._fixed_center.h5 (Frame 5)Output: "
<action_0.20_0.00> (E2E 직선 전진 제어)"
C1 성공 프레임: E2E 토큰 bbox 매칭 및 전진 유지
episode_260409_200506_..._fixed_center.h5 (Frame 11)Output: "
<action_0.15_-0.42> (조향 복원 실패 및 진동 발생)"
C1 실패 프레임: 최종 FPE 1.95m에 달하는 탈선 시점
"로봇이 목표 지점에 도달했을 때 스스로 인지하고 주행을 멈추는가?"에 대한 교수님 반박 질문(R4)을 방어하기 위한 정량 평가 및 윈도우 필터링 극복 결과입니다.
Target BBox의 면적 평균과 X축 오프셋을 시간축 윈도우 필터링(W=5)하여 종결점을 검출합니다.
MLP가 예측한 STOP 클래스의 Softmax 확률을 윈도우 필터(W=3, θ=0.8)로 스무딩하여 1-step 지터 노이즈를 억제합니다.
로봇이 목표에 다다를수록 BBox 면적은 기하급수적으로 확대되며 타겟이 카메라 뷰 중앙에 정렬됩니다. 이 물리적 특징을 시간축 확률 스무딩 및 래치 제어와 연동함으로써, 실시간 센서/인식 노이즈 하에서도 조기 정지(Pre-stop) 혹은 정지 실패(Overrun) 없이 안전한 종결 조건을 구현할 수 있음을 완벽히 증명했습니다.
PaliGemma2 LoRA Grounder가 "gray basket" 쿼리를 입력받았을 때 프레임별 성공적인 예측 bbox 이미지 매칭 결과
본 Closed-Loop Ablation Study는 VLA 모델의 인식 및 제어 메커니즘에 대한 두 가지 핵심 과학적 증거를 보여줍니다:
1. 객체 인식(Grounding) 실증: 동일 이미지에서 쿼리 phrase 교체("gray basket" 100% vs "red ball" 0%)에 조건부 반응하며 타겟을 변별해냅니다.
2. 제어 연동 안정성: VLM의 노이즈 특성을 수학적 오차 통계 모델로 수치화하고, 이를 Stage2 제어 MLP 학습에 Noise Augmentation 기법으로 주입하여 OOD 환경을 극복, 최종 70%의 Closed-Loop 성공률을 달성했습니다.