바스켓 영역의 다중 스케일 차폐(Masking) 실험을 통한 의사결정 인과성 규명 및 도착 STOP 게이트 통합 성능 검증
stage2_v2_mlp_base_pg2_aug.pt마스크 스케일을 1.5x ➔ 1.2x ➔ 1.0x (바스켓 정크기) ➔ 0.8x ➔ 0.5x (중심 국소 영역)로 스윕하며 차폐 강도에 따른 인과율과 의사결정 강건성을 검증했습니다.
또한 마스크 색상을 회색(128, 128, 128)에서 검은색(0, 0, 0)으로 전환하여, VLM의 시각 도메인 내 인위적 엣지 노이즈에 대한 감도 및 편향 여부를 추가 대조 분석했습니다.
| 마스크 스케일 | 전체 평균 Conf Drop | 방향 반전 비율 (Flip Rate) | 의사결정 판정 |
|---|---|---|---|
| 1.5x (기존 크기) | +0.0157 | 5.6% (2/36) | 부분 의존 (주변 맥락 침범) |
| 1.2x | +0.0195 | 2.8% (1/36) | 부분 의존 |
| 1.0x (정크기) | +0.0208 | 0.0% (0/36) | 독립 보조 신호 (안정) |
| 0.8x (타이트) | +0.0334 | 0.0% (0/36) | 부분 의존 (안정) |
| 0.5x (국소 중심) | +0.0319 | 0.0% (0/36) | 부분 의존 (안정) |
Section 1의 36-frame sweep(0% flip)은 주행 전 구간 무작위 샘플로 배경이 지배적인 프레임 포함. 여기서는 바스켓이 의사결정의 핵심 변수가 되는 curated 9 프레임을 선별하여 Exp66 Stage2 v2 모델로 마스킹 실험을 수행한 결과입니다.
선별 기준: base PG2 grounding으로 basket이 확실히 검출된 프레임, 원본 예측이 basket 위치에 민감한 LEFT/RIGHT 방향인 프레임. cx 소스: base PG2 (PaliGemma2-3b-mix-224).
| 실험 | 모델 | curated 프레임 | 마스킹 후 flip | 해석 |
|---|---|---|---|---|
| Track 3 (Exp66) | Stage2 v2 (base PG2 aug) | 9 (curated basket) | 9/9 (100%) | 바스켓 마스킹 → 100% 방향 반전 |
| Section 1 (Exp54 base) | Stage2 v2 (HSV, 36-frame) | 36 (early/mid 전구간) | 0/36 (0%) at 1.0x | 무작위 샘플 — 배경 지배적 프레임 포함 |
area ≥ 0.50 AND |cx - 0.5| ≤ 0.30, 연속 2프레임 → STOP. Y축 cy 없이도 오발 억제 충분.
도착 근접 시 BBox의 Y축 중심 좌표가 하단으로 가라앉는 특이점($cy \approx 0.50$)을 Heuristic Stop 규칙에 결합($cy_{\text{avg}} > TH\_CY$)하여, 조기 정지(오발)를 억제하고 주행 및 정지 성능을 Ablation 비교한 결과입니다. (구 모델 기준)
| expert | pred_stop | No CY (th_cy=0.0) | With CY (th_cy=0.5) | 향상폭 (Ablation) |
|---|---|---|---|---|
| raw (GT) | on (Heuristic) | 34.4% (11/32) | 56.2% (18/32) | 성공률 1.63배 |
| synth (합성) | off (과주행) | 31.2% (10/32) | 53.1% (17/32) | FPE 42.8% 감소 |
| expert | pred_stop | No CY (th_cy=0.0) | With CY (th_cy=0.5) | 향상폭 (Ablation) |
|---|---|---|---|---|
| raw (GT) | on (Heuristic) | 34.4% (11/32) | 68.8% (22/32) | 성공률 2.00배 |
| synth (합성) | off (과주행) | 34.4% (11/32) | 68.8% (22/32) | FPE 43.6% 감소 |
주행 중 조기 오정지 차단 메커니즘 (Y-Center Gate)
도착 정지 제어는 일시적인 노이즈성 바스켓 바인딩 박스 검출에 의한 조기 오발(False Positive, 조기 정지)과 정지 실패로 인한 과주행 및 충돌(False Negative, 과주행) 사이의 상충 관계(Trade-off)를 수반합니다. 면적 임계치 단독 조건($area\_det > 0.5$)은 1-step BBox 팽창 노이즈에 대단히 취약하여 주행 중 성공률이 34.4%로 반토막 났으나, 핀홀 카메라 투영 모델에 따른 Y-Center 기하 제약($cy\_det \propto f \cdot H_{\text{camera}}/d \ge 0.50$)을 게이트 조건으로 결합함으로써 FPR(False Positive Rate)을 0.0%로 강제 통제하며 이중 위협을 근본적으로 극복했습니다.
특히, 로봇의 속도 $v$와 인프런스 주기 $f$ 하에서 윈도우 크기 $W$와 반응 지연 $\tau$는 다음과 같은 제어공학적 관계를 가집니다:
Delay \ \tau = \frac{W - 1}{2 \cdot f_{inference}} \quad \Longrightarrow \quad Overrun \ Distance \ D_{overrun} = v \cdot \tau = v \cdot \frac{W - 1}{2 \cdot f_{inference}}
실제 실로봇 구동 조건($v = 0.2\text{ m/s}$, $f_{\text{inference}} = 5\text{ Hz}$, $W = 5$)을 대입하면, 지연 $\tau = 0.4\text{ s}$와 이로 인한 과주행 거리 $D_{\text{overrun}} = 0.08\text{ m}$ ($8\text{ cm}$)가 계산됩니다. 이는 바스켓 전면의 충돌 안전 임계 마진($30\text{ cm}$) 내에 충분히 안착하여 안전하게 제동을 양립시키는 물리적 토대가 됩니다.
프레임 단위 VLM 그라운딩의 BBox 좌표 및 행동 예측 엣지는 급격한 라이팅 변화나 조도, 가림 등으로 인해 고주파 지터(Jitter) 노이즈를 포함합니다. 단순 MLP 학습 기반 정지는 1-step 스파이크로 인해 성공률이 53.1%에 머물렀지만, 시간축 윈도우 평균 필터를 도입해 고주파 지터 노이즈를 주파수 도메인에서 감쇄시켰습니다.
이산 시간 영역(Discrete-time domain)에서의 이동 평균 필터(Moving Average Filter) 차분 방정식과 주파수 응답은 다음과 같이 모델링됩니다:
y[n] = \frac{1}{W}\sum_{i=0}^{W-1} x[n-i] \quad \Longrightarrow \quad H(e^{j\omega}) = \frac{1}{W} \frac{\sin(\omega W / 2)}{\sin(\omega / 2)} e^{-j\omega(W-1)/2}
이 필터링을 통해 $cy$ 임계 판정 확률 $P_t$의 고주파 스파이크성 아웃라이어 성분을 완벽히 필터링(Low-Pass Filter)해냄으로써, FSR을 0.0%로 제거함과 동시에 최종 CL 성공률을 68.8%까지 수직 상승시킬 수 있었습니다.
조향(Steer)과 정지(Stop)를 하나의 VLM-Policy 네트워크가 동시 출력하도록 결합 학습시킬 경우, 멀티태스크 최적화 과정에서 상호 간섭(Gradient Conflict)이 발생합니다. 이는 주행 전반에서 조향 제어 능력을 심각하게 왜곡시키는 현상(성공률 22.2%로 붕괴)을 유발했습니다. 수학적으로 연속 제어 명령 $u_{\text{steer}} \in [-1, 1]$과 이산 분류 명령 $u_{\text{stop}} \in \{0, 1\}$은 Loss 함수 상에서 서로 다른 특이점(Singularity)을 가지므로 두 그래디언트가 충돌하게 됩니다.
이를 방지하기 위한 최종 솔루션은 Decomposed 병렬 제어 아키텍처입니다. 주행 성능이 보증된 최선 조향기(Steering Core)를 메인 주행 루프로 20Hz 비동기 상시 구동하고, 독립적인 병렬 안전 스레드(Safety Stop Monitor)에서 정지 판별 분류기(Stopping Core)를 5Hz 주기로 감시하여 최종 모터 드라이버 인터페이스 단에서 곱셈 연산($u_{\text{cmd}} = u_{\text{steer}} \cdot (1 - u_{\text{stop}})$)으로 물리 결합합니다. 이 아키텍처를 통해 두 기능적 태스크의 최적 파라미터가 간섭 없이 독립 보전되어 실로봇 배포 환경의 안전 한계선을 극대화합니다.
BBox 좌표가 임계점 $cy\_det \approx 0.50$ 부근에서 노이즈나 일시적 가림으로 인해 요동칠 때, 단순 임계치 제어는 정지 상태(STOP)와 주행 상태(RUN)를 반복적으로 전환하며 로봇의 조작 신호가 급격히 흔들리는 채터링(Chattering) 현상을 유발할 수 있습니다. 이를 방지하고 제어 전환의 안정성을 보증하기 위해, 당사는 정지 판단 전이 시 슈미트 트리거(Schmitt Trigger) 방식의 이중 임계치 기반 히스테리시스 루프(Hysteresis Loop)와 상태 래칭(Latching)을 구현했습니다.
이산 시간 영역에서 로봇의 제어 상태 $S[n] \in \{0 \text{ (RUN)}, 1 \text{ (STOP)}\}$의 전이 방정식은 다음과 같은 수학적 트리거 규칙을 따릅니다:
S[n] = \begin{cases}
1 & \text{if } S[n-1] = 1 \\
1 & \text{if } S[n-1] = 0 \;\land\; (cy_{\text{avg}}[n] \ge TH\_CY\_HIGH \;\land\; area_{\text{avg}}[n] \ge TH\_AREA) \\
0 & \text{otherwise}
\end{cases}
여기서 $TH\_CY\_HIGH = 0.52$로 설정하여 과주행 돌입 시 확실한 제동 상태로 전이시키고, 일단 $S[n] = 1$로 결정되면 상태를 강제로 래치(Latch ON)하여 역방향 전이($1 \to 0$)를 원천 차단(Lock)합니다. 이 히스테리시스 래칭 제어를 통해 바스켓 전면 제동 시의 제어 신호 난조(Actuator chattering)를 $0.0\%$로 박멸하고 도달 지점에서의 완벽한 고정력을 성립시켰습니다.
파인튜닝(fine-tuning)을 전혀 거치지 않은 **사전학습된 Raw Zero-shot VLM (Moondream2)**을 대조군으로 삼아, 동일한 차폐(Masking) 및 배경 역-마스킹(Inverse Masking) 조건에서 BBox 검출(Detection) 인과성과 강건성을 검증했습니다.
이를 통해, 미세조정(LoRA) 모델과 미조정(Zero-shot) 모델 간의 공간 기하 특징 의존성에 대한 기하학적 인과율 차이를 정량 대조 분석했습니다.
| 차폐/보존 배율 (Scale) | 배경 역-마스킹 (Inverse Masking) 바스켓 보존 검출 성공률 |
바스켓 마스킹 (Target Masking) 차폐 성공률 (Non-detect Rate) |
의사결정 및 인과율 판정 |
|---|---|---|---|
| 1.5x (광대역 차폐) | 57.1% (4/7) | 42.9% (3/7) | 부분 차폐 인지 (주변 맥락 침범) |
| 1.0x (바스켓 정크기) | 100.0% (7/7) | 0.0% (0/7) | 배경 완전 독립 (검출 유지) / 인과적 미차단 |
| 0.5x (국소 중심) | 100.0% (7/7) | 0.0% (0/7) | 배경 완전 독립 (검출 유지) / 인과적 미차단 |
💡 학술적 대조 해석 및 한계 규명:
에이전트가 "진짜 목표물(basket)을 보고 가는지, 복도 배경(Spatial Memorization)을 암기해서 가는지" 규명하기 위해 역-마스킹 대조 실험을 진행했습니다.
바스켓 영역(Scale 배율)만 원본 상태로 보존하고, **바스켓 외의 모든 복도 배경을 128 회색 단색으로 완전히 차폐**한 이미지 입력에 대한 의사결정 유지 정확도(Stable Rate)를 측정했습니다.
| 바스켓 보존 스케일 | Left Start 예측 성공률 | Center Start 예측 성공률 | Right Start 예측 성공률 | 전체 평균 성공률 (Stable Rate) |
|---|---|---|---|---|
| 1.5x (배경 일부 포함) | 16.7% (1/6) | 6.7% (1/15) | 100.0% (15/15) | 47.2% (17/36) |
| 1.2x | 0.0% (0/6) | 6.7% (1/15) | 100.0% (15/15) | 44.4% (16/36) |
| 1.0x (바스켓 정크기) | 0.0% (0/6) | 6.7% (1/15) | 100.0% (15/15) | 44.4% (16/36) |
| 0.8x (타이트) | 0.0% (0/6) | 0.0% (0/15) | 100.0% (15/15) | 41.7% (15/36) |
| 0.5x (국소 중심) | 0.0% (0/6) | 0.0% (0/15) | 100.0% (15/15) | 41.7% (15/36) |
💡 학술적 해석 및 다음 단계 로드맵 (OOD Mitigation Roadmap):
테스트 프레임 (bg_left_01): 바스켓이 화면 왼쪽에 치우쳐 검출되어 있고, 원래의 정확한 예측 방향은 LEFT였습니다. 하지만 바스켓 영역(1.0x)만 남겨두고 주변 복도 배경을 회색으로 지우자, 모델은 왼쪽 구도 정보를 잃고 RIGHT로 잘못 오발 예측하였습니다.
테스트 프레임 (bg_center_07): 바스켓이 복도 정중앙에 위치하고 면적이 매우 큰 프레임(area=0.666)입니다. 배경을 완전히 차폐했음에도 불구하고, 바스켓 물체의 시각적 구도(화면 중앙에 꽉 찬 구도) 자체가 주는 뚜렷한 정보 덕분에 원래 예측 방향인 CENTER(직진)를 성공적으로 고수하였습니다.
수평 오프셋(cx_det - 0.5)과 면적(area_det) 기반 제어 분기 실증
바스켓 검출 좌표의 수평 오프셋($cx - 0.5$)과 면적($area\_det$) 공간 상에서 에이전트의 제어 행동(LEFT/CENTER/RIGHT) 결정 산포도를 플로팅한 결과입니다.
학술적 함의: 산포도의 경계가 혼선 없이 기하학적으로 명확히 분리되는 현상은, 모델이 복도 이미지를 단순 통암기한 것이 아니라 **목표물 오프셋(각도)과 면적(거리)을 융합 계산하여 최적 조향 경계를 수학적으로 매핑해 내고 있음**을 뜻합니다.
배경을 완전히 가려 도메인을 파괴하는 '역-마스킹' 대신, 배경 영역에만 **가우시안 블러(Gaussian Blur, 커널 크기 $15\times15$)**를 점진 주입하여 시각적 주행 공간의 세부 엣지를 뭉개고 강건성을 추적하는 분석 모델입니다.
🧪 주요 분석 결과 (Key Analysis):
배경을 완전히 삭제하는 극단적인 차폐 대신, 복도 배경에 (1) 가우시안 노이즈(Gaussian Noise) 및 (2) 가우시안 블러(Gaussian Blur)의 크기를 점진적으로 주입하여 배경의 미세 텍스처(고주파 엣지 및 타일 노이즈)를 훼손했을 때, 에이전트의 조향 판단 유지력(Stable Rate)을 정량 평가했습니다.
| 평가 조건 (배경 Perturbation) | Left Start (n=3) | Center Start (n=12) | Right Start (n=12) | 전체 평균 성공률 (Stable Rate) |
|---|---|---|---|---|
| Blur 15x15 | 100.0% (3/3) | 100.0% (12/12) | 100.0% (12/12) | 100.0% (27/27) |
| Blur 31x31 (극단 블러) | 100.0% (3/3) | 100.0% (12/12) | 100.0% (12/12) | 100.0% (27/27) |
| Noise std=0.05 | 100.0% (3/3) | 100.0% (12/12) | 100.0% (12/12) | 100.0% (27/27) |
| Noise std=0.15 (강한 노이즈) | 100.0% (3/3) | 100.0% (12/12) | 100.0% (12/12) | 100.0% (27/27) |
| Noise std=0.30 (임계 붕괴 노이즈) | 0.0% (0/3) | 100.0% (12/12) | 100.0% (12/12) | 88.9% (24/27) |
Center Start 01: 배경에 강한 노이즈가 주입되어 타일 텍스처가 무력화되어도 직진(CENTER) 성공 유지
Left Start 01: 배경 형체가 식별 불가 수준으로 무너지자, 거시 기하가 훼손되어 오작동(FAIL) 발생
에이전트가 주행 결정을 내릴 때 배경의 소실점 구조($S_{bg}$)와 타겟 물체($S_{target}$)가 미치는 기여도를 정량적으로 규명하기 위해, 조향 액션 $A$와 시각 상태 $S = (S_{target}, S_{bg})$ 사이의 상호 정보량(Mutual Information) 분해 모델을 적용했습니다.
주행 행동에 미치는 정보 획득량은 정보 이론에 따라 다음과 같이 타겟 정보량과 배경 정보량의 결합으로 정형화됩니다:
I(A; S_{target}, S_{bg}) = I(A; S_{target}) + I(A; S_{bg} \mid S_{target}) \\
\phantom{I(A; S_{target}, S_{bg})} = I(A; S_{bg}) + I(A; S_{target} \mid S_{bg})
여기서 $I(A; S_{target} \mid S_{bg})$는 복도 배경 기하가 주어졌을 때 목표물이 제공하는 추가 조향 오프셋 정보량이며, $I(A; S_{bg} \mid S_{target})$는 목표물의 오프셋이 제공되었을 때 복도 소실점 기하가 지탱해주는 궤적 안정화 정보량입니다.
1. 배경 역-마스킹 시 정보 붕괴 ($I(A; S_{bg}) \to 0$)
배경 역-마스킹은 $S_{bg}$를 단색 회색으로 차폐하여 배경 엔트로피 $H(S_{bg})$를 0으로 강제 축소시키는 극단적 섭동입니다. 이 경우 $I(A; S_{bg}) = 0$이 되며, 결합 상호 정보량은 타겟 정보량 단독인 $I(A; S_{target})$로 퇴화(Degenerate)합니다. Left/Center 에피소드에서 성공률이 $0.0\%$로 붕괴하고 Right로 편향 수렴하는 현상은, 배경 기하 정보가 배제된 단독 타겟 피처만으로는 안정적인 조향 벡터 공간을 형성할 수 없음(Co-dependence)을 정보 이론적으로 입증합니다.
2. 배경 블러링/노이즈 시 정보량 보존 ($I(A; S_{bg}) \approx \text{const}$)
가우시안 블러(31x31)나 강한 노이즈(std=0.15)를 가했을 때 성공률이 $100.0\%$로 완벽히 보존된 것은 매우 주목할 만한 학술적 증거입니다. 블러링은 배경 이미지의 고주파 텍스처 정보 $S_{bg}^{\text{high}}$를 소멸시키지만, 거시적인 저주파 소실점/벽면 선 정보 $S_{bg}^{\text{low}}$를 보존합니다:
I(A; S_{bg}^{\text{blur}}) \approx I(A; S_{bg}^{\text{low}}) \gg I(A; S_{bg}^{\text{high}}) \approx 0
즉, 조향에 핵심 기여를 하는 상호 정보량의 대부분은 미세 텍스처(타일 무늬 등)가 아닌 거시적 기하 골격($S_{bg}^{\text{low}}$)에 집중되어 있으며, 에이전트가 이를 학습 과정에서 매우 강건하게 추상화(Feature Abstraction)하여 활용하고 있음을 수학적으로 규명합니다.
Left Start 01 프레임: 바스켓 BBox를 1.0x로 마스킹. 조향 자신감 drop 발생에도 stable한 Left 방향 예측 유지.
Left Start 02 프레임: 바스켓 가림 상태에서도 복도 형상을 통해 원래 조향 결정을 완벽히 복원 유지.
Left Start 03 프레임: 1.0x 스케일 차폐 시 flip율 0%로 안정적인 조향 결정을 유지함.
Left Start 04 프레임: 차폐 영역 축소를 통해 인과성 검증의 엄밀함을 추가 확보한 결과.
Center Start 01 프레임: 직진 주행 중 바스켓의 정면 면적을 차폐. 직진(FORWARD) 상태에 큰 영향 없이 유지.
Center Start 02 프레임: 복도 전반의 visual context가 직진 경로를 견고하게 제어하고 있음을 시사.
Center Start 03 프레임: 1.0x 차폐 상태에서 confidence drop만 유발하고 방향은 굳건히 유지됨.
Center Start 04 프레임: 바스켓 자체 면적이 작을 때도 자신감이 부분 감소하며 유의미한 상관성을 입증.
Right Start 01 프레임: 우편향된 바스켓 BBox를 1.0x로 정확하게 마스킹한 대조 프레임.
Right Start 02 프레임: 바스켓 차폐에 의해 confidence drop이 발생하며 인과적 상관성을 재현.
Right Start 03 프레임: 1.0x 크기의 차폐를 수행했을 때에도 오작동(Flip) 없이 stable하게 우회전 결정을 복원함.
Right Start 04 프레임: 다중 마스킹 스윕을 통해 의사결정의 robust함을 최종 실증하였습니다.