Back to main
MoNaVLA · V5 · Language-Grounded Navigation Series

Exp 흐름 & 이번 주 이슈

2026-05-06 ~ 05-12 · Exp46 → Exp51
"언어 명령으로 목표 물체를 지정하는 VLA" 시도 — fingerprinting 함정 발견 → 언어→기하학 전환 → paraphrase 100% 달성 → augmentation 강인성 개선

Best Val Acc
96.4%
Exp49 · 5-seed σ 0.7%p
Closed-Loop 성공
100%
Exp49 · 9/9 path · FPE 0.081m
Paraphrase 강인성
100%
45개 표현 변형 전부 일치
Flip 대칭
6 / 9
Exp50 · 3개 경로 미해결
Crop Robustness
78 / 100%
Exp51 · left/right 개선
Crop Center
0%
Exp51 · 미해결 핵심 약점
실험 흐름 (Exp46 → Exp51)

각 실험이 무엇을 시도했고, 무엇을 발견했는지.

Exp46 BBox + Vision MLP — 언어 없는 베이스라인

bbox 이력(32-dim) + Kosmos-2 vision feature(1024-dim) → MLP → 8-class action.
언어 없이도 93.2% val acc, closed-loop 100% 달성. 이후 실험의 출발점.

val acc 93.2% CL 100% 파라미터 ~350K
베이스라인 확립
Exp47 Text Embedding 직접 주입 — Fingerprinting 함정

sentence-transformer 2048-dim을 MLP 입력에 추가. val acc 98.7%로 최고지만, 같은 의미의 다른 표현(paraphrase)으로 테스트하면 74.1%로 급락.
원인: MLP가 언어를 이해한 게 아니라 경로별 고정 문장 패턴을 암기한 것 (fingerprinting). "left_left" 에피소드는 항상 동일 문장 → 임베딩도 항상 동일 → 경로 ID 역할.

val acc 98.7% paraphrase 74.1% ❌ 입력 3104-dim
언어 이해 실패 — fingerprinting
Exp49 언어 → 기하학 변환 — Paraphrase 100% 달성

text embedding 2048-dim 제거. 대신 에피소드 시작 시 Kosmos-2 grounding으로 목표 물체 위치 (cx₀, cy₀, area₀) 를 추출해 MLP에 전달.
핵심 인사이트: 표현이 달라도 같은 물체 → grounding cx₀ 동일 → 행동 동일. 입력 3104 → 1059-dim으로 줄었는데 성능 오히려 향상.

val acc 96.4% paraphrase 100% ✅ CL 100% (9/9) FPE 0.081m 5-seed σ 0.7%p
언어 조건부 내비게이션 확립
Exp50 Flip Augmentation — 카메라 좌우 반전 강인성

학습 데이터에 좌우 반전 이미지 + cx 반전(1-cx) 추가 (4200 → 4200×2 프레임). flip 대칭 9개 경로 중 6/9 달성. center 계열 3개 경로는 cx가 ~0.5라 반전해도 액션이 바뀌지 않아야 하는데, 실제로는 LEFT↔RIGHT가 반전되지 않음.

val acc 92.0% flip 대칭 6/9 paraphrase 100% 유지
부분 성공 — center 계열 3개 미해결
Exp51 Crop Augmentation — 카메라 위치 이동 강인성

카메라가 좌/우로 10% 밀렸을 때를 시뮬레이션. crop_left10% / crop_right10% 이미지의 Kosmos-2 vision feature를 사전 추출 후 cx 좌표도 함께 시프트해 학습 데이터에 추가 (10504 프레임).
crop_left: 22% → 78%, crop_right: — → 100%로 개선.
crop_center90%(줌인)은 0% — 별도 분석 필요.

val acc 93.3% crop_left 78% ↑ crop_right 100% ↑ crop_center 0% ❌
left/right 개선 — center 완전 실패

Robustness 비교표

9개 경로 대표 프레임 기준. Exp49 → Exp51 변화.

Augmentation Exp49 Exp50 (+ flip) Exp51 (+ crop) 판정
original 100% 100% 100% ✅ 기준
bright +40% 78% 78% 78% ⚠️ 주의
bright −40% 89% 89% 89%
contrast ±40% 89–100% 89–100% 89–100%
color jitter 89% 100% 100% ✅ 개선
blur σ=3 78% 78% 78% ⚠️ 주의
blur σ=6 33% 22% 22% ❌ 실용 불가
crop left 10% 22% 22% 78% ✅ Exp51 개선
crop right 10% 33% 100% ✅ Exp51 개선
crop center 90% 33% 11% 0% ❌ 미해결
flip 대칭 6/9 6/9 ⚠️ 부분

이번 주 이슈

발견된 문제들과 원인 분석. 해결된 것, 미해결인 것 구분.

해결됨
① Exp47 Fingerprinting — 언어 암기 문제
text embedding을 MLP에 직접 넣으면 MLP가 언어를 이해하는 게 아니라 경로 유형별 고정 문장의 벡터 패턴을 암기함. 같은 의미의 다른 표현으로 바꾸면 74.1%로 급락.
Exp47: "go to left basket" → embed → 2048-dim fingerprint Exp47: "move to container" → embed → 다른 fingerprint → 다른 예측 해결 (Exp49): 언어를 grounding으로 좌표로 변환 "go to left basket" → Kosmos-2 → cx=0.35 (동일) "move to container" → Kosmos-2 → cx=0.35 (동일) → 동일 예측
Exp49에서 해결 · paraphrase 100%
미해결
② crop_center90% = 0% — 줌인 시 완전 실패
카메라가 중앙으로 10% 줌인(crop_center90%)하면 9/9 경로 전부 틀림. 두 가지 원인이 복합적으로 작용.
원인 A — Vision feature 분포 이탈 (핵심) cx가 동일해도 action이 틀림: · right_right: cx=0.500 (불변) → ROT_L ❌ FWD+L · center_left: cx=0.453 (불변) → LEFT ❌ FORWARD → MLP이 줌인 이미지의 vision feature를 본 적 없음 원인 B — Grounding 혼란 (일부 경로) · right_left: orig_cx=0.688 → center_cx=0.500 · left_right: orig_cx=0.281 → center_cx=0.500 → Kosmos-2가 줌인 이미지에서 target 못 찾고 cx=0.5 fallback 수정 방향 (Exp52): center-crop vision feature 사전 추출 + cx 변환: (cx - 0.05) / 0.90
Exp52에서 수정 예정
미해결
③ blur σ=6 = 22% — 강한 블러에 취약
σ=3(약한 블러)은 78%이지만 σ=6(심한 블러)은 22%. Exp50~51에서도 개선 없음. 문제는 MLP가 아니라 Kosmos-2 vision encoder — 심한 블러에서 완전히 다른 feature를 추출해 경로 구분 신호가 사라짐.
blur σ=6 상황에서 cx 이동 확인: · right_left: FWD+R → RIGHT (cx 0.688 → 0.5, grounding 혼란) · left_right: FWD+L → RIGHT (cx 0.281 → 0.5, grounding 혼란) · right_right: ROT_L → FWD+L (cx 동일, feature 이탈) 학습 데이터에 blur 추가해도 Kosmos-2 grounding 자체가 blurry 이미지에서 cx=0.5 반환 → 학습 신호가 노이즈됨
근본 해결 어려움 (Kosmos-2 한계)
설계 한계
④ True VLA가 아님 — 언어가 행동 생성에 참여 안 함
언어가 에피소드 시작 시 좌표 3개(cx, cy, area)로 변환된 후 소멸. 이후 MLP는 언어를 전혀 보지 않음. 극단적으로 말하면 predict(goal_cx=0.35) 가 언어 이해의 전부.
True VLA: [언어] + [이미지] → LLM backbone → action 우리 모델: [언어] → grounding → (cx, cy, area) ↑ 언어 소멸 [이미지] → Kosmos-2 → feature concat → MLP → action 장점: paraphrase 완전 강인 (cx는 언어 표현에 무관) 단점: 새 물체 zero-shot 불가, 언어 일반화 제한
공학적 타협 — 논문에서 명확히 구분 필요
부분 미해결
⑤ Flip 3/9 미해결 — center 계열 flip 대칭 안 됨
center_straight, center_right, center_left — 이 3개 경로는 좌우 반전 시 올바른 대칭 action이 나오지 않음. cx ≈ 0.5 (중앙 물체)라 flip해도 cx 변화가 거의 없어 MLP가 경로 유형을 구분하는 다른 cue에 의존하는 것으로 보임.
center_straight: LEFT → flip → LEFT (기대: RIGHT) ❌ center_right: RIGHT → flip → RIGHT (기대: LEFT) ❌ center_left: LEFT → flip → RIGHT ✅ (우연히 맞음) 가설: center 경로는 cx_history 패턴 차이로 구분됨. flip 시 cx_history도 반전되지만 패턴 변화가 충분하지 않음.
미해결 — 추후 분석 필요
미검증
⑥ 실로봇 갭 — 시뮬레이터만 검증
모든 결과가 동일 환경 (같은 방, 같은 카메라, 같은 바구니 위치 분포)에서 수집된 오프라인 replay 기반. 새 환경 배치나 실로봇에서의 성능은 미검증. Exp49 inference_server.py 연결 작업 준비됨.
현재 검증 범위: ✅ 동일 환경 시뮬레이션 CL 100% ✅ 밝기/대비/색조 변화 강인성 ✅ 카메라 좌우 이동 10% 강인성 ❌ 새로운 방 배치 ❌ 실로봇 ROS 배포 ❌ 새로운 물체 (현재 gray basket만)
실로봇 배포가 최우선 다음 단계

다음 단계 제안

우선순위 순. A → B → C.

A · 즉시 가능
실로봇 배포
Exp49 MLP 가중치 (exp49_mlp.pt)를 inference_server.py에 연결. 실환경 갭이 얼마나 되는지 직접 측정.
예상 소요: 1~2일. 이게 되어야 이후 결과가 의미 있음.
B · 1~2일
Exp52 — crop_center robustness
center-crop vision feature 사전 추출 (2626 프레임) + cx 변환 (cx − 0.05) / 0.90 적용 후 학습 데이터 추가.
목표: crop_center 0% → ≥50%. A와 병행 가능.
C · 교수님 논의 필요
Step 3 — 33/33/33 전방향
현재 decomposition 접근(Exp46~51)이 교수님 3단계 프로토콜의 Step 3를 충족하는지 판단 필요. 아니면 end-to-end VLA 재시도 or TICVLA 대안 검토.

MoNaVLA · V5 · 2026-05-12  |  교수님 미팅 브리핑  |  Exp51 상세 분석  |  Exp49 언어 조건부