각 실험이 무엇을 시도했고, 무엇을 발견했는지.
9개 경로 대표 프레임 기준. Exp49 → Exp51 변화.
발견된 문제들과 원인 분석. 해결된 것, 미해결인 것 구분.
해결됨
① Exp47 Fingerprinting — 언어 암기 문제
text embedding을 MLP에 직접 넣으면 MLP가 언어를 이해하는 게 아니라
경로 유형별 고정 문장의 벡터 패턴을 암기함.
같은 의미의 다른 표현으로 바꾸면 74.1%로 급락.
Exp47: "go to left basket" → embed → 2048-dim fingerprint
Exp47: "move to container" → embed → 다른 fingerprint → 다른 예측
해결 (Exp49): 언어를 grounding으로 좌표로 변환
"go to left basket" → Kosmos-2 → cx=0.35 (동일)
"move to container" → Kosmos-2 → cx=0.35 (동일) → 동일 예측
Exp49에서 해결 · paraphrase 100%
미해결
② crop_center90% = 0% — 줌인 시 완전 실패
카메라가 중앙으로 10% 줌인(crop_center90%)하면 9/9 경로 전부 틀림.
두 가지 원인이 복합적으로 작용.
원인 A — Vision feature 분포 이탈 (핵심)
cx가 동일해도 action이 틀림:
· right_right: cx=0.500 (불변) → ROT_L ❌ FWD+L
· center_left: cx=0.453 (불변) → LEFT ❌ FORWARD
→ MLP이 줌인 이미지의 vision feature를 본 적 없음
원인 B — Grounding 혼란 (일부 경로)
· right_left: orig_cx=0.688 → center_cx=0.500
· left_right: orig_cx=0.281 → center_cx=0.500
→ Kosmos-2가 줌인 이미지에서 target 못 찾고 cx=0.5 fallback
수정 방향 (Exp52):
center-crop vision feature 사전 추출 +
cx 변환: (cx - 0.05) / 0.90
Exp52에서 수정 예정
미해결
③ blur σ=6 = 22% — 강한 블러에 취약
σ=3(약한 블러)은 78%이지만 σ=6(심한 블러)은 22%. Exp50~51에서도 개선 없음.
문제는 MLP가 아니라 Kosmos-2 vision encoder — 심한 블러에서 완전히
다른 feature를 추출해 경로 구분 신호가 사라짐.
blur σ=6 상황에서 cx 이동 확인:
· right_left: FWD+R → RIGHT (cx 0.688 → 0.5, grounding 혼란)
· left_right: FWD+L → RIGHT (cx 0.281 → 0.5, grounding 혼란)
· right_right: ROT_L → FWD+L (cx 동일, feature 이탈)
학습 데이터에 blur 추가해도 Kosmos-2 grounding 자체가
blurry 이미지에서 cx=0.5 반환 → 학습 신호가 노이즈됨
근본 해결 어려움 (Kosmos-2 한계)
설계 한계
④ True VLA가 아님 — 언어가 행동 생성에 참여 안 함
언어가 에피소드 시작 시 좌표 3개(cx, cy, area)로 변환된 후 소멸.
이후 MLP는 언어를 전혀 보지 않음. 극단적으로 말하면
predict(goal_cx=0.35) 가 언어 이해의 전부.
True VLA: [언어] + [이미지] → LLM backbone → action
우리 모델: [언어] → grounding → (cx, cy, area)
↑ 언어 소멸
[이미지] → Kosmos-2 → feature
concat → MLP → action
장점: paraphrase 완전 강인 (cx는 언어 표현에 무관)
단점: 새 물체 zero-shot 불가, 언어 일반화 제한
공학적 타협 — 논문에서 명확히 구분 필요
부분 미해결
⑤ Flip 3/9 미해결 — center 계열 flip 대칭 안 됨
center_straight, center_right, center_left — 이 3개 경로는
좌우 반전 시 올바른 대칭 action이 나오지 않음.
cx ≈ 0.5 (중앙 물체)라 flip해도 cx 변화가 거의 없어
MLP가 경로 유형을 구분하는 다른 cue에 의존하는 것으로 보임.
center_straight: LEFT → flip → LEFT (기대: RIGHT) ❌
center_right: RIGHT → flip → RIGHT (기대: LEFT) ❌
center_left: LEFT → flip → RIGHT ✅ (우연히 맞음)
가설: center 경로는 cx_history 패턴 차이로 구분됨.
flip 시 cx_history도 반전되지만 패턴 변화가 충분하지 않음.
미해결 — 추후 분석 필요
미검증
⑥ 실로봇 갭 — 시뮬레이터만 검증
모든 결과가 동일 환경 (같은 방, 같은 카메라, 같은 바구니 위치 분포)에서 수집된
오프라인 replay 기반. 새 환경 배치나 실로봇에서의 성능은 미검증.
Exp49 inference_server.py 연결 작업 준비됨.
현재 검증 범위:
✅ 동일 환경 시뮬레이션 CL 100%
✅ 밝기/대비/색조 변화 강인성
✅ 카메라 좌우 이동 10% 강인성
❌ 새로운 방 배치
❌ 실로봇 ROS 배포
❌ 새로운 물체 (현재 gray basket만)
실로봇 배포가 최우선 다음 단계
우선순위 순. A → B → C.
A · 즉시 가능
실로봇 배포
Exp49 MLP 가중치 (exp49_mlp.pt)를 inference_server.py에 연결.
실환경 갭이 얼마나 되는지 직접 측정.
예상 소요: 1~2일. 이게 되어야 이후 결과가 의미 있음.
B · 1~2일
Exp52 — crop_center robustness
center-crop vision feature 사전 추출 (2626 프레임) +
cx 변환 (cx − 0.05) / 0.90 적용 후 학습 데이터 추가.
목표: crop_center 0% → ≥50%. A와 병행 가능.
C · 교수님 논의 필요
Step 3 — 33/33/33 전방향
현재 decomposition 접근(Exp46~51)이 교수님 3단계 프로토콜의 Step 3를
충족하는지 판단 필요. 아니면 end-to-end VLA 재시도 or TICVLA 대안 검토.