πŸ€– MoNaVLA Experiment Report Page 1 / 4

μ‹€ν—˜ κ°œμš”: ν…μŠ€νŠΈ-λ‘œμ§“ 민감도 (Text-Logit Sensitivity)

κ°€μ„€: "λ©€ν‹°λͺ¨λ‹¬ VLA λͺ¨λΈμ΄ λ‘œλ΄‡μ˜ μ£Όν–‰ μ•‘μ…˜μ„ μ˜ˆμΈ‘ν•  λ•Œ, μ‚¬μš©μžμ˜ μžμ—°μ–΄ μ§€μ‹œ(Prompt)λ₯Ό λ¬΄μ‹œν•˜κ³  μ‹œκ°μ  정보(ν™”λ©΄ μ€‘μ•™μ˜ 객체 λ“±)μ—λ§Œ κ³Όλ„ν•˜κ²Œ μ˜μ‘΄ν•˜λŠ”κ°€?"

μ‹€ν—˜ 방법:

  • λ™μΌν•œ μ •μ§€ 이미지(1ν”„λ ˆμž„)λ₯Ό κ³ μ •.
  • 단어 ν”„λ‘¬ν”„νŠΈλ§Œ λ‹€λ₯΄κ²Œ μž…λ ₯ ("Go forward", "Go left", "Go right", "Stop").
  • 각 μž…λ ₯λ³„λ‘œ λ„μΆœλ˜λŠ” 6개 Action Class의 Softmax ν™•λ₯ (λͺ…령어별 둜그 뢄포 λ³€λ™λŸ‰)을 μΈ‘μ •.

ν…ŒμŠ€νŠΈ 이미지 (Visual Input)

Test Scene

*이 이미지λ₯Ό κ³ μ •κ°’μœΌλ‘œ 두고 ν…μŠ€νŠΈ μž…λ ₯만 λ³€κ²½ν–ˆμŠ΅λ‹ˆλ‹€. 였λ₯Έμͺ½μœΌλ‘œ 돌기 쒋은 ν˜Ήμ€ μš°μΈ‘μ— μ‹œκ°μ  이끌림이 μžˆλŠ” μƒνƒœμž…λ‹ˆλ‹€.

검증 κ²°κ³Ό (Softmax Probabilities)

λ™μΌν•œ 이미지에 λŒ€ν•΄ ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλ₯Ό λ³€κ²½ν–ˆμ„ λ•Œμ˜ ν΄λž˜μŠ€λ³„ 예츑 ν™•λ₯ μž…λ‹ˆλ‹€.

μž…λ ₯ ν…μŠ€νŠΈ μ΅œμ’… 예츑 Stop Forward Left Right FWD-L FWD-R
"Go forward..." Right 19.9% 8.8% 23.5% 25.2% 11.0% 11.3%
"Go left." Right 21.8% 5.2% 27.0% 30.6% 7.6% 7.5%
"Go right." Right 23.1% 4.0% 27.9% 32.6% 6.3% 5.8%
"Stop here." Right 24.0% 3.7% 27.9% 33.3% 5.8% 5.1%

κ΄€μΈ‘: "Go left"λ₯Ό μž…λ ₯ν•˜λ©΄ Left ν™•λ₯ μ΄ μ¦κ°€ν•˜κ³ , "Stop"을 λ„£μœΌλ©΄ Stop ν™•λ₯ μ΄ λˆˆμ— λ„κ²Œ μƒμŠΉν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ μ§€μ‹œμ— 따라 λΆ„λͺ…νžˆ ν™•λ₯ μ΄ λ³€ν™”ν•˜μ§€λ§Œ, μ΅œμ’… Argmax μ˜ˆμΈ‘κ°’μ€ μ‹œκ°μ  편ν–₯으둜 인해 계속 Rightλ₯Ό κ°€λ¦¬ν‚΅λ‹ˆλ‹€.

κ²°λ‘  및 ν–₯ν›„ λŒ€μ‘ λ°©ν–₯ (Findings)

1. μ–Έμ–΄ λ°˜μ˜λ„ (Text Sensitivity) 확인됨

ν…ŒμŠ€νŠΈ κ²°κ³Ό, VLM은 μ‚¬μš©μžμ˜ μ‹œμŠ€ν…œ ν”„λ‘¬ν”„νŠΈλ₯Ό λ°±μƒ‰μ†ŒμŒμœΌλ‘œ μΉ˜λΆ€ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 각 μ§€μ‹œμ–΄μ˜ λ°©ν–₯성에 맞좰 ν•΄λ‹Ή 클래슀의 ν™•λ₯ κ°’이 μ‹€μ œλ‘œ μ•½ 3~5%μ”© μ›€μ§μ˜€μŠ΅λ‹ˆλ‹€.

2. 압도적인 μ‹œκ° 편ν–₯ (Visual Over-reliance)

κ·ΈλŸ¬λ‚˜ μ–Έμ–΄ λͺ¨λΈμ˜ κ°€μ€‘μΉ˜λ³΄λ‹€ μ‹œκ°μ  νŠΉμ§• μΆ”μΆœμ˜ κ°€μ€‘μΉ˜κ°€ 행동 μ˜ˆμΈ‘μ— 더 결정적인 영ν–₯을 μ€λ‹ˆλ‹€. μ΄λŠ” "μš°νšŒμ „ν•  것 같은" μ£Όν–‰ 경둜 μ‹œκ° λ‹¨μ„œκ°€ "μ™Όμͺ½μœΌλ‘œ 가라"λŠ” ν…μŠ€νŠΈ λͺ…λ Ήμ–΄μ˜ 영ν–₯을 μƒμ‡„ν•΄λ²„λ¦¬λŠ” κ²°κ³Όμž…λ‹ˆλ‹€.

πŸš€ Next Step : BBox κ°œμž… μ „λž΅

ν˜„μž¬ λͺ¨λΈμ˜ μƒνƒœλ₯Ό "κ·€λŠ” μ—΄λ € μžˆμ§€λ§Œ 눈으둜 λ³΄λŠ” 것을 λ§Ήμ‹ ν•˜λŠ” μƒνƒœ"둜 μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. κ΅μˆ˜λ‹˜ λ―ΈνŒ… λ°©μ–΄μš©μœΌλ‘œ μ•„μ£Ό ν›Œλ₯­ν•œ κ΄€μΈ‘μž…λ‹ˆλ‹€.

λ”°λΌμ„œ, 이 편ν–₯을 μ—­μ΄μš©ν•˜μ—¬ [λͺ©ν‘œλ¬Ό BBox μ’Œν‘œ]λ₯Ό μžμ—°μ–΄ ν”„λ‘¬ν”„νŠΈμ™€ ν•¨κ»˜ μ£Όμž…ν•˜λŠ” νŠΈλž™ 2(슀포츠카 μ‹œλ™ μ „λž΅)κ°€ ν•„μˆ˜μ μž…λ‹ˆλ‹€.

(μ˜ˆμ‹œ: "Go forward to the basket at [Xmin, Ymin, Xmax, Ymax]")