image_to_text_projection이 완전히 오염됨. 비전 feature가 텍스트 토큰 공간이 아닌 action feature 공간으로 매핑되어, 텍스트 디코더가 무의미한 토큰을 반복 생성 ("Old Faithful Faithful", "Tin Tin Tin Roof", "Sie Sie bin Laden").<phrase>, <patch_index_NNNN> 구조를 정상 생성. "Ring Ring Ring"이 V4에서 나왔다면 당시 로드 방식(MobileVLATrainer 경유, LoRA 레이어 그대로 적용)이 원인이었을 가능성이 높음.image_to_text_projection만 full fine-tune. V4가 텍스트 생성 능력을 더 잘 보존한 이유.<grounding>The gray basket is at<grounding>An image of a robot. Where is the gray basket? Answer:<grounding>Navigate toward the gray basket until it gets closerWhat do you see in this image?| 프롬프트 | 🔵 Pure HF | 🟡 Google-robot | 🔴 V4 LoRA |
|---|---|---|---|
| Grounding 완성형 (채택 프롬프트) | the center of the image, with<phrase> the white wall</phrase... |
the back of the Old Faithful Faithful Faithful photo--- vide... |
the end of the room, and<phrase> the black box</phrase><obje... |
| Grounding QA형 | The gray basket is located in the corner of a room.<phrase> ... |
video of the mud-cake Tin Tin Tin Roof Tin Tin roof Tin Tin ... |
In the corner of the room.<phrase> The image</phrase><object... |
| 지시문 직접 사용 | to the wall.<phrase> The gray basket</phrase><object><patch_... |
to the the the Godiva Magna Magna Magna prototype prototype ... |
to the wall.<phrase> The gray basket</phrase><object><patch_... |
| 일반 VQA (grounding 없음) | The image features a small gray air conditioner sitting on t... |
Sie Sie Sie sin bin Laden Laden Laden Fil Fil Fil fil fil fi... |
The image features a small, gray, square-shaped air conditio... |
AutoModelForVision2Seq.from_pretrained(HF_PATH)—HF 아키텍처 + ckpt['state_dict'] (model.backbone.* 키)model.backbone.text_model.*HF 아키텍처 + LoRA base_layer 가중치 추출 (lora_A/B 제외)model.backbone.base_model.model.*.base_layer.*