Fig 6 — Overfitting 위험 분석 (Exp51)

n_train=8,400 (Exp49의 4배)으로 늘렸을 때 val_acc와 train_acc 간의 gap 분석.

원본 그래프

8,400

Exp51 n_train (Exp49의 4배)

93.3%

Exp51 val_acc

96.4%

Exp49 val_acc (n_train 2,100)

⚠️ 학습 데이터를 늘렸는데 val_acc가 오히려 감소 (96.4%→93.3%):
augmentation이 학습 데이터를 인위적으로 왜곡시키므로, 원본 val 분포와 괴리가 생길 수 있다. Exp51의 crop aug는 robustness를 높이는 대신 원본 분포에서의 정확도를 일부 희생했다.

실험별 학습 데이터 크기 vs val_acc

실험	n_train	aug 방식	val_acc
Exp46	2,100	없음	93%
Exp47	2,100	없음 (instr embed)	99%
Exp49	2,100	없음 (goal signal)	96%
Exp50	4,200	Flip aug	92%
Exp51	8,400	Crop aug	93%

💡 aug 없이 2,100 샘플만 써도 Exp49가 최고 정확도(96.4%). n_train을 늘리는 것보다 학습 목표(goal signal, instr embed) 설계가 더 효과적이었다.