Gemma 4가 성능이 좋다고 입소문 타면서 개인적으로 문의해주시는 분들이 많으시더라고요. 그래서 간단하게 vLLM과 도커로 Gemma4 서빙하는 방법 알려드리고자 왔습니다.1. 왜 vLLM v0.19.0이어야 하는가1-1. Gemma 4 아키텍처 정식 지원은 v0.19.0이 최초Gemma 4는 기존 Gemma 시리즈와 아키텍처가 크게 달라졌습니다. MoE(128개 fine-grained experts, top-8 routing), Dual Attention(슬라이딩 윈도우 로컬 + 글로벌 어텐션 교차 배치, head dimension 256/512 이종 구성), 네이티브 멀티모달(텍스트/이미지/오디오) 등이 새로 도입되었습니다. vLLM은 이러한 Gemma4를 지원하기 위해 발빠르게 움직여서 vllm/..