서론: 응답 생성 -> 자율적 문제 해결(Agent)로의 패러다임 전환
LLM의 발전은 단순한 텍스트 완성과 챗봇 형태의 일회성 상호작용을 넘어, 복잡한 워크플로우를 독립적으로 계획하고 실행하는 에이전트(Agentic) 시스템으로 이동하고 있습니다. 2026년 현재, 이러한 패러다임 전환의 중심에는 파라미터의 밀집도를 낮추면서도 추론(Reasoning) 및 실행 능력을 극대화한 Open-weights 모델들이 존재합니다. 최신 기술 동향을 가장 뚜렷하게 대변하는 대표적인 두 모델 제품군은 알리바바 클라우드(Alibaba Cloud)의 Qwen3.6 시리즈와 구글(Google)의 Gemma 4 생태계입니다.
과거의 언어 모델 설계가 매개변수(Parameter)의 단순한 양적 확장에 의존했다면, 최근 공개된 Qwen3.6과 Gemma 4 모델들은 희소 활성화(Sparse Activation) 기반의 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처, 하이브리드 어텐션 메커니즘, 그리고 최대 Long Context Window 처리 능력을 통해 연산 효율성과 성능이라는 두 마리 토끼를 동시에 잡는 데 성공했다고 합니다.
-> Qwen3.6 시리즈: 기본 262K를 네이티브로 처리하며, 최대 100만(1M) 토큰까지 지원합니다.
-> Gemma 4 대형 모델 (31B, 26B): 최대 256K 토큰을 지원합니다.
-> Gemma 4 엣지 모델 (E2B, E4B): 최대 128K 토큰을 지원합니다.
데이터를 통해 확인할 수 있는 근본적인 변화는 거대 모델들이 독점하던 프론티어 급의 에이전트 성능이 이제 단일 또는 이중 GPU 환경에서도 구동 가능한 30B 파라미터 이하의 크기로 압축되었다는 점입니다. 이 글은 Qwen3.6-27B, Qwen3.6-35B-A3B, 그리고 Gemma 4 모델군의 아키텍처적 특성, 핵심 기능, 그리고 광범위한 벤치마크 지표를 비교합니다.
1. Qwen3.6 아키텍처 분석: 밀집형 및 혼합 전문가(MoE) 모델의 구조적 혁신
Qwen3.6 릴리즈는 파라미터가 전체적으로 활성화되는 밀집형(Dense) 모델인 27B 모델과, 라우팅 알고리즘을 통해 특정 전문가 네트워크만 활성화하는 MoE 모델인 35B-A3B 모델로 나뉩니다. 두 모델 모두 공통적으로 에이전트 코딩(Agentic Coding) 능력의 비약적인 향상과 텍스트 및 시각 데이터를 동시에 처리하는 강력한 멀티모달 추론 능력을 특징으로 하며, 이전 세대 거대 모델의 성능을 소형 폼팩터에서 구현하는 데 성공했습니다.
1.1. Qwen3.6-27B: 파라미터 최적화를 통한 밀집형 신경망
Qwen3.6-27B는 270억 개의 파라미터로 구성된 밀집형 모델로, 단일 모델 내에서 코딩, 수학, 멀티모달 인지 능력을 모두 플래그십수준으로 끌어올린 아키텍처를 자랑합니다.
이 모델의 신경망 구조는 총 64개의 레이어로 이루어져 있으며, 5120의 은닉 차원(Hidden Dimension)과 248,320 크기의 패딩된 토큰 임베딩(Token Embedding) 공간을 확보하여 광범위한 다국어 및 특수 기호 처리를 지원합니다.
아키텍처적 특징은 어텐션 레이어의 하이브리드 배치에 있습니다. Qwen3.6-27B는 총 16개의 Hidden Layout으로 구성되며, 각 블록은 3개의 'Gated DeltaNet' 레이어와 1개의 'Gated Attention' 레이어가 순차적으로 교차하는 레이아웃 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))을 채택하고 있습니다.
여기서 도입된 Gated DeltaNet 구조는 Linear Attention 헤드를 활용하여 QK(Query-Key) 차원을 16으로, V(Value) 차원을 48로 분할하여 처리합니다(헤드 차원: 128). 반면 이어지는 Gated Attention은 Q 헤드 24개, KV 헤드 4개(헤드 차원: 256)로 구성되며 64차원의 Rotary Position Embedding을 적용합니다. 이러한 하이브리드 어텐션 구조는 모델이 기본적으로 262,144 토큰의 문맥을 네이티브하게 처리할 수 있도록 하며, 나아가 최대 1,010,000 토큰(1M)이라는 전례 없는 초장기 문맥 처리 능력을 지원하는 근본적인 기술적 토대가 됩니다.
100만 토큰의 문맥 길이는 수만 줄에 달하는 엔터프라이즈급 코드 Repository 전체를 한 번의 프롬프트로 입력받아 의존성 충돌을 분석하거나 프론트엔드 워크플로우를 한 번에 설계할 수 있는 에이전트 역량의 핵심입니다. 무엇보다 벤치마크 데이터가 입증하는 가장 중요한 성과는 Qwen3.6-27B가 자사의 이전 세대 거대 플래그십 오픈소스 모델인 Qwen3.5-397B-A17B(총 3,970억 개, 활성 170억 개 파라미터 MoE)를 주요 코딩 및 에이전트 벤치마크에서 능가한다는 사실입니다.
총 파라미터 수 기준으로 약 15배 가까이 차이가 나는 거대 모델을 소규모 밀집형 모델이 압도했다는 것은, 학습 데이터의 품질 향상과 더불어 Gated DeltaNet 기반의 정보 압축 능력이 극도로 고도화되었음을 시사합니다. 저장 공간 및 배포 측면에서도 397B 모델이 807GB를 차지하는 반면, 새로운 27B 모델은 불과 55.6GB 수준이며, 양자화(Quantization)를 거칠 경우 16GB VRAM을 장착한 단일 GPU 환경(예: 16.8GB 용량의 Q4_K_M GGUF 포맷)에서도 무리 없이 구동이 가능합니다.
1.2. Qwen3.6-35B-A3B: 희소성 기반 활성 파라미터 효율성과 MTP
Qwen3.6-35B-A3B는 밀집형 구조인 27B와 다른 MoE 기반의 Sparsity 모델입니다. 이 모델은 총 350억 개의 파라미터를 보유하고 있으나, 특정 토큰을 처리할 때마다 실제로 활성화되는 파라미터는 단 30억 개(3B)에 불과합니다. 이러한 10분의 1 미만의 활성 비율은 시스템 메모리 대역폭의 물리적 한계 내에서 최고 수준의 토큰 생성 속도를 보장하면서도, 35B 모델 전체가 가지는 방대한 지식 기반과 개념적 표현력을 잃지 않도록 돕습니다. 구조적으로는 40개의 레이어와 2048의 Hidden Dimension을 갖추고 있으며, 레이아웃은 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)) 형태로 설계되었습니다. MoE 계층에는 총 256개의 Experts 네트워크가 배치되어 있으며, 토큰이 입력되면 라우팅 알고리즘에 의해 8개의 Routed Experts가 선택되고, 1개의 Shared Expert가 모든 토큰의 처리를 보조하는 방식을 취합니다. Expert Intermediate Dimension은 512로 설정되어 연산 효율을 극대화했습니다.
주목할 점은 이 모델이 일반적인 다음 토큰 예측을 넘어 다단계 예측 훈련(Multi-Step Training, MTP) 방식을 적용하여 모델의 장기 추론 능력을 아키텍처 수준에서 최적화했다는 사실입니다. 이러한 희소성 구조의 진정한 가치는 이 모델이 훨씬 더 큰 활성 파라미터를 가진 거대 모델들과 대등한 위치에서 경쟁한다는 데 있습니다. 극도의 추론 복잡성을 요구하는 프론트엔드 에이전트 워크플로우나 논리 구조 설계 영역에서, 활성 파라미터가 10배 이상 더 큰 모델들과 동등한 성능을 발휘합니다.
모델 최적화 프레임워크와의 호환성 또한 뛰어나며, PrismQuant와 같은 Mixed-precision 양자화 기법을 적용했을 때 놀라운 결과가 도출됩니다. 4.75 비트 당 파라미터(bpp) 양자화 상태에서 Qwen3.6-35B-A3B는 불과 22GB의 디스크 용량만을 차지하면서도 베이스라인(BF16, 70GB) 대비 평균 -0.56pp라는 극히 적은 성능 저하만을 기록했습니다. 이는 리소스가 엄격히 제한된 로컬 디바이스 또는 엣지(Edge) 인프라 환경에서 멀티모달 인지와 고도의 에이전트 기능을 동시에 구현하는 데 있어 중대한 전환점을 제시합니다.
2. 에이전트 워크플로우의 핵심 역량: 사고 보존(Thinking Preservation) 메커니즘
최근 언어 모델이 단순히 사용자의 단발성 질문에 대답하는 역할에서 벗어나, 독립적인 에이전트로서 도구를 사용하고, 코드를 실행하며, 결과를 반복적으로 수정하는 위치로 격상됨에 따라 기술적 병목 현상이 발생했습니다. 기존의 대화형 모델들은 다중 턴(Multi-turn) 대화에서 이전 단계에 자신이 전개했던 심층 추론 내역(Reasoning Trace)이나 사고 과정을 버리고, 매 턴마다 새로운 메시지를 수신할 때 문맥을 새롭게 직렬화(Serialization)하여 캐시 무효화(Cache Invalidation)를 유발했습니다. 이는 에이전트가 코드를 작성하거나 여러 API 도구를 교차 호출해야 하는 상황에서 결정의 논리적 일관성을 잃게 만들거나, 동일한 논리적 사고를 턴마다 불필요하게 반복 생성하게 하여 컴퓨팅 자원과 토큰 소비를 기하급수적으로 증가시키는 근본 원인이 되었습니다.
2.1. preserve_thinking 활성화를 통한 인퍼런스 개선
Qwen3.6 시리즈는 이러한 한계를 구조적으로 해결하기 위해 사고 보존(Thinking Preservation)이라는 메커니즘을 API 및 프레임워크 전반에 도입했습니다. 시스템 수준에서 preserve_thinking 플래그를 활성화할 경우, 모델은 대화 기록 전반에 걸쳐 자신이 생성했던 모든 선행 사고 콘텐츠를 폐기하지 않고 메시지 문맥 내에 유지합니다. 기본적으로는 이 기능이 비활성화(false)되어 최신 사용자 메시지에 대한 인터리브(Interleaved) 사고만 유지하지만, 에이전트 작업 시 이를 켤 경우 모델은 자신이 과거에 어떤 전제조건을 바탕으로 논리를 전개했는지 KV Cache 내에서 온전히 참조할 수 있습니다.
이 메커니즘이 데이터 처리와 에이전트 추론 효율성에 미치는 영향은 다음과 같습니다.
첫째, 다단계 의사결정의 일관성을 극적으로 향상시킵니다. 예를 들어, 모델이 20자리 숫자 두 개를 무작위로 생성한 후 첫 번째 숫자만 출력하도록 지시받았을 때, 사고 보존이 꺼져 있으면 다음 턴에서 두 번째 숫자를 요구할 경우 모델은 자신의 추론 기록을 잃어버려 두 번째 숫자가 존재하지 않는다고 답변합니다. 하지만 이 기능이 켜져 있으면 자신의 이전 사고 과정을 참조하여 정확히 두 번째 숫자를 회상하고 출력합니다.
둘째, 중복된 추론 단계를 생략하게 함으로써 후속 턴에서의 Latency를 줄이고 오버헤드와 전체 토큰 소비량을 대폭 삭감합니다.
셋째, KV 캐시의 활용도를 극대화하여 사고 모드와 비사고 모드 전환 시의 인퍼런스 최적화를 달성합니다. 현재 이 기능은 vLLM이나 oMLX와 같은 최적화된 백엔드 시스템에서 점진적으로 통합되고 있으며, LM Studio와 같은 로컬 구동 환경에서도 Jinja 템플릿 변수 조정을 통해 실험적으로 활성화할 수 있습니다.
2.2. 터미널 기반 로컬 에이전트와의 완벽한 호환성
이러한 사고 보존 기술은 코딩 에이전트와의 결합 시 진가를 발휘합니다. Qwen3.6-27B 및 35B-A3B 모델은 Qwen Code, Claude Code, OpenClaw 등 널리 사용되는 최신 터미널 기반의 오픈소스 AI 에이전트 프레임워크와 네이티브 수준으로 매끄럽게 통합됩니다. NPM(Node.js)을 통해 전역으로 설치되는 @qwen-code/qwen-code 환경에서 Qwen3.6은 단순한 자동 완성 도우미를 넘어, 로컬 환경의 다중 파일 컨텍스트를 파악하고, 의존성을 해결하며, 컴파일러나 Linter의 피드백을 수용하여 자신의 코드를 자율적으로 수정하는 능동적인 운영 주체로 작동합니다.
3. Google Gemma 4: 모바일 엣지 컴퓨팅과 멀티모달 추론의 결합
이전 글에서 작성한 Gemma 4와 비교해보겠습니다.
구글 딥마인드(Google DeepMind)가 공개한 Gemma 4 모델군은 Intelligence-per-parameter의 극대화와 인공지능의 광범위한 접근성을 목표로 설계되었습니다. 이전 세대 모델군이 전 세계적으로 4억 회 이상 다운로드되고 10만 개 이상의 커스텀 변형 모델이 구축된 강력한 오픈 생태계 모멘텀을 바탕으로, Gemma 4는 단순한 챗봇 텍스트 생성을 넘어 다단계 계획, 논리적 추론, 그리고 에이전트 도구 사용 워크플로우에 부합하도록 상업적 이용이 가능한 Apache 2.0 라이선스 기반으로 정식 출시되었습니다.
3.1. 파라미터 규모별 다변화와 하이브리드 어텐션 아키텍처
Gemma 4 생태계는 모바일 단말기부터 클라우드 데이터센터 서버까지 배포 인프라의 다양성을 수용하기 위해 네 가지 체급으로 릴리즈되었습니다. 최상위 밀집형 모델인 31B, 고효율 혼합 전문가 모델인 26B A4B, 그리고 온디바이스 엣지 환경을 위한 초경량 모델인 E4B(Effective 4B)와 E2B(Effective 2B)가 그 핵심 라인업입니다.
대형 모델 라인업에 속하는 Gemma 4 31B는 30.7B의 총 파라미터를 가지며 60개의 레이어로 구성됩니다. 이에 반해 Gemma 4 26B A4B 모델은 총 25.2B의 파라미터를 보유하고 30개의 레이어를 가지지만, 토큰당 활성화되는 파라미터(Active Parameters)는 3.8B에 불과한 MoE 아키텍처를 자랑합니다.
26B 모델은 총 128개의 전문가 네트워크를 내장하고 있으며, 각 토큰 처리 시 단 8개의 활성 전문가와 1개의 공유 전문가만을 호출합니다. 그 결과 26B MoE 모델은 거대한 31B 밀집형 모델에 필적하는 고도의 추론 품질을 제공하면서도, 실제 연산 시에는 4B 모델 수준의 VRAM 요구량과 매우 빠른 지연 시간으로 동작합니다. 대형 라인업(31B, 26B)은 모두 256,000 토큰(256K)이라는 거대한 문맥 처리 창과 262K의 Vocabulary Size을 지원합니다.
모든 Gemma 4 모델의 기반을 이루는 핵심 엔진은 하이브리드 어텐션 메커니즘입니다. 지엽적인 정보 처리를 빠르게 담당하는 로컬 슬라이딩 윈도우 어텐션(Sliding Window Attention, 1024 토큰)과 전체 문맥을 거시적으로 조망하는 풀 글로벌 어텐션(Full Global Attention)이 교차로 직조되며, 최종 레이어는 항상 글로벌 어텐션으로 마감되도록 설계되었습니다. 이러한 설계는 통합된 키-값(Unified Keys and Values) 구조 및 Proportional RoPE, p-RoPE 기술과 결합되어, 매우 적은 메모리 풋프린트로도 장문 분석을 원활하게 수행할 수 있는 동력을 제공합니다.
3.2. 멀티모달 인지와 엣지 디바이스 최적화 역량
Gemma 4는 이미지와 텍스트를 자유자재로 혼합하여 단일 프롬프트에 입력할 수 있는 인터리브(Interleaved) 멀티모달 능력을 전 모델에 기본 장착하고 있습니다. 약 5억 5천만(550M) 개의 파라미터로 구성된 비전 인코더는 이전 세대와 달리 가변적인 Variable Aspect Ratios를 지원하며, 사용자가 해상도와 추론 속도 사이의 균형점을 직접 설정할 수 있도록 이미지 토큰 입력 수를 동적으로 구성 가능하게 개선되었습니다. 객체 탐지, 다국어 OCR, 차트 이해, 그리고 문서(PDF) 파싱 등 시각 인지 영역 전반을 광범위하게 포괄합니다.
더욱 놀라운 진보는 소규모 엣지 모델인 E2B와 E4B에서 나타납니다. 이 모델들은 계층별 임베딩(Per-Layer Embeddings, PLE) 기술을 적용하여 파라미터 수가 적음에도 훨씬 큰 모델과 대등한 Representational Depth를 유지합니다. 또한 128K의 동적 문맥을 지원하며, 텍스트나 이미지뿐만 아니라 오디오 입력(Speech Recognition and Understanding)을 텍스트 변환 과정 없이 네이티브하게 직접 인코딩하여 처리할 수 있는 오디오 모달리티를 지원합니다.
이러한 경량 모델은 구글의 LiteRT-LM 프레임워크와 결합될 때 엣지 성능을 발휘합니다. 2비트 및 4비트 가중치 양자화와 메모리 매핑 기법을 적용하면, E2B 모델은 불과 1.5GB 미만의 메모리 공간만으로도 모바일 디바이스에서 무리 없이 구동됩니다.
Constrained Decoding을 지원하여 예측 가능한 JSON 출력을 보장할 뿐만 아니라, 라즈베리 파이 5의 순수 CPU 환경에서 초당 133개의 프리필(Prefill) 토큰과 7.6개의 디코딩 토큰 속도를 달성했습니다. 신경망 처리 장치(NPU)가 장착된 퀄컴 Dragonwing IQ8과 같은 최신 칩셋에서는 초당 3,700개의 프리필과 31개의 토큰을 디코딩하며 진정한 온디바이스 AI 시대의 개막을 알렸습니다.
3.3. 신뢰할 수 있는 장기 추론: Gemma 4의 생각 모드(Thinking Mode)
Gemma 4 생태계 전반을 아우르는 또 하나의 축은 내장된 Thinking Mode입니다. 이는 모델이 최종 답변을 도출하기 전, 내부적으로 여러 단계의 논리적 절차를 설계하고 스스로 검증하는 추론 과정을 명시적으로 활성화하는 기능입니다 (enable_thinking=True 플래그 사용). 실제 사용자 테스트 데이터가 시사하는 흥미로운 점은 Gemma 4의 장기 추론(Long-form Reasoning) 메커니즘이 환각(Hallucination)에 극도로 강한 저항성을 보인다는 사실입니다. 복잡한 난이도의 암호 해독 테스트에서 타 오픈소스 모델들이 짧은 시간만 추론한 뒤 허구의 번역 결과를 지어내는 반면, Maximum Thinking를 지시받은 Gemma 4 26B MoE 모델은 약 10분에 가까운 장시간의 추론 과정을 전개한 후 오류를 내며 작업을 중단했습니다. 31B 밀집형 모델 역시 594초(약 10분) 동안 수많은 가설을 검증한 후 스스로 해독의 열쇠가 없음을 인정하고, "더 이상의 번역은 환각이 될 것"이라고 명확히 답변을 거절하는 극도로 높은 프로덕션 신뢰도를 입증했습니다.
-> 여기서 하나 고려해야할 부분이 나옵니다. 바로 순정 Gemma 4의 깐깐함?이라고 해야할까요? 그게 있습니다.
구글 공식 모델은 기업용 프로덕션 환경을 타겟으로 했기 때문에 환각을 극도로 경계합니다. 그래서 암호 해독처럼 답이 없거나 애매한 상황에서는 무리해서 소설을 쓰기보다, 스스로 가설을 검증하다가 "더 이상 진행하면 환각이다"라며 답변을 칼같이 거절하거나 에러를 내고 멈춰버립니다. 엔터프라이즈 입장에서는 높은 신뢰도지만, 로컬 유저 입장에서는 조금만 복잡한 지시를 내려도 툭하면 뻗거나 안전 필터에 걸려 대답을 안 해주는 답답한 거부 문제(Refusal Issue)가 체감됩니다.
그래서 이를 한국의 개발자 Jiun Song님이 Super Gemma4라는 무검열 모델을 만들어 공개했습니다.
SuperGemma는 바로 이 로컬 유저들의 답답함을 해결하기 위해 커뮤니티에서 개조한 무검열(Uncensored) 최적화 모델입니다.
무검열은 물론이고 원본 모델이 갖고 있던 고질적인 Toolcall 및 토크나이저 오류까지 해결했으며, 이로 인해 벤치마크 성능도 상승하고, 프롬프트 처리속도도 빨라졌다고 합니다.
- 과도한 거부 반응 완화: 엄격한 안전 필터와 보수적인 회피 성향을 걷어냈습니다. 순정 모델이라면 불확실하거나 정책에 걸려 답변을 거부했을 프롬프트에도 훨씬 개방적이고 유연하게 답변을 생성합니다.
- 프롬프트 꼬임(Misrouting) 방지: 순정 모델이 가끔 사용자의 의도를 오해해 불필요하게 툴(Tool) 사용 모드나 코딩 모드로 빠지면서 출력이 망가지는 현상을 막기 위해, 중립적인 챗 템플릿을 강제하여 일관된 대화가 가능하도록 고쳤습니다.
https://huggingface.co/Jiunsong
Jiunsong (Jiun Song)
User profile of Jiun Song on Hugging Face
huggingface.co
4. 종합 벤치마크 및 성능 지표 심층 비교 분석
언어 모델의 에이전트 역량은 단편적인 문답을 넘어, 복잡한 다학제적 질문, 난도 높은 코딩 과제, 그리고 수학적 논증을 얼마나 일관되게 처리할 수 있는지를 측정하는 표준화된 벤치마크를 통해 증명됩니다. Qwen3.6 및 Gemma 4 모델은 각 파라미터 체급에서 글로벌 최상위 수준의 성능 지표를 도출해냈습니다.

4.1. 복합 지식 검색 및 논리적 추론 평가 (MMLU 및 GPQA)
모델의 전반적인 학문적, 직업적 지식망의 깊이를 평가하는 MMLU(Massive Multitask Language Understanding)와 물리학, 생물학 등 박사급 수준의 전문 지식을 묻는 GPQA Diamond 지표는 모델의 기초 지능 밀도를 보여줍니다. 특히 데이터 오염 문제를 해결하기 위해 새롭게 구성된 MMLU-Redux와 난이도를 대폭 상향한 MMLU-ProX가 최신 모델 평가의 척도로 활용됩니다.
| 모델명 | 아키텍처 | MMLU-Redux | MMLU-Pro / ProX | GPQA Diamond / SuperGPQA |
| Qwen3.5-397B-A17B | 397B MoE (기준점) | 94.9% | 84.7% (ProX) | 데이터 미기재 |
| Qwen3.6-35B-A3B | 35B MoE | 93.3% | 81.0% (ProX) | 86.0% / 64.7% |
| Qwen3.6-27B | 27B Dense | 93.2% | 82.2% (ProX) | 데이터 부재 |
| Gemma 4 31B | 31B Dense | 데이터 부재 | 85.2% (Pro) | 84.3% (Diamond) |
| Gemma 4 26B A4B | 25B MoE | 데이터 부재 | 82.6% (Pro) | 82.3% (Diamond) |
벤치마크 데이터가 명백히 시사하듯, 지식 검색 능력을 측정하는 MMLU 변형 지표에서 Qwen3.6-35B-A3B와 Qwen3.6-27B는 총 파라미터가 3,970억 개에 달하는 Qwen3.5-397B-A17B(Redux 94.9%, ProX 84.7%)에 육박하는 점수를 기록했습니다.
놀라운 점은 난이도가 높은 MMLU-ProX에서 밀집형 구조인 27B(82.2%)가 활성 파라미터 제약이 있는 35B-A3B(81.0%)보다 미세하게 우위를 점했다는 것입니다. 구글의 Gemma 4 31B 역시 MMLU Pro에서 85.2%라는 높은 점수와 함께, 전문가 레벨 지식을 묻는 GPQA Diamond에서 84.3%를 달성하여 30B 체급 내에서 글로벌 선두 그룹을 형성하고 있음을 명확히 보여줍니다.
4.2. 수학적 사고 (AIME)
논리적 연산과 다단계 문제 해결 능력을 대변하는 수학 벤치마크, 특히 초등학교 수준의 다단계 수학을 다루는 GSM8K와 최상위 난이도의 미국 수학 올림피아드 예선 기출을 다루는 AIME 2026의 성적은 에이전트의 계획 수립 능력과 직결됩니다.
- AIME 2026: 고도의 창의적 수학 추론을 묻는 AIME 2026(I & II 전체 기준) 평가에서 Qwen3.6-35B-A3B는 92.7%라는 분해 능력을 보여주었습니다. 도구 사용(No tools)을 배제한 동일 평가에서 Gemma 4 31B 역시 89.2%를 기록하였고, 26B MoE 모델 또한 88.3%로 바짝 뒤쫓고 있어 양사 모델의 수학적 추론 인프라가 극한으로 발전했음을 시사합니다.
4.3. 소프트웨어 엔지니어링 및 자율 코딩 평가 (SWE-bench)
단일 함수 생성에 그치는 HumanEval이나 MBPP 지표를 넘어, 깃허브(GitHub)의 실제 복합 이슈를 파악하고 패치를 생성하여 문제를 해결하는 SWE-bench 계열 지표는 현대 코딩 에이전트 성능의 절대적 기준입니다.
| 벤치마크 항목 | Qwen3.6-35B-A3B (MoE) | Gemma 4 31B (Dense) | Gemma 4 26B A4B (MoE) |
| SWE-bench Verified | 73.4 | 데이터 부재 | 데이터 부재 |
| SWE-bench Multilingual | 67.2 | 데이터 부재 | 데이터 부재 |
| SWE-bench Pro | 49.5 | 데이터 부재 | 데이터 부재 |
| LiveCodeBench v6 | 80.4 | 80.0% | 77.1% |
| NL2Repo (Claude 연동) | 29.4 (900회 턴 제한) | 데이터 부재 | 데이터 부재 |
Qwen3.6-35B-A3B는 내부 에이전트 스캐폴딩(Bash 및 파일 편집 도구 연동)을 기반으로 평가된 SWE-bench Verified에서 73.4점이라는 경이로운 점수를 기록했습니다. 활성 파라미터가 30억 개에 불과함에도 불구하고 이러한 점수를 달성한 것은 다단계 의사결정의 성공률이 극적으로 상승했음을 의미합니다.
여러 프로그래밍 언어로 구성된 SWE-bench Multilingual에서도 67.2를 기록하여 언어 편향성을 극복했으며, 대규모 저장소를 다루는 NL2Repo 벤치마크에서도 29.4점이라는 준수한 성과를 보였습니다. 반면 Gemma 4 모델군은 코드 생성 및 경쟁 프로그래밍 플랫폼의 최신 문제를 다루는 LiveCodeBench v6에서 31B 모델이 80.0%, 26B A4B 모델이 77.1%를 달성하여 Qwen3.6-35B-A3B(80.4)와 오차범위 내의 치열한 양상을 띠고 있음을 확인할 수 있습니다.
4.4. 공간 지능 및 시각적 멀티모달 평가 (Vision Benchmarks)
텍스트와 시각 정보를 동시에 처리하여 공간적 맥락을 이해하는 성능 지표에서도 양사는 고유의 강점을 나타냅니다.
| 벤치마크 항목 | Qwen3.6-35B-A3B | Qwen3.6-27B | Gemma 4 31B |
| MMMU / MMMU-Pro | 81.7 / 75.3 | 81.6 (Video) / 데이터 부재 | 데이터 부재 / 76.9% |
| MATH-Vision | 86.4 (Mathvista) | 데이터 부재 | 85.6% |
| OCRBench | 89.4 | 90.0 | 데이터 부재 |
| CountBench (공간 지능) | 96.1 | 97.8 | 데이터 부재 |
멀티모달 시각 추론 지표인 MMMU-Pro에서 Gemma 4 31B는 76.9%를 기록하며 Qwen 35B 모델(75.3%)을 상회하는 시각 분석 정밀도를 증명했습니다. 시각적 데이터를 기반으로 수학을 푸는 MATH-Vision에서도 85.6%라는 탁월한 성과를 유지하고 있습니다. 반면 Qwen3.6-27B 밀집형 모델은 시각적 개수를 파악하는 CountBench에서 97.8점, 문서 및 텍스트를 판독하는 OCRBench에서 90.0점을 획득하며 시각 정보의 단순 분석을 넘어 공간적 맥락을 읽어내는 능력이 탁월함을 입증했습니다.
5. 실무 배치 전략 및 아키텍처 선택 가이드
데이터와 벤치마크 지표가 일관되게 가리키는 바에 따르면, Qwen3.6 시리즈와 Gemma 4 생태계는 모두 작지만 강한 인지 엔진이라는 공통된 지향점을 달성했습니다. 그러나 두 모델군의 근본적인 설계 철학과 타겟 환경이 다르므로, 엔터프라이즈 아키텍트와 개별 개발자는 직면한 문제의 성격에 따라 배치를 이원화해야 합니다.
5.1. 컨텍스트 한계와 로컬 에이전트의 심도 (Qwen3.6의 우위)
단일 프롬프트 세션 내에 방대한 양의 정보를 유지하고 지속적으로 상호작용해야 하는 시나리오에서는 Qwen3.6 시리즈가 결정적인 우위를 점합니다. 엔터프라이즈 환경에서 레거시 코드베이스 수만 줄을 통째로 분석하여 리팩토링해야 하거나, 백서 수백 페이지를 첨부하여 지속적인 질의응답을 수행해야 하는 경우, Qwen의 100만(1M) 토큰 컨텍스트 윈도우는 필수 불가결한 기능입니다.
여기에 앞서 논의한 preserve_thinking (사고 보존) 기능이 결합되면, 모델은 복잡한 리포지토리 환경에서도 캐시 오버헤드 없이 과거의 분석 논리를 끊임없이 재활용하는 Senior Engineer로 기능하게 됩니다.
유연한 터미널 기반 자동화 워크플로우 제어(Claude Code, OpenClaw 통합)가 최우선인 환경이라면 Qwen3.6이 압도적으로 유리합니다. 또한 메모리가 제약된 GPU 환경에서 멀티모달 능력이 필요하다면, 4.75 비트 양자화 시 단 22GB의 VRAM 스토리지 용량만으로 90% 이상의 프론티어 성능을 유지하는 Qwen3.6-35B-A3B MoE 모델이 최고의 가성비를 제공한다고 합니다.
-> 이거는 직접 진행해서 테스트해봐야 할 것 같습니다. Gemma 4도보면 진행했다하고 진행하지 않고, 할루시네이션을 내보기도하더라고요. 실제 사용 후 리뷰는 나중에 여유되면 진행해보겠습니다.
5.2. 도구 호출의 신뢰성과 엣지 인프라 확장성 (Gemma 4의 우위)
반면, 백엔드 서버나 모바일 기기에 탑재되어 외부 API 및 사내 마이크로서비스들과 정밀하게 데이터를 주고받아야 하는 파이프라인(Agentic pipelines)에서는 Gemma 4 생태계가 빛을 발합니다. Gemma 4는 기본적으로 네이티브 시스템 지시어(System Instructions)와 완벽한 구조적 JSON 출력을 전제로 하는 엄격한 기능 호출(Function Calling) 체계를 보장하도록 설계되었습니다.
제약형 디코딩을 통한 안정적인 출력은 프로덕션 환경에서 구문 분석(Parsing) 오류로 인해 전체 에이전트 루프가 붕괴되는 현상을 미연에 방지합니다. 무엇보다 오디오 신호를 텍스트 치환 없이 네이티브로 직접 처리할 수 있는 E2B, E4B 엣지 라인업의 존재는 구글의 모바일-퍼스트 AI 생태계 장악 의도를 뚜렷하게 보여줍니다. 128K의 동적 문맥을 지원하면서도 Raspberry Pi 기반 환경에서 1.5GB 미만의 극소형 메모리 점유율을 보이는 이 라인업은 사물인터넷(IoT) 장비나 모바일 애플리케이션 내부에 지능을 이식하려는 시도에 완벽히 부합합니다. 또한, 라이선스 오염이나 규제 당국의 제약을 기피하는 대기업 입장에서는 완전한 상업적 개방성을 보장하는 Apache 2.0 라이선스의 철저한 법적 안정성 역시 매력적인 채택 사유가 됩니다.
-> 사실 한국에서는 보안 측면에서 알리바바보다 구글 선호하긴 하니까요...
결론 및 향후 전망
Qwen3.6 시리즈와 Gemma 4 생태계가 증명하는 2026년 대규모 언어 모델 생태계의 핵심은 명확합니다.
단순히 파라미터 크기가 클 수록 성능이 좋다라는 패러다임은 이제 과거에만 적용되는 것 같습니다. 물론 클 수록 좋을 수도 있지만 요즘 나오는 논문이나 모델을 보면 파라미터 "크기 < 정보 압축, 고품질 데이터" 주제로 연구하는 논문들이 많습니다.
극도로 정제된 양질의 훈련 데이터, Gated DeltaNet이나 하이브리드 p-RoPE 어텐션과 같은 신경망 계층의 혁신적 레이아웃, 그리고 토큰당 고작 30억~40억 개 수준의 파라미터만 동적으로 스위칭하는 효율적인 MoE 아키텍처의 결합은 로컬 소비자 하드웨어 위에서도 세계 최고 수준의 코딩 및 수학적 추론 능력을 일상화시켰습니다. 기능적으로 모델의 초점은 응답 퀄리티 개선에서 Agentic Execution의 신뢰도 확보로 이동했습니다.
Qwen3.6이 도입한 사고 보존(Thinking Preservation) 기술은 KV 캐시의 무효화라는 물리적 한계를 극복하고 모델 스스로가 긴 문맥 속에서 논리의 일관성을 유지하게 하는 새로운 아키텍처의 방향을 제시했습니다. 동시에 Gemma 4는 환각에 타협하지 않는 장기 추론(Long-form Reasoning) 모드와 엣지 컴퓨팅 기반 다중 모달(음성, 비전, 텍스트) 통합을 통해, 프로덕션 환경에서 즉각적으로 신뢰할 수 있는 엔터프라이즈 오케스트레이터의 표본을 확립했습니다.
결과적으로 AI 엔지니어들은 더 이상 막대한 클라우드 API 호출 비용과 민감한 데이터의 유출 위험을 감수하면서까지 거대 독점 모델에 의존할 필요가 줄었습니다. 대안이 존재하기는 하니까요. 방대한 저장소의 코드 분석과 능동적 에이전트 수정이 주력인 엔지니어링 환경에서는 1M 컨텍스트 한계를 무기로 삼는 Qwen3.6을 도입하고, 디바이스 내장형 음성 인식 인프라와 외부 도구 호출의 오차 없는 결합이 최우선인 애플리케이션에서는 Gemma 4를 선택할 수도 있겠네요. 사실 근데 Qwen도 외부 도구 호출의 오차 없는 결합 이런건 동일하게 지원할 것 같습니다. 핵심은 현 시점에서 좋은 선택지라는 것입니다.