안녕하세요. 오늘은 최근 공개된 Qwen3-ASR Technical Report의 주요 내용을 정리해 보려 합니다.
이번 보고서에서 소개된 Qwen3-ASR 제품군은 두 가지 크기의 올인원 음성 인식(ASR) 모델과 새로운 방식의 강제 정렬(Forced Alignment) 모델을 포함하고 있습니다. 특히 Qwen3-Omni를 기초 모델로 사용하여 기존 모델들보다 더욱 뛰어난 오디오 이해력을 보여준다는 점이 인상적입니다.
본격적인 섹션별 리뷰에 앞서, 이번 보고서의 핵심 요약(Abstract)을 바탕으로 전체적인 개요를 먼저 살펴보겠습니다.
이번에 공개된 모델 라인업은 크게 세 가지로 나뉩니다.
- Qwen3-ASR-1.7B: 오픈소스 모델 중 SOTA(State-of-the-art) 성능을 기록하며, 상용 API와 비교해도 손색없는 성능을 보여주는 고성능 모델입니다.
- Qwen3-ASR-0.6B: 정확도와 효율성 사이의 균형을 극대화한 모델입니다. 128 동시성(Concurrency) 환경에서 1초 만에 2,000초 분량의 음성을 처리할 수 있을 만큼 매우 빠른 속도를 자랑합니다.
- Qwen3-ForcedAligner-0.6B: 11개 언어를 지원하는 LLM 기반의 타임스탬프 예측 모델로, 기존의 강제 정렬 모델들보다 정확도와 범용성 면에서 우위에 있습니다.
이 모델들은 총 52개 언어 및 방언을 지원하며, 연구 생태계 활성화를 위해 Apache 2.0 라이선스로 배포되었습니다.
그럼 본격적으로 Qwen3-ASR Technical Report를 섹션별로 리뷰해보도록 하겠습니다.
1. 서론 (Introduction)
최근 자동 음성 인식(ASR) 분야는 Transducer나 AED(Attention-based Encoder-Decoder)와 같은 전통적인 End-to-End 방식에서 대규모 오디오-언어 모델(Large Audio-Language Model, LALM) 패러다임으로 전환되고 있습니다.
1.1 LALM 패러다임의 특징
LALM 방식은 기존 ASR과 비교하여 다음과 같은 기술적 이점을 가집니다.
- 언어 모델링 및 지식 활용: 대규모 언어 모델(LLM)의 언어 생성 능력과 지식을 그대로 활용할 수 있습니다.
- 고차원적 이해: 단순한 음향 패턴 매칭에 의존하지 않고, 오디오 신호에 대한 고차원적인 이해를 바탕으로 텍스트를 생성합니다.
- 난제 해결: 기존 모델이 어려움을 겪던 긴 음성 전사(Long-form transcription), 노이즈 환경에 대한 강인성, 개체명 인식(NER), 다국어 및 방언 지원 문제를 보다 자연스럽게 해결합니다.
1.2 타임스탬프 예측과 강제 정렬
실제 서비스 환경(예: 자막 생성)에서는 전사 결과와 함께 타임스탬프 정보가 필수적입니다.
- 기존 방식: CTC나 CIF 등의 기술을 활용한 후처리 단계로 타임스탬프를 생성했습니다.
- Qwen3-ASR 방식: LALM 기반 접근 방식을 통해 임의의 시간 단위에서도 더 정확하고 빠른 타임스탬프 예측이 가능합니다. 단일 통합 모델로 다양한 언어에 대한 정렬을 지원하는 것이 특징입니다.
1.3 Qwen3-ASR 제품군 구성
본 보고서에서 소개하는 Qwen3-ASR 제품군은 Qwen3-Omni를 기초 모델로 사후 학습(Post-training)되었으며 다음과 같이 구성됩니다.
- Qwen3-ASR-1.7B & 0.6B: 52개 언어 및 방언에 대한 언어 식별(LID) 기능을 갖춘 올인원 ASR 모델입니다.
- Qwen3-ForcedAligner-0.6B: 11개 언어를 지원하며 유연한 타임스탬프 입자도를 제공하는 최초의 경량 LALM 기반 다국어 강제 정렬 모델입니다.
1.4 성능 및 평가 요약
기존 오픈소스 벤치마크들이 주석 오류의 한계에 도달함에 따라, 본 연구진은 복잡한 음향 환경, 방언, 노약자 및 어린이 음성 등을 포함한 광범위한 내부 벤치마크를 구축하여 평가를 진행했습니다.
- 1.7B 모델: 오픈소스 모델 중 SOTA 성능을 기록하며 상용 API와 경쟁 가능한 수준입니다.
- 0.6B 모델: 성능과 모델 크기 사이의 최적의 트레이드오프를 제공하여 온디바이스(On-device) 배포에 적합합니다.
- ForcedAligner: 다국어 및 긴 음성 지원 기능을 계승하며 고도로 정확한 타임스탬프를 제공합니다.
1.5 주요 기여 요약
- SOTA 수준의 ASR 및 LID 성능: 30개 언어, 22개 중국어 방언 및 전 세계 영어 발음을 지원합니다. 노래 인식 및 복잡한 텍스트 패턴 등 극한의 환경에서도 강인한 성능을 보입니다.
- 새로운 음성 강제 정렬 아키텍처: 단어, 문장, 단락 단위의 정확한 타임스탬프를 생성하는 최초의 LLM 기반 강제 정렬기를 도입했습니다. 이는 MFA(Montreal Forced Aligner)나 NFA(NeMo Forced Aligner)와 차별화되는 통합 솔루션입니다.
- 오픈소스 및 프레임워크 제공: 모델 가중치와 함께 추론, 미세 조정(Fine-tuning) 레시피가 포함된 코드베이스를 Apache 2.0 라이선스로 공개하여 커뮤니티의 연구를 지원합니다.
2. Qwen3-ASR 상세 분석
2.1 아키텍처 (Architecture)

Qwen3-ASR 제품군은 강력한 오디오 이해 능력을 갖춘 Qwen3-Omni를 기반 모델로 활용합니다. 시스템의 핵심 구조는 다음과 같습니다.
- AuT 인코더 (AuT Encoder): 음성 신호를 처리하는 핵심 모듈로, Qwen3-Omni와 별도로 사전 학습되었습니다. 128차원의 Fbank 특징을 8배 다운샘플링하여 12.5Hz의 토큰 속도를 생성합니다.
- 동적 플래시 어텐션 (Dynamic Flash Attention): 1초에서 8초까지 윈도우 크기를 동적으로 조절할 수 있습니다. 이를 통해 짧은 단위의 스트리밍 추론과 긴 단위의 오프라인 추론을 모두 지원합니다.
- 모델별 구성:
- Qwen3-ASR-1.7B: Qwen3-1.7B 언어 모델, 프로젝터, 300M 파라미터 규모의 AuT 인코더(Hidden Size 1024)로 구성됩니다. 다국어 및 방언 인식과 복잡한 음향 환경에서의 강건함이 특징입니다.
- Qwen3-ASR-0.6B: Qwen3-0.6B 언어 모델, 프로젝터, 180M 파라미터 규모의 AuT 인코더(Hidden Size 896)로 구성된 컴팩트 모델입니다.
2.2 학습 전략 (Training Strategies)

학습은 총 4단계의 체계적인 과정을 거칩니다.
- AuT 사전 학습: 약 4,000만 시간 분량의 의사 레이블링(Pseudo-labeled) 데이터를 활용하여 AED 프레임워크 하에서 안정적인 오디오 표현력을 확보합니다.
- Omni 사전 학습: 오디오, 비전, 텍스트 등 멀티모달 데이터를 포함한 3조 개(3T)의 토큰으로 학습하여 범용적인 멀티모달 이해 능력을 갖춥니다.
- ASR 지도 미세 조정 (SFT): 지시어 주입(Instruction Injection)으로 인한 오류를 방지하기 위해 프롬프트의 지시를 따르지 않는 ASR 전용 모델로 튜닝합니다. 또한, 배경 지식을 활용할 수 있도록 시스템 프롬프트 내 컨텍스트 토큰 활용법을 학습합니다.
- ASR 강화 학습 (RL): GSPO(Group Sequence Policy Optimization) 알고리즘을 적용합니다. 이 단계는 노이즈 강건성과 전사 안정성을 높이는 데 필수적인 역할을 합니다.
2.3 주요 특징 (Features)
| 기능 | 상세 내용 |
| 지원 언어 | 한국어, 영어, 중국어 등 30개 언어 및 22개 중국어 방언 (총 52종) |
| 추론 모드 | 오프라인 및 스트리밍 통합 지원 |
| 최대 길이 | 단일 추론 시 최대 20분(1200초) 지원 |
| 특수 인식 | 가창 음성(Singing Voice) 및 배경음악(BGM)이 포함된 곡 인식 지원 |
2.4 추론 효율성 (Inference Efficiency)
산업 현장의 실질적인 효율성을 측정하기 위해 vLLM 기반의 다중 동시 요청(Multi-concurrency) 환경에서 벤치마크를 수행했습니다.
- 지연 시간: Qwen3-ASR-0.6B 기준, 평균 최초 토큰 도달 시간(TTFT)은 92ms 수준입니다.
- 처리량: 동시성 128 환경에서 1초당 2,000초 분량의 오디오를 처리할 수 있는 높은 성능을 보여줍니다. (RTF 0.064 수준)
3. Qwen3-ForcedAligner: 비자기회귀(NAR) 기반 강제 정렬 모델
3.1 개요 및 핵심 접근 방식 (Overview)

Qwen3-ForcedAligner-0.6B는 주어진 전사(Transcript) 텍스트를 음성 내의 정확한 단어 또는 문자 단위 타임스탬프와 매칭시키는 모델입니다. 기존 방식과 달리 슬롯 채우기(Slot-filling) 형식으로 문제를 재정의한 것이 특징입니다.
- 작동 원리: 텍스트 내에 시작과 끝을 나타내는 특수 토큰 [time]을 삽입하고, 모델이 이 슬롯에 들어갈 이산적인(Discrete) 타임스탬프 인덱스를 직접 예측합니다.
- 주요 성과:
- 정확도: 기존 강제 정렬 모델 대비 사람의 레이블링 데이터 기준 누적 평균 편차(Shift)를 67%~77% 감소시켰습니다.
- 범용성: 11개 언어를 지원하며, 최대 300초 길이의 음성까지 처리 가능합니다. 단어와 문자 단위 모두 유연하게 지정 가능합니다.
- 속도: 다음 토큰을 순차적으로 예측하는 방식이 아닌, 비자기회귀(Non-Autoregressive, NAR) 방식을 채택하여 추론 속도를 비약적으로 높였습니다.
3.2 모델 아키텍처 (Model Design)

Qwen3-ForcedAligner-0.6B는 음성 처리를 위한 AuT 인코더와 텍스트 처리를 위한 Qwen3-0.6B LLM이 결합된 구조입니다.
- 입력 처리:
- 음성: AuT 인코더를 통해 프레임 수준의 임베딩을 생성합니다. (1 프레임 = 80ms)
- 텍스트: 각 단어/문자 뒤에 [time] 토큰을 삽입하여 토크나이징합니다. 타임스탬프 값은 80ms 단위로 나누어 인덱스화(Discretization) 합니다.
- 통합 처리: 음성과 텍스트 임베딩이 결합되어 Qwen3-0.6B LLM을 통과합니다.
- 예측: 마지막 선형 레이어(Linear Layer)가 전체 시퀀스에 대한 타임스탬프 인덱스를 예측합니다. (300초 길이에 대응하여 최대 3,750개의 클래스 분류)
- 다국어 지원: 언어별 음소 사전(Dictionary)에 의존하지 않고, 대규모 다국어 데이터로 학습된 AuT와 LLM의 능력을 활용하여 11개 언어 및 교차 언어(Cross-lingual) 정렬을 수행합니다.
3.3 학습 전략 (Training Strategies)
학습 데이터 확보의 어려움을 극복하고 모델의 강건성을 높이기 위해 다음과 같은 전략을 사용했습니다.
- 데이터 정제: 사람이 직접 레이블링한 데이터는 비용이 높으므로, 기존의 고성능 정렬기인 MFA(Montreal Forced Aligner)가 생성한 의사 레이블(Pseudo-label)을 활용합니다. 단, MFA의 출력을 그대로 복제하는 것이 아니라, 이를 정제(Distill)하고 평활화(Smooth)하여 노이즈와 편차를 줄였습니다.
- 인과적 학습(Causal Training):
- 일반적인 LLM 학습(Next-token prediction)에서 사용하는 시퀀스 시프트(Offset) 방식을 사용하지 않습니다.
- 입력과 라벨 시퀀스를 시프트 없이 유지하여, 모델이 현재 슬롯의 타임스탬프를 예측할 때 문맥 정보를 명확히 활용하도록 합니다.
- 손실 함수(Cross-entropy loss)는 오직 [time] 슬롯에서만 계산됩니다.
- 동적 슬롯 삽입: 학습 중 각 단어/문자 뒤에 타임스탬프 슬롯을 무작위로 삽입하는 전략을 통해 일반화 성능을 강화했습니다.
3.4 추론 및 효율성 (Inference and Usability)
모델이 비자기회귀 방식이므로, Transformer와 vLLM 간의 추론 속도 차이는 상대적으로 작습니다. 따라서 모든 벤치마크는 Transformer를 사용하여 실행됩니다.
- 사용성: 사용자는 텍스트의 어느 위치에나 유연하게 타임스탬프 슬롯을 삽입할 수 있습니다.
- 고속 추론: NAR 디코딩 방식을 통해 전사본 내의 모든 타임스탬프를 동시에 예측합니다.
- 성능 지표: FlashAttention과 bfloat16을 적용한 벤치마크 결과, 높은 동시성에서도 RTF(Real-Time Factor) 0.001 수준을 기록했습니다. 이는 1초 동안 1,000초 분량의 오디오를 정렬할 수 있는 속도입니다.
4. 실험 및 성능 평가 (Experiments)
4.1 평가 환경 및 기준 (Evaluation Details)
Qwen3-ASR의 성능 검증을 위해 상용 독점 모델과 오픈소스 모델을 아우르는 광범위한 비교 평가를 진행했습니다.
- 비교군 (Baselines):
- 상용 API: GPT-4o-Transcribe, Gemini-2.5-Pro, Doubao-ASR
- 오픈소스: Whisper-large-v3, FunASR-MLT-Nano, GLM-ASR-Nano
- 평가 프로토콜:
- 공개 벤치마크: 영어, 중국어 표준어 및 방언 데이터셋.
- 내부 강건성(Robustness) 테스트: 16개 영어 악센트, 22개 중국어 방언, 노약자 음성, 극한의 노이즈(SNR), 말 더듬 등 실제 악조건 환경.
- 다국어 평가: 30개 언어에 대한 인식 및 언어 식별(LID) 성능.
- 가창(Singing) 인식: 반주가 포함된 긴 호흡의 노래 인식.
4.2 영어 및 중국어 ASR 성능

4.2.1 공개 벤치마크 결과 Qwen3-ASR은 영어와 중국어(표준어 및 방언) 전반에서 최상위권의 성능을 기록했습니다.
- 영어: 정제된 낭독 음성보다 실제 환경(Real-world) 데이터에서 특히 강점을 보였습니다. 상용 API들의 성능 편차가 큰 반면, Qwen3-ASR은 다양한 데이터셋에서 일관된 정확도를 유지했습니다.
- 중국어: 대부분의 벤치마크에서 1위를 차지했으며, 특히 회의 녹음 등 복잡한 음향 환경인 WenetSpeech에서 타 모델 대비 압도적인 성능을 보였습니다.
- 방언: 광둥어(Cantonese)를 비롯한 장문 방언 인식에서 뛰어난 성능을 보이며, 별도의 방언 전용 튜닝 없이도 범용적인 처리 능력을 입증했습니다.
4.2.2 내부 벤치마크 (강건성 평가) 실제 배포 환경을 가정한 내부 테스트에서도 결과는 일관되었습니다.

- 악센트: 16개 영어 악센트 평가에서 비교군 중 가장 낮은 단어 오류율(WER)을 기록했습니다.
- 극한 환경: 노이즈가 심하거나 화자가 겹치는 중국어 대화에서도 1.7B 모델은 안정적인 성능을 유지했습니다.
4.3 다국어 ASR 및 언어 식별 (Multilingual & LID)

4.3.1 다국어 ASR
- 일반 성능: MLS, Common Voice 등의 벤치마크에서 Qwen3-ASR-1.7B는 Whisper-large-v3를 포함한 오픈소스 모델들을 능가했습니다.
- 확장성: 0.6B 모델 대비 1.7B 모델의 성능 향상 폭이 커, 다국어 처리와 같은 복잡한 작업에서 모델 크기 확장이 유효함을 확인했습니다.
- 한계 및 과제: 30개 언어를 모두 포함하는 Fleurs 전체 셋에서는 Whisper-large-v3 대비 다소 성능이 떨어졌으나, 주요 20개 언어셋에서는 우위를 점했습니다. 이는 롱테일(Long-tail) 언어 처리에 대한 개선 여지를 시사합니다.
4.3.2 언어 식별 (LID)

- Qwen3-ASR의 두 모델 모두 Whisper-large-v3보다 높은 언어 식별 정확도를 기록했습니다.
- 주요 오류는 음향적으로 매우 유사한 말레이어(Malay)와 인도네시아어(Indonesian) 간의 혼동에서 발생했습니다.
4.4 가창 및 노래 인식 (Singing Voice & Songs)

- 배경음악(BGM) 강건성: 반주가 포함된 긴 노래를 인식할 때 Whisper나 FunASR은 성능이 급격히 저하되는 반면, Qwen3-ASR-1.7B는 높은 정확도를 유지했습니다.
- 경쟁력: 중국어 노래 인식에서는 1위를 기록했으며, 영어 노래에서도 최고 수준의 상용 시스템과 대등한 성능을 보여 음성 인식과 노래 인식 간의 기술적 격차를 좁혔습니다.
4.5 스트리밍(Streaming) 인식 성능

Qwen3-ASR은 동적 어텐션 윈도우(Dynamic Attention-window) 메커니즘을 통해 하나의 모델로 오프라인과 스트리밍 추론을 모두 지원합니다.
- 스트리밍 모드(2초 청크 기준)로 전환 시 약간의 성능 저하는 발생하지만, 여전히 높은 수준의 인식 정확도를 유지하며 실시간 처리가 가능함을 확인했습니다.
4.6 타임스탬프 정밀도 (Qwen3-ForcedAligner)

강제 정렬 모델인 Qwen3-ForcedAligner-0.6B의 타임스탬프 예측 정확도를 AAS(누적 평균 편차) 지표로 평가했습니다. (수치가 낮을수록 정확함)
- 압도적인 정확도: 기존 방식(MFA, NFA, WhisperX) 대비 월등히 낮은 편차(ms 단위)를 기록했습니다.
- 장문 처리 능력: 기존 모델들이 긴 오디오에서 성능이 급격히 떨어지는 것과 달리, 300초 길이의 긴 음성에서도 안정적인 정렬 성능을 보였습니다.
- 일반화: MFA의 의사 레이블(Pseudo-labels)로 학습했음에도 불구하고, 실제 사람이 레이블링한 테스트셋에서 더 낮은 편차를 기록하는 등 뛰어난 일반화 성능을 입증했습니다.
5. 결론 (Conclusion)
본 보고서에서는 대규모 음성 코퍼스로 학습된 두 개의 자동 음성 인식(ASR) 시스템과 하나의 강제 정렬(FA) 모델로 구성된 Qwen3-ASR 제품군을 소개했습니다.
기초 모델인 Qwen3-Omni의 강력한 오디오 이해 능력과 4단계 학습 파이프라인을 활용하여 개발된 Qwen3-ASR-1.7B와 0.6B 모델은 다음과 같은 성과를 입증했습니다.
- 성능 우위: 유사하거나 더 큰 규모의 경쟁 모델들은 물론, 상용 API와 비교해서도 음성 커버리지와 인식 정확도 면에서 뛰어난 성능을 보였습니다.
- 광범위한 지원: 30개 언어에 대한 언어 식별 및 ASR을 지원하며, 복잡한 음향 조건, 악센트, 방언에 대한 강건성을 갖췄습니다. 또한 가창 음성(Singing voice) 등 실제 환경의 다양한 음성 시나리오에서도 효율성을 유지합니다.
또한, 함께 공개된 Qwen3-ForcedAligner-0.6B는 LLM 기반의 비자기회귀(NAR) 타임스탬프 예측 모델로 다음과 같은 특징을 가집니다.
- 기술적 진보: 11개 언어에 대한 강제 정렬을 지원하며, 주류를 이루는 기존 3가지 ASR 기반 FA 솔루션보다 타임스탬프 정확도, 추론 속도, 언어 커버리지 측면에서 앞선 성능을 보였습니다.
연구팀은 이 세 가지 모델의 가중치(Weights)와 함께 사용하기 쉬운 통합 추론 프레임워크를 오픈소스로 공개했습니다.
Qwen3-ASR 제품군은 실제 평가와 공개 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성했으며, 특히 오픈소스로 공개된 강제 정렬 모델은 음성 기술 스택의 중요한 공백을 메울 것으로 기대됩니다. 연구팀은 앞으로도 이 개방형 모델 제품군의 정확성과 기능을 지속적으로 발전시켜 나갈 계획이라고 밝히며 글을 마쳤습니다.
6. 마치며
이번 포스팅에서는 Qwen3-ASR Technical Report를 통해, 거대 언어 모델(LLM)의 문맥 이해 능력을 음성 인식에 접목한 새로운 아키텍처와 성능을 살펴보았습니다. Qwen3-ASR은 1.7B 및 0.6B 모델을 통해 압도적인 다국어 처리 능력과 노이즈 강건성을 보여주었으며, 특히 비자기회귀(NAR) 방식의 Forced Aligner는 타임스탬프 정밀도에서 기존 기술 대비 진보를 이뤄냈다고합니다.
제가 인상적인 부분은 추론 속도(Latency)를 확보한 접근 방식입니다. 최근 ASR 트렌드는 이전에 리뷰한 FunASR-MLT-Nano와 같이 LLM 디코더 레이어를 적극 활용하는 추세입니다. 하지만 기존 모델들은 LLM 레이어의 연산 부하로 인해 추론 시간 면에서 다소 아쉬운 부분이 있었습니다.
반면, Qwen3-ASR은 추론 속도가 인상적이였습니다. 기존 모델의 한계를 입력 시퀀스의 효율적인 압축으로 극복하려는 시도가 돋보입니다. 마치 역시 이전 글에서 리뷰한 VibeVoice-ASR가 24kHz 입력을 3,200배 다운샘플링하여 초당 약 7.5토큰 수준으로 극단적으로 압축했던 것처럼, Qwen3-ASR 또한 AuT 인코더를 통해 입력을 12.5Hz 수준으로 8배 다운샘플링했습니다. 이는 LLM이 처리해야 할 시퀀스 길이를 획기적으로 줄여, FunASR-MLT-Nano 등에서 느꼈던 Latency 문제를 보완하고 실시간성을 확보할 수 있었던 핵심 키가 됐을 것으로 판단됩니다.
지난 FunASR 리뷰 때는 실시간 환경에 적용하기엔 Latency가 보장되지 않는다고 판단하여 추가 검증을 진행하지 않았습니다. 하지만 이번 Qwen3-ASR은 구조적으로 충분한 가능성이 엿보이기에, 실제 한국의 Real-time 전화망 서비스 환경에서도 논문의 성능이 재현될지 직접 확인해보려 합니다.
따라서 다음 글에서는 제가 보유한 실시간 한국어 상담 데이터셋을 활용하여 직접적인 성능 비교 실험을 진행하고자 합니다.
비교 대상 모델은 다음 4가지입니다.
- Base faster-whisper-large-v3-turbo (베이스라인)
- Fine-tuned faster-whisper-large-v3-turbo
- Qwen3-ASR-1.7B
- Qwen3-ASR-0.6B
이 모델들을 대상으로 한국어 문자 오류율(CER)과 실제 추론 속도(Latency/RTF)를 측정하여, 과연 Qwen3-ASR이 파인튜닝된 기존 Whisper 모델을 대체할 수 있을 만큼의 실용성(정확도와 속도의 균형)이 있는지 실험해 보겠습니다.