[Voice] Cohere의 오픈소스 음성 인식 모델 cohere-transcribe-03-2026 리뷰

DL/Voice

[Voice] Cohere의 오픈소스 음성 인식 모델 cohere-transcribe-03-2026 리뷰

moonzoo 2026. 3. 30. 18:37

안녕하세요. 오늘은 Cohere Labs에서 2026년 3월에 새롭게 발표한 음성 인식(ASR) 모델인 'cohere-transcribe-03-2026'에 대해 상세히 알아보겠습니다. 이 모델은 기업 환경에서 필수적으로 요구되는 14개 언어(한국어 포함)를 지원하며, 높은 정확도와 추론 효율성을 목표로 처음부터 새롭게 학습된 20억(2B) 파라미터 규모의 모델입니다.

현재 허깅페이스(Hugging Face)를 통해 Apache 2.0 라이선스로 공개되어 누구나 상업적, 비상업적 목적으로 활용할 수 있습니다.

이번 포스팅에서는 테크 블로그에 설명 되어 있는 해당 모델의 주요 특징, 아키텍처 구조, 학습 데이터, 실제 성능 지표, 그리고 vLLM을 활용한 프로덕션 최적화 내용까지 구체적으로 살펴보겠습니다.

1. 주요 특징 및 성능 지표

1) 높은 영어 음성 인식 성능 가장 두드러지는 부분은 영어 음성 인식 부문에서의 성능입니다. cohere-transcribe는 허깅페이스의 Open ASR 리더보드에서 기존의 독점(Proprietary) 모델과 오픈소스 모델들을 모두 제치고 1위를 기록했습니다. Alibaba(Qwen), IBM, NVIDIA, OpenAI(Whisper) 등의 주요 모델들과 비교했을 때, 단어 오류율(WER, Word Error Rate) 측면에서 가장 우수한 결과를 보여주었습니다.

2) 14개 다국어 지원 및 정확도 이 모델은 영어뿐만 아니라 한국어, 독일어, 프랑스어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어, 아랍어, 베트남어, 중국어(만다린), 일본어 등 총 14개 언어를 지원합니다. 영어를 제외한 13개 언어 테스트에서도 현재 존재하는 최고 수준의 오픈소스 모델들과 동등하거나 그 이상의 성능을 기록하여 다국어 환경에서도 안정적인 사용이 가능합니다.

3) 인간 평가(Human Evaluation) 결과의 일치 단순히 자동화된 벤치마크 데이터셋에서만 좋은 점수를 받은 것이 아닙니다. 훈련된 평가자들이 실제 환경의 오디오를 바탕으로 정확성, 일관성, 사용성 등을 평가한 결과에서도 동일하게 높은 점수를 받았습니다. 평가자들은 의미 보존, 환각(Hallucination) 현상 방지, 고유명사 식별, 정확한 원문 변환 등의 기준에서 cohere-transcribe의 결과물을 더 선호하는 것으로 나타났습니다.

그림 1: Cohere-transcribe는 다른 10억 이상 규모의 모델보다 처리량(RTFx) 대 정확도(WER) 균형이 더 우수합니다. RTFx(실시간 계수)는 오디오 모델이 입력을 실시간 대비 얼마나 빠르게 처리하는지를 측정하는 지표입니다.

그림 4: FLEURS, Common Voice 17.0, MLS 및 Wenet 테스트 세트에서 평균화된 언어별 오류율(해당 언어에 적용되는 경우). zh, ja, ko의 경우 CER, 그 외의 경우 WER.

2. 모델 아키텍처 및 효율성

cohere-transcribe는 20억 파라미터 규모의 인코더-디코더(Encoder-Decoder) X-attention 트랜스포머 아키텍처를 채택했으며, 인코더 부분에는 'Fast-Conformer' 구조를 사용했습니다.

이 모델의 핵심적인 설계 특징은 전체 파라미터의 90% 이상을 인코더에 할당하고, 디코더는 매우 가볍게 설계했다는 점입니다. 이러한 비대칭적인 구조는 텍스트를 생성하는 디코더의 자가회귀(Autoregressive) 연산량을 최소화하여 전반적인 추론 속도를 높여줍니다.

최근 텍스트 기반의 대형 언어 모델(Qwen-1.7B-ASR, ibm-granite/granite-4.0-1b-speech)에 오디오 이해 기능을 덧붙이는 방식의 모델들이 훈련 비용은 낮지만 추론 속도가 느리고 서비스 유지 비용이 높은 반면, cohere-transcribe는 비슷한 크기의 경쟁 모델들보다 오프라인 처리량(Throughput)이 3배 더 높게 측정되었습니다.

3. 학습 데이터 및 토크나이저

모델의 완성도를 높이기 위해 Cohere 팀은 검증된 모델 아키텍처를 기반으로 데이터 정제 작업에 집중했습니다.

데이터 규모: 50만 시간 분량의 큐레이션된 오디오-텍스트 쌍(Audio-transcript pairs) 데이터가 사용되었으며, 내부적인 오류 분석을 거쳐 합성 데이터(Synthetic data)를 추가로 증강했습니다.
토크나이저: 오디오 데이터 분포에 맞게 샘플링하여 학습시킨 16k 다국어 BPE 토크나이저를 사용했습니다.
노이즈 증강: 실제 환경에서의 인식률을 높이기 위해 0~30dB SNR 범위의 비음성 배경 소음(Background noise)을 추가하는 데이터 증강 기법을 적용했습니다.
맞춤형 구두점 처리: 프롬프트를 통해 구두점 생성을 사용자가 맞춤 설정할 수 있도록 설계했습니다. 이를 통해 대문자나 구두점 정보가 없는 오픈 데이터셋도 학습에 효과적으로 활용할 수 있었습니다. (기본 추론 설정에서는 모든 텍스트 결과물에 구두점이 포함되어 출력됩니다.)

4. vLLM 기반의 프로덕션 추론 최적화

오프라인 벤치마크 성능을 실제 서비스 환경(Production)에서 안정적으로 제공하기 위해 Cohere는 오픈소스 추론 스택인 vLLM 프로젝트와 협력했습니다.

기존 vLLM은 텍스트 중심의 LLM 처리에 강점이 있었으나, 입력 오디오의 길이가 제각각인 인코더-디코더 구조의 음성 모델을 동시 처리할 때는 패딩(Padding)으로 인한 병목 현상이 발생했습니다. 이를 해결하기 위해 Cohere는 다음의 기술적 개선 사항을 vLLM에 적용 및 기여했습니다.

길이가 다른 인코더 요청들을 세밀하게 동시 실행할 수 있도록 스케줄러를 개편하여 GPU 활용도와 전체 처리량을 향상시켰습니다.
텐서 구조의 차이를 조정하기 위해, 합성곱(Convolutional) 인코더를 최소한의 패딩만 적용해 실행한 뒤 그 출력을 압축된(Packed) 형태로 변환하여 FlashAttention 기반 디코더에 전달하는 방식을 도입했습니다.

결과적으로 패딩 토큰으로 인해 발생하던 불필요한 중복 연산을 줄임으로써, 모델의 처리량(Throughput)을 최대 2배까지 향상시키는 데 성공했습니다.

5. 한계점 및 사용 시 권장 사항

기술 문서에 따르면, 이 모델을 서비스에 적용할 때 유의해야 할 몇 가지 제한 사항이 존재합니다.

단일 언어 오디오에 최적화: 기본적으로 특정 언어 태그와 단일 언어로 구성된 오디오를 입력받도록 훈련되었습니다. 영어와 다른 언어가 섞인 코드 스위칭(Code-switched) 오디오를 정상적으로 변환하는 사례도 관찰되었으나, 이를 명시적으로 지원하도록 학습된 것은 아닙니다.
배경 소음 처리를 위한 VAD 사용 권장: 여타 다른 음성 인식 모델들과 마찬가지로 입력된 소리를 적극적으로 텍스트로 변환하려는 특성이 있습니다. 따라서 음성이 아닌 아주 작은 볼륨의 배경 소음이나 백색 소음이 무의미한 텍스트로 변환되는 환각(Hallucination) 현상을 방지하려면, 모델 입력 전 단계에 노이즈 게이트(Noise gate)나 음성 구간 검출(VAD, Voice Activity Detection) 모델을 추가로 배치하는 것이 권장됩니다.

6. 테스트 및 활용 방법

cohere-transcribe-03-2026 모델은 사용자의 필요에 따라 다양한 방식으로 접근할 수 있습니다.

Hugging Face Space: 브라우저 상에서 즉시 모델의 오디오 변환 성능을 테스트해 볼 수 있습니다.
Cohere API: 초기 실험 및 테스트를 목적으로 무료 API 액세스를 제공합니다. (단, 사용량에 따른 속도 제한이 적용됩니다.)
Model Vault (Enterprise): 속도 제한 없이 대규모 트래픽을 처리해야 하는 프로덕션 배포 환경을 위해, Cohere 대시보드에서 전용 인스턴스를 프로비저닝하여 사용할 수 있습니다.

7. AICC 서비스 도입을 위한 vLLM 최적화의 의의

제가 관심이 있는 AICC 및 실시간 음성 비서 서비스에서는 무엇보다 저지연(Latency) 확보가 가장 핵심적인 과제로 꼽힙니다.

고객의 음성을 입력받아 지연 없이 즉각적으로 AI가 답변을 제공해야만 실제 사람과 통화하는 듯한 자연스러운 대화 흐름을 유지할 수 있기 때문입니다. 만약 음성을 텍스트로 변환하는 STT(Speech-to-Text) 첫 단계에서 병목 현상이 발생하여 처리가 지연된다면, 뒤이어 연결된 텍스트 기반 LLM이 아무리 뛰어난 성능을 발휘하더라도 전체적인 서비스 품질과 고객 경험은 크게 저하될 수밖에 없습니다.

이러한 AICC 환경의 요구사항을 고려할 때, cohere-transcribe-03-2026 모델이 오픈소스 추론 프레임워크인 vLLM과 결합하여 이루어낸 구조적 최적화가 매우 관심이 갑니다. 일반적으로 고객의 콜센터 통화나 음성 명령 데이터는 그 길이가 매우 가변적입니다. 기존의 모델 추론 방식에서는 이렇게 길이가 제각각인 오디오 입력들을 동시에 처리(Batching)할 때, 가장 긴 길이에 맞춰 빈 공간을 채워 넣는 패딩(Padding) 작업이 필수적이었습니다. 이는 필연적으로 불필요한 GPU 연산 자원의 낭비를 초래하고, 트래픽이 몰릴 때 지연을 발생시키는 원인이 되었습니다. (Whisper만해도 30초 단위로 패딩이 되죠.)

하지만 Cohere 팀은 vLLM의 스케줄러를 근본적으로 개편하여, 가변적인 길이의 오디오 요청들을 세밀하고 병렬적으로 실행할 수 있도록 만들었습니다. 또한, 인코더를 통과한 데이터를 불필요한 빈 공간 없이 압축된(Packed) 형태로 변환하여 FlashAttention 기반의 디코더에 전달함으로써, 패딩 토큰으로 인한 중복 연산을 차단했습니다.

그 결과, 다수의 콜이 동시에 유입되는 고부하 AICC 환경에서도 처리량(Throughput)을 최대 2배까지 향상시키면서 응답 대기 시간을 최소화할 수 있게 되었습니다. 이는 단순히 단일 환경에서의 처리 속도를 넘어서, 대규모 동시 접속 상황에서도 서버 증설 비용을 절감하며 일관된 저지연 서비스를 제공할 수 있다는 것을 의미합니다.

8. 결론 및 향후 테스트 계획

결론적으로 cohere-transcribe-03-2026은 단순히 벤치마크 지표만 높은 연구용 모델보다 더 의미가 있다고 생각합니다. 이전에 블로그에서 리뷰했던 Qwen3-ASR(1.7B, 0.6B) 모델들의 경우, vLLM을 적용했을 때 뛰어난 처리량을 보여주었지만 실제 서비스에 즉각적으로 도입하기에는 한계가 존재했습니다.

특히 텍스트 기반의 거대한 언어 모델(LLM) 디코더를 활용하는 구조 특성상, 문맥에 맞추어 단어를 과도하게 보정하려다 보니 오히려 환각(Hallucination) 현상이 빈번하게 발생했습니다. 또한, 미세한 주변 소음에도 너무 민감하게 반응하는 경향이 있어 앞서 한계점 항목에서 언급한 바와 같이 반드시 입력 앞단에 VAD 모듈을 필수적으로 배치해야만 실무 활용이 가능한 정도 였습니다.

이번 Cohere의 모델 역시 무의미한 소음을 텍스트로 변환하려는 성향이 있어 VAD 사용이 권장되기는 하지만, 구조적으로 무거운 텍스트 디코더 대신 가벼운 디코더를 채택했다는 점에서 기존 LLM 기반 음성 모델들이 지녔던 과도한 문맥 보정으로 인한 환각 문제는 상대적으로 덜할 것으로 추측됩니다. (물론 트랜스포머 인-디코더 구조인 이상 할루시네이션은 필연적으로 발생할 수 밖에 없지만요.)

따라서 이번 cohere-transcribe-03-2026 모델은 단순한 인식률 성능 자체에 대한 기대보다는, 가변적인 길이를 가진 인코더-디코더 구조의 음성 모델을 vLLM 환경에서 성공적으로 최적화해 냈다는 엔지니어링적 성과에 더 큰 관심을 두고 지켜보고 있습니다.

아직 본격적인 자체 테스트를 진행하기 전이지만, 조만간 보유하고 있는 학습 데이터를 활용하여 이 모델의 파인튜닝(Fine-tuning)을 직접 진행해 볼 계획입니다. 시간적 여유가 생기는 대로 실제 튜닝 과정과 실무 환경에서의 테스트 결과 지표를 블로그를 통해 후속 포스팅으로 공유해 드리겠습니다.

결과적으로 이 모델은 실제 기업의 AICC(인공지능 컨택센터) 서비스나 실시간 음성 번역 애플리케이션에서 가장 엄격하게 요구하는 빠른 응답 속도와 대용량 트래픽 처리 능력을 vLLM 최적화를 통해 구조적으로 대비한 실전형 모델입니다. 데이터 보안을 위해 폐쇄적인 온프레미스(On-premise) 음성 인식 인프라를 자체 구축하면서도, 상용 클라우드 API 수준의 쾌적한 반응 속도와 운영 효율성을 동시에 달성하고자 하는 기업 및 개발자라면 검토해보시는 것도 도움이될 것 같습니다.

'DL > Voice' 카테고리의 다른 글

[Voice] Mistral Voxtral Mini Transcribe V2 및 Realtime 모델 공개 (0)	2026.02.10
[Voice] 실제 한국어 상담 발화 데이터에서의 Faster-whisper-large-v3-turbo vs Qwen3-ASR 1.7B & 0.6B 성능 비교 (11)	2026.02.06
[Voice] Qwen3-ASR Technical Report 리뷰 : 차세대 음성 인식 및 강제 정렬 모델 (0)	2026.02.02
[Voice] 마이크로소프트 VibeVoice-ASR Technique Report 리뷰 (0)	2026.01.27
[Voice] 엔비디아 PersonaPlex: Voice and role control for full duplex conversational speech models 논문 리뷰 (0)	2026.01.26

현재글[Voice] Cohere의 오픈소스 음성 인식 모델 cohere-transcribe-03-2026 리뷰

ML, DL 이것저것 기록하는 블로그

딥러닝, ASR, ChatGPT, gan, STT, CUDA, 머신러닝, vllm, nlp, 대시보드, rag, 파이썬, LLM, Ai, docker, ocr, Dash, Whisper, 음성인식, 음성,

Today :
Yesterday :

MZ._.GPT