ASR 8

[Voice] Cohere의 오픈소스 음성 인식 모델 cohere-transcribe-03-2026 리뷰

안녕하세요. 오늘은 Cohere Labs에서 2026년 3월에 새롭게 발표한 음성 인식(ASR) 모델인 'cohere-transcribe-03-2026'에 대해 상세히 알아보겠습니다. 이 모델은 기업 환경에서 필수적으로 요구되는 14개 언어(한국어 포함)를 지원하며, 높은 정확도와 추론 효율성을 목표로 처음부터 새롭게 학습된 20억(2B) 파라미터 규모의 모델입니다. 현재 허깅페이스(Hugging Face)를 통해 Apache 2.0 라이선스로 공개되어 누구나 상업적, 비상업적 목적으로 활용할 수 있습니다.이번 포스팅에서는 테크 블로그에 설명 되어 있는 해당 모델의 주요 특징, 아키텍처 구조, 학습 데이터, 실제 성능 지표, 그리고 vLLM을 활용한 프로덕션 최적화 내용까지 구체적으로 살펴보겠습니다. 1..

DL/Voice 2026.03.30

[Voice] Mistral Voxtral Mini Transcribe V2 및 Realtime 모델 공개

2026년 2월 10일, Mistral AI가 차세대 음성 인식(STT) 모델 제품군인 Voxtral MiniTranscribe V2를 공식 발표했습니다.이번 릴리스는 배치(Batch) 처리와 실시간(Realtime) 스트리밍 처리에 각각 최적화된 두 가지 모델을 포함하며, Mistral Studio에 새로운 오디오 플레이그라운드(Audio Playground)도 함께 공개되었습니다. 이번 글에서는 공식 홈페이지를 통해 확인된 구체적인 사양과 벤치마크 결과, 그리고 엔지니어링 관점에서의 활용 방안을 정리하고자 합니다.1. 모델 라인업 및 주요 특징이번 제품군은 Voxtral Mini Transcribe V2 (Batch)와 Voxtral-Mini-4B-Realtime (Streaming)으로 구성됩니다...

DL/Voice 2026.02.10

[Voice] 실제 한국어 상담 발화 데이터에서의 Faster-whisper-large-v3-turbo vs Qwen3-ASR 1.7B & 0.6B 성능 비교

이번 글에서는 보유하고 있는 1만 건의 실제 한국어 상담 녹취 데이터를 활용하여, 음성 인식(ASR) 모델인 Faster-whisper-large-v3-turbo와 최근 출시된 Qwen3-ASR 1.7B, Qwen3-ASR 0.6B 모델의 Base 성능을 비교한 결과를 공유합니다. 별도의 파인튜닝(Fine-tuning)을 거치지 않은 사전 학습(Pre-trained) 모델 상태에서의 성능 측정 결과입니다. Faster-whisper-large-v3-turbohttps://huggingface.co/deepdml/faster-whisper-large-v3-turbo-ct2 deepdml/faster-whisper-large-v3-turbo-ct2 · Hugging FaceWe’re on a journey..

DL/Voice 2026.02.06

[Voice] Qwen3-ASR Technical Report 리뷰 : 차세대 음성 인식 및 강제 정렬 모델

안녕하세요. 오늘은 최근 공개된 Qwen3-ASR Technical Report의 주요 내용을 정리해 보려 합니다.이번 보고서에서 소개된 Qwen3-ASR 제품군은 두 가지 크기의 올인원 음성 인식(ASR) 모델과 새로운 방식의 강제 정렬(Forced Alignment) 모델을 포함하고 있습니다. 특히 Qwen3-Omni를 기초 모델로 사용하여 기존 모델들보다 더욱 뛰어난 오디오 이해력을 보여준다는 점이 인상적입니다. 본격적인 섹션별 리뷰에 앞서, 이번 보고서의 핵심 요약(Abstract)을 바탕으로 전체적인 개요를 먼저 살펴보겠습니다. 이번에 공개된 모델 라인업은 크게 세 가지로 나뉩니다.Qwen3-ASR-1.7B: 오픈소스 모델 중 SOTA(State-of-the-art) 성능을 기록하며, 상용 AP..

DL/Voice 2026.02.02

[Voice] 마이크로소프트 VibeVoice-ASR Technique Report 리뷰

0. VibeVoice-ASR : 최대 60분 장문 오디오 입력 처리 (화자 분리 + 인식) 2026년 1월 21일, 마이크로소프트가 VibeVoice-ASR을 오픈소스로 공개했습니다. 이 모델은 최대 60분 분량의 장문 오디오를 한 번에 처리하여 발화자(Who), 타임스탬프(When), 내용(What)을 포함하는 구조화된 전사본을 생성하도록 설계된 통합 음성-텍스트 변환 모델입니다. 또한, 전문 용어 인식을 돕는 사용자 지정 핫워드(Context Injection) 기능도 지원한다고 합니다. 제가 직접 데모로 테스트해보니 화자 분리 성능이 뛰어나고, STT 전사 결과도 상당히 준수했습니다. 이 모델이 흥미로운 점은 기존 방식과의 차별점 때문입니다. 1) 보통 긴 녹취를 처리할 때는 30초 단위로 잘라 ..

DL/Voice 2026.01.27

[Voice] Fun-ASR Technical Report 리뷰 및 테스트 (feat. whisper)

이번 글에서는 12월19일에 공개된 Fun-ASR-nano 모델에 대한 기술 리포트를 리뷰해보고자 합니다.Fun-ASR(7.7B)은 높은 인식 정확도를 목표로 0.7B개의 파라미터를 가진 오디오 인코더와 7B개의 파라미터를 가진 LLM 기반 디코더로 구성됩니다. Fun-ASR-nano(0.8B)는 낮은 계산 리소스 시나리오의 요구 사항을 충족하기 위해 정확도와 효율성 간의 균형을 맞추고자 0.2B개의 파라미터를 가진 오디오 인코더와 0.6B개의 파라미터를 가진 LLM 기반 디코더로 구성됩니다. 제가 관심있게 보는 부분은 "실시간 처리가 가능한 수준인가?"입니다. 기존의 오픈소스 ASR 모델 중 가장 빠른 솔루션은 OpenAI의 Whisper-large-v3-turbo 베이스의 Faster-whisper-..

DL/Voice 2026.01.05

[DL] RNN - Recurrent Neural Networks 이론 정리

0. RNN (Recurrent Neural Network) RNN(Recurrent Neural Network)은 시간적으로 순차적인 데이터를 처리할 수 있도록 설계된 인공신경망으로, 과거 정보를 현재의 계산에 활용할 수 있는 순환 구조를 가진 모델입니다. 시간에 따라 동일한 가중치를 공유하는 것이 특징이라고 할 수도 있습니다. 이러한 특징은 시계열 데이터, 자연어 처리(NLP), 음성 인식, 주가 예측 등 순서와 맥락이 중요한 데이터 처리에서 강점을 보입니다. 1. First-order System과 RNN의 유사성First-order system은 시스템 동역학(dynamics)을 기술할 때 사용되는 수학적 모델로, 시스템의 현재 상태가 이전 상태와 현재 입력에 의해 결정되는 구조를 가집니다. 주로..

DL 2024.12.10

[Voice] 실시간 STT 연구를 위한 선행 지식과 학습 로드맵 (feat. Whisper)

0. 개요"실시간 STT" Real time STT 또는 Streaming STT 라고도 불립니다. "[Voice] 실시간 STT 연구를 위한 선행 지식과 학습 로드맵" 에서는 지금까지 실시간 STT를 구현하기 위해 필요한 여러 선행 연구와 개념들을 순차적으로 정리하고자 합니다.1. OpenAI/Whisper 실시간 STT에 적합하지 않다.현재 ASR 분야에서 가장 성능이 뛰어나다고 알려진 모델은 OpenAI의 "Whisper"입니다.Whisper는 CNN과 트랜스포머를 결합한 구조를 가지고 있습니다. 이러한 구조를 가진 Whisper를 일반적으로 적용 가능한 모델로 훈련하기 위해 OpenAI는 다양한 환경과 녹음 설정, 화자, 언어를 포함한 680,000 시간 이상의 레이블 데이터를 수집했습니다. 이를..

DL/Voice 2024.12.03