0. 개요"실시간 STT" Real time STT 또는 Streaming STT 라고도 불립니다. "[Voice] 실시간 STT 연구를 위한 선행 지식과 학습 로드맵" 에서는 지금까지 실시간 STT를 구현하기 위해 필요한 여러 선행 연구와 개념들을 순차적으로 정리하고자 합니다.1. OpenAI/Whisper 실시간 STT에 적합하지 않다.현재 ASR 분야에서 가장 성능이 뛰어나다고 알려진 모델은 OpenAI의 "Whisper"입니다.Whisper는 CNN과 트랜스포머를 결합한 구조를 가지고 있습니다. 이러한 구조를 가진 Whisper를 일반적으로 적용 가능한 모델로 훈련하기 위해 OpenAI는 다양한 환경과 녹음 설정, 화자, 언어를 포함한 680,000 시간 이상의 레이블 데이터를 수집했습니다. 이를..