음성 6

[Voice] 딥러닝 음성 처리 파이썬 실습 - 16K / 8K 비교, 음성 데이터 연산

딥러닝 음성 학습 16K VS 8KAICC를 위한 딥러닝 학습 오디오 데이터 샘플링 레이트로 16K / 8K 중 어떤 것을 사용하는 것이 좋을까요?AICC 음성 모델(VOIP)전화 통화의 주요 목표는 사람의 음성을 명확하게 전달하는 것입니다. 음성 주파수는 일반적으로 300Hz에서 3400Hz 사이에 위치하며, 이는 8kHz 샘플링 레이트로도 충분히 커버할 수 있습니다. 이유Nyquist 이론: 샘플링 레이트가 신호의 최대 주파수보다 최소 두 배 높아야 합니다. 전화 음성 주파수 범위(최대 약 3.4kHz * 2 = 6.8kHz)를 재현하려면 8kHz 샘플링 레이트로도 충분합니다.대역폭 효율성: 낮은 샘플링 레이트는 데이터 양을 줄여 전송 대역폭을 효율적으로 사용합니다. 실시간 서빙이 중요한 AICC에서..

DL/Voice 2024.06.12

[Voice] 디지털 신호(음성) 처리 개념 정리 (3) - 16 Bit, 44.1 kHz / PCM

디지털 판(Bit Depth x Sample Rate)아날로그 신호를 디지털 판에 흡사하게 담아내고자 하였고, 그 X, Y축을 이루는 값이 Bit Depth와 Sample Rate 입니다.Sample Rate는 1초동안 지나가는 신호의 샘플수를 이야기하는데, 1초 길이의 사운드를 얼마나 많은 샘플로 나눌 것인가를 의미합니다. Bit Depth는 Sample Rate로 결정된 각 샘플에 담긴 정보의 양을 의미하는데, 16비트는 2의 16제곱인 65,536개의 서로 다른 정보를 뜻합니다. 즉, 63,535개의 구간이 발생한다는 뜻입니다. 따라서, 16 Bit / 44.1kHz는 아날로그 신호를 1초동안 44,100 x 65,535개의 격자로 이루어진 디지털 판에 담고 있다는 말이 됩니다. WHY? 16Bit..

DL/Voice 2024.06.12

[Voice] 디지털 신호(음성) 처리 개념 정리 (2) - 나이퀴스트 이론 / 앨리어싱 현상

인간의 가청주파수 영역인간의 가청주파수 영역은 일반적으로 20Hz에서 20,000Hz (20kHz) 사이입니다. 나이가 들수록 고주파수에 대한 청력이 감소하는 경향이 있습니다. 어린 아이들은 20kHz까지 들을 수 있지만, 성인은 대개 16kHz 이상은 잘 들을 수 없습니다. 사람은 100~10,000Hz의 주파수 범위를 갖는 목소리를 낼 수 있으며, 회화가 가능한 범위는 200~6,000Hz 영역, 대화가 명료한 범위는 500~2,500Hz 영역이라고 할 수 있다. 그러므로 AICC에 전자기기와 대화가 이뤄지는 AICC의 음성은 8000Hz(8kHz)에서도 충분히 커버가 가능하다. 나이퀴스트 이론 (Nyquist-Shannon)Nyquist-Shannon 이론이란, 신호는 그 신호에 포함된 가장 높은 ..

DL/Voice 2024.06.12

[Voice] 음성 데이터 1D Convolution 설명 및 코드

1. 1D convolution vs 2D convolution CNN(Convolutional Neural Networks)과 1D 컨볼루션의 주요 차이점은 컨볼루션 연산이 적용되는 데이터의 차원성에 있습니다. CNN이라는 용어는 일반적으로 이미지와 같은 2차원 데이터 또는 때에 따라서는 3차원 데이터(예를 들어, 컬러 이미지의 경우 높이, 너비, 컬러 채널)를 처리하는 네트워크를 가리키는 데 사용되며, 이러한 경우에 주로 2D 컨볼루션 연산이 사용됩니다. 1D convolution 반면, 1D 컨볼루션은 시간적 데이터나 시퀀스 데이터와 같은 1차원 데이터를 처리하는 데 적합하며, 시계열 분석이나 텍스트 분석 그리고 오디오 처리 같은 분야에서 주로 사용됩니다. 여기에서 1차원이란 단일 차원의 벡터가 아..

DL/Voice 2024.03.12

[Voice] 디지털 신호(음성) 처리 개념 정리

0. 기초 용어 Frequency: 주파수 (높이) Amplitude: 진폭 (세기) Phase: 위상 (맵시) 1. 컴퓨터가 소리를 인식하는 방식 연속적인 아날로그 신호를 표본화(Sampling), 양자화(Quantizing), 부호화(Encoding)을 거쳐 이진 디지털 신호(Binary Digital Signal)로 변화시켜 인식하게 됨 표본화(Sampling) 샘플링 단계에서 초당 샘플링 횟수를 정하는데, 이를 Sampling rate라고 함 “1초에 연속적인 시그널을 몇 개의 숫자로 표한할 것인가?” sampling rate가 클수록 즉, 자주 sampling할 수록 원본 데이터와 비슷할 것 → 그러나 그만큼 저장해야 하는 데이터의 양이 늘어나게 됨 sampling rate가 작게 되면 아래와 ..

DL/Voice 2024.03.12

[AI Tech] IPCC VS AICC

AICC는 언어처리기술 기반의 지능화된 알고리즘을 기존 인터넷 콜센터(IPCC)에 접목해 소비자의 문제를 해결하거나, 실시간 상담 지원 체계와 업무 자동화를 구현하는 컨택센터를 말합니다. 그렇다면 IPCC와 AICC의 차이점은 무엇일까요? IPCC? IPCC 등장 배경 10 ~ 15년 전, 사용시간 상관없이 동일한 비용을 적용해서 가정마다 통신 비용이 절감할 수 있는 인터넷 전화로 교체되면서 기존에 사용하던 아날로그 형식의 집 전화기가 사라지고 070번호 시작하는 인터넷 전화가 자리를 잡았습니다. 이에 기업에서도 비용 절감을 위해 인터넷 전화를 도입하게 되는데, 기업은 콜센터 규모의 구축을 하다보니 IPCC라는 개념이 탄생하게 됐습니다. IPCC(Internet Protocol Contact Center..

AI Tech 2024.02.13