음성 데이터 2

[Voice] 음성 데이터 1D Convolution 설명 및 코드

1. 1D convolution vs 2D convolution CNN(Convolutional Neural Networks)과 1D 컨볼루션의 주요 차이점은 컨볼루션 연산이 적용되는 데이터의 차원성에 있습니다. CNN이라는 용어는 일반적으로 이미지와 같은 2차원 데이터 또는 때에 따라서는 3차원 데이터(예를 들어, 컬러 이미지의 경우 높이, 너비, 컬러 채널)를 처리하는 네트워크를 가리키는 데 사용되며, 이러한 경우에 주로 2D 컨볼루션 연산이 사용됩니다. 1D convolution 반면, 1D 컨볼루션은 시간적 데이터나 시퀀스 데이터와 같은 1차원 데이터를 처리하는 데 적합하며, 시계열 분석이나 텍스트 분석 그리고 오디오 처리 같은 분야에서 주로 사용됩니다. 여기에서 1차원이란 단일 차원의 벡터가 아..

DL/Voice 2024.03.12

[Voice] 디지털 신호(음성) 처리 개념 정리

0. 기초 용어 Frequency: 주파수 (높이) Amplitude: 진폭 (세기) Phase: 위상 (맵시) 1. 컴퓨터가 소리를 인식하는 방식 연속적인 아날로그 신호를 표본화(Sampling), 양자화(Quantizing), 부호화(Encoding)을 거쳐 이진 디지털 신호(Binary Digital Signal)로 변화시켜 인식하게 됨 표본화(Sampling) 샘플링 단계에서 초당 샘플링 횟수를 정하는데, 이를 Sampling rate라고 함 “1초에 연속적인 시그널을 몇 개의 숫자로 표한할 것인가?” sampling rate가 클수록 즉, 자주 sampling할 수록 원본 데이터와 비슷할 것 → 그러나 그만큼 저장해야 하는 데이터의 양이 늘어나게 됨 sampling rate가 작게 되면 아래와 ..

DL/Voice 2024.03.12