[정의]
푸리에 변환(Fourier Transform)은 신호를 주파수 성분으로 변환하는 방법이다.
푸리에 변환에 필요한 기본 개념!
- 시간 영역(Time Domain) : 일반적으로 우리가 보는 신호는 시간에 따라 진폭이 변하는 파형이다.
→ 음성 신호는 시간에 따른 소리의 진폭 변화를 나타냄.
- 주파수 영역(Frequency domain) : 푸리에 변환을 통해 이 신호가 어떤 주파수 성분들로 이루어져 있는지 알 수 있습니다. 주파수 영역에서는 신호가 특정 주파수 성분들의 합으로 표현되며, 각 주파수 성분의 크기와 위상을 볼 수 있습니다.
그럼 푸리에 변환이 무엇을 할까?
푸리에 변환은 복잡한 신호를 여러 개의 정현파(Sine wave로 분해하는 작업을 합니다.
모든 주기적인 신호는 다양한 주파수의 정현파의 합으로 표현할 수 있다는 이론에 기반합니다.
즉, 원래 신호가 어떤 주파수 성분들로 이루어져 있고, 각 성분이 얼마나 강한지 등을 파악할 수 있습니다.
음성 신호로 예를 들어보겠습니다.
우리가 음성 신호를 푸리에 변환하게 된다면 그 신호가 저주파수부터 고주파수까지 다양한 주파수 성분의 결합으로 이루어져 있다는 것을 알 수 있습니다!
푸리에 변환의 수식
푸리에 변환의 수식은 위와 같습니다.
이산 푸리에 변환(Discrete Fourier Transform, DFT)
디지털 신호 처리에서는 DFT를 사용합니다.
실제 신호는 연속적이지 않고 샘플링된 이산 값으로 표현되기 떄문입니다.
DFT의 수식은 다음과 같습니다.
푸리에 변환을 음성 인식에?
실생활에서는 다양한 음성이 존재합니다.
여기서 우리가 찾아내고자 하는 목표 음성과 잡음을 분리 해내는 것이 중요합니다.
이 때, 사용하는 것이 바로 푸리에 변환입니다.
푸리에 변환을 사용하면 이런 복잡한 신호를 구성하는 개별 주파수 성분을 추출할 수 있습니다.
1. 목표 음성 : 음성 신호에서 사람이 말하는 주파수 대역(일반적으로 300~3400Hz)에 해당하는 주파수를 추출합니다.
2. 잡음 제거 : 배경 잡음이나 기타 불필요한 주파수 대역(너무 높거나 너무 낮은 주파수)은 필터링하여 제거합니다.
따라서 음성 인식 기술에서 푸리에 변환은
실생활 (3번째 그래프)의 다양하고 복잡한 음성을 1,2번 그래프 각각처럼 분리해내는 작업에 사용합니다.
'개인 공부(음성인식AI)' 카테고리의 다른 글
Model Adaptation (벡엔드 음성인식 처리 기법) (1) | 2024.11.08 |
---|---|
DNN-HMM(백엔드 음성인식 처리 기법) (0) | 2024.11.08 |
Masking-based Deep Enhancement Methods(마스킹 기반 딥 향상 기법) (2) | 2024.11.05 |
평균 제곱 오차(MSE) 목적 함수𝐽(𝜃)와 스택형 오토인코더(SAE) 계산 (0) | 2024.11.01 |
잡음 환경에서 깨끗한 음성 신호 복원을 위한 매핑 기반 딥러닝 기법과 켑스트럼 영역의 활용 (1) | 2024.11.01 |