음성인식 9

MVDR Beamformer(Minimum Variance Distortionless Response Beamformer)

이번 게시글에서 다룰 내용은 MVDR Beamformer입니다. MVDR Beamformer 내용을 시작하기에 앞서 빔포밍에 대해 이해가 부족하시다면...빔포밍에 관한 이야기 : https://wannagola.tistory.com/12 이 글을 먼저 읽어보시는 것을 추천드립니다! 🤔 : MVDR 빔포머가 뭐예요?MVDR 빔포머는 특정 방향에서 오는 신호를 그대로 유지하면서, 다른 방향에서 들어오는 잡음이나 간섭 신호의 영향을 최소화 하기 위해 설계된 빔포머입니다. 음성 인식과 같은 응용 단계에서, 특정한 사용자의 음성을 증폭하고 주변 잡음을 줄여주는 역할을 한다고 이해하시면 될 것 같습니다.🤔 : 주요 개념에 대해 설명해주세요1. 목표 신호의 무왜곡 유지 :이전 글에서도 언급했듯이, 빔포밍은 특정 ..

Beamforming(빔포밍)

음성 인식을 할 때 중요한 요소가 뭐가 있을까요? 맞습니다. 듣고 싶은 음성을 더 정확하고 깨끗하게 듣고, 소음 등 노이즈는 최소화하는 것이 성능을 향상 시키기 위해 중요합니다. 오늘 설명해드릴 주제는 Beamforming(빔포밍)입니다. 🤔 : 빔포머란? 빔포머는 여러개의 마이크로폰 또는 안테나 배열을 이용하여 "특정" 방향에서 오는 신호를 집중적으로 수신하고,다른 방향에서 오는 신호(주로 잡음 또는 간섭)를 억제하는 기술로 특정 방향의 소리를 강화하고 원하지 않는 방향의 소리를 줄이는 데 효과적이다. 🤔 : 빔포밍 방식에는 어떤 것이 있나요?지연-합 빔포밍과 적응형 빔포밍 등 여러 방식이 있습니다. 첫 번째로 살펴 볼 방식은 지연-합 방식입니다.1. 지연-합 빔포밍(Delay-and-Sum Bea..

Joint Training(조인트 트레이닝)

이번에 설명해드릴 음성 인식 시스템에서 자주 사용되는 방식은 Joint Training입니다. 🤔  : Joint Training이란?두 개 이상의 모델을 함께 학습하여, 서로의 정보를 공유하고 최적화 하는 방법입니다.보통 잡음 제거와 음성 인식을 동시에 수행할 때 사용됩니다. - 병렬 학습 : 프론트엔드 모델과 백엔드 모델을 병렬로 학습합니다. 프론트엔드는 음성 신호를 정제하거나 잡음을 잡아주는 역할을 하고, 백엔드는 정제된 음성을 바탕으로 텍스트로 변환하는 음성 인식 작업을 수행합니다.- 상호 정보 공유 : 두 모델이 학습 과정에서 서로 정보를 주고받아 더 좋은 결과를 내는 것입니다. 프론트엔드에서 정제해주면 백엔드가 정제된 걸 쓰고, 백엔드에서 인식된 정보를 다시 프론트엔드가 피드백하고.- 공동 ..

Multi-Task Learning(DNN & LSTM-RNN)

Deep Learning for Environmentally Robust Speech Recognition: An Overview of Recent Developments( Z. Zhang, J. Geiger, A. E. Moussa, B. Schuller) 내용 중 Multi-Task Learning의 개념이 나옵니다. 오늘은 이 기법에 대해서 설명해드리고자 합니다. 우선 Multi-Task Learning 즉, 멀티태스크 학습은 DNN(Deep Neural Network)과 LSTM-RNN(Long Short-Term Memory - Recurrent Neural Network)을 결합하여 두 가지 작업을 동시에 수행하도록 신경망을 설계하는 방식입니다.Multi-Task Learning에서의 작업 1..

세논 분류(Senone Classification)

지금까지 제가 작성한 글을 보면 음소(Phoneme) 단위라는 말이 나왔습니다.🤔: 그럼 세논(Senone)은 무엇일까요?세논은 음소를 더 작은 단위로 세분화한 개념입니다!* 음소 → 언어에서 의미를 구별해주는 최소의 소리 단위 음성 인식 시스템에서 단어를 인식하기위해 각 음소가 구체적으로 어떤 발음을 갖는지세밀하게 더 자세하게 구분할 필요가 있습니다. 이를 위해 음소를 HMM의 상태(state)로 표현할 때, 각 상태의 구체적인 분포를 세논이라고 합니다!예를 들면,"cat" 이라는 단어의 발음은 세 개의 음소 "k" , "ae" , "t" 로 구성됩니다.근데 여기서 더 나아가서각 음소는 또 다른 세부적인 소리 패턴을 가지고 있습니다.이 소리 패턴을 구체적으로 표현한 것이! 바로 ~ 세논입니다.🤔 :..

NAT / i-vector와 동적 NAT (백엔드 음성인식 처리 기법)

NAT는 Noise-Aware Training의 약자로 잡음 인식 학습을 의미합니다. NAT는 모델이 학습하는 과정에서 잡음 정보를 함께 학습합니다. 즉, 모델이 단순히 음성 신호만 모델이 보는 것이 아니라 해당 음성에 포함된 잡음 정보까지 고려하여 학습하는 것입니다.NAT의 작동 원리음성 데이터 외에 잡음 데이터(혹은 잡음 추정치)를 추가 입력으로 제공합니다.모델은 음성 신호와 잡음 신호 간의 관계를 학습하게 됩니다.그 결과 잡음 속에서도 잡음과 타겟 음성을 구별하여 더 정확한 음성을 인식할 수 있게 됩니다. 예를 들어, 저희가 학습한 음성 인식 모델이 조용한 연구실 환경에서 학습 시켰다고 가정해봅시다.그렇다면 시끄러운 카페에서 또는 거리에서 정확한 음성 인식이 어려울 수 있습니다. 🪴 온실 속 화초..

Model Adaptation (벡엔드 음성인식 처리 기법)

오늘 설명해드릴 내용은 음성 인식 백엔드 기법인 Model Adaptation, 직역하면 모델 적응 기법입니다. 음성 인식 모델을 새로운 환경이나 조건에 맞추어 맞춤형으로 조정하여 성능을 높이는 기법을 의미합니다.이 기법은 다양한 잡음 환경 또는 특정 사용자의 목소리의 특성에 모델이 더 잘 적응하도록 하기 위해 사용됩니다.🤔 : 모델 적응 기법에는 어떤 것들이 있나요? 일단 크게 두 가지로 분류할 수 있습니다. 첫 번째! 바로 파라미터 조정입니다.  모델 적응 기법에서 가장 흔히 사용되는 방식 중 하나는 기존 모델의 특정 파라미터를 조정해서 새로운 환경에 적응시키는 방법입니다. - 미세 조정(Fine-Tuning)기존 모델에서 특정 파라미터만 조정하는 방식입니다. 예를 들어, 음성 신호의 특정 주파수 ..

DNN-HMM(백엔드 음성인식 처리 기법)

음성 인식에서 백엔드 기법은 모델 자체가 잡음이 있는 음성을 직접 학습하여,잡음 속에서 목표 음성을 인식하는 데 중점을 둔다고 할 수 있습니다. 그 중, 가장 널리 알려져 있는 DNN-HMM기법에 대해서 설명해보겠습니다.DNN-HMM결합 기법이란?Deep Neural Network (DNN) + Hidden Markov Model(HMM)위 두 가지가 결합하여 음성 인식에서 강력한 성능을 발휘하는 기법이라고 볼 수 있습니다.  🤔 : 각자의 역할이 궁금하시다고요?DNN(Deep Neural Network)의 역할- DNN은 다양한 패턴을 학습하는 데 뛰어나며, 음성에서 음소나 단어의 특징을 인식하는 데 있어 효과적입니다.- DNN은 음성 신호를 분석하여, 현재 들어온 음성이 어떤 음소에 해당하는지 예측..

Masking-based Deep Enhancement Methods(마스킹 기반 딥 향상 기법)

Masking-based Deeep Enhancement Methods(마스킹 기반 딥 향상 기법)은 음성 신호 처리 중잡음이 섞여있는 신호에서 깨끗한 목표 음성을 추출하기 위해 고안된 기법입니다. 이 기법은 신경망을 사용하여 잡음이 있는 음성 신호에서 깨끗한 신호를 걸러내는 과정을 돕습니다. 그럼 여기서 궁금하실 부분이 있을 겁니다.  🤔 : "마스킹이 뭔데?" 마스킹(Masking)마스킹이란, 잡음이 있는 신호에서 특정 부분을 선택적으로 강조하거나 또는 약화시키는 방법을 의미합니다. 쉽게 설명해보면,마스크! 우리가 쓰는 마스크를 통해서 얼굴의 특정 부분을 가리고 또 특정 부분을 남겨두죠?같은 원리로,필요없는 부분(=잡음)을 가리고, 필요한 부분(=목표 음성)은 남겨두는 작업이라고 할 수 있습니다.마..