개인 공부(음성인식AI)

MVDR Beamformer(Minimum Variance Distortionless Response Beamformer)

wannagola 2024. 11. 15. 17:49

이번 게시글에서 다룰 내용은 MVDR Beamformer입니다.

 

MVDR Beamformer 내용을 시작하기에 앞서 빔포밍에 대해 이해가 부족하시다면...

빔포밍에 관한 이야기 : https://wannagola.tistory.com/12

 

이 글을 먼저 읽어보시는 것을 추천드립니다!


 

🤔 : MVDR 빔포머가 뭐예요?

MVDR 빔포머는 특정 방향에서 오는 신호를 그대로 유지하면서, 다른 방향에서 들어오는 잡음이나 간섭 신호의 영향을 최소화 하기 위해 설계된 빔포머입니다.

 

음성 인식과 같은 응용 단계에서, 특정한 사용자의 음성을 증폭하고 주변 잡음을 줄여주는 역할을 한다고 이해하시면 될 것 같습니다.


🤔 : 주요 개념에 대해 설명해주세요

1. 목표 신호의 무왜곡 유지 :

이전 글에서도 언급했듯이, 빔포밍은 특정 방향의 목표 음성을 더 잘 듣기 위함이었습니다.

따라서 MVDR 빔포머는 특정 방향(사용자가 말하는 방향)에서 오는 신호를 그대로 유지하고자 할 것입니다.

 

이 방향의 이득(gain)을 1로 고정하여, 목표 방향에서 들어오는 신호가 왜곡 없이 그대로 출력되도록 합니다.

 

2. 잡음과 간섭의 최소화 : 

목표 신호 방향의 에너지는 유지하면서, 다른 방향에서의 에너지를 최소화 합니다.

따라서, 목표 신호만 선명하게 남고 주변 잡음이 줄어들어, 음성 인식 시스템에서 더 정확한 인식을 가능하게 합니다.


🗒️MVDR 빔포머의 수학적 원리 알아보기

작동 방식 설명:

1. 목표 신호의 모델링 : 

빔포머에 들어오는 신호를 목표신호와 잡음 및 간섭 신호로 분리하여 모델링합니다.

 

여기서 Y(n)은 관찰된 신호를, S(n)은 목표 신호를, A(n)은 잡음 및 간섭 신호를 나타냅니다.

 

2. 목표 최적화 문제 설정 : 

MVDR 빔포머는 주파수 영역에서 작동하며, 목표 신호 방향의 이득을 1로 유지하면서 전체 에너지를 최소화 하려고 합니다.

최적화 문제 설정

 

여기서 w는  빔포머의 가중치 벡터이며, 이 벡터가 주어진 조건을 만족하도록 최적화됩니다.

R_vv는 잡음 및 간섭의 공분산 행렬, d는 목표 신호 방향을 나타내는 벡터입니다.

 

조건식 w^H * d = 1은 목표 신호의 왜곡 없는 통과를 보장하는 조건입니다.

 

3. 최적화 해 :

위 최적화 문제의 해는 다음과 같이 계산됩니다.

최적화 문제의 해 계산식

 

 

이 가중치 벡터 w_MBDR를 사용하여 입력 신호를 가중합하면, 목표 방향에서 오는 신호는 그대로 유지하고 다른 방향에서 오는 잡음은 최소화할 수 있습니다.


🤔 : MVDR 빔포머의 장점/한계점이 궁금해요

 

우선, MVDR 빔포밍의 장점부터 설명 드리면, 크게 두가지 정도로 볼 수 있습니다.


1. 목표 신호 유지 : 
목표 방향에서 오는 신호를 왜곡 없이 유지하므로, 음성 인식에서 목표 음성을 깨끗한 상태로 보존할 수 있습니다.


2. 잡음 억제 : 목표 신호 이외의 방향에서 오는 잡음과 간섭 신호를 효과적으로 억제할 수 있어, 잡음이 많은 환경에서도 성능이 좋습니다.

 

그럼 어떤 한계점이 있을까요?

 

1. 잡음의 통계적 정보 필요 : 잡음 및 간섭 신호의 공분산 행렬을 필요로 하는데, 이 정보를 얻기 위해선 잡음이 포함된 데이터가 충분히 필요하며, 이는 실시간 처리를 어렵게 만들 수 있습니다.

 

2. 신호 방향 추정의 정확도에 의존 : 목표 신호의 방향이 잘못 설정되면, 성능이 떨어질 수 있습니다. 또한, 목표 방향이 정확히 추정되지 않으면 원하는 신호를 제대로 유지하지 못하고 잡음 억제도 효과적이지 않을 수 있습니다.


쉽게 이해할 수 있도록 그림과 함께 예시를 들어보겠습니다!

시끄러운 카페에서 alice가 hi! 하고 했습니다.
MVDR 빔포밍은 사용자의 목소리를 목표 신호의 방향으로 설정하고 카페 잡음은 다른 방향에서 들어오는 신호로 간주합니다.

 

MVDR 빔포밍을 통해 음성 신호는 깔끔하게 유지된 형태로 전달되고, 잡음은 최대한 줄일 수 있습니다.

 

이렇게 MVDR 빔포밍에 대해 오늘 알아봤습니다.

듣고자 하는 것은 최대한 깔끔하게, 잡음은 최대한 작게 만드는 것이 중요합니다.

 

끝!