개인 공부(음성인식AI)

Beamforming(빔포밍)

wannagola 2024. 11. 15. 15:37

음성 인식을 할 때 중요한 요소가 뭐가 있을까요?

 

맞습니다. 듣고 싶은 음성을 더 정확하고 깨끗하게 듣고, 소음 등 노이즈는 최소화하는 것이 성능을 향상 시키기 위해 중요합니다.

 

오늘 설명해드릴 주제는 Beamforming(빔포밍)입니다.

 

🤔 : 빔포머란?

 

빔포머는 여러개의 마이크로폰 또는 안테나 배열을 이용하여 "특정" 방향에서 오는 신호를 집중적으로 수신하고,

다른 방향에서 오는 신호(주로 잡음 또는 간섭)를 억제하는 기술로 특정 방향의 소리를 강화하고 원하지 않는 방향의 소리를 줄이는 데 효과적이다.

 

🤔 : 빔포밍 방식에는 어떤 것이 있나요?

지연-합 빔포밍과 적응형 빔포밍 등 여러 방식이 있습니다.

 

첫 번째로 살펴 볼 방식은 지연-합 방식입니다.


1. 지연-합 빔포밍(Delay-and-Sum Beamforming)

이 방식은 가장 단순한 형태의 빔포밍이라고 볼 수 있습니다.

 

목표 방향에서 오는 소리를 증폭하기 위해 신호에 고정된 시간 지연을 적용하고 지연된 신호를 합산하여 특정 방향의 신호를 증폭합니다.

 

[기본 원리]

1. 마이크로폰 배열 : 

여러 개의 마이크로폰이 일정한 간격을 두고 배열되어 있습니다.

예를 들어, 철수랑 민지가 서로 다른 방향에서 얘기하고 있다고 가정하면,

민지가 말하는 음성 신호가 각 마이크로폰에 도달하는 시간이 다소 차이가 있을 것입니다.

아래 사진 기준으로 민지의 음성이 목표 음성, 철수의 음성이 noise라고 가정해봅시다.

2. 목표 방향의 신호 정렬(지연 조정) :

특정 목표 방향을 설정하고, 그 방향에서 들어오는 신호가 모든 마이크로폰에 동시에 도달한 것처럼 신호를 시간적으로 조정합니다.

예를 들어, 목표 음성 신호가 마이크 1에 먼저 도달한 뒤 마이크 4에 도달한다고 하면

마이크 1에 들어오는 음성 신호와 마이크 4에 들어오는 음성 신호의 들어오는 시간이 같게 만드는 것입니다.

 

 

3. 신호 합산 :

2번에서 시간적으로 맞춘 신호들을 합산하는 단계입니다. 이 과정에서 목표 방향의 신호는 더 강해지고,

다른 방향에서 들어온 신호는 상쇄 됩니다.

동일한 시간에 맞처 합산되기 때문에 목표 방향의 신호가 더 크게 강화 됩니다.

 

 

🤔 : 지연-합 빔포밍의 장단점에 대해 알고 싶어요!

- 장점 : 

    -  구현이 간단하고, 특정 방향의 소리만 증폭하는 데 효과적입니다.

    - 계산 비용이 비교적으로 낮아 다양한 분야에 적용할 수 있습니다.

- 단점 :

    - 고정된 지연값을 사용하기 때문에, 목표 방향이 바뀌거나 동적 환경에 놓이게 된다면 적응성이 떨어집니다.

    - 여러 방향의 소리를 동시에 인식해야하는 경우에는 적합하지 않을 수 있습니다.


2. 적응형 빔포밍(Adaptive Beamforming)

지연-합 빔포밍보다 훨씬 더 복잡하며, 신호의 방향에 따라 가중치를 동적으로 조정하여 특정 방향의 신호를 더욱 효과적으로 추춯나는 방법입니다.

 

잡음이나 간섭 신호가 있는 환경에서도 목표 신호를 더 선명하게 분리하는 데 강점이 있습니다.

 

[기본 원리]

1. 가중치 조정 : 

각 마이크로폰에 적용하는 가중치를 실시간으로 조정합니다.

 

예를 들어, 목표 방향에서 들어오는 신호에는 높은 가중치를 주고, 이외의 방향에서 들어오는 신호에는 낮은 가중치를 부여하여 신호를 증폭하거나 억제할 수 있습니다.

 

2. 목표 신호 강화, 잡음 최소화 :

목표 방향에서 들어오는 신호의 gain을 최대 상태로 유지하고, 이와 동시에 잡음이나 간섭 방향의 에너지는 최소화 하도록 조정합니다.

 

3. 통계적 정보 활용 :

적응형 빔포밍은 환경에서 수집한 잡음과 간섭 신호의 "통계적 특성"을 활용합니다.

이러한 통계적 정보를 바탕으로 가중치를 조정하여 잡음을 억제하고 목표 신호를 증폭합니다.

 


🤔 : 적응형 빔포밍의 장단점에 대해 알고 싶어요!

- 장점 : 

    - 실시간으로 가중치를 조정하므로, 환경 변화나 잡음 조건 변화에 빠르게 대응할 수 있습니다.

    - 복잡한 환경에서 목표 신호의 선명도 유지 가능합니다.

 

- 단점 :

    - 실시간으로 환경에 따라 가중치를 조정해야 하기 떄문에, 계산 비용이 높고 복잡한 연산이 필요합니다.

    충분한 잡음 데이터를 필요로 합니다. 따라서 실시간으로 잡음 환경을 모델링하는 데 어려움이 발생할 수 있습니다.

    목표 방향이 정확하게 정해지지 않으면, 가중치 조정이 효과적이지 않고 오히려 목표 신호가 약해지는 악영향을 초래

      할 수 있습니다.

 

이러한 빔포밍 기술은 현재 다양한 산업에 많이 적용되고 있으며, 특히 음성 인식 분야에 많이 적용되고 있습니다.

 

읽어주셔서 감사합니다.