KR20120128542A - 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 - Google Patents
멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 Download PDFInfo
- Publication number
- KR20120128542A KR20120128542A KR1020120023604A KR20120023604A KR20120128542A KR 20120128542 A KR20120128542 A KR 20120128542A KR 1020120023604 A KR1020120023604 A KR 1020120023604A KR 20120023604 A KR20120023604 A KR 20120023604A KR 20120128542 A KR20120128542 A KR 20120128542A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- channel
- channel audio
- frame
- correlation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 79
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000002596 correlated effect Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
멀티-채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치에 관한 것이며, 본 발명의 일 실시 예는 멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정, 콘텐트가 변경될 때마다 상기 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 값과 고유 벡터를 분석하는 과정, 분석된 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 채널간 비-상관을 나타내는 복수 개 신호 성분 공간들로 분리하는 과정을 포함한다.
Description
본 발명은 멀티-채널 에코 제거 기술에 관한 것이며, 특히 멀티-채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치에 관한 것이다.
음성 신호를 이용하여 각종 기계를 제어하는 음성 인식 기술이 발달하고 있다. 음성 인식 기술은 하드웨어 또는 소프트웨어 장치나 시스템이 음성 신호를 입력으로 하여 언어적 의미 내용을 인식하고 그에 따른 동작을 수행하는 기술을 말한다.
한편, 멀티 채널 에코 제거 기술(MCSC: Multi-channel acoustic echo cancellation)은 멀티 채널 마이크로폰과 스피커를 사용하는 영상 통화 시스템 및 음성 인식 시스템에 널리 이용되고 있다.
통상적으로 영상 통화 시스템 또는 음성 인식 시스템의 스피커에서 출력된 신호는 물체 등에 부딪혀 반사된 후 다시 마이크로폰에 재 입력된다. 또한 음성 인식 시스템의 예를 들면, 스피커에서 출력된 신호는 사용자의 음성 신호와 섞여 음성 인식을 오동작 하게 한다.
영상 통화 시스템 또는 음성 인식 시스템은 다수 개 스피커로 동시에 출력되는 채널 신호간에 상관도가 높기 때문에 멀티 채널 에코 필터가 수렴하지 않고 발산하게 되므로 오 동작하거나 음질 왜곡을 초래한다.
따라서, 다수의 스피커로 출력되는 신호간에 상관도를 낮추는 멀티 채널 비-상관 기술이 요구되고 있다.
그러나 종래의 비-상관성 방식은 방송 신호의 채널간 상관성을 줄이기 위해 스피커 출력 전에 임의의 신호를 섞어주거나 변형을 가하고 있다.
이러한 종래의 비-상관성 방식은 주파수에 따라서 위상이 변형되거나 잡음이 섞여 사용자가 청각적으로 음질 왜곡을 인지할 수 있는 문제점이 있다.
본 발명이 해결 하고자 하는 과제는 멀티 채널간에 상관도를 낮추어 마이크로폰으로 재 입력되는 다 채널 에코 성분을 제거하는 멀티 채널 비-상관 처리 방법 및 장치를 제공하는 데 있다.
상기의 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 멀티 채널 비-상관 처리 방법에 있어서,
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정;
콘텐트가 변경될 때마다 상기 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 값과 고유 벡터를 분석하는 과정;
상기 분석된 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 채널간 비-상관을 나타내는 복수 개 신호 성분 공간들로 분리하는 과정을 포함한다.
상기 멀티 채널 오디오 신호들로 분할하는 과정은,
상기 생성된 소정 프레임의 오디오 신호의 에너지를 구하고,
상기 구해진 프레임의 오디오 신호의 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 선택하는 과정을 더 구비하는 것을 특징으로 한다.
상기 고유 값과 고유 벡터를 분석하는 과정은, 상기 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 이용하여 고유 값과 고유 벡터를 계산하는 것임을 특징으로 한다.
상기 고유 값과 고유 벡터는 고유값 분해(Eigen-Value Decomposition)를 수행하여 계산되는 것임을 특징으로 한다.
상기 고유값과 고유 벡터값은 공간의 크기와 방향임을 특징으로 한다.
상기 고유 값과 고유 벡터를 분석하는 과정은,
입력 신호의 채널간 상관 값을 나타내는 Covariance 매트릭스를 구하는 과정;
상기 Covariance 매트릭스를 고유값 분해를 통해 고유 벡터들을 포함한 고유벡터행렬과 고유 값들을 포함한 고유값 행렬로 연산하는 과정을 구비하는 것을 특징으로 한다.
상기 복수 개 신호 성분 공간들로 분리하는 과정은
상기 콘텐츠가 변경되면 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 변경된 콘텐츠의 고유 값과 고유 벡터를 획득하고,
상기 콘텐츠가 변경되지 않으면 기존의 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간으로 분리하는 것임을 특징으로 한다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 멀티 채널 비-상관 처리 장치에 있어서,
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 윈도윙부;
콘텐츠가 변경될 때마다 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 프레임 단위의 멀티 채널 오디오 신호로부터 복수개의 신호 성분 공간들을 분석하는 성분 공간 분석부;
상기 복수개의 신호 성분 공간들을 이용하여 프레임 단위의 멀티 채널 오디오 신호들에 대해 복수개 신호 성분 공간들로 분리하는 프로젝션부를 포함한다.
상기의 또 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 멀티-채널 에코 제거 장치에 있어서,
소정 프레임 단위의 멀티 채널 오디오 신호에 대해 비-상관 매트릭스를 이용하여 복수개 신호 성분 공간들로 분리된 채널간 비-상관 신호로 변환하는 비-상관 처리부;
상기 비-상관 처리부에서 변환된 채널간 비-상관 신호를 이용하여 마이크로폰에서 집음된 음성 신호로부터 에코 성분을 제거하는 에코 제거부를 포함한다.
도 1은 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 장치의 블록도이다.
도 2는 도 1의 윈도윙부의 내부 블록도이다.
도 3은 도 1의 성분 공간 분석부의 내부 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 방법을 보이는 흐름도 이다.
도 5는 멀티 채널 오디오 신호로부터 프레임 신호들을 생성하는 일 실시 예 이다.
도 6은 프레임 신호로부터 획득된 신호 성분 공간을 보이는 도면이다.
도 7은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 음성 인식 시스템의 일 실시 예이다.
도 8은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 통화 시스템의 일 실시 예이다.
도 2는 도 1의 윈도윙부의 내부 블록도이다.
도 3은 도 1의 성분 공간 분석부의 내부 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 방법을 보이는 흐름도 이다.
도 5는 멀티 채널 오디오 신호로부터 프레임 신호들을 생성하는 일 실시 예 이다.
도 6은 프레임 신호로부터 획득된 신호 성분 공간을 보이는 도면이다.
도 7은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 음성 인식 시스템의 일 실시 예이다.
도 8은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 통화 시스템의 일 실시 예이다.
이하 첨부된 도면을 참조로 하여 본 발명의 바람직한 실시 예를 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 장치의 블록도이다.
도 1의 비-상관 처리 장치는 윈도윙(windowing)부(110), 성분 공간 분석부(120), 프로젝션부(130)를 포함한다.
윈도윙부(110)는 입력되는 멀티 채널의 오디오 신호(x1....xn)를 소정 프레임 단위의 멀티 채널 오디오 신호들로 분할한다. 본 발명의 일 실시 예에 따르면, 소정 프레임 단위는 30ms 단위일 수 있다. 윈도윙부(110)는 멀티 채널의 입력 신호를 프레임 단위로 나누어 프레임 신호들을 생성한다.
본 발명의 실시 예에 따르면, 윈도윙부(110)는 프레임 신호의 에너지를 구하고, 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호를 선택할 수 있다.
성분 공간 분석부(120)는 콘텐츠가 변경될 때마다 윈도윙부(110)에서 생성된 소정 프레임 단위의 멀티 채널 오디오 신호로부터 복수 개의 신호 성분 공간들을 분석한다. 일 실시 예로, 복수 개의 신호 성분 공간들은 음성 성분 공간, 음악 성분 공간, 방송 성분 공간등이 될 수 있다.
프로젝션부(130)는 소정 프레임 단위의 멀티 채널 오디오 신호에 성분 공간 분석부(120)에서 분석된 복수개의 신호 성분 공간들을 투영하여 복수개의 신호 성분 공간들로 분리한다.
결국, 프로젝션부(130)는 소정 프레임 단위의 멀티 채널 오디오 신호를 복수개 신호 성분 공간들을 분리함으로써 상관된 멀티 채널 오디오 신호를 비-상관된 멀티 채널 오디오 신호(y1....yn)로 변환한다.
도 2는 도 1의 윈도윙부(110)의 내부 블록도이다.
도 2의 윈도윙부(110)는 신호 분리부(210) 및 신호 검출부(220)를 구비한다.
신호 분리부(210)는 입력되는 멀티 채널의 오디오 신호(IN)를 소정 프레임 단위의 멀티 채널 오디오 신호들로 분리하여 프레임 신호를 생성한다.
신호 검출부(220)는 신호 분리부(210)에서 생성된 프레임 신호의 에너지 값을 기준치와 비교하여 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호(OUT)를 검출한다. 예컨대, i 번째 프레임 신호를 X(t)라고 할 때, 신호 검출부(220)는 ∥Xi(t)∥2를 구하고, ∥Xi(t)∥2 값이 기 설정된 기준치를 넘는지를 판단한다. 신호 검출부(220)는 ∥Xi(t)∥2이 기 설정된 기준치보다 크거나 같은 경우, 프레임 신호 Xi(t)를 성분 공간 분석부(120)로 전송한다.
한편, 프레임 신호의 에너지 값이 기준치 이상이 아닌 경우, 프레임 신호를 무음으로 판단하고, 그 프레임에 대한 신호 처리를 생략할 수 있다.
도 3은 도 1의 성분 공간 분석부(120)의 내부 블록도이다.
도 3의 성분 공간 분석부(120)는 고유값 분석부(310) 및 성분 공간 계산부(320)를 구비한다.
고유값 분석부(310)는 소정 프레임 단위의 멀티 채널 오디오 신호를 이용하여 고유값과 고유 벡터값을 분석한다. 이때 고유값과 고유 벡터값은 각각 성분 공간의 크기와 성분 공간의 방향을 나타낸다.
성분 공간 계산부(320)는 고유값 분석부(310)에서 분석된 고유값과 고유 벡터값에 따라 복수 개의 신호 성분 공간들을 계산한다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 방법을 보이는 흐름도 이다.
먼저, 스피커로 출력되기 전 멀티 채널의 오디오 신호(x1....xn)를 입력한다(410 과정).
이어서, 입력되는 멀티 채널의 입력 오디오 신호(x1....xn)를 소정 프레임 단위로 분할하여 프레임 단위의 멀티 채널 오디오 신호를 생성한다(420 과정).
도 5에 도시된 일 실시 예에 따르면, 소정 프레임 단위는 멀티 채널 오디오 신호에 대해 30ms 로 분할될 수 있다. 또한 프레임 신호의 에너지를 구한 후 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호만을 취한다.
이어서, 콘텐츠가 변경될 때 마다 신호 성분 공간을 계산하기 위해 콘텐츠가 변경되었는가를 체크한다(430 과정). 일 실시예로 마이크로 프로세서(도시 안됨)는 TV의 채널이나 프로그램이 변경되면 콘텐츠가 변경되는 것을 의미하는 제어 신호를 생성한다.
이때 콘텐츠 변경이면, 입력되는 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)을 구한다(440 과정). 일 실시예로 소정 프레임 단위는 도 5에 도시된 바와 같이 멀티 채널 오디오 신호의 5개의 프레임(30ms x 5 = 160ms)을 이용할 수 있으나, 이에 한정하지 않는다.
또한 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)은 공간 크기 및 공간 방향을 나타내며, EVD(Eigen-Value Decomposition:고유값 분해)를 이용하여 구해지나, 이에 한정되지 않는다.
EVD를 이용하여 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)을 구하는 일 실시 예를 설명하면,
입력 신호의 Covariance 매트릭스(Rxx)를 구한다. Covariance 매트릭스는 채널간의 상관 값을 표현한다.
Covariance 매트릭스(Rxx)는 수학식 1과 같이 나타낼 수 있다.
[수학 식 1]
이어서, Covariance 매트릭스(Rxx)는 수학 식2와 같이 EVD를 이용해 고유 벡터들을 포함한 고유벡터행렬과 고유 값들을 포함한 고유값 행렬로 연산된다.
[수학 식 2]
이어서, 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)에 따라 복수개의 신호 성분 공간들을 획득한다(450 과정).
예를 들면, 도 6에 도시된 바와 같이 고유값()과 고유벡터(v)를 갖는 제1성분 공간( 1, v1)(610), 제2성분 공간( 2,v2)(620) ......제n성분 공간들로 계산된다. 이때 각 성분 공간의 벡터값(v)들은 서로 직각이다. 또한 채널 개수에 따라서 성분 공간의 개수들이 형성된다.
이때 복수개의 성분 공간들은 수학 식 3과 같이 채널간 비- 상관된 신호를 나타내는 비-상관 매트릭스(W)로 표현된다.
[수학 식 3]
이어서, 복수개의 신호 성분 공간을 이용하여 입력되는 소정 프레임 단위의 멀티 채널 오디오 신호는 복수개 신호 성분 공간들로 분리된다(460 과정). 일 실시 예로, 복수 개의 신호 성분 공간들은 음성 성분 공간, 음악 성분 공간, 방송 성분 공간등이 될 수 있다.
복수개의 성분 공간들로 분리된 프레임 신호는 비- 상관된 신호에 해당된다.
다시 말하면, 출력되는 멀티 채널 오디오 신호 (y) 는 수학식 4와 같이 표현된다.
[수학 식 4]
한편, 콘텐츠 변경이 아니면 소정 프레임 단위의 멀티 채널의 오디오 신호를 채널간 비-상관된 신호로 나타내는 복수개의 성분 공간들로 분리한다.
결국, 본 발명의 일 실시 예에 따르면 입력 신호에 임의의 신호를 섞어 주거나 주파수 성분에 위상 변형을 가하지 않고 입력 신호의 채널간 상관 매트릭스를 채널간 비-상관 매트릭스로 변환시켜 입력 신호를 비-상관된 신호로 변환한다.
특히, 본 발명은 AEC의 전단에서 비-상관 처리를 수행함으로써 DTV의 방송 신호를 제어할 필요가 없고 또한 스피커의 출력음을 어떠한 변형 없이 그대로 출력함으로써 음질이 왜곡되지 않는다.
또한 본 발명은 채널간에 유사도가 적은 신호에 대해서 비-상관 정도를 적게 하고, 채널간에 유사도가 높은 신호에 대해서 비-상관 정도를 많이 함으로써 적응적인 비-상관을 수행한다.
도 7은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 음성 인식 시스템의 일 실시 예이다.
먼저, 신호 처리부(710)는 각종 동작 기능을 제어하고 멀티 채널의 오디오 신호를 처리하여 출력한다. 신호 처리부(710)는 본 발명의 쉬운 이해를 위해 제어 모듈(712)과 앰프부(714)만을 기재한다.
앰프부(714)는 멀티 채널의 오디오 신호(x1 ....x2)를 멀티 채널의 스피커들(701, 702)로 출력한다.
앰프부(714)에서 출력되는 멀티 채널의 오디오 신호는 그대로 멀티 채널의 스피커들(701, 702)로 전달되고, 동시에 비-상관 처리부(720)로 전달된다.
비-상관 처리부(720)는 멀티 채널 오디오 신호에 대해 복수개의 신호 공간 성분으로 분리하여 비-상관 처리한다. 이때 비-상관 처리부(720)는 도 1 - 도 3과 동일하므로 설명을 생략한다.
에코 제거부(730)는 비-상관 처리부(720)에서 비-상관된 멀티 채널 오디오 신호를 이용하여 복수개 마이크로폰들(751, 752)로 재 입력된 다 채널 에코 성분을 제거하고 화자의 음성 신호만을 검출한다.
에코 제거부(730)를 더 상세히 설명하면, 비-상관 처리부(720)에서 출력되는 n개 채널의 비-상관 오디오 신호는 n개의 적응 필터들(AP1....APn)(732, 734)을 통해 필터링 된다. 다시 말하면, n개의 적응 필터들(AP1....APn)(732, 734)은 비-상관된 멀티 채널의 오디오 신호 및 차감기들(735, 736)의 출력 신호(이전의 에코가 제거된 신호)를 이용하여 n개의 마이크로폰들(751,752)에서 집음 된 스피커의 출력 신호를 추정한다. 그 추정된 출력 신호가 에코 신호에 해당된다.
n개의 적응 필터들(AP1....APn)(732, 734)에서 필터링된 n개 채널의 비-상관 오디오 신호는 차감기들(735, 736)에서 각각 n개 마이크로폰들(751, 752)의 신호와 차감된다. 다시 말하면, 차감기들(735, 736)은 추출된 에코 신호에다 마이크로폰에 집음 된 신호를 차감하여 화자의 음성 신호만을 추출한다.
음성 인식 처리부(740)는 에코 제거부(730)에서 에코 성분이 제거된 음성 신호를 이용하여 음성 인식을 처리한다. 이때 음성 인식 처리부(740)는 빔 포밍(beam forming)부(742), 웨이크-업(wake-up)부(744), 음성 인식부(746)를 포함한다.
음성 인식 처리부(740)를 더 상세히 설명하면 빔 포밍부(742)는 에코 제거부(730)에서 에코가 제거된 음성 신호로부터 정해진 방향 이외의 잡음을 제거하기 위해 빔 포밍을 수행한다.
웨이크-업부(744)는 빔 포밍된 음성 신호로부터 정해진 명령 키워드를 추출하고 음성 인식 온 신호를 생성한다. 웨이크-업부(744)는 빔 포밍 된 음성 신호로부터 정해진 명령 키워드가 존재할 때만 음성 인식 온 신호를 출력한다. 스위치(SW1)는 웨이크-업부(744)에서 생성된 온/오프 신호를 이용하여 음성 인식부(746)를 활성화/비 활성화한다.
음성 인식부(746)는 웨이크-업부(744)의 온/오프 신호에 따라 빔포밍부(742)에서 출력되는 명령 키워드를 인식한다.
제어 모듈부(712)는 음성 인식부(746)에서 인식된 명령에 따라 각종 동작 기능을 제어한다.
따라서, 본 발명의 실시예에 따르면, 앰프부(714)에서 출력되는 신호는 왜곡하지 않고 그대로 스피커들(701, 702)로 보내고, 동시에 에코 제거부(730)의 전단에서 전-처리로써 비-상관 처리된다.
도 8은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 통화 시스템의 일 실시 예이다.
먼저, 전송실(810)은 두 개의 마이크로폰(812, 814)을 통해 화자의 음성을 수신하고, 수신된 화자의 음성을 신호 처리 모듈(820)을 통해 수신실(830)의 두 개의 스피커(832, 834)로 출력한다. 신호 처리 모듈(820)은 동작의 이해를 쉽게 하기 위해 구성 모듈은 생략하고 라인으로만 표시한다.
비-상관 처리부(840)는 두 채널의 오디오 신호에 대해 적어도 하나의 신호 공간 성분들로 분리하여 비-상관 처리한다. 이때 비-상관 처리부(840)는 도 1 - 도 3과 동일하므로 설명을 생략한다.
에코 제거부(850)는 비-상관 처리부(840)에서 비-상관된 두 채널 오디오 신호를 이용하여 두개의 마이크로폰들(812, 814)로 재 입력된 에코 성분을 제거하고 화자의 음성 신호만을 검출한다.
에코 제거부(850)를 더 상세히 설명하면, 비-상관 처리부(840)에서 출력되는 제1,제2채널의 비-상관 신호는 적응 필터(AP1, AP2)를 통해 필터링 된다. 다시 말하면, 두 적응 필터들(AP1,AP2)은 비-상관된 두 채널의 오디오 신호 및 차감기(852)의 출력 신호(이전의 에코가 제거된 신호)를 이용하여 두 개의 마이크로폰들(812, 814)에서 집음된 스피커의 출력 신호를 추정한다. 그 추정된 출력 신호가 에코 신호에 해당된다.
두 적응 필터들(AP1, AP2)에서 추출된 에코 신호는 가산기(851)에서 합산된다. 그리고 차감기(852)는 에코 신호와 두 개 마이크로폰들(836, 837)의 신호를 차감하여 화자의 음성 신호만을 추출한다.
최종적으로 차감기(852)에서 추출된 음성 신호는 전송실(810)의 스피커들(816, 818)로 전송된다.
따라서, 본 발명의 실시 예에 따르면, 전송실(810)에서 출력되는 신호는 왜곡하지 않고 그대로 스피커들(832, 834)로 보내고, 동시에 에코 제거부(850)의 전단에서 전-처리로써 비-상관 처리된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
Claims (15)
- 멀티 채널 비-상관 처리 방법에 있어서,
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정;
콘텐트가 변경될 때마다 상기 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 값과 고유 벡터를 분석하는 과정;
상기 분석된 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 채널간 비-상관을 나타내는 복수 개 신호 성분 공간들로 분리하는 과정을 포함하는 멀티 채널 비-상관 처리 방법. - 제1항에 있어서, 상기 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정은,
상기 생성된 소정 프레임의 오디오 신호의 에너지를 구하고,
상기 구해진 프레임의 오디오 신호의 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 선택하는 과정을 더 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 방법. - 제1항에 있어서, 상기 고유 값과 고유 벡터를 분석하는 과정은,
상기 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 이용하여 고유 값과 고유 벡터를 계산하는 것임을 특징으로 하는 멀티 채널 비-상관 처리 방법. - 제3항에 있어서, 상기 고유 값과 고유 벡터는 고유값 분해(Eigen-Value Decomposition)를 수행하여 계산되는 것임을 특징으로 하는 멀티 채널 비-상관 처리 방법.
- 제3항에 있어서, 상기 고유값과 고유 벡터값은 공간의 크기와 방향임을 특징으로 하는 멀티 채널 비-상관 처리 방법.
- 제1항에 있어서, 상기 고유 값과 고유 벡터를 분석하는 과정은,
입력 신호의 채널간 상관 값을 나타내는 Covariance 매트릭스를 구하는 과정;
상기 Covariance 매트릭스를 고유값 분해를 통해 고유 벡터들을 포함한 고유벡터행렬과 고유 값들을 포함한 고유값 행렬로 연산하는 과정을 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 방법. - 제1항에 있어서, 상기 복수 개 신호 성분 공간들로 분리하는 과정은
상기 콘텐츠가 변경되면 상기 소정 프레임 단위의 멀티 채널 오디오 신호를 이용하여 변경된 콘텐츠의 고유 값과 고유 벡터를 획득하고,
상기 콘텐츠가 변경되지 않으면 기존의 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간으로 분리하는 것임을 특징으로 하는 멀티 채널 비-상관 처리 방법. - 멀티 채널 비-상관 처리 장치에 있어서,
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 윈도윙부;
콘텐츠가 변경될 때마다 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 프레임 단위의 멀티 채널 오디오 신호로부터 복수개의 신호 성분 공간들을 분석하는 성분 공간 분석부;
상기 복수개의 신호 성분 공간들을 이용하여 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간들로 분리하는 프로젝션부를 포함하는 멀티 채널 비-상관 처리 장치. - 제8항에 있어서, 상기 윈도윙부는,
입력 신호를 소정 프레임 단위의 신호들로 분리하여 프레임 신호를 생성하는 신호 분리부; 및
상기 신호 분리부에서 생성된 프레임 신호의 에너지 값을 기준치와 비교하여 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호를 검출하는 신호 검출부를 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 장치. - 제8항에 있어서, 상기 성분 공간 생성부는
콘텐츠가 변경될 때마다 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유값과 고유 벡터값을 분석하는 고유값 분석부;
상기 고유값과 고유 벡터값에 따라 복수개의 신호 성분 공간들을 구하는 성분 공간 계산부를 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 장치. - 제10항에 있어서, 상기 고유값 분석부는 프레임의 오디오 신호의 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 이용하는 것임을 특징으로 하는 멀티 채널 비-상관 처리 장치.
- 멀티-채널 에코 제거 장치에 있어서,
소정 프레임 단위의 멀티 채널 오디오 신호에 대해 비-상관 매트릭스를 이용하여 복수개 신호 성분 공간들로 분리된 채널간 비-상관 신호로 변환하는 비-상관 처리부;
상기 비-상관 처리부에서 변환된 채널간 비-상관 신호를 이용하여 마이크로폰에서 집음된 신호의 에코 성분을 제거하는 에코 제거부를 포함하는 멀티 채널 에코 제거 장치. - 제12항에 있어서, 상기는 비-상관 처리부는
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 윈도윙부;
콘텐츠가 변경될 때마다 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 프레임 단위의 멀티 채널 오디오 신호로부터 복수개의 신호 성분 공간들을 분석하는 성분 공간 분석부;
상기 복수개의 신호 성분 공간들을 이용하여 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간들로 분리하는 프로젝션부를 구비하는 것을 특징으로 하는 멀티-채널 에코 제거 장치. - 제12항에 있어서, 상기 에코 제거부는,
채널간 비-상관 신호와 에코 성분이 제거된 신호를 이용하여 복수개의 마이크로폰들에서 집음 된 에코 신호를 추정하는 적응 필터부;
상기 추정된 에코 신호에다 마이크로폰에 집음 된 신호를 차감하여 음성 신호를 추출하는 차감부를 구비하는 것을 특징으로 하는 멀티-채널 에코 제거 장치. - 제 1항 내지 제 7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120023604A KR20120128542A (ko) | 2011-05-11 | 2012-03-07 | 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 |
US13/469,924 US20120288100A1 (en) | 2011-05-11 | 2012-05-11 | Method and apparatus for processing multi-channel de-correlation for cancelling multi-channel acoustic echo |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US61/484,738 | 2011-05-11 | ||
KR1020120023604A KR20120128542A (ko) | 2011-05-11 | 2012-03-07 | 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20120128542A true KR20120128542A (ko) | 2012-11-27 |
Family
ID=47141902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120023604A KR20120128542A (ko) | 2011-05-11 | 2012-03-07 | 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120288100A1 (ko) |
KR (1) | KR20120128542A (ko) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9373338B1 (en) * | 2012-06-25 | 2016-06-21 | Amazon Technologies, Inc. | Acoustic echo cancellation processing based on feedback from speech recognizer |
US9373324B2 (en) | 2013-12-06 | 2016-06-21 | International Business Machines Corporation | Applying speaker adaption techniques to correlated features |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US20170366897A1 (en) | 2016-06-15 | 2017-12-21 | Robert Azarewicz | Microphone board for far field automatic speech recognition |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN110199528B (zh) * | 2017-01-04 | 2021-03-23 | 哈曼贝克自动***股份有限公司 | 远场声音捕获 |
US10200540B1 (en) * | 2017-08-03 | 2019-02-05 | Bose Corporation | Efficient reutilization of acoustic echo canceler channels |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10586534B1 (en) * | 2017-09-27 | 2020-03-10 | Amazon Technologies, Inc. | Voice-controlled device control using acoustic echo cancellation statistics |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) * | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11902757B2 (en) | 2022-06-14 | 2024-02-13 | Tencent America LLC | Techniques for unified acoustic echo suppression using a recurrent neural network |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2700055B1 (fr) * | 1992-12-30 | 1995-01-27 | Sextant Avionique | Procédé de débruitage vectoriel de la parole et dispositif de mise en Óoeuvre. |
KR20010006291A (ko) * | 1998-02-13 | 2001-01-26 | 요트.게.아. 롤페즈 | 서라운드 음향 재생 시스템, 음향/시각 재생 시스템, 서라운드 신호 처리 유닛 및 입력 서라운드 신호 처리 방법 |
US20050238238A1 (en) * | 2002-07-19 | 2005-10-27 | Li-Qun Xu | Method and system for classification of semantic content of audio/video data |
US7069286B2 (en) * | 2002-09-27 | 2006-06-27 | Lucent Technologies Inc. | Solution space principle component-based adaptive filter and method of operation thereof |
US8687820B2 (en) * | 2004-06-30 | 2014-04-01 | Polycom, Inc. | Stereo microphone processing for teleconferencing |
JP4875142B2 (ja) * | 2006-03-28 | 2012-02-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置 |
EP2095681B1 (en) * | 2006-10-23 | 2016-03-23 | Starkey Laboratories, Inc. | Filter entrainment avoidance with a frequency domain transform algorithm |
-
2012
- 2012-03-07 KR KR1020120023604A patent/KR20120128542A/ko not_active Application Discontinuation
- 2012-05-11 US US13/469,924 patent/US20120288100A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20120288100A1 (en) | 2012-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20120128542A (ko) | 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 | |
Boeddeker et al. | Front-end processing for the CHiME-5 dinner party scenario | |
KR101171494B1 (ko) | 강인한 두 마이크로폰 잡음 억제 시스템 | |
US10546593B2 (en) | Deep learning driven multi-channel filtering for speech enhancement | |
CN106782584B (zh) | 音频信号处理设备、方法和电子设备 | |
EP2715725B1 (en) | Processing audio signals | |
US11064296B2 (en) | Voice denoising method and apparatus, server and storage medium | |
CN112424863B (zh) | 语音感知音频***及方法 | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
US8892432B2 (en) | Signal processing system, apparatus and method used on the system, and program thereof | |
KR20180004950A (ko) | 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체 | |
AU2014413559A1 (en) | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal | |
Wang et al. | Noise power spectral density estimation using MaxNSR blocking matrix | |
KR101710544B1 (ko) | 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치 | |
EP3005362A1 (en) | Apparatus and method for improving a perception of a sound signal | |
Reindl et al. | Analysis of two generic wiener filtering concepts for binaural speech enhancement in hearing aids | |
Marquardt et al. | Binaural cue preservation for hearing aids using multi-channel Wiener filter with instantaneous ITF preservation | |
US9047862B2 (en) | Audio signal processing method, audio apparatus therefor, and electronic apparatus therefor | |
KR101096091B1 (ko) | 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법 | |
Togami et al. | Real-time stereo speech enhancement with spatial-cue preservation based on dual-path structure | |
Bagheri et al. | Robust STFT domain multi-channel acoustic echo cancellation with adaptive decorrelation of the reference signals | |
US20240135948A1 (en) | Acoustic echo cancellation | |
WO2023192327A1 (en) | Representation learning using informed masking for speech and other audio applications | |
CN112770222A (zh) | 音频处理方法和装置 | |
Azarpour et al. | Fast noise PSD estimation based on blind channel identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |