KR20120128542A - 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 - Google Patents

멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 Download PDF

Info

Publication number
KR20120128542A
KR20120128542A KR1020120023604A KR20120023604A KR20120128542A KR 20120128542 A KR20120128542 A KR 20120128542A KR 1020120023604 A KR1020120023604 A KR 1020120023604A KR 20120023604 A KR20120023604 A KR 20120023604A KR 20120128542 A KR20120128542 A KR 20120128542A
Authority
KR
South Korea
Prior art keywords
signal
channel
channel audio
frame
correlation
Prior art date
Application number
KR1020120023604A
Other languages
English (en)
Inventor
조남국
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120023604A priority Critical patent/KR20120128542A/ko
Priority to US13/469,924 priority patent/US20120288100A1/en
Publication of KR20120128542A publication Critical patent/KR20120128542A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

멀티-채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치에 관한 것이며, 본 발명의 일 실시 예는 멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정, 콘텐트가 변경될 때마다 상기 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 값과 고유 벡터를 분석하는 과정, 분석된 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 채널간 비-상관을 나타내는 복수 개 신호 성분 공간들로 분리하는 과정을 포함한다.

Description

멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치{Method and apparatus for processing multi-channel de-correlation for cancelling multi-channel acoustic echo}
본 발명은 멀티-채널 에코 제거 기술에 관한 것이며, 특히 멀티-채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치에 관한 것이다.
음성 신호를 이용하여 각종 기계를 제어하는 음성 인식 기술이 발달하고 있다. 음성 인식 기술은 하드웨어 또는 소프트웨어 장치나 시스템이 음성 신호를 입력으로 하여 언어적 의미 내용을 인식하고 그에 따른 동작을 수행하는 기술을 말한다.
한편, 멀티 채널 에코 제거 기술(MCSC: Multi-channel acoustic echo cancellation)은 멀티 채널 마이크로폰과 스피커를 사용하는 영상 통화 시스템 및 음성 인식 시스템에 널리 이용되고 있다.
통상적으로 영상 통화 시스템 또는 음성 인식 시스템의 스피커에서 출력된 신호는 물체 등에 부딪혀 반사된 후 다시 마이크로폰에 재 입력된다. 또한 음성 인식 시스템의 예를 들면, 스피커에서 출력된 신호는 사용자의 음성 신호와 섞여 음성 인식을 오동작 하게 한다.
영상 통화 시스템 또는 음성 인식 시스템은 다수 개 스피커로 동시에 출력되는 채널 신호간에 상관도가 높기 때문에 멀티 채널 에코 필터가 수렴하지 않고 발산하게 되므로 오 동작하거나 음질 왜곡을 초래한다.
따라서, 다수의 스피커로 출력되는 신호간에 상관도를 낮추는 멀티 채널 비-상관 기술이 요구되고 있다.
그러나 종래의 비-상관성 방식은 방송 신호의 채널간 상관성을 줄이기 위해 스피커 출력 전에 임의의 신호를 섞어주거나 변형을 가하고 있다.
이러한 종래의 비-상관성 방식은 주파수에 따라서 위상이 변형되거나 잡음이 섞여 사용자가 청각적으로 음질 왜곡을 인지할 수 있는 문제점이 있다.
본 발명이 해결 하고자 하는 과제는 멀티 채널간에 상관도를 낮추어 마이크로폰으로 재 입력되는 다 채널 에코 성분을 제거하는 멀티 채널 비-상관 처리 방법 및 장치를 제공하는 데 있다.
상기의 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 멀티 채널 비-상관 처리 방법에 있어서,
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정;
콘텐트가 변경될 때마다 상기 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 값과 고유 벡터를 분석하는 과정;
상기 분석된 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 채널간 비-상관을 나타내는 복수 개 신호 성분 공간들로 분리하는 과정을 포함한다.
상기 멀티 채널 오디오 신호들로 분할하는 과정은,
상기 생성된 소정 프레임의 오디오 신호의 에너지를 구하고,
상기 구해진 프레임의 오디오 신호의 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 선택하는 과정을 더 구비하는 것을 특징으로 한다.
상기 고유 값과 고유 벡터를 분석하는 과정은, 상기 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 이용하여 고유 값과 고유 벡터를 계산하는 것임을 특징으로 한다.
상기 고유 값과 고유 벡터는 고유값 분해(Eigen-Value Decomposition)를 수행하여 계산되는 것임을 특징으로 한다.
상기 고유값과 고유 벡터값은 공간의 크기와 방향임을 특징으로 한다.
상기 고유 값과 고유 벡터를 분석하는 과정은,
입력 신호의 채널간 상관 값을 나타내는 Covariance 매트릭스를 구하는 과정;
상기 Covariance 매트릭스를 고유값 분해를 통해 고유 벡터들을 포함한 고유벡터행렬과 고유 값들을 포함한 고유값 행렬로 연산하는 과정을 구비하는 것을 특징으로 한다.
상기 복수 개 신호 성분 공간들로 분리하는 과정은
상기 콘텐츠가 변경되면 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 변경된 콘텐츠의 고유 값과 고유 벡터를 획득하고,
상기 콘텐츠가 변경되지 않으면 기존의 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간으로 분리하는 것임을 특징으로 한다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 멀티 채널 비-상관 처리 장치에 있어서,
멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 윈도윙부;
콘텐츠가 변경될 때마다 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 프레임 단위의 멀티 채널 오디오 신호로부터 복수개의 신호 성분 공간들을 분석하는 성분 공간 분석부;
상기 복수개의 신호 성분 공간들을 이용하여 프레임 단위의 멀티 채널 오디오 신호들에 대해 복수개 신호 성분 공간들로 분리하는 프로젝션부를 포함한다.
상기의 또 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 멀티-채널 에코 제거 장치에 있어서,
소정 프레임 단위의 멀티 채널 오디오 신호에 대해 비-상관 매트릭스를 이용하여 복수개 신호 성분 공간들로 분리된 채널간 비-상관 신호로 변환하는 비-상관 처리부;
상기 비-상관 처리부에서 변환된 채널간 비-상관 신호를 이용하여 마이크로폰에서 집음된 음성 신호로부터 에코 성분을 제거하는 에코 제거부를 포함한다.
도 1은 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 장치의 블록도이다.
도 2는 도 1의 윈도윙부의 내부 블록도이다.
도 3은 도 1의 성분 공간 분석부의 내부 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 방법을 보이는 흐름도 이다.
도 5는 멀티 채널 오디오 신호로부터 프레임 신호들을 생성하는 일 실시 예 이다.
도 6은 프레임 신호로부터 획득된 신호 성분 공간을 보이는 도면이다.
도 7은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 음성 인식 시스템의 일 실시 예이다.
도 8은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 통화 시스템의 일 실시 예이다.
이하 첨부된 도면을 참조로 하여 본 발명의 바람직한 실시 예를 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 장치의 블록도이다.
도 1의 비-상관 처리 장치는 윈도윙(windowing)부(110), 성분 공간 분석부(120), 프로젝션부(130)를 포함한다.
윈도윙부(110)는 입력되는 멀티 채널의 오디오 신호(x1....xn)를 소정 프레임 단위의 멀티 채널 오디오 신호들로 분할한다. 본 발명의 일 실시 예에 따르면, 소정 프레임 단위는 30ms 단위일 수 있다. 윈도윙부(110)는 멀티 채널의 입력 신호를 프레임 단위로 나누어 프레임 신호들을 생성한다.
본 발명의 실시 예에 따르면, 윈도윙부(110)는 프레임 신호의 에너지를 구하고, 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호를 선택할 수 있다.
성분 공간 분석부(120)는 콘텐츠가 변경될 때마다 윈도윙부(110)에서 생성된 소정 프레임 단위의 멀티 채널 오디오 신호로부터 복수 개의 신호 성분 공간들을 분석한다. 일 실시 예로, 복수 개의 신호 성분 공간들은 음성 성분 공간, 음악 성분 공간, 방송 성분 공간등이 될 수 있다.
프로젝션부(130)는 소정 프레임 단위의 멀티 채널 오디오 신호에 성분 공간 분석부(120)에서 분석된 복수개의 신호 성분 공간들을 투영하여 복수개의 신호 성분 공간들로 분리한다.
결국, 프로젝션부(130)는 소정 프레임 단위의 멀티 채널 오디오 신호를 복수개 신호 성분 공간들을 분리함으로써 상관된 멀티 채널 오디오 신호를 비-상관된 멀티 채널 오디오 신호(y1....yn)로 변환한다.
도 2는 도 1의 윈도윙부(110)의 내부 블록도이다.
도 2의 윈도윙부(110)는 신호 분리부(210) 및 신호 검출부(220)를 구비한다.
신호 분리부(210)는 입력되는 멀티 채널의 오디오 신호(IN)를 소정 프레임 단위의 멀티 채널 오디오 신호들로 분리하여 프레임 신호를 생성한다.
신호 검출부(220)는 신호 분리부(210)에서 생성된 프레임 신호의 에너지 값을 기준치와 비교하여 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호(OUT)를 검출한다. 예컨대, i 번째 프레임 신호를 X(t)라고 할 때, 신호 검출부(220)는 ∥Xi(t)∥2를 구하고, ∥Xi(t)∥2 값이 기 설정된 기준치를 넘는지를 판단한다. 신호 검출부(220)는 ∥Xi(t)∥2이 기 설정된 기준치보다 크거나 같은 경우, 프레임 신호 Xi(t)를 성분 공간 분석부(120)로 전송한다.
한편, 프레임 신호의 에너지 값이 기준치 이상이 아닌 경우, 프레임 신호를 무음으로 판단하고, 그 프레임에 대한 신호 처리를 생략할 수 있다.
도 3은 도 1의 성분 공간 분석부(120)의 내부 블록도이다.
도 3의 성분 공간 분석부(120)는 고유값 분석부(310) 및 성분 공간 계산부(320)를 구비한다.
고유값 분석부(310)는 소정 프레임 단위의 멀티 채널 오디오 신호를 이용하여 고유값과 고유 벡터값을 분석한다. 이때 고유값과 고유 벡터값은 각각 성분 공간의 크기와 성분 공간의 방향을 나타낸다.
성분 공간 계산부(320)는 고유값 분석부(310)에서 분석된 고유값과 고유 벡터값에 따라 복수 개의 신호 성분 공간들을 계산한다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 비-상관 처리 방법을 보이는 흐름도 이다.
먼저, 스피커로 출력되기 전 멀티 채널의 오디오 신호(x1....xn)를 입력한다(410 과정).
이어서, 입력되는 멀티 채널의 입력 오디오 신호(x1....xn)를 소정 프레임 단위로 분할하여 프레임 단위의 멀티 채널 오디오 신호를 생성한다(420 과정).
도 5에 도시된 일 실시 예에 따르면, 소정 프레임 단위는 멀티 채널 오디오 신호에 대해 30ms 로 분할될 수 있다. 또한 프레임 신호의 에너지를 구한 후 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호만을 취한다.
이어서, 콘텐츠가 변경될 때 마다 신호 성분 공간을 계산하기 위해 콘텐츠가 변경되었는가를 체크한다(430 과정). 일 실시예로 마이크로 프로세서(도시 안됨)는 TV의 채널이나 프로그램이 변경되면 콘텐츠가 변경되는 것을 의미하는 제어 신호를 생성한다.
이때 콘텐츠 변경이면, 입력되는 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)을 구한다(440 과정). 일 실시예로 소정 프레임 단위는 도 5에 도시된 바와 같이 멀티 채널 오디오 신호의 5개의 프레임(30ms x 5 = 160ms)을 이용할 수 있으나, 이에 한정하지 않는다.
또한 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)은 공간 크기 및 공간 방향을 나타내며, EVD(Eigen-Value Decomposition:고유값 분해)를 이용하여 구해지나, 이에 한정되지 않는다.
EVD를 이용하여 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)을 구하는 일 실시 예를 설명하면,
입력 신호의 Covariance 매트릭스(Rxx)를 구한다. Covariance 매트릭스는 채널간의 상관 값을 표현한다.
Covariance 매트릭스(Rxx)는 수학식 1과 같이 나타낼 수 있다.
[수학 식 1]
Figure pat00001

이어서, Covariance 매트릭스(Rxx)는 수학 식2와 같이 EVD를 이용해 고유 벡터들을 포함한 고유벡터행렬과 고유 값들을 포함한 고유값 행렬로 연산된다.
[수학 식 2]
Figure pat00002
Figure pat00003
Figure pat00004
Figure pat00005
는 Vx의 전치 행렬이다.
여기서, x는 입력 신호이며,
Figure pat00006
는 eigen value, v는 eigen vector를 의미한다.
이어서, 고유 벡터들(eigen vectors) 과 고유 값들(eigen values)에 따라 복수개의 신호 성분 공간들을 획득한다(450 과정).
예를 들면, 도 6에 도시된 바와 같이 고유값(
Figure pat00007
)과 고유벡터(v)를 갖는 제1성분 공간(
Figure pat00008
1, v1)(610), 제2성분 공간(
Figure pat00009
2,v2)(620) ......제n성분 공간들로 계산된다. 이때 각 성분 공간의 벡터값(v)들은 서로 직각이다. 또한 채널 개수에 따라서 성분 공간의 개수들이 형성된다.
이때 복수개의 성분 공간들은 수학 식 3과 같이 채널간 비- 상관된 신호를 나타내는 비-상관 매트릭스(W)로 표현된다.
[수학 식 3]
Figure pat00010
이어서, 복수개의 신호 성분 공간을 이용하여 입력되는 소정 프레임 단위의 멀티 채널 오디오 신호는 복수개 신호 성분 공간들로 분리된다(460 과정). 일 실시 예로, 복수 개의 신호 성분 공간들은 음성 성분 공간, 음악 성분 공간, 방송 성분 공간등이 될 수 있다.
복수개의 성분 공간들로 분리된 프레임 신호는 비- 상관된 신호에 해당된다.
다시 말하면, 출력되는 멀티 채널 오디오 신호 (y) 는 수학식 4와 같이 표현된다.
[수학 식 4]
Figure pat00011
한편, 콘텐츠 변경이 아니면 소정 프레임 단위의 멀티 채널의 오디오 신호를 채널간 비-상관된 신호로 나타내는 복수개의 성분 공간들로 분리한다.
결국, 본 발명의 일 실시 예에 따르면 입력 신호에 임의의 신호를 섞어 주거나 주파수 성분에 위상 변형을 가하지 않고 입력 신호의 채널간 상관 매트릭스를 채널간 비-상관 매트릭스로 변환시켜 입력 신호를 비-상관된 신호로 변환한다.
특히, 본 발명은 AEC의 전단에서 비-상관 처리를 수행함으로써 DTV의 방송 신호를 제어할 필요가 없고 또한 스피커의 출력음을 어떠한 변형 없이 그대로 출력함으로써 음질이 왜곡되지 않는다.
또한 본 발명은 채널간에 유사도가 적은 신호에 대해서 비-상관 정도를 적게 하고, 채널간에 유사도가 높은 신호에 대해서 비-상관 정도를 많이 함으로써 적응적인 비-상관을 수행한다.
도 7은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 음성 인식 시스템의 일 실시 예이다.
먼저, 신호 처리부(710)는 각종 동작 기능을 제어하고 멀티 채널의 오디오 신호를 처리하여 출력한다. 신호 처리부(710)는 본 발명의 쉬운 이해를 위해 제어 모듈(712)과 앰프부(714)만을 기재한다.
앰프부(714)는 멀티 채널의 오디오 신호(x1 ....x2)를 멀티 채널의 스피커들(701, 702)로 출력한다.
앰프부(714)에서 출력되는 멀티 채널의 오디오 신호는 그대로 멀티 채널의 스피커들(701, 702)로 전달되고, 동시에 비-상관 처리부(720)로 전달된다.
비-상관 처리부(720)는 멀티 채널 오디오 신호에 대해 복수개의 신호 공간 성분으로 분리하여 비-상관 처리한다. 이때 비-상관 처리부(720)는 도 1 - 도 3과 동일하므로 설명을 생략한다.
에코 제거부(730)는 비-상관 처리부(720)에서 비-상관된 멀티 채널 오디오 신호를 이용하여 복수개 마이크로폰들(751, 752)로 재 입력된 다 채널 에코 성분을 제거하고 화자의 음성 신호만을 검출한다.
에코 제거부(730)를 더 상세히 설명하면, 비-상관 처리부(720)에서 출력되는 n개 채널의 비-상관 오디오 신호는 n개의 적응 필터들(AP1....APn)(732, 734)을 통해 필터링 된다. 다시 말하면, n개의 적응 필터들(AP1....APn)(732, 734)은 비-상관된 멀티 채널의 오디오 신호 및 차감기들(735, 736)의 출력 신호(이전의 에코가 제거된 신호)를 이용하여 n개의 마이크로폰들(751,752)에서 집음 된 스피커의 출력 신호를 추정한다. 그 추정된 출력 신호가 에코 신호에 해당된다.
n개의 적응 필터들(AP1....APn)(732, 734)에서 필터링된 n개 채널의 비-상관 오디오 신호는 차감기들(735, 736)에서 각각 n개 마이크로폰들(751, 752)의 신호와 차감된다. 다시 말하면, 차감기들(735, 736)은 추출된 에코 신호에다 마이크로폰에 집음 된 신호를 차감하여 화자의 음성 신호만을 추출한다.
음성 인식 처리부(740)는 에코 제거부(730)에서 에코 성분이 제거된 음성 신호를 이용하여 음성 인식을 처리한다. 이때 음성 인식 처리부(740)는 빔 포밍(beam forming)부(742), 웨이크-업(wake-up)부(744), 음성 인식부(746)를 포함한다.
음성 인식 처리부(740)를 더 상세히 설명하면 빔 포밍부(742)는 에코 제거부(730)에서 에코가 제거된 음성 신호로부터 정해진 방향 이외의 잡음을 제거하기 위해 빔 포밍을 수행한다.
웨이크-업부(744)는 빔 포밍된 음성 신호로부터 정해진 명령 키워드를 추출하고 음성 인식 온 신호를 생성한다. 웨이크-업부(744)는 빔 포밍 된 음성 신호로부터 정해진 명령 키워드가 존재할 때만 음성 인식 온 신호를 출력한다. 스위치(SW1)는 웨이크-업부(744)에서 생성된 온/오프 신호를 이용하여 음성 인식부(746)를 활성화/비 활성화한다.
음성 인식부(746)는 웨이크-업부(744)의 온/오프 신호에 따라 빔포밍부(742)에서 출력되는 명령 키워드를 인식한다.
제어 모듈부(712)는 음성 인식부(746)에서 인식된 명령에 따라 각종 동작 기능을 제어한다.
따라서, 본 발명의 실시예에 따르면, 앰프부(714)에서 출력되는 신호는 왜곡하지 않고 그대로 스피커들(701, 702)로 보내고, 동시에 에코 제거부(730)의 전단에서 전-처리로써 비-상관 처리된다.
도 8은 본 발명의 멀티 채널 비-상관 처리 장치를 이용한 통화 시스템의 일 실시 예이다.
먼저, 전송실(810)은 두 개의 마이크로폰(812, 814)을 통해 화자의 음성을 수신하고, 수신된 화자의 음성을 신호 처리 모듈(820)을 통해 수신실(830)의 두 개의 스피커(832, 834)로 출력한다. 신호 처리 모듈(820)은 동작의 이해를 쉽게 하기 위해 구성 모듈은 생략하고 라인으로만 표시한다.
비-상관 처리부(840)는 두 채널의 오디오 신호에 대해 적어도 하나의 신호 공간 성분들로 분리하여 비-상관 처리한다. 이때 비-상관 처리부(840)는 도 1 - 도 3과 동일하므로 설명을 생략한다.
에코 제거부(850)는 비-상관 처리부(840)에서 비-상관된 두 채널 오디오 신호를 이용하여 두개의 마이크로폰들(812, 814)로 재 입력된 에코 성분을 제거하고 화자의 음성 신호만을 검출한다.
에코 제거부(850)를 더 상세히 설명하면, 비-상관 처리부(840)에서 출력되는 제1,제2채널의 비-상관 신호는 적응 필터(AP1, AP2)를 통해 필터링 된다. 다시 말하면, 두 적응 필터들(AP1,AP2)은 비-상관된 두 채널의 오디오 신호 및 차감기(852)의 출력 신호(이전의 에코가 제거된 신호)를 이용하여 두 개의 마이크로폰들(812, 814)에서 집음된 스피커의 출력 신호를 추정한다. 그 추정된 출력 신호가 에코 신호에 해당된다.
두 적응 필터들(AP1, AP2)에서 추출된 에코 신호는 가산기(851)에서 합산된다. 그리고 차감기(852)는 에코 신호와 두 개 마이크로폰들(836, 837)의 신호를 차감하여 화자의 음성 신호만을 추출한다.
최종적으로 차감기(852)에서 추출된 음성 신호는 전송실(810)의 스피커들(816, 818)로 전송된다.
따라서, 본 발명의 실시 예에 따르면, 전송실(810)에서 출력되는 신호는 왜곡하지 않고 그대로 스피커들(832, 834)로 보내고, 동시에 에코 제거부(850)의 전단에서 전-처리로써 비-상관 처리된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (15)

  1. 멀티 채널 비-상관 처리 방법에 있어서,
    멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정;
    콘텐트가 변경될 때마다 상기 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유 값과 고유 벡터를 분석하는 과정;
    상기 분석된 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 채널간 비-상관을 나타내는 복수 개 신호 성분 공간들로 분리하는 과정을 포함하는 멀티 채널 비-상관 처리 방법.
  2. 제1항에 있어서, 상기 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 과정은,
    상기 생성된 소정 프레임의 오디오 신호의 에너지를 구하고,
    상기 구해진 프레임의 오디오 신호의 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 선택하는 과정을 더 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 방법.
  3. 제1항에 있어서, 상기 고유 값과 고유 벡터를 분석하는 과정은,
    상기 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 이용하여 고유 값과 고유 벡터를 계산하는 것임을 특징으로 하는 멀티 채널 비-상관 처리 방법.
  4. 제3항에 있어서, 상기 고유 값과 고유 벡터는 고유값 분해(Eigen-Value Decomposition)를 수행하여 계산되는 것임을 특징으로 하는 멀티 채널 비-상관 처리 방법.
  5. 제3항에 있어서, 상기 고유값과 고유 벡터값은 공간의 크기와 방향임을 특징으로 하는 멀티 채널 비-상관 처리 방법.
  6. 제1항에 있어서, 상기 고유 값과 고유 벡터를 분석하는 과정은,
    입력 신호의 채널간 상관 값을 나타내는 Covariance 매트릭스를 구하는 과정;
    상기 Covariance 매트릭스를 고유값 분해를 통해 고유 벡터들을 포함한 고유벡터행렬과 고유 값들을 포함한 고유값 행렬로 연산하는 과정을 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 방법.
  7. 제1항에 있어서, 상기 복수 개 신호 성분 공간들로 분리하는 과정은
    상기 콘텐츠가 변경되면 상기 소정 프레임 단위의 멀티 채널 오디오 신호를 이용하여 변경된 콘텐츠의 고유 값과 고유 벡터를 획득하고,
    상기 콘텐츠가 변경되지 않으면 기존의 고유 값과 고유 벡터를 이용하여 상기 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간으로 분리하는 것임을 특징으로 하는 멀티 채널 비-상관 처리 방법.
  8. 멀티 채널 비-상관 처리 장치에 있어서,
    멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 윈도윙부;
    콘텐츠가 변경될 때마다 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 프레임 단위의 멀티 채널 오디오 신호로부터 복수개의 신호 성분 공간들을 분석하는 성분 공간 분석부;
    상기 복수개의 신호 성분 공간들을 이용하여 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간들로 분리하는 프로젝션부를 포함하는 멀티 채널 비-상관 처리 장치.
  9. 제8항에 있어서, 상기 윈도윙부는,
    입력 신호를 소정 프레임 단위의 신호들로 분리하여 프레임 신호를 생성하는 신호 분리부; 및
    상기 신호 분리부에서 생성된 프레임 신호의 에너지 값을 기준치와 비교하여 프레임 신호의 에너지 크기가 일정 기준치 이상인 프레임 신호를 검출하는 신호 검출부를 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 장치.
  10. 제8항에 있어서, 상기 성분 공간 생성부는
    콘텐츠가 변경될 때마다 상기 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 고유값과 고유 벡터값을 분석하는 고유값 분석부;
    상기 고유값과 고유 벡터값에 따라 복수개의 신호 성분 공간들을 구하는 성분 공간 계산부를 구비하는 것을 특징으로 하는 멀티 채널 비-상관 처리 장치.
  11. 제10항에 있어서, 상기 고유값 분석부는 프레임의 오디오 신호의 에너지가 일정 기준치 이상인 프레임의 오디오 신호를 이용하는 것임을 특징으로 하는 멀티 채널 비-상관 처리 장치.
  12. 멀티-채널 에코 제거 장치에 있어서,
    소정 프레임 단위의 멀티 채널 오디오 신호에 대해 비-상관 매트릭스를 이용하여 복수개 신호 성분 공간들로 분리된 채널간 비-상관 신호로 변환하는 비-상관 처리부;
    상기 비-상관 처리부에서 변환된 채널간 비-상관 신호를 이용하여 마이크로폰에서 집음된 신호의 에코 성분을 제거하는 에코 제거부를 포함하는 멀티 채널 에코 제거 장치.
  13. 제12항에 있어서, 상기는 비-상관 처리부는
    멀티-채널의 오디오 신호를 프레임 단위의 멀티 채널 오디오 신호들로 분할하는 윈도윙부;
    콘텐츠가 변경될 때마다 소정 프레임 단위의 멀티 채널 오디오 신호들을 이용하여 프레임 단위의 멀티 채널 오디오 신호로부터 복수개의 신호 성분 공간들을 분석하는 성분 공간 분석부;
    상기 복수개의 신호 성분 공간들을 이용하여 프레임 단위의 멀티 채널 오디오 신호에 대해 복수개 신호 성분 공간들로 분리하는 프로젝션부를 구비하는 것을 특징으로 하는 멀티-채널 에코 제거 장치.
  14. 제12항에 있어서, 상기 에코 제거부는,
    채널간 비-상관 신호와 에코 성분이 제거된 신호를 이용하여 복수개의 마이크로폰들에서 집음 된 에코 신호를 추정하는 적응 필터부;
    상기 추정된 에코 신호에다 마이크로폰에 집음 된 신호를 차감하여 음성 신호를 추출하는 차감부를 구비하는 것을 특징으로 하는 멀티-채널 에코 제거 장치.
  15. 제 1항 내지 제 7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
KR1020120023604A 2011-05-11 2012-03-07 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치 KR20120128542A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120023604A KR20120128542A (ko) 2011-05-11 2012-03-07 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치
US13/469,924 US20120288100A1 (en) 2011-05-11 2012-05-11 Method and apparatus for processing multi-channel de-correlation for cancelling multi-channel acoustic echo

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US61/484,738 2011-05-11
KR1020120023604A KR20120128542A (ko) 2011-05-11 2012-03-07 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20120128542A true KR20120128542A (ko) 2012-11-27

Family

ID=47141902

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120023604A KR20120128542A (ko) 2011-05-11 2012-03-07 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치

Country Status (2)

Country Link
US (1) US20120288100A1 (ko)
KR (1) KR20120128542A (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373338B1 (en) * 2012-06-25 2016-06-21 Amazon Technologies, Inc. Acoustic echo cancellation processing based on feedback from speech recognizer
US9373324B2 (en) 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US20170366897A1 (en) 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN110199528B (zh) * 2017-01-04 2021-03-23 哈曼贝克自动***股份有限公司 远场声音捕获
US10200540B1 (en) * 2017-08-03 2019-02-05 Bose Corporation Efficient reutilization of acoustic echo canceler channels
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) * 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11902757B2 (en) 2022-06-14 2024-02-13 Tencent America LLC Techniques for unified acoustic echo suppression using a recurrent neural network

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2700055B1 (fr) * 1992-12-30 1995-01-27 Sextant Avionique Procédé de débruitage vectoriel de la parole et dispositif de mise en Óoeuvre.
KR20010006291A (ko) * 1998-02-13 2001-01-26 요트.게.아. 롤페즈 서라운드 음향 재생 시스템, 음향/시각 재생 시스템, 서라운드 신호 처리 유닛 및 입력 서라운드 신호 처리 방법
US20050238238A1 (en) * 2002-07-19 2005-10-27 Li-Qun Xu Method and system for classification of semantic content of audio/video data
US7069286B2 (en) * 2002-09-27 2006-06-27 Lucent Technologies Inc. Solution space principle component-based adaptive filter and method of operation thereof
US8687820B2 (en) * 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
EP2095681B1 (en) * 2006-10-23 2016-03-23 Starkey Laboratories, Inc. Filter entrainment avoidance with a frequency domain transform algorithm

Also Published As

Publication number Publication date
US20120288100A1 (en) 2012-11-15

Similar Documents

Publication Publication Date Title
KR20120128542A (ko) 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치
Boeddeker et al. Front-end processing for the CHiME-5 dinner party scenario
KR101171494B1 (ko) 강인한 두 마이크로폰 잡음 억제 시스템
US10546593B2 (en) Deep learning driven multi-channel filtering for speech enhancement
CN106782584B (zh) 音频信号处理设备、方法和电子设备
EP2715725B1 (en) Processing audio signals
US11064296B2 (en) Voice denoising method and apparatus, server and storage medium
CN112424863B (zh) 语音感知音频***及方法
EP3189521B1 (en) Method and apparatus for enhancing sound sources
US8892432B2 (en) Signal processing system, apparatus and method used on the system, and program thereof
KR20180004950A (ko) 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
AU2014413559A1 (en) A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
Wang et al. Noise power spectral density estimation using MaxNSR blocking matrix
KR101710544B1 (ko) 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치
EP3005362A1 (en) Apparatus and method for improving a perception of a sound signal
Reindl et al. Analysis of two generic wiener filtering concepts for binaural speech enhancement in hearing aids
Marquardt et al. Binaural cue preservation for hearing aids using multi-channel Wiener filter with instantaneous ITF preservation
US9047862B2 (en) Audio signal processing method, audio apparatus therefor, and electronic apparatus therefor
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
Togami et al. Real-time stereo speech enhancement with spatial-cue preservation based on dual-path structure
Bagheri et al. Robust STFT domain multi-channel acoustic echo cancellation with adaptive decorrelation of the reference signals
US20240135948A1 (en) Acoustic echo cancellation
WO2023192327A1 (en) Representation learning using informed masking for speech and other audio applications
CN112770222A (zh) 音频处理方法和装置
Azarpour et al. Fast noise PSD estimation based on blind channel identification

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid