KR101339592B1 - 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 - Google Patents

음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR101339592B1
KR101339592B1 KR1020127024378A KR20127024378A KR101339592B1 KR 101339592 B1 KR101339592 B1 KR 101339592B1 KR 1020127024378 A KR1020127024378 A KR 1020127024378A KR 20127024378 A KR20127024378 A KR 20127024378A KR 101339592 B1 KR101339592 B1 KR 101339592B1
Authority
KR
South Korea
Prior art keywords
sound source
unit
signal
noise
frequency
Prior art date
Application number
KR1020127024378A
Other languages
English (en)
Other versions
KR20120123566A (ko
Inventor
신야 마츠이
요지 이시카와
가츠마사 나가하마
Original Assignee
아사히 가세이 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아사히 가세이 가부시키가이샤 filed Critical 아사히 가세이 가부시키가이샤
Publication of KR20120123566A publication Critical patent/KR20120123566A/ko
Application granted granted Critical
Publication of KR101339592B1 publication Critical patent/KR101339592B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

종래의 음원 분리 장치에서는, 도래 방향이 특정 방향으로 정해지지 않는 확산성 잡음이 존재하는 환경 하에서는, 특정 주파수 대역이 크게 삭제되는 결과, 확산성 잡음이 음원 분리 결과에 불규칙하게 분포되어 뮤지컬 노이즈가 되는 경우가 있다. 그래서, 본 발명의 일 양태에 있어서, 음원 분리 장치(1)의 빔 포머부(3)는 스펙트럼 분석 후의 마이크로폰(10, 11)으로부터의 출력 신호에 대하여 복소 공역의 관계에 있는 가중 계수를 승산함으로써, 2개의 마이크로폰(10, 11)을 연결하는 선분과 교차하는 평면을 경계로 하여, 목적 음원의 대략적인 방향이 포함되는 영역과, 이 영역과 반대 영역으로부터 도래하는 각 음원 신호를 각각 감쇠시키기 위한 빔 포머 처리를 실행한다. 가중 계수 산출부(50)는 파워 계산부(40, 41)에서 계산된 파워 스펙트럼 정보들 간의 차분에 기초하여 가중 계수를 산출한다.

Description

음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체{SOUND SOURCE SEPARATOR DEVICE, SOUND SOURCE SEPARATOR METHOD, AND COMPUTER READABLE RECORDING MEDIUM HAVING RECORDED PROGRAM}
본 발명은, 복수의 마이크로폰을 사용하고, 복수의 음원으로부터 발생한 복수의 음성 신호나 각종 환경 잡음 등 복수의 음향 신호가 혼합된 신호로부터, 목적으로 하는 음원으로부터 도래하는 음원 신호를 분리하는 음원 분리 장치, 음원 분리 방법, 및 프로그램에 관한 것이다.
여러 가지의 환경 하에서 특정한 음성 신호 등을 수록하고자 하는 경우, 주위 환경에는 여러 가지의 잡음원이 있기 때문에, 목적음으로 하는 신호만을 마이크로폰으로 수록하는 것은 곤란하여, 어떠한 잡음 저감 처리 또는 음원 분리 처리가 필요해진다.
이들 처리가 특히 필요해지는 예로서, 예컨대 자동차 환경 하를 들 수 있다. 자동차 환경 하에서, 휴대 전화의 보급에 의해 운전중 휴대 전화를 사용하는 통화는 차내에 떨어져 설치된 마이크를 사용하는 것이 일반적으로, 통화 품질을 현저히 열화시키고 있다. 또한, 자동차 환경 하에서 운전중에 음성 인식을 하는 경우도 같은 상황에서 발화하기 때문에, 음성 인식 성능을 열화시키는 원인으로 되어 있다. 현재 음성 인식 기술의 진보에 의해, 정상 잡음에 대한 음성 인식률의 열화 문제에 대하여, 열화한 성능의 상당 부분을 회복하는 것이 가능하다. 그러나, 현상의 음성 인식 기술로 대응이 어려운 것으로서, 복수 발화자의 동시 발화 시의 인식 성능의 열화 문제가 있다. 현재 음성 인식의 기술로는 동시에 발화된 두명의 혼합 음성을 인식하는 기술이 낮기 때문에, 음성 인식 장치 사용시에는 발화자 이외의 동승자는 발화를 제한받아, 동승자의 행동을 제한하는 상황이 발생하고 있다.
또한, 휴대 전화기, 또는 휴대 전화기와 접속하여 핸즈프리 통화를 가능하게 하는 헤드셋에서도, 배경 잡음 환경 하에서 통화하면 통화 품질의 열화가 마찬가지로 발생한다.
상기와 같은 문제를 해결하는 방법으로서, 복수의 마이크로폰을 구비한 음원 분리 방법이 존재한다. 예컨대 특허문헌 1에 기재된 음원 분리 장치는, 2개의 마이크로폰을 연결하는 직선의 수직선에 대하여 대칭인 방향으로부터 도래하는 음원 신호를 각각 감쇠시키기 위한 빔 포머 처리를 행하고, 빔 포머 출력에 대해서 계산한 파워 스펙트럼 정보들 간의 차분에 기초하여 목적 음원의 스펙트럼 정보를 추출한다.
특허문헌 1에 기재된 음원 분리 장치를 이용하는 것에 의해, 지향 특성이 마이크로폰 소자의 감도에 영향을 받지 않는다고 하는 성질을 실현할 수 있어, 마이크로폰 소자의 감도의 변동에 영향을 받지 않고, 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음 중에서, 목적 음원으로부터의 음원 신호를 분리하는 것이 가능해진다.
일본 특허 제4225430호 공보
Y. Ephraim and D. Malah, "Speech enhancement using minimum mean-square error short-time spectral amplitude estimator", IEEE Trans Acoust., Speech, Signal Processing, ASSP-32, 6, pp.1109-1121, Dec.1984. S. Gustafsson, P. Jax, and P. Vary, "A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics", IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP'98, vol.1, ppt.397-400 vol.1, 12-15 May 1998.
그런데, 특허문헌 1에 기재된 음원 분리 장치에서는, 빔 포머 처리 후에 산출되는 2개의 파워 스펙트럼 정보의 차분이 정해진 임계값 이상인 경우에는 그 차분을 목적음인 것으로 인식하여 그대로 출력하는 한편, 2개의 파워 스펙트럼 정보의 차분이 정해진 임계값 미만인 경우에는 그 차분은 잡음으로서 인식하여 그 주파수 대역의 출력을 0으로 하고 있다. 따라서, 예컨대 자동차의 주행 잡음과 같이 도래 방향이 특정 방향으로 정해지지 않는 확산성 잡음이 존재하는 환경 하에서 특허문헌 1의 음원 분리 장치를 동작시키면, 특정 주파수 대역이 크게 삭제되는 결과, 확산성 잡음이 음원 분리 결과에 불규칙하게 분포되어 뮤지컬 노이즈가 되는 경우가 있다. 덧붙혀, 뮤지컬 노이즈란 잡음을 없앤 후 남은 것이며, 시간축 상에서 그리고 주파수축 상에서 독립된 성분이기 때문에, 부자연스럽고 귀에 거슬리는 소리로 들린다.
또한, 특허문헌 1에서는, 포스트 필터 처리를 빔 포머 처리의 전단에 삽입시킴으로써, 확산성 잡음, 정상 잡음 등을 저감하고, 음원 분리 후의 뮤지컬 노이즈의 발생을 막는 것이 개시되어 있다. 그러나, 마이크로폰이 떨어져 배치된 경우나 휴대 전화나 헤드셋 등의 하우징에 마이크로폰이 몰딩되어 있는 경우, 양쪽 마이크로폰에 입력되는 잡음의 음량차나 위상차가 커진다. 이 때문에, 한쪽 마이크로폰으로 구한 게인을 그대로 다른 한쪽 마이크로폰에 적용하면 대역마다 목적음이 너무 억압되거나, 잡음이 크게 남거나 한다. 그 결과, 뮤지컬 노이즈의 발생을 충분히 막는 것은 곤란해진다.
그래서, 본 발명은 전술한 바와 같은 문제를 해결하기 위해 이루어진 것이며, 마이크로폰 배치의 영향을 받지 않고 뮤지컬 노이즈의 발생을 충분히 저감시키는 것이 가능한 음원 분리 장치, 음원 분리 방법, 및 프로그램을 제공하는 것을 목적으로 한다.
상기 과제를 해결하기 위해, 본 발명의 일 양태는, 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음으로부터, 목적 음원으로부터의 음원 신호를 분리하는 음원 분리 장치로서, 상기 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 서로 상이한 제1 계수를 이용한 주파수 영역에서의 곱합(sum of products) 연산을 실행함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 빔 포머 처리부와, 상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 서로 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 빔 포머 처리부와, 상기 제1 빔 포머 처리부에 의해 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 빔 포머 처리부에 의해 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 파워 계산부와, 상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 빔 포머 처리부에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 가중 계수 산출부를 구비하고, 상기 제1 빔 포머 처리부에 의해 얻어진 신호와, 상기 가중 계수 산출부가 산출하는 상기 가중 계수와의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 장치이다.
또한, 본 발명의 다른 양태는, 제1 빔 포머 처리부와, 제2 빔 포머 처리부와, 파워 계산부와, 가중 계수 산출부를 갖는 음원 분리 장치가 실행하는 음원 분리 방법으로서, 상기 제1 빔 포머 처리부가, 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 서로 상이한 제1 계수를 이용한 주파수 영역에서의 곱합 연산을 실행함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 단계와, 상기 제2 빔 포머 처리부가, 상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 서로 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 단계와, 상기 파워 계산부가, 상기 제1 처리 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 처리 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 제3 단계와, 상기 가중 계수 산출부가, 상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 단계에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 제4 단계를 포함하고, 상기 제1 단계에서 얻어진 신호와, 상기 제4 단계에서 산출된 상기 가중 계수와의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 방법이다.
또한, 본 발명의 다른 양태는, 컴퓨터에, 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 서로 상이한 제1 계수를 이용한 주파수 영역에서의 곱합 연산을 실행함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 처리 단계와, 상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 서로 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 처리 단계와, 상기 제1 처리 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 처리 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 제3 처리 단계와, 상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 처리 단계에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 제4 처리 단계를 포함하고, 상기 제1 처리 단계에서 얻어진 신호와, 상기 제4 처리 단계에서 산출된 상기 가중 계수와의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 프로그램이다.
이들 구성에 의하면, 특히, 확산성 잡음이 존재하는 환경 하에서도, 뮤지컬 노이즈의 발생을 억제하면서, 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음 중에서, 목적 음원으로부터의 음원 신호를 분리하는 것이 가능해진다.
특허문헌 1의 효과를 유지하면서, 뮤지컬 노이즈의 발생을 충분히 저감시키는 것이 가능해진다.
도 1은 제1 실시형태에 따른 음원 분리 시스템의 구성을 도시하는 도면이다.
도 2는 제1 실시형태에 따른 빔 포머부의 구성을 도시하는 도면이다.
도 3은 파워 계산부의 구성을 도시하는 도면이다.
도 4는 마이크 입력 신호에 대한 특허문헌 1에 따른 음원 분리 장치와 본 발명의 제1 실시형태에 따른 음원 분리 장치에서의 처리 결과를 도시하는 도면이다.
도 5는 도 4의 처리 결과의 일부 확대도이다.
도 6은 잡음 추정부의 구성을 도시하는 도면이다.
도 7은 잡음 이퀄라이저부의 구성을 도시하는 도면이다.
도 8은 제1 실시형태에 따른 음원 분리 시스템의 다른 구성을 도시하는 도면이다.
도 9는 제2 실시형태에 따른 음원 분리 시스템의 구성을 도시하는 도면이다.
도 10은 제어부의 구성을 도시하는 도면이다.
도 11은 제3 실시형태에 따른 음원 분리 시스템의 구성의 일례를 도시하는 도면이다.
도 12는 제3 실시형태에 따른 음원 분리 시스템의 구성의 일례를 도시하는 도면이다.
도 13은 제3 실시형태에 따른 음원 분리 시스템의 구성의 일례를 도시하는 도면이다.
도 14는 제4 실시형태에 따른 음원 분리 시스템의 구성을 도시하는 도면이다.
도 15는 지향성 제어부의 구성을 도시하는 도면이다.
도 16은 본 발명의 음원 분리 장치의 지향 특성을 도시하는 도면이다.
도 17은 지향성 제어부의 다른 구성을 도시하는 도면이다.
도 18은 목적음 보정부를 설치한 경우의 본 발명의 음원 분리 장치의 지향 특성을 도시하는 도면이다.
도 19는 음원 분리 시스템에서의 처리의 일례를 도시하는 흐름도이다.
도 20은 잡음 추정부에서의 처리의 세부 사항을 도시하는 흐름도이다.
도 21은 잡음 이퀄라이저부에서의 처리의 세부 사항을 도시하는 흐름도이다.
도 22는 잔류 잡음 억압 산출부에서의 처리의 세부 사항을 도시하는 흐름도이다.
도 23은 빔 포머(30)의 출력값에 대해서 근접음과 원거리음의 경우를 비교한 그래프를 도시하는 도면이다(마이크 간격 3 ㎝).
도 24는 빔 포머(30)의 출력값에 대해서 근접음과 원거리음의 경우를 비교한 그래프를 도시하는 도면이다(마이크 간격 1 ㎝).
도 25는 특허문헌 1의 음원 분리 장치에서의 음원 분리의 경계면을 도시하는 도면이다.
도 26은 특허문헌 1의 음원 분리 장치의 지향 특성을 도시하는 도면이다.
이하, 본 발명에 따른 실시형태에 대해서, 도면을 참조하면서 설명한다.
[제1 실시형태]
도 1은 제1 실시형태에 따른 음원 분리 시스템의 기본적인 구성을 도시하는 도면이다. 이 시스템은 2개의 마이크로폰(이하, 「마이크」라고 함)(10, 11)과, 음원 분리 장치(1)로 구성되어 있다. 이하, 마이크로폰을 2개로 하여 실시형태를 설명하지만, 마이크로폰의 수는 적어도 2개 이상이면 좋고, 2개로 한정되지 않는다.
이 음원 분리 장치(1)는, 도시하지 않고, 전체를 제어하여 연산 처리를 실행하는 CPU와, ROM, RAM, 하드 디스크 장치 등의 기억 장치를 포함하는 하드웨어와, 기억 장치에 기억된 프로그램, 데이터 등을 포함하는 소프트웨어를 구비하고 있다. 이들 하드웨어 및 소프트웨어에 의해, 음원 분리 장치(1)의 각 기능 블록이 실현된다.
2개의 마이크(10, 11)는 평면 위에 서로 떨어져 설치되어 있고, 2개의 음원(R1, R2)으로부터 발생한 신호를 수신한다. 이 때, 이들 2개의 음원(R1, R2)은 2개의 마이크(10, 11)를 연결하는 선분과 교차하는 평면(이하, 분리면이라고 함)을 경계로서 분할된 2개의 영역(이하, 「분리면의 좌우」라고 함)에 각각 위치하는 것으로 하지만, 반드시 분리면에 대하여 좌우 대칭의 위치에 존재할 필요는 없다. 또한 본 실시형태에서는, 분리면을, 2개의 마이크(10, 11)를 연결하는 선분을 면내에 포함하는 평면과 수직으로 교차하는 평면으로서, 상기 선분의 중점을 지나는 평면으로 한 예로 설명한다.
또한, 음원(R1)으로부터 발생하는 음은 취득해야 하는 목적음, 음원(R2)으로부터 발생하는 음은 억압해야 하는 잡음이라 한다(본 명세서에 걸쳐 마찬가지임). 또한, 잡음은 하나에 한정되는 것이 아니라, 복수여도 좋다. 단, 목적음과 잡음의 방향은 상이한 것으로 한다.
이 마이크(10, 11)로 얻은 2개의 음원 신호를, 스펙트럼 분석부(20, 21)에서 각각 마이크 출력마다 주파수 분석하여, 빔 포머부(3)에서 이들 주파수 분석된 신호를 분리면 좌우에 사각(死角)을 형성한 빔 포머(30, 31)로 필터링하고, 파워 계산부(40, 41)에서 그 필터 출력의 파워를 계산한다. 또한, 빔 포머(30, 31)는 바람직하게는, 분리면의 좌우에서, 분리면에 대하여 대칭으로 사각을 형성하는 것이다.
[빔 포머부]
우선, 도 2를 참조하여, 빔 포머(30, 31)를 포함하는 빔 포머부(3)의 구성을 설명한다. 스펙트럼 분석부(20), 스펙트럼 분석부(21)에서 주파수 성분마다 분해된 신호 x1(ω), x2(ω)를 입력으로 하여, 승산기(100a, 100b, 100c, 100d)에서, 필터 계수 w1(ω), w2(ω), w1 *(ω), w2 *(ω)(*는 복소 공역의 관계에 있는 것을 나타냄)를 각각 승산한다.
그리고, 가산기(100e, 100f)에서 2개의 승산 결과를 가산하고, 그 출력으로서 필터링 처리 결과 ds1(ω), ds2(ω)를 출력한다. 목적 방위 θ1에 대한 게인을 1로 하고, 다른 방향 θ2에 하나의 사각(게인 0)을 형성하는 빔 포머(30)의 필터 벡터를 W1(ω, θ1, θ2)=[w1(ω, θ1, θ2), w2(ω, θ1, θ2)]T, 관측 신호를 X(ω, θ1, θ2)=[x1(ω, θ1, θ2), x2(ω, θ1, θ2)]T로 했을 때, 빔 포머(30)의 출력 ds1(ω)은 다음 식에서 구할 수 있다. 단, T는 전치 조작, H는 공역 전치 조작을 나타낸다.
Figure 112012075546903-pct00001
또한, 빔 포머(31)의 필터 벡터를 W2(ω, θ1, θ2)=[w1 *(*ω, θ1, θ2), w2 *(ω, θ1, θ2)] T로 했을 때, 빔 포머(31)의 출력 ds2(ω)는 다음 식에서 구할 수 있다.
Figure 112012075546903-pct00002
이와 같이, 빔 포머부(3)는 복소 공역 필터 계수를 사용함으로써, 분리면에 대하여 대칭적 위치에 사각을 형성한다. 여기서, ω는 각주파수를 나타내고, 주파수 f에 대하여 ω=2πf의 관계에 있다.
[파워 계산부]
다음에, 도 3을 참조하여, 파워 계산부(40, 41)에 대해서 설명한다. 파워 계산부(40, 41)는 이하의 계산식에 의해, 빔 포머(30), 빔 포머(31)로부터의 출력 ds1(ω), ds2(ω)를 파워 스펙트럼 정보 ps1(ω), ps2(ω)로 변환한다.
Figure 112012075546903-pct00003
Figure 112012075546903-pct00004
[가중 계수 산출부]
파워 계산부(40, 41)의 출력 ps1(ω), ps2(ω)는 가중 계수 산출부(50)의 2개의 입력으로서 사용된다. 가중 계수 산출부(50)는 이 2개의 빔 포머(30, 31)의 출력의 파워 스펙트럼 정보를 입력으로 하여, 주파수마다의 가중 계수 GBSA(ω)를 출력한다.
가중 계수 GBSA(ω)는 상기 파워 스펙트럼 정보들 간의 차분에 기초하는 값이며, 가중 계수 GBSA(ω)의 일례로서는, 주파수마다 ps1(ω)과 ps2(ω)의 차분을 계산하고, ps1(ω)의 값이 ps2(ω)의 값보다 큰 경우에는 ps1(ω)과 ps2(ω)의 차분의 제곱근을 ps1(ω)의 제곱근으로 제산한 값을 나타내며, ps1(ω)의 값이 ps2(ω) 이하의 값인 경우에 0을 나타내는 값을 정의역으로 한 단조 증가 함수의 출력값을 생각할 수 있다. 가중 계수 GBSA(ω)를 식으로 나타내면 이하와 같다.
Figure 112012075546903-pct00005
식 (5)에서, max(a, b)는 a 및 b 중 큰 값을 반환하는 함수를 의미한다. 또한, F(x)는 정의역 x≥0에서 dF(x)/dx≥0을 만족하는 광의(廣義)의 단조 증가 함수이며, 예컨대 시그모이드 함수나 2차 함수 등을 생각할 수 있다.
여기서, GBSA(ω)ds1(ω)에 대해서 고찰한다. 식 (1)에서 나타내는 바와 같이, ds1(ω)은 관측 신호 X(ω, θ1, θ2)에 대한 선형 처리에 의해 얻어지는 신호이다. 한편, GBSA(ω)ds1(ω)은 ds1(ω)에 대한 비선형 처리에 의해 얻어지는 신호이다.
도 4는 (a) 마이크의 입력 신호에 대한, (b) 특허문헌 1에 따른 음원 분리 장치의 처리 결과와, (c) 본 실시형태에 따른 음원 분리 장치의 처리 결과를 도시하는 도면이다. 즉, 도 4의 (b) 및 (c)는 GBSA(ω)ds1(ω)을 스펙트로그램으로 나타낸 것의 일례이다. 본 실시형태에 따른 음원 분리 장치의 단조 증가 함수 F(x)에는 시그모이드 함수를 적용했다. 일반적으로 시그모이드 함수는 1/(1+exp(a-bx))을 나타내는 함수이며, 도 4의 (c)의 처리 결과에서는, a=4, b=6을 적용하고 있다.
또한, 도 5는 도 4의 (a)∼(c)에 있어서, 어느 한 시간대에서의 스펙트로그램의 일부분(도면부호 5)을 시간축 방향으로 확대한 확대도이다. 입력 음성[도 5의 (a)]에 대한 특허문헌 1의 음원 분리 장치의 처리 결과[도 5의 (b)]의 스펙트로그램을 보면, 본 실시형태의 음원 분리 장치의 처리 결과[도 5의 (c)]보다, 잡음 성분의 에너지가 시간 방향, 주파수 방향으로 편재되어 있어, 뮤지컬 노이즈가 생기고 있는 상황을 알 수 있다.
한편, 도 4의 (c)의 스펙트로그램의 잡음 성분은 입력 신호와 같이 잡음 성분의 에너지가 시간 방향, 주파수 방향으로 편재되어 있지 않아, 뮤지컬 노이즈가 적은 상황을 알 수 있다.
[뮤지컬 노이즈 저감 게인 산출부]
GBSA(ω)ds1(ω)은 충분히 뮤지컬 노이즈가 저감된 목적 음원으로부터의 음원 신호이지만, 확산성 잡음 등 여러 방향으로부터 도래하는 잡음의 경우, 비선형 처리인 GBSA(ω)는 주파수빈마다 그리고 프레임마다 값이 크게 변하여, 뮤지컬 노이즈를 발생시키는 경향이 있다. 그래서, 비선형 처리 후의 출력에 뮤지컬 노이즈가 생기지 않은 비선형 처리 전의 신호를 부가함으로써 뮤지컬 노이즈를 저감한다. 구체적으로는, 출력 GBSA(ω)를, 빔 포머(30)의 출력 ds1(ω)에 승산하여 얻어지는 신호 XBSA(ω)와, 빔 포머(30)의 출력 ds1(ω)을 정해진 비율로 더하여 생기는 신호를 산출한다.
또한, 다른 방법으로서, 빔 포머(30)의 출력 ds1(ω)에 승산하는 게인을 재산출하는 방법이 있다. 뮤지컬 노이즈 저감 게인 산출부(60)에서는, 가중 계수 산출부(50)의 출력 GBSA(ω)를, 빔 포머(30)의 출력 ds1(ω)에 승산하여 얻어지는 신호 XBSA(ω)와, 빔 포머(30)의 출력 ds1(ω)을 정해진 비율로 더하는 게인값 GS(ω)을 재산출한다.
여기서, XBSA(ω)에 빔 포머(30)의 출력 ds1(ω)을 어느 비율로 혼합한 것(XS(ω))은 이하의 식으로 나타낸다. γS는 혼합 시의 비율을 결정하는 가중 계수이며, 0보다 크고 1보다 작은 값이다.
Figure 112012075546903-pct00006
또한, 식 (6)을, 빔 포머(30)의 출력 ds1(ω)에 게인을 승산하는 형태로 전개하면, 이하와 같이 된다.
Figure 112012075546903-pct00007
즉, 뮤지컬 노이즈 저감 게인 산출부(60)는 GBSA(ω)로부터 1을 빼는 감산부와, 그것에 가중 계수(γS)를 곱하는 승산부와, 그것에 1을 더하는 가산부로 구성할 수 있다. 즉, 이들 구성으로부터, 빔 포머(30)의 출력 ds1(ω)에 곱하는 게인으로서, 뮤지컬 노이즈가 저감된 게인값 GS(ω)가 재산출된다.
게인값 GS(ω)와 빔 포머(30)의 출력 ds1(ω)의 승산 결과에 기초하여 얻어지는 신호는 GBSA(ω)ds1(ω)에 비해 뮤지컬 노이즈가 저감된 목적 음원으로부터의 음원 신호가 된다. 이 신호를 후술하는 시간 파형 변환부(120)에서 시간 영역 신호로 변환해서, 출력함으로써, 목적 음원으로부터의 음원 신호로 하는 것도 가능하다.
그런데, 게인값 GS(ω)는 GBSA(ω)에 비교하여 반드시 커지기 때문에, 뮤지컬 노이즈를 저감하는 한편, 잡음 성분을 증가해 버린다. 그래서, 잔류 잡음을 억압하기 위해, 뮤지컬 노이즈 저감 게인 산출부(60)의 후단에 잔류 잡음 억압 게인 산출부(110)를 설치하고, 추가로 최적의 게인값을 재산출한다.
또한, 빔 포머(30)의 출력 ds1(ω)에, 뮤지컬 노이즈 저감 게인 산출부(60)에서 산출된 게인 GS(ω)를 승산한 XS(ω)의 잔류 잡음에는, 돌발성 잡음도 포함된다. 그래서, 돌발성 잡음도 추정할 수 있도록 잔류 잡음 억압 게인 산출부(110)에서 이용하는 추정 잡음의 산출에 있어서, 이하에 설명하는 잡음 추정부(70)와 잡음 이퀄라이저부(100)를 도입한다.
[잡음 추정부]
잡음 추정부(70)의 블록도를 도 6의 (a)∼(d)에 도시한다. 잡음 추정부(70)는 마이크(10, 11)로 얻은 2개의 신호로부터 적응 필터링을 실시하고, 목적음인 음원(R1)으로부터의 신호 성분을 상쇄시킴으로써, 잡음 성분만을 취득한다.
여기서, 음원(R1)으로부터의 신호를 S(t)로 한다. 또한 음원(R1)으로부터의 음은 음원(R2)으로부터의 음보다 먼저 마이크(10)에 도달한다. 그 이외의 음원으로부터 발생하는 소리의 신호를 nj(t)로 하고, 이들을 잡음으로 한다. 이 때, 마이크(10)의 입력 x1(t)과, 마이크(11)의 입력 x2(t)는 이하와 같다.
Figure 112012075546903-pct00008
hs1: 목적음으로부터 마이크(10)까지의 전달 계수
hs2: 목적음으로부터 마이크(11)까지의 전달 계수
hnj1: 잡음으로부터 마이크(10)까지의 전달 계수
hnj2: 잡음으로부터 마이크(11)까지의 전달 계수
도 6에 도시되는 적응 필터부(71)는 마이크(10)의 입력 신호와 적응 필터 계수를 간직하고, 마이크(11)로 얻어진 신호 성분과 일치하는 유사 신호를 산출한다. 다음에, 감산부(72)에서, 마이크(11)의 신호로부터 유사 신호를 감산하고, 마이크(11)에 포함되는 음원(R1)으로부터의 신호중의 오차 신호(잡음 신호)를 산출한다. 이 오차 신호 xABM(t)이 잡음 추정부(70)의 출력 신호가 된다.
Figure 112012075546903-pct00009
또한, 적응 필터부(71)에서 오차 신호로부터 적응 필터 계수를 갱신한다. 예컨대, 적응 필터의 계수 H(t)의 갱신에 NLMS(Normalized Least Mean Square)를 이용한다. 또한, 외부의 VAD(Voice Activity Detection)값이나, 후술하는 제어부(160)의 정보로부터 적응 필터의 갱신을 제어하여도 좋다[도 6의 (c), 도 6의 (d)]. 구체적으로는, 예컨대 임계값 비교부(74)에서, 제어부(160)로부터의 제어 신호가 정해진 임계값보다 크다고 판단한 경우에 적응 필터의 계수 H(t)가 갱신되도록 되어 있어도 좋다. 또한, VAD값이란, 목적 음성이 발화 상태인지 비발화 상태인지를 나타내는 값이다. 값으로서는, On/Off의 2치 변이여도 좋고, 발화 상태의 정확도를 나타내는 어느 범위를 갖는 확률값이어도 좋다.
또한, 이 때, 목적음과 잡음이 무상관인 것으로 가정하면, 잡음 추정부(70)의 출력 xABM(t)은 이하와 같이 산출된다.
Figure 112012075546903-pct00010
이 때, 목적음을 억압하는 전달 함수를 추정할 수 있었다고 하면, 출력 xABM(t)은 이하와 같이 된다.
Figure 112012075546903-pct00011
(목적음을 억압하는 전달 계수 H(t)→hs2hs1 -1이 추정될 수 있었다고 한다)
이상으로부터, 목적음 방향 이외의 잡음 성분을 어느 정도 추정할 수 있다. 특히, Griffith-Jim 방법과 달리 고정 필터를 이용하지 않기 때문에 마이크 게인의 차이에 로버스트하게 목적음을 억압할 수 있다. 또한 도 6의 (b)∼도 6의 (d)에 도시되는 바와 같이, 지연기(73)에서의 필터의 DELAY값을 변경함으로써, 잡음으로 판단되는 공간 범위를 제어할 수 있다. 따라서, DELAY값에 따라 지향성을 좁히거나 넓힐 수 있다.
또한, 적응 필터로서는, 상기에서 설명한 것 외에, 마이크의 게인 특성차가 로버스트해지는 것이면 좋다.
또한, 잡음 추정부(70)의 출력에 대해서는, 스펙트럼 분석부(80)에서 주파수 분석하고, 잡음 파워 계산부(90)에서 주파수빈마다의 파워를 계산한다. 또한, 잡음 추정부(70)의 입력으로서는, 스펙트럼 분석 후의 마이크 입력 신호여도 좋다.
[잡음 이퀄라이저부]
잡음 추정부(70)의 출력을 주파수 분석한 XABM(ω)에 포함되는 잡음량과, 가중 계수 GBSA(ω)를, 빔 포머(30)의 출력 ds1(ω)에 승산하여 얻어지는 신호 XBSA(ω)와, 빔 포머(30)의 출력 ds1(ω)을 정해진 비율로 더하여 생기는 신호 XS(ω)에 포함되는 잡음량은 스펙트럼의 형태는 닮아 있지만 에너지량에 괴리가 있다. 따라서, 잡음 이퀄라이저부(100)에서는, 양자의 에너지량을 일치시키기 위해 보정을 행한다.
잡음 이퀄라이저부(100)의 블록도를 도 7에 도시한다. 또한, 이하, 잡음 이퀄라이저부(100)의 입력으로서, 파워 계산부(90)의 출력 pXABM(ω), 뮤지컬 노이즈 저감 게인 산출부(60)의 출력 GS(ω), 빔 포머(30)의 출력 ds1(ω)을 사용한 예를 설명한다.
우선, 승산부(101)는 ds1(ω)과 GS(ω)를 승산한다. 그 출력에 대하여, 파워 계산부(102)에서는 파워를 구한다. 스무딩부(103, 104)는 외부의 VAD값이나 후술하는 제어부(160)로부터의 신호를 접수함으로써 잡음으로 판단한 구간에서, 파워 계산부(90)의 출력 pXABM(ω)과 파워 계산부(102)의 출력 pXS(ω)에 대하여 각각 스무딩 처리를 행한다. 「스무딩 처리」란, 연속적인 데이터에 있어서, 다른 데이터보다 크게 괴리되어 있는 데이터의 영향을 저감하기 위해 데이터를 평균화하는 처리이다. 본 실시형태에서는, 1차 IIR 필터를 이용하여 스무딩 처리를 실행하고, 스무딩 처리된 파워 계산부(90)의 출력 pX'ABM(ω)와 파워 계산부(102)의 출력 pX'S(ω)는 현 처리 프레임에서의 파워 계산부(90)의 출력 pXABM(ω)와 파워 계산부(102)의 출력 pXS(ω)에, 과거의 프레임에서의 스무딩 처리된 파워 계산부(90)의 출력과 파워 계산부(102)의 출력을 이용하여 산출된다. 스무딩 처리의 일례로서, 스무딩 처리된 파워 계산부(90)의 출력 pX'ABM(ω)과 파워 계산부(102)의 출력 pX'S(ω)는 이하의 식 (13-1)과 같이 산출된다. 여기서, 시계열을 알기 쉽게 하기 위해 처리 프레임 번호 m을 설정하여, 현 처리 프레임을 m, 하나 앞의 처리 프레임을 m-1로 한다. 또한, 스무딩부(103)에서의 처리는 임계값 비교부(105)에서, 제어부(160)로부터의 제어 신호가 정해진 임계값보다 작다고 판단된 경우에 실행되도록 되어 있어도 좋다.
Figure 112012075546903-pct00012
이퀄라이저 갱신부(106)는 pX'ABM(ω)과 pX'S(ω)의 출력비를 산출한다. 즉, 이퀄라이저 갱신부(106)의 출력은 이하와 같다.
Figure 112012075546903-pct00013
이퀄라이저 적용부(107)는 이퀄라이저 갱신부(106)의 출력 HEQ(ω)와 파워 계산부(90)의 출력 pXABM(ω)에 기초하여, XS(ω)에 포함되는 추정 잡음의 파워 pλd(ω)를 산출한다. pλd(ω)는 예컨대 이하와 같은 계산에 기초하여 산출하면 좋다.
Figure 112012075546903-pct00014
[잔류 잡음 억압 게인 산출부]
잔류 잡음 억압 게인 산출부(110)에서는, 빔 포머(30)의 출력 ds1(ω)에 게인값 GS(ω)를 적용했을 때에 잔류하는 잡음 성분을 억압하기 위해, ds1(ω)에 곱하는 게인을 재산출한다. 즉, 잔류 잡음 억압 게인 산출부(110)에서는, ds1(ω)에 GS(ω)를 적용한 값 XS(ω)에 대하여, 잔류 잡음 성분의 추정값 λd(ω)에 기초해서, XS(ω)에 포함되는 잡음 성분을 적절히 제거하는 게인인 잔류 잡음 억압 게인 GT(ω)를 산출한다. 게인의 산출에는, 위너 필터 MMSE-STSA법(비특허문헌 1 참조)이 자주 이용되고 있다. 그러나, MMSE-STSA법은 잡음을 정규 분포로서 가정하고 있기 때문에, 돌발성 잡음 등은 MMSE-STSA의 가정에 적합하지 않은 경우가 있다. 그래서, 본 실시형태에서는, 비교적 돌발성 잡음을 억압하기 쉬운 추정기를 이용한다. 단, 추정기에는, 어떠한 방법을 이용하여도 좋다.
잔류 잡음 억압 게인 산출부(110)는 이하와 같이 하여 게인 GT(ω)를 산출한다. 우선, 잔류 잡음 억압 게인 산출부(110)는 사후 SNR[(S+N)/N)]을 기초로 유도되는 순시적 사전 SNR[클린 음성 대 잡음비(S/N)]을 산출한다.
Figure 112012075546903-pct00015
다음에, 잔류 잡음 억압 게인 산출부(110)는 DECISION-DIRECTED APPROACH에 의해 사전 SNR[클린 음성 대 잡음비(S/N)]을 산출한다.
Figure 112012075546903-pct00016
그리고, 잔류 잡음 억압 게인 산출부(110)는 사전 SNR을 기초로 최적의 게인값을 산출한다. 이하의 식 (18)에서의 βp(ω)는 게인의 하한값을 규정하는 스펙트럼 플로어값이다. 이것을 크게 설정함으로써 목적음의 음질 열화가 억제되지만 잔류 잡음량이 증가한다. 한편, 작게 설정하면, 잔류 잡음량이 적어지지만 목적음의 음질 열화가 커진다.
Figure 112012075546903-pct00017
잔류 잡음 억압 게인 산출부(110)의 출력값은 이하와 같이 표현된다.
Figure 112012075546903-pct00018
이것에 의해, 빔 포머(30)의 출력 ds1(ω)에 곱하는 게인으로서, 뮤지컬 노이즈가 저감되고 잔류 잡음도 작아지는 게인값 GT(ω)이 재산출된다. 또한, 목적음의 과잉 억압을 막기 위해 외부 VAD 정보나 본 발명의 제어부(160)의 제어 신호의 값에 따라 λd(ω)의 값을 조정하여도 좋다.
[게인 승산부]
가중 계수 산출부(50)의 출력 GBSA(ω), 뮤지컬 노이즈 저감 게인 산출부(60)의 출력 GS(ω), 또는 잔류 잡음 억압 산출부(110)의 출력 GT(ω)는 게인 승산부(130)의 입력으로서 사용된다. 게인 승산부(130)는 빔 포머(30)의 출력 ds1(ω)과, 가중 계수 GBSA(ω), 뮤지컬 노이즈 저감 게인 GS(ω), 또는 잔류 잡음 억압 GT(ω)과의 승산 결과에 기초하는 신호 XBSA(ω)를 출력한다. 즉, XBSA(ω)의 값으로서는, 예컨대 ds1(ω)과 GBSA(ω)의 승산값, ds1(ω)과 GS(ω)의 승산값, 또는 ds1(ω)과 GT(ω)의 승산값을 이용하면 좋다.
특히, ds1(ω)과 GT(ω)의 승산값으로부터 얻어진 목적 음원으로부터의 음원 신호는 뮤지컬 노이즈, 잡음 성분이 매우 적은 신호가 된다.
Figure 112012075546903-pct00019
[시간 파형 변환부]
시간 파형 변환부(120)는 게인 승산부(130)의 출력 XBSA(ω)를 시간 영역 신호로 변환한다.
[음원 분리 시스템의 다른 구성예]
또한, 도 8은 본 실시형태에 따른 음원 분리 시스템의 다른 구성예를 도시하는 도면이다. 본 구성과 도 1에 도시되는 음원 분리 시스템의 구성의 차이는, 도 1의 음원 분리 시스템에서는 잡음 추정부(70)를 시간 영역에서 실현하였지만, 도 8의 음원 분리 시스템에서는 주파수 영역에서 실현하고 있는 점이다. 한편, 다른 구성에 대해서는 도 1의 음원 분리 시스템의 구성과 마찬가지이다. 이 구성의 경우, 스펙트럼 분석부(80)는 필요없게 된다.
[제2 실시형태]
도 9는 본 발명의 제2 실시형태에 따른 음원 분리 시스템의 기본적 구성을 도시하는 도면이다. 본 실시형태에 따른 음원 분리 시스템에서는, 제어부(160)를 갖는 점이 특징이다. 제어부(160)는 전체 주파수 대역의 가중 계수 GBSA(ω)에 기초하여, 잡음 추정부(70), 잡음 이퀄라이저부(100), 잔류 잡음 억압 게인 산출부(110)의 내부 파라미터를 제어하는 것을 특징으로 한다. 내부 파라미터의 예로서는, 적응 필터의 스텝 사이즈, 가중 계수 GBSA(ω)의 스펙트럼 플로어값(β), 추정 잡음의 잡음량 등을 들 수 있다.
제어부(160)는 구체적으로는 이하와 같은 처리를 실행한다. 예컨대, 가중 계수 GBSA(ω)의 전체 주파수 대역에 걸친 평균값을 산출한다. 그 평균값이 크면 음성 존재 확률이 높다고 판단할 수 있기 때문에, 제어부(160)는 산출한 평균값과 정해진 임계값을 비교하고, 그 비교 결과에 기초하여 다른 블록을 제어한다.
또한, 예컨대 제어부(160)는 가중 계수 산출부(50)에서 산출되는 가중 계수 GBSA(ω)의 히스토그램을 0∼1.0에 있어서 0.1마다 산출한다. 또한, GBSA(ω)의 값이 큰 경우에 음성이 존재할 확률이 높고, GBSA(ω)의 값이 작은 경우에 음성이 존재할 확률이 낮기 때문에, 그 경향을 나타낸 가중 테이블을 미리 준비해 둔다. 그리고, 산출한 히스토그램에 가중 테이블을 곱하여 이들의 평균값을 산출하고, 임계값과 비교하여, 그 비교 결과로부터 다른 블록을 제어한다.
또한, 예컨대 제어부(160)는 가중 계수 GBSA(ω)의 히스토그램을 0∼1.0에 있어서 0.1마다 산출한 후, 예컨대 0.7∼1.0의 범위에 분포하는 개수를 세어, 그 수와 임계값을 비교하고, 그 비교 결과에 기초하여 다른 블록을 제어한다.
또한, 제어부(160)는 2개의 마이크로폰[마이크(10, 11)] 중 적어도 한쪽으로부터의 출력 신호를 접수하여도 좋다. 이 경우의 제어부(160)의 블록도를 도 10에 도시한다. 제어부(160)에서의 처리의 기본적인 생각으로서는, ds1(ω)과 GBSA(ω)의 승산 결과에 기초하는 신호 XBSA(ω)와, 잡음 추정부(165) 및 스펙트럼 분석부(166)에 의한 처리의 출력 XABM(ω)의 파워 스펙트럼 밀도를, 에너지 비교부(167)에서 비교한다.
구체적으로는, XBSA(ω)와 XABM(ω)의 파워 스펙트럼 밀도에 대해서, 각각 대수(對數)를 취해 스무딩한 것을, XBSA(ω)', XABM(ω)'으로 하면, 제어부(160)는 목적음의 추정 SNRD(ω)를 이하와 같이 산출한다.
Figure 112012075546903-pct00020
그리고, 전술한 잡음 추정부(70) 및 스펙트럼 분석부(80)에서의 처리와 마찬가지로, D(ω)로부터 정상(잡음) 성분 DN(ω)을 검출하고, D(ω)로부터 DN(ω)을 감산함으로써, D(ω)의 돌발 잡음 성분 DS(ω)를 검출할 수 있다.
Figure 112012075546903-pct00021
마지막으로, DS(ω)와 미리 정해진 임계값을 비교하고, 그 비교 결과로부터 다른 블록을 제어한다.
[제3 실시형태]
(제1 구성)
도 11은 본 발명의 제3 실시형태에 따른 음원 분리 시스템의 기본적인 구성의 일례를 도시하는 도면이다.
도 11에 도시되는 음원 분리 시스템에서의 음원 분리 장치(1)는 스펙트럼 분석부(20, 21)와, 빔 포머(30, 31)와, 파워 계산부(40, 41)와, 가중 계수 산출부(50)와, 가중 계수 승산부(310)와, 시간 파형 변환부(120)를 갖는다. 여기서, 가중 계수 승산부(310) 이외의 구성에 대해서는, 전술한 다른 실시형태에서의 구성과 마찬가지이다.
가중 계수 승산부(310)는 빔 포머(30)에 의해 얻어진 신호 ds1(ω)과, 가중 계수 산출부(50)가 산출하는 가중 계수를 승산한다.
(제2 구성)
도 12는 본 발명의 제3 실시형태에 따른 음원 분리 시스템의 기본적인 구성의 다른 예를 도시하는 도면이다.
도 12에 도시되는 음원 분리 시스템에서의 음원 분리 장치(1)는 스펙트럼 분석부(20, 21)와, 빔 포머(30, 31)와, 파워 계산부(40, 41)와, 가중 계수 산출부(50)와, 가중 계수 승산부(310)와, 뮤지컬 노이즈 저감부(320)와, 잔류 잡음 억압부(330)와, 잡음 추정부(70)와, 스펙트럼 분석부(80)와, 파워 계산부(90)와, 잡음 이퀄라이저부(100)와, 시간 파형 변환부(120)를 갖는다. 여기서, 가중 계수 승산부(310)와, 뮤지컬 노이즈 저감부(320)와, 잔류 잡음 억압부(330) 이외의 구성에 대해서는, 전술한 다른 실시형태에서의 구성과 마찬가지이다.
뮤지컬 노이즈 저감부(320)는 가중 계수 승산부(310)의 출력 결과와 빔 포머(30)로부터 얻어진 신호를, 정해진 비율로 가산한 결과를 출력한다.
잔류 잡음 억압부(330)는 뮤지컬 노이즈 저감부(320)의 출력 결과와 잡음 이퀄라이저부(100)의 출력 결과에 기초하여, 뮤지컬 노이즈 저감부(320)의 출력 결과에 포함되는 잔류 잡음을 억압한다.
또한, 도 12의 구성에서는, 잡음 이퀄라이저부(100)는 뮤지컬 노이즈 저감부의 출력 결과와, 잡음 추정부(70)가 산출한 잡음 성분에 기초하여, 뮤지컬 노이즈 저감부(320)의 출력 결과에 포함되는 잡음 성분을 산출한다.
여기서, 가중 계수 GBSA(ω)를, 빔 포머(30)의 출력 ds1(ω)에 승산하여 얻어지는 신호 XBSA(ω)와, 빔 포머(30)의 출력 ds1(ω)을 정해진 비율로 더하여 생기는 신호 XS(ω)에는, 잡음 환경에 따라 돌발성 잡음이 포함되는 경우가 있다. 그래서, 돌발성 잡음도 추정할 수 있도록 이하에 설명하는 잡음 추정부(70)와 잡음 이퀄라이저부(100)를 도입한다.
이상과 같은 구성에 의해, 도 12의 음원 분리 장치(1)는 잔류 잡음 억압부(330)의 출력 결과에 기초하여 혼합음으로부터, 목적 음원으로부터의 음원 신호를 분리한다.
즉, 도 12의 음원 분리 장치(1)에서는, 뮤지컬 노이즈 저감 게인 GS(ω)나, 잔류 잡음 억압 게인 GT(ω)를 산출하지 않는 점이 제1 실시형태 및 제2 실시형태의 음원 분리 장치(1)와 상이한 점이다. 도 12와 같은 구성에서도, 제1 실시형태에 따른 음원 분리 장치(1)와 동일한 효과를 발휘한다.
(제3 구성)
또한, 도 13은 본 발명의 제3 실시형태에 따른 음원 분리 시스템의 기본적인 구성의 다른 예를 도시하는 도면이다. 도 13에 도시되는 음원 분리 장치(1)는 도 12의 음원 분리 장치(1)의 구성에, 제어부(160)가 추가되어 있다. 제어부(160)의 기능은 제2 실시형태에서 설명한 기능과 마찬가지이다.
[제4 실시형태]
도 14는 본 발명의 제4 실시형태에 따른 음원 분리 시스템의 기본적인 구성을 도시하는 도면이다. 본 실시형태에 따른 음원 분리 시스템에서는, 지향성 제어부(170), 목적음 보정부(180), 및 도래 방향 추정부(190)를 갖는 점이 특징이다.
지향성 제어부(170)는 도래 방향 추정부(190)에서 추정되는 목적음 위치에 기초하여, 분리하고자 하는 2개의 음원(R1, R2)이 가상적으로 가능한 한 분리면에 대하여 대칭이 되도록, 스펙트럼 분석부(20, 21)에서 주파수 분석된 마이크 출력 중 한쪽 마이크 출력에 지연 조작을 부여한다. 즉, 가상적으로 분리면을 회전시키지만, 이때의 회전각에 대해서, 주파수 대역에 따라 최적의 값을 산출한다.
그런데, 지향성 제어부(170)에서 지향성을 좁힌 후에 빔 포머부(3)에서 필터 처리를 실행함으로써, 목적음의 주파수 특성에 약간의 왜곡이 생긴다고 하는 문제가 있다. 또한, 지연량이 빔 포머부(3)의 입력 신호에 부여됨으로써, 출력 게인이 작아져 버리는 문제가 생긴다. 그래서, 목적음 보정부(180)에서는, 목적음 출력의 주파수 특성을 보정한다.
[지향성 제어부]
도 25는 2개의 음원 R1'(목적음), 음원 R2'(잡음)가 마이크를 연결하는 선분과 교차하는 원래의 분리면에 대하여 θτ만큼 회전한 분리면에 대하여, 좌우 대칭이 되는 상황을 도시하고 있다. 특허문헌 1에 기술되어 있는 바와 같이, 한쪽 마이크로 취득한 신호에 일정 지연량 τd를 부여함으로써, 도 25에 도시되는 상황과 등가의 상황을 실현할 수 있다. 즉, 마이크 간의 위상차를 조작하고, 지향 특성을 조정하기 때문에, 상기 식 (1)에서, 위상 회전자 D(ω)를 곱한다. 또한, 이하의 식에서, W1(ω)=W1(ω, θ1, θ2), X(ω)=X(ω, θ1, θ2)이다.
Figure 112012075546903-pct00022
여기서, 지연량 τd는 이하와 같이 산출된다.
Figure 112012075546903-pct00023
d는 마이크 사이의 거리[m], c는 음속[m/s]이다.
그러나, 위상 정보를 기초로 어레이 처리를 하는 경우, 이하의 식으로 표현되는 공간 샘플링 정리를 만족시켜야 한다.
Figure 112012075546903-pct00024
이 정리를 만족하기 위해 허용되는 지연량의 최대값 τθ로서는,
Figure 112012075546903-pct00025
가 된다. 즉, 각주파수(ω)가 커질수록, 허용되는 지연량 τθ는 작아져 버린다. 그러나, 특허문헌 1의 음원 분리 장치에서는, 식 (27-2)에서 부여되는 지연량이 일정하기 때문에, 주파수 영역의 고역에 있어서 식 (29)를 만족하지 않게 되는 경우가 생긴다. 결과적으로서, 도 26에 도시되는 바와 같이, 원하는 음원 분리면으로부터 크게 떨어진 방향으로부터 도래하는 반대 존의 고역 성분의 소리가 출력되어 버린다.
그래서, 본 실시형태에 따른 음원 분리 장치에서는, 도 15에 도시되는 바와 같이, 지향성 제어부(170)에 최적 지연량 산출부(171)를 설치하고, 가상적으로 분리면을 회전시킬 때의 회전각 θτ에 대하여 일정한 지연을 부여하는 것이 아니라, 주파수대마다 공간 샘플링 정리를 만족하는 최적의 지연량을 산출함으로써, 상기한 문제를 해결한다.
지향성 제어부(170)는 최적 지연량 산출부(171)에서, 식 (28)로부터 θτ에 의한 지연량을 부여했을 때 주파수마다 공간 샘플링 정리를 만족하는지를 판정하여, 공간 샘플링 정리를 만족하면 θτ에 대응하는 지연량 τd를 위상 회전자(172)에 적용하고, 공간 샘플링 정리를 만족하지 않으면, 지연량 τθ를 위상 회전자(172)에 적용한다.
Figure 112012075546903-pct00026
도 16은 본 실시형태에 따른 음원 분리 장치(1)의 지향 특성을 도시하는 도면이다. 도 16에 도시되는 바와 같이, 식 (31)의 지연량을 적용함으로써, 원하는 음원 분리면으로부터 크게 떨어진 방향으로부터 도래하는 반대 존의 고역 성분의 소리가 출력되어 버린다고 하는 문제를 해결할 수 있다.
또한, 도 17은 지향성 제어부(170)의 다른 구성을 도시하는 도면이다. 이 경우, 최적 지연량 산출부(171)에서 식 (31)에 기초하여 산출된 지연량을 한쪽 마이크 입력에만 부여하는 것이 아니라, 위상 회전자(172, 173)에 의해, 쌍방의 마이크 입력에 각각 절반씩의 지연을 부여하여 전체적으로 동량의 지연 조작을 실현하여도 좋다. 즉, 한쪽 마이크로 취득한 신호에 지연량 τd(또는 τθ)를 부여하는 것이 아니라, 한쪽 마이크로 취득한 신호에 지연량 τd/2(또는 τθ/2), 다른 한쪽 마이크로 취득한 신호에 지연량 -τd/2(또는 -τθ/2)를 부여함으로써, 전체의 지연차가 τd(또는 τθ)가 되도록 하여도 좋다.
[목적음 보정부]
다른 문제점으로서, 지향성 제어부(170)에서 지향성을 좁힌 후에 빔 포머(30, 31)로 BSA 처리를 실행함으로써, 목적음의 주파수 특성에 약간의 왜곡이 생기는 것을 들 수 있다. 또한, 식 (31)의 처리에 의해, 출력 게인이 작아져 버리는 문제가 생긴다. 따라서, 목적음 출력의 주파수 특성을 보정하기 위해 목적음 보정부(180)를 설치하여 주파수 이퀄라이징을 행한다. 즉, 목적음의 장소는 대략 고정되어 있기 때문에, 추정되는 목적음 위치에 대하여 보정을 행한다. 본 실시형태에서는, 어떤 점음원으로부터 각 마이크까지의 전파 시간이나 감쇠량을 나타내는 전달 함수를 간이적으로 모방한 물리 모델을 이용한다. 여기서는, 마이크(10)의 전달 함수를 기준값으로 하고, 마이크(11)의 전달 함수를 마이크(10)에 대한 상대값으로서 표현한다. 이 때, 목적음 위치로부터 각 마이크에 도달하는 소리의 전파 모델 Xm(ω)=[Xm1(ω), Xm2(ω)]은 이하와 같이 나타낼 수 있다. γs는 마이크(10)와 목적음 사이의 거리, θS는 목적음의 방향이다.
Figure 112012075546903-pct00027
이 물리 모델을 이용함으로써, 추정되는 목적음 위치로부터 발생한 음성이 각 마이크에 어떻게 입력되는 것인지를 미리 상정할 수 있고, 목적음에 대한 왜곡형편도 간이적으로 산출된다. 상기한 전파 모델에 대한 가중 계수는 GBSA(ω|Xm(ω))가 되고, 이 역수를 목적음 보정부(180)에서 이퀄라이저로서 유지해 둠으로써, 목적음의 주파수 왜곡을 보정할 수 있다. 따라서 이퀄라이저는,
Figure 112012075546903-pct00028
로 구할 수 있다.
이상으로부터, 가중 계수 산출부(50)에서 산출된 가중 계수 GBSA(ω)는 목적음 보정부(180)에 의해, 이하의 식에 나타내는 GBSA'(ω)로 보정된다.
Figure 112012075546903-pct00029
도 18은 θS가 0도, γS가 1.5[m]로서 목적음 보정부(180)의 이퀄라이저를 설계했을 때의 음원 분리 장치(1)의 지향 특성을 도시하는 도면이다. 0도 방향으로부터 도래하는 음원에 대하여, 출력 신호의 주파수 왜곡이 없는 것을 도 18로부터 확인할 수 있다.
또한, 뮤지컬 노이즈 저감 게인 산출부(60)에서는, 이 보정된 가중 계수 GBSA'(ω)를 입력으로 한다. 즉, 식 (7) 등의 GBSA(ω)는 GBSA'(ω)로 치환할 수 있다.
또한, 제어부(160)에는, 마이크(10, 11)로 얻어진 신호 중 적어도 한쪽이 입력되도록 되어 있어도 좋다.
[음원 분리 시스템의 처리 흐름]
도 19는 음원 분리 시스템에서의 처리의 일례를 도시하는 흐름도이다.
스펙트럼 분석부(20, 21)에서, 마이크(10, 20) 각각에서 얻어진 입력 신호 1, 입력 신호 2에 대하여, 주파수 분석이 실행된다(단계 S101, S102). 또한, 여기서, 도래 방향 추정부(190)에서 목적음의 위치가 추정되고, 지향성 제어부(170)에 서, 추정된 음원(R1, R2)의 위치에 기초하여 최적 지연량이 산출되며, 이 최적 지연량으로부터 입력 신호 1에 위상 회전자가 승산되도록 되어 있어도 좋다.
다음에, 단계 S101, S102에서 주파수 분석된 신호 x1(ω), x2(ω)에 대하여, 빔 포머(30, 31)로 필터링 처리가 실행된다(단계 S103, S104). 또한, 이들 필터링 처리의 출력에 대하여, 파워 계산부(40, 41)에서 파워가 계산된다(단계 S105, S106).
가중 계수 산출부(50)에서, 단계 S105, S106에서의 계산 결과로부터 분리 게인값 GBSA(ω)가 산출된다(단계 S107). 또한, 여기서, 목적음 보정부(180)에서 가중 계수값 GBSA(ω)가 재산출됨으로써, 목적음의 주파수 특성이 보정되도록 되어 있어도 좋다.
다음에, 뮤지컬 노이즈 저감 게인 산출부(60)에서, 뮤지컬 노이즈를 저감시키는 게인값 GS(ω)가 산출된다(단계 S108). 또한, 제어부(160)에서, 단계 S107에서 산출된 가중 계수값 GBSA(ω)에 기초하여, 잡음 추정부(70), 잡음 이퀄라이저부(100), 잔류 잡음 억압 게인 산출부(110)를 제어하기 위한 제어 신호가 산출된다(단계 S109).
다음에, 잡음 추정부(70)에서, 잡음 추정이 실행된다(단계 S110). 또한, 단계 S110에서의 잡음 추정의 결과 xABM(t)에 대하여, 스펙트럼 분석부(80)에서 주파수 분석이 실행된 후(단계 S111), 파워 계산부(90)에서 주파수빈마다의 파워가 계산된다(단계 S112). 또한, 잡음 이퀄라이저부(100)에서, 단계 S112에서 산출된 추정 잡음의 파워 보정이 실행된다.
다음에, 잔류 잡음 억압 게인 산출부(110)에서는, 단계 S103에서 처리된 빔 포머(30)의 출력값 ds1(ω)에 단계 S108에서 산출된 게인값 GS(ω)를 적용한 값에 대하여, 잡음 성분을 제거하기 위한 게인 GT(ω)가 산출된다(단계 S114). 또한, 게인 GT(ω)의 산출은 단계 S112에서 파워 보정된 잡음 성분의 추정값 λd(ω)에 기초하여 행해진다.
그리고, 게인 승산부(130)에서, 단계 S103의 빔 포머(30)에서의 처리 결과에 대하여, 단계 S114에서 산출된 게인이 승산된다(단계 S117).
마지막으로, 시간 파형 변환부(120)에서, 단계 S117에서의 승산 결과(목적음)가 시간 영역 신호로 변환된다(단계 S118).
또한, 제3 실시형태에서 설명한 바와 같이, 단계 S108 및 단계 S114의 게인을 산출하지 않고, 뮤지컬 노이즈 저감부(320)와 잔류 잡음 억압부(330)에 의해, 빔 포머(30)의 출력 신호로부터 잡음을 제외하게 되어 있어도 좋다.
또한, 도 19의 흐름도에 나타내는 각 처리는 크게 3개의 처리로 나눠진다. 3개의 처리란, 즉 빔 포머(30)로부터의 출력 처리(단계 S101∼S103)와, 게인 산출 처리(단계 S101∼S108 및 단계 S114)와, 잡음 추정 처리(단계 S110∼S113)이다.
게인 산출 처리와 잡음 추정 처리에 대해서는, 게인 산출 처리의 단계 S101∼S107에서 가중 계수가 산출된 후, 단계 S108의 처리가 실행되는 동시에, 단계 S109의 처리와 잡음 추정 처리(단계 S110∼S113)가 처리된 후, 단계 S114에서 빔 포머(30)의 출력에 승산되는 게인이 결정된다.
[잡음 추정부의 처리 흐름]
도 20은 도 19의 단계 S110에서의 처리의 세부 사항을 나타내는 흐름도이다. 우선, 음원(R1)으로부터의 신호 성분과 일치하는 유사 신호 HT(t)·x1(t)가 산출된다(단계 S201). 다음에, 도 6의 감산부(72)에서, 마이크(11)의 신호 x2(t)로부터, 단계 S201에서 산출된 유사 신호가 감산됨으로써, 잡음 추정부(70)의 출력이 되는 오차 신호 xABM(t)가 산출된다(단계 S202).
그 후, 제어부(160)로부터의 제어 신호가 정해진 임계값보다 큰 경우에는(단계 S203), 적응 필터부(71)에서, 적응 필터의 계수 H(t)가 갱신된다(단계 S204).
[잡음 이퀄라이저부의 처리 흐름]
도 21은 도 19의 단계 S113에서의 처리의 세부 사항을 나타내는 흐름도이다. 우선, 빔 포머(30)의 출력 ds1(ω)에 대하여 뮤지컬 노이즈 저감 게인 산출부(60)로부터 출력되는 게인 GS(ω)가 승산되어 출력 XS(ω)가 얻어진다(단계 S301).
제어부(160)로부터의 제어 신호가 정해진 임계값보다 작은 경우에는(단계 S302), 도 7의 스무딩부(103)에서, 파워 계산부(102)의 출력 pXS(ω)의 시간 스무딩 처리가 실행된다. 또한, 스무딩부(104)에서, 파워 계산부(90)의 출력 pXABM(ω)의 시간 스무딩 처리가 실행된다(단계 S303, S304).
그리고, 이퀄라이저 갱신부(106)에서, 단계 S303 및 단계 S304의 처리 결과의 비율 HEQ(ω)가 산출되어, 이퀄라이저값이 HEQ(ω)로 갱신된다(단계 S305). 마지막으로, 이퀄라이저 적용부(107)에서, XS(ω)에 포함되는 추정 잡음 λd(ω)가 산출된다(단계 S306).
[잔류 잡음 억압 게인 산출부(110)의 처리 흐름]
도 22는 도 19의 단계 S114에서의 처리의 세부 사항을 나타내는 흐름도이다. 제어부(160)로부터의 제어 신호가 정해진 임계값보다 큰 경우에는(단계 S401), 잡음 이퀄라이저부(100)의 출력으로서, 잡음 성분의 추정값인 λd(ω)의 값을 예컨대 0.75배 등으로 작게 하는 처리가 실행된다(단계 S402). 다음에, 사후 SNR이 산출된다(단계 S403). 또한, 사전 SNR이 산출된다(단계 S404). 마지막으로, 잔류 잡음 억압 게인 GT(ω)가 산출된다(단계 S405).
[다른 실시형태]
가중 계수 산출부(50)에서의 게인값 GBSA(ω)의 산출 시에, 정해진 바이어스값 γ(ω)을 이용하여 상기 가중 계수를 산출하여도 좋다. 예컨대, 게인값 GBSA(ω)의 분모에 정해진 바이어스값을 가산하여 새로운 게인값을 산출하여도 좋다. 상기 바이어스값의 가산은, 마이크의 게인 특성이 갖춰져 있고, 헤드셋이나 핸드셋 등 목적음이 마이크 근처에 존재하는 경우에 있어서, 특히 저역의 SNR의 개선을 기대할 수 있다.
도 23 및 도 24는 빔 포머(30)의 출력값에 대해서 근접음과 원거리음의 경우를 비교한 그래프를 도시하는 도면이다. 도 23 및 도 24의 (a1)∼(a3)은 근접음에 대한 출력값을 나타내는 그래프이며, (b1)∼(b3)는 원거리음에 대한 출력값을 나타내는 그래프이다. 또한, 도 23에서는, 마이크(10)와 마이크(11)의 간격은 0.03 m이며, 마이크(10)와 음원(R1, R2) 사이의 거리는 각각 0.06 m(미터)와 1.5 m이다. 또한 도 24에서는, 마이크(10)와 마이크(11)의 간격은 0.01 m이며, 마이크(10)와 음원(R1, R2) 사이의 거리는 각각 0.02 m(미터)와 1.5 m이다.
예컨대, 도 23의 (a1)은 근접음에 의한 빔 포머(30)의 출력값 ds1(ω)(=|X(ω)W1(ω)|2)의 값을 나타내는 그래프, 도 23의 (b1)은 원거리음에 의한 ds1(ω)의 값을 나타내는 그래프이다. 여기서는, 근접음을 목적음 위치로 하여 목적음 보정부(180)를 설계하고 있고, 원거리음의 경우에는 목적음 보정부(180)의 영향에 의해 저역에서 ps1(ω)의 값은 작아진다. 또한, ds1(ω)의 값이 작은 경우[즉, ps1(ω)의 값이 작은 경우], γ(ω)의 영향이 커진다. 즉 분자에 비해 상대적으로 분모의 항이 커지기 때문에 GBSA(ω)가 더 작아진다. 따라서, 원거리음의 저역이 억압된다.
Figure 112012075546903-pct00030
또한, 도 7의 구성에서는, 상기한 식 (35)에서 얻어진 GBSA(ω)는 빔 포머(30)의 출력값 ds1(ω)에 적용되어, GBSA(ω)와 ds1(ω)의 승산 결과 XBSA(ω)는, 이하와 같이 산출된다. 또한, 이하의 식에서는, 일례로서, 음원 분리 장치(1)가 도 7에 도시되는 구성인 경우를 나타낸다.
Figure 112012075546903-pct00031
전술한 바와 같이, 도 23 및 도 24의 (a1), (b1)은 빔 포머(30)의 출력 ds1(ω)을 나타내는 그래프이다. 또한, 각 도면의 (a2), (b2)는 식 (35)의 분모에 γ(ω)을 삽입하지 않는 경우의 출력 XBSA(ω)를 나타내는 그래프이다. 또한, 각 도면의 (a3), (b3)은 식 (35)의 분모에 γ(ω)을 삽입하는 경우의 출력 XBSA(ω)를 나타내는 그래프이다. 각 도면으로부터, 원거리음의 저역이 억압되어 있는 것을 알 수 있다. 즉, 저역 중심에 존재하는 주행 잡음 등에는 효과를 기대할 수 있다.
또한, 상기 설명에서, 빔 포머(30)는 제1 빔 포머 처리부를 구성한다. 또한, 빔 포머(31)는 제2 빔 포머 처리부를 구성한다. 또한, 게인 승산부(130)는 음원 분리부를 구성한다.
본 발명은 음성 인식 장치, 카내비게이션, 집음 장치, 녹음 장치, 음성 커맨드에 의한 기기의 제어 등, 음원을 정밀도 좋게 분리해야 하는 모든 산업에 이용 가능하다.
1: 음원 분리 장치 3: 빔 포머부
10, 11: 마이크 20, 21: 스펙트럼 분석부
30, 31: 빔 포머 40, 41: 파워 계산부
50: 가중 계수 산출부 60: 뮤지컬 노이즈 저감 게인 산출부
70: 잡음 추정부 71: 적응 필터부
72: 감산부 73: 지연기
74: 임계값 비교부 80: 스펙트럼 분석부
90: 파워 계산부 100: 잡음 이퀄라이저부
101: 승산부 102: 파워 계산부
103, 104: 스무딩부 105: 임계값 비교부
106: 이퀄라이저 갱신부 107: 이퀄라이저 적용부
110: 잔류 잡음 억압 게인 산출부 120: 시간 파형 변환부
130: 게인 승산부 160: 제어부
161A, 161B: 스펙트럼 분석부 162A, 162B: 빔 포머
163A, 163B: 파워 계산부 164: 가중 계수 산출부
165: 잡음 추정부 166: 스펙트럼 분석부
167: 에너지 비교부 170: 지향성 제어부
171: 최적 지연량 산출부 172, 173: 위상 회전자
180: 목적음 보정부 190: 도래 방향 추정부
310: 가중 계수 승산부 320: 뮤지컬 노이즈 저감부
330: 잔류 잡음 억압부

Claims (12)

  1. 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음으로부터, 목적 음원으로부터의 음원 신호를 분리하는 음원 분리 장치에 있어서,
    상기 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 서로 상이한 제1 계수를 이용한 주파수 영역에서의 곱합 연산을 실행함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 빔 포머 처리부와,
    상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 서로 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 빔 포머 처리부와,
    상기 제1 빔 포머 처리부에 의해 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 빔 포머 처리부에 의해 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 파워 계산부와,
    상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 빔 포머 처리부에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 가중 계수 산출부
    를 구비하고,
    상기 제1 빔 포머 처리부에 의해 얻어진 신호와, 상기 가중 계수 산출부가 산출하는 상기 가중 계수의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 음원 분리부
    를 갖는 것을 특징으로 하는 음원 분리 장치.
  2. 제1항에 있어서, 상기 제1 빔 포머 처리부에 의해 얻어진 신호와, 상기 가중 계수 산출부가 산출하는 상기 가중 계수를 승산하는 가중 계수 승산부를 더 가지며,
    상기 음원 분리부는 상기 가중 계수 승산부의 출력 결과와 상기 제1 빔 포머 처리부로부터 얻어진 신호를 정해진 비율로 가산한 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 장치.
  3. 제2항에 있어서, 상기 가중 계수 승산부의 출력 결과와 상기 제1 빔 포머 처리부로부터 얻어진 신호를 정해진 비율로 가산한 결과를 출력하는 뮤지컬 노이즈 저감부와,
    상기 마이크로폰 쌍 중, 상기 목적 음원에 가까운 마이크로폰으로부터의 출력 신호에 필터 계수가 가변인 적응 필터를 적용함으로써 상기 마이크로폰 쌍 중, 상기 목적 음원으로부터 먼 마이크로폰으로부터의 출력 신호와 일치하는 유사 신호를 산출하고, 상기 목적 음원으로부터 먼 마이크로폰으로부터의 출력 신호와 상기 유사 신호의 차분에 의해 잡음 성분을 산출하는 잡음 추정부와,
    상기 뮤지컬 노이즈 저감부의 출력 결과와, 상기 잡음 추정부가 산출한 상기 잡음 성분에 기초하여, 상기 뮤지컬 노이즈 저감부의 출력 결과에 포함되는 잡음 성분을 산출하는 잡음 이퀄라이저부와,
    상기 뮤지컬 노이즈 저감부의 출력 결과와 잡음 이퀄라이저부의 출력 결과에 기초하여 상기 뮤지컬 노이즈 저감부의 출력 결과에 포함되는 잔류 잡음을 억압하는 잔류 잡음 억압부
    를 가지며,
    상기 음원 분리부는 상기 잔류 잡음 억압부의 출력 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 장치.
  4. 제3항에 있어서, 상기 잡음 추정부, 상기 잡음 이퀄라이저부, 및 상기 잔류 잡음 억제부 중 적어도 하나를 상기 주파수마다의 가중 계수에 기초하여 제어하는 제어부를 갖는 음원 분리 장치.
  5. 제1항에 있어서, 상기 제1 빔 포머 처리부에서 얻어진 음원 신호에 상기 가중 계수를 승산한 승산 결과와, 상기 제1 빔 포머 처리부에서 얻어진 음원 신호를, 정해진 비율로 가산하기 위한 게인을 산출하는 뮤지컬 노이즈 저감 게인 산출부를 가지며,
    상기 음원 분리부는, 상기 뮤지컬 노이즈 저감 게인 산출부에서 산출된 게인과 상기 제1 빔 포머 처리부에서 얻어진 음원 신호의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 장치.
  6. 제5항에 있어서, 상기 마이크로폰 쌍 중, 상기 목적 음원에 가까운 마이크로폰으로부터의 출력 신호에 필터 계수가 가변인 적응 필터를 적용함으로써 상기 마이크로폰 쌍 중, 상기 목적 음원으로부터 먼 마이크로폰으로부터의 출력 신호와 일치하는 유사 신호를 산출하고, 상기 목적 음원으로부터 먼 마이크로폰으로부터의 출력 신호와 상기 유사 신호의 차분에 의해 잡음 성분을 산출하는 잡음 추정부와,
    상기 제1 빔 포머 처리부에서 얻어진 음원 신호와 상기 뮤지컬 노이즈 저감 게인 산출부에서 산출된 게인을 승산한 승산 결과와, 상기 잡음 추정부가 산출한 상기 잡음 성분에 기초하여, 상기 제1 빔 포머 처리부에서 얻어진 음원 신호와 상기 뮤지컬 노이즈 저감 게인 산출부에서 산출된 게인을 승산한 승산 결과에 포함되는 잡음 성분을 산출하는 잡음 이퀄라이저부와,
    상기 뮤지컬 노이즈 저감 게인 산출부에서 산출된 게인과, 상기 잡음 이퀄라이저부에서 산출된 상기 잡음 성분에 기초하여, 상기 제1 빔 포머 처리부에서 얻어진 음원 신호에 승산하기 위한 게인으로서, 상기 제1 빔 포머 처리부에서 얻어진 음원 신호와 상기 뮤지컬 노이즈 저감 게인 산출부에서 산출된 게인을 승산한 승산 결과에 포함되는 잔류 잡음을 억압하기 위한 게인을 산출하는 잔류 잡음 억압 게인 산출부
    를 구비하고,
    상기 음원 분리부는 잔류 잡음 억압 게인 산출부에서 산출된 게인과 상기 제1 빔 포머 처리부에서 얻어진 음원 신호의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 장치.
  7. 제6항에 있어서, 상기 잡음 추정부, 상기 잡음 이퀄라이저부, 및 상기 잔류 잡음 억압 게인 산출부 중 적어도 하나를 상기 주파수마다의 가중 계수에 기초하여 제어하는 제어부를 갖는 음원 분리 장치.
  8. 제1항에 있어서, 상기 마이크로폰 쌍 중 적어도 한쪽의 마이크로폰으로부터의 출력 신호에 승산하고, 이 마이크로폰의 위치를 가상적으로 이동시키기 위한 기준 지연량을 주파수마다 산출하는 기준 지연량 산출부와, 상기 마이크로폰 쌍 중 적어도 한쪽 마이크로폰으로부터의 출력 신호에 대하여 주파수 대역마다 지연량을 부여하는 지향성 제어부를 구비하고,
    상기 지향성 제어부는, 기준 지연량 산출부가 산출하는 상기 기준 지연량이 공간 샘플링 정리를 만족하는 주파수 대역에서는, 이 기준 지연량을 상기 지연량으로 하고, 상기 기준 지연량이 공간 샘플링 정리를 만족하지 않는 주파수 대역에서는, 하기 식 (30)에 의해 구하는 최적 지연량(τ0)을 상기 지연량으로 하는 것을 특징으로 하는 음원 분리 장치.
    [단, 하기 식 (30) 중, d는 2개의 마이크로폰 사이의 거리, c는 음속, ω는 주파수]
    Figure 112012076299808-pct00032
  9. 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음으로부터, 목적 음원으로부터의 음원 신호를 분리하는 음원 분리 장치에 있어서,
    상기 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 상이한 제1 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 빔 포머 처리 수단과,
    상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 빔 포머 처리 수단과,
    상기 제1 빔 포머 처리 수단에 의해 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 빔 포머 처리 수단에 의해 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 파워 계산 수단과,
    상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 빔 포머 처리 수단에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 가중 계수 산출 수단
    을 구비하고,
    상기 제1 빔 포머 처리 수단에 의해 얻어진 신호와, 상기 가중 계수 산출 수단이 산출하는 상기 가중 계수의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 음원 분리 수단
    을 갖는 것을 특징으로 하는 음원 분리 장치.
  10. 제9항에 있어서, 상기 제1 빔 포머 처리 수단에 의해 얻어진 신호와, 상기 가중 계수 산출 수단이 산출하는 상기 가중 계수를 승산하는 가중 계수 승산 수단을 더 가지며,
    상기 음원 분리 수단은, 상기 가중 계수 승산 수단의 출력 결과와 상기 제1 빔 포머 처리 수단으로부터 얻어진 신호를, 정해진 비율로 가산한 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 것을 특징으로 하는 음원 분리 장치.
  11. 제1 빔 포머 처리부와, 제2 빔 포머 처리부와, 파워 계산부와, 가중 계수 산출부와, 음원 분리부를 갖는 음원 분리 장치가 실행하는 음원 분리 방법에 있어서,
    상기 제1 빔 포머 처리부가, 복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 서로 상이한 제1 계수를 이용한 주파수 영역에서의 곱합 연산을 실행함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 단계와,
    상기 제2 빔 포머 처리부가, 상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 서로 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 단계와,
    상기 파워 계산부가, 상기 제1 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 제3 단계와,
    상기 가중 계수 산출부가, 상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 단계에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 제4 단계와,
    상기 음원 분리부가, 상기 제1 단계에서 얻어진 신호와, 상기 제4 단계에서 산출된 상기 가중 계수의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 제5 단계
    를 포함하는 것을 특징으로 하는 음원 분리 방법.
  12. 컴퓨터에,
    복수의 음원으로부터 발생한 음원 신호가 혼합된 혼합음이 입력되는 2개의 마이크로폰을 포함하는 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여 서로 상이한 제1 계수를 이용한 주파수 영역에서의 곱합 연산을 실행함으로써, 상기 2개의 마이크로폰을 연결하는 선분과 교차하는 평면을 경계로 하여 목적 음원의 방향이 포함되는 영역과 반대 영역으로부터 도래하는 음원 신호를 감쇠시키는 제1 처리 단계와,
    상기 마이크로폰 쌍으로부터의 각각의 출력 신호에 대하여, 상기 서로 상이한 제1 계수와 주파수 영역에서 복소 공역의 관계에 있는 제2 계수를 승산하고, 얻어지는 결과를 주파수 영역에서 곱합 연산함으로써, 상기 평면을 경계로 하여 상기 목적 음원의 방향이 포함되는 영역으로부터 도래하는 음원 신호를 감쇠시키는 제2 처리 단계와,
    상기 제1 처리 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제1 스펙트럼 정보를 계산하며, 상기 제2 처리 단계에서 얻어진 신호로부터 주파수마다의 파워값을 갖는 제2 스펙트럼 정보를 계산하는 제3 처리 단계와,
    상기 제1 스펙트럼 정보와 상기 제2 스펙트럼 정보의 주파수마다의 파워값의 차분에 따라, 상기 제1 처리 단계에서 얻어진 신호에 승산하기 위한 주파수마다의 가중 계수를 산출하는 제4 처리 단계와,
    상기 제1 처리 단계에서 얻어진 신호와, 상기 제4 처리 단계에서 산출된 상기 가중 계수의 승산 결과에 기초하여, 상기 혼합음으로부터 상기 목적 음원으로부터의 음원 신호를 분리하는 제5 처리 단계
    를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020127024378A 2010-08-25 2011-08-25 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 KR101339592B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010188737 2010-08-25
JPJP-P-2010-188737 2010-08-25
PCT/JP2011/004734 WO2012026126A1 (ja) 2010-08-25 2011-08-25 音源分離装置、音源分離方法、及び、プログラム

Publications (2)

Publication Number Publication Date
KR20120123566A KR20120123566A (ko) 2012-11-08
KR101339592B1 true KR101339592B1 (ko) 2013-12-10

Family

ID=45723148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127024378A KR101339592B1 (ko) 2010-08-25 2011-08-25 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Country Status (8)

Country Link
US (1) US20130142343A1 (ko)
EP (1) EP2562752A4 (ko)
JP (1) JP5444472B2 (ko)
KR (1) KR101339592B1 (ko)
CN (1) CN103098132A (ko)
BR (1) BR112012031656A2 (ko)
TW (1) TW201222533A (ko)
WO (1) WO2012026126A1 (ko)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
CN102447993A (zh) * 2010-09-30 2012-05-09 Nxp股份有限公司 声音场景操纵
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP5845760B2 (ja) * 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
US8712951B2 (en) * 2011-10-13 2014-04-29 National Instruments Corporation Determination of statistical upper bound for estimate of noise power spectral density
US8943014B2 (en) 2011-10-13 2015-01-27 National Instruments Corporation Determination of statistical error bounds and uncertainty measures for estimates of noise power spectral density
KR101987966B1 (ko) * 2012-09-03 2019-06-11 현대모비스 주식회사 차량용 어레이 마이크의 음성 인식 향상 시스템 및 그 방법
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
WO2014163796A1 (en) 2013-03-13 2014-10-09 Kopin Corporation Eyewear spectacle with audio speaker in the temple
AT514412A1 (de) * 2013-03-15 2014-12-15 Commend Internat Gmbh Verfahren zur Erhöhung der Sprachverständlichkeit
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
EP2819429B1 (en) * 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
KR101790641B1 (ko) 2013-08-28 2017-10-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
US9497528B2 (en) * 2013-11-07 2016-11-15 Continental Automotive Systems, Inc. Cotalker nulling based on multi super directional beamformer
US9747921B2 (en) * 2014-02-28 2017-08-29 Nippon Telegraph And Telephone Corporation Signal processing apparatus, method, and program
US10176823B2 (en) 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
WO2015178942A1 (en) * 2014-05-19 2015-11-26 Nuance Communications, Inc. Methods and apparatus for broadened beamwidth beamforming and postfiltering
CN105100338B (zh) * 2014-05-23 2018-08-10 联想(北京)有限公司 降低噪声的方法和装置
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息***有限公司 一种基于mmse的歌曲去伴奏方法和装置
DE102015203600B4 (de) 2014-08-22 2021-10-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. FIR-Filterkoeffizientenberechnung für Beamforming-Filter
WO2016034454A1 (en) * 2014-09-05 2016-03-10 Thomson Licensing Method and apparatus for enhancing sound sources
EP3029671A1 (en) * 2014-12-04 2016-06-08 Thomson Licensing Method and apparatus for enhancing sound sources
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
CN105702262A (zh) * 2014-11-28 2016-06-22 上海航空电器有限公司 一种头戴式双麦克风语音增强方法
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN106157967A (zh) 2015-04-28 2016-11-23 杜比实验室特许公司 脉冲噪声抑制
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9460727B1 (en) * 2015-07-01 2016-10-04 Gopro, Inc. Audio encoder for wind and microphone noise reduction in a microphone array system
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
CN108292508B (zh) * 2015-12-02 2021-11-23 日本电信电话株式会社 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质
CN107924685B (zh) * 2015-12-21 2021-06-29 华为技术有限公司 信号处理装置和方法
GB2549922A (en) * 2016-01-27 2017-11-08 Nokia Technologies Oy Apparatus, methods and computer computer programs for encoding and decoding audio signals
CN107404684A (zh) * 2016-05-19 2017-11-28 华为终端(东莞)有限公司 一种采集声音信号的方法和装置
EP3509325B1 (en) * 2016-05-30 2021-01-27 Oticon A/s A hearing aid comprising a beam former filtering unit comprising a smoothing unit
CN107507624B (zh) * 2016-06-14 2021-03-09 瑞昱半导体股份有限公司 声源分离方法与装置
US11346917B2 (en) * 2016-08-23 2022-05-31 Sony Corporation Information processing apparatus and information processing method
GB201615538D0 (en) 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP6436180B2 (ja) * 2017-03-24 2018-12-12 沖電気工業株式会社 収音装置、プログラム及び方法
US10311889B2 (en) * 2017-03-20 2019-06-04 Bose Corporation Audio signal processing for noise reduction
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
CN108630216B (zh) * 2018-02-15 2021-08-27 湖北工业大学 一种基于双麦克风模型的mpnlms声反馈抑制方法
US10755728B1 (en) * 2018-02-27 2020-08-25 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN110610718B (zh) * 2018-06-15 2021-10-08 炬芯科技股份有限公司 一种提取期望声源语音信号的方法及装置
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN111175727B (zh) * 2018-11-13 2022-05-03 中国科学院声学研究所 一种基于条件波数谱密度的宽带信号方位估计的方法
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
CN111863015B (zh) * 2019-04-26 2024-07-09 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
EP3973716A1 (en) 2019-05-23 2022-03-30 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
CN110244260B (zh) * 2019-06-17 2021-06-29 杭州电子科技大学 基于声能流矢量补偿的水下目标高精度doa估计方法
CN112216303B (zh) * 2019-07-11 2024-07-23 北京声智科技有限公司 一种语音处理方法、装置及电子设备
EP4018680A1 (en) 2019-08-23 2022-06-29 Shure Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
JP6854967B1 (ja) * 2019-10-09 2021-04-07 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN111179960B (zh) * 2020-03-06 2022-10-18 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11290814B1 (en) 2020-12-15 2022-03-29 Valeo North America, Inc. Method, apparatus, and computer-readable storage medium for modulating an audio output of a microphone array
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
CN113362864B (zh) * 2021-06-16 2022-08-02 北京字节跳动网络技术有限公司 音频信号处理的方法、装置、存储介质及电子设备
CN114166334B (zh) * 2021-11-23 2023-06-27 中国直升机设计研究所 一种非消声风洞旋翼噪声测点的声衰减系数校准方法
CN113921027B (zh) * 2021-12-14 2022-04-29 北京清微智能信息技术有限公司 一种基于空间特征的语音增强方法、装置及电子设备
CN114979902B (zh) * 2022-05-26 2023-01-20 珠海市华音电子科技有限公司 一种基于改进的变步长ddcs自适应算法的降噪拾音方法
TWI812276B (zh) * 2022-06-13 2023-08-11 英業達股份有限公司 振噪影響硬碟效能的測試方法與系統

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2007147732A (ja) 2005-11-24 2007-06-14 Japan Advanced Institute Of Science & Technology Hokuriku 雑音低減システム及び雑音低減方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3795610B2 (ja) * 1997-01-22 2006-07-12 株式会社東芝 信号処理装置
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
CN101238511B (zh) * 2005-08-11 2011-09-07 旭化成株式会社 声源分离装置、音频识别装置、移动电话机、声源分离方法
DE102006047982A1 (de) * 2006-10-10 2008-04-24 Siemens Audiologische Technik Gmbh Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe
JP5305743B2 (ja) * 2008-06-02 2013-10-02 株式会社東芝 音響処理装置及びその方法
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
EP2192794B1 (en) * 2008-11-26 2017-10-04 Oticon A/S Improvements in hearing aid algorithms
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
KR101761312B1 (ko) * 2010-12-23 2017-07-25 삼성전자주식회사 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
US20140064514A1 (en) * 2011-05-24 2014-03-06 Mitsubishi Electric Corporation Target sound enhancement device and car navigation system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2007147732A (ja) 2005-11-24 2007-06-14 Japan Advanced Institute Of Science & Technology Hokuriku 雑音低減システム及び雑音低減方法

Also Published As

Publication number Publication date
JPWO2012026126A1 (ja) 2013-10-28
KR20120123566A (ko) 2012-11-08
TW201222533A (en) 2012-06-01
EP2562752A1 (en) 2013-02-27
CN103098132A (zh) 2013-05-08
US20130142343A1 (en) 2013-06-06
EP2562752A4 (en) 2013-10-30
WO2012026126A1 (ja) 2012-03-01
BR112012031656A2 (pt) 2016-11-08
JP5444472B2 (ja) 2014-03-19

Similar Documents

Publication Publication Date Title
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
US10403299B2 (en) Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP5762956B2 (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
EP2237271B1 (en) Method for determining a signal component for reducing noise in an input signal
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
US7464029B2 (en) Robust separation of speech signals in a noisy environment
JP6134078B1 (ja) ノイズ抑制
CN103718241B (zh) 噪音抑制装置
US11315586B2 (en) Apparatus and method for multiple-microphone speech enhancement
KR20090017435A (ko) 빔 형성 및 후-필터링 조합에 의한 노이즈 감소 방법
US20140193000A1 (en) Method and apparatus for generating a noise reduced audio signal using a microphone array
Schwarz et al. A two-channel reverberation suppression scheme based on blind signal separation and Wiener filtering
Hashemgeloogerdi et al. Joint beamforming and reverberation cancellation using a constrained Kalman filter with multichannel linear prediction
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
Zhao et al. Closely coupled array processing and model-based compensation for microphone array speech recognition
JP2012049715A (ja) 音源分離装置、音源分離方法、及び、プログラム
Martın-Donas et al. A postfiltering approach for dual-microphone smartphones
Xiong et al. A study on joint beamforming and spectral enhancement for robust speech recognition in reverberant environments
Khoubrouy et al. Improving misalignment for feedback path estimation in hearing aid by multiple short-time noise injections
CN113053408B (zh) 一种声源分离方法及装置
CN111863017B (zh) 一种基于双麦克风阵列的车内定向拾音方法及相关装置
Zhang et al. Speech enhancement using compact microphone array and applications in distant speech acquisition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171114

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181121

Year of fee payment: 6