KR20120068574A - Apparatus and method for removing a reverberation based on cepstral feature vector - Google Patents

Apparatus and method for removing a reverberation based on cepstral feature vector Download PDF

Info

Publication number
KR20120068574A
KR20120068574A KR1020100130256A KR20100130256A KR20120068574A KR 20120068574 A KR20120068574 A KR 20120068574A KR 1020100130256 A KR1020100130256 A KR 1020100130256A KR 20100130256 A KR20100130256 A KR 20100130256A KR 20120068574 A KR20120068574 A KR 20120068574A
Authority
KR
South Korea
Prior art keywords
reverberation
srr
component
signal
estimated
Prior art date
Application number
KR1020100130256A
Other languages
Korean (ko)
Other versions
KR101764789B1 (en
Inventor
정소영
정재훈
김정수
오광철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020100130256A priority Critical patent/KR101764789B1/en
Publication of KR20120068574A publication Critical patent/KR20120068574A/en
Application granted granted Critical
Publication of KR101764789B1 publication Critical patent/KR101764789B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PURPOSE: A residual removing apparatus and a method thereof are provided to remove reverberation from a voice signal which is distorted by a noise capable of increasing the performance of voice recognition. CONSTITUTION: A first estimating unit(102) estimates a post SRR(Signal to Reverberation Ratio) in a Mel filter bank domain through Rayleigh distribution. A second estimating unit(103) estimates a prior SRR in a Mel filter bank domain through post SRR. A removing unit(104) calculates reverberation component of an MFCC(Mel-Frequency Cepstral Coefficient) feature vector which is detected through the extracted post SRR.

Description

켑스트럴 특징 벡터를 이용한 잔향 제거 장치 및 방법{Apparatus and method for removing a reverberation based on cepstral feature vector}Apparatus and method for removing a reverberation based on cepstral feature vector}

음성 인식을 위해 음성을 왜곡시키는 성분을 제거하는 기술과 관련된다.It relates to techniques for removing components that distort speech for speech recognition.

어떤 기기를 제어하기 위해서는 사람이 직접 그 기기를 조작하는 것이 일반적이다. 그러나 최근에는 기술이 발전함에 따라 사람의 직접 조작 이외에도 다양한 인터페이스가 등장하게 되었다. In order to control a device, it is common for a person to operate the device directly. However, in recent years, with the development of technology, various interfaces have appeared in addition to the direct manipulation of humans.

새롭게 등장한 인터페이스 중 대표적인 것으로는 음성을 이용한 인터페이스가 있다. 사용자는 음성을 통해 기기를 보다 직관적으로 사용할 수가 있다. 음성 인터페이스를 채용한 기기는 컴퓨터, 스마트 폰, 로봇 등과 같이 여러 가지가 있다.A representative interface among the newly emerged interfaces is an interface using voice. Users can use the device more intuitively through voice. There are many devices employing voice interfaces, such as computers, smartphones, and robots.

음성 인터페이스를 통해 기기를 제어하기 위해서는 음성 인식이 필수적으로 이루어져야 한다. 기기에 포함된 음성 인식 장치는 수신된 소리에서 사용자의 음성을 추출하고 추출된 사용자 음성의 의미를 파악한 후 그 의미에 대응되는 적절한 작업을 수행한다. In order to control the device through the voice interface, voice recognition is essential. The speech recognition apparatus included in the device extracts the user's voice from the received sound, grasps the meaning of the extracted user's voice, and performs an appropriate operation corresponding to the meaning.

그런데 사용자와 기기 간의 환경 특성에 따라 음성 외에 다른 불필요한 성분이 음성을 왜곡시키는 경우가 빈번하다. 대표적인 왜곡 요인으로는 잡음과 잔향이 있다. 잠음은 음성 성분과 상관없는(uncorrelated) 신호를 의미하는 것으로 이러한 잡음이 깨끗한 음성 신호에 더해져서 음성 왜곡을 유발한다. 잔향은 음성 성분의 지연 성분(delayed signal component)을 의미하는 것으로 이러한 잔향이 깨끗한 음성 신호에 더해져서 음성 왜곡을 유발한다.However, according to the environmental characteristics between the user and the device, other unnecessary components often distort the voice. Typical distortion factors are noise and reverberation. Sleep refers to an uncorrelated signal, and this noise is added to the clear speech signal, causing speech distortion. Reverberation refers to a delayed signal component of speech components. These reverberations are added to a clean speech signal to cause speech distortion.

음성 인식의 성능을 높이기 위해 잡음에 의해 왜곡된 음성 신호에서 잔향을 제거하는 잔향 제거 장치 및 방법이 제공된다.An apparatus and method for removing reverberation are provided for removing reverberation from a speech signal distorted by noise to increase the performance of speech recognition.

본 발명의 일 양상에 따른 잔향 제거 장치는, 음성 성분 및 잔향 성분을 포함하는 혼합 신호를 수신하고, 수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 검출부, 레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 제 1 추정부, 추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 제 2 추정부, 및 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산하고, 계산된 장향 성분을 혼합 신호에서 제거하는 제거부를 포함할 수 있다.An apparatus for reverberation removal according to an aspect of the present invention receives a mixed signal including a voice component and a reverberation component, converts the received mixed signal, and then performs a voice component and a reverberation component in a cepstral vector domain. Detection unit for detecting the MFCC feature vector (Mel-frequency cepstral coefficient feature vector) expressed as the sum of the posterior SRR (Seral) in the Mel filter bank domain using a Rayleigh distrubution using a first estimator for estimating to Reverberation Ratio, a second estimator for estimating a prior SRR in a mel filter bank region using the estimated post SRR, and an estimated prior SRR And calculating a reverberation component among the detected MFCC feature vectors, and removing the calculated reverberation component from the mixed signal.

또한, 본 발명의 일 양상에 따른 잔향 제거 방법은, 음성 성분 및 잔향 성분을 포함하는 혼합 신호를 수신하는 단계, 수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 단계, 레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 단계, 추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 단계, 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산하는 단계, 및 계산된 잔향 성분을 혼합 신호에서 제거하는 단계를 포함할 수 있다.In addition, the reverberation removing method according to an aspect of the present invention, the step of receiving a mixed signal comprising the speech component and the reverberation component, by converting the received mixed signal to the speech component in the cepstral vector domain (cepstral vector domain) And detecting a MFCC feature vector expressed as a sum of reverberation components, and using a Rayleigh distrubution in the Mel filter bank domain. Estimating a SRR (Singal to Reverberation Ratio), estimating a prior SRR in the mel filter bank region using the estimated post-SRR, and detecting the MFCC using the estimated prior SRR. Calculating a reverberation component in the feature vector, and removing the calculated reverberation component from the mixed signal.

개시된 내용에 의하면, 잔향 성분이 켑스트럴 특징 벡터에 기초하여 제거되기 때문에 잔향에 강인한 음성 인식을 구현할 수 있다. 또한, 음성의 특징 벡터에서 잔향 성분을 추정하기 때문에 음성 인식 성능을 더욱 향상시킬 수가 있다.According to the disclosed contents, since the reverberation component is removed based on the Chunstral feature vector, speech recognition robust to the reverberation can be realized. In addition, since the reverberation component is estimated from the feature vector of the speech, the speech recognition performance can be further improved.

도 1은 본 발명의 일 실시예에 따른 잔향 제거 장치를 도시한다.
도 2는 본 발명의 일 실시예에 따른 잔향 제거 방법을 도시한다.
1 shows an apparatus for removing reverberation according to an embodiment of the present invention.
2 illustrates a method for removing reverberation according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 예를 상세히 설명한다. Hereinafter, specific examples for carrying out the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 잔향 제거 장치를 도시한다.1 shows an apparatus for removing reverberation according to an embodiment of the present invention.

도 1을 참조하면, 잔향 제거 장치(100)는 컴퓨터, 스마트 폰, 로봇, 게임기 등과 같은 기기에서 음성 인식 기반의 시스템 제어를 위한 구성의 일부로 사용될 수 있다. Referring to FIG. 1, the reverberation removing apparatus 100 may be used as part of a configuration for system control based on voice recognition in a device such as a computer, a smart phone, a robot, a game machine, and the like.

예를 들어, 잔향 제거 장치(100)는 제 1 신호를 수신하고, 수신된 제 1 신호를 적절하게 처리한 후, 제 2 신호를 출력할 수 있다. 제 1 신호는 잔향(reverberation)에 의해 왜곡된 음성 신호가 될 수 있다. 제 2 신호는 잔향이 제거된 깨끗한 음성 신호가 될 수 있다. 본 실시예에 따라 제 1 신호는 음성 성분 및 잡음 성분이 포함된 혼합 신호, 제 2 신호는 혼합 신호에서 잡음 성분이 제거된 순수한 음성 성분을 나타낼 수 있다.For example, the reverberation removing apparatus 100 may receive the first signal, appropriately process the received first signal, and then output the second signal. The first signal may be a speech signal distorted by reverberation. The second signal may be a clear voice signal with reverberation removed. According to the present embodiment, the first signal may represent a mixed signal including a voice component and a noise component, and the second signal may represent a pure voice component from which a noise component is removed from the mixed signal.

잔향 제거 장치(100)를 포함하는 기기는 제 2 신호에 기초하여 음성 인식을 수행하는 것이 가능하다. 제 2 신호는 잔향이 제거된 순수한 음성 신호이기 때문에 음성 인식의 정확도가 높아질 수 있다. The device including the reverberation removing apparatus 100 may perform voice recognition based on the second signal. Since the second signal is a pure speech signal with the reverberation removed, the accuracy of speech recognition can be increased.

이러한 잔향 제거 장치(100)는 검출부(101), 제 1 추정부(102), 제 2 추정부(103), 및 제거부(104)를 포함할 수 있다.The reverberation removing apparatus 100 may include a detector 101, a first estimator 102, a second estimator 103, and a remover 104.

검출부(101)는 제 1 신호를 수신한다. 제 1 신호는 잔향에 의해 왜곡된 음성 신호, 즉 음성 성분과 잔향 성분을 포함하는 혼합 신호가 될 수 있다. 예를 들어, 제 1 신호는 다음과 같이 모델링될 수 있다.The detector 101 receives the first signal. The first signal may be a speech signal distorted by the reverberation, that is, a mixed signal including the speech component and the reverberation component. For example, the first signal can be modeled as follows.

Figure pat00001
Figure pat00001

수학식 1에서, s(t)는 순수한 음성 신호를 나타내고, h(t)는 소리 전달 채널의 특성을 나타낸다. 즉 혼합 신호 x(t)는 순수한 음성 신호 s(t)와 잔향을 유발하는 소리 전달 채널의 응답 함수 h(t)의 convolution으로 표현될 수 있다.In Equation 1, s (t) represents a pure speech signal, h (t) represents the characteristics of the sound transmission channel. That is, the mixed signal x (t) may be expressed as a convolution of the pure speech signal s (t) and the response function h (t) of the sound transmission channel causing reverberation.

또한 검출부(101)는 제 1 신호를 변환하여 제 1 신호의 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출한다. 제 1 신호의 MFCC 특징 벡터는 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현될 수 있다. In addition, the detector 101 converts the first signal to detect a MFCC feature vector of the first signal. The MFCC feature vector of the first signal may be expressed as a sum of negative components and reverberation components in a cepstral vector domain.

검출부(101)의 신호 변환 과정 및 MFCC 특징 벡터 검출 과정을 구체적인 수식을 통해 살펴보면 다음과 같다.The signal conversion process and the MFCC feature vector detection process of the detector 101 will be described with reference to specific equations.

먼저, 검출부(101)는 다음과 같이 시간 영역(time domain)의 제 1 신호를 시간-주파수 영역(time-frequency)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 1에 short-time Fourier transform(STFT)을 적용하여 다음과 같은 식을 얻을 수 있다. First, the detector 101 converts a first signal in a time domain into a signal in a time-frequency domain as follows. For example, the detector 101 may apply a short-time Fourier transform (STFT) to Equation 1 to obtain the following equation.

Figure pat00002
Figure pat00002

수학식 2에서, STFT의 적용 결과는 응답 함수에 따라 달라질 수 있다. 예컨대, 응답 함수가 마이크로폰 채널과 같이 짧은 응답 특성을 갖는 경우에는 제 1 신호가 주파수 영역에서 응답 함수와 음성 성분의 곱으로 나타날 수 있고, 응답 함수가 실내 음향 채널과 같이 긴 응답 특성을 갖는 경우에는 제 1 신호가 주파수 영역에서 응답 함수와 음성 성분의 convolution 형태로 나타날 수 있다. In Equation 2, the result of applying the STFT may vary depending on the response function. For example, if the response function has a short response characteristic such as a microphone channel, the first signal may appear as a product of the response function and speech component in the frequency domain, and if the response function has a long response characteristic such as a room acoustic channel The first signal may appear in the form of a convolution of the response function and the speech component in the frequency domain.

그리고 검출부(101)는 시간-주파수 영역의 제 1 신호를 파워 스펙트럼 영역(power spectrum domain)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 2에 제곱을 취하여 다음과 같은 식을 얻을 수 있다. The detector 101 converts the first signal in the time-frequency domain into a signal in the power spectrum domain. For example, the detector 101 may obtain the following equation by taking the square of Equation 2.

Figure pat00003
Figure pat00003

수학식 3에서, G(t)는 H(t)를 제곱한 함수에 대응되는 함수로 항상 0보다 큰 값을 갖는다. In Equation 3, G (t) is a function corresponding to a function of H (t) squared and always has a value greater than zero.

또한 검출부(101)는 파워스펙트럼 영역의 제 1 신호를 멜 필터 뱅크 영역(Mel-filter bank domain)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 3에 멜 필터 뱅크를 적용하여 다음과 같은 식을 얻을 수 있다.In addition, the detector 101 converts the first signal of the power spectrum region into a signal of the mel-filter bank domain. For example, the detector 101 may apply the Mel filter bank to Equation 3 to obtain the following equation.

Figure pat00004
Figure pat00004

수학식 4에서, Fjk는 멜 필터 뱅크의 계수를 나타낸다. In Equation 4, F jk represents a coefficient of the mel filter bank.

또한 검출부(101)는 멜 필터 뱅크 영역의 제 1 신호를 켑스트럴 벡터 영역(cepstral vector domain)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 4에 로그를 취하고 이를 DCT(discrete cosine transform) 변환하여 다음과 같은 식을 얻을 수 있다. In addition, the detector 101 converts the first signal of the mel filter bank region into a signal of a cepstral vector domain. For example, the detector 101 may take a logarithm to Equation 4 and transform it to DCT (discrete cosine transform) to obtain the following equation.

Figure pat00005
Figure pat00005

수학식 5에서, Cij는 DCT 계수를 나타낸다.In Equation 5, Cij represents a DCT coefficient.

이와 같이 검출부(101)는 켑스트럴 벡터 영역에서 음성 성분

Figure pat00006
와 잔향 성분
Figure pat00007
의 합으로 표현되는 제 1 신호의 MFCC 특징 벡터
Figure pat00008
를 검출하는 것이 가능하다.In this way, the detection unit 101 performs a negative component in the Chunstral vector region.
Figure pat00006
And reverb ingredients
Figure pat00007
MFCC feature vector of the first signal expressed as the sum of
Figure pat00008
It is possible to detect.

한편, 수학식 5에서,

Figure pat00009
는 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사전 SRR(prior signal-to-reverberation ratio, 사전 신호 대 잔향 비)를 나타내는 것으로 위 수학식 5에 따라 다음과 같이 정의될 수 있다.In Equation 5,
Figure pat00009
Denotes a prior SRR (prior signal-to-reverberation ratio) in a Mel filter bank domain and may be defined as follows according to Equation 5 above.

Figure pat00010
Figure pat00010

마찬가지로, 사후 SRR(posterior signal-to-reverberation ratio, 사후 신호 대 잔향 비) 역시 멜 필터 뱅크 영역(Mel filter bank domain)에서 다음과 같이 정의될 수 있다.Similarly, the posterior signal-to-reverberation ratio (SRR) may also be defined in the Mel filter bank domain as follows.

Figure pat00011
Figure pat00011

수학식 1 내지 5와 같이, 검출부(101)에 의해 제 1 신호의 MFCC 특징 벡터가 구해지면, 제 1 추정부(102)는 수학식 7의 사후 SRR을 추정한다. 이때, 제 1 추정부(102)는 다음과 같이 수학식 7의 분모를 근사화하여 사후 SRR을 추정하는 것이 가능하다.As shown in Equations 1 to 5, when the MFCC feature vector of the first signal is obtained by the detector 101, the first estimator 102 estimates the post SRR of Equation 7. In this case, the first estimator 102 may estimate the post-SRR by approximating the denominator of Equation 7 as follows.

Figure pat00012
Figure pat00012

수학식 8에서, w(t)는 레일리 분포(Rayleigh distrubution)에 따른 통계 모델 함수를 나타낸다. 이 함수의 모양은 상수 a에 따라 결정될 수 있다. 그리고 μ는 정해진 상수(예컨대, 0.32)를 나타낸다. In Equation 8, w (t) represents a statistical model function according to Rayleigh distrubution. The shape of this function can be determined by the constant a. And μ represents a constant (eg 0.32).

수학식 8을 참조하면, 제 1 추정부(102)는 레일리 분포에 따른 통계 모델을 이용하여 잔향에 의한 음성 왜곡의 정도를 파악하고 이를 통해 멜 필터 뱅크 영역에서의 사후 SRR을 근사적으로 계산하는 것을 알 수 있다. Referring to Equation 8, the first estimator 102 determines a degree of speech distortion due to reverberation using a statistical model based on a Rayleigh distribution, and approximately calculates a post SRR in a mel filter bank region. It can be seen that.

수학식 7 및 8과 같이, 제 1 추정부(102)에 의해 사후 SRR이 구해지면, 제 2 추정부(103)는 다음과 같이 수학식 6의 사전 SRR을 추정한다. As shown in Equations 7 and 8, when the post-SRR is obtained by the first estimator 102, the second estimator 103 estimates the pre-SRR of Equation 6 as follows.

Figure pat00013
Figure pat00013

참고로, 수학식 9와 같은 사후 SRR과 사전 SRR 간의 관계는 다음과 같이 유도될 수 있다.For reference, the relationship between the post SRR and the pre SRR as shown in Equation 9 may be derived as follows.

먼저, 수학식 7 및 8에 의해 다음과 같은 수학식 10이 유도된다.First, the following equation (10) is derived by equations (7) and (8).

Figure pat00014
Figure pat00014

한편, 수학식 4에 의해 다음과 같은 수학식 11이 유도된다.On the other hand, the following equation (11) is derived by equation (4).

Figure pat00015
Figure pat00015

따라서, 수학식 10 및 11에 의해 다음과 같은 수학식 12가 유도될 수 있다.Therefore, the following Equation 12 may be derived by Equations 10 and 11.

Figure pat00016
Figure pat00016

결과적으로, 위 수학식 12를 정리하면 수학식 9와 같은 사후 SRR과 사전 SRR 간의 관계가 얻어질 수 있음을 알 수 있다.As a result, it can be seen that rearranging the above Equation 12 can obtain a relationship between the post-SRR and the pre-SRR as shown in Equation (9).

제 2 추정부(103)에 의해 사전 SRR이 구해지면, 제거부(104)는 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산하고, 계산된 장향 성분을 혼합 신호에서 제거한다. 예를 들어, 제거부(104)는 추정된 사전 SRR

Figure pat00017
에 따라 잔향 성분
Figure pat00018
을 제 1 신호의 MFCC 특징 벡터에서 빼는 것이 가능하다. When the prior SRR is obtained by the second estimator 103, the remover 104 calculates a reverberation component among the detected MFCC feature vectors using the estimated prior SRR, and removes the calculated reverberant component from the mixed signal. . For example, the remover 104 may estimate the pre-SRR
Figure pat00017
According to reverberation component
Figure pat00018
Is subtracted from the MFCC feature vector of the first signal.

또한, 제거부(104)는 다음과 같이 소정의 가중치를 잔향 성분에 부여한 후 뺄셈을 수행하는 것도 가능하다. In addition, the remover 104 may perform subtraction after assigning a predetermined weight to the reverberation component as follows.

Figure pat00019
Figure pat00019

수학식 13에서, α는 가중치를 나타내는 것으로 사전 SRR

Figure pat00020
에 반비례하도록 설정될 수 있다.In Equation (13), α denotes a weight and is a dictionary SRR.
Figure pat00020
It can be set inversely proportional to.

수학식 13과 같은 켑스트럴 특징 벡터의 음성 성분이 얻어지면, 제거부(104)는 이을 역변환해서 잔향이 제거된 깨끗한 음성 신호인 제 2 신호를 출력하는 것이 가능하다.When the speech component of the Cestral feature vector as shown in Equation (13) is obtained, the remover 104 can inversely transform it and output a second signal which is a clean speech signal from which reverberation is removed.

도 2는 본 발명의 일 실시예에 따른 잔향 제거 방법을 도시한다. 2 illustrates a method for removing reverberation according to an embodiment of the present invention.

도 1 및 도 2를 참조하면, 먼저, 잔향 제거 장치(100)는 혼합 신호를 수신한다(201). 예컨대, 검출부(101)가 수학식 1과 같은 혼합 신호를 수신하는 것이 가능하다.1 and 2, first, the reverberation removing apparatus 100 receives a mixed signal (201). For example, the detection unit 101 can receive a mixed signal as shown in Equation (1).

그리고 잔향 제거 장치(100)는 수신된 혼합 신호를 변환하여 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출한다(202). 예컨대, 검출부(101)가 수학식 2 내지 5와 같이 켑스트럴 벡터 영역에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터를 검출하는 것이 가능하다.The reverberation removing apparatus 100 detects the MFCC feature vector (Mel-frequency cepstral coefficient feature vector) by converting the received mixed signal (202). For example, the detection unit 101 can detect the MFCC feature vector expressed as the sum of the speech component and the reverberation component in the Chunstral vector region as shown in Equations 2 to 5.

그리고 잔향 제거 장치(100)는 레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정한다(203). 예컨대, 제 1 추정부(102)가 수학식 7 및 8과 같이 사후 SRR을 계산하는 것이 가능하다.The reverberation removing apparatus 100 estimates a posterior SRR (Singal to Reverberation Ratio) in the Mel filter bank domain using a Rayleigh distrubution (203). ). For example, it is possible for the first estimator 102 to calculate the post SRR as shown in Equations 7 and 8 below.

사후 SRR이 계산되면, 잔향 제거 장치(100)는 추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정한다(204). 예컨대, 제 2 추정부(103)가 수학식 9 내지 12와 같이 사전 SRR을 계산하는 것이 가능하다.After the post SRR is calculated, the reverberation removing apparatus 100 estimates the prior SRR in the mel filter bank region using the estimated post SRR (204). For example, it is possible for the second estimator 103 to calculate the prior SRR as in Equations 9 to 12.

사전 SRR이 계산되면, 잔향 제거 장치(100)는 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산한다(205). 예컨대, 제거부(104)가 수학식 5 및 6과 같이 잔향 성분을 계산하는 것이 가능하다.When the prior SRR is calculated, the reverberation removing apparatus 100 calculates a reverberation component among the detected MFCC feature vectors using the estimated prior SRR (205). For example, it is possible for the remover 104 to calculate the reverberation component as shown in Equations 5 and 6 below.

잔향 성분이 계산되면, 잔향 제거 장치(100)는 계산된 잔향 성분에 가중치를 부여하고 혼합 신호에서 잔향 성분을 제거한다(206). 예컨대, 제거부(104)가 수학식 13과 같이 잔향 성분을 제거하는 것이 가능하다.When the reverberation component is calculated, the reverberation removal apparatus 100 weights the calculated reverberation component and removes the reverberation component from the mixed signal (206). For example, the remover 104 may remove the reverberation component as shown in Equation (13).

이상에서 살펴본 것과 같이, 개시된 잔향 제거 장치 및 방법에 의하면, 잔향 성분이 켑스트럴 특징 벡터에 기초하여 제거되기 때문에 잔향에 강인한 음성 인식을 구현할 수 있다. 또한, 음성의 특징 벡터에서 잔향 성분을 추정하기 때문에 음성 인식 성능을 더욱 향상시킬 수가 있다.As described above, according to the disclosed reverberation removing apparatus and method, since the reverberation component is removed based on the Chunstral feature vector, speech recognition robust to reverberation can be implemented. In addition, since the reverberation component is estimated from the feature vector of the speech, the speech recognition performance can be further improved.

한편, 본 발명의 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.Meanwhile, the embodiments of the present invention can be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.Examples of the computer-readable recording medium include a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device and the like, and also a carrier wave (for example, transmission via the Internet) . In addition, the computer-readable recording medium may be distributed over network-connected computer systems so that computer readable codes can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present invention can be easily deduced by programmers skilled in the art to which the present invention belongs.

나아가 전술한 실시 예들은 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 권리범위가 특정 실시 예에 한정되지 아니할 것이다.Furthermore, the above-described embodiments are intended to illustrate the present invention by way of example and the scope of the present invention will not be limited to the specific embodiments.

Claims (8)

음성 성분 및 잔향 성분을 포함하는 혼합 신호를 수신하고, 수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 검출부;
레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 제 1 추정부;
추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 제 2 추정부; 및
추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 상기 잔향 성분을 계산하고, 계산된 장향 성분을 상기 혼합 신호에서 제거하는 제거부; 를 포함하는 잔향 제거 장치.
A MFCC feature vector (Mel-frequency) that receives a mixed signal comprising a speech component and a reverberation component, converts the received mixed signal, and is expressed as a sum of the speech component and the reverberation component in a cepstral vector domain. a detector for detecting a cepstral coefficient feature vector);
A first estimator estimating a posterior SRR (Singal to Reverberation Ratio) in a Mel filter bank domain using a Rayleigh distrubution;
A second estimator for estimating a prior SRR in the mel filter bank region using the estimated post SRR; And
A removal unit for calculating the reverberation component among the detected MFCC feature vectors using the estimated prior SRR, and removing the calculated reverberation component from the mixed signal; Reverberation removal device comprising a.
제 1 항에 있어서, 상기 제 1 추정부는
상기 레일리 분포에 기초한 통계 모델을 이용하여 잔향에 의한 음성 왜곡의 정도를 근사적으로 계산함으로써 상기 사후 SRR을 추정하는 잔향 제거 장치.
The method of claim 1, wherein the first estimator
And a reverberation elimination device for estimating the post SRR by approximately calculating a degree of speech distortion due to reverberation using a statistical model based on the Rayleigh distribution.
제 1 항에 있어서, 상기 제거부는
상기 추정된 SRR에 따라 상기 잔향 성분에 가중치를 부여하고, 가중치가 부여된 잔향 성분을 상기 혼합 신호에서 빼는 잔향 제거 장치.
The method of claim 1, wherein the removing unit
The reverberation removing apparatus weights the reverberation component according to the estimated SRR, and subtracts the weighted reverberation component from the mixed signal.
제 3 항에 있어서, 상기 가중치는
상기 추정된 SRR과 반비례되도록 설정되는 잔향 제거 장치.
The method of claim 3, wherein the weight is
And a reverberation canceller configured to be inversely proportional to the estimated SRR.
음성 성분 및 잔향 성분을 포함하는 혼합 신호를 수신하는 단계;
수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 단계;
레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 단계;
추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 단계;
추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 상기 잔향 성분을 계산하는 단계; 및
계산된 잔향 성분을 상기 혼합 신호에서 제거하는 단계; 를 포함하는 잔향 제거 방법.
Receiving a mixed signal comprising a negative component and a reverberation component;
Converting the received mixed signal to detect a MFCC feature vector expressed as a sum of a negative component and a reverberant component in a cepstral vector domain;
Estimating the posterior SRR (Signal to Reverberation Ratio) in the Mel filter bank domain using a Rayleigh distrubution;
Estimating a prior SRR in the mel filter bank region using the estimated post SRR;
Calculating the reverberation component of the detected MFCC feature vectors using an estimated prior SRR; And
Removing the calculated reverberation component from the mixed signal; Reverb removal method comprising a.
제 5 항에 있어서, 상기 사후 SRR을 추정하는 단계는
상기 레일리 분포에 기초한 통계 모델을 이용하여 잔향에 의한 음성 왜곡의 정도를 근사적으로 계산함으로써 상기 사후 SRR을 추정하는 잔향 제거 방법.
6. The method of claim 5, wherein estimating the post SRR
A reverberation cancellation method for estimating the post SRR by approximately calculating a degree of speech distortion due to reverberation using a statistical model based on the Rayleigh distribution.
제 5 항에 있어서, 상기 제거하는 단계는
상기 추정된 SRR에 따라 상기 잔향 성분에 가중치를 부여하는 단계; 및
상기 가중치가 부여된 잔향 성분을 상기 혼합 신호에서 빼는 단계; 를 포함하는 잔향 제거 방법.
The method of claim 5, wherein the removing step
Weighting the reverberation component according to the estimated SRR; And
Subtracting the weighted reverberation component from the mixed signal; Reverb removal method comprising a.
제 7 항에 있어서, 상기 가중치는
상기 추정된 SRR과 반비례되도록 설정되는 잔향 제거 방법.
8. The method of claim 7, wherein the weight is
A reverberation removing method set to be inversely proportional to the estimated SRR.
KR1020100130256A 2010-12-17 2010-12-17 Apparatus and method for removing a reverberation based on cepstral feature vector KR101764789B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100130256A KR101764789B1 (en) 2010-12-17 2010-12-17 Apparatus and method for removing a reverberation based on cepstral feature vector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100130256A KR101764789B1 (en) 2010-12-17 2010-12-17 Apparatus and method for removing a reverberation based on cepstral feature vector

Publications (2)

Publication Number Publication Date
KR20120068574A true KR20120068574A (en) 2012-06-27
KR101764789B1 KR101764789B1 (en) 2017-08-04

Family

ID=46687215

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100130256A KR101764789B1 (en) 2010-12-17 2010-12-17 Apparatus and method for removing a reverberation based on cepstral feature vector

Country Status (1)

Country Link
KR (1) KR101764789B1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006234888A (en) * 2005-02-22 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> Device, method, and program for removing reverberation, and recording medium

Also Published As

Publication number Publication date
KR101764789B1 (en) 2017-08-04

Similar Documents

Publication Publication Date Title
RU2376722C2 (en) Method for multi-sensory speech enhancement on mobile hand-held device and mobile hand-held device
JP6553111B2 (en) Speech recognition apparatus, speech recognition method and speech recognition program
JP5452655B2 (en) Multi-sensor voice quality improvement using voice state model
TWI581254B (en) Environmental noise elimination system and application method thereof
JP4532576B2 (en) Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program
CA2607981C (en) Multi-sensory speech enhancement using a clean speech prior
MXPA05008740A (en) Method and apparatus for multi-sensory speech enhancement.
CN111696568B (en) Semi-supervised transient noise suppression method
JP4816711B2 (en) Call voice processing apparatus and call voice processing method
KR101581885B1 (en) Apparatus and Method for reducing noise in the complex spectrum
CN105432062B (en) Method, equipment and medium for echo removal
CN108010536A (en) Echo cancel method, device, system and storage medium
JP4965891B2 (en) Signal processing apparatus and method
CN112309417A (en) Wind noise suppression audio signal processing method, device, system and readable medium
CN107452398B (en) Echo acquisition method, electronic device and computer readable storage medium
CN108053834B (en) Audio data processing method, device, terminal and system
Shankar et al. Influence of MVDR beamformer on a Speech Enhancement based Smartphone application for Hearing Aids
WO2022068440A1 (en) Howling suppression method and apparatus, computer device, and storage medium
KR101764789B1 (en) Apparatus and method for removing a reverberation based on cepstral feature vector
KR20100009936A (en) Noise environment estimation/exclusion apparatus and method in sound detecting system
JP2017009657A (en) Voice enhancement device and voice enhancement method
JP6970422B2 (en) Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program
CN113035222A (en) Voice noise reduction method and device, filter determination method and voice interaction equipment
CN116137148A (en) Apparatus, system, and method for noise reduction
JPH0844390A (en) Voice recognition device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right