KR20120068574A - Apparatus and method for removing a reverberation based on cepstral feature vector - Google Patents
Apparatus and method for removing a reverberation based on cepstral feature vector Download PDFInfo
- Publication number
- KR20120068574A KR20120068574A KR1020100130256A KR20100130256A KR20120068574A KR 20120068574 A KR20120068574 A KR 20120068574A KR 1020100130256 A KR1020100130256 A KR 1020100130256A KR 20100130256 A KR20100130256 A KR 20100130256A KR 20120068574 A KR20120068574 A KR 20120068574A
- Authority
- KR
- South Korea
- Prior art keywords
- reverberation
- srr
- component
- signal
- estimated
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013179 statistical model Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000005316 response function Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- QXLPXWSKPNOQLE-UHFFFAOYSA-N methylpentynol Chemical compound CCC(C)(O)C#C QXLPXWSKPNOQLE-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
음성 인식을 위해 음성을 왜곡시키는 성분을 제거하는 기술과 관련된다.It relates to techniques for removing components that distort speech for speech recognition.
어떤 기기를 제어하기 위해서는 사람이 직접 그 기기를 조작하는 것이 일반적이다. 그러나 최근에는 기술이 발전함에 따라 사람의 직접 조작 이외에도 다양한 인터페이스가 등장하게 되었다. In order to control a device, it is common for a person to operate the device directly. However, in recent years, with the development of technology, various interfaces have appeared in addition to the direct manipulation of humans.
새롭게 등장한 인터페이스 중 대표적인 것으로는 음성을 이용한 인터페이스가 있다. 사용자는 음성을 통해 기기를 보다 직관적으로 사용할 수가 있다. 음성 인터페이스를 채용한 기기는 컴퓨터, 스마트 폰, 로봇 등과 같이 여러 가지가 있다.A representative interface among the newly emerged interfaces is an interface using voice. Users can use the device more intuitively through voice. There are many devices employing voice interfaces, such as computers, smartphones, and robots.
음성 인터페이스를 통해 기기를 제어하기 위해서는 음성 인식이 필수적으로 이루어져야 한다. 기기에 포함된 음성 인식 장치는 수신된 소리에서 사용자의 음성을 추출하고 추출된 사용자 음성의 의미를 파악한 후 그 의미에 대응되는 적절한 작업을 수행한다. In order to control the device through the voice interface, voice recognition is essential. The speech recognition apparatus included in the device extracts the user's voice from the received sound, grasps the meaning of the extracted user's voice, and performs an appropriate operation corresponding to the meaning.
그런데 사용자와 기기 간의 환경 특성에 따라 음성 외에 다른 불필요한 성분이 음성을 왜곡시키는 경우가 빈번하다. 대표적인 왜곡 요인으로는 잡음과 잔향이 있다. 잠음은 음성 성분과 상관없는(uncorrelated) 신호를 의미하는 것으로 이러한 잡음이 깨끗한 음성 신호에 더해져서 음성 왜곡을 유발한다. 잔향은 음성 성분의 지연 성분(delayed signal component)을 의미하는 것으로 이러한 잔향이 깨끗한 음성 신호에 더해져서 음성 왜곡을 유발한다.However, according to the environmental characteristics between the user and the device, other unnecessary components often distort the voice. Typical distortion factors are noise and reverberation. Sleep refers to an uncorrelated signal, and this noise is added to the clear speech signal, causing speech distortion. Reverberation refers to a delayed signal component of speech components. These reverberations are added to a clean speech signal to cause speech distortion.
음성 인식의 성능을 높이기 위해 잡음에 의해 왜곡된 음성 신호에서 잔향을 제거하는 잔향 제거 장치 및 방법이 제공된다.An apparatus and method for removing reverberation are provided for removing reverberation from a speech signal distorted by noise to increase the performance of speech recognition.
본 발명의 일 양상에 따른 잔향 제거 장치는, 음성 성분 및 잔향 성분을 포함하는 혼합 신호를 수신하고, 수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 검출부, 레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 제 1 추정부, 추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 제 2 추정부, 및 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산하고, 계산된 장향 성분을 혼합 신호에서 제거하는 제거부를 포함할 수 있다.An apparatus for reverberation removal according to an aspect of the present invention receives a mixed signal including a voice component and a reverberation component, converts the received mixed signal, and then performs a voice component and a reverberation component in a cepstral vector domain. Detection unit for detecting the MFCC feature vector (Mel-frequency cepstral coefficient feature vector) expressed as the sum of the posterior SRR (Seral) in the Mel filter bank domain using a Rayleigh distrubution using a first estimator for estimating to Reverberation Ratio, a second estimator for estimating a prior SRR in a mel filter bank region using the estimated post SRR, and an estimated prior SRR And calculating a reverberation component among the detected MFCC feature vectors, and removing the calculated reverberation component from the mixed signal.
또한, 본 발명의 일 양상에 따른 잔향 제거 방법은, 음성 성분 및 잔향 성분을 포함하는 혼합 신호를 수신하는 단계, 수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 단계, 레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 단계, 추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 단계, 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산하는 단계, 및 계산된 잔향 성분을 혼합 신호에서 제거하는 단계를 포함할 수 있다.In addition, the reverberation removing method according to an aspect of the present invention, the step of receiving a mixed signal comprising the speech component and the reverberation component, by converting the received mixed signal to the speech component in the cepstral vector domain (cepstral vector domain) And detecting a MFCC feature vector expressed as a sum of reverberation components, and using a Rayleigh distrubution in the Mel filter bank domain. Estimating a SRR (Singal to Reverberation Ratio), estimating a prior SRR in the mel filter bank region using the estimated post-SRR, and detecting the MFCC using the estimated prior SRR. Calculating a reverberation component in the feature vector, and removing the calculated reverberation component from the mixed signal.
개시된 내용에 의하면, 잔향 성분이 켑스트럴 특징 벡터에 기초하여 제거되기 때문에 잔향에 강인한 음성 인식을 구현할 수 있다. 또한, 음성의 특징 벡터에서 잔향 성분을 추정하기 때문에 음성 인식 성능을 더욱 향상시킬 수가 있다.According to the disclosed contents, since the reverberation component is removed based on the Chunstral feature vector, speech recognition robust to the reverberation can be realized. In addition, since the reverberation component is estimated from the feature vector of the speech, the speech recognition performance can be further improved.
도 1은 본 발명의 일 실시예에 따른 잔향 제거 장치를 도시한다.
도 2는 본 발명의 일 실시예에 따른 잔향 제거 방법을 도시한다.1 shows an apparatus for removing reverberation according to an embodiment of the present invention.
2 illustrates a method for removing reverberation according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 예를 상세히 설명한다. Hereinafter, specific examples for carrying out the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 잔향 제거 장치를 도시한다.1 shows an apparatus for removing reverberation according to an embodiment of the present invention.
도 1을 참조하면, 잔향 제거 장치(100)는 컴퓨터, 스마트 폰, 로봇, 게임기 등과 같은 기기에서 음성 인식 기반의 시스템 제어를 위한 구성의 일부로 사용될 수 있다. Referring to FIG. 1, the
예를 들어, 잔향 제거 장치(100)는 제 1 신호를 수신하고, 수신된 제 1 신호를 적절하게 처리한 후, 제 2 신호를 출력할 수 있다. 제 1 신호는 잔향(reverberation)에 의해 왜곡된 음성 신호가 될 수 있다. 제 2 신호는 잔향이 제거된 깨끗한 음성 신호가 될 수 있다. 본 실시예에 따라 제 1 신호는 음성 성분 및 잡음 성분이 포함된 혼합 신호, 제 2 신호는 혼합 신호에서 잡음 성분이 제거된 순수한 음성 성분을 나타낼 수 있다.For example, the
잔향 제거 장치(100)를 포함하는 기기는 제 2 신호에 기초하여 음성 인식을 수행하는 것이 가능하다. 제 2 신호는 잔향이 제거된 순수한 음성 신호이기 때문에 음성 인식의 정확도가 높아질 수 있다. The device including the
이러한 잔향 제거 장치(100)는 검출부(101), 제 1 추정부(102), 제 2 추정부(103), 및 제거부(104)를 포함할 수 있다.The
검출부(101)는 제 1 신호를 수신한다. 제 1 신호는 잔향에 의해 왜곡된 음성 신호, 즉 음성 성분과 잔향 성분을 포함하는 혼합 신호가 될 수 있다. 예를 들어, 제 1 신호는 다음과 같이 모델링될 수 있다.The
수학식 1에서, s(t)는 순수한 음성 신호를 나타내고, h(t)는 소리 전달 채널의 특성을 나타낸다. 즉 혼합 신호 x(t)는 순수한 음성 신호 s(t)와 잔향을 유발하는 소리 전달 채널의 응답 함수 h(t)의 convolution으로 표현될 수 있다.In Equation 1, s (t) represents a pure speech signal, h (t) represents the characteristics of the sound transmission channel. That is, the mixed signal x (t) may be expressed as a convolution of the pure speech signal s (t) and the response function h (t) of the sound transmission channel causing reverberation.
또한 검출부(101)는 제 1 신호를 변환하여 제 1 신호의 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출한다. 제 1 신호의 MFCC 특징 벡터는 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현될 수 있다. In addition, the
검출부(101)의 신호 변환 과정 및 MFCC 특징 벡터 검출 과정을 구체적인 수식을 통해 살펴보면 다음과 같다.The signal conversion process and the MFCC feature vector detection process of the
먼저, 검출부(101)는 다음과 같이 시간 영역(time domain)의 제 1 신호를 시간-주파수 영역(time-frequency)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 1에 short-time Fourier transform(STFT)을 적용하여 다음과 같은 식을 얻을 수 있다. First, the
수학식 2에서, STFT의 적용 결과는 응답 함수에 따라 달라질 수 있다. 예컨대, 응답 함수가 마이크로폰 채널과 같이 짧은 응답 특성을 갖는 경우에는 제 1 신호가 주파수 영역에서 응답 함수와 음성 성분의 곱으로 나타날 수 있고, 응답 함수가 실내 음향 채널과 같이 긴 응답 특성을 갖는 경우에는 제 1 신호가 주파수 영역에서 응답 함수와 음성 성분의 convolution 형태로 나타날 수 있다. In Equation 2, the result of applying the STFT may vary depending on the response function. For example, if the response function has a short response characteristic such as a microphone channel, the first signal may appear as a product of the response function and speech component in the frequency domain, and if the response function has a long response characteristic such as a room acoustic channel The first signal may appear in the form of a convolution of the response function and the speech component in the frequency domain.
그리고 검출부(101)는 시간-주파수 영역의 제 1 신호를 파워 스펙트럼 영역(power spectrum domain)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 2에 제곱을 취하여 다음과 같은 식을 얻을 수 있다. The
수학식 3에서, G(t)는 H(t)를 제곱한 함수에 대응되는 함수로 항상 0보다 큰 값을 갖는다. In Equation 3, G (t) is a function corresponding to a function of H (t) squared and always has a value greater than zero.
또한 검출부(101)는 파워스펙트럼 영역의 제 1 신호를 멜 필터 뱅크 영역(Mel-filter bank domain)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 3에 멜 필터 뱅크를 적용하여 다음과 같은 식을 얻을 수 있다.In addition, the
수학식 4에서, Fjk는 멜 필터 뱅크의 계수를 나타낸다. In Equation 4, F jk represents a coefficient of the mel filter bank.
또한 검출부(101)는 멜 필터 뱅크 영역의 제 1 신호를 켑스트럴 벡터 영역(cepstral vector domain)의 신호로 변환한다. 예컨대, 검출부(101)는 수학식 4에 로그를 취하고 이를 DCT(discrete cosine transform) 변환하여 다음과 같은 식을 얻을 수 있다. In addition, the
수학식 5에서, Cij는 DCT 계수를 나타낸다.In Equation 5, Cij represents a DCT coefficient.
이와 같이 검출부(101)는 켑스트럴 벡터 영역에서 음성 성분 와 잔향 성분 의 합으로 표현되는 제 1 신호의 MFCC 특징 벡터 를 검출하는 것이 가능하다.In this way, the
한편, 수학식 5에서, 는 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사전 SRR(prior signal-to-reverberation ratio, 사전 신호 대 잔향 비)를 나타내는 것으로 위 수학식 5에 따라 다음과 같이 정의될 수 있다.In Equation 5, Denotes a prior SRR (prior signal-to-reverberation ratio) in a Mel filter bank domain and may be defined as follows according to Equation 5 above.
마찬가지로, 사후 SRR(posterior signal-to-reverberation ratio, 사후 신호 대 잔향 비) 역시 멜 필터 뱅크 영역(Mel filter bank domain)에서 다음과 같이 정의될 수 있다.Similarly, the posterior signal-to-reverberation ratio (SRR) may also be defined in the Mel filter bank domain as follows.
수학식 1 내지 5와 같이, 검출부(101)에 의해 제 1 신호의 MFCC 특징 벡터가 구해지면, 제 1 추정부(102)는 수학식 7의 사후 SRR을 추정한다. 이때, 제 1 추정부(102)는 다음과 같이 수학식 7의 분모를 근사화하여 사후 SRR을 추정하는 것이 가능하다.As shown in Equations 1 to 5, when the MFCC feature vector of the first signal is obtained by the
수학식 8에서, w(t)는 레일리 분포(Rayleigh distrubution)에 따른 통계 모델 함수를 나타낸다. 이 함수의 모양은 상수 a에 따라 결정될 수 있다. 그리고 μ는 정해진 상수(예컨대, 0.32)를 나타낸다. In Equation 8, w (t) represents a statistical model function according to Rayleigh distrubution. The shape of this function can be determined by the constant a. And μ represents a constant (eg 0.32).
수학식 8을 참조하면, 제 1 추정부(102)는 레일리 분포에 따른 통계 모델을 이용하여 잔향에 의한 음성 왜곡의 정도를 파악하고 이를 통해 멜 필터 뱅크 영역에서의 사후 SRR을 근사적으로 계산하는 것을 알 수 있다. Referring to Equation 8, the
수학식 7 및 8과 같이, 제 1 추정부(102)에 의해 사후 SRR이 구해지면, 제 2 추정부(103)는 다음과 같이 수학식 6의 사전 SRR을 추정한다. As shown in Equations 7 and 8, when the post-SRR is obtained by the
참고로, 수학식 9와 같은 사후 SRR과 사전 SRR 간의 관계는 다음과 같이 유도될 수 있다.For reference, the relationship between the post SRR and the pre SRR as shown in Equation 9 may be derived as follows.
먼저, 수학식 7 및 8에 의해 다음과 같은 수학식 10이 유도된다.First, the following equation (10) is derived by equations (7) and (8).
한편, 수학식 4에 의해 다음과 같은 수학식 11이 유도된다.On the other hand, the following equation (11) is derived by equation (4).
따라서, 수학식 10 및 11에 의해 다음과 같은 수학식 12가 유도될 수 있다.Therefore, the following Equation 12 may be derived by Equations 10 and 11.
결과적으로, 위 수학식 12를 정리하면 수학식 9와 같은 사후 SRR과 사전 SRR 간의 관계가 얻어질 수 있음을 알 수 있다.As a result, it can be seen that rearranging the above Equation 12 can obtain a relationship between the post-SRR and the pre-SRR as shown in Equation (9).
제 2 추정부(103)에 의해 사전 SRR이 구해지면, 제거부(104)는 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산하고, 계산된 장향 성분을 혼합 신호에서 제거한다. 예를 들어, 제거부(104)는 추정된 사전 SRR 에 따라 잔향 성분 을 제 1 신호의 MFCC 특징 벡터에서 빼는 것이 가능하다. When the prior SRR is obtained by the
또한, 제거부(104)는 다음과 같이 소정의 가중치를 잔향 성분에 부여한 후 뺄셈을 수행하는 것도 가능하다. In addition, the
수학식 13에서, α는 가중치를 나타내는 것으로 사전 SRR 에 반비례하도록 설정될 수 있다.In Equation (13), α denotes a weight and is a dictionary SRR. It can be set inversely proportional to.
수학식 13과 같은 켑스트럴 특징 벡터의 음성 성분이 얻어지면, 제거부(104)는 이을 역변환해서 잔향이 제거된 깨끗한 음성 신호인 제 2 신호를 출력하는 것이 가능하다.When the speech component of the Cestral feature vector as shown in Equation (13) is obtained, the
도 2는 본 발명의 일 실시예에 따른 잔향 제거 방법을 도시한다. 2 illustrates a method for removing reverberation according to an embodiment of the present invention.
도 1 및 도 2를 참조하면, 먼저, 잔향 제거 장치(100)는 혼합 신호를 수신한다(201). 예컨대, 검출부(101)가 수학식 1과 같은 혼합 신호를 수신하는 것이 가능하다.1 and 2, first, the
그리고 잔향 제거 장치(100)는 수신된 혼합 신호를 변환하여 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출한다(202). 예컨대, 검출부(101)가 수학식 2 내지 5와 같이 켑스트럴 벡터 영역에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터를 검출하는 것이 가능하다.The
그리고 잔향 제거 장치(100)는 레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정한다(203). 예컨대, 제 1 추정부(102)가 수학식 7 및 8과 같이 사후 SRR을 계산하는 것이 가능하다.The
사후 SRR이 계산되면, 잔향 제거 장치(100)는 추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정한다(204). 예컨대, 제 2 추정부(103)가 수학식 9 내지 12와 같이 사전 SRR을 계산하는 것이 가능하다.After the post SRR is calculated, the
사전 SRR이 계산되면, 잔향 제거 장치(100)는 추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 잔향 성분을 계산한다(205). 예컨대, 제거부(104)가 수학식 5 및 6과 같이 잔향 성분을 계산하는 것이 가능하다.When the prior SRR is calculated, the
잔향 성분이 계산되면, 잔향 제거 장치(100)는 계산된 잔향 성분에 가중치를 부여하고 혼합 신호에서 잔향 성분을 제거한다(206). 예컨대, 제거부(104)가 수학식 13과 같이 잔향 성분을 제거하는 것이 가능하다.When the reverberation component is calculated, the
이상에서 살펴본 것과 같이, 개시된 잔향 제거 장치 및 방법에 의하면, 잔향 성분이 켑스트럴 특징 벡터에 기초하여 제거되기 때문에 잔향에 강인한 음성 인식을 구현할 수 있다. 또한, 음성의 특징 벡터에서 잔향 성분을 추정하기 때문에 음성 인식 성능을 더욱 향상시킬 수가 있다.As described above, according to the disclosed reverberation removing apparatus and method, since the reverberation component is removed based on the Chunstral feature vector, speech recognition robust to reverberation can be implemented. In addition, since the reverberation component is estimated from the feature vector of the speech, the speech recognition performance can be further improved.
한편, 본 발명의 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.Meanwhile, the embodiments of the present invention can be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.Examples of the computer-readable recording medium include a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device and the like, and also a carrier wave (for example, transmission via the Internet) . In addition, the computer-readable recording medium may be distributed over network-connected computer systems so that computer readable codes can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present invention can be easily deduced by programmers skilled in the art to which the present invention belongs.
나아가 전술한 실시 예들은 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 권리범위가 특정 실시 예에 한정되지 아니할 것이다.Furthermore, the above-described embodiments are intended to illustrate the present invention by way of example and the scope of the present invention will not be limited to the specific embodiments.
Claims (8)
레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 제 1 추정부;
추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 제 2 추정부; 및
추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 상기 잔향 성분을 계산하고, 계산된 장향 성분을 상기 혼합 신호에서 제거하는 제거부; 를 포함하는 잔향 제거 장치.
A MFCC feature vector (Mel-frequency) that receives a mixed signal comprising a speech component and a reverberation component, converts the received mixed signal, and is expressed as a sum of the speech component and the reverberation component in a cepstral vector domain. a detector for detecting a cepstral coefficient feature vector);
A first estimator estimating a posterior SRR (Singal to Reverberation Ratio) in a Mel filter bank domain using a Rayleigh distrubution;
A second estimator for estimating a prior SRR in the mel filter bank region using the estimated post SRR; And
A removal unit for calculating the reverberation component among the detected MFCC feature vectors using the estimated prior SRR, and removing the calculated reverberation component from the mixed signal; Reverberation removal device comprising a.
상기 레일리 분포에 기초한 통계 모델을 이용하여 잔향에 의한 음성 왜곡의 정도를 근사적으로 계산함으로써 상기 사후 SRR을 추정하는 잔향 제거 장치.
The method of claim 1, wherein the first estimator
And a reverberation elimination device for estimating the post SRR by approximately calculating a degree of speech distortion due to reverberation using a statistical model based on the Rayleigh distribution.
상기 추정된 SRR에 따라 상기 잔향 성분에 가중치를 부여하고, 가중치가 부여된 잔향 성분을 상기 혼합 신호에서 빼는 잔향 제거 장치.
The method of claim 1, wherein the removing unit
The reverberation removing apparatus weights the reverberation component according to the estimated SRR, and subtracts the weighted reverberation component from the mixed signal.
상기 추정된 SRR과 반비례되도록 설정되는 잔향 제거 장치.
The method of claim 3, wherein the weight is
And a reverberation canceller configured to be inversely proportional to the estimated SRR.
수신된 혼합 신호를 변환하여 켑스트럴 벡터 영역(cepstral vector domain)에서의 음성 성분 및 잔향 성분의 합으로 표현되는 MFCC 특징 벡터(Mel-frequency cepstral coefficient feature vector)를 검출하는 단계;
레일리 분포(Rayleigh distrubution)를 이용하여 멜 필터 뱅크 영역(Mel filter bank domain)에서의 사후(posterior) SRR(Singal to Reverberation Ratio, 신호 대 잔향 비)을 추정하는 단계;
추정된 사후 SRR을 이용하여 멜 필터 뱅크 영역에서의 사전(prior) SRR을 추정하는 단계;
추정된 사전 SRR을 이용하여 검출된 MFCC 특징 벡터 중 상기 잔향 성분을 계산하는 단계; 및
계산된 잔향 성분을 상기 혼합 신호에서 제거하는 단계; 를 포함하는 잔향 제거 방법.
Receiving a mixed signal comprising a negative component and a reverberation component;
Converting the received mixed signal to detect a MFCC feature vector expressed as a sum of a negative component and a reverberant component in a cepstral vector domain;
Estimating the posterior SRR (Signal to Reverberation Ratio) in the Mel filter bank domain using a Rayleigh distrubution;
Estimating a prior SRR in the mel filter bank region using the estimated post SRR;
Calculating the reverberation component of the detected MFCC feature vectors using an estimated prior SRR; And
Removing the calculated reverberation component from the mixed signal; Reverb removal method comprising a.
상기 레일리 분포에 기초한 통계 모델을 이용하여 잔향에 의한 음성 왜곡의 정도를 근사적으로 계산함으로써 상기 사후 SRR을 추정하는 잔향 제거 방법.
6. The method of claim 5, wherein estimating the post SRR
A reverberation cancellation method for estimating the post SRR by approximately calculating a degree of speech distortion due to reverberation using a statistical model based on the Rayleigh distribution.
상기 추정된 SRR에 따라 상기 잔향 성분에 가중치를 부여하는 단계; 및
상기 가중치가 부여된 잔향 성분을 상기 혼합 신호에서 빼는 단계; 를 포함하는 잔향 제거 방법.
The method of claim 5, wherein the removing step
Weighting the reverberation component according to the estimated SRR; And
Subtracting the weighted reverberation component from the mixed signal; Reverb removal method comprising a.
상기 추정된 SRR과 반비례되도록 설정되는 잔향 제거 방법.8. The method of claim 7, wherein the weight is
A reverberation removing method set to be inversely proportional to the estimated SRR.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100130256A KR101764789B1 (en) | 2010-12-17 | 2010-12-17 | Apparatus and method for removing a reverberation based on cepstral feature vector |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100130256A KR101764789B1 (en) | 2010-12-17 | 2010-12-17 | Apparatus and method for removing a reverberation based on cepstral feature vector |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120068574A true KR20120068574A (en) | 2012-06-27 |
KR101764789B1 KR101764789B1 (en) | 2017-08-04 |
Family
ID=46687215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100130256A KR101764789B1 (en) | 2010-12-17 | 2010-12-17 | Apparatus and method for removing a reverberation based on cepstral feature vector |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101764789B1 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006234888A (en) * | 2005-02-22 | 2006-09-07 | Nippon Telegr & Teleph Corp <Ntt> | Device, method, and program for removing reverberation, and recording medium |
-
2010
- 2010-12-17 KR KR1020100130256A patent/KR101764789B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR101764789B1 (en) | 2017-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2376722C2 (en) | Method for multi-sensory speech enhancement on mobile hand-held device and mobile hand-held device | |
JP6553111B2 (en) | Speech recognition apparatus, speech recognition method and speech recognition program | |
JP5452655B2 (en) | Multi-sensor voice quality improvement using voice state model | |
TWI581254B (en) | Environmental noise elimination system and application method thereof | |
JP4532576B2 (en) | Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program | |
CA2607981C (en) | Multi-sensory speech enhancement using a clean speech prior | |
MXPA05008740A (en) | Method and apparatus for multi-sensory speech enhancement. | |
CN111696568B (en) | Semi-supervised transient noise suppression method | |
JP4816711B2 (en) | Call voice processing apparatus and call voice processing method | |
KR101581885B1 (en) | Apparatus and Method for reducing noise in the complex spectrum | |
CN105432062B (en) | Method, equipment and medium for echo removal | |
CN108010536A (en) | Echo cancel method, device, system and storage medium | |
JP4965891B2 (en) | Signal processing apparatus and method | |
CN112309417A (en) | Wind noise suppression audio signal processing method, device, system and readable medium | |
CN107452398B (en) | Echo acquisition method, electronic device and computer readable storage medium | |
CN108053834B (en) | Audio data processing method, device, terminal and system | |
Shankar et al. | Influence of MVDR beamformer on a Speech Enhancement based Smartphone application for Hearing Aids | |
WO2022068440A1 (en) | Howling suppression method and apparatus, computer device, and storage medium | |
KR101764789B1 (en) | Apparatus and method for removing a reverberation based on cepstral feature vector | |
KR20100009936A (en) | Noise environment estimation/exclusion apparatus and method in sound detecting system | |
JP2017009657A (en) | Voice enhancement device and voice enhancement method | |
JP6970422B2 (en) | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program | |
CN113035222A (en) | Voice noise reduction method and device, filter determination method and voice interaction equipment | |
CN116137148A (en) | Apparatus, system, and method for noise reduction | |
JPH0844390A (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |