KR100739905B1 - 소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기 - Google Patents

소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기 Download PDF

Info

Publication number
KR100739905B1
KR100739905B1 KR1020067011588A KR20067011588A KR100739905B1 KR 100739905 B1 KR100739905 B1 KR 100739905B1 KR 1020067011588 A KR1020067011588 A KR 1020067011588A KR 20067011588 A KR20067011588 A KR 20067011588A KR 100739905 B1 KR100739905 B1 KR 100739905B1
Authority
KR
South Korea
Prior art keywords
noise
signal
variable
calculating
estimate
Prior art date
Application number
KR1020067011588A
Other languages
English (en)
Other versions
KR20060103525A (ko
Inventor
이. 보우-하잘레 사하르
Original Assignee
스카이워크스 솔루션즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스카이워크스 솔루션즈, 인코포레이티드 filed Critical 스카이워크스 솔루션즈, 인코포레이티드
Publication of KR20060103525A publication Critical patent/KR20060103525A/ko
Application granted granted Critical
Publication of KR100739905B1 publication Critical patent/KR100739905B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

음성 소스 신호의 잡음을 억제하기 위한 잡음 억제기에 의해 사용된 방법은 음성 소스 신호에서 신호대 잡음 비 계산과 현 프레임 및 하나 이상의 이전 프레임에 기초하고 신호대 잡음 비에 따르는 음성 소스 신호의 현 프레임에 대한 배경 잡음 평가치 계산 및, 잡음 감소 음성 신호를 발생시키기 위해 현 프레임으로부터 배경 잡음 평가치 차감을 포함하며, 여기서 신호대 잡음 비 계산은 현 프레임에 대한 배경잡음 평가치와 독립적으로 수행된다. 본 방법은 신호대 잡음 비에 기초한 과 차감 변수 계산과, 신호대 잡음 비에 기초한 잡음 플로어 변수 계산을 포함하며, 여기에서 차감은 잡음이 줄어든 음성 신호를 발생시키기 위해 과 차감 변수와 잡음 플로어 변수를 이용한다.

Description

소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기{COMPUTATIONALLY EFFICIENT BACKGROUND NOISE SUPPRESSOR FOR SPEECH CODING AND SPEECH RECOGNITION}
본 발명은 통상적으로 음성 처리 분야에 속한다. 좀 더 엄밀하게, 본 발명은 음성 코딩 및 음성 인식을 위한 잡음 억제의 분야에 속한다.
현재 소스 신호로부터 배경 잡음을 줄이기 위한 몇 가지 접근법(이하 "잡음 억제")이 있다. 본 기술에 알려진 것처럼, 잡음 억제는 음성 코딩 및/또는 음성 인식 시스템의 성능을 개선하기 위한 중요한 특징이다. 잡음 억제는 수신 측에 있는 관계자가 송화자의 음성을 보다 잘 들을 수 있도록 배경 잡음을 억제하는 것, 음성 명료도의 개선, 반향 제거 성능의 개선, 자동 음성 인식("ASR")의 개선 등을 포함하는 다수의 이점을 제공한다.
스펙트럼 차감법은 공지되어 있는 잡음 억제를 위한 방법으로, 소스 신호 x(t)가 다음 식과 같이 깨끗한 음성 신호 s(t)와, 깨끗한 음성 신호와 서로 관련이 없는 고정된 잡음 신호 n(t)로 구성된다는 가정에 기초한다 :
Figure 112006041185403-pct00001
(식 1).
잡음 차감은 단시간 퓨리에 변환을 사용한 주파수 영역에서 처리된다. 잡음 신호는 순수 잡음으로 구성된 신호 부분으로부터 평가되는 것으로 추정된다. 따라서, 식 2와 같이, 단시간 깨끗한 음성 스펙트럼(short time clean speech spectrum)(
Figure 112006041185403-pct00002
)는 단시간 잡음 음성 스펙트럼(
Figure 112006041185403-pct00003
)으로부터 단시간 잡음 평가치(
Figure 112006041185403-pct00004
)를 차감함으로써 평가될 수 있다:
Figure 112006041185403-pct00005
(식 2)
잡음 감소 음성 신호(
Figure 112006041185403-pct00006
)는 소스 신호의 원래의 위상의 스펙트럼을 사용하여 재합성된다. 이러한 스펙트럼 차감의 단순한 형태는 잡음 평가치가 너무 낮거나 또는 너무 높을 경우, "흐르는 물(running water)" 효과 및 "음악적 잡음(musical noise)"과 같은 원하지 않는 신호의 왜곡을 야기한다. 평균 잡음 스펙트럼보다 많은 차감에 의해 음악적 잡음을 제거하는 것이 가능하다. 이것은 식 3과 같이 일반화된 스펙트럼의 차감("GSS") 방법을 유도한다:
Figure 112006041185403-pct00007
(식 3)
추가로, 음성의 평가가 음수인 것을 피하기 위해, 음수의 크기는 때때로 식 4와 같이 0 또는 스펙트럼으로 대체된다:
Figure 112006041185403-pct00008
(식 4)
매우 큰
Figure 112006041185403-pct00009
값을 사용하여 GSS로 원하지 않는 잡음을 효과적으로 억제하는 것이 가능하지만, 음성 소리는 약해지고 명료함을 잃게 될 것이다. 따라서 적절한 높은 명료도를 유지하면서 불필요한 잡음을 효과적으로 억제하는, 음성 코딩 및 음성 인식을 위한 계산 효율적인 배경 잡음 억제기가 당해 기술 분야에 꼭 필요하다.
본 발명은 음성 코딩 및 음성 인식을 위한 계산 효율적인 배경 잡음 억제 방법 및 시스템에 관한 것이다. 본 발명은 적절한 높은 명료도를 유지하면서 원하지 않는 잡음을 효과적으로 억제하는 효율적이고 정확한 잡음 억제기에 대한 당해 기술 분야의 요구를 달성한다.
일 측면에서, 소스 음성 신호에서 잡음을 억제하는 방법은 소스 음성 신호에서 신호대 잡음 비를 계산하는 단계와, 현 프레임과 하나 이상의 이전 프레임에 기초하고 신호대 잡음 비에 따라서 소스 음성 신호의 현 프레임에 대한 배경 잡음 평가치를 계산하는 단계를 포함하되, 신호대 잡음 비 계산이 현 프레임에 대한 배경 잡음 평가치로부터 독립하여 수행된다. 잡음 억제 방법은 잡음이 줄어든 음성 신호를 발생시키기 위해 소스 음성 신호로부터 배경 잡음 평가치를 차감하는 것을 포함한다.
다른 측면에서, 잡음 억제 방법은 음성 영역보다 잡음 영역에 대해 빠른 비율로 배경 잡음 평가를 경신하는 단계를 더 포함한다. 이로써, 잡음 영역 및 음성 영역은 신호대 잡음 비에 기초하여 식별 및/또는 분류될 수 있다.
또 다른 면에서, 잡음 억제 방법은 신호대 잡음 비에 기초한 과 차감변수를 계산하는 단계를 더 포함하며, 여기에서 과 차감 변수는 잡음이 없는 신호에서 왜곡을 줄이도록 형성된다. 이러한 특별한 실시 예에 따라, 과 차감 변수는 0 에 가깝게 낮아질 수 있다.
또한, 다른 면에서, 잡음 억제 방법은 신호대 잡음 비에 기초한 잡음-플로어 변수를 계산하는 단계를 더 포함하며, 여기에서 잡음-플로어 변수는 잡음 변동, 배경 잡음 레벨 및 음악 잡음을 줄이도록 구성된다.
다른 면을 따르면, 시스템, 장치 및 컴퓨터 소프트웨어 제품 또는 상기 기술에 따른 잡음 억제를 위한 매체가 제공된다.
본 발명의 다양한 실시 예에 따르면, 현저히 개선된 잡음 감소 신호를 발생시키기 위해 본 발명의 배경 잡음 제거기는 소스 신호에 존재하는 배경 잡음의 현저하게 개선된 평가치를 제공하고, 그것에 의해서 계산 효율적인 방식으로 수많은 문제점을 극복하게 된다. 본 발명의 다른 특징 및 이점은 후술되는 상세한 설명과 첨부되는 도면을 재검토하면 당업자에게 명백해 질 것이다.
도 1은 본 발명의 일 실시예에 따른 배경 잡음 억제기를 도시한 순서도/블록도.
도 2는 본 발명의 일 실시예에 따른 신호대 잡음 비의 함수로써 과 차감변수를 도시한 그래프.
도 3은 본 발명의 일 실시예에 따른 평균 신호대 잡음 비의 함수로써 잡음플로어 변수를 도시한 그래프.
본 발명은 음성 코딩 및 음성 인식을 위한 계산 효율적인 배경 잡음 억제 방법과 관계있다. 후술되는 설명은 본 발명의 실시에 대한 특정 정보를 포함한다. 당업자는 본 발명이 본 적용에서 특정하게 언급된 것과 다른 방식으로 수행될 수 있 다는 것을 알 수 있을 것이다. 더욱이, 본 발명의 특정한 세부 사항들은 본 발명을 불분명하게 하지 않기 위해 언급되지 않는다. 본 명세서에서 설명되지 않은 특정한 세부 사항은 당업자의 지식 범위 안에 있다.
본 명세서의 도면과 첨부되는 상세한 설명은 단지 본 발명의 예시적인 실시 예에 관한 것이다. 간결함을 유지하기 위해, 본 발명의 원리를 이용하는 본 발명의 다른 실시예는 본 명세서에서 특정하게 설명되지 않으며 본 도면에 의해 특정하게 예시되지 않는다.
도 1과 관련하여, 본 발명의 일 실시예를 따른 배경 잡음 억제 방법 및 시스템의 본보기를 예시하는 순서도/블록도(100)가 도시된다. 당업자에게도 명백한 몇몇 세부 사항 및 특징들은 도 1의 순서도/블록도(100)에서 제외되었다. 예를 들어, 한 단계 또는 요소는 본 기술에서 알려진 것처럼 하나 또는 그 이상의 하부 단계들 또는 하부 요소들을 포함할 수도 있다. 순서도/블록도(100)에서 도시된 단계 또는 요소(102 - 114)는 본 발명의 일 실시예를 설명하는데 충분하지만, 본 발명의 다른 실시예는 순서도/블록도(100)에 도시된 것과 다른 단계 또는 요소를 활용할 수도 있다.
하기에 설명되는 것처럼, 순서도/블록도(100)에 묘사된 방법은 소스 신호에 존재하는 배경 잡음의 감소 및/또는 억제가 요구되는 다수의 애플리케이션에서 활용될 것이다. 예를 들어, 본 발명의 배경 잡음 억제 방법은 음성 코딩 및 음성 인식에 사용하기에 적합하다. 또한, 하기에 설명되는 것처럼, 순서도/블록도(100)에 의해 도시된 방법은 계산 효율적인 방식에서 통상의 잡음 억제 기술과 관련된 많은 문제점을 극복한다.
예를 들면, 순서도/블록도(100)에 의해 도시된 방법은 소스 신호("X(m)") (116)에 존재하는 배경 잡음을 감소 및/또는 억제하여 잡음이 감소된 신호 ("S(m)")(120)를 발생시키기 위해 이동 전화와 같은 전화 장치에서 작동하는 프로세서로 실행하는, 소프트웨어 매체로 구현될 수도 있다.
단계 또는 요소(102)에서, 소스 신호(X(m))(116)은 주파수 영역으로 변환된다. 본 발명의 일 실시예를 따르면, 소스 신호(X(m))(116)는 8 kHz의 샘플링 레이트를 가지며, 예를 들어 50% 정도 겹쳐서, 16 ms 프레임으로 처리된다고 가정한다. 소스 신호(X(m))(116)는 신호(│X(m)│)(118)를 발생시키키 위해, 128 샘플의 프레임에 해밍 윈도우를 적용하여 주파수 영역으로 변환되고 그 다음에 128 포인트 고속 푸리에 변환(Fast Fourier Transform, FFT)을 계산한다. 실제 신호의 주파수 영역 대칭을 이용하면, 128 포인트의 FFT를 묘사하는데 신호(│X(m)│)(118)중의 65 포인트로 충분하다. 그 다음에 신호(│X(m)│)(118)는 반복적인 신호대 잡음 비(SNR) 평가 단계 또는 요소(104), 잡음 평가 단계 또는 요소(110) 및 잡음 제거 단계 또는 요소(112)에 제공된다.
단계 또는 요소(104)에서, 소스 신호(X(m))(116)의 반복적인 SNR은 식 5와 같이 이전 프레임으로부터의 정보를 취하고 현재 프레임에 대한 잡음 평가치와는 독립적인 반복적인 SNR 계산 결과를 이용하여 평가된다.
Figure 112006041185403-pct00010
(식5)
평활 파라미터(
Figure 112006041185403-pct00011
)는 SNR 평가치에 적용된 시간 평균을 제어한다. 다음과 같이 종래의 SNR 계산과 달리 주어진다.
Figure 112006041185403-pct00012
(식 6)
식 5를 따르는 SNR 계산은 현 프레임의 잡음 평가치(
Figure 112006041185403-pct00013
)에 의존하지 않으며, 이전의 프레임의 개선된 또는 잡음 감소된 신호(
Figure 112006041185403-pct00014
)에도 의존하지 않는데, 이 신호는 식 6에 따라 종래 SNR 계산에 의해 요구되는 현 프레임의 과 차감 변수(
Figure 112006041185403-pct00015
) 및 잡음 플로어 변수(
Figure 112006041185403-pct00016
)를 포함하는 복수의 차감 변수의 함수이다. 대신에, 식 5에 의해 주어진 전형적인 SNR 계산은 이전의 두 프레임과 현재 및 이전 프레임의 원래의 소스 신호로부터의 잡음 평가치에 기초하며, 현 프레임의 차감 변수(
Figure 112006041185403-pct00017
,
Figure 112006041185403-pct00018
)의 값에 의존하지 않는다. 따라서, 단계 또는 요소(104) 동안에 수행되는 반복적인 SNR 평가는 현 프레임의 잡음 평가치에 의존하지 않는다.
도 1에 도시된 것처럼, 단계 또는 요소(104) 동안에 평가된 SNR 은 단계 또는 요소(106) 동안에 잡음 경신 변수(
Figure 112006041185403-pct00019
)의 값, 단계 또는 요소(108) 동안의 과차감 변수 및 잡음 플로어(noise floor) 변수(
Figure 112006041185403-pct00020
)를 결정하는데 이용된다.
단계 또는 요소(106)에서, 잡음 평가치가 단계 또는 요소(110) 동안에 적응되는 비율을 제어하는 잡음 경신 변수(noise update parameter)(
Figure 112006041185403-pct00021
)는 예를 들어 단계 또는 요소(104) 동안에 계산된 SNR 평가치에 기초한 잡음 영역과 음성 영역에 대해, 다른 값을 사용하여, 다른 비율로 경신된다. 잡음 경신 변수(
Figure 112006041185403-pct00022
)가 1에 가까 울수록 적응률은 느려진다. 잡음 경신 변수(
Figure 112006041185403-pct00023
)가 1과 같아질 경우, 잡음 적응은 전혀 없게 된다. 만일
Figure 112006041185403-pct00024
< 0.5 이면, 잡음 적응 비율은 매우 빠를 것으로 생각된다. 본 발명의 일 실시예를 따르면, 잡음 경신 변수(
Figure 112006041185403-pct00025
)는 두 값 중의 하나로 추정되며, 잡음 평가치가 하기에 언급된 것처럼, 음성 영역보다 빠른 비율로 잡음 영역에 대해 경신되도록 현 프레임의 평균 SNR에 기초하여 각 프레임에 적응된다.
이 방식에서 잡음 경신 변수(
Figure 112006041185403-pct00026
) 계산은 대부분의 시끄러운 환경들이 정지되어 있지 않다는 점을 고려해야 하며, 변화하는 잡음 레벨과 특징에 적응하기 위해 가능한 한 자주 잡음 평가치를 경신하는 것이 바람직하다. 만일 잡음 평가치가 잡음 단일 영역 동안에 경신되면, 알고리즘은 배경 잡음 레벨에서의 조용한 환경으로부터 시끄러운 환경으로 이동 및 그 역의 경우, 등등과 같은 갑작스런 변화에 빠르게 적응하지 못한다. 이와 반대로, 잡음 평가치가 계속해서 경신되면, 잡음 평가치는 음성 영역 동안의 음성을 향해 수렴되기 시작하여 음성 정보를 제거하거나 흐리게 할 수 있다. 잡음 영역과 음성 영역에 대해 상이한 잡음 평가치 경신 비율을 채택함으로써, 본 발명에 따른 잡음 평가치 계산 기술은 음성 내용을 흐리게 하거나 불쾌한 음질의 도입 없이 잡음 평가치를 지속적이고 정확하게 경신하는 효과적인 접근법을 제공한다.
위에서 언급된 것처럼, 잡음 평가치는 다른 주파수 전역에서의 평균 SNR 평가치에 기초하여 두 개의 다른 비율로 음성 및 비 음성 영역 동안 모두에서 매번 새로운 프레임으로 연속적으로 경신된다. 이러한 접근법의 다른 이점은 이 알고리 즘이 잡음 평가치를 적절하게 경신하기 위해서 명백한 음성/비 음성 분류를 요구하지 않는다는 것이다. 그 대신, 음성 및 비 음성 영역은 현 프레임의 모든 주파수 전역에 걸친 평균 SNR 평가치에 기초해서 분류된다. 따라서, 잡음 환경에서의 값 비싸고 잘못된 음성/비 음성 분류가 회피되고, 계산 효율은 현저하게 개선된다.
단계 또는 요소(108)에서, 과 차감 변수(
Figure 112006041185403-pct00027
) 및 잡음 플로어 변수(
Figure 112006041185403-pct00028
)는 단계 또는 요소(104) 동안에 계산된 SNR 평가치에 기초하여 계산된다. 과 차감 변수(
Figure 112006041185403-pct00029
)는 나머지 잡음 최고치 또는 음악적 잡음 및 잡음이 없는 신호의 왜곡을 줄이는 것을 담당한다. 본 발명에 따르면, 과 차감 변수(
Figure 112006041185403-pct00030
)의 값은 음악적 잡음 및 과다한 신호 왜곡 모두를 방지하기 위해 설정된다. 따라서, 과 차감 변수(
Figure 112006041185403-pct00031
)의 값은 원치 않는 잡음을 감쇄시킬 정도로만 크면 된다. 예를 들어, 매우 큰 과 차감 변수(
Figure 112006041185403-pct00032
)를 사용하면 원치 않는 잡음을 충분히 감쇄시킬 수 있고 잡음 차감 과정에서 발생된 음악적 잡음을 억제할 수 있지만, 매우 큰 과 차감 변수(
Figure 112006041185403-pct00033
)는 음성 내용을 약하게 할 수 있고 음성의 명료도를 줄일 수도 있다.
통상적으로, 과 차감 변수(
Figure 112006041185403-pct00034
)에 설정된 가장 작은 값은 1이며, 이것은 잡음 평가치가 시끄러운 음성으로부터 차감되었음을 나타낸다. 그러나, 본 발명에 따르면, 과 차감 변수(
Figure 112006041185403-pct00035
)의 값은 0처럼 작은 값도 가질 수 있으며, 이것은 매우 깨끗한 음성 영역에서, 원래 음성으로부터 아무런 잡음 평가치도 차감되지 않았음을 나타낸다. 이러한 접근법은 본래의 신호 진폭을 보전하고, 깨끗한 음성 영역에서의 왜곡을 감소시킨다. 본 발명의 일 실시예를 따라, 과 차감 변수(
Figure 112006041185403-pct00036
)는 도 2의 그래 프(200)에 도시된 것처럼 현 프레임의 SNR에 기초하여 각 프레임(m) 및 각 주파수 빈(k)에 대해 적응된다. 도 2에서, 직선(202)은 다음 식에 의해 규정된다;
Figure 112006041185403-pct00037
(식 7)
도 2에 도시된 것처럼, 예를 들어 수평 축에 의해 규정된 SNR이 15보다 큰 경우와 같이 매우 깨끗한 영역에서는 수직 축에 의해 규정된, 과 차감 변수(
Figure 112006041185403-pct00038
)의 값이 1 보다 작을 수 있다.
잡음 플로어 변수(또는 스펙트럼의 플로어링 변수)(
Figure 112006041185403-pct00039
)는 잡음 변동의 양, 배경 잡음의 레벨 및 처리된 신호의 음악적 잡음을 제어한다. 증가된 잡음 플로어 변수(
Figure 112006041185403-pct00040
) 값은 감지된 잡음 변동은 줄이지만 배경 잡음의 레벨은 증가시킨다. 본 발명에 따르면, 잡음 플로어 변수(
Figure 112006041185403-pct00041
)는 SNR에 따라 변화한다. 높은 레벨의 배경 잡음에 대해서는 낮은 잡음 플로어 변수(
Figure 112006041185403-pct00042
)가 이용되고, 낮은 시끄러운 신호에 대해서는 높은 잡음 플로어 변수(
Figure 112006041185403-pct00043
)가 이용된다. 이러한 접근법은 고정된 잡음 플로어 또는 간단한 잡음이 감소된 신호에 적용되는 종래 기술과 큰 차이가 있다. 유리하게, 높은 주변 잡음 및/또는 고정된 잡음 플로어와 관련된 증가된 배경 잡음의 문제는 잡음 플로어 변수(
Figure 112006041185403-pct00044
)가 SNR에 따라 변하는 본 발명의 잡음 플로어 변수(
Figure 112006041185403-pct00045
) 계산 기술에 의해 회피될 수 있다.
본 발명의 일 실시예에 따르면, 잡음 플로어 변수(
Figure 112006041185403-pct00046
)는 도 3의 그래프(300)에 도시된 것처럼 현 프레임의 모든 65 주파수 빈(bin) 전역에 걸친 평균 SNR에 기초하여 각 프레임(m)에 적응된다. 도 3에서, 수직 축에 의해 규정된 잡음 플로어 변수(
Figure 112006041185403-pct00047
)는 수평 축에 의해 규정된 평균 SNR의 함수이며, 다음 식으로 규정된다.
Figure 112006041185403-pct00048
(식 8)
도 3에 도시된 바와 같이, 예시적인 평균 SNR의 값 15는 잡음 플로어 변수(
Figure 112006041185403-pct00049
)값 0.3에 대응한다.
단계 또는 요소(110)에서, 현 프레임에 대한 잡음 평가치(또는 "잡음 스펙트럼" 평가치)는 신호(│X(m)│)(118) 및 단계 또는 요소(106) 동안에 계산된 잡음 경신 변수(
Figure 112006041185403-pct00050
)에 기초해서 계산된다. 상기에 기술된 것처럼, 잡음 평가치는 일반적으로 현 프레임과 하나 또는 그 이상의 이전 프레임에 기초한다. 본 발명의 일 실시예에 따르면, 잡음 억제의 초기화에서, 음성 신호의 처음 4 프레임은 오직 잡음 프레임만 포함한다는 가정 하에, 초기 잡음 스펙트럼 평가치는 소스 신호 (X(m))(116)의 처음 40ms로부터 계산된다. 잡음 스펙트럼은 평활화된 스펙트럼보다 실제 FFT 등급 스펙트럼으로부터 65 주파수 빈에 걸쳐 평가된다. 데이터의 초기 표본이 순수한 잡음 대신에 잡음으로 오염된 음성을 포함하는 경우, 잡음 평가치가 매 10ms 마다 경신되기 때문에 알고리즘은 올바른 잡음 평가치로 재빨리 회복된다.
앞서 언급된 것처럼, 잡음 평가를 경신할 때, 잡음 평가치는 주어진 식에 의해 비음성 영역 동안에서는 빠른 비율로, 음성 영역 동안에서는 느린 비율로 경신된다:
Figure 112006041185403-pct00051
(식 9)
본 발명의 일 실시예를 따르면, 잡음 경신 변수(
Figure 112006041185403-pct00052
)는 두 개 중 하나의 값으 로 추정되며 현 프레임의 평균 SNR에 기초하여 각 프레임에 적응된다. 예를 들어, 프레임이 음성을 포함한다고 간주되면, 잡음 평가치는 음성으로 구성된 현 프레임으로 느리게 경신되고,
Figure 112006041185403-pct00053
는 0.999로 설정된다. 프레임이 잡음으로 간주될 경우는, 잡음 평가치가 좀 더 빠르게 경신되고,
Figure 112006041185403-pct00054
는 0.8로 설정된다.
단계 또는 요소(112)에서, 잡음 감소 신호()를 발생시키기 위해 잡음 차감(또는 스펙트럼의 차감)은 신호(│X(m)│)(118), 단계 또는 요소(110) 동안에 계산된 잡음 평가치(
Figure 112006041185403-pct00056
), 단계 또는 요소(108) 동안에 계산된 과 차감 변수(α) 및 잡음 플로어 변수(
Figure 112006041185403-pct00057
)를 이용하여 수행된다. 잡음 감소 신호는 다음과 같이 주어진다.
Figure 112006041185403-pct00058
(식 10)
과 차감이 특정 주파수에서의 크기가 잡음 플로어 변수(
Figure 112006041185403-pct00059
) 아래로 되게 하면, 잡음 플로어 변수(
Figure 112006041185403-pct00060
)가 이 주파수에서의 크기를 대신할 것이다. 게다가, 깨끗한 음성 신호의 왜곡을 피하고 그 신호의 질을 보전하기 위해, 잡음 평가치는 높은 SNR 영역이 상기에 언급된 것처럼 검출될 때, 소스 신호(│X(m)│)(118)로부터 차감되지 않는다. 그 결과, 과 차감 변수(
Figure 112006041185403-pct00061
)의 최소값은 0이다.
단계 또는 요소(114)에서, 잡음 감소 신호(
Figure 112006041185403-pct00062
)는 역 FFT(IFFT) 및 잡음 감소 신호(S(m))(120)을 재구성하기 위한 오버랩 추가를 통해 시간 영역으로 역 변환된다.
본 발명의 배경 잡음 억제기는 현저하게 개선된 잡음 감소 신호를 발생시키 기 위해 소스 신호에 존재하는 배경 잡음의 현저히 개선된 평가치를 제공하며, 이에 의해 계산 효율적인 방식으로 많은 문제점을 해결한다. 상기에 언급된 것처럼, 본 발명의 배경 잡음 억제기는 빠르게 변화하는 잡음 특성에 적응하고, SNR을 개선하며, 깨끗한 음성의 질을 보전하고, 잡음 환경에서 음성 인식의 성능을 개선한다. 게다가, 본 발명의 배경 잡음 억제기는 음성 내용을 흐리게 하지 않고, 악음(musical tone)을 도입하거나 "흐르는 물" 효과를 도입한다.
본 발명의 전형적인 실시예의 상기 설명으로부터, 다양한 기술이 본 발명의 영역을 벗어남이 없이 본 발명의 개념을 구현하기 위해 이용될 수 있다는 것이 확실하다. 게다가, 본 발명이 특정 실시 예를 참고로 설명되었지만, 당업자는 본 발명의 사상과 범주를 벗어남이 없이 형태와 세부사항에서의 변화가 이뤄질 수 있다는 것을 깨닫게 될 것이다. 예를 들어, 프레임의 크기, 샘플의 수 및 잡음 평가 경신 비율이 상기에 설명된 전형적인 실시예에서 제공된 값으로부터 변화할 수 있다는 것이 확실하다. 서술된 전형적인 실시예는 모든 점에서 예시적인 것일 뿐 제한적이지 않은 것으로 간주되어야 한다. 본 발명은 여기에서 설명된 특정한 전형적인 실시예에 국한되지 않고, 본 발명의 영역으로부터 벗어남이 없이 많은 재조정, 수정, 차감이 가능하다는 것이 이해되어야만 한다.
그래서, 음성 코딩과 음성 인식을 위한 계산 효율적인 배경 잡음 억제기가 설명되었다.

Claims (26)

  1. 소스 음성신호에서 잡음을 억제하는 방법에 있어서,
    상기 소스 음성 신호의 신호대 잡음 비를 계산하는 단계와;
    현 프레임과 하나 이상의 이전 프레임에 기초하고 상기 신호대 잡음 비에 따라서 상기 소스 음성 신호의 현 프레임에 대한 배경 잡음 평가치를 계산하는 단계와;
    상기 신호대 잡음 비에 기초하여 과 차감 변수를 계산하는 단계와;
    상기 신호대 잡음 비에 기초하여 잡음 플로어 변수를 계산하는 단계와;
    잡음 감소 음성 신호를 발생시키기 위해 상기 과 차감 변수와 상기 잡음 플로어 변수에 기초하여 상기 소스 음성 신호로부터 상기 배경 잡음 평가치를 차감하는 단계를 포함하며,
    상기 신호대 잡음 비 계산 단계가 상기 현 프레임에 대한 상기 배경 잡음 평가치와 독립하여 수행되는, 잡음 억제 방법.
  2. 제 1항에 있어서,
    음성 영역보다 잡음 영역에 대해 더 빠른 비율로 상기 배경 잡음 평가치를 경신하는 단계를 더 포함하는 잡음 억제 방법.
  3. 제 2항에 있어서,
    상기 잡음 영역과 상기 음성 영역은 상기 신호대 잡음 비에 기초하여 식별되는 잡음 억제 방법.
  4. 제 1항에 있어서,
    상기 과 차감 변수는 잡음이 없는 신호의 왜곡을 줄이도록 구성되는 잡음 억제 방법.
  5. 제 4항에 있어서,
    상기 과 차감 변수는 약 0인 잡음 억제 방법.
  6. 제 1항에 있어서,
    상기 잡음 플로어 변수는 잡음 변동, 배경 잡음 레벨 및 음악적 잡음을 제어하도록 구성되는 잡음 억제 방법.
  7. 소스 음성 신호에서 잡음을 억제하는 잡음 억제기에 있어서,
    상기 소스 음성 신호의 신호대 잡음 비를 계산하는 제 1 요소와;
    현 프레임 및 하나 이상의 이전 프레임에 기초하고 상기 신호대 잡음 비에 따라서 상기 소스 음성 신호의 현 프레임에 대한 배경 잡음 평가치를 계산하는 제 2 요소와,
    상기 신호대 잡음 비에 기초하여 과 차감 변수를 계산하는 제 3 요소와;
    상기 신호대 잡음 비에 기초하여 잡음 플로어 변수를 계산하는 제 4 요소와;
    잡음 감소 음성 신호를 발생시키기 위해 상기 과 차감 변수 및 상기 잡음 플로어 변수에 기초하여 상기 소스 음성 신호로부터 상기 배경 잡음 평가치를 차감하는 제 5 요소를 포함하되,
    상기 제 1 요소는 상기 현 프레임에 대한 상기 배경 잡음 평가치와 독립하여 상기 신호대 잡음 비를 계산하는 잡음 억제기.
  8. 제 7항에 있어서,
    상기 배경 잡음 평가치는 음성 영역보다 잡음 영역에 대해 더 빠른 비율로 경신되는 잡음 억제기.
  9. 제 8항에 있어서,
    상기 잡음 영역 및 상기 음성 영역은 상기 신호대 잡음 비에 기초하여 식별되는 잡음 억제기.
  10. 제 7항에 있어서,
    상기 과 차감 변수는 잡음이 없는 신호의 왜곡을 줄이도록 구성되는 잡음 억제기.
  11. 제 10항에 있어서,
    상기 과 차감 변수는 약 0인 잡음 억제기.
  12. 제 7항에 있어서,
    상기 잡음 플로어 변수는 잡음 변동, 배경 잡음 레벨 및 음악적 잡음을 줄이기 위해 구성되는 잡음 억제기.
  13. 소스 음성 신호에서 잡음을 억제하기 위해, 프로세서에 의해 실행될 수 있는 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체에 있어서,
    컴퓨터 소프트웨어 프로그램은
    상기 소스 음성 신호에서 신호대 잡음 비 계산을 위한 코드와,
    현 프레임 및 하나 이상의 이전 프레임에 기초하고 상기 신호대 잡음 비에 따라서 상기 소스 음성 신호의 현 프레임에 대한 배경 잡음 평가치를 계산하기 위한 코드와,
    상기 신호대 잡음 비에 기초하여 과 차감 변수를 계산하기 위한 코드와;
    상기 신호대 잡음 비에 기초하여 잡음 플로어 변수를 계산하기 위한 코드와;
    잡음 감소 음성 신호를 발생시키기 위해 상기 과 차감 변수 및 상기 잡음 플로어 변수에 기초하여 상기 소스 음성 신호로부터 상기 배경 잡음 평가치를 차감하기 위한 코드를 포함하되,
    상기 신호대 잡음 비를 계산하기 위한 코드는 상기 현 프레임에 대한 상기 배경 잡음 평가치와 독립하여 수행되는 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체.
  14. 제 13항에 있어서,
    음성 영역보다 잡음 영역에 대해 더 빠른 비율로 상기 배경 잡음 평가치를 경신하기 위한 코드를 더 포함하는 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체.
  15. 제 14항에 있어서,
    상기 잡음 영역과 상기 음성 영역은 상기 신호대 잡음 비에 기초하여 식별되는 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체.
  16. 제 13항에 있어서,
    상기 과 차감 변수는 잡음이 없는 신호에서 왜곡을 줄이도록 구성되는 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체.
  17. 제 16항에 있어서,
    상기 과 차감 변수는 약 0인 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체.
  18. 제 13항에 있어서,
    상기 잡음 플로어 변수는 잡음 변동, 배경 잡음 레벨 및 음악적 잡음을 줄이도록 구성되는 컴퓨터 소프트웨어 프로그램을 포함하는 기록 매체.
  19. 소스 음성 신호에서 잡음을 억제하는 방법에 있어서,
    상기 소스 음성 신호에서 신호대 잡음 비를 계산하는 단계와,
    현 프레임과 하나 이상의 이전 프레임에 기초하고 상기 신호대 잡음 비에 따라서 상기 소스 음성 신호의 현 프레임에 대한 배경 잡음 평가치를 계산하는 단계와,
    상기 소스 음성 신호로부터 잡음 감소 음성 신호를 발생시키기 위해 상기 배경 잡음 평가치를 차감하는 단계를 포함하되,
    상기 신호대 잡음 비를 계산하는 단계는 상기 현 프레임에 대한 상기 배경 잡음 평가치와 독립하여 수행되는 잡음 억제 방법.
  20. 제 19항에 있어서,
    음성 영역보다 잡음 영역에 대해 더 빠른 비율로 상기 배경 잡음 평가치를 경신하는 단계를 더 포함하는 잡음 억제 방법.
  21. 제 20항에 있어서,
    상기 잡음 영역과 상기 음성 영역은 상기 신호대 잡음 비에 기초해서 식별되는 잡음 억제 방법.
  22. 제 19항에 있어서,
    상기 신호대 잡음 비를 기초로 하여 과 차감 변수를 계산하는 단계를 더 포함하는 잡음 억제 방법.
  23. 제 22항에 있어서,
    상기 과 차감 변수는 잡음이 없는 신호에서 왜곡을 줄이도록 구성되는 잡음 억제 방법.
  24. 제 22항에 있어서,
    상기 과 차감 변수는 1 보다 작은 잡음 억제 방법.
  25. 제 19항에 있어서,
    상기 신호대 잡음 비에 기초하여 잡음 플로어 변수를 계산하는 단계를 더 포함하는 잡음 억제 방법.
  26. 제 25항에 있어서,
    상기 잡음 플로어 변수는 잡음 변동, 배경 잡음 레벨 및 음악적 잡음을 줄이도록 구성되는 잡음 억제 방법.
KR1020067011588A 2003-11-28 2004-11-18 소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기 KR100739905B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/724,430 US7133825B2 (en) 2003-11-28 2003-11-28 Computationally efficient background noise suppressor for speech coding and speech recognition
US10/724,430 2003-11-28
PCT/US2004/038675 WO2005055197A2 (en) 2003-11-28 2004-11-18 Noise suppressor for speech coding and speech recognition

Publications (2)

Publication Number Publication Date
KR20060103525A KR20060103525A (ko) 2006-10-02
KR100739905B1 true KR100739905B1 (ko) 2007-07-16

Family

ID=34620061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067011588A KR100739905B1 (ko) 2003-11-28 2004-11-18 소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기

Country Status (6)

Country Link
US (1) US7133825B2 (ko)
EP (1) EP1706864B1 (ko)
KR (1) KR100739905B1 (ko)
CN (1) CN100573667C (ko)
AT (1) ATE541287T1 (ko)
WO (1) WO2005055197A2 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US20060184363A1 (en) * 2005-02-17 2006-08-17 Mccree Alan Noise suppression
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
WO2008115435A1 (en) * 2007-03-19 2008-09-25 Dolby Laboratories Licensing Corporation Noise variance estimator for speech enhancement
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
DE102008017550A1 (de) * 2008-04-07 2009-10-08 Siemens Medical Instruments Pte. Ltd. Mehrstufiges Schätzverfahren zur Störgeräuschreduktion und Hörvorrichtung
US9575715B2 (en) * 2008-05-16 2017-02-21 Adobe Systems Incorporated Leveling audio signals
WO2010052749A1 (ja) * 2008-11-04 2010-05-14 三菱電機株式会社 雑音抑圧装置
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和***
CN101699831B (zh) * 2009-10-23 2012-05-23 华为终端有限公司 终端送话方法、***及设备
CN102918592A (zh) * 2010-05-25 2013-02-06 日本电气株式会社 信号处理方法、信息处理设备和信号处理程序
CN101930746B (zh) * 2010-06-29 2012-05-02 上海大学 一种mp3压缩域音频自适应降噪方法
JP5599353B2 (ja) * 2011-03-30 2014-10-01 パナソニック株式会社 送受信装置
JP5823850B2 (ja) * 2011-12-21 2015-11-25 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー 通信連絡システムおよび磁気共鳴装置
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
US9269368B2 (en) * 2013-03-15 2016-02-23 Broadcom Corporation Speaker-identification-assisted uplink speech processing systems and methods
JP6059130B2 (ja) * 2013-12-05 2017-01-11 日本電信電話株式会社 雑音抑圧方法とその装置とプログラム
CN106356070B (zh) * 2016-08-29 2019-10-29 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
US11164591B2 (en) * 2017-12-18 2021-11-02 Huawei Technologies Co., Ltd. Speech enhancement method and apparatus
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008684A1 (en) 1995-08-24 1997-03-06 British Telecommunications Public Limited Company Pattern recognition
WO1998033311A1 (en) 1997-01-23 1998-07-30 Motorola Inc. Apparatus and method for non-linear processing in a communication system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
TW533406B (en) * 2001-09-28 2003-05-21 Ind Tech Res Inst Speech noise elimination method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008684A1 (en) 1995-08-24 1997-03-06 British Telecommunications Public Limited Company Pattern recognition
WO1998033311A1 (en) 1997-01-23 1998-07-30 Motorola Inc. Apparatus and method for non-linear processing in a communication system

Also Published As

Publication number Publication date
US20050119882A1 (en) 2005-06-02
EP1706864A4 (en) 2008-01-23
KR20060103525A (ko) 2006-10-02
EP1706864A2 (en) 2006-10-04
EP1706864B1 (en) 2012-01-11
WO2005055197A2 (en) 2005-06-16
CN101142623A (zh) 2008-03-12
CN100573667C (zh) 2009-12-23
WO2005055197A3 (en) 2007-08-02
US7133825B2 (en) 2006-11-07
ATE541287T1 (de) 2012-01-15

Similar Documents

Publication Publication Date Title
KR100739905B1 (ko) 소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기
US7359838B2 (en) Method of processing a noisy sound signal and device for implementing said method
KR100335162B1 (ko) 음성신호의잡음저감방법및잡음구간검출방법
EP1875466B1 (en) Systems and methods for reducing audio noise
CA2569223C (en) Adaptive filter pitch extraction
JP2004502977A (ja) サブバンド指数平滑雑音消去システム
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
KR20090122251A (ko) 스피치 개선을 위한 노이즈 분산 추정기
JPH08506427A (ja) 雑音減少
KR20090012154A (ko) 통합적 순음 감소 방식의 노이즈 감소 방법
WO2001073758A1 (en) Spectrally interdependent gain adjustment techniques
WO2000062280A1 (en) Signal noise reduction by time-domain spectral subtraction using fixed filters
EP2191465A1 (en) Speech enhancement with noise level estimation adjustment
Udrea et al. Speech enhancement using spectral over-subtraction and residual noise reduction
WO2001073751A9 (en) Speech presence measurement detection techniques
CN104637493B (zh) 改进噪声抑制性能的语音概率存在修改器
Fischer et al. Combined single-microphone Wiener and MVDR filtering based on speech interframe correlations and speech presence probability
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端
JP4123835B2 (ja) 雑音抑圧装置および雑音抑圧方法
CN107424623B (zh) 语音信号处理方法及装置
Thoonsaengngam et al. The a priori SDR estimation techniques with reduced speech distortion for acoustic echo and noise suppression
Anderson et al. NOISE SUPPRESSION IN SPEECH USING MULTI {RESOLUTION SINUSOIDAL MODELING
Zheng et al. Speech enhancement based on estimating expected values of speech cepstra
Afolabi et al. Speech Enhancement of a Mobile Car-Noisy Speech Using Spectral Subtraction Algorithms

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130625

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140625

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150624

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160627

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190627

Year of fee payment: 13