KR100304666B1 - 음성 향상 방법 - Google Patents

음성 향상 방법 Download PDF

Info

Publication number
KR100304666B1
KR100304666B1 KR1019990036115A KR19990036115A KR100304666B1 KR 100304666 B1 KR100304666 B1 KR 100304666B1 KR 1019990036115 A KR1019990036115 A KR 1019990036115A KR 19990036115 A KR19990036115 A KR 19990036115A KR 100304666 B1 KR100304666 B1 KR 100304666B1
Authority
KR
South Korea
Prior art keywords
signal
noise
noise ratio
speech
frame
Prior art date
Application number
KR1019990036115A
Other languages
English (en)
Other versions
KR20010019603A (ko
Inventor
김무영
김상룡
김남수
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019990036115A priority Critical patent/KR100304666B1/ko
Priority to US09/572,232 priority patent/US6778954B1/en
Publication of KR20010019603A publication Critical patent/KR20010019603A/ko
Application granted granted Critical
Publication of KR100304666B1 publication Critical patent/KR100304666B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

본 발명은 음성향상 방법에 관한 것으로, (a) 입력 음성신호를 프레임단위로 나누어서 주파수영역 신호로 변환하는 단계; (b) 현재 프레임의 신호대잡음비() 및 이전 프레임의 신호대잡음비()를 구하는 단계; (c) 현재 프레임의 신호대잡음비 및 이전 프레임으로부터 예측된 현재 프레임의 예측 신호대잡음비()로부터 음성부재확률을 계산하는 단계; (d) 상기 (b)단계에서 계산된 두 신호대잡음비를 상기 (c)단계에서 계산된 음성부재확률에 따라 수정하는 단계; (e) 상기 (d)단계에서 수정된 두 신호대잡음비로부터 결정되는 현재 프레임의 이득을 계산하고, 계산된 이득을 현재 프레임의 음성신호 스펙트럼에 곱하는 단계; (f) 구해진 스펙트럼을 시간영역 신호로 변환하여 음성을 향상하는 단계; 및 (g) 다음 프레임의 잡음 및 음성 파워를 추정하여 예측 신호대잡음비를 구하여 상기 (c)단계의 예측 신호대잡음비로 출력하는 단계를 포함함을 특징으로한다.
본 발명에 따르면, 음성이 존재하지않는 구간 뿐 만 아니라, 음성부재확률을 토대로 음성이 존재하는 구간에서도 잡음 스펙트럼을 추정하여 그에 따른 SNR 및 이득을 갱신하여 음성 스펙트럼을 향상시킴으로써 여러 잡음 환경에서 보다 우수한 음성향상 성능을 달성할 수 있다.

Description

음성 향상 방법{Speech enhancement method}
본 발명은 음성향상방법에 관한 것으로, 음성부재확률(speech absence probability)을 토대로 음성이 존재하는 구간에서도 잡음 스펙트럼을 추정하여 음성 스펙트럼을 향상시키는 방법에 관한 것이다.
종래의 음성향상 방법은, 음성이 존재하지 않는 잡음 구간에서 잡음 스펙트럼을 추정한 다음, 추정된 잡음의 스펙트럼을 토대로 주어진 구간에서 음성 스펙트럼을 향상시키는 것이다. 따라서, 주어진 신호중에서 음성이 존재하는 구간과 존재하지 않는 구간을 검출하는 알고리즘이 필요하게되는데, 이런 경우 일반적으로 별도의 음성존재구간 검출기(Voice Activity Detector, 이하 VAD라 함)를 사용한다. VAD는 음성향상 방법과는 별도로 동작한다. 따라서, VAD에 의한 잡음구간 검출 및 이에 따른 잡음 스펙트럼의 추정은 실제 음성향상에서 사용되는 모델 및 가정과는 차이가 나게되고 음성향상 방법의 성능을 저하시키는 요소가 된다. 또한, VAD를 이용하는 경우, 음성이 존재하지않는 구간에서만 잡음 스펙트럼을 추정하게되는데, 실제 잡음 스펙트럼은 음성이 존재하는 구간에서도 변하기 때문에 실제 잡음 스펙트럼을 정확하게 추정하는데 한계가 있게된다.
본 발명이 이루고자하는 기술적 과제는 VAD를 별도로 구비하지않고 음성부재확률을 구한 다음 그에 따른 신호대잡음비(SNR) 및 이득을 갱신하여 음성 스펙트럼을 향상시키는 방법을 제공하는 것이다.
도 1은 본 발명에 따른 음성 향상 방법에 대한 흐름도이다.
도 2는 도 1의 SEUP 단계에 대한 보다 상세한 흐름도이다.
상기 기술적 과제를 이루기위한, 본 발명은 (a) 입력 음성신호를 프레임단위로 나누어서 주파수영역 신호로 변환하는 단계; (b) 현재 프레임의 신호대잡음비() 및 이전 프레임의 신호대잡음비()를 구하는 단계; (c) 현재 프레임의 신호대잡음비 및 이전 프레임으로부터 예측된 현재 프레임의 예측 신호대잡음비()로부터 음성부재확률을 계산하는 단계; (d) 상기 (b)단계에서 계산된 두 신호대잡음비를 상기 (c)단계에서 계산된 음성부재확률에 따라 수정하는 단계; (e) 상기 (d)단계에서 수정된 두 신호대잡음비로부터 결정되는 현재 프레임의 이득을 계산하고, 계산된 이득을 현재 프레임의 음성신호 스펙트럼에 곱하는 단계; (f) 구해진 스펙트럼을 시간영역 신호로 변환하여 음성을 향상하는 단계; 및 (g) 다음 프레임의 잡음 및 음성 파워를 추정하여 예측 신호대잡음비를 구하여 상기 (c)단계의 예측 신호대잡음비로 출력하는 단계를 포함함을 특징으로한다.
이하에서 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세히 설명하기로 한다. 도 1은 본 발명에 따른 통합처리에 의한 음성 향상 방법(Speech Enhancement based on Unified Processing, 이하 SEUP라 함)에 대한 흐름도이다. 도 1에 따른 음성 향상 방법은 전처리 단계(100), SEUP (102) 및 후처리 단계(104)를 포함한다.
전처리 단계(100)는 잡음이 섞여서 입력되는 음성신호를 프리엠퍼시스(pre-emphasis)하고, M-포인트 고속 푸리에 변환(M-point Fast Fourier Transform)한다. 음성신호를 s(n)이라 하고, s(n)을 복수의 프레임으로 나눌 때 m번째 프레임의 신호를 d(m,n)이라 하면, d(m,n)과 프리엠퍼시스되어 이전 프레임의 뒷부분과 오버랩(overlap)되는 신호 d(m,D+n)는 각각 다음 식과 같이 나타낼 수 있다.
여기서, D는 이전 프레임과 오버랩되는 길이이고, L은 한 프레임의 길이이다. ζ는 프리엠퍼시스에 사용되는 파라미터이다. 수학식 1과 같이 프리엠퍼시스된 신호는 M-포인트 고속 푸리에 변환(Fast Fourier Transform, FFT)된다. M-포인트 FFT를 적용하기 위하여 다음 식과 같이 사다리꼴 창이 적용된다.
이러한 창이 적용된 신호 y(n)은 다음 식과 같이 FFT되어, 주파수 영역 신호로 변환된다.
여기서, 각는 복소수로 실수부분과 허수부분으로 나뉜다.
SEUP단계(102)는 m번째 프레임의 음성부재확률 및 SNR로부터 이득 H(m,i)를 구하고, H(m,i)와 전처리 단계(100)에서 구해진를 곱하여 스펙트럼이 향상된을 구한다. 이 때, 배경잡음에 대한 정보를 수집하기위해 처음 소정 개수의 프레임에 대해 H(m,i) 및 SNR이 초기화된다.
후처리 단계(104)는를 역고속푸리에변환(IFFT)하고 디엠퍼시스(de-emphasis)를 수행한다.
IFFT는 다음 식과 같이 이루어진다.
이렇게 구해진 h(m,n)에 대해 다음 식과 같이 중복-가산(overlap-addition)한다.
디엠퍼시스는 다음 식과 같이 이루어져서 음성신호 s'(n)을 출력한다.
도 2는 SEUP 단계(102)에 대한 보다 상세한 흐름도이다. 도 2에 따른 SEUP는 초기 소정 개수의 프레임에 대한 파라미터 초기화 단계(200), 초기화 이후의 프레임에 대해 프레임 인덱스를 증가시켜(202단계) 현재 프레임의 SNR을 계산하는 단계(204), 현재 프레임의 음성부재확률 계산 단계(206), 현재 프레임의 이득 계산 단계(208), 현재 프레임의 스펙트럼 향상 단계(210) 그리고 모든 프레임에 대해 상기 단계들을 반복하는 단계(212 내지 216)를 포함한다.
SEUP로 입력되는 음성신호는 상술한 바와 같이 프리엠퍼시스되고 FFT된 신호로서, 잡음이 섞인 신호이다. 이 신호의 m번째 프레임, k번째 주파수의 스펙트럼을 Ym(k), 원래 음성신호 스펙트럼을 Xm(k), 잡음 스펙트럼을 Dm(k)라 하면, Ym(k)는 다음 식과 같이 모델링될 수 있다.
이 때, Xm(k)과 Dm(k)는 각각 통계적으로 독립이고, 다음 식과 같이 영(0) 평균(zero-mean)복소 가우시안 확률분포를 따른다.
여기서,는 각각 음성 및 잡음의 분산이며, 실제적으로 음성과 잡음의 k번째 주파수에 해당하는 파워를 의미한다. 그러나, 실제 연산은 채널별로 이루어지므로 m번째 프레임의 i번째 채널에 대한 신호의 스펙트럼은 다음 식과 같다.
여기서, Sm(i) 및 Nm(i)는 각각 i번째 채널의 평균 음성 및 잡음 스펙트럼이다. 한편, Gm(i)는 음성신호의 유무에 따라 각각 다음 식과 같은 확률분포를 따른다.
여기서,는 각각 i번째 채널의 음성 및 잡음의 파워이다.
파라미터 초기화 단계(200)는 배경잡음에 대한 정보를 수집하기 위해 초기 소정 개수의 프레임동안 SNR 및 이득과 같은 파라미터를 초기화한다. 초기화는 처음 MF개의 프레임동안 잡음 파워의 추정치, m번째 프레임의 i번째 채널 스펙트럼에 곱해지는 이득 H(m,i) 및 m번째 프레임의 i번째 채널에 대한 예측 SNR에 대해 다음 식과 같이 이루어진다.
여기서,,는 초기화 파라미터들이다. SNRMIN, GAINMIN은 각각 SEUP에서 구해지는 최소 SNR 및 이득이다. 이 값들은 사용자가 설정할 수 있다.
MF개의 초기 프레임들에 대해 초기화가 이루어진 후, 프레임 인덱스를 증가시키고(202단계), 증가된 인덱스에 해당하는 현재 프레임의 신호를 처리한다. 신호처리는 먼저, 현재 프레임에 대한 SNR인 포스트(posteriori) SNR을 계산한다(204단계). SNR을 구하기위해 다음 식과 같이 음성신호의 프레임간 상관성을 고려하여 평활화(smoothing)된 입력신호의 파워 Eacc를 구한다.
여기서,는 평활화 파라미터이고, Nc는 채널 수이다.
채널별 포스트 SNR은 수학식 12에서 구한 Eacc(m,i)와 추정된 잡음파워로부터 다음 식과 같이 구해진다.
다음으로, 현재 프레임에서 음성이 부재할 확률을 구한다(206단계). 각 주파수 채널에서 음성부재확률은 다음 식과 같이 구할 수 있다.
각 주파수 채널에서 스펙트럼 성분이 독립이라고 가정한다면 음성부재확률은 다음 식과 같이 된다.
여기서,는 가능비(Likelihood ratio)로서, 상술한 수학식 15 및 10으로부터 다음 식과 같이 결정된다.
는 주어진 데이터를 기초로 추정해야하며 본 발명에서는 다음 과 같은 값들을 사용하였다.
여기서,는 수학식 13에서 구한 포스트 SNR이고,는 이전 프레임까지의 신호만으로 현재 프레임에서의 SNR을 예측한 예측 SNR 값이다.
구해진 음성부재확률을 고려하여 프리 SNR(Priori SNR)인및 포스트 SNR을 수정한다(207단계). 프리 SNR은 현재 프레임의 SNR을 고려한 이전 프레임의 SNR 추정치로서 다음 식과 같이 결정진행(Decision-directed) 방식으로 구해진다.
여기서,는 m-1번째 프레임에서 음성파워의 추정치이다.
이렇게 구해진와 수학식 13에 의해 구해진는 수학식 15에 의해 구해진 음성부재확률에 따라 다음 식과 같이 갱신된다.
여기서, p(H1|Gm)은 음성과 잡음이 함께 존재할 확률이다.
각 주파수 채널에서 적용될 이득은로부터 다음 식과 같이 결정된다(208단계).
여기서, I0및 I1은 각각 베셀함수(Bessel function)의 0차 및 1차 계수이다.
이렇게 구해진 이득은 전처리된 결과에 곱해져서 스펙트럼을 향상시킨다. 현재 프레임에서 입력신호가 FFT된 결과를 Ym(k)라 하면, 스펙트럼이 향상된 FFT계수는 다음 식과 같이 구할 수 있다(210단계).
여기서, fL및 fH은 각각 채널의 최소 및 최대 주파수이다.
상술한 과정이 모든 프레임에 대해 수행되었다면 종료하고, 수행되지않았다면 다음 프레임에 대해 상술한 과정을 반복한다(212단계).
상술한 과정의 반복시, 현재 프레임의 스펙트럼 향상이 완료되면, 다음 프레임에 적용할 수 있도록 잡음 파워 및 예측 SNR을 갱신한다(214단계). 현재 프레임에서 사용되었던 잡음 파워의 추정치를라 하면, 다음 프레임에 사용될 잡음 파워에 대한 추정치의 갱신은 다음 식과 같이 이루어진다.
여기서,은 Gm(i)가 주어졌을 때 잡음 파워의 기대치이고, 공지의 지.에스.디.(Global Soft Decision)방식에 따라 다음 식과 같이 결정된다.
예측 SNR의 갱신 과정은 먼저, 음성파워를 갱신하고 갱신된 음성파워를 잡음파워로 나누어서 새로운 SNR을 구하게 된다. 음성파워의 갱신은 다음 식과 이루어진다.
이를 다시 음성부재확률로 표현하면 다음 식과 같다.
수학식 25로부터 다음 프레임에서 사용될 음성파워의 추정치는 다음 식과 같이 결정된다.
여기서,는 평활화 파라미터이다.
예측 SNR은 수학식 22 및 수학식 26으로부터 다음 식과 같이 결정된다.
상술한 바와 같이 파라미터가 갱신된 후, 프레임 인덱스를 증가시켜서(216단계) 상술한 과정들을 모든 프레임에 대해 반복한다.
다음은 본 발명에 대한 실험결과를 설명하기로 한다. 실험에 사용된 음성신호는 8KHz로 샘플링되었고, 각 프레임은 10msec의 시간을 나타낸다. 수학식 1의 ζ는 프리엠퍼시스에 사용된 파라미터로서, 본 발명에서는 -0.8이다. M은 FFT의 크기로 본 실험에서는 128이다. FFT를 취한 후, 주파수 포인트를 Nc개 의 주파수 대역별로 나누어 연산을 수행한다. 본 실험에서 Nc는 16이다. 수학식 15의는 0.45이며, SNRMIN은 SEUP에서 구해지는 SNR의 최소치로 0.085로 설정되었다. 또한 본 실험에서 p(H1)/p(H0)=0.0625로 설정하였으나, 이는 음성의 존재/부재에 대한 사전 정보에 따라 달라질 수 있다. SNR 수정시 사용되는 파라미터인 α는 0.99이며, 잡음 및 파워 갱신에 사용되는 파라미터인=0.99이고, 예측 SNR의 갱신시 사용되는 파라미터인=0.98이다. 파라미터가 초기화되는 프레임은 10(MF=10)이다.
실험은 주관적인(subjective)인 음질 테스트 방법으로 일반적으로 사용되는 모스(MOS, Mean Opinion Score) 테스트를 이루어졌다. MOS 테스트는 청자(listener)가 들었을 때 소리의 좋고 나쁨을 총 다섯단계로 표시하게 되어있으며, 실제로 탁월(excellent), 우수(good), 양호(fair), 불량(poor), 취약(bad)을 각각 5,4,3,2,1점으로 나타내어 여러 사람이 기록한 점수의 평균을 구하게 된다. 실제 실험에 사용된 음성 데이터는 남성, 여성 화자가 각각 5개의 문장을 발음한 것을 NOISEX-92 데이터베이스의 세가지 잡음 데이터인 white, buccaneer(엔진),babble 잡음으로 SNR을 변화시킨 데이터이다. 실험방법으로는, 훈련된 10명의 청자가 IS-127 표준과 본 발명의 SEUP 그리고 원래 잡음에 오염된 음성을 듣고 점수를 매겨 나온 평균을 구하였으며, 실제 특정잡음의 하나의 SNR에 대한 MOS 결과는 100개의 기록된 점수가 사용되었다. 청자는 현재 듣고있는 데이터가 어디에 속하는지 모르는 상태에서 점수를 기록하였으며 특히 점수의 일관성을 위해 오염되지않은 음성신호를 먼저 들려주고 기록하였다.
다음 표는 상술한 방법에 따른 실험결과를 보인 것이다.
잡음 buccaner white babble
SNR 5 10 15 20 5 10 15 20 5 10 15 20
None 1.40 1.99 2.55 3.02 1.29 2.06 2.47 3.03 2.44 3.02 3.23 3.50
IS-127 1.91 2.94 3.59 4.19 2.13 3.12 3.55 4.13 2.45 3.14 3.82 4.49
SEUP 2.16 3.12 3.62 4.21 2.43 3.22 3.62 4.24 2.90 3.45 3.89 4.52
여기서, None은 어떠한 형태로든 잡음이 제거되지않은 상태를 나타낸다.
표에 나타난 실험결과에 따르면, 본 발명에 의한 SEUP가 IS-127보다 상대적으로 우수한 성능을 보임을 알 수 있다. 특히 SNR 이 낮을수록 더욱 큰 성능차이를 보였으며 실제 휴대전화 환경에서 많이 보이는 babble 잡음의 경우 본 발명에 따른 SEUP가 상당한 성능차이를 보인다.
본 발명에 따르면, 음성이 존재하지않는 구간 뿐 만 아니라, 음성부재확률을 토대로 음성이 존재하는 구간에서도 잡음 스펙트럼을 추정하여 그에 따른 SNR 및 이득을 갱신하여 음성 스펙트럼을 향상시킴으로써 여러 잡음 환경에서 보다 우수한 음성향상 성능을 달성할 수 있다.

Claims (10)

  1. (a) 입력 음성신호를 프레임단위로 나누어서 주파수영역 신호로 변환하는 단계;
    (b) 현재 프레임의 신호대잡음비() 및 이전 프레임의 신호대잡음비()를 구하는 단계;
    (c) 현재 프레임의 신호대잡음비 및 이전 프레임으로부터 예측된 현재 프레임의 예측 신호대잡음비()로부터 음성부재확률을 계산하는 단계;
    (d) 상기 (b)단계에서 계산된 두 신호대잡음비를 상기 (c)단계에서 계산된 음성부재확률에 따라 수정하는 단계;
    (e) 상기 (d)단계에서 수정된 두 신호대잡음비로부터 결정되는 현재 프레임의 이득을 계산하고, 계산된 이득을 현재 프레임의 음성신호 스펙트럼에 곱하는 단계;
    (f) 구해진 스펙트럼을 시간영역 신호로 변환하여 음성을 향상하는 단계; 및
    (g) 다음 프레임의 잡음 및 음성 파워를 추정하여 예측 신호대잡음비를 구하여 상기 (c)단계의 예측 신호대잡음비로 출력하는 단계를 포함함을 특징으로하는 음성신호 향상 방법.
  2. 제1항에 있어서, 상기 (a)단계 및 (b)단계 사이에
    ,는 초기화 파라미터들이고, SNRMIN, GAINMIN은 각각 최소 신호대잡음비 및 이득이며, Gm(i)이 m번째 프레임의 i번째 채널 스펙트럼,가 m-1번째 프레임의 음성신호 파워의 추정치일 때, 배경잡음에 대한 정보를 수집하기 위해 초기 MF 개의 프레임동안 잡음 파워의 추정치, 이득 H(m,i) 및 이전 프레임까지의 데이터로부터 예측하는 현재 프레임의 신호대잡음비를 다음 식
    [수학식]
    과 같이 초기화하는 단계를 더 구비함을 특징으로 하는 음성신호 향상 방법.
  3. 제2항에 있어서, 상기 (b)단계의 현재 프레임의 신호대잡음비는
    Eacc(m,i)가 이전 프레임의 파워와 현재 프레임의 파워를 평활화한 파워이고가 추정된 잡음파워일 때, 다음 식
    [수학식]
    과 같이 구함을 특징으로하는 음성신호 향상 방법.
  4. 제2항에 있어서, 상기 (c)단계의 음성부재확률 p(H0|Gm(i))는
    m번째 프레임의 i번째 채널 스펙트럼 Gm(i)에 대해, 음성 부재시 Gm(i)의 확률분포 p(Gm(i)|H0)및 음성 존재시 Gm(i)의 확률분포 p(Gm(i)|H1)로부터, 각 주파수 채널 스펙트럼이 서로 독립일 때 다음 식
    [수학식]
    Nc: 채널 수
    과 같이 결정되며, 상기
    [수학식]
    이며,는 각각 현재 프레임에서의 신호대잡음비 및 예측 신호대잡음비임을 특징으로하는 음성신호 향상 방법.
  5. 제4항에 있어서, 상기 (d)단계의 두 신호대잡음비의 수정은
    현재 프레임의 신호대잡음비를, 현재 프레임의 신호대잡음비를 고려한 이전 프레임의 신호대잡음비를라 할 때, 상기 음성부재확률 p(H0|Gm(i)) 및 음성과 잡음이 함께 존재할 확률 p(H1|Gm(i))로부터 다음 식
    [수학식]
    SNRMIN: 최소 신호대잡음비
    와 같이 수정함을 특징으로하는 음성신호 향상 방법.
  6. 제5항에 있어서, 상기 (e)단계의 이득 H(m,i)는
    상기,으로부터 다음 식
    [수학식]
    I0및 I1: 각각 베셀함수(Bessel function)의 0차 및 1차 계수
    와 같이 결정됨을 특징으로하는 음성신호 향상 방법.
  7. 제6항에 있어서, 상기 (g)단계는
    현재 프레임에서의 잡음 파워 추정치 및 잡음 파워의 기대치를 평활화하여 다음 프레임의 잡음파워를 추정하는 단계;
    현재 프레임에서의 음성신호 파워 추정치 및 음성신호 파워의 기대치를 평활화하여 다음 프레임의 음성신호 파워를 추정하는 단계; 및
    추정된 잡음 파워 및 음성신호 파워로부터 다음 프레임의 예측 신호대잡음비를 구하는 단계를 더 구비함을 특징으로하는 음성신호 향상 방법.
  8. 제7항에 있어서, 상기 잡음파워의 기대치는
    음성신호의 부재시 잡음의 기대치를 E[|Nm(i)|2|Gm(i), H0]라 하고, 음성과 잡음이 함께 존재하는 경우의 잡음의 기대치를 E[|Nm(i)|2|Gm(i), H1]라 할 때, 다음 식
    [수학식]
    :잡음 파워 추정치,:예측 신호대잡음비
    와 같이 결정됨을 특징으로하는 음성신호 향상 방법.
  9. 제7항에 있어서, 상기 음성신호 파워의 기대치는
    음성신호의 부재시 음성신호의 기대치를 E[|Sm(i)|2|Gm(i), H0]라 하고, 음성과 잡음이 함께 존재하는 경우의 음성신호의 기대치를 E[|Sm(i)|2|Gm(i), H1]라 할 때, 다음 식
    [수학식]
    여기서,
    : 음성파워 추정치,:예측 신호대잡음비
    와 같이 결정됨을 특징으로하는 음성신호 향상 방법.
  10. 제7항에 있어서, 상기 예측 신호대잡음비
    추정된 잡음파워가이고, 추정된 음성파워가일 때, 다음 식
    [수학식]
    과 같이 결정됨을 특징으로하는 음성향상 방법.
KR1019990036115A 1999-08-28 1999-08-28 음성 향상 방법 KR100304666B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990036115A KR100304666B1 (ko) 1999-08-28 1999-08-28 음성 향상 방법
US09/572,232 US6778954B1 (en) 1999-08-28 2000-05-17 Speech enhancement method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990036115A KR100304666B1 (ko) 1999-08-28 1999-08-28 음성 향상 방법

Publications (2)

Publication Number Publication Date
KR20010019603A KR20010019603A (ko) 2001-03-15
KR100304666B1 true KR100304666B1 (ko) 2001-11-01

Family

ID=19609096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990036115A KR100304666B1 (ko) 1999-08-28 1999-08-28 음성 향상 방법

Country Status (2)

Country Link
US (1) US6778954B1 (ko)
KR (1) KR100304666B1 (ko)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
KR100400226B1 (ko) 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7346510B2 (en) * 2002-03-19 2008-03-18 Microsoft Corporation Method of speech recognition using variables representing dynamic aspects of speech
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7139703B2 (en) 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
KR100492819B1 (ko) * 2002-04-17 2005-05-31 주식회사 아이티매직 소음 제거 방법 및 그 시스템
US7165026B2 (en) * 2003-03-31 2007-01-16 Microsoft Corporation Method of noise estimation using incremental bayes learning
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
DE602004006429D1 (de) * 2003-10-08 2007-06-21 Philips Intellectual Property Anpassung einer umgebungsfehlanpassung für spracherkennungssysteme
WO2005114656A1 (en) * 2004-05-14 2005-12-01 Loquendo S.P.A. Noise reduction for automatic speech recognition
EP1605655A3 (en) * 2004-06-07 2008-02-27 Broadcom Corporation Upstream power cutback
KR100745976B1 (ko) * 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
CN101587712B (zh) * 2008-05-21 2011-09-14 中国科学院声学研究所 一种基于小型麦克风阵列的定向语音增强方法
KR100901367B1 (ko) * 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
JP5787126B2 (ja) 2009-11-06 2015-09-30 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US20120114140A1 (en) * 2010-11-04 2012-05-10 Noise Free Wireless, Inc. System and method for a noise reduction controller in a communication device
JP5629249B2 (ja) * 2011-08-24 2014-11-19 本田技研工業株式会社 音源定位システム及び音源定位方法
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、***和非瞬时计算机可读存储介质
US20170366897A1 (en) * 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5666429A (en) * 1994-07-18 1997-09-09 Motorola, Inc. Energy estimator and method therefor
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity

Also Published As

Publication number Publication date
US6778954B1 (en) 2004-08-17
KR20010019603A (ko) 2001-03-15

Similar Documents

Publication Publication Date Title
KR100304666B1 (ko) 음성 향상 방법
AU696152B2 (en) Spectral subtraction noise suppression method
US7181402B2 (en) Method and apparatus for synthetic widening of the bandwidth of voice signals
CN108831499A (zh) 利用语音存在概率的语音增强方法
US20210256988A1 (en) Method for Enhancing Telephone Speech Signals Based on Convolutional Neural Networks
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其***
US8737641B2 (en) Noise suppressor
Mirsamadi et al. Causal speech enhancement combining data-driven learning and suppression rule estimation.
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
KR20190129805A (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
Westhausen et al. Reduction of subjective listening effort for TV broadcast signals with recurrent neural networks
CN102314883B (zh) 一种判断音乐噪声的方法以及语音消噪方法
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
Elshamy et al. An iterative speech model-based a priori SNR estimator
CN103971697A (zh) 基于非局部均值滤波的语音增强方法
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
Yamashita et al. Spectral subtraction iterated with weighting factors
JP2002278586A (ja) 音声認識方法
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
CN114882898A (zh) 多通道语音信号增强方法和装置及计算机设备和存储介质
CN111968627A (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
US20160005418A1 (en) Signal processor and method therefor

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090629

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee