KR100640865B1 - 음성 품질 향상 방법 및 장치 - Google Patents
음성 품질 향상 방법 및 장치 Download PDFInfo
- Publication number
- KR100640865B1 KR100640865B1 KR1020040071371A KR20040071371A KR100640865B1 KR 100640865 B1 KR100640865 B1 KR 100640865B1 KR 1020040071371 A KR1020040071371 A KR 1020040071371A KR 20040071371 A KR20040071371 A KR 20040071371A KR 100640865 B1 KR100640865 B1 KR 100640865B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- speech
- voiced
- filtering
- sound
- Prior art date
Links
- 230000002708 enhancing effect Effects 0.000 title claims abstract 3
- 238000000034 method Methods 0.000 title claims description 35
- 230000003044 adaptive effect Effects 0.000 claims abstract description 38
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 230000003595 spectral effect Effects 0.000 claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000015556 catabolic process Effects 0.000 abstract description 2
- 238000006731 degradation reaction Methods 0.000 abstract description 2
- 239000011295 pitch Substances 0.000 description 23
- 230000006872 improvement Effects 0.000 description 7
- 238000011410 subtraction method Methods 0.000 description 6
- 239000003623 enhancer Substances 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Magnetically Actuated Valves (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
본 발명은 효과적인 음성 품질 향상 방법 및 장치에 관한 것으로, 무성음(unvoiced speech)에서의 잡음 제거를 통해 음성 품질 저하를 줄여주는데 적당하며, 특히 ALE (Adaptive Line Enhancer)와 SSM (Spectral Subtraction Method)를 적용하여 잡음을 효과적으로 제거하는데 적당한 음성 품질 향상 방법 및 장치에 관한 발명이다.
스펙트럴 서브트랙션 기법(SSM : Spectral Subtraction Method), 적응 라인 향상기법(ALE : Adaptive Line Enhancer)
Description
도 1은 일반적인 ALE를 설명하기 위한 도면.
도 2는 일반적인 SSM(Spectral Subtraction Method)을 설명하기 위한 도면.
도 3은 본 발명에 따른 음성 품질 향상 절차를 설명하기 위한 도면.
본 발명은 효과적인 음성 품질 향상 방법 및 장치에 관한 것이다.
종래에 많은 음질 향상 기법들이 제안되었다.
그 대표적인 기법 중 하나가 스펙트럴 서브트랙션 기법(Spectral Subtraction Method ; 이하, SSM 이라 약칭함)이다. 그 SSM을 도 1을 참조하여 설명한다.
SSM은 직접적으로 숏-타임 스펙트럼 크기 (short-time spectral magnitude)를 추정하는 기법이다.
SSM에서 음성(speech)은 비상관된 랜덤 변수 (uncorrelated random variable)로 표시되는 잡음이 더해진 형태로 모델링된다. 그 모델링을 다음의 식 1 과 같이 나타낼 수 있다.
상기한 식 2에서 Sy(ejw)를 숏-타임 (short-time) 이산시간 퓨리에 변환(Discrete-Time Fourier Transform ; 이하, DTFT 라 약칭함)으로 표시하면, 다음 식 3이 된다.
음성 프레임 (speech frame) 자체의 스펙트럼을 구하기 위해서는 위상 (phase)을 알아야 하는데, 사실상 잡음이 섞인 음성 (noisy speech)의 위상으로 음성 프레임의 위상을 결정해도 큰 문제가 없는 것이 입증되었다.[1]
[1] D. L. Wang and J. S. Lim, "The unimportance of phase in speech enhancement," IEEE Trans. on
Acoust
. Speech, and Signal Processing, vol-ASSP. 30, pp. 679-681, 1982.
상기와 같이 잡음 섞인 음성의 위상으로 음성 프레임의 위상을 결정하는 경우에, 얻고자 하는 숏-타임 DTFT는 다음의 식 4로부터 구해진다.
다음은 또다른 음성 품질 향상 기법 중 하나인 적응 라인 향상기법(Adaptive Line Enhancer ; 이하, ALE 라 약칭함)에 대해 설명한다. 그 ALE를 도 2를 참조하여 설명한다.
ALE의 설명에 앞서서 일반적인 적응 필터 (Adaptive Filter)를 이용하는 경우에 대해 먼저 설명한다. 적응 필터를 이용하는 경우에는 두 마이크로폰의 입력들 즉, 한 쪽은 잡음 섞인 음성 (noisy speech)을 입력받고 다른 쪽은 잡음만 입력받은 후에, 두 마이크로폰 간의 거리 등으로 전달함수 (transfer function) 등이 생긴다. 그러나 그를 적응 필터로 제거하여 깨끗한 음성 (clean speech)을 얻을 수 있다.
상기한 적응 필터를 사용하는 기법은 경우에 따라 매우 효과적이고 실용적인 목적으로 매우 성공적으로 사용되어 왔다. 그러나 두 개의 마이크로폰을 설치해야 하며, 두 마이크로폰 사이의 거리를 어느 정도로 하여야 하는지 등의 구조적인 어려움이 따르기 때문에 단말기에 적용하기에는 무리가 따른다.
ALE는 상기한 적응 필터를 사용하는 기법을 개량한 것으로, 동일한 마이크로폰으로부터 피치 주기 (pitch period)만큼의 차이를 두고 얻어진 신호를 적응 필터링(adaptive filtering)하는 기법이다. 상기에서 피치 주기는 음성 신호(speech signal)의 유성음(voiced speech) 부분의 주기이다.
한편 유성 신호(voiced signal)의 경우에는, 주기적인 임펄스 열 (impulse train)이 보컬 트랙트 (vocal tract)를 여기(excite)시키는 구조로 되어 있으므로, 유성음(voiced speech)에는 아주 큰 효과를 발휘한다. 그러나 무성음(unvoiced speech)의 경우는 음(speech)이 뭉개지는 등의 현상이 나타난다.
다음은 또하나의 음성 품질 향상 기법 중 하나인 적응 콤 필터(Adaptive Comb Filter)를 사용하는 기법에 대해 설명한다.
적응 콤 필터(Adaptive Comb Filter)를 사용하는 경우도 ALE와 유사한 점이 있어서, 유성음(Voiced speech)의 경우에 보다 좋은 효과를 발휘한다.
유성음(voiced speech)의 경우에 여기 신호(excitation signal)가 주기적인 신호인데, 잘 알려진 바와 같이 임펄스 열(impulse train)을 퓨리에 전환(Fourier Transform)해도 그 결과를 보면 주파수 영역(frequency domain)에서 임펄스 열(impulse train)로 나타난다.
따라서 유성음의 경우 피치 주파수(pitch frequency)의 배(multiple)가 되는 부분이 피크(Peak)가 주기적으로 나타나는 형태로 구성된다. 물론 전체 스펙트럼의 윤곽은 포르먼트(formant)라는 보컬 트랙트(vocal tract)의 반향(resonance)으로 표시된다.
잡음 섞인 음(noisy speech)을 으로 표시하고, 음성(speech)을 으로 표시하고, 잡음을 제거한 음을 추정한 것을 으로 표시할 경우에, 적응 콤 필터(Adaptive Comb Filter)에 의해 향상된 음(speech)은 다음의 식 5와 같이 나타낸다.
상기한 식 5에서 T0는 추출된 피치 주기를 나타내며, ci는 콤 필터 계수(comb filter coefficient)를 나타낸다. L의 값은 보통 작은 값(1 내지 6)을 사용한다.
한편 적응 콤 필터(Adaptive Comb Filter)는 일반적으로 잡음이 주기적이지 않기 때문에, 그를 제거하는데 효과적이다.
상기한 종래 기술에 따른 음성 품질 향상 기법들을 사용하는데는 다음의 문제점들이 있다.
먼저 SSM에서 는 음성(speech)이 없을 때 잡음으로부터 추정하는데, 그 를 신뢰성있게 측정할 수 없다는 것이다. 즉, 는 잡음인
이 고정된 신호(stationary signal)라고 가정할 경우에 추정할 수 있다. 그러나 실제의 경우는 그렇다고 하더라도 시간에 따른 스펙트럼 변화가 있을 수밖에 없으며, 특히 휴대용 단말기 등의 경우는 계속 주변 환경들이 변하므로, 실제적으로 를 신뢰도 있게 측정할 수 없다.
또한 ALE의 경우나 적응 콤 필터를 사용하는 경우는 유성음(voiced speech)의 경우에 보다 탁월한 성능을 발휘한다. 그러나 이들 기법은 유성 신호(voiced signal)에 대해서만 적용가능하며, 유성/무성(Voiced/Unvoiced : V/UV) 결정이 조금 어긋나서 무성 신호(unvoiced signal)에 그 기법들이 적용될 경우에는 오히려 성능 저하를 일으킨다.
또한 일부 음의 경우에, 저주파수에서는 유성 특성을 보이지만 고주파수에서는 무성 특성을 보이기도 한다. 이러한 점이 ALE의 성능 저하를 가져온다.
따라서, 본 발명의 목적은 상기한 점들을 감안하여 안출한 것으로, 무성음(unvoiced speech)에서의 잡음 제거를 통해 음성 품질 저하를 줄여주는데 적당한 음성 품질 향상 방법 및 장치를 제공하는데 있다.
본 발명의 또다른 목적은 ALE (Adaptive Line Enhancer)와 SSM (Spectral Subtraction Method)를 적용하여 잡음을 효과적으로 제거하는데 적당한 음성 품질 향상 방법 및 장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 따른 음성 품질 향상 방법의 특징은, 입력된 음성을 유성음과 무성음으로 구분하는 단계와, 상기 유성음에 대한 소정 음질 향상 기법을 수행하는 단계와, 상기 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용하여 상기 무성음에 대한 스펙트럴 서브트랙션 기법(SSM : Spectral Subtraction Method)을 수행하는 단계를 포함하여 이루어지는 것이다.
보다 바람직하게, 상기 잡음 스펙트럼 데이터는 이전 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들의 평균이다.
또한 바람직하게, 상기 유성음에 대한 음질 향상 기법이 적응 라인 향상기법(ALE : Adaptive Line Enhancer)이다.
또한 바람직하게, 상기 입력된 음성에 대해 저역통과 필터링(Low Pass Filtering) 및 고역통과 필터링(High Pass Filtering)을 수행하는 단계를 더 포함한다. 여기서 상기 고역통과 필터링된 출력에서 잡음을 제거하기 위한 적응 콤 필터링(adaptive comb filtering)을 더 수행한다.
한편, 상기 목적을 달성하기 위한 본 발명에 따른 음성 품질 향상 장치의 특징은, 입력된 음성을 유성음(Voiced Speech)과 무성음 (Unvoiced Speech)으로 구분하여 출력하는 수단과, 상기 유성음에 대해 적응 라인 향상기법(ALE : Adaptive Line Enhancer)을 수행하는 수단과, 유성음 구간에서 추정된 잡음 스펙트럼을 이용하여 스펙트럴 서브트랙션 기법(SSM : Spectral Subtraction Method)을 수행하는 수단을 포함하여 구성된다.
보다 바람직하게, 상기 입력된 음성을 저역통과 필터링하는 저역통과필터 (LPF)와, 상기 입력된 음성을 고역통과 필터링하는 고역통과필터(HPF)를 더 구비한다.
또한 바람직하게, 상기 고역통과필터의 출력이 유성음인 경우에, 상기 고역통과필터 출력에서 잡음을 제거하기 위한 적응 콤 필터(adaptive comb filter)를 더 구비한다. 그리고 상기 저역통과필터의 출력 중 유성음에서 피치 주기(pitch period)를 추출하여 상기 적응 콤 필터와 상기 적응 라인 향상기법(ALE : Adaptive Line Enhancer)을 수행하는 수단에 제공하는 피치 추출기를 더 구비한다.
본 발명의 다른 목적, 특징 및 이점들은 첨부한 도면을 참조한 실시 예들의 상세한 설명을 통해 명백해질 것이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예의 구성과 그 작용을 설명하며, 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시 예로서 설명되는 것이며, 이것에 의해서 상기한 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
본 발명에 따른 음성 품질 향상 방법은 유성음(voiced speech)에 대해 소정 음성 품질 향상 기법을 수행하고, 그에 따라 얻어진 잡음 스펙트럼 데이터를 사용하여 무성음(unvoiced speech)에 대한 SSM을 수행하는 것이 핵심이다.
이를 위해 본 발명에서는 먼저 입력된 음성에 대해 저역통과 필터링(Low Pass Filtering) 및 고역통과 필터링(High Pass Filtering)을 수행한다.
본 발명에서는 저역통과 필터링의 출력에 대해 유성/무성 결정(V/UV Decision)을 수행한다. 즉, 입력된 음성(speech)을 유성음과 무성음으로 구분한다.
특히 무성음으로 판정된 프레임에 대해서는 SSM을 수행한다. SSM은 스펙트럼 크기 (spectral magnitude)를 추정한다.
본 발명에서 SSM을 수행할 때는 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용한다. 특히 상기한 잡음 스펙트럼 데이터는 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들의 평균이다. 다시 말하자면, 유성음 구간에서 적어도 하나 이상의 프레임에서 얻어지는 잡음 스펙트럼들에 대해 평균을 구하여 그를 SSM에 사용한다.
한편 일반적으로 피치 주파수(pitch frequency)가 존재하는 주파수 범위가 50~400㎐이므로, 본 발명에서는 그 주파수 범위를 충분히 포함하면서 피치 주기(pitch period)의 영향이 가장 우세한 부분을 저역통과 필터링(Low pass filtering)시킨다. 상기에서 저역통과 필터링의 컷오프(cutoff) 주파수는 800㎐ 정도가 바람직하다.
그리고, 상기 저역통과 필터링된 출력에 대해 유성/무성 결정(V/UV Decision)을 수행한다.
유성음으로 판정된 프레임에 대해서는 소정의 음질 향상 기법을 수행한다. 본 발명에서는 유성음에 대한 음질 향상 기법으로써 도 3에 도시된 바와 같이 ALE를 수행하는 것이 바람직하다. 보다 상세하게, 본 발명에 따른 ALE는 적응 필터링을 사용하여 잡음을 제거한다. 특히 ALE는 동일한 마이크로폰으로부터 피치 주기 (pitch period)만큼의 차이를 두고 얻어진 신호를 적응 필터링(adaptive filtering)한다. 여기서, 피치 주기는 음성 신호(speech signal)에서 유성음(voiced speech) 부분의 주기이다. 그러나 본 발명에서는 사용되는 음질 향상 기법으로써 반드시 ALE로 한정하지는 않는다.
한편, 입력된 음성을 고역통과 필터링한 출력에 대해서는 그의 잡음을 제거하기 위한 적응 콤 필터링(adaptive comb filtering)을 수행한다. 이 때는 저역통과 필터링된 출력 중 유성음에서 추출한 피치 주기(pitch period)를 적응 콤 필터링(adaptive comb filtering)을 수행하는데 사용한다. 특히, 상기 추출된 피치 주 기는 전술된 ALE를 수행하는데도 사용된다.
다음은 도 3을 참조한 장치 구성에 대해 설명한다.
도 3은 본 발명에 따른 음성 품질 향상을 위한 장치 구성을 나타낸 도면이다.
도 3을 참조하면, 본 발명에 따른 장치는 입력된 음성 y[n]을 저역통과 필터링하는 저역통과필터(LPF)(51)와, 그 입력된 음성 y[n]을 고역통과 필터링하는 고역통과필터(HPF)(50)를 구비한다.
고역통과필터(HPF)(50)의 출력은 적응 콤 필터(Adaptive Comb Filter)(56)에 입력되며, 저역통과필터(LPF)(51)의 출력은 유성음이냐 무성음이냐에 따라 서로 다른 경로(ALE를 사용하는 경로와 SSM을 사용하는 경로)를 거치게 된다.
먼저 본 발명의 장치는 유성/무성 결정(V/UV Decision)의 결과로부터 ALE를 사용할 것인지 SSM을 사용할 것인지를 결정하는 판단 수단(52)을 포함한다. 상기 판단 수단(52)은 저역통과필터(LPF)(51)를 통과한 음성(speech)이 유성음인지 무성음인지를 구분한다.
상기 판단 수단(52)은 무성음에 해당하는 음성 프레임은 SSM을 사용하는 스펙트럴 서브트랙션 블록(55)으로 전달한다. 반면에 유성음에 해당하는 음성 프레임은 일단 피치 추출기(Pitch extractor)(53)로 전달한다.
피치 추출기(53)는 유성음에 해당하는 음성 프레임에서 피치 주기(pitch period)를 추출하여 다음에 설명된 적응 콤 필터(Adaptive Comb Filter)에 제공하며, 또한 그 피치 주기를 상기 유성음에 해당하는 음성 프레임에 대해 ALE를 사용 하여 음질을 향상시키는 ALE 블록(54)에 제공한다. 별도의 예로써, 본 발명에서는 유성음에 해당하는 음성 프레임의 음질을 향상시키는데 ALE를 사용하는 수단(54)을 사용하였으나, 이는 하나의 실시 예에 불과하다.
일반적인 피치 주파수(pitch frequency)가 존재하는 주파수 범위가 50~400㎐이므로, 본 발명에서는 그 주파수 범위를 충분히 포함하면서 피치 주기(pitch period)의 영향이 가장 우세한 부분을 통과시키도록 저역통과필터(51)의 컷오프(cutoff) 주파수를 정한다. 바람직하게, 그 컷오프 주파수는 800㎐ 정도가 바람직하다.
한편, 본 발명에서 상기와 같이 ALE를 적용시킬 경우에, 400㎐부터 4000㎐까지의 범위와 다시 결합시켜 0~4㎑의 대역폭을 갖는 음을 얻는다. 이는 8㎑ 샘플링 레이트(sampling rate)의 경우이며, 상기의 경우에 대비하여 본 발명에서는 적응 콤 필터(Adaptive Comb Filter)(56)를 더 사용한다.
상기에서 적응 콤 필터(Adaptive Comb Filter)(56)는 고역주파수에서 피치 성분으로 나타내는 임펄스 열처럼 보이는 부분 사이에 있는 잡음들을 제거하기 위해 사용된다. 특히 적응 콤 필터(56)는 고역 주파수 성분에 유성음에 해당되는 분명한 신호가 존재하는 경우에만 동작한다.
한편, SSM을 사용하는 스펙트럴 서브트랙션 블록(55)은 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용한다. 즉 스펙트럴 서브트랙션 블록(55)은 ALE 블록(54)에서 이전 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들을 평균한 값을 사용한다. 다시 말하자면, 상기 스펙트럼 데이터(spectral data)는 유성음에서 잡음 스펙트럼을 얻을 때마다 소정 개수의 프레임의 잡음 스펙트럼 데이터열들에 대한 평균을 내어 얻는다.
이상에서 설명된 본 발명에 따르면, ALE나 SSM 보다 좋은 성능을 기대할 수 있다.
본 발명은 피치 특성이 가장 강하게 나타나는 저역 주파수 성분에 대해서 ALE를 수행한 후에, 다시 고역 주파수 성분이 유성음일 경우에는 적응 콤 필터(adaptive comb filter)를 더 사용하므로, 저역 주파수가 유성음적인 특성을 가지고 고역 주파수가 무성음적인 특성을 가질 때도 효과적인 성능을 발휘한다.
본 발명은 음성의 고유한 특징인 피치(pitch)에 기반하여 음성 품질을 향상시키므로, 불분명한 잡음(babble noise) 등에 대해 다른 음질 향상 기법들(예, Wiener filtering 혹은 spectral subtraction method) 보다 강인한 특성을 보인다.
이상의 본 발명은 특히 휴대폰에서 단일 마이크로폰을 사용할 때 잡음 제거에 유용하며, 휴대용 녹음기에서 잡음 제거를 하면서 녹음을 하는데도 유용하다.
또한 본 발명은 일반 유/무선 전화에서 잡음 제거를 하기 위한 용도나 기타 PDA 등에서 음성을 녹음하기 위한 용도로도 사용 가능하다.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다.
따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정하여져야만 할 것이다.
Claims (11)
- 입력된 음성을 유성음과 무성음으로 구분하는 단계와;상기 유성음의 잡음을 제거하기 위한 적응 필터링을 수행하는 단계와;상기 무성음의 잡음을 제거하기 위해, 상기 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용하여 상기 무성음에 대한 스펙트럴 서브트랙션(Spectral Subtraction)을 수행하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성 품질 향상 방법.
- 제 1 항에 있어서, 상기 잡음 스펙트럼 데이터는 이전 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들의 평균인 것을 특징으로 하는 음성 품질 향상 방법.
- 제 1 항에 있어서, 상기 유성음에서 추출된 피치 주기를 사용하여 적응 필터링하는 것을 특징으로 하는 음성 품질 향상 방법.
- 제 1 항에 있어서, 상기 입력된 음성에 대해 저역통과 필터링(Low Pass Filtering) 및 고역통과 필터링(High Pass Filtering)을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 품질 향상 방법.
- 제 4 항에 있어서, 상기 고역통과 필터링된 출력에서 잡음을 제거하기 위한 적응 콤 필터링(adaptive comb filtering)을 더 수행하는 것을 특징으로 하는 음성 품질 향상 방법.
- 입력된 음성을 유성음(Voiced Speech)과 무성음 (Unvoiced Speech)으로 구분하여 출력하는 수단과;상기 유성음의 잡음을 제거하기 위해 적응 필터링을 수행하는 수단과;상기 무성음의 잡음을 제거하기 위해, 유성음 구간에서 추정된 잡음 스펙트럼을 이용하여 스펙트럴 서브트랙션(Spectral Subtraction)을 수행하는 수단을 포함하여 구성되는 것을 특징으로 하는 음성 품질 향상 장치.
- 제 6 항에 있어서, 상기 입력된 음성을 저역통과 필터링하는 저역통과필터(LPF)와,상기 입력된 음성을 고역통과 필터링하는 고역통과필터(HPF)를 더 구비하는 것을 특징으로 하는 음성 품질 향상 장치.
- 제 7 항에 있어서, 상기 고역통과필터의 출력이 유성음인 경우에, 상기 고역통과필터 출력에서 잡음을 제거하기 위한 적응 콤 필터(adaptive comb filter)를 더 구비하는 것을 특징으로 하는 음성 품질 향상 장치.
- 제 8 항에 있어서, 상기 저역통과필터의 출력 중 유성음에서 피치 주기(pitch period)를 추출하여 상기 적응 콤 필터와 상기 적응 필터링을 수행하는 수단에 제공하는 피치 추출기를 더 구비하는 것을 특징으로 하는 음성 품질 향상 장치.
- 제 5 항에 있어서, 상기 적응 콤 필터링을 통해 상기 고역통과 필터링된 출력 중 유성음의 잡음을 제거하는 것을 특징으로 하는 음성 품질 향상 방법.
- 제 4 항에 있어서, 상기 유성음과 상기 무성음은 상기 저역통과 필터링의 출력인 것을 특징으로 하는 음성 품질 향상 방법.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040071371A KR100640865B1 (ko) | 2004-09-07 | 2004-09-07 | 음성 품질 향상 방법 및 장치 |
DE602005004464T DE602005004464T2 (de) | 2004-09-07 | 2005-09-06 | Sprachverbesserung |
US11/221,106 US7590524B2 (en) | 2004-09-07 | 2005-09-06 | Method of filtering speech signals to enhance quality of speech and apparatus thereof |
EP05019349A EP1632935B1 (en) | 2004-09-07 | 2005-09-06 | Speech enhancement |
AT05019349T ATE385027T1 (de) | 2004-09-07 | 2005-09-06 | Sprachverbesserung |
JP2005258585A JP4350690B2 (ja) | 2004-09-07 | 2005-09-06 | 音声品質向上方法及び装置 |
RU2005127995/09A RU2391778C2 (ru) | 2004-09-07 | 2005-09-07 | Способ улучшения качества речи и устройство для его осуществления |
CNB2005100995665A CN100520913C (zh) | 2004-09-07 | 2005-09-07 | 增强语音质量的方法及其装置 |
BRPI0503959-2A BRPI0503959A (pt) | 2004-09-07 | 2005-09-08 | método e aparato para melhorar a qualidade de reprodução da fala |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040071371A KR100640865B1 (ko) | 2004-09-07 | 2004-09-07 | 음성 품질 향상 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060022525A KR20060022525A (ko) | 2006-03-10 |
KR100640865B1 true KR100640865B1 (ko) | 2006-11-02 |
Family
ID=36126658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040071371A KR100640865B1 (ko) | 2004-09-07 | 2004-09-07 | 음성 품질 향상 방법 및 장치 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7590524B2 (ko) |
EP (1) | EP1632935B1 (ko) |
JP (1) | JP4350690B2 (ko) |
KR (1) | KR100640865B1 (ko) |
CN (1) | CN100520913C (ko) |
AT (1) | ATE385027T1 (ko) |
BR (1) | BRPI0503959A (ko) |
DE (1) | DE602005004464T2 (ko) |
RU (1) | RU2391778C2 (ko) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100667852B1 (ko) * | 2006-01-13 | 2007-01-11 | 삼성전자주식회사 | 휴대용 레코더 기기의 잡음 제거 장치 및 그 방법 |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8335685B2 (en) * | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US9966085B2 (en) * | 2006-12-30 | 2018-05-08 | Google Technology Holdings LLC | Method and noise suppression circuit incorporating a plurality of noise suppression techniques |
WO2010146711A1 (ja) * | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
JP5672437B2 (ja) * | 2010-09-14 | 2015-02-18 | カシオ計算機株式会社 | 雑音抑制装置、雑音抑制方法およびプログラム |
RU2477533C2 (ru) * | 2011-04-26 | 2013-03-10 | Юрий Анатольевич Кропотов | Способ многоканального адаптивного подавления акустических шумов и сосредоточенных помех и устройство для его осуществления |
JP5898515B2 (ja) * | 2012-02-15 | 2016-04-06 | ルネサスエレクトロニクス株式会社 | 半導体装置及び音声通信装置 |
KR20150032390A (ko) | 2013-09-16 | 2015-03-26 | 삼성전자주식회사 | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 |
RU2580796C1 (ru) * | 2015-03-02 | 2016-04-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки |
CN104810023B (zh) * | 2015-05-25 | 2018-06-19 | 河北工业大学 | 一种用于语音信号增强的谱减法 |
EP3416167B1 (en) | 2017-06-16 | 2020-05-13 | Nxp B.V. | Signal processor for single-channel periodic noise reduction |
CN112927715B (zh) * | 2021-02-26 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及计算机可读存储介质 |
CN112700787B (zh) * | 2021-03-24 | 2021-06-25 | 深圳市中科蓝讯科技股份有限公司 | 一种降噪方法、非易失性可读存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4238746A (en) * | 1978-03-20 | 1980-12-09 | The United States Of America As Represented By The Secretary Of The Navy | Adaptive line enhancer |
JPH06222789A (ja) * | 1992-10-21 | 1994-08-12 | Sextant Avionique | 音声検出方法 |
US5742927A (en) * | 1993-02-12 | 1998-04-21 | British Telecommunications Public Limited Company | Noise reduction apparatus using spectral subtraction or scaling and signal attenuation between formant regions |
KR19980024790A (ko) * | 1996-09-20 | 1998-07-06 | 이데이 노브유끼 | 음성부호화방법 및 장치, 음성복호화방법 및 장치 |
US20020176589A1 (en) * | 2001-04-14 | 2002-11-28 | Daimlerchrysler Ag | Noise reduction method with self-controlling interference frequency |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07239696A (ja) | 1994-02-28 | 1995-09-12 | Hitachi Ltd | 音声認識装置 |
JPH07283860A (ja) | 1994-04-06 | 1995-10-27 | Toshiba Corp | ノイズ除去装置 |
DE69613380D1 (de) | 1995-09-14 | 2001-07-19 | Ericsson Inc | System zur adaptiven filterung von tonsignalen zur verbesserung der sprachverständlichkeit bei umgebungsgeräuschen |
JP3297307B2 (ja) | 1996-06-14 | 2002-07-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
JP3264831B2 (ja) | 1996-06-14 | 2002-03-11 | 沖電気工業株式会社 | 背景雑音消去装置 |
US5742694A (en) * | 1996-07-12 | 1998-04-21 | Eatwell; Graham P. | Noise reduction filter |
JPH11338499A (ja) | 1998-05-28 | 1999-12-10 | Kokusai Electric Co Ltd | ノイズキャンセラ |
WO2001059766A1 (en) | 2000-02-11 | 2001-08-16 | Comsat Corporation | Background noise reduction in sinusoidal based speech coding systems |
JP2002175099A (ja) | 2000-12-06 | 2002-06-21 | Hioki Ee Corp | 雑音抑制方法および雑音抑制装置 |
US7092877B2 (en) * | 2001-07-31 | 2006-08-15 | Turk & Turk Electric Gmbh | Method for suppressing noise as well as a method for recognizing voice signals |
JP2003131401A (ja) * | 2001-10-26 | 2003-05-09 | Adtec Engineeng Co Ltd | 多層回路基板製造におけるマーキング装置 |
-
2004
- 2004-09-07 KR KR1020040071371A patent/KR100640865B1/ko not_active IP Right Cessation
-
2005
- 2005-09-06 JP JP2005258585A patent/JP4350690B2/ja not_active Expired - Fee Related
- 2005-09-06 EP EP05019349A patent/EP1632935B1/en not_active Not-in-force
- 2005-09-06 DE DE602005004464T patent/DE602005004464T2/de active Active
- 2005-09-06 AT AT05019349T patent/ATE385027T1/de not_active IP Right Cessation
- 2005-09-06 US US11/221,106 patent/US7590524B2/en not_active Expired - Fee Related
- 2005-09-07 RU RU2005127995/09A patent/RU2391778C2/ru not_active IP Right Cessation
- 2005-09-07 CN CNB2005100995665A patent/CN100520913C/zh not_active Expired - Fee Related
- 2005-09-08 BR BRPI0503959-2A patent/BRPI0503959A/pt not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4238746A (en) * | 1978-03-20 | 1980-12-09 | The United States Of America As Represented By The Secretary Of The Navy | Adaptive line enhancer |
JPH06222789A (ja) * | 1992-10-21 | 1994-08-12 | Sextant Avionique | 音声検出方法 |
US5742927A (en) * | 1993-02-12 | 1998-04-21 | British Telecommunications Public Limited Company | Noise reduction apparatus using spectral subtraction or scaling and signal attenuation between formant regions |
KR19980024790A (ko) * | 1996-09-20 | 1998-07-06 | 이데이 노브유끼 | 음성부호화방법 및 장치, 음성복호화방법 및 장치 |
US20020176589A1 (en) * | 2001-04-14 | 2002-11-28 | Daimlerchrysler Ag | Noise reduction method with self-controlling interference frequency |
Also Published As
Publication number | Publication date |
---|---|
RU2391778C2 (ru) | 2010-06-10 |
US20060074640A1 (en) | 2006-04-06 |
DE602005004464D1 (de) | 2008-03-13 |
RU2005127995A (ru) | 2007-03-20 |
BRPI0503959A (pt) | 2007-05-22 |
EP1632935B1 (en) | 2008-01-23 |
EP1632935A1 (en) | 2006-03-08 |
DE602005004464T2 (de) | 2009-02-19 |
JP4350690B2 (ja) | 2009-10-21 |
KR20060022525A (ko) | 2006-03-10 |
CN100520913C (zh) | 2009-07-29 |
US7590524B2 (en) | 2009-09-15 |
JP2006079085A (ja) | 2006-03-23 |
ATE385027T1 (de) | 2008-02-15 |
CN1746974A (zh) | 2006-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4350690B2 (ja) | 音声品質向上方法及び装置 | |
US10854220B2 (en) | Pitch detection algorithm based on PWVT of Teager energy operator | |
US8073689B2 (en) | Repetitive transient noise removal | |
JP5068653B2 (ja) | 雑音のある音声信号を処理する方法および該方法を実行する装置 | |
US6182035B1 (en) | Method and apparatus for detecting voice activity | |
FR2820227A1 (fr) | Procede et dispositif de reduction de bruit | |
US8326621B2 (en) | Repetitive transient noise removal | |
Nongpiur | Impulse noise removal in speech using wavelets | |
Morales-Cordovilla et al. | Feature extraction based on pitch-synchronous averaging for robust speech recognition | |
US7890319B2 (en) | Signal processing apparatus and method thereof | |
JP5782402B2 (ja) | 音声品質客観評価装置及び方法 | |
Patil et al. | Effectiveness of Teager energy operator for epoch detection from speech signals | |
WO2006114100A1 (en) | Estimation of signal from noisy observations | |
RU2580796C1 (ru) | Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки | |
Lin et al. | Musical noise reduction in speech using two-dimensional spectrogram enhancement | |
Upadhyay et al. | Single channel speech enhancement utilizing iterative processing of multi-band spectral subtraction algorithm | |
JP5327735B2 (ja) | 信号再生装置 | |
Li et al. | A block-based linear MMSE noise reduction with a high temporal resolution modeling of the speech excitation | |
Vikram et al. | Subband analysis of linear prediction residual for the estimation of glottal closure instants | |
CN109346106B (zh) | 一种基于子带信噪比加权的倒谱域基音周期估计方法 | |
Krishnamoorthy et al. | Processing noisy speech for enhancement | |
Krishnamoorthy et al. | Temporal and spectral processing of degraded speech | |
Shimamura et al. | Noise estimation with an inverse comb filter in non-stationary noise environments | |
CN114613379A (zh) | 一种用于消除音频中噪声信号的方法及*** | |
Canazza et al. | Real time comparison of audio restoration methods based on short time spectral attenuation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120926 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130924 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140924 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150924 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160923 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |