KR20200095370A - 음성 신호에서의 마찰음의 검출 - Google Patents

음성 신호에서의 마찰음의 검출 Download PDF

Info

Publication number
KR20200095370A
KR20200095370A KR1020200005447A KR20200005447A KR20200095370A KR 20200095370 A KR20200095370 A KR 20200095370A KR 1020200005447 A KR1020200005447 A KR 1020200005447A KR 20200005447 A KR20200005447 A KR 20200005447A KR 20200095370 A KR20200095370 A KR 20200095370A
Authority
KR
South Korea
Prior art keywords
speech signal
fricative
noise
spectrum
noisy speech
Prior art date
Application number
KR1020200005447A
Other languages
English (en)
Inventor
라얀 파주데프 칸다데
Original Assignee
하만 베커 오토모티브 시스템즈 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만 베커 오토모티브 시스템즈 게엠베하 filed Critical 하만 베커 오토모티브 시스템즈 게엠베하
Publication of KR20200095370A publication Critical patent/KR20200095370A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Abstract

깨끗한 음성 신호 및 노이즈 신호를 포함하는 노이즈가 있는 음성 신호에서 마찰음을 검출하는 것은, 제1 통과 대역 범위를 갖는 제1 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제1 필터링된 노이즈가 있는 음성 신호를 제공하는 것, 및 제2 통과 대역 범위를 갖는 제2 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제2 필터링된 노이즈가 있는 음성 신호를 제공하는 것을 포함하되, 제2 통과 대역은 제1 통과 대역과는 상이하다. 마찰음을 검출하는 것은, 제1 필터링된 노이즈가 있는 음성 신호 및 제2 필터링된 노이즈가 있는 음성 신호에 최대치 연산을 적용하여 최대 마찰음 에너지의 주파수 범위를 나타내는 최대 스펙트럼을 제공하는 것, 및 최대 스펙트럼에 기초하여, 마찰음이 노이즈가 있는 음성 신호에 포함되는지의 여부를 결정하고 결정을 나타내는 결정 신호를 제공하는 것을 더 포함한다.

Description

음성 신호에서의 마찰음의 검출{DETECTION OF FRICATIVES IN SPEECH SIGNALS}
본 개시내용은 음성 신호(speech signal)에서 마찰음의 검출을 위한 방법 및 시스템(일반적으로 "방법"으로 지칭됨)에 관한 것이다.
음성은 모음(vowel), 마찰음(fricative), 비음(nasal) 등과 같은 상이한 조음(articulation)을 포함한다. 노이즈 감소 시스템 및 음성 인식 시스템(speech recognition system)과 같은 시스템에서 음성 신호 향상을 돕기 위해 이들 조음 및 단기간 파워(short-term power)와 같은 다른 속성(property)이 활용될 수 있다. 목소리 활동 검출기(Voice Activity Detector: VAD)로 칭해지는 검출기가 그러한 시스템에서 일반적으로 사용된다. 목소리 활동 검출기는, 2진인 경우, 음성의 존재 또는 부재를 나타내기 위해 0 또는 1을 취하는 또는 그 반대로 취하는 검출 신호를 생성한다. 검출 신호는 또한, 신호에서 음성의 존재에 대한 소정의 척도 또는 소정의 확률을 나타낼 수 있는 불확실한 결정(soft decision)을 허용하기 위해 0 내지 1 사이의 값을 취할 수도 있다. 검출 신호는, 예를 들면, 에코 캔슬러(echo canceller), 빔포머(beamformer), 노이즈 추정기, 노이즈 감소 스테이지 등과 같은 음성 향상 시스템의 다양한 단계에 적용될 수도 있다.
마찰음 사운드는, 치형부와 입술을 통해 공기를 가압할 때 생성되는 음성 음절(syllable)의 "목소리가 없는(voiceless)" 부분으로 정의될 수 있다. 단어 "stop"에서의 /s/, 단어 "shop"에서의 /sh/, 단어 "four"에서의 /f/와 같은 사운드가 마찰음의 예이다. 세상의 대부분의 언어는 그들의 발화된 음성(spoken speech)에서 마찰음 사운드를 포함한다. 기술적으로 그러한 사운드가 광대역 형상의 노이즈와 유사하기 때문에, 그들의 검출은 도전 과제이다. 그러나, 정확하게 검출되면, 마찰음은 신호에서 존재하는 음성의 대부분을 식별하는 데 도움이 될 수 있고 정상적인 목소리 활동 검출기를 보완할 수 있다. 따라서, 마찰음의 검출을 향상시키고자 하는 요구가 있다.
깨끗한 음성 신호(clean speech signal) 및 노이즈 신호를 포함하는 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법은, 제1 통과 대역 범위를 갖는 제1 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제1 필터링된 노이즈가 있는 음성 신호를 제공하는 단계, 및 제2 통과 대역 범위를 갖는 제2 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제2 필터링된 노이즈가 있는 음성 신호를 제공하는 단계를 포함하되, 제2 통과 대역은 제1 통과 대역과는 상이하다. 방법은, 제1 필터링된 노이즈가 있는 음성 신호 및 제2 필터링된 노이즈가 있는 음성 신호에 최대치 연산(maximum operation)을 적용하여 최대 마찰음 에너지의 주파수 범위를 나타내는 최대 스펙트럼을 제공하는 단계, 및 최대 스펙트럼에 기초하여, 마찰음이 노이즈가 있는 음성 신호에 포함되는지의 여부를 결정하고 결정을 나타내는 결정 신호를 제공하는 단계를 더 포함한다.
깨끗한 음성 신호 및 노이즈 신호를 포함하는 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템은, 입력 및 출력에 연결되는 적어도 하나의 처리 유닛을 포함하고, 제1 통과 대역 범위를 갖는 제1 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제1 필터링된 노이즈가 있는 음성 신호를 제공하도록, 그리고 제2 통과 대역 범위를 갖는 제2 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제2 필터링된 노이즈가 있는 음성 신호를 제공하도록 구성되되, 제2 통과 대역은 제1 통과 대역과는 상이하다. 적어도 하나의 처리 유닛은 최대 마찰음 에너지의 주파수 범위를 나타내는 최대 스펙트럼을 제공하기 위해 제1 필터링된 노이즈가 있는 음성 신호 및 제2 필터링된 노이즈가 있는 음성 신호에 최대치 연산을 적용하도록, 그리고, 최대 스펙트럼에 기초하여, 마찰음이 노이즈가 있는 음성 신호에 포함되는지의 여부를 결정하고 결정을 나타내는 결정 신호를 제공하도록 더 구성된다.
다른 시스템, 방법, 특징 및 이점은, 다음의 상세한 설명 및 첨부된 도면의 검토 시 통상의 기술 분야의 숙련된 자에게 명백할 것이거나, 또는 명백하게 될 것이다. 그러한 모든 추가 시스템, 방법, 특징 및 이점은 본 설명 내에 포함되어야 하고, 본 발명의 범위 내에 있어야 하며, 다음의 청구범위에 의해 보호되어야 하는 것이 의도된다.
시스템은 다음의 도면 및 설명을 참조하여 더 잘 이해될 수도 있다. 도면에서의 컴포넌트는 반드시 일정한 비율을 아니며, 대신 본 발명의 원리를 예시하는 것에 강조가 이루어진다. 또한, 도면에서, 같은 참조 번호는 상이한 도면 전체에 걸쳐 대응하는 부분을 가리킨다.
도 1은 예시적인 일반적 마찰음 검출 시스템의 신호 흐름 구조를 예시하는 블록이다.
도 2는 노이즈가 있는 음성 신호에 대한 향상된 프레임간 마찰음 검출 시스템의 예시적인 전달 함수를 예시하는 진폭-주파수 다이어그램이다.
도 3은 노이즈가 있는 음성 신호에 대한 예시적인 향상된 프레임간 마찰음 검출 시스템의 신호 흐름 구조를 예시하는 블록이다.
도 4는 노이즈가 있는 음성 신호에 대한 예시적인 향상된 프레임간 마찰음 검출 방법을 예시하는 플로우차트이다.
원치 않는 노이즈를 동반하지 않는 음성을 의미하는 깨끗한 음성의 경우, 마찰음이 어느 정도 신뢰성 있게 검출될 수 있다. 음성 신호 및 조음의 분석은, 하나는 2㎑ 내지 4㎑ 사이에 있고, 다른 하나는 4㎑ 내지 6㎑ 사이에 있는 두 개의 주파수 범위를 마찰음이 주로 수반한다는 것을 나타낸다. 예를 들면, 음성 신호의 에너지에서의 단기간의 증가를 고려하여 두 개의 대역 통과 필터를 사용하여 이들 주파수 범위를 동시에 모니터링하는 것은, 조사 중인 음성 세그먼트가 마찰음인지 또는 아닌지의 여부를 신뢰성 있게 결정하는 것을 허용한다. 그러한 시스템의 구현예가 도 1에서 도시되어 있다. 주파수 및 하위 대역 도메인에서의 신호는 본 명세서에서 스펙트럼 또는 스펙트럼 신호로 또한 지칭된다. 두 개의 대역 통과 필터링 절차(101 및 102)를 사용한 깨끗한 음성 신호의 동시적 대역 통과 필터링 이후, 이러한 방식으로 유도되는 두 개의 필터링된 스펙트럼(Sb1(μ, k) 및 Sb2(μ, k))은, 예를 들면, 합산 절차(103)에 의해 결합된다. 하위 대역 도메인에서의 두 개의 필터링된 스펙트럼(Sb1(μ, k) 및 Sb2(μ, k))은, 다음에 따른 두 개의 대역 통과 필터링 절차(101 및 102)의 각각의 전달 함수(Hbp1(μ, k) 및 Hbp2(μ, k))를 사용한 필터링(주파수 또는 하위 대역 도메인에서의 필터링: 승산) 이후 깨끗한 음성 신호의 스펙트럼(S(μ, k))으로부터 발생한다:
Figure pat00001
여기서 각각의 하위 대역은 μ로 표시되고 각각의 (시간) 프레임은 k에 의해 표시된다. 도 1의 각각의 스펙트럼 다이어그램에 의해 도시되는 바와 같이, 전달 함수(Hbp1(μ, k))는 2㎑ 내지 4㎑ 사이의 통과 대역을 포함할 수도 있고, 전달 함수(Hbp2(μ, k))는 4㎑ 내지 6㎑ 사이의 통과 대역을 포함할 수도 있다. 두 개의 대역 통과 필터링된 스펙트럼(Sb1(μ, k) 및 Sb2(μ, k))는, 다음에 따라 결합되어(주파수 또는 하위 대역 도메인에서 결합되어: 추가되어), 마찰음 에너지가 높을 것으로 예상되는 스펙트럼(Sbp(μ, k))을 획득한다:
Figure pat00002
마찰음 검출은, 단기간 에너지 비교 절차(104)에서, 현재 프레임의 대역 제한 에너지를 이전 프레임의 대역 제한 에너지와 비교하는 것에 의해 수행된다. 프레임 k의 모든 하위 대역 내의 에너지(|Sbp(μ, k)|2)가 이전 프레임 k-1에서의 에너지(|Sbp(μ, k-1)|2)보다 더 큰 경우, 세그먼트는, 다음에 따라, 마찰음으로 분류될 수도 있다:
Figure pat00003
그렇지 않은 경우, 세그먼트는 비-마찰음(non-fricative)으로 분류된다. 그러한 세그먼트에 대한 프레임 사이즈는 50㎳ 내지 250㎳에 있도록 선택될 수도 있다. 음성 향상 시스템에서, 이러한 타입의 검출은, 입력 신호가 일반적으로 노이즈가 있고 음성 세그먼트에서 (변하지 않는(stationary) 및 변하는(non-stationary)) 배경 노이즈와 마찰음 간을 구별하는 것이 어렵고 최대 불가능하기 때문에 실패할 수도 있다.
노이즈가 있는 음성 신호에서 마찰음 세그먼트를 더욱 신뢰성 있게 검출하기 위해, 상기에서 설명되는 주요(primary) 검출 방법은, 이하에서 "강건성(robustness)"으로 지칭되는 자신의 검출 성능을 증가시키기 위해 수정 및 보완될 수도 있다. 언급된 바와 같이, 일반적으로 마찰음 검출기에 대한 입력은 노이즈가 있는 음성 신호인데, 주파수 도메인에서의 이것은 본 명세서에서 입력 스펙트럼(Y(μ, k))에 의해 표시된다. 도 1과 관련하여 상기에서 설명되는 바와 같이, 입력 스펙트럼은 대역 통과 필터링되고, 그 결과, 본 경우에서, 스펙트럼은, 수학식 (1) 및 수학식 (2)에서 깨끗한 음성 스펙트럼(S(μ, k))을 노이즈가 있는 음성 스펙트럼(Y(μ, k))에 의해 대체하는 것에 의해 획득되는데, 이것은 각각 수학식 (5) 및 수학식 (6)에 의해 설명될 수 있다:
Figure pat00004
여기서 Hbp1(μ, k) 및 Hbp2(μ, k)는 도 1에서 도시되는 두 개의 대역 통과 필터링 절차(101 및 102)에서 활용되는 전달 함수를 다시 나타내고, Yb1(μ, k) 및 Yb2(μ, k)는 전달 함수(Hbp1(μ, k) 및 Hbp2(μ, k))를 사용한 필터링에 의해 노이즈가 있는 입력 스펙트럼(Y(μ, k))으로부터 유도되는 두 개의 대역 통과 필터링된 스펙트럼을 나타낸다. 노이즈가 있는 입력 스펙트럼(Y(μ, k))은 깨끗한 음성 스펙트럼(S(μ, k))와 배경 노이즈 스펙트럼(B(μ, k))의 조합이다.
노이즈가 있는 입력 스펙트럼의 강건성을 향상시키기 위한 제1 조치는, 두 개의 대역 통과 필터링된 스펙트럼(Yb1(μ, k) 및 Yb2(μ, k))에 최대치 연산을 적용하는 것이다. 두 개의 대역 통과 필터링된 스펙트럼(Yb1(μ, k) 및 Yb2(μ, k))의 스펙트럼 성분은, 하위 대역 중 임의의 것에서 마찰음 에너지를 포함할 수도 있다. 두 개의 스펙트럼을 추가하는 것은 신호 대 노이즈 비의 바람직하지 않은 저하로 나타난다. 대조적으로, 최대치 연산은, 다른 것과 비교하여 더 큰 두 개의 대역 통과 필터링된 스펙트럼(Yb1(μ, k) 및 Yb2(μ, k))의 크기로부터 하위 대역을 정확하게 선택한다. 이러한 방식으로, 추가 처리를 위해 고 에너지 하위 대역만이 선택된다. 최대치(argmax) 연산은, 각각의 다른 스펙트럼의 대응하는 하위 대역과 비교하여 최대 에너지를 포함하는 그들 하위 대역을 출력하여, 수학식 (7)에 따라 최대 스펙트럼(Ybpm(μ, k))을 획득한다:
Figure pat00005
따라서, 최대 마찰음 에너지의 주파수 범위는, 대역 통과 필터링 절차(101)(예를 들면, 2㎑ 내지 4㎑) 또는 대역 통과 필터링 절차(102)(예를 들면, 4㎑ 내지 6㎑) 중 어느 하나, 즉, 최대 크기 또는 (총) 에너지를 포함하는 주파수 범위에 의해 검출된다. 더구나, 하위 대역마다 최대치 연산이 적용될 수 있기 때문에, 충분한 에너지를 포함하는 세그먼트만이 선택될 수도 있다.
순전히 대역 통과 필터링된 스펙트럼 상에서의 마찰음의 검출은, 다양한 배경 노이즈 시나리오와는 충분하지 않을 수도 있다. (추정되는) 깨끗한 음성을 획득하기 위해 노이즈가 있는 음성 신호를 필터링하기 위해서는, 정상적인(전통적인) 또는 수정된 위너 필터링(Wiener Filtering) 또는 동적 노이즈 억제와 같은 상이한 타입의 필터링이 적용될 수도 있다.
위너 필터와 같은 노이즈 감소 필터의 기능은, 노이즈를 억제하고, 그에 의해, 신호의 신호 대 노이즈 비(signal-to-noise ratio: SNR)를 증가시키는 것이다. 신호의 신호 대 노이즈 비를 결정하는 것은 크기 제곱 연산(magnitude squaring operation)을 포함한다. 신호 대 노이즈 비의 정의로부터, 신호 대 노이즈 비를 증가시키기 위해서는, 신호의 크기만을 처리하는 것이 충분할 수도 있다는 것을 알 수 있다. 주파수 도메인에서, 다음에 따라 깨끗한 음성의 추정치(
Figure pat00006
) - e는 복합 주파수(complex frequency)임 - 를 획득하기 위해, 전달 함수(H(e))를 갖는 노이즈 억제 필터가 적용될 수 있다:
Figure pat00007
여기서 Y(e)는 마이크에 대한 입력으로서의 노이즈가 있는 입력 스펙트럼을 나타내며, 다음에 의해 설명될 수 있다:
Figure pat00008
S(e)는 마이크 입력에 포함되는 음성 성분을 나타내고, B(e)는 마이크 입력 및 출력에 포함되는 배경 노이즈 성분, 즉 억제할 노이즈를 나타낸다. 따라서, 상황은 단일의 채널 노이즈 감소 문제로 간주될 수 있다. 배경 노이즈(B(e))를 억제할 전달 함수(H(e))를 갖는 필터는, 배경 노이즈(B(e))의 속성에 의존한다. 배경 노이즈(B(e))가 소정의 고정 주파수에서 출현하는 경우, 예를 들면, 전력선 주파수의 고조파에서 전력선에 의해 생성되는 아티팩트를 제거하기 위해, 필터는 이 특정한 고정 주파수(알려진 경우)에서 감쇠를 가지도록 설계될 수도 있다. 이것은, 예를 들면, 고정 필터에 의해 달성될 수 있다.
그러나, 일반적으로 배경 노이즈는, 예를 들면, 고정 주파수에서의 일정한 노이즈와는 상이하다. 몇몇 배경 노이즈 속성은 본질적으로 통계적이며, 그들의 확률 분포, 제1 모멘트, 제2 모멘트 등에 의해 가장 잘 설명될 수 있다. 단일의 채널 음성 향상은 노이즈가 있는 신호의 노이즈 감소를 위한 위너 필터링과 같은 통계적 필터링을 수반할 수도 있다. 위너 필터링은 제곱 오차 신호(squared error signal)의 평균에 대한 기대치를 최소화한다. 오차 신호는 목적하는 신호와 추정된 목적하는 신호 사이의 차이이다. 위너 솔루션은 음성 애플리케이션에서 노이즈 감소에 적용 가능하도록 확장될 수 있다. 주파수 도메인에서 평균 제곱 오차(mean squared error)를 최소화하는 측면에서 노이즈 감소를 위한 위너 솔루션 또는 최적의 필터 전달 함수(Hwiener(e)))는 다음에 의해 주어진다
Figure pat00009
항 Sss(e)는 관심 신호의 전력 스펙트럼 밀도(power spectral density: PSD)를 나타내고 Sbb(e)는 배경 노이즈의 전력 스펙트럼 밀도를 나타낸다. 수학식 (10)은 액세스 불가능한 관심 신호(Sss(e))의 전력 스펙트럼 밀도를 설명한다. 목적하는 신호와 왜곡이 직교한다는 것을 가정하면, 노이즈가 있는 입력 스펙트럼은 수학식 (11)에 의해 설명될 수 있다:
Figure pat00010
수학식 (10)은 주파수 도메인에서 공식화되고 하위 대역 도메인에서 재기록될 수 있다, 즉, 수학식 (12)에 따라 설명될 수 있다:
Figure pat00011
따라서 위너 필터는 하위 대역 도메인 전달 함수(Hwiener(μ, k))에 의해 표시될 수 있고, 프레임 k에서 하위 대역(μ)당 신호 대 노이즈 비에 의존하는 하위 대역 감쇠 필터로서 간주될 수 있다.
Figure pat00012
는 추정된 배경 노이즈 스펙트럼을 나타내고 Y(μ, k)는 입력 스펙트럼을 나타낸다. 자신의 전달 함수(Hwf(μ, k))에 의해 하위 대역 도메인에서 표시되는 정상 위너 필터는, 다음에 따라 배경 노이즈 추정기에 의해 추정되는 바와 같은 노이즈를 억제한다:
Figure pat00013
여기서
Figure pat00014
는 노이즈 과대 추정 인자를 나타내고 Hfloor는 필터링에 대한 고정 최소치를 나타낸다.
노이즈의 전력 스펙트럼 밀도를 추정하기 위한 몇몇 접근법이 존재한다. 예를 들면, 두 개의 노이즈 추정 절차가 본 명세서에서 논의되는데, 그 중 하나는 기본 노이즈 PSD 추정기(basic noise PSD estimator)이고, 다른 하나는, 노이즈가 있는 신호 모델 및 기본 노이즈 PSD 추정기에 기초하는 고급 노이즈 전력 스펙트럼 밀도 추정기(advanced noise power-spectral-density estimator)이다. 노이즈가 있는 신호 모델에 따르면, 노이즈 및 음성 신호는 상호 직교 랜덤 프로세스로서 모델링되고 교차 항은 제로가 되고, 그러므로, 그들의 전력 스펙트럼 밀도는 수학식 (14)에서 나타내어지는 바와 같이 직접적으로 추가될 수 있다:
Figure pat00015
기본 노이즈 PSD 추정기는 승산 시간 상수 기반의 접근법에 기초하고 고정 상수를 갖는 단계에서 평활화된 노이즈 입력 크기 스펙트럼을 추적 및 따르도록 동작된다. 이 절차는 현재 노이즈 전력 추정치를 계산하기 위해 이전 노이즈 전력 추정치에 기초하여 수행된다. 접근법은 시간 재귀적 접근법과 유사하지만 그러나, 여기서는, 현재 입력 크기와 조합하여 이전 노이즈 추정치를 사용하는 대신, 이전 노이즈 추정치만이 사용된다. 그러한 노이즈 추정치는 다음에 의해 설명될 수 있다:
Figure pat00016
여기서
Figure pat00017
는 현재 프레임 k에 대한 (배경) 노이즈 스펙트럼의 추정치이고,
Figure pat00018
는 이전 프레임 k-1에 대한 (배경) 노이즈 스펙트럼의 추정치이며,
Figure pat00019
는, 다음에 따라 결정될 수 있는 시간-주파수 가변 승산 상수(time-frequency varying multiplicative constant)이다:
Figure pat00020
평활화된 입력 오차 크기 스펙트럼(
Figure pat00021
)이 이전 노이즈 추정치보다 더 큰 경우, 증분 승산 상수(Δinc)가 시간-주파수 가변 승산 상수(
Figure pat00022
)로서 선택되고, 그렇지 않으면, 감분 승산 상수(decrement multiplicative constant)(Δdec)가 선택된다. 평활화된 오차 크기 스펙트럼(
Figure pat00023
)은 하기의 수학식 (17)에 의해 설명될 수 있다.
평활화는 입력 오차 크기 스펙트럼(
Figure pat00024
)의 변동을 감소시킨다. 모든 하위 대역에서 시간(프레임) 경과에 따라 평활화가 수행될 수도 있다. 입력 오차 스펙트럼의 평활화는, 다음으로서 설명될 수 있는 1차 무한 임펄스 응답(infinite impulse response: IIR) 필터에 의해 수행될 수도 있다:
Figure pat00025
여기서, αy는 평활화 상수를 나타내고,
Figure pat00026
는 이전의 평활화된 입력 오차 크기 스펙트럼을 나타내고, Ymag(μ, k)는 다음에 따라 결정된다:
Figure pat00027
노이즈 전력 추정기의 추적은 평활화된 입력 크기 스펙트럼에 의존하는데, 여기서
Figure pat00028
은 실수부를 나타내고
Figure pat00029
는 허수부를 나타낸다.
위너 필터링과 비교하여, 동적 노이즈 억제는 노이즈 억제의 측면에서 더욱 공격적이다. 동적 노이즈 억제는 타겟 노이즈 형상에 따라 노이즈를 성형하도록 의도된다. 위너 타입 노이즈 억제 필터링은 노이즈가 있는 입력 신호의 신호 대 노이즈 비를 향상시키는데, 이것은 음성 신호를 포함하는 프레임에 대해 바람직하다. (배경) 노이즈만을 포함하는 프레임에서는, 위너 필터링이 때로는 바람직하지 않을 수도 있거나 또는 불충분한 노이즈 억제를 제공할 수도 있다. 그러한 단점은, 예를 들면, 통신 디바이스가 임의의 곳 및 모든 곳에 배치될 수 있는 실제 상황에서 직면될 수도 있고, 그 결과, 고도로 변하는 노이즈는 노이즈 PSD 추정기에 의해 추적될 수 없다. 게다가, 고도로 변하는 노이즈는 청취자에게 매우 성가실 수도 있다.
일반적으로 말하면, 노이즈 성형은, 예를 들면, 고정 노이즈 형상 또는 고정 필터링을 잔류 노이즈에 적용하는 것을 포함하는 임의의 것일 수 있다. 노이즈 감소와 관련하여, 시스템 노이즈 크기 성형은, 노이즈가 있는 입력 스펙트럼의 고도로 동적인 변동 및 변화가 제어되는 그러한 방식으로 수행될 수도 있다. 이것을 달성하는 하나의 방식은 목적하는 노이즈 형상을 미리 정의하는 것이다. 그렇게 하는 것에 의해, 노이즈 크기 성형의 출력이 목적하는 노이즈 형상과 동일한 그러한 방식으로 적절한 필터가 설계될 수 있다. 동적 노이즈 억제를 달성하기 위해서는, 목적하는 잔류 노이즈의 크기 형상을 결정하는 것이 필요하다. 동적 노이즈 억제는, 입력 크기 스펙트럼 또는 그것의 평활화된 버전에 기초하여 목적하는 노이즈 크기 형상을 추정할 수도 있다(상기 수학식 (18) 참조). 노이즈가 있는 입력 스펙트럼이 고도로 동적이기 때문에, 미리 정의된 고정 형상이 "정적인" 사운딩 잔류 노이즈에서 나타날 것이다. 잔류 노이즈 사운드를 청취자에게 더욱 자연스럽고 쾌적하게 만들기 위해, 목적하는 노이즈 형상은 특정한 방식으로 노이즈가 있는 입력 스펙트럼으로부터 추정 및 "추출될"(예를 들면, 필터링될) 수도 있다. 예를 들면, 노이즈가 있는 입력 크기 스펙트럼의 장기간 추정치가 잔류 노이즈의 목적하는 형상으로서 활용될 수도 있다. 그러한 장기간 추정치는 수학식 (19) 및 (20)에 의해 설명되는 바와 같이 획득될 수 있다:
Figure pat00030
여기서
Figure pat00031
는 증분 또는 감분 상수를 나타내며, Ydes-shape(μ, k)는 목적하는 노이즈 크기 형상, 예를 들면, 다음으로서 설명될 수 있는 느린 승산 상수 기반의 트래커(slow multiplicative-constant based tracker)를 나타낸다:
Figure pat00032
목적하는 노이즈 크기 형상(Ydes-shape(μ, k))은, 노이즈 크기 형상의 이전 추정치를 증분 또는 감분 상수(
Figure pat00033
)로 승산하는 것에 의해 획득된다. 목적하는 크기까지의 현재 프레임의 거리는, 변경 또는 조정될 수 있는 1.5와 0.5로 설정되는 임계치를 사용하여 계산된다. 알고리즘은 또한, 목적하는 형상이 업데이트되지 않는 "유지 시간(hold time)"을 제공한다.
동적 노이즈 억제는 튜닝되는 다수의(예를 들면, 다섯 개의) 파라미터를 활용할 수도 있다. 이들 파라미터는 상이한 상황에서 동적 노이즈 억제가 거동하는 방식에 영향을 준다. 수학식 (20)과 관련하여 이미 논의된 바와 같이, 목적하는 크기는 이전의 목적하는 크기와 현재 평활화된 입력 스펙트럼의 크기 사이의 거리에 기초하여 결정될 수도 있다. 이 절차는, 거리가 1.5보다 더 크거나 또는 0.5보다 더 작을 때, 증분 또는 감분 상수(
Figure pat00034
)를 고정 상수로 대체하는 것에 의해 수정될 수 있다. 이들 고정 추적 상수는 증분 부분에 대한 고정 값(예를 들면, 1 dB/s) 및 감분 부분에 대한 다른 고정 값(예를 들면, -6 dB/s)으로 설정될 수 있다.
다른 튜닝 파라미터는, 하나의 프레임으로부터 다른 것으로의 전이가 저 멀리 있는 청취자에 대해 더 평활한 그러한 방식으로 튜닝될 수도 있는 평활화 상수(
Figure pat00035
)에 의해 결정된 억제 인자의 스펙트럼 평활화(주파수에 걸친 평활화)를 다룰 수도 있다. 억제된 신호의 라우드니스는 두 개의 과추정 파라미터(over-estimation parameter)(
Figure pat00036
Figure pat00037
)에 의해 효과적으로 제어될 수도 있는데, 여기서 하나의 추정 파라미터(
Figure pat00038
)는 목적하는 크기의 광대역 레벨을 제어하고 다른 추정 파라미터(
Figure pat00039
)는, 억제 요인의 광대역 레벨을 제어한다. 실제 튜닝 목적을 위해, 파라미터(
Figure pat00040
)는 위너 필터 플로어(Hfloor)의 계수인 것으로 설정된다. 마지막으로, 동적 노이즈 억제 필터에 의해 적용되는 최대 및 최소 억제를 제어하는 두 개의 파라미터는, 최대 및 최소 및 억제 파라미터(
Figure pat00041
Figure pat00042
)에 의해 제어된다. 동적 노이즈 억제 필터가 적용되는 경우, 음악적 노이즈 아티팩트가 들릴 수도 있다. 이것은 최대 및 최소 억제 파라미터(
Figure pat00043
Figure pat00044
)를 조정하는 것에 의해 다루어질 수 있다.
전달 함수(Hdyf(μ, k))에 의해 표현되는 동적 억제의 수정된 버전이 적용될 수도 있는데, 이것은 다음으로서 설명될 수 있고:
Figure pat00045
평활화된 억제 인자(
Figure pat00046
)는 제어 파라미터(
Figure pat00047
)와 승산될 수도 있다. 평활화된 억제 인자(
Figure pat00048
)는 수학식 22에 따라 결정될 수도 있다:
Figure pat00049
억제 인자가 이용 가능한 상태에서, 전달 함수(
Figure pat00050
)를 갖는 최종 "동적" 노이즈 억제 필터는, 계산된 억제 인자를 다음에 의해 주어지는 목적하는 억제의 양만큼 간단히 시프트하는 것에 의해 결정된다:
Figure pat00051
평활화된 억제 인자는 제어 파라미터(
Figure pat00052
)로 다시 보완될 수도 있다. 이 파라미터는, 동적 억제 방법에서 적용되는 억제의 양을 고려하도록 노이즈 플로어(Hfloor)에 기초하여 일반적으로 튜닝된다. 바람직하지 않은 음악적 노이즈를 제어하기 위해, 억제 필터는 다음에 의해 주어지는 최대값 및 최소값으로 제한될 수도 있다:
Figure pat00053
최소값과 최대값은 튜닝 프로세스 동안 조정된다.
알 수 있는 바와 같이, 정상 Hwf(μ, k) 및 동적 억제 필터(Hdyf(μ, k))는 하나의 닫힌 수학식에서 결합된다:
Figure pat00054
이런 식으로 유도되는 노이즈 억제 필터는, 전달 함수(Hdyf(μ, k))가 하위 주파수(μbp-low)와 상위 주파수(μbp-high) 사이의 미리 정의된 주파수 범위 밖에 있는 주파수 빈에 기초하여 두 개의 노이즈 억제 필터, 예를 들면, 정상 및 동적 노이즈 억제 필터를 조합하는 것에 의해 획득되는 전달 함수(Hdwf(μ, k))를 갖는다. 전달 함수(Hwf(μ, k))는, 마찰음 에너지가 예상되는 (대역 통과) 주파수 범위에 대해 선택된다. 예시적인 전달 함수(Hdwf(μ, k))는 진폭-주파수 다이어그램을 통해 도 2에서 묘사된다.
상기에서 설명되는 필터링 방법은, 마찰음 에너지를 동시에 손상시키지 않으면서, 마찰음 범위에서 배경 노이즈를 충분히 제거하는 것을 허용한다. 마찰음 에너지 범위를 벗어난 주파수의 신호는 노이즈처럼 처리된다. 그러한 억제 필터링의 전달 함수(일반적으로 특성 또는 특성들로 또한 칭해짐)는, 예컨대, 수학식 (21)에 의해 설명될 수도 있다. 결정된 전달 함수(Hdwf(μ, k))는, 그 다음, 최대치 연산(Ybpm(μ, k))의 결과에 적용되어, 대역 외 노이즈 및 또한, 변하지 않는 및 변하는 배경 노이즈가 면제되는, 본 명세서에서
Figure pat00055
에 의해 표현되는 스펙트럼을 획득한다. 이것은 수학식 (26)에 의해 설명될 수 있다:
Figure pat00056
수학식 (4)에 따르면, 현재 프레임 k와 이전 프레임 k-1의 에너지가 서로 비교된다. 후속하는 프레임의 에너지를 비교하는 것은 하나의 옵션 사항의 검출 방식이며, 다른 더욱 강건한 방식은, 비교에서, 과거의 음성 세그먼트를 식별하는 파라미터(θ)를 활용하는 것이다. 파라미터(θ)는 노이즈가 있는 음성 신호에 포함되는 "배경 노이즈"에 의존한다. 특정한 프레임에서 배경 노이즈가 높은 경우, 고도로 변하는 노이즈가 있는 상황에서 검출은 실패할 것이다. 자동차 애플리케이션 또는 노이즈가 있는 환경에 배치되는 스마트 스피커 애플리케이션에서와 같이, 음성 향상 애플리케이션은 상당히 변할 수도 있다. 그러므로, 파라미터(θ)는 현재 배경 노이즈 상황을 고려하여 추정될 수도 있다. 게다가, 마찰음 점프 비율(fricative jump ratio)(Fratio(k))은 다음에 따라 개개의 하위 대역 대신에 하위 대역마다 변하는 배경 노이즈(
Figure pat00057
)의 합에 기초하여 결정될 수도 있다:
Figure pat00058
마찰음 점프 비율(Fratio(k))은, 검출에 대한 임계값과 비교하기 위해 사용될 수 있다.
배경 노이즈 영향에 대해 검출을 더욱 강건하게 만들기 위해, 마찰음 점프 비율(Fratio(k))은, 하위 대역 도메인에서 더 낮은 주파수(μfr-min) 및 더 높은 주파수(μfr-max)로 대역 제한될 수도 있다. 예를 들면, 더 낮은 주파수(μfr-min)는 대략 1500 Hz로 설정될 수도 있고, 더 높은 주파수(μfr-max)는 대략 6000 Hz로 설정될 수도 있다. 대역폭을 제한하는 것은, 조기 검출, 선택된 주파수 범위에서의 (하위 대역당) 더 높은 스펙트럼 신호 대 노이즈와 따라서 더 높은 검출 확률, 및 넓은 범위의 노이즈가 있는 환경에서 더 큰 강건성을 허용한다. 대역 제한된 제한 마찰음 점프 비율(Fratio-bl(k))은 다음에 의해 설명될 수 있다
Figure pat00059
강건성을 증가시키기 위한 상기에서 설명된 강건성을 조치에 기초하여, 대역 제한된 마찰음 점프 비율(Fratio-bl(k))을 다음에 의해 주어지는 임계치와 비교하는 것에 의해 노이즈가 있는 음성 신호에서 마찰음 세그먼트가 더욱 신뢰성 있게 검출될 수 있다
Figure pat00060
음성 신호에서의 마찰음은, 예를 들면, 노이즈 감소 시스템에서 활용되는 다른 목소리 활동 검출 알고리즘을 지원하기 위해 사전 검출기로서 사용될 수 있다. 상기에서 논의되는 바와 같이, 노이즈가 있는 음성 프레임에서 마찰음을 검출하기 위한 방법에서, 마찰음 검출을 위한 주요 방법은, 세 가지 강건성 향상 조치 중 적어도 하나에 의해 향상될 수도 있다.
도 3은, 상기에서 추가로 상세하게 설명되는 방법에 기초하며 컨트롤러, 마이크로프로세서, 마이크로컴퓨터 또는 등등과 같은 처리 유닛(300)에 의해 실행되는 프로그램 코드를 통해 구현되는, 노이즈가 있는 음성 신호에 대한 예시적인 프레임간 마찰음 검출 방법의 신호 흐름 구조를 예시하는 블록도이다. 제1 대역 통과 필터(301), 제2 대역 통과 필터(302) 및 배경 노이즈 추정기(303)는 프로세서(300)에서 구현되고, 예를 들면, 증폭기, 하나 이상의 필터, 아날로그 대 디지털 변환기, 주파수 대 시간 도메인 변환기 등등과 같은 다수의 신호 처리 블록(도시되지 않음)을 포함할 수도 있는 신호 경로(305)를 통해 마이크(304)로부터, 시간(t) 도메인의 노이즈가 있는 음성 신호(y(t))를 수신한다. 시간 도메인의 노이즈가 있는 음성 신호는 또한, 본 명세서에서 입력 스펙트럼(Y(μ, k))로 지칭되는 자신의 스펙트럼에 의해 설명될 수 있다.
도 1과 관련하여 상기에서 설명되는 대역 통과 필터(101 및 102)와 유사할 수도 있거나 또는 동일할 수도 있는 두 개의 대역 통과 필터(301 및 302)를 통해, 두 개의 부분 스펙트럼(Yb1(μ, k) 및 Yb2(μ, k))이 생성된다. 두 개의 부분 스펙트럼(Yb1(μ, k) 및 Yb2(μ, k))는, 결합된 필터(307), 제1 노이즈 억제기(308) 및 제2 노이즈 억제기(309)에 스펙트럼(Ybpm(μ, k))으로서 제공될 두 개의 부분 스펙트럼(Yb1(μ, k) 및 Yb1(μ, k)) 중 최대치를 선택하는 최대치 검출기(306)에 공급된다. 제1 노이즈 억제기(308)는 상기에서 설명되며 "정상 (타입) 노이즈 억제"로 추가로 칭해지는 방식으로 동작되고, 상기에서 스펙트럼(Hwf(μ, k))으로 지칭되는 제1 억제된 스펙트럼을 출력한다. 제2 노이즈 억제기(309)는 상기에서 설명되며 "동적 (타입) 노이즈 억제"로 추가로 칭해지는 방식으로 동작되고, 상기에서 스펙트럼(Hdyf(μ, k))으로 지칭되는 제2 억제된 스펙트럼을 출력한다. 제1 노이즈 억제기(308) 및 제2 노이즈 억제기(309)는 또한, 배경 노이즈 추정기(303)에 의해 제공되는 추정된 배경 노이즈 스펙트럼(
Figure pat00061
)을 수신한다. 결합된 필터(307)는, 최대치 검출기(306)로부터의 스펙트럼(Ybpm(μ, k)) 외에, 제1 노이즈 억제기(308) 및 제2 노이즈 억제기(309)로부터 스펙트럼(Hwf(μ, k) 및 Hdyf(μ, k))을 수신하고, 추정된 깨끗한 음성 스펙트럼(
Figure pat00062
)를 제공한다. 대역 제한된 마찰음 점프 비율을 생성하기 위한 블록(310)은 추정된 깨끗한 음성 스펙트럼(
Figure pat00063
)을 수신하고 그로부터 비율(Fratio-bl(k))을 생성하는데, 그 비율은, 마찰음이 존재하는지의 여부를 결정하도록, 비교기(311)에서 주어진 임계치과 비교된다. 결정의 결과는 음성 인식 시스템(도시되지 않음) 또는 임의의 다른 음성 처리 시스템으로 포워딩될 수도 있다. 프로세서(300)에 의해 수행되는 동작은, 적절히, 시간 도메인, 주파수 도메인, 하위 대역 도메인 및 이들의 조합에 있을 수도 있다.
도 4는 노이즈가 있는 음성 신호에 대한 예시적인 향상된 프레임간 마찰음 검출 방법을 예시하는 플로우차트이다. 깨끗한 음성 신호 및 노이즈 신호를 포함하는 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법(400)은, 제1 필터링된 노이즈가 있는 음성 신호를 제공하기 위해 제1 통과 대역 범위를 갖는 제1 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하는 것(절차(401)), 및 제2 필터링된 노이즈가 있는 음성 신호를 제공하기 위해 제2 통과 대역 범위로서, 제2 통과 대역은 제1 통과 대역과는 상이한, 제2 통과 대역 범위를 갖는 제2 전달 함수를 사용하여 노이즈가 있는 음성 신호를 대역 통과 필터링하는 것(절차(402))을 포함한다. 방법은, 최대 마찰음 에너지의 주파수 범위를 나타내는 최대 스펙트럼을 제공하기 위해 제1 필터링된 노이즈가 있는 음성 신호 및 제2 필터링된 노이즈가 있는 음성 신호에 최대치 연산을 적용하는 것(절차(403)), 및 최대 스펙트럼에 기초하여, 마찰음이 노이즈가 있는 음성 신호에 포함되는지의 여부를 결정하는 것(절차(404))을 더 포함한다. 옵션 사항으로(optionally), 최대 스펙트럼은, 두 개의 노이즈 감소 필터, 예를 들면, 상기에서 추가로 설명되는 바와 같은 정상적인(전통적인) 노이즈 억제 필터 및 동적 노이즈 억제 필터의 특정한 조합인 필터를 사용하여 필터링된다(절차(405)). 옵션 사항으로, 상응하게 유도되는 필터링된 최대 스펙트럼으로부터, 마찰음 점프 비율이 상기에서 또한 추가로 설명되는 바와 같이 결정된다(절차(406)). 마찰음 점프 비율은 임계치와 비교되어(절차(407)) 결정을 나타내는 결정 신호(408)를 제공한다.
상기에서 설명되는 방법은, 프로세서에 의한 실행을 위한 명령어로서, 컴퓨터 판독 가능 매체 예컨대 CD ROM, 디스크, 플래시 메모리, RAM 또는 ROM , 전자기 신호, 또는 다른 머신 판독 가능 매체에 인코딩될 수도 있다. 대안적으로 또는 추가적으로, 임의의 타입의 로직이 활용될 수도 있고, 하나 이상의 집적 회로(증폭기, 가산기, 지연부 및 필터를 포함함), 또는 증폭, 가산, 지연, 및 필터링 명령어를 실행하는 하나 이상의 프로세서와 같은 하드웨어를 사용하는 아날로그 또는 디지털 로직으로서; 또는 애플리케이션 프로그래밍 인터페이스(application programming interface: API)로 또는 동적 링크 라이브러리(Dynamic Link Library: DLL), 공유된 메모리에서 이용 가능한 또는 로컬 또는 원격 절차 호출로서 정의되는 함수의 소프트웨어로; 또는 하드웨어 및 소프트웨어의 조합으로서 구현될 수도 있다.
방법은, 컴퓨터 판독 가능 매체, 머신 판독 가능 매체, 전파 신호 매체, 및/또는 신호 보유 매체 상에 또는 내에 저장되는 소프트웨어 및/또는 펌웨어에 의해 구현될 수도 있다. 매체는, 명령어 실행 가능 시스템, 장치, 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 실행 가능 명령어를 포함, 저장, 전달, 전파, 또는 전송하는 임의의 디바이스를 포함할 수도 있다. 머신 판독 가능 매체는, 선택적으로, 전자, 자기, 광학, 전자기, 또는 적외선 신호 또는 반도체 시스템, 장치, 디바이스, 또는 전파 매체일 수도 있지만, 그러나 이들로 제한되지는 않는다. 머신 판독 가능 매체의 예의 비망라적인(non-exhaustive) 목록은 다음의 것을 포함한다: 자기 또는 광학 디스크, 휘발성 메모리 예컨대 랜덤 액세스 메모리(Random Access Memory: "RAM"), 판독 전용 메모리(Read-Only Memory: "ROM"), 소거 가능 및 프로그램 가능한 판독 전용 메모리(Erasable Programmable Read-Only Memory)(즉, EPROM) 또는 플래시 메모리, 또는 광섬유. 머신 판독 가능 매체는 또한, 로직이 이미지로서 또는 (예를 들면, 광학 스캔을 통해) 다른 포맷으로 전자적으로 저장될 수도 있고, 그 다음, 컴파일되고, 그리고/또는 해석되거나 또는 다르게는 처리될 수도 있기 때문에, 실행 가능 명령어가 인쇄되는 유형의 매체를 포함할 수 있다. 그 다음, 처리된 매체는 컴퓨터 및/또는 머신 메모리에 저장될 수도 있다.
시스템은 추가적인 또는 상이한 로직을 포함할 수도 있고 많은 상이한 방식으로 구현될 수도 있다. 컨트롤러는 마이크로프로세서, 마이크로컨트롤러, 주문형 집적 회로(application specific integrated circuit: ASIC), 이산 로직, 또는 다른 타입의 회로 또는 로직의 조합으로서 구현될 수도 있다. 유사하게, 메모리는 DRAM, SRAM, 플래시, 또는 다른 타입의 메모리일 수도 있다. 파라미터(예를 들면, 조건 및 임계치) 및 다른 데이터 구조는 개별적으로 저장 및 관리될 수도 있거나, 단일의 메모리 또는 데이터베이스에 통합될 수도 있거나, 또는 많은 상이한 방식으로 논리적으로 그리고 물리적으로 편제될(organized) 수도 있다. 프로그램 및 명령어 세트는, 단일의 프로그램의 일부일 수도 있거나, 별개의 프로그램일 수도 있거나, 또는 여러 메모리 및 프로세서 걸쳐 분산될 수도 있다. 시스템은, 셀룰러 폰, 헤드셋, 핸즈프리 세트, 스피커폰, 통신 인터페이스, 또는 인포테인먼트 시스템을 비롯한, 아주 다양한 전자 디바이스에 포함될 수도 있다.
실시형태의 설명은 예시 및 설명의 목적을 위해 제시되었다. 실시형태에 대한 적절한 수정 및 변형은, 상기 설명에 비추어 수행될 수도 있거나 또는 방법을 실시하는 것으로부터 획득될 수도 있다. 예를 들면, 달리 언급되지 않는 한, 설명되는 방법 중 하나 이상은 적절한 디바이스 및/또는 디바이스의 조합에 의해 수행될 수도 있다. 설명된 방법 및 관련 액션은 또한 본 출원에서 설명되는 순서에 추가하여 다양한 순서로, 병렬로, 및/또는 동시에 수행될 수도 있다. 설명된 시스템은 본질적으로 예시적인 것이며, 추가적인 요소를 포함할 수도 있고 그리고/또는 요소를 생략할 수도 있다.
본 출원에 사용될 때, 단수형으로 언급되고 단어 "a(한)"또는 "an(한)"이 선행되는 요소 또는 단계는, 배제가 언급되지 않는 한, 복수의 상기 요소 또는 단계를 배제하지 않는 것으로 이해되어야 한다. 더구나, 본 개시내용의 "하나의 실시형태" 또는 "하나의 예"에 대한 언급은, 언급된 특징을 또한 통합하는 추가적인 실시형태의 존재를 배제하는 것으로 해석되도록 의도되지는 않는다. 용어 "제1", "제2" 및 "제3" 등은 단순히 라벨로서 사용되며, 그들 객체에 대해 수치적 요건 또는 특정한 위치적 순서를 부과하도록 의도되지는 않는다.
본 발명의 다양한 실시형태가 설명되었지만, 본 발명의 범위 내에서 더 많은 실시형태 및 구현예가 가능하다는 것이 기술 분야의 통상의 지식을 가진 자에게 명백할 것이다. 특히, 숙련된 자는 상이한 실시형태로부터의 다양한 특징의 상호 교환성을 인식할 것이다. 비록 이들 기술 및 시스템은 소정의 실시형태 및 예의 맥락에서 개시되었지만, 이들 기술 및 시스템은 구체적으로 개시된 실시형태를 넘어 다른 실시형태 및/또는 용도 및 그 명백한 수정예로 확장될 수도 있다는 것이 이해될 것이다.

Claims (21)

  1. 깨끗한 음성 신호(clean speech signal) 및 노이즈 신호를 포함하는 노이즈가 있는 음성 신호(noisy speech signal)에서 마찰음(fricative)을 검출하기 위한 방법으로서,
    제1 통과 대역 범위를 갖는 제1 전달 함수를 사용하여 상기 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제1 필터링된 노이즈가 있는 음성 신호를 제공하는 단계;
    제2 통과 대역 범위를 갖는 제2 전달 함수를 사용하여 상기 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제2 필터링된 노이즈가 있는 음성 신호를 제공하는 단계로서, 상기 제2 통과 대역은 상기 제1 통과 대역과는 상이한, 상기 제2 필터링된 노이즈가 있는 음성 신호를 제공하는 단계;
    상기 제1 필터링된 노이즈가 있는 음성 신호 및 상기 제2 필터링된 노이즈가 있는 음성 신호에 최대치 연산(maximum operation)을 적용하여, 최대 마찰음 에너지의 주파수 범위를 나타내는 최대 스펙트럼을 제공하는 단계; 및
    상기 최대 스펙트럼에 기초하여, 마찰음이 상기 노이즈가 있는 음성 신호에 포함되는지의 여부를 결정하고 상기 결정을 나타내는 결정 신호를 제공하는 단계를 포함하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  2. 제1항에 있어서, 상기 결정하는 것은, 노이즈 억제 전달 함수를 사용하여 상기 최대 스펙트럼에 포함되는 노이즈를 필터링하는 것에 의해 상기 노이즈가 있는 음성 신호에 포함되는 상기 깨끗한 음성 신호의 스펙트럼을 추정하는 것을 포함하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  3. 제2항에 있어서, 배경 노이즈를 추정하여 상기 배경 노이즈의 추정된 스펙트럼을 제공하는 단계를 더 포함하되, 상기 깨끗한 음성 신호의 상기 스펙트럼을 추정하는 것은 상기 배경 노이즈의 상기 추정된 스펙트럼에 기초하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  4. 제3항에 있어서, 상기 노이즈 억제 전달 함수는, 상기 배경 노이즈의 상기 추정된 스펙트럼에 기초하여 결정되는 두 개의 상이한 주요(primary) 노이즈 억제 전달 함수로부터 선택되되, 상기 선택은, 상기 주파수가 미리 정의된 주파수 범위 내에 있는지 또는 밖에 있는지의 여부에 의존하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  5. 제4항에 있어서, 상기 주요 노이즈 억제 전달 함수 중 하나는 위너 필터 전달 함수(Wiener filter transfer function)인, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  6. 제4항 또는 제5항에 있어서, 상기 주요 노이즈 억제 전달 함수 중 다른 하나는, 상기 배경 노이즈가 과대 추정 가중치로 가중되는 위너 필터 전달 함수인, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서, 상기 주요 노이즈 억제 전달 함수 중 하나는 마찰음 에너지가 예상되는 주파수 범위에 대해 선택되고, 그 외에는, 다른 주요 노이즈 억제 전달 함수가 선택되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 추정된 깨끗한 음성 스펙트럼에 포함되는 하위 대역마다의 변하는(non-stationary) 배경 노이즈의 합에 기초하여 마찰음 점프 비율(fricative jump ratio)이 결정되고, 마찰음이 존재하는지 또는 그렇지 않은지의 여부의 상기 결정은 상기 마찰음 점프 비율을 미리 결정된 임계치와 비교하는 것에 의해 이루어지는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  9. 제8항에 있어서, 상기 마찰음 점프 비율은 스펙트럼적으로 대역 제한되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  10. 제8항 또는 제9항에 있어서, 상기 마찰음 점프 비율은 과거 음성 세그먼트를 나타내는 파라미터에 기초하여 결정되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 방법.
  11. 깨끗한 음성 신호 및 노이즈 신호를 포함하는 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템으로서, 입력 및 출력에 연결되는 적어도 하나의 처리 유닛을 포함하고, 상기 시스템은,
    제1 통과 대역 범위를 갖는 제1 전달 함수를 사용하여 상기 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제1 필터링된 노이즈가 있는 음성 신호를 제공하도록;
    제2 통과 대역 범위를 갖는 제2 전달 함수를 사용하여 상기 노이즈가 있는 음성 신호를 대역 통과 필터링하여 제2 필터링된 노이즈가 있는 음성 신호를 제공하도록 하되, 상기 제2 통과 대역은 상기 제1 통과 대역과는 상이하고;
    상기 제1 필터링된 노이즈가 있는 음성 신호 및 상기 제2 필터링된 노이즈가 있는 음성 신호에 최대치 연산을 적용하여 최대 마찰음 에너지의 주파수 범위를 나타내는 최대 스펙트럼을 제공하도록; 그리고
    상기 최대 스펙트럼에 기초하여, 마찰음이 상기 노이즈가 있는 음성 신호에 포함되는지의 여부를 결정하고 상기 결정을 나타내는 결정 신호를 제공하도록
    구성되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  12. 제11항에 있어서, 상기 결정하는 것은, 노이즈 억제 전달 함수를 사용하여 상기 최대 스펙트럼에 포함되는 노이즈를 필터링하는 것에 의해 상기 노이즈가 있는 음성 신호에 포함되는 상기 깨끗한 음성 신호의 스펙트럼을 추정하는 것을 포함하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  13. 제12항에 있어서, 상기 적어도 하나의 처리 유닛은 배경 노이즈의 추정된 스펙트럼을 제공하기 위해 상기 배경 노이즈를 추정하도록 더 구성되되, 상기 깨끗한 음성 신호의 상기 스펙트럼을 추정하는 것은 상기 배경 노이즈의 상기 추정된 스펙트럼에 기초하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  14. 제13항에 있어서, 상기 적어도 하나의 처리 유닛은 상기 배경 노이즈의 상기 추정된 스펙트럼에 기초하여 결정되는 두 개의 상이한 주요 노이즈 억제 전달 함수로부터 상기 노이즈 억제 전달 함수를 선택하도록 더 구성되되, 상기 선택은, 상기 주파수가 미리 정의된 주파수 범위 내에 있는지 또는 밖에 있는지의 여부에 의존하는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  15. 제14항에 있어서, 상기 주요 노이즈 억제 전달 함수 중 하나는 위너 필터 전달 함수인, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  16. 제14항 또는 제15항에 있어서, 상기 주요 노이즈 억제 전달 함수 중 다른 하나는, 상기 배경 노이즈가 과대 추정 가중치로 가중되는 위너 필터 전달 함수인, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서, 상기 적어도 하나의 처리 유닛은 마찰음 에너지가 예상되는 주파수 범위에 대해 상기 주요 노이즈 억제 전달 함수 중 하나를 선택하도록 더 구성되되, 그 외에는, 다른 주요 노이즈 억제 전달 함수가 선택되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  18. 제11항 내지 제17항 중 어느 한 항에 있어서, 상기 적어도 하나의 처리 유닛은 상기 추정된 깨끗한 음성 스펙트럼에 포함되는 하위 대역마다의 변하는 배경 노이즈의 합에 기초하여 마찰음 점프 비율을 결정하도록 더 구성되고, 마찰음이 존재하는지의 여부의 상기 결정은 상기 마찰음 점프 비율을 미리 결정된 임계치와 비교하는 것에 의해 이루어지는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  19. 제18항에 있어서, 상기 마찰음 점프 비율은 스펙트럼적으로 대역 제한되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  20. 제18항 또는 제19항에 있어서, 상기 적어도 하나의 처리 유닛은 과거 음성 세그먼트를 나타내는 파라미터에 기초하여 상기 마찰음 점프 비율을 결정하도록 더 구성되는, 노이즈가 있는 음성 신호에서 마찰음을 검출하기 위한 시스템.
  21. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항 내지 제10항 중 어느 한 항의 방법을 수행하게 하는 명령어를 포함하는, 컴퓨터 판독 가능 저장 매체.
KR1020200005447A 2019-01-31 2020-01-15 음성 신호에서의 마찰음의 검출 KR20200095370A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102019102414.5 2019-01-31
DE102019102414.5A DE102019102414B4 (de) 2019-01-31 2019-01-31 Verfahren und System zur Detektion von Reibelauten in Sprachsignalen

Publications (1)

Publication Number Publication Date
KR20200095370A true KR20200095370A (ko) 2020-08-10

Family

ID=71615220

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200005447A KR20200095370A (ko) 2019-01-31 2020-01-15 음성 신호에서의 마찰음의 검출

Country Status (4)

Country Link
US (1) US11183172B2 (ko)
KR (1) KR20200095370A (ko)
CN (1) CN111508512A (ko)
DE (1) DE102019102414B4 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN112309420B (zh) * 2020-10-30 2023-06-27 出门问问(苏州)信息科技有限公司 一种检测风噪声的方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
US3846586A (en) 1973-03-29 1974-11-05 D Griggs Single oral input real time analyzer with written print-out
US4630300A (en) 1983-10-05 1986-12-16 United States Of America As Represented By The Secretary Of The Navy Front-end processor for narrowband transmission
JPH075898A (ja) 1992-04-28 1995-01-10 Technol Res Assoc Of Medical & Welfare Apparatus 音声信号処理装置と破裂性抽出装置
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
JP2750062B2 (ja) * 1992-12-14 1998-05-13 キヤノン株式会社 反射屈折型光学系及び該光学系を備える投影露光装置
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
DE10137348A1 (de) * 2001-07-31 2003-02-20 Alcatel Sa Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
CN1412742A (zh) * 2002-12-19 2003-04-23 北京工业大学 基于波形相关法的语音信号基音周期检测方法
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
WO2010011963A1 (en) * 2008-07-25 2010-01-28 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
WO2010048635A1 (en) * 2008-10-24 2010-04-29 Aliphcom, Inc. Acoustic voice activity detection (avad) for electronic systems
EP2471064A4 (en) 2009-08-25 2014-01-08 Univ Nanyang Tech METHOD AND SYSTEM FOR RECONSTRUCTING LANGUAGE FROM AN ENTRY SIGNAL WITH FLUIDED PARTS
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals

Also Published As

Publication number Publication date
CN111508512A (zh) 2020-08-07
US11183172B2 (en) 2021-11-23
DE102019102414A1 (de) 2020-08-06
DE102019102414B4 (de) 2022-01-20
US20200251090A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
US11315587B2 (en) Signal processor for signal enhancement and associated methods
US10614788B2 (en) Two channel headset-based own voice enhancement
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US10356515B2 (en) Signal processor
US9264804B2 (en) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US8143620B1 (en) System and method for adaptive classification of audio sources
US20070260454A1 (en) Noise reduction for automatic speech recognition
EP2244254A1 (en) Ambient noise compensation system robust to high excitation noise
JP2006157920A (ja) 残響評価および抑制システム
US8326621B2 (en) Repetitive transient noise removal
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
KR20090104557A (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
RU2725017C1 (ru) Устройство и способ для обработки аудиосигнала
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
GB2536729A (en) A speech processing system and a speech processing method
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
US20230095174A1 (en) Noise supression for speech enhancement
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
GB2536727A (en) A speech processing device
KR101993003B1 (ko) 잡음 제거 장치 및 방법
Hendriks et al. Speech reinforcement in noisy reverberant conditions under an approximation of the short-time SII
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
Paliwal et al. Modulation Processing for Speech Enhancement
Zhang et al. An improved MMSE-LSA speech enhancement algorithm based on human auditory masking property

Legal Events

Date Code Title Description
E902 Notification of reason for refusal