KR20070042565A - 오디오 신호 내에서 음성활동 탐지 - Google Patents

오디오 신호 내에서 음성활동 탐지 Download PDF

Info

Publication number
KR20070042565A
KR20070042565A KR1020077004802A KR20077004802A KR20070042565A KR 20070042565 A KR20070042565 A KR 20070042565A KR 1020077004802 A KR1020077004802 A KR 1020077004802A KR 20077004802 A KR20077004802 A KR 20077004802A KR 20070042565 A KR20070042565 A KR 20070042565A
Authority
KR
South Korea
Prior art keywords
signal
voice activity
activity detector
noise
indication
Prior art date
Application number
KR1020077004802A
Other languages
English (en)
Other versions
KR100944252B1 (ko
Inventor
리타 니에미스퇴
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20070042565A publication Critical patent/KR20070042565A/ko
Application granted granted Critical
Publication of KR100944252B1 publication Critical patent/KR100944252B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

장치는 오디오 신호의 샘플을 기초하여 형성된 디지털 데이터를 사용하는 음성 신호 내에서 음성 활동을 탐지하기 위한 음성 활동 탐지기를 포함한다. 음성활동탐지기는 신호에 하이패스 특성이 있는지 조사하는 제1요소(6.3.1)를 포함한다. 음성활동탐지기는 또한 신호의 주파수 스펙트럼을 조사하는 제2요소(6.3.2)를 포함한다. 음성활동탐지기는 제1요소(6.3.1)가 신호가 하이패스 특성이 있다고 결정하거나 제2요소(6.3.2)가 신호가 편평한 주파수 응답이 없다고 결정할 때 대화의 표시를 제공한다.

Description

오디오 신호 내에서 음성활동 탐지{Detection of voice activity in an audio signal}
본 발명은 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 연설 신호 안에서의 음성 활동을 탐지하기 위한 음성활동 탐지기를 포함하는 장치와 관련되어 있다. 발명은 또한 방법, 시스템, 장치 그리고 컴퓨터 프로그램 생성물과 관련되어 있다.
많은 디지털 오디오 프로세싱 시스템들에서 음성활동 탐지기는 예컨대 잡음 억제 내의 잡음 평가와 같은 대화 강화(speech enhancement)를 수행하기 위해 쓰이고 있다. 대화 강화의 목적은 디지털 신호로서 표현된 대화의 질을 개선하기 위한 수학적 방법을 사용하기 위함이다. 디지털 오디오 프로세싱 장치들에서 대화는 보통 짧은 프레임( 전형적으로 10-30ms)으로 처리되고 음성활동 탐지기는 각각의 프레임을 시끄러운 대화 프레임 또는 잡음 프레임으로 분류한다. 국제 특허 출원공개 제WO 01/37265호는 셀룰라 통신 네트워크(cellular communications network) 와 모바일 터미널 사이에의 통신 경로 안의 신호에서 잡음을 억제 방법을 제시한다. 음성활동탐지기(VAD)는 오디오 신호 안에 대화 또는 단지 잡음이 있을 때를 표시하기 위해 사용한다. 장치 안에서 잡음 억제기의 동작은 음성활동 탐지기의 질 에 의존한다.
이 잡음은 사용자 주위에서 발생하는 환경 및 음향 배경 잡음(background noise) 또는 통신 망 자체 안에 생성되는 전자 성격의 잡음일 수 있다.
전형적인 잡음 억제기는 주파수 영역 안에서 운영한다. 시간영역 신호는 우선 고속 푸리에 변환(Fast Fourier transform(FFT))을 사용하여 능률적으로 실행될 수 있는 주파수 영역으로 변환된다. 음성 활동은 시끄러운 대화에서 탐지되어야 하고, 어떤 음성활동도 탐지되지 않을 때, 잡음의 스펙트럼이 예측된다. 그러면 현재 입력 신호 스펙트럼 및 잡음 예측을 기초로 하여 잡음 억제 이익 계수가 산출된다. 마지막으로, 신호는 역FFT(IFFT)을 사용하여 시간영역으로 다시 변환된다. 음성 활동 탐지는 시간영역 신호, 주파수 영역 신호 또는 양쪽 모두에 기초를 둘 수 있다.
시간 영역 안에 깨끗한 대화신호는
Figure 112007017070657-PCT00001
로 시끄러운 대화 신호는
Figure 112007017070657-PCT00002
로 표시될 수 있으며, 여기서
Figure 112007017070657-PCT00003
는 신호를 열화시키는 부가된 잡음신호이다. 강화된 대화는
Figure 112007017070657-PCT00004
로 표시될 수 있고 잡음 억제의 임무는 그것을 가능한 (알려지지 않은) 깨끗한 대화 신호에 가깝도록 만드는 것이다. 근접성(closeness)은 첫 번째로 약간의 수학적 에러 기준(예를 들면 최소의 평균제곱 오차 (mean squred error))에 의해 정의된다. 그러나 어떤 하나의 만족하는 기준도 없으므로, 근접성은 결국은 주관적으로 평가되어야만 하거나, 듣고 있는 테스트의 결과를 예측하는 한 세트의 수학적 방법을 사용하여야만 한다. 표기
Figure 112007017070657-PCT00005
Figure 112007017070657-PCT00006
,
Figure 112007017070657-PCT00007
그리고
Figure 112007017070657-PCT00008
는 주파수 영역에서 신호의 이산 시간 푸리에 변환을 의미한다. 실제로, 신호는 주파수 영역 내의 제로에 패딩된 중첩 프레임에서 처리되고; 주파수 영역 값은 FFT를 사용해서 수치가 구해진다. 표기
Figure 112007017070657-PCT00009
Figure 112007017070657-PCT00010
, 및
Figure 112007017070657-PCT00011
은 프레임 n (즉,
Figure 112007017070657-PCT00012
) 내의 불 연속한 한 세트의 주파수 빈에서 측정된 스펙트럼의 값을 나타낸다.
종래의 잡음 억압기에서 대화 강화는 잡음을 검출하는 것과 어떤 대화 활동도 검출 되지 않을 때 다음 규칙에 따른 잡음 예측을 갱신하는 것에 근거를 두고 있다.
Figure 112007017070657-PCT00013
(이 때
Figure 112007017070657-PCT00014
은 시끄러운 대화이고
Figure 112007017070657-PCT00015
은 0과 1 사이(보통, 0보다 1에 가까운 값)의 평탄화 파라미터(smoothing parameter) 이고
Figure 112007017070657-PCT00016
은 잡음 예측을 나타낸다. 지수
Figure 112007017070657-PCT00017
Figure 112007017070657-PCT00018
는 각각 주파수 빈과 프레임을 나타낸다. 기초가 되는 가정은 대화의 주파수 내용이 잡음의 주파수 내용보다 더 빠르게 변화한다는 것과 VAD가 잡음 예측을 충분히 자주 갱신하기 위하여 충분한 잡음을 검출한다는 것이다. 이와 같이, 음성활동탐지기는 억제되는 잡음의 평가에 중대한 역할을 한다. VAD가 잡음을 표시할 때 잡음 예측은 갱신된다.
갑작스런 변화가 잡음 레벨 안에 존재할 때 잡음과 대화의 식별은 더 어렵게 된다. 예를 들면, 엔진이 휴대 전화 근처에서 시동되면 잡음 레벨이 빠르게 증가한다. 장치의 음성활동탐지기는 이 잡음 레벨 증가를 대화의 시작으로 해석할지도 모른다. 그러므로, 잡음은 대화로서 해석되고 잡음 예측은 갱신되지 않는다. 또한 잡음이 많은 환경에 문을 열면 잡음 레벨이 갑자기 올라갈 수 있다. 음성활동 탐지기는 그것을 대화의 시작 또는 일반적으로 음성활동의 시작으로 해석할 수도 있다.
국제특허공개공보 제 WO 01/37265 호에 따르면 음성활동 탐지기 안에서 음성활동 탐지는 현재의 프레임의 평균 파워와 잡음 예측의 평균 파워를 비교하고 합계 비교하고 합계 귀납 SNR(sum a posteriori SNR)
Figure 112007017070657-PCT00019
와 미리 결정된 문턱값(threshold) 을 비교하여 수행된다.
갑자기 잡음 레벨이 상승하는 경우, 검출기는 대화로서 분류한다. 그러므로, 정지를 측정하는 방법은 복구를 위해 사용된다. 그러나, 대화의 발성된 음소는 전형적으로 음소 사이의 작은 중지보다 길다. 따라서 중지가 어떤 음소보다 길 지 않는 한 정지측정은 믿을 수 있게 잡음으로 분류될 수 없다. 전형적으로, 상승하는 잡음 레벨에 반응하는 데는 몇 초가 걸린다
.
직접적이긴 하지만 계산을 요구하는 음성 활동 탐지 결정 방법은 프레임 안에 자기 상관 (autocorrelation) 계수를 계산함으로써 대화 프레임 안에서 주기성을 탐지하는 것이다. 정기적인 신호의 자기상관은 신호의 주기에 해당하는 지체 영역 안의 주기에 대해서 또한 주기적이다. 인간 대화의 기본 주파수는 범위[50,500] Hz 이다. 이것은 8000 Hz의 샘플링 주파수를 위한 범위[16,160] 내의 그리고 16000Hz 샘플링 주파수를 위한 범위[32,320] 내의 자기상관 지체 영역내의 주기성에 상응한다 . 표음된 대화 프레임의 자기 상관 관계 계수들이(지연 0에서 계수에 의해 정규화되는) 그 범위들 안에서 계산되면 자기상관계수들은 주기적이라고 예상되고 발성된 대화의 기본 주파수에 대응하는 지체에서 최대 값이 발견되어야 한다. 대화 안의 기본 주파수의 가능한 값들에 대응하는 정규화된 자기 상관 계수들의 최대 값이 소정의 문턱 값보다 높으면 그 프레임은 대화로 분류된다. 이러한 종류의 음성 활동 탐지는 자기상관 VAD으로 지칭 될 수 있다. 탐지될 대화의 기본 주기에 비교하여 대화 프레임의 길이가 충분하게 길면 자기 상관 VAD는 발성된 음성을 비교적 정확하게 탐지할 수 있다, 그러나 표음되지 않은 음성은 탐지할 수 없다.
과학 출판물들에는 또한 음성활동을 탐지하기 위해 제시된 다른 방법들이 제 시되어 있다. 예컨대 S. Gazoor and W. Zhang, " soft voice activity detector based on a Laplacian-Gaussian model", IEEE Trans. Speech and Audio Processing, vol. 11 no 5, pp. 498-05, September 2003; 그리고 M. Marzinzik and B. Kollmeier, " Speech pause detection for noise spectrum estimation by tracking power envelope dynamics", IEEE Trans. Speech and Audio Processing, vol. 10 no 2, pp. 109-18, February 2002.이다. 그것들은 일반적으로 높은 순서 통계(Higher order statistics) 또는 대화 존재 및 부재 확률을 계산하는 상당히 복잡한 스킴들(schemes)이다. 일반적으로 그들은 구현하는데 계산적으로 매우 소모적이고, 정확한 잡음 평가를 위한 충분한 잡음을 발견하는 것보다 오히려 프레임 안에서 모든 대화를 발견하는 것을 의도한다. 그러므로, 그들은 대화 코딩 애플리케이션에 더 적합하다.
본 발명은 잡음 파워가 갑자기 오르는 경우 음성활동 탐지를 개선하려고 노력한다. 이 경우 선행 기술 방법은 잡음 프레임을 대화로서 종종 분류한다.
본 발명에 따르는 음성 활동 검출기는 본 출원에서 스펙트럼의 편평도 VAD(spectral flatness VAD) 로 지칭한다. 본 발명의 스펙트럼 편평도 VAD는 형체를 잡음이 섞인 대화 스펙트럼의 형태를 고려한다. 스펙트럼이 편평한 경우와 스펙트럼이 로우패스 특성이 있는 경우, 스펙트럼 편평도 VAD는 프레임을 잡음으로 분류한다. 근본적인 가정은 표음된 음소는 편평한 스펙트럼을 갖지 않고 상당히 명확한 포먼트(formant) 주파수를 갖는다는 것과 표음되지 않은 음소는 약간 편평한 스펙트럼을 가지나 하이패스 특성이 있다는 것이다. 본 발명에 따르는 음성 활동 탐지는 시간 도메인 신호 그리고 주파수 도메인 신호에 근거한다.
본 발명에 따르는 음성활동 탐지기는 단독으로 또는 자기상관 VAD 또는 스펙트럼 거리 VAD와 조합하여 또는 전기의 두 가지 VAD 모두와 조합하여 사용될 수 있다. 3가지 다른 종류의 VAD의 조합에 따르는 음성활동 탐지는 3 단계로 운영된다. VAD 결정은 우선 대화에 전형적인 주기성을 탐지하는 자기상관 VAD를 사용하여 VAD 결정을 수행하고, 스펙트럼 거리 VAD로 VAD 결정을 하여 자기 상관 VAD는 잡음으로서 분류하나 스펙트럼의 거리 VAD가 대화로서 분류하는 경우, 최종적으로 스펙트럼의 평탄 VAD를 사용하여 VAD 결정을 하게 된다. 발명의 약간 더 단순한 실시 예에 따르면 자기상관 VAD 없이 스펙트럼의 편평도 VAD가 스펙트럼의 거리 VAD와 관련하여 사용된다.
본 발명은 오디오 신호의 스펙트럼 그리고 주파수 내용은 필요한 경우 오디오 신호 내에 대화 또는 단지 잡음만이 있는지 결정하기 위하여 조사된다는 아이디어에 기초하고 있다. 더 명확히 한다면, 본 발명에 따르는 장치는 우선적으로 장치의 음성활동 탐지기가 신호에 하이패스 특성이 있는지 조사하는 제1요소와 신호의 주파수 스펙트럼을 조사하기 위한 제 2요소를 포함함을 특징으로 하고 있다. 상기 음성활동 탐지기는 상기 제1요소가 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 제 2요소가 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나가 충족되었을 때 대화의 표시를 제공한다
본 발명에 따르는 장치는 우선적으로 음성활동 탐지기가 신호에 하이패스 특성이 있는지 조사하는 제1요소와 신호의 주파수 스펙트럼을 조사하는 제 2요소를 포함함을 특징으로 하고 있다. 상기 음성활동 탐지기는 상기 제1요소가 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 제 2요소가 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나를 충족되었을 때 대화의 표시를 제공한다.
본 발명에 따르는 시스템은 우선적으로 시스템의 음성활동 탐지기가 신호에 하이패스 특성이 있는지 조사하는 제1요소와 신호의 주파수 스펙트럼을 조사하는 제 2요소를 포함함을 특징으로 하고 있다. 상기 음성활동 탐지기는 상기 제1요소가 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 제 2요소가 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나를 충족되었을 때 대화의 표시를 제공한다.
본 발명에 따르는 방법은 우선적으로 신호에 하이패스 특성이 있는지 조사하는 단계, 신호의 주파수 스펙트럼을 조사하는 단계 및 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나를 만족하였을 때 대화의 표시를 제공하는 단계를 포함한다.
본 발명에 따르는 컴퓨터 프로그램 생성물은 우선적으로 컴퓨터 프로그램 생성물이 신호에 하이패스 특성이 있는지 조사하는 단계, 신호의 주파수 스펙트럼을 조사하는 단계 및 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나가 충족되었을 때 대화의 표시를 제공하는 단계 포함한다.
본 발명은 잡음 레벨에 급격한 변화가 존재하는 환경에서 잡음과 대화 구별 능력을 개량할 수 있다. 본 발명품에 따른 음성 활동 탐지는 잡음 파워가 급격하게 상승하는 경우에 기존의 방법보다 오디오 신호를 더 잘 분류할 수도 있다. 모바일 단말기 내에서 동작하는 잡음 억제기에서, 본 발명은 개량한 잡음 감쇠 때문에 대화의 인지성과 쾌적성을 개량할 수 있다. 예를 들면 엔진이 가동될 때 또는 잡음이 많은 환경에 문이 열릴 때, 본 발명은 또한 잡음 스펙트럼의 정적 특성들을 계산하는 종래 해결책에보다는 신속하게 갱신되게 할 수 있다. 그런데, 본 발명에 따른 음성 활동 탐지기는 때때로 너무 활동적인 대화를 잡음으로서 분류한다. 이러한 경우는 이동 통신에서 휴대전화기가 배경으로 아주 강한 왁자지껄한 소리가 있는 곳 있는 군중 내에서 사용될 때만 발생한다. 그런 상황은 어떤 방법을 사용해도 문제가 된다. 본 발명과 종래 기술의 차이는 배경 잡음이 급격히 증가하는 상황에서 명확하게 느낄 수 있다. 또한 본원 발명은 음량 제어에서 더 빠른 변화를 허용한다. 몇몇의 선행기술 구현에 있어서, 자동 이득 제어( automatic gain control)는 VAD 때문에 제한되서 18db까지 레벨을 점진적으로 올리는데 최소한 4.5초가 걸린다.
도 1은 본 발명의 실시 예에 따른 전자장치의 구조를 설명하는 블록도.
도 2는 본 발명의 실시 예에 따른 음성활동탐지기의 구조를 도시하는 도면.
도 3은 본 발명의 실시예에 따른 방법을 도시하는 흐름도.
도 4는 본 발명을 포함하는 시스템의 예를 도시하는 블록도.
도 5a은 표음된 음소의 스펙트럼의 예를 도시하는 도면.
도 5b는 차량 잡음의 스펙트럼의 예를 도시하는 도면.
도 5c은 비표음 자음의 스펙트럼의 예를 도시하는 도면.
도 5d는 잡음 스펙트럼의 가중효과를 도시하는 도면.
도 5e는 표음된 대화 스펙트럼의 가중 효과를 도시하는 도면.
도 6a,6b 그리고 6c는 음성활동 탐지기의 다른 실시 예들을 도시하는 단순화된 도면.
본 발명은 도 1의 전자 장치 및 도 2의 음성 활동 탐지기를 참조하여 더 자세히 기술될 것이다. 이 실시 예에서 전자 장치 (1)은 무선 통신 장치이나 본 발명이 무선 통신 장치에만 제한되지 않는 것은 명백하다. 전자 장치 (1)는 처리될 오디오 신호를 입력하기 위한 오디오 입력 (2)을 포함한다. 오디오 입력 (2)은, 예를 들면, 마이크이다. 필요한 경우, 오디오 신호는 증폭기 (3)에 의해 증폭되고, 강화된 오디오 신호를 발생시키기 위하여 잡음 억제가 또한 실행될 수도 있다. 오디오 신호는 한 번에 처리되는 오디오 신호의 소정 길이를 의미하는 대화 프레임으로 분할된다. 프레임의 길이는 보통 수 밀리초 (milliseconds)로서, 예를 들면 10ms 또는 20ms이다. 오디오 신호는 또한 아날로그/디지털 변환기 (4)(A/D)에서 디지털 신호로 변환된다. 아날로그/디지털 변환기 (4)는 소정 주기로 즉 다시 말해 소정 샘플링 속도로 오디오 신호로부터 샘플을 형성한다. 아날로그/ 디지털 변환 후에 대화 프레임은 한 세트의 샘플들에 의해 표현된다. 전자 장치 (1)은 또한 오디오 신호 처리가 적어도 부분적으로 실행되는 대화 프로세서(speech processor)(5)를 포함하고 있다. 대화 프로세서 (5)는, 예를 들면, 디지털 신호 처리기 (DSP) 이다. 대화 프로세서는 또한 업링크 내에서 및/또는 다운링크 내에서의 반향 제어 (echo control)과 같은 다른 동작들을 포함할 수 있다.
도 1의 장치 (1)은 또한 대화 프로세서 (5) 및 다른 제어 동작( controlling operation) 들이 실행될 수 있는 제어 블록 (13), 키보드 (14), 디스플레이 (15), 및 메모리 (16)를 포함한다.
오디오 신호의 샘플들은 대화 프로세서 (5)에 입력된다. 대화 프로세서 (5)내에서 샘플들은 프레임 단위로 처리된다. 처리는 시간영역 또는 주파수 영역 또는 양쪽 모두에서 실행될 수도 있다. 잡음 억제과정에서 신호는 전형적으로 주파수 영역 내에서 처리되고 각 주파수 대역(band)는 이익(gain) 계수에 의해 가중된다. 이익 계수의 값은 잡음이 많은 대화의 레벨 및 잡음 레벨 예측치
Figure 112007017070657-PCT00020
에 의존한다. 음성 활동 탐지는 잡음 레벨 예측을 갱신하기 위해 필요하다.
현재 프레임의 샘플들이 대화 또는 비대화 신호를 포함하는지를 표시하기 위해 음성 활동 탐지기 (6)는 대화 샘플들을 조사한다. 음성 활동 탐지기(6)이 신호가 대화를 포함하고 있지 않다고 표시할 때, 이 표시는 표시를 이용하여 잡음 스펙트럼을 조사하거나 갱신할 수 있는 잡음 평가기 (19)(noise estimator 19)에 입력 된다. 신호 내에 잡음을 억제하기 위하여 잡음 억제기 (20)는 잡음의 스펙트럼을 이용한다. 잡음 평가기 (19)는 예를 들어 배경 평가 매개변수(background estimation parameter)에 관하여 음성 활동 탐지기 (6)에게 피드백을 줄 수도 있다. 전송을 위해 대화를 부호화하기 위해 장치 1은 또한 인코더 (7)을 함유할 수 도 있다.
부호화된 대화(the encoded speech)는 예컨대 전송기(8)에 의하여 채널 부호화되어 이동통신망(mobile communication network) 와 같은 통신 채널 (17)을 경유하여 무선 통신 장치와 같은(도 4) 또 하나의 전자 장치 (18)로 전송된다.
전자 장치 (1)의 수신부에는 통신 채널(17)로부터 수신하기 위한 수신기 (9) (receiver 9)가 있다. 수신기 (9)는 채널 복호화를 실행하고 채널 복호화된 신 호를 대화 프레임을 복구하는 디코더 (10)에 전달한다. 대화 프레임 및 잡음은 디지털/아날로그 변환기 (11)(D/A)에 의해 아날로그 신호로 변환된다. 아날로그 신호는 스피커 또는 이어폰 (12)에 의해 가청신호로 변환될 수 있다.
아날로그/디지털 변환기에서 8000Hz의 샘플링 주파수가 사용된다고 가정하는데 이 때 가용한 주파수 범위는 보통 대화에 충분한 약 0에서 4000Hz이다. 4000Hz보다 높은 주파수가 디지털 형태로 변환되는 신호 내에 존재할 수 있을 때, 8000Hz이상 예컨대 16000Hz의 다른 샘플링 주파수를 사용하는 것 또한 가능하다.
이하에서 본 발명의 이론적 배경이 더 자세히 설명된다. 첫째, 1개의 표음된 음소 (낱말'men'에서 'ee'와 같은)동안에 대화 샘플의 스펙트럼이 고려된다. 그들 사이에는 포만트 주파수들과 밸리(valley)들이 있고 표음된 대화의 경우 기초 주파수, 그것의 고조파 및 고조파들 사이의 밸리들이 또한 존재한다. 국제 특허공개 공보 WO 01/37265 호에서 공개된 선행 기술 잡음 억압기에서 0부터 4 kHz의 주파수 범위가 균등하지 않은 폭을 갖는 12 계산 주파수대역(부대역)으로 나누어진다. 그리하여, 스펙트럼은 억제에서 사용되는 이득 함수 (gain fuction)을 계산하기 이전에 어떤 불규칙한 부분이 높은 정도로 평탄화된다. 그러나 그림 5.1에서 도시되는 바와 같이 어떤 불규칙한 부분이 남는다. 도 5a은 표음된 음소('ee')의 스펙트럼의 예를 설명한다. 첫 번째 곡선은 75ms의 프레임(FFT 길이 512) 상에서 계산되고, 두 번째 곡선은 10ms의 프레임 상(FFT 길이128)의 길이에서 계산되고, 그리고 세 번째 곡선은 10ms 의 프레임 상에서 계산되고 주파수 그룹화(grouping)에 의해 평탄화된다.
잡음의 경우에 차량 잡음의 스펙트럼의 예를 설명하는 도.5.2에서 볼 수 있다시피 스펙트럼이 더 평탄하다. 첫 번째 곡선은 75ms의 프레임(FFT길이512) 상에서 계산되고, 두 번째 곡선은 10ms의 프레임(FFT길이128) 상에서 계산되고, 그리고 세번째 곡선은 주파수 그룹화에 의해 평탄화된 10ms의 프레임 상에서 계산된다. 모든 스펙트럼을 평탄하게 하면 이들은 도 5b에 도시된 바와 같이 하향하는 직선을 닮게된다. 표음되지 않은 자음의 경우에, 도 5c에서 설명되는 것과 같이, 스펙트럼은 또한 상당히 평탄하나 상향 형태를 갖는다. 도 5c은 표음되지 않은 자음 (낱말 통제(word control)내에서 음소't')의 스펙트럼의 보기를 설명한다. 첫 번째 곡선은 75의 프레임 상(FFT길이512)에서 계산되고, 두 번째 곡선은 10ms의 프레임 상(FFT길이128)에서 계산된다. 세 번째 곡선은 주파수 그룹화에 의해 평탄화된 10ms의 프레임 상에서 계산된다.
다음에는 본 발명에 따르는 스펙트럼 평탄 VAD 6.3의 실시 예의 동작이 설명된다. 첫 번째로, 현재와 이전의 프레임에 대응하고 있는 최적의 1차 예보자
Figure 112007017070657-PCT00021
가 시간 영역에서 계산된다. 예보자 계수 a는 식
Figure 112007017070657-PCT00022
에 의해서 현재 프레임 상에서 계산된다.
스펙트럼 평탄 VAD는 블록 6.3.1에서
Figure 112007017070657-PCT00023
인지 여부를 조사한다. 만약
Figure 112007017070657-PCT00024
이면 스펙트럼이 하이패스 특성이 있고 그것은 표음되지 않은 자음의 스펙트럼일 수 있는 것을 의미한다. 그러면 프레임은 대화로서 분류되고 스펙트럼 평탄 VAD 6.3은 대화의 표시를 출력한다. (예컨대 논리값 1).
만약
Figure 112007017070657-PCT00025
이면, 그러한 현재의 잡음이 많은 대화 스펙트럼 예측 값은 블록 6.3.2에서 가중화된다. 그러한 가중 동작은 대역의 중앙에 대응하는 코사인 함수의 값을 사용하는 주파수 그룹화 후에 주파수 도메인에서 실행된다. 가중 함수는
Figure 112007017070657-PCT00026
와 같다. 이 때
Figure 112007017070657-PCT00027
은 주파수대역의 중간 주파수를 가리킨다. 가중된 스펙트럼
Figure 112007017070657-PCT00028
의 최소값
Figure 112007017070657-PCT00029
및 최대값
Figure 112007017070657-PCT00030
을 비교하여 VAD결정을 내린다. 주파수 300Hz이하의 그리고 주파수 3400Hz 이상의 주파수에 해당하는 값들은 이 실시 예에서 생략된다. 만약
Figure 112007017070657-PCT00031
이면, 신호가 대화로 분류되는데 이때 비율은 대략
Figure 112007017070657-PCT00032
Figure 112007017070657-PCT00033
에 대응한다.
잡음과 표음된 대화 스펙트럼을 가중하는 효과는 도 5d 및 도 5e에 각각 도시되어 있다. 도시된 바와 같이 12 dB가 잡음과 대화를 구별하기 위한 충분한 문 턱값(threshold)이다
스펙트럼 평탄 VAD는 단독으로 사용될 수 있다, 그러나 주파수 도메인에서 운영되는 스펙트럼 거리 VAD와 연계하여 사용되는 것 또한 가능하다. 스펙트럼 거리 VAD는 대화로서 분류한다. 합계 귀납(posteriori) 신호 대 잡음 비(SNR)가 미리 정의된 문턱값(threshold) 보다 크면 대화로서 분류하고 배경 잡음 파워가 갑자기 상승하는 경우 모든 프레임을 잡음으로 분류한다. 더 상세한 설명은 국제특허공개공보 WO 01/37265 호에 기재되어 있다. 이와 같이, 스펙트럼 거리 VAD가 바르게 분류도록 잡음 예측치의 레벨을 갱신하기 위해 몇 번의 정확한 결정만 필요하므로 이 실시의 스펙트럼 평탄 VAD에서 문턱값(threshold)은 심지어 12 dB 미만일 수 있다. 대화 내의 잡음과 닮은 음소가 잡음으로 잘못 분류되는 작은 위험이 아직도 있다. 그러나, 잡음 평가에서 평탄화되는(smoothing) 매개변수
Figure 112007017070657-PCT00034
가 충분히 높다면. 이따금의 부정확한 결정은 잡음 억제 내의 대화 품질에 어떤 가청 효과도 미치지 않는다.
스펙트럼 거리 VAD와 스펙트럼 평탄 VAD는 또한 자기상관 VAD와 연계하여 사용될 수 있다. 이런 종류의 실시 예는 도 2에서 도시되어 있다. 자기상관 VAD는 계산이 많이 요구되나 표음된 대화를 검출하는 강력한 방법이다. 그리고 이 유형의 검출기는 다른 두 가지 유형의 VAD가 잡음으로서 분류하는 낮은 신호 대 잡음 비 로 대화를 검출할 수 있다. 또한, 때때로 표음된 음소는 명백히 주기적이나 상당히 편평한 스펙트럼을 가지고 있다. 그러므로, 자기 상관 VAD의 계산적 복잡성이 몇몇 적용(application)을 위해 너무 높을 수 있어도 고품질 잡음 억제를 위해, 모든 세 가지의 VAD 결정의 조합이 필요할 수도 있다..
음성 활동 검출기의 조합의 결정 논리는 진리표의 형태로 표현될 수 있다. 표 1은 자기상관 VAD 6.1, 스펙트럼 거리 VAD 6.2와 스펙트럼 편평도 VAD 6.3의 조합을 위한 진리표를 보여준다. 칼럼들은 다른 상황에서 다른 VAD의 결정을 표시한다. 가장 오른쪽 칼럼은 결정 논리(즉 음성 활동 탐지기 6의 출력)의 결과를 의미한다. 표에서 논리 값 0은 상응하는 VAD의 출력이 잡음임을 표시함을 의미하고 논리값 1은 상응하는 VAD의 출력이 대화임을 의미한다. 결정 논리가 표 1의 진리 테이블에 따르며 동작하는 한, 다른 VAD 6.1, 6.2, 6.3에서 만들어지는 결정의 순서는 결과에 어떠한 영향도 끼치지 않는다.
자기상관 VAD 스펙트럼 거리 VAD 스펙트럼 편평도 VAD 결정
0 0 0 0
0 0 1 0
0 1 0 0
0 1 1 1
1 0 0 1
1 0 1 1
1 1 0 1
1 1 1 1
표 1
또한, 스펙트럼 편평도 VAD 6.3의 내부 결정 논리는 표 2의 진리 표로서 나 타내게 될 수 있다. 칼럼들은 하이패스 탐지 블록 6.3.1, 스펙트럼 분석 블록 6.3.2와 스펙트럼 편평도 VAD의 출력의 결정을 표시한다. 표 2에서 하이패스 특성 칼럼의 논리 값 0은 스펙트럼이 하이패스 특성을 가지고 있지 않다는 것을, 논리 값 1은 하이패스 특성의 스펙트럼을 의미한다. 편평한 스펙트럼 칼럼의 논리값 0은 스펙트럼이 편평하지 않은 것을 논리 값 1은 스펙트럼이 편평하다는 것을 의미한다.
하이패스 특성 편평한 스펙트럼 결정
0 0 1
0 1 0
1 0 1
1 1 1
표 2
도 6a의 단순화된 블록도에서 음성활동 탐지기 (6)은, 스펙트럼 편평도 VAD 6.3 만을 사용하면서 실행되고, 도 6b에서 음성 활동 탐지기 (6)은 스펙트럼 편평도 VAD 6.3과 스펙트럼 거리 VAD 6.2를 사용하면서 실행되고, 그리고 도 6c에서 음성활동탐지기 (6)은 스펙트럼 편평도 VAD 6.3, 스펙트럼 거리 VAD 6.2와 자기상관 VAD 6.1을 사용하여 실행된다. 결정 논리는 블록 6.6에서 도시되어 있다. 본 발명을 한정하지 않은 본 실시 예에서 다른 VAD들이 병렬로 도시되어 있다.
다음에 스펙트럼 편평도 VAD와 연계하여 자기상관 VAD와 스펙트럼 거리 VAD 모두를 사용하고 있는 본 발명의 실시 예에 따르는 음성 활동 탐지는 도 3의 흐름도를 참조하여 더욱 상세히 설명된다.
음성활동 탐지기 (6)은 자기 상관 VAD 6.1을 위한 자기상관 계수들
Figure 112007017070657-PCT00035
Figure 112007017070657-PCT00036
를 계산하고 시간 영역 신호에 기초하여 스펙트럼의 편평도 VAD 6.2를 위해 최적의 1차 예보자
Figure 112007017070657-PCT00037
, 이때
Figure 112007017070657-PCT00038
를 계산한다.
그 다음 FFT는 스펙트럼 편평도 VAD 6.2 및 스펙트럼 거리 VAD 6.3을 위한 주파수 도메인 신호를 얻기 위해 계산된다. 주파수 도메인 신호는 주파수대역
Figure 112007017070657-PCT00039
에 대응하고 있는 잡음이 많은 대화 프레임의 파워 스펙트럼
Figure 112007017070657-PCT00040
을 평가하기 위해 사용된다. 도 2의 계산 블록 6.0에서 자동상관 계수, 1차 예보자와 FFT의 계산이 이루어지는 것으로 설명되나 이 계산은 또한 음성 활동 검출기 (6)의 다른 부분에서 예컨대 자기상관 VAD 6.1와 연계되어 실행될 수 있음이 명백하다. 음성 활동 탐지기 (6)에서 자기상관 VAD 6.1은 주기성이 자기상관 계수(도 3의 블록 301)를 사용하고 있는 프레임에 주기성이 있는지 조사한다.
모든 자기상관 계수는 0-지연 계수
Figure 112007017070657-PCT00041
에 대하여 정규화 되고 자기 상관 계수의 최대값은 범위[100,500]Hz내의 주파수에 해당하는 샘플 내에서
Figure 112007017070657-PCT00042
산출된다. 이 값이 소정의 문턱값 (블록 302)보다 크면, 프레임 이 어떤 구조는 대화 (화살표 303)를 포함하는 것으로 간주되고, 그렇지 않으면, 결정은 스펙트럼 거리VAD6.2 및 스펙트럼 편평도 VAD6.3에 의존한다.
자기상관 VAD는 음성 활동 탐지기 (6)(도 2의 블록 6.4와 도 3의 블록 304)의 출력으로서 사용되는 대화 탐지 신호 (S1)을 만든다. 그러나 자기상관 VAD가 프레임의 샘플들 내에서 충분한 주기성을 찾지 못하면, 자기상관 VAD는 대화 탐지 신호 (S1)를 만들지 않으나 그것은 어떤 주기성이 없거나 또는 단지 낮은 정도의 주기성을 갖는 신호를 나타내는 비 대화 탐지 신호 (S2)를 만든다. 그 다음, 스펙트럼 거리 음성 활동 탐지가 수행된다(블록 305). 합계 귀납적 SNR
Figure 112007017070657-PCT00043
이 계산되고 미리 정의된 문턱값(블록306)과 비교된다. 만일 스펙트럼 거리 VAD 6.2가 잡음(화살표 307)으로서 프레임을 분류하면 이 표시 S3은 음성 활동 탐지기 (6)(도 2의 블록 6.5와 도 3의 블록 315)의 출력으로서 사용된다. 다른 경우라면, 스펙트럼 편평도 VAD 6.3은 잡음이나 활성화된 프레임에 있는지 결정하기 위해 추가의 동작을 실행한다.
신호의 추가의 분석이 필요하기 때문에(블록 308) 스펙트럼 편평도 VAD 6.3은 최적의 1차 예보자
Figure 112007017070657-PCT00044
와 스펙트럼
Figure 112007017070657-PCT00045
을 받는다. 첫 번째로, 스펙트럼 편평도 VAD 6.3의 하이패스 탐지 블록 6.3.1은 예보자 계수의 값이 제로 보다 더 적거나 같은지
Figure 112007017070657-PCT00046
조사한다(블록 309). 만약 그렇다면, 이 파라미터가 신호의 스펙트럼이 하이패스 특성이 있다고 표시하기 때문에 프레임은 대화로서 분류된다. 그 경우에 스펙트럼 편평도 VAD 6.3은 대화의 표시 (S5)를 제공한다.(화살표 310) 만약 하이패스 탐지 블록 6.3.1이 현재 프레임에 대해 조건
Figure 112007017070657-PCT00047
이 진실이 아니라고 결정한다면 그것은 표시 S7을 평탄 VAD 6.3의 스펙트럼의 분석 블록 6.3.2에게 제공한다. 스펙트럼의 분석 블록 6.3.2는 주파수 대역
Figure 112007017070657-PCT00048
Figure 112007017070657-PCT00049
로 가중한다(블록 311) 주파수
Figure 112007017070657-PCT00050
는 주파수 대역
Figure 112007017070657-PCT00051
의 중앙 주파수에 상응하는 값과 함께
Figure 112007017070657-PCT00052
로 정규화된다. 그리고 가중된 주파수
Figure 112007017070657-PCT00053
의 최대 값 및 최소 값은 비교된다(블록 312). 가중된 주파수의 최대값과 최소값 사이의 비율이 문턱 값 (예를 들면 12dB)보다 작으면, 프레임은 잡음으로 분류되고(화살표 313) 표시 (S8)이 만들어진다. 그렇지 않으면, 프레임은 대화로 분류되고(화살표 314) 표시 (S9)가 만들어진다(블록 304). 스펙트럼 편평도 VAD6.3이 프레임이 대화를 포함하고 있다고 결정하면 (상기 표시 S5와 S9), 음성활동 탐지기 (6)은 (잡음이 많은) 대화의 표시를 생성한다.(블록 304) 그렇지 않으면,( 상기 표시 S8) 음성활동 탐지자 6은 잡음의 표시를 생성한다. (블록 315)
본 발명은 예를 들면 음성 활동 탐지를 실행하기 위해 기계가 실행할 수 있는 단계를 제공될 수 있는 디지털 신호 처리 장치 (DSP)내의 컴퓨터 프로그램으로 서 구현될 수 있다.
본 발명에 따르는 음성활동 탐지기 (6)은 예컨대 상기 전송 장치 내의, 수신 장치 내에서, 또는 두 장치 내의 잡음 억제기 (20) 내에서, 사용될 수 있다. 음성활동 탐지기 (6)과 대화 프로세서 (5)의 다른 신호 처리 요소들은 장치 1의 송신 및 수신 기능에 공통적이거나 부분적으로 공통적일 수 있다. 시스템의 다른 부분 예컨대 통신 채널 (17)의 몇몇의 요소 내에 본 발명에 따른 음성활동 탐지기(6)을 구현하는 것 또한 가능하다. 잡음 억제를 위한 전형적인 응용(application)은 의도가 듣는 사람에게 대화를 더욱 쾌적하게 또는 이해가능하게 하거나 대화 코딩을 향상시키는 대화 처리와 관련되어 있다. 대화 코덱이 대화를 위해 최적화되어 있기 때문에 잡음의 열화 효과는 클 수 있다. 예컨대 대화 또는 잡음이 전송되어야 할 때를 표시하는 불연속 전송과 같은 잡음 억제와는 다른 목적과 연계되어 본 발명에 따른 음성활동 탐지기(6)가 사용될 수 있다.
본 발명에 따른 스펙트럼 편평도 VAD는 음성활동 탐지 및/ 또한 잡음 평가를 위해 단독으로 쓰일 수 있다. 그러나 예를 들어 국제특허공개공보 WO 01/37265 호에 기술된 대로 잡음 파워가 급격히 상승하는 경우 잡음 평가를 개선하기 위해 스펙트럼 거리VAD에 스펙트럼 거리VAD와 연계하여 스펙트럼 편평도 VAD을 사용하는 것 또한 가능하다. 게다가, 낮은 SNR 에서 좋은 성과를 달성하기 위하여, 스펙트럼 거리 VAD 및 스펙트럼 편평도 VAD은 자기상관 VAD와 연계하여 사용될 수 있다.
본 발명은 단지 상기 실시 예에 제한하지 않음은 명백하고, 본 발명은 첨부된 청구항의 범위 내에서 변경될 수 있다.

Claims (30)

  1. 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 대화 신호 내의 음성 활동을 탐지하기 위한 음성활동 탐지기를 포함하는 장치(1)로서, 상기 음성활동 탐지기(6)는
    -상기 신호에 하이패스 특성이 있는지 조사하는 제 1요소(6.3.1)와
    -상기 신호의 주파수 스펙트럼을 조사하는 제 2요소(6.3.2)를 포함하고,
    상기 음성활동 탐지기(6)가 다음 조건
    - 상기 제 1 요소(6.3.1) 가 상기 신호에 하이패스 특성이 있다고 결정하거나
    - 상기 제 2 요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정하는 것 중의 하나를 만족하였을 때 대화의 표시를 제공하는 음성활동 탐지기를 포함하는 장치(1).
  2. 제1항에 있어서, 상기 음성활동 탐지기(6)는 상기 제 1요소(6.3.1)가 상기 신호에 하이패스 특성이 있지 않다고 결정하고 상기 제 2요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 가지고 있다고 결정할 때 잡음의 표시를 제공하는 음성활동 탐지기(6)를 포함하는 장치.
  3. 제1항 또는 제2항에 있어서, 상기 음성활동 탐지기(6)는 또한 상기 신호의 주파수 특성을 조사하고 상기 조사에 기초하여 스펙트럼 거리 탐지 데이터를 산출하기 위한 스펙트럼 거리 음성활동 탐지기(spectral distance voice activity )(6.2) 를 포함하고, 상기 스펙트럼 거리 탐지 데이터는 대화의 표시 또는 잡음의 표시를 제공하는 음성활동 탐지기를 포함하는 장치.
  4. 제1항,제2항 또는 제3항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 또한 상기 신호의 자기상관 특성을 조사하고 상기 조사에 기초하여 자기상관 데이터를 산출하기 위한 자기상관 음성활동 탐지기(6.1)을 포함하고, 상기 스펙트럼 거리 음성 활동 탐지기(6.2)는 상기 자기상관 탐지 데이터가 대화를 표시하지 않을 때 상기 스펙트럼 거리 탐지 데이터를 산출하는 음성활동 탐지기(6)를 포함하는 장치.
  5. 제4항에 있어서, 상기 음성활동 탐지기(6)는 다른 음성활동 탐지기들의(6.1,6.2,6.3) 표시들의 조합에 기초한 결정 신호를 발생하는 결정 블록(6.6)을 포함하는 음성활동 탐지기를 포함하는 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 디지털 데이터의 현재 및 이전의 프레임에 대응하는 1 차 예보자
    Figure 112007017070657-PCT00054
    를 계 산하고, 이때 상기 예보자 계수 a 는 식
    Figure 112007017070657-PCT00055
    로 계산되는 음성활동 탐지기(6)를 포함하는 장치.
  7. 제6항에 있어서, 상기 음성활동 탐지기(6)는 대화의 표시를 제공하는데 조사 결과를 사용하기 위해 상기 예보자 계수 a의 값이 미리 결정된 값보다 같거나 작은지 조사하는 제 1 요소(6.3.1) 를 포함하는 음성활동 탐지기를 포함하는 장치.
  8. 제7항에 있어서, 상기 음성활동 탐지기(6)는 가중된 스펙트럼 예측치를 계산하고 비교 결과를 잡음 또는 대화의 표시를 제공하는데 사용하기 위해 가중된 스펙트럼의 최대값과 최소값을 두 번째 미리 결정된 값과 비교하는 제 2요소(6.3.2)를 포함하는 음성활동 탐지기를 포함하는 장치.
  9. 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화 신호 내에서의 음성활동을 탐지하기 위한 음성 활동 탐지기(6)로서, 상기음성활동 탐지기는:
    -조사하기 위한 제 1 요소(6.3.1) 및
    -신호의 진동 스펙트럼을 조사하기 위한 제 2요소(6.3.2)
    를 포함하고,
    음성활동 탐지기가 다음 조건
    - 상기 제 1 요소(6.3.1) 가 상기 신호에 하이패스 특성이 있다고 결정하거나
    - 상기 제 2 요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정하는 것 중의 하나를 만족하였을 때 대화(speech)의 표시를 제공하는 음성활동 탐지기.
  10. 제9항에 있어서, 상기 음성활동 탐지기(6)는 또한 상기 제 1요소(6.3.1)가 상기 신호에 하이패스 특성이 있지 않다고 결정하고 상기 제 2요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 가지고 있다고 결정할 때 잡음의 표시를 제공하는 음성활동 탐지기.
  11. 제9항 또는 제10항에 있어서, 상기 음성활동 탐지기(6)는 또한 신호의 주파수 특성을 조사하고 상기 조사에 기초한 스펙트럼 거리 탐지 데이터를 산출하기 위한 스펙트럼 거리 음성활동 탐지기(6.2)를 포함하고, 상기 스펙트럼 거리 탐지 데이터는 대화의 표시 또는 잡음의 표시를 제공하는 음성활동 탐지기.
  12. 제9항,제10항 또는 제11항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 또한 상기 신호의 자기상관 특성을 조사하고 상기 조사에 기초하여 자기상관 탐지 데이터를 산출하기 위한 자기상관 음성활동 탐지기(6.1)를 포함하고, 상기 스 펙트럼 거리 음성 활동 탐지기(6.2)는 상기 자기상관 탐지 데이터가 대화를 표시하지 않을 때 상기 스펙트럼 거리 탐지 데이터를 산출하는 음성활동 탐지기.
  13. 제12항에 있어서, 상기 음성활동 탐지기(6)는 상기 다른 음성활동 탐지기들의(6.1,6.2,6.3) 표시들의 조합에 기초한 결정 신호를 형성하는 결정 블록(6.6)을 포함하는 음성활동 탐지기.
  14. 제12항 또는 제13항에 있어서, 상기 스펙트럼 거리 탐지 데이터는 자기상관 계수들을 포함하고, 상기 제 1요소(6.3.1)는 상기 신호의 하이패스 특성을 결정하는 상기 자기상관 계수들을 조사하는 음성활동 탐지기.
  15. 제9항 내지 제14항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 디지털 데이터의 현재 및 이전의 프레임에 대응하는 1차 예보자
    Figure 112007017070657-PCT00056
    를 계산하고, 이때 상기 예보자 계수 a 는 식
    Figure 112007017070657-PCT00057
    로 계산되는 음성활동 탐지기.
  16. 제15항에 있어서, 상기 음성활동 탐지기(6)는 대화의 표시를 제공하는데 조사 결과를 사용하기 위해 상기 예보자 계수 a의 값이 미리 결정된 값보다 같거나 작은지 조사하는 제 1 요소(6.3.1) 를 포함하는 음성활동 탐지기.
  17. 제16항에 있어서, 상기 음성활동 탐지기(6)는 가중된 스펙트럼 예측치를 계산하고, 비교 결과를 잡음 또는 대화의 표시를 제공하는데 사용하기 위해 가중된 스펙트럼의 최대값과 최소값을 두 번째 미리 결정된 값과 비교하는 제 2요소(6.3.2)를 포함하는 음성활동 탐지기.
  18. 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화 신호 내에서 음성활동 탐지를 위한 음성 활동 탐지기(6)를 포함하는 시스템으로서, 상기 시스템의 음성활동 탐지기는:
    -신호에 하이패스 특성이 있는지 조사하기 위한 제 1 요소(6.3.1) 및
    -신호의 주파수 스펙트럼을 조사하기 위한 제 2요소(6.3.2)
    를 포함하고,
    상기 음성활동 탐지기(6) 다음 조건
    - 상기 제 1 요소(6.3.1) 가 상기 신호가 하이패스 특성이 있다고 결정하거나
    - 상기 제 2 요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정하는 것 중의 하나를 만족하였을 때 대화(speech)의 표시를 제공하는 음성활동 탐지기를 포함하는 시스템.
  19. 제18항에 있어서, 음성활동 탐지기는 또한 상기 제 1요소(6.3.1)가 상기 신호에 하이패스 특성이 있지 않다고 결정하고 상기 제 2요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 가지고 있다고 결정할 때 잡음의 표시를 제공하는 음성활동 탐지기를 포함하는 장치.
  20. 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화신호 내에서 음성 활동을 탐지하기 위한 방법으로서;
    -상기 신호에 하이패스 특성이 있는지 조사하기 위한 단계,
    -상기 신호의 주파수 스펙트럼을 조사하기 위한 단계, 및
    -상기 신호에 하이패스 특성이 있다고 결정되거나, 또는
    -상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정되는
    조건 중의 하나를 만족하였을 때 대화의 표시를 제공하는 단계
    를 포함하는 음성활동을 탐지하기 위한 방법.
  21. 제20항에 있어서, 상기 방법은 상기 신호에 하이패스 특성이 있지 않고 상기 신호가 편평한 주파수 응답이 있다고 결정할 때 잡음의 표시를 제공하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
  22. 제20항 또는 제21항에 있어서,상기 방법은 상기 신호의 주파수 특성을 조사 하는 단계 및 상기 조사에 기초하여 스펙트럼 거리 탐지 데이터를 산출하는 단계를 더 포함하고, 상기 스펙트럼 거리 탐지 데이터는 대화의 표시 또는 잡음의 표시를 제공하는 음성활동을 탐지하기 위한 방법.
  23. 제20항,제21항 또는 제22항 중 어느 한 항에 있어서, 상기 방법은 또한 상기 신호의 자기상관 특성을 조사하는 단계 및 상기 조사에 기초하여 자기상관 탐지 데이터를 산출하는 단계를 포함하고, 상기 자기상관 탐지 데이터가 대화를 표시하지 않을 때, 스펙트럼 거리 탐지 데이터를 산출하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
  24. 제23항에 있어서, 상기 방법은 상기 다른 음성 활동 탐지기들의 표시들의 조합에 기초하여 결정신호를 형성하는 단계를 더 포함하는 음성활동을 탐지하기 위한 방법.
  25. 제23항 또는 제24항에 있어서, 상기 스펙트럼 거리 탐지 데이터는 자기상관 계수들을 포함하고, 상기 방법은 상기 신호의 하이패스 특성을 결정하는 상기 자기상관 계수들을 조사하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
  26. 제20항 내지 제25항 중 어느 한 항에 있어서, 상기 방법은 상기 디지털 데이터의 현재 및 이전 프레임에 대응하는 1차 예보자
    Figure 112007017070657-PCT00058
    를 계산하는 단계, 이때 상기 예보자 계수 a 는 식
    Figure 112007017070657-PCT00059
    로 계산되는 음성활동을 탐지하기 위한 방법.
  27. 제26항에 있어서, 상기 방법은 상기 예보자 계수 a의 값이 상기 미리 결정된 값보다 같거나 작은지 조사하는 단계 및 대화의 표시를 제공하는데 상기 조사 결과를 사용하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
  28. 제27항에 있어서, 상기 방법은 가중된 스펙트럼 예측치를 계산하는 단계 및 상기 가중된 스펙트럼의 최대값과 최소값을 두 번째 미리 결정된 값과 비교하는 단계 및 비교 결과를 잡음 또는 대화의 표시를 제공하는데 사용하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
  29. 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화 신호 내에서의 음성활동 탐지기를 탐지하기 위한 기계에 의해 실행가능한 단계들을 포함하는 컴퓨터 프로그램 생성물으로서,
    -신호에 하이패스 특성이 있는지 조사하는 단계,
    -신호의 주파수 스펙트럼을 조사하는 단계 및
    -상기 신호에 하이패스 특성이 있거나 또는
    -상기 신호가 편평한 주파수 응답이 있지 않다는
    조건 중의 하나를 만족했을 때 대화의 표시를 제공하는 단계
    를 포함하는 기계에 의해 실행가능한 단계들을 포함하는 컴퓨터 프로그램 생성물.
  30. 제29항에 있어서, 상기 신호에 하이패스 특성이 없고 상기 신호가 편평한 주파수 특성을 가질 때 잡음의 표시를 제공하는 기계에 의해 실행 가능한 단계를 포함하는 컴퓨터 프로그램 생성물.
KR1020077004802A 2004-08-30 2005-08-29 오디오 신호 내에서 음성활동 탐지 KR100944252B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20045315A FI20045315A (fi) 2004-08-30 2004-08-30 Ääniaktiivisuuden havaitseminen äänisignaalissa
FI20045315 2004-08-30

Publications (2)

Publication Number Publication Date
KR20070042565A true KR20070042565A (ko) 2007-04-23
KR100944252B1 KR100944252B1 (ko) 2010-02-24

Family

ID=32922176

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077004802A KR100944252B1 (ko) 2004-08-30 2005-08-29 오디오 신호 내에서 음성활동 탐지

Country Status (6)

Country Link
US (1) US20060053007A1 (ko)
EP (1) EP1787285A4 (ko)
KR (1) KR100944252B1 (ko)
CN (1) CN101010722B (ko)
FI (1) FI20045315A (ko)
WO (1) WO2006024697A1 (ko)

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2089877B1 (en) 2006-11-16 2010-04-07 International Business Machines Corporation Voice activity detection system and method
US20080147389A1 (en) * 2006-12-15 2008-06-19 Motorola, Inc. Method and Apparatus for Robust Speech Activity Detection
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
WO2009130388A1 (en) * 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
SI3493205T1 (sl) 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
JP5643686B2 (ja) * 2011-03-11 2014-12-17 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
US20140006019A1 (en) * 2011-03-18 2014-01-02 Nokia Corporation Apparatus for audio signal processing
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和***
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) * 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN103280225B (zh) * 2013-05-24 2015-07-01 广州海格通信集团股份有限公司 一种低复杂度的静音检测方法
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
GB2519379B (en) 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
JP6339896B2 (ja) * 2013-12-27 2018-06-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置および雑音抑圧方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
CN105810201B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 语音活动检测方法及其***
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108039182B (zh) * 2017-12-22 2021-10-08 西安烽火电子科技有限责任公司 一种语音激活检测方法
TWI692970B (zh) * 2018-10-22 2020-05-01 瑞昱半導體股份有限公司 影像處理電路及相關的影像處理方法
TWI736206B (zh) * 2019-05-24 2021-08-11 九齊科技股份有限公司 音頻接收裝置與音頻發送裝置
DE102019133684A1 (de) 2019-12-10 2021-06-10 Sennheiser Electronic Gmbh & Co. Kg Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung
EP4100949A1 (en) * 2020-02-04 2022-12-14 GN Hearing A/S A method of detecting speech and speech detector for low signal-to-noise ratios
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
CN111755028A (zh) * 2020-07-03 2020-10-09 四川长虹电器股份有限公司 一种基于基音特征的近场遥控器语音端点检测方法及***
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及***
CN113470621B (zh) * 2021-08-23 2023-10-24 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备
CN116935900A (zh) * 2022-03-29 2023-10-24 哈曼国际工业有限公司 语音检测方法
CN114566152B (zh) * 2022-04-27 2022-07-08 成都启英泰伦科技有限公司 一种基于深度学习的语音端点检测方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
BR8907308A (pt) * 1988-03-11 1991-03-19 British Telecomm Aparelho detector da atividade vocal,processo para a deteccao da atividade vocal,aparelho para a codificacao de sinais da fala e aparelho telefonico movel
JPH0398038U (ko) * 1990-01-25 1991-10-09
EP0511488A1 (de) * 1991-03-26 1992-11-04 Mathias Bäuerle GmbH Papierfalzmaschine mit einstellbaren Falzwalzen
US5383392A (en) * 1993-03-16 1995-01-24 Ward Holding Company, Inc. Sheet registration control
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
IN184794B (ko) * 1993-09-14 2000-09-30 British Telecomm
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
AU3352997A (en) * 1996-07-03 1998-02-02 British Telecommunications Public Limited Company Voice activity detector
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6647365B1 (en) * 2000-06-02 2003-11-11 Lucent Technologies Inc. Method and apparatus for detecting noise-like signal components
US6611718B2 (en) * 2000-06-19 2003-08-26 Yitzhak Zilberman Hybrid middle ear/cochlea implant system
US20020103636A1 (en) * 2001-01-26 2002-08-01 Tucker Luke A. Frequency-domain post-filtering voice-activity detector
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction

Also Published As

Publication number Publication date
EP1787285A4 (en) 2008-12-03
CN101010722A (zh) 2007-08-01
CN101010722B (zh) 2012-04-11
EP1787285A1 (en) 2007-05-23
FI20045315A (fi) 2006-03-01
US20060053007A1 (en) 2006-03-09
FI20045315A0 (fi) 2004-08-30
KR100944252B1 (ko) 2010-02-24
WO2006024697A1 (en) 2006-03-09

Similar Documents

Publication Publication Date Title
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US8380497B2 (en) Methods and apparatus for noise estimation
US7058572B1 (en) Reducing acoustic noise in wireless and landline based telephony
US6529868B1 (en) Communication system noise cancellation power signal calculation techniques
JP4307557B2 (ja) 音声活性度検出器
US6766292B1 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
US6523003B1 (en) Spectrally interdependent gain adjustment techniques
KR101009854B1 (ko) 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
US20050108004A1 (en) Voice activity detector based on spectral flatness of input signal
US20020165713A1 (en) Detection of sound activity
US6671667B1 (en) Speech presence measurement detection techniques
JP2010061151A (ja) 雑音環境のための音声活動検出器及び有効化器
Enqing et al. Voice activity detection based on short-time energy and noise spectrum adaptation
Sakhnov et al. Approach for Energy-Based Voice Detector with Adaptive Scaling Factor.
US20120265526A1 (en) Apparatus and method for voice activity detection
Sakhnov et al. Dynamical energy-based speech/silence detector for speech enhancement applications
US8788265B2 (en) System and method for babble noise detection
EP3748636A1 (en) Voice processing device and voice processing method
KR100284772B1 (ko) 음성 검출 장치 및 그 방법
Asgari et al. Voice activity detection using entropy in spectrum domain
Sakhnov et al. Low-complexity voice activity detector using periodicity and energy ratio
Chen et al. A Support Vector Machine Based Voice Activity Detection Algorithm for AMR-WB Speech Codec System
Sumithra et al. ENHANCEMENT OF NOISY SPEECH USING FREQUENCY DEPENDENT SPECTRAL SUBTRACTION METHOD

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130207

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140206

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150205

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee