KR20070042565A

KR20070042565A - 오디오 신호 내에서 음성활동 탐지

Info

Publication number: KR20070042565A
Application number: KR1020077004802A
Authority: KR
Inventors: 리타 니에미스퇴
Original assignee: 노키아 코포레이션
Priority date: 2004-08-30
Filing date: 2005-08-29
Publication date: 2007-04-23
Also published as: EP1787285A4; CN101010722A; CN101010722B; EP1787285A1; FI20045315A; US20060053007A1; FI20045315A0; KR100944252B1; WO2006024697A1

Abstract

장치는 오디오 신호의 샘플을 기초하여 형성된 디지털 데이터를 사용하는 음성 신호 내에서 음성 활동을 탐지하기 위한 음성 활동 탐지기를 포함한다. 음성활동탐지기는 신호에 하이패스 특성이 있는지 조사하는 제1요소(6.3.1)를 포함한다. 음성활동탐지기는 또한 신호의 주파수 스펙트럼을 조사하는 제2요소(6.3.2)를 포함한다. 음성활동탐지기는 제1요소(6.3.1)가 신호가 하이패스 특성이 있다고 결정하거나 제2요소(6.3.2)가 신호가 편평한 주파수 응답이 없다고 결정할 때 대화의 표시를 제공한다.

Description

오디오 신호 내에서 음성활동 탐지{Detection of voice activity in an audio signal}

본 발명은 오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 연설 신호 안에서의 음성 활동을 탐지하기 위한 음성활동 탐지기를 포함하는 장치와 관련되어 있다. 발명은 또한 방법, 시스템, 장치 그리고 컴퓨터 프로그램 생성물과 관련되어 있다.

많은 디지털 오디오 프로세싱 시스템들에서 음성활동 탐지기는 예컨대 잡음 억제 내의 잡음 평가와 같은 대화 강화(speech enhancement)를 수행하기 위해 쓰이고 있다. 대화 강화의 목적은 디지털 신호로서 표현된 대화의 질을 개선하기 위한 수학적 방법을 사용하기 위함이다. 디지털 오디오 프로세싱 장치들에서 대화는 보통 짧은 프레임( 전형적으로 10-30ms)으로 처리되고 음성활동 탐지기는 각각의 프레임을 시끄러운 대화 프레임 또는 잡음 프레임으로 분류한다. 국제 특허 출원공개 제WO 01/37265호는 셀룰라 통신 네트워크(cellular communications network) 와 모바일 터미널 사이에의 통신 경로 안의 신호에서 잡음을 억제 방법을 제시한다. 음성활동탐지기(VAD)는 오디오 신호 안에 대화 또는 단지 잡음이 있을 때를 표시하기 위해 사용한다. 장치 안에서 잡음 억제기의 동작은 음성활동 탐지기의 질 에 의존한다.

이 잡음은 사용자 주위에서 발생하는 환경 및 음향 배경 잡음(background noise) 또는 통신 망 자체 안에 생성되는 전자 성격의 잡음일 수 있다.

전형적인 잡음 억제기는 주파수 영역 안에서 운영한다. 시간영역 신호는 우선 고속 푸리에 변환(Fast Fourier transform(FFT))을 사용하여 능률적으로 실행될 수 있는 주파수 영역으로 변환된다. 음성 활동은 시끄러운 대화에서 탐지되어야 하고, 어떤 음성활동도 탐지되지 않을 때, 잡음의 스펙트럼이 예측된다. 그러면 현재 입력 신호 스펙트럼 및 잡음 예측을 기초로 하여 잡음 억제 이익 계수가 산출된다. 마지막으로, 신호는 역FFT(IFFT)을 사용하여 시간영역으로 다시 변환된다. 음성 활동 탐지는 시간영역 신호, 주파수 영역 신호 또는 양쪽 모두에 기초를 둘 수 있다.

시간 영역 안에 깨끗한 대화신호는

로 시끄러운 대화 신호는

로 표시될 수 있으며, 여기서

는 신호를 열화시키는 부가된 잡음신호이다. 강화된 대화는

로 표시될 수 있고 잡음 억제의 임무는 그것을 가능한 (알려지지 않은) 깨끗한 대화 신호에 가깝도록 만드는 것이다. 근접성(closeness)은 첫 번째로 약간의 수학적 에러 기준(예를 들면 최소의 평균제곱 오차 (mean squred error))에 의해 정의된다. 그러나 어떤 하나의 만족하는 기준도 없으므로, 근접성은 결국은 주관적으로 평가되어야만 하거나, 듣고 있는 테스트의 결과를 예측하는 한 세트의 수학적 방법을 사용하여야만 한다. 표기

,

그리고

는 주파수 영역에서 신호의 이산 시간 푸리에 변환을 의미한다. 실제로, 신호는 주파수 영역 내의 제로에 패딩된 중첩 프레임에서 처리되고; 주파수 영역 값은 FFT를 사용해서 수치가 구해진다. 표기

, 및

은 프레임 n (즉,

) 내의 불 연속한 한 세트의 주파수 빈에서 측정된 스펙트럼의 값을 나타낸다.

종래의 잡음 억압기에서 대화 강화는 잡음을 검출하는 것과 어떤 대화 활동도 검출 되지 않을 때 다음 규칙에 따른 잡음 예측을 갱신하는 것에 근거를 두고 있다.

(이 때

은 시끄러운 대화이고

은 0과 1 사이(보통, 0보다 1에 가까운 값)의 평탄화 파라미터(smoothing parameter) 이고

은 잡음 예측을 나타낸다. 지수

와

는 각각 주파수 빈과 프레임을 나타낸다. 기초가 되는 가정은 대화의 주파수 내용이 잡음의 주파수 내용보다 더 빠르게 변화한다는 것과 VAD가 잡음 예측을 충분히 자주 갱신하기 위하여 충분한 잡음을 검출한다는 것이다. 이와 같이, 음성활동탐지기는 억제되는 잡음의 평가에 중대한 역할을 한다. VAD가 잡음을 표시할 때 잡음 예측은 갱신된다.

갑작스런 변화가 잡음 레벨 안에 존재할 때 잡음과 대화의 식별은 더 어렵게 된다. 예를 들면, 엔진이 휴대 전화 근처에서 시동되면 잡음 레벨이 빠르게 증가한다. 장치의 음성활동탐지기는 이 잡음 레벨 증가를 대화의 시작으로 해석할지도 모른다. 그러므로, 잡음은 대화로서 해석되고 잡음 예측은 갱신되지 않는다. 또한 잡음이 많은 환경에 문을 열면 잡음 레벨이 갑자기 올라갈 수 있다. 음성활동 탐지기는 그것을 대화의 시작 또는 일반적으로 음성활동의 시작으로 해석할 수도 있다.

국제특허공개공보 제 WO 01/37265 호에 따르면 음성활동 탐지기 안에서 음성활동 탐지는 현재의 프레임의 평균 파워와 잡음 예측의 평균 파워를 비교하고 합계 비교하고 합계 귀납 SNR(sum a posteriori SNR)

와 미리 결정된 문턱값(threshold) 을 비교하여 수행된다.

갑자기 잡음 레벨이 상승하는 경우, 검출기는 대화로서 분류한다. 그러므로, 정지를 측정하는 방법은 복구를 위해 사용된다. 그러나, 대화의 발성된 음소는 전형적으로 음소 사이의 작은 중지보다 길다. 따라서 중지가 어떤 음소보다 길 지 않는 한 정지측정은 믿을 수 있게 잡음으로 분류될 수 없다. 전형적으로, 상승하는 잡음 레벨에 반응하는 데는 몇 초가 걸린다

.

직접적이긴 하지만 계산을 요구하는 음성 활동 탐지 결정 방법은 프레임 안에 자기 상관 (autocorrelation) 계수를 계산함으로써 대화 프레임 안에서 주기성을 탐지하는 것이다. 정기적인 신호의 자기상관은 신호의 주기에 해당하는 지체 영역 안의 주기에 대해서 또한 주기적이다. 인간 대화의 기본 주파수는 범위[50,500] Hz 이다. 이것은 8000 Hz의 샘플링 주파수를 위한 범위[16,160] 내의 그리고 16000Hz 샘플링 주파수를 위한 범위[32,320] 내의 자기상관 지체 영역내의 주기성에 상응한다 . 표음된 대화 프레임의 자기 상관 관계 계수들이(지연 0에서 계수에 의해 정규화되는) 그 범위들 안에서 계산되면 자기상관계수들은 주기적이라고 예상되고 발성된 대화의 기본 주파수에 대응하는 지체에서 최대 값이 발견되어야 한다. 대화 안의 기본 주파수의 가능한 값들에 대응하는 정규화된 자기 상관 계수들의 최대 값이 소정의 문턱 값보다 높으면 그 프레임은 대화로 분류된다. 이러한 종류의 음성 활동 탐지는 자기상관 VAD으로 지칭 될 수 있다. 탐지될 대화의 기본 주기에 비교하여 대화 프레임의 길이가 충분하게 길면 자기 상관 VAD는 발성된 음성을 비교적 정확하게 탐지할 수 있다, 그러나 표음되지 않은 음성은 탐지할 수 없다.

과학 출판물들에는 또한 음성활동을 탐지하기 위해 제시된 다른 방법들이 제 시되어 있다. 예컨대 S. Gazoor and W. Zhang, " soft voice activity detector based on a Laplacian-Gaussian model", IEEE Trans. Speech and Audio Processing, vol. 11 no 5, pp. 498-05, September 2003; 그리고 M. Marzinzik and B. Kollmeier, " Speech pause detection for noise spectrum estimation by tracking power envelope dynamics", IEEE Trans. Speech and Audio Processing, vol. 10 no 2, pp. 109-18, February 2002.이다. 그것들은 일반적으로 높은 순서 통계(Higher order statistics) 또는 대화 존재 및 부재 확률을 계산하는 상당히 복잡한 스킴들(schemes)이다. 일반적으로 그들은 구현하는데 계산적으로 매우 소모적이고, 정확한 잡음 평가를 위한 충분한 잡음을 발견하는 것보다 오히려 프레임 안에서 모든 대화를 발견하는 것을 의도한다. 그러므로, 그들은 대화 코딩 애플리케이션에 더 적합하다.

본 발명은 잡음 파워가 갑자기 오르는 경우 음성활동 탐지를 개선하려고 노력한다. 이 경우 선행 기술 방법은 잡음 프레임을 대화로서 종종 분류한다.

본 발명에 따르는 음성 활동 검출기는 본 출원에서 스펙트럼의 편평도 VAD(spectral flatness VAD) 로 지칭한다. 본 발명의 스펙트럼 편평도 VAD는 형체를 잡음이 섞인 대화 스펙트럼의 형태를 고려한다. 스펙트럼이 편평한 경우와 스펙트럼이 로우패스 특성이 있는 경우, 스펙트럼 편평도 VAD는 프레임을 잡음으로 분류한다. 근본적인 가정은 표음된 음소는 편평한 스펙트럼을 갖지 않고 상당히 명확한 포먼트(formant) 주파수를 갖는다는 것과 표음되지 않은 음소는 약간 편평한 스펙트럼을 가지나 하이패스 특성이 있다는 것이다. 본 발명에 따르는 음성 활동 탐지는 시간 도메인 신호 그리고 주파수 도메인 신호에 근거한다.

본 발명에 따르는 음성활동 탐지기는 단독으로 또는 자기상관 VAD 또는 스펙트럼 거리 VAD와 조합하여 또는 전기의 두 가지 VAD 모두와 조합하여 사용될 수 있다. 3가지 다른 종류의 VAD의 조합에 따르는 음성활동 탐지는 3 단계로 운영된다. VAD 결정은 우선 대화에 전형적인 주기성을 탐지하는 자기상관 VAD를 사용하여 VAD 결정을 수행하고, 스펙트럼 거리 VAD로 VAD 결정을 하여 자기 상관 VAD는 잡음으로서 분류하나 스펙트럼의 거리 VAD가 대화로서 분류하는 경우, 최종적으로 스펙트럼의 평탄 VAD를 사용하여 VAD 결정을 하게 된다. 발명의 약간 더 단순한 실시 예에 따르면 자기상관 VAD 없이 스펙트럼의 편평도 VAD가 스펙트럼의 거리 VAD와 관련하여 사용된다.

본 발명은 오디오 신호의 스펙트럼 그리고 주파수 내용은 필요한 경우 오디오 신호 내에 대화 또는 단지 잡음만이 있는지 결정하기 위하여 조사된다는 아이디어에 기초하고 있다. 더 명확히 한다면, 본 발명에 따르는 장치는 우선적으로 장치의 음성활동 탐지기가 신호에 하이패스 특성이 있는지 조사하는 제1요소와 신호의 주파수 스펙트럼을 조사하기 위한 제 2요소를 포함함을 특징으로 하고 있다. 상기 음성활동 탐지기는 상기 제1요소가 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 제 2요소가 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나가 충족되었을 때 대화의 표시를 제공한다

본 발명에 따르는 장치는 우선적으로 음성활동 탐지기가 신호에 하이패스 특성이 있는지 조사하는 제1요소와 신호의 주파수 스펙트럼을 조사하는 제 2요소를 포함함을 특징으로 하고 있다. 상기 음성활동 탐지기는 상기 제1요소가 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 제 2요소가 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나를 충족되었을 때 대화의 표시를 제공한다.

본 발명에 따르는 시스템은 우선적으로 시스템의 음성활동 탐지기가 신호에 하이패스 특성이 있는지 조사하는 제1요소와 신호의 주파수 스펙트럼을 조사하는 제 2요소를 포함함을 특징으로 하고 있다. 상기 음성활동 탐지기는 상기 제1요소가 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 제 2요소가 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나를 충족되었을 때 대화의 표시를 제공한다.

본 발명에 따르는 방법은 우선적으로 신호에 하이패스 특성이 있는지 조사하는 단계, 신호의 주파수 스펙트럼을 조사하는 단계 및 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나를 만족하였을 때 대화의 표시를 제공하는 단계를 포함한다.

본 발명에 따르는 컴퓨터 프로그램 생성물은 우선적으로 컴퓨터 프로그램 생성물이 신호에 하이패스 특성이 있는지 조사하는 단계, 신호의 주파수 스펙트럼을 조사하는 단계 및 상기 신호에 하이패스 특성이 있다고 결정하거나 또는 상기 신호가 편평한 주파수 응답이 있지 않다고 결정하는 조건 중의 하나가 충족되었을 때 대화의 표시를 제공하는 단계 포함한다.

본 발명은 잡음 레벨에 급격한 변화가 존재하는 환경에서 잡음과 대화 구별 능력을 개량할 수 있다. 본 발명품에 따른 음성 활동 탐지는 잡음 파워가 급격하게 상승하는 경우에 기존의 방법보다 오디오 신호를 더 잘 분류할 수도 있다. 모바일 단말기 내에서 동작하는 잡음 억제기에서, 본 발명은 개량한 잡음 감쇠 때문에 대화의 인지성과 쾌적성을 개량할 수 있다. 예를 들면 엔진이 가동될 때 또는 잡음이 많은 환경에 문이 열릴 때, 본 발명은 또한 잡음 스펙트럼의 정적 특성들을 계산하는 종래 해결책에보다는 신속하게 갱신되게 할 수 있다. 그런데, 본 발명에 따른 음성 활동 탐지기는 때때로 너무 활동적인 대화를 잡음으로서 분류한다. 이러한 경우는 이동 통신에서 휴대전화기가 배경으로 아주 강한 왁자지껄한 소리가 있는 곳 있는 군중 내에서 사용될 때만 발생한다. 그런 상황은 어떤 방법을 사용해도 문제가 된다. 본 발명과 종래 기술의 차이는 배경 잡음이 급격히 증가하는 상황에서 명확하게 느낄 수 있다. 또한 본원 발명은 음량 제어에서 더 빠른 변화를 허용한다. 몇몇의 선행기술 구현에 있어서, 자동 이득 제어( automatic gain control)는 VAD 때문에 제한되서 18db까지 레벨을 점진적으로 올리는데 최소한 4.5초가 걸린다.

도 1은 본 발명의 실시 예에 따른 전자장치의 구조를 설명하는 블록도.

도 2는 본 발명의 실시 예에 따른 음성활동탐지기의 구조를 도시하는 도면.

도 3은 본 발명의 실시예에 따른 방법을 도시하는 흐름도.

도 4는 본 발명을 포함하는 시스템의 예를 도시하는 블록도.

도 5a은 표음된 음소의 스펙트럼의 예를 도시하는 도면.

도 5b는 차량 잡음의 스펙트럼의 예를 도시하는 도면.

도 5c은 비표음 자음의 스펙트럼의 예를 도시하는 도면.

도 5d는 잡음 스펙트럼의 가중효과를 도시하는 도면.

도 5e는 표음된 대화 스펙트럼의 가중 효과를 도시하는 도면.

도 6a,6b 그리고 6c는 음성활동 탐지기의 다른 실시 예들을 도시하는 단순화된 도면.

본 발명은 도 1의 전자 장치 및 도 2의 음성 활동 탐지기를 참조하여 더 자세히 기술될 것이다. 이 실시 예에서 전자 장치 (1)은 무선 통신 장치이나 본 발명이 무선 통신 장치에만 제한되지 않는 것은 명백하다. 전자 장치 (1)는 처리될 오디오 신호를 입력하기 위한 오디오 입력 (2)을 포함한다. 오디오 입력 (2)은, 예를 들면, 마이크이다. 필요한 경우, 오디오 신호는 증폭기 (3)에 의해 증폭되고, 강화된 오디오 신호를 발생시키기 위하여 잡음 억제가 또한 실행될 수도 있다. 오디오 신호는 한 번에 처리되는 오디오 신호의 소정 길이를 의미하는 대화 프레임으로 분할된다. 프레임의 길이는 보통 수 밀리초 (milliseconds)로서, 예를 들면 10ms 또는 20ms이다. 오디오 신호는 또한 아날로그/디지털 변환기 (4)(A/D)에서 디지털 신호로 변환된다. 아날로그/디지털 변환기 (4)는 소정 주기로 즉 다시 말해 소정 샘플링 속도로 오디오 신호로부터 샘플을 형성한다. 아날로그/ 디지털 변환 후에 대화 프레임은 한 세트의 샘플들에 의해 표현된다. 전자 장치 (1)은 또한 오디오 신호 처리가 적어도 부분적으로 실행되는 대화 프로세서(speech processor)(5)를 포함하고 있다. 대화 프로세서 (5)는, 예를 들면, 디지털 신호 처리기 (DSP) 이다. 대화 프로세서는 또한 업링크 내에서 및/또는 다운링크 내에서의 반향 제어 (echo control)과 같은 다른 동작들을 포함할 수 있다.

도 1의 장치 (1)은 또한 대화 프로세서 (5) 및 다른 제어 동작( controlling operation) 들이 실행될 수 있는 제어 블록 (13), 키보드 (14), 디스플레이 (15), 및 메모리 (16)를 포함한다.

오디오 신호의 샘플들은 대화 프로세서 (5)에 입력된다. 대화 프로세서 (5)내에서 샘플들은 프레임 단위로 처리된다. 처리는 시간영역 또는 주파수 영역 또는 양쪽 모두에서 실행될 수도 있다. 잡음 억제과정에서 신호는 전형적으로 주파수 영역 내에서 처리되고 각 주파수 대역(band)는 이익(gain) 계수에 의해 가중된다. 이익 계수의 값은 잡음이 많은 대화의 레벨 및 잡음 레벨 예측치

에 의존한다. 음성 활동 탐지는 잡음 레벨 예측을 갱신하기 위해 필요하다.

현재 프레임의 샘플들이 대화 또는 비대화 신호를 포함하는지를 표시하기 위해 음성 활동 탐지기 (6)는 대화 샘플들을 조사한다. 음성 활동 탐지기(6)이 신호가 대화를 포함하고 있지 않다고 표시할 때, 이 표시는 표시를 이용하여 잡음 스펙트럼을 조사하거나 갱신할 수 있는 잡음 평가기 (19)(noise estimator 19)에 입력 된다. 신호 내에 잡음을 억제하기 위하여 잡음 억제기 (20)는 잡음의 스펙트럼을 이용한다. 잡음 평가기 (19)는 예를 들어 배경 평가 매개변수(background estimation parameter)에 관하여 음성 활동 탐지기 (6)에게 피드백을 줄 수도 있다. 전송을 위해 대화를 부호화하기 위해 장치 1은 또한 인코더 (7)을 함유할 수 도 있다.

부호화된 대화(the encoded speech)는 예컨대 전송기(8)에 의하여 채널 부호화되어 이동통신망(mobile communication network) 와 같은 통신 채널 (17)을 경유하여 무선 통신 장치와 같은(도 4) 또 하나의 전자 장치 (18)로 전송된다.

전자 장치 (1)의 수신부에는 통신 채널(17)로부터 수신하기 위한 수신기 (9) (receiver 9)가 있다. 수신기 (9)는 채널 복호화를 실행하고 채널 복호화된 신 호를 대화 프레임을 복구하는 디코더 (10)에 전달한다. 대화 프레임 및 잡음은 디지털/아날로그 변환기 (11)(D/A)에 의해 아날로그 신호로 변환된다. 아날로그 신호는 스피커 또는 이어폰 (12)에 의해 가청신호로 변환될 수 있다.

아날로그/디지털 변환기에서 8000Hz의 샘플링 주파수가 사용된다고 가정하는데 이 때 가용한 주파수 범위는 보통 대화에 충분한 약 0에서 4000Hz이다. 4000Hz보다 높은 주파수가 디지털 형태로 변환되는 신호 내에 존재할 수 있을 때, 8000Hz이상 예컨대 16000Hz의 다른 샘플링 주파수를 사용하는 것 또한 가능하다.

이하에서 본 발명의 이론적 배경이 더 자세히 설명된다. 첫째, 1개의 표음된 음소 (낱말'men'에서 'ee'와 같은)동안에 대화 샘플의 스펙트럼이 고려된다. 그들 사이에는 포만트 주파수들과 밸리(valley)들이 있고 표음된 대화의 경우 기초 주파수, 그것의 고조파 및 고조파들 사이의 밸리들이 또한 존재한다. 국제 특허공개 공보 WO 01/37265 호에서 공개된 선행 기술 잡음 억압기에서 0부터 4 kHz의 주파수 범위가 균등하지 않은 폭을 갖는 12 계산 주파수대역(부대역)으로 나누어진다. 그리하여, 스펙트럼은 억제에서 사용되는 이득 함수 (gain fuction)을 계산하기 이전에 어떤 불규칙한 부분이 높은 정도로 평탄화된다. 그러나 그림 5.1에서 도시되는 바와 같이 어떤 불규칙한 부분이 남는다. 도 5a은 표음된 음소('ee')의 스펙트럼의 예를 설명한다. 첫 번째 곡선은 75ms의 프레임(FFT 길이 512) 상에서 계산되고, 두 번째 곡선은 10ms의 프레임 상(FFT 길이128)의 길이에서 계산되고, 그리고 세 번째 곡선은 10ms 의 프레임 상에서 계산되고 주파수 그룹화(grouping)에 의해 평탄화된다.

잡음의 경우에 차량 잡음의 스펙트럼의 예를 설명하는 도.5.2에서 볼 수 있다시피 스펙트럼이 더 평탄하다. 첫 번째 곡선은 75ms의 프레임(FFT길이512) 상에서 계산되고, 두 번째 곡선은 10ms의 프레임(FFT길이128) 상에서 계산되고, 그리고 세번째 곡선은 주파수 그룹화에 의해 평탄화된 10ms의 프레임 상에서 계산된다. 모든 스펙트럼을 평탄하게 하면 이들은 도 5b에 도시된 바와 같이 하향하는 직선을 닮게된다. 표음되지 않은 자음의 경우에, 도 5c에서 설명되는 것과 같이, 스펙트럼은 또한 상당히 평탄하나 상향 형태를 갖는다. 도 5c은 표음되지 않은 자음 (낱말 통제(word control)내에서 음소't')의 스펙트럼의 보기를 설명한다. 첫 번째 곡선은 75의 프레임 상(FFT길이512)에서 계산되고, 두 번째 곡선은 10ms의 프레임 상(FFT길이128)에서 계산된다. 세 번째 곡선은 주파수 그룹화에 의해 평탄화된 10ms의 프레임 상에서 계산된다.

다음에는 본 발명에 따르는 스펙트럼 평탄 VAD 6.3의 실시 예의 동작이 설명된다. 첫 번째로, 현재와 이전의 프레임에 대응하고 있는 최적의 1차 예보자

가 시간 영역에서 계산된다. 예보자 계수 a는 식

에 의해서 현재 프레임 상에서 계산된다.

스펙트럼 평탄 VAD는 블록 6.3.1에서

인지 여부를 조사한다. 만약

이면 스펙트럼이 하이패스 특성이 있고 그것은 표음되지 않은 자음의 스펙트럼일 수 있는 것을 의미한다. 그러면 프레임은 대화로서 분류되고 스펙트럼 평탄 VAD 6.3은 대화의 표시를 출력한다. (예컨대 논리값 1).

만약

이면, 그러한 현재의 잡음이 많은 대화 스펙트럼 예측 값은 블록 6.3.2에서 가중화된다. 그러한 가중 동작은 대역의 중앙에 대응하는 코사인 함수의 값을 사용하는 주파수 그룹화 후에 주파수 도메인에서 실행된다. 가중 함수는

와 같다. 이 때

은 주파수대역의 중간 주파수를 가리킨다. 가중된 스펙트럼

의 최소값

및 최대값

을 비교하여 VAD결정을 내린다. 주파수 300Hz이하의 그리고 주파수 3400Hz 이상의 주파수에 해당하는 값들은 이 실시 예에서 생략된다. 만약

이면, 신호가 대화로 분류되는데 이때 비율은 대략

에 대응한다.

잡음과 표음된 대화 스펙트럼을 가중하는 효과는 도 5d 및 도 5e에 각각 도시되어 있다. 도시된 바와 같이 12 dB가 잡음과 대화를 구별하기 위한 충분한 문 턱값(threshold)이다

스펙트럼 평탄 VAD는 단독으로 사용될 수 있다, 그러나 주파수 도메인에서 운영되는 스펙트럼 거리 VAD와 연계하여 사용되는 것 또한 가능하다. 스펙트럼 거리 VAD는 대화로서 분류한다. 합계 귀납(posteriori) 신호 대 잡음 비(SNR)가 미리 정의된 문턱값(threshold) 보다 크면 대화로서 분류하고 배경 잡음 파워가 갑자기 상승하는 경우 모든 프레임을 잡음으로 분류한다. 더 상세한 설명은 국제특허공개공보 WO 01/37265 호에 기재되어 있다. 이와 같이, 스펙트럼 거리 VAD가 바르게 분류도록 잡음 예측치의 레벨을 갱신하기 위해 몇 번의 정확한 결정만 필요하므로 이 실시의 스펙트럼 평탄 VAD에서 문턱값(threshold)은 심지어 12 dB 미만일 수 있다. 대화 내의 잡음과 닮은 음소가 잡음으로 잘못 분류되는 작은 위험이 아직도 있다. 그러나, 잡음 평가에서 평탄화되는(smoothing) 매개변수

가 충분히 높다면. 이따금의 부정확한 결정은 잡음 억제 내의 대화 품질에 어떤 가청 효과도 미치지 않는다.

스펙트럼 거리 VAD와 스펙트럼 평탄 VAD는 또한 자기상관 VAD와 연계하여 사용될 수 있다. 이런 종류의 실시 예는 도 2에서 도시되어 있다. 자기상관 VAD는 계산이 많이 요구되나 표음된 대화를 검출하는 강력한 방법이다. 그리고 이 유형의 검출기는 다른 두 가지 유형의 VAD가 잡음으로서 분류하는 낮은 신호 대 잡음 비 로 대화를 검출할 수 있다. 또한, 때때로 표음된 음소는 명백히 주기적이나 상당히 편평한 스펙트럼을 가지고 있다. 그러므로, 자기 상관 VAD의 계산적 복잡성이 몇몇 적용(application)을 위해 너무 높을 수 있어도 고품질 잡음 억제를 위해, 모든 세 가지의 VAD 결정의 조합이 필요할 수도 있다..

음성 활동 검출기의 조합의 결정 논리는 진리표의 형태로 표현될 수 있다. 표 1은 자기상관 VAD 6.1, 스펙트럼 거리 VAD 6.2와 스펙트럼 편평도 VAD 6.3의 조합을 위한 진리표를 보여준다. 칼럼들은 다른 상황에서 다른 VAD의 결정을 표시한다. 가장 오른쪽 칼럼은 결정 논리(즉 음성 활동 탐지기 6의 출력)의 결과를 의미한다. 표에서 논리 값 0은 상응하는 VAD의 출력이 잡음임을 표시함을 의미하고 논리값 1은 상응하는 VAD의 출력이 대화임을 의미한다. 결정 논리가 표 1의 진리 테이블에 따르며 동작하는 한, 다른 VAD 6.1, 6.2, 6.3에서 만들어지는 결정의 순서는 결과에 어떠한 영향도 끼치지 않는다.

자기상관 VAD	스펙트럼 거리 VAD	스펙트럼 편평도 VAD	결정
0	0	0	0
0	0	1	0
0	1	0	0
0	1	1	1
1	0	0	1
1	0	1	1
1	1	0	1
1	1	1	1

표 1

또한, 스펙트럼 편평도 VAD 6.3의 내부 결정 논리는 표 2의 진리 표로서 나 타내게 될 수 있다. 칼럼들은 하이패스 탐지 블록 6.3.1, 스펙트럼 분석 블록 6.3.2와 스펙트럼 편평도 VAD의 출력의 결정을 표시한다. 표 2에서 하이패스 특성 칼럼의 논리 값 0은 스펙트럼이 하이패스 특성을 가지고 있지 않다는 것을, 논리 값 1은 하이패스 특성의 스펙트럼을 의미한다. 편평한 스펙트럼 칼럼의 논리값 0은 스펙트럼이 편평하지 않은 것을 논리 값 1은 스펙트럼이 편평하다는 것을 의미한다.

하이패스 특성	편평한 스펙트럼	결정
0	0	1
0	1	0
1	0	1
1	1	1

표 2

도 6a의 단순화된 블록도에서 음성활동 탐지기 (6)은, 스펙트럼 편평도 VAD 6.3 만을 사용하면서 실행되고, 도 6b에서 음성 활동 탐지기 (6)은 스펙트럼 편평도 VAD 6.3과 스펙트럼 거리 VAD 6.2를 사용하면서 실행되고, 그리고 도 6c에서 음성활동탐지기 (6)은 스펙트럼 편평도 VAD 6.3, 스펙트럼 거리 VAD 6.2와 자기상관 VAD 6.1을 사용하여 실행된다. 결정 논리는 블록 6.6에서 도시되어 있다. 본 발명을 한정하지 않은 본 실시 예에서 다른 VAD들이 병렬로 도시되어 있다.

다음에 스펙트럼 편평도 VAD와 연계하여 자기상관 VAD와 스펙트럼 거리 VAD 모두를 사용하고 있는 본 발명의 실시 예에 따르는 음성 활동 탐지는 도 3의 흐름도를 참조하여 더욱 상세히 설명된다.

음성활동 탐지기 (6)은 자기 상관 VAD 6.1을 위한 자기상관 계수들

와

를 계산하고 시간 영역 신호에 기초하여 스펙트럼의 편평도 VAD 6.2를 위해 최적의 1차 예보자

, 이때

를 계산한다.

그 다음 FFT는 스펙트럼 편평도 VAD 6.2 및 스펙트럼 거리 VAD 6.3을 위한 주파수 도메인 신호를 얻기 위해 계산된다. 주파수 도메인 신호는 주파수대역

에 대응하고 있는 잡음이 많은 대화 프레임의 파워 스펙트럼

을 평가하기 위해 사용된다. 도 2의 계산 블록 6.0에서 자동상관 계수, 1차 예보자와 FFT의 계산이 이루어지는 것으로 설명되나 이 계산은 또한 음성 활동 검출기 (6)의 다른 부분에서 예컨대 자기상관 VAD 6.1와 연계되어 실행될 수 있음이 명백하다. 음성 활동 탐지기 (6)에서 자기상관 VAD 6.1은 주기성이 자기상관 계수(도 3의 블록 301)를 사용하고 있는 프레임에 주기성이 있는지 조사한다.

모든 자기상관 계수는 0-지연 계수

에 대하여 정규화 되고 자기 상관 계수의 최대값은 범위[100,500]Hz내의 주파수에 해당하는 샘플 내에서

산출된다. 이 값이 소정의 문턱값 (블록 302)보다 크면, 프레임 이 어떤 구조는 대화 (화살표 303)를 포함하는 것으로 간주되고, 그렇지 않으면, 결정은 스펙트럼 거리VAD6.2 및 스펙트럼 편평도 VAD6.3에 의존한다.

자기상관 VAD는 음성 활동 탐지기 (6)(도 2의 블록 6.4와 도 3의 블록 304)의 출력으로서 사용되는 대화 탐지 신호 (S1)을 만든다. 그러나 자기상관 VAD가 프레임의 샘플들 내에서 충분한 주기성을 찾지 못하면, 자기상관 VAD는 대화 탐지 신호 (S1)를 만들지 않으나 그것은 어떤 주기성이 없거나 또는 단지 낮은 정도의 주기성을 갖는 신호를 나타내는 비 대화 탐지 신호 (S2)를 만든다. 그 다음, 스펙트럼 거리 음성 활동 탐지가 수행된다(블록 305). 합계 귀납적 SNR

이 계산되고 미리 정의된 문턱값(블록306)과 비교된다. 만일 스펙트럼 거리 VAD 6.2가 잡음(화살표 307)으로서 프레임을 분류하면 이 표시 S3은 음성 활동 탐지기 (6)(도 2의 블록 6.5와 도 3의 블록 315)의 출력으로서 사용된다. 다른 경우라면, 스펙트럼 편평도 VAD 6.3은 잡음이나 활성화된 프레임에 있는지 결정하기 위해 추가의 동작을 실행한다.

신호의 추가의 분석이 필요하기 때문에(블록 308) 스펙트럼 편평도 VAD 6.3은 최적의 1차 예보자

와 스펙트럼

을 받는다. 첫 번째로, 스펙트럼 편평도 VAD 6.3의 하이패스 탐지 블록 6.3.1은 예보자 계수의 값이 제로 보다 더 적거나 같은지

조사한다(블록 309). 만약 그렇다면, 이 파라미터가 신호의 스펙트럼이 하이패스 특성이 있다고 표시하기 때문에 프레임은 대화로서 분류된다. 그 경우에 스펙트럼 편평도 VAD 6.3은 대화의 표시 (S5)를 제공한다.(화살표 310) 만약 하이패스 탐지 블록 6.3.1이 현재 프레임에 대해 조건

이 진실이 아니라고 결정한다면 그것은 표시 S7을 평탄 VAD 6.3의 스펙트럼의 분석 블록 6.3.2에게 제공한다. 스펙트럼의 분석 블록 6.3.2는 주파수 대역

를

로 가중한다(블록 311) 주파수

는 주파수 대역

의 중앙 주파수에 상응하는 값과 함께

로 정규화된다. 그리고 가중된 주파수

의 최대 값 및 최소 값은 비교된다(블록 312). 가중된 주파수의 최대값과 최소값 사이의 비율이 문턱 값 (예를 들면 12dB)보다 작으면, 프레임은 잡음으로 분류되고(화살표 313) 표시 (S8)이 만들어진다. 그렇지 않으면, 프레임은 대화로 분류되고(화살표 314) 표시 (S9)가 만들어진다(블록 304). 스펙트럼 편평도 VAD6.3이 프레임이 대화를 포함하고 있다고 결정하면 (상기 표시 S5와 S9), 음성활동 탐지기 (6)은 (잡음이 많은) 대화의 표시를 생성한다.(블록 304) 그렇지 않으면,( 상기 표시 S8) 음성활동 탐지자 6은 잡음의 표시를 생성한다. (블록 315)

본 발명은 예를 들면 음성 활동 탐지를 실행하기 위해 기계가 실행할 수 있는 단계를 제공될 수 있는 디지털 신호 처리 장치 (DSP)내의 컴퓨터 프로그램으로 서 구현될 수 있다.

본 발명에 따르는 음성활동 탐지기 (6)은 예컨대 상기 전송 장치 내의, 수신 장치 내에서, 또는 두 장치 내의 잡음 억제기 (20) 내에서, 사용될 수 있다. 음성활동 탐지기 (6)과 대화 프로세서 (5)의 다른 신호 처리 요소들은 장치 1의 송신 및 수신 기능에 공통적이거나 부분적으로 공통적일 수 있다. 시스템의 다른 부분 예컨대 통신 채널 (17)의 몇몇의 요소 내에 본 발명에 따른 음성활동 탐지기(6)을 구현하는 것 또한 가능하다. 잡음 억제를 위한 전형적인 응용(application)은 의도가 듣는 사람에게 대화를 더욱 쾌적하게 또는 이해가능하게 하거나 대화 코딩을 향상시키는 대화 처리와 관련되어 있다. 대화 코덱이 대화를 위해 최적화되어 있기 때문에 잡음의 열화 효과는 클 수 있다. 예컨대 대화 또는 잡음이 전송되어야 할 때를 표시하는 불연속 전송과 같은 잡음 억제와는 다른 목적과 연계되어 본 발명에 따른 음성활동 탐지기(6)가 사용될 수 있다.

본 발명에 따른 스펙트럼 편평도 VAD는 음성활동 탐지 및/ 또한 잡음 평가를 위해 단독으로 쓰일 수 있다. 그러나 예를 들어 국제특허공개공보 WO 01/37265 호에 기술된 대로 잡음 파워가 급격히 상승하는 경우 잡음 평가를 개선하기 위해 스펙트럼 거리VAD에 스펙트럼 거리VAD와 연계하여 스펙트럼 편평도 VAD을 사용하는 것 또한 가능하다. 게다가, 낮은 SNR 에서 좋은 성과를 달성하기 위하여, 스펙트럼 거리 VAD 및 스펙트럼 편평도 VAD은 자기상관 VAD와 연계하여 사용될 수 있다.

본 발명은 단지 상기 실시 예에 제한하지 않음은 명백하고, 본 발명은 첨부된 청구항의 범위 내에서 변경될 수 있다.

Claims

오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 대화 신호 내의 음성 활동을 탐지하기 위한 음성활동 탐지기를 포함하는 장치(1)로서, 상기 음성활동 탐지기(6)는

-상기 신호에 하이패스 특성이 있는지 조사하는 제 1요소(6.3.1)와

-상기 신호의 주파수 스펙트럼을 조사하는 제 2요소(6.3.2)를 포함하고,

상기 음성활동 탐지기(6)가 다음 조건

- 상기 제 1 요소(6.3.1) 가 상기 신호에 하이패스 특성이 있다고 결정하거나

- 상기 제 2 요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정하는 것 중의 하나를 만족하였을 때 대화의 표시를 제공하는 음성활동 탐지기를 포함하는 장치(1).
제1항에 있어서, 상기 음성활동 탐지기(6)는 상기 제 1요소(6.3.1)가 상기 신호에 하이패스 특성이 있지 않다고 결정하고 상기 제 2요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 가지고 있다고 결정할 때 잡음의 표시를 제공하는 음성활동 탐지기(6)를 포함하는 장치.
제1항 또는 제2항에 있어서, 상기 음성활동 탐지기(6)는 또한 상기 신호의 주파수 특성을 조사하고 상기 조사에 기초하여 스펙트럼 거리 탐지 데이터를 산출하기 위한 스펙트럼 거리 음성활동 탐지기(spectral distance voice activity )(6.2) 를 포함하고, 상기 스펙트럼 거리 탐지 데이터는 대화의 표시 또는 잡음의 표시를 제공하는 음성활동 탐지기를 포함하는 장치.
제1항,제2항 또는 제3항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 또한 상기 신호의 자기상관 특성을 조사하고 상기 조사에 기초하여 자기상관 데이터를 산출하기 위한 자기상관 음성활동 탐지기(6.1)을 포함하고, 상기 스펙트럼 거리 음성 활동 탐지기(6.2)는 상기 자기상관 탐지 데이터가 대화를 표시하지 않을 때 상기 스펙트럼 거리 탐지 데이터를 산출하는 음성활동 탐지기(6)를 포함하는 장치.
제4항에 있어서, 상기 음성활동 탐지기(6)는 다른 음성활동 탐지기들의(6.1,6.2,6.3) 표시들의 조합에 기초한 결정 신호를 발생하는 결정 블록(6.6)을 포함하는 음성활동 탐지기를 포함하는 장치.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 디지털 데이터의 현재 및 이전의 프레임에 대응하는 1 차 예보자
를 계 산하고, 이때 상기 예보자 계수 a 는 식

로 계산되는 음성활동 탐지기(6)를 포함하는 장치.
제6항에 있어서, 상기 음성활동 탐지기(6)는 대화의 표시를 제공하는데 조사 결과를 사용하기 위해 상기 예보자 계수 a의 값이 미리 결정된 값보다 같거나 작은지 조사하는 제 1 요소(6.3.1) 를 포함하는 음성활동 탐지기를 포함하는 장치.
제7항에 있어서, 상기 음성활동 탐지기(6)는 가중된 스펙트럼 예측치를 계산하고 비교 결과를 잡음 또는 대화의 표시를 제공하는데 사용하기 위해 가중된 스펙트럼의 최대값과 최소값을 두 번째 미리 결정된 값과 비교하는 제 2요소(6.3.2)를 포함하는 음성활동 탐지기를 포함하는 장치.
오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화 신호 내에서의 음성활동을 탐지하기 위한 음성 활동 탐지기(6)로서, 상기음성활동 탐지기는:

-조사하기 위한 제 1 요소(6.3.1) 및

-신호의 진동 스펙트럼을 조사하기 위한 제 2요소(6.3.2)

를 포함하고,

음성활동 탐지기가 다음 조건

- 상기 제 1 요소(6.3.1) 가 상기 신호에 하이패스 특성이 있다고 결정하거나

- 상기 제 2 요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정하는 것 중의 하나를 만족하였을 때 대화(speech)의 표시를 제공하는 음성활동 탐지기.
제9항에 있어서, 상기 음성활동 탐지기(6)는 또한 상기 제 1요소(6.3.1)가 상기 신호에 하이패스 특성이 있지 않다고 결정하고 상기 제 2요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 가지고 있다고 결정할 때 잡음의 표시를 제공하는 음성활동 탐지기.
제9항 또는 제10항에 있어서, 상기 음성활동 탐지기(6)는 또한 신호의 주파수 특성을 조사하고 상기 조사에 기초한 스펙트럼 거리 탐지 데이터를 산출하기 위한 스펙트럼 거리 음성활동 탐지기(6.2)를 포함하고, 상기 스펙트럼 거리 탐지 데이터는 대화의 표시 또는 잡음의 표시를 제공하는 음성활동 탐지기.
제9항,제10항 또는 제11항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 또한 상기 신호의 자기상관 특성을 조사하고 상기 조사에 기초하여 자기상관 탐지 데이터를 산출하기 위한 자기상관 음성활동 탐지기(6.1)를 포함하고, 상기 스 펙트럼 거리 음성 활동 탐지기(6.2)는 상기 자기상관 탐지 데이터가 대화를 표시하지 않을 때 상기 스펙트럼 거리 탐지 데이터를 산출하는 음성활동 탐지기.
제12항에 있어서, 상기 음성활동 탐지기(6)는 상기 다른 음성활동 탐지기들의(6.1,6.2,6.3) 표시들의 조합에 기초한 결정 신호를 형성하는 결정 블록(6.6)을 포함하는 음성활동 탐지기.
제12항 또는 제13항에 있어서, 상기 스펙트럼 거리 탐지 데이터는 자기상관 계수들을 포함하고, 상기 제 1요소(6.3.1)는 상기 신호의 하이패스 특성을 결정하는 상기 자기상관 계수들을 조사하는 음성활동 탐지기.
제9항 내지 제14항 중 어느 한 항에 있어서, 상기 음성활동 탐지기는(6) 디지털 데이터의 현재 및 이전의 프레임에 대응하는 1차 예보자
를 계산하고, 이때 상기 예보자 계수 a 는 식

로 계산되는 음성활동 탐지기.
제15항에 있어서, 상기 음성활동 탐지기(6)는 대화의 표시를 제공하는데 조사 결과를 사용하기 위해 상기 예보자 계수 a의 값이 미리 결정된 값보다 같거나 작은지 조사하는 제 1 요소(6.3.1) 를 포함하는 음성활동 탐지기.
제16항에 있어서, 상기 음성활동 탐지기(6)는 가중된 스펙트럼 예측치를 계산하고, 비교 결과를 잡음 또는 대화의 표시를 제공하는데 사용하기 위해 가중된 스펙트럼의 최대값과 최소값을 두 번째 미리 결정된 값과 비교하는 제 2요소(6.3.2)를 포함하는 음성활동 탐지기.
오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화 신호 내에서 음성활동 탐지를 위한 음성 활동 탐지기(6)를 포함하는 시스템으로서, 상기 시스템의 음성활동 탐지기는:

-신호에 하이패스 특성이 있는지 조사하기 위한 제 1 요소(6.3.1) 및

-신호의 주파수 스펙트럼을 조사하기 위한 제 2요소(6.3.2)

를 포함하고,

상기 음성활동 탐지기(6) 다음 조건

- 상기 제 1 요소(6.3.1) 가 상기 신호가 하이패스 특성이 있다고 결정하거나

- 상기 제 2 요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정하는 것 중의 하나를 만족하였을 때 대화(speech)의 표시를 제공하는 음성활동 탐지기를 포함하는 시스템.
제18항에 있어서, 음성활동 탐지기는 또한 상기 제 1요소(6.3.1)가 상기 신호에 하이패스 특성이 있지 않다고 결정하고 상기 제 2요소(6.3.2)가 상기 신호가 편평한 주파수 응답을 가지고 있다고 결정할 때 잡음의 표시를 제공하는 음성활동 탐지기를 포함하는 장치.
오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화신호 내에서 음성 활동을 탐지하기 위한 방법으로서;

-상기 신호에 하이패스 특성이 있는지 조사하기 위한 단계,

-상기 신호의 주파수 스펙트럼을 조사하기 위한 단계, 및

-상기 신호에 하이패스 특성이 있다고 결정되거나, 또는

-상기 신호가 편평한 주파수 응답을 갖지 않는다고 결정되는

조건 중의 하나를 만족하였을 때 대화의 표시를 제공하는 단계

를 포함하는 음성활동을 탐지하기 위한 방법.
제20항에 있어서, 상기 방법은 상기 신호에 하이패스 특성이 있지 않고 상기 신호가 편평한 주파수 응답이 있다고 결정할 때 잡음의 표시를 제공하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
제20항 또는 제21항에 있어서,상기 방법은 상기 신호의 주파수 특성을 조사 하는 단계 및 상기 조사에 기초하여 스펙트럼 거리 탐지 데이터를 산출하는 단계를 더 포함하고, 상기 스펙트럼 거리 탐지 데이터는 대화의 표시 또는 잡음의 표시를 제공하는 음성활동을 탐지하기 위한 방법.
제20항,제21항 또는 제22항 중 어느 한 항에 있어서, 상기 방법은 또한 상기 신호의 자기상관 특성을 조사하는 단계 및 상기 조사에 기초하여 자기상관 탐지 데이터를 산출하는 단계를 포함하고, 상기 자기상관 탐지 데이터가 대화를 표시하지 않을 때, 스펙트럼 거리 탐지 데이터를 산출하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
제23항에 있어서, 상기 방법은 상기 다른 음성 활동 탐지기들의 표시들의 조합에 기초하여 결정신호를 형성하는 단계를 더 포함하는 음성활동을 탐지하기 위한 방법.
제23항 또는 제24항에 있어서, 상기 스펙트럼 거리 탐지 데이터는 자기상관 계수들을 포함하고, 상기 방법은 상기 신호의 하이패스 특성을 결정하는 상기 자기상관 계수들을 조사하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
제20항 내지 제25항 중 어느 한 항에 있어서, 상기 방법은 상기 디지털 데이터의 현재 및 이전 프레임에 대응하는 1차 예보자

를 계산하는 단계, 이때 상기 예보자 계수 a 는 식

로 계산되는 음성활동을 탐지하기 위한 방법.
제26항에 있어서, 상기 방법은 상기 예보자 계수 a의 값이 상기 미리 결정된 값보다 같거나 작은지 조사하는 단계 및 대화의 표시를 제공하는데 상기 조사 결과를 사용하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
제27항에 있어서, 상기 방법은 가중된 스펙트럼 예측치를 계산하는 단계 및 상기 가중된 스펙트럼의 최대값과 최소값을 두 번째 미리 결정된 값과 비교하는 단계 및 비교 결과를 잡음 또는 대화의 표시를 제공하는데 사용하는 단계를 포함하는 음성활동을 탐지하기 위한 방법.
오디오 신호의 샘플들에 기초하여 형성된 디지털 데이터를 사용하는 잡음을 포함하는 대화 신호 내에서의 음성활동 탐지기를 탐지하기 위한 기계에 의해 실행가능한 단계들을 포함하는 컴퓨터 프로그램 생성물으로서,

-신호에 하이패스 특성이 있는지 조사하는 단계,

-신호의 주파수 스펙트럼을 조사하는 단계 및

-상기 신호에 하이패스 특성이 있거나 또는

-상기 신호가 편평한 주파수 응답이 있지 않다는

조건 중의 하나를 만족했을 때 대화의 표시를 제공하는 단계

를 포함하는 기계에 의해 실행가능한 단계들을 포함하는 컴퓨터 프로그램 생성물.
제29항에 있어서, 상기 신호에 하이패스 특성이 없고 상기 신호가 편평한 주파수 특성을 가질 때 잡음의 표시를 제공하는 기계에 의해 실행 가능한 단계를 포함하는 컴퓨터 프로그램 생성물.