KR101444099B1

KR101444099B1 - 음성 구간 검출 방법 및 장치

Info

Publication number: KR101444099B1
Application number: KR1020070115501A
Authority: KR
Inventors: 조재연
Original assignee: 삼성전자주식회사
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2014-09-26
Also published as: US8046215B2; KR20090049298A; US20090125304A1; WO2009064054A1

Abstract

영교차율(zero-crossing rate)을 이용한 음성 구간 검출 방법 및 장치가 개시되어 있다. 오디오 신호에 포함된 잡음 성분을 제거하는 과정, 잡음 성분이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정, 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출하는 과정, 추출된 소정의 음성 검출 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함한다.

Description

음성 구간 검출 방법 및 장치{Method and apparatus for detecting voice activity}

본 발명은 오디오 처리 시스템에 관한 것이며, 특히 영교차율(zero-crossing rate)을 이용한 음성 구간 검출 방법 및 장치에 관한 것이다.

통상적으로 음성 코딩에서 VAD(Voice Activity Detection)나 음성 인식의 EPD(End Point Detection)은 신호내 음성 구간을 추출하는 방법이다.

종래 음성 구간 검출 방법은 프레임의 에너지와 프레임의 영교차율을 이용하여 음성 구간이나 음성의 시작점과 끝점을 검출한다. 예를 들면, 각 프레임의 영 교차율이 낮고 높음에 따라 유음 구간과 무음 구간을 판단한다.

이때 영 교차율을 이용한 음성 구간 판별 방법은 음성이 존재하지 않는 구간에 잡음이 존재할 수 있으므로 유음 구간과 무음 구간에서의 영교차율이 항상 일치하지 않는다.

즉, 영교차율을 사용하여 음성 구간을 검출할 경우 음성뿐만 아니라 그 음성과 비슷한 수준의 영교차율을 갖는 비 음성 잡음도 검출할 수 있다. 따라서 종래의 영 교차율을 이용한 음성 구간 판별 방법은 영 교차율이 무음 구간에서도 작게 나 타날 수 있으므로 오류가 발생 할 수 있다.

본 발명이 해결하고자하는 과제는 영 교차율을 기반으로 주위 환경에 영향을 덜 받는 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치를 제공하는 데 있다.

본 발명이 해결하고자하는 과제는 상기 음성 구간 검출 장치를 적용한 오디오 처리 장치를 제공하는 데 있다.

상기의 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 방법에 있어서,

오디오 신호에 포함된 스테이셔너리 잡음 성분을 제거하는 과정;

상기 잡음 성분이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정;

상기 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출하는 과정;

상기 추출된 소정의 음성 검출 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함하는 것을 특징으로 한다.

상기의 다른 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 장치에 있어서,

오디오 신호에 포함되어 있는 스테셔너리 잡음 성분을 제거하는 잡음 제거부;

정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 발생하는 랜덤 신호 발생부;

상기 잡음 제거부에서 잡음 성분이 제거된 오디오 신호에 랜덤 신호 발생부에서 발생하는 랜덤 신호를 부가하는 가산부;

상기 가산부에서 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출하는 음성 판별 파라미터 추출부;

상기 음성 판별 파라미터 추출부에서 추출된 음성 검출 파라미터를 이용하여 음성 및 무음성 구간을 검출하는 음성 유무 판별부를 포함하는 것을 특징으로 한다.

상술한 바와 같이 본 발명에 의하면, 인위적인 랜덤 잡음을 오디오 신호에 부가하여 영 교차율을 구함으로써 유무음 구간에 대한 분별력을 증가시킬 수 있다.

또한 랜덤 잡음에 의한 영 교차율을 VAD(Voice Activity Detection) 또는 EPD(End Point Detection)에 이용할 수 있다.

또한 영 교차율을 구하기 전에 오디오 신호에 잡음 제거 알고리듬을 적용함으로써 잡음에 강인한 VAD 또는 EPD 시스템을 구축할 수 있다.

이하 첨부된 도면을 참조로 하여 본 발명의 바람직한 실시예를 설명하기로 한다.

도 1a 및 도 1b는 본 발명에 따른 음성 구간 검출 기능을 구비한 오디오 처리 시스템의 블록도이다.

도 1a는 아날로그 오디오 신호가 입력될 때의 오디오 처리 시스템이다.

도 1a의 오디오 처리 시스템은 A/D 변환부(110), 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)를 구비한다.

A/D(Aanalog Digital) 변환부(110)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환한다.

음성 구간 검출부(120)는 A/D 변환부(110)에서 출력되는 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하고, 랜덤 신호가 부가된 오디오 신호로부터 프레임의 영교차율 또는 프레임의 파워 같은 정해진 음성 검출 파라미터를 추출하고, 추출된 음성 검출 파라미터 값과 임계치를 비교하여 음성 및 무음성 구간을 결정한다.

오디오 신호 처리부(130)는 음성 구간 검출부(120)에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행한다.

D/A(Digital Analog) 변환부(140)는 오디오 신호 처리부(130)에서 처리된 오디오 신호를 아날로그 오디오 신호로 변환한다.

도 1b는 디지털 오디오 신호가 입력될 때 오디오 처리 시스템의 블록도 이다.

도 1b의 오디오 처리 시스템은 오디오 디코더(110-1), 음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)를 구비한다.

오디오 디코더(110-1)는 압축된 형태의 디지털 오디오 데이터를 소정의 디코딩 알고리듬에 따라 복원한다.

음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)는 각각 도 1a의 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)의 기능과 동일하다.

도 2는 도 1a 및 도 1b의 음성 구간 검출부(120, 120-1)의 상세도 이다.

도 2의 음성 구간 검출부는 잡음 제거부(210), 랜덤 신호 발생부(220), 가산부(230), 음성 판별 파라미터 추출부(240), 음성유무 판별부(250)로 구성된다.

잡음 제거부(210)는 영 교차율을 명확하게 추출하기 위해 오디오 신호에 포함되어 있는 스테셔너리 잡음(stationary noise) 성분을 제거한다. 예컨대, 잡음 제거부(210)는 Wiener filter나 스펙트럴 차감 필터(spectral subtraction filter)등을 이용하여 스테셔너리 잡음(stationary noise) 성분을 제거한다.

랜덤 신호 발생부(220)는 사람 귀에 거슬리지 않을 정도로 정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 발생한다. 바람직하게는 랜덤 신호는 정규 분포를 갖는 백색 가우시안 노이즈이며, 또한 기준치보다 큰 영 교차율을 갖는다.

가산부(230)는 잡음 제거부(210)에서 잡음 성분이 제거된 오디오 신호에 랜덤 신호 발생부(220)에서 발생하는 랜덤 신호를 부가한다.

따라서 오디오 신호에 잡음을 제거하면 무음 구간의 영 교차율이 거의 "0"에 가까울 수가 있으므로 오디오 신호에 랜덤 잡음을 추가함으로써 영 교차율에 의한 음성 구간의 분별력을 증가시킬 수 있다.

음성 판별 파라미터 추출부(240)는 가산부(230)에서 랜덤 신호가 부가된 오디오 신호로부터 소정의 음성 검출 파라미터를 추출한다.

바람직하게 소정의 음성 검출 파라미터는 영교차율(Zero Cross Rate), LSF(Liner Spectrum Frequency)등을 이용한다. 영 교차율은 프레임내에서 샘플의 부호 변환 횟수를 나타내며, LSF는 신호의 주파수특성을 나타낸다.

음성 유무 판별부(250)는 음성 판별 파라미터 추출부(240)에서 추출된 ZCR, 프레임의 크기, LSF와 같은 음성 검출 파라미터를 이용하여 음성 및 무음성 구간을 검출한다.

예를 들면, 영교차율이 임계치 보다 적으면 음성 구간으로 판별하고, 영 교차율이 이 임계치보다 크면 무음성 구간으로 판별한다.

도 3은 도 2의 잡음 제거부(210)의 일실시예이다.

잡음 예측부(310)는 입력되는 오디오 신호로부터 잡음 특성을 예측한다. 잡음 예측의 일 실시예를 들면, 입력 프레임의 파워를 정해진 임계치와 비교한다. 이때 입력 프레임의 파워가 정해진 임계치보다 적으면 그 입력 프레임을 잡음으로 추정한다. 그리고, 그 입력 프레임의 특성값(예를 들면, 스펙트럼)을 잡음 특성으로 예측한다.

잡음 제거 필터부(320)는 잡음 예측부(310)로부터 예측된 잡음 특성값을 오디오 신호와 차감하여 오디오 신호의 잡음을 성분을 제거한다.

도 4는 본 발명에 따른 음성 구간 검출 방법을 보이는 흐름도이다.

먼저, 오디오 신호가 프레임 단위로 입력된다.

이때 통상적으로 입력되는 오디오 신호들 마다 잡음의 정도가 다르다.

따라서 잡음 정도에 상관없이 일정한 음성 구간 판별을 수행하기 위해 오디 오 신호에 존재하는 스테이셔너리 잡음 성분을 제거한다(410 과정).

예를 들면, Wiener filter나 스펙트럴 차감 필터(spectral subtraction filter)등을 이용하여 오디오 신호에 포함되어 있는 스테이셔너리 잡음 성분을 제거한다

이어서, 잡음 성분이 제거된 오디오 신호에 사람 귀에 거슬리지 않을 정도로 정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 부가한다(420 과정). 또한 랜덤 잡음 신호는 음성/무음구간의 분별력을 높이기 위해 정해진 기준치보다 큰 영 교차율을 갖는다.

이어서, 랜덤 신호가 부가된 오디오 신호로부터 프레임의 영 교차율 또는 프레임의 파워 같은 음성 검출 파라미터를 추출한다(430 과정). 예를 들면, 프레임의 영 교차율은 프레임내에서 샘플의 부호 변환 횟수/샘플수로 계산된다. 그리고 프레임의 파워(power)는 프레임내에서 샘플들의 제곱 크기의 합/샘플수로 계산된다.

이어서, 추출된 음성 검출 파라미터 값과 실험적으로 미리 정해진 임계치(Th)를 비교한다(450 과정).

이때 음성 검출 파라미터 값이 임계치보다 적으면 현재 프레임을 음성 구간으로 판정하고(460 과정), 음성 검출 파라미터 값이 임계치보다 크면 현재 프레임을 비음성 구간으로 판정한다(470 과정).

예를 들면, 프레임의 영 교차율이 미리 정해진 임계치 보다 적으면 현재 프레임을 음성 구간으로 판정하고, 프레임의 영 교차율이 미리 정해진 임계치 보다 크면 현재 프레임을 비음성 구간으로 판정한다.

또한 프레임의 파워가 미리 정해진 임계치 보다 크면 현재 프레임을 음성 구간으로 판정하고, 프레임의 파워가 미리 정해진 임계치 보다 적으면 현재 프레임을 비음성 구간으로 판정한다.

따라서 음성 검출 파라미터 값과 임계치의 비교에 따라 음성 및 비음성 구간을 결정함으로써 한 프레임의 음성 구간 검출을 완료한다.

도 5a 및 도 5b는 본 발명에 따른 음성 구간 검출을 위한 오디오 신호와 영 교차율을 보이는 그래프이다.

도 5a는 통상적인 오디오 신호의 플롯(plot)(a)과 그 오디오 신호의 영 교차율(b)을 도시한 것이다. 오디오 신호의 플롯(plot) 그래프(a)에서 x좌표는 시간이고, y좌표는 크기이다. 영 교차율 그래프(b)에서 x좌표는 프레임 순서이고, y좌표는 영 교차율이다.

도 5a를 참조하면, 통상적으로 유음 구간에서는 강한 저주파 신호 성분으로 인해 영 교차율이 적게 나타난다. 영 교차율은 무음 구간(510, 520)에서는 미지의 신호 성분, 예를 들면 배경 잡음으로 인해 일반적으로 크게 나타나지만 완전한 무음이 발생하거나 마이크에 직류 성분이 포함되는 이상 현상 발생시 작게 나타나는 경우도 있다. 따라서 통상적인 오디오 신호의 플롯(plot)에서는 무음 구간을 판별하기가 어렵다.

도 5b는 적은 에너지의 랜덤 잡신호가 부가된 오디오 신호의 플롯(plot)(a)과 그 오디오 신호의 영 교차율(b)을 도시한 것이다. 오디오 신호의 플롯(plot) 그래프(a)에서 x좌표는 시간이고, y좌표는 크기이다. 영 교차율 그래프(b)에서 x좌표 는 프레임 순서이고, y좌표는 영 교차율이다.

도 5b를 참조하면, 오디오 신호에 적은 에너지의 랜덤 신호가 부가될 경우 무음 구간(530, 540)에서는 높은 영 교차율이 나타나게 된다. 따라서 임계치보다 높은 영 교차율이 나타나는 구간을 무음 구간으로 판별하고, 임계치보다 적은 영 교차율이 나타나는 구간을 유음 구간으로 판별한다.

결국, VAD 또는 EPD 기술에서 랜덤 신호에 의한 영 교차율을 이용함으로써 유음 구간의 판별이 용이하게 된다.

또한 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

도 2는 도 1a 및 도 1b의 음성 구간 검출부의 상세도 이다.

도 3은 도 2의 잡음 제거부의 일실시예이다.

Claims

음성 구간 검출 방법에 있어서,

오디오 신호에 포함된 잡음 성분을 제거하여 잡음이 제거된 오디오 신호를 생성하는 과정;

상기 잡음이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정;

상기 랜덤 신호가 부가된 오디오 신호로부터 적어도 하나의 소정의 음성 판별 파라미터를 추출하는 과정;

상기 추출된 적어도 하나의 소정의 음성 판별 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함하는 음성 구간 검출 방법.
제1항에 있어서, 상기 잡음 성분 제거 과정은 오디오 신호로 부터 잡음 특성을 예측하는 과정;

상기 예측된 잡음 특성을 오디오 신호와 차감하여 오디오 신호의 잡음 성분을 제거하는 과정을 구비하는 것을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 잡음 성분은 스테이셔너리 성분임을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 랜덤 신호는 기준치 이상인 영 교차율을 갖는 랜덤 잡 음 신호임을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 랜덤 신호는 정규 분포를 갖는 가우시안 노이즈 임을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 소정의 음성 판별 파라미터는 프레임의 영 교차율임을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 소정의 음성 판별 파라미터는 프레임의 파워임을 특징으로 하는 음성 구간 검출 방법.
음성 구간 검출 장치에 있어서,

오디오 신호에 포함되어 있는 스테이셔너리 잡음 성분을 제거하여 잡음이 제거된 오디오 신호를 생성하는 잡음 제거부;

정해진 크기의 에너지를 갖는 랜덤 잡음 신호를 발생하는 랜덤 신호 발생부;

상기 잡음 제거부에서 잡음이 제거된 오디오 신호에 랜덤 신호 발생부에서 발생하는 랜덤 신호를 부가하는 가산부;

상기 가산부에서 랜덤 신호가 부가된 오디오 신호로부터 적어도 하나의 소정의 음성 판별 파라미터를 추출하는 음성 판별 파라미터 추출부;

상기 음성 판별 파라미터 추출부에서 추출된 적어도 하나의 소정의 음성 판별 파라미터를 이용하여 음성 및 무음성 구간을 검출하는 음성 유무 판별부를 포함하는 음성 구간 검출 장치.
제8항에 있어서, 상기 잡음 제거부는

오디오 프레임의 파워를 정해진 임계치와 비교하여 오디오 신호의 잡음 성분을 예측하는 잡음 예측부;

상기 잡음 예측부로부터 예측된 잡음 성분을 오디오 신호와 차감하여 오디오 신호의 잡음을 성분을 제거하는 필터부를 구비하는 것을 특징으로 하는 음성 구간 검출 장치.
오디오 처리 장치에 있어서,

잡음 성분이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하여 소정의 음성 판별 파라미터를 추출하고, 추출된 소정의 음성 판별 파라미터 값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 음성 구간 검출부;

상기 음성 구간 검출부에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행하는 오디오 신호 처리부를 오디오 처리 장치.
음성 구간 검출 방법을 구현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 음성 구간 검출 방법에 있어서,

오디오에 포함되는 잡음 성분을 제거하여 잡음이 제거된 오디오 신호를 생성하는 과정;

상기 잡음이 제거된 오디오 신호에 정해진 크기의 에너지를 갖는 랜덤 신호를 부가하는 과정;

상기 랜덤 신호가 부가된 오디오 신호로부터 적어도 하나의 소정의 음성 판별 파라미터를 추출하는 과정;

상기 추출된 적어도 하나의 소정의 음성 판별 파라미터값과 임계치를 비교하여 음성 및 무음성 구간을 결정하는 과정을 포함하는 것을 특징으로 하는 기록 매체.