KR100735417B1

KR100735417B1 - 음성 신호에서의 피크 특징 추출이 가능한 윈도우를정렬하는 방법 및 그 시스템

Info

Publication number: KR100735417B1
Application number: KR1020060007504A
Authority: KR
Inventors: 김현수
Original assignee: 삼성전자주식회사
Priority date: 2006-01-24
Filing date: 2006-01-24
Publication date: 2007-07-04
Also published as: US8103512B2; US20070192102A1

Abstract

본 발명은 음성 신호의 종류와 성격에 따라 적응적으로 특징 추출이 가능한 윈도우를 정렬할 수 있는 기능을 구현한다. 이를 위해 본 발명에서는 하이오더 피크의 개념을 적용하여 해당 차수에서 윈도우 업데이트 포인트를 기준으로 윈도우 길이를 결정하고, 윈도우 길이 단위로 윈도우를 정렬할 수 있는 방법을 제시한다. 이와 같이 윈도우를 정렬하게 되면 윈도우의 시작점과 끝점을 알 수 있게 되고, 이를 통해 피크 특징 정보 추출과 분석을 용이하게 할 수 있는 이점이 있다.

윈도우, 하이오더 피크

Description

음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법 및 그 시스템{METHOD OF ALIGN WINDOW AVAILABLE TO SAMPLING PEAK FEATURE IN VOICE SIGNAL AND THE SYSTEM THEREOF}

도 1은 본 발명의 실시 예에 따른 윈도우 정렬을 수행하는 시스템에 대한 블록구성도,

도 2는 본 발명의 실시 예에 따라 윈도우를 정렬하는 과정을 설명하기 위한 도면,

도 3은 본 발명의 실시 예에 따른 N차 오더 피크 정의 과정에 대한 도면,

도 4는 본 발명의 실시 예에 따라 켑스트럼 계수의 표준 편차 그래프를 도시한 도면.

본 발명은 음성 신호에서의 윈도우를 정렬하는 방법 및 그 시스템에 관한 것으로, 특히 음성 신호가 불연속적이고 일시적인(transient) 상황에서도 가변성(variance)을 최소화하면서 유연하게 윈도우 업데이트를 할 수 있도록 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법 및 그 시스템에 관한 것이다.

최근 음성 신호를 이용하는 다양한 시스템이 개발되고 있으며, 음성 신호를 이용하는 시스템에서는 음성 신호를 바탕으로 코딩, 합성, 인식, 강화 등과 같은 음성 신호를 이용한 응용 프로세스를 수행한다. 이에 따라 음성 신호를 이용하는 시스템에서는 음성 신호로부터 그 응용 분야에 따른 피크 특징 정보를 추출하여 사용하게 되는데, 이 피크 특징 정보의 추출이 정확하게 이루어져야 다른 응용 프로세스에 효율적으로 적용하는 것이 가능하게 된다.

이를 위해 통상적으로 음성 신호 처리 시스템은 피크 특징 추출 및 계산을 위해 정해진 길이의 윈도우(window)와 업데이트율(update rate)을 바탕으로 블록(block) 단위로 신호를 처리하는 방법을 이용한다. 즉, 고정된 길이 데이터 윈도우(fixed length data window)를 사용한다. 하지만, 응용 분야마다 서로 다른 피크 특징들의 신뢰성있는(reliable) 계산을 위해서는 해당 응용 분야에 적절한 블록 단위로 신호를 처리하는 것이 바람직하다. 예를 들어, 피크 계산을 위해서는 3개의 데이터 포인트만이 요구되나, LPC(Linear Predictive Coding)나 켑스트럼 계수(cepstral coefficient) 계산을 위해서는 다양성(variability)과 반복성(repeatability) 사이의 복잡한 관계에 의해 결정되는 윈도우 길이가 요구된다. 즉, 윈도우 길이는 음성 신호로부터의 피크 특징 정보 추출 시 항상 고정된 값을 가져야 하는 것은 아니다.

그럼에도 불구하고 통상적으로 고정된 길이 데이터 윈도우와 고정된 업데이 트율이 다음과 같은 이유로 사용되고 있다.

첫째, 항상 동일한 값을 적용하면 되므로 음성 신호 처리 시스템에서 사용하기에 용이하기 때문이다. 하지만, 실질적으로 최적의 값이 결정될 때까지는 다양한 윈도우 길이와 업데이트율로 음성 신호 처리 시스템을 테스트해야 한다. 그리고나서도 이러한 테스트를 통해 최적의 결과를 출력하는 하나의 파라미터를 얻은 후에야 그 파라미터로 고정된 값을 항상 사용할 수 있게 되는 것이다. 그런데 최적의 프로세싱을 위해서는 윈도우 길이와 업데이트율이 고정되어야 한다는 것을 전제로 하나, 일반적인 응용 프로세싱에 있어서는 잡음 배경이 제어되지 않으므로 이러한 가정은 적합하지 않게 되는 것이다. 즉, 잡음이 존재하는 상황에서는 고정된 윈도우 길이와 업데이트율로는 최적의 프로세싱 결과를 얻기 어려운 실정이다.

둘째, 만일 고정되지 않은 윈도우 길이와 업데이트율을 사용하고자 할지라도 매번 윈도우 길이와 업데이트율을 어떻게 정할지에 대한 기준이 되는 접근 방법이나 이론적 근거가 마련되지 못했기 때문이다. 즉, 고정되지 않은 윈도우 길이와 업데이트율을 사용할 수 있는 간단한 접근 방법이 없는 실정이다.

셋째, 일반적으로 프로세싱 요구(processing requirement)를 줄이기 위하여 고정된 윈도우 길이와 업데이트율을 사용해왔다. 다시 말하면, 종래에는 음성 신호 처리 시스템에서 가능한 한 계산량을 줄이는 것을 목적으로 하였지만, 현재는 프로세서의 처리 능력이 충분히 크기 때문에 별문제가 되지 않는다.

한편, 윈도우 업데이트율은 윈도우 길이와는 다른 파라미터인데, 윈도우 길이가 너무 길면 그 윈도우 안에 너무 많은 정보가 포함되게 되고 이에 따라 피크 특징 정보의 추출이 어려워지게 된다. 따라서, 윈도우 업데이트율은 윈도우 길이 내에서 피크 특징 정보의 추출이 가능한 경계(boundary)나 제한(limit) 범위 이내에서 정해지게 된다. 예를 들어, 음성 처리에서 최대 업데이트 인터벌(update interval)은 최소 음성 에너지 펄스의 반 정도인 40ms의 오더(order)로 사용된다. 이때, 업데이트 인터벌이 40ms 이상이 되면 에너지 펄스를 오버스텝(overstep)할 가능성이 높아진다. 이에 반해 최소 업데이트 인터벌은 0ms이다. 그리고 대부분의 경우 고정된 업데이트 인터벌(fixed update interval)로 8에서 16ms 사이를 사용하고 있다.

상기한 바와 같이 음성 신호 처리 시스템에서 윈도우 길이나 데이터 윈도우의 시작과 끝점을 결정하기 위해 종래에는 단순하게 고정된 값을 이용하였다. 이에 대해 처리하고자 하는 음성 신호의 종류나 성격에 따라 이론적 근거나 논리에 의해 뒷받침되는 윈도우 정렬 방법이 제시될 필요성이 있다. 다시 말하면, 피크 특징 정보가 DFT(Discrete Fourier Transform) 계수와 같은 성격을 가지면서 데이터가 불연속점을 가지고 있을 경우에도 적응적으로(adaptationally) 윈도우 업데이트가 가능하도록 하기 위한 윈도우 정렬 방법에 대한 필요성이 요구된다.

따라서, 본 발명은 음성 신호가 불연속적이고 일시적인(transient) 상황에서도 가변성(variance)을 최소화하면서 유연하게 윈도우 업데이트를 할 수 있도록 하는 음성 신호에서의 피크 특징 정보 추출이 가능한 윈도우를 정렬하는 방법 및 그 시스템을 제공한다.

이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

이러한 기능이 구현된 윈도우 정렬을 수행하는 시스템의 구성 요소 및 그 동작에 대해 도 1을 참조하여 살펴보기로 한다. 도 1은 본 발명의 실시 예에 따른 윈도우 정렬을 수행하는 시스템에 대한 블록구성도이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 윈도우 정렬 시스템(이하, 윈도우 정렬 시스템)은 음성 신호 입력부(100), 피크 정보 추출부(110), 피크 차수 결정부(120), 업데이트 포인트 결정부(130), 윈도우 길이 결정부(140), 윈도우 정렬부(150), 윈도우 분석부(160)를 포함하여 구성된다.

먼저, 음성신호 입력부(110)는 마이크(MIC:Microphone) 등으로 구성될 수 있 으며 음성 및 음향 신호를 포함한 음성 신호를 입력받는다.

피크 정보 추출부(110)는 음성신호 입력부(110)로부터 신호를 입력받아 피크 정보를 추출한다. 이때, 피크 정보 추출부(110)는 먼저 입력 신호에서 우선 1차 피크 정보를 추출한 후, 의미있는 데이터를 추출하기 위한 하이오더 피크(high order peak)에 대한 법칙(theorem)를 이용하여 각 차수의 피크(peak) 정보를 추출한다.

피크 차수 결정부(120)는 피크 정보 추출부(110)에 의해 추출된 각 피크들 각각의 차수를 정의하고, 현재 차수에서의 피크 특징값을 시스템에 따라 최적화된 기준값(threshold) 즉, 미리 결정된 임계 피크 특징값과 비교하여 몇 번째 차수의 피크를 사용할 것인지를 결정한다. 이때, 비교 과정에서의 기준으로 각각에 대한 분산의 감소량(variance reduction)을 사용한다. 일단 N번째 차수(N-th order)의 피크를 사용할 경우, 그보다 높은 차수의 피크 추출은 더 이상 필요하지 않게 된다.

이를 구체적으로 설명하면, 피크 차수 결정부(120)는 피크 정보 추출부(110)에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의한다. 이어, 그 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 그 피크 특징값이 임계 피크 특징값 이상인 경우 현재 피크 차수를 상기 피크 차수로 결정한다.

이와 달리 피크 차수 결정부(120)는 피크 특징값이 임계 피크 특징값 이하인 경우 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 그 임계 피크 특징값 이 상이 되지 않는 한 피크 차수를 결정하는 과정을 반복적으로 수행한다.

나머지 구성 요소를 설명하기에 앞서, 본 발명에서 이용되는 하이오더 피크에 대해 간략하게 설명하기로 한다. 일반적인 개념의 피크를 1차 피크(1st order peak)라고 할 경우 본 발명에서는 도 3에 도시된 바와 같이 1차 오더 피크로 구성된 신호들 중에서의 피크들을 2차 오더 피크라고 정의한다. 이와 마찬가지로 3차 피크(3rd order peak)는 2차 피크(2nd order peak)로 이루어진 신호들의 피크인 것이다. 이러한 개념으로 하이오더 피크를 정의하게 된다.

따라서, 제 2차 피크를 찾기 위해서는 단순히 1차 피크들을 새로운 타임 시리즈(time series)로 보고 그 타임 시리즈들의 피크를 찾으면 되는 것이다. 이와 마찬가지로 하이오더 최소값(higher order minima) 즉, 밸리(valley)도 정의할 수 있다. 이에 따라 2차 오더 밸리(2nd order valley)는 1차 오더 밸리(1st order valley)로 이루어진 타임 시리즈들의 로컬 최소값(local minima)이 된다.

이러한 하이오더 피크 또는 밸리들은 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값으로 이용될 수 있으며, 특히 각 오더 피크들 중 2차 피크들과 3차 피크들은 음성, 오디오 신호의 피치(pitch) 정보를 가지고 있다. 또한 2차 피크와 3차 피크들 사이의 시간이나 샘플링 포인트 개수가 음성, 신호 특징 추출에 대한 많은 정보를 가지고 있다. 따라서, 피크 차수 결정부(120)는 피크 정부 추출부(110)에 의해 추출된 각 피크들 중 2차 또는 3차 피크를 선택하는 것이 바람직하다.

특히 시간과 주파수 축에서의 여러 차수의 피크 성격(peak characteristics) 분석을 통해서 많은 정보를 얻어낼 수 있다. 그 중에서도 히스토그램(histogram) 분석, 평균 및 표준 편차와 같은 기본 통계(basic statistics), 그 기본 통계의 비율로 얻어지는 제 2의 통계(secondary statistics)들로 유용한 특징(measure)들을 추출할 수 있는 것이다. 이를 이용한 주기적 특징(periodicity measure)나 유성음의 정도(voicing)에 대한 특징은 매우 유용한 정보들이며, 이러한 특징 추출을 위해 정확한 피크 차수(correct peak order)를 알아야 한다.

본 발명에서 제시하는 하이오더 피크의 특성으로는 차수의 레벨의 경우 낮은 차수의 피크들이 평균적으로 낮은 레벨(level)을 가지고, 차수가 높을수록 적은 빈도로 나타나게 된다. 예컨대, 2차 피크는 1차 피크보다 레벨이 높으며, 피크 개수는 1차 피크보다 적다.

각 차수 피크들이 나타나는 비율은 음성, 오디오 신호 특징 추출에 매우 유용하게 쓰일 수 있는데, 특히 2차와 3차 피크들은 피치 추출 정보를 가지고 있게 된다.

한편, 하이 오더 피크들에 대한 법칙은 다음과 같다.

1. 연속적인 피크(밸리(valley))들 사이에는 단하나의 밸리(피크)만이 존재할 수 있다.

2. 상기 법칙 1은 각 차수의 피크(밸리)에 적용된다.

3. 하이 오더 피크(밸리)는 더 낮은 오더의 피크(밸리) 보다는 적게 존재하며, 하이오더 피크(밸리)는 더 낮은 오더의 피크(밸리)의 부분 집합(subset)에 존재한다.

4. 어떠한 두개의 연속적인 하이 오더 피크(밸리)사이에도 항상 하나 이상의 더 낮은 오더의 피크(밸리)가 존재한다.

5. 하이오더 피크(밸리)는 더 낮은 오더의 피크(밸리) 보다는 평균적으로 더 높은(낮은) 레벨(level)을 가진다.

6. 특정 기간의 신호 동안(예컨대 한 프레임 동안), 단 하나의 피크와 밸 리가 존재하는(예컨대 한 프레임 내의 최대, 최소값) 오더가 존재한다.

상기한 하이 오더 피크들에 대한 법칙에 따라 피크 차수 결정부(120)는 피크 정보 추출부(110)에 추출된 각 피크들을 1차 피크(first order peak)로 정의할 수 있게 된다. 그러면 피크 차수 결정부(120)는 1차 피크에 대한 표준편차와 평균값을 확인하여 기준값보다 주기성이 높을 경우 현재의 차수를 선택하고, 주기성이 낮으면 차수를 높인다. 즉, 각 차수에서의 표준편치와 평균값을 이용하여 몇번째 차수를 사용할 것인지를 결정하는 것이다. 여기서, 기준값은 시스템을 최적화시키는데 필요한 임계값이다.

만일 일반적인 시스템에서 항상 1차 피크만이 사용된다면 피크 차수를 결정하는 과정을 생략할 수 있어 피크 차수를 선택하는 것을 부가적인 옵션으로 설정할 수도 있지만, 본 발명의 실시 예에 따라 피크 차수 결정부(120)는 디폴트(default)로 2차 피크를 사용한다.

한편, 본 발명의 실시 예에서는 하이오더 피크 개념을 이용한 윈도우 정렬 방법을 제시하는데, 이에 따라 디폴트값인 2차 피크에서부터 차수(order)를 높여가면서 기준 편차(standard deviation)를 최소화시키는 차수(variance reduction check)를 찾은 후 이를 윈도우 정렬 시 이용한다. 이때, 실제 시스템에서는 2차 피크에 기반한 윈도우 정렬 방법만으로도 충분한 기준 편차를 얻을 수 있기 때문에 더 높은 차수를 사용하지 않아도 좋은 성능을 얻을 수 있다. 이러한 방법은 음성 신호의 종류에 따른 윈도우 길이를 결정하는 방법으로써, 처리하고자 하는 음성 신호의 특성을 효율적으로 활용할 수 있는 윈도우 정렬 방식인 것이다.

이와 같이 피크 차수 결정부(120)에 의해 어느 하나의 차수가 결정되면, 업데이트 포인트 결정부(130)는 결정된 차수에서의 피크를 윈도우 업데이트 포인트로 결정한다. 이에 따라 업데이트 포인트 결정부(130)는 해당 차수에서의 피크가 나타날 때마다 윈도우 업데이트 포인트를 업데이트하게 된다.

윈도우 업데이트 포인트를 결정하는 과정을 구체적으로 설명하면 다음과 같다. 먼저, 본 발명에서는 도 3에 도시된 바와 같이 1차 피크로 구성된 신호에서 찾아낸 새로운 피크를 2차 피크로 정의한다.

도 3은 본 발명의 실시 예에 따른 N차 피크 정의 과정에 대한 도면이다. 도 3을 참조하면, 도 3의 (a)는 1차 피크에 대한 도면이다. 피크 차수 결정부(120)는 피크 정보 추출부(110)에 의해 추출된 각 피크들을 도 3의 (a)에 도시된 바와 같이 1차 피크(P₁)로 정의한다. 그리고 도 3의 (b)에 도시된 바와 같이 각 1차 피크(P₁)들을 연결했을 때 피크가 되는 피크(P₂)를 검출한다. 그리고 검출된 피크를 도 3의 (c)에 도시된 바와 같이 2차 피크(P₂)로 정의한다.

도 3의 (a) 내지 도 3의 (c)에는 시간 도메인 상의 음성 신호로부터 의미있 는 데이터를 추출하는데 필요한 각 차수의 피크들이 도시되어 있다. 도 3의 (a)를 보면 신호의 특징이 갑자기 바뀌는 영역이 P₁ 에 의해 지시되는 바와 같은 피크로 나타나는데, 이와 같이 신호의 특징이 바뀌는 부분으로는 유성음과 무성음 사이 및 음성 신호의 시작과 끝 부분 예컨대, 단어 사이가 이에 해당한다.

그리고 본 발명의 실시 예에 따라 도 3에서의 가로축은 위치값을 나타내고 세로축은 높이값을 나타내는데, 하이오더 피크의 개념을 나타낸 도 3에서의 각 차수의 피크에 대해 높이값에 대한 분산과 평균값을 이용한다면 몇번째 차수를 사용할지를 결정할 수 있게 된다. 일반적으로 분산은 위치값을 가지고 평균값은 높이값을 가지고 산출하게 되는데, 유성음의 경우 분산은 무성음에 비해 상대적으로 낮지만 평균값은 상대적으로 높은 특징을 갖는다. 무성음의 경우는 이와 반대의 특징을 갖는데, 통상적으로 주기성이 없는 것이 분산이 높다.

한편, 음성 신호의 시작과 끝부분도 상기한 바와 같은 특징을 가지므로, 피크 차수 결정부(120)에서는 피크 정보 추출부(110)로부터의 피크 정보를 근거로 현재 차수의 피크 정보가 주기성이 낮은지 높은지의 여부를 판단함으로써 몇번째 차수를 사용할 것인지를 결정할 수 있게 되는 것이다. 즉, 피크 차수 결정부(120)는 현재 차수에서의 주기성이 기준값보다 낮으면 높은 차수를 정의하게 되는 것이다.

본 발명의 실시 예에 따라 디폴트로 2차 피크를 사용할 경우 도 3의 (b)에서 첫번째 2차 피크(P₂)가 윈도우 업데이트 포인트가 된다. 그리고나서 업데이트 포인트 결정부(130)는 두번째 2차 피크(P₂)를 두번째 업데이트 포인트로 결정하게 된다. 이와 같은 방식으로 업데이트 포인트 결정부(130)는 2차 피크가 나타날 때마다 순차적으로 업데이트 포인트를 결정하는 것이다.

이와 같이 업데이트 포인트 결정부(130)에서 일단 첫번째 업데이트 포인트가 결정되면, 윈도우 길이 결정부(140)는 현재의 업데이트 포인트에서 다음 2차 피크까지 윈도우를 쉬프트한다.

이에 따라 윈도우 길이 결정부(140)는 첫번째 업데이트 포인트와 두번째 업데이트 포인트 간의 거리를 윈도우 길이로 결정하게 된다.

이와 같이 윈도우 길이 결정부(140)에 의해 하나의 윈도우 길이가 결정되게 되면, 윈도우 정렬부(150)는 상기 결정된 윈도우 길이 단위로 윈도우를 정렬한다.

이어, 윈도우를 정렬하게 되면 윈도우 분석부(160)에서는 윈도우의 시작점과 끝점을 알 수 있게 되어 윈도우를 분석할 수 있게 되고, 그 윈도우 길이 단위로 피크 특징 정보를 추출할 수 있게 된다. 이렇게 추출된 피크 특징 정보는 전처리 과정을 거쳐 다음 단의 신호 처리 시스템에 전달되게 되어, 음성 코딩, 인식, 합성, 강화 수행 시의 모든 음성 신호 처리 시스템에서 이용 가능하게 된다.

상기한 바와 같이 구성된 윈도우 정렬을 수행하는 시스템에서는 해당 차수의 각 피크를 순차적으로 업데이트 포인트로 결정한 후 각 업데이트 포인트 간을 윈도우 길이로 결정한다. 이와 같이 결정된 윈도우 길이 단위로 윈도우를 정렬함으로써 해당 윈도우에서 피크 정보 추출이 이루어질 수 있도록 한다. 이러한 본 발명은 처리하고자 하는 신호의 종류와 성격에 따라 결정되는 신호에 최적화된 윈도우 길이를 제공하는 것이 가능한 방법이다. 또한, 본 발명은 서로 깊은 상관관계 (correlation)을 가지고 있는 피크 특징 정보의 사용으로 음성 신호가 불연속적이고 일시적인(transient) 상황에서도 가변성(variance)을 최소화하면서 유연하게 윈도우 업데이트를 할 수 있도록 하며 신호에 최적화된 윈도우 길이를 선택할 수 있도록 하는 방법을 제시하는 것이다. 게다가 항상 잡음 위에 높이 존재하는 피크들에 대한 분석을 바탕으로 하므로 잡음에 매우 강인한 방법이며, 음성과 오디오 신호에서 가장 중요한 정보인 피치(pitch)와 매우 밀접한 관계를 가지는 하이오더 피크를 사용한 업데이트 방식으로 각 프레임간의 연결의 문제점을 최소화하는 매우 실용적이고 효율적인 적응적 윈도우 정렬 방법을 제시하는 것이다.

이하, 본 발명이 적용되는 구체적인 예를 상세히 설명하기 위해 상기한 바와 같은 각 구성 요소의 동작 과정을 도 2를 참조하여 설명하면 다음과 같다. 도 2는 본 발명의 실시 예에 따라 윈도우를 정렬하는 과정을 설명하기 위한 도면이다.

도 2를 참조하면, 윈도우 정렬 시스템은 200단계에서 마이크 등을 통해 음성 신호를 입력받아 210단계에서 피크 정보를 추출한다. 이때, 윈도우 정렬 시스템은 일단 1차 피크 정보를 추출한다. 피크는 잡음의 위에 존재하므로 잡음 속에 파묻히게 되는 제로크로싱(zero crossing)보다는 훨씬 잡음에 강인한 특징을 보이므로 본 발명을 적용하는 것이 가능하다.

이어, 윈도우 정렬 시스템은 최적화된 기준값과 1차 피크 정보와의 비교 과정을 통해 몇차의 피크를 사용할지를 결정한다. 여기서, 최적화된 기준값은 음성 신호가 이용되는 다양한 시스템별로 다른 값을 가지며, 그 시스템을 최적화시킬 수 있는 기준값을 의미한다. 따라서 본 발명의 실시 예에서의 최적화된 기준값은 윈도 우 정렬 시스템의 성능이 최상이 되도록 하는 값으로, 이러한 기준값은 반복적인 실험을 통해 변경될 수 있다.

이어, 비교 과정 수행 후 220단계에서 피크 차수가 결정되었는지의 여부를 판단하고, 만일 현재 1차 피크 정보가 상기 기준값을 충족시키지 않는 경우 윈도우 정렬 시스템은 210단계로 되돌아가 다시 피크 정보를 추출하여 1차 피크 사이에 높은 피크를 2차 피크로 새로 정의한다. 즉, 도 3에 도시된 바와 같이 시간에 따라 순차적인 타임 시리즈로 나타나는 1차 피크들의 피크를 새로운 2차 피크로 정의한다.

이와 같이 피크 차수가 결정되면 윈도우 정렬 시스템은 230단계에서 결정된 차수의 피크 정보를 이용하여 윈도우 업데이트 포인트를 결정한다. 이 윈도우 업데이트 포인트가 결정되면 윈도우 정렬 시스템은 다음 윈도우 업데이트 포인트가 나타날 때까지 윈도우를 쉬프트(shift)한다. 즉, 해당 차수에서의 피크가 한번씩 전진하여 나타날 때마다 다음 업데이트 포인트가 정해지게 된다. 이에 따라 윈도우 정렬 시스템은 240단계에서 상기 결정된 업데이트 포인트를 기준으로 다음 윈도우 업데이트 포인트까지를 윈도우 길이로 결정할 수 있게 된다. 이와 같이 윈도우 정렬 시스템은 쉬프트 매카니즘(shift mechanism)을 적용하여 윈도우 업데이트를 수행한다.

한편, 해당 차수에서의 피크가 한번씩 전진하여 나타날 때마다 윈도우 길이가 결정되면, 윈도우 정렬 시스템은 250단계에서 상기 결정된 윈도우 길이 단위로 윈도우를 정렬한다. 이때, 윈도우 업데이트율은 해당 차수에서의 피크가 나타나는 주기로 자동으로 업데이트된다. 이와 같이 윈도우 길이 단위로 윈도우를 정렬하게 되면, 윈도우 정렬 시스템은 윈도우 길이를 바탕으로 윈도우의 시작점과 끝점을 알 수 있게 되어 260단계에서와 같이 특징 추출을 위한 윈도우 분석을 수행하게 된다.

상기한 과정을 예로 들어 설명하면 다음과 같다. 만일 도 3의 (c)에 도시된 바와 같이 시간축 상의 2차 피크에서 첫번째 피크(P₂)가 나타난 시점을 0ms이라고 할 경우 그 첫번째 피크(P₂)가 업데이트 포인트가 된다. 이어, 두번째 피크(P₂)가 나타날 경우 그 두번째 피크(P₂)가 다음 업데이트 포인트가 된다. 이때, 두번째 피크(P₂)가 90ms 시점에 나타났을 경우 윈도우 길이는 첫번째 업데이트 포인트와 두번째 업데이트 포인트 간의 길이인 90이 된다. 또한, 윈도우는 세번째 피크(P₂)가 나타날 때까지 쉬프트되며, 만일 200ms인 시점에서 세번째 피크(P₂)가 나타났을 경우 윈도우 길이는 110이 되며 세번째 피크(P₂)가 세번째 업데이트 포인트가 되는 것이다.

이에 따라 첫번째 윈도우 길이 단위인 90과 두번째 윈도우 길이 110인 것을 정렬하게 되며, 첫번째 윈도우의 시작점인 0을 기준으로 90까지의 윈도우 길이 단위에서 윈도우 분석을 통한 특징 추출이 이루어진다. 이어, 두번째 윈도우의 시작점인 90을 기준으로 200까지의 윈도우 길이 단위에서 윈도우 분석을 통한 특징 추출이 이루어진다. 이와 같은 방식으로 다음 차례의 윈도우의 시작점과 그 윈도우 길이를 알면 윈도우 분석이 가능하다.

이러한 방식은 음성 신호의 종류에 따라 자동으로 윈도우 업데이트율이 정해지는 방식으로, 본 발명은 처리하고자 하는 신호의 특성을 잘 활용할 수 있는 윈도우 정렬(window alignment) 방식인 것이다.

그러면, 실제 특징 추출을 위해 고정된 데이터 윈도우(fixed data window)의 시작점을 2차 피크와 정렬(align)하는 예를 살펴보기로 한다.

매그니튜드 가우시안 데이터(Magnitude Gaussian data)의 경우, 2차 피크는 약 9 데이터 포인트마다 (0.75 ms) 하나씩 나타난다. 다만, 사인 곡선(Sinusoid)이 존재할 때는, 2차 피크의 개수가 줄어서 사인파(sine wave)의 주파수에 따라서 2차 피크 사이의 평균 거리가 늘어나게 된다. 실험적으로는 30dB SNR과 12kHz 샘플링된 화이트 가우시안 노이즈(white Gaussian noise)에서 200Hz sinusoid에 대해 256 데이터 포인트에서 평균 13.3 개의 2차 피크가 존재한다. 이에 따라 각 2차 피크 사이의 거리는 평균적으로 약 16 ms가 된다.

본 발명이 적용되는 윈도우 정렬 방법은 특징 반복성(feature repeatability)을 개선하는 효과가 있는데, 이는 유성음과 같이 변함없는(consistent) 음성 신호일 경우에 더욱 두드러진다.

한편, 윈도우를 정렬하기 위해서는 윈도우를 쉬프트한 후 다음 윈도우가 그 이전의 윈도우와 상호 연관(correlate)되도록 만들어야 하는데, 하이오더 피크가 각 윈도우 간의 상호 연관을 위한 쉬프트 매카니즘을 제공하는 역할을 하는 것이다. 이것은 하이오더 피크가 성문 파형(glottal waveform)의 피크와 윈도우가 나란히 정렬되도록 하는 역할을 하기 때문에 가능한 것이다. 즉, 하이오더 피크를 이용 하게 되면, 해당 차수에서의 피크가 한번씩 전진하여 나타날 때마다 그 피크에 대응하여 윈도우가 쉬프트되고, 상기 피크와 나타나는 시점과 나란하게 윈도우 길이 단위가 정해지는 것이다.

이에 따라 본 발명은 두 인접한 업데이트 포인트 사이에(특히 유성음의 부분) 더 많은 상관관계(correlation)가 존재할수록 더욱 개선된 특징 반복성(feature repeatability)와 안정성(stability)을 얻게 된다. 즉, 윈도우 길이 단위가 불규칙적으로 변화하는 가변성(variability)이 감소하게 된다.

한편, 인접한 특징 데이터 윈도우(feature data window) 사이의 상관관계를 를 측정하기 위해서는, 하기 수학식 1과 같은 디지털 크로스-상관관계 함수(digital cross-correlation function)의 정의가 사용된다.

상기 수학식 1에서, 변수 x와 y는 인접한 특징 윈도우(feature window)들의 테이터 포인트를 의미한다. 이때, 윈도우가 오버랩(overlap)되면, y 데이터 윈도우(data window)의 첫번째 포인트는 x 데이터 윈도우(data window) 안의 어디인가에 존재하게 된다. 이때, 본 발명에서는 윈도우의 시작점이 무작위로 정해지는 것이 아니라, 각 윈도우의 시작 크기(starting amplitude)에 대한 가변성을 고려하여 정해진다. 즉, 본 발명은 윈도우가 성문 펄스(glottal pulse)에서의 아날로그 피크들 (analogue peak)중 하나의 최고점에서 시작하도록 강제함으로써, 윈도우의 정렬에 있어서 유성음의 구조에 대한 정보도 반영할 수 있다.

본 발명에서는 2차 피크(second order peak)에서 윈도우를 시작하며, 이는 아날로그 피크(analogue peak)에 대응한다. 다음 윈도우는 그 다음의 2차 피크(second order peak)에서 시작하게 되어, 이 역시 아날로그 피크(analogue peak)에 대응하게 된다. 이러한 본 발명은 특징 추출 단계 이전에 윈도우를 정렬하기 위하여 음성 신호 파형의 간단하지만 중요한 하이오더 피크(higher order peak) 정보를 이용함으로써, 음성 검출, 코딩이나 인식, 합성 등의 다음 단계의 신호 처리를 보다 수월하게 하는데 도움을 준다.

특히 도 3에 도시된 바와 같은 하이오더 피크들을 이용함으로써, 본 발명은 상관 관계 함수를 더욱 개선시키는 역할을 한다. 즉, 가변성 감소(variance reduction)의 정도에 대응하여 차수를 결정하고, 결정된 차수의 피크를 윈도우 정렬에 사용하는 것이다.

이러한 윈도우 정렬 방법은 'D.G. Childers, K. Wu, “Gender Recognition from Speech: Part 2: Fine Analysis”, J. Acoust. Soc. Am., 90 (4), pp1841-1856, October 1991'와 같은 참고문헌을 참조하여 이루어질 수 있다.

상기 참고 문헌에서는 남성 화자의 유성음 기본 주파수(fundamental frequency) 평균은 약 124 Hz 이며, 매그니튜드 데이터(magnitude data)의 아날로그 사인곡선(analogue sinusoid)의 피크는 시간축에서 약 16 ms 간격이라고 기재하고 있다. 이러한 정보를 지능적으로 활용할 경우 40ms의 윈도우 길이를 가지는 윈도우로 최대 2차 피크를 찾을 수 있으며, 40 ms 윈도우에는 평균 2 개의 피치 피크 가 있게되므로 그 2차 피크는 거의 항상 피치 피크(pitch peak)가 될 것이다. 따라서, 다음 윈도우를 현재 피크에서 14 ms 보다 더 떨어진 2차 피크에서 시작하도록 만들게 되면, 언제나 피치 피크에서 시작하는 윈도우 정렬 방법을 이룰 수 있게 된다. 따라서 피치(pitch) 정보가 사용 가능한 경우에는 피치 피크(pitch peak)를 하이오더 피크 대신 사용하는 것도 가능하다. 이에 따라 도 3에서와 같이 하이오더 피크 개념을 적용하여 해당 차수에서의 피크가 나타나게 되면, 그 피크를 윈도우의 시작점으로 선택한다. 이때, 그 피크를 윈도우의 중간점으로 선택할 수도 있다.

특히 본 발명에 따른 하이오더 피크의 개념에 기반한 윈도우 정렬 방법은 매우 간단하지만 높은 상관관계가 특징 추출의 효율성을 결정하는 유일한 요소일 때는 매우 효율적인 해법을 제시하는 방법일 수 있다.

여기서, 특징 추출의 효율성은 윈도우에서 얼마나 안정적인 에너지가 포함된 정도와 특징의 안정성에 도움이 되는 파형 움직임의 타입 사이의 복잡한 트래이드 오프(trade-off) 관계에 달려있다. 예를 들어, 성문 펄스(glottal pulse)가 시작될 때, 파형은 음성 코드(vocal cord)의 유동성으로 인해 갑작스런 불연속성을 가지고 시작하게 될 수 있다. 이러한 불연속성은 LPC 계수를 특징으로 사용할 때, 자기회귀(autoregressive) 신호 모델 가정에 대한 바이얼레이션(violation)을 일으키게 된다. 일반적으로는 해밍(Hamming) 윈도우의 사용으로 이러한 불연속성을 많이 줄일 수 있게 되며, 특징 추출에 대한 불연속성의 영향도 함께 줄어든다. 이때 큰 폭의 피치 피크가 윈도우가 되었을 경우, 평균적인 에너지 또한 줄어든다는 점에 주목해야 한다. 이를 통계표로 나타내면 하기 표 1과 같다.

상기 표 1은 512포인트 윈도우에서의 EY 음소값에 대한 1차 내지 3차의 하이오더 피크 통계표이다.

본 발명에서는 데이터 윈도우에서 하이오더 피크 기반의 성문 펄스의 피크 쉬프트 매카니즘을 이용하여 윈도우 길이를 적응적인(adaptive) 방법으로 가변시켜 설정하는 방법을 제공한다. 즉, 피크 쉬프트 논리(peak shifting logic)를 바탕으로 윈도우의 시작점과 윈도우가 오버랩(overlap)되는 정도를 결정하게 되므로, 이에 따라 윈도우의 길이가 자동으로 결정되는 것이다. 예를 들어, 2차 피크에서 첫번째로 결정된 업데이트 포인트가 윈도우의 시작점이 되고, 그 시작점을 기준으로 윈도우가 쉬프트되다가 다음 피크가 나타나는 지점이 그 윈도우가 끝나는 지점이 된다. 즉, 해당 차수에서 피크가 어떻게 나타나느냐에 따라 즉, 피크의 가변성이 윈도우 길이를 결정짓는 요소인 것이다. 이와 같이 본 발명에서는 적응적인 절차(adaptive procedure)가 가변적 특징 윈도우에 대한 이론적 배경으로서 제시되는 것이다.

한편, 상기한 본 발명에 따른 방법 이외에도 특징 추출의 가변성을 줄이기 위해 켑스트럼 계수의 처음과 끝을 감쇠(attenuation)되도록 쉐이드(shade) 즉, 필터 또는 리프트(filter or lift)하는 방법이 있을 수 있다. 일반적으로 켑스트럼 계수의 앞부부은 스펙트럼 포락선(spectral envelope)에 민감하고, 뒷부분은 잡음의 영향에 민감하다. 따라서, 상기한 방식은 반복성을 향상하기 위하여 가변성을 줄일 수는 있으나, 음성 신호의 에너지를 많이 버리게 되는 단점이 있다. 이에 반해 본 발명에서 제안하는 하이오더 피크에 기반한 윈도우 정렬을 통한 윈도우 업데이트 방법은 음성 신호의 에너지 레벨을 높게 유지하면서도 특징 추출의 안정성을 크게 향상시킬 수 있는 이점이 있다.

이하, 상기한 바와 같은 본 발명을 적용했을 경우를 구체적인 예를 도 4를 참조하여 살펴보기로 한다. 도 4는 본 발명의 실시 예에 따라 켑스트럼 계수의 표준 편차 그래프를 도시한 도면이다. 구체적으로 도 4에서는 상기 표 1의 EY 사운드의 128 포인트 윈도우 80개에 대한 켑스트럼 계수의 표준 편차를 보여 준다.

도 4에서 도면부호 400에 의해 지시되는 솔리드(solid) 커브는 종래의 고정된 업데이트 윈도우(fixed update window) 방식을 적용한 경우로서, 128 포인트와 오버랩이 없는 경우이다. 그리고 도면부호 410에 의해 지시되는 중간의 대쉬드(dashed) 커브는 128 샘플에서 가장 큰 2차 피크를 얻기 위해 0 ~ +30 포인트 내에서 쉬프트하는 방식을 적용한 경우이다. 그리고 도면부호 420에 의해 지시되는 맨아래의 점선(dotted) 커브는 -30 ~ + 30 포인트 내에서 이동하여 가장 큰 2 차 피크를 찾고 이를 윈도우의 시작점으로 사용하는 방식을 적용한 경우이다. 도 4에 도시된 바와 같이 본 발명을 적용했을 경우 표준 편차가 큰폭으로 감소한다는 것은 종래의 방법인 가장 위의 커브에 비해 더 향상된 특징 추출 특성을 보인다는 것을 의미한다. 따라서, 도 4를 통해서는 본 발명에 의한 성능 개선을 확인할 수 있다.

이어서, 본 발명이 적용되는 구체적인 예를 상세히 설명하면 다음과 같다. 본 발명의 성능 개선 정도를 알아보기 위하여, 성문 이벤트(glottal event)의 반복성이 매우 명확하게 드러나는 모음 사운드(vowel sound) EY 에서의 8kHz 샘플된 1500 포인트 세그먼트(point segment) 데이터를 비교한다.

이러한 음소(phoneme)는 간결한 음성의 단위(phonetic unit)로 간주될 수 있으나, 실질적으로는 더 작고 변함없는(consistent) 성문 마이크로이벤트(glottal microevent)의 조합으로 이루어져 있다. 여기서 2차 피크는 성문 파형(glottal waveform)의 피크에 대해 특징 데이터 윈도우(feature data window)를 정렬(align)하는 간단한 매카니즘을 제공한다.

이때, 윈도우 길이가 N=128 이며 업데이트율이 3ms 로 정해져있는 전형적인 특징 윈도우 파라미터(typical feature window parameter)에서 예컨대,EY 의 경우, 8kHz 샘플링율(sampling rate)이므로 3ms 는 24 포인트와 같다. 따라서, 고정적인 데이터 윈도우 길이와 업데이트율을 적용할 경우 상관관계 함수(correlation function)의 평균값은 308.8이 된다.

이에 반해 본 발명의 방법으로 상관관계 함수를 계산할 경우 예컨대, 각 윈도우의 앞 부분과의 상관 관계를 고려할 경우, 모든 윈도우가 각각 다른 2차 피크로 시작되게 되어 상관관계 함수의 평균값이 약 40% 정도 증가하여 435.8가 된다. 이것은 지속적인 음성 처리 시스템의 관점에서 향상된 특징 반복성(feature repeatability)이 성취되었음을 증명한다.

또한, 각 2차 피크간의 시간적 분할(temporal separation)은 약 9에서 36 포인트 정도까지 실질적으로 변화한다. 따라서 윈도우 업데이트율은 고정되어 잇지 않고 적응적으로 변화하게 되며, 그 결과 모음에서 인접한 데이터 윈도우 사이에 더욱 높은 정도의 상관관계를 이루게 되는 것이다. 이와 같이 인접한 데이터 윈도우 사이의 향상된 상관관계를 통해 특징 추출 과정에서의 더욱 향상된 특징 안정성(feature stability)를 가지게 된다.

상기한 바와 같이 본 발명은 하이오더 피크 개념을 이용한 윈도우 정렬 방법을 제시함으로써, 적응적으로 변환하는 윈도우의 시작점과 끝점을 알 수 있게 되고, 이를 통해 피크 특징 정보 추출과 분석을 용이하게 할 수 있는 이점이 있다.

또한 본 발명은 해당 차수에서의 피크 정보에 근거하여 윈도우의 시작점과 끝점을 선택함으로써 적응적인 특징 추출이 가능하므로 음성 신호가 불연속적이고 일시적인(transient) 상황에서도 가변성(variance)을 최소화하면서 유연하게 윈도우 업데이트를 할 수 있는 이점이 있다.

또한 본 발명은 음성 코딩, 인식, 합성, 강화 수행 시의 모든 음성 신호 처리 시스템에서 이용 가능한 이점이 있다.

Claims

음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템은,

입력되는 음성 신호로부터 피크 정보를 추출하는 피크 정보 추출부와,

상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 피크 차수 결정부와,

상기 결정된 피크 차수에서의 피크 정보를 이용하여 윈도우 업데이트 포인트를 결정하는 업데이트 포인트 결정부와,

상기 업데이트 포인트를 기준으로 윈도우를 쉬프트하여 윈도우 길이를 결정하는 윈도우 길이 결정부와,

상기 결정된 윈도우 길이 단위로 윈도우를 정렬하는 윈도우 정렬부와,

상기 정렬된 윈도우로부터 윈도우의 시작점과 끝점을 검출하여 특징 추출을 위한 윈도우 분석을 수행하는 윈도우 분석부를 포함함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템.
삭제
삭제
제 1항에 있어서, 상기 업데이트 포인트 결정부는

상기 피크 차수에서의 피크가 나타날 때마다 윈도우 업데이트 포인트를 업데이트함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템.
제 1항에 있어서, 상기 윈도우 길이 결정부는

현재의 업데이트 포인트를 기준으로 윈도우를 시작하고, 다음 차례의 피크 정보가 나타날 때까지 상기 윈도우를 쉬프트함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템.
제 1항에 있어서, 상기 윈도우 분석부는

상기 윈도우의 시작점과 상기 결정된 윈도우 길이를 근거로 상기 윈도우 분석을 수행함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템.
제 1항에 있어서, 상기 피크 차수 결정부는

상기 피크 정보 추출부에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의하고, 상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템.
제 1항에 있어서, 상기 피크 차수 결정부는

상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 시스템.
음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법에 있어서,

입력되는 음성 신호로부터 피크 정보를 추출하는 과정과,

상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 과정과,

상기 피크 차수에서의 피크 정보를 이용하여 윈도우 업데이트 포인트를 결정하는 과정과,

상기 업데이트 포인트를 기준으로 윈도우를 쉬프트하여 윈도우 길이를 결정하는 과정과,

상기 결정된 윈도우 길이 단위로 윈도우를 정렬하는 과정과,

상기 정렬된 윈도우로부터 윈도우의 시작점과 끝점을 검출하여 특징 추출을 위한 윈도우 분석을 수행하는 과정을 포함함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법.
삭제
삭제
제 9항에 있어서, 상기 윈도우 길이를 결정하는 과정은,

현재의 업데이트 포인트를 기준으로 윈도우를 시작하고, 다음 차례의 피크 정보가 나타날 때까지 상기 윈도우를 쉬프트하는 과정임을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법.
제 9항에 있어서, 상기 윈도우 분석을 수행하는 과정은,

상기 윈도우의 시작점과 상기 결정된 윈도우 길이를 근거로 상기 윈도우 분석을 수행하는 과정임을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법.
제 9항에 있어서, 상기 피크 차수를 결정하는 과정은,

시간 도메인 상의 음성 신호로부터 피크 정보를 추출하는 과정과,

상기 추출된 피크 정보에 대한 피크 차수를 정의하는 과정과,

상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하는 과정과,

상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법.
제 14항에 있어서,

상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행하는 과정을 더 포함함을 특징으로 하는 음성 신호에서의 피크 특징 추출이 가능한 윈도우를 정렬하는 방법.