KR100428697B1

KR100428697B1 - 음성합성방법 및 장치

Info

Publication number: KR100428697B1
Application number: KR1019970005857A
Authority: KR
Inventors: 아끼라 이노우에; 마사유끼 니시구찌
Original assignee: 소니 가부시끼 가이샤
Priority date: 1996-02-28
Filing date: 1997-02-25
Publication date: 2004-07-19
Also published as: EP0793218A3; US5864796A; EP0793218B1; JPH09230896A; DE69721108D1; CN1146864C; EP0793218A2; DE69721108T2; KR970063031A; CN1166669A

Abstract

주파수 응답 및 정신음향의 청감을 고려하여 스펙트럼 강조특성이 쉽게 결정될 수 있으며, 그 응답 설정할 때의 자유도를 높게 할 수 있는 음성합성장치에 관한 것이다. 합성필터(12)를 이용하여 여기(勵起)신호(ex(n))를 합성하여 합성음성신호를 얻고, 그 얻어진 합성음성신호를 스펙트럼 강조필터(13)로 보낸다. 스펙트럼 강조필터(13)는 합성음성신호를 스펙트럼 강조하고 그 결과의 스펙트럼 강조된 신호를 출력한다. 입력단자(21)로부터의 성도(聲道) 파라미터는 파라미터 변환회로(23)에 의해 선 스펙트럼쌍(LSP)주파수로 변환되며, 이 LSP주파수는 LSP보간회로(24)에 의해서 등간격의 선 스펙트럼쌍 주파수와의 사이에 보간됨으로써 보간된 LSP주파수를 생성한다. 스펙트럼 강조필터(13)의 전달함수는 보간된 LSP주파수에 기초하여 결정된다.

Description

음성합성방법 및 장치

본 발명은 합성필터로 여기신호를 합성하여 합성음성신호를 생성하는 음성합성방법 및 장치에 관한 것이다.

합성필터를 이용하는 음성합성장치에 있어서, 음성신호의 주관적인 품질을 향상시키기 위해서 음성합성필터 바로 뒤에 포스트-필터(post-filter)를 배치하여 사용하여 왔다.

그러한 포스트 필터로써는, 합성필터에 의해 얻어진 합성음성의 스펙트럼을 강조하는 특성을 갖는 것이 알려져 있다. 이러한 스펙트럼 강조효과는, 합성필터의 블런티드(blunted) 주파수특성에 대응하는 특성을 갖는 필터, 즉 플랫(flat) 특성에 근사한 특성을 갖는 필터를 합성필터와 일렬로 배치되도록 접속함으로써 실현될 수 있을 것이다.

도 1은 선형 예측 코딩(LPC: linear predictive coding)을 이용함으로써 음성합성을 행하는 LPC합성필터(102)를 이용하는 음성합성장치의 구성을 개략적으로 나타낸다. 도 1에서, 여기신호(ex(n))와 LPC계수({α(i)})가 입력단자(101, 106)에 각각 공급된다(여기서 i = 1, 2, …, N). LPC합성필터(102)는 여기신호(ex(n))를 필터처리하여 합성음성신호(s1(n))를 생성한다. LPC합성필터(102)의 전달함수(1/A(z))는 공급된 LPC계수({α(i)})를 이용하여 다음의 수학식 1과 같이 표현될 수 있다.

1OVER A(z) ~=~ 1over{1+sum_i=1^N α[i]z^i }

합성음성신호(s1(n))는 스펙트럼 강조필터(103)에 보내져서 스펙트럼 강조처리된 후, 출력단자(104)에서 음성신호(s2(n))로써 취출된다.

종래의 포스트 필터로써 작동하는 스펙트럼 강조필터(103)에 있어서, LPC합성필터(102)의 전달함수의 극(極)들은 원점(0)을 향하여 반경방향으로 이동되어서, 합성필터의 주파수특성에 대응하는 특성을 갖는 전달함수를 얻는다. 만일 분모만이 처리된다면, 저역강조(low range emphasis)의 틸트(tilt)가 남게 되어서, 다음의 수학식 2에 의거해서, 블런티드 특성이 분자에 적용되도록 틸트교정이 행해진다.

H(z)~=~{A(z/g_n )} over {A(z/g_d )} ~=~{1+sum_i=1^N g_n ~ ^i α[i]z^-i} over {1+sum_i=1^N g_d ~^i α[i]z^-i }

여기서 0＜gn＜gd＜1이다.

그러나, 만일 수학식 2에 표시된 바와같은 특성을 갖는 필터를 이용하여 스펙트럼강조를 행하게 된다면, 계수(gn, gd)의 설정이 곤란한 한편, 주파수특성이나 정신음향의 청감과 대응하는 것이 곤란하므로, 따라서, 적절한 계수를 설정하지 않으면 음질이 저하된다. 또한 스펙트럼 강조특성은 이들 2개의 계수(gn, gd)에 의해서만 결정되므로, 스펙트럼 강조특성 설정에 있어서의 자유도가 저하된다는 문제점도 있다.

그러므로 본 발명의 목적은 주파수특성과의 대응을 고려하도록 스펙트럼 강조특성이 쉽게 설정될 수 있으며, 특성 설정 시에 큰 자유도를 갖는 음성합성장치를 제공하는 것이다.

도 1은 전형적인 종래 음성합성장치를 나타내는 블록도이다.

도 2는 LPC 합성필터의 주파수특성과 스펙트럼 강조필터의 주파수특성 사이의 관계를 설명하는 도면이다.

도 3은 본 발명을 실시하는 음성합성장치를 나타내는 개략적 블록도이다.

도 4는 음성 스펙트럼 및 LPC주파수 사이의 관계를 설명하는 도면이다.

도 5는 주어진 LPC주파수와 등간격의 LPC 주파수 사이의 보간처리를 설명하는 도면이다.

도 6은 스펙트럼 강조필터 앞, 뒤의 음성 스펙트럼의 구체적인 예를 설명하는 도면이다.

* 도면의 주요부분에 대한 부호설명

11,21. 입력단자 12. 합성필터

13. 스펙트럼 강조필터 14. 출력단자

22,23. 파라미터 변환회로 24. LSP보간회로

25. LSP-LPC변환회로 101,106. 입력단자

102. LPC합성필터 103. 스펙트럼 강조필터

본 발명에 의하면, 합성필터에 의해서 여기신호를 합성하여 합성음성신호를 얻으며, 그 합성음성신호를 스펙트럼 강조처리하여 출력하는 음성합성장치가 제공된다. 음성합성장치는, 선 스펙트럼쌍 주파수로 표시된 합성필터의 주파수 응답을 등간격의 선 스펙트럼쌍 주파수와의 사이에 보간하기 위한 보간수단과, 보간수단으로부터의 보간된 선 스펙트럼쌍 주파수에 기초하여 전달함수를 결정하여 합성음성신호에 대하여 스펙트럼 강조처리를 행하기 위한 스펙트럼 강조수단과를 포함하여 구성된다.

틸트교정을 위해서, 분모와 분자를 갖는 스펙트럼 강조특성을 갖는 전달함수를 이용하는 것이 바람직하다. 스펙트럼 강조특성의 전달함수의 분모 및 분자는, 보간 시에 구해진 2세트의 선 스펙트럼쌍 주파수에 의해서 결정되는 것이 바람직하다.

이하에는 도면을 참고하여, 본 발명의 바람직한 실시예를 더욱 상세하게 설명한다.

도 3은 본 발명을 이용하는 음성합성방법 및 장치를 나타내는 개략적 블록도이다.

본 발명을 이용하는 음성합성장치의 기본 개념은, 입력단자(11)로부터의 여기신호를 합성필터(12)로 합성할때 얻어진 합성음성신호를, 스펙트럼 강조필터(13)에 의해 스펙트럼 강조처리 할 경우에, 선 스펙트럼쌍(LSP) 주파수로 표현된 합성필터(12)의 주파수특성은 등간격의 LSP주파수와의 사이에서 보간되며, 결과로 얻어진 보간된 LSP주파수에 대응하여 스펙트럼 강조필터(13)의 주파수특성이 결정된다는 것이다.

도 3을 참고할때, 음성합성을 위한 여기신호(ex(n))가 입력단자(11)에 공급되는 한편, 필터특성을 설정하기 위한 성도(聲道) 파라미터가 입력단자(21)에 공급된다. 입력단자(11)로부터의 여기신호(ex(n))는 합성필터(12)로 공급되어서, 합성음성신호(s1(n))가 된 후 스펙트럼 강조필터(13)로 보내진다. 스펙트럼 강조필터(13)는 스펙트럼의 볼록 및 오목을 강조하는 포스트 필터처리를 행하여서 스펙트럼 강조신호(s2(n))를 생성하고, 이 스펙트럼 강조신호는 출력단자(14)에서 취출된다.

입력단자(21)로부터의 성도 파라미터는 파라미터 변환회로(22, 23)로 보내진다. 파라미터 변환회로(22)는 입력된 성도 파라미터를 LPC계수({α[i]}) 등과 같은 합성필터(12)용 필터계수로 변환하며(여기서, i는 1, 2, …, N임), 계수를 합성필터(12)로 보낸다. LPC계수({α[i]})를 이용하면, 합성필터(12)의 전달함수(1/A(z))는 다음과 같이 된다.

1 over A(z) ~ = ~ 1 over {1+ sum_i=1^N α[i]z^-i }

파라미터 변환회로(23)는 입력단자(21)로부터의 입력된 성도 파라미터를 LSP주파수({ω[i]})로 변환하고(여기서, i=1, 2, …, N임), 그 결과 얻어진 LSP주파수를 LSP보간회로(24)로 보낸다. LSP보간회로(24)에서는 입력된 LSP주파수({ω[i]})를 플랫한 주파수 특성의 LSP주파수에 상당하는 등간격의 LSP주파수와의 사이에 보간하여 2세트의 보간 LSP주파수({ωn[i]}, {ωd[i]})를 유도하며, 이들 2세트의 보간 LSP주파수를 LSP-LPC변환회로(25)로 보낸다. LSP-LPC변환회로(25)는 2세트의 보간된 LSP주파수({ωn[i]}, {ωd[i]})를 LSP-LPC변환하여 2세트의 LPC계수({αn[i]}, {αd[i]})를 생성하며, 이들 2세트의 LPC계수를 스펙트럼 강조필터(13)로 보낸다. 이들 2세트의 LPC계수({αn[i]}, {αd[i]})에 의해서, 스펙트럼 강조필터(13)의 전달함수(H(z))는 다음과 같이 된다.

H(z) ~ = ~ {1+sum_i=1^N α_n [i]z^-i } over {1+sum_i=1^N α_d [i]z^-i }

이하에는 LSP주파수 및 LPC주파수에 대하여 간략하게 설명한다. LPC계수는 성도의 공진특성을 전극형(全極型) IIR(무한 임펄스 응답)필터에 의해 근사하도록 함으로써 얻어진 것들이다. 반면, 선 스펙트럼쌍(LSP)주파수는 성도의 공진주파수를 파라미터로써 이용하여 얻어진 것이다. 도 4는 성도의 음성 스펙트럼의 구체예와 LSP주파수 사이의 관계를 나타낸다.

i= 1, 2, 3, …, N일때, LSP주파수({ω[i]})의 순서는 다음과 같은 관계를 만족시키도록 설정된다.

0＜ω[1]＜ω[2]＜…＜ω[N]＜π

도 4의 예에서는, N=10일때 LSP주파수(ω[1], ω[2], …,ω[10])를 나타낸다. 반면, LSP계수(ci)는 다음과 같이 표현된다.

ci = -cos ω[i] (여기서, i = 1, 2, …, N임)

도 3의 LSP보간회로(24)에서는, 입력된 LSP주파수({ω[i]})를, 2세트의 적당한 보간함수(Fn(ω), Fd(ω))를 이용하여, 플랫한 주파수특성을 갖는 등간격 LSP주파수({iπ/(N+1)})와의 사이에, 즉, 도 5의 예에서는 π/11, 2π/11, …, 10π/11과의 사이에 보간을 행함으로써, 다음의 수학식 7 및 수학식 8에 의거하여 2세트의 보간된 LSP주파수({ωn(i)}, {ωd(i)})를 생성하게 된다.

ωn[i]~ =~ ｛1-Fn(ω[i])｝ω[i]+Fn(ω[i]) i over {N+1} π

ωd[i]~=~ ｛1-Fd(ω[i])｝ω[i]+Fd(ω[i]) i over {N+1} π

여기서, i = 1, 2, …, N이다.

이렇게 해서 얻어진 2세트의 보간된 LSP주파수({ωn(i)}, {ωd(i)})는 도 3에 도시된 LSP-LPC변환회로(25)에 의해 각각 ({αn(i)}, {αd(i)})로 변환된다. 이 LSP에서 LPC로의 변환에 관해서, 일반적으로 LSP주파수(ω[ i ])를 LPC성분{α[ i ]}으로 변환하는 방법을 이하에 설명할 것이다. 다음과 같이 정의된다.

A_n (z)~ =~ 1+ sum_i=1^n α[i]z^-i

B_n (z)=z^-(n+1) A_n (1/z)

만일, 편(偏)자기상관분석의 점화식

A_n+1(z) = A_n(z) - k_n+1B(z)

B_n+1(z) = z^-1[B_n(z) - k_n+1A_n(z)]

에 있어서, k_n+1이 +1일 때의 A_n+1(z)는 P(z)이고, k_n+1가 -1일 때의 A_n+1(z)는 Q(z)이라면,

P(z) = A_n(z) - B(z)

Q(z) = A_n(z) + B(z)

이 되고, 따라서

A_n(z) = [P(z) + Q(z)]／2

가 된다.

만약, p가 짝수이면,

P(z) = (1 - z^-1)Π(1 - 2z^-1cosω[ i ] + z^-2) (i = 2, 4, …, P)

Q(z) = (1 + z^-1)Π(1 - 2z^-1cosω[ i ] + z^-2) (i = 1, 3 …, P-1)

그러므로, 만일 LSP주파수({ω[i]})가 주어진다면, 수학식 16 및 수학식 17로부터 P(z)와 Q(z)를 계산하여, 수학식 15로부터 LPC계수({α[i]})를 구할 수 있게 된다.

도 3의 입력단자(21)에 공급된 성도 파라미터로는 LPC계수, LSP계수 또는 PARCOR(편자기상관)계수를 들 수 있다. 합성필터(12)에 의해 이용되는 파라미터로써도 유사하게 LPC계수나, LSP계수 또는 PARCOR(편자기상관) 계수를 들 수 있다. 이들 파라미터의 조합에 따라서, 파라미터 변환회로(22, 23)는 다음과 같은 파라미터 변환작동을 수행한다.

만일, 입력된 성도 파라미터가 LPC계수라면, LPC계수를 LSP주파수로 변환하는 LPC-LSP변환회로가 파라미터 변환회로(23)로써 이용될 것이다. 특정 파라미터 변환회로(22)는 이용되는 합성필터(12)의 유형과 다르다. 만일 LPC계수를 이용하여 음성합성을 행하는 LPC합성필터가 합성필터(12)로써 이용되는 경우에는, 파라미터 변환회로(22)는 불필요하다. 만일 합성필터(12)가 LSP주파수를 이용하여 음성합성을 실행하는 필터라면, LPC-LSP변환을 행하는 파라미터 변환회로(22)가 이용되며, 한편, 합성필터(12)가 PARCOR계수를 이용하여 음성합성을 행하는 필터라면, LPC-PARCOR변환을 행하는 파라미터 변환회로(22)를 이용하는 것이 좋다.

반면, 입력된 성도 파라미터가 LSP주파수인 경우에는, 파라미터 변환회로(23)가 필요 없다. 그러한 경우에, 합성필터(12)에 LPC계수 또는 PARCOR계수가 이용된다면, 파라미터 변환회로(22)는 각각 LSP에서 LPC로의 변환 또는 LSP에서 PARCOR으로의 변환을 행하기만 하면 된다. 만일 합성필터(12)로 LSP주파수가 이용된다면, 파라미터 변환회로(22)는 불필요하다.

만일 입력된 성도 파라미터가 PARCOR계수라면, 파라미터 변환회로(23)는 PARCOR-LSP변환을 행하는 회로인 것이 좋다. 이 경우, 파라미터 변환회로(22)는, 합성필터(12)에 LPC계수 및 LSP계수가 이용되는 경우, PARCOR에서 LPC로의 변환 및 PARCOR에서 LSP로의 변환을 각각 행하는 합성필터인 것이 좋다. 만일 PARCOR계수가 이용되는 경우에는, 파라미터 변환회로(22)가 불필요하다.

상기 설명된 실시예에서는 스펙트럼 강조필터(13)가 LPC계수를 이용하였지만, LSP 또는 PARCOR계수를 이용하는 스펙트럼 강조필터(13)를 이용할 수도 있다. 그러한 경우, 강조필터(13)에 요구되는 파라미터로의 변환을 행하는 변환회로가 LSP-LPC변환회로(25) 대신 이용될 수도 있다.

상기 설명된 음성합성장치에 있어서, 도 6에서 곡선(a)으로 표시된 바와같이, 합성필터(12)에 의해 출력된 합성음성신호는 스펙트럼 강조필터(13)에 의해서 도 6에 도시된 곡선(b)으로 표시된 바와같은 스펙트럼의 음성신호로 변환된다. 즉, 스펙트럼의 오목 및 볼록부가 강조되며, 따라서 합성음성의 품질이 향상된다.도 6의 실시예에 있어서, 보간함수(Fn(ω), Fd(ω))로써, 주파수축 상에서 각각 플랫한 함수 Fn(ω) = 0.5와 Fn(ω) = 0.3을 이용하여 얻어진 2세트의 LSP주파수를 이용함으로써 스펙트럼 강조필터(13)의 주파수 응답이 결정된다.

주파수 응답을 결정하는 파라미터로써의 LSP주파수는 LPC계수 보다 보간특성에 있어서 우수하며, 따라서, 변환된 LSP주파수를 보간함으로써, 주파수 응답 및 정신음향의 청감과의 대응을 고려하여 스펙트럼 강조특성을 쉽게 결정할 수 있다. 더욱이, 도 3의 보간함수(Fn(ω), Fd(ω))를 임의로 선택함으로써, 특성 설정에 있어서의 자유도를 더 높은 값으로 설정할 수 있게 된다.

그의 변경으로써, 도 3의 스펙트럼 강조필터(13)의 출력측에 1차의 고역 강조필터를 일렬로 접속해도 좋다. 이러한 고역 강조필터는, 틸트교정을 보완하여 저역의 주파수특성이 강조되도록 강조하기 위해 이용된다. 이러한 1차의 고역 강조필터의 전달함수는 다음과 같이 설정된다.

B(z) = 1 - μz^-1(여기서, μ＜1임)

합성음성신호의 편자기상관에 있어서, 즉, 합성음성신호의 예측잔차 간의 상관에 있어서, 1차의 편자기상관(PARCOR)계수(k[1])는 실제적으로 음성스펙트럼신호의 기울기를 나타낸다. 그것을 이용하여, 1차의 고역 강조필터의 전달함수는 다음과 같이 설정되는 것이 바람직하다.

B(z) = 1 - k[1]z^-1

수학식 19의 경우에, 계수(k[1])는 합성음성신호에 대응하여 변화되므로, 따라서 적응하는 1차의 고역 강조가 행해질 수 있다.

상기의 설명으로부터 명백하게 되는 바와같이, 본 발명에 따른 음성합성장치에 의하면, 합성필터의 주파수특성을 선 스펙트럼쌍 주파수로 표시한 것을 등간격의 선 스펙트럼쌍 주파수와의 사이에서 보간하며, 얻어진 선 스펙트럼쌍 주파수에 의거해서 전달함수가 결정된 스펙트럼 강조수단에 의하여 합성음성신호에 대하여 스펙트럼 강조처리를 시행하고 있기 때문에, 스펙트럼 강조특성의 결정이 주파수특성이나 첨감과의 대응을 고려하여 용이하게 행하고, 특성설정할 때의 자유도도 큰 음성합성장치를 제공할 수 있다.

Claims

여기신호를 합성필터로 합성하여 합성음성신호를 얻고, 얻어진 합성음성신호를 스펙트럼 강조처리하여 출력하는 음성합성장치에 있어서,

선 스펙트럼쌍 주파수로 표현된 합성필터의 주파수 응답을 등간격의 선 스펙트럼쌍 주파수와의 사이에서 보간하기 위한 보간수단과,

상기 보간수단으로부터의 보간된 선 스펙트럼쌍 주파수에 기초하여 전달함수를 결정하여 상기 합성음성신호에 대하여 스펙트럼 강조처리를 행하기 위한 스펙트럼 강조수단과,를 포함하여 구성된 것을 특징으로 하는 음성합성장치.
제 1항에 있어서,

상기 보간수단은 2세트의 보간된 선 스펙트럼쌍 주파수를 출력하고, 상기 스펙트럼 강조수단은 상기 2세트의 보간된 선 스펙트럼쌍 주파수에 기초하여 전달함수의 분모 및 분자를 결정하는 것을 특징으로 하는 음성합성장치.
제 1항에 있어서,

상기 스펙트럼 강조수단은 보간된 선 스펙트럼쌍 주파수에 기초하여 결정된 전달함수와

B(z) = 1 - μz^-1(여기서, μ＜1임)

의 전달함수와를 합성한 특성을 갖는 것을 특징으로 하는 음성합성장치.
제 1항에 있어서,

상기 스펙트럼 강조수단은 보간된 선 스펙트럼쌍 주파수에 기초하여 결정된 전달함수와 k[1]가 합성음성신호의 1차의 편자기상관계수일때

B(z) = 1 - k[1]z^-1

로 표현되는 전달함수와를 합성한 특성을 갖는 것을 특징으로 하는 음성합성장치.
여기신호를 합성필터로 합성하여 합성음성신호를 얻고, 얻어진 합성음성신호를 스펙트럼 강조처리하여 출력하는 음성합성방법에 있어서,

선 스펙트럼쌍 주파수로 표현된 합성필터의 주파수 응답을 등간격의 선 스펙트럼쌍 주파수와의 사이에서 보간하는 보간단계와,

상기 보간단계로부터의 보간된 선 스펙트럼쌍 주파수에 기초하여 전달함수를 결정하여 합성음성신호에 대하여 스펙트럼 강조처리를 행하는 스펙트럼 강조단계와,를 포함하는 것을 특징으로 하는 음성합성방법.
제 5항에 있어서,

상기 보간단계에서는 2세트의 보간된 선 스펙트럼쌍 주파수를 출력하고, 상기 스펙트럼 강조단계에서는 상기 2세트의 보간된 선 스펙트럼쌍 주파수에 기초하여 전달함수의 분모 및 분자를 결정하는 것을 특징으로 하는 음성합성방법.
제 5항에 있어서,

상기 스펙트럼 강조단계는 보간된 선 스펙트럼쌍 주파수에 기초하여 결정된 전달함수와

B(z) = 1 - μz^-1(여기서, μ＜1임)

의 전달함수와를 합성한 특성을 갖는 것을 특징으로 하는 음성합성방법.
제 5항에 있어서,

상기 스펙트럼 강조단계는 보간된 선 스펙트럼쌍 주파수에 기초하여 결정된 전달함수와 k[1]가 합성음성신호의 1차의 편자기상관계수일 때

B(z) = 1 - k[1]z^-1

로 표현되는 전달함수와를 합성한 특성을 갖는 것을 특징으로 하는 음성합성방법.