JP6167063B2 - Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof - Google Patents
Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof Download PDFInfo
- Publication number
- JP6167063B2 JP6167063B2 JP2014082920A JP2014082920A JP6167063B2 JP 6167063 B2 JP6167063 B2 JP 6167063B2 JP 2014082920 A JP2014082920 A JP 2014082920A JP 2014082920 A JP2014082920 A JP 2014082920A JP 6167063 B2 JP6167063 B2 JP 6167063B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- vocal tract
- tract spectrum
- phoneme
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、ある音声データの発話リズムを他の音声データの発話リズムに変換する技術に関する。 The present invention relates to a technique for converting an utterance rhythm of certain audio data into an utterance rhythm of other audio data.
声道スペクトル、例えばLSPパラメータの時系列信号Yから時間関数Φを求める非負値時空間分解法という方法が提案されている(非特許文献1参照)。時系列信号Yの時間長をT、時刻を表すインデックスをt、Y={Y(1),…,Y(t),…,Y(T)}である。また、LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとすると、Y(t)={y1(t),…,yi(t),…,yp(t)}である。よって、yi(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータyi(t)とも記載する。また、Φ={Φ(1),…,Φ(t),…,Φ(T)}であり、時系列信号Yに対応する音声データに含まれる音素の総数を(m-2)とし、kを音素を表すインデックス、k=1,…,mとすると(ただし、k=1、k=mをそれぞれ始まりと終わりを表すインデックスとする)、Φ(t)={φ1(t),…,φk(t),…,φm(t)}である。よって、φk(t)は時刻tにおける音素kの時間関数の値を表し、単に時間関数φk(t)とも記載する。時空間分解法では、以下の分解が行われる。
さて、異なる(あるいは同一)話者の同一文章発声のLSPパラメータの時系列信号Z={Z(1),…,Z(s),…,Z(S)}から非負値時空間分解法により求めた時間関数Ωに従ってLSPパラメータの時系列信号Yの発話リズムを、LSPパラメータの時系列信号Zの発話リズムに変換することを考える。時間関数Ωの時間長Sは、Tと異なってもよい。時間関数Φと時間関数Ωとに存在するそれぞれの音素が対応していれば、時間関数Φと時間関数Ωとを入れ替える、つまり
しかしながら、非特許文献2の方法により発話リズムを変換した声道スペクトルから音声を合成した場合、時刻tk-1≦t≦tkにおいて、時刻t=tk-1とt=tkとでは、実際に音声データから得られるLSPパラメータyi(tk-1)とyi(tk)の値が用いられるが、その間の時刻tk-1<t<tkのLSPパラメータはyi(tk-1)とyi(tk)の値の補間によって求められる。そのため、変換音声の自然性が不十分となる問題がある。 However, when speech is synthesized from the vocal tract spectrum with the utterance rhythm converted by the method of Non-Patent Document 2, at time t k−1 ≦ t ≦ t k , at time t = t k−1 and t = t k The values of the LSP parameters y i (t k-1 ) and y i (t k ) actually obtained from the speech data are used, and the LSP parameters at the time t k-1 <t <t k are y i It is obtained by interpolation of the values of (t k-1 ) and y i (t k ). Therefore, there is a problem that the naturalness of the converted speech becomes insufficient.
本発明は、変換音声の自然性を従来よりも向上させるために、ある声道スペクトルの時系列に対応する発話リズムを他の音声スペクトルの時系列に対応する発話リズムに変換するための行列である変換行列を生成する発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラムを提供することを目的とする。 The present invention is a matrix for converting an utterance rhythm corresponding to a time series of a certain vocal tract spectrum into an utterance rhythm corresponding to a time series of another voice spectrum, in order to improve the naturalness of the converted speech. An object of the present invention is to provide an utterance rhythm conversion matrix generation device, an utterance rhythm conversion device, an utterance rhythm conversion matrix generation method, and a program thereof that generate a certain conversion matrix.
上記の課題を解決するために、本発明の一態様によれば、発話リズム変換行列生成装置は、音素に対する重みと時刻との関係を示す関数を時間関数とし、非負値時空間分解法により、第一音声データの第一声道スペクトルに対する時間関数である第一時間関数を求める非負値時空間分解部と、第一時間関数と対応する音素に対する重みと時刻との関係を示す時間関数を第二時間関数とし、第二時間関数に対応する声道スペクトルを第二声道スペクトルとし、第一時間関数と第二時間関数とを用いて、第一声道スペクトルの発話リズムを第二声道スペクトルの発話リズムに変換するための行列である変換行列を生成する変換行列生成部と、を含む。 In order to solve the above-described problem, according to one aspect of the present invention, an utterance rhythm transformation matrix generation device uses a function indicating a relationship between a weight for a phoneme and time as a time function, and uses a non-negative space-time decomposition method, A non-negative space-time decomposition unit that obtains a first time function that is a time function for the first vocal tract spectrum of the first speech data, and a time function that indicates the relationship between the weight and time for the phoneme corresponding to the first time function. The vocal tract spectrum corresponding to the second time function is defined as the second vocal tract spectrum, and the utterance rhythm of the first vocal tract spectrum is determined as the second vocal tract using the first time function and the second time function. A conversion matrix generation unit that generates a conversion matrix that is a matrix for converting into an utterance rhythm of a spectrum.
上記の課題を解決するために、本発明の他の態様によれば、発話リズム変換行列生成方法は、音素に対する重みと時刻との関係を示す関数を時間関数とし、非負値時空間分解法により、第一音声データの第一声道スペクトルに対する時間関数である第一時間関数を求める非負値時空間分解ステップと、第一時間関数と対応する音素に対する重みと時刻との関係を示す時間関数を第二時間関数とし、第二時間関数に対応する声道スペクトルを第二声道スペクトルとし、第一時間関数と第二時間関数とを用いて、第一声道スペクトルの発話リズムを第二声道スペクトルの発話リズムに変換するための行列である変換行列を生成する変換行列生成ステップと、を含む。 In order to solve the above-described problem, according to another aspect of the present invention, an utterance rhythm transformation matrix generation method uses a function indicating a relationship between a weight for a phoneme and time as a time function, and uses a non-negative space-time decomposition method. A non-negative spatio-temporal decomposition step for obtaining a first time function that is a time function for the first vocal tract spectrum of the first speech data, and a time function indicating a relationship between a weight and a time for a phoneme corresponding to the first time function. The vocal tract spectrum corresponding to the second time function is set as the second vocal tract spectrum, and the utterance rhythm of the first vocal tract spectrum is set to the second voice by using the first time function and the second time function. A transformation matrix generation step of generating a transformation matrix that is a matrix for transformation into the utterance rhythm of the road spectrum.
本発明により生成した変換行列を用いて、発話リズムを変換することで、変換音声の自然性を従来よりも向上させることができるという効果を奏する。 By converting the utterance rhythm using the conversion matrix generated by the present invention, there is an effect that the naturalness of the converted speech can be improved as compared with the conventional case.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
<第一実施形態>
変換対象となる声道スペクトルの時系列をY、その時間関数をΦとした場合、与えられた時間関数Ωを用いて変換行列G、HまたはKを決定し、この変換行列を用いて声道スペクトルの時系列Yの発話リズムを時間関数Ωに対応する発話リズムに変換する。なお、時間関数とは、音素に対する重みと時刻との関係を示す関数であり、発話リズムを表す。
<First embodiment>
If the time series of the vocal tract spectrum to be converted is Y and its time function is Φ, the transformation matrix G, H, or K is determined using the given time function Ω, and the vocal tract is used using this transformation matrix. The utterance rhythm of the spectrum time series Y is converted to the utterance rhythm corresponding to the time function Ω. The time function is a function indicating the relationship between the weight for the phoneme and the time, and represents the speech rhythm.
<第一実施形態に係る発話リズム変換行列生成装置10>
図1は本実施形態に係る発話リズム変換行列生成装置10の機能ブロック図を、図2はその処理フローの例を示す。
<Speech Rhythm Conversion Matrix Generation
FIG. 1 is a functional block diagram of an utterance rhythm conversion
発話リズム変換行列生成装置10は、声道スペクトル抽出部11と、非負値時空間分解部12と、変換行列生成部13とを含む。
The utterance rhythm conversion
発話リズム変換行列生成装置10は、話者Aの音声データXΦを受け取り、変換行列G,HまたはKを出力する。本実施形態では、話者Bの音声データXΩも受け取るものとする。なお、音声データXΩには、音声データXΦに含まれる音素の時系列と同じ時系列が含まれるものとする。例えば、話者A及び話者Bをそれぞれ日本語母語話者及び英語母語話者とし、話者A及び話者Bがそれぞれ同一文章を発声したものをマイクロホン等を用いてそれぞれ収音し、収音した音声データXΦ及びXΩを用いる。
The utterance rhythm conversion
<声道スペクトル抽出部11>
声道スペクトル抽出部11は、音声データXΦ及びXΩを受け取り、既知の技術を用いて、それぞれ声道スペクトル分析を行い、声道スペクトル(例えばLSPパラメータ)の時系列YΦ及びYΩを抽出し(s11)、非負値時空間分解部12に出力する。例えば、非特許文献1や参考文献1の方法を用いて、声道スペクトルを抽出することができる。
(参考文献1)廣谷定男、持田岳美、「位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定」、信学技法、2010年、pp.41-46
<Vocal tract
Vocal tract
(Reference 1) Sadao Shibuya, Takemi Mochida, “Estimating robust vocal tract spectrum using linear prediction based on phase equalization”, IEICE Tech., 2010, pp.41-46
<非負値時空間分解部12>
非負値時空間分解部12は、声道スペクトルの時系列YΦ及びYΩを受け取り、それぞれ既知の技術である非負値時空間分解法を用いて、
Nonnegative value
例えば、
同様の方法により、時間関数ωk-1(s)、ωk(s)を求めることができる。式中、ai,k=yΩ,i(sk)とし、yΦ,i(tk)をyΩ,i(sk)に、tをsに、tkをsk等のように置き換えることで、時間差分δk(s)、時間差分δk-1(s)を求めることができ、そこから時間関数ωk(s)、時間関数ωk-1(s)を求めることができる。 The time functions ω k-1 (s) and ω k (s) can be obtained by the same method. Where a i, k = y Ω, i (s k ), y Φ, i (t k ) to y Ω, i (s k ), t to s, t k to s k, etc. To obtain the time difference δ k (s) and the time difference δ k-1 (s), from which the time function ω k (s) and the time function ω k-1 (s) are obtained. Can do.
<変換行列生成部13>
変換行列生成部13は、時間関数Φ及びΩを受け取り、これらの値を用いて変換行列G、HまたはKを生成し(s13)、出力する。変換行列は、声道スペクトルYΦの発話リズムを声道スペクトルYΩの発話リズムに変換するための行列である。以下に変換行列G,H,Kの生成方法を説明する。
<
The transformation
(生成方法1)
非負値時空間分解法で得られる時間関数は[0,1]の範囲に制限されるため、時刻sの時間関数ωk(s)の値に最も近い、時刻tの時間関数φk(t)の値を探索により求め、そのときの時刻tの声道スペクトルYφ(t)を時刻sにおける声道スペクトルY'φ(s)(=Yφ(t))として出力する。これを変換行列Gにより実現するためには、時間関数Ωの時刻sと、時間関数Φの時刻tとを関係付ければ良い。例えば、sk-1≦s≦sk、tk-1≦t≦tkにおいて、時刻sに対して、時間関数ωk(s)と時間関数φk(t)との差分が最も小さくなる時刻tを関係付ける。変換行列GはS行T列の行列であり、そのs行t列の要素をG(s,t)とすると、
Since the time function obtained by the non-negative space-time decomposition method is limited to the range [0, 1], the time function φ k (t at time t closest to the value of the time function ω k (s) at time s. ) Is obtained by searching, and the vocal tract spectrum Y φ (t) at time t is output as the vocal tract spectrum Y ′ φ (s) (= Y φ (t)) at time s. In order to realize this by the transformation matrix G, the time s of the time function Ω may be related to the time t of the time function Φ. For example, when s k-1 ≦ s ≦ s k and t k-1 ≦ t ≦ t k , the difference between the time function ω k (s) and the time function φ k (t) is the smallest for the time s. Is related to time t. The transformation matrix G is a matrix of S rows and T columns, and the element of the s rows and t columns is G (s, t).
(生成方法2)
生成方法1により求まる変換行列Gを用いて声道スペクトルYの変換を行った場合、Gの値が離散的に変化するため、声道スペクトルが不連続に変化する可能性がある。そこで、時刻t-1の声道スペクトルYφ(t-1)と時刻tの声道スペクトルYφ(t)との重み付け和を考え、声道スペクトルが時間的に連続して変化するように、変換行列Gを生成する。例えば式(18)〜式(22)を用いて変換行列Gを生成する。生成方法1で求まったt*(s)(時刻sに対して関係付られた時刻t)を用いて、
G(s,t*(s))=0 (22)
とする。式(18)、(19)において、要素G(s,t*(s)-1)と要素G(s,t*(s))とは、時間関数φk(t*(s)-1)と時間関数φk(t*(s))とを時間関数ωk(s)で内分したものである(図3参照)。
(Generation method 2)
When the vocal tract spectrum Y is transformed using the transformation matrix G obtained by the
G (s, t * (s)) = 0 (22)
And In the equations (18) and (19), the element G (s, t * (s) -1) and the element G (s, t * (s)) are represented by the time function φ k (t * (s) −1. ) And the time function φ k (t * (s)) are internally divided by the time function ω k (s) (see FIG. 3).
式(20)、(21)において、要素G(s,t*(s))と要素G(s,t*(s)+1)とは、時間関数φk(t*(s))と時間関数φk(t*(s)+1)とを時間関数ωk(s)で内分したものである。Gの数値例は、
(生成方法3)
生成方法2では、2点間の重み付け和となるように変換行列の要素G(s,t)を決定したが、3点以上の重み付け和となるように要素G(s,t)を決定してもよい。その場合、要素G(s,t)の値を解析的に求めることが困難であるため、非特許文献1で用いられている乗算型更新を用いて、以下の評価関数Qを最小にするような要素G(s,t)の値を反復的に求める。
In generation method 2, element G (s, t) of the transformation matrix is determined so as to be a weighted sum between two points, but element G (s, t) is determined so as to be a weighted sum of three or more points. May be. In that case, since it is difficult to analytically determine the value of the element G (s, t), the following evaluation function Q is minimized by using the multiplication type update used in
ここで、第1項は時間関数φk(s)と時間関数ωk(s)との二乗誤差で、第2項は重みの和が1となるための制約、αはその制約のための重み係数である。例えば、α=1とする。非特許文献1で用いられている乗算型更新を用いることで、変換行列Gの初期値が非負値であれば非負値に収束するため、要素G(s,t)が非負値となるような制約を評価関数Qに加える必要はない。乗算型更新式は、評価関数Qを微分した結果、正の符号をもつ項を分母、負の符号をもつ項を分子とすることで次のように求まる。
例えば5点の重み付け和としたい場合、生成方法1で求まったt*(s)を用いて、τの範囲をt*(s)-2〜t*(s)+2のようにすればよい。例えば、変換行列Gの要素G(s,t)の初期値を[0,1]の範囲の乱数に設定し、更新による評価関数Qの値の変化が十分小さくなったとき、あるいは予め指定した更新回数に達したとき(所定の条件を満したとき)の変換行列Gの値を出力する。二乗誤差ではなく、カルバック・ライブラー距離や板倉斉藤歪みなどの距離尺度を用いることも可能である。
For example, when it is desired to use a weighted sum of 5 points, the range of τ may be set to t * (s) -2 to t * (s) +2 using t * (s) obtained by the
例えば、カルバック・ライブラー距離を用いたとき、評価関数Qは次式により表される。
さらに、この評価関数Qを最小にする乗算型更新式は、次式により表される。
また、板倉斉藤歪みを用いたとき、評価関数Qは次式により表される。
さらに、この評価関数Qを最小にする乗算型更新式は、次式により表される。
(生成方法4)
2つの駆動時点tk-1とtkの声道スペクトルの補間となるような変換行列Hを求める。行列の要素は、
A transformation matrix H that is an interpolation of the vocal tract spectrum at two driving time points t k-1 and t k is obtained. The elements of the matrix are
例えば、日本語母語話者と英語母語話者とが同じ文や単語を発声した場合、それぞれの音声データに含まれる音素が異なる場合がある。例えば、英文を読んだときに、英語母語話者は、日本語母語話者に比べ母音を省略する傾向があり、そのような場合、一方の音声データに含まれる音素の時系列が、他方の音声データに含まれる音素の時系列とは異なる。その場合、生成方法1〜3で求めた変換行列Gでは対応できないが、本生成方法で求めた変換行列Hであれば、適切に音素を省略することができる。
For example, when a Japanese native speaker and an English native speaker utter the same sentence or word, the phonemes included in the respective speech data may be different. For example, when reading English, native English speakers tend to omit vowels compared to native Japanese speakers. In such a case, the time series of phonemes contained in one speech data This is different from the time series of phonemes included in the speech data. In that case, the conversion matrix G obtained by the
例えば、”roundup”という単語の”du”に着目すると、日本語母語話者は/doa/と/d/の後に母音/o/を挿入して発声し、英語母語話者は/da/と発声する傾向がある。日本語母語話者の発話リズムを英語母語話者のそれに変換する場合、日本語母語話者の/o/は取り除くことが適切である。日本語母語話者の/d/と/a/の声道スペクトルと変換行列Hを用いることで、母音/o/を取り除き、かつ/d/と/a/の間の声道スペクトルを滑らかに変化させることができる。 For example, focusing on the word “du” in the word “roundup”, a Japanese native speaker speaks by inserting the vowel / o / after / doa / and / d /, and an English native speaker is / da /. There is a tendency to speak. When converting the utterance rhythm of the native Japanese speaker to that of the native English speaker, it is appropriate to remove / o / from the native Japanese speaker. By using the vocal tract spectrum of Japanese native speakers / d / and / a / and the transformation matrix H, the vowel / o / is removed and the vocal tract spectrum between / d / and / a / is smoothed. Can be changed.
この生成方法における時間関数φk(t)と時間関数ωk(s)との関係は、時刻tkと時刻skにおいてφk(tk)=ωk(sk)=1が満たされるのみであり、変換行列Hはほとんど時間関数φk(t)によって決まることが特徴である。 The relationship between the time function φ k (t) and the time function ω k (s) in this generation method is such that φ k (t k ) = ω k (s k ) = 1 is satisfied at time t k and time s k . The transformation matrix H is almost determined by the time function φ k (t).
(生成方法5)
変換行列として、生成方法1〜4で求められた変換行列Gあるいは変換行列Hをそのまま用いることも可能であるが、変換行列を用いた変換による声道スペクトルの急激な変化を避けるため、変換行列G及びHを重みwによって補間することもできる。例えば、生成方法1〜3の何れかで生成される変換行列Gと、生成方法4で生成される変換行列Hとを用いて、次式により変換行列Kを生成する(図1参照)。
As the transformation matrix, the transformation matrix G or transformation matrix H obtained by the
ただし、0≦w≦1であり、例えばw=0.5に設定する。また、生成方法1〜3で生成される変換行列をそれぞれG1,G2及びG3とし、w1≧0、w2≧0、w3≧0、0≦w1+w2+w3≦1とし、
<第一実施形態に係る発話リズム変換装置20>
図4は本実施形態に係る発話リズム変換装置20の機能ブロック図を、図5はその処理フローの例を示す。
発話リズム変換装置20は、声道スペクトル抽出部21、発話リズム変換部22及び音声合成部23を含む。
発話リズム変換装置20は、話者Aの音声データXΦを受け取り、音声データX'Φを出力する。なお、音声データX'Φは、話者Aの音声データXΦの発話リズムを、話者Bの音声データXΩの発話リズムに変換したものである。
<Speech
FIG. 4 is a functional block diagram of the utterance
The utterance
The
<声道スペクトル抽出部21>
声道スペクトル抽出部21は、音声データXΦを受け取り、既知の技術を用いて、声道スペクトル分析を行い、声道スペクトルの時系列YΦ及び音源信号の時系列ZΦを抽出し(s21)、発話リズム変換部22に出力する。例えば、非特許文献1や参考文献1の方法を用いて、声道スペクトル及び音源信号を抽出することができる。
<Vocal tract
Vocal tract
例えば、音源信号は、音声区間以外あるいは無声の音声区間では白色雑音に白色雑音ゲインを乗じたものを用いる。有声の音声区間では、基本周波数、パルスゲインおよびマルチパルス音源モデルから計算されるマルチパルス、あるいは基本周波数とパルスゲインから計算される単一パルス列を用いる。なお、基本周波数やゲイン(白色雑音ゲインやパルスゲイン)等は既知の技術を用いて抽出すればよい。例えば、参考文献2の方法により抽出することができる。 For example, as a sound source signal, a signal obtained by multiplying white noise by a white noise gain is used in a voice section other than a voice section or a voiceless voice section. In the voiced speech section, a multipulse calculated from the fundamental frequency, pulse gain, and multipulse sound source model, or a single pulse train calculated from the fundamental frequency and pulse gain is used. The fundamental frequency, gain (white noise gain, pulse gain), etc. may be extracted using a known technique. For example, it can be extracted by the method of Reference 2.
<発話リズム変換部22>
発話リズム変換部22は、声道スペクトルの時系列YΦ及び音源信号の時系列ZΦと変換行列G,HまたはKを受け取り、次式のように声道スペクトルの時系列YΦ及び音源信号の時系列ZΦに変換行列G,HまたはK(例えばG)を乗じて、声道スペクトルの時系列Y'Φ及び音源信号の時系列Z'Φを求め(s22)、音声合成部23に出力する。
Y'Φ=G×YΦ (32)
Z'Φ=G×ZΦ (33)
なお、声道スペクトルの時系列Y'Φの発話リズムは、声道スペクトルの時系列YΩの発話リズムと同一である。
<Speech
Speech
Y ' Φ = G × Y Φ (32)
Z ' Φ = G × Z Φ (33)
Note that the speech rhythm of the time series Y′Φ of the vocal tract spectrum is the same as the speech rhythm of the time series Y Ω of the vocal tract spectrum.
例えば、音源信号の時系列ZΦを求めるために、発話リズム変換部22では、基本周波数やゲイン(白色雑音ゲインやパルスゲイン)等に変換行列を乗じ、声道スペクトルの時系列Y'Φに時間長が対応する基本周波数やゲインを求めればよい。
For example, in order to obtain the time series Z Φ of the sound source signal, the speech
<音声合成部23>
音声合成部23は、音源信号の時系列Z'Φと声道スペクトルの時系列Y'Φとを受け取り、これらの値を用いて音声合成を行う。例えば、参考文献2の方法により音声合成を行い(s23)、音声データX'Φを、発話リズム変換装置20の出力値として出力する。
(参考文献2)特開2011−150232号公報
例えば、声道スペクトルの時系列Y'Φと音源信号の時系列Z'Φを畳み込み演算することにより音声合成を行う。
<
(Reference 2) JP 2011-150232 Unexamined performs speech synthesis by convolution of the 'time-series Z of [Phi and the sound source signal' [Phi chronological Y vocal tract spectrum.
なお、隣接するフレームで有声と無声(通常、基本周波数を0とする)が切り替わる場合、生成方法2〜5の重み付け和を用いると適切な変換とならないことがある。このようなフレームには、生成方法1を用いるとよい。
When voiced and unvoiced (usually with a fundamental frequency of 0) are switched between adjacent frames, the conversion may not be appropriate if the weighted sums of the generation methods 2 to 5 are used.
<効果>
このような構成により、生成した変換行列を用いて、発話リズムを変換することで、変換音声の自然性を従来よりも向上させることができる。
<Effect>
With such a configuration, by converting the utterance rhythm using the generated conversion matrix, the naturalness of the converted speech can be improved as compared with the conventional case.
<変形例>
発話リズム変換行列生成装置10のポイントは、時間関数ΩとΦを用いて、変換行列を生成する点にある。よって、他の装置で求められた時間関数ΩとΦを受け取り、変換行列生成処理(s13)を行い、変換行列を出力する構成としてもよい。その場合、声道スペクトル抽出部11及び非負値時空間分解部12を含まなくともよい。また、声道スペクトルを入力とし、声道スペクトル抽出部11を含まない構成としてもよい。
<Modification>
The point of the utterance rhythm conversion
本実施形態では、説明を簡潔にするため、音声データXΩに含まれる音素の時系列と音声データXΦに含まれる音素の時系列とが同一であるものとしているが、必ずしも同一でなくともよい。例えば、日本語母語話者と英語母語話者とが同じ文や単語を発声した場合、それぞれの音声データに含まれる音素が異なる場合がある。例えば、英文を読んだときに、英語母語話者は、日本語母語話者に比べ母音を省略する傾向があり、そのような場合、一方の音声データに含まれる音素の時系列が、他方の音素の時系列とは異なる。その場合、本実施形態の処理を行う前に、音素の多い音声データから音素を省略したり、音素の少ない音声データに音素を追加し、音素の数を同一とすればよい。よって、音声データXΩに含まれる音素の時系列と音声データXΦに含まれる音素の時系列とは必ずしも同一である必要はなく、対応するものであればよい。 In the present embodiment, for simplicity of explanation, the time series of phonemes contained in time-series and the audio data X [Phi phoneme included in the voice data X Omega are assumed to be identical, not necessarily identical Good. For example, when a Japanese native speaker and an English native speaker utter the same sentence or word, the phonemes included in the respective speech data may be different. For example, when reading English, native English speakers tend to omit vowels compared to native Japanese speakers. In such a case, the time series of phonemes contained in one speech data It is different from the phoneme time series. In that case, before performing the processing of the present embodiment, the phonemes may be omitted from the speech data with a large number of phonemes, or the phonemes may be added to the speech data with a small number of phonemes to make the number of phonemes the same. Thus, not necessarily the same as the time series of phonemes contained in time-series and the audio data X [Phi phoneme included in the voice data X Omega, as long as the corresponding.
変換対象となる声道スペクトルはLSPパラメータに限らない。他の声道スペクトルであってもよい。 The vocal tract spectrum to be converted is not limited to LSP parameters. Other vocal tract spectra may be used.
発話リズム変換行列生成装置10を発話リズム変換装置20の内部に備えてもよい(図6参照)。非負値時空間分解処理(s12)及び変換行列生成処理(s13)を発話リズム変換処理(s22)に先立ち行っておく必要がある(図7参照)。
The utterance rhythm conversion
本実施形態では、式(15)、式(16)において、ai,k=yi(tk)としたが、以下の式(33)、(34)によりai,kを求めてもよい(非特許文献1参照)。
本実施形態では、話者Bの音声データXΩに基づき声道スペクトル抽出処理(s12)、非負値時空間分解処理(s13)により時間関数Ωを求めているが、他の方法により、時間関数Ωを求めてもよい。例えば、時間関数Φからの変換により変換関数Ωを求めてもよい。例えば、ある母語話者に特徴的な時間関数Φを他の母語話者に特徴的な時間関数Ωに変換するための変換規則等が存在する場合には、その変換規則に従って、時間関数Φからの変換により変換関数Ωを求めてもよい。また、時間関数Φの時間軸を伸縮させることにより求めてもよいし、時間関数Ωの制約(sk-1≦s≦sk、ωk-1(s)+ωk(s)=1、ωk-1(s)>0、ωk(s)>0)を満たすものを任意に作成することで求めてもよい。また、通常、発話リズムを変えるために、話者A以外の話者が発声した音声データを用いるが、必ずしもA以外の話者である必要はなく、話者Aが発声した音声データを用いて時間関数Ωを求めてもよい。 In the present embodiment, the time function Ω is obtained by the vocal tract spectrum extraction process (s12) and the non-negative space-time decomposition process (s13) based on the voice data XΩ of the speaker B. Ω may be obtained. For example, the conversion function Ω may be obtained by conversion from the time function Φ. For example, if there is a conversion rule for converting a time function Φ characteristic of a native speaker into a time function Ω characteristic of another native speaker, the time function Φ The conversion function Ω may be obtained by conversion of Further, it may be obtained by expanding or contracting the time axis of the time function Φ, or the constraints of the time function Ω (s k-1 ≦ s ≦ s k , ω k-1 (s) + ω k (s) = 1 , Ω k-1 (s)> 0, ω k (s)> 0) may be arbitrarily created. Also, in order to change the utterance rhythm, voice data uttered by a speaker other than the speaker A is usually used, but it is not always necessary to be a speaker other than the A, and the voice data uttered by the speaker A is used. The time function Ω may be obtained.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.
Claims (8)
第一時間関数と対応する音素に対する重みと時刻との関係を示す時間関数を第二時間関数とし、第二時間関数に対応する声道スペクトルを第二声道スペクトルとし、前記第一時間関数と第二時間関数とを用いて、前記第一声道スペクトルの発話リズムを第二声道スペクトルの発話リズムに変換するための行列である変換行列を生成する変換行列生成部と、を含む、
発話リズム変換行列生成装置。 Non-negative spatio-temporal decomposition to obtain the first time function, which is the time function for the first vocal tract spectrum of the first speech data, using the non-negative spatio-temporal decomposition method as a function that represents the relationship between the weight for the phoneme and the time. And
The time function indicating the relationship between the time and the weight for the phoneme corresponding to the first time function is the second time function, the vocal tract spectrum corresponding to the second time function is the second vocal tract spectrum, and the first time function A conversion matrix generation unit that generates a conversion matrix that is a matrix for converting the utterance rhythm of the first vocal tract spectrum into the utterance rhythm of the second vocal tract spectrum using a second time function,
Utterance rhythm conversion matrix generator.
前記第一声道スペクトルの時間長をT、前記第二声道スペクトルの時間長をSとし、前記変換行列をS行T列の行列とし、s=1,…,S、t=1,…,T、前記変換行列のs行t列の要素をG(s,t)とし、前記第一声道スペクトルに含まれる音素の総数をKとし、前記第一声道スペクトルの時系列の音素のそれぞれに付与される音素番号をkとし、k=1,…,K、時刻tにおけるk番目の音素に対応する第一時間関数をφk(t)とし、時刻sにおけるk番目の音素に対応する第二時間関数をωk(s)とし、前記第一声道スペクトルにおけるk番目の音素の中心の時刻をtkとし、前記第二声道スペクトルにおけるk番目の音素の中心の時刻をskとし、前記変換行列生成部は、
で定義される前記変換行列を生成する、
発話リズム変換行列生成装置。 The utterance rhythm conversion matrix generation device according to claim 1,
The time length of the first vocal tract spectrum is T, the time length of the second vocal tract spectrum is S, the transformation matrix is a matrix of S rows and T columns, and s = 1,..., S, t = 1,. , T, the element of s rows and t columns of the transformation matrix is G (s, t), the total number of phonemes included in the first vocal tract spectrum is K, and the time-series phonemes of the first vocal tract spectrum are The phoneme number assigned to each is k, k = 1, ..., K, the first time function corresponding to the kth phoneme at time t is φ k (t), and corresponds to the kth phoneme at time s Ω k (s), the time of the center of the kth phoneme in the first vocal tract spectrum is t k, and the time of the center of the kth phoneme in the second vocal tract spectrum is s k , and the transformation matrix generation unit
Generate the transformation matrix defined by
Utterance rhythm conversion matrix generator.
前記第一声道スペクトルの時間長をT、前記第二声道スペクトルの時間長をSとし、前記変換行列をS行T列の行列とし、s=1,…,S、t=1,…,T、前記変換行列のs行t列の要素をG(s,t)とし、前記第一声道スペクトルに含まれる音素の総数をKとし、前記第一声道スペクトルの時系列の音素のそれぞれに付与される音素番号をkとし、k=1,…,K、時刻tにおけるk番目の音素に対応する第一時間関数をφk(t)とし、時刻sにおけるk番目の音素に対応する第二時間関数をωk(s)とし、前記第一声道スペクトルにおけるk番目の音素の中心の時刻をtkとし、前記第二声道スペクトルにおけるk番目の音素の中心の時刻をskとし、sk-1≦s≦skにおいて時刻sに対して|φk(t)-ωk(s)|を最小とするt(ただし及びtk-1≦t≦tk)をt*(s)とし、前記変換行列生成部は、
として、
とし、それ以外の場合、
G(s,t*(s))=0
として定義される前記変換行列を生成する、
発話リズム変換行列生成装置。 The utterance rhythm conversion matrix generation device according to claim 1,
The time length of the first vocal tract spectrum is T, the time length of the second vocal tract spectrum is S, the transformation matrix is a matrix of S rows and T columns, and s = 1,..., S, t = 1,. , T, the element of s rows and t columns of the transformation matrix is G (s, t), the total number of phonemes included in the first vocal tract spectrum is K, and the time-series phonemes of the first vocal tract spectrum are The phoneme number assigned to each is k, k = 1, ..., K, the first time function corresponding to the kth phoneme at time t is φ k (t), and corresponds to the kth phoneme at time s Ω k (s), the time of the center of the kth phoneme in the first vocal tract spectrum is t k, and the time of the center of the kth phoneme in the second vocal tract spectrum is s k, and t (and t k-1 ≦ t ≦ t k ) that minimizes | φ k (t) -ω k (s) | with respect to time s at s k-1 ≦ s ≦ s k t * (s), and the transformation matrix generation unit
As
Otherwise,
G (s, t * (s)) = 0
Generate the transformation matrix defined as:
Utterance rhythm conversion matrix generator.
前記第一声道スペクトルの時間長をT、前記第二声道スペクトルの時間長をSとし、前記変換行列をS行T列の行列とし、s=1,…,S、t=1,…,T、前記変換行列のs行t列の要素をG(s,t)とし、前記第一声道スペクトルに含まれる音素の総数をKとし、前記第一声道スペクトルの時系列の音素のそれぞれに付与される音素番号をkとし、k=1,…,K、時刻tにおけるk番目の音素に対応する第一時間関数をφk(t)とし、時刻sにおけるk番目の音素に対応する第二時間関数をωk(s)とし、前記第一声道スペクトルにおけるk番目の音素の中心の時刻をtkとし、前記第二声道スペクトルにおけるk番目の音素の中心の時刻をskとし、sk-1≦s≦skにおいて時刻sに対して|φk(t)-ωk(s)|を最小とするt(ただし及びtk-1≦t≦tk)をt*(s)とし、aを1以上の整数の何れか、t*(s)-a≦τ≦t*(s)+aとし、重みの和が1となるための制約のための重み係数をαとし、前記変換行列生成部は、所定の条件を満たすまで、
または、
または、
により、要素G(s,t)を更新し、前記変換行列を生成する、
発話リズム変換行列生成装置。 The utterance rhythm conversion matrix generation device according to claim 1,
The time length of the first vocal tract spectrum is T, the time length of the second vocal tract spectrum is S, the transformation matrix is a matrix of S rows and T columns, and s = 1,..., S, t = 1,. , T, the element of s rows and t columns of the transformation matrix is G (s, t), the total number of phonemes included in the first vocal tract spectrum is K, and the time-series phonemes of the first vocal tract spectrum are The phoneme number assigned to each is k, k = 1, ..., K, the first time function corresponding to the kth phoneme at time t is φ k (t), and corresponds to the kth phoneme at time s Ω k (s), the time of the center of the kth phoneme in the first vocal tract spectrum is t k, and the time of the center of the kth phoneme in the second vocal tract spectrum is s k, and t (and t k-1 ≦ t ≦ t k ) that minimizes | φ k (t) -ω k (s) | with respect to time s at s k-1 ≦ s ≦ s k t * (s), where a is an integer greater than or equal to 1, t * (s)-a ≤ τ ≤ t * (s) + a And the weighting factor for the constraint for the sum of weights to be 1 is α, and the transformation matrix generation unit until a predetermined condition is satisfied,
Or
Or
To update the element G (s, t) and generate the transformation matrix,
Utterance rhythm conversion matrix generator.
前記第一声道スペクトルの時間長をT、前記第二声道スペクトルの時間長をSとし、前記変換行列をS行T列の行列とし、s=1,…,S、t=1,…,T、前記変換行列のs行t列の要素をK(s,t)とし、前記第一声道スペクトルに含まれる音素の総数をKとし、前記第一声道スペクトルの時系列の音素のそれぞれに付与される音素番号をkとし、k=1,…,K、時刻tにおけるk番目の音素に対応する第一時間関数をφk(t)とし、時刻sにおけるk番目の音素に対応する第二時間関数をωk(s)とし、前記第一声道スペクトルにおけるk番目の音素の中心の時刻をtkとし、前記第二声道スペクトルにおけるk番目の音素の中心の時刻をskとし、
とし、sk-1≦s≦skにおいて時刻sに対して|φk(t)-ωk(s)|を最小とするt(ただし及びtk-1≦t≦tk)をt*(s)とし、
とし、
とし、それ以外の場合、
G2(s,t*(s))=0
とし、aを1以上の整数の何れか、t*(s)-a≦τ≦t*(s)+aとし、重みの和が1となるための制約のための重み係数をαとし、所定の条件を満たすまで、
または、
または、
により、G3(s,t)を更新するものとし、
とし、w1≧0、w2≧0、w3≧0、0≦w1+w2+w3≦1とし、前記変換行列生成部は、
で定義される前記変換行列を生成する、
発話リズム変換行列生成装置。 The utterance rhythm conversion matrix generation device according to claim 1,
The time length of the first vocal tract spectrum is T, the time length of the second vocal tract spectrum is S, the transformation matrix is a matrix of S rows and T columns, and s = 1,..., S, t = 1,. , T, the element of s rows and t columns of the transformation matrix is K (s, t), the total number of phonemes included in the first vocal tract spectrum is K, and the time-series phonemes of the first vocal tract spectrum are The phoneme number assigned to each is k, k = 1, ..., K, the first time function corresponding to the kth phoneme at time t is φ k (t), and corresponds to the kth phoneme at time s Ω k (s), the time of the center of the kth phoneme in the first vocal tract spectrum is t k, and the time of the center of the kth phoneme in the second vocal tract spectrum is s k and
And t (and t k-1 ≦ t ≦ t k ) that minimizes | φ k (t) −ω k (s) | with respect to time s at s k−1 ≦ s ≦ s k is t * (s)
age,
Otherwise,
G 2 (s, t * (s)) = 0
And a is any integer greater than or equal to 1, t * (s) -a ≦ τ ≦ t * (s) + a, and the weighting factor for the constraint that the sum of weights is 1 is α, Until the predetermined condition is met
Or
Or
To update G 3 (s, t)
And w 1 ≧ 0, w 2 ≧ 0, w 3 ≧ 0, 0 ≦ w 1 + w 2 + w 3 ≦ 1, and the transformation matrix generation unit is
Generate the transformation matrix defined by
Utterance rhythm conversion matrix generator.
前記第一声道スペクトルに前記変換行列を乗じて、変換後第一声道スペクトルを求め、前記第一音声データの音源信号に前記変換行列を乗じて、変換後音源信号を求める発話リズム変換部と、
前記変換後音源信号と前記変換後第一声道スペクトルとを用いて音声合成を行う音声合成部とを含む、
発話リズム変換装置。 An utterance rhythm conversion device using a conversion matrix generated by the utterance rhythm conversion matrix generation device according to claim 1,
An utterance rhythm conversion unit that multiplies the first vocal tract spectrum by the conversion matrix to obtain a converted first vocal tract spectrum, multiplies the sound source signal of the first speech data by the conversion matrix to obtain a converted sound source signal. When,
A speech synthesizer that performs speech synthesis using the converted sound source signal and the converted first vocal tract spectrum,
Utterance rhythm converter.
第一時間関数と対応する音素に対する重みと時刻との関係を示す時間関数を第二時間関数とし、第二時間関数に対応する声道スペクトルを第二声道スペクトルとし、前記第一時間関数と第二時間関数とを用いて、前記第一声道スペクトルの発話リズムを第二声道スペクトルの発話リズムに変換するための行列である変換行列を生成する変換行列生成ステップと、を含む、
発話リズム変換行列生成方法。 Non-negative spatio-temporal decomposition to obtain the first time function, which is the time function for the first vocal tract spectrum of the first speech data, using the non-negative spatio-temporal decomposition method as a function that represents the relationship between the weight for the phoneme and the time. Steps,
The time function indicating the relationship between the time and the weight for the phoneme corresponding to the first time function is the second time function, the vocal tract spectrum corresponding to the second time function is the second vocal tract spectrum, and the first time function A conversion matrix generating step for generating a conversion matrix that is a matrix for converting the utterance rhythm of the first vocal tract spectrum into the utterance rhythm of the second vocal tract spectrum using a second time function,
Utterance rhythm conversion matrix generation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014082920A JP6167063B2 (en) | 2014-04-14 | 2014-04-14 | Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014082920A JP6167063B2 (en) | 2014-04-14 | 2014-04-14 | Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015203766A JP2015203766A (en) | 2015-11-16 |
JP6167063B2 true JP6167063B2 (en) | 2017-07-19 |
Family
ID=54597249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014082920A Active JP6167063B2 (en) | 2014-04-14 | 2014-04-14 | Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6167063B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6475572B2 (en) * | 2015-05-26 | 2019-02-27 | 日本電信電話株式会社 | Utterance rhythm conversion device, method and program |
JP7192882B2 (en) * | 2018-12-26 | 2022-12-20 | 日本電信電話株式会社 | Speech rhythm conversion device, model learning device, methods therefor, and program |
-
2014
- 2014-04-14 JP JP2014082920A patent/JP6167063B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015203766A (en) | 2015-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (en) | Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program | |
JP6293912B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6680933B2 (en) | Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program | |
US20110276332A1 (en) | Speech processing method and apparatus | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
CN109326278B (en) | Acoustic model construction method and device and electronic equipment | |
JP7192882B2 (en) | Speech rhythm conversion device, model learning device, methods therefor, and program | |
JP5807921B2 (en) | Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program | |
KR20180078252A (en) | Method of forming excitation signal of parametric speech synthesis system based on gesture pulse model | |
JP6167063B2 (en) | Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof | |
JP5474713B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
CN106157948B (en) | A kind of fundamental frequency modeling method and system | |
JP2021067885A (en) | Acoustic feature amount conversion model learning device, method and program, neural vocoder learning device, method and program, and, voice synthesis device, method and program | |
JP6499095B2 (en) | Signal processing method, signal processing apparatus, and signal processing program | |
EP4020464A1 (en) | Acoustic model learning device, voice synthesis device, method, and program | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
KR102051235B1 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
JP2008064849A (en) | Sound model creation device, speech recognition device using the same, method, program and recording medium therefore | |
JP5722295B2 (en) | Acoustic model generation method, speech synthesis method, apparatus and program thereof | |
JP5660437B2 (en) | Silent filter learning device, speech synthesizer, silent filter learning method, and program | |
Mussabayev et al. | The technology for the automatic formation of the personal digital voice pattern | |
JP6137708B2 (en) | Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program | |
JP6475572B2 (en) | Utterance rhythm conversion device, method and program | |
JP6442982B2 (en) | Basic frequency adjusting device, method and program, and speech synthesizer, method and program | |
JP2019070775A (en) | Signal analyzer, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6167063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |