JP5689782B2 - 目標話者学習方法、その装置及びプログラム - Google Patents
目標話者学習方法、その装置及びプログラム Download PDFInfo
- Publication number
- JP5689782B2 JP5689782B2 JP2011256042A JP2011256042A JP5689782B2 JP 5689782 B2 JP5689782 B2 JP 5689782B2 JP 2011256042 A JP2011256042 A JP 2011256042A JP 2011256042 A JP2011256042 A JP 2011256042A JP 5689782 B2 JP5689782 B2 JP 5689782B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- clusters
- data
- cluster
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<構成>
図1に例示するように、本形態の音声合成装置1は、話者クラスタリング部110、目標話者学習部120、音声合成部130、及び制御部140を有する。話者クラスタリング部110、目標話者学習部120、及び音声合成部130は、制御部140の制御のもとで各処理を実行する。音声合成装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれることで構成される特別な装置である。
話者クラスタリング処理では、多数話者の音声データそれぞれの特徴量がクラスタリングされ、クラスタに属する特徴量を他のクラスタの特徴量に変換する変換関数が学習される。以下、図5Aに従って本形態の話者クラスタリング処理を説明する。
N人(N≧2)の話者(多数話者)の音声が事前に収録され、各話者音声を表す音声データD(n)(n=1,...,N)が多数話者音声DB記憶部111a(図2)に格納される(ステップS11)。本形態では、話者と音声データD(n)とが一対一で対応する。目標話者学習部120及び音声合成部130での処理性能の観点から、音声データD(n)は以下の要件を満たすことが望ましい。ただし、これらの条件は本発明を限定しない。
(1)1名あたりの音声データ量(無音区間を除いた音声区間の時間)は、音声合成用のモデルを学習可能な時間以上である。音声合成用のモデルを学習可能な時間は、使用される音声合成方式によって異なる。例えば、素片選択型音声合成方式が用いられる場合、各話者について数時間程度の音声データが必要である。
(2)音声が収録される話者数Nは、性別ごとに最低でも数十名以上である。
(特徴量1)音声データのケプストラム(例えばメルケプストラム)。
(特徴量2)帯域を制限した音声データD(n)のスペクトルより得られるケプストラム(例えば帯域を4kHzに制限する等)。
(特徴量3)音声データの各帯域での周期成分と非周期成分の割合を表す非周期性指標。
(特徴量4)音声データの全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比。全帯域のスペクトルのパワーに対するi番目の帯域のスペクトルのパワーの比BSPiは、例えば以下の式により求められる。
BSPi=mean(speci)/mean(specall)
ここで、BSPiはi番目の帯域のパワー比であり、specallは全帯域のスペクトルのパワー、speciはi番目の帯域のスペクトルのパワーである。mean(α)はαの平均値を算出する関数である。帯域の例は、0-1 kHz(i=1), 1-2 kHz(i=2), 2-4 kHz(i=3), 4-6 kHz(i=4), 6-8 kHz(i=5)である。
(特徴量5)音声データの話者間の声道長正規化(VTLN: Vocal Tract Length Normalization)のためのワーピングパラメータ(例えば、「E. Eide, “A Parametric Approach to Vocal Tract Length Normalization,” In Proceedings of the International Conference on Acoustics,. Speech and Signal Processing, pp. 346-348, 1996.」等参照)。
なお自然性低下への影響が小さい特徴とは、以下に示す2つの特徴のうち、いずれかを有する特徴量である。
1.ある話者の音声データの特徴量〔スペクトル(ケプストラム)等〕が、1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ(例えば後述のFILi)等の簡易なフィルタで、異なる話者の音声データの特徴量〔スペクトル(ケプストラム)等〕に変換可能である(例えば、特徴量4,特徴量5)。すなわち、この特徴量F(k,n)は、1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ等の簡易なフィルタで、特徴量F(k,n’)(n’∈{1,...,N}、n≠ n’)に変換可能である。
2.音声データ(周波数領域の音声データ)の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量(例えば、特徴量3)。すなわち、特徴量間の類似度が当該特徴量のそれぞれに対応する音声データの周波数軸上の全帯域での平均パワーの類似度に対応する。
C(j(1,n),...,j(K,n))
=(CF(1,j(1,n)),...,CF(K,j(K,n)))
fk,j(k),j’(k)(ν)=ν+(cent(CF(k,j’(k))-cent(CF(k,j(k)))
ここでcent(β)はクラスタβの代表値を求める関数を表し、νはクラスタCF(k,j(k))に属する任意の特徴量(ベクトル等)を表す。
(1)話者Aの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(2)話者Aの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
(3)話者Bの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(4)話者Bの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
この手法では参考文献1の式(5)が変換関数fk,j(k),j’(k)となる。
目標話者学習処理では、入力された目標話者の音声データからその話者のモデルを学習する。以下、図5Bに従って本形態の目標話者学習処理を説明する。
目標話者の音声が収録され、目標話者の音声を表す音声データD(T)(T≠1,...,N)が目標話者学習部120(図3)の目標話者音声記憶部121aに格納される。本形態では、目標話者と音声データD(T)とが一対一で対応する(ステップS21)。
(1)N人の話者の音声データD(n)に音声データD(S’)が1個のみ含まれる場合、話者選択部122dは、当該音声データD(S’)を音声データD(S)とする。ただし、「音声データD(S’)」は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))を構成するK個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データを表す。
(2)N人の話者の音声データD(n)に上記音声データD(S’)が複数含まれる場合、話者選択部122dは、これら複数の音声データD(S’)から選択された1個を音声データD(S)とする。
(3)N人の話者の音声データD(n)に上記音声データD(S’)が含まれない場合、話者選択部122dは、K個のクラスタCF(k,j(k,T))の組み合わせと異なるK個のクラスタCF(k,j(k,S”))(k=1,...,K、j(k,S”)=1,...,J(k))の組み合わせをなす、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)を、音声データD(S)として選択する。
話者選択部122dは、特徴量DB記憶部111bに格納された各音声データD(n)の特徴量を参照し、多数話者音声DB記憶部111aに格納されたN人の話者の音声データD(n)(n=1,...,N)のうち、所属クラスタ記憶部121cに格納されたK個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)の個数をカウントする。言い換えると、話者選択部122dは、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)の個数をカウントする(ステップS241)。
[条件1]多次元クラスタC(j(1,S”),...,j(K,S”))を構成するK個のクラスタCF(k,j(k,S”))(k=1,...,K)に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)がN人の話者の音声データD(n)(n=1,...,N)に含まれる。
[条件2]多次元クラスタC(j(1,T),...,j(K,T))を構成するK個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(w,T))(w∈{1,...,K})と、多次元クラスタC(j(1,S”),...,j(K,S”))を構成するK個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(w,S”))とが等しい。ただし、特徴f(w)(w∈{1,...,K})は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴(例えば、前述の特徴量1,2)であり、その他の特徴f(r)(r∈{1,...,K},r≠w)は、特徴量の変換による合成音声の自然性低下への影響が小さい特徴(例えば、前述の特徴量3〜5)である(ステップS245)。
図9B及び図9Cの例において、特徴F(1)が特徴量の変換による合成音声の自然性低下への影響が大きい特徴であり、特徴F(2)が特徴量の変換による合成音声の自然性低下への影響が小さい特徴であるとする。この場合、話者選択部122dは、条件1,2を満たす多次元クラスタC(1,1),C(1,2),C(1,5)のうち、多次元クラスタC(1,3)に最も近いC(1,5)を選択する。
特徴量変換部122eは、変換関数fr,j(r,S),j(r,T)を用い、ステップS24で選択された音声データD(S)のK個の特徴量F(k,S)のうちクラスタCF(r,j(r,S))に属する一部の特徴量F(r,S)(r∈{1,...,K})を、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))を構成するK個のクラスタCF(1,j(1,T)),...,CF(K,j(K,T))の一部のクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量TF(r,S)に変換する。特徴量F(r,S)は、特徴量の変換による合成音声の自然性低下の影響が小さいものである(例えば、前述の特徴量3〜5を表す特徴量)。以上により、目標話者の音声の特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)が得られる。図9Cの例の場合、特徴量変換部122eは、変換関数f2,5,3を用い、ステップS24で選択された音声データD(S)の2個の特徴量F(1,S),F(2,S)のうち、クラスタCF(2,5)に属する一部の特徴量F(2,S)を、ステップS23で選択された多次元クラスタC(1,3)を構成する2個のクラスタCF(1,1),CF(2,3)の一部のクラスタCF(2,3)に属する特徴量TF(2,S)に変換する。これにより、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)が得られる。得られた特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)、音声データD(S)及びそのラベルデータ等、又は、特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)に対応するHMMなどの統計モデルは、音声合成部130での目標話者の音声合成処理に利用される。変換された特徴量TF(r,S)は、特徴量の変換による合成音声の自然性低下の影響が小さいが、音声の類似性には寄与する。よって、このように音声データD(S)の特徴量の一部を変換したものを目標話者の音声の特徴量とし、それを含む情報を音声合成処理に利用することで、自然性を低下させることなく目標話者の音声を合成できる(ステップS26)。特徴量4,5は、スペクトル(ケプストラム)より得られる特徴量であるため、音声を合成する際には、これらの特徴量を用いて合成音声のスペクトル(ケプストラム)が変換される。スペクトル(ケプストラム)の変換は特徴量によって異なり、声道長正規化のワーピングパラメータが特徴量である場合(特徴量5)、1次オールパス関数を用いて合成音声のケプストラムが変換される。各帯域のスペクトルのパワー比が特徴量である場合(特徴量4)、変換前後のスペクトルパワー比から得られる各帯域のフィルタFILiを用いて、合成音声のスペクトルを変換する。
FILi=BSP’i/BSPi
ただし、BSPiは変換前のi番目の帯域のパワー比であり、BSP’iは変換後のi番目の帯域のパワー比である。変換後のi番目の帯域のスペクトルは、変換前のi番目の帯域のスペクトルにFILiを乗ずることにより得られる。
音声合成処理部130は、目標話者学習部120で得られた目的話者の特徴量、音声データ及びラベルデータ等、又は、当該特徴量から得られるHMMなどの統計モデル等を用い、公知の波形接続型音声合成方式(例えば「特許2761552」「特開2009−122381」等参照)、又は、HMM音声合成方式(例えば「益子貴史,徳田恵一,小林隆夫,今井聖,“動的特徴を用いたHMMに基づく音声合成,” 信学論(D-II),vol.J79-D-II, no.12, pp.2184-2190, 1996.」等参照)等に従い、入力されたテキストに対応する目標話者の音声を合成する。
本発明は上述の実施の形態に限定されるものではない。例えば、上記実施形態のステップS26では、音声データD(S)のK個の特徴量F(k,S)のうち、特徴量の変換による合成音声の自然性低下の影響が小さい特徴量F(r,S)のみを特徴量TF(r,S)に変換することとした。しかしながら、音声データD(S)のK個の特徴量F(k,S)のうち、特徴量の変換による合成音声の自然性の影響は多少大きいが音声の類似性への寄与度が大きい特徴量のみを変換する等、用途に応じて変換する特徴量が選択されることとしてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
110 話者クラスタリング部
120 目標話者学習部
130 音声合成部
Claims (8)
- N人の話者の音声データD(n)(n=1,...,N、N≧2)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)が前記特徴F(k)ごとに独立にクラスタリングされることで、前記特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)が設定され、前記音声データD(n)それぞれのK個の特徴量F(k,n)がいずれかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属し、
設定された前記クラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択するクラスタ選択ステップと、
前記N人の話者の音声データD(n)から、前記K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する話者選択ステップと、
前記音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、前記K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る特徴量変換ステップと、
前記K個のクラスタCF(k,j(k,S))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが等しい場合に、前記特徴量F(k,S)を前記目標話者の特徴量とする設定ステップと、を有し、
前記音声データD(S)は、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データ、または、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データであり、前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(w,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(w,S”))とが等しく、
前記変換関数は、前記特徴量F(r,S)が属する前記クラスタCF(r,j(r,S))に属する特徴量を、前記K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換するものである、目標話者学習方法。 - 請求項1の目標話者学習方法であって、
前記一部の特徴量F(r,S)は、
1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタの何れかで、異なる話者の音声データD(s’)(s’∈{1,...,N}、s’≠S)の特徴量F(r,s’)に変換可能な特徴量、及び、前記音声データD(S)の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量の何れかを含む、目標話者学習方法。 - 請求項1又は2の目標話者学習方法であって、
前記一部の特徴量F(r,S)は、前記音声データD(S)の非周期性指標、前記音声データD(S)の全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比、又は前記音声データD(S)の声道長正規化のためのワーピングパラメータを表す、目標話者学習方法。 - 請求項1から3の何れかの目標話者学習方法であって、
前記話者選択ステップは、
前記N人の話者の音声データD(n)が、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)を含まない場合に、前記K個のクラスタCF(k,j(k,T))の組み合わせと異なるK個のクラスタCF(k,j(k,S”))(k=1,...,K、j(k,S”)=1,...,J(k))の組み合わせをなす、前記K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)(S”∈{1,...,N})を、前記音声データD(S)として選択するステップを含む、目標話者学習方法。 - 請求項4の目標話者学習方法であって、
前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(k,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(k,S”))とが等しい、目標話者学習方法。 - 請求項4又は5の目標話者学習方法であって、
前記話者選択ステップは、
前記N人の話者の音声データD(n)が前記音声データD(S’)を1個のみ含む場合に、当該音声データD(S’)を前記音声データD(S)とするステップと、
前記N人の話者の音声データD(n)が前記音声データD(S’)を複数個含む場合に、前記音声データD(S’)から選択された1個を前記音声データD(S)とするステップとを含む、目標話者学習方法。 - N人の話者の音声データD(n)(n=1,...,N、N≧2)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)が前記特徴F(k)ごとに独立にクラスタリングされることで、前記特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)が設定され、前記音声データD(n)それぞれのK個の特徴量F(k,n)がいずれかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属し、
設定された前記クラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択するクラスタ選択部と、
前記N人の話者の音声データD(n)から、前記K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する話者選択部と、
前記音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、前記K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る特徴量変換部と、
前記K個のクラスタCF(k,j(k,S))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが等しい場合に、前記特徴量F(k,S)を前記目標話者の特徴量とする設定部と、を有し、
前記音声データD(S)は、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データ、または、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データであり、前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(w,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(w,S”))とが等しく、
前記変換関数は、前記特徴量F(r,S)が属する前記クラスタCF(r,j(r,S))に属する特徴量を、前記K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換するものである、目標話者学習装置。 - 請求項1から6の何れかの目標話者学習方法の各ステップの処理をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256042A JP5689782B2 (ja) | 2011-11-24 | 2011-11-24 | 目標話者学習方法、その装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256042A JP5689782B2 (ja) | 2011-11-24 | 2011-11-24 | 目標話者学習方法、その装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109274A JP2013109274A (ja) | 2013-06-06 |
JP5689782B2 true JP5689782B2 (ja) | 2015-03-25 |
Family
ID=48706057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011256042A Expired - Fee Related JP5689782B2 (ja) | 2011-11-24 | 2011-11-24 | 目標話者学習方法、その装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5689782B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6121273B2 (ja) * | 2013-07-10 | 2017-04-26 | 日本電信電話株式会社 | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム |
JP2018155774A (ja) * | 2017-03-15 | 2018-10-04 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
WO2020145353A1 (ja) * | 2019-01-10 | 2020-07-16 | グリー株式会社 | コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法 |
JP6821728B2 (ja) * | 2019-02-27 | 2021-01-27 | シナノケンシ株式会社 | テキストデータ音声再生装置およびテキストデータ音声再生プログラム |
JP6821727B2 (ja) * | 2019-02-27 | 2021-01-27 | シナノケンシ株式会社 | テキストデータ音声再生装置およびテキストデータ音声再生プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP2973805B2 (ja) * | 1993-12-10 | 1999-11-08 | 日本電気株式会社 | 標準パターン作成装置 |
JP2007178686A (ja) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Ind Co Ltd | 音声変換装置 |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
JP4996156B2 (ja) * | 2006-07-19 | 2012-08-08 | 旭化成株式会社 | 音声信号変換装置 |
-
2011
- 2011-11-24 JP JP2011256042A patent/JP5689782B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013109274A (ja) | 2013-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9830904B2 (en) | Text-to-speech device, text-to-speech method, and computer program product | |
US8234110B2 (en) | Voice conversion method and system | |
JP5768093B2 (ja) | 音声処理システム | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
JP5106371B2 (ja) | 話認認証の検証のための方法および装置、話者認証システム | |
US20140114663A1 (en) | Guided speaker adaptive speech synthesis system and method and computer program product | |
US9972300B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP5689782B2 (ja) | 目標話者学習方法、その装置及びプログラム | |
US10008216B2 (en) | Method and apparatus for exemplary morphing computer system background | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
En-Najjary et al. | A voice conversion method based on joint pitch and spectral envelope transformation. | |
JP4922225B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5486565B2 (ja) | 話者クラスタリング方法、話者クラスタリング装置、プログラム | |
JP5376643B2 (ja) | 音声合成装置、方法およびプログラム | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
KR101078293B1 (ko) | Kernel PCA를 이용한 GMM 기반의 음성변환 방법 | |
Eslami et al. | Quality improvement of voice conversion systems based on trellis structured vector quantization | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5689782 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |