JP5722295B2 - 音響モデル生成方法と音声合成方法とそれらの装置とプログラム - Google Patents

音響モデル生成方法と音声合成方法とそれらの装置とプログラム Download PDF

Info

Publication number
JP5722295B2
JP5722295B2 JP2012248151A JP2012248151A JP5722295B2 JP 5722295 B2 JP5722295 B2 JP 5722295B2 JP 2012248151 A JP2012248151 A JP 2012248151A JP 2012248151 A JP2012248151 A JP 2012248151A JP 5722295 B2 JP5722295 B2 JP 5722295B2
Authority
JP
Japan
Prior art keywords
speech
tone
information
learning
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012248151A
Other languages
English (en)
Other versions
JP2014095851A (ja
Inventor
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012248151A priority Critical patent/JP5722295B2/ja
Publication of JP2014095851A publication Critical patent/JP2014095851A/ja
Application granted granted Critical
Publication of JP5722295B2 publication Critical patent/JP5722295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、HMM(Hidden Markov Model)音声合成方式に用いる音響モデルを生成する音響モデル生成方法と音声合成方法と、それらの装置とプログラムに関する。
近年、音声合成方式として、HMM音声合成方式が提案されている(例えば非特許文献1)。HMM音声合成方式における音響モデル(音声データベース)は、合成単位ごとにスペクトルやF0を平均化した音声データのパラメータとして、合成単位ごとに一つのモデルを保持している。これにより、少量の音声データでも肉声感は低いが安定した品質の音声合成を可能にしている。
一方、非特許文献2に開示されているように、アクセント句間の音調結合型を導入することで、合成音声の自然性が向上することが知られている。
益子他、「動的特徴を用いたHMMに基づく音声合成」信学論、vol.J79-D-II, no.12, pp.2184-2190, Dec.1996. 箱田他、「文章音声の音調結合型導出規則の検討」信学技法、SP89-5, pp.33-38, 1989.
従来のHMM音声合成方式では、モデル学習時、音声合成時に音調結合型を考慮できていないため、合成音声の品質が低下する課題がある。しかし、モデル学習のための音声データに対して、人手で音調結合型を付与することは高コストであるため、音調結合型を考慮したHMM音声合成方式はほとんど普及していない。
本発明は、この課題に鑑みてなされたものであり、音調結合型を自動的に付与した音響モデルを学習して生成することができる音響モデル生成方法と音声合成方法と、それらの装置とプログラムを提供することを目的とする。
本発明の音響モデル生成方法は、モデル学習過程と、音調結合型抽出過程と、音調結合型モデル学習過程と、を備える。モデル学習過程は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報を含む発話情報とを入力として音声合成用HMMを学習する。音調結合型抽出過程は、音声合成用HMMから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する。音調結合型モデル学習過程は、学習用音声データと発話情報と音調結合型とを入力として、音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する。
また、本発明の音声合成方法は、テキスト解析過程と、音声パラメータ生成過程と、音声合成フィルタ過程と、を備える。テキスト解析過程は、音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力する。音声パラメータ生成過程は、上記した音響モデル生成方法で生成した音調結合型音響モデルと、テキスト情報とを用いて、音声パラメータを生成する。音声合成フィルタ過程は、上記音声パラメータを用いて音声波形を生成する。
本発明の音響モデル生成方法によれば、音調結合型を自動的に付与した音響モデルを生成することができるので、音調結合型を考慮したHMM音声合成方式を実現するためのコストを低減させることができる。
また、本発明の音声合成方法によれば、音調結合型を考慮した音響モデルを用いて合成音を生成するので、通常のHMM音声合成より合成音の品質を向上させることができる。
この発明の音響モデル生成装置100の機能構成例を示す図。 音響モデル生成装置100の動作フローを示す図。 音素セグメンテーション情報の例を示す図。 3状態の音声合成用HMMの例を示す図。 音調結合型抽出部20の機能構成例を示す図。 音声パラメータ生成手段201が生成する音声パラメータの概念を示す図。 アクセント句間の概念を示す図。 音調結合型抽出部20の動作フローを示す図。 音調結合型抽出部20′の動作フローを示す図。 この発明の音声合成装置200の機能構成例を示す図。 音声合成装置200の動作フローを示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音響モデル生成装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル生成装置100は、モデル学習部10と、音調結合型抽出部20と、音調結合型モデル学習部30と、制御部40と、を具備する。音響モデル生成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
モデル学習部10は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報を含む発話情報と、を入力として音声合成用HMMを学習する(ステップS10)。学習用音声データは、音声データベースを構築する対象の話者がN個の文章を発話した音声を収録したデータである。学習用音声データには、音声信号に対して信号処理を行った結果得られる音高パラメータ(基本周波数:F0)とスペクトルパラメータ(ケプストラム、メルケプストラム等)とが含まれる。
これらのパラメータは、フレームと呼ばれる所定の時間間隔毎のデータである。1フレームは、音声信号を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換した音声信号の所定数(例えば160個)から成る時間(10ms)である。なお、モデル学習部10に、音声データそのものを与え、ディジタル信号処理によって、パラメータを生成するようにしても良い。
発話情報は、学習用音声データ中の各発話に付与された情報であり、少なくとも発話を構成する各音素の開始時間と終了時間の情報から成る音素セグメンテーション情報と、アクセント句境界、アクセント型、アクセント句長等のアクセント情報と、から成る。図3に、音素セグメンテーション情報の例を示す。図3の1列目は音素名、2列目は開始時間、3列目は終了時間である。開始・終了時間は、各発話の始点を0[秒]とした時の経過時間である。
モデル学習部10では、学習用音声データと発話情報から音声合成用のHMMを学習する。このHMMは、3状態または5状態のleft-to-right型HMMと呼ばれるものである。図4に、3状態の音声合成用HMMの例を示す。1は第1状態でHMMの開始を表す。2は第2状態、3は第3状態を表す。そしてHMMは、自己遷移a11,a22,a33と、次状態への状態遷移a12,a23とから成る確率連鎖で表される。
HMMの各状態1,2,3には、それぞれ出力確率分布b(o),b(o),b(o),が対応付けられている。出力確率分布は、F0、ケプストラム等の音を特徴付けるモデルパラメータである。モデル学習部10は、音素ラベルに従って、例えばBaum-Welchアルゴリズム等を用いて音声合成用HMMを学習する。学習した音声合成用HMMは、音調結合型抽出部20に出力される。学習した音声合成用HMMは、音声合成用HMM50として記録装置に蓄えるようにしても良い。
音調結合型抽出部20は、音声合成用HMMから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと、外部から入力される学習用音声データのパラメータとを用いてアクセント句間の音調結合型を抽出する(ステップS20)。音調結合型抽出部20の詳しい動作説明は後述する。
音調結合型モデル学習部30は、外部から入力される学習用音声データと発話情報と、音調結合型抽出部20で抽出した音調結合型を入力として音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する(ステップS30)。音調結合型モデル学習部30におけるモデルの学習は、音調結合型を加えて学習する点で、モデル学習部10のモデル学習と異なる。制御部40は、各部の時系列的な動作を制御する。
以上説明したように、音響モデル生成装置100によれば、学習用音声データから自動的に音調結合型を抽出し、その音調結合型も加えた形で音声合成用HMMを学習することができる。従って、音調結合型を考慮した音響モデルを低コストで提供することが可能になる。
図5に、本発明の要部である音調結合型抽出部20のより具体的な機能構成例を示して更に詳しく動作を説明する。音調結合型抽出部20は、音声パラメータ生成手段201と、音調結合型抽出手段202と、を備える。
音声パラメータ生成手段201は、モデル学習部10で生成された音声合成用HMMと、外部から入力される発話情報とを入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成する(ステップS201、図2)。図6に、音声パラメータ生成手段201が生成する音声パラメータの概念を示す。
まず、発話iのp番目の音素のs番目の状態のフレーム数を求める。各状態のフレーム数の算出は、p番目の音素の継続時間長を状態数で等分することにより行う。例えば、図3に示した音素「o」の継続時間長は150[ms]である。そして、音声合成用HMMの状態数を例えば3状態とすると、各状態には50[ms]の時間が割り振られる。1フレームを例えば10[ms]とすると各状態は、それぞれ5フレームで構成される(図6の3行目)。
次に、音声パラメータ生成手段201は、各フレームにモデルパラメータの平均ベクトルμpsを割り振ることで発話iの音声パラメータ系列を生成する(図6の4行目)。そして最後に、当該音声パラメータ系列に対して補間を行う。音声パラメータの補間は、非特許文献1に開示されているように、モデルパラメータの動的特徴量と分散を用いて行う。なお、スプライン補間のような一般的な補間手法を用いても良い
音調結合型抽出手段202は、音声パラメータ生成手段201で生成した音声パラメータ系列と、外部から入力される学習用音声データとを用いて、アクセント句間の音調結合型を抽出する。図7に、アクセント句間の概念を示す。例えば「今日は打ち合わせです。」の一文は、「今日は」、「打ち合わせ」、「です」の3つのアクセント句で構成される。このアクセント句の位置(時間)は、発話情報を参照することで得られる。
音調結合型抽出手段202は、音声パラメータ生成手段201で生成した音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の境界周辺のF0の対数値の平均値をmsijを求めると共に、学習用音声データの同じアクセント句の境界周辺のF0の対数値の平均値をmoijを求める。そして、その差分dを計算し、差分dが閾値αより大きい場合の音調結合型を弱結合、小さい場合を強結合として抽出する。
一般的に、アクセント句間の結合の強さが小さい場合(強結合)、二つのアクセント句の境界付近の学習音声データのF0は低くなる傾向があり、結合の強さが大きい場合(弱結合)、二つのアクセント句間の境界付近のF0は高くなる傾向がある。一方、生成した音声パラメータ系列のF0は、音調結合型を考慮せずに学習した音声合成用HMMから生成しているため、強結合・弱結合が考慮されていない中間程度の高さのF0が生成される。そのため、音声パラメータ生成手段201で生成した音声パラメータ系列のF0と比較して学習音声データのF0が低い(差分が小さい)場合は強結合、高い(差分dが大きい)場合は弱結合として音調結合型を判別することができる。
図7に音調結合型抽出部20で行う処理を、図8にその動作フローを示して更に具体適に説明する。図7の横軸は経過時間t[ms]、縦軸はF0[Hz]であり、ある一つのアクセント境界のF0を示している。
音声パラメータ生成手段201は、モデル学習部10で生成された音声合成用HMMと、外部から入力される発話情報とを用いて、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を全ての発話iについて生成する(ループS201のステップS201a、図8)。
音調結合型抽出手段202は、音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の境界周辺のF0の対数値の平均値をmsijを求めると共に、学習用音声データの同じアクセント句の境界周辺のF0の対数値の平均値をmoijを求め、その差分dを計算する(ループS202のステップS202a)。アクセント句間の境界付近のF0の平均値は、アクセント句の境界の前後t[ms]のF0を用いて計算する(図7のmsijとmoijを参照)。
そして音調結合型抽出手段202は、差分dが閾値αより大であればそのアクセント句は弱結合(ステップS202b)、差分dが閾値α以下であればそのアクセント句は強結合(ステップS202b′)と判定する。この音調結合型の抽出は、全ての発話の全てのアクセント句に対して行われる。
〔変形例1〕
アクセント句の境界の前後t[ms]のF0の平均値から音調結合型を求める例を説明したが、j番目とj+1番目のアクセント句を構成する全ての発話のF0の平均値の差分で音調結合型を判別しても良い。音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の平均値をfsij,fsij+1、学習用音声データの同じアクセント句の平均値をfoij,foij+1として求め、音声パラメータ系列の差分をds=fsij−fsij+1、学習用音声データの差分do=foij−foij+1とした時のdsとdoとの差分(do−ds)が閾値αより大の場合を弱結合、小の場合を強結合として判別しても良い。
〔変形例2〕
音調結合型として弱結合と強結合の2種類のみを抽出する例で説明をしたが、任意のN種類の音調結合型を抽出することも可能である。図9に、N種類の音調結合型を抽出するようにした音調結合型抽出部20の動作フローを示す。
図9は、図8に対して複数の閾値αを備え、差分を判定するステップS202bが、複数の閾値α,α,…,αN−1のそれぞれと、差分dを比較してN個の結合型に判別する点で異なる。このように2種類以上の音調結合型に分類することで、合成音声をより自然な音声にすることが可能になる。
〔音声合成装置〕
図10に、この発明の音声合成装置200の機能構成例を示す。その動作フローを図11に示す。音声合成装置200は、テキスト解析部210と、音声パラメータ生成部220と、音調結合型音響モデル230と、音声合成フィルタ部250と、制御部240と、を具備する。音声合成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
テキスト解析部210は、音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析し、読みとアクセントと音調結合型とから成るテキスト情報を出力する(ステップS210)。音調結合型音響モデル230は、上記した音響モデル生成装置100で生成した音調結合型を考慮したモデル学習した音響モデルである。
音声パラメータ生成部220は、音調結合型音響モデル230とテキスト情報を用いて、音声パラメータを生成する(ステップS220)。音声合成フィルタ部250は、音声パラメータ生成部220が出力する音声パラメータを用いて音声波形を生成する(ステップS250)。ステップS210〜S250は全てのテキストについての処理が終了するまで繰り返される(ステップS240)。この繰り返し動作に制御は制御部240が行う。
この発明の音声合成装置200によれば、音調結合型を考慮した音響モデルに基づいて音声を合成するので、通常のHMM音声合成より合成音の品質を向上させることができる。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることが出来る。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習過程と、
    上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出過程と、
    上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習過程と、
    を備える音響モデル生成方法。
  2. 請求項1に記載した音響モデル生成方法において、
    上記音調結合型抽出過程は、
    上記モデル学習過程で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成ステップと、
    上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出ステップと、
    を含むことを特徴とする音響モデル生成方法。
  3. 請求項1又は2に記載した音響モデル生成方法で生成した音調結合型音響モデルと、
    音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析過程と、
    上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成過程と、
    上記音声パラメータを用いて音声波形を生成する音声合成フィルタ過程と、
    を備える音声合成方法。
  4. 音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習部と、
    上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出部と、
    上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習部と、
    を具備する音響モデル生成装置。
  5. 請求項4に記載した音響モデル生成装置において、
    上記音調結合型抽出部は、
    上記モデル学習部で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成手段と、
    上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出手段と、
    を備えることを特徴とする音響モデル生成装置。
  6. 請求項4又は5に記載した音響モデル生成装置で生成した音調結合型音響モデルと、
    音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析部と、
    上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成部と、
    上記音声パラメータを用いて音声波形を生成する音声合成フィルタ部と、
    を具備する音声合成装置。
  7. 請求項4又は5に記載した音響モデル生成装置、又は請求項6に記載した音声合成装置としてコンピュータを機能させるためのプログラム。
JP2012248151A 2012-11-12 2012-11-12 音響モデル生成方法と音声合成方法とそれらの装置とプログラム Active JP5722295B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012248151A JP5722295B2 (ja) 2012-11-12 2012-11-12 音響モデル生成方法と音声合成方法とそれらの装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012248151A JP5722295B2 (ja) 2012-11-12 2012-11-12 音響モデル生成方法と音声合成方法とそれらの装置とプログラム

Publications (2)

Publication Number Publication Date
JP2014095851A JP2014095851A (ja) 2014-05-22
JP5722295B2 true JP5722295B2 (ja) 2015-05-20

Family

ID=50938934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012248151A Active JP5722295B2 (ja) 2012-11-12 2012-11-12 音響モデル生成方法と音声合成方法とそれらの装置とプログラム

Country Status (1)

Country Link
JP (1) JP5722295B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719641B (zh) * 2016-01-19 2019-07-30 百度在线网络技术(北京)有限公司 用于波形拼接语音合成的选音方法和装置
CN110534089B (zh) * 2019-07-10 2022-04-22 西安交通大学 一种基于音素和韵律结构的中文语音合成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3334471B2 (ja) * 1995-09-25 2002-10-15 三菱電機株式会社 ピッチパタン生成装置,ピッチパタン生成方法,ピッチパタン生成装置における学習装置およびピッチパタン生成方法における学習方法。
JP3583929B2 (ja) * 1998-09-01 2004-11-04 日本電信電話株式会社 ピッチパタン変形方法及びその記録媒体
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP4829912B2 (ja) * 2008-02-27 2011-12-07 日本電信電話株式会社 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体
JP6036682B2 (ja) * 2011-02-22 2016-11-30 日本電気株式会社 音声合成システム、音声合成方法、および音声合成プログラム

Also Published As

Publication number Publication date
JP2014095851A (ja) 2014-05-22

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
KR20200138993A (ko) 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP2009300716A (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP5155836B2 (ja) 収録テキスト生成装置、その方法、そのプログラム
Piqueras et al. Statistical text-to-speech synthesis of Spanish subtitles

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150325

R150 Certificate of patent or registration of utility model

Ref document number: 5722295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150