JP5930738B2 - 音声合成装置及び音声合成方法 - Google Patents

音声合成装置及び音声合成方法 Download PDF

Info

Publication number
JP5930738B2
JP5930738B2 JP2012017670A JP2012017670A JP5930738B2 JP 5930738 B2 JP5930738 B2 JP 5930738B2 JP 2012017670 A JP2012017670 A JP 2012017670A JP 2012017670 A JP2012017670 A JP 2012017670A JP 5930738 B2 JP5930738 B2 JP 5930738B2
Authority
JP
Japan
Prior art keywords
information
speech
segment
feature
speech feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012017670A
Other languages
English (en)
Other versions
JP2013156472A (ja
Inventor
貴弘 大塚
貴弘 大塚
啓吾 川島
啓吾 川島
訓 古田
訓 古田
山浦 正
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2012017670A priority Critical patent/JP5930738B2/ja
Priority to CN201310013370.4A priority patent/CN103226945B/zh
Publication of JP2013156472A publication Critical patent/JP2013156472A/ja
Application granted granted Critical
Publication of JP5930738B2 publication Critical patent/JP5930738B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Description

この発明は、音声を合成する音声合成装置及び音声合成方法に関するものであり、例えば、大量の素片を蓄えた辞書を用いて、コンピュータに入力されたテキスト文から音声を合成する音声合成装置及び音声合成方法に関する。
従来、より良い合成音声を得るために、大量の素片を辞書に蓄え、この中からより適切な素片を選択する方法が考えられている。
特許第2761552号公報(特許文献1)では、入力されたテキストを解析して生成した音素系列と韻律情報に基づき、大量の素片を蓄えた辞書から音素の波形を読出し、この音素の波形を該当音素の韻律情報に基づき変形処理して出力音声波形を得る方法について述べられている。
このとき、辞書には、音素など出力音声波形を組み立てる上で適切な単位で、音素の波形、発声された音素環境、基本周波数パターン形状、音素継続長、振幅が記憶されている。
音素系列から、該当する音素を中心とした音素数での窓かけを行って切り出し、その切り出し音素系列に近い音素の波形の候補を、辞書から検索し、該当音素系列が見つからない場合は、その音素系列の両側からその音素を順次削除して上記検索を行うこととしている。
この過程において検索した音素の波形の候補から、呼気段落内モーラ数、アクセント型、発声スピードなどに基づく規則により決定される平均基本周波数、基本周波数の形状、時間長、振幅などの韻律情報と近い音素の波形の候補を選択するようにすることで、明瞭性が高く、しかも自然性も良い音声を提供できると述べられている。
特許第2761552号公報
しかしながら、特許文献1では、音素系列を基準とする他、呼気段落内モーラ数、アクセント型、発声スピードなどに基づく規則により決定される平均基本周波数、基本周波数の形状、時間長、振幅への近さを基準として音素の波形を選択するので、辞書に蓄えられた素片の数が十分多くない場合は、所望の韻律情報に近い音素の波形が得られない。その結果、音素の波形を大きく変形するため、肉声感の低い音質となる課題がある。
また、音素系列を基準とする他、呼気段落内モーラ数、アクセント型、発声スピードなどに基づく規則により決定される平均基本周波数、基本周波数の形状、時間長、振幅への近さを基準として音素の波形を選択するので、選択する基準が、辞書に蓄えられた素片の平均基本周波数、基本周波数の形状、時間長、振幅とずれる場合は、適切な素片が選択できない。その結果、音素の波形を大きく変形するため、肉声感の低い音質となる課題がある。
また、音素系列を基準とする他、呼気段落内モーラ数、アクセント型、発声スピードなどに基づく規則により決定される平均基本周波数、基本周波数の形状、時間長、振幅への近さを基準として音素の波形を選択するので、原音声(音素の波形を作成する際の元の音声)中で連続となる音素の波形が得られにくく、音素の波形間で不連続が生じる課題がある。
この発明は、かかる問題を解決するためになされたもので、イントネーションの自然性を保ったまま、肉声感が高く、素片間の音色の連続性も高い合成音声を得ることができる音声合成装置及び音声合成方法を提供することを目的とする。
この発明にかかる音声合成装置は、少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報を複数記憶した素片辞書と、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出部と、上記言語情報一致度算出部で算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択部と、上記候補素片選択部で選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出部と、上記目標音声特徴算出部で算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出部と、上記音声特徴コスト算出部で算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定部と、上記素片決定部で決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成部とを備えたものである。
この発明にかかる音声合成方法は、少なくとも音素を含む素片の言語情報と上記素片の
音声特徴情報とを含む素片情報を複数記憶した素片辞書を参照し、言語情報一致度算出部が、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出ステップと、候補素片選択部が、上記言語情報一致度算出ステップで算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択ステップと、目標音声特徴算出部が、上記候補素片選択ステップで選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出ステップと、音声特徴コスト算出部が、上記目標音声特徴算出ステップで算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出ステップと、素片決定部が、上記音声特徴コスト算出ステップで算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定ステップと、音声波形生成部が、上記素片決定ステップで決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成ステップとを有するものである。
この発明の音声合成装置によれば、少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報を複数記憶した素片辞書と、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出部と、上記言語情報一致度算出部で算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択部と、上記候補素片選択部で選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出部と、上記目標音声特徴算出部で算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出部と、上記音声特徴コスト算出部で算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定部と、上記素片決定部で決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成部とを備えたことにより、イントネーションの自然性を保ったまま、肉声感が高く、素片間の音色の連続性も高い合成音声を得ることができる。
この発明の音声合成方法によれば、少なくとも音素を含む素片の言語情報と上記素片の
音声特徴情報とを含む素片情報を複数記憶した素片辞書を参照し、言語情報一致度算出部が、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出ステップと、候補素片選択部が、上記言語情報一致度算出ステップで算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択ステップと、目標音声特徴算出部が、上記候補素片選択ステップで選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出ステップと、音声特徴コスト算出部が、上記目標音声特徴算出ステップで算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出ステップと、素片決定部が、上記音声特徴コスト算出ステップで算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定ステップと、音声波形生成部が、上記素片決定ステップで決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成ステップとを有することにより、イントネーションの自然性を保ったまま、肉声感が高く、素片間の音色の連続性も高い合成音声を得ることができる。
実施の形態1の音声合成装置の構成を示すブロック図である。 素片辞書8の一例を示す説明図である。 入力言語情報101の一例を示す説明図である。 言語情報一致度103の概要を示す説明図である。
以下、本発明の実施の形態を説明する。
実施の形態1.
図1は本実施の形態による音声合成装置の全体の構成図を示したブロック図である。
図1の音声合成装置は、言語情報一致度算出部1、候補素片選択部2、目標音声特徴算出部3、音声特徴コスト算出部4、音声特徴コスト最小素片決定部5、音声特徴変形部6、波形接続部7、素片辞書8で構成されている。
素片辞書8は、少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報102を複数記憶している。
図2は、本実施の形態における素片辞書8の一例を示したものである。
素片辞書8は、例えば、ナレータが原稿などを読み発声した音声(以下、原音声)などを切り出し、分析して、事前に作成されたものである。図2の素片辞書8では、音声「かまくら」を分析して得られた情報が格納されている。
図2に示した素片辞書8において、番号201は、素片の番号を示すものである。音素202は、素片の一音一音の名前を表すものであり、記号で示されている。図2の例では、音声「かまくら」に対応する各音素が各音素の配列順(音素系列の順)に連続して配置されており、各素片間の接続関係の情報も含まれている。具体的には、音声「かまくら」の音素202は、sil、k、a、m、a、k、u、r、a、silであり、文頭と文末に無音を意味するsilが付与されている。
高低203は、素片の一音一音の高さを表すものであり、記号で示されている。図2の例では、素片の音の高さが所定の閾値より高いものはHで示し、低いものはLで示している。具体的には、音声「かまくら」の高低203は、(なし)、L、L、H、H、H、H、H、H、(なし)であり、(なし)は記号が定義されていないことを示す。
短時間振幅スペクトル204は、素片の波形の短時間振幅スペクトルであり、短時間振幅スペクトルは波形を周波数分析して得られたものである。図2の例では、各音素に対応する波形の短時間振幅スペクトルが示されている。
基本周波数205は、素片の波形の基本周波数であり、基本周波数は波形の声の高さを分析して得られたものである。図2の例では、各音素に対応する波形の基本周波数が示されている。
波形206は、音素の波形であり、波形は、例えば、音声を22050Hzで標本化し16bitで量子化したパルス符号変調のデータである。図2の例では、各音素に対応する波形のデータが示されている。
なお、図2に示した素片辞書8において、素片の言語情報は、上記音素202及び高低203であり、素片の音声特徴情報は、短時間振幅スペクトル204、基本周波数205及び波形206である。
言語情報一致度算出部1は、音声合成装置へ入力され、少なくとも音素を含む入力言語情報101と、素片辞書8に記憶された素片情報102の言語情報との一致度に対応する言語情報一致度103を算出するものである。
候補素片選択部2は、上記言語情報一致度算出部1で算出された言語情報一致度103に基づいて、候補素片情報104として、上記素片辞書8から素片情報102を選択するものである。
目標音声特徴算出部3は、上記候補素片選択部2で選択された候補素片情報104を用いて、目標音声の特徴を示す目標音声特徴情報105を算出するものである。目標音声特徴情報105は、出力音声波形の目標となる音声特徴情報である。なお、本実施の形態では、目標音声特徴算出部3は、候補素片情報104、入力言語情報101、及び、言語情報一致度103を用いて目標音声特徴情報105を算出するように構成されている。
音声特徴コスト算出部4は、上記目標音声特徴算出部3で算出された目標音声特徴情報105と、上記候補素片情報104の音声特徴情報との距離に対応する音声特徴コスト106を算出するものである。
音声特徴コスト最小素片決定部5は、上記音声特徴コスト算出部4で算出された音声特徴コスト106に基づいて、上記候補素片情報104から波形生成に用いる素片情報を決定する素片決定部に対応するものである。音声特徴コスト最小素片決定部5は、特に、上記音声特徴コスト算出部4で算出された音声特徴コスト106に基づいて、上記候補素片情報104から、音声特徴コスト106を最小とするコスト最小素片107を波形生成に用いる素片情報として決定するものである。
音声特徴変形部6は、上記目標音声特徴情報105を用いて、上記音声特徴コスト最小素片決定部5(素片決定部)で決定された素片情報の音声特徴情報を変形するものであり、音声特徴情報を変形した変形波形108を出力する。
波形接続部7は、上記音声特徴コスト最小素片決定部5(素片決定部)で決定された複数の素片情報の音声特徴情報を接続して音声波形を生成するものであり、本実施の形態では、上記音声特徴変形部6で変形された変形波形108を接続して出力音声波形109を生成する。
なお、本実施の形態においては、素片決定部で決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成部は、上記音声特徴変形部6及び上記波形接続部7で構成されている。
以下、図面を用いて、本実施の形態の音声合成装置の原理動作及び音声合成方法について説明する。
図3は、音声合成装置へ入力される入力言語情報101の一例を示したものである。入力言語情報101は、少なくとも音素を含むものであり、例えば、従来の既知の形態素解析技術を用いて漢字仮名交じり文を解析することで得られたものである。図3に示した例は、「ねりまく」を形態素解析技術を用いて得た入力言語情報101であり、素片辞書8の言語情報と同様に、素片ごとに番号201、音素202、高低203の情報を含んでいる。具体的には、音素202はsil、n、e、r、i、m、a、k、u、silであり、高低203は(なし)L、L、H、H、H、H、L、L(なし)である。
入力言語情報101が入力されると、言語情報一致度算出部1は、入力言語情報101と、素片辞書8に記憶された素片情報102の言語情報との一致度に対応する言語情報一致度103を算出する。言語情報一致度103は、入力言語情報101と、素片辞書8に記憶された素片情報102との音素及び高低に関する一致度であり、入力言語情報101の各音素に対して、素片辞書8の複数の素片情報102について求められる。
言語情報一致度103は、I(n,m)で定義される。nは入力言語情報101の番号を表し、mは素片情報102の番号である。I(n,m)を計算するときは、入力言語情報101の番号nと素片情報102の番号mを中心に上下の音素と高低をそれぞれの比較していき、一致しないところまで比較する。この結果、一致した数をI(n,m)とする。すべてのn(1〜N,Nは入力言語情報101の数)とm(1〜M,Mは素片情報102の数)についてI(n,m)を計算する。
例えば、I(6,4)の計算を、図4を用いて説明する。
図4は、言語情報一致度103の概要を示す説明図である。入力言語情報101(左の表)と素片情報102(右の表)であり、入力言語情報101の番号6と素片情報102の番号4を中心に上下方向の音素、高低をそれぞれ比較していき、一致しないところまで比較する。入力言語情報101の番号5(上方向)と番号8(下方向)で一致しないので、ここで比較をやめる。この結果、入力言語情報101の番号6と番号7が一致していることがわかり、一致する数が2となりI(6,4)が2となる。
言語情報一致度算出部1で言語情報一致度103が算出されると、候補素片選択部2は、言語情報一致度103に基づいて、候補素片情報104として、上記素片辞書8から素片情報102を選択する。本実施の形態では、候補素片情報104は、入力言語情報101の各番号nについて、言語情報一致度103の高い最大L個の素片情報とする。例えば、素片情報102が図2であり、入力言語情報101が図3である場合に、L=2とすると、入力言語情報101の7番についての候補素片情報104は、素片情報102の5番と9番となる。尚、このとき、I(7,5)=2であり、I(7,9)=1である。
候補素片選択部2で候補素片情報104が選択されると、目標音声特徴算出部3は、入力言語情報101と言語情報一致度103とを参照して、候補素片情報104から目標音声特徴情報105を算出する。目標音声特徴情報105は、入力言語情報101の番号ごとに候補素片情報104の短時間振幅スペクトルや基本周波数などから算出する。
例えば、次式を計算して得た音声特徴情報F(n,αminmin)を目標音声特徴情報105Ft(n)とする。
Figure 0005930738
Figure 0005930738
Figure 0005930738
ここで、nは入力言語情報101の番号である。
1次音声特徴情報Fb(n)は入力言語情報101の音素と高低から算出する音声特徴である。例えば、入力言語情報101の高低から算出する基本周波数パターンを音声特徴としても良いし、入力言語情報101の音素から短時間スペクトルパターンなどの時間変化を伴う音声の特徴を音声特徴としてもよい。
2次音声特徴情報F(n,α,β)は、変形パラメータα,βによって変形した1次音声特徴情報Fb(n)である。
Figure 0005930738
D(α,β)は、2次音声特徴情報F(n,α,β)と候補素片音声特徴情報Fs(n,i)の非類似度を表す。
S(n)は、nにおける候補素片情報104の番号の集合である。
候補素片音声特徴情報Fs(n,i)は、入力言語情報101の番号nに対応する候補素片情報104中の第i番目候補の音声特徴を示す。
非類似度D(α,β)には次のような特性を与える。言語情報一致度103が大きいほど非類似度D(α,β)をより小さくする。また、2次音声特徴情報F(n,α,β)と候補素片音声特徴情報Fs(n,i)との差が小さいほど非類似度D(α,β)を小さくする。
例えば、1次音声特徴情報Fb(n)は韻律の単位(ほぼ文節の単位)ごとに設定する基本周波数パターン(基本周波数の時間軌跡)である。
基本周波数パターンは一般によく知られた点ピッチモデルを使って作成することができる。点ピッチモデルは、文章全体では基本周波数が下降していく傾向になるので、この基本傾斜パターンを直線で、その上に付加されるアクセント成分を台形で表現し、各音素の中心点の基本周波数を決めるものである。
点ピッチモデルは、例えば、「岩波講座 言語の科学 音声(第2巻)」(田窪行則、前川喜久雄、窪園晴夫、本多清志、白井克彦、中川聖一著、岩波書店発行、第4章、p.169-170)に開示されている。
このとき、式1のα、βは基本周波数パターンの抑揚の大きさと平均的音高を自由に代えることができる変換パラメータと解釈できる。
また、例えば、1次音声特徴情報Fb(n)は音素ごとに設定する短時間振幅スペクトルパターンである。この1次音声特徴情報Fb(n)は、入力言語情報101の番号nの音素と同一の複数の音素の波形の短時間振幅スペクトルを平均することで得ることができる。このとき、式1のα、βは短時間振幅スペクトルのダイナミックレンジと音量を自由に代えることができる変換パラメータである。
目標音声特徴算出部3が目標音声特徴情報105を算出すると、音声特徴コスト算出部4は、目標音声特徴算出部3で算出された目標音声特徴情報105と、上記候補素片情報104の音声特徴情報との距離に対応する音声特徴コスト106を算出する。
例えば、音声特徴コスト106は、式4を計算して得た値をコストC(n,i)とする。ここで、Ft1(n)、Fs1(n)は、目標音声特徴情報105、候補素片情報104の基本周波数であり、Ft2(n)、Fs2(n)は、目標音声特徴情報105、候補素片情報104の短時間振幅スペクトルである。
Figure 0005930738
ここで、w1、w2は音声特徴へのウエイトであり、0以上の値である。すべてのn,iについて計算する。nは1〜N,で、iは集合S(n)の要素である。
音声特徴コスト算出部4が音声特徴コスト106を算出すると、音声特徴コスト最小素片決定部5は、候補素片情報104中から音声特徴コスト106を最小とするコスト最小素片107を決定する。
Figure 0005930738
音声特徴コスト最小素片決定部5がコスト最小素片107を決定すると、音声特徴変形部6は、目標音声特徴情報105を参照してコスト最小素片107の音声特徴情報を変形し変形波形108を得る。変形波形108は、コスト最小素片107の波形の音声特徴情報を変形して得た波形である。
例えば、音声特徴の1つである基本周波数を変形する場合、コスト最小素片107の波形データの基本周波数を、目標音声特徴情報105の基本周波数となるように、従来の既知の技術であるPSOLA(Pitch−Synchronous Overlap and Add)方法によって、コスト最小素片107の波形データを変形する。
また、例えば、音声特徴の1つである短時間振幅スペクトルを変形する場合、コスト最小素片107の波形の短時間振幅スペクトルが目標音声特徴情報105の短時間振幅スペクトルに近づくように変形する。
具体的には、コスト最小素片107の波形をフーリエ分析して周波数ごとの振幅スペクトルと位相スペクトルを得る。得た位相スペクトルと目標音声特徴情報105の短時間振幅スペクトルを合成し、これを逆フーリエ変換することで変形波形108を得る。
そして、波形接続部7は、音声特徴変形部6で変形された変形波形108の波形データを接続して出力音声波形109を生成する。出力音声波形109は、音素ごとに得られた変形波形108の波形データを順次配置して出力音声波形を得る。並べる際は、先行する波形の端の形状と後続する波形の端の形状を考慮して配置位置を決めて、波形同士を重ね合わせる(加算して平均する)ことで、波形形状の不連続を抑えるようにしてもよい。
以上のように、本実施の形態によれば、入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択するようにしたので、基本周波数、継続長等の音声特徴情報及び言語情報との一致度の大きい素片情報を候補素片情報とする場合と比べて、候補素片情報が原音声中において言語的に連続した素片がより優先して選択されるため、素片間の連続性の高い出力音声波形が得られやすい効果があり、イントネーションの自然性を保ち、素片間の音色の連続性も高い合成音声を得ることができる。
また、本実施の形態によれば、入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に基づいて、候補素片情報として、一致度の高い最大L個の複数の素片情報を選択するようにしたので、素片辞書の素片数が不十分な場合でも、候補素片情報が原音声中において言語的に連続した素片がより優先して選択されるため、素片間の連続性の高い出力音声波形が得られやすい効果があり、イントネーションの自然性を保ち、素片間の音色の連続性も高い合成音声を得ることができる。
また、本実施の形態によれば、入力言語情報と素片辞書に記憶された素片情報の言語情報との一致度に基づいて選択された候補素片情報から目標音声特徴情報を算出し、当該目標音声特徴情報と、候補素片情報の音声特徴情報との距離に対応する音声特徴コストに基づいて波形生成に用いる素片情報を決定するようにしたので、素片情報を参照しないで目標音声特徴情報を算出する従来方式と比べ、目標音声特徴に近い最小素片が得られやすく、素片の音声特徴の変形量を抑えることになり、結果、音質の劣化の少ない出力音声波形を得られやすい効果があり、肉声感が高い合成音声を得ることができる。
また、本実施の形態によれば、入力言語情報と素片辞書に記憶された素片情報の言語情報との一致度について、音素及び高低に基づいて計算される言語情報一致度に基づいて候補素片情報を選択するようにしたので、従来方式と比べ、高低の正しく連続的な候補素片情報が得られることになり、結果、高低の正しく連続的な音声特徴となる出力音声波形を得られやすい効果があり、イントネーションの自然性を保ち、素片間の音色の連続性も高い合成音声を得ることができる。
また、本実施の形態によれば、入力言語情報と素片辞書に記憶された素片情報の言語情報との一致度に基づいて候補素片情報を選択し、言語情報一致度を加味した目標音声特徴情報を算出するようにしたので、原音声中において言語的に連続した素片がより優先して選択されて合成音声が生成されるので、素片間の連続性の高い出力音声波形が得られやすい効果があり、イントネーションの自然性を保ち、素片間の音色の連続性も高い合成音声を得ることができる。
また、本実施の形態によれば、入力言語情報と素片辞書に記憶された素片情報の言語情報との一致度に基づいて候補素片情報を選択し、入力言語情報から求めた1次音声特徴を候補素片情報の音声特徴に近づくように音素に渡り一様に変換して得た2次音声特徴を音声特徴とするようにしたので、2次音声特徴に近い素片がより優先して選択されて合成音声が生成されるので、素片の音声特徴の変形量を抑えることになり、結果、音質の劣化の少ない出力音声波形を得られやすい効果があり、肉声感が高い合成音声を得ることができる。
また、本実施の形態によれば、目標音声特徴情報を用いて、素片決定部で決定された素片情報の音声特徴情報を変形するようにしたので、素片辞書の素片数が不十分な場合でも、素片の音声特徴の変形量を抑えることになり、結果、音質の劣化の少ない出力音声波形を得られやすい効果があり、肉声感が高い合成音声を得ることができる。
なお、変形する必要がない場合、例えば、素片辞書の素変数が多い場合、決定された素片情報の音声特徴情報と目標音声特徴情報とが一致する場合等は、変形することを省略しても良い。
また、本実施の形態によれば、複数の素片情報の音声特徴情報を接続して音声波形を生成するようにしたので、素片辞書の素片数が不十分な場合でも、入力言語情報に応じた合成音声を得ることができる。
実施の形態2.
実施の形態1では、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照して、候補素片情報104から目標音声特徴情報105を算出するとしたが、これに代えて、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照せずに、候補素片情報104から目標音声特徴情報105を算出するようにしてもよい。
例えば、式5を計算して得たF(n)を目標音声特徴情報105とする。このようにすることで、言語情報一致度103の高い候補素片情報104の音声特徴から目標音声特徴情報105を作成することができる。
Figure 0005930738
Figure 0005930738
本実施の形態によれば、実施の形態1と同様の効果が得られる上、簡易な式で目標音声特徴情報を算出することができる効果がある。
実施の形態3.
実施の形態1では、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照して、候補素片情報104から目標音声特徴情報105を算出するとしたが、これに代えて、目標音声特徴算出3は、入力言語情報101を参照せずに、言語情報一致度103を参照して候補素片情報104から目標音声特徴情報105を算出するようにしてもよい。
例えば、式6を計算して得たF(n)を目標音声特徴情報105とする。このようにすることで、言語情報一致度103の高い候補素片情報104の音声特徴から、より言語情報一致度103を加味した、目標音声特徴情報105を作成することができる。
Figure 0005930738
Figure 0005930738
ここで、式7のI(n,i)は、言語情報一致度算出部1で算出した言語情報一致度103である。
また、式7について、番号n,n+1の音声特徴の距離に応じて、番号n,n+1の音声特徴の距離が大きいときはウエイトを小さくするように変形しても良い。
本実施の形態によれば、実施の形態1と同様の効果が得られる上、言語情報一致度を加味しつつ簡易な式で目標音声特徴情報を算出することができる効果がある。
実施の形態4.
実施の形態1では、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照して、候補素片情報104から目標音声特徴情報105を算出するとしたが、これに代えて、目標音声特徴算出3は、言語情報一致度103を参照せずに、入力言語情報101を参照して候補素片情報104から目標音声特徴情報105を算出するようにしてもよい。
例えば、次式を計算して得た音声特徴F(n,αminmin)を目標音声特徴情報105とする。このようにすることで、言語情報一致度103の高い候補素片情報104の音声特徴から、2次音声特徴に近い、目標音声特徴情報105の基本周波数Ft(n)を作成することができる。
Figure 0005930738
Figure 0005930738
Figure 0005930738
本実施の形態によれば、実施の形態1と同様の効果が得られる上、入力言語情報を加味しつつ簡易な式で目標音声特徴情報を算出することができる効果がある。
実施の形態5.
実施の形態1では、言語情報一致度を、入力言語情報101の音素と高低と、素片情報102の音素と高低とがそれぞれ同時に一致する数としたが、これに代えて、音素が一致する数と、高低が一致する数をそれぞれ求め、これらに重みをつけて加算した数を言語情報一致度としてもよい。このとき、入力言語情報101I(n,m)を次式で算出する。
Figure 0005930738
ここで、Ip(n,m)が音素の一致する数、It(n,m)が高低の一致する数、λが重みを表す。発声内容の主要因である音素の一致度が一般に重要であるのでλを0.5以上と設定することが望ましい。
本実施の形態によれば、実施の形態1と同様の効果が得られる上、音素の一致度又は高低の一致度を優先して言語情報一致度を求めることができる効果がある。
実施の形態6.
実施の形態1では、1次音声特徴を基本周波数パターン、または、短時間振幅スペクトルパターン、または、これら両方としたが、1次音声特徴にパワーパターンや継続長パターンを加えてもよい。
パワーパターンは、入力言語情報101の番号nの音素と同一の複数の音素の波形のパワーを平均することで得ることができる。この場合は、素片辞書の素片情報にパワーを記憶する。
継続長パターンは、入力言語情報101の番号nの音素と同一の複数の音素の波形の長さを平均することで得ることができる。この場合は、素片辞書の素片情報に継続長を記憶する。
本実施の形態によれば、実施の形態1と同様の効果が得られる上、より詳細な音声特徴情報に基づいて合成音声を生成することができる効果がある。
実施の形態7.
前述の実施の形態において、式3、式5、式6、式10の候補素片音声特徴Fs(n,i)を基本周波数パターンFs1(n,i)、または、短時間振幅スペクトルパターンFs2(n,i)、または、これら両方としたが、候補素片音声特徴Fs(n,i)にパワーパターンや継続長パターンを加えても良い。この場合は、素片辞書の素片情報にパワーや継続長を記憶する。
本実施の形態によれば、より詳細な音声特徴情報に基づいて合成音声を生成することができる効果がある。
また、以上の実施の形態は、実施の形態2から実施の形態6で説明した置き換えだけではなく、技術的に可能な範囲で適宜組み合わせて実施する事も可能である。例えば、実施の形態2と実施の形態5を組み合わせて実施する事も可能である。
1 言語情報一致度算出部、2 候補素片選択部、3 目標音声特徴算出部、4 音声特徴コスト算出部、5 音声特徴コスト最小素片決定部、6 音声特徴変形部、7 波形接続部、8 素片辞書、101 入力言語情報、102 素片情報、103 言語情報一致度、104 候補素片情報、105 目標音声特徴情報、106 音声特徴コスト、107 コスト最小素片、108 変形波形、109 出力音声波形、201 番号、202 音素、203 高低、204 短時間振幅スペクトル、205 基本周波数、206 波形。

Claims (10)

  1. 少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報を複
    数記憶した素片辞書と、
    少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報と
    の一致度に対応する言語情報一致度を算出する言語情報一致度算出部と、
    上記言語情報一致度算出部で算出された言語情報一致度に基づいて、候補素片情報とし
    て、上記素片辞書から素片情報を選択する候補素片選択部と、
    上記候補素片選択部で選択された候補素片情報を用いて、目標音声の特徴を示す目標音
    声特徴情報を算出する目標音声特徴算出部と、
    上記目標音声特徴算出部で算出された目標音声特徴情報と、上記候補素片情報の音声特
    徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出部と、
    上記音声特徴コスト算出部で算出された音声特徴コストに基づいて、上記候補素片情報
    から素片情報を決定する素片決定部と、
    上記素片決定部で決定された素片情報の音声特徴情報を用いて、音声波形を生成する音
    声波形生成部と
    を備えたことを特徴とする音声合成装置。
  2. 上記目標音声特徴算出部は、上記候補素片選択部で選択された候補素片情報と、上記言
    語情報一致度算出部で算出された言語情報一致度とを用いて、上記目標音声特徴情報を算
    出することを特徴とする請求項1に記載の音声合成装置。
  3. 上記目標音声特徴算出部は、上記候補素片選択部で選択された候補素片情報と、上記入
    力言語情報とを用いて、上記目標音声特徴情報を算出することを特徴とする請求項1に記
    載の音声合成装置。
  4. 上記音声波形生成部は、上記目標音声特徴情報を用いて、上記素片決定部で決定された
    素片情報の音声特徴情報を変形する音声特徴変形部を備えたことを特徴とする請求項1に
    記載の音声合成装置。
  5. 上記音声波形生成部は、上記素片決定部で決定された複数の素片情報の音声特徴情報を
    接続して音声波形を生成することを特徴とする請求項1に記載の音声合成装置。
  6. 少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報を複
    数記憶した素片辞書を参照し、
    言語情報一致度算出部が、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出ステップと、
    候補素片選択部が、上記言語情報一致度算出ステップで算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択ステップと、
    目標音声特徴算出部が、上記候補素片選択ステップで選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出ステップと、
    音声特徴コスト算出部が、上記目標音声特徴算出ステップで算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出ステップと、
    素片決定部が、上記音声特徴コスト算出ステップで算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定ステップと、
    音声波形生成部が、上記素片決定ステップで決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成ステップと
    を有することを特徴とする音声合成方法。
  7. 上記目標音声特徴算出ステップは、上記候補素片選択ステップで選択された候補素片情
    報と、上記言語情報一致度算出ステップで算出された言語情報一致度とを用いて、上記目
    標音声特徴情報を算出することを特徴とする請求項6に記載の音声合成方法。
  8. 上記目標音声特徴算出ステップは、上記候補素片選択ステップで選択された候補素片情
    報と、上記入力言語情報とを用いて、上記目標音声特徴情報を算出することを特徴とする
    請求項6に記載の音声合成方法。
  9. 上記音声波形生成ステップは、上記目標音声特徴情報を用いて、上記素片決定ステップ
    で決定された素片情報の音声特徴情報を変形する音声特徴変形ステップを有することを特
    徴とする請求項6に記載の音声合成方法。
  10. 上記音声波形生成ステップは、上記素片決定ステップで決定された複数の素片情報の音
    声特徴情報を接続して音声波形を生成することを特徴とする請求項6に記載の音声合成方
    法。
JP2012017670A 2012-01-31 2012-01-31 音声合成装置及び音声合成方法 Active JP5930738B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012017670A JP5930738B2 (ja) 2012-01-31 2012-01-31 音声合成装置及び音声合成方法
CN201310013370.4A CN103226945B (zh) 2012-01-31 2013-01-15 声音合成装置以及声音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012017670A JP5930738B2 (ja) 2012-01-31 2012-01-31 音声合成装置及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2013156472A JP2013156472A (ja) 2013-08-15
JP5930738B2 true JP5930738B2 (ja) 2016-06-08

Family

ID=48837368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012017670A Active JP5930738B2 (ja) 2012-01-31 2012-01-31 音声合成装置及び音声合成方法

Country Status (2)

Country Link
JP (1) JP5930738B2 (ja)
CN (1) CN103226945B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6234134B2 (ja) 2013-09-25 2017-11-22 三菱電機株式会社 音声合成装置
JP6519096B2 (ja) * 2014-02-14 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
KR20210060897A (ko) * 2019-11-19 2021-05-27 삼성전자주식회사 음성 처리 방법 및 장치
CN112599113B (zh) * 2020-12-30 2024-01-30 北京大米科技有限公司 方言语音合成方法、装置、电子设备和可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
JP2001117577A (ja) * 1999-10-19 2001-04-27 Victor Co Of Japan Ltd 音声合成装置
JP2002318590A (ja) * 2001-04-20 2002-10-31 Sony Corp 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
JP4241762B2 (ja) * 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
CN101159134A (zh) * 2006-10-08 2008-04-09 开曼群岛威睿电通股份有限公司 用于频率调制合成的波形产生
JP4247289B1 (ja) * 2007-11-14 2009-04-02 日本電信電話株式会社 音声合成装置、音声合成方法およびそのプログラム

Also Published As

Publication number Publication date
CN103226945A (zh) 2013-07-31
CN103226945B (zh) 2016-04-13
JP2013156472A (ja) 2013-08-15

Similar Documents

Publication Publication Date Title
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
WO2021101665A1 (en) Singing voice synthesis
Bonada et al. Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
Umbert et al. Generating singing voice expression contours based on unit selection
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
JP4403996B2 (ja) 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
JP2009133890A (ja) 音声合成装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2007004011A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4353174B2 (ja) 音声合成装置
JP2013117638A (ja) 音声合成装置および音声合成プログラム
JP6552146B1 (ja) 音声処理装置、および音声処理方法
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2004054063A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2006133559A (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160426

R150 Certificate of patent or registration of utility model

Ref document number: 5930738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250