JP4805121B2 - 音声合成装置、音声合成方法及び音声合成プログラム - Google Patents

音声合成装置、音声合成方法及び音声合成プログラム Download PDF

Info

Publication number
JP4805121B2
JP4805121B2 JP2006340235A JP2006340235A JP4805121B2 JP 4805121 B2 JP4805121 B2 JP 4805121B2 JP 2006340235 A JP2006340235 A JP 2006340235A JP 2006340235 A JP2006340235 A JP 2006340235A JP 4805121 B2 JP4805121 B2 JP 4805121B2
Authority
JP
Japan
Prior art keywords
waveform
speech
prosody
pitch period
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006340235A
Other languages
English (en)
Other versions
JP2008152042A (ja
Inventor
訓 古田
正 山浦
貴弘 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006340235A priority Critical patent/JP4805121B2/ja
Publication of JP2008152042A publication Critical patent/JP2008152042A/ja
Application granted granted Critical
Publication of JP4805121B2 publication Critical patent/JP4805121B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、例えば、TV、ラジオ、ビデオレコーダ、携帯電話、PDA(Personal Digital Assistance)、パーソナルコンピュータ、ゲーム機、携帯オーディオなどの情報機器や、カーナビゲーションシステム、カーオーディオ機器、ETC(Electronic Toll Collection system)などの車載機器などに適用して、任意の文章から人工的な合成音声を生成する音声合成装置、音声合成方法及び音声合成プログラムに関するものである。
音声合成装置は、任意の文章から人工的な合成音声を生成する装置であり、人工的な合成音声を生成する処理は、「テキスト音声合成」と称されている。
従来の音声合成装置は、任意の文章が記述されているテキストを入力すると、そのテキストに対する形態素解析や構文解析などの言語処理を実施する。
次に、音声合成装置は、テキストの解析結果に対する音韻処理を実施することにより、例えば、音韻記号、ピッチ長、継続時間長などを含む韻律情報を生成する。
音声合成装置は、韻律情報を生成すると、複数の音声素片を記憶している音響辞書から当該韻律情報に対応する音声素片を選択する。
ここで、音声素片は、母音をV、子音をCで表すと、CV、VC、VCV等の音声合成単位、複数の音声合成単位からなる音素列単位、あるいは、単語単位や短文章単位で、音声信号中から切り出される素片であり、切り出された音声波形又はその波形から何らかの方法で抽出されたパラメータ系列を表している。
また、音声素片は、例えば、当該音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、CとVの音素境界位置、パワー、モーラ数、アクセント位置などの要素を備えている。
音声合成装置は、音響辞書から韻律情報に対応する音声素片を選択すると、その韻律情報のピッチ周期の2倍程度の窓長を有する窓関数(例えば、ハニング窓、ブラックマン窓)を設定し、その窓関数を用いて、その音声素片からインパルス駆動点を中心として、2ピッチ分の長さを持つ波形(以下、「2ピッチ長波形」と称する)の切り出しを行う。
即ち、ピッチ周期を短くする場合(ピッチ周波数を高くする場合)には、韻律情報のピッチ周期の2倍程度の窓長を有する窓関数を用いて、その音声素片から2ピッチ長波形を切り出し、ピッチ周期を長くする場合(ピッチ周波数を低くする場合)には、元の音声素片のピッチ周期の2倍程度の窓長を有する窓関数を用いて、その音声素片から2ピッチ長波形の切り出しを行う。
最後に、音声合成装置は、韻律情報のピッチ周期と継続時間長にしたがって、切り出した2ピッチ長波形を再配置して重畳加算(ピッチ同期波形重畳加算法[Pitch Synchronous Overlap−Add]:PSOLA法)することにより、所望のピッチ周期の合成音声を生成する(例えば、非特許文献1参照)。
これにより、任意の文章から人工的な合成音声を生成することができるが、ピッチ周期を短くする場合(ピッチ周波数を高くする場合)には、音声素片の波形が持つ周期よりも短い周期で2ピッチ長波形を切り出すことになるため、2ピッチ長波形の始終端付近の波形情報(以下、「サイドローブ波形情報」と称する)が欠落して音質が劣化することがある。
なお、上記の音声合成装置の他に、音響辞書から韻律情報に対応する音声素片を選択すると、その音声素片の特徴に応じて窓関数の長さや形状を変更する音声合成装置が開発されている(例えば、特許文献1参照)。
ただし、この音声合成装置は、音声素片の特徴に応じて窓関数の長さや形状を変更することはできるが、ピッチ周期やピッチ周波数に応じて窓長や窓形状を変更することはできない。
そのため、合成音のピッチ周波数を高くする場合には、同様に、サイドローブ波形情報が欠落して音質が劣化することがある。
E. Moulines and F. Charpentier, "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones," Speech Communication, vol.9, pp.453-467, Dec 1990. 特開平6−19496号公報(第4頁〜6頁、第4図)
従来の音声合成装置は以上のように構成されているので、任意の文章から人工的な合成音声を生成することができるが、合成音のピッチ周波数を高くする場合、サイドローブ波形情報が欠落して音質が劣化することがあるなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、合成音のピッチ周波数を高くする場合でも、サイドローブ波形情報の欠落を防止して、音質の劣化を防止することができる音声合成装置、音声合成方法及び音声合成プログラムを得ることを目的とする。
この発明に係る音声合成装置は、韻律設定手段により設定された韻律のピッチ周期と音声素片選択手段により選択された音声素片の波形のピッチ周期を比較し、韻律のピッチ周期が音声素片の波形のピッチ周期以上であれば、窓関数の窓長を音声素片の波形のピッチ周期の2倍に設定し、韻律のピッチ周期が音声素片の波形のピッチ周期より短ければ、窓関数の窓長を韻律のピッチ周期より長いピッチ周期の2倍に設定し、その窓関数を用いて、音声素片選択手段により選択された音声素片の波形からピッチ波形の切り出しを行う波形切り出し手段を設け、音声合成手段が韻律設定手段により設定された韻律のピッチ周期と波形切り出し手段により切り出されたピッチ波形にしたがってテキストの合成音声を生成するようにしたものである。
この発明によれば、合成音のピッチ周波数を高くする場合でも、サイドローブ波形情報の欠落を防止して、音質の劣化を防止することができる効果がある。

実施の形態1.
図1はこの発明の実施の形態1による音声合成装置を示す構成図であり、図において、テキスト入力端子1は任意の文章が記述されているテキストを入力する端子である。
言語辞書格納部2は各種の言語の読み方や品詞などの情報が登録されている言語辞書を格納しているメモリである。
言語処理部3は言語辞書格納部2に格納されている言語辞書を参照して、テキスト入力端子1から入力されたテキストに対する形態素解析や構文解析などの言語処理を実施することにより、そのテキストの読み方や品詞などを示すテキスト解析結果を出力する。
韻律設定部4は言語処理部3から出力されたテキスト解析結果に対する音韻処理を実施することにより、韻律(例えば、音韻記号、アクセント、イントネーション(ピッチ周期列)、継続時間長など)を設定し、その韻律を示す韻律情報を出力する。
なお、言語処理部3及び韻律設定部4から韻律設定手段が構成されている。
音響辞書格納部5は複数の音声素片が記憶されている音響辞書を格納しているメモリである。
音声素片選択部6は音響辞書格納部5に格納されている音響辞書から韻律設定部4により設定された韻律に対応する音声素片を選択する処理を実施する。なお、音声素片選択部6は音声素片選択手段を構成している。
波形切り出し部7は韻律設定部4から出力された韻律情報が示すピッチ周期に応じた窓長を有する窓関数(例えば、ハニング窓)を設定し、その窓関数を用いて、音声素片選択部6により選択された音声素片の波形からピッチ波形の切り出しを行う。
即ち、波形切り出し部7は韻律設定部4から出力された韻律情報が示すピッチ周期と音声素片選択部6により選択された音声素片の波形のピッチ周期を比較し、その韻律情報が示すピッチ周期が音声素片の波形のピッチ周期以上であれば、窓関数の窓長を音声素片の波形のピッチ周期の2倍に設定し、その韻律情報が示すピッチ周期が音声素片の波形のピッチ周期より短ければ、窓関数の窓長を韻律情報が示すピッチ周期より長いピッチ周期の2倍に設定し、その窓関数を用いて、音声素片選択部6により選択された音声素片からインパルス駆動点を中心として、2ピッチ分の長さを持つ波形(以下、「2ピッチ長波形」と称する)の切り出しを行う。
なお、波形切り出し部7は波形切り出し手段を構成している。
音声合成部8は韻律設定部4から出力された韻律情報が示すピッチ周期と継続時間長にしたがって、波形切り出し部7から出力された2ピッチ長波形を再配置して重畳加算(ピッチ同期波形重畳加算法[Pitch Synchronous Overlap−Add]:PSOLA法)することにより、所望のピッチ周期の合成音声を生成する。なお、音声合成部8は音声合成手段を構成している。
合成音声出力端子9は音声合成部8により生成された合成音声を出力する端子である。
図1の例では、音声合成装置の構成要素である言語処理部3、韻律設定部4、音声素片選択部6、波形切り出し部7及び音声合成部8がそれぞれ専用のハードウェア(例えば、LSI(Large Scale IC)、FPGA(Field Programmable Gate Array)、論理ICなどの集積回路や、ディスクリート素子の組み合わせ)で構成されているものを想定しているが、音声合成装置がコンピュータから構成されている場合、言語処理部3、韻律設定部4、音声素片選択部6、波形切り出し部7及び音声合成部8の処理内容(言語処理手順、韻律設定処理手順、音声素片選択処理手順、波形切り出し処理手順及び音声合成処理手順)が記述されている音声合成プログラムをメモリに格納し、当該コンピュータのCPUが当該メモリに格納されている音声合成プログラムを実行するようにしてもよい。
なお、音声合成プログラムは、コンピュータのメモリではなく、例えば、インターネット、LAN、赤外線通信、Bluetooth(登録商標)、携帯電話のパケット通信などの有線・無線通信手段を用いて、サーバコンピュータ上の記憶手段からダウンロードするようにしてもよい。
また、例えば、CD−ROM、CD−R、DVD(Digital Versatile Disk)、MOディスク、磁気ディスク(ハードディスク、リムーバブルディスクなど)、不揮発性の半導体メモリ、磁気テープなどの記憶媒体や、バーコード等が印刷されたカード等の印刷媒体から配布・提供されるものであってもよい。
図2はこの発明の実施の形態1による音声合成方法を示すフローチャートである。
次に動作について説明する。
言語処理部3は、テキスト入力端子1から任意の文章が記述されているテキストが入力されると、言語辞書格納部2に格納されている言語辞書を参照して、そのテキストに対する形態素解析や構文解析などの言語処理を実施することにより、そのテキストの読み方や品詞などを示すテキスト解析結果を出力する(ステップST1)。
なお、言語処理部3における言語処理は、公知の処理であるため、詳細な説明は省略する。
韻律設定部4は、言語処理部3からテキスト解析結果を受けると、そのテキスト解析結果に対する音韻処理を実施することにより、韻律(例えば、音韻記号、アクセント、イントネーション(ピッチ周期列)、継続時間長など)を設定し、その韻律を示す韻律情報を出力する(ステップST2)。
なお、韻律設定部4における音韻処理は、公知の処理であるため、詳細な説明は省略する。
音声素片選択部6は、韻律設定部4から韻律情報を受けると、音響辞書格納部5に格納されている音響辞書から上記韻律情報に対応する音声素片を選択し、その音声素片を波形切り出し部7に出力する(ステップST3)。
なお、音声素片選択部6における音声素片の選択処理は、公知の処理であるため、詳細な説明は省略する。
波形切り出し部7は、音声素片選択部6から音声素片を受けると、韻律設定部4から出力された韻律情報が示すピッチ周期に応じた窓長を有する窓関数を設定し、その窓関数を用いて、その音声素片の波形からピッチ波形の切り出しを行う。
以下、波形切り出し部7におけるピッチ波形の切り出し処理を具体的に説明する。
即ち、波形切り出し部7は、音声素片選択部6から音声素片を受けると、韻律設定部4から出力された韻律情報が示すピッチ周期Pproと、その音声素片の波形のピッチ周期Pwavを比較する(ステップST4)。
波形切り出し部7は、韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより長い場合、あるいは、韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavと等しい場合(Ppro≧Pwavが成立する場合)、下記に示すように、窓関数の窓長Pwを音声素片の波形のピッチ周期Pwavの2倍に設定する(ステップST5)。
w=2×Pwav (1)
波形切り出し部7は、韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより短い場合(Ppro<Pwavが成立する場合)、下記に示すように、窓関数の窓長Pwを韻律情報が示すピッチ周期Pproより、少し長いピッチ周期w×Pproの2倍に設定する(ステップST6)。
w=2×w×Ppro (2)
ただし、wは所定の修正係数である。
この実施の形態1では、修正係数wは、w≧1.0の範囲で設定され、さらに、具体的には、w=1.25〜1.1の範囲で設定される。
修正係数wが“1”より大きな正数であることは、韻律情報が示すピッチ周期Pproよりも大きめの窓長Pwを設定して、2ピッチ長波形を切り出すことを意味している。
波形切り出し部7は、上記のようにして、窓長Pwを有する窓関数を設定すると、その窓関数を用いて、音声素片選択部6により選択された音声素片からインパルス駆動点を中心として、2ピッチ長波形の切り出しを行う(ステップST7)。
なお、2ピッチ長波形を切り出す方法は、例えば、特開平8−234794号公報に開示されている手法を用いることができる他、同種の公知の手法を用いてもよい。
ここで、図3は韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより短い場合の2ピッチ長波形の切り出し例を示す説明図である。
図において、上段は音声素片の波形の一部分を拡大しており、中段は韻律情報が示すピッチ周期Pproの2倍の窓長Pwを有する窓関数などを用いて、2ピッチ長波形を切り出した場合の一例を示している。
また、下段は韻律情報が示すピッチ周期Pproによる合成音声波の一例を示している。
図3の中段において、実線は、韻律情報が示すピッチ周期Pproに修正係数wを乗算し、乗算後のピッチ周期w×Pproの2倍の窓長Pw(=2×w×Ppro)を有する窓関数であり、点線は、韻律情報が示すピッチ周期Pproの2倍の窓長Pw(=2×Ppro)を有する窓関数である(従来の音声合成装置が使用する窓関数)。
点線の窓関数では、2ピッチ長波形のサイドローブ波形情報が欠落しているのに対して、実線の窓関数では、2ピッチ長波形のサイドローブ波形情報が欠落せずに保存されることが分かる。
音声合成部8は、波形切り出し部7が2ピッチ長波形の切り出しを行うと、韻律設定部4から出力された韻律情報が示すピッチ周期と継続時間長にしたがって、その2ピッチ長波形を再配置して重畳加算することにより(PSOLA法の実行)、所望のピッチ周期の合成音声を生成する(ステップST8)。
これにより、合成音声出力端子9から音声合成部8により生成された合成音声が出力される。
ここでは、PSOLA法を実行することにより、所望のピッチ周期の合成音声を生成するものについて示したが、これに限るものではなく、例えば、音韻情報と音源情報を分離し、音源情報である残差信号波形をピッチ周期間隔に重畳合成する残差波形重畳法を実行することにより、所望のピッチ周期の合成音声を生成するようにしてもよい。
以上で明らかなように、この実施の形態1によれば、韻律設定部4から出力された韻律情報が示すピッチ周期Pproに応じた窓長を有する窓関数Pwを設定し、その窓関数を用いて、音声素片選択部6により選択された音声素片の波形からピッチ波形の切り出しを行う波形切り出し部7を設け、音声合成部8が韻律設定部4から出力された韻律情報が示すピッチ周期Pproと波形切り出し部7により切り出されたピッチ波形にしたがってテキストの合成音声を生成するように構成したので、合成音のピッチ周波数を高くする場合でも、サイドローブ波形情報の欠落を防止して、音質の劣化を防止することができる効果を奏する。
また、この実施の形態1によれば、韻律設定部4から出力された韻律情報が示すピッチ周期Pproと音声素片選択部6により選択された音声素片の波形のピッチ周期Pwavを比較し、その韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwav以上であれば、窓関数の窓長Pwを音声素片の波形のピッチ周期Pwavの2倍に設定し、その韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより短ければ、窓関数の窓長Pwを韻律情報が示すピッチ周期Pproより長いピッチ周期w×Pproの2倍に設定するように構成したので、合成音のピッチ周波数を高くする場合でも、サイドローブ波形情報の欠落を防止することが可能な窓関数を設定することができる効果を奏する。
実施の形態2.
上記実施の形態1では、修正係数wが、w=1.25〜1.1の範囲で設定されるものについて示したが、修正係数wは一様に設定する必要はなく、話者、音素種類、音素名、あるいは、元の音声素片の波形のピッチ周期Pwavの大小に応じて設定するようにしてもよい。
下記の式(3)は、個々に設定された修正係数w1,w2を用いて、窓関数の窓長Pw1,w2を設定する例を示している。なお、修正係数w1,w2は、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体に配列テーブルとして記憶しておくことができる。
(1)母音部音素名が/a/,/e/であり、かつ、Ppro<Pwavである場合
w1=w1×Ppro
(2)母音部音素名が/i/,/u/,/o/であり、かつ、Ppro<Pwavである場合
w2=w2×Ppro (3)
ここで、w1は音声素片が持つ母音部の音素が/a/、/e/である場合の修正係数であり、例えば、w1=1.2〜1.1の範囲に設定される。
2は音声素片が持つ母音部の音素が/i/,/u/,/o/である場合の修正係数であり、例えば、w1=1.1〜1.05の範囲に設定される。
この実施の形態2では、説明の簡単化のため、式(3)のように、2つの条件で窓関数の窓長を設定するものを示しているが、例えば、5母音独立して設定するなど、分類条件を更に細分化することが可能であることは言うまでもない。
また、韻律情報が示すピッチ周期Pproと、音声素片の波形のピッチ周期Pwavとの差分に応じて修正係数wを変更するようにしてもよい。
例えば、韻律情報が示すピッチ周期Pproが、音声素片の波形のピッチ周期Pwavの1/2オクターブ以上高く変化する場合には、w1=1.1に設定し、韻律情報が示すピッチ周期Pproが、音声素片の波形のピッチ周期Pwavの1/2オクターブ未満で変化する場合には、w1=1.2に設定するようにすれば、ピッチ周期が短くなることに伴う2ピッチ長波形のオーバラップの影響を考慮しつつ、合成音の音質を高めることができる。
また、修正係数wの変更に併せて、窓関数の種類を変更してもよい。
例えば、式(3)において、母音部音素名が/a/,/e/である場合には、ハミング窓を使用し、母音部音素名が/i/,/u/,/o/である場合には、ブラックマン窓を使用するなどが該当する。
この実施の形態2では、図4に示すように、2ピッチ長波形の基準位置(2ピッチ長波形の中心の位置であり、以下、「ピッチマーク」と称する)の近傍にパワーが集中している波形の場合、窓長を大きく修正することが可能であり、顕著な効果を奏する。
しかし、図5に示すような波形のように、2ピッチ長波形のパルス成分がピッチ周期内で収束しきらず、次のピッチ波形に大きく影響を及ぼすと推測される場合には、窓長を大きく修正すると、合成音声に反響感が出現することがあるので、その場合には、窓長の修正量を小さくするようにする。あるいは、窓長の変更処理を行なわないようにすることも可能である。
修正量を小さくしたり、あるいは、修正を行なわない判断基準として、例えば、2ピッチ長波形の群遅延の分散や、ホルマントのQ値などの音声信号処理に基づく分析パラメータを用いたりすることができる。例えば、2ピッチ長波形の群遅延の分散を判断基準とする場合、2ピッチ長波形を公知の手法により分析を行った後、群遅延の分散が所定の閾値(音響辞書を構成する話者によって好適な値がまちまちであるので、話者別にヒューリスティックに決定する)より大きな値を取るときには、修正量を小さくするようにする。
また、上記のパラメータ以外には、2ピッチ長波形の振幅概形状(振幅包絡パタン)や、2ピッチ長波形を波形長よりも短い区間で区切り、その区切られた区間のパワー(小区間パワー)の分布状況などのパラメータ等も用いることができる。
実施の形態3.
上記実施の形態1では、韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより短い場合(Ppro<Pwavが成立する場合)、波形切り出し部7が、窓関数の窓長Pwを韻律情報が示すピッチ周期Pproより、少し長いピッチ周期w×Pproの2倍に設定するものについて示したが、韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより短い場合(Ppro<Pwavが成立する場合)でも、韻律情報が示すピッチ周期Pproと、音声素片の波形のピッチ周期Pwavとの差分が所定の閾値(例えば、22kHzサンプリングの場合、10サンプル)より小さければ、窓関数の窓長Pwを音声素片の波形のピッチ周期Pwavの2倍に設定するようにしてもよい。
図6は韻律情報が示すピッチ周期Pproと、音声素片の波形のピッチ周期Pwavとの差分が所定の閾値より小さい場合の2ピッチ長波形の切り出しと合成音の生成を示す説明図である。
図6中の上段は、切り出された2ピッチ長波形を示しており、実線は音声素片の波形のピッチ周期Pwavから導出される窓関数の波形であり、点線は韻律情報が示すピッチ周期Pproから導出される窓関数の波形である。
韻律情報が示すピッチ周期Pproと、音声素片の波形のピッチ周期Pwavとの差分が所定の閾値より小さい場合、音声素片の波形のピッチ周期Pwavから導出される窓関数で切り出された2ピッチ長波形の方が、2ピッチ長波形のサイドローブ波形情報の欠落が少なくなることが分かる。
このように、2ピッチ長波形のサイドローブ波形情報の欠落が少なくなれば、品質が高い合成音声を生成することができる。
実施の形態4.
上記実施の形態1〜3では、波形切り出し部7がピッチマークを中心とする形状が対称な窓長を有する窓関数を設定するものについて示したが、図7に示すように、ピッチマークを中心とする形状が非対称な窓長を有する窓関数を設定するようにしてもよい。
図7はピッチマークを中心とする形状が非対称な窓長を有する窓関数を用いる場合の2ピッチ長波形の切り出しと合成音の生成を示す説明図であり、韻律情報が示すピッチ周期Pproが、時間方向に急激に短くなる変化の場合を示している。
このとき、窓関数の右半面の窓長Pwは、韻律情報が示すピッチ周期Pproに修正係数wを乗算し、その乗算結果の2倍に設定する。
一方、左半面の窓長Pwは、韻律情報が示すピッチ周期Pproの2倍に設定する。
この実施の形態4では、上記のように、窓長Pwが左右非対称な窓関数を用いて、2ピッチ長波形の切り出しを行うようにする。
これにより、2ピッチ長波形のサイドローブ波形情報が欠落することが無くなる上、韻律のピッチ変動に追従することができる2ピッチ長波形が得られる相乗効果を奏するため、更に品質が高い合成音声を生成することができる。この効果は音韻過渡部において顕著である。
この実施の形態4では、窓関数の右半面の窓長Pwに限り、修正係数wをピッチ周期Pproに乗算して設定する例を示したが、例えば、ピッチ周期が時間方向に急激に長くなる変化の場合には、窓関数の左半面の窓長Pwに限り、修正係数wをピッチ周期Pproに乗算して設定するようにする。
また、窓関数の左右半面の窓長を設定する際、左右で異なる修正係数wをピッチ周期Pproに乗算して設定するようにしてもよい。
実施の形態5.
上記実施の形態1〜4では、音響辞書の音声素片をCV,VCなどの音素で表現する単位素片接続方法について示したが、この単位素片接続方法に限らず、音素列単位や単語・文章単位などの信号波形を接続合成する波形編集方法や、コーパスベース方法などの手法を使用するようにしてもよい。
上記実施の形態1〜4では、テキストに記述されている文書の言語については特に言及していないが、言語は日本語に限るものではなく、例えば、英語、ドイツ語、中国語などの外国語で記述されているテキストにも適用することができる。
この場合には、言語辞書及び音響辞書は、各言語の構文規則と発音規則に従って構成されることになる。
上記実施の形態1〜4における形態素解析、構文解析及び韻律設定の全部又は一部については、予め処理を実施しておいて、その解析結果を、例えば、ROM、RAM、FlashROMなどの不揮発メモリ、磁気ディスク、CDのデータトラックなどの記録媒体に蓄えておき、音声合成時に、その解析結果を記録媒体から読み出すことで省略することも可能である。
また、例えば、LAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信などの無線・優先通信手段やネットワーク手段経由で、サーバコンピュータ等の処理手段で解析された解析結果や韻律情報、あるいはサーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略可能である。
さらに、解析結果や韻律情報を、例えば、コンピュータのGUI(Graphical User Interface)、キーボード、押しボタン、1次元/2次元バーコードリーダ、OCR(Optical Character Reader)などの入力手段から直接入力しても構わない。
これはカーナビゲーションシステム、携帯電話、PDA、ビデオレコーダ、ゲーム機器、オーディオ機器などにおいて決まった文章、例えば、カーナビやカーオーディオ、あるいは携帯オーディオ機器などで、再生している音楽の曲名や操作案内(ガイダンス)文を読み上げたり、ゲームのキャラクタ合成音を再生したりする場合に有効である。
また、上記実施の形態1〜4における修正係数wや、音響辞書及び言語辞書がRAMなどの書き込み・消去可能な記憶手段に記憶されている場合には、エディタ等を使用して、データの修正・追加を行うこともできる。
さらに、例えば、LAN、インターネット、Buletooth(登録商標)、赤外線通信、携帯電話パケット通信などの無線・有線通信手段やネットワーク手段経由で、サーバコンピュータ上のハードディスク等の記憶手段に記憶されているパラメータテーブルをダウンロードしたり、例えば、CD−ROM、CD−R、DVD、MOディスク、磁気ディスク、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体から、当該媒体を読み込む機器、例えばカードリーダなどを用いて読み込むことにより、追加・更新することができる。
上記実施の形態1〜4では、各処理部が同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、例えば、ネットワーク上に分散されている計算機や処理装置などに分かれて各処理部を構成してもよい。
また、1つ以上の複数の機器から構成されるシステムに適用してもよい。サーバコンピュータが音声合成プログラムをネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータ、携帯電話、PDAなどの携帯端末機器が配信された音声合成プログラムを実行することができる。
この発明の実施の形態1による音声合成装置を示す構成図である。 この発明の実施の形態1による音声合成方法を示すフローチャートである。 韻律情報が示すピッチ周期Pproが音声素片の波形のピッチ周期Pwavより短い場合の2ピッチ長波形の切り出し例を示す説明図である。 ピッチマーク(ピッチ波形の中心)の近傍にパワーが集中している波形例を示す説明図である。 2ピッチ長波形のパルス成分がピッチ周期内で収束しきらず、次のピッチ波形に大きく影響を及ぼすと推測される波形例を示す説明図である。 韻律情報が示すピッチ周期Pproと、音声素片の波形のピッチ周期Pwavとの差分が所定の閾値より小さい場合の2ピッチ長波形の切り出しと合成音の生成を示す説明図である。 ピッチマークを中心とする形状が非対称な窓長を有する窓関数を用いる場合の2ピッチ長波形の切り出しと合成音の生成を示す説明図である。
符号の説明
1 テキスト入力端子、2 言語辞書格納部、3 言語処理部(韻律設定手段)、4 韻律設定部(韻律設定手段)、5 音響辞書格納部、6 音声素片選択部(音声素片選択手段)、7 波形切り出し部(波形切り出し手段)、8 音声合成部(音声合成手段)、9 合成音声出力端子。

Claims (5)

  1. 言語辞書を参照してテキストを解析し、上記テキストの解析結果に応じて韻律を設定する韻律設定手段と、複数の音声素片を記憶している音響辞書と、上記音響辞書から上記韻律設定手段により設定された韻律に対応する音声素片を選択する音声素片選択手段と、上記韻律設定手段により設定された韻律のピッチ周期と上記音声素片選択手段により選択された音声素片の波形のピッチ周期を比較し、上記韻律のピッチ周期が上記音声素片の波形のピッチ周期以上であれば、窓関数の窓長を上記音声素片の波形のピッチ周期の2倍に設定し、上記韻律のピッチ周期が上記音声素片の波形のピッチ周期より短ければ、窓関数の窓長を上記韻律のピッチ周期より長いピッチ周期の2倍に設定し、上記窓関数を用いて上記音声素片選択手段により選択された音声素片の波形からピッチ波形の切り出しを行う波形切り出し手段と、上記韻律設定手段により設定された韻律のピッチ周期と上記波形切り出し手段により切り出されたピッチ波形にしたがって上記テキストの合成音声を生成する音声合成手段とを備えた音声合成装置。
  2. 波形切り出し手段は、韻律のピッチ周期が音声素片の波形のピッチ周期より短い場合でも、上記韻律のピッチ周期と上記音声素片の波形のピッチ周期の差分が所定の閾値より小さければ、窓関数の窓長を上記音声素片の波形のピッチ周期の2倍に設定することを特徴とする請求項1記載の音声合成装置。
  3. 波形切り出し手段は、ピッチ波形の基準位置を中心とする形状が非対称な窓長を有する窓関数を設定することを特徴とする請求項1または請求項2記載の音声合成装置。
  4. 韻律設定手段が言語辞書を参照してテキストを解析し、上記テキストの解析結果に応じて韻律を設定する韻律設定ステップと、音声素片選択手段が複数の音声素片を記憶している音響辞書から上記韻律設定手段により設定された韻律に対応する音声素片を選択する音声素片選択ステップと、波形切り出し手段が上記韻律設定手段により設定された韻律のピッチ周期と上記音声素片選択手段により選択された音声素片の波形のピッチ周期を比較し、上記韻律のピッチ周期が上記音声素片の波形のピッチ周期以上であれば、窓関数の窓長を上記音声素片の波形のピッチ周期の2倍に設定し、上記韻律のピッチ周期が上記音声素片の波形のピッチ周期より短ければ、窓関数の窓長を上記韻律のピッチ周期より長いピッチ周期の2倍に設定し、上記窓関数を用いて上記音声素片選択手段により選択された音声素片の波形からピッチ波形の切り出しを行う波形切り出しステップと、音声合成手段が上記韻律設定手段により設定された韻律のピッチ周期と上記波形切り出し手段により切り出されたピッチ波形にしたがって上記テキストの合成音声を生成する音声合成ステップとを備えた音声合成方法。
  5. 言語辞書を参照してテキストを解析し、上記テキストの解析結果に応じて韻律を設定する韻律設定処理手順と、複数の音声素片を記憶している音響辞書から上記韻律設定処理手順により設定された韻律に対応する音声素片を選択する音声素片選択処理手順と、上記韻律設定処理手順により設定された韻律のピッチ周期と上記音声素片選択処理手順により選択された音声素片の波形のピッチ周期を比較し、上記韻律のピッチ周期が上記音声素片の波形のピッチ周期以上であれば、窓関数の窓長を上記音声素片の波形のピッチ周期の2倍に設定し、上記韻律のピッチ周期が上記音声素片の波形のピッチ周期より短ければ、窓関数の窓長を上記韻律のピッチ周期より長いピッチ周期の2倍に設定し、上記窓関数を用いて上記音声素片選択処理手順により選択された音声素片の波形からピッチ波形の切り出しを行う波形切り出し処理手順と、上記韻律設定処理手順により設定された韻律のピッチ周期と上記波形切り出し処理手順により切り出されたピッチ波形にしたがって上記テキストの合成音声を生成する音声合成処理手順とをコンピュータに実行させるための音声合成プログラム。
JP2006340235A 2006-12-18 2006-12-18 音声合成装置、音声合成方法及び音声合成プログラム Active JP4805121B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006340235A JP4805121B2 (ja) 2006-12-18 2006-12-18 音声合成装置、音声合成方法及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006340235A JP4805121B2 (ja) 2006-12-18 2006-12-18 音声合成装置、音声合成方法及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2008152042A JP2008152042A (ja) 2008-07-03
JP4805121B2 true JP4805121B2 (ja) 2011-11-02

Family

ID=39654268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006340235A Active JP4805121B2 (ja) 2006-12-18 2006-12-18 音声合成装置、音声合成方法及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4805121B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013224417B3 (de) 2013-11-28 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hörhilfevorrichtung mit Grundfrequenzmodifizierung, Verfahren zur Verarbeitung eines Sprachsignals und Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
JPH08160991A (ja) * 1994-12-06 1996-06-21 Matsushita Electric Ind Co Ltd 音声素片作成方法および音声合成方法、装置
JPH11224096A (ja) * 1998-02-05 1999-08-17 Oki Electric Ind Co Ltd 音声合成方法及び音声合成装置

Also Published As

Publication number Publication date
JP2008152042A (ja) 2008-07-03

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US10347238B2 (en) Text-based insertion and replacement in audio narration
EP1071074B1 (en) Speech synthesis employing prosody templates
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
EP2140447B1 (en) System and method for hybrid speech synthesis
US8352270B2 (en) Interactive TTS optimization tool
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JPS62160495A (ja) 音声合成装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JP4639932B2 (ja) 音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
Takano et al. A Japanese TTS system based on multiform units and a speech modification algorithm with harmonics reconstruction
JP4805121B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
EP1589524B1 (en) Method and device for speech synthesis
JP2009271190A (ja) 音声素片辞書作成装置及び音声合成装置
JP3883318B2 (ja) 音声素片作成方法及び装置
JP3853923B2 (ja) 音声合成装置
EP1640968A1 (en) Method and device for speech synthesis
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
Klabbers Text-to-Speech Synthesis
Demenko et al. Implementation of Polish speech synthesis for the BOSS system
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours
JP2006133559A (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080704

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110810

R150 Certificate of patent or registration of utility model

Ref document number: 4805121

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250