JP4775236B2

JP4775236B2 - 音声合成装置

Info

Publication number: JP4775236B2
Application number: JP2006315275A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2006-11-22
Filing date: 2006-11-22
Publication date: 2011-09-21
Anticipated expiration: 2026-11-22
Also published as: JP2008129382A

Description

本発明は、合成した音声とともに、その合成音声の品質を表す情報を出力する音声合成装置に関するものである。

従来、『この発明は、音素単位だけでなく音素の中心を境界とするダイフォン単位も用いた新たな日本語テキスト合成方法を提供することを目的とする。また、この発明は、音素単位のみを用いる従来法と比較して、より自然性の高い音声を合成することができ、かつコーパスをより有効に使用することができるようになる日本語テキスト合成方法を提供すること』を目的とした技術として、『日本語テキスト音声合成方法において、母音と母音との連鎖における波形接続において、それらの境界での接続と、それらの母音中心での接続との両方を考慮して音声合成単位の選択を行うようにした。』というものがある（特許文献１）。
上記技術において、音素単位選択を行う際に、知覚的特徴に一致した尺度（コスト）を用いる。このように、合成音の品質評価を所定のコスト関数などで行う技術が、一般に公開されている。
特開２００３−２０８１８８号公報（要約、図２）

一般に、ユーザはより高品質な合成音声を望む。しかし、合成音声の品質を測る尺度は様々なものがあり、一般的なユーザには判断しにくい。上記従来技術のようなコスト関数により合成音声の品質を求めてユーザに提示することもできるが、その算出値がどの程度の品質を意味するのかをユーザが検討しなければならず、やはり同様に品質の良し悪しが判断しにくい。
そのため、合成音声の品質の良し悪しを、一般ユーザでもより直感的に判断することのできる音声合成装置が望まれていた。

本発明に係る音声合成装置は、
音声に変換するための入力テキストを入力する入力部と、
前記入力テキストの内容に応じて音声合成を行うとともに、該入力テキスト全体について合成された音声の品質を所定の演算式で算出する音声合成部と、
合成音声の品質レベル毎にあらかじめ対応付けられた応答メッセージを格納した応答データベースと、
前記応答データベースから応答メッセージを読み出して音声出力する音声応答部と、
を備え、
前記音声応答部は、
前記音声合成部が音声合成を完了すると、その音声の品質に対応した応答メッセージを前記応答データベースから読み出して音声出力する
ことを特徴とするものである。

本発明に係る音声合成装置によれば、合成音声の品質を応答メッセージで音声出力するため、ユーザは合成音声の品質を音声で知ることができ、より直感的に品質の良し悪しを判断することができる。

実施の形態１．
図１は、本発明の実施の形態１に係る音声合成装置１００の機能ブロック図である。
音声合成装置１００は、音声合成部１１０、推奨度選択部１２０、音声応答部１３０、音声ＤＢ１４０、応答ＤＢ１５０を備える。
音声合成部１１０は、合成音声で読み上げるための入力テキストを受け取り、音声ＤＢ１４０が格納しているデータを用いて合成した音声を出力する。音声合成に際しては、コーパスベース方式を用いるものとする。また、合成した音声の品質を後述の方法で算出し、推奨度選択部１２０に出力する。
推奨度選択部１２０は、音声合成部１１０より合成音声の品質を表す情報を受け取り、応答ＤＢ１５０にアクセスして、対応する応答メッセージを読み出す。
音声応答部１３０は、推奨度選択部１２０が読み出した応答メッセージを音声出力することにより、合成音声の品質をユーザに音声で通知する。
音声ＤＢ１４０は、音声合成部１１０が音声合成を行う際に必要なデータを格納している。
応答ＤＢ１５０については、後述の図２で説明する。

また、音声合成装置１００は、入力テキストを受け取るため、必要に応じてネットワークインターフェースなどの入力部を備える。
音声合成部１１０が出力する合成音声は、波形信号やそのサンプリングデータなどの形式で出力されるものとする。

なお、本実施の形態１における「音声合成部」は、音声合成部１１０と推奨度選択部１２０により構成されるものとする。

音声合成部１１０が算出する合成音声の品質とは、コーパスベース音声合成方式で合成音声を生成する段階で生じる、音声の物理量と知覚とを対応付けたコスト関数により音質を評価した値のことである。コスト関数は、あらかじめ定められているものとする。
あるいは、以下のような基準で合成音声の品質を算出することもできる。
（１）合成音声を生成するために要した処理時間の多寡。
（２）入力テキストをモーラ単位に分割して分析し、音質を劣化させるようなモーラが含まれている場合は、音質が低いものと評価する。
（３）合成音声の生成中、もしくは生成後の合成音声の、話速に関する特徴量。例えばフォルマントの遷移速度。
（４）生成後の合成音声のメルケプストラムと、韻律推定されたメルケプストラムとの差分値。メルケプストラム以外に、音素の継続時間長、ピッチ、ＬＰＣ係数などを用いてもよい。

図２は、応答ＤＢ１５０が格納している応答メッセージテーブル１５１（図示せず）の構成とデータ例を示すものである。
応答メッセージテーブル１５１は、「合成音声の品質」列、「応答メッセージ」列を有する。
「合成音声の品質」列は、音声合成部１１０が算出する合成音声の品質を表す値の閾値が格納されている。図２のデータ例では、音声合成部１１０が上述のコスト関数を用いて算出した「コスト値」に対応する値が格納されており、値が小さいほうがより品質の良い合成音声であるものと評価する。
「応答メッセージ」列は、音声合成部１１０が生成した合成音声の品質（＝コスト値）に対応する応答メッセージが格納されている。図２のデータ例では、例えば「コスト値＝０．１０」であれば、応答メッセージは「お薦めの音声だね。」となる。

次に、音声合成装置１００の詳細な動作についてステップを追って説明する。
（１）入力テキストの入力
音声合成部１１０は、読み上げ対象の入力テキストを受け付ける。なお、入力のための必要に応じて、音声合成装置１００に入力インターフェースを設ける。具体的には、例えばＬＡＮインターフェースなどのネットワークインターフェースや、音声合成装置１００の外面に設けられた操作パネルによる直接入力などが考えられる。

（２）音声合成の実行・出力
音声合成部１１０は、音声ＤＢ１４０に格納されている、韻律モデルデータベース、音響モデルデータベース、音声ファイルなどの、コーパスベース音声合成に必要なデータを用いて、入力テキストを読み上げる合成音声を生成する。
合成音声の出力形式は、音声波形をサンプリングしたデータ形式でもよいし、スピーカー等の音声出力装置を介して直接音声出力してもよい。あるいは、音声波形に相当する電気的信号そのものを出力してもよい。

（３）コスト値の算出
音声合成部１１０は、合成音声を生成するに際し、その合成音声の品質を上述のコスト関数により算出して推奨度選択部１２０に出力する。出力のタイミングは、合成音声の生成が完全に終了してからでもよいし、合成の最中に逐次的に出力してもよい。後者の場合は推奨度選択部１２０がコスト値の合計を算出するなどすればよい。

（４）応答メッセージの選択
推奨度選択部１２０は、音声合成部１１０より受け取ったコスト値をキーにして応答メッセージテーブル１５１を検索する。次に、該当するデータの「応答メッセージ」列を読み取り、音声応答部１３０に出力する。
「応答メッセージ」列に格納しているデータは、メッセージのテキストのみとしてもよいし、メッセージを読み上げる音声ファイルそのものを格納していてもよい。

（５）応答メッセージの出力
音声応答部１３０は、推奨度選択部１２０より受け取った応答メッセージの内容を、スピーカー等により音声出力する。
「応答メッセージ」列に格納しているデータがメッセージのテキストのみである場合は、そのテキストを読み上げる合成音声を生成して出力する。また、メッセージを読み上げる音声ファイルそのものである場合は、その音声ファイルを再生して音声出力する。
なお、応答メッセージの音声出力のタイミングは、音声合成部１１０が合成音声を出力する前でもよいし、出力が完全に終了した後でもよい。音声合成部１１０の出力形式が合成音声の波形サンプリングデータである場合には、そのデータの出力とともに応答メッセージを音声出力してもよい。この場合は合成音声と音声応答が重複して音声出力されることはないからである。

なお、本実施の形態１では音声合成部１１０はコーパスベース方式により音声合成を行うものとして説明したが、これに限られるものではなく、規則合成方式や録音編集方式により音声合成を行うものでもよい。

以上のように、本実施の形態１によれば、合成音声の品質を応答メッセージで音声出力するため、ユーザは合成音声の品質を音声で知ることができ、より直感的に品質の良し悪しを判断することができる。
また、聴覚で応答メッセージを得ることは、単なる数値の提示よりもユーザの感性に直接的に訴えかけるので、よりインタラクティブ性が高まるという効果もある。

実施の形態２．
実施の形態１では、音声合成を実行する際に得られる種々のパラメータを基に、所定のコスト関数でコスト値を算出する構成を説明した。
本発明の実施の形態２では、特定のキーワードが入力テキストに含まれている場合に、コスト値を補正した上で応答メッセージを選択する音声合成装置の構成を説明する。

図３は、本実施の形態２に係る音声合成装置１００の機能ブロック図である。
本実施の形態２に係る音声合成装置１００は、キーワードＤＢ１６０を備える。その他の構成は実施の形態１で説明した図１と同様であるため、同様の符号を付して説明を省略する。

キーワードＤＢ１６０は、例えばテーブル形式などで格納された任意のキーワードのリストを格納している。このキーワードのリストは、音声合成装置１００の製造者が製造の際に、あるいは管理者が設定により、キーワードＤＢ１６０内に格納するものである。

次に、本実施の形態２に係る音声合成装置１００の動作について説明する。
（１）入力テキストの入力〜（２）音声合成の実行・出力
これらのステップの動作は実施の形態１と同様であるため、説明を省略する。

（３）コスト値の算出
音声合成部１１０は、合成音声を生成するに際し、その合成音声の品質を上述のコスト関数により算出し、次にキーワードＤＢ１６０を参照して算出結果を補正する。
補正方法は、入力テキストの中にキーワードＤＢ１６０が保持するキーワードが何個出現するか、などを基準として、より出現頻度が高い場合にコスト値を低く補正する、といった方法が考えられる。その他、キーワード毎に重みを付けて、特定のキーワードはコスト値低減効果を高くする、などとすることもできる。
算出・補正したコスト値は、推奨度選択部１２０に出力される。

（４）応答メッセージの選択〜（５）応答メッセージの出力
これらのステップの動作は実施の形態１と同様であるため、説明を省略する。

以上のように、本実施の形態２によれば、算出したコスト値をキーワードリストの内容により補正することができるので、キーワードリストに保持する内容如何によっては、コスト値の算出にバイアスをかけることができる。
即ち、通常であれば音声合成部１１０に入力されるテキストは全くのアドホックであるが、ある特定のキーワード群を入力した場合に限り、合成音声の品質が良くなったかのような外観を作出することができるので、音声合成部１１０に入力されるテキストに、キーワードリストに基づく方向性を与えることができる。
もちろん、虚偽のコスト値を算出することは誠実の観点から好ましくないので、入力テキストがキーワードリストに合致した場合には、合成音声の実際の品質もそれに応じて調整して生成することが必要であろう。
この機能は、合成音声として出力するには好ましくない語句が入力テキストとして入力された場合に、その合成音声の品質を極端に劣悪にするなどして、そのような語句の入力を事実上抑制することなどに応用できる。

実施の形態３．
実施の形態１〜２では、音声応答部１３０は、応答ＤＢ１５０が格納している応答メッセージの内容を用いて音声応答を出力するものとしたが、この音声応答は、合成音声とは特段の関係がなく生成される、無機質な機械的音声を想定したものである。
本発明の実施の形態３では、合成音声と音声応答に関連性を持たせる音声合成装置の構成を説明する。

図４は、本実施の形態３に係る音声合成装置１００の機能ブロック図である。
図４の音声合成装置１００は、構成要素は実施の形態１で説明した図１と同様であるが、各部の入出力関係が図１とは異なる。次の動作説明で、詳細を説明する。

次に、本実施の形態３に係る音声合成装置１００の詳細な動作についてステップを追って説明する。
（１）入力テキストの入力〜（３）コスト値の算出
これらのステップの動作は実施の形態１と同様であるため、説明を省略する。

（４）応答メッセージの選択
推奨度選択部１２０は、音声合成部１１０より受け取ったコスト値をキーにして応答メッセージテーブル１５１を検索する。次に、該当するデータの「応答メッセージ」列を読み取り、音声合成部１１０に出力する。
なお、応答メッセージテーブル１５１の「応答メッセージ」列には、応答メッセージのテキストのみが格納されているものとする。

（５）応答メッセージの音声合成
音声合成部１１０は、推奨度選択部１２０より受け取った応答メッセージの内容を読み上げる合成音声を生成する。生成に際しては、ステップ（２）と同様の処理を行う。
生成した合成音声は、音声応答部１３０に出力される。

（６）応答メッセージの出力
音声応答部１３０は、音声合成部１１０より受け取った合成音声を、スピーカー等により音声出力する。

以上のように、本実施の形態３によれば、合成音声の品質を表す応答メッセージは、合成音声と同じ話者ないし口調で音声出力されるため、ユーザにとって合成音声の品質がより直感的に理解しやすく、インタラクティブ性のある音声合成装置を提供することができる。

以上の実施の形態１〜３において、合成音声の品質に応じて、応答メッセージの音声品質にも差を設けてもよい。例えば実施の形態３において、コスト値が低い高品質の合成音声を出力する場合には、応答メッセージの品質も高くする、もしくは感情表現を込めた応答メッセージを出力する、などとすれば、ユーザに与えるインタラクティブ感もその分増すので、ユーザと合成音声との一体感が高まる。

また、以上の実施の形態１〜３において、応答メッセージの話者は１話者に限るものではなく、コスト値の閾値毎に異なる話者の応答メッセージを音声出力するようにしてもよい。

実施の形態１に係る音声合成装置１００の機能ブロック図である。応答ＤＢ１５０が格納している応答メッセージテーブル１５１の構成とデータ例を示すものである。実施の形態２に係る音声合成装置１００の機能ブロック図である。実施の形態３に係る音声合成装置１００の機能ブロック図である。

符号の説明

１００音声合成装置、１１０音声合成部、１２０推奨度選択部、１３０音声応答部、１４０音声ＤＢ、１５０応答ＤＢ、１５１応答メッセージテーブル、１６０キーワードＤＢ。

Claims

音声に変換するための入力テキストを入力する入力部と、
前記入力テキストの内容に応じて音声合成を行うとともに、該入力テキスト全体について合成された音声の品質を所定の演算式で算出する音声合成部と、
合成音声の品質レベル毎にあらかじめ対応付けられた応答メッセージを格納した応答データベースと、
前記応答データベースから応答メッセージを読み出して音声出力する音声応答部と、
を備え、
前記音声応答部は、
前記音声合成部が音声合成を完了すると、その音声の品質に対応した応答メッセージを前記応答データベースから読み出して音声出力する
ことを特徴とする音声合成装置。
前記応答データベースは、前記音声の品質レベルについての３段階以上の評価範囲に対応付けられた前記応答メッセージを格納した
ことを特徴とする請求項１に記載の音声合成装置。
所定のキーワードを１ないし複数格納したキーワードテーブルを備え、
前記音声合成部は、
合成した音声の品質を算出する際に、前記キーワードテーブルを参照し、
前記入力テキストの内容が前記キーワードテーブルに含まれている場合には、合成した音声の品質を所定の規則で補正する
ことを特徴とする請求項１又は請求項２に記載の音声合成装置。
前記応答データベースは、前記応答メッセージのテキストのみを格納しており、
前記音声合成部は、
前記音声応答部が前記応答メッセージを音声出力する際に、前記応答メッセージのテキストを読み出して音声合成を行い、
前記音声応答部は、
その音声を用いて応答メッセージを音声出力する
ことを特徴とする請求項１〜請求項３のいずれかに記載の音声合成装置。