JP4775236B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP4775236B2
JP4775236B2 JP2006315275A JP2006315275A JP4775236B2 JP 4775236 B2 JP4775236 B2 JP 4775236B2 JP 2006315275 A JP2006315275 A JP 2006315275A JP 2006315275 A JP2006315275 A JP 2006315275A JP 4775236 B2 JP4775236 B2 JP 4775236B2
Authority
JP
Japan
Prior art keywords
speech
response
voice
quality
response message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006315275A
Other languages
English (en)
Other versions
JP2008129382A (ja
Inventor
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006315275A priority Critical patent/JP4775236B2/ja
Publication of JP2008129382A publication Critical patent/JP2008129382A/ja
Application granted granted Critical
Publication of JP4775236B2 publication Critical patent/JP4775236B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

本発明は、合成した音声とともに、その合成音声の品質を表す情報を出力する音声合成装置に関するものである。
従来、『この発明は、音素単位だけでなく音素の中心を境界とするダイフォン単位も用いた新たな日本語テキスト合成方法を提供することを目的とする。また、この発明は、音素単位のみを用いる従来法と比較して、より自然性の高い音声を合成することができ、かつコーパスをより有効に使用することができるようになる日本語テキスト合成方法を提供すること』を目的とした技術として、『日本語テキスト音声合成方法において、母音と母音との連鎖における波形接続において、それらの境界での接続と、それらの母音中心での接続との両方を考慮して音声合成単位の選択を行うようにした。』というものがある(特許文献1)。
上記技術において、音素単位選択を行う際に、知覚的特徴に一致した尺度(コスト)を用いる。このように、合成音の品質評価を所定のコスト関数などで行う技術が、一般に公開されている。
特開2003−208188号公報(要約、図2)
一般に、ユーザはより高品質な合成音声を望む。しかし、合成音声の品質を測る尺度は様々なものがあり、一般的なユーザには判断しにくい。上記従来技術のようなコスト関数により合成音声の品質を求めてユーザに提示することもできるが、その算出値がどの程度の品質を意味するのかをユーザが検討しなければならず、やはり同様に品質の良し悪しが判断しにくい。
そのため、合成音声の品質の良し悪しを、一般ユーザでもより直感的に判断することのできる音声合成装置が望まれていた。
本発明に係る音声合成装置は、
音声に変換するための入力テキストを入力する入力部と、
前記入力テキストの内容に応じて音声合成を行うとともに、該入力テキスト全体について合成された音声の品質を所定の演算式で算出する音声合成部と、
合成音声の品質レベル毎にあらかじめ対応付けられた応答メッセージを格納した応答データベースと、
前記応答データベースから応答メッセージを読み出して音声出力する音声応答部と、
を備え、
前記音声応答部は、
前記音声合成部が音声合成を完了すると、その音声の品質に対応した応答メッセージを前記応答データベースから読み出して音声出力する
ことを特徴とするものである。
本発明に係る音声合成装置によれば、合成音声の品質を応答メッセージで音声出力するため、ユーザは合成音声の品質を音声で知ることができ、より直感的に品質の良し悪しを判断することができる。
実施の形態1.
図1は、本発明の実施の形態1に係る音声合成装置100の機能ブロック図である。
音声合成装置100は、音声合成部110、推奨度選択部120、音声応答部130、音声DB140、応答DB150を備える。
音声合成部110は、合成音声で読み上げるための入力テキストを受け取り、音声DB140が格納しているデータを用いて合成した音声を出力する。音声合成に際しては、コーパスベース方式を用いるものとする。また、合成した音声の品質を後述の方法で算出し、推奨度選択部120に出力する。
推奨度選択部120は、音声合成部110より合成音声の品質を表す情報を受け取り、応答DB150にアクセスして、対応する応答メッセージを読み出す。
音声応答部130は、推奨度選択部120が読み出した応答メッセージを音声出力することにより、合成音声の品質をユーザに音声で通知する。
音声DB140は、音声合成部110が音声合成を行う際に必要なデータを格納している。
応答DB150については、後述の図2で説明する。
また、音声合成装置100は、入力テキストを受け取るため、必要に応じてネットワークインターフェースなどの入力部を備える。
音声合成部110が出力する合成音声は、波形信号やそのサンプリングデータなどの形式で出力されるものとする。
なお、本実施の形態1における「音声合成部」は、音声合成部110と推奨度選択部120により構成されるものとする。
音声合成部110が算出する合成音声の品質とは、コーパスベース音声合成方式で合成音声を生成する段階で生じる、音声の物理量と知覚とを対応付けたコスト関数により音質を評価した値のことである。コスト関数は、あらかじめ定められているものとする。
あるいは、以下のような基準で合成音声の品質を算出することもできる。
(1)合成音声を生成するために要した処理時間の多寡。
(2)入力テキストをモーラ単位に分割して分析し、音質を劣化させるようなモーラが含まれている場合は、音質が低いものと評価する。
(3)合成音声の生成中、もしくは生成後の合成音声の、話速に関する特徴量。例えばフォルマントの遷移速度。
(4)生成後の合成音声のメルケプストラムと、韻律推定されたメルケプストラムとの差分値。メルケプストラム以外に、音素の継続時間長、ピッチ、LPC係数などを用いてもよい。
図2は、応答DB150が格納している応答メッセージテーブル151(図示せず)の構成とデータ例を示すものである。
応答メッセージテーブル151は、「合成音声の品質」列、「応答メッセージ」列を有する。
「合成音声の品質」列は、音声合成部110が算出する合成音声の品質を表す値の閾値が格納されている。図2のデータ例では、音声合成部110が上述のコスト関数を用いて算出した「コスト値」に対応する値が格納されており、値が小さいほうがより品質の良い合成音声であるものと評価する。
「応答メッセージ」列は、音声合成部110が生成した合成音声の品質(=コスト値)に対応する応答メッセージが格納されている。図2のデータ例では、例えば「コスト値=0.10」であれば、応答メッセージは「お薦めの音声だね。」となる。
次に、音声合成装置100の詳細な動作についてステップを追って説明する。
(1)入力テキストの入力
音声合成部110は、読み上げ対象の入力テキストを受け付ける。なお、入力のための必要に応じて、音声合成装置100に入力インターフェースを設ける。具体的には、例えばLANインターフェースなどのネットワークインターフェースや、音声合成装置100の外面に設けられた操作パネルによる直接入力などが考えられる。
(2)音声合成の実行・出力
音声合成部110は、音声DB140に格納されている、韻律モデルデータベース、音響モデルデータベース、音声ファイルなどの、コーパスベース音声合成に必要なデータを用いて、入力テキストを読み上げる合成音声を生成する。
合成音声の出力形式は、音声波形をサンプリングしたデータ形式でもよいし、スピーカー等の音声出力装置を介して直接音声出力してもよい。あるいは、音声波形に相当する電気的信号そのものを出力してもよい。
(3)コスト値の算出
音声合成部110は、合成音声を生成するに際し、その合成音声の品質を上述のコスト関数により算出して推奨度選択部120に出力する。出力のタイミングは、合成音声の生成が完全に終了してからでもよいし、合成の最中に逐次的に出力してもよい。後者の場合は推奨度選択部120がコスト値の合計を算出するなどすればよい。
(4)応答メッセージの選択
推奨度選択部120は、音声合成部110より受け取ったコスト値をキーにして応答メッセージテーブル151を検索する。次に、該当するデータの「応答メッセージ」列を読み取り、音声応答部130に出力する。
「応答メッセージ」列に格納しているデータは、メッセージのテキストのみとしてもよいし、メッセージを読み上げる音声ファイルそのものを格納していてもよい。
(5)応答メッセージの出力
音声応答部130は、推奨度選択部120より受け取った応答メッセージの内容を、スピーカー等により音声出力する。
「応答メッセージ」列に格納しているデータがメッセージのテキストのみである場合は、そのテキストを読み上げる合成音声を生成して出力する。また、メッセージを読み上げる音声ファイルそのものである場合は、その音声ファイルを再生して音声出力する。
なお、応答メッセージの音声出力のタイミングは、音声合成部110が合成音声を出力する前でもよいし、出力が完全に終了した後でもよい。音声合成部110の出力形式が合成音声の波形サンプリングデータである場合には、そのデータの出力とともに応答メッセージを音声出力してもよい。この場合は合成音声と音声応答が重複して音声出力されることはないからである。
なお、本実施の形態1では音声合成部110はコーパスベース方式により音声合成を行うものとして説明したが、これに限られるものではなく、規則合成方式や録音編集方式により音声合成を行うものでもよい。
以上のように、本実施の形態1によれば、合成音声の品質を応答メッセージで音声出力するため、ユーザは合成音声の品質を音声で知ることができ、より直感的に品質の良し悪しを判断することができる。
また、聴覚で応答メッセージを得ることは、単なる数値の提示よりもユーザの感性に直接的に訴えかけるので、よりインタラクティブ性が高まるという効果もある。
実施の形態2.
実施の形態1では、音声合成を実行する際に得られる種々のパラメータを基に、所定のコスト関数でコスト値を算出する構成を説明した。
本発明の実施の形態2では、特定のキーワードが入力テキストに含まれている場合に、コスト値を補正した上で応答メッセージを選択する音声合成装置の構成を説明する。
図3は、本実施の形態2に係る音声合成装置100の機能ブロック図である。
本実施の形態2に係る音声合成装置100は、キーワードDB160を備える。その他の構成は実施の形態1で説明した図1と同様であるため、同様の符号を付して説明を省略する。
キーワードDB160は、例えばテーブル形式などで格納された任意のキーワードのリストを格納している。このキーワードのリストは、音声合成装置100の製造者が製造の際に、あるいは管理者が設定により、キーワードDB160内に格納するものである。
次に、本実施の形態2に係る音声合成装置100の動作について説明する。
(1)入力テキストの入力〜(2)音声合成の実行・出力
これらのステップの動作は実施の形態1と同様であるため、説明を省略する。
(3)コスト値の算出
音声合成部110は、合成音声を生成するに際し、その合成音声の品質を上述のコスト関数により算出し、次にキーワードDB160を参照して算出結果を補正する。
補正方法は、入力テキストの中にキーワードDB160が保持するキーワードが何個出現するか、などを基準として、より出現頻度が高い場合にコスト値を低く補正する、といった方法が考えられる。その他、キーワード毎に重みを付けて、特定のキーワードはコスト値低減効果を高くする、などとすることもできる。
算出・補正したコスト値は、推奨度選択部120に出力される。
(4)応答メッセージの選択〜(5)応答メッセージの出力
これらのステップの動作は実施の形態1と同様であるため、説明を省略する。
以上のように、本実施の形態2によれば、算出したコスト値をキーワードリストの内容により補正することができるので、キーワードリストに保持する内容如何によっては、コスト値の算出にバイアスをかけることができる。
即ち、通常であれば音声合成部110に入力されるテキストは全くのアドホックであるが、ある特定のキーワード群を入力した場合に限り、合成音声の品質が良くなったかのような外観を作出することができるので、音声合成部110に入力されるテキストに、キーワードリストに基づく方向性を与えることができる。
もちろん、虚偽のコスト値を算出することは誠実の観点から好ましくないので、入力テキストがキーワードリストに合致した場合には、合成音声の実際の品質もそれに応じて調整して生成することが必要であろう。
この機能は、合成音声として出力するには好ましくない語句が入力テキストとして入力された場合に、その合成音声の品質を極端に劣悪にするなどして、そのような語句の入力を事実上抑制することなどに応用できる。
実施の形態3.
実施の形態1〜2では、音声応答部130は、応答DB150が格納している応答メッセージの内容を用いて音声応答を出力するものとしたが、この音声応答は、合成音声とは特段の関係がなく生成される、無機質な機械的音声を想定したものである。
本発明の実施の形態3では、合成音声と音声応答に関連性を持たせる音声合成装置の構成を説明する。
図4は、本実施の形態3に係る音声合成装置100の機能ブロック図である。
図4の音声合成装置100は、構成要素は実施の形態1で説明した図1と同様であるが、各部の入出力関係が図1とは異なる。次の動作説明で、詳細を説明する。
次に、本実施の形態3に係る音声合成装置100の詳細な動作についてステップを追って説明する。
(1)入力テキストの入力〜(3)コスト値の算出
これらのステップの動作は実施の形態1と同様であるため、説明を省略する。
(4)応答メッセージの選択
推奨度選択部120は、音声合成部110より受け取ったコスト値をキーにして応答メッセージテーブル151を検索する。次に、該当するデータの「応答メッセージ」列を読み取り、音声合成部110に出力する。
なお、応答メッセージテーブル151の「応答メッセージ」列には、応答メッセージのテキストのみが格納されているものとする。
(5)応答メッセージの音声合成
音声合成部110は、推奨度選択部120より受け取った応答メッセージの内容を読み上げる合成音声を生成する。生成に際しては、ステップ(2)と同様の処理を行う。
生成した合成音声は、音声応答部130に出力される。
(6)応答メッセージの出力
音声応答部130は、音声合成部110より受け取った合成音声を、スピーカー等により音声出力する。
以上のように、本実施の形態3によれば、合成音声の品質を表す応答メッセージは、合成音声と同じ話者ないし口調で音声出力されるため、ユーザにとって合成音声の品質がより直感的に理解しやすく、インタラクティブ性のある音声合成装置を提供することができる。
以上の実施の形態1〜3において、合成音声の品質に応じて、応答メッセージの音声品質にも差を設けてもよい。例えば実施の形態3において、コスト値が低い高品質の合成音声を出力する場合には、応答メッセージの品質も高くする、もしくは感情表現を込めた応答メッセージを出力する、などとすれば、ユーザに与えるインタラクティブ感もその分増すので、ユーザと合成音声との一体感が高まる。
また、以上の実施の形態1〜3において、応答メッセージの話者は1話者に限るものではなく、コスト値の閾値毎に異なる話者の応答メッセージを音声出力するようにしてもよい。
実施の形態1に係る音声合成装置100の機能ブロック図である。 応答DB150が格納している応答メッセージテーブル151の構成とデータ例を示すものである。 実施の形態2に係る音声合成装置100の機能ブロック図である。 実施の形態3に係る音声合成装置100の機能ブロック図である。
符号の説明
100 音声合成装置、110 音声合成部、120 推奨度選択部、130 音声応答部、140 音声DB、150 応答DB、151 応答メッセージテーブル、160 キーワードDB。

Claims (4)

  1. 音声に変換するための入力テキストを入力する入力部と、
    前記入力テキストの内容に応じて音声合成を行うとともに、該入力テキスト全体について合成された音声の品質を所定の演算式で算出する音声合成部と、
    合成音声の品質レベル毎にあらかじめ対応付けられた応答メッセージを格納した応答データベースと、
    前記応答データベースから応答メッセージを読み出して音声出力する音声応答部と、
    を備え、
    前記音声応答部は、
    前記音声合成部が音声合成を完了すると、その音声の品質に対応した応答メッセージを前記応答データベースから読み出して音声出力する
    ことを特徴とする音声合成装置。
  2. 前記応答データベースは、前記音声の品質レベルについての3段階以上の評価範囲に対応付けられた前記応答メッセージを格納した
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 所定のキーワードを1ないし複数格納したキーワードテーブルを備え、
    前記音声合成部は、
    合成した音声の品質を算出する際に、前記キーワードテーブルを参照し、
    前記入力テキストの内容が前記キーワードテーブルに含まれている場合には、合成した音声の品質を所定の規則で補正する
    ことを特徴とする請求項1又は請求項2に記載の音声合成装置。
  4. 前記応答データベースは、前記応答メッセージのテキストのみを格納しており、
    前記音声合成部は、
    前記音声応答部が前記応答メッセージを音声出力する際に、前記応答メッセージのテキストを読み出して音声合成を行い、
    前記音声応答部は、
    その音声を用いて応答メッセージを音声出力する
    ことを特徴とする請求項1請求項のいずれかに記載の音声合成装置。
JP2006315275A 2006-11-22 2006-11-22 音声合成装置 Expired - Fee Related JP4775236B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006315275A JP4775236B2 (ja) 2006-11-22 2006-11-22 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006315275A JP4775236B2 (ja) 2006-11-22 2006-11-22 音声合成装置

Publications (2)

Publication Number Publication Date
JP2008129382A JP2008129382A (ja) 2008-06-05
JP4775236B2 true JP4775236B2 (ja) 2011-09-21

Family

ID=39555238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006315275A Expired - Fee Related JP4775236B2 (ja) 2006-11-22 2006-11-22 音声合成装置

Country Status (1)

Country Link
JP (1) JP4775236B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63231397A (ja) * 1987-03-20 1988-09-27 富士通株式会社 音声合成用パラメ−タの評価方式
JPH06167989A (ja) * 1992-12-01 1994-06-14 N T T Data Tsushin Kk 音声合成装置
JPH06205877A (ja) * 1993-01-11 1994-07-26 Airemu Kk 的叩きゲーム装置
JP4639932B2 (ja) * 2005-05-06 2011-02-23 株式会社日立製作所 音声合成装置

Also Published As

Publication number Publication date
JP2008129382A (ja) 2008-06-05

Similar Documents

Publication Publication Date Title
JP4296231B2 (ja) 声質編集装置および声質編集方法
JP4878538B2 (ja) 音声合成装置
JP2009265279A (ja) 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
JP2012037722A (ja) 音合成用データ生成装置およびピッチ軌跡生成装置
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
JP4639932B2 (ja) 音声合成装置
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP4298612B2 (ja) 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム
JP4775236B2 (ja) 音声合成装置
JP4744338B2 (ja) 合成音声生成装置
JP2001242882A (ja) 音声合成方法及び音声合成装置
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
WO2019239971A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP2001134283A (ja) 音声合成装置および音声合成方法
JP2007226174A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP3881971B2 (ja) 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム
JP5962925B2 (ja) 音声合成装置、楽曲再生装置、音声合成プログラム及び楽曲再生プログラム
JPH1115488A (ja) 合成音声評価・合成装置
JP5375869B2 (ja) 楽曲再生装置、楽曲再生方法及びプログラム
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JP2009025328A (ja) 音声合成装置
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110613

R150 Certificate of patent or registration of utility model

Ref document number: 4775236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees