JP4775236B2 - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP4775236B2 JP4775236B2 JP2006315275A JP2006315275A JP4775236B2 JP 4775236 B2 JP4775236 B2 JP 4775236B2 JP 2006315275 A JP2006315275 A JP 2006315275A JP 2006315275 A JP2006315275 A JP 2006315275A JP 4775236 B2 JP4775236 B2 JP 4775236B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- response
- voice
- quality
- response message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Telephone Function (AREA)
Description
上記技術において、音素単位選択を行う際に、知覚的特徴に一致した尺度(コスト)を用いる。このように、合成音の品質評価を所定のコスト関数などで行う技術が、一般に公開されている。
そのため、合成音声の品質の良し悪しを、一般ユーザでもより直感的に判断することのできる音声合成装置が望まれていた。
音声に変換するための入力テキストを入力する入力部と、
前記入力テキストの内容に応じて音声合成を行うとともに、該入力テキスト全体について合成された音声の品質を所定の演算式で算出する音声合成部と、
合成音声の品質レベル毎にあらかじめ対応付けられた応答メッセージを格納した応答データベースと、
前記応答データベースから応答メッセージを読み出して音声出力する音声応答部と、
を備え、
前記音声応答部は、
前記音声合成部が音声合成を完了すると、その音声の品質に対応した応答メッセージを前記応答データベースから読み出して音声出力する
ことを特徴とするものである。
図1は、本発明の実施の形態1に係る音声合成装置100の機能ブロック図である。
音声合成装置100は、音声合成部110、推奨度選択部120、音声応答部130、音声DB140、応答DB150を備える。
音声合成部110は、合成音声で読み上げるための入力テキストを受け取り、音声DB140が格納しているデータを用いて合成した音声を出力する。音声合成に際しては、コーパスベース方式を用いるものとする。また、合成した音声の品質を後述の方法で算出し、推奨度選択部120に出力する。
推奨度選択部120は、音声合成部110より合成音声の品質を表す情報を受け取り、応答DB150にアクセスして、対応する応答メッセージを読み出す。
音声応答部130は、推奨度選択部120が読み出した応答メッセージを音声出力することにより、合成音声の品質をユーザに音声で通知する。
音声DB140は、音声合成部110が音声合成を行う際に必要なデータを格納している。
応答DB150については、後述の図2で説明する。
音声合成部110が出力する合成音声は、波形信号やそのサンプリングデータなどの形式で出力されるものとする。
あるいは、以下のような基準で合成音声の品質を算出することもできる。
(1)合成音声を生成するために要した処理時間の多寡。
(2)入力テキストをモーラ単位に分割して分析し、音質を劣化させるようなモーラが含まれている場合は、音質が低いものと評価する。
(3)合成音声の生成中、もしくは生成後の合成音声の、話速に関する特徴量。例えばフォルマントの遷移速度。
(4)生成後の合成音声のメルケプストラムと、韻律推定されたメルケプストラムとの差分値。メルケプストラム以外に、音素の継続時間長、ピッチ、LPC係数などを用いてもよい。
応答メッセージテーブル151は、「合成音声の品質」列、「応答メッセージ」列を有する。
「合成音声の品質」列は、音声合成部110が算出する合成音声の品質を表す値の閾値が格納されている。図2のデータ例では、音声合成部110が上述のコスト関数を用いて算出した「コスト値」に対応する値が格納されており、値が小さいほうがより品質の良い合成音声であるものと評価する。
「応答メッセージ」列は、音声合成部110が生成した合成音声の品質(=コスト値)に対応する応答メッセージが格納されている。図2のデータ例では、例えば「コスト値=0.10」であれば、応答メッセージは「お薦めの音声だね。」となる。
(1)入力テキストの入力
音声合成部110は、読み上げ対象の入力テキストを受け付ける。なお、入力のための必要に応じて、音声合成装置100に入力インターフェースを設ける。具体的には、例えばLANインターフェースなどのネットワークインターフェースや、音声合成装置100の外面に設けられた操作パネルによる直接入力などが考えられる。
音声合成部110は、音声DB140に格納されている、韻律モデルデータベース、音響モデルデータベース、音声ファイルなどの、コーパスベース音声合成に必要なデータを用いて、入力テキストを読み上げる合成音声を生成する。
合成音声の出力形式は、音声波形をサンプリングしたデータ形式でもよいし、スピーカー等の音声出力装置を介して直接音声出力してもよい。あるいは、音声波形に相当する電気的信号そのものを出力してもよい。
音声合成部110は、合成音声を生成するに際し、その合成音声の品質を上述のコスト関数により算出して推奨度選択部120に出力する。出力のタイミングは、合成音声の生成が完全に終了してからでもよいし、合成の最中に逐次的に出力してもよい。後者の場合は推奨度選択部120がコスト値の合計を算出するなどすればよい。
推奨度選択部120は、音声合成部110より受け取ったコスト値をキーにして応答メッセージテーブル151を検索する。次に、該当するデータの「応答メッセージ」列を読み取り、音声応答部130に出力する。
「応答メッセージ」列に格納しているデータは、メッセージのテキストのみとしてもよいし、メッセージを読み上げる音声ファイルそのものを格納していてもよい。
音声応答部130は、推奨度選択部120より受け取った応答メッセージの内容を、スピーカー等により音声出力する。
「応答メッセージ」列に格納しているデータがメッセージのテキストのみである場合は、そのテキストを読み上げる合成音声を生成して出力する。また、メッセージを読み上げる音声ファイルそのものである場合は、その音声ファイルを再生して音声出力する。
なお、応答メッセージの音声出力のタイミングは、音声合成部110が合成音声を出力する前でもよいし、出力が完全に終了した後でもよい。音声合成部110の出力形式が合成音声の波形サンプリングデータである場合には、そのデータの出力とともに応答メッセージを音声出力してもよい。この場合は合成音声と音声応答が重複して音声出力されることはないからである。
また、聴覚で応答メッセージを得ることは、単なる数値の提示よりもユーザの感性に直接的に訴えかけるので、よりインタラクティブ性が高まるという効果もある。
実施の形態1では、音声合成を実行する際に得られる種々のパラメータを基に、所定のコスト関数でコスト値を算出する構成を説明した。
本発明の実施の形態2では、特定のキーワードが入力テキストに含まれている場合に、コスト値を補正した上で応答メッセージを選択する音声合成装置の構成を説明する。
本実施の形態2に係る音声合成装置100は、キーワードDB160を備える。その他の構成は実施の形態1で説明した図1と同様であるため、同様の符号を付して説明を省略する。
(1)入力テキストの入力〜(2)音声合成の実行・出力
これらのステップの動作は実施の形態1と同様であるため、説明を省略する。
音声合成部110は、合成音声を生成するに際し、その合成音声の品質を上述のコスト関数により算出し、次にキーワードDB160を参照して算出結果を補正する。
補正方法は、入力テキストの中にキーワードDB160が保持するキーワードが何個出現するか、などを基準として、より出現頻度が高い場合にコスト値を低く補正する、といった方法が考えられる。その他、キーワード毎に重みを付けて、特定のキーワードはコスト値低減効果を高くする、などとすることもできる。
算出・補正したコスト値は、推奨度選択部120に出力される。
これらのステップの動作は実施の形態1と同様であるため、説明を省略する。
即ち、通常であれば音声合成部110に入力されるテキストは全くのアドホックであるが、ある特定のキーワード群を入力した場合に限り、合成音声の品質が良くなったかのような外観を作出することができるので、音声合成部110に入力されるテキストに、キーワードリストに基づく方向性を与えることができる。
もちろん、虚偽のコスト値を算出することは誠実の観点から好ましくないので、入力テキストがキーワードリストに合致した場合には、合成音声の実際の品質もそれに応じて調整して生成することが必要であろう。
この機能は、合成音声として出力するには好ましくない語句が入力テキストとして入力された場合に、その合成音声の品質を極端に劣悪にするなどして、そのような語句の入力を事実上抑制することなどに応用できる。
実施の形態1〜2では、音声応答部130は、応答DB150が格納している応答メッセージの内容を用いて音声応答を出力するものとしたが、この音声応答は、合成音声とは特段の関係がなく生成される、無機質な機械的音声を想定したものである。
本発明の実施の形態3では、合成音声と音声応答に関連性を持たせる音声合成装置の構成を説明する。
図4の音声合成装置100は、構成要素は実施の形態1で説明した図1と同様であるが、各部の入出力関係が図1とは異なる。次の動作説明で、詳細を説明する。
(1)入力テキストの入力〜(3)コスト値の算出
これらのステップの動作は実施の形態1と同様であるため、説明を省略する。
推奨度選択部120は、音声合成部110より受け取ったコスト値をキーにして応答メッセージテーブル151を検索する。次に、該当するデータの「応答メッセージ」列を読み取り、音声合成部110に出力する。
なお、応答メッセージテーブル151の「応答メッセージ」列には、応答メッセージのテキストのみが格納されているものとする。
音声合成部110は、推奨度選択部120より受け取った応答メッセージの内容を読み上げる合成音声を生成する。生成に際しては、ステップ(2)と同様の処理を行う。
生成した合成音声は、音声応答部130に出力される。
音声応答部130は、音声合成部110より受け取った合成音声を、スピーカー等により音声出力する。
Claims (4)
- 音声に変換するための入力テキストを入力する入力部と、
前記入力テキストの内容に応じて音声合成を行うとともに、該入力テキスト全体について合成された音声の品質を所定の演算式で算出する音声合成部と、
合成音声の品質レベル毎にあらかじめ対応付けられた応答メッセージを格納した応答データベースと、
前記応答データベースから応答メッセージを読み出して音声出力する音声応答部と、
を備え、
前記音声応答部は、
前記音声合成部が音声合成を完了すると、その音声の品質に対応した応答メッセージを前記応答データベースから読み出して音声出力する
ことを特徴とする音声合成装置。 - 前記応答データベースは、前記音声の品質レベルについての3段階以上の評価範囲に対応付けられた前記応答メッセージを格納した
ことを特徴とする請求項1に記載の音声合成装置。 - 所定のキーワードを1ないし複数格納したキーワードテーブルを備え、
前記音声合成部は、
合成した音声の品質を算出する際に、前記キーワードテーブルを参照し、
前記入力テキストの内容が前記キーワードテーブルに含まれている場合には、合成した音声の品質を所定の規則で補正する
ことを特徴とする請求項1又は請求項2に記載の音声合成装置。 - 前記応答データベースは、前記応答メッセージのテキストのみを格納しており、
前記音声合成部は、
前記音声応答部が前記応答メッセージを音声出力する際に、前記応答メッセージのテキストを読み出して音声合成を行い、
前記音声応答部は、
その音声を用いて応答メッセージを音声出力する
ことを特徴とする請求項1〜請求項3のいずれかに記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006315275A JP4775236B2 (ja) | 2006-11-22 | 2006-11-22 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006315275A JP4775236B2 (ja) | 2006-11-22 | 2006-11-22 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129382A JP2008129382A (ja) | 2008-06-05 |
JP4775236B2 true JP4775236B2 (ja) | 2011-09-21 |
Family
ID=39555238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006315275A Expired - Fee Related JP4775236B2 (ja) | 2006-11-22 | 2006-11-22 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4775236B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63231397A (ja) * | 1987-03-20 | 1988-09-27 | 富士通株式会社 | 音声合成用パラメ−タの評価方式 |
JPH06167989A (ja) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | 音声合成装置 |
JPH06205877A (ja) * | 1993-01-11 | 1994-07-26 | Airemu Kk | 的叩きゲーム装置 |
JP4639932B2 (ja) * | 2005-05-06 | 2011-02-23 | 株式会社日立製作所 | 音声合成装置 |
-
2006
- 2006-11-22 JP JP2006315275A patent/JP4775236B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008129382A (ja) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4296231B2 (ja) | 声質編集装置および声質編集方法 | |
JP4878538B2 (ja) | 音声合成装置 | |
JP2009265279A (ja) | 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム | |
JP2012037722A (ja) | 音合成用データ生成装置およびピッチ軌跡生成装置 | |
CN105957515A (zh) | 声音合成方法、声音合成装置和存储声音合成程序的介质 | |
JP2006337667A (ja) | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 | |
JP4639932B2 (ja) | 音声合成装置 | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
JP4298612B2 (ja) | 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム | |
JP4775236B2 (ja) | 音声合成装置 | |
JP4744338B2 (ja) | 合成音声生成装置 | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
WO2019239971A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP4963345B2 (ja) | 音声合成方法及び音声合成プログラム | |
JP2001134283A (ja) | 音声合成装置および音声合成方法 | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP3881971B2 (ja) | 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム | |
JP5962925B2 (ja) | 音声合成装置、楽曲再生装置、音声合成プログラム及び楽曲再生プログラム | |
JPH1115488A (ja) | 合成音声評価・合成装置 | |
JP5375869B2 (ja) | 楽曲再生装置、楽曲再生方法及びプログラム | |
JP6299141B2 (ja) | 楽音情報生成装置および楽音情報生成方法 | |
JP2009025328A (ja) | 音声合成装置 | |
JP2007256815A (ja) | 音声再生装置、音声再生方法、音声再生プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4775236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140708 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |