JP2005189313A - 音声合成装置及び方法 - Google Patents

音声合成装置及び方法 Download PDF

Info

Publication number
JP2005189313A
JP2005189313A JP2003427641A JP2003427641A JP2005189313A JP 2005189313 A JP2005189313 A JP 2005189313A JP 2003427641 A JP2003427641 A JP 2003427641A JP 2003427641 A JP2003427641 A JP 2003427641A JP 2005189313 A JP2005189313 A JP 2005189313A
Authority
JP
Japan
Prior art keywords
text data
speech
speech synthesis
utterance
match
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003427641A
Other languages
English (en)
Inventor
Takashi Amari
隆 甘利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Electronics Inc
Original Assignee
Canon Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Electronics Inc filed Critical Canon Electronics Inc
Priority to JP2003427641A priority Critical patent/JP2005189313A/ja
Publication of JP2005189313A publication Critical patent/JP2005189313A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】同じ単語、文節、文或いは文章が繰り返し音声合成されるよう指示された場合に、2回目以降の音声合成では自動的に前回とは違った抑揚または音量・速度等によりで発声することを可能とする。
【解決手段】テキストデータに基づいて合成音声を生成する音声合成装置は、設定された音声合成パラメータに従ってテキストデータに対応する合成音声を生成する音声合成装置15を有する。文字列比較装置12は、今回の発声対象のテキストデータが前回に発声対象となったテキストデータと一致するかを判定する。一致すると判定された場合、制御装置14は音声合成装置15の音声合成パラメータを変更し、今回の発声対象のテキストデータに対応した合成音声を生成させる。
【選択図】図1

Description

本発明は、テキスト情報に基づいて音声を合成する音声合成装置及び方法に関する。
従来より、音声合成によりテキスト文章を読み上げるシステムが提案されてきた(例えば、特許文献1を参照)。このような文章読み上げ装置においては、単語のアクセントを正しく発音すること、特に同音異義語を区別可能に発音できるような技術が重要である。従って、上記装置に関連して多くの特許出願等がなされているが、いずれも如何にしてより人間に近い発音で文章を読み上げるかが重視されている。
特開平06−337876号公報
従来の音声合成システムにおいては、内蔵する辞書や合成アルゴリズムによって与えられた文章を人間らしい発音で音声合成できるが、与えられた文章に対しては一義的に音声合成が定まってしまう。このため、同じ文章を何回も繰り返して発声すような場面では、上記アルゴリズムで得られた抑揚等に従って何回も全く同じように発声されることになる。この結果、同じ文章を1回だけ読み上げる場合には自然な音声合成が得られるが、同じ文章を何回も発声する場合には、機械的なイメージを拭いきれないでいた。
そこで本発明は、同じ単語、文節、文或いは文章が繰り返し音声合成されるよう指示された場合に、例えば抑揚、音量或いは速度等を自動的に前回とは異ならせて発声することで、人の声が持つゆらぎ感を与え、より人間的で親しみやすい音声を合成できるようにすることを目的とする。
以上の課題を解決するために、本発明は以下の手段を有する。すなわち、
テキストデータに基づいて合成音声を生成する音声合成装置であって、
テキストデータに対応する合成音声を生成する生成手段と、
今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定手段と、
前記判定手段により一致すると判定された場合に、前記生成手段において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成手段を制御する制御手段とを備える。
また、上記の目的を達成するための本発明による音声合成方法は、
テキストデータに基づいて合成音声を生成する音声合成方法であって、
テキストデータに対応する合成音声を生成する生成工程と、
今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定工程と、
前記判定工程により一致すると判定された場合に、前記生成工程において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成工程を制御する制御工程とを備える。
本発明によれば、同じテキストデータについて連続して複数回の音声合成が指示された場合に、例えば音声合成する際の音量・速度・抑揚等の発声形態が自動的に変更されるので、機械的な印象を排除することができ、ユーザフレンドリな音声合成システムを容易に実現できる。
以下、添付の図面を参照して本発明の好適な実施形態について説明する。
図1は、本実施形態による携帯端末装置100の構成を示すブロック図であり、図2は本実施形態による携帯端末装置100の外観を示す図である。
CPU1は、RAM2中のワーク領域・記憶領域及びROM3中のプログラム・データを用いて携帯端末装置100における各種制御を実行する。キーボード4は携帯端末装置100の入力I/F(=インタフェース)のひとつであり、オペレータからの指示をCPU1へ伝える機能を持つ。タッチパネル5は、透明な素材で構成されており、液晶表示パネル(LCD)6の表面に密接して配置されることで、タッチパネル5上の座標がLCD6上の座標と1対1となるように設計されている。その為、オペレータはLCD6上のボタン・スイッチを特定する際には、タッチパネル5越しにLCD6を押下するような操作を行い、CPU1はこの操作によってLCD6上で選択、指示された情報を特定することが出来る。LCD6は、上記タッチパネル5との組み合わせによって仮想的なボタン・スイッチ類を表示するばかりでなく、メッセージや画像などを表示しオペレータに情報を伝える機能を持つ。
光I/F7は、携帯端末装置100が収集したデータをホストコンピュータに転送する際の光通信のインタフェースとして機能し、具体的にはフォトトランジスタと赤外線LEDの組み合わせによって構成されている。プリンタ8は、CPU1からの指示により文字及び画像を印刷することの出来る装置である。カメラユニット9は、携帯端末装置100がバーコード及びシンボルを光学的に取り込む為の入力装置であり、CCDやCMOS等のイメージセンサとレンズ・絞り・シャッターなどの光学装置で構成されている。
デコーダ10は、カメラユニット9から出力された画像データを解析して、画像の中にバーコードまたは所定の2次元シンボルが含まれているかを判断する。そして、バーコードまたは所定の2次元シンボル含まれていたら、これが含まれる領域を切り出し、バーコードまたは2次元シンボルの規格に基づいて符号化された文字列を復号化し、文字列を出力する。
文字列バッファ11は、CPU1からの指示により音声合成が指示されたテキストデータを一時保存する領域である。文字列比較装置12は、音声合成の指示によって文字列バッファ11に格納されたテキストデータと、直前の音声合成指示によって格納されたテキストデータとを比較する。例えば、文字列バッファ11に保持された文字列(テキストデータ)について音声合成装置による発声出力を終えると、当該テキストデータを文字列バッファ11中の退避エリアに保持させる。そして、新たに音声合成が指示されたテキストデータを文字列バッファ11に保持する際に、当該新たな文字列と上記退避エリアに保持してあるテキストデータとを比較するように構成すればよい。
このようにして、文字列比較装置12は、音声合成が指示されたテキストデータが以前にも文字列バッファ11に格納されたかどうかを調べる。直前に同一テキストデータによる発生指示が行われていなければ、後述の乱数発生装置13を回避して、制御装置14・音声合成装置15へCPU1から指示されたテキストデータを送る。一方、比較の結果、直前に発声が指示されたテキストデータと同一であった場合は、乱数発生装置13を起動し、後述の制御装置14に与えるパラメータを変更する。なお、発声対象のテキストデータが直前に発声されたものであることを検出するためには、上記退避エリアにおけるテキストデータの保持期間を設定し、設定された保持期間が経過した場合はそのテキストデータを破棄するようにすればよい。
制御装置14は、後述の音声合成装置15が発生する音声の状態を変更することの出来る制御装置であり、例えば発声音声の音量・速度・抑揚を変える機能を持つ。音声合成装置15は、指示されたテキストデータを音声信号として発生するばかりでなく、制御装置14の指示に従って音量・速度・抑揚を変えて音声を発生することが出来る。スピーカー16は、音声合成装置15から出力された音声信号をオペレータに聞こえるように音に変え、出力する機能を持つ。
なお、図2に示すように、上記タッチパネル5は、LCD6の上に設置されている。また、他に、キーボード4、光I/F7、プリンタ8、カメラユニット9、スピーカー16が外観上に現れている。更に、上述したデコーダ10、文字列比較装置12、乱数発生装置13、制御装置14の全て或いは一部の機能はCPU1がROM3等に格納された制御プログラムを実行することによって実現されるようにしてもよい。また、文字列バッファ11はRAM2を用いて実現してもよい。
図3は、制御装置14へ入力する制御パラメータの内容を示した表である。例えば、パラメータの内容が「1」の場合、音量が直前まで用いられた値よりも小さい音量になるように制御される。もしも「1」が連続して入力された場合、直前に加わった補正に対して更に補正が加えられるため、音量は徐々に小さくなっていく。これら0〜6の値のうち、1〜6の値は乱数発生装置13からランダムに制御装置14に入力される。なお、パラメータの内容が「0」の場合、音声合成装置15に加えられた補正は全てリセットされる。
図4は本実施携帯による音声合成処理におけるアルゴリズムを示したフローチャートである。
ステップS02で、文字列バッファ11内のバッファaの内容(音声合成対象のテキストデータ)を、同じ文字列バッファ11内のバッファb(退避エリア)に複写する。これにより、直前に発声指示された単語や文章等のテキストデータを一時的に保存できる。なお、バッファaの内容は本発明の携帯端末装置が起動した時、もしくは音声合成システムを使用する際の初期化時にクリアされる仕様になっている。また、ある時間範囲内で同じテキストデータの発声が繰り返される場合を検出するために、バッファbにおける保持時間を設定しておき、該保持時間の経過後にはバッファbの内容を消去するようにしてもよい。このようにすれば、連続して同じテキストデータが発声される場合でも、前回の発声時からある時間が経っている場合にはパラメータに対する補正はリセットされることになる。但し、この場合、バッファaからバッファbへの複写のタイミング(ステップS02の実行タイミング)は、音声合成を終えた後(ステップS07の処理後)となる。
次に音声合成が指示されると、ステップS03で、発音すべき単語や文章等のテキストデータを文字列バッファ11内のバッファaに複写する。
次にステップS04で、文字列比較装置12はバッファaの内容(テキストデータ)とバッファbの内容(テキストデータ)の比較を行う。バッファbの内容は先のステップS02によって直前に発声した内容が保持されているため、この比較処理によって、今回発声しようとする単語・文章が直前に発声されたかどうかの確認が出来る。比較の結果、直前に発声した単語・文章であった場合は、ステップS05へ分岐する。
ステップS05では、乱数発生装置13によって、1から6までの整数の値を発生する。なお、この値は制御装置14の入力パラメータの数(繰返し発声時に変更すべき入力パラメータの数であり、本実施形態では図3に示したように0〜6となる)に合わせて設定されている。ステップS06では、発生された乱数の値に応じて音声合成のための制御パラメータを変更し、音声合成装置15を設定する。最後にステップS07で、バッファaの内容を音声合成し、スピーカー16から出力する。
一方、ステップS04において、文字列比較装置12の比較の結果、直前に発声した単語・文章と一致しなかった場合はステップS09へ分岐する。ステップS09では、制御装置14へパラメータ「0」を与え、制御装置14によって音声合成装置15に加えられた補正が全てリセットするようにしてから、ステップS07へ分岐することで通常の音声合成が出来るようになっている。
図5は、本実施形態の携帯端末装置100による文字列の読み上げの際の状況を示した図である。発音すべき文字列(テキストデータ)は、図のように1つの文章毎に区切られて本音声合成システムに送られる。この例のように1行目と2行目の内容が同じ場合、従来例では一行目と二行目は全く同じ発音となるが、本実施形態によれば両者を異なる発音で発声させることができる。即ち、1行目と2行目の内容がそれぞれバッファbとバッファaに格納され、これらが等しいと判断できるので、斜体で示した2行目の文章は1行目とは異なった音量・速度・抑揚で発音される。そのため、聞いている者は機械合成による不快感を覚えることがない。
なお、制御装置14のパラメータとしては、本発明では音量・速度・抑揚の3種類を扱っていたが、これは本発明を制限するものではなく、他にも音質や女声/男声の切り替えなどの制御も可能である。また、本発明では音量・速度・抑揚のいずれか1つのパラメータの変更を対象としていたが、これも本発明を制限するものではなく、複数のパラメータを同時に変更することも可能である。
また、上記実施形態によれば、音声合成パラメータ値の増減指示を数値に割り当てておき、乱数発生装置13から得られる数値に対応した指示に従って音声合成パラメータを変更するので、簡易な構成で、自然な揺らぎのある音声合成を実現できる。なお、音声合成パラメータの変更方法は上記実施形態に限られるものではなく、予めパラメータの変更をスケジュールしておき、同一テキストデータの発声が連続する場合に、このスケジュールに従ってパラメータ値を変更するようにしてもよい。
また、ステップS02に関連して説明したように、文字列バッファ11内のバッファbに保持時間を設定した構成とする場合、その保持時間をユーザが設定できるようにしてもかまわないことは言うまでもない。
更に、本発明は、上述した形態端末装置に限らず、各種電子機器に適用可能である。
以上説明したように、本実施形態によれば、同じ文字列が何回も音声合成を指示された場合に、音声合成する際の音量・速度・抑揚を変えることが容易に実現できる。このため、機械的な印象を排除することが出来、ユーザフレンドリな音声合成システムを提供できる。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本実施形態による音声合成装置付きの携帯端末装置の構成を示すブロック図である。 図1に示した携帯端末装置の外観図である。 制御装置14の入力パラメータ例を示した図である。 本実施形態による音声合成処理を説明するフローチャートである。 本実施形態による音声合成用テキストデータの例を示す図である。

Claims (12)

  1. テキストデータに基づいて合成音声を生成する音声合成装置であって、
    テキストデータに対応する合成音声を生成する生成手段と、
    今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定手段と、
    前記判定手段により一致すると判定された場合に、前記生成手段において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成手段を制御する制御手段とを備えることを特徴とする音声合成装置。
  2. 前記制御手段は、前記判定手段により一致すると判定された場合に、前記生成手段で用いられる音声合成パラメータを前回の発声時に用いられた状態から変更することを特徴とする請求項1に記載の音声合成装置。
  3. 前記制御手段は、音声合成パラメータの値の増加及び減少指示の各々に数値を割り当てておき、乱数発生手段により発生した数値に対応した指示に従って前記音声合成パラメータを変更することを特徴とする請求項2に記載の音声合成装置。
  4. 前記音声合成パラメータは、音声の音量・速度・抑揚に対応したパラメータであることを特徴とする請求項2又は3に記載の音声合成装置。
  5. 前記判定手段は、前回の発声対象のテキストデータを一時的に保持する記憶エリアを有し、今回の発声対象のテキストデータと該記憶エリアに保持されたテキストデータを比較することで一致を判定し、前記記憶エリアにおけるテキストデータの保持期間は所定時間に制限されることを特徴とする請求項1乃至4のいずれかに記載の音声合成装置。
  6. テキストデータに基づいて合成音声を生成する音声合成方法であって、
    テキストデータに対応する合成音声を生成する生成工程と、
    今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定工程と、
    前記判定工程により一致すると判定された場合に、前記生成工程において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成工程を制御する制御工程とを備えることを特徴とする音声合成方法。
  7. 前記制御工程は、前記判定工程により一致すると判定された場合に、前記生成工程で用いられる音声合成パラメータを前回の発声時に用いられた状態から変更することを特徴とする請求項6に記載の音声合成方法。
  8. 前記制御工程は、音声合成パラメータの値の増加及び減少指示の各々に数値を割り当てておき、乱数発生工程により発生した数値に対応した指示に従って前記音声合成パラメータを変更することを特徴とする請求項7に記載の音声合成方法。
  9. 前記音声合成パラメータは、音声の音量・速度・抑揚に対応したパラメータであることを特徴とする請求項7又は8に記載の音声合成方法。
  10. 前記判定工程は、前回の発声対象のテキストデータを一時的に保持する記憶エリアを有し、今回の発声対象のテキストデータと該記憶エリアに保持されたテキストデータを比較することで一致を判定し、前記記憶エリアにおけるテキストデータの保持期間は所定時間に制限されることを特徴とする請求項6乃至9のいずれかに記載の音声合成方法。
  11. 請求項6乃至10のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体。
  12. 請求項6乃至10のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラム。
JP2003427641A 2003-12-24 2003-12-24 音声合成装置及び方法 Withdrawn JP2005189313A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003427641A JP2005189313A (ja) 2003-12-24 2003-12-24 音声合成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003427641A JP2005189313A (ja) 2003-12-24 2003-12-24 音声合成装置及び方法

Publications (1)

Publication Number Publication Date
JP2005189313A true JP2005189313A (ja) 2005-07-14

Family

ID=34786855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003427641A Withdrawn JP2005189313A (ja) 2003-12-24 2003-12-24 音声合成装置及び方法

Country Status (1)

Country Link
JP (1) JP2005189313A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271910A (ja) * 2006-03-31 2007-10-18 Fujitsu Ltd 合成音声生成装置
CN115050349A (zh) * 2022-06-14 2022-09-13 抖音视界(北京)有限公司 文本转换音频的方法、装置、设备和介质
WO2023238260A1 (ja) * 2022-06-07 2023-12-14 日本電信電話株式会社 操作支援システム、操作支援装置、操作支援方法及び操作支援プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271910A (ja) * 2006-03-31 2007-10-18 Fujitsu Ltd 合成音声生成装置
JP4744338B2 (ja) * 2006-03-31 2011-08-10 富士通株式会社 合成音声生成装置
US8135592B2 (en) 2006-03-31 2012-03-13 Fujitsu Limited Speech synthesizer
WO2023238260A1 (ja) * 2022-06-07 2023-12-14 日本電信電話株式会社 操作支援システム、操作支援装置、操作支援方法及び操作支援プログラム
CN115050349A (zh) * 2022-06-14 2022-09-13 抖音视界(北京)有限公司 文本转换音频的方法、装置、设备和介质
CN115050349B (zh) * 2022-06-14 2024-06-11 抖音视界有限公司 文本转换音频的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
JP4785381B2 (ja) ハンドヘルド装置用音声合成(tts)
JP2005031882A (ja) 情報処理方法及び情報処理装置
KR20020055398A (ko) 전자 서적 송출장치, 전자 서적 장치 및 기록매체
CN107430848B (zh) 声音控制装置、声音控制方法以及计算机可读记录介质
JP2014035541A (ja) コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
JP2005189313A (ja) 音声合成装置及び方法
JP2006243521A (ja) 文章出力装置、その方法及びプログラム
JP5531654B2 (ja) 制御情報生成装置および形状制御装置
JP4789227B2 (ja) 音声認識機能を内蔵した映像表示装置
JP2009271315A (ja) 音声二次元コードから音声を再生可能な携帯電話機および音声二次元コードを含む二次元コードが表示された印刷物
JP2006208959A (ja) カラオケ演奏装置
JP2007256502A (ja) 演奏データ遠隔通信システムおよびその制御方法を実現するためのプログラム
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP2007249023A (ja) 音声合成装置及び音声合成方法
JP2005182168A (ja) コンテンツ処理装置、コンテンツ処理方法、コンテンツ処理プログラム、および記録媒体
JP2006047866A5 (ja)
JP2006011002A (ja) 音声応答装置、音声応答方法および音声応答プログラム
JP2004177635A (ja) 文章読み上げ装置、同装置のためのプログラム及び記録媒体
JPH04243299A (ja) 音声出力装置
JP4208819B2 (ja) 音声合成辞書登録方法および装置
JP2573586B2 (ja) 規則型音声合成装置
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JP2007249022A (ja) 音声合成装置および音声合成方法
JP2002222077A (ja) 情報出力装置及びその方法及びそのプログラム記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306