JP2005189313A

JP2005189313A - 音声合成装置及び方法

Info

Publication number: JP2005189313A
Application number: JP2003427641A
Authority: JP
Inventors: Takashi Amari; 隆甘利
Original assignee: Canon Electronics Inc
Current assignee: Canon Electronics Inc
Priority date: 2003-12-24
Filing date: 2003-12-24
Publication date: 2005-07-14

Abstract

【課題】同じ単語、文節、文或いは文章が繰り返し音声合成されるよう指示された場合に、２回目以降の音声合成では自動的に前回とは違った抑揚または音量・速度等によりで発声することを可能とする。
【解決手段】テキストデータに基づいて合成音声を生成する音声合成装置は、設定された音声合成パラメータに従ってテキストデータに対応する合成音声を生成する音声合成装置１５を有する。文字列比較装置１２は、今回の発声対象のテキストデータが前回に発声対象となったテキストデータと一致するかを判定する。一致すると判定された場合、制御装置１４は音声合成装置１５の音声合成パラメータを変更し、今回の発声対象のテキストデータに対応した合成音声を生成させる。
【選択図】図１

Description

本発明は、テキスト情報に基づいて音声を合成する音声合成装置及び方法に関する。

従来より、音声合成によりテキスト文章を読み上げるシステムが提案されてきた（例えば、特許文献１を参照）。このような文章読み上げ装置においては、単語のアクセントを正しく発音すること、特に同音異義語を区別可能に発音できるような技術が重要である。従って、上記装置に関連して多くの特許出願等がなされているが、いずれも如何にしてより人間に近い発音で文章を読み上げるかが重視されている。
特開平０６−３３７８７６号公報

従来の音声合成システムにおいては、内蔵する辞書や合成アルゴリズムによって与えられた文章を人間らしい発音で音声合成できるが、与えられた文章に対しては一義的に音声合成が定まってしまう。このため、同じ文章を何回も繰り返して発声すような場面では、上記アルゴリズムで得られた抑揚等に従って何回も全く同じように発声されることになる。この結果、同じ文章を１回だけ読み上げる場合には自然な音声合成が得られるが、同じ文章を何回も発声する場合には、機械的なイメージを拭いきれないでいた。

そこで本発明は、同じ単語、文節、文或いは文章が繰り返し音声合成されるよう指示された場合に、例えば抑揚、音量或いは速度等を自動的に前回とは異ならせて発声することで、人の声が持つゆらぎ感を与え、より人間的で親しみやすい音声を合成できるようにすることを目的とする。

以上の課題を解決するために、本発明は以下の手段を有する。すなわち、
テキストデータに基づいて合成音声を生成する音声合成装置であって、
テキストデータに対応する合成音声を生成する生成手段と、
今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定手段と、
前記判定手段により一致すると判定された場合に、前記生成手段において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成手段を制御する制御手段とを備える。

また、上記の目的を達成するための本発明による音声合成方法は、
テキストデータに基づいて合成音声を生成する音声合成方法であって、
テキストデータに対応する合成音声を生成する生成工程と、
今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定工程と、
前記判定工程により一致すると判定された場合に、前記生成工程において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成工程を制御する制御工程とを備える。

本発明によれば、同じテキストデータについて連続して複数回の音声合成が指示された場合に、例えば音声合成する際の音量・速度・抑揚等の発声形態が自動的に変更されるので、機械的な印象を排除することができ、ユーザフレンドリな音声合成システムを容易に実現できる。

以下、添付の図面を参照して本発明の好適な実施形態について説明する。

図１は、本実施形態による携帯端末装置１００の構成を示すブロック図であり、図２は本実施形態による携帯端末装置１００の外観を示す図である。

ＣＰＵ１は、ＲＡＭ２中のワーク領域・記憶領域及びＲＯＭ３中のプログラム・データを用いて携帯端末装置１００における各種制御を実行する。キーボード４は携帯端末装置１００の入力Ｉ／Ｆ（＝インタフェース）のひとつであり、オペレータからの指示をＣＰＵ１へ伝える機能を持つ。タッチパネル５は、透明な素材で構成されており、液晶表示パネル（ＬＣＤ）６の表面に密接して配置されることで、タッチパネル５上の座標がＬＣＤ６上の座標と１対１となるように設計されている。その為、オペレータはＬＣＤ６上のボタン・スイッチを特定する際には、タッチパネル５越しにＬＣＤ６を押下するような操作を行い、ＣＰＵ１はこの操作によってＬＣＤ６上で選択、指示された情報を特定することが出来る。ＬＣＤ６は、上記タッチパネル５との組み合わせによって仮想的なボタン・スイッチ類を表示するばかりでなく、メッセージや画像などを表示しオペレータに情報を伝える機能を持つ。

光Ｉ／Ｆ７は、携帯端末装置１００が収集したデータをホストコンピュータに転送する際の光通信のインタフェースとして機能し、具体的にはフォトトランジスタと赤外線ＬＥＤの組み合わせによって構成されている。プリンタ８は、ＣＰＵ１からの指示により文字及び画像を印刷することの出来る装置である。カメラユニット９は、携帯端末装置１００がバーコード及びシンボルを光学的に取り込む為の入力装置であり、ＣＣＤやＣＭＯＳ等のイメージセンサとレンズ・絞り・シャッターなどの光学装置で構成されている。

デコーダ１０は、カメラユニット９から出力された画像データを解析して、画像の中にバーコードまたは所定の２次元シンボルが含まれているかを判断する。そして、バーコードまたは所定の２次元シンボル含まれていたら、これが含まれる領域を切り出し、バーコードまたは２次元シンボルの規格に基づいて符号化された文字列を復号化し、文字列を出力する。

文字列バッファ１１は、ＣＰＵ１からの指示により音声合成が指示されたテキストデータを一時保存する領域である。文字列比較装置１２は、音声合成の指示によって文字列バッファ１１に格納されたテキストデータと、直前の音声合成指示によって格納されたテキストデータとを比較する。例えば、文字列バッファ１１に保持された文字列（テキストデータ）について音声合成装置による発声出力を終えると、当該テキストデータを文字列バッファ１１中の退避エリアに保持させる。そして、新たに音声合成が指示されたテキストデータを文字列バッファ１１に保持する際に、当該新たな文字列と上記退避エリアに保持してあるテキストデータとを比較するように構成すればよい。

このようにして、文字列比較装置１２は、音声合成が指示されたテキストデータが以前にも文字列バッファ１１に格納されたかどうかを調べる。直前に同一テキストデータによる発生指示が行われていなければ、後述の乱数発生装置１３を回避して、制御装置１４・音声合成装置１５へＣＰＵ１から指示されたテキストデータを送る。一方、比較の結果、直前に発声が指示されたテキストデータと同一であった場合は、乱数発生装置１３を起動し、後述の制御装置１４に与えるパラメータを変更する。なお、発声対象のテキストデータが直前に発声されたものであることを検出するためには、上記退避エリアにおけるテキストデータの保持期間を設定し、設定された保持期間が経過した場合はそのテキストデータを破棄するようにすればよい。

制御装置１４は、後述の音声合成装置１５が発生する音声の状態を変更することの出来る制御装置であり、例えば発声音声の音量・速度・抑揚を変える機能を持つ。音声合成装置１５は、指示されたテキストデータを音声信号として発生するばかりでなく、制御装置１４の指示に従って音量・速度・抑揚を変えて音声を発生することが出来る。スピーカー１６は、音声合成装置１５から出力された音声信号をオペレータに聞こえるように音に変え、出力する機能を持つ。

なお、図２に示すように、上記タッチパネル５は、ＬＣＤ６の上に設置されている。また、他に、キーボード４、光Ｉ／Ｆ７、プリンタ８、カメラユニット９、スピーカー１６が外観上に現れている。更に、上述したデコーダ１０、文字列比較装置１２、乱数発生装置１３、制御装置１４の全て或いは一部の機能はＣＰＵ１がＲＯＭ３等に格納された制御プログラムを実行することによって実現されるようにしてもよい。また、文字列バッファ１１はＲＡＭ２を用いて実現してもよい。

図３は、制御装置１４へ入力する制御パラメータの内容を示した表である。例えば、パラメータの内容が「１」の場合、音量が直前まで用いられた値よりも小さい音量になるように制御される。もしも「１」が連続して入力された場合、直前に加わった補正に対して更に補正が加えられるため、音量は徐々に小さくなっていく。これら０〜６の値のうち、１〜６の値は乱数発生装置１３からランダムに制御装置１４に入力される。なお、パラメータの内容が「０」の場合、音声合成装置１５に加えられた補正は全てリセットされる。

図４は本実施携帯による音声合成処理におけるアルゴリズムを示したフローチャートである。

ステップＳ０２で、文字列バッファ１１内のバッファａの内容（音声合成対象のテキストデータ）を、同じ文字列バッファ１１内のバッファｂ（退避エリア）に複写する。これにより、直前に発声指示された単語や文章等のテキストデータを一時的に保存できる。なお、バッファａの内容は本発明の携帯端末装置が起動した時、もしくは音声合成システムを使用する際の初期化時にクリアされる仕様になっている。また、ある時間範囲内で同じテキストデータの発声が繰り返される場合を検出するために、バッファｂにおける保持時間を設定しておき、該保持時間の経過後にはバッファｂの内容を消去するようにしてもよい。このようにすれば、連続して同じテキストデータが発声される場合でも、前回の発声時からある時間が経っている場合にはパラメータに対する補正はリセットされることになる。但し、この場合、バッファａからバッファｂへの複写のタイミング（ステップＳ０２の実行タイミング）は、音声合成を終えた後（ステップＳ０７の処理後）となる。

次に音声合成が指示されると、ステップＳ０３で、発音すべき単語や文章等のテキストデータを文字列バッファ１１内のバッファａに複写する。

次にステップＳ０４で、文字列比較装置１２はバッファａの内容（テキストデータ）とバッファｂの内容（テキストデータ）の比較を行う。バッファｂの内容は先のステップＳ０２によって直前に発声した内容が保持されているため、この比較処理によって、今回発声しようとする単語・文章が直前に発声されたかどうかの確認が出来る。比較の結果、直前に発声した単語・文章であった場合は、ステップＳ０５へ分岐する。

ステップＳ０５では、乱数発生装置１３によって、１から６までの整数の値を発生する。なお、この値は制御装置１４の入力パラメータの数（繰返し発声時に変更すべき入力パラメータの数であり、本実施形態では図３に示したように０〜６となる）に合わせて設定されている。ステップＳ０６では、発生された乱数の値に応じて音声合成のための制御パラメータを変更し、音声合成装置１５を設定する。最後にステップＳ０７で、バッファａの内容を音声合成し、スピーカー１６から出力する。

一方、ステップＳ０４において、文字列比較装置１２の比較の結果、直前に発声した単語・文章と一致しなかった場合はステップＳ０９へ分岐する。ステップＳ０９では、制御装置１４へパラメータ「０」を与え、制御装置１４によって音声合成装置１５に加えられた補正が全てリセットするようにしてから、ステップＳ０７へ分岐することで通常の音声合成が出来るようになっている。

図５は、本実施形態の携帯端末装置１００による文字列の読み上げの際の状況を示した図である。発音すべき文字列（テキストデータ）は、図のように１つの文章毎に区切られて本音声合成システムに送られる。この例のように１行目と２行目の内容が同じ場合、従来例では一行目と二行目は全く同じ発音となるが、本実施形態によれば両者を異なる発音で発声させることができる。即ち、１行目と２行目の内容がそれぞれバッファｂとバッファａに格納され、これらが等しいと判断できるので、斜体で示した２行目の文章は１行目とは異なった音量・速度・抑揚で発音される。そのため、聞いている者は機械合成による不快感を覚えることがない。

なお、制御装置１４のパラメータとしては、本発明では音量・速度・抑揚の３種類を扱っていたが、これは本発明を制限するものではなく、他にも音質や女声／男声の切り替えなどの制御も可能である。また、本発明では音量・速度・抑揚のいずれか１つのパラメータの変更を対象としていたが、これも本発明を制限するものではなく、複数のパラメータを同時に変更することも可能である。

また、上記実施形態によれば、音声合成パラメータ値の増減指示を数値に割り当てておき、乱数発生装置１３から得られる数値に対応した指示に従って音声合成パラメータを変更するので、簡易な構成で、自然な揺らぎのある音声合成を実現できる。なお、音声合成パラメータの変更方法は上記実施形態に限られるものではなく、予めパラメータの変更をスケジュールしておき、同一テキストデータの発声が連続する場合に、このスケジュールに従ってパラメータ値を変更するようにしてもよい。
また、ステップＳ０２に関連して説明したように、文字列バッファ１１内のバッファｂに保持時間を設定した構成とする場合、その保持時間をユーザが設定できるようにしてもかまわないことは言うまでもない。
更に、本発明は、上述した形態端末装置に限らず、各種電子機器に適用可能である。

以上説明したように、本実施形態によれば、同じ文字列が何回も音声合成を指示された場合に、音声合成する際の音量・速度・抑揚を変えることが容易に実現できる。このため、機械的な印象を排除することが出来、ユーザフレンドリな音声合成システムを提供できる。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本実施形態による音声合成装置付きの携帯端末装置の構成を示すブロック図である。図１に示した携帯端末装置の外観図である。制御装置１４の入力パラメータ例を示した図である。本実施形態による音声合成処理を説明するフローチャートである。本実施形態による音声合成用テキストデータの例を示す図である。

Claims

テキストデータに基づいて合成音声を生成する音声合成装置であって、
テキストデータに対応する合成音声を生成する生成手段と、
今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定手段と、
前記判定手段により一致すると判定された場合に、前記生成手段において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成手段を制御する制御手段とを備えることを特徴とする音声合成装置。
前記制御手段は、前記判定手段により一致すると判定された場合に、前記生成手段で用いられる音声合成パラメータを前回の発声時に用いられた状態から変更することを特徴とする請求項１に記載の音声合成装置。
前記制御手段は、音声合成パラメータの値の増加及び減少指示の各々に数値を割り当てておき、乱数発生手段により発生した数値に対応した指示に従って前記音声合成パラメータを変更することを特徴とする請求項２に記載の音声合成装置。
前記音声合成パラメータは、音声の音量・速度・抑揚に対応したパラメータであることを特徴とする請求項２又は３に記載の音声合成装置。
前記判定手段は、前回の発声対象のテキストデータを一時的に保持する記憶エリアを有し、今回の発声対象のテキストデータと該記憶エリアに保持されたテキストデータを比較することで一致を判定し、前記記憶エリアにおけるテキストデータの保持期間は所定時間に制限されることを特徴とする請求項１乃至４のいずれかに記載の音声合成装置。
テキストデータに基づいて合成音声を生成する音声合成方法であって、
テキストデータに対応する合成音声を生成する生成工程と、
今回の発声対象のテキストデータが前回の発声対象のテキストデータと一致するかを判定する判定工程と、
前記判定工程により一致すると判定された場合に、前記生成工程において生成される前記テキストデータの発声が前回に生成された発声と異なるように前記生成工程を制御する制御工程とを備えることを特徴とする音声合成方法。
前記制御工程は、前記判定工程により一致すると判定された場合に、前記生成工程で用いられる音声合成パラメータを前回の発声時に用いられた状態から変更することを特徴とする請求項６に記載の音声合成方法。
前記制御工程は、音声合成パラメータの値の増加及び減少指示の各々に数値を割り当てておき、乱数発生工程により発生した数値に対応した指示に従って前記音声合成パラメータを変更することを特徴とする請求項７に記載の音声合成方法。
前記音声合成パラメータは、音声の音量・速度・抑揚に対応したパラメータであることを特徴とする請求項７又は８に記載の音声合成方法。
前記判定工程は、前回の発声対象のテキストデータを一時的に保持する記憶エリアを有し、今回の発声対象のテキストデータと該記憶エリアに保持されたテキストデータを比較することで一致を判定し、前記記憶エリアにおけるテキストデータの保持期間は所定時間に制限されることを特徴とする請求項６乃至９のいずれかに記載の音声合成方法。
請求項６乃至１０のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体。
請求項６乃至１０のいずれかに記載の音声合成方法をコンピュータに実行させるための制御プログラム。