JP6507867B2

JP6507867B2 - 音声生成装置、音声生成方法、及びプログラム

Info

Publication number: JP6507867B2
Application number: JP2015117697A
Authority: JP
Inventors: 淳哉斎藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2019-05-08
Anticipated expiration: 2035-06-10
Also published as: JP2017003774A

Description

本発明は、音声生成装置、音声生成方法、及びプログラムに関する。

音声生成装置には、所定の入力値の変化に応じてリアルタイムで声質等を変化させるものがある。所定の入力値としては、例えば、声質等の調節に用いるスライダーの位置や、装置周辺の騒音レベル等が挙げられる。

この種の音声生成装置は、１つの出力対象（メッセージ）の音声データを生成するために、声質等の組み合わせが異なる複数の音声データを保持しており、入力値に応じて複数の音声データのいずれかを選択して再生する。そして、音声データの再生中に入力値が変化すると、変化後の入力値に応じた音声データに切り替える（例えば、特許文献１を参照）。このような音声生成装置は、生成する音声の声質等を周囲の騒音をスペクトルに応じて選択する方法（例えば、特許文献２を参照）に比べて音声生成時の処理負荷が軽い。

上記の音声生成装置が保持する複数の音声データはモーフィングにより作成される。モーフィングは、声質等が異なる２つの音声データを所望の比率（モーフィング率）で混合することにより中間的な声質を有する合成音声を生成する方法である。２つの音声データをモーフィングする場合、音声データ全体を一定のモーフィング率でモーフィングするだけでなく、音素や音節を単位としてモーフィング率を指定してモーフィングすることも可能である（例えば、特許文献３を参照）。

上記の音声生成装置は、工場における設備の操作の指示や設備の稼働状況を作業員に報知する等、騒音レベルが一定ではない環境下での音声案内に適用することができる。

特開２００６−１７８０５２号公報特開平２−２１０４９７号公報特開２００６−２２７５８９号公報

上記の音声生成装置を騒音レベルが一定ではない環境下に適用する場合、所定の入力値として設備周辺の騒音レベルを用いる。また、１つのメッセージに対する複数の音声データは、騒音レベルが低いときに聞き取りやすい条件で作成された第１の音声データと、騒音レベルが高いときに聞き取りやすい条件で作成された第２の音声データとのモーフィングにより作成する。そして、騒音レベルに応じた音声データを選択する際には、騒音レベルとモーフィング率との対応関係を表す変換テーブルに基づき、装置周辺の騒音レベルと対応するモーフィング率の音声データを選択する。これにより、音声データ（メッセージ）の再生中に設備周辺の騒音レベルが上昇した場合にメッセージが聞き取りにくくなることを防げ、メッセージの聞き漏らし等を防ぐことができる。

また、音声データ（メッセージ）の再生中に設備周辺の騒音レベルが低いときには、騒音レベルが低いときに聞き取りやすい条件で作成された音声データが出力される。そのため、騒音レベルが高いときに聞き取りやすい音声を騒音レベルが低い環境下で聞くことによる聞き疲れ等を防ぐこともできる。

しかしながら、第１の音声データ及び第２の音声データをモーフィングして作成した複数の音声データは、アクセントと相関のある基本周波数も異なる。そのため、音声データにおける１つのアクセント句の再生中に、騒音レベルの変化に応じてモーフィング率の異なる音声データに切り替えた場合、基本周波数が変化してアクセントが変わってしまう。このようにアクセント句のアクセントが変わってしまうと、作業員は間違ったアクセントでメッセージを聞くこととなる。そのため、作業員が違和感を覚えメッセージの内容を理解しづらくなる可能性がある。

一つの側面において、本発明は、入力値の変化に応じてモーフィング率が異なる音声データに切り替えても再生された音声が聞き取りやすく、かつアクセントが変わらないようにすることを目的とする。

本発明の１つの態様である音声生成装置は、モーフィング率決定部と、音声再生部と、を備える。モーフィング率決定部は、入力装置からの入力値に基づいて声質のモーフィング率及び基本周波数のモーフィング率を含む２以上のモーフィング率を決定する。音声再生部は、モーフィング率に基づいて音声データを選択して再生する。ここで、モーフィング率決定部は、第１のモーフィング率決定部と、第２のモーフィング率決定部とを含む。第１のモーフィング率決定部は、音声データの再生位置おける入力値に基づいて声質のモーフィング率を決定する。第２のモーフィング率決定部は、再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定する。

上述の態様によれば、入力値の変化に応じてモーフィング率が異なる音声データに切り替えても再生された音声が聞き取りやすく、かつアクセントが変わらない。

第１の実施形態に係る音声生成装置の機能ブロック図である。第１の実施形態におけるモーフィング率決定部の機能ブロック図である。音声データベースの構成を示す図である。再生位置の対応関係を示す図である。１つの音声データセットの構成例を示す図である。第１の実施形態に係る音声生成処理を示すフローチャート（その１）である。第１の実施形態に係る音声生成処理を示すフローチャート（その２）である。音声データの再生位置とモーフィング率との関係を説明するグラフを表す図である。アクセント句の再生中に騒音レベルが変化したときのアクセントを説明するグラフを表す図である。コンピュータのハードウェア構成図である。第１の実施形態に係る音声生成装置の別の適用例を示す図である。第１の実施形態に係る音声生成装置の更に別の適用例を示す図である。第２の実施形態に係るｅラーニングシステムの構成例を示す図である。表示装置に表示される作業ウインドの構成例を示す図である。第２の実施形態に係る音声生成装置の機能ブロック図である。第２の実施形態における合成音声作成部の機能ブロック図である。第２の実施形態に係る音声生成処理を示すフローチャート（その１）である。第２の実施形態に係る音声生成処理を示すフローチャート（その２）である。

［第１の実施形態］
本実施形態では、工場における設備の操作の指示や設備の稼働状況を作業員に報知する音声生成装置に本発明を適用した場合の、音声生成装置の構成や音声生成方法等を説明する。

図１は、第１の実施形態に係る音声生成装置の機能ブロック図である。
図１に示すように、本実施形態に係る音声生成装置１は、入力値処理部１００と、モーフィング率決定部１０１と、変換テーブル１０２と、音声再生部１０３と、音声データベース１０４とを備える。また、音声再生部１０３は、音声データ選択部１０３ａと、再生制御部１０３ｂとを含む。音声生成装置１は、一定間隔で騒音レベルを取得し、これに応じた音声をフレーム単位で生成し再生する動作を繰り返すことにより、周辺の騒音レベルに応じた音声を再生する。

入力値処理部１００は、マイク２から入力される音声信号（入力値）に基づいて、設備３の周辺の騒音レベルを算出する。この入力値処理部１００は、設備３の制御部３００からの音声データの再生を指示する制御信号を受信すると、音声信号の取得を開始する。また、入力値処理部１００は、再生制御部１０３ｂからの音声データの再生が終了したことを示す信号を受信すると、マイク２からの音声信号の取得及び騒音レベルの算出を終了する。

モーフィング率決定部１０１は、入力値処理部１００で算出した騒音レベルと、変換テーブル１０２と、再生制御部１０３ｂからのアクセント句境界を示す情報に基づいて、モーフィング率を決定する。変換テーブル１０２は、騒音レベルとモーフィング率との対応関係を示すテーブルである。また、アクセント句境界を示す情報は、現在処理対象となっているフレームがアクセント句境界であるかを示す情報である。

音声再生部１０３は、設備３の制御部３００からの出力対象の音声データを指定する情報と、モーフィング率決定部１０１で決定したモーフィング率とに基づいて、音声データベース１０４から音声データを読み出し、スピーカ４に出力する。音声データベース１０４には、予め様々なモーフィング率でモーフィングした音声データを格納してある。音声データを指定する情報及びモーフィング率は、音声データ選択部１０３ａが受信する。音声データ選択部１０３ａは、音声データを指定する情報及びモーフィング率をキー情報として音声データベース１０４を検索し、該当する音声データを特定する。また、音声データ選択部１０３ａは、音声データを特定すると、特定した音声データのＩＤ情報を再生制御部１０３ｂに通知する。再生制御部１０３ｂは、通知されたＩＤ情報に基づいて音声データベース１０４から音声データを読み出し、再生するフレームを決定して、スピーカ４に出力する。また、再生制御部１０３ｂは、アクセント句境界を示す情報をモーフィング率決定部１０１に送信する。更に、再生制御部１０３ｂは、音声データの出力（再生）が終了すると、再生が終了したことを入力値処理部１００に通知する。

図２は、第１の実施形態におけるモーフィング率決定部の機能ブロック図である。
図２に示すように、本実施形態におけるモーフィング率決定部１０１は、瞬時モーフィング率決定部１０１ａと、アクセント句モーフィング率決定部１０１ｂとを含む。更に、モーフィング率決定部１０１は、声質モーフィング率決定部１０１ｃと、基本周波数モーフィング率決定部１０１ｄと、継続長モーフィング率決定部１０１ｅとを含む。

瞬時モーフィング率決定部１０１ａは、入力値処理部１００で算出した騒音レベルと、変換テーブル１０２とに基づいて、現在の騒音レベルに応じたモーフィング率を決定する。

アクセント句モーフィング率決定部１０１ｂは、現在処理対象となっているフレームを含むアクセント句の先頭のフレームを再生したときの騒音レベルと、変換テーブル１０２とに基づいてモーフィング率を決定する。以下、アクセント句の先頭のフレームを再生したときの騒音レベルのことをアクセント句先頭の騒音レベルともいう。現在処理対象となっているフレームを含むアクセント句先頭の騒音レベルは、入力値処理部１００から受信した騒音レベルと、再生制御部１０３ｂから受信したアクセント句境界を示す情報に基づいて、アクセント句境界における騒音レベルを保持することにより求める。そして、入力値処理部１００から騒音レベルを受信する毎に、現在処理対象となっているフレームを含むアクセント句先頭の騒音レベルと、変換テーブル１０２とに基づいてモーフィング率を決定する。

声質モーフィング率決定部１０１ｃは、再生する音声データにおける声質のモーフィング率を決定する。ここで、音声データの声質は、メルケプストラム、メル一般化ケプストラム、又はスペクトルによって表されるパラメータである。本実施形態における声質モーフィング率決定部１０１ｃは、瞬時モーフィング率決定部１０１ａで決定したモーフィング率を声質のモーフィング率とする。

基本周波数モーフィング率決定部１０１ｄは、再生する音声データにおける基本周波数のモーフィング率を決定する。ここで、基本周波数は、Ｆ０とも呼ばれ、声の高さを表すパラメータである。本実施形態における基本周波数モーフィング率決定部１０１ｄは、アクセント句モーフィング率決定部１０１ｂで決定したモーフィング率を基本周波数のモーフィング率とする。

継続長モーフィング率決定部１０１ｅは、再生する音声データにおける継続長のモーフィング率を決定する。ここで、継続長は、音素の長さを表すパラメータである。本実施形態における継続長モーフィング率決定部１０１ｅは、アクセント句モーフィング率決定部１０１ｂで決定したモーフィング率を継続長のモーフィング率とする。なお、継続長モーフィング率１０１ｅは、瞬時モーフィング率決定部１０１ａで決定したモーフィング率を継続長のモーフィング率にしてもよい。

図３Ａは、音声データベースの構成を示す図である。図３Ｂは、再生位置の対応関係を示す図である。図３Ｃは、１つの音声データセットの構成例を示す図である。

図３Ａに示すように、本実施形態に係る音声生成装置１の音声データベース１０４は、第１の音声データセット１０４−１及び第２の音声データセット１０４−２を含む複数の音声データセットからなる。ここで、１つの音声データセットは、ある１つのメッセージについての声質のモーフィング率と、基本周波数（及び継続長）のモーフィング率との組み合わせが異なる複数の音声データの集合である。例えば、第１の音声データセット１０４−１に含まれる複数の音声データは、全て「ハンドルを右に回してください」というメッセージの音声データであるが、それぞれ、声質のモーフィング率と、基本周波数のモーフィング率との組み合わせが異なる。また、各音声データは、予め、アクセント句境界の情報を保持する。例えば、「ハンドルを右に回してください」を発声した音声データであれば、「｜ハンドルを｜右に｜回してください」の「｜」に相当する音声データ上の位置がアクセント句境界であるという情報を保持する。ただし、テキスト情報はなくてもよく、少なくとも音声データ上の各位置がアクセント句境界であるかどうかという情報を保持する。更に、各音声データは、再生位置の対応が取れるように、予め、例えば、図３Ｂに示すように、１モーラあたり、１．０進むような基準時刻を保持する。

また、本実施形態では、図３Ｃに示した第１の音声データセット１０４−１のように、１つの音声データセットにおける声質のモーフィング率ＭＰ及び基本周波数のモーフィング率ＭＡを、それぞれ０から１まで０．１ずつ変化させている。なお、モーフィング率ＭＰ，ＭＡは、騒音レベルが低いときに聞き取りやすい条件で作成された第１の音声データと、騒音レベルが高いときに聞き取りやすい条件で作成された第２の音声データとをモーフィングしたときの第１の音声データの比率を表している。

また、図３Ｃにおいて、音声データＭＤ（ＭＰ，ＭＡ）｛ＭＰ＝０〜１、ＭＡ＝０〜１｝は、それぞれ、声質のモーフィング率がＭＰ、基本周波数のモーフィング率がＭＡの音声データを表している。また、図３Ｃにおいて、ＭＤＧｎ｛ｎ＝０〜１０｝は、基本周波数のモーフィング率ＭＡが同じ値で声質のモーフィング率ＭＰが異なる音声データＭＤ（ＭＰ，ＭＡ）｛ＭＰ＝０〜１｝のグループを表している。

また、音声データセットの作成に用いる第１の音声データ及び第２の音声データは、音声合成処理によりテキストデータから変換した音声データでもよいし、人が発した音声を録音して得た音声データでもよい。

次に、本実施形態の音声生成装置１における音声生成処理について説明する。
図４Ａは、第１の実施形態に係る音声生成処理を示すフローチャート（その１）である。図４Ｂは、第１の実施形態に係る音声生成処理を示すフローチャート（その２）である。

本実施形態に係る音声生成装置１は、設備３の制御部３００から音声（メッセージ）の出力を要求する制御信号を受信したときに、設備３の周囲の騒音レベルに応じたモーフィング率の音声データをフレーム単位で生成し出力する。このとき、音声生成装置１は、図４Ａに示すように、まず、再生位置を含むアクセント句の先頭を再生したときの騒音レベルを初期化する（ステップＳ１）。ステップＳ１は、アクセント句モーフィング率決定部１０１ｂが行う。

次に、音声生成装置１は、マイク２からの音声信号（入力値）を取得し、現時点の騒音レベルを算出する（ステップＳ２）。ステップＳ２は、入力値処理部１００が行う。入力値処理部１００は、例えば、予め用意された音声信号の入力パワーと騒音レベルとの対応テーブルに基づいて騒音レベルを算出する。また、入力値処理部１００は、算出した騒音レベルをモーフィング率決定部１０１の瞬時モーフィング率決定部１０１ａ及びアクセント句モーフィング率決定部１０１ｂに渡す。

瞬時モーフィング率決定部１０１ａは、入力値処理部１００から現時点の騒音レベルを受け取ると、図４Ａに示すように、現時点の騒音レベル、及び変換テーブル１０２に基づいて瞬時モーフィング率を求める（ステップＳ３ａ）。その後、瞬時モーフィング率決定部１０１ａは、求めた瞬時モーフィング率を声質モーフィング率決定部１０１ｃに渡す。すると、声質モーフィング率決定部１０１ｃは、受け取った瞬時モーフィング率を声質のモーフィング率ＭＰに設定する（ステップＳ３ｂ）。

一方、アクセント句モーフィング率決定部１０１ｂは、入力値処理部１００から現時点の騒音レベルを受け取ると、図４Ａに示すように、現時点の騒音レベルを保持する（ステップＳ４ａ）。続けて、アクセント句モーフィング率決定部１０１ｂは、アクセント句先頭の騒音レベル、すなわち再生位置を含むアクセント句の先頭を再生したときの騒音レベルが設定済みであるか否かを確認する（ステップＳ４ｂ）。騒音レベルが未設定の場合（ステップＳ４ｂ；Ｎｏ）、アクセント句モーフィング率決定部１０１ｂは、現時点の騒音レベルを、再生位置を含むアクセント句の先頭を再生したときの騒音レベルに設定する（ステップＳ４ｃ）。その後、アクセント句モーフィング率決定部１０１ｂは、アクセント句の先頭を再生したときの騒音レベルと変換テーブル１０２とに基づいてアクセント句モーフィング率を求める（ステップＳ４ｄ）。また、騒音レベルが設定済みの場合（ステップＳ４ｂ；Ｙｅｓ）、アクセント句モーフィング率決定部１０１ｂは、ステップＳ４ｃの処理をスキップして、アクセント句モーフィング率を求める処理（ステップＳ４ｄ）を行う。ステップＳ４ｄの後、アクセント句モーフィング率決定部１０１ｂは、求めたアクセント句モーフィング率を基本周波数モーフィング率決定部１０１ｄ及び継続長モーフィング率決定部１０１ｅに渡す。すると、基本周波数モーフィング率決定部１０１ｄは、受け取ったアクセント句モーフィング率を基本周波数のモーフィング率ＭＡに設定する（ステップＳ４ｅ）。同様に、継続長モーフィング率決定部１０１ｅは、受け取ったアクセント句モーフィング率を継続長のモーフィング率に設定する（ステップＳ４ｅ）。

こうして声質、基本周波数、及び継続長のモーフィング率が決定すると、モーフィング率決定部１０１は、決定した声質、基本周波数、及び継続長のモーフィング率ＭＰ，ＭＡを音声再生部１０３の音声データ選択部１０３ａに渡す。図４Ｂに示すように、音声データ選択部１０３ａは、設備３の制御部３００からの出力対象の音声データを指定する情報、声質のモーフィング率ＭＰ、及び基本周波数のモーフィング率ＭＡに基づいて、音声データベース１０４から出力用の音声データを決定する（ステップＳ５）。このとき、音声データ選択部１０３ａは、音声データを指定する情報に基づいて音声データベース１０４から音声データセットを特定する。また、音声データ選択部１０３ａは、声質のモーフィング率ＭＰ、及び基本周波数のモーフィング率ＭＡに基づいて、特定した音声データセットにおける音声データＭＤ（ＭＰ，ＭＡ）を決定する。その後、音声データ選択部１０３ａは、音声データＭＤ（ＭＰ，ＭＡ）に関する情報を再生制御部１０３ｂに渡す。

再生制御部１０３ｂは、音声データＭＤ（ＭＰ，ＭＡ）に関する情報を受け取ると、音声データベース１０４から音声データＭＤ（ＭＰ，ＭＡ）を読み出し、現時点の基準時刻に基づく再生位置からスピーカ４に出力する（ステップＳ６）。

また、再生制御部１０３ｂは、音声データをスピーカ４に出力すると、再生位置が音声データの終了位置に到達しているか否かを確認する（ステップＳ７）。再生位置が音声データの終了位置に到達していない場合（ステップＳ７；Ｎｏ）、再生制御部１０３ｂは、次に、再生位置がアクセント句境界と一致するか否かを確認する（ステップＳ８）。再生位置がアクセント句境界と一致する場合（ステップＳ８；Ｙｅｓ）、再生制御部１０３ｂは、アクセント句モーフィング率決定部１０１ｂと協働して、アクセント句の先頭を再生したときの騒音レベルを現時点での騒音レベルに更新する（ステップＳ９）。その後、再生制御部１０３ｂは、再生位置を次のフレーム先頭に変更し（ステップＳ１０）、入力値処理部１００にステップＳ２の処理を行わせる。以後、音声生成装置１は、再生位置が音声データの終了位置に到達するまでステップＳ２〜Ｓ１０を繰り返す。

そして、再生位置が音声データの終了位置に到達した場合（ステップＳ７；Ｙｅｓ）、再生制御部１０３ｂは終了位置の出力をもって出力処理を終了する。これにより、音声生成装置１は待機状態となる。待機状態の音声生成装置１は、設備３の制御部３００からの新たな制御信号を受信すると、当該制御信号に応じた音声データの生成及び出力処理を行う。

図５は、音声データの再生位置とモーフィング率との関係を説明するグラフを表す図である。なお、図５には、音声データの各再生位置における騒音レベルＬをプロットしたグラフ、声質モーフィング率ＭＰをプロットしたグラフ、及び基本周波数モーフィング率ＭＡをプロットしたグラフを上下方向に並べて示している。

ある音声データを再生しているときの騒音レベルＬは、例えば、図５に示したように、Ｌ１≦Ｌ≦Ｌ２の範囲で変動する。図５に示した例において、ｎ番目のアクセント句を再生しているときの騒音レベルＬは、アクセント句の先頭となる再生位置Ｐ１（アクセント句境界Ｂｎ）ではＬ＝Ｌ１であるが、途中で上昇してＬ＝Ｌ２に変化する。

本実施形態に係る音声生成処理では、現時点の騒音レベルＬに基づいて声質モーフィング率ＭＰを決定する。そのため、ｎ番目のアクセント句に含まれる再生位置Ｐ４を再生する時点の騒音レベルＬがＬ＝Ｌ２である場合、再生位置Ｐ４に対する声質モーフィング率ＭＰは騒音レベルＬ２に応じた値ＭＰ（Ｌ２）となる。

一方、本実施形態に係る音声生成処理では、再生位置を含むアクセント句の先頭を再生したときの騒音レベルに基づいて基本周波数及び継続長のモーフィング率ＭＡを決定する。そのため、再生位置Ｐ４を再生する時点の騒音レベルＬがＬ＝Ｌ２であっても、再生位置Ｐ４に対する基本周波数及び継続長のモーフィング率ＭＡは、ｎ番目のアクセント句の先頭を再生する時点の騒音レベルＬ１に応じた値ＭＡ（Ｌ１）となる。

このように、本実施形態に係る音声生成処理では、１つのアクセント句の再生中に騒音レベルＬが大きく変化した場合、声質モーフィング率のみが騒音レベルに応じて変化し、基本周波数及び継続長のモーフィング率は変化しない。すなわち、１つのアクセント句を再生している間、騒音レベルに応じて変化するのは聞き取りやすさとの相関がある声質モーフィング率のみであり、アクセントとの相関がある基本周波数モーフィング率は変化しない。よって、音声データの再生中にアクセント句のアクセントが変わってしまうことを防止できる。

図６は、アクセント句の再生中に騒音レベルが変化したときのアクセントを説明するグラフを表す図である。なお、図６には、「ハンドルを」というアクセント句を再生したときの騒音レベル及び周波数と、再生した音声のアクセントとを示している。

図６において、曲線Ｆ（Ｌ１）は、騒音レベルＬがＬ＝Ｌ１のときに聞き取りやすい条件で作成した音声データにおける再生位置と基本周波数との関係を示している。また、曲線Ｆ（Ｌ２）は、騒音レベルＬがＬ＝Ｌ２のときに聞き取りやすい条件で作成した音声データにおける再生位置と基本周波数との関係を示している。そして、曲線Ｆｏｕｔは、騒音レベルＬに基づいて決定した基本周波数のモーフィング率に従って音声データを生成したときの再生位置と基本周波数との関係を示している。

従来の音声生成処理においては、アクセント句の再生中に騒音レベルＬが変化すると基本周波数のモーフィング率も変化する。このとき、図６の上段のグラフに示すように、再生位置が０（アクセント句の先頭）からＰ１（「ン」と「ド」との間）までの騒音レベルＬ２の区間の音声は、曲線Ｆ（Ｌ２）の基本周波数で再生される。同様に、再生位置がＰ２（「ド」と「ル」との間）からＰ３（アクセント句の終了位置）までの騒音レベルＬ１の区間の音声は、曲線Ｆ（Ｌ１）の基本周波数で再生される。また、再生位置がＰ１からＰ２までの区間のように騒音レベルＬがＬ＝Ｌ２からＬ＝Ｌ１へと徐々に減少している場合の音声は、騒音レベルに応じた基本周波数のモーフィング率ＭＡで周波数を変化させながら再生する。

したがって、従来の音声生成処理により「ハンドルを」というアクセント句を再生した場合の基本周波数は、図６の上段のグラフに示した曲線Ｆｏｕｔのようになる。すなわち、騒音レベルＬが低下する再生位置Ｐ１以降は、再生開始時の音声データにおける基本周波数Ｆ（Ｌ２）よりも低い周波数で再生される。よって、再生された「ハンドルを」というアクセント句は、図６の上段に示したように「ン」の部分だけ強くなって聞こえる。しかしながら、「ハンドルを」というアクセント句を標準的なアクセントで発音した場合、図６の下段のグラフに示したように、「ンドルを」の４音が「ハ」よりも強く、かつほぼ同じ強さで聞こえる。よって、従来の音声生成処理のように騒音レベルの変化に応じてアクセント句内で基本周波数のモーフィング率が変化した場合、アクセントが変わってしまい、作業員に違和感を与えてしまうことがある。また、アクセントの異なる同音異義語があるアクセント句を含むメッセージの場合、メッセージの内容を理解しづらくなることがある。

これに対し、本発明（本実施形態）に係る音声生成処理では、上記のように、１つのアクセント句の再生中における基本周波数のモーフィング率ＭＡは、途中で騒音レベルが大きく変化しても、アクセント句の先頭を再生したときのモーフィング率のままである。すなわち、図６の中段及び下段のグラフに示したように、アクセント句の先頭を再生したときの騒音レベルＬがＬ＝Ｌ２であれば、騒音レベルＬが変化する再生位置Ｐ１以降の基本周波数も騒音レベルＬ２のときのままである。そのため、再生された「ハンドルを」というアクセント句の周波数を表す曲線Ｆｏｕｔは曲線Ｆ（Ｌ２）と一致する。したがって、再生された「ハンドルを」というアクセント句は、図６の下段のグラフに示したように「ンドルを」の４音が「ハ」よりも強く、かつほぼ同じ強さで聞こえる。よって、騒音レベルが途中で変化しても標準的なアクセントで聞き取ることができ、作業員が違和感を覚えることや、内容を理解しづらくなることを防止できる。

このように、第１の実施形態によれば、現時点（現在の再生位置）における騒音レベルに基づいて声質のモーフィング率を決定することで、騒音レベルの変化により音声が聞き取りにくくなることを防止できる。しかも、現在の再生位置を含むアクセント句の先頭を再生したときの騒音レベルに基づいて現在の再生位置における基本周波数のモーフィング率を決定することで、アクセントが変わって内容を理解しづらくなることも防止できる。

工場等の施設においては、作業員が設備を安全かつ正しく操作できるよう、設備の稼働状況や操作案内をリアルタイムで正確に報知することが望まれる。本実施形態の音声生成装置１は、上記のように、設備３の周囲の騒音レベルに応じて声質をリアルタイムで変化させる一方で、基本周波数はアクセント句単位で変化させる。そのため、騒音レベルが一定ではない環境下においても、音声によるメッセージを聞き取りやすく、アクセントの間違いにより内容を理解しづらくなることもない。よって、本実施形態の音声生成装置１は、工場等の施設における安全かつ正確な作業の支援に最適といえる。

なお、第１の実施形態に係る音声生成装置１では、図２に示した瞬時モーフィング率決定部１０１ａと声質モーフィング率決定部１０１ｃとが１つの決定部に統合されたものであってもよい。同様に、図２に示したアクセント句モーフィング率決定部１０１ｂ、基本周波数モーフィング率決定部１０１ｄ、及び継続長モーフィング率決定部１０１ｅは、１つの統合された決定部であってもよい。また、継続長モーフィング率決定部１０１ｅは、瞬時モーフィング率決定部１０１ａで決定したモーフィング率を継続長のモーフィング率にしてもよい。

また、第１の実施形態に係る音声生成装置１は、例えば、コンピュータと、図４Ａ及び図４Ｂに示した処理をコンピュータに実行させるプログラムとにより実現可能である。このコンピュータとプログラムにより実現される音声生成装置１について、図７を参照しながら説明する。

図７は、コンピュータのハードウェア構成図である。
図７に示すように、音声生成装置として動作させるコンピュータ５は、プロセッサ５０と、主記憶装置５１と、補助記憶装置５２と、入力装置５３と、出力装置５４と、通信インタフェース装置５５と、を備える。コンピュータ５におけるこれらの要素５０〜５５は、バス５９により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

プロセッサ５０は、Central Processing Unit（ＣＰＵ）又はMicro Processing Unit（ＭＰＵ）等の演算処理装置であり、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ５の全体の動作を制御する。

主記憶装置５１は、Read Only Memory（ＲＯＭ）５１ａ及びRandom Access Memory（ＲＡＭ）５１ｂを含む。ＲＯＭ５１ａには、例えばコンピュータ５の起動時にプロセッサ５０が読み出す所定の基本制御プログラム等が予め記録されている。また、ＲＡＭ５１ｂは、プロセッサ５０が各種のプログラムを実行する際に、必要に応じて作業用記憶領域として使用する。本実施形態においては、例えば、アクセント句の先頭を再生したときの騒音レベルや、再生する音声データを含む音声データセットを示す情報等の一時的な保持にＲＡＭ５１ｂを用いることができる。

補助記憶装置５２は、Hard Disk Drive（ＨＤＤ）やSolid State Drive（ＳＳＤ）等の主記憶装置５１に比べて大容量の記憶装置である。補助記憶装置５２には、プロセッサ５０によって実行される各種のプログラムや、変換テーブル１０２及び音声データベース１０４を含む各種のデータを記憶させることができる。

入力装置５３は、例えば、各種のボタンやスイッチ、及びマイク２である。ボタンやスイッチは、コンピュータ５（音声生成装置１）の動作設定等に用いる。コンピュータ５のオペレータが各種のボタンやスイッチを操作すると、その操作内容に対応付けられている入力情報がプロセッサ５０に送信される。また、マイク２は、設備３の周囲の騒音レベルを求める際に用いる。

出力装置５４は、例えば液晶ディスプレイやスピーカ４である。液晶ディスプレイは、プロセッサ５０等から送信される表示データに従って操作案内や設定値等を表示する。また、スピーカ４は、プロセッサ５０等から送信される音声データを出力する。

通信インタフェース装置５５は、コンピュータ５と設備３の制御部３００とを通信可能に接続するための装置である。コンピュータ５は、通信インタフェース装置５５により設備３の制御部３００からの制御信号を受信すると、制御信号に応じたメッセージ（音声データ）を生成して出力する。

このコンピュータ５は、プロセッサ５０が補助記憶装置５２から上述した音声生成処理についてのプログラムを読み出して実行する。プロセッサ５０は、プログラムの実行中、通信インタフェース装置５５を介して設備３の制御部３００からの制御信号を受信すると、マイク２を利用して設備３の周囲の騒音レベルを求める。また、プロセッサ５０は、現時点の騒音レベル、アクセント句の先頭を再生したときの騒音レベル、補助記憶装置５２あるいはＲＡＭ５１ｂに記憶させた変換テーブル１０２等に基づいて、瞬時モーフィング率ＭＰ及びアクセント句モーフィング率ＭＡを決定する。そして、プロセッサ５０は、声質のモーフィング率を瞬時モーフィング率ＭＰに設定するとともに、基本周波数及び継続長のモーフィング率をアクセント句モーフィング率ＭＡに設定する。更に、プロセッサ５０は、設定した声質、基本周波数、及び継続長のモーフィング率の組み合わせに基づいて補助記憶装置５２の音声データベース１０４から再生する音声データを読み出し、スピーカ４に出力する。

［音声生成装置１の適用例］
本実施形態に係る音声生成装置１の適用例として、図１には、音声生成装置１を設備３とは別個に設けた例を挙げている。しかしながら、本実施形態に係る音声生成装置１は、これに限らず、設備３に音声生成部として内蔵させたものであってもよい。更に、複数の設備の稼働状況を１つの管理サーバで一元管理している施設に適用する場合、設備３からではなく、管理サーバからの制御信号に基づいて音声を出力することも可能である。

図８Ａは、第１の実施形態に係る音声生成装置の別の適用例を示す図である。
本実施形態に係る音声生成装置１を適用可能な工場等の施設は、図８Ａに示すように、複数の設備３（３Ａ，３Ｂ）があり、それらの稼働状況を１つの管理サーバ６で一元管理している場合が多い。管理サーバ６は、各設備３と通信可能に接続されており、例えば、各設備３に設けた各種のセンサから設備３内の温度、圧力、設備３から作業員までの距離、作業員の有無等の情報を取得する。そして、管理サーバ６は、各設備３から取得した情報に基づいて各設備３の稼働状況を監視し、各設備３が正常に稼動するよう管理する。このように管理サーバ６で複数の設備３の稼働状況を一元管理している場合、各設備３に個別に適用された複数の音声生成装置１（１Ａ，１Ｂ）の動作も管理サーバ６で制御、管理することが可能である。複数の音声生成装置１の動作を管理サーバ６で一元管理すると、例えば、設備３Ａに何らかの異常が発生したことを伝える音声データを、設備３Ｂの周囲に向けて出力することができる。そのため、設備３Ａの周囲に向けて異常を伝える音声データを出力したにも係わらず一定期間異常への対処がなされない場合に、他の設備３Ｂの周囲にいる作業員等に設備３Ａの異常を報知することができる。したがって、設備３Ａの異常への対処が遅れることによる設備３Ａの故障等を防止することができる。また、複数の設備３Ａ，３Ｂが連動（協働）している場合、例えば、１つの設備で発生した異常を他の設備の周囲にいる作業員に早期に報知でき、連鎖的な設備の異常の発生を防止することができる。

図８Ｂは、第１の実施形態に係る音声生成装置の更に別の適用例を示す図である。
複数の設備３（３Ａ，３Ｂ）の稼働状況を１つの管理サーバ６で一元管理している施設に音声生成装置１を適用する場合、例えば、図８Ｂに示すように、音声生成装置１に相当する音声生成部６００を管理サーバ６に設けてもよい。このようにすることで、複数の設備３のそれぞれに音声生成装置１を適用する場合に比べ、音声生成装置の導入コストやメンテナンス費用を低減することができる。

なお、本実施形態に係る音声生成装置１は、工場に限らず、例えば、駅構内や繁華街等で音声案内を行う装置に適用することも可能であることはもちろんである。

［第２の実施形態］
本実施形態では、ｅラーニングシステムに本発明を適用した場合の音声生成装置の構成や音声生成方法等を説明する。

図９は、第２の実施形態に係るｅラーニングシステムの構成例を示す図である。
図９に示すように、本実施形態に係るｅラーニングシステムでは、ホストコンピュータ８と、複数の端末（クライアント）９とがインターネット等の通信ネットワーク１０で接続されている。ホストコンピュータ８は、教材の作成や提供等を行うコンピュータである。一方、複数の端末９は、それぞれ、学習者が教材を利用して学習する際に用いるコンピュータである。

ホストコンピュータ８は、教材としての音声データを作成するときや再生するときに音声生成装置として動作する。このホストコンピュータ８は、コンピュータ本体８０と、キーボード８１と、マウス８２と、表示装置８３と、スピーカ８４とを備える。コンピュータ本体８０は、図７に示したコンピュータのハードウェア構成におけるプロセッサ５０、主記憶装置５１、補助記憶装置５２、通信インタフェース装置５５等を備える。また、キーボード８１及びマウス８２は、図７に示したコンピュータのハードウェア構成における入力装置５３に該当する。また、表示装置８３及びスピーカ８４は、図７に示したコンピュータのハードウェア構成における出力装置５４に該当する。

ホストコンピュータ８を音声生成装置１として動作させるときには、コンピュータ本体８０に音声データ作成プログラムを実行させる。音声データ作成プログラムは、オペレータがキーボード８１等を操作して入力した文字情報（テキストデータ）から音声データを作成するプログラムである。音声データ作成プログラムの実行中、表示装置８３には、例えば、図９及び図１０に示したような作業ウインド８５が表示される。

図１０は、表示装置に表示される作業ウインドの構成例を示す図である。
音声データ作成時に表示装置８３に表示される作業ウインド８５には、例えば、図１０に示したように、入力領域８５ａと、再生ボタン８５ｂと、保存ボタン８５ｃと、スライダー８５ｄと、溝８５ｅとが設けられている。

入力領域８５ａは、図９に示したキーボード８１等を操作して入力した文字情報を音声データ作成用の文字情報として受け付け、表示する領域である。

再生ボタン８５ｂは、入力領域８５ａに表示された文字情報を音声データに変換して再生するときに使用する。また、保存ボタン８５ｃは、入力領域に表示された文字情報を音声データに変換して保存、すなわち電子ファイルとして記憶装置に記憶させるときに使用する。

スライダー８５ｄは、入力領域８５ａに表示された文字情報を音声データに変換して再生する際の音声の強調度合いの指定に用いる。このスライダー８５ｄは、溝８５ｅに沿って左右に動かすことが可能であり、図１０に示した例では、スライダー８５ｄを溝８５ｅの左端（平静）に移動させたときの強調度合いが最も低く、溝８５ｅの右端（強調）に近づくほど強調度合いが高くなる。スライダー８５ｄを溝８５ｅに沿って移動させると、溝８５ｅの左端からの距離に応じてスライダー値が変化する。コンピュータ本体８０が音声データを作成する際には、スライダー８５ｄの位置に応じた強調度合いになるよう、スライダー値に基づいて平静時の音声パラメータと強調時の音声パラメータとをモーフィングする。

次に、コンピュータ本体８０を音声生成装置１として動作させた場合の機能ブロックの構成例を、図１１及び図１２を参照して説明する。

図１１は、第２の実施形態に係る音声生成装置の機能ブロック図である。図１２は、第２の実施形態における合成音声作成部の機能ブロック図である。

図１１に示すように、第２の実施形態に係る音声生成装置１（コンピュータ本体８０）は、入力データ処理部１２０と、モーフィング率決定部１２１と、変換テーブル１２２と、合成音声作成部１２３と、音声データベース１２４と、を備える。また、音声生成装置１は、表示制御部１２５と、テキストデータベース１２６と、を更に備える。

入力データ処理部１２０は、入力装置（キーボード）８１から入力されるテキストデータの受け付け処理、及び入力装置（マウス）８２から入力されるスライダー８５ｄの位置情報の受け付け処理を行う。入力データ処理部１２０は、入力されたテキストデータを表示制御部１２５渡すとともに、テキストデータベース１２６に記憶させる。また、入力データ処理部１２０は、入力されたスライダー８５ｄの位置情報（スライダー値）を表示制御部１２５に渡す。更に、入力データ処理部１２０は、マウス８２等からの再生ボタン８５ｂ又は保存ボタン８５ｃを押下する操作と対応した信号を受け付けると、スライダー値をモーフィング率決定部１２１に渡すとともに、テキストデータを合成音声作成部１２３に渡す。

表示制御部１２５は、表示装置８３の表示を制御する。表示制御部１２５は、例えば、入力データ処理部１２０から受け取ったテキストデータ及びスライダー値に基づいて、表示装置８３に表示させた作業ウインド８５における入力領域８５ａ内の表示やスライダー８５ｄの位置を変更する。

モーフィング率決定部１２１は、入力データ処理部１２０から受け取ったスライダー値と、変換テーブル１２２と、合成音声作成部１２３からのアクセント句境界を示す情報とに基づいて、モーフィング率を決定する。変換テーブル１２２は、スライダー値とモーフィング率との対応関係を示すテーブルである。また、アクセント句境界を示す情報は、現在スピーカ８４に出力した音声データの再生位置がアクセント句境界であるかを示す情報である。

合成音声作成部１２３は、入力データ処理部１２０から受け取ったテキストデータと、モーフィング率決定部１２１で決定したモーフィング率とに基づいて合成音声を作成する。また、合成音声作成部１２３は、作成した合成音声をスピーカ８４に出力する。更に、保存ボタン８５ｃを押下する操作に応じて合成音声を作成した場合、合成音声作成部１２３は、作成した合成音声を音声データベース１２４に記憶させる。なお、合成音声を音声データベース１２４に記憶させる場合、合成音声作成部１２３は、合成音声のデータをテキストデータベース１２６に記憶させたテキストデータと対応付けて記憶させる。

本実施形態の音声生成装置１におけるモーフィング率決定部１２１は、第１の実施形態と同様の方法で声質、基本周波数、及び継続長のモーフィング率を決定する。すなわち、モーフィング率決定部１２１は、図２に示したモーフィング率決定部１０１と同様、瞬時モーフィング率決定部と、アクセント句モーフィング率決定部と、声質モーフィング率決定部と、基本周波数モーフィング率決定部と、継続長モーフィング率決定部とを含む。

一方、本実施形態の音声生成装置１における合成音声作成部１２３は、テキストデータとモーフィング率とに基づいて合成音声の音声データを作成する。本実施形態の合成音声作成部１２３は、既知の音声合成方法の１つである、隠れマルコフモデル（ＨＭＭ）に基づいた合成方法により音声データを作成する。この合成音声作成部１２３は、図１２に示すように、言語処理部１２３ａと、平静音声パラメータ作成部１２３ｂと、強調音声パラメータ作成部１２３ｃと、モーフィング処理部１２３ｄと、分析合成部１２３ｅと、を含む。また、合成音声作成部１２３は、平静音声ＨＭＭパラメータ１２３ｆと、強調音声ＨＭＭパラメータ１２３ｇと、を更に含む。

言語処理部１２３ａは、テキストデータを読み・アクセントを表す表音テキストに変換する。

平静音声パラメータ作成部１２３ｂは、表音テキストと平静音声ＨＭＭパラメータ１２３ｆとに基づいて、平静時の音声についての音声パラメータを作成する。また、強調音声パラメータ作成部１２３ｃは、表音テキストと強調音声ＨＭＭパラメータ１２３ｇとに基づいて、強調時の音声についての音声パラメータを作成する。

モーフィング処理部１２３ｄは、平静時の音声についての音声パラメータと強調時の音声についての音声パラメータとをモーフィング率決定部１２１で決定したモーフィング率でモーフィングし、現在のフレームに対する音声パラメータを作成する。

分析合成部１２３ｅは、現在のフレームに対する音声パラメータを分析合成して音声波形に変換する。また、分析合成部１２３ｅは、現在のフレームにアクセント句の先頭が含まれる場合、アクセント句の先頭が含まれることを示す情報をモーフィング率決定部１２１に通知する。

次に、本実施形態の音声生成装置１（ホストコンピュータ８）における音声生成処理について説明する。

図１３Ａは、第２の実施形態に係る音声生成処理を示すフローチャート（その１）である。図１３Ｂは、第２の実施形態に係る音声生成処理を示すフローチャート（その２）である。

本実施形態に係る音声生成装置１は、図１０に示したような作業ウインド８５の再生ボタン８５ｂ又は保存ボタン８５ｃを押下する操作がなされたときに、入力領域８５ａに表示されたテキストを音声データに変換して再生する。このとき、音声生成装置１は、図１３Ａに示すように、まず、テキストデータの再生位置、及びスライダー値と再生位置との対応付けを初期化する（ステップＳ２１）。ステップＳ２１は、モーフィング率決定部１２１のアクセント句モーフィング率決定部（図示せず）が行う。

次に、音声生成装置１は、現時点のスライダー値を取得してモーフィング率決定部１２１に渡すとともに、テキストデータを合成音声作成部１２３に渡す（ステップＳ２２）。ステップＳ２２は、入力データ処理部１２０が行う。入力データ処理部１２０は、取得したスライダー値をモーフィング率決定部１２１の瞬時モーフィング率決定部及びアクセント句モーフィング率決定部（図示せず）に渡す。また、入力データ処理部１２０は、テキストデータを合成音声作成部１２３の言語処理部１２３ａに渡す。

ステップＳ２２の後、音声生成装置１は、モーフィング率決定処理（ステップＳ２３）、及び音声パラメータの作成処理を行う。モーフィング率決定処理（ステップＳ２３）は、モーフィング率決定部１２１が行う。モーフィング率決定部１２１は、図４Ａに示したステップＳ３ａ，Ｓ３ｂ及びステップＳ４ａ〜Ｓ４ｅと同様の処理により、声質、基本周波数、及び継続長のモーフィング率を決定する。なお、本実施形態で行うステップＳ２３の処理では、騒音レベルの代わりにスライダー値を用いる。また、モーフィング率決定部１２１は、決定した声質、基本周波数、及び継続長のモーフィング率を合成音声作成部１２３のモーフィング処理部１２３ｄに渡す。

一方、音声パラメータの作成処理は、合成音声作成部１２３が行う。合成音声作成部１２３は、まず、モーフィング率決定処理Ｓ２３と並行して、テキストデータを読み・アクセントを表す表音テキストに変換する処理（ステップＳ２４ａ）と、平静音声及び強調音声についての音声パラメータを作成する処理（ステップＳ２４ｂ）とを行う。

ステップＳ２４ａは、言語処理部１２３ａが行う。言語処理部１２３ａでは、既知の変換方法のいずれかによりテキストデータを表音テキストに変換する。

また、ステップＳ２４ｂは、平静音声パラメータ作成部１２３ｂ及び強調音声パラメータ作成部１２３ｃが行う。平静音声パラメータ作成部１２３ｂは、表音テキストと平静音声ＨＭＭパラメータ１２３ｆとに基づいて、強調度が最も低い平静時の音声についての音声パラメータを作成する。強調音声パラメータ作成部１２３ｃは、表音テキストと強調音声ＨＭＭパラメータ１２３ｇとに基づいて、強調度が最も高い強調時の音声についての音声パラメータを作成する。このステップＳ２４ｂの処理は、隠れマルコフモデルに基づく既知の音声パラメータの作成方法のいずれかにより行う。平静音声パラメータ作成部１２３ｂは、作成した音声パラメータをモーフィング処理部１２３ｄに渡す。同様に、強調音声パラメータ作成部１２３ｃは、作成した音声パラメータをモーフィング処理部１２３ｄに渡す。

モーフィング処理部１２３ｄは、音声パラメータ及びモーフィング率を受け取ると、図１３Ｂに示すように、受け取った音声パラメータとモーフィング率とに基づいてフレームに対する音声パラメータを作成する（ステップＳ２５）。モーフィング処理部１２３ｄは、既知の音声合成処理におけるモーフィング処理のいずれかによりフレームに対する音声パラメータを作成する。また、モーフィング処理部１２３ｄは、作成した音声パラメータを分析合成部１２３ｅに渡す。

分析合成部１２３ｅは、フレームに対する音声パラメータを分析合成してフレームの音声データ（音声波形）に変換する（ステップＳ２６）。分析合成部１２３ｅは、既知の音声合成処理における変換方法のいずれかにより、フレームの音声パラメータを音声データに変換する。

また、分析合成部１２３ｅは、得られた音声データを出力する（ステップＳ２７）。分析合成部１２３ｅは、得られた音声データをスピーカ８４に出力する。また、作業ウインド８５の保存ボタン８５ｃを押下する操作に応じた音声合成処理の場合、音声データを音声データベース１２４に記憶させる。

更に、分析合成部１２３ｅは、音声データを出力した後、フレームがテキストデータの終了位置に到達しているかを確認する（ステップＳ２８）。フレームがテキストデータの終了位置に到達していない場合（ステップＳ２８；Ｎｏ）、分析合成部１２３ｅは、次に、フレームにアクセント句境界が含まれるかを確認する（ステップＳ２９）。アクセント句境界が含まれる場合（ステップＳ２９；Ｙｅｓ）、分析合成部１２３ｅは、モーフィング率決定部１２１と協働して、再生位置を含むアクセント句の先頭を再生した時刻のスライダー値を現時点でのスライダー値に更新する（ステップＳ３０）。その後、分析合成部１２３ｅは、フレームを次のフレームに変更し（ステップＳ３１）、入力データ処理部１２０にステップＳ２２の処理を行わせる。以後、音声生成装置１は、フレームがテキストデータの終了位置に到達するまでステップＳ２２〜Ｓ３１を繰り返す。

そして、フレームがテキストデータの終了位置に到達した場合（ステップＳ２８；Ｙｅｓ）、分析合成部１２３ｅは最後のフレームの音声データを出力して処理を終了する。これにより、音声生成装置１は待機状態となる。待機状態の音声生成装置１は、作業ウインド８５の再生ボタン８５ｂ又は保存ボタン８５ｃを押下する操作と対応した信号を受信すると、再びテキストデータの生成及び出力処理を行う。

このように、本実施形態の音声生成処理では、テキストデータを音声データ（音声波形）に変換する際、声の張り方等の音声の強調度合いと相関がある声質のモーフィング率を現時点のスライダー値に基づいて決定する。そのため、音声データの所望の区間を容易に強調させることができる。例えば、図１０に示したように、作業ウインド８５の入力領域８５ａに「Ｃ言語ではポインタが重要です。」と入力して再生する場合、スピーカ８４からスライダー８５ｄの位置に応じた強調度の音声で「Ｃ言語ではポインタが重要です。」と出力される。この際、「ポインタが」というアクセント句の先頭でスライダー８５ｄを右側に移動させ、終了位置でスライダー８５ｄを左側に戻すと、「ポインタが」という部分を強調することができる。

また、本実施形態の音声生成処理では、アクセントとの相関がある基本周波数のモーフィング率をアクセント句の先頭を再生したときのスライダー値に基づいて決定する。そのため、アクセント句の再生中にスライダー値を変えてもアクセントは変わらない。よって、アクセント句のアクセントが変わってしまい再生音の内容を理解しづらくなることを防止できる。例えば、「Ｃ言語ではポインタが重要です。」というテキストデータを「ポインタが」というアクセント句が強調されるよう再生した場合、「ポインタが」の再生中にスライダー８５ｂの位置が変わってもアクセントは変わらない。

なお、本実施形態では隠れマルコフモデルに基づいて平静時及び強調時の音声パラメータを作成する場合を例に挙げたが、モーフィングに使用する２つの音声パラメータは、これに限らず、他の方法で作成してもよい。

以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
入力装置からの入力値に基づいて声質のモーフィング率及び基本周波数のモーフィング率を含む２以上のモーフィング率を決定するモーフィング率決定部と、
前記モーフィング率に基づく音声データを再生する音声再生部と、を備え、
前記モーフィング率決定部は、
前記音声データの各フレームを再生する時点における前記入力値に基づいて前記声質のモーフィング率を決定する第１のモーフィング率決定部と、
前記音声データのうち前記フレームを含むアクセント句の先頭のフレームを再生したときの前記入力値に基づいて前記基本周波数のモーフィング率を決定する第２のモーフィング率決定部と、を含む
ことを特徴とする音声生成装置。
（付記２）
前記モーフィング率決定部は、
前記第２のモーフィング率決定部で決定した前記基本周波数のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする付記１に記載の音声生成装置。
（付記３）
前記モーフィング率決定部は、
前記第１のモーフィング率決定部で決定した前記声質のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする付記１に記載の音声生成装置。
（付記４）
前記入力値は、装置外部の所定の区域における騒音レベルの値を含む、
ことを特徴とする付記１に記載の音声生成装置。
（付記５）
前記入力値は、予め定めた範囲内を移動可能なスライダーの前記範囲内における位置を示す値である、
ことを特徴とする付記１に記載の音声生成装置。
（付記６）
前記モーフィング率の組み合わせが異なる複数の音声データを記憶させた記憶部、を更に備え、
前記音声再生部は、
前記音声データの再生位置毎に、前記モーフィング率決定部で決定した前記モーフィング率の組み合わせに基づいて、前記記憶部から音声データを読み出して前記再生位置から出力する再生制御部を含む、
ことを特徴とする付記１に記載の音声生成装置。
（付記７）
前記音声生成装置は、所定の言語に基づくテキストデータに基づいて合成音声を作成する合成音声作成部、を備え、
前記合成音声作成部は、
所定の言語に基づくテキストデータを表音テキストに変換する言語処理部と、
声種の異なる２以上の変換パラメータに基づいて、前記表音テキストについての２以上の音声パラメータを作成する音声パラメータ作成部と、
前記２以上の音声パラメータを前記モーフィング率に基づいてモーフィングして前記合成位置に対する音声パラメータを作成するモーフィング処理部と、
モーフィング処理部で作成した音声パラメータを音声データに変換して出力する出力部と、
を含むことを特徴とする付記１に記載の音声合成装置。
（付記８）
コンピュータが、
出力対象の音声データにおける現時点の再生位置と、当該再生位置と対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む２以上のモーフィング率に基づいて音声データを生成する、
処理を実行することを特徴とする音声生成方法。
（付記９）
継続長のモーフィング率を前記基本周波数のモーフィング率と同じモーフィング率に決定し、
前記声質、前記基本周波数、及び前記継続長のモーフィング率に基づいて前記音声データを生成する、
ことを特徴とする付記８に記載の音声生成方法。
（付記１０）
継続長のモーフィング率を前記声質のモーフィング率と同じモーフィング率に決定し、
前記声質、前記基本周波数、及び前記継続長のモーフィング率に基づいて前記音声データを生成する、
ことを特徴とする付記８に記載の音声生成方法。
（付記１１）
前記音声データの前記再生位置毎に、前記声質及び基本周波数のモーフィング率に基づいて、予め用意された前記声質及び基本周波数のモーフィング率の組み合わせが異なる複数の音声データのいずれかを選択して前記音声データを生成する、
ことを特徴とする付記８に記載の音声生成方法。
（付記１２）
出力対象の音声データにおける現時点の再生位置と、当該再生位置に対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む２以上のモーフィング率に基づいて音声データを生成する、
処理をコンピュータに実行させるためのプログラム。

１音声合成装置
１００入力値処理部
１０１，１２１モーフィング率決定部
１０２，１２２変換テーブル
１０３音声再生部
１２３合成音声作成部
１０４，１２４音声データベース
１２０入力データ処理部
１２５表示制御部
１２６テキストデータベース
１０１ａ瞬時モーフィング率決定部
１０１ｂアクセント句モーフィング率決定部
１０１ｃ声質モーフィング率決定部
１０１ｄ基本周波数モーフィング率決定部
１０１ｅ継続長モーフィング率決定部
１０３ａ音声データ選択部
１０３ｂ再生制御部
１２３ａ言語処理部
１２３ｂ平静音声パラメータ作成部
１２３ｃ強調音声パラメータ作成部
１２３ｄモーフィング処理部
１２３ｅ分析合成部
１２３ｆ平静音声ＨＭＭパラメータ
１２３ｇ強調音声ＨＭＭパラメータ
２マイク
３，３Ａ，３Ｂ設備
４，８４スピーカ
５コンピュータ
５０プロセッサ
５１主記憶装置
５２補助記憶装置
５３入力装置
５４出力装置
５５通信インタフェース装置
６管理サーバ
８ホストコンピュータ
８０コンピュータ本体
８１キーボード
８２マウス
８３表示装置
８５作業ウインド
８５ａ入力領域
８５ｂ再生ボタン
８５ｃ保存ボタン
８５ｄスライダー
８５ｅ溝
９クライアント
１０通信ネットワーク

Claims

入力装置からの入力値に基づいて声質のモーフィング率及び基本周波数のモーフィング率を含む２以上のモーフィング率を決定するモーフィング率決定部と、
前記モーフィング率に基づく音声データを再生する音声再生部と、を備え、
前記モーフィング率決定部は、
前記音声データの各フレームを再生する時点における前記入力値に基づいて前記声質のモーフィング率を決定する第１のモーフィング率決定部と、
前記音声データのうち前記フレームを含むアクセント句の先頭のフレームを再生したときの前記入力値に基づいて前記基本周波数のモーフィング率を決定する第２のモーフィング率決定部と、を含む
ことを特徴とする音声生成装置。
前記モーフィング率決定部は、
前記第２のモーフィング率決定部で決定した前記基本周波数のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする請求項１に記載の音声生成装置。
前記モーフィング率決定部は、
前記第１のモーフィング率決定部で決定した前記声質のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする請求項１に記載の音声生成装置。
前記入力値は、装置外部の所定の区域における騒音レベルの値を含む、
ことを特徴とする請求項１に記載の音声生成装置。
前記モーフィング率の組み合わせが異なる複数の音声データを記憶させた記憶部、を更に備え、
前記音声再生部は、
前記音声データの再生位置毎に、前記モーフィング率決定部で決定した前記モーフィング率の組み合わせに基づいて、前記記憶部から音声データを読み出して前記再生位置から出力する再生制御部を有する、
ことを特徴とする請求項１に記載の音声生成装置。
前記音声生成装置は、所定の言語に基づくテキストデータに基づいて合成音声を作成する合成音声作成部、を備え、
前記合成音声作成部は、
所定の言語に基づくテキストデータを表音テキストに変換する言語処理部と、
声種の異なる２以上の変換パラメータに基づいて、前記表音テキストについての２以上の音声パラメータを作成する音声パラメータ作成部と、
前記２以上の音声パラメータを前記モーフィング率に基づいてモーフィングして前記合成位置に対する音声パラメータを作成するモーフィング処理部と、
モーフィング処理部で作成した音声パラメータを音声データに変換して出力する出力部と、
を含むことを特徴とする請求項１に記載の音声合成装置。
コンピュータが、
出力対象の音声データにおける現時点の再生位置と、当該再生位置と対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む２以上のモーフィング率に基づいて音声データを生成する、
処理を実行することを特徴とする音声生成方法。
出力対象の音声データにおける現時点の再生位置と、当該再生位置と対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む２以上のモーフィング率に基づいて音声データを生成する、
処理をコンピュータに実行させるためのプログラム。