JP6922306B2

JP6922306B2 - 音声再生装置、および音声再生プログラム

Info

Publication number: JP6922306B2
Application number: JP2017056326A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山; 久湊　裕司; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2021-08-18
Anticipated expiration: 2037-03-22
Also published as: JP2018159777A

Description

本発明は、音声再生技術に関する。

音声再生技術の応用例として、人と機械による音声インタラクション或いは機械と機械による音声インタラクションが挙げられる。人と機械による音声インタラクションの一例としては、音声による利用者の問いに対してその問いに対する回答の音声を合成して再生する音声対話システムが挙げられる。機械と機械による音声インタラクションの一例としては、予め定められたシナリオにしたがって音声再生装置Ａにより再生された問いの音声を、音声再生装置Ｂが認識して回答の音声を再生することが挙げられ、具体的には登場人物の全てを機械（音声再生装置）が演じる演劇や漫才が挙げられる。音声による問いに対する回答の音声を合成する際には、利用者の音声による問いに対して不自然さのない人間らしい受け答えを実現するために、意図を込めた回答の音声を再生することが好ましい。例えば、特許文献１に開示の技術では、回答に込められた意図を表現するために、肯定的な回答と否定的な回答とで語尾の音高を異ならせている。

特開２０１５−０６４４８０号公報

しかし、特許文献１に開示の技術のように回答の語尾の音高の調整だけでは、多彩な意図を表現することはできない。多様な意図の各々について意図毎に回答の音声データを用意しておけば豊かな意図表現が可能となるが、音声データを記憶する記憶装置の記憶容量が増加する、といった問題がある。

本発明は以上に説明した課題に鑑みて為されたものであり、回答の音声データの記憶に要する記憶容量の増加を抑えつつ、豊かな意図の表現を可能にする技術を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る音声再生装置は、入力された音声信号の表す問いに対する回答の音声データを取得する回答取得部と、前記回答に付与する意図を指定する意図指定部と、前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、を具備することを特徴とする。

韻律の時間変化とは、音高、話速、音量および発話タイミングといった各韻律構成要素の時間変化のことを言う。なお、話速とは、単位時間当たりに発音される音素数のことを言う。人は、問いに対する回答を発話する際に、その回答に込める意図に応じて韻律の時間変化を調整することで、「気楽」や「慎重」、或いは「怒り」や「あきれ」などの多彩な意図を表現する。本態様によれば、回答に込める意図に応じて、韻律の時間変化をきめ細かく制御した回答の音声を再生することが可能になり、豊かな意図の表現が可能になる。ここで、韻律制御データは、音高、話速、音量および発話タイミングといった韻律構成要素の各時刻（回答の語頭を起算点とする時刻）における韻律構成要素の変化量の配列、すなわちシーケンスデータであれば良く、音声の波形データに比較してデータ量が少ない。このため、回答毎に各意図に応じた韻律制御データを記憶装置に予め記憶させておくとしても、異なる意図を込めて発音された各回答の音声データを記憶装置へ記憶させておく態様に比較して少ない記憶容量で対応可能である。つまり、本態様によれば、回答の音声データの記憶に要する記憶容量の増加を抑えつつ、豊かな意図の表現が可能になる。なお、回答には、問いに対する具体的な答えに限られず、相槌（間投詞）も含まれる。また、回答には、問に対する答えや相槌の他、演劇や漫才における掛け合いの台詞も含まれ、人による声のほかにも、「ワン」（bowwow）、「ニャー」（meow）などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。

より好ましい態様においては、前記韻律制御データが意図毎に格納されたデータベースを有し、前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データを前記データベースから取得する。また、別の好ましい態様においては、前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得することを特徴とする。このような態様によれば、上記データベースの記憶容量の増加を抑えつつ、さらに豊な意図表現が可能になる。また、別の好ましい態様においては、前記入力された音声信号を解析して前記問いに付与されている意図を特定する意図特定部を有し、前記意図指定部は、前記意図特定部により特定された意図に応じて前記回答に付与する意図を指定することを特徴とする。このような態様によれば、問いに込められた意図に応じた意図を込めた回答の音声を再生することが可能になる。

本発明の態様について、音声再生装置のみならず、コンピュータを当該音声再生装置として機能させるプログラムとして概念することも可能である。

実施形態に係る音声再生装置の構成を示すブロック図である。意図を込められた回答における韻律の時間変化の一例を示す図である。音声再生装置の動作を示すフローチャートである。

以下、図面を参照しつつ、この発明の実施形態を説明する。
（Ａ：構成）
図１は、本発明の実施形態に係る音声再生装置１０の構成を示す図である。
この音声再生装置１０は、例えば、ぬいぐるみに組み込まれる装置である。音声再生装置１０は、利用者が当該ぬいぐるみに問いを発したときに、利用者により指定された意図を込めた回答の音声を合成して再生する。人は、問いに対する回答を発話する際に、その回答に込める意図に応じて韻律の時間変化を調整することで、「気楽」や「慎重」、或いは「怒り」や「あきれ」などの多彩な意図を表現する。例えば、図２には、特定の意図を込めずに発音された「あのさ」という基準音声の時間波形ＴＷと、「気楽さ」を込めた「あのさ」という音声の基準音声からの韻律の変化パターンＰ１と、「慎重さ」を込めた「あのさ」という音声の基準音声からの韻律の変化パターンＰ２と例示されている。なお、図２では、「音高」、「話速」および「音量」の各韻律構成要素の基準音声からの変化量が、三角形の重心から各頂点へ至る座標軸上の位置で表されており、上記重心から遠ざかるほど、基準音声に比較して音高が高いこと、話速が早いこと、音量が大きいことを意味する。

音声再生装置１０は、ＣＰＵ（Central Processing Unit）や、音声入力部１０２、スピーカ１１４を有し、予めインストールされたアプリケーションプログラムを当該ＣＰＵが実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声再生装置１０では、言語解析部１０４、回答取得部１０６、意図指定部１０８、韻律制御データ取得部１１０、および回答再生部１１２が構築される。なお、特に図示しないが、このほかにも音声再生装置１０は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定を行えるようになっている。また、音声再生装置１０は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。

音声入力部１０２は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するＡ／Ｄ変換器とで構成される。言語解析部１０４は、音声入力部１０２から入力される音声信号で規定される問いの意味内容を解析し、その解析結果（すなわち、上記問いの意味内容）を示す意味内容データを回答取得部１０６に与える。

回答ライブラリ１２４は、利用者による問いに対する回答を一意に示す識別子（以下、回答識別子）とその回答の音声データの組を、予め複数格納したデータベースである。この音声データは、モデルとなる人物の音声を録音したものであり、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する返事や相槌などである。回答の音声データについては、例えばｗａｖやｍｐ３などのフォーマットである。また、回答識別子の具体例としては、「はい」や「いいえ」など回答の内容を表す文字列や一連番号が挙げられる。なお、問いに対する回答は返事や相槌には限定されず、例えば、「今日の天気は？」という問いに対する「晴れです。」といった答えのように、問いにより要求された情報を提示する文章であっても良い。

回答取得部１０６は、言語解析部１０４から与えられる意味内容データにより意味内容が表される問いに対する回答の回答識別子と音声データを、回答ライブラリ１２４から１つを選択し、当該選択した回答識別子および音声データを回答ライブラリ１２４から読み出して取得する。そして、回答取得部１０６は、回答ライブラリ１２４から取得した回答識別子を韻律制御データ取得部１１０へ出力し、回答ライブラリ１２４から取得した音声データを回答再生部１１２へ出力する。本実施形態の回答取得部１０６は、言語解析部１０４から出力され得る意味内容データに対応づけて、その意味内容データの表す意味内容の問いに対して相応しい回答の回答識別子を格納したテーブルを備えている。回答取得部１０６は、上記テーブルの格納内容を参照して上記意味内容データの表す意味内容の問いに対して相応しい回答を１つ選択する。

本実施形態では、問いの意味内容に応じて回答を選択する態様について説明するが、問いの意味内容とは無関係にランダムに回答を選択しても良い。この場合、言語解析部１０４および上記テーブルは不要である。具体的には、音声入力部１０２の出力信号を回答取得部１０６に与え、回答取得部１０６には、音声入力部１０２からの音声信号の受信を契機として、回答ライブラリ１２４から回答識別子および音声データをランダムに読み出す処理を実行させれば良い。

韻律ライブラリ１２２は、回答ライブラリ１２４に格納されている複数の回答識別子の各々に対応付けて、その回答識別子の示す回答に込める意図毎にその意図を示す識別子（以下、意図識別子）とその意図に応じた当該回答における韻律の時間変化を規定する韻律制御データと、を格納したデータベースである。ここで、韻律制御データは、音高、話速、および音量といった韻律構成要素の各時刻（回答の語頭を起算点とする時刻）における変化量の配列、すなわちシーケンスデータである。また、意図識別子の具体例としては、「怒り」や「あきれ」など意図の内容を表す文字列が挙げられる。

韻律制御データについては、次の要領で作成することが考えられる。例えば、「あのさ」という回答であれば、特定の意図を込めずに平板に発音された「あのさ」という音声の波形データを基準データとし、「怒り」や「あきれ」などの特定の意図を込めて発音された「あのさ」という音声の波形データを上記基準データと比較して音高、話速および音量などの韻律の構成要素毎に各時刻における基準データからの差分（オフセット）を算出し、構成要素毎に当該差分を時刻順に並べて韻律制御データとすることが考えられる。この場合、回答ライブラリ１２４には、回答の音声データとして、特定の意図を込めずに平板に発音された音声の音声データを格納しておけば良い。なお、特定の意図を込めて発音された音声の波形データを基準データとし、他の意図を込めて発音された音声についての韻律制御データを生成しても良く、この場合は、回答の音声データとして当該特定の意図を込めて発音された音声の音声データを回答ライブラリ１２４に格納しておけば良い。

意図指定部１０８は、問いに対する回答に込める意図として、意図識別子および韻律制御データが韻律ライブラリ１２２に格納されている各意図のうちの１つを利用者に指定させる装置である。例えば、意図指定部１０８は、意図識別子のリストを表示部（図１では図示略）に表示させ、操作入力部（図１では図示略）に対する操作により指定された意図識別子を韻律制御データ取得部１１０に与える。

韻律制御データ取得部１１０は、意図指定部１０８から与えられた意図識別子と回答取得部１０６から与えられた回答識別子に対応する韻律制御データを韻律ライブラリ１２２から読み出して取得する。韻律制御データ取得部１１０は、韻律ライブラリ１２２から読み出した韻律制御データを回答再生部１１２へ与える。

回答再生部１１２は、回答取得部１０６から与えられた音声データの表す音声を、韻律制御データ取得部１１０から与えられた韻律制御データにしたがって音高、話速および音量の各韻律構成要素の時間変化を別個独立に制御して、再生（合成）する。
以上が音声再生装置１０の構成である。

（Ｂ：動作）
次に、音声再生装置１０の動作について説明する。
図３は、音声再生装置１０における処理動作を示すフローチャートである。本実施形態では、音声再生装置１０が適用されたぬいぐるみに対して、利用者が音声で問いを発したときに、このフローチャートで示される処理が起動される。

利用者が音声で問いを発すると、その問いの音声は音声入力部１０２によって音声信号に変換され、当該音声信号が音声入力部１０２から言語解析部１０４に供給される。ステップＳａ１１において言語解析部１０４は、音声入力部１０２から供給される音声信号をメモリ等に蓄積し、音声による問いが終了したか否かを判別する。問いが終了したか否かについては、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。問いが終了していなければ（ステップＳａ１１の判別結果が「Ｎｏ」であれば）、言語解析部１０４はステップＳａ１１の処理を再度実行し、問いの発話終了を待ち受ける。

ステップＳａ１１の判別結果が「Ｙｅｓ」の場合に実行されるステップＳａ１２では、言語解析部１０４は、メモリ等に蓄積した音声信号の規定する問いの意味内容を解析してその解析結果を示す意味内容データを回答取得部１０６に与える。本実施形態では、問いの発話が終了したか否かの判別と、問いの意味解析と、をシーケンシャルに実行するが、両者を並列に逐次実行しても良い。このようにすることで、問いの発話終了から意味解析完了までの遅延を軽減することができる。ステップＳａ１２に後続するステップＳａ１３では、回答取得部１０６は、上記意味内容データにより意味内容が表される問いに対する回答の回答識別子および音声データを回答ライブラリ１２４から取得し、前者を韻律制御データ取得部１１０に与え、後者を回答再生部１１２に与える。

ステップＳａ１３に後続するステップＳａ１４では、回答再生部１１２は、回答を再生中であるか否かを判別する。ステップＳａ１４において、回答再生部１１２によって回答が再生中であると判別される場合とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。回答が再生中であれば（ステップＳａ１４の判別結果が「Ｙｅｓ」であれば）、回答再生部１１２は、ステップＳａ１４の判別結果が「Ｎｏ」になるまで、ステップＳａ１４の処理を再度実行する。ステップＳａ１４の判別結果が「Ｎｏ」である場合は、意図指定部１０８は回答に込める意図を利用者に指定させ、利用者により指定された意図を示す意図識別子を韻律制御データ取得部１１０へ出力する（ステップＳａ１５）。ステップＳａ１５に後続するステップＳａ１６では、韻律制御データ取得部１１０は、意図指定部１０８から与えられる意図識別子と回答取得部１０６から与えられた回答識別子とに対応する韻律制御データを韻律ライブラリ１２２から取得し、取得した韻律制御データを回答再生部１１２に通知して回答取得部１０６により選択された回答の音声データの再生を指示する。この指示にしたがって回答再生部１１２は、韻律制御データ取得部１１０から与えられた韻律制御データにしたがって、音高、話速および音量の各韻律構成要素の時間変化を別個独立に制御しつつ、上記音声データの表す音声を再生する（ステップＳａ１７）。

例えば、ステップＳａ１３にて「あのさ」という回答が選択され、ステップＳａ１５にて「気楽」という意図が指定された場合には、ステップＳａ１７では、図２の時間変化パターンＰ１で韻律が時間変化する音声が合成され、この音声を聴いた利用者は当該音声における韻律の時間変化から「気楽さ」を感じ取る。一方、ステップＳａ１３にて「あのさ」という回答が選択され、ステップＳａ１５にて「慎重」という意図が指定された場合には、ステップＳａ１７では、図２の時間変化パターンＰ２で韻律が時間変化する音声が合成され、この音声を聴いた利用者は当該音声における韻律の時間変化から「慎重さ」を感じ取る。

このように、本実施形態によれば、回答に込める意図に応じて韻律の時間変化をきめ細かく制御した回答音声を再生することができ、豊かな意図の表現が可能になる。本実施形態の音声再生装置１０では、回答ライブラリ１２４の他に韻律ライブラリ１２２を記憶装置等に記憶させておくことが必要となる。しかし、韻律ライブラリ１２２に格納される韻律制御データはシーケンスデータであるため、各回答について様々な意図を込めた音声の音声データの総和に比較して合計データ量は小さくなる。このため、これらの音声データの全てを記憶させておく態様に比較して記憶装置の記憶容量の増加を抑えることができる。つまり、本実施形態によれば、回答の音声の合成に要するデータを記憶する記憶装置の記憶容量の増加を抑えつつ、豊かな意図の表現が可能になる。なお、上記実施形態では、音高、話速、および音量の時間変化を制御する場合について説明したが、さらに発話タイミングの制御も行うようにしても良い。

（Ｃ：変形および応用例）
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

＜音声入力部＞
上記実施形態では、音声入力部１０２は、利用者の音声（発言）をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られない。すなわち、音声入力部１０２は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、音声入力部１０２は、他の処理部で処理された音声信号や、他の装置から供給（または転送された）音声信号を入力する構成、さらには、ＬＳＩに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。また、音声再生装置１０に対する問い掛けは、音声による問い掛けには限定されず、問いを書き下した文を表すテキストデータの入力であっても良い。この場合、音声入力部１０２に代えてテキストデータ入力部を音声再生装置１０に設けて置けば良い。

＜韻律の制御単位＞
上記実施形態では、問いに対する回答の音声データ単位で韻律制御データを用意しておき、音声データ単位で回答音声の韻律の時間変化を制御した。しかし、韻律制御データを回答の音声を構成する音素単位、回答の音声をサンプリングして音声データを生成する際の波形サンプル単位、或いは回答の音声を所定時間のフレームに区切った場合のフレーム単位で韻律制御データを用意しておき、これらを単位として韻律の時間変化を制御しても良い。

＜意図の指定のバリエーション＞
上記実施形態では、問いに対する回答に込める意図を利用者に１つだけ指定させたが、例えば、「あきれ」と「気楽に」とを指定するといった具合に、複数の意図を利用者に指定させても良い。この場合、意図指定部１０８には、利用者により指定された複数の意図の各々を示す意図識別子を韻律制御データ取得部１１０へ出力させる。このように利用者により指定された複数の意図に直接対応する１つの韻律制御データは韻律ライブラリ１２２には格納されていない。そこで、韻律制御データ取得部１１０には、これら複数の意図識別子の各々に対応する韻律制御データを取得し、それら複数の韻律制御データを用いた補間により１つの韻律制御データを生成させるようにすれば良い。具体的には、韻律制御データ取得部１１０は、上記の要領で取得した複数の韻律制御データを、例えば１：１などの重み付け加算して新たな韻律制御データを生成し、当該新たな韻律制御データを回答再生部１１２へ出力し回答の音声を合成させる。

このような態様によれば、利用者により指定された複数の意図の中間の意図に対応する回答の音声を合成することができると考えられる。一般に、「あきれた」感じで発音された「あのね」という音声の波形データと「気楽な」感じで発音された「あのね」という音声の波形データとを重み付け加算しても、「気楽さを伴いつつあきれた」感じの音声の波形データは得られないが、韻律制御データはシーケンスデータであるため、重み付け加算により中間の意図を表す韻律制御データを生成できるからである。同様に、特定の意図を込めずに平板に発音することも意図の一態様と考え、「平板」と「慎重」とを指定することで、「やや慎重」といった「平板」と「慎重」の中間の意図に対応する韻律制御データを生成することもできる。

複数の意図を利用者に指定させる態様においては、上記重み付け加算における各意図の重みについても利用者に指定させても良く、さらに韻律構成要素毎の重みを利用者に指定させても良い。「怒り」や「あきれ」とではその意図を演出する際の各韻律構成要素の重要度が異なり得るからである。また、「気楽さを伴いつつあきれた」感じなど複数の意図の中間な意図を利用者に指定させ、このような中間な意図を複数の意図に分解して各意図に対応する韻律制御データを韻律制御データ取得部１１０に取得させるようにしても良い。要は、意図指定部１０８により指定された意図に対応する韻律制御データが韻律ライブラリ１２２（データベース）に格納されていない場合には、当該データベースに格納されている複数の韻律制御データを用いた補間により上記指定された意図に対応する韻律制御データを韻律制御データ取得部１１０に取得させる態様であれば良い。

上記実施形態では、音声再生装置１０への問い掛け毎にその問いに対する回答に込める意図を利用者に指定させたが、常に同じ意図を込めた回答の音声が合成されるように、回答に込める意図を予め利用者に指定させておいても良い。また、予め定められたシナリオにしたがって回答を合成する場合、そのシナリオの進行にしたがって意図の指定が行われるようにしても良い。具体的には、回答に込める意図の意図識別子が当該回答の再生順に配列されたシナリオデータを意図指定部１０８へ入力し、音声入力部１０２から問いの音声が入力される毎に意図指定部１０８には当該シナリオデータに含まれている意図識別子をその記載順に取得して韻律制御データ取得部１１０へ出力させるようにすれば良い。

また、音声再生装置１０或いは当該音声再生装置１０の埋め込まれたぬいぐるみを擬人化した回答キャラクタについて「常に気楽な感じ」或いは「常に慎重さを失わない」などの人格や雰囲気、話し方の特性（以下、キャラクタ特性）を予め複数用意しておき、キャラクタ特性毎にそのキャラクタ特性に応じた意図識別子を対応付けておき、利用者には回答キャラクタのキャラクタ特性を指定させることで回答に込める意図を指定させるようにしても良い。また、各々異なるキャラクタ特性を有する複数の回答キャラクタを用意しておき、利用者に回答キャラクタを指定させることで回答に込める意図を指定させても良い。問いに対する回答をシナリオにしたがって合成する場合には、シナリオの登場人物毎にキャラクタ特性を定めておけば良い。さらに、１つの回答キャラクタに対して複数のキャラクタ特性を対応付けておき、何れのキャラクタ特性で回答の音声を合成するのかをシナリオにおいて定めておき、１つの回答キャラクタの経年変化や、本音と建て前の使い分けを演出しても良い。

また、問いの音声信号を解析して当該問いに付与されている意図を特定する意図特定部を設け、意図指定部１０８には、意図特定部により特定された意図に応じて上記問い対する回答に付与する意図を指定させても良い。具体的には、回答の音声データが回答ライブラリ１２４に格納されている各問いについて、その問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとして意図特定部に予め記憶させておき、意図特定部には、音声入力部１０２から入力された音声信号を波形データに変換して対応する基準データと比較することで、当該波形データの表す音声における韻律を表す韻律規定データ（上記韻律制御データと同一フォーマットのデータ）を生成させる。そして、意図特定部は、当該韻律規定データと同じまたは当該韻律規定データに近似する韻律制御データに対応する意図識別子を韻律ライブラリ１２２から読み出して意図指定部１０８に与える。意図指定部１０８には、意図特定部から与えられた意図識別子と予め定められた特定の関係にある意図識別子を韻律制御データ取得部１１０に出力させるようにすれば良い。ここで、上記特定の関係とは、例えば「気楽」に対する「慎重」のように反対の意図の関係や、同じ意図の関係が考えられる。上記特定の関係として「同じ意図の関係」を採用する場合には、意図特定部から与えられた意図識別子をそのまま韻律制御データ取得部１１０へ出力する処理を意図指定部１０８に実行させるようにすれば良い。

＜問いに対する意図の込め方の評価・採点＞
意図特定部を設ける態様においては、意図特定部により特定された意図と韻律ライブラリ１２２の格納内容とを比較することにより、問いに対する意図の込め方を評価、採点するようにしても良い。具体的には、「怒り」や「あきれ」などの意図を込めて利用者は発話した問いについて、当該利用者が問いに込めた意図が意図特定部により特定されたか否か、或いは、意図特定部により問いの音声信号から生成された韻律規定データと当該意図について韻律ライブラリ１２２に格納されている韻律制御データとの比較結果に応じて、当該意図の込め方の適否を評価・採点するようにすれば良い。この態様によれば、問いに対する意図の込め方の練習を支援することが可能になる。

＜その他＞
上記実施形態にあっては、発言に対する回答を取得する構成である言語解析部１０４、韻律ライブラリ、および回答ライブラリを音声再生装置１０の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。また、上記実施形態では、利用者の音声による問いに対する回答の音声を合成して再生し音声対話を実現する音声再生装置への本発明の適用例を説明したが、演劇や漫才などにおける各役を演じる音声再生装置に本発明を適用しても良い。

１０２…音声入力部、１０４…言語解析部、１０６…回答取得部、１０８…意図指定部、１１０…韻律制御データ取得部、１１２…回答再生部、１２２…韻律ライブラリ、１２４…回答ライブラリ。

Claims

入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部と、
前記問いに対する回答の音声データを取得する回答取得部と、
前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部と、
前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、
前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、を備え、
前記意図特定部は、前記音声信号の表す問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとし、前記音声信号を変換して得られる波形データと前記基準データとを比較することで前記音声信号の表す問いにおける韻律の時間変化を表す韻律規定データを生成し、前記問いかけ元の意図を前記韻律規定データに応じて特定することにより、前記音声信号の表す問いの音声における韻律の時間変化に基づいて前記問いかけ元の意図を特定し、
前記意図指定部は、前記意図特定部により特定された意図と予め定められた特定の関係にある意図を、前記回答に付与する意図として指定する、
ことを特徴とする音声再生装置。
前記韻律制御データが意図毎に格納されたデータベースを有し、
前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データを前記データベースから取得する
ことを特徴とする請求項１に記載の音声再生装置。
入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部と、
前記問いに対する回答の音声データを取得する回答取得部と、
前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部と、
前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、
前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、
前記韻律制御データが意図毎に格納されたデータベースと、を有し、
前記韻律制御データ取得部は、前記意図指定部により指定された意図に対応する韻律制御データを前記データベースから取得し、前記意図指定部により指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得する
ことを特徴とする音声再生装置。
コンピュータを、
入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部であって、前記音声信号の表す問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとし、前記音声信号を変換して得られる波形データと前記基準データとを比較することで前記音声信号の表す問いにおける韻律の時間変化を表す韻律規定データを生成し、前記問いかけ元の意図を前記韻律規定データに応じて特定することにより、前記音声信号の表す問いの音声における韻律の時間変化に基づいて前記問いかけ元の意図を特定する意図特定部と、
前記問いに対する回答の音声データを取得する回答取得部と、
前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部であって、前記意図特定部により特定された意図と予め定められた特定の関係にある意図を、前記回答に付与する意図として指定する意図指定部と、
前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部と、
前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、
して機能させることを特徴とする音声再生プログラム。
コンピュータを、
入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定部と、
前記問いに対する回答の音声データを取得する回答取得部と、
前記回答に付与する意図を、前記意図特定部により特定された意図に応じて指定する意図指定部と、
前記意図指定部により指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得部であって、前記韻律制御データが意図毎に格納されたデータベースから前記意図指定部により指定された意図に対応する韻律制御データを取得し、前記意図指定部により指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得する韻律制御データ取得部と、
前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生部と、
して機能させることを特徴とする音声再生プログラム。
入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定ステップであって、前記音声信号の表す問いを特定の意図を込めることなく平板に発音した音声の波形データを基準データとし、前記音声信号を変換して得られる波形データと前記基準データとを比較することで前記音声信号の表す問いにおける韻律の時間変化を表す韻律規定データを生成し、前記問いかけ元の意図を前記韻律規定データに応じて特定することにより、前記音声信号の表す問いの音声における韻律の時間変化に基づいて前記問いかけ元の意図を特定する意図特定ステップと、
前記問いに対する回答の音声データを取得する回答取得ステップと、
前記回答に付与する意図を、前記意図特定ステップにて特定された意図に応じて指定する意図指定ステップであって、前記意図特定ステップにて特定された意図と予め定められた特定の関係にある意図を、前記回答に付与する意図として指定する意図指定ステップと、
前記意図指定ステップにて指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得ステップと、
前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生ステップと、
を含むことを特徴とする音声再生方法。
入力された音声信号を解析し、前記音声信号の表す問いに込められている問いかけ元の心理状態を前記問いかけ元の意図として特定する意図特定ステップと、
前記問いに対する回答の音声データを取得する回答取得ステップと、
前記回答に付与する意図を、前記意図特定ステップにて特定された意図に応じて指定する意図指定ステップと、
前記意図指定ステップにて指定された意図に応じた韻律の時間変化を表す韻律制御データを取得する韻律制御データ取得ステップであって、前記韻律制御データが意図毎に格納されたデータベースから前記意図指定ステップにて指定された意図に対応する韻律制御データを取得し、前記意図指定ステップにて指定された意図に対応する韻律制御データが前記データベースに格納されていない場合には、当該韻律制御データを前記データベースに格納されている複数の韻律制御データを用いた補間により取得する韻律制御データ取得ステップと、
前記音声データに基づく韻律の時間変化を前記韻律制御データにしたがって制御した回答の音声を再生する回答再生ステップと、
を含むことを特徴とする音声再生方法。