JP6657888B2

JP6657888B2 - 音声対話方法、音声対話装置およびプログラム

Info

Publication number: JP6657888B2
Application number: JP2015238912A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2020-03-04
Anticipated expiration: 2035-12-07
Also published as: JP2017106989A

Description

本発明は、発話音声に対する応答音声を再生する音声対話の技術に関する。

利用者による発話に対する応答（例えば質問に対する回答）の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献１には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。

特開２０１２−１２８４４０号公報

しかし、特許文献１を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声対話装置は、発話音声を表す発話信号を取得する音声取得部と、発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部とを具備する。以上の態様では、発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とが選択的に再生装置から再生される。したがって、発話者の発話に対する相鎚だけでなく発話者に対する問返し（聞き直し）も適宜に発生するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

本発明の好適な態様に係る音声対話装置は、発話音声の韻律を表す韻律指標値を発話信号から特定する音声解析部を具備し、応答生成部は、発話音声の韻律指標値と閾値とを比較し、比較の結果に応じて第１応答音声および第２応答音声の何れかを選択する。以上の態様では、発話音声の韻律を表す韻律指標値を閾値と比較した結果に応じて第１応答音声および第２応答音声の何れかが選択されるから、発話音声の韻律が変動した場合に発話音声の聴取が困難となり問返しの可能性が高まる、という現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

本発明の好適な態様において、音声解析部は、過去の複数の発話音声における韻律指標値の代表値を閾値として設定する。以上の態様では、過去の複数の発話音声における韻律指標値の代表値が閾値として設定されるから、発話者の発話音声の韻律が当該発話者の標準的な韻律（すなわち対話相手が想定する韻律）から乖離する場合に対話相手からの問返しが発生し易いという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

本発明の好適な態様において、応答生成部は、韻律指標値が、閾値を含む所定範囲の外側の数値である場合に第１応答音声を選択し、所定範囲の内側の数値である場合に第２応答音声を選択する。以上の態様では、韻律指標値が所定範囲の外側の数値である場合に第１応答音声が選択され、所定範囲の内側の数値である場合に第２応答音声が選択されるから、過度に高い頻度で第１応答音声が再生される可能性を低減することが可能である。

本発明の好適な態様において、応答生成部は、複数の発話音声からランダムに選択された発話音声に対して第１応答音声を再生させる。以上の態様では、複数の発話音声からランダムに選択された発話音声に対して第１応答音声が再生されるから、発話音声に対する問返しがランダムに発生するという現実の音声対話の傾向を模擬した自然な音声対話を実現することが可能である。例えば、応答生成部は、複数の発話音声に対する第１応答音声の再生頻度を可変に設定する。音声対話の利用履歴に応じて第１応答音声の再生頻度を設定することも可能である。

第１実施形態の音声対話装置の構成図である。第１実施形態における音声対話装置の動作のフローチャートである。第１実施形態における発話音声および応答音声の説明図である。第１実施形態における発話音声および応答音声の説明図である。第１実施形態の応答生成処理のフローチャートである。第２実施形態の音声対話装置の構成図である。第２実施形態における発話音声および応答音声の説明図である。第２実施形態における発話音声および応答音声の説明図である。第２実施形態における応答生成処理のフローチャートである。第３実施形態の音声対話装置の構成図である。第３実施形態における音声対話装置の動作のフローチャートである。第３実施形態における応答生成処理のフローチャートである。第３実施形態における発話音声および応答音声の説明図である。第３実施形態における発話音声および応答音声の説明図である。第４実施形態の音声対話装置の構成図である。第４実施形態における音声対話装置の動作のフローチャートである。第４実施形態における応答生成処理のフローチャートである。第４実施形態における発話音声および応答音声の説明図である。第４実施形態における発話音声および応答音声の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声対話装置１００Aの構成図である。第１実施形態の音声対話装置１００Aは、利用者Ｕが発音した音声（以下「発話音声」という）Ｖxに対する応答の音声（以下「応答音声」という）Ｖyを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置１００Aとして利用され得る。また、動物等の外観を模擬した玩具（例えば動物のぬいぐるみ等の人形）やロボットの形態で音声対話装置１００Aを実現することも可能である。

発話音声Ｖxは、例えば問掛け（質問）および話掛けを含む発話の音声であり、応答音声Ｖyは、問掛けに対する回答や話掛けに対する受応えを含む応答の音声である。応答音声Ｖyには、例えば間投詞を意味する音声も包含される。間投詞は、他の分節から独立して利用されて活用のない自立語（感動詞，感嘆詞）である。具体的には、発話に対する相鎚を表す「うん」「ええ」等の語句や、言淀み（応答の停滞）を表す「え〜と」「あの〜」等の語句、応答（質問に対する肯定／否定）を表す「はい」「いいえ」等の語句、話者の感動を表す「ああ」「おお」等の語句、あるいは、発話に対する問返し（聞き直し）を意味する「え？」「なに？」等の語句が、間投詞として例示され得る。

第１実施形態の音声対話装置１００Aは、発話音声Ｖxの韻律に応じた韻律の応答音声Ｖyを生成する。韻律（プロソディ）は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記（例えば韻律を表す特別な表記を除いた表記）のみからでは把握できない性質を意味する。韻律は、発話者の意図や感情を受聴者に想起ないし推測させ得る特性とも換言され得る。具体的には、抑揚（音声の調子の変化，イントネーション），音調（音声の高低や強弱），音長（発話長），話速，リズム（音調の時間的な変化の構造），アクセント（高低または強弱のアクセント）等の種々の特徴が、韻律の概念には包含され得るが、韻律の典型例は音高（基本周波数）または音量である。

図１に例示される通り、第１実施形態の音声対話装置１００Aは、制御装置２０と記憶装置２２と音声入力装置２４と再生装置２６とを具備する。音声入力装置２４は、例えば利用者Ｕの発話音声Ｖxを表す音声信号（以下「発話信号」という）Ｘを生成する要素であり、収音装置２４２とＡ/Ｄ変換器２４４とを具備する。収音装置（マイクロホン）２４２は、利用者Ｕが発音した発話音声Ｖxを収音して当該発話音声Ｖxの音圧変動を表すアナログの音声信号を生成する。Ａ/Ｄ変換器２４４は、収音装置２４２が生成した音声信号をデジタルの発話信号Ｘに変換する。

制御装置２０は、音声対話装置１００Aの各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。第１実施形態の制御装置２０は、音声入力装置２４から供給される発話信号Ｘを取得し、発話音声Ｖxに対する応答音声Ｖyを表す応答信号Ｙを生成する。再生装置２６は、制御装置２０が生成した応答信号Ｙに応じた応答音声Ｖyを再生する要素であり、Ｄ/Ａ変換器２６２と放音装置２６４とを具備する。Ｄ/Ａ変換器２６２は、制御装置２０が生成したデジタルの応答信号Ｙをアナログの音声信号に変換し、放音装置２６４（例えばスピーカまたはヘッドホン）は、変換後の音声信号に応じた応答音声Ｖyを音波として放音する。再生装置２６には、応答信号Ｙを増幅する増幅器等の処理回路も包含され得る。

記憶装置２２は、制御装置２０が実行するプログラムや制御装置２０が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置２２として任意に採用され得る。第１実施形態の記憶装置２２は、特定の発話内容の応答音声を表す音声信号Ｚを記憶する。以下の説明では、間投詞の一例である相鎚を意味する「うん」等の応答音声の音声信号Ｚが記憶装置２２に記憶された場合を例示する。音声信号Ｚは、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置２２に記憶される。

制御装置２０は、記憶装置２２に記憶されたプログラムを実行することで、利用者Ｕとの対話を成立させるための複数の機能（音声取得部３２，音声解析部３４A，応答生成部３６A）を実現する。なお、制御装置２０の機能を複数の装置（すなわちシステム）で実現した構成、または、制御装置２０の機能の一部を専用の電子回路が分担する構成も採用され得る。

図１の音声取得部３２は、発話音声Ｖxを表す発話信号Ｘを取得する。第１実施形態の音声取得部３２は、音声入力装置２４が生成した発話信号Ｘを音声入力装置２４から取得する。音声解析部３４Aは、音声取得部３２が取得した発話信号Ｘから発話音声Ｖxの音高（基本周波数）Ｐを特定する。音高Ｐの特定は所定の周期で順次に実行される。すなわち、時間軸上の相異なる複数の時点の各々について音高Ｐが特定される。発話音声Ｖxの音高Ｐの特定には公知の技術が任意に採用され得る。なお、発話信号Ｘのうち特定の周波数帯域の音響成分を抽出して音高Ｐを特定することも可能である。音声解析部３４Aによる解析の対象となる周波数帯域は、例えば利用者Ｕからの指示（例えば男声／女声の指定）に応じて可変に設定される。また、発話音声Ｖxの音高Ｐに応じて解析対象の周波数帯域を動的に変更することも可能である。

応答生成部３６Aは、音声取得部３２が取得した発話信号Ｘの発話音声Ｖxに対する応答音声Ｖyを再生装置２６に再生させる。具体的には、応答生成部３６Aは、利用者Ｕによる発話音声Ｖxの発音を契機として応答音声Ｖyの応答信号Ｙを生成し、当該応答信号Ｙを再生装置２６に供給することで応答音声Ｖyを再生装置２６に再生させる。第１実施形態の応答生成部３６Aは、記憶装置２２に記憶された音声信号Ｚの韻律を、音声解析部３４Aが特定した発話音声Ｖxの音高Ｐに応じて調整することで、応答音声Ｖyの応答信号Ｙを生成する。すなわち、音声信号Ｚが表す初期的な応答音声を発話音声Ｖxの韻律に応じて調整した応答音声Ｖyが再生装置２６から再生される。

現実の人間同士の対話では、発話者の発話音声のうち終点付近の音高に対応した音高で、当該発話音声に対する応答音声を対話相手が発音する（すなわち応答音声の音高が発話音声の終点付近の音高に依存する）、という傾向が観測される。以上の傾向を考慮して、第１実施形態の応答生成部３６Aは、音声解析部３４Aが特定した発話音声Ｖxの音高Ｐに応じて音声信号Ｚの音高を調整することで、応答音声Ｖyの応答信号Ｙを生成する。

図２は、第１実施形態の制御装置２０が実行する処理のフローチャートである。例えば音声対話装置１００Aに対する利用者Ｕからの指示（例えば音声対話用のプログラムの起動指示）を契機として図２の処理が開始される。

図２の処理を開始すると、音声取得部３２は、利用者Ｕが発話音声Ｖxの発音を開始するまで待機する（Ｓ10：NO）。具体的には、音声取得部３２は、音声入力装置２４から供給される発話信号Ｘを解析することで発話音声Ｖxの音量を順次に特定し、発話音声Ｖxの音量が所定の閾値（例えば事前に選定された固定値または利用者Ｕからの指示に応じた可変値）を上回る状態が所定の時間長にわたり継続した場合に、発話音声Ｖxが開始したと判断する。なお、発話音声Ｖxの開始（すなわち発話区間の始点）の検出方法は任意である。例えば、発話音声Ｖxの音量が閾値を上回り、かつ、音声解析部３４Aが有意な音高Ｐを検出した場合に、発話音声Ｖxが開始したと判断することも可能である。

発話音声Ｖxが開始すると（Ｓ10：YES）、音声取得部３２は、音声入力装置２４から発話信号Ｘを取得して記憶装置２２に格納する（Ｓ11）。音声解析部３４Aは、音声取得部３２が取得した発話信号Ｘから発話音声Ｖxの音高Ｐを特定して記憶装置２２に格納する（Ｓ12）。

音声取得部３２は、利用者Ｕが発話音声Ｖxの発音を終了したか否かを判定する（Ｓ13）。具体的には、音声取得部３２は、発話信号Ｘから特定される発話音声Ｖxの音量が所定の閾値（例えば事前に選定された固定値または利用者Ｕからの指示に応じた可変値）を下回る状態が所定の時間長にわたり継続した場合に、発話音声Ｖxが終了したと判断する。ただし、発話音声Ｖxの終了（すなわち発話区間の終点）の検出には公知の技術が任意に採用され得る。以上の説明から理解される通り、発話音声Ｖxの発話が継続される発話期間内は（Ｓ13：NO）、音声取得部３２による発話信号Ｘの取得（Ｓ11）と音声解析部３４Aによる発話音声Ｖxの音高Ｐの特定（Ｓ12）とが反復される。

以上に説明した処理の結果、図３および図４に例示される通り、発話音声Ｖxの始点から終点ｔBまでの発話区間について当該発話音声Ｖxの複数の音高Ｐの時系列が特定される。図３では、発話相手の感情や意図等の認識を発話者が問掛ける「楽しいね？」という疑問文の発話音声Ｖxを利用者Ｕが発音した場合が想定されている。図４では、発話者自身の感情や意図等の認識を表現したり当該認識に対する同意を発話相手に要求したりする平叙文の発話音声Ｖxを利用者Ｕが発音した場合が想定されている。

発話音声Ｖxが終了すると（Ｓ13：YES）、当該発話音声Ｖxに対する応答音声Ｖyを再生装置２６に再生させるための処理（以下「応答生成処理」という）ＳAを応答生成部３６Aが実行する。第１実施形態の応答生成処理ＳAは、前述の通り、音声解析部３４Aが特定した発話音声Ｖxの音高Ｐに応じて音声信号Ｚの音高を調整することで、応答音声Ｖyの応答信号Ｙを生成する処理である。

図５は、応答生成処理ＳAの具体例のフローチャートである。前述の通り、発話音声Ｖxの終了（Ｓ13：YES）を契機として図５の応答生成処理ＳAが開始される。応答生成処理ＳAを開始すると、応答生成部３６Aは、図３および図４に例示される通り、発話音声Ｖxのうち当該発話音声Ｖxの終点ｔBを含む区間（以下「末尾区間」という）Ｅについて音声解析部３４Aが特定した複数の音高Ｐのうちの最低値（以下「最低音高」という）Ｐminを発話音声Ｖxの韻律として特定する（ＳA1）。末尾区間Ｅは、例えば発話音声Ｖxのうち発話音声Ｖxの終点ｔBから手前側の所定長（例えば数秒）にわたる一部の区間である。図３から理解される通り、疑問文の発話音声Ｖxでは終点ｔBの近傍にて音高Ｐが上昇する傾向がある。したがって、発話音声Ｖxの音高Ｐの推移が低下から上昇に転換する極小点での音高Ｐが最低音高Ｐminとして特定される。他方、図４から理解される通り、平叙文の発話音声Ｖxでは終点ｔBにかけて音高Ｐが単調に低下する傾向がある。したがって、発話音声Ｖxの終点ｔBでの音高Ｐが最低音高Ｐminとして特定される。

応答生成部３６Aは、発話音声Ｖxの最低音高Ｐminに応じた音高の応答音声Ｖyを表す応答信号Ｙを生成する（ＳA2）。具体的には、応答生成部３６Aは、図３および図４に例示される通り、応答音声Ｖyのうち時間軸上の特定の時点（以下「目標点」という）τでの音高が最低音高Ｐminに一致するように音声信号Ｚの音高を調整することで、応答音声Ｖyの応答信号Ｙを生成する。目標点τの好適例は、応答音声Ｖyを構成する複数のモーラのうち特定のモーラ（典型的には最後のモーラ）の始点である。例えば、「うん」という応答音声の音声信号Ｚを想定すると、図３および図４から理解される通り、音声信号Ｚのうち最後のモーラである「ん」の始点の音高が最低音高Ｐminに一致するように音声信号Ｚの全区間にわたる音高を調整（ピッチシフト）することで、応答音声Ｖyの応答信号Ｙが生成される。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τは、応答音声Ｖyのうち最後のモーラの始点に限定されない。例えば、応答音声Ｖyの始点や終点を目標点τとして音高を調整することも可能である。

以上の手順で応答信号Ｙを生成すると、応答生成部３６Aは、応答音声Ｖyの再生を開始すべき時点（以下「応答再生点」という）ｔyの到来まで待機する（ＳA3：NO）。応答再生点ｔyは、例えば、発話音声Ｖxの終点ｔBから所定の時間（例えば150ms）が経過した時点である。

応答再生点ｔyが到来すると（ＳA3：YES）、応答生成部３６Aは、最低音高Ｐminに応じた調整後の応答信号Ｙを再生装置２６に供給することで応答音声Ｖyを再生させる（ＳA4）。すなわち、発話音声Ｖxの終点ｔBから所定の時間が経過した応答再生点ｔyにて応答音声Ｖyの再生が開始される。なお、応答生成部３６Aが、応答信号Ｙの生成（ピッチシフト）に並行して実時間的に、応答再生点ｔyから応答信号Ｙを再生装置２６に順次に供給して応答音声Ｖyを再生させることも可能である。以上の説明から理解される通り、第１実施形態の応答生成部３６Aは、発話音声Ｖxの末尾区間Ｅにおける最低音高Ｐminに応じた音高の応答音声Ｖyを再生装置２６に再生させる要素として機能する。

以上に例示した応答生成処理ＳAが完了すると、制御装置２０は、図２に例示される通り、音声対話の終了が利用者Ｕから指示されたか否かを判定する（Ｓ14）。音声対話の終了が指示されていない場合（Ｓ14：NO）、処理はステップＳ10に遷移する。すなわち、発話音声Ｖxの開始（Ｓ10：YES）を契機として、音声取得部３２による発話信号Ｘの取得（Ｓ11）と、音声解析部３４Aによる音高Ｐの特定（Ｓ12）と、応答生成部３６Aによる応答生成処理ＳAとが実行される。以上の説明から理解される通り、発話音声Ｖxの音高Ｐに応じた音高の応答音声Ｖyが発話音声Ｖxの発音毎に再生される。すなわち、利用者Ｕによる任意の発話音声Ｖxの発音と、当該発話音声Ｖxに対する相鎚の応答音声Ｖy（例えば「うん」という応答音声）の再生とが交互に反復される音声対話が実現される。音声対話の終了が利用者Ｕから指示されると（Ｓ14：YES）、制御装置２０は図２の処理を終了する。

以上に説明した通り、第１実施形態では、発話音声Ｖxの終点ｔBを含む末尾区間Ｅ内の最低音高Ｐminに応じた音高の応答音声Ｖyが再生装置２６から再生される。したがって、発話音声の終点付近の音高に対応した音高で対話相手が応答音声を発音するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第１実施形態では特に、応答音声Ｖyのうち最後のモーラの始点（目標点τ）での音高が最低音高Ｐminに一致するように応答音声Ｖyが再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。

＜第１実施形態の変形例＞
（１）第１実施形態では、応答音声Ｖyのうち目標点τの音高を発話音声Ｖxの末尾区間Ｅ内の最低音高Ｐminに一致させる構成を例示したが、応答音声Ｖyの目標点τでの音高と発話音声Ｖxの最低音高Ｐminとの関係は以上の例示（両者が一致する関係）に限定されない。例えば、応答音声Ｖyの目標点τでの音高を、最低音高Ｐminに所定の調整値（オフセット）δpを加算または減算した音高に一致させることも可能である。調整値δpは、事前に選定された固定値（例えば最低音高Ｐminに対して５度等の音程に相当する数値）または利用者Ｕからの指示に応じた可変値である。また、調整値δpをオクターブの整数倍に相当する数値に設定した構成によれば、最低音高Ｐminをオクターブシフトした音高の応答音声Ｖyが再生される。調整値δpを適用するか否かを利用者Ｕからの指示に応じて切替えることも可能である。

（２）第１実施形態では、発話音声Ｖxの音高Ｐ（具体的には末尾区間Ｅの最低音高Ｐmin）に応じて応答音声Ｖyの音高を制御したが、応答音声Ｖyの韻律の制御に利用される発話音声Ｖxの韻律の種類や、発話音声Ｖxの韻律に応じて制御される応答音声Ｖyの韻律の種類は、音高に限定されない。例えば、発話音声Ｖxの音量（韻律の一例）に応じて応答音声Ｖyの韻律を制御する構成や、発話音声Ｖxの音高または音量の変動の範囲（韻律の他例）に応じて応答音声Ｖyの韻律を制御する構成も採用される。また、発話音声Ｖxの韻律に応じて応答音声Ｖyの音量（韻律の一例）を制御する構成や、発話音声Ｖxの韻律に応じて応答音声Ｖyの音高または音量の変動の範囲（韻律の他例）を制御する構成も採用され得る。

（３）現実の人間同士の対話では、応答音声の韻律が発話音声の韻律に応じて一律に決定されるわけでは必ずしもない。すなわち、応答音声の韻律は、発話音声の韻律に依存するとともに発話音声の発音毎に変動し得るという傾向がある。以上の傾向を考慮すると、再生装置２６から再生される応答音声Ｖyの韻律（例えば音高や音量）を、応答生成部３６Aが発話音声Ｖx毎に変動させることも可能である。具体的には、前述の変形例の通り、最低音高Ｐminに調整値δpを加算または減算した音高となるように応答音声Ｖyの音高を調整する構成では、応答生成部３６Aは、発話音声Ｖxの発音毎に調整値δpを可変に制御する。例えば、応答生成部３６Aは、発話音声Ｖxの発音毎に所定の範囲内の乱数を発生させ、当該乱数を調整値δpとして設定する。以上の構成によれば、応答音声の韻律が発話音声の発音毎に変動し得るという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

（４）第１実施形態では、１種類の音声信号Ｚの音高を調整して応答信号Ｙを生成したが、音高が相違する複数種の音声信号Ｚを応答信号Ｙの生成に利用することも可能である。例えば、複数種の音声信号Ｚのうち発話音声Ｖxの最低音高Ｐminに最も近似する音声信号Ｚの音高を調整して応答信号Ｙを生成する構成が想定され得る。

（５）第１実施形態では、応答音声Ｖyを再生装置２６から再生したが、音声取得部３２が取得した発話信号Ｘを再生装置２６に供給することで発話音声Ｖxも再生装置２６から再生することが可能である。発話音声Ｖxを再生装置２６から再生するか否かを利用者Ｕからの指示に応じて切替える構成も採用され得る。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図６は、本発明の第２実施形態に係る音声対話装置１００Bの構成図である。第２実施形態の音声対話装置１００Bは、第１実施形態の音声対話装置１００Aと同様に、利用者Ｕが発音した発話音声Ｖxに対する応答音声Ｖyを再生する。図６に例示される通り、第２実施形態の音声対話装置１００Bは、第１実施形態の音声対話装置１００Aの応答生成部３６Aを応答生成部３６Bに置換した構成である。音声対話装置１００Bの他の要素（音声入力装置２４，再生装置２６，音声取得部３２，音声解析部３４A）の構成や動作は第１実施形態と同様である。

現実の人間同士の対話では、発話者の発話内容（疑問文であるか平叙文であるか）に応じた韻律で対話相手が応答音声を発音するという傾向が観測される。例えば、疑問文に対する応答音声と平叙文に対する応答音声とでは韻律が相違する。具体的には、疑問文に対する回答の音声は、平叙文に対する相鎚の音声と比較すると、例えば応答者の回答（肯定／否定）を発話者に明確に認識させる必要性から、比較的に大きい音量で抑揚（音量または音高の時間変動）を強調して発音される、という傾向がある。以上の傾向を考慮して、第２実施形態の応答生成部３６Bは、発話音声Ｖxによる発話内容（疑問文／平叙文の区別）に応じた韻律の応答音声Ｖyを再生装置２６に再生させる。

図７には、疑問文の発話音声Ｖxの音高Ｐの推移が例示され、図８には、平叙文の発話音声Ｖxの音高Ｐの推移が例示されている。図７および図８から理解される通り、発話音声Ｖxの発話内容が疑問文である場合と平叙文である場合とでは、発話音声Ｖxのうち末尾の近傍における音高Ｐの推移（時間的な変動の傾向）が相違する、という傾向がある。具体的には、疑問文の発話音声Ｖxの音高Ｐは、図７に例示される通り、末尾区間Ｅ内で低下から上昇に転換または単調に上昇するが、平叙文の発話音声Ｖxの音高Ｐは、図８に例示される通り、末尾区間Ｅの始点ｔAから終点ｔBにかけて単調に低下する。したがって、発話音声Ｖxの末尾の近傍（末尾区間Ｅ）における音高Ｐの推移を解析することで、発話音声Ｖxの発話内容が疑問文および平叙文の何れに該当するかを推定することが可能である。

以上の傾向を考慮して、第２実施形態の応答生成部３６Bは、発話音声Ｖxのうち末尾区間Ｅにおける音高Ｐの推移（すなわち疑問文／平叙文の区別）に応じた韻律の応答音声Ｖyを再生装置２６に再生させる。具体的には、図７に例示される通り、発話音声Ｖxの音高Ｐの推移が末尾区間Ｅ内で低下から上昇に転換する場合または発話音声Ｖxの音高Ｐが末尾区間Ｅ内で単調に上昇する場合（すなわち発話内容が疑問文であると推定される場合）には、疑問文に好適な韻律の応答音声Ｖyが再生装置２６から再生される。他方、図８に例示される通り、発話音声Ｖxの音高Ｐが末尾区間Ｅ内で単調に低下する場合（すなわち発話内容が平叙文であると推定される場合）には、平叙文に好適な韻律の応答音声Ｖyが再生装置２６から再生される。

図６に例示される通り、第２実施形態の音声対話装置１００Bの記憶装置２２は、特定の発話内容の応答音声Ｖyを事前に収録した応答信号ＹAおよび応答信号ＹBを記憶する。応答信号ＹAおよび応答信号ＹBは、発話内容（文字表記）は相互に共通するが韻律が相違する。具体的には、応答信号ＹAが表す応答音声Ｖyは、疑問文の発話音声Ｖxに対する肯定的な回答の意図で発音された「うん」の音声であり、応答信号ＹBが表す応答音声Ｖyは、平叙文の発話音声Ｖxに対する相鎚の意図で発音された「うん」の音声である。具体的には、応答信号ＹAの応答音声Ｖyは、応答信号ＹBの応答音声Ｖyと比較して音量が大きく、音量および音高の変動の範囲（すなわち抑揚）が広いという韻律の差異がある。第２実施形態の応答生成部３６Bは、記憶装置２２に記憶された応答信号ＹAおよび応答信号ＹBの何れかを再生装置２６に対して選択的に供給することで、韻律が相違する複数の応答音声Ｖyを選択的に再生させる。なお、応答信号ＹAと応答信号ＹBとで発音内容を相違させることも可能である。

図９は、第２実施形態の応答生成部３６Bが応答音声Ｖyを再生装置２６に再生させるための応答生成処理ＳBのフローチャートである。第２実施形態では、第１実施形態で例示した図２の応答生成処理ＳAが図９の応答生成処理ＳBに置換される。応答生成処理ＳB以外の処理は第１実施形態と同様である。発話音声Ｖxの終了（Ｓ13：YES）を契機として図９の応答生成処理ＳBが開始される。

応答生成処理ＳBを開始すると、応答生成部３６Bは、発話音声Ｖxの末尾区間Ｅのうち第１区間Ｅ1内の複数の音高Ｐの平均（以下「第１平均音高」という）Ｐave1と、第２区間Ｅ2内の複数の音高Ｐの平均（以下「第２平均音高」という）Ｐave2とを算定する（ＳB1）。図７および図８に例示される通り、第１区間Ｅ1は、末尾区間Ｅのうち前方の区間（例えば末尾区間Ｅの始点ｔAを含む区間）であり、第２区間Ｅ2は、末尾区間Ｅのうち第１区間Ｅ1の後方の区間（例えば末尾区間Ｅの終点ｔBを含む区間）である。具体的には、末尾区間Ｅの前半が第１区間Ｅ1として画定され、末尾区間Ｅの後半が第２区間Ｅ2として画定される。ただし、第１区間Ｅ1および第２区間Ｅ2の条件は以上の例示に限定されない。例えば第１区間Ｅ1と第２区間Ｅ2とが間隔をあけて前後する構成や、第１区間Ｅ1と第２区間Ｅ2とで時間長を相違させた構成も採用され得る。

応答生成部３６Bは、第１区間Ｅ1の第１平均音高Ｐave1と第２区間Ｅ2の第２平均音高Ｐave2とを比較し、第１平均音高Ｐave1が第２平均音高Ｐave2を下回るか否かを判定する（ＳB2）。前述の通り、疑問文の発話音声Ｖxの音高Ｐの推移は末尾区間Ｅ内で低下から上昇に転換または単調に上昇するという傾向がある。したがって、図７に例示される通り、第１平均音高Ｐave1は第２平均音高Ｐave2を下回る可能性が高い（Ｐave1＜Ｐave2）。他方、平叙文の発話音声Ｖxの音高Ｐは末尾区間Ｅ内で単調に低下するという傾向がある。したがって、図８に例示される通り、第１平均音高Ｐave1は第２平均音高Ｐave2を上回る可能性が高い（Ｐave1＞Ｐave2）。

以上の傾向を考慮して、第１平均音高Ｐave1が第２平均音高Ｐave2を下回る場合（ＳB2：YES）、すなわち、発話音声Ｖxが疑問文である可能性が高い場合には、第２実施形態の応答生成部３６Bは、疑問文に対する回答の応答音声Ｖyに対応する応答信号ＹAを記憶装置２２から選択する（ＳB3）。他方、第１平均音高Ｐave1が第２平均音高Ｐave2を上回る場合（ＳB2：NO）、すなわち、発話音声Ｖxが平叙文である可能性が高い場合には、応答生成部３６Bは、平叙文に対する同意の応答音声Ｖyに対応する応答信号ＹBを記憶装置２２から選択する（ＳB4）。

発話音声Ｖxの音高Ｐの推移に応じた応答信号Ｙ（Ｙ1，Ｙ2）を以上の手順で選択すると、応答生成部３６Bは、第１実施形態と同様に、応答再生点ｔyの到来（ＳB5：YES）を契機として当該応答信号Ｙを再生装置２６に供給することで応答音声Ｖyを再生させる（ＳB6）。具体的には、発話音声Ｖxの音高Ｐが末尾区間Ｅ内で低下から上昇に転換する場合または発話音声Ｖxの音高Ｐが末尾区間Ｅ内で単調に上昇する場合（ＳB2：YES）には疑問文に対する回答の応答音声Ｖyが再生され、発話音声Ｖxの音高Ｐが末尾区間Ｅ内で単調に低下する場合（ＳB2：NO）には平叙文に対する同意の応答音声Ｖyが再生される。すなわち、再生装置２６から再生される応答音声Ｖyの韻律は、発話音声Ｖxが疑問文である場合と平叙文である場合とで相違する。

音声取得部３２による発話信号Ｘの取得（Ｓ11）と、音声解析部３４Aによる音高Ｐの特定（Ｓ12）と、応答生成部３６Bによる応答生成処理ＳBとは、音声対話の終了が利用者Ｕから指示されるまで反復される（Ｓ14：NO）。したがって、第１実施形態と同様に、利用者Ｕによる任意の発話音声Ｖxの発音と、当該発話音声Ｖxに対する応答音声Ｖyの再生とが交互に反復される音声対話が実現される。

以上に説明した通り、第２実施形態では、発話音声Ｖxの末尾区間Ｅにおける音高Ｐの推移に応じた韻律の応答音声Ｖyが再生装置２６から再生される。したがって、発話者の発話内容に応じた韻律で対話相手が応答音声を発音するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第２実施形態では特に、末尾区間Ｅ内で音高Ｐの推移が低下から上昇に転換する場合または末尾区間Ｅ内で音高Ｐが単調に上昇する場合と、末尾区間Ｅの始点ｔAから終点ｔBにかけて音高Ｐが単調に低下する場合とで応答音声Ｖyの韻律が相違するから、疑問文と平叙文とで応答音声の韻律が相違するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

また、第２実施形態では、末尾区間Ｅのうち第１区間Ｅ1内の第１平均音高Ｐave1と第２区間Ｅ2の第２平均音高Ｐave2とを比較した結果に応じて応答音声Ｖyの韻律を相違させるから、複数の音高Ｐの平均および比較という簡便な処理で音高Ｐの推移を評価できる（ひいては応答音声Ｖyの韻律を選択できる）という利点がある。

＜第２実施形態の変形例＞
（１）第２実施形態では、記憶装置２２に事前に記憶された複数の応答信号Ｙ（ＹA，ＹB）を選択的に再生装置２６に供給したが、事前に収録された単一の応答信号Ｙを調整することで、発話音声Ｖxの末尾区間Ｅ内の音高Ｐの推移に応じた韻律の応答信号Ｙを応答生成部３６Bが生成することも可能である。例えば、平叙文に対する応答音声Ｖyの応答信号ＹAを記憶装置２２に保持した構成を想定すると、応答生成部３６Bは、発話音声Ｖxが疑問文である場合、応答信号ＹAの音量を増加させるとともに音量および音高の変動の範囲を拡大することで回答の応答音声Ｖyの応答信号ＹBを生成する一方、発話音声Ｖxが平叙文である場合には応答信号ＹAを再生装置２６に供給する。なお、初期的な応答信号Ｙの音量を減少させるとともに音量および音高の変動の範囲を縮小することで、平叙文に対する同意の応答音声Ｖyの応答信号ＹAを生成することも可能である。

１個の応答信号Ｙに対する調整で相異なる韻律の応答信号Ｙを生成する構成によれば、韻律が相違する複数の応答信号Ｙ（ＹA，ＹB）を記憶装置２２に保持する必要がないから、記憶装置２２に必要な記憶容量が削減されるという利点がある。他方、韻律が相違する複数の応答信号Ｙを選択的に利用する第２実施形態の構成によれば、初期的な応答信号Ｙの韻律を発話音声Ｖxの発話内容に応じて調整する必要がないから、応答生成部３６Bの処理負荷が軽減されるという利点がある。

（２）第２実施形態では、末尾区間Ｅのうち第１区間Ｅ1内の第１平均音高Ｐave1と第２区間Ｅ2内の第２平均音高Ｐave2とを比較したが、発話音声Ｖxの発話内容が疑問文および平叙文の何れに該当するかを推定するための方法は以上の例示に限定されない。例えば、平叙文の発話音声Ｖxでは末尾区間Ｅ内で音高Ｐが単調に低下するから、音高Ｐは末尾区間Ｅの終点ｔBで最低音高Ｐminとなる傾向がある。したがって、末尾区間Ｅのうち音高Ｐが最低音高Ｐminとなる時点の後方の区間の時間長が前方の区間と比較して充分に短い場合（例えば所定の閾値を下回る場合）に、発話音声Ｖxの発話内容が平叙文に該当すると推定することも可能である。また、末尾区間Ｅのうち最低音高Ｐminの時点の前後における音高Ｐの遷移に応じて、発話音声Ｖxの発話内容が疑問文および平叙文の何れに該当するかを推定することも可能である。例えば、末尾区間Ｅのうち最低音高Ｐminの時点の経過後に音高Ｐが上昇する場合、応答生成部３６Bは、発話音声Ｖxの発話内容が疑問文に該当すると推定する。

＜第３実施形態＞
図１０は、本発明の第３実施形態に係る音声対話装置１００Cの構成図である。第３実施形態の音声対話装置１００Cは、第１実施形態の音声対話装置１００Aと同様に、利用者Ｕが発音した発話音声Ｖxに対する応答音声Ｖyを再生する。第３実施形態では、発話音声Ｖxに対する回答または相鎚の応答音声（以下「第２応答音声」という）Ｖy2のほか、発話音声Ｖxに対する問返しを表す応答音声（以下「第１応答音声」という）Ｖy1が再生装置２６から再生され得る。第１応答音声Ｖy1は、発話音声Ｖxを発話者に対して聞き直すための「え？」「なに？」等の音声である。図１０に例示される通り、第３実施形態の音声対話装置１００Cの記憶装置２２は、問返しの第１応答音声Ｖy1を収録した応答信号Ｙ1と、問返し以外（例えば「うん」等の相鎚）の第２応答音声Ｖy2を収録した応答信号Ｙ2とを記憶する。

図１０に例示される通り、第３実施形態の音声対話装置１００Cは、第１実施形態の音声対話装置１００Aの音声解析部３４Aおよび応答生成部３６Aを、音声解析部３４Cおよび応答生成部３６Cに置換した構成である。音声対話装置１００Cの他の要素（音声入力装置２４，再生装置２６，音声取得部３２）の構成および動作は第１実施形態と同様である。

第３実施形態の音声解析部３４Cは、音声取得部３２が取得した発話信号Ｘから韻律指標値Ｑを特定する。韻律指標値Ｑは、発話音声Ｖxの韻律に関する指標値であり、発話音声Ｖx毎（発話音声Ｖxの始点から終点までの一連の発話を単位としたときの単位毎）に算定される。具体的には、発話音声Ｖxの発話区間内の音高の平均値、音高の変動幅、音量の平均値、または音量の変動幅が、韻律指標値Ｑとして発話信号Ｘから算定される。第３実施形態の応答生成部３６Cは、前述の通り、発話音声Ｖxに対する問返しを表す第１応答音声Ｖy1と問返し以外の第２応答音声Ｖy2とを選択的に再生装置２６に再生させる。

現実の人間同士の対話では、発話者の発話音声の韻律が変動した場合に、対話相手が発話音声を聴取し難くなって問返しの必要性が高まる、という傾向がある。具体的には、発話者の発話音声の韻律が当該発話者の過去の韻律の傾向から乖離する場合（例えば過去の傾向から対話相手が想定する音量と比較して実際の発話音声の音量が小さい場合）に、対話相手が発話音声を適切に聴取できず、結果的に発話者に対する問返しが発生する可能性が高い。以上の傾向を考慮して、第３実施形態の応答生成部３６Cは、音声解析部３４Cが特定した韻律指標値Ｑを閾値ＱTHと比較し、比較の結果に応じて第１応答音声Ｖy1および第２応答音声Ｖy2の何れかを再生装置２６に再生させる。閾値ＱTHは、利用者Ｕが過去に発話した発話音声Ｖxの韻律指標値Ｑの代表値（例えば平均値）に設定される。すなわち、閾値ＱTHは、利用者Ｕの過去の発話から推定される標準的な韻律に相当する。そして、発話音声Ｖxの韻律指標値Ｑが閾値ＱTHから乖離する場合には問返しの第１応答音声Ｖy1が再生され、韻律指標値Ｑが閾値ＱTHに近似する場合には相鎚の第２応答音声Ｖy2が再生される。

図１１は、第３実施形態の制御装置２０が実行する処理のフローチャートである。例えば音声対話装置１００Cに対する利用者Ｕからの指示（例えば音声対話用のプログラムの起動指示）を契機として図１１の処理が開始される。

第１実施形態と同様に、発話音声Ｖxが開始されると（Ｓ20：YES）、音声取得部３２は、音声入力装置２４から発話信号Ｘを取得して記憶装置２２に格納する（Ｓ21）。音声解析部３４Cは、音声取得部３２が取得した発話信号Ｘから、発話音声Ｖxの韻律に関する特徴量ｑを特定する（Ｓ22）。特徴量ｑは、例えば発話音声Ｖxの音高Ｐまたは音量である。音声取得部３２による発話信号Ｘの取得（Ｓ21）と音声解析部３４Cによる特徴量ｑの特定（Ｓ22）とは、発話音声Ｖxの終了まで反復される（Ｓ23：NO）。すなわち、発話音声Ｖxの始点から終点ｔBまでの発話区間について当該発話音声Ｖxの複数の特徴量ｑの時系列が特定される。

発話音声Ｖxが終了すると（Ｓ23：YES）、音声解析部３４Cは、発話音声Ｖxの始点から終点までの発話区間について特定した複数の特徴量ｑの時系列から韻律指標値Ｑを算定する（Ｓ24）。具体的には、音声解析部３４Cは、発話区間内の複数の特徴量ｑの平均値または変動幅（範囲）を韻律指標値Ｑとして算定する。

以上に説明した処理で今回の発話音声Ｖxの韻律指標値Ｑが算定されると、応答生成部３６Cは、応答音声Ｖyを再生装置２６に再生させるための応答生成処理ＳCを実行する。第３実施形態の応答生成処理ＳCは、音声解析部３４Cが算定した韻律指標値Ｑに応じて第１応答音声Ｖy1および第２応答音声Ｖy2の何れかを選択的に再生装置２６に再生させる処理である。

応答生成処理ＳCが完了すると、音声解析部３４Cは、今回の発話音声Ｖxの韻律指標値Ｑに応じて閾値ＱTHを更新する（Ｓ25）。具体的には、音声解析部３４Cは、今回の発話音声Ｖxを含む過去の発話音声Ｖxの複数の韻律指標値Ｑの代表値（例えば平均値や中央値）を更新後の閾値ＱTHとして算定する。例えば、以下の数式(1)で表現される通り、今回の韻律指標値Ｑと更新前の閾値ＱTHとの加重平均（指数移動平均）が更新後の閾値ＱTHとして算定される。数式(1)の記号αは１未満の所定の正数（忘却係数）である。
ＱTH＝α・Ｑ＋(１−α)ＱTH ……(1)
以上の説明から理解される通り、第３実施形態の音声解析部３４Cは、過去の複数の発話音声Ｖxにおける韻律指標値Ｑの代表値を閾値ＱTHとして設定する要素として機能する。閾値ＱTHは、発話音声Ｖxの発音毎に当該発話音声Ｖxの韻律指標値Ｑを反映した数値に更新され、複数回にわたる利用者Ｕの発話から推定される標準的な韻律に相当する数値となる。ただし、閾値ＱTHを所定値に固定することも可能である。例えば、不特定多数の発話者の発話音声から特定された韻律指標値Ｑの平均値が閾値ＱTHとして設定され得る。

音声取得部３２による発話信号Ｘの取得（Ｓ21）と、音声解析部３４Cによる韻律指標値Ｑの算定（Ｓ22，Ｓ24）と、応答生成部３６Cによる応答生成処理ＳCと、音声解析部３４Cによる閾値ＱTHの更新（Ｓ25）とは、音声対話の終了が利用者Ｕから指示されるまで、発話音声Ｖxの発音毎に反復される（Ｓ26：NO）。したがって、利用者Ｕによる発話音声Ｖxの発音と、第１応答音声Ｖy1（問返し）および第２応答音声Ｖy2（相鎚）の選択的な再生とが交互に反復される音声対話が実現される。

図１２は、第３実施形態の応答生成処理ＳCのフローチャートである。応答生成処理ＳCを開始すると、応答生成部３６Cは、音声解析部３４Cが特定した韻律指標値Ｑを現段階の閾値ＱTHと比較し、閾値ＱTHを含む所定の範囲（以下「許容範囲」という）Ｒに韻律指標値Ｑが包含されるか否かを判定する（ＳC1）。図１３および図１４には、発話音声Ｖxから音声解析部３４Cが特定する特徴量ｑの推移が例示されている。図１３および図１４に例示される通り、許容範囲Ｒは、閾値ＱTHを中央値とする所定幅の範囲である。韻律指標値Ｑと閾値ＱTHとを比較する処理（ＳC1）は、韻律指標値Ｑと閾値ＱTHとの差分の絶対値が所定値（例えば許容範囲Ｒの範囲幅の半分）を上回るか否かを判定する処理としても実現され得る。

図１３では、韻律指標値Ｑが許容範囲Ｒの内側の数値である場合が想定されている。韻律指標値Ｑが許容範囲Ｒに包含されるということは、今回の発話音声Ｖxの韻律が利用者Ｕの標準的な韻律（過去の発話の傾向）に近似することを意味する。すなわち、現実の人間同士の対話を想定すると、対話相手が発話音声を聴取し易い状況（発話者に対する問返しが必要となる可能性が低い状況）であると評価できる。そこで、韻律指標値Ｑが許容範囲Ｒの内側の数値である場合（ＳC1：YES）、応答生成部３６Cは、発話音声Ｖxに対する相鎚の第２応答音声Ｖy2の応答信号Ｙ2を記憶装置２２から選択する（ＳC2）。

他方、図１４では、韻律指標値Ｑが許容範囲Ｒの外側の数値（具体的には許容範囲Ｒの下限値を下回る数値）である場合が想定されている。韻律指標値Ｑが許容範囲Ｒに包含されないということは、今回の発話音声Ｖxの韻律が利用者Ｕの標準的な韻律から乖離していることを意味する。すなわち、現実の人間同士の対話を想定すると、対話相手が発話音声を聴取し難い状況（発話者に対する問返しが必要となる可能性が高い状況）であると評価できる。そこで、韻律指標値Ｑが許容範囲Ｒの外側の数値である場合（ＳC1：NO）、応答生成部３６Cは、発話音声Ｖxに対する問返しの第２応答音声Ｖy1（例えば「え？」「なに？」等の音声）の応答信号Ｙ1を再生装置２６に対する供給対象として記憶装置２２から選択する（ＳC3）。

以上の手順で韻律指標値Ｑに応じた応答信号Ｙ（再生対象の応答音声Ｖy）を選択すると、応答生成部３６Cは、第１実施形態と同様に、応答再生点ｔyの到来（ＳC4：YES）を契機として当該応答信号Ｙを再生装置２６に供給することで応答音声Ｖy（第１応答音声Ｖy1または第２応答音声Ｖy2）を再生させる（ＳC5）。すなわち、韻律指標値Ｑが許容範囲Ｒに包含される場合には相鎚の第２応答音声Ｖy2が再生され、韻律指標値Ｑが許容範囲Ｒに包含されない場合には問返しの第１応答音声Ｖy1が再生される。

以上に説明した通り、第３実施形態では、発話音声Ｖxに対する問返しを表す第１応答音声Ｖy1と、問返し以外の第２応答音声Ｖy2とが選択的に再生装置２６から再生される。したがって、発話者の発話に対する相鎚だけでなく発話者に対する問返し（聞き直し）も適宜に発生するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。

また、第３実施形態では、発話音声Ｖxの韻律を表す韻律指標値Ｑを閾値ＱTHと比較した結果に応じて第１応答音声Ｖy1および第２応答音声Ｖy2の何れかが選択されるから、発話音声の韻律が不意に変動した場合に聴取が困難となり問返しの必要性が高まる、という現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第３実施形態では特に、過去の複数の発話音声Ｖxにわたる韻律指標値Ｑの代表値が閾値ＱTHとして設定されるから、発話者の発話音声の韻律が当該発話者の標準的な韻律（すなわち対話相手が想定する韻律）から乖離する場合に対話相手からの問返しが発生し易いという現実の対話の傾向を模擬した自然な音声対話が実現されるという利点もある。しかも、韻律指標値Ｑが、閾値ＱTHを含む許容範囲Ｒの外側の数値である場合に第１応答音声Ｖy1が選択され、許容範囲Ｒの内側の数値である場合に第２応答音声Ｖy2が選択されるから、例えば韻律指標値Ｑと閾値ＱTHとの大小関係のみに応じて第１応答音声Ｖy1および第２応答音声Ｖy2を選択する構成と比較して、過度に高い頻度で第１応答音声Ｖy1が再生される可能性を低減する（適度な頻度で第１応答音声Ｖy1を再生する）ことが可能である。

＜第３実施形態の変形例＞
第３実施形態では、発話音声Ｖxの韻律指標値Ｑに応じて第１応答音声Ｖy1の再生と第２応答音声Ｖy2の再生とを選択したが、発話音声Ｖxの特性とは無関係に所定の頻度で問返しの第１応答音声Ｖy1を再生することも可能である。具体的には、応答生成部３６Cは、利用者Ｕが順次に発音する複数の発話音声Ｖxからランダムに選択された発話音声Ｖxに対して問返しの第１応答音声Ｖy1を再生装置２６に再生させる一方、残余の発話音声Ｖxに対しては相鎚の第２応答音声Ｖy2を再生させる。例えば、応答生成部３６Cは、発話音声Ｖxの発音毎に所定の範囲内の乱数を発生し、当該乱数が閾値を上回る場合には第１応答音声Ｖy1を選択する一方、当該乱数が閾値を下回る場合には第２応答音声Ｖy2を選択する。以上に例示した変形例では、複数の発話音声Ｖxからランダムに選択された発話音声Ｖxに対して問返しの第１応答音声Ｖy1が再生されるから、発話音声に対する問返しがランダムに発生するという現実の音声対話の傾向を模擬した自然な音声対話を実現することが可能である。

以上の構成において、応答生成部３６Cは、発話音声Ｖxの発話回数に対する第１応答音声Ｖy1の再生回数の比（すなわち第１応答音声Ｖy1の再生頻度）を可変に設定することが可能である。例えば、乱数と比較される閾値を調整することで、応答生成部３６Cは、第１応答音声Ｖy1の再生頻度を制御する。例えば第１応答音声Ｖy1の再生頻度が３０％に設定された場合、発話音声Ｖxの発話の総回数のうちの３０％に対して第１応答音声Ｖy1が再生され、残余の７０％の回数の発話に対して第２応答音声Ｖy2が再生される。第１応答音声Ｖy1の再生頻度（例えば乱数と比較される閾値）は、例えば利用者Ｕからの指示に応じて可変に設定される。

＜第４実施形態＞
図１５は、本発明の第４実施形態に係る音声対話装置１００Dの構成図である。第４実施形態の音声対話装置１００Dは、第１実施形態の音声対話装置１００Aと同様に、利用者Ｕが発音した発話音声Ｖxに対する応答音声Ｖyを再生する。

図１５に例示される通り、第４実施形態の音声対話装置１００Dは、第１実施形態の音声対話装置１００Aの音声解析部３４Aおよび応答生成部３６Aを、履歴管理部３８および応答生成部３６Dに置換した構成である。音声対話装置１００Dの他の要素（音声入力装置２４，再生装置２６，音声取得部３２）の構成および動作は第１実施形態と同様である。第４実施形態の記憶装置２２は、特定の発話内容の応答音声Ｖyを表す応答信号Ｙを記憶する。以下の説明では、発話音声Ｖxに対する相鎚を意味する「うん」という応答音声Ｖyを例示する。

図１５の履歴管理部３８は、音声対話装置１００Dによる音声対話の履歴（以下「利用履歴」という）Ｈを生成する。第４実施形態の利用履歴Ｈは、音声対話装置１００Dを利用して過去に実行された音声対話の回数（以下「利用回数」という）Ｎである。具体的には、音声対話の開始（音声対話装置１００Dの起動）から終了までを１回（すなわち、発話音声Ｖxの発話と応答音声Ｖyの再生との複数対を包含する１回分の音声対話）として、履歴管理部３８は音声対話の回数を利用回数Ｎとして計数する。履歴管理部３８が生成した利用履歴Ｈは記憶装置２２に格納される。

第４実施形態の応答生成部３６Dは、履歴管理部３８が生成した利用履歴Ｈに応じた韻律の応答音声Ｖyを再生装置２６に再生させる。すなわち、応答音声Ｖyの韻律が利用履歴Ｈに応じて可変に制御される。第４実施形態では、応答音声Ｖyの再生の待機時間Ｗを当該応答音声Ｖyの韻律として利用履歴Ｈに応じて制御する。待機時間Ｗは、発話音声Ｖxの終点ｔBから応答音声Ｖyの応答再生点ｔyまでの時間長（すなわち発話音声Ｖxと応答音声Ｖyとの間隔）である。

現実の人間同士の対話では、特定の対話相手との対話の反復とともに発話音声の韻律が経時的に変化するという傾向が観測される。具体的には、初対面で対話を開始した直後の段階（各々が対話相手との対話に慣れていない段階）では、対話相手に特有の好適な間合等を両者が把握できないため、発話者による発話から当該発話に対する応答までの時間が長く（すなわち対話がぎこちなく）、当該対話相手との対話が反復されるにつれて当該時間が短縮される（すなわちテンポよく対話できる）、という傾向がある。以上の傾向を考慮して、第４実施形態の応答生成部３６Dは、利用履歴Ｈが示す利用回数Ｎが多い場合に、利用回数Ｎが少ない場合と比較して応答音声Ｖyの待機時間Ｗが短くなるように、利用履歴Ｈに応じて待機時間Ｗを制御する。

図１６は、第４実施形態の制御装置２０が実行する処理のフローチャートである。例えば音声対話装置１００Dに対する利用者Ｕからの指示（音声対話用のプログラムの起動指示）を契機として図１６の処理が開始される。音声対話装置１００Dによる音声対話が最初に開始される段階では、利用履歴Ｈは初期値（例えばＮ＝０）に設定される。

第１実施形態と同様に、発話音声Ｖxが開始されると（Ｓ30：YES）、音声取得部３２は、音声入力装置２４から発話信号Ｘを取得して記憶装置２２に格納する（Ｓ31）。音声取得部３２による発話信号Ｘの取得は、発話音声Ｖxの終了まで反復される（Ｓ32：NO）。

発話音声Ｖxが終了すると（Ｓ32：YES）、応答生成部３６Dは、記憶装置２２に格納された利用履歴Ｈに応じた韻律の応答音声Ｖyを再生装置２６に再生させるための応答生成処理ＳDを実行する。第４実施形態の応答生成処理ＳDは、前述の通り、発話音声Ｖxの終点ｔBから応答音声Ｖyの再生が開始される応答再生点ｔyまでの待機時間Ｗを利用履歴Ｈに応じて制御する処理である。音声取得部３２による発話信号Ｘの取得（Ｓ31）と、応答生成部３６Dによる応答生成処理ＳDとは、音声対話の終了が利用者Ｕから指示されるまで反復される（Ｓ33：NO）。したがって、第１実施形態と同様に、利用者Ｕによる任意の発話音声Ｖxの発音と、当該発話音声Ｖxに対する応答音声Ｖyの再生とが交互に反復される音声対話が実現される。

音声対話の終了が利用者Ｕから指示されると（Ｓ33：YES）、履歴管理部３８は、記憶装置２２に記憶された利用履歴Ｈを、今回の音声対話を加味した内容に更新する（Ｓ34）。具体的には、履歴管理部３８は、利用履歴Ｈが示す利用回数Ｎを１だけ増加させる。したがって、音声対話装置１００Dによる音声対話の実行毎に利用履歴Ｈは１ずつ増加していく。利用履歴Ｈの更新後に図１６の処理は終了する。

図１７は、第４実施形態の応答生成処理ＳDのフローチャートであり、図１８および図１９は、応答生成処理ＳDの説明図である。応答生成処理ＳDを開始すると、応答生成部３６Dは、記憶装置２２に記憶された利用履歴Ｈに応じて待機時間Ｗを可変に設定する（ＳD1〜ＳD3）。具体的には、応答生成部３６Dは、まず、利用履歴Ｈが示す利用回数Ｎが所定の閾値ＮTHを上回るか否かを判定する（ＳD1）。利用回数Ｎが閾値ＮTHを上回る場合（ＳD1：YES）、応答生成部３６Dは、図１８に例示される通り、所定の基礎値ｗ0（例えば150ms）を待機時間Ｗとして設定する（ＳD2）。他方、利用回数Ｎが閾値ＮTHを下回る場合（ＳD1：NO）、応答生成部３６Dは、図１９に例示される通り、基礎値ｗ0に所定の調整値（オフセット）δwを加算した数値(ｗ0＋δw)を待機時間Ｗとして設定する（ＳD3）。調整値δwは所定の正数に設定される。なお、以上の説明では、利用回数Ｎが閾値ＮTHを上回るか否かに応じて待機時間Ｗを２値的に制御したが、利用回数Ｎに応じて待機時間Ｗを多値的または連続的に変化させることも可能である。

応答生成部３６Dは、以上の処理で利用履歴Ｈに応じて設定した待機時間Ｗが発話音声Ｖxの終点ｔBから経過するまで待機する（ＳD4：NO）。待機時間Ｗの経過により応答再生点ｔyが到来すると（ＳD4：YES）、応答生成部３６Dは、記憶装置２２に記憶された応答信号Ｙを再生装置２６に供給することで応答音声Ｖyを再生させる（ＳD5）。以上の説明から理解される通り、第４実施形態の応答生成部３６Dは、音声対話装置１００Dの利用履歴Ｈに応じた韻律（第４実施形態では待機時間Ｗ）の応答音声Ｖyを再生装置２６に再生させる。具体的には、利用履歴Ｈが示す利用回数Ｎが多い場合には、基礎値ｗ0の待機時間Ｗの経過により応答音声Ｖyが再生され、利用回数Ｎが少ない場合には、基礎値ｗ0に調整値δwを加算した待機時間Ｗの経過により応答音声Ｖyが再生される。すなわち、利用回数Ｎが多い場合に待機時間Ｗは短くなる。

以上に説明した通り、第４実施形態では、音声対話装置１００Dによる音声対話の利用履歴Ｈに応じた韻律（待機時間Ｗ）の応答音声Ｖyが再生されるから、特定相手との対話の反復とともに発話音声の韻律が経時的に変化するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第４実施形態では特に、発話音声Ｖxと応答音声Ｖyとの間隔である待機時間Ｗが利用履歴Ｈに応じて制御される。したがって、初対面で対話を開始した直後の段階では、発話と応答との間隔が長く、当該対話相手との対話が反復されるにつれて当該間隔が短縮されるという現実の対話の傾向を模擬した自然な音声対話が実現される。

＜変形例＞
前述の各形態で例示した音声対話装置１００（１００A，１００B，１００C，１００D）は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）第１実施形態ないし第４実施形態から選択された任意の２以上の構成を組合せることも可能である。具体的には、発話音声Ｖxの韻律（例えば音高Ｐ）に応じて応答音声Ｖyの韻律を制御する第１実施形態の構成は、第２実施形態から第４実施形態にも同様に適用され得る。例えば、第２実施形態では、図９のステップＳB3またはステップＳB4で選択した応答信号Ｙの韻律を発話音声Ｖxの韻律（例えば音高Ｐ）に応じて制御したうえで再生装置２６から再生させることも可能である。同様に、第３実施形態では、図１２のステップＳC2またはステップＳC3で選択した応答信号Ｙの韻律を発話音声Ｖxの韻律に応じて制御する構成が採用され、第４実施形態では、図１７のステップＳD5で記憶装置２２から取得した応答信号Ｙの韻律を発話音声Ｖxの韻律に応じて制御する構成が採用され得る。第２実施形態から第４実施形態に第１実施形態を適用した構成では、第１実施形態と同様に、例えば、応答音声Ｖyのうち特定のモーラ（典型的には最後のモーラ）の始点における音高が発話音声Ｖxの末尾区間Ｅ内の最低音高Ｐminに一致するように、応答信号Ｙの音高が調整される。

発話音声Ｖxに対する問返しの第１応答音声Ｖy1と問返し以外の第２応答音声Ｖy2とを選択的に再生させる第３実施形態の構成を、第３実施形態以外の各形態に適用することも可能である。また、音声対話の利用履歴Ｈに応じて応答音声Ｖyの韻律（例えば待機時間Ｗ）を制御する第４実施形態の構成を、第１実施形態から第３実施形態に適用することも可能である。

（２）前述の各形態の音声対話に関連する各種の変数は、例えば利用者Ｕからの指示に応じて可変に設定される。例えば、応答音声Ｖyの再生音量を利用者Ｕからの指示に応じて制御する構成や、発話者の性別または声質（優しい音声，厳しい音声）が相違する複数種の応答音声Ｖyのうち実際に再生装置２６から再生する応答音声Ｖyの種類を利用者Ｕからの指示に応じて選択する構成も採用され得る。また、第１実施形態から第３実施形態において、発話音声Ｖxの終点ｔBから応答音声Ｖyの応答再生点ｔyまでの待機時間Ｗの時間長を利用者Ｕからの指示に応じて設定することも可能である。

（３）第３実施形態の変形例では、発話音声Ｖxに対する問返しの第１応答音声Ｖy1の再生頻度を利用者Ｕからの指示に応じて可変に設定したが、利用者Ｕからの指示以外の要素に応じて第１応答音声Ｖy1の再生頻度を制御することも可能である。具体的には、第３実施形態の応答生成部３６Dが、第４実施形態で例示した利用履歴Ｈに応じて第１応答音声Ｖy1の再生頻度を制御する構成が採用され得る。例えば、現実の人間同士の対話では、特定の対話相手との対話を反復するほど当該対話相手の発話の特徴（例えば口癖や口調）を把握でき、結果的に発話音声に対する問返しの頻度は低下する、という傾向が想定される。以上の傾向を考慮すると、利用履歴Ｈが示す利用回数Ｎが多いほど第１応答音声Ｖy1の再生頻度を低下させる構成が好適である。

（４）第４実施形態では、音声対話の利用回数Ｎを利用履歴Ｈとして例示したが、利用履歴Ｈは利用回数Ｎに限定されない。例えば、音声対話内の応答音声Ｖyの再生を１回とした回数や、音声対話の利用頻度（単位時間毎の利用回数）、音声対話の使用期間（例えば音声対話装置１００の最初の使用からの経過時間）、音声対話装置１００を最後に使用してからの経過時間を、利用履歴Ｈとして待機時間Ｗの制御に適用することも可能である。

（５）第１実施形態では、記憶装置２２に事前に記憶された音声信号Ｚから応答信号Ｙを生成および再生し、第２実施形態から第４実施形態では、記憶装置２２に事前に記憶された応答信号Ｙを再生したが、特定の発話内容の応答音声Ｖyを表す応答信号Ｙを、例えば公知の音声合成技術により合成することも可能である。応答信号Ｙの合成には、例えば、素片接続型の音声合成や、隠れマルコフモデル等の統計モデルを利用した音声合成が好適に利用される。また、発話音声Ｖxや応答音声Ｖyは人間の発声音に限定されない。例えば動物の鳴き声を発話音声Ｖxや応答音声Ｖyとすることも可能である。

（６）前述の各形態では、音声対話装置１００が音声入力装置２４と再生装置２６とを具備する構成を例示したが、音声対話装置１００とは別体の装置（音声入出力装置）に音声入力装置２４および再生装置２６を設置することも可能である。音声対話装置１００は、例えば携帯電話機やスマートフォン等の端末装置で実現され、音声入出力装置は、例えば動物型の玩具やロボット等の電子機器で実現される。音声対話装置１００と音声入出力装置とは無線または有線で通信可能である。すなわち、音声入出力装置の音声入力装置２４が生成した発話信号Ｘは無線または有線で音声対話装置１００に送信され、音声対話装置１００が生成した応答信号Ｙは無線または有線で音声入出力装置の再生装置２６に送信される。

（７）前述の各形態では、携帯電話機等やパーソナルコンピュータ等の情報処理装置で音声対話装置１００を実現したが、音声対話装置１００の一部または全部の機能をサーバ装置（いわゆるクラウドサーバ）で実現することも可能である。具体的には、移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置により音声対話装置１００が実現される。例えば、音声対話装置１００は、端末装置の音声入力装置２４が生成した発話信号Ｘを当該端末装置から受信し、前述の各形態に係る構成により発話信号Ｘから応答信号Ｙを生成する。そして、音声対話装置１００は、発話信号Ｘから生成した応答信号Ｙを端末装置に送信し、当該端末装置の再生装置２６に応答音声Ｖyを再生させる。音声対話装置１００は、単体の装置または複数の装置の集合（すなわちサーバシステム）で実現される。また、前述の各形態に係る音声対話装置１００の一部の機能（例えば音声取得部３２，音声解析部３４A，３４C，応答生成部３６A，３６B，３６C，３６D，履歴管理部３８の少なくとも一部）をサーバ装置により実現し、他の機能を端末装置で実現することも可能である。音声対話装置１００が実現する各機能をサーバ装置および端末装置の何れで実現するか（機能の分担）は任意である。

（８）前述の各形態では、発話音声Ｖxに対して特定の発話内容（例えば「うん」等の相鎚）の応答音声Ｖyを再生したが、応答音声Ｖyの発話内容は以上の例示に限定されない。例えば、発話信号Ｘに対する音声認識および形態素解析で発話音声Ｖxの発話内容を解析し、当該発話内容に対して適切な内容の応答音声Ｖyを複数の候補から選択して再生装置２６に再生させることも可能である。なお、音声認識や形態素解析を実行しない構成（例えば第１実施形態から第４実施形態の例示）では、発話音声Ｖxとは無関係に事前に用意された発話内容の応答音声Ｖyが再生される。したがって、単純に考えると、自然な対話は成立しないようにも推測され得るが、前述の各形態の例示のように応答音声Ｖyの韻律が多様に制御されることで、実際には、人間同士の自然な対話のような感覚を利用者Ｕは感取することが可能である。他方、音声認識や形態素解析を実行しない構成によれば、これらの処理に起因した処理遅延や処理負荷が低減ないし解消されるという利点がある。

（９）前述の各形態で例示した音声対話装置１００（１００A，１００B，１００C，１００D）を、実際の人間同士の対話の評価に利用することも可能である。例えば、実際の人間同士の対話で観測される応答音声（以下「観測音声」という）の韻律を、前述の形態で生成された応答音声Ｖyの韻律と比較し、両者間で韻律が類似する場合には観測音声を適切と評価する一方、両者間で韻律が乖離する場合には観測音声を不適切と評価することが可能である。以上に例示した評価を実行する装置（対話評価装置）は、人間同士の対話の訓練にも利用され得る。

（１０）前述の各形態で例示した音声対話装置１００（１００A，１００B，１００C，１００D）は、前述の通り、制御装置２０と音声対話用のプログラムとの協働で実現され得る。音声対話用のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。また、前述の各形態で例示した音声対話装置１００の動作方法（音声対話方法）としても本発明は実現され得る。音声対話方法の動作主体となるコンピュータ（音声対話装置１００）は、例えば単体のコンピュータまたは複数のコンピュータで構成されるシステムである。

１００（１００A，１００B，１００C，１００D）……音声対話装置、２０……制御装置、２２……記憶装置、２４……音声入力装置、２４２……収音装置、２４４……Ａ/Ｄ変換器、２６……再生装置、２６２……Ｄ/Ａ変換器、２６４……放音装置、３２……音声取得部、３４A，３４C……音声解析部、３６A，３６B，３６C，３６D……応答生成部、３８……履歴管理部。

Claims

発話音声の音高を特定し、
前記音高の平均値または変動幅に応じて、前記発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる
コンピュータにより実現される音声対話方法。
発話音声の音量を特定し、
前記音量の変動幅に応じて、前記発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる
コンピュータにより実現される音声対話方法。
発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる方法であって、
複数の発話音声からランダムに選択された発話音声に対して前記第１応答音声を再生させる
コンピュータにより実現される音声対話方法。
発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる、コンピュータにより実現される音声対話方法であって、
複数の発話音声のうち可変の再生頻度で選択された発話音声に対して前記第１応答音声を再生させる
音声対話方法。
音声対話の利用履歴に応じて前記第１応答音声の再生頻度を設定する
請求項４の音声対話方法。
発話音声の音高を特定する音声解析部と、
前記音声解析部が特定した音高の平均値または変動幅に応じて、前記発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部と
を具備する音声対話装置。
発話音声の音量を特定する音声解析部と、
前記音量の変動幅に応じて、前記発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部と
を具備する音声対話装置。
発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部を具備し、
前記応答生成部は、複数の発話音声からランダムに選択された発話音声に対して前記第１応答音声を再生させる
音声対話装置。
発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部を具備し、
前記応答生成部は、複数の発話音声のうち可変の再生頻度で選択された発話音声に対して前記第１応答音声を再生させる
音声対話装置。
コンピュータを、
発話音声の音高を特定する音声解析部、および、
前記音声解析部が特定した音高の平均値または変動幅に応じて、前記発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部
として機能させるプログラム。
コンピュータを、
発話音声の音量を特定する音声解析部、および、
前記音量の変動幅に応じて、前記発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部
として機能させるプログラム。
コンピュータを、
発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部として機能させるプログラムであって、
前記応答生成部は、複数の発話音声からランダムに選択された発話音声に対して前記第１応答音声を再生させる
プログラム。
コンピュータを、
発話音声に対する問返しを表す第１応答音声と、問返し以外の第２応答音声とを選択的に再生装置に再生させる応答生成部として機能させるプログラムであって、
前記応答生成部は、複数の発話音声のうち可変の再生頻度で選択された発話音声に対して前記第１応答音声を再生させる
プログラム。