<第1実施形態>
図1は、本発明の第1実施形態に係る音声対話装置100Aの構成図である。第1実施形態の音声対話装置100Aは、利用者Uが発音した音声(以下「発話音声」という)Vxに対する応答の音声(以下「応答音声」という)Vyを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置100Aとして利用され得る。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)やロボットの形態で音声対話装置100Aを実現することも可能である。
発話音声Vxは、例えば問掛け(質問)および話掛けを含む発話の音声であり、応答音声Vyは、問掛けに対する回答や話掛けに対する受応えを含む応答の音声である。応答音声Vyには、例えば間投詞を意味する音声も包含される。間投詞は、他の分節から独立して利用されて活用のない自立語(感動詞,感嘆詞)である。具体的には、発話に対する相鎚を表す「うん」「ええ」等の語句や、言淀み(応答の停滞)を表す「え〜と」「あの〜」等の語句、応答(質問に対する肯定/否定)を表す「はい」「いいえ」等の語句、話者の感動を表す「ああ」「おお」等の語句、あるいは、発話に対する問返し(聞き直し)を意味する「え?」「なに?」等の語句が、間投詞として例示され得る。
第1実施形態の音声対話装置100Aは、発話音声Vxの韻律に応じた韻律の応答音声Vyを生成する。韻律(プロソディ)は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記(例えば韻律を表す特別な表記を除いた表記)のみからでは把握できない性質を意味する。韻律は、発話者の意図や感情を受聴者に想起ないし推測させ得る特性とも換言され得る。具体的には、抑揚(音声の調子の変化,イントネーション),音調(音声の高低や強弱),音長(発話長),話速,リズム(音調の時間的な変化の構造),アクセント(高低または強弱のアクセント)等の種々の特徴が、韻律の概念には包含され得るが、韻律の典型例は音高(基本周波数)または音量である。
図1に例示される通り、第1実施形態の音声対話装置100Aは、制御装置20と記憶装置22と音声入力装置24と再生装置26とを具備する。音声入力装置24は、例えば利用者Uの発話音声Vxを表す音声信号(以下「発話信号」という)Xを生成する要素であり、収音装置242とA/D変換器244とを具備する。収音装置(マイクロホン)242は、利用者Uが発音した発話音声Vxを収音して当該発話音声Vxの音圧変動を表すアナログの音声信号を生成する。A/D変換器244は、収音装置242が生成した音声信号をデジタルの発話信号Xに変換する。
制御装置20は、音声対話装置100Aの各要素を統括的に制御する演算処理装置(例えばCPU)である。第1実施形態の制御装置20は、音声入力装置24から供給される発話信号Xを取得し、発話音声Vxに対する応答音声Vyを表す応答信号Yを生成する。再生装置26は、制御装置20が生成した応答信号Yに応じた応答音声Vyを再生する要素であり、D/A変換器262と放音装置264とを具備する。D/A変換器262は、制御装置20が生成したデジタルの応答信号Yをアナログの音声信号に変換し、放音装置264(例えばスピーカまたはヘッドホン)は、変換後の音声信号に応じた応答音声Vyを音波として放音する。再生装置26には、応答信号Yを増幅する増幅器等の処理回路も包含され得る。
記憶装置22は、制御装置20が実行するプログラムや制御装置20が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置22として任意に採用され得る。第1実施形態の記憶装置22は、特定の発話内容の応答音声を表す音声信号Zを記憶する。以下の説明では、間投詞の一例である相鎚を意味する「うん」等の応答音声の音声信号Zが記憶装置22に記憶された場合を例示する。音声信号Zは、事前に収録され、例えばwav形式等の任意の形式の音声ファイルとして記憶装置22に記憶される。
制御装置20は、記憶装置22に記憶されたプログラムを実行することで、利用者Uとの対話を成立させるための複数の機能(音声取得部32,音声解析部34A,応答生成部36A)を実現する。なお、制御装置20の機能を複数の装置(すなわちシステム)で実現した構成、または、制御装置20の機能の一部を専用の電子回路が分担する構成も採用され得る。
図1の音声取得部32は、発話音声Vxを表す発話信号Xを取得する。第1実施形態の音声取得部32は、音声入力装置24が生成した発話信号Xを音声入力装置24から取得する。音声解析部34Aは、音声取得部32が取得した発話信号Xから発話音声Vxの音高(基本周波数)Pを特定する。音高Pの特定は所定の周期で順次に実行される。すなわち、時間軸上の相異なる複数の時点の各々について音高Pが特定される。発話音声Vxの音高Pの特定には公知の技術が任意に採用され得る。なお、発話信号Xのうち特定の周波数帯域の音響成分を抽出して音高Pを特定することも可能である。音声解析部34Aによる解析の対象となる周波数帯域は、例えば利用者Uからの指示(例えば男声/女声の指定)に応じて可変に設定される。また、発話音声Vxの音高Pに応じて解析対象の周波数帯域を動的に変更することも可能である。
応答生成部36Aは、音声取得部32が取得した発話信号Xの発話音声Vxに対する応答音声Vyを再生装置26に再生させる。具体的には、応答生成部36Aは、利用者Uによる発話音声Vxの発音を契機として応答音声Vyの応答信号Yを生成し、当該応答信号Yを再生装置26に供給することで応答音声Vyを再生装置26に再生させる。第1実施形態の応答生成部36Aは、記憶装置22に記憶された音声信号Zの韻律を、音声解析部34Aが特定した発話音声Vxの音高Pに応じて調整することで、応答音声Vyの応答信号Yを生成する。すなわち、音声信号Zが表す初期的な応答音声を発話音声Vxの韻律に応じて調整した応答音声Vyが再生装置26から再生される。
現実の人間同士の対話では、発話者の発話音声のうち終点付近の音高に対応した音高で、当該発話音声に対する応答音声を対話相手が発音する(すなわち応答音声の音高が発話音声の終点付近の音高に依存する)、という傾向が観測される。以上の傾向を考慮して、第1実施形態の応答生成部36Aは、音声解析部34Aが特定した発話音声Vxの音高Pに応じて音声信号Zの音高を調整することで、応答音声Vyの応答信号Yを生成する。
図2は、第1実施形態の制御装置20が実行する処理のフローチャートである。例えば音声対話装置100Aに対する利用者Uからの指示(例えば音声対話用のプログラムの起動指示)を契機として図2の処理が開始される。
図2の処理を開始すると、音声取得部32は、利用者Uが発話音声Vxの発音を開始するまで待機する(S10:NO)。具体的には、音声取得部32は、音声入力装置24から供給される発話信号Xを解析することで発話音声Vxの音量を順次に特定し、発話音声Vxの音量が所定の閾値(例えば事前に選定された固定値または利用者Uからの指示に応じた可変値)を上回る状態が所定の時間長にわたり継続した場合に、発話音声Vxが開始したと判断する。なお、発話音声Vxの開始(すなわち発話区間の始点)の検出方法は任意である。例えば、発話音声Vxの音量が閾値を上回り、かつ、音声解析部34Aが有意な音高Pを検出した場合に、発話音声Vxが開始したと判断することも可能である。
発話音声Vxが開始すると(S10:YES)、音声取得部32は、音声入力装置24から発話信号Xを取得して記憶装置22に格納する(S11)。音声解析部34Aは、音声取得部32が取得した発話信号Xから発話音声Vxの音高Pを特定して記憶装置22に格納する(S12)。
音声取得部32は、利用者Uが発話音声Vxの発音を終了したか否かを判定する(S13)。具体的には、音声取得部32は、発話信号Xから特定される発話音声Vxの音量が所定の閾値(例えば事前に選定された固定値または利用者Uからの指示に応じた可変値)を下回る状態が所定の時間長にわたり継続した場合に、発話音声Vxが終了したと判断する。ただし、発話音声Vxの終了(すなわち発話区間の終点)の検出には公知の技術が任意に採用され得る。以上の説明から理解される通り、発話音声Vxの発話が継続される発話期間内は(S13:NO)、音声取得部32による発話信号Xの取得(S11)と音声解析部34Aによる発話音声Vxの音高Pの特定(S12)とが反復される。
以上に説明した処理の結果、図3および図4に例示される通り、発話音声Vxの始点から終点tBまでの発話区間について当該発話音声Vxの複数の音高Pの時系列が特定される。図3では、発話相手の感情や意図等の認識を発話者が問掛ける「楽しいね?」という疑問文の発話音声Vxを利用者Uが発音した場合が想定されている。図4では、発話者自身の感情や意図等の認識を表現したり当該認識に対する同意を発話相手に要求したりする平叙文の発話音声Vxを利用者Uが発音した場合が想定されている。
発話音声Vxが終了すると(S13:YES)、当該発話音声Vxに対する応答音声Vyを再生装置26に再生させるための処理(以下「応答生成処理」という)SAを応答生成部36Aが実行する。第1実施形態の応答生成処理SAは、前述の通り、音声解析部34Aが特定した発話音声Vxの音高Pに応じて音声信号Zの音高を調整することで、応答音声Vyの応答信号Yを生成する処理である。
図5は、応答生成処理SAの具体例のフローチャートである。前述の通り、発話音声Vxの終了(S13:YES)を契機として図5の応答生成処理SAが開始される。応答生成処理SAを開始すると、応答生成部36Aは、図3および図4に例示される通り、発話音声Vxのうち当該発話音声Vxの終点tBを含む区間(以下「末尾区間」という)Eについて音声解析部34Aが特定した複数の音高Pのうちの最低値(以下「最低音高」という)Pminを発話音声Vxの韻律として特定する(SA1)。末尾区間Eは、例えば発話音声Vxのうち発話音声Vxの終点tBから手前側の所定長(例えば数秒)にわたる一部の区間である。図3から理解される通り、疑問文の発話音声Vxでは終点tBの近傍にて音高Pが上昇する傾向がある。したがって、発話音声Vxの音高Pの推移が低下から上昇に転換する極小点での音高Pが最低音高Pminとして特定される。他方、図4から理解される通り、平叙文の発話音声Vxでは終点tBにかけて音高Pが単調に低下する傾向がある。したがって、発話音声Vxの終点tBでの音高Pが最低音高Pminとして特定される。
応答生成部36Aは、発話音声Vxの最低音高Pminに応じた音高の応答音声Vyを表す応答信号Yを生成する(SA2)。具体的には、応答生成部36Aは、図3および図4に例示される通り、応答音声Vyのうち時間軸上の特定の時点(以下「目標点」という)τでの音高が最低音高Pminに一致するように音声信号Zの音高を調整することで、応答音声Vyの応答信号Yを生成する。目標点τの好適例は、応答音声Vyを構成する複数のモーラのうち特定のモーラ(典型的には最後のモーラ)の始点である。例えば、「うん」という応答音声の音声信号Zを想定すると、図3および図4から理解される通り、音声信号Zのうち最後のモーラである「ん」の始点の音高が最低音高Pminに一致するように音声信号Zの全区間にわたる音高を調整(ピッチシフト)することで、応答音声Vyの応答信号Yが生成される。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τは、応答音声Vyのうち最後のモーラの始点に限定されない。例えば、応答音声Vyの始点や終点を目標点τとして音高を調整することも可能である。
以上の手順で応答信号Yを生成すると、応答生成部36Aは、応答音声Vyの再生を開始すべき時点(以下「応答再生点」という)tyの到来まで待機する(SA3:NO)。応答再生点tyは、例えば、発話音声Vxの終点tBから所定の時間(例えば150ms)が経過した時点である。
応答再生点tyが到来すると(SA3:YES)、応答生成部36Aは、最低音高Pminに応じた調整後の応答信号Yを再生装置26に供給することで応答音声Vyを再生させる(SA4)。すなわち、発話音声Vxの終点tBから所定の時間が経過した応答再生点tyにて応答音声Vyの再生が開始される。なお、応答生成部36Aが、応答信号Yの生成(ピッチシフト)に並行して実時間的に、応答再生点tyから応答信号Yを再生装置26に順次に供給して応答音声Vyを再生させることも可能である。以上の説明から理解される通り、第1実施形態の応答生成部36Aは、発話音声Vxの末尾区間Eにおける最低音高Pminに応じた音高の応答音声Vyを再生装置26に再生させる要素として機能する。
以上に例示した応答生成処理SAが完了すると、制御装置20は、図2に例示される通り、音声対話の終了が利用者Uから指示されたか否かを判定する(S14)。音声対話の終了が指示されていない場合(S14:NO)、処理はステップS10に遷移する。すなわち、発話音声Vxの開始(S10:YES)を契機として、音声取得部32による発話信号Xの取得(S11)と、音声解析部34Aによる音高Pの特定(S12)と、応答生成部36Aによる応答生成処理SAとが実行される。以上の説明から理解される通り、発話音声Vxの音高Pに応じた音高の応答音声Vyが発話音声Vxの発音毎に再生される。すなわち、利用者Uによる任意の発話音声Vxの発音と、当該発話音声Vxに対する相鎚の応答音声Vy(例えば「うん」という応答音声)の再生とが交互に反復される音声対話が実現される。音声対話の終了が利用者Uから指示されると(S14:YES)、制御装置20は図2の処理を終了する。
以上に説明した通り、第1実施形態では、発話音声Vxの終点tBを含む末尾区間E内の最低音高Pminに応じた音高の応答音声Vyが再生装置26から再生される。したがって、発話音声の終点付近の音高に対応した音高で対話相手が応答音声を発音するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第1実施形態では特に、応答音声Vyのうち最後のモーラの始点(目標点τ)での音高が最低音高Pminに一致するように応答音声Vyが再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
<第1実施形態の変形例>
(1)第1実施形態では、応答音声Vyのうち目標点τの音高を発話音声Vxの末尾区間E内の最低音高Pminに一致させる構成を例示したが、応答音声Vyの目標点τでの音高と発話音声Vxの最低音高Pminとの関係は以上の例示(両者が一致する関係)に限定されない。例えば、応答音声Vyの目標点τでの音高を、最低音高Pminに所定の調整値(オフセット)δpを加算または減算した音高に一致させることも可能である。調整値δpは、事前に選定された固定値(例えば最低音高Pminに対して5度等の音程に相当する数値)または利用者Uからの指示に応じた可変値である。また、調整値δpをオクターブの整数倍に相当する数値に設定した構成によれば、最低音高Pminをオクターブシフトした音高の応答音声Vyが再生される。調整値δpを適用するか否かを利用者Uからの指示に応じて切替えることも可能である。
(2)第1実施形態では、発話音声Vxの音高P(具体的には末尾区間Eの最低音高Pmin)に応じて応答音声Vyの音高を制御したが、応答音声Vyの韻律の制御に利用される発話音声Vxの韻律の種類や、発話音声Vxの韻律に応じて制御される応答音声Vyの韻律の種類は、音高に限定されない。例えば、発話音声Vxの音量(韻律の一例)に応じて応答音声Vyの韻律を制御する構成や、発話音声Vxの音高または音量の変動の範囲(韻律の他例)に応じて応答音声Vyの韻律を制御する構成も採用される。また、発話音声Vxの韻律に応じて応答音声Vyの音量(韻律の一例)を制御する構成や、発話音声Vxの韻律に応じて応答音声Vyの音高または音量の変動の範囲(韻律の他例)を制御する構成も採用され得る。
(3)現実の人間同士の対話では、応答音声の韻律が発話音声の韻律に応じて一律に決定されるわけでは必ずしもない。すなわち、応答音声の韻律は、発話音声の韻律に依存するとともに発話音声の発音毎に変動し得るという傾向がある。以上の傾向を考慮すると、再生装置26から再生される応答音声Vyの韻律(例えば音高や音量)を、応答生成部36Aが発話音声Vx毎に変動させることも可能である。具体的には、前述の変形例の通り、最低音高Pminに調整値δpを加算または減算した音高となるように応答音声Vyの音高を調整する構成では、応答生成部36Aは、発話音声Vxの発音毎に調整値δpを可変に制御する。例えば、応答生成部36Aは、発話音声Vxの発音毎に所定の範囲内の乱数を発生させ、当該乱数を調整値δpとして設定する。以上の構成によれば、応答音声の韻律が発話音声の発音毎に変動し得るという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
(4)第1実施形態では、1種類の音声信号Zの音高を調整して応答信号Yを生成したが、音高が相違する複数種の音声信号Zを応答信号Yの生成に利用することも可能である。例えば、複数種の音声信号Zのうち発話音声Vxの最低音高Pminに最も近似する音声信号Zの音高を調整して応答信号Yを生成する構成が想定され得る。
(5)第1実施形態では、応答音声Vyを再生装置26から再生したが、音声取得部32が取得した発話信号Xを再生装置26に供給することで発話音声Vxも再生装置26から再生することが可能である。発話音声Vxを再生装置26から再生するか否かを利用者Uからの指示に応じて切替える構成も採用され得る。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図6は、本発明の第2実施形態に係る音声対話装置100Bの構成図である。第2実施形態の音声対話装置100Bは、第1実施形態の音声対話装置100Aと同様に、利用者Uが発音した発話音声Vxに対する応答音声Vyを再生する。図6に例示される通り、第2実施形態の音声対話装置100Bは、第1実施形態の音声対話装置100Aの応答生成部36Aを応答生成部36Bに置換した構成である。音声対話装置100Bの他の要素(音声入力装置24,再生装置26,音声取得部32,音声解析部34A)の構成や動作は第1実施形態と同様である。
現実の人間同士の対話では、発話者の発話内容(疑問文であるか平叙文であるか)に応じた韻律で対話相手が応答音声を発音するという傾向が観測される。例えば、疑問文に対する応答音声と平叙文に対する応答音声とでは韻律が相違する。具体的には、疑問文に対する回答の音声は、平叙文に対する相鎚の音声と比較すると、例えば応答者の回答(肯定/否定)を発話者に明確に認識させる必要性から、比較的に大きい音量で抑揚(音量または音高の時間変動)を強調して発音される、という傾向がある。以上の傾向を考慮して、第2実施形態の応答生成部36Bは、発話音声Vxによる発話内容(疑問文/平叙文の区別)に応じた韻律の応答音声Vyを再生装置26に再生させる。
図7には、疑問文の発話音声Vxの音高Pの推移が例示され、図8には、平叙文の発話音声Vxの音高Pの推移が例示されている。図7および図8から理解される通り、発話音声Vxの発話内容が疑問文である場合と平叙文である場合とでは、発話音声Vxのうち末尾の近傍における音高Pの推移(時間的な変動の傾向)が相違する、という傾向がある。具体的には、疑問文の発話音声Vxの音高Pは、図7に例示される通り、末尾区間E内で低下から上昇に転換または単調に上昇するが、平叙文の発話音声Vxの音高Pは、図8に例示される通り、末尾区間Eの始点tAから終点tBにかけて単調に低下する。したがって、発話音声Vxの末尾の近傍(末尾区間E)における音高Pの推移を解析することで、発話音声Vxの発話内容が疑問文および平叙文の何れに該当するかを推定することが可能である。
以上の傾向を考慮して、第2実施形態の応答生成部36Bは、発話音声Vxのうち末尾区間Eにおける音高Pの推移(すなわち疑問文/平叙文の区別)に応じた韻律の応答音声Vyを再生装置26に再生させる。具体的には、図7に例示される通り、発話音声Vxの音高Pの推移が末尾区間E内で低下から上昇に転換する場合または発話音声Vxの音高Pが末尾区間E内で単調に上昇する場合(すなわち発話内容が疑問文であると推定される場合)には、疑問文に好適な韻律の応答音声Vyが再生装置26から再生される。他方、図8に例示される通り、発話音声Vxの音高Pが末尾区間E内で単調に低下する場合(すなわち発話内容が平叙文であると推定される場合)には、平叙文に好適な韻律の応答音声Vyが再生装置26から再生される。
図6に例示される通り、第2実施形態の音声対話装置100Bの記憶装置22は、特定の発話内容の応答音声Vyを事前に収録した応答信号YAおよび応答信号YBを記憶する。応答信号YAおよび応答信号YBは、発話内容(文字表記)は相互に共通するが韻律が相違する。具体的には、応答信号YAが表す応答音声Vyは、疑問文の発話音声Vxに対する肯定的な回答の意図で発音された「うん」の音声であり、応答信号YBが表す応答音声Vyは、平叙文の発話音声Vxに対する相鎚の意図で発音された「うん」の音声である。具体的には、応答信号YAの応答音声Vyは、応答信号YBの応答音声Vyと比較して音量が大きく、音量および音高の変動の範囲(すなわち抑揚)が広いという韻律の差異がある。第2実施形態の応答生成部36Bは、記憶装置22に記憶された応答信号YAおよび応答信号YBの何れかを再生装置26に対して選択的に供給することで、韻律が相違する複数の応答音声Vyを選択的に再生させる。なお、応答信号YAと応答信号YBとで発音内容を相違させることも可能である。
図9は、第2実施形態の応答生成部36Bが応答音声Vyを再生装置26に再生させるための応答生成処理SBのフローチャートである。第2実施形態では、第1実施形態で例示した図2の応答生成処理SAが図9の応答生成処理SBに置換される。応答生成処理SB以外の処理は第1実施形態と同様である。発話音声Vxの終了(S13:YES)を契機として図9の応答生成処理SBが開始される。
応答生成処理SBを開始すると、応答生成部36Bは、発話音声Vxの末尾区間Eのうち第1区間E1内の複数の音高Pの平均(以下「第1平均音高」という)Pave1と、第2区間E2内の複数の音高Pの平均(以下「第2平均音高」という)Pave2とを算定する(SB1)。図7および図8に例示される通り、第1区間E1は、末尾区間Eのうち前方の区間(例えば末尾区間Eの始点tAを含む区間)であり、第2区間E2は、末尾区間Eのうち第1区間E1の後方の区間(例えば末尾区間Eの終点tBを含む区間)である。具体的には、末尾区間Eの前半が第1区間E1として画定され、末尾区間Eの後半が第2区間E2として画定される。ただし、第1区間E1および第2区間E2の条件は以上の例示に限定されない。例えば第1区間E1と第2区間E2とが間隔をあけて前後する構成や、第1区間E1と第2区間E2とで時間長を相違させた構成も採用され得る。
応答生成部36Bは、第1区間E1の第1平均音高Pave1と第2区間E2の第2平均音高Pave2とを比較し、第1平均音高Pave1が第2平均音高Pave2を下回るか否かを判定する(SB2)。前述の通り、疑問文の発話音声Vxの音高Pの推移は末尾区間E内で低下から上昇に転換または単調に上昇するという傾向がある。したがって、図7に例示される通り、第1平均音高Pave1は第2平均音高Pave2を下回る可能性が高い(Pave1<Pave2)。他方、平叙文の発話音声Vxの音高Pは末尾区間E内で単調に低下するという傾向がある。したがって、図8に例示される通り、第1平均音高Pave1は第2平均音高Pave2を上回る可能性が高い(Pave1>Pave2)。
以上の傾向を考慮して、第1平均音高Pave1が第2平均音高Pave2を下回る場合(SB2:YES)、すなわち、発話音声Vxが疑問文である可能性が高い場合には、第2実施形態の応答生成部36Bは、疑問文に対する回答の応答音声Vyに対応する応答信号YAを記憶装置22から選択する(SB3)。他方、第1平均音高Pave1が第2平均音高Pave2を上回る場合(SB2:NO)、すなわち、発話音声Vxが平叙文である可能性が高い場合には、応答生成部36Bは、平叙文に対する同意の応答音声Vyに対応する応答信号YBを記憶装置22から選択する(SB4)。
発話音声Vxの音高Pの推移に応じた応答信号Y(Y1,Y2)を以上の手順で選択すると、応答生成部36Bは、第1実施形態と同様に、応答再生点tyの到来(SB5:YES)を契機として当該応答信号Yを再生装置26に供給することで応答音声Vyを再生させる(SB6)。具体的には、発話音声Vxの音高Pが末尾区間E内で低下から上昇に転換する場合または発話音声Vxの音高Pが末尾区間E内で単調に上昇する場合(SB2:YES)には疑問文に対する回答の応答音声Vyが再生され、発話音声Vxの音高Pが末尾区間E内で単調に低下する場合(SB2:NO)には平叙文に対する同意の応答音声Vyが再生される。すなわち、再生装置26から再生される応答音声Vyの韻律は、発話音声Vxが疑問文である場合と平叙文である場合とで相違する。
音声取得部32による発話信号Xの取得(S11)と、音声解析部34Aによる音高Pの特定(S12)と、応答生成部36Bによる応答生成処理SBとは、音声対話の終了が利用者Uから指示されるまで反復される(S14:NO)。したがって、第1実施形態と同様に、利用者Uによる任意の発話音声Vxの発音と、当該発話音声Vxに対する応答音声Vyの再生とが交互に反復される音声対話が実現される。
以上に説明した通り、第2実施形態では、発話音声Vxの末尾区間Eにおける音高Pの推移に応じた韻律の応答音声Vyが再生装置26から再生される。したがって、発話者の発話内容に応じた韻律で対話相手が応答音声を発音するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第2実施形態では特に、末尾区間E内で音高Pの推移が低下から上昇に転換する場合または末尾区間E内で音高Pが単調に上昇する場合と、末尾区間Eの始点tAから終点tBにかけて音高Pが単調に低下する場合とで応答音声Vyの韻律が相違するから、疑問文と平叙文とで応答音声の韻律が相違するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
また、第2実施形態では、末尾区間Eのうち第1区間E1内の第1平均音高Pave1と第2区間E2の第2平均音高Pave2とを比較した結果に応じて応答音声Vyの韻律を相違させるから、複数の音高Pの平均および比較という簡便な処理で音高Pの推移を評価できる(ひいては応答音声Vyの韻律を選択できる)という利点がある。
<第2実施形態の変形例>
(1)第2実施形態では、記憶装置22に事前に記憶された複数の応答信号Y(YA,YB)を選択的に再生装置26に供給したが、事前に収録された単一の応答信号Yを調整することで、発話音声Vxの末尾区間E内の音高Pの推移に応じた韻律の応答信号Yを応答生成部36Bが生成することも可能である。例えば、平叙文に対する応答音声Vyの応答信号YAを記憶装置22に保持した構成を想定すると、応答生成部36Bは、発話音声Vxが疑問文である場合、応答信号YAの音量を増加させるとともに音量および音高の変動の範囲を拡大することで回答の応答音声Vyの応答信号YBを生成する一方、発話音声Vxが平叙文である場合には応答信号YAを再生装置26に供給する。なお、初期的な応答信号Yの音量を減少させるとともに音量および音高の変動の範囲を縮小することで、平叙文に対する同意の応答音声Vyの応答信号YAを生成することも可能である。
1個の応答信号Yに対する調整で相異なる韻律の応答信号Yを生成する構成によれば、韻律が相違する複数の応答信号Y(YA,YB)を記憶装置22に保持する必要がないから、記憶装置22に必要な記憶容量が削減されるという利点がある。他方、韻律が相違する複数の応答信号Yを選択的に利用する第2実施形態の構成によれば、初期的な応答信号Yの韻律を発話音声Vxの発話内容に応じて調整する必要がないから、応答生成部36Bの処理負荷が軽減されるという利点がある。
(2)第2実施形態では、末尾区間Eのうち第1区間E1内の第1平均音高Pave1と第2区間E2内の第2平均音高Pave2とを比較したが、発話音声Vxの発話内容が疑問文および平叙文の何れに該当するかを推定するための方法は以上の例示に限定されない。例えば、平叙文の発話音声Vxでは末尾区間E内で音高Pが単調に低下するから、音高Pは末尾区間Eの終点tBで最低音高Pminとなる傾向がある。したがって、末尾区間Eのうち音高Pが最低音高Pminとなる時点の後方の区間の時間長が前方の区間と比較して充分に短い場合(例えば所定の閾値を下回る場合)に、発話音声Vxの発話内容が平叙文に該当すると推定することも可能である。また、末尾区間Eのうち最低音高Pminの時点の前後における音高Pの遷移に応じて、発話音声Vxの発話内容が疑問文および平叙文の何れに該当するかを推定することも可能である。例えば、末尾区間Eのうち最低音高Pminの時点の経過後に音高Pが上昇する場合、応答生成部36Bは、発話音声Vxの発話内容が疑問文に該当すると推定する。
<第3実施形態>
図10は、本発明の第3実施形態に係る音声対話装置100Cの構成図である。第3実施形態の音声対話装置100Cは、第1実施形態の音声対話装置100Aと同様に、利用者Uが発音した発話音声Vxに対する応答音声Vyを再生する。第3実施形態では、発話音声Vxに対する回答または相鎚の応答音声(以下「第2応答音声」という)Vy2のほか、発話音声Vxに対する問返しを表す応答音声(以下「第1応答音声」という)Vy1が再生装置26から再生され得る。第1応答音声Vy1は、発話音声Vxを発話者に対して聞き直すための「え?」「なに?」等の音声である。図10に例示される通り、第3実施形態の音声対話装置100Cの記憶装置22は、問返しの第1応答音声Vy1を収録した応答信号Y1と、問返し以外(例えば「うん」等の相鎚)の第2応答音声Vy2を収録した応答信号Y2とを記憶する。
図10に例示される通り、第3実施形態の音声対話装置100Cは、第1実施形態の音声対話装置100Aの音声解析部34Aおよび応答生成部36Aを、音声解析部34Cおよび応答生成部36Cに置換した構成である。音声対話装置100Cの他の要素(音声入力装置24,再生装置26,音声取得部32)の構成および動作は第1実施形態と同様である。
第3実施形態の音声解析部34Cは、音声取得部32が取得した発話信号Xから韻律指標値Qを特定する。韻律指標値Qは、発話音声Vxの韻律に関する指標値であり、発話音声Vx毎(発話音声Vxの始点から終点までの一連の発話を単位としたときの単位毎)に算定される。具体的には、発話音声Vxの発話区間内の音高の平均値、音高の変動幅、音量の平均値、または音量の変動幅が、韻律指標値Qとして発話信号Xから算定される。第3実施形態の応答生成部36Cは、前述の通り、発話音声Vxに対する問返しを表す第1応答音声Vy1と問返し以外の第2応答音声Vy2とを選択的に再生装置26に再生させる。
現実の人間同士の対話では、発話者の発話音声の韻律が変動した場合に、対話相手が発話音声を聴取し難くなって問返しの必要性が高まる、という傾向がある。具体的には、発話者の発話音声の韻律が当該発話者の過去の韻律の傾向から乖離する場合(例えば過去の傾向から対話相手が想定する音量と比較して実際の発話音声の音量が小さい場合)に、対話相手が発話音声を適切に聴取できず、結果的に発話者に対する問返しが発生する可能性が高い。以上の傾向を考慮して、第3実施形態の応答生成部36Cは、音声解析部34Cが特定した韻律指標値Qを閾値QTHと比較し、比較の結果に応じて第1応答音声Vy1および第2応答音声Vy2の何れかを再生装置26に再生させる。閾値QTHは、利用者Uが過去に発話した発話音声Vxの韻律指標値Qの代表値(例えば平均値)に設定される。すなわち、閾値QTHは、利用者Uの過去の発話から推定される標準的な韻律に相当する。そして、発話音声Vxの韻律指標値Qが閾値QTHから乖離する場合には問返しの第1応答音声Vy1が再生され、韻律指標値Qが閾値QTHに近似する場合には相鎚の第2応答音声Vy2が再生される。
図11は、第3実施形態の制御装置20が実行する処理のフローチャートである。例えば音声対話装置100Cに対する利用者Uからの指示(例えば音声対話用のプログラムの起動指示)を契機として図11の処理が開始される。
第1実施形態と同様に、発話音声Vxが開始されると(S20:YES)、音声取得部32は、音声入力装置24から発話信号Xを取得して記憶装置22に格納する(S21)。音声解析部34Cは、音声取得部32が取得した発話信号Xから、発話音声Vxの韻律に関する特徴量qを特定する(S22)。特徴量qは、例えば発話音声Vxの音高Pまたは音量である。音声取得部32による発話信号Xの取得(S21)と音声解析部34Cによる特徴量qの特定(S22)とは、発話音声Vxの終了まで反復される(S23:NO)。すなわち、発話音声Vxの始点から終点tBまでの発話区間について当該発話音声Vxの複数の特徴量qの時系列が特定される。
発話音声Vxが終了すると(S23:YES)、音声解析部34Cは、発話音声Vxの始点から終点までの発話区間について特定した複数の特徴量qの時系列から韻律指標値Qを算定する(S24)。具体的には、音声解析部34Cは、発話区間内の複数の特徴量qの平均値または変動幅(範囲)を韻律指標値Qとして算定する。
以上に説明した処理で今回の発話音声Vxの韻律指標値Qが算定されると、応答生成部36Cは、応答音声Vyを再生装置26に再生させるための応答生成処理SCを実行する。第3実施形態の応答生成処理SCは、音声解析部34Cが算定した韻律指標値Qに応じて第1応答音声Vy1および第2応答音声Vy2の何れかを選択的に再生装置26に再生させる処理である。
応答生成処理SCが完了すると、音声解析部34Cは、今回の発話音声Vxの韻律指標値Qに応じて閾値QTHを更新する(S25)。具体的には、音声解析部34Cは、今回の発話音声Vxを含む過去の発話音声Vxの複数の韻律指標値Qの代表値(例えば平均値や中央値)を更新後の閾値QTHとして算定する。例えば、以下の数式(1)で表現される通り、今回の韻律指標値Qと更新前の閾値QTHとの加重平均(指数移動平均)が更新後の閾値QTHとして算定される。数式(1)の記号αは1未満の所定の正数(忘却係数)である。
QTH=α・Q+(1−α)QTH ……(1)
以上の説明から理解される通り、第3実施形態の音声解析部34Cは、過去の複数の発話音声Vxにおける韻律指標値Qの代表値を閾値QTHとして設定する要素として機能する。閾値QTHは、発話音声Vxの発音毎に当該発話音声Vxの韻律指標値Qを反映した数値に更新され、複数回にわたる利用者Uの発話から推定される標準的な韻律に相当する数値となる。ただし、閾値QTHを所定値に固定することも可能である。例えば、不特定多数の発話者の発話音声から特定された韻律指標値Qの平均値が閾値QTHとして設定され得る。
音声取得部32による発話信号Xの取得(S21)と、音声解析部34Cによる韻律指標値Qの算定(S22,S24)と、応答生成部36Cによる応答生成処理SCと、音声解析部34Cによる閾値QTHの更新(S25)とは、音声対話の終了が利用者Uから指示されるまで、発話音声Vxの発音毎に反復される(S26:NO)。したがって、利用者Uによる発話音声Vxの発音と、第1応答音声Vy1(問返し)および第2応答音声Vy2(相鎚)の選択的な再生とが交互に反復される音声対話が実現される。
図12は、第3実施形態の応答生成処理SCのフローチャートである。応答生成処理SCを開始すると、応答生成部36Cは、音声解析部34Cが特定した韻律指標値Qを現段階の閾値QTHと比較し、閾値QTHを含む所定の範囲(以下「許容範囲」という)Rに韻律指標値Qが包含されるか否かを判定する(SC1)。図13および図14には、発話音声Vxから音声解析部34Cが特定する特徴量qの推移が例示されている。図13および図14に例示される通り、許容範囲Rは、閾値QTHを中央値とする所定幅の範囲である。韻律指標値Qと閾値QTHとを比較する処理(SC1)は、韻律指標値Qと閾値QTHとの差分の絶対値が所定値(例えば許容範囲Rの範囲幅の半分)を上回るか否かを判定する処理としても実現され得る。
図13では、韻律指標値Qが許容範囲Rの内側の数値である場合が想定されている。韻律指標値Qが許容範囲Rに包含されるということは、今回の発話音声Vxの韻律が利用者Uの標準的な韻律(過去の発話の傾向)に近似することを意味する。すなわち、現実の人間同士の対話を想定すると、対話相手が発話音声を聴取し易い状況(発話者に対する問返しが必要となる可能性が低い状況)であると評価できる。そこで、韻律指標値Qが許容範囲Rの内側の数値である場合(SC1:YES)、応答生成部36Cは、発話音声Vxに対する相鎚の第2応答音声Vy2の応答信号Y2を記憶装置22から選択する(SC2)。
他方、図14では、韻律指標値Qが許容範囲Rの外側の数値(具体的には許容範囲Rの下限値を下回る数値)である場合が想定されている。韻律指標値Qが許容範囲Rに包含されないということは、今回の発話音声Vxの韻律が利用者Uの標準的な韻律から乖離していることを意味する。すなわち、現実の人間同士の対話を想定すると、対話相手が発話音声を聴取し難い状況(発話者に対する問返しが必要となる可能性が高い状況)であると評価できる。そこで、韻律指標値Qが許容範囲Rの外側の数値である場合(SC1:NO)、応答生成部36Cは、発話音声Vxに対する問返しの第2応答音声Vy1(例えば「え?」「なに?」等の音声)の応答信号Y1を再生装置26に対する供給対象として記憶装置22から選択する(SC3)。
以上の手順で韻律指標値Qに応じた応答信号Y(再生対象の応答音声Vy)を選択すると、応答生成部36Cは、第1実施形態と同様に、応答再生点tyの到来(SC4:YES)を契機として当該応答信号Yを再生装置26に供給することで応答音声Vy(第1応答音声Vy1または第2応答音声Vy2)を再生させる(SC5)。すなわち、韻律指標値Qが許容範囲Rに包含される場合には相鎚の第2応答音声Vy2が再生され、韻律指標値Qが許容範囲Rに包含されない場合には問返しの第1応答音声Vy1が再生される。
以上に説明した通り、第3実施形態では、発話音声Vxに対する問返しを表す第1応答音声Vy1と、問返し以外の第2応答音声Vy2とが選択的に再生装置26から再生される。したがって、発話者の発話に対する相鎚だけでなく発話者に対する問返し(聞き直し)も適宜に発生するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。
また、第3実施形態では、発話音声Vxの韻律を表す韻律指標値Qを閾値QTHと比較した結果に応じて第1応答音声Vy1および第2応答音声Vy2の何れかが選択されるから、発話音声の韻律が不意に変動した場合に聴取が困難となり問返しの必要性が高まる、という現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第3実施形態では特に、過去の複数の発話音声Vxにわたる韻律指標値Qの代表値が閾値QTHとして設定されるから、発話者の発話音声の韻律が当該発話者の標準的な韻律(すなわち対話相手が想定する韻律)から乖離する場合に対話相手からの問返しが発生し易いという現実の対話の傾向を模擬した自然な音声対話が実現されるという利点もある。しかも、韻律指標値Qが、閾値QTHを含む許容範囲Rの外側の数値である場合に第1応答音声Vy1が選択され、許容範囲Rの内側の数値である場合に第2応答音声Vy2が選択されるから、例えば韻律指標値Qと閾値QTHとの大小関係のみに応じて第1応答音声Vy1および第2応答音声Vy2を選択する構成と比較して、過度に高い頻度で第1応答音声Vy1が再生される可能性を低減する(適度な頻度で第1応答音声Vy1を再生する)ことが可能である。
<第3実施形態の変形例>
第3実施形態では、発話音声Vxの韻律指標値Qに応じて第1応答音声Vy1の再生と第2応答音声Vy2の再生とを選択したが、発話音声Vxの特性とは無関係に所定の頻度で問返しの第1応答音声Vy1を再生することも可能である。具体的には、応答生成部36Cは、利用者Uが順次に発音する複数の発話音声Vxからランダムに選択された発話音声Vxに対して問返しの第1応答音声Vy1を再生装置26に再生させる一方、残余の発話音声Vxに対しては相鎚の第2応答音声Vy2を再生させる。例えば、応答生成部36Cは、発話音声Vxの発音毎に所定の範囲内の乱数を発生し、当該乱数が閾値を上回る場合には第1応答音声Vy1を選択する一方、当該乱数が閾値を下回る場合には第2応答音声Vy2を選択する。以上に例示した変形例では、複数の発話音声Vxからランダムに選択された発話音声Vxに対して問返しの第1応答音声Vy1が再生されるから、発話音声に対する問返しがランダムに発生するという現実の音声対話の傾向を模擬した自然な音声対話を実現することが可能である。
以上の構成において、応答生成部36Cは、発話音声Vxの発話回数に対する第1応答音声Vy1の再生回数の比(すなわち第1応答音声Vy1の再生頻度)を可変に設定することが可能である。例えば、乱数と比較される閾値を調整することで、応答生成部36Cは、第1応答音声Vy1の再生頻度を制御する。例えば第1応答音声Vy1の再生頻度が30%に設定された場合、発話音声Vxの発話の総回数のうちの30%に対して第1応答音声Vy1が再生され、残余の70%の回数の発話に対して第2応答音声Vy2が再生される。第1応答音声Vy1の再生頻度(例えば乱数と比較される閾値)は、例えば利用者Uからの指示に応じて可変に設定される。
<第4実施形態>
図15は、本発明の第4実施形態に係る音声対話装置100Dの構成図である。第4実施形態の音声対話装置100Dは、第1実施形態の音声対話装置100Aと同様に、利用者Uが発音した発話音声Vxに対する応答音声Vyを再生する。
図15に例示される通り、第4実施形態の音声対話装置100Dは、第1実施形態の音声対話装置100Aの音声解析部34Aおよび応答生成部36Aを、履歴管理部38および応答生成部36Dに置換した構成である。音声対話装置100Dの他の要素(音声入力装置24,再生装置26,音声取得部32)の構成および動作は第1実施形態と同様である。第4実施形態の記憶装置22は、特定の発話内容の応答音声Vyを表す応答信号Yを記憶する。以下の説明では、発話音声Vxに対する相鎚を意味する「うん」という応答音声Vyを例示する。
図15の履歴管理部38は、音声対話装置100Dによる音声対話の履歴(以下「利用履歴」という)Hを生成する。第4実施形態の利用履歴Hは、音声対話装置100Dを利用して過去に実行された音声対話の回数(以下「利用回数」という)Nである。具体的には、音声対話の開始(音声対話装置100Dの起動)から終了までを1回(すなわち、発話音声Vxの発話と応答音声Vyの再生との複数対を包含する1回分の音声対話)として、履歴管理部38は音声対話の回数を利用回数Nとして計数する。履歴管理部38が生成した利用履歴Hは記憶装置22に格納される。
第4実施形態の応答生成部36Dは、履歴管理部38が生成した利用履歴Hに応じた韻律の応答音声Vyを再生装置26に再生させる。すなわち、応答音声Vyの韻律が利用履歴Hに応じて可変に制御される。第4実施形態では、応答音声Vyの再生の待機時間Wを当該応答音声Vyの韻律として利用履歴Hに応じて制御する。待機時間Wは、発話音声Vxの終点tBから応答音声Vyの応答再生点tyまでの時間長(すなわち発話音声Vxと応答音声Vyとの間隔)である。
現実の人間同士の対話では、特定の対話相手との対話の反復とともに発話音声の韻律が経時的に変化するという傾向が観測される。具体的には、初対面で対話を開始した直後の段階(各々が対話相手との対話に慣れていない段階)では、対話相手に特有の好適な間合等を両者が把握できないため、発話者による発話から当該発話に対する応答までの時間が長く(すなわち対話がぎこちなく)、当該対話相手との対話が反復されるにつれて当該時間が短縮される(すなわちテンポよく対話できる)、という傾向がある。以上の傾向を考慮して、第4実施形態の応答生成部36Dは、利用履歴Hが示す利用回数Nが多い場合に、利用回数Nが少ない場合と比較して応答音声Vyの待機時間Wが短くなるように、利用履歴Hに応じて待機時間Wを制御する。
図16は、第4実施形態の制御装置20が実行する処理のフローチャートである。例えば音声対話装置100Dに対する利用者Uからの指示(音声対話用のプログラムの起動指示)を契機として図16の処理が開始される。音声対話装置100Dによる音声対話が最初に開始される段階では、利用履歴Hは初期値(例えばN=0)に設定される。
第1実施形態と同様に、発話音声Vxが開始されると(S30:YES)、音声取得部32は、音声入力装置24から発話信号Xを取得して記憶装置22に格納する(S31)。音声取得部32による発話信号Xの取得は、発話音声Vxの終了まで反復される(S32:NO)。
発話音声Vxが終了すると(S32:YES)、応答生成部36Dは、記憶装置22に格納された利用履歴Hに応じた韻律の応答音声Vyを再生装置26に再生させるための応答生成処理SDを実行する。第4実施形態の応答生成処理SDは、前述の通り、発話音声Vxの終点tBから応答音声Vyの再生が開始される応答再生点tyまでの待機時間Wを利用履歴Hに応じて制御する処理である。音声取得部32による発話信号Xの取得(S31)と、応答生成部36Dによる応答生成処理SDとは、音声対話の終了が利用者Uから指示されるまで反復される(S33:NO)。したがって、第1実施形態と同様に、利用者Uによる任意の発話音声Vxの発音と、当該発話音声Vxに対する応答音声Vyの再生とが交互に反復される音声対話が実現される。
音声対話の終了が利用者Uから指示されると(S33:YES)、履歴管理部38は、記憶装置22に記憶された利用履歴Hを、今回の音声対話を加味した内容に更新する(S34)。具体的には、履歴管理部38は、利用履歴Hが示す利用回数Nを1だけ増加させる。したがって、音声対話装置100Dによる音声対話の実行毎に利用履歴Hは1ずつ増加していく。利用履歴Hの更新後に図16の処理は終了する。
図17は、第4実施形態の応答生成処理SDのフローチャートであり、図18および図19は、応答生成処理SDの説明図である。応答生成処理SDを開始すると、応答生成部36Dは、記憶装置22に記憶された利用履歴Hに応じて待機時間Wを可変に設定する(SD1〜SD3)。具体的には、応答生成部36Dは、まず、利用履歴Hが示す利用回数Nが所定の閾値NTHを上回るか否かを判定する(SD1)。利用回数Nが閾値NTHを上回る場合(SD1:YES)、応答生成部36Dは、図18に例示される通り、所定の基礎値w0(例えば150ms)を待機時間Wとして設定する(SD2)。他方、利用回数Nが閾値NTHを下回る場合(SD1:NO)、応答生成部36Dは、図19に例示される通り、基礎値w0に所定の調整値(オフセット)δwを加算した数値(w0+δw)を待機時間Wとして設定する(SD3)。調整値δwは所定の正数に設定される。なお、以上の説明では、利用回数Nが閾値NTHを上回るか否かに応じて待機時間Wを2値的に制御したが、利用回数Nに応じて待機時間Wを多値的または連続的に変化させることも可能である。
応答生成部36Dは、以上の処理で利用履歴Hに応じて設定した待機時間Wが発話音声Vxの終点tBから経過するまで待機する(SD4:NO)。待機時間Wの経過により応答再生点tyが到来すると(SD4:YES)、応答生成部36Dは、記憶装置22に記憶された応答信号Yを再生装置26に供給することで応答音声Vyを再生させる(SD5)。以上の説明から理解される通り、第4実施形態の応答生成部36Dは、音声対話装置100Dの利用履歴Hに応じた韻律(第4実施形態では待機時間W)の応答音声Vyを再生装置26に再生させる。具体的には、利用履歴Hが示す利用回数Nが多い場合には、基礎値w0の待機時間Wの経過により応答音声Vyが再生され、利用回数Nが少ない場合には、基礎値w0に調整値δwを加算した待機時間Wの経過により応答音声Vyが再生される。すなわち、利用回数Nが多い場合に待機時間Wは短くなる。
以上に説明した通り、第4実施形態では、音声対話装置100Dによる音声対話の利用履歴Hに応じた韻律(待機時間W)の応答音声Vyが再生されるから、特定相手との対話の反復とともに発話音声の韻律が経時的に変化するという現実の対話の傾向を模擬した自然な音声対話を実現することが可能である。第4実施形態では特に、発話音声Vxと応答音声Vyとの間隔である待機時間Wが利用履歴Hに応じて制御される。したがって、初対面で対話を開始した直後の段階では、発話と応答との間隔が長く、当該対話相手との対話が反復されるにつれて当該間隔が短縮されるという現実の対話の傾向を模擬した自然な音声対話が実現される。
<変形例>
前述の各形態で例示した音声対話装置100(100A,100B,100C,100D)は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)第1実施形態ないし第4実施形態から選択された任意の2以上の構成を組合せることも可能である。具体的には、発話音声Vxの韻律(例えば音高P)に応じて応答音声Vyの韻律を制御する第1実施形態の構成は、第2実施形態から第4実施形態にも同様に適用され得る。例えば、第2実施形態では、図9のステップSB3またはステップSB4で選択した応答信号Yの韻律を発話音声Vxの韻律(例えば音高P)に応じて制御したうえで再生装置26から再生させることも可能である。同様に、第3実施形態では、図12のステップSC2またはステップSC3で選択した応答信号Yの韻律を発話音声Vxの韻律に応じて制御する構成が採用され、第4実施形態では、図17のステップSD5で記憶装置22から取得した応答信号Yの韻律を発話音声Vxの韻律に応じて制御する構成が採用され得る。第2実施形態から第4実施形態に第1実施形態を適用した構成では、第1実施形態と同様に、例えば、応答音声Vyのうち特定のモーラ(典型的には最後のモーラ)の始点における音高が発話音声Vxの末尾区間E内の最低音高Pminに一致するように、応答信号Yの音高が調整される。
発話音声Vxに対する問返しの第1応答音声Vy1と問返し以外の第2応答音声Vy2とを選択的に再生させる第3実施形態の構成を、第3実施形態以外の各形態に適用することも可能である。また、音声対話の利用履歴Hに応じて応答音声Vyの韻律(例えば待機時間W)を制御する第4実施形態の構成を、第1実施形態から第3実施形態に適用することも可能である。
(2)前述の各形態の音声対話に関連する各種の変数は、例えば利用者Uからの指示に応じて可変に設定される。例えば、応答音声Vyの再生音量を利用者Uからの指示に応じて制御する構成や、発話者の性別または声質(優しい音声,厳しい音声)が相違する複数種の応答音声Vyのうち実際に再生装置26から再生する応答音声Vyの種類を利用者Uからの指示に応じて選択する構成も採用され得る。また、第1実施形態から第3実施形態において、発話音声Vxの終点tBから応答音声Vyの応答再生点tyまでの待機時間Wの時間長を利用者Uからの指示に応じて設定することも可能である。
(3)第3実施形態の変形例では、発話音声Vxに対する問返しの第1応答音声Vy1の再生頻度を利用者Uからの指示に応じて可変に設定したが、利用者Uからの指示以外の要素に応じて第1応答音声Vy1の再生頻度を制御することも可能である。具体的には、第3実施形態の応答生成部36Dが、第4実施形態で例示した利用履歴Hに応じて第1応答音声Vy1の再生頻度を制御する構成が採用され得る。例えば、現実の人間同士の対話では、特定の対話相手との対話を反復するほど当該対話相手の発話の特徴(例えば口癖や口調)を把握でき、結果的に発話音声に対する問返しの頻度は低下する、という傾向が想定される。以上の傾向を考慮すると、利用履歴Hが示す利用回数Nが多いほど第1応答音声Vy1の再生頻度を低下させる構成が好適である。
(4)第4実施形態では、音声対話の利用回数Nを利用履歴Hとして例示したが、利用履歴Hは利用回数Nに限定されない。例えば、音声対話内の応答音声Vyの再生を1回とした回数や、音声対話の利用頻度(単位時間毎の利用回数)、音声対話の使用期間(例えば音声対話装置100の最初の使用からの経過時間)、音声対話装置100を最後に使用してからの経過時間を、利用履歴Hとして待機時間Wの制御に適用することも可能である。
(5)第1実施形態では、記憶装置22に事前に記憶された音声信号Zから応答信号Yを生成および再生し、第2実施形態から第4実施形態では、記憶装置22に事前に記憶された応答信号Yを再生したが、特定の発話内容の応答音声Vyを表す応答信号Yを、例えば公知の音声合成技術により合成することも可能である。応答信号Yの合成には、例えば、素片接続型の音声合成や、隠れマルコフモデル等の統計モデルを利用した音声合成が好適に利用される。また、発話音声Vxや応答音声Vyは人間の発声音に限定されない。例えば動物の鳴き声を発話音声Vxや応答音声Vyとすることも可能である。
(6)前述の各形態では、音声対話装置100が音声入力装置24と再生装置26とを具備する構成を例示したが、音声対話装置100とは別体の装置(音声入出力装置)に音声入力装置24および再生装置26を設置することも可能である。音声対話装置100は、例えば携帯電話機やスマートフォン等の端末装置で実現され、音声入出力装置は、例えば動物型の玩具やロボット等の電子機器で実現される。音声対話装置100と音声入出力装置とは無線または有線で通信可能である。すなわち、音声入出力装置の音声入力装置24が生成した発話信号Xは無線または有線で音声対話装置100に送信され、音声対話装置100が生成した応答信号Yは無線または有線で音声入出力装置の再生装置26に送信される。
(7)前述の各形態では、携帯電話機等やパーソナルコンピュータ等の情報処理装置で音声対話装置100を実現したが、音声対話装置100の一部または全部の機能をサーバ装置(いわゆるクラウドサーバ)で実現することも可能である。具体的には、移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置により音声対話装置100が実現される。例えば、音声対話装置100は、端末装置の音声入力装置24が生成した発話信号Xを当該端末装置から受信し、前述の各形態に係る構成により発話信号Xから応答信号Yを生成する。そして、音声対話装置100は、発話信号Xから生成した応答信号Yを端末装置に送信し、当該端末装置の再生装置26に応答音声Vyを再生させる。音声対話装置100は、単体の装置または複数の装置の集合(すなわちサーバシステム)で実現される。また、前述の各形態に係る音声対話装置100の一部の機能(例えば音声取得部32,音声解析部34A,34C,応答生成部36A,36B,36C,36D,履歴管理部38の少なくとも一部)をサーバ装置により実現し、他の機能を端末装置で実現することも可能である。音声対話装置100が実現する各機能をサーバ装置および端末装置の何れで実現するか(機能の分担)は任意である。
(8)前述の各形態では、発話音声Vxに対して特定の発話内容(例えば「うん」等の相鎚)の応答音声Vyを再生したが、応答音声Vyの発話内容は以上の例示に限定されない。例えば、発話信号Xに対する音声認識および形態素解析で発話音声Vxの発話内容を解析し、当該発話内容に対して適切な内容の応答音声Vyを複数の候補から選択して再生装置26に再生させることも可能である。なお、音声認識や形態素解析を実行しない構成(例えば第1実施形態から第4実施形態の例示)では、発話音声Vxとは無関係に事前に用意された発話内容の応答音声Vyが再生される。したがって、単純に考えると、自然な対話は成立しないようにも推測され得るが、前述の各形態の例示のように応答音声Vyの韻律が多様に制御されることで、実際には、人間同士の自然な対話のような感覚を利用者Uは感取することが可能である。他方、音声認識や形態素解析を実行しない構成によれば、これらの処理に起因した処理遅延や処理負荷が低減ないし解消されるという利点がある。
(9)前述の各形態で例示した音声対話装置100(100A,100B,100C,100D)を、実際の人間同士の対話の評価に利用することも可能である。例えば、実際の人間同士の対話で観測される応答音声(以下「観測音声」という)の韻律を、前述の形態で生成された応答音声Vyの韻律と比較し、両者間で韻律が類似する場合には観測音声を適切と評価する一方、両者間で韻律が乖離する場合には観測音声を不適切と評価することが可能である。以上に例示した評価を実行する装置(対話評価装置)は、人間同士の対話の訓練にも利用され得る。
(10)前述の各形態で例示した音声対話装置100(100A,100B,100C,100D)は、前述の通り、制御装置20と音声対話用のプログラムとの協働で実現され得る。音声対話用のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。また、前述の各形態で例示した音声対話装置100の動作方法(音声対話方法)としても本発明は実現され得る。音声対話方法の動作主体となるコンピュータ(音声対話装置100)は、例えば単体のコンピュータまたは複数のコンピュータで構成されるシステムである。