JP7059813B2

JP7059813B2 - 音声対話システム、その処理方法及びプログラム

Info

Publication number: JP7059813B2
Application number: JP2018104983A
Authority: JP
Inventors: 生聖渡部; 佐和樋口; 航加来
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2022-04-26
Anticipated expiration: 2038-05-31
Also published as: US11170763B2; CN110556105A; JP2019211516A; CN110556105B; US20190371305A1

Description

本発明は、ユーザと音声対話を行う音声対話システム、その処理方法及びプログラムに関する。

ユーザからの聞返しを検出すると、聞返し前の応答文と同一の応答文を出力する音声対話システムが知られている（特許文献１参照）。

特許第６０７３６４９号公報

上記音声対話システムにおいては、応答文中にユーザにとって聞き取り難い単語が含まれている場合、その応答文を繰り返しても、やはり聞き取り難いという状況は変わらない虞がある。

本発明は、このような問題点を解決するためになされたものであり、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を出力する音声対話システム、その処理方法及びプログラムを提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムであって、
前記ユーザによる聞返しを検出する聞返し検出手段と、
前記聞返し検出手段により聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する応答文生成手段と、
前記ユーザとの音声対話の履歴を記憶する記憶手段と、
を備え、
前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム
である。
この一態様において、前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が最も低い単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成してもよい。
この一態様において、前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語の音声速度を、該単語以外の単語の音声速度よりも低下させた前記聞返し用の応答文、該単語の音量を、該単語以外の単語の音量よりも大きくした前記聞返し用の応答文、および、該単語と、該単語の前後の単語と、の間隔を空けた前記聞返し用の応答文、のうちの少なくとも１つの前記聞返し用の応答文を生成してもよい。
この一態様において、前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第１所定値以下かつ、重要度が第２所定値以上の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成してもよい。
この一態様において、前記音声対話の話題を推定し、該推定した話題の変化を検出する話題検出手段を更に備え、前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出してもよい。
この一態様において、前記ユーザの音声の韻律情報を分析し、該韻律の変化量を検出する韻律検出手段を更に備え、前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記韻律検出手段により検出された韻律の変化量が所定量以上である場合に、前記ユーザの音声を該ユーザによる聞返しとして検出してもよい。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムの処理方法であって、
前記ユーザによる聞返しを検出するステップと、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成するステップと、
を含み、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムの処理方法
であってもよい。
上記目的を達成するための本発明の一態様は、
ユーザと音声対話を行う音声対話システムのプログラムあって、
前記ユーザによる聞返しを検出する処理と、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する処理と、
をコンピュータに実行させ、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムのプログラム
であってもよい。

本発明によれば、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を出力する音声対話システム、その処理方法及びプログラムを提供することができる。

本発明の実施形態１に係る音声対話システムの概略的なシステム構成を示すブロック図である。本発明の実施形態１に係る音声対話システムの処理方法のフローを示すフローチャートである。音声対話履歴における各単語の出現頻度およびＴＦ－ＩＤＦの一例を示す図である。

実施形態１
以下、図面を参照して本発明の実施の形態について説明する。
図１は、本発明の実施形態１に係る音声対話システムの概略的なシステム構成を示すブロック図である。本実施形態１に係る音声対話システム１は、例えば、ロボット、ＰＣ（Personal Computer）、携帯端末（スマートフォン、タブレットなど）、ナビゲーション装置等に搭載され、ユーザと対話を行う。

ここで、ユーザは、音声対話システム１と音声対話を行う際、音声対話システム１の音声を聞き取れなかった場合に、例えば、「もう一回言って？」などの、その音声を聞き返すこと（以下、聞返し）を行う。本実施形態１に係る音声対話システム１は、このユーザの音声から聞返しを検出した場合、この聞返しに対し、聞き取り易い応答文を出力するものである。

本実施形態１に係る音声対話システム１は、ユーザの音声を認識する音声認識部２と、音声の構文を解析する構文解析部３と、ユーザの音声に対する応答文を生成する応答文生成部４と、音声を出力する音声出力部５と、ユーザの音声の韻律の変化量を検出する韻律検出部６と、話題の変化を検出する話題検出部７と、ユーザによる聞返しを検出する聞返し検出部８と、記憶部９と、を備えている。

なお、音声対話システム１は、例えば、演算処理等と行うＣＰＵ（Central Processing Unit）、ＣＰＵによって実行される演算プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。ＣＰＵ、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。

音声認識部２は、例えば、マイクを介して入力されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。

例えば、音声認識部２は、マイクを介して入力されたユーザの音声情報をデジタル化する。音声認識部２は、そのデジタル化した情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。

ここで、統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、記憶部９などに予め記憶されている。記憶部９は、記憶手段の一具体例である。記憶部９は、メモリなどで構成されている。

音声認識部２は、ユーザの音声情報の各形態素に対してその品詞種類（名詞、形容詞、動詞、副詞など）を付加した品詞情報付き形態素情報を生成する。音声認識部２は、認識したユーザの音声情報を構文解析部３に出力する。

構文解析部３は、音声認識部２により認識された音声情報の構文を解析する。構文解析部３は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構文解析部３は、文字列情報の解析結果（形態素情報、係り受け情報、認識結果のテキストなどを含む）を応答文生成部４に出力する。

応答文生成部４は、応答文生成手段の一具体例である。応答文生成部４は、構文解析部３により解析された音声情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。

応答文生成部４は、例えば、構文解析部３から出力される文字列情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。より具体的には、応答文生成部４は、文字列情報「囲碁を打ちますよ。」から一つの述語項「囲碁を打つ」を抜き出す。構文解析部３は、抜き出した形態素列「囲碁を打つ」を特徴ベクトルとし、ＳＶＭ（support vector machine）モデルを用いて感情判別（ネガティブ及びポジティブ）を行う。

応答文生成部４は、感情判別結果がポジティブである場合、応答文「いいですね。」を生成する。一方、応答文生成部４は、感情判別結果がネガティブである場合、応答文「大変ですね。」を生成する。なお、上述した応答文の生成方法は一例であり、これに限定されず、任意の生成方法を用いることができる。応答文生成部４は、生成した応答文を音声出力部５に出力する。

音声出力部５は、応答文生成部４により生成された応答文を、音声で出力する。音声出力部５は、例えば、スピーカなどを用いてユーザに対して応答文の音声を出力する。

ここで、音声対話の話題の変化時には、ユーザはその音声を聞き取り難く、聞返しが発生し易い。さらに、聞返しの音声は、特徴的な韻律変化がある。本実施形態１に係る音声対話システム１は、これら聞返しの特性を踏まえて、話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。

これにより、聞返し用の単語を予め登録しておく必要もなく、感動詞を含まない幅広い音声に対しても聞返しを検出できる。また、話題変化及び韻律情報に基づいて、聞返しの検出を行うことで、処理遅延が生じ難く、聞返しの言葉や音声認識の精度に依存せず、聞返しの検出精度を向上させることができる。

韻律検出部６は、韻律検出手段の一具体例である。韻律検出部６は、例えば、マイクを介して入力されたユーザの音声の韻律情報を分析し、韻律の変化量を検出する。ここで、ユーザの音声が聞返しの場合、その音声の句末に特徴が現れる。したがって、韻律検出部６は、例えば、ユーザの音声の句末の、所定期間を２分割し、その前半区間の音声高さの平均値とその後半区間の音声高さの平均値との差分（又は傾き）を、韻律の変化量として検出する。

より具体的には、韻律検出部６は、ユーザの音声終わりの１００ミリ秒間の音声高さの平均値と、その直前の１００ミリ秒間の音声高さの平均値との差分を、韻律の変化量として検出する。韻律検出部６は、検出した韻律の変化量を聞返し検出部８に出力する。

話題検出部７は、話題検出手段の一具体例である。話題検出部７は、応答文生成部４により生成された応答文中に出現する単語（自立語）に基づいて、音声対話の話題を推定する。

話題検出部７は、応答文中の単語と、予め記憶部９に設定されたテーブル情報と、を照らし合わせて話題を推定する。テーブル情報には、話題と、その話題に含まれる単語とが対応付けられている。話題検出部７は、テーブル情報の話題の中から、最も多くのテーブル情報の単語が出現した話題を推定する。なお、話題検出部７は、出現した単語数が同数の場合、テーブル情報において、上位の話題を推定してもよい。

例えば、話題検出部７は、応答文「朝ごはんをいっぱい食べたよ」の単語「朝ごはん」、「いっぱい」、「食べたよ」と、テーブル情報と、を照らし合わせる。話題検出部７は、テーブル情報の話題「食事」、「健康」、「家族」の中から、最も多くのテーブル情報の単語「朝ごはん」、「食べる」が出現した話題「食事」を推定する。なお、上述した話題検出部７の推定方法は一例であり、これに限定されない。

話題検出部７は、マイクを介して入力されたユーザの音声中に出現する単語に基づいて、音声対話の話題を推定してもよい。話題検出部７は、ユーザの音声中の単語と、記憶部９に予め設定されたテーブル情報と、を照らし合わせて話題を推定する。

話題検出部７は、上述の如く、音声対話の話題を推定し、該推定した話題の変化を検出する。話題検出部７は、例えば、推定した話題が「食事」から「健康」に変化した場合、その話題の変化を検出する。

聞返し検出部８は、聞返し検出手段の一具体例である。聞返し検出部８は、上述の如く、話題検出部７により話題の変化が検出された場合に、ユーザの音声の韻律情報に基づいて、ユーザの音声を該ユーザによる聞返しとして検出する。

ここで、ユーザの音声が聞返しの場合、その音声の句末において、韻律の変化量が大きくなる。これは、聞返しの場合、例えば、質問口調になるため音声の句末で音声が高くなるからである。

したがって、聞返し検出部８は、例えば、話題検出部７により話題の変化が検出され、かつ、韻律検出部６により検出された韻律の変化量が所定量以上で高い場合に、ユーザの音声を該ユーザによる聞返しとして検出する。上記所定量は、予め、聞返し時の音声句末における韻律の変化量が実験的に求められ、記憶部９に設定されている。聞返し検出部８は、聞返しを検出すると、その結果を示す検出信号を応答文生成部４に対して出力する。

ところで、従来の音声対話システムにおいては、聞返し用の応答文中にユーザにとって聞き取り難い単語が含まれている場合、その応答文を繰り返しても、やはり聞き取り難いという状況は変わらない虞があった。

これに対し、本実施形態１に係る音声対話システム１において、応答文生成部４は、聞返し直前にユーザに応答した応答文において、ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成する。

例えば、応答文生成部４は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第１所定値以下の単語「ゴルフ」のみからなる聞返し用の応答文「ゴルフ」を生成する。

ユーザとの音声対話の履歴（以下、音声対話履歴）において出現頻度が低い単語は、ユーザにとって聞き慣れない単語であり、聞き取り難い単語と推定できる。したがって、応答文生成部４は、聞返し直前の応答文において、ユーザとの音声対話の履歴における出現頻度が第１所定値以下で低い単語が含まれる場合、その聞き取り難い単語のみからなる聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難い単語のみを抜出し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。

音声対話履歴は、ユーザと音声対話システム１とで行われた音声対話の履歴であり、複数の音声対話が含まれる。音声対話履歴は、記憶部９に逐次記憶されている。上記第１所定値は、例えば、予め、ユーザが聞き取り難いと判断されたときの単語の出現頻度が実験的に求められ、記憶部９に記憶されている。

なお、上述の、出現頻度が第１所定値以下の単語のみからなる聞返し用の応答文とは、その単語に付加語を付加したものも含んでいてもよい。例えば、応答文生成部４は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第１所定値以下の単語「ゴルフ」に付加語「だよ」を付加した聞返し用の応答文「ゴルフだよ」を生成してもよい。上記単語に付加する付加語は、記憶部９に予め設定されていてもよい。

さらに、応答文生成部４は、出現頻度が第１所定値以下の単語を複数回繰り返した聞返し用の応答文を生成してもよい。例えば、応答文生成部４は、聞返し直前の応答文「岐阜へゴルフに行ったよ」に対し、出現頻度が第１所定値以下の単語「ゴルフ」のみからなる聞返し用の応答文「ゴルフゴルフ」を生成してもよい。このように、単語に付加語を付加する、あるいは、単語を複数回繰り返すことで、その単語をより聞取り易くすることができる。

応答文生成部４は、聞返し検出部８から検出信号を受けると、聞返し直前の応答文に基づいて、聞返し用の応答文を生成する。

応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれる場合、その単語のみからなる聞返し用の応答文を生成する。

一方で、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれない場合、その応答文を聞返し用の応答文として再生成する。

応答文生成部４は、生成した聞返し用の応答文を音声出力部５に出力する。音声出力部５は、応答文生成部４により生成された聞返し用の応答文を、音声で出力する。これにより、ユーザからの聞返しに対して、的確に応答することができる。

図２は、本発明の実施形態１に係る音声対話システムの処理方法のフローを示すフローチャートである。韻律検出部６は、マイクを介して入力されたユーザの音声の韻律を分析し、韻律の変化量を検出する（ステップＳ１０１）。

話題検出部７は、音声対話の話題を推定し、該推定した話題の変化を検出する（ステップＳ１０２）。聞返し検出部８は、話題検出部７により話題の変化が検出され、かつ、韻律検出部６により検出された韻律の変化量が所定量以上である場合に、ユーザの音声を該ユーザによる聞返しとして検出する（ステップＳ１０３）。

聞返し検出部８が、聞返しを検出した場合（ステップＳ１０３のＹＥＳ）、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれるか否かを判断する（ステップＳ１０４）。

応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれると判断した場合（ステップＳ１０４のＹＥＳ）、該単語のみからなる聞返し用の応答文を生成し（ステップＳ１０５）、音声出力部５に出力し、後述の（ステップＳ１１０）に遷移する。

一方、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれないと判断した場合（ステップＳ１０４のＮＯ）、聞返し直前の応答文を聞返し用の応答文として再生成し（ステップＳ１０６）、音声出力部５に出力し、後述の（ステップＳ１１０）に遷移する。

聞返し検出部８が、聞返しを検出しない場合（ステップＳ１０３のＮＯ）、音声認識部２は、ユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識し、認識したユーザの音声情報を構文解析部３に出力する（ステップＳ１０７）。

構文解析部３は、音声認識部２により認識された音声情報の構文を解析し、その解析結果を応答文生成部４に出力する（ステップＳ１０８）。応答文生成部４は、構文解析部３により解析された音声情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する（ステップＳ１０９）。音声出力部５は、応答文生成部４により生成された応答文を、音声で出力する（ステップＳ１１０）。

以上、本実施形態１に係る音声対話システム１において、応答文生成部４は、聞返し直前にユーザに応答した応答文において、ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難い単語のみを抜出し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。

実施形態２
上記実施形態１において、応答文生成部４は、聞返し直前にユーザに応答した応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる聞返し用の応答文を生成している。これに対し、本発明の実施形態２において、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下の単語が含まれる場合、その応答文において、その単語を強調した聞返し用の応答文を生成する。

これにより、ユーザにとって、特に聞き取り難い単語を強調し際立たせることで、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、聞き取り易い応答文を生成し出力することができる。

例えば、応答文生成部４は、聞返し直前の応答文において、その単語の音声速度を、該単語以外の単語の音声速度よりも低下させた聞返し用の応答文を生成する。これにより、音声速度が遅い、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。

応答文生成部４は、聞返し直前の応答文において、その単語の音量を、該単語以外の単語の音量よりも大きくした聞返し用の応答文を生成する。これにより、音量が大きい、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。上記音声速度及び音量は、予め、ユーザが聞き取り易い音声速度及び音量が実験的に求められ、記憶部９に設定されている。

応答文生成部４は、聞返し直前の応答文において、その単語と前後の単語との間隔を空けた聞返し用の応答文を生成する。これにより、その単語を特に際立出せることができ、その単語を聞返し用の応答文中でより強調し、聞取り易くすることができる。

さらに、応答文生成部４は、聞返し直前の応答文において、上記を任意に組み合わせた聞返し用の応答文を生成してもよい。例えば、応答文生成部４は、聞返し直前の応答文において、その単語の音声速度及び音量を、該単語以外の単語の音声速度及び音量よりも低下させた聞返し用の応答文を生成してもよい。なお、本実施形態２において、上記実施形態１と同一部分は同一符号を付して詳細な説明は省略する。

実施形態３
本発明の実施形態３において、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が最も低い単語が含まれる場合、その単語のみからなる聞返し用の応答文、または、その単語のみを強調した聞返し用の応答文を生成する。

音声対話履歴において出現頻度が最も低い単語は、ユーザにとって最も聞き慣れない単語であり、ユーザにとって最も聞き取り難い単語と推定できる。したがって、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が最も低い単語が含まれる場合、その聞き取り難い単語のみからなる聞返し用の応答文、または、その聞き取り難い単語のみを強調した聞返し用の応答文を生成する。これにより、ユーザにとって、最も聞き取り難い単語を際立たせ、聞き取り易くすることができる。

例えば、音声対話履歴における各単語の出現頻度が、岐阜：１５回、ゴルフ：０回、行く：５２回であり、聞返し直前の応答文が、「岐阜へゴルフに行ったよ」であるとする。

この場合、応答文生成部４は、聞返し直前の応答文「岐阜へゴルフに行ったよ」において、音声対話履歴における出現頻度が最も低い単語「ゴルフ」が含まれていると判断する。そして、応答文生成部４は、その単語「ゴルフ」のみからなる聞返し用の応答文、または、その応答文において、単語「ゴルフ」を強調した聞返し用の応答文を生成する。

なお、本実施形態３において、上記実施形態１及び２と同一部分は同一符号を付して詳細な説明は省略する。

実施形態４
本発明の実施形態４において、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下かつ、重要度が第２所定値以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。

音声対話履歴において出現頻度が第１所定値以下で低い単語は、ユーザにとって聞き慣れない単語であり、ユーザにとって聞き取り難い単語と推定できる。さらに、その単語の重要度が第２所定値以上で高い場合、その単語はユーザにとって聞き取り難いだけでなく、重要な単語（一般的に使用される単語）と推定できる。

したがって、応答文生成部４は、上述の如く、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下で低く、かつ、重要度が第２所定値以上で高い単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難くかつ、重要な単語を際立たせ、聞き取り易くすることができる。

例えば、音声対話履歴が少ない場合に、その音声対話履歴における各単語の出現頻度は必然的に低くなる。この場合、ユーザにとって聞き慣れない単語だけでなく、単に珍しい単語（一般的に使用されない単語）も、第１所定値以下なる可能性がある。したがって、応答文生成部４は、上述の如く、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下だけなく、重要度が第２所定値以上の単語を抽出している。これにより、ユーザにとって聞き慣れない単語のみを抽出し、その単語を際立たせ、聞き取り易くすることができる。

上記第２所定値は、例えば、予め実験的に求められた最適値が記憶部９に記憶されている。

重要度は、例えば、ＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）である。ＴＦ－ＩＤＦは、下記式を用いて算出される。
ＴＦ＝（音声対話における単語Ｘの出現頻度）／（音声対話における全単語の出現頻度の和）
ＩＤＦ＝ｌｏｇ｛（音声対話履歴に含まれる全音声対話の数）／（単語Ｘを含む音声対話の数）｝
ＴＦ－ＩＤＦ＝ＴＦ×ＩＤＦ

例えば、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値（１０回）以下かつ、ＴＦ－ＩＤＦが第２所定値（０．３）以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。

なお、上記第１及び第２所定値は、ユーザが入力装置などを介して、任意に設定変更できるものとする。

音声対話履歴における各単語の出現頻度およびＴＦ－ＩＤＦが、例えば、図３に示すような値であるとし、聞返し直前の応答文を「岐阜で花子に出会ったんだよ」であるとする。

応答文生成部４は、聞返し直前の応答文「岐阜で花子に出会ったんだよ」において、音声対話履歴における出現頻度が１０回以下かつ、ＴＦ－ＩＤＦが０．３以上の単語「花子」が含まれていると判断する。応答文生成部４は、その単語「花子」のみからなる聞返し用の応答文「花子」を生成する。あるいは、応答文生成部４は、その応答文「岐阜で花子に出会ったんだよ」において、該単語「花子」を強調した聞返し用の応答文「岐阜で＜花子＞に出会ったんだよ」を生成する。これにより、ユーザにとって、特に聞き取り難くかつ重要な単語「花子」を際立たせ、聞き取り易くすることができる。

なお、本実施形態４において、重要度は、ＴＦ－ＩＤＦであるがこれに限定されない。重要度は、単語の重要度を示す指標であれば、任意でよい。本実施形態４において、上記実施形態１乃至３と同一部分は同一符号を付して詳細な説明は省略する。

実施形態５
本発明の実施形態５において、応答文生成部４は、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下かつ、一般対話履歴における出現頻度が第３所定値以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。

ここで、上記一般対話履歴とは、ユーザと音声対話システム１との音声対話だけでなく、ユーザ同士の音声対話、一般の音声対話システム同士の音声対話の履歴を含む、広い範囲の音声対話履歴である。一般対話履歴は、例えば、記憶部９やインターネットなどのネットワークに接続されたデータベースなどに記憶されている。応答文生成部４は、記憶部９やデータベースなどから、一般対話履歴を取得する。また、上記第３所定値は、例えば、予め実験的に求められた最適値が記憶部９に記憶されている。

音声対話履歴において出現頻度が第１所定値以下で低い単語は、ユーザにとって聞き慣れない単語であり、ユーザにとって聞き取り難い単語と推定できる。さらに、一般対話履歴において、出現頻度が第３所定値以上で高い単語は、ユーザにとって聞き取り難いだけでなく、広く一般的に使用される単語と推定できる。

したがって、応答文生成部４は、上述の如く、聞返し直前の応答文において、音声対話履歴における出現頻度が第１所定値以下かつ、一般対話履歴における出現頻度が第３所定値以上の単語が含まれる場合、該単語のみからなる聞返し用の応答文、または、その応答文において該単語を強調した聞返し用の応答文を生成する。これにより、ユーザにとって、特に聞き取り難くかつ一般的に使用される単語（重要な単語）を際立たせ、聞き取り易くすることができる。すなわち、ユーザからの聞返しを検出した場合に、より聞き取り易い応答文を生成し出力することができる。本実施形態５において、上記実施形態１乃至４と同一部分は同一符号を付して詳細な説明は省略する。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

本発明は、例えば、図２に示す処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１音声対話システム、２音声認識部、３構文解析部、４応答文生成部、５音声出力部、６韻律検出部、７話題検出部、８聞返し検出部、９記憶部

Claims

ユーザと音声対話を行う音声対話システムであって、
前記ユーザによる聞返しを検出する聞返し検出手段と、
前記聞返し検出手段により聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する応答文生成手段と、
前記ユーザとの音声対話の履歴を記憶する記憶手段と、
を備え、
前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム。
請求項１記載の音声対話システムであって、
前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が最も低い単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム。
請求項１記載の音声対話システムであって、
前記応答文生成手段は、
前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、
該単語の音声速度を、該単語以外の単語の音声速度よりも低下させた前記聞返し用の応答文、該単語の音量を、該単語以外の単語の音量よりも大きくした前記聞返し用の応答文、および、該単語と、該単語の前後の単語と、の間隔を空けた前記聞返し用の応答文、のうちの少なくとも１つの前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム。
請求項１記載の音声対話システムであって、
前記応答文生成手段は、前記応答文において、前記記憶手段の音声対話の履歴における出現頻度が第１所定値以下かつ、重要度が第２所定値以上の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システム。
請求項２乃至４のうちいずれか１項記載の音声対話システムであって、
前記音声対話の話題を推定し、該推定した話題の変化を検出する話題検出手段を更に備え、
前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出された場合に、前記ユーザの音声の韻律情報に基づいて、前記ユーザの音声を該ユーザによる聞返しとして検出する、
ことを特徴とする音声対話システム。
請求項５記載の音声対話システムであって、
前記ユーザの音声の韻律情報を分析し、該韻律の変化量を検出する韻律検出手段を更に備え、
前記聞返し検出手段は、前記話題検出手段により前記話題の変化が検出され、かつ、前記韻律検出手段により検出された韻律の変化量が所定量以上である場合に、前記ユーザの音声を該ユーザによる聞返しとして検出する、
ことを特徴とする音声対話システム。
ユーザと音声対話を行う音声対話システムの処理方法であって、
前記ユーザによる聞返しを検出するステップと、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成するステップと、
を含み、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムの処理方法。
ユーザと音声対話を行う音声対話システムのプログラムあって、
前記ユーザによる聞返しを検出する処理と、
前記聞返しが検出された場合、該聞返し対し、該聞返し前に前記ユーザに応答した応答文に基づいて、聞返し用の応答文を生成する処理と、
をコンピュータに実行させ、
前記応答文において、前記ユーザとの音声対話の履歴における出現頻度が第１所定値以下の単語が含まれる場合、該単語のみからなる前記聞返し用の応答文、または、前記応答文において該単語を強調した前記聞返し用の応答文を生成する、
ことを特徴とする音声対話システムのプログラム。
請求項４記載の音声対話システムであって、
前記重要度は、ＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）であり、
前記ＴＦ－ＩＤＦは、下記式を用いて算出される、
ＴＦ＝（音声対話における単語Ｘの出現頻度）／（音声対話における全単語の出現頻度の和）
ＩＤＦ＝ｌｏｇ｛（音声対話の履歴に含まれる全音声対話の数）／（単語Ｘを含む音声対話の数）｝
ＴＦ－ＩＤＦ＝ＴＦ×ＩＤＦ、
ことを特徴とする音声対話システム。