JP6147836B2

JP6147836B2 - 対話装置

Info

Publication number: JP6147836B2
Application number: JP2015229153A
Authority: JP
Inventors: 優佳小林; 山本　大介; 大介山本; 土井　美和子; 美和子土井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2017-06-14
Anticipated expiration: 2031-09-26
Also published as: JP2016085747A

Description

本発明の実施形態は、対話装置に関する。

従来、ユーザと対話する対話装置が知られている。対話装置を利用した対話は、例えば、ユーザの入力文章を把握して対話するものと、ユーザの音声を把握して対話するものとがある。これらのような対話装置では、ユーザの入力文章又は音声を正確に把握し、より自然な対話を実現するために、高度な言語処理や音声認識処理が行われる場合がある。

特開２００６−３３１３４３号公報特開２００６−３１４６７号公報特開２０１０−７９５７４号公報

しかしながら、従来技術においては、ユーザの入力文章又は音声を正確に把握できない場合に、自然な対話を実現することが困難であるという問題がある。具体的には、従来技術では、言語処理や音声認識処理において、誤りが発生する可能性があるので、自然な対話を実現することが困難である。

本発明が解決しようとする課題は、自然な対話を実現することができる対話装置を提供することである。

実施形態の対話装置は、検知部と、出力部と、発話セット記憶部と、発話テンプレート記憶部と、概念辞書記憶部と、特有単語記憶部と、生成部とを有する。検知部は、第１発話が出力された後のユーザによる発話を検知する。出力部は、ユーザによる発話が検知された場合に、第２発話を出力する。発話セット記憶部は、第１発話及び第２発話を含んだ発話セットを記憶する。発話テンプレート記憶部は、第１発話及び第２発話を含んだ発話セットの一部の語句が概念で表現されたテンプレートを記憶する。概念辞書記憶部は、語句及び概念を対応付けて記憶する。特有単語記憶部は、外部から取得された特有な語句と、該特有な語句の概念とを対応付けて記憶する。生成部は、語句が入力された場合に、入力された語句に対応する概念を概念辞書記憶部から取得し、取得した概念を含む発話セットのテンプレートを発話テンプレート記憶部から取得して、取得した発話セットのテンプレートに含まれる概念に、入力された語句を挿入して新たな発話セットを生成し、生成した新たな発話セットを発話セット記憶部に格納する。また、生成部は、特有な語句の概念を含む発話セットのテンプレートを発話テンプレート記憶部から取得し、取得した発話セットのテンプレートに含まれる概念に、特有な語句を挿入して新たな発話セットを生成し、生成した新たな発話セットを発話セット記憶部に格納する。また、出力部は、任意のタイミングで、生成された新たな発話セットを記憶する発話セット記憶部から発話セットを取得し、取得した発話セットに含まれる第１発話を出力する。

図１は、第１の実施形態に係る対話装置の構成例を示すブロック図である。図２は、第１の実施形態に係る発話セット記憶部に記憶される情報例を示す図である。図３は、第１の実施形態に係る対話処理の流れの例を示すフローチャートである。図４は、第２の実施形態に係る対話装置の構成例を示すブロック図である。図５Ａは、第２の実施形態に係る発話テンプレート記憶部に記憶される情報例を示す図である。図５Ｂは、第２の実施形態に係る発話テンプレート記憶部に記憶される情報例を示す図である。図６は、第２の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。図７は、第３の実施形態に係る対話装置の構成例を示すブロック図である。図８は、第３の実施形態に係る特有単語記憶部に記憶される情報例を示す図である。図９は、第３の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。図１０は、第４の実施形態に係る対話装置の構成例を示すブロック図である。図１１は、第４の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。図１２は、第５の実施形態に係る対話装置の構成例を示すブロック図である。図１３は、第５の実施形態に係る発話テンプレート記憶部に記憶される情報例を示す図である。図１４は、第５の実施形態に係る順番決定処理を説明する図である。図１５は、第５の実施形態に係る対話処理の流れの例を示すフローチャートである。図１６は、第６の実施形態に係る対話装置の構成例を示すブロック図である。図１７は、第６の実施形態に係る対話処理の流れの例を示すフローチャートである。図１８は、第７の実施形態に係る対話装置の構成例を示すブロック図である。図１９は、第７の実施形態に係る対話処理の流れの例を示すフローチャートである。図２０は、再発話の要求時に係る対話処理の流れの例を示すフローチャートである。図２１は、第３発話を含む発話セット記憶部に記憶される情報例を示す図である。図２２は、一定時間にユーザ発話を検知できない場合の対話処理の流れの例を示すフローチャートである。

（第１の実施形態）
図１は、第１の実施形態に係る対話装置の構成例を示すブロック図である。例えば、図１に示すように、対話装置１００は、発話セット記憶部１０１と、発話セット取得部１０２と、出力部１０３と、検知部１０４とを有する。かかる対話装置１００は、例えば、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

発話セット記憶部１０１は、第１発話と、第１発話に対する応答として想定されるユーザによる発話に対する応答の発話を表す第２発話とを含んだ発話セットを記憶する。ここで、図２を用いて、第１の実施形態に係る発話セット記憶部１０１に記憶される情報について説明する。図２は、第１の実施形態に係る発話セット記憶部１０１に記憶される情報例を示す図である。

例えば、図２に示すように、発話セット記憶部１０１は、第１発話「映画は好き？」と、第１発話に対して想定されるユーザによる発話を表す想定ユーザ発話「好きです」と、第２発話「そうなんだ」とを含んだ「発話セット１」を記憶する。図２では、説明の便宜上、「想定ユーザ発話」を含む発話セット記憶部１０１を例示したが、「想定ユーザ発話」は、発話セット記憶部１０１に含まれていなくても良い。すなわち、図２に示すように、発話セット記憶部１０１は、第１発話に対するユーザ発話がどのような応答であっても、自然な対話を実現できる発話セットを記憶している。

発話セット取得部１０２は、発話セットを取得する。例えば、発話セット取得部１０２は、ユーザが対話装置１００の前に立ったり、ユーザによる対話装置１００の利用準備が整ったりした等、任意のタイミングで、発話セット記憶部１０１に記憶された発話セットを取得する。例を挙げると、発話セット取得部１０２は、発話セット記憶部１０１に記憶された「発話セット１」である、第１発話「映画は好き？」と、第２発話「そうなんだ」とを取得する。

出力部１０３は、発話セット取得部１０２によって取得された発話セットを出力する。かかる出力部１０３は、第１出力部１０３ａと、第２出力部１０３ｂとを有する。これらのうち、第１出力部１０３ａは、発話セット取得部１０２によって取得された発話セットに含まれる第１発話を出力する。例を挙げると、第１出力部１０３ａは、発話セット取得部１０２によって取得された発話セット「発話セット１」に含まれる第１発話「映画は好き？」を所定の表示出力装置に出力する。なお、第２出力部１０３ｂによる処理については後述する。

検知部１０４は、第１発話が出力された後のユーザによる発話を検知する。例えば、検知部１０４は、第１出力部１０３ａによる第１発話の出力後に、ユーザによる発話を検知する。例を挙げると、検知部１０４は、第１出力部１０３ａによって第１発話「映画は好き？」が所定の表示出力装置へ出力された後に、ユーザが「好きです」等を発話したことを検知する。なお、ユーザによる発話は、上記の例に限られるものではなく、どのような発話であっても良い。

また、第２出力部１０３ｂは、検知部１０４によってユーザによる発話が検知された場合に、発話セット取得部１０２によって取得された発話セットに含まれる第２発話を出力する。例を挙げると、第２出力部１０３ｂは、検知部１０４によってユーザによる発話「好きです」が検知された場合に、発話セット取得部１０２によって取得された発話セット「発話セット１」に含まれる第２発話「そうなんだ」を所定の表示出力装置に出力する。但し、検知部１０４によってユーザによる発話を一定時間検知できない場合には、第２出力部１０３ｂによる第２発話の出力を行わずに、次の発話セットを発話セット取得部１０２に取得させる。

次に、図３を用いて、第１の実施形態に係る対話処理の流れを説明する。図３は、第１の実施形態に係る対話処理の流れの例を示すフローチャートである。

例えば、図３に示すように、発話セット取得部１０２は、発話セット記憶部１０１から発話セットを取得する（ステップＳ１０１）。また、第１出力部１０３ａは、発話セット取得部１０２によって取得された発話セットに含まれる第１発話を所定の表示出力装置に出力する（ステップＳ１０２）。

また、検知部１０４は、第１出力部１０３ａによって出力された第１発話に対する、ユーザによる発話を検知したか否かを判定する（ステップＳ１０３）。このとき、検知部１０４によってユーザによる発話が検知された場合に（ステップＳ１０３肯定）、第２出力部１０３ｂは、発話セット取得部１０２によって取得された発話セットに含まれる第２発話を所定の表示出力装置に出力する（ステップＳ１０４）。また、第２発話の出力後、発話セット取得部１０２は、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ１０１）。

一方、検知部１０４は、ユーザによる発話を検知していない場合に（ステップＳ１０３否定）、一定時間が経過したか否かを判定する（ステップＳ１０５）。このとき、検知部１０４は、一定時間が経過していない場合に（ステップＳ１０５否定）、再度、ユーザによる発話を検知したか否かを判定する（ステップＳ１０３）。一方、一定時間が経過した場合に（ステップＳ１０５肯定）、発話セット取得部１０２は、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ１０１）。

本実施形態によれば、ユーザによる発話を限定する発話と、ユーザによる発話に対する応答の発話とを利用して対話するので、自然な対話を実現することができる。換言すると、ユーザによる発話の内容を認識することなく、自然な対話を実現することができる。

（第２の実施形態）
図４は、第２の実施形態に係る対話装置の構成例を示すブロック図である。第２の実施形態では、第１の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。

例えば、図４に示すように、対話装置２００は、発話セット記憶部１０１と、発話セット取得部１０２と、出力部１０３と、検知部１０４と、概念辞書記憶部２０５と、発話テンプレート記憶部２０６と、概念取得部２０７と、発話テンプレート取得部２０８と、発話セット生成部２０９とを有する。また、第１の実施形態と同様に、対話装置２００は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

概念辞書記憶部２０５は、語句と概念とを対応付けて記憶する。例えば、概念辞書記憶部２０５に記憶される単語は、常用されている単語であり、固有名詞や新しい単語等は含まれていない。発話テンプレート記憶部２０６は、一部の語句が概念で表現された第１発話と第２発話とを含んだ発話セットのテンプレートを記憶する。ここで、図５Ａ及び図５Ｂを用いて、第２の実施形態に係る発話テンプレート記憶部２０６に記憶される情報について説明する。図５Ａ及び図５Ｂは、第２の実施形態に係る発話テンプレート記憶部２０６に記憶される情報例を示す図である。

例えば、図５Ａに示すように、発話テンプレート記憶部２０６は、第１発話「［食べ物］は好き？」と、想定ユーザ発話「好きだよ」と、第２発話「［食べ物］はおいしいんだよ」とを含んだ発話セットのテンプレート「テンプレート１」を記憶する。ここで、“［］”で囲まれた「食べ物」は、単語の概念である。すなわち、発話テンプレート記憶部２０６に記憶される発話セットのテンプレートには、発話に含まれる単語が概念で表現されている。

また、例えば、図５Ｂに示すように、発話テンプレート記憶部２０６は、第１発話「［食べ物］は好き？」と、想定ユーザ発話「好きだよ」と、第２発話「［食べ物］は「味」んだよ」とを含んだ発話セットのテンプレート「テンプレート１」を記憶する。同様に、“［］”で囲まれた「食べ物」及び「味」は、単語の概念である。すなわち、発話テンプレート記憶部２０６に記憶される発話セットのテンプレートには、発話に含まれる複数の単語が概念で表現されていても良い。なお、図５Ａ及び図５Ｂでは、説明の便宜上、「想定ユーザ発話」を含む発話テンプレート記憶部２０６を例示したが、「想定ユーザ発話」は、発話テンプレート記憶部２０６に含まれていなくても良い。

概念取得部２０７は、語句が入力された場合に、該語句に対応する概念を概念辞書記憶部２０５から取得する。例を挙げると、概念取得部２０７は、ユーザによる対話装置２００の操作により、単語「チョコレート」の入力を受け付ける。そして、概念取得部２０７は、受け付けた単語「チョコレート」に対応する概念「食べ物」を概念辞書記憶部２０５から取得する。また、複数の単語が入力される場合の例を挙げると、概念取得部２０７は、ユーザによる対話装置２００の操作により、単語「チョコレート」、「甘い」の入力を受け付ける。そして、概念取得部２０７は、受け付けた単語「チョコレート」、「甘い」に対応する概念「食べ物」、「味」を概念辞書記憶部２０５から取得する。なお、対話装置２００は、単語に対応する概念が概念辞書記憶部２０５に登録されていなかった場合に処理を終了する。

発話テンプレート取得部２０８は、概念取得部２０７によって取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部２０６から取得する。例を挙げると、発話テンプレート取得部２０８は、概念取得部２０７によって取得された概念「食べ物」を含む発話セットのテンプレート「テンプレート１」を発話テンプレート記憶部２０６（図５Ａ参照）から取得する。また、複数の単語が入力された場合の例を挙げると、発話テンプレート取得部２０８は、概念取得部２０７によって取得された概念「食べ物」、「味」を含む発話セットのテンプレート「テンプレート１」を発話テンプレート記憶部２０６（図５Ｂ参照）から取得する。なお、対話装置２００は、概念を含む発話セットのテンプレートが発話テンプレート記憶部２０６に登録されていなかった場合に処理を終了する。

発話セット生成部２０９は、発話テンプレート取得部２０８によって取得された発話セットのテンプレートに含まれる概念に、入力された語句を挿入して新たな発話セットを生成する。そして、発話セット生成部２０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

例を挙げると、発話セット生成部２０９は、発話テンプレート取得部２０８によって取得された発話セットのテンプレート「テンプレート１」（図５Ａ参照）に含まれる概念「食べ物」に、入力を受け付けた単語「チョコレート」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第１発話「チョコレートは好き？」と、想定ユーザ発話「好きだよ」と、第２発話「チョコレートはおいしいんだよ」とを含むものとなる。そして、発話セット生成部２０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

また、複数の単語が入力された場合の例を挙げると、発話セット生成部２０９は、発話テンプレート取得部２０８によって取得された発話セットのテンプレート「テンプレート１」（図５Ｂ参照）に含まれる概念「食べ物」、「味」に、入力を受け付けた単語「チョコレート」、「甘い」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第１発話「チョコレートは好き？」と、想定ユーザ発話「好きだよ」と、第２発話「チョコレートは甘いんだよ」とを含むものとなる。そして、発話セット生成部２０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

次に、図６を用いて、第２の実施形態に係る発話セット生成処理の流れを説明する。図６は、第２の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。

例えば、図６に示すように、概念取得部２０７は、単語の入力を受け付けた場合に（ステップＳ２０１肯定）、該単語に対応する概念を概念辞書記憶部２０５から検索する（ステップＳ２０２）。また、概念取得部２０７は、単語の入力を受け付けていない場合に（ステップＳ２０１否定）、該単語の入力待ちの状態となる。

このとき、概念取得部２０７によって単語に対応する概念が概念辞書記憶部２０５から取得された場合に（ステップＳ２０３肯定）、発話テンプレート取得部２０８は、取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部２０６から検索する（ステップＳ２０４）。一方、対話装置２００は、概念取得部２０７によって単語に対応する概念が概念辞書記憶部２０５から取得されなかった場合に（ステップＳ２０３否定）、処理を終了する。

また、発話テンプレート取得部２０８は、概念取得部２０７によって取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部２０６から検索する（ステップＳ２０４）。このとき、発話テンプレート取得部２０８によって発話セットのテンプレートが発話テンプレート記憶部２０６から取得された場合に（ステップＳ２０５肯定）、発話セット生成部２０９は、取得された発話セットのテンプレートに含まれる概念に、入力された単語を挿入して新たな発話セットを生成する（ステップＳ２０６）。その後、発話セット生成部２０９は、生成した発話セットを発話セット記憶部１０１に格納する。一方、対話装置２００は、発話テンプレート取得部２０８によって発話セットのテンプレートが発話テンプレート記憶部２０６から取得されなかった場合に（ステップＳ２０５否定）、処理を終了する。

本実施形態によれば、予め登録された発話セットを使用した対話だけでなく、任意の単語に基づいた発話セットを使用した種々の対話を実現することができる。

（第３の実施形態）
図７は、第３の実施形態に係る対話装置の構成例を示すブロック図である。第３の実施形態では、第１の実施形態又は第２の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。

例えば、図７に示すように、対話装置３００は、発話セット記憶部１０１と、発話セット取得部１０２と、出力部１０３と、検知部１０４と、発話テンプレート記憶部２０６と、発話テンプレート取得部３０８と、発話セット生成部３０９と、特有単語記憶部３１０とを有する。また、第１の実施形態と同様に、対話装置３００は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

特有単語記憶部３１０は、外部から取得された特有な語句と、該特有な語句の概念とを対応付けて記憶する。ここで、図８を用いて、第３の実施形態に係る特有単語記憶部３１０に記憶される情報について説明する。図８は、第３の実施形態に係る特有単語記憶部３１０に記憶される情報例を示す図である。

例えば、図８に示すように、特有単語記憶部３１０は、特有単語「猛暑」と、特有単語の概念「天気」と、特有単語の出所を表す素性「http：／／tenki＿jouhou．jp」とを対応付けて記憶する。また、特有単語は、特有な語句の一例である。特有単語記憶部３１０に記憶される情報は、日々変化する情報に基づいて適宜更新される。具体的には、天気に該当する特有単語は、予め登録された地域の天気に基づいた単語（例えば、「晴れ」、「雨」、「猛暑」、「ゲリラ豪雨」等）に更新される。同様に、ニュースに該当する特有単語は、解析された特定のニュースサイトの記事に基づいた単語（例えば、「なでしこジャパン」、「東日本大震災」、「○○首相」等）に更新される。同様に、このほかの特有単語は、マイクロブログ（Micro Blogging）等で頻出する単語（例えば、「台風○○号」、「正心誠意」、「女子会」等）に更新される。このように、特有単語記憶部３１０に記憶される特有単語は、常用されない単語を含む等、上述した概念辞書記憶部２０５等に登録された単語とは異なる性質を有する単語である。なお、特有単語記憶部３１０への特有単語の登録は、対話装置３００内で実行されても良いし、特有単語を抽出するサービスを利用しても良い。

発話テンプレート取得部３０８は、特有な語句の概念を含む発話セットのテンプレートを発話テンプレート記憶部２０６から取得する。例を挙げると、発話テンプレート取得部３０８は、特有単語記憶部３１０に記憶された特有単語「わさびソフト」の概念「食べ物」を取得する。そして、発話テンプレート取得部３０８は、取得した概念「食べ物」を含む発話セットのテンプレート「テンプレート１」を発話テンプレート記憶部２０６（図５Ａ参照）から取得する。なお、発話テンプレート取得部３０８は、特有単語記憶部３１０から特有単語の概念を取得する際、一つの様態として、特有単語記憶部３１０への登録が最新のものから取得する。

また、複数の特有単語の概念を取得する場合の例を挙げると、発話テンプレート取得部３０８は、特有単語記憶部３１０に記憶された特有単語「わさびソフト」、「涙が出るほど辛い」の概念「食べ物」、「味」を取得する。そして、発話テンプレート取得部３０８は、取得した概念「食べ物」、「味」を含む発話セットのテンプレート「テンプレート１」を発話テンプレート記憶部２０６（図５Ｂ参照）から取得する。

発話セット生成部３０９は、発話テンプレート取得部３０８によって取得された発話セットのテンプレートに含まれる概念に、特有な語句を挿入して新たな発話セットを生成する。そして、発話セット生成部３０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

例を挙げると、発話セット生成部３０９は、発話テンプレート取得部３０８によって取得された発話セットのテンプレート「テンプレート１」（図５Ａ参照）に含まれる概念「食べ物」に、特有単語「わさびソフト」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第１発話「わさびソフトは好き？」と、想定ユーザ発話「好きだよ」と、第２発話「わさびソフトはおいしいんだよ」とを含むものとなる。そして、発話セット生成部３０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

また、複数の特有単語の概念を取得した場合の例を挙げると、発話セット生成部３０９は、発話テンプレート取得部３０８によって取得された発話セットのテンプレート「テンプレート１」（図５Ｂ参照）に含まれる概念「食べ物」、「味」に、特有単語「わさびソフト」、「涙が出るほど辛い」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第１発話「わさびソフトは好き？」と、想定ユーザ発話「好きだよ」と、第２発話「わさびソフトは涙が出るほど辛いんだよ」とを含むものとなる。そして、発話セット生成部３０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

なお、特有単語記憶部３１０から複数の特有単語の概念を取得する場合には、同じ素性を有する特有単語の概念を取得することが好ましい。なぜならば、何らかの関係を有する特有単語同士を利用して発話を生成することにより、より好適な発話を生成することができるからである。このことから、上記の例では、同じ素性「http：／／web．Analyze．cgi」を有する特有単語「わさびソフト」、「涙が出るほど辛い」の概念「食べ物」、「味」を取得する場合を例に挙げた。

次に、図９を用いて、第３の実施形態に係る発話セット生成処理の流れを説明する。図９は、第３の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。

例えば、図９に示すように、発話テンプレート取得部３０８は、特有単語の概念を特有単語記憶部３１０から取得する（ステップＳ３０１）。そして、発話テンプレート取得部３０８は、取得した特有単語の概念を含む発話セットのテンプレートを発話テンプレート記憶部２０６から検索する（ステップＳ３０２）。

このとき、発話テンプレート取得部３０８によって該当する発話セットのテンプレートが発話テンプレート記憶部２０６から取得された場合に（ステップＳ３０３肯定）、発話セット生成部３０９は、取得された発話セットのテンプレートに含まれる概念に、取得された特有単語を挿入して新たな発話セットを生成する（ステップＳ３０４）。

その後、発話セット生成部３０９は、生成した発話セットを発話セット記憶部１０１に格納する。一方、対話装置３００は、発話テンプレート取得部３０８によって発話セットのテンプレートが発話テンプレート記憶部２０６から取得されなかった場合に（ステップＳ３０３否定）、処理を終了する。

本実施形態によれば、日々更新される最新のキーワードが含まれた発話セットを使用した対話を実現することができる。

（第４の実施形態）
図１０は、第４の実施形態に係る対話装置の構成例を示すブロック図である。第４の実施形態では、第１の実施形態又は第２の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。

例えば、図１０に示すように、対話装置４００は、発話セット記憶部１０１と、発話セット取得部１０２と、出力部１０３と、検知部１０４と、概念辞書記憶部２０５と、発話テンプレート記憶部２０６と、概念取得部４０７と、発話テンプレート取得部２０８と、発話セット生成部４０９と、抽出部４１１とを有する。また、第１の実施形態と同様に、対話装置４００は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

抽出部４１１は、概念辞書記憶部２０５に記憶された語句に合致する、ユーザによる発話に含まれる語句を抽出する。例えば、抽出部４１１は、検知部１０４によって検知されたユーザによる発話の音声認識を行なう。そして、抽出部４１１は、音声認識処理の結果残った単語を、概念辞書記憶部２０５に記憶された単語に合致する、ユーザによる発話に含まれる単語として抽出する。

かかる音声認識処理では、一つの様態として、ユーザによる発話を形態素解析することで単語に分割され、各単語を概念辞書記憶部２０５から検索する処理が実行される。ここで、概念辞書記憶部２０５に記憶されていない単語は、助詞や助動詞等のため排除される。これらにより、音声認識処理の結果、残った単語が抽出される。ここでは、音声認識処理の結果残った単語が「カレー」である場合を例に挙げる。

概念取得部４０７は、抽出部４１１によって抽出された語句に対応する概念を概念辞書記憶部２０５から取得する。例を挙げると、概念取得部４０７は、抽出部４１１による音声認識処理の結果、残った単語「カレー」に対応する概念「食べ物」を概念辞書記憶部２０５から取得する。また、発話テンプレート取得部２０８は、第２の実施形態と同様に、概念取得部４０７によって取得された概念「食べ物」を含む発話セットのテンプレート「テンプレート１」を発話テンプレート記憶部２０６（図５Ａ参照）から取得する。

発話セット生成部４０９は、発話テンプレート取得部２０８によって取得された発話セットのテンプレートに含まれる概念に、抽出部４１１によって抽出された語句を挿入して新たな発話セットを生成する。そして、発話セット生成部４０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

例を挙げると、発話セット生成部４０９は、発話テンプレート取得部２０８によって取得された発話セットのテンプレート「テンプレート１」（図５Ａ参照）に含まれる概念「食べ物」に、抽出部４１１によって抽出された単語「カレー」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第１発話「カレーは好き？」と、想定ユーザ発話「好きだよ」と、第２発話「カレーはおいしいんだよ」とを含むものとなる。そして、発話セット生成部４０９は、生成した新たな発話セットを発話セット記憶部１０１に格納する。

次に、図１１を用いて、第４の実施形態に係る発話セット生成処理の流れを説明する。図１１は、第４の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。

例えば、図１１に示すように、検知部１０４によってユーザによる発話が検知された場合に（ステップＳ４０１肯定）、抽出部４１１は、音声認識処理を実行することにより、ユーザによる発話に含まれる単語を抽出する（ステップＳ４０２）。また、抽出部４１１は、検知部１０４によってユーザによる発話が検知されていない場合に（ステップＳ４０１否定）、検知部１０４によるユーザによる発話の検知待ちの状態となる。

また、概念取得部４０７は、抽出部４１１によって抽出された単語に対応する概念を概念辞書記憶部２０５から検索する（ステップＳ４０３）。このとき、概念取得部４０７によって単語に対応する概念が概念辞書記憶部２０５から取得された場合に（ステップＳ４０４肯定）、発話テンプレート取得部２０８は、取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部２０６から検索する（ステップＳ４０５）。一方、対話装置４００は、概念取得部４０７によって単語に対応する概念が概念辞書記憶部２０５から取得されなかった場合に（ステップＳ４０４否定）、処理を終了する。

また、発話テンプレート取得部２０８によって発話セットのテンプレートが発話テンプレート記憶部２０６から取得された場合に（ステップＳ４０６肯定）、発話セット生成部４０９は、取得された発話セットのテンプレートに含まれる概念に、抽出部４１１によって抽出された単語を挿入して新たな発話セットを生成する（ステップＳ４０７）。その後、発話セット生成部４０９は、生成した発話セットを発話セット記憶部１０１に格納する。一方、対話装置４００は、発話テンプレート取得部２０８によって発話セットのテンプレートが発話テンプレート記憶部２０６から取得されなかった場合に（ステップＳ４０６否定）、処理を終了する。

本実施形態によれば、ユーザ発話に基づいて生成された発話セットを使用して対話するので、自然な対話の流れを実現することができる。

（第５の実施形態）
図１２は、第５の実施形態に係る対話装置の構成例を示すブロック図である。第５の実施形態では、第１の実施形態又は第２の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。

例えば、図１２に示すように、対話装置５００は、発話セット記憶部１０１と、発話セット取得部５０２と、出力部１０３と、検知部１０４と、概念辞書記憶部２０５と、発話テンプレート記憶部５０６と、概念取得部２０７と、発話テンプレート取得部２０８と、発話セット生成部２０９と、類似度算出部５１２と、共起辞書記憶部５１３と、決定部５１４とを有する。また、第１の実施形態と同様に、対話装置５００は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

発話テンプレート記憶部５０６は、第２の実施形態と同様に、一部の語句が概念で表現された第１発話と第２発話とを含んだ発話セットのテンプレートを記憶する。さらに、発話テンプレート記憶部５０６は、第１発話の種類と、第１発話に対するユーザによる発話から得られるユーザ情報と、発話セットのテンプレートの話題とを、第１発話及び第２発話に対応付けて記憶する。ここで、図１３を用いて、第５の実施形態に係る発話テンプレート記憶部５０６に記憶される情報について説明する。図１３は、第５の実施形態に係る発話テンプレート記憶部５０６に記憶される情報例を示す図である。

例えば、図１３に示すように、発話テンプレート記憶部５０６は、第１発話の種類「質問」と、第１発話「［食べ物］は好き？」と、想定ユーザ発話「好きだよ」と、ユーザ情報「好きな食べ物」と、第２発話「［食べ物］は［味］んだよ」と、話題「食べ物」とを含んだ発話セットのテンプレート「テンプレート１」を記憶する。ここで、“［］”で囲まれた「食べ物」、「味」は、単語の概念である。

また、発話テンプレート記憶部５０６は、第１発話の種類「申し出」と、第１発話「［食べ物］はいかが？」と、想定ユーザ発話「どうも」と、第２発話「［食べ物］おすすめだよ」と、話題「食べ物」とを含んだ発話セットのテンプレート「テンプレート７」を記憶する。同様に、“［］”で囲まれた「食べ物」は、単語の概念である。「テンプレート７」のように、ユーザ情報は、発話セットのテンプレートによっては得られない場合もあるため、得られない場合にはその情報は保持されない。なお、「想定ユーザ発話」は、発話テンプレート記憶部５０６に含まれていなくても良い。

類似度算出部５１２は、新たな発話セットを含む発話セット間、又は、発話セットのテンプレート間の類似度を算出する。例えば、類似度算出部５１２は、発話セットのテンプレート間で、「第１発話の種類」による類似度を算出する。詳細には、類似度算出部５１２は、発話セットのテンプレート「ｓ１」と、発話セットのテンプレート「ｓ２」との第１発話の種類による類似度「Ｒｔ（ｓ１，ｓ２）」を、第１発話の種類が同じであれば「１」、異なれば「０」とする。例を挙げると、類似度算出部５１２は、発話セットのテンプレート「テンプレート１」と、発話セットのテンプレート「テンプレート６」との第１発話の種類による類似度「Ｒｔ（ｓ１，ｓ２）」を、第１発話の種類が同じ「質問」であるので「１」とする。同様に、類似度算出部５１２は、発話セットのテンプレート「テンプレート１」と、発話セットのテンプレート「テンプレート７」との第１発話の種類による類似度「Ｒｔ（ｓ１，ｓ２）」を、第１発話の種類が異なる「質問」、「申し出」であるので「０」とする。第１の発話による類似度を算出する理由は、発話の種類が同じものを連続させてしまうことで、似たような対話ばかりになるのを防ぐためである。

また、例えば、類似度算出部５１２は、発話セットのテンプレート間で、「ユーザ情報」による類似度を算出する。詳細には、類似度算出部５１２は、発話セットのテンプレート「ｓ１」と、発話セットのテンプレート「ｓ２」とのユーザ情報による類似度「Ｒｕ（ｓ１，ｓ２）」を、ユーザ情報が同じであれば「１」、異なれば「０」とする。例を挙げると、類似度算出部５１２は、発話セットのテンプレート「テンプレート１」と、発話セットのテンプレート「テンプレート６」とのユーザ情報による類似度「Ｒｕ（ｓ１，ｓ２）」を、ユーザ情報が同じ「好きな食べ物」であるので「１」とする。同様に、類似度算出部５１２は、発話セットのテンプレート「テンプレート１」と、発話セットのテンプレート「テンプレート７」とのユーザ情報による類似度「Ｒｕ（ｓ１，ｓ２）」を、異なる「好きな食べ物」、「（空欄）」であるので「０」とする。ユーザ情報による類似度を算出する理由は、似たようなことを尋ねる対話を連続させてしまうことが好ましくないからである。

また、例えば、類似度算出部５１２は、発話セットのテンプレート間で、「話題」による類似度を算出する。詳細には、類似度算出部５１２は、発話セットのテンプレート「ｓ１」と、発話セットのテンプレート「ｓ２」との話題による類似度「Ｒｄ（ｓ１，ｓ２）」を、話題が同じであれば「１」、異なれば「０」とする。例を挙げると、類似度算出部５１２は、発話セットのテンプレート「テンプレート１」と、発話セットのテンプレート「テンプレート６」との話題による類似度「Ｒｄ（ｓ１，ｓ２）」を、話題が同じ「食べ物」であるので「１」とする。同様に、類似度算出部５１２は、発話セットのテンプレート「テンプレート１」と、発話セットのテンプレート「テンプレート５」との話題による類似度「Ｒｄ（ｓ１，ｓ２）」を、異なる「食べ物」、「人」であるので「０」とする。話題による類似度を算出する理由は、同じ話題の発話を連続させてしまうことで、似たような対話ばかりになるのを防ぐためである。

これまで、発話セットのテンプレートの状態で類似度を算出する場合を説明したが、以下では、発話セットの状態で類似度を算出する場合を説明する。例えば、類似度算出部５１２は、発話セット間で、第１発話と第２発話との類似度を算出する。かかる類似度の算出の一つの様態として、編集距離を例に挙げる。編集距離とは、ある文章から別の文章に書き換えるときの、書き換えた単語の数を表す手数のことを指す。

また、以下では、下記の２つの発話セットを例に挙げる。
発話セットｓ１
「第１発話：カレーは好き？第２発話：カレーって辛いよね」
発話セットｓ２
「第１発話：アイスクリームは好き？第２発話：アイスクリームは冷たいよね」

詳細には、類似度算出部５１２は、発話セットｓ１と発話セットｓ２とに含まれる第１発話同士の編集距離を求める。
発話セットｓ１の第１発話：カレー／は／好き？
発話セットｓ２の第１発話：アイスクリーム／は／好き？
上記の例では、発話セットｓ１の第１発話から、発話セットｓ２の第１発話へ書き換えるときに、「カレー」を「アイスクリーム」に書き換えるだけで良いので、手数は「１」となる。また、編集距離は、文章が長いほど大きくなることが多い。このため、文章の長さで正規化する。但し、助詞や助動詞は文章の内容に影響するものではないので、これら以外の単語に限定して正規化編集距離「手数÷文章の長さ」を求める。すなわち、類似度算出部５１２は、「は」以外の単語の正規化編集距離「１／２＝０．５」を求める。

続いて、類似度算出部５１２は、発話セットｓ１と発話セットｓ２とに含まれる第２発話同士の編集距離を求める。
発話セットｓ１の第２発話：カレー／って／辛い／よね
発話セットｓ２の第２発話：アイスクリーム／は／冷たい／よね
上記の例では、発話セットｓ１の第２発話から、発話セットｓ２の第２発話へ書き換えるときに、「カレー」を「アイスクリーム」に書き換えるとともに、「辛い」を「冷たい」に書き換えれば良いので、手数は「２」となる。すなわち、類似度算出部５１２は、正規化編集距離「２／２＝１」を求める。

その後、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の編集距離「０．５＋１＝１．５」を求める。すなわち、発話セット間の編集距離は、第１発話同士の編集距離と、第２発話同士の編集距離との和で求められる。そして、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の編集距離による類似度「Ｒｅ（ｓ１，ｓ２）」を、求めた和の逆数「１／１．５＝０．６７」として求める。

ところで、上記の例では、単語が一致するか否かを判定したが、単語間の関係性をさらに考慮しても良い。単語間の関係性の一例として、単語間の概念の違いが挙げられる。単語の概念は、概念辞書記憶部２０５に記憶された情報を利用する。例えば、「カレー」は、「生産物」、「食べ物」、「料理」という３階層の概念が付与されているものとする。また、「アイスクリーム」は、「生産物」、「食べ物」、「菓子」という３階層の概念が付与されているものとする。同様に、「辛い」は、「自然」、「自然」、「味」という３階層の概念が付与されているものとする。また、「冷たい」は、「関係」、「量」、「寒暖」という３階層の概念が付与されているものとする。概念の下位層まで一致する単語同士ほど、互いの意味が近い単語であると言える。そこで、概念の一致しなかった数で編集距離を求める。

詳細には、類似度算出部５１２は、発話セットｓ１と発話セットｓ２とに含まれる第１発話同士の単語の概念の編集距離を求める。上記の例では、第１発話それぞれに含まれる単語「カレー」、「アイスクリーム」の概念は２階層まで一致しているため、手数は「３−２＝１」となる。この結果、第１発話同士の単語の概念の正規化編集距離は、「１／２＝０．５」となる。

続いて、類似度算出部５１２は、発話セットｓ１と発話セットｓ２とに含まれる第２発話同士の単語の概念の編集距離を求める。上記の例では、第２発話それぞれに含まれる単語「カレー」、「アイスクリーム」の概念は２階層まで一致しているため、手数は「３−２＝１」となる。加えて、第２発話それぞれに含まれる単語「辛い」、「冷たい」の概念は１階層も一致していないため、手数は「３−０＝３」となる。この結果、第２発話同士の単語の概念の正規化編集距離は、「（１＋３）／２＝２」となる。

その後、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の編集距離「０．５＋２＝２．５」を求める。そして、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の編集距離による類似度「Ｒｅｃ（ｓ１，ｓ２）」を、求めた和の逆数「１／２．５＝０．４」として求める。

ところで、上記の例では、単語間の関係性の一例として、単語間の概念の違いを挙げたが、単語間の共起性をさらに考慮しても良い。共起性に関しては、共起辞書記憶部５１３を利用する。共起辞書記憶部５１３は、例えば、任意の２つの単語の共起率を記憶する。共起率とは、２つの単語が同じ文書中でどれくらい使用されているかを表すものである。このような共起率の算出方法は、一つの様態として、以下の（数１）等がある。

（数１）

（数１）では、共起率の一例として「cosine係数」を挙げており、「単語Ａと単語Ｂとの共起頻度」とは単語Ａ、単語Ｂが同じ文書中で使用される頻度を意味する。このように、共起辞書記憶部５１３には、大量の文書を含んだデータを使用して予め算出された２つの単語の共起率が記憶されている。

詳細には、類似度算出部５１２は、発話セットｓ１と発話セットｓ２とに含まれる第１発話同士の単語の共起率の編集距離を求める。上記の例において、第１発話それぞれに含まれる単語「カレー」、「アイスクリーム」の共起率は、「０．２」であることとする。この結果、第１発話同士の単語の共起率の正規化編集距離は、「１／０．２／２＝１０」となる。

続いて、類似度算出部５１２は、発話セットｓ１と発話セットｓ２とに含まれる第２発話同士の単語の概念の編集距離を求める。上記の例では、第２発話それぞれに含まれる単語「カレー」、「アイスクリーム」の共起率は、「０．２」であることとする。加えて、第２発話それぞれに含まれる単語「辛い」、「冷たい」の共起率は、「０．０１」であることとする。この結果、第２発話同士の単語の共起率の正規化編集距離は、「（１／０．２＋１／０．０１）／２＝５２．５」となる。

その後、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の編集距離「１０＋５２．５＝６２．５」を求める。そして、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の共起率を用いた編集距離による類似度「Ｒｅｓ（ｓ１，ｓ２）」を、求めた和の逆数「１／６２．５＝０．０１６」として求める。

以上をふまえ、類似度算出部５１２は、発話セットｓ１と発話セットｓ２との間の類似度「Ｒ（ｓ１，ｓ２）」を、以下の（数２）により算出する。

（数２）
Ｒ（ｓ１，ｓ２）＝Ｗｔ＊Ｒｔ（ｓ１，ｓ２）＋Ｗｕ＊Ｒｕ（ｓ１，ｓ２）＋Ｗｄ＊Ｒｄ（ｓ１，ｓ２）＋Ｗｅ＊Ｒｅ（ｓ１，ｓ２）＋Ｗｅｃ＊Ｒｅｃ（ｓ１，ｓ２）＋Ｗｅｓ＊Ｒｅｓ（ｓ１，ｓ２）

（数２）に含まれる「Ｗｔ」、「Ｗｕ」、「Ｗｄ」、「Ｗｅ」、「Ｗｅｃ」及び「Ｗｅｓ」は、類似度それぞれに対する重みであり、０から１の間の値をとる。なお、類似度「Ｒ（ｓ１，ｓ２）」の算出では、上記の類似度のいずれかを利用することとしても良い。

決定部５１４は、類似度が所定値を超えない範囲で、連続する発話セット間又は発話セットのテンプレート間の類似度が最も高くなるように、発話セット又は発話セットのテンプレートの順番を決定する。ここで、図１４を用いて、第５の実施形態に係る順番決定処理を説明する。図１４は、第５の実施形態に係る順番決定処理を説明する図である。

図１４では、類似度算出部５１２によって算出された、「発話セット１」、「発話セット２」、「発話セット３」及び「発話セット４」それぞれの間の類似度が表されている。また、ここでは、所定値が「０．９」である場合を例に挙げる。例えば、図１４に示すように、決定部５１４は、「発話セット１」の次に利用する発話セットを、所定値「０．９」を超えない範囲で、「発話セット１」との間の類似度が最も高い「発話セット４」に決定する。

そして、決定部５１４は、「発話セット４」の次に利用する発話セットを、所定値「０．９」を超えない範囲で、「発話セット４」との間の類似度が最も高い「発話セット３」に決定する。続いて、決定部５１４は、「発話セット３」の次に利用する発話セットを、所定値「０．９」を超えない範囲で、「発話セット３」との間の類似度が最も高い「発話セット２」に決定する。すなわち、決定部５１４は、図１４に示す類似度と所定値「０．９」とである場合に、「発話セット１」、「発話セット４」、「発話セット３」、「発話セット２」の順に発話セットの順番を決定する。

これらのように、連続する発話セット同士の類似度に所定値を設定し、類似度が所定値以上となる発話セットは連続して使用しないようにする。但し、類似度が低い発話セット同士を連続して使用すると、対話の内容が急に変化する場合があるため、所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように発話セットの順番が決定される。

発話セット取得部５０２は、決定された順番に従って発話セットを取得する。例えば、発話セット取得部５０２は、決定部５１４によって決定された発話セットの順番に従って、発話セット記憶部１０１から発話セットを取得する。また、第１出力部１０３ａは、発話セットの取得順に、第１発話を出力する。例えば、第１出力部１０３ａは、発話セット取得部５０２による発話セットの取得順に、発話セットに含まれる第１発話を所定の表示出力装置に出力する。なお、第２出力部１０３ｂは、検知部１０４によるユーザ発話の検知後に、第１出力部１０３ａによって出力された第１発話に対応する第２発話を所定の表示出力装置に出力する。

次に、図１５を用いて、第５の実施形態に係る対話処理の流れを説明する。図１５は、第５の実施形態に係る対話処理の流れの例を示すフローチャートである。

例えば、図１５に示すように、類似度算出部５１２は、発話セット間又は発話セットのテンプレート間の類似度を算出する（ステップＳ５０１）。また、決定部５１４は、類似度算出部５１２によって算出された類似度が所定値を超えない範囲で、連続する発話セット間又は発話セットのテンプレート間の類似度が最も高くなるように、発話セット又は発話セットのテンプレートの順番を決定する（ステップＳ５０２）。

また、発話セット取得部５０２は、決定部５１４によって決定された順番に従って、発話セット記憶部１０１に記憶された発話セットを取得する（ステップＳ５０３）。また、第１出力部１０３ａは、発話セット取得部５０２によって取得された発話セットに含まれる第１発話を所定の表示出力装置に出力する（ステップＳ５０４）。

また、検知部１０４は、第１出力部１０３ａによって出力された第１発話に対する、ユーザによる発話を検知したか否かを判定する（ステップＳ５０５）。このとき、検知部１０４によってユーザによる発話が検知された場合に（ステップＳ５０５肯定）、第２出力部１０３ｂは、第１出力部１０３ａによって出力された第１発話に対応する、発話セット取得部５０２によって取得された発話セットに含まれる第２発話を所定の表示出力装置に出力する（ステップＳ５０６）。また、第２発話の出力後、発話セット取得部５０２は、決定部５１４によって決定された順番に従って、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ５０３）。

一方、検知部１０４は、ユーザによる発話を検知していない場合に（ステップＳ５０５否定）、一定時間が経過したか否かを判定する（ステップＳ５０７）。このとき、検知部１０４は、一定時間が経過していない場合に（ステップＳ５０７否定）、再度、ユーザによる発話を検知したか否かを判定する（ステップＳ５０５）。一方、一定時間が経過した場合に（ステップＳ５０７肯定）、発話セット取得部５０２は、決定部５１４によって決定された順番に従って、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ５０３）。

本実施形態によれば、発話セット間の類似度に基づいて発話セットの順番を決定するので、より自然な対話の流れを実現することができる。

（第６の実施形態）
図１６は、第６の実施形態に係る対話装置の構成例を示すブロック図である。第６の実施形態では、第１の実施形態、第２の実施形態又は第５の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。

例えば、図１６に示すように、対話装置６００は、発話セット記憶部１０１と、発話セット取得部６０２と、出力部１０３と、検知部１０４と、概念辞書記憶部２０５と、発話テンプレート記憶部５０６と、概念取得部２０７と、発話テンプレート取得部２０８と、発話セット生成部２０９と、類似度算出部６１２と、共起辞書記憶部５１３と、決定部６１４とを有する。また、第１の実施形態と同様に、対話装置６００は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

類似度算出部６１２は、新たな発話セットを含む発話セット間、又は、発話セットのテンプレート間の類似度を算出する。かかる類似度算出部６１２による処理は、第５の実施形態に係る類似度算出部５１２による処理と同様であるため、ここでは詳細な説明を省略する。

決定部６１４は、類似度が所定値以上となる発話セット同士又は発話セットのテンプレート同士を同一のグループにグループ分けし、類似度が最も近い異なるグループを順次選択して、連続する発話セット又は発話セットのテンプレートの順番を決定する。例えば、決定部６１４は、類似度算出部６１２によって算出された類似度が所定値「Ｘ１」以上であるというルールのもとに発話セットをグルーピングする。

そして、決定部６１４は、グループ同士の類似度を求める。グループ同士の類似度は、例えば、同一グループに属する発話セット間の類似度の平均値、最大値又は最小値のいずれかとする。続いて、決定部６１４は、同じグループから連続する発話セットを選択しない、すなわち異なるグループから連続する発話セットを順次選択し、発話セットの順番を決定する。但し、決定部６１４は、異なるグループから連続する発話セットを順次選択する場合に、グループ間の類似度が最も近いグループから連続する発話セットを順次選択する。

なお、グループから発話セットを選択する場合には、一度選択されたグループは全てのグループが選択された後にしか再選択できないようにしても良い。また、毎発話セットで類似度が所定値未満のグループに属する発話セットを選択しなくても良く、Ｎ回（「Ｎ」は、自然数）だけ同じグループ内から連続して発話セットを選択し、その後、他のグループから同じようにＮ回選択するようにしても良い。

発話セット取得部６０２は、決定された順番に従って発話セットを取得する。例えば、発話セット取得部６０２は、決定部６１４によって決定された発話セットの順番に従って、発話セット記憶部１０１から発話セットを取得する。また、第１出力部１０３ａは、発話セットの取得順に、第１発話を出力する。例えば、第１出力部１０３ａは、発話セット取得部６０２による発話セットの取得順に、発話セットに含まれる第１発話を所定の表示出力装置に出力する。なお、第２出力部１０３ｂは、検知部１０４によるユーザ発話の検知後に、第１出力部１０３ａによって出力された第１発話に対応する第２発話を所定の表示出力装置に出力する。

次に、図１７を用いて、第６の実施形態に係る対話処理の流れを説明する。図１７は、第６の実施形態に係る対話処理の流れの例を示すフローチャートである。

例えば、図１７に示すように、類似度算出部６１２は、発話セット間又は発話セットのテンプレート間の類似度を算出する（ステップＳ６０１）。また、決定部６１４は、類似度算出部６１２によって算出された類似度が所定値以上となる発話セット同士を同一グループにグループ分けする（ステップＳ６０２）。続いて、決定部６１４は、グループ同士の類似度に基づいて、連続する発話セットを各グループから選択し、発話セットの順番を決定する（ステップＳ６０３）。

また、発話セット取得部６０２は、決定部６１４によって決定された順番に従って、発話セット記憶部１０１に記憶された発話セットを取得する（ステップＳ６０４）。また、第１出力部１０３ａは、発話セット取得部６０２によって取得された発話セットに含まれる第１発話を所定の表示出力装置に出力する（ステップＳ６０５）。

また、検知部１０４は、第１出力部１０３ａによって出力された第１発話に対する、ユーザによる発話を検知したか否かを判定する（ステップＳ６０６）。このとき、検知部１０４によってユーザによる発話が検知された場合に（ステップＳ６０６肯定）、第２出力部１０３ｂは、第１出力部１０３ａによって出力された第１発話に対応する、発話セット取得部６０２によって取得された発話セットに含まれる第２発話を所定の表示出力装置に出力する（ステップＳ６０７）。また、第２発話の出力後、発話セット取得部６０２は、決定部６１４によって決定された順番に従って、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ６０４）。

一方、検知部１０４は、ユーザによる発話を検知していない場合に（ステップＳ６０６否定）、一定時間が経過したか否かを判定する（ステップＳ６０８）。このとき、検知部１０４は、一定時間が経過していない場合に（ステップＳ６０８否定）、再度、ユーザによる発話を検知したか否かを判定する（ステップＳ６０６）。一方、一定時間が経過した場合に（ステップＳ６０８肯定）、発話セット取得部６０２は、決定部６１４によって決定された順番に従って、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ６０４）。

本実施形態によれば、発話セット同士の類似度が所定値以上のものをグルーピングして、グループ同士の類似度に基づいて発話セットの順番を決定するので、より自然な対話を実現することができる。

（第７の実施形態）
図１８は、第７の実施形態に係る対話装置の構成例を示すブロック図である。第７の実施形態では、第１の実施形態、第２の実施形態、第４の実施形態又は第５の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。

例えば、図１８に示すように、対話装置７００は、発話セット記憶部１０１と、発話セット取得部７０２と、出力部１０３と、検知部１０４と、概念辞書記憶部２０５と、発話テンプレート記憶部２０６と、概念取得部４０７と、発話テンプレート取得部２０８と、発話セット生成部４０９と、抽出部４１１と、類似度算出部７１２と、共起辞書記憶部５１３と、決定部７１４とを有する。また、第１の実施形態と同様に、対話装置７００は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。

類似度算出部７１２は、抽出された語句と新たな発話セットを含む発話セットとの間、及び、発話セット間の類似度を算出する。例えば、類似度算出部７１２は、抽出部４１１による音声認識処理で抽出された単語と、各発話セットと間の類似度を算出するとともに、発話セット間の類似度を算出する。発話セット間の類似度の算出は上述してきた実施形態と同様であるためその説明を省略し、ここでは、抽出された単語と発話セットとの間の類似度の算出について説明する。

また、以下では、下記の単語と発話セットとを例に挙げる。
単語ｋ１「カレー」
発話セットｓ１
「第１発話：アイスクリームは好き？第２発話：アイスクリームは冷たいよね」

詳細には、類似度算出部７１２は、単語ｋ１と発話セットｓ１とに含まれる単語「カレー」、「アイスクリーム」の概念の類似度「Ｒｅｃ（ｋ１，ｓ１）＝１」を算出する。なお、発話セット中に複数の単語が含まれている場合には、平均値、最大値又は最小値のいずれかを類似度とすれば良い。

また、類似度算出部７１２は、単語「カレー」、「アイスクリーム」の共起率「０．２」と、単語「カレー」、「冷たい」の共起率「０．０１」と、単語「カレー」、「好き」の共起率「０．０５」とを共起辞書記憶部５１３から取得する。そして、類似度算出部７１２は、共起率を用いた類似度「Ｒｅｓ（ｋ１，ｓ１）＝（０．２＋０．０１＋０．０５）／３＝０．０８７」を求める。ここでは、平均値を使用する例を挙げたが、最大値又は最小値のいずれかを類似度としても良い。

以上をふまえ、類似度算出部７１２は、単語ｋ１と発話セットｓ１との間の類似度「Ｒ（ｋ１，ｓ１）」を、以下の（数３）により算出する。

（数３）
Ｒ（ｋ１，ｓ１）＝Ｗｅｃ＊Ｒｅｃ（ｋ１，ｓ１）＋Ｗｅｓ＊Ｒｅｓ（ｋ１，ｓ１）

（数３）に含まれる「Ｗｅｃ」及び「Ｗｅｓ」は、類似度それぞれに対する重みであり、０から１の間の値をとる。なお、類似度「Ｒ（ｋ１，ｓ１）」の算出では、上記の類似度のいずれかを利用することとしても良い。

決定部７１４は、類似度が最も高い発話セットを一番目の発話セットとして、該一番目の発話セットから類似度が所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように、発話セットの順番を決定する。例えば、決定部７１４は、類似度算出部７１２によって算出された単語ｋ１と各発話セットとの間の類似度のうち、最も高い類似度となった発話セットを一番目の発話セットとする。

そして、決定部７１４は、類似度算出部７１２によって算出された発話セット間の類似度に基づいて、一番目の発話セットから類似度が所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように、発話セットの順番を決定していく。すなわち、一番目の発話セットが決定された後、連続する発話セット同士の類似度に所定値を設定し、類似度が所定値以上となる発話セットは連続して使用しないようにする。但し、類似度が低い発話セット同士を連続して使用すると、対話の内容が急に変化する場合があるため、所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように発話セットの順番が決定される。

発話セット取得部７０２は、決定された順番に従って発話セットを取得する。例えば、発話セット取得部７０２は、決定部７１４によって決定された発話セットの順番に従って、発話セット記憶部１０１から発話セットを取得する。また、第１出力部１０３ａは、発話セットの取得順に、第１発話を出力する。例えば、第１出力部１０３ａは、発話セット取得部７０２による発話セットの取得順に、発話セットに含まれる第１発話を所定の表示出力装置に出力する。なお、第２出力部１０３ｂは、検知部１０４によるユーザ発話の検知後に、第１出力部１０３ａによって出力された第１発話に対応する第２発話を所定の表示出力装置に出力する。また、抽出部４１１によって新たな単語が抽出された場合には、上記処理を再度実行して、発話セットの順番を更新する。

次に、図１９を用いて、第７の実施形態に係る対話処理の流れを説明する。図１９は、第７の実施形態に係る対話処理の流れの例を示すフローチャートである。

例えば、図１９に示すように、検知部１０４によってユーザによる発話が検知された場合に（ステップＳ７０１肯定）、抽出部４１１は、音声認識処理を実行することにより、ユーザによる発話に含まれる単語を抽出する（ステップＳ７０２）。また、抽出部４１１は、検知部１０４によってユーザによる発話が検知されていない場合に（ステップＳ７０１否定）、検知部１０４によるユーザによる発話の検知待ちの状態となる。

また、類似度算出部７１２は、抽出部４１１によって抽出された単語と各発話セットとの間、及び、発話セット間の類似度を算出する（ステップＳ７０３）。また、決定部７１４は、類似度算出部７１２によって算出された単語と発話セットとの類似度をもとに一番目の発話セットを決定し、類似度算出部７１２によって算出された発話セット間の類似度をもとに一番目の発話セットに続く発話セットの順番を決定する（ステップＳ７０４）。

また、発話セット取得部７０２は、決定部７１４によって決定された順番に従って、発話セット記憶部１０１に記憶された発話セットを取得する（ステップＳ７０５）。また、第１出力部１０３ａは、発話セット取得部７０２によって取得された発話セットに含まれる第１発話を所定の表示出力装置に出力する（ステップＳ７０６）。

また、検知部１０４は、第１出力部１０３ａによって出力された第１発話に対する、ユーザによる発話を検知したか否かを判定する（ステップＳ７０７）。このとき、検知部１０４によってユーザによる発話が検知された場合に（ステップＳ７０７肯定）、第２出力部１０３ｂは、第１出力部１０３ａによって出力された第１発話に対応する、発話セット取得部７０２によって取得された発話セットに含まれる第２発話を所定の表示出力装置に出力する（ステップＳ７０８）。また、第２発話の出力後、発話セット取得部７０２は、決定部７１４によって決定された順番に従って、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ７０５）。

一方、検知部１０４は、ユーザによる発話を検知していない場合に（ステップＳ７０７否定）、一定時間が経過したか否かを判定する（ステップＳ７０９）。このとき、検知部１０４は、一定時間が経過していない場合に（ステップＳ７０９否定）、再度、ユーザによる発話を検知したか否かを判定する（ステップＳ７０７）。一方、一定時間が経過した場合に（ステップＳ７０９肯定）、発話セット取得部７０２は、決定部７１４によって決定された順番に従って、次の発話セットを発話セット記憶部１０１から取得する（ステップＳ７０５）。

本実施形態によれば、音声認識で抽出された単語を含んだ発話セットを使用するので、より自然な対話を実現することができる。

（上記以外の実施形態）
上記実施形態では、ユーザによる発話の内容を認識することなく対話を実現する場合を説明したが、対話の続行に支障をきたさないような対話を実現することが好ましい。例えば、ユーザによる発話が「聞き返し」等の所定発話である場合に、そのまま次の発話を出力すると、ユーザを無視した対話になる可能性がある。これを回避するために、ユーザによる発話が「聞き返し」等の所定発話である場合に、再度、直前の発話を出力することもできる。

図２０は、再発話の要求時に係る対話処理の流れの例を示すフローチャートである。例えば、図２０に示すように、対話装置１００は、発話セットを発話セット記憶部１０１から取得し（ステップＳ８０１）、取得した発話セットに含まれる第１発話を所定の表示出力装置に出力する（ステップＳ８０２）。

そして、対話装置１００は、ユーザによる発話を検知した場合に（ステップＳ８０３肯定）、検知したユーザによる発話が再発話の要求であるか否かを判定する（ステップＳ８０４）。かかる再発話の要求であるか否かの判定では、「もう一回話して」等の所定発話を予め保持しておき、検知したユーザによる発話が所定発話に該当するか否かを判定する。また、所定のボタンが押下された場合に、これを再発話の要求とみなしても良い。このとき、対話装置１００は、再発話の要求であると判定した場合に（ステップ８０４肯定）、再度、第１発話を出力する（ステップＳ８０２）。第１発話の再出力では、例えば、音声を大きくしたり、発話の速度をさらに遅くしたりする等、ユーザに理解されやすいように変更しても良い。

一方、対話装置１００は、再発話の要求でないと判定した場合に（ステップＳ８０４否定）、第２発話を出力する（ステップＳ８０５）。また、対話装置１００は、ユーザによる発話を検知していない場合に（ステップＳ８０３否定）、一定時間が経過したか否かを判定する（ステップＳ８０６）。このとき、対話装置１００は、一定時間が経過していないと判定した場合に（ステップＳ８０６否定）、ステップＳ８０３の処理を実行する。一方、対話装置１００は、一定時間が経過したと判定した場合に（ステップＳ８０６肯定）、ステップＳ８０１の処理を実行する。なお、再発話要求の判定処理は、第２発話の出力後にも実行しても良い。

本実施形態によれば、ユーザ発話が所定発話である場合に、再度直前の発話を出力するので、一方的な対話になるのを抑制することができる。

また、上記実施形態では、ユーザによる発話を一定時間検知できなければ次の発話セットを使用した発話を行なう場合を説明したが、ユーザが何も発話しなかった場合でも適切な発話をすることもできる。ここでは、ユーザによる発話の応答の発話を表す「第２発話」に、ユーザが何も発話しなかった場合に出力する発話を表す「第３発話」が含まれる場合を例に挙げる。

図２１は、第３発話を含む発話セット記憶部１０１に記憶される情報例を示す図である。例えば、図２１に示すように、発話セット記憶部１０１は、第１発話「映画は好き？」と、想定ユーザ発話「好きだよ」、「（応答なし）」と、第２発話「映画はいいよね」、「僕は映画好きだよ（第３発話）」とを含んだ「発話セット１」を記憶する。上記実施形態と同様に、「想定ユーザ発話」は、発話セット記憶部１０１に含まれていなくても良い。

図２２は、一定時間にユーザ発話を検知できない場合の対話処理の流れの例を示すフローチャートである。例えば、図２２に示すように、対話装置１００は、発話セットを発話セット記憶部１０１から取得し（ステップＳ９０１）、取得した発話セットに含まれる第１発話を所定の表示出力装置に出力する（ステップＳ９０２）。

そして、対話装置１００は、ユーザによる発話を検知した場合に（ステップＳ９０３肯定）、検知したユーザによる発話が再発話の要求であるか否かを判定する（ステップＳ９０４）。このとき、対話装置１００は、再発話の要求であると判定した場合に（ステップＳ９０４肯定）、再度、第１発話を出力する（ステップＳ９０２）。一方、対話装置１００は、再発話の要求でないと判定した場合に（ステップＳ９０４否定）、第２発話を出力する（ステップＳ９０５）。

また、対話装置１００は、ユーザによる発話を検知していない場合に（ステップＳ９０３否定）、一定時間が経過したか否かを判定する（ステップＳ９０６）。このとき、対話装置１００は、一定時間が経過していないと判定した場合に（ステップＳ９０６否定）、ステップＳ９０３の処理を実行する。一方、対話装置１００は、一定時間が経過したと判定した場合に（ステップＳ９０６肯定）、第３発話を出力する（ステップＳ９０７）。

本実施形態によれば、一定時間にユーザ発話を検知できない場合でも、対応する発話を出力するので、適切な対話を実現することができる。

また、上記実施形態２では、概念辞書記憶部２０５には固有名詞や新しい単語等が含まれていないが、発話セットのテンプレート中に記載された概念に合わせて未知の単語を追加することもできる。未知の単語を追加する場合には、単語の概念を概念辞書記憶部２０５から取得及び付与し、概念を含む発話セットのテンプレートを検索し、発話セットを生成する。これにより、常用される単語だけでなく、話題のキーワードやおすすめの商品名等を追加することができる。例えば、商品名「チョコレートクランチＮＥＷ」という未知の単語を概念「食べ物」と設定し、商品の特徴である「やみつきになるほどおいしい」というフレーズを概念「味」と設定する。この結果、「チョコレートクランチＮＥＷは好き？」や、「チョコレートクランチＮＥＷはやみつきになるほどおいしいんだよ」等の発話セットを生成することができる。すなわち、本実施形態によれば、日常の対話だけでなく、商品の販売促進等にも適用することができる。

また、上記実施形態では、２つの発話セットに含まれる第１発話同士、第２発話同士の編集距離をもとに類似度を算出する場合を説明したが、第２発話と次の発話セットの第１発話との編集距離をもとに類似度を算出することもできる。すなわち、第１発話、第２発話の順にユーザが認識することから、第２発話と次の発話セットの第１発話との発話が似たような発話であると好ましくないので、これらの編集距離をもとに類似度を算出する。

また、上述してきた実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００対話装置
１０１発話セット記憶部
１０２発話セット取得部
１０３出力部
１０３ａ第１出力部
１０３ｂ第２出力部
１０４検知部

Claims

第１発話が出力された後のユーザによる発話を検知する検知部と、
前記ユーザによる発話が検知された場合に、第２発話を出力する出力部と、
前記第１発話及び前記第２発話を含んだ発話セットを記憶する発話セット記憶部と、
前記発話セットの一部の語句が概念で表現されたテンプレートを記憶する発話テンプレート記憶部と、
語句及び概念を対応付けて記憶する概念辞書記憶部と、
外部から取得された特有な語句と、該特有な語句の概念とを対応付けて記憶する特有単語記憶部と、
語句が入力された場合に、入力された前記語句に対応する概念を前記概念辞書記憶部から取得し、取得した前記概念を含む発話セットのテンプレートを前記発話テンプレート記憶部から取得して、取得した前記発話セットのテンプレートに含まれる概念に、入力された前記語句を挿入して新たな発話セットを生成し、生成した新たな発話セットを前記発話セット記憶部に格納し、前記特有な語句の概念を含む前記発話セットのテンプレートを前記発話テンプレート記憶部から取得し、取得した前記発話セットのテンプレートに含まれる概念に、前記特有な語句を挿入して新たな発話セットを生成し、生成した新たな発話セットを前記発話セット記憶部に格納する生成部と、を有し、
前記出力部は、任意のタイミングで、生成された新たな前記発話セットを記憶する前記発話セット記憶部から前記発話セットを取得し、取得した前記発話セットに含まれる前記第１発話を出力する
対話装置。
前記概念辞書記憶部に記憶された前記語句に合致する、前記ユーザによる発話に含まれる語句を抽出する抽出部をさらに有し、
前記生成部は、抽出された前記語句に対応する前記概念を前記概念辞書記憶部から取得し、取得した前記概念を含む発話セットのテンプレートを前記発話テンプレート記憶部から取得して、取得した前記発話セットのテンプレートに含まれる概念に、抽出された前記語句を挿入して新たな発話セットを生成する請求項１に記載の対話装置。
前記新たな発話セットを含む前記発話セット間、又は、前記発話セットのテンプレート間の類似度を算出する類似度算出部と、
前記類似度が所定値を超えない範囲で、連続する前記発話セット間又は前記発話セットのテンプレート間の類似度が最も高くなるように、前記発話セット又は前記発話セットのテンプレートの順番を決定する決定部と
をさらに有し、
前記出力部は、前記順番に従って前記発話セットを取得し、前記発話セットの取得順に、前記第１発話を出力する請求項１に記載の対話装置。
前記新たな発話セットを含む前記発話セット間、又は、前記発話セットのテンプレート間の類似度を算出する類似度算出部と、
前記類似度が所定値以上となる前記発話セット同士又は前記発話セットのテンプレート同士を同一グループにグループ分けし、類似度が最も近い異なるグループを順次選択して、連続する前記発話セット又は発話セットのテンプレートの順番を決定する決定部と
をさらに有し、
前記出力部は、前記順番に従って前記発話セットを取得し、前記発話セットの取得順に、前記第１発話を出力する請求項１に記載の対話装置。
抽出された前記語句と前記新たな発話セットを含む前記発話セットとの間、及び、前記発話セット間の類似度を算出する類似度算出部と、
前記類似度が最も高い前記発話セットを一番目の発話セットとして、該一番目の発話セットから前記類似度が所定値を超えない範囲で、連続する前記発話セット間の類似度が最も高くなるように、前記発話セットの順番を決定する決定部と
をさらに有し、
前記出力部は、前記順番に従って前記発話セットを取得し、前記発話セットの取得順に、前記第１発話を出力する請求項２に記載の対話装置。
前記検知部は、ユーザによる所定発話をさらに検知し、
前記出力部は、前記ユーザによる所定発話が検知された場合に、前記第１発話を出力する請求項１に記載の対話装置。
前記発話セット記憶部は、前記ユーザが発話しなかった場合に対する応答の発話を表す第３発話をさらに含んだ前記発話セットを記憶し、
前記出力部は、前記ユーザによる発話が検知されなかった場合に、取得された前記発話セットに含まれる前記第３発話を出力する請求項１に記載の対話装置。