JP3375449B2

JP3375449B2 - 統合認識対話装置

Info

Publication number: JP3375449B2
Application number: JP03858195A
Authority: JP
Inventors: 夏樹湯浅
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1995-02-27
Filing date: 1995-02-27
Publication date: 2003-02-10
Anticipated expiration: 2018-02-10
Also published as: JPH08234789A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、統合認識対話装置に関
し、特に人間の音声・動作等の多チャネルの情報を統合
して認識を行ない、ユーザとの自然な対話を可能にする
統合認識対話装置に関するものである。

【０００２】

【従来の技術】従来、計算機との対話を、人間との対話
のように自然に行なうためには、音声、顔の動き、身振
り、視線などの複数のチャネルを用いて、これらの認識
結果を統合することが必要となる。特開平５−３０７４
３２号公報に開示されている時刻タグ付加による多チャ
ネル間同期統合装置では、複数のチャネルの認識結果そ
れぞれについて入力データの時刻情報（時刻タグ）を併
せて出力させることによって認識結果の統合を行なって
いる。

【０００３】

【発明が解決しようとする課題】しかし、特開平５−３
０７４３２号公報に開示されている時刻タグ付加による
多チャネル間同期統合装置においては、時刻情報をどの
ように使って各チャネルの認識結果を統合するのかにつ
いては明らかにされていない。

【０００４】本発明は以上の事情を考慮してなされたも
ので、マルチモーダル対話データベースの情報を元にし
て、複数の入力チャネルからの入力を統合して扱うこと
で、より自然な対話を行なうことができる統合認識対話
装置を提供することを目的とする。

【０００５】

【課題を解決するための手段】請求項１に記載の統合認
識対話装置は、時刻情報を出力する時刻取得手段と、ユ
ーザの音声信号、顔の動き、視線、体の動作等の少なく
とも１つを含む入力データをそれぞれ認識する複数の認
識手段と、音声信号から単語を識別するための文脈情報
を出力する文脈情報取得手段と、時刻情報、文脈情報及
び前記複数の認識手段より並列に出力される認識結果を
統合処理してユーザの意図の認識を行なう統合処理手段
と、前記統合処理手段によって認識されたユーザの意図
に基づいて対話を進める対話管理手段と、前記対話管理
手段から渡された出力データをユーザに出力する出力手
段とを具備する統合認識対話装置であって、前記統合処
理手段がユーザの意図の認識を行なう期間を、前記出力
手段からユーザに出力される前記出力データに含まれる
キーワードの発話タイミング近傍で開始させることを特
徴とする。

【０００６】請求項２に記載の統合認識対話装置は、前
記ユーザの意図の認識を行う期間を、前記出力手段から
ユーザへの出力が終わってから所定の時間経過後で終了
させることを特徴とする。

【０００７】

【０００８】請求項３に記載の統合認識対話装置は、時
刻情報を出力する時刻取得手段と、ユーザの音声信号、
顔の動き、視線、体の動作等の少なくとも１つを含む入
力データをそれぞれ認識する複数の認識手段と、音声信
号から単語を識別するための文脈情報を出力する文脈情
報取得手段と、時刻情報、文脈情報及び前記複数の認識
手段より並列に出力される認識結果を統合処理してユー
ザの意図の認識を行なう統合処理手段と、前記統合処理
手段によって認識されたユーザの意図に基づいて対話を
進める対話管理手段と、前記対話管理手段から渡された
出力データをユーザに出力する出力手段とを具備する統
合認識対話装置であって、前記統合処理手段は、前記対
話管理手段と前記文脈情報取得手段からの情報に基づい
てユーザの音声信号を認識するための所定個数のキーワ
ード群を設定し、前記キーワード群がユーザが肯定を意
図する「肯定キーワード群」と、ユーザが否定を意図す
る「否定キーワード群」とを含むことを特徴とする。

【０００９】

【００１０】

【００１１】

【００１２】請求項４に記載の統合認識対話装置は、時
刻情報を出力する時刻取得手段と、ユーザの音声信号、
顔の動き、視線、体の動作等の少なくとも１つを含む入
力データをそれぞれ認識する複数の認識手段と、音声信
号から単語を識別するための文脈情報を出力する文脈情
報取得手段と、時刻情報、文脈情報及び前記複数の認識
手段より並列に出力される認識結果を統合処理してユー
ザの意図の認識を行なう統合処理手段と、前記統合処理
手段によって認識されたユーザの意図に基づいて対話を
進める対話管理手段と、前記対話管理手段から渡された
出力データをユーザに出力する出力手段とを具備する統
合認識対話装置であって、前記複数の認識手段のうちユ
ーザの顔の動きを認識する認識手段はユーザの顔の縦振
り動作を認識し、前記統合処理手段が、ユーザの発話の
後半で出現したユーザの顔の縦振り動作を無視すること
を特徴とする。

【００１３】

【作用】請求項１に記載の統合認識対話装置において
は、各認識手段において認識された信号の開始時刻と終
了時刻とが時刻取得手段から取得され、認識結果とその
開発時刻、終了時刻が統合処理手段に渡される。統合処
理手段においてユーザの発話意図の識別が行われ、その
識別結果が対話管理手段に渡される。統合処理手段から
渡されるこの識別結果によって対話管理手段により新た
な状態に遷移され、出力手段によってつぎに発話される
内容が決定される。ユーザの発話意図の識別が行われる
期間、すなわちレスポンスウインドウは、出力手段によ
ってつぎに発話される内容に含まれるキーワードの発話
タイミングから算出されるタイミングで開始される。こ
のように構成されているので、請求項１に記載の統合認
識対話装置によれば、ユーザはあたかも人間と対話をす
るかのような感覚で自然な対話を行うことができる。加
えて、レスポンスウインドウは、人間同士の対話におけ
る自然な間に合わせて設定されるので、ユーザは気持ち
の良い対話を行うことができる。

【００１４】請求項２に記載の統合認識対話装置におい
ては、レスポンスウインドウは、出力手段による発話の
出力が終わってから所定の時間経過後のタイミングで終
了する。これにより、レスポンスウインドウは、人間同
士の対話における自然な間により合わせて設定されるの
で、ユーザはさらに気持ちの良い対話を行うことができ
る。

【００１５】

【００１６】請求項３に記載の統合認識対話装置におい
ては、統合処理手段によりユーザの肯定／否定の意図の
判定が行なわれる場合には、対話管理手段から渡された
キーワードと文脈情報取得手段とが用いられて「肯定キ
ーワード」と「否定キーワード」が設定される。これら
のキーワードによりユーザの肯定及び否定の意図の判断
が確実に行われる。

【００１７】

【００１８】

【００１９】

【００２０】請求項４に記載の統合認識対話装置におい
ては、認識手段により認識されたユーザの顔の縦振り動
作のうち、ユーザの発話の後半で出現したものを統合処
理手段が無視するので、ユーザ自身の発話にたいしての
うなずきであることが多い顔の縦振り動作に起因する誤
識別を防ぐことができる。

【００２１】

【実施例】以下、本発明の統合認識対話装置の第１の実
施例の構成を図１を参照しながら説明する。

【００２２】本実施例の統合認識対話装置は、音声信
号、顔の動き、視線、体の動作等の時刻情報を含む入力
データ１０１〜１０４を認識する複数チャネルの認識手
段１０５〜１０８を具備しており、認識手段１０５〜１
０８には、時刻情報を出力する時刻取得手段１０９と、
各認識手段より並列に出力される認識結果を統合処理し
てユーザの意図の認識を行なう統合処理手段１１０とが
接続されている。統合処理手段１１０には、文脈情報を
出力する文脈情報取得手段１１１と、統合処理手段によ
り認識されたユーザの意図に基づいて対話を進める対話
管理手段１１２とが接続されており、対話管理手段１１
２には、出力データを出力する出力手段１１３が接続さ
れている。

【００２３】なお、各認識手段１０５〜１０８は、その
認識データに応じた認識アルゴリズムを持ち、さらに認
識結果の開始時刻と終了時刻を時刻取得手段１０９から
得るように構成されている。文脈情報取得手段１１１に
は、音声認識手段から得られる「単語」に対応する文脈
情報が格納されている。文脈情報は、同じような状況、
場面、文脈で用いられる「単語」は類似した値を持つよ
うに構成される。

【００２４】文脈情報の構成方法を単語の特徴べクトル
の例で説明する。

【００２５】まず、文書データベースと単語の辞書が用
意される。特徴べクトルの次元数が適当な数に定めら
れ、その個数の単語が選出される。単語選出は、通常は
データベース中の出現頻度の多い順に選出されれば良
い。選出された単語は特徴べクトルの各要素に対応する
ことになる。単語の特徴べクトルは、文書データベース
中の一塊すなわち文，段落，記事等の文書中に含まれて
いる単語の出現頻度分布に、その単語のその一塊の文書
データ中での出現頻度を掛けたものが加算されていくこ
とによって得られる。

【００２６】これをより具体的な例で説明する。

【００２７】例文Ａ「アメリカ政府が先進主要国にココ
ム規制の抜本的な見直しを提案してきた。」例文Ｂ「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削滅する意向のようだ。」という文書データからどの
ように単語の特徴べクトルを作成するかを説明する。こ
こでは、文書データは「一文」という単位で読み込まれ
ることとするが、これは一段落、一記事など、他の単位
でも構わない。

【００２８】また、この例では特徴べクトルの次元数は
２１次元すなわち特徴べクトルを生成するための単語数
が２１個で各要素が「アメリカ、政府、先進、主要、
国、ココム、規制、抜本的、見直し、提案、対象、兵
器、製造、工業、製品、輸出、条件、品目、大幅、削
減、意向」という単語に対応しているとする。

【００２９】このような条件のもとで、例文Ａが読み込
まれ、形態素解析が行なわれると「アメリカ、政府、先
進、主要、国、ココム、規制、抜本的、見直し、提案」
が抽出される。これから得られる単語出現頻度分布は
（１，１，１，１，１，１，１，１，１，１，０，０，
０，０，０，０，０，０，０，０）である。従って、図
２に示すように、「アメリカ」「政府」等、例文Ａに出
現する単語の特徴べクトルには（１，１，１，１，１，
１，１，１，１，１，０，０，０，０，０，０，０，
０，０，０）を加算することになる。

【００３０】次に例文Ｂが読み込まれ、形態素解析が行
なわれると「規制、対象、国、兵器、製造、工業、製
品、輸出、規制、条件、ココム、規制、品目、大幅、削
減、意向」が抽出される。これから得られる単語出現頻
度分布は（０，０，０，０，１，１，３，０，０，０，
１，１，１，１，１，１，１，１，１，１，１）であ
る。「規制」は３回出現しているので、この単語出現頻
度分布を３倍したべクトルである（０，０，０，０，
３，３，９，０，０，０，３，３，３，３，３，３，
３，３，３，３，３）が「規制」の特徴べクトルに加算
され、「対象」「国」等、図３に示すように、例文Ｂに
１回しか出現していない単語の特徴べクトルには（０，
０，０，０，１，１，３，０，０，０，１，１，１，
１，１，１，１，１，１，１，１）が加算される。

【００３１】このような処理が行われながら多くの文章
が読み込まれて最終的に得られた特徴べクトルは、絶対
値が１に正規化されて、文脈情報取得手段１１１に格納
される。

【００３２】つぎに、一実施例として、音声認識と顔の
振りの認識と視線の向きの認識を統合することで、シス
テムが発話する質問文に対するユーザの反応が「肯定」
なのか「否定」なのかが判定されるシステムの場合によ
り、対話管理手段１１２や統合処理手段１１０を説明す
る。なお、この例では音声認識は予め定められたキーワ
ード内でワードスポッティングによる認識が行なわれ、
顔の振りの認識は「縦振り」「横振り」「かしげ」が認
識され、視線の向きの認識は、「正面（視線一致）」
「正面以外（泳ぎ）」が認識される。

【００３３】対話管理手段１１２により、図８に示すよ
うに、現在の状態すなわちシステムとユーザとの対話が
どの程度進んでいるか否かが把握され、次の発話内容が
決定され、その発話内容のキーワードや、キーワード発
話時刻や、発話終了時刻が統合処理手段１１０に渡され
てから、発話内容が出力手段１１３から出力される。

【００３４】統合処理手段１１０により、対話管理手段
１１２から渡されたキーワードＫＷをもとにして、「肯
定キーワード」と「否定キーワード」が作成される。
「肯定キーワード」とはキーワードＫＷと、「はい」
「うん」「そうです」等の肯定に用いる常套句である。
「否定キーワード」とはキーワードＫＷと意味的に反対
あるいは類似したキーワードと、「いいえ」等の否定に
用いる常套句である。「キーワードＫＷと意味的に反対
あるいは類似したキーワード」とは、音声認識できるす
べてのキーワードの中でキーワードＫＷとの類似度〔こ
れは文脈情報取得手段１１１より特徴べクトルが取得さ
れ、これを用いて、各キーワードの特徴べクトル間の類
似度（べクトルの値を絶対値を１に正規化してから内積
をとったもの）を計算すれば良い〕がある閾値以上のキ
ーワードのことである。

【００３５】電子化された類義語辞典や反意語辞典が利
用できる場合はこれらを用いてキーワードＫＷと意味的
に反対あるいは類似したキーワードを検索することもで
きる。また、統合処理手段１１０により、対話管理手段
１１２からキーワードＫＷの発話開始時刻Ｔ１や発話自
体の終了時刻Ｔ２も受けとられる。Ｔ１としてはキーワ
ードＫＷの発話開始時刻ではなく、キーワードＫＷがキ
ーワードＫＷであると識別できるところまで発話された
時点の時刻をとっても良い。しかし、キーワードＫＷが
キーワードＫＷであると識別できるところというのは文
脈によっても変化するので、簡単にはキーワードＫＷの
発話終了時刻―ＭＴ（例えば０．５秒）と、キーワード
ＫＷの発話開始時刻とで時刻の遅い方をＴ１とする手法
をとることもできる。

【００３６】時刻Ｔ１からＴ２＋ＷＴ（例えば０．５
秒）の間に認識されたユーザの発話や顔の振り等をもと
にして、ユーザの意図が認識される。図４Ａに示すよう
に、ここでは時刻Ｔ１からＴ２＋ＷＴの間のことを「レ
スポンスウィンドウ」と呼ぶことにする。レスポンスウ
ィンドウはユーザの発話や動作によって短縮されたり伸
長されたりする。短縮されるのは、図４Ｂに示すよう
に、ユーザが意味のある発話や行動を行なってからＷＴ
たっても次の発話や動作が見られなかった場合である。
伸長されるのは、レスポンスウィンドウの右端の時点で
ユーザから意味のある発話や動作（「かしげ」や「目の
泳ぎ」や「不要語（「えーと」等）の発話」を含む）が
見られた場合であり、この場合はそれらの動作が終了し
てからＷＴの時間がたつまで待ち、その時点でユーザの
発話や動作が見られなければ、図４Ｃに示すように、そ
の時点までをレスポンスウィンドウとする。

【００３７】ＷＴの例として「０．５秒」を示している
のは、マルチモーダル対話データベースの解析結果に基
づく。マルチモーダル対話データベースから人間同士の
対話が解析されると、０．５秒以上何の反応もないとい
う状況はなく、例えば質問が発話されてから０．５秒以
内に、発話／目の泳ぎ／顔のかしげ等なんらかの反応が
起こることがわかっている。これが人間同士の対話にお
ける自然な間（ま）を構成しているものと考えられる。
したがって、レスポンスウィンドウは０．５秒以上の何
の反応も生じなかった場合に閉じるのが自然な対話を促
すのではないかと考えられるため、ＷＴの例として
「０．５秒」を示した。このＷＴの値は、個人差があ
り、またシステムの発話速度とも関係するので、必要に
応じて変更できるようにしておく。

【００３８】各認識手段１０５〜１０８から渡される一
つ一つの情報は、「開始時刻（ｓｔ），終Ｔ時刻（ｅ
ｔ），モード（ｍｄ），認識結果（ｒｓ），尤度（ｓ
ｃ）の五つ組で表される。開始時刻や終了時刻は時刻取
得手段１０９から渡される値であり、その認識結果を得
た入力データの開始時刻と終了時刻とを表す。モードと
は「音声」「顔の振り」「顔の向き」「視線の向き」
「表情」「ジェスチャー」等、同時に発生可能なユーザ
からの複数の出力の種類を指す。認識結果はモードに応
じて、「音声」なら「認識単語」、「顔の振り」なら
「縦振り」「構振り」「かしげ」等、「顔の向き」なら
「正面」「右」「左」「上」「下」「右上」等、「視線
の向き」なら「正面（視線一致）」「正面以外（泳
ぎ）」「右」「左」「上」「下」「右上」等、「表情」
なら「笑い」「怒り」「悲しみ」等である。尤度は、そ
の認識結果の確からしさを示す数値であり、例えば認識
用のテンプレートと実際に認識されるものとの間の距離
から求められる。

【００３９】統合処理手段１１０により、各認識手段１
０５〜１０８から渡される情報の中の開始時刻と終了時
刻がまず注目され、この二つともが「レスポンスウィン
ドウ」に入っているものだけが統合認識に用いられる。

【００４０】この実施例では、音声認識手段から得られ
るキーワードは「肯定キーワード」か「否定キーワー
ド」か「その他のキーワード（肯定キーワードでも否定
キーワードでもないキーワード）」かの３種類に限定す
ることができる。用途によっては「その他のキーワー
ド」は使わない方が良い場合もあり、この場合はその他
のキーワードが認識されたら、他の認識結果に基づいて
「肯定／否定」の判断が行なわれ、その判断結果がユー
ザに正しいかどうか質問され、それが正しければその判
断結果に基づいてそのキーワードが「肯定キーワード」
か「否定キーワード」のどちらかに入れられ、以後は同
じ質間文が使われる場合にはそのキーワードは「肯定キ
ーワード」か「否定キーワード」に入れられるという使
い方ができる。ただし、システムを使用する人が違った
り、同じ人でも時間がたつと同じキーワードが「肯定キ
ーワード」になったり「否定キーワード」になったりす
る可能性があるので、ユーザが認識されて区別された
り、それまでの判断結果からべイズ識別等がされたりす
ると良い。

【００４１】ユーザの意図が「肯定」なのか「否定」な
のかが判断されるのはレスポンスウィンドウ内での「肯
定キーワードの発話」「否定キーワードの発話」「その
他キーワードの発話」「顔の縦振り」「顔の横振り」の
５つについてのべイズ識別による。システムにより発話
される質問文には肯定／否定の対象となるキーワードが
存在するので、そのキーワード発話時点（Ｔ１）から、
発話自体の終了時刻（Ｔ２）＋ＷＴまでの間がレスポン
スウィンドウに設定され、そのレスポンスウィンドウ内
で上述の５つ（「肯定キーワードの発話」「否定キーワ
ードの発話」「その他キーワードの発話」「顔の縦振
り」「顔の横振り」）で判定される。ただし、べイズ識
別に用いるのは上述の５つであるが、「かしげ」や「目
の泳ぎ」や「不要語（「えーと」等）の発話」等が認識
されると、レスポンスウィンドウは時間的に後ろに伸長
される。また、「肯定キーワード」や「否定キーワー
ド」が発話されたり、「縦振り」や「横振り」が発生さ
れてからＷＴの時間がたっても次の発話や顔の動きが使
出されなかった場合には、レスポンスウィンドウはそこ
で打ち切られる。

【００４２】以上のことをより詳しく説明する。

【００４３】システムにより質問文が発話し始められた
ら、Ｔ１からＴ２＋ＷＴまでの時間に発生したユーザの
「肯定キーワードの発話」「否定キーワードの発話」
「その他キーワードの発話」「顔の縦振り」「顔の横振
り」が調べられる。Ｔ２の時刻までの間にこれらの反応
が見られず、ユーザの「かしげ」や「目の泳ぎ」あるい
は「えーと」などの不要語の発話が認識された場合は、
レスポンスウィンドウが伸長される。「かしげ」の場合
は頭がまっすぐになるか「縦振り」「横振り」が生じる
まで待機され、「目の泳ぎ」の場合は正面を見るように
なるまで待機され、不要語の場合は不要語の発話終了後
ＷＴだけ待機され、その時点でユーザの発話や顔の振り
等の動作が発生していなければ、それまでに発生したも
のがべイズ識別に用いられる。ユーザの発話や顔の振り
等の動作が発生していれば、レスポンスウィンドウの伸
長がし続けられる。ただし、ユーザ発話の後半に複数回
の「顔の縦振り」が存在する場合は、その「顔の縦振
り」はユーザ自分自身に対する縦振りなので、無視さ
れ、べイズ識別時には使用されない。

【００４４】Ｔ２＋ＷＴの時刻までの間にこれらの反応
が見られず、ユーザの「かしげ」や「目の泳ぎ」あるい
は「えーと」などの不要語の発話（レスポンスウィンド
ウ伸長動作）も認識されなかった場合や、これらのレス
ポンスウィンドウ伸長動作が認識されて待機された後に
ＷＴの時間がたってもユーザの発話や顔の振り等の動作
が発生されなかった場合は、統合処理手段１１０により
「ユーザが何の反応もしない」という旨が対話管理手段
１１２へ伝えられる。すると、対話管理手段１１２によ
り現在の状況に応じて「もしもし」、「何か答えてくだ
さい」等の発話が出力手段１１３を通じて行なわれる。
なお、べイズ識別ではマルチモーダル対話データベース
の情報が用いられる。

【００４５】次に、他の実施例として、音声認識と顔の
振りの認識と顔や視線の向きの認識が統合されること
で、システムにより発話される質問文に対するユーザの
反応が「肯定」なのか「否定」なのかが判定される以外
に、右／左等の向きが認識されるシステムの場合によ
り、対話管理手段１１２及び統合処理手段１１０を説明
する。

【００４６】この場合は対話管理手段１１２により統合
処理手段１１０から「肯定／否定」を答として受けとり
たいのか、「右／左等の向き」を答として受けとりたい
のかが、キーワードＫＷや発話時刻が統合処理手段１１
０に送られる時に一緒に送られる必要がある。対話管理
手段１１２によるそれ以外の点では、上述実施例と同様
である。また、出力手段１１３も上述実施例と同様であ
る。

【００４７】統合処理手段１１０については、「肯定／
否定」を答として受けとりたい場合の処理は前述のシス
テムと同様にすれば良い。

【００４８】「右／左等の向き」を答として受けとりた
い場合の統合処理手段１１０の処理は、ユーザからのデ
ータとして、例えば音声としては「それ」等の指示語や
「各方向に特有のキーワード発話」（「右」「左」等）
や「画面に表示されている物の名前とそれに類似した単
語」等が認識され、他のモードとしては「顔の向き」、
「視線の向き」、「手を伸ばした方向」等が認識され、
やはりマルチモーダル対話データベースの情報が用いら
れてレスポンスウィンドウ内でのべイズ識別が行なわれ
る。レスポンスウィンドウの設定方法は上述実施例と同
様である。

【００４９】「画面に表示されている物の名称に類似し
た単語」は、対話管理手段１１２から「両面に表示され
ている物の名称」を受け取り、これをＤＷ１，ＤＷ
２，．．．ＤＷｎとすると、音声認識できるすべてのキ
ーワードの中でＤＷｉとの類似度（これは文脈情報取得
手段の情報から得られる。例えば、類似度を求めたい単
語の特徴べクトルとＤＷｉの特徴べクトルとの内積を取
れば良い）がある閾値以上のキーワードのことである。
このＤＷｉとの類似度がある閾値以上になるキーワード
群が「キーワード群ｉ」となる。

【００５０】ここで、べイズ識別の方法について説明す
る。

【００５１】マルチモーダル対話データベースには、図
７に示すように、人間同士の対話（各人の役割がシステ
ムとユーザとにそれぞれ対応しているものもある）や、
システムとユーザとの対話の様子を様々なモードでとら
えたものが記録されている。肯定／否定を識別するため
のべイズ識別を行なうには、マルチモーダル対話データ
ベース中から、ユーザが肯定／否定で答える対話のもの
だけが抜き出され、その対話データのレスポンスウィン
ドウ内での「肯定キーワード」「否定キーワード」「そ
の他のキーワード」「顔の縦振り」「顔の横振り」の存
在の有無が調査され、その調査結果が一つの学習データ
とされる。なお、対話データの中に「かしげ」や「目の
泳ぎ」がある場合はそれらがなくなるまでレスポンスウ
ィンドウが拡張されて調査される。

【００５２】例えば、「今日は暑いですね」というシス
テムからの問いかけに対するユーザの応答データがある
とする。この場合、キーワードＫＷは「暑い」であり、
肯定キーワードとしては「はい」「うん」「そうです」
「暑い」等が考えられ、否定キーワードとしては「いい
え」「暑くない」「涼しい」等が考えられる。肯定の答
のデータ例として、レスポンスウィンドウ内で「はい」
という発話があり、「顔の縦振り」が見られたという場
合は、Ｙ１００１０という学習データが得られる。先頭のＹは肯定の答えを
意味し、次の１と０は、それぞれ「肯定キーワード」
「否定キーワード」「その他のキーワード」「顔の縦振
り」「顔の横振り」が存在するなら１、存在しないなら
０である。

【００５３】また、否定の答のデータ例として、レスポ
ンスウィンドウ内で「いいえ暑くないです」という発話
があり、顔の動きは特に見られなかった場合は、Ｎ０１０００という学習データが得られる。先頭のＮは否定の答えを
意味する。このような学習データをたくさん用意してお
き、認識データとして例えば「１００１０」（「肯定キ
ーワード」の発話と「顔の縦振り」が見られた）が与え
られたら学習データの中の「Ｙ１００１０」と「Ｎ１０
０１０」の個数が比べられ、「Ｙ１００１０」の方が多
ければ、その時のユーザの意図は「肯定」であるとみな
され、「Ｎ１００１０」の方が多ければ、その時のユー
ザの意図は「否定」であるとみなされる。もしも同数
（両方とも０だった場合を含む）だった場合は「不明」
なので、その旨が対話管理手段１１２に返信され、対話
管理手段１１２により、その場合はもう一度質問がし直
される。また、個数の差が小さい場合もユーザに意図の
識別が正しかったかが確認されるようにすると良い場合
がある。この「１００１０」のような識別結果の先頭に
認識データ（ＹかＮ）を加えたものを学習データに加え
ることで、ユーザが使用すればするほど学習データが増
えて認識率が高まる。

【００５４】次に「右／左等の向き」を答えとして受け
とりたい場合のべイズ識別の例を説明する。なお、説明
の都合上「右」と「左」と「上」の３つを識別する場合
について説明するが、方向が増えたりしても考え方は同
じである。この場合はマルチモーダル対話データベース
の中から、システムにより方向をたずねている対話のも
のだけが抜き出され、その対話データのレスポンスウィ
ンドウ内での「『右』や右に表示されている物の名称、
及び右に表示されている物の名称に類似した単語の発
話」「『左』や左に表示されている物の名称、及び左に
表示されている物の名称に類似した単語の発話」
「『上』や上に表示されている物の名称、及び上に表示
されている物の名称に類似した単語の発話」「指示語発
話と同時に顔の向きが右」「指示語発話と同時に顔の向
きが左」「指示語発話と同時に顔の向きが上」「指示語
発話と同時に視線の向きが右」「指示語発話と同時に視
線の向きが左」「指示語発話と同時に視線の向きが上」
「指示語発話と同時に手を伸ばした方向が右」「指示語
発話と同時に手を伸ばした方向が左」「指示語発話と同
時に手を伸ばした方向が上」「顔の向きが右」「顔の向
きが左」「顔の向きが上」「視線の向きが右」「視線の
向きが左」「視線の向きが上」「手を伸ばした方向が
右」「手を伸ばした方向が左」「手を伸ばした方向が
上」等の存在の有無を調査（これらの中の一部だけしか
使わないようにしても良い）し、その調査結果を一つの
学習データとする。なお、対話データの中に「かしげ」
や「目の泳ぎ」がある場合はそれらがなくなるまでレス
ポンスウィンドウが伸長されて調査される。

【００５５】例えば、システムの出力画面の右側に手帳
が、左に鉛筆が、上に消しゴムが表示されている場合
に、「どれが一番欲しいですか」というシステムからの
問いかけに対するユーザの応答データがあるとする。こ
の場合、キーワードＫＷは「欲しい」であり、キーワー
ドＤＷ１は「手帳」であり、キーワードＤＷ２は「鉛
筆」であり、キーワードＤＷ３は「消しゴム」である。
すると、キーワード群１としては「手帳」「ノート」な
どが入ることが考えられ、キーワード群２としては「鉛
筆」「ペン」などが入ることが考えられ、キーワード群
３としては「消しゴム」「イレーサ」などが入ることが
考えられる。なお、どのような単語が入るかは文脈情報
取得手段１１１からの情報に左右される。すると、
「『右』や右に表示されている物の名称、及び右に表示
されている物の名称に類似した単語の発話」としては
「右」「手帳」「ノート」等が考えられ、「『左』や左
に表示されている物の名称、及び左に表示されている物
の名称に類似した単語の発話」としては「左」「鉛筆」
「ペン」等が考えられ、「『上』や上に表示されている
物の名称、及び上に表示されている物の名称に類似した
単語の発話」としては「上」「消しゴム」「イレーサ」
等が考えられる。

【００５６】「右」が答であるデータ例として、レスポ
ンスウィンドウ内で「指示語発話と同時に顔の向きが
右」「顔の向きが右」「顔の向きが左」「顔の向きが
上」が見られた場合は、Ｒ０００１００００００００１１１００００００という学習データが得られる。先頭のＲは「右」が答で
あることを意味し、次の１と０は、それぞれ上記の状態
が存在するなら１、存在しないなら０である。

【００５７】また、「左」が答であるデータ例として、
レスポンスウィンドウ内で「『左』や左に表示されてい
る物の名称の発話、及び左に表示されている物の名称に
類似した単語の発話」「顔の向きが右」「顔の向きが
左」「顔の向きが上」が見られた場合は、Ｌ０１００００００００００１１１００００００という学習データが得られる。先頭のＬは「左」が答で
あることを意味する。

【００５８】また、「上」が答であるデータ例として、
レスポンスウィンドウ内で「指示語発話と同時に視線の
向きが上」「指示語発話と同時に手を伸ばした方向が
上」「視線の向きが右」「視線の向きが左」「視線の向
きが上」「手を伸ばした方向が上」が見られた場合は、Ｕ００００００００１００１０００１１１００１という学習データが得られる。先頭のＵは「上」が答え
であることを意味する。

【００５９】このような学習データをたくさん用意して
おき、認識データとして例えば「１００１００００００
００１１１００００００」（「『右』や右に表示されて
いる物の名称、及び右に表示されている物の名称に類似
した単語の発話」と「指示語発話と同時に顔の向きが
右」と「顔の向きが右」と「顔の向きが左」と「顔の向
きが上」が見られた）が与えられたら、学習データの中
の「Ｒ１００１００００００００１１１００００００」
と「Ｌ１００１００００００００１１１００００００」
と「Ｕ１００１００００００００１１１００００００」
の個数が比べられ、最も多いデータの先頭の文字によっ
て、「Ｒ」なら「右」、「Ｌ」なら「左」、「Ｕ」なら
「上」であるとみなされる。もしも、同数（三つとも０
だった場合を含む）だった場合は「不明」なので、その
旨が対話管理手段１１２に返信され、対話管理手段１１
２により、その場合はもう一度質問をし直されたりす
る。また、個数の差が小さい場合もユーザに方向の識別
が正しかったかどうかが確認されるようにすると良い場
合がある。これらの識別結果の先頭に認識データ（Ｒか
ＬかＵ）を加えたものを学習データに加えることで、ユ
ーザが使用すればするほど学習データが増えるようにす
ることができる。

【００６０】図５は、本発明を「商品紹介システム」に
応用した実施例である。この場合は、レスポンスウィン
ドウの伸長のために「顔の振りのかしげ」や「視線の泳
ぎ（視線が正面を向いていない）」を用い、肯定／否定
のべイズ識別において「肯定キーワードの発話」「否定
キーワードの発話」「その他のキーワードの発話」「顔
の縦振り」「顔の横振り」を用い、方向の判定に「指示
語の発話」「方向キーワードの発話」「商品名、及び商
品名に類似した単語の発話」「顔の向き」が用いられて
いる。

【００６１】この「商品紹介システム」の対話例を図６
Ａから図６Ｄを用いて詳細に説明する。なお、ここでは
システムの発話を『Ｓ「発話内容」』、ユーザの発話や
動作を『Ｕ「発話や動作内容」』で表している。

【００６２】Ｓ「こんにちは」Ｓ「商品の紹介を致します。よろしいでしょうか？」Ｕ「『はい』と発話してうなずく」（図６Ａ参照）Ｓ「どちらの商品に興味がありますか？」Ｕ「右を見てうなずきながら『それです』と発話する」
（図６Ｂでは顔が右を向いているかどうかが一定の間
隔で出力されている）Ｓ「右ですね？」Ｕ「『はい』と発話してうなずく」（図６Ｃ参照）Ｓ「これは、ＦＡＸ機能を内蔵した電子手帳ザウルスで
す。」Ｓ「こちらのビューカムには興味はございますか？」Ｕ「顔を横振り」（図６Ｄ参照）Ｓ「ありがとうざいました。」なお、本実施例ではべイズ識別に用いるデータは「肯定
キーワードの発話」「否定キーワードの発話」「その他
キーワードの発話」「顔の縦振り」「顔の構振り」
「『右』や右に表示されている物の名称、及び右に表示
されている物の名称に類似した単語の発話」「『左』や
左に表示されている物の名称、及び左に表示されている
物の名称に類似した単語の発話」「『上』や上に表示さ
れている物の名称、及び上に表示されている物の名称に
類似した単語の発話」「指示語発話と同時に顔の向きが
右」「指示語発話と同時に顔の向きが左」「指示語発話
と同時に顔の向きが上」「指示語発話と同時に視線の向
きが右」「指示語発話と同時に視線の向きが左」「指示
語発話と同時に視線の向きが上」「指示語発話と同時に
手を伸ばした方向が右」「指示語発話と同時に手を伸ば
した方向が左」「指示語発話と同時に手を伸ばした方向
が上」「顔の向きが右」「顔の向きが左」「顔の向きが
上」「視線の向きが右」「視線の向きが左」「視線の向
きが上」「手を伸ばした方向が右」「手を伸ばした方向
が左」「手を伸ばした方向が上」等が使われているが、
これはマルチモーダル対話データベースから得られる情
報なら何を使っても良く、より一般化して書けば、モードＭ₁，モードＭ₂，．．．，モードＭ_n で、それぞれのモードの有無が調査されれば良い。例え
ば「肯定キーワードの発話」「否定キーワードの発話」
「その他キーワードの発話」「顔の縦振り」「顔の横振
り」が使われた場合というのはｎ＝５で、モードＭ₁ ＝
「肯定キーワードの発話」、モードＭ₂＝「否定キーワ
ードの発話」、モードＭ₃＝「その他キーワードの発
話」、モードＭ₄＝「顔の縦振り」、モードＭ₅＝「顔の
構振り」とした場合ということになる。

【００６３】また、各モードの有無についても、単なる
０，１を用いる以外に、尤度として０〜１の実数値をと
らせることもできる。この場合のべイズの識別は、学習
データから線形補間を行なえば良い。例えばレスポンス
ウィンドウ内で０．８，０，０，０．７，０という認
識データが得られた場合には、学習データ中の「Ｙ１０
０１０」の個数をｙ₁₁、「Ｎ１００１０」の個数を
ｎ₁₁、「Ｙ０００１０」の個数をｙ₀₁、「Ｎ０００１
０」の個数をｎ₀₁、「Ｙ１００００」の個数をｙ₁₀、
「Ｎ１００００」の個数をｎ₁₀、「Ｙ０００００」の個
数をｙ₀₀、「Ｎ０００００」の個数をｎ₀₀、とすると、ｎ_Y＝０.８×０．７×ｙ₁₁＋（１−０．８）×０．７×
ｙ₀₁＋０．８×（１−０．７）ｙ₁₀＋（１−０．８）×
（１−０．７）ｙ₀₀ ｎ_N＝０.８×０．７×ｎ₁₁＋（１−０．８）×０．７×
ｎ₀₁＋０．８×（１−０．７）ｎ₁₀＋（１−０．８）×
（１−０．７）ｎ₀₀ が計算され、ｎ_Yとｎ_Nの大小が比較され、ｎ_Yの方が大
きければ、その時のユーザの意図は「肯定」であるとみ
なされ、ｎ_Nの方が大きければ、その時のユーザの意図
は「否定」であるとみなされる。

【００６４】また、「キーワード群」は、対話管理手段
１１２から与えられた各キーワードＤＷｉをもとに、あ
らかじめ求めておく場合で説明したが、単語Ｗを音声認
識後に、各キーワードＤＷｉとの類似度から、単語Ｗが
どのキーワード群に入っているかを求めることもでき
る。これは単語Ｗの特徴べクトルとＤＷｉの特徴べクト
ルとの内積が最大となるｉをｍとすると、単語Ｗはキー
ワード群ｍに属することにすれば良い。または、所定閾
値を定めておき、類似度がこの閾値以上になるキーワー
ド群に属する（複数のキーワード群に属する場合もあ
る）とみなしてもよい。

【００６５】肯定キーワード／否定キーワードの場合も
同様で、対話管理手段１１２から与えられたキーワード
ＫＷに対し、あらかじめ「肯定キーワード」「否定キー
ワード」を求めておかなくても、単語Ｗを音声認識後
に、単語ＷとキーワードＫＷが同じであれば、単語Ｗは
「肯定キーワード」とみなせるし、単語Ｗとキーワード
ＫＷとの類似度が所定閾値以上であれば単語Ｗは「否定
キーワード」とみなせる。

【００６６】また、「レスポンスウィンドウ」は、一対
の対話に対して一つだけ存在する場合について説明した
が、システム側の発話にキーワードＫＷが複数ある場合
などは複数のレスポンスウィンドウを設定することもで
きる。この場合、レスポンスウィンドウｉは、キーワー
ドＫＷｉの発話開始時刻からＫＷ（ｉ＋１）の発話開始
時刻＋ＷＴまでの時間となる。ただし、最後のレスポン
スウィンドウの終了時刻は、システムの発話自体の終了
時刻＋ＷＴとなる。これを、キーワードＫＷが、ＫＷ
１，ＫＷ２，ＫＷ３の三つある場合で説明すると、図９
に示すように、ＫＷ１の発話開始時刻からＫＷ２の発話
開始時刻＋ＷＴまでの時間を「レスポンスウィンドウ
１」、ＫＷ２の発話開始時刻からＫＷ３の発話開始時刻
＋ＷＴまでの時間を「レスポンスウィンドウ２」、ＫＷ
３の発話開始時刻からシステムの発話自体の終了時刻＋
ＷＴまでの時間を「レスポンスウィンドウ３」に設定す
れば良い。この場合、各レスポンスウィンドウ間で重複
している時間が生じるが、これによるあいまい性は、シ
ステムからもう一度聞き直す等をして確認を取るように
すれば良い。

【００６７】

【発明の効果】請求項１に記載の統合認識対話装置によ
れば、統合処理手段においてユーザの発話意図の識別が
行われ、その識別結果が対話管理手段に渡され、対話管
理手段により新たな状態に遷移され、出力手段によって
つぎに発話される内容が決定され、ユーザの発話意図の
識別が行われる期間、すなわちレスポンスウインドウ
は、出力手段によってつぎに発話される内容に含まれる
キーワードの発話タイミングから算出されるタイミング
で開始されるので、ユーザはあたかも人間と対話をする
かのような感覚で自然な対話を行うことができる。加え
て、レスポンスウインドウは、人間同士の対話における
自然な間に合わせて設定されるので、ユーザは気持ちの
良い対話を行うことができる。

【００６８】請求項２に記載の統合認識対話装置によれ
ば、統合処理手段において人間同士の対話における自然
な間により合わせて、すなわち出力手段による発話の出
力が終わってから所定の時間経過後のタイミングで終了
するように、レスポンスウインドウが設定されるので、
ユーザはさらに気持ちの良い対話を行うことができる。

【００６９】

【００７０】請求項３に記載の統合認識対話装置によれ
ば、統合処理手段においてユーザの肯定／否定の意図の
判定が行なわれる場合には、対話管理手段から渡された
キーワードと文脈情報取得手段とが用いられて「肯定キ
ーワード」と「否定キーワード」が設定されるので、こ
れらのキーワードによりユーザの肯定及び否定の意図の
判断が確実に行われる。

【００７１】

【００７２】

【００７３】

【００７４】請求項４に記載の統合認識対話装置によれ
ば、認識手段により認識されたユーザの顔の縦振り動作
のうち、ユーザの発話の後半で出現したものを統合処理
手段が無視するので、ユーザ自身の発話にたいしてのう
なずきであることが多い顔の縦振り動作に起因する誤識
別を防ぐことができる。

【図面の簡単な説明】

【図１】本発明の統合認識対話装置の基本構成を示すブ
ロック図である。

【図２】本発明の単語の特徴べクトルの生成を説明する
図である。

【図３】本発明の単語の特徴べクトルの生成を説明する
図である。

【図４Ａ】本発明のレスポンスウィンドウを説明する図
である。

【図４Ｂ】本発明のレスポンスウィンドウの短縮を説明
する図である。

【図４Ｃ】本発明のレスポンスウィンドウの伸長を説明
する図である。

【図５】本発明の統合認識対話装置を「商品紹介システ
ム」に応用した場合の構成を示すブロック図である。

【図６Ａ】商品紹介システムでの対話例を示す図であ
る。

【図６Ｂ】商品紹介システムでの対話例を示す図であ
る。

【図６Ｃ】商品紹介システムでの対話例を示す図であ
る。

【図６Ｄ】商品紹介システムでの対話例を示す図であ
る。

【図７】マルチモーダル対話データベースを示す図であ
る。

【図８】対話管理手段による状態の遷移の様子を示す図
である。

【図９】複数のレスポンスウィンドウを示す図である。

【符号の説明】

105 認識手段 106 認織手段 107 認識手段 108 認識手段 109 時刻取得手段 110 統合処理手段 111 文脈情報取得手段 112 対話管理手段 113 出力手段

フロントページの続き (56)参考文献特開平７−114572（ＪＰ，Ａ) 特開平４−311996（ＪＰ，Ａ) 特開昭63−121096（ＪＰ，Ａ) 特開昭61−200762（ＪＰ，Ａ) 特開平３−40177（ＪＰ，Ａ) 特開平６−62398（ＪＰ，Ａ) 特開平６−118988（ＪＰ，Ａ) 特開平５−307432（ＪＰ，Ａ) 実開平５−82703（ＪＰ，Ｕ) 実開平７−36199（ＪＰ，Ｕ) 綿貫啓子，他，マルチモーダル対話データの解析，日本音響学会平成６年度春季研究発表会講演論文集，日本，1994年３月，１−７−20，ｐ．39−40 外川文雄，他，マルチモーダルデータベースに基づく対話の解析，電子情報通信学会春季大会講演論文集，日本，1994 年，Ａ−342，ｐ．１−345 坂本憲治，他，マルチモーダル対話解析，人工知能学会言語・音声理解と対話処理研究会資料，日本，1994年，ｐ．39 −46 綿貫啓子，他，マルチモーダル対話データベースにもとづく対話解析，情報処理学会音声言語情報処理研究会研究報告，日本，1995年２月３日，95−ＳＬＰ −５，ｐ．17−22 湯浅夏樹，他，大量文書データ中の単語間共起を利用した文書分類，情報処理学会論文誌，日本，1995年８月，Ｖｏｌ．36，Ｎｏ．８，ｐ．1819−1827 湯浅夏樹，他，マルチモーダル対話データベースに基づく音声と身振りの認識系統合モデル，情報処理学会論文誌，日本，1996年６月，Ｖｏｌ．37，Ｎｏ. ６，ｐ．1049−1060 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/18 G10L 15/24 G10L 15/28 G06F 3/16 320 G06F 17/30 G06T 1/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】時刻情報を出力する時刻取得手段と、ユ
ーザの音声信号、顔の動き、視線、体の動作等の少なく
とも１つを含む入力データをそれぞれ認識する複数の認
識手段と、音声信号から単語を識別するための文脈情報
を出力する文脈情報取得手段と、時刻情報、文脈情報及
び前記複数の認識手段より並列に出力される認識結果を
統合処理してユーザの意図の認識を行なう統合処理手段
と、前記統合処理手段によって認識されたユーザの意図
に基づいて対話を進める対話管理手段と、前記対話管理
手段から渡された出力データをユーザに出力する出力手
段とを具備する統合認識対話装置であって、前記統合処
理手段がユーザの意図の認識を行なう期間を、前記出力
手段からユーザに出力される前記出力データに含まれる
キーワードの発話タイミング近傍で開始させることを特
徴とする統合認識対話装置。
【請求項２】前記統合処理手段が前記ユーザの意図の
認識を行う期間を、前記出力手段からユーザへの出力が
終わってから所定の時間経過後で終了させることを特徴
とする、請求項１に記載の統合認識対話装置。
【請求項３】時刻情報を出力する時刻取得手段と、ユ
ーザの音声信号、顔の動き、視線、体の動作等の少なく
とも１つを含む入力データをそれぞれ認識する複数の認
識手段と、音声信号から単語を識別するための文脈情報
を出力する文脈情報取得手段と、時刻情報、文脈情報及
び前記複数の認識手段より並列に出力される認識結果を
統合処理してユーザの意図の認識を行なう統合処理手段
と、前記統合処理手段によって認識されたユーザの意図
に基づいて対話を進める対話管理手段と、前記対話管理
手段から渡された出力データをユーザに出力する出力手
段とを具備する統合認識対話装置であって、前記統合処
理手段は、前記対話管理手段と前記文脈情報取得手段か
らの情報に基づいてユーザの音声信号を認識するための
所定個数のキーワード群を設定し、前記キーワード群が
ユーザが肯定を意図する「肯定キーワード群」と、ユー
ザが否定を意図する「否定キーワード群」とを含むこと
を特徴とする統合認識対話装置。
【請求項４】時刻情報を出力する時刻取得手段と、ユ
ーザの音声信号、顔の動き、視線、体の動作等の少なく
とも１つを含む入力データをそれぞれ認識する複数の認
識手段と、音声信号から単語を識別するための文脈情報
を出力する文脈情報取得手段と、時刻情報、文脈情報及
び前記複数の認識手段より並列に出力される認識結果を
統合処理してユーザの意図の認識を行なう統合処理手段
と、前記統合処理手段によって認識されたユーザの意図
に基づいて対話を進める対話管理手段と、前記対話管理
手段から渡された出力データをユーザに出力する出力手
段とを具備する統合認識対話装置であって、前記複数の
認識手段のうちユーザの顔の動きを認識する認識手段
は、ユーザの顔の縦振り動作を認識し、前記統合処理手
段が、ユーザの発話の後半で出現したユーザの顔の縦振
り動作を無視することを特徴とする統合認識対話装置。