JPH08234789A - 統合認識対話装置 - Google Patents

統合認識対話装置

Info

Publication number
JPH08234789A
JPH08234789A JP7038581A JP3858195A JPH08234789A JP H08234789 A JPH08234789 A JP H08234789A JP 7038581 A JP7038581 A JP 7038581A JP 3858195 A JP3858195 A JP 3858195A JP H08234789 A JPH08234789 A JP H08234789A
Authority
JP
Japan
Prior art keywords
user
dialogue
recognition
integrated
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7038581A
Other languages
English (en)
Other versions
JP3375449B2 (ja
Inventor
Natsuki Yuasa
夏樹 湯浅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Sharp Corp
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, Sharp Corp filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Priority to JP03858195A priority Critical patent/JP3375449B2/ja
Publication of JPH08234789A publication Critical patent/JPH08234789A/ja
Application granted granted Critical
Publication of JP3375449B2 publication Critical patent/JP3375449B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 【目的】 マルチモーダル対話データベースの情報を元
にして、複数の入力チャネルからの入力を統合して扱う
ことで、より自然な対話を行なうことができる統合認識
対話装置を提供する。 【構成】 音声信号、顔、視線、体の動作等の時刻情報
を含む入力データ101〜104を認識する複数チャネ
ルの認識手段105〜108と、時刻情報を出力する時
刻取得手段109と、各認識手段105〜108より並
列に出力される認識結果を統合処理してユーザの意図の
認識を行なう統合処理手段110と、文脈情報を出力す
る文脈情報取得手段111と、統合処理手段により認識
されたユーザの意図に基づいて対話を進める対話管理手
段112と、出力データを出力する出力手段113が配
設されている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、統合認識対話装置に関
し、特に人間の音声・動作等の多チャネルの情報を統合
して認識を行ない、ユーザとの自然な対話を可能にする
統合認識対話装置に関するものである。
【0002】
【従来の技術】従来、計算機との対話を、人間との対話
のように自然に行なうためには、音声、顔の動き、身振
り、視線などの複数のチャネルを用いて、これらの認識
結果を統合することが必要となる。特開平5−3074
32号公報に開示されている時刻タグ付加による多チャ
ネル間同期統合装置では、複数のチャネルの認識結果そ
れぞれについて入力データの時刻情報(時刻タグ)を併
せて出力させることによって認識結果の統合を行なって
いる。
【0003】
【発明が解決しようとする課題】しかし、特開平5−3
07432号公報に開示されている時刻タグ付加による
多チャネル間同期統合装置においては、時刻情報をどの
ように使って各チャネルの認識結果を統合するのかにつ
いては明らかにされていない。
【0004】本発明は以上の事情を考慮してなされたも
ので、マルチモーダル対話データベースの情報を元にし
て、複数の入力チャネルからの入力を統合して扱うこと
で、より自然な対話を行なうことができる統合認識対話
装置を提供することを目的とする。
【0005】
【課題を解決するための手段】請求項1に記載の統合認
識対話装置は、時刻情報を出力する時刻取得手段と、ユ
ーザの音声信号、顔の動き、視線、体の動作等を含む入
力データをそれぞれ認識する複数の認識手段と、音声信
号から単語を識別するための文脈情報を出力する文脈情
報取得手段と、時刻情報、文脈情報及び複数の認識手段
より並列に出力される認識結果を統合処理してユーザの
意図の認識を行なう統合処理手段と、統合処理手段によ
って認識されたユーザの意図に基づいて対話を進める対
話管理手段と、対話管理手段から渡された出力データを
ユーザに出力する出力手段とを具備することを特徴とす
る。
【0006】請求項2に記載の統合認識対話装置は、統
合処理手段が、対話管理手段からの情報と複数の認識手
段からの情報に基づいて、入力データからユーザの意図
の認識を行う期間であるレスポンスウィンドウを設定す
ることを特徴とする。
【0007】請求項3に記載の統合認識装置は、統合処
理手段が、対話管理手段からの情報と文脈情報取得手段
からの情報に基づいて、音声信号を認識するための所定
の個数のキーワード群を設定することを特徴とする。
【0008】請求項4に記載の統合認識装置は、キーワ
ード群がユーザが肯定を意図する「肯定キーワード群」
とユーザが否定を意図する「否定キーワード群」とを含
むことを特徴とする。
【0009】請求項5に記載の統合認識装置は、文脈情
報取得手段が、所定の文書データベース中の単語間の共
起関係をもとにして作成した特徴べクトル間の類似度を
使用することを特徴とする。
【0010】請求項6に記載の統合認識装置は、統合処
理識手段が、ユーザの意図の認識に所定の対話データベ
ースのデータを学習データとして使用することを特徴と
する。
【0011】請求項7に記載の統合認識装置は、統合処
理手段が、ユーザの意図を認識した後、その認識結果を
前記対話データベースに学習データとして追加すること
を特徴とする。
【0012】請求項8に記載の統合認識装置は、統合処
理手段が、ユーザの発話の後半で出現したユーザの顔の
縦振り動作を無視することを特徴とする。
【0013】
【作用】請求項1に記載の統合認識対話装置において
は、各認識手段において認識された信号の開始時刻と終
了時刻とが時刻取得手段から取得され、認識結果とその
開始時刻、終了時刻が統合処理手段に渡される。統合処
理手段においてユーザの発話意図の識別が行われ、その
識別結果が対話管理手段に渡される。統合処理手段から
渡されるこの識別結果によって対話管理手段により新た
な状態に遷移され、出力手段によってつぎに発話される
内容が決定される。このように構成されているので、請
求項1に記載の統合認識対話装置によれば、ユーザはあ
たかも人間と対話をするかのような感覚で自然な対話を
行うことができる。
【0014】請求項2に記載の統合認識対話装置におい
ては、各認識手段から渡された認識結果と対話管理手段
から渡された時刻の情報とに基づいてレスポンスウィン
ドウが設定される。レスポンスウィンドウは、人間同士
の対話における自然な間に合わせて設定されるので、ユ
ーザは気持ちの良い対話を行うことができる。
【0015】請求項3に記載の統合認識対話装置におい
ては、統合処理手段において選択肢がユーザに示される
場合には、各選択肢に対応したキーワード群が設定され
る。このキーワード群によりユーザの意図の判断が確実
に行われる。
【0016】請求項4に記載の統合認識対話装置におい
ては、統合処理手段によりユーザの肯定/否定の意図の
判定が行なわれる場合には、対話管理手段から渡された
キーワードと文脈情報取得手段とが用いられて「肯定キ
ーワード」と「否定キーワード」が設定される。これら
のキーワードによりユーザの肯定及び否定の意図の判断
が確実に行われる。
【0017】請求項5に記載の統合認識対話装置におい
ては、文脈情報取得手段が、文書データベース中の単語
間の共起関係をもとにして作成した特徴ベクトルを使用
するので、ユーザやシステムの使用状況にあった文書デ
ータベースを用意しておくことで、特定の状況で使用さ
れるシステムやユーザの発話の癖に対応することができ
る。
【0018】請求項6に記載の統合認識対話装置におい
ては、統合処理手段がユーザの意図の認識に学習データ
を使用するので、対話データベースの中にあるような対
話であれば、どのような対話に対しても対応できる。
【0019】請求項7に記載の統合認識対話装置におい
ては、統合処理手段がユーザの意図を認識した後、その
認識結果を学習データに追加するので、統合認識をユー
ザに対応させていくことができる。
【0020】請求項8に記載の統合認識装置において
は、ユーザの発話の後半で出現したユーザの顔の縦振り
動作を無視するので、ユーザ自身の発話にたいしてのう
なづきであることが多い顔の縦振り動作に起因する誤識
別を防ぐことができる。
【0021】
【実施例】以下、本発明の統合認識対話装置の第1の実
施例の構成を図1を参照しながら説明する。
【0022】本実施例の統合認識対話装置は、音声信
号、顔の動き、視線、体の動作等の時刻情報を含む入力
データ101〜104を認識する複数チャネルの認識手
段105〜108を具備しており、認識手段105〜1
08には、時刻情報を出力する時刻取得手段109と、
各認識手段より並列に出力される認識結果を統合処理し
てユーザの意図の認識を行なう統合処理手段110とが
接続されている。統合処理手段110には、文脈情報を
出力する文脈情報取得手段111と、統合処理手段によ
り認識されたユーザの意図に基づいて対話を進める対話
管理手段112とが接続されており、対話管理手段11
2には、出力データを出力する出力手段113が接続さ
れている。
【0023】なお、各認識手段105〜108は、その
認識データに応じた認識アルゴリズムを持ち、さらに認
識結果の開始時刻と終了時刻を時刻取得手段109から
得るように構成されている。文脈情報取得手段111に
は、音声認識手段から得られる「単語」に対応する文脈
情報が格納されている。文脈情報は、同じような状況、
場面、文脈で用いられる「単語」は類似した値を持つよ
うに構成される。
【0024】文脈情報の構成方法を単語の特徴べクトル
の例で説明する。
【0025】まず、文書データベースと単語の辞書が用
意される。特徴べクトルの次元数が適当な数に定めら
れ、その個数の単語が選出される。単語選出は、通常は
データベース中の出現頻度の多い順に選出されれば良
い。選出された単語は特徴べクトルの各要素に対応する
ことになる。単語の特徴べクトルは、文書データベース
中の一塊すなわち文,段落,記事等の文書中に含まれて
いる単語の出現頻度分布に、その単語のその一塊の文書
データ中での出現頻度を掛けたものが加算されていくこ
とによって得られる。
【0026】これをより具体的な例で説明する。
【0027】例文A「アメリカ政府が先進主要国にココ
ム規制の抜本的な見直しを提案してきた。」 例文B「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削滅する意向のようだ。」という文書データからどの
ように単語の特徴べクトルを作成するかを説明する。こ
こでは、文書データは「一文」という単位で読み込まれ
ることとするが、これは一段落、一記事など、他の単位
でも構わない。
【0028】また、この例では特徴べクトルの次元数は
21次元すなわち特徴べクトルを生成するための単語数
が21個で各要素が「アメリカ、政府、先進、主要、
国、ココム、規制、抜本的、見直し、提案、対象、兵
器、製造、工業、製品、輸出、条件、品目、大幅、削
減、意向」という単語に対応しているとする。
【0029】このような条件のもとで、例文Aが読み込
まれ、形態素解析が行なわれると「アメリカ、政府、先
進、主要、国、ココム、規制、抜本的、見直し、提案」
が抽出される。これから得られる単語出現頻度分布は
(1,1,1,1,1,1,1,1,1,1,0,0,
0,0,0,0,0,0,0,0)である。従って、図
2に示すように、「アメリカ」「政府」等、例文Aに出
現する単語の特徴べクトルには(1,1,1,1,1,
1,1,1,1,1,0,0,0,0,0,0,0,
0,0,0)を加算することになる。
【0030】次に例文Bが読み込まれ、形態素解析が行
なわれると「規制、対象、国、兵器、製造、工業、製
品、輸出、規制、条件、ココム、規制、品目、大幅、削
減、意向」が抽出される。これから得られる単語出現頻
度分布は(0,0,0,0,1,1,3,0,0,0,
1,1,1,1,1,1,1,1,1,1,1)であ
る。「規制」は3回出現しているので、この単語出現頻
度分布を3倍したべクトルである(0,0,0,0,
3,3,9,0,0,0,3,3,3,3,3,3,
3,3,3,3,3)が「規制」の特徴べクトルに加算
され、「対象」「国」等、図3に示すように、例文Bに
1回しか出現していない単語の特徴べクトルには(0,
0,0,0,1,1,3,0,0,0,1,1,1,
1,1,1,1,1,1,1,1)が加算される。
【0031】このような処理が行われながら多くの文章
が読み込まれて最終的に得られた特徴べクトルは、絶対
値が1に正規化されて、文脈情報取得手段111に格納
される。
【0032】つぎに、一実施例として、音声認識と顔の
振りの認識と視線の向きの認識を統合することで、シス
テムが発話する質問文に対するユーザの反応が「肯定」
なのか「否定」なのかが判定されるシステムの場合によ
り、対話管理手段112や統合処理手段110を説明す
る。なお、この例では音声認識は予め定められたキーワ
ード内でワードスポッティングによる認識が行なわれ、
顔の振りの認識は「縦振り」「横振り」「かしげ」が認
識され、視線の向きの認識は、「正面(視線一致)」
「正面以外(泳ぎ)」が認識される。
【0033】対話管理手段112により、図8に示すよ
うに、現在の状態すなわちシステムとユーザとの対話が
どの程度進んでいるか否かが把握され、次の発話内容が
決定され、その発話内容のキーワードや、キーワード発
話時刻や、発話終了時刻が統合処理手段110に渡され
てから、発話内容が出力手段113から出力される。
【0034】統合処理手段110により、対話管理手段
112から渡されたキーワードKWをもとにして、「肯
定キーワード」と「否定キーワード」が作成される。
「肯定キーワード」とはキーワードKWと、「はい」
「うん」「そうです」等の肯定に用いる常套句である。
「否定キーワード」とはキーワードKWと意味的に反対
あるいは類似したキーワードと、「いいえ」等の否定に
用いる常套句である。「キーワードKWと意味的に反対
あるいは類似したキーワード」とは、音声認識できるす
べてのキーワードの中でキーワードKWとの類似度〔こ
れは文脈情報取得手段111より特徴べクトルが取得さ
れ、これを用いて、各キーワードの特徴べクトル間の類
似度(べクトルの値を絶対値を1に正規化してから内積
をとったもの)を計算すれば良い〕がある閾値以上のキ
ーワードのことである。
【0035】電子化された類義語辞典や反意語辞典が利
用できる場合はこれらを用いてキーワードKWと意味的
に反対あるいは類似したキーワードを検索することもで
きる。また、統合処理手段110により、対話管理手段
112からキーワードKWの発話開始時刻T1や発話自
体の終了時刻T2も受けとられる。T1としてはキーワ
ードKWの発話開始時刻ではなく、キーワードKWがキ
ーワードKWであると識別できるところまで発話された
時点の時刻をとっても良い。しかし、キーワードKWが
キーワードKWであると識別できるところというのは文
脈によっても変化するので、簡単にはキーワードKWの
発話終了時刻―MT(例えば0.5秒)と、キーワード
KWの発話開始時刻とで時刻の遅い方をT1とする手法
をとることもできる。
【0036】時刻T1からT2+WT(例えば0.5
秒)の間に認識されたユーザの発話や顔の振り等をもと
にして、ユーザの意図が認識される。図4Aに示すよう
に、ここでは時刻T1からT2+WTの間のことを「レ
スポンスウィンドウ」と呼ぶことにする。レスポンスウ
ィンドウはユーザの発話や動作によって短縮されたり伸
長されたりする。短縮されるのは、図4Bに示すよう
に、ユーザが意味のある発話や行動を行なってからWT
たっても次の発話や動作が見られなかった場合である。
伸長されるのは、レスポンスウィンドウの右端の時点で
ユーザから意味のある発話や動作(「かしげ」や「目の
泳ぎ」や「不要語(「えーと」等)の発話」を含む)が
見られた場合であり、この場合はそれらの動作が終了し
てからWTの時間がたつまで待ち、その時点でユーザの
発話や動作が見られなければ、図4Cに示すように、そ
の時点までをレスポンスウィンドウとする。
【0037】WTの例として「0.5秒」を示している
のは、マルチモーダル対話データベースの解析結果に基
づく。マルチモーダル対話データベースから人間同士の
対話が解析されると、0.5秒以上何の反応もないとい
う状況はなく、例えば質問が発話されてから0.5秒以
内に、発話/目の泳ぎ/顔のかしげ等なんらかの反応が
起こることがわかっている。これが人間同士の対話にお
ける自然な間(ま)を構成しているものと考えられる。
したがって、レスポンスウィンドウは0.5秒以上の何
の反応も生じなかった場合に閉じるのが自然な対話を促
すのではないかと考えられるため、WTの例として
「0.5秒」を示した。このWTの値は、個人差があ
り、またシステムの発話速度とも関係するので、必要に
応じて変更できるようにしておく。
【0038】各認識手段105〜108から渡される一
つ一つの情報は、「開始時刻(st),終T時刻(e
t),モード(md),認識結果(rs),尤度(s
c)の五つ組で表される。開始時刻や終了時刻は時刻取
得手段109から渡される値であり、その認識結果を得
た入力データの開始時刻と終了時刻とを表す。モードと
は「音声」「顔の振り」「顔の向き」「視線の向き」
「表情」「ジェスチャー」等、同時に発生可能なユーザ
からの複数の出力の種類を指す。認識結果はモードに応
じて、「音声」なら「認識単語」、「顔の振り」なら
「縦振り」「構振り」「かしげ」等、「顔の向き」なら
「正面」「右」「左」「上」「下」「右上」等、「視線
の向き」なら「正面(視線一致)」「正面以外(泳
ぎ)」「右」「左」「上」「下」「右上」等、「表情」
なら「笑い」「怒り」「悲しみ」等である。尤度は、そ
の認識結果の確からしさを示す数値であり、例えば認識
用のテンプレートと実際に認識されるものとの間の距離
から求められる。
【0039】統合処理手段110により、各認識手段1
05〜108から渡される情報の中の開始時刻と終了時
刻がまず注目され、この二つともが「レスポンスウィン
ドウ」に入っているものだけが統合認識に用いられる。
【0040】この実施例では、音声認識手段から得られ
るキーワードは「肯定キーワード」か「否定キーワー
ド」か「その他のキーワード(肯定キーワードでも否定
キーワードでもないキーワード)」かの3種類に限定す
ることができる。用途によっては「その他のキーワー
ド」は使わない方が良い場合もあり、この場合はその他
のキーワードが認識されたら、他の認識結果に基づいて
「肯定/否定」の判断が行なわれ、その判断結果がユー
ザに正しいかどうか質問され、それが正しければその判
断結果に基づいてそのキーワードが「肯定キーワード」
か「否定キーワード」のどちらかに入れられ、以後は同
じ質間文が使われる場合にはそのキーワードは「肯定キ
ーワード」か「否定キーワード」に入れられるという使
い方ができる。ただし、システムを使用する人が違った
り、同じ人でも時間がたつと同じキーワードが「肯定キ
ーワード」になったり「否定キーワード」になったりす
る可能性があるので、ユーザが認識されて区別された
り、それまでの判断結果からべイズ識別等がされたりす
ると良い。
【0041】ユーザの意図が「肯定」なのか「否定」な
のかが判断されるのはレスポンスウィンドウ内での「肯
定キーワードの発話」「否定キーワードの発話」「その
他キーワードの発話」「顔の縦振り」「顔の横振り」の
5つについてのべイズ識別による。システムにより発話
される質問文には肯定/否定の対象となるキーワードが
存在するので、そのキーワード発話時点(T1)から、
発話自体の終了時刻(T2)+WTまでの間がレスポン
スウィンドウに設定され、そのレスポンスウィンドウ内
で上述の5つ(「肯定キーワードの発話」「否定キーワ
ードの発話」「その他キーワードの発話」「顔の縦振
り」「顔の横振り」)で判定される。ただし、べイズ識
別に用いるのは上述の5つであるが、「かしげ」や「目
の泳ぎ」や「不要語(「えーと」等)の発話」等が認識
されると、レスポンスウィンドウは時間的に後ろに伸長
される。また、「肯定キーワード」や「否定キーワー
ド」が発話されたり、「縦振り」や「横振り」が発生さ
れてからWTの時間がたっても次の発話や顔の動きが使
出されなかった場合には、レスポンスウィンドウはそこ
で打ち切られる。
【0042】以上のことをより詳しく説明する。
【0043】システムにより質問文が発話し始められた
ら、T1からT2+WTまでの時間に発生したユーザの
「肯定キーワードの発話」「否定キーワードの発話」
「その他キーワードの発話」「顔の縦振り」「顔の横振
り」が調べられる。T2の時刻までの間にこれらの反応
が見られず、ユーザの「かしげ」や「目の泳ぎ」あるい
は「えーと」などの不要語の発話が認識された場合は、
レスポンスウィンドウが伸長される。「かしげ」の場合
は頭がまっすぐになるか「縦振り」「横振り」が生じる
まで待機され、「目の泳ぎ」の場合は正面を見るように
なるまで待機され、不要語の場合は不要語の発話終了後
WTだけ待機され、その時点でユーザの発話や顔の振り
等の動作が発生していなければ、それまでに発生したも
のがべイズ識別に用いられる。ユーザの発話や顔の振り
等の動作が発生していれば、レスポンスウィンドウの伸
長がし続けられる。ただし、ユーザ発話の後半に複数回
の「顔の縦振り」が存在する場合は、その「顔の縦振
り」はユーザ自分自身に対する縦振りなので、無視さ
れ、べイズ識別時には使用されない。
【0044】T2+WTの時刻までの間にこれらの反応
が見られず、ユーザの「かしげ」や「目の泳ぎ」あるい
は「えーと」などの不要語の発話(レスポンスウィンド
ウ伸長動作)も認識されなかった場合や、これらのレス
ポンスウィンドウ伸長動作が認識されて待機された後に
WTの時間がたってもユーザの発話や顔の振り等の動作
が発生されなかった場合は、統合処理手段110により
「ユーザが何の反応もしない」という旨が対話管理手段
112へ伝えられる。すると、対話管理手段112によ
り現在の状況に応じて「もしもし」、「何か答えてくだ
さい」等の発話が出力手段113を通じて行なわれる。
なお、べイズ識別ではマルチモーダル対話データベース
の情報が用いられる。
【0045】次に、他の実施例として、音声認識と顔の
振りの認識と顔や視線の向きの認識が統合されること
で、システムにより発話される質問文に対するユーザの
反応が「肯定」なのか「否定」なのかが判定される以外
に、右/左等の向きが認識されるシステムの場合によ
り、対話管理手段112及び統合処理手段110を説明
する。
【0046】この場合は対話管理手段112により統合
処理手段110から「肯定/否定」を答として受けとり
たいのか、「右/左等の向き」を答として受けとりたい
のかが、キーワードKWや発話時刻が統合処理手段11
0に送られる時に一緒に送られる必要がある。対話管理
手段112によるそれ以外の点では、上述実施例と同様
である。また、出力手段113も上述実施例と同様であ
る。
【0047】統合処理手段110については、「肯定/
否定」を答として受けとりたい場合の処理は前述のシス
テムと同様にすれば良い。
【0048】「右/左等の向き」を答として受けとりた
い場合の統合処理手段110の処理は、ユーザからのデ
ータとして、例えば音声としては「それ」等の指示語や
「各方向に特有のキーワード発話」(「右」「左」等)
や「画面に表示されている物の名前とそれに類似した単
語」等が認識され、他のモードとしては「顔の向き」、
「視線の向き」、「手を伸ばした方向」等が認識され、
やはりマルチモーダル対話データベースの情報が用いら
れてレスポンスウィンドウ内でのべイズ識別が行なわれ
る。レスポンスウィンドウの設定方法は上述実施例と同
様である。
【0049】「画面に表示されている物の名称に類似し
た単語」は、対話管理手段112から「両面に表示され
ている物の名称」を受け取り、これをDW1,DW
2,...DWnとすると、音声認識できるすべてのキ
ーワードの中でDWiとの類似度(これは文脈情報取得
手段の情報から得られる。例えば、類似度を求めたい単
語の特徴べクトルとDWiの特徴べクトルとの内積を取
れば良い)がある閾値以上のキーワードのことである。
このDWiとの類似度がある閾値以上になるキーワード
群が「キーワード群i」となる。
【0050】ここで、べイズ識別の方法について説明す
る。
【0051】マルチモーダル対話データベースには、図
7に示すように、人間同士の対話(各人の役割がシステ
ムとユーザとにそれぞれ対応しているものもある)や、
システムとユーザとの対話の様子を様々なモードでとら
えたものが記録されている。肯定/否定を識別するため
のべイズ識別を行なうには、マルチモーダル対話データ
ベース中から、ユーザが肯定/否定で答える対話のもの
だけが抜き出され、その対話データのレスポンスウィン
ドウ内での「肯定キーワード」「否定キーワード」「そ
の他のキーワード」「顔の縦振り」「顔の横振り」の存
在の有無が調査され、その調査結果が一つの学習データ
とされる。なお、対話データの中に「かしげ」や「目の
泳ぎ」がある場合はそれらがなくなるまでレスポンスウ
ィンドウが拡張されて調査される。
【0052】例えば、「今日は暑いですね」というシス
テムからの問いかけに対するユーザの応答データがある
とする。この場合、キーワードKWは「暑い」であり、
肯定キーワードとしては「はい」「うん」「そうです」
「暑い」等が考えられ、否定キーワードとしては「いい
え」「暑くない」「涼しい」等が考えられる。肯定の答
のデータ例として、レスポンスウィンドウ内で「はい」
という発話があり、「顔の縦振り」が見られたという場
合は、 Y10010 という学習データが得られる。先頭のYは肯定の答えを
意味し、次の1と0は、それぞれ「肯定キーワード」
「否定キーワード」「その他のキーワード」「顔の縦振
り」「顔の横振り」が存在するなら1、存在しないなら
0である。
【0053】また、否定の答のデータ例として、レスポ
ンスウィンドウ内で「いいえ暑くないです」という発話
があり、顔の動きは特に見られなかった場合は、 N01000 という学習データが得られる。先頭のNは否定の答えを
意味する。このような学習データをたくさん用意してお
き、認識データとして例えば「10010」(「肯定キ
ーワード」の発話と「顔の縦振り」が見られた)が与え
られたら学習データの中の「Y10010」と「N10
010」の個数が比べられ、「Y10010」の方が多
ければ、その時のユーザの意図は「肯定」であるとみな
され、「N10010」の方が多ければ、その時のユー
ザの意図は「否定」であるとみなされる。もしも同数
(両方とも0だった場合を含む)だった場合は「不明」
なので、その旨が対話管理手段112に返信され、対話
管理手段112により、その場合はもう一度質問がし直
される。また、個数の差が小さい場合もユーザに意図の
識別が正しかったかが確認されるようにすると良い場合
がある。この「10010」のような識別結果の先頭に
認識データ(YかN)を加えたものを学習データに加え
ることで、ユーザが使用すればするほど学習データが増
えて認識率が高まる。
【0054】次に「右/左等の向き」を答えとして受け
とりたい場合のべイズ識別の例を説明する。なお、説明
の都合上「右」と「左」と「上」の3つを識別する場合
について説明するが、方向が増えたりしても考え方は同
じである。この場合はマルチモーダル対話データベース
の中から、システムにより方向をたずねている対話のも
のだけが抜き出され、その対話データのレスポンスウィ
ンドウ内での「『右』や右に表示されている物の名称、
及び右に表示されている物の名称に類似した単語の発
話」「『左』や左に表示されている物の名称、及び左に
表示されている物の名称に類似した単語の発話」
「『上』や上に表示されている物の名称、及び上に表示
されている物の名称に類似した単語の発話」「指示語発
話と同時に顔の向きが右」「指示語発話と同時に顔の向
きが左」「指示語発話と同時に顔の向きが上」「指示語
発話と同時に視線の向きが右」「指示語発話と同時に視
線の向きが左」「指示語発話と同時に視線の向きが上」
「指示語発話と同時に手を伸ばした方向が右」「指示語
発話と同時に手を伸ばした方向が左」「指示語発話と同
時に手を伸ばした方向が上」「顔の向きが右」「顔の向
きが左」「顔の向きが上」「視線の向きが右」「視線の
向きが左」「視線の向きが上」「手を伸ばした方向が
右」「手を伸ばした方向が左」「手を伸ばした方向が
上」等の存在の有無を調査(これらの中の一部だけしか
使わないようにしても良い)し、その調査結果を一つの
学習データとする。なお、対話データの中に「かしげ」
や「目の泳ぎ」がある場合はそれらがなくなるまでレス
ポンスウィンドウが伸長されて調査される。
【0055】例えば、システムの出力画面の右側に手帳
が、左に鉛筆が、上に消しゴムが表示されている場合
に、「どれが一番欲しいですか」というシステムからの
問いかけに対するユーザの応答データがあるとする。こ
の場合、キーワードKWは「欲しい」であり、キーワー
ドDW1は「手帳」であり、キーワードDW2は「鉛
筆」であり、キーワードDW3は「消しゴム」である。
すると、キーワード群1としては「手帳」「ノート」な
どが入ることが考えられ、キーワード群2としては「鉛
筆」「ペン」などが入ることが考えられ、キーワード群
3としては「消しゴム」「イレーサ」などが入ることが
考えられる。なお、どのような単語が入るかは文脈情報
取得手段111からの情報に左右される。すると、
「『右』や右に表示されている物の名称、及び右に表示
されている物の名称に類似した単語の発話」としては
「右」「手帳」「ノート」等が考えられ、「『左』や左
に表示されている物の名称、及び左に表示されている物
の名称に類似した単語の発話」としては「左」「鉛筆」
「ペン」等が考えられ、「『上』や上に表示されている
物の名称、及び上に表示されている物の名称に類似した
単語の発話」としては「上」「消しゴム」「イレーサ」
等が考えられる。
【0056】「右」が答であるデータ例として、レスポ
ンスウィンドウ内で「指示語発話と同時に顔の向きが
右」「顔の向きが右」「顔の向きが左」「顔の向きが
上」が見られた場合は、 R000100000000111000000 という学習データが得られる。先頭のRは「右」が答で
あることを意味し、次の1と0は、それぞれ上記の状態
が存在するなら1、存在しないなら0である。
【0057】また、「左」が答であるデータ例として、
レスポンスウィンドウ内で「『左』や左に表示されてい
る物の名称の発話、及び左に表示されている物の名称に
類似した単語の発話」「顔の向きが右」「顔の向きが
左」「顔の向きが上」が見られた場合は、 L010000000000111000000 という学習データが得られる。先頭のLは「左」が答で
あることを意味する。
【0058】また、「上」が答であるデータ例として、
レスポンスウィンドウ内で「指示語発話と同時に視線の
向きが上」「指示語発話と同時に手を伸ばした方向が
上」「視線の向きが右」「視線の向きが左」「視線の向
きが上」「手を伸ばした方向が上」が見られた場合は、 U000000001001000111001 という学習データが得られる。先頭のUは「上」が答え
であることを意味する。
【0059】このような学習データをたくさん用意して
おき、認識データとして例えば「1001000000
00111000000」(「『右』や右に表示されて
いる物の名称、及び右に表示されている物の名称に類似
した単語の発話」と「指示語発話と同時に顔の向きが
右」と「顔の向きが右」と「顔の向きが左」と「顔の向
きが上」が見られた)が与えられたら、学習データの中
の「R100100000000111000000」
と「L100100000000111000000」
と「U100100000000111000000」
の個数が比べられ、最も多いデータの先頭の文字によっ
て、「R」なら「右」、「L」なら「左」、「U」なら
「上」であるとみなされる。もしも、同数(三つとも0
だった場合を含む)だった場合は「不明」なので、その
旨が対話管理手段112に返信され、対話管理手段11
2により、その場合はもう一度質問をし直されたりす
る。また、個数の差が小さい場合もユーザに方向の識別
が正しかったかどうかが確認されるようにすると良い場
合がある。これらの識別結果の先頭に認識データ(Rか
LかU)を加えたものを学習データに加えることで、ユ
ーザが使用すればするほど学習データが増えるようにす
ることができる。
【0060】図5は、本発明を「商品紹介システム」に
応用した実施例である。この場合は、レスポンスウィン
ドウの伸長のために「顔の振りのかしげ」や「視線の泳
ぎ(視線が正面を向いていない)」を用い、肯定/否定
のべイズ識別において「肯定キーワードの発話」「否定
キーワードの発話」「その他のキーワードの発話」「顔
の縦振り」「顔の横振り」を用い、方向の判定に「指示
語の発話」「方向キーワードの発話」「商品名、及び商
品名に類似した単語の発話」「顔の向き」が用いられて
いる。
【0061】この「商品紹介システム」の対話例を図6
Aから図6Dを用いて詳細に説明する。なお、ここでは
システムの発話を『S「発話内容」』、ユーザの発話や
動作を『U「発話や動作内容」』で表している。
【0062】S「こんにちは」 S「商品の紹介を致します。よろしいでしょうか?」 U「『はい』と発話してうなずく」 (図6A参照) S「どちらの商品に興味がありますか?」 U「右を見てうなずきながら『それです』と発話する」
(図6Bでは顔が右を向いているかどうかが一定の間
隔で出力されている) S「右ですね?」 U「『はい』と発話してうなずく」 (図6C参照) S「これは、FAX機能を内蔵した電子手帳ザウルスで
す。」 S「こちらのビューカムには興味はございますか?」 U「顔を横振り」 (図6D参照) S「ありがとうざいました。」 なお、本実施例ではべイズ識別に用いるデータは「肯定
キーワードの発話」「否定キーワードの発話」「その他
キーワードの発話」「顔の縦振り」「顔の構振り」
「『右』や右に表示されている物の名称、及び右に表示
されている物の名称に類似した単語の発話」「『左』や
左に表示されている物の名称、及び左に表示されている
物の名称に類似した単語の発話」「『上』や上に表示さ
れている物の名称、及び上に表示されている物の名称に
類似した単語の発話」「指示語発話と同時に顔の向きが
右」「指示語発話と同時に顔の向きが左」「指示語発話
と同時に顔の向きが上」「指示語発話と同時に視線の向
きが右」「指示語発話と同時に視線の向きが左」「指示
語発話と同時に視線の向きが上」「指示語発話と同時に
手を伸ばした方向が右」「指示語発話と同時に手を伸ば
した方向が左」「指示語発話と同時に手を伸ばした方向
が上」「顔の向きが右」「顔の向きが左」「顔の向きが
上」「視線の向きが右」「視線の向きが左」「視線の向
きが上」「手を伸ばした方向が右」「手を伸ばした方向
が左」「手を伸ばした方向が上」等が使われているが、
これはマルチモーダル対話データベースから得られる情
報なら何を使っても良く、より一般化して書けば、 モードM1,モードM2,...,モードMn で、それぞれのモードの有無が調査されれば良い。例え
ば「肯定キーワードの発話」「否定キーワードの発話」
「その他キーワードの発話」「顔の縦振り」「顔の横振
り」が使われた場合というのはn=5で、モードM1
「肯定キーワードの発話」、モードM2=「否定キーワ
ードの発話」、モードM3=「その他キーワードの発
話」、モードM4=「顔の縦振り」、モードM5=「顔の
構振り」とした場合ということになる。
【0063】また、各モードの有無についても、単なる
0,1を用いる以外に、尤度として0〜1の実数値をと
らせることもできる。この場合のべイズの識別は、学習
データから線形補間を行なえば良い。例えばレスポンス
ウィンドウ内で0.8,0,0,0.7,0 という認
識データが得られた場合には、学習データ中の「Y10
010」の個数をy11、「N10010」の個数を
11、「Y00010」の個数をy01、「N0001
0」の個数をn01、「Y10000」の個数をy10
「N10000」の個数をn10、「Y00000」の個
数をy00、「N00000」の個数をn00、とすると、 nY=0.8×0.7×y11+(1−0.8)×0.7×
01+0.8×(1−0.7)y10+(1−0.8)×
(1−0.7)y00N=0.8×0.7×n11+(1−0.8)×0.7×
01+0.8×(1−0.7)n10+(1−0.8)×
(1−0.7)n00 が計算され、nYとnNの大小が比較され、nYの方が大
きければ、その時のユーザの意図は「肯定」であるとみ
なされ、nNの方が大きければ、その時のユーザの意図
は「否定」であるとみなされる。
【0064】また、「キーワード群」は、対話管理手段
112から与えられた各キーワードDWiをもとに、あ
らかじめ求めておく場合で説明したが、単語Wを音声認
識後に、各キーワードDWiとの類似度から、単語Wが
どのキーワード群に入っているかを求めることもでき
る。これは単語Wの特徴べクトルとDWiの特徴べクト
ルとの内積が最大となるiをmとすると、単語Wはキー
ワード群mに属することにすれば良い。または、所定閾
値を定めておき、類似度がこの閾値以上になるキーワー
ド群に属する(複数のキーワード群に属する場合もあ
る)とみなしてもよい。
【0065】肯定キーワード/否定キーワードの場合も
同様で、対話管理手段112から与えられたキーワード
KWに対し、あらかじめ「肯定キーワード」「否定キー
ワード」を求めておかなくても、単語Wを音声認識後
に、単語WとキーワードKWが同じであれば、単語Wは
「肯定キーワード」とみなせるし、単語Wとキーワード
KWとの類似度が所定閾値以上であれば単語Wは「否定
キーワード」とみなせる。
【0066】また、「レスポンスウィンドウ」は、一対
の対話に対して一つだけ存在する場合について説明した
が、システム側の発話にキーワードKWが複数ある場合
などは複数のレスポンスウィンドウを設定することもで
きる。この場合、レスポンスウィンドウiは、キーワー
ドKWiの発話開始時刻からKW(i+1)の発話開始
時刻+WTまでの時間となる。ただし、最後のレスポン
スウィンドウの終了時刻は、システムの発話自体の終了
時刻+WTとなる。これを、キーワードKWが、KW
1,KW2,KW3の三つある場合で説明すると、図9
に示すように、KW1の発話開始時刻からKW2の発話
開始時刻+WTまでの時間を「レスポンスウィンドウ
1」、KW2の発話開始時刻からKW3の発話開始時刻
+WTまでの時間を「レスポンスウィンドウ2」、KW
3の発話開始時刻からシステムの発話自体の終了時刻+
WTまでの時間を「レスポンスウィンドウ3」に設定す
れば良い。この場合、各レスポンスウィンドウ間で重複
している時間が生じるが、これによるあいまい性は、シ
ステムからもう一度聞き直す等をして確認を取るように
すれば良い。
【0067】
【発明の効果】請求項1に記載の統合認識装置によれ
ば、統合処理手段においてユーザの発話意図の識別が行
われ、その識別結果が対話管理手段に渡され、対話管理
手段により新たな状態に遷移され、出力手段によってつ
ぎに発話される内容が決定されるので、ユーザはあたか
も人間と対話をするかのような感覚で自然な対話を行う
ことができる。
【0068】請求項2に記載の統合認識対話装置によれ
ば、統合処理手段において人間同士の対話における自然
な間に合わせてレスポンスウインドウが設定されるの
で、ユーザは気持ちの良い対話を行うことができる。
【0069】請求項3に記載の統合認識対話装置によれ
ば、統合処理手段において選択肢がユーザに示される場
合には、各選択肢に対応したキーワード群が設定される
ので、このキーワード群によりユーザの意図の判断が確
実に行われる。
【0070】請求項4に記載の統合認識対話装置によれ
ば、統合処理手段においてユーザの肯定/否定の意図の
判定が行なわれる場合には、「肯定キーワード」と「否
定キーワード」が設定されるので、これらのキーワード
によりユーザの肯定及び否定の意図の判断が確実に行わ
れる。
【0071】請求項5に記載の統合認識対話装置によれ
ば、文脈情報取得手段が、文書データベース中の単語間
の共起関係をもとにして作成した特徴ベクトルを使用す
るので、ユーザやシステムの使用状況にあった文書デー
タベースを用意しておくことで、特定の状況で使用され
るシステムやユーザの発話の癖に対応することができ
る。
【0072】請求項6に記載の統合認識対話装置によれ
ば、統合処理手段がユーザの意図の認識に学習データを
使用するので、データベースの中にあるような対話であ
れば、どのような対話に対しても対応できる。
【0073】請求項7に記載の統合認識対話装置によれ
ば、統合処理手段がユーザの意図を認識した後、その認
識結果を学習データに追加するので、統合認識をユーザ
に対応させていくことができる。
【0074】請求項8に記載の統合認識装置によれば、
ユーザの発話の後半で出現したユーザの顔の縦振り動作
を無視するので、ユーザ自身の発話に対してのうなづき
であることが多い顔の縦振り動作に起因する誤識別を防
ぐことができる。
【図面の簡単な説明】
【図1】本発明の統合認識対話装置の基本構成を示すブ
ロック図である。
【図2】本発明の単語の特徴べクトルの生成を説明する
図である。
【図3】本発明の単語の特徴べクトルの生成を説明する
図である。
【図4A】本発明のレスポンスウィンドウを説明する図
である。
【図4B】本発明のレスポンスウィンドウの短縮を説明
する図である。
【図4C】本発明のレスポンスウィンドウの伸長を説明
する図である。
【図5】本発明の統合認識対話装置を「商品紹介システ
ム」に応用した場合の構成を示すブロック図である。
【図6A】商品紹介システムでの対話例を示す図であ
る。
【図6B】商品紹介システムでの対話例を示す図であ
る。
【図6C】商品紹介システムでの対話例を示す図であ
る。
【図6D】商品紹介システムでの対話例を示す図であ
る。
【図7】マルチモーダル対話データベースを示す図であ
る。
【図8】対話管理手段による状態の遷移の様子を示す図
である。
【図9】複数のレスポンスウィンドウを示す図である。
【符号の説明】
105 認識手段 106 認織手段 107 認識手段 108 認識手段 109 時刻取得手段 110 統合処理手段 111 文脈情報取得手段 112 対話管理手段 113 出力手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06T 1/00 G06F 15/62 380

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 時刻情報を出力する時刻取得手段と、ユ
    ーザの音声信号、顔の動き、視線、体の動作等を含む入
    力データをそれぞれ認識する複数の認識手段と、音声信
    号から単語を識別するための文脈情報を出力する文脈情
    報取得手段と、時刻情報、文脈情報及び前記複数の認識
    手段より並列に出力される認識結果を統合処理してユー
    ザの意図の認識を行なう統合処理手段と、前記統合処理
    手段によって認識されたユーザの意図に基づいて対話を
    進める対話管理手段と、前記対話管理手段から渡された
    出力データをユーザに出力する出力手段とを具備する統
    合認識対話装置。
  2. 【請求項2】 前記統合処理手段が、前記対話管理手段
    からの情報と前記複数の認識手段からの情報に基づい
    て、入力データからユーザの意図の認識を行う期間であ
    るレスポンスウィンドウを設定する請求項1に記載の統
    合認識対話装置。
  3. 【請求項3】 前記統合処理手段が、前記対話管理手段
    からの情報と前記文脈情報取得手段からの情報に基づい
    て、音声信号を認識するための所定の個数のキーワード
    群を設定する請求項1に記載の統合認識対話装置。
  4. 【請求項4】 前記キーワード群がユーザが肯定を意図
    する「肯定キーワード群」とユーザが否定を意図する
    「否定キーワード群」とを含む請求項3に記載の統合認
    識対話装置。
  5. 【請求項5】 前記文脈情報取得手段が、所定の文書デ
    ータベース中の単語間の共起関係をもとにして作成した
    特徴べクトル間の類似度を使用する請求項1に記載の統
    合認識対話装置。
  6. 【請求項6】 前記統合処理手段が、ユーザの意図の認
    識に所定の対話データベースのデータを学習データとし
    て使用する請求項1に記載の統合認識対話装置。
  7. 【請求項7】 前記統合処理手段が、ユーザの意図を認
    識した後、その認識結果を前記対話データベースに学習
    データとして追加する請求項6に記載の統合認識対話装
    置。
  8. 【請求項8】 前記統合処理手段が、ユーザの発話の後
    半で出現したユーザの顔の縦振り動作を無視する請求項
    6に記載の統合認識対話装置。
JP03858195A 1995-02-27 1995-02-27 統合認識対話装置 Expired - Lifetime JP3375449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03858195A JP3375449B2 (ja) 1995-02-27 1995-02-27 統合認識対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03858195A JP3375449B2 (ja) 1995-02-27 1995-02-27 統合認識対話装置

Publications (2)

Publication Number Publication Date
JPH08234789A true JPH08234789A (ja) 1996-09-13
JP3375449B2 JP3375449B2 (ja) 2003-02-10

Family

ID=12529267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03858195A Expired - Lifetime JP3375449B2 (ja) 1995-02-27 1995-02-27 統合認識対話装置

Country Status (1)

Country Link
JP (1) JP3375449B2 (ja)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11272293A (ja) * 1998-03-24 1999-10-08 Sanyo Electric Co Ltd 遠隔制御装置
JPH11288342A (ja) * 1998-02-09 1999-10-19 Toshiba Corp マルチモーダル入出力装置のインタフェース装置及びその方法
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2000347690A (ja) * 1999-06-04 2000-12-15 Nec Corp マルチモーダル対話装置
JP2002006874A (ja) * 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
KR100576553B1 (ko) * 2000-01-20 2006-05-03 한국전자통신연구원 멀티모달 인터페이스 처리 장치 및 그 방법
KR100611680B1 (ko) * 2005-06-28 2006-08-14 한국과학기술연구원 멀티모달 인터랙션 기반 원격미팅 시스템
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
JP2007072628A (ja) * 2005-09-05 2007-03-22 Aisin Seiki Co Ltd 顔向き判別装置
JP2007219190A (ja) * 2006-02-17 2007-08-30 Murata Mach Ltd 音声認識装置と認識方法及びそのプログラム
KR100758789B1 (ko) * 2006-05-29 2007-09-14 주식회사 케이티 멀티모달 시스템
KR100777569B1 (ko) * 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치
WO2008001549A1 (fr) * 2006-06-26 2008-01-03 Murata Kikai Kabushiki Kaisha Dispositif audio interactif, procédé audio interactif, et programme correspondant
US7630901B2 (en) 2004-06-29 2009-12-08 Canon Kabushiki Kaisha Multimodal input method
US7742924B2 (en) 2004-05-11 2010-06-22 Fujitsu Limited System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
US8606735B2 (en) 2009-04-30 2013-12-10 Samsung Electronics Co., Ltd. Apparatus and method for predicting user's intention based on multimodal information
JP2016062550A (ja) * 2014-09-22 2016-04-25 ソフトバンク株式会社 会話処理システム及びプログラム
US9443536B2 (en) 2009-04-30 2016-09-13 Samsung Electronics Co., Ltd. Apparatus and method for detecting voice based on motion information
US9684372B2 (en) 2012-11-07 2017-06-20 Samsung Electronics Co., Ltd. System and method for human computer interaction
WO2018061743A1 (ja) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 ウェアラブル端末
US10446146B2 (en) 2015-03-20 2019-10-15 Kabushiki Kaisha Toshiba Learning apparatus and method
WO2019202804A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 音声処理装置および音声処理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61200762A (ja) * 1985-03-01 1986-09-05 Nippon Telegr & Teleph Corp <Ntt> 複数メディア入出力装置
JPS63121096A (ja) * 1986-11-10 1988-05-25 松下電器産業株式会社 対話型音声入出力装置
JPH0340177A (ja) * 1989-07-07 1991-02-20 Seiko Epson Corp 音声認識装置
JPH04311996A (ja) * 1991-04-11 1992-11-04 Seiko Epson Corp 音声認識装置
JPH0582703U (ja) * 1992-04-14 1993-11-09 ナイルス部品株式会社 音声認識装置
JPH05307432A (ja) * 1992-04-30 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時刻タグ付加による多チャネル間同期統合装置
JPH0662398A (ja) * 1992-08-07 1994-03-04 Matsushita Electric Ind Co Ltd 画像通信端末装置
JPH06118988A (ja) * 1992-10-02 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声対話処理装置
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JPH0736199U (ja) * 1993-12-16 1995-07-04 クラリオン株式会社 音声認識装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61200762A (ja) * 1985-03-01 1986-09-05 Nippon Telegr & Teleph Corp <Ntt> 複数メディア入出力装置
JPS63121096A (ja) * 1986-11-10 1988-05-25 松下電器産業株式会社 対話型音声入出力装置
JPH0340177A (ja) * 1989-07-07 1991-02-20 Seiko Epson Corp 音声認識装置
JPH04311996A (ja) * 1991-04-11 1992-11-04 Seiko Epson Corp 音声認識装置
JPH0582703U (ja) * 1992-04-14 1993-11-09 ナイルス部品株式会社 音声認識装置
JPH05307432A (ja) * 1992-04-30 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時刻タグ付加による多チャネル間同期統合装置
JPH0662398A (ja) * 1992-08-07 1994-03-04 Matsushita Electric Ind Co Ltd 画像通信端末装置
JPH06118988A (ja) * 1992-10-02 1994-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声対話処理装置
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JPH0736199U (ja) * 1993-12-16 1995-07-04 クラリオン株式会社 音声認識装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JPH11288342A (ja) * 1998-02-09 1999-10-19 Toshiba Corp マルチモーダル入出力装置のインタフェース装置及びその方法
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH11272293A (ja) * 1998-03-24 1999-10-08 Sanyo Electric Co Ltd 遠隔制御装置
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2000347690A (ja) * 1999-06-04 2000-12-15 Nec Corp マルチモーダル対話装置
US6513011B1 (en) 1999-06-04 2003-01-28 Nec Corporation Multi modal interactive system, method, and medium
KR100576553B1 (ko) * 2000-01-20 2006-05-03 한국전자통신연구원 멀티모달 인터페이스 처리 장치 및 그 방법
JP2002006874A (ja) * 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
US7742924B2 (en) 2004-05-11 2010-06-22 Fujitsu Limited System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
US7630901B2 (en) 2004-06-29 2009-12-08 Canon Kabushiki Kaisha Multimodal input method
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
KR100611680B1 (ko) * 2005-06-28 2006-08-14 한국과학기술연구원 멀티모달 인터랙션 기반 원격미팅 시스템
JP2007072628A (ja) * 2005-09-05 2007-03-22 Aisin Seiki Co Ltd 顔向き判別装置
JP2007219190A (ja) * 2006-02-17 2007-08-30 Murata Mach Ltd 音声認識装置と認識方法及びそのプログラム
KR100758789B1 (ko) * 2006-05-29 2007-09-14 주식회사 케이티 멀티모달 시스템
WO2008001549A1 (fr) * 2006-06-26 2008-01-03 Murata Kikai Kabushiki Kaisha Dispositif audio interactif, procédé audio interactif, et programme correspondant
JPWO2008001549A1 (ja) * 2006-06-26 2009-11-26 村田機械株式会社 音声対話装置と音声対話方法及びそのプログラム
JP4505862B2 (ja) * 2006-06-26 2010-07-21 村田機械株式会社 音声対話装置と音声対話方法及びそのプログラム
KR100777569B1 (ko) * 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치
US8606735B2 (en) 2009-04-30 2013-12-10 Samsung Electronics Co., Ltd. Apparatus and method for predicting user's intention based on multimodal information
US9443536B2 (en) 2009-04-30 2016-09-13 Samsung Electronics Co., Ltd. Apparatus and method for detecting voice based on motion information
US9684372B2 (en) 2012-11-07 2017-06-20 Samsung Electronics Co., Ltd. System and method for human computer interaction
JP2016062550A (ja) * 2014-09-22 2016-04-25 ソフトバンク株式会社 会話処理システム及びプログラム
US10446146B2 (en) 2015-03-20 2019-10-15 Kabushiki Kaisha Toshiba Learning apparatus and method
WO2018061743A1 (ja) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 ウェアラブル端末
WO2019202804A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 音声処理装置および音声処理方法

Also Published As

Publication number Publication date
JP3375449B2 (ja) 2003-02-10

Similar Documents

Publication Publication Date Title
JP3375449B2 (ja) 統合認識対話装置
US7580835B2 (en) Question-answering method, system, and program for answering question input by speech
US6526395B1 (en) Application of personality models and interaction with synthetic characters in a computing system
Morency et al. Contextual recognition of head gestures
Nagao et al. Ubiquitous talker: Spoken language interaction with real world objects
JP2004527809A (ja) 個人のインタラクションをシミュレートする環境反応型ユーザインタフェース/エンタテインメントデバイス
US20020178005A1 (en) System and method for adaptive language understanding by computers
Fung Robots heart with
WO2017100334A1 (en) Vpa with integrated object recognition and facial expression recognition
US20050131673A1 (en) Speech translation device and computer readable medium
JP3346799B2 (ja) 手話通訳装置
JP2004513444A (ja) 個人のインタラクションをシミュレートし、関連するデータによって外部データベースを拡充するユーザインタフェース/エンタテインメントデバイス
JP2004513445A (ja) 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2004527808A (ja) 個人のインタラクションをシミュレートする自己更新式ユーザインタフェース/エンタテインメントデバイス
JP4729902B2 (ja) 音声対話システム
WO2019160100A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
WO2019160090A1 (ja) 非言語情報生成装置、方法、及びプログラム
WO2019160105A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Ghotkar et al. Dynamic hand gesture recognition and novel sentence interpretation algorithm for indian sign language using microsoft kinect sensor
Apfelbaum et al. Relative cue encoding in the context of sophisticated models of categorization: Separating information from categorization
Ballard et al. A multimodal learning interface for word acquisition
EP0585098A2 (en) Sign recognition apparatus and method and sign translation system using same
WO2019160104A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JP4244423B2 (ja) 適正単語列推定装置
Gorniak et al. Augmenting user interfaces with adaptive speech commands

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101129

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term