JP2001034292A - 単語列認識装置 - Google Patents

単語列認識装置

Info

Publication number
JP2001034292A
JP2001034292A JP11210819A JP21081999A JP2001034292A JP 2001034292 A JP2001034292 A JP 2001034292A JP 11210819 A JP11210819 A JP 11210819A JP 21081999 A JP21081999 A JP 21081999A JP 2001034292 A JP2001034292 A JP 2001034292A
Authority
JP
Japan
Prior art keywords
word string
recognition
word
topic
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11210819A
Other languages
English (en)
Inventor
Mikio Sasaki
美樹男 笹木
Katsushi Asami
克志 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP11210819A priority Critical patent/JP2001034292A/ja
Priority to US09/490,442 priority patent/US6556970B1/en
Publication of JP2001034292A publication Critical patent/JP2001034292A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】誤認識に起因し、利用者が途方に暮れてしまう
といった不都合を防止可能な単語列認識装置を提供す
る。 【解決手段】多段階処理を説明する。発話単語と単語属
性とが次のように分類されたとする。「よこはま(場
所)の ちゅうかがい(施設名)で しゅうまい(要求
対象)でも くいたい(要求キーワード)なあ」。した
がって、まず、何が要求であるかを把握するため、第1
段階では「くいたい」という要求キーワードをスポッテ
ィングし、話題を確定する。そして、第2段階では、第
1段階で確定させた話題から語彙を限定し、目的地をベ
ースとしたレストラン名と関連する料理名で100語の
大半を構成した辞書に切り替える。これは、「くいた
い」という要求キーワードから食事の要求であることが
判るため、単語列を構成する他の単語はレストラン名や
料理名となっていると予想できるからである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば音声認識に
代表される様々な信号の認識結果候補群が離散的な単語
列の集合として得られる場合に、適正な単語列を認識す
ることのできる単語列認識装置に関するものである。
【0002】
【従来の技術】従来より、例えば人間から発せられた音
声を入力し、辞書データと比較して一致度合の高い複数
の単語列候補を出力する認識装置が知られており、例え
ばその認識装置を用いて使用者の発話内容を認識し、認
識結果に応じて機器を動作させる制御システムなどに適
用されている。例えば、使用者が音声コマンドとして予
め定められた言葉を発話すると、その言葉に対応した情
報検索動作などを行う自動車用ナビゲーション装置など
が実用化されている。
【0003】
【発明が解決しようとする課題】ところで、現状の音声
認識には連続単語認識とワードスポッティングという2
つの手法がある。前者の認識手法によれば、例えば「お
かざき、○○○○○(店名)、らーめん」といった単語
毎の認識が可能であるが、実際には誤認識を避けて通る
ことはできない。そのため、現行のナビゲーション装置
などでは、認識結果として複数の候補を持ち、最初にそ
の内の1つをトークバックしてユーザに確認を求めるこ
とがなされている。ユーザは自分が発話した内容と違っ
ていれば、認識結果が違っている旨を装置に伝える。す
ると、装置側は別の認識結果を提示して再度ユーザの確
認を求める。認識結果の候補を多数準備して次々に提示
していけば、最終的にはユーザが意図した内容の認識結
果となることは可能であるが、候補の中には、全く意味
をなさない内容のものも含まれる可能性があり、上述し
た最終的に適切な候補に至るまでに長時間要してしまう
ことも考えられる。
【0004】また、後者のワードスポッティング手法
は、例えば「えーと、おかざきの○○○○○(店名)で
らーめんくいたいなあ」という日常語的な音声入力から
「おかざき、○○○○○(店名)、らーめん、くいた
い」というキーワードを抽出できるという点で近年急速
に注目されている音声認識技術である。しかしながら、
当該手法の場合には、ラティスと呼ばれるその出力(時
区間情報と確率情報を持った単語集合)から生成される
単語列候補の数は非常に多く、意味を持つ小数の単語列
に絞られることは稀である。また、当該手法における現
在の認識語彙数は100語程度であるが、将来的には1
000語以上に増大することが見込まれ、その結果とし
て発生するラティスから生成される単語列は膨大な数に
上ると考えられる。したがって、上述した連続単語列認
識手法の場合で述べたのと同様の(むしろ、より顕著
な)問題が存在する。
【0005】また、現状の音声認識技術では、雑音や音
声環境の変動などに基づく誤認識時において、正常な対
話への復帰が困難であった。例えば地名を入力したい場
合に、意図せず駅名中から選択するモードに入ってしま
うと、それ以外の地名を適切に認識してもらえなくな
る。誤認識を少なくするために絞り込みができる辞書構
造にしておくことは、ある意味では好ましく、多くの単
語認識手法において用いられているが、上述したように
意図しない認識モードに陥ってしまうと、それ以降の所
望の入力ができなくなる可能性がある。そして、そのモ
ードからエスケープする操作を知らないと正常な対話へ
の復帰が困難となり、ユーザは途方に暮れてしまうこと
もありえる。
【0006】本発明は、こうした問題に鑑みなされたも
のであり、誤認識に起因し、例えば利用者の意図しない
認識モードに陥って復帰ができず利用者が途方に暮れて
しまう、といった不都合を防止可能な単語列認識装置を
提供することを目的とする。
【0007】
【課題を解決するための手段、及び発明の効果】上記目
的を達成するため、大きく分けて以下の4つの対応処理
を提案する。それは、漸進的階層探索(請求項1〜
3)、多段階処理(請求項4〜11)、期待外時対応
(請求項12〜16)、誤認識対応(請求項17〜2
1)、辞書の動的構成(請求項22〜31)である。以
下、順番に説明する。
【0008】(1)漸進的階層探索 請求項1に記載の単語列認識装置は、単語列出力手段
が、認識対象の動作内容が反映された情報を入力し、認
識用辞書データと比較した一致度合いの高い単語列の候
補を出力する。そして、漸進的階層探索手段が、その単
語列出力手段から単語列を構成する単語が順次出力され
る毎に、その出力単語の内容に基づいて次に入力を期待
する語彙群を利用者が視認可能なように提示する。
【0009】認識対象の動作内容が反映された情報とし
ては、認識対象者から発話された音声による情報をはじ
め、他にも種々考えられる。これらについては後述する
ことにして、ここでは、この認識装置の利用者から発話
された場合、つまり音声認識装置として実現した場合を
例に挙げて説明することにする。
【0010】例えば「岡崎で食事したいなあ、インド料
理がいいね」という発話が利用者からなされた場合、ワ
ードスポッティングによる音声認識手法の出力結果は、
「岡崎、食事、インド料理」という単語列になる。従来
の音声認識手法では、これら3つが揃った段階で認識に
対応するシステム側の処理が開示されていたが、本発明
の漸進的階層探索手段によれば、「岡崎」が入力された
時点で、次に利用者に入力を期待する発話語彙を即座に
提示できるため、利用者はとまどうことなく発話でき
る。これによって、誤認識の原因となる認識辞書外の語
彙を利用者が発話してしまうことを未然に防止できる。
【0011】なお、請求項2に示すように、漸進的階層
探索手段は、単語列出力手段から1の単語が出力されて
から所定時間以上次の単語が出力されなかった場合に限
って期待語彙群を提示するようにしてもよい。つまり、
「提示できる状態にしておき」実際に提示するのは、所
定時間以上次の単語が出力されなかった場合に限るので
ある。これは、「岡崎で食事したいなあ」のように次の
単語が連続して発話されることが多いような状況では、
むしろ提示しない方がよい場合もあるからである。その
ため、上述例で言えば、岡崎の後に所定時間(例えば1
〜2秒)の無音区間があった場合に、利用者は次の語彙
入力に迷っていると推定し発話語彙群を提示するのであ
る。
【0012】また、請求項3に示すように、漸進的階層
探索手段は、単語列出力手段から出力された単語が、そ
の直前に出力された単語に対応する期待語彙群以外の単
語であった場合には、直前に出力された単語に対応する
期待語彙群を再度提示するようにしてもよい。例えば
「岡崎」に対応する期待語彙群として「食事、喫茶店、
デパート、公園、駐車場、……」が準備されていた場合
に、それらのいずれにも該当しなければ、誤認識である
として、再度「岡崎」に対応する期待語彙群を提示す
る。このようにすれば、「岡崎」という場所の入力結果
を保ったままで、認識作業を継続することができる。
【0013】(2)多段階処理 請求項4記載の単語列認識装置は、多段階処理手段が、
単語列出力手段から出力された単語列を構成する単語の
内、所定の属性を持つ単語に基づいて話題を確定し、続
いて、その確定した話題に基づく語彙に限定した認識用
辞書データを再構成し、その再構成した認識用辞書デー
タに基づいて他の単語を認識するという処理を必要なだ
け繰り返し実行する。
【0014】例えば、現状のワードスポッティング手法
では1回の処理に対する認識語彙数は100語程度であ
り、連続単語認識の辞書のような大規模化は困難であ
る。一方、実用的に見た場合、特定の話題(例えば「食
事に行く」など)にフォーカスする際には、例えば10
0語程度でも対応可能である。したがって、話題を的確
に認識し、誤認識の際は話題の不連続性を検出し、これ
らに応じてワードスポッティングの語彙を切り替えてい
けばよい。そこで、多段階処理を行う。このようにすれ
ば、利用者が途方に暮れてしまわないような単語列の認
識を、小語彙で達成できるようになり、上述のワードス
ポッティング手法を採用した場合の不都合を解消でき
る。
【0015】ところで、多段階処理手段が最初に話題を
確定するために扱う単語属性としては、例えば請求項5
に示すように、要求内容を示す属性であることが考えら
れる。利用者の発話はたいていのコンテンツ検索の場
合、『場所』『施設名』『要求対象』『要求キーワー
ド』からなるか、その並び替え、あるいは省略形で基本
形が構成されると考えられる。この内、一般的には何が
要求であるかを把握することが好ましい。それは、要求
を把握するために想定する要求キーワードが、場所や施
設名などに比較して少ない数でもよいからである。な
お、要求キーワード以外の『場所』、『施設名』又は
『要求対象』を、最初に話題を確定するための単語属性
として扱うことを否定するものではないことを付言して
おく。
【0016】なお、1の単語列中に、話題を確定するた
めに扱う所定の属性を持つ単語が複数存在する場合もあ
る。その場合は、請求項6に示すように構文位置に基づ
いていずれか1の単語を選択することが考えられる。例
えば要求キーワードを探す場合であれば、構文全体とし
て見た場合に、その構文における要求が何であるかを示
す要求キーワードが存在する可能性の高い位置というも
のが決まってくるからである。これは、自然言語とし
て、例えば文法、意味、常識などを加味すれば自ずと定
まる。
【0017】また、請求項7に示すように、話題を確定
するために扱う所定の属性を持つ単語は、所定レベル以
上の尤度を備えている場合にのみ採用することが好まし
い。例えば、最初に話題を確定するための単語属性とし
ては「要求キーワード」が好ましいことを述べたが、尤
度が低い場合にあえて要求キーワードにこだわる必要も
ない。その場合には、他の単語属性で尤度が相対的に高
いものがあれば、それを採用する方が好ましいこともあ
る。
【0018】ところで、話題に基づく語彙に限定した認
識用辞書データを再構成する上では、より適切な語彙を
選ぶことが重要になってくる。そこで、以下に示すいく
つかの考慮点が挙げられる。まず、請求項8に示すよう
に、現在の話題に連関する話題に対応する語彙について
も考慮することが考えられる。その一例を挙げれば、シ
ョッピングという話題に対して、駐車場(手段)、レス
トラン(付随する行動)、バーゲン(よくある付帯事
象)などの語彙を含めるのである。
【0019】また、請求項9に示すように、文脈の連続
性という観点から定まる語彙についても考慮してもよ
い。例えばある話題(ショッピングなど)で閉じた認識
語彙の範囲で対話が継続すると考えて、このような話題
の連続性という制約のもとで認識用辞書データの再構成
をするのである。また、発話と応答の組合せを発話対あ
るいは対話ユニットと呼ぶこととすると、この対話ユニ
ット内の妥当性という制約のものでの再構成、つまり発
話に対して妥当な応答の範囲で認識用辞書データを再構
成してもよい。さらには、対話ユニット間における接続
性についても考慮することが考えられる。
【0020】一方、請求項10に示すように、認識対象
の要求を推定する要求推定手段をさらに備え、その要求
推定手段にて推定した要求という観点から定まる語彙に
ついても考慮することが考えられる。これは、認識対象
から直接入力(音声認識であれば利用者からの発話)さ
れたものではなく、利用者の置かれている環境や状況あ
るいはユーザプロファイルなどを基に利用者の要求を推
定し、利用者の次の発話として想定される内容に対応で
きるように認識用辞書データの再構成を行うのである。
【0021】また、請求項11に示すように、話題に基
づく語彙に限定した認識用辞書データを再構成する際に
は、不連続的に発生する予測不可能な緊急事態や警告対
象となる事態に対応する語彙として予め設定した語彙を
含めてもよい。その一例として、単語列認識装置が車両
に搭載されている場合を想定する。例えばカーナビゲー
ションシステムに組み込まれている場合などである。こ
の際、突然の運転状況の変化などがここでいう「不連続
的に発生する予測不可能な緊急事態や警告の対象となる
事態」に相当する。例えば対話の最中に先行車が急停止
したので急ブレーキをかけた場合、おもわず利用者が
「あー、危なかった。」といってしまう状況は容易に考
えられる。そのため、車両に搭載するのであれば、この
ような「危ない」という意味の語彙も含めておく。
【0022】(3)期待外時対応 請求項12に記載の単語列認識装置は、期待外時対応手
段が、単語列出力手段から出力された単語列が文脈に沿
った期待通りの内容であるか否かを判断し、期待から外
れていると判断した場合は、少なくとも話題が転換され
たのかどうかを確認するための問いかけを行う話題転換
確認処理、話題が転換されたことを宣言する話題転換宣
言処理、それまでの話題が継続していると仮定して文脈
に沿った対応を行う文脈優先対応処理のいずれかを行う
のである。
【0023】なお、文脈に沿った期待通りの内容である
か否かを判断する場合には、請求項13に示すように、
単語列に付随する尤度に基づくことが考えられる。そし
て、このように尤度に基づく場合には、期待外時対応手
段が話題転換確認処理を実行する条件を次のように設定
してもよい。つまり、請求項14に示すように、単語列
出力手段から出力された単語列の候補が1つであり、且
つ単語列に付随する尤度が所定値以上であることを条件
にする。
【0024】また、期待外時対応手段が話題転換宣言処
理を実行する条件は次のように設定することが考えられ
る。つまり、請求項15に示すように、話題転換確認処
理の実行後に単語列出力手段から出力された単語列が、
その転換された話題に沿った内容であることを条件にす
る。
【0025】また、文脈優先対応処理は、上述したよう
に、それまでの話題が継続していると仮定して文脈に沿
った対応を行うのであるが、話題の継続回数に基づいて
話題の転換かどうかの判定を行い、それに応じて期待外
時対応手段が話題転換確認処理と文脈優先対応処理とを
使い分けてもよい。つまり、請求項16に示すように、
話題が転換された場合であっても、転換直後には文脈優
先対応処理を実行し、その後も転換された話題が継続し
ている場合に限って、話題転換確認処理を実行するので
ある。
【0026】このようにすることで、誤認識に起因して
利用者が途方に暮れてしまう、といった不都合を防止す
ることができる。 (4)誤認識対応 請求項17に示すように単語列認識装置は、誤認識対応
手段が、単語列出力手段から出力された単語列が所定の
否定的内容であるか否かを判断し、所定の否定的内容で
あると判断した場合は、所定の誤認識対応処理を実行す
る。
【0027】ここで、誤認識対応処理としては、請求項
18に示すように、正しい話題が何であるかを確認する
ための問い返す問い返し処理や、請求項19に示すよう
に、要求する内容に対応したキーワードを含める指示を
利用者が視覚又は聴覚にて認識可能なように提示するヘ
ルプモード処理や、請求項20に示すように、初期状態
に戻る初期化処理などであることが考えられる。
【0028】そして、請求項21に示すように、誤認識
対応手段は、正しい話題が何であるかを確認するための
問い返す問い返し処理を所定回数を超えた場合に、ヘル
プモード処理又は初期化処理を実行することが考えられ
る。このような状況においては、そのままでは問題が解
決されないことも考えられるので、単語列認識装置側が
適切に認識できるようにキーワードを含めるように指示
したり、あるいは初期状態に戻すことで、現状を打破す
るようにしている。なお、利用者の直接的な要求によっ
て、ヘルプモード処理や初期化処理を実行してもよい。
【0029】このようにすることで、誤認識に起因して
利用者が途方に暮れてしまう、といった不都合を防止す
ることができる。 (5)辞書の動的構成 上述した(2)の多段階処理においては、単語列出力手
段から出力された単語列を構成する単語の内、所定の属
性を持つ単語に基づいて話題を確定し、続いて、その確
定した話題に基づく語彙に限定した認識用辞書データを
再構成し、その再構成した認識用辞書データに基づいて
他の単語を認識するという処理を必要なだけ繰り返し実
行した。しかし、このような多段階処理を前提としなく
ても、認識用辞書データの再構成をすることは、それだ
けでも効果はある。そこで、次のような辞書構成手段を
備えるようにすることが考えられる。
【0030】まず、請求項22に示す単語列認識装置に
おける辞書構成手段は、現在の話題に連関する話題に対
応する語彙を考慮した上で認識用辞書データを再構成す
る。また、請求項23の場合の辞書構成手段は、文脈の
連続性という観点から定まる語彙を考慮した上で、認識
用辞書データを再構成する。
【0031】また、請求項24の場合は、認識対象の要
求を推定する要求推定手段を備え、辞書構成手段が、そ
の要求推定手段にて推定した要求という観点から定まる
語彙を考慮した上で、認識用辞書データを再構成する。
さらに、請求項25の場合は、辞書構成手段が、不連続
的に発生する予測不可能な緊急事態や警告対象となる事
態に対応する語彙として予め設定した語彙を含めて認識
用辞書データを再構成する。
【0032】なお、これら請求項22〜25に示した考
慮内容の具体例については、請求項8〜11において既
に説明しているのでここでは繰り返さない。請求項8〜
11では多段階処理を前提とした内容であるのに対し
て、これら請求項22〜25では多段階処理を前提とは
しないが、このような辞書の再構成のみを実行すること
によっても、適切な語彙を選ぶことができる。
【0033】そして、このような辞書の再構成をするに
あたっては、次の点を考慮することが好ましい。例え
ば、請求項26に示すように、認識対象のシステムで扱
う現実の話題に対応して予め各カテゴリ毎の語彙クラス
タに分割されて構成されるクラスタ辞書間の関係を考慮
して認識用辞書データを再構成する。例えば施設→スキ
ー場→○○○○スキー場(具体的な名称)といった関係
が得られる。
【0034】また、請求項27に示すように、単語間の
意味的関係を考慮して認識用辞書データを再構成しても
よい。この場合には、例えば請求項28に示すように、
単語間の意味的関係として単語間の包含関係を考慮した
り、請求項29に示すように、単語間の意味的関係とし
て単語間の連想関係を考慮することが考えられる。
【0035】単語間の包含関係としては、例えばスポー
ツに対して、テニス、スキー、スイミング、ジョギング
などが挙げられる。また、単語間の連想関係としては、
同一分類のオブジェクトを連想する場合(例えば、うど
んに対して麺類+ラーメン)や、シーンの構成要素を連
想する場合(例えば、ゲレンデに対してスキー、スキー
に対してリフト、スノーボード、ゴーグルなど)や、シ
ーンに関連する興味の対象を連想する場合(例えば、ス
キーに対してゲレンデ、雪質、リフトなど)や、季節か
ら代表的なシーンを連想する場合(例えば夏に対してプ
ール、海水浴、かき氷、セミ、クーラーなど)や、要求
キーワード間に基づく連想(例えば、はらへったに対し
てレストランなど)などが挙げられる。
【0036】一方、文脈の連続性という観点から定まる
語彙を考慮した上で、認識用辞書データを再構成する場
合には、請求項30に示すように、発話に対する応答の
妥当性を考慮して認識用辞書データを再構成したり、請
求項31に示すように、発話とその発話に対する応答で
構成される対話ユニット同士の関係の妥当性を考慮して
認識用辞書データを再構成することが考えられる。
【0037】ところで、これまでの説明では、漸進的階
層探索、多段階処理、期待外時対応、誤認識対応、辞書
の動的構成のいずれかを実行する単語列認識装置として
説明したが、請求項32に示すように、認識対象の動作
内容が反映された情報を入力し、認識用辞書データと比
較した一致度合いの高い単語列の候補を出力する単語列
出力手段に加えて、請求項1〜3のいずれかに記載した
漸進的階層探索手段、請求項4〜11のいずれかに記載
した多段階処理手段、請求項12〜16のいずれかに記
載した期待外時対応手段、請求項17〜21のいずれか
に記載した誤認識対応手段、請求項22〜31のいずれ
かに記載した辞書の動的構成手段の少なくとも2つを備
える構成を採用しても良い。これらは、基本的には異な
る原因で生じる誤認識を防止したり、あるいは誤認識が
発生した後の対処であり、兼ね備えることによって、よ
り適切な単語列の認識ができ、誤認識に起因して利用者
が途方に暮れてしまう、といった不都合を防止すること
ができる。
【0038】ところで、単語列認識装置に関しては、単
語列出力手段が、認識対象の動作内容が反映された情報
を入力し、認識用辞書データと比較して一致度合の高い
単語列を出力するものであるという説明をしたが、具体
的には、例えば次に示すようなものが考えられる。
【0039】まず、請求項33に示すように、認識対象
者によって入力された音声を辞書データと比較し、一致
度合の高い複数の単語列候補を出力する音声認識装置と
して実現することが考えられる。例えばカーナビゲーシ
ョンシステムにおける目的地などの指示を音声入力する
ために実用化されており、適用対象としては一般的に考
えられる。つまり、音声認識に際しては入力音声の音響
的な特徴に基づくのであるが、人間が発する音声の音響
的な特徴は個人差が大きく、また日常的には正確な発音
をしない場合も多いので誤認識が発生し易い。
【0040】また、例えば請求項34に示すように、認
識対象者によって入力された手書き文字列を認識用辞書
データと比較し、一致度合の高い単語列を出力する文字
認識装置として実現してもよい。手書き文字に関して
も、上述の音響的特徴と同様に個人差が大きく、また日
常的には正確な書体にて文字を書かない場合も多いの
で、やはり誤認識が発生し易い。
【0041】したがって、このような誤認識を防止した
り、あるいは誤認識が発生した後の適切な対処を行うこ
とによって、誤認識に起因して利用者が途方に暮れてし
まう、といった不都合を防止することができる。なお、
文字認識の形態については、種々考えられ、例えば筆記
具で書いた文字をスキャナで読み取る場合の認識はもち
ろん、PDA(携帯情報端末)などによく見られるよう
に、入力ペンにて画面上をなぞるような文字入力方法の
場合の認識であってもよい。さらには、このような音声
認識や文字認識のように、認識装置に入力される時点で
直接的に単語列の内容となっているものに限らず、画像
認識装置であってもよい。即ち、認識対象を捉えた画像
を場面として認識した上で、場面を自然言語化するため
の辞書データと認識場面を比較し、一致度合いの高い複
数の単語列候補を出力するような画像認識装置である。
その一具体例として、認識対象を人間とし、その認識対
象者が手話をしている画像から手話パターンを認識し、
その手話パターンが表す自然言語的な意味を示す単語列
を出力することが考えられる。この場合であれば、手話
パターンと単語との対応パターンが確立されているの
で、そのパターンマッチングにより自然言語的な意味を
示す単語列を出力することは容易に実現できる。但し、
この場合の手話パターンについても、微妙な指使いによ
って表す単語が異なるため、手話をする者の個人差など
によって、やはり誤認識は発生する。
【0042】したがって、やはりこの場合も、誤認識が
含まれる可能性の高い手話パターンの認識装置において
も、本発明を適用することで誤認識を防止したり、ある
いは誤認識が発生した後の適切な対処を行うことがで
き、誤認識に起因して利用者が途方に暮れてしまう、と
いった不都合を防止することができる。
【0043】また、上述した単語列認識装置における漸
進的階層探索手段、多段階処理手段、期待外時対応手
段、誤認識対応手段、辞書構成手段の実行する処理をコ
ンピュータシステムにて実現する機能は、例えば、コン
ピュータシステム側で起動するプログラムとして備える
ことができる。このようなプログラムの場合、例えば、
フロッピーディスク、光磁気ディスク、CD−ROM、
ハードディスク等のコンピュータ読み取り可能な記録媒
体に記録し、必要に応じてコンピュータシステムにロー
ドして起動することにより用いることができる。この
他、ROMやバックアップRAMをコンピュータ読み取
り可能な記録媒体として前記プログラムを記録してお
き、このROMあるいはバックアップRAMをコンピュ
ータシステムに組み込んで用いても良い。
【0044】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて説明する。まず図1は、実施形態の単
語列認識装置について機能に着目して概念的に示したブ
ロック図である。
【0045】ユーザインタフェースを介して入力され
た、音声に代表される信号は、音声認識部あるいはその
他の信号系認識部において所定の認識処理がなされ、単
語列候補を出力する。音声認識部は音声認識及び単語列
生成の機能を備えており、認識辞書(認識語彙辞書)を
用いて、ある発話に相当する音声入力に対する認識を行
い、認識辞書に登録されている単語の集まりとして単語
列候補を得る。これがここでいう音声認識機能である
が、この時点では候補となる単語が同一時刻に複数個示
される可能性がある。その後、単語列生成機能を用いる
ことで、音声認識機能によって得た単語に基づき時区間
的に重なりのない単語列を複数個生成し、対話管理手段
へ出力する。この際、単語列に付随して尤度も出力され
る。このように、1つの音声発話に対する音声認識結果
は、通常、尤度情報を伴った候補が複数個存在すること
となり、音声認識においては「湧き出し」と呼ばれる。
【0046】そして、この尤度情報を伴った単語列候補
について、対話管理手段は文脈や意味的制約情報を適用
して認識し、辞書構成手段を用いて、認識辞書を動的に
更新する。さらに、対話管理手段は、画面制御手段を介
して表示系に対する表示制御を行ったり、音声出力系、
機器制御系に対する制御を行う。
【0047】以上は、機能に着目して単語列認識装置を
概念的に示したブロック図であったが、次に、単語列認
識装置を車載の制御システムに適用した場合の構成を示
すブロック図である図2を参照して説明する。本制御シ
ステムは、自動車(車両)に搭載されて、ユーザとして
の車両の乗員(主に、運転者)と音声にて対話しなが
ら、その車両に搭載された様々な機器を制御するシステ
ムである。
【0048】図2に示すように、本実施形態の制御シス
テムは、制御装置1と、使用者が各種の指令やデータな
どを外部操作によって入力するための入力装置3と、音
声を入力するためのマイクロフォン5と、音声を出力す
るためのスピーカ7と、画像を表示するためのディスプ
レイ(表示装置)8と、車両の現在位置(現在地)の検
出や経路案内などを行う周知のナビゲーション装置9
と、車内の空調を制御するエアコン装置13と、カセッ
トテープレコーダ,CD(コンパクトディスク)プレー
ヤ,MD(ミニディスク)プレーヤ,ラジオ,及びテレ
ビなどからなるオーディオ装置15と、周知のVICS
(Vehicle Information and Communication System)の
放送端末や、インターネットとの接続窓口であるインタ
ーネット放送端末との間で無線によりデータ通信を行う
通信装置17と、車速や加減速状態などの車両運転状
態,車両内外の温度,及び雨滴の有無などを検出するた
めの各種センサ19と、車両のドアロック,窓ガラス
(パワーウィンドウ),エンジン,及びブレーキ装置な
どを制御する他の制御装置(図示省略)とが接続されて
構成されている。
【0049】尚、ナビゲーション装置9は、車両の現在
位置を検出するための周知のGPS装置や、地図デー
タ,地名データ,施設名データなどの経路案内用データ
を記憶したCD−ROM、そのCD−ROMからデータ
を読み出すためのCD−ROMドライブ、及び、使用者
が指令を入力するための操作キーなどを備えている。そ
して、ナビゲーション装置9は、例えば、使用者から操
作キーを介して、目的地と目的地までの経路案内を指示
する指令とが入力されると、車両の現在位置と目的地へ
至るのに最適な経路とを含む道路地図を、ディスプレイ
8に表示させて経路案内を行う。また、ディスプレイ8
には、ナビゲーション装置9によって経路案内用の道路
地図が表示されるだけでなく、情報検索用メニューなど
の様々な画像が表示され、さらに、オーディオ装置15
がテレビのモードに設定されると、そのオーディオ装置
15に備えられたテレビチューナにより受信されたテレ
ビの受信画像が表示される。
【0050】そして、制御装置1は、CPU,ROM,
及びRAMなどからなるマイクロコンピュータを中心に
構成されたシステム制御部21と、システム制御部21
に入力装置3からの指令やデータを入力するインタフェ
ース(I/F)23と、マイクロフォン5から入力され
た音声信号をデジタルデータに変換してシステム制御部
21に入力する音声入力部25と、システム制御部21
から出力されたテキストデータをアナログの音声信号に
変換してスピーカ7に出力し、スピーカ7を鳴動させる
音声合成部27と、ディスプレイ8への表示画面の制御
を行う画面制御部28と、上記ナビゲーション装置9,
エアコン装置13,オーディオ装置15,通信装置1
7,各種センサ19,及び他の制御装置とシステム制御
部21とをデータ通信可能に接続する機器制御インタフ
ェース(機器制御I/F)29とを備えている。
【0051】また、制御装置1には、通信装置17によ
りインターネットから所望の情報を検索及び取得するた
めに、インターネットのアドレス(インターネットアド
レス)を記憶するインターネットアドレスデータベース
31と、検索制御部33とが備えられている。そして、
システム制御部21が、検索制御部33へ検索内容(コ
ンテンツ)を表す検索キーワードを出力すると、検索制
御部33は、機器制御I/F29を介し通信装置17を
動作させて、インターネット放送端末から上記検索キー
ワードに対応した情報を検索し、その検索結果をシステ
ム制御部21へ入力させる。また、インターネットアド
レスデータベース31には、検索制御部33によって過
去に用いられたインターネットアドレスが、システム制
御部21からの指令によって記憶され、検索制御部33
は、システム制御部21から過去に入力した検索キーワ
ードと同じ検索キーワードを受けると、インターネット
アドレスデータベース31内のインターネットアドレス
を再利用する。
【0052】一方また、制御装置1は、マイクロフォン
5及び音声入力部25を介して入力される音声信号か
ら、使用者が発話した言葉としてのキーワード(以下、
発話キーワードともいう)を認識して取得するために、
使用者が発話すると想定され且つ当該制御装置1が認識
すべき複数の認識語彙を予め記憶した認識語彙記憶部3
4を備えている。つまり、この認識語彙記憶部34に記
憶されている認識語彙群が、当該制御装置1の認識語彙
データベースとなっている。
【0053】またさらに、制御装置1は、スピーカ7か
ら出力する発話(以下、エージェント発話ともいう)の
内容(即ち、スピーカ7の動作内容)とスピーカ7以外
の他の機器Mの動作内容とを設定するため、及び、使用
者の要求と使用者の精神的或いは肉体的な状態とを推定
するためのデータを記憶する手段として、対話データベ
ースを記憶する対話データ記憶部35と、要求・状態推
定用データを記憶する要求・状態推定用データ記憶部3
6と、使用者の複数人分の個人情報(以下、ユーザプロ
ファイルともいう)を記憶するユーザプロファイル記憶
部37とを備えている。尚、この対話データ記憶部3
5,要求・状態推定用データ記憶部36,及びユーザプ
ロファイル記憶部37と、前述したインターネットアド
レスデータベース31は、データの読み出しと書き込み
とが可能な不揮発性メモリによって構成されている。
【0054】なお、対話データ記憶部35に記憶される
対話データベース、要求・状態推定用データ記憶部36
に記憶される要求・状態推定用データ、ユーザプロファ
イル記憶部37に記憶されるユーザプロファイルなどに
ついては、例えば特願平10−162457号、特願平
10−184840号などを参照されたい。
【0055】次に、以上のように構成された本実施形態
の制御システムにおいて、システム制御部21で実行さ
れる処理の概要を図3を用いて説明する。なお、ここで
は、図1で言えば音声認識部にて認識処理を行い、対話
管理手段がその認識結果である単語列候補に対して所定
の処理を行う「単語列の認識」にかかわる処理について
説明する。
【0056】処理が開始されると、入力された音声に対
して認識処理を行う(S10)。そして、S20での判
断結果に基づき、「入力待ち」であると判断してS10
へ戻るか、多段階処理(S30)を行うか、認識完了又
はタイムアウトであると判断してS40へ移行する。S
30での多段階処理の詳細については、後述する。
【0057】S40での対話管理に移行した後は、期待
外の応答であるかどうかを判断し(S50)、期待外の
応答であればS60へ移行し、期待外の応答の種類を判
別する。その判別結果に応じて、話題転換の確認(S7
0)、話題転換後の発話(S80)、文脈優先の発話
(S90)のいずれかを実行する。その後、発話処理
(S180)を経て、S10へ戻る。
【0058】一方、S50にて期待外の応答ではない
(つまり期待に沿った応答である)と判断された場合
は、S100へ移行する。S100での判断処理におい
て、エージェントからの問い返し回数がN回を超えたと
判断された場合は、ヘルプモード処理を実行する(S1
20)、また、S100での判断処理において、エージ
ェントからの問い返し回数がK回(K>N)を超えた場
合、又はユーザからのリセット要求があった場合は、S
170へ移行して 初期状態に戻る。そして、これら以
外の場合、すなわち、エージェントからの問い返し回数
がN回以下の場合には、S110での判断結果に基づ
き、ディスプレイ8に選択肢を提示する処理(S13
0)、通常の発話戦略(S140)、音声メニューモー
ド(S150)又は問い返し(S160)のいずれかの
処理を選択的に実行する。これらの詳細については後述
する。
【0059】S120〜S170のいずれかの処理が実
行された後は、発話処理(S180)を経て、S10へ
戻る。以上は、処理の概略的な流れの説明であったの
で、続いて詳細内容を説明していく。但しここでは、漸
進的階層探索、多段階処理、期待外時対応処理、誤認識
対応処理という本発明の概念単位の順番に説明すること
にする。但し、説明の都合上、期待外時対応処理と誤認
識対応処理については、[3.誤認識対応処理につい
て]としてまとめ、その中で区別して説明している。 [1.漸進的階層探索について] [1.1 概要]漸進的階層探索は、図3のフローチャ
ート中では、S130の選択肢を提示する処理に相当す
る。但し、1単語ずつ処理するために他の処理とは時間
サイクルが異なるため、事前に漸進的階層探索を実行す
るモードに設定しておく必要がある。したがって、漸進
的階層探索モードに設定されている場合に限り、図3の
S130は実行されることとなる。
【0060】[1.2 具体例]図4には漸進的階層探
索の具体的な画面遷移例を示す。 (1)図4の最初の画面G1では、デフォルトモードに
おいて東海4県の県名が表示されている状態において
「愛知県」と発話した結果、愛知県にフォーカスされた
ことを示している。
【0061】そして、制御システム側は、愛知県という
単語を認識した時点で「漸進的階層探索」機能を発揮し
て、次にユーザに期待する発話語彙を即座に画面に提示
する。この場合は、画面G2のように愛知県内の市町村
名を表示する。なお、画面G2では4つの市町村名しか
挙げていないが、これは説明を簡単にするためのもので
ある。なお、画面G2は、利用者が「岡崎」と発話した
結果、岡崎にフォーカスされたことを示している。
【0062】そして、制御システム側は、岡崎が入力さ
れた時点で「漸進的階層探索」機能を発揮して、次にユ
ーザに期待する発話語彙を画面に提示できる状態にして
おく。ここで「提示できる状態にしておく」としたの
は、実際には、「岡崎で食事したいなあ」のように次の
単語が連続して発話されることが多いので、実用上は提
示しないからである。提示するのは、岡崎の後に所定時
間(例えば1〜2秒)の無音区間があった場合には、ユ
ーザが迷っていると推定し、発話語彙を画面提示する。
つまり「岡崎の要求メニュー」である。その内容は、誤
認識時に用いる画面G7の岡崎の要求メニューの内の
「もう一度お話下さい」を除いた部分となる。画面G3
が表示された状態で「インド料理がいいね。」と発話さ
れると、画面G4に示すようにインド料理にフォーカス
され、画面G5に示すように、「愛知県岡崎市インド料
理 検索しています」という表示し、検索が終了する
と、画面G6に示すように、その検索結果を表示する。
【0063】一方、画面G2に示す岡崎が発話された時
点で次に発話を期待する語彙以外の語彙が発話された場
合には、画面G7へ移行して「岡崎の要求メニュー」と
共に「もう一度お話下さい」という案内を加えた内容を
表示する。ここで、「食事」と発話されれば画面G3へ
移行し、「デパートは?」と発話されれば、画面G8に
示すように、該当するデパートを一覧表示する。そし
て、その内のいずれかが指定されて「△△△の地図」と
発話されると、画面G9に示すように、そのデパートの
位置が明確になるように、周辺の地図と共に表示する。
【0064】(2)図5も漸進的階層探索の一例であ
る。図5の画面G1〜G3は図4にて示した画面内容と
同じであるが、デフォルトモードにおいて東海4県の県
名が表示されている状態において「東京」と発話する
と、画面G11へ移行する。この場合、東京といっても
東京都のみを指すのではない場合もあるので、東京都周
辺を対象としてもよい。
【0065】そして、制御システム側は、東京という単
語を認識した時点で「漸進的階層探索」機能を発揮し
て、次にユーザに期待する発話語彙を即座に画面に提示
する。この場合は、画面G12に示すように東京都内の
市区町村名を画面表示する。そして、銀座と発話した時
点で銀座にフォーカスする。
【0066】そして、制御システム側は、銀座という単
語を認識した時点で「漸進的階層探索」機能を発揮し
て、次にユーザに期待する発話語彙を画面に提示できる
状態にしておく。ここで「提示できる状態にしておく」
としたのは、上述の画面G2→G3へ移行する部分と同
様に、実際には、「銀座、○○○ビル」のように次の単
語が連続して発話されることが多いので、実用上は提示
しないからである。提示するのは、銀座の後に所定時間
(例えば1〜2秒)の無音区間があった場合である。画
面に提示する発話語彙は、銀座内の地名関連情報であ
る。例えば地名そのものでもよいし、使い勝手の面から
言えば、○○○ビルや□□デパートのような施設名でも
よい。
【0067】そして、利用者から例えば○○ビルと発話
されると、画面G13に示すように、その○○○ビルの
位置が明確になるように、周辺の地図と共に表示する。 [1.3 効果]例えば「岡崎で食事したいなあ、イン
ド料理がいいね」という発話が利用者からなされた場
合、ワードスポッティングによる音声認識手法の出力結
果は、「岡崎、食事、インド料理」という単語列にな
る。従来の音声認識手法では、これら3つが揃った段階
で認識に対応するシステム側の処理が開示されていた
が、本手法によれば、「岡崎」が入力された時点で、次
に利用者に入力を期待する発話語彙を即座に提示できる
ため、利用者はとまどうことなく発話できるようにな
る。これによって、誤認識の原因となる認識辞書外の語
彙を利用者が発話してしまうことを未然に防止できる。 [2.多段階処理について] [2.1 概要] (1)現状のワードスポッティング手法では1回の処理
に対する認識語彙数は100語程度であり、連続単語認
識の辞書のような大規模化は困難である。一方、実用的
に見た場合、車室内において発生すると想定される特定
の話題(例えば「食事に行く」など)にフォーカスする
際には、例えば100語程度でも対応可能である。した
がって、話題を的確に認識し、誤認識の際は話題の不連
続性を検出し、これらに応じてワードスポッティングの
語彙を切り替えていけばよい。そこで、多段階処理を行
う。
【0068】図6には、「よこはまのちゅうかがいでし
ゅうまいでもくいたいなあ」という発話がなされた場合
に行う多段階処理の一例を示した。なお、本発話例で
は、以下のような単語属性に分類できるものとする。 よこはまの ちゅうかがいで しゅうまいでも くいたいなあ (場所) (施設名) (要求対象) (要求キーワード) したがって、まず、何が要求であるかを把握するため、
第1段階では「くいたい」という要求キーワードをスポ
ッティングし、話題を確定する。
【0069】そして、第2段階では、第1段階で確定さ
せた話題から語彙を限定し、辞書を切り替える。すなわ
ち、この場合には、目的地をベースとしたレストラン名
と関連する料理名で100語の大半を構成する。これ
は、「くいたい」という要求キーワードから食事の要求
であることが判るため、単語列を構成する他の単語はレ
ストラン名や料理名となっていると予想できるからであ
る。これにより、「ちゅうかがい」や「しゅうまい」な
どが認識語彙としてヒットし易い辞書を構成することが
できる。
【0070】(2)なお、図6では第1段階の処理とし
て要求キーワードをスポッティングして話題を確定して
いるが、それ以外の施設名や場所、あるいは要求対象を
スポッティングして話題を確定してもよい。但し、現実
的には、ワードスポッティングの語彙数は現状では10
0語程度であるので、その程度の語彙でまかなうことを
鑑みると、要求キーワードでの話題確定が好ましい。
【0071】(3)また、図6で示した具体例は、1の
単語列を構成する単語の属性という観点からn次元の軸
を設定したが、さらに時間軸に沿った関連性を考慮して
も良い。つまり、文脈という観点も加味して話題を確定
するのである。 [2.2 ユーザ発話の基本構成]ユーザの発話はたい
ていのコンテンツ検索の場合、『場所』『施設名』『要
求対象』『要求キーワード』からなるか、その並び替
え、あるいは省略形で基本形が構成されると考えられ
る。語順が変わる場合には要求キーワードが音声信号中
のどこに存在するかは不明であるが、例えば本願出願人
が特願平11−20349号にて提案したような適正単
語列の推定手法を用いることにより、構文的な制約に基
づいて複数の候補に対して優先順序を定めることはでき
る。
【0072】[2.3 認識辞書の構成]認識辞書は図
2に示す認識語彙記憶部34に記憶されている認識語彙
データベースから動的に構成し得るものとする。認識語
彙データベースは、システムで扱う現実の話題に対応し
て予め各カテゴリ毎の語彙クラスタに分割しておく(図
7参照)。なお、この各カテゴリ毎の語彙クラスタはク
ラスタ辞書と呼ばれる。また、カテゴリには例えば下記
のような種類がある。
【0073】(1)各種コマンド ・ナビコマンド ・スケジュール帳 ・アドレス帳 ・電話 (2)要求キーワード(要求KW) (3)施設名 レストラン名 ・料理名 ・雰囲気 ・値段 スキー場名 ゴルフ場名 デパート名 遊園地名 公園名 映画館名 温泉 (4)イベント名 (5)検索結果 (6)地名 (7)鉄道駅名 (8)基本的な対話語彙 ・肯定、否定 ・問い合わせ ・説明、状況通知、確認、…… これらの構成語彙にはデータベースの要素となる固有名
詞のみならず、対話上の同義語(はらへった、ごはんた
べたい、etc)も含まれる。この各々からここでは1
回のワードスポッティングの語彙即ち、目的地をべース
としたレストラン名と関連する料理名(ここではユーザ
プロファイルも参照する)で100語の大半を構成す
る。これをもとに『中華街』や『しゅうまい』などが認
識語彙としてヒットする。
【0074】[2.4 単語間のネットワーク]辞書の
基本構造は上記の階層表現に準じて定義するが、その他
の意味的関係などのネットワーク関係は随時、ユーザや
データベース供給者から提供される。例えば、ユーザ発
話は下記のような属性の組(対話べクトルと呼ぶ)の集
まりである対話データベース(図8)の中で位置づけら
れる。
【0075】(話題、時間・位置、環境・状況、状態・
要求、ユーザ発話、エージェント発話、制御出力)対話
ベクトルは無数に存在しうるが、あらゆるベクトル値を
取るわけではなく、人間と機械との間の実際的なコミュ
ニケーションの単位として、意味のある有限個のまとま
りにクラスタリングできる。そこには単語の意味的な分
類、文法的制約、話題の連続性、物理的・常識的制約、
事象の連続性などが用いられる。したがって、 (A)あるユーザ発話を構成する単語列に用いられる語
彙の範囲 (B)現在の発話から次の発話に至る際の語彙の制約 は対話ベクトルが張る空間を構成する主要因となる(話
題、時間・位置、環境・状況、状態・要求)に大きく影
響される。
【0076】そこで、あるユーザ発話における単語が他
の単語に対してどういうネットワーク構造になるかは下
記の要因で決定する。 (1)クラスタ辞書間の関係 (2)単語間の関係 (3)話題間の関係 (4)文脈の連続性 (5)ユーザの特性や状況 (6)アプリケーション間 以上の関係に基づいてある単語W1から別の単語W2が
活性化され、これを次のユーザ発話に対する認識辞書の
語彙に加える。さらに、認識結果に付随する尤度値LF
Kを高めるように音声認識モジュールのパラメータを調
整する。ここで、(1)クラスタ辞書間の関係、(2)
単語間の関係、(3)話題間の関係、(4)文脈の連続
性、(5)ユーザの特性や状況に関して補足説明する。
【0077】[2.4.1 クラスタ辞書間の関係]基
本的には、上述した[2.3]辞書の構成で述べた関係
に準ずる。 (例)施設→スキー場→おんたけスキー場 [2.4.2 単語間の意味的関係] [2.4.2.1 包含関係] (例)中華料理→シュウマイ、ラーメン、ギョーザ、…
… (例)スポーツ→テニス、スキー、スイミング、ジョギ
ング、…… [2.4.2.2 連想関係] (1)同一分類のオブジェクトを連想する場合 (例)うどん→麺類+ラーメン (2)シーンの構成要素を連想する場合 (例)ゲレンデ→スキー→リフト、スノーボード、ゴー
グル、…… (例)ゴルフ→ゴルフ場→ホール、キャデイ、フェアウ
ェイ、クラブ…… (例)海辺→海水浴→水着、ビーチパラソル、青い空、
白い雲、…… (3)シーンに関連する興味の対象を連想する場合 (例)スキー→ゲレンデ、雪質、リフト…… (例)ゴルフ→天気、経路、費用、スコア、…… (4)季節から代表的なシーンを連想する場合 (例)夏→プール、海水浴、かき氷、セミ、クーラー、
…… (5)要求キーワード間に基づく連想 (例)はらへった→レストラン [2.4.3 話題間の関係]現在の話題に連関した話
題のキーワードを活性化することにより、認識語彙を設
定することができる。その連関のカテゴリは手段、付随
する行動、よくある付帯事象、などがある。
【0078】(例)ショッピング→駐車場(手段)、レ
ストラン(付随する行動)、バーゲン(付帯事象)…… [2.4.4 文脈の連続性] [2.4.4.1 話題の連続性]通常の自然な対話に
見られるように、ある話題(たとえばショッピングな
ど)で閉じた認識語彙の範囲で対話が継続することが考
えられる。このような話題の連続性という制約のもとで
認識語彙を設定することができる。
【0079】[2.4.4.2 発話−応答の妥当性]
車室内に代表される対話環境では、ある発話内容(ユー
ザもしくはエージェントによる)は、{呼びかけ、申
告、通知、教示、解説、指示、依頼、警告、督促、問い
合わせ}のいずれかに分類できると考えることができ
る。一方、この発話に対する応答は、{応答、確認、保
留、判断、回答、その他応答}に分類できる。この発話
と応答の組み合わせを発話対、あるいは対話ユニットと
呼ぶ。この対話ユニットに基づいて話題の内容によら
ず、文脈の論理的な連続性を定義することができる。図
9中に「○」で示した部分は対話ユニットとして成立す
る発話−応答の組み合わせを示す。この対話ユニットを
もとにしてエージェントは次のユーザ発話に含まれる認
識語彙を予想して設定することができる。
【0080】以下、発話内容と、この発話に対する応答
の具体例について説明する。なお、ユーザの発話につい
ては「…」で示し、エージェントの発話については
『…』で示す。 (1)呼びかけ 一般的な意味での呼びかけや挨拶などがこれに含まれ
る。
【0081】(例) 呼びかけ:「おい、XYZ。」 返事 :『はい、何ですか。』 (例) 呼びかけ:『おはようございます、今日はいい天気です
ね。』 返事 :「ああ、おはよう。」 (2)申告 (例) 申告:「今日は家族とドライブ。」 確認:『御家族とドライブですね。』 (3)通知 (例) 通知 :『およそlkm先、渋滞です。』 無応答:「」、又は 確認 :「わかった。」 (例) 通知:『私の名前はXYZです。』 確認:「OK。」、「よろしく。」 (4)教示 (例) 教示:「今、雨が降ってきた。」 確認:『“現在、雨が降っている”というメッセージを
確認しました。』 (5)解説 (例) 解説 :『操作方法がわからないときはへルプといって
ください。』 無応答:「」 (6)指示 (例) 指示:『ユーザパスワードをしゃべってください。』 確認:「わかった。 xxxxx」 (7)依頼 (例) 依頼:『そろそろガソリンが少なくなってきました。次
の交差点のガソリンスタンドで給油していただけません
か?』 保留:「いや、あとにしよう。」 (8)警告 (例) 警告:『10km先、○○トンネルで事故発生。次のイ
ンターで降りてください。』 判断:「わかった、そうしよう。」 (9)督促 (例) 督促:『ユーザ名がまだ登録されていません。すぐに登
録してください。』 確認:「わかった。」 (10)問い合わせ 問い合わせには次の4種類がある。
【0082】合意要請 (例):『御出にならないので電話接続を中止します。
よろしいですか?』 選択要請 (例)問い合わせ:『Aですか? Bですか?』 回答 :「Aです。」 問い合わせ 場所、時間、情報など特定データの問い合わせをするユ
ニットである。
【0083】(例)問い合わせ:「○○○○スキー場の
積雪情報はどうなっている?」 (例)問い合わせ:『これからどちらへいかれますか
?』 話題の確認 文脈から外れた突然の話題遷移が発生したことをユーザ
に確認する。
【0084】(例):「12時に岡崎にいく。」「ねむ
い。」 問い合わせ:『”ねむい”と聞こえましたけど、岡崎の
話はどうなりましたか?』 [2.4・4・3 対話ユニット間の接続性]上記の
対話ユニット内の呼応関係のみならず、対話ユニット間
の接続(話題の遷移や呼び出し、終了を含む)の妥当性
に関する制約も認識語彙の設定において考慮することが
できる。
【0085】[2.4.5 ユーザの特性や状況]ユー
ザ発話に付随するユーザの環境・状況・要求・状態、ユ
ーザプロファイルに基づいて次のユーザ発話に対応でき
る認識辞書を設定する。この場合、必ずしも上述の文脈
の連続性が保たれるとは限らない。
【0086】(1)自然な要求推定 例えば本願出願人が特願平10−184840号にて提
案したような要求推定装置に基づくと共に、図2に示す
要求・状態推定用データ記憶部36に記憶された要求・
状態推定用データを参照し、ユーザの環境・状況・要求
・状態、ユーザプロファイルから次の認識語彙を限定す
る。
【0087】(2)突然の運転状況の変化 不連続的に発生する予測不可能な緊急事態や警告の対象
となる事態に際して、文脈の連続性を一時停止し、事態
に必要な話題を割り込ませるべく認識語彙辞書を設定す
る。
【0088】(例) エージェント:これからどうなさいますか?』 ユーザ :「○○駅前で買い物」 エージェント:『到着時刻は11時ごろです。駐車場は
どこにしますか?』 (先行車が急停止したので急ブレーキをかけた) ユーザ :「あー、危なかった。」 エージェント:『危なかったですね、安全運転にこころ
がけてください。お疲れならば休みますか?』 (3)システムの機能移行 機能が切り替わったときにシステムが発話し、必要な対
話を開始するべく認識語彙を設定する。
【0089】[2・5 多段階処理の具体例]多段階処
理の具体例を、図10,11のフローチャートを参照し
て説明する。ここでは、まず使用頻度の高いローカル情
報を優先するかどうかを判断して(S210)、認識処
理を2つにわける。なお、分岐条件はこれ以外にも考え
られ、対話戦略に依存する。
【0090】ローカル優先の場合は(S210:YE
S)、代表的な場所、施設名、要求キーワード、要求関
連属性でN語の辞書を構成し、ワードスポッティングを
かけ(S220)、要求キーワードの尤度を構文評価で
補正する(S230)。そして、キーワード属性の重み
付けによって尤度を補正し(S240)、単語列の順序
付け(S250)を行う。その後、認識完了した音声区
間を次回の認識対象から外し(S360)、全音声区間
を認識完了していなければ(S370:NO)、不足す
る属性の語彙を追加して辞書更新の準備をしてから(S
380)、S210へ戻る。
【0091】なお、この場合はS220〜S250がロ
ーカル優先の場合の処理であり、この処理は「多段階処
理」ではない。そして、このローカル優先の場合の処理
によれば、1回の認識ですべての音声区間を処理可能で
あり、認識時間も少ないが、検索対象が例えば100語
に収まるように限られるため、日常的な要求から外れた
発話の場合は誤認識になる確率が高くなる。
【0092】一方、ローカル優先でない場合、すなわち
要求を優先する場合は(S210:NO)、まず、1回
目の認識か否かを判断し(S260)、1回目の認識で
あれば(S260:YES)、認識属性を要求キーワー
ドに設定して(S270)、S280へ移行する。2回
目以降の認識であれば(S260:NO)、S270の
処理は実行せずS280へ移行する。S280では、認
識属性のキーワードを多く含む単語セットを構成し、そ
の構成された単語セットを用いてワードスポッティング
を実行する(S290)。
【0093】その後、要求キーワードの尤度が所定値
(ここでは一例として0.6とする。)以上かどうかを
判断し(S300)、要求キーワードが0.6以上の尤
度を持っていれば(S300:YES)、S310へ移
行する。S310では、同一属性の単語が複数ある場合
は構文位置を優先する。つまり、これで要求キーワード
に基づく要求が確定し、続くS320においては、ヒッ
トしたキーワードに対応する属性を次回の認識語彙に設
定する。その後は、認識完了した音声区間を次回の認識
対象から外し(S360)、全音声区間を認識完了して
いなければ(S370:NO)、不足する属性の語彙を
追加して辞書更新の準備をしてから(S380)、S2
10へ戻る。
【0094】一方、要求キーワードの尤度が0.6未満
の場合は(S300:NO)、S330へ移行し、他の
属性で尤度が0.6以上の単語があるか否かを判断す
る。そして、尤度が0.6以上の単語があれば(S33
0:YES)、その中で最も尤度が高い単語を認識属性
とし、その認識属性のキーワードを多く含む単語セット
を構成してワードスポッティングを実行する(S34
0)。しかし、尤度が0.6以上の単語がなければ(S
330:NO)、場所、施設名、要求関連属性でN語の
辞書を構成し、ワードスポッティングを実行する(S3
50)。S340,S350の処理後は、認識完了した
音声区間を次回の認識対象から外し(S360)、上述
したとおり、全音声区間を認識完了していなければ(S
370:NO)、不足する属性の語彙を追加して辞書更
新の準備をしてから(S380)、S210へ戻る。
【0095】一方、全音声区間を認識完了していれば
(S370:YES)、単語列の推定をし(図11のS
390)、エコーバックして(S400)、不足条件を
問い合わせる発話を行う(S410)。その後、ユーザ
の応答が否定的発話(例えば、違う、そうじゃない、な
ど)かどうかを判断し、否定的発話でなければ(S42
0:NO)、不足する属性の語彙を追加して辞書更新の
準備をしてから(S430)、図10のS210へ戻
る。一方、否定的発話であれば(S420:YES)、
S440〜S470の誤認識対応処理を実行する。
【0096】具体的には、S440にてモード設定に基
づいて分岐し、連続単語認識に切り替えてユーザに発話
方法を指示するか(S450)、ヘルプモードとして要
求キーワードを入れるようユーザに指示する(S46
0)、漸進的階層探索として認識可能な語彙を表示する
か(S470)、のいずれかを実行する。その後は、不
足する属性の語彙を追加して辞書更新の準備をしてから
(S480)、図10のS210へ戻る。
【0097】このような処理を、例えば「えーと、あん
じょうでらーめんをくいたい」といったユーザ発話音声
に対して実行した場合について説明する。まず、音声区
間から要求キーワード(くいたい、など)を優先的に検
出する。このために、認識語彙も要求キーワードを多く
含む(要求の種類や同一要求に対する同義語・類義語・
連想語を充実させる)構成にする。しかし、この要求優
先の場合、1回のワードスポッティングでは認識が完了
しない。したがって、図6に示したように要求キーワー
ドが確定(食事関連)した後に次の施設名や要求対象を
それぞれ1回のワードスポッティングに対応させて認識
を繰り返し、すべての音声区間を認識終了した時点で単
語列推定を駆動させて単語列認識結果を絞り込む。な
お、この単語列認識結果の絞り込みの詳細については、
例えば特願平11−20349号を参照されたい。
【0098】これをもとにシステムは「あんじょうでら
ーめんをたべるんですね」といったエコーバックの発話
を行い(S400)、論理的発話戦略の駆動により不足
条件を問い合わせる発話(S410)として「あんじょ
うには3けんらーめんやがあります。みせはどこにしま
すか?」と発話する。これに対してユーザは、まったく
異なる発話「○○でれいぞうこをかいたい」と発してい
たとすると、上述のエコーバック結果に対しては否定的
応答(「ぜんぜん違う」など)を発話する(S420:
YES)。したがってその場合は誤認識対応処理(S4
40〜S470)が駆動される。
【0099】一方、否定的応答がなされない場合(S4
20:NO)、ユーザとの問で正しく対話がなされてい
るとエージェントは解釈し、次にユーザが発話すると期
待されるキーワード群(いっけんめ」、「すしやにかえ
て」など)を認識語彙辞書に設定して(S430)、ユ
ーザの発話を待つ。
【0100】[3.誤認識対応処理について]音声認識
部から出力される認識語彙の尤度判定と語彙限定、ユー
ザからのへルプ要求、画面表示の支援に基づく入力の簡
単化(スイッチ操作の併用)、不足条件の判定、サービ
ス内容の有機的連関付けなどに基づきへルプ、選択肢の
提示、初期化、問いかけを駆動する。
【0101】[3.1 誤認識の検出]エージェントが
ユーザ発話を認識できていない状況は誤認識であり、以
下のケースがある。 どの認識辞書にもない言葉をユーザが発話 他の辞書にはあるが、現在使っている辞書にない言葉
をユーザが発話 ユーザ以外の話者の発話内容に応答し、ユーザの意図
に反してモード移行 このような状況は、エージェントの応答に対してユーザ
が「ちがう」、「わかってないね」、「全然だめ」とい
った発話をすることで検出される。この場合、下記のい
ずれかの対話内容をユーザの状況に応じて選択する。
【0102】(1)音声メニューモード (2)選択肢を出す なお、例えば「ちがう」などの発話がユーザからK回以
上繰り返されたときは初期状態に戻る。Kは例えば5と
する。
【0103】[3.1.1 期待外の応答であることの
検出 認識語に付随する尤度のしきい値処理に基づき、尤度が
低い場合は音声認識の信頼度が低いため認識語彙以外の
発話がなされたとして、[誤認識の可能性有り]と判定
する。
【0104】[3.2 話題転換の検出]ユーザ発話が
エージェントの期待から外れているかどうかはそれまで
の文脈に沿っているかどうか、即ちある話題の中で予想
される発話かどうかで判定する。予想される発話は
「2.4単語間のネットワーク」で示した単語間の関係
をもとにして導出され、これに対応する語彙を認識辞書
に設定する。これを便宜上ケースAと呼ぶ。それ以外の
場合は、予想されない発話であり、それを構成する単語
は下記のように分類できる。
【0105】(B1)認識語彙辞書に登録されていない
単語 (B2)認識語彙辞書に登録されているが、違う話題の
単語 (B2a)現在の認識語彙範囲に含まれている単語 (B2b)現在の認識語彙範囲に含まれていない単語 このうち、(B1)と(B2b)は通常のワードスポッ
ティングでは認識され得ないため、不用語とみなされる
かあるいは信号処理的に近いとみなされる他の認識可能
語彙に置き換えられて出力される。これらは後述の誤認
認処理で対応する。
【0106】一方、(A)と(B2a)については以下
の3つの処理形態で対応する。 (1)文脈優先処理[(A)の場合] 出力された複数の認識候補(ラティス)間に尤度の差異
があまり認められない(分散が小さい)とき、文脈に沿
った認識候補が優先して選ばれる。
【0107】(2)突然の話題の遷移(話題転換)
[(B2a)の場合] 出力した認識候補が1個であり、ある一定しきい値以上
の尤度を持つ場合、この話題に突然遷移したことを認め
る。 (3)突然の話題の遷移の確認[(B2a)の場合] 出力した認識候補が1個であるが、ある一定しきい値以
上には満たない尤度を持つ場合、この話題に突然遷移し
たのかどうかを確認するため、ユーザに問い合わせる。
【0108】[3.2.1 話題転換の検出]現在の話
題とは異なる要求キーワードが認識された場合には話題
が転換した可能性があるとみなす。 [3.2.2 話題転換の確認]上記に基づき、システ
ムはユーザに対して話題が転換したことを確認する問い
かけの発話を生成する。
【0109】(例) エージェント『□□駅前には3件のラーメン屋がありま
す。』 ユーザ 「東京の○○さんに電話をかける」 エージェント『電話をかけますか?』 ユーザ 「うん。東京の○○さんに」 エージェント『東京の○○さんに電話をかけます』 [3.2.3 話題転換の発話]話題が転換したことを
宣言する発話を生成する(上記例参照)。
【0110】[3.3 文脈優先の発話]それまでの話
題T(n)(n:発話対の通し番号)が継続していると仮
定し、次回のエージェント発話もその話題に基づいて生
成する。従って、今回のユーザ発話の解釈結果U(n)が
話題T(n)に関連しない語彙であっても、それに即応せ
ずに、話題T(n)からの文脈に沿って発話内容に限定処
理を加える。
【0111】 (例) エージェント『○○駅前には3件のラーメン屋があります。』 ・・・・・・・・・・・・・・・・・・・{T(n)=食事} ユーザ 「あっ、電話かけなきゃ。」 ・・・・・・・・・・・・・・・・・・・{「電話」が認識され ればTnew=電話だが話題を更新しない} エージェント『どのラーメン屋にしますか?』 ・・・・・・・・・・・・・・{T(n+1) =T(n)=食事} ユーザ 「えーと、□□」 エージェント『□□へのルートを表示します。』 なお、上述した話題転換と、ここで説明した文脈優先は
相反する応答だが、例えば、その条件判断はU(n)の尤
度情報LFKやU(n)で示される話題Tnew の連続出現
回数Ntnewなどを用いる。即ち、Ntnew>2且つLFK
>0.4ならば話題はT(n-1) からT(n)=Tnew に移
行し、それ以外の場合はU(n)から得られたTnew は棄
却し、T(n)=T(n-1) とする、といった条件分岐を用
いる。
【0112】[3.4 ヘルプモード]起こりやすい誤
認識の例、代表的な要求キーワード、などの選択肢を表
示したり音声で発話する。 (例) ・電話をかける場合は、「でんわをかける」で電話番号
画面を表示し、相手先の電話番号を入力してください。
登録されている相手先(例えば○○さん)の場合は「で
んわをかける、○○」でも結構です。
【0113】・次のどれですか?もういちど発話してく
ださい。{食事(レストラン、ごはん、おなかすい
た)、スケジュール帳、アドレス帳(住所録、電話
帳)、地図(経路案内、ドライブアシスタント)} ・かっこ内の同義語でもう一度発話してください。
【0114】・地図表示の場合は、経路案内から道路図
を選択したほうが確実です。 ・目的地は市町村をつけて発話した方が正確です。(例
かりや→かりやし) [3.5 選択肢の提示]選択肢提示は既に説明した漸
進的階層探索に相当する。
【0115】[3.6 通常の発話戦略]認識結果(認
識語、尤度)をもとに誤認識が検出されなかった場合は
通常の発話戦略が適用される。この通常の発話戦略の内
容は本発明の主眼とするところではないので、ここでは
詳細については言及しない。
【0116】[3.7 対話管理の適応化] [3.7.1 環境・状況への適応]時間(季節、日
時、時刻[朝昼夜])、空間(自車位置、地域[都道府
県、市町村])、環境(道路環境[高速、一般道、トン
ネルなど]、道路状態[路面凍結、滑り易い、他]、交
通環境[高速道路、速度制限など]、地理環境[海が近
い、山の中、街中、駅前、など])、車外状況(天候、
交通状況[渋滞など]、車外周辺状況[追い越し車あ
り、など])、車内状況(運転状態、乗車状態、移動目
的、話題)などに応じて、話題の選定や対話管理、適切
なメッセージの伝達などを行うことができる。なお、こ
れらは表示系にも反映される。
【0117】[3.7.2 スケジュールへの適応] (1)ドライブスケジュール ユーザの設定した目的地や経由地に基づき、ドライブス
ケジュールを作成し、各イベントの意味(食事、ショッ
ピング、観光など)と場所・時間に基づいて、話題の決
定や対話管理、さらにはドライブスケジュールの空白部
分について提案することができる。
【0118】(2)個人スケジュール PDAやPC用のインタフェースを介してPDAやPC
上の個人スケジュールデータをダウンロードし、それに
基づいて話題の決定や対話管理、さらには個人スケジュ
ールの空白部分について提案することができる。
【0119】[3.7.3 ユーザが応答の意味を理解
できないとき]ユーザが「どういう意味」、「よくわか
らん」といった発話をしたとき、ユーザはエージェント
応答の意味を理解できていないと判断し、次のいずれか
の処理を行う。
【0120】(1)ヘルプ機能 (2)メニュー選択 (3)音声メニュー [3.7.4 エージェントがユーザ要求に対応できな
いとき]ユーザ発話を正常に認識できても、以下のよう
な場合ではエージェントがユーザの要求に対応できない
ときがある。これらについてはその状況を音声メッセー
ジで伝達する。
【0121】検索結果がない(該当データベースがな
い) 該当する機器がない、故障中あるいは準備されていな
い(電話が接続されていない、など) 操作対象となる機器の動作範囲を超えた制御命令が出
されたとき [3.8 音声メニューモード]例えば本願出願人が特
願平10−177667号にて提案したような機器操作
モードに移行する。各操作モードにおいて必要なコマン
ドは必ず優先的に認識語彙辞書に加え、認識の尤度を高
める。
【0122】[3.9 問い返し]問い返しは下記のよ
うにいくつかの場合が考えられ、問い返す場合にはその
内容に沿った語彙に限定した認識辞書が設定される。 (1)エージェントが正しく話題を認識しているにもか
かわらず、それに沿ったユーザ発話がなされなかった場
合、話題確認のための問い返しを発することにより、そ
れ以後の誤認識を回避する。
【0123】(例) エージェント『□□駅前には3件のラーメン屋がありま
す。』 ユーザ 「東京の○○さんに電話をかける」 エージェント『電話をかけますか?』 (2)エージェントが話題を間違えて認識し、ちがう話
題のもとで不足条件を問い合わせた場合、ユーザからの
問い返し又は否定的発言(「ちがうよ」や「そうじゃな
い」など)により、正しい話題が何であるかを問い返
す。これにより、それ以後の誤認識に歯止めをかける。
【0124】(例) ユーザ 「東京の○○さんに電話をかける。」 エージェント『□□駅付近のレストランを表示します。
どれにしますか?』 ユーザ 「そうじやない、電話をかける」 エージェント『電話ですか、食事ですか?』 ユーザ 「でんわ」 これは、すでにレストラン検索依頼が出ており、その検
索をしている最中にユーザが電話をかけるという割り込
み要求を行った場合である。2つの用件(電話か食事
か)の優先順位を問い返した例と言える。
【0125】(3)エージェントが正しく話題を認識
し、文脈上必要な条件が不足していることを確認した上
で問い返す。これにより、文脈に沿った正しい対話が展
開され、問題解決を促進する。 (例1) ユーザ 「東京の○○さんに電話をかける。」 エージェント『東京の○○さんに電話をかけるんです
ね。それは○○◇◇さんですか、それとも○○△△さん
ですか?』 ユーザ 「○○◇◇さん」 エージェント『○○◇◇さんに電話をかけます』 (例2) ユーザ 「東京の○○さんに電話をかける」 エージェント『□□駅付近のレストランを表示します。
どれにしますか?」 ユーザ 「あとにして。先に電話をかける。」 エージェント『東京の○○◇◇さんに電話をかけます.
よろしいですね。」 ユーザ 「うん、そうして」 ここで説明した(例1)の場合は、エージェントが正し
く認識し、電話をかけるという問題解決に向けて不足し
ている条件を問い合わせた例である。
【0126】また、(例2の)場合には、ユーザが電請
をかける意図がそれまでの対話の経過やスケジュールな
どでわかっているならば、その電話の用件(○○さんと
食事する)で必要な情報を事前に検索することが可能に
なる。つまり、気を回して自主的にレストラン検索を行
い、問い返した例と言える。
【0127】[3.10 初期化]ユーザからの問い返
しがK回(K>N)を超える場合、初期状態あるいはト
ップのメニュー画面に戻る。以上説明したように、本実
施形態の制御システムによれば、漸進的階層探索、多段
階処理、期待外時対応処理、誤認識対応処理を行うが、
それぞれの処理によって以下の効果がある。
【0128】まず、漸進的階層探索の場合には、上述し
た「岡崎で食事したいなあ、インド料理がいいね」とい
う発話を例に取れば、ワードスポッティングによる音声
認識手法の出力結果が「岡崎、食事、インド料理」とい
う単語列であった場合、従来の音声認識手法では、これ
ら3つが揃った段階で認識に対応するシステム側の処理
が開示されているのに対し、本手法によれば、「岡崎」
が入力された時点で、次に利用者に入力を期待する発話
語彙を即座に提示できる。そのため、利用者はとまどう
ことなく発話できるようになる。これによって、誤認識
の原因となる認識辞書外の語彙を利用者が発話してしま
うことを未然に防止できる。
【0129】また、多段階処理の場合には、単語列を構
成する要求キーワードなどを軸として、単語列を構成す
る単語間の意味的な制約を利用して認識辞書を動的且つ
小規模に構成することにより、適切な認識を行う。これ
によって、利用者の意図しない誤認識が発生しないよう
にできる。
【0130】また、期待外時対応処理においては、対話
中における利用者からの発話が文脈に沿った期待通りの
内容ではない場合に、話題が転換されたのかどうかを確
認するための問いかけを行う話題転換確認処理、話題が
転換されたことを宣言する話題転換宣言処理、それまで
の話題が継続していると仮定して文脈に沿った対応を行
う文脈優先対応処理のいずれかを行う。一方、誤認識対
応処理においては、対話中における利用者からの発話が
所定の否定的内容であった場合に、正しい話題が何であ
るかを確認するための問い返す問い返し処理や、要求す
る内容に対応したキーワードを含める指示を利用者が視
覚又は聴覚にて認識可能なように提示するヘルプモード
処理や、初期状態に戻る初期化処理などを実行する。こ
のようにすることで、誤認識に起因して利用者が途方に
暮れてしまう、といった不都合を防止することができ
る。
【0131】さらに、本実施形態の場合には、これら漸
進的階層探索、多段階処理、期待外時対応処理、誤認識
対応処理が組み合わされているため、さらに効果的であ
る。ところで、本実施形態においては、例えば自動車に
搭載されて、ユーザとしての車両の乗員(主に、運転
者)と音声にて対話しながら、その車両に搭載された様
々な機器を制御するシステムとして説明したが、図1の
概念図に示すように、その他の信号系認識部にて認識し
た結果としての単語列候補に対しても同様の処理が可能
である。例えば、認識対象者によって入力された手書き
文字列を辞書データと比較し、一致度合の高い複数の単
語列候補を出力する文字認識装置であってもよい。手書
き文字に関してもやはり誤認識が発生し易いため、適正
な単語列を推定することは有効性が高い。また、音声認
識や文字認識のように、認識装置に入力される時点で直
接的に単語列の内容となっているものに限らず、画像認
識装置であってもよい。即ち、認識対象を捉えた画像を
場面として認識した上で、場面を自然言語化するような
認識装置であれば実現できる。具体的には、例えば認識
対象者が手話をしている画像から手話パターンを認識
し、その手話パターンが表す自然言語的な意味を示す単
語列候補を出力するようなものである。手話パターンに
ついても、微妙な指使いによって表す単語が異なるた
め、手話をする者の個人差などによって、やはり誤認識
は発生する。したがって、やはりこの場合も、誤認識が
含まれる可能性の高い手話パターンの認識装置において
も、上述した各種処理を実行することで、誤認識を防止
したり、あるいは誤認識が発生した後の適切な対処を行
うことができ、誤認識に起因して利用者が途方に暮れて
しまう、といった不都合を防止することができる。
【0132】以上、本発明の一実施形態について説明し
たが、本発明は、上記実施形態に限定されるものではな
く、種々の形態を採り得ることは言うまでもない。例え
ば、図3の処理概要を示すフローチャートにおいては、
多段階処理(S30)が先に行われ、その後の誤認識対
応処理の中で漸進的階層探索(S130が相当する)が
実行されているが、そのような順番には限定されない。
【0133】また、上記実施形態の場合には、漸進的階
層探索、多段階処理、期待外時対応処理、誤認識対応処
理が組み合わされていたが、これらは単独で実施しても
効果はある。但し、上述したように、組み合わせて実施
すればさらに効果的である。その際、4つの処理を全て
組み合わせなくてはならないわけではなく、2つ以上の
処理の組み合わせであればよい。
【図面の簡単な説明】
【図1】 実施形態の単語列認識装置について機能に着
目して概念的に示したブロック図である。
【図2】 単語列認識装置を車載の制御システムに適用
した場合の構成を示すブロック図である。
【図3】 システム制御部で実行される処理の概要を示
すフローチャートである。
【図4】 漸進的階層探索の具体的な画面遷移例を示す
説明図である。
【図5】 漸進的階層探索の具体的な画面遷移例を示す
説明図である。
【図6】 多段階処理の概要を示す説明図である。
【図7】 辞書の動的構成の概要を示す説明図である。
【図8】 対話データベース表の構成を示す説明図であ
る。
【図9】 対話ユニットとして成立する発話−応答の組
み合わせを示す説明図である。
【図10】 多段階処理の前半を示すフローチャートで
ある。
【図11】 多段階処理の後半を示すフローチャートで
ある。
【符号の説明】
1…制御装置 3…入力装置 5…マイクロフォン 7…スピーカ 8…ディスプレイ 9…ナビゲーション装
置 11…表示装置 13…エアコン装置 15…オーディオ装置 17…通信装置 21…システム制御部 25…音声入力部 27…音声合成部 28…画面制御部 29…機器制御I/F 31…インターネット
アドレスデータベース 33…検索制御部 34…認識語彙記憶部 35…対話データ記憶部 36…要求・状態推定
用データ記憶部 37…ユーザプロファイル記憶部

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】認識対象の動作内容が反映された情報を入
    力し、認識用辞書データと比較した一致度合いの高い単
    語列の候補を出力する単語列出力手段と、 その単語列出力手段から単語列を構成する単語が順次出
    力される毎に、その出力単語の内容に基づいて次に入力
    を期待する語彙群を利用者が視認可能なように提示する
    漸進的階層探索手段とを備えることを特徴とする単語列
    認識装置。
  2. 【請求項2】請求項1記載の単語列認識装置において、 前記漸進的階層探索手段は、前記単語列出力手段から1
    の単語が出力されてから所定時間以上次の単語が出力さ
    れなかった場合に限って、前記期待語彙群を提示するこ
    とを特徴とする単語列認識装置。
  3. 【請求項3】請求項1又は2記載の単語列認識装置にお
    いて、 前記漸進的階層探索手段は、前記単語列出力手段から出
    力された単語が、その直前に出力された単語に対応する
    前記期待語彙群以外の単語であった場合には、前記直前
    に出力された単語に対応する前記期待語彙群を再度提示
    することを特徴とする単語列認識装置。
  4. 【請求項4】認識対象の動作内容が反映された情報を入
    力し、認識用辞書データと比較した一致度合いの高い単
    語列の候補を出力する単語列出力手段と、 その単語列出力手段から出力された単語列を構成する単
    語の内、所定の属性を持つ単語に基づいて話題を確定
    し、続いて、その確定した話題に基づく語彙に限定した
    前記認識用辞書データを再構成し、その再構成した認識
    用辞書データに基づいて他の単語を認識するという処理
    を必要なだけ繰り返し実行する多段階処理手段とを備え
    ることを特徴とする単語列認識装置。
  5. 【請求項5】請求項4記載の単語列認識装置において、 前記多段階処理手段が最初に前記話題を確定するために
    扱う単語属性は、要求内容を示す属性であることを特徴
    とする単語列認識装置。
  6. 【請求項6】請求項4記載の単語列認識装置において、 前記話題を確定するために扱う所定の属性を持つ単語が
    複数存在する場合は、構文位置に基づいていずれか1の
    単語を選択することを特徴とする単語列認識装置。
  7. 【請求項7】請求項4記載の単語列認識装置において、 前記話題を確定するために扱う所定の属性を持つ単語
    は、所定レベル以上の尤度を備えている場合にのみ採用
    することを特徴とする単語列認識装置。
  8. 【請求項8】請求項4〜7のいずれか記載の単語列認識
    装置において、 前記話題に基づく語彙に限定した認識用辞書データを再
    構成する際には、現在の話題に連関する話題に対応する
    語彙についても考慮することを特徴とする単語列認識装
    置。
  9. 【請求項9】請求項4〜8のいずれか記載の単語列認識
    装置において、 前記話題に基づく語彙に限定した認識用辞書データを再
    構成する際には、文脈の連続性という観点から定まる語
    彙についても考慮することを特徴とする単語列認識装
    置。
  10. 【請求項10】請求項4〜9のいずれか記載の単語列認
    識装置において、 さらに、認識対象の要求を推定する要求推定手段を備
    え、 前記話題に基づく語彙に限定した認識用辞書データを再
    構成する際には、前記要求推定手段にて推定した要求と
    いう観点から定まる語彙についても考慮することを特徴
    とする単語列認識装置。
  11. 【請求項11】請求項4〜10のいずれか記載の単語列
    認識装置において、 前記話題に基づく語彙に限定した認識用辞書データを再
    構成する際には、不連続的に発生する予測不可能な緊急
    事態や警告対象となる事態に対応する語彙として予め設
    定した語彙を含めることを特徴とする単語列認識装置。
  12. 【請求項12】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 その単語列出力手段から出力された単語列が文脈に沿っ
    た期待通りの内容であるか否かを判断し、期待から外れ
    ていると判断した場合は、少なくとも話題が転換された
    のかどうかを確認するための問いかけを行う話題転換確
    認処理、話題が転換されたことを宣言する話題転換宣言
    処理、それまでの話題が継続していると仮定して文脈に
    沿った対応を行う文脈優先対応処理のいずれかを行う期
    待外時対応手段とを備えることを特徴とする単語列認識
    装置。
  13. 【請求項13】請求項12記載の単語列認識装置におい
    て、 前記単語列出力手段は、前記単語列に付随して尤度も出
    力可能であり、 前記期待外時対応手段は、前記単語列に付随する尤度に
    基づいて、前記文脈に沿った期待通りの内容であるか否
    かを判断することを特徴とする単語列認識装置。
  14. 【請求項14】請求項13記載の単語列認識装置におい
    て、 前記期待外時対応手段は、単語列出力手段から出力され
    た単語列の候補が1つであり、且つ前記単語列に付随す
    る尤度が所定値以上であれば、前記話題転換確認処理を
    実行することを特徴とする単語列認識装置。
  15. 【請求項15】請求項12〜14のいずれか記載の単語
    列認識装置において、 前記期待外時対応手段は、前記話題転換確認処理の実行
    後に前記単語列出力手段から出力された単語列が、その
    転換された話題に沿った内容であれば、前記話題転換宣
    言処理を実行することを特徴とする単語列認識装置。
  16. 【請求項16】請求項12〜15のいずれか記載の単語
    列認識装置において、 前記期待外時対応手段は、前記話題が転換された場合で
    あっても、転換直後には前記文脈優先対応処理を実行
    し、その後も前記転換された話題が継続している場合に
    限って、前記話題転換確認処理を実行することを特徴と
    する単語列認識装置。
  17. 【請求項17】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 その単語列出力手段から出力された単語列が所定の否定
    的内容であるか否かを判断し、所定の否定的内容である
    と判断した場合は、所定の誤認識対応処理を実行する誤
    認識対応手段をを備えることを特徴とする単語列認識装
    置。
  18. 【請求項18】請求項17記載の単語列認識装置におい
    て、 前記誤認識対応手段は、正しい話題が何であるかを確認
    するための問い返す問い返し処理を実行することを特徴
    とする単語列認識装置。
  19. 【請求項19】請求項17又は18記載の単語列認識装
    置において、 前記誤認識対応手段は、要求する内容に対応したキーワ
    ードを含める指示を利用者が視覚又は聴覚にて認識可能
    なように提示するヘルプモード処理を実行することを特
    徴とする単語列認識装置。
  20. 【請求項20】請求項17又は18記載の単語列認識装
    置において、 前記誤認識対応手段は、初期状態に戻る初期化処理を実
    行することを特徴とする単語列認識装置。
  21. 【請求項21】請求項19又は20記載の単語列認識装
    置において、 前記誤認識対応手段は、正しい話題が何であるかを確認
    するための問い返す問い返し処理を所定回数を超えた場
    合には、前記ヘルプモード処理又は初期化処理を実行す
    ることを特徴とする単語列認識装置。
  22. 【請求項22】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 現在の話題に連関する話題に対応する語彙を考慮した上
    で、前記認識用辞書データを再構成する辞書構成手段と
    を備えることを特徴とする単語列認識装置。
  23. 【請求項23】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 文脈の連続性という観点から定まる語彙を考慮した上
    で、前記認識用辞書データを再構成する辞書構成手段と
    を備えることを特徴とする単語列認識装置。
  24. 【請求項24】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 認識対象の要求を推定する要求推定手段と、 前記要求推定手段にて推定した要求という観点から定ま
    る語彙を考慮した上で、前記認識用辞書データを再構成
    する辞書構成手段とを備えることを特徴とする単語列認
    識装置。
  25. 【請求項25】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 不連続的に発生する予測不可能な緊急事態や警告対象と
    なる事態に対応する語彙として予め設定した語彙を含め
    て前記認識用辞書データを再構成する辞書構成手段とを
    備えることを特徴とする単語列認識装置。
  26. 【請求項26】請求項22記載の単語列認識装置におい
    て、 前記辞書構成手段は、認識対象のシステムで扱う現実の
    話題に対応して予め各カテゴリ毎の語彙クラスタに分割
    されて構成されるクラスタ辞書間の関係を考慮して前記
    認識用辞書データを再構成することを特徴とする単語列
    認識装置。
  27. 【請求項27】請求項22記載の単語列認識装置におい
    て、 前記辞書構成手段は、単語間の意味的関係を考慮して前
    記認識用辞書データを再構成することを特徴とする単語
    列認識装置。
  28. 【請求項28】請求項27記載の単語列認識装置におい
    て、 前記単語間の意味的関係とは単語間の包含関係であるこ
    とを特徴とする単語列認識装置。
  29. 【請求項29】請求項27記載の単語列認識装置におい
    て、 前記単語間の意味的関係とは単語間の連想関係であるこ
    とを特徴とする単語列認識装置。
  30. 【請求項30】請求項23記載の単語列認識装置におい
    て、 前記辞書構成手段は、発話に対する応答の妥当性を考慮
    して前記認識用辞書データを再構成することを特徴とす
    る単語列認識装置。
  31. 【請求項31】請求項23記載の単語列認識装置におい
    て、 前記辞書構成手段は、発話とその発話に対する応答で構
    成される対話ユニット同士の関係の妥当性を考慮して認
    識用辞書データを再構成することを特徴とする単語列認
    識装置。
  32. 【請求項32】認識対象の動作内容が反映された情報を
    入力し、認識用辞書データと比較した一致度合いの高い
    単語列の候補を出力する単語列出力手段と、 前記請求項1〜3のいずれかに記載した漸進的階層探索
    手段、前記請求項4〜11のいずれかに記載した多段階
    処理手段、前記請求項12〜16のいずれかに記載した
    期待外時対応手段、前記請求項17〜21のいずれかに
    記載した誤認識対応手段、前記請求項22〜31のいず
    れかに記載して辞書構成手段の内の少なくとも2つの手
    段とを備えることを特徴とする単語列認識装置。
  33. 【請求項33】請求項1〜32のいずれか記載の単語列
    認識装置において、 前記認識対象は人間であり、 前記単語列出力手段は、前記認識対象者によって入力さ
    れた音声を認識用辞書データと比較した一致度合いの高
    い単語列の候補を出力することを特徴とする単語列認識
    装置。
  34. 【請求項34】請求項1〜32のいずれか記載の単語列
    認識装置において、 前記認識対象は人間であり、 前記単語列出力手段は、前記認識対象者によって入力さ
    れた手書き文字列を認識用辞書データと比較し、一致度
    合の高い複数の単語列候補を出力することを特徴とする
    単語列認識装置。
JP11210819A 1999-01-28 1999-07-26 単語列認識装置 Pending JP2001034292A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11210819A JP2001034292A (ja) 1999-07-26 1999-07-26 単語列認識装置
US09/490,442 US6556970B1 (en) 1999-01-28 2000-01-24 Apparatus for determining appropriate series of words carrying information to be recognized

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11210819A JP2001034292A (ja) 1999-07-26 1999-07-26 単語列認識装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004168777A Division JP4156563B2 (ja) 2004-06-07 2004-06-07 単語列認識装置

Publications (1)

Publication Number Publication Date
JP2001034292A true JP2001034292A (ja) 2001-02-09

Family

ID=16595657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11210819A Pending JP2001034292A (ja) 1999-01-28 1999-07-26 単語列認識装置

Country Status (1)

Country Link
JP (1) JP2001034292A (ja)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002067244A1 (fr) * 2001-02-19 2002-08-29 Cai Co., Ltd Procede de reconnaissance de la parole pour interaction de la parole, systeme et programme de reconnaissance de la parole
JP2002259806A (ja) * 2001-02-28 2002-09-13 Michio Kushima 店舗情報提供方法、当該方法が実行可能なサーバ及びプログラム
JP2003058188A (ja) * 2001-08-13 2003-02-28 Fujitsu Ten Ltd 音声対話システム
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
JP2004094057A (ja) * 2002-09-02 2004-03-25 Ricoh Co Ltd 機器操作装置、プログラムおよび記録媒体並びに画像形成装置
JP2004526196A (ja) * 2001-02-28 2004-08-26 ヴォイス−インサイト 情報システムにアクセスする自然言語問合せシステム
JP2005148724A (ja) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
US6944593B2 (en) 2001-10-02 2005-09-13 Hitachi, Ltd. Speech input system, speech portal server, and speech input terminal
JP2006106761A (ja) * 2004-10-08 2006-04-20 Samsung Electronics Co Ltd 多段階音声認識装置及び多段階音声認識方法
JP2007334251A (ja) * 2006-06-19 2007-12-27 Kenwood Corp エージェント装置、プログラム、及び音声供給方法
JP2010128015A (ja) * 2008-11-25 2010-06-10 Toyota Central R&D Labs Inc 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
US8548806B2 (en) 2006-09-15 2013-10-01 Honda Motor Co. Ltd. Voice recognition device, voice recognition method, and voice recognition program
CN105788598A (zh) * 2014-12-19 2016-07-20 联想(北京)有限公司 一种语音处理方法和电子设备
JP2018040904A (ja) * 2016-09-06 2018-03-15 トヨタ自動車株式会社 音声認識装置および音声認識方法
JP2018113064A (ja) * 2012-07-20 2018-07-19 ベベオ, インコーポレイテッド 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
JP2019075135A (ja) * 2016-08-16 2019-05-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10540387B2 (en) 2014-12-23 2020-01-21 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US10572520B2 (en) 2012-07-31 2020-02-25 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
WO2020136733A1 (ja) * 2018-12-25 2020-07-02 富士通株式会社 対話装置、対話方法及び対話プログラム
JP2020149369A (ja) * 2019-03-13 2020-09-17 株式会社東芝 対話制御システム、対話制御方法及びプログラム
US10896184B2 (en) 2013-05-10 2021-01-19 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US10978094B2 (en) 2013-05-07 2021-04-13 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
WO2022025428A1 (ko) * 2020-07-27 2022-02-03 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP2022516101A (ja) * 2018-12-28 2022-02-24 グーグル エルエルシー 選択されたサジェスチョンによる自動アシスタントへのボイス入力の補足
US11811889B2 (en) 2015-01-30 2023-11-07 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms based on media asset schedule

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5763599A (en) * 1980-10-03 1982-04-17 Seiko Instr & Electronics Voice input device
JPH06259091A (ja) * 1993-03-04 1994-09-16 Sanyo Electric Co Ltd 音声認識装置
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
JPH06332493A (ja) * 1993-05-19 1994-12-02 Canon Inc 音声対話型情報検索装置及び方法
JPH08146989A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH0981184A (ja) * 1995-09-12 1997-03-28 Toshiba Corp 対話支援装置
JPH1073448A (ja) * 1996-08-31 1998-03-17 Aqueous Res:Kk 車両用音声認識装置
JPH11126089A (ja) * 1997-10-24 1999-05-11 Nissan Motor Co Ltd 音声対話装置
JPH11143494A (ja) * 1997-11-10 1999-05-28 Sony Corp 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車
JPH11202890A (ja) * 1998-01-20 1999-07-30 Ricoh Co Ltd 音声検索装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5763599A (en) * 1980-10-03 1982-04-17 Seiko Instr & Electronics Voice input device
JPH06259091A (ja) * 1993-03-04 1994-09-16 Sanyo Electric Co Ltd 音声認識装置
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
JPH06332493A (ja) * 1993-05-19 1994-12-02 Canon Inc 音声対話型情報検索装置及び方法
JPH08146989A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH0981184A (ja) * 1995-09-12 1997-03-28 Toshiba Corp 対話支援装置
JPH1073448A (ja) * 1996-08-31 1998-03-17 Aqueous Res:Kk 車両用音声認識装置
JPH11126089A (ja) * 1997-10-24 1999-05-11 Nissan Motor Co Ltd 音声対話装置
JPH11143494A (ja) * 1997-11-10 1999-05-28 Sony Corp 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車
JPH11202890A (ja) * 1998-01-20 1999-07-30 Ricoh Co Ltd 音声検索装置

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002067244A1 (fr) * 2001-02-19 2002-08-29 Cai Co., Ltd Procede de reconnaissance de la parole pour interaction de la parole, systeme et programme de reconnaissance de la parole
JP2002259806A (ja) * 2001-02-28 2002-09-13 Michio Kushima 店舗情報提供方法、当該方法が実行可能なサーバ及びプログラム
JP2004526196A (ja) * 2001-02-28 2004-08-26 ヴォイス−インサイト 情報システムにアクセスする自然言語問合せシステム
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
JP2003058188A (ja) * 2001-08-13 2003-02-28 Fujitsu Ten Ltd 音声対話システム
US7299186B2 (en) 2001-10-02 2007-11-20 Hitachi, Ltd. Speech input system, speech portal server, and speech input terminal
US6944593B2 (en) 2001-10-02 2005-09-13 Hitachi, Ltd. Speech input system, speech portal server, and speech input terminal
US7058579B2 (en) 2001-10-02 2006-06-06 Hitachi, Ltd. Speech input system, speech portal server, and speech input terminal
JP2004094057A (ja) * 2002-09-02 2004-03-25 Ricoh Co Ltd 機器操作装置、プログラムおよび記録媒体並びに画像形成装置
JP2005148724A (ja) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
JP2006106761A (ja) * 2004-10-08 2006-04-20 Samsung Electronics Co Ltd 多段階音声認識装置及び多段階音声認識方法
US8370159B2 (en) 2004-10-08 2013-02-05 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US8380517B2 (en) 2004-10-08 2013-02-19 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US8892425B2 (en) 2004-10-08 2014-11-18 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
JP2007334251A (ja) * 2006-06-19 2007-12-27 Kenwood Corp エージェント装置、プログラム、及び音声供給方法
US8548806B2 (en) 2006-09-15 2013-10-01 Honda Motor Co. Ltd. Voice recognition device, voice recognition method, and voice recognition program
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
JP2010128015A (ja) * 2008-11-25 2010-06-10 Toyota Central R&D Labs Inc 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
JP2018113064A (ja) * 2012-07-20 2018-07-19 ベベオ, インコーポレイテッド 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
US11436296B2 (en) 2012-07-20 2022-09-06 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US10592575B2 (en) 2012-07-20 2020-03-17 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US11847151B2 (en) 2012-07-31 2023-12-19 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US11093538B2 (en) 2012-07-31 2021-08-17 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US10572520B2 (en) 2012-07-31 2020-02-25 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US10978094B2 (en) 2013-05-07 2021-04-13 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US10896184B2 (en) 2013-05-10 2021-01-19 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
CN105788598A (zh) * 2014-12-19 2016-07-20 联想(北京)有限公司 一种语音处理方法和电子设备
US10540387B2 (en) 2014-12-23 2020-01-21 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US11991257B2 (en) 2015-01-30 2024-05-21 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms based on media asset chronology
US11843676B2 (en) 2015-01-30 2023-12-12 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms based on user input
US11811889B2 (en) 2015-01-30 2023-11-07 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms based on media asset schedule
JP2019075135A (ja) * 2016-08-16 2019-05-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018040904A (ja) * 2016-09-06 2018-03-15 トヨタ自動車株式会社 音声認識装置および音声認識方法
WO2020136733A1 (ja) * 2018-12-25 2020-07-02 富士通株式会社 対話装置、対話方法及び対話プログラム
JPWO2020136733A1 (ja) * 2018-12-25 2021-09-27 富士通株式会社 対話装置、対話方法及び対話プログラム
JP2022516101A (ja) * 2018-12-28 2022-02-24 グーグル エルエルシー 選択されたサジェスチョンによる自動アシスタントへのボイス入力の補足
JP7286772B2 (ja) 2018-12-28 2023-06-05 グーグル エルエルシー 選択されたサジェスチョンによる自動アシスタントへのボイス入力の補足
JP2020149369A (ja) * 2019-03-13 2020-09-17 株式会社東芝 対話制御システム、対話制御方法及びプログラム
JP7055764B2 (ja) 2019-03-13 2022-04-18 株式会社東芝 対話制御システム、対話制御方法及びプログラム
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
WO2022025428A1 (ko) * 2020-07-27 2022-02-03 삼성전자주식회사 전자 장치 및 이의 제어 방법

Similar Documents

Publication Publication Date Title
JP4353212B2 (ja) 単語列認識装置
JP2001034292A (ja) 単語列認識装置
US6556970B1 (en) Apparatus for determining appropriate series of words carrying information to be recognized
JP4156563B2 (ja) 単語列認識装置
JP4292646B2 (ja) ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
KR102562227B1 (ko) 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
JP4804052B2 (ja) 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
US7603276B2 (en) Standard-model generation for speech recognition using a reference model
US6385535B2 (en) Navigation system
EP1699042B1 (en) Device control device, method and program
US7826945B2 (en) Automobile speech-recognition interface
US20120253823A1 (en) Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
CN108242236A (zh) 对话处理装置及其车辆和对话处理方法
KR20200000155A (ko) 대화 시스템 및 이를 이용한 차량
JP4156080B2 (ja) 要求推定装置
JP2006285416A (ja) 電子機器、アシスタント表示方法、アシスタント表示用プログラム、および、電子機器システム
JP5181533B2 (ja) 音声対話装置
JPH11351901A (ja) 制御装置
JP2003032388A (ja) 通信端末装置及び処理システム
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations
KR20200006738A (ko) 대화 시스템 및 대화 처리 방법
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
KR20190037470A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
JP2000193479A (ja) ナビゲ―ション装置及び記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040921