JP2001034292A

JP2001034292A - 単語列認識装置

Info

Publication number: JP2001034292A
Application number: JP11210819A
Authority: JP
Inventors: Mikio Sasaki; 美樹男笹木; Katsushi Asami; 克志浅見
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1999-07-26
Filing date: 1999-07-26
Publication date: 2001-02-09

Abstract

(57)【要約】【課題】誤認識に起因し、利用者が途方に暮れてしまう
といった不都合を防止可能な単語列認識装置を提供す
る。【解決手段】多段階処理を説明する。発話単語と単語属
性とが次のように分類されたとする。「よこはま（場
所）のちゅうかがい（施設名）でしゅうまい（要求
対象）でもくいたい（要求キーワード）なあ」。した
がって、まず、何が要求であるかを把握するため、第１
段階では「くいたい」という要求キーワードをスポッテ
ィングし、話題を確定する。そして、第２段階では、第
１段階で確定させた話題から語彙を限定し、目的地をベ
ースとしたレストラン名と関連する料理名で１００語の
大半を構成した辞書に切り替える。これは、「くいた
い」という要求キーワードから食事の要求であることが
判るため、単語列を構成する他の単語はレストラン名や
料理名となっていると予想できるからである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば音声認識に
代表される様々な信号の認識結果候補群が離散的な単語
列の集合として得られる場合に、適正な単語列を認識す
ることのできる単語列認識装置に関するものである。

【０００２】

【従来の技術】従来より、例えば人間から発せられた音
声を入力し、辞書データと比較して一致度合の高い複数
の単語列候補を出力する認識装置が知られており、例え
ばその認識装置を用いて使用者の発話内容を認識し、認
識結果に応じて機器を動作させる制御システムなどに適
用されている。例えば、使用者が音声コマンドとして予
め定められた言葉を発話すると、その言葉に対応した情
報検索動作などを行う自動車用ナビゲーション装置など
が実用化されている。

【０００３】

【発明が解決しようとする課題】ところで、現状の音声
認識には連続単語認識とワードスポッティングという２
つの手法がある。前者の認識手法によれば、例えば「お
かざき、○○○○○（店名）、らーめん」といった単語
毎の認識が可能であるが、実際には誤認識を避けて通る
ことはできない。そのため、現行のナビゲーション装置
などでは、認識結果として複数の候補を持ち、最初にそ
の内の１つをトークバックしてユーザに確認を求めるこ
とがなされている。ユーザは自分が発話した内容と違っ
ていれば、認識結果が違っている旨を装置に伝える。す
ると、装置側は別の認識結果を提示して再度ユーザの確
認を求める。認識結果の候補を多数準備して次々に提示
していけば、最終的にはユーザが意図した内容の認識結
果となることは可能であるが、候補の中には、全く意味
をなさない内容のものも含まれる可能性があり、上述し
た最終的に適切な候補に至るまでに長時間要してしまう
ことも考えられる。

【０００４】また、後者のワードスポッティング手法
は、例えば「えーと、おかざきの○○○○○（店名）で
らーめんくいたいなあ」という日常語的な音声入力から
「おかざき、○○○○○（店名）、らーめん、くいた
い」というキーワードを抽出できるという点で近年急速
に注目されている音声認識技術である。しかしながら、
当該手法の場合には、ラティスと呼ばれるその出力（時
区間情報と確率情報を持った単語集合）から生成される
単語列候補の数は非常に多く、意味を持つ小数の単語列
に絞られることは稀である。また、当該手法における現
在の認識語彙数は１００語程度であるが、将来的には１
０００語以上に増大することが見込まれ、その結果とし
て発生するラティスから生成される単語列は膨大な数に
上ると考えられる。したがって、上述した連続単語列認
識手法の場合で述べたのと同様の（むしろ、より顕著
な）問題が存在する。

【０００５】また、現状の音声認識技術では、雑音や音
声環境の変動などに基づく誤認識時において、正常な対
話への復帰が困難であった。例えば地名を入力したい場
合に、意図せず駅名中から選択するモードに入ってしま
うと、それ以外の地名を適切に認識してもらえなくな
る。誤認識を少なくするために絞り込みができる辞書構
造にしておくことは、ある意味では好ましく、多くの単
語認識手法において用いられているが、上述したように
意図しない認識モードに陥ってしまうと、それ以降の所
望の入力ができなくなる可能性がある。そして、そのモ
ードからエスケープする操作を知らないと正常な対話へ
の復帰が困難となり、ユーザは途方に暮れてしまうこと
もありえる。

【０００６】本発明は、こうした問題に鑑みなされたも
のであり、誤認識に起因し、例えば利用者の意図しない
認識モードに陥って復帰ができず利用者が途方に暮れて
しまう、といった不都合を防止可能な単語列認識装置を
提供することを目的とする。

【０００７】

【課題を解決するための手段、及び発明の効果】上記目
的を達成するため、大きく分けて以下の４つの対応処理
を提案する。それは、漸進的階層探索（請求項１〜
３）、多段階処理（請求項４〜１１）、期待外時対応
（請求項１２〜１６）、誤認識対応（請求項１７〜２
１）、辞書の動的構成（請求項２２〜３１）である。以
下、順番に説明する。

【０００８】（１）漸進的階層探索請求項１に記載の単語列認識装置は、単語列出力手段
が、認識対象の動作内容が反映された情報を入力し、認
識用辞書データと比較した一致度合いの高い単語列の候
補を出力する。そして、漸進的階層探索手段が、その単
語列出力手段から単語列を構成する単語が順次出力され
る毎に、その出力単語の内容に基づいて次に入力を期待
する語彙群を利用者が視認可能なように提示する。

【０００９】認識対象の動作内容が反映された情報とし
ては、認識対象者から発話された音声による情報をはじ
め、他にも種々考えられる。これらについては後述する
ことにして、ここでは、この認識装置の利用者から発話
された場合、つまり音声認識装置として実現した場合を
例に挙げて説明することにする。

【００１０】例えば「岡崎で食事したいなあ、インド料
理がいいね」という発話が利用者からなされた場合、ワ
ードスポッティングによる音声認識手法の出力結果は、
「岡崎、食事、インド料理」という単語列になる。従来
の音声認識手法では、これら３つが揃った段階で認識に
対応するシステム側の処理が開示されていたが、本発明
の漸進的階層探索手段によれば、「岡崎」が入力された
時点で、次に利用者に入力を期待する発話語彙を即座に
提示できるため、利用者はとまどうことなく発話でき
る。これによって、誤認識の原因となる認識辞書外の語
彙を利用者が発話してしまうことを未然に防止できる。

【００１１】なお、請求項２に示すように、漸進的階層
探索手段は、単語列出力手段から１の単語が出力されて
から所定時間以上次の単語が出力されなかった場合に限
って期待語彙群を提示するようにしてもよい。つまり、
「提示できる状態にしておき」実際に提示するのは、所
定時間以上次の単語が出力されなかった場合に限るので
ある。これは、「岡崎で食事したいなあ」のように次の
単語が連続して発話されることが多いような状況では、
むしろ提示しない方がよい場合もあるからである。その
ため、上述例で言えば、岡崎の後に所定時間（例えば１
〜２秒）の無音区間があった場合に、利用者は次の語彙
入力に迷っていると推定し発話語彙群を提示するのであ
る。

【００１２】また、請求項３に示すように、漸進的階層
探索手段は、単語列出力手段から出力された単語が、そ
の直前に出力された単語に対応する期待語彙群以外の単
語であった場合には、直前に出力された単語に対応する
期待語彙群を再度提示するようにしてもよい。例えば
「岡崎」に対応する期待語彙群として「食事、喫茶店、
デパート、公園、駐車場、……」が準備されていた場合
に、それらのいずれにも該当しなければ、誤認識である
として、再度「岡崎」に対応する期待語彙群を提示す
る。このようにすれば、「岡崎」という場所の入力結果
を保ったままで、認識作業を継続することができる。

【００１３】（２）多段階処理請求項４記載の単語列認識装置は、多段階処理手段が、
単語列出力手段から出力された単語列を構成する単語の
内、所定の属性を持つ単語に基づいて話題を確定し、続
いて、その確定した話題に基づく語彙に限定した認識用
辞書データを再構成し、その再構成した認識用辞書デー
タに基づいて他の単語を認識するという処理を必要なだ
け繰り返し実行する。

【００１４】例えば、現状のワードスポッティング手法
では１回の処理に対する認識語彙数は１００語程度であ
り、連続単語認識の辞書のような大規模化は困難であ
る。一方、実用的に見た場合、特定の話題（例えば「食
事に行く」など）にフォーカスする際には、例えば１０
０語程度でも対応可能である。したがって、話題を的確
に認識し、誤認識の際は話題の不連続性を検出し、これ
らに応じてワードスポッティングの語彙を切り替えてい
けばよい。そこで、多段階処理を行う。このようにすれ
ば、利用者が途方に暮れてしまわないような単語列の認
識を、小語彙で達成できるようになり、上述のワードス
ポッティング手法を採用した場合の不都合を解消でき
る。

【００１５】ところで、多段階処理手段が最初に話題を
確定するために扱う単語属性としては、例えば請求項５
に示すように、要求内容を示す属性であることが考えら
れる。利用者の発話はたいていのコンテンツ検索の場
合、『場所』『施設名』『要求対象』『要求キーワー
ド』からなるか、その並び替え、あるいは省略形で基本
形が構成されると考えられる。この内、一般的には何が
要求であるかを把握することが好ましい。それは、要求
を把握するために想定する要求キーワードが、場所や施
設名などに比較して少ない数でもよいからである。な
お、要求キーワード以外の『場所』、『施設名』又は
『要求対象』を、最初に話題を確定するための単語属性
として扱うことを否定するものではないことを付言して
おく。

【００１６】なお、１の単語列中に、話題を確定するた
めに扱う所定の属性を持つ単語が複数存在する場合もあ
る。その場合は、請求項６に示すように構文位置に基づ
いていずれか１の単語を選択することが考えられる。例
えば要求キーワードを探す場合であれば、構文全体とし
て見た場合に、その構文における要求が何であるかを示
す要求キーワードが存在する可能性の高い位置というも
のが決まってくるからである。これは、自然言語とし
て、例えば文法、意味、常識などを加味すれば自ずと定
まる。

【００１７】また、請求項７に示すように、話題を確定
するために扱う所定の属性を持つ単語は、所定レベル以
上の尤度を備えている場合にのみ採用することが好まし
い。例えば、最初に話題を確定するための単語属性とし
ては「要求キーワード」が好ましいことを述べたが、尤
度が低い場合にあえて要求キーワードにこだわる必要も
ない。その場合には、他の単語属性で尤度が相対的に高
いものがあれば、それを採用する方が好ましいこともあ
る。

【００１８】ところで、話題に基づく語彙に限定した認
識用辞書データを再構成する上では、より適切な語彙を
選ぶことが重要になってくる。そこで、以下に示すいく
つかの考慮点が挙げられる。まず、請求項８に示すよう
に、現在の話題に連関する話題に対応する語彙について
も考慮することが考えられる。その一例を挙げれば、シ
ョッピングという話題に対して、駐車場（手段）、レス
トラン（付随する行動）、バーゲン（よくある付帯事
象）などの語彙を含めるのである。

【００１９】また、請求項９に示すように、文脈の連続
性という観点から定まる語彙についても考慮してもよ
い。例えばある話題（ショッピングなど）で閉じた認識
語彙の範囲で対話が継続すると考えて、このような話題
の連続性という制約のもとで認識用辞書データの再構成
をするのである。また、発話と応答の組合せを発話対あ
るいは対話ユニットと呼ぶこととすると、この対話ユニ
ット内の妥当性という制約のものでの再構成、つまり発
話に対して妥当な応答の範囲で認識用辞書データを再構
成してもよい。さらには、対話ユニット間における接続
性についても考慮することが考えられる。

【００２０】一方、請求項１０に示すように、認識対象
の要求を推定する要求推定手段をさらに備え、その要求
推定手段にて推定した要求という観点から定まる語彙に
ついても考慮することが考えられる。これは、認識対象
から直接入力（音声認識であれば利用者からの発話）さ
れたものではなく、利用者の置かれている環境や状況あ
るいはユーザプロファイルなどを基に利用者の要求を推
定し、利用者の次の発話として想定される内容に対応で
きるように認識用辞書データの再構成を行うのである。

【００２１】また、請求項１１に示すように、話題に基
づく語彙に限定した認識用辞書データを再構成する際に
は、不連続的に発生する予測不可能な緊急事態や警告対
象となる事態に対応する語彙として予め設定した語彙を
含めてもよい。その一例として、単語列認識装置が車両
に搭載されている場合を想定する。例えばカーナビゲー
ションシステムに組み込まれている場合などである。こ
の際、突然の運転状況の変化などがここでいう「不連続
的に発生する予測不可能な緊急事態や警告の対象となる
事態」に相当する。例えば対話の最中に先行車が急停止
したので急ブレーキをかけた場合、おもわず利用者が
「あー、危なかった。」といってしまう状況は容易に考
えられる。そのため、車両に搭載するのであれば、この
ような「危ない」という意味の語彙も含めておく。

【００２２】（３）期待外時対応請求項１２に記載の単語列認識装置は、期待外時対応手
段が、単語列出力手段から出力された単語列が文脈に沿
った期待通りの内容であるか否かを判断し、期待から外
れていると判断した場合は、少なくとも話題が転換され
たのかどうかを確認するための問いかけを行う話題転換
確認処理、話題が転換されたことを宣言する話題転換宣
言処理、それまでの話題が継続していると仮定して文脈
に沿った対応を行う文脈優先対応処理のいずれかを行う
のである。

【００２３】なお、文脈に沿った期待通りの内容である
か否かを判断する場合には、請求項１３に示すように、
単語列に付随する尤度に基づくことが考えられる。そし
て、このように尤度に基づく場合には、期待外時対応手
段が話題転換確認処理を実行する条件を次のように設定
してもよい。つまり、請求項１４に示すように、単語列
出力手段から出力された単語列の候補が１つであり、且
つ単語列に付随する尤度が所定値以上であることを条件
にする。

【００２４】また、期待外時対応手段が話題転換宣言処
理を実行する条件は次のように設定することが考えられ
る。つまり、請求項１５に示すように、話題転換確認処
理の実行後に単語列出力手段から出力された単語列が、
その転換された話題に沿った内容であることを条件にす
る。

【００２５】また、文脈優先対応処理は、上述したよう
に、それまでの話題が継続していると仮定して文脈に沿
った対応を行うのであるが、話題の継続回数に基づいて
話題の転換かどうかの判定を行い、それに応じて期待外
時対応手段が話題転換確認処理と文脈優先対応処理とを
使い分けてもよい。つまり、請求項１６に示すように、
話題が転換された場合であっても、転換直後には文脈優
先対応処理を実行し、その後も転換された話題が継続し
ている場合に限って、話題転換確認処理を実行するので
ある。

【００２６】このようにすることで、誤認識に起因して
利用者が途方に暮れてしまう、といった不都合を防止す
ることができる。（４）誤認識対応請求項１７に示すように単語列認識装置は、誤認識対応
手段が、単語列出力手段から出力された単語列が所定の
否定的内容であるか否かを判断し、所定の否定的内容で
あると判断した場合は、所定の誤認識対応処理を実行す
る。

【００２７】ここで、誤認識対応処理としては、請求項
１８に示すように、正しい話題が何であるかを確認する
ための問い返す問い返し処理や、請求項１９に示すよう
に、要求する内容に対応したキーワードを含める指示を
利用者が視覚又は聴覚にて認識可能なように提示するヘ
ルプモード処理や、請求項２０に示すように、初期状態
に戻る初期化処理などであることが考えられる。

【００２８】そして、請求項２１に示すように、誤認識
対応手段は、正しい話題が何であるかを確認するための
問い返す問い返し処理を所定回数を超えた場合に、ヘル
プモード処理又は初期化処理を実行することが考えられ
る。このような状況においては、そのままでは問題が解
決されないことも考えられるので、単語列認識装置側が
適切に認識できるようにキーワードを含めるように指示
したり、あるいは初期状態に戻すことで、現状を打破す
るようにしている。なお、利用者の直接的な要求によっ
て、ヘルプモード処理や初期化処理を実行してもよい。

【００２９】このようにすることで、誤認識に起因して
利用者が途方に暮れてしまう、といった不都合を防止す
ることができる。（５）辞書の動的構成上述した（２）の多段階処理においては、単語列出力手
段から出力された単語列を構成する単語の内、所定の属
性を持つ単語に基づいて話題を確定し、続いて、その確
定した話題に基づく語彙に限定した認識用辞書データを
再構成し、その再構成した認識用辞書データに基づいて
他の単語を認識するという処理を必要なだけ繰り返し実
行した。しかし、このような多段階処理を前提としなく
ても、認識用辞書データの再構成をすることは、それだ
けでも効果はある。そこで、次のような辞書構成手段を
備えるようにすることが考えられる。

【００３０】まず、請求項２２に示す単語列認識装置に
おける辞書構成手段は、現在の話題に連関する話題に対
応する語彙を考慮した上で認識用辞書データを再構成す
る。また、請求項２３の場合の辞書構成手段は、文脈の
連続性という観点から定まる語彙を考慮した上で、認識
用辞書データを再構成する。

【００３１】また、請求項２４の場合は、認識対象の要
求を推定する要求推定手段を備え、辞書構成手段が、そ
の要求推定手段にて推定した要求という観点から定まる
語彙を考慮した上で、認識用辞書データを再構成する。
さらに、請求項２５の場合は、辞書構成手段が、不連続
的に発生する予測不可能な緊急事態や警告対象となる事
態に対応する語彙として予め設定した語彙を含めて認識
用辞書データを再構成する。

【００３２】なお、これら請求項２２〜２５に示した考
慮内容の具体例については、請求項８〜１１において既
に説明しているのでここでは繰り返さない。請求項８〜
１１では多段階処理を前提とした内容であるのに対し
て、これら請求項２２〜２５では多段階処理を前提とは
しないが、このような辞書の再構成のみを実行すること
によっても、適切な語彙を選ぶことができる。

【００３３】そして、このような辞書の再構成をするに
あたっては、次の点を考慮することが好ましい。例え
ば、請求項２６に示すように、認識対象のシステムで扱
う現実の話題に対応して予め各カテゴリ毎の語彙クラス
タに分割されて構成されるクラスタ辞書間の関係を考慮
して認識用辞書データを再構成する。例えば施設→スキ
ー場→○○○○スキー場（具体的な名称）といった関係
が得られる。

【００３４】また、請求項２７に示すように、単語間の
意味的関係を考慮して認識用辞書データを再構成しても
よい。この場合には、例えば請求項２８に示すように、
単語間の意味的関係として単語間の包含関係を考慮した
り、請求項２９に示すように、単語間の意味的関係とし
て単語間の連想関係を考慮することが考えられる。

【００３５】単語間の包含関係としては、例えばスポー
ツに対して、テニス、スキー、スイミング、ジョギング
などが挙げられる。また、単語間の連想関係としては、
同一分類のオブジェクトを連想する場合（例えば、うど
んに対して麺類＋ラーメン）や、シーンの構成要素を連
想する場合（例えば、ゲレンデに対してスキー、スキー
に対してリフト、スノーボード、ゴーグルなど）や、シ
ーンに関連する興味の対象を連想する場合（例えば、ス
キーに対してゲレンデ、雪質、リフトなど）や、季節か
ら代表的なシーンを連想する場合（例えば夏に対してプ
ール、海水浴、かき氷、セミ、クーラーなど）や、要求
キーワード間に基づく連想（例えば、はらへったに対し
てレストランなど）などが挙げられる。

【００３６】一方、文脈の連続性という観点から定まる
語彙を考慮した上で、認識用辞書データを再構成する場
合には、請求項３０に示すように、発話に対する応答の
妥当性を考慮して認識用辞書データを再構成したり、請
求項３１に示すように、発話とその発話に対する応答で
構成される対話ユニット同士の関係の妥当性を考慮して
認識用辞書データを再構成することが考えられる。

【００３７】ところで、これまでの説明では、漸進的階
層探索、多段階処理、期待外時対応、誤認識対応、辞書
の動的構成のいずれかを実行する単語列認識装置として
説明したが、請求項３２に示すように、認識対象の動作
内容が反映された情報を入力し、認識用辞書データと比
較した一致度合いの高い単語列の候補を出力する単語列
出力手段に加えて、請求項１〜３のいずれかに記載した
漸進的階層探索手段、請求項４〜１１のいずれかに記載
した多段階処理手段、請求項１２〜１６のいずれかに記
載した期待外時対応手段、請求項１７〜２１のいずれか
に記載した誤認識対応手段、請求項２２〜３１のいずれ
かに記載した辞書の動的構成手段の少なくとも２つを備
える構成を採用しても良い。これらは、基本的には異な
る原因で生じる誤認識を防止したり、あるいは誤認識が
発生した後の対処であり、兼ね備えることによって、よ
り適切な単語列の認識ができ、誤認識に起因して利用者
が途方に暮れてしまう、といった不都合を防止すること
ができる。

【００３８】ところで、単語列認識装置に関しては、単
語列出力手段が、認識対象の動作内容が反映された情報
を入力し、認識用辞書データと比較して一致度合の高い
単語列を出力するものであるという説明をしたが、具体
的には、例えば次に示すようなものが考えられる。

【００３９】まず、請求項３３に示すように、認識対象
者によって入力された音声を辞書データと比較し、一致
度合の高い複数の単語列候補を出力する音声認識装置と
して実現することが考えられる。例えばカーナビゲーシ
ョンシステムにおける目的地などの指示を音声入力する
ために実用化されており、適用対象としては一般的に考
えられる。つまり、音声認識に際しては入力音声の音響
的な特徴に基づくのであるが、人間が発する音声の音響
的な特徴は個人差が大きく、また日常的には正確な発音
をしない場合も多いので誤認識が発生し易い。

【００４０】また、例えば請求項３４に示すように、認
識対象者によって入力された手書き文字列を認識用辞書
データと比較し、一致度合の高い単語列を出力する文字
認識装置として実現してもよい。手書き文字に関して
も、上述の音響的特徴と同様に個人差が大きく、また日
常的には正確な書体にて文字を書かない場合も多いの
で、やはり誤認識が発生し易い。

【００４１】したがって、このような誤認識を防止した
り、あるいは誤認識が発生した後の適切な対処を行うこ
とによって、誤認識に起因して利用者が途方に暮れてし
まう、といった不都合を防止することができる。なお、
文字認識の形態については、種々考えられ、例えば筆記
具で書いた文字をスキャナで読み取る場合の認識はもち
ろん、ＰＤＡ（携帯情報端末）などによく見られるよう
に、入力ペンにて画面上をなぞるような文字入力方法の
場合の認識であってもよい。さらには、このような音声
認識や文字認識のように、認識装置に入力される時点で
直接的に単語列の内容となっているものに限らず、画像
認識装置であってもよい。即ち、認識対象を捉えた画像
を場面として認識した上で、場面を自然言語化するため
の辞書データと認識場面を比較し、一致度合いの高い複
数の単語列候補を出力するような画像認識装置である。
その一具体例として、認識対象を人間とし、その認識対
象者が手話をしている画像から手話パターンを認識し、
その手話パターンが表す自然言語的な意味を示す単語列
を出力することが考えられる。この場合であれば、手話
パターンと単語との対応パターンが確立されているの
で、そのパターンマッチングにより自然言語的な意味を
示す単語列を出力することは容易に実現できる。但し、
この場合の手話パターンについても、微妙な指使いによ
って表す単語が異なるため、手話をする者の個人差など
によって、やはり誤認識は発生する。

【００４２】したがって、やはりこの場合も、誤認識が
含まれる可能性の高い手話パターンの認識装置において
も、本発明を適用することで誤認識を防止したり、ある
いは誤認識が発生した後の適切な対処を行うことがで
き、誤認識に起因して利用者が途方に暮れてしまう、と
いった不都合を防止することができる。

【００４３】また、上述した単語列認識装置における漸
進的階層探索手段、多段階処理手段、期待外時対応手
段、誤認識対応手段、辞書構成手段の実行する処理をコ
ンピュータシステムにて実現する機能は、例えば、コン
ピュータシステム側で起動するプログラムとして備える
ことができる。このようなプログラムの場合、例えば、
フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯＭ、
ハードディスク等のコンピュータ読み取り可能な記録媒
体に記録し、必要に応じてコンピュータシステムにロー
ドして起動することにより用いることができる。この
他、ＲＯＭやバックアップＲＡＭをコンピュータ読み取
り可能な記録媒体として前記プログラムを記録してお
き、このＲＯＭあるいはバックアップＲＡＭをコンピュ
ータシステムに組み込んで用いても良い。

【００４４】

【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて説明する。まず図１は、実施形態の単
語列認識装置について機能に着目して概念的に示したブ
ロック図である。

【００４５】ユーザインタフェースを介して入力され
た、音声に代表される信号は、音声認識部あるいはその
他の信号系認識部において所定の認識処理がなされ、単
語列候補を出力する。音声認識部は音声認識及び単語列
生成の機能を備えており、認識辞書（認識語彙辞書）を
用いて、ある発話に相当する音声入力に対する認識を行
い、認識辞書に登録されている単語の集まりとして単語
列候補を得る。これがここでいう音声認識機能である
が、この時点では候補となる単語が同一時刻に複数個示
される可能性がある。その後、単語列生成機能を用いる
ことで、音声認識機能によって得た単語に基づき時区間
的に重なりのない単語列を複数個生成し、対話管理手段
へ出力する。この際、単語列に付随して尤度も出力され
る。このように、１つの音声発話に対する音声認識結果
は、通常、尤度情報を伴った候補が複数個存在すること
となり、音声認識においては「湧き出し」と呼ばれる。

【００４６】そして、この尤度情報を伴った単語列候補
について、対話管理手段は文脈や意味的制約情報を適用
して認識し、辞書構成手段を用いて、認識辞書を動的に
更新する。さらに、対話管理手段は、画面制御手段を介
して表示系に対する表示制御を行ったり、音声出力系、
機器制御系に対する制御を行う。

【００４７】以上は、機能に着目して単語列認識装置を
概念的に示したブロック図であったが、次に、単語列認
識装置を車載の制御システムに適用した場合の構成を示
すブロック図である図２を参照して説明する。本制御シ
ステムは、自動車（車両）に搭載されて、ユーザとして
の車両の乗員（主に、運転者）と音声にて対話しなが
ら、その車両に搭載された様々な機器を制御するシステ
ムである。

【００４８】図２に示すように、本実施形態の制御シス
テムは、制御装置１と、使用者が各種の指令やデータな
どを外部操作によって入力するための入力装置３と、音
声を入力するためのマイクロフォン５と、音声を出力す
るためのスピーカ７と、画像を表示するためのディスプ
レイ（表示装置）８と、車両の現在位置（現在地）の検
出や経路案内などを行う周知のナビゲーション装置９
と、車内の空調を制御するエアコン装置１３と、カセッ
トテープレコーダ，ＣＤ（コンパクトディスク）プレー
ヤ，ＭＤ（ミニディスク）プレーヤ，ラジオ，及びテレ
ビなどからなるオーディオ装置１５と、周知のＶＩＣＳ
（Vehicle Information and Communication System）の
放送端末や、インターネットとの接続窓口であるインタ
ーネット放送端末との間で無線によりデータ通信を行う
通信装置１７と、車速や加減速状態などの車両運転状
態，車両内外の温度，及び雨滴の有無などを検出するた
めの各種センサ１９と、車両のドアロック，窓ガラス
（パワーウィンドウ），エンジン，及びブレーキ装置な
どを制御する他の制御装置（図示省略）とが接続されて
構成されている。

【００４９】尚、ナビゲーション装置９は、車両の現在
位置を検出するための周知のＧＰＳ装置や、地図デー
タ，地名データ，施設名データなどの経路案内用データ
を記憶したＣＤ−ＲＯＭ、そのＣＤ−ＲＯＭからデータ
を読み出すためのＣＤ−ＲＯＭドライブ、及び、使用者
が指令を入力するための操作キーなどを備えている。そ
して、ナビゲーション装置９は、例えば、使用者から操
作キーを介して、目的地と目的地までの経路案内を指示
する指令とが入力されると、車両の現在位置と目的地へ
至るのに最適な経路とを含む道路地図を、ディスプレイ
８に表示させて経路案内を行う。また、ディスプレイ８
には、ナビゲーション装置９によって経路案内用の道路
地図が表示されるだけでなく、情報検索用メニューなど
の様々な画像が表示され、さらに、オーディオ装置１５
がテレビのモードに設定されると、そのオーディオ装置
１５に備えられたテレビチューナにより受信されたテレ
ビの受信画像が表示される。

【００５０】そして、制御装置１は、ＣＰＵ，ＲＯＭ，
及びＲＡＭなどからなるマイクロコンピュータを中心に
構成されたシステム制御部２１と、システム制御部２１
に入力装置３からの指令やデータを入力するインタフェ
ース（Ｉ／Ｆ）２３と、マイクロフォン５から入力され
た音声信号をデジタルデータに変換してシステム制御部
２１に入力する音声入力部２５と、システム制御部２１
から出力されたテキストデータをアナログの音声信号に
変換してスピーカ７に出力し、スピーカ７を鳴動させる
音声合成部２７と、ディスプレイ８への表示画面の制御
を行う画面制御部２８と、上記ナビゲーション装置９，
エアコン装置１３，オーディオ装置１５，通信装置１
７，各種センサ１９，及び他の制御装置とシステム制御
部２１とをデータ通信可能に接続する機器制御インタフ
ェース（機器制御Ｉ／Ｆ）２９とを備えている。

【００５１】また、制御装置１には、通信装置１７によ
りインターネットから所望の情報を検索及び取得するた
めに、インターネットのアドレス（インターネットアド
レス）を記憶するインターネットアドレスデータベース
３１と、検索制御部３３とが備えられている。そして、
システム制御部２１が、検索制御部３３へ検索内容（コ
ンテンツ）を表す検索キーワードを出力すると、検索制
御部３３は、機器制御Ｉ／Ｆ２９を介し通信装置１７を
動作させて、インターネット放送端末から上記検索キー
ワードに対応した情報を検索し、その検索結果をシステ
ム制御部２１へ入力させる。また、インターネットアド
レスデータベース３１には、検索制御部３３によって過
去に用いられたインターネットアドレスが、システム制
御部２１からの指令によって記憶され、検索制御部３３
は、システム制御部２１から過去に入力した検索キーワ
ードと同じ検索キーワードを受けると、インターネット
アドレスデータベース３１内のインターネットアドレス
を再利用する。

【００５２】一方また、制御装置１は、マイクロフォン
５及び音声入力部２５を介して入力される音声信号か
ら、使用者が発話した言葉としてのキーワード（以下、
発話キーワードともいう）を認識して取得するために、
使用者が発話すると想定され且つ当該制御装置１が認識
すべき複数の認識語彙を予め記憶した認識語彙記憶部３
４を備えている。つまり、この認識語彙記憶部３４に記
憶されている認識語彙群が、当該制御装置１の認識語彙
データベースとなっている。

【００５３】またさらに、制御装置１は、スピーカ７か
ら出力する発話（以下、エージェント発話ともいう）の
内容（即ち、スピーカ７の動作内容）とスピーカ７以外
の他の機器Ｍの動作内容とを設定するため、及び、使用
者の要求と使用者の精神的或いは肉体的な状態とを推定
するためのデータを記憶する手段として、対話データベ
ースを記憶する対話データ記憶部３５と、要求・状態推
定用データを記憶する要求・状態推定用データ記憶部３
６と、使用者の複数人分の個人情報（以下、ユーザプロ
ファイルともいう）を記憶するユーザプロファイル記憶
部３７とを備えている。尚、この対話データ記憶部３
５，要求・状態推定用データ記憶部３６，及びユーザプ
ロファイル記憶部３７と、前述したインターネットアド
レスデータベース３１は、データの読み出しと書き込み
とが可能な不揮発性メモリによって構成されている。

【００５４】なお、対話データ記憶部３５に記憶される
対話データベース、要求・状態推定用データ記憶部３６
に記憶される要求・状態推定用データ、ユーザプロファ
イル記憶部３７に記憶されるユーザプロファイルなどに
ついては、例えば特願平１０−１６２４５７号、特願平
１０−１８４８４０号などを参照されたい。

【００５５】次に、以上のように構成された本実施形態
の制御システムにおいて、システム制御部２１で実行さ
れる処理の概要を図３を用いて説明する。なお、ここで
は、図１で言えば音声認識部にて認識処理を行い、対話
管理手段がその認識結果である単語列候補に対して所定
の処理を行う「単語列の認識」にかかわる処理について
説明する。

【００５６】処理が開始されると、入力された音声に対
して認識処理を行う（Ｓ１０）。そして、Ｓ２０での判
断結果に基づき、「入力待ち」であると判断してＳ１０
へ戻るか、多段階処理（Ｓ３０）を行うか、認識完了又
はタイムアウトであると判断してＳ４０へ移行する。Ｓ
３０での多段階処理の詳細については、後述する。

【００５７】Ｓ４０での対話管理に移行した後は、期待
外の応答であるかどうかを判断し（Ｓ５０）、期待外の
応答であればＳ６０へ移行し、期待外の応答の種類を判
別する。その判別結果に応じて、話題転換の確認（Ｓ７
０）、話題転換後の発話（Ｓ８０）、文脈優先の発話
（Ｓ９０）のいずれかを実行する。その後、発話処理
（Ｓ１８０）を経て、Ｓ１０へ戻る。

【００５８】一方、Ｓ５０にて期待外の応答ではない
（つまり期待に沿った応答である）と判断された場合
は、Ｓ１００へ移行する。Ｓ１００での判断処理におい
て、エージェントからの問い返し回数がＮ回を超えたと
判断された場合は、ヘルプモード処理を実行する（Ｓ１
２０）、また、Ｓ１００での判断処理において、エージ
ェントからの問い返し回数がＫ回（Ｋ＞Ｎ）を超えた場
合、又はユーザからのリセット要求があった場合は、Ｓ
１７０へ移行して初期状態に戻る。そして、これら以
外の場合、すなわち、エージェントからの問い返し回数
がＮ回以下の場合には、Ｓ１１０での判断結果に基づ
き、ディスプレイ８に選択肢を提示する処理（Ｓ１３
０）、通常の発話戦略（Ｓ１４０）、音声メニューモー
ド（Ｓ１５０）又は問い返し（Ｓ１６０）のいずれかの
処理を選択的に実行する。これらの詳細については後述
する。

【００５９】Ｓ１２０〜Ｓ１７０のいずれかの処理が実
行された後は、発話処理（Ｓ１８０）を経て、Ｓ１０へ
戻る。以上は、処理の概略的な流れの説明であったの
で、続いて詳細内容を説明していく。但しここでは、漸
進的階層探索、多段階処理、期待外時対応処理、誤認識
対応処理という本発明の概念単位の順番に説明すること
にする。但し、説明の都合上、期待外時対応処理と誤認
識対応処理については、[３．誤認識対応処理につい
て］としてまとめ、その中で区別して説明している。［１．漸進的階層探索について］［１．１概要］漸進的階層探索は、図３のフローチャ
ート中では、Ｓ１３０の選択肢を提示する処理に相当す
る。但し、１単語ずつ処理するために他の処理とは時間
サイクルが異なるため、事前に漸進的階層探索を実行す
るモードに設定しておく必要がある。したがって、漸進
的階層探索モードに設定されている場合に限り、図３の
Ｓ１３０は実行されることとなる。

【００６０】［１．２具体例］図４には漸進的階層探
索の具体的な画面遷移例を示す。（１）図４の最初の画面Ｇ１では、デフォルトモードに
おいて東海４県の県名が表示されている状態において
「愛知県」と発話した結果、愛知県にフォーカスされた
ことを示している。

【００６１】そして、制御システム側は、愛知県という
単語を認識した時点で「漸進的階層探索」機能を発揮し
て、次にユーザに期待する発話語彙を即座に画面に提示
する。この場合は、画面Ｇ２のように愛知県内の市町村
名を表示する。なお、画面Ｇ２では４つの市町村名しか
挙げていないが、これは説明を簡単にするためのもので
ある。なお、画面Ｇ２は、利用者が「岡崎」と発話した
結果、岡崎にフォーカスされたことを示している。

【００６２】そして、制御システム側は、岡崎が入力さ
れた時点で「漸進的階層探索」機能を発揮して、次にユ
ーザに期待する発話語彙を画面に提示できる状態にして
おく。ここで「提示できる状態にしておく」としたの
は、実際には、「岡崎で食事したいなあ」のように次の
単語が連続して発話されることが多いので、実用上は提
示しないからである。提示するのは、岡崎の後に所定時
間（例えば１〜２秒）の無音区間があった場合には、ユ
ーザが迷っていると推定し、発話語彙を画面提示する。
つまり「岡崎の要求メニュー」である。その内容は、誤
認識時に用いる画面Ｇ７の岡崎の要求メニューの内の
「もう一度お話下さい」を除いた部分となる。画面Ｇ３
が表示された状態で「インド料理がいいね。」と発話さ
れると、画面Ｇ４に示すようにインド料理にフォーカス
され、画面Ｇ５に示すように、「愛知県岡崎市インド料
理検索しています」という表示し、検索が終了する
と、画面Ｇ６に示すように、その検索結果を表示する。

【００６３】一方、画面Ｇ２に示す岡崎が発話された時
点で次に発話を期待する語彙以外の語彙が発話された場
合には、画面Ｇ７へ移行して「岡崎の要求メニュー」と
共に「もう一度お話下さい」という案内を加えた内容を
表示する。ここで、「食事」と発話されれば画面Ｇ３へ
移行し、「デパートは？」と発話されれば、画面Ｇ８に
示すように、該当するデパートを一覧表示する。そし
て、その内のいずれかが指定されて「△△△の地図」と
発話されると、画面Ｇ９に示すように、そのデパートの
位置が明確になるように、周辺の地図と共に表示する。

【００６４】（２）図５も漸進的階層探索の一例であ
る。図５の画面Ｇ１〜Ｇ３は図４にて示した画面内容と
同じであるが、デフォルトモードにおいて東海４県の県
名が表示されている状態において「東京」と発話する
と、画面Ｇ１１へ移行する。この場合、東京といっても
東京都のみを指すのではない場合もあるので、東京都周
辺を対象としてもよい。

【００６５】そして、制御システム側は、東京という単
語を認識した時点で「漸進的階層探索」機能を発揮し
て、次にユーザに期待する発話語彙を即座に画面に提示
する。この場合は、画面Ｇ１２に示すように東京都内の
市区町村名を画面表示する。そして、銀座と発話した時
点で銀座にフォーカスする。

【００６６】そして、制御システム側は、銀座という単
語を認識した時点で「漸進的階層探索」機能を発揮し
て、次にユーザに期待する発話語彙を画面に提示できる
状態にしておく。ここで「提示できる状態にしておく」
としたのは、上述の画面Ｇ２→Ｇ３へ移行する部分と同
様に、実際には、「銀座、○○○ビル」のように次の単
語が連続して発話されることが多いので、実用上は提示
しないからである。提示するのは、銀座の後に所定時間
（例えば１〜２秒）の無音区間があった場合である。画
面に提示する発話語彙は、銀座内の地名関連情報であ
る。例えば地名そのものでもよいし、使い勝手の面から
言えば、○○○ビルや□□デパートのような施設名でも
よい。

【００６７】そして、利用者から例えば○○ビルと発話
されると、画面Ｇ１３に示すように、その○○○ビルの
位置が明確になるように、周辺の地図と共に表示する。［１．３効果］例えば「岡崎で食事したいなあ、イン
ド料理がいいね」という発話が利用者からなされた場
合、ワードスポッティングによる音声認識手法の出力結
果は、「岡崎、食事、インド料理」という単語列にな
る。従来の音声認識手法では、これら３つが揃った段階
で認識に対応するシステム側の処理が開示されていた
が、本手法によれば、「岡崎」が入力された時点で、次
に利用者に入力を期待する発話語彙を即座に提示できる
ため、利用者はとまどうことなく発話できるようにな
る。これによって、誤認識の原因となる認識辞書外の語
彙を利用者が発話してしまうことを未然に防止できる。［２．多段階処理について］［２．１概要］（１）現状のワードスポッティング手法では１回の処理
に対する認識語彙数は１００語程度であり、連続単語認
識の辞書のような大規模化は困難である。一方、実用的
に見た場合、車室内において発生すると想定される特定
の話題（例えば「食事に行く」など）にフォーカスする
際には、例えば１００語程度でも対応可能である。した
がって、話題を的確に認識し、誤認識の際は話題の不連
続性を検出し、これらに応じてワードスポッティングの
語彙を切り替えていけばよい。そこで、多段階処理を行
う。

【００６８】図６には、「よこはまのちゅうかがいでし
ゅうまいでもくいたいなあ」という発話がなされた場合
に行う多段階処理の一例を示した。なお、本発話例で
は、以下のような単語属性に分類できるものとする。よこはまのちゅうかがいでしゅうまいでもくいたいなあ（場所）（施設名）（要求対象）（要求キーワード）したがって、まず、何が要求であるかを把握するため、
第１段階では「くいたい」という要求キーワードをスポ
ッティングし、話題を確定する。

【００６９】そして、第２段階では、第１段階で確定さ
せた話題から語彙を限定し、辞書を切り替える。すなわ
ち、この場合には、目的地をベースとしたレストラン名
と関連する料理名で１００語の大半を構成する。これ
は、「くいたい」という要求キーワードから食事の要求
であることが判るため、単語列を構成する他の単語はレ
ストラン名や料理名となっていると予想できるからであ
る。これにより、「ちゅうかがい」や「しゅうまい」な
どが認識語彙としてヒットし易い辞書を構成することが
できる。

【００７０】（２）なお、図６では第１段階の処理とし
て要求キーワードをスポッティングして話題を確定して
いるが、それ以外の施設名や場所、あるいは要求対象を
スポッティングして話題を確定してもよい。但し、現実
的には、ワードスポッティングの語彙数は現状では１０
０語程度であるので、その程度の語彙でまかなうことを
鑑みると、要求キーワードでの話題確定が好ましい。

【００７１】（３）また、図６で示した具体例は、１の
単語列を構成する単語の属性という観点からｎ次元の軸
を設定したが、さらに時間軸に沿った関連性を考慮して
も良い。つまり、文脈という観点も加味して話題を確定
するのである。［２．２ユーザ発話の基本構成］ユーザの発話はたい
ていのコンテンツ検索の場合、『場所』『施設名』『要
求対象』『要求キーワード』からなるか、その並び替
え、あるいは省略形で基本形が構成されると考えられ
る。語順が変わる場合には要求キーワードが音声信号中
のどこに存在するかは不明であるが、例えば本願出願人
が特願平１１−２０３４９号にて提案したような適正単
語列の推定手法を用いることにより、構文的な制約に基
づいて複数の候補に対して優先順序を定めることはでき
る。

【００７２】［２．３認識辞書の構成］認識辞書は図
２に示す認識語彙記憶部３４に記憶されている認識語彙
データベースから動的に構成し得るものとする。認識語
彙データベースは、システムで扱う現実の話題に対応し
て予め各カテゴリ毎の語彙クラスタに分割しておく（図
７参照）。なお、この各カテゴリ毎の語彙クラスタはク
ラスタ辞書と呼ばれる。また、カテゴリには例えば下記
のような種類がある。

【００７３】（１）各種コマンド・ナビコマンド・スケジュール帳・アドレス帳・電話（２）要求キーワード（要求ＫＷ）（３）施設名レストラン名・料理名・雰囲気・値段スキー場名ゴルフ場名デパート名遊園地名公園名映画館名温泉（４）イベント名（５）検索結果（６）地名（７）鉄道駅名（８）基本的な対話語彙・肯定、否定・問い合わせ・説明、状況通知、確認、…… これらの構成語彙にはデータベースの要素となる固有名
詞のみならず、対話上の同義語（はらへった、ごはんた
べたい、ｅｔｃ）も含まれる。この各々からここでは１
回のワードスポッティングの語彙即ち、目的地をべース
としたレストラン名と関連する料理名（ここではユーザ
プロファイルも参照する）で１００語の大半を構成す
る。これをもとに『中華街』や『しゅうまい』などが認
識語彙としてヒットする。

【００７４】［２．４単語間のネットワーク］辞書の
基本構造は上記の階層表現に準じて定義するが、その他
の意味的関係などのネットワーク関係は随時、ユーザや
データベース供給者から提供される。例えば、ユーザ発
話は下記のような属性の組（対話べクトルと呼ぶ）の集
まりである対話データベース（図８）の中で位置づけら
れる。

【００７５】（話題、時間・位置、環境・状況、状態・
要求、ユーザ発話、エージェント発話、制御出力）対話
ベクトルは無数に存在しうるが、あらゆるベクトル値を
取るわけではなく、人間と機械との間の実際的なコミュ
ニケーションの単位として、意味のある有限個のまとま
りにクラスタリングできる。そこには単語の意味的な分
類、文法的制約、話題の連続性、物理的・常識的制約、
事象の連続性などが用いられる。したがって、（Ａ）あるユーザ発話を構成する単語列に用いられる語
彙の範囲（Ｂ）現在の発話から次の発話に至る際の語彙の制約は対話ベクトルが張る空間を構成する主要因となる（話
題、時間・位置、環境・状況、状態・要求）に大きく影
響される。

【００７６】そこで、あるユーザ発話における単語が他
の単語に対してどういうネットワーク構造になるかは下
記の要因で決定する。（１）クラスタ辞書間の関係（２）単語間の関係（３）話題間の関係（４）文脈の連続性（５）ユーザの特性や状況（６）アプリケーション間以上の関係に基づいてある単語Ｗ１から別の単語Ｗ２が
活性化され、これを次のユーザ発話に対する認識辞書の
語彙に加える。さらに、認識結果に付随する尤度値ＬＦ
Ｋを高めるように音声認識モジュールのパラメータを調
整する。ここで、（１）クラスタ辞書間の関係、（２）
単語間の関係、（３）話題間の関係、（４）文脈の連続
性、（５）ユーザの特性や状況に関して補足説明する。

【００７７】［２．４．１クラスタ辞書間の関係］基
本的には、上述した［２．３］辞書の構成で述べた関係
に準ずる。（例）施設→スキー場→おんたけスキー場［２．４．２単語間の意味的関係］［２．４．２．１包含関係］（例）中華料理→シュウマイ、ラーメン、ギョーザ、…
… （例）スポーツ→テニス、スキー、スイミング、ジョギ
ング、…… ［２．４．２．２連想関係］（１）同一分類のオブジェクトを連想する場合（例）うどん→麺類＋ラーメン（２）シーンの構成要素を連想する場合（例）ゲレンデ→スキー→リフト、スノーボード、ゴー
グル、…… （例）ゴルフ→ゴルフ場→ホール、キャデイ、フェアウ
ェイ、クラブ…… （例）海辺→海水浴→水着、ビーチパラソル、青い空、
白い雲、…… （３）シーンに関連する興味の対象を連想する場合（例）スキー→ゲレンデ、雪質、リフト…… （例）ゴルフ→天気、経路、費用、スコア、…… （４）季節から代表的なシーンを連想する場合（例）夏→プール、海水浴、かき氷、セミ、クーラー、
…… （５）要求キーワード間に基づく連想（例）はらへった→レストラン［２．４．３話題間の関係］現在の話題に連関した話
題のキーワードを活性化することにより、認識語彙を設
定することができる。その連関のカテゴリは手段、付随
する行動、よくある付帯事象、などがある。

【００７８】（例）ショッピング→駐車場（手段）、レ
ストラン（付随する行動）、バーゲン（付帯事象）…… ［２．４．４文脈の連続性］［２．４．４．１話題の連続性］通常の自然な対話に
見られるように、ある話題（たとえばショッピングな
ど）で閉じた認識語彙の範囲で対話が継続することが考
えられる。このような話題の連続性という制約のもとで
認識語彙を設定することができる。

【００７９】［２．４．４．２発話−応答の妥当性］
車室内に代表される対話環境では、ある発話内容（ユー
ザもしくはエージェントによる）は、｛呼びかけ、申
告、通知、教示、解説、指示、依頼、警告、督促、問い
合わせ｝のいずれかに分類できると考えることができ
る。一方、この発話に対する応答は、｛応答、確認、保
留、判断、回答、その他応答｝に分類できる。この発話
と応答の組み合わせを発話対、あるいは対話ユニットと
呼ぶ。この対話ユニットに基づいて話題の内容によら
ず、文脈の論理的な連続性を定義することができる。図
９中に「○」で示した部分は対話ユニットとして成立す
る発話−応答の組み合わせを示す。この対話ユニットを
もとにしてエージェントは次のユーザ発話に含まれる認
識語彙を予想して設定することができる。

【００８０】以下、発話内容と、この発話に対する応答
の具体例について説明する。なお、ユーザの発話につい
ては「…」で示し、エージェントの発話については
『…』で示す。（１）呼びかけ一般的な意味での呼びかけや挨拶などがこれに含まれ
る。

【００８１】（例）呼びかけ：「おい、ＸＹＺ。」返事：『はい、何ですか。』（例）呼びかけ：『おはようございます、今日はいい天気です
ね。』返事：「ああ、おはよう。」（２）申告（例）申告：「今日は家族とドライブ。」確認：『御家族とドライブですね。』（３）通知（例）通知：『およそｌｋｍ先、渋滞です。』無応答：「」、又は確認：「わかった。」（例）通知：『私の名前はＸＹＺです。』確認：「ＯＫ。」、「よろしく。」（４）教示（例）教示：「今、雨が降ってきた。」確認：『“現在、雨が降っている”というメッセージを
確認しました。』（５）解説（例）解説：『操作方法がわからないときはへルプといって
ください。』無応答：「」（６）指示（例）指示：『ユーザパスワードをしゃべってください。』確認：「わかった。ｘｘｘｘｘ」（７）依頼（例）依頼：『そろそろガソリンが少なくなってきました。次
の交差点のガソリンスタンドで給油していただけません
か？』保留：「いや、あとにしよう。」（８）警告（例）警告：『１０ｋｍ先、○○トンネルで事故発生。次のイ
ンターで降りてください。』判断：「わかった、そうしよう。」（９）督促（例）督促：『ユーザ名がまだ登録されていません。すぐに登
録してください。』確認：「わかった。」（１０）問い合わせ問い合わせには次の４種類がある。

【００８２】合意要請（例）：『御出にならないので電話接続を中止します。
よろしいですか？』選択要請（例）問い合わせ：『Ａですか？Ｂですか？』回答：「Ａです。」問い合わせ場所、時間、情報など特定データの問い合わせをするユ
ニットである。

【００８３】（例）問い合わせ：「○○○○スキー場の
積雪情報はどうなっている？」（例）問い合わせ：『これからどちらへいかれますか
？』話題の確認文脈から外れた突然の話題遷移が発生したことをユーザ
に確認する。

【００８４】（例）：「１２時に岡崎にいく。」「ねむ
い。」問い合わせ：『”ねむい”と聞こえましたけど、岡崎の
話はどうなりましたか？』［２．４・４・３対話ユニット間の接続性］上記の
対話ユニット内の呼応関係のみならず、対話ユニット間
の接続（話題の遷移や呼び出し、終了を含む）の妥当性
に関する制約も認識語彙の設定において考慮することが
できる。

【００８５】［２．４．５ユーザの特性や状況］ユー
ザ発話に付随するユーザの環境・状況・要求・状態、ユ
ーザプロファイルに基づいて次のユーザ発話に対応でき
る認識辞書を設定する。この場合、必ずしも上述の文脈
の連続性が保たれるとは限らない。

【００８６】（１）自然な要求推定例えば本願出願人が特願平１０−１８４８４０号にて提
案したような要求推定装置に基づくと共に、図２に示す
要求・状態推定用データ記憶部３６に記憶された要求・
状態推定用データを参照し、ユーザの環境・状況・要求
・状態、ユーザプロファイルから次の認識語彙を限定す
る。

【００８７】（２）突然の運転状況の変化不連続的に発生する予測不可能な緊急事態や警告の対象
となる事態に際して、文脈の連続性を一時停止し、事態
に必要な話題を割り込ませるべく認識語彙辞書を設定す
る。

【００８８】（例）エージェント：これからどうなさいますか？』ユーザ：「○○駅前で買い物」エージェント：『到着時刻は１１時ごろです。駐車場は
どこにしますか？』（先行車が急停止したので急ブレーキをかけた）ユーザ：「あー、危なかった。」エージェント：『危なかったですね、安全運転にこころ
がけてください。お疲れならば休みますか？』（３）システムの機能移行機能が切り替わったときにシステムが発話し、必要な対
話を開始するべく認識語彙を設定する。

【００８９】［２・５多段階処理の具体例］多段階処
理の具体例を、図１０，１１のフローチャートを参照し
て説明する。ここでは、まず使用頻度の高いローカル情
報を優先するかどうかを判断して（Ｓ２１０）、認識処
理を２つにわける。なお、分岐条件はこれ以外にも考え
られ、対話戦略に依存する。

【００９０】ローカル優先の場合は（Ｓ２１０：ＹＥ
Ｓ）、代表的な場所、施設名、要求キーワード、要求関
連属性でＮ語の辞書を構成し、ワードスポッティングを
かけ（Ｓ２２０）、要求キーワードの尤度を構文評価で
補正する（Ｓ２３０）。そして、キーワード属性の重み
付けによって尤度を補正し（Ｓ２４０）、単語列の順序
付け（Ｓ２５０）を行う。その後、認識完了した音声区
間を次回の認識対象から外し（Ｓ３６０）、全音声区間
を認識完了していなければ（Ｓ３７０：ＮＯ）、不足す
る属性の語彙を追加して辞書更新の準備をしてから（Ｓ
３８０）、Ｓ２１０へ戻る。

【００９１】なお、この場合はＳ２２０〜Ｓ２５０がロ
ーカル優先の場合の処理であり、この処理は「多段階処
理」ではない。そして、このローカル優先の場合の処理
によれば、１回の認識ですべての音声区間を処理可能で
あり、認識時間も少ないが、検索対象が例えば１００語
に収まるように限られるため、日常的な要求から外れた
発話の場合は誤認識になる確率が高くなる。

【００９２】一方、ローカル優先でない場合、すなわち
要求を優先する場合は（Ｓ２１０：ＮＯ）、まず、１回
目の認識か否かを判断し（Ｓ２６０）、１回目の認識で
あれば（Ｓ２６０：ＹＥＳ）、認識属性を要求キーワー
ドに設定して（Ｓ２７０）、Ｓ２８０へ移行する。２回
目以降の認識であれば（Ｓ２６０：ＮＯ）、Ｓ２７０の
処理は実行せずＳ２８０へ移行する。Ｓ２８０では、認
識属性のキーワードを多く含む単語セットを構成し、そ
の構成された単語セットを用いてワードスポッティング
を実行する（Ｓ２９０）。

【００９３】その後、要求キーワードの尤度が所定値
（ここでは一例として０．６とする。）以上かどうかを
判断し（Ｓ３００）、要求キーワードが０．６以上の尤
度を持っていれば（Ｓ３００：ＹＥＳ）、Ｓ３１０へ移
行する。Ｓ３１０では、同一属性の単語が複数ある場合
は構文位置を優先する。つまり、これで要求キーワード
に基づく要求が確定し、続くＳ３２０においては、ヒッ
トしたキーワードに対応する属性を次回の認識語彙に設
定する。その後は、認識完了した音声区間を次回の認識
対象から外し（Ｓ３６０）、全音声区間を認識完了して
いなければ（Ｓ３７０：ＮＯ）、不足する属性の語彙を
追加して辞書更新の準備をしてから（Ｓ３８０）、Ｓ２
１０へ戻る。

【００９４】一方、要求キーワードの尤度が０．６未満
の場合は（Ｓ３００：ＮＯ）、Ｓ３３０へ移行し、他の
属性で尤度が０．６以上の単語があるか否かを判断す
る。そして、尤度が０．６以上の単語があれば（Ｓ３３
０：ＹＥＳ）、その中で最も尤度が高い単語を認識属性
とし、その認識属性のキーワードを多く含む単語セット
を構成してワードスポッティングを実行する（Ｓ３４
０）。しかし、尤度が０．６以上の単語がなければ（Ｓ
３３０：ＮＯ）、場所、施設名、要求関連属性でＮ語の
辞書を構成し、ワードスポッティングを実行する（Ｓ３
５０）。Ｓ３４０，Ｓ３５０の処理後は、認識完了した
音声区間を次回の認識対象から外し（Ｓ３６０）、上述
したとおり、全音声区間を認識完了していなければ（Ｓ
３７０：ＮＯ）、不足する属性の語彙を追加して辞書更
新の準備をしてから（Ｓ３８０）、Ｓ２１０へ戻る。

【００９５】一方、全音声区間を認識完了していれば
（Ｓ３７０：ＹＥＳ）、単語列の推定をし（図１１のＳ
３９０）、エコーバックして（Ｓ４００）、不足条件を
問い合わせる発話を行う（Ｓ４１０）。その後、ユーザ
の応答が否定的発話（例えば、違う、そうじゃない、な
ど）かどうかを判断し、否定的発話でなければ（Ｓ４２
０：ＮＯ）、不足する属性の語彙を追加して辞書更新の
準備をしてから（Ｓ４３０）、図１０のＳ２１０へ戻
る。一方、否定的発話であれば（Ｓ４２０：ＹＥＳ）、
Ｓ４４０〜Ｓ４７０の誤認識対応処理を実行する。

【００９６】具体的には、Ｓ４４０にてモード設定に基
づいて分岐し、連続単語認識に切り替えてユーザに発話
方法を指示するか（Ｓ４５０）、ヘルプモードとして要
求キーワードを入れるようユーザに指示する（Ｓ４６
０）、漸進的階層探索として認識可能な語彙を表示する
か（Ｓ４７０）、のいずれかを実行する。その後は、不
足する属性の語彙を追加して辞書更新の準備をしてから
（Ｓ４８０）、図１０のＳ２１０へ戻る。

【００９７】このような処理を、例えば「えーと、あん
じょうでらーめんをくいたい」といったユーザ発話音声
に対して実行した場合について説明する。まず、音声区
間から要求キーワード（くいたい、など）を優先的に検
出する。このために、認識語彙も要求キーワードを多く
含む（要求の種類や同一要求に対する同義語・類義語・
連想語を充実させる）構成にする。しかし、この要求優
先の場合、１回のワードスポッティングでは認識が完了
しない。したがって、図６に示したように要求キーワー
ドが確定（食事関連）した後に次の施設名や要求対象を
それぞれ１回のワードスポッティングに対応させて認識
を繰り返し、すべての音声区間を認識終了した時点で単
語列推定を駆動させて単語列認識結果を絞り込む。な
お、この単語列認識結果の絞り込みの詳細については、
例えば特願平１１−２０３４９号を参照されたい。

【００９８】これをもとにシステムは「あんじょうでら
ーめんをたべるんですね」といったエコーバックの発話
を行い（Ｓ４００）、論理的発話戦略の駆動により不足
条件を問い合わせる発話（Ｓ４１０）として「あんじょ
うには３けんらーめんやがあります。みせはどこにしま
すか？」と発話する。これに対してユーザは、まったく
異なる発話「○○でれいぞうこをかいたい」と発してい
たとすると、上述のエコーバック結果に対しては否定的
応答（「ぜんぜん違う」など）を発話する（Ｓ４２０：
ＹＥＳ）。したがってその場合は誤認識対応処理（Ｓ４
４０〜Ｓ４７０）が駆動される。

【００９９】一方、否定的応答がなされない場合（Ｓ４
２０：ＮＯ）、ユーザとの問で正しく対話がなされてい
るとエージェントは解釈し、次にユーザが発話すると期
待されるキーワード群（いっけんめ」、「すしやにかえ
て」など）を認識語彙辞書に設定して（Ｓ４３０）、ユ
ーザの発話を待つ。

【０１００】[３．誤認識対応処理について］音声認識
部から出力される認識語彙の尤度判定と語彙限定、ユー
ザからのへルプ要求、画面表示の支援に基づく入力の簡
単化（スイッチ操作の併用）、不足条件の判定、サービ
ス内容の有機的連関付けなどに基づきへルプ、選択肢の
提示、初期化、問いかけを駆動する。

【０１０１】［３．１誤認識の検出］エージェントが
ユーザ発話を認識できていない状況は誤認識であり、以
下のケースがある。どの認識辞書にもない言葉をユーザが発話他の辞書にはあるが、現在使っている辞書にない言葉
をユーザが発話ユーザ以外の話者の発話内容に応答し、ユーザの意図
に反してモード移行このような状況は、エージェントの応答に対してユーザ
が「ちがう」、「わかってないね」、「全然だめ」とい
った発話をすることで検出される。この場合、下記のい
ずれかの対話内容をユーザの状況に応じて選択する。

【０１０２】（１）音声メニューモード（２）選択肢を出すなお、例えば「ちがう」などの発話がユーザからＫ回以
上繰り返されたときは初期状態に戻る。Ｋは例えば５と
する。

【０１０３】［３．１．１期待外の応答であることの
検出認識語に付随する尤度のしきい値処理に基づき、尤度が
低い場合は音声認識の信頼度が低いため認識語彙以外の
発話がなされたとして、［誤認識の可能性有り］と判定
する。

【０１０４】［３．２話題転換の検出］ユーザ発話が
エージェントの期待から外れているかどうかはそれまで
の文脈に沿っているかどうか、即ちある話題の中で予想
される発話かどうかで判定する。予想される発話は
「２．４単語間のネットワーク」で示した単語間の関係
をもとにして導出され、これに対応する語彙を認識辞書
に設定する。これを便宜上ケースＡと呼ぶ。それ以外の
場合は、予想されない発話であり、それを構成する単語
は下記のように分類できる。

【０１０５】（Ｂ１）認識語彙辞書に登録されていない
単語（Ｂ２）認識語彙辞書に登録されているが、違う話題の
単語（Ｂ２ａ）現在の認識語彙範囲に含まれている単語（Ｂ２ｂ）現在の認識語彙範囲に含まれていない単語このうち、（Ｂ１）と（Ｂ２ｂ）は通常のワードスポッ
ティングでは認識され得ないため、不用語とみなされる
かあるいは信号処理的に近いとみなされる他の認識可能
語彙に置き換えられて出力される。これらは後述の誤認
認処理で対応する。

【０１０６】一方、（Ａ）と（Ｂ２ａ）については以下
の３つの処理形態で対応する。（１）文脈優先処理［（Ａ）の場合］出力された複数の認識候補（ラティス）間に尤度の差異
があまり認められない（分散が小さい）とき、文脈に沿
った認識候補が優先して選ばれる。

【０１０７】（２）突然の話題の遷移（話題転換）
［（Ｂ２ａ）の場合］出力した認識候補が１個であり、ある一定しきい値以上
の尤度を持つ場合、この話題に突然遷移したことを認め
る。（３）突然の話題の遷移の確認［（Ｂ２ａ）の場合］出力した認識候補が１個であるが、ある一定しきい値以
上には満たない尤度を持つ場合、この話題に突然遷移し
たのかどうかを確認するため、ユーザに問い合わせる。

【０１０８】［３．２．１話題転換の検出］現在の話
題とは異なる要求キーワードが認識された場合には話題
が転換した可能性があるとみなす。［３．２．２話題転換の確認］上記に基づき、システ
ムはユーザに対して話題が転換したことを確認する問い
かけの発話を生成する。

【０１０９】（例）エージェント『□□駅前には３件のラーメン屋がありま
す。』ユーザ「東京の○○さんに電話をかける」エージェント『電話をかけますか？』ユーザ「うん。東京の○○さんに」エージェント『東京の○○さんに電話をかけます』［３．２．３話題転換の発話］話題が転換したことを
宣言する発話を生成する（上記例参照）。

【０１１０】［３．３文脈優先の発話］それまでの話
題Ｔ(ｎ)（ｎ：発話対の通し番号）が継続していると仮
定し、次回のエージェント発話もその話題に基づいて生
成する。従って、今回のユーザ発話の解釈結果Ｕ(ｎ)が
話題Ｔ(ｎ)に関連しない語彙であっても、それに即応せ
ずに、話題Ｔ(ｎ)からの文脈に沿って発話内容に限定処
理を加える。

【０１１１】（例）エージェント『○○駅前には３件のラーメン屋があります。』・・・・・・・・・・・・・・・・・・・｛Ｔ(ｎ)＝食事｝ユーザ「あっ、電話かけなきゃ。」・・・・・・・・・・・・・・・・・・・｛「電話」が認識されればＴｎｅｗ＝電話だが話題を更新しない｝エージェント『どのラーメン屋にしますか？』・・・・・・・・・・・・・・｛Ｔ(n+1) ＝Ｔ(ｎ)＝食事｝ユーザ「えーと、□□」エージェント『□□へのルートを表示します。』なお、上述した話題転換と、ここで説明した文脈優先は
相反する応答だが、例えば、その条件判断はＵ(ｎ)の尤
度情報ＬＦＫやＵ(ｎ)で示される話題Ｔnew の連続出現
回数Ｎtnewなどを用いる。即ち、Ｎtnew＞２且つＬＦＫ
＞０．４ならば話題はＴ(n-1) からＴ(ｎ)＝Ｔnew に移
行し、それ以外の場合はＵ(ｎ)から得られたＴnew は棄
却し、Ｔ(ｎ)＝Ｔ(n-1) とする、といった条件分岐を用
いる。

【０１１２】［３．４ヘルプモード］起こりやすい誤
認識の例、代表的な要求キーワード、などの選択肢を表
示したり音声で発話する。（例）・電話をかける場合は、「でんわをかける」で電話番号
画面を表示し、相手先の電話番号を入力してください。
登録されている相手先（例えば○○さん）の場合は「で
んわをかける、○○」でも結構です。

【０１１３】・次のどれですか？もういちど発話してく
ださい。｛食事（レストラン、ごはん、おなかすい
た）、スケジュール帳、アドレス帳（住所録、電話
帳）、地図（経路案内、ドライブアシスタント）｝・かっこ内の同義語でもう一度発話してください。

【０１１４】・地図表示の場合は、経路案内から道路図
を選択したほうが確実です。・目的地は市町村をつけて発話した方が正確です。（例
かりや→かりやし）［３．５選択肢の提示］選択肢提示は既に説明した漸
進的階層探索に相当する。

【０１１５】［３．６通常の発話戦略］認識結果（認
識語、尤度）をもとに誤認識が検出されなかった場合は
通常の発話戦略が適用される。この通常の発話戦略の内
容は本発明の主眼とするところではないので、ここでは
詳細については言及しない。

【０１１６】［３．７対話管理の適応化］［３．７．１環境・状況への適応］時間（季節、日
時、時刻［朝昼夜］）、空間（自車位置、地域［都道府
県、市町村］）、環境（道路環境［高速、一般道、トン
ネルなど］、道路状態［路面凍結、滑り易い、他］、交
通環境［高速道路、速度制限など］、地理環境［海が近
い、山の中、街中、駅前、など］）、車外状況（天候、
交通状況［渋滞など］、車外周辺状況［追い越し車あ
り、など］）、車内状況（運転状態、乗車状態、移動目
的、話題）などに応じて、話題の選定や対話管理、適切
なメッセージの伝達などを行うことができる。なお、こ
れらは表示系にも反映される。

【０１１７】［３．７．２スケジュールへの適応］（１）ドライブスケジュールユーザの設定した目的地や経由地に基づき、ドライブス
ケジュールを作成し、各イベントの意味（食事、ショッ
ピング、観光など）と場所・時間に基づいて、話題の決
定や対話管理、さらにはドライブスケジュールの空白部
分について提案することができる。

【０１１８】（２）個人スケジュールＰＤＡやＰＣ用のインタフェースを介してＰＤＡやＰＣ
上の個人スケジュールデータをダウンロードし、それに
基づいて話題の決定や対話管理、さらには個人スケジュ
ールの空白部分について提案することができる。

【０１１９】［３．７．３ユーザが応答の意味を理解
できないとき］ユーザが「どういう意味」、「よくわか
らん」といった発話をしたとき、ユーザはエージェント
応答の意味を理解できていないと判断し、次のいずれか
の処理を行う。

【０１２０】（１）ヘルプ機能（２）メニュー選択（３）音声メニュー［３．７．４エージェントがユーザ要求に対応できな
いとき］ユーザ発話を正常に認識できても、以下のよう
な場合ではエージェントがユーザの要求に対応できない
ときがある。これらについてはその状況を音声メッセー
ジで伝達する。

【０１２１】検索結果がない（該当データベースがな
い）該当する機器がない、故障中あるいは準備されていな
い（電話が接続されていない、など）操作対象となる機器の動作範囲を超えた制御命令が出
されたとき［３．８音声メニューモード］例えば本願出願人が特
願平１０−１７７６６７号にて提案したような機器操作
モードに移行する。各操作モードにおいて必要なコマン
ドは必ず優先的に認識語彙辞書に加え、認識の尤度を高
める。

【０１２２】［３．９問い返し］問い返しは下記のよ
うにいくつかの場合が考えられ、問い返す場合にはその
内容に沿った語彙に限定した認識辞書が設定される。（１）エージェントが正しく話題を認識しているにもか
かわらず、それに沿ったユーザ発話がなされなかった場
合、話題確認のための問い返しを発することにより、そ
れ以後の誤認識を回避する。

【０１２３】（例）エージェント『□□駅前には３件のラーメン屋がありま
す。』ユーザ「東京の○○さんに電話をかける」エージェント『電話をかけますか？』（２）エージェントが話題を間違えて認識し、ちがう話
題のもとで不足条件を問い合わせた場合、ユーザからの
問い返し又は否定的発言（「ちがうよ」や「そうじゃな
い」など）により、正しい話題が何であるかを問い返
す。これにより、それ以後の誤認識に歯止めをかける。

【０１２４】（例）ユーザ「東京の○○さんに電話をかける。」エージェント『□□駅付近のレストランを表示します。
どれにしますか？』ユーザ「そうじやない、電話をかける」エージェント『電話ですか、食事ですか？』ユーザ「でんわ」これは、すでにレストラン検索依頼が出ており、その検
索をしている最中にユーザが電話をかけるという割り込
み要求を行った場合である。２つの用件（電話か食事
か）の優先順位を問い返した例と言える。

【０１２５】（３）エージェントが正しく話題を認識
し、文脈上必要な条件が不足していることを確認した上
で問い返す。これにより、文脈に沿った正しい対話が展
開され、問題解決を促進する。（例１）ユーザ「東京の○○さんに電話をかける。」エージェント『東京の○○さんに電話をかけるんです
ね。それは○○◇◇さんですか、それとも○○△△さん
ですか？』ユーザ「○○◇◇さん」エージェント『○○◇◇さんに電話をかけます』（例２）ユーザ「東京の○○さんに電話をかける」エージェント『□□駅付近のレストランを表示します。
どれにしますか？」ユーザ「あとにして。先に電話をかける。」エージェント『東京の○○◇◇さんに電話をかけます．
よろしいですね。」ユーザ「うん、そうして」ここで説明した（例１）の場合は、エージェントが正し
く認識し、電話をかけるという問題解決に向けて不足し
ている条件を問い合わせた例である。

【０１２６】また、（例２の）場合には、ユーザが電請
をかける意図がそれまでの対話の経過やスケジュールな
どでわかっているならば、その電話の用件（○○さんと
食事する）で必要な情報を事前に検索することが可能に
なる。つまり、気を回して自主的にレストラン検索を行
い、問い返した例と言える。

【０１２７】［３．１０初期化］ユーザからの問い返
しがＫ回（Ｋ＞Ｎ）を超える場合、初期状態あるいはト
ップのメニュー画面に戻る。以上説明したように、本実
施形態の制御システムによれば、漸進的階層探索、多段
階処理、期待外時対応処理、誤認識対応処理を行うが、
それぞれの処理によって以下の効果がある。

【０１２８】まず、漸進的階層探索の場合には、上述し
た「岡崎で食事したいなあ、インド料理がいいね」とい
う発話を例に取れば、ワードスポッティングによる音声
認識手法の出力結果が「岡崎、食事、インド料理」とい
う単語列であった場合、従来の音声認識手法では、これ
ら３つが揃った段階で認識に対応するシステム側の処理
が開示されているのに対し、本手法によれば、「岡崎」
が入力された時点で、次に利用者に入力を期待する発話
語彙を即座に提示できる。そのため、利用者はとまどう
ことなく発話できるようになる。これによって、誤認識
の原因となる認識辞書外の語彙を利用者が発話してしま
うことを未然に防止できる。

【０１２９】また、多段階処理の場合には、単語列を構
成する要求キーワードなどを軸として、単語列を構成す
る単語間の意味的な制約を利用して認識辞書を動的且つ
小規模に構成することにより、適切な認識を行う。これ
によって、利用者の意図しない誤認識が発生しないよう
にできる。

【０１３０】また、期待外時対応処理においては、対話
中における利用者からの発話が文脈に沿った期待通りの
内容ではない場合に、話題が転換されたのかどうかを確
認するための問いかけを行う話題転換確認処理、話題が
転換されたことを宣言する話題転換宣言処理、それまで
の話題が継続していると仮定して文脈に沿った対応を行
う文脈優先対応処理のいずれかを行う。一方、誤認識対
応処理においては、対話中における利用者からの発話が
所定の否定的内容であった場合に、正しい話題が何であ
るかを確認するための問い返す問い返し処理や、要求す
る内容に対応したキーワードを含める指示を利用者が視
覚又は聴覚にて認識可能なように提示するヘルプモード
処理や、初期状態に戻る初期化処理などを実行する。こ
のようにすることで、誤認識に起因して利用者が途方に
暮れてしまう、といった不都合を防止することができ
る。

【０１３１】さらに、本実施形態の場合には、これら漸
進的階層探索、多段階処理、期待外時対応処理、誤認識
対応処理が組み合わされているため、さらに効果的であ
る。ところで、本実施形態においては、例えば自動車に
搭載されて、ユーザとしての車両の乗員（主に、運転
者）と音声にて対話しながら、その車両に搭載された様
々な機器を制御するシステムとして説明したが、図１の
概念図に示すように、その他の信号系認識部にて認識し
た結果としての単語列候補に対しても同様の処理が可能
である。例えば、認識対象者によって入力された手書き
文字列を辞書データと比較し、一致度合の高い複数の単
語列候補を出力する文字認識装置であってもよい。手書
き文字に関してもやはり誤認識が発生し易いため、適正
な単語列を推定することは有効性が高い。また、音声認
識や文字認識のように、認識装置に入力される時点で直
接的に単語列の内容となっているものに限らず、画像認
識装置であってもよい。即ち、認識対象を捉えた画像を
場面として認識した上で、場面を自然言語化するような
認識装置であれば実現できる。具体的には、例えば認識
対象者が手話をしている画像から手話パターンを認識
し、その手話パターンが表す自然言語的な意味を示す単
語列候補を出力するようなものである。手話パターンに
ついても、微妙な指使いによって表す単語が異なるた
め、手話をする者の個人差などによって、やはり誤認識
は発生する。したがって、やはりこの場合も、誤認識が
含まれる可能性の高い手話パターンの認識装置において
も、上述した各種処理を実行することで、誤認識を防止
したり、あるいは誤認識が発生した後の適切な対処を行
うことができ、誤認識に起因して利用者が途方に暮れて
しまう、といった不都合を防止することができる。

【０１３２】以上、本発明の一実施形態について説明し
たが、本発明は、上記実施形態に限定されるものではな
く、種々の形態を採り得ることは言うまでもない。例え
ば、図３の処理概要を示すフローチャートにおいては、
多段階処理（Ｓ３０）が先に行われ、その後の誤認識対
応処理の中で漸進的階層探索（Ｓ１３０が相当する）が
実行されているが、そのような順番には限定されない。

【０１３３】また、上記実施形態の場合には、漸進的階
層探索、多段階処理、期待外時対応処理、誤認識対応処
理が組み合わされていたが、これらは単独で実施しても
効果はある。但し、上述したように、組み合わせて実施
すればさらに効果的である。その際、４つの処理を全て
組み合わせなくてはならないわけではなく、２つ以上の
処理の組み合わせであればよい。

【図面の簡単な説明】

【図１】実施形態の単語列認識装置について機能に着
目して概念的に示したブロック図である。

【図２】単語列認識装置を車載の制御システムに適用
した場合の構成を示すブロック図である。

【図３】システム制御部で実行される処理の概要を示
すフローチャートである。

【図４】漸進的階層探索の具体的な画面遷移例を示す
説明図である。

【図５】漸進的階層探索の具体的な画面遷移例を示す
説明図である。

【図６】多段階処理の概要を示す説明図である。

【図７】辞書の動的構成の概要を示す説明図である。

【図８】対話データベース表の構成を示す説明図であ
る。

【図９】対話ユニットとして成立する発話−応答の組
み合わせを示す説明図である。

【図１０】多段階処理の前半を示すフローチャートで
ある。

【図１１】多段階処理の後半を示すフローチャートで
ある。

【符号の説明】

１…制御装置３…入力装置５…マイクロフォン７…スピーカ８…ディスプレイ９…ナビゲーション装
置１１…表示装置１３…エアコン装置１５…オーディオ装置１７…通信装置２１…システム制御部２５…音声入力部２７…音声合成部２８…画面制御部２９…機器制御Ｉ／Ｆ３１…インターネット
アドレスデータベース３３…検索制御部３４…認識語彙記憶部３５…対話データ記憶部３６…要求・状態推定
用データ記憶部３７…ユーザプロファイル記憶部

Claims

【特許請求の範囲】

【請求項１】認識対象の動作内容が反映された情報を入
力し、認識用辞書データと比較した一致度合いの高い単
語列の候補を出力する単語列出力手段と、その単語列出力手段から単語列を構成する単語が順次出
力される毎に、その出力単語の内容に基づいて次に入力
を期待する語彙群を利用者が視認可能なように提示する
漸進的階層探索手段とを備えることを特徴とする単語列
認識装置。
【請求項２】請求項１記載の単語列認識装置において、前記漸進的階層探索手段は、前記単語列出力手段から１
の単語が出力されてから所定時間以上次の単語が出力さ
れなかった場合に限って、前記期待語彙群を提示するこ
とを特徴とする単語列認識装置。
【請求項３】請求項１又は２記載の単語列認識装置にお
いて、前記漸進的階層探索手段は、前記単語列出力手段から出
力された単語が、その直前に出力された単語に対応する
前記期待語彙群以外の単語であった場合には、前記直前
に出力された単語に対応する前記期待語彙群を再度提示
することを特徴とする単語列認識装置。
【請求項４】認識対象の動作内容が反映された情報を入
力し、認識用辞書データと比較した一致度合いの高い単
語列の候補を出力する単語列出力手段と、その単語列出力手段から出力された単語列を構成する単
語の内、所定の属性を持つ単語に基づいて話題を確定
し、続いて、その確定した話題に基づく語彙に限定した
前記認識用辞書データを再構成し、その再構成した認識
用辞書データに基づいて他の単語を認識するという処理
を必要なだけ繰り返し実行する多段階処理手段とを備え
ることを特徴とする単語列認識装置。
【請求項５】請求項４記載の単語列認識装置において、前記多段階処理手段が最初に前記話題を確定するために
扱う単語属性は、要求内容を示す属性であることを特徴
とする単語列認識装置。
【請求項６】請求項４記載の単語列認識装置において、前記話題を確定するために扱う所定の属性を持つ単語が
複数存在する場合は、構文位置に基づいていずれか１の
単語を選択することを特徴とする単語列認識装置。
【請求項７】請求項４記載の単語列認識装置において、前記話題を確定するために扱う所定の属性を持つ単語
は、所定レベル以上の尤度を備えている場合にのみ採用
することを特徴とする単語列認識装置。
【請求項８】請求項４〜７のいずれか記載の単語列認識
装置において、前記話題に基づく語彙に限定した認識用辞書データを再
構成する際には、現在の話題に連関する話題に対応する
語彙についても考慮することを特徴とする単語列認識装
置。
【請求項９】請求項４〜８のいずれか記載の単語列認識
装置において、前記話題に基づく語彙に限定した認識用辞書データを再
構成する際には、文脈の連続性という観点から定まる語
彙についても考慮することを特徴とする単語列認識装
置。
【請求項１０】請求項４〜９のいずれか記載の単語列認
識装置において、さらに、認識対象の要求を推定する要求推定手段を備
え、前記話題に基づく語彙に限定した認識用辞書データを再
構成する際には、前記要求推定手段にて推定した要求と
いう観点から定まる語彙についても考慮することを特徴
とする単語列認識装置。
【請求項１１】請求項４〜１０のいずれか記載の単語列
認識装置において、前記話題に基づく語彙に限定した認識用辞書データを再
構成する際には、不連続的に発生する予測不可能な緊急
事態や警告対象となる事態に対応する語彙として予め設
定した語彙を含めることを特徴とする単語列認識装置。
【請求項１２】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、その単語列出力手段から出力された単語列が文脈に沿っ
た期待通りの内容であるか否かを判断し、期待から外れ
ていると判断した場合は、少なくとも話題が転換された
のかどうかを確認するための問いかけを行う話題転換確
認処理、話題が転換されたことを宣言する話題転換宣言
処理、それまでの話題が継続していると仮定して文脈に
沿った対応を行う文脈優先対応処理のいずれかを行う期
待外時対応手段とを備えることを特徴とする単語列認識
装置。
【請求項１３】請求項１２記載の単語列認識装置におい
て、前記単語列出力手段は、前記単語列に付随して尤度も出
力可能であり、前記期待外時対応手段は、前記単語列に付随する尤度に
基づいて、前記文脈に沿った期待通りの内容であるか否
かを判断することを特徴とする単語列認識装置。
【請求項１４】請求項１３記載の単語列認識装置におい
て、前記期待外時対応手段は、単語列出力手段から出力され
た単語列の候補が１つであり、且つ前記単語列に付随す
る尤度が所定値以上であれば、前記話題転換確認処理を
実行することを特徴とする単語列認識装置。
【請求項１５】請求項１２〜１４のいずれか記載の単語
列認識装置において、前記期待外時対応手段は、前記話題転換確認処理の実行
後に前記単語列出力手段から出力された単語列が、その
転換された話題に沿った内容であれば、前記話題転換宣
言処理を実行することを特徴とする単語列認識装置。
【請求項１６】請求項１２〜１５のいずれか記載の単語
列認識装置において、前記期待外時対応手段は、前記話題が転換された場合で
あっても、転換直後には前記文脈優先対応処理を実行
し、その後も前記転換された話題が継続している場合に
限って、前記話題転換確認処理を実行することを特徴と
する単語列認識装置。
【請求項１７】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、その単語列出力手段から出力された単語列が所定の否定
的内容であるか否かを判断し、所定の否定的内容である
と判断した場合は、所定の誤認識対応処理を実行する誤
認識対応手段をを備えることを特徴とする単語列認識装
置。
【請求項１８】請求項１７記載の単語列認識装置におい
て、前記誤認識対応手段は、正しい話題が何であるかを確認
するための問い返す問い返し処理を実行することを特徴
とする単語列認識装置。
【請求項１９】請求項１７又は１８記載の単語列認識装
置において、前記誤認識対応手段は、要求する内容に対応したキーワ
ードを含める指示を利用者が視覚又は聴覚にて認識可能
なように提示するヘルプモード処理を実行することを特
徴とする単語列認識装置。
【請求項２０】請求項１７又は１８記載の単語列認識装
置において、前記誤認識対応手段は、初期状態に戻る初期化処理を実
行することを特徴とする単語列認識装置。
【請求項２１】請求項１９又は２０記載の単語列認識装
置において、前記誤認識対応手段は、正しい話題が何であるかを確認
するための問い返す問い返し処理を所定回数を超えた場
合には、前記ヘルプモード処理又は初期化処理を実行す
ることを特徴とする単語列認識装置。
【請求項２２】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、現在の話題に連関する話題に対応する語彙を考慮した上
で、前記認識用辞書データを再構成する辞書構成手段と
を備えることを特徴とする単語列認識装置。
【請求項２３】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、文脈の連続性という観点から定まる語彙を考慮した上
で、前記認識用辞書データを再構成する辞書構成手段と
を備えることを特徴とする単語列認識装置。
【請求項２４】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、認識対象の要求を推定する要求推定手段と、前記要求推定手段にて推定した要求という観点から定ま
る語彙を考慮した上で、前記認識用辞書データを再構成
する辞書構成手段とを備えることを特徴とする単語列認
識装置。
【請求項２５】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、不連続的に発生する予測不可能な緊急事態や警告対象と
なる事態に対応する語彙として予め設定した語彙を含め
て前記認識用辞書データを再構成する辞書構成手段とを
備えることを特徴とする単語列認識装置。
【請求項２６】請求項２２記載の単語列認識装置におい
て、前記辞書構成手段は、認識対象のシステムで扱う現実の
話題に対応して予め各カテゴリ毎の語彙クラスタに分割
されて構成されるクラスタ辞書間の関係を考慮して前記
認識用辞書データを再構成することを特徴とする単語列
認識装置。
【請求項２７】請求項２２記載の単語列認識装置におい
て、前記辞書構成手段は、単語間の意味的関係を考慮して前
記認識用辞書データを再構成することを特徴とする単語
列認識装置。
【請求項２８】請求項２７記載の単語列認識装置におい
て、前記単語間の意味的関係とは単語間の包含関係であるこ
とを特徴とする単語列認識装置。
【請求項２９】請求項２７記載の単語列認識装置におい
て、前記単語間の意味的関係とは単語間の連想関係であるこ
とを特徴とする単語列認識装置。
【請求項３０】請求項２３記載の単語列認識装置におい
て、前記辞書構成手段は、発話に対する応答の妥当性を考慮
して前記認識用辞書データを再構成することを特徴とす
る単語列認識装置。
【請求項３１】請求項２３記載の単語列認識装置におい
て、前記辞書構成手段は、発話とその発話に対する応答で構
成される対話ユニット同士の関係の妥当性を考慮して認
識用辞書データを再構成することを特徴とする単語列認
識装置。
【請求項３２】認識対象の動作内容が反映された情報を
入力し、認識用辞書データと比較した一致度合いの高い
単語列の候補を出力する単語列出力手段と、前記請求項１〜３のいずれかに記載した漸進的階層探索
手段、前記請求項４〜１１のいずれかに記載した多段階
処理手段、前記請求項１２〜１６のいずれかに記載した
期待外時対応手段、前記請求項１７〜２１のいずれかに
記載した誤認識対応手段、前記請求項２２〜３１のいず
れかに記載して辞書構成手段の内の少なくとも２つの手
段とを備えることを特徴とする単語列認識装置。
【請求項３３】請求項１〜３２のいずれか記載の単語列
認識装置において、前記認識対象は人間であり、前記単語列出力手段は、前記認識対象者によって入力さ
れた音声を認識用辞書データと比較した一致度合いの高
い単語列の候補を出力することを特徴とする単語列認識
装置。
【請求項３４】請求項１〜３２のいずれか記載の単語列
認識装置において、前記認識対象は人間であり、前記単語列出力手段は、前記認識対象者によって入力さ
れた手書き文字列を認識用辞書データと比較し、一致度
合の高い複数の単語列候補を出力することを特徴とする
単語列認識装置。