JP2007264229A

JP2007264229A - 対話装置

Info

Publication number: JP2007264229A
Application number: JP2006088202A
Authority: JP
Inventors: Kazuhiko Abe; 一彦阿部; Kazutaka Daito; 和孝大東; Yasuyuki Masai; 康之正井; Hisayoshi Nagae; 尚義永江; Takehide Yano; 武秀屋野; Tetsuya Sakai; 哲也酒井; Hideki Tsutsui; 秀樹筒井; Junko Ami; 淳子網
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-28
Filing date: 2006-03-28
Publication date: 2007-10-11

Abstract

【課題】ユーザーが目的を達成するための適切な入力を行うことを可能にする対話装置を提供することを目的とする。
【解決手段】対話装置１０は、音声認識処理部１２、音声入力解釈部１４、情報抽出処理部１６、応答内容生成部１８、処理結果評価部２０、処理結果比較部２２とから構成され、発話内容の単語単位毎に認識処理の誤り度、解釈処理の誤り度及び抽出処理の誤り度を計算し、前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度の中で最も誤り度が高い処理結果を前記所定単位毎に求め、前記最も誤り度が高い処理結果に基づいて前記ユーザーに対する修正応答内容を生成する。
【選択図】図１

Description

本発明は、ユーザーと、装置またはアプリケーションとのインターフェイスにおける対話処理方式に関するものである。

従来より音声対話装置における装置側の処理誤りを推定する機能を有し、その内容に基づいて応答出力や対話戦略を変更することにより、対話の破綻を防ぎ、使いやすいインターフェイスを提供する技術がある。

例えば、非特許文献１では、音声認識処理の誤りを、認識結果の信頼度を用いて予測し、確認対話を制御する対話管理方法を提案している。

この対話管理方法においては、入力音声に対する認識候補をスコアの高い順にN個求め、第一位の認識候補の単語について得られた信頼度が予め設定した閾値より小さい場合にユーザーに確認を行う。

このように構成された対話管理方法は、音声認識のスコアから求まる信頼度に基づいて、信頼度の低い認識結果に対してのみ確認対話を行うため、不必要な確認対話を行う回数が減り、ユーザーの利便性が向上する。
情報処理学会研究報告音声言語情報処理３０−９「音声認識結果の信頼度を用いた頑健な混合主導対話の実現法」

しかしながら、前記非特許文献１に示されるような従来の対話管理方式では、ユーザーの音声入力に対し、音声認識に誤りが含まれていない場合、または、対話装置が出力する最終結果としては誤りが含まれない場合においても、入力内容を確認することになり、不必要な確認対話が多くなり、利便性が損なわれる場合があった。

また、音声認識処理の誤り以外にも装置全体としては処理誤りを起こす場合があるが、声認識処理に関する確認対話のみでは、必要な確認対話が全て行われずに対話が継続する場合がある。また、音声入力の再入力または訂正しか行うことができず、対話装置内の他の処理が引き起こす誤りを訂正するための入力を行うことができない。

そこで本発明は、前記問題点を解決するためになされたもので、ユーザーが対話装置の処理誤りの原因を特定し、目的を達成するための適切な入力を行うことを可能にする対話装置及びその方法を提供することを目的とする。

本発明は、ユーザーからの発声内容を認識処理する音声認識処理部と、前記認識結果の意味内容を解釈処理する音声入力解釈部と、前記解釈結果に基づき所定の情報に関する抽出処理を行う情報抽出処理部と、前記抽出結果に基づき前記ユーザーへ応答内容を生成する応答内容生成部と、前記応答内容を出力する応答出力処理部と、前記発話内容の所定単位毎に前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度を計算する処理結果評価部と、前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度の中で最も誤り度が高い処理結果を前記所定単位毎に求める評価結果比較部とを具備し、前記最も誤り度が高い処理結果に基づいて前記ユーザーに対し誤った処理であるか否かを確認するための修正応答内容を生成する修正応答内容生成部と、を具備することを特徴とする対話装置である。

本発明によれば、各処理の評価結果の比較や全体の処理結果から誤動作している可能性が高い処理を推定し、推定結果を元に応答内容を決定することにより、必要最小限の応答出力で、ユーザーが誤り可能性の高い処理を理解して適切な訂正入力をすることを容易にする。また、必要最小限の確認対話を行うのみでユーザーが所望の情報を取得することが可能となる。

以下、本発明の一実施形態の対話装置１０について図面を参照して説明する。

（１）対話装置１０の構成
図１は、本実施形態に係る対話装置１０の構成図であり、例えば、施設情報検索端末などに用いられる構成例を示したものである。

図１に示すように、対話装置１０は、音声認識処理部１２、音声入力解釈部１４、情報抽出処理部１６、応答内容生成部１８、処理結果評価部２０、処理結果比較部２２とから構成されている。

これら各部１２〜２２の各機能は、コンピュータに記憶されたプログラムによって実現できる。

（２）音声認識処理部１２
音声認識処理部１２は、ユーザーの発話音声を文字列として認識する。すなわち、マイクロホンから入力された音声情報を、音声認識用辞書（認識用言語辞書や認識用音響辞書等）を用いて音声認識処理を行い、文字列に変換して音声認識結果として音声入力解釈部１４へ出力する。

（３）音声入力解釈部１４
音声入力解釈部１４は、音声認識処理部１２によって取得された音声認識結果に対して、情報抽出処理部１６で利用可能な情報に変換または付加情報として音声認識結果と共に解釈処理結果として出力する。

例えば、音声入力解釈部１４は図２のような構成を有する。

解釈対象検索部１４１は、省略語の有無や指示対象を取得すべき指示語など、情報抽出処理のために取得すべき情報を決定し、対話情報管理部１４２へ出力する。

対話情報管理部１４２は、対話情報記憶部１４４を参照し、適切な省略語や指示語の指示対象を決定する。

解釈対象反映部１４３は、対話情報管理部１４２の出力結果を元に、音声認識処理結果を変換した解釈処理結果、または、付加情報として音声認識結果と共に解釈処理結果として情報抽出処理部１６へ出力する。

また、音声認識処理部１２は、ユーザーから入力された音声を文字列に変換し、その誤りを推定するための情報として単語毎の認識スコアを合わせて音声認識結果として出力する。

認識スコアは、音声認識エンジンとして単語毎の音声認識の確からしさを表すものとして出力される。例えば、出力される単語の発声区間内の雑音重畳率を算出し、認識スコアとして出力する。

また、認識辞書に含まれる発音が類似している単語や表現の多さを計算して、認識スコアとして出力しても良い。

（４）情報抽出処理部１６
情報抽出処理部１６は、前記取得された解釈処理結果を元に情報を抽出する。

例えば、情報抽出処理部１６は図３のような構成を有している。

検索条件生成部１６１は、解釈処理結果より検索に有用なキーワードを抽出し、検索条件を生成する。

データ検索部１６２は、検索式のキーワードに関連する情報を、検索対象データーベース１６３から取得し、情報抽出結果として応答内容生成部１８へと出力する。

（５）処理結果評価部２０
処理結果評価部２０は、音声認識処理部１２、音声入力解釈部１４、情報抽出処理部１６の各処理内容を取得し、各処理の処理誤り可能性を評価し、評価結果を出力する。

処理結果評価部２０は、図６に示すような構成を有している。

処理結果取得部２０１では、音声認識処理部１２、音声入力解釈部１４、情報抽出処理部１６からのそれぞれの処理内容を取得する。

処理誤り度算出部２０２では、音声認識処理、解釈処理、情報抽出処理の各処理誤り度を計算する。

例えば、音声認識処理部１２の処理誤り度の算出は、音声認識結果と共に出力された認識スコアを用いて算出する。

音声入力解釈部１４の誤り度の算出は、前記対話情報検索時の検索対象数の多さを元に算出する。

情報抽出処理部１６の誤り度は、解釈結果より情報抽出に有効なキーワードを抽出する際のキーワード候補数を元に算出する。

処理誤り算出結果出力部２０３では、処理誤り度算出部２０２で算出した各処理誤り算出結果を取得し、処理誤り箇所とその誤り度を合わせて、音声認識誤り度算出結果、解釈誤り算出度結果、情報抽出処理誤り度算出結果として出力する。

（６）処理結果比較部２２
処理結果比較部２２は、前記取得した各評価結果を元に、処理誤りの可能性を比較し、例えば重要度や順位付けを行い比較結果として出力する。

処理結果比較部２２は、図７に示すような構成を有している。

誤り要因比較部２２１は、処理結果評価部２０が出力した音声認識誤り度算出結果、解釈誤り度算出結果、情報抽出処理誤り度算出結果を取得し、各単語単位で誤り度の順位付けを行い、誤り要因比較結果として出力する。

処理評価比較内容出力部２２２は、前記誤り要因比較結果を取得し、誤り度が最も高い誤り処理を処理内容と共に処理評価比較内容として出力する。

なお、誤り要因比較においては、単語単位で評価結果比較を行ったが、文節単位や発声単位で評価結果比較を行ってもよい。

また、処理評価比較内容は、誤り度が最も高い誤り要因だけでなく、複数の誤り要因について出力してもよい。

また、誤りのある処理がないと判断される場合には、誤り処理なしとして処理評価結果を出力してもよい。

また、比較を行う際には、ユーザーの音声認識に対する習熟度や施設検索の特性に関する習熟度を用いて調整してもよい。

（７）応答内容生成部１８
応答内容生成部１８は、比較結果及び検索結果からユーザーに提示すべき情報を決定し、例えば自然言語文などのユーザーに伝わりやすい出力内容を生成する。生成された出力内容は、例えば合成音によって出力される。すなわち、応答内容生成部１８は前記取得した情報抽出処理結果及び処理評価比較内容を用いて応答内容を生成する。

応答内容生成部１８は、図８のような構成を有している。

情報抽出処理結果取得部１８１は、情報抽出処理部１６が出力した情報抽出処理結果を取得する。

処理結果比較内容取得部１８２は、処理結果比較部２２が出力した処理結果比較内容を取得する。

応答内容作成部１８３では、情報抽出処理結果を応答出力するための応答文の生成するためのルールが記述された応答出力テンプレート１８４を検索する。応答出力テンプレート１８４には、処理評価比較内容の誤り要因毎に応答生成ルールが書かれており、処理評価比較内容に記述された誤り要因に応じて、応答出力に利用するテンプレートを決定する。

応答内容出力部１８５は、前記テンプレートに値を代入し、自然文テキストに変換し、応答内容として出力する。

（８）処理例
以下では、施設検索の例として、図４のような対話がユーザーと対話装置１０との間でやり取りされた後に、東京都のレストラン情報を抽出することを意図して発声された「東京都でおしゃれな感じの場所」というユーザー入力に対する処理を例にとり説明する。

（８−１）全ての処理が正しく行われる場合
音声認識処理部１２では、施設検索対話においてユーザーから入力されうる発声を認識できるよう設計された言語モデルを用いて、前記入力音声を取得し文字列に変換し音声入力解釈部１４へ出力する。

音声入力解釈部１４の解釈対象検索部１４１では、前記取得した文字列に対して形態素解析を行い、得られた形態素系列に対して図５に示す解釈処理規則の参照内容検索ルールや省略語検索ルールと一致した場合に解釈検索対象となりうる語に対する対話情報検索要求を出力する。

対話情報管理部１４２は、前記対話情報検索要求に基づき対話情報記憶部１４４に属性情報と共に記憶されているユーザーと装置との対話内容を検索し、検索結果を対話情報検索結果として出力する。「東京都でおしゃれな感じの場所」という入力においては、参照内容検索ルールの「施設属性情報に関する語が含まれている」に「場所」が合致し、対話情報内に含まれる「施設属性情報」に関する語を検索するよう対話情報検索要求を出力し、対話情報管理部１４２は対話情報記憶部１４４の中に含まれる対話内容の中から「施設属性情報」を検索し、対話情報検索結果として出力する。

解釈対象反映部１４３は、取得した対話情報検索結果に基づき、参照内容を参照対象と置換し解釈処理結果として出力する。前記入力に対しては、「場所」を施設属性である「レストラン」に置換し「東京都でおしゃれな感じのレストラン」という解釈結果を出力する。

情報抽出処理部１６は、施設情報（場所スロット、施設属性スロット、詳細条件スロット）の組み合わせの形で規定された検索条件を元に検索対象データーベース１６３を検索する。

すなわち、検索条件生成部１６１は、各スロットに入力可能な値のリストである検索値リストなどを参照して前記取得した解釈結果より施設情報の検索条件に当てはまるキーワードを抽出し検索条件を生成する。「東京都でおしゃれな感じのレストラン」という解釈結果からは「場所属性スロット」の値として「東京都」、「施設属性スロット」の値としては「レストラン」、「詳細条件スロット」の値として「おしゃれ」を取得する。

データ検索部１６２は、生成された検索条件に基づき、検索対象データベース１６３の検索を行い合致した施設情報を取得し、検索結果として出力する。

（８−２）処理誤りが生じた場合
前記音声認識処理部１２、音声入力解釈部１４、情報抽出処理部１６における処理の例は、全ての処理が正しく行われた場合の例である。しかし、必ずしも確実に動作するとは限らず、それぞれ処理誤りが生じる可能性がある。そのために処理結果評価部２０と処理結果比較部２２が設けられている。

（８−２−１）処理結果評価部２０の処理
処理結果評価部２０は、音声認識処理部１２、音声入力解釈部１４、情報抽出処理部１６それぞれの処理内容を取得し処理誤り度を計算する。例としてあげた施設検索において説明する。

音声認識処理部１２の処理誤りは、音声認識処理時の認識スコアを誤り度として取得する。なお、認識スコアは単語毎に算出されており、認識スコアが低い単語の情報についても取得可能である。

解釈処理誤りは、前記対話情報検索時の値が多さ、すなわち検索の数を誤り度とする。

情報抽出処理部１６の誤りは、解釈結果からキーワードを抽出する際のキーワードリストの重複度合いを誤り度とする。

（８−２−２）処理結果比較部２２の処理
処理結果比較部２２では、前記算出した各誤り度を比較し、最も誤りのある処理を特定し、その処理内容と共に処理評価比較結果として出力する。誤りのある処理がないと判断される場合には、誤り処理なしとして処理評価結果を出力する。評価結果の比較を行う際には、各単語単位で各誤り度を比較できるように調整してあり、誤り度の数値の比較を行う。

なお、比較を行う際には、ユーザーの音声認識に対する習熟度や施設検索の特性に関する習熟度を用いて調整することも可能である。

（８−２−３）応答内容生成部１８の処理
応答内容生成部１８は、前記取得した検索結果及び処理評価比較結果を用いて応答内容を生成する。応答内容は、応答内容テンプレートのような検索結果を値として埋め込める形で規定されたものを用いて生成することができる。

例えば、本施設検索の例において、図９に示すような応答内容生成用テンプレートを用いることにより、応答内容の生成が可能となる。テンプレートにおいて「（情報抽出処理結果）はいかがですか」の様に規定されている場合、情報抽出処理結果が「カフェレストランＡ」ならば「カフェレストランＡはいかがですか」といった応答内容になる。

最も誤り可能性が高い処理が音声認識処理の場合、「（音声認識結果）、（情報抽出処理結果）はいかがですか」を用いることにより応答内容は「東京都のレストラン、カフェレストランＡはいかがですか」となる。

最も誤り可能性が高い処理が解釈処理の場合、「（解釈処理対象）とは（解釈処理置換結果）ですよね。（情報抽出処理結果）はいかがですか。」といったテンプレートを用いることにより応答内容は「場所とはレストランですよね。カフェレストランＡはいかがですか。」となる。

最も誤り可能性が高い処理が検索処理の場合「（検索条件）で検索しました。（情報抽出処理結果）はいかがですか」などのテンプレートを用いることにより、応答内容は「東京都、レストラン、で検索しました。カフェレストランＡはいかがですか」となる。

また、例えば音声認識処理結果で「東京都」が「京都」となり音声認識処理の最も誤りが高いと判断された場合には「京都のレストラン、カフェレストランＢはいかがですか」という応答内容になる。

解釈処理結果で「場所」を「観光地」と参照処理し、解釈処理が最も誤りが高いと判断された場合には、「場所とは観光地ですよね。上野公園はいかがですか。」という応答内容になる。

情報抽出処理結果で施設属性を「おしゃれ」として検索し、情報抽出処理が最も誤りが高いと判断された場合には、「東京都、おしゃれで検索しました。ブティックＡはいかがですか。」という応答内容になる。

こうした応答内容の出力により、誤り処理があった場合に、ユーザーはどの処理段階で処理誤りが生じたかを理解することでき、適切な訂正入力を行うことができる。

応答内容生成部１８において、図１０に示すような明示的応答生成用テンプレートを用いることにより、応答内容に明示的に誤り可能性の高い処理を明示する内容を含めることが可能となり、ユーザーはより誤り処理を特定することが容易となる。

また、通常の対話シナリオでは「カフェレストランＡはいかがですか」といった応答内容のように、情報抽出処理結果をユーザーに提示する応答内容を出力するように対話プランが規定されているが、評価比較結果に基づき、誤り可能性が高い処理があると評価された場合に、図１１に示すような対話プラン変更用応答出力テンプレートを用いることにより、誤り処理内容に応じて再入力を要求するように対話プランを変更してもよい。また、応答内容を処理結果の内容確認をユーザーに要求するように対話プランを変更してもよい。

こうした応答出力により、必要最小限の確認発話を行うだけで所望の情報抽出処理結果を取得することが可能となる。

例えば、音声認識処理が最も誤り可能性が高いと判断された場合には「どこの近くのレストランですか」といった音声認識処理に関する入力確認を行う。

解釈処理が最も誤り可能性が高いと判断された場合には「『おしゃれなところ』とは『おしゃれな観光地』のことですか」といった解釈処理確認を行う。

情報抽出処理が最も誤り可能性が高いと評価された場合には、「検索するのはファッションですかレストランですか」といった生成された検索条件の確認をそれぞれユーザーに求める応答内容を生成することにより、的確に誤っていると評価された処理の結果を確認することができる。

（１０）効果
このように本実施形態によれば、各処理の誤り可能性を算出する処理結果評価部２０と評価結果を比較する処理結果比較部２２と、比較結果を用いて応答内容を生成する応答内容生成部１８とを具備することにより、ユーザーがシステムの誤り処理箇所を理解できる応答内容出力が可能となり、適切な訂正発話入力を誘導でき、ユーザーが必要最小限の発話で適切に所望の情報を取得することができる。

（１１）変更例
なお、前記実施形態では、施設検索を例として実現しているように記述しているが、これらの対話管理方法については上述の実施形態に限定されるものではない。

例えば、処理結果評価部２０が、各処理に対するユーザーの了解度を反映するための入力装置を有していてもよい。

また、本発明は、機械の操作方法を説明する質問応答システムや音声翻訳システム等で実現することも可能であり、そのような実現形態も本発明の趣旨の範囲内である。以上のように、本実施形態には上述の例に対して種々の変形が可能であり、それらも趣旨に反しない限り本発明の実施形態の範囲内である。

本発明の一実施形態に係る対話装置のブロック図である。音声入力解釈部のブロック図である。情報抽出処理部のブロック図である。本実施形態に係る対話例である。本発明の実施形態に係る解釈処理規則例である。処理結果評価部のブロック図である。処理結果比較部のブロック図である。応答内容生成部のブロック図である。応答内容生成用テンプレートの例である。明示的応答生成用テンプレートの例である。対話プラン変更用応答出力テンプレートの例である。

符号の説明

１０対話装置
１２音声認識処理部
１４音声入力解釈部
１６情報抽出処理部
１８応答内容生成部
２０処理結果評価部
２２処理結果比較部

Claims

ユーザーからの発声内容を認識処理する音声認識処理部と、
前記認識結果の意味内容を解釈処理する音声入力解釈部と、
前記解釈結果に基づき所定の情報に関する抽出処理を行う情報抽出処理部と、
前記抽出結果に基づき前記ユーザーへ応答内容を生成する応答内容生成部と、
前記応答内容を出力する応答出力処理部と、
前記発話内容の所定単位毎に前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度を計算する処理結果評価部と、
前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度の中で最も誤り度が高い処理結果を前記所定単位毎に求める評価結果比較部とを具備し、
前記最も誤り度が高い処理結果に基づいて、前記ユーザーに対し誤った処理であるか否かを確認するための修正応答内容を生成する修正応答内容生成部と、
を具備する
ことを特徴とする対話装置。
前記認識処理の誤り度は、前記発話内容の認識スコアに関する値である
ことを特徴とする請求項１記載の対話装置。
前記解釈処理の誤り度は、前記認識結果に基づく対話情報検索時の検索対象数に関する値である
ことを特徴とする請求項１記載の対話装置。
前記抽出処理の誤り度は、前記情報抽出時のキーワード候補数に関する値である
ことを特徴とする請求項１記載の対話装置。
前記発話内容の所定単位が、単語単位、文節単位、または、発話単位である
ことを特徴とする請求項１記載の対話装置。
前記修正応答生成部は、前記認識処理の誤り、前記解釈処理の誤り及び前記抽出処理の誤りにそれぞれ対応した修正応答出力テンプレートを有し、前記修正応答出力テンプレートに誤り度の高い前記所定単位の認識結果、解釈結果、または、抽出結果を当てはめ、前記修正応答内容を生成する
ことを特徴とする請求項１記載の対話装置。
前記評価結果比較部が、各処理に対するユーザーの了解度を反映させるための入力部を有する
ことを特徴とする請求項１記載の対話装置。
前記修正応答内容生成部は、対話シナリオ記憶部を具備し、前記対話シナリオに基づき応答内容を決定する
ことを特徴とする請求項１記載の対話装置。
前記修正応答内容生成部は、前記修正応答内容に前記比較結果を含める
ことを特徴とする請求項１記載の対話装置。
前記情報抽出処理部は、前記解釈結果に基づきデーターベースを検索して情報抽出を行う
ことを特徴とする請求項１記載の対話装置。
ユーザーからの発声内容を認識処理し、
前記認識結果の意味内容を解釈処理し、
前記解釈結果に基づき所定の情報に関する抽出処理し、
前記抽出結果に基づき前記ユーザーへ応答内容を生成し、
前記応答内容を出力し、
前記発話内容の所定単位毎に前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度を計算し、
前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度の中で最も誤り度が高い処理結果を前記所定単位毎に求め、
前記最も誤り度が高い処理結果に基づいて前記ユーザーに対し誤った処理であるか否かを確認するための修正応答内容を生成する
ことを特徴とする対話方法。
ユーザーからの発声内容を認識処理する音声認識処理機能と、
前記認識結果の意味内容を解釈処理する音声入力解釈機能と、
前記解釈結果に基づき所定の情報に関する抽出処理を行う情報抽出処理機能と、
前記抽出結果に基づき前記ユーザーへ応答内容を生成する応答内容生成機能と、
前記応答内容を出力する応答出力処理機能と、
前記発話内容の所定単位毎に前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度を計算する処理結果評価機能と、
前記認識処理の誤り度、前記解釈処理の誤り度及び前記抽出処理の誤り度の中で最も誤り度が高い処理結果を前記所定単位毎に求める評価結果比較機能とを具備し、
前記最も誤り度が高い処理結果に基づいて前記ユーザーに対し誤った処理であるか否かを確認するための修正応答内容を生成する修正応答内容生成機能と、
をコンピュータによって実現する
ことを特徴とする対話プログラム。