JP4684583B2 - 対話装置 - Google Patents

対話装置 Download PDF

Info

Publication number
JP4684583B2
JP4684583B2 JP2004202060A JP2004202060A JP4684583B2 JP 4684583 B2 JP4684583 B2 JP 4684583B2 JP 2004202060 A JP2004202060 A JP 2004202060A JP 2004202060 A JP2004202060 A JP 2004202060A JP 4684583 B2 JP4684583 B2 JP 4684583B2
Authority
JP
Japan
Prior art keywords
difference
search
recognition
response
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004202060A
Other languages
English (en)
Other versions
JP2006023572A (ja
Inventor
洋平 岡登
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004202060A priority Critical patent/JP4684583B2/ja
Publication of JP2006023572A publication Critical patent/JP2006023572A/ja
Application granted granted Critical
Publication of JP4684583B2 publication Critical patent/JP4684583B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Description

本発明は、ユーザの入力に基づき認識または検索を実施し、画面または音声によりユーザへ応答を提示する技術分野に関する。
近年、音声認識マンマシンインタフェースを採用した電子機器が増えている。一例としてカーナビゲーションが挙げられる。カーナビゲーションは、所望の地点を指定して目的地として設定し、車両の現在位置から目的地までの経路を探索し、その経路をその現在位置を含む地図とともに表示させることにより、目的地までの誘導を行う機能を有している。
カーナビゲーションにおける音声操作による地点の指定は、所望の目的地の固有名称、例えば「関内駅」という施設名を発声することで行われている。
音声認識装置は、現在設定されている認識対象語彙と「関内駅」といった発声の類似度合いをスコアとして点数化し、一番スコアの高い認識語を第一候補として出力していた。また、二番目以降の認識候補、例えば「関内ホール」「関内署」などを同時、あるいは順次、ユーザへ提示し、ユーザは認識結果の候補中から発声あるいはボタン操作などにより、所望の施設を選択するものである。音声対話装置に関しては例えば「音声認識の基礎」L.RABINER、B.H.JUANG、古井貞煕 監訳、1995年11月、NTTアドバンステクノロジ(以下文献1とする)に詳細が記されているので説明を省略する。
候補を提示する際、ユーザが候補を選択するために候補の表示形態を変える方法として、特開平11-231891号公報では、認識結果それぞれの類似度(尤度)に応じて表示形態を変える方法を開示している。また、特開2003-167600号公報、特開平09-114491号公報では、入力された音声の認識結果をそれぞれに付与された属性に応じて表示を変える方法を開示している。
さらに、上記と同様の状況として、検索を実施した際に多数の候補が生じる場合がある。例えば「札幌市・北六条」という検索語に対して、「北海道・札幌市・東区・北六条東」「北海道・札幌市・北区・北六条西」「北海道・札幌市・北区・拓北六条」が候補としてユーザへ提示される。これに対して、検索対象語彙をテキスト中でハイライトするなどの機能が提供されている場合がある。
特開平11-231891号公報 特開2003-167600号公報 特開平09-114491号公報 L RABINER、B.H.JUANG、古井貞煕 監訳、「音声認識の基礎」、NTTアドバンステクノロジ、1995年11月
上述のように、候補の表示形態を変える従来の方法は複数の候補を提示する際に、個々の候補のスコアや属性に応じて表示を変えるものであった。このため、付与された属性によっては、両者の差異が明確にならない場合がある。例えば、カーナビゲーションシステムの認識語彙において、操作コマンドと、施設名称という属性がある場合、両者を区別して色分けしても、属性が同じ「関内ホール」と「関内駅」の差異は明確とならない。
検索の場合も、特に検索結果が類似している場合、検索キーワードをハイライトしても、差異の明確化とならず、ユーザは差異を自ら認識して、所望の検索対象を選択する必要がある。
本発明に係る対話装置は、入力された音声を認識して、言語単位又は認識単位であるシンボルの系列からなる認識結果の認識候補を複数リスト化した候補リストを出力する認識手段と、
前記認識候補の各シンボルに対し、全ての認識候補数と当該シンボルの出現した認識候補数基づく関数で定義された差異情報を付与する差異抽出手段と、
前記認識結果の各認識候補の各シンボルに付与した差異情報に基づき、差異を有する他の認識候補のシンボルと該差異が明確になるよう当該シンボルの文字の表示形態又は音声合成による当該シンボルの音声の韻律を変化させる応答を生成する差異明確化応答生成手段を備える。
本発明によれば、差異抽出手段により認識結果に差異情報を付与し、差異明確化応答生成手段が付与された差異情報に基づいて認識結果の差異を明確化した応答を生成し、応答提示手段により、差異明確化応答生成手段により生成された応答をユーザへ提示するので、ユーザは容易に候補間の差異を認識できる。
以下、本発明に係る対話装置について、図面を参照して詳細に説明する。
実施の形態1.
図1は、実施の形態1に係る対話装置の構成を示すブロック図である。同図において、1001は認識手段、1002は差異抽出手段、1003は差異明確化応答生成手段、1004は応答提示手段を表す。以下、各機能ブロックの動作を説明する。
認識手段1001は、マイクから入力した音声を認識し、認識結果の候補リストを出力する。認識結果の候補リストとは、認識手段が認識結果としてある一定の妥当性があると判断した認識結果の候補を列挙したものである。それぞれの認識結果は、シンボルの系列と認識結果の確からしさを表すスコアからなる。シンボルとは、単語・文字・音素のような言語単位や認識単位である。
差異抽出手段1002は、認識手段1001によって得られた候補間で差異のあるシンボルを抽出し、各候補のシンボルに差異情報である差異指標値を付与する。
差異明確化応答生成手段1003は、差異情報に基づき差異が明確になるユーザへの応答を生成する。
応答提示手段1004は、差異明確化応答生成手段1003により生成された応答をユーザへ提示する。
次に図2のフローチャートを参照し、実施の形態1の動作フローを説明する。ここでは、認識対象が施設名であり、「○○百貨店・横浜・店」、「○×百貨店・横浜・店」という2個の認識候補が得られた場合を例に、両者の差異を明確化した応答を返す手順を説明する。
まず、応答提示手段1004は認識手段1001にユーザよりの入力がないことを確認して、ユーザに対し、「目的地を発声、入力してください」というガイダンス等によるユーザへ入力を促す(ステップS11)。
ユーザが目的地を発声により入力すると、次に、認識手段1001はユーザの入力を受理し、解析・認識処理をする(ステップS12)。具体的には、入力音声を時間周期Tでサンプリングし、離散化された時刻tに対する信号系列x[t] を得る。これを10ms単位で特徴ベクトル(例えば12次元のメルケプストラム)に変換する。さらに、得られた特徴ベクトルを対話装置内に設けられた図示しない音響辞書および言語辞書と照合して、照合の尤度が高いn個の認識結果の候補r[1]〜r[n]を得る。認識結果の候補は、それぞれ認識単位であるシンボルの列である。また、認識結果の候補それぞれについて、妥当性を表すスコアs[1]〜s[n] を得る。
ここでは認識結果として2個の候補r[1]=「○○百貨店・横浜・店」、r[2]=「○×百貨店・横浜・店」が得られ、差異抽出手段1002の入力とされる。ただし、中点「・」は、シンボルの区切りである。
次に、差異抽出手段1002では、得られた候補間で差異のあるシンボルを抽出し、各候補のシンボルに差異指標値を付与する(ステップS13)。差異指標値は、例えば、n個の候補のうちk個の候補で出現したシンボルcにd(c ; r[1]..r[n]) = n-k を付与する。この場合、全ての候補で出現したシンボル(共通要素)は0、特定の1候補でのみ出現したシンボルには n-1 が付与される。前述の例は n=2であり、シンボル「横浜」「店」は2つの候補で出現(k=2),「○○百貨店」「○×百貨店」は1つの候補で出現している(k=1)。よって、下記のようになる。
d(○○百貨店 ; r[1], r[2]) = 2-1 = 1
d(○×百貨店 ; r[1], r[2]) = 2-1 = 1
d(横浜店 ; r[1], r[2]) = 2-2 = 0
得られた数値は、適当なしきい値を決めて 0または1に離散化するといった、適当な後処理を追加しても良い。
次に、差異明確化応答生成手段1003は、認識結果の候補と、候補を構成するシンボルに付与された差異指標値を読み込み、差異指標値に基づいて認識結果の差異を明確化した応答を生成する(ステップS14)。前述の例では、シンボルの差異指標値を参照し、差異指標値が1である「○○百貨店」「○×百貨店」の出力形態を変えて明確化する。文字により画面出力する場合では、字体の変化や、括弧などによる修飾の付加により強調を行う。字体を変えるとは、例えば、対象文字列の色・背景色・下線・斜体字・太字・フォントなどを変えて強調するものである。
この結果、「認識結果:(1)『○○百貨店』横浜店、(2)『○×百貨店』横浜店」のように括弧『・』で囲むことにより差異を明確化して応答できる。また、差異抽出の結果、同一となる部分の表現や表示位置を変えることで差異を明確化することもできる。参照例において、「認識結果:(1)○○百貨店横浜店、(2)○×百貨店〃」のように差異指標値が0である「横浜店」は2度目以降の同一であることを表す記号等へ置換してもよい。また、「〃」の表示を「横浜店」と対応付けて、位置を揃えて表示することで、差異を一層明確化できる。
また、音声合成等で生成した音声による応答の場合は、本手法によって、音声の高さ・大きさ・発話の速度・ポーズ付与などの韻律情報を音声合成装置へ入力するテキスト上で指示し、差異を明確化する。例えば、前述の例で「○×百貨店」の前でいったんポーズをおき、声の高さを上げてゆっくり発話することで強調を行うことができる。テキスト音声合成の場合は、上記音声を出力するために、応答音声のテキストへピッチ上げなどのマークアップを追加する。差異の付与は、2値的であっても、差異の大きさに応じて、多値・連続的としてもよい。
最後に、応答提示手段1004は、差異明確化応答生成手段1003により生成された応答をユーザへ提示する(ステップS15)。
以上のように本実施の形態によれば、差異抽出手段1002により認識結果の候補と、候補を構成するシンボルに差異指標値を付与し、差異明確化応答生成手段1003が付与された差異指標値を読み込み、差異指標値に基づいて認識結果の差異を明確化した応答を生成し、応答提示手段1004により、差異明確化応答生成手段1003により生成された応答をユーザへ提示するので、ユーザは容易に候補間の差異を認識できる。
実施の形態2.
図3は、実施の形態2に係る対話装置の構成を示すブロック図である。同図において、2001は名称データベース、2002は名称データベース2001を検索する検索手段、1002は差異抽出手段、1003は差異明確化応答生成手段、1004は応答提示手段を表す。以下、各機能ブロックの動作を説明する。ただし、既に説明したものは同じ番号を付与して説明を省略する。
名称データベース2001は、入力されたキーワードから対応付けられた情報を取り出すためのデータベースである。図4は、施設名に関するデータベースの検索キーワードと検索結果の例である。検索キーワードは施設名の正式名称の一部あるいは言い換えた通称表現であり、検索結果として、正式名称を得る。正式名称は、中点「・」で区切られた、シンボルの並びとして格納されている。
検索手段2002は、入力された検索式または検索キーワードにより名称データベース2001を検索し、検索結果のリストを検索候補として出力する。検索は、正式名称との部分一致でも、あらかじめ作成したテーブルの参照であっても良い。また、検索式は複数の検索条件を組み合わせたものであっても良い。
次に、図5のフローチャートを参照し、本実施の形態の動作フローを説明する。なお、本実施の形態では図4に示すデータベースの検索例について、名称データベース2002を参照して検索結果リスト内の差異を明確化した応答を返す手順を説明する。
まず、応答提示手段1004により、「検索条件を入力してください」というガイダンス等によるユーザへ入力を促す処理をする(ステップS21)。
次に検索手段2002は、ステップS21に応じてユーザが入力した検索コマンドr[0]=「○○百貨店」を受理し、名称データベース2001を検索して検索結果のリストを取得する(ステップS22)。
例えば、施設の正式名称を調べるために施設の通称から正式名称を得られるデータベース2001にアクセスして、あり得る施設の正式名称を返す。図4の例では、「○○百貨店」というキーワードに対して、r[1]=「○○百貨店・横浜店」、r[2]=「川崎・○○百貨店」という正式名称を得る。
次に、差異抽出手段1002では得られた候補間で差異のあるシンボルを抽出し、各候補のシンボルに差異指標値を付与する(ステップS23)。例えば、差異指標値として、n個の候補のうちk個の候補で出現したシンボルcにd(c ; r[1]..r[n]) = n-k を付与する。この場合、下記のようになる。
d(○○百貨店 ; r[1], r[2]) = 2-2 = 0
d(横浜店 ; r[1], r[2]) = 2-1 = 1
d(川崎 ; r[1], r[2]) = 2-1 = 1
次に、差異明確化応答生成手段1003は、候補となる検索結果と、候補を構成するシンボルに付与された差異指標値を読み込み、差異指標値に基づいて検索結果の差異を明確化した応答を生成する(ステップS24)。この結果、例えば「検索結果:(1)○○百貨店『横浜店』、(2)『川崎』○○百貨店」のように括弧『・』で囲むことで差異を明確化することができる。
最後に、応答提示手段1004は、差異明確化応答生成手段により生成された応答をユーザへ提示する(ステップS25)。
この結果、生成された応答は、検索結果の差異が明確化されている。このため、ユーザは所望の候補を選択することが容易となる。
なお、上記の例では検索結果間の差異を明確化したが、差異抽出手段1002の入力として検索キーワードを与えても良い。
この場合、r[0]=「○○百貨店」が差異抽出手段1002の入力になり、上述の差異指標値付与方法により、シンボルに付与される差異指標値は下記のようになる。この結果、入力した検索キーワードr[0]=「○○百貨店」以外が一層明確になる。
d(○○百貨店 ; r[0, r[1], r[2]) = 3-3 = 0
d(横浜店 ; r[0], r[1], r[2]) = 3-1 = 2
d(川崎 ; r[0], r[1], r[1]) = 3-1 = 2
また、データベースの検索結果は、意味的に区切られた複数のフィールドから構成されていても良い。この場合、フィールドごとにシンボルの差異を求めて応答を生成することができる。フィールドに優先順位を付与し、優先順位の高いフィールドに差異があれば、優先順位の低いフィールドの差異内容を提示しないようにしても良い。
実施の形態3.
図6は、実施の形態3に係る対話装置の構成を示すブロック図である。同図において、1001は認識手段、2001は名称データベース、2002は検索手段、1002は差異抽出手段、1003は差異明確化応答生成手段、1004は応答提示手段を表す。各機能ブロックについては、既に説明の通りである。次に、図7に示すフローチャートを参照し、「○○百貨店」という発声が行われた場合を例として動作を説明する。
まず、応答提示手段1004により、「発声をどうぞ」という文字や音声ガイダンス等によるユーザへ入力を促すメッセージを送る(ステップS31)。
次に、認識手段1001はユーザの発声した入力を受理し、入力音声を解析・認識する(ステップS32)。具体的には、入力音声を時間周期Tでサンプリングし、時刻tに対する信号系列x[t] を得る。これを10ms単位で特徴ベクトル(例えば12次元のメルケプストラム)に変換する。さらに、得られた特徴ベクトルを対話装置内に設けられた図示しない音響辞書および言語辞書と照合して、照合の尤度が高いn個の認識結果の候補r[1]〜r[n]を得る。
認識結果の候補は、それぞれ認識単位であるシンボルの列である。また、認識結果の候補それぞれについて、妥当性を表すスコアs[1]〜s[n] を得る。ここでは、2個の認識結果「○○百貨店」「○×百貨店」が得られたとする。
次に、検索手段2002は、認識手段1001が得た認識結果の候補の出力を入力として、名称データベース2001を検索して検索結果のリストを取得する(ステップS33)。検索は、認識結果の候補数だけ実施する。例えば、正しい施設名を調べるために、名称データベース2001をアクセスして、ユーザが入力したキーワードに部分照合する施設の登録名称のリストを返す。その結果、図4に示したように、例えば「○○百貨店」という認識結果候補を検索キーワードとすると、r[1]=「○○百貨店・横浜・店」、r[2]=「川崎・○○百貨店」という正式名称を得る。また、「○×百貨店」という認識結果候補を検索キーワードとすると、r[3]=「○×百貨店・横浜・店」という正式名称を得る。
次に、差異抽出手段1002では、得られた候補間で差異のあるシンボルを抽出し、各候補のシンボルに差異指標値を付与する(ステップS34)。差異指標値として、n個の候補のうち、k個の候補で出現したシンボルcにd(c ; r[1]..r[n]) = n-k を付与した場合、下記のようになる。
d(○○百貨店 ; r[1], r[2], r[3]) = 3-2 = 1
d(○×百貨店 ; r[1], r[2], r[3]) = 3-1 = 2
d(横浜店 ; r[1], r[2],r [3]) = 3-2 = 1
d(川崎 ; r[1], r[2], r[3]) = 3-1 = 2
次に、差異明確化応答生成手段1003は、認識結果の候補と、候補を構成するシンボルに付与された差異指標値を読み込み、差異指標値に基づいて検索結果の差異を明確化した応答を生成する(ステップS35)。この結果、例えば、検索結果:(1)○○百貨店『横浜店』、(2)『川崎』○○百貨店、(3)『○×百貨店』横浜店」のように差異を明確化した表示による応答を生成する。音声による応答生成の場合も実施の形態1と同様の手順により差異を明確化した応答を生成できる。
最後に、応答提示手段1004は、差異明確化応答生成手段1003により生成された応答をユーザへ提示する(ステップS36)。
実施の形態4.
図8は、実施の形態4に係る対話装置の構成を示すブロック図である。同図において、1001は認識手段、2001は名称データベース、2002は検索手段、4001は差異抽出手段としての候補対差異抽出手段、4002は候補並べ替え手段、1003は差異明確化応答生成手段、1004は応答提示手段を表す。本実施の形態では、隣接する2候補間の差異が少なくなるように並べ替えて、応答を提示することで、ユーザに差異が明確になる応答を返すことができる。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
候補対差異抽出手段4001は、1つ以上のシンボル系列からなる候補のリストを読み込み、候補が複数の場合、適当な2候補間の差異の度合いを表す差異距離と差異内容を求め出力する。
候補並べ替え手段4002は、候補リスト、候補間の差異距離、差異内容を読み込み、制約条件の下で隣接する候補対ごとの差異距離の総和を最小化するように候補リストの順序を並べ替える。
次に、図9のフローチャートを参照し、本実施の形態の動作フローを説明する。ここでは、図4の通り認識手段1001の出力として、認識結果候補「○○百貨店」「○×百貨店」を得、それらを検索手段2002の入力として正式名称を得たとする。
まず、応答提示手段1004により、「発声をどうぞ」という文字や音声ガイダンス等によるユーザへ入力を促すメッセージを送る(ステップS41)。
次に、認識手段1001はユーザの発声した入力を受理し、入力音声を解析・認識する(ステップS42)。ここでは、入力音声に対して、2個の認識結果「○○百貨店」「○×百貨店」が得られたとする。
次に、検索手段2002は、認識手段1001から得た認識結果の候補を入力として、名称データベース2001を検索して検索結果のリストを取得する(ステップS43)。検索手段2002による検索は認識結果の候補数だけ実施する。例えば、正しい施設名を調べるために、、名称データベース2001をアクセスして、ユーザが入力したキーワードに部分照合するあり得る施設の登録名称のリストを返す。その結果、図4に示したように「○○百貨店」という認識結果候補を検索キーワードとすると、r[1]=「○○百貨店・横浜店」、r[2]=「川崎・○○百貨店」という正式名称を得る。また、「○×百貨店」という認識結果候補を検索キーワードとすると、r[3]=「○×百貨店・横浜店」という正式名称を得る。
次に、候補対差異抽出手段4001では、適当な2候補間の差異距離および差異内容を求める(ステップS44)。差異距離および差異内容の算出は、例えば、2個の候補のうち、一方でのみ出現したシンボルcにd(c ; r[1], r[2]) = 1 を付与し、両方で出現したシンボルcにd(c;r[1], r[2]) = 0を付与し、d(c; r[1], r[2]) = 1となるシンボルの数を差異距離、そのシンボルを差異内容とおくことができる。r[1]=「○○百貨店・横浜店」、r[2]=「○×百貨店・横浜店」の場合、下記のようになる。
d(○○百貨店 ; r[1], r[2]) = 2-1 = 1
d(○×百貨店 ; r[1], r[2]) = 2-1 = 1
d(横浜店 ; r[1], r[2]) = 2-2 = 0
よって、差異距離D(r[1], r[2])=2,差異内容{○○百貨店、○×百貨店}となる。同様に図10に示すように候補対の差異距離および差異内容を求める。
候補対は、n個の候補に対して順序を考慮するとn(n-1)存在する。図10の例は、D(X, Y)=D(Y, X)となっているため、半数を削減可能である。また、候補並べ替え手段4002において、例えば認識結果1位の検索結果を最初に提示するといった順序制約がある場合、必要な候補対についてのみ計算すればよい。異なる認識結果に対する認識結果候補とは順序を入れ替えないとしても良い。さらに、並べ替えを全く行わなくても良い。この場合、差異距離は算出不要であり、隣接候補間の差異明確化のみ行う。
次に、候補並べ替え手段4002は、得られた候補対の差異距離に基づき、並べ替えた後の隣接候補対の差異距離の総和が最小となるように、候補対を並べ替える(ステップS45)。図10の例では、「r[2]・r[1]・r[3]」と並べた場合、隣接する候補対の差異距離の総和は、D(r[2], r[1]) + D(r[1], r[3])=4となる。本例では差異距離が最小となるのは、上記例とその逆順の場合である。同じ距離となる場合はどちらを選んでも良い。また、提示順序に制約があり、認識結果1位のr[1]またはr[2]を先に表示するのであれば前者が選ばれる。
次に、差異明確化応答生成手段1003は、認識結果の候補と、候補を構成するシンボルに付与された差異指標値を読み込み、差異内容に基づいて検索結果の差異を明確化した応答を生成する(ステップS46)。この結果、例えば、検索結果:(1)『川崎』○○百貨店、(2)○○百貨店『横浜店』、(3)『○×百貨店』横浜店」のように差異が明確化され、かつ隣接する候補での差異が最小化するように並べられた、応答を生成する。音声による応答生成の場合も実施の形態1と同様の手順により差異を明確化した応答を生成できる。
最後に、応答提示手段1004は、差異明確化応答生成手段により生成された応答をユーザへ提示する(ステップS47)。
この結果、認識候補として得られた複数の候補に基づく検索結果について、差異を明確化した応答をユーザへ示すことができる。このため、ユーザは所望の候補の選択することが容易となる。
実施の形態5.
図11は、実施の形態5に係る対話装置の構成を示すブロック図である。同図において、1001は認識手段、2001は階層構造データベース、2002は検索手段、5001は差異抽出手段としての候補対階層構造差異抽出手段、4002は候補並べ替え手段、1003は差異明確化応答生成手段、1004は応答提示手段を表す。本実施の形態では、データベースの検索結果が階層構造を有する場合について、隣接する2候補間の差異が少なくなるように並べ替えて、応答を提示することで、ユーザに差異が明確になる応答を返すことができる。以下、各機能ブロックについて説明する。ただし、既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
候補対階層構造差異抽出手段5001は、1つ以上のシンボル系列からなる候補のリストを読み込み、候補が複数の場合、適当な2候補間の階層構造を想定した差異の度合いを表す差異距離と差異内容を求めて出力する。
次に、図12のフローチャートを参照し、本実施の形態の動作フローを説明する。ここでは、図13に示すように、認識手段1001の出力を検索手段2002の入力として階層構造データベース2001を検索した結果、階層構造の一例である住所情報を得たとする。
まず、応答提示手段1004により、「発声をどうぞ」という文字や音声ガイダンス等によるユーザへ入力を促すメッセージを送る(ステップS51)。
次に、認識手段1001はユーザの発声した入力を受理し、解析・認識する(ステップS52)。ここでは、2個の認識結果「○○百貨店」「○×百貨店」が得られたとする。
次に、候補対階層構造差異抽出手段5001では、適当な2候補間の差異距離および差異内容を求める(ステップS54)。差異抽出において、検索結果は図14に示すような階層構造が仮定されている。このため、階層構造の差異が生じたシンボルより後の階層は差異の明確化に有効でない。そこで、2つの住所の差異距離を例えば、(最大の階層数L)−(差異が生じた階層番号)+1とする。また、差異内容として差異が生じた階層番号のシンボルの内容とする。例えば最大の階層数L=3としたとき、r[1]=「神奈川県・横浜市・西区」とr[2]=「神奈川県・川崎市・川崎区」の差異距離は2、差異内容は(横浜市、川崎市)となる。
候補対は、n個の候補に対して順序を考慮するとn(n-1)存在する。図10の例は、D(X, Y)=D(Y, X)となっているため、半数を削減可能である。また、候補並べ替え手段4002において、認識結果1位の検索結果を最初に提示するというような、順序制約がある場合、必要な候補対についてのみ計算すればよい。異なる認識結果に対する認識結果候補とは順序を入れ替えないとしても良い。さらに、並べ替えを全く行わなくても良い。この場合、差異距離は算出不要であり、隣接候補間の差異明確化のみ行う。
次に、候補並べ替え手段4002は、得られた候補対の差異距離に基づき、並べ替えた後の隣接候補対の差異距離の総和が最小となるように、候補対を並べ替える(ステップS55)。ここでは、異なる認識結果の住所を並べ替えることはせず、r[1]〜r[3]のみに適用する。この例では、r[1]とr[3]が隣接していれば良く、例えばr[3]・r[1]・r[2]の順序とする。
次に、差異明確化応答生成手段1003は、認識結果の候補と、候補を構成するシンボルに付与された差異指標値を読み込み、差異指標値に基づいて検索結果の差異を明確化した応答を生成する(ステップS46)。この結果、例えば、「検索結果:○○百貨店(1)神奈川県・横浜市・戸塚区、(2)西区、(3)川崎市・川崎区、○×百貨店(4)神奈川県・横浜市・西区」のように部分差異を明確にし、かつ隣接する候補での差異が最小化するように並べられた応答を生成する。音声による応答生成の場合も同様の手順により差異を明確化でき。例えば「○○百貨店は、3件ございます。住所は、神奈川県・横浜市・戸塚区および西区、川崎市・川崎区です。○×百貨店は1件ございます。住所は、神奈川県・横浜市・西区です。」のような応答を生成できる。
最後に、応答提示手段1004は、差異明確化応答生成手段1003により生成された応答をユーザへ提示する(ステップS57)。
この結果、認識候補として得られた複数の候補に基づく階層的なデータベースの検索結果について、差異を明確化した応答をユーザへ示すことができる。このため、ユーザは所望の候補の選択することが容易となる。
なお、上記実施の形態1〜5において、データベース2001は対話装置に備えられたものでなく、通信回線等によって接続された外部のデータベースであってもよい。
差異抽出手段が認識結果の候補間の差異を抽出して認識結果へ差異情報を付与し、差異明確化応答生成手段が、認識結果へ付与した差異情報に基づき差異が明確になる応答を生成するので、ユーザは認識結果候補間の差異が容易く見分けることができ、カーナビゲーション等に適用することでユーザの操作性が向上する。
本発明の実施の形態1に係る対話装置の構成を示すブロック図である。 実施の形態1の動作フローのフローチャートである。 本発明の実施の形態2に係る対話装置の構成を示すブロック図である。 施設名に関するデータベースの検索キーワードと検索結果の例を示す説明図である。 実施の形態2の動作フローを説明するフローチャートである。 本発明の実施の形態3に係る対話装置の構成を示すブロック図である。 実施の形態3の動作フローを説明するフローチャートである。 本発明の実施の形態4に係る対話装置の構成を示すブロック図である。 実施の形態4の動作フローを説明するフローチャートである。 候補対の差異距離および差異内容の説明図である。 本発明の実施の形態5に係る対話装置の構成を示すブロック図である。 実施の形態5の動作フローを説明するフローチャートである。 実施の形態5における認識手段による認識結果の説明図である。 実施の形態5における検索結果の説明図である。
符号の説明
1001:認識手段、1002:差異抽出手段、1003:差異明確化応答生成手段、1004:応答提示手段、2001:名称データベース、2002:検索手段、4001:候補対差異抽出手段、4002:候補並べ替え手段、5001:候補対階層構造差異抽出手段。

Claims (7)

  1. 入力された音声を認識して、言語単位又は認識単位であるシンボルの系列からなる認識結果の認識候補を複数リスト化した候補リストを出力する認識手段と、
    前記認識候補の各シンボルに対し、全ての認識候補数と当該シンボルの出現した認識候補数に基づく関数で定義された差異情報を付与する差異抽出手段と、
    前記認識結果の各認識候補の各シンボルに付与した差異情報に基づき、差異を有する他の認識候補のシンボルと該差異が明確になるよう当該シンボルの文字の表示形態又は音声合成による当該シンボルの音声の韻律を変化させる応答を生成する差異明確化応答生成手段と、
    生成した応答を提示する応答提示手段を備えることを特徴とする対話装置。
  2. 認識手段による認識結果の候補リストのシンボルを検索キーワードとし、この検索キーワードを用いて別途設けられたデータベースを検索し検索結果を複数の検索候補として出力する検索手段をさらに備え、
    差異抽出手段は請求項1記載の差異抽出手段に替え、前記検索手段の複数の検索候補の各シンボルに対して全ての検索候補数と当該シンボルが出現した検索候補数に基づく関数で定義された差異情報を付与する構成にされたことを特徴とする請求項1記載の対話装置。
  3. 差異明確化応答生成手段は、請求項1または2の差異明確化応答生成手段に替え、テキスト・画面による応答表現の生成において差異の度合いに応じて認識候補又は検索候補を構成するシンボルごとに表示位置または表示形態の少なくとも一方を変化させて候補間の差異を強調する応答を生成する構成にされたことを特徴とする請求項1または2に記載の対話装置。
  4. 差異明確化応答生成手段は、請求項1または2の差異明確化応答生成手段に替え、テキスト・画面による応答表現の生成において、差異抽出手段で付与された差異情報により差異がない認識候補又は検索候補を構成する共通のシンボルは2回目の出現以降、同一であることを表す記号へ置換し差異部分を強調する応答を生成する構成にされたことを特徴とする請求項1または2に記載の対話装置。
  5. 差異明確化応答生成手段は、請求項1または2の差異明確化応答生成手段に替え、音声による応答表現の生成において、差異の度合いに応じて認識候補又は検索候補を構成するシンボルごとに声の高さ・声の大きさ・発話速度・ポーズの少なくとも1つを通常発声と変えて差異を強調する構成にされたことを特徴とする請求項1または2に記載の対話装置。
  6. 検索手段は入力された検索キーワードが施設名称の通称であるとき、施設名称の正式名称、施設ジャンル、住所の少なくとも1つを含む検索結果の検索候補を出力することを特徴とする請求項2に記載の対話装置。
  7. 検索手段はデータベースの検索結果の検索候補を所定の観点で区分され、かつ優先順位が定められた複数のフィールドに分類し、応答提示手段は優先順位が高いフィールドの検索結果の検索候補に差異があれば、それよりも低い優先順位のフィールドの差異を提示しないことを特徴とした、請求項2に記載の対話装置。
JP2004202060A 2004-07-08 2004-07-08 対話装置 Expired - Fee Related JP4684583B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004202060A JP4684583B2 (ja) 2004-07-08 2004-07-08 対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004202060A JP4684583B2 (ja) 2004-07-08 2004-07-08 対話装置

Publications (2)

Publication Number Publication Date
JP2006023572A JP2006023572A (ja) 2006-01-26
JP4684583B2 true JP4684583B2 (ja) 2011-05-18

Family

ID=35796869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004202060A Expired - Fee Related JP4684583B2 (ja) 2004-07-08 2004-07-08 対話装置

Country Status (1)

Country Link
JP (1) JP4684583B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007213112A (ja) * 2006-02-07 2007-08-23 Oki Electric Ind Co Ltd データエントリ処理システム
CN101558443B (zh) 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
JP5526396B2 (ja) 2008-03-11 2014-06-18 クラリオン株式会社 情報検索装置、情報検索システム及び情報検索方法
JP5004863B2 (ja) * 2008-04-30 2012-08-22 三菱電機株式会社 音声検索装置および音声検索方法
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
JP6427755B2 (ja) * 2014-02-24 2018-11-28 パナソニックIpマネジメント株式会社 データ入力装置、データ入力方法、プログラム及び車載機
CN108885117A (zh) * 2016-03-29 2018-11-23 三菱电机株式会社 语音引导装置和语音引导方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04232997A (ja) * 1990-12-28 1992-08-21 Sharp Corp 音声認識装置における認識結果表示方式
JPH0720979A (ja) * 1993-07-02 1995-01-24 Mitsubishi Electric Corp コマンド入力支援システム
JPH09114491A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JPH11242582A (ja) * 1998-02-25 1999-09-07 Sharp Corp 文字入力装置及び文字入力プログラムを記録した記録媒体
JPH11250077A (ja) * 1998-02-27 1999-09-17 Minolta Co Ltd 情報処理装置、情報処理方法及び記録媒体
JP2002358309A (ja) * 2001-06-04 2002-12-13 Hitachi Software Eng Co Ltd プロファイルデータベース及びプロファイル作成方法
JP2003186491A (ja) * 2001-12-13 2003-07-04 Telecommunication Advancement Organization Of Japan 電子化テキスト作成支援システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04232997A (ja) * 1990-12-28 1992-08-21 Sharp Corp 音声認識装置における認識結果表示方式
JPH0720979A (ja) * 1993-07-02 1995-01-24 Mitsubishi Electric Corp コマンド入力支援システム
JPH09114491A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JPH11242582A (ja) * 1998-02-25 1999-09-07 Sharp Corp 文字入力装置及び文字入力プログラムを記録した記録媒体
JPH11250077A (ja) * 1998-02-27 1999-09-17 Minolta Co Ltd 情報処理装置、情報処理方法及び記録媒体
JP2002358309A (ja) * 2001-06-04 2002-12-13 Hitachi Software Eng Co Ltd プロファイルデータベース及びプロファイル作成方法
JP2003186491A (ja) * 2001-12-13 2003-07-04 Telecommunication Advancement Organization Of Japan 電子化テキスト作成支援システム

Also Published As

Publication number Publication date
JP2006023572A (ja) 2006-01-26

Similar Documents

Publication Publication Date Title
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US8380505B2 (en) System for recognizing speech for searching a database
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US8666743B2 (en) Speech recognition method for selecting a combination of list elements via a speech input
JP3935844B2 (ja) 入力された音声のトランスクリプションおよび表示
JP5189874B2 (ja) 多言語の非ネイティブ音声の認識
JP5089955B2 (ja) 音声対話装置
JP4680714B2 (ja) 音声認識装置および音声認識方法
JP5073024B2 (ja) 音声対話装置
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP4684583B2 (ja) 対話装置
KR100467590B1 (ko) 발음 사전 갱신 장치 및 방법
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP5004863B2 (ja) 音声検索装置および音声検索方法
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2000056795A (ja) 音声認識装置
JP3663012B2 (ja) 音声による入力装置
JP3790038B2 (ja) サブワード型不特定話者音声認識装置
JP2002532763A (ja) 音声によって動作される自動問合せシステム
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
KR20040008546A (ko) 연속 음성인식 기기의 오인식 수정 방법
JP2000276189A (ja) 日本語ディクテーションシステム
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPS6211732B2 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4684583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees