JP4537755B2 - 音声対話システム - Google Patents

音声対話システム Download PDF

Info

Publication number
JP4537755B2
JP4537755B2 JP2004135631A JP2004135631A JP4537755B2 JP 4537755 B2 JP4537755 B2 JP 4537755B2 JP 2004135631 A JP2004135631 A JP 2004135631A JP 2004135631 A JP2004135631 A JP 2004135631A JP 4537755 B2 JP4537755 B2 JP 4537755B2
Authority
JP
Japan
Prior art keywords
user
utterance
corrected
phrase
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004135631A
Other languages
English (en)
Other versions
JP2005316247A (ja
Inventor
浩彦 佐川
テルコ・ミタムラ
エリック・ナイバーグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Carnegie Mellon University
Original Assignee
Carnegie Mellon University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Carnegie Mellon University filed Critical Carnegie Mellon University
Priority to JP2004135631A priority Critical patent/JP4537755B2/ja
Publication of JP2005316247A publication Critical patent/JP2005316247A/ja
Application granted granted Critical
Publication of JP4537755B2 publication Critical patent/JP4537755B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、音声を用いて利用者とシステムが対話を行うことにより、利用者にサービスを提供する音声対話システム、利用者用インタフェース、あるいはソフトウェアに関する。
音声を用いて利用者と対話を行い、利用者にサービスを提供する技術としては、「特許文献1」や「特許文献2」が挙げられる。 また、利用者とシステムとの音声を用いた対話において、システムが利用者の発話を誤認識した際に、利用者がシステムの誤認識を訂正するために発話する訂正発話を扱った技術としては、「特許文献3」や「特許文献4」が挙げられる。「特許文献3」では、訂正発話の特徴的パラメータが通常の発話とは異なることを利用してシステムの誤認識を検出し、それを修正する技術が述べられている。「特許文献4」では、利用者の発話に対するシステムの返答中に利用者からの訂正発話を受け付けた場合、訂正発声の認識結果に基づいてシステムの返答内容を変更する技術が述べられている。
特許出願2002−24799、「音声対話装置及び方法、音声対話プログラム並びにその記録媒体」 特許出願2002−122491、「音声対話システム及び音声対話方法」 特許出願2000−45442、「音声認識結果の誤り訂正方法およびその装置」 特許出願2002−4552、「音声対話方法および装置」
「特許文献1」や「特許文献2」に示されるような従来の多くの音声対話システムにおいては、利用者の発話を認識した結果をシステムが確認する際に、利用者の発話としては「はい」か「いいえ」のみしか想定されていない場合が多かった。しかし、システムが誤認識した内容を含む確認を行った場合、利用者は「いいえ」だけでなく、誤りを訂正するための内容を含む発話を行うことが多いことが知られている。このため、システムが利用者の発話を誤認識した際に利用者とシステムのスムーズな対話を行うことが困難であった。
一方、「特許文献3」では訂正発話の特徴的パラメータを利用した訂正発話の検出方法が述べられているが、さまざまな対話の形式を想定した場合、訂正発話と通常発話における差が見られない場合もあり、十分とは言えない。また、訂正発話として、訂正を行う語・句を含む発話のみが想定されているが、誤認識した語・句と訂正を行う語・句の両方を含む発話や誤認識した語を否定するだけの発話等、訂正発話にはさまざまな形式が想定される。このため、全ての訂正発話に正しく対応できないという問題がある。
また、「特許文献4」では、上記で述べたようなさまざまな形態の訂正発話をどのように認識するか、すなわち訂正発話を認識するために必要となるルールをどのように用意するかについては述べられていない。上記で述べたように訂正発話にはさまざまな形式が想定されることに加え、対話形式によっては状況毎に訂正発話で訂正される語・句が変化する場合がある。例えば、ある対話から別の対話に自由に移行できる形式の対話システムにおいて、別の対話への移行が、元の対話を継続するために行った発話を誤認識した結果である場合、その直後の訂正発話は元の対話の状況に依存する。このため、訂正発話を認識するためのルールをあらかじめ用意しておくためには、対話におけるあらゆる状況を考慮しなければならない。しかし、より柔軟な対話を実現するためには対話が複雑になるため、あらかじめ全ての状況を想定して必要なルールを用意しておくことが困難になるという問題がある。
本発明の目的は、さまざまな対話の状況や訂正発話の形式に対して柔軟に訂正発話の検出を行い、システムによる誤認識を修正することにより、システムが利用者の発話を誤認識した際にも、利用者とシステムがスムーズに対話を進めることを可能とする技術を提供することにある。
上記目的を達成するために、本発明では、対話の進行具合や利用者の音声を認識するために使用したルール、利用者の音声を認識した結果等、対話の状態の変化を記録する対話履歴を設け、対話履歴中の情報とあらかじめ用意されているテンプレートを用いて利用者の訂正発話を認識するためのルールを生成する。利用者の音声が、生成されたルールを用いて認識された場合、利用者の音声を訂正発話と見なし、誤認識を修正する処理に移行する。誤認識の修正では、訂正発話の認識結果およびそれまでの利用者の発話の認識結果の両方を利用することにより修正を行う。
本発明によれば、対話中で使用された各種情報を格納する対話履歴を参照することにより訂正発話を認識するためのルールを生成し、生成したルールに基づいて訂正発話の有無を判定することにより、さまざまな対話の状況や訂正発話の形式に対して柔軟に訂正発話の検出を行うことが可能となる。また、訂正発話の認識結果およびそれまでの利用者の発話の認識結果の両方を利用して誤認識の修正を行うことにより、精度良く修正を行うことが可能となる。以上により、音声対話システムが利用者の発話を誤認識した際にも、利用者と音声対話システムがスムーズに対話を進めることが可能となる。
以下、本発明の一実施例を図1から図25を用いて説明する。
図1は本発明を適用した音声対話システムの構成図である。図1において、マイク101は利用者の音声を入力するための装置、音声入力部102は利用者の音声をデジタル信号に変換するための装置である。スピーカ103は音声対話システムからの質問や確認あるいは処理結果等を音声として出力するための装置、音声出力部104はデジタル信号を音声としてスピーカ103から出力できるアナログ信号に変換するための装置である。情報処理部105は、音声対話システムにおける各種処理を行うための装置である。記憶部106は音声対話システムに必要となる各種処理を行うためのプログラムを格納するための装置であり、利用者が入力した音声信号から利用者の発話した内容を認識するための音声認識プログラム107、音声対話システムからの質問や確認、処理結果等のメッセージを音声として出力するための音声合成プログラム108、利用者と音声対話システムとの間の対話の進行を制御するための対話制御プログラム109、利用者からの要求に応じた処理を行うためのタスク実行プログラム110、音声対話システムによる誤認識を訂正するために利用者が発話する訂正発話を認識する際に使用される文法ルールを生成するための訂正発話用ルール生成プログラム111が格納される。また、記憶部112は対話の状態変化に関する情報である対話履歴113を格納するための装置である。対話シナリオ114には対話制御プログラム109で使用される対話の進行に関する情報が記述される。音声認識用文法ルール115は対話中に利用者が入力する発話を認識するために使用される文法ルールであり、音声認識プログラム107において使用される。訂正発話用テンプレート116は訂正発話を認識するための文法ルールを生成する際に使用されるテンプレートであり、訂正発話用ルール生成プログラム111において使用される。以上の各装置は全て、パーソナルコンピュータに用いられるような一般的な装置を利用することが可能である。また、音声認識プログラム107としては、良く知られた技術、例えば、「確率モデルによる音声認識、コロナ社、1988年」にあるような技術を使用することができる。音声合成プログラム108としても同様に、良く知られた技術、例えば、「音声情報処理 電子情報通信工学シリーズ、森北出版、1998年」にあるような技術を使用することができる。タスク実行プログラム110としては、音声対話システムから実行可能なプログラムであれば、どのようなプログラムでも利用することが可能であり、データベースの検索や各種計算、装置の制御等の一般の計算機において利用可能な機能を利用することができる。
図2は対話シナリオ114に格納される対話に関する情報のフォーマットである。図2において、対話名201はそれぞれの対話を識別するための文字列である。スロット名202および205はタスクを実行するために利用者が入力する必要がある項目であるスロットの名称を表わす文字列であり、各スロットに対応する情報であるスロット値は、利用者が音声により入力することを示す。システムプロンプト203および206は、スロット名202および205に対する情報の入力を利用者に促す際に出力するメッセージを表わす文字列である。システムプロンプトとしては、例えば、スロットが会議の開始時間に関する場合、「会議は何時からですか?」といったような文を使用することができる。利用者発話認識用文法名204および207は利用者の発話を認識するために使用する音声認識用文法ルールの名称である。確認用プロンプト208は、利用者によって入力された各スロット値を確認するために出力されるメッセージを表わす文字列である。この文字列には、スロット名やスロット値を埋め込むための特殊な文字列を含むことができる。例えば、スロット値を埋め込むための文字列をスロット名を()で囲むことにより表す場合、「開始時間は(スロット名1)、終了時間は(スロット名2)でよろしいですか」といったような文字列を使用することができる。タスク実行用コマンド209はタスク実行用プログラム110を実行するためのコマンドであり、フォーマットはタスク実行プログラム110の解釈可能な形式となる。例えば、タスク実行用プログラム110において、開始時間と終了時間を引数として利用可能な会議室を検索する処理が「SearchRoom」というコマンドで実行される場合、「SearchRoom (スロット名1) (スロット名2)」というように記述しておけば良い。ここでも、()で囲まれたスロット名によりスロット値が埋め込まれると仮定している。利用者確認発話用文法名210は、確認用プロンプト208に対する利用者の応答を認識するための音声認識用文法ルールの名称である。結果プロンプト211はタスクの実行結果を利用者に報告するための文字列であり、タスクの実行結果を埋め込むための特殊な文字列を含むことができる。例えば、タスクの実行結果がResult[n]という文字列の配列変数に入力される場合、「利用可能な会議室は(Result[1])、(Result[2])、(Result[3])です」というような文を使用することができる。ここで、()で囲まれた配列変数名により、結果の各文字列が埋め込まれると仮定している。また、スロット名やスロット値を埋め込めるようにすることもできる。
図3は音声対話システムにおいて実行される対話の一例を示す。図3における対話では、3種類のスロットが想定されており、それぞれ会議室の利用開始時間、終了時間、会議室名となっている。301、303、305は各スロット値の入力を利用者に促すためのシステムプロンプトであり、302、304、306は利用者の発話である。307は利用者が入力した情報を確認するための確認プロンプトであり、308は確認プロンプトに対する利用者の応答である。309はタスク実行結果を報告する結果プロンプトである。
音声認識用文法ルール115は、ノードとアークを有する状態遷移ネットワークによって表現する。図4に状態遷移ネットワークで表現した音声認識用文法ルールの例を示す。図4において、401、404、409、414はノードを、403、406、408、411、413はあるノードから他のノードへの遷移を表わすアーク、402、405、407、410、412はアークで示される遷移が実行されるための条件となる利用者発話中の単語あるいは句を表わす。例えば音声認識プログラム107が利用者の発話を認識した結果、「10時」、「から」、「予約して下さい」を出力したとすると、この結果を図4に示す文法ルールに順に適用した場合、401で示すノードから開始して、ノード401、アーク403、ノード404、アーク408、ノード409、アーク413、ノード414と辿ることができる。音声認識プログラム107は、このように文法ルールの最初から最後のノードまで辿ることができる単語(句)列のみを音声認識の結果として出力する。
図5に、図4で示す音声認識用文法ルールを音声対話システムにおいて記述するためのフォーマットを示す。図5において、文法名501は各文法ルールを識別するための名称であり、これが図2における利用者発話認識用文法名204、207あるいは210として記述される。ノード名502はノードを識別するための文字列であり、図4における401、404、409、414の名称に対応する。スロット名503は次のノードへの遷移条件となる利用者の発話内容が図2に示す対話シナリオ中のスロット名に対応する場合、そのスロット名を記述する。対応するスロット名がない場合は空白とする。単語名504から505は、次のノードへの遷移条件となる単語あるいは句を記述する。遷移条件となる単語名が空白の場合は、無条件に遷移先のノードに遷移することを表す。次ノード名506は遷移先のノード名である。このように、文法ルールは、あるノードから次のノードへの遷移を単位として記述する。
図6に、図5で示す音声認識用文法ルールを適用した後に出力される音声認識結果を記述するためのフォーマットを示す。図6において、信頼度601は音声認識結果がどの程度正しいかを表わす数値である。音声認識プログラムが複数の単語(句)列を出力可能な場合は、図6に示す音声認識結果が複数出力される。信頼度601は複数出力される音声認識結果の順位付けを行うために使用される。この信頼度は、後述する各単語の信頼度の和や平均値等に基づいて決定することができる。スロット名602および605は、図5におけるスロット名503に対応する。単語名603および606は遷移条件として採用された単語の名称であり、図5における504から505の単語名のいずれかが記述される。単語信頼度604および607は、音声認識プログラムが出力した各単語がどの程度正しいかを表わす数値であり、通常、音声認識プログラムでは単語(句)列が出力される際に同時に出力される。また図6において、スロット名が空白の項目については省略することができる。
図7に訂正発話用テンプレート116を記述するためのフォーマットを示す。図7に示す訂正発話用テンプレートは、あらかじめ用意されている文法ルールの間に別の文法ルールを挿入する形式となっている。テンプレートルール701、703、705は、あらかじめ用意されている文法ルールを表しており、その記述フォーマットは図5に示す音声認識用文法ルールと同様である。但し、挿入される文法ルールがテンプレートルールの直前に接続される場合は、テンプレートルールの先頭ノードのノード名として特別なノード名、例えば「X」等を記述する。また、挿入される文法ルールがテンプレートルールの後に接続される場合は、挿入される文法ルールに遷移するノードの次ノードとして挿入箇所を表わす特別なノード名、例えば「X」等を記述する。これにより、テンプレートに文法ルールを挿入する際は、テンプレート中の特別なノード名を検索し、そこに文法ルールを結合すれば良い。挿入ルールタイプ702および704は、テンプレートに挿入される文法ルールのタイプを表す。挿入ルールタイプとしては、「文」、「句」、「スロット値」、「スロット名」を用意する。それぞれのタイプは、テンプレートに別の文法ルールを挿入する際に使用される。図7では、テンプレートルールの間に、挿入される文法ルールが挟まれる形のテンプレートを表しているが、挿入される文法ルールから開始されるテンプレート、あるいは挿入される文法ルールで終了するテンプレートにすることもできる。
図8に、対話履歴113に格納される対話の状態変化に関する情報のフォーマットを示す。図8において対話名801は、この情報に関連する対話の名称であり、図2における対話名201と同じ内容が記述される。履歴種類802は、記述されている情報が音声対話システムに関するものであるか利用者に関するものであるかを示す。図2に示す対話シナリオでは、音声対話システムから出力されるプロンプトと利用者の発話の繰返しによって対話が進行することになる。よって、履歴種類802には、システムプロンプトに関する情報の場合は「システム」、利用者の発話に関する情報の場合は「利用者」が記述されることになる。対話情報803には、システムプロンプトあるいは利用者の発話に関する情報が記述される。対話履歴113には、図8で示される音声対話システムに関する情報および利用者に関する情報が、対話の進行に従った時系列情報として記録される。
図9にシステムプロンプトに関する情報のフォーマットを示す。図9において、プロンプト種類901はシステムプロンプトの種類を表わす項目であり、「質問」、「確認」、「応答」が記述される。システムプロンプトの種類は図2に示す対話シナリオを参照することにより容易に決定することができる。図10に、利用者の発話に関する情報のフォーマットを示す。図10において、利用者発話認識用文法名1001は、利用者の発話を認識するために使用された音声認識用文法ルールの名称であり、図2における利用者発話認識用文法名204、207あるいは210が記述される。スロット名1002は、利用者の発話が関連するスロットの名称を表しており、図2に示すスロット名202あるいは205が記述される。利用者発話認識結果1003には、利用者の発話を認識した結果が記述される。認識結果のフォーマットは、図6に示すフォーマットと同じである。
図11は、対話制御プログラム109における処理の流れ図である。図11の流れ図では、ある種類の対話が選択された直後の状態を想定している。この状態では、全てのスロットの値が空白の状態である。図11において、ステップ1101では値が空白であるスロットを一つ選択し、対象スロットとする。スロットの選択方法は、対話シナリオの最初から順にスロットを検索し、値が空白であるかどうかを調べれば良い。また、図2における対話シナリオで各スロットに対して優先順位を追加することも可能であり、その場合は、優先順位の高い順にスロットを調べれば良い。ステップ1102では、対象とするスロットに対応するシステムプロンプトを対話シナリオから読み出し、音声として出力する。ステップ1103では、対象とするスロットに対応する利用者発話認識用文法名に示される文法ルールを音声認識プログラムに送り、音声認識プログラム107では指定された文法ルールに基づいて利用者発話の認識を行い、認識結果を対話制御プログラムに返す。対話制御プログラムでは、認識結果からスロットに関連する値を抽出し、スロット値として設定する。ステップ1104では、ステップ1102およびステップ1103の内容に基づいて、対話履歴113の内容を更新する。ステップ1105では、値が空白のスロットがあるかどうかを調べ、ある場合はステップ1101に戻る。全てのスロット値が設定されている場合は、ステップ1106に移る。ステップ1106では、対話シナリオから確認用プロンプトを読み込み、必要に応じてスロット値やスロット名の埋め込みを行った後、音声として出力する。ステップ1107では、対話履歴の内容と音声認識用文法ルールを元に、訂正発話用文法ルールを生成する。訂正発話用文法ルールの生成方法については後述する。ステップ1108では、対話シナリオ中の利用者確認用文法名に示される文法ルールと、生成された訂正発話用文法ルールを音声認識プログラムに送り、音声認識プログラムでは指定された文法に基づいて利用者発話の認識を行い、認識結果を対話制御プログラムに返す。ステップ1109では、ステップ1106およびステップ1108の内容に基づいて、対話履歴の内容を更新する。ステップ1110では、ステップ1108で得られた利用者発話の認識結果が、ステップ1106における確認内容の否定であればステップ1111でスロットの値を全て空白にして、ステップ1101に戻る。ステップ1110において、利用者の発話が訂正発話用文法によって認識された結果である場合は、ステップ1114においてスロット値の修正を行い、ステップ1106に戻る。スロット値の修正方法についても後述する。ステップ1110において、利用者の発話がステップ1106における確認内容を肯定する発話であればステップ1112に進み、対話シナリオからタスク実行用コマンドを読み込み、必要に応じてスロット値を埋め込んだ後、タスク実行プログラム110でコマンドを実行し、結果を対話制御プログラムは受け取る。ステップ1113では、対話シナリオから結果プロンプトを読み込み、必要に応じてコマンドの実行結果を埋め込んだ後、音声として出力する。上記の処理では、ステップ1114で修正を行った後、全体の確認であるステップ1106に戻っているが、ステップ1114で修正を行った値についてのみ確認を行い、利用者から肯定の応答が得られた場合にステップ1106に戻るようにしても良い。この場合、修正値の確認用プロンプトを図2に示す対話シナリオに追加し、使用するようにすれば良い。また、修正値に対して利用者から肯定の応答が得られなかった場合は、修正対象となっているスロット値の入力を利用者に促すプロンプトを出力し、利用者からの入力を受けるようにしても良い。この場合に必要となるプロンプトも図2に示す対話シナリオに容易に追加することができる。修正値に対して利用者から肯定の応答が得られなかった場合、スロットを修正前の状態に戻した後、ステップ1106に戻るようにすることもできる。さらに、修正を行った後、確認に戻らず、直接次の対話状態に移行するようにしても良い。すなわち、図11に示す流れ図の場合、ステップ1114の後、ステップ1112に進むようにすることができる。
次に、訂正発話用文法ルールを生成する方法について説明する。ここでの説明では、簡単のため、対話履歴中には、システムプロンプトおよび利用者の発話に関する最新の情報のみが格納されている場合を想定する。対話履歴中に最新の情報以前の情報を格納する場合も、以下で述べる方法は同様に使用することができる。
訂正発話用ルールを生成する方法には、訂正発話用テンプレートを使用する方法と、使用しない方法がある。訂正発話用テンプレートを使用しない方法では、対話履歴中の利用者発話認識用文法名で指定される文法ルールを訂正発話用文法ルールとして複製する。検索された文法ルールが図4に示す文法ルールであるとすると、これをそのまま訂正発話用文法ルールとして使用する。
次に訂正発話用テンプレートを用いた訂正発話用文法ルールの生成方法について説明する。この方法では、訂正発話用テンプレート中に含まれている挿入ルールタイプによって、異なる方法を使用する。訂正発話用テンプレート中のテンプレートルールを図12および図13に示す文法ルールとし、これらの文法ルールの間に別の文法ルールが挿入される場合を想定する。図13において、「null」1302は、無条件に次のノードに遷移することを表している。また、訂正発話用テンプレート中の挿入ルールタイプを「文」とし、対話履歴中の利用者発話認識用文法名で指定される文法ルールが図4に示す文法ルールであるとする。この場合、図4に示す文法ルール全体が図12および図13で表されるテンプレートルール間に挿入され、図14に示すような訂正発話用文法ルールが生成される。図14に示す文法ルールでは、図12および図13において「X」で示されているノード1201および1301に、それぞれ図4における文法ルールの先頭ノード401および最終ノード414が接続されており、1401から1405で示される文法ルールが図12のテンプレートルール、1405から1413で示される文法ルールが図4で示される文法ルール、1413から1415で示される部分が図13のテンプレートルールに対応している。また、文法ルールを訂正発話用テンプレートへ挿入する際、挿入する文法ルールの語尾変化や適切な語の削除あるいは追加を行った後、挿入を行うようにしても良い。例えば、挿入する文法ルールの語尾が「お願いします」であり、その後に接続するテンプレートルールが「ですが」であった場合、「お願いします」を「お願いしたいの」と修正を行った後接続すれば、自然な表現に対応できる。このような修正は、個々の表現毎に変換ルールを用意することにより、容易に実現可能である。
訂正発話用テンプレート中のテンプレートルール間の挿入ルールタイプが「句」である場合の訂正発話用文法ルールの生成方法について説明する。テンプレートルールは図12および図15で示される文法ルール、対話履歴中の利用者発話に関する情報中のスロット名は「開始時刻」、対話履歴中の利用者発話認識用文法名で指定される文法ルールは図4であるとする。さらに、図4に示されるノード1(401)からノード2(402)への遷移に関する文法ルールにスロット名「開始時刻」が記述されているとする。この場合、対話履歴中のスロット名に対応するルールのみを図4に示す文法ルールから抽出し、テンプレートへ挿入する。すなわち、図4に示すノード1(401)からノード2(402)までの文法ルールを取り出し、先頭ノードを図12に示すテンプレートルールの「X」で示されるノード1201に接続し、最終ノードを図15に示すテンプレートルールの「X」で示されるノード1501に接続することにより、図16に示す訂正発話用文法ルールが生成される。図16において、1601から1605までの文法ルールが図12に示すテンプレートルール、1607から1611までの文法ルールが図15に示すテンプレートルールであり、1605から1607までの文法ルールが、対話履歴に基づいて抽出された文法ルールに対応している。
訂正発話用テンプレート中のテンプレートルール間の挿入ルールタイプが「句」であり、対話履歴中の利用者発話認識用文法名で示される文法ルールが対話履歴により指定されるスロット名を複数含んでいる場合は、それらの組み合わせを含む訂正発話用文法ルールを生成する。対話履歴によって指定される文法ルールが図17であり、ノード1701から1703のルールに対応するスロット名とノード1705から1707に対応するスロット名が、対話履歴によって指定されるスロット名であるとする。訂正発話用テンプレートが上記と同様に、図12および図15で示されるテンプレートルールから構成されているとすると、それぞれのスロット名に対応する文法ルールを含む訂正発話用文法ルールとして図18および図19に示す文法ルールが生成される。図18ではノード1801から1803までの文法ルールが、また、図19ではノード1901から1903までの文法ルールが、スロット名に対応する文法ルールを表している。ここで、図18および図19では、スロット名に関する文法ルールの後に続く助詞に関する文法ルール、ノード1803から1805まで、およびノード1903から1905までが追加された形となっている。助詞の種類は限られているため、あらかじめ訂正発話用ルール生成プログラム113中に記録しておくことができる。スロット名に対応する文法ルールを抽出する際、スロット名に対応する文法ルールに継続する文法ルールを検索し、記録されている助詞と文法ルール中の単語名を比較することにより、スロットに助詞が継続しているかどうかを容易に判定することができる。助詞が継続している場合、その助詞に関連する文法ルールをスロットに関する情報と共に抽出し、訂正発話用テンプレートに挿入すれば良い。また、スロット名に対応する文法ルールの後に、助詞に関する文法ルールを接続した遷移と、無い場合の遷移の両方を挿入するようにしても良い。また、助詞に関する文法ルールは、対話履歴中の利用者発話認識用文法名で示される文法ルールから検索する以外に、あらかじめ記憶された助詞を遷移条件とする文法ルールを生成し、それを挿入するようにしても良い。また、助詞に関する情報は、プログラムとは別に記憶装置上に格納するようにしても良い。両方のスロット名に対応するルールを含む訂正発話用文法ルールとしては、図20に示すルールが生成される。図20において、ノード2001から2003までの文法ルール、およびノード2005から2007までの文法ルールが、各スロット名に対応する文法ルールである。また、ノード2003から2005、およびノード2007から2009までの文法ルールが、それぞれのスロットに対応する文法ルールに継続する助詞に関する文法ルールを表わしている。図20では、スロット名に対応する文法ルールの順序は、図17に示す文法ルール中のスロット名に対応する文法ルールの順序と同じになっている。図20に示す文法ルールでは、助詞によって順序が決定されるため一通りの組み合わせのみ挿入されているが、順序関係が限定されない助詞が継続する場合は、任意の組み合わせを生成して訂正発話用テンプレート中に挿入することができる。順序関係は助詞の種類によって決定されるため、助詞の種類と順序に関する情報を各助詞に付属する情報として記述しておき、それらの情報に基づいて挿入する文法ルールの順序を容易に決定することができる。対話履歴が、システムプロンプトおよび利用者の発話に関する最新の情報以前の情報も記録している場合は、利用者発話認識用文法名で示される全ての文法ルールから各スロット名に対応する文法ルールを全て抽出した後、スロット間の組み合わせを求めれば良い。
訂正発話用テンプレート中のテンプレートルール間の挿入ルールタイプが「スロット値」である場合の訂正発話用文法ルールの生成方法について説明する。ここで、テンプレートルールとして図12、図21および図15に示す文法ルールが順に訂正発話用テンプレート中に含まれており、図12と図21で示されるテンプレートルール間の挿入ルールタイプが「スロット値」、図21と図15で示されるテンプレートルール間の挿入ルールタイプを「句」とする。図21では、前後に文法ルールが接続されるため、開始ノード2101、終了ノード2102共、ノード名が「X」となっている。また、対話履歴中の利用者発話認識用文法名で示される文法ルールは図22で示される文法ルールであり、図22中のノード2201から2205までの文法ルールが対話履歴中に含まれるスロット名に対応するとする。さらに、対話履歴中に含まれる利用者発話認識結果が、
開始時刻=10時
であったとする。なお、「開始時刻」は対話履歴中に含まれるスロット名であり、「10時」がスロット値であるとする。この場合、訂正発話用文法ルールを生成するには、まず、挿入ルールタイプが「スロット値」の部分には、対話履歴中に含まれるスロット名に対応するスロット値を遷移条件とする文法ルールを生成し、挿入する。次に、挿入ルールタイプが「句」の部分には、対話履歴中に含まれているスロット名に対応する文法ルールを対話履歴中に含まれている利用者発話認識用文法名で指定される文法ルールから抽出し、訂正発話用テンプレートに挿入する。以上の操作により、図23に示す文法ルールが訂正発話用文法ルールとして生成される。図23において、2301から2303までのルールが利用者発話認識結果から抽出されたスロット値に対応する文法ルール、2305から2309までの文法ルールが対話履歴により指定される文法ルールから抽出された文法ルールに対応している。図23に示す文法ルールでは、対話履歴により指定される文法ルールから抽出した文法ルールがそのまま挿入されているが、利用者発話認識結果から抽出されたスロット値に対応する遷移を除いたルールを挿入するようにしても良い。すなわち、図23における「10時」2306は利用者発話認識結果から抽出されたスロット値と同じであり、訂正発話としては除外することができるため、「11時」2307および「12時」2308のみを遷移条件としたルールにすることができる。
訂正発話用テンプレート中のテンプレートルール間の挿入ルールタイプが「スロット名」である場合の訂正発話用文法ルールの生成方法について説明する。テンプレートルールとしては図12、図24および図15に示すルールが順に訂正発話用テンプレートに含まれており、図12と図24で示されるテンプレートルール間の挿入ルールタイプが「スロット名」、図24と図15で示されるテンプレートルール間の挿入ルールタイプを「句」とする。図24では、前後に挿入されるルールが接続されるため、開始ノード2401、終了ノード2402共、ノード名が「X」となっている。また、対話履歴中の利用者発話認識用文法名で示される文法ルールは図22の文法ルールであり、図22中のノード2201から2205までの文法ルールが対話履歴中に含まれるスロット名に対応するとし、そのスロット名は「開始時刻」であるとする。この場合、訂正発話用文法ルールを生成するには、まず、挿入ルールタイプが「スロット名」の部分には、対話履歴により指定されているスロット名を遷移条件とする文法ルールを生成して挿入する。次に、挿入ルールタイプが「句」の部分には、対話履歴中に含まれるスロット名に対応する文法ルールを対話履歴中の利用者発話認識用文法で指定される文法ルールから抽出し、訂正発話用テンプレートに挿入する。以上の操作により、図25に示す文法ルールが訂正発話用文法ルールとして生成される。図25において、2501から2503までの文法ルールがスロット名により生成されたルール、2505から2509までのルールが対話履歴中の利用者発話認識用文法名により指定される文法ルールから抽出された文法ルールに対応している。また、スロット名を利用者がどのように発話するかには複数通りの方法が考えられる。例えば、「開始時刻」に対して「開始時刻」、「開始」、「始まり」等が在り得る。このような複数の表現に対応するために、各スロット名に対応する表現を記憶装置上に別途記録しておき、それらの表現を遷移条件とする文法ルールを生成するようにしても良い。
以上の方法では、訂正発話用テンプレート中にはそれぞれの挿入ルールタイプが一つずつしか含まれていないという前提となっている。同じ挿入ルールタイプの指定が複数箇所に含まれている場合は、対話履歴に基づいて抽出された文法ルールを挿入箇所に割り当てるための可能な全ての組み合わせを求め、各組み合わせ毎に訂正発話用文法ルールを生成するようにすれば良い。挿入箇所の数より抽出された文法ルールの数が少ない場合は、同じ文法ルールが複数箇所に挿入されることになる。挿入箇所に抽出された文法ルールを割り当てる際、挿入ルールタイプの順序も考慮することができる。例えば、「スロット値」や「スロット名」が挿入された場合、その次に来る「句」の挿入箇所には、通常、直前の「スロット値」や「スロット名」に関連する文法ルールのみが挿入可能である。また、挿入ルールタイプに、その前後の挿入箇所に挿入される文法ルールに関する情報も合わせて記述するようすれば、挿入さえる文法ルールの組み合わせをより容易に決定することが可能となる。
また、抽出したスロット名に対応する文法ルールを次に使用される利用者発話認識用文法名で指定される文法ルールに挿入することにより、訂正発話用文法ルールを生成することもできる。この場合は、次に使用される文法ルール中のスロット名に対応する箇所を挿入箇所として、対話履歴に基づいて抽出されたスロット名に対応する文法ルールをテンプレートに挿入する方法を用いることで実現することができる。さらに、対話履歴に基づいて抽出されたスロット名に対応する文法ルールと、次に使用される利用者発話認識用文法名で指定される文法ルールから抽出したスロット名に対応する文法ルールとを、テンプレートに挿入する方法を用いることもできる。この場合は、スロット名に対応する文法ルールが複数ある場合と同様に、スロットの可能な組み合わせを求め、それぞれの組み合わせに対応する文法ルールを生成し、テンプレートに挿入することにより実現することができる。ここで、次に使用される利用者発話認識用文法名で指定される文法ルールから抽出したスロット名に対応する文法ルールのみを含む組み合わせは省略することができる。また、このようにして生成された訂正発話用文法ルールを用いて利用者の発話が認識された場合、図11におけるステップ1114では、対話履歴中に含まれているスロット名に対応する認識結果を用いてスロット値の修正を行うと共に、次に使用される利用者発話認識用文法名で指定される文法ルールから抽出したスロット名に対応する認識結果を対応するスロットに代入する。また、ステップ1106において両者の結果に対する確認プロンプトを出力する必要がある。これは、対話シナリオ中に、スロットの可能な組み合わせに対する確認プロンプトを追加することにより、容易に実現することができる。
以上の方法によって生成された訂正発話用文法ルール中において、対話履歴中の利用者発話認識用文法で指定される文法ルールから抽出された文法ルールには、元の文法ルールと同様にスロット名が付加される。ただし、音声認識プログラムからの認識結果が、元の文法ルールによって認識された結果であるか、訂正発話用文法ルールによって認識された結果であるかを識別するため、訂正発話用文法ルール中のスロット名には、特別な記号を付加する。例えば、スロット名が「開始時刻」であれば、「_訂正」を付加して「開始時刻_訂正」というスロット名を使用する。付加する記号は通常のスロット名として使用しないようにすれば、その記号があるかないかを調べることによって、利用者の発話が訂正発話であるかそうでないかを容易に判定することができる。
次に、訂正発話が認識された場合のスロット値の修正方法について説明する。対話履歴中の利用者発話認識結果の内容を、
開始時刻={10時、12時}
また、訂正発話の認識結果を、
開始時刻_訂正={11時}
とする。ここで、「開始時刻」はスロット名、「_訂正」が訂正発話用文法ルールを用いて認識されたことを表すための記号であるとする。また、認識結果中には複数の候補が信頼度の高い順に並べられているとする。但し、上記の例では信頼度は省略している。この場合、訂正前のスロット「開始時刻」の値は「10時」であり、これを訂正発話認識結果中の候補「11時」で置き換えることにより修正が行われる。すなわち修正後のスロット値は、
開始時刻=11時
となる。この場合、訂正発話の認識結果に関わらず、対話履歴中の利用者発話認識結果の第二位の候補を選択することもできる。また、訂正発話の認識結果が、
開始時刻_訂正={10時、12時}
であった場合、訂正前のスロット値と訂正発話の認識結果中の第一位候補の値が共に「10時」であるため、この場合は、訂正発話の認識結果中の第二位候補「12時」で置き換えることにより修正が行われる。すなわち修正後のスロット値は、
開始時刻=12時
となる。この場合も、対話履歴中の利用者発話認識結果の第二候補を用いて修正を行うこともできる。また、訂正発話の認識結果中の第二位候補と対話履歴中の利用者発話認識結果の第二位候補の内、信頼度の高い方を選択することもできる。さらに、訂正発話の認識結果と対話履歴中の利用者発話認識結果に共通する候補を選択するようにしても良い。この場合、両認識結果中の同じ候補について信頼度の和を求め、その値が最も大きい候補を選択するようにすれば良い。あるいは、訂正発話の認識結果と対話履歴中の利用者発話認識結果に共通する候補は両者における信頼度の和を新たな信頼度とし、それぞれの結果にしか含まれない候補についてはそのままの信頼度を用いることによって、両方の認識結果に含まれる全ての候補の順位付けを行い、既に選択されているスロット値と異なり、且つ信頼度の最も高い候補を用いることにより修正を行うことも可能である。両方の認識結果に含まれる候補については、高い方の信頼度を新たな信頼度としても良い。また、新たな信頼度を求める際、各認識結果における順位に基づいた重み付けを行っても良い。例えば、高い順位に対して大きな値になるような係数を用意し、それを元の信頼度に乗じる方法を使用することができる。
対話履歴が、システムプロンプトおよび利用者の発話に関する最新の情報以前の情報も記録している場合は、さらに、同じ内容に関する訂正発話が繰り返されているかどうかを判定し、繰り返されている場合は、既に選択された候補に含まれない候補を選択することもできる。すなわち、利用者発話の認識結果の履歴が、
開始時刻={10時、11時、12時}
開始時刻_訂正={10時、12時}
であった場合、訂正前のスロット値は「10時」、一回目の訂正後のスロット値は「12時」となる。ここで、次の訂正発話の認識結果が、
開始時刻_訂正={10時、12時、11時}
であった場合、「10時」および「12時」は既に選択されているため、「11時」を新しいスロット値として選択する。スロット値として使用された候補は利用者発話認識結果の履歴から容易に判定可能であるが、処理を効率化するために、対話履歴中に選択されたスロット値の履歴を記録するようにしても良い。また、訂正発話が継続しているかどうかは、対話履歴中の認識結果に含まれるスロット名、システムプロンプト、利用者発話認識用文法名等が継続しているかどうかを確認することによって容易に判定することが可能である。
また、上記スロット値の修正において、訂正発話中の候補の信頼度があらかじめ定められた値より低い場合は修正を行わないようにしても良い。さらに、既に選択されているスロット値の信頼度と修正値として選択された候補の信頼度の差あるいは比があらかじめ定められた値より大きい場合のみ、修正を行うようにすることもできる。
上記の実施例では、音声認識用文法ルールから訂正発話用文法ルールを生成し、誤認識の検出および修正を行う例を示したが、音声認識用文法ルールだけでなく、音声認識の後に行う処理である自然言語処理用のルール等、状態遷移に基づくルールを使用して入力された音声、文字列あるいはジェスチャの列を解析する機能を有する対話システムであれば、同様に適用することが可能である。
また、上記の実施例は、音声対話システムからの質問に利用者が全て応えた後、音声対話システムが確認を行い、タスクを実行するという流れの対話における例であるが、本発明はそれ以外の形式の対話にも使用することが可能である。例えば、音声対話システムからの質問に利用者が応える毎に確認を行う形式の対話や、利用者が応えた内容の確認を次の音声対話システムの質問に含めて行う形式の対話、あるいは利用者が任意の発話を行える形式の対話等があるが、対話履歴中に格納する情報の範囲と、訂正発話用文法ルールを生成し使用する箇所とを、対話形式に合わせて変更することにより、上記実施例で述べた方法と同じ方法を本発明を適用することが可能である。
本発明の一実施例の構成を示す図。 対話シナリオのフォーマットを示す図。 音声対話システムにおいて実行される対話の一例を示す図。 音声認識用文法ルールの一例を示す図。 音声認識用文法ルールを記述するためのフォーマットを示す図。 音声認識結果のフォーマットを示す図。 訂正発話用テンプレートを記述するためのフォーマットを示す図。 対話履歴を記述するためのフォーマットを示す図。 対話履歴中のシステムプロンプトを記述するためのフォーマットを示す図。 対話履歴中の利用者の発話に関する情報を記述するためのフォーマットを示す図。 対話制御プログラムにおける処理の流れ図。 訂正発話用ルールのテンプレートルールの一例を示す図。 訂正発話用ルールのテンプレートルールの一例を示す図。 利用者発話認識用文法ルール全体を訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。 訂正発話用ルールのテンプレートルールの一例を示す図。 利用者発話認識用文法ルールから抽出したスロット名に対応するルールのみを訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。 利用者発話認識用文法ルールの一例を示す図。 利用者発話認識用文法ルールから抽出したスロット名に対応するルールのみを訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。 利用者発話認識用文法ルールから抽出したスロット名に対応するルールのみを訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。 利用者発話認識用文法ルールから抽出したスロット名に対応するルールの組み合わせを訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。 訂正発話用ルールのテンプレートルールの一例を示す図。 利用者発話認識用文法ルールの一例を示す図。 利用者発話の認識結果から抽出されたスロット値と利用者発話認識用文法ルールから抽出したスロット名に対応するルールを訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。 訂正発話用ルールのテンプレートルールの一例を示す図。 利用者発話認識用文法ルールから抽出したスロット名とスロット名に対応するルールを訂正発話用ルールに挿入して生成された訂正発話用文法ルールの一例を示す図。
符号の説明
101 マイク
102 音声入力部
103 スピーカ
104 音声出力部
105 情報処理部
106 記憶部
107 音声認識プログラム
108 音声合成プログラム
109 対話制御プログラム
110 タスク実行用プログラム
111 訂正発話用ルール生成プログラム
112 記憶部
113 対話履歴
114 対話シナリオ
115 音声認識用文法ルール
116 訂正発話用テンプレート

Claims (6)

  1. 少なくとも、利用者の音声を入力するための手段と、
    入力された利用者の音声を認識する手段と、
    システムから利用者へのメッセージを音声に変換し出力するための手段と、
    利用者の音声を認識するためのルールである音声認識用文法ルールを格納する音声認識用文法ルール格納手段と、
    利用者とシステムとの間で行われる対話の内容に関する情報である対話シナリオを格納する対話シナリオ格納手段と、
    前記対話シナリオ格納手段に格納されている情報に基づいて、利用者の音声の認識やシステムからのメッセージの音声出力等を制御することにより対話を実現する対話制御手段と、
    利用者が要求する処理であるタスクを実行し結果を得るタスク実行手段と、
    を有する音声対話システムにおいて、
    対話の進行具合、利用者の音声を認識するために使用した前記音声認識用文法ルールおよび利用者の音声を認識した結果等からなる情報の時系列である対話履歴を格納する対話履歴格納手段と、
    システムが利用者の音声を誤認識した際に、利用者がそれを訂正するために発話する訂正発話の認識に用いられる前記音声認識用文法ルールである訂正発話用文法ルールを生成する際に使用される訂正発話用テンプレートを格納する訂正発話用テンプレート格納手段と、
    前記対話履歴中の情報と前記訂正発話用テンプレートを使用して、前記訂正発話用文法ルールを生成する手段と、
    を有し、利用者の音声を認識する際には、前記対話履歴中の情報と前記訂正発話用テンプレートとを用いて前記訂正発話用文法ルールを生成し、生成した前記訂正発話用文法ルールを用いて利用者の音声を認識し、
    利用者の発話が前記訂正発話用文法ルールを用いて認識された場合、利用者の音声を訂正発話と判断し、前記対話履歴中の情報と訂正発話の認識結果に基づいて、システムの誤認識を訂正することを特徴とする音声対話システム。
  2. 請求項1記載の音声対話システムにおいて、前記訂正発話用文法ルールを生成する方法として、
    前記対話履歴中に記録されている前記音声認識用文法ルールを複製し、前記訂正発話用文法ルールとして利用する方法、
    前記対話履歴中に記録されている前記音声認識用文法ルールを前記訂正発話用テンプレートに埋め込む方法、
    前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、それらを前記訂正発話用テンプレートに埋め込む方法、
    前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、システムが注目している単語あるいは句の種類を表す名称と抽出した前記音声認識用文法ルールを前記訂正発話用テンプレートに埋め込む方法、
    前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、抽出した前記音声認識用文法ルールと利用者の音声を認識した結果中に含まれるシステムが注目している単語あるいは句を前記訂正発話用テンプレートに埋め込む方法、
    前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、対話中で次に使用される前記音声認識用文法ルールに抽出した前記音声認識用文法ルールを埋め込む方法、
    前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、また、対話中で次に使用される前記音声認識用文法ルール中からもシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、抽出された前記音声認識用文法ルールを前記訂正発話用テンプレートに埋め込む方法、
    の内、少なくとも一つ以上の方法を用いて前記訂正発話用文法ルールを生成することを特徴とする音声対話システム。
  3. 請求項1記載の音声対話システムにおいて、利用者の訂正発話が入力されたと判断された場合に誤認識を修正する方法として、
    前記対話履歴中に記録されている利用者の音声の認識結果中における第二位の候補を修正後の単語あるいは句とする方法、
    前記対話履歴中に記録されている利用者の音声の認識結果中における第一位の単語あるいは句の候補と、訂正発話の認識結果中における第一位の候補を比較し、前者が後者と異なる場合は訂正発話の認識結果中の第一位の候補を修正後の単語あるいは句とし、同じ場合は訂正発話の認識結果の第二位の候補を修正後の単語あるいは句とする方法、
    前記対話履歴中に記録されている利用者の音声の認識結果中における第一位の単語あるいは句の候補と、訂正発話の認識結果中における第一位の候補を比較し、前者が後者と異なる場合は訂正発話中の第一位の候補を修正後の単語あるいは句とし、異なる場合は前記対話履歴中に記録されている利用者の音声の認識結果中における第二位の候補を修正後の単語あるいは句とする方法、
    前記対話履歴中に記録されている利用者の音声の認識結果と訂正発話の認識結果における単語あるいは句の候補を、共通して含まれているかどうか、各単語あるいは句の信頼度、順位等に基づいた評価値によって統合し、前記対話履歴中に記録されている利用者の音声の認識結果中の第一位の候補とは異なり、且つ評価値の最も高い候補を修正後の単語あるいは句とする方法、
    の内、少なくとも一つ以上の方法を用いて、誤認識の修正を行うことを特徴とする音声対話システム。
  4. 請求項3記載の音声対話システムにおいて、利用者の訂正発話が継続して認識される場合、
    継続した訂正発話およびその直前のユーザ発話の範囲内で、正しい候補として選択された単語あるいは句、あるいは修正後の単語あるいは句として選択された単語あるいは句は除外した後、修正後の単語あるいは句を選択することを特徴とする音声対話システム。
  5. 請求項1記載の音声対話システムにおいて、利用者の訂正発話を検出し、誤認識を訂正した後、元の対話に復帰する方法として、
    訂正発話が検出された際の対話状態に復帰する方法、
    訂正発話が検出された際の対話状態の次の状態に復帰する方法、
    訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態に復帰し、否定的な応答が得られた場合は、訂正された単語あるいは句の再入力を促すメッセージの利用者に対する出力、利用者の音声認識、および認識された単語あるいは句の確認、を利用者から肯定的な応答が得られるまで繰り返す方法、
    訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態に復帰し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消して訂正発話が検出された際の対話状態に復帰する方法、
    訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態に復帰し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消した後、対象となっている単語あるいは句を入力するための対話状態に復帰する方法、
    訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態の次の状態に移行し、否定的な応答が得られた場合は、訂正された単語あるいは句の再入力を促すメッセージの利用者に対する出力、利用者の音声認識、および認識された単語あるいは句の確認、を利用者から肯定的な応答が得られるまで繰り返す方法、
    訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態の次の状態に移行し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消して訂正発話が検出された際の対話状態に復帰する方法、
    訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態の次の状態に移行し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消した後、対象となっている単語あるいは句を入力するための対話状態に復帰する方法、
    の内、少なくとも一つ以上の方法を使用して元の対話に復帰することを特徴とする音声対話システム。
  6. 請求項5記載の音声対話システムにおいて、訂正された単語あるいは句を確認するメッセージを利用者に対して出力した後、再度利用者から訂正発話が入力された場合、認識された単語あるいは句を用いて修正を行った後、再度、確認を行うメッセージを利用者に対して出力することを特徴とする音声対話システム。
JP2004135631A 2004-04-30 2004-04-30 音声対話システム Expired - Lifetime JP4537755B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004135631A JP4537755B2 (ja) 2004-04-30 2004-04-30 音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004135631A JP4537755B2 (ja) 2004-04-30 2004-04-30 音声対話システム

Publications (2)

Publication Number Publication Date
JP2005316247A JP2005316247A (ja) 2005-11-10
JP4537755B2 true JP4537755B2 (ja) 2010-09-08

Family

ID=35443733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004135631A Expired - Lifetime JP4537755B2 (ja) 2004-04-30 2004-04-30 音声対話システム

Country Status (1)

Country Link
JP (1) JP4537755B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
WO2020040595A1 (ko) * 2018-08-24 2020-02-27 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705589B2 (ja) * 2015-10-07 2020-06-03 Necソリューションイノベータ株式会社 音声認識システム、方法およびプログラム
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248792A (ja) * 1994-03-11 1995-09-26 Ricoh Co Ltd 音声認識装置
JP2001188781A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248792A (ja) * 1994-03-11 1995-09-26 Ricoh Co Ltd 音声認識装置
JP2001188781A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和***
WO2020040595A1 (ko) * 2018-08-24 2020-02-27 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN112639962A (zh) * 2018-08-24 2021-04-09 三星电子株式会社 处理用户话语的电子设备及其控制方法

Also Published As

Publication number Publication date
JP2005316247A (ja) 2005-11-10

Similar Documents

Publication Publication Date Title
KR102447513B1 (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
US10037758B2 (en) Device and method for understanding user intent
US7529657B2 (en) Configurable parameters for grammar authoring for speech recognition and natural language understanding
JP4724377B2 (ja) 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4728905B2 (ja) 音声対話装置および音声対話プログラム
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US7392186B2 (en) System and method for effectively implementing an optimized language model for speech recognition
US20060277031A1 (en) Authoring speech grammars
US20070219798A1 (en) Training system for a speech recognition application
US8849668B2 (en) Speech recognition apparatus and method
CN110021293B (zh) 语音识别方法及装置、可读存储介质
JP2001034289A (ja) 自然言語を用いた対話システム
US8126715B2 (en) Facilitating multimodal interaction with grammar-based speech applications
JP2010256498A (ja) 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
KR20220128397A (ko) 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱
CN112580340A (zh) 逐字歌词生成方法及装置、存储介质和电子设备
US11615787B2 (en) Dialogue system and method of controlling the same
US11626107B1 (en) Natural language processing
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2013050742A (ja) 音声認識装置および音声認識方法
JP4537755B2 (ja) 音声対話システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4537755

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150