JP4537755B2 - 音声対話システム - Google Patents
音声対話システム Download PDFInfo
- Publication number
- JP4537755B2 JP4537755B2 JP2004135631A JP2004135631A JP4537755B2 JP 4537755 B2 JP4537755 B2 JP 4537755B2 JP 2004135631 A JP2004135631 A JP 2004135631A JP 2004135631 A JP2004135631 A JP 2004135631A JP 4537755 B2 JP4537755 B2 JP 4537755B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- corrected
- phrase
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012937 correction Methods 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims description 61
- 238000012790 confirmation Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims 2
- 230000000750 progressive effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000003780 insertion Methods 0.000 description 26
- 230000037431 insertion Effects 0.000 description 26
- 230000007704 transition Effects 0.000 description 23
- 239000002245 particle Substances 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Description
開始時刻=10時
であったとする。なお、「開始時刻」は対話履歴中に含まれるスロット名であり、「10時」がスロット値であるとする。この場合、訂正発話用文法ルールを生成するには、まず、挿入ルールタイプが「スロット値」の部分には、対話履歴中に含まれるスロット名に対応するスロット値を遷移条件とする文法ルールを生成し、挿入する。次に、挿入ルールタイプが「句」の部分には、対話履歴中に含まれているスロット名に対応する文法ルールを対話履歴中に含まれている利用者発話認識用文法名で指定される文法ルールから抽出し、訂正発話用テンプレートに挿入する。以上の操作により、図23に示す文法ルールが訂正発話用文法ルールとして生成される。図23において、2301から2303までのルールが利用者発話認識結果から抽出されたスロット値に対応する文法ルール、2305から2309までの文法ルールが対話履歴により指定される文法ルールから抽出された文法ルールに対応している。図23に示す文法ルールでは、対話履歴により指定される文法ルールから抽出した文法ルールがそのまま挿入されているが、利用者発話認識結果から抽出されたスロット値に対応する遷移を除いたルールを挿入するようにしても良い。すなわち、図23における「10時」2306は利用者発話認識結果から抽出されたスロット値と同じであり、訂正発話としては除外することができるため、「11時」2307および「12時」2308のみを遷移条件としたルールにすることができる。
開始時刻={10時、12時}
また、訂正発話の認識結果を、
開始時刻_訂正={11時}
とする。ここで、「開始時刻」はスロット名、「_訂正」が訂正発話用文法ルールを用いて認識されたことを表すための記号であるとする。また、認識結果中には複数の候補が信頼度の高い順に並べられているとする。但し、上記の例では信頼度は省略している。この場合、訂正前のスロット「開始時刻」の値は「10時」であり、これを訂正発話認識結果中の候補「11時」で置き換えることにより修正が行われる。すなわち修正後のスロット値は、
開始時刻=11時
となる。この場合、訂正発話の認識結果に関わらず、対話履歴中の利用者発話認識結果の第二位の候補を選択することもできる。また、訂正発話の認識結果が、
開始時刻_訂正={10時、12時}
であった場合、訂正前のスロット値と訂正発話の認識結果中の第一位候補の値が共に「10時」であるため、この場合は、訂正発話の認識結果中の第二位候補「12時」で置き換えることにより修正が行われる。すなわち修正後のスロット値は、
開始時刻=12時
となる。この場合も、対話履歴中の利用者発話認識結果の第二候補を用いて修正を行うこともできる。また、訂正発話の認識結果中の第二位候補と対話履歴中の利用者発話認識結果の第二位候補の内、信頼度の高い方を選択することもできる。さらに、訂正発話の認識結果と対話履歴中の利用者発話認識結果に共通する候補を選択するようにしても良い。この場合、両認識結果中の同じ候補について信頼度の和を求め、その値が最も大きい候補を選択するようにすれば良い。あるいは、訂正発話の認識結果と対話履歴中の利用者発話認識結果に共通する候補は両者における信頼度の和を新たな信頼度とし、それぞれの結果にしか含まれない候補についてはそのままの信頼度を用いることによって、両方の認識結果に含まれる全ての候補の順位付けを行い、既に選択されているスロット値と異なり、且つ信頼度の最も高い候補を用いることにより修正を行うことも可能である。両方の認識結果に含まれる候補については、高い方の信頼度を新たな信頼度としても良い。また、新たな信頼度を求める際、各認識結果における順位に基づいた重み付けを行っても良い。例えば、高い順位に対して大きな値になるような係数を用意し、それを元の信頼度に乗じる方法を使用することができる。
開始時刻={10時、11時、12時}
開始時刻_訂正={10時、12時}
であった場合、訂正前のスロット値は「10時」、一回目の訂正後のスロット値は「12時」となる。ここで、次の訂正発話の認識結果が、
開始時刻_訂正={10時、12時、11時}
であった場合、「10時」および「12時」は既に選択されているため、「11時」を新しいスロット値として選択する。スロット値として使用された候補は利用者発話認識結果の履歴から容易に判定可能であるが、処理を効率化するために、対話履歴中に選択されたスロット値の履歴を記録するようにしても良い。また、訂正発話が継続しているかどうかは、対話履歴中の認識結果に含まれるスロット名、システムプロンプト、利用者発話認識用文法名等が継続しているかどうかを確認することによって容易に判定することが可能である。
102 音声入力部
103 スピーカ
104 音声出力部
105 情報処理部
106 記憶部
107 音声認識プログラム
108 音声合成プログラム
109 対話制御プログラム
110 タスク実行用プログラム
111 訂正発話用ルール生成プログラム
112 記憶部
113 対話履歴
114 対話シナリオ
115 音声認識用文法ルール
116 訂正発話用テンプレート
Claims (6)
- 少なくとも、利用者の音声を入力するための手段と、
入力された利用者の音声を認識する手段と、
システムから利用者へのメッセージを音声に変換し出力するための手段と、
利用者の音声を認識するためのルールである音声認識用文法ルールを格納する音声認識用文法ルール格納手段と、
利用者とシステムとの間で行われる対話の内容に関する情報である対話シナリオを格納する対話シナリオ格納手段と、
前記対話シナリオ格納手段に格納されている情報に基づいて、利用者の音声の認識やシステムからのメッセージの音声出力等を制御することにより対話を実現する対話制御手段と、
利用者が要求する処理であるタスクを実行し結果を得るタスク実行手段と、
を有する音声対話システムにおいて、
対話の進行具合、利用者の音声を認識するために使用した前記音声認識用文法ルールおよび利用者の音声を認識した結果等からなる情報の時系列である対話履歴を格納する対話履歴格納手段と、
システムが利用者の音声を誤認識した際に、利用者がそれを訂正するために発話する訂正発話の認識に用いられる前記音声認識用文法ルールである訂正発話用文法ルールを生成する際に使用される訂正発話用テンプレートを格納する訂正発話用テンプレート格納手段と、
前記対話履歴中の情報と前記訂正発話用テンプレートを使用して、前記訂正発話用文法ルールを生成する手段と、
を有し、利用者の音声を認識する際には、前記対話履歴中の情報と前記訂正発話用テンプレートとを用いて前記訂正発話用文法ルールを生成し、生成した前記訂正発話用文法ルールを用いて利用者の音声を認識し、
利用者の発話が前記訂正発話用文法ルールを用いて認識された場合、利用者の音声を訂正発話と判断し、前記対話履歴中の情報と訂正発話の認識結果に基づいて、システムの誤認識を訂正することを特徴とする音声対話システム。 - 請求項1記載の音声対話システムにおいて、前記訂正発話用文法ルールを生成する方法として、
前記対話履歴中に記録されている前記音声認識用文法ルールを複製し、前記訂正発話用文法ルールとして利用する方法、
前記対話履歴中に記録されている前記音声認識用文法ルールを前記訂正発話用テンプレートに埋め込む方法、
前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、それらを前記訂正発話用テンプレートに埋め込む方法、
前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、システムが注目している単語あるいは句の種類を表す名称と抽出した前記音声認識用文法ルールを前記訂正発話用テンプレートに埋め込む方法、
前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、抽出した前記音声認識用文法ルールと利用者の音声を認識した結果中に含まれるシステムが注目している単語あるいは句を前記訂正発話用テンプレートに埋め込む方法、
前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、対話中で次に使用される前記音声認識用文法ルールに抽出した前記音声認識用文法ルールを埋め込む方法、
前記対話履歴中に記録されている前記音声認識用文法ルールから、前記対話シナリオに基づいてシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、また、対話中で次に使用される前記音声認識用文法ルール中からもシステムが注目している単語あるいは句に関する前記音声認識用文法ルールを抽出し、抽出された前記音声認識用文法ルールを前記訂正発話用テンプレートに埋め込む方法、
の内、少なくとも一つ以上の方法を用いて前記訂正発話用文法ルールを生成することを特徴とする音声対話システム。 - 請求項1記載の音声対話システムにおいて、利用者の訂正発話が入力されたと判断された場合に誤認識を修正する方法として、
前記対話履歴中に記録されている利用者の音声の認識結果中における第二位の候補を修正後の単語あるいは句とする方法、
前記対話履歴中に記録されている利用者の音声の認識結果中における第一位の単語あるいは句の候補と、訂正発話の認識結果中における第一位の候補を比較し、前者が後者と異なる場合は訂正発話の認識結果中の第一位の候補を修正後の単語あるいは句とし、同じ場合は訂正発話の認識結果の第二位の候補を修正後の単語あるいは句とする方法、
前記対話履歴中に記録されている利用者の音声の認識結果中における第一位の単語あるいは句の候補と、訂正発話の認識結果中における第一位の候補を比較し、前者が後者と異なる場合は訂正発話中の第一位の候補を修正後の単語あるいは句とし、異なる場合は前記対話履歴中に記録されている利用者の音声の認識結果中における第二位の候補を修正後の単語あるいは句とする方法、
前記対話履歴中に記録されている利用者の音声の認識結果と訂正発話の認識結果における単語あるいは句の候補を、共通して含まれているかどうか、各単語あるいは句の信頼度、順位等に基づいた評価値によって統合し、前記対話履歴中に記録されている利用者の音声の認識結果中の第一位の候補とは異なり、且つ評価値の最も高い候補を修正後の単語あるいは句とする方法、
の内、少なくとも一つ以上の方法を用いて、誤認識の修正を行うことを特徴とする音声対話システム。 - 請求項3記載の音声対話システムにおいて、利用者の訂正発話が継続して認識される場合、
継続した訂正発話およびその直前のユーザ発話の範囲内で、正しい候補として選択された単語あるいは句、あるいは修正後の単語あるいは句として選択された単語あるいは句は除外した後、修正後の単語あるいは句を選択することを特徴とする音声対話システム。 - 請求項1記載の音声対話システムにおいて、利用者の訂正発話を検出し、誤認識を訂正した後、元の対話に復帰する方法として、
訂正発話が検出された際の対話状態に復帰する方法、
訂正発話が検出された際の対話状態の次の状態に復帰する方法、
訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態に復帰し、否定的な応答が得られた場合は、訂正された単語あるいは句の再入力を促すメッセージの利用者に対する出力、利用者の音声認識、および認識された単語あるいは句の確認、を利用者から肯定的な応答が得られるまで繰り返す方法、
訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態に復帰し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消して訂正発話が検出された際の対話状態に復帰する方法、
訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態に復帰し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消した後、対象となっている単語あるいは句を入力するための対話状態に復帰する方法、
訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態の次の状態に移行し、否定的な応答が得られた場合は、訂正された単語あるいは句の再入力を促すメッセージの利用者に対する出力、利用者の音声認識、および認識された単語あるいは句の確認、を利用者から肯定的な応答が得られるまで繰り返す方法、
訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態の次の状態に移行し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消して訂正発話が検出された際の対話状態に復帰する方法、
訂正された単語あるいは句を確認するメッセージを利用者に対して出力し、利用者から肯定的な応答が得られた場合、訂正発話が検出された際の対話状態の次の状態に移行し、否定的な応答が得られた場合は、単語あるいは句の訂正を取り消した後、対象となっている単語あるいは句を入力するための対話状態に復帰する方法、
の内、少なくとも一つ以上の方法を使用して元の対話に復帰することを特徴とする音声対話システム。 - 請求項5記載の音声対話システムにおいて、訂正された単語あるいは句を確認するメッセージを利用者に対して出力した後、再度利用者から訂正発話が入力された場合、認識された単語あるいは句を用いて修正を行った後、再度、確認を行うメッセージを利用者に対して出力することを特徴とする音声対話システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004135631A JP4537755B2 (ja) | 2004-04-30 | 2004-04-30 | 音声対話システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004135631A JP4537755B2 (ja) | 2004-04-30 | 2004-04-30 | 音声対話システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005316247A JP2005316247A (ja) | 2005-11-10 |
JP4537755B2 true JP4537755B2 (ja) | 2010-09-08 |
Family
ID=35443733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004135631A Expired - Lifetime JP4537755B2 (ja) | 2004-04-30 | 2004-04-30 | 音声対話システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4537755B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992001A (zh) * | 2017-03-29 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和*** |
WO2020040595A1 (ko) * | 2018-08-24 | 2020-02-27 | 삼성전자 주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6705589B2 (ja) * | 2015-10-07 | 2020-06-03 | Necソリューションイノベータ株式会社 | 音声認識システム、方法およびプログラム |
CN111312235B (zh) * | 2018-12-11 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 一种语音交互方法、装置及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07248792A (ja) * | 1994-03-11 | 1995-09-26 | Ricoh Co Ltd | 音声認識装置 |
JP2001188781A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
JP2001236091A (ja) * | 2000-02-23 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識結果の誤り訂正方法およびその装置 |
-
2004
- 2004-04-30 JP JP2004135631A patent/JP4537755B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07248792A (ja) * | 1994-03-11 | 1995-09-26 | Ricoh Co Ltd | 音声認識装置 |
JP2001188781A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
JP2001236091A (ja) * | 2000-02-23 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識結果の誤り訂正方法およびその装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992001A (zh) * | 2017-03-29 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和*** |
CN106992001B (zh) * | 2017-03-29 | 2020-05-22 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和*** |
WO2020040595A1 (ko) * | 2018-08-24 | 2020-02-27 | 삼성전자 주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
CN112639962A (zh) * | 2018-08-24 | 2021-04-09 | 三星电子株式会社 | 处理用户话语的电子设备及其控制方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2005316247A (ja) | 2005-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102447513B1 (ko) | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 | |
US10037758B2 (en) | Device and method for understanding user intent | |
US7529657B2 (en) | Configurable parameters for grammar authoring for speech recognition and natural language understanding | |
JP4724377B2 (ja) | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4728905B2 (ja) | 音声対話装置および音声対話プログラム | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP4267385B2 (ja) | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム | |
US7392186B2 (en) | System and method for effectively implementing an optimized language model for speech recognition | |
US20060277031A1 (en) | Authoring speech grammars | |
US20070219798A1 (en) | Training system for a speech recognition application | |
US8849668B2 (en) | Speech recognition apparatus and method | |
CN110021293B (zh) | 语音识别方法及装置、可读存储介质 | |
JP2001034289A (ja) | 自然言語を用いた対話システム | |
US8126715B2 (en) | Facilitating multimodal interaction with grammar-based speech applications | |
JP2010256498A (ja) | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム | |
KR20220128397A (ko) | 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱 | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
US11626107B1 (en) | Natural language processing | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP2013050742A (ja) | 音声認識装置および音声認識方法 | |
JP4537755B2 (ja) | 音声対話システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100618 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4537755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |