JP2011033680A - 音声処理装置及び方法、並びにプログラム - Google Patents

音声処理装置及び方法、並びにプログラム Download PDF

Info

Publication number
JP2011033680A
JP2011033680A JP2009177578A JP2009177578A JP2011033680A JP 2011033680 A JP2011033680 A JP 2011033680A JP 2009177578 A JP2009177578 A JP 2009177578A JP 2009177578 A JP2009177578 A JP 2009177578A JP 2011033680 A JP2011033680 A JP 2011033680A
Authority
JP
Japan
Prior art keywords
intention
score
information
intention information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009177578A
Other languages
English (en)
Other versions
JP2011033680A5 (ja
Inventor
Katsuki Minamino
活樹 南野
Hitoshi Honda
等 本田
Yukinori Maeda
幸徳 前田
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009177578A priority Critical patent/JP2011033680A/ja
Priority to US12/817,526 priority patent/US8612223B2/en
Priority to CN2010102374059A priority patent/CN101989424B/zh
Publication of JP2011033680A publication Critical patent/JP2011033680A/ja
Publication of JP2011033680A5 publication Critical patent/JP2011033680A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】入力音声からより確実に正しい意図を推定できるようにする。
【解決手段】 マルチマッチング部64は、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出する。意図判定部67は、マルチマッチング部64により算出されたスコアに基づいて、複数の意図情報の中から、ユーザの発話の意図を示す意図情報を選択する。意図信頼度算出部68は、意図判定部67により選択された意図情報に対して、マルチマッチング部64により算出されたスコアに基づいて信頼度を算出する。本発明は、産業用ロボットに適用できる。
【選択図】図2

Description

音声処理装置及び方法、並びにプログラムに関し、特に、入力音声からより確実に正しい意図を推定することができるようにした、音声処理装置及び方法、並びにプログラムに関する。
近年、音声認識を適用した様々な製品やサービスが登場してきている。音声認識とは、音響的な特徴を表す特徴量の出現確率などを用いて、入力音声に対応する単語系列を認識する技術のことである。
図1は、音声認識を利用する従来の音声認識装置の構成例を示すブロック図である。
図1の音声認識装置1は、入力部21、AD変換部22、特徴抽出部23、マッチング部24、音響モデルデータベース25、辞書データベース26、および文法データベース27から構成されている。
ユーザの発話に基づく音声は、マイクロフォン等から構成される入力部21に入力される。入力部21は、入力音声を、アナログの電気信号としての音声信号に変換して出力する。
AD変換部22は、入力部21から出力されたアナログの入力音声信号を、サンプリングして量子化することで、デジタルの入力音声信号に変換して出力する。
特徴抽出部23は、AD変換部22から出力された入力音声信号を、適当な時間間隔で周波数分析することで、スペクトルや、その他の音声の音響的特徴を表すパラメータを抽出する。このようにして抽出されるパラメータが入力音声信号の特徴量である。入力音声信号の特徴量の時系列(以下、特徴量系列と称する)が特徴抽出部23から出力される。
特徴抽出部23は、このようにして入力音声信号の特徴量系列を抽出するとともに、入力音声信号の音声区間を決定する。音声区間とは、発話の開始時刻から終了時刻までの区間をいう。
マッチング部24は、特徴抽出部23により抽出された特徴量系列と最も適合する単語系列を決定し、決定された単語系列を音声認識結果として出力する。以下、このようなマッチング部24による処理を、マッチング処理と称する。マッチング部24は、特徴抽出部23により決定される音声区間に応じてマッチング処理を行うので、音声区間ごとに音声認識結果を順次出力する。
また、マッチング部24は、マッチング処理を実行する場合、音響モデルデータベース25、辞書データベース26、および文法データベース27を用いる。
音響モデルデータベース25は、認識対象の音声の言語における個々の音素や音節等の所定の単位毎の音響的な特徴を表す音響モデルを記録している。音響モデルとして、例えば隠れマルコフモデル(HMM(Hidden Markov Model))等が採用可能である。
辞書データベース26は、認識対象の音声の単語毎の発音に関する情報(以下、発音情報と称する)が記述された辞書を記録している。これにより、各単語と音響モデルとが関連付けられる。その結果、辞書データベース26に記録されている各単語に対応する音響的な標準パターンが得られることになる。
文法データベース27は、辞書データベース26に記録されている各単語が、どのように連鎖しうるかを記述した文法規則を記録している。文法規則として、例えば正規文法、文脈自由文法、統計的な単語連鎖確率を含むN-gram文法等が採用可能である。
音響モデルデータベース25の音響モデルとして、例えば隠れマルコフモデルが採用されている場合には、マッチング部24は、特徴抽出部23により抽出された特徴量系列にしたがって、特徴量の出現確率を累積する。すなわち、上述の標準パターンを用いて単語毎に累積が行われることで、音響的な評価値(以下、音響スコアと称する)が単語毎に算出される。
また、文法データベース27の文法規則として、例えばバイグラムが採用されている場合には、マッチング部24は、直前の単語との連鎖確率に基づいて単語毎の言語的な確からしさを求める。このような各単語の言語的な確からしさは、言語的な評価値(以下、言語スコアと称する)として数値化される。
そして、マッチング部24は、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的な評価値(以下、総合スコアと称する)に基づいて、入力部21への入力音声に最も適合する単語系列を決定する。決定された単語系列は音声認識結果として出力される。
例えば、ユーザが、「今日はいい天気ですね。」と発話した場合、{「今日」、「は」、「いい」、「天気」、「ですね」}のような単語系列が音声認識結果として出力される。このような単語系列が決定されるに際し、上述のごとく、各単語に対して音響スコアと言語スコアがそれぞれ与えられることになる。
以上のような音声認識装置をロボットに適用する場合、音声認識により認識された単語系列に対して、ロボットの動作を関連付ける必要がある。このような関連付けを実現する手法としては、次のような第1の手法と第2の手法が知られている。
第1の手法は、音声認識により単語系列が認識され、その認識された単語系列に対して対応する動作を直接関連付ける手法である。第1の手法により、例えば、ユーザがロボットに対して「立って」と発話した場合、音声認識により認識された単語系列「立って」に対して対応する動作、すなわち、ロボットが立ち上がる動作をするように、ロボットを制御することが可能になる。
第2の手法は、音声認識により認識された単語系列から発話に含まれるユーザの意図を抽出し、その意図に対して対応する動作を関連付ける手法である。第2の手法により、例えば、ユーザのロボットに対する「立って」、「起きて」、「立ち上がって」等の発話に対して、それぞれの発話が音声認識により認識される。このようにして認識されたそれぞれの発話に含まれる意図(例えば、この場合「立ってください」)が推定され、その意図に対して対応する動作(例えば、この場合、立ち上がる動作)をするように、ロボットを制御することが可能になる。
一般に、1の意図に対して1の動作が対応する一方で、1の意図に対応する発話は複数存在する。このため、第1の手法では、1つの単語系列に対して1つの動作を対応付ける必要があるため、1つの意図に対応する複数の単語系列のそれぞれに対して、同一の動作を別々に対応付けなければならない。これに対して、第2の手法では、複数の単語系列に対応する1つの意図に対して1つの動作を対応付けるだけで済む。したがって、音声認識により認識された単語系列に対して動作を関連付ける手法としては、第1の手法よりも第2の手法が適している。
このような第2の手法を実現するために、音声認識により認識された単語系列から、発話に含まれるユーザの意図を推定する装置が利用される。なお、以下、かかる装置を、音声理解装置と称する。
従来の音声理解装置は、発話に含まれるユーザの意図を推定するために、1つの意図を示す意図情報に対応する単語辞書と、文法規則に基づいて、発話に基づく入力音声信号に適合する単語系列を決定する。このような単語系列は、複数の意図情報毎に1つずつ決定される。次に、従来の音声理解装置は、複数の意図情報毎に、決定された単語系列と入力音声信号との類似度を演算する。具体的には、類似度を示す値として、音響的な類似度を示す音響スコアと、言語的な類似度を示す言語スコアとが、意図情報毎に演算される。そして、従来の音声理解装置は、これら2つのスコアを用いて、複数の意図情報の中から、入力音声信号に対応する意図を推定する(例えば特許文献1参照)。
特開2006−53203号公報
しかしながら、音声認識を利用した従来の音声理解装置は、誤った意図を推定してしまうおそれがあった。したがって、このような意図情報に対応付けられた動作をロボットがしてしまうと、その動作は、ユーザにとっては意図していない誤動作と認識されることになる。
本発明は、このような状況に鑑みてなされたものであり、入力音声からより確実に正しい意図を推定することができるようにするものである。
本発明の一側面の音声処理装置は、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出手段と、前記スコア算出手段により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択手段と、前記意図選択手段により選択された前記意図情報に対して、前記スコア算出手段により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出手段とを備える。
前記スコア算出手段は、前記複数の意図情報毎に、前記音声信号の前記意図情報に対する音響的な適合度を示す前記スコアとしての音響スコアを算出する音響スコア算出手段と、前記複数の意図情報毎に、前記音声信号の前記意図情報に対する言語的な適合度を示す前記スコアとしての言語スコアを算出する言語スコア算出手段と、前記複数の意図情報毎に、それぞれの生起確率に基づいて事前に決定される前記スコアとしての事前スコアを算出する事前スコア算出手段とを有することができる。
前記事前スコア算出手段は、前記音声信号が入力されたときのコンテキストに応じて、前記複数の意図情報毎に前記事前スコアを調整することができる。
前記スコア算出手段は、前記音声信号のうちの有音声部分の前記スコアを算出することができる。
前記スコア算出手段は、前記複数の意図情報の中の、特定の意図を示さない前記意図情報の前記スコアも算出し、前記意図選択手段は、前記特定の意図を示さない前記意図情報を選択した場合、前記音声信号に対応する前記ユーザの発話は、特定の意図を示さない無意味発話であると判定することができる。
前記スコア算出手段は、前記音響スコア、前記言語スコア、および前記事前スコアに対して、重みをそれぞれ付与し、前記意図信頼度算出手段は、前記重みをそれぞれ調整し、調整後の前記重みがそれぞれ付与された前記スコアに基づいて、前記信頼度を算出することができる。
前記意図選択手段により選択された前記意図情報に基づく出力を管理する管理手段をさらに備えることができる。
本発明の一側面の音声処理方法およびプログラムは、上述した本発明の一側面の音声処理装置に対応する方法およびプログラムである。
本発明の一側面の音声処理方装置および方法並びにプログラムにおいては、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアが算出され、算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報が選択され、選択された前記意図情報に対して、算出された前記スコアに基づいて信頼度が算出される。
以上のごとく、本発明によれば、入力音声からより確実に正しい意図を推定することができるようになる。
従来の音声認識装置の構成例を示すブロック図である。 本発明が適用される音声理解装置の一実施の形態の構成例を示すブロック図である。 音声理解処理の一例を説明するフローチャートである。 マルチマッチング処理の一例を説明するフローチャートである。 意図情報の例を示す図である。 辞書データベースに記録された辞書の一例を示す図である。 トライグラム表の一例について説明する図である。 バイグラム表の一例について説明する図である。 ユニグラム表の一例について説明する図である。 意図情報の例を示す図である。 辞書データベースに記録された辞書の一例を示す図である。 マルチマッチング処理の実行結果を示す図である。 マルチマッチング処理の実行結果を示す図である。 コンテキストの状態遷移の一例を示す状態遷移図である。 入力音声信号に含まれる無音声部分について説明する図である。 各単語についての開始時刻および終了時刻を示す図である。 無意味発話判定処理の一例を説明するフローチャートである。 実験結果を示す図である。 本発明が適用される情報提示装置の一実施の形態の構成を示すブロック図である。 情報提示処理の一例を説明するフローチャートである。 本発明が適用される音声処理装置のハードウエアの構成例を示すブロック図である。
本発明が適用される音声理解装置の実施形態として、5つの実施形態(以下、それぞれ第1実施形態乃至第5実施形態と称する)について説明する。よって、説明は以下の順序で行う。
1.第1実施形態
2.第2実施形態(事前スコアの調整にコンテキストが利用された例)
3.第3実施形態(無音部分の除去が適用された例)
4.第4実施形態(無意味発話の判定が適用された例)
5.第5実施形態(音声理解結果の適用例)
<1.第1実施形態>
[本発明が適用される音声理解装置の構成例]
図2は、本発明が適用される音声処理装置としての音声理解装置の一実施の形態の構成例を示すブロック図である。
図2の音声理解装置41は、入力部61、AD変換部62、特徴抽出部63、マルチマッチング部64、音響モデルデータベース65、意図モデル66−1乃至66−N、意図判定部67、意図信頼度算出部68、および出力部69から構成されている。
ユーザの発話に基づく音声は、マイクロフォン等から構成される入力部61に入力される。入力部61は、入力音声を、アナログの電気信号としての音声信号に変換して出力する。なお、以下、入力部61から出力される音声信号を、入力音声信号と称する。
AD変換部62は、入力部61から出力されたアナログの入力音声信号を、サンプリングして量子化することで、デジタルの入力音声信号に変換して出力する。
特徴抽出部63は、AD変換部62から出力された入力音声信号を、適当な時間間隔で周波数分析することで、スペクトルや、その他の音声の音響的特徴を表すパラメータを抽出する。このようにして抽出されるパラメータが入力音声信号の特徴量である。入力音声信号の特徴量の時系列(以下、特徴量系列と称する)が特徴抽出部63から出力される。
特徴抽出部63は、このようにして入力音声信号の特徴量系列を抽出するとともに、入力音声信号の音声区間を決定する。音声区間とは、発話の開始時刻から終了時刻までの区間をいう。特徴抽出部63は、例えば、入力音声信号のパワー等に基づいて発話の区間だけを抽出することにより、音声区間を検出する。
音響モデルデータベース65は、認識対象の音声の言語における個々の音素や音節等の所定の単位毎の音響的な特徴を表す音響モデルを記録している。音響モデルとして、例えば隠れマルコフモデル(HMM(Hidden Markov Model))等が採用可能である。
意図モデル66−k(kは、1乃至Nのうちの任意の整数値)は、意図情報保持部91−k、辞書データベース92−k、文法データベース93−k、および事前スコア保持部94−kから構成されている。
意図情報保持部91−kには、意図モデル66−kに対応する意図を示す情報(以下、意図情報と称する)が保持されている。
辞書データベース92−kには、認識対象の音声の単語毎の発音に関する情報(以下、発音情報と称する)が記述された辞書であって、意図情報保持部91−kに保持されている意図情報に応じて定義される語彙から構成される辞書が記録されている。これにより、各単語と音響モデルとが関連付けられる。その結果、辞書データベース92−kに記録されている各単語に対応する音響的な標準パターンが得られることになる。
文法データベース93−kには、辞書データベース92−kに記録されている各単語の連鎖確率を与えるバイグラム文法やトライグラム文法等の所定の文法規則を記録している。特に、文法データベース93−kに記録されている文法規則は、意図情報保持部91−kに保持されている意図情報を示す単語系列に対してスコア値を与えるように構成されている。
事前スコア保持部94−kには、意図モデル66−kに対して事前に与えられるスコア値(以下、事前スコア値と称する)が保持されている。
入力音声信号の意図情報に対する適合度を示すスコアを算出するマルチマッチング部64は、音響スコア算出部81、言語スコア算出部82、および事前スコア算出部83から構成される。
マルチマッチング部64は、1つの意図モデル66−kを、音響モデルデータベース65とともに用いることで、特徴抽出部63により抽出された特徴量系列(入力音声信号)と最も適合する単語系列を決定する。すなわち、1つの意図モデル66−kに対応する意図(意図情報により示される意図)に対して定義された単語を用いて構成し得る単語系列のうち、入力音声と最も適合する単語系列が決定される。マルチマッチング部64においては、複数の意図モデル66−1乃至66−N毎に入力音声信号と最も適合する単語系列がそれぞれ決定される。
さらに、マルチマッチング部64では、複数の意図モデル66−1乃至66−N毎に入力音声信号に最も適するとして決定された単語系列(対応する意図に対して定義された単語を用いて構成された単語系列)に対して、音響スコアと言語スコアが演算される。音響スコアは音響スコア算出部81により、言語スコアは言語スコア算出部82により、それぞれ算出される。
具体的には、音響スコア算出部81は、1の意図モデル66−kに対してマルチマッチング部64によって決定された単語系列に含まれる単語モデルから、特徴量系列が観測される確率(出現確率)を求め、その出現確率に基づいて音響スコアを単語毎に算出する。
言語スコア算出部82は、1の意図モデル66−kに対してマルチマッチング部64によって決定された単語系列に含まれる単語の連鎖(連接)する確率を求め、その確率に基づいて言語スコアを単語毎に算出する。
このような音響スコア算出部81と言語スコア算出部82との各処理は、複数の意図モデル66−1乃至66−N毎に実行される。その結果、マルチマッチング部64においては、複数の意図モデル66−1乃至66−N毎に決定された各単語系列のそれぞれに対して、音響スコアと言語スコアとが単語毎に算出される。
また、事前スコア算出部83は、複数の意図モデル66−1乃至66−N毎に事前スコアをそれぞれ算出する。
事前スコアは、1の意図情報の生起確率に基づいて事前に決定される値であって、上述の如く、その1の意図情報に対応する意図モデル66−kの事前スコア保持部94−kに保持されている。すなわち、事前スコア算出部83は、1の意図情報に対応する意図モデル66−kの事前スコア保持部94−kに保持されている事前スコアからコンテキストに基づいて、意図モデル66−kに対応する意図情報に対する事前スコアを算出する。なお、全ての意図が等確率で生起する場合は、同じスコア値が事前スコアとして算出される。
なお、以下、ここまでのマルチマッチング部64による一連の処理をまとめて、マルチマッチング処理と称する。
すなわち、マルチマッチング処理の結果、複数の意図モデル66−1乃至66−N毎に、音響スコア、言語スコア、および事前スコアが算出され、意図判定部67と意図信頼度算出部68に提供される。
意図判定部67は、1の意図モデル66−kについて、マルチマッチング部64から提供された音響スコア、言語スコア、および事前スコアを総合して総合スコアを算出する。このような総合スコアは、複数の意図モデル66−1乃至66−N毎に算出される。そこで、意図判定部67は、これらの総合スコアのうち最も高い総合スコアを有する意図モデル66−t(tは1乃至Nの何れかの整数値)に対応する意図情報を、ユーザの発話に対応する意図情報として選択する。このように、総合スコアは、ユーザの発話に対応する意図を推定するために利用される。
意図信頼度算出部68は、意図判定部67が選択した意図モデル66−tに対して、マルチマッチング部64から提供された音響スコア、言語スコア、および事前スコアに基づいて、信頼度を算出する。
出力部69は、意図判定部67により選択された意図情報に対して、その意図情報に対応する意図モデル66−tについての意図信頼度算出部68により算出された信頼度を付加した情報を、音声理解結果として出力する。
[音声理解処理]
図3は、音声理解装置41による音声理解処理の一例を説明するフローチャートである。
ステップS1において、入力部61は、入力音声を音声信号に変換する。すなわち、ユーザが発した音声が入力され、アナログの入力音声信号として出力される。
ステップS2において、AD変換部62は、音声信号のAD変換処理を行う。すなわち、アナログの入力音声信号がAD変換処理され、その結果得られるデジタルの入力音声信号が出力される。
ステップS3において、特徴抽出部63は、入力音声信号から、特徴量系列を抽出し、音声区間を決定する。
ステップS4において、スコア算出手段としてのマルチマッチング部64は、抽出された特徴量系列に対してマルチマッチング処理を施す。
ここで、マルチマッチング処理の詳細例について説明する。
図4は、マルチマッチング処理の一例を説明するフローチャートである。
ステップS31において、マルチマッチング部64は、複数の意図モデル66−1乃至66−Nのうち、1つの意図モデル66−kを処理対象として決定する。
ステップS32において、マルチマッチング部64は、特徴抽出部63により抽出された特徴量系列(入力音声信号)と最も適合する単語系列を決定する。
この場合、音響モデルデータベース65とともに、意図モデル66−kに含まれる辞書データベース92−kと文法データベース93−kとが用いられる。そこで、以下、辞書データベース92−kと文法データベース93−kについて説明する。
辞書データベース92−kには、意図情報保持部91−kに保持された意図情報に対応する例文に基づいて生成された辞書であって、単語毎の発音情報が記述された辞書が記録されている。文法データベース93−kには、意図情報保持部91−kに保持された意図情報に対応する例文に基づいて作成された文法規則であって、単語毎の発音情報が記述された文法規則が記録されている。
ここで、具体例として、図5乃至9を参照して、意図モデル66−1(K=1)に適用された意図情報の例と、その意図情報に対応する例文に基づいて生成される辞書と文法規則の各例について説明する。次に、図10と図11を参照して、意図モデル66−2(K=2)に適用された意図情報の例と、その意図情報に対応する例文に基づいて生成される辞書の例について説明する。
図5は、意図モデル66−1に適用された意図情報の例と、それに対応する例文を示す図である。
例えば図5に示される「明日の天気を教えてください」といった発話の意図を示す意図情報が、意図モデル66−1の意図情報保持部91−1に保持されているとする。この場合、辞書データベース92−1に記録される辞書と、文法データベース93−1に記録される文法規則とは、図5に示される4つの例文に基づいて生成される。すなわち、意図情報に対応する例文「明日 の 天気 を 教えて ください」、「明日 の 天気 は」、「明日 の 天気 を 教えて くれる」、および、「えーと 明日 の 天気 が 聞きたい」に基づいて辞書と文法規則が生成される。なお、それぞれの例文は、スペースによって単語毎に区切られている。
図5の各例文に基づいて図6に示される辞書が生成され、辞書データベース92−1に記録される。
図6は、辞書データベース92−1に記録された辞書の一例を示す図である。
図6に示される辞書は、「単語」と「発音」という項目から構成されている。
「単語」の項目には、図5に示される4つの例文に含まれる全ての単語が各行にそれぞれ記述されている。「発音」の項目には、同一行の「単語」の項目に記述された単語に対応する発音情報が記述される。
「発音」の項目に記述される発音情報は、辞書データベース92−1に記録されている各単語と音響モデルデータベース65とを関連付けるための情報である。例えば、音節単位の音響モデルとして隠れマルコフモデルが採用されている場合、音響モデルデータベース65と各単語とを対応する発音情報に基づいて接続することにより、各単語に対応する音響的な標準パターンが得られる。なお、このことは、辞書データベース92−1のみならず全ての辞書データベース92−2乃至92−Nに記録され得る辞書に等しく当てはまる内容である。
なお、以下、単語と発音情報を区別すべく、「AAA」が単語を示す場合には、単語「AAA」と記述し、「AAA」が発音情報を示す場合には、発音情報「AAA」と記述する。
具体的には例えば1行目においては、「単語」の項目には単語「えーと」が記述されており、「発音」の項目には、単語「えーと」に対応する発音情報「えーと」が記述されている。例えば6行目においては、「単語」の項目には単語「明日」が記述されており、「発音」の項目には、単語「明日」に対応する発音情報「あした」が記述されている。その他の行についても同様に、「単語」の項目には所定の単語が記述されており、「発音」の項目には、所定の単語に対応する発音情報が記述されている。
また例えば図5の各例文に含まれる各単語(図6の辞書に含まれる各単語)の生起確率や連鎖確率のモデル(N-gram文法)が、文法規則として生成されて、文法データベース93−1に記録される。
3単語の連鎖確率はトライグラム確率と、2単語の連鎖確率はバイグラム確率と、各単語の生起確率はユニグラム確率と、それぞれ称されている。また、以下、トライグラム確率のモデルを示す表をトライグラム表と、バイグラム確率のモデルを示す表をバイグラム表と、ユニグラム確率のモデルを示す表をユニグラム表と、それぞれ称する。
具体的には例えば、文法データベース93−1には、文法規則として、図7乃至図9のそれぞれに示されるトライグラム表、バイグラム表、およびユニグラム表が記録されている。
図7は、文法データベース93−1に記録されたトライグラム表の一例を示す図である。
図7に示されるトライグラム表は、「連鎖する単語」と「トライグラム確率」という項目から構成されている。
「連鎖する単語」の項目には、図5に示される4つの例文に含まれる全ての単語のうち、連鎖する所定の3つの単語が各行に連鎖の順番でそれぞれ記述されている。「トライグラム確率」の項目には、同一行の「連鎖する単語」の項目に記述された3つの単語がその順番で配列される確率、即ち、トライグラム確率が記述される。
具体的には例えば1行目においては、「連鎖する単語」の項目には、単語「えーと」、単語「明日」、および単語「の」が記述されている。「トライグラム確率」の項目には、「0.003」が記述されている。したがって、1行目の記述から、単語「えーと」、単語「明日」、および単語「の」がその順番で連鎖するトライグラム確率、すなわち、これらの3つの単語が連鎖して「えーと 明日 の」という文節になる確率は、「0.003」であることがわかる。
例えば2行目においては、「連鎖する単語」の項目には、単語「の」、単語「天気」、および単語「を」が記述されている。「トライグラム確率」の項目には、「0.01」が記述されている。したがって、2行目の記述から、単語「の」、単語「天気」、および単語「を」がその順番で連鎖するトライグラム確率、すなわち、これらの3つの単語が連鎖して「の 天気 を」という文節になる確率は、「0.01」であることがわかる。
その他の行についても同様に、「連鎖する単語」の項目には所定の3つの単語が記述されており、「トライグラム確率」の項目には、所定の3つの単語が連鎖するトライグラム確率が記述されている。
図7に示されていない3つの単語に対するトライグラム確率は、後述する図8のバイグラム表を参照して、3つの単語のうち、最初の2つの単語のバイグラムバックオフ係数に、最後の2つの単語のバイグラム確率を乗じて算出することができる。
図8は、文法データベース93−1に記録されたバイグラム表の一例を示す図である。
図8に示されるバイグラム表は、「連鎖する単語」、「バイグラム確率」、および「バイグラムバックオフ係数」という項目から構成されている。
「連鎖する単語」の項目には、図5に示される4つの例文に含まれる全ての単語のうち、連鎖する所定の2つの単語が各行に連鎖の順番でそれぞれ記述されている。「バイグラム確率」の項目には、同一行の「連鎖する単語」の項目に記述された2つの単語がその順番で配列される確率、即ち、バイグラム確率が記述される。「バイグラムバックオフ係数」の項目には、同一行の「連鎖する単語」の項目に記述された2つの単語についてのバイグラムバックオフ係数が記述される。バイグラムバックオフ係数とは、バイグラム確率に基づいてトライグラム確率を算出する場合に用いられる係数であって、その確率の総和が1を超過しないようにするための係数をいう。
具体的には例えば1行目においては、「連鎖する単語」の項目には、単語「えーと」、および単語「明日」が記述されている。「バイグラム確率」の項目には、「0.02」が記述され、バイグラムバックオフ係数の項目には「0.01」が記述されている。したがって、1行目の記述から、単語「えーと」、および単語「明日」がその順番で連鎖するバイグラム確率、すなわち、これらの2つの単語が連鎖して「えーと 明日」という文節になる確率は、「0.02」であることがわかる。
例えば2行目においては、「連鎖する単語」の項目には、単語「の」、および単語「天気」が記述されている。「バイグラム確率」の項目には、「0.1」が記述され、「バイグラムバックオフ係数」の項目には「0.02」が記述されている。したがって、2行目の記述から、単語「の」、および単語「天気」がその順番で連鎖するバイグラム確率、すなわち、これらの2つの単語が連鎖して「の 天気」という文節になる確率は、「0.1」であることがわかる。
図8に示されていない2つの単語に対するバイグラム確率は、後述する図9のユニグラム表を参照して、2つの単語のうち、最初の単語のユニグラムバックオフ係数に、最後の単語のユニグラム確率を乗じて算出することができる。
図9は、文法データベース93−1に記録されたユニグラム表の一例を示す図である。
図9に示されるユニグラム表は、「単語」、「ユニグラム確率」、および「ユニグラムバックオフ係数」という項目から構成されている。
「単語」の項目には、図5に示される4つの例文に含まれる全ての単語がそれぞれ記述されている。「ユニグラム確率」の項目には、同一行の「単語」の項目に記述された単語が文節中に配列される確率、即ち、ユニグラム確率が記述される。「ユニグラムバックオフ係数」の項目には、同一行の「単語」の項目に記載された単語についてのユニグラムバックオフ係数が記述される。ユニグラムバックオフ係数とは、ユニグラム確率に基づいてバイグラム確率を算出する場合に用いられる係数であって、その確率の総和が1を超過しないようにするための係数をいう。
具体的には例えば1行目においては、「単語」の項目には、単語「えーと」が記述されている。「ユニグラム確率」の項目には、「0.04」が記述され、「ユニグラムバックオフ係数」の項目には「0.02」が記述されている。したがって、1行目の記述から、単語「えーと」が文節中に配置されるユニグラム確率は、「0.04」であることがわかる。
なお、出現頻度の低い単語に対する措置としては、例えば、スムージング(smoothing)を用いてそれぞれの確率値の補正を行う手法、具体的には例えば、線形補間法、バックオフスムージングと称される手法等を採用すればよい。
また、ユニグラム確率、バイグラム確率、およびトライグラム確率の計算手法、並びにスムージングの手法については、例えば、北研二、中村哲、「音声言語処理‐コーパスに基づくアプローチ」、森北出版株式会社などにその詳細が記載されている。
以上、図5乃至図9を参照して説明したように、本具体例では、意図モデル66−1については、図5に示される意図が意図情報保持部91−1に保持されている。そして、図5に示される各例文に基づいて辞書と文法規則が生成され、辞書は辞書データベース92−1に、文法規則は文法データベース93−1に、それぞれ記録されている。
図10は、意図モデル66−2に適用された意図情報の例と、それに対応する例文を示す図である。
例えば図10に示される「今の時間を教えてください」といった発話の意図を示す意図情報が、意図モデル66−2の意図情報保持部91−2に保持されているとする。この場合、辞書データベース92−2に記録される辞書と、文法データベース93−2に記録される文法規則とは、図10に示される5つの例文に基づいて生成される。すなわち、意図情報に対応する例文「今 何時 です か」、「今 何時」、「今 何時 かな」、「今 の 時間 が 聞きたい」、および「時間 を 教えて」に基づいて辞書と文法規則が生成される。なお、それぞれの例文は、スペースによって、単語毎に区切られている。
具体的には例えば、図10の各例文に基づいて図11に示される辞書が生成され、辞書データベース92−2に記録される。
図11は、辞書データベース92−2に記録された辞書の一例を示す図である。
図11に示される辞書は、図6に示される辞書と同様に、「単語」と「発音」という項目から構成されている。
「単語」の項目には、図10に示される5つの例文に含まれる全ての単語が各行にそれぞれ記述されている。「発音」の項目には、同一行の「単語」の項目に記述された単語に対応する発音情報が記述される。
具体的には例えば1行目においては、「単語」の項目には単語「今」が記述されており、「発音」の項目には、単語「今」に対応する発音情報「いま」が記述されている。例えば2行目においては、「単語」の項目には単語「です」が記述されており、「発音」の項目には、単語「です」に対応する発音情報「です」が記述されている。その他の行についても同様に、「単語」の項目には所定の単語が記述されており、「発音」の項目には、所定の単語に対応する発音情報が記述されている。
また例えば図10の各例文に含まれる各単語(図11の辞書に含まれる各単語)の生起確率や連鎖確率のモデル(N-gram文法)が、文法規則として生成されて、文法データベース93−2に記録される。具体的には例えば、図示はしないが、文法データベース93−2には、文法規則としては、図7乃至図9のそれぞれと同様の構成のトライグラム表、バイグラム表、およびユニグラム表が記録されている。
このように、本具体例では、図5に示される「明日の天気を教えてください」という意図情報に対応して、図6の辞書と図7乃至図9の文法規則(トライグラム文法等)が構成される。そして、図6の辞書は辞書データベース92−1に記録され、図7乃至図9の文法規則(トライグラム文法等)は文法データベース93−1に記録されている。このような辞書データベース92−1と文法データベース93−1とに対して、図5に示される意図情報が保持された意図情報保持部91−1と、事前スコアが保持された事前スコア保持部94−1とを組み合わせたモデルが、意図モデル66−1である。
同様に、本具体例では、図10に示される「今の時間を教えてください」という意図情報に対応して、図11の辞書と図示せぬ文法規則(トライグラム文法等)が構成される。そして、図11の辞書は辞書データベース92−2に記憶され、図示せぬ文法規則(トライグラム文法等)は文法データベース93−2に記録されている。このような辞書データベース92−2と文法データベース93−2とに対して、図10に示される意図情報が保持された意図情報保持部91−2と、事前スコアが保持された事前スコア保持部94−2とを組み合わせたモデルが、意図モデル66−2である。
その他についても同様に、例えば「こんにちは」、「ラジオをつけて」、「もう少し前にきて」等様々な意図情報に1つずつ対応して、意図モデル66−3乃至66−Nのそれぞれも構成される。
したがって、図4のステップS31の処理で意図モデル66−1が処理対象として決定された場合、ステップ32の処理では次のような処理が実行される。すなわち、音響モデルデータベース65、図6の辞書が記録された辞書データベース92−1、および、図7乃至図9の文法規則が記録された文法データベース93−1が用いられて、「明日の天気を教えてください」という意図情報に対応する単語系列が決定される。具体的には例えば、ユーザによる発話が「明日の天気を教えて」であった場合には、意図モデル66−1に対して、「明日 の 天気 教えて」という単語系列が決定される。
一方、ステップS31の処理で意図モデル66−2が処理対象として決定された場合、ステップ32の処理では次のような処理が実行される。すなわち、音響モデルデータベース65、図11の辞書が記録された辞書データベース92−2、および、図示せぬ文法規則が記録された文法データベース93−2が用いられて、「今の時間を教えてください」という意図情報に対応する単語系列が決定される。具体的には例えば、ユーザによる発話が「今の時間を教えて」であった場合には、意図モデル66−2に対して、「教えて の 何時 教えて」という単語系列が決定される。
このようにして、図4のステップS32の処理で、処理対象の意図モデル66−kについての単語系列が決定されると、処理はステップS33に進む。
ステップS33において、音響スコア算出部81は、処理対象の意図モデル66−kに対して決定された単語系列に含まれる各単語毎に、それらの特徴量系列の出現確率に基づいて音響スコアを算出する。
ステップS34において、言語スコア算出部82は、処理対象の意図モデル66−kに対して決定された単語系列に含まれる各単語毎に、単語の連鎖確率に基づいて言語スコアを算出する。
なお、ステップS33およびステップS34の処理において、音響スコアと言語スコアのそれぞれに対して重み係数が付与されたり、処理対象の意図モデル66−kに対して決定された単語系列に特定の単語が挿入される際のペナルティスコアが付与される。これらの重み係数等については後述する。
また、ステップS33およびステップS34の処理において、音響スコアと言語スコアの算出手法については、特に限定されず、例えば、上述の従来の音声認識の処理において広く用いられている手法と同様の手法を採用することができる。
ステップS35において、事前スコア算出部83は、事前スコア保持部94−kに保持された事前スコアに基づいて、処理対象の意図モデル66−kに対する事前スコアを算出する。
ステップS36において、マルチマッチング部64は、全ての意図モデル66−1乃至66−Nのスコアが算出されたかを判定する。
意図モデル66−1乃至66−Nのうち、処理対象に決定されていないモデルが1つでも存在する場合、ステップS36においてNOであると判定されて、処理はステップS31に戻され、それ以降の処理が繰り返される。すなわち、ステップS31において、まだ処理対象に決定されていない意図モデル66−kが新たな処理対象として決定され、ステップS32乃至S35の処理で、新たな処理対象に対する単語系列が決定され、その単語系列に対する音響スコアと言語スコアが算出され、また、新たな処理対象に対する事前スコアが算出される。
その後、全ての意図モデル66−1乃至66−Nがそれぞれ処理対象に決定されて、ステップS31乃至ステップS36のループ処理が繰り返し実行される。これにより、意図モデル66−1乃至66−N毎に、対応する意図情報に応じた単語系列が決定され、その単語系列に対する音響スコアと言語スコアが算出され、また、事前スコアが算出される。これにより、ステップS36においてYESであると判定されて、マルチマッチング処理は終了する。
ここで、このようなマルチマッチング処理が終了したときに、マルチマッチング部64から出力される情報について説明する。
図12と図13は、マルチマッチング部64から出力される情報のうちの一部の例を示す図である。
図12は、マルチマッチング部64から出力される情報のうち、意図モデル66−1に対するマルチマッチング処理の実行結果を示す図である。
上述の具体例では、ユーザによる発話が「明日の天気を教えて」であった場合には、マルチマッチング処理の図4のステップS31の処理で意図モデル66−1が処理対象に決定され、ステップS32の処理で、意図モデル66−1に対して「明日 の 天気 教えて」という単語系列が決定された。
この場合、図12に示されるように、この単語系列を構成する各単語「明日」、「の」、「天気」、および「教えて」のそれぞれに対して、ステップS33の処理で音響スコアPA1乃至PA4のそれぞれが算出されたとする。また、ステップS34の処理で言語スコアQA1乃至QA4のそれぞれが算出されたとする。そして、ステップS35の処理で、意図モデル66−1の意図情報に対して、事前スコアRが算出されたとする。
このようにして、1つの意図モデル66−1対してマルチマッチング処理が施された場合には、意図モデル66−1に対するマルチマッチング処理の実行結果として、次の情報がマルチマッチング部64から出力される。すなわち、図12に示される単語系列の各単語に対する3つのスコア(音響スコア、言語スコア、および事前スコア)が、実行結果の情報として、図5に示される意図情報と対応付けられて、マルチマッチング部64から出力される。
図13は、マルチマッチング部64から出力される情報のうち、意図モデル66−2に対するマルチマッチング処理の実行結果を示す図である。
上述の具体例では、ユーザによる発話が「今の時間を教えて」であった場合には、マルチマッチング処理のステップS31の処理で意図モデル66−2が処理対象に決定され、ステップS32の処理で、意図モデル66−2に対して「教えて の 何時 教えて」という単語系列が決定された。
この場合、図13に示されるように、この単語系列を構成する各単語「教えて」、「の」、「何時」、および「教えて」のそれぞれに対して、ステップS33の処理で音響スコアPB1乃至PB4のそれぞれが算出され、ステップS34の処理で言語スコアQB1乃至QB4のそれぞれが算出されたとする。また、ステップS35の処理で、意図モデル66−2の意図情報に対して、事前スコアRが算出されたとする。
このようにして、1つの意図モデル66−2対してマルチマッチング処理が施された場合には、意図モデル66−2に対するマルチマッチング処理の実行結果として、次の情報がマルチマッチング部64から出力される。すなわち、図13に示される単語系列の各単語に対する3つのスコア(音響スコア、言語スコア、および事前スコア)が、図10に示される意図情報と対応付けられて、マルチマッチング部64から出力される。
図示はしないが、その他の意図モデル66−3乃至66―Nのそれぞれのマルチマッチング処理の実行結果としても、同様の情報がマルチマッチング部64からそれぞれ出力される。すなわち、対応する意図情報に応じて決定された単語系列の各単語に対する3つのスコア(音響スコア、言語スコア、および事前スコア)が実行結果の情報として、対応する意図情報と対応付けられて、マルチマッチング部64からそれぞれ出力される。
図3のフローチャートの説明に戻り、ステップS4の以上のマルチマッチング処理の後、ステップS5において、意図選択手段としての意図判定部67は、複数の意図モデル66−1乃至66−N毎の総合スコアを算出する。
例えば、意図モデル66−1の総合スコアは次のようにして算出される。
意図モデル66−1の意図情報に応じて決定された単語系列の各単語に対する3つのスコア(音響スコア、言語スコア、および事前スコア)は、図12に示されるように、音響スコアPA1乃至PA4、言語スコアQA1乃至QA4、並びに事前スコアRである。
この場合、意図判定部67は、次の式(1)に従って、意図モデル66−1の総合スコアT1を算出することができる。
Figure 2011033680
また例えば、意図モデル66−2の総合スコアは次のようにして算出できる。
意図モデル66−2の意図情報に応じて決定された単語系列の各単語に対する3つのスコア(音響スコア、言語スコア、および事前スコア)は、図13に示されるように、音響スコアPB1乃至PB4、言語スコアQB1乃至QB4、並びに事前スコアRである。
この場合、意図判定部67は、次の式(2)に従って、意図モデル66−2の総合スコアT2を算出することができる。
Figure 2011033680
ステップS6において、意図判定部67は、意図モデル66−1乃至66−Nのうち、最も大きい総合スコアTtを有する意図モデル66−tに対応する意図情報を選択する。なお、このとき、意図判定部67は、意図モデル66−1乃至66−Nのうち、総合スコアが予め設定されている閾値より大きい上位複数の意図モデル66に対応する複数の意図情報を選択するようにしてもよい。
ステップS7において、意図信頼度算出部68は、意図判定部67により選択された意図情報の信頼度を算出する。なお、ステップS6において、意図判定部67により複数の意図情報が選択された場合には、意図信頼度算出部68は、その選択された複数の意図情報の信頼度を算出する。
このように、選択された意図情報の信頼度が算出されるので、信頼度が低い意図情報を棄却し、信頼度が高い意図情報のみを採用することができる。したがって、より確実に正しい意図を推定することが可能になる。
例えば、音声理解装置41には、意図モデル66−1と意図モデル66−2(N=2)の2つのみが構築されているとする。この場合、マルチマッチング部64の出力情報は、上述の如く、図12に示される情報と図5に示される意図情報との組と、図13に示される情報と図10に示される意図情報との組だけになる。
このような場合、意図信頼度算出部68は、次の式(3)に従って、意図モデル66−1の信頼度R1を算出する。
Figure 2011033680
式(3)におけるパラメータa,b,cのそれぞれは、音響スコア、言語スコア、事前スコアのそれぞれの重みを調整するためのパラメータ、すなわち重み係数を示している。重み係数a,b,cは、それぞれのスコアの比率を調整するために適切に設定される。例えば本実施の形態では、上述したように、重み係数a,b,cは、図4のマルチマッチング処理において、音響スコア、言語スコア、事前スコアのそれぞれが算出されるときに付与される。ただし、重み係数a,b,cは、付与された値で固定ではなく調整可能である。このようなスコアの重みを調整する機能は、例えば本実施の形態では、意図信頼度算出部68に搭載されているとする。
ステップS8において、出力部69は、意図判定部67により選択された意図情報と、その意図情報に対応する意図モデル66の信頼度とを、音声理解結果として出力する。
例えば、意図モデル66−1と意図モデル66−2のみが音声理解装置41に構築されている上述の具体例において、意図モデル66−1の総合スコアT1の方が意図モデル66−2の総合スコアT2よりも高いとする。このことは、意図モデル66−1の方が、意図モデル66−2と比較して、入力音声信号に適合していることを意味している。すなわち、ユーザによる発話「明日の天気を教えて」に対して、意図モデル66−1の「明日の天気を教えてください」という意図情報(図5)の方が、意図モデル66−2の「今の時間を教えてください」という意図情報(図10)よりも適合していることを意味している。
したがって、ユーザによる発話が「明日の天気を教えて」である場合、ステップS6の処理で、意図判定部67により、意図モデル66−1の「明日の天気を教えてください」という意図情報が選択される。そして、ステップS7の処理で、意図モデル66−1の「明日の天気を教えてください」という意図情報とともに、ステップS7の処理で式(3)に従って算出された意図モデル66−1の信頼度とが、音声理解結果として出力される。
なお、以上においては、意図モデル66−1と意図モデル66−2の2つのモデルが存在する場合について説明したが、上述の如く、例示にしか過ぎない。意図モデル66−1乃至66−N(N=3以上)が存在する場合にも全く同様に音声理解処理が実行される。
また、上述の音声理解処理では、音声理解結果として総合スコアが最も高い意図モデル66−tが選択されることになる。しかしながら、意図モデル66―tのみを選択することは必須ではない。すなわち、例えば、意図モデル66―1乃至66−Nのうち、総合スコアが高い上位P個のモデルを、音声理解結果として選択することも可能である。
以上、図3乃至図13を参照して、音声理解装置41による音声理解処理の一例について説明した。
このように、音声理解装置41による音声理解処理では、従来のように入力音声信号から単語系列を単に推定する音声認識だけではなく、入力音声信号から発話の意図を推定する音声理解も利用される。
この音声理解と音声認識とは全く異なる概念の技術である点に注意が必要である。そこで、以下、音声理解と音声認識との違いについて説明する。
音声理解において、入力音声信号から発話の意図を推定するために利用される意図の生起確率は、次式(4)のように、入力音声信号Xに対する意図Sの事後確率として表すことができる。
Figure 2011033680
一方、音声認識において、入力音声信号から単語系列を推定するために利用される単語系列の生起確率は、次式(5)のように表すことができる。
Figure 2011033680
式(4)と式(5)において、変数Xは入力音声信号を示している。変数Sは意図を示している。変数w(i=1,…,Q)は単語を示している。ただし、Qは、単語系列に含まれる単語の個数を示している。
音声理解は、式(4)に示される生起確率を最大化する意図Sを決定するものとして定式化される。これに対して、音声認識は、式(5)に示される生起確率を最大化する単語系列(w,w,…,w)を決定するものとして定式化される。
音声認識における音響スコアは確率P(X|w,w,…,w)に相当し、言語スコアは確率P(w,w,…,w)に相当する。
図2に示される音声理解装置41については、式(4)は、次式(6)のように表すことができる。
Figure 2011033680
ここで、wsi(i=1,…,Q)は、意図Sに対して決定された単語を示す。すなわち、意図Sに対して決定された単語から構成される単語系列ws1,ws2,…,wsQに基づいて、音響スコアが算出される。このようにして算出された音響スコアが確率P(X|ws1,ws2,…,wsQ)に相当する。また、単語系列(ws1,ws2,…,wsQ)に基づいて言語スコアが算出される。このようにして算出された言語スコアが確率P(ws1,ws2,…,wsQ|S)に相当する。さらに、意図Sに対して与えられる生起確率(事前確率)P(S)が、事前スコアに相当する。
式(5)と式(6)を比較すれば容易に分かることであるが、式(5)を最大化する単語系列(w,w,…,w)を決定する音声認識では、意図Sは何ら考慮されていない。これに対して、式(6)を最大化する意図Sを決定する音声理解では、単語系列(ws1,ws2,…,wsQ)は意図Sに応じて決定される。したがって、式(5)を最大化する単語系列を求める過程で決定される音声認識結果としてのNベストの単語系列と、音声理解で求められる意図毎に構成される単語系列とは、本質的に異なるものとなる。すなわち、音声理解の過程で算出される音響スコアP(X|ws1,ws2,…,wsQ)と言語スコアP(ws1,ws2,…,wsQ|S)は、音声認識過程で算出される音響スコアP(X|w,w,…,w)と言語スコアP(w,w,…,w)とは本質的に異なる。さらに、事前スコアP(S)が総合スコアを算出する過程で反映される点も、音声認識と音声理解では異なる。
なお、音声理解装置41においては、信頼度は、次式(7)のように表すことができる。
Figure 2011033680
式(7)におけるパラメータa,b,cは、それぞれ音声理解において算出される意図モデル66−1乃至66−N毎の音響スコア、言語スコア、事前スコアの重みを調整するパラメータ、即ち重み係数を示している。式(7)において、信頼度は、入力音声信号Xに対する意図Sの事後確率として算出され、意図が考慮されることがわかる。なお、式(7)を、意図モデル66−1の信頼度R1を算出するための式に変形したものが、上述した式(3)である。すなわち、式(3)を一般化した式が、式(7)であるといえる。
<2.第2実施形態>
以上の第1実施形態では、各意図モデル66−1乃至66−Nが保持する事前スコアは、対応する意図の生起確率(事前確率)に基づいて設定され、常に固定値とされていた。これに対して、第2実施形態では、事前スコアは、コンテキストに応じて調整される。コンテキストとは、ユーザの発話が入力される状態をいう。
なお、第2実施形態の音声理解装置41の構成自体は、図2に示される第1実施形態と同様であるとする。
[コンテキストの状態遷移]
例えば、ユーザが、音声理解装置41に対して天気についての問い合わせができる場合に、最初のコンテキストで、ユーザが「天気を教えて」と発話するか、「明日」と発話するかの生起確率が同程度であるとする。そして、ユーザが、音声理解装置41に対して「天気を教えて」と発話し、ユーザの発話に対して、音声理解装置41がユーザに日時を入力するように応答したとする。そのコンテキスト(この応答に対する次のユーザの発話が入力される状態)では、ユーザが「天気を教えて」と再び発話する生起確率は低くなる一方で、ユーザが例えば「明日」と発話する生起確率は高くなることが予想される。このように、ユーザの発話の履歴や、それらの発話に対する音声理解装置41の応答などに応じて、次のコンテキスト(次にユーザが発話して音声理解装置41に入力される状態)が変化する。
コンテキストは、例えば、図14に示されるように、状態遷移モデルを用いて表現することができる。
図14は、コンテキストの状態遷移の一例を示す状態遷移図である。
図14においては、状態K1乃至K4は、対応する符号が記述された楕円により示されており、状態K1乃至K4のうちの第1の状態から第2の状態への状態遷移は、第1の状態から第2の状態へ引かれた矢印により示されている。すなわち、図14の状態遷移モデルにおいては、状態K1乃至K4が、所定のコンテキストを示している。したがって、以下、状態K1乃至K4を、コンテキストK1乃至K4と称する。また、コンテキストK1乃至K4のうちの1のコンテキストから別の1のコンテキストへの状態遷移が発生する条件(以下、状態遷移条件と称する)は、ユーザの発話である。したがって、コンテキストの初期状態はコンテキストK1であるので、初期状態のコンテキストK1において、ユーザの発話がなされると、コンテキストK2またはコンテキストK3へと遷移する。
より具体的には例えば、音声理解装置41においては、次の3つの意図モデル66−A乃至66−Cが構築されているとする。なお、意図モデル66−A乃至66−Cの符号A乃至Cは、1乃至Nのうちの何れかの値であって、相異なる値を示している。意図モデル66−Aは、「明日の天気を教えてください」という意図情報Aに対応する意図モデルである。意図モデル66−Bは、「リセットしてください」という意図情報Bに対応する意図モデルである。意図モデル66−Cは、「今の時間を教えてください」という意図情報Cに対応する意図モデルである。
また、意図情報A乃至Cにそれぞれ対応する事前スコアA乃至Cは、図14に示されるようにコンテキストK1乃至K4のそれぞれに応じて調整されるとする。
ここで、初期状態のコンテキストK1からコンテキストK2への状態遷移条件は、意図情報C「今の時間を教えてください」に対応する発話であるとする。また、初期状態のコンテキストK1からコンテキストK3への状態遷移条件は、意図情報A「明日の天気を教えてください」に対応する発話であるとする。
コンテキストK2からコンテキストK4への状態遷移条件は、意図情報A「明日の天気を教えてください」に対応する発話であるとする。また、コンテキストK3からコンテキストK4への状態遷移条件は、意図情報C「今の時間を教えてください」に対応する発話であるとする。なお、ユーザが、音声理解装置41に対して意図情報B「リセットしてください」に対応する発話をした場合、図示はしないが、常にコンテキストK1に遷移するものとする。
初期状態のコンテキストK1においては、3つの意図情報A,B,Cに対応する事前スコアは、それぞれ0.3,0.4,0.3と、同程度に調整される。なお、意図情報Bに対応する事前スコアだけ0.4と高い値である理由は、本実施の形態では3つの意図情報A,B,Cに対応する事前スコアの総計が1.0になるように正規化されており、1.0は3(=意図情報A乃至Cの数)で割りきることができないからである。したがって、意図情報AまたはCの事前スコアを0.4にしても構わない。
コンテキストK1において、ユーザが意図情報C「今の時間を教えてください」に対応する発話をした場合、音声理解装置41は、その発話を入力すると状態遷移条件が満たされたとして、コンテキストK1からコンテキストK2に遷移させる。その結果、音声理解装置41の事前スコア算出部83(図2)は、意図情報A,B,Cに対応する事前スコアを、それぞれ0.7,0.3,0.0に調整する。
すなわち、音声理解装置41が意図情報Cに応答して現在時刻の情報をユーザに提示した場合、ユーザが再び意図情報C「今の時間を教えてください」と発話する可能性が低くなる。このため、コンテキストK2においては、意図情報Cに対応する事前スコアが0.0と低くなるように調整される。一方で、ユーザが再び意図情報A「明日の天気を教えてください」と発話する可能性が高くなる。このため、コンテキストK2においては、意図情報Aに対応する事前スコアが0.7と高くなるように調整される。また、コンテキストK2においては、意図情報Bに対応する事前スコアが0.3(=1.0−0.7−0.0)に調整される。
同様に、コンテキストK1において、ユーザが意図情報A「明日の天気を教えてください」に対応する発話をした場合、音声理解装置41は、その発話を入力すると状態遷移条件が満たされたとして、コンテキストK1からコンテキストK3に遷移させる。その結果、音声理解装置41の事前スコア算出部83(図2)は、意図情報A,B,Cに対応する事前スコアを、それぞれ0.0,0.4,0.6に調整する。
すなわち、音声理解装置41が意図情報Aに応答して明日の天気情報をユーザに提示した場合、ユーザが再び意図情報A「明日の天気を教えてください」と発話する可能性が低くなる。このため、コンテキストK3においては、意図情報Aに対応する事前スコアが0.0と低くなるように調整される。一方で、ユーザが再び意図情報C「今の時間を教えてください」と発話する可能性が高くなる。このため、コンテキストK3においては、意図情報Cに対応する事前スコアが0.6と高くなるように調整される。また、コンテキストK3においては、意図情報Bに対応する事前スコアが0.4(=1.0−0.6−0.0)に調整される。
次に、コンテキストK2において、ユーザが意図情報A「明日の天気を教えてください」に対応する発話をした場合、音声理解装置41は、その発話を入力すると状態遷移条件が満たされたとして、コンテキストK2からコンテキストK4に遷移させる。その結果、音声理解装置41の事前スコア算出部83(図2)は、意図情報A,B,Cに対応する事前スコアを、それぞれ0.1,0.8,0.1に調整する。
すなわち、コンテキストK4においては、ユーザは既に明日の天気情報や現在時刻の情報を知っていることから、ユーザが再び意図情報A「明日の天気を教えてください」、または意図情報C「今の時間を教えてください」と発話する可能性が低くなる。このため、コンテキストK4においては、意図情報Aと意図情報Cに対応する事前スコアがともに0.1と低くなるように調整される。また、コンテキストK4においては、意図情報Bに対応する事前スコアが0.8(=1.0−0.1−0.1)に調整される。
以上説明したように、第2実施形態では、コンテキストに応じて、それぞれの意図情報に対応する事前スコアが調整される。その結果、図3の音声理解処理のステップS6とステップS7の処理精度、すなわち意図判定部67による意図情報の選択と意図信頼度算出部68による信頼度の算出の処理精度が向上する。
<3.第3実施形態>
以上の第1実施形態と第2実施形態では、入力音声信号に含まれる無音声部分の信号については何ら考慮されていなかった。しかしながら、図2の意図信頼度算出部68が算出する意図モデル66の信頼度の有効性は、入力音声信号に含まれる無音声部分の信号によって影響を受ける。そこで、第3実施形態では、入力音声信号に含まれる無音声部分の信号を除去した上で、有音声部分の信号についての意図モデル66−kの信頼度が算出される。
なお、第3実施形態の音声理解装置41の構成自体は、図2に示される第1実施形態と同様であるとする。
[入力音声信号に含まれる無音声部分の除去]
図15は、入力音声信号に含まれる無音声部分について説明する図である。
例えば、図15Aに示されるように、入力音声信号Xが時刻t1からt7までの区間で与えられているとする。入力音声信号Xには、発話の前後に無音声部分の信号が含まれる。具体的には例えば図15Aにおいては、時刻t1から時刻t2までの区間と、時刻t6から時刻t7までの区間に、無音声部分の信号がそれぞれ含まれている。
このような場合、第3実施形態では、意図信頼度算出部68は、図15Bに示されるように、無音声部分の信号を取り除いた時刻t2から時刻t6までの区間の入力音声信号X'を処理対象として、信頼度を算出する。その結果、第1実施形態と比較して、信頼度の有効性は向上する。無音声部分の信号には、発話の意図を推定するための音響的な情報と言語的な情報が含まれていないからである。
入力音声信号から無音声部分の信号を除去する処理は、例えば特徴抽出部63またはマルチマッチング部64により実行される。
例えば、特徴抽出部63は、無音声部分の信号を除去する処理として、入力音声信号のパワーに基づいて、閾値以上のパワーの部分を音声部分として認識し、それ以外の部分を無音声部分として認識し、認識した無音声部分の信号を除去することができる。
一方、マルチマッチング部64は、無音声部分の信号を除去する処理として、例えば次のような処理を実行する。
図16は、マルチマッチング部64による無音声部分の信号を除去する処理の一例を説明する図であって、各単語についての開始時刻および終了時刻を示す図である。
図16は、「単語」、「開始時刻」および「終了時刻」という項目から構成されている。
なお、「開始時刻」と「終了時刻」に示される時刻t1乃至t7は、図15Aに示される時刻t1乃至t7と同一である。すなわち、図16の例では、図15Aの入力音声信号Xが入力された場合に、マルチマッチング部64により所定の1の意図モデル66−kに対してマルチマッチング処理が実行されることが前提となる。このような前提の下、意図モデル66−kに対するマルチマッチングの処理の結果として得られる単語系列を構成する各単語と、それらの各単語の開始時刻と終了時刻とが、図16に示されている。
より具体的には例えば、マルチマッチング部64により「silence 明日 の 天気 教えて silence」という単語系列が決定されたとして、この単語系列を構成する各単語が、「単語」の項目の各行にそれぞれ記述されている。ここで、単語「silence」は、無音声部分の特徴量系列とのマッチングに利用される確率モデルに相当する単語を示している。
「開始時刻」の項目には、同一行の「単語」の項目に記述された単語の開始時刻が記述される。「終了時刻」の項目には、同一行の「単語」の項目に記述された単語の終了時刻が記述される。なお、各単語の開始時刻と終了時刻の決定手法は、特に限定されないが、例えば本実施の形態では、マルチマッチング処理中にViterbiサーチを用いて開始時刻と終了時刻を決定する手法が採用されている。
具体的には例えば1行目においては、「単語」の項目には単語「silence」が記述されており、「開始時刻」の項目には時刻t1が記述され、「終了時刻」の項目には時刻t2が記述されている。これにより、単語系列の最初に登場する単語「silence」は、入力音声信号である図15Aの入力音声信号Xのうち、時刻t1から時刻t2までの信号に適合した単語であることがわかる。
同様に例えば、2行目においては、「単語」の項目には単語「明日」が記述されており、「開始時刻」の項目には時刻t2が記述され、「終了時刻」の項目には時刻t3が記述されている。これにより、単語系列の2番目に登場する単語「明日」は、入力音声信号である図15Aの入力音声信号Xのうち、時刻t2から時刻t3までの信号に適合した単語であることがわかる。
また例えば、6行目においては、「単語」の項目には単語「silence」が記述されており、「開始時刻」の項目には時刻t6が記述され、「終了時刻」の項目には時刻t7が記述されている。これにより、単語系列の最後に登場する単語「silence」は、入力音声信号である図15Aの入力音声信号Xのうち、時刻t6から時刻t7までの信号に適合した単語であることがわかる。
その他の行についても同様に、「単語」の項目には、マルチマッチング部64により決定された「silence 明日 の 天気 教えて silence」という単語系列のうち、所定の単語が記述されている。そして、「開始時刻」の項目には、所定の単語の開始時刻が記述され、「終了時刻」の項目には、所定の単語の終了時刻が記述される。
この場合、マルチマッチング部64は、入力音声信号である図15Aの入力音声信号Xのうち、単語系列の最初に登場する単語「silence」の開始時刻t1から終了時刻t2までの信号を、無音声部分の信号として除去する。同様に、マルチマッチング部64は、入力音声信号である図15Aの入力音声信号Xのうち、単語系列の最後に登場する単語「silence」の開始時刻t6から終了時刻t7までの信号を、無音声部分の信号として除去する。
<4.第4実施形態>
以上の第1実施形態乃至第3実施形態では、入力音声信号が特定の意味を示さない場合にも、選択された意図情報に高い信頼度が付与される可能性がある。しかしながら、入力音声信号が特定の意味を示さない場合には、選択された意図情報に高い信頼度が付与されていたとしても、その意図情報を音声理解結果としてそのまま採用することは不適切である。そこで、第4実施形態では、音声理解結果の有効性を高めるために、入力音声信号が特定の意味を示さない場合にはその入力音声信号に対応する発話は無意味発話であると判定され、その判定結果が音声理解結果に付加される。
なお、第4実施形態の音声理解装置41の構成自体は、図2に示される第1実施形態と同様であるとする。
第4実施形態では、意図モデル66−1乃至66−Nの中の特定の1つの意図モデル66−r(rは、1乃至Nのうちの任意の整数値)として、特定の意図を示さない汎用的な意図情報に対応するモデルが構築される。すなわち、意図モデル66−rの意図情報保持部91−rには、特定の意図を示さない汎用的な意図情報(換言すれば、意図モデル66−k(k=1,2,…N、k≠r)以外の意図情報)が保持される。
この場合、意図モデル66−rの辞書データベース92−rに記録される辞書と、文法データベース93−rに記録される文法規則とは、図5や図10に示されるような特定の発話の意図情報に対応する例文に基づいて生成されていない。辞書データベース92−rに記録される辞書と、文法データベース93−rに記録される文法規則とは、無作為かつ大規模に集められた発話の意図情報に対応する例文に基づいて生成されている。すなわち、ユーザの任意の発話を音声理解処理の処理対象とすることができるように、辞書データベース92−rには、大語彙から構成される辞書が記録されており、文法データベース93−rには、汎用的なトライグラム文法が記録されている。
例えば、入力音声信号が、意図モデル66−rを除いた意図モデル66−1乃至66−Nの各々に対応する意図情報の何れにも関係が無かったとする。
この場合、意図モデル66−rを除いた意図モデル66−1乃至66−Nの各々に対して算出される音響スコアと言語スコアは、それぞれ低い値になる。これに対して、意図モデル66−rに対して算出される音響スコアと言語スコアはそれぞれ高い値になる。
したがって、意図判定部67は、意図モデル66−rに対応する意図情報を、ユーザの発話に対応する意図情報として選択する。
意図判定部67は、このようにして意図モデル66−rに対応する意図情報を選択した場合には、ユーザの発話は無意味発話であると判定し、選択した意図情報に対して無意味発話であるという判定結果を付加して出力する。なお、このような第4実施形態の意図判定部67による一連の処理を、以下、無意味発話判定処理と称する。無意味発話判定処理の詳細については、図17のフローチャートを参照して後述する。
一方、この場合の意図モデル66−rに対する信頼度は、他の場合と全く同様に式(3)に従って算出される。なぜならば、意図モデル66−rの辞書が大語彙から構成されており、意図モデル66−rの文法規則が汎用的なトライグラム文法であることは、式(3)に基づく信頼度の演算に対しては何ら影響を及ぼさないからである。すなわち、意図信頼度算出部68は、意図モデル66−rについても、マルチマッチング部64から提供される音響スコア、言語スコア、および事前スコアを他の場合と同様に用いることで、信頼度を算出する。
最終的には、意図判定部67により選択された意図情報と、その意図情報に対応する意図モデル66の信頼度とに加えて、意図判定部67による無意味発話であるという判定結果とが、音声理解結果として出力部69から出力される。
なお、意図モデル66−rを除いた意図モデル66−1乃至66−Nのうちの何れかに対応する意図情報が選択された場合には、他の実施形態と同様に、意図判定部67により選択された意図情報と、その意図情報に対応する意図モデル66の信頼度とが、音声理解結果として出力部69から出力される。
[無意味発話判定処理]
図17は、第4実施形態の意図判定部67による無意味発話判定処理の一例を説明するフローチャートである。
無意味発話判定処理は、図3のステップS4のマルチマッチング処理の後に、ステップS5とステップS6の処理の代わりに実行される。すなわち、第4実施形態の音声理解処理でも、他の実施形態と全く同様に図3のステップS1乃至4の処理が実行された後に、次のようなステップS61乃至S64の処理が実行される。
ステップS61において、意図判定部67は、複数の意図モデル66−1乃至66−N毎に、マルチマッチング部64から提供された音響スコア、言語スコア、および事前スコアを総合して総合スコアを算出する。
ステップS62において、意図判定部67は、意図モデル66−1乃至66−Nのうち、最も大きい総合スコアTtを有する意図モデル66−t(tは1乃至Nの何れかの整数値)に対応する意図情報を選択する。なお、このとき、意図判定部67は、意図モデル66−1乃至66−Nのうち、総合スコアが予め設定されている閾値より大きい上位複数の意図モデル66に対応する複数の意図情報を選択するようにしてもよい。
ステップS63において、意図判定部67は、選択された意図情報が無意味発話であるかを判定する。すなわち、意図判定部67は、意図モデル66−rを除く意図モデル66−1乃至66−Nのうちの何れかに対応する意図情報を選択した場合には、ユーザの発話は無意味発話でないと判定する。これに対して、意図判定部67は、意図モデル66−rに対応する意図情報を選択した場合には、ユーザの発話は無意味発話であると判定する。
ステップS64において、意図判定部67は、ユーザの発話が無意味発話であるか否かの判定結果を、選択した意図情報に付加して出力する。
これにより、意図判定部67による無意味発話判定処理は終了する。その後、図3のステップS7以降の処理が実行される。
すなわち、ステップS7の処理で、意図判定部67により選択された意図情報の信頼度が算出され、ステップS8の処理で、音声理解結果が出力される。
具体的には例えば、意図モデル66−r以外の意図モデル66−kに対応する意図情報が選択された場合、他の実施形態と同様に、選択された意図情報と、その意図情報に対応する意図モデル66−kの信頼度とが、音声理解結果として出力部69から出力される。
これに対して例えば、意図モデル66−rに対応する意図情報が選択された場合、選択された意図情報と、その意図情報に対応する意図モデル66−kの信頼度とに加えてさらに、無意味発話であるという判定結果が、音声理解結果として出力部69から出力される。
音声理解装置41または図示せぬ他の装置は、その後の処理として、無意味発話であるという判定結果が音声理解結果に含まれている場合には、信頼度に関係なくその音声理解結果を棄却することが可能となる。一方、音声理解装置41または図示せぬ他の装置は、無意味発話であるという判定結果が音声理解結果に含まれていない場合には、信頼度に基づいて、その音声理解結果を受理するか棄却するかを判断することが可能となる。なお、これらの音声理解結果の適用例については、図19と図20を参照して後述する。
[実験結果]
図18は、第1実施形態、第3実施形態、および第4実施形態の実験結果を示す図である。
本発明者等は、男女合わせて5名が86発話ずつ発した入力音声信号を利用して、第1実施形態、第3実施形態、および第4実施形態の各音声理解装置41に音声理解結果を出力させる実験を行った。
この場合、処理対象の入力音声信号(以下、評価データと称する)の数は合わせて430個となり、音声区間ごとに音声理解結果が出力された。また、各実施形態の音声理解装置41には、14種類の意図モデル66−1乃至66−14が構築されていた。各意図モデル66−1乃至66−14に含まれる辞書の語彙数はそれぞれ異なっていたが、すべて合わせると約35000語であった。各意図モデル66−1乃至66−14に含まれる文法規則としては、トライグラム文法が採用された。音響分析にはMFCC(Mel Frequency Cepstrum Coefficients)が採用され、音響モデルとしては隠れマルコフモデルが採用された。評価データは、用意された意図モデル66−1乃至66−14のうちの何れかに対応する有意味発話と、何れにも対応しない無意味発話とが含まれ、具体的には、86発話中65発話は有意味発話であり、残りの21発話は無意味発話であった。
各実施形態の音声理解装置41が、評価データ中に含まれる有意味発話に対応する意図情報を正しく選択できた場合が正解とされ、正しく選択できなかった場合が不正解とされた。また、各実施形態の音声理解装置41は、入力音声信号に対して付与した信頼度が、所定の閾値よりも大きい場合は、選択した意図情報を受理した。一方、各実施形態の音声理解装置41は、所定の閾値よりも信頼度が小さい場合は、選択した意図情報を棄却した。
ここで、有意味発話に対して、意図判定部67が正しく意図情報を選択できたにも関わらず、付与された信頼度が所定の閾値よりも小さいために、誤って意図情報が棄却されたことを、以下、False rejectionエラーと称する。また、無意味発話に対して付与された信頼度が所定の閾値よりも大きいために、誤って意図情報が受理されたことを、以下、False acceptanceエラーと称する。
図18において、縦軸はFalse rejectionエラーの割合(%)を示し、横軸はFalse acceptance エラーの割合(%)を示している。曲線L1乃至曲線L3は、信頼度判定の閾値を変化させた場合のFalse rejection エラーと、False acceptance エラーの割合を示している。
例えば、閾値を非常に小さく設定し、すべての意図情報の推定結果を受理した場合、False rejectionエラーは0%となり、False acceptance エラーは100%となる。これに対して、閾値を非常に大きく設定し、すべての意図情報の推定結果を棄却した場合、False rejectionエラーは 100% となり、False acceptance エラーは 0% となる。このように、False rejection エラーと、False acceptance エラーは、トレードオフの関係であることがわかる。したがって、以下、図18に示される曲線L1乃至L3を、判定誤りトレードオフ曲線L1乃至L3と称する。
判定誤りトレードオフ曲線L1は、第1実施形態(無音部分の除去も、無意味発話の判定も行わない単純な信頼度判定を行う場合)の音声理解装置41の実行結果を示している。第1実施形態では、閾値を適切に設定することで、False rejection エラー、および False acceptance エラーの割合はそれぞれ約20%となった。
判定誤りトレードオフ曲線L2は、入力音声信号の無音声部分の除去を行った上で信頼度の算出を行った第3実施形態の音声理解装置41の実行結果を示している。所定の閾値を適切に設定することで、False rejection エラー、および False acceptance エラーの割合をそれぞれ約12%にまで抑えることができた。判定誤りトレードオフ曲線L2より、入力音声信号の無音声部分を除去した上で信頼度を算出することにより、本発明の信頼度の有効性を第1実施形態に較べて向上させることができることが分かる。
判定誤りトレードオフ曲線L3は、無意味発話の判定結果を音声理解結果に付加した第4実施形態の音声理解装置41の実行結果を示している。所定の閾値を適切に設定することで、False rejection エラー、および False acceptance エラーの割合をそれぞれ約7%にまで抑えることができた。判定誤りトレードオフ曲線L3より、無意味発話の判定結果を音声理解結果に付加することにより、本発明の音声理解結果の有効性を第3実施形態に較べてさらに高めることができることが分かる。
なお、以上の第1乃至第4実施形態は、その2以上を組み合わせることで、それぞれの相乗効果を実現することができる。
<5.第5実施形態>
[情報提示装置の構成例]
図19は、本発明が適用される音声処理装置としての情報提示装置の一実施の形態の構成を示すブロック図である。
図19の情報提示装置101は、音声理解部121、対話管理部122、情報格納部123、および提示部124から構成されている。
音声理解部121は、図2の音声理解装置41(上述した第1乃至第4実施形態)と同様の機能と構成を有している。その説明は繰り返しになるので省略する。
ユーザが発した音声は入力音声信号として、音声理解部121によって、上述の音声理解処理(図3)が施される。その結果、音声理解結果が音声理解部121から出力される。
対話管理部122は、音声理解部121による音声理解結果に含まれる意図情報に付与された信頼度に応じて、次のような処理を実行する。すなわち、対話管理部122は、音声理解結果に含まれる信頼度が非常に高い場合には、音声理解結果に含まれる意図情報に対応する情報を情報格納部123から取得する。これに対して、音声理解結果に含まれる信頼度が非常に低い場合には、対話管理部122は、音声理解結果を棄却する。具体的には、意図情報に対応する情報は取得されない。また、対話管理部122は、音声理解結果に含まれる信頼度がある範囲内である場合には、ユーザに対して音声理解結果の確認をする。
情報格納部123には、音声理解部121に格納されている複数の意図モデル66−1乃至66−Nの各々に対応する意図情報毎に、対応付けられた各種情報が格納されている。具体的には例えば、天気に関する意図情報に対応付けられた天気情報や、時間に関する意図情報に対応付けられた時刻情報等が、情報格納部123に格納されている。
提示部124は、対話管理部122が取得した情報そのものまたは、その情報に基づく各種情報を、ディスプレイやスピーカ等により、ユーザに提示する。あるいは、モータ、その他のアクチュエータによりコマンドに対応する動作が実行される。また、提示部124は、対話管理部122によってユーザに対する音声理解結果の確認がされる場合にも、確認内容をユーザに提示する。さらに、提示部124は、どのような音声が入力可能であるかをユーザに提示することができる。
なお、情報格納部123に格納される情報は、所定の意図情報に対応付けられる情報であれば足りる。また、提示部124の出力の形態は、ディスプレイによる画像出力やスピーカによる音声出力に限定されず、任意でよい。
例えば、情報提示装置101がロボットの少なくとも一部の構成要素として適用される場合、提示部124の出力形態としては、ロボットの各種動作を採用することができる。また、「立って」、「起きて」、「立ち上がって」等の発話に対して「立ってください」という意図情報が対応付けられている場合、その意図情報に対して、立ち上がる動作を指示するコマンドを対応付けることができる。このように、各種意図情報に対して、その意図情報に対応する動作を指示する各種コマンドを対応付けることができる。
このような場合、各種コマンドは情報格納部123に格納される。そして、対話管理部122は、非常に高い信頼度を含む音声理解結果が提供された場合、音声理解結果に含まれる意図情報に対応したコマンドを情報格納部123から取得する。提示部124は、対話管理部122が取得したコマンドを解釈して、そのコマンドで指示された動作をロボットがするように、ロボットを駆動制御する。
これに対して、音声理解結果に含まれる信頼度が非常に低い場合には、対話管理部122は、音声理解結果を棄却する。したがって、ロボットは、信頼度が非常に低い意図情報に対応した動作をしない(反応しない)。すなわち、ロボットは、ユーザにとっては意図していない誤動作と認識されるような動作はしない。
また、対話管理部122は、音声理解結果に含まれる信頼度がある範囲内である場合には、提示部124を介して、ユーザに対して音声理解結果の確認をする。すなわち、例えば、ロボットが、音声理解結果に含まれる意図情報で良いのか否かを確認するような発話をユーザに対して行う。
このように、音声理解結果には、入力音声から推定される発話の意図(意図情報)に対して信頼度が付与されているので、入力音声信号から推定される発話の意図を利用した制御、例えばロボットの動作の制御の信頼性をより一段と高めることができる。
なお、このような情報提示装置101による一連の処理を、以下、情報提示処理と称する。
[情報提示処理]
図20は、情報提示装置101による情報提示処理の一例を説明するフローチャートである。
ここで、具体例として、音声理解部121では、次の3つの意図モデル66−A乃至66−Cが構築されているとする。意図モデル66−Aは、「明日の天気を教えてください」という意図情報Aに対応する意図モデルである。意図モデル66−Bは、「リセットしてください」という意図情報Bに対応する意図モデルである。意図モデル66−Cは、「今の時間を教えてください」という意図情報Cに対応する意図モデルである。情報提示装置101は、これらの3つの意図情報に基づく音声理解結果に基づいて、情報提示処理を実行するものとする。
ステップS91において、音声理解部121は、入力音声信号に対して、上述した音声理解処理を施して、音声理解結果を出力する。
例えば、ユーザが、「えーと、明日の天気教えて」と発話したとすると、ユーザが発した音声は入力音声信号として、音声理解部121によって音声理解処理が施される。そして、音声理解結果として、意図モデル66−Aの「明日の天気を教えてください」という意図情報Aとともに、意図モデル66−Aの信頼度が、音声理解部121から出力される。
ステップS92において、管理手段としての対話管理部122は、音声理解部121から出力された音声理解結果に含まれる意図情報の信頼度は第1の閾値以上であるかを判定する。第1の閾値は、適宜調整が可能な閾値である。
ステップS92において、意図情報の信頼度が第1の閾値以上であると判定された場合、ステップS93において、対話管理部122は、音声理解結果に含まれる意図情報に対応する情報を情報格納部123から取得する。
例えば、対話管理部122は、音声理解結果に含まれる意図モデル66−Aの「明日の天気を教えてください」という意図情報Aに対応する情報、すなわち天気情報を情報格納部123から取得する。
ステップS94において、提示部124は、対話管理部122が取得した情報をユーザに提示する。
すなわちこの場合、提示部124は、天気情報をユーザに提示する。これにより、情報提示処理は終了する。
このように音声理解結果に含まれる意図情報の信頼度が第1の閾値以上である場合には、その意図情報に対応する情報がユーザに提示される。
これに対して、音声理解結果に含まれる意図情報の信頼度が第1の閾値未満である場合には、ステップS95において、対話管理部122は、音声理解部121による音声理解結果に含まれる意図情報の信頼度は第2の閾値以下であるかを判定する。ここで、第2の閾値は、適宜調整が可能な閾値であるが、第1の閾値よりも低い閾値である。
音声理解結果に含まれる意図情報の信頼度が第2の閾値以下である場合、ステップS99において、対話管理部122は、音声理解結果を棄却する。その後、処理はステップS91に戻され、それ以降の処理が繰り返される。すなわち、音声理解結果が棄却された場合とは、その音声理解結果に含まれていた意図情報は、信頼度が非常に低いのでユーザの意図を示さないと判定された場合を意味する。したがって、このような場合には、その意図情報に対応する情報は提示されずに再び音声理解処理が実行される。これにより、より確実に正しい意図のみを推定することができる。
なお、ステップS99の処理において、対話管理部122は、音声理解結果を棄却したことを提示部124を介してユーザに提示してもよい。また、音声理解部121が再び音声理解処理を実行するために、対話管理部122は、ステップS99において、ユーザに対してもう一度音声を入力することを求める情報を提示部124を介して提示してもよい。
例えば、ユーザが、「えーと、明日のニュース教えてくれる」と発話した場合に、音声理解結果として、意図モデル66−Aの「明日の天気を教えてください」という意図情報Aが誤って選択されたとする。しかしながら、意図モデル66−Aの信頼度が非常に低く付与されていれば、信頼度に基づいてその音声理解結果は棄却される。すなわち、情報提示装置101は、信頼度が非常に低い意図情報に対応した情報、この場合天気情報の提示をしない。
このように音声理解結果に含まれる意図情報の信頼度が第2の閾値以下である場合には、その音声理解結果は棄却される。
これに対して、音声理解結果に含まれる意図情報の信頼度が第2の閾値よりも大きい場合、すなわち信頼度が第1の閾値と第2の閾値の間の値である場合、ステップS96において、対話管理部122は、ユーザに対して意図情報を確認することを求める情報を提示部124を介して提示する。
例えば、ユーザが、「えーと、明日のニュース教えてくれる」と発話した場合に、音声理解結果として、意図モデル66−Aの「明日の天気を教えてください」という意図情報Aが選択されたとする。しかしながら、意図モデル66−Aの信頼度が第2の閾値よりも大きく、第1の閾値未満である場合には、対話管理部122は、信頼度に基づいて次のような情報を提示部124を介してユーザに提示する。すなわち、対話管理部122は、「明日の天気についてお聞きになりましたか?」という意図情報Aを確認することを求める情報を提示部124を介して提示する。
このようにして意図情報の確認を求められたユーザは、その意図情報が正しいか否かの応答を対話管理部122に入力する。そこで、ステップS97において、対話管理部122は、ユーザの応答を取得する。
ステップS98において対話管理部122は、ユーザの応答に基づいて、音声理解結果に含まれる意図情報で正しいかを判定する。
ステップS98において、音声理解結果に含まれる意図情報が正しくないと判定された場合、処理はステップS91に戻され、それ以降の処理が繰り返される。なお、音声理解部121が再び音声理解処理を実行するために、対話管理部122は、ステップS98において、ユーザに対してもう一度音声を入力することを求める情報を提示部124を介して提示してもよい。
これに対して、ステップS98において、意図情報が正しいと判定された場合、処理はステップS93に戻されて、それ以降の処理が実行される。すなわち、対話管理部122は、音声理解結果に対応する情報を取得して、提示部124を介してユーザに提示する。
このように、音声理解結果に含まれる意図情報の信頼度が、第2の閾値よりも大きく、第1の閾値未満である場合には、ユーザに意図情報の確認が求められる。これにより、ユーザの意図しない情報を提示することを回避することができ、正しい意図だけをユーザに提示することができる。
本発明は、音声による地名等の問い合わせに対して、対応する地図情報等を表示するデータベース検索装置、音声の命令語に対して荷物の仕分け等を行う産業用ロボット、音声の指令によって動作するコンピュータ上のアプリケーションソフト、ユーザとの会話を行うロボット対話システム等に適用することができる。
[本発明のプログラムへの適用]
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることができる。
この場合、上述した情報処理装置の少なくとも一部として、例えば、図21に示されるパーソナルコンピュータを採用してもよい。
図21において、CPU(Central Processing Unit)201は、ROM(Read Only Memory)202に記録されているプログラムに従って各種の処理を実行する。または記憶部208からRAM(Random Access Memory)203にロードされたプログラムに従って各種の処理を実行する。RAM203にはまた、CPU201が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU201、ROM202、およびRAM203は、バス204を介して相互に接続されている。このバス204にはまた、入出力インタフェース205も接続されている。
入出力インタフェース205には、キーボード、マウスなどよりなる入力部206、ディスプレイなどよりなる出力部207が接続されている。また、ハードディスクなどより構成される記憶部208、および、モデム、ターミナルアダプタなどより構成される通信部209が接続されている。通信部209は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
入出力インタフェース205にはまた、必要に応じてドライブ210が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア211が適宜装着される。そして、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部208にインストールされる。
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
このようなプログラムを含む記録媒体は、図21に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア(パッケージメディア)211により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM202や、記憶部208に含まれるハードディスクなどで構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
41 音声理解装置 , 61 入力部 , 62 AD変換部 , 63 特徴抽出部, 64 マルチマッチング部, 65 音響モデルデータベース, 66 意図モデル , 67 意図判定部, 68 意図信頼度算出部, 69 出力部, 81 音響スコア算出部 , 82 言語スコア算出部, 83 事前スコア算出部, 91 意図情報保持部, 92 辞書データベース , 93 文法データベース, 94 事前スコア保持部, 101 情報提示装置, 121 音声理解部, 122 対話管理部, 123 情報格納部 , 124 提示部

Claims (9)

  1. 複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出手段と、
    前記スコア算出手段により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択手段と、
    前記意図選択手段により選択された前記意図情報に対して、前記スコア算出手段により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出手段と
    を備える音声処理装置。
  2. 前記スコア算出手段は、
    前記複数の意図情報毎に、前記音声信号の前記意図情報に対する音響的な適合度を示す前記スコアとしての音響スコアを算出する音響スコア算出手段と、
    前記複数の意図情報毎に、前記音声信号の前記意図情報に対する言語的な適合度を示す前記スコアとしての言語スコアを算出する言語スコア算出手段と、
    前記複数の意図情報毎に、それぞれの生起確率に基づいて事前に決定される前記スコアとしての事前スコアを算出する事前スコア算出手段と
    を有する請求項1に記載の音声処理装置。
  3. 前記事前スコア算出手段は、前記音声信号が入力されたときのコンテキストに応じて、前記複数の意図情報毎に前記事前スコアを調整する
    請求項2に記載の音声処理装置。
  4. 前記スコア算出手段は、前記音声信号のうちの有音声部分の前記スコアを算出する
    請求項3に記載の音声処理装置。
  5. 前記スコア算出手段は、前記複数の意図情報の中の、特定の意図を示さない前記意図情報の前記スコアも算出し、
    前記意図選択手段は、前記特定の意図を示さない前記意図情報を選択した場合、前記音声信号に対応する前記ユーザの発話は、特定の意図を示さない無意味発話であると判定する
    請求項3に記載の音声処理装置。
  6. 前記スコア算出手段は、前記音響スコア、前記言語スコア、および前記事前スコアに対して、重みをそれぞれ付与し、
    前記意図信頼度算出手段は、前記重みをそれぞれ調整し、調整後の前記重みがそれぞれ付与された前記スコアに基づいて、前記信頼度を算出する
    請求項3に記載の音声処理装置。
  7. 前記意図選択手段により選択された前記意図情報に基づく出力を管理する管理手段を
    さらに備える請求項3に記載の音声処理装置。
  8. 複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出ステップと、
    前記スコア算出ステップの処理により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択ステップと、
    前記意図選択ステップの処理により選択された前記意図情報に対して、前記スコア算出ステップの処理により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出ステップと
    を含む音声処理方法。
  9. 複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出し、
    算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択し、
    前記意図選択ステップの処理により選択された前記意図情報に対して、算出された前記スコアに基づいて信頼度を算出する
    ステップを含む制御処理をコンピュータに実行させるプログラム。
JP2009177578A 2009-07-30 2009-07-30 音声処理装置及び方法、並びにプログラム Pending JP2011033680A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009177578A JP2011033680A (ja) 2009-07-30 2009-07-30 音声処理装置及び方法、並びにプログラム
US12/817,526 US8612223B2 (en) 2009-07-30 2010-06-17 Voice processing device and method, and program
CN2010102374059A CN101989424B (zh) 2009-07-30 2010-07-22 语音处理设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009177578A JP2011033680A (ja) 2009-07-30 2009-07-30 音声処理装置及び方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2011033680A true JP2011033680A (ja) 2011-02-17
JP2011033680A5 JP2011033680A5 (ja) 2012-07-19

Family

ID=43527848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009177578A Pending JP2011033680A (ja) 2009-07-30 2009-07-30 音声処理装置及び方法、並びにプログラム

Country Status (3)

Country Link
US (1) US8612223B2 (ja)
JP (1) JP2011033680A (ja)
CN (1) CN101989424B (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
WO2015107659A1 (ja) * 2014-01-16 2015-07-23 三菱電機株式会社 検索装置
WO2015151157A1 (ja) * 2014-03-31 2015-10-08 三菱電機株式会社 意図理解装置および方法
WO2016151698A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 対話装置、方法及びプログラム
KR20170028877A (ko) * 2014-04-17 2017-03-14 소프트뱅크 로보틱스 유럽 로봇 상의 소프트웨어 애플리케이션 실행하기
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
KR20170048008A (ko) * 2015-10-26 2017-05-08 에스케이텔레콤 주식회사 질의의도를 분석하기 위한 장치 및 방법
JP2017518588A (ja) * 2014-06-18 2017-07-06 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話理解システムのためのセッションコンテキストモデリング
JP2017191119A (ja) * 2016-04-11 2017-10-19 日本電信電話株式会社 識別器構築装置、方法及びプログラム
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
EP3591648A1 (en) 2015-05-19 2020-01-08 Sony Corporation Information processing apparatus, information processing method, and program
WO2020039726A1 (ja) * 2018-08-20 2020-02-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2022024110A (ja) * 2020-11-24 2022-02-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法、装置、電子機器及び記憶媒体

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9679568B1 (en) 2012-06-01 2017-06-13 Google Inc. Training a dialog system using user feedback
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US9196250B2 (en) 2012-11-16 2015-11-24 2236008 Ontario Inc. Application services interface to ASR
US9530405B2 (en) * 2012-11-30 2016-12-27 Mitsubishi Electric Corporation Intention estimating device and intention estimating method
EP2816552B1 (en) * 2013-06-20 2018-10-17 2236008 Ontario Inc. Conditional multipass automatic speech recognition
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
RU2580431C2 (ru) 2014-03-27 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обработки поискового запроса и машиночитаемый носитель
US11209897B2 (en) 2014-04-25 2021-12-28 Lenovo (Singapore) Pte. Ltd. Strengthening prediction confidence and command priority using natural user interface (NUI) inputs
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
CN106796786B (zh) * 2014-09-30 2021-03-02 三菱电机株式会社 语音识别***
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
CN108363745B (zh) 2018-01-26 2020-06-30 阿里巴巴集团控股有限公司 机器人客服转人工客服的方法和装置
US10754425B2 (en) * 2018-05-17 2020-08-25 Olympus Corporation Information processing apparatus, information processing method, and non-transitory computer readable recording medium
US11935521B2 (en) * 2019-09-12 2024-03-19 Oracle International Corporation Real-time feedback for efficient dialog processing
CN112000787B (zh) * 2020-08-17 2021-05-14 上海小鹏汽车科技有限公司 语音交互方法、服务器和语音交互***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue

Family Cites Families (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5197005A (en) * 1989-05-01 1993-03-23 Intelligent Business Systems Database retrieval system having a natural language interface
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5377103A (en) * 1992-05-15 1994-12-27 International Business Machines Corporation Constrained natural language interface for a computer that employs a browse function
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US6192110B1 (en) * 1995-09-15 2001-02-20 At&T Corp. Method and apparatus for generating sematically consistent inputs to a dialog manager
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
JP2999727B2 (ja) * 1996-09-19 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
KR100638198B1 (ko) * 1998-06-02 2006-10-26 소니 가부시끼 가이샤 정보처리장치 및 방법과 정보제공매체
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP2001154685A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US6839671B2 (en) * 1999-12-20 2005-01-04 British Telecommunications Public Limited Company Learning of dialogue states and language model of spoken information system
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
US7401023B1 (en) * 2000-09-06 2008-07-15 Verizon Corporate Services Group Inc. Systems and methods for providing automated directory assistance using transcripts
US7346490B2 (en) * 2000-09-29 2008-03-18 Axonwave Software Inc. Method and system for describing and identifying concepts in natural language text for information retrieval and processing
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US7251595B2 (en) * 2001-03-22 2007-07-31 Nippon Telegraph And Telephone Corporation Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same
EP1380153B1 (en) * 2001-04-19 2009-09-02 BRITISH TELECOMMUNICATIONS public limited company Voice response system
EP1380154A1 (en) * 2001-04-19 2004-01-14 BRITISH TELECOMMUNICATIONS public limited company Voice response system
EP1255190A1 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Interface control
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
GB2384901B (en) * 2002-02-04 2004-04-21 Zentian Ltd Speech recognition circuit using parallel processors
AU2003228288A1 (en) * 2002-03-04 2003-09-22 University Of Southern California Sentence generator
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7346507B1 (en) * 2002-06-05 2008-03-18 Bbn Technologies Corp. Method and apparatus for training an automated speech recognition-based system
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US7184960B2 (en) * 2002-06-28 2007-02-27 Intel Corporation Speech recognition command via an intermediate mobile device
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US20040098265A1 (en) * 2002-11-05 2004-05-20 Sean Kelly Dialog management system
US20060106604A1 (en) * 2002-11-11 2006-05-18 Yoshiyuki Okimoto Speech recognition dictionary creation device and speech recognition device
TWI220205B (en) * 2003-01-20 2004-08-11 Delta Electronics Inc Device using handheld communication equipment to calculate and process natural language and method thereof
US7809565B2 (en) * 2003-03-01 2010-10-05 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7292976B1 (en) * 2003-05-29 2007-11-06 At&T Corp. Active learning process for spoken dialog systems
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US20050165607A1 (en) * 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
CN1238834C (zh) * 2004-03-09 2006-01-25 北京沃克斯科技有限责任公司 一种口语识别理解的识别分析方法
US7392186B2 (en) * 2004-03-30 2008-06-24 Sony Corporation System and method for effectively implementing an optimized language model for speech recognition
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US7043435B2 (en) * 2004-09-16 2006-05-09 Sbc Knowledgfe Ventures, L.P. System and method for optimizing prompts for speech-enabled applications
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
CN1842787B (zh) * 2004-10-08 2011-12-07 松下电器产业株式会社 对话支援装置
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
KR100723404B1 (ko) * 2005-03-29 2007-05-30 삼성전자주식회사 음성 인식 및 반응을 위한 음성 처리 장치와 방법
JP4843987B2 (ja) * 2005-04-05 2011-12-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7584099B2 (en) * 2005-04-06 2009-09-01 Motorola, Inc. Method and system for interpreting verbal inputs in multimodal dialog system
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
EP1889179A2 (en) * 2005-05-27 2008-02-20 Hakia, Inc. System and method for natural language processing and using ontological searches
US8396715B2 (en) * 2005-06-28 2013-03-12 Microsoft Corporation Confidence threshold tuning
US7528622B2 (en) * 2005-07-06 2009-05-05 Optimal Test Ltd. Methods for slow test time detection of an integrated circuit during parallel testing
EP1934971A4 (en) * 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
EP1791114B1 (en) * 2005-11-25 2009-08-12 Swisscom AG A method for personalization of a service
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
US8195683B2 (en) * 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US8279171B2 (en) * 2006-07-06 2012-10-02 Panasonic Corporation Voice input device
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
US7818166B2 (en) * 2007-01-31 2010-10-19 Motorola, Inc. Method and apparatus for intention based communications for mobile communication devices
US8380511B2 (en) * 2007-02-20 2013-02-19 Intervoice Limited Partnership System and method for semantic categorization
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
CN101622660A (zh) * 2007-02-28 2010-01-06 日本电气株式会社 语音识别装置、语音识别方法及语音识别程序
EP2135231A4 (en) * 2007-03-01 2014-10-15 Adapx Inc SYSTEM AND METHOD FOR DYNAMIC LEARNING
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
JP2011503638A (ja) * 2007-10-26 2011-01-27 本田技研工業株式会社 カーナビゲーションシステムのための自由会話命令分類の改良
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
JP2009217611A (ja) * 2008-03-11 2009-09-24 Toshiba Corp 音声対話装置
US8521512B2 (en) * 2008-04-30 2013-08-27 Deep Sky Concepts, Inc Systems and methods for natural language communication with a computer
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8374859B2 (en) * 2008-08-20 2013-02-12 Universal Entertainment Corporation Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US9348816B2 (en) * 2008-10-14 2016-05-24 Honda Motor Co., Ltd. Dialog coherence using semantic features
US8140328B2 (en) * 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
US20100153112A1 (en) * 2008-12-16 2010-06-17 Motorola, Inc. Progressively refining a speech-based search
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
US8417526B2 (en) * 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8249876B1 (en) * 2012-01-03 2012-08-21 Google Inc. Method for providing alternative interpretations of a voice input to a user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
JP5866084B2 (ja) * 2014-01-16 2016-02-17 三菱電機株式会社 検索装置
WO2015107659A1 (ja) * 2014-01-16 2015-07-23 三菱電機株式会社 検索装置
WO2015151157A1 (ja) * 2014-03-31 2015-10-08 三菱電機株式会社 意図理解装置および方法
CN106663424A (zh) * 2014-03-31 2017-05-10 三菱电机株式会社 意图理解装置以及方法
US10037758B2 (en) 2014-03-31 2018-07-31 Mitsubishi Electric Corporation Device and method for understanding user intent
JPWO2015151157A1 (ja) * 2014-03-31 2017-04-13 三菱電機株式会社 意図理解装置および方法
CN106575504A (zh) * 2014-04-17 2017-04-19 软银机器人欧洲公司 在机器人上执行软件应用
KR20170028877A (ko) * 2014-04-17 2017-03-14 소프트뱅크 로보틱스 유럽 로봇 상의 소프트웨어 애플리케이션 실행하기
JP2017514227A (ja) * 2014-04-17 2017-06-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe ロボット上のソフトウェアアプリケーションの実行
KR102001293B1 (ko) * 2014-04-17 2019-07-17 소프트뱅크 로보틱스 유럽 로봇 상의 소프트웨어 애플리케이션 실행하기
JP2017518588A (ja) * 2014-06-18 2017-07-06 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話理解システムのためのセッションコンテキストモデリング
WO2016151698A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 対話装置、方法及びプログラム
JPWO2016151698A1 (ja) * 2015-03-20 2017-05-25 株式会社東芝 対話装置、方法及びプログラム
EP3591648A1 (en) 2015-05-19 2020-01-08 Sony Corporation Information processing apparatus, information processing method, and program
US10861449B2 (en) 2015-05-19 2020-12-08 Sony Corporation Information processing device and information processing method
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
KR20170048008A (ko) * 2015-10-26 2017-05-08 에스케이텔레콤 주식회사 질의의도를 분석하기 위한 장치 및 방법
KR102280439B1 (ko) * 2015-10-26 2021-07-21 에스케이텔레콤 주식회사 질의의도를 분석하기 위한 장치 및 방법
JP2017191119A (ja) * 2016-04-11 2017-10-19 日本電信電話株式会社 識別器構築装置、方法及びプログラム
WO2020039726A1 (ja) * 2018-08-20 2020-02-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2022024110A (ja) * 2020-11-24 2022-02-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法、装置、電子機器及び記憶媒体
JP7309818B2 (ja) 2020-11-24 2023-07-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
US8612223B2 (en) 2013-12-17
CN101989424B (zh) 2012-07-04
US20110029311A1 (en) 2011-02-03
CN101989424A (zh) 2011-03-23

Similar Documents

Publication Publication Date Title
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
US8019602B2 (en) Automatic speech recognition learning using user corrections
CN106463113B (zh) 在语音辨识中预测发音
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
JP5066483B2 (ja) 言語理解装置
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US20100324897A1 (en) Audio recognition device and audio recognition method
Liu et al. Dialect identification: Impact of differences between read versus spontaneous speech
Prakoso et al. Indonesian Automatic Speech Recognition system using CMUSphinx toolkit and limited dataset
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
JP5183120B2 (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
US20040006469A1 (en) Apparatus and method for updating lexicon
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Hosom et al. Automatic speech recognition for assistive writing in speech supplemented word prediction.
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP2012255867A (ja) 音声認識装置
Caranica et al. On the design of an automatic speaker independent digits recognition system for Romanian language
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Khalifa et al. Statistical modeling for speech recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130702