JP2011033680A

JP2011033680A - 音声処理装置及び方法、並びにプログラム

Info

Publication number: JP2011033680A
Application number: JP2009177578A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Hitoshi Honda; 等本田; Yukinori Maeda; 幸徳前田; Hiroaki Ogawa; 浩明小川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-07-30
Filing date: 2009-07-30
Publication date: 2011-02-17
Also published as: US8612223B2; CN101989424B; US20110029311A1; CN101989424A

Abstract

【課題】入力音声からより確実に正しい意図を推定できるようにする。
【解決手段】マルチマッチング部６４は、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出する。意図判定部６７は、マルチマッチング部６４により算出されたスコアに基づいて、複数の意図情報の中から、ユーザの発話の意図を示す意図情報を選択する。意図信頼度算出部６８は、意図判定部６７により選択された意図情報に対して、マルチマッチング部６４により算出されたスコアに基づいて信頼度を算出する。本発明は、産業用ロボットに適用できる。
【選択図】図２

Description

音声処理装置及び方法、並びにプログラムに関し、特に、入力音声からより確実に正しい意図を推定することができるようにした、音声処理装置及び方法、並びにプログラムに関する。

近年、音声認識を適用した様々な製品やサービスが登場してきている。音声認識とは、音響的な特徴を表す特徴量の出現確率などを用いて、入力音声に対応する単語系列を認識する技術のことである。

図１は、音声認識を利用する従来の音声認識装置の構成例を示すブロック図である。

図１の音声認識装置１は、入力部２１、ＡＤ変換部２２、特徴抽出部２３、マッチング部２４、音響モデルデータベース２５、辞書データベース２６、および文法データベース２７から構成されている。

ユーザの発話に基づく音声は、マイクロフォン等から構成される入力部２１に入力される。入力部２１は、入力音声を、アナログの電気信号としての音声信号に変換して出力する。

ＡＤ変換部２２は、入力部２１から出力されたアナログの入力音声信号を、サンプリングして量子化することで、デジタルの入力音声信号に変換して出力する。

特徴抽出部２３は、ＡＤ変換部２２から出力された入力音声信号を、適当な時間間隔で周波数分析することで、スペクトルや、その他の音声の音響的特徴を表すパラメータを抽出する。このようにして抽出されるパラメータが入力音声信号の特徴量である。入力音声信号の特徴量の時系列（以下、特徴量系列と称する）が特徴抽出部２３から出力される。

特徴抽出部２３は、このようにして入力音声信号の特徴量系列を抽出するとともに、入力音声信号の音声区間を決定する。音声区間とは、発話の開始時刻から終了時刻までの区間をいう。

マッチング部２４は、特徴抽出部２３により抽出された特徴量系列と最も適合する単語系列を決定し、決定された単語系列を音声認識結果として出力する。以下、このようなマッチング部２４による処理を、マッチング処理と称する。マッチング部２４は、特徴抽出部２３により決定される音声区間に応じてマッチング処理を行うので、音声区間ごとに音声認識結果を順次出力する。

また、マッチング部２４は、マッチング処理を実行する場合、音響モデルデータベース２５、辞書データベース２６、および文法データベース２７を用いる。

音響モデルデータベース２５は、認識対象の音声の言語における個々の音素や音節等の所定の単位毎の音響的な特徴を表す音響モデルを記録している。音響モデルとして、例えば隠れマルコフモデル（HMM(Hidden Markov Model)）等が採用可能である。

辞書データベース２６は、認識対象の音声の単語毎の発音に関する情報（以下、発音情報と称する）が記述された辞書を記録している。これにより、各単語と音響モデルとが関連付けられる。その結果、辞書データベース２６に記録されている各単語に対応する音響的な標準パターンが得られることになる。

文法データベース２７は、辞書データベース２６に記録されている各単語が、どのように連鎖しうるかを記述した文法規則を記録している。文法規則として、例えば正規文法、文脈自由文法、統計的な単語連鎖確率を含むN-gram文法等が採用可能である。

音響モデルデータベース２５の音響モデルとして、例えば隠れマルコフモデルが採用されている場合には、マッチング部２４は、特徴抽出部２３により抽出された特徴量系列にしたがって、特徴量の出現確率を累積する。すなわち、上述の標準パターンを用いて単語毎に累積が行われることで、音響的な評価値（以下、音響スコアと称する）が単語毎に算出される。

また、文法データベース２７の文法規則として、例えばバイグラムが採用されている場合には、マッチング部２４は、直前の単語との連鎖確率に基づいて単語毎の言語的な確からしさを求める。このような各単語の言語的な確からしさは、言語的な評価値（以下、言語スコアと称する）として数値化される。

そして、マッチング部２４は、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的な評価値（以下、総合スコアと称する）に基づいて、入力部２１への入力音声に最も適合する単語系列を決定する。決定された単語系列は音声認識結果として出力される。

例えば、ユーザが、「今日はいい天気ですね。」と発話した場合、｛「今日」、「は」、「いい」、「天気」、「ですね」｝のような単語系列が音声認識結果として出力される。このような単語系列が決定されるに際し、上述のごとく、各単語に対して音響スコアと言語スコアがそれぞれ与えられることになる。

以上のような音声認識装置をロボットに適用する場合、音声認識により認識された単語系列に対して、ロボットの動作を関連付ける必要がある。このような関連付けを実現する手法としては、次のような第１の手法と第２の手法が知られている。

第１の手法は、音声認識により単語系列が認識され、その認識された単語系列に対して対応する動作を直接関連付ける手法である。第１の手法により、例えば、ユーザがロボットに対して「立って」と発話した場合、音声認識により認識された単語系列「立って」に対して対応する動作、すなわち、ロボットが立ち上がる動作をするように、ロボットを制御することが可能になる。

第２の手法は、音声認識により認識された単語系列から発話に含まれるユーザの意図を抽出し、その意図に対して対応する動作を関連付ける手法である。第２の手法により、例えば、ユーザのロボットに対する「立って」、「起きて」、「立ち上がって」等の発話に対して、それぞれの発話が音声認識により認識される。このようにして認識されたそれぞれの発話に含まれる意図（例えば、この場合「立ってください」）が推定され、その意図に対して対応する動作（例えば、この場合、立ち上がる動作）をするように、ロボットを制御することが可能になる。

一般に、１の意図に対して１の動作が対応する一方で、１の意図に対応する発話は複数存在する。このため、第１の手法では、１つの単語系列に対して１つの動作を対応付ける必要があるため、１つの意図に対応する複数の単語系列のそれぞれに対して、同一の動作を別々に対応付けなければならない。これに対して、第２の手法では、複数の単語系列に対応する１つの意図に対して１つの動作を対応付けるだけで済む。したがって、音声認識により認識された単語系列に対して動作を関連付ける手法としては、第１の手法よりも第２の手法が適している。

このような第２の手法を実現するために、音声認識により認識された単語系列から、発話に含まれるユーザの意図を推定する装置が利用される。なお、以下、かかる装置を、音声理解装置と称する。

従来の音声理解装置は、発話に含まれるユーザの意図を推定するために、１つの意図を示す意図情報に対応する単語辞書と、文法規則に基づいて、発話に基づく入力音声信号に適合する単語系列を決定する。このような単語系列は、複数の意図情報毎に１つずつ決定される。次に、従来の音声理解装置は、複数の意図情報毎に、決定された単語系列と入力音声信号との類似度を演算する。具体的には、類似度を示す値として、音響的な類似度を示す音響スコアと、言語的な類似度を示す言語スコアとが、意図情報毎に演算される。そして、従来の音声理解装置は、これら２つのスコアを用いて、複数の意図情報の中から、入力音声信号に対応する意図を推定する（例えば特許文献１参照）。

特開２００６−５３２０３号公報

しかしながら、音声認識を利用した従来の音声理解装置は、誤った意図を推定してしまうおそれがあった。したがって、このような意図情報に対応付けられた動作をロボットがしてしまうと、その動作は、ユーザにとっては意図していない誤動作と認識されることになる。

本発明は、このような状況に鑑みてなされたものであり、入力音声からより確実に正しい意図を推定することができるようにするものである。

本発明の一側面の音声処理装置は、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出手段と、前記スコア算出手段により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択手段と、前記意図選択手段により選択された前記意図情報に対して、前記スコア算出手段により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出手段とを備える。

前記スコア算出手段は、前記複数の意図情報毎に、前記音声信号の前記意図情報に対する音響的な適合度を示す前記スコアとしての音響スコアを算出する音響スコア算出手段と、前記複数の意図情報毎に、前記音声信号の前記意図情報に対する言語的な適合度を示す前記スコアとしての言語スコアを算出する言語スコア算出手段と、前記複数の意図情報毎に、それぞれの生起確率に基づいて事前に決定される前記スコアとしての事前スコアを算出する事前スコア算出手段とを有することができる。

前記事前スコア算出手段は、前記音声信号が入力されたときのコンテキストに応じて、前記複数の意図情報毎に前記事前スコアを調整することができる。

前記スコア算出手段は、前記音声信号のうちの有音声部分の前記スコアを算出することができる。

前記スコア算出手段は、前記複数の意図情報の中の、特定の意図を示さない前記意図情報の前記スコアも算出し、前記意図選択手段は、前記特定の意図を示さない前記意図情報を選択した場合、前記音声信号に対応する前記ユーザの発話は、特定の意図を示さない無意味発話であると判定することができる。

前記スコア算出手段は、前記音響スコア、前記言語スコア、および前記事前スコアに対して、重みをそれぞれ付与し、前記意図信頼度算出手段は、前記重みをそれぞれ調整し、調整後の前記重みがそれぞれ付与された前記スコアに基づいて、前記信頼度を算出することができる。

前記意図選択手段により選択された前記意図情報に基づく出力を管理する管理手段をさらに備えることができる。

本発明の一側面の音声処理方法およびプログラムは、上述した本発明の一側面の音声処理装置に対応する方法およびプログラムである。

本発明の一側面の音声処理方装置および方法並びにプログラムにおいては、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアが算出され、算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報が選択され、選択された前記意図情報に対して、算出された前記スコアに基づいて信頼度が算出される。

以上のごとく、本発明によれば、入力音声からより確実に正しい意図を推定することができるようになる。

従来の音声認識装置の構成例を示すブロック図である。本発明が適用される音声理解装置の一実施の形態の構成例を示すブロック図である。音声理解処理の一例を説明するフローチャートである。マルチマッチング処理の一例を説明するフローチャートである。意図情報の例を示す図である。辞書データベースに記録された辞書の一例を示す図である。トライグラム表の一例について説明する図である。バイグラム表の一例について説明する図である。ユニグラム表の一例について説明する図である。意図情報の例を示す図である。辞書データベースに記録された辞書の一例を示す図である。マルチマッチング処理の実行結果を示す図である。マルチマッチング処理の実行結果を示す図である。コンテキストの状態遷移の一例を示す状態遷移図である。入力音声信号に含まれる無音声部分について説明する図である。各単語についての開始時刻および終了時刻を示す図である。無意味発話判定処理の一例を説明するフローチャートである。実験結果を示す図である。本発明が適用される情報提示装置の一実施の形態の構成を示すブロック図である。情報提示処理の一例を説明するフローチャートである。本発明が適用される音声処理装置のハードウエアの構成例を示すブロック図である。

本発明が適用される音声理解装置の実施形態として、５つの実施形態（以下、それぞれ第１実施形態乃至第５実施形態と称する）について説明する。よって、説明は以下の順序で行う。
１．第１実施形態
２．第２実施形態（事前スコアの調整にコンテキストが利用された例）
３．第３実施形態（無音部分の除去が適用された例）
４．第４実施形態（無意味発話の判定が適用された例）
５．第５実施形態（音声理解結果の適用例）

＜１．第１実施形態＞
［本発明が適用される音声理解装置の構成例］
図２は、本発明が適用される音声処理装置としての音声理解装置の一実施の形態の構成例を示すブロック図である。

図２の音声理解装置４１は、入力部６１、ＡＤ変換部６２、特徴抽出部６３、マルチマッチング部６４、音響モデルデータベース６５、意図モデル６６−１乃至６６−Ｎ、意図判定部６７、意図信頼度算出部６８、および出力部６９から構成されている。

ユーザの発話に基づく音声は、マイクロフォン等から構成される入力部６１に入力される。入力部６１は、入力音声を、アナログの電気信号としての音声信号に変換して出力する。なお、以下、入力部６１から出力される音声信号を、入力音声信号と称する。

ＡＤ変換部６２は、入力部６１から出力されたアナログの入力音声信号を、サンプリングして量子化することで、デジタルの入力音声信号に変換して出力する。

特徴抽出部６３は、ＡＤ変換部６２から出力された入力音声信号を、適当な時間間隔で周波数分析することで、スペクトルや、その他の音声の音響的特徴を表すパラメータを抽出する。このようにして抽出されるパラメータが入力音声信号の特徴量である。入力音声信号の特徴量の時系列（以下、特徴量系列と称する）が特徴抽出部６３から出力される。

特徴抽出部６３は、このようにして入力音声信号の特徴量系列を抽出するとともに、入力音声信号の音声区間を決定する。音声区間とは、発話の開始時刻から終了時刻までの区間をいう。特徴抽出部６３は、例えば、入力音声信号のパワー等に基づいて発話の区間だけを抽出することにより、音声区間を検出する。

音響モデルデータベース６５は、認識対象の音声の言語における個々の音素や音節等の所定の単位毎の音響的な特徴を表す音響モデルを記録している。音響モデルとして、例えば隠れマルコフモデル（HMM(Hidden Markov Model)）等が採用可能である。

意図モデル６６−ｋ（ｋは、１乃至Ｎのうちの任意の整数値）は、意図情報保持部９１−ｋ、辞書データベース９２−ｋ、文法データベース９３−ｋ、および事前スコア保持部９４−ｋから構成されている。

意図情報保持部９１−ｋには、意図モデル６６−ｋに対応する意図を示す情報（以下、意図情報と称する）が保持されている。

辞書データベース９２−ｋには、認識対象の音声の単語毎の発音に関する情報（以下、発音情報と称する）が記述された辞書であって、意図情報保持部９１−ｋに保持されている意図情報に応じて定義される語彙から構成される辞書が記録されている。これにより、各単語と音響モデルとが関連付けられる。その結果、辞書データベース９２−ｋに記録されている各単語に対応する音響的な標準パターンが得られることになる。

文法データベース９３−ｋには、辞書データベース９２−ｋに記録されている各単語の連鎖確率を与えるバイグラム文法やトライグラム文法等の所定の文法規則を記録している。特に、文法データベース９３−ｋに記録されている文法規則は、意図情報保持部９１−ｋに保持されている意図情報を示す単語系列に対してスコア値を与えるように構成されている。

事前スコア保持部９４−ｋには、意図モデル６６−ｋに対して事前に与えられるスコア値（以下、事前スコア値と称する）が保持されている。

入力音声信号の意図情報に対する適合度を示すスコアを算出するマルチマッチング部６４は、音響スコア算出部８１、言語スコア算出部８２、および事前スコア算出部８３から構成される。

マルチマッチング部６４は、１つの意図モデル６６−ｋを、音響モデルデータベース６５とともに用いることで、特徴抽出部６３により抽出された特徴量系列（入力音声信号）と最も適合する単語系列を決定する。すなわち、１つの意図モデル６６−ｋに対応する意図（意図情報により示される意図）に対して定義された単語を用いて構成し得る単語系列のうち、入力音声と最も適合する単語系列が決定される。マルチマッチング部６４においては、複数の意図モデル６６−１乃至６６−Ｎ毎に入力音声信号と最も適合する単語系列がそれぞれ決定される。

さらに、マルチマッチング部６４では、複数の意図モデル６６−１乃至６６−Ｎ毎に入力音声信号に最も適するとして決定された単語系列（対応する意図に対して定義された単語を用いて構成された単語系列）に対して、音響スコアと言語スコアが演算される。音響スコアは音響スコア算出部８１により、言語スコアは言語スコア算出部８２により、それぞれ算出される。

具体的には、音響スコア算出部８１は、１の意図モデル６６−ｋに対してマルチマッチング部６４によって決定された単語系列に含まれる単語モデルから、特徴量系列が観測される確率（出現確率）を求め、その出現確率に基づいて音響スコアを単語毎に算出する。

言語スコア算出部８２は、１の意図モデル６６−ｋに対してマルチマッチング部６４によって決定された単語系列に含まれる単語の連鎖（連接）する確率を求め、その確率に基づいて言語スコアを単語毎に算出する。

このような音響スコア算出部８１と言語スコア算出部８２との各処理は、複数の意図モデル６６−１乃至６６−Ｎ毎に実行される。その結果、マルチマッチング部６４においては、複数の意図モデル６６−１乃至６６−Ｎ毎に決定された各単語系列のそれぞれに対して、音響スコアと言語スコアとが単語毎に算出される。

また、事前スコア算出部８３は、複数の意図モデル６６−１乃至６６−Ｎ毎に事前スコアをそれぞれ算出する。

事前スコアは、１の意図情報の生起確率に基づいて事前に決定される値であって、上述の如く、その１の意図情報に対応する意図モデル６６−ｋの事前スコア保持部９４−ｋに保持されている。すなわち、事前スコア算出部８３は、１の意図情報に対応する意図モデル６６−ｋの事前スコア保持部９４−ｋに保持されている事前スコアからコンテキストに基づいて、意図モデル６６−ｋに対応する意図情報に対する事前スコアを算出する。なお、全ての意図が等確率で生起する場合は、同じスコア値が事前スコアとして算出される。

なお、以下、ここまでのマルチマッチング部６４による一連の処理をまとめて、マルチマッチング処理と称する。

すなわち、マルチマッチング処理の結果、複数の意図モデル６６−１乃至６６−Ｎ毎に、音響スコア、言語スコア、および事前スコアが算出され、意図判定部６７と意図信頼度算出部６８に提供される。

意図判定部６７は、１の意図モデル６６−ｋについて、マルチマッチング部６４から提供された音響スコア、言語スコア、および事前スコアを総合して総合スコアを算出する。このような総合スコアは、複数の意図モデル６６−１乃至６６−Ｎ毎に算出される。そこで、意図判定部６７は、これらの総合スコアのうち最も高い総合スコアを有する意図モデル６６−ｔ（ｔは１乃至Ｎの何れかの整数値）に対応する意図情報を、ユーザの発話に対応する意図情報として選択する。このように、総合スコアは、ユーザの発話に対応する意図を推定するために利用される。

意図信頼度算出部６８は、意図判定部６７が選択した意図モデル６６−ｔに対して、マルチマッチング部６４から提供された音響スコア、言語スコア、および事前スコアに基づいて、信頼度を算出する。

出力部６９は、意図判定部６７により選択された意図情報に対して、その意図情報に対応する意図モデル６６−ｔについての意図信頼度算出部６８により算出された信頼度を付加した情報を、音声理解結果として出力する。

[音声理解処理]
図３は、音声理解装置４１による音声理解処理の一例を説明するフローチャートである。

ステップＳ１において、入力部６１は、入力音声を音声信号に変換する。すなわち、ユーザが発した音声が入力され、アナログの入力音声信号として出力される。

ステップＳ２において、ＡＤ変換部６２は、音声信号のＡＤ変換処理を行う。すなわち、アナログの入力音声信号がＡＤ変換処理され、その結果得られるデジタルの入力音声信号が出力される。

ステップＳ３において、特徴抽出部６３は、入力音声信号から、特徴量系列を抽出し、音声区間を決定する。

ステップＳ４において、スコア算出手段としてのマルチマッチング部６４は、抽出された特徴量系列に対してマルチマッチング処理を施す。

ここで、マルチマッチング処理の詳細例について説明する。

図４は、マルチマッチング処理の一例を説明するフローチャートである。

ステップＳ３１において、マルチマッチング部６４は、複数の意図モデル６６−１乃至６６−Ｎのうち、１つの意図モデル６６−ｋを処理対象として決定する。

ステップＳ３２において、マルチマッチング部６４は、特徴抽出部６３により抽出された特徴量系列（入力音声信号）と最も適合する単語系列を決定する。

この場合、音響モデルデータベース６５とともに、意図モデル６６−ｋに含まれる辞書データベース９２−ｋと文法データベース９３−ｋとが用いられる。そこで、以下、辞書データベース９２−ｋと文法データベース９３−ｋについて説明する。

辞書データベース９２−ｋには、意図情報保持部９１−ｋに保持された意図情報に対応する例文に基づいて生成された辞書であって、単語毎の発音情報が記述された辞書が記録されている。文法データベース９３−ｋには、意図情報保持部９１−ｋに保持された意図情報に対応する例文に基づいて作成された文法規則であって、単語毎の発音情報が記述された文法規則が記録されている。

ここで、具体例として、図５乃至９を参照して、意図モデル６６−１（Ｋ＝１）に適用された意図情報の例と、その意図情報に対応する例文に基づいて生成される辞書と文法規則の各例について説明する。次に、図１０と図１１を参照して、意図モデル６６−２（Ｋ＝２）に適用された意図情報の例と、その意図情報に対応する例文に基づいて生成される辞書の例について説明する。

図５は、意図モデル６６−１に適用された意図情報の例と、それに対応する例文を示す図である。

例えば図５に示される「明日の天気を教えてください」といった発話の意図を示す意図情報が、意図モデル６６−１の意図情報保持部９１−１に保持されているとする。この場合、辞書データベース９２−１に記録される辞書と、文法データベース９３−１に記録される文法規則とは、図５に示される４つの例文に基づいて生成される。すなわち、意図情報に対応する例文「明日の天気を教えてください」、「明日の天気は」、「明日の天気を教えてくれる」、および、「えーと明日の天気が聞きたい」に基づいて辞書と文法規則が生成される。なお、それぞれの例文は、スペースによって単語毎に区切られている。

図５の各例文に基づいて図６に示される辞書が生成され、辞書データベース９２−１に記録される。

図６は、辞書データベース９２−１に記録された辞書の一例を示す図である。

図６に示される辞書は、「単語」と「発音」という項目から構成されている。

「単語」の項目には、図５に示される４つの例文に含まれる全ての単語が各行にそれぞれ記述されている。「発音」の項目には、同一行の「単語」の項目に記述された単語に対応する発音情報が記述される。

「発音」の項目に記述される発音情報は、辞書データベース９２−１に記録されている各単語と音響モデルデータベース６５とを関連付けるための情報である。例えば、音節単位の音響モデルとして隠れマルコフモデルが採用されている場合、音響モデルデータベース６５と各単語とを対応する発音情報に基づいて接続することにより、各単語に対応する音響的な標準パターンが得られる。なお、このことは、辞書データベース９２−１のみならず全ての辞書データベース９２−２乃至９２−Ｎに記録され得る辞書に等しく当てはまる内容である。

なお、以下、単語と発音情報を区別すべく、「ＡＡＡ」が単語を示す場合には、単語「ＡＡＡ」と記述し、「ＡＡＡ」が発音情報を示す場合には、発音情報「ＡＡＡ」と記述する。

具体的には例えば１行目においては、「単語」の項目には単語「えーと」が記述されており、「発音」の項目には、単語「えーと」に対応する発音情報「えーと」が記述されている。例えば６行目においては、「単語」の項目には単語「明日」が記述されており、「発音」の項目には、単語「明日」に対応する発音情報「あした」が記述されている。その他の行についても同様に、「単語」の項目には所定の単語が記述されており、「発音」の項目には、所定の単語に対応する発音情報が記述されている。

また例えば図５の各例文に含まれる各単語（図６の辞書に含まれる各単語）の生起確率や連鎖確率のモデル（N-gram文法）が、文法規則として生成されて、文法データベース９３−１に記録される。

３単語の連鎖確率はトライグラム確率と、２単語の連鎖確率はバイグラム確率と、各単語の生起確率はユニグラム確率と、それぞれ称されている。また、以下、トライグラム確率のモデルを示す表をトライグラム表と、バイグラム確率のモデルを示す表をバイグラム表と、ユニグラム確率のモデルを示す表をユニグラム表と、それぞれ称する。

具体的には例えば、文法データベース９３−１には、文法規則として、図７乃至図９のそれぞれに示されるトライグラム表、バイグラム表、およびユニグラム表が記録されている。

図７は、文法データベース９３−１に記録されたトライグラム表の一例を示す図である。

図７に示されるトライグラム表は、「連鎖する単語」と「トライグラム確率」という項目から構成されている。

「連鎖する単語」の項目には、図５に示される４つの例文に含まれる全ての単語のうち、連鎖する所定の３つの単語が各行に連鎖の順番でそれぞれ記述されている。「トライグラム確率」の項目には、同一行の「連鎖する単語」の項目に記述された３つの単語がその順番で配列される確率、即ち、トライグラム確率が記述される。

具体的には例えば１行目においては、「連鎖する単語」の項目には、単語「えーと」、単語「明日」、および単語「の」が記述されている。「トライグラム確率」の項目には、「0.003」が記述されている。したがって、１行目の記述から、単語「えーと」、単語「明日」、および単語「の」がその順番で連鎖するトライグラム確率、すなわち、これらの３つの単語が連鎖して「えーと明日の」という文節になる確率は、「0.003」であることがわかる。

例えば２行目においては、「連鎖する単語」の項目には、単語「の」、単語「天気」、および単語「を」が記述されている。「トライグラム確率」の項目には、「0.01」が記述されている。したがって、２行目の記述から、単語「の」、単語「天気」、および単語「を」がその順番で連鎖するトライグラム確率、すなわち、これらの３つの単語が連鎖して「の天気を」という文節になる確率は、「0.01」であることがわかる。

その他の行についても同様に、「連鎖する単語」の項目には所定の３つの単語が記述されており、「トライグラム確率」の項目には、所定の３つの単語が連鎖するトライグラム確率が記述されている。

図７に示されていない３つの単語に対するトライグラム確率は、後述する図８のバイグラム表を参照して、３つの単語のうち、最初の２つの単語のバイグラムバックオフ係数に、最後の２つの単語のバイグラム確率を乗じて算出することができる。

図８は、文法データベース９３−１に記録されたバイグラム表の一例を示す図である。

図８に示されるバイグラム表は、「連鎖する単語」、「バイグラム確率」、および「バイグラムバックオフ係数」という項目から構成されている。

「連鎖する単語」の項目には、図５に示される４つの例文に含まれる全ての単語のうち、連鎖する所定の２つの単語が各行に連鎖の順番でそれぞれ記述されている。「バイグラム確率」の項目には、同一行の「連鎖する単語」の項目に記述された２つの単語がその順番で配列される確率、即ち、バイグラム確率が記述される。「バイグラムバックオフ係数」の項目には、同一行の「連鎖する単語」の項目に記述された２つの単語についてのバイグラムバックオフ係数が記述される。バイグラムバックオフ係数とは、バイグラム確率に基づいてトライグラム確率を算出する場合に用いられる係数であって、その確率の総和が１を超過しないようにするための係数をいう。

具体的には例えば１行目においては、「連鎖する単語」の項目には、単語「えーと」、および単語「明日」が記述されている。「バイグラム確率」の項目には、「0.02」が記述され、バイグラムバックオフ係数の項目には「0.01」が記述されている。したがって、１行目の記述から、単語「えーと」、および単語「明日」がその順番で連鎖するバイグラム確率、すなわち、これらの２つの単語が連鎖して「えーと明日」という文節になる確率は、「0.02」であることがわかる。

例えば２行目においては、「連鎖する単語」の項目には、単語「の」、および単語「天気」が記述されている。「バイグラム確率」の項目には、「0.1」が記述され、「バイグラムバックオフ係数」の項目には「0.02」が記述されている。したがって、２行目の記述から、単語「の」、および単語「天気」がその順番で連鎖するバイグラム確率、すなわち、これらの２つの単語が連鎖して「の天気」という文節になる確率は、「0.1」であることがわかる。

図８に示されていない２つの単語に対するバイグラム確率は、後述する図９のユニグラム表を参照して、２つの単語のうち、最初の単語のユニグラムバックオフ係数に、最後の単語のユニグラム確率を乗じて算出することができる。

図９は、文法データベース９３−１に記録されたユニグラム表の一例を示す図である。

図９に示されるユニグラム表は、「単語」、「ユニグラム確率」、および「ユニグラムバックオフ係数」という項目から構成されている。

「単語」の項目には、図５に示される４つの例文に含まれる全ての単語がそれぞれ記述されている。「ユニグラム確率」の項目には、同一行の「単語」の項目に記述された単語が文節中に配列される確率、即ち、ユニグラム確率が記述される。「ユニグラムバックオフ係数」の項目には、同一行の「単語」の項目に記載された単語についてのユニグラムバックオフ係数が記述される。ユニグラムバックオフ係数とは、ユニグラム確率に基づいてバイグラム確率を算出する場合に用いられる係数であって、その確率の総和が１を超過しないようにするための係数をいう。

具体的には例えば１行目においては、「単語」の項目には、単語「えーと」が記述されている。「ユニグラム確率」の項目には、「0.04」が記述され、「ユニグラムバックオフ係数」の項目には「0.02」が記述されている。したがって、１行目の記述から、単語「えーと」が文節中に配置されるユニグラム確率は、「0.04」であることがわかる。

なお、出現頻度の低い単語に対する措置としては、例えば、スムージング（smoothing）を用いてそれぞれの確率値の補正を行う手法、具体的には例えば、線形補間法、バックオフスムージングと称される手法等を採用すればよい。

また、ユニグラム確率、バイグラム確率、およびトライグラム確率の計算手法、並びにスムージングの手法については、例えば、北研二、中村哲、「音声言語処理‐コーパスに基づくアプローチ」、森北出版株式会社などにその詳細が記載されている。

以上、図５乃至図９を参照して説明したように、本具体例では、意図モデル６６−１については、図５に示される意図が意図情報保持部９１−１に保持されている。そして、図５に示される各例文に基づいて辞書と文法規則が生成され、辞書は辞書データベース９２−１に、文法規則は文法データベース９３−１に、それぞれ記録されている。

図１０は、意図モデル６６−２に適用された意図情報の例と、それに対応する例文を示す図である。

例えば図１０に示される「今の時間を教えてください」といった発話の意図を示す意図情報が、意図モデル６６−２の意図情報保持部９１−２に保持されているとする。この場合、辞書データベース９２−２に記録される辞書と、文法データベース９３−２に記録される文法規則とは、図１０に示される５つの例文に基づいて生成される。すなわち、意図情報に対応する例文「今何時ですか」、「今何時」、「今何時かな」、「今の時間が聞きたい」、および「時間を教えて」に基づいて辞書と文法規則が生成される。なお、それぞれの例文は、スペースによって、単語毎に区切られている。

具体的には例えば、図１０の各例文に基づいて図１１に示される辞書が生成され、辞書データベース９２−２に記録される。

図１１は、辞書データベース９２−２に記録された辞書の一例を示す図である。

図１１に示される辞書は、図６に示される辞書と同様に、「単語」と「発音」という項目から構成されている。

「単語」の項目には、図１０に示される５つの例文に含まれる全ての単語が各行にそれぞれ記述されている。「発音」の項目には、同一行の「単語」の項目に記述された単語に対応する発音情報が記述される。

具体的には例えば１行目においては、「単語」の項目には単語「今」が記述されており、「発音」の項目には、単語「今」に対応する発音情報「いま」が記述されている。例えば２行目においては、「単語」の項目には単語「です」が記述されており、「発音」の項目には、単語「です」に対応する発音情報「です」が記述されている。その他の行についても同様に、「単語」の項目には所定の単語が記述されており、「発音」の項目には、所定の単語に対応する発音情報が記述されている。

また例えば図１０の各例文に含まれる各単語（図１１の辞書に含まれる各単語）の生起確率や連鎖確率のモデル（N-gram文法）が、文法規則として生成されて、文法データベース９３−２に記録される。具体的には例えば、図示はしないが、文法データベース９３−２には、文法規則としては、図７乃至図９のそれぞれと同様の構成のトライグラム表、バイグラム表、およびユニグラム表が記録されている。

このように、本具体例では、図５に示される「明日の天気を教えてください」という意図情報に対応して、図６の辞書と図７乃至図９の文法規則（トライグラム文法等）が構成される。そして、図６の辞書は辞書データベース９２−１に記録され、図７乃至図９の文法規則（トライグラム文法等）は文法データベース９３−１に記録されている。このような辞書データベース９２−１と文法データベース９３−１とに対して、図５に示される意図情報が保持された意図情報保持部９１−１と、事前スコアが保持された事前スコア保持部９４−１とを組み合わせたモデルが、意図モデル６６−１である。

同様に、本具体例では、図１０に示される「今の時間を教えてください」という意図情報に対応して、図１１の辞書と図示せぬ文法規則（トライグラム文法等）が構成される。そして、図１１の辞書は辞書データベース９２−２に記憶され、図示せぬ文法規則（トライグラム文法等）は文法データベース９３−２に記録されている。このような辞書データベース９２−２と文法データベース９３−２とに対して、図１０に示される意図情報が保持された意図情報保持部９１−２と、事前スコアが保持された事前スコア保持部９４−２とを組み合わせたモデルが、意図モデル６６−２である。

その他についても同様に、例えば「こんにちは」、「ラジオをつけて」、「もう少し前にきて」等様々な意図情報に１つずつ対応して、意図モデル６６−３乃至６６−Ｎのそれぞれも構成される。

したがって、図４のステップＳ３１の処理で意図モデル６６−１が処理対象として決定された場合、ステップ３２の処理では次のような処理が実行される。すなわち、音響モデルデータベース６５、図６の辞書が記録された辞書データベース９２−１、および、図７乃至図９の文法規則が記録された文法データベース９３−１が用いられて、「明日の天気を教えてください」という意図情報に対応する単語系列が決定される。具体的には例えば、ユーザによる発話が「明日の天気を教えて」であった場合には、意図モデル６６−１に対して、「明日の天気教えて」という単語系列が決定される。

一方、ステップＳ３１の処理で意図モデル６６−２が処理対象として決定された場合、ステップ３２の処理では次のような処理が実行される。すなわち、音響モデルデータベース６５、図１１の辞書が記録された辞書データベース９２−２、および、図示せぬ文法規則が記録された文法データベース９３−２が用いられて、「今の時間を教えてください」という意図情報に対応する単語系列が決定される。具体的には例えば、ユーザによる発話が「今の時間を教えて」であった場合には、意図モデル６６−２に対して、「教えての何時教えて」という単語系列が決定される。

このようにして、図４のステップＳ３２の処理で、処理対象の意図モデル６６−ｋについての単語系列が決定されると、処理はステップＳ３３に進む。

ステップＳ３３において、音響スコア算出部８１は、処理対象の意図モデル６６−ｋに対して決定された単語系列に含まれる各単語毎に、それらの特徴量系列の出現確率に基づいて音響スコアを算出する。

ステップＳ３４において、言語スコア算出部８２は、処理対象の意図モデル６６−ｋに対して決定された単語系列に含まれる各単語毎に、単語の連鎖確率に基づいて言語スコアを算出する。

なお、ステップＳ３３およびステップＳ３４の処理において、音響スコアと言語スコアのそれぞれに対して重み係数が付与されたり、処理対象の意図モデル６６−ｋに対して決定された単語系列に特定の単語が挿入される際のペナルティスコアが付与される。これらの重み係数等については後述する。

また、ステップＳ３３およびステップＳ３４の処理において、音響スコアと言語スコアの算出手法については、特に限定されず、例えば、上述の従来の音声認識の処理において広く用いられている手法と同様の手法を採用することができる。

ステップＳ３５において、事前スコア算出部８３は、事前スコア保持部９４−ｋに保持された事前スコアに基づいて、処理対象の意図モデル６６−ｋに対する事前スコアを算出する。

ステップＳ３６において、マルチマッチング部６４は、全ての意図モデル６６−１乃至６６−Ｎのスコアが算出されたかを判定する。

意図モデル６６−１乃至６６−Ｎのうち、処理対象に決定されていないモデルが１つでも存在する場合、ステップＳ３６においてＮＯであると判定されて、処理はステップＳ３１に戻され、それ以降の処理が繰り返される。すなわち、ステップＳ３１において、まだ処理対象に決定されていない意図モデル６６−ｋが新たな処理対象として決定され、ステップＳ３２乃至Ｓ３５の処理で、新たな処理対象に対する単語系列が決定され、その単語系列に対する音響スコアと言語スコアが算出され、また、新たな処理対象に対する事前スコアが算出される。

その後、全ての意図モデル６６−１乃至６６−Ｎがそれぞれ処理対象に決定されて、ステップＳ３１乃至ステップＳ３６のループ処理が繰り返し実行される。これにより、意図モデル６６−１乃至６６−Ｎ毎に、対応する意図情報に応じた単語系列が決定され、その単語系列に対する音響スコアと言語スコアが算出され、また、事前スコアが算出される。これにより、ステップＳ３６においてＹＥＳであると判定されて、マルチマッチング処理は終了する。

ここで、このようなマルチマッチング処理が終了したときに、マルチマッチング部６４から出力される情報について説明する。

図１２と図１３は、マルチマッチング部６４から出力される情報のうちの一部の例を示す図である。

図１２は、マルチマッチング部６４から出力される情報のうち、意図モデル６６−１に対するマルチマッチング処理の実行結果を示す図である。

上述の具体例では、ユーザによる発話が「明日の天気を教えて」であった場合には、マルチマッチング処理の図４のステップＳ３１の処理で意図モデル６６−１が処理対象に決定され、ステップＳ３２の処理で、意図モデル６６−１に対して「明日の天気教えて」という単語系列が決定された。

この場合、図１２に示されるように、この単語系列を構成する各単語「明日」、「の」、「天気」、および「教えて」のそれぞれに対して、ステップＳ３３の処理で音響スコアＰ_Ａ１乃至Ｐ_Ａ４のそれぞれが算出されたとする。また、ステップＳ３４の処理で言語スコアＱ_Ａ１乃至Ｑ_Ａ４のそれぞれが算出されたとする。そして、ステップＳ３５の処理で、意図モデル６６−１の意図情報に対して、事前スコアＲ_Ａが算出されたとする。

このようにして、１つの意図モデル６６−１対してマルチマッチング処理が施された場合には、意図モデル６６−１に対するマルチマッチング処理の実行結果として、次の情報がマルチマッチング部６４から出力される。すなわち、図１２に示される単語系列の各単語に対する３つのスコア（音響スコア、言語スコア、および事前スコア）が、実行結果の情報として、図５に示される意図情報と対応付けられて、マルチマッチング部６４から出力される。

図１３は、マルチマッチング部６４から出力される情報のうち、意図モデル６６−２に対するマルチマッチング処理の実行結果を示す図である。

上述の具体例では、ユーザによる発話が「今の時間を教えて」であった場合には、マルチマッチング処理のステップＳ３１の処理で意図モデル６６−２が処理対象に決定され、ステップＳ３２の処理で、意図モデル６６−２に対して「教えての何時教えて」という単語系列が決定された。

この場合、図１３に示されるように、この単語系列を構成する各単語「教えて」、「の」、「何時」、および「教えて」のそれぞれに対して、ステップＳ３３の処理で音響スコアＰ_Ｂ１乃至Ｐ_Ｂ４のそれぞれが算出され、ステップＳ３４の処理で言語スコアＱ_Ｂ１乃至Ｑ_Ｂ４のそれぞれが算出されたとする。また、ステップＳ３５の処理で、意図モデル６６−２の意図情報に対して、事前スコアＲ_Ｂが算出されたとする。

このようにして、１つの意図モデル６６−２対してマルチマッチング処理が施された場合には、意図モデル６６−２に対するマルチマッチング処理の実行結果として、次の情報がマルチマッチング部６４から出力される。すなわち、図１３に示される単語系列の各単語に対する３つのスコア（音響スコア、言語スコア、および事前スコア）が、図１０に示される意図情報と対応付けられて、マルチマッチング部６４から出力される。

図示はしないが、その他の意図モデル６６−３乃至６６―Ｎのそれぞれのマルチマッチング処理の実行結果としても、同様の情報がマルチマッチング部６４からそれぞれ出力される。すなわち、対応する意図情報に応じて決定された単語系列の各単語に対する３つのスコア（音響スコア、言語スコア、および事前スコア）が実行結果の情報として、対応する意図情報と対応付けられて、マルチマッチング部６４からそれぞれ出力される。

図３のフローチャートの説明に戻り、ステップＳ４の以上のマルチマッチング処理の後、ステップＳ５において、意図選択手段としての意図判定部６７は、複数の意図モデル６６−１乃至６６−Ｎ毎の総合スコアを算出する。

例えば、意図モデル６６−１の総合スコアは次のようにして算出される。

意図モデル６６−１の意図情報に応じて決定された単語系列の各単語に対する３つのスコア（音響スコア、言語スコア、および事前スコア）は、図１２に示されるように、音響スコアＰ_Ａ１乃至Ｐ_Ａ４、言語スコアＱ_Ａ１乃至Ｑ_Ａ４、並びに事前スコアＲ_Ａである。

この場合、意図判定部６７は、次の式（１）に従って、意図モデル６６−１の総合スコアＴ１を算出することができる。

また例えば、意図モデル６６−２の総合スコアは次のようにして算出できる。

意図モデル６６−２の意図情報に応じて決定された単語系列の各単語に対する３つのスコア（音響スコア、言語スコア、および事前スコア）は、図１３に示されるように、音響スコアＰ_Ｂ１乃至Ｐ_Ｂ４、言語スコアＱ_Ｂ１乃至Ｑ_Ｂ４、並びに事前スコアＲ_Ｂである。

この場合、意図判定部６７は、次の式（２）に従って、意図モデル６６−２の総合スコアＴ２を算出することができる。

ステップＳ６において、意図判定部６７は、意図モデル６６−１乃至６６−Ｎのうち、最も大きい総合スコアＴｔを有する意図モデル６６−ｔに対応する意図情報を選択する。なお、このとき、意図判定部６７は、意図モデル６６−１乃至６６−Ｎのうち、総合スコアが予め設定されている閾値より大きい上位複数の意図モデル６６に対応する複数の意図情報を選択するようにしてもよい。

ステップＳ７において、意図信頼度算出部６８は、意図判定部６７により選択された意図情報の信頼度を算出する。なお、ステップＳ６において、意図判定部６７により複数の意図情報が選択された場合には、意図信頼度算出部６８は、その選択された複数の意図情報の信頼度を算出する。

このように、選択された意図情報の信頼度が算出されるので、信頼度が低い意図情報を棄却し、信頼度が高い意図情報のみを採用することができる。したがって、より確実に正しい意図を推定することが可能になる。

例えば、音声理解装置４１には、意図モデル６６−１と意図モデル６６−２（Ｎ＝２）の２つのみが構築されているとする。この場合、マルチマッチング部６４の出力情報は、上述の如く、図１２に示される情報と図５に示される意図情報との組と、図１３に示される情報と図１０に示される意図情報との組だけになる。

このような場合、意図信頼度算出部６８は、次の式（３）に従って、意図モデル６６−１の信頼度Ｒ１を算出する。

式（３）におけるパラメータａ，ｂ，ｃのそれぞれは、音響スコア、言語スコア、事前スコアのそれぞれの重みを調整するためのパラメータ、すなわち重み係数を示している。重み係数ａ，ｂ，ｃは、それぞれのスコアの比率を調整するために適切に設定される。例えば本実施の形態では、上述したように、重み係数ａ，ｂ，ｃは、図４のマルチマッチング処理において、音響スコア、言語スコア、事前スコアのそれぞれが算出されるときに付与される。ただし、重み係数ａ，ｂ，ｃは、付与された値で固定ではなく調整可能である。このようなスコアの重みを調整する機能は、例えば本実施の形態では、意図信頼度算出部６８に搭載されているとする。

ステップＳ８において、出力部６９は、意図判定部６７により選択された意図情報と、その意図情報に対応する意図モデル６６の信頼度とを、音声理解結果として出力する。

例えば、意図モデル６６−１と意図モデル６６−２のみが音声理解装置４１に構築されている上述の具体例において、意図モデル６６−１の総合スコアＴ１の方が意図モデル６６−２の総合スコアＴ２よりも高いとする。このことは、意図モデル６６−１の方が、意図モデル６６−２と比較して、入力音声信号に適合していることを意味している。すなわち、ユーザによる発話「明日の天気を教えて」に対して、意図モデル６６−１の「明日の天気を教えてください」という意図情報（図５）の方が、意図モデル６６−２の「今の時間を教えてください」という意図情報（図１０）よりも適合していることを意味している。

したがって、ユーザによる発話が「明日の天気を教えて」である場合、ステップＳ６の処理で、意図判定部６７により、意図モデル６６−１の「明日の天気を教えてください」という意図情報が選択される。そして、ステップＳ７の処理で、意図モデル６６−１の「明日の天気を教えてください」という意図情報とともに、ステップＳ７の処理で式（３）に従って算出された意図モデル６６−１の信頼度とが、音声理解結果として出力される。

なお、以上においては、意図モデル６６−１と意図モデル６６−２の２つのモデルが存在する場合について説明したが、上述の如く、例示にしか過ぎない。意図モデル６６−１乃至６６−Ｎ（Ｎ＝３以上）が存在する場合にも全く同様に音声理解処理が実行される。

また、上述の音声理解処理では、音声理解結果として総合スコアが最も高い意図モデル６６−ｔが選択されることになる。しかしながら、意図モデル６６―ｔのみを選択することは必須ではない。すなわち、例えば、意図モデル６６―１乃至６６−Ｎのうち、総合スコアが高い上位Ｐ個のモデルを、音声理解結果として選択することも可能である。

以上、図３乃至図１３を参照して、音声理解装置４１による音声理解処理の一例について説明した。

このように、音声理解装置４１による音声理解処理では、従来のように入力音声信号から単語系列を単に推定する音声認識だけではなく、入力音声信号から発話の意図を推定する音声理解も利用される。

この音声理解と音声認識とは全く異なる概念の技術である点に注意が必要である。そこで、以下、音声理解と音声認識との違いについて説明する。

音声理解において、入力音声信号から発話の意図を推定するために利用される意図の生起確率は、次式（４）のように、入力音声信号Ｘに対する意図Ｓの事後確率として表すことができる。

一方、音声認識において、入力音声信号から単語系列を推定するために利用される単語系列の生起確率は、次式（５）のように表すことができる。

式（４）と式（５）において、変数Ｘは入力音声信号を示している。変数Ｓは意図を示している。変数ｗ_ｉ（ｉ＝１，…，Ｑ）は単語を示している。ただし、Ｑは、単語系列に含まれる単語の個数を示している。

音声理解は、式（４）に示される生起確率を最大化する意図Ｓを決定するものとして定式化される。これに対して、音声認識は、式（５）に示される生起確率を最大化する単語系列（ｗ_１，ｗ_２,…,ｗ_Ｑ）を決定するものとして定式化される。

音声認識における音響スコアは確率Ｐ（Ｘ｜ｗ_１，ｗ_２,…,ｗ_Ｑ）に相当し、言語スコアは確率Ｐ（ｗ_１，ｗ_２,…,ｗ_Ｑ）に相当する。

図２に示される音声理解装置４１については、式（４）は、次式（６）のように表すことができる。

ここで、ｗ_ｓｉ（ｉ＝１，…，Ｑ）は、意図Ｓに対して決定された単語を示す。すなわち、意図Ｓに対して決定された単語から構成される単語系列ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱに基づいて、音響スコアが算出される。このようにして算出された音響スコアが確率Ｐ（Ｘ｜ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱ）に相当する。また、単語系列（ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱ）に基づいて言語スコアが算出される。このようにして算出された言語スコアが確率Ｐ(ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱ｜Ｓ)に相当する。さらに、意図Ｓに対して与えられる生起確率（事前確率）Ｐ（Ｓ）が、事前スコアに相当する。

式（５）と式（６）を比較すれば容易に分かることであるが、式（５）を最大化する単語系列（ｗ_１，ｗ_２,…,ｗ_Ｑ）を決定する音声認識では、意図Ｓは何ら考慮されていない。これに対して、式（６）を最大化する意図Ｓを決定する音声理解では、単語系列（ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱ）は意図Ｓに応じて決定される。したがって、式（５）を最大化する単語系列を求める過程で決定される音声認識結果としてのＮベストの単語系列と、音声理解で求められる意図毎に構成される単語系列とは、本質的に異なるものとなる。すなわち、音声理解の過程で算出される音響スコアＰ（Ｘ｜ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱ）と言語スコアＰ(ｗ_ｓ１，ｗ_ｓ２,…,ｗ_ｓＱ｜Ｓ)は、音声認識過程で算出される音響スコアＰ（Ｘ｜ｗ_１，ｗ_２,…,ｗ_Ｑ）と言語スコアＰ（ｗ_１，ｗ_２,…,ｗ_Ｑ）とは本質的に異なる。さらに、事前スコアＰ（Ｓ）が総合スコアを算出する過程で反映される点も、音声認識と音声理解では異なる。

なお、音声理解装置４１においては、信頼度は、次式（７）のように表すことができる。

式（７）におけるパラメータａ，ｂ，ｃは、それぞれ音声理解において算出される意図モデル６６−１乃至６６−Ｎ毎の音響スコア、言語スコア、事前スコアの重みを調整するパラメータ、即ち重み係数を示している。式（７）において、信頼度は、入力音声信号Ｘに対する意図Ｓの事後確率として算出され、意図が考慮されることがわかる。なお、式（７）を、意図モデル６６−１の信頼度Ｒ１を算出するための式に変形したものが、上述した式（３）である。すなわち、式（３）を一般化した式が、式（７）であるといえる。

＜２．第２実施形態＞
以上の第１実施形態では、各意図モデル６６−１乃至６６−Ｎが保持する事前スコアは、対応する意図の生起確率(事前確率)に基づいて設定され、常に固定値とされていた。これに対して、第２実施形態では、事前スコアは、コンテキストに応じて調整される。コンテキストとは、ユーザの発話が入力される状態をいう。

なお、第２実施形態の音声理解装置４１の構成自体は、図２に示される第１実施形態と同様であるとする。

[コンテキストの状態遷移]
例えば、ユーザが、音声理解装置４１に対して天気についての問い合わせができる場合に、最初のコンテキストで、ユーザが「天気を教えて」と発話するか、「明日」と発話するかの生起確率が同程度であるとする。そして、ユーザが、音声理解装置４１に対して「天気を教えて」と発話し、ユーザの発話に対して、音声理解装置４１がユーザに日時を入力するように応答したとする。そのコンテキスト（この応答に対する次のユーザの発話が入力される状態）では、ユーザが「天気を教えて」と再び発話する生起確率は低くなる一方で、ユーザが例えば「明日」と発話する生起確率は高くなることが予想される。このように、ユーザの発話の履歴や、それらの発話に対する音声理解装置４１の応答などに応じて、次のコンテキスト（次にユーザが発話して音声理解装置４１に入力される状態）が変化する。

コンテキストは、例えば、図１４に示されるように、状態遷移モデルを用いて表現することができる。

図１４は、コンテキストの状態遷移の一例を示す状態遷移図である。

図１４においては、状態Ｋ１乃至Ｋ４は、対応する符号が記述された楕円により示されており、状態Ｋ１乃至Ｋ４のうちの第１の状態から第２の状態への状態遷移は、第１の状態から第２の状態へ引かれた矢印により示されている。すなわち、図１４の状態遷移モデルにおいては、状態Ｋ１乃至Ｋ４が、所定のコンテキストを示している。したがって、以下、状態Ｋ１乃至Ｋ４を、コンテキストＫ１乃至Ｋ４と称する。また、コンテキストＫ１乃至Ｋ４のうちの１のコンテキストから別の１のコンテキストへの状態遷移が発生する条件（以下、状態遷移条件と称する）は、ユーザの発話である。したがって、コンテキストの初期状態はコンテキストＫ１であるので、初期状態のコンテキストＫ１において、ユーザの発話がなされると、コンテキストＫ２またはコンテキストＫ３へと遷移する。

より具体的には例えば、音声理解装置４１においては、次の３つの意図モデル６６−Ａ乃至６６−Ｃが構築されているとする。なお、意図モデル６６−Ａ乃至６６−Ｃの符号Ａ乃至Ｃは、１乃至Ｎのうちの何れかの値であって、相異なる値を示している。意図モデル６６−Ａは、「明日の天気を教えてください」という意図情報Ａに対応する意図モデルである。意図モデル６６−Ｂは、「リセットしてください」という意図情報Ｂに対応する意図モデルである。意図モデル６６−Ｃは、「今の時間を教えてください」という意図情報Ｃに対応する意図モデルである。

また、意図情報Ａ乃至Ｃにそれぞれ対応する事前スコアＡ乃至Ｃは、図１４に示されるようにコンテキストＫ１乃至Ｋ４のそれぞれに応じて調整されるとする。

ここで、初期状態のコンテキストＫ１からコンテキストＫ２への状態遷移条件は、意図情報Ｃ「今の時間を教えてください」に対応する発話であるとする。また、初期状態のコンテキストＫ１からコンテキストＫ３への状態遷移条件は、意図情報Ａ「明日の天気を教えてください」に対応する発話であるとする。

コンテキストＫ２からコンテキストＫ４への状態遷移条件は、意図情報Ａ「明日の天気を教えてください」に対応する発話であるとする。また、コンテキストＫ３からコンテキストＫ４への状態遷移条件は、意図情報Ｃ「今の時間を教えてください」に対応する発話であるとする。なお、ユーザが、音声理解装置４１に対して意図情報Ｂ「リセットしてください」に対応する発話をした場合、図示はしないが、常にコンテキストＫ１に遷移するものとする。

初期状態のコンテキストＫ１においては、３つの意図情報Ａ，Ｂ，Ｃに対応する事前スコアは、それぞれ0.3，0.4，0.3と、同程度に調整される。なお、意図情報Ｂに対応する事前スコアだけ0.4と高い値である理由は、本実施の形態では３つの意図情報Ａ，Ｂ，Ｃに対応する事前スコアの総計が1.0になるように正規化されており、1.0は３（＝意図情報Ａ乃至Ｃの数）で割りきることができないからである。したがって、意図情報ＡまたはＣの事前スコアを0.4にしても構わない。

コンテキストＫ１において、ユーザが意図情報Ｃ「今の時間を教えてください」に対応する発話をした場合、音声理解装置４１は、その発話を入力すると状態遷移条件が満たされたとして、コンテキストＫ１からコンテキストＫ２に遷移させる。その結果、音声理解装置４１の事前スコア算出部８３（図２）は、意図情報Ａ，Ｂ，Ｃに対応する事前スコアを、それぞれ0.7，0.3，0.0に調整する。

すなわち、音声理解装置４１が意図情報Ｃに応答して現在時刻の情報をユーザに提示した場合、ユーザが再び意図情報Ｃ「今の時間を教えてください」と発話する可能性が低くなる。このため、コンテキストＫ２においては、意図情報Ｃに対応する事前スコアが0.0と低くなるように調整される。一方で、ユーザが再び意図情報Ａ「明日の天気を教えてください」と発話する可能性が高くなる。このため、コンテキストＫ２においては、意図情報Ａに対応する事前スコアが0.7と高くなるように調整される。また、コンテキストＫ２においては、意図情報Ｂに対応する事前スコアが0.3（＝1.0−0.7−0.0）に調整される。

同様に、コンテキストＫ１において、ユーザが意図情報Ａ「明日の天気を教えてください」に対応する発話をした場合、音声理解装置４１は、その発話を入力すると状態遷移条件が満たされたとして、コンテキストＫ１からコンテキストＫ３に遷移させる。その結果、音声理解装置４１の事前スコア算出部８３（図２）は、意図情報Ａ，Ｂ，Ｃに対応する事前スコアを、それぞれ0.0，0.4，0.6に調整する。

すなわち、音声理解装置４１が意図情報Ａに応答して明日の天気情報をユーザに提示した場合、ユーザが再び意図情報Ａ「明日の天気を教えてください」と発話する可能性が低くなる。このため、コンテキストＫ３においては、意図情報Ａに対応する事前スコアが0.0と低くなるように調整される。一方で、ユーザが再び意図情報Ｃ「今の時間を教えてください」と発話する可能性が高くなる。このため、コンテキストＫ３においては、意図情報Ｃに対応する事前スコアが0.6と高くなるように調整される。また、コンテキストＫ３においては、意図情報Ｂに対応する事前スコアが0.4（＝1.0−0.6−0.0）に調整される。

次に、コンテキストＫ２において、ユーザが意図情報Ａ「明日の天気を教えてください」に対応する発話をした場合、音声理解装置４１は、その発話を入力すると状態遷移条件が満たされたとして、コンテキストＫ２からコンテキストＫ４に遷移させる。その結果、音声理解装置４１の事前スコア算出部８３（図２）は、意図情報Ａ，Ｂ，Ｃに対応する事前スコアを、それぞれ0.1，0.8，0.1に調整する。

すなわち、コンテキストＫ４においては、ユーザは既に明日の天気情報や現在時刻の情報を知っていることから、ユーザが再び意図情報Ａ「明日の天気を教えてください」、または意図情報Ｃ「今の時間を教えてください」と発話する可能性が低くなる。このため、コンテキストＫ４においては、意図情報Ａと意図情報Ｃに対応する事前スコアがともに0.1と低くなるように調整される。また、コンテキストＫ４においては、意図情報Ｂに対応する事前スコアが0.8（＝1.0−0.1−0.1）に調整される。

以上説明したように、第２実施形態では、コンテキストに応じて、それぞれの意図情報に対応する事前スコアが調整される。その結果、図３の音声理解処理のステップＳ６とステップＳ７の処理精度、すなわち意図判定部６７による意図情報の選択と意図信頼度算出部６８による信頼度の算出の処理精度が向上する。

＜３．第３実施形態＞
以上の第１実施形態と第２実施形態では、入力音声信号に含まれる無音声部分の信号については何ら考慮されていなかった。しかしながら、図２の意図信頼度算出部６８が算出する意図モデル６６の信頼度の有効性は、入力音声信号に含まれる無音声部分の信号によって影響を受ける。そこで、第３実施形態では、入力音声信号に含まれる無音声部分の信号を除去した上で、有音声部分の信号についての意図モデル６６−ｋの信頼度が算出される。

なお、第３実施形態の音声理解装置４１の構成自体は、図２に示される第１実施形態と同様であるとする。

[入力音声信号に含まれる無音声部分の除去]
図１５は、入力音声信号に含まれる無音声部分について説明する図である。

例えば、図１５Ａに示されるように、入力音声信号Ｘが時刻ｔ１からｔ７までの区間で与えられているとする。入力音声信号Ｘには、発話の前後に無音声部分の信号が含まれる。具体的には例えば図１５Ａにおいては、時刻ｔ１から時刻ｔ２までの区間と、時刻ｔ６から時刻ｔ７までの区間に、無音声部分の信号がそれぞれ含まれている。

このような場合、第３実施形態では、意図信頼度算出部６８は、図１５Ｂに示されるように、無音声部分の信号を取り除いた時刻ｔ２から時刻ｔ６までの区間の入力音声信号Ｘ'を処理対象として、信頼度を算出する。その結果、第１実施形態と比較して、信頼度の有効性は向上する。無音声部分の信号には、発話の意図を推定するための音響的な情報と言語的な情報が含まれていないからである。

入力音声信号から無音声部分の信号を除去する処理は、例えば特徴抽出部６３またはマルチマッチング部６４により実行される。

例えば、特徴抽出部６３は、無音声部分の信号を除去する処理として、入力音声信号のパワーに基づいて、閾値以上のパワーの部分を音声部分として認識し、それ以外の部分を無音声部分として認識し、認識した無音声部分の信号を除去することができる。

一方、マルチマッチング部６４は、無音声部分の信号を除去する処理として、例えば次のような処理を実行する。

図１６は、マルチマッチング部６４による無音声部分の信号を除去する処理の一例を説明する図であって、各単語についての開始時刻および終了時刻を示す図である。

図１６は、「単語」、「開始時刻」および「終了時刻」という項目から構成されている。

なお、「開始時刻」と「終了時刻」に示される時刻ｔ１乃至ｔ７は、図１５Ａに示される時刻ｔ１乃至ｔ７と同一である。すなわち、図１６の例では、図１５Ａの入力音声信号Ｘが入力された場合に、マルチマッチング部６４により所定の１の意図モデル６６−ｋに対してマルチマッチング処理が実行されることが前提となる。このような前提の下、意図モデル６６−ｋに対するマルチマッチングの処理の結果として得られる単語系列を構成する各単語と、それらの各単語の開始時刻と終了時刻とが、図１６に示されている。

より具体的には例えば、マルチマッチング部６４により「silence 明日の天気教えて silence」という単語系列が決定されたとして、この単語系列を構成する各単語が、「単語」の項目の各行にそれぞれ記述されている。ここで、単語「silence」は、無音声部分の特徴量系列とのマッチングに利用される確率モデルに相当する単語を示している。

「開始時刻」の項目には、同一行の「単語」の項目に記述された単語の開始時刻が記述される。「終了時刻」の項目には、同一行の「単語」の項目に記述された単語の終了時刻が記述される。なお、各単語の開始時刻と終了時刻の決定手法は、特に限定されないが、例えば本実施の形態では、マルチマッチング処理中にViterbiサーチを用いて開始時刻と終了時刻を決定する手法が採用されている。

具体的には例えば１行目においては、「単語」の項目には単語「silence」が記述されており、「開始時刻」の項目には時刻ｔ１が記述され、「終了時刻」の項目には時刻ｔ２が記述されている。これにより、単語系列の最初に登場する単語「silence」は、入力音声信号である図１５Ａの入力音声信号Ｘのうち、時刻ｔ１から時刻ｔ２までの信号に適合した単語であることがわかる。

同様に例えば、２行目においては、「単語」の項目には単語「明日」が記述されており、「開始時刻」の項目には時刻ｔ２が記述され、「終了時刻」の項目には時刻ｔ３が記述されている。これにより、単語系列の２番目に登場する単語「明日」は、入力音声信号である図１５Ａの入力音声信号Ｘのうち、時刻ｔ２から時刻ｔ３までの信号に適合した単語であることがわかる。

また例えば、６行目においては、「単語」の項目には単語「silence」が記述されており、「開始時刻」の項目には時刻ｔ６が記述され、「終了時刻」の項目には時刻ｔ７が記述されている。これにより、単語系列の最後に登場する単語「silence」は、入力音声信号である図１５Ａの入力音声信号Ｘのうち、時刻ｔ６から時刻ｔ７までの信号に適合した単語であることがわかる。

その他の行についても同様に、「単語」の項目には、マルチマッチング部６４により決定された「silence 明日の天気教えて silence」という単語系列のうち、所定の単語が記述されている。そして、「開始時刻」の項目には、所定の単語の開始時刻が記述され、「終了時刻」の項目には、所定の単語の終了時刻が記述される。

この場合、マルチマッチング部６４は、入力音声信号である図１５Ａの入力音声信号Ｘのうち、単語系列の最初に登場する単語「silence」の開始時刻ｔ１から終了時刻ｔ２までの信号を、無音声部分の信号として除去する。同様に、マルチマッチング部６４は、入力音声信号である図１５Ａの入力音声信号Ｘのうち、単語系列の最後に登場する単語「silence」の開始時刻ｔ６から終了時刻ｔ７までの信号を、無音声部分の信号として除去する。

＜４．第４実施形態＞
以上の第１実施形態乃至第３実施形態では、入力音声信号が特定の意味を示さない場合にも、選択された意図情報に高い信頼度が付与される可能性がある。しかしながら、入力音声信号が特定の意味を示さない場合には、選択された意図情報に高い信頼度が付与されていたとしても、その意図情報を音声理解結果としてそのまま採用することは不適切である。そこで、第４実施形態では、音声理解結果の有効性を高めるために、入力音声信号が特定の意味を示さない場合にはその入力音声信号に対応する発話は無意味発話であると判定され、その判定結果が音声理解結果に付加される。

なお、第４実施形態の音声理解装置４１の構成自体は、図２に示される第１実施形態と同様であるとする。

第４実施形態では、意図モデル６６−１乃至６６−Ｎの中の特定の１つの意図モデル６６−ｒ（ｒは、１乃至Ｎのうちの任意の整数値）として、特定の意図を示さない汎用的な意図情報に対応するモデルが構築される。すなわち、意図モデル６６−ｒの意図情報保持部９１−ｒには、特定の意図を示さない汎用的な意図情報（換言すれば、意図モデル６６−ｋ（ｋ＝１,２,…Ｎ、ｋ≠ｒ）以外の意図情報）が保持される。

この場合、意図モデル６６−ｒの辞書データベース９２−ｒに記録される辞書と、文法データベース９３−ｒに記録される文法規則とは、図５や図１０に示されるような特定の発話の意図情報に対応する例文に基づいて生成されていない。辞書データベース９２−ｒに記録される辞書と、文法データベース９３−ｒに記録される文法規則とは、無作為かつ大規模に集められた発話の意図情報に対応する例文に基づいて生成されている。すなわち、ユーザの任意の発話を音声理解処理の処理対象とすることができるように、辞書データベース９２−ｒには、大語彙から構成される辞書が記録されており、文法データベース９３−ｒには、汎用的なトライグラム文法が記録されている。

例えば、入力音声信号が、意図モデル６６−ｒを除いた意図モデル６６−１乃至６６−Ｎの各々に対応する意図情報の何れにも関係が無かったとする。

この場合、意図モデル６６−ｒを除いた意図モデル６６−１乃至６６−Ｎの各々に対して算出される音響スコアと言語スコアは、それぞれ低い値になる。これに対して、意図モデル６６−ｒに対して算出される音響スコアと言語スコアはそれぞれ高い値になる。

したがって、意図判定部６７は、意図モデル６６−ｒに対応する意図情報を、ユーザの発話に対応する意図情報として選択する。

意図判定部６７は、このようにして意図モデル６６−ｒに対応する意図情報を選択した場合には、ユーザの発話は無意味発話であると判定し、選択した意図情報に対して無意味発話であるという判定結果を付加して出力する。なお、このような第４実施形態の意図判定部６７による一連の処理を、以下、無意味発話判定処理と称する。無意味発話判定処理の詳細については、図１７のフローチャートを参照して後述する。

一方、この場合の意図モデル６６−ｒに対する信頼度は、他の場合と全く同様に式（３）に従って算出される。なぜならば、意図モデル６６−ｒの辞書が大語彙から構成されており、意図モデル６６−ｒの文法規則が汎用的なトライグラム文法であることは、式（３）に基づく信頼度の演算に対しては何ら影響を及ぼさないからである。すなわち、意図信頼度算出部６８は、意図モデル６６−ｒについても、マルチマッチング部６４から提供される音響スコア、言語スコア、および事前スコアを他の場合と同様に用いることで、信頼度を算出する。

最終的には、意図判定部６７により選択された意図情報と、その意図情報に対応する意図モデル６６の信頼度とに加えて、意図判定部６７による無意味発話であるという判定結果とが、音声理解結果として出力部６９から出力される。

なお、意図モデル６６−ｒを除いた意図モデル６６−１乃至６６−Ｎのうちの何れかに対応する意図情報が選択された場合には、他の実施形態と同様に、意図判定部６７により選択された意図情報と、その意図情報に対応する意図モデル６６の信頼度とが、音声理解結果として出力部６９から出力される。

[無意味発話判定処理]
図１７は、第４実施形態の意図判定部６７による無意味発話判定処理の一例を説明するフローチャートである。

無意味発話判定処理は、図３のステップＳ４のマルチマッチング処理の後に、ステップＳ５とステップＳ６の処理の代わりに実行される。すなわち、第４実施形態の音声理解処理でも、他の実施形態と全く同様に図３のステップＳ１乃至４の処理が実行された後に、次のようなステップＳ６１乃至Ｓ６４の処理が実行される。

ステップＳ６１において、意図判定部６７は、複数の意図モデル６６−１乃至６６−Ｎ毎に、マルチマッチング部６４から提供された音響スコア、言語スコア、および事前スコアを総合して総合スコアを算出する。

ステップＳ６２において、意図判定部６７は、意図モデル６６−１乃至６６−Ｎのうち、最も大きい総合スコアＴｔを有する意図モデル６６−ｔ（ｔは１乃至Ｎの何れかの整数値）に対応する意図情報を選択する。なお、このとき、意図判定部６７は、意図モデル６６−１乃至６６−Ｎのうち、総合スコアが予め設定されている閾値より大きい上位複数の意図モデル６６に対応する複数の意図情報を選択するようにしてもよい。

ステップＳ６３において、意図判定部６７は、選択された意図情報が無意味発話であるかを判定する。すなわち、意図判定部６７は、意図モデル６６−ｒを除く意図モデル６６−１乃至６６−Ｎのうちの何れかに対応する意図情報を選択した場合には、ユーザの発話は無意味発話でないと判定する。これに対して、意図判定部６７は、意図モデル６６−ｒに対応する意図情報を選択した場合には、ユーザの発話は無意味発話であると判定する。

ステップＳ６４において、意図判定部６７は、ユーザの発話が無意味発話であるか否かの判定結果を、選択した意図情報に付加して出力する。

これにより、意図判定部６７による無意味発話判定処理は終了する。その後、図３のステップＳ７以降の処理が実行される。

すなわち、ステップＳ７の処理で、意図判定部６７により選択された意図情報の信頼度が算出され、ステップＳ８の処理で、音声理解結果が出力される。

具体的には例えば、意図モデル６６−ｒ以外の意図モデル６６−ｋに対応する意図情報が選択された場合、他の実施形態と同様に、選択された意図情報と、その意図情報に対応する意図モデル６６−ｋの信頼度とが、音声理解結果として出力部６９から出力される。

これに対して例えば、意図モデル６６−ｒに対応する意図情報が選択された場合、選択された意図情報と、その意図情報に対応する意図モデル６６−ｋの信頼度とに加えてさらに、無意味発話であるという判定結果が、音声理解結果として出力部６９から出力される。

音声理解装置４１または図示せぬ他の装置は、その後の処理として、無意味発話であるという判定結果が音声理解結果に含まれている場合には、信頼度に関係なくその音声理解結果を棄却することが可能となる。一方、音声理解装置４１または図示せぬ他の装置は、無意味発話であるという判定結果が音声理解結果に含まれていない場合には、信頼度に基づいて、その音声理解結果を受理するか棄却するかを判断することが可能となる。なお、これらの音声理解結果の適用例については、図１９と図２０を参照して後述する。

[実験結果]
図１８は、第１実施形態、第３実施形態、および第４実施形態の実験結果を示す図である。

本発明者等は、男女合わせて５名が８６発話ずつ発した入力音声信号を利用して、第１実施形態、第３実施形態、および第４実施形態の各音声理解装置４１に音声理解結果を出力させる実験を行った。

この場合、処理対象の入力音声信号（以下、評価データと称する）の数は合わせて４３０個となり、音声区間ごとに音声理解結果が出力された。また、各実施形態の音声理解装置４１には、１４種類の意図モデル６６−１乃至６６−１４が構築されていた。各意図モデル６６−１乃至６６−１４に含まれる辞書の語彙数はそれぞれ異なっていたが、すべて合わせると約３５０００語であった。各意図モデル６６−１乃至６６−１４に含まれる文法規則としては、トライグラム文法が採用された。音響分析にはMFCC(Mel Frequency Cepstrum Coefficients)が採用され、音響モデルとしては隠れマルコフモデルが採用された。評価データは、用意された意図モデル６６−１乃至６６−１４のうちの何れかに対応する有意味発話と、何れにも対応しない無意味発話とが含まれ、具体的には、８６発話中６５発話は有意味発話であり、残りの２１発話は無意味発話であった。

各実施形態の音声理解装置４１が、評価データ中に含まれる有意味発話に対応する意図情報を正しく選択できた場合が正解とされ、正しく選択できなかった場合が不正解とされた。また、各実施形態の音声理解装置４１は、入力音声信号に対して付与した信頼度が、所定の閾値よりも大きい場合は、選択した意図情報を受理した。一方、各実施形態の音声理解装置４１は、所定の閾値よりも信頼度が小さい場合は、選択した意図情報を棄却した。

ここで、有意味発話に対して、意図判定部６７が正しく意図情報を選択できたにも関わらず、付与された信頼度が所定の閾値よりも小さいために、誤って意図情報が棄却されたことを、以下、False rejectionエラーと称する。また、無意味発話に対して付与された信頼度が所定の閾値よりも大きいために、誤って意図情報が受理されたことを、以下、False acceptanceエラーと称する。

図１８において、縦軸はFalse rejectionエラーの割合（%）を示し、横軸はFalse acceptance エラーの割合（%）を示している。曲線Ｌ１乃至曲線Ｌ３は、信頼度判定の閾値を変化させた場合のFalse rejection エラーと、False acceptance エラーの割合を示している。

例えば、閾値を非常に小さく設定し、すべての意図情報の推定結果を受理した場合、False rejectionエラーは0%となり、False acceptance エラーは100%となる。これに対して、閾値を非常に大きく設定し、すべての意図情報の推定結果を棄却した場合、False rejectionエラーは 100% となり、False acceptance エラーは 0% となる。このように、False rejection エラーと、False acceptance エラーは、トレードオフの関係であることがわかる。したがって、以下、図１８に示される曲線Ｌ１乃至Ｌ３を、判定誤りトレードオフ曲線Ｌ１乃至Ｌ３と称する。

判定誤りトレードオフ曲線Ｌ１は、第１実施形態（無音部分の除去も、無意味発話の判定も行わない単純な信頼度判定を行う場合）の音声理解装置４１の実行結果を示している。第１実施形態では、閾値を適切に設定することで、False rejection エラー、および False acceptance エラーの割合はそれぞれ約２０%となった。

判定誤りトレードオフ曲線Ｌ２は、入力音声信号の無音声部分の除去を行った上で信頼度の算出を行った第３実施形態の音声理解装置４１の実行結果を示している。所定の閾値を適切に設定することで、False rejection エラー、および False acceptance エラーの割合をそれぞれ約１２%にまで抑えることができた。判定誤りトレードオフ曲線Ｌ２より、入力音声信号の無音声部分を除去した上で信頼度を算出することにより、本発明の信頼度の有効性を第１実施形態に較べて向上させることができることが分かる。

判定誤りトレードオフ曲線Ｌ３は、無意味発話の判定結果を音声理解結果に付加した第４実施形態の音声理解装置４１の実行結果を示している。所定の閾値を適切に設定することで、False rejection エラー、および False acceptance エラーの割合をそれぞれ約７%にまで抑えることができた。判定誤りトレードオフ曲線Ｌ３より、無意味発話の判定結果を音声理解結果に付加することにより、本発明の音声理解結果の有効性を第３実施形態に較べてさらに高めることができることが分かる。

なお、以上の第１乃至第４実施形態は、その２以上を組み合わせることで、それぞれの相乗効果を実現することができる。

＜５．第５実施形態＞
[情報提示装置の構成例]
図１９は、本発明が適用される音声処理装置としての情報提示装置の一実施の形態の構成を示すブロック図である。

図１９の情報提示装置１０１は、音声理解部１２１、対話管理部１２２、情報格納部１２３、および提示部１２４から構成されている。

音声理解部１２１は、図２の音声理解装置４１（上述した第１乃至第４実施形態）と同様の機能と構成を有している。その説明は繰り返しになるので省略する。

ユーザが発した音声は入力音声信号として、音声理解部１２１によって、上述の音声理解処理（図３）が施される。その結果、音声理解結果が音声理解部１２１から出力される。

対話管理部１２２は、音声理解部１２１による音声理解結果に含まれる意図情報に付与された信頼度に応じて、次のような処理を実行する。すなわち、対話管理部１２２は、音声理解結果に含まれる信頼度が非常に高い場合には、音声理解結果に含まれる意図情報に対応する情報を情報格納部１２３から取得する。これに対して、音声理解結果に含まれる信頼度が非常に低い場合には、対話管理部１２２は、音声理解結果を棄却する。具体的には、意図情報に対応する情報は取得されない。また、対話管理部１２２は、音声理解結果に含まれる信頼度がある範囲内である場合には、ユーザに対して音声理解結果の確認をする。

情報格納部１２３には、音声理解部１２１に格納されている複数の意図モデル６６−１乃至６６−Ｎの各々に対応する意図情報毎に、対応付けられた各種情報が格納されている。具体的には例えば、天気に関する意図情報に対応付けられた天気情報や、時間に関する意図情報に対応付けられた時刻情報等が、情報格納部１２３に格納されている。

提示部１２４は、対話管理部１２２が取得した情報そのものまたは、その情報に基づく各種情報を、ディスプレイやスピーカ等により、ユーザに提示する。あるいは、モータ、その他のアクチュエータによりコマンドに対応する動作が実行される。また、提示部１２４は、対話管理部１２２によってユーザに対する音声理解結果の確認がされる場合にも、確認内容をユーザに提示する。さらに、提示部１２４は、どのような音声が入力可能であるかをユーザに提示することができる。

なお、情報格納部１２３に格納される情報は、所定の意図情報に対応付けられる情報であれば足りる。また、提示部１２４の出力の形態は、ディスプレイによる画像出力やスピーカによる音声出力に限定されず、任意でよい。

例えば、情報提示装置１０１がロボットの少なくとも一部の構成要素として適用される場合、提示部１２４の出力形態としては、ロボットの各種動作を採用することができる。また、「立って」、「起きて」、「立ち上がって」等の発話に対して「立ってください」という意図情報が対応付けられている場合、その意図情報に対して、立ち上がる動作を指示するコマンドを対応付けることができる。このように、各種意図情報に対して、その意図情報に対応する動作を指示する各種コマンドを対応付けることができる。

このような場合、各種コマンドは情報格納部１２３に格納される。そして、対話管理部１２２は、非常に高い信頼度を含む音声理解結果が提供された場合、音声理解結果に含まれる意図情報に対応したコマンドを情報格納部１２３から取得する。提示部１２４は、対話管理部１２２が取得したコマンドを解釈して、そのコマンドで指示された動作をロボットがするように、ロボットを駆動制御する。

これに対して、音声理解結果に含まれる信頼度が非常に低い場合には、対話管理部１２２は、音声理解結果を棄却する。したがって、ロボットは、信頼度が非常に低い意図情報に対応した動作をしない（反応しない）。すなわち、ロボットは、ユーザにとっては意図していない誤動作と認識されるような動作はしない。

また、対話管理部１２２は、音声理解結果に含まれる信頼度がある範囲内である場合には、提示部１２４を介して、ユーザに対して音声理解結果の確認をする。すなわち、例えば、ロボットが、音声理解結果に含まれる意図情報で良いのか否かを確認するような発話をユーザに対して行う。

このように、音声理解結果には、入力音声から推定される発話の意図（意図情報）に対して信頼度が付与されているので、入力音声信号から推定される発話の意図を利用した制御、例えばロボットの動作の制御の信頼性をより一段と高めることができる。

なお、このような情報提示装置１０１による一連の処理を、以下、情報提示処理と称する。

[情報提示処理]
図２０は、情報提示装置１０１による情報提示処理の一例を説明するフローチャートである。

ここで、具体例として、音声理解部１２１では、次の３つの意図モデル６６−Ａ乃至６６−Ｃが構築されているとする。意図モデル６６−Ａは、「明日の天気を教えてください」という意図情報Ａに対応する意図モデルである。意図モデル６６−Ｂは、「リセットしてください」という意図情報Ｂに対応する意図モデルである。意図モデル６６−Ｃは、「今の時間を教えてください」という意図情報Ｃに対応する意図モデルである。情報提示装置１０１は、これらの３つの意図情報に基づく音声理解結果に基づいて、情報提示処理を実行するものとする。

ステップＳ９１において、音声理解部１２１は、入力音声信号に対して、上述した音声理解処理を施して、音声理解結果を出力する。

例えば、ユーザが、「えーと、明日の天気教えて」と発話したとすると、ユーザが発した音声は入力音声信号として、音声理解部１２１によって音声理解処理が施される。そして、音声理解結果として、意図モデル６６−Ａの「明日の天気を教えてください」という意図情報Ａとともに、意図モデル６６−Ａの信頼度が、音声理解部１２１から出力される。

ステップＳ９２において、管理手段としての対話管理部１２２は、音声理解部１２１から出力された音声理解結果に含まれる意図情報の信頼度は第１の閾値以上であるかを判定する。第１の閾値は、適宜調整が可能な閾値である。

ステップＳ９２において、意図情報の信頼度が第１の閾値以上であると判定された場合、ステップＳ９３において、対話管理部１２２は、音声理解結果に含まれる意図情報に対応する情報を情報格納部１２３から取得する。

例えば、対話管理部１２２は、音声理解結果に含まれる意図モデル６６−Ａの「明日の天気を教えてください」という意図情報Ａに対応する情報、すなわち天気情報を情報格納部１２３から取得する。

ステップＳ９４において、提示部１２４は、対話管理部１２２が取得した情報をユーザに提示する。

すなわちこの場合、提示部１２４は、天気情報をユーザに提示する。これにより、情報提示処理は終了する。

このように音声理解結果に含まれる意図情報の信頼度が第１の閾値以上である場合には、その意図情報に対応する情報がユーザに提示される。

これに対して、音声理解結果に含まれる意図情報の信頼度が第１の閾値未満である場合には、ステップＳ９５において、対話管理部１２２は、音声理解部１２１による音声理解結果に含まれる意図情報の信頼度は第２の閾値以下であるかを判定する。ここで、第２の閾値は、適宜調整が可能な閾値であるが、第１の閾値よりも低い閾値である。

音声理解結果に含まれる意図情報の信頼度が第２の閾値以下である場合、ステップＳ９９において、対話管理部１２２は、音声理解結果を棄却する。その後、処理はステップＳ９１に戻され、それ以降の処理が繰り返される。すなわち、音声理解結果が棄却された場合とは、その音声理解結果に含まれていた意図情報は、信頼度が非常に低いのでユーザの意図を示さないと判定された場合を意味する。したがって、このような場合には、その意図情報に対応する情報は提示されずに再び音声理解処理が実行される。これにより、より確実に正しい意図のみを推定することができる。

なお、ステップＳ９９の処理において、対話管理部１２２は、音声理解結果を棄却したことを提示部１２４を介してユーザに提示してもよい。また、音声理解部１２１が再び音声理解処理を実行するために、対話管理部１２２は、ステップＳ９９において、ユーザに対してもう一度音声を入力することを求める情報を提示部１２４を介して提示してもよい。

例えば、ユーザが、「えーと、明日のニュース教えてくれる」と発話した場合に、音声理解結果として、意図モデル６６−Ａの「明日の天気を教えてください」という意図情報Ａが誤って選択されたとする。しかしながら、意図モデル６６−Ａの信頼度が非常に低く付与されていれば、信頼度に基づいてその音声理解結果は棄却される。すなわち、情報提示装置１０１は、信頼度が非常に低い意図情報に対応した情報、この場合天気情報の提示をしない。

このように音声理解結果に含まれる意図情報の信頼度が第２の閾値以下である場合には、その音声理解結果は棄却される。

これに対して、音声理解結果に含まれる意図情報の信頼度が第２の閾値よりも大きい場合、すなわち信頼度が第１の閾値と第２の閾値の間の値である場合、ステップＳ９６において、対話管理部１２２は、ユーザに対して意図情報を確認することを求める情報を提示部１２４を介して提示する。

例えば、ユーザが、「えーと、明日のニュース教えてくれる」と発話した場合に、音声理解結果として、意図モデル６６−Ａの「明日の天気を教えてください」という意図情報Ａが選択されたとする。しかしながら、意図モデル６６−Ａの信頼度が第２の閾値よりも大きく、第１の閾値未満である場合には、対話管理部１２２は、信頼度に基づいて次のような情報を提示部１２４を介してユーザに提示する。すなわち、対話管理部１２２は、「明日の天気についてお聞きになりましたか？」という意図情報Ａを確認することを求める情報を提示部１２４を介して提示する。

このようにして意図情報の確認を求められたユーザは、その意図情報が正しいか否かの応答を対話管理部１２２に入力する。そこで、ステップＳ９７において、対話管理部１２２は、ユーザの応答を取得する。

ステップＳ９８において対話管理部１２２は、ユーザの応答に基づいて、音声理解結果に含まれる意図情報で正しいかを判定する。

ステップＳ９８において、音声理解結果に含まれる意図情報が正しくないと判定された場合、処理はステップＳ９１に戻され、それ以降の処理が繰り返される。なお、音声理解部１２１が再び音声理解処理を実行するために、対話管理部１２２は、ステップＳ９８において、ユーザに対してもう一度音声を入力することを求める情報を提示部１２４を介して提示してもよい。

これに対して、ステップＳ９８において、意図情報が正しいと判定された場合、処理はステップＳ９３に戻されて、それ以降の処理が実行される。すなわち、対話管理部１２２は、音声理解結果に対応する情報を取得して、提示部１２４を介してユーザに提示する。

このように、音声理解結果に含まれる意図情報の信頼度が、第２の閾値よりも大きく、第１の閾値未満である場合には、ユーザに意図情報の確認が求められる。これにより、ユーザの意図しない情報を提示することを回避することができ、正しい意図だけをユーザに提示することができる。

本発明は、音声による地名等の問い合わせに対して、対応する地図情報等を表示するデータベース検索装置、音声の命令語に対して荷物の仕分け等を行う産業用ロボット、音声の指令によって動作するコンピュータ上のアプリケーションソフト、ユーザとの会話を行うロボット対話システム等に適用することができる。

[本発明のプログラムへの適用]
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることができる。

この場合、上述した情報処理装置の少なくとも一部として、例えば、図２１に示されるパーソナルコンピュータを採用してもよい。

図２１において、CPU（Central Processing Unit）２０１は、ROM（Read Only Memory）２０２に記録されているプログラムに従って各種の処理を実行する。または記憶部２０８からRAM（Random Access Memory）２０３にロードされたプログラムに従って各種の処理を実行する。RAM２０３にはまた、CPU２０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU２０１、ROM２０２、およびRAM２０３は、バス２０４を介して相互に接続されている。このバス２０４にはまた、入出力インタフェース２０５も接続されている。

入出力インタフェース２０５には、キーボード、マウスなどよりなる入力部２０６、ディスプレイなどよりなる出力部２０７が接続されている。また、ハードディスクなどより構成される記憶部２０８、および、モデム、ターミナルアダプタなどより構成される通信部２０９が接続されている。通信部２０９は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。

入出力インタフェース２０５にはまた、必要に応じてドライブ２１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア２１１が適宜装着される。そして、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部２０８にインストールされる。

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

このようなプログラムを含む記録媒体は、図２１に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フロッピディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア（パッケージメディア）２１１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM２０２や、記憶部２０８に含まれるハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

４１音声理解装置，６１入力部，６２ＡＤ変換部，６３特徴抽出部，６４マルチマッチング部，６５音響モデルデータベース，６６意図モデル，６７意図判定部，６８意図信頼度算出部，６９出力部，８１音響スコア算出部，８２言語スコア算出部，８３事前スコア算出部，９１意図情報保持部，９２辞書データベース，９３文法データベース，９４事前スコア保持部，１０１情報提示装置，１２１音声理解部，１２２対話管理部，１２３情報格納部，１２４提示部

Claims

複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出手段と、
前記スコア算出手段により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択手段と、
前記意図選択手段により選択された前記意図情報に対して、前記スコア算出手段により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出手段と
を備える音声処理装置。
前記スコア算出手段は、
前記複数の意図情報毎に、前記音声信号の前記意図情報に対する音響的な適合度を示す前記スコアとしての音響スコアを算出する音響スコア算出手段と、
前記複数の意図情報毎に、前記音声信号の前記意図情報に対する言語的な適合度を示す前記スコアとしての言語スコアを算出する言語スコア算出手段と、
前記複数の意図情報毎に、それぞれの生起確率に基づいて事前に決定される前記スコアとしての事前スコアを算出する事前スコア算出手段と
を有する請求項１に記載の音声処理装置。
前記事前スコア算出手段は、前記音声信号が入力されたときのコンテキストに応じて、前記複数の意図情報毎に前記事前スコアを調整する
請求項２に記載の音声処理装置。
前記スコア算出手段は、前記音声信号のうちの有音声部分の前記スコアを算出する
請求項３に記載の音声処理装置。
前記スコア算出手段は、前記複数の意図情報の中の、特定の意図を示さない前記意図情報の前記スコアも算出し、
前記意図選択手段は、前記特定の意図を示さない前記意図情報を選択した場合、前記音声信号に対応する前記ユーザの発話は、特定の意図を示さない無意味発話であると判定する
請求項３に記載の音声処理装置。
前記スコア算出手段は、前記音響スコア、前記言語スコア、および前記事前スコアに対して、重みをそれぞれ付与し、
前記意図信頼度算出手段は、前記重みをそれぞれ調整し、調整後の前記重みがそれぞれ付与された前記スコアに基づいて、前記信頼度を算出する
請求項３に記載の音声処理装置。
前記意図選択手段により選択された前記意図情報に基づく出力を管理する管理手段を
さらに備える請求項３に記載の音声処理装置。
複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出ステップと、
前記スコア算出ステップの処理により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択ステップと、
前記意図選択ステップの処理により選択された前記意図情報に対して、前記スコア算出ステップの処理により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出ステップと
を含む音声処理方法。
複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出し、
算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択し、
前記意図選択ステップの処理により選択された前記意図情報に対して、算出された前記スコアに基づいて信頼度を算出する
ステップを含む制御処理をコンピュータに実行させるプログラム。