JP4769098B2

JP4769098B2 - 音声認識信頼度推定装置、その方法、およびプログラム

Info

Publication number: JP4769098B2
Application number: JP2006059216A
Authority: JP
Inventors: 裕一中澤; 克年大附; 浩和政瀧; 真詞田本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-03-06
Filing date: 2006-03-06
Publication date: 2011-09-07
Anticipated expiration: 2026-03-06
Also published as: JP2007240589A

Description

この発明は入力音声信号に対する音声認識処理により得られる認識結果の信頼度を推定し、出力する音声認識信頼度推定装置、その方法およびプログラムに関するものである。

音声認識では一般に、入力音声信号を分析して得られる音響的特徴量ベクトルの系列と音声をモデル化した音響モデルとの間で尤度を算出し、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約の中において、尤度の最も高い候補を認識結果として出力する。しかし、入力音声信号において、発生の曖昧さや、ノイズや音声信号以外の音響信号が入力されることにより、誤った認識結果を出力する可能性が高くなる。また、入力音声が辞書への未登録語である場合は正しい認識結果を出力することが出来ない。

以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度の高さにより、認識結果を受理、棄却若しくは、結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する問題を回避することが出来る。例えば、ユーザ（利用者）の想定外の動作が誤認識によって引き起こされることを抑制することが出来る。
非特許文献１、非特許文献２では、単語事後確率を用いて信頼度を計算している。この方法では、単語の音響尤度スコア、単語の言語尤度スコア、ｆｏｒｗａｒｄ確率、ｂａｃｋｗａｒｄ確率を用いて、文中の単語に対する信頼度を算出している。

なお非特許文献１では、Ｎ−ｂｅｓｔ候補を用いて、信頼度の計算が行われている。この方法では、音響尤度スコア、言語尤度スコアなどを用いて、認識結果候補をＮ位まで作成し、作成された候補を用いて、信頼度を算出する。この方法では、複数の候補に多く出現している単語は信頼度が高いとしている。
特許文献１では、言語的妥当性に基づいた信頼度を算出している。この方法では、音声認識結果の単語系列の並びの妥当性に対して、識別学習を行い、単語の正誤判定を行っている。

特許文献２では、競合モデルを用いて、信頼度を決定している。この方法では、音声認識結果に用いたモデルと競合モデルとの２種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。
非特許文献３では、複数の音声認識モデルを用いて、信頼度の決定を行っている。この方法では、音声認識モデルを２つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できると判断するものである。
特開２００５−２７５３４８号公報特開平１１−８５１８８号公報ＦｒａｎｋＷａｓｓｅｌ，ＲａｌｆＳｃｈｌｕｔｅｒ，ＫｌａｕｓＭａｃｈｅｒｅｙ，ＨｅｒｍａｎｎＮｅｙ："ＣｏｎｆｉｄｅｎｃｅＭｅａｓｕｒｅｆｏｒＬａｒｇｅＶｏｃａｂｕｌａｒｙＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ "，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓＶｏｌ．９Ｎｏ．３ｐｐ．２８８−２９８，２００１ＴｈｏｍａｓＫｅｍｐ，ＴｈｏｍａｓＳｃｈａａｆ："Ｅｓｔｉｍａｔｉｎｇｃｏｎｆｉｄｅｎｃｅｕｓｉｎｇｗｏｒｄｌａｔｔｉｃｅｓ"，Ｐｒｏｃ．５ｔｈＥｕｒｏｓｐｅｅｃｈ，ｐｐ．８２７−８３０，１９９７宇津呂武仁、西崎博光、小玉康広、中川聖一：「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」、電子情報通信学会論文誌Ｄ−II Ｖｏｌ．Ｊ８６−Ｄ−II Ｎｏ．７ｐｐ．９７４−９８７，２００３

音声認識技術の実用面においては、単語や音節といった短区間の正誤よりも、発話や文単位で高い精度で認識できたか否かの判断が望まれることが多い。しかし、既存の技術では、信頼度を単語や音声単位についてしか算出しないため、実用面における需要を満たすことが困難であった。

この発明によれば、入力されたディジタル音声信号を発話単位に分割し、その分割された発話単位のディジタル音声信号からこの音響特徴パラメータを抽出し、その音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、少なくとも、最も高いスコアを示すモデルが表現するカテゴリを認識し、各発話単位ごとの単語系列中の各単語ごとの上記認識に基づく情報を付与した単語系列を生成し、各発話単位ごとに、その発話単位の単語系列に含まれる全ての単語の各単語単位の上記認識に基づく情報を上記発話単位の発話特徴量ベクトルに変換し、この発話単位の発話特徴量ベクトルと識別モデルを用いて認識率を推定し、その推定した認識率に基いて、当該発話単位の音声認識結果に対する信頼度を求める。

以上の構成によれば、信頼度を算出する際に発話単位の比較的長い区間の単語系列における情報を使用するため、大域的な情報を用いることが出来、対象となる音声により日常で使用する発話や文単位において、高精度な信頼度を出力することができる。

実施例１
図１にこの発明の実施例１を示す。音声認識部６は音響分析部８と認識探索部９により構成される。
入力端子２にディジタル変換されたディジタル音声信号が入力されると、一度、記憶部４に記憶され、この記憶されたディジタル音声信号は、発話分割部５において、発話単位の音声信号に分割される。この分割は例えば、所定値以上継続する無音区間により挟まれた入力音声信号を１発話として、分割する。この分割において、最初の発話音声信号の開始や最後の発話音声信号の終了が、対象入力ディジタル音声信号によって予め分かる場合があり、その様な場合の最初の発話音声信号や最後の発話音声信号は前記所定値以上継続する無音区間に挟まれたものではないが、これらは当然、１発話として、容易に検出分割される。発話単位の例を以下に示す。

（１）「その辺ではかなり収益も上がるんじゃないかなと思います。」
（２）「なるほどね。」
（３）「今、あの韓国に行く買い物ツアーとか、そういうのが非常にはやっているんですが、」
（４）「んー」
このように分割された発話単位ごとの音声信号は、音声認識部６に入力される。音声認識部６では、この入力ディジタル信号に対し、音響モデル格納部１０に格納されている音響モデルと辞書・言語モデル格納部１２に格納されている辞書・言語モデルを用いて、音声認識される。

音声認識部６から、上述の発話単位ごとに、音声認識結果の単語系列５０およびその各単語に音声認識結果に基づく情報を付与して出力する。当該単語の音声認識結果に基づく情報とは、発話単位に含まれる各単語の品詞情報５２（例えば、接続詞、名詞、副詞など）、ＨＭＭ（隠れマルコフモデル）を用いて求められる当該単語の音響尤度スコア５４、単語ｎ−ｇｒａｍを用いて求められる当該単語の言語尤度スコア５５、音響尤度スコア５４と言語尤度スコア５５の和で求められる単語尤度スコア５６、入力音声と認識結果のマッチング状況の時間的対応関係に基づく単語・音素単位の開始時刻、終了時刻から算出される単語継続時間長５８、当該単語の音素数６０、この音素数の平均継続時間長を示す音素継続時間長６２である。具体的な生成、計算方法は以下で示す。なお、発話単位の分割は、認識結果の単語系列に対し、各単語間の無音区間の長さに基づいて行う。あるいは、単語の品詞情報５２を用いて、任意に定めた品詞で区切ってもよい。

情報変換部２０では、音声認識部６で各単語に付与された上述の各単語に付与された音声認識結果に基づく情報から発話単位の情報に変換し、出力する。ここで、発話単位の情報とは例えば、発話特徴量ベクトルなどが考えられる。以下の説明では、発話単位の情報を発話特徴量ベクトルとして説明する。この発話特徴量ベクトルに変換される情報には、上述の単語系列５０の各単語に付与された品詞情報５２、音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２の音声認識部６で生成された全てまたは一部の情報を用いる。

信頼度付与部２２では、情報変換部２０から出力された発話特徴量ベクトル６４と識別モデル格納部２９に格納されている識別モデルを用いて信頼度を求める。求め方の詳細は以下で述べる。
その発話の認識結果の信頼度を出力部２６で出力する。ここで、信頼度のみの出力でもよく、その発話音声認識結果にこの信頼度を付与して、出力してもよい。
図２に、図１中の、認識探索部９の詳細と、これに関連する部分の図を示す。認識探索部９は音響尤度スコア計算部９０、言語尤度スコア計算部９２、単語尤度スコア計算部９６、音素数計数部１００、単語継続時間計算部１０２、音素継続時間計算部１０４、品詞情報付与部１０５、単語情報付与部１０６、により構成されている。

音声認識部６に入力された発話単位のディジタル音声信号はまず、音響分析部８で音響特徴パラメータに変換される。音響特徴パラメータとは、入力音声信号を数十ｍｓｅｃのフレームと呼ばれる単位で分析して得られるＬＰＣケプストラム、ＭＦＣＣその他のパラメータである。
この音響特徴パラメータに対し、音響尤度スコア計算部９０で、音響モデル格納部１０に格納されている音響モデルを参照し、音素系列の複数候補が探索される。これら複数の音素系列候補に対し、辞書・言語モデル格納部１２に格納されている辞書・言語モデルを参照して、言語尤度スコア計算部９２および、単語尤度スコア計算部９６により、単語系列の複数候補が探索される。つまり、入力された音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とする。

この音声認識において、各単語毎に、音響尤度スコア５４、言語尤度スコア５５、これら音響尤度スコア５４と言語尤度スコア５５の和である単語尤度スコア５６、更に単語継続時間計算部１０２からの単語継続時間長５８、音素数計数部１００からの音素数６０、音素継続時間計算部１０４からの音素継続時間長６２、品詞情報付与部１０５からの品詞情報５２がそれぞれ得られる。
各発話単位ごとに、例えば、単語尤度スコア５６の合計値の上位Ｎ位までのＮ―ｂｅｓｔ候補を選出する。これら１発話に対するＮ個の単語系列５０について各単語系列５０の各単語に品詞情報５２、音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２が単語情報付与部１０６で付与されて、音声認識部６から出力される。

音声認識部６で付与された１発話単位を構成し、上述の音声認識に基づく情報が付与された単語をＡ１、Ａ２、．．．、Ａｘとする。この各単語中の任意の単語をＡｍ（ｍ＝１、．．．、ｘ）とし、単語Ａｍの音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２、品詞情報５２を示す値をそれぞれａｍ、ｂｍ、ｃｍ、ｄｍ、ｅｍ、ｆｍ、ｇｍ、とした場合、例えば、図３に示すように情報付単語列記憶部３１内に、各単語Ａｍごとに音声認識に基づく情報が記憶される。

情報変換部２０では、１発話内における単語Ａ１、Ａ２、．．．、Ａｘの音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２、の各統計値、例えば、平均値、分散値、最大値、最小値をそれぞれ求める。まず、単語Ａ１、Ａ２、．．．、Ａｘにおいての音響尤度スコアａ１、ａ２、．．．、ａｘが全て音響尤度スコア平均値部２０１に入力され、これらの平均値Ｐが計算される。音響尤度スコアａ１、ａ２、．．．、ａｘが全て音響尤度スコア分散値部２０２に入力され、これらの分散値Ｑが計算される。音響尤度スコアａ１、ａ２、．．．、ａｘが全て音響尤度スコア最大値部２０３に入力されて、これらの最大値Ｒが求められる。音響尤度スコアａ１、ａ２、．．．、ａｘが全て音響尤度スコア最小値部２０４に入力され、これらの最小値Ｓが求められる。これらの統計値はこれらに限るものでなく、またこれらのうちの一部のみを用いてもよく、また用いなくてもよい。用いない場合については以下で説明する。

以上のように、計算された平均値Ｐ、分散値Ｑ、最大値Ｒ、最小値Ｓがそれぞれ音響尤度スコア平均値正規化部２０５、音響尤度スコア分散値正規化部２０６、音響尤度スコア最大値正規化部２０７、音響尤度スコア最小値正規化部２０８、に入力され、平均値Ｐ、分散値Ｑ、最大値Ｒ、最小値Ｓがそれぞれ、０〜１の値に正規化された値Ｐａ、Ｑａ、Ｒａ、Ｓａが算出される。
また同様に残りの情報、つまり言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２についても、同様の処理により、それぞれの平均値、分散値、最大値、最小値の正規化された値を求める。正規化された平均値、正規化された分散値、正規化された最大値、正規化された最小値として表す場合、つまり、言語尤度スコア５５の統計値Ｐｂ、Ｑｂ、Ｒｂ、Ｓｂ、単語尤度スコア５６の統計値Ｐｃ、Ｑｃ、Ｒｃ、Ｓｃ、単語継続時間長５８の統計値Ｐｄ、Ｑｄ、Ｒｄ、Ｓｄ、音素数６０の統計値Ｐｅ、Ｑｅ、Ｒｅ、Ｓｅ、音素継続時間長６２の統計値Ｐｆ、Ｑｆ、Ｒｆ、Ｓｆを算出する。これら正規化された値を１要素として、すなわち、この場合２４要素で構成される発話特徴量ベクトルを合成部２６０において合成する。なお、この２４要素を全て使用する必要はなく、この中の１以上の要素を使用しても問題はない。そして、用いない統計値を算出する必要もない。

また、次の信頼度付与部２２で、信頼度を付与する際に用いる複数の単語を１つのシンボルで表した単語クラスに図１、図４中のクラス分け部２１により、分類することで、より精度の高い信頼度を得ることが出来る。ここで１つのシンボルで表した単語クラスとは、（例えば一つのシンボルを、「あ」という言葉で始まるか、というものに設定した時に）、例えば「あ」で始まる単語を単語クラスａ、「い」で始まる単語クラスをｂ、「わ」で始まる単語クラスｗに属し、これら以外の言葉で始まる単語を単語クラスｘとする。例えば、発話単位の例として、「私はあなたを愛しています。」で説明すると、単語系列が「私」「は」「あなた」「を」「愛し」「て」「い」「ます」に区切られた場合、「あなた」と「愛し」は単語クラスａに属し、「い」は単語クラスｂに属する。「私」は単語クラスｗに属し、「は」「を」「て」「ます」は単語クラスｘに属する。

このような単語クラスを用い、発話における複数の単語中に、１つでも単語クラスａに属する単語があれば、単語クラスａを「１」とし、なければ、「０」とすることを各単語クラスについて調べる。つまり、単語クラスの数をｎ個とすると、各要素が「０」もしくは「１」であり、要素数がｎ個のベクトルとして、出力する。
一つのシンボルを単語クラスで表した単語クラスのクラスタリングの例として、品詞情報５２を用いることで、効率的に単語クラス分けをすることが出来る。例えば予め４つの品詞、「接続詞」「名詞」「格助詞」「連用詞」について、接続詞クラスａ、名詞クラスｂ、格助詞クラスｃ、連用詞クラスｄという４つの単語クラスを設定する。１発話中における複数の単語中に前記４つの品詞のそれぞれについて１以上含まれていれば「１」を出力し、含まれていなければ、「０」を出力する。例えば、入力された文章音声の発話単位が「しかし今日私は走る」の場合、分割された単語系列が「しかし」、「今日」、「私」、「は」、「走る」、となる。「しかし」は接続詞クラスａ、「今日」と「私」は名詞クラスｂ、「は」は格助詞クラスｃ、連用詞クラスｄには何れの単語も属さず、「走る」はどこのクラスにも属さない。よって、「しかし今日私は走る。」が入力音声である場合、単語クラスベクトルは（１，１，１，０）となる。

なお、上述したように、単語クラスとして、例えば、「あ」で始まる単語のようなクラス分けをする場合は、図２中に破線で示すように、上位Ｎ位の発話のそれぞれについて、その構成単語系列中の各単語がどのような単語クラスに属するかを示す情報ｇ’_ｉを単語クラス列情報生成部１０８で生成記憶し、これを単語情報付与部１０６へ出力する。図３中のクラス判定部（図３では第ｍ品詞クラス判定部２５０ｍ）では、品詞クラスの場合と、同様に、各単語クラスについて発話単語列中に１つ以上その単語クラスに属するものがあれば「１」１つもなければ「０」とする。

図３の説明に戻ると、ｍ個の任意の品詞を設定し、ｍ個それぞれのクラスを第１品詞クラス２４９１、第２品詞クラス２４９２、．．．、第ｍ品詞クラス２４９ｍとする。ただしｍは１以上の整数とする。単語Ａ１、Ａ２、．．．、Ａｘの品詞情報５２の値、ｇ１、ｇ２、．．．、ｇｘを用いて、クラス分け部２１で、どの品詞クラスに属するかを判断し、クラス分けをし、単語Ａ１、Ａ２、．．．、Ａｘはそれぞれ、相当する第１品詞クラス２４９１、第２品詞クラス２４９２、．．．、第ｍ品詞クラス２４９ｍに属される。そして、品詞情報５２については、任意の品詞について、発話単位中に、その品詞が含まれていれば「１」を出力し、含まれていなければ「０」を出力する。つまり、クラス分けをした結果、単語が含まれていれば第ｊクラス（ｊ＝１、．．．、ｍ）に対応する第ｊ品詞クラス判定部２５０ｊから「１」を出力し、単語が含まれていなければ「０」を出力し、これらそれぞれを１要素として、合成部２６０で発話特徴量ベクトルを構成する。

なお、１つのシンボルで表した単語クラスの一例として、品詞情報５２を用い、ｍ個の任意の品詞を設定し、かつ、１発話単位においての各単語の音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２のそれぞれの平均値、分散値、最大値、最小値の全ての要素で構成された発話特徴量ベクトルの具体的構成例を図４に示す。
このような発話特徴量ベクトルのみならず、このベクトル中のいくつかの要素のみで発話特徴量ベクトルとしてもよい。

なお、品詞の種類数ｍを３７種類にすると、精度の高い信頼度を出力させることが出来る。図４に示したように、音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２のそれぞれの発話内での平均値、分散値、最大値、最小値などの統計値、上述の単語クラスから出力された値、全てを用いる場合、６１次元（６×４＋３７の発話特徴量ベクトルが発話単位ごとに発話特徴量ベクトルを合成部２６０から合成出力される。
Ｎ−ｂｅｓｔ候補を音声認識部６で求めた場合は、そのＮ個の候補のそれぞれについて、発話特徴量ベクトルを求める。

図１の説明に戻る。情報変換部２０から発話特徴量ベクトルが信頼度付与部２２に入力され、識別モデル格納部２９に格納されている識別モデルを用いて、前記入力された発話特徴量ベクトルを評価して、信頼度を出力する。このため予め学習音声信号から、上述したように多数の発話特徴量ベクトルを作成し、これら学習用発話特徴量ベクトルについて、そのベクトルが得られた音声認識結果の認識率がｎ％（０≦ｎ≦１００）以上であるか否かを学習して、認識率ｎ％の識別モデルを作成し、識別モデル格納部２９に格納しておく。この識別モデルは通常０≦ｎ≦１００の範囲で、必要とされる密度で作成される。例えば信頼度を１０％間隔で必要とする場合は（ｎ＝０％、１０％、２０％、３０％、．．．、９０％、１００％）以上であるか否かをそれぞれ評価できる１１個の識別モデルを予め作成して、識別モデル格納部２９に格納しておく。

このような、識別モデルを用いて、評価すべき発話単位特徴量ベクトルの信頼度を求めるには、例えば、その発話特徴量ベクトルを、まずｎ＝０％の識別モデルを用いて評価し、認識結果が０％以上であるか否かを判断する。０％以上であると判断されると、上記評価対象発話特徴量ベクトルをｎ＝１０％の識別モデルを用いて評価し、ｎ＝１０％以上であるか否かを判断する。以下、これらの処理を繰り返し、ｎ＝８０％の識別モデルを用いて、評価した時に、認識率がｎ＝８０％以上ではないと判断された場合は、その評価対象発話特徴量ベクトルの基となった発話音声認識結果の認識率は７０％以上８０％以下と判断される。この判断結果を発話特徴量ベクトルの基となった発話音声認識結果に対する信頼度とする。

なお、発話音声認識率が７０％以上であるか否かのみを判断する場合は、ｎ＝７０％の識別モデルを１個作成し、これを識別モデル格納部２９に格納しておけば良い。
上述のようにして、発話特徴量ベクトルを用い、これの基となった発話音声認識結果の認識率の信頼度を推定する。
上述したような、次元数が非常に多い発話量特徴ベクトルを用いると、非常に大量の学習データが必要となり、少量では、過学習の問題が発生することが多い。そこで、識別モデルには、例えば、サポートベクターマシン（ＳＶＭ）による統計的識別モデルを用いることが考えられる。サポートベクターマシンにより、例えば、認識率が７０％の識別モデルを作るには、認識率７０％以上のｚ次元の発話特徴量ベクトルと認識率７０％未満のｚ次元の発話特徴量ベクトルを用いて学習により、複数個のサポートベクターを求め、これらから発話特徴量ベクトルｘを変数とする識別関数ｆ（ｘ）を求め、これを識別モデルとする。

この識別モデルを用いて、実際に求めた入力音声信号から得たｚ次元の発話特徴量ベクトルを評価するには、その発話特徴量ベクトルをｘとして、前記識別関数ｆ（ｘ）に代入し、その演算結果が正であれば、７０％以上の認識率を持つ信頼性があり、負であれば、７０％未満の認識率を持つ信頼性があると判断する。なお、サポートベクターマシンの詳細は、電子情報通信学会誌ｖｏｌ．８３Ｎｏ．６２０００年６月４６０頁−４６６頁等に記載されている。サポートベクターマシンは「マージン最大化」という基準から自動的に、識別面付近の少数の学習サンプルのみを選択して、識別面を構成するため、少数の学習データでも比較的良い識別性能が得られるため本願の発明に利用すれば、認識モデルの作成効率が良い。

なお、１発話につき、Ｎ―ｂｅｓｔ候補のＮ個の単語系列が認識され、これらＮ個の音声認識に基づき、作成された各発話特徴量ベクトルを識別モデルでその音声結果の信頼度を推定し、その最も高いものと対応する発話音声認識結果の単語系列を出力する。あるいは、Ｎ個の単語系列とその信頼度とを組として出力してもよい。
発話特徴量ベクトルとしては、先に述べたように前記各種の統計量のみを用いてもよく、その統計量、平均値、分散値、最大値、最小値、中の１つまたは、複数を用いても良く、更に、音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、についての値のみでもよく、あるいは、単語クラスの系列のみでも良い。
実験結果
以下に、この発明が優れていることを示す実験結果を説明する。

発話単位の単語系列５０の各単語に付与された品詞情報５２、音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２の平均値、分散値、最大値、最小値、を正規化した値、および、品詞の種類数として、３７種類の品詞情報５２を用いた単語クラスを用いて合成した６１次元の発話特徴量ベクトルを使用した。１４本の放送ニュースデータの連続単語認識において、語彙数約３万のｔｒｉｇｒａｍ言語モデル、性別非依存、状態数約５０００、各状態の混合数８の状態共有ｔｒｉｐｈｏｎｅ音響モデルを用いて評価した。用いたデータの概要を図５Ａに示す。１４本のニュースデータの単語数の総数が１００、５４１個、予め計測された単語正解精度８３．５９％とする。

放送ニュースデータについては、全データの１割を評価用データ、残りの９割を学習用データとするクロス評価を行い、使用したデータの単語正解精度に近い８０％を閾値とし、閾値以上と推定された発話を、高精度に認識された発話として、抽出を行った。本発明では、認識率を推定する手段の一つとして、機械学習を用いた。抽出された発話の再現率を式（１）で、適合率を式（２）で求めた。
式（１）再現率＝Ｈ／Ｃ
式（２）適合率＝Ｈ／Ｎ
ただし、Ｃは評価用データに含まれる認識率８０％以上の実際の発話数、Ｎは認識率８０％以上と推定された発話数、Ｈは認識率８０％以上と推定された発話の中で実際に８０％以上だった発話数とする。

また比較のため、従来の方法であるＮ−ｂｅｓｔコンフィデンスメジャーを用いた認識率の推定を行った。これは、ある閾値以上の値が付与された単語を正解とし、そうでない単語を不正解と仮定して、認識率を推定したものであり、再現率、適合率は上式（１）（２）を用いて、算出した。比較評価結果を図５Ｂに示す。Ｎ−ｂｅｓｔコンフィデンスメジャーを用いた場合、再現率が９１．７６％、適合率が７５．６２％であるのに比べ、本願の発明では、再現率が９１．８７％、適合率が８５．６４％であり、再現率、適合率とも、向上していることが分かる。従って、連続単語認識において、発話単位の発話特徴量ベクトルを用いて、選択することが、精度の高い結果に結びつくことが分かる。

本願の発明において、入力音声に対応する文章の作成では、信頼度の低い部分を削除、若しくは、信頼度の高い部分を強調するなどして、より効率的な活用が可能となる。
コンピュータと人間とが音声対話を用いて、コミュニケーションをとる音声対話システムで認識した情報において、信頼度の高い部分に重みをつけて、用いたり、信頼度の低い部分を再度確認したりなど、より効率的な対話を行うことが出来る。音声認識に使用する音響モデルを学習する際に、従来は人手でデータを作成して、学習を行っているが、音声認識を行い、高精度に認識された発話のみを用いて、学習を行うことで、教師なし学習を行うことが出来る。上述の例のように、本願の発明を用いることにより、より効率的な音声認識装置を開発することが出来る。

この発明のシステムの構成例を示すブロック図。音声認識部６の構成例を示すブロック図。情報付単語系列記憶部３１の具体的記憶内容例と情報変換部２０の構成例を示す図。３７（ｍ）種類の品詞情報と、音響尤度スコア５４、言語尤度スコア５５、単語尤度スコア５６、単語継続時間長５８、音素数６０、音素継続時間長６２の各々の平均値、分散値、最大値、最小値の全てを要素として構成された発話特徴量ベクトルを示す図。この発明の効果を示す実験においてのデータを示す表であり、Ａは学習並びに評価に用いたデータであり、Ｂはこの発明とＮ−ｂｅｓｔコンフィデンスメジャーとの比較評価結果を示す表である。

Claims

入力されたディジタル音声信号を発話単位に分割する発話分割部と、
その発話単位のディジタル音声信号から音響特徴パラメータを抽出し、その音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、少なくとも、最も高いスコアを示すモデルが表現するカテゴリを認識し、上記発話単位ごとの単語系列を求め、かつその単語系列中の各単語ごとの上記認識に基づく情報を付与した単語系列を生成する音声認識部と、
上記分割された発話単位ごとに、その発話単位の単語系列に含まれる全ての単語の各単語単位の上記認識に基づく情報を上記発話単位の発話特徴量ベクトルに変換する情報変換部と、
上記発話単位の発話特徴量ベクトルと識別モデルを用いて認識率を推定し、その推定した認識率に基いて、当該発話単位の音声認識結果に対する信頼度を求める信頼度付与部と、
上記信頼度を出力する出力部と、
を備えることを特徴とする音声認識信頼度推定装置。
請求項１記載の音声認識信頼度推定装置において、
上記情報変換部は、複数の単語の群をそれぞれ１つのシンボルで表した異なる単語クラスについて、１発話中の各単語がどの単語クラスに属するかを表す単語クラス情報列を生成して記憶する単語クラス列情報生成部と、
上記単語クラス情報列を基に、上記単語系列中に上記各単語クラスごとにこれに属するものがあるかどうかを判定し、その判定結果を上記発話特徴量ベクトルの少なくとも一部とするクラス判定部と、
を具備することを特徴とする音声認識信頼度推定装置。
請求項２記載の音声認識信頼度推定装置において、
上記シンボルは、上記情報中の各単語ごとの品詞情報を用いることを特徴とする音声認識信頼度推定装置。
請求項１〜３の何れかに記載の音声認識信頼度推定装置において、
上記情報変換部は、上記認識の時に得られた音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長、のうち１つ若しくは複数を用いて、上記発話特徴量ベクトルの少なくとも一部とすることを特徴とする音声認識信頼度推定装置。
請求項１〜４の何れかに記載の音声認識信頼度推定装置において、
上記情報変換部は、
上記認識の時に得られた、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長から算出される、音響尤度スコアの平均値を正規化した値、音響尤度スコアの分散値を正規化した値、音響尤度スコアの最大値を正規化した値、音響尤度スコアの最小値を正規化した値、言語尤度スコアの平均値を正規化した値、言語尤度スコアの分散値を正規化した値、言語尤度スコアの最大値を正規化した値、言語尤度スコアの最小値を正規化した値、単語尤度スコアの平均値を正規化した値、単語尤度スコアの分散値を正規化した値、単語尤度スコアの最大値を正規化した値、単語尤度スコアの最小値を正規化した値、単語継続時間長の平均値を正規化した値、単語継続時間長の分散値を正規化した値、単語継続時間長の最大値を正規化した値、単語継続時間長の最小値を正規化した値、音素数の平均値を正規化した値、音素数の分散値を正規化した値、音素数の最大値を正規化した値、音素数の最小値を正規化した値、音素継続時間長の平均値を正規化した値、音素継続時間長の分散値を正規化した値、音素継続時間長の最大値を正規化した値、音素継続時間長の最小値を正規化した値、の２４要素で構成されるベクトルを上記発話特徴量ベクトルとすることを特徴とする音声認識信頼度推定装置。
請求項１〜５の何れかに記載の音声認識信頼度推定装置において、
更に、認識率がｎ％以上であるか否かを評価できる識別モデルを格納した識別モデル格納部を備え、
上記信頼度付与部は、上記識別モデルを用いて上記発話特徴量ベクトルの認識率がｎ％以上であるか否かを評価した結果を上記音声認識結果に対する信頼度とすることを特徴とする音声認識信頼度推定装置。
請求項１〜５の何れかに記載の音声認識信頼度推定装置において、
更に、認識率がｎ％以上であるか否かを評価できる識別モデルであって、上記ｎの値が異なる複数の識別モデルを格納した識別モデル格納部を備え、
上記信頼度付与部は、上記ｎの値が異なる上記識別モデルそれぞれについて、該識別モデルを用いて上記発話特徴量ベクトルの認識率がｎ％以上であるか否かを評価する処理を行った結果として得られる、上記発話特徴量ベクトルの認識率の範囲を上記音声認識結果に対する信頼度とすることを特徴とする音声認識信頼度推定装置。
請求項１〜７の何れかに記載の音声認信頼度推定装置において、
上記識別モデルとして、サポートべクターマシン（ＳＶＭ）に基づき作成されたものであることを特徴とする音声認識信頼度推定装置。
請求項１〜８の何れかに記載の音声認識信頼度推定装置において、
上記情報変換部は、上記発話単位内に含まれる各単語に付与された上記認識に基づく情報の値を統計情報に変換し、上記発話特徴量ベクトルの少なくとも一部とすることを特徴とする音声認識信頼度推定装置。
入力されたディジタル音声信号を発話単位に分割し、その分割された発話単位のディジタル音声信号から音響特徴パラメータを抽出し、その音響特徴パラメータに対し、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルに出力する確率に基づくスコアを計算し、少なくとも、最も高いスコアを示すモデルが表現するカテゴリを認識し、上記発話単位ごとの単語系列を求め、その単語系列に含まれる各単語単位の上記認識に基づく情報を付与した単語系列を求める音声認識ステップと、
上記分割された発話単位ごとに、その発話単位の単語系列に含まれる全ての単語の各単語単位の上記認識に基づく情報を上記発話単位の発話特徴量ベクトルに変換する情報変換ステップと、
上記発話単位の発話特徴量ベクトルと識別モデルを用いて認識率を推定し、その推定した認識率に基づいて、当該発話単位の音声認識結果に対する信頼度を求める信頼度付与ステップと、
その信頼度を出力するステップと、
を有することを特徴とする音声認識信頼度推定方法。
請求項１０記載の音声認識信頼度推定方法において、
上記情報変換ステップは、予め決めた複数の単語の群をそれぞれ１つのシンボルで表した単語クラスについて、その単語クラスに属するものがあるか否かを表す単語クラス列に変換するステップを含むことを特徴とする音声認識信頼度推定方法。
請求項１１記載の音声認識信頼度推定方法において、
上記単語クラスは単語の品詞であることを特徴とする音声認識信頼度推定方法。
請求項１０〜１２の何れに記載の音声認識信頼度推定方法において、
上記情報変換ステップは、上記認識のときに得られた音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長、のうち１つ若しくは複数を用いて、上記発話特徴量ベクトルの少なくとも一部とすることを特徴とする音声認識信頼度推定方法。
請求項１３記載の音声認識信頼度推定方法において、
上記情報変換ステップは、上記単語に付与された値を発話内の統計情報に変換するステップを含むことを特徴とする音声認識信頼度推定方法。
請求項１０〜１４の何れかに記載の音声認識信頼度推定方法において、
上記情報変換ステップは、
上記認識の時に得られた、音響尤度スコア、言語尤度スコア、単語尤度スコア、単語継続時間長、音素数、音素継続時間長から算出される、音響尤度スコアの平均値を正規化した値、音響尤度スコアの分散値を正規化した値、音響尤度スコアの最大値を正規化した値、音響尤度スコアの最小値を正規化した値、言語尤度スコアの平均値を正規化した値、言語尤度スコアの分散値を正規化した値、言語尤度スコアの最大値を正規化した値、言語尤度スコアの最小値を正規化した値、単語尤度スコアの平均値を正規化した値、単語尤度スコアの分散値を正規化した値、単語尤度スコアの最大値を正規化した値、単語尤度スコアの最小値を正規化した値、単語継続時間長の平均値を正規化した値、単語継続時間長の分散値を正規化した値、単語継続時間長の最大値を正規化した値、単語継続時間長の最小値を正規化した値、音素数の平均値を正規化した値、音素数の分散値を正規化した値、音素数の最大値を正規化した値、音素数の最小値を正規化した値、音素継続時間長の平均値を正規化した値、音素継続時間長の分散値を正規化した値、音素継続時間長の最大値を正規化した値、音素継続時間長の最小値を正規化した値、の２４要素で構成されるベクトルを上記発話特徴量ベクトルとするステップであることを特徴とする音声認識信頼度推定方法。
請求項１０〜１５の何れかに記載の音声認識信頼度推定方法において、
上記信頼度付与ステップは、認識率がｎ％以上であるか否かを評価できる識別モデルを用いて上記発話特徴量ベクトルの認識率がｎ％以上であるか否かを評価した結果を上記音声認識結果に対する信頼度とすることを特徴とする音声認識信頼度推定方法。
請求項１０〜１５の何れかに記載の音声認識信頼度推定方法において、
上記信頼度付与ステップは、認識率がｎ％以上であるか否かを評価できる識別モデルであって、上記ｎの値が異なる複数の識別モデルそれぞれについて、識別モデルを用いて上記発話特徴量ベクトルの認識率がｎ％以上であるか否かを評価する処理を行った結果として得られる、上記発話特徴量ベクトルの認識率の範囲を上記音声認識結果に対する信頼度とする音声認識信頼度推定方法。
請求項１０〜１７の何れかに記載の音声認識信頼度推定方法において、
上記信頼度付与ステップは、サポートベクターマシン（ＳＶＭ）により、予め作成された識別モデルを用いるステップであることを特徴とする音声認識信頼度推定方法。
請求項１０〜１８の何れかに記載した音声認識信頼度推定方法の各ステップをコンピュータに実行させるためのプログラム。