JP4659541B2 - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP4659541B2
JP4659541B2 JP2005202302A JP2005202302A JP4659541B2 JP 4659541 B2 JP4659541 B2 JP 4659541B2 JP 2005202302 A JP2005202302 A JP 2005202302A JP 2005202302 A JP2005202302 A JP 2005202302A JP 4659541 B2 JP4659541 B2 JP 4659541B2
Authority
JP
Japan
Prior art keywords
word
hypothesis
correct
feature
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005202302A
Other languages
English (en)
Other versions
JP2007017911A (ja
Inventor
彰夫 小林
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2005202302A priority Critical patent/JP4659541B2/ja
Publication of JP2007017911A publication Critical patent/JP2007017911A/ja
Application granted granted Critical
Publication of JP4659541B2 publication Critical patent/JP4659541B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置及び音声認識プログラムに係り、特に音声認識精度を向上させるための音声認識装置及び音声認識プログラムに関する。
従来、音声認識精度を向上させるための手法として、単語ネットワークと呼ばれる各単語間での連結可能性(正解候補)を示した単語ネットワーク上で、各単語仮説に対する音響スコア、言語スコアをそれぞれ求め、文仮説全体で音響スコア、言語スコアの総和(あるいは積)が最大となる仮説を音声認識結果とする手法が用いられている。
更に、音声認識の精度を向上させるために、複数の文仮説から単語認識率を推定し、単語認識率が最大となる文仮説を選択する手法がある(例えば、非特許文献1参照。)。
A.Stolcke,Y.Konig,and M.Weintraub,"Explicit Word Error Minimization in N−best list Rescoring",Eurospeech,Rhodes,Greece,pp.163−166,1997.
しかしながら、上述したように文仮説全体で音響スコア、言語スコアの総和(あるいは積)が最大となる仮説を音声認識結果とする手法の場合、総和(あるいは積)が最大となる仮説が必ずしも文仮説の単語認識率も最大となる結果にならない可能性がある。
また、上述した非特許文献に示されているように、複数の文仮説から単語認識率を推定し、単語認識率が最大となる文仮説を選択する手法では、全ての文仮説中の単語を総当たりで比較しなければならず、単語認識率の計算に膨大な時間がかかってしまう。
本発明は、上述した問題点に鑑みなされたものであり、音声認識精度を向上させるための音声認識装置及び音声認識プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段と、前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段とを有することを特徴とする。
請求項1記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。更に、全体として違和感がなく、高精度に入力音声に対応した正解単語列を取得することができる。
請求項2に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段と、前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段とを有することを特徴とする。
請求項2記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。更に、効率的で高精度に入力音声に対応した正解単語列を取得することができる。これにより、正解単語をなるべく多く含むような文章を抽出することができるため、例えば認識結果の単語を用いてメタデータの作成等への適用が可能となる。
請求項3に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、コンピュータを、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段、及び、前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段として機能させる
請求項3記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。また、全体として違和感がなく、高精度に入力音声に対応した正解単語列を取得することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に制作された番組の管理を実現することができる。
請求項4に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、コンピュータを、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段、及び、前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段として機能させる
請求項4記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。また、効率的で高精度に入力音声に対応した正解単語列を取得することができる。これにより、正解単語をなるべく多く含むような文章を抽出することができるため、例えば認識結果の単語を用いてメタデータの作成等への適用が可能となる。更に、実行プログラムをコンピュータにインストールすることにより、容易に制作された番組の管理を実現することができる。
本発明によれば、音声認識精度を向上させることができる。
以下に、上述したような特徴を有する本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<実施形態>
図1は、本発明における音声認識装置の機能構成の一例を示す図である。図1の音声認識装置10は、音声認識手段11と、特徴量計算手段12と、認識率推定手段13と、音響モデル14と、言語モデル15と、信頼度モデル16とを有するよう構成されている。
音声認識手段11は、人により発声された音声等を入力音声として入力し、音声の波形と単語の発音とから得られるもっともらしさを示す情報が蓄積された音響モデル14、及び単語同士の繋がりやすさを示す情報が蓄積された言語モデル15を参照して単語ネットワークを生成する。また、音声認識手段11は、生成した単語ネットワークを特徴量計算手段12に出力する。
特徴量計算手段12は、単語ネットワークの各単語仮説に対する予め設定される複数の特徴量を音響モデル14、言語モデル15を参照して計算する。また、特徴量計算手段12は、入力された単語ネットワークそのものからも特徴量を計算する。特徴量計算手段12は、計算された特徴量を含む特徴量付き単語ネットワークを認識率推定手段13に出力する。
認識率推定手段13は、信頼度モデル16を基づいて、単語認識率が最大となる最適な正解単語列を生成し、生成した単語列を音声認識結果として出力する。なお、認識率推定手段13は、単語認識率が高い正解単語列から順に複数の単語列を出力してもよい。次に、上述した各構成部の詳細について説明する。
<音声認識手段11>
音声認識手段11は、人により発声された音声等を入力音声(Z)として入力する。また、音声認識手段11は、単語仮説、及び音響モデル14の音響スコア、言語モデル15の言語スコアにより得られる単語仮説同士で繋がれた部分を辺とし、単語の終端時刻を頂点とする単語ネットワークを生成する。また、音声認識手段11は、生成した単語ネットワークを特徴量計算手段12に出力する。
<特徴量計算手段12>
特徴量計算手段12は、必要に応じて言語モデル15の次数(n―gramの履歴となる単語の数)に応じてネットワークを拡張する。具体的には、特徴量計算手段12は、入力した単語ネットワークの各辺上の単語仮説に対して予め設定される特徴量を求める。
なお、特徴量としては、例えば(a)音響スコア,(b)言語スコア,(c)単語事後確率,(d)音響安定度(acoustic stabilities),(e)単語仮説密度,(f)アクティブなHMM(Hidden Markov Model:隠れマルコフモデル)の数,(g)音素の平均フレーム数,(h)バックオフ(Back−off)ケース等がある。
ここで、「(a)音響スコア」は、予め音響モデル14に蓄積されているモデルを参照することにより対応する特徴量を求めることができ、「(b)言語スコア」は、予め言語モデル15を参照することにより対応する特徴量を求めることができる。
また、「(c)単語事後確率」は、単語ネットワークの各辺(スコア)がどのぐらいの確率で使用されているかを示すものである。また、「(d)音響安定度」は、単語ネットワークにおいて使用される経路(ルート)の頻度を示すものであり、「(e)単語仮説密度」は、単語ネットワーク上のある時刻において使用される単語の頻度を示すものである。
なお、上述の「(c)単語事後確率」は、例えば「F.Wessel et al.,“Confidence measure for large vocabulary continuous speech recognition”,IEEE Trans. Speech and Audio Processing,Vol.9,PP.288−298,Marth 2001.」に示されている手法をしたがって求めることができる。
また、「(d)音響安定度」は、例えば「T.Zeppenfeld,M.Finke,and K.Ries,“Recognition of conversational telephone speech using the janus speech engine”,IEEE int.Conf.Acoustics,Speech and Signal Precessing,PP.1815−1818,1997.」に示されている手法にしたがって求めることができる。更に、「(e)単語仮説密度」は、例えば「T.Kemp and T.Shaaf,“Estimating Confidence Using word lattices”,Eurospeech,Rhodes,Greece,PP.827−830,1997.」に示されている手法にしたがって求めることができる。
また、「(f)アクティブなHMMの数」は、音声認識で単語の探索をする際に同時に探索されているHMMの数を示すものである。これにより、例えばある単語の探索においてHMMの数が多いほど、その単語が正解である可能性が低い等の判定を行うことができる。また、「(h)バックオフ(Back−off)ケース」は、例えばある単語仮説間の繋がりやすさが求められていないような場合に、単語ネットワークを生成したときの音響スコアと言語スコアとによりスコアの高い順に文の候補を並べ、所定数の文仮説を用いて設定される特徴量である。
特徴量計算手段12は、上述した幾つかの特徴量のうち少なくとも1つの特徴量を含む特徴量付き単語ネットワークを認識率推定手段13に出力する。
<認識率推定手段13>
認識率推定手段13は、特徴量計算手段12により得られる特徴量付き単語ネットワークを入力し、入力した特徴量付き単語ネットワークに対して音声認識結果として最適単語の系列を生成し、生成した単語列を出力する。
ここで、認識率推定手段13の具体的な構成例について、図を用いて説明する。図2は、本発明における認識率推定手段の機能構成の一例を示す図である。図2に示す認識率推定手段13は、文仮説生成手段21と、信頼度計算手段22と、単語認識率推定手段23と、認識結果抽出手段24とを有するよう構成されている。
まず、認識率推定手段13は、上述したように特徴量計算手段12から得られた特徴量付きネットワークを文仮説生成部21に入力する。文仮説生成部21は、音響スコアと言語スコアの和により、以下に示す(1)式としてリスコアリング(スコア再計算)を行い、スコアの高い順にN(N≧1)個の文仮説(n−best文仮説)を生成する。
Figure 0004659541

ここで、上述した(1)において、wは文仮説を示し、wは、文仮説を構成する単語仮説(i=0,1,・・・)を示している。また、ac(w)は単語仮説wの音響モデル14における当該単語仮説のスコアを示し、lm(w)は言語モデル15における当該単語仮説のスコアを示している。更に、gwは言語モデル15のスコアに対する重みを示している。また、文仮説生成部21は、生成した文仮説とその特徴量を信頼度計算手段22に出力する。
信頼度計算手段22は、入力したN個の文仮説の特徴量と、予め蓄積された信頼度モデル16とに基づいて各文仮説の単語ネットワークにおける信頼度を計算する。
ここで、信頼度モデル16は、例えば最大エントロピー法により求めることができる。また、信頼度モデル16は、上述した(a)〜(h)の特徴量を統合したモデルである。また、信頼度モデル16は、単語仮説wに対して与えられた特徴量ベクトルxから単語仮説が正解・不正解となるラベルyを求めるモデルであり、信頼度は確率モデルP(y|x)として与えられる。
<信頼度モデル>
ここで、最大エントロピー法による信頼度モデルの生成手法の一例について説明する。最大エントロピー法による信頼度モデルは、以下に示す(2)式により与えられる。
Figure 0004659541

ここで、上述した(2)式において、xは仮説の事後確率等の信頼度尺度(特徴量及びその時系列)を示しy(y∈{−1,1})は、単語仮説の正解又は不正解の正誤ラベルを示している。また、f(x,y)は、観測した値のペア(x,y)に関して特定の条件で“0”又は“1”を返す素性関数と呼ばれる二値関数を示し、λは素性関数に対する重みを示している。
また、PME(y|x)は、信頼度モデルで着目している単語仮説が正解(又は不正解)となる確率を示している。また、上述のλは、例えばGIS(Generalized Interative Scaling:一般化反復スケーリング)アルゴリズム等により求めることができる。
信頼度計算手段22は、特徴量付き単語ネットワークから得られる各特徴量を用いて、特徴量の閾値にしたがって単語仮説の正解・不正解を決定するような二値分類器としての役割(構成)を有する。なお、二値分類器は、上述した(2)式の素性関数によって表現される。
ここで、素性関数は二値関数であるため、単純な“binary classifier”とみることもできる。ここで、上述の関数を用いて信頼度(特徴量)を表現する上で重要なことは、“信頼度を素性関数でどのように表すか”と“信頼度の時間的変化(時系列)をどのように表すか”ということである。そこで、信頼度を素性関数で表すため、ある信頼度に対して閾値を設定し、閾値の前後で活性化するような素性関数を定義する。
つまり、特徴量の閾値で単語仮説を正解又は不正解に分類する二値分類器を複数有し、これら複数の二値分類器を特徴量の時系列に関して連結した二値分類器として結合し、全ての二値分類器を統合した信頼度モデルによって単語仮説に対する信頼度スコア及び正誤ラベルを求めて正解単語列を出力する。これにより、時系列に対応させて、単語出力の正誤判定を高精度に行うことができ、音声の認識結果の精度を向上させることができる。
ここで、cを信頼度とし、yを予測する単語仮説の正誤(正解又は不正解)ラベルとして、信頼度に対する閾値cthresh1に対して、例えば(2)式の素性関数を以下に示す(3)式のように定義する。
Figure 0004659541

また、上述した(3)式に示したfは二値関数であり、特徴量を表現するには不十分である。そこで信頼度の詳細な表現を行うため、同じ信頼度尺度に対して複数の閾値cthresh2,cthresh3,・・・を定め、それぞれの閾値に対して素性関数を定義する。例えば、閾値cthresh2及びcthresh3を用いた場合には、以下に示す(4)式、(5)式のようになる。
Figure 0004659541

また、信頼度の時間的変化は、単語仮説に対して得られた信頼度の系列を素性関数に取り込むことで実現する。特徴量の時間的変化を表現するためには、例えば信頼度ct−1,cに対して、以下に示す(6)式により素性を決定する。
Figure 0004659541

なお、上述した素性関数の定義では、信頼度に対する閾値を決定することが重要である。そこで、信頼度に対する閾値は、次の手順で決定する。まず、任意の二値分類器を用いて閾値を1つ決定する。次に、閾値の上下に一定の間隔で、新たな閾値を設定し、素性を定義して最大エントロピーモデルを学習する。閾値の設定は、モデルによる分類誤り率が下がり始めてから上がらなくなるまで繰り返し行う。次に、窓幅(信頼度尺度の系列の個数)を変更して素性を再決定する。
上述の処理を全ての信頼度尺度に対して行い、最後に最大エントロピー法による統合を行う。また、上述したように閾値と素性とを定義し、最大エントロピー法で統合することにより信頼度モデルを得ることができる。
信頼度計算手段22は、上述により得られる信頼度モデルを用いて得られた信頼度を単語認識率推定手段23に出力する。
次に、単語認識率推定手段23は、まず信頼度計算手段22により得られる信頼度からN個の文仮説中の単語仮説が正解となる確率を以下に示す(7)式により求める。
Figure 0004659541

次に、N個の文仮説の第n番目の文仮説に対して以下に示す(8)式により単語認識率を計算する。
Figure 0004659541

ここで、Zはn入力音声を示し、Acc(w(n)|Z)は入力音声が与えられたときの正解仮説単語の個数を示し、P(w (n)|Z)は単語仮説の事後確率を示している。また、E[・]は、期待値(1単語あたりの正解らしさ)を示している。また、単語認識率推定手段23は、文仮説と計算した単語認識率を認識結果抽出手段24に出力する。
認識結果抽出手段24は、以下に示す(9)式により入力音声(Z)が与えられた場合に、単語認識率が最大となる文仮説wを正解として、音声認識結果を出力する。
Figure 0004659541

上述した実施形態により、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。
<他の実施形態>
ここで、上述した実施形態では、文章を主体として音声認識精度を向上させたが、本発明においてはこの限りではなく、例えば文章ではなく単語に着目し、音声から文章中の正解単語をなるべく多く取得する音声認識を行うような場合にも適用可能である。これにより、例えば音声データからメタデータを作成するような場合に本発明を用いることができる。なお、メタデータの作成に用いられる場合には、発声内容に含まれる人名,地名,企業名等の単語がなるべく多く抽出できていることが望ましい。つまり、単語認識率よりも正解単語が文章中に含まれる割合(単語正解率)の方が重要となる。
そこで、単語正解率を最大にするために、上述した(9)式を以下に示す(10)式とし、更に(11)式により正解単語列を求める。
Figure 0004659541
Figure 0004659541

なお、上述した(8)式と(10)式との違いは、(10)式では“1/|w(n)|”による除算がなく、E[Corr(・)]が、正解単語の数を推定する関数となっていることである。このような手法により、上述した実施形態と同様に音声認識精度を向上させることができる。また、正解単語をなるべく多く含むような単語列(文章)を抽出することができる。
ここで、上述した音声認識装置は、上述した専用の構成を用いて本発明における音声認識を行うこともできるが、各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション、サーバ等にプログラムをインストールすることにより、本発明における音声認識を実現することができる。
<ハードウェア構成>
ここで、本発明における音声認識が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図3は、本発明における音声認識が実現可能なハードウェア構成の一例を示す図である。
図3におけるコンピュータ本体には、入力装置31と、出力装置32と、ドライブ装置33と、補助記憶装置34と、メモリ装置35と、各種制御を行うCPU(Central Processing Unit)36と、ネットワーク接続装置37とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置31は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置32は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU36が有する制御プログラムにより本発明における音声認識プログラムの実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体38等により提供される。プログラムを記録した記録媒体38は、ドライブ装置33にセット可能であり、記録媒体38に含まれる実行プログラムが、記録媒体38からドライブ装置33を介して補助記憶装置34にインストールされる。
補助記憶装置34は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
CPU36は、OS(Operating System)等の制御プログラム、及びメモリ装置35により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、音声認識における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置34から取得することができ、また格納することもできる。
ネットワーク接続装置37は、LAN(Local Area Network)やWAN(Wide Area Network)等に代表される通信ネットワークと接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで音声認識を実現することができる。また、プログラムをインストールすることにより、容易に音声認識を実現することができる。次に、実行プログラムにおける処理手順についてフローチャートを用いて説明する。
<音声認識処理>
図4は、本発明における音声認識処理手順を示す一例のフローチャートである。まず、人により発声された音声等を入力音声として入力し(S01)、入力した音声データの認識を行い、単語ネットワークを生成する(S02)。また、S02にて得られる単語ネットワークに基づいて、音響モデルや言語モデルを参照し、予め設定される少なくとも1つの特徴量を計算し(S03)、S03の処理により得られた特徴量を含む特徴量付き単語ネットワークを生成する(S04)。
次に、S04の処理により得られた特徴量付き単語ネットワークについて、音響スコアと言語スコアの和によってスコアの再計算が行われ(S05)、スコアの高い順にN(N≧1)個の文仮説(n-best文仮説)を生成する(S06)。
次に、S06の処理により得られたn-best文仮説と、予め蓄積された信頼度モデルとに基づいて、その文仮説(単語仮説の系列)の信頼度を計算し(S07)、計算した信頼度から文仮説の単語認識率を推定して(S08)、単語認識率が最大となる文仮説を認識結果として出力する(S09)。
上述した音声認識処理により、また、音声認識精度を向上させることができる。また、上述の処理を行う実行プログラムを汎用コンピュータ等にインストールすることにより、容易に音声認識を実現することができる。
<従来と本発明との比較>
ここで、音声認識手法における従来と本発明との比較結果について、図を用いて説明する。図5は、従来手法と本発明に係る音声認識手法とにおける単語認識率の測定結果の一例を示す図である。なお、この例ではテレビニュース等から500の文章を用いて音声認識の比較を行う。また、従来手法として、単語ネットワーク上で音響モデルと単語(trigram)モデルとのスコアの和より出力された音声認識結果と、入力した文章とを比較して、その文章中における単語の認識率の精度と、本発明に係る音声認識により得られる結果と、入力した文章とを比較する。ここで、単語認識率は、以下に示す(12)式により計算される。
Figure 0004659541

なお、上述した(12)式は、実際の文章中の単語と一致した単語の総数(#Matched Words)から挿入誤りの総数(#Insertions)を引いた値を全体の単語仮説(#Correct Words)で除算し、その割合を求めたものである。なお、挿入誤りとは、文章の構成上単語間に挿入された単語で、実際の入力音声には含まれていない単語である。
ここで、図5(a)は、上述した(7)式に示すような条件に基づいて従来手法として上述の(3)式を用いた場合の単語認識率(%)と、本発明に係る音声認識手法(本手法)として上述の(5)式を用いた場合の単語認識率(%)とを示すものである。図5(a)に示すように単語認識率の精度が+0.3%向上していると判断することができる。
また、本手法は、上述したように文章の認識だけでなく文章中の正解単語をなるべく多く取得したい場合にも適用することができる。このときの単語正解率は、以下に示す(13)式を用いて求めることができる。
Figure 0004659541

ここで、単語正解率と単語認識率との違いは、単語正解率の場合には上述した挿入誤り(Insertions)を考慮しない点である。
また、図5(b)は、上述した(7)式に示すような条件に基づいて従来手法として上述の(3)式を用いた場合の単語正解率(%)と、本手法として上述の(5)式を用いた場合の単語正解率(%)とを示すものである。図5(b)に示すように単語正解率の精度が+0.3%向上していると判断することができる。
上述したように本発明によれば、音声認識精度を向上させることができる。具体的には、本発明は、入力される音声から単語仮説(正解候補)のネットワーク(単語ネットワーク)を生成し、単語ネットワーク上に置かれた各単語仮説の特徴量を少なくとも1つ求める。また、求めた特徴量及びその時系列から信頼度モデルにより各単語仮説の認識率(正解らしさ)を推定し、その中で単語認識率が最大となる単語仮説列を最適な正解単語列として出力する。これにより、音声認識精度を向上させることができる。
また、本発明によれば、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。これにより、従来からある最適な結果を得るためのパラメータ調整が不要となるため、任意の分野の音声認識に適合が可能となる。また、正解単語をなるべく多く含むような文章を抽出することができるため、例えば本発明により出力された音声認識結果の単語を用いてメタデータの作成等への適用が可能となる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における音声認識装置の機能構成の一例を示す図である。 本発明における認識率推定手段の機能構成の一例を示す図である。 本発明における音声認識が実現可能なハードウェア構成の一例を示す図である。 本発明における音声認識処理手順を示す一例のフローチャートである。 従来手法と本発明に係る音声認識手法とにおける単語認識率の測定結果の一例を示す図である。
符号の説明
10 音声認識装置
11 音声認識手段
12 特徴量計算手段
13 認識率推定手段
14 音響モデル
15 言語モデル
16 信頼度モデル
21 文仮説生成手段
22 信頼度計算手段
23 単語認識率推定手段
24 認識結果抽出手段
31 入力装置
32 出力装置
33 ドライブ装置
34 補助記憶装置
35 メモリ装置
36 CPU
37 ネットワーク接続装置
38 記録媒体

Claims (4)

  1. 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、
    前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、
    前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段と、
    前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段とを有することを特徴とする音声認識装置。
  2. 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、
    前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、
    前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段と、
    前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段とを有することを特徴とする音声認識装置。
  3. 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、
    コンピュータを、
    前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、
    前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段、及び、
    前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段として機能させるための音声認識プログラム。
  4. 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、
    コンピュータを、
    前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、
    前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段、及び、
    前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段として機能させるための音声認識プログラム。
JP2005202302A 2005-07-11 2005-07-11 音声認識装置及び音声認識プログラム Expired - Fee Related JP4659541B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005202302A JP4659541B2 (ja) 2005-07-11 2005-07-11 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005202302A JP4659541B2 (ja) 2005-07-11 2005-07-11 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2007017911A JP2007017911A (ja) 2007-01-25
JP4659541B2 true JP4659541B2 (ja) 2011-03-30

Family

ID=37755106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005202302A Expired - Fee Related JP4659541B2 (ja) 2005-07-11 2005-07-11 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4659541B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4939560B2 (ja) * 2009-03-09 2012-05-30 日本電信電話株式会社 音声認識装置とその方法と、プログラム
JP5400727B2 (ja) * 2010-08-24 2014-01-29 日本電信電話株式会社 音声認識装置とその方法とプログラム
JP5679346B2 (ja) * 2012-02-22 2015-03-04 日本電信電話株式会社 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP5740368B2 (ja) * 2012-08-28 2015-06-24 日本電信電話株式会社 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
CN116453507B (zh) * 2023-02-21 2023-09-08 北京数美时代科技有限公司 基于置信度模型的语音识别优化方法、***和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164837A (ja) * 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164837A (ja) * 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ

Also Published As

Publication number Publication date
JP2007017911A (ja) 2007-01-25

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US9672815B2 (en) Method and system for real-time keyword spotting for speech analytics
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US8494847B2 (en) Weighting factor learning system and audio recognition system
JPH11175090A (ja) 話者クラスタリング処理装置及び音声認識装置
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP5660441B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4528076B2 (ja) 音声認識装置及び音声認識プログラム
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP2005091504A (ja) 音声認識装置
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees