JP4659541B2

JP4659541B2 - 音声認識装置及び音声認識プログラム

Info

Publication number: JP4659541B2
Application number: JP2005202302A
Authority: JP
Inventors: 彰夫小林; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-07-11
Filing date: 2005-07-11
Publication date: 2011-03-30
Anticipated expiration: 2025-07-11
Also published as: JP2007017911A

Description

本発明は、音声認識装置及び音声認識プログラムに係り、特に音声認識精度を向上させるための音声認識装置及び音声認識プログラムに関する。

従来、音声認識精度を向上させるための手法として、単語ネットワークと呼ばれる各単語間での連結可能性（正解候補）を示した単語ネットワーク上で、各単語仮説に対する音響スコア、言語スコアをそれぞれ求め、文仮説全体で音響スコア、言語スコアの総和（あるいは積）が最大となる仮説を音声認識結果とする手法が用いられている。

更に、音声認識の精度を向上させるために、複数の文仮説から単語認識率を推定し、単語認識率が最大となる文仮説を選択する手法がある（例えば、非特許文献１参照。）。
Ａ．Ｓｔｏｌｃｋｅ，Ｙ．Ｋｏｎｉｇ，ａｎｄＭ．Ｗｅｉｎｔｒａｕｂ，"ＥｘｐｌｉｃｉｔＷｏｒｄＥｒｒｏｒＭｉｎｉｍｉｚａｔｉｏｎｉｎＮ−ｂｅｓｔｌｉｓｔＲｅｓｃｏｒｉｎｇ"，Ｅｕｒｏｓｐｅｅｃｈ，Ｒｈｏｄｅｓ，Ｇｒｅｅｃｅ，ｐｐ．１６３−１６６，１９９７．

しかしながら、上述したように文仮説全体で音響スコア、言語スコアの総和（あるいは積）が最大となる仮説を音声認識結果とする手法の場合、総和（あるいは積）が最大となる仮説が必ずしも文仮説の単語認識率も最大となる結果にならない可能性がある。

また、上述した非特許文献に示されているように、複数の文仮説から単語認識率を推定し、単語認識率が最大となる文仮説を選択する手法では、全ての文仮説中の単語を総当たりで比較しなければならず、単語認識率の計算に膨大な時間がかかってしまう。

本発明は、上述した問題点に鑑みなされたものであり、音声認識精度を向上させるための音声認識装置及び音声認識プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段と、前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段とを有することを特徴とする。

請求項１記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも１つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。更に、全体として違和感がなく、高精度に入力音声に対応した正解単語列を取得することができる。

請求項２に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段と、前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段とを有することを特徴とする。

請求項２記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも１つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。更に、効率的で高精度に入力音声に対応した正解単語列を取得することができる。これにより、正解単語をなるべく多く含むような文章を抽出することができるため、例えば認識結果の単語を用いてメタデータの作成等への適用が可能となる。

請求項３に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、コンピュータを、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段、及び、前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段として機能させる。

請求項３記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも１つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。また、全体として違和感がなく、高精度に入力音声に対応した正解単語列を取得することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に制作された番組の管理を実現することができる。

請求項４に記載された発明は、入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、コンピュータを、前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段、及び、前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段として機能させる。

請求項４記載の発明によれば、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも１つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。また、効率的で高精度に入力音声に対応した正解単語列を取得することができる。これにより、正解単語をなるべく多く含むような文章を抽出することができるため、例えば認識結果の単語を用いてメタデータの作成等への適用が可能となる。更に、実行プログラムをコンピュータにインストールすることにより、容易に制作された番組の管理を実現することができる。

本発明によれば、音声認識精度を向上させることができる。

以下に、上述したような特徴を有する本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜実施形態＞
図１は、本発明における音声認識装置の機能構成の一例を示す図である。図１の音声認識装置１０は、音声認識手段１１と、特徴量計算手段１２と、認識率推定手段１３と、音響モデル１４と、言語モデル１５と、信頼度モデル１６とを有するよう構成されている。

音声認識手段１１は、人により発声された音声等を入力音声として入力し、音声の波形と単語の発音とから得られるもっともらしさを示す情報が蓄積された音響モデル１４、及び単語同士の繋がりやすさを示す情報が蓄積された言語モデル１５を参照して単語ネットワークを生成する。また、音声認識手段１１は、生成した単語ネットワークを特徴量計算手段１２に出力する。

特徴量計算手段１２は、単語ネットワークの各単語仮説に対する予め設定される複数の特徴量を音響モデル１４、言語モデル１５を参照して計算する。また、特徴量計算手段１２は、入力された単語ネットワークそのものからも特徴量を計算する。特徴量計算手段１２は、計算された特徴量を含む特徴量付き単語ネットワークを認識率推定手段１３に出力する。

認識率推定手段１３は、信頼度モデル１６を基づいて、単語認識率が最大となる最適な正解単語列を生成し、生成した単語列を音声認識結果として出力する。なお、認識率推定手段１３は、単語認識率が高い正解単語列から順に複数の単語列を出力してもよい。次に、上述した各構成部の詳細について説明する。

＜音声認識手段１１＞
音声認識手段１１は、人により発声された音声等を入力音声（Ｚ）として入力する。また、音声認識手段１１は、単語仮説、及び音響モデル１４の音響スコア、言語モデル１５の言語スコアにより得られる単語仮説同士で繋がれた部分を辺とし、単語の終端時刻を頂点とする単語ネットワークを生成する。また、音声認識手段１１は、生成した単語ネットワークを特徴量計算手段１２に出力する。

＜特徴量計算手段１２＞
特徴量計算手段１２は、必要に応じて言語モデル１５の次数（ｎ―ｇｒａｍの履歴となる単語の数）に応じてネットワークを拡張する。具体的には、特徴量計算手段１２は、入力した単語ネットワークの各辺上の単語仮説に対して予め設定される特徴量を求める。

なお、特徴量としては、例えば（ａ）音響スコア，（ｂ）言語スコア，（ｃ）単語事後確率，（ｄ）音響安定度（ａｃｏｕｓｔｉｃｓｔａｂｉｌｉｔｉｅｓ），（ｅ）単語仮説密度，（ｆ）アクティブなＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）の数，（ｇ）音素の平均フレーム数，（ｈ）バックオフ（Ｂａｃｋ−ｏｆｆ）ケース等がある。

ここで、「（ａ）音響スコア」は、予め音響モデル１４に蓄積されているモデルを参照することにより対応する特徴量を求めることができ、「（ｂ）言語スコア」は、予め言語モデル１５を参照することにより対応する特徴量を求めることができる。

また、「（ｃ）単語事後確率」は、単語ネットワークの各辺（スコア）がどのぐらいの確率で使用されているかを示すものである。また、「（ｄ）音響安定度」は、単語ネットワークにおいて使用される経路（ルート）の頻度を示すものであり、「（ｅ）単語仮説密度」は、単語ネットワーク上のある時刻において使用される単語の頻度を示すものである。

なお、上述の「（ｃ）単語事後確率」は、例えば「Ｆ．Ｗｅｓｓｅｌｅｔａｌ．，“Ｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅｆｏｒｌａｒｇｅｖｏｃａｂｕｌａｒｙｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ”，ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．９，ＰＰ．２８８−２９８，Ｍａｒｔｈ２００１．」に示されている手法をしたがって求めることができる。

また、「（ｄ）音響安定度」は、例えば「Ｔ．Ｚｅｐｐｅｎｆｅｌｄ，Ｍ．Ｆｉｎｋｅ，ａｎｄＫ．Ｒｉｅｓ，“Ｒｅｃｏｇｎｉｔｉｏｎｏｆｃｏｎｖｅｒｓａｔｉｏｎａｌｔｅｌｅｐｈｏｎｅｓｐｅｅｃｈｕｓｉｎｇｔｈｅｊａｎｕｓｓｐｅｅｃｈｅｎｇｉｎｅ”，ＩＥＥＥｉｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｅｃｅｓｓｉｎｇ，ＰＰ．１８１５−１８１８，１９９７．」に示されている手法にしたがって求めることができる。更に、「（ｅ）単語仮説密度」は、例えば「Ｔ．ＫｅｍｐａｎｄＴ．Ｓｈａａｆ，“ＥｓｔｉｍａｔｉｎｇＣｏｎｆｉｄｅｎｃｅＵｓｉｎｇｗｏｒｄｌａｔｔｉｃｅｓ”，Ｅｕｒｏｓｐｅｅｃｈ，Ｒｈｏｄｅｓ，Ｇｒｅｅｃｅ，ＰＰ．８２７−８３０，１９９７．」に示されている手法にしたがって求めることができる。

また、「（ｆ）アクティブなＨＭＭの数」は、音声認識で単語の探索をする際に同時に探索されているＨＭＭの数を示すものである。これにより、例えばある単語の探索においてＨＭＭの数が多いほど、その単語が正解である可能性が低い等の判定を行うことができる。また、「（ｈ）バックオフ（Ｂａｃｋ−ｏｆｆ）ケース」は、例えばある単語仮説間の繋がりやすさが求められていないような場合に、単語ネットワークを生成したときの音響スコアと言語スコアとによりスコアの高い順に文の候補を並べ、所定数の文仮説を用いて設定される特徴量である。

特徴量計算手段１２は、上述した幾つかの特徴量のうち少なくとも１つの特徴量を含む特徴量付き単語ネットワークを認識率推定手段１３に出力する。

＜認識率推定手段１３＞
認識率推定手段１３は、特徴量計算手段１２により得られる特徴量付き単語ネットワークを入力し、入力した特徴量付き単語ネットワークに対して音声認識結果として最適単語の系列を生成し、生成した単語列を出力する。

ここで、認識率推定手段１３の具体的な構成例について、図を用いて説明する。図２は、本発明における認識率推定手段の機能構成の一例を示す図である。図２に示す認識率推定手段１３は、文仮説生成手段２１と、信頼度計算手段２２と、単語認識率推定手段２３と、認識結果抽出手段２４とを有するよう構成されている。

まず、認識率推定手段１３は、上述したように特徴量計算手段１２から得られた特徴量付きネットワークを文仮説生成部２１に入力する。文仮説生成部２１は、音響スコアと言語スコアの和により、以下に示す（１）式としてリスコアリング（スコア再計算）を行い、スコアの高い順にＮ（Ｎ≧１）個の文仮説（ｎ−ｂｅｓｔ文仮説）を生成する。

ここで、上述した（１）において、ｗは文仮説を示し、ｗ_ｉは、文仮説を構成する単語仮説（ｉ＝０，１，・・・）を示している。また、ａｃ（ｗ_ｉ）は単語仮説ｗ_ｉの音響モデル１４における当該単語仮説のスコアを示し、ｌｍ（ｗ_ｉ）は言語モデル１５における当該単語仮説のスコアを示している。更に、ｇｗは言語モデル１５のスコアに対する重みを示している。また、文仮説生成部２１は、生成した文仮説とその特徴量を信頼度計算手段２２に出力する。

信頼度計算手段２２は、入力したＮ個の文仮説の特徴量と、予め蓄積された信頼度モデル１６とに基づいて各文仮説の単語ネットワークにおける信頼度を計算する。

ここで、信頼度モデル１６は、例えば最大エントロピー法により求めることができる。また、信頼度モデル１６は、上述した（ａ）〜（ｈ）の特徴量を統合したモデルである。また、信頼度モデル１６は、単語仮説ｗに対して与えられた特徴量ベクトルｘから単語仮説が正解・不正解となるラベルｙ_ｗを求めるモデルであり、信頼度は確率モデルＰ（ｙ_ｗ｜ｘ）として与えられる。

＜信頼度モデル＞
ここで、最大エントロピー法による信頼度モデルの生成手法の一例について説明する。最大エントロピー法による信頼度モデルは、以下に示す（２）式により与えられる。

ここで、上述した（２）式において、ｘは仮説の事後確率等の信頼度尺度（特徴量及びその時系列）を示しｙ（ｙ∈｛−１，１｝）は、単語仮説の正解又は不正解の正誤ラベルを示している。また、ｆ_ｉ（ｘ，ｙ）は、観測した値のペア（ｘ，ｙ）に関して特定の条件で“０”又は“１”を返す素性関数と呼ばれる二値関数を示し、λ_ｉは素性関数に対する重みを示している。

また、Ｐ_ＭＥ（ｙ｜ｘ）は、信頼度モデルで着目している単語仮説が正解（又は不正解）となる確率を示している。また、上述のλ_ｉは、例えばＧＩＳ（ＧｅｎｅｒａｌｉｚｅｄＩｎｔｅｒａｔｉｖｅＳｃａｌｉｎｇ：一般化反復スケーリング）アルゴリズム等により求めることができる。

信頼度計算手段２２は、特徴量付き単語ネットワークから得られる各特徴量を用いて、特徴量の閾値にしたがって単語仮説の正解・不正解を決定するような二値分類器としての役割（構成）を有する。なお、二値分類器は、上述した（２）式の素性関数によって表現される。

ここで、素性関数は二値関数であるため、単純な“ｂｉｎａｒｙｃｌａｓｓｉｆｉｅｒ”とみることもできる。ここで、上述の関数を用いて信頼度（特徴量）を表現する上で重要なことは、“信頼度を素性関数でどのように表すか”と“信頼度の時間的変化（時系列）をどのように表すか”ということである。そこで、信頼度を素性関数で表すため、ある信頼度に対して閾値を設定し、閾値の前後で活性化するような素性関数を定義する。

つまり、特徴量の閾値で単語仮説を正解又は不正解に分類する二値分類器を複数有し、これら複数の二値分類器を特徴量の時系列に関して連結した二値分類器として結合し、全ての二値分類器を統合した信頼度モデルによって単語仮説に対する信頼度スコア及び正誤ラベルを求めて正解単語列を出力する。これにより、時系列に対応させて、単語出力の正誤判定を高精度に行うことができ、音声の認識結果の精度を向上させることができる。

ここで、ｃ_ｔを信頼度とし、ｙ_ｔを予測する単語仮説の正誤（正解又は不正解）ラベルとして、信頼度に対する閾値ｃ_{ｔｈｒｅｓｈ１}に対して、例えば（２）式の素性関数を以下に示す（３）式のように定義する。

また、上述した（３）式に示したｆ_ｉは二値関数であり、特徴量を表現するには不十分である。そこで信頼度の詳細な表現を行うため、同じ信頼度尺度に対して複数の閾値ｃ_{ｔｈｒｅｓｈ２}，ｃ_{ｔｈｒｅｓｈ３}，・・・を定め、それぞれの閾値に対して素性関数を定義する。例えば、閾値ｃ_{ｔｈｒｅｓｈ２}及びｃ_{ｔｈｒｅｓｈ３}を用いた場合には、以下に示す（４）式、（５）式のようになる。

また、信頼度の時間的変化は、単語仮説に対して得られた信頼度の系列を素性関数に取り込むことで実現する。特徴量の時間的変化を表現するためには、例えば信頼度ｃ_ｔ−１，ｃ_ｔに対して、以下に示す（６）式により素性を決定する。

なお、上述した素性関数の定義では、信頼度に対する閾値を決定することが重要である。そこで、信頼度に対する閾値は、次の手順で決定する。まず、任意の二値分類器を用いて閾値を１つ決定する。次に、閾値の上下に一定の間隔で、新たな閾値を設定し、素性を定義して最大エントロピーモデルを学習する。閾値の設定は、モデルによる分類誤り率が下がり始めてから上がらなくなるまで繰り返し行う。次に、窓幅（信頼度尺度の系列の個数）を変更して素性を再決定する。

上述の処理を全ての信頼度尺度に対して行い、最後に最大エントロピー法による統合を行う。また、上述したように閾値と素性とを定義し、最大エントロピー法で統合することにより信頼度モデルを得ることができる。

信頼度計算手段２２は、上述により得られる信頼度モデルを用いて得られた信頼度を単語認識率推定手段２３に出力する。

次に、単語認識率推定手段２３は、まず信頼度計算手段２２により得られる信頼度からＮ個の文仮説中の単語仮説が正解となる確率を以下に示す（７）式により求める。

次に、Ｎ個の文仮説の第ｎ番目の文仮説に対して以下に示す（８）式により単語認識率を計算する。

ここで、Ｚはｎ入力音声を示し、Ａｃｃ（ｗ^（ｎ）｜Ｚ）は入力音声が与えられたときの正解仮説単語の個数を示し、Ｐ（ｗ_ｉ ^（ｎ）｜Ｚ）は単語仮説の事後確率を示している。また、Ｅ［・］は、期待値（１単語あたりの正解らしさ）を示している。また、単語認識率推定手段２３は、文仮説と計算した単語認識率を認識結果抽出手段２４に出力する。

認識結果抽出手段２４は、以下に示す（９）式により入力音声（Ｚ）が与えられた場合に、単語認識率が最大となる文仮説ｗ^＊を正解として、音声認識結果を出力する。

上述した実施形態により、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも１つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。

＜他の実施形態＞
ここで、上述した実施形態では、文章を主体として音声認識精度を向上させたが、本発明においてはこの限りではなく、例えば文章ではなく単語に着目し、音声から文章中の正解単語をなるべく多く取得する音声認識を行うような場合にも適用可能である。これにより、例えば音声データからメタデータを作成するような場合に本発明を用いることができる。なお、メタデータの作成に用いられる場合には、発声内容に含まれる人名，地名，企業名等の単語がなるべく多く抽出できていることが望ましい。つまり、単語認識率よりも正解単語が文章中に含まれる割合（単語正解率）の方が重要となる。

そこで、単語正解率を最大にするために、上述した（９）式を以下に示す（１０）式とし、更に（１１）式により正解単語列を求める。

なお、上述した（８）式と（１０）式との違いは、（１０）式では“１／｜ｗ^（ｎ）｜”による除算がなく、Ｅ[Ｃｏｒｒ（・）]が、正解単語の数を推定する関数となっていることである。このような手法により、上述した実施形態と同様に音声認識精度を向上させることができる。また、正解単語をなるべく多く含むような単語列（文章）を抽出することができる。

ここで、上述した音声認識装置は、上述した専用の構成を用いて本発明における音声認識を行うこともできるが、各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション、サーバ等にプログラムをインストールすることにより、本発明における音声認識を実現することができる。

＜ハードウェア構成＞
ここで、本発明における音声認識が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図３は、本発明における音声認識が実現可能なハードウェア構成の一例を示す図である。

図３におけるコンピュータ本体には、入力装置３１と、出力装置３２と、ドライブ装置３３と、補助記憶装置３４と、メモリ装置３５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３６と、ネットワーク接続装置３７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置３１は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置３２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ３６が有する制御プログラムにより本発明における音声認識プログラムの実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体３８等により提供される。プログラムを記録した記録媒体３８は、ドライブ装置３３にセット可能であり、記録媒体３８に含まれる実行プログラムが、記録媒体３８からドライブ装置３３を介して補助記憶装置３４にインストールされる。

補助記憶装置３４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

ＣＰＵ３６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、及びメモリ装置３５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、音声認識における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置３４から取得することができ、また格納することもできる。

ネットワーク接続装置３７は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等に代表される通信ネットワークと接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで音声認識を実現することができる。また、プログラムをインストールすることにより、容易に音声認識を実現することができる。次に、実行プログラムにおける処理手順についてフローチャートを用いて説明する。

＜音声認識処理＞
図４は、本発明における音声認識処理手順を示す一例のフローチャートである。まず、人により発声された音声等を入力音声として入力し（Ｓ０１）、入力した音声データの認識を行い、単語ネットワークを生成する（Ｓ０２）。また、Ｓ０２にて得られる単語ネットワークに基づいて、音響モデルや言語モデルを参照し、予め設定される少なくとも１つの特徴量を計算し（Ｓ０３）、Ｓ０３の処理により得られた特徴量を含む特徴量付き単語ネットワークを生成する（Ｓ０４）。

次に、Ｓ０４の処理により得られた特徴量付き単語ネットワークについて、音響スコアと言語スコアの和によってスコアの再計算が行われ（Ｓ０５）、スコアの高い順にＮ（Ｎ≧１）個の文仮説(ｎ-ｂｅｓｔ文仮説)を生成する（Ｓ０６）。

次に、Ｓ０６の処理により得られたｎ-ｂｅｓｔ文仮説と、予め蓄積された信頼度モデルとに基づいて、その文仮説（単語仮説の系列）の信頼度を計算し（Ｓ０７）、計算した信頼度から文仮説の単語認識率を推定して（Ｓ０８）、単語認識率が最大となる文仮説を認識結果として出力する（Ｓ０９）。

上述した音声認識処理により、また、音声認識精度を向上させることができる。また、上述の処理を行う実行プログラムを汎用コンピュータ等にインストールすることにより、容易に音声認識を実現することができる。

＜従来と本発明との比較＞
ここで、音声認識手法における従来と本発明との比較結果について、図を用いて説明する。図５は、従来手法と本発明に係る音声認識手法とにおける単語認識率の測定結果の一例を示す図である。なお、この例ではテレビニュース等から５００の文章を用いて音声認識の比較を行う。また、従来手法として、単語ネットワーク上で音響モデルと単語（ｔｒｉｇｒａｍ）モデルとのスコアの和より出力された音声認識結果と、入力した文章とを比較して、その文章中における単語の認識率の精度と、本発明に係る音声認識により得られる結果と、入力した文章とを比較する。ここで、単語認識率は、以下に示す（１２）式により計算される。

なお、上述した（１２）式は、実際の文章中の単語と一致した単語の総数（＃ＭａｔｃｈｅｄＷｏｒｄｓ）から挿入誤りの総数（＃Ｉｎｓｅｒｔｉｏｎｓ）を引いた値を全体の単語仮説（＃ＣｏｒｒｅｃｔＷｏｒｄｓ）で除算し、その割合を求めたものである。なお、挿入誤りとは、文章の構成上単語間に挿入された単語で、実際の入力音声には含まれていない単語である。

ここで、図５（ａ）は、上述した（７）式に示すような条件に基づいて従来手法として上述の（３）式を用いた場合の単語認識率（％）と、本発明に係る音声認識手法（本手法）として上述の（５）式を用いた場合の単語認識率（％）とを示すものである。図５（ａ）に示すように単語認識率の精度が＋０．３％向上していると判断することができる。

また、本手法は、上述したように文章の認識だけでなく文章中の正解単語をなるべく多く取得したい場合にも適用することができる。このときの単語正解率は、以下に示す（１３）式を用いて求めることができる。

ここで、単語正解率と単語認識率との違いは、単語正解率の場合には上述した挿入誤り（Ｉｎｓｅｒｔｉｏｎｓ）を考慮しない点である。

また、図５（ｂ）は、上述した（７）式に示すような条件に基づいて従来手法として上述の（３）式を用いた場合の単語正解率（％）と、本手法として上述の（５）式を用いた場合の単語正解率（％）とを示すものである。図５（ｂ）に示すように単語正解率の精度が＋０．３％向上していると判断することができる。

上述したように本発明によれば、音声認識精度を向上させることができる。具体的には、本発明は、入力される音声から単語仮説（正解候補）のネットワーク（単語ネットワーク）を生成し、単語ネットワーク上に置かれた各単語仮説の特徴量を少なくとも１つ求める。また、求めた特徴量及びその時系列から信頼度モデルにより各単語仮説の認識率（正解らしさ）を推定し、その中で単語認識率が最大となる単語仮説列を最適な正解単語列として出力する。これにより、音声認識精度を向上させることができる。

また、本発明によれば、各単語仮説に対して少なくとも１つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。これにより、従来からある最適な結果を得るためのパラメータ調整が不要となるため、任意の分野の音声認識に適合が可能となる。また、正解単語をなるべく多く含むような文章を抽出することができるため、例えば本発明により出力された音声認識結果の単語を用いてメタデータの作成等への適用が可能となる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における音声認識装置の機能構成の一例を示す図である。本発明における認識率推定手段の機能構成の一例を示す図である。本発明における音声認識が実現可能なハードウェア構成の一例を示す図である。本発明における音声認識処理手順を示す一例のフローチャートである。従来手法と本発明に係る音声認識手法とにおける単語認識率の測定結果の一例を示す図である。

符号の説明

１０音声認識装置
１１音声認識手段
１２特徴量計算手段
１３認識率推定手段
１４音響モデル
１５言語モデル
１６信頼度モデル
２１文仮説生成手段
２２信頼度計算手段
２３単語認識率推定手段
２４認識結果抽出手段
３１入力装置
３２出力装置
３３ドライブ装置
３４補助記憶装置
３５メモリ装置
３６ＣＰＵ
３７ネットワーク接続装置
３８記録媒体

Claims

入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段と、
前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段とを有することを特徴とする音声認識装置。
入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段と、
前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段とを有することを特徴とする音声認識装置。
入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、
コンピュータを、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段、及び、
前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段として機能させるための音声認識プログラム。
入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、
コンピュータを、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも１つの特徴量を計算する特徴量計算手段、及び、
前記特徴量計算手段により得られる少なくとも１つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも１つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段として機能させるための音声認識プログラム。