JP4659541B2 - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP4659541B2 JP4659541B2 JP2005202302A JP2005202302A JP4659541B2 JP 4659541 B2 JP4659541 B2 JP 4659541B2 JP 2005202302 A JP2005202302 A JP 2005202302A JP 2005202302 A JP2005202302 A JP 2005202302A JP 4659541 B2 JP4659541 B2 JP 4659541B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- hypothesis
- correct
- feature
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
A.Stolcke,Y.Konig,and M.Weintraub,"Explicit Word Error Minimization in N−best list Rescoring",Eurospeech,Rhodes,Greece,pp.163−166,1997.
図1は、本発明における音声認識装置の機能構成の一例を示す図である。図1の音声認識装置10は、音声認識手段11と、特徴量計算手段12と、認識率推定手段13と、音響モデル14と、言語モデル15と、信頼度モデル16とを有するよう構成されている。
音声認識手段11は、人により発声された音声等を入力音声(Z)として入力する。また、音声認識手段11は、単語仮説、及び音響モデル14の音響スコア、言語モデル15の言語スコアにより得られる単語仮説同士で繋がれた部分を辺とし、単語の終端時刻を頂点とする単語ネットワークを生成する。また、音声認識手段11は、生成した単語ネットワークを特徴量計算手段12に出力する。
特徴量計算手段12は、必要に応じて言語モデル15の次数(n―gramの履歴となる単語の数)に応じてネットワークを拡張する。具体的には、特徴量計算手段12は、入力した単語ネットワークの各辺上の単語仮説に対して予め設定される特徴量を求める。
認識率推定手段13は、特徴量計算手段12により得られる特徴量付き単語ネットワークを入力し、入力した特徴量付き単語ネットワークに対して音声認識結果として最適単語の系列を生成し、生成した単語列を出力する。
ここで、上述した(1)において、wは文仮説を示し、wiは、文仮説を構成する単語仮説(i=0,1,・・・)を示している。また、ac(wi)は単語仮説wiの音響モデル14における当該単語仮説のスコアを示し、lm(wi)は言語モデル15における当該単語仮説のスコアを示している。更に、gwは言語モデル15のスコアに対する重みを示している。また、文仮説生成部21は、生成した文仮説とその特徴量を信頼度計算手段22に出力する。
ここで、最大エントロピー法による信頼度モデルの生成手法の一例について説明する。最大エントロピー法による信頼度モデルは、以下に示す(2)式により与えられる。
ここで、上述した(2)式において、xは仮説の事後確率等の信頼度尺度(特徴量及びその時系列)を示しy(y∈{−1,1})は、単語仮説の正解又は不正解の正誤ラベルを示している。また、fi(x,y)は、観測した値のペア(x,y)に関して特定の条件で“0”又は“1”を返す素性関数と呼ばれる二値関数を示し、λiは素性関数に対する重みを示している。
また、上述した(3)式に示したfiは二値関数であり、特徴量を表現するには不十分である。そこで信頼度の詳細な表現を行うため、同じ信頼度尺度に対して複数の閾値cthresh2,cthresh3,・・・を定め、それぞれの閾値に対して素性関数を定義する。例えば、閾値cthresh2及びcthresh3を用いた場合には、以下に示す(4)式、(5)式のようになる。
また、信頼度の時間的変化は、単語仮説に対して得られた信頼度の系列を素性関数に取り込むことで実現する。特徴量の時間的変化を表現するためには、例えば信頼度ct−1,ctに対して、以下に示す(6)式により素性を決定する。
なお、上述した素性関数の定義では、信頼度に対する閾値を決定することが重要である。そこで、信頼度に対する閾値は、次の手順で決定する。まず、任意の二値分類器を用いて閾値を1つ決定する。次に、閾値の上下に一定の間隔で、新たな閾値を設定し、素性を定義して最大エントロピーモデルを学習する。閾値の設定は、モデルによる分類誤り率が下がり始めてから上がらなくなるまで繰り返し行う。次に、窓幅(信頼度尺度の系列の個数)を変更して素性を再決定する。
ここで、Zはn入力音声を示し、Acc(w(n)|Z)は入力音声が与えられたときの正解仮説単語の個数を示し、P(wi (n)|Z)は単語仮説の事後確率を示している。また、E[・]は、期待値(1単語あたりの正解らしさ)を示している。また、単語認識率推定手段23は、文仮説と計算した単語認識率を認識結果抽出手段24に出力する。
上述した実施形態により、音声認識精度を向上させることができる。また、各単語仮説に対して少なくとも1つの特徴量を有する特徴量付き単語ネットワークと信頼度モデルとに基づいて文仮説の単語認識率を推定するため、迅速に音声認識を行うことができる。また、正解となる単語の個数を基準とすることで、効率的に最適な文仮説の単語認識率を取得することができる。
ここで、上述した実施形態では、文章を主体として音声認識精度を向上させたが、本発明においてはこの限りではなく、例えば文章ではなく単語に着目し、音声から文章中の正解単語をなるべく多く取得する音声認識を行うような場合にも適用可能である。これにより、例えば音声データからメタデータを作成するような場合に本発明を用いることができる。なお、メタデータの作成に用いられる場合には、発声内容に含まれる人名,地名,企業名等の単語がなるべく多く抽出できていることが望ましい。つまり、単語認識率よりも正解単語が文章中に含まれる割合(単語正解率)の方が重要となる。
なお、上述した(8)式と(10)式との違いは、(10)式では“1/|w(n)|”による除算がなく、E[Corr(・)]が、正解単語の数を推定する関数となっていることである。このような手法により、上述した実施形態と同様に音声認識精度を向上させることができる。また、正解単語をなるべく多く含むような単語列(文章)を抽出することができる。
ここで、本発明における音声認識が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図3は、本発明における音声認識が実現可能なハードウェア構成の一例を示す図である。
図4は、本発明における音声認識処理手順を示す一例のフローチャートである。まず、人により発声された音声等を入力音声として入力し(S01)、入力した音声データの認識を行い、単語ネットワークを生成する(S02)。また、S02にて得られる単語ネットワークに基づいて、音響モデルや言語モデルを参照し、予め設定される少なくとも1つの特徴量を計算し(S03)、S03の処理により得られた特徴量を含む特徴量付き単語ネットワークを生成する(S04)。
ここで、音声認識手法における従来と本発明との比較結果について、図を用いて説明する。図5は、従来手法と本発明に係る音声認識手法とにおける単語認識率の測定結果の一例を示す図である。なお、この例ではテレビニュース等から500の文章を用いて音声認識の比較を行う。また、従来手法として、単語ネットワーク上で音響モデルと単語(trigram)モデルとのスコアの和より出力された音声認識結果と、入力した文章とを比較して、その文章中における単語の認識率の精度と、本発明に係る音声認識により得られる結果と、入力した文章とを比較する。ここで、単語認識率は、以下に示す(12)式により計算される。
なお、上述した(12)式は、実際の文章中の単語と一致した単語の総数(#Matched Words)から挿入誤りの総数(#Insertions)を引いた値を全体の単語仮説(#Correct Words)で除算し、その割合を求めたものである。なお、挿入誤りとは、文章の構成上単語間に挿入された単語で、実際の入力音声には含まれていない単語である。
11 音声認識手段
12 特徴量計算手段
13 認識率推定手段
14 音響モデル
15 言語モデル
16 信頼度モデル
21 文仮説生成手段
22 信頼度計算手段
23 単語認識率推定手段
24 認識結果抽出手段
31 入力装置
32 出力装置
33 ドライブ装置
34 補助記憶装置
35 メモリ装置
36 CPU
37 ネットワーク接続装置
38 記録媒体
Claims (4)
- 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段と、
前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段とを有することを特徴とする音声認識装置。 - 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識装置において、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段と、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段と、
前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段とを有することを特徴とする音声認識装置。 - 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、
コンピュータを、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段、及び、
前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数から前記文仮説の総単語総数を除算することで単語認識率を求め、求めた前記単語認識率が最大となる正解単語列を出力する認識率推定手段として機能させるための音声認識プログラム。 - 入力した音声を予め蓄積された音響モデル、言語モデル、及び信頼度モデルにより認識して前記音声に対応する単語列を出力する音声認識プログラムにおいて、
コンピュータを、
前記音声を認識して正解候補の単語仮説からなる単語ネットワークを生成する音声認識手段、
前記音声認識手段により得られる単語ネットワークと、前記音響モデルと、前記言語モデルとに基づいて、前記単語ネットワーク内の各単語仮説に対して少なくとも1つの特徴量を計算する特徴量計算手段、及び、
前記特徴量計算手段により得られる少なくとも1つの特徴量付き単語ネットワークの各単語仮説に割り当てられた特徴量から、前記言語モデルにおける単語仮説の特徴量スコアと前記音響モデルにおける単語仮説の特徴量スコアとを取得し、取得したスコアの和が高い順に、前記単語仮説の系列からなる少なくとも1つの文仮説を生成し、生成した前記文仮説の各単語仮説に対する特徴量から、前記信頼度モデルを用いて前記各単語仮説を正解又は不正解に分類し、分類した結果から前記文仮説に含まれる単語仮説が正解となる仮説単語の個数を推定し、推定した前記正解となる仮説単語の個数が最多となる文仮説を正解単語列として出力する認識推定手段として機能させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005202302A JP4659541B2 (ja) | 2005-07-11 | 2005-07-11 | 音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005202302A JP4659541B2 (ja) | 2005-07-11 | 2005-07-11 | 音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007017911A JP2007017911A (ja) | 2007-01-25 |
JP4659541B2 true JP4659541B2 (ja) | 2011-03-30 |
Family
ID=37755106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005202302A Expired - Fee Related JP4659541B2 (ja) | 2005-07-11 | 2005-07-11 | 音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4659541B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4939560B2 (ja) * | 2009-03-09 | 2012-05-30 | 日本電信電話株式会社 | 音声認識装置とその方法と、プログラム |
JP5400727B2 (ja) * | 2010-08-24 | 2014-01-29 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラム |
JP5679346B2 (ja) * | 2012-02-22 | 2015-03-04 | 日本電信電話株式会社 | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム |
JP5740368B2 (ja) * | 2012-08-28 | 2015-06-24 | 日本電信電話株式会社 | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム |
CN116453507B (zh) * | 2023-02-21 | 2023-09-08 | 北京数美时代科技有限公司 | 基于置信度模型的语音识别优化方法、***和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005164837A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ |
-
2005
- 2005-07-11 JP JP2005202302A patent/JP4659541B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005164837A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ |
Also Published As
Publication number | Publication date |
---|---|
JP2007017911A (ja) | 2007-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
US9672815B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JPH11175090A (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2011065120A (ja) | すべての言語の音声識別及び音声識別を利用した単字入力の方法 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP3961780B2 (ja) | 言語モデル学習装置およびそれを用いた音声認識装置 | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP4528076B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2005091504A (ja) | 音声認識装置 | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101227 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |