JP5427140B2 - 音声認識方法、音声認識装置及び音声認識プログラム - Google Patents
音声認識方法、音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP5427140B2 JP5427140B2 JP2010171020A JP2010171020A JP5427140B2 JP 5427140 B2 JP5427140 B2 JP 5427140B2 JP 2010171020 A JP2010171020 A JP 2010171020A JP 2010171020 A JP2010171020 A JP 2010171020A JP 5427140 B2 JP5427140 B2 JP 5427140B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech recognition
- feature amount
- reliability
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
[この発明の基本的な考え方]
一般的な信頼度尺度は、以下の単語事後確率P(W^|O)で表現される。
[参考文献1]J. R. Glass, "A probabilistic framework for segmentbased speech recognition", Computer Speech and Language, Elsevier, 2003, Vol.17, No.2-3, pp.137-152
よって、式(2)の状態事後確率P(S^|O)は、時刻tにおける音響特徴量otに対するフレーム毎の状態事後確率P(s^|ot)から近似的に以下のように、計算される。
[参考文献2]A.Lee, T.Kawahara, K.Shikano, "Gaussian mixture selection using context-independent HMM", in Proceedings of ICASSP, 2001, vol.1, pp.69-72
式(4)の分母ΣsP(s)bs(ot)は、ポーズ以外の全ての音素の特徴量から学習した音声GMMからなる音声モデルを使って、以下のように近似される。
[参考文献3]
D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, “Speaker verification using adapted gaussian mixture models,” Digital Signal Processing, 2000, vol.10, pp.19-41
信頼度スコアCはフレーム毎の事前信頼度c(ot)から計算される。その際、異なる長さの音声データの比較を可能とするために、総フレーム数Tによって、以下のように、正規化される。
以下、本発明の実施の形態について、詳細に説明する。
図4及び図5を用いて実施例1に係る音声認識装置100を説明する。音声認識装置100は、A/D変換部10と、特徴量分析部20と、事前信頼度スコア計算部30と、音声認識処理部40と、音響モデルパラメータメモリ50と、言語モデルパラメータメモリ60とを具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
図6を用いて、事前信頼度スコア計算部30を説明する。事前信頼度スコア計算部30は、モノフォン最尤検出手段32と、音声/ポーズ最尤検出手段33と、事前信頼度算出手段34と、信頼度スコア算出手段35とを備える。
c(ot1)=log(P(p1)bp1(ot1))−logbp1(ot1)
c(ot4)=log(P(a3)ba3(ot4))−logbg(ot4)
c(ot19)=log(P(i2)bi2(ot19))−logbp3(ot19)
なお、図7は、一部の時間しか示していない。音声ファイルの長さは例えば数分(例えば30,000フレーム)程度である。以下、各手段の処理を具体的に説明する。
モノフォン最尤検出手段32は、フレームt毎の音声特徴量otに対する各モノフォンGMMから得られる出力確率bs(ot)とそのGMMが属する状態sの出現確率P(s)の積P(s)bs(ot)から、モノフォン最尤値P(s^)bs^(ot)を求め、その対数log(P(s^)bs^(ot))を事前信頼度算出手段34に出力する。なお、モノフォン最尤検出手段32は、音響モデルパラメータメモリ50を参照して、各モノフォンGMMと各状態sの出現確率P(s)を取得することができる。また、モノフォン最尤検出手段32は、各モノフォンGMMと各状態sの出現確率P(s)を予め音響モデルパラメータメモリ50から取得しておき、記憶しておいてもよい。
音声/ポーズ最尤検出手段33は、フレームt毎の音声特徴量otに対する音声/ポーズGMMから得られる出力確率から、音声/ポーズ最尤値bg^(ot)を求め、その対数logbg^(ot)を事前信頼度算出手段34に出力する。なお、音声/ポーズ最尤検出手段33は、音響モデルパラメータメモリ50を参照して、音声/ポーズGMMを取得することができる。また、音声/ポーズ最尤検出手段33は、音声/ポーズGMMを予め音響モデルパラメータメモリ50から取得しておき、記憶しておいてもよい。
事前信頼度算出手段34は、モノフォン最尤値の対数log(P(s^)bs^(ot))と音声/ポーズ最尤値の対数logbg^(ot)とを入力され、以下の式(11)によりその差を当該フレームの事前信頼度c(ot)として求め、信頼度スコア算出手段35に出力する。
信頼度スコア算出手段35は、フレーム毎の事前信頼度c(ot)を入力され、式(9)により、フレーム毎の事前信頼度c(ot)を平均化して音声ファイル単位のもの(言い換えると、事前信頼度c(ot)を音声ファイルの継続時間T(総フレーム数)の間累積して平均したもの)を信頼度スコアCとして求め、出力する。
音声認識処理部40は、特徴量分析部20が出力する音声特徴量系列O(=o1,o2,…,oT)と信頼度スコアCを入力として、音響モデルパラメータメモリ50及び言語モデルパラメータ60を参照して、音声認識処理を行い、音声認識結果Wを出力する。この時、信頼度スコアCを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ50に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部40は、信頼度スコアCの値に応じて音声認識処理の実行の有無を切り替える。
以上述べたように、この発明の音声認識装置によれば、音声特徴量に基づいた事前信頼度を求め、フレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることができる。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かを判断することで、例えばS/N比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。また、従来は単語やキーワード単位、あるいは、発話(文)単位での信頼度計算であったのに対し、本実施例の音声認識装置100は、複数発話からなる音声ファイル単位での信頼度スコアを計算することができる。
図4及び図6を用いて、実施例1と異なる部分のみ説明する。実施例1とは、事前信頼度スコア計算部30’の処理内容が異なる。
事前信頼度スコア計算部30’は、モノフォン最尤検出手段32’と、音声/ポーズ最尤検出手段33’と、事前信頼度算出手段34と、信頼度スコア算出手段35とを備える。モノフォン最尤検出手段32’と音声/ポーズ最尤検出手段33’の処理が実施例1と異なる。事前信頼度スコア計算部30’では、二種以上の音響モデル中に含まれるモノフォン及び音声モデルに基づいて計算したフレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアCを計算する。図8に、二種以上の音響モデルを、男性音響モデルと女性音響モデルとした場合の出力確率の時間経過の一例を示す。
モノフォン最尤検出手段32’は、まず、フレームt毎の音声特徴量otに対する男性モノフォンHMMの状態smに属するGMM(以下「男性モノフォンGMM」という)から得られる出力確率bsm(ot)とそのGMMが属する状態smの出現確率P(sm)の積P(sm)bsm(ot)から、最も高い値(以下、「男性モノフォン最尤値P(s^m)bs^m(ot)」という)を求める。次に、音声特徴量otに対する女性モノフォンHMMの状態sfに属するGMM(以下「女性モノフォンGMM」という)から得られる出力確率bsf(ot)とそのGMMが属する状態sfの出現確率P(sf)の積P(sf)bsf(ot)から、最も高い値(以下、「女性モノフォン最尤値P(s^f)bs^f(ot)」という)を求める。男性モノフォン最尤値P(s^m)bs^m(ot)と女性モノフォン最尤値P(s^f)bs^f(ot)のうち、大きい方をモノフォン最尤値P(s^)bs^(ot)とし、その対数を事前信頼度算出手段34に出力する。
音声/ポーズ最尤検出手段33’は、まずフレームt毎の音声特徴量otに対する男性音声/ポーズGMMから得られる出力確率から、男性音声/ポーズ最尤値bg^m(ot)を求める。次に、まずフレームt毎の音声特徴量otに対する女性音声/ポーズGMMから得られる出力確率から、女性音声/ポーズ最尤値bg^f(ot)を求める。男性音声/ポーズ最尤値bg^m(ot)と女性音声/ポーズ最尤値bg^f(ot)のうち、大きい方を音声/ポーズ最尤値bg^(ot)とし、その対数を事前信頼度算出手段34に出力する。
特徴量分析部20の前段に、図示しない音声区間判定部を設けても良い。例えば、音声区間判定部は、パワーが所定値以下のフレームが所定時間以上継続したときに、音声区間ではないと判断する。そして、非音声区間と判定した場合には、その区間に対するそれ以降の処理を停止するように指示信号を出力する。このような構成とすることで、非音声区間の音声認識処理を省略することができる。なお、大きな雑音等は、音声区間判定部で省略することはできないが、モノフォン最尤検出手段32及び音声/ポーズ最尤検出手段33において、音声か非音声(ポーズ)か判定するため、誤認識を防ぐことができる。
[参考文献4]S. Kobashikawa, A. Ogawa, Y. Yamaguchi, and S. Takahashi,“Rapid unsupervised adaptation using frame independent output probabilities of gender and context independent phoneme models”, INTERSPEECH, 2009, pp.1615-1618.
モノフォン最尤検出手段32及び音声/ポーズ最尤検出手段33は、それぞれ対数log(P(s^)bs^(ot))及び対数logbg^(ot)に代えて、P(s^)bs^(ot)及びbg^(ot)を出力し、事前信頼度算出手段34において、対数log(P(s^)bs^(ot))及びlogbg^(ot)を求めてもよい。
本実験の音響分析条件は、標本化周波数16kHz、窓幅20msecのハミング窓、窓シフト10msecで、特徴量は25次元(MFCC12、ΔMFCC12、ΔPOWER)であり、評価タスクは、話者48名(男性17名、女性31名)による計240通話(合計19.81時間、17,672発話)で、発話内容は1対1対話における自由発話である。音響モデルは、男女別不特定話者モデルで、総状態数は1,958、総分布数は男性26,567、女性29,836である。性別選択は参考文献4と同様に音声/ポーズGMMを用いて事前に行った。言語モデルは、対話音声の書き起こしをベースに構築した単語trigramであり、語彙サイズは59,676単語である。デコーダには、音声認識エンジンVoiceRex(参考文献5参照)を用いた。
[参考文献5]H. Masataki, D. Shibata, Y. Nakazawa, S. Kobashikawa, A. Ogawa, and K. Ohtsuki, “VoiceRex - Spontaneous speech recognition technology for contact-center conversations,” NTT Tech. Rev., 2007, vol. 5, no. 1, pp. 22-27
[参考文献6]B. Rueber, “Obtaining confidence measures from sentence probabilities”, In EUROSPEECH-1997, pp.739-742
図4を用いて実施例2に係る音声認識装置200について、実施例1と異なる部分のみを説明する。音声認識装置200は、事前信頼度スコア計算部230の処理内容が実施例1と異なる。
図10を用いて、事前信頼度スコア計算部230を説明する。事前信頼度スコア計算部230は、モノフォン最尤検出手段232と、音声/ポーズ最尤検出手段33と、事前信頼度算出手段234と、信頼度スコア算出手段35とを備え、モノフォン最尤検出手段232と事前信頼度算出手段234の処理内容が実施例1と異なる。
モノフォン最尤検出手段232は、フレームt毎の音声特徴量otに対する各モノフォンGMMから得られる出力確率bs(ot)とそのGMMが属する状態sの出現確率P(s)の積P(s)bs(ot)から、モノフォン最尤値P(s^)bs^(ot)を求め、モノフォン最尤状態s^に属するGMMから得られる出力確率bs^(ot)の対数logbs^(ot)を事前信頼度算出手段34に出力する。
事前信頼度算出手段234は、モノフォン最尤状態s^に属するGMMから得られる出力確率bs^(ot)の対数logbs^(ot)と音声/ポーズ最尤値の対数logbg^(ot)とを入力され、式(12)によりその差を当該フレームの事前信頼度c(ot)として求め、信頼度スコア算出手段35に出力する。
図12を用いて実施例3に係る音声認識装置300を説明する。音声認識装置300は、認識処理制御部380を備える点、及び音声認識装置340の処理内容が音声認識装置100、200と異なる。
<認識処理制御部380>
認識処理制御部380は、制御信号としてビーム探索幅N(C)を出力する。その一例を式(13)に示す。
図13に示すように式(13)は、所定の範囲の信頼度スコアC(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、信頼度スコアCの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアCが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、信頼度スコアCとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
音声認識処理部340は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う。例えば、認識処理制御部380から音声認識処理を停止させる信号を受信した場合には、対応する音声ファイルについては、音声認識処理を停止させる。また、ビーム探索幅N(C)の制御信号を受信した場合には、そのビーム探索幅N(C)に基づき、音声認識処理を行う。
このように、認識処理制御部380を備えた音声認識装置300は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることができる。なお、認識処理制御部380の機能は、音声認識処理部40に持たせても良い。
図14及び図15を用いて実施例4に係る音声認識装置400を説明する。
音声認識装置400は、音声ファイル処理部401と、ソート音声認識処理部440と、を備える点で音声認識装置100、200と異なる。
音声ファイル処理部401は、複数の音声ファイルの信頼度スコアCの高い順番に複数の音声ファイルを並び替える(ステップS401)。
<ソート音声認識処理部440>
ソート音声認識処理部440は、信頼度スコアCの高い順番に音声認識処理を行う(ステップS440)。
このような構成とすることで、実施例1と同様の効果を得ることができる。さらに、このように信頼度スコアCの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることができる。例えば、全音声ファイルに対して音声認識処理を行うことが、計算機資源や処理時間の関係等によって難しい場合には、信頼度スコアCが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される信頼度スコアCが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部401の機能は、ソート音声認識処理部440の機能に含めても良い。なお、実施例3の音声認識装置300と音声ファイル処理部401及びソート音声認識処理部440を組み合わせても、同様の効果をえることができる。
図16及び図17を用いて実施例5に係る音声認識装置500を説明する。
音声認識装置500は、教師なし適応制御部501と、教師なし適応部502と、適応後音響モデルパラメータメモリ503と、第2認識処理部504とを備える点で音声認識装置100、200と異なる。
教師なし適応制御部501は、事前信頼度Cを入力として、その事前信頼度Cの値が一定範囲内(例えばC>Cth2であり、Cth2>Cthとする。ここで、Cth2は、前述の信頼度スコア分布の平均値μ、標準偏差σを用いて、例えばCth2=μ―σ等としてもよい)か否かを判定して教師なし適応制御信号pを出力する(ステップS501)。事前信頼度Cの値が一定範囲内でない場合、その音声ファイルの処理を終了する(ステップS501のNO)。教師なし適応制御信号とは、音声認識処理部40が出力する音声認識結果を適応用ラベルとして用いるか否かを制御する信号である。
教師なし適応部502は、教師なし適応制御信号pが、音声認識処理部40が出力する音声認識結果Wを適応用ラベルとして用いることを指示していた場合、音声認識結果Wを適応用ラベルとして音響モデルパラメータメモリ50に記録された音響モデルを学習して、適応後音響モデルを生成する(ステップS502)。適応後音響モデルは、適応後音響モデルパラメータメモリ503に記録される。
第2認識処理部504は、適応後音響モデルパラメータメモリ503に記録された適応後音響モデルを用いて音声特徴量系列Oの音声認識処理を行い、音声認識結果W’を出力する(ステップS504)。なお、このとき、事前信頼度スコア計算部30で求めた信頼度スコアCを一緒に出力してもよい。
このような構成とすることで実施例1と同様の効果を得ることができる。さらに、音声認識装置500は、事前信頼度Cの値が一定範囲内にある場合に限って、音声認識結果Wを適応用ラベルとして音響モデルを学習し、さらに音声認識処理を行う。事前信頼度スコアCが低く音声ファイルの認識精度の低い場合には、そのときの音声認識処理結果Wは、教師なし適応における適応用ラベルとしてふさわしくなく、教師なし適応による音響モデルの精度向上が期待できない。そのような場合に、教師なし適応や第2音声認識処理を省略することで、その計算時間を削減できる。また、信頼度スコアCが高く音声ファイルの認識精度の高い音声認識結果Wを適応用ラベルとして音響モデルを学習するので、音響モデルの精度を自動的に向上させることができる。なお、実施例3、4の音声認識装置300、400と教師なし適応制御部501、教師なし適応部502、適応後音響モデルパラメータメモリ503及び第2認識処理部504を組み合わせても、同様の効果をえることができる。
また、前記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
20 特徴量分析部
30、30’、230 事前信頼度スコア計算部
40、340 音声認識処理部
50 音響モデルパラメータメモリ
60 言語モデルパラメータメモリ
380 認識処理制御部
401 音声ファイル処理部
440 ソート音声認識処理部
501 教師なし適応制御部
502 教師なし適応部
503 適応後音響モデルパラメータメモリ
504 第2認識処理部
Claims (11)
- 音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。 - 音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いときの出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。 - 請求項1または請求項2に記載した音声認識方法において、
前記信頼度スコアを用いて、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御過程を、さらに備え、
前記音声認識処理過程は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列の音声認識処理を行う、
ことを特徴とする音声認識方法。 - 請求項1〜3の何れかに記載した音声認識方法において、
複数の音声ファイルの前記信頼度スコアから、信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理過程と、
信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理過程と、
をさらに備えることを特徴とする音声認識方法。 - 請求項1〜4の何れかに記載した音声認識方法において、
前記信頼度スコアを用いて、その信頼度スコアの値が一定範囲内か否かを判定して教師なし適応制御信号を求める教師なし適応制御過程と、
前記音声認識の結果と前記教師なし適応制御信号を用いて、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応過程と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第2認識処理過程と、
をさらに備えることを特徴とする音声認識方法。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いものを求め、最も高い積P(s^)bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンHMMの各状態に属するGMMから得られる出力確率bs(ot)と、その各状態sの出現確率P(s)との積が最も高いときの出力確率bs^(ot)の対数と、その入力に対する音声モデルの状態に属するGMMまたはポーズモデルHMMの各状態に属するGMMから得られる最も高い出力確率bg^(ot)の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。 - 請求項6または請求項7に記載した音声認識装置において、
前記信頼度スコアを入力として、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御部を、さらに備え、
前記音声認識処理部は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う、
ことを特徴とする音声認識装置。 - 請求項6〜8の何れかに記載した音声認識装置において、
複数の音声ファイルの前記信頼度スコアから、信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理部と、
信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理部と、
をさらに備えることを特徴とする音声認識装置。 - 請求項6〜9の何れかに記載した音声認識装置において、
前記信頼度スコアを入力として、その信頼度スコアの値が一定範囲内か否かを判定して教師なし適応制御信号を出力する教師なし適応制御部と、
前記音声認識の結果と前記教師なし適応制御信号を入力として、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第2認識処理部と、
をさらに備えることを特徴とする音声認識装置。 - 請求項1から5の何れかに記載した音声認識方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010171020A JP5427140B2 (ja) | 2010-07-29 | 2010-07-29 | 音声認識方法、音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010171020A JP5427140B2 (ja) | 2010-07-29 | 2010-07-29 | 音声認識方法、音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012032538A JP2012032538A (ja) | 2012-02-16 |
JP5427140B2 true JP5427140B2 (ja) | 2014-02-26 |
Family
ID=45846027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010171020A Expired - Fee Related JP5427140B2 (ja) | 2010-07-29 | 2010-07-29 | 音声認識方法、音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5427140B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6679898B2 (ja) | 2015-11-24 | 2020-04-15 | 富士通株式会社 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
CN109273012B (zh) * | 2018-09-06 | 2023-01-31 | 河海大学 | 一种基于说话人识别和数字语音识别的身份认证方法 |
CN111833867B (zh) * | 2020-06-08 | 2023-12-05 | 北京嘀嘀无限科技发展有限公司 | 语音指令识别方法、装置、可读存储介质和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056793A (ja) * | 1998-08-12 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP5315976B2 (ja) * | 2008-12-19 | 2013-10-16 | カシオ計算機株式会社 | 音声認識装置、音声認識方法、および、プログラム |
-
2010
- 2010-07-29 JP JP2010171020A patent/JP5427140B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012032538A (ja) | 2012-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
US7693713B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US8046221B2 (en) | Multi-state barge-in models for spoken dialog systems | |
US8775184B2 (en) | Evaluating spoken skills | |
US8000971B2 (en) | Discriminative training of multi-state barge-in models for speech processing | |
KR20050082249A (ko) | 도메인 기반 대화 음성인식방법 및 장치 | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP4852129B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
Nouza et al. | Fast keyword spotting in telephone speech | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
Breslin et al. | Continuous asr for flexible incremental dialogue | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP2013114202A (ja) | 音声認識方法とその装置とプログラム | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP7259988B2 (ja) | 検知装置、その方法、およびプログラム | |
US20240153493A1 (en) | Techniques for improved audio processing using combinations of clipping engines and acoustic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5427140 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |