JP4298672B2 - 混合分布hmmの状態の出力確率計算方法および装置 - Google Patents

混合分布hmmの状態の出力確率計算方法および装置 Download PDF

Info

Publication number
JP4298672B2
JP4298672B2 JP2005113954A JP2005113954A JP4298672B2 JP 4298672 B2 JP4298672 B2 JP 4298672B2 JP 2005113954 A JP2005113954 A JP 2005113954A JP 2005113954 A JP2005113954 A JP 2005113954A JP 4298672 B2 JP4298672 B2 JP 4298672B2
Authority
JP
Japan
Prior art keywords
output probability
distribution
maximum
calculation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005113954A
Other languages
English (en)
Other versions
JP2006293033A (ja
Inventor
寛樹 山本
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005113954A priority Critical patent/JP4298672B2/ja
Priority to US11/398,620 priority patent/US7813925B2/en
Publication of JP2006293033A publication Critical patent/JP2006293033A/ja
Application granted granted Critical
Publication of JP4298672B2 publication Critical patent/JP4298672B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、混合分布HMMの状態の出力確率を計算する方法および装置に関する。
HMM(隠れマルコフモデル)は、時系列信号を表現するのに適しており、音声認識や動画像認識など時間変動する信号を扱うパターン認識の分野で広く用いられている。
一般にHMMは複数の状態で構成され、各状態で信号を出力する確率である出力確率と状態間を遷移する確率である遷移確率で表される。図2に、3状態で構成したHMMの一例を示す。図2において、sは状態インデックス、a(i,j)はi番目の状態iから状態jに遷移する遷移確率、b(i,o)は状態iにおいて信号oを出力する出力確率である。パターン認識では、複数のHMMで認識対象の事象をモデル化しておき、時系列信号O(t)(t=1〜T)を観測した際に、各HMMについてその信号系列がHMMから出力される確率を遷移確率および出力確率から求め、最も確率が高い事象を認識結果とする。
HMMやHMMを用いたパターン認識の方法のより詳しい説明については、多くの文献で紹介されているので詳細な説明は省略する。例えば、HMMを用いた音声認識については非特許文献1に詳しく紹介されている。
音声認識では、出力確率分布を複数の連続分布の和で表した混合分布HMMがよく用いられる。図3にその例を示す。図3の例は、HMMの状態の出力確率分布(301)を、分布1(302)と分布2(303)の和で表したものである。信号 oが観測されたときの出力確率値b(o)は、分布1(302)から求まる出力確率b'(1,o)と分布2(303)から求まる出力確率b'(2,o)を用いて、b(o) = b'(1,o) + b'(2, o) で求める。
図3の例では、簡単のため観測信号が1次元の場合について説明したが、音声認識をはじめとするパターン認識では、観測信号として複数の特徴量を用いるのが一般的なので、出力確率分布は多次元の混合連続分布で定義される。また、出力確率の計算が簡単な正規分布がよく用いられており、混合分布の出力確率は複数の正規分布の出力確率の重み付き和で計算される。
また、図3では混合する分布の数(混合数)が2つの場合で説明したが、認識精度の高いモデルを作成するためには、出力確率分布を精密に表現するために混合数を多くする必要がある。
実際の出力確率は例えば無相関正規分布を用いた場合の混合分布の出力確率は次式で計算できる。
Figure 0004298672
Figure 0004298672
数1、数2において、各変数は次の通りである。
K : 使用する特徴量(観測信号)の次元数、
O={o(1),o(2),...,o(K)} : 観測信号(K次元ベクトル)、
b(O):混合分布の出力確率、
b'(m,O):分布mの出力確率、
M:混合数、
w(m):分布mに対する重み、
σ2 (m,k):分布mのk次元の分散、
μ(m,k):分布mのk次元の平均
コンピュータ上で実際に出力確率を計算する場合は次式に示すように重み付き出力確率の対数値B'(m,O)を計算するのが一般的である。
Figure 0004298672
対数値にすることでアンダーフローを回避し、また、数1のべき乗計算の項が展開されコンピュータの計算負荷が少なくなるという利点がある。観測信号によらない定数部分(C(m))は事前に計算しておくことができる。最終的に求める混合分布の出力確率の対数値B(O)は、次式のようになる。
Figure 0004298672
数4では、各分布の重み付き対数出力確率値が求まった後、混合分布の出力確率値を計算するために、べき乗計算と自然対数の計算がなお必要である。この計算を簡素化する方法として、非特許文献2、特許文献3に出力確率演算の近似方法が開示されている。
非特許文献2では、混合分布の出力確率を求める際に、各分布の出力確率の和を求める代わりに、各分布の出力確率のうち最大の出力確率で近似することで計算量の削減を行っている。すなわち、数2のかわりに次式で混合分布の出力確率を計算する。
Figure 0004298672
特許文献3には、非特許文献2と同様の手法を状態遷移出力型HMMに適用した例が示されている。
数5の近似演算を数4に用いると、次式のように混合分布の対数出力確率の演算が簡略化できる。
Figure 0004298672
Lawrence Rabiner, Biing-Hwang Juang著, "Fundamentals of Speech Recognition", Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing Series), 1993, ISBN 0-13-015157-2 H. Ney, A. Noll 著, "Phoneme modeling using continuous mixture densities", Proc. ICASSP88, pp.437-440, 1988 特許第2983364号公報
上述の従来手法は、近似誤差による認識精度の劣化が少なく優れた手法であるが、混合分布HMMの出力確率計算には、依然として膨大な計算量が必要である。
本発明は、混合分布HMMの出力確率計算の計算量をさらに削減することを目的とする。
本発明の一側面は、記憶装置に記憶された認識対象の事象をモデル化した混合分布HMMを用いて、観測信号のパターン認識を行うパターン認識装置によって実行される、混合分布HMMの状態の出力確率計算方法に係り、第1の観測信号について、状態に属する全分布の重み付き出力確率を計算し、その最大値および、最大値を出力する分布である最大分布を求め、求まった最大値を混合分布の出力確率とする第1の出力確率計算工程と、第1の出力確率計算工程で求められた最大分布を特定する情報を記憶装置に格納する最大分布記憶工程と、所定の条件を満たす場合、第1の観測信号よりも後に観測された第2の観測信号については、第1の出力確率計算工程に代えて、最大分布記憶工程において記憶装置に格納された最大分布の重み付き出力確率を計算し、その計算した重み付き出力確率を混合分布の出力確率とする第2の出力確率計算工程と、を有し、前記所定の条件は、最後に行われた第1の出力確率計算工程の実行時から所定時間経過していないこと、とすることを特徴とする。
本発明によれば、従来よりも混合分布HMMの出力確率計算の計算量を削減することができる。このため、例えば混合分布HMMを用いた音声認識装置に本発明を適用した場合には、従来よりも少ない計算量で音声認識を実施することができ、応答速度がい音声認識を実現できる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。
(実施形態1)
観測信号の時間変化が緩やかである場合、ある時刻tに観測された信号O(t)に対して最大出力確率となる分布は、わずかに変動した次の時刻の観測信号O(t+1)においても、最大出力確率となる可能性が高いと考えられる。つまり観測信号の変化が少ない場合は、最大出力確率となる分布も変動しないと考えられる。図4に簡単な例を示す。図4において上記した数5による近似演算を当てはめると、観測信号o(t)に対する混合分布の出力確率b(o(t))は、o(t)の出力確率が高い分布1(301)の出力確率値b'(1,o(t))で近似される。次の時刻t+1の観測信号o(t+1)が図4に示したようにo(t)に対してあまり変動しなかった場合、o(t+1)に対する混合分布の出力確率b(o(t+1))もまた、分布1の出力確率値b'(1,o(t+1))で近似される。
本発明は、観測信号の変化が少ない場合、混合分布の出力確率を最大にする分布も変化しない可能性が高いことを利用して、混合HMMの各状態の出力確率を求める際に、状態ごとに最大出力確率となる分布を記憶しておき、観測信号の変化が少ないと判断される場合には記憶した分布の出力確率を混合分布の出力確率とするものである。こうすることで混合分布の出力確率を計算する際に他の分布の出力確率計算を省き、出力確率に要する計算量を削減する。
本実施形態では、短時間での観測信号の時間変化は少なく、近接した期間では同一の分布が最大の出力確率になると仮定して、出力確率を最大にする分布を求めた後、一定期間はその分布の出力確率のみを計算する方法について説明する。
なお、本実施形態では、音声認識装置に本発明を適用する場合について説明するが、本発明は、音声認識装置以外にも、混合分布HMMの出力確率計算を必要とするパターン認識装置(例えば、画像認識装置など)にも適用できることは言うまでもない。
また、本実施形態では、出力確率の対数値を計算する場合について述べるが、対数値ではない出力確率にも適用可能である。
図1は、本実施形態に係る音声認識装置の機能ブロック図である。音声検出部101は、入力音声信号から音声区間を検出する。音響処理部102は、音声検出部101で検出された音声区間の音声信号から、例えばLPCケプストラムやメルケプストラム係数などの音声認識に用いるK次元の特徴ベクトルO(t) ={o(t,1), ..., o(t,k), ..., o(t,K)}(1≦t≦T) を計算する。尤度計算部103は、観測信号としての特徴ベクトルO(t)と音響モデル(HMM)105を参照して、言語探索部104で実行する探索処理に必要な混合分布HMMの状態sの対数出力確率B(s, O(t)) (1≦s≦S) を計算する (sは状態のインデックス)。探索部104は、認識対象語を列挙した認識辞書や受理可能な文法を記録した言語モデル106および音響モデル105から、音声認識に必要なHMM状態系列を構成し、尤度計算部103で計算された各状態の対数出力確率およびHMMの状態遷移確率を参照して、例えばViterbiアルゴリズムを用いてHMM状態系列ごとに出力確率の累積値を求める。そして、累積値が最も大きいHMM状態系列を認識結果とする。
以上のような構成の音声認識装置に、本発明に係る混合分布HMMの出力確率計算手法を適用する場合について、以下で説明する。
本実施形態における尤度計算部103の詳細な機能ブロック図を、図5に示す。図示のように、この尤度計算部103は、出力確率の計算方法が相異なる出力確率計算部A(503)と、出力確率計算部B(504)とを有する。出力確率計算部Aは、混合分布の全ての分布について対数出力確率を計算して、その最大値を状態の対数出力確率とする。すなわち、先述の数6に示した計算を実施する。その計算後、最大値を出力する分布を特定する情報(例えば、インデックス)は最大分布記憶部505に記憶され、その計算を実施した時刻は最大分布計算時刻記憶部502に記憶される。他方の出力確率計算部Bは、最大分布記憶部505に記憶されている分布の対数出力確率を計算し、その値を状態の対数出力確率とする。
計算方法切替部501は、出力確率の計算方法の切り替えおよび切り替えのための条件判断を行う。音声認識装置の起動後に初めて出力確率を計算する場合や、最大分布計算時刻記憶部502に記憶されている時刻から一定期間経過している場合は、出力確率計算部Aを選択し、最後に最大分布の計算を行ってから一定期間内は、出力確率計算部Bを選択する。このようにして出力確率計算の方法の切替え制御を行う。
次に、時刻tに観測された信号ベクトルO(t)に対する状態sの対数出力確率B(s,O(t))の計算手順について図6のフローチャートを用いて説明する。
音声認識装置の起動後、状態sの対数出力確率を初めて計算する場合は(ステップS101、YES)、状態sの全分布m(1≦m≦M(s)、M(s)は状態sの混合数)の対数出力確率B'(s,m,O(t))を計算し、その最大値を状態sの対数出力確率B(s,O(t))とする(ステップS103)。このとき、対数出力確率が最大となる分布(最大分布)を特定する情報であるインデックスmをm_max(s)とする。そして、そのm_max(s)を最大分布記憶部505に記憶するとともに、状態sの最大分布を計算した時刻t'(s)を最大分布計算時刻記憶部502に記憶する(ステップS104)。
一方、状態sの対数出力確率を計算するのが初めてではない場合で(ステップS101、NO)、現在時刻tが、最後に状態sの最大分布m_max(s)を計算した時刻t'(s)から一定期間(Th1(s))を経過していない場合(ステップS102、NO)は、状態sの最大分布はm_max(s)になると仮定して、分布m_max(s)の対数出力確率B'(s,m_max(s),O(t))を状態sの対数出力確率B(s,O(t))とする(ステップS105)。
また、ステップS102において、現在の時刻がt'(s)から一定期間(Th1(s))を経過した場合は、観測信号が最大分布を計算した時から大きく変化している可能性があり、対数出力確率が最大となる分布も変わる可能性があるので、あらためて全分布の対数出力確率および最大分布の計算をやり直し、t'(s)およびm_max(s)を更新する(ステップS103)。
以上の処理において、ステップS101、S102の条件判定は計算方法切替部501によって実行され、ステップS103の対数出力確率の最大値の計算およびステップS104の最大分布計算時刻の更新処理は出力確率計算部A(503)によって実行され、ステップS105の記憶されている分布の対数出力確率の計算は出力確率計算部B(504)によって実行される。また、ステップS103で求めたm_max(s)は、状態sの最大出力確率を与える分布として最大分布記憶部505に記憶され、また、ステップS104で更新した状態sの最大分布を計算した時刻t'(s)は最大分布計算時刻記憶部502に記憶される。
ステップS103、S105における、B'(s,m,O(t))の計算は、先述の数3に状態s、時刻tの添字が追加されただけで計算自体は同一となる。添字の追加により、数3は次式のようになる。
Figure 0004298672
数7における各変数の説明は次の通りである。
O(t)={o(t,1), ..., o(t,k), ..., o(t,K)}:時刻tの観測信号(K次元ベクトル)、
w(s,m):状態sの分布mに対する重み、
σ2 (s,m,k):状態sの分布mのk次元の分散、
μ(s,m,k):状態sの分布mのk次元の平均
以上説明したように出力確率計算を実施することで、ある状態sの混合分布について最大出力確率となる分布m_max(s)をいったん求めると、続くTh1(s)-1の期間ではm_max(s)以外のB'(s,m,O(t))の計算を省くことができる。例えば、状態sの混合数M(s)がM、Th1(s)の単位をフレームとしてTh1(s)=Nフレームとした場合の(N-1)フレームの間は、(M-1)回のB'(s,m,O(t))の計算を省けるのでトータルで(M-1)×(N-1)回のB'(s,m,O(t))の計算を省くことができる。このときの、従来法と本発明とのB'(s,m,O(t))の計算回数の比較結果を、図13に示す。
続いて、参考のため、本発明の効果を調べるために発明者等が行った音声認識実験の結果について説明する。
男女14名が都市名を発声した540発声を、800状態の混合分布HMMを用いて音声認識した場合の認識率および音声認識の処理時間を、本発明を適用した場合と適用しなかった場合について調べた。認識対象語数は100である。また、実験では混合数の違いによる効果の違いを比較するため、混合数2および混合数8の2種類のHMMを用いた。本実施形態におけるTh1(s)は、HMMの状態によらず一律に2として行った。この実験結果を、図14に示す。
同図は、左の列から順にHMMの混合数、手法(従来法/本発明)、認識率、処理時間を表している。本発明の認識率のカッコ内の数字は、従来法の認識率との差を示している。また、処理時間は各混合数のHMMにおいて従来法の処理時間を1.0とした場合の本発明の処理時間を表している。
この結果から、本発明は、認識率をほぼ同等に保ったまま音声認識の処理時間を削減できることがわかる。また、HMMの混合数が多いほどその削減効果が大きいこともわかる。
(実施形態2)
本発明は、出力確率が最大になる分布(最大分布)を求める際に、その分布を記憶しておき、以降の出力確率計算時に観測信号の変化が少ない場合に、記憶されている最大分布の出力確率を混合分布の出力確率として他の分布の出力確率計算を省くことで計算量を削減する手法である。本実施形態では、別々の時刻に観測された観測信号同士の距離を計算し、その距離が閾値未満の場合を観測信号の変化が少ない場合とする。すなわち、最大分布を求めた時刻の観測信号と、現在の観測信号との距離が閾値未満の場合は、記憶されている最大分布の出力確率を混合分布の出力確率とする。
本実施形態における尤度計算部103を、図7に示す。これは、図5に示した実施形態1の構成に観測信号距離計算部506を加えた構成である。また、本実施形態における出力確率の計算手順を示すフローチャートを、図8に示す。このフローチャートに示すように、実施形態1とは、出力確率計算の方法を切り替える条件判定が異なる。具体的には、図6のステップS102がステップS106で置き換えられている。
以下、本実施形態における出力確率の計算手順の詳細を、実施形態1と異なる処理(ステップS106)についてのみ、図7および図8を用いて説明する。
新たに追加された観測信号距離計算部506では、異なる観測信号O(t)、 O(t')同士の距離D(O(t), O(t'))を、次式により計算する。
Figure 0004298672
図8のフローチャートにおいて、音声認識装置の起動後、状態sの対数出力確率を計算するのが初めてではない場合は(ステップS101、NO)、観測信号距離計算部506で、現在の観測信号O(t)とm_max(s)を計算した時刻t'(s)における観測信号O(t'(s))との距離D(O(t), O(t'(s)))を上記の数8に従って計算し、D(O(t), O(t'(s)))が閾値(Th2(s))未満の場合は、観測信号の時間変化が少なく状態sの最大分布は変わらないと仮定して、分布m_max(s)の対数出力確率B'(s,m_max(s),O(t))を状態sの対数出力確率B(s,O(t))とする(ステップS105)。
一方、ステップS106において、現在の時刻がD(O(t), O(t'(s)))が閾値(Th2(s))以上になった場合は、観測信号が大きく変化して対数出力確率が最大となる分布も変わる可能性があるので、あらためて全分布の対数出力確率および最大分布の計算をやり直し、t'(s)およびm_max(s)を更新する(ステップS103)。
なお、以上の説明では、観測信号距離計算部506で計算する2つの観測信号間の距離D(O(t), O(t'))を、数8に示したユークリッド距離で計算したが、本発明はこれに限るものではなく、例えば市街地距離、マハラノビス距離など別の距離尺度を用いて計算してもよい。
(実施形態3)
本実施形態は、ステップS105において出力確率計算部B(504)で計算される最大分布の出力確率値を、出力確率計算方法を切り替える基準とするものである。
混合分布において、ある分布の出力確率が閾値以上の場合は、その分布よりも大きい出力確率になる分布がないと判断できる場合がある。簡単な例を図9を用いて説明する。
図9において、分布1(302)の出力確率がx以上となる区間305では、分布1の出力確率は分布2(303)の出力確率よりも必ず大きくなる。本実施形態は、このような場合を利用して出力確率の計算計算方法を切り替えるようにしたもので、ある状態の対数出力確率を計算する際に、まず、記憶してある最大分布の出力確率を計算し、その値がある閾値以上の場合はその出力確率を混合分布の出力確率とし、閾値未満の場合は全分布の対数出力確率を計算し、その最大値および最大値となる分布を計算するようにしたものである。
本実施形態の尤度計算部103は、実施形態1の構成(図5)と同じで、出力確率の計算手順は図10に示すフローチャートのようになる。図10において、実施形態1、実施形態2とは、出力確率計算の方法を切り替える条件判定が異なる。具体的には、実施形態1におけるステップS102、実施形態2におけるステップS106の代わりに、ステップS107の条件判定処理が実行される。ここで、本実施形態では、記憶されている最大分布の出力確率をステップS107の条件判定に用いるため、このステップS107の前に、最大分布の出力確率計算を行うステップS105が実行される点に注意されたい。
以下、本実施形形態における出力確率の計算手順の詳細を、前述の他の実施形態とは異なる部分についてのみ、図5および図10を用いて説明する。
音声認識装置の起動後、状態sの対数出力確率を計算するのが初めてではない場合は(ステップS101、NO)、記憶されている最大分布m_max(s)の対数出力確率B'(s,m_max(s),O(t))を状態sの対数出力確率B(s,O(t))とする(ステップS105)。
次にステップS107において、ステップS105で求めたB(s,O(t))を閾値Th3(s)と比較して、閾値を超えていればステップS105で求めたB(s,O(t))をそのまま状態sの対数出力確率とする。B(s,O(t))が閾値Th3(s)以下の場合は、あらためて全分布の対数出力確率および最大分布の計算を行い、対数出力確率B(s,(O(t))、最大分布を計算した時刻t'(s)および最大分布m_max(s)を更新する(ステップS103)。
本実施形態において、閾値Th3(s) は、事前に決められた固定値を用いてもよいし、過去の対数出力確率との差、あるいは比などを用いても良い。この場合、Th3(s)を次式で定義することによって、様々な閾値の設定が可能になる。
Figure 0004298672
上記の数9において、α=1.0とすれば、時刻t'の対数出力確率との差βを閾値とすることになり、ステップS107において、ステップS105で求めたB(s,O(t))と時刻t'の対数出力確率B(s,O(t'))との差がβ以下(B(s,O(t))- B(s,O(t')) ≦ β)の時に、ステップS103の処理を行う。
また、β=0.0とすれば、時刻t'の対数出力確率との比αを閾値とすることになり、ステップS107において、ステップS105で求めたB(s,O(t))と時刻t'の対数出力確率B(s,O(t'))との比がα以下(B(s,O(t))/B(s,O(t') ≦ α)の時に、ステップS103の処理を行う。
また、対数出力確率を比較する対象の時刻t'は、最大分布を求めた時刻t'(s)でもよいし、単に一時刻前のt-1としてもよい。
(実施形態4)
上述の実施形態1〜3で用いた最大分布を計算するかどうかの条件判定(ステップS102、S106、S107)を複数組み合わせることも可能である。本実施形態では実施形態1と実施形態2とを組み合わせた場合を説明する。
本実施形態における尤度計算部103の詳細な構成は図7に示した実施形態2の機能ブロック図と同じである。本実施形態における出力確率の計算手順を示すフローチャートを図11に示す。本実施形態では、ステップS105の処理、すなわち出力確率計算部B(504)による計算を実施するかどうかの判定を、実施形態1で示したステップS102および実施形態2で示したステップS106の2つの判定方法によって行う。このようにすることで、ステップS105においてm_max(s)が間違っていた場合、すなわち、出力確率を最大とする分布が変わっていた場合、の出力確率計算の誤差を少なくし、単独の判定条件でステップS105を実施する実施形態1、実施形態2よりも認識精度の劣化を少なくすることが期待できる。その反面、本実施形態による計算量の削減効果は実施形態1、実施形態2よりも少なくなる。実施形態1や実施形態2で認識精度の劣化が著しい場合などに本実施形態を実施するのがよいと思われる。
なお、本実施形態では、ステップS102の後にステップS106の判定を行っているが、その順序を逆にして、ステップS106の後にステップS102の判定を行うようにしてもよい。
同様にして、その他の組み合わせ、あるいは全てを組み合わせた構成も実施可能である。その一例として、実施形態1〜3を全て組み合わせた場合の出力確率の計算手順のフローチャートを図12に示す。なお、この場合、尤度計算部103の構成は、実施形態2で用いた図7と同じになる。
(その他の実施形態)
上述の実施形態1〜4ではそれぞれ、ステップS102、S106、S107の判定に用いる閾値(Th1(s)、 Th2(s)、 Th3(s))を状態ごとに設定するようにしたが、本発明はこれに限るものではなく、全状態で共通としてもよいし、各状態の分布ごとに設定するようにしてもよい。あるいは、HMMの状態が属する音素あるいは母音や子音などといった音素クラスごとに設定するようにしてもよい。
ところで、図1に示した音声認識装置の機能構成は、専用のハードウェアロジックにより実現することもできるが、汎用のコンピュータシステムで実現することができるものである。
図1の音声認識装置を実現するコンピュータシステムの概略構成を、図15に示す。図示のコンピュータシステムは、システム全体の制御をつかさどるCPU1、ブートプログラムや固定的なデータ等を記憶しているROM2、メインメモリとして機能するRAM3をはじめ、以下の構成を備える。
HDD4は記憶手段としてのハードディスク装置であって、ここにOS10のほか、音声認識プログラム11、図1に示した音響モデル105および言語モデル106が格納される。音声認識プログラム11は、図1に示した音声検出部101、音響処理部102、尤度計算部103、および探索部104の各機能を実現するプログラムモジュールを含んでいる。HDD4は更に、図5あるいは図7に示した最大分布計算時刻記憶部502および最大分布記憶部505としても機能する。
VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することで画面表示装置の一例であるCRT6に表示させることができる。7および8はそれぞれ、入力装置としてのキーボードおよびマウスで、CPU1に割り込み信号を伝えるキーボードコントローラ7aおよびマウスコントローラ8bに接続されている。
以上の構成において、音声認識プログラム11は例えば、キーボード7あるいはマウス8からの特定の指示イベントに応じて起動される。その際に、音声認識プログラム11はRAM3にロードされ、CPU1によって実行される。これによってこのコンピュータシステムは音声認識装置として機能することになる。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(図6、図8、図10〜12のいずれかのフローチャートに対応するプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態に係る音声認識装置の機能ブロック図である。 3状態HMMの一例を示す図である。 従来の混合分布HMMの出力確率の計算手法を説明する図である。 本発明の混合分布HMMの出力確率の計算手法を説明する図である。 本発明の実施形態1および3における尤度計算部の詳細な機能ブロック図である。 本発明の実施形態1における出力確率の計算手順を示すフローチャートである。 本発明の実施形態2および4における尤度計算部の詳細な機能ブロック図である。 本発明の実施形態2における出力確率の計算手順を示すフローチャートである。 本発明の実施形態3における混合分布HMMの出力確率の計算手法を説明する図である。 本発明の実施形態3における出力確率の計算手順を示すフローチャートである。 本発明の実施形態4における出力確率の計算手順の一例を示すフローチャートである。 本発明の実施形態4における出力確率の計算手順の別の例を示すフローチャートである。 従来法と本発明とにおける、状態sの全分布mの対数出力確率B'(s,m,O(t))の計算回数の比較結果を示す図である。 本発明を適用した音声認識の認識率および処理時間の実験結果を示す図である。 図1の音声認識装置を実現するコンピュータシステムの概略構成を示すブロック図である。

Claims (5)

  1. 記憶装置に記憶された認識対象の事象をモデル化した混合分布HMMを用いて、観測信号のパターン認識を行うパターン認識装置によって実行される、混合分布HMMの状態の出力確率計算方法であって、
    第1の観測信号について、状態に属する全分布の重み付き出力確率を計算し、その最大値および、最大値を出力する分布である最大分布を求め、求まった最大値を混合分布の出力確率とする第1の出力確率計算工程と、
    第1の出力確率計算工程で求められた最大分布を特定する情報を記憶装置に格納する最大分布記憶工程と、
    現フレームが、第1の出力確率計算工程で最大分布が計算された時刻から所定時間内のフレームである場合、第1の観測信号よりも後に観測された第2の観測信号については、第1の出力確率計算工程に代えて、最大分布記憶工程において記憶装置に格納された最大分布の重み付き出力確率を計算し、その計算した重み付き出力確率を混合分布の出力確率とする第2の出力確率計算工程と、
    有することを特徴とする出力確率計算方法。
  2. 混合分布HMMの状態の出力確率を計算する出力確率計算装置であって、
    状態に属する全分布の重み付き出力確率を計算し、その最大値および、最大値を出力する分布である最大分布を求め、求まった最大値を混合分布の出力確率とする第1の出力確率計算手段と、
    第1の出力確率計算手段により求められた最大分布を特定する情報を記憶する記憶手段と、
    記憶手段に記憶された最大分布の重み付き出力確率を計算し、その計算した重み付き出力確率を混合分布の出力確率とする第2の出力確率計算手段と、
    現フレームが、第1の出力確率計算手段により最大分布が計算された時刻から所定時間内のフレームであるか否かに応じて、第1の出力確率計算手段と第2の出力確率計算手段とを切り替える制御手段と、
    有することを特徴とする出力確率計算装置。
  3. 請求項に記載の出力確率計算装置を含む音声認識装置。
  4. 請求項に記載の出力確率計算方法をコンピュータに実行させるためのプログラム。
  5. 請求項に記載のプログラムを記憶した、コンピュータで読み出し可能な記憶媒体。
JP2005113954A 2005-04-11 2005-04-11 混合分布hmmの状態の出力確率計算方法および装置 Expired - Fee Related JP4298672B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005113954A JP4298672B2 (ja) 2005-04-11 2005-04-11 混合分布hmmの状態の出力確率計算方法および装置
US11/398,620 US7813925B2 (en) 2005-04-11 2006-04-06 State output probability calculating method and apparatus for mixture distribution HMM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005113954A JP4298672B2 (ja) 2005-04-11 2005-04-11 混合分布hmmの状態の出力確率計算方法および装置

Publications (2)

Publication Number Publication Date
JP2006293033A JP2006293033A (ja) 2006-10-26
JP4298672B2 true JP4298672B2 (ja) 2009-07-22

Family

ID=37084159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005113954A Expired - Fee Related JP4298672B2 (ja) 2005-04-11 2005-04-11 混合分布hmmの状態の出力確率計算方法および装置

Country Status (2)

Country Link
US (1) US7813925B2 (ja)
JP (1) JP4298672B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4732030B2 (ja) * 2005-06-30 2011-07-27 キヤノン株式会社 情報処理装置およびその制御方法
WO2009040382A1 (en) * 2007-09-27 2009-04-02 Siemens Aktiengesellschaft Method and system for identifying information related to a good
WO2010131746A1 (ja) 2009-05-15 2010-11-18 日本電気株式会社 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム
JP6139430B2 (ja) * 2014-02-13 2017-05-31 日本電信電話株式会社 信号処理装置、方法及びプログラム
JP6139429B2 (ja) * 2014-02-13 2017-05-31 日本電信電話株式会社 信号処理装置、方法及びプログラム
CN109036471B (zh) * 2018-08-20 2020-06-30 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
JPS6034328B2 (ja) 1977-11-10 1985-08-08 日立電線株式会社 誘導電流を減少可能になる架空地線路
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
US5047952A (en) * 1988-10-14 1991-09-10 The Board Of Trustee Of The Leland Stanford Junior University Communication system for deaf, deaf-blind, or non-vocal individuals using instrumented glove
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
JP2662120B2 (ja) * 1991-10-01 1997-10-08 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置および音声認識用処理ユニット
JP2983364B2 (ja) 1992-01-23 1999-11-29 沖電気工業株式会社 隠れマルコフモデルと音声信号との類似度計算方法
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
JP3466661B2 (ja) 1993-06-29 2003-11-17 キヤノン株式会社 画像処理装置及びその方法
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
WO1997008685A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
JP3251480B2 (ja) 1995-10-27 2002-01-28 沖電気工業株式会社 音声認識方法
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
DE69613556T2 (de) * 1996-04-01 2001-10-04 Hewlett Packard Co Schlüsselworterkennung
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6009390A (en) * 1997-09-11 1999-12-28 Lucent Technologies Inc. Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US6216107B1 (en) * 1998-10-16 2001-04-10 Ericsson Inc. High-performance half-rate encoding apparatus and method for a TDM system
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
JP4293712B2 (ja) * 1999-10-18 2009-07-08 ローランド株式会社 オーディオ波形再生装置
KR100531549B1 (ko) * 1999-10-29 2005-11-28 마쯔시다덴기산교 가부시키가이샤 음성 인식 입력 음성의 음정 정규화 장치
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US6594393B1 (en) * 2000-05-12 2003-07-15 Thomas P. Minka Dynamic programming operation with skip mode for text line image decoding
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US7487083B1 (en) * 2000-07-13 2009-02-03 Alcatel-Lucent Usa Inc. Method and apparatus for discriminating speech from voice-band data in a communication network
JP3932789B2 (ja) * 2000-09-20 2007-06-20 セイコーエプソン株式会社 Hmmの出力確率計算方法および音声認識装置
DE10060654C1 (de) * 2000-12-06 2002-06-20 Varetis Ag Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine
JP3991629B2 (ja) * 2001-07-24 2007-10-17 セイコーエプソン株式会社 データ演算処理方法およびデータ演算処理プログラムを記録した記録媒体
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
US7184951B2 (en) * 2002-02-15 2007-02-27 Radiodetection Limted Methods and systems for generating phase-derivative sound
AU2002253416A1 (en) * 2002-03-27 2003-10-08 Nokia Corporation Pattern recognition
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
DE50305344D1 (de) * 2003-01-29 2006-11-23 Harman Becker Automotive Sys Verfahren und Vorrichtung zur Einschränkung des Suchumfangs in einem Lexikon für Spracherkennung
US7480617B2 (en) * 2004-09-21 2009-01-20 International Business Machines Corporation Method for likelihood computation in multi-stream HMM based speech recognition
US7499858B2 (en) * 2006-08-18 2009-03-03 Talkhouse Llc Methods of information retrieval

Also Published As

Publication number Publication date
US20060229871A1 (en) 2006-10-12
US7813925B2 (en) 2010-10-12
JP2006293033A (ja) 2006-10-26

Similar Documents

Publication Publication Date Title
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US6073099A (en) Predicting auditory confusions using a weighted Levinstein distance
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4298672B2 (ja) 混合分布hmmの状態の出力確率計算方法および装置
JPH0372998B2 (ja)
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP2010152751A (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US20100094629A1 (en) Weight coefficient learning system and audio recognition system
CN107610693B (zh) 文本语料库的构建方法和装置
US7072835B2 (en) Method and apparatus for speech recognition
JP4859125B2 (ja) 発音評定装置、およびプログラム
JP2002297181A (ja) 音声認識語彙登録判定方法及び音声認識装置
US20230069908A1 (en) Recognition apparatus, learning apparatus, methods and programs for the same
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP4424024B2 (ja) 素片接続型音声合成装置及び方法
JP4379050B2 (ja) 音声認識装置、音声認識高速化方法、および、プログラム
Heigold et al. Investigations on convex optimization using log-linear HMMs for digit string recognition
JP3908878B2 (ja) 連続音声認識装置の音素認識性能測定装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees