JP2001511267A - A method for determining model special factors for speech pattern recognition. - Google Patents
A method for determining model special factors for speech pattern recognition.Info
- Publication number
- JP2001511267A JP2001511267A JP53225499A JP53225499A JP2001511267A JP 2001511267 A JP2001511267 A JP 2001511267A JP 53225499 A JP53225499 A JP 53225499A JP 53225499 A JP53225499 A JP 53225499A JP 2001511267 A JP2001511267 A JP 2001511267A
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- association
- models
- composite
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003909 pattern recognition Methods 0.000 title description 5
- 238000009826 distribution Methods 0.000 claims abstract description 64
- 239000002131 composite material Substances 0.000 claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract 5
- 230000006870 function Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims 1
- 239000000243 solution Substances 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000007983 Tris buffer Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/17—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】 物理的刺激の組により構成されるパターンを認識する本発明の方法は、1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の測定値pj(k|x),j=1...Mを確定する段階と、複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に正規化量を併合する段階と、上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため上記重み係数を最適化する段階と、上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識する段階とを含む。 (57) [Summary] The method of the present invention for recognizing a pattern constituted by a set of physical stimuli provides a set of learning observables, and applies a plurality of association models to obtain a specific learning stimulus. Various measurements p j (k | x), j = 1... Associated with the assignment of observables to one or more associated pattern classes. . . M is determined, and a logarithmic / linear association distribution is set by combining all of the plurality of association models according to their respective weighting factors, and the logarithmic / linear association distribution is normalized to generate a composite association distribution. Merging quantities, optimizing the weighting factors to minimize the error rate detected for the actual assignment to the composite distribution, and target observations representing the target pattern using the composite distribution Recognizing the quantity.
Description
【発明の詳細な説明】 音声パターン認識用のモデル特殊因子の決定方法 発明の背景 本発明は、物理的刺激の組により構成されたパターンを認識する方法に係わり 、この方法は、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階とを含む。 本発明は音声認識を想定しているが、音声理解、音声翻訳、並びに、手書き文 字認識、顔の認識、情景認識、及び、その他の環境の認識のような他の認識プロ セスにも同じように適用可能である。連合モデルは、パターンをクラスに割り当 てる確率分布を与える確率モデルである。他のモデルは、ファジー論理、或いは 、ターゲットとクラスとの間で測定された距離のような類似した測度に基づく。 従来の技術は、合成された認識の取り組みにおいてかかる種々のモデルを使用す るが、種々の協働するモデルに与えられる影響は偶然的に決まる。これは、僅か な基本モデル及び/又は唯一の基本モデルだけが実施できることを意味する。 本願の発明者は、最大エントロピー原理及び識別型学習原理の統合は、二つ以 上のモデルを合成する場合に、原則として、従来のヒューリスティックな方法よ りも優れた結果が得られることを見出した。また、直接的なデータ処理手続は、 これらの結果を低コストかつ高速に与える。 したがって、特に、本発明の目的は、識別型学習を通じてパラメータ推定を行 いながら、種々のサブモデルpj(k|X)の対数−線形結合を推定することで ある。以下、本発明の一面によれば、、物理的刺激の組を含むパターンを認識す ることにより上記本発明の目的を達成する方法は、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階と、 上記複合分布への実際の割当の検出される誤り率を最小限に抑えるため上記重 み係数を最適化する段階と、 上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識 する段階とを含む。特に、このような処理によって、任意の数のモデルを単一の 最大エントロピー分布に合成できるようになる。また、特性及び表現が非常に広 範囲に変化するモデルの相互作用を最適化することができる。 また、本発明は、上記本発明による連合分布をモデル化する方法に関する。こ れにより、複合分布の以降のユーザが適切なパターンを認識するための優れたツ ールが得られる。 また、本発明は、本発明によって生成された連合分布を用いてパターンを認識 する方法に関する。この方法は、上記本発明によって実現されたツールを適用す ることによりユーザに多大の利益を供与する。 本発明は、上記本発明による方法を実施するため構成されたシステムに関する 。本発明の更なる局面は従属した請求項に記載されている。 図面の簡単な説明 以下、好ましい実施例の詳細な説明を、特に、添付図面と共に参照して、本発 明の上記並びに他の局面及び利点について詳細に説明する。図面中、 図1は、本発明の方法の全体的なフローチャートであり、 図2は、本発明を実施する統合システムの構成図であり、 図3乃至21には、本発明による自動化方法と共に使用される種々の数式B1 −B20が表されている。 好ましい実施例の詳細な説明 本発明は、非常に多様な特性を有する物理量の取扱及び調節に関する数学のバ ランスのとれたアプリケーションに基づき、本発明の開示の大部分は高等数学に 基づく。しかし、スタート点と最終的な結果の両方は、不変的な物理的な面を有 し、関連性がある。音声認識は、種々のタイプの機械を制御するため使用される 。情景解析は無人自動車を誘導する。画像認識はゲートの開閉制御に使用される 。これら以外にも種々のアプリケーションがある。以下では、数式は通し番号が 付けられ、本文中で数式はその番号によって参照される。 本発明は、特に、音声認識用の幾つかの異なるモデルを単一のパターン認識処 理に合成し、最適化するため、モデル特殊因子を決定する。 統計的な音声認識モデルは、最小誤識別率の識別メカニズムを形成するためベ イズ判定理論を利用する。この理論に従って、所定の事後又は「現実の」確率分 布π(k|x)に対し、 が成立するときに、観測量xがクラスkに割り当てられる(簡単のため、x∈k )ような判定が行われる。 用語上、項log(π(k|x)/π(k|x)は、識別関数と称される。以 下、簡単のため、この項は、g(x,k,k’)のように表記する。判定ルール (1)が完全な文(センテンス)を認識するため使用されるとき、時間的な長さ Tを有する観測された表現x1 T=(x1,...,xT)は、長さSの発話語シー ケンスw1 S=(w1,...,wS)に分類される。しかし、事後分布π(w1 S| x1 T)は、人の複雑な自然音声会話を記述するので未知である。したがって、こ れは、分布p(w1 S|x1 T)によって近似されるべきである。ここまでは、パラ メトリック確率分布の形式による音声の音響音声学的並びに文法的モデリングは 、最良の結果を与える。分布p(w1 S|x1 T)の形式は予め決められ、分布の未 知パラメータは学習データに基づいて推定される。かくして獲得された分布p( w1 S|x1 T)は、次に、ベイズ判定に代入される。表現x1 Tは、 である語シーケンスw1 Sに割り当てられる。 識別関数の変換 によって、文法モデルp(w1 S)を音響音声学モデルp(x1 T|w1 S)から自然 な形で分離することができる。文法モデルp (w1 S)は、特に語シーケンスw1 Sの出現確率を記述し、音響音声学モデルp( x1 T|w1 S)は、語シーケンスw1 Sの発話中の音響信号x1 Tの出現確率を推定す る。両方のモデルは別々に推定できるので、比較的限定された個数の学習データ が最適に使用される。判定ルール(3)は、たとえ、分布pの推定が最適であっ たとしても、分布pの未知分布πからの偏差に起因して最適に達しない場合があ る。これにより、所謂識別法の使用が促される。識別型法は、学習データに基づ いて経験的に測定された判定ルールの誤識別率に関して分布pを直接的に最適化 する。このような識別型最適化の最も簡単な例は、所謂言語モデル因子λを使用 することである。このとき、式(3)は以下の通り変形される。 実験的に、判定ルール(4)によって生ずる誤識別率は、λ>1となるようλを 選択するときに減少する。λ=1である理論値から外れる理由は、複合事象(w1 S ,x1 T)の確率のモデル化が不完全若しくは不正確である点にある。事象(w1 S ,x1 T)を発生させる過程についての知識は不完全であるため、モデリングの 不正確さは回避できない。 従来、多数の音響音声学的並びに文法的言語モデルが解析されている。これら の解析の目的は、既知若しくは所与のモデルの中から着目している認識作業に対 する「最良」モデルを見つけることである。このような方式で決定されたすべて のモデルは、実際の確率分布の不完全な表現であるので、これらのモデルが音声 認識のようなパターン認識に使用されるとき、クラスへの誤った割当として誤認 識が生ずる。 本発明の目的は、現実の確率分布をより厳密に近似し、僅かな処理労力を加え るだけで実施することができ、特に、より多数の既知若しくは所与のモデルを単 一の分類メカニズムに簡単に統合できるモデリング、特に音声用モデリングを提 供することである。 発明の概要 本発明の解決法の新規な局面は、既知の音声特性を、複雑かつ困難な学習を伴 う単一の音響音声学的分布モデルや単一の文法的分布モデルに統合しようとしな い点である。多種多様な音声音響学的並びに文法的特性が、種々の分布pj(w1 S |x1 T),j=1...Mの形式で別々にモデル化され学習され、次に、複合 分布 た係数λjよって決定される。 因子C(Λ)は、確率に対する正規化条件が満たされたこと保証する。自由因 子Λ=(λ1,...,λM)trは合成された識別関数 の誤識別率ができる限り小さくなるように調整される。この基本的なアイデアを 実現するために多数の方法が考えられるが、以下では、その中の幾つかの方法を 説明する。 最初に、以下の説明で使用される種々の用語を定義する。各語シーケンスw1 S はクラスkを形成し、シーケンス長Sはクラス毎に異なる。音声発話x1 Tは観測 量xであると考えられ、その長さTは、観測量毎に異なる。 画像データは、(xn,k)によって表記され、n=1,...,N;k=0 ,...,Kである。尚、Nは音響学習観測量xnの個数であり、knは観測量xn と関連した正しいクラスを表す。また、k≠knなるkは、knに関して競合す る種々の不正確な対抗クラスである。 ベイズ判定ルール(1)に従って観測量xをクラスkに分類する場合を考える 。観測量xはクラスkの音響的な実現形式である。音声認識の場合に、各クラス kは語のシーケンスを代表する。しかし、この方法はより汎用的に適用すること が可能である。 学習用観測量xnによって生成されるクラスknは既知であり k);n=1...N;k=0...Kに基づいて構築され得る。この分布は、 この分布から獲得された判定ルールが学習データに適用された場合に最小の誤識 別率を有するように作られるべきである。完全な語シーケンスkを分類する場合 に、誤りのある語シーケンスk≠knを選択することによる分類誤りは、幾つか の語の誤りを生じさせる。正しくないクラスkと正しいクラスknとの間の語の 誤りの数は、レーベンシュタインの距離E(k,kn)と呼ばれる。E(k,kn )から形成される判定ルールは、単調特性が満たされるとき、最小の語誤識別率 を有する。 れ、正しいクラス割当てが得られない未知のテストデータに対しては定義されな い経験的誤り値E(k,kn)の関数である。したがって、この分布に基づいて 、任意の独立したテストデータに対し定義され、学習データに関する経験的な誤 識別率ができる限り小さ く抑えられた分布 が求められる。M個の予め決められた分布モデルp1(k|x),...,pM( k|x)が任意のテストデータに関して定義 に選択可能な係数Λ=(λ1,...,λM)trが、学習データに トデータに関して最適な判定を行う必要がある。 GPD法並びに最小二乗法は、分類器の平均誤識別率を近似する規準を最適化 する。GPD法と比べて、最小二乗法は最適な係数Λに対し閉じた解を与える点 が有利である。 次に、最小二乗法の場合について考える。識別関数(1)は分類器の品質を決 定するので、係数Λは経験的な誤識別率E(k,kn 最小限に抑える必要がある。rに関する加算は規準のすべての対抗クラスを含む 。D(Λ)を最小化することにより、式B15及びB16により詳細に示されて いる最適な係数ベクトル Λ=Q-1P(9) に対する閉形式の閉じた解が得られる。 式中、Qは所定の分布モデルの識別関数の自己相関マトリックス 数との間の関係を表現する。 仮説kの語の誤り率E(k,kn)は係数λ1,...,λM内で線形に選択さ れる。逆に、分布モデルpiの識別能力は、識別関数 によって直接的に係数を決めるため、係数λ1,...,λM内に線形に包含され る。 或いは、これらの係数はGPD法を用いて決定してもよい。GPD法の場合に 、平滑化された経験に基づく以下の誤り率E(Λ)は学習データに対し直接的に 平滑化され得る。 左辺の式は、観測量xnを誤って分類する危険に対する平滑化された測定量であ る。値A>0,B>0,η>0は、誤り分類危険の平滑化のタイプを決定し、予 め適切に与えられるべきである。E(λ)が対数線形結合の係数λに関して最小 化されるとき、λjに対し、ステップ幅Mを有する反復式 λj (0)=1 (11) 但し、j=1,...,M が得られる。また、式B13及びB14に従って、 Λ(1)=(λ1 (I),...,λM (1))tr;j=1,...,Mが得られる。 係数ベクトルΛは、識別関数 を用いて、規準E(Λ)に包含されることに注意する必要がある。 仮にE(Λ)が減少するとき、識別関数(12)は、式(9)及び(10)の ため、平均的に増加する。この結果として、判定ルールは更に改良される(式( 1)を参照のこと)。 上記説明では、すべての利用可能な知識源を単一のパターン認識システムに統 合することが目的であり、二つの原理が併合される。第1の原理は最大エントロ ピー原理である。この原理は、導入される仮説をできる限り減らし、その結果と して不確実さを最大化するように作用する。そのため、指数関数的な分布が使用 される。この方法では、知識源の組合せの構造が定義される。第2の原理は、種 々の知識源に割り当てられる重み付け係数及び関連したモデルを決めるため、識 別型学習を行う。パラメータを最適化することにより、誤りは最小限に抑えられ る。音声の場合、モデルは、意味論的モデル、統語論的モデル、音響的モデル及 びその他のモデルなどである。 この方法は、多種のサブモデルを対数線形結合し、識別型学習を通じてパラメ ータを推定する。このようにして、サブモデルの追加は認識スコアを改善させる 。さもなければ、着目中のモデルは無視される。しかし、サブモデルは決して認 識精度を低下させない。か くして、すべての利用可能なサブモデルが最適な結果を生ずるため合成される。 本発明の別のアプリケーションは、既存のモデル合成を新しい認識環境に適応さ せることである。 この処理の理論的なアプローチには以下の様々なステップが含まれる。 −経験的誤認識率のパラボリック平滑化 −「最小誤認識率学習」の理論の簡単化 −反復シーケンスを必要としない閉じた形式の解を供与すること また、本発明 によれば、以下の付加的な機能が付与される。 −最適言語モデル因子の推定 −対数線形隠れマルコフモデルの適用 −適モデル合成のための閉じた形式の式 −クラス特殊確率分布の識別型学習のための閉じた形式の式 以下、式(1)に指定された分類作業のため、真又は事後分布π(k|x)は 未知であるが、モデル分布p(k|x)によって近似される。二つの分布は、不 正確なモデリング仮説と、不十分なデータとに起因して異なる。その一例は、式 B1に使用される言語モデル因子λである。 形式的な定義は、式(5)に与えられるように種々のサブモデル結合に続いて 、項logC(Λ)は、形式的な確率分布を得るため正規化を行う。これにより 得られた識別関数は、 である。 誤認識率は最小化され、Λは最適化される。文レベルの最適化は 以下の通り行われる。 ・クラスk:語シーケンス ・観測量x:発話(例えば、文) ・正しい文を与えるN個の学習サンプルxn ・各サンプルxnに対し、 −kn:会話として正しいクラス −k≠kn:起こり得るすべての文、或いは、例えば、その妥当な部分集合で ある対抗クラス ・クラスの類似性:E(kn,k) −E:レーベンシュタイン距離、或いは、単調である同等に適切な測定量の適 当な関数 ・語シーケンスkn内の語数:Ln 次に、式B3は、目的関数である経験的誤認識率を与える。式中、左辺は、ク ラスkとknの間の誤りのある偏差の数に基づく最尤クラスを導く。 パラメータΛは以下のように推定される。 ・反復的な解を与える一般化された確率的降下法(GPD)による最小誤識別率 学習 ・パラボリック(双曲線型)平滑化と組み合わされ、閉じた形式の解を与える最 小誤識別学習の変形 ・閉じた形式の解を与える最小二乗法に基づく第3の方法 GPD法の場合に、平滑化された経験的誤識別率最小化は式B4に基づく。平 滑化された誤分類危険は式B5によって与えられ、平均的な競争は式B6により 与えられる。 平滑化された経験的誤識別率は式B7によって最小化される。式中、lは、簡 便な計算の場合に微分可能でなければならない損失関数である。競争は式B8に よって与えられ、式中、Eは誤りの数を示す。平均競争は、式B9において加算 することにより与えられる。平滑化された誤分類危険は、シグモイド関数のよう な挙動を示す式 B10によって表現される。Rn=−∞の場合に、損失関数lは零になり、Rn= +∞の場合に、限界値はl=1である。式中、A,Bは零よりも大きいスケーリ ング定数である。Λに関する微分によって、式B11が得られ、ここで、ベクト ルΛ(1)は式B12によって与えられ、最後の結果は式B13によって与えられ る。 また、本発明は、識別型モデル合成DMCを見つけるための閉じた形式の解を 提供する。この解は、最小二乗法に従って、識別関数と理想的な識別関数E(kn ,k)との間の距離を最小化させる。基本的な式はB14に示される。ここで 、Λ=Q-1Pであり、式中、Qは式B15で表された要素Qi,jを有するマトリ ックスである。また、Pは式B16で表された要素Piを有するベクトルである 。経験的誤識別率は既にB3に記載されている。計算上の理由から、経験的誤識 別率は、式B17によって表現されるような平滑化された経験的誤識別率によっ て近似される。ここで、kとknとの間の誤りの数が、シグモイド関数S又は同 様に有効な関数を用いて表される。有効な形式は、S(x)={(x+B)/( A+B)}2であり、式中、−B<x<Aかつ−B<0<Aである。より大きい xの値に対し、S=1であり、小さいxの値に対し、S=0である。このパラボ ラは有効であることが分かった。種々の他の二次曲線が有効であることが判明し た。関連した対抗側は、Sの中心及びパラボラ的に湾曲した間隔に存在する必要 がある。次に、最終的に、正規化定数が式B18に従ってΛに対し加算される。 第2の規準は、マトリックス計算式(α,λtr)tr=Q’-1P’に従って解法 され、ここで、Q’0.0=0、Q’0.j=1及びQ’j,0=1/2(A+B)2に従 って付加的な行及び列が正規化のためマトリックスQ’に付加される。相関マト リックスQ’の一般的な要素は式B19に与えられる。閉じた解は平滑化ステッ プ関数sによって実現可能にされることに注意する必要がある。また、ベクトル P’は、同様に正規化用要素P’0=1が与えられ、一方、ベ クトルP’の一般的な要素は式B20に与えられる。 2−gram、3−gram、4−gram又は5−gramモデルのような 多種のM−gram言語モデルや、ワード・インターナル・トライフォン(word- internal triphones)、クロス・ワード・3−gram(cross-word trigram)及 びペンタフォン(pentaphones)モデルのような種々の音響モデルを用いて実験が 行われる。一般的に、自動DMC処理は、同じサブモデルの集合を用いて非自動 精密チューニングによって生成される結果と同等に優れた結果を実現する。しか し、本発明の自動処理による付加的なサブモデルの追加は、誤りの数を約8%減 少させることができる。これは、改良された音声認識の技術における重大な前進 であると考えられる。本発明は、適切なサブモデルが利用できるならば、署名、 手書き文字、情景解析などの別のタイプのパターンを認識するため同様に優れた 結果を与えるものと期待される。一般的な認識のため使用される他のサブモデル には、mllrアダプテーション、1−グラム(unigram)、中間要素はドントケ アであるとみなされる距離1の2−グラム(distance-1-bigram)、ペンタフォン( pentaphones)及びwsjモデルが含まれる。このような環境で、本発明の自動処 理におけるサブモデルの数を増加させることにより、誤りの個数は8〜13%の 有意な量が減少される。 図1には、本発明の方法の全体的なフローチャートが示されている。ブロック 20では学習が開始され、学習用データ又はパターンはブロック22で与えられ る。始めに、要求されるソフトウェア及びハードウェア、特に、サブモデルが必 要に応じて宣言され、多様なパターンの識別が行われる。簡単のため、サブモデ ルの個数は2個に制限されている場合を考えるが、サブモデルの個数は3個以上 でも構わない。並行したブロック24及び26において、個々のサブモデルに対 するスコアが決定される。ブロック28において、種々のサブモデルの対数線形 結合が行われ、正規化される。ブロッ ク30において、最小の誤認識率が達成されるという観点でベクトルΛの自動最 適化が行われる。尚、ベクトルΛは、関連したサブモデル若しくはモデルが全く 改良を行わないことを知らせるため1個以上の零値成分を有することに注意する 必要がある。 次に、図1の右側に示されるようにベクトルΛ及び種々の適用可能なサブモデ ルがターゲットデータを認識するため使用される。左側の学習と右側の運用は、 時間的かつ空間的に互いに別々に行われ、例えば、ある人は、プロバイダ側で自 分の声に対し機械を学習させる。これには、付加的なデータ処理設備が必要とさ れる。次に、このように学習された機械は、家庭若しくは車内の環境、又は、そ れ以外の場所で使用される。したがって、ブロック40〜46は、同図の左側の ブロックと対応する。 ブロック48において、種々のサブモデルからのスコアが、学習側で見つけら れたベクトルΛの種々の成分を用いて対数線形結合される。最後に、ブロック5 0において、ターゲットデータがブロック50から得られた結果を用いて分類さ れる。ブロック52において、処理は終了し、準備が完了する。 図2は、本発明を実施するシステムの概略図である。必要な機能は標準的なハ ードウェア、又は、専用装置上に割り付けられる。ボイスレコーダ、2次元光学 式スキャナのような適当なピックアップ60が、必要に応じてA/D変換機能並 びに品質改良前処理と共に設けられる。ブロック64には、プログラムメモリ6 6からのプログラムを、ピックアップ60から到着したデータ、又は、データ記 憶装置62からのデータに適用する処理が示されている。データ記憶装置62に は、ピックアップ60から転送されたデータが持続的若しくは一時的に格納され る。ライン70は、スタート/ストップのようなユーザ制御信号、場合によって は、例えば、役に立たないサブモデルを完全に禁止するような学習用補助信号を 受信する。 ブロック68では、例えば、作表、印刷、適切な音声応答を得る ための会話構造をアドレス指定、或いは、適切な出力制御信号を選択することに より認識結果が使用可能にされる。ブロック72では、音声応答を出力し、認識 された人のためゲートを開き、分類機械内でパスを選択する等の認識された音声 の用法が示されている。 DETAILED DESCRIPTION OF THE INVENTION A method for determining model special factors for speech pattern recognition. Background of the Invention The present invention relates to a method for recognizing a pattern constituted by a set of physical stimuli. , This method is Supply a set of training observables and apply multiple associative models to identify Of various training observables associated with one or more associated pattern classes Measured value pj(K | x), j = 1. . . Determining M; Log / Line by combining multiple federated models all according to their respective weighting factors Set a shape-association distribution and generate a composite associative distribution. Merging the normalized amounts. Although the present invention assumes speech recognition, speech understanding, speech translation, and handwritten sentence Other recognition processes such as character recognition, face recognition, scene recognition, and other environment recognition. The same applies to Seth. The federated model assigns patterns to classes This is a stochastic model that gives a probability distribution. Other models are fuzzy logic, or , Based on similar measures, such as the distance measured between the target and the class. The prior art uses such various models in a synthesized cognitive effort. However, the impact on various cooperating models is determined by chance. This is slightly Means that only one basic model and / or only one basic model can be implemented. The inventor of the present application states that the integration of the principle of maximum entropy and the principle of discriminative learning requires two or more When synthesizing the above model, in principle, use the traditional heuristic method. It has been found that excellent results can be obtained. Also, the direct data processing procedure is These results are provided at low cost and at high speed. Therefore, in particular, it is an object of the present invention to perform parameter estimation through discriminative learning. While various submodels pjBy estimating the log-linear combination of (k | X) is there. Hereinafter, according to one aspect of the present invention, a pattern including a set of physical stimuli is recognized. A method for achieving the object of the present invention by Supply a set of training observables and apply multiple associative models to identify Of various training observables associated with one or more associated pattern classes Measured value pj(K | x), j = 1. . . Determining M; Log / Line by combining multiple federated models all according to their respective weighting factors Set a shape-association distribution and generate a composite associative distribution. Merging the normalized quantities; To minimize the detected error rate of the actual assignment to the composite distribution, Optimizing the coefficients Recognize target observables that express target patterns using the above composite distribution Performing the steps. In particular, such processing allows any number of models to be It becomes possible to synthesize the maximum entropy distribution. Also, the characteristics and expressions are very broad. It is possible to optimize the interaction of models that change over a range. The present invention also relates to a method for modeling the association distribution according to the present invention. This This makes it an excellent tool for subsequent users of the composite distribution to recognize appropriate patterns. Is obtained. The present invention also provides a method for recognizing a pattern using the association distribution generated according to the present invention. On how to do it. This method applies the tool realized by the present invention described above. This provides a great benefit to the user. The present invention relates to a system configured to carry out the method according to the invention described above. . Further aspects of the invention are set out in the dependent claims. BRIEF DESCRIPTION OF THE FIGURES The detailed description of the preferred embodiments, particularly with reference to the accompanying drawings, is hereby incorporated by reference. The foregoing and other aspects and advantages of the invention will be described in detail. In the drawing, FIG. 1 is a general flowchart of the method of the present invention; FIG. 2 is a configuration diagram of an integrated system that implements the present invention. 3 to 21 show various equations B1 used with the automation method according to the invention. -B20 is represented. Detailed Description of the Preferred Embodiment The present invention relates to the mathematical background for the handling and adjustment of physical quantities with very diverse properties. Based on well-balanced applications, much of the disclosure of the present invention Based. However, both the starting point and the end result have immutable physical aspects. And relevant Speech recognition is used to control various types of machines . Scene analysis guides unmanned vehicles. Image recognition is used for gate opening and closing control . There are various applications other than these. In the following, the formulas have serial numbers In the text, formulas are referred to by their numbers. In particular, the present invention combines several different models for speech recognition into a single pattern recognition process. The model special factors are determined in order to synthesize and optimize the logic. Statistical speech recognition models are used to form an identification mechanism with a minimum false positive rate. Utilizes the theory of noise determination. According to this theory, a given posterior or "real" probability For cloth π (k | x), Holds, the observed quantity x is assigned to class k (for simplicity, x∈k Is determined. In terms of terms, the term log (π (k | x) / π (k | x) is called a discriminant function. For simplicity, this term is represented as g (x, k, k '). Judgment rules Time length when (1) is used to recognize a complete sentence Observed representation x with T1 T= (X1,. . . , XT) Is a utterance word of length S Kens w1 S= (W1,. . . , WS)are categorized. However, the posterior distribution π (w1 S| x1 T) Is unknown because it describes a complex natural speech conversation of a person. Therefore, This is the distribution p (w1 S| X1 T). Up to this point, para Acoustic and grammatical modeling of speech in the form of metric probability distributions Give the best results. Distribution p (w1 S| X1 T) Format is predetermined and the distribution The intellectual parameters are estimated based on the learning data. The distribution p ( w1 S| X1 T) Is then substituted into the Bayesian decision. Expression x1 TIs Is a word sequence w1 SAssigned to. Transform identification function By the grammar model p (w1 S) With the acoustic phonetic model p (x1 T| W1 S) From nature Can be separated in various ways. Grammar model p (W1 S) Is, in particular, the word sequence w1 SIs described, and the acoustic phonetic model p ( x1 T| W1 S) Is the word sequence w1 SSound signal x during speech1 TThe appearance probability of You. Because both models can be estimated separately, a relatively limited number of training data Is optimally used. The judgment rule (3) indicates that even if the estimation of the distribution p is optimal. Even if the distribution p is different from the unknown distribution π, it may not be optimal. You. This encourages the use of so-called identification methods. Discriminative methods are based on training data. The distribution p directly with respect to the misclassification rate of the empirically measured decision rules I do. The simplest example of such discriminative optimization uses the so-called language model factor λ It is to be. At this time, equation (3) is modified as follows. Experimentally, the misclassification rate caused by the decision rule (4) is λ such that λ> 1. Decrease when choosing. The reason for deviating from the theoretical value of λ = 1 is that the composite event (w1 S , X1 T) Is that the modeling of the probability is incomplete or inaccurate. Event (w1 S , X1 T) Is incomplete, and the modeling process Inaccuracies cannot be avoided. In the past, a number of acoustic-phonetic and grammatical language models have been analyzed. these The purpose of this analysis is to address recognition tasks that focus on known or given models. Find the "best" model to do. Everything decided in this way Models are imperfect representations of the actual probability distributions, so these models Misidentified as incorrect assignment to class when used for pattern recognition such as recognition Knowledge arises. It is an object of the present invention to more closely approximate the real probability distribution and add a small amount of processing effort. In particular, a larger number of known or given models can be simply implemented. Provides modeling that can be easily integrated into a single classification mechanism, especially for speech. Is to provide. Summary of the Invention A novel aspect of the solution of the present invention is to combine known speech characteristics with complex and difficult learning. Do not attempt to integrate into a single acoustic phonetic distribution model or a single grammatical distribution model. It is a point. A wide variety of audioacoustic and grammatical properties are represented by different distributions pj(W1 S | X1 T), J = 1. . . Modeled and learned separately in the form of M, then distribution Coefficient λjIs determined. The factor C (Λ) ensures that the normalization condition for probabilities has been satisfied. Cause of freedom Child Λ = (λ1,. . . , ΛM)trIs the synthesized discriminant function Is adjusted so that the erroneous identification rate becomes as small as possible. This basic idea There are many possible ways to achieve this, but some of them are described below. explain. First, various terms used in the following description are defined. Each word sequence w1 S Form a class k, and the sequence length S differs for each class. Voice utterance x1 TIs observation It is considered to be the quantity x, the length T of which is different for each observable. The image data is (xn, K), where n = 1,. . . , N; k = 0 ,. . . , K. N is the acoustic learning observation amount xnIs the number of knIs the observation xn Represents the correct class associated with. Also, k ≠ knBecomes knCompete for Various incorrect counterclasses. Consider a case where observable x is classified into class k according to Bayes determination rule (1). . Observed quantity x is an acoustic implementation of class k. For speech recognition, each class k represents a sequence of words. However, this method should be applied more universally Is possible. Observation x for learningnClass k generated bynIs known k); n = 1. . . N; k = 0. . . It can be constructed based on K. This distribution is Minimal misunderstanding when judgment rules obtained from this distribution are applied to training data Should be made to have another rate. To classify a complete word sequence k Has the erroneous word sequence k ≠ knThere are some classification errors caused by selecting Will cause a word error. Incorrect class k and correct class knOf the word between The number of errors is the Levenshtein distance E (k, kn). E (k, kn ) Is the minimum word misclassification rate when the monotonic property is satisfied. Having. Is not defined for unknown test data for which a correct class assignment cannot be obtained. Empirical error values E (k, kn). Therefore, based on this distribution , Defined for any independent test data and empirical errors Recognition rate as small as possible Subdued distribution Is required. M predetermined distribution models p1(K | x),. . . , PM( k | x) is defined for any test data Coefficient Λ = (λ1,. . . , ΛM)trBut the training data It is necessary to make the best decision on the data. GPD and least squares methods optimize the criterion to approximate the average misclassification rate of the classifier I do. Compared to the GPD method, the method of least squares gives a closed solution for the optimal coefficient Λ Is advantageous. Next, the case of the least squares method will be considered. The discriminant function (1) determines the quality of the classifier. Coefficient Λ is empirical misclassification rate E (k, kn Must be minimized. Additions for r include all counterclasses of the criterion . By minimizing D (Λ), it is shown in more detail in equations B15 and B16 Optimal coefficient vector Λ = Q-1P (9) A closed-form closed solution to is obtained. Where Q is the autocorrelation matrix of the discriminant function of the given distribution model Expresses the relationship between numbers. The error rate E of the word of hypothesis k (k, kn) Is the coefficient λ1,. . . , ΛMLinearly selected within It is. Conversely, the distribution model piThe discriminating ability of the discriminant function To determine the coefficient directly, the coefficient λ1,. . . , ΛMLinearly contained within You. Alternatively, these coefficients may be determined using the GPD method. In case of GPD method , The following error rate E (Λ) based on the smoothed experience is directly Can be smoothed. The expression on the left is the observable xnIs a smoothed measure of the danger of misclassifying You. The values A> 0, B> 0, η> 0 determine the type of smoothing of the risk of misclassification, Should be given appropriately. E (λ) is minimum with respect to the coefficient λ of the log-linear combination Where λj, An iterative equation having a step width M λj (0)= 1 (11) However, j = 1,. . . , M Is obtained. Also, according to equations B13 and B14, Λ(1)= (Λ1 (I),. . . , ΛM (1))trJ = 1,. . . , M are obtained. The coefficient vector Λ is Note that the criterion E (Λ) is included in If E (Λ) decreases, the discriminant function (12) is given by the following equations (9) and (10). Therefore, it increases on average. As a result, the decision rule is further improved (Equation ( See 1)). The above discussion integrates all available knowledge sources into a single pattern recognition system. The purpose is to combine, the two principles are merged. The first principle is the maximum entro Pee principle. This principle reduces the hypotheses introduced as much as possible, And acts to maximize uncertainty. Therefore, an exponential distribution is used Is done. In this method, the structure of the combination of knowledge sources is defined. The second principle is seed To determine the weighting factors and associated models assigned to various knowledge sources, Perform alternative learning. By optimizing the parameters, errors are minimized You. For speech, models are semantic models, syntactic models, acoustic models and And other models. This method uses a log-linear combination of various sub-models and parameters through discriminative learning. Data. In this way, the addition of submodels improves the recognition score . Otherwise, the model of interest is ignored. However, submodels are never Does not reduce recognition accuracy. Or Thus, all available sub-models are synthesized for optimal results. Another application of the present invention is to adapt existing model synthesis to a new recognition environment. It is to let. The theoretical approach to this process involves the following various steps: -Parabolic smoothing of empirical misrecognition rate −Simplification of the theory of “learning the minimum false recognition rate” Providing a closed-form solution that does not require an iterative sequence. According to the above, the following additional functions are provided. -Estimation of optimal language model factors − Application of log-linear hidden Markov model -Closed-form expressions for proper model synthesis -Closed-form equations for discriminative learning of class-specific probability distributions In the following, for the classification work specified in equation (1), the true or posterior distribution π (k | x) is Unknown, but approximated by model distribution p (k | x). The two distributions are Differs due to accurate modeling hypotheses and insufficient data. One example is the formula The language model factor λ used for B1. A formal definition follows the various submodel combinations as given in equation (5). , Term logC (Λ) are normalized to obtain a formal probability distribution. This The obtained discriminant function is It is. The false recognition rate is minimized and Λ is optimized. Statement-level optimization It is performed as follows. ・ Class k: Word sequence -Observed quantity x: utterance (for example, sentence) ・ N learning samples x giving correct sentencesn ・ Each sample xnAgainst -Kn: The correct class for conversation −k ≠ kn: With all possible sentences or, for example, with a reasonable subset thereof An opposing class Class similarity: E (kn, K) -E: Levenshtein distance or the equivalent of a monotonically equivalent measured quantity Proper function ・ Word sequence knNumber of words in: Ln Next, equation B3 gives an empirical misrecognition rate which is an objective function. Where the left side is Ras k and knDerive a maximum likelihood class based on the number of erroneous deviations between Parameter Λ is estimated as follows. ・ Minimum misclassification rate by generalized stochastic descent method (GPD) giving iterative solution Learning • A combination with parabolic (hyperbolic) smoothing to give a closed-form solution A variant of small error recognition learning A third method based on the least squares method that gives a closed-form solution In the case of the GPD method, the smoothed empirical misidentification rate minimization is based on Equation B4. flat The smoothed misclassification risk is given by equation B5, and the average competition is given by equation B6. Given. The smoothed empirical misidentification rate is minimized by equation B7. Where l is a simple It is a loss function that must be differentiable for convenient calculations. Competition in formula B8 Where E is the number of errors. Average competition added in equation B9 Given by The smoothed misclassification risk is similar to the sigmoid function. Expressions that show a strange behavior It is represented by B10. Rn= −∞, the loss function l becomes zero and Rn= In the case of + ∞, the limit value is l = 1. Where A and B are scales greater than zero. Is a constant. Differentiation with respect to Λ yields equation B11, where the vector Ru(1)Is given by equation B12, and the final result is given by equation B13. You. The present invention also provides a closed form solution for finding discriminative model composite DMCs. provide. This solution is based on the least squares method and the discriminant function and ideal discriminant function E (kn , K) is minimized. The basic formula is shown in B14. here , Λ = Q-1P, where Q is an element Q represented by equation B15i, jMatri with It is a box. Further, P is an element P expressed by the equation B16.iIs a vector with . The empirical misidentification rate has already been described in B3. For computational reasons, empirical misconceptions The discrimination rate is determined by the smoothed empirical misidentification rate as represented by Equation B17. Is approximated. Where k and knBetween the sigmoid function S and Is expressed using a valid function. The valid form is S (x) = {(x + B) / ( A + B)}TwoWhere -B <x <A and -B <0 <A. Greater than For values of x, S = 1 and for small values of x, S = 0. This parabo La turned out to be effective. Various other quadratic curves have been found to be effective Was. The associated opposing side must be at the center of S and at the parabolically curved spacing There is. Next, finally, a normalization constant is added to Λ according to equation B18. The second criterion is a matrix calculation formula (α, λtr)tr= Q '-1Solve according to P ' Where Q '0.0= 0, Q '0.j= 1 and Q 'j, 0= 1/2 (A + B)TwoAccording to Thus, additional rows and columns are added to the matrix Q 'for normalization. Correlation mat The general elements of Rix Q 'are given in equation B19. Closed solutions have a smoothing step. Note that this is made feasible by the loop function s. Also, the vector P ′ is similarly a normalizing element P ′0= 1, while The general elements of vector P 'are given in equation B20. Such as a 2-gram, 3-gram, 4-gram or 5-gram model Various M-gram language models and word internal triphone (word- internal triphones), cross-word 3-gram (cross-word trigram) and Experiments using various acoustic models, such as the pentaphones model Done. In general, automatic DMC processing uses non-automatic Achieve results that are as good as those produced by fine tuning. Only However, the addition of an additional submodel by the automatic processing of the present invention reduces the number of errors by about 8%. Can be reduced. This is a significant step forward in improved speech recognition technology It is considered to be. The invention provides a signature, if an appropriate submodel is available, Equally good for recognizing other types of patterns, such as handwriting, scene analysis Expected to give results. Other submodels used for general recognition Has mlr adaptation, 1-gram (unigram), and the A 2-gram (distance-1-bigram) with a distance of 1 and pentaphone ( pentaphones) and wsj models. In such an environment, the automatic processing of the present invention is performed. By increasing the number of submodels in the logic, the number of errors can be 8-13% Significant amounts are reduced. FIG. 1 shows an overall flow chart of the method of the invention. block At 20 learning begins and learning data or patterns are provided at block 22. You. First, the required software and hardware, especially sub-models, are required. Declared as necessary, and various patterns are identified. For simplicity, Consider the case where the number of models is limited to two, but the number of submodels is three or more But it doesn't matter. In parallel blocks 24 and 26, Is determined. At block 28, the logarithmic linear of the various submodels The combination is performed and normalized. Block In step 30, in order to achieve the minimum false recognition rate, the automatic Optimization is performed. Note that the vector Λ indicates that the associated submodel or model Note that it has one or more zero components to signal that no improvement is made There is a need. Next, as shown on the right side of FIG. 1, the vector Λ and various applicable sub-models Is used to recognize the target data. The learning on the left and the operation on the right This is done separately from one another in time and space, for example, some Train the machine for minute voices. This requires additional data processing equipment. It is. Next, the machine learned in this way can be used in a home or car environment, or Used elsewhere. Therefore, the blocks 40 to 46 correspond to the left side of FIG. Corresponds to block. At block 48, scores from the various submodels are found on the learning side. Logarithmic linear combination using the various components of the resulting vector れ た. Finally, block 5 At 0, the target data is classified using the results obtained from block 50. It is. At block 52, the process ends and preparation is complete. FIG. 2 is a schematic diagram of a system for implementing the present invention. Required functions are standard It is allocated on hardware or a dedicated device. Voice recorder, two-dimensional optics A suitable pickup 60 such as a scanner is provided with an A / D conversion function if necessary. And pre-treatment for quality improvement. Block 64 includes the program memory 6 6 from the data arriving from the pickup 60 or the data The processing applied to the data from the storage device 62 is shown. In the data storage device 62 Indicates that the data transferred from the pickup 60 is stored permanently or temporarily. You. Line 70 is a user control signal such as start / stop, possibly Can, for example, generate training aids that completely prohibit useless submodels. Receive. At block 68, for example, tabulate, print, obtain an appropriate voice response Addressing the conversation structure or selecting the appropriate output control signal More recognition results are made available. At block 72, an audio response is output and recognized. Recognized voices, such as opening a gate for a trained person and selecting a path in the classification machine Is shown.
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),JP,US────────────────────────────────────────────────── ─── Continuation of front page (81) Designated country EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, I T, LU, MC, NL, PT, SE), JP, US
Claims (1)
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1997155191 DE19755191A1 (en) | 1997-12-12 | 1997-12-12 | Determining model-specific factors for assigning classes to test data in speech recognition |
EP98203725.1 | 1998-11-06 | ||
EP98203725 | 1998-11-06 | ||
EP19755191.2 | 1998-11-06 | ||
PCT/IB1998/001990 WO1999031654A2 (en) | 1997-12-12 | 1998-12-11 | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001511267A true JP2001511267A (en) | 2001-08-07 |
Family
ID=26042396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53225499A Pending JP2001511267A (en) | 1997-12-12 | 1998-12-11 | A method for determining model special factors for speech pattern recognition. |
Country Status (5)
Country | Link |
---|---|
US (2) | US6456969B1 (en) |
EP (1) | EP0960417B1 (en) |
JP (1) | JP2001511267A (en) |
DE (1) | DE69815067T2 (en) |
WO (1) | WO1999031654A2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004317845A (en) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | Model data generation device, model data generation method, and method therefor |
JPWO2005048239A1 (en) * | 2003-11-12 | 2007-11-29 | 本田技研工業株式会社 | Voice recognition device |
US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6456969B1 (en) * | 1997-12-12 | 2002-09-24 | U.S. Philips Corporation | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US6687689B1 (en) | 2000-06-16 | 2004-02-03 | Nusuara Technologies Sdn. Bhd. | System and methods for document retrieval using natural language-based queries |
US7343311B2 (en) * | 2002-03-01 | 2008-03-11 | I2 Technologies Us, Inc. | Generating an optimized supplier allocation plan |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US7680659B2 (en) * | 2005-06-01 | 2010-03-16 | Microsoft Corporation | Discriminative training for language modeling |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US8924212B1 (en) | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8831943B2 (en) * | 2006-05-31 | 2014-09-09 | Nec Corporation | Language model learning system, language model learning method, and language model learning program |
US20080059522A1 (en) * | 2006-08-29 | 2008-03-06 | International Business Machines Corporation | System and method for automatically creating personal profiles for video characters |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
US7925505B2 (en) * | 2007-04-10 | 2011-04-12 | Microsoft Corporation | Adaptation of language models and context free grammar in speech recognition |
US20080275743A1 (en) * | 2007-05-03 | 2008-11-06 | Kadambe Shubha L | Systems and methods for planning |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
US8843370B2 (en) * | 2007-11-26 | 2014-09-23 | Nuance Communications, Inc. | Joint discriminative training of multiple speech recognizers |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
KR102601848B1 (en) * | 2015-11-25 | 2023-11-13 | 삼성전자주식회사 | Device and method of data recognition model construction, and data recognition devicce |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US11270686B2 (en) * | 2017-03-28 | 2022-03-08 | International Business Machines Corporation | Deep language and acoustic modeling convergence and cross training |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0643897A (en) * | 1992-05-26 | 1994-02-18 | Ricoh Co Ltd | System for recognizing conversation |
JPH09245124A (en) * | 1996-03-06 | 1997-09-19 | Hewlett Packard Co <Hp> | Pattern recognizing method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680481A (en) * | 1992-05-26 | 1997-10-21 | Ricoh Corporation | Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system |
IT1257073B (en) * | 1992-08-11 | 1996-01-05 | Ist Trentino Di Cultura | RECOGNITION SYSTEM, ESPECIALLY FOR THE RECOGNITION OF PEOPLE. |
US5721808A (en) * | 1995-03-06 | 1998-02-24 | Nippon Telegraph And Telephone Corporation | Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US6456969B1 (en) * | 1997-12-12 | 2002-09-24 | U.S. Philips Corporation | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
-
1998
- 1998-12-11 US US09/367,214 patent/US6456969B1/en not_active Expired - Lifetime
- 1998-12-11 WO PCT/IB1998/001990 patent/WO1999031654A2/en active IP Right Grant
- 1998-12-11 EP EP98957052A patent/EP0960417B1/en not_active Expired - Lifetime
- 1998-12-11 JP JP53225499A patent/JP2001511267A/en active Pending
- 1998-12-11 DE DE69815067T patent/DE69815067T2/en not_active Expired - Lifetime
-
2002
- 2002-04-30 US US10/135,336 patent/US8112274B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0643897A (en) * | 1992-05-26 | 1994-02-18 | Ricoh Co Ltd | System for recognizing conversation |
JPH09245124A (en) * | 1996-03-06 | 1997-09-19 | Hewlett Packard Co <Hp> | Pattern recognizing method |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004317845A (en) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | Model data generation device, model data generation method, and method therefor |
JPWO2005048239A1 (en) * | 2003-11-12 | 2007-11-29 | 本田技研工業株式会社 | Voice recognition device |
JP4516527B2 (en) * | 2003-11-12 | 2010-08-04 | 本田技研工業株式会社 | Voice recognition device |
US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
Also Published As
Publication number | Publication date |
---|---|
WO1999031654A2 (en) | 1999-06-24 |
DE69815067T2 (en) | 2004-02-26 |
US20020165714A1 (en) | 2002-11-07 |
WO1999031654A3 (en) | 1999-08-26 |
US8112274B2 (en) | 2012-02-07 |
US6456969B1 (en) | 2002-09-24 |
DE69815067D1 (en) | 2003-07-03 |
EP0960417B1 (en) | 2003-05-28 |
EP0960417A2 (en) | 1999-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2001511267A (en) | A method for determining model special factors for speech pattern recognition. | |
JP3549681B2 (en) | Verification of utterance identification for recognition of connected digits | |
CN100363938C (en) | Multi-model ID recognition method based on scoring difference weight compromised | |
JP2000081894A (en) | Speech evaluation method | |
Ma et al. | A support vector machines-based rejection technique for speech recognition | |
Shinoda | Speaker adaptation techniques for automatic speech recognition | |
TWI395201B (en) | Method and system for identifying emotional voices | |
McDermott et al. | Prototype-based minimum classification error/generalized probabilistic descent training for various speech units | |
US20030023438A1 (en) | Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory | |
CN111986650B (en) | Method and system for assisting voice evaluation by means of language identification | |
Poddar et al. | Quality measures for speaker verification with short utterances | |
Schlüter | Investigations on discriminative training criteria | |
JP2007240589A (en) | Speech recognition reliability estimating device, and method and program therefor | |
Salamea Palacios et al. | On the use of phone-gram units in recurrent neural networks for language identification | |
GB2335064A (en) | Linear trajectory models incorporating preprocessing parameters for speech recognition | |
Sarkar et al. | Incorporating pass-phrase dependent background models for text-dependent speaker verification | |
Zhang | Joint training methods for tandem and hybrid speech recognition systems using deep neural networks | |
Pitrelli et al. | Confidence modeling for verification post-processing for handwriting recognition | |
Vlasenko et al. | Tuning hidden Markov model for speech emotion recognition | |
Nankaku et al. | Acoustic modeling with contextual additive structure for HMM-based speech recognition | |
Singh | Bayesian distance metric learning and its application in automatic speaker recognition systems | |
Parris et al. | Language identification using multiple knowledge sources | |
Shao et al. | Wavelet transform to hybrid support vector machine and hidden markov model for speech recognition | |
Liu et al. | An automated linguistic knowledge-based cross-language transfer method for building acoustic models for a language without native training data. | |
Satish et al. | Kernel based clustering for multiclass data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090610 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090805 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090914 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |