JP2007047818A - 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 - Google Patents

最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 Download PDF

Info

Publication number
JP2007047818A
JP2007047818A JP2006282015A JP2006282015A JP2007047818A JP 2007047818 A JP2007047818 A JP 2007047818A JP 2006282015 A JP2006282015 A JP 2006282015A JP 2006282015 A JP2006282015 A JP 2006282015A JP 2007047818 A JP2007047818 A JP 2007047818A
Authority
JP
Japan
Prior art keywords
cluster
hmm
speech
states
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006282015A
Other languages
English (en)
Inventor
Vassilios Digalakis
ディガラキス ヴァシリオス
Hy Murveit
ムーベイト ヘイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Stanford Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc, Stanford Research Institute filed Critical SRI International Inc
Publication of JP2007047818A publication Critical patent/JP2007047818A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • G10L15/146Training of HMMs with insufficient amount of training data, e.g. state sharing, tying, deleted interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】隠れマルコフモデルに基づく音声認識方法を提供すること。
【解決手段】本発明によれば、音声認識のための隠れマルコフモデル(HMM)のセットを構築するための計算的に実行可能な方法を用いる音声認識機が提供される。HMMは、部分的で、かつ最適な度合いの混合共通化を利用する。部分的に共通化されたHMMでは、完全に共通化されたシステムに比べて少ない計算オーバーヘッドで、完全に共通化されたHMMを用いるシステムに比べて、より多くの語彙の単語集積について改善された認識精度が実現される。この計算的に実行可能な技術は、互いに近接するガウス混合を共用するHMM状態のクラスタを決定するステップと、これらのクラスタに対してサブセットコードブックを改善するステップと、クラスタリングされた状態をもっともよく推定するためにそのコードブックにおけるガウシアンを再び計算するステップと、を含んでいる。
【選択図】図4

Description

(著作権の注記)
本特許書類の開示の一部は、著作権保護の対象となる素材を含んでいる。著作権所有者は、特許および商標庁の特許ファイルあるいは記録の中に存在するものである限り(そうでない場合には、発生しているすべての著作権を保有するものであるが)、本特許書類あるいは本特許の開示に関わる誰かによって複写機による複製がなされることに異議を申し立てる権利を有していない。
(発明の分野)
本発明は、一部は、海軍研究庁から契約番号第014-92-C-0154号で得られた許可により支援され、また一部は、カリフォルニア州、Menlo ParkのSRIInternationalによって支援された。政府は、この素材に対してある種の権利を有している。
本発明は、コンピュータによる音声認識に関しており、より具体的には、隠れマルコフモデル(HMM)状態認識のために部分的に共通化されたガウス混合を用いて、多くの語彙から音声を認識するための方法に関している。
この技術は、隠れマルコフモデルを用いる音声認識システムに関する技術分野の現状に精通していることを前提とするのみならず、統計学およびマルコフプロセスにも基本的に精通していることを前提としている。この技術分野の現状の例として、以下の特許および出版物を参照する。これらの特許および出版物は、本発明に関連して本願発明者の注意を惹いたものである。ただし、これらの参考文献のすべてが、関連する先行技術に値するものではない。
発明者 米国特許番号 発行日
Bahlら 第4,817,156号 89年3月28日
Levinsonら 第4,587,670号 86年5月6日
Juangら 第4,783,804号 88年11月8日
Bahlら 第4,741,036号 88年4月26日
論文
Rabiner、"ATutorial on Hidden Markov Models and Selected Applications in SpeechRecognition"、Proc. IEEE、第77巻、第2号、1989年2月。
Gray、"VectorQuantization"、The ASSP Magazine、第1巻、第2号、第3〜29頁(1984年4月)。
L. R.Rabiner、B. H. Juang、S. E. LevinsonおよびM. M. Sondhi、"Recognition of IsolatedDigits Using Hidden Markov Models with Continuous Mixture Densities"、BellSystems Tech. Journal、第64(6)巻、第1211〜34頁、1985年。
X. D.HuangおよびM. A. Jack、"Performance Comparison Between Semi-continuous andDiscrete Hidden Markov Models"、IEEE Electronics Letters、第24巻、第3号、第149〜150頁。
J. R.BellegardaおよびD. Nahamoo、"Tied Mixture Continuous Parameter Modeling forSpeech Recognition"、IEEE Tans. ASSP、第38(12)巻、第2033〜2045頁、1990年12月。
C. Lee、L.Rabiner、R. PieracciniおよびJ. Wilpon、"Acoustic Modeling for Large VocabularySpeech Recognition"、Computer Speech and Language、1990年4月、第127〜165頁。
D.Pallett、"Results for the Sept. 1992 Resource Management Benchmark"、DARPAWorkshop on Artificial Neural Networks and CSR、1992年9月。
D. B.PaulおよびE. A. Martin、"Speaker Stress-resistant Continuous SpeechRecognition"、Proc. ICASSP、第283〜286頁、1988年4月。
K. F.Lee、"Context-Dependent Phonetic Hidden Markov Models forSpeaker-Independent Continuous Speech Recognition"、IEEE Trans. ASSP、第599〜609頁、1990年4月。
L. R.Bahl、P. V. de Souza、P. S. Gopalakrishnan、D. Naha-mooおよびM. A. Picheny、"ContextDependent Modeling of Phones in Continuous Speech Using Decision Trees"、DARPAWorkshop on Speech and Natural Language、第264〜269頁、1991年2月。
M.-Y.HwangおよびX. D. Huang、"Subphonetic Modeling with Markov States−Senone"、Proc.ICASSP、第I-33〜36頁、1992年3月。
H.Murveit、J. Butzberger、V. DigalakisおよびM. Weintraub、"Large VocabularyDictation using SRI's DECIPHERTM Speech Recognition System: Progressive SearchTechniques"、Proc. ICASSP、第II-319〜II-322頁、1993年4月。
S. J.Young、"The General Use of Tying in Phoneme-Based HMM SpeechRecognizers"、Proc. ICASSP、第I-569〜I-572頁、1992年3月。
R. Haeb-UmbachおよびH.Ney、"Linear Discriminant Analysis for Improved Large Vocabulary ContinuousSpeech Recognition"、Proc. ICASSP、第I-13〜I-16頁、1992年3月。
J. L.GauvainおよびC. H. Lee、"Bayesian Learning of Gaussian Mixture Densities forHidden Markov Models"、Proc. DARPA Speech and Natural Language Workshop、1991年2月。
V.Digalakis、P. MonacoおよびH. Murveit、"Acoustic Calibration and Search in SRI'sLarge Vocabulary HMM-based Speech Recognition System"、Proc. IEEE ASRWorkshop、Snowbird、1993年12月。
K. F.LeeおよびH. W. Hon、"Speaker Independent Phone Recognition Using Hidden MarkovModels"、IEEE Trans. ASSP、第1641〜1648頁、1989年。
D.Pallet、J. G. Fiscus、W. M. FisherおよびJ. S. Garofolo、"Benchmark Tests for theDARPA Spoken Language Program"、HLT Workshop、Princeton、1993年3月。
Rabinerの論文は、本発明を理解するための基礎である、隠れマルコフモデルの音声認識への応用に関する概説論文である。この論文は、本願でも参考として援用される。
それ以外の特許および出版物は、一般的な分野でのその他の研究を記載している。
Bahlら(第'156号)は、次の話者に対してマルコフモデルの音声認識機の統計をトレーニングする装置および方法に関するIBMの研究を記載している。この特許における方法は、トレーニングデータが疎らである次の話者に対応する、マルコフモデルにおける遷移でのラベル出力確率を決定する。
隠れマルコフモデルについての標準的なトレーニングおよび認識アルゴリズムは、J. K. Baker、"Stochastic Modeling as a Means of Automatic SpeechRecognition"、PhD Thesis Carnegie-Mellon University Computer ScienceDepartment、1975年4月、あるいはLevinsonら、"An Introduction to the Application ofthe Theory of Probabilistic Functions on a Markov Process to Automatic SpeechRecognition"、Bell Sys. Tech. Journal、第62(4)巻、1983年4月に記載されている。
Levinsonらは、複数の格納され、制約された隠れマルコフモデル参照テンプレートと、複数の参照パターンの所定の音響的特徴を表す1セットの格納された信号とを含む音声認識機に関するAT& T Bell Labsの研究を記載している。
Juangらは、隠れマルコフモデル音声認識構成に関する別のAT& T Bell Labsの研究を記載している。マルコフモデル音声パターンテンプレートは、識別された音声パターンを解析して、音響特徴信号のフレームシーケンスを生成することによって形成される。
Bahlら(第'036号)は、音素の参照語順を表すマルコフモデルのために格納された確率ベクトルデータを重みづけすることによって、類似した音響で発された単語間の判別が改善される、音声認識システムに関するIBMの研究を記載している。この重みづけベクトルは、ビタビ整合(alignment)および正しい認識多変数(multivariate)分布と、正しくない認識多変数分布との間の差を最大化する多変数解析を用いて類似した音響の発話を比較することによって、それぞれの参照単語について得られる。
部分的に共通化されたガウス混合は、Lee(90年)およびHaeb-Umbach(92年)に記載されている。これらの参考文献において、同一の音素の異音(同一の音素の異なる文脈における例)に属するHMM状態のみが、同一の混合要素を共用する。しかし、これらの音声学的に共通化された混合(PTM)が、認識のパフォーマンスを大幅に改善することはなかった。
(発明の要旨)
本発明によれば、音声認識のための隠れマルコフモデル(HMM)のセットを構築するための計算的に実行可能な方法を用いる音声認識機が提供される。この方法では、HMMは、部分的で、かつ最適な度合いの混合共通化を利用する。部分的に共通化されたHMMでは、完全に共通化されたHMMを用いるシステムに比べて少ない計算オーバーヘッドで、多くの語彙の単語集積(wordcorpus)について、完全に共通化されたHMMを用いるシステムよりも改善された認識精度が実現される。この計算的に実行可能な技術は、互いに近接するガウス混合を共用するHMM状態のクラスタを決定するステップと、これらのクラスタに対してサブセットコードブックを改善するステップと、クラスタリングされた状態をもっともよく表現するためにそのコードブックにおけるガウシアンを再び計算するステップと、を含んでいる。
本発明は、添付の図面と併せて以下の詳細な説明を参照すれば、もっとよく理解することができるであろう。
コンピュータによる自動音声認識の課題および技術をみなおせば、本発明をより容易に理解できるだろう。
図1は、音声認識システムを設計するときに利用されるよくある従来技術のステップをおおまかに示す。システムの設計者の最初の仕事は、発話音および単語を表現するためにコンピュータにおいて用いられるモデルを選択することである(ステップA1)。モデルを選択することは、システムが音声のどのサブユニットを処理し、認識しようとするかを決定することを伴い、かつ物理的な音声信号をモデリングされたサブユニットにマッチングさせるアルゴリズムを決定することを伴う。認識のためのよくあるサブユニットは、音素である。ある公知の音声認識システムにおいては、英語は40の音素からなるものとしてとモデリングされる。例えば単語「water」のある発音は、4つの音素w、ao、t、およびaxrによって表現される。
与えられた音声信号における特定の音素を検出することは、複雑な仕事である。なぜなら発話のスタイルは、話者の間で大きく変化し、また、同じ話者であっても、時が異なれば大きく変化するからである。一般には、実際の信号データと、音声認識システムが音素がどのように発音されうるかということについて知っていることとの間の最もよいマッチングを決定するために、ある種の確率分析が音声信号に施される。入力音声を音素にマッチングさせるよくある方法は、隠れマルコフモデル(HMM)を用いる。あるHMM音声認識システムは、それぞれの音素について、3状態の方向付きHMM(図2に示す)を構築する。
いったんモデルが選択されると、音声認識システムをつくる中での次のステップは、モデルをトレーニングするのに用いるトレーニングデータのセットから特徴を抽出することである。音声データからの特徴抽出は、HMMをトレーニングすることにおいても、HMMを用いて音声信号中の単語を認識することにおいても用いられるプロセスである。特徴抽出プロセスは、音声入力を受け取り、時間的に音声入力をフレームに分割し(ある公知のシステムでは、フレームは10msの期間をもつ)、それぞれのフレームについて出力として特徴ベクトルのストリング(方向番号)をつくる。
モデルのトレーニング(ステップA3)は、最適なモデルパラメータを決定するためにトレーニングデータからの特徴を用いることからなる。トレーニングデータは、典型的には既知の音声サンプルを話す何人かの異なる話者からの記録された音声データからなる。集められた音声データからいったんある特徴データが抽出されると、それぞれの音素についてHMM用のパラメータを決定するためにアルゴリズムが用いられる。このアルゴリズムは、モデルによって予測された特徴および状態遷移と、トレーニングデータにおいて観測された特徴および状態遷移との間の最もよいマッチングを与えるために、特定の音素のHMMに対するパラメータを選択する。
いったんそれぞれのHMMについてのパラメータが決定されると、トレーニングされたHMMは、それらのパラメータとともに音声認識システムに格納される(ステップS4)。すると、認識システムには、未知の音声信号を処理して、話されたいちばん尤もらしい単語を決定することの準備が整う。
本発明は、第一にトレーニングおよび格納ステップに関しており、HMMおよびHMMパラメータを最適に共通化されたガウシアン混合として改善するための改善された方法および装置を含む。
図2は、単語「water」の最初の母音の音を表現する音素「ao」のような単一の音素に対する、あるタイプの3状態HMMを示す。3つの状態s1、s2およびs3は、与えられたフレームのあいだに検出されるかもしれない特徴の集積と関連づけられる。状態間のそれぞれの遷移と関連づけられているのは、フレーム間のその遷移をとる確率である。この確率は、モデルが選択されるときには設定されず、実際の音声データを用いるトレーニングステップにおいて決定される。遷移確率分布は、異なる発話速度または異なる発音に起因する音声の異なる部分において起こりうる変化する期間を暗示的にモデリングする。
3つの起こりうるHMM状態のそれぞれと関連づけられているのは、観測された特徴のセットyがそのそれぞれの状態において音声信号によって発生された確率を与える確率関数P(y|s1)、P(y|s2)、P(y|s3)である。一例として、関数P(y|s1)は、特徴セットyにより表現される音声の与えられたフレームが状態s1にある確率Ps1を与える。HMMは、さらに、関連づけられた確率関数P(s1|s1)、P(s2|s1)、P(s2|s2)、P(s2|s3)、P(s3|s3)、P(s3|sexit)とともに6つの遷移t1〜6を含む。このモデルによれば、遷移はフレームの境界ごとに起こり、上述の遷移確率関数が、システムがある特定の状態にあるものとした時の、その特定の遷移がとられる確率を決定する。
音声認識システムのためのモデルを選択する作業の一部として、システム設計者は、確率方程式P(y|s1)、P(y|s2)、P(y|s3)の形式を決定する。本発明によってつくられる音声認識システムは、音素に対するHMMにおいて用いられる確率関数を改善し、かつ、それらのHMMを音声認識のあいだに用いるために格納するための新規で改善された方法を用いる。
P(y|s1)のような与えられたHMM状態に対する確率関数を決定する作業は、図3に示される。曲線60は、観測されたトレーニング特徴データから決定されるP(y|s1)を表現する。音声認識システムの設計者は、ある特徴セットyが与えられる時に、そのシステムが状態s1にある確率をつくる確率関数P(y|s1)を改善したいと願う。この確率関数は、観測されたデータ60に「フィット」しなければならない。現存する音声認識システムにおいては、トレーニングデータは、曲線62a〜eで示される重みづけされたガウス確率関数の和によって表現されうることがわかっている。この重みづけされたガウス和は、この技術分野では「ガウス混合」とよばれる。もしそれぞれガウス曲線62a〜eが重みづけされたガウス関数λiGi(y)によって表現されるなら、確率P(y|s1)は、関数

(1) P(y|s)=ΣλiGi(y)

によって表現でき、このときsはHMM状態を、yは与えられたフレームtにおいて観測された特徴を、Gi(y)は一連のガウス曲線を、λiは一連の重みづけ定数を表現する。
もしこの音声認識システムの設計者が方程式(1)のかたちの確率関数を用いるモデルを選ぶなら、トレーニングアルゴリズムの作業は、それぞれのHMM状態について観測されたトレーニングデータに最もよくフィットするガウス曲線Giと、重みづけ係数λiとのセットを決定することである。いったんガウス曲線および重みづけ係数が決定されると、それらは認識に用いるために格納される。
従来技術の認識機との差異をうむ1つの特徴は、格納されたガウス曲線62a〜eが異なるHMM状態間で共用される程度である。ガウス混合を用いる十分に連続なHMMシステムにおいては、共用は存在しない。ガウス曲線の異なるセットが評価され、それぞれ異なるHMM状態について格納される。
他のシステムは、それぞれの状態の確率密度を近似するために共通化されたガウス混合を用いていた。そのようなシステムにおいては、ガウス曲線の同じセットがシステム中の2つ以上のHMM状態について用いられ、重みづけ係数λiだけがそれぞれのHMM状態について修正される。システム中のすべてのHMM状態について同一のガウス曲線が用いられる場合、この技術分野では、そのようなシステムは、完全に共通化されたガウス混合システムとよばれる。ある典型的な完全に共通化されたシステムにおいては、HMM確率密度を推定するためにトレーニングアルゴリズムは、250のガウシアンを計算し、250のλi係数が決定され、それぞれのHMM状態について格納される。この技術分野では、語「コードブック」は、共通化された混合システムにおけるHMM状態を近似するために用いられるガウス曲線のセットGiを表すために用いられる。
完全に共通化された混合の相対的なパフォーマンスおよび完全に連続なHMMは、特定のタスクおよび利用できるトレーニングデータの量に依存する。完全に連続なシステムは、典型的には、より多くの量のトレーニングデータと、システム中にそれぞれの状態のガウス曲線を格納するための、より多くの量のメモリとを必要とする。その結果、少量から中程度の量のトレーニングデータをもつ共通化された混合のHMMのパフォーマンスは、完全に連続なものより優れているようにみえるかもしれないが、より多くの量のトレーニングデータおよび適切なスムージングがあれば、完全に連続なHMMのパフォーマンスのほうがよい。
本発明によれば、音声認識機は、完全に共通でかつ完全に連続なHMMの間にあるHMM状態確率関数を改善し、かつ格納する方法を用いる。完全に連続でかつ完全に共通化された混合HMMの間のスペクトルにおいて1つの他の点だけが、従来技術において調べられた(90年のLeeおよび92年のHaeb-Umbachを参照)。これらの文献においては、同じ音素の異音に属するHMMの状態だけが同一の混合要素を共用する。これらの従来技術のシステムにおいては、コードブックの数は、システム中の音素の数に等しく、1つの音素のすべての異音およびその音素のすべての状態は、同じコードブックを共用していた。しかしこれらの音声学的に共通化された混合は、以前の研究においては大きく認識パフォーマンスを改善しなかった。
従来技術の共通化された混合は、いくつかの認識機において密度尤度のロバストな推定および効率的な計算を達成する。しかし、従来技術のシステムで用いられる典型的なコードブックのサイズは小さく、かつ音響空間のよい表現を提供しない。本発明によれば、システムにおいて用いられるコードブックの数を増し、かつ共通化の程度を減らすことによって解像度が改善される。本発明は、コードブックのサイズの減少と、異なるコードブックの数を増加とを同時におこなうアプローチにしたがう。よって本発明は、共通化の程度を減らし、2つの変更は、システム中の要素密度の総数が効率的に増やされ、解像度が改善されるようにバランスがとられる。
本発明においては、より効率的に混合要素を共用できるHMM状態のサブセットを特定する自動プロシージャを用いることによって、パフォーマンスが最適化されうる。本発明は、完全に共通化された混合システムのようなより高い程度の混合共通化をもつシステムからのブートストラップアプローチにしたがい、順次、混合の共通化を緩めていく。
図4は、完全に共通化されたガウスシステムから部分的に共通化されたガウス混合を改善する方法のフローチャートである。まずすべての音素のHMM状態が、統合型階層クラスタリングプロシージャにしたがいクラスタリングされる(ステップA10)。クラスタリングは、1990年にM.F. Leeにより開示されている、混合重みづけ分布のカウントによって重みづけされたエントロピーに基づいている。クラスタリングプロシージャは、HMM状態Sのセットを分解セット、つまり状態のクラスタCiに分割する。
いったん状態がクラスタにグルーピングされると、クラスタは、分割されて、個々のコードブックがそれぞれのクラスタCiについてつくられる(ステップA12)。同じコードブックが特定のクラスタに属するすべてのHMM状態について用いられる。クラスタコードブックは、それから簡略化され(ステップA14)て、個々のコードブックのそれぞれにあるエントリの数を減らす。簡略化ステップにおいて、クラスタにおける状態の最も小さい要素であるこれらのガウス曲線は、コードブックから除去される。これらの簡略化されたコードブックは、こんどはシードコードブックとして次のフェーズで用いられる。
いったん別々のコードブックがそれぞれのクラスタについて改善されると、そのクラスタにおける状態についての確率関数の推定は、ある1つのクラスタの状態だけを見てパラメータおよびガウス関数を再推定することによって改善される(ステップA16)。ある具体的な実施態様においては、パラメータは、Baum-Welchのアルゴリズムを用いて再推定される。このステップは、クラスタコードブックが、マスタコードブック中の初期値から偏移し、確率分布のよりよい近似を達成することを可能にする。
上述のプロシージャは、図5Aおよび図5Bにグラフ的に図示されている。図5Aは、3つの3状態HMMであるM1、M2およびM3の表現を示している。これらのHMMのそれぞれの状態は、システムに対するマスタコードブックから取られた、重みづけされた混合であるガウス混合に関連づけられている。マスタコードブックは、楕円100により表現されている。この楕円の中の点は、HMMに対する混合を含むそれぞれ異なるガウス曲線を表現している。250のガウス曲線を用いる、上述した完全に共通化されたHMMシステムにおいては、それぞれの状態は、楕円100内の250個の異なる点を指している、250本の異なる重みのつけられた矢印によって表現されうる。図5A〜図5Dにおいて、それぞれの状態から楕円100内を指しているように示されている1本の矢印は、それら250本の矢印、つまり重みづけ係数の平均を表している。換言すれば、ある特定のHMM状態に対する矢印が指している全体領域(generalarea)におけるガウス曲線は、その状態のガウス混合の最大の要素である。
クラスタリングステップでは、図5Bに図示されているように、ガウス混合において類似したガウス曲線のグループを共用するHMM状態が識別され、クラスタにグルーピングされる。グルーピングされた状態は、参照番号101a〜b、102a〜c、103、104a〜bおよび105により表されている。
分割および簡略化ステップでは、図5Cに示されているように、マスタコードブックにおけるガウシアンのサブセットを含む新しいコードブックが、それぞれのクラスタについてつくられ、それぞれのクラスタ内に格納されるガウシアンの個数は、そのクラスタにおける状態に対応する確率関数について最も重い係数であるガウシアンのみを選択し、残りを捨てることによって減らされる。
図5Dに図示されている再推定ステップでは、これらのクラスタコードブックは、再推定プロセスにより互いに独立したものにされる。これによって、それぞれのクラスタコードブックにおけるガウシアンは、そのクラスタにおける状態に関連づけられた確率関数に最もよくフィットするものと再推定される。これらの独立したクラスタコードブックは、本願では、「ジェノン(genone)」と呼ばれる。
パラメータの再推定は、標準的なBaum-Welchの再推定式を用いれば実現される。なぜなら、共通化をおこなっても、Youngが1992年に指摘したように、その形式を改変するものではないからである。認識時において、さらには、ガウス最尤度の評価に伴う大量の計算を減らすために、本発明のある実施形態では、ベクトル量子化に基づいている、1993年にDigalakisによって記載された高速計算スキームを用いる。
HMMにおいて、音素ユニットまたは副音素のユニットのいずれかをクラスタリングすることは、1988年のPaul、1990年のLee、1991年のBahlおよび1992年のHwangにより記載された従来技術のシステムにおいて用いられていた。これらのシステムのどの1つも、本発明よりも低いパフォーマンスしか実現できない。なぜなら、互いに異なるHMM状態の混合−重みクラスタリングによってシステム内のフリーパラメータの個数を減らすことはできるが、音響空間が表現される解像度を改善することはできないからである。これは、システム内の要素密度の総数が同じままであるからである。本発明は、混合要素を共用するサブ音声領域(sub-phoneticregions)のセットを識別するためにクラスタリングを用いる。混合要素のオリジナルセットが多数のオーバーラップするコードブックに分割され、対応するクラスタに属する状態からのデータを用いて、それぞれのコードブックが再推定される、この方法の後続ステップにより、システム内の個別密度の数を効率よく増やし、音響空間の解像度に所望の詳細を与えることができる。
本発明によれば、システムにおけるクラスタおよびクラスタコードブックの最終的な数は任意である。ある特定のシステムに対するクラスタの最適な数は、システム設計者により選択されてもいいし、トレーニングアルゴリズムによって、ある与えられたセットの音声データを表現するのに最適なクラスタの数を決めるようにしてもよい。
実験結果
本発明による方法は、SRIのDECIPHERTM音声認識システムと、高速実験用のプログレシブサーチフレームワークとを用いて、WallStreet Journal (WSJ)集積の5,000語認識課題および64,000語認識課題について評価された。このアプローチでは、最初の高速認識パスは、改善セットにおけるすべての文章について単語の束(lattice)をつくる。これらの単語の束は、後続するすべての実験においてサーチ空間を制約するために用いられる。
我々の最初の改善は、データベースの5,000語の部分を用いておこなわれた。我々は、Lincoln研究所により提供されたバイグラム(bigram)言語モデルを用いた。表1は、18人の男性の話者と、360の文章とからなる改善セットに対する、共通化された混合(TM)、音声学に共通化された混合(PTM)およびジェノン的(genonic)混合(ジェノン)のパフォーマンスおよびフリーパラメータの数を比較している。この実験のためのトレーニングデータは、42人の話者からの3,500の文章を含んでいた。共通化の度合いの低いシステムは、従来の共通化された混合に比べて25%もそのパフォーマンスが勝っていること、また、同時に、コードブックのサイズの縮小されていることが原因でフリーパラメータの数も少なくなっていることがわかる。改善セットについてのパラメータを最適化した後、我々は、1992年11月のARPA評価セットを用いて、84人の話者からの7,200の文章に対してトレーニングされた性依存システムのパフォーマンスを評価した(表2を参照)。そのセットについては、495のジェノンをもつ最良のジェノン的混合は、音声学的に共通化された混合よりも14%だけパフォーマンスが勝っていることがわかる。
Figure 2007047818
Figure 2007047818
以下の1セットの実験において、我々は、データベースの64,000語の部分を用いた。20,000語のオープンボキャブラリ言語モデルが用いられた。トレーニングデータは、280人の話者からの37,000の文章から構成され、性依存モデルが作られた。20,000語の1992年11月の評価セットの男性サブセットが、バイグラム言語モデルと共に用いられた。いくらか驚くべき結果が、表3に示されている。第1行は、DECIPHERTMにおいて用いられる6つの静的および動的なスペクトルおよびエネルギーの特徴を独立した観測ストリームとしてモデリングするシステムの認識パフォーマンスを示している。第2行は、単一のストリームにおける6つの特徴をモデリングするシステムのパフォーマンスを示している。これら2つのシステムのパフォーマンスが類似していることがわかる。過去においては、独立したストリームを用いて特徴をモデリングすれば、パフォーマンスが大幅に向上することが示されていた(1989年のK.F. Leeを参照のこと)。しかし、この結果は、離散密度HMMに基づくものであった。本発明の場合は、少量の共通化により音響空間の精細な表現が可能になるので、それぞれの特徴を別個に「量子化」し、その外積をとることによって、解像度の正確さを改善することは不要になる。後続するすべての実験において、我々は、単一の観測ストリームを用いてすべての特徴をモデリングした。
Figure 2007047818
表4は、システムにおいて用いられるジェノンの個数を変えることによって、さまざまな度合いの共通化を比較している。利用可能なトレーニングデータの量が多くなっているので、PTMシステムに対するジェノン的システムのパフォーマンスが、5,000語の実験の場合よりもずっと大きくなっている(20%)ことがわかる。また、最良のパフォーマンスは、より多数のジェノン、つまり5,000語の実験で用いられた495の代わりに1,700のジェノンの場合に実現される。
Figure 2007047818
表5では、完全に連続なHMMにはない、本発明によりつくられたHMMによって増した自由度、すなわち、同一のクラスタ−コードブックにマッピングされた状態が互いに異なる混合重みを有しうることを調べる。ガウシアンに加えて混合の重みを共通化すると、認識パフォーマンスに大幅な劣化をもたらすことがわかる。この劣化は、多数のストリームを用いて特徴がモデリングされる時にはひどくなり、また、トレーニングデータの量およびクラスタコードブックの数が減る時にもひどくなる。
Figure 2007047818
同じシステムが、Haeb-Umbachにより記載されているプロシージャに類似したプロシージャによって得られた線形判別変換を用いて得られた特徴を加えて、1993年11月のARPA評価セットについて評価された。このシステムは、バイグラム言語モデルおよびトリグラム(trigram)言語モデルでそれぞれ、16.5%および14.5%の単語誤り率を実現した。
図1は、音声認識システムの設計時における公知の従来技術によるステップを示すフローチャートである。 図2は、単一の音素に対するHMMの図である。 図3は、ガウス曲線の混合を、ある音素のある状態について観測された特徴データにフィットさせる方法を示す図である。 図4は、本発明による部分的に共通化されたガウス混合を生成する方法を示すフローチャートである。

Claims (1)

  1. 人間の音声を認識する方法であって、
    該方法は、
    a)音声のある選択されたサブユニットを表すモデルを選択するステップであって、該モデルは、複数の状態を有しており、該複数の状態のそれぞれは、確率関数を有しており、該確率関数は、未決定のパラメータを有しており、該確率関数は、マスターコードブックに格納されている複数の所定の確率関数の混合によって表されている、ステップと、
    b)音声トレーニングデータから複数の特徴ベクトルを抽出するステップと、
    c)該複数の特徴ベクトルを用いて、該モデルの各状態に関連付けられた該確率関数に対する重み付け係数を表すパラメータを決定するステップと
    を包含し、
    該ステップc)は、
    該複数の状態を複数のクラスタにグループ化するステップと、
    各状態が、部分的に共通化されたガウス混合に対応するように、該マスタコードブックを複数のクラスタコードブックに分割するステップであって、該複数のクラスタコードブックのそれぞれが、該複数のクラスタのうちの対応する1つに関連づけられている、ステップと、
    該クラスタにおける該複数の状態によって最も頻繁に用いられる該複数の所定の確率関数のうちの少なくとも1つを保持し、かつ、該複数の所定の確率関数のうちの残りを削除することによって、各クラスタコードブックにおいて用いられる該所定の確率関数の個数を減らすように、該複数のクラスタコードブックを簡略化するステップと、
    該クラスタにおける該複数の状態によりよくフィットするように各クラスタコードブックにおける該複数の所定の確率関数を再推定し、かつ、該クラスタにおける各状態に対する該パラメータを再推定するステップと
    を包含する、方法。
JP2006282015A 1994-07-18 2006-10-16 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 Pending JP2007047818A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/276,742 US5825978A (en) 1994-07-18 1994-07-18 Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP50515196A Division JP4141495B2 (ja) 1994-07-18 1995-07-13 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置

Publications (1)

Publication Number Publication Date
JP2007047818A true JP2007047818A (ja) 2007-02-22

Family

ID=23057908

Family Applications (2)

Application Number Title Priority Date Filing Date
JP50515196A Expired - Fee Related JP4141495B2 (ja) 1994-07-18 1995-07-13 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2006282015A Pending JP2007047818A (ja) 1994-07-18 2006-10-16 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP50515196A Expired - Fee Related JP4141495B2 (ja) 1994-07-18 1995-07-13 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置

Country Status (6)

Country Link
US (1) US5825978A (ja)
EP (1) EP0771461B1 (ja)
JP (2) JP4141495B2 (ja)
AT (1) ATE197351T1 (ja)
DE (1) DE69519297T2 (ja)
WO (1) WO1996002912A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6009390A (en) * 1997-09-11 1999-12-28 Lucent Technologies Inc. Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US5953701A (en) * 1998-01-22 1999-09-14 International Business Machines Corporation Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
EP0953971A1 (en) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. Speech recognition system and method
DE59904741D1 (de) * 1998-05-11 2003-04-30 Siemens Ag Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
US6725195B2 (en) * 1998-08-25 2004-04-20 Sri International Method and apparatus for probabilistic recognition using small number of state clusters
US6256607B1 (en) * 1998-09-08 2001-07-03 Sri International Method and apparatus for automatic recognition using features encoded with product-space vector quantization
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
US7702464B1 (en) 2001-08-21 2010-04-20 Maxygen, Inc. Method and apparatus for codon determining
US7873477B1 (en) 2001-08-21 2011-01-18 Codexis Mayflower Holdings, Llc Method and system using systematically varied data libraries
US8457903B1 (en) 1999-01-19 2013-06-04 Codexis Mayflower Holdings, Llc Method and/or apparatus for determining codons
US6246982B1 (en) * 1999-01-26 2001-06-12 International Business Machines Corporation Method for measuring distance between collections of distributions
US6195636B1 (en) * 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US7533020B2 (en) * 2001-09-28 2009-05-12 Nuance Communications, Inc. Method and apparatus for performing relational speech recognition
US6996519B2 (en) * 2001-09-28 2006-02-07 Sri International Method and apparatus for performing relational speech recognition
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
AU2003302063A1 (en) * 2002-11-21 2004-06-15 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
DE10302101A1 (de) * 2003-01-21 2004-08-05 Infineon Technologies Ag Verfahren und Vorrichtung zum Trainieren eines Hidden Markov Modells, Computerprogramm-Element und Computerlesbares Speichermedium
CN1327406C (zh) * 2003-08-29 2007-07-18 摩托罗拉公司 开放式词汇表语音识别的方法
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
US7480617B2 (en) * 2004-09-21 2009-01-20 International Business Machines Corporation Method for likelihood computation in multi-stream HMM based speech recognition
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US20070233481A1 (en) * 2006-04-03 2007-10-04 Texas Instruments Inc. System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US8176016B1 (en) * 2006-11-17 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for rapid identification of column heterogeneity
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8515758B2 (en) 2010-04-14 2013-08-20 Microsoft Corporation Speech recognition including removal of irrelevant information
US8719023B2 (en) 2010-05-21 2014-05-06 Sony Computer Entertainment Inc. Robustness to environmental changes of a context dependent speech recognizer
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5172228A (en) * 1991-11-19 1992-12-15 Utah State University Foundation Image compression method and apparatus employing distortion adaptive tree search vector quantization

Also Published As

Publication number Publication date
EP0771461B1 (en) 2000-11-02
WO1996002912A1 (en) 1996-02-01
JP4141495B2 (ja) 2008-08-27
ATE197351T1 (de) 2000-11-15
DE69519297T2 (de) 2001-05-17
EP0771461A1 (en) 1997-05-07
DE69519297D1 (de) 2000-12-07
US5825978A (en) 1998-10-20
JPH10505687A (ja) 1998-06-02

Similar Documents

Publication Publication Date Title
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Lee Context-independent phonetic hidden Markov models for speaker-independent continuous speech recognition
US5953701A (en) Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US7062436B1 (en) Word-specific acoustic models in a speech recognition system
Reichl et al. Robust decision tree state tying for continuous speech recognition
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
WO2002091357A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
Morris et al. Combining phonetic attributes using conditional random fields.
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
US7454341B1 (en) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system
Euler et al. Statistical segmentation and word modeling techniques in isolated word recognition
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
Ko et al. Eigentriphones for context-dependent acoustic modeling
Zen et al. Decision tree-based simultaneous clustering of phonetic contexts, dimensions, and state positions for acoustic modeling.
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Gulić et al. A digit and spelling speech recognition system for the croatian language
CA2195445C (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
Digalakis et al. Continuous Speech Dictation on ARPA's North American Business News Domain
Kim et al. Deleted strategy for MMI-based HMM training

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070926

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080728