JP5174937B2 - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法 Download PDF

Info

Publication number
JP5174937B2
JP5174937B2 JP2011114519A JP2011114519A JP5174937B2 JP 5174937 B2 JP5174937 B2 JP 5174937B2 JP 2011114519 A JP2011114519 A JP 2011114519A JP 2011114519 A JP2011114519 A JP 2011114519A JP 5174937 B2 JP5174937 B2 JP 5174937B2
Authority
JP
Japan
Prior art keywords
state
hmm
states
context
demiphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011114519A
Other languages
English (en)
Other versions
JP2011248360A (ja
Inventor
メネンデス−ピダル、ハビエル
チェン、ルーシン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2011248360A publication Critical patent/JP2011248360A/ja
Application granted granted Critical
Publication of JP5174937B2 publication Critical patent/JP5174937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

本発明の実施の形態は、音声認識の分野に関し、とくに、音声認識装置の環境変化に対する頑強性(ロバスト性、ロバストネス)を向上させることに関する。
汎用の音声認識装置の多くは、隠れマルコフモデル(HMM)を用いて構築されており、音声を音声単位(例えば、音、単語、機能語、音節、最初及び最後の音節など)のレベルで処理する。音声単位は、一般に、単語から分解され、知覚的に単一な、一連の音声の可聴音(例えば話)の部分である。例えば、「I Want」というフレーズは、5つの別個の音(TIMIT音素システムでは、「ay」、「w」、「ao」、「n」及び「t」)を含む。それぞれの音は、複数の特徴又はフレームに含まれうる。それぞれの音が含まれうる特徴又はフレームの数は、一般に、音の長さに依存し、音の長さは、一般に、異なる話者、会話の速さ、感情状態などによって異なる。HMMは、それぞれの音の異なる部分を処理するために、一般に、複数の状態を含む。例えば、初期(イニシャル)状態、中間(ボディー)状態、及び終期(ファイナル)状態の3つの状態のHMMが、それぞれ、音の始まり、中核、及び終わりを処理する。一方向型(Left to right)HMMは、HMMの初期状態が、それ自身以外の他の導入(エントリー)状態から接続されない導入状態として定義され、HMMの終期状態が、それ自身以外の他の状態に接続されない末端(ターミナル)状態として定義され、HMMの中間状態が、他の任意の中間状態である、音声認識において用いられる。前述の定義は、状態をスキップする接続を有する一方向型HMMもカバーする。
一般的な音声認識装置は、コンテキスト(前後関係)非依存型HMM(例えば、モノフォン(monophone)HMM)、又は、コンテキスト依存型HMM(例えば、バイフォン(biphone)(left to right)HMM、デミフォン(demiphone)HMM、トライフォン(triphone)HMMなど)を用いる。コンテキスト非依存型HMMは、それぞれのベース音声単位を処理するときに、隣接する音声単位を考慮に入れない。他方、コンテキスト依存型HMMは、それぞれのベース音声単位を処理するときに、隣接する音声単位を考慮に入れる。例えば、一般的なバイフォンHMMは、隣接する1つの音を考慮に入れる。左側バイフォンHMMにおいては、直前の音が考慮に入れられ、右側バイフォンHMMにおいては、直後の音が考慮に入れられる。一般的なトライフォンHMMにおけるそれぞれの状態は、直前及び直後の音を考慮に入れる。前述した、初期状態、中間状態、終期状態の定義は、モノフォン、バイフォン、及びトライフォンの全ての一方向型HMMについて有効である。別のコンテキスト依存型HMMは、前後関係のある接続された2つの音素片であるデミフォンを含む。デミフォンは、左側デミフォン部分及び右側デミフォン部分を含む。それぞれのデミフォン部分は、音の一部をモデリングした、1つのみのコンテキスト依存性を有する、標準的なHMMである。左側デミフォン部分は、音の始まりを表現し、直前の音を考慮に入れる。右側デミフォン部分は、音の終わりを表現し、直後の音を考慮に入れる。デミフォンは、均一に又は不均一に音の領域をモデル化することができる。デミフォンが音の領域を不均一にモデル化する場合、デミフォン部分のうちの一つが支配的となり、他の一つよりも多くの状態を有する。例えば、左側が支配的なデミフォンにおいては、左側デミフォン部分は、右側デミフォン部分よりも多くの状態を有する。右側が支配的なデミフォンにおいては、右側デミフォン部分は、左側デミフォン部分よりも多くの状態を有する。デミフォンの初期状態は、左側デミフォン部分におけるエントリーモデル状態であり、それ自身以外の他のエントリー状態から接続されない。デミフォンの終期状態は、右側デミフォン部分におけるターミナルモデル状態であり、それ自身以外の他の状態に接続しない。デミフォンのボディ状態は、初期状態及び終期状態とは異なる、デミフォンのもう一つの状態であり、左側デミフォン部分及び/又は右側デミフォン部分に含まれうる。
下記のテーブルは、「I want」という文の、一般的なコンテキスト非依存型TIMITモノフォン、及び、一般的なコンテキスト依存型左側バイフォン、右側バイフォン、トライフォン、及びデミフォンを用いた音声転写を示す。
・コンテキスト非依存型モノフォン:sil ay w ao n t sil
・コンテキスト依存型左側バイフォン:sil sil-ay ay-w w-ao ao-n n-t sil
・コンテキスト依存型右側バイフォン:sil ay+w w+ao ao+n n+t t+sil sil
・コンテキスト依存型トライフォン:sil sil-ay+w ay-w+ao w-ao+n ao-n+t n-t+sil sil
・コンテキスト依存型デミフォン:sil sil-ay ay+w ay-w w+ao w-ao ao+n ao-n n+t n-t t+sil sil
それぞれのベース音声単位は、状態遷移確率{Aip}及び出力確率観測分布{Bip(Ot)}により表すことができる。出力観測分布は、一般に、多変量混合ガウス分布であり、時刻tにおける観測Ot(又は入力フレーム)の生成確率を決定する。出力観測は、状態インデックスi、音声単位インデックスp、及び時刻tにおける入力観測により特定される。
コンテキスト非依存型HMMにおいて、それぞれの音声単位(例えば、音単位、単語単位、機能語単位、音節単位、最初及び最後の音節単位など)は、それぞれの状態について単一の観測分布を有する。したがって、40の異なる音と、それぞれの音についてコンテキスト非依存型HMMの3つの状態を用いる英語の音声認識システムでは、システムは合計で120の観測分布を用いる。コンテキスト依存型HMMは、隣接する音声単位を考慮に入れるので、コンテキスト非依存型HMMよりも多くの観測分布を用いる。一般的なコンテキスト依存型HMM音声認識システムにおいては、出力観測分布の数が1000から5000の間の範囲の数になることが珍しくない。コンテキスト依存型HMMにおける観測分布の数は、一様な決定木クラスタリングアルゴリズム又は一様なデータ駆動型クラスタリングアルゴリズムを適用することにより限定することができるが、これらのアルゴリズムは、音の状態のそれぞれにわたって同一である一様なクラスター閾値を用いる。
コンテキスト依存型HMMを用いる音声認識装置は、一般に、コンテキスト非依存型HMMを用いる音声認識装置よりも精確であるが、一般に、コンテキスト非依存型HMMを用いる音声認識装置よりも多くのメモリ及び計算リソースを必要とする。さらに、コンテキスト依存型HMMの学習は、コンテキスト非依存型HMMの学習よりも有意に多くの学習データを必要とする。さらに、トライフォンHMMの学習に要する学習データは、バイフォンHMMの学習に必要な学習データよりも多い。
いくつかの音声認識装置は、システムがリリースされる前に、学習環境において学習される。これにより、システムのユーザは、音声認識システムの学習を低減又は省略することができる。この学習環境は、一般的に高い精度が得られるように、しばしば音声認識のために最適化されている。しかしながら、現実の商用事例の環境(例えば、音声認識システムが商業的に用いられる環境)は、しばしば、学習環境とは異なり(例えば、ノイズが異なるなど)、その結果、音声認識システムの精度は低減する。学習環境においては、異なる環境変数(例えば、異なるノイズ、反響、チャンネル効果など)が考慮に入れられうる。しかしながら、エンドユーザにより最終的に用いられる環境は、学習中とは異なり、又は、考慮され得ない可能性がある。
一般的なコンテキスト依存型バイフォンを用いる音声認識システムは、マッチした条件(学習中と使用中とで環境が実質的に同じ)においては精確であるが、ミスマッチである条件(学習中と使用中の環境が異なる)においては精確でない。ノイズに強いフロントエンド又はバックエンド技術(例えば、特徴変換及び正規化、ノイズ減衰、音声強調、HMMバックエンドノイズ補償など)を用いることで精確さを向上させることはできるが、マッチしない条件における精確さは許容できない可能性がある。しかしながら、典型的なコンテキスト非依存型HMM(例えば、モノフォン)を用いる音声認識システムは、典型的なコンテキスト依存型バイフォンHMMを用いる音声認識システムに比べて、元の学習環境においては精確さが劣るが、環境の変化に対してより頑強である。
計算効率及び低いメモリフットプリントを維持しつつ、コンテキスト依存型音声認識システムの環境変化に対するロバスト性を向上させるための方法及び装置が説明される。一つの実施の形態において、拡張された多状態のコンテキスト依存型隠れマルコフモデル(HMM)が、コンテキスト依存性により影響を受けにくい状態の確率観測分布の数を低減させるために定義され学習される。
ある実施の形態において、異なる状態について異なるクラスタリング閾値を用いる非一様な状態クラスタリング処理が用いられる。コンテキスト依存性により影響されにくい状態について、クラスター閾値の値は、非一様な状態クラスタリング処理が実行される結果、観測分布がより結合(クラスター化)されるようにされる。これにより、それらの状態の確率観測分布の総数を低減させることができる。別の実施の形態において、複数状態のコンテキスト依存型HMMの、コンテキスト依存性により影響を受けにくい1以上の状態が、コンテキストに依存しないように定義される。これにより、それらの状態の確率観測分布の数が1つに低減される。
HMMの、コンテキスト依存性により影響を受けにくい状態の観測分布の数を低減させることにより、ミスマッチな条件における音声認識システムの精度を向上させることができる(それは環境変化に対するロバスト性を向上させる)とともに、音声認識に必要とされるメモリ及びCPUリソースを低減させることができる。
本発明は、本発明の実施の形態を説明するために用いられる、下記の説明及び添付の図面を参照することにより、最も良く理解されうる。
図1は、一つの実施の形態に係る音声認識アプリケーションのためのデータを学習するために用いられる研鑽装置の構成例を示すブロック図である。
図2は、一つの実施の形態に係るHMMの学習中に実行される手順の例を示すフロー図である。
図3は、一つの実施の形態に係る拡張右側バイフォンHMMの例を示す図である。
図4は、一つの実施の形態に係る拡張左側バイフォンHMMの例を示す図である。
図5は、一つの実施の形態に係る拡張右側バイフォンHMMの別の例を示す図である。
図6は、一つの実施の形態に係る拡張左側バイフォンHMMの別の例を示す図である。
図7は、一つの実施の形態に係る拡張右側支配型デミフォンHMMの例を示す図である。
図8は、一つの実施の形態に係る拡張左側支配型デミフォンHMMの例を示す図である。
図9は、一つの実施の形態に係る拡張トライフォンHMMの例を示す図である。
図10は、一つの実施の形態に係るモノフォン、左側バイフォン、右側バイフォン、及びトライフォンを組み合わせた並列システム結合HMMの例を示す。
図11は、一つの実施の形態に係るアプリケーションのために音声を認識するための音声認識システムを含む計算装置の例を示す。
図12は、一つの実施の形態に係る音声認識中に実行される手順の例を示すフロー図である。
図13は、いくつかの実施の形態において使用されうるデータ処理システムの例を示すブロック図である。
下記の説明においては、特定の数値的な詳細が示される。しかしながら、本発明の実施の形態は、これらの特定の詳細なしに実施されることが可能である。別の例においては、既知の回路、構造、及び技術は、この説明の理解を不明瞭にしないために、詳細には示されない。当業者は、本明細書に含まれる説明によれば、過度の実験なしに、適切な機能を実行することができる。
本明細書において、「ある実施の形態」、「一つの実施の形態」、「実施例」などの言及は、説明される実施の形態は、特定の特徴、構造、又は特性を含みうるが、全ての実施の形態が必ずしも特定の特徴、構造、又は特性を含むとは限らないことを示す。さらに、このようなフレーズは、必ずしも同一の実施の形態のことを指すとは限らない。さらに、特定の特徴、構造、又は特性が実施の形態に関連して説明される場合、明示的に説明されるか否かにかかわらず、そのような特徴、構造、又は特性が別の実施の形態との関連においても有効であることは、当業者に理解されるところである。
下記の説明及び特許請求の範囲において、「結合される」及び「接続される」という語が、それらの派生語とともに用いられる。これらの語は、互いに類義語として意図されるものではないことが理解されるべきである。「結合される」という語は、互いに物理的に直接又は電気的に接触する又はしない2以上の要素が、互いに協働又は相互作用することを示すために用いられる。「接続される」という語は、互いに結合された2以上の要素の間における通信の確立を示すために用いられる。
低いメモリフットプリント及び計算効率を維持しつつ、音声認識装置の環境の変化に対するロバスト性を向上させるための方法及び装置について説明する。ある実施の形態において、複数の状態を含む、コンテキスト依存型の拡張された隠れマルコフモデル(HMM)が、コンテキストの依存性により影響されにくい、低減された数のこれらの状態の確率観測分布を有するように、定義され、又は学習される。ここでは、一般的なHMMと区別するために、拡張HMMと呼ぶ。前後関係の依存性により影響を受けにくい状態の確率観測分布の数を低減することにより、不適当な条件における音声認識の正確さを向上させることができる。これにより、音声認識装置に必要とされるコンピュータの要求(例えば、メモリ、CPUリソースなど)を低減すると同時に、環境変化に対する音声認識装置のロバスト性を向上させることができる。
ある実施の形態において、複数状態のコンテキスト依存型拡張HMMは、コンテキストに非依存な1以上の状態(例えば、コンテキストの依存関係により影響を受けにくいHMMの状態)と、コンテキストに依存する1以上の状態の組み合わせを含む。
ある実施の形態において、異なる状態について異なるクラスタリングの閾値を用いる、非一様な状態クラスタリング処理が用いられる。コンテキストの依存性により影響を受けにくい状態について、クラスター閾値は、非一様な状態クラスタリング処理が実行されることの結果として、より多くの観測分布が束ねられる(クラスタリングされる)ような値とされる。これにより、これらの状態の観測分布の総数が低減される。別の実施の形態において、コンテキストの依存性により影響を受けにくい複数状態のコンテキスト依存型HMMの1以上の状態がコンテキストに非依存であるとして定義される。これにより、これらの状態の確率観測分布を一つにして数を低減させることができる。
ある実施の形態において、拡張コンテキスト依存型HMMの1以上の状態が、これらの状態からコンテキスト依存性を除去するように定義され又は学習される(これにより、1つのみの観測分布を有する)。ある実施の形態において、これらの状態は、1つのみの観測分布を有するように、完全に結合(クラスタリング)される。例として、ある実施の形態において、拡張されたN状態の右側バイフォンHMM(Nは2以上)が、他の状態よりも前後関係に依存しにくい初期状態をコンテキスト非依存型にするように定義され又は学習される。これにより、1つのみの観測分布を有するようにすることができる。中間状態及び/又は終期状態は、一般的な一様な決定木クラスタリングアルゴリズム又は一様なデータ駆動型クラスタリングアルゴリズムによって結合されてもよいし、非一様なクラスタリング(後に詳述する)によって結合されてもよく、初期状態よりも多くの出力観測分布を有してもよい。したがって、これらの実施の形態においては、N状態の拡張右側バイフォンHMMの初期状態はコンテキストに依存しない一方、中間状態及び終期状態はコンテキストに依存する。
ある実施の形態において、拡張されたN状態の左側バイフォンHMM(Nは2以上)が、他の状態よりも前後関係に依存しにくい終期状態をコンテキスト非依存型にするように定義され又は学習される。これにより、1つのみの観測分布を有するようにすることができる。初期状態及び/又は中間状態は、一般的な一様な決定木クラスタリングアルゴリズム又は一様なデータ駆動型クラスタリングアルゴリズムによって結合されてもよいし、非一様なクラスタリング(後に詳述する)によって結合されてもよく、終期状態よりも多くの出力観測分布を有してもよい。したがって、これらの実施の形態においては、N状態の拡張左側バイフォンHMMの終期状態はコンテキストに依存しない一方、初期状態及び中間状態はコンテキストに依存する。このように、ある実施の形態において、拡張バイフォンHMMは、コンテキスト非依存型HMMとコンテキスト依存型HMMの要素を組み合わせるように変更されてもよい。
ある実施の形態において、右側が支配的なN状態のデミフォンが、中間状態の確率観測分布の数を実質的に低減するために拡張される。例えば、中間状態は、コンテキストに依存しないように定義され又は学習されてもよいし、一般的な右側が支配的なデミフォンの中間状態に比べてより強くクラスタリングされてもよい。同様に、ある実施の形態において、左側が支配的なデミフォンが、中間状態の確率観測分布の数を実質的に低減するために拡張される。例えば、中間状態は、コンテキストに依存しないように定義され又は学習されてもよいし、一般的な左側が支配的なデミフォンの中間状態に比べてより強くクラスタリングされてもよい。
ある実施の形態において、拡張されたN状態のトライフォンHMMが、直前の音のみに依存する初期状態(初期状態が直前の音及び直後の音の双方に依存する一般的なトライフォンとは異なる)と、直前及び直後の音に依存する1以上の中間状態と、直後の音のみに依存する終期状態(終期状態が直前の音及び直後の音の双方に依存する一般的なトライフォンとは異なる)とを有するように定義される。
ある実施の形態において、N状態の典型的又は拡張左側バイフォン、N状態の典型的又は拡張右側バイフォン、N状態の典型的又は拡張トライフォン、及びモノフォンうちの1以上を組み合わせ、並列システム組み合わせN状態トライフォンHMMが用いられる。並列システム組み合わせN状態トライフォンHMMにおいて、音声学習モジュールが、マッチした及び/又はマッチしない条件のための最適なコンテキスト依存HMMトポロジーを自動的に検索及び選択することができるように、また、音声認識装置が、異なるHMM間の最適なパスを動的に決定することができるように、新しい状態連結性が確立される。
図1は、一つの実施の形態に係る音声認識アプリケーションのためのデータを学習するために用いられる計算装置110の構成例を示すブロック図である。一つの実施の形態によれば、学習は実験室的条件において実行され、エンドユーザにより実行される必要はない。しかしながら、エンドユーザの特定の環境に学習を適合させるために、エンドユーザにより学習が実行されてもよい。
計算装置110は、音声認識装置により使用されるHMMを学習させる音声認識学習モジュール150を含む。音声認識学習モジュール150は、学習データに基づいて、HMMのための多数の観測分布を生成する。ある実施の形態において、音声認識学習モジュール150は、標準学習アルゴリズム(例えば、期待値最大化法(EM法)、バウム=ウェルチアルゴリズム、識別学習など)を実行する。音声認識学習モジュール150は、学習データベース120、ディジタル信号プロセッサ125、辞書130、単語転写部135、HMM構成仕様保持部140、及び学習済みHMM保持部145に結合される。学習データベース120は、一般的な会話、汎用的なスピーチ、及び音声認識アプリケーションのために特定の目的をもつ音などを含む、予め録音された音を格納する。ある実施の形態において、学習データベース120のデータは、音声単位(例えば、音素、単語、機能語、音節など)の特定のセットに転写されている。
ある実施の形態において、学習データベース120に格納された音は、環境条件の変化による音声認識装置のロバスト性を向上させるために、特定の環境条件を補償することを企図して、ディジタル信号プロセッサ125により拡張され、又は変更される。例えば、ディジタル信号プロセッサ125は、特徴変換及び正規化、ノイズ減衰、音声強調、及び/又はHMMバックエンドノイズ補償を含むロバスト性技術を、学習データベース120に格納されたデータに対して実行してもよい。さらに、ディジタル信号プロセッサ125は、学習データベース120から特徴ベクトル(時間領域に対する音響の一部)を抽出することにより、特徴抽出を実行してもよい。
辞書130は、システムにより音声認識のためにサポートされる単語、文、コマンド、指示、ナレーション、又は他の可聴音を含む。単語転写部135は、学習データベース120に格納された音声データの単語転写を含む。HMM構成仕様保持部140は、モデルトポロジー、遷移パラメータ、及び出力分布パラメータを定義する1以上のHMMのための構成情報を含む構成仕様を含む。ある実施の形態において、構成情報は、HMMのそれぞれの状態についての状態構成、例えば、コンテキスト非依存型かコンテキスト依存型か(及びコンテキストが何に依存されるか)、状態接続性、望ましい混合ガウス分布の数、及び1以上の状態についての非一様なクラスター閾値の1以上を含む。非一様なクラスター閾値は、音の状態間で異なってもよい。非一様なクラスター閾値は、観測分布の数を低減させるために観測分布を連結するときに用いられる。完全に結合された状態は、単一の観測分布のみを有し、実質的にモノフォン状態が生成される。ある実施の形態において、HMMの異なる状態についての非一様なクラスター閾値の値は、設定可能である。ある実施の形態において、HMMの他のパラメータ(例えば、状態構成、状態接続性、状態数、一方向型バイフォン、デミフォン、トライフォン、状態数、音定義など)も設定可能である。
一つの実施の形態において、特定のHMM(例えば、拡張左又は右側バイフォン、拡張トライフォンなど)が学習のために選択され、音声認識学習モジュール150は、HMMのパラメータを推定するためにHMMを学習し、学習されたHMMを学習済みHMM保持部145に格納する。一つの実施の形態において、音声認識学習モジュール150は、状態における観測分布の数を低減させる目的で、音響的に類似する観測分布をクラスター化(本明細書では結合ともいう)するために非一様なクラスター閾値を用いる非一様状態クラスタリングモジュール155を含む。
一つの実施の形態において、非一様な状態クラスタリングは、非一様なツリーベースのクラスタリングメカニズムである。別の実施の形態において、非一様な状態クラスタリングは、非一様なデータ駆動型クラスタリングアルゴリズムを用いて実行される。非一様なツリーベースのクラスタリング及び非一様なデータ駆動型クラスタリングの双方において、非一様なクラスター閾値が少なくともいくつかのHMMの状態について定義され、そのHMMについての非一様なクラスター閾値の少なくとも一つは、そのHMMについての他の非一様なクラスター閾値の値とは異なる値を有する。
非一様なツリーベースのクラスタリングの一つの実施の形態において、決定木は、はい/いいえで答える音声に関する質問がそれぞれのノードに関連づけられた二分木である。それぞれの質問は、音の特徴(例えば、「母音」、「鼻音」、「子音」など)及び対応する依存性の特徴(例えば、「左」又は「右」)を含む。それぞれのノードにおける質問は、学習データを記述する能力の向上を記述する対数尤度利得を最大化するように設計される。この処理は、対数尤度利得が非一様なクラスター閾値を下回るまで継続する。質問に対する答えに依存して、同一の葉ノードを共有する状態が結合される。一つの実施の形態において、非一様な状態クラスタリング処理は、それぞれの状態について決定木を構築し、状態ごとに(例えば、初期状態、中間状態、及び/又は終期状態ごとに)異なる非一様クラスター閾値があってもよい。
一つの実施の形態において、非一様な状態クラスタリングは、非一様なデータ駆動型クラスタリング技術である。非一様なデータ駆動型クラスタリング技術は、それぞれの状態を非一様にクラスター化するためのトップダウンの階層手順を用いて実行される。非一様なデータ駆動型クラスタリングの一つの実施の形態において、初めに、全ての可能な状態が個々のクラスターに配置される。距離を用いて、最も近いクラスター同士が繰り返しマージされる。処理は、2つのクラスター間の距離が状態ごとに定義された非一様な閾値に達するまで、又は、状態ごとに非一様な数のクラスターが得られるまで繰り返される。
ある実施の形態において、計算装置110は、限られたリソースを有する装置、例えば、ゲームコンソール、携帯電話、スマートフォン、ラップトップ、パームトップ、タブレット、ワークステーション、パーソナルコンピュータ、娯楽ロボット、セットトップボックス、テレビジョン、オーディオレシーバー、GPS装置、又は限られたリソースを有する他の電子機器である。別の実施の形態において、計算装置110は、限られたリソースを有する音声認識システムにより用いられるHMMを学習するために用いられる。
図2は、一つの実施の形態に係るHMMの学習中に実行される作業の例を示すフロー図である。図2の作業は、図1の実施例に関連して説明される。しかしながら、図2の作業は、図2に関連して議論される実施の形態以外の実施の形態により実行されうること、また、図1に関連して議論される実施の形態は、図2に関連して議論される作業とは異なる作業を実行可能であることが理解されるべきである。
ブロック210において、音声認識学習モジュール150は、HMM(例えば、拡張左側又は右側バイフォンHMM、拡張トライフォンHMM、拡張デミフォンHMM、並列システム結合HMMなど)を学習するための選択を受け付ける。この選択は、人間から受け付けてもよいし、自動化されたプログラムから受け付けてもよい。例えば、簡略化のため図1には示されていないが、学習システムは、ユーザが、学習するHMMを選択することを含む、学習の設定を行うためのインタフェース(例えば、コマンドラインインタフェース、グラフィカルユーザインタフェース)を含んでもよい。一つの実施の形態によれば、HMMは、HMM構成仕様保持部140において定義される。本発明の実施の形態に係るHMMの例は、図3−10に関連して説明される。フローは、ブロック220へ移動する。
ブロック220において、音声認識学習モジュール150は、HMM構成仕様保持部140から、選択されたHMMのためのHMM構成仕様を取得する。ある実施の形態において、HMM構成情報は、状態数、HMMのそれぞれの状態についての状態構成、例えば、コンテキスト非依存型かコンテキスト依存型か(及びコンテキストが何に依存されるか)、状態接続性、望ましい混合ガウス分布の数、及び非一様なクラスタリング処理において用いられる1以上の状態についての非一様なクラスター閾値のうちの1以上を含む。
ある実施の形態において、右側及び/又は左側バイフォンHMMが、前後関係の音声的依存性に関して経験的に重要でない状態の確率観測分布の数を、例えば、これらの状態のコンテキスト依存性を無視する、又は、これらの状態をより強く結合することにより実質的に低減するために、定義され又は学習される。トライフォンのクラスタリングの決定木の分析を通じて示唆されるように、バイフォンHMMの初期状態は、主に直前の音に依存し、終期状態は、主に直後の音に依存する。さらに、スペクトル分析によれば、音の終わりは直後の音により重大に依存し、音の始まりは直前の音に依存する。
このように、経験的に重要でない前後関係の音声的依存性は、一般に、右側バイフォンの初期状態及び左側バイフォンの終期状態に生ずる。したがって、本発明のある実施の形態において、拡張右側バイフォンについて、初期状態の確率観測分布の数を実質的に低減するために、初期状態の音声上のコンテキスト依存性が無視される(例えば、初期状態がコンテキスト非依存型として定義されるか、又は、非一様な状態クラスタリング処理により完全に結合されることにより)か、又は、初期状態が(中間状態、終期状態、及び典型的な右側バイフォンの初期状態に比べて)より強く結合される。また、拡張左側バイフォンについて、終期状態の確率観測分布の数を実質的に低減するために、終期状態の音声上のコンテキスト依存性が無視される(例えば、終期状態がコンテキスト非依存型として定義されるか、又は、非一様な状態クラスタリング処理により完全に結合されることにより)か、又は、終期状態が(初期状態、中間状態、及び典型的な左側バイフォンの終期状態に比べて)より強く結合される。
拡張右側バイフォンについて非一様な状態クラスタリング処理が実行される実施の形態において、初期状態及び/又は中間状態の非一様なクラスター閾値は、これらの状態の観測分布の数が、1つである(例えば、完全に結合される)か、又は、終期状態や、典型的な右側バイフォンの対応する初期状態及び中間状態に比べて実質的に低減されるように定義される。拡張左側バイフォンについて非一様な状態クラスタリング処理が実行される実施の形態において、終期状態及び/又は中間状態の非一様なクラスター閾値は、これらの状態の観測分布の数が、1つである(例えば、完全に結合される)か、又は、初期状態や、典型的な左側バイフォンの対応する中間状態及び終期状態に比べて実質的に低減されるように定義される。
トライフォンについて、経験的に重要でない前後関係の音声的依存性は、一般に、初期状態(直後の音との依存性が経験的に重要でない)及び終期状態(直前の音との依存性が経験的に重要でない)に生ずる。したがって、本発明のある実施の形態において、トライフォンは、初期状態における直後の音との前後関係の音的依存性を無視し、終期状態における徳前の音との前後関係の音的依存性を無視することにより拡張される。例えば、ある実施の形態において、拡張トライフォンHMMは、初期状態が直前の音のみに依存し、中間状態が直前及び直後の音に依存し、終期状態が直後の音のみに依存するように定義される。
デミフォンも、経験的に重要でない前後関係の音的依存性を有する状態の確率観測分布の数を低減させることにより拡張されうる。例えば、経験的に重要でない前後関係の音的依存性は、非支配型デミフォンでも、右側及び左側支配型デミフォンでも、一般に、デミフォンの中間状態に生ずる。したがって、ある実施の形態において、右側支配型デミフォンの中間状態における直後の音との前後関係の音的依存性が無視されるか、又は、中間状態の観測分布の数が、拡張右側支配型デミフォンの終期状態や、典型的な右側支配型デミフォンの中間状態に比べて実質的に低減される。例えば、ある実施の形態において、右側支配型デミフォンの中間状態は、コンテキスト非依存型であるように定義される(初期状態は直前の音に依存するままであり、終期状態は直後の音に依存するままである)。別の実施の形態において、中間状態について定義され、中間状態の観測分布の数を1つに低減する(例えば、完全に結合される)か、又は、拡張右側支配型デミフォンの終期状態や、典型的な右側支配型デミフォンの中間状態に比べて実質的に低減する(例えば、典型的な右側支配型デミフォンより十分に結合され、拡張右側支配型デミフォンの終期状態により十分に結合される)、非一様なクラスター閾値を用いた非一様クラスタリング処理が実行される。
同様に、ある実施の形態において、左側支配型デミフォンの中間状態における直前の音との前後関係の音的依存性が無視されるか、又は、中間状態の観測分布の数が、拡張左側支配型デミフォンの初期状態や、典型的な左側支配型デミフォンの中間状態に比べて実質的に低減される。例えば、ある実施の形態において、左側支配型デミフォンの中間状態は、コンテキスト非依存型であるように定義される(初期状態は直前の音に依存するままであり、終期状態は直後の音に依存するままである)。別の実施の形態において、中間状態について定義され、中間状態の観測分布の数を1つに低減する(例えば、完全に結合される)か、又は、拡張左側支配型デミフォンの初期状態や、典型的な左側支配型デミフォンの中間状態に比べて実質的に低減する(例えば、典型的な左側支配型デミフォンより十分に結合され、拡張左側支配型デミフォンの初期状態により十分に結合される)、非一様なクラスター閾値を用いた非一様クラスタリング処理が実行される。
ある実施の形態において、選択されたHMMは、異なる2以上のHMM(例えば、左側バイフォン(拡張又は典型)、右側バイフォン(拡張又は典型)、モノフォン、トライフォン(拡張又は典型)など)を結合する並列システム結合HMMである。並列システム結合HMMは、学習モジュール150が、マッチした及び/又はミスマッチな条件に対する最適なコンテキスト依存型HMMトポロジーを自動的に検索及び選択することを可能とする新しい状態接続を含む。学習モジュール150は、学習中に選択されない状態を並列システム結合HMMから除去してもよい。
図2に戻り、フローはブロック220からブロック230へ移動し、音声認識学習モジュール150は、例えば学習データベース120から、音声データを取得する。音声データは予め録音されてもよく、特定の環境条件を補償することを目的として拡張又は変更されてもよい(例えば、異なるタイプのノイズ、反響、ノイズ減衰、特徴変換、HMMバックエンドノイズ補償など)。
つづいてフローはブロック240へ移動し、音声認識学習モジュール150は、学習データベース120からの音声データ及び辞書130を用いて、HMM構成仕様において定義されたパラメータにしたがってHMMを学習させる。
HMM構成仕様が非一様なクラスター閾値を含む実施の形態において、学習は、前後関係の音的依存性が経験的に重要でない状態の観測分布の数を有意に減少させるために非一様な状態クラスタリング処理を実行する非一様状態クラスタリングモジュール155を含む。非一様な状態クラスタリング処理の後のある状態の確率観測分布の数は、その状態に関連づけられた非一様クラスター閾値の値に依存する。十分に高い非一様クラスター閾値が与えられた場合、確率観測分布の数は1つに減少されてもよく、このとき、その状態のコンテキスト依存性は無視される。ある実施の形態において、選択されたHMMの状態のうち少なくともいくつかの非一様クラスター閾値は、コンテキスト依存性により影響を受けにくいHMMの状態をより強く結合するために用いられる。出力観測の数を減少させると、音声認識システムに必要な計算の要求(例えば、音声認識システムのメモリフットプリントやCPUリソースなど)を低減することができ、ミスマッチな条件における音声認識の精度を向上させることができる。
選択されたHMMが並列システム結合HMMである実施の形態において、学習モジュール150の並列システム結合モジュール160は、マッチした及び/又はミスマッチな条件のための最適なコンテキスト依存HMMトポロジーを自動的に検索し選択するために状態連結を用いる。並列システム結合モジュール160は、並列システム結合HMMから学習(音声学習データに依存する)中に選択されない状態を除去してもよい。
学習が完了した後、フローはブロック240からブロック250へ移動し、学習済みHMMが、学習済みHMM保持部145に格納され、音声認識システムにより音声認識中に用いられる。これについては、図11及び12に関連して後で詳述する。
図3は、一つの実施の形態に係る拡張右側バイフォンHMM310の例を示す。HMM310は、初期状態315、中間状態320、及び終期状態325を含む。HMM310の3つの状態は、それぞれ、音の始まり、中核、及び終わりをモデル化する。HMM310は3つの状態を含むが、異なる実施の形態においては、それ以上又はそれ以下の数の状態があってもよい。図3に示すように、それぞれのベース音は、状態遷移確率{Aip}と、出力観測確率分布{Bip(Ot)}とにより表現される。出力観測分布は、一般に、多変量混合ガウス分布であり、時刻tにおいて観測Otを生成する確率を決定する。出力観測は、状態インデックスi及び音インデックスp、及び時刻tにおける入力観測により特定される。
特定のベース音pをモデル化する標準的な右側バイフォンHMMにおけるそれぞれの状態は、直後の(ベース音pの右側に隣接する)音rに依存する。したがって、標準的な右側バイフォンHMMにおけるそれぞれの状態の観測分布は、ベース音及び後続の音に関連付けられる。観測分布の数は、一様な決定木クラスタリングアルゴリズム又は一様なデータ駆動型クラスタリングアルゴリズムにより限定されうるが、これらのアルゴリズムは、それぞれの状態にわたって同一である一様なクラスター閾値を用いる。結果的に、これらのアルゴリズムは、いくつかの状態の観測分布の数が大きすぎる結果を生じ(例えば、一様なクラスター閾値が比較的小さい場合)、コンテキスト依存性により影響を受けにくい状態に不必要で余分な観測分布をもたらし、ミスマッチな条件(例えば、ローカルな学習条件に学習され過ぎる)における音声認識システムの精度を減少させ、メモリフットプリントを増加させる。または、いくつかの状態の観測分布の数が小さすぎる結果を生じ(例えば、一様なクラスター閾値が比較的大きい場合)、コンテキスト依存性により影響を受けやすい状態が普遍的過ぎる原因となりえ、マッチした及びミスマッチな条件における音声認識システムの精度を減少させることになる。
バイフォンHMMの初期状態(音の始まりを表現する)は、主に、直前の音に依存する。したがって、初期状態について、直後の音との前後関係の依存性は、重要ではなさそうである。拡張右側バイフォンHMM310において、初期状態315の前後関係の音的依存性は無視され、実質的にモノフォン状態と同様に扱われる。したがって、初期状態315の観測分布は1つのみである。図3に示すように、中間状態320及び終期状態325において表現されるベース音は、直後の音(p+rで示される)に依存する。右側バイフォンHMM310の初期状態の観測分布の数を低減することにより、音声認識システムのメモリフットプリントを低減し、CPUリソースの要求を低減することができるだけでなく、ミスマッチな条件(現実の使用の環境が学習中の環境及び/又はシミュレートされた環境とは異なる状況)における音声認識システムの精度を向上させることができる。
一つの実施の形態において、初期状態315の観測分布の数を1つの観測分布に低減するために、非一様なクラスタリング処理が実行される結果として初期状態315が十分に結合される(すなわち、1つの観測分布を有する)ように、非一様なクラスター閾値350が定義される。例えば、非一様なクラスター閾値350は、無限大又は非常に大きな値に設定される。中間状態320及び終期状態325の非一様なクラスター閾値355及び360は、それぞれ、それらの状態の観測分布の数を低減し、非一様なクラスター閾値350とは異なる。非一様なクラスター閾値355及び360は、同じ値であってもよいし、異なる値であってもよい(例えば、閾値355は閾値360より大きくてもよいし小さくてもよい)。一つの実施の形態において、非一様なクラスター閾値355及び360の値は、終期状態325が中間状態320よりもほぼ3分の2ほど多くの観測分布を有するようにされる。
もう一つの実施の形態において、右側バイフォン310の初期状態315は、HMM構成仕様において、コンテキスト非依存型であると定義される。これにより、確率観測分布の数を1つに低減することができる。このような実施の形態において、非一様な閾値350は定義される必要はないが、非一様な閾値355及び360は定義されてもよい(これらの閾値は同じ値であってもよいし、異なってもよい)。
同様のメカニズムが、一つの実施の形態に係る拡張左側バイフォンHMMに用いられてもよい。図4は、一つの実施の形態に係る拡張左側バイフォンHMM410の例を示す。HMM410は、初期状態415、中間状態420、及び終期状態425を含む。HMM410の3つの状態は、それぞれ、音の始まり、中核、及び終わりを表現する。HMM410は3つの状態を含むが、異なる実施の形態において、それ以上又はそれ以下の数の状態があってもよい。
特定のベース音pをモデル化する標準的な左側バイフォンHMMにおけるそれぞれの状態は、直前の(ベース音pの左側に隣接する)音lに依存する。したがって、標準的な左側バイフォンHMMにおけるそれぞれの状態の観測分布は、ベース音及び直前の音に関連付けられる。観測分布の数は、一様な決定木クラスタリングアルゴリズム又は一様なデータ駆動型クラスタリングアルゴリズムにより限定されうるが、これらのアルゴリズムは、それぞれの状態にわたって同一である一様なクラスター閾値を用いる。結果的に、これらのアルゴリズムは、いくつかの状態の観測分布の数が大きすぎる結果を生じ(例えば、一様なクラスター閾値が比較的小さい場合)、コンテキスト依存性により影響を受けにくい状態に不必要で余分な観測分布をもたらし、ミスマッチな条件(例えば、ローカルな学習条件に学習され過ぎる)における音声認識システムの精度を減少させ、メモリフットプリントを増加させる。または、いくつかの状態の観測分布の数が小さすぎる結果を生じ(例えば、一様なクラスター閾値が比較的大きい場合)、コンテキスト依存性により影響を受けやすい状態が普遍的過ぎる原因となりえ、マッチした及びミスマッチな条件における音声認識システムの精度を減少させることになる。
しかしながら、バイフォンHMMの終期状態(音の終わりをモデル化する)は、主に、直後の音に依存する。したがって、終期状態について、直前の音との前後関係の依存性は、重要ではなさそうである。拡張左側バイフォンHMM410において、終期状態425の前後関係の音的依存性は無視され、実質的にモノフォン状態と同様に扱われる。したがって、終期状態425の観測分布は1つのみである。図4に示すように、初期状態415及び中間状態420において表現されるベース音は、直前の音(l−pで示される)に依存する。左側バイフォンHMM410の終期状態の観測分布の数を低減することにより、音声認識システムのメモリフットプリントを低減することができるだけでなく、ミスマッチな条件(現実の使用の環境が学習中の環境及び/又はシミュレートされた環境とは異なる状況)における音声認識システムの精度を向上させることができる。
一つの実施の形態において、終期状態425の観測分布の数を1つの観測分布に低減するために、非一様なクラスタリング処理が実行される結果として終期状態425が十分に結合される(すなわち、1つの観測分布を有する)ように、非一様なクラスター閾値460が選択される。例えば、非一様なクラスター閾値460は、無限大又は非常に大きな値に設定される。初期状態415及び中間状態420の非一様なクラスター閾値450及び455は、それぞれ、それらの状態の観測分布の数を低減し、非一様なクラスター閾値460とは異なる。非一様なクラスター閾値450及び455は、同じ値であってもよいし、異なる値であってもよい(例えば、閾値450は閾値455より大きくてもよいし小さくてもよい)。一つの実施の形態において、非一様なクラスター閾値450及び455の値は、初期状態415が中間状態420よりもほぼ3分の2ほど多くの観測分布を有するようにされる。
もう一つの実施の形態において、左側バイフォンHMM410の終期状態425は、HMM構成仕様において、コンテキスト非依存型であると定義される。これにより、確率観測分布の数を1つに低減することができる。このような実施の形態において、非一様な閾値460は定義される必要はないが、非一様な閾値450及び455は定義されてもよい(これらの閾値は同じ値であってもよいし、異なってもよい)。
図5は、一つの実施の形態に係る拡張右側バイフォンHMM510の別の例を示す。拡張右側バイフォンHMM510は、初期状態515が1以上の観測分布を有し、直後の音に依存する点で、右側バイフォンHMM310と異なる。さらに、中間状態520は、初期状態515よりも多いが、終期状態525よりも少ない観測分布を有する。図5に示すように、記号「+」は、状態が結合される相対量を表現する。したがって、初期状態515は中間状態520よりも強く結合され、中間状態520は終期状態525よりも強く結合される。このように、右側バイフォンHMM510の状態の観測分布の数は、音の前後関係の依存性が重要でなくなるにつれて徐々に漸減する。言い換えれば、コンテキスト依存性により影響を受けにくい状態に対するクラスタリングはより強く実行される。
非一様なクラスター閾値550の値は、非一様なクラスタリング処理が実行される結果として初期状態515の観測分布の数が典型的な右側バイフォンに比べて実質的に低減されるようにされる(例えば、閾値は典型的な右側バイフォンにおける典型的な一様なクラスター閾値よりも高い)。非一様なクラスター閾値555は、非一様なクラスター閾値560よりも大きい(それらは、非一様なクラスター閾値550よりも小さい)。一つの実施の形態において、非一様なクラスター閾値555及び560の値は、終期状態525が中間状態520よりもほぼ3分の2ほど多くの観測分布を有するようにされる。図5は、中間状態520が終期状態525よりも強く結合されることを示しているが、実施の形態はそれに限られない。例えば、中間状態520及び終期状態525は、等しく結合されてもよい(例えば、中間状態520及び終期状態525の非一様なクラスター閾値は同じ値であってもよい)。図5は3つの状態を示しているが、異なる実施の形態においては、それ以上又はそれ以下の状態であってもよい。
図6は、一つの実施の形態に係る拡張左側バイフォンHMM610の別の例を示す。拡張左側バイフォンHMM610は、終期状態625が1以上の観測分布を有し、直前の音に依存する点で、左側バイフォンHMM410と異なる。さらに、中間状態620は、終期状態625よりも多いが、初期状態615よりも少ない観測分布を有する。図6に示すように、記号「+」は、状態が結合される相対量を表現する。したがって、終期状態625は中間状態620よりも強く結合され、中間状態620は初期状態615よりも強く結合される。このように、左側バイフォンHMM610の状態の観測分布の数は、音の前後関係の依存性が重要でなくなるにつれて徐々に漸減する。このように、コンテキスト依存性により影響を受けにくい状態に対するクラスタリングはより強く実行される。
非一様なクラスター閾値660の値は、非一様なクラスタリング処理が実行される結果として終期状態625の観測分布の数が典型的な左側バイフォンに比べて実質的に低減されるようにされる(例えば、閾値は典型的な左側バイフォンにおける典型的な一様なクラスター閾値よりも高い)。非一様なクラスター閾値655は、非一様なクラスター閾値650よりも大きい(それらは、非一様なクラスター閾値660よりも小さい)。一つの実施の形態において、非一様なクラスター閾値650及び655の値は、初期状態615が中間状態620よりもほぼ3分の2ほど多くの観測分布を有するようにされる。図6は、中間状態620が初期状態615よりも強く結合されることを示しているが、実施の形態はそれに限られない。例えば、中間状態620及び初期状態615は、等しく結合されてもよい(例えば、中間状態620及び初期状態615の非一様なクラスター閾値は同じ値であってもよい)。図6は3つの状態を示しているが、異なる実施の形態においては、それ以上又はそれ以下の状態であってもよい。
本発明の実施の形態は、バイフォンHMMに限られない。図7は、一つの実施の形態に係る拡張右側支配型デミフォンの例を示す。拡張右側市はいたがデミフォンHMM710は、初期状態715、中間状態720、及び終期状態725を含む。初期状態715は、左側デミフォン部分712に含まれ、中間状態720及び終期状態725は、右側デミフォン部分714に含まれる。初期状態715は、直前の音に依存し、終期状態725は、直後の音に依存する。ある実施の形態において、中間状態720はコンテキストに依存しない(例えば、完全に結合され、1つの観測分布しか有しない)。別の実施の形態において、中間状態720は、直後の音に依存するが、終期状態725よりも強く結合される(例えば、非一様なクラスター閾値755は、非一様なクラスター閾値760よりも大きい)。これらの実施の形態において、終期状態725は、中間状態720よりも多くの観測分布を有する。典型的な右側支配型デミフォンにおいては、クラスター閾値は、それぞれの状態にわたって同一である(したがって、同一の閾値が中間状態及び終期状態に適用される)ことが理解されるべきである。ある実施の形態において、非一様なクラスター閾値750は、非一様なクラスター閾値760と同一の値を有するが、別の実施の形態においては、それらは異なる。図7は3つの状態を示しているが、異なる実施の形態においては、それ以上又はそれ以下の状態であってもよい。
もう一つの実施の形態において、右側支配型デミフォンHMM710の中間状態720は、HMM構成仕様において、コンテキスト非依存型であると定義される。これにより、確率観測分布の数を1つに低減することができる。このような実施の形態において、非一様な閾値755は定義される必要はないが、非一様な閾値750及び760は定義されてもよい(これらの閾値は同じ値であってもよいし、異なってもよい)。
同様のメカニズムが、一つの実施の形態に係る拡張左側支配型デミフォンHMMに用いられてもよい。図8は、一つの実施の形態に係る拡張左側支配型デミフォンHMMの例を示す。拡張左側支配型デミフォンHMM810は、初期状態815、中間状態820、及び終期状態825を含む。初期状態815及び中間状態820は、左側デミフォン部分812に含まれ、終期状態825は、右側デミフォン部分814に含まれる。初期状態815は、直前の音に依存し、終期状態825は、直後の音に依存する。ある実施の形態において、中間状態820はコンテキストに依存しない(例えば、完全に結合され、1つの観測分布しか有しない)。別の実施の形態において、中間状態820は、直前の音に依存するが、初期状態815よりも強く結合される(例えば、非一様なクラスター閾値855は、非一様なクラスター閾値850よりも大きい)。これらの実施の形態において、初期状態815は、中間状態820よりも多くの観測分布を有する。典型的な左側支配型デミフォンにおいては、初期状態及び中間状態の非一様なクラスター閾値は同一であることが理解されるべきである。ある実施の形態において、非一様なクラスター閾値850は、非一様なクラスター閾値860と同一の値を有するが、別の実施の形態においては、それらは異なる。図8は3つの状態を示しているが、異なる実施の形態においては、それ以上又はそれ以下の状態であってもよい。
もう一つの実施の形態において、左側支配型デミフォンHMM810の中間状態820は、HMM構成仕様において、コンテキスト非依存型であると定義される。これにより、確率観測分布の数を1つに低減することができる。このような実施の形態において、非一様な閾値855は定義される必要はないが、非一様な閾値850及び860は定義されてもよい(これらの閾値は同じ値であってもよいし、異なってもよい)。
図7及び8は、右側及び左側支配型デミフォンを示すが、本発明の実施の形態は右側又は左側支配型デミフォンに限られない。例えば、右側又は左側支配型ではないデミフォンが、いくつかの実施の形態における拡張右側及び左側支配型デミフォンに関連して説明したのと同様に、中間状態の確率観測分布の数を低減することにより拡張されてもよい。
ある実施の形態において、トライフォンHMMが、経験的に重要でない音の前後関係の依存性を無視することにより拡張される。図9は、一つの実施の形態に係る拡張トライフォンHMMの例を示す。拡張トライフォンHMM910は、初期状態915における直後の音に対する依存性と終期状態925における直前の音に対する依存性を無視することにより、経験的に重要でない前後関係の音的依存性を低減する。一つの実施の形態において、トライフォン910のためのHMM構成仕様は、初期状態915が直前の音のみに依存し(典型的なトライフォンの状態のように直後の音には依存しない)、中間状態920が直前及び直後の音に依存し、終期状態925が直後の音のみに依存する(典型的なトライフォンの状態のように直前の音には依存しない)ように定義される。このように、それぞれの状態が直前及び直後の音に依存する典型的なトライフォンとは異なり、初期状態915は直前の音のみに依存し(l−pにより示される)、終期状態925は直後の音のみに依存する(p+rにより示される)。中間状態920は、直前及び直後の音に依存するままである(l−p+rにより示される)。したがって、初期状態915及び終期状態925の確率観測分布の数は、標準的なトライフォンに比べて低減される。図9は、それぞれの状態が少なくとも一つのコンテキストに依存する例を示しているが、別の実施の形態においては、1以上の状態がコンテキスト非依存であってもよい。図9は3つの状態を示しているが、異なる実施の形態においては、それ以上又はそれ以下の状態であってもよい。さらに、初期状態915、中間状態920、及び終期状態925の非一様なクラスタリング閾値は、前述したように、非一様なクラスタリング処理中にも用いられてもよい。
ある実施の形態において、異なるHMMの並列システム結合が、全ての条件(マッチした条件及びマッチしない条件)における精度を向上させるために用いられてもよい。図10は、一つの実施の形態に係る拡張左側及び右側バイフォン、モノフォン、及びトライフォンを組み合わせた並列システム結合HMM1010の例を示す。さらに、学習モジュール150がマッチした及び/又はミスマッチな条件のための最適なコンテキスト依存型HMMを自動的に検索及び選択することを可能とするために、異なるHMM間の新しい接続が定義される。学習モジュール150は、学習中に選択されそうにない状態を、並列システム結合HMM1010のトポロジーから削除してもよい。例として、図10は、並列システム結合HMM1010を、それが対応するHMM構成仕様に定義されたものとして示す。しかしながら、学習モジュール150は、学習中に用いられる音声データに依存して、学習中に選択される可能性が小さい状態を削除し、結果の学習済み並列システム結合HMMを学習済みHMM保持部145に格納してもよい。
ある実施の形態において、状態の学習を最適化し、システムの精度及び並列システム結合HMM1010のパフォーマンスを更に向上させるために、並列システム結合HMM1010における最適な状態が選択され再学習される学習処理(標準的な期待値最大化法、バウム=ウェルチ、識別学習アルゴリズムなど)が繰り返し実行される。音声認識システムは、学習済み並列システム結合のトポロジーの最尤経路を動的に決定するために、学習済み並列システム結合HMMを用いる。
図10に示すように、並列システム結合HMM1010は、モノフォンHMM(初期状態1020、中間状態1030、及び終期状態1040を含む)、右側バイフォンHMM(初期状態1022、中間状態1032、及び終期状態1042を含む)、左側バイフォンHMM(初期状態1024、中間状態1034、及び終期状態1044を含む)、及びトライフォンHMM(初期状態1026、中間状態1036、及び終期状態1046を含む)を結合する。初期状態1020はコンテキスト非依存型であり、初期状態1022は直後の音に依存し、初期状態1024は直前の音に依存し、初期状態1026は直前及び直後の音に依存する。初期状態1020、1022、1024、及び1026のそれぞれは、中間状態1030、1032、1034、及び1036のそれぞれへの遷移を有する。中間状態1030はコンテキスト非依存型であり、中間状態1032は直後の音に依存し、中間状態1034は直前の音に依存し、中間状態1036は直前及び直後の音に依存する。中間状態1030、1032、1034、及び1036のそれぞれは、終期状態1040、1042、1044、及び1046のそれぞれへの遷移を有する。終期状態1040はコンテキスト非依存型であり、終期状態1042は直後の音に依存し、終期状態1044は直前の音に依存し、終期状態1046は直前及び直後の音に依存する。
図10に示したように、右側バイフォン、左側バイフォン、及びトライフォンが、一般に定義される。しかしながら、実施の形態はそれに限られず、1以上の右側バイフォン、左側バイフォン、及びトライフォンが、上述したように拡張されてもよい。図10に示した、状態数、HMMの数、状態接続性、コンテキスト依存性、それぞれの状態の状態構成(それぞれの状態がコンテキスト非依存か、直前に依存するか、直後に依存するか、直前及び直後に依存するか)は例示であり、異なる実施の形態においては、異なるトポロジー及び組み合わせが用いられてもよい。
図11は、一つの実施の形態に係るアプリケーションのために音声を認識するための音声認識システムを含む計算装置の例を示す。ある実施の形態において、計算装置1105は、限られたリソースを有する装置、例えば、ゲームコンソール、携帯電話、スマートフォン、ラップトップ、パームトップ、タブレット、ワークステーション、パーソナルコンピュータ、娯楽ロボット、セットトップボックス、テレビジョン、オーディオレシーバー、GPS装置、又は限られたリソースを有する他の電子機器である。アプリケーション1165の機能性は、計算装置1105の性質に依存する。例えば、アプリケーションは、オフィススート(例えば、ワードプロセッサ、スプレッドシート処理など)、ビデオゲーム及び/又はビデオゲームシステム、オペレーティングシステム、マルチメディアアプリケーションなどであってもよい。ある実施の形態において、計算装置110の特徴が、計算装置1105に含まれてもよい(例えば、計算装置1105は、音声認識学習モジュールを含んでもよい)が、別の実施の形態においては、音声認識学習は、計算装置1105の外部の装置において実行されてもよい。
計算装置1105は、音声(例えば、コマンド又はアプリケーション1165に関連した他の音声、及び/又は、背景ノイズなどの環境音を含んでもよい)を検知するためにマイクロフォン1110を用いる。アナログ音声信号は、アナログ−ディジタルコンバータ(ADC)1115によりディジタルデータに変換される。ディジタル音声信号は、ディジタル信号プロセッサ(DSP)1120により処理される。例えば、ディジタル信号プロセッサ1120は、ディジタルデータから特徴ベクトル(時間領域に対する音声の一部)を生成する。ディジタル信号プロセッサ1120は、特徴変換及び正規化、ノイズ減衰、音声強調、及び/又はHMMバックエンドノイズ補償をディジタルデータに実行してもよい。
未知の音声データは、辞書1140に定義された、アプリケーション1165により適用可能な音声要素(例えば、単語、文、コマンド、命令など)を認識するために、音声認識部1130により処理される。一つの実施の形態において、辞書1140に格納されたそれぞれの音声要素は、対応する音系列(1以上の音)に関連付けられる。音声認識部1130は、入力音声データから一連の音を識別するために、学習済みHMM保持部145に格納された学習済みHMMを用いる。学習済みHMMは、図3〜10に関連して説明された拡張HMMに対応してもよい。
音声認識部1130は、認識された音系列に対応する音声要素を認識するために、辞書1140を用いる。音声認識部1130は、アプリケーション1165による使用(例えば、コマンド又はアクションの実行、画面への表示など)のため、認識された音声要素から単語列、文、フレーズ、コマンドを形成するために、文法1145又は言語モデル1150を用いる。
ある実施の形態において、音声認識部1130は、発話者(アプリケーション1165のユーザ)が、学習済みHMM保持部145に格納された学習済みHMMを、自身の声及び/又は環境に適合させることを可能とする調整モジュール1160を更に含む。調整モジュール1160は、音声認識システムの精度を向上させ、音声認識システムが特定の環境及び/又は発話者のために学習することを可能とする。一つの実施の形態において、調整は自動的に(例えば、定期的に、発話者の介入なしに)実行されるが、別の実施の形態においては、発話者による要求及び対話により調整が実行される。実施の形態において、調整モジュール1160は、図3〜10において説明した拡張HMMを調整する。
図12は、一つの実施の形態に係る音声認識中に実行される手順の例を示すフロー図である。図12の手順は、図11の実施例に関連して説明される。しかしながら、図12の作業は、図12に関連して議論される実施の形態以外の実施の形態により実行されうること、また、図11に関連して議論される実施の形態は、図12に関連して議論される作業とは異なる作業を実行可能であることが理解されるべきである。
ブロック1210において、計算装置1105は、マイクロフォン1110において音声信号を受信する。音声信号は、アプリケーション1165のための音声要素及び/又は環境音を含んでもよい。フローはブロック1215へ移り、ADC1115は音声信号をディジタル音声データに変換する。フローはつづいてブロック1220に移り、DSP1120はディジタル音声データから特徴ベクトルを生成する。ある実施の形態において、DSP1120は、特徴変換及び正規化、ノイズ減衰、音声強調、及び/又はHMMバックエンドノイズ補償をディジタル音声データに実行してもよい。フローはブロック1220からブロック1225に移る。
ブロック1225において、音声認識部1130は、学習済みHMM保持部145からの1以上の学習済みHMMを用いて、特徴ベクトルから音声単位を特定する。学習済みHMMは、図3〜10に関連して詳述した拡張HMMである。フローはつづいてブロック1230に移り、音声認識部1130は、単語を特定するために辞書1140に対して音声単位を評価する。フローはブロック1235に移り、音声認識部1130は、文法保持部1145又は言語モデル保持部1150を用いて、単語から、アプリケーション1165により使用される文章、フレーズ、コマンドなどを形成する。フローはつづいてブロック1240に移り、アプリケーション1165は、認識された文章、フレーズ、コマンドなどに基づいてアクションを実行する。
音声認識部1130は、音声認識中に拡張HMMを用いるので、環境変化に対してよりロバスト性が強い。さらに、拡張HMMが観測分布の数を低減している場合、音声認識部は、音声認識を実行するためのメモリ及びCPUリソースを低減することができる。
図13は、いくつかの実施の形態において使用されうるデータ処理システムの例を示すブロック図である。一つの実施の形態において、データ処理システム1300の構成例は、計算装置110及び/又は計算装置1105に含まれてもよい。データ処理システム1300は、携帯電話、スマートフォン、ラップトップ、パームトップ、タブレット、ワークステーション、パーソナルコンピュータ、娯楽ロボット、セットトップボックス、テレビジョン、オーディオレシーバー、GPS装置、又は他の処理システムであってもよい。
データ処理システム1300は、処理システム1320を含む。処理システム1320は、1以上のマイクロプロセッサ及び/又は集積回路上のシステムを含んでもよい。処理システム1320は、オプショナルキャッシュメモリ1310、電源供給部1325(1以上のバッテリーを含んでもよい)、揮発性メモリ1330(例えばRAM)、不揮発性メモリ1340(例えばハードディスク、フラッシュドライブ、相変化メモリ(Phase Change Memory:PCM)など)、表示コントローラ及び表示装置1370、入出力装置1380、及びオプショナル無線トランシーバ1390と、1以上のバス1350を介して結合される。ある実施の形態において、図13に示されない更なる構成が処理システム1300の一部とされてもよいし、ある実施の形態において、図13に示された構成よりも少ない構成が用いられてもよい。さらに、図13に示されない1以上のバスが、既知のさまざまな構成を相互に接続するために用いられてもよい。
メモリ1330及び/又は1340は、データ及び/又はデータ処理システム1300により実行されるプログラムを格納してもよい。例えば、メモリ1330及び/又は1340は、音声認識学習モジュール150及び音声認識部1130により実行される命令を格納してもよい。入出力装置1380は、例えば音声認識のための音声を受信し、音声を出力するために、マイクロフォン及び/又はスピーカを含んでもよい。入出力装置1380は、キーパッド、キーボード、タッチパネル、マルチタッチパネル、又はユーザがシステムに入力を提供することを可能とする他の構成を更に含んでもよい。表示コントローラ及び表示装置1370は、グラフィカルユーザインタフェース(GUI)を含んでもよい。オプションの無線(例えばRF)トランシーバ1390(例えば、WiFiトランシーバ、赤外線トランシーバ、ブルートゥーストランシーバ、無線携帯電話トランシーバなど)は、他のデータ処理システムと通信するために用いられてもよい。
図面に示された技術は、1以上の計算装置(ゲームコンソール、携帯電話、スマートフォン、ラップトップ、パームトップ、タブレット、ワークステーション、パーソナルコンピュータ、娯楽ロボット、セットトップボックス、テレビジョン、オーディオレシーバー、GPS装置、又は他のデータ処理システム)に格納され実行されるコード及びデータを用いて実現可能である。このような計算装置は、機械読み取り可能なメディア、例えば、機械読み取り可能な記録メディア(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ装置、相変化メモリ)及び機械読み取り可能な通信メディア(電気的、光学的、音響的、又は他の形式の伝送信号、例えば、搬送波、赤外線信号、ディジタル信号など)を用いて、コード及びデータを格納し、内部的及び/又はネットワークを介して他の電子機器との間で通信する。さらに、このような計算装置は、一般に、1以上の他の構成、例えば、1以上の記録装置、ユーザ入出力装置(例えば、マイクロフォン、キーボード、タッチスクリーン、及び/又はディスプレー)及びネットワーク接続に結合された1以上のプロセッサのセットを含む。プロセッサのセット及び他の構成は、一般に、1以上のバス及びブリッジ(バスコントローラとも呼ばれる)を介して結合される。記録装置及びネットワークトラフィックを搬送する信号は、それぞれ、1以上の機械読み取り可能な記録メディア及び機械読み取り可能な通信メディアを象徴する。したがって、ある電子機器の記録装置は、一般に、その電子機器の1以上のプロセッサのセットにおいて実行されるコード及び/又はデータを格納する。
実施の形態の1以上の部分は、ソフトウェア、ファームウェア、及び/又はハードウェアの異なる組み合わせを用いて実現されてもよい。例えば、音声認識学習モジュール150及び音声認識部1130が、ソフトウェア、ファームウェア、及び/又はハードウェアの異なる組み合わせを用いて実現されてもよい。
実施の形態においては、音ベースの認識システムに関して説明したが、実施の形態はそれに限られず、異なる接続性又は他の形式の単位(例えば、単語、機能語、文節、最初及び最後の文節など)を用いた他のタイプの音声認識システムが、ある実施の形態において用いられてもよい。
図面のフロー図は、本発明の特定の実施の形態により実行される手順の特定の順序を示すが、そのような順序は例であり、例えば、別の実施の形態では、異なる順序で、特定の手順を組み合わせたり、特定の手順を重複したりして手順が実行されてもよい。
本発明が、いくつかの実施の形態に関して説明されたが、本発明は説明された実施の形態に限られず、添付された特許請求の範囲の精神及び範囲内で変更及び代替が可能であることは、当業者に認識されるところである。詳細な説明は、限定ではなく例示であるとみなされるべきである。

Claims (27)

  1. アプリケーションのためのコンテキスト依存型音声認識装置の環境変化に対するロバスト性を向上させるための装置であって、
    音声認識学習のための音声を格納するための学習データベースと、
    前記コンテキスト依存型音声認識装置により認識される複数の単語を格納するための辞書と、
    前記学習データベース及び前記辞書を用いて、複数の状態を含む隠れマルコフモデル(Hidden Markov Model:HMM)の1以上の集合を学習するための音声認識学習モジュールと、を備え、
    前記音声認識学習モジュールは、それぞれのHMMに含まれるそれぞれの状態に対して、その状態の観測分布の数を低減させるクラスター化の程度を決定するためのクラスター閾値を用いて、それぞれの状態をクラスター化するための状態クラスタリング処理を更に実行し、
    記状態クラスタリング処理は、それぞれのHMMに含まれる少なくともいくつかの状態について、異なる前記クラスター閾値を用いることにより、経験的にコンテキストにより影響を受けにくい状態の観測分布の数を、よりコンテキストにより影響を受けやすい状態の観測分布の数よりも低減させて、経験的にコンテキストにより影響を受けにくい状態を、よりコンテキストにより影響を受けやすい状態よりも強くクラスター化する
    ことを特徴とする装置。
  2. 複数の状態を含むHMMのうち少なくとも1つは、コンテキスト依存しない終期状態を有する左側バイフォンHMMであり、前記終期状態は、前記左側バイフォンHMMの終端モデル状態であって、それ自身以外の左側バイフォンHMMの他の状態に接続しないことを特徴とする請求項1に記載の装置。
  3. 複数の状態を含むHMMのうち少なくとも1つは、コンテキスト依存しない初期状態を有する右側バイフォンHMMであり、前記初期状態は、前記右側バイフォンHMMの導入モデル状態であって、それ自身以外の右側バイフォンHMMの他の状態から接続されないことを特徴とする請求項1に記載の装置。
  4. 複数の状態を含むHMMのうち少なくとも1つは、それぞれ異なる前記クラスター閾値を有する初期状態、中間状態、及び終期状態を有する左側バイフォンHMMであり、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であり、
    記状態クラスタリング処理は、前記終期状態を前記中間状態及び前記初期状態よりも強くクラスター化し、前記中間状態を前記初期状態よりも強くクラスター化することを特徴とする請求項1に記載の装置。
  5. 複数の状態を含むHMMのうち少なくとも1つは、それぞれ異なる前記クラスター閾値を有する初期状態、中間状態、及び終期状態を有する右側バイフォンHMMであり、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であり、
    記状態クラスタリング処理は、前記初期状態を前記中間状態及び前記初期状態よりも強くクラスター化し、前記中間状態を前記終期状態よりも強くクラスター化することを特徴とする請求項1に記載の装置。
  6. 複数の状態を含むHMMのうち少なくとも1つは、少なくとも、初期状態、中間状態、及び終期状態を含む複数の状態を含むトライフォンHMMであり、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であり、
    前記音声認識学習モジュールは、前記初期状態が直前の音のみに依存し、前記中間状態が前記直前の音及び直後の音に依存し、前記終期状態が前記直後の音のみに依存するように、前記複数の状態を含むトライフォンを学習させることを特徴とする請求項1に記載の装置。
  7. 複数の状態を含むHMMのうち少なくとも1つは、少なくとも、初期状態、中間状態、及び終期状態を有するデミフォンHMMであり、
    前記中間状態は、前記クラスター閾値に関連付けられ、
    記状態クラスタリング処理は、前記中間状態の観測分布の数を低減し、
    前記初期状態は、前記デミフォンHMMの左側デミフォン部分の導入モデル状態であって、それ自身以外の他の状態から接続されず、前記終期状態は、前記デミフォンHMMの右側デミフォン部分の終端モデル状態であり、それ自身以外の他の状態に接続せず、前記中間状態は、前記初期状態及び前記終期状態とは異なる状態であり、前記左側デミフォン部分又は前記右側デミフォン部分に含まれることを特徴とする請求項1に記載の装置。
  8. 複数の状態を含むHMMのうち少なくとも1つは、複数の状態の1つにおいて、複数の状態を含む左側バイフォンHM、複数の状態を含む右側バイフォンHMM、複数の状態を含むトライフォンの1以上と少なくとも1つのモノフォンを組み合わせた複数の状態を含む並列システム結合であることを特徴とする請求項1に記載の装置。
  9. コンテキスト依存型音声認識装置の環境変化に対するロバスト性を向上させるための方法であって、
    複数の状態のうち少なくともいくつかが、その状態の観測分布の数を低減させるクラスター化の程度を決定するための異なるクラスター閾値に関連付けられた、複数の状態を有する隠れマルコフモデル(HMM)を学習するための選択を受け付けるステップと、
    複数の状態のそれぞれに対して、前記クラスター閾値を用いて、経験的にコンテキストにより影響を受けにくい状態の観測分布の数を、よりコンテキストにより影響を受けやすい状態の観測分布の数よりも低減させて、経験的にコンテキストにより影響を受けにくい状態を、よりコンテキストにより影響を受けやすい状態よりも強くクラスター化する状態クラスタリング処理を実行するステップを含む、前記HMMを学習させるステップと、
    学習済みのHMMを格納するステップと、
    を備えることを特徴とする方法。
  10. 前記HMMは、右側バイフォンであって、初期状態及び1以上の他の状態を含み、
    前記初期状態は、前記1以上の他の状態から接続されない導入モデル状態であり、
    前記右側バイフォンの前記初期状態は、クラスター閾値に関連付けられ、
    前記初期状態のコンテキスト依存性は、前記状態クラスタリング処理中に前記初期状態に関連付けられた前記クラスター閾値適用されることによって低減されることを特徴とする請求項9に記載の方法。
  11. 前記HMMは、右側バイフォンであって、それぞれ異なる前記クラスター閾値に関連付けられた初期状態、中間状態、及び終期状態を少なくとも含み、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であり、
    記状態クラスタリング処理は、前記初期状態を前記中間状態及び前記終期状態よりも強くクラスター化し、前記中間状態を前記終期状態よりも強くクラスター化するために、異なる前記クラスター閾値を用いることを特徴とする請求項9に記載の方法。
  12. 前記HMMは、左側バイフォンであって、終期状態及び1以上の他の状態を含み、
    前記左側バイフォンの前記終期状態は、前記クラスター閾値に関連付けられ、
    前記終期状態は、前記1以上の他の状態に接続しない終端モデル状態であり、
    前記終期状態のコンテキスト依存性は、前記状態クラスタリング処理中に前記終期状態に関連付けられた前記クラスター閾値適用されることによって低減されることを特徴とする請求項9に記載の方法。
  13. 前記HMMは、左側バイフォンであって、それぞれ異なる前記クラスター閾値に関連付けられた初期状態、中間状態、及び終期状態を少なくとも含み、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であり、
    記状態クラスタリング処理は、前記終期状態を前記初期状態及び前記中間状態よりも強くクラスター化し、前記中間状態を前記初期状態よりも強くクラスター化するために、異なる前記クラスター閾値を用いることを特徴とする請求項9に記載の方法。
  14. 前記HMMは、少なくとも、初期状態、中間状態、及び終期状態を有するトライフォンであり、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であり、
    前記HMMを学習させるステップは、前記初期状態が直前の音のみに依存し、前記中間状態が前記直前の音及び直後の音に依存し、前記終期状態が前記直後の音のみに依存するように、前記複数の状態を有するトライフォンを学習させることを特徴とする請求項9に記載の方法。
  15. 前記HMMは、少なくとも、初期状態、中間状態、及び終期状態を有するデミフォンであり、
    前記初期状態は、前記デミフォンの左側デミフォン部分の導入モデル状態であって、それ自身以外の他の状態から接続されず、前記終期状態は、前記デミフォンの右側デミフォン部分の終端モデル状態であり、それ自身以外の他の状態に接続せず、前記中間状態は、前記初期状態及び前記終期状態とは異なる状態であり、前記左側デミフォン部分又は前記右側デミフォン部分に含まれ、
    前記中間状態は、前記クラスター閾値に関連付けられ、
    記状態クラスタリング処理は、前記中間状態の観測分布の数を低減することを特徴とする請求項9に記載の方法。
  16. 音声認識のための装置であって、
    HMMに含まれる状態の観測分布の数を低減させるクラスター化の程度を決定するためのクラスター閾値を用いて前記状態をクラスター化するための状態クラスタリング処理において、HMMの少なくともいくつかの状態について異なる前記クラスター閾値を用いることにより、コンテキストにより経験的に影響を受けにくい1以上の状態の観測分布の数が、よりコンテキストにより影響を受けやすい状態の観測分布の数よりも低減された、複数の状態をそれぞれ有する1以上の学習済みHMMの集合と、
    1以上の学習済みHMMを用いて音声を認識し、結果をアプリケーションに提供する音声認識部と、
    を備えることを特徴とする装置。
  17. 前記学習済みHMMの集合のうちの1つは、コンテキストに依存しない終期状態を含み、コンテキストに依存する1以上の他の状態を含む左側バイフォンであり、前記終期状態は、前記左側バイフォンの終端モデル状態であって、それ自身以外の前記左側バイフォンの他の状態に接続しないことを特徴とする請求項16に記載の装置。
  18. 前記学習済みHMMの集合のうちの1つは、コンテキストに依存しない初期状態を含み、コンテキストに依存する1以上の他の状態を含む右側バイフォンであり、前記初期状態は、前記右側バイフォンの導入モデル状態であって、それ自身以外の他の状態から接続されないことを特徴とする請求項16に記載の装置。
  19. 前記学習済みHMMの集合のうちの1つは、少なくとも、直前の音にのみ依存する初期状態、前記直前の音及び直後の音に依存する中間状態、及び前記直後の音のみに依存する終期状態を含むトライフォンであり、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であることを特徴とする請求項16に記載の装置。
  20. 前記学習済みHMMの集合のうちの1つは、少なくとも、初期状態、中間状態、及び終期状態を含むデミフォンであり、
    前記初期状態は、前記デミフォンの左側デミフォン部分の導入モデル状態であって、それ自身以外の他の状態から接続されず、前記終期状態は、前記デミフォンの右側デミフォン部分の終端モデル状態であり、それ自身以外の他の状態に接続せず、前記中間状態は、前記初期状態及び前記終期状態とは異なる状態であり、前記左側デミフォン部分又は前記右側デミフォン部分に含まれ、
    前記中間状態は、前記クラスター閾値に関連付けられ、
    記状態クラスタリング処理は、前記中間状態の観測分布の数を低減することを特徴とする請求項16に記載の装置。
  21. 前記学習済みHMMの集合のうちの1つは、左側バイフォンHMM、右側バイフォンHMM、トライフォンHMM、及びモノフォンHMMのうち2以上の間の接続確立された並列システム結合HMMであり、
    前記音声認識部は、前記並列システム結合HMMである前記学習済みHMMの集合の1つを用いて、前記並列システム結合HMMにおける異なる複数のHMMにわたる最適経路を動的に決定することを特徴とする請求項16に記載の装置。
  22. 計算装置において音声認識を実行するための方法であって、
    音声信号を取得するステップと、
    前記音声信号をディジタル音声に変換するステップと、
    前記ディジタル音声から特徴ベクトルを生成するステップと、
    HMMに含まれる状態の観測分布の数を低減させるクラスター化の程度を決定するためのクラスター閾値を用いて前記状態をクラスター化するための状態クラスタリング処理において、HMMの少なくともいくつかの状態について異なる前記クラスター閾値を用いることにより、コンテキストにより経験的に影響を受けにくい1以上の状態の観測分布の数が、よりコンテキストにより影響を受けやすい状態の観測分布の数よりも低減された学習済みHMMを用いて前記特徴ベクトルから音声単位を特定するステップと、
    前記音声単位により形成される音声要素を特定するステップと、
    前記音声要素をアプリケーションに提供するステップと、
    を備えることを特徴とする方法。
  23. 前記学習済みHMMは、コンテキストに依存しない終期状態を含み、コンテキストに依存する1以上の他の状態を含む左側バイフォンであり、前記終期状態は、前記左側バイフォンの終端モデル状態であって、前記1以上の他の状態に接続しないことを特徴とする請求項22に記載の方法。
  24. 前記学習済みHMMは、コンテキストに依存しない初期状態を含み、コンテキストに依存する1以上の他の状態を含む右側バイフォンであり、前記初期状態は、前記右側バイフォンの導入モデル状態であって、前記1以上の他の状態から接続されないことを特徴とする請求項22に記載の方法。
  25. 前記学習済みHMMは、少なくとも、直前の音にのみ依存する初期状態、前記直前の音及び直後の音に依存する中間状態、及び前記直後の音のみに依存する終期状態を含むトライフォンであり、
    前記初期状態は、それ自身以外の他の状態から接続されない導入モデル状態であり、前記中間状態は、前記初期状態及び前記終期状態の間の中間の状態であり、前記終期状態は、それ自身以外の他の状態に接続しない終端モデル状態であることを特徴とする請求項22に記載の方法。
  26. 前記学習済みHMMは、少なくとも、初期状態、中間状態、及び終期状態を含むデミフォンであり、
    前記初期状態は、前記デミフォンの左側デミフォン部分の導入モデル状態であって、それ自身以外の他の状態から接続されず、前記終期状態は、前記デミフォンの右側デミフォン部分の終端モデル状態であり、それ自身以外の他の状態に接続せず、前記中間状態は、前記初期状態及び前記終期状態とは異なる状態であり、前記左側デミフォン部分又は前記右側デミフォン部分に含まれ、
    前記中間状態は、前記クラスター閾値に関連付けられ、
    記状態クラスタリング処理は、前記中間状態の観測分布の数を低減することを特徴とする請求項22に記載の方法。
  27. 前記学習済みHMMは、左側バイフォンHMM、右側バイフォンHMM、トライフォンHMM、及びモノフォンHMMのうち2以上の間の接続確立された並列システム結合HMMであり、
    前記特徴ベクトルから音声単位を特定する際に、前記並列システム結合HMMである前記学習済みHMMの集合の1つを用いて、前記並列システム結合HMMの異なる複数のHMMにわたる最適経路を動的に決定することを特徴とする請求項22に記載の方法。
JP2011114519A 2010-05-21 2011-05-23 音声認識装置及び方法 Active JP5174937B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/785,375 2010-05-21
US12/785,375 US8719023B2 (en) 2010-05-21 2010-05-21 Robustness to environmental changes of a context dependent speech recognizer

Publications (2)

Publication Number Publication Date
JP2011248360A JP2011248360A (ja) 2011-12-08
JP5174937B2 true JP5174937B2 (ja) 2013-04-03

Family

ID=44064298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011114519A Active JP5174937B2 (ja) 2010-05-21 2011-05-23 音声認識装置及び方法

Country Status (5)

Country Link
US (1) US8719023B2 (ja)
EP (1) EP2388778B1 (ja)
JP (1) JP5174937B2 (ja)
KR (1) KR101237799B1 (ja)
CN (2) CN103280216B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7153605B2 (ja) 2019-04-25 2022-10-14 信越ポリマー株式会社 異方導電性シートの製造方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
US9640175B2 (en) * 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US20140142925A1 (en) * 2012-11-16 2014-05-22 Raytheon Bbn Technologies Self-organizing unit recognition for speech and other data series
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9516413B1 (en) 2014-09-30 2016-12-06 Apple Inc. Location based storage and upload of acoustic environment related information
CN106326208B (zh) * 2015-06-30 2019-06-07 芋头科技(杭州)有限公司 一种通过语音对机器人进行训练的***及方法
US10095682B2 (en) * 2015-07-29 2018-10-09 Mark43, Inc. Determining incident codes using a decision tree
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
KR102069699B1 (ko) * 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
KR102622350B1 (ko) 2018-10-12 2024-01-09 삼성전자주식회사 전자 장치 및 그 제어 방법
US20210104237A1 (en) * 2019-10-08 2021-04-08 Zebra Technologies Corporation Method and Apparatus for Providing Modular Speech Input to Client Applications
CN116612747B (zh) * 2023-07-19 2023-09-22 腾讯科技(深圳)有限公司 语音音素识别方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5033087A (en) 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5825978A (en) 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5806030A (en) 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
DE59704065D1 (de) * 1996-08-27 2001-08-23 Siemens Ag Verfahren zur Spracherkennung mit kontexabhängig modellierten Hidden Markov Modellen
US5999893A (en) * 1997-05-02 1999-12-07 The United States Of America As Represented By The Secretary Of The Navy Classification system and method using combined information testing
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6931351B2 (en) * 2001-04-20 2005-08-16 International Business Machines Corporation Decision making in classification problems
KR20030096862A (ko) * 2002-06-18 2003-12-31 정현열 상태분할과 음소결정트리의 결합에 의한 에이치엠-넷모델의 구조결정을 이용한 음성인식방법
US7467086B2 (en) 2004-12-16 2008-12-16 Sony Corporation Methodology for generating enhanced demiphone acoustic models for speech recognition
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP4528839B2 (ja) * 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7153605B2 (ja) 2019-04-25 2022-10-14 信越ポリマー株式会社 異方導電性シートの製造方法

Also Published As

Publication number Publication date
US20110288869A1 (en) 2011-11-24
JP2011248360A (ja) 2011-12-08
EP2388778B1 (en) 2013-04-17
CN103280216B (zh) 2016-07-13
CN102254555A (zh) 2011-11-23
KR20110128229A (ko) 2011-11-29
CN102254555B (zh) 2013-06-19
KR101237799B1 (ko) 2013-02-28
CN103280216A (zh) 2013-09-04
US8719023B2 (en) 2014-05-06
EP2388778A1 (en) 2011-11-23

Similar Documents

Publication Publication Date Title
JP5174937B2 (ja) 音声認識装置及び方法
Wang et al. A joint training framework for robust automatic speech recognition
JP6550068B2 (ja) 音声認識における発音予測
Karpagavalli et al. A review on automatic speech recognition architecture and approaches
US9576582B2 (en) System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
Matassoni et al. Non-native children speech recognition through transfer learning
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US9015048B2 (en) Incremental speech recognition for dialog systems
US20130090921A1 (en) Pronunciation learning from user correction
US9484019B2 (en) System and method for discriminative pronunciation modeling for voice search
Motlicek et al. Exploiting foreign resources for DNN-based ASR
EP2867890B1 (en) Meta-data inputs to front end processing for automatic speech recognition
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
Heck et al. Iterative training of a DPGMM-HMM acoustic unit recognizer in a zero resource scenario
Viikki et al. Speaker-and language-independent speech recognition in mobile communication systems
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
Kurian A review on technological development of automatic speech recognition
Prasanna et al. Low cost home automation using offline speech recognition
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
Jin et al. A syllable lattice approach to speaker verification
Singh et al. Voice Recognition In Automobiles
Sadashivappa MLLR Based Speaker Adaptation for Indian Accents

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121228

R150 Certificate of patent or registration of utility model

Ref document number: 5174937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250