JP2004226982A - 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 - Google Patents

隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 Download PDF

Info

Publication number
JP2004226982A
JP2004226982A JP2004012354A JP2004012354A JP2004226982A JP 2004226982 A JP2004226982 A JP 2004226982A JP 2004012354 A JP2004012354 A JP 2004012354A JP 2004012354 A JP2004012354 A JP 2004012354A JP 2004226982 A JP2004226982 A JP 2004226982A
Authority
JP
Japan
Prior art keywords
generation
state
determining
computer
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004012354A
Other languages
English (en)
Inventor
Li Deng
デン リ
Jian-Lai Zhou
ジャンライ ツォウ
Frank Torsten Bernd Seide
トーステン ブレンド ザイド フランク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004226982A publication Critical patent/JP2004226982A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 再帰法を使って、前の2つのフレームに関連する生成関連値に基づき、個々のフレームにおける状態の生成関連値、具体的には声道共振周波数を求める音声認識の方法を提供する。
【解決手段】 生成関連値を使って、その状態の観測特徴ベクトルの確率分布を求める。次いで、その確率分布から、そのフレームについて受け取った観測値の確率を求める。一実施形態では、生成関連値を、その値に対する無雑音の再帰的定義を使って求める。再帰法を使用することで復号化速度が大幅に向上する。復号化アルゴリズムを既知の音声表記を含む学習データに適用した場合、従来技術から得られる音分節化を改善する強制整合が生成される。
【選択図】 図4

Description

本発明はパターン認識に関する。詳細には、本発明は音声認識に関する。
音声認識システムなどのパターン認識システムは、入力信号を取り込み、その信号を復号化してその信号で表されるパターンを見つけようとする。例えば、音声認識システムでは、音声信号(しばしばテスト信号と呼ばれる)を認識システムが受け取り、それを復号化してその音声信号で表される単語列を識別する。
多くの音声認識システムは隠れマルコフモデルを利用する。隠れマルコフモデル(HMM)では、音響単位または音声単位とも呼ばれる発音単位を、接続された状態の単一層で表す。学習信号を使用して、その状態を占有する確率分布および状態間遷移の確率分布を、発音単位ごとに決定する。音声信号を復号化するためには、その信号をフレームに分割し、各フレームを特徴ベクトルに変形する。次いで、この特徴ベクトルを状態の分布と比較して、それらのフレームで表すことのできるHMM状態の最大尤度系列を識別する。次いで、その系列に対応する発音単位を選択する。
HMMに基づく認識システムは、多くの比較的単純な音声認識タスクでは適切に動作するが、一部の重要な音声の動的態様を直接にはモデル化しない(また、話し言葉音声などの難解なタスクでは性能が低下することが知られている)。その結果、それらのシステムは、学習に使用される音声信号と復号化される音声信号の間の動的調音差に対応することができない。例えば、日常的会話状況では、話者は、音声を不明瞭に、すなわちはっきりしない状態で発音しがちである。これは、そのユーザの音声調音の軌跡がその目的のターゲットに到達する前に次のターゲットに変更されることがあることを意味する。学習信号は、通常は、話者が不明瞭に発音される音声でのものよりも完全に明瞭に発音された音声資料を提供する、「朗読」スタイルの音声を使って形成されるため、不明瞭に発音された音声は学習されたHMM状態に合致しない。その結果、認識機構は、日常会話では、理想にほど遠い認識結果しか提供しない。
同様の問題は、意識的に明瞭に発音された音声でも生じる。意識的に明瞭に発音された音声では、話者は、様々な発声音を区別可能にしようと余分に努力を払う。この余分の努力には、ある特定の発音単位の音を、同様に聞こえる発音単位とより明確に聞き分けられるように変更すること、特定の発音単位の音をより長く保持すること、あるいは、各音がその隣接音とは明確に異なると知覚されるように音と音の間でより急激に移行することなどが含まれ得る。これらの機構のそれぞれは、HMMシステムを使って音声を認識することをより困難にする。というのは、各技法で結果として生じる1組の音声信号のベクトルは、学習データに存在する特徴ベクトルにあまり合致しないことが多いからである。意識的に明瞭に発音された、または不明瞭に発音された音声に対応する特徴ベクトルが、(取得費用が非常に高価であることもある)学習データ中の特徴ベクトルと一致する場合でも、意識的に明瞭に発音された、または不明瞭に発音された調音によって生じた特徴ベクトル軌跡中の変化の根本原因を考慮に入れないHMMシステムでの音声上の紛らわしさが増大するため、従来のHMM技法ではなお、性能が劣ることになるであろう。
また、HMMシステムでは、人間が話す速度の変化を処理する際にも問題がある。したがって、学習信号よりゆっくりまたは速く話す人がいた場合は、HMMシステムは、音声信号を復号化する際によりエラーを生じやすくなる。
HMMシステムの代替方法も提案されている。具体的には、音声信号の生成関連パラメータの軌跡または挙動を直接モデル化すべきであると提案されている。しかし、これらのモデルは、その軌跡に基づく効率のよい復号化手段を提供していない。
このことから見て、より高速な復号化を可能にすると共に、様々な発話スタイルに起因する音声生成機構によって生じる音声特徴軌跡の変化を考慮に入れる音声認識の枠組みが求められている。
前のフレームについて求めた生成関連値に基づき、個々のフレームにおける状態の生成関連値、具体的には声道共振周波数を求める音声認識の方法が提供される。この生成関連値を使ってその状態の確率分布を求める。次いで、そのフレームについて受け取った観測値の確率を確率分布から求める。一実施形態では、生成関連値は、その値の無雑音再帰的定義を使って求められる。再帰法を使用すると、復号化速度は従来技術よりも大幅に改善される。
本発明のいくつかの態様によれば、隠れ軌跡と隠れマルコフモデルの組合せを使って、既知の音声表記またはHMM状態系列を含む学習音響データを復号化し、それによって、学習データと1組の状態との間の整合を生み出す。この強制整合によって音の分節化が改善され、次いでそれを使って対話方式で組合せモデルに学習させる。
本発明の別の態様によれば、複数のターゲットの1つに基づいて生成関連値が計算され、その複数のターゲットすべてが同時に学習される。
図1に、本発明を実施できる適当なコンピュータシステム環境の一例を示す。コンピュータシステム環境100は、適当なコンピュータ環境の一例に過ぎず、本発明の使用または機能の範囲に関するいかなる限定も示唆するものではない。また、コンピュータ環境100は、例示的動作環境100に示す構成要素のいずれか1つまたはその組合せに関連するいかなる依存性も要件も有しないものであると解釈すべきである。
本発明は、他の多くの汎用または専用コンピュータシステム環境または構成を用いて動作可能である。本発明と共に使用するのに適した周知のコンピュータシステム、環境および/または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置やラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、前述のシステムまたは装置のいずれかを含む分散コンピュータ環境などが含まれる。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈において説明することができる。一般に、プログラムモジュールには、個々のタスクを実施し、あるいは個々の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。また、本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実施される、分散コンピュータ環境で実施することもできる。分散コンピュータ環境では、プログラムモジュールは、記憶装置を含む、ローカルとリモート両方のコンピュータ記憶媒体に位置することができる。
図1を参照すると、本発明を実装する例示的一システムは、コンピュータ110の形態で汎用コンピュータ装置を含む。コンピュータ110の構成要素には、それだけに限らないが、処理装置120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理装置120に結合するシステムバス121が含まれ得る。システムバス121は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリ制御装置、周辺装置バス、ローカルバスを含むいくつかのタイプのバス構造のいずれでもよい。例を挙げると、そうしたアーキテクチャには、それだけに限らないが、ISA(業界標準アーキテクチャ)バス、MCA(マイクロチャネルアーキテクチャ)バス、EISA(拡張ISA)バス、VESA(ビデオ電子装置規格化協会)ローカルバス、およびメザニンバスとも呼ばれるPCI(周辺装置相互接続)バスが含まれる。
コンピュータ110は、通常は、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体はコンピュータ110からアクセスできる任意の使用可能な媒体とすることができ、それには揮発性媒体および不揮発性媒体、取り外し可能媒体および取り外し不能媒体が含まれる。例を挙げると、コンピュータ可読媒体には、それだけに限らないが、コンピュータ記憶媒体や通信媒体が含まれ得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュールやその他のデータなどの情報を記憶するための任意の方法または技術で実施される、揮発性および不揮発性、取り外し可能および取り外し不能媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリその他のメモリ技術、CDROM、DVD(ディジタル多用途ディスク)その他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶装置、あるいは所望の情報を記憶するために使用でき、コンピュータ110からアクセスできる他の任意の媒体が含まれる。通信媒体は、通常は、コンピュータ可読命令、データ構造、プログラムモジュールその他のデータを、搬送波やその他の搬送機構などの変調データ信号として実施し、任意の情報送達媒体を含む。「変調データ信号」という用語は、その1組の特性のうちの1つまたは複数を備える信号、あるいは信号中に情報を符号化するように変更された信号を意味する。例を挙げると、通信媒体には、それだけに限らないが、有線ネットワークや直接配線接続などの有線媒体、および音響、無線周波数、赤外線その他の無線媒体などの無線媒体が含まれる。また、コンピュータ可読媒体の範囲には、上記のいずれかの組合せも含まれる。
システムメモリ130は、読み取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など揮発性および/または不揮発性メモリの形態でのコンピュータ記憶媒体を含む。基本入出力システム133(BIOS)は、起動時などにコンピュータ110内要素間の情報転送を助ける基本ルーチンを含み、通常はROM131に記憶される。RAM132は、通常は、処理装置120から直接アクセス可能であり、かつ/または処理装置120によって現在操作されているデータおよび/またはプログラムモジュールを含む。例として図1には、それだけに限らないが、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137が示されている。
コンピュータ110は、他の取り外し可能/取り外し不能、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例に過ぎないが、図1には、取り外し不能な、不揮発性磁気媒体に対する読取りおよび書込みを行うハードディスクドライブ141、取り外し可能な、不揮発性磁気ディスク152に対する読取りおよび書込みを行う磁気ディスクドライブ151、およびCD ROMその他の光媒体など、取り外し可能な、不揮発性光ディスク156に対する読取りおよび書込みを行う光ディスクドライブ155が示されている。例示の動作環境で使用できる他の取り外し可能/取り外し不能、揮発性/不揮発性コンピュータ記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は、通常は、インターフェイス140などの取り外し不能メモリインターフェイスを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常は、インターフェイス150などの取り外し可能メモリインターフェイスによってシステムバス121に接続される。
前述した図1に示す各ドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ110用のコンピュータ可読命令、データ構造、プログラムモジュールその他のデータの記憶を行う。図1では、例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じでも異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147が、少なくとも異なるコピーであることを示すために、本明細書ではそれらに異なる番号を付ける。
ユーザは、キーボード162、マイクロホン163、およびマウス、トラックボール、タッチパッドなどのポインティング装置161を介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星通信用受信アンテナ、スキャナなどが含まれ得る。上記その他の入力装置は、しばしば、システムバスに結合されたユーザ入力インターフェイス160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェイスおよびバス構造によって接続することもできる。また、モニタ191や他のタイプの表示装置を、ビデオインターフェイス190などのインターフェイスを介してシステムバス121に接続することもできる。コンピュータは、モニタの他に、スピーカ197やプリンタ196など他の周辺出力装置を含むこともでき、それらは出力周辺装置インターフェイス195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など、1台または複数のリモートコンピュータへの論理接続を使用するネットワーク化環境で動作することもできる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置または他の一般のネットワークノードとすることができ、通常は、コンピュータ110に関連する前述の各要素の多くまたはすべてを含む。図1に示す論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。そうしたネットワーク環境は、事業所、全企業的コンピュータネットワーク、イントラネット、およびインターネットではよく見られる。
LANネットワーク環境で使用される場合、コンピュータ110はネットワークインターフェイスまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用される場合、コンピュータ110は、通常は、モデム172、またはインターネットなどWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵でも外付けでもよく、ユーザ入力インターフェイス160または他の適当な機構を介して、システムバス121に接続することができる。ネットワーク化環境では、コンピュータ110に関連して示すプログラムモジュール、またはそれらの一部を、リモートの記憶装置に記憶させることができる。例として、それだけに限らないが、図1にリモートコンピュータ180上に常駐するリモートアプリケーションプログラム185を示す。図示のネットワーク接続は例示のためのものに過ぎず、コンピュータ間で通信リンクを確立する他の手段も使用できることが理解されるであろう。
図2は、コンピュータ環境の一例であるモバイル装置200を示す構成図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入出力(I/O)構成要素206、およびリモートコンピュータや他のモバイル装置とやりとりするための通信インターフェイス208を含む。一実施形態では前述の各構成要素は、適当なバス210を介して相互にやりとりするために結合される。
メモリ204は、モバイル装置200への通常の電力がシャットダウンされた場合にメモリ204に記憶された情報が失われないように、バッテリバックアップモジュール(図示せず)を備えるランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。メモリ204の一部は、好ましくは、プログラム実行のためにアドレス指定可能なメモリとして割り振られ、メモリ204の別の一部は、好ましくは、ディスクドライブ上で記憶をシミュレートするなど、記憶のために使用される。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214と共にオブジェクト記憶216を含む。動作時に、オペレーティングシステム212は、好ましくは、メモリ204からプロセッサ202によって実行される。オペレーティングシステム212は、好ましい一実施形態では、マイクロソフト社から市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、好ましくは、モバイル装置用に設計されたものであり、1組の公開されたアプリケーションプログラミングインターフェイスおよびメソッドを介してアプリケーション214が利用できるデータベース機能を実装する。オブジェクト記憶216中のオブジェクトは、少なくとも一部は、公開されたアプリケーションプログラミングインターフェイスおよびメソッドの呼び出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インターフェイス208は、モバイル装置200が情報を送受信できるようにする多くの装置および技術を表す。これらの装置には、いくつか例を挙げると、有線モデムおよび無線モデム、衛星通信用受信機および放送チューナが含まれる。モバイル装置200は、データを交換するためにコンピュータに直接接続することもできる。そうした場合には、通信インターフェイス208は、赤外線トランシーバやシリアルまたはパラレル通信接続とすることができ、それらのすべてがストリーミング情報を送信することができる。
入出力構成要素206には、タッチスクリーン、ボタン、ローラ、マイクロホンなど様々な入力装置、並びに音声生成装置、振動装置、およびディスプレイを含む様々な出力装置が含まれる。上記の装置は例として挙げたものであり、モバイル装置200上にすべてが備わっている必要はない。さらに、本発明の範囲内で、他の入出力装置をモバイル装置200に接続し、あるいはそれと共に使用することもできる。
本発明は音声の生成モデルを提供する。このモデルの下では、音声は、話者が、音韻的単位の系列の言語定義を音声的に実施しようとする試行の出力として表現される。この試行中に、話者は、現在の音韻的単位に関連するターゲットに向かう軌跡をたどる生成関連値を生成する。本発明の各実施形態では、この軌跡は、単位利得を有する、無雑音の、二次的な、離散時間臨界減衰型、低域通過フィルタとしてモデル化される。
本発明のモデルは、隠れ軌跡モデルの一特殊形態である。この隠れ軌跡モデルは、(声道共振周波数などの)隠れ生成関連パラメータを示す動的または軌跡モデル成分、およびその生成関連パラメータをメル周波数ケプストラム係数などの観測可能な音響特徴に変換するマッピングモデル成分の2つの層を含む。軌跡モデルは、1つの生成関連パラメータに対する軌跡値(z(1),...,z(t),...,z(T))の系列を予測する。マッピングモデルは、その軌跡値の系列が与えられたとき、音響観測ベクトルo(t)の系列を予測する。
軌跡モデルおよびマッピングモデルは、以下の2式で簡潔に表すことができる。
z(t)=gu(1...t)(t)+w(t) 式1
o(t)=hu(t)(z(t))+v(t) 式2
式中gu(1...t)(t)は状態依存の期待される軌跡(以後簡単にするためにg(t)と呼ぶ)であり、z(t)は隠れた真の軌跡であり、u(t)はフレームtにおける離散的音声状態または音声単位であり、u(1...t)は時間1から時間tまでの離散的音声状態または音声単位の系列であり、hu(t)は生成関連パラメータを特徴空間にマッピングする状態依存のマッピング関数である。実際には、各音声単位uは、左から右に順次接続された(以下の式の一部ではsで表す)いくつかのHMM様のより小さい単位に分割される。
被加数w(t)およびv(t)は、それぞれ、ゼロ平均と共分散行列Q=CwwおよびR=Cvvを持つ、実際の観測の期待値からの逸脱をモデル化するi.i.d.ガウス雑音を表す。すなわち以下のとおりである。
Figure 2004226982
本発明によれば、任意の時間tにおける軌跡は、次式で定義される再帰的無雑音関数を使って計算される。
Figure 2004226982
式中、Tu(t)は、時間tにおける音声単位uの軌跡のターゲットであり、γu(t)は音声単位uに関連する時間定数であり、g(t−1)は前のフレームにおける軌跡の値であり、g(t−2)は2つ前のフレームにおける軌跡の値である。g(t−1)およびg(t−2)は、異なる音声単位uに対して計算されている可能性があるので、γu(t)およびTu(t)の異なる値を使って計算することもできることに留意されたい。
式5の再帰的計算は雑音項を含まないことに留意されたい。本発明では、雑音項を除くことによって、学習および復号化を単純化する。
式5は、以下のような標準形に書き換えることができる。
G(t)=Φu(t)G(t−1)+Vu(t) 式6
式中、
Figure 2004226982
である。
本発明の一実施形態では、音響特徴上に生成関連軌跡をマッピングするのに使用される状態依存マッピング関数hs(t)は、以下のようにその標準形のテイラー級数である。
Figure 2004226982
式中、mは混合指数であり、
Figure 2004226982
は期待される軌跡値である。一実施形態では、
Figure 2004226982
は、最初に、文脈独立隠れマルコフモデル(HMM)状態の混合mでの平均に初期設定され、sはそのHMM状態である。したがって、この実施形態は隠れ軌跡と隠れマルコフモデルの組合せを提供する。
本発明の一態様によれば、無音および雑音での予測されるベクトルは、Hm,s=0と想定することによって形成される。その結果、無音および雑音での予測特徴ベクトルは、生成関連値の軌跡に依存しない。これは、無音および雑音が音声生成の中断を表す生成モデルと合致する。
このマッピング関数を使用し、その残差および雑音項を組み合わせると、式2および式4は以下のようになる。
Figure 2004226982
モデルパラメータ
Figure 2004226982
が期待値最大化学習アルゴリズムを使って学習され、式中
Figure 2004226982
は、HMM平均推定値と一致するように任意に選択される。このアルゴリズムはEステップを含み、そこでは1組の学習観測ベクトルをモデルパラメータの初期推定値と共に使って、混合重み、軌跡および軌跡の二乗を含む特定の隠れ変数の値を予測するのに十分な統計を作り出す。
Eステップの最初の反復を実施するには、モデルパラメータの初期推定値を提供する必要がある。一実施形態では、Tu(t)およびγu(t)の初期推定値は、クラット音声合成装置と若干のスペクトル分析結果の知識の組合せを用いて選択される。さらに、本発明の一実施形態では、モデルの学習に使用される学習データのセットは、隠れマルコフモデルの状態と学習データのフレームとの間の整合を識別するために、まず、既存の隠れマルコフモデルに適用される。
HMMモデルによって設定されたターゲットTu(t)、時間定数γu(t)、および整合境界を使って、上記の式5により1組の軌跡g(t)が推定される。以前に学習されたHMMでのHMM状態の平均は、
Figure 2004226982
の初期推定値として使用される。
各軌跡の決定における雑音w(t)をゼロとし、観測ベクトルを混合にランダムに割り当てると、Hm,sおよび
Figure 2004226982
は、各状態の各混合ごとに、観測された特徴ベクトルo(t)と計算された特徴ベクトルの間の誤差の二乗の和を最小化すると推定され、そこでの誤差は以下のように計算される。
Figure 2004226982
各混合および各状態ごとにHm,sおよび
Figure 2004226982
が決定されると、各状態での各混合ごとの共分散行列Rm,sを以下のように推定することができる。
Figure 2004226982
Qの推定値は、まず、軌跡g(t)を決定する際に、観測される雑音v(t)が最小になるように雑音w(t)を推定することによって求められる。この結果は以下のようになる。
Figure 2004226982
次いでQが以下のように初期設定される。
Figure 2004226982
一実施形態では、Rm,sおよびQは、対角行列であると想定され、したがって、行列の対角線だけが計算される。
初期設定後、Eステップは以下の計算を伴う。
Figure 2004226982
式中、
Figure 2004226982
であり、ωm,sは状態および混合mでの混合重みであり、
o(t)は、時間tにおける観測学習ベクトルであり、
g(t)は、時間tにおける期待される軌跡であり、
は、時間tにおける実際の軌跡であり、
mは混合成分であり、
Mは状態sに関連する混合成分の数であり、
各混合成分の確率P(m)は均一で1/Mに等しく、
「trans」は行列の転置を表し、
Figure 2004226982
はxの期待値を表す。
以上の計算で、EMアルゴリズムのEステップが完了する。
次いで、初期モデルパラメータおよびEステップからの結果を使って、Mステップでのモデルパラメータを再度推定する。具体的には、それらのモデルパラメータは以下のように計算される。
Figure 2004226982
また、
Figure 2004226982
は勾配降下法を使って求められ、その場合、
Figure 2004226982
は、それが反復と反復の間に閾値に満たない量しか変更しなくなるまで、漸進的に更新される。具体的には、
Figure 2004226982
は、
Figure 2004226982
を使って更新される。
本発明の一態様は、可能な音声単位uのターゲットTu(t)は、個々に学習されるのではなく、同時に学習されることである。これがなされるのは、1つの音声単位のターゲットを変更すると、次の音声単位のg(t)の値も変更されるからである。この学習は、以下の行列式を使って実施される。
Figure 2004226982
式中、
Figure 2004226982
であり、
Figure 2004226982
は、発音単位u(t)に関連する行列
Figure 2004226982
の単一要素である。
EステップおよびMステップは、最後のモデルパラメータのセットに達するまで複数回反復することができる。一実施形態では、EステップおよびMステップの反復ごとに、隠れ軌跡隠れマルコフモデルの現在の形を使って学習ベクトルO(t)の系列を復号化する。この復号化により、EMアルゴリズムの次の反復で使用できる新規の状態境界のセットが提供される。最後のパラメータセットが決定された後、それを使って観測された音響ベクトルのセットを復号化することができる。
学習が完了した後の復号化タスクでは、音響観測の系列を生成した可能性の最も高い単語系列の検索を行う。学習時の復号化では、所与の単語系列での音響観測系列の最大尤度時間整合の検索を行う。本発明の一実施形態では、接続された状態のネットワークからなる有限状態変換器を使って復号化を実施する。ネットワーク中の各状態はHMM状態を表し、状態間の接続は、辞書中の単語ごとの状態系列を定義する辞書に基づくものである。したがって、状態ネットワークを通るあらゆる経路は、その辞書中の単語を表す。このネットワークは、各単語の終了状態がその辞書中の各単語の開始状態に接続されるように、それ自体で閉じている。
簡単な状態ネットワークの例を図3に示す。図3の状態ネットワークは、「slow」、「sit」、「cat」、「can」という4つの単語を表している。図示はしないが、各終了状態300、302、304は各開始状態306、308に接続されている。各状態は、遷移310などの自己遷移を含むことに留意されたい。
復号化では、入力特徴ベクトルが与えられた場合の、このネットワークを通る最大確率経路の検索を行う。入力特徴ベクトルごとに、その状態に至るその状態を含む完全な経路の確率に基づき、各使用可能状態への最大尤度遷移を選択する。すべての特徴ベクトルを処理した後で、一単語の末尾で終了する確率が最大の経路を復号化単語系列として選択する。
一実施形態では、一経路の確率は、その経路に沿った言語モデル状態h間の遷移確率を提供する言語モデル確率、その経路に沿った状態s間の遷移の尤度を示すHMM遷移確率、および時間フレームtにおける状態sでの軌跡Gの現在値に依存する状態確率を含めて、複数の別個の確率に依存する。
図4に、本発明による復号化方法の流れ図を示す。ステップ400で、復号化システムを初期設定する。ここでは、開始状態s=0、h=0、およびG(0,−1)=target_relaxed(時間t=0におけるtarget_relaxed)での単一のアクティブパスを作成する。ここで、「target_relaxed」は、リラックスした状態にある人間の調音体に関連する軌跡値を表す。
ステップ402で、入力信号からの入力値を選択する。以下で詳細に説明するように、ここでは、入力信号をフレームに分割し、各フレームをメル周波数ケプストラム係数などの特徴ベクトルに変換し、各時点tにおいて復号化のために特徴ベクトルの1つを選択する。
ステップ404で、選択された特徴ベクトルを使って1セットの状態確率を計算する。具体的には、HMM状態s、言語モデル状態h、および時間tにおいてアクティブな軌跡c(G)のクラスの組合せごとに、別々の状態確率を計算する。本発明の一実施形態では、連続軌跡値Gは、224通りの可能なクラスの1つに割り当てられる。これは、その復号化を実現可能にするためになされる。このクラスを使用しなかった場合は、Gのすべての可能な値に対して別個の状態スコアを計算しなければならなくなるはずである。この軌跡のクラスは、サーチ空間を限定するために使用されるにすぎず、確率計算自体には使用されないことに留意されたい。確率計算には、Gの連続値を直接使用する。
アクティブな[s,h,c(G)]セットの状態確率は以下のように計算される。
Figure 2004226982
この式は、実際の軌跡z(t)の代わりに計算された軌跡g(t)を用いていることを除いては上記の式13と同様であり、この確率はすべての可能な混合成分にわたって合計される。したがって、この確率は、混合成分ごとに観測特徴ベクトルo(t)を正規分布に適用することによって求められ、その場合、各正規分布は、本質的に、状態sでの時間tにおける軌跡g(t)の現在値に基づいて動的に調整されたHMM平均値
Figure 2004226982
である平均値を有する。確率の対数を使用して数値アンダーフローを回避することに留意されたい。
各状態確率を、その状態に至る経路の経路確率と組み合わせて、各セット[s,h,c(G)]ごとの合計確率を形成する。ステップ406で、すべてのアクティブなセット中で最大の合計確率を求める。
ステップ408では、それ以外にも処理すべき入力信号のフレームがあるかどうか判定する。それ以外にも処理すべきフレームがある場合は、ステップ410に進み、そこで最大合計確率の閾値内にないセットを取り除く。
状態410で除去されなかった各セット[s,h,c(G)]ごとに、ステップ412で後続セット[s’,h’,c’(G)]を識別する。辞書を使って、現在の状態sおよび言語モデル状態hからそれぞれ可能な後続状態s’および可能な言語モデル状態h’を識別する。軌跡の後続クラスは、まず、後続状態s’、および現在のセット[s,h,c(G(t))]に関連する軌跡G(t)の連続値を利用して後続状態での軌跡G(t+1)の値を求めることによって求められる。具体的には、軌跡G(t+1)の値は以下のように求められる。
G(t+1)=Φu(t+1)G(t)+Vu(t+1) 式34
式中、行列Φu(t+1)およびVu(t+1)中のパラメータは、後続状態s’をその一部とする音声単位に基づいて選択され、G(t)はセット[s,h,c(G(t))]の軌跡Gの現在の連続値である。
次いで、軌跡c’(G)の後続クラスを求めるために連続値G(t+1)のクラスを求め、それによって後続セット[s’,h’,c’(G)]を定義する。
次いで、現在のセットから後続セットへの遷移の対数確率を、セット[s,h,c(G)]で終わる最適経路の対数確率に加えて、後続セット[s’,h’,c’(G)]に入る経路の確率を生成する。単語内遷移では、セット遷移確率は、状態sから状態s’への遷移のHMM遷移確率だけに基づくものである。しかし、単語間における遷移の場合、遷移の確率は、HMMによって提供される状態sと状態s’の間の遷移の対数確率と、個々の単語系列の尤度を示す言語モデルによって提供される、状態hから状態h’のへの遷移の対数確率の和である。
この後続状態が以前に作成されていた場合は、この後続セットに至る現在の経路の確率をそのセットに至る既存の経路の確率と比較する。現在の経路の確率が既存の経路の確率より大きい場合は、既存の経路を現在の経路で置き換える。ただし、後続セット[s’,h’,c’(G)]に至る既存の経路の確率が現在の経路より大きい場合は、既存の経路を維持し、現在の経路を削除する。したがって、ステップ412では、可能な各後続セットに至る最大確率経路だけを維持する。
ステップ412の後には、次の入力フレームに対する一群の後続セットが識別されており、各後続セットはそれに入る唯一の経路を有する。さらに、各後続セットは、後続状態に入る経路によって表される単語系列または状態系列の回復を可能にするバックトレースデータ構造を含む。学習の完了後に復号化する場合は、このデータ構造は、経路に沿って識別された最後の単語、最後から2番目の単語に対して構築された前のデータ構造へのポインタ、および、任意選択で、最後の単語が終了した時点を含む。したがって、経路に沿った単語ごとに1つずつの、データ構造の連鎖があり、データ構造中のポインタを使ってその連鎖を遡ることにより、その経路の単語系列、および必要に応じて、入力フレームに関連する単語系列の分節化を回復することができる。学習中に復号化する場合は、このデータ構造は単語ではなく、状態の識別を含む。
ステップ408で、それ以上処理すべきフレームがない場合は、システムは、ステップ414で、一単語の末尾で終わる最大確率経路をその入力信号を表すものとして選択する。次いで、この経路のバックポインタデータ構造を遡って、その経路であらわされる単語系列または状態系列を見つけ出す。次いで、この単語または状態の系列を復号化出力として使用する。
図5に、本発明を使用できる音声認識システムの構成図を示す。図5では、訓練者またはユーザである話者500は、マイクロホン504に向かって発声する。マイクロホン504は、1つまたは複数の雑音源502からの相加性雑音も感受する。マイクロホン504によって検出された音声信号は電気信号に変換され、アナログディジタル変換器506電子信号に提供される。
アナログディジタル変換器506は、マイクロホン504からのアナログ信号を一連のディジタル値に変換する。いくつかの実施形態では、アナログディジタル変換器506は、16kHz、1サンプル当たり16ビットでアナログ信号をサンプリングし、それによって毎秒32キロバイトの音声データを生成する。これらのディジタル値がフレーム構築部507に提供され、一実施形態ではそこでそれらの値が、10ミリ秒間隔で開始する25ミリ秒フレームにグループ化される。
フレーム構築部507によって生成されたデータのフレームは特徴抽出部508に提供され、そこで各フレームから特徴が抽出される。特徴抽出モジュールの例には、線形予測符号化(LPC)を実施するモジュール、LPCから導出されたケプストラム、知覚線形予測(PLP)、聴覚モデル特徴抽出、およびメル周波数ケプストラム係数(MFCC)特徴抽出が含まれる。本発明はこれらの特徴抽出モジュールだけに限られるものではなく、本発明の文脈内で他のモジュールを使用することもできることに留意されたい。
入力信号が学習信号である場合、この一連の特徴ベクトルは学習部524に提供され、そこでこれらの特徴ベクトルおよび学習テキスト526を使って、本発明の生成モデル528に学習させる。例えば、前述のEM学習アルゴリズムを使ってこの生成モデルに学習させることができる。
前述したように、EM学習アルゴリズムは反復することができる。そうした場合には、EMアルゴリズムを反復後その都度、復号化部512に学習特徴ベクトルを適用して、学習信号のフレームと生成モデル中の状態の間の整合境界を識別する。次いで、次の学習の反復のために、これらの整合境界を学習部524に提供する。そうした学習復号化中は、状態ネットワークは、学習テキスト526で定義された状態系列に制限される。したがって、学習復号化中には語彙514は使用されない。
復号化部512は、特徴ベクトルの流れ、語彙514または学習テキスト526、言語モデル516、および生成モデル528に基づいて最大尤度単語系列を識別する。一実施形態では、語彙514は、特徴ベクトルの系列から単語を識別するために復号化部512がトラバースする有限状態ネットワークを定義する。
最も確率の高い仮説単語系列が、信頼性測定モジュール520に提供される。信頼性測定モジュール520は、2次的音響モデル(図示せず)に一部は基づき、どの単語が音声認識システムによって不適切に識別された可能性が最も高いかを識別する。次いで、信頼性測定モジュール520は、その仮説単語系列を、どの単語が不適切に識別された可能性があるかを示す識別子と共に出力モジュール522に提供する。信頼性測定モジュール520は本発明の実施に必要であるとは限らないことを、当分野の技術者は理解するであろう。
以上、本発明を具体的な実施形態に関して説明してきたが、本発明の精神および範囲を逸脱することなく形態および詳細に変更を加えることができることを、当分野の技術者は理解するであろう。
本発明を実施できる一コンピュータ環境を示す構成図である。 本発明を実施できる別のコンピュータ環境を示す構成図である。 単純な有限状態図である。 本発明の一実施形態による復号化方法を示す流れ図である。 本発明の一実施形態による音声認識システムを示す構成図である。
符号の説明
100 コンピュータシステム環境
110 コンピュータ
120 処理装置
121 システムバス
130 システムメモリ
131 読取り専用メモリ(ROM)
132 ランダムアクセスメモリ(RAM)
133 基本入出力システム(BIOS)
134 オペレーティングシステム
135 アプリケーションプログラム
136 プログラムモジュール
137 プログラムデータ
140 インターフェイス
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 プログラムモジュール
147 プログラムデータ
150 インターフェイス
151 磁気ディスクドライブ
152 磁気ディスク
155 光ディスクドライブ
156 光ディスク
160 ユーザ入力インターフェイス
161 ポインティング装置
162 キーボード
163 マイクロホン
170 ネットワークインターフェイスまたはアダプタ
171 ローカルエリアネットワーク(LAN)
172 モデム
173 広域ネットワーク(WAN)
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェイス
191 モニタ
196 プリンタ
197 スピーカ
200 モバイル装置
202 マイクロプロセッサ
204 メモリ
206 入出力構成要素
208 通信インターフェイス
210 バス
212 オペレーティングシステム
214 アプリケーションプログラム
216 オブジェクト記憶
500 話者
502 雑音源
504 マイクロホン
506 アナログディジタル変換器
507 フレーム構築部
508 特徴抽出部
512 復号化部
514 語彙
516 言語モデル
520 信頼性測定モジュール
522 出力モジュール
524 学習部
526 学習テキスト
528 生成モデル

Claims (34)

  1. 音声認識の方法であって、
    再帰的定義を使って、少なくとも1つの前のフレームについて求めた生成関連値に基づき、入力信号のフレームと復号化状態とについての生成関連値を求めること、
    前記状態についての前記生成関連値を使って前記状態の確率分布を求めること、および
    前記状態の前記確率分布に基づいて前記フレームに関連する観測値の確率を求めること
    を含むことを特徴とする方法。
  2. 状態の確率分布を求めることは前記生成関連値を使って前記分布の平均値を求めることを含むことを特徴とする請求項1に記載の方法。
  3. 前記分布の前記平均値を求めることは前記状態について学習された値を使って前記平均値を求めることをさらに含むことを特徴とする請求項2に記載の方法。
  4. 前記状態について学習された前記値は隠れマルコフモデル状態に関連する平均値に初期設定されることを特徴とする請求項3に記載の方法。
  5. 前記状態について学習された前記値は前記生成関連値の期待値を含み、前記平均値を求めることは前記期待値と前記生成関連値の間の差を求めることを含むことを特徴とする請求項3に記載の方法。
  6. 前記平均値を求めることは、前記差に前記状態に関連する値を掛けて積を生成することをさらに含むことを特徴とする請求項5に記載の方法。
  7. 前記平均値を求めることは、前記状態に関連する別の値に前記積を加えることをさらに含むことを特徴とする請求項6に記載の方法。
  8. 生成関連値を求めることは、2つの以前に求めた生成関連値に基づいて前記生成関連値を求めることを含むことを特徴とする請求項1に記載の方法。
  9. 前記生成関連値を求めることは、ターゲットに基づいて前記生成関連値を求めることをさらに含むことを特徴とする請求項8に記載の方法。
  10. 前記ターゲットは、一部は前記状態によって形成される音声単位に関連するものであることを特徴とする請求項9に記載の方法。
  11. 前記ターゲットは複数のターゲットの1つであり、各ターゲットは別個の音声単位に関連するものであることを特徴とする請求項10に記載の方法。
  12. 前記複数のターゲットは、前記ターゲットのすべてが同時に更新されるように学習されることを特徴とする請求項11に記載の方法。
  13. 前記確率を使って、観測値の系列で表される単語の系列を識別することをさらに含むことを特徴とする請求項1に記載の方法。
  14. 前記確率を使って学習スクリプト中の音の系列の時間的境界を識別することをさらに含むことを特徴とする請求項1に記載の方法。
  15. 生成関連値を求めることは、求める際に雑音項を含めないことを含むことを特徴とする請求項1に記載の方法。
  16. 第1の時点での第1の生成関連値を求めること、
    前記第1の生成関連値を使って第2の時点での第2の生成関連値を求めること、
    前記第1のおよび第2の生成関連値を使って、雑音項を使用せずに第3の時点での第3の生成関連値を求めること
    を含むステップを実施するためのコンピュータ実行可能命令を含むことを特徴とするコンピュータ可読媒体。
  17. 第3の生成関連値を求めることはターゲットを使用することをさらに含むことを特徴とする請求項16に記載のコンピュータ可読媒体。
  18. 前記ターゲットは複数のターゲットの1つであり、各ターゲットは異なる音韻単位に関連することを特徴とする請求項17に記載のコンピュータ可読媒体。
  19. 前記複数のターゲットは同時に学習されることを特徴とする請求項18に記載のコンピュータ可読媒体。
  20. 前記ステップは、前記第3の生成関連値を使って復号化状態の確率分布を求めることをさらに含むことを特徴とする請求項16に記載のコンピュータ可読媒体。
  21. 前記ステップは、前記状態の前記確率分布に観測値を適用して、前記状態が与えられた場合の前記観測値の確率を求めることをさらに含むことを特徴とする請求項20に記載のコンピュータ可読媒体。
  22. 前記状態は隠れマルコフモデル状態を含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  23. 前記ステップは、観測値の系列を復号化して前記観測値と状態の集まりの間の1組の整合境界を決定することをさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  24. 前記ステップは、前記整合境界を使って1組のモデルパラメータを学習することをさらに含むことを特徴とする請求項23に記載のコンピュータ可読媒体。
  25. 前記モデルパラメータの少なくとも1つを使って状態の確率分布を定義することを特徴とする請求項24に記載のコンピュータ可読媒体。
  26. 復号化することは、セットのネットワークを通る経路を識別することを含み、各セットは状態と前記生成関連値のクラスとを含むことを特徴とする請求項23に記載のコンピュータ可読媒体。
  27. 各セットは言語モデル状態をさらに含むことを特徴とする請求項26に記載のコンピュータ可読媒体。
  28. 音声認識モデルに学習させる方法であって、
    1組の学習データフレームのそれぞれについて隠れ軌跡パラメータの値を求めること、
    前記隠れ軌跡パラメータ値を使って、前記隠れ軌跡パラメータの複数のターゲット中のすべてのターゲットを同時に設定すること
    を含むことを特徴とする方法。
  29. 前記各ターゲットは異なる音声単位に関連することを特徴とする請求項28に記載の方法。
  30. 前記各隠れ軌跡パラメータは、前のフレームでの前記隠れ軌跡パラメータの値に依存することを特徴とする請求項28に記載の方法。
  31. 前記各隠れ軌跡パラメータ値はさらに、前記フレームに関連する以前に決定されたターゲットに依存することを特徴とする請求項30に記載の方法。
  32. 前記以前に決定されたターゲットは、前記フレームに整合させた音声単位に関連するものであることを特徴とする請求項31に記載の方法。
  33. 学習データのフレームを復号化することによって前記音声単位を前記フレームに整合させることを特徴とする請求項32に記載の方法。
  34. 前記ターゲットを利用して前記学習データのフレームを復号化することを特徴とする請求項33に記載の方法。
JP2004012354A 2003-01-21 2004-01-20 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 Pending JP2004226982A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/348,192 US7617104B2 (en) 2003-01-21 2003-01-21 Method of speech recognition using hidden trajectory Hidden Markov Models

Publications (1)

Publication Number Publication Date
JP2004226982A true JP2004226982A (ja) 2004-08-12

Family

ID=32655484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004012354A Pending JP2004226982A (ja) 2003-01-21 2004-01-20 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法

Country Status (5)

Country Link
US (1) US7617104B2 (ja)
EP (1) EP1443495A1 (ja)
JP (1) JP2004226982A (ja)
KR (1) KR20040068023A (ja)
CN (1) CN1521729A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
CN1949364B (zh) * 2005-10-12 2010-05-05 财团法人工业技术研究院 语音识别的前级检测***与方法
US7653535B2 (en) 2005-12-15 2010-01-26 Microsoft Corporation Learning statistically characterized resonance targets in a hidden trajectory model
US8010356B2 (en) * 2006-02-17 2011-08-30 Microsoft Corporation Parameter learning in a hidden trajectory model
US7680663B2 (en) * 2006-08-21 2010-03-16 Micrsoft Corporation Using a discretized, higher order representation of hidden dynamic variables for speech recognition
US7805308B2 (en) * 2007-01-19 2010-09-28 Microsoft Corporation Hidden trajectory modeling with differential cepstra for speech recognition
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN102915122B (zh) * 2012-07-19 2015-11-11 上海交通大学 基于语言模型的智能移动平台拼音输入法
CA2882664A1 (en) * 2012-07-20 2014-01-23 Interactive Intelligence, Inc. Method and system for real-time keyword spotting for speech analytics
CN102760436B (zh) * 2012-08-09 2014-06-11 河南省烟草公司开封市公司 一种语音词库筛选方法
US9390380B2 (en) * 2013-03-15 2016-07-12 Intel Corporation Continuous interaction learning and detection in real-time
US9286897B2 (en) 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
CN103607219B (zh) * 2013-11-07 2016-02-03 电子科技大学 一种电力线通信***的噪声预测方法
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN108766430B (zh) * 2018-06-06 2020-08-04 华中师范大学 一种基于巴氏距离的语音特征映射方法及***
CN108735201B (zh) * 2018-06-29 2020-11-17 广州视源电子科技股份有限公司 连续语音识别方法、装置、设备和存储介质
CN109635777B (zh) * 2018-12-24 2022-09-13 广东理致技术有限公司 一种视频数据编辑识别方法及装置
CN110148424B (zh) * 2019-05-08 2021-05-25 北京达佳互联信息技术有限公司 语音处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266384A (ja) * 1993-03-16 1994-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音響モデル適応方式
JPH0990981A (ja) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> パターン認識のためのモデル学習方法
JPH10149189A (ja) * 1996-11-20 1998-06-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識のための単語モデル生成装置及び音声認識装置
JP2000075888A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2002091480A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音響モデル生成装置及び音声認識装置
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266384A (ja) * 1993-03-16 1994-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音響モデル適応方式
JPH0990981A (ja) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> パターン認識のためのモデル学習方法
JPH10149189A (ja) * 1996-11-20 1998-06-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識のための単語モデル生成装置及び音声認識装置
JP2000075888A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2002091480A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音響モデル生成装置及び音声認識装置
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Also Published As

Publication number Publication date
US7617104B2 (en) 2009-11-10
KR20040068023A (ko) 2004-07-30
CN1521729A (zh) 2004-08-18
EP1443495A1 (en) 2004-08-04
US20040143435A1 (en) 2004-07-22

Similar Documents

Publication Publication Date Title
US7206741B2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
US20050187769A1 (en) Method and apparatus for constructing and using syllable-like unit language models
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US7877256B2 (en) Time synchronous decoding for long-span hidden trajectory model
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100806