JP4351385B2 - 連続および分離音声を認識するための音声認識システム - Google Patents
連続および分離音声を認識するための音声認識システム Download PDFInfo
- Publication number
- JP4351385B2 JP4351385B2 JP2000513270A JP2000513270A JP4351385B2 JP 4351385 B2 JP4351385 B2 JP 4351385B2 JP 2000513270 A JP2000513270 A JP 2000513270A JP 2000513270 A JP2000513270 A JP 2000513270A JP 4351385 B2 JP4351385 B2 JP 4351385B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- words
- training
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 claims description 158
- 238000000034 method Methods 0.000 claims description 67
- 238000009826 distribution Methods 0.000 claims description 57
- 238000007476 Maximum Likelihood Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 238000001514 detection method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000007704 transition Effects 0.000 description 10
- 238000013507 mapping Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 7
- 238000013518 transcription Methods 0.000 description 7
- 230000035897 transcription Effects 0.000 description 7
- 238000013480 data collection Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Character Discrimination (AREA)
- Navigation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
(発明の背景)
本発明は、コンピュータ音声認識に関する。更に特定すれば、本発明は、連続音声および分離音声双方を認識する方法に関するものである。
【0002】
現在最も成功している音声認識システムは、隠れマルコフ・モデル(HMM:hidden Markov model)として知られる確率モデルを採用するものである。隠れマルコフ・モデルは、複数の状態を含み、同一状態への遷移を含む、各遷移から他のあらゆる遷移への遷移毎に、遷移確率を定義する。各一意の状態には、確率的に観察(observation)が関連付けられる。状態間の遷移確率(観察が1つの状態から次の状態に遷移する確率)は、全てが同一ではない。したがって、状態および観察確率間の遷移確率が与えられた際に、ビタビ・アルゴリズムのような探索技法を用いて、確率全体が最大となる最尤状態シーケンス(most likely state sequence)を判定する。
【0003】
現行の音声認識システムでは、音声は、隠れマルコフ・プロセスによって発生されるものと見られている。その結果、音声スペクトルの観察シーケンスをモデル化するためにHMMが採用され、特定のスペクトルにHMMにおける1つの状態を確率的に関連付けてきた。言い換えると、所与の音声スペクトルの観察シーケンスについて、対応するHMMには最尤状態シーケンスがある。
【0004】
この対応するHMMは、したがって、観察シーケンスに関連付けられる。この技法は、HMMにおける別個の各状態シーケンスを音素のようなサブワード単位に関連付ければ、最尤サブワード単位シーケンスを求めることができるように、拡張することができる。更に、サブワード単位をどのように組み合わせてワードを形成するかというモデルを用い、次いでワードをどのように組み合わせて文章を形成するかという言語モデルを用いることによって、完全な音声認識を達成することができる。
【0005】
実際に音響信号を処理する場合、信号は、通常、フレームと呼ばれる連続時間間隔でサンプリングする。フレームは、通常、複数のサンプルを含み、重複したり、あるいは連続する場合もある。各フレームには、音声信号の一意の部分が関連付けられている。各フレームによって表わされる音声信号の部分を分析し、対応する音響ベクトルを得る。音声認識の間、音声単位モデルの探索を行い、音響ベクトル・シーケンスに関連する可能性が最も高い状態シーケンスを判定する。
【0006】
音響ベクトル・シーケンスに対応する可能性が最も高い状態シーケンスを見出すために、ビタビ・アルゴリズムを用いることができる。ビタビ・アルゴリズムは、最初のフレームから開始し、一度に1フレームずつ時間に同期して進める計算を実行する。考慮する対象の状態シーケンスにおける(即ち、HMMにおける)状態毎に、確率スコアを計算する。したがって、ビタビ・アルゴリズムが音響信号をフレーム毎に分析するに連れて、可能な状態シーケンスの各々について、蓄積確率スコア(cumulative probability score)を連続的に計算する。発声の終了時までに、ビタビ・アルゴリズムが計算した最も高い確率スコアを有する状態シーケンス(またはHMMあるいは一連のHMM)が、発声全体に対する最尤状態シーケンスを与える。次に、この最尤状態シーケンスを、対応する発話サブワード単位(spoken subword unit)、ワード、またはワード・シーケンスに変換する。
【0007】
ビタビ・アルゴリズムは、指数計算を、モデルにおける状態および遷移の数、ならびに発声の長さに比例する計算に減少させる。しかしながら、大きな語彙では、状態および遷移の数が大きくなり、全ての可能な状態シーケンスに対し各フレーム内の各状態における確率スコアを更新するために必要な計算は、通常10ミリ秒の持続時間である、1フレームの持続時間よりも何倍も長くなる。
【0008】
したがって、最尤状態シーケンスを判定するために必要な計算を大幅に削減するために、プルーニング(pruning)またはビーム探索(beam searching)と呼ばれる技法が開発された。この種の技法は、非常に可能性が低い状態シーケンスに対する確率スコアの計算を不要にする。これは、通常、各フレームにおいて、考慮対象の各残留状態シーケンス(または潜在的シーケンス)に対する確率スコアを、当該フレームに関連する最高スコアと比較することによって行われる。特定の潜在的シーケンスに対する状態の確率スコアが十分に低い場合(当該時点において他の前栽駅シーケンスに対して計算した最大空く率と比較して)、プルーニング・アルゴリズムは、このようにスコアが低い状態シーケンスは、完全な最尤状態シーケンスの一部である可能性は低いと見なす。通常、この比較を行うには、最小スレシホルド値を用いる。最小スレシホルド値未満のスコアを有する潜在的状態シーケンスは、探索プロセスから除外する。スレシホルド値は、いずれの所望のレベルにも設定することができ、主に所望のメモリおよび計算削減、ならびにメモリおよび計算削減によって得られる所望の誤り率上昇に基づいて設定する。保持する状態シーケンスを能動的仮説(active-hypothesis)と呼ぶ。
【0009】
音声認識に求められる計算量(magnitude)を更に削減するための別の従来からの技法に、プレフィクス・ツリー(prefix tree)の使用を含むものがある。プレフィクス・ツリーは、音声認識システムの辞書(lexicon)を、ツリー構造として表わし、システムが遭遇する可能性のあるワード全てを、このツリー構造で表わす。
【0010】
このようなプレフィクス・ツリーでは、(音素のような)各サブワード単位は、通常、特定の(HMMのような)音響モデルに関連付けられたブランチによって表わされる。音素ブランチを、ノードにおいて、後続の音素ブランチに接続する。同じ最初の音素を共有する辞書における全てのワードは、同じ最初のブランチを共有する。同じ最初の音素および二番目の音素を有する全てのワードは、同じ最初のブランチおよび2番目のブランチを共有する。対象的に、共通の第1音素を有するが、異なる第2音素を有するワードは、プレフィクス・ツリーにおいて同じ第1ブランチを共有するが、プレフィクス・ツリーの最初のノードにおいて分岐(diverge)する等となる。ツリー構造はこのように続き、システムが遭遇する可能性のあるワード全てを、ツリーの終端ノード(即ち、ツリー上のリーフ(leaf))によって表わすようにしている。
【0011】
プレフィクス・ツリー構造を採用することによって、初期ブランチ数は、システムの辞書または語彙における典型的なワード数よりは遥かに少なくなることは明白である。実際、初期ブランチ数は、探索する語彙または辞書のサイズには無関係に、音素の総数(約40ないし50)を超過する可能性はない。しかしながら、異音変動(allophonic variation)を用いた場合、用いる異音によっては、ブランチの初期数は大きくなる可能性はある。
【0012】
前述の技法を採用する音声認識システムは、通常、2つの種類に分類することができる。第1の種類は、流暢音声(fluent speech)を認識可能な連続音声認識(CSR)システムである。CSRシステムは、連続音声データに基づいて訓練され(即ち、音響モデルを生成する)、一人以上の読み手が訓練データを連続的に即ち流暢にシステムに読み込んでいく。訓練中に生成した音響モデルを用いて音声を認識する。
【0013】
第2の種類のシステムは、分離音声認識(ISR)システムであり、通常、分離した音声(即ち、離散音声)のみを認識するために採用する。ISRシステムは、離散即ち分離音声データに基づいて訓練され(即ち、音響モデルを生成し)、この場合一人以上の読み手には、各ワードの間にポーズを入れて、離散的即ち分離して訓練データをシステムに読み込むように要求する。また、ISRシステムは、通常、連続音声認識システムよりも精度が高くかつ効率的である。何故なら、ワードの境界が一層明確であり、したがって探索空間が一層厳しい制約を受けるからである。また、分離音声認識システムは、連続音声認識の特殊な場合と考えられてきた。何故なら、連続音声認識システムは、一般に、分離音声も同様に受け入れることができるからである。これらは、単に、分離音声を認識しようとするときに、同様に動作しないだけである。
【0014】
CSRシステムのユーザは、通常、システムが誤りを犯し始めるまで、または、ユーザが文書の組み立てを思案するまで、流暢に発話しがちであることが観察されている。その時点で、ユーザは、ワード間にポーズを入れると言ってもよい程に、速度を落とすことが多い。双方の場合において、ユーザは、ワード間にポーズを入れて、よりゆっくりと区別して発話することにより、ユーザは認識システムを助けていると信じているが、実際には、ユーザは、システムの能力を超えてシステムにストレスを与えているのである。
【0015】
しかしながら、単に分離音声認識システムを用いて連続音声を認識しようとするのは、適当ではない。ISRシステムは、通常、連続音声を認識しようとする場合には、CSRシステムよりも遥かに性能が劣る。その理由は、ISR訓練データには、交差ワード同時調音(crossword coarticulation)がないからである。
(発明の概要)
音声認識は、複数の離散的に発話した訓練ワードを示す分離音声訓練データを受け取り、複数の連続的に発話した訓練ワードを示す連続音声訓練データを受け取ることによって行われる。分離音声訓練データおよび連続音声訓練データに基づいて、複数の音声単位モデルを訓練する。訓練した音声単位モデルに基づいて、音声を認識する。
【0016】
好適な実施形態の1つでは、認識対象音声におけるポーズを識別し、フレーズの持続時間を判定する。ポーズの間の入力データによって表わされる、フレーズ候補を示す複数のフレーズ仮説(phrase hypothesis)を生成する。各フレーズ仮説における各ワードに関連するワード持続時間を、フレーズ仮説内のワード数に等しいワード数を有するフレーズに対する予想ワード持続時間と比較する。ワード持続時間の予測ワード持続時間との比較に基づいて、各フレーズ仮説にスコアを割り当てる。
(好適な実施形態の詳細な説明)
図1および関連する論述は、本発明を実現可能な、適切な計算機環境の端的で概略的な説明を行うことを意図するものである。必須ではないが、本発明は、少なくとも部分的に、パーソナル・コンピュータによって実行するプログラム・モデルのような、コンピュータ実行可能命令に全体的に関連して説明する。一般的に、プログラム・モジュールとは、ルーチン・プログラム、オブジェクト、コンポーネント、データ構造等を含み、特定のタスクを実行したり、あるいは特定の抽象データ型を実装するものである。更に、本発明は、ハンド・ヘルド機器、マルチプロセッサ・システム、マイクロプロセッサを用いた、即ち、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ等を含む、その他のコンピュータ・システム構成を用いても実施可能であることを当業者は認めよう。また、本発明は、分散型計算機環境においても実施可能であり、その場合、通信ネットワークを通じてリンクしてあるリモート処理用機器によってタスクを実行する。分散型計算機環境では、プログラム・モジュールは、ローカル記憶装置およびリモート・メモリ記憶装置双方に配置することもできる。
【0017】
図1を参照すると、本発明を実現するためのシステム例は、従来のパーソナル・コンピュータ20の形態の汎用計算機を含み、演算装置21、システム・メモリ22、およびシステム・メモリを含む種々のシステム・コンポーネントを演算装置21に結合するシステム・バス23を含む。システム・バス23は、メモリ・バスまたはメモリ・コントローラ、周辺バス、および種々のバス・アーキテクチャのいずれかを用いたローカル・バスを含む数種類のバス構造のいずれかとすればよい。システム・メモリは、リード・オンリ・メモリ(ROM)24およびランダム・アクセス・メモリ(RAM)25を含む。起動中におけるように、パーソナル・コンピュータ20内部の要素間で情報を転送する際に役立つ基本ルーチンを含む基本入出力システム26(BIOS)をROM24に格納してある。更に、パーソナル・コンピュータ20は、図示しないハード・ディスクに対して読み出しおよび書き込みを行うハード・ディスク・ドライブ27、ならびにCD ROMまたはその他の光媒体のようなリムーバブル光ディスク31に対して読み出しおよび書き込みを行う光ディスク・ドライブ30を含む。ハード・ディスク・ドライブ27、磁気ディスク・ドライブ28、および光ディスク・ドライブ30は、それぞれ、ハード・ディスク・ドライブ・インターフェース32、磁気ディスク・ドライブ・インターフェース33、および光ドライブ・インターフェース34を介してシステム・バス23に接続してある。これらのドライブおよびそれらと関連するコンピュータ読取可能媒体は、コンピュータ読取可能命令、データ構造、プログラム・モジュール、およびパーソナル・コンピュータ20のためのその他のデータの不揮発性格納を行う。
【0018】
ここに記載する環境の一例では、ハード・ディスク、リムーバブル磁気ディスク29およびリムーバル光ディスク31を採用するが、磁気カセット、フラッシュ・メモリ・カード、ディジタル・ビデオ・ディスク、ベルヌーイ・カートリッジ、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)等のような、コンピュータによるアクセスが可能なデータを格納することができる、その他の種類のコンピュータ読取可能媒体も、動作環境の一例では使用可能であることは、当業者には認められよう。
【0019】
オペレーティング・システム35、1つ以上のアプリケーション・プログラム36、その他のプログラム・モジュール37、およびプログラム・データ38を含む、多数のプログラム・モジュールは、ハード・ディスク、磁気ディスク29、光ディスク31、ROM24またはRAM25に格納することができる。ユーザは、キーボード40およびポインティング・デバイス42のような入力デバイスを介して、コマンドおよび情報をパーソナル・コンピュータ20に入力することができる。その他の入力デバイス(図示せず)には、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナ等が含まれる場合もある。これらおよびその他の入力デバイスは、多くの場合システム・バスに結合してあるシリアル・ポート・インターフェース46を介して演算装置21に接続するが、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス(USB)のような他のインターフェースを介して接続することも可能である。モニタ47またはその他の種類の表示装置も、ビデオ・アダプタ48のようなインターフェースを介して、システム・バス23に接続してある。モニタ47に加えて、パーソナル・コンピュータは、通常、スピーカおよびプリンタのような、その他の周辺出力装置(図示せず)も含む。
【0020】
パーソナル・コンピュータ20は、リモート・コンピュータ49のような、1つ以上のリモート・コンピュータへの論理接続を用いて、ネットワーク化環境においても動作することができる。リモート・コンピュータ49は、別のパーソナル・コンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイス、またはその他の共通ネットワーク・ノードとすることができ、通常、パーソナル・コンピュータ20に関して先に述べた要素の多くまたは全てを含むが、図1にはメモリ記憶装置50のみを示してある。図1に示す論理接続は、ローカル・エリア・ネットワーク(LAN)51およびワイド・エリア・ネットワーク(WAN)52を含む。このようなネットワーク化環境は、オフィスの企業規模のコンピュータ・ネットワーク、イントラネットおよびインターネットでは一般的である。
【0021】
LANネットワーク化環境において用いる場合、パーソナル・コンピュータ20はネットワーク・インターフェース即ちアダプタ53を経由してローカル・エリア・ネットワーク51に接続する。WANネットワーク化環境において用いる場合、パーソナル・コンピュータ20は通常モデム54、またはインターネットのような広域ネットワーク52を通じて通信を確立するその他の手段を含む。モデム54は、内蔵型でも外付けでもよく、シリアル・ポート・インターフェース46を介してシステム・バス23に接続してある。ネットワーク化環境では、パーソナル・コンピュータ20に関して図示したプログラム・モジュール、またはその部分をリモート・メモリ記憶装置に格納することも可能である。図示のネットワーク接続は一例であり、コンピュータ間に通信リンクを確立するその他の手段も使用可能であることは認められよう。
【0022】
更に、図1における環境を音声認識システムとして実現する場合、他のコンポーネントも望ましいこともある。このようなコンポーネントは、マイクロフォン、サウンド・カードおよびスピーカを含み、その一部については以下で更に詳しく説明する。
【0023】
図2は、本発明の一形態による、音声認識システム60のブロック図を示す。音声認識システム60は、マイクロフォン62、アナログ/ディジタル(A/D)変換器64、訓練モジュール65、特徴抽出モジュール66、無声(silence)検出モジュール68、セノン・ツリー(senone tree)記憶モジュール70、単音モデル記憶モジュール72、三音マッピング記憶モジュール74、プレフィクス・ツリー記憶モジュール76、ワード持続時間モデル記憶モデル78、サーチ・エンジン80、および出力装置82を含む。システム60全体またはシステム60の一部は、図1に示す環境において実現可能であることを注記しておく。例えば、マイクロフォン62は、好ましくは、適切なインターフェースを介して、更にA/D変換器64を介して、パーソナル・コンピュータ20への入力デバイスとして設けるとよい。訓練モジュール65、特徴抽出モジュール66および無声検出モジュール68は、コンピュータ20内のハードウエア・モジュール(CPUとは別個のプロセッサまたはCPU21内に実装したプロセッサ)、または図1に開示した情報記憶装置のいずれかに格納し、CPU21またはその他の適切なプロセッサによるアクセスが可能なソフトウエア・モジュールのいずれとしてもよい。加えて、セノン・ツリー(senone tree)記憶モジュール70、単音モデル記憶モジュール72、三音マッピング記憶モジュール74、プレフィクス・ツリー記憶モジュール76、およびワード持続時間モデル記憶モジュール78も、図1に示すいずれかの適切なメモリ素子に格納することが好ましい。更に、サーチ・エンジン80は、CPU21(1つ以上のプロセッサを含むことができる)内に実装することが好ましく、またはパーソナル・コンピュータ20が採用する専用音声認識プロセッサによって実行することも可能である。加えて、出力装置82は、好適な実施形態の1つでは、モニタ47として、またはプリンタとして、あるいはその他のいずれかの適切な出力装置として実現することができる。
【0024】
多くの場合、システム60は、最初に訓練データを用いて訓練を受ける。図3および図4は、本発明の好適な実施形態の1つにしたがって利用する、訓練データ収集およびシステム訓練手順を示すフロー図である。システム60を訓練するためには、最初に、図3に関して説明するように訓練データを収集する。好適な実施形態では、訓練データは、訓練ワードを話者が連続的に即ち流暢にシステム60に読み込む連続(即ち、流暢)訓練データ、および話者がワード間にポーズを入れながら離散的即ち分離状に訓練ワードをシステム60に読み込む分離(即ち、離散)訓練データを含む。
【0025】
このため、第1の話者を選択する。これをブロック84で示す。次いで、話者に、システム60のマイクロフォン62に向かって流暢に訓練文章を読むように要求する。これをブロック86で示す。ブロック88で示すように、訓練文章を記録する。システム60が受け取った各訓練ワードの音素的転写を、キーボード40のようなユーザ入力デバイスによって、訓練器65およびシステム60に入力する。これをブロック90で示す。次に、訓練文章を同様に読むように追加の話者に要求するか否かについて判定を行う。話者独立システムでは、多数の話者を用いることが好ましい。しかしながら、話者依存システムでは、多数の話者は任意であり、訓練文章は単一の話者によってのみ発話すればよい。
【0026】
いずれの場合でも、別の話者が流暢に訓練文章をシステム60に読み込む場合、新たな話者を選択し、ブロック86、88および90を通るプロセスを繰り返す。これをブロック92および94で示す。
【0027】
一旦連続訓練データをシステム60内に読み込んだならば、ブロック96で示すように、再度第1の話者を選択する。次いで、選択した話者は訓練ワードの一群をシステム60に読み込む。これらは、各ワード間にポーズを入れて、離散的即ち分離して読み込む。これをブロック98で示す。分離訓練データは、好適な実施形態の1つでは、連続訓練データにおいて見られるものと同一ワードを構成する。しかしながら、分離訓練データは、連続訓練データと同一である必要はなく、全て異なるワードの集合で形成することも可能である。いずれの場合でも、各ワードをシステムに読み込みながら、これをシステム60によって記録する。これをブロック100で示す。
【0028】
再び、システム60は、システム60に読み込まれた各訓練ワードの音素的転記を、キーボード40のようなユーザ入力デバイスから受け取る。これをブロック102で示す。
【0029】
次に、追加の話者が分離音声訓練データをシステム60に供給するか否かについて判定を行う。そうする場合、新たな話者を選択し、その話者が最初の話者と同様に、分離音声訓練データを入力する。追加の話者が分離訓練データをシステム60に入力しないと判定した場合、データ収集プロセスは完了したことになる。これを図3のブロック104および106で示す。
【0030】
また、訓練データは、話者によってマイクロフォンを通じて入力する代わりに、出力分布の形態で、フロッピ・ディスク・ドライブのような入力デバイスを通じて、システム60に直接ロード可能であることも注記しておく。
【0031】
訓練ワードをマイクロフォン62を介してシステム60に入力しながら、A/D変換器64によってディジタル・サンプルに変換し、次いで特徴抽出モジュール66によって特徴ベクトルに変換する(または、ベクトル量子化および訓練データから得られるコードブックを用いて、コードワードに量子化する)。特徴ベクトル(またはコードワード)は、訓練モジュール65に供給する。また、訓練モジュール65は、ユーザ入力デバイスから音素的転写も受け取る。次に、訓練モジュール65は、訓練データにおける特徴ベクトル(またはコードワード)および音素的転写を用いて、1組の単音モデル、セノン・ツリー、三音マッピング・メモリ、プレフィクス・ツリー、およびワード持続時間モデルを、訓練データに基づいて構築する。これらの品目は、全て、認識を実行する際にサーチ・エンジン80が使用する。
【0032】
図4は、訓練モジュール65が、単音モデル、セノン・ツリーおよび三音マッピング・メモリを計算する際のプロセス全体を示すフロー図である。最初に、訓練モジュール65は、共同(pooled)訓練データを受け取る。共同とは、連続および分離音声訓練データ両方を意味するものとする。これを、図4のブロック108で示す。訓練データは、特徴抽出モジュール66によって、前述のように出力分布に変換される。したがって、訓練モジュール65は、特徴ベクトル(またはコードワード)およびそれに与えられた音素的転写を用いて、共同訓練データにおける各ワードについて、1つ以上の隠れマルコフ・モデルを算出する。隠れマルコフ・モデルは、共同訓練データにおいて見出される音素に関連付けられ、各音素について算出する出力および発生頻度に基づいて算出する。
【0033】
本発明の好適な実施形態の1つでは、訓練モジュール65は、訓練データ・セットにおいて見出される各音素を、単音モデルとしてモデル化する。単音モデルは、モデル内の各状態に対する出力確率分布を含む。これを図4のブロック110および112で示す。単音モデルは、認識方式において用い、音素のセノン評価が始まる前に、入力音声の発声に対する最尤一致音素を判定する。次いで、ブロック113で示すように、単音モデルをメモリ72に格納する。
【0034】
次に、各音素における各状態について、訓練モジュール65はセノン・ツリーを作成する。セノン・ツリーを作成する技法については、図5に関して更に詳細に説明する。セノン・ツリーの作成は、図4ではブロック114で表わす。次に、ブロック116で示すように、セノン・ツリーをメモリ70に格納する。
【0035】
一旦セノン・ツリーを作成したなら、次に訓練器65は、所望の三音全て(訓練データ内で見られるものおよび見られないもの双方)を、メモリ70に格納してあるセノン・ツリーによって表わされるセノン・シーケンスにマッピングする。これを行うために、訓練器65は所望の三音(対応する右および左の関係を有する音素)を選択し、メモリ70に格納してあるセノン・ツリーを通り抜ける(traverse)。セノン・ツリーを通り抜けた結果として、訓練モジュール65は、モデル化した三音における各状態に対応するセノンを獲得し、したがって各三音を表わすセノンのシーケンスを獲得する。このセノンのシーケンスを、三音マッピング・メモリ74における対応する三音にマッピングする。これをブロック118によって示す。三音マッピング・シーケンスについても、図6に関して、更に詳しく説明する。
【0036】
次に、訓練モジュール65は、プレフィクス・ツリーを組み立て、このプレフィクス・ツリーをメモリ76に格納する。これをブロック120で示す。最後に、訓練モジュール65は、ワード持続時間モデルを算出し、このワード持続時間モデルをメモリ78に格納する。これを図4のブロック122で示す。ワード持続時間モデルの算出については、図7および図8に関して更に詳しく説明する。
【0037】
単音モデル、セノン・ツリー、三音マッピング、プレフィクス・ツリーおよびワード持続時間モデルを算出した後、音声認識を実行するようにシステム60を構成する。音声認識タスクについては、図9および図10において更に詳しく説明する。
【0038】
図5は、訓練モジュール65が、共同訓練データに含まれる各音素における各状態についてセノン・ツリーを作成する際のプロセスを、更に詳細に示すフロー図である。英語には約50の音素があることが、一般的に認められている。好適な実施形態では、各音素に3つの状態を関連付ける。したがって、訓練モジュール65は150のセノン・ツリーを作成しなければならない。また、好適な実施形態では、50個の音素の各々は、数個の異なる前後関係において、共同訓練データ(即ち、連続訓練データおよび分離訓練データ)内に現れる。したがって、三状態隠れマルコフ・モデルに基づいて音素をモデル化する場合、隠れマルコフ・モデルの各々における各状態に関連する出力分布は、訓練データに現れる際の音素の前後関係によっては異なる場合がある。この情報に基づいて、図5に関して説明するようにセノン・ツリーを構築する。
【0039】
最初に、訓練データに表わされている50個の音素から1つを選択する。これをブロック124で示す。次に、ブロック126で示すように、選択した音素の最初の状態を選択する。
【0040】
選択した音素において選択した状態に関連する出力分布は、共同訓練データ内の音素の全ての発生に対して、検索し、共に集合化する。これをブロック28で示す。次いで、選択した状態に対して集合化した出力分布を、言語学的な前後関係に関する質問に基づいて互いに分離する。この質問は、セノン・ツリーを生成しようとしている特定の音素の前後関係に関する言語学的情報を求める質問である。個々の出力分散の各々に対する質問の回答に基づいて、これらの出力分布を第1(親)グループから2つの(子)グループに分離する。
【0041】
適正な言語学的質問を選択する方法についてこれより説明する。端的に言えば、言語学的質問は、専門の言語学者が作り、前後関係的効果(contextual effect)の言語学的部類を捕獲するように設計することが望ましい。例えば、Hon(ホン)およびLee(リー)のCMU ROBUST BOCABULARY-INDEPENDENT SPEECH RECOGNITION SYSTEM(CMUロバストな語彙独立音声認識システム)と題する論文(IEEE Int'l Conf. On Acoustics, Speech and Signal Processing, Toronto, Canada, 1991, pps889-892)に見ることができる。親グループを子グループに分割するために、訓練モジュール65は、多数の言語学的質問の内どれが、親グループにとって最良の質問であるかについて判定を行う。好適な実施形態では、最良の質問は、親グループおよび子グループ間で最大のエントロピ減少をもたらす質問であると決定する。言語学的質問は全て「はい」または「いいえ」で答える質問であるので、親ノードの分割から2つの子ノードが得られる。
【0042】
グループの分割は、所定の分岐スレシホルドにしたがって停止する。このようなスレシホルドは、例えば、グループ内の出力分布数が所定値未満となった場合、またはグループ分割によって生じたエントロピ減少が他のスレシホルド未満となった場合を含むことがでできる。所定の分岐スレシホルドに達した場合、得られる最終グループは、全て、クラスタ化した出力分布即ちセノンを表わすリーフ・グループとなる。クラスタ化出力分布に基づいて、セノンを表わす単一の出力分布を選択する。これをブロック130および132で示す。また、セノン・ツリーにおける質問を組み合わせたりあるいは結合して、複合質問の形成も可能であることを注記しておく。更に、複合質問は、親グループから子グループへのエントロピ減少に基づいて、より良い複合質問に分離することも可能である。
【0043】
選択した音素の選択した状態に対してセノン・ツリーを作成した後、このセノン・ツリーをメモリ70に格納する。これをブロック134で示す。このプロセスは、語彙における各音素の状態毎に繰り返し、各音素の状態毎にセノン・ツリーを作成する。これを図5のブロック136および138で示す。
【0044】
語彙における各音素の状態毎にセノン・ツリーを作成した後、システム60によって認識すべき各三音を、特定のセノン・シーケンスにマッピングしなければならない。言い換えると、認識すべき三音毎に、当該三音における各状態について、メモリ70内に格納してある適切なセノン・ツリーを注意深く考察することによって、適切なセノンを特定しなければならない。
【0045】
最初に、システム60は、認識すべき各三音の音素的転写を、キーボード40のような転写入力デバイスを介して、ユーザから受け取る。次いで、この三音素の中央の音素の各状態に対応するセノン・ツリーを通り抜ける。単にセノン・ツリーのノードに関連する言語学的質問に答えることによって、セノン・ツリーを通り抜ける。三音の各連続状態に適切なセノン・ツリーを特定した後、特定したセノンを組み合わせてセノン・シーケンスを形成し、メモリ74内の当該三音にマッピングする。
【0046】
図6は、どのようにしてセノン・ツリーを作成し、通り抜けるかを理解するのに役立つ一例を示す。図6は、ワード「welcome」の一部として、文字「c」の発話音に対する音素/k/に対するセノン・ツリーを示す。図6は、/k/音素の最初の状態に対するセノン・ツリーを示す。図6に示すセノン・ツリーにおける質問の多くは、前述の技法にしたがって形成した複合質問であることは認められよう。
【0047】
ワード「welcome」の文字「lco」によって形成される三音/L,K,UH/に対して適切なセノン・シーケンスを決定するために、/k/音素の各セノン・ツリーを通り抜けなければならない。図6に示すセノン・ツリーは、/K/音素の最初の状態に関連する。ルート・ノード140に関連する言語学的質問は、三音の左側の音が自鳴音かまたは鼻音かである。/L/は自鳴音であるので、ツリーの通り抜けは子ノード142に移動する。
【0048】
子ノード142は、ノード140において出された質問に対する肯定の回答に対応する。ノード142において出される質問は、左側の音素(/L/)は後音素(back phoneme)(即ち、左側の音素は、舌の位置を口の後方に向けて発話する音素である)であるか否かについて尋ねる。/L/は後音素であるので、通り抜けはノード144に進む。これは、ノード142において出された質問に対する肯定の回答に対応する。右側の音(三音の/UH/音素)がLまたはWでないとすると、/L/音素は、ノード142によって出される質問において指定される音素のいずれでもないので、ノード142における質問に対する回答は否定となる。これによって、セノン2として示すセノンに至る。これを、/L,K,UH/三音の最初の状態に対する適切なセノンとして特定する。同様のツリー通り抜けは、/K/音素の他の状態の各々についても進められる。システム60に入力した三音モデルの全てのマルコフ・モデル全てについて、リーフ(即ち、セノン)に到達するまで、対応するセノン・ツリーを通り抜ける。各三音について定義したセノン・シーケンスをメモリ70に格納する。
【0049】
認識装置が発音プレフィクス・ツリー・デコーダに基づく好適な実施形態では、次に、システム60が認識する語彙または辞書を表わすために、プレフィクス・ツリーを組み立てる。プレフィクス・ツリーの組み立ては、好ましくは、ルート・ノードからリーフに進み、入力データを示す可能性が最も高いワードに到達することができるようにする。好適な実施形態では、プレフィクス・ツリーは、複数の文脈依存無声音(silence phone)を含み、辞書内のワードの一部として無声が埋め込まれるようにモデル化する(メモリ72に格納した単音モデルと同様)。プレフィクス・ツリー60を通り抜けた後、システム60は、認識対象のいずれかの所与のフレーズに対して認識した最尤ワードまたはワード・シーケンスを構成する、能動的仮説を維持することが好ましい。
【0050】
次に、システム60は、好適な実施形態の1つでは、複数のワード持続時間モデルを組み立てる。これは、プレフィクス・ツリー・デコーダから現れる能動的仮説間で選択を行うために用いることができる。ワード持続時間モデルをメモリ78に格納する。図7は、ワード持続時間モデルの組み立てを更に詳細に示すフロー図である。
【0051】
システム60に入力した訓練データは、好ましくは、異なる持続時間の分離ワード、およびポーズによって分離したワード・シーケンス(即ち、フレーズ)を含むことが好ましく、ワード・シーケンスは、シーケンス毎に種々の異なるワード・カウントを有する。訓練モジュール65は、ワード・カウントnを有する各離散フレーズにおけるワードの平均持続時間をモデル化する。したがって、訓練モジュール65は、最初に、共同訓練データにおける異なる長さのフレーズ(これは、1ワードの長さを有するフレーズを含む)について、ワード毎の平均持続時間を算出する。これを図7のブロック144で示す。次に、訓練モジュール65は、フレーズ当たりのワード数によってパラメータ化した、ワード持続時間の分布族(distribution family)を生成する。これをブロック146で示す。次に、訓練モジュール65は、分布族をワード持続時間モデル・メモリ78に格納する。これをブロック148で示す。
【0052】
図8は、訓練モジュール65が算出する分布族をより明確に示すグラフである。図8は、x軸上にワード持続時間を有し、y軸上にn-ワード・フレーズの発生回数を有するグラフ上にプロットした3つの分布150、152および154を示す。分布150、152および154は、概略的にガンマ分布の形態となっており、分布150は一ワード・フレーズの平均持続時間に関連し、分布152は二ワード・フレーズにおける各ワードの平均持続時間に関連し、分布154はnワード・フレーズ(nは2よりも大きい整数である)における各ワードの平均持続時間に関連する。このように、図8は、一ワード・フレーズにおける各ワードの平均持続時間は、二ワード・フレーズにおける各ワードの平均持続時間よりも多少長いことをグラフで示す。また、フレーズ内のワード数が2を超過する場合、このようなフレーズにおける各ワードの平均持続時間は、一ワード・フレーズまたは二ワード・フレーズのいずれかにおけるワードの平均持続時間よりも多少短くなる。
【0053】
認識の間、プレフィクス・ツリーを通り抜けた後に保持してある能動的仮説における平均ワード持続時間を、訓練モデル65によって計算したワード持続時間モデルと比較する。次に、当該特定の仮説におけるワード毎の平均持続時間が、適切なワード持続時間モデルと密接に一致するか(または密接に一致しないか)否かに基づいて、各仮説にスコアを割り当てる(または、減点を適用する)。これについては、本明細書の後ろの方で更に詳しく説明する。
【0054】
一旦訓練モジュール65が単音モデル、セノン・ツリー、三音マッピング、プレフィクス・ツリー、およびワード持続時間モデルを生成したなら、音声を認識するためにシステム60を適切に構成する。
【0055】
図9は、システム60を用いて音声を認識する好適な技法の1つを示すフロー図である。最初に、ユーザがマイクロフォン62に供給した可聴ボイス信号の形態で、音声をシステム60に入力する。マイクロフォン62は、可聴音声信号をアナログ電子信号に変換し、A/D変換器64に供給する。A/D変換器64は、アナログ信号をディジタル信号シーケンスに変換し、特徴抽出モジュール66に供給する。好適な実施形態では、特徴抽出モジュール66は、従来からのアレイ・プロセッサであり、ディジタル信号に対してスペクトル分析を行い、周波数スペクトルの各周波数帯域毎に絶対値(magnitude value)を計算する。好適な実施形態の1つでは、約16キロヘルツのサンプル・レートで、A/D変換器64によって特徴抽出モジュール66に供給する。A/D変換器64は、商業的に入手可能な周知のA/D変換器として実施する。
【0056】
特徴抽出モジュール66は、A/D変換器64から受け取ったディジタル信号を、複数のディジタル・サンプルを含むフレームに分割する。各フレームの持続時間は、約10ミリ秒である。次に、特徴抽出モジュール66によって、各フレームを、複数の周波数帯域についてスペクトル特性を反映する特徴ベクトルに符号化することが好ましい。特徴抽出モジュール66は、更に、ベクトル量子化技法および訓練データから得られるコードブック(個々には示さない)に基づいて、特徴ベクトルをコードワードに符号化することも可能である。分析した特定のフレームの特徴ベクトル(またはコードワード)を用いて、出力分布を隠れマルコフ・モデルと比較することができる。特徴抽出モジュール66は、約10ミリ秒毎に1つの割合で、特徴ベクトルを供給することが好ましい。
【0057】
特徴抽出モジュール66がA/D変換器64からのディジタル・サンプルを処理している際、無声(または境界)検出モジュール68もサンプルを処理している。無声検出モジュール68は、特徴抽出モジュール66を実現するために用いたプロセッサと同一または異なるプロセッサ上で実現することができる。無声検出モジュール68は、周知の方法で動作する。端的に言うと、無声検出モジュール68は、A/D変換器が供給するディジタル・サンプルを処理して無声(即ち、ポーズ)を検出し、ユーザが発声したワードまたはフレーズ間の境界を判定する。次に、無声検出モジュール68は、ワードまたはフレーズの境界検出を示す境界検出信号をサーチ・エンジン80に供給する。このように、サーチ・エンジン80は、認識すべき目標ワードに関連する出力分布の形態で、音声データを受け取る。これを図9のブロック156で示す。
【0058】
次に、サーチ・エンジン80は、受け取った出力分布を、単音メモリ72に格納してある単音モデルと比較する。発話した目標ワードの連続する目標音素毎に、そして目標音素の連続する目標状態毎に、サーチ・エンジン80は、目標状態に対する出力分布を、メモリ72に格納してある各音素の単音モデルの対応する状態と比較する。次に、サーチ・エンジン80は、目標状態の出力分布に最も密接に一致する状態を有する、所定数の音素単音モデルを選択し、目標音素が表わす音素候補(likely phoneme)を得る。これを図9にブロック158で示す。
【0059】
次に、サーチ・エンジン80は、音素候補の1つを選択し、当該音素における最初の状態を選択する。これをブロック160および162で示す。次に、サーチ・エンジン80は、選択した状態に対してセノン・ツリーによって生成したセノンを検索する。
【0060】
次に、サーチ・エンジン80は、最初の目標状態の目標出力分布を、選択した音素モデルの最初の状態に対応するセノン・ツリーの各セノンと比較する。次に、サーチ・エンジン80は、目標状態の出力分布と最も密接に一致するセノンであればどれであっても、最良の一致セノンとして選択し、この最良の一致セノンについて、一致確率スコアを計算し格納する。これをブロック164および166で示す。
【0061】
選択した音素が1つよりも多い状態を有する場合、サーチ・エンジン80は、選択した音素に残っている状態毎に同じステップを実行する。こうして、サーチ・エンジン80は、選択した音素における状態毎に、最も密接に一致するセノンを選択し、最良の一致セノンに対する一致確率スコアを計算し格納する。これをブロック168で示す。選択した音素における全ての状態を比較し終わった後、サーチ・エンジン80は、判定した確率スコアに基づいて、選択した音素に対して、セノン・シーケンス候補を特定したことになる。これをブロック170で示す。次に、サーチ・エンジン80は、メモリ74に格納してある情報にアクセスし、判定したセノン・シーケンス候補にマッピングされている、三音候補を検索する。これをブロック172で示す。
【0062】
次に、サーチ・エンジン80は、音素候補を全て処理し終えたか否かについて判定を行う。し終えていない場合、サーチ・エンジン80は前述の処理を繰り返し、音素候補毎に、比較の間に判定した確率スコアに基づいて、セノン・シーケンス候補に到達する(したがって、目標音素に関連するN個の三音候補に到達する)。これをブロック174および176で示す。
【0063】
一旦N個の三音候補を特定したなら、サーチ・エンジン80はメモリ76内のプレフィクス・ツリーにアクセスする。プレフィクス・ツリーを通り抜けた後、サーチ・エンジン80は能動的仮説を特定する。好適な実施形態の1つでは、サーチ・エンジン80は次に、North American Business News Corpus(北アメリカビジネス・ニュース・コーパス)から導出し、CSR-III Text Language Model(CSR-III テキスト言語モデル)(1994年University of Penn.)と題し、Linguistic Data Consortiumが発行した刊行物に詳細に明記されている、60,000ワード三重字言語モデル(trigram language model)のような、辞書および言語モデルに単純にアクセスする。この言語モデルを用いて、入力データが表わす最尤ワードまたはワード・シーケンスを特定し、サーチ・エンジン80によってこれを出力装置82に供給する。
【0064】
しかしながら、本発明の別の形態および別の好適な実施形態によれば、サーチ・エンジン80は、メモリ78内のワード持続時間モデルも利用して、入力データによって表わされる最尤ワードまたはワード・シーケンスを、更に精度高く特定する。図10は、マルチワード・フレーズおよび単一ワード・フレーズ間の判別を行うために、持続時間モデルをどのように用いるのかを示すフロー・チャートである。この説明の目的のため、ワード・カウントXの離散フレーズが、無声で開始しかつ終了するY個の流暢に発話されたワードのシーケンスであるとする。
【0065】
持続時間モデルの適用は、好ましくは、離散フレーズの境界において行う。入力データにおいてポーズを検出することによって、フレーズを検出する。最初に、入力データ内のポーズを、無声検出モジュール68によって検出する。これをブロック180で示す。次に、サーチ・エンジン80は、検出したポーズが、スレシホルド持続時間d(p)よりも短い持続時間d(P)を有するか否かについて判定を行う。スレシホルド持続時間d(p)は、偽りのポーズ、またはフレーズ間の境界を正確に反映しないポーズの検出を回避するように、訓練データに基づいて経験的に決定する。これをブロック182で示す。d(P)がd(p)未満である場合、処理はブロック80に戻り、別のポーズの検出を待つ。
【0066】
しかしながら、d(P)がd(p)未満でない場合、サーチ・エンジン80は、現在のポーズと、スレシホルド持続時間d(p)を超過した最後のポーズとの間の期間を示す、フレーズの持続時間(セグメント持続時間)d(S)を計算する。これをブロック184で示す。次に、サーチ・エンジン80は、セグメント持続時間d(S)がスレシホルド・セグメント持続時間d(s)よりも長いか否かについて判定を行う。d(p)の場合と同様、d(s)の決定も、セグメント持続時間が、発見的方法を適用すべきでないような長さには決してならないように、訓練データに基づいて経験的に行う。言い換えると、ワード持続時間モデルは、持続時間が短いフレーズに適用する方が、持続時間が非常に長いフレーズに適用するよりも、高い効果が得られると考えられている。セグメント持続時間d(S)がセグメント・スレシホルドd(s)よりも長い場合、処理はブロック180に戻り、別のポーズの検出を待つ。
【0067】
しかしながら、d(S)がスレシホルド・セグメント持続時間d(s)未満である場合、サーチ・エンジン80は、入力データによって表わされるn個の最尤ワードまたはワード・フレーズの1つを示す、現フレーズ仮説Hを選択する。これをブロック188で示す。次に、サーチ・エンジン80は、Hのワード・カウント(wc(H))を判定し、Hの各ワードの平均持続時間を、wc(H)およびd(S)に基づいて計算し、wc(H)に等しいワード・カウントを有するフレーズに対応する、メモリ78内に格納してあるワード持続時間分布とこれを比較する。これをブロック190で示す。
【0068】
この比較に基づいて、サーチ・エンジン80は次に関数ip(wc(H)、d(S))に応じて、この仮説Hにスコア(または減点)を割り当てる。関数ip(wc(H)、d(S))は、Hの平均ワード持続時間が、対応するワード持続時間モデルとどの程度緊密に一致するかを示す。好適な実施形態では、ip(wc(H)、d(S))は、システム60に入力した訓練データに基づいて経験的に求めた傾斜減少関数である。これをブロック192で示す。サーチ・エンジン80は、ブロック194で示すように、能動的仮説の各々についてこのプロセスを繰り返し、最尤仮説を選択する際にこの情報を用いる。次に、サーチ・エンジン80は、最尤仮説を出力装置82に、入力データが表わす最尤フレーズとして、供給する。これをブロック194および196で示す。
【0069】
したがって、本発明は、従来のシステムに対して大きな利点をもたらすことがわかる。本発明は、分離音声データおよび連続音声データを訓練データ・セットとして収集するデータ収集方法を用いる。通常のデータ収集方法を強化し、読み手にワード間にポーズを入れたり、流暢に発話するように要求することによって、連続音声に関連する有音(non-silence)前後関係だけでなく、離散音声に関連する無声前後関係(silence context)も、システムにおける音響モデルを訓練する際に用いられる。連続音声訓練データおよび分離音声訓練データに対する訓練データは、同じワードまたは異なるワードのいずれを含むことも可能であることを注記しておく。この共同訓練データ・セットは、音素モデルの訓練、セノン・ツリーの生成およびセノンの訓練、ならびに三音の適切なセノン・シーケンスへのマッピングに用いられる。
【0070】
また、異なる種類の訓練データ(連続および分離)の効果は、認識の間に予想される音声の種類に応じて別々に重み付けが可能であることも注記しておく。重み付けは、重み係数を割り当てることによって、または単に訓練データ・セットにおける各種類のデータのシステムに供給した量によって行うことができる。好適な実施形態の1つでは、双方の種類の訓練データに等しく重み付けする。
【0071】
更に、好適な実施形態の1つでは、本発明はワード持続時間モデルを採用する。ワード持続時間モデルは、訓練中に生成し、フレーズの境界に適用し、認識システムの精度を更に高めるようにすることが好ましい。
【0072】
また、本発明の技法は、他の種類の訓練データをシステムに導入するためにも、同様に使用可能である。例えば、ユーザに分離または連続音声として訓練データを入力するように指図するだけでなく、ユーザに、大声で、優しく、もっとゆっくりと、またはもっと素早く、あるいは別の言い方で訓練データを入力するように指図することも可能である。この訓練データの全ては、前述と同様に使用し、システムにおいて用いる音響モデルを訓練し、更に一層ロバストな認識システムを得ることが可能となる。
【0073】
以上好適な実施形態を参照しながら本発明について説明してきたが、本発明の精神および範囲から逸脱することなく、形態および詳細において変更も可能であることを、当業者は認めよう。
【図面の簡単な説明】
【図1】 本発明による音声認識システムを実現する環境例のブロック図である。
【図2】 図1に示すシステムの一部の更に詳細なブロック図である。
【図3】 本発明の一形態によるデータ収集手順を示すフロー図である。
【図4】 本発明の一形態による、共同訓練データを用いた音響モデルの訓練およびセノンのマッピングを示すフロー図である。
【図5】 本発明によるセノン・ツリーの作成を示すフロー図である。
【図6】 本発明によるセノン・ツリーの図である。
【図7】 本発明によるワード持続時間モデルの作成を示すフロー図である。
【図8】 図7に示す手順にしたがって作成した、複数のワード持続時間モデルのグラフである。
【図9】 本発明の一形態による音声認識手順の一部を示すフロー図である。
【図10】 本発明の一形態によるワード持続時間モデルの適用を示すフロー図である。
Claims (21)
- 音声認識システムを実現する方法であって、
複数の離散的に発話された訓練ワードを示す分離音声訓練データを受け取るステップと、
複数の連続的に発話された訓練ワードを示す連続音声訓練データを受け取るステップと、
前記連続音声訓練データおよび前記分離音声訓練データにおける音声単位を表す出力確率分布を含む複数の音声単位モデルを与えるステップであって、前記モデルが、前記分離音声訓練データおよび前記連続音声訓練データの両方に基づいて訓練される、ステップと、
前記分離音声訓練データおよび前記連続音声訓練データに基づいて、様々な長さのワード・フレーズに含まれるワードの近似ワード持続時間を示す、複数のワード持続時間モデルを与えるステップであって、前記長さは、前記ワード・フレーズにおけるワード・カウントにより定まる、ステップと、
前記訓練した音声単位モデル及び前記複数のワード持続時間モデルに基づいて音声を認識する認識装置を設けるステップと、を含む方法。 - 請求項1記載の方法において、前記分離音声訓練データを受け取るステップが、第1の複数の音響信号を受け取るステップを含み、連続音声訓練データを受け取るステップが、第2の複数の音響信号を受け取るステップを含み、複数の音声単位モデルを与えるステップが、
前記第1および第2の複数の音響信号に基づいて、複数の音響モデルを生成するステップ、
を含む、方法。 - 請求項2記載の方法において、複数の音響モデルを生成するステップが、
前記第1および第2の複数の音響信号に基づいて、前記連続音声訓練データおよび分離音声訓練データにおける音素を表わす複数の出力確率分布を生成するステップ、
を含む、方法。 - 請求項1記載の方法において、分離音声訓練データを受け取るステップが、
複数の離散的に発話された訓練ワードに関連する無声前後関係情報を含む分離音声データを受け取るステップ、
を含む、方法。 - 請求項4記載の方法において、離散音声データを受け取るステップが、
ユーザが、前記複数の訓練ワードの各々の間にポーズを入れて前記複数の訓練データを離散的に発話したことを示す、前記離散音声データを受け取るステップ、
を含む、方法。 - 請求項1記載の方法において、連続音声訓練データを受け取るステップが、
ユーザが複数の訓練ワードを流暢に発話したことを示す連続音声データを受け取るステップ、
を含む、方法。 - 請求項1記載の方法であって、更に、
前記音声単位モデルを訓練する前に、認識する予想音声に基づいて、前記連続音声訓練データおよび前記分離音声訓練データに重み付けするステップ、
を含む方法。 - 請求項1記載の方法であって、更に、
ユーザが複数の訓練ワードを異なる様式で発話したことを示す追加音声訓練データを受け取るステップ、
を含む方法。 - 請求項8記載の方法において、追加音声訓練データを受け取るステップが、
前記ユーザが前記複数の訓練ワードを第1振幅および第2振幅で発話したことを示す、前記追加音声訓練データを受け取るステップ、
を含み、前記第2振幅が前記第1振幅よりも大きい、方法。 - 請求項8記載の方法において、追加音声訓練データを受け取るステップが、
前記ユーザが前記複数の訓練ワードを流暢に、第1ペースおよび第2ペースで発話したことを示す、前記追加音声訓練データを受け取るステップ、
を含み、前記第2ペースが前記第1ペースよりも速い、方法。 - 請求項3記載の方法において、複数の音声単位モデルを与えるステップが、更に、
前記出力分布の各々を、前記訓練ワードの1つのものの少なくとも一部を形成する音素における所定数の状態の1つと関連付けるステップ、
を含む方法。 - 請求項11記載の方法であって、更に、
音素毎に、選択した音素を含む前記訓練ワードの全てからの前記選択した音素に関連する出力分布をグループ化して、出力分布グループを形成するステップと、
各音素における状態毎に、前記出力分布グループにおいて選択した状態に関連する出力分布を、前記選択した音素に関連する言語学的前後関係情報に基づいてセノンに分離することによって、前記選択した音素において選択した状態について、セノン・ツリーを作成するステップと、
を含む、方法。 - 請求項12記載の方法において、音声を認識する認識装置を設けるステップが、
認識すべき目標ワードにおける各連続目標音素の各連続状態に対する出力分布を受け取るステップと、
目標音素毎に、該目標音素を表わす可能性が最も高い、ある数の音素候補を特定するステップと、
前記音素候補の状態に関連するセノンを、前記目標音素の対応する状態と関連する前記出力分布と比較するステップと、
前記目標音素の前記出力分布と最も密接に一致するセノンを有する最尤音素を特定するステップと、
を実行するように、前記音声認識装置を構成するステップを含む、方法。 - 請求項13記載の方法において、比較するステップが、
各音素候補における各状態に関連する前記セノン・ツリーを、前記目標音素の言語学的前後関係情報に基づいて通り抜けて、前記目標音素における各状態毎にセノンを特定するステップと、
前記目標音素における状態に関連する前記出力分布を、前記音素候補において特定したセノンに関連する前記出力分布と比較するステップと、
を含む、方法。 - 請求項13記載の方法において、ある数の音素候補を特定するステップが、
前記分離音声訓練データおよび前記連続音声訓練データに基づいて、前記訓練ワードにおける音素を示す複数の単音モデルを形成するステップと、
前記目標音素に関連する前記出力分布を、前記単音モデルと比較するステップと、
前記目標音素に関連する前記出力分布に密接に一致する単音モデルを有する、ある数の音素候補を特定するステップと、
を含む、方法。 - 請求項1記載の方法において、音声を認識する音声認識装置を設けるステップが、
認識すべき複数の目標ワードを受け取るステップと、
前記目標ワードにおける目標ワード・フレーズを示すフレーズ境界を検出するステップと、
前記目標ワード・フレーズの近似持続時間を判定するステップと、
前記目標ワード・フレーズによって表わされるワード・フレーズ候補を示す、複数のワード・フレーズ仮説を得るステップと、
前記ワード・フレーズ仮説におけるワードの近似ワード・カウントおよび持続時間を判定するステップと、
前記ワード・フレーズ仮説における前記ワードのワード持続時間を、前記ワード・フレーズ仮説におけるワード数に等しいワード・カウントを有するワード持続時間モデルと比較して、前記ワード・フレーズ仮説における前記ワード持続時間がどれ位緊密に前記ワード持続時間モデルと一致するかに基づいて、最尤ワード・フレーズ仮説を得るステップと、
を実行するように前記認識装置を構成するステップを含む、方法。 - 請求項1記載の方法において、複数のワード持続時間モデルを与えるステップが、
前記分離音声訓練データおよび前記連続音声訓練データにおいて訓練ワード・フレーズを検出するステップと、
前記訓練ワード・フレーズにおけるワード数を判定するステップと、
複数の前記検出した訓練ワード・フレーズにおける前記ワードの近似ワード持続時間を判定するステップと、
前記訓練ワード・フレーズにおけるワード数、および前記訓練ワード・フレーズにおける前記ワードの持続時間についてパラメータ化した、複数のワード持続時間分布を判定するステップと、
を含む、方法。 - 音声認識方法であって、
認識すべきワードを示す訓練データを受け取るステップと、
前記訓練データにおいてポーズを検出して、複数の訓練ワード・フレーズを識別するステップと、
前記訓練ワード・フレーズの各々におけるワード数を判定するステップと、
前記訓練ワード・フレーズの各々におけるワード数に基づいて、前記訓練ワード・フレーズに対応する複数のワード持続時間の分布を生成するステップと、
認識すべき音声を示す入力データを受け取るステップと、
前記入力データに基づいて、前記音声においてポーズを検出して、フレーズの持続時間を特定するステップと、
前記検出したポーズの間にある前記入力データによって表わされるワード・フレーズ候補を表わす複数のフレーズ仮説を生成するステップと、
各フレーズ仮説における各ワードに関連するワード持続時間を、前記フレーズ仮説におけるワード数に基づいておよび前記フレーズ持続時間に基づいて、前記複数のワード持続時間の分布から選択された、前記フレーズ仮説におけるワード数に等しいワード数を有するフレーズについての予想ワード持続時間と比較するステップと、
前記ワード持続時間の前記予想ワード持続時間との比較に基づいて、各フレーズ仮説にスコアを割り当てて、前記入力データにより表わされる最尤フレーズ仮説を得るステップと、
を含む方法。 - 請求項18記載の方法において、各フレーズ仮説におけるワード持続時間を予想ワード持続時間と比較するステップが、
仮説毎に当該仮説におけるワード数および前記フレーズの持続時間に基づいて、前記仮説におけるワードのワード持続時間を判定するステップと、
前記仮説におけるワード数に等しい、フレーズ毎のワード数に関連する前記複数の分布から、選択された1つを選ぶステップと、
前記仮説に対して判定した前記ワード持続時間を、前記選択した分布と比較するステップと、
を含む、方法。 - 請求項19記載の方法において、各フレーズ仮説にスコアを割り当てるステップが、
前記仮説に対して判定したワード持続時間がどの位緊密に前記選択した分布と一致するかを示すスコアを、各ワード仮説に割り当てるステップ、
を含む、方法。 - 音声認識を行う方法であって、
複数の離散的に発話された訓練ワードを示す分離音声訓練データを受け取るステップであって、前記分離音声訓練データが第1の複数の出力分布を含み、各出力分布が、前記離散的に発話された訓練ワードの1つのものの少なくとも一部を形成する音素における所定数の状態の1つに関連する、ステップと、
複数の連続的に発話された訓練ワードを示す連続音声訓練データを受け取るステップであって、前記連続音声訓練データが第2の複数の出力分布を含み、該第2複数の出力分布の各々が、前記連続的に発話された訓練ワードの1つのものの少なくとも一部を形成する音素における所定数の状態の1つと関連する、ステップと、
選択した音素を含む前記訓練ワードの全てから、前記選択した音素に関連する出力分布をグループ化して、出力分布グループを形成するステップと、
前記選択した音素における選択した状態について、セノン・ツリーを作成するステップであって、前記選択した音素に関連する言語学的前後関係情報に基づいて、前記出力分布グループにおける前記選択した状態に関連する前記出力分布を分離することによって作成する、ステップと、
前記分離音声訓練データおよび前記連続音声訓練データに基づいて、様々な長さのワード・フレーズに含まれるワードの近似ワード持続時間を示す、複数のワード持続時間モデルを与えるステップであって、前記長さは、前記ワード・フレーズにおけるワード・カウントにより定まる、ステップと、
前記出力分布グループ、前記セノン・ツリー及び前記複数のワード持続時間モデルに基づいて音声を認識する認識装置を設けるステップと、
を含む方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/934,622 | 1997-09-19 | ||
US08/934,622 US6076056A (en) | 1997-09-19 | 1997-09-19 | Speech recognition system for recognizing continuous and isolated speech |
PCT/US1998/019346 WO1999016052A2 (en) | 1997-09-19 | 1998-09-16 | Speech recognition system for recognizing continuous and isolated speech |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001517816A JP2001517816A (ja) | 2001-10-09 |
JP2001517816A5 JP2001517816A5 (ja) | 2006-01-05 |
JP4351385B2 true JP4351385B2 (ja) | 2009-10-28 |
Family
ID=25465823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000513270A Expired - Fee Related JP4351385B2 (ja) | 1997-09-19 | 1998-09-16 | 連続および分離音声を認識するための音声認識システム |
Country Status (7)
Country | Link |
---|---|
US (1) | US6076056A (ja) |
EP (2) | EP1610301B1 (ja) |
JP (1) | JP4351385B2 (ja) |
CN (1) | CN1202512C (ja) |
CA (1) | CA2303011A1 (ja) |
DE (2) | DE69832393T2 (ja) |
WO (1) | WO1999016052A2 (ja) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6374219B1 (en) * | 1997-09-19 | 2002-04-16 | Microsoft Corporation | System for using silence in speech recognition |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
CA2321299A1 (en) * | 1998-03-09 | 1999-09-16 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for simultaneous multimode dictation |
US6260014B1 (en) * | 1998-09-14 | 2001-07-10 | International Business Machines Corporation | Specific task composite acoustic models |
US6728344B1 (en) * | 1999-07-16 | 2004-04-27 | Agere Systems Inc. | Efficient compression of VROM messages for telephone answering devices |
US6904402B1 (en) * | 1999-11-05 | 2005-06-07 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
US6789062B1 (en) * | 2000-02-25 | 2004-09-07 | Speechworks International, Inc. | Automatically retraining a speech recognition system |
DE10034235C1 (de) | 2000-07-14 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung und Spracherkenner |
US6931376B2 (en) * | 2000-07-20 | 2005-08-16 | Microsoft Corporation | Speech-related event notification system |
US7139709B2 (en) | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
US6957184B2 (en) * | 2000-07-20 | 2005-10-18 | Microsoft Corporation | Context free grammar engine for speech recognition system |
US20020042709A1 (en) * | 2000-09-29 | 2002-04-11 | Rainer Klisch | Method and device for analyzing a spoken sequence of numbers |
US6832189B1 (en) | 2000-11-15 | 2004-12-14 | International Business Machines Corporation | Integration of speech recognition and stenographic services for improved ASR training |
US7451075B2 (en) * | 2000-12-29 | 2008-11-11 | Microsoft Corporation | Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon |
WO2002091357A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system |
DE50109323D1 (de) * | 2001-12-21 | 2006-05-11 | Ericsson Telefon Ab L M | Verfahren und vorrichtung zur spracherkennung |
JP2003208195A (ja) * | 2002-01-16 | 2003-07-25 | Sharp Corp | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
US7324944B2 (en) * | 2002-12-12 | 2008-01-29 | Brigham Young University, Technology Transfer Office | Systems and methods for dynamically analyzing temporality in speech |
US20040122672A1 (en) * | 2002-12-18 | 2004-06-24 | Jean-Francois Bonastre | Gaussian model-based dynamic time warping system and method for speech processing |
TWI245259B (en) * | 2002-12-20 | 2005-12-11 | Ibm | Sensor based speech recognizer selection, adaptation and combination |
TWI224771B (en) * | 2003-04-10 | 2004-12-01 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
US20050049873A1 (en) * | 2003-08-28 | 2005-03-03 | Itamar Bartur | Dynamic ranges for viterbi calculations |
US9117460B2 (en) * | 2004-05-12 | 2015-08-25 | Core Wireless Licensing S.A.R.L. | Detection of end of utterance in speech recognition system |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
KR100636317B1 (ko) * | 2004-09-06 | 2006-10-18 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
KR100703697B1 (ko) * | 2005-02-02 | 2007-04-05 | 삼성전자주식회사 | 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치 |
US8694318B2 (en) | 2006-09-19 | 2014-04-08 | At&T Intellectual Property I, L. P. | Methods, systems, and products for indexing content |
US20080162129A1 (en) * | 2006-12-29 | 2008-07-03 | Motorola, Inc. | Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process |
US20080162128A1 (en) | 2006-12-29 | 2008-07-03 | Motorola, Inc. | Method and apparatus pertaining to the processing of sampled audio content using a fast speech recognition search process |
WO2010042631A2 (en) * | 2008-10-10 | 2010-04-15 | Fastow Richard M | Real-time data pattern analysis system and method of operation thereof |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
CN101819772B (zh) * | 2010-02-09 | 2012-03-28 | 中国船舶重工集团公司第七○九研究所 | 一种基于语音分段的孤立词识别方法 |
CN102971787B (zh) * | 2010-10-29 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 录音结束点检测方法及*** |
US8838449B2 (en) * | 2010-12-23 | 2014-09-16 | Microsoft Corporation | Word-dependent language model |
US9348479B2 (en) | 2011-12-08 | 2016-05-24 | Microsoft Technology Licensing, Llc | Sentiment aware user interface customization |
US9378290B2 (en) | 2011-12-20 | 2016-06-28 | Microsoft Technology Licensing, Llc | Scenario-adaptive input method editor |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
CN104428734A (zh) | 2012-06-25 | 2015-03-18 | 微软公司 | 输入法编辑器应用平台 |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US8959109B2 (en) | 2012-08-06 | 2015-02-17 | Microsoft Corporation | Business intelligent in-document suggestions |
WO2014032244A1 (en) | 2012-08-30 | 2014-03-06 | Microsoft Corporation | Feature-based candidate selection |
US9646605B2 (en) * | 2013-01-22 | 2017-05-09 | Interactive Intelligence Group, Inc. | False alarm reduction in speech recognition systems using contextual information |
KR101905827B1 (ko) * | 2013-06-26 | 2018-10-08 | 한국전자통신연구원 | 연속어 음성 인식 장치 및 방법 |
CN105580004A (zh) | 2013-08-09 | 2016-05-11 | 微软技术许可有限责任公司 | 提供语言帮助的输入方法编辑器 |
US8719032B1 (en) | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR102437689B1 (ko) | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
CN106683677B (zh) | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN105513589B (zh) * | 2015-12-18 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10854192B1 (en) * | 2016-03-30 | 2020-12-01 | Amazon Technologies, Inc. | Domain specific endpointing |
EP3509062B1 (en) * | 2016-08-31 | 2020-05-27 | Sony Corporation | Audio recognition device, audio recognition method, and program |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109974954B (zh) * | 2018-11-22 | 2021-02-02 | 长安大学 | 一种路面自行车骑行振动预测***及方法 |
US11138966B2 (en) * | 2019-02-07 | 2021-10-05 | Tencent America LLC | Unsupervised automatic speech recognition |
CN112151018A (zh) * | 2019-06-10 | 2020-12-29 | 阿里巴巴集团控股有限公司 | 语音评测及语音识别方法、装置、设备及存储介质 |
IT201900015506A1 (it) | 2019-09-03 | 2021-03-03 | St Microelectronics Srl | Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti |
CN112599129B (zh) * | 2021-03-01 | 2021-05-28 | 北京世纪好未来教育科技有限公司 | 语音识别方法、装置、设备和存储介质 |
US11893983B2 (en) * | 2021-06-23 | 2024-02-06 | International Business Machines Corporation | Adding words to a prefix tree for improving speech recognition |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3670390D1 (de) * | 1985-05-07 | 1990-05-17 | Ncr Co | System zur erkennung kontinuierlicher sprache. |
US4783808A (en) * | 1986-04-25 | 1988-11-08 | Texas Instruments Incorporated | Connected word recognition enrollment method |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5450523A (en) * | 1990-11-15 | 1995-09-12 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems |
US5193142A (en) * | 1990-11-15 | 1993-03-09 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems |
US5280563A (en) * | 1991-12-20 | 1994-01-18 | Kurzweil Applied Intelligence, Inc. | Method of optimizing a composite speech recognition expert |
US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
US5379253A (en) * | 1992-06-01 | 1995-01-03 | National Semiconductor Corporation | High density EEPROM cell array with novel programming scheme and method of manufacture |
JPH075892A (ja) * | 1993-04-29 | 1995-01-10 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
-
1997
- 1997-09-19 US US08/934,622 patent/US6076056A/en not_active Expired - Lifetime
-
1998
- 1998-09-16 CA CA002303011A patent/CA2303011A1/en not_active Abandoned
- 1998-09-16 EP EP05077070A patent/EP1610301B1/en not_active Expired - Lifetime
- 1998-09-16 EP EP98944874A patent/EP1012827B1/en not_active Expired - Lifetime
- 1998-09-16 DE DE69832393T patent/DE69832393T2/de not_active Expired - Lifetime
- 1998-09-16 JP JP2000513270A patent/JP4351385B2/ja not_active Expired - Fee Related
- 1998-09-16 DE DE69840115T patent/DE69840115D1/de not_active Expired - Lifetime
- 1998-09-16 WO PCT/US1998/019346 patent/WO1999016052A2/en active IP Right Grant
- 1998-09-16 CN CNB988113805A patent/CN1202512C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69832393D1 (de) | 2005-12-22 |
EP1610301A3 (en) | 2006-03-15 |
DE69840115D1 (de) | 2008-11-20 |
EP1012827A2 (en) | 2000-06-28 |
EP1012827B1 (en) | 2005-11-16 |
CN1202512C (zh) | 2005-05-18 |
WO1999016052A2 (en) | 1999-04-01 |
EP1610301A2 (en) | 2005-12-28 |
US6076056A (en) | 2000-06-13 |
CA2303011A1 (en) | 1999-04-01 |
EP1610301B1 (en) | 2008-10-08 |
WO1999016052A3 (en) | 1999-05-20 |
DE69832393T2 (de) | 2006-08-17 |
JP2001517816A (ja) | 2001-10-09 |
CN1279806A (zh) | 2001-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
JP4414088B2 (ja) | 音声認識において無音を使用するシステム | |
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
JP3126985B2 (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
US6571210B2 (en) | Confidence measure system using a near-miss pattern | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US6539353B1 (en) | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition | |
CN112435654B (zh) | 通过帧***对语音数据进行数据增强 | |
JPH1063291A (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JPH09500223A (ja) | 多言語音声認識システム | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
Knill et al. | Hidden Markov models in speech and language processing | |
JP2731133B2 (ja) | 連続音声認識装置 | |
Islam | An unsupervised approach for Automatic Language dentification | |
Şahin | Language modeling for Turkish continuous speech recognition | |
Catariov | Automatic speech recognition systems | |
Cheng | Design and Implementation of Three-tier Distributed VoiceXML-based Speech System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050913 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090625 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090724 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120731 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120731 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130731 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |