JP3814459B2 - 音声認識方法及び装置と記憶媒体 - Google Patents
音声認識方法及び装置と記憶媒体 Download PDFInfo
- Publication number
- JP3814459B2 JP3814459B2 JP2000099536A JP2000099536A JP3814459B2 JP 3814459 B2 JP3814459 B2 JP 3814459B2 JP 2000099536 A JP2000099536 A JP 2000099536A JP 2000099536 A JP2000099536 A JP 2000099536A JP 3814459 B2 JP3814459 B2 JP 3814459B2
- Authority
- JP
- Japan
- Prior art keywords
- hmm
- speech recognition
- feature vector
- search space
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000007704 transition Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 26
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 claims 2
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、隠れマルコフモデルを用いた音声認識方法及びその装置と、その音声認識を実行するプログラムを記憶したコンピュータにより読み取り可能な記憶媒体に関するものである。
【0002】
【従来の技術】
近年、音声認識の有効な方法として、隠れマルコフモデル(Hidden Markov Model、以下、HMMと記す)を用いた方法の研究、応用が進み、多くの音声認識システムなどで用いられている。
【0003】
【発明が解決しようとする課題】
図6は、HMMを用いた従来の音声認識方法の一例を示すフローチャートである。
【0004】
まずステップS1の音声入力において、マイクロホンなどから入力された音声信号をA/D変換してデジタル信号に変換する。次にステップS2では、ステップS1で変換した音声信号を音響分析し、特徴ベクトルの時系列を抽出する。この音響分析では、時間的に変化する連続波形である音声信号に対して、30ミリ秒程度の窓幅の分析窓を設け、この分析窓を窓幅の1/3〜1/2程度(10ミリ秒〜15ミリ秒)ずらしながら音響分析する。各窓内の分析結果は特徴ベクトルとして出力するため、tをフレーム番号とすると、音声信号は特徴ベクトル系列O(t)(1≦t≦T)に変換される。
【0005】
次にステップS3に進み、所定の構成単位からなるHMMを保持するHMMデータベース5と、認識対象語とHMMの状態系列との対応関係を記述した辞書6を用いて、HMMの状態系列と入力音声の特徴ベクトル系列とを二軸とする探索空間を生成し、この探索空間上で音響尤度が最大となる最適パスをビタビ探索を用いて求める。
【0006】
この最適パス探索の詳細な手順を図7を用いて以下で述べる。
【0007】
図7は、音素を構成単位としたHMMを用いて、2つの単語『あき』『あか』を連続音声認識する場合の探索空間および探索の様子を表している。この図7において、横軸は特徴ベクトル系列の一例で、縦軸はHMMの状態系列の一例である。
【0008】
まず、HMMデータベース5と、認識対象語とHMM5の状態系列との対応関係を記述した辞書6から、1つ以上の認識対象語に対応するHMMの状態系列を生成する。こうして生成されたHMMの状態系列は図7の縦軸のようになる。
【0009】
こうして生成されたHMMの状態系列と特徴ベクトル系列とから二次元の格子状の探索空間が形成される。
【0010】
次に、図7に示した探索空間上の「START」から出発し「END」に到達する全ての経路(パス)について、各格子点における状態出力確率と各格子点間の遷移に対応するHMMの状態遷移確率とから累積音響尤度が最大となる最適パスを探索する。
【0011】
まず、探索空間の各格子点(状態仮説)について、その格子点に到達するまでの累積音響尤度(状態仮説尤度)をt=1からt=Tまで順番に求める。第tフレームの状態sの状態仮説尤度Hs,tは以下の式で求める。
【0012】
ここで、S'(s)は、状態sに接続する状態の集合、a(s',s)は、状態s'から状態sへの遷移確率、b(s,(O(t))は、特徴ベクトルO(t)に対する状態sの状態出力確率である。
【0013】
以上で求めた状態仮説尤度を用いて、「END」に到達する最適パスの音響尤度は以下の式で求める、
max H(s,T)×a(s,s')
s∈Sf …式(2)
ここで、Sfは「END」に到達可能な音素HMMの状態の集合、即ち、各認識対象語を表すHMMの最終状態の集合を表す。またa(s,s')は、状態sから他の状態へ遷移する確率である。
【0014】
以上の計算の過程で、各状態仮説の状態仮説尤度を求める際に、状態仮説尤度が最大となる遷移元の状態(式(1)におけるs')を記憶しておき、これを辿ることで音響尤度が最大となる最適パスが求まる。
【0015】
以上の手順で求めた最適パスに対応するHMMの状態系列を求め、さらにその状態系列に対応する認識対象語を認識結果とする。図7で太線で示したパスが累積音響尤度を最大にする最適パスであった場合、このパスは音素HMM /a//k//a/の状態を通るため、この場合の音声認識結果は「あか」となる。最後にステップS4に進み、その認識結果を表示装置等に表示したり、或いは他の処理に渡したりする。
【0016】
しかしながら、図7に示した探索空間は、認識対象語数、発声時間に比例して大きくなり、このような探索空間の拡大に伴って最適パスの探索処理の処理量が飛躍的に増加する。これにより、大語彙の音声認識を実現する場合や、処理能力が劣る計算機で音声認識を実現する場合に音声認識の応答速度が遅くなるという問題があった。
【0017】
本発明は上記従来例に鑑みてなされたもので、音声認識のための探索処理に要する処理量を削減して高速な音声認識を可能にした音声認識方法及びその装置と記憶媒体を提供することを目的とする。
【0018】
【課題を解決するための手段】
上記目的を達成するために本発明の音声認識方法は以下のような工程を備える。即ち、
入力された音声信号から特徴ベクトル系列を抽出するステップと、
N個の特徴ベクトル系列ごとにHMM間の遷移を許可し、それ以外の特徴ベクトル系列ではHMM間の遷移を許可しない探索空間を用いて、前記音声信号を音声認識するステップとを有し、前記Nの値は、2≦N≦4の範囲にあることを特徴とする。
【0019】
上記目的を達成するために本発明の音声認識装置は以下のような構成を備える。即ち、
入力された音声信号から特徴ベクトル系列を抽出する抽出手段と、
N個の特徴ベクトル系列ごとにHMM間の遷移を許可し、それ以外の特徴ベクトル系列ではHMM間の遷移を許可しない探索空間を用いて、前記音声信号を音声認識する音声認識手段とを有し、前記Nの値は、2≦N≦4の範囲にあることを特徴とする。
【0020】
【発明の実施の形態】
以下、添付図面を参照して本発明の好適な実施の形態を詳細に説明する。
【0021】
図1は本発明の実施の形態に係る音声認識装置のハードウェア構成を示すブロック図である。
【0022】
図1において、101は出力部で、例えば表示部や印刷部等を有し、音声認識の結果、或いはその音声認識の結果から得られた応答(文書データ)を出力する。102は入力部で、ここでは例えばマイクロフォンなどの音声を入力するための構成を備えている。またこの入力部102は、キーボードやマウス等のように、オペレータにより操作されて各種データを入力するための構成を備えている。103は中央処理部(CPU)で、数値演算やこの音声認識装置全体の動作制御等を行なう。104は記憶部で、ディスク装置等の外部メモリ装置や、RAM、ROM等の内部メモリを含み、この記憶部には、本実施の形態の手順や処理を実行するための制御プログラム、更にはこの処理に必要な一時的データおよび認識対象語とHMMの対応関係を示した辞書、HMM等が格納されている。105は音声認識ユニットである。
【0023】
以上の構成を備える音声認識ユニット105の動作を以下に詳しく説明する。
【0024】
本実施の形態では、HMMの構成単位を音素とし、「あか」「あき」を認識対象語とする、HMMの状態系列を用いて、入力音声を連続音声認識を行う場合について説明する。
【0025】
図5は、本実施の形態における認識対象語を示す図で、各認識対象語は音素HMMで構成されている。また、各音素HMMは、図4に示すように複数の状態の連結として構成されている。
【0026】
図4では3つの状態(S1、S2、S3)が示されており、状態S1におけるループ確率はa11、状態S1から状態S2への遷移確率がa12で示されている。本実施の形態では、ビタビアルゴリズムを用いて、これら状態間での遷移確率等に基づいて、探索空間内の各経路スコアを求め、そのスコア値の累積値(尤度)が最も大きい経路を探索する。
【0027】
図2は、本実施の形態に係る音声合成ユニット105における音声認識処理を示すフローチャートである。なお、図6のHMMを用いた音声認識方法と同様の過程については、詳細な説明を省略し、ステップS11の音声入力処理(ステップS1に対応する)、ステップS12の音響分析処理(ステップS2に対応する)により、入力音声から特徴ベクトル系列O(t)(1≦t≦T)を抽出した後の探索処理から説明を行う。
【0028】
ステップS13の探索空間生成処理において、音素を構成単位とするHMMを保持するHMMデータベース16と、認識対象語とHMMの状態系列との対応関係を記述した辞書17とを用いて、1つ以上の認識対象語に対応するHMMの状態系列を生成し、特徴ベクトル系列O(t)と、このHMMの状態系列とからなる二軸の探索空間を生成する(図3及び図7参照)。
【0029】
図3は、本実施の形態に係る音声認識装置における1方向の探索処理経路を説明する図である。
【0030】
図3に示す本実施の形態と、図7の構成との相違点は、図3では、探索空間を生成する際に、特定のフレームのみにHMM間の遷移を許可するパスを用意し、それ以外のフレームではHMM間の遷移を許可しない点にある。これにより、探索空間における最適パスを探索する際の探索すべきパスの数を減少させることができ、これにより処理速度を高めることができる。ここでは、例えば、HMM間の遷移を許すフレームを、例えばN(2≦N≦4)フレーム間隔というように設定する。
【0031】
図3の例では、N=3として、3フレームごとにHMM間での遷移を許すように探索空間が設定されている。この図3と図7とを比較すると、図7の音声認識方法で生成される探索空間に比べ,HMM間を遷移するパスの数が大幅に削減されているのがわかる。
【0032】
図3の例では、各音素(/a/, /k/, /i/)のHMMは3つの状態を有し、それぞれ所定の遷移規則に従って他のHMMに遷移する。本実施の形態では、これらHMM間での遷移をN(=3)フレーム毎に許可している。即ち、特徴ベクトル系列O(2),O(5),O(8),…,O(T-1)でのみHMM間での遷移が許可されている。
【0033】
次にステップS14に進み、探索処理において、図3の「START」から出発して「END」に到達する全ての経路(パス)について、各状態仮説の累積尤度における状態出力確率と各格子点間の遷移に対応するHMMの状態遷移確率とから累積音響尤度を計算し、その計算した累積音響尤度が最も大きくなるような最適パスを探索する。なお、この最適パスの探索方法は、図6のステップS3と同様の処理で求まるので、その説明を省略する。
【0034】
こうして求めた最適パス上のHMM系列の認識対象語を認識結果とし、ステップS15の認識結果出力処理で、その認識結果を出力部101の表示装置に表示したり、他の処理に渡したりする。
【0035】
以上説明したように本実施の形態によれば、特徴ベクトル系列とHMMの状態系列とを用いて探索空間を生成する際に、HMM間での遷移をNフレーム毎にのみ許可することにより、探索するパスの数を減らして、認識処理速度をより高めることができる。
【0036】
本実施の形態によれば、図2のステップS13において、HMM間の遷移を許可するフレームをN(N=3)フレーム単位とする場合について説明したが、これに限るものではない。例えば、上述の探索空間は、認識対象語の増加や発声時間の増加に伴って拡大することを考慮し、認識対象語の増加または発声時間の増加に応じて、HMM間の遷移を許可するフレームの間隔を2≦N≦4の範囲において段階的に広げることも可能である。また、認識対象語の増加と発声時間の増加の双方を考慮して、フレームの間隔を2≦N≦4の範囲において段階的に変更することも可能である。このように構成することにより、探索空間の規模に応じて適応的に探索パスの削減を行え、認識処理の速度を高めることができる。
【0037】
また、本実施の形態のステップS13では、HMMの状態系列内に存在する全てのHMMに対して、HMM間の遷移を許可するフレームをN(N=3)フレーム単位とする場合について説明したが、これに限るものではない。例えば、HMM間の遷移を許可するフレームの間隔を、所定のHMM間において2≦N≦4の範囲で変更することも可能である。また、所定数の特徴ベクトル系列ごとに、フレーム間隔を可変とすることも可能である。これにより、他のHMMへ遷移する頻度が高いHMMと、他のHMMへ遷移する頻度が低いHMMとでフレーム間隔を変更することができる。このように構成することにより、認識率の向上と探索空間の縮小とを同時に実現することができる。
【0038】
また、本実施の形態では、HMMの構成単位を音素として説明したが、これに限るものではない。音節、単語、diphone等の音韻を構成単位としてもよい。
【0039】
また本実施の形態では、日本語の単語を認識する例について説明したが、これに限るものではない。日本語以外の言語にも適用できる。
【0040】
なお本発明は、複数の機器(例えばホストコンピュータ、インターフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
【0041】
また、本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0042】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0043】
以上説明したように本実施の形態によれば、最尤状態系列を探索する探索空間を形成する際に、特定のフレームのみHMM間の遷移を許すことによって、探索すべきパスを削減し、最適パスの探索に要する処理量を削減できる。この結果、従来の方法よりも高速な音声認識を実現することが可能となる。
【0044】
【発明の効果】
以上説明したように本発明によれば、最適パスを探索する際の探索すべきパスを減らすことができ、音声認識のための探索処理に要する処理量を削減して高速な音声認識を可能にできるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声認識装置のハードウェア構成を示すブロック図である。
【図2】本発明の実施の形態に係る音声認識装置における音声認識処理手順を示すフローチャートである。
【図3】本発明の実施の形態に係る探索処理を行う経路を説明する図である。
【図4】隠れマルコフモデルを説明する図である。
【図5】本発明の実施の形態における、認識対象語が複数の音素モデルで構成されている様子を示した図である。
【図6】従来の音声認識処理の処理手順を示したフローチャートである。
【図7】従来の音声認識方法における探索処理経路を説明する図である。
Claims (7)
- 入力された音声信号から特徴ベクトル系列を抽出するステップと、
N個の特徴ベクトル系列ごとにHMM間の遷移を許可し、それ以外の特徴ベクトル系列ではHMM間の遷移を許可しない探索空間を用いて、前記音声信号を音声認識するステップとを有し、
前記Nの値は、2≦N≦4の範囲にあることを特徴とする音声認識方法。 - 前記探索空間は、1つ以上の認識対象語に対応するHMMの状態系列と前記特徴ベクトル系列との二軸で規定される空間であることを特徴とする請求項1に記載の音声認識方法。
- 前記HMMは、音素、音節、単語、diphoneのいずれかに対応することを特徴とする請求項1に記載の音声認識方法。
- 請求項1乃至3のいずれか1項に記載の音声認識方法をコンピュータに実行させるためのプログラムを記憶したことを特徴とする、コンピュータにより読み取り可能な記憶媒体。
- 入力された音声信号から特徴ベクトル系列を抽出する抽出手段と、
N個の特徴ベクトル系列ごとにHMM間の遷移を許可し、それ以外の特徴ベクトル系列ではHMM間の遷移を許可しない探索空間を用いて、前記音声信号を音声認識する音声認識手段とを有し、
前記Nの値は、2≦N≦4の範囲にあることを特徴とする音声認識装置。 - 前記探索空間は、1つ以上の認識対象語に対応するHMMの状態系列と前記特徴ベクトル系列との二軸で規定される空間であることを特徴とする請求項5に記載の音声認識装置。
- 前記HMMは、音素、音節、単語、diphoneのいずれかに対応することを特徴とする請求項5に記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099536A JP3814459B2 (ja) | 2000-03-31 | 2000-03-31 | 音声認識方法及び装置と記憶媒体 |
US09/817,039 US6801892B2 (en) | 2000-03-31 | 2001-03-27 | Method and system for the reduction of processing time in a speech recognition system using the hidden markov model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099536A JP3814459B2 (ja) | 2000-03-31 | 2000-03-31 | 音声認識方法及び装置と記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001282283A JP2001282283A (ja) | 2001-10-12 |
JP2001282283A5 JP2001282283A5 (ja) | 2005-07-21 |
JP3814459B2 true JP3814459B2 (ja) | 2006-08-30 |
Family
ID=18613876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000099536A Expired - Fee Related JP3814459B2 (ja) | 2000-03-31 | 2000-03-31 | 音声認識方法及び装置と記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6801892B2 (ja) |
JP (1) | JP3814459B2 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10120513C1 (de) * | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
JP2004062565A (ja) | 2002-07-30 | 2004-02-26 | Canon Inc | 画像処理装置及び方法並びにプログラム記憶媒体 |
EP1400951B1 (de) * | 2002-09-23 | 2009-10-21 | Infineon Technologies AG | Verfahren zur rechnergestützten Spracherkennung, Spracherkennungssystem und Steuereinrichtung zum Steuern eines technischen Systems und Telekommunikationsgerät |
US7016845B2 (en) * | 2002-11-08 | 2006-03-21 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on an application server |
JP4217495B2 (ja) * | 2003-01-29 | 2009-02-04 | キヤノン株式会社 | 音声認識辞書作成方法、音声認識辞書作成装置及びプログラム、記録媒体 |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
US7724889B2 (en) | 2004-11-29 | 2010-05-25 | At&T Intellectual Property I, L.P. | System and method for utilizing confidence levels in automated call routing |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) * | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US8223954B2 (en) | 2005-03-22 | 2012-07-17 | At&T Intellectual Property I, L.P. | System and method for automating customer relations in a communications environment |
US7752048B2 (en) | 2005-05-27 | 2010-07-06 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on a database |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
JP4822829B2 (ja) * | 2005-12-14 | 2011-11-24 | キヤノン株式会社 | 音声認識装置および方法 |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
DE102006049262A1 (de) * | 2006-10-19 | 2008-04-30 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Ansteuerung von Personenschutzmitteln |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US20140020081A1 (en) * | 2012-07-16 | 2014-01-16 | Qualcomm Incorporated | Portable Token Device |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
CN104166850B (zh) * | 2014-08-07 | 2018-03-23 | 和汇投资集团股份有限公司 | 一种语音识别应用***的解决敏感词未知性的方法 |
CN112786035A (zh) * | 2019-11-08 | 2021-05-11 | 珠海市一微半导体有限公司 | 清洁机器人的语音识别方法、***和芯片 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
JP2924555B2 (ja) * | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
FI950917A (fi) * | 1995-02-28 | 1996-08-29 | Nokia Telecommunications Oy | Puhekoodausparametrien käsittely tietoliikennejärjestelmässä |
JP3450522B2 (ja) * | 1995-06-21 | 2003-09-29 | キヤノン株式会社 | 情報処理方法及び装置 |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
JPH09258771A (ja) | 1996-03-25 | 1997-10-03 | Canon Inc | 音声処理方法及び装置 |
US6154499A (en) * | 1996-10-21 | 2000-11-28 | Comsat Corporation | Communication systems using nested coder and compatible channel coding |
JPH10161692A (ja) | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
US6456970B1 (en) * | 1998-07-31 | 2002-09-24 | Texas Instruments Incorporated | Minimization of search network in speech recognition |
-
2000
- 2000-03-31 JP JP2000099536A patent/JP3814459B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-27 US US09/817,039 patent/US6801892B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6801892B2 (en) | 2004-10-05 |
JP2001282283A (ja) | 2001-10-12 |
US20010032075A1 (en) | 2001-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3814459B2 (ja) | 音声認識方法及び装置と記憶媒体 | |
US6845357B2 (en) | Pattern recognition using an observable operator model | |
US7366669B2 (en) | Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus | |
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
De Wachter et al. | Data driven example based continuous speech recognition. | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP6453631B2 (ja) | 認識システム、認識方法およびプログラム | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
US8260614B1 (en) | Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
US10600407B2 (en) | Generation device, recognition system, and generation method for generating finite state transducer | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
JPH08248975A (ja) | 標準パターン学習装置およびこの装置を使用した音声認識装置 | |
JP6995967B2 (ja) | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 | |
JP2005091504A (ja) | 音声認識装置 | |
JPH1097270A (ja) | 音声認識装置 | |
JP2012194364A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP3818154B2 (ja) | 音声認識方法 | |
JP2001100789A (ja) | 連続音声認識装置の音素認識性能測定装置 | |
KR100340688B1 (ko) | 음성인식을 위한 최적의 변이음 개수 추출 방법 | |
JPH05224692A (ja) | 連続音声認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041210 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20041210 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20041210 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050823 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20050920 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060113 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060605 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090609 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100609 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110609 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120609 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120609 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130609 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |