JP3907194B2 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP3907194B2
JP3907194B2 JP2003146248A JP2003146248A JP3907194B2 JP 3907194 B2 JP3907194 B2 JP 3907194B2 JP 2003146248 A JP2003146248 A JP 2003146248A JP 2003146248 A JP2003146248 A JP 2003146248A JP 3907194 B2 JP3907194 B2 JP 3907194B2
Authority
JP
Japan
Prior art keywords
noise
signal
speech recognition
spectrum
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003146248A
Other languages
English (en)
Other versions
JP2004347956A (ja
Inventor
亮典 小柴
聡典 河村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003146248A priority Critical patent/JP3907194B2/ja
Priority to US10/850,105 priority patent/US8423360B2/en
Publication of JP2004347956A publication Critical patent/JP2004347956A/ja
Application granted granted Critical
Publication of JP3907194B2 publication Critical patent/JP3907194B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置、音声認識方法および音声認識プログラム、特に騒音下において発声された音声を認識する装置、方法に関する。
【0002】
【従来の技術】
音声認識装置を実環境において実現する場合の問題点として、入力発話に環境雑音が重畳するために音声認識性能が劣化するという問題がある。
【0003】
この問題を解決するための方法として, S. F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-27, No.2, pp. 113-120, 1979 で提案されたスペクトルサブトラクション法が用いられていた。
【0004】
このスペクトルサブトラクション法は、雑音が重畳した観測音声のスペクトルX(ω)から、雑音区間(発話を含まない雑音のみの区間)より推定した雑音のスペクトルN(ω)を引去り、原音声のスペクトルS(ω)を推定する方法である。
【0005】
【数1】
Figure 0003907194
【0006】
ここでαは雑音の抑圧係数を表し、観測雑音から推定雑音を引去る度合いを決定する。αを大きくすれば、雑音の影響をより小さくすることが可能であるが、一方で必要以上に係数が大きすぎると、音声のスペクトルに歪みが生じて認識性能が劣化することになる。すなわち、αは重畳している雑音の大きさに合わせて最適な値が決まるという性格を有する。そのため、頻繁に重畳雑音のレベルが変動する実環境で用いる場合には、あらかじめ最適な値を定めておくことが極めて困難である、という問題が生じていた。
【0007】
一方、この問題を解決するため、特開2000−330597では、雑音の抑圧係数αの値を音声と雑音の間のSN比に応じて変更する方法が提案されている。
【0008】
しかし、音声認識装置を使用する実環境においては雑音レベルが短時間に頻繁に変動することも多く、音声と雑音とのSN比を正しく推定することが極めて困難な場合も多い。そのため、信号レベルと雑音レベルが短時間に急激に変動する場合には、ここで提案されている方法では、SN比を正しく推定することができず、そのSN比に基づいて定められる雑音の抑圧係数αを用いて雑音除去を行っても十分な性能が得られないという問題があった。
【0009】
【特許文献1】
特開2000−330597
【0010】
【発明が解決しようとする課題】
このように、雑音が重畳した音声信号からスペクトルサブトラクション法を用いて雑音除去を行って音声認識を行う場合、適当な抑圧係数をあらかじめ定めることが困難であり、このため十分に雑音を除去することができないという問題があった。そしてこの結果、雑音除去後の音声を用いて音声認識を行っても十分な性能が得られないという問題があった。
本発明はこのような課題を解決し、短時間に雑音の大きさが変動しても安定して音声認識が行える音声認識装置、方法およびプログラムを提供する。
【0011】
本発明の音声認識装置は、入力音声信号に含まれる雑音成分を推定する雑音推定手段と、前記入力音声信号から前記雑音推定手段で推定された雑音成分を除去する雑音除去手段と、前記入力音声信号から、その信号の周波数スペクトルを表す第1のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第2のベクトルを算出し、算出された第1および第2のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出手段と、前記特徴算出手段で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識手段とを有することを特徴とする。
【0014】
本発明の音声認識方法は、入力音声信号に含まれる雑音成分を推定する雑音推定ステップと、前記入力音声信号から前記雑音推定ステップで推定された雑音成分を除去する雑音除去ステップと、前記入力音声信号から、その信号の周波数スペクトルを表す第1のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第2のベクトルを算出し、算出された第1および第2のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出ステップと、前記特徴算出ステップで算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識ステップとを有することを特徴とする。
【0017】
本発明の音声認識プログラムは、コンピュータに、入力音声信号に含まれる雑音成分を推定する雑音推定処理と、前記入力音声信号から前記雑音推定処理で推定された雑音成分を除去する雑音除去処理と、前記入力音声信号から、その信号の周波数スペクトルを表す第1のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第2のベクトルを算出し、算出された第1および第2のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出処理と、前記特徴算出処理で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識処理とを実現させることを特徴とする。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の一実施の形態に係る音声認識装置を概略的に示すブロック図である。
【0019】
図1に示されるように本発明の音声認識装置は、入力された音声信号の信号スペクトルを計算するスペクトル計算部101と、前記スペクトル計算部101から計算されるスペクトルを用いて雑音のスペクトルを推定する雑音推定部102と、前記スペクトル計算部101から計算されるスペクトルと、前記雑音推定部102から計算される雑音の推定スペクトルを用いて、雑音の引去り度合いの異なる複数のスペクトルサブトラクションを行う雑音除去部103と、前記雑音除去部103から求まる複数の雑音除去後のスペクトルを統合して、あらかじめ学習しておいた音声認識辞書(標準パターン)と比較するための一の特徴量(ベクトル)を計算する特徴量計算部104と、前記特徴量計算部104から求まる音声特徴量をあらかじめ学習しておいた音声認識辞書(標準パターン)と比較して認識結果を求める音声認識部105、とを有する。
【0020】
次に、この音声認識装置の具体的な処理概念を説明する。スペクトル計算部101では、入力された音声信号時系列を周波数分析して周波数スペクトルに変換し、その結果を出力する。
【0021】
雑音推定部102では、まず入力された音声信号の信号振幅または電力(パワー)を観測して、入力された音声信号が音声を含むものか否かを判定する。例えば、直前に観測された(雑音レベルの)入力信号と比較して、大きな振幅または電力の信号が継続して入力した場合には「音声が入力された(発話状態)」と判定する。逆に大きな振幅または電力の信号が継続して入力された(発話区間)前後に、入力信号の振幅、電力が小さくなった場合には「音声が入力されていない(無音状態)」と判定する。
【0022】
次に雑音推定部102では、「音声が入力されていない(無音状態)」と判定された区間において、スペクトル計算部101から入力されるスペクトルを用いて、雑音スペクトル(発話を含まない雑音のみの区間の信号のスペクトル)を推定する。
【0023】
スペクトル計算部101から出力される入力信号の周波数スペクトルと雑音推定部102から出力される(無音区間における)雑音スペクトルは雑音除去部103に入力される。
【0024】
雑音除去部103では、雑音の引去り度合いの異なる複数のスペクトルサブトラクションが行われる。ここでスペクトル計算部101から出力されるスペクトルをX(ω)雑音推定部102から出力される雑音スペクトルをN(ω)とすると、それぞれのスペクトルサブトラクションは、例えば以下のような式を用いて実現することができる。
【0025】
【数2】
Figure 0003907194
【0026】
αは抑圧係数であり、この値を変化させることにより雑音の引去り度合いを調節することが可能になる。したがってαの異なる複数のスペクトルサブトラクションを雑音除去部103に含ませることにより、雑音の引去り度合いの異なる複数のスペクトルサブトラクションを有する雑音除去部を実現することが可能になる。
【0027】
ここでスペクトルサブトラクションNの構成例を図2に示す。雑音推定部102で得られた雑音スペクトルは一旦、雑音スペクトル蓄積部106に蓄積される。この雑音スペクトルは、雑音抑圧係数αN:107を乗じられた後、スペクトル計算部101から出力された入力信号の周波数スペクトルから減算器108を介して減算される。こうして雑音除去された入力信号のスペクトルは特徴量算出部104に送られる。
【0028】
ここで雑音抑圧係数の例としては、一般的には0≦α≦1の範囲で選択されるが、雑音抑圧のために1≦αの値が選択される場合もある。また上記の例では、スペクトルサブトラクションNごとにすべての周波数で一定の大きさの抑圧係数用いているが、これをスペクトルサブトラクションごとに周波数に応じて変更することで雑音の引去り度合いを変更することも可能である。例えば第1のスペクトルサブトラクションでは、
α=1.0 (ω<TH)
α=0.0 (ω>=TH)
第2のスペクトルサブトラクションでは、
α=0.0 (ω<TH)
α=1.0 (ω>=TH)
とすることにより、スペクトルサブトラクション毎に周波数範囲に応じた雑音の引去り度合いを設定することが可能になる。ここでTHは適宜定めた周波数の閾値である。
【0029】
このようにして実現された雑音除去部103から計算される複数の雑音除去後のスペクトルは特徴量計算部104に入力される。
特徴量計算部104は入力された複数のスペクトルを統合して、音声認識のための特徴量を計算する。
【0030】
統合の方法としては、入力される複数の音声入力の周波数スペクトルについて平均スペクトルを求め、その後、メルスケールの周波数で再標本化した対数スペクトルから計算したケプストラムであるMFCC(Mel-Frequency Cepstrum Coefficients)や人間の聴覚特性を考慮した線形予測分析により求まる自己回帰全極モデルであるPLP(Perceptual Linear Prediction)などに変換する方法や(図4)、入力される複数のスペクトルについて各々MFCCやPLPなどに変換した後、これらを結合させた特徴量ベクトルをKL展開などの次元圧縮法を用いて所定の次元に圧縮するなどの方法が考えられる(図5)。
【0031】
特徴量算出部104で算出された特徴量は、音声認識部105に入力される。音声認識部105では、あらかじめ学習して蓄積しておいた音声の特徴量の標準パターンと入力された特徴量との間でパターンマッチングを行い、認識結果を出力する。パターンマッチングの方法としては、隠れマルコフモデル(HMM)を用いた時系列パターンに対する統計的・確率的パターン認識方法や、音声パターンの時間軸上の変動を吸収できる動的計画法を用いた非線型伸縮パターンマッチング法であるDPマッチングに基づく方法等を用いることができる。以上が、本発明に係わる音声認識装置の第1の実施の形態にかかる構成の説明である。
【0032】
以上の説明では、複数のスペクトルサブトラクションNの全てに雑音スペクトル蓄積部106を具備するものとしている(図2参照)が、雑音スペクトル蓄積部をスペクトルサブトラクションNの構成の外側に出して、1つの雑音スペクトル蓄積部を複数のスペクトルサブトラクションNで共通に使用するような構成を採用することも可能である。
【0033】
次に本発明の第2の実施の形態に係る構成を説明する。第1の実施の形態に示した構成例では、雑音除去部103に含まれる複数のすべてのスペクトルサブトラクションで雑音を引去り、これを統合して特徴量を算出することとしているが、第2の実施の形態に示した構成では、雑音除去部103にまったく雑音を引去らないスペクトルを含めて、これらの信号を統合して特徴量を算出することを特徴とする。
【0034】
図3に発明の第2の実施の形態にかかる音声認識装置の構成を図示する。図3においては、入力された音声信号の信号スペクトルを計算するスペクトル計算部201と、前記スペクトル計算部201から計算されるスペクトルを用いて雑音のスペクトルを推定する雑音推定部202と、前記スペクトル計算部201から計算されるスペクトルと、前記雑音推定部202から計算される雑音の推定スペクトルを用いて、雑音の引去り度合いの異なる複数のスペクトルサブトラクションを行う雑音除去部203と、前記雑音除去部203から求まる複数の雑音除去後のスペクトルを統合して、あらかじめ学習しておいた音声認識辞書(標準パターン)と比較するための一の特徴量(ベクトル)を計算する特徴量計算部204と、前記特徴量計算部204から求まる音声特徴量をあらかじめ学習しておいた音声認識辞書(標準パターン)と比較して認識結果を求める音声認識部205、とを有する。
【0035】
ここで雑音除去部203は、入力された音声信号のスペクトルと、スペクトルサブトラクションにより雑音が除去された(少なくとも1つの)スペクトルとを統合して特徴量抽出することを特徴とする。第1の実施の形態で説明された特徴量計算部104に入力される複数のスペクトルのかわりに、特徴量計算部204では、スペクトルサブトラクションにより雑音抑圧された(すくなくとも1つの)スペクトルと、入力音声信号のスペクトルを入力として、これらのスペクトルを統合して平均スペクトルを求めて、その信号から特徴量抽出する方法(図4参照)や、これらのスペクトルについてそれぞれ特徴量算出を行ない、これらを結合させた特徴量ベクトルを次元圧縮して所定の次元に圧縮するなどの方法により、音声認識のための入力音声の特徴量抽出処理を実現することができる。
【0036】
次に図6に示されるフローチャートを用いて、本実施形態における音声認識処理の動作を説明する。
【0037】
まず音声認識装置に音声信号が入力される(S1)。次に入力音声信号が周波数分析され、信号のスペクトルが求められる(S2)。次に入力された音声信号の電力(パワー)等を観測して、入力された信号が音声であるか、無音(雑音)であるかが判定され、S2で計算された信号のスペクトルから当該入力が雑音であるか否かが判定される(S3)。入力が無音(雑音)と判定された場合には、当該信号のスペクトルを最新の雑音スペクトルとして推定し記憶しておくと共に、次の入力信号のスペクトル分析処理(S2)を継続する(S4)。
【0038】
S3で入力された音声が雑音ではない、すなわち、発話であると判定された場合には、認識段階へすすみ、雑音除去が行われる(S5)。具体的には、雑音除去は、予め蓄積された最新の推定雑音スペクトルを用いて、雑音の引去り度合いの異なる複数のスペクトルサブトラクションで入力スペクトルから推定雑音スペクトルを引き去ることによって行われる。次に前記複数のスペクトルサブトラクションの結果としての雑音除去されたスペクトル(または雑音除去する前の入力音声のスペクトル)を用いて、特徴量が計算される(S6)。そして当該計算された特徴量を用いて、予め蓄積された特徴量の標準パターンとのマッチングをとることにより、認識処理が行われ(S7)、認識結果を出力する(S8)。以上が本発明に係わる音声認識処理の動作である。
【0039】
このように構成された音声認識装置によれば、特徴量計算部から求まる特徴量には、雑音の引去り度合いの異なる複数の信号の特徴が反映されることになる。そのため、従来の方法のように、あらかじめ定めておいた雑音の引去り度合いが、現実に重畳している雑音の大きさと整合していないために認識性能が劣化する、という問題を解決することができる。さらに、あらかじめ雑音の引去り度合いが異なる複数のスペクトルサブトラクションを有することにより、現実に重畳している雑音の大きさに応じて引去り度合いを適応的に調整する、という必要もなくなり、雑音の大きさの推定誤りによって認識性能が劣化する、という問題も解決することができる。
【0040】
【発明の効果】
以上説明したように、本発明によれば、雑音の引去り度合いの異なる複数の雑音除去手段を用いて雑音重畳音声から雑音の除去を行い、雑音除去後の音声信号から音声認識のための特徴量を計算して音声認識に用いることで、雑音の大きさが変動しても安定して音声認識を行うことが可能になる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る音声認識装置を示すブロック図。
【図2】 スペクトルサブトラクションの構成例を示すブロック図。
【図3】 雑音除去部にスペクトルサブトラクションを行わない構成を有する本発明の実施の形態に係わる音声認識装置を示すブロック図。
【図4】 雑音除去後の複数のスペクトルを平均することにより特徴量を計算する方法を説明する図。
【図5】 雑音除去後の複数のスペクトルを特徴量に変換した後、さらに当該特徴量を、KL展開を用いて次元圧縮することにより認識のための特徴量を求める方法を説明する図。
【図6】 本発明の実施の形態に係わる音声認識装置の動作を説明するためのフローチャート。
【符号の説明】
101…スペクトル計算部
102…雑音推定部
103…雑音除去部
104…特徴量計算部
105…音声認識部
201…スペクトル計算部
202…雑音推定部
203…雑音除去部
204…特徴量計算部
205…音声認識部

Claims (3)

  1. 入力音声信号に含まれる雑音成分を推定する雑音推定手段と、
    前記入力音声信号から前記雑音推定手段で推定された雑音成分を除去する雑音除去手段と、
    前記入力音声信号から、その信号の周波数スペクトルを表す第1のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第2のベクトルを算出し、算出された第1および第2のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出手段と、
    前記特徴算出手段で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識手段と
    を有することを特徴とする音声認識装置。
  2. 入力音声信号に含まれる雑音成分を推定する雑音推定ステップと、
    前記入力音声信号から前記雑音推定ステップで推定された雑音成分を除去する雑音除去ステップと、
    前記入力音声信号から、その信号の周波数スペクトルを表す第1のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第2のベクトルを算出し、算出された第1および第2のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出ステップと、
    前記特徴算出ステップで算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識ステップと
    を有することを特徴とする音声認識方法。
  3. コンピュータに、
    入力音声信号に含まれる雑音成分を推定する雑音推定処理と、
    前記入力音声信号から前記雑音推定処理で推定された雑音成分を除去する雑音除去処理と、
    前記入力音声信号から、その信号の周波数スペクトルを表す第1のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第2のベクトルを算出し、算出された第1および第2のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出処理と、
    前記特徴算出処理で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識処理と
    を実現させることを特徴とする音声認識プログラム。
JP2003146248A 2003-05-23 2003-05-23 音声認識装置、音声認識方法及び音声認識プログラム Expired - Fee Related JP3907194B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003146248A JP3907194B2 (ja) 2003-05-23 2003-05-23 音声認識装置、音声認識方法及び音声認識プログラム
US10/850,105 US8423360B2 (en) 2003-05-23 2004-05-21 Speech recognition apparatus, method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003146248A JP3907194B2 (ja) 2003-05-23 2003-05-23 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2004347956A JP2004347956A (ja) 2004-12-09
JP3907194B2 true JP3907194B2 (ja) 2007-04-18

Family

ID=33533162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003146248A Expired - Fee Related JP3907194B2 (ja) 2003-05-23 2003-05-23 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (2)

Country Link
US (1) US8423360B2 (ja)
JP (1) JP3907194B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4290606B2 (ja) * 2004-05-28 2009-07-08 株式会社大井製作所 車両用ドアの自動開閉装置
KR100693284B1 (ko) * 2005-04-14 2007-03-13 학교법인 포항공과대학교 음성 인식 장치
JP4049331B2 (ja) * 2005-08-19 2008-02-20 独立行政法人科学技術振興機構 診断対象物の評価方法および評価装置
EP2362389B1 (en) 2008-11-04 2014-03-26 Mitsubishi Electric Corporation Noise suppressor
US8185389B2 (en) * 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
US8930185B2 (en) 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP5641186B2 (ja) * 2010-01-13 2014-12-17 ヤマハ株式会社 雑音抑圧装置およびプログラム
US9245524B2 (en) 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium
JP2015069063A (ja) * 2013-09-30 2015-04-13 日本電気通信システム株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
US10375487B2 (en) 2016-08-17 2019-08-06 Starkey Laboratories, Inc. Method and device for filtering signals to match preferred speech levels
WO2018140020A1 (en) 2017-01-26 2018-08-02 Nuance Communications, Inc. Methods and apparatus for asr with embedded noise reduction
JP2019020678A (ja) * 2017-07-21 2019-02-07 株式会社レイトロン ノイズ低減装置および音声認識装置
CN112863487A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音识别方法、装置以及电子设备
WO2023152803A1 (ja) * 2022-02-08 2023-08-17 ファナック株式会社 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69420027T2 (de) * 1993-02-12 2000-07-06 British Telecomm Rauschverminderung
JPH09160594A (ja) 1995-12-06 1997-06-20 Sanyo Electric Co Ltd 雑音除去装置
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
JP2000330597A (ja) 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2001067094A (ja) 1999-08-30 2001-03-16 Mitsubishi Electric Corp 音声認識装置及び方法
DE69920461T2 (de) * 1999-10-29 2005-12-01 Telefonaktiebolaget Lm Ericsson (Publ) Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung
JP2001215992A (ja) 2000-01-31 2001-08-10 Toyota Motor Corp 音声認識装置
CA2344800A1 (en) * 2000-04-20 2001-10-20 General Electric Company Locomotive wreck repair
US20020172350A1 (en) * 2001-05-15 2002-11-21 Edwards Brent W. Method for generating a final signal from a near-end signal and a far-end signal
TW533406B (en) * 2001-09-28 2003-05-21 Ind Tech Res Inst Speech noise elimination method
US20030187637A1 (en) * 2002-03-29 2003-10-02 At&T Automatic feature compensation based on decomposition of speech and noise

Also Published As

Publication number Publication date
JP2004347956A (ja) 2004-12-09
US20050010406A1 (en) 2005-01-13
US8423360B2 (en) 2013-04-16

Similar Documents

Publication Publication Date Title
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
JP2000132177A (ja) 音声処理装置及び方法
EP1228503A1 (en) Speech recognition
US20060165202A1 (en) Signal processor for robust pattern recognition
JP3909709B2 (ja) 雑音除去装置、方法、及びプログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US5732388A (en) Feature extraction method for a speech signal
JP2000132181A (ja) 音声処理装置及び方法
JP3632529B2 (ja) 音声認識装置及び方法ならびに記録媒体
JP4965891B2 (ja) 信号処理装置およびその方法
US6937981B2 (en) Voice recognition system
JP2000122688A (ja) 音声処理装置及び方法
JPH11305792A (ja) 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JPH10133688A (ja) 音声認識装置
JP3250604B2 (ja) 音声認識方法および装置
JP4325044B2 (ja) 音声認識システム
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP3761497B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
KR100614932B1 (ko) 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040901

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140126

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees