JP3154487B2 - 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法 - Google Patents

音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法

Info

Publication number
JP3154487B2
JP3154487B2 JP50607891A JP50607891A JP3154487B2 JP 3154487 B2 JP3154487 B2 JP 3154487B2 JP 50607891 A JP50607891 A JP 50607891A JP 50607891 A JP50607891 A JP 50607891A JP 3154487 B2 JP3154487 B2 JP 3154487B2
Authority
JP
Japan
Prior art keywords
speech
vector
noise
energy
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP50607891A
Other languages
English (en)
Other versions
JPH04505670A (ja
Inventor
エレル,アドラム
ウエイントローブ,ミツシエル
Original Assignee
エス・アール・アイ・インターナシヨナル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エス・アール・アイ・インターナシヨナル filed Critical エス・アール・アイ・インターナシヨナル
Publication of JPH04505670A publication Critical patent/JPH04505670A/ja
Application granted granted Critical
Publication of JP3154487B2 publication Critical patent/JP3154487B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は雑音が存在する音声を認識する方法に関する
ものである。本発明は特に、音声認識システムの作動と
の関連下に実施される音声の前処理方法に関する。
音声認識システムは、雑音が存在しないトレーニング
(training)状態と、雑音が存在するオペレーティング
状態との差異について非常に敏感である。音声認識シス
テムはトレーニングによって、雑音を含まない特定の音
声のパターンを認識できるようになり、すなわち、トレ
ーニングによって高度の音声認識ができるようになる。
しかしながら前記システムは、雑音が存在するような環
境下では機能が大きく低下する。
この問題の解決のために若干の改良方法が以前に提案
された。その1つは、音声認識装置の音響学的前処理の
際に、統計的推定量(statistical estimator)を利用
して操作を行うことである。統計的推定量は、きれいな
音声(すなわち、雑音を含まない音声)の情報であると
推定される入力値すなわち入力信号を音声認識装置に与
えるために使用される。
音声認識装置に使用される統計的推定量を導出する作
業は、該音声認識装置に適した最適性基準を画定し、そ
して該基準に基いて該推定量を算出するためのアルゴリ
ズムを作成する作業を包含する。音声認識のための最適
性基準を画定することは、音声を聴く人のための音声向
上のための最適性基準の画定よりも一層容易である。な
ぜならば、前者のための信号処理技術は既に開発されて
いて公知であるが、後者のための該技術は未だ開発され
ていないからである。距離測定(distance metric)に
基いて認識操作が行われる認識システムにおいて、それ
がテンプレートマッチング(template matching)方式
またはベクトル量子化方式のものである場合には、最適
性基準値は、距離測定によって得られる平均ひずみ値を
最低値まで低下できるような値であると仮定するのが合
理的である。この基準の設定は、計算技術の面からみて
不可能である場合が多い。
離散的フーリエ変換(DFT)方式のフィルターバンク
を有するシステムで一般に使用される距離は、該フィル
ターの出力エネルギーの対数の余弦変換値で表わされる
重みつきのユークリッド距離である。この距離は一般に
“リフタード・ケプストラム距離”(liftered cepstra
l distance)と称されている(フィルターバンクシステ
ム内のケプストラムは、フィルターエネルギーの変換値
として定義される)。この距離を用いる推定方法に関す
る基準の設定は、雑音が付いている音声の場合には、計
算技術の面からみて困難である。フィルターバンクを有
するシステムに適用された公知の推定値演算用アルゴリ
ズムは最小平均二乗誤差(MMSE)アルゴリズムおよびス
ペクトル的減算アルゴリズムである。このアルゴリズム
は離散型フーリエ変換(DFT)の係数またはフィルター
バンクの出力エネルギーに適用される(後記の文節に引
用されたポータ等の論文およびバン、コンペルノーレの
論文(1)および(2)を参照されたい)。多次元のケ
プストラム距離の最適性基準と、単一周波数チャンネル
の最小平均二乗誤差(MMSE)の距離の基準との根本的な
差異は、ケプストラム距離は特徴ベクトル(feature ve
ctor)の総合的推定を包含し、一方、MMSE距離はスカラ
ー量の独立的な推定を包含することである。実際には、
種々の周波数の音声スペクトルのエネルギーは相関する
ものであるから、個々の周波数チャンネルの独立的な推
定値を使用することは、最適推定方法ではないと考えら
れる。
上記の技術は統計学やマルコフ過程と関連し、さらに
また、隠れ(hidden)マルコフモデルを使用する音声認
識システムに関する公知技術にも関連している。本発明
との関連下に本発明者が注目した公知技術を開示した特
許明細書および技術文献を以下に示す。しかしながらこ
れらの刊行物は決して本発明を示唆したものではない。
技術文献 Rabiner,“A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition,"Pro
c.IEEE,Vol.77,No.2,Feb.1989. Nadas et al.,“Speech Recognition Using noise−a
daptive prototypes,"IEEE Trans.on ASSP,Vol.37,No.1
0,Oct.1989. Stern et al.,“Acoustical pre−processor for rob
ust speech recognition,"Proc.DARPA Speech and Natu
ral Language Workshop,Session,October 1989. Ephraim et al.,“Speech Enhancement Using a Mini
mum Mean−Square Error Short−Time Spectral Estima
tor,"IEEE Trans.ASSP,Vol.32,pp.1109−1112(Dec.198
4). Ephraim et al.,“Speech Enhancement Using a Mini
mum Mean−Square Error Log−Spectral Amplitude Est
imator,"IEEE Trans.ASSP,Vol.33,pp.443−447(Apr.19
85). Porter et al.,“Optimal Estimators for Spectral
Restoration of Noisy Speech,"Proc.ICASSP,Vol.2,pp.
18A2.1−2.4(1984). Van Compernolle,“Noise Adaptation in a Hidden M
arkov Model Speech Recognition System,"Computer Sp
eech and Language,Vol.3,pp.151−167,1989. Van Compernolle,“Spectral Estimation Using a Lo
g−Distance Error Criterion Applied to Speech Reco
gnition,"Proc.ICASSP,Vol.1,pp.258−261(1989). Gray,“Vector Quantization,"The ASSP Magazine,Vo
l.1,No.2,pp.3−29(April 1984). 前記のRabinerの論文は、音声認識分野への隠れマル
コフモデルの適用に関する従来の研究を概説した論文で
あって、本発明の背景の理解のために役立つであろう。
しかしこの論文には雑音の問題は記載されていない。該
論文は参考資料としてここにその掲載雑誌名を記載し
た。
他の種々の特許明細書および技術文献には、この技術
分野の種々の研究の結果が記載されている。
前記のNadas et al.の論文は雑音の問題の解決方法に
関するものである。しかしながらこれは前処理方法を開
示していない。
Stern et al.の論文には、スペクトル的減算を基礎と
して前処理装置を用いる雑音問題の解決方法が開示され
ている。
Van Compernolleの論文(1)には、スペクトル減算
型の前処理装置が記載されている。
Van Compernolleの論文(2)には、最小平均二乗誤
差を利用して単一チャンネルの独立的な推定を行う前処
理装置が記載されている。
Porter et al.の論文およびEphraim et al.の論文に
は、デジタルフーリエ変換(DFT)係数(たとえばDFT振
幅の対数)の種々の関数の最小平均二乗誤差の推定値を
利用する音声認識技術に使用される前処理装置が記載さ
れている。この技術は、単純なDFT係数のみを処理する
技術である。
Sedgwick et al.の特許明細書には、ナショナル・リ
ソース・デベロープメント・コーポレーションにおいて
行われた音声認識システム用の雑音補償装置に関する研
究の結果が記載されている。該装置では、周波数のスペ
クトル領域内の種々のレベルに対応する入力信号を生成
し、雑音が存在するインプットセル(input cells)の
距離(ユークリッド距離)を測定する。これによって、
認識過程およびトレーニング過程の両者において雑音の
レベルに関して若干の利益が得られる。認識過程および
トレーニング過程の両者において、マイクロホンに到達
した信号はデジタル化され、フィルターバンクを通過
し、複数の周波数チャンネルに分けられる。トレーニン
グ過程では、雑音エスチメータおよびマスカー(maske
r)が認識装置と共に使用され、これによって、認識す
べき語のマルコフモデルの一部を画定する各チャンネル
の確率密度関数(PDF)が作成され、記憶される。このP
DFは雑音レベルより上の入力信号のみから誘導される
が、この誘導は、各PDFについてその全体が表現される
ように行われる。認識過程では、認識操作の基礎となる
距離の測定が、各チャンネル毎に行われる。或1つのチ
ャンネル内の信号が雑音レベルより上のものである場合
には、認識装置によってPDFの負の対数から距離が測定
される。チャンネルの信号が雑音レベルより低いもので
ある場合には、距離は、雑音レベルへのPDFの距離の集
積値の負の対数から測定される。この文献には雑音補償
機能を有する認識システムが記載されているが、雑音問
題の解決のための前処理操作は開示されていない。
Bahl et al.の米国特許第4,817,156号明細書には、マ
ルコフモデルの統計学に基づく音声認識装置を次の話者
に対してトレーニングするための方法および装置に関す
るIBM社の研究の結果が開示されている。該方法によれ
ば、トレーニングデータの乏しい次の話者に対応するマ
ルコフモデルにおける遷移時のラベル出力の確率が決定
される。該特許には、雑音の問題は記載されていない。
Levinson et al.の米国特許明細書には、束縛された
隠れマルコフモデルの標準パターンテンプレートに関す
る複数の記憶値を含み、さらにまた、複数の標準パター
ンテンプレートに与えられた音響学的特徴を表す一連の
信号を記憶している音声認識装置に関すAT&Tベル研究
所の研究結果が開示されている。この特許には、雑音の
問題は記載されていない。
Juang et al.の米国特許明細書には、隠れマルコフモ
デルの音声認識装置に関するAT&Tベル研究所の研究結
果が記載されている。この技術によれば、識別された音
声信号の解析に基づいて一連のフレームからなる音響学
的特徴表示信号を生成させることによって、マルコフモ
デルの音声パターンテンプレートを形成させる操作が行
われる。この特許には、雑音の問題は記載されていな
い。
Bahl et al.の米国特許第4,741,036号明細書には、音
声認識システムに関するIBM社の研究結果が開示されて
いる。この技術によれば、音声に関連する一連の参照語
を表すマルコフモデルのために、記憶した確率ベクトル
データに重みづけを行うことによって、発音のよく似た
複数の語の相互識別能が改善できる。前記の各々の参照
語のための重みづけベクトルは次の方法によって形成で
き、すなわち、ビタビの配列多変量解析方法によって種
々の類似発音を比較し、多変量分布体の正確な認識と不
正確な認識との差が最大になる条件を見出すことによっ
て前記の重みづけベクトルが形成できる。この特許に
は、雑音の問題は記載されていない。
しかしながら、音声認識システムにおいて雑音を含む
音声を前処理するときに使用されるケプストラム距離の
最適性基準を、計算技術的に可能な方法によって設定す
る技術は、従来の文献には全く記載されていない。
発明の構成 本発明は、音声認識装置において雑音を含む音声の前
処理を行うときに、雑音を含む音声の推定操作の際に起
こり得べき誤差を最小限に減少させるための、計算技術
的に実施可能な方法に関するものである。ここに記載さ
れた計算技術的に実施可能な方法として、混合モデルお
よびマルコフモデルを用いる最小平均ログスペクトル距
離(MMLSD)の推定があげられるが、これは次の工程か
らなり、すなわち、1タイムフレームに対応する雑音の
存在下の音声の各ベクトルを算出し、きれいな音声に関
する推定値を算出する。しかして該推定値の算出方法の
基本的仮定事項として、種々の周波数のチャンネルはき
れいな音声の確率分布は種々の音声のクラスを代表する
各成分の混合体によってモデル化できると仮定し、さら
にまた、異なる周波数のチャンネルは各クラス内では相
関せず、かつ、異なる周波数のチャンネル間では雑音は
相関しないという仮定を含む(式11および第2図)。本
発明の別の具体例に係る方法では、一連のタイムフレー
ムに対応する雑音の存在下の一連の音声ベクトルを計算
によって求め、きれいな音声の推定値を算出する。しか
して該推定値の算出方法の基本的仮定事項として、きれ
いな音声の確率分布はマルコフ過程によってモデル化で
き、さらにまた、種々の周波数のチャンネルはマルコフ
過程の各段階の中では相関せず、かつ、異なる周波数の
チャンネル間では雑音は相関しないという仮定を設ける
(式21および第3図)。
本発明は、添付図面の参照下に記載された下記の詳細
な記述から一層よく理解されるであろう。
図面の簡単な説明 第1図は、本発明の方法を利用した前処理装置を備え
た音声認識システムのブロック図である。
第2図は、本発明に係る第1の方法に従った混合モデ
ルを使用する単一フレームMMLSDエスチメータのブロッ
ク図である。
第3図は、本発明との関連下に使用されるガウスモデ
ルの混合体の演算方法を図示した流れ図である。
第4図は、本発明に係る第2の方法に従ってマルコフ
モデルを使用した一連のタイムフレームのためのMMLSD
エスチメータのブロック図である。
発明の具体例の記述 第1図は、本発明の方法を利用した前処理用エスチメ
ータ(22)を備えた音声認識システム(10)のブロック
図である。図面に記載の音声認識システム(10)は、隠
れマルコフ過程認識装置を使用するフィルターバンク型
システムである。あるいは、音声の認識のためにテンプ
レートマッチングシステムを使用することも可能であ
る。音声認識システム(10)はその入力部(12)で、雑
音の存在する音声を表すアナログ時間領域信号を受信す
る。次いで該信号は、アナログ−デジタル変換器(AD
C)(14)とフィルターバンク(18)とを備えた特徴抽
出装置(feature extractor)に送られる。ADC(14)は
前記アナログ信号をデジタル音声信号に変換し、後者の
信号は次いでデジタル信号線(16)を経てタイムセグメ
ンタ(15)に送られる。タイムセグメンタ(15)は前記
デジタル信号を複数のタイムフレームに分割し、これら
のタイムフレームはその後の処理操作に使用される。タ
イムセグメンタ(15)の出力は線(17)を経てフィルタ
ーバンク(18)に送られる。
フィルターバンク(18)は、“音声+雑音”を構成す
る成分(すなわち、雑音を含む音声を構成する成分)を
分類し、すなわち、各タイムフレーム毎に成分S′kを
含むフィルターログエネルギー(一般的にいえばスペク
トルログエネルギー)のベクトルS′を生成する。ここ
に、各成分は音声情報の1つのフィルターチャンネルを
表す。ベクトルS′は次いで線(20)を経て前処理装置
(22)に送られる。前処理装置(22)は、きれいな音声
のエスチメータとしての機能を有するものである。前処
理装置(22)の出力は、きれいな音声の推定値の形のベ
クトルである。
ベクトルは任意的に、線(24)を経て音響学的ラベ
ラ(labeler)(26)に送ることができ、または直接に
音声認識装置(30)に送ることができる。
前処理装置(22)の作動によって、それ以後の全部の
処理があたかも無雑音入力信号の処理のごとく実施でき
るようになる。本発明によれば前処理装置(22)と共
に、たとえば次の3種の音声認識装置が使用できる。た
とえば音声認識装置(30)は、音響学的ラベリングのた
めに距離測定値を使用する音響学的ラベラを備えた離散
密度型の隠れマルコフモデル(HMM)認識装置であって
よい。あるいは装置(30)は、距離測定値を使用せずに
音響学的ラベリングを行うために確率アルゴリズムを使
用する連続密度型のHMM認識装置であってもよい。ある
いは音声認識装置(30)は、動的計画法のごときテンプ
レートマッチングを行い、そしてテンプレートマッチン
グのために距離測定値を使用するように構成された音声
認識装置であってもよいい。音声認識装置(30)から線
(32)に、認識された音声が出力される。
第2図には、本発明に係る前処理装置(22)の第1番
目の具体例が示されている。第2図の前処理装置(22)
は、各タイムフレーム毎に下記(i)及び(ii)に基づ
いて、雑音を含む音声のベクトルS′からきれいな音声
のベクトルの推定値を算出する。
(i) 異なる周波数のチャンネルは各クラス内では相
関しないと仮定して、異なる音声のクラスを表す各成分
の混合によって、きれいな音声の確率分布が混合モデル
の形にモデル化できるという仮定。
(ii) 異なる周波数のチャンネルの雑音は相関しない
という仮定に基づいて得られる、きれいな音声のベクト
ルに近い(すなわち許容範囲内の)雑音含有音声のベク
トルの条件付確率関数。
前記の推定量は、ベクトルSの最小平均二乗誤差(MM
SE)の推定によって得られた値である。ただしこの平均
二乗誤差はベクトルに関するユークリッド概念上のもの
である。K−フィルターログエネルギーのベクトルSに
おける最小ユークリッド距離から、下記のベクトルの推
定量が得られる。式の中の、S、S′はベクトルを表
す。
=∫SP(S|S′)dS (1) ベイズの法則を利用して、前記推定量は次式の形で表
すことができる。
ここに、ベクトルS′の確率は次式で示される。
この推定量は単一チャンネルの場合の推定量よりもか
なり複雑である。なぜならば、K次元の(たとえば25個
の周波数チャンネルの場合には25次元の)確率分布の積
分計算が必要であるからである。本発明によれば、Sの
確率、およびSに近いS′の確率の両者のために、演算
の際に近似モデルが利用できる。なぜならば、雑音は加
法性であり、ベクトルSはフィルターバンクログエネル
ギーのベクトルであるという仮定を設けたからである。
ベクトルSに近いベクトルS′の条件付確率すなわち
P(S′|S)は、マージナル確率の積の形で簡単にモデ
ル化できる。
なぜならば、ガウス性雑音は周波数領域中で相関しな
いという仮定が設けられており、雑音フィルターのエネ
ルギー値S′はきれいな音声のエネルギー値Sk、およ
び当該周波数(すなわち、当該周波数におけるフィルタ
ーの通過帯域(pass−band))内)の雑音レベルにのみ
依存して変わる値であるからであるしかしながらこのモ
デルは、フィルターの通過帯域がオーバラップしている
場合には単なる近似モデルである。
条件付確率P(S′k|Sk)は下記の方法によってモデ
ル化できる。
推定操作を行うべき音声に伴う雑音は静的ARMA確率過
程によって表示できる(すなわち、リニアフィルタリン
グによって着色される白色雑音として表示できる)と仮
定する。ここに“ARMA"は“自己回帰移動平均”を意味
する略語である。したがって、各タイムフレームにおい
て雑音に関する離散的フーリエ変換(DFT)の係数は非
相関性複素ガウス確率変数である。さらにまた、フィル
ターの出力エネルギーの近似値はM個の係数の和によっ
て表示できると仮定する。さらにまた、雑音のスペクト
ル的パワー強度(power)は加算実施範囲内では一様で
あると仮定する。存在する雑音のみの場合には(すなわ
ち、音声を考慮に入れない場合には)、前記の総和は2M
個の確率変数の全体にわたってのびる。該変数は平均が
零で次式の分散を有するガウス型変数である。
σ=(Nk)/(2M) (5) ここにNkは雑音フィルタエネルギーの期待値である。
前記の条件下では、分散正規化フィルタエネルギーは2M
の自由度を有するχ−確率分布(PD)に従うであろ
う。
音声および雑音が存在する場合には、フィルタエネル
ギーは次式で表される。
ここにDFTsは音声係数を表し、DFTnは雑音係数を表
す。
式(6)を式(4)で割ることによって得られる確率
変数すなわちE′kは別の確率分布に従い、すなわ
ち、2Mの自由度を有しかつ非心母数λを有する非心χ
確率分布に従うであろう。
したがって、フィルタエネルギーの条件付確率は次式
で表される。
ここに、 である。
次式 で定義される正規化ログエネルギー変数を使用した場合
には、S′に関する条件付確率は最終的に次式で表さ
れる。
ここに、S′値はk番目のフィルタにおける雑音の
存在下の被測定音声のフィルタログエネルギー値であ
り、Sk値はきれいな音声のフィルタログエネルギー値で
ある。
式(9)で示されるSkの周辺(すなわち許容範囲内)
のS′の条件付確率は前記確率分布内に、必要なあい
まい性を与え、これによって、雑音の存在下における音
声要素Sの周辺の不確実性が明確に表現される。
実際には、仮定モデルからの“ずれ”があるから自由
度は2Mより低いことがあり得る。一般に前記フィルター
は(有がい車の形すなわち矩形の周波数の窓ではなく)
台形の周波数の窓によって画定されるフィルターであ
る。離散性フーリエ変換のハミング窓は、雑音のDFT係
数相互間の相関性を表す。非常に幅の広い雑音スペクト
ルは、単一フィルターの範囲内でフラットであってもな
くてもよい。
さらに、きれいな音声のベクトルのPDすなわち確率分
布P(S)を表すためにモデルが必要である。きれいな
音声のPDは、周波数領域中でマージナル確率の積の形で
は表現できない。このPDは、次式で示される混合モデル
の形にモデル化できる。
ここに、Cは定数であり、Nは混合成分またはクラス
の数である。
音響学的空間は複数のクラスに分けることができ、該
クラス内の種々の周波数チャンネル相互間の相関性は、
前記空間全体の中の該相関性よりもかなり低いことが見
出され、この知見に基いて前記モデルが作成された。前
記クラスは音響学的空間内の区域を表わし、該区域は、
相互にオーバラップしないものであるかまたは相互にオ
ーバラップするものであり得る。後で説明するように、
きれいな音声の推定量は次式で示される。
上式中の指数nはクラスを表す。上式の第1項(nの
周辺のSkの推定値)はn番目のクラスの条件付MMSE推定
値を表し、これは演算可能な次式で示される。
ここに、 P(S′k|n)=∫P(S′k|Sk)Pn(Sk)dSk(13) である。式(13)の第2項(n番目のベクトルS′の事
後確率、すなわちn番目のクラスに屈するきれいな音声
のベクトルの事後確率)は、次式で示される。
ここに、 である。
前記の推定量は、クラスの条件付MMSE推定量の重みづ
け総和とみなすことができる。N=1の場合には、得ら
れた推定量は、個々のチャンネルのMMSE推定量と同じで
ある。
本発明に従って演算可能推定量を実際に算出する場合
には、混合モデルを用いてP(S)を式(10)によって
モデル化することが必要である。意図される適用分野に
応じて、種々の種類の混合モデルが適宜使用できる。
該混合モデルは、ベクトルの量子化によって最も簡単
に作成できる。ベクトル量子化混合モデルは、音響学的
空間の固定的境界区分(partitions)でクラスを識別
し、ベクトルの量子化によって該区分を形成する。サイ
ズNのコードブックは、Lloydアルゴリズムによって作
成される(Lloydアルゴリズムは前記のGrayの刊行物に
記載されている)。このコードブックによれば、ユーク
リッド距離で測定されるひずみが最小限に小さくなる。
コードワードnの量子化されたすべての音声フレームの
ヒストグラムから、Pn(Sk)の推定量が算出できる。
演算可能な範囲内で一層良好な適合性を示す混合モデ
ルの例には、ガウス型モデルの混合モデルがあげられ
る。このモデルは、該モデルを用いて得られる計測デー
タの確度が最高値になるように調整されたPD用のパラメ
トリックモデルである。
ガウス型モデルの混合モデルによるパラメータ表示
(parameterization)は次のごとく行われる。最初に、
確率Pn(Sk)ガウス分布であり、各々の平均値はμnk
あり、標準偏差はσnkであるという仮定を設ける。この
場合における最大確度の問題は、連続的密度を有する隠
れマルコフモデル(HMM)のパラメータを推定する問題
となる。ここに該モデルは、対角分散行列のN個の多変
量ガウス型成分を有する単一状態のものである。第3図
は、反復法によってパラメータを推定する方法の工程図
である。該方法は次のごとく行われる。
C、μおよびσの初期推定値を設定する(工程AA)。
これらの初期推定値(種値(seed value)とも称する)
の設定のための合理的な出発点は、各クラス中のベクト
ルの相対的個数、その平均値および標準偏差を数値とし
て用いるベクトル量子化により類別を行うことである。
次に、すべての音声フレームにループを実行し、各フ
レーム(t)について、次式によって確率γ(t)を
演算する。
上式中のPn)は、カレント値μおよびσを用い
て算出される(工程AB)。新たなパラメータの推定値は
下記の時間平均に関する式によって示される。
Cn=<γn(t)> (17) μnk=γn(t)Sk(t) (18) σ2 nk=γn(t){Sk(t)−μnk (19) 最後に、次式で示される全確度の収れん性(converge
nce)について調べる(工程AC)。
収れんしない場合には、工程ABを再び実施し、次いで
収れん性の有無について調べる(工程AC)。これらの操
作は、収れんが認められるようになるまで反復する。
前記の方法は、実際には実施困難な部分を有する。第
1に、フィルターバンクシステムは、一般に相互にオー
バラップする複数の通過帯域を有するフィルターを使用
することがあげられる。第2に、前記のモデルの場合で
さえ、計算機にかかる負荷が過大になることがあり得る
という難点があげられる。この傾向は、対話形実時間認
識システムまたはそれに類似のシステムの場合に特に顕
著である。前記のオーバラップ型フィルターを用いた場
合には、チャンネルの統計学的独立性に関する前記の仮
定は適切ではない。オーバラップ型フィルターの代りに
非オーバラップ型フィルターが使用でき、さらにまた、
広帯域型混合モデルを使用することによって計算機への
負荷の減少を図ることも可能である。
オーバラップ型フィルターを使用した場合には、フィ
ルターログエネルギーのK次元ベクトルは、“相互にオ
ーバラップしない広い通過帯域を有する一層少ない数の
フィルター”を仮定することによって、K次元より低い
次元のベクトルで表現できる。これによって、VQ混合モ
デルを用いる量子化が単純化され、そして、より低次元
の新たなベクトルが、下記のごとき“広域ベクトル量子
化混合モデル”の形で表示される。
ここに、jは広域チャンネルであり、Rjはチャンネル
j中のログエネルギーであり、Jは帯域の全数である。
音声フレームな区分け操作は、サイズNのコードブック
に従ってベクトルRを量子化することによって実施でき
る。次いで、これらのクラスに基いて、式(10)の混合
成分Pn(Sk)の推定値を算出する。事後クラスタ確率の
条件付けは、式(11)の場合のようにベクトルS′では
なくベクトルR′について行われる。式(11)の代りに
式(21)が使用され、事後クラスタ確率は、式(14)お
よび(15)の代りに次式を用いて算出される。
ここに、 である。
P(R′j|)は式(13)に類似の式を用いて算出され
る。ただしこの場合には、SkおよびS′の代りにRj
よびR′を用いる。Pn(Rj)の推定値は、ベクトル量
子化操作によってコードワードnへと量子化された音声
フレームのヒストグラムから得られ、あるいはこれは、
既述のガウス型混合モデル化の場合に類似のガウス型モ
デル化操作によってモデル化できる。同様に、P(R′
j|Rj)は式(9)のP(S′k|Sk)の場合と類似の方法
によってモデル化できる。ここで述べた方法の長所は、
式(22)の場合には式(14)の場合に比して積分計算お
よび乗算の回数が一層少ないことである。
第4図は、本発明に係る前処理装置(22)の第2番目
の具体例の略図である。第4図記載の前処理装置(22)
では、一連のタイムフレームについて、一連の雑音含有
音声のベクトル から一連のきれいな音声のベクトル′〜′の推
定値を、下記(i)及び(ii)に基づいて算出する操作
が行われる。
(i) 異なる周波数のチャンネルは各クラス内では相
関しないと仮定して、きれいな音声の確率分布はマルコ
フモデルによってモデル化でき、ここにマルコフモデル
の各状態(state)はそれぞれ別々の音声クラスを表す
という仮定。
(ii) 異なる周波数チャンネルの雑音は相関しないと
いう仮定に基いた、きれいな音声のベクトルの周囲(す
なわち許容範囲内)の雑音含有音声のベクトルの条件付
確率関数。
この場合の推定量は、一連のベクトルSO〜ST′の平
均最小二乗誤差(MMSE)推定法によって算出される推定
量である。ここに、平均二乗誤差はユークリッド型ベク
トルについてのものである。一連の雑音含有音声のベク
トルS′〜S′T′が与えられれば、Kフィルターロ
グエネルギーのベクトルSの最小ユークリッド距離の推
定量から次式によってベクトル推定量が算出できる。
=∫StP(St|S′O,…,S′…S′)dSt(24) このベクトル推定量は下記の仮定下に算出される。す
なわち、音声は一次マルコフ過程によってモデル化で
き、任意の時間tにおける音声はN種の状態のうちのい
ずれか1つの状態の中にあると仮定する。状態がnであ
るときの確率分布(PD)(出力確率分布と称する)は次
式で示される。
状態出力確率分布と状態間遷移確率は、音響学的空間
の区分で複数の状態を識別することによって算出でき
る。これらの区分は、前記のベクトル量子化混合モデル
または広帯域ベクトル量子化混合モデルに使用された区
分と同じである。遷移確率は、或状態から別の状態への
遷移の数を数えることによって、音声データから推定で
きる。
加法性雑音(additive noise)の場合には、該雑音を
含む音声は隠れマルコフモデル(HMM)を利用してモデ
ル化できる。この場合の状態はきれいな音声の状態に対
応するものであり、出力確率分布は次式で示される。
ここに、P(S′k|n)は次式で示される。
P(S′k|n)=∫P(S′k|Sk)Pn(Sk)dSk(27) 上式中のPn(Sk)は、状態nのときのきれいな音声の
ベクトルSのk番目の成分の出力確率分布である。Sk
与えれば、S′の確率は既述の式(7)〜(9)を用
いて算出できる。
前記の仮定をすべて用いることによって、第4図の装
置による推定量は次式で示される。
一連の雑音を含む音声のベクトルを式(28)中に与え
れば、状態nの確率が、上記定義された雑音を含む音声
のHMMに使用されたフォワード−バックワードアルゴリ
ズムによって算出できる(フォワード−バックワードア
ルゴリズムは周知であり、その説明はたとえば前記のRa
binerの論文(1989年)に記載されている)。
本明細書には本発明の若干の態様について詳細に記載
されている。他の種々の態様は、本明細書の記載から当
業者には明らかであろう。したがって本発明の範囲は、
請求の範囲に記載の事項を除いて、制限されるべきでな
い。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウエイントローブ,ミツシエル アメリカ合衆国カリフオルニア州 94536、フレモント、コロナド・ドライ ヴ 36360 (56)参考文献 欧州特許出願公開240330(EP,A 2) 欧州特許470245(EP,B1) 米国特許5148489(US,A) Proceedings of 1990 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.2,S15b.12,A.Ar ell et al,”Estimat ion Using Log−Spec tral−Distance Crit erion for Noise−Ro bust Speech Recogn ition”,p.853−856,Apri l 3−6,1990 Proceedings of 1990 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,S2.21,H.Gis h et al,”Probabili stic Vector Mappin g of Noisy Speech Parameters for HMM Word Spotting”,p. 117−120,April 3−6,1990 IEEE Transactions on Speech and Aud io Processing,Vol. 1,No.1,January 1993, A.Erell et al,”Fil tebank−Energy Esti mation Using Mixtu re Markov Models f or Recognition of Noisy Speech”,p.68− 76 IEEE Transactions on Speech and Aud io Processing,Vol. 1,No.1,January 1993, A.Erell et al,”Ene rgy Conditioned Sp ectral Estimation for Recognition of Noisy Speech”,p.84 −89 IEEE Transactions on Speech and Aud io Processing,Vol. 2,No.1,Part.1,Janu ary 1994,A.Erell et al,”Estimation of Noise−Corrupted Sp eech DFT−Spectrum Using the Pitch Pe riod”,p.1−8 Proceedings of 1991 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.2,S14.8,A.Ere ll et al,”Pitch−Ai ded Spectral Estim ation for Noise−Ro bust Speech Recogn ition”,p.909−912,May 14−17,1991 Proceedings of IE EE the 17th Convent ion of Electrical & Electronics Engi neers in Israel,A. Erell,”Noise Robus tness for HMM−base d Speech Recogniti on Systems”,1991 Proceedings of 1988 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,Y.Ephraim et al,”On the appl ication of hidden Markov models ofr enhancing noisy sp eech”,p.533−536,11−14 A pril 1988 IEEE Transactions on Acoustics,Spee ch and Signal Proc essing,Vol.ASSP−33, No.2,April 1985,Y.Ep hraim et al,”Speec h enhancement usin g a minimum mean−s quare error log−sp ectral amplitude e stimator”,p.443−445 IEEE Transactions on Acoustics,Spee ch and Signal Proc essing,Vol.ASSP−32, No.6,December 1984, Y.Ephraim et al,”S peech enhancement using a minimum me an−square error sh ort−time spectral amplitude estimato r”,p.1109−1121 IEEE Transactions on Acoustics,Spee ch and Signal Proc essing,Vol.ASSP−37, No.10,October 1989,A. Nades et al,”Speec h recognition usin g noise−adaptive p rototypes”,p.1495−1502 IEEE Transactions on Information Th eory,Vol.IT−34,No. 4,July 1988,Y.Ephrai m et al,”A unified approach for enco ding clean and noi sy sources by mean s of waveform and autoregressive mod el vector quantiza tion”,p.826−834 Computer Speech a nd Language,Vol.3, April 1989,D.van Com pernolle,”Noise ad aptation in a hidd en Markov model sp eech recognition s ystem”,p.151−167 (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G10L 21/02 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)

Claims (15)

    (57)【特許請求の範囲】
  1. 【請求項1】デジタル化された音声を表す信号に応答し
    て作動する音声認識システムにおいて雑音の存在下に音
    声を前処理する方法において、 デジタル化された音声および雑音の時不変のセグメント
    の各々をカテゴライズして雑音を含む音声のベクトルを
    得、ここで、前記の雑音を含む音声のベクトルの各要素
    は、雑音の存在下の音声情報の1つの周波数チャンネル
    を表し、前記の雑音は加法性であり、時不変でありかつ
    周波数領域に相関しないものであると仮定し、 前記各要素に対する音声の値を前記の雑音を含む音声の
    ベクトルから推定し、この推定は下記(i)及び(ii)
    に基づいて行い、すなわち、 (i)異なる周波数チャンネルは各クラス内では相関し
    ないと仮定して、きれいな音声の確率分布は成分の混合
    体によって混合モデルの形にモデル化できると仮定し、
    ここに各成分はそれぞれ異なる音声クラスを表すこと、
    及び (ii)異なる周波数チャンネルの雑音は相関しないとい
    う仮定に基いた、きれいな音声のベクトルの許容範囲内
    の雑音含有音声のベクトルの条件付確率関数、に基づい
    て前記推定操作を行うことによって、きれいな音声のベ
    クトルの推定値を得ることを特徴とする、上記雑音の存
    在下に音声を前処理する方法。
  2. 【請求項2】前記の推定工程が次の操作を包含し、すな
    わち、次式の関数で示される多周波数チャンネル確率に
    基いてフィルターログスペクトルエネルギーを推定し、 ここに指数nはクラスを表し、nの周辺のSkの推定値
    は、次式で示されるn番目のクラスに関する条件付MMSE
    推定量であり、 ここに、 P(S′k|n)=∫P(S′k|Sk)Pn(Sk)dSk である請求の範囲第1項に記載の方法。
  3. 【請求項3】前記の推定工程が次の操作を包含し、すな
    わち、前記の雑音含有音声のベクトルについて平均最小
    ログスペクトル距離推定操作を行ってユークリッド距離
    を推定することを包含する請求の範囲第2項に記載の方
    法。
  4. 【請求項4】前記のきれいな音声のベクトルの許容範囲
    内の雑音含有音声のベクトルの条件付確率P(S′k|
    Sk)のモデル化操作を下記の条件下に行い、すなわち、 (i)推定すべき前記音声に伴う雑音は自己回帰移動平
    均の定常確率過程であると仮定し、各タイムフレームに
    おいて、前記雑音に関係する離散フーリエ変換(DFT)
    の係数は非相関性複素ガウス確率変数であり、 (ii)フィルターの出力エネルギーは、その近似値がM
    個の係数の和によって示されると仮定し、 (iii)雑音のスペクトル強度は、フィルターの通過帯
    域の範囲内では一様であると仮定し、 雑音が単独で存在する場合には前記の加算和は、2M個の
    確率変数全体にわたってのびており、該確率変数は次式
    で示される分散を有し平均が零のガウス型変数であり、 σ=(Nk)/(2M) ここに、Nkは雑音フィルターのエネルギーの期待値であ
    り、分散正規化フィルターエネルギーは、自由度2Mのχ
    −確率分布(PD)に従い、 音声および雑音が存在する場合には、フィルターエネル
    ギーは次式で示され、 ここにDFTsは音声の係数であり、DFTnは雑音の係数であ
    り、前記の分散正規化フィルターエネルギーは、非心母
    数λを有する自由度2Mの非心χ−確率分布に従い、 フィルターエネルギーの条件付確率は次式で示され、 ここに、 であり、次式 で定義された正規化ログエネルギー変数を用いた場合に
    は、S′に関する条件付確率は次式 で与えられる請求の範囲第1項に記載の方法。
  5. 【請求項5】前記の混合モデルをベクトル量子化混合モ
    デルの形に作成し、クラスを音響学的空間の固定的境界
    区分によって識別し、該区分をベクトル量子化によって
    形成する請求の範囲第1項に記載の方法。
  6. 【請求項6】確率Pn(Sk)はガウス分布のものであり、
    そして、混合モデルが与えられれば音声データの確度が
    最高値になるようにガウス分布の平均および標準偏差が
    調整されるという仮定のもとで、該混合モデルをガウス
    混合モデルの混合体の形に作成する請求の範囲第1項に
    記載の方法。
  7. 【請求項7】前記混合モデルのベクトルS′をベクトル
    R′で置き代え、ここにベクトルR′は広い周波数帯域
    内のログスペクトルエネルギーの比較的低次元のベクト
    ルであり、S′について条件付けられたクラスnの確率
    を、R′について条件付けられた新たなクラスnの確率
    に置き代え、前記の新たなクラスnの成分は、ベクトル
    Rに関する混合モデルにおけるクラスである請求の範囲
    第2項記載の方法。
  8. 【請求項8】ベクトルRに関する混合モデルをベクトル
    量子化混合モデルの形に作成し、クラスを音響学的空間
    の固定的境界区分によって識別し、該区分をベクトル量
    子化によって形成し、きれいな音声の推定量を表わす次
    の中のを、新たなクラスnについて条件付けること
    を包含する請求の範囲第7項記載の方法。
  9. 【請求項9】ベクトルRに関する混合モデルをガウス型
    混合モデルの混合体の形に作成し、このために次の仮定
    を設け、すなわち、確率Pn(Rj)はガウス分布のもので
    あり、このガウス分布の平均および標準偏差は、該混合
    モデルが与えられれば音声データの確度が最高値になる
    ように調整されると仮定し、きれいな音声の推定量を表
    わす次式: の中のSkを新たなクラスnについて条件付けることを包
    含する請求の範囲第7項記載の方法。
  10. 【請求項10】デジタル化された音声を表す信号に応答
    して作動する音声認識システムにおいて雑音の存在下に
    音声を前処理する方法において、 デジタル化された音声および雑音の時不変のセグメント
    の各々をカテゴライズして雑音を含む音声のベクトルを
    得、ここで、前記の雑音を含む音声のベクトルの各要素
    は、雑音の存在下の音声情報の1つの周波数チャンネル
    を表し、前記の雑音は周波数に依存せずかつ時不変であ
    ると仮定し、 前記各要素に対する音声の値を前記の雑音を含む音声の
    一連のベクトルS′〜S′から推定し、この推定は
    下記(i)及び(ii)に基づいて行い、すなわち、 (i)異なる周波数チャンネルは各クラス内では相関し
    ないと仮定して、きれいな音声の確率分布はマルコフモ
    デルによってモデル化できると仮定し、前記マルコフモ
    デルの各状態はそれぞれ異なる音声クラスを表すこと、
    及び (ii)異なる周波数チャンネルの雑音は相関しないとい
    う仮定に基いた、きれいな音声のベクトルの許容範囲内
    の雑音含有音声のベクトルの条件付確率関数、に基づい
    て前記推定操作を行うことによって、きれいな音声のベ
    クトルの推定値を得ることを特徴とする、上記雑音の存
    在下に音声を前処理する方法。
  11. 【請求項11】前記の推定工程が次の操作を包含し、す
    なわち、次式によって多周波数チャンネル確率に基いて
    フィルターログスペクトルエネルギーを推定し、 ここに、指数nは状態を表し、nの周辺のSkの推定値
    は、次式で示されるn番目のMMSEの推定量であり、 ここに、 P(S′k|n)=∫P(S′k|Sk)Pn(Sk)dSk であり、前記音声のために隠れマルコフモデルを仮定
    し、隠れマルコフ状態における出力確率は次式で示さ
    れ、 フォワード−バックワードアルゴリズムを使用してP
    (n|S′O,…,S′…S′)を算出する請求の範囲第1
    0項記載の方法。
  12. 【請求項12】前記のきれいな音声のベクトルの許容範
    囲内の雑音含有音声のベクトルの条件付確率P(S′k|
    Sk)のモデル化のために次の条件下に操作を行い、すな
    わち、 (i)推定すべき前記音声に伴う雑音を自己回帰移動平
    均の定常確率過程であると仮定し、各タイムフレームに
    おいて、前記雑音に関する離散フーリエ変換(DFT)の
    係数は非相関性複素ガウス確率変数であり、 (ii)フィルターの出力エネルギーはM個の係数の和に
    よってその近似値が得られると仮定し、 (iii)雑音のスペクトル強度は、加算の和の範囲内で
    は一様であると仮定し、雑音の不存在下では前記の加算
    の和は2M個の確率変数の全数にわたっており、該確率変
    数は次式で示される分散を有し平均が零のガウス型変数
    であり、 σ=(Nk)/(2M) ここに、Nkは雑音フィルターのエネルギーの期待値であ
    り、分散正規化フィルターエネルギーは自由度2Mのχ
    −確率分布(PD)に従い、 音声および雑音の存在下のフィルターエネルギーは次式
    で示され、 ここに、DFTsは音声の係数であり、DFTnは雑音の係数で
    あり、前記の分散正規化フィルターエネルギーは、非心
    母数λを有する自由度2Mのχ−非心確率分布に従い、 フィルターエネルギーの条件付確率は次式で示され、 ここに、 であり、したがって、次式 で定義される正規化ログエネルギー変数を用いることに
    よって、S′に関する条件付確率が、次式 で与えられることを包含する請求の範囲第10項記載の方
    法。
  13. 【請求項13】前記のマルコフモデルをベクトル量子化
    マルコフモデルの形に作成し、状態を音響学的空間の固
    定的境界区分で識別し、該区分をベクトル量子化によっ
    て形成する請求の範囲第10項記載の方法。
  14. 【請求項14】前記の混合モデルのベクトルS′をベク
    トルR′に置き代え、ここにベクトルR′は広い周波数
    帯域内のログスペクトルエネルギーの比較的低い次元の
    ベクトルであり、一連のS′(t)(ここにtは0から
    Tまでを示す)について条件付けられる状態nの確率
    を、一連のR′(t)(ここにtは0からTまでを示
    す)について条件付けられる新たな状態nの確率で置き
    代え、ここに新たな状態nの成分は、ベクトルRに関す
    るマルコフモデル中の状態に関連する成分である請求の
    範囲第11項に記載の方法。
  15. 【請求項15】ベクトルRの混合モデルをベクトル量子
    化マルコフモデルの形に作成し、状態を音響学的空間の
    固定的境界区分で識別し、該区分をベクトル量子化によ
    り形成し、を新たな状態nについて条件付ける請求
    の範囲第14項記載の方法。
JP50607891A 1990-02-28 1991-02-25 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法 Expired - Fee Related JP3154487B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US48646290A 1990-02-28 1990-02-28
US486,462 1990-02-28

Publications (2)

Publication Number Publication Date
JPH04505670A JPH04505670A (ja) 1992-10-01
JP3154487B2 true JP3154487B2 (ja) 2001-04-09

Family

ID=23931980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50607891A Expired - Fee Related JP3154487B2 (ja) 1990-02-28 1991-02-25 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法

Country Status (7)

Country Link
EP (1) EP0470245B1 (ja)
JP (1) JP3154487B2 (ja)
KR (1) KR100192854B1 (ja)
AU (1) AU649029B2 (ja)
CA (1) CA2051386A1 (ja)
DE (1) DE69121145T2 (ja)
WO (1) WO1991013430A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8045035B2 (en) 2005-06-21 2011-10-25 Ricoh Company, Ltd. Imaging apparatus, imaging control method and recording medium readable by computer
KR101501279B1 (ko) * 2013-12-31 2015-03-11 서울대학교산학협력단 인접 범위 내의 시간 또는 주파수 상관관계 기반의 음향학적 스테레오 에코 제거 방법 및 시스템

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2681715B1 (fr) * 1991-09-25 1994-02-11 Matra Communication Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .
US5651071A (en) * 1993-09-17 1997-07-22 Audiologic, Inc. Noise reduction system for binaural hearing aid
US5511128A (en) * 1994-01-21 1996-04-23 Lindemann; Eric Dynamic intensity beamforming system for noise reduction in a binaural hearing aid
KR100442825B1 (ko) * 1997-07-11 2005-02-03 삼성전자주식회사 음성 인식을 위한 환경 보상 방법
KR100434532B1 (ko) * 1998-02-24 2004-07-16 삼성전자주식회사 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법
KR100413797B1 (ko) * 2001-08-23 2003-12-31 삼성전자주식회사 음성 신호 보상 방법 및 그 장치
WO2003068290A2 (en) 2002-02-11 2003-08-21 Antares Pharma, Inc. Intradermal injector
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
BRPI0614025A2 (pt) 2005-01-24 2012-12-25 Antares Pharma Inc injetores de jato
WO2007066933A1 (en) * 2005-12-08 2007-06-14 Electronics And Telecommunications Research Institute Voice recognition apparatus and method using vocal band signal
KR100717401B1 (ko) 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US9144648B2 (en) 2006-05-03 2015-09-29 Antares Pharma, Inc. Injector with adjustable dosing
US8251947B2 (en) 2006-05-03 2012-08-28 Antares Pharma, Inc. Two-stage reconstituting injector
KR100808775B1 (ko) 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법
WO2009114542A1 (en) 2008-03-10 2009-09-17 Antares Pharma, Inc. Injector safety device
ES2738539T3 (es) 2008-08-05 2020-01-23 Antares Pharma Inc Inyector de dosis múltiples
AU2010226442A1 (en) 2009-03-20 2011-10-13 Antares Pharma, Inc. Hazardous agent injection system
US9220660B2 (en) 2011-07-15 2015-12-29 Antares Pharma, Inc. Liquid-transfer adapter beveled spike
US8496619B2 (en) 2011-07-15 2013-07-30 Antares Pharma, Inc. Injection device with cammed ram assembly
KR20150003179A (ko) 2012-03-06 2015-01-08 안타레스 팔마, 인코퍼레이티드 분리력 특징을 가진 사전충전형 주사기
EP4186545A1 (en) 2012-04-06 2023-05-31 Antares Pharma, Inc. Needle assisted jet injection administration of testosterone compositions
WO2013169800A1 (en) 2012-05-07 2013-11-14 Antares Pharma, Inc. Injection device with cammed ram assembly
ES2763633T3 (es) 2013-02-11 2020-05-29 Antares Pharma Inc Dispositivo de inyección por chorro asistido por aguja que tiene fuerza de disparo reducida
JP6030803B2 (ja) 2013-03-11 2016-11-24 アンタレス・ファーマ・インコーポレーテッド ピニオンシステムを有する用量注射器
WO2014165136A1 (en) 2013-03-12 2014-10-09 Antares Pharma, Inc. Constant volume prefilled syringes and kits thereof
CN111627426B (zh) * 2020-04-30 2023-11-17 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及***、电子设备及介质
CN118016079B (zh) * 2024-04-07 2024-06-07 广州市艾索技术有限公司 一种智能语音转写方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
Computer Speech and Language,Vol.3,April 1989,D.van Compernolle,"Noise adaptation in a hidden Markov model speech recognition system",p.151−167
IEEE Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP−32,No.6,December 1984,Y.Ephraim et al,"Speech enhancement using a minimum mean−square error short−time spectral amplitude estimator",p.1109−1121
IEEE Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP−33,No.2,April 1985,Y.Ephraim et al,"Speech enhancement using a minimum mean−square error log−spectral amplitude estimator",p.443−445
IEEE Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP−37,No.10,October 1989,A.Nades et al,"Speech recognition using noise−adaptive prototypes",p.1495−1502
IEEE Transactions on Information Theory,Vol.IT−34,No.4,July 1988,Y.Ephraim et al,"A unified approach for encoding clean and noisy sources by means of waveform and autoregressive model vector quantization",p.826−834
IEEE Transactions on Speech and Audio Processing,Vol.1,No.1,January 1993,A.Erell et al,"Energy Conditioned Spectral Estimation for Recognition of Noisy Speech",p.84−89
IEEE Transactions on Speech and Audio Processing,Vol.1,No.1,January 1993,A.Erell et al,"Filtebank−Energy Estimation Using Mixture Markov Models for Recognition of Noisy Speech",p.68−76
IEEE Transactions on Speech and Audio Processing,Vol.2,No.1,Part.1,January 1994,A.Erell et al,"Estimation of Noise−Corrupted Speech DFT−Spectrum Using the Pitch Period",p.1−8
Proceedings of 1988 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,Y.Ephraim et al,"On the application of hidden Markov models ofr enhancing noisy speech",p.533−536,11−14 April 1988
Proceedings of 1990 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,S2.21,H.Gish et al,"Probabilistic Vector Mapping of Noisy Speech Parameters for HMM Word Spotting",p.117−120,April 3−6,1990
Proceedings of 1990 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.2,S15b.12,A.Arell et al,"Estimation Using Log−Spectral−Distance Criterion for Noise−Robust Speech Recognition",p.853−856,April 3−6,1990
Proceedings of 1991 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.2,S14.8,A.Erell et al,"Pitch−Aided Spectral Estimation for Noise−Robust Speech Recognition",p.909−912,May 14−17,1991
Proceedings of IEEE the 17th Convention of Electrical & Electronics Engineers in Israel,A.Erell,"Noise Robustness for HMM−based Speech Recognition Systems",1991

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8045035B2 (en) 2005-06-21 2011-10-25 Ricoh Company, Ltd. Imaging apparatus, imaging control method and recording medium readable by computer
KR101501279B1 (ko) * 2013-12-31 2015-03-11 서울대학교산학협력단 인접 범위 내의 시간 또는 주파수 상관관계 기반의 음향학적 스테레오 에코 제거 방법 및 시스템

Also Published As

Publication number Publication date
JPH04505670A (ja) 1992-10-01
EP0470245B1 (en) 1996-07-31
EP0470245A1 (en) 1992-02-12
AU7487591A (en) 1991-09-18
DE69121145D1 (de) 1996-09-05
KR100192854B1 (ko) 1999-06-15
CA2051386A1 (en) 1991-08-29
WO1991013430A1 (en) 1991-09-05
KR920701942A (ko) 1992-08-12
DE69121145T2 (de) 1996-12-12
AU649029B2 (en) 1994-05-12

Similar Documents

Publication Publication Date Title
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
US5148489A (en) Method for spectral estimation to improve noise robustness for speech recognition
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
Vaseghi et al. Noise compensation methods for hidden Markov model speech recognition in adverse environments
Gales et al. Robust continuous speech recognition using parallel model combination
EP0886263B1 (en) Environmentally compensated speech processing
US5459815A (en) Speech recognition method using time-frequency masking mechanism
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
Merhav et al. A minimax classification approach with application to robust speech recognition
Stern et al. Compensation for environmental degradation in automatic speech recognition
Kim et al. Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
Cui et al. A study of variable-parameter Gaussian mixture hidden Markov modeling for noisy speech recognition
Erell et al. Filterbank-energy estimation using mixture and Markov models for recognition of noisy speech
Algazi et al. Transform representation of the spectra of acoustic speech segments with applications. I. General approach and application to speech recognition
Ephraim et al. A linear predictive front-end processor for speech recognition in noisy environments
Erell et al. Energy conditioned spectral estimation for recognition of noisy speech
JP3098593B2 (ja) 音声認識装置
Stouten et al. Joint removal of additive and convolutional noise with model-based feature enhancement
Jung et al. On the temporal decorrelation of feature parameters for noise-robust speech recognition
Mammone et al. Robust speech processing as an inverse problem
Techini et al. Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK)
Upadhyay et al. Bark scaled oversampled WPT based speech recognition enhancement in noisy environments
Zhao et al. Recursive estimation of time-varying environments for robust speech recognition
Erell et al. Recognition of noisy speech: Using minimum-mean log-spectral distance estimation

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090202

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100202

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees