JP3298658B2 - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JP3298658B2
JP3298658B2 JP09788092A JP9788092A JP3298658B2 JP 3298658 B2 JP3298658 B2 JP 3298658B2 JP 09788092 A JP09788092 A JP 09788092A JP 9788092 A JP9788092 A JP 9788092A JP 3298658 B2 JP3298658 B2 JP 3298658B2
Authority
JP
Japan
Prior art keywords
unit
noise
data compression
nonlinear function
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09788092A
Other languages
English (en)
Other versions
JPH05297889A (ja
Inventor
良介 濱崎
英樹 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP09788092A priority Critical patent/JP3298658B2/ja
Publication of JPH05297889A publication Critical patent/JPH05297889A/ja
Application granted granted Critical
Publication of JP3298658B2 publication Critical patent/JP3298658B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識方式に関し、特
に、本発明は、予め登録しておいた辞書の各テンプレー
トと入力パターンとのマッチングを行うことにより類似
度または距離を計算して音声の認識を行う音声認識方式
において、辞書側の各テンプレートに認識時の雑音パタ
ーンを足し合わせることにより、高レベルの雑音下にお
ける認識率の向上を図る耐雑音音声認識方式に関するも
のである。
【0002】
【従来の技術】従来から提案されている耐雑音音声認識
手法として、雑音が重畳されている認識時の音声信号
から、音声区間の前後の雑音区間の雑音成分を取り出
し、パワー・スペクトル次元において、雑音が重畳され
ている音声信号から上記雑音成分を差し引くスペクトル
・サブトラクション法や、上記のようにして取り出さ
れた認識時の雑音パワー・スペクトルを、予め登録して
おいた辞書側の各テンプレートに足し加えるテンプレー
ト・アディション法等があり、従来からその有効性が確
認されている。
【0003】図9は上記したの手法により雑音処理を
行う音声認識方式を示す図であり、同図において、20
1は音声入力部、202は第1の周波数分析部、20
2’は第2の周波数分析部、204は第1のデータ圧縮
部、204’は第2のデータ圧縮部、205は辞書、2
06は雑音付加部、207は照合部、208は非線形処
理部である。
【0004】同図において、音声登録時には、音声入力
部201より音声信号が入力されると、第1の周波数分
析部202において、各周波数または各周波数帯域(以
下チャンネルという)に音声が分析され、各チャンネル
毎に音声のパワー・スペクトルの大きさが出力される。
第1の周波数分析部202の出力は、第1のデータ圧縮
部において、対数を計算することにより対数変換され、
辞書205にテンプレートとして格納される。
【0005】また、音声の認識時には、音声入力部20
1より音声信号が入力されると、上記と同様、第1の周
波数分析部202において、各チャンネルについて音声
が分析され、各チャンネル毎に音声のパワー・スペクト
ルの大きさが出力される。第1の周波数分析部202の
出力は、第1のデータ圧縮部204において、対数を計
算することにより対数変換され照合部207に与えられ
る。
【0006】一方、雑音区間に関しては、音声入力部2
01より雑音が入力されると第2の周波数分析部20
2’において、各チャンネルについて雑音が分析され、
雑音付加部206に与えられる。また、辞書205に格
納されている各テンプレートは、前記したように、登録
時に対数をとって保存してあるので、非線形処理部20
8において、対数の逆関数である指数関数を用いて音声
パワーの次元に戻して、雑音付加部206に与えられ
る。
【0007】雑音付加部206においては、非線形処理
部208の出力と第2の周波数分析部202’の出力を
足し合わせることにより、辞書に格納されているテンプ
レートに雑音成分を加える。雑音付加部206の出力は
第2のデータ圧縮部204’において対数がとられ、照
合部207に与えられる。照合部207においては、第
1のデータ圧縮部204の出力である入力音声パターン
と第2のデータ圧縮部204’の出力である雑音処理さ
れた辞書側のテンプレートとのマッチングが取られ、認
識結果が出力される。
【0008】
【発明が解決しようとする課題】上記したの手法にお
いては、入力音声に対して、雑音処理を一度だけ施せば
すむので、処理が簡単であるので良く用いられるが、そ
の反面、雑音成分だけでなく、音声成分まで引いてしま
う欠点がある。また、上記したの手法においては、雑
音成分を引く代わりに辞書側に雑音成分を足しているの
で、本質的でないスペクトル・パターンの変形がない反
面、その雑音処理を辞書のテンプレートの数だけ行う必
要があり、その有効性が示されているにも係わらず、実
用的でなかった。
【0009】すなわち、図9に示した例においては、辞
書側の各テンプレートを音声パワーの次元に戻すために
非線形処理部208における非線形処理を1回行い、照
合のためにデータ圧縮部204において、非線形処理を
1回行う必要があり、合わせて、各テンプレートについ
て2回の非線形処理を行う必要がある。従って、辞書が
N個のテンプレートを持っているとすると、2N回の非
線形処理とN回の足し算が必要であり、処理量が多く、
実時間処理が困難であるという問題点があった。
【0010】また、従来の音声認識装置においては、次
の理由により、周波数分析された各チャンネルの出力を
対数変換していた。 1)感覚の強度が音圧の強度にほぼ比例するというウェ
ーバ・フェヒナの法則に対応していることを考慮してい
る。 2)マッチングの時パワー・レベルの低い部分と高い部
分を同じ重みで計算できる。 3)ダイナミック・レンジを低下させずにデータ圧縮を
することができる。 4)パワーの正規化などの、本来乗除算でしなければな
らないスペクトル変換処理を加減算だけで行うことがで
き、演算速度を上げることができる。
【0011】しかし、上記1)ないし3)に関しては、
対数と同じ様な特性をした関数であればよいし、また、
4)に関しても、パワーの正規化など乗除算を行う必要
がなければ対数である必要はなく、逆にここであげたよ
うな2つのパワー・スペクトルの和・差の変換値を必要
とする場合には、対数は利点があるとは言えない。本発
明は上記した従来技術の欠点に鑑み発明されたものであ
って、取り出された認識時の雑音パワー・スペクトル
を、予め登録しておいた辞書側の各テンプレートに足し
加えることにより、雑音が重畳された音声を認識するよ
うにした音声認識方式において、対数変換に換え、非線
型関数f(x)=b・exp(ax)+cを用いて変換
することにより、計算量を大幅に削減することができ、
また、高レベル雑音下においても音声を良好に認識する
ことができる音声認識方式を提供することを目的とす
る。
【0012】
【課題を解決するための手段】図1は本発明の原理図で
ある。本発明は上記課題を解決するため図1のように構
成したものであり、本発明の請求項1の発明は、発生さ
れた音声音響信号を電気信号に変換する音声入力部1
と、音声入力信号を周波数分析し、各分析フレーム毎に
複数チャンネルの分析データからなる入力音声パターン
を出力する第1および第2の周波数分析部2,2’と、
第1および第2周波数分析部2,2’において分析され
た周波数パターンを、非線型変換によってダイナミック
・レンジを保ちながらデータ圧縮する第1および第2の
データ圧縮部4,4’と、学習データから作成されるテ
ンプレートをデータ圧縮後、格納する辞書5と、音声認
識時に、第2のデータ圧縮部4’の出力より得られる雑
音成分をパワー・スペクトルの次元でテンプレートに付
加する雑音付加部6と、第1のデータ圧縮部4において
圧縮された入力音声パターンと雑音付加部6の出力との
照合を行い、両者の間の類似度あるいは距離を演算する
照合部7とを備えた音声認識方式において、第1および
第2のデータ圧縮部4,4’における非線型関数として
下式を用いるとともに、 f(x)=b・exp(ax)+c (a,b,cは
定数) 上記非線型関数の定数a,b,cを決定する定数決定部
3を設け、上記非線形関数を用いて、第1および第2の
周波数分析部2,2’が出力する周波数パターンを第1
および第2のデータ圧縮部4,4’によりデータ圧縮す
るように構成したものである。
【0013】請求項2の発明は請求項1の発明におい
て、雑音付加部6において、辞書5から読み出されたテ
ンプレートに、下式により雑音を付加するように構成し
たものである。 x3=(x1−c)・(x2−c)/b+c ここで、 x1:辞書5から読み出されたテンプレート
の値 x2:データ圧縮部4’より得られる雑音成分 x3:雑音付加部6の出力 請求項3の発明は請求項1または請求項2の発明におい
て、非線型関数f(x)が取り扱うxの範囲内におい
て、非線型関数f(x)と対数関数log(x)との最
大誤差が最小になる定数a,b,cを定めるように構成
したものである。
【0014】請求項4の発明は請求項1または請求項2
の発明において、非線型関数f(x)が取り扱うxの範
囲内において、非線型関数f(x)と対数関数log
(x)との差の絶対値の積分値が最小になる定数a,
b,cを定めるように構成したものである。請求項5の
発明は請求項1または請求項2の発明において、非線型
関数f(x)が取り扱うxの範囲内において、非線型関
数f(x)と対数関数log(x)との2乗誤差の積分
値が最小になる定数a,b,cを定めるように構成した
ものである。
【0015】請求項6の発明は請求項1または請求項2
の発明において、非線型関数f(x)が取り扱うxの範
囲内において、非線型関数f(x)と対数関数log
(x)とをテイラー展開し、その3項までの各項の係数
どうしが等しいとしたときの定数a,b,cについての
連立方程式によって定数a,b,cを決定するように構
成したものである。
【0016】請求項7の発明は請求項1または請求項2
の発明において、認識結果計数部を設けて照合部7にお
ける認識結果を計数し、その認識率に基づき非線形関数
の定数a,b,cを変化させ、最適な定数を決定するよ
うに構成したものである。請求項8の発明は請求項1,
2,3,4,5,6または請求項7の発明において、非
線形関数の定数cをゼロに設定したものである。
【0017】請求項9の発明は請求項8の発明におい
て、辞書5から読み出されたテンプレートに、第2のデ
ータ圧縮部4’より得られる雑音成分を乗算することに
より、雑音付加部6の出力を得るように構成したもので
ある。請求項10の発明は請求項9の発明において、辞
書5にテンプレートを格納する際、非線型関数の定数b
によりテンプレート値を割っておくように構成したもの
である。
【0018】請求項11の発明は請求項9の発明におい
て、第1のデータ圧縮部4において圧縮された入力音声
パターンに非線型関数の定数bを乗算し、その結果を照
合部7に与えるように構成したものである。請求項12
の発明は請求項9の発明において、第2のデータ圧縮部
4’において圧縮された雑音パターンを非線型関数の定
数bにより除算し、その結果を雑音付加部6に与えるよ
うに構成したものである。
【0019】
【作用】請求項1ないし請求項2の発明において、音声
の認識時、入力された音声は周波数分析部2により、周
波数分析され、データ圧縮部4において、非線型関数f
(x)=b・exp(ax)+cによりデータ圧縮が行
われて、照合部7に与えられる。
【0020】一方、雑音信号は周波数分析部2’により
周波数分析され、データ圧縮部4’において非線型関数
f(x)によりデータ圧縮されて、雑音付加部6に与え
られる。雑音付加部6は、辞書5より読み出されたテン
プレートに圧縮された雑音成分を付加し照合部7に与え
る。
【0021】照合部7は、雑音付加部6の出力と、デー
タ圧縮部4の出力との間の類似度あるいは距離を演算
し、認識結果を出力する。変換関数として非線型関数f
(x)=b・exp(ax)+cを用いているので、四
則演算の計算だけでパワー・スペクトル次元の雑音成分
の付加ができ、計算量を大幅に削減することができる。
【0022】また、請求項3ないし請求項6の手法によ
り非線型関数の定数a,b,cを定めることにより、非
線型関数f(x)が取り扱うxの範囲内において、非線
型関数f(x)=b・exp(ax)+cを対数関数に
近似させることができ、対数関数を用いた場合と同様な
特性を得ることができる。さらに、請求項7の発明のよ
うに、認識結果計数部を設けて照合部7における認識結
果を計数し、その認識率に基づき非線形関数の定数a,
b,cを変化させることにより、照合部7における認識
率が最良になるデータ圧縮を行うことができる。
【0023】またさらに、請求項8ないし請求項12の
発明のように、非線形関数の定数cをゼロに設定するこ
とにより、データ圧縮部4,4’における定数cの加
算、および、雑音付加部6において定数cの減算が必要
なくなり、更に計算量が削減され、請求項9の発明のよ
うに、辞書5から読み出されたテンプレートに、第2の
データ圧縮部4’より得られる雑音成分を乗算すること
により、雑音付加部6の出力を得ることが可能となる。
【0024】なお、定数cをゼロに設定しても、2つの
パターンの距離を照合部7において算出する際、2つの
パターンの差を計算する市街地距離では算出された距離
の値には影響しない。また、2つのパターンの2乗差を
計算するユークリット距離でも定数cによる絶対値の大
きさの違いは本質的でない。また、請求項10の発明の
ように、辞書5にテンプレートを格納する際、非線型関
数の定数bによりテンプレート値を割っておくように構
成することにより、音声登録時、データ圧縮部4の出力
を定数bにより除算する必要があるが、音声認識時、雑
音付加部6においては乗算のみ行えばよく、除算が不必
要なため、音声認識時の計算量をより削減することがで
きる。
【0025】さらに、請求項11の発明のように、第1
のデータ圧縮部4において圧縮された入力音声パターン
に非線型関数の定数bを乗算し、その結果を照合部7に
与えるように構成することにより、音声認識時、データ
圧縮部4の出力に定数bを乗算する必要があるが、雑音
付加部6においては乗算のみ行えばよく、除算が不必要
なため、1回の認識につき、テンプレートの数に対応し
た回数の除算が節約でき、音声認識時の計算量をより削
減することができる。
【0026】またさらに、請求項12の発明のように、
第2のデータ圧縮部4’において圧縮された雑音パター
ンを非線型関数の定数bにより除算し、その結果を雑音
付加部6に与えるように構成することにより、音声認識
時、データ圧縮部4の出力を定数bで除算する必要があ
るが、雑音付加部6においては乗算のみ行えばよく、除
算が不必要なため、1回の認識につき、テンプレートの
数に対応した回数の除算が節約でき、音声認識時の計算
量をより削減することができる。
【0027】
【実施例】図2は本発明の第1の実施例を示す図であ
り、同図において、11はアナログ/デジタル変換部、
12は音声区間検出部、2および2’は第1および第2
の周波数分析部、3は定数決定部、4および4’は第1
および第2のデータ圧縮部、5は辞書、61は雑音付加
部、7は照合部である。
【0028】同図において、アナログ/デジタル変換部
11は音声入力信号をデジタル信号に変換する手段であ
り、その出力は音声区間検出部12に与えられる。音声
区間検出部12は入力信号のパワーなどの情報により音
声区間を決定する手段であり、音声区間検出部12によ
り、入力音声信号の音声区間が検出され、音声区間は第
1の周波数分析部2に与えられる。
【0029】なお、認識時にワード・スポッティング法
(識別の対象となるパターン信号と、テンプレートを比
較する際、一方の信号を他方の信号に対してずらしてい
き、最もその誤差が小さくなる位置における両者の距離
を求めることにより、識別の対象となるパターン信号と
テンプレート距離を定める手法)を用いる場合には音声
区間検出部12は必ずしも必要ではない。
【0030】第1の周波数分析部2および第2の周波数
分析部2’は、音声区間検出部12の出力である音声信
号と雑音信号の両者に対して周波数分析を行う手段であ
り、例えば、19チャンネルのバンド・パス・フィルタ
を用いて周波数分析を行い、各チャンネル毎にパワー・
スペクトルの大きさを出力する。第1の周波数分析部2
および第2の周波数分析部2’の出力はデータ圧縮部4
およびデータ圧縮部4’に与えられ、非線型関数f
(x)=b・exp(ax)+cによりデータ圧縮され
る。また、上記非線型関数の定数a,b,cは定数決定
部3において決定される。
【0031】定数決定部3は非線型関数f(x)=b・
exp(ax)+cが従来用いられてきた対数関数g
(x)=logxを近似するように定数a,b,cを決
定する手段であり、近似の手法としては次の方法等を用
いることができる。 f(x)とg(x)の最大誤差を最小にするような
定数a,b,cを決定する方法。 f(x)とg(x)の差の絶対値の積分値を最小に
するような定数a,b,cを決定する方法。 f(x)とg(x)の2乗誤差の積分値を最小にす
るような定数a,b,cを決定する方法。 f(x)とg(x)をテイラー展開して、3項まで
の各項の係数どうしが等しいとした時の定数a,b,c
による3元連立方程式によって3つの定数を決定する方
法。
【0032】図3は下式で表される対数関数(a)と非
線型関数(b)ないし(c)を示した図である。 (a)f(x)=log(x) (b)f(x)=b・exp(ax)+c(c=0の場
合) (c)f(x)=b・exp(ax)−bea ((b)
においてc=−bea の場合) 同図から明らかなように、定数a,b,cを選定するこ
とにより、対数関数に近似した非線型関数を得ることが
できる。
【0033】図2の辞書5には、音声登録時に入力され
たテンプレートが格納されており、音声認識時、辞書5
よりテンプレートが読み出される。雑音付加部61は辞
書より読み出されたテンプレートに雑音を付加する手段
であり、また、照合部7はデータ圧縮部4が出力する音
声パターン信号との距離を計算し、入力音声の認識結果
を出力する手段である。
【0034】次に図2の第1の実施例の動作を説明す
る。音声の登録時、音声が入力されると、入力された音
声はアナログ/デジタル変換部11によりデジタル信号
に変換され音声区間検出部12により音声区間が検出さ
れる。音声区間検出部12の出力は周波数分析部2にお
いて、バンド・パス・フィルタにより各チャンネルごと
に音声が分析され、パワー・スペクトルの大きさが出力
される。
【0035】音声の分析結果は、データ圧縮部4に与え
られ、非線型関数f(x)=b・exp(ax)+cに
よりデータ圧縮が行われて、テンプレートとして辞書5
に登録される。音声の認識時には、音声が入力される
と、入力された音声はアナログ/デジタル変換部11に
よりデジタル信号に変換され音声区間検出部12により
音声区間が検出される。
【0036】音声区間検出部12により検出された、雑
音が重畳された音声信号は周波数分析部2により、上記
と同様、周波数分析され、データ圧縮部4において、非
線型関数f(x)=b・exp(ax)+cによりデー
タ圧縮が行われて、照合部7に与えられる。一方、雑音
信号は音声区間検出部12より周波数分析部2’に与え
られ、上記と同様、周波数分析されて、データ圧縮部
4’において非線型関数f(x)=b・exp(ax)
+cによりデータ圧縮が行われて、雑音付加部61に与
えられる。
【0037】雑音付加部61においては、辞書5より読
み出されたテンプレートに圧縮された雑音成分を付加し
照合部7に与える。ここで、sを音声のパワー・スペク
トル、nを雑音のパワー・スペクトルとし、また上記し
た非線型関数f(x)=b・exp(ax)+cによる
音声のパワー・スペクトルの変換値をf(s)、雑音の
パワー・スペクトルの変換値をf(n)とすると、音声
に雑音が重畳されたパワー・スペクトルs+nの変換値
f(s+n)は次式により求めることができる。
【0038】 f(n+s)=b・exp(an+as)+c =b・exp(an)・exp(as)+c =〔{b・exp(an)+c}−c〕 ・〔{b・exp(as)+c}−c〕/b+c ={f(n)−c}・{f(s)−c}/b+c したがって、雑音付加部61においては、辞書5から読
み出された音声の変換値f(s)から定数cを減算する
とともに、データ圧縮部4’の出力である、雑音の変換
値f(n)から定数cを減算し、その積を定数bで割
り、さらに、定数cを加えることにより、雑音が重畳さ
れたパターン信号を求めることができ、この信号は照合
部7に与えられる。
【0039】照合部7においては、雑音付加部61の出
力であるテンプレートに認識時の雑音を加えたパターン
信号と、データ圧縮部4の出力である分析後の雑音が重
畳された音声パターンとを、例えば、DP(ダイナミッ
ク・プログラミング)マッチング手法などを用いてマッ
チングを行い、認識結果を出力する。本実施例において
は、変換関数として非線型関数f(x)=b・exp
(ax)+cを用いているので、四則演算の計算だけで
パワー・スペクトル次元の雑音成分の付加ができ、図9
に示した従来例のように、1テンプレート当たり2回の
非線型処理を行う必要がなく、計算量を大幅に削減する
ことができる。
【0040】図4は本発明の第2の実施例を示す図であ
り、同図は、図2に示した第1の実施例に認識結果計数
部9を付加したものであり、その他の構成は図2の実施
例と同一である。同図において、認識結果計数部9は照
合部7における照合結果を計数し、照合部における認識
率が最良になるように、定数決定部3において決定され
る非線型関数f(x)=b・exp(ax)+cの定数
を変化させる手段である。
【0041】図2に示した第1の実施例においては、非
線型関数f(x)=b・exp(ax)+cの定数を、
対数関数g(x)=logxに非線型関数f(x)が近
似するように決定していたが、従来、非線型関数として
対数関数を用いていた根拠は認識率とは厳密な関係はな
く、認識率の点から見ると、対数関数がかならずしも最
良のものとは言えない。
【0042】逆に、非線型関数f(x)においては、3
つの定数を変えることができるので、これらの定数を本
実施例のように認識率に応じて変えることにより、認識
率が最良になるデータ圧縮を行うことが可能となる。図
5は本発明の第3の実施例であり、本実施例において
は、図2の実施例の第1および第2のデータ圧縮部4、
4’、雑音付加部61を第1および第2のデータ圧縮部
42,42’、雑音付加部62に変更したものであり、
その他の構成は図2の第1の実施例と同一である。
【0043】本実施例のデータ圧縮部42,42’にお
いては、非線型関数f(x)=b・exp(ax)+c
におけるcの加算がなくなり、また、雑音付加部62に
おいてはcの減算がなくなっており、図2の実施例のも
のと比べ更に計算量が削減されている。本実施例のよう
にcを省略しても、2つのパターンの距離を照合部7に
おいて算出する際、2つのパターンの差を計算している
ため、算出された距離の値には影響しない。
【0044】例えば、照合部7における、距離尺度とし
て市街地距離を用いるとすると、2つのパターンの距離
は下式のように算出される。 |f(x1)−f(x2)| =|b・exp(ax1)+c−(b・exp(ax2)+c)| =|b・exp(ax1)−(b・exp(ax2))| 上記式から明らかなように、距離計算においては、2つ
のパターンの距離はcに依存しない。
【0045】図6は本発明の第4の実施例を示す図であ
り、本実施例においては、図5の第3の実施例の雑音付
加部62を雑音付加部63に変更するとともに、データ
整合部101を付加したものであり、その他の構成は図
5の第3の実施例と同一である。図6において、音声登
録時、データ圧縮部42の出力はデータ整合部101に
おいて、定数bで割り算され辞書5にテンプレートとし
て格納される。
【0046】したがって、前記したように、sを音声の
パワー・スペクトル、非線型関数f(x)=b・exp
(ax)による音声のパワー・スペクトルの変換値をf
(s)とすると、辞書5にはf(s)/b=exp(a
s)で表されるテンプレートが格納される。そして、音
声認識時、辞書5よりf(s)/b=exp(as)で
表されるテンプレートが読み出され、雑音付加部63に
おいて、データ圧縮部42が出力するf(n)=b・e
xp(an)と乗算されるので、雑音付加部63の出力
は、下式に示すようになる。
【0047】 f(n)・f(s)/b=exp(as)・b・exp(an) =b・exp(as+an)=f(n+s) 雑音付加部63の出力は、照合部7に与えられ、第3の
実施例の場合と同様、データ圧縮部42の出力との距離
が求められ、認識結果が出力される。本実施例において
は、音声登録時、データ圧縮部42の出力を定数bによ
り除算する必要があるが、音声認識時、雑音付加部63
においては乗算のみ行えばよく、除算が不必要なため、
音声認識時の計算量をより削減することができる。
【0048】図7は本発明の第5の実施例を示す図であ
り、本実施例においては、図5の第3の実施例の雑音付
加部62を雑音付加部63に変更するとともに、データ
整合部102を付加したものであり、その他の構成は図
5の第3の実施例と同一である。図7において、音声認
識時、辞書5よりf(s)=b・exp(as)に対応
したテンプレートが読み出され、雑音付加部63におい
て、データ圧縮部42が出力するf(n)=b・exp
(an)と乗算され、雑音付加部63の出力は、下式に
示すようになる。
【0049】 f(n)・f(s)=b・exp(as)・b・exp(an) =b2 ・exp(as+an)=b・f(n+s) 一方、データ圧縮部42の出力にデータ整合部102に
おいて、定数bが乗算されるので、データ整合部102
の出力はb・f(n+s)となる。雑音付加部63の出
力は、照合部7に与えられ、第3の実施例の場合と同
様、データ整合部102の出力との距離が求められ、認
識結果が出力される。
【0050】本実施例においては、音声認識時、データ
圧縮部42の出力に定数bを乗算する必要があるが、雑
音付加部63においては乗算のみ行えばよく、除算が不
必要なため、1回の認識につき、テンプレートの数に対
応した回数の除算が節約でき、音声認識時の計算量をよ
り削減することができる。図8は本発明の第6の実施例
を示す図であり、本実施例においては、図5の第3の実
施例の雑音付加部62を雑音付加部63に変更するとと
もに、データ整合部103を付加したものであり、その
他の構成は図5の第3の実施例と同一である。
【0051】図8において、音声認識時、データ圧縮部
42’の出力f(n)=b・exp(an)がデータ整
合部103において、定数bで除算されてf(n)/b
=exp(an)が求められ、雑音付加部63に与えら
れる。雑音付加部63においては、辞書5より読み出さ
れたf(s)=b・exp(as)とデータ整合部10
3が出力するf(n)/b=exp(an)とが乗算さ
れ、雑音付加部63の出力は、下式に示すようになる。
【0052】 f(n)・f(s)/b=b・exp(as)・exp(an) =b・exp(as+an)=f(n+s) 雑音付加部63の出力は、照合部7に与えられ、第3の
実施例の場合と同様、データ整合部102の出力との距
離が求められ、認識結果が出力される。本実施例におい
ては、音声認識時、データ圧縮部42の出力を定数bで
除算する必要があるが、雑音付加部63においては乗算
のみ行えばよく、除算が不必要なため、1回の認識につ
き、テンプレートの数に対応した回数の除算が節約で
き、音声認識時の計算量をより削減することができる。
【0053】
【発明の効果】以上説明したことから明らかなように、
本発明においては、変換関数として非線型関数f(x)
=b・exp(ax)+cを用いているので、四則演算
の計算だけでパワー・スペクトル次元の雑音成分の付加
ができ、計算量を大幅に削減することができる。
【0054】また、認識結果計数部を設けて照合部にお
ける認識結果を計数し、その認識率に基づき非線形関数
の定数a,b,cを変化させることにより、照合部にお
ける認識率が最良になるデータ圧縮を行うことができ
る。さらに、非線形関数の定数cをゼロに設定すること
により、データ圧縮部における定数cの加算、および、
雑音付加部において定数cの減算が必要なくなり、更に
計算量を削減することができる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】本発明の第1の実施例を示す図である。
【図3】対数関数と非線形関数を示す図である。
【図4】本発明の第2の実施例を示す図である。
【図5】本発明の第3の実施例を示す図である。
【図6】本発明の第4の実施例を示す図である。
【図7】本発明の第5の実施例を示す図である。
【図8】本発明の第6の実施例を示す図である。
【図9】従来例を示す図である。
【符号の説明】
1 音声入力部 2,2’ 周波数分析部 3 定数決定部 4,4’,42,42’ データ圧縮部 5 辞書 6,61,62,63 雑音付加部 7 照合部 9 認識結果計数部 11 アナログ/デジタル変換部 12 音声区間検出部 101,102,103 データ整合部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 21/02 (56)参考文献 古井貞煕,ディジタル音声処理,日 本,東海大学出版会,1985年9月25日, p.99−100 (58)調査した分野(Int.Cl.7,DB名) G10L 15/02 G10L 15/06 G10L 15/10 G10L 21/02 JICSTファイル(JOIS)

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 発生された音声音響信号を電気信号に変
    換する音声入力部(1) と、 音声入力信号を周波数分析し、各分析フレーム毎に複数
    チャンネルの分析データからなる入力音声パターンを出
    力する第1および第2の周波数分析部(2,2')と、 第1および第2周波数分析部(2,2')において分析された
    周波数パターンを、非線型変換によってダイナミック・
    レンジを保ちながらデータ圧縮する第1および第2のデ
    ータ圧縮部(4,4')と、 学習データから作成されるテンプレートをデータ圧縮
    後、格納する辞書(5) と、 音声認識時に、第2のデータ圧縮部(4')の出力より得ら
    れる雑音成分をパワー・スペクトルの次元でテンプレー
    トに付加する雑音付加部(6) と、 第1のデータ圧縮部(4) において圧縮された入力音声パ
    ターンと雑音付加部(6) の出力との照合を行い、両者の
    間の類似度あるいは距離を演算する照合部(7)とを備え
    た音声認識方式において、 第1および第2のデータ圧縮部(4,4')における非線型関
    数として下式を用いるとともに、 f(x)=b・exp(ax)+c (a,b,cは
    定数) 上記非線型関数の定数a,b,cを決定する定数決定部
    (3) を設け、 上記非線形関数を用いて、第1および第2の周波数分析
    部(2,2')が出力する周波数パターンを第1および第2の
    データ圧縮部(4,4')によりデータ圧縮することを特徴と
    する音声認識方式。
  2. 【請求項2】 雑音付加部(6) において、辞書(5) から
    読み出されたテンプレートに、下式により雑音を付加す
    ることを特徴とする請求項1の音声認識方式。 x3=(x1−c)・(x2−c)/b+c ここで、 x1:辞書(5) から読み出されたテンプレー
    トの値 x2:データ圧縮部(4')より得られる雑音成分 x3:雑音付加部(6) の 出力
  3. 【請求項3】 非線型関数f(x)が取り扱うxの範囲
    内において、非線型関数f(x)と対数関数log
    (x)との最大誤差が最小になるように定数a,b,c
    を定めることを特徴とする請求項1または請求項2の音
    声認識方式。
  4. 【請求項4】 非線型関数f(x)が取り扱うxの範囲
    内において、非線型関数f(x)と対数関数log
    (x)との差の絶対値の積分値が最小になるように定数
    a,b,cを定めることを特徴とする請求項1または請
    求項2の音声認識方式。
  5. 【請求項5】 非線型関数f(x)が取り扱うxの範囲
    内において、非線型関数f(x)と対数関数log
    (x)との2乗誤差の積分値が最小になるように定数
    a,b,cを定めることを特徴とする請求項1または請
    求項2の音声認識方式。
  6. 【請求項6】 非線型関数f(x)が取り扱うxの範囲
    内において、非線型関数f(x)と対数関数log
    (x)とをテイラー展開し、その3項までの各項の係数
    どうしが等しいとしたときの定数a,b,cについての
    連立方程式によって定数a,b,cを決定することを特
    徴とする請求項1または請求項2の音声認識方式。
  7. 【請求項7】 認識結果計数部を設けて照合部(7) にお
    ける認識結果を計数し、その認識率に基づき非線形関数
    の定数a,b,cを変化させ、最適な定数を決定するこ
    とを特徴とする請求項1または請求項2の音声認識装
    置。
  8. 【請求項8】 非線形関数の定数cをゼロにすることを
    特徴とする請求項1,2,3,4,5,6または請求項
    7の音声認識装置。
  9. 【請求項9】 辞書(5) から読み出されたテンプレート
    に、第2のデータ圧縮部(4')より得られる雑音成分を乗
    算することにより、雑音付加部(6) の出力を得ることを
    特徴とする請求項8の音声認識方式。
  10. 【請求項10】 辞書(5) にテンプレートを格納する
    際、非線型関数の定数bによりテンプレート値を割って
    おくことを特徴とする請求項9の音声認識方式。
  11. 【請求項11】 第1のデータ圧縮部(4) において圧縮
    された入力音声パターンに非線型関数の定数bを乗算
    し、その結果を照合部(7) に与えることを特徴とする請
    求項9の音声認識方式。
  12. 【請求項12】 第2のデータ圧縮部(4')において圧縮
    された雑音パターンを非線型関数の定数bにより除算
    し、その結果を雑音付加部(6) に与えることを特徴とす
    る請求項9の音声認識方式。
JP09788092A 1992-04-17 1992-04-17 音声認識方式 Expired - Fee Related JP3298658B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09788092A JP3298658B2 (ja) 1992-04-17 1992-04-17 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09788092A JP3298658B2 (ja) 1992-04-17 1992-04-17 音声認識方式

Publications (2)

Publication Number Publication Date
JPH05297889A JPH05297889A (ja) 1993-11-12
JP3298658B2 true JP3298658B2 (ja) 2002-07-02

Family

ID=14204064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09788092A Expired - Fee Related JP3298658B2 (ja) 1992-04-17 1992-04-17 音声認識方式

Country Status (1)

Country Link
JP (1) JP3298658B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305679A (ja) * 1995-03-07 1996-11-22 Matsushita Electric Ind Co Ltd パターン分類装置
JP4760179B2 (ja) * 2005-07-15 2011-08-31 ヤマハ株式会社 音声特徴量算出装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
古井貞煕,ディジタル音声処理,日本,東海大学出版会,1985年9月25日,p.99−100

Also Published As

Publication number Publication date
JPH05297889A (ja) 1993-11-12

Similar Documents

Publication Publication Date Title
EP0077558B1 (en) Method and apparatus for speech recognition and reproduction
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
US4624010A (en) Speech recognition apparatus
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP0219712A1 (en) Method of and system for speech recognition
KR910020641A (ko) 잡음예측장치와 이것을 사용한 신호처리장치
US20090144058A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JPH07191689A (ja) 音声認識装置
US4426551A (en) Speech recognition method and device
KR910015962A (ko) 음성신호처리장치
US6718306B1 (en) Speech collating apparatus and speech collating method
US4809331A (en) Apparatus and methods for speech analysis
JP3298658B2 (ja) 音声認識方式
JPS63261400A (ja) 音声認識方式
JPH02157800A (ja) 特徴抽出方式
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
US4914702A (en) Formant pattern matching vocoder
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
JPH05127668A (ja) 自動採譜装置
JPH0443280B2 (ja)
JPS58176698A (ja) パターンマッチング装置
JPS625298A (ja) 音声認識装置
JPS6332400B2 (ja)
JP3065691B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020402

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees