JPH0311478B2

JPH0311478B2 -

Info

Publication number: JPH0311478B2
Application number: JP58096960A
Authority: JP
Inventors: Yutaka Iizuka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1983-06-02
Filing date: 1983-06-02
Publication date: 1991-02-18
Also published as: JPS59222900A

Description

【発明の詳細な説明】

（技術分野）本発明は認識性能の向上を図るようにした音声
認識方法に関する。（従来技術）従来の音声認識装置は第１図のように構成され
ており、１は入力端子、２は周波数分析部、３は
スペクトル変換部、４は音声区間決定部、５は非
類似度演算部、６は標準音声スペクトルパターン
メモリ、７は判定部、８は認識結果出力端子であ
る。従来の音声認識装置では、入力音声スペクトル
パターンと標準スペクトルパターンｋ（ｋ＝１〜
Ｋ）との非類似度演算において、非類似度D_kを
入力スペクトルパターンの時間標本点第ｎ番目の
ｍチヤネル目の要素をＡ（ｍ，ｎ）とし、標準ス
ペクトルパターンｋの時間標本点ｎ番目のｍチヤ
ネル目の要素をS_k（ｍ，ｎ）とした時に、 D_k＝_N 〓ⁿ⁼¹ _M 〓^m=1 ｜Ａ（ｍ，ｎ）−S_k （ｍ，ｎ）｜×Ｗ（ｍ，ｎ） …(1) (1)式により計算し、ｋ個の標準スペクトルパタ
ーンの中でD_kを最小とする標準スペクトルパタ
ーンのカテゴリを認識結果としている。ここで重
みＷ（ｍ，ｎ）の計算方法については数々の方式
があるが、本発明の目的でないので省略する。従来の音声認識装置では入力音声を周波数分析
し、音声スペクトルの最小２乗近似直線を計算
し、最小２乗近似直線の傾きをスペクトル傾斜値
としている。そして、スペクトル傾斜値が負の場
合は入力音声を有声音と判定し、音声スペクトル
から音声スペクトルの最小２乗近似直線を引き、
スペクトル傾斜値が正の場合には入力音声を無声
音と判定し、音声スペクトルから音声スペクトル
の平均を引くことにより、入力音声の声帯音源特
性および発声強度の正規化を行なつている。この
変換作用により入力音声のパワー情報は完全に失
なわれる。その結果、「イチ」を「ニ」と誤認識
したり、「ゴ」を「ロク」に誤認識するという場
合がある。第２図に「イチ」，「ニ」，「ゴ」，「ロク」の音声
パターンソナグラムの例を示す。第２図で、横方
向は周波数軸たて方向が時間軸である。このようにスペクトル変換により、「イチ」と
「ニ」、「ゴ」と「ロク」はかなり似かよつたパタ
ーンとなりその差としては「イ」と「チ」の間の
無音区間、「ロ」と「ク」の間の無音区間が大き
いがパワー情報は失なわれているので、結果とし
て誤認識されることがある。又、有声音と無声音
の場合でまつたく異なる変換を行なつているのに
その情報は失なわれてしまうため「サン」と「ヨ
ン」を誤認識したり、「ニ」と「キユウ」を誤認
識する場合がある。第３図に「サン」と「ヨン」、「ニ」と「キユ
ウ」の音声パターンの例を示す。第３図で横方向
は周波数軸、たて方向が時間軸である。このように、前記の変換により「サン」と「ヨ
ン」、「ニ」と「キユウ」はかなり似かよつたパタ
ーンになり、その差としては「サン」の先頭数フ
レームは無声音であるが「ヨン」では有声音であ
ること、又「キユウ」の先頭類フレームは無声音
だが「ニ」では有声音であることがあげられる
が、その差はごくわずかであり、前記変換作用に
よりほとんど同じようなパターンとなつてしま
い、結果として誤認識されることがある。この２
つの要因により誤認識が発生し、認識率が低下し
た。（発明の目的）本発明はこれらの欠点を解決するため、非類似
度演算処理時に音声入力と標準音声間のパワーパ
ターンの比較並びに音声入力パターンと標準パタ
ーン間のスペクトル傾斜値パターンの比較を行わ
せるようにしたものであり、以下詳細に説明す
る。（発明の構成）第４図は本発明を実施するための音声認識装置
の一例を示したブロツク図である。第４図におい
て、１００は入力端子、２００は周波数分析部で
ある。３００はスペクトル変換部であり、カウン
タ３０１、乗算回路３０２、加算回路３０３、レ
ジスタ３０４、加算回路３０５、レジスタ３０
６、マルチプレクサ３０７，３０８、乗算回路３
０９，３１０、減算除算回路３１１、レジスタ３
１２、減算除算回路３１３、レジスタ３１４、カ
ウンタ３１５、乗算回路３１６、加算回路３１
７、遅延回路３１８、減算回路３１９、切り換え
回路３２０，３２１、除算回路３２２から成る。４００は音声区間決定部である。５００は非類
似度演算部であり、入力音声スペクトルパターン
メモリ５０１、減算回路５０２、絶対値回路５０
３、乗算回路５０４、重み決定回路５０５、定数
発生回路５０６、アキユムレータ、入力音声パワ
ーパターンメモリ５０８、加算回路５０９、レジ
スタ５１０、除算回路５１１、標準音声平均パワ
ーメモリ５１２、減算回路５１３、標準音声パワ
ーパターンメモリ５１４、加算回路５１５、入力
音声スペクトル傾斜値パターンメモリ５１６、標
準音声スペクトル傾斜値パターンメモリ５１７、
切り換え回路５１８，５１９，５２０から成る。６００は標準音声スペクトルパターンメモリ、
７００は判定部、８００は認識結果出力端子であ
る。入力端子１００から入力される入力音声信号は
周波数分析部２００に入力され、複数の周波数帯
域に対応した量子化信号として周波数分析され、
スペクトル変換部３００に送られる。周波数分析部２００で、ある時刻ｎに分析され
たＭ個のデータをｘ（ｍ，ｎ）（ｍ＝１〜Ｍ）とす
ると、スペクトル変換された入力スペクトルデー
タＡ（ｍ，ｎ），（ｍ＝１〜Ｍ）は(1)′式で与えられ
る。Ａ（ｍ，ｎ）＝ｘ（ｍ，ｎ）−（α_o・ｍ＋β_o） …(1)′ (1)′式においてα_o，β_oはそれぞれｘ（ｍ，ｎ）の
最小２乗近似直線の傾き及び切片を意味するもの
で、それぞれ次式によつて求められる。 (2)，(3)式においてデータ数Ｍを固定すれば_M 〓^m=1
ｍ，_M 〓^m=1 m²は定数となり、従つて(2)，(3)式の分母
も定数となる。 C₁＝_M 〓^m=1 ｍ，C₂＝_M 〓^m=1 m²とおけば、(2)，(3)式はとなる。ここにC₃＝Ｍ・_M 〓^m=1 m²−（_M 〓^m=1 ｍ）²である。
(4)，(5)式から明らかのように入力データから_M 〓^m=1
ｍ・ｘ（ｍ，ｎ）及び_M 〓^m=1 ｘ（ｍ，ｎ）を求めれば、
(4)，(5)式によりα_o，β_oの値を求めることができ、
さらに(1)′式により入力スペクトルデータＡ（ｍ，
ｎ）を求めることができる。第４図ではこの入力
スペクトルデータＡ（ｍ，ｎ）を次の如くして作
成している。まず、周波数分析部２００より入力された入力
データｘ（ｍ，ｎ）と、入力データと同期して計
算するカウンタ３０１によつて発生したｍとの積
を乗算回路３０２によつて求めさらに加算回路３
０３とレジスタ３０４によりｍ・ｘ（ｍ，ｎ）の
値を累積させることによりレジスタ３０４に_M 〓^m=1
ｍ・ｘ（ｍ，ｎ）の値をセツトすることができる。
また、加算回路３０５とレジスタ３０６により同
様に、レジスタ３０６に_M 〓^m=1 ｘ（ｍ，ｎ）の値をセ
ツトすることができる。又、その結果を乗算回路
３２２によりＭで除し、音声パワーP_oとして出
力する。ただし P_o＝１／Ｍ_M 〓^m=1 ｘ（ｍ，ｎ）である。次にマルチプレクサ３０７，３０８において、
それぞれＭ，C₁の値を選択することにより、乗
算回路３０９ではＭ・_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）が、乗
算回路３１０ではC₁・_M 〓^m=1 ｘ（ｍ，ｎ）が得られ、
切り換え回路３２０，３２１により減算除算回路
３１１側に接続させてさらに減算除算回路３１１
により（Ｍ・_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）−C₁・_M 〓^m=1 ｘ（ｍ，
ｎ））／C₃の演算を行ない、結果すなわちα_oの値
をレジスタ３１２にセツトし、これを非類似度演
算部へ出力する。同様に、マルチプレクサ３０７，３０８におい
てそれぞれC₁，C₂を選択させ、乗算回路３０９，
３１０及び切り換え回路３２０，３２１を減算除
算回路３１３側に切り換え、減算除算回路３１３
を使用して（C₂・_M 〓^m=1 ｘ（ｍ，ｎ）−C_1M 〓^m=1 ｍ・ｘ
（ｍ，ｎ））／C₃の演算を行ない、その結果すな
わちβ_oの値をレジスタ３１４にセツトする。続いてカウンタ３１５によりｍを発生させ、乗
算回路３１６によりα_o・ｍを求め、さらに加算回
路３１７によりα_o・ｍ＋β_oを求めることができ
る。次に遅延回路３１８により遅延した入力デー
タｘ（ｍ，ｎ）と加算回路３１７で求めたα_o・ｍ
＋β_oの減算を減算回路３１９によつて行なえば、
スペクトル変換された入力スペクトルデータＡ
（ｍ，ｎ）が入力音声スペクトルパターンメモリ
５０１に出力される。第５図は入力ｘ（ｍ，ｎ）、
直線Ｙ＝α_o・ｍ＋β_oスペクトル変換データＡ（ｍ，
ｎ）の関係を表わした図である。（ｎはある時刻、
ｍ＝１〜Ｍ）Ｙ＝α_o・ｍ＋β_oはｘ（ｍ，ｎ）の最
小２乗近似直線であり、ｘ（ｍ，ｎ）からα_o・ｍ
＋β_oをさし引いたものがＡ（ｍ，ｎ）である。音声区間検出部４００は音声区間の始端及び終
端を検出し非類似度演算部に始端検出信号及び終
端検出信号を送るものであり、簡易的な検出法と
してはサンプル周期毎の周波数分析部２００から
のＭ個の分析データの平均値を求めその値があら
かじめ設定された閾値を最初に越えた時点を始点
とし、最後に閾値以下になつた時点を終端とする
検出法がある。音声区間検出部４００において、音声の始端が
検出されると、入力スペクトルデータＡ（ｍ，ｎ）
の入力音声スペクトルパターンメモリ５０１への
書き込み、入力音声のパワー情報P_oの入力音声
パワーパターンメモリ５０８への書き込み、及び
入力音声のスペクトル傾斜値α_oの入力音声傾斜値
パターンメモリ５１６への書き込みが開始され
る。また音声の終端が検出されると入力音声スペ
クトルパターンメモリ５０１、入力音声パワーパ
ターンメモリ５０８、入力音声スペクトル傾斜値
パターンメモリ５１６への書き込みが打ち切ら
れ、これら、入力スペクトルパターン、入力パワ
ーパターン及び入力スペクトル傾斜値パターンに
基づいて非類似度演算処理が開始される。入力音
声スペクトルパターンメモリ５０１は２次元のメ
モリであり、その要素が入力スペクトルデータＡ
（ｍ，ｎ）（ｍ＝１〜Ｍ，ｎ＝１〜Ｎ）で表わされ
る。入力音声パワーパターンメモリ５０８は１次
元のメモリであり、その要素をIP（ｎ）、（ｎ＝１
〜Ｎ）で表わす。入力音声スペクトル傾斜値パタ
ーンメモリ５１６は１次元のメモリであり、その
要素をIA（ｎ）、（ｎ＝１〜Ｎ）で表わす。非類似度演算部５００ではＫ個の標準音声と入
力音声との非類似度を計算するが、ここではｋ番
目の標準音声との非類似度を計算することを考え
る。非類似度D_kは次式で表わされる。 D_k＝_N 〓ⁿ⁼¹ _M 〓^m=1 ｜Ａ（ｍ，ｎ）−S_k（ｍ，ｎ）｜×Ｗ（ｍ，ｎ）＋_N 〓ⁿ⁼¹ ｜IP（ｎ）−P_k（ｎ） −PP＋AP_k｜×WP＋_N 〓ⁿ⁼¹ ｜IA（ｎ）−SA_k（ｎ）｜×WA …(6) ここで、S_k（ｍ，ｎ）はｋ番目の標準音声のス
ペクトルパターンの要素（ｍ＝１〜Ｍ，ｎ＝１〜
Ｍ）。Ｗ（ｍ，ｎ）は重み決定回路５０５により決
定される重み、P_k（ｎ）（ｎ＝１〜Ｎ）はその標
準音声ｋのパワーパターンの要素、PPは入力音
声の平均パワー、AP_kは標準音声ｋの平均パワー
であり、AP_k＝１／Ｎ_N 〓ⁿ⁼¹ P_k（ｎ）と表わせる。IA （ｎ）は入力音声のスペクトル傾斜値パターンの
要素、SA_k（ｎ）は標準音声ｋのスペクトル傾斜
値パターンの要素、WAは非類似度中のスペクト
ル傾斜値による非類似度の割合を設定するための
重み係数である。WPは非類似度中のパワーパタ
ーンによる非類似度の割合を設定するための重み
係数である。まず、非類似度計算用アキユムレータ５０７を
ゼロクリアする。次に、入力音声スペクトルパタ
ーンメモリ５０１から切り換え回路５１７を通じ
入力音声要素Ａ（ｍ，ｎ）と標準音声スペクトル
パターンメモリ６００から標準音声ｋの要素S_k
（ｍ，ｎ）を読み込み、切り換え回路５１８を通
じ減算回路５０２によりＡ（ｍ，ｎ）−S_k（ｍ，ｎ）
を計算し、絶対値回路５０３により絶対値をと
り、切り換え回路５１９を通じ乗算回路５０４に
より重み係数Ｗ（ｍ，ｎ）を乗じる。重み係数Ｗ
（ｍ，ｎ）は重み決定回路５０５により決定され
る。重み決定方式については数々の方式があり、
その例としては特願昭56−184416「音声認識装置」
に開示されており、本発明の目的ではないので説
明は省略する。さらに乗算回路５０４の出力をア
キユムレータ５０７で累加算する。ｍ，ｎをｍ＝
１〜Ｍ，ｎ＝１，ｎまで以上の動作をくり返し、
D_kの第１項が計算されることになる。次に入力音声の平均パワーPPを計算する。入
力音声パワーパターンメモリ５０８から入力音声
のパワーパターンIP（ｎ），ｎ＝１〜Ｎを読み出
し、加算回路５０９とレジスタ５１０により累算
してレジスタ５１０に_N 〓ⁿ⁼¹ IP（ｎ）の値をセツトす
る。この値を除算回路５１１によりＮで除し、入
力音声の平均パワーPPを求める。PPは次式で表
わせる。 PP＝１／Ｎ_N 〓ⁿ⁼¹ IP（Ｎ） …(7) 次に標準音声平均パワーメモリ５１２から標準
音声ｋの平均パワーAP_kを読み出し、減算回路５
１３によりPPからAP_kを減し、パワー補正値PP
−AP_kを計算する。次に標準音声パワーパターンメモリ５１４から
標準音声ｋのパワーパターンP_k（ｎ）を読み出
し、加算回路５１５によりパワー補正値（PP−
AP_k）と加算する。加算結果は（P_k（ｎ）＋（PP−
AP_k））となる。一方、入力音声パワーパターン
メモリ５０８から入力音声パワーパターンIP
（ｎ）（ｎ＝１，Ｎ）を切り換え回路５１８を通じ
読み出し、切り換え回路５１９により加算回路５
１５の出力を選択し、減算回路５０２でIP（ｎ）
−（P_k（ｎ）＋（PP−AP_k））を計算し、絶対値回路
５０３でその絶対値をとる。次に定数発生回路５
０６から定数WPを出力し、切り換え回路５２０
を通じ乗算回路５０４により絶対値回路の出力に
乗じアキユムレータ５０７に加算していくｎを１
〜Ｎまで変化させてアキユムレータへの加算が終
了したら(6)式の第２項まで計算できたことにな
る。次に入力音声スペクトル傾斜値パターンメモ
リ５１６から切り換え回路５１９を通じ入力音声
スペクトル傾斜値パターンIA（ｎ），（ｎ＝１〜
Ｎ）を順に読み出し、一方、標準音声スペクトル
傾斜値パターンメモリ５１７から切り換え回路５
１９を通じ標準スペクトルパターンｋのスペクト
ル傾斜値SA_k（ｎ）（ｎ＝１〜Ｎ）を順に読み出
し、減算回路５０２でIA（ｎ）−SA_k（ｎ）を計算
し、絶対値回路５０３で絶対値をとる。次に定数
発生回路５０６から定数WAを出力し、切り換え
回路５２０を通じ乗算回路５０４により絶対値回
路の出力に乗じ、アキユムレータ５０７に加算し
ていく。ｎを１〜Ｎまで変化させてアキユムレータへの
加算が終了したら加算結果を非類似度演算結果と
して判定部７００に出力する。判定部７００では
非類似度が最も小さい標準音声のカテゴリを認識
結果とする。定数WPの値はシミユレーシヨンの結果1/2〜
２程度、定数WAの値は２〜８が最適である。ただし認識語が語中に無音区間を含まない語だ
けである場合にはWP＝０とすることも考えられ
る。表１は従来の非類似度演算部と本発明による
非類似度演算部を比較するために行なつたシミユ
レーシヨンの結果である。約400人の人が発声し
た数字10語、ハイ、イイエの合計12語を学習し、
標準音声を作成し別の100人分の音声を認識し評
価した。この時標準音声数は192パターンとした。

【表】このように従来と比較して認識率が明らかに向
上した。以上説明したように、第１の実施例では通常の
パターンマツチングに加え音声のパワーパターン
とスペクトル傾斜値パターンを比較している。第６図は「イチ」と「ニ」の音声のパワーを比
較した図である。「チ」は無声破裂音であるため
に、「イ」と「チ」の間は無音になる。一方「ニ」
の方はパワーが連続しているので、例えば「イ
チ」と発声された入力音声のパターンと「ニ」の
標準音声のパターンを本発明による非類似度演算
部で比較すれば、従来よりも非類似度が大きくな
る。又「ニ」を発声された入力音声のパターンを
「ニ」の標準音声のパターンと比較すれば、両方
とも単語内の無音区間は存在しないし、声の大き
さが異なつたとしても、音声の平均パワーで正規
化しているため、非類似度は大きくならない。従つて、「ニ」の標準音声パターンと「イチ」
と発声された音声との非類似度はより大きくな
り、「ニ」と発生された音声との非類似度はほと
んど変化しないので、誤認識が少なくなる。これ
らの関係は「ゴ」と「ロク」、「ハイ」と「ハチ」
の間でも成立する。又、第７図は「サン」と「ヨン」のスペクトル
傾斜値を比較した図である。「サン」の先頭数フ
レームは無声音であり、スペクトル傾斜値が正に
なつているが、ヨンの先頭数フレームは有声音で
あるためにスペクトル傾斜値が負になつている。
このため、例えば「サン」と発声された入力音声
のパターンと「ヨン」の標準音声パターンを本発
明による非類似度演算部で比較すれば従来よりも
非類似度が大きくなる。従つて、「ヨン」の標準パターンと「サン」と
発声された音声の非類似度はより大きくなり、
「ヨン」と発声された音声の非類似度はほとんど
変化しないので、誤認識が少なくなる。これらの
関係は「ニ」と「キユウ」の間でも成立する。以上２つの要因により認識率が向上するという
利点がある。（発明の効果）本発明は通常のパターンマツチングに加え、音
声のパワーパターンの比較と音声のスペクトル傾
斜パターンの比較を行ない、非類似度を計算して
いるので、「イチ」と「ニ」、「ゴ」と「ロク」、
「サン」と「ヨン」などの間の誤認識が少なく認
識率が向上するので、音声認識応答システムに利
用することができる。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は音声パターンの例、第３図は音声パターン
の例、第４図は本発明を実施するための音声認識
装置の一例を示した図、第５図は入力データｘ
（ｍ，ｎ）と入力スペクトルパターンデータＡ
（ｍ，ｎ）との関係を示した図、第６図はパワー
パターンの例、第７図はスペクトル傾斜値パター
ンの例である。１００……入力端子、２００……周波数分析
部、３００……スペクトル変換部、４００……音
声区間決定部、５００……非類似度演算部、５０
１……入力音声スペクトルパターンメモリ、５０
２……減算回路、５０３……絶対値回路、５０４
……乗算回路、５０５……重み決定回路、５０６
……定数発生回路、５０７……アキユムレータ、
５０８……入力音声パワーパターンメモリ、５０
９……加算回路、５１０……レジスタ、５１１…
…除算回路、５１２……標準音声平均パワーメモ
リ、５１３……減算回路、５１４……標準音声パ
ワーパターンメモリ、５１５……加算回路、５１
６……入力音声スペクトル傾斜値パターンメモ
リ、５１７……標準音声スペクトル傾斜値パター
ンメモリ、５１８，５１９，５２０……切り換え
回路、６００……標準音声スペクトルパターンメ
モリ、７００……判定部。

Claims

【特許請求の範囲】１入力音声のスペクトル傾斜値パターンを作成
する過程と、入力音声のパワーパターンを作成する過程と、入力音声の、スペクトル傾斜で正規化されたス
ペクトルパターンを作成する過程と、標準音声の予め用意されたスペクトルパターン
と入力音声の前記スペクトルパターンとのパター
ンマツチングを行い、第１の非類似度を算出する
過程と、_N 〓ⁿ⁼¹ ｜IP（ｎ）−P_k（ｎ）−PP＋AP_k｜なる計算によつて（但し、Ｎは音声区間のパワー
データの総数、IP（ｎ）は入力音声のｎ番目のパ
ワーデータ、P_k（ｎ）は標準音声のｎ番目のパワ
ーデータ、PPは入力音声の平均パワーデータ、
AP_kは標準音声の平均パワーデータ）、標準音声
の予め用意されたパワーパターンと入力音声の前
記パワーパターンとのパターンマツチングを行
い、第２の非類似度を算出する過程と、前記標準音声の予め用意されたスペクトル傾斜
値パターンと入力音声の前記スペクトル傾斜値パ
ターンとのパターンマツチングを行い、第３の非
類似度を算出する過程と、３種類の前記非類似度のそれぞれに予め定めら
れたそれぞれの重みをつけて加算する過程とを備
え、その加算値を入力音声と前記標準音声との非類
似度として入力音声を認識することを特徴とした
音声認識方法。