JP2577891B2

JP2577891B2 - 単語音声予備選択装置

Info

Publication number: JP2577891B2
Application number: JP61184521A
Authority: JP
Inventors: 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1986-08-06
Filing date: 1986-08-06
Publication date: 1997-02-05
Anticipated expiration: 2012-02-05
Also published as: JPS6340200A

Description

【発明の詳細な説明】「産業上を利用分野」この発明は大語彙を認識対象とする単語音声認識に適
用して好ましく、情報量の多い時間正規化マッチングを
行う単語数を減少するために用いられる単語音声予備選
択装置に関するものである。

「従来の技術」単語音声認識方式において、あらかじめ認識対象単語
のすべてを標準特徴パラメータとして記憶しておき、未
知入力音声単語の特徴パラメータを検出し、その特徴パ
ラメータと前記あらかじめ記憶した各単語の標準特徴パ
ラメータとの時間正規化マッチングを行って、未知入力
音声単語を認識することが行われる。しかし認識対象単
語数が多く、つまり大語彙を認識対象とする場合は時間
正規化マッチングに要する演算量が著しく多くなる。

従って未知入力音声単語についてまず簡単に認識し
て、いくつかの単語を選択し、その各選択した単語の標
準特徴パラメータと未知入力音声単語との時間正規化マ
ッチングを行うことが提案されている。そのいくつかの
単語を選択することは単語予備選択と呼ばれる。この単
語予備選択を比較的簡単に行うことにより、音声単語認
識を能率よく行うことができる。

従来の単語予備選択方法の第１の方法は、単語音声の
特徴を時間軸上で等間隔に区切り、その各区間毎に各特
徴パラメータを区間内の標本点で平均したものを用い
て、予備選択を行うものである。第２の方法は単語音声
のパワレベルの変化を２値パタンで表現し、あるいは音
韻列の全体的な特徴、例えば単語中に/a/が存在する等
を２値パタンで表現し、これらのパタン系列の単純な比
較によって予備選択を行う方法である。さらに、第３の
方法は単語音声の短時間毎のスペクトルの変化をクラス
タ化し、各単語を構成する代表的スペクトルの集合をテ
ンプレート集合として作成して、このテンプレートを用
いて入力音声のスペクトルをベクトル量子化し、このと
きの歪量にもとづいて予備選択を行う方法である。

前記第１の予備選択方法においては、発声された単語
音声の時間的切り出しのずれや、単語の発声中における
途中の伸ばしぐあいが、あらがじめ蓄えられている単語
と一致せず区切りの位置に時間的ずれがある場合には、
予備選択能力が低下する。第２の予備選択方法に関して
は、パワレベルパタンは単語間で類似していることが多
く、音韻列は十分な精度で抽出することが難しいため、
予備選択能力が低いという欠点がある。第３の方法は、
短時間毎のスペクトルの時間的流れ、継続時間等の時間
情報が考慮されないため、ある単語の比較的長い区間
と、異なる単語の瞬間的な区間とが対応づけられて、選
択誤りを多く生ずるという問題があった。

予備選択が悪いと多くの単語が選択されて、予備選択
の利益が得られない。あるいは正しい単語を予備選択か
ら落として、誤認識又は認識不能となる。

この発明の目的は、従来の予備選択方法における上記
の欠点を解決するため、十分な精度で抽出できしかも時
間情報も含み、なおかつ音声区間の切り出しのずれや時
間的伸縮の影響を受けにくい特徴パラメータを用いて、
予備選択の高性能化を図り、これによって後のマッチン
グ演算の低減化を可能とする単語音声予備選択装置を提
供することにある。

「問題点を解決するための手段」この発明は、スペクトルパラメータの時間波形から導
出した比較的局所的な時間変化を示す線形回帰係数を短
時間ごとに算出する手段を設け、この線形回帰係数とス
ペクトルパラメータとの組み合わせを認識対象語彙ごと
クラスタ化手段でクラスタ化し、これをテンプレートと
して認識対象語彙ごとに蓄積しておき、認識すべき音声
波のスペクトルパラメータ及び線形回帰係数は前記テン
プレートによりベクトル量子化され、そのときの歪量が
計算され、その値が比較的小さい複数の単語が選択され
る。

この発明は従来の予備選択装置とは、スペクトルパラ
メータとその線形回帰係数の同一時点のものを一種類の
パラメータであるかのように組み合わせてクラスタ化し
たものがテンプレートとして用いられ、このテンプレー
トを用いてベクトル量子化が行われる点が異なる。

「実施例」第１図に、この発明により単語音声予備選択装置の実
施例を示す。単語音声入力端子１より入力された単語音
声入力は、音声区間検出回路２、スペクトル分析部３を
経由してスペクトル及び（対数）パワ分析され、その分
析結果はスペクトルパラメータ蓄積部４に蓄積される。
スペクトルを表現するパラメータとしては、比較的小数
のパラメータによってスペクトルが表現できるケプスト
ラム、LSP（線スペクトル対）パラメータ等が用いられ
る。以下では、ケプストラムを用いる場合について説明
を行う。LSPパラメータ等を用いる場合も全く同様であ
る。

スペクトルパラメータ蓄積部４に蓄積されたケプスト
ラム及びパワに時間波形は、回帰係数計算回路５に入力
されて、線形回帰係数が抽出される。パワの絶対値は発
声レベルによって変動しやすいのでこれは除き、ケプス
トラムと、ケプストラム及びパワの線形回帰係数の時間
波形（これらをまとめて特徴パラメータ波形と呼ぶ）を
いったん特徴パラメータレジスタ６に蓄える。学習モー
ドと認識モードとをスイッチ７で切り替えて、学習モー
ドの場合は特徴パラメータ波形をクラスタ化部８に入力
してクラスタ化を行い、各語彙毎に作られた複数テンプ
テートをテンプテート蓄積部９に蓄積する。認識モード
の場合は、特徴パラメータ波形及び各語彙の複数テンプ
レートをベクトル量子化回路10に入力して、各語彙の複
数テンプレートを用いてベクトル量子化を行ったときの
歪量の計算を行い、その結果を量子化歪蓄積部11に蓄積
する。すべての語彙に対するその歪量を候補単語選択回
路12に入力して、比較的歪量の小さいあらかじめ定めら
れた数の語彙、あるいはしきい値蓄積部13に蓄えられて
いるしきい値よりも小さい歪量を有する語彙を示すデー
タを、候補単語を示すデータとして出力端子14に与え
る。

さらに詳しく動作を説明する。まず単語音声入力端子
１から単語の認識に用いる音声波を入力する。入力され
た音声波には通常、実際の音声の区間と無音（雑音）の
区間とが含まれているので、入力された音声波を音声区
間検出回路２に入力して、音声区間の検出を行う。この
検出には、すでによく知られているいくつかの方法、例
えば入力信号波の短時間パワ、ある一定値以上のパワが
継続する時間、等を用いることができる。検出される音
声区間の信号波はスペクトル分析部３に送られ、ケプス
トラムとパワの時間波形に変換される。この技術は、す
でに公知であるので（例えば、文献、古井：ディジタル
音声処理、東海大学出版会、pp.44〜48、1985参照）、
詳細は省略するが、基本的にはまず低域通過フィルタに
通したのち標本化及び量子化を行い、一定時間毎に短区
間の波形を切り出してハミング窓等を乗じ、２回のフー
リエ変換と対数変換、又は線形予測分析と繰り返し演算
によってケプストラムが抽出される。ハミング窓の長さ
としては、例えば30msこれを更新する周期としては、例
えば10msのような値が用いられる。ケプストラムはあら
かじめ定めた第ｐ次まで、例えば第１次から第10次まで
の値を計算する。

抽出されたケプストラムとパワの時間波形は、一定間
隔毎に一定の時間長の区間がスペクトルパラメータ蓄積
部４にいったん蓄えられ、この蓄積部４の内容は回帰係
数計算回路５に送られて、線形回帰係数が演算される。
このスペクトルパラメータ蓄積部４及び回帰係数計算回
路５に入力される時間波形の長さとしては、例えば50m
s、これを更新する周期としては、例えば10msのような
値を用いる。時間波形をx_j（ｊ＝−M,…,M）であらわす
と、この線形回帰係数ａは次の演算で求めることができ
る。

線形回帰係数は、各次数のケプストラム及びパワに対
して10ms毎に更新される回帰係数計算回路５の入力に応
じて計算され、この線形回帰係数はケプストラムと合わ
せて（2p＋１）次元の特徴パラメータとして特徴パラメ
ータレジスタ６に送られて蓄えられる。

スイッチ７は、学習モードと認識モードとを選択する
スイッチであって、各語彙に対して、最初にスイッチ７
を端子7aに接続しておいて、後に認識すべき音声を入力
する本人、あるいその本人とは異なる複数人の音声から
特徴パラメータ波形を求め、クラスタ化部８において、
短時間毎の特徴パラメータについてクラスタ化を行う。
このクラスタ化は多数のパラメータの組を、あらかじめ
定められた一定数の代表的な組にまとめることである。
例えば４名の話者が発声したある単語音声から10ms毎に
（2p＋１）次元の特徴パラメータ（ケプストラム、及び
ケプストラムとパワの回帰係数）が抽出されているとす
ると、単語音声の長さが平均して500msであるとすれ
ば、全部で50×４＝200種類の（2p＋１）次元特徴パラ
メータが与えられる。これを例えば32種類の代表的（2p
＋１）次元特徴パラメータにまとめるには、公知の方法
（文献、Y.Linde,A.Buzo,and R.M.Gray:An algorithm f
or vector quanti−zation,IEEE Trans.Commun.,vol.CO
M−28,pp.84−95,1980）を用いることができる。この方
法は、類似している特徴パラメータはまとめて一つの平
均値で代表させ、元の200種類のすべての特徴パラメー
タを32種類の代表値のうちの最も近いものでおきかえた
ときの、おきかえによる誤差が全体として最も小さくな
るように、代表値が決定される。このようにして、各認
識対象語彙毎に決定されたこれらの32種類のそれぞれ
（2p＋１）次元の特徴パラメータ代表値は、テンプレー
トとして、テンプレート蓄積部９に蓄積される。

その後認識すべき音声に対しては、スイッチを端子7b
に接続しておいて、特徴パラメータレジスタ６の内容、
即ち入力音声の短時間毎の特徴パラメータをベクトル量
子化回路10に入力する。ベクトル量子化回路では、各認
識対象語彙のテンプレートをテンプレート蓄積部９から
順に読み出して、ベクトル量子化を行う。この処理は、
入力音声の短時間毎の特徴パラメータについて、最も近
いテンプレートを選ぶことによって行い、そのときのテ
ンプレートと特徴パラメータとの誤差を入力音声全体に
ついて平均した値即ち量子化歪を計算する。

ある単語ｋのｌ番目のテンプレートの特等パラメータ
をr_kli（１≦ｉ≦2p＋１、ｐ次のケプストラム、ｐ次の
ケプストラムの線形回帰係数、及びパワの線形回帰係数
とからなる）、入力音声のある時点ｍにおける特徴パラ
メータをx_mi（１≦ｉ≦2p＋１）で表わすと、ここで両
者の距離（小さくなればなるほど類似度が大きいことを
示す数値）として、次のような値を用いる。

ここで、w_iは、各特徴パラメータに対してあらかじめ
定められた重みを示す数値で、この値は予備実験の結果
にもとづいて比較的高い精度が得られるように適切な値
に定め、重みレジスタ15に蓄えておく、距離ｄの計算は
（２）式に示すように、同一時点のｐ次のケプストラ
ム、ｐ次のケプストラムの線形回帰係数、及びパワの回
帰係数について入力音声とテンプレートとの差の二乗和
として計算しており、つまりスペクトルパラメータと線
形回帰係数との互いに性質が異なるものを一緒に使って
おり、これらの平衡をとるためにw_iの重み付けを行なう
ものであり、従ってw_iの値としてはケプストラム、ケプ
ストラムの線形回帰係数、パワの線形回帰係数に対応し
て少なくとも３つの値を用いる。

このようにして量子化歪を、入力音声とすべての認識
対象語彙に対応したテンプレートとの間でそれぞれ求め
て、量子化歪蓄積部11に蓄えたのち、これらを候補単語
選択回路12に入力し、量子化歪がしきい値蓄積部13に蓄
えられているしきい値よりも小さい認識対象単語名を入
力音声の候補単語として端子14により出力する。あるい
は、すべての認識対象単語に対する量子化歪を比較し
て、比較的小さい量子化歪を有する一定数（例えば全体
の1/10、1000単語が対象なら100単語）の単語名を候補
単語として出力する。しきい値を小さくとれば候補単語
数が減り、後の時間正規化マッチング処理を大幅に少な
くすることができるが、小さくしすぎると正解である単
語が予備選択によって切り落とされ、以後の処理におい
ては回復できないものとなる。このしきい値の設定は方
式の使い方によって設定すべきであり、認識率と処理量
との関連において決定される。一定数の候補単語を出力
する場合に何番目までの候補を出力するかに関しても同
様である。

従来においては、例えばケプストラムについてのみク
ラスタ化を行い、入力音声のベクトル量子化を行って量
子化歪を計算していたが、この実施例においては、ケプ
ストラムとパワの線形回帰係数についてもケプストラム
と同一時点のものをまとめてクラスタ化とベクトル量子
化を行なっている。この線形回帰はケプストラムとパワ
の時間波形の直線近似であり、この近似の傾斜が線形回
帰係数であり、つまりケプストラム及びパワの変化の傾
向についても入力音声とテンプレートとの類似の度合い
を求めている。その結果として、入力音声のスペクトル
の定常部を異なる単語の過度部のテンプレートと対応づ
けたり、入力音声のスペクトルの過渡部を異なる単語の
定常部のテンプレートと対応づけたりすることがなくな
り、誰の音声に対しても高い精度を有する単語音声予備
選択システムを実現することができる。

これまでの実験によれば、不特定話者が発声した都市
名100単語を対象とした認識において、男性４名の音声
を用いて各単語のテンプレートを作成し、量子化歪に関
するしきい値を適切に設定すれば、上記４名の話者と異
なる男性20名の音声に対して、候補単語を平均4.5単語
に絞ることができ、このときに正しい単語が候補単語に
含まれる割合は99.9％になることが確かめられている。
ケプストラムのみを用いた従来の方法によれば、平均4
2.5単語にした絞ることができず、しかも正しい単語が
その中に含まれる割合は99.0％の精度しか得られなかっ
たことと比較して、この発明が優れていることが理解さ
れる。

「発明の効果」以上説明したように、この発明の予備選択装置によれ
ばスペクトルパラメータにその局所的時間変化特性を含
めて代表的パターンを選び、これによってベクトル量子
化するため、単語音声の時間的切り出しのずれの影響
や、単語中におけるゆっくりした伸縮の影響を受けにく
く、しかも代表的パターンと単語音声との間で、時間的
流れを考慮した適切な対応付けが行なわれるので、高性
能な予備選択を行なうことができる利点がある。

【図面の簡単な説明】

第１図は、この発明の実施例を示す単語音声予備選択装
置のブロック図である。 1:単語音声入力端子、2:音声区間検出回路、3:スペクト
ル分析部、4:スペクトルパラメータ蓄積部、5:線形回帰
係数計算回路、6:特徴パラメータレジスタ、7:スイッ
チ、8:クラスタ化部、9:テンプレート蓄積部、1:ベクト
ル量子化回路、11:量子化歪蓄積部、12:候補単語選択回
路、13:しきい値蓄積部、14:出力端子、15:重みレジス
タ。

Claims

(57)【特許請求の範囲】

【請求項１】未知入力音声単語の特徴パラメータと各認
識対象語彙の標準特徴パラメータとの時間正規化マッチ
ングを行って上記未知入力音声単語の認識を行う装置に
おいて、上記時間正規化マッチングを行うべき標準特徴
パラメータを予備選択する装置であって、音声波の周波数スペクトル及びパワの時間的変化を示す
パラメータを算出して蓄積する手段と、それらのパラメータの時間波形から線形回帰係数を短時
間毎に算出する手段と、上記認識対象語彙毎に上記パラメータ及び線形回帰係数
の組み合わせよりなる特徴パラメータをクラスタ化する
手段と、このクラスタ化の結果としての複数テンプレートを認識
対象語彙毎に蓄積する手段と、上記認識すべき音声波の上記パラメータ及び線形回帰係
数の時間波形を上記テンプレートを用いてベクトル量子
化する手段と、この量子化のときの認識対象語彙毎の歪量を計算する手
段と、この歪量の比較的小さい複数の認識対象語彙の標準特徴
パターンを上記時間正規化マッチングを行うべき標準特
徴パターンとして選択する手段を有する単語音声予備選
択装置。