JPS6340200A

JPS6340200A - 単語音声予備選択装置

Info

Publication number: JPS6340200A
Application number: JP61184521A
Authority: JP
Inventors: 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1986-08-06
Filing date: 1986-08-06
Publication date: 1988-02-20
Anticipated expiration: 2012-02-05
Also published as: JP2577891B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は大語量を認識対象とする単語音声認識に適用
して好ましく、情報量の多い時間正規化マツチングを行
う単語数を減少するために用いられる単語音声予備選択
装置に関するものである。

「従来の技術」単語音声認識方式において、あらがしめ認識対象単語の
すべてを標準特徴パラメータとして記憶しておき、未知
入力音声単語の特徴パラメータを検出し、その特徴パラ
メータと前記あらかしめ記憶した各単語の標４！特徴パ
ラメータとの時間正規化マツチングを行って、未知入力
音声単語を認識することが行われる。しかし認識対象単
語数が多く、つまり大語党を認識対象とする場合は時間
正規化マツチングに要する演算量が著しく多くなる。

従って未知入力音声単語についてまず簡単に認識して、
い（つかの単語を選択し、その各選択した単語の標準特
徴パラメータと未知入力音声単語との時間正規化マツチ
ングを行うことが提案されている。そのいくつかの単語
を選択することは単語予０ｉｆｆ選択と呼ばれる。この
単語予０Ｉ宥選択を比較的簡単に行うことにより、音声
単語認識を能率よく行うことができる。

従来の単語予備選択方法の第１の方法は、単語音声の特
徴を時間軸上で等間隔に区切り、その各区間毎に各特徴
パラメータを区間内の標本点で平均したものを用いて、
予備選択を行うものである。

第２の方法は単語音声のバワレヘルの変化を２値バタン
で表現し、あるいは音ｒＩｉ列の全体的な特徴、例えば
単語中に／ａ／が存在する等を２値パタンで表現し、こ
れらのバタン系列の単純な比較によって予備ｉ！沢を行
う方法である。さらに、第３の方法はｊｉｉ語音声の短
時間毎のスペクトルの変化をクラスタ化し、各単語を構
成する代表的スペクトルの集合をテンプレート集合とし
て作成して、このテンプレートを用いて入力音声のスペ
クトルをベクトル量子化し、このときの歪量にもとづい
て予備選択を行う方法である。

前記第１の予備選択方法においては、発声された昨語音
声の時間的切り出しのずれや、単語の発声中における途
中の伸ばしぐあいが、あらかしめ蓄えられている単語と
一敗せず区切りの位置に時間的ずれがある場合には、予
備選択能力が低下する。第２の予備選択方法に関しては
、バワレヘルバクンは羊語間で類似していることが多く
、音ａＨ列は十分な精度で抽出することが難しいため、
予備選択能力が低いという欠点がある。第３の方法は、
短時間毎のスペクトルの時間的流れ、継続時間等の時間
情報が考慮されないため、ある単語の比較的長い区間と
、異なる単語の瞬間的な区間とが対応づけられて、選択
誤りを多く生ずるという問題があった。

予備選択が悪いと多くの単語が選択されて、予備選択の
利益が得られない。あるいは正しい単語を予６Ｍ選択か
ら落として、誤認識又は認識不能となる。

この発明の目的は、従来の予（＠選択方法における上記
の欠点を解決するため、十分な精度で抽出できしかも時
間情報も含み、なおかつ音声区間の切り出しのずれや時
間的伸縮の影響を受けにくい特徴パラメータを用いて、
予備選択の高性能化を図り、これによって後のマツチン
グ演算の低減化を可能とする単語音声予備選択装置を提
供することにある。

［問題点を解決するための手段」この発明は、スペクトルパラメータの時間波形から導出
した比較的局所的な時間変化を示す線形回帰係数を短時
間ごとに算出する手段を設け、この線形回帰係数とスペ
クトルパラメータとの組み合わせを認識対象倍量ごとク
ラスタ化手段でクラスタ化し、これをテンプレートとし
て認識対象倍量ごとに蓄積しておき、認識すべき音声波
のスペクトルパラメータ及び線形回帰係数は前記テンプ
レートによりベクトル量子化され、そのときの歪量が計
算され、その値が比較的小さい？！数の単語が選択され
る。

この発明は従来の予備選択装置とは、スペクトルパラメ
ータとその線形回帰係数の同一時点のものを一種類のパ
ラメータであるかのように組み合わせてクラスタ化した
ものがテンプレートとして用いられ、このテンプレート
を用いてベクトル量子化が行われる点が異なる。

「実施例」第１図に、この発明による単語音声予備選択装置の実施
例を示す。単語音声入力端子１より入力された単語音声
入力は、音声区間検出回路２、スペクトル分析部３を経
由してスペクトル及び（対数）パワ分析され、その分析
結果はスペクトルパラメータ蓄積部４に蓄積される。ス
ペクトルを表現するパラメータとしては、比較的少数の
パラメータによってスペクトルが表現できるケプストラ
ム、ＬＳＰ　（線スペクトル対）パラメータ等が用いら
れる。以下では、ケプストラムを用いる場合について説
明を行う。ＬＳＰパラメータ等を用いる場合も全く同様
である。

スペクトルパラメータ蓄積部４に蓄積されたケプストラ
ム及びパワの時間波形は、回帰係数計算回路５に入力さ
れて、線形回帰係数が抽出されろ。

パワの絶対値は発声レベルによって変動しやすいのでこ
れは除き、ケプストラムと、ケプストラム及びパワの線
形回帰係数の時間波形（これらをまとめて特徴パラメー
タ波形と呼ぶ）をいったん特徴パラメータレジスタ６に
蓄える。学習モードと認識モードとをスイッチ７で切り
替えて、学習モードの場合は特徴パラメータ波形をクラ
スタ化部８に入力してクラスタ化を行い、各倍量毎に作
られた複数テンプレートをテンプレート蓄積部９に蓄積
する。認識モードの場合は、特徴パラメータ波形及び各
誘電の複数テンブレー１・をベクトル量子化回路１０に
入力して、各倍量の複数テンプレートを用いてベクトル
量子化を行ったときの歪量の計算を行い、その結果を量
子化歪Ｍ積部１１に蓄積する。すべての倍量に対するそ
の歪計を候補単語選択回路１２に入力して、比較的歪量
の小さいあらかじめ定められた数の倍量、あるいはしき
い値蓄積部１３に蓄えられているしきい値よりも小さい
歪量を存する誘電を示すデータを、候補単語を示すデー
タとして出力端子１４に与える。

さらに詳しく動作を説明する。まず単語音声入力端子１
から単語の認識に用いる音声波を入力する。人力された
音声波には通常、実際の音声の区間と無音（雑音）の区
間とが含まれているので、入力された音声波を音声区間
検出回路２に人力して、音声区間の検出を行う。この検
出には、すでによく知られているいくつかの方法、例え
ば入力信号波の短時間パワ、ある一定値用」−のパワが
継続する時間、等を用いることができる。検出された音
声区間の信号波はスペクトル分析部３に送られ、ケプス
トラムとパワの時間波形に変換される。

この技術は、すでに公知であるので（例えば、文献、古
川：ディジタル音声処理、東海大学出版会、ｐρ、４４
〜４８．１９８５参照）、詳細は省略するが、基本的に
はまず低域通過フィルタに通したのち標本化及び量子化
を行い、一定時間毎に短区間の波形を切り出してハミン
グ窓等を乗し、２回のフーリエ変換と対数変換、又は線
形予測分析と繰り返し演算によってケプストラムが抽出
される。

ハミング窓の長さとしては、例えば３０ｍ５これを更新
する周期としては、例えばｌ０ｍ５のような値が用いら
れる。ケプストラムはあらかじめ定めた第９次まで、例
えば第１次から第１Ｏ次までの値を計算する。

抽出されたケプストラムとパワの時間波形は、一定間隔
毎に一定の時間長の区間がスペクトルパラメータ蓄積部
４にいったん蓄えられ、この蓄積部４の内容は回帰係数
計算回路５に送られて、線形回帰係数が演算される。こ
のスペクトルパラメータ蓄積部４及び回帰係数計算回路
５に入力される時間波形の長さとしては、例えば５０ｍ
５．これを更新する周期としては、例えばｌ０ｍ５のよ
うな値を用いる。時間波形をＸｊ　　（ｊ＝−Ｍ、・・
・、Ｍ）であられすと、この線形回帰係数ａは次の演算
で求めることができる。

線形回帰係数は、各次数のケプストラム及びパワに対し
て１０ｍ５毎に更新される回帰係数計算回路５の入力に
応じて計算され、この線形回帰係数はケプストラムと合
わせて（２ｐ＋１）次元の特徴パラメータとして特徴パ
ラメータレジスフ６に送られて蓄えられる。

スイッチ７は、学習モードと認識モードとを選択するス
イッチであって、各倍量に対して、最初にスイッチ７を
端子７ａに接続しておいて、後に認識すべき音声を人力
する本人、あるいはその本人とは異なる複数人の音声か
ら特徴パラメータ波形を求め、クラスタ化部８において
、短時間毎の特徴パラメータについてクラスタ化を行う
。このクラスタ化は多数のパラメータの組を、あらかじ
め定められた一定数の代表的な組にまとめることである
０例えば４名の話者が発声したある単語音声からｌｏｍ
ｓ毎に（２ｐ　＋１）次元の特徴パラメータ（ケプスト
ラム、及びケプストラムとパワの回帰係数）が抽出され
ているとすると、単語音声の長さが平均して５００ｍ５
であるとすれば、全部で５０Ｘ４＝２００種類の（２ｐ
＋１）次元特徴パラメータが与えられる。これを例えば
３２種類の代表的（２ｐ＋１）次元特徴パラメータにま
とめるには、公知の方法（文献、Ｙ、Ｌｉｎｄｅ、　Ａ
、Ｂｕｚｏ。

ａｎｄ　Ｒ，Ｍ、Ｇｒａｙ：　　Ａｎ　ａｌｇｏｒｉｔ
ｈｍ　　ｆｏｒ　ｖｅｃｔｏｒ　ｑｕａｎｔｉ−ｚａｔ
ｉｏｎ＋　　ＩＥＥＥ　　Ｔｒａｎｓ、　　Ｃｏｍｍｕ
ｎ、、ｖｏｌ、ｃＯＭ−２８＋Ｉ）ｐ、８４−９５．１
９８０）を用いることができる。この方法は、頚４１ｆ
ｆしている特徴パラメータはまとめて一つの平均値で代
表させ、元の２００種類のすべての特徴パラメータを３
２種類の代表値のうちの最も近いものでおきかえたとき
の、おきかえによる誤差が全体として最も小さくなるよ
うに、代表値が決定される。このようにして、各認識対
象語彙に決定されたこれらの３２種類のそれぞれ（２ｐ
＋１）次元の特徴パラメータ代表値は、テンプレートと
して、テンプレート蓄積部９に蓄積される。

その後認識すべき音声に対しては、スイッチを端子７ｂ
に接続しておいて、特徴パラメータレジスタ６の内容、
即ち人力音声の短時間毎の特徴パラメータをベクトル量
子化回路１０に入力する。

ベクトル量子化回路では、各認識対象語型のテンプレー
トをテンプレート蓄積部９から順に読み出して、ベクト
ル量子化を行う、この処理は、入力音声の短時間毎の特
徴パラメータについて、最も近いテンプレートをｉＺぶ
ことによって行い、そのときのテンプレートと特徴パラ
メータとの誤差を入力音声全体について平均した値即ち
量子化歪を計算する。

ある単語ｋＯ１番目のテンプレートの特徴パラメータを
ｒ＋＋７＋（１≦１≦２ｐ＋１、ｐ次のケプストラム、
ｐ次のケプストラムの線形回帰係数、及びパワの線形回
帰係数とからなる）、入力音声のある時点ｍにおける特
徴パラメータをＸｏ、（１≦ｉ≦２ｐ＋１）で表わすと
、ここで両者の距離（小さくなればなるほど類似度が大
きいことを示す数値）として、次のような値を用いる。

ここで、Ｗｉ　は、各特徴パラメータに対してあらかじ
め定められた重みを示す数値で、この値は予備実験の結
果にもとづいて比較的高い精度が得られるように適切な
値に定め、重みレジスタ１５に蓄えておく。距Ｍｄの計
算は（２）弐に示すように、同一時点のｐ次のケプスト
ラム、ｐ次のケプストラムの線形回帰係数、及びパワの
回帰係数について入力音声とテンプレートとの差の二乗
和として計算しており、つまりスペクトルバラメークと
線形回帰係数との互いに性質が異なるものを一緒に使っ
ており、これらの平衡をとるためにＷ、の重み付けを行
なうものであり、従ってＷ、の値としてはケプストラム
、ケプストラムの線形回帰係数、パワの線形回帰係数に
対応して少なくとも３つの値を用いる。

このようにして量子化歪を、入力音声とすべての認識対
象語型に対応したテンプレートとの間でそれぞれ求めて
、量子化歪蓄積部１１に蓄えたのち、これらを候補単語
選択回路１２に入力し、量子化歪がしきい値蓄積部１３
に蓄えられているしきい値よりも小さい認識対象単語名
を入力音声の候補単語として端子１４により出力する。

あるいは、すべての認識対象単語に対する量子化歪を比
較して、比較的小さい量子化歪を有する一定数（例えば
全体の１／１０．１０００．１１語が対象なら１００単
語）の単語名を候補単語として出力する。

しきい値を小さくとれば候補単語数が減り、後の時間正
規化マツチング処理を大幅に少なくすることができるが
、小さくしすぎると正解である単語が予備選択によって
切り落とされ、以後の処理においては回復できないもの
となる。このしきい値の設定は方式の使い方によって設
定すべきであり、認識率と処理量との関連において決定
される。一定数の候補単語を出力する場合に何番目まで
の候補を出力するかに関しても同様である。

従来においては、例えばケプストラムについてのみクラ
スタ化を行い、入力音声のベクトル量子化を行なって量
子化歪を計算していたが、この実施例においては、ケプ
ストラムとパワの、線形回帰係数についてもケプストラ
ムと同一時点のものをまとめてクラスタ化とベクトル量
子化を行なっている。この線形回帰はケプストラムとパ
ワの時間波形の直線近値であり、この近似の傾斜が線形
回帰係数であり、つまりケプストラム及びパワの変化の
傾向についても入力音声とテンプレートとの類似の度合
いを求めている。その結果として、入力音声のスペクト
ルの定常部を異なる単語の過渡部のテンプレートと対応
づけたり、人力音声のスペクトルの過渡部を異なる単語
の定常部のテンプレートと対応づけたりすることがなく
なり、誰の音声に対しても高い精度を有する単語音声予
備選択システムを実現することができる。

これまでの実験によれば、不特定話者が発声した都市名
１００単語を対象とした認識において、男性４名の音声
を用いて各単語のテンプレートを作成し、量子化歪に関
するしきい値を適切に設定すれば、上記４名の話者と異
なる男性２０名の音声に対して、候補単語を平均４．５
単語に絞ることができ、このときに正しい単語が候補単
語に含まれる割合は９９．９％になることが確かめられ
ている。ケプストラムのみを用いた従来の方法によれば
、平均４２．５　単語にしか絞ることができず、しかも
正しい単語がその中に含まれる割合は９９．０％の精度
しか得られなかったことと比較して、この発明が優れて
いる、二とが理解される。

「発明の効果」以上説明したように、この発明の予（ＪＮｉ！択装置に
よればスペクトルパラメータにその局所的時間変化特性
を含めて代表的パターンを選び、これによってベクトル
量子化するため、単語音声の時間的切り出しのずれの影
響や、１１１語中におけるゆっくりした伸縮の影響を受
けにくく、しかも代表的パターンと単語音声との間で、
時間的流れを考慮した適切な対応付けが行なわれるので
、高性能な予備選択を行なうことができる利点がある。

【図面の簡単な説明】

第１図は、この発明の実施例を示す単語音声予備選択装
置のブロック図である。１：単語音声入力端子、２：音声区間検出回路、３ニス
ベクトル分析部、４ニスベクトルパラメ一タ蓄積部、５
：線形回帰係数計算回路、６：特徴パラメータレジスタ
、７；スイッチ、８：クラスタ化部、９：テンプレート
蓄積部、１．０：ベクトル量子化回路、１１：量子化歪
蓄積部、１２：候補単語選択回路、１３：しきい値蓄積
部、１４：出力端子、１５：ｆｆｉみレジスタ。

Claims

【特許請求の範囲】

（１）音声波の周波数スペクトル及びパワの時間的変化
を示すパラメータを算出して蓄積する手段と、それらのパラメータの時間波形から線形回帰係数を短時
間毎に算出する手段と、認識対象語彙毎に上記パラメータ及び線形回帰係数の組
み合わせをクラスタ化する手段と、このクラスタ化の結
果としての複数テンプレートを認識対象語彙毎に蓄積す
る手段と、認識すべき音声波の上記パラメータ及び線形回帰係数の
時間波形をこれらのテンプレートを用いてベクトル量子
化する手段と、この量子化のときの認識対象語彙の歪量を計算する手段
と、この歪量の比較的小さい複数の認識対象語彙を選択する
手段を有する単語音声予備選択装置。