JPS6340200A - 単語音声予備選択装置 - Google Patents

単語音声予備選択装置

Info

Publication number
JPS6340200A
JPS6340200A JP61184521A JP18452186A JPS6340200A JP S6340200 A JPS6340200 A JP S6340200A JP 61184521 A JP61184521 A JP 61184521A JP 18452186 A JP18452186 A JP 18452186A JP S6340200 A JPS6340200 A JP S6340200A
Authority
JP
Japan
Prior art keywords
word
speech
words
parameters
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61184521A
Other languages
English (en)
Other versions
JP2577891B2 (ja
Inventor
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61184521A priority Critical patent/JP2577891B2/ja
Publication of JPS6340200A publication Critical patent/JPS6340200A/ja
Application granted granted Critical
Publication of JP2577891B2 publication Critical patent/JP2577891B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は大語量を認識対象とする単語音声認識に適用
して好ましく、情報量の多い時間正規化マツチングを行
う単語数を減少するために用いられる単語音声予備選択
装置に関するものである。
「従来の技術」 単語音声認識方式において、あらがしめ認識対象単語の
すべてを標準特徴パラメータとして記憶しておき、未知
入力音声単語の特徴パラメータを検出し、その特徴パラ
メータと前記あらかしめ記憶した各単語の標4!特徴パ
ラメータとの時間正規化マツチングを行って、未知入力
音声単語を認識することが行われる。しかし認識対象単
語数が多く、つまり大語党を認識対象とする場合は時間
正規化マツチングに要する演算量が著しく多くなる。
従って未知入力音声単語についてまず簡単に認識して、
い(つかの単語を選択し、その各選択した単語の標準特
徴パラメータと未知入力音声単語との時間正規化マツチ
ングを行うことが提案されている。そのいくつかの単語
を選択することは単語予0iff選択と呼ばれる。この
単語予0I宥選択を比較的簡単に行うことにより、音声
単語認識を能率よく行うことができる。
従来の単語予備選択方法の第1の方法は、単語音声の特
徴を時間軸上で等間隔に区切り、その各区間毎に各特徴
パラメータを区間内の標本点で平均したものを用いて、
予備選択を行うものである。
第2の方法は単語音声のバワレヘルの変化を2値バタン
で表現し、あるいは音rIi列の全体的な特徴、例えば
単語中に/a/が存在する等を2値パタンで表現し、こ
れらのバタン系列の単純な比較によって予備i!沢を行
う方法である。さらに、第3の方法はjii語音声の短
時間毎のスペクトルの変化をクラスタ化し、各単語を構
成する代表的スペクトルの集合をテンプレート集合とし
て作成して、このテンプレートを用いて入力音声のスペ
クトルをベクトル量子化し、このときの歪量にもとづい
て予備選択を行う方法である。
前記第1の予備選択方法においては、発声された昨語音
声の時間的切り出しのずれや、単語の発声中における途
中の伸ばしぐあいが、あらかしめ蓄えられている単語と
一敗せず区切りの位置に時間的ずれがある場合には、予
備選択能力が低下する。第2の予備選択方法に関しては
、バワレヘルバクンは羊語間で類似していることが多く
、音aH列は十分な精度で抽出することが難しいため、
予備選択能力が低いという欠点がある。第3の方法は、
短時間毎のスペクトルの時間的流れ、継続時間等の時間
情報が考慮されないため、ある単語の比較的長い区間と
、異なる単語の瞬間的な区間とが対応づけられて、選択
誤りを多く生ずるという問題があった。
予備選択が悪いと多くの単語が選択されて、予備選択の
利益が得られない。あるいは正しい単語を予6M選択か
ら落として、誤認識又は認識不能となる。
この発明の目的は、従来の予(@選択方法における上記
の欠点を解決するため、十分な精度で抽出できしかも時
間情報も含み、なおかつ音声区間の切り出しのずれや時
間的伸縮の影響を受けにくい特徴パラメータを用いて、
予備選択の高性能化を図り、これによって後のマツチン
グ演算の低減化を可能とする単語音声予備選択装置を提
供することにある。
[問題点を解決するための手段」 この発明は、スペクトルパラメータの時間波形から導出
した比較的局所的な時間変化を示す線形回帰係数を短時
間ごとに算出する手段を設け、この線形回帰係数とスペ
クトルパラメータとの組み合わせを認識対象倍量ごとク
ラスタ化手段でクラスタ化し、これをテンプレートとし
て認識対象倍量ごとに蓄積しておき、認識すべき音声波
のスペクトルパラメータ及び線形回帰係数は前記テンプ
レートによりベクトル量子化され、そのときの歪量が計
算され、その値が比較的小さい?!数の単語が選択され
る。
この発明は従来の予備選択装置とは、スペクトルパラメ
ータとその線形回帰係数の同一時点のものを一種類のパ
ラメータであるかのように組み合わせてクラスタ化した
ものがテンプレートとして用いられ、このテンプレート
を用いてベクトル量子化が行われる点が異なる。
「実施例」 第1図に、この発明による単語音声予備選択装置の実施
例を示す。単語音声入力端子1より入力された単語音声
入力は、音声区間検出回路2、スペクトル分析部3を経
由してスペクトル及び(対数)パワ分析され、その分析
結果はスペクトルパラメータ蓄積部4に蓄積される。ス
ペクトルを表現するパラメータとしては、比較的少数の
パラメータによってスペクトルが表現できるケプストラ
ム、LSP (線スペクトル対)パラメータ等が用いら
れる。以下では、ケプストラムを用いる場合について説
明を行う。LSPパラメータ等を用いる場合も全く同様
である。
スペクトルパラメータ蓄積部4に蓄積されたケプストラ
ム及びパワの時間波形は、回帰係数計算回路5に入力さ
れて、線形回帰係数が抽出されろ。
パワの絶対値は発声レベルによって変動しやすいのでこ
れは除き、ケプストラムと、ケプストラム及びパワの線
形回帰係数の時間波形(これらをまとめて特徴パラメー
タ波形と呼ぶ)をいったん特徴パラメータレジスタ6に
蓄える。学習モードと認識モードとをスイッチ7で切り
替えて、学習モードの場合は特徴パラメータ波形をクラ
スタ化部8に入力してクラスタ化を行い、各倍量毎に作
られた複数テンプレートをテンプレート蓄積部9に蓄積
する。認識モードの場合は、特徴パラメータ波形及び各
誘電の複数テンブレー1・をベクトル量子化回路10に
入力して、各倍量の複数テンプレートを用いてベクトル
量子化を行ったときの歪量の計算を行い、その結果を量
子化歪M積部11に蓄積する。すべての倍量に対するそ
の歪計を候補単語選択回路12に入力して、比較的歪量
の小さいあらかじめ定められた数の倍量、あるいはしき
い値蓄積部13に蓄えられているしきい値よりも小さい
歪量を存する誘電を示すデータを、候補単語を示すデー
タとして出力端子14に与える。
さらに詳しく動作を説明する。まず単語音声入力端子1
から単語の認識に用いる音声波を入力する。人力された
音声波には通常、実際の音声の区間と無音(雑音)の区
間とが含まれているので、入力された音声波を音声区間
検出回路2に人力して、音声区間の検出を行う。この検
出には、すでによく知られているいくつかの方法、例え
ば入力信号波の短時間パワ、ある一定値用」−のパワが
継続する時間、等を用いることができる。検出された音
声区間の信号波はスペクトル分析部3に送られ、ケプス
トラムとパワの時間波形に変換される。
この技術は、すでに公知であるので(例えば、文献、古
川:ディジタル音声処理、東海大学出版会、pρ、44
〜48.1985参照)、詳細は省略するが、基本的に
はまず低域通過フィルタに通したのち標本化及び量子化
を行い、一定時間毎に短区間の波形を切り出してハミン
グ窓等を乗し、2回のフーリエ変換と対数変換、又は線
形予測分析と繰り返し演算によってケプストラムが抽出
される。
ハミング窓の長さとしては、例えば30m5これを更新
する周期としては、例えばl0m5のような値が用いら
れる。ケプストラムはあらかじめ定めた第9次まで、例
えば第1次から第1O次までの値を計算する。
抽出されたケプストラムとパワの時間波形は、一定間隔
毎に一定の時間長の区間がスペクトルパラメータ蓄積部
4にいったん蓄えられ、この蓄積部4の内容は回帰係数
計算回路5に送られて、線形回帰係数が演算される。こ
のスペクトルパラメータ蓄積部4及び回帰係数計算回路
5に入力される時間波形の長さとしては、例えば50m
5.これを更新する周期としては、例えばl0m5のよ
うな値を用いる。時間波形をXj  (j=−M、・・
・、M)であられすと、この線形回帰係数aは次の演算
で求めることができる。
線形回帰係数は、各次数のケプストラム及びパワに対し
て10m5毎に更新される回帰係数計算回路5の入力に
応じて計算され、この線形回帰係数はケプストラムと合
わせて(2p+1)次元の特徴パラメータとして特徴パ
ラメータレジスフ6に送られて蓄えられる。
スイッチ7は、学習モードと認識モードとを選択するス
イッチであって、各倍量に対して、最初にスイッチ7を
端子7aに接続しておいて、後に認識すべき音声を人力
する本人、あるいはその本人とは異なる複数人の音声か
ら特徴パラメータ波形を求め、クラスタ化部8において
、短時間毎の特徴パラメータについてクラスタ化を行う
。このクラスタ化は多数のパラメータの組を、あらかじ
め定められた一定数の代表的な組にまとめることである
0例えば4名の話者が発声したある単語音声からlom
s毎に(2p +1)次元の特徴パラメータ(ケプスト
ラム、及びケプストラムとパワの回帰係数)が抽出され
ているとすると、単語音声の長さが平均して500m5
であるとすれば、全部で50X4=200種類の(2p
+1)次元特徴パラメータが与えられる。これを例えば
32種類の代表的(2p+1)次元特徴パラメータにま
とめるには、公知の方法(文献、Y、Linde、 A
、Buzo。
and R,M、Gray:  An algorit
hm  for vector quanti−zat
ion+  IEEE  Trans、  Commu
n、、vol、cOM−28+I)p、84−95.1
980)を用いることができる。この方法は、頚41f
fしている特徴パラメータはまとめて一つの平均値で代
表させ、元の200種類のすべての特徴パラメータを3
2種類の代表値のうちの最も近いものでおきかえたとき
の、おきかえによる誤差が全体として最も小さくなるよ
うに、代表値が決定される。このようにして、各認識対
象語彙に決定されたこれらの32種類のそれぞれ(2p
+1)次元の特徴パラメータ代表値は、テンプレートと
して、テンプレート蓄積部9に蓄積される。
その後認識すべき音声に対しては、スイッチを端子7b
に接続しておいて、特徴パラメータレジスタ6の内容、
即ち人力音声の短時間毎の特徴パラメータをベクトル量
子化回路10に入力する。
ベクトル量子化回路では、各認識対象語型のテンプレー
トをテンプレート蓄積部9から順に読み出して、ベクト
ル量子化を行う、この処理は、入力音声の短時間毎の特
徴パラメータについて、最も近いテンプレートをiZぶ
ことによって行い、そのときのテンプレートと特徴パラ
メータとの誤差を入力音声全体について平均した値即ち
量子化歪を計算する。
ある単語kO1番目のテンプレートの特徴パラメータを
r++7+(1≦1≦2p+1、p次のケプストラム、
p次のケプストラムの線形回帰係数、及びパワの線形回
帰係数とからなる)、入力音声のある時点mにおける特
徴パラメータをXo、(1≦i≦2p+1)で表わすと
、ここで両者の距離(小さくなればなるほど類似度が大
きいことを示す数値)として、次のような値を用いる。
ここで、Wi は、各特徴パラメータに対してあらかじ
め定められた重みを示す数値で、この値は予備実験の結
果にもとづいて比較的高い精度が得られるように適切な
値に定め、重みレジスタ15に蓄えておく。距Mdの計
算は(2)弐に示すように、同一時点のp次のケプスト
ラム、p次のケプストラムの線形回帰係数、及びパワの
回帰係数について入力音声とテンプレートとの差の二乗
和として計算しており、つまりスペクトルバラメークと
線形回帰係数との互いに性質が異なるものを一緒に使っ
ており、これらの平衡をとるためにW、の重み付けを行
なうものであり、従ってW、の値としてはケプストラム
、ケプストラムの線形回帰係数、パワの線形回帰係数に
対応して少なくとも3つの値を用いる。
このようにして量子化歪を、入力音声とすべての認識対
象語型に対応したテンプレートとの間でそれぞれ求めて
、量子化歪蓄積部11に蓄えたのち、これらを候補単語
選択回路12に入力し、量子化歪がしきい値蓄積部13
に蓄えられているしきい値よりも小さい認識対象単語名
を入力音声の候補単語として端子14により出力する。
あるいは、すべての認識対象単語に対する量子化歪を比
較して、比較的小さい量子化歪を有する一定数(例えば
全体の1/10.1000.11語が対象なら100単
語)の単語名を候補単語として出力する。
しきい値を小さくとれば候補単語数が減り、後の時間正
規化マツチング処理を大幅に少なくすることができるが
、小さくしすぎると正解である単語が予備選択によって
切り落とされ、以後の処理においては回復できないもの
となる。このしきい値の設定は方式の使い方によって設
定すべきであり、認識率と処理量との関連において決定
される。一定数の候補単語を出力する場合に何番目まで
の候補を出力するかに関しても同様である。
従来においては、例えばケプストラムについてのみクラ
スタ化を行い、入力音声のベクトル量子化を行なって量
子化歪を計算していたが、この実施例においては、ケプ
ストラムとパワの、線形回帰係数についてもケプストラ
ムと同一時点のものをまとめてクラスタ化とベクトル量
子化を行なっている。この線形回帰はケプストラムとパ
ワの時間波形の直線近値であり、この近似の傾斜が線形
回帰係数であり、つまりケプストラム及びパワの変化の
傾向についても入力音声とテンプレートとの類似の度合
いを求めている。その結果として、入力音声のスペクト
ルの定常部を異なる単語の過渡部のテンプレートと対応
づけたり、人力音声のスペクトルの過渡部を異なる単語
の定常部のテンプレートと対応づけたりすることがなく
なり、誰の音声に対しても高い精度を有する単語音声予
備選択システムを実現することができる。
これまでの実験によれば、不特定話者が発声した都市名
100単語を対象とした認識において、男性4名の音声
を用いて各単語のテンプレートを作成し、量子化歪に関
するしきい値を適切に設定すれば、上記4名の話者と異
なる男性20名の音声に対して、候補単語を平均4.5
単語に絞ることができ、このときに正しい単語が候補単
語に含まれる割合は99.9%になることが確かめられ
ている。ケプストラムのみを用いた従来の方法によれば
、平均42.5 単語にしか絞ることができず、しかも
正しい単語がその中に含まれる割合は99.0%の精度
しか得られなかったことと比較して、この発明が優れて
いる、二とが理解される。
「発明の効果」 以上説明したように、この発明の予(JNi!択装置に
よればスペクトルパラメータにその局所的時間変化特性
を含めて代表的パターンを選び、これによってベクトル
量子化するため、単語音声の時間的切り出しのずれの影
響や、111語中におけるゆっくりした伸縮の影響を受
けにくく、しかも代表的パターンと単語音声との間で、
時間的流れを考慮した適切な対応付けが行なわれるので
、高性能な予備選択を行なうことができる利点がある。
【図面の簡単な説明】
第1図は、この発明の実施例を示す単語音声予備選択装
置のブロック図である。 1:単語音声入力端子、2:音声区間検出回路、3ニス
ベクトル分析部、4ニスベクトルパラメ一タ蓄積部、5
:線形回帰係数計算回路、6:特徴パラメータレジスタ
、7;スイッチ、8:クラスタ化部、9:テンプレート
蓄積部、1.0:ベクトル量子化回路、11:量子化歪
蓄積部、12:候補単語選択回路、13:しきい値蓄積
部、14:出力端子、15:ffiみレジスタ。

Claims (1)

    【特許請求の範囲】
  1. (1)音声波の周波数スペクトル及びパワの時間的変化
    を示すパラメータを算出して蓄積する手段と、 それらのパラメータの時間波形から線形回帰係数を短時
    間毎に算出する手段と、 認識対象語彙毎に上記パラメータ及び線形回帰係数の組
    み合わせをクラスタ化する手段と、このクラスタ化の結
    果としての複数テンプレートを認識対象語彙毎に蓄積す
    る手段と、 認識すべき音声波の上記パラメータ及び線形回帰係数の
    時間波形をこれらのテンプレートを用いてベクトル量子
    化する手段と、 この量子化のときの認識対象語彙の歪量を計算する手段
    と、 この歪量の比較的小さい複数の認識対象語彙を選択する
    手段を有する単語音声予備選択装置。
JP61184521A 1986-08-06 1986-08-06 単語音声予備選択装置 Expired - Fee Related JP2577891B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61184521A JP2577891B2 (ja) 1986-08-06 1986-08-06 単語音声予備選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61184521A JP2577891B2 (ja) 1986-08-06 1986-08-06 単語音声予備選択装置

Publications (2)

Publication Number Publication Date
JPS6340200A true JPS6340200A (ja) 1988-02-20
JP2577891B2 JP2577891B2 (ja) 1997-02-05

Family

ID=16154655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61184521A Expired - Fee Related JP2577891B2 (ja) 1986-08-06 1986-08-06 単語音声予備選択装置

Country Status (1)

Country Link
JP (1) JP2577891B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58159598A (ja) * 1982-03-03 1983-09-21 富士通株式会社 単音節音声認識方式
JPS58223193A (ja) * 1982-06-19 1983-12-24 富士通株式会社 多数単語音声認識方式
JPS61141500A (ja) * 1984-12-14 1986-06-28 日本電信電話株式会社 単語音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58159598A (ja) * 1982-03-03 1983-09-21 富士通株式会社 単音節音声認識方式
JPS58223193A (ja) * 1982-06-19 1983-12-24 富士通株式会社 多数単語音声認識方式
JPS61141500A (ja) * 1984-12-14 1986-06-28 日本電信電話株式会社 単語音声認識装置

Also Published As

Publication number Publication date
JP2577891B2 (ja) 1997-02-05

Similar Documents

Publication Publication Date Title
CN1121681C (zh) 语言处理
Tiwari MFCC and its applications in speaker recognition
US5583961A (en) Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5526466A (en) Speech recognition apparatus
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
Bharti et al. Real time speaker recognition system using MFCC and vector quantization technique
US4426551A (en) Speech recognition method and device
EP0475759B1 (en) Phoneme discrimination method
JPS63259687A (ja) 音声信号認識方法およびその方法を実施する装置
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
US5274739A (en) Product code memory Itakura-Saito (MIS) measure for sound recognition
WO1994022132A1 (en) A method and apparatus for speaker recognition
JP2577891B2 (ja) 単語音声予備選択装置
JP3098593B2 (ja) 音声認識装置
JP2001083978A (ja) 音声認識装置
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
JPS59131999A (ja) 音声認識装置
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
WO2001039179A1 (en) System and method for speech recognition using tonal modeling
JPH0221598B2 (ja)
JPS6126680B2 (ja)
JPH0451037B2 (ja)
JPH01185599A (ja) 音声認識装置
Zhou et al. Novel discriminative vector quantization approach for speaker identification
Bodruzzaman et al. Parametric feature-based voice recognition system using artificial neural network

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees