JP2792709B2

JP2792709B2 - 音声認識装置

Info

Publication number: JP2792709B2
Application number: JP2069248A
Authority: JP
Inventors: 耕市山口; 憲治坂本
Original assignee: Consejo Superior de Investigaciones Cientificas CSIC
Current assignee: Consejo Superior de Investigaciones Cientificas CSIC
Priority date: 1990-03-19
Filing date: 1990-03-19
Publication date: 1998-09-03
Anticipated expiration: 2013-09-03
Also published as: JPH03269500A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、不特定話者の発生する言葉を認識し得るニ
ューラルネットワークを用いた音声認識装置に係り、特
に時間軸の非線形整合を高精度化することができる音声
認識装置に関する。

［従来の技術］ニューラルネットワークと呼ばれる神経回路網をモデ
ル化した新しい手法が音声認識の分野に応用されつつあ
り、「ニューラルネットによる音声情報処理」，中川・
著,bit9月号,183〜195頁,1989年Vol.21,No.11及び「ニ
ューラルネットの音声情報処理への応用」，鹿野・著，
信学会専門講習会講演論文集,27〜40頁，昭和63年９月
に記載されているように、誤差逆伝播法（以後、BP法と
呼ぶ）を用いた多層パーセプトロン型ニューラルネット
ワークの他に様々なアプローチが試みられている。

従来の音声認識方法には、次のような方法がある。一
つの方法は、入力音声を音響分析し、各フレーム毎に特
徴ベクトルを抽出し、抽出した特徴ベクトルを時系列の
２次元パターンとしてニューラルネットワークの入力層
に入力して、入力音声を識別できるような教師信号を出
力層に与え、BP法により各結合の重み係数が学習され
る。入力音声は、同じ単語でも発声されるたびに継続時
間長が変わるのに対し、ニューラルネットワークの入力
層のユニット数は一定なので、入力音声データ系列を一
定の長さに正規化し、学習されたニューラルネットワー
クに未知の入力音声の特徴ベクトル系列を入力し、ニュ
ーラルネットワークの出力層のユニットの出力値に応じ
て入力音声を認識する。

もう一つの方法は、マルチテンプレート方式と呼ばれ
ており、各単語ごとに多数話者の音声データをクラスタ
化して、各クラスタの中心の音声データ又は各クラスタ
に属する音声データの平均値を標準パターンとして蓄え
る。クラスタ化には複数のアルゴリズムを組合せて用い
る。未知の入力音声に対しては、全単語の全標準パター
ンと動的計画法（以後、DP（Dynamic Programming）マ
ッチングと呼ぶ）を行って距離を計算し、最も距離の小
さい標準パターンが属する単語を発声されたものと判断
する。この方法にニューラルネットワークを応用したも
のとして、出願人等によるイベントネットを用いた「音
声認識装置」（特願平１−344045号）がある。

上述した従来の方法では、いずれも入力音声の語頭及
び語尾を検出する必要があり、語頭及び語尾により定め
られる音声区間の検出は、一定のしきい値以上の短時間
パワーが一定時間以上継続したか否かによって行われ
る。短時間パワーのしきい値としては２種類が設定さ
れ、音声区間は、これら２種類のしきい値を組み合わせ
ることにより、または、短時間パワーの他に零交叉、雑
音区間のスペクトルとの差等を用いて検出する。

しかし、音声は時系列パターンであり、同じ単語でも
発声されるたびに継続時間長が変わり、その内部におけ
る音韻事象の時間変動も線形ではない。また、咳払い、
紙を捲る音等に対しても、誤動作しないことが望ましい
が不要音と認識対象語彙とを区別するには、任意の文章
音声中からあらかじめ定められた言葉だけを自動的に抽
出するワードスポッテイング方式が必要である。

［発明が解決しようとする問題点］上述のDPマッチングを用いたマルチテンプレート方式
は、認識処理に先立って音声区間の検出が必要で、音声
区間を正しく検出すること自体容易ではなく、特に音声
の始端及び終端の子音及びレベルの低い母音の検出が難
しい。また、音声の終端に付加される呼吸音等を正しく
除去する必要があるが、短時間パワーまたは零交叉数等
を用いる従来の方法では、これらの要求を充分に満たす
ことができないので、音声区間を誤って検出し、認識率
を低下させるという問題がある。

上述のワードスポッテイング方式においては、連続DP
は計算量も多く、また、余計な言葉の付加及び単語音韻
の脱落を生じやすいという問題がある。

上述のニューラルネットワークを用いた方式において
は、ニューラルネットワークの入力層は一定数のユニッ
トから構成されているので、入力音声区間を正規化しな
ければならない。正規化を線形で行うと、音声に含まれ
ていると共に識別に必要な音韻に固有の動的な情報が歪
曲または欠落してしまう可能性があり、単語中の非線形
な時間伸縮が補正できない。

また、上述のイベントネットを用いる方式では、音声
区間を各イベントネットの入力層に所定のアルゴリズム
で分割しているので、イベントネットを作用させる前に
入力音声区間の検出が必要であり、検出された音声区間
を一定数で分割する方式を用いているので、イベントネ
ット等、ニューラルネットワークの標準パターンに相当
する部分に対応する単語のもつ継続時間長に関する情報
が直接的には入力されず、従って、入力音声の継続時間
長の長短にかかわらず、ニューラルネットワークの出力
を算出して、すべての標準パターンと照合するため、リ
ジェクト能力の低下を生ずる可能性があり、更に、音声
区間内の非線形な時間軸変動に対して、同じイベントネ
ットを時間軸の前後に一定量だけ移動して追従しようと
しているので、より大きな非線形の時間変動を伴う入力
音声について対応できないという問題がある。

本発明の目的は、安定した重み係数を求め得ると共
に、入力される音声区間内の非線形な時間軸変動に対し
て音声の単語中の各音韻の局所的な継続時間のずれに適
応できるニューラルネットワークを用いた音声認識装置
を提供することにある。

［課題を解決するための手段］本発明によれば、前記目的は、入力音声を音響分析し
て得られた特徴量を多層パーセプトロン型ニューラルネ
ットワークの入力層の各ユニットに入力し、出力層の各
ユニットとからの出力値に応じて音声認識を行う音声認
識装置であって、入力音声を各フレーム毎に音響分析し
て得られた特徴量から該入力音声の始端を検出する検出
手段と、前記検出された入力音声の始端付近から順次、
多数話者の音声サンプルから抽出された時間間隔情報に
基づいて前記特徴量を所定の範囲内でずらし、当該時間
的にずらされた特徴量のなかで出力値が最大になる位置
を選択して、認識対象語彙のうち特定の単語の部分音韻
系列との類似度に相当する値を出力すると共に、選択し
た前記出力値が最大になる位置から前記入力音声の終端
を検出するように構成されているイベントネットと、前
記イベントネットに接続されており当該イベントネット
からの出力の全てを入力し、前記入力音声に対して前記
特定の単語との類似度に相当する値を出力するワードネ
ットと、前記ワードネットに接続されており当該ワード
ネットからの出力の全てを入力し、該入力音声の属する
認識分類に応じた値を出力するスーパーネットとを備
え、前記イベントネット、前記ワードネット及び前記ス
ーパーネットは、それぞれ多層パーセプトロン型ニュー
ラルネットワークで構成されていることを特徴とする音
声認識装置によって達成される。

［作用］イベントネットが入力音声に対して、認識対象語彙の
うち特定の単語の部分音韻系列との類似度に相当する値
を出力し、多数話者の音声サンプルを分析することによ
り隣接する前記イベントネット間の時間間隔情報を抽出
し、前記入力音声を各フレーム毎に音響分析して得られ
た特徴量から該入力音声の始端を検出手段によって検出
して該特徴量前記イベントネットの入力層の各ユニット
に入力し、前記検出された入力音声の始端付近から順
次、前記検出された時間間隔情報に基づいて所定の範囲
内で前記イベントネットに入力する特徴量を時間的に移
動し、イベントネットは時間的に移動された特徴量のな
かで出力値が最大になる位置を選択して、認識対象語彙
のうち特定の単語の部分音韻系列との類似度に相当する
値を出力すると共に、選択した前記出力値が最大になる
位置から前記入力音声の終端を検出し、ワードネットが
イベントネットからの出力の全てを入力し、入力音声に
対して特定の単語との類似度に相当する値を出力し、ス
ーパーネットがワードネットからの出力の全てを入力
し、入力音声の属する認識分類に応じた値を出力する。

［実施例］以下、本発明を図面に示す一実施例により詳細に説明
する。

第３図は、本実施例による音声認識装置の構成を示
す。マイクロホン101から入力された音声は、アンプ102
によって増幅され、A/D変換器103でアナログからディジ
タルに変換された後、音響分析部104に入力される。

音響分析部104では、複数の帯域濾波器（以下、BPFと
いう）105を用いて入力された音声を音響分析し、フレ
ーム毎に各BPF105の出力パワーの値を出力する。

また、ネットワークの規模を小さくするために、特徴
ベクトル106をＫ−Ｌ変換を用いて圧縮部107で圧縮し、
入力音声の特徴ベクトル106の次元を減少させる。

圧縮部107で圧縮された特徴ベクトル106は、検出手段
としての語頭検出部108で判定され、その判定結果によ
り入力音声の始端としての語頭が検出された場合には、
イベントネット群109の各イベントネット110（第１図及
び第２図参照）に入力される。

語頭が検出されない場合には、特徴ベクトル106は、
イベントネット群109に入力されない。

語頭検出部108としては、一定のしきい値以上の値が
一定時間以上継続したか否かに依存する短時間パワーの
他に、零交叉数またはBPF分析結果を利用した低域パワ
ー比、高域パワー比等を用いることもある。

イベントネット群109への特徴ベクトル106の送付は、
検出された語頭直後から送るのではなく検出された語頭
より少し前にさかのぼった時点から送る。

このために、圧縮部107では圧縮された複数の特徴ベ
クトル106から形成された特徴ベクトル系列111（第１図
及び第２図参照）を一定フレーム分バッファに貯えてお
く必要がある。

入力音声の特徴ベクトル106は、各イベントネット110
に入力され、各イベントネット110からの出力が各ワー
ドネット112にそれぞれ入力される。イベントネット110
とワードネット112との組の数は認識対象語彙の分類数
に対応しており、それぞれのワードネット112の出力は
スーパーネット113に入力される。

入力音声の特徴ベクトル106の特定の位置におけるイ
ベントネット110の入力層の入力フレーム114に相当する
範囲が、イベントネット110の入力層に入力され、特定
の認識対象の単語について入力層に入力する入力フレー
ム114を時間軸方向に移動したものがＮ個（但し、Ｎ
は、正の整数）あり、本実施例ではＮ＝５である。

以下、時間軸方向への移動のし方について、認識時の
動作について詳述する。

認識対象の第ｉ番目の単語を認識する第ｊ番目のイベ
ントネットの名称をE_ijとすると、各E_ijの出力層には２
つのユニットC_ij、▲▼がある。

E_ijが認識を担当している単語（第ｉ番目に相当す
る）の部分音韻系列（単語の継続時間長を１とおくと、
語頭からj/N付近に相当する）が入力された場合には、となるように学習されている。

逆に、上記の部分音韻系列以外のものが入力された場
合は、となるように学習されている。

即ち、C_ijはE_ijが担当する単語中のある時点に対して
高い値になる。

時間軸方向へのずらし間隔は、圧縮特徴ベクトル106
の１フレームとする。計算量を削減させたいときには、
２フレームとしてもよい。

時間軸方向へのずらし範囲の量、即ちフレームの数を
ｎとすると、E_ijは前から順に、E_ij1、E_ij2、……、E
_ijnと呼び、それぞれの出力をC_ij1、C_ij2、……、C_ijn
とおくと、ワードネットへの入力としては、このｎ個中
の最大値を選択する。

ｎの値は、E_ijによって異なり、本実施例では、第１
図に示すようにE_i1に対して、ｎ＝５、E_i2に対して、ｎ
＝７に設定されている。第１図においては、各イベント
ネットのサーチ範囲が横棒の矢印で示されており、各C
_ijl（ｊ＝1,2,…,5）の最大値選択で最大値として選択
された位置が太い実線で表されている。例えば、E_i1で
は、E_i12、E_i2ではE_i25がそれぞれ選択されている。

E_i1のサーチ範囲は、検出された語頭を中心として、
その前後に一定量、例えば３フレームずつとするか、ま
たは、多数話者の統計により、単語全体の継続時間長の
標準偏差の定数倍としてもよい。

E_ij（但し、ｊ＞１）のサーチ範囲は、多数話者の統
計によりあらかじめ求められているE_ijを１つ前のE_ij-1
（但し、マイナス−の記号は、ｊのみに作用する、以下
同様）との時間的な差の平均ｍ及び標準偏差σｊに基づ
いて、以下に詳述するように算出される。尚、平均ｍ
は、ｊに依存せず一定である。C_ij-1、C_ij-2、…、C
_ij-nの中から最大値を選ぶことでE_ij-1の位置が決定さ
れる。例えば、第１図において、ｊ＝２のときC_i12が最
大となって選択されている。

E_ijのサーチ範囲は、このC_ij-1の最大位置を基準にｍ
−ｋσ_ｊからｍ＋ｋσ_ｊの範囲である。ここでｋは定数
で２〜３とする。但し、C_ij−１の最大位置よりｍ−ｋ
σ_ｊが小さい場合は、サーチ範囲をｍ−ｋσ_ｊとする。
即ち、サーチ範囲を（L_j,R_j）と設定すると、 L_j＝MAX（ｍ−ｋσ_j,C_ij-1の最大位置）、 R_j＝ｍ＋ｋσｊとして表される。

第２図は、16チャンネルBPFの出力パワーの時系列と
イベントネットE_ijに入力する入力フレーム114との間の
関係を示す。16チャンネルBPFの出力パワーの部分は、
縦方向にBPFの番号を示して、各BPFの出力値を結んで連
続線で表し、また、横方向に時間を示している。

第２図は、更に、イベントネットE_i2を時間的にシフ
トする場合を示している。各イベントネットE_ijに、図
示した入力フレーム114を入力し、出力層のユニットか
らの出力をC_i2の値が夫々、C_i21、C_i22、……、C_i27と
すると、そのうち最大の値を出力しているイベントネッ
トE_ijl（ｌ＝1,2,……,7）の出力層のユニットの出力値
をワードネット112の入力層のユニットに入力する。

ここでも、最大値を出力したE_i25が太い実線で表され
ている。図中、ラベルは、ここで用いた音声サンプル
「はち」/hachi/の音素記号表記であり、ｈは［ｈ］、
ａは［ａ］、clは無音区間、chは［ｔ∫］、ｉは［ｉ］
に夫々対応する。

再び第１図を参照すると、第１図では、E_i12が選択さ
れているので、E_i2のサーチ範囲は、E_i13の位置から始
まり、前述の時間間隔情報を用いてｌ＝７までとなって
いる。

ｊ＝２のとき、C_i21、C_i22、……、C_i27の中から、最
大値であるC_i25が選択される。

最大値選択に際しては、単純にMAX（C_ijl）とせず
に、イベントネットの性質及び計算量により、次のよう
な変形も考えられる。

まず、第１に、全てのC_ijl（ｌ＝1,2,…,n）が小さい
値の場合は、最大値選択を行わずに範囲の中心ｌ＝ｍを
選択する。これによりE_ijの担当する単語以外の入力に
対して、不必要な整合を避け、リジェクト能力を高める
ことができる。

第２に、全てのC_ijl（ｌ＝1,2,…,n）が大きい値のと
きも上述の場合と同様、ｌ＝ｍとする。これにより、長
母音等に見られる同じような特徴ベクトルが長く続く場
合に、不自然な整合を避けることができる。

第３に、全てのC_ijl（ｌ＝1,2,…,m）が小さい値のと
きは、サーチ範囲を一定量αだけ拡大し、ｍ＝ｍ＋αと
してｌ＝ｍ＋１、ｍ＋２、……ｍ＋αについてC_ijlを求
め、最大値の選択を行う。これにより、特に発声速度の
遅いサンプルに対して有効に作用する。

第４に、第ｊ番目まで、C_ijが全て小さい値のとき
は、ｊ＋１番目以降のイベントネットの計算は行わず、
このイベントネットに接続するワードネットの出力を
（0,1）とする。つまり、第ｉ番目の単語については、
途中で計算を打ち切り、次の第ｉ＋１番目の単語に処理
を進める。ｊの値としては２〜３が適当であり、認識語
彙に類似単語が少ない場合は、計算量がおよそ半分に削
減できる。

以上のように、イベントネット110は，それぞれ入力
された入力フレーム114の特徴ベクトル106とイベントネ
ット110が識別する特定の単語の部分音韻系列との類似
度に相当する値を出力する。ワードネット112は、入力
音声とワードネット112が識別する特定の単語との類似
度に相当する値を出力する。５つのイベントネット110
の出力は全てワードネット112の入力層に入力される。

ワードネット112は、単語全体として入力音声とワー
ドネット112が識別する特定の単語との類似度に相当す
る値を出力する。認識対象語彙数を30個とすると、ワー
ドネット112は30個あり、その出力すべてがスーパーネ
ット113の入力層に入力される。スーパーネット113の出
力層には、認識対象の分類番号に対応する30個のユニッ
トと，リジェクトを表す１個のユニットとを備えてい
る。スーパーネット113は、入力音声が認識対象語彙の
中にあるなら、その分類番号に対応する出力層のユニッ
トの出力値が他のユニットに比べ最大になるように各結
合の重み係数を決定する。

入力音声が認識対象語彙でない場合、リジェクトに対
応する出力層のユニットの出力値が他のユニットに比べ
最大になる。スーパーネット113の出力は、認識結果判
定部115に入力される。認識結果判定部115では、スーパ
ーネット113の出力層において最大の出力を出している
ユニットのユニット番号を検索して出力する。出力され
たユニット番号の値が結果出力部116に入力され、認識
結果が表示される。音響分析部104から認識結果判定部1
15までをディジタルシグナルプロセッサ（以下、DSPと
略称）上に構成することが可能である。

実際の認識時においては、語頭検出の直後から各標準
パターンのイベントネットE_i1の計算を始める。即ち、
時間の経過と共に順次各E_i1、E_i2、……、のサーチ範囲
の特徴ベクトルが入力されるのと同期して、各E_i1、
E_i2、……、が計算される。

次に、E_i5の計算が終了した標準パターンから順次そ
のワードネット112が計算される。最終的に全ての標準
パターンのワードネット112が計算されると、スーパー
ネット113が計算され、認識結果判定部に処理が移行す
る。

従来のように語尾検出の後に認識処理を行うのではな
く、語頭の検出直後から認識処理が始まり、発声時間の
経過とほぼ同時に進行してイベントネットE_ijによる認
識処理が行なわれるので認識応答時間の大幅な短縮が可
能になる。

次に、各ニューラルネットワークの結合の重み係数を
求める方法、即ち学習方法について詳述する。

（Ａ）イベントネットの学習方法本実施例においてイベントネット110は、第４図に示
す３層構造の多層パーセプトロン型ニューラルネットワ
ークにより構成されている。

第４図（ａ）は、入力層ユニット201、中間層ユニッ
ト202、及び出力層ユニット203の結合状態を示す。入力
層ユニット201は、特徴ベクトル方向（第４図（ａ）で
は紙面に対して垂直方向）に特徴ベクトルの次元数に等
しい数だけ配列されている。音声認識においては、隣接
するフレーム間の相関が高く、複数のフレームをまとめ
て圧縮した方が効率がよいので、本実施例では、16チャ
ンネルのBPFの２つのフレーム分の出力パワー値をＫ−
Ｌ変換で６次元に圧縮したデータとフレーム毎のパワー
に相当する値とから構成された７次元の特徴ベクトルを
用いており、入力層ユニット201は７つのユニットが特
徴ベクトル方向に並列に配置されている。また、入力音
声の分析周期が10msで、２つのフレームを１フレームに
圧縮しているため、時間軸方向（第４図（ａ）では紙面
に対して横方向）の入力層ユニット201の各ユニット間
の時間差は20msに相当する。中間層ユニット202も５つ
のユニットが特徴ベクトル方向に並列に配置されてい
る。

第４図で、各中間層ユニット202は全ての入力層ユニ
ット201と互いに接続されている。同様に、出力層ユニ
ット203も２つのユニットが特徴ベクトル方向に並列に
配置されている。各出力層ユニット203は全ての中間層
ユニット202と互いに接続されている。

中間層ユニット202及び出力層ユニット203の入出力特
性を表す関数としてシグンモイド（sigmoid）関数が用
いられている。

第４図（ｂ）は、イベントネット110の規模を小型化
し、処理を高速にするために、中間層ユニット202と入
力層ユニット201との間の結線を減少して、相互接続を
制限している場合を示す。

音声の場合、互いに離れた特徴ベクトル同士が局所的
にはあまり影響を及ぼさないためにこのような接続が可
能である。

次に学習時の操作について述べる。まず、入力音声の
特徴ベクトル106をスペクトログラムにより、音韻に応
じて第１表に示すラベルの種類に分類する。上記ラベル
付けされた特徴ベクトル106のうち、ある認識対象語彙
の分類に含まれる単語のｎ番目の特徴ベクトル106にお
いて、その単語のｋ番目のラベルL_kと、（ｋ＋１）番目
のラベルL_k+1との境界の生起時刻、即ち語頭を時刻０と
した場合のラベルL_kが出現する時刻をt_k（ｎ）、単語長
（全体の継続時間）をＷ（ｎ）とし、学習に用いる同一
分類内の単語数をN_cとすると、ラベルL_kとラベルL_k+1の
境界の平均生起時刻t_kは、次式で与えられる。

平均生起時刻t_kにおいて得られたラベルの境界を、ラ
ベルの標準パターンと呼ぶ。

第５図（ａ）に単語/ichi/のラベルの標準パターンを
示す。第５図（ａ）において矢印は、イベントネット11
0に入力すべき特徴ベクトル106の中心フレーム（イベン
トネット110の入力層は７フレームに相当するので、７
フレームの内の先頭から４フレーム目のこと）を示す。
入力すべき特徴ベクトル106の中心フレームは、１つ目
から５つ目のイベントネット110の夫々の中心フレーム
が等間隔に並ぶよう決定される。

第５図（ｂ）を参照すると、上述のようにラベルの標
準パターンを作成し、実際に、学習時において個々のイ
ベントネット110の中心フレームは、標準パターンと単
語のラベルパターンとを比較することで同じ部分音韻系
列の特徴量が入力される位置に決定され得る。

上述のように中心フレームが決定された位置から、音
声の特徴ベクトル106をイベントネット110の入力層に入
力すると、発声の変動で音韻の時系列が非線形に伸縮し
ていても、常に一定の部分音韻系列の特徴ベクトル106
が入力される。

認識対象語彙のｉ番目の分類を認識するｊ番目のイベ
ントネット110の名称をE_ijとすると、イベントネットE
_ijの出力層には２つのユニットC_ij、▲▼があ
る。

人処理すべき認識対象の部分音韻系列が入力された場
合、という教師信号を与える。

上記の部分音韻系列以外のものが入力された場合、という教師信号を与えて学習を行う。

学習時の高速化をはかるため、教師信号のうち、１を
0.9、０を0.1として学習を行ってもよい。

また、教師信号を簡単に作成するために、認識すべき
単語が入力された場合、を教師信号として用いてもよく、その他の単語が入力された場合、を教師信号として用いてもよい。

このようにして、イベントネットE_ijの各結合の重み
係数を求める。

イベントネットE_ijが、認識すべき単語以外の単語を
学習する場合、夫々のイベントネットE_ijの中心フレー
ムは、標準パターンで中心フレームを決定したときと同
様の方法、即ち各イベントネットE_ijを等間隔に配置す
る方法で決定され得る。

学習を行ったイベントネットE_ijは、認識すべき単語
の部分音韻が入力された場合には、C_ijのユニットの出
力値が最大に、▲▼のユニットの出力値が最小
に、逆にその他の部分音韻が入力されたときにC_ijのユ
ニットの出力値が最小に、▲▼のユニットが最大
になる。

イベントネットE_ijの数は、５つに限定する必要はな
く、認識する単語毎に可変として、例えば（単語の音節
数）＋２個としてもよい。

（Ｂ）ワードネットの学習ワードネットの構成は、第６図のような３層または２
層のパーセプトロン型ニューラルネットワークである。
出力層のユニットをCi、▲▼と呼ぶ。以下に、学習
時のデータの与え方について述べる。

第１に、認識すべき単語が学習サンプルの場合は、各
イベントネット110は、イベントネット110自体の学習時
に定めたように、ラベルの情報に基づいて時間軸の非線
形変動を取り除いた位置を用いる。そして、ワードネッ
ト112への入力は、この時の各イベントネット110の出力
を用いる。この時のワードネット112の教師信号は、であり、各イベントネット110は、それぞれ最も望まし
い位置で出力するので、実際の認識時に近い学習にな
る。

第２に、認識すべき以外の単語が学習サンプルの場合
は、各イベントネット110の時間軸方向のシフトは、本
実施例では３回とする。この回数は、固定されたもので
はなく、計算量との兼ね合いで３回よりも多く設定して
よい。

イベントネット110は、５つで、それぞれが３回シフ
トするので合計15個の配置を決定する必要があり、配置
は等間隔である。

（Ｃ）スーパーネットの学習第７図に示すように、スーパーネット113は、３層の
パーセプトロン型ニューラルネットワークから構成され
ている。本実施例では、認識対象の語彙数が30個なの
で、入力層のユニット601のユニット数は60個となる。
入力層のユニット601にはそれぞれのワードネット110の
出力値が入力される。中間層のユニット602のユニット
数は30個とする。出力層のユニット603は、認識対象の
語彙のカテゴリー番号に対応するユニット30個と、リジ
ェクトを表すユニット１個との合計31個のユニットを備
えている。

入力音声が認識し得る語彙に含まれる場合は、そのカ
テゴリー番号をＩとすると、出力層のユニットC₁,
C₂,,,,C31に、（C₁,C₂,,C_I,,C₃₁）＝（0,0,,1,,0）として、Ｉ番目のユニットだけが１の値を有し、その他
のユニットが０になるような教師信号を与えて学習す
る。

また、入力音声が認識し得る語彙に含まれない場合出
力層の各ユニットに（C₁,C₂,,,,C₃₀,C₃₁）＝（0,0,,,,0,1）として、C₃₁のユニットだけが１の値を有し、その他の
ユニットが０になるような教師信号を与えて学習する。

以上のようにして、各ネットワークの各結合の重み係
数を求めておく。

次に、認識時には、入力音声の特徴ベクトル106が入
力されると、パワーしきい値を用いた切り出し等の手法
で、入力音声の語頭のフレームを検出し、前述の手法を
用いて、検出された語頭より少し手前のフレームから第
１番目のイベントネットから順次作用させて行く。

最終的に第５番目のイベントネット110の最大出力値
が観測された時点で、ワードネット112の入力値が定ま
り、その入力値に対応する出力値も決定される。各認識
単語毎に、このようにワードネット112の出力値を算出
し、これらを、スーパーネット113の入力とする。スー
パーネット113の出力は、第３図の認識結果判定部115に
送られ、認識結果が得られる。この時の判定アルゴリズ
ムを第８図に示す。第８図において、θはスーパーネッ
ト113の各出力層のユニット603からの出力値の最大値が
所定の値よりも小さい場合に、リジェクトするか否かを
決定するしきい値であり、本実施例ではθ＝0.5であ
る。

［発明の効果］本発明の音声認識装置によれば、イベントネット、ワ
ードネット及びスーパーネットが、それぞれ多層パーセ
プトロン型ニューラルネットワークで構成されており、
話者及び発声の違いにより、単語中の各音韻の継続時間
が非線形的に変動することを、各イベントネットに入力
される特徴ベクトル系列の範囲をイベントネット間の時
間間隔情報に基づいて、語頭から順に適切に選択するこ
とで、時間軸を整合して同じ部分音韻系列が常に同じイ
ベントネットに入力されるので、イベントネットを語頭
から順に適切に選択することによって語尾の検出を行う
ことができる。従って、ニューラルネットワークの各結
合の重み係数を安定して求めることができ、ニューラル
ネットワークの規模を縮小することができると共に、計
算量を削減でき、語尾付近の付加雑音及びパワーの小さ
い語尾音韻、話者及び発声の変動に対して高い認識性能
を得ることが可能となる。また、語頭の検出直後からイ
ベントネットによる認識処理が発声時間の経過と共にほ
ぼ同時進行で実行され、発声終了後の主な認識処理が、
ワードネット及びスーパーネットの計算だけなので、認
識応答時間の大幅な短縮ができる。加えて、イベントネ
ットが部分音韻系列を単位としているので、音素や音韻
などの固定的な単位を基に比較する場合に比べて、単語
毎に認識が容易となるように比較単位を設定することが
できる。更に、イベントネット及びワードネットが類似
度に相当する値を出力するので、１又は０等のデジタル
的な値を出力する場合に比べて、種々の入力パターンに
対して有効な出力値を得ることができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図に示した実施例を「ハチ/hachi」の音声認識に対
して示した図、第３図は本発明の一実施例における構成
図、第４図（ａ）及び第４図（ｂ）は本発明の一実施例
におけるイベントネットの構成図、第５図（ａ）及び第
５図（ｂ）は本発明の一実施例におけるラベルとイベン
トネットの中心フレームとの関係を示す図、第６図
（ａ）及び第６図（ｂ）は本発明の一実施例におけるワ
ードネットの構成図、第７図はスーパーネットの構成
図、第８図は認識結果判定部の判定アルゴリズムを示す
図、である。 101……マイク、102……アンプ、103……A/D変換器、10
4……音響分析部、105……BPF、106……特徴ベクトル、
107……圧縮部、108……語頭検出部、109……イベント
ネット群、110……イベントネット、111……特徴ベクト
ル系列、112……ワードネット、113……スーパーネッ
ト、114……入力フレーム、115……認識結果判定部、11
6……結果出力部。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−204099（ＪＰ，Ａ) 特開平１−177957（ＪＰ，Ａ) 特開平２−183300（ＪＰ，Ａ) 久間、中山編著「ニューロコンピュータ工学」工業調査会（平成４年２月) Ｐ．160〜161，176〜177 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 9/10 301 G10L 3/00 531 G10L 3/00 561 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を音響分析して得られた特徴量を
多層パーセプトロン型ニューラルネットワークの入力層
の各ユニットに入力し、出力層の各ユニットからの出力
値に応じて音声認識を行う音声認識装置であって、入力
音声を各フレーム毎に音響分析して得られた特徴量から
該入力音声の始端を検出する検出手段と、前記検出され
た入力音声の始端付近から順次、多数話者の音声サンプ
ルから抽出された時間間隔情報に基づいて前記特徴量を
所定の範囲内で時間的にずらし、当該時間的にずらされ
た特徴量のなかで出力値が最大になる位置を選択して、
認識対象語彙のうち特定の単語の部分音韻系列との類似
度に相当する値を出力すると共に、選択した前記出力値
が最大になる位置から前記入力音声の終端を検出するよ
うに構成されているイベントネットと、前記イベントネ
ットに接続されており当該イベントネットからの出力の
全てを入力し、前記入力音声に対して前記特定の単語と
の類似度に相当する値を出力するワードネットと、前記
ワードネットに接続されており当該ワードネットからの
出力の全てを入力し、該入力音声の属する認識分類に応
じた値を出力するスーパーネットとを備え、前記イベン
トネット、前記ワードネット及び前記スーパーネット
は、それぞれ多層パーセプトロン型ニューラルネットワ
ークで構成されていることを特徴とする音声認識装置。