JP2792709B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2792709B2
JP2792709B2 JP2069248A JP6924890A JP2792709B2 JP 2792709 B2 JP2792709 B2 JP 2792709B2 JP 2069248 A JP2069248 A JP 2069248A JP 6924890 A JP6924890 A JP 6924890A JP 2792709 B2 JP2792709 B2 JP 2792709B2
Authority
JP
Japan
Prior art keywords
input
net
word
event
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2069248A
Other languages
English (en)
Other versions
JPH03269500A (ja
Inventor
耕市 山口
憲治 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP2069248A priority Critical patent/JP2792709B2/ja
Priority to DE69030561T priority patent/DE69030561T2/de
Priority to EP90125562A priority patent/EP0435282B1/en
Publication of JPH03269500A publication Critical patent/JPH03269500A/ja
Priority to US08/024,853 priority patent/US5404422A/en
Application granted granted Critical
Publication of JP2792709B2 publication Critical patent/JP2792709B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、不特定話者の発生する言葉を認識し得るニ
ューラルネットワークを用いた音声認識装置に係り、特
に時間軸の非線形整合を高精度化することができる音声
認識装置に関する。
[従来の技術] ニューラルネットワークと呼ばれる神経回路網をモデ
ル化した新しい手法が音声認識の分野に応用されつつあ
り、「ニューラルネットによる音声情報処理」,中川・
著,bit9月号,183〜195頁,1989年Vol.21,No.11及び「ニ
ューラルネットの音声情報処理への応用」,鹿野・著,
信学会専門講習会講演論文集,27〜40頁,昭和63年9月
に記載されているように、誤差逆伝播法(以後、BP法と
呼ぶ)を用いた多層パーセプトロン型ニューラルネット
ワークの他に様々なアプローチが試みられている。
従来の音声認識方法には、次のような方法がある。一
つの方法は、入力音声を音響分析し、各フレーム毎に特
徴ベクトルを抽出し、抽出した特徴ベクトルを時系列の
2次元パターンとしてニューラルネットワークの入力層
に入力して、入力音声を識別できるような教師信号を出
力層に与え、BP法により各結合の重み係数が学習され
る。入力音声は、同じ単語でも発声されるたびに継続時
間長が変わるのに対し、ニューラルネットワークの入力
層のユニット数は一定なので、入力音声データ系列を一
定の長さに正規化し、学習されたニューラルネットワー
クに未知の入力音声の特徴ベクトル系列を入力し、ニュ
ーラルネットワークの出力層のユニットの出力値に応じ
て入力音声を認識する。
もう一つの方法は、マルチテンプレート方式と呼ばれ
ており、各単語ごとに多数話者の音声データをクラスタ
化して、各クラスタの中心の音声データ又は各クラスタ
に属する音声データの平均値を標準パターンとして蓄え
る。クラスタ化には複数のアルゴリズムを組合せて用い
る。未知の入力音声に対しては、全単語の全標準パター
ンと動的計画法(以後、DP(Dynamic Programming)マ
ッチングと呼ぶ)を行って距離を計算し、最も距離の小
さい標準パターンが属する単語を発声されたものと判断
する。この方法にニューラルネットワークを応用したも
のとして、出願人等によるイベントネットを用いた「音
声認識装置」(特願平1−344045号)がある。
上述した従来の方法では、いずれも入力音声の語頭及
び語尾を検出する必要があり、語頭及び語尾により定め
られる音声区間の検出は、一定のしきい値以上の短時間
パワーが一定時間以上継続したか否かによって行われ
る。短時間パワーのしきい値としては2種類が設定さ
れ、音声区間は、これら2種類のしきい値を組み合わせ
ることにより、または、短時間パワーの他に零交叉、雑
音区間のスペクトルとの差等を用いて検出する。
しかし、音声は時系列パターンであり、同じ単語でも
発声されるたびに継続時間長が変わり、その内部におけ
る音韻事象の時間変動も線形ではない。また、咳払い、
紙を捲る音等に対しても、誤動作しないことが望ましい
が不要音と認識対象語彙とを区別するには、任意の文章
音声中からあらかじめ定められた言葉だけを自動的に抽
出するワードスポッテイング方式が必要である。
[発明が解決しようとする問題点] 上述のDPマッチングを用いたマルチテンプレート方式
は、認識処理に先立って音声区間の検出が必要で、音声
区間を正しく検出すること自体容易ではなく、特に音声
の始端及び終端の子音及びレベルの低い母音の検出が難
しい。また、音声の終端に付加される呼吸音等を正しく
除去する必要があるが、短時間パワーまたは零交叉数等
を用いる従来の方法では、これらの要求を充分に満たす
ことができないので、音声区間を誤って検出し、認識率
を低下させるという問題がある。
上述のワードスポッテイング方式においては、連続DP
は計算量も多く、また、余計な言葉の付加及び単語音韻
の脱落を生じやすいという問題がある。
上述のニューラルネットワークを用いた方式において
は、ニューラルネットワークの入力層は一定数のユニッ
トから構成されているので、入力音声区間を正規化しな
ければならない。正規化を線形で行うと、音声に含まれ
ていると共に識別に必要な音韻に固有の動的な情報が歪
曲または欠落してしまう可能性があり、単語中の非線形
な時間伸縮が補正できない。
また、上述のイベントネットを用いる方式では、音声
区間を各イベントネットの入力層に所定のアルゴリズム
で分割しているので、イベントネットを作用させる前に
入力音声区間の検出が必要であり、検出された音声区間
を一定数で分割する方式を用いているので、イベントネ
ット等、ニューラルネットワークの標準パターンに相当
する部分に対応する単語のもつ継続時間長に関する情報
が直接的には入力されず、従って、入力音声の継続時間
長の長短にかかわらず、ニューラルネットワークの出力
を算出して、すべての標準パターンと照合するため、リ
ジェクト能力の低下を生ずる可能性があり、更に、音声
区間内の非線形な時間軸変動に対して、同じイベントネ
ットを時間軸の前後に一定量だけ移動して追従しようと
しているので、より大きな非線形の時間変動を伴う入力
音声について対応できないという問題がある。
本発明の目的は、安定した重み係数を求め得ると共
に、入力される音声区間内の非線形な時間軸変動に対し
て音声の単語中の各音韻の局所的な継続時間のずれに適
応できるニューラルネットワークを用いた音声認識装置
を提供することにある。
[課題を解決するための手段] 本発明によれば、前記目的は、入力音声を音響分析し
て得られた特徴量を多層パーセプトロン型ニューラルネ
ットワークの入力層の各ユニットに入力し、出力層の各
ユニットとからの出力値に応じて音声認識を行う音声認
識装置であって、入力音声を各フレーム毎に音響分析し
て得られた特徴量から該入力音声の始端を検出する検出
手段と、前記検出された入力音声の始端付近から順次、
多数話者の音声サンプルから抽出された時間間隔情報に
基づいて前記特徴量を所定の範囲内でずらし、当該時間
的にずらされた特徴量のなかで出力値が最大になる位置
を選択して、認識対象語彙のうち特定の単語の部分音韻
系列との類似度に相当する値を出力すると共に、選択し
た前記出力値が最大になる位置から前記入力音声の終端
を検出するように構成されているイベントネットと、前
記イベントネットに接続されており当該イベントネット
からの出力の全てを入力し、前記入力音声に対して前記
特定の単語との類似度に相当する値を出力するワードネ
ットと、前記ワードネットに接続されており当該ワード
ネットからの出力の全てを入力し、該入力音声の属する
認識分類に応じた値を出力するスーパーネットとを備
え、前記イベントネット、前記ワードネット及び前記ス
ーパーネットは、それぞれ多層パーセプトロン型ニュー
ラルネットワークで構成されていることを特徴とする音
声認識装置によって達成される。
[作用] イベントネットが入力音声に対して、認識対象語彙の
うち特定の単語の部分音韻系列との類似度に相当する値
を出力し、多数話者の音声サンプルを分析することによ
り隣接する前記イベントネット間の時間間隔情報を抽出
し、前記入力音声を各フレーム毎に音響分析して得られ
た特徴量から該入力音声の始端を検出手段によって検出
して該特徴量前記イベントネットの入力層の各ユニット
に入力し、前記検出された入力音声の始端付近から順
次、前記検出された時間間隔情報に基づいて所定の範囲
内で前記イベントネットに入力する特徴量を時間的に移
動し、イベントネットは時間的に移動された特徴量のな
かで出力値が最大になる位置を選択して、認識対象語彙
のうち特定の単語の部分音韻系列との類似度に相当する
値を出力すると共に、選択した前記出力値が最大になる
位置から前記入力音声の終端を検出し、ワードネットが
イベントネットからの出力の全てを入力し、入力音声に
対して特定の単語との類似度に相当する値を出力し、ス
ーパーネットがワードネットからの出力の全てを入力
し、入力音声の属する認識分類に応じた値を出力する。
[実施例] 以下、本発明を図面に示す一実施例により詳細に説明
する。
第3図は、本実施例による音声認識装置の構成を示
す。マイクロホン101から入力された音声は、アンプ102
によって増幅され、A/D変換器103でアナログからディジ
タルに変換された後、音響分析部104に入力される。
音響分析部104では、複数の帯域濾波器(以下、BPFと
いう)105を用いて入力された音声を音響分析し、フレ
ーム毎に各BPF105の出力パワーの値を出力する。
また、ネットワークの規模を小さくするために、特徴
ベクトル106をK−L変換を用いて圧縮部107で圧縮し、
入力音声の特徴ベクトル106の次元を減少させる。
圧縮部107で圧縮された特徴ベクトル106は、検出手段
としての語頭検出部108で判定され、その判定結果によ
り入力音声の始端としての語頭が検出された場合には、
イベントネット群109の各イベントネット110(第1図及
び第2図参照)に入力される。
語頭が検出されない場合には、特徴ベクトル106は、
イベントネット群109に入力されない。
語頭検出部108としては、一定のしきい値以上の値が
一定時間以上継続したか否かに依存する短時間パワーの
他に、零交叉数またはBPF分析結果を利用した低域パワ
ー比、高域パワー比等を用いることもある。
イベントネット群109への特徴ベクトル106の送付は、
検出された語頭直後から送るのではなく検出された語頭
より少し前にさかのぼった時点から送る。
このために、圧縮部107では圧縮された複数の特徴ベ
クトル106から形成された特徴ベクトル系列111(第1図
及び第2図参照)を一定フレーム分バッファに貯えてお
く必要がある。
入力音声の特徴ベクトル106は、各イベントネット110
に入力され、各イベントネット110からの出力が各ワー
ドネット112にそれぞれ入力される。イベントネット110
とワードネット112との組の数は認識対象語彙の分類数
に対応しており、それぞれのワードネット112の出力は
スーパーネット113に入力される。
入力音声の特徴ベクトル106の特定の位置におけるイ
ベントネット110の入力層の入力フレーム114に相当する
範囲が、イベントネット110の入力層に入力され、特定
の認識対象の単語について入力層に入力する入力フレー
ム114を時間軸方向に移動したものがN個(但し、N
は、正の整数)あり、本実施例ではN=5である。
以下、時間軸方向への移動のし方について、認識時の
動作について詳述する。
認識対象の第i番目の単語を認識する第j番目のイベ
ントネットの名称をEijとすると、各Eijの出力層には2
つのユニットCij、▲▼がある。
Eijが認識を担当している単語(第i番目に相当す
る)の部分音韻系列(単語の継続時間長を1とおくと、
語頭からj/N付近に相当する)が入力された場合には、 となるように学習されている。
逆に、上記の部分音韻系列以外のものが入力された場
合は、 となるように学習されている。
即ち、CijはEijが担当する単語中のある時点に対して
高い値になる。
時間軸方向へのずらし間隔は、圧縮特徴ベクトル106
の1フレームとする。計算量を削減させたいときには、
2フレームとしてもよい。
時間軸方向へのずらし範囲の量、即ちフレームの数を
nとすると、Eijは前から順に、Eij1、Eij2、……、E
ijnと呼び、それぞれの出力をCij1、Cij2、……、Cijn
とおくと、ワードネットへの入力としては、このn個中
の最大値を選択する。
nの値は、Eijによって異なり、本実施例では、第1
図に示すようにEi1に対して、n=5、Ei2に対して、n
=7に設定されている。第1図においては、各イベント
ネットのサーチ範囲が横棒の矢印で示されており、各C
ijl(j=1,2,…,5)の最大値選択で最大値として選択
された位置が太い実線で表されている。例えば、Ei1
は、Ei12、Ei2ではEi25がそれぞれ選択されている。
Ei1のサーチ範囲は、検出された語頭を中心として、
その前後に一定量、例えば3フレームずつとするか、ま
たは、多数話者の統計により、単語全体の継続時間長の
標準偏差の定数倍としてもよい。
Eij(但し、j>1)のサーチ範囲は、多数話者の統
計によりあらかじめ求められているEijを1つ前のEij-1
(但し、マイナス−の記号は、jのみに作用する、以下
同様)との時間的な差の平均m及び標準偏差σに基づ
いて、以下に詳述するように算出される。尚、平均m
は、jに依存せず一定である。Cij-1、Cij-2、…、C
ij-nの中から最大値を選ぶことでEij-1の位置が決定さ
れる。例えば、第1図において、j=2のときCi12が最
大となって選択されている。
Eijのサーチ範囲は、このCij-1の最大位置を基準にm
−kσからm+kσの範囲である。ここでkは定数
で2〜3とする。但し、Cij−1の最大位置よりm−k
σが小さい場合は、サーチ範囲をm−kσとする。
即ち、サーチ範囲を(Lj,Rj)と設定すると、 Lj=MAX(m−kσj,Cij-1の最大位置)、 Rj=m+kσj として表される。
第2図は、16チャンネルBPFの出力パワーの時系列と
イベントネットEijに入力する入力フレーム114との間の
関係を示す。16チャンネルBPFの出力パワーの部分は、
縦方向にBPFの番号を示して、各BPFの出力値を結んで連
続線で表し、また、横方向に時間を示している。
第2図は、更に、イベントネットEi2を時間的にシフ
トする場合を示している。各イベントネットEijに、図
示した入力フレーム114を入力し、出力層のユニットか
らの出力をCi2の値が夫々、Ci21、Ci22、……、Ci27
すると、そのうち最大の値を出力しているイベントネッ
トEijl(l=1,2,……,7)の出力層のユニットの出力値
をワードネット112の入力層のユニットに入力する。
ここでも、最大値を出力したEi25が太い実線で表され
ている。図中、ラベルは、ここで用いた音声サンプル
「はち」/hachi/の音素記号表記であり、hは[h]、
aは[a]、clは無音区間、chは[t∫]、iは[i]
に夫々対応する。
再び第1図を参照すると、第1図では、Ei12が選択さ
れているので、Ei2のサーチ範囲は、Ei13の位置から始
まり、前述の時間間隔情報を用いてl=7までとなって
いる。
j=2のとき、Ci21、Ci22、……、Ci27の中から、最
大値であるCi25が選択される。
最大値選択に際しては、単純にMAX(Cijl)とせず
に、イベントネットの性質及び計算量により、次のよう
な変形も考えられる。
まず、第1に、全てのCijl(l=1,2,…,n)が小さい
値の場合は、最大値選択を行わずに範囲の中心l=mを
選択する。これによりEijの担当する単語以外の入力に
対して、不必要な整合を避け、リジェクト能力を高める
ことができる。
第2に、全てのCijl(l=1,2,…,n)が大きい値のと
きも上述の場合と同様、l=mとする。これにより、長
母音等に見られる同じような特徴ベクトルが長く続く場
合に、不自然な整合を避けることができる。
第3に、全てのCijl(l=1,2,…,m)が小さい値のと
きは、サーチ範囲を一定量αだけ拡大し、m=m+αと
してl=m+1、m+2、……m+αについてCijlを求
め、最大値の選択を行う。これにより、特に発声速度の
遅いサンプルに対して有効に作用する。
第4に、第j番目まで、Cijが全て小さい値のとき
は、j+1番目以降のイベントネットの計算は行わず、
このイベントネットに接続するワードネットの出力を
(0,1)とする。つまり、第i番目の単語については、
途中で計算を打ち切り、次の第i+1番目の単語に処理
を進める。jの値としては2〜3が適当であり、認識語
彙に類似単語が少ない場合は、計算量がおよそ半分に削
減できる。
以上のように、イベントネット110は,それぞれ入力
された入力フレーム114の特徴ベクトル106とイベントネ
ット110が識別する特定の単語の部分音韻系列との類似
度に相当する値を出力する。ワードネット112は、入力
音声とワードネット112が識別する特定の単語との類似
度に相当する値を出力する。5つのイベントネット110
の出力は全てワードネット112の入力層に入力される。
ワードネット112は、単語全体として入力音声とワー
ドネット112が識別する特定の単語との類似度に相当す
る値を出力する。認識対象語彙数を30個とすると、ワー
ドネット112は30個あり、その出力すべてがスーパーネ
ット113の入力層に入力される。スーパーネット113の出
力層には、認識対象の分類番号に対応する30個のユニッ
トと,リジェクトを表す1個のユニットとを備えてい
る。スーパーネット113は、入力音声が認識対象語彙の
中にあるなら、その分類番号に対応する出力層のユニッ
トの出力値が他のユニットに比べ最大になるように各結
合の重み係数を決定する。
入力音声が認識対象語彙でない場合、リジェクトに対
応する出力層のユニットの出力値が他のユニットに比べ
最大になる。スーパーネット113の出力は、認識結果判
定部115に入力される。認識結果判定部115では、スーパ
ーネット113の出力層において最大の出力を出している
ユニットのユニット番号を検索して出力する。出力され
たユニット番号の値が結果出力部116に入力され、認識
結果が表示される。音響分析部104から認識結果判定部1
15までをディジタルシグナルプロセッサ(以下、DSPと
略称)上に構成することが可能である。
実際の認識時においては、語頭検出の直後から各標準
パターンのイベントネットEi1の計算を始める。即ち、
時間の経過と共に順次各Ei1、Ei2、……、のサーチ範囲
の特徴ベクトルが入力されるのと同期して、各Ei1
Ei2、……、が計算される。
次に、Ei5の計算が終了した標準パターンから順次そ
のワードネット112が計算される。最終的に全ての標準
パターンのワードネット112が計算されると、スーパー
ネット113が計算され、認識結果判定部に処理が移行す
る。
従来のように語尾検出の後に認識処理を行うのではな
く、語頭の検出直後から認識処理が始まり、発声時間の
経過とほぼ同時に進行してイベントネットEijによる認
識処理が行なわれるので認識応答時間の大幅な短縮が可
能になる。
次に、各ニューラルネットワークの結合の重み係数を
求める方法、即ち学習方法について詳述する。
(A)イベントネットの学習方法 本実施例においてイベントネット110は、第4図に示
す3層構造の多層パーセプトロン型ニューラルネットワ
ークにより構成されている。
第4図(a)は、入力層ユニット201、中間層ユニッ
ト202、及び出力層ユニット203の結合状態を示す。入力
層ユニット201は、特徴ベクトル方向(第4図(a)で
は紙面に対して垂直方向)に特徴ベクトルの次元数に等
しい数だけ配列されている。音声認識においては、隣接
するフレーム間の相関が高く、複数のフレームをまとめ
て圧縮した方が効率がよいので、本実施例では、16チャ
ンネルのBPFの2つのフレーム分の出力パワー値をK−
L変換で6次元に圧縮したデータとフレーム毎のパワー
に相当する値とから構成された7次元の特徴ベクトルを
用いており、入力層ユニット201は7つのユニットが特
徴ベクトル方向に並列に配置されている。また、入力音
声の分析周期が10msで、2つのフレームを1フレームに
圧縮しているため、時間軸方向(第4図(a)では紙面
に対して横方向)の入力層ユニット201の各ユニット間
の時間差は20msに相当する。中間層ユニット202も5つ
のユニットが特徴ベクトル方向に並列に配置されてい
る。
第4図で、各中間層ユニット202は全ての入力層ユニ
ット201と互いに接続されている。同様に、出力層ユニ
ット203も2つのユニットが特徴ベクトル方向に並列に
配置されている。各出力層ユニット203は全ての中間層
ユニット202と互いに接続されている。
中間層ユニット202及び出力層ユニット203の入出力特
性を表す関数としてシグンモイド(sigmoid)関数が用
いられている。
第4図(b)は、イベントネット110の規模を小型化
し、処理を高速にするために、中間層ユニット202と入
力層ユニット201との間の結線を減少して、相互接続を
制限している場合を示す。
音声の場合、互いに離れた特徴ベクトル同士が局所的
にはあまり影響を及ぼさないためにこのような接続が可
能である。
次に学習時の操作について述べる。まず、入力音声の
特徴ベクトル106をスペクトログラムにより、音韻に応
じて第1表に示すラベルの種類に分類する。上記ラベル
付けされた特徴ベクトル106のうち、ある認識対象語彙
の分類に含まれる単語のn番目の特徴ベクトル106にお
いて、その単語のk番目のラベルLkと、(k+1)番目
のラベルLk+1との境界の生起時刻、即ち語頭を時刻0と
した場合のラベルLkが出現する時刻をtk(n)、単語長
(全体の継続時間)をW(n)とし、学習に用いる同一
分類内の単語数をNcとすると、ラベルLkとラベルLk+1
境界の平均生起時刻tkは、次式で与えられる。
平均生起時刻tkにおいて得られたラベルの境界を、ラ
ベルの標準パターンと呼ぶ。
第5図(a)に単語/ichi/のラベルの標準パターンを
示す。第5図(a)において矢印は、イベントネット11
0に入力すべき特徴ベクトル106の中心フレーム(イベン
トネット110の入力層は7フレームに相当するので、7
フレームの内の先頭から4フレーム目のこと)を示す。
入力すべき特徴ベクトル106の中心フレームは、1つ目
から5つ目のイベントネット110の夫々の中心フレーム
が等間隔に並ぶよう決定される。
第5図(b)を参照すると、上述のようにラベルの標
準パターンを作成し、実際に、学習時において個々のイ
ベントネット110の中心フレームは、標準パターンと単
語のラベルパターンとを比較することで同じ部分音韻系
列の特徴量が入力される位置に決定され得る。
上述のように中心フレームが決定された位置から、音
声の特徴ベクトル106をイベントネット110の入力層に入
力すると、発声の変動で音韻の時系列が非線形に伸縮し
ていても、常に一定の部分音韻系列の特徴ベクトル106
が入力される。
認識対象語彙のi番目の分類を認識するj番目のイベ
ントネット110の名称をEijとすると、イベントネットE
ijの出力層には2つのユニットCij、▲▼があ
る。
人処理すべき認識対象の部分音韻系列が入力された場
合、 という教師信号を与える。
上記の部分音韻系列以外のものが入力された場合、 という教師信号を与えて学習を行う。
学習時の高速化をはかるため、教師信号のうち、1を
0.9、0を0.1として学習を行ってもよい。
また、教師信号を簡単に作成するために、認識すべき
単語が入力された場合、 を教師信号として用いてもよく、 その他の単語が入力された場合、 を教師信号として用いてもよい。
このようにして、イベントネットEijの各結合の重み
係数を求める。
イベントネットEijが、認識すべき単語以外の単語を
学習する場合、夫々のイベントネットEijの中心フレー
ムは、標準パターンで中心フレームを決定したときと同
様の方法、即ち各イベントネットEijを等間隔に配置す
る方法で決定され得る。
学習を行ったイベントネットEijは、認識すべき単語
の部分音韻が入力された場合には、Cijのユニットの出
力値が最大に、▲▼のユニットの出力値が最小
に、逆にその他の部分音韻が入力されたときにCijのユ
ニットの出力値が最小に、▲▼のユニットが最大
になる。
イベントネットEijの数は、5つに限定する必要はな
く、認識する単語毎に可変として、例えば(単語の音節
数)+2個としてもよい。
(B)ワードネットの学習 ワードネットの構成は、第6図のような3層または2
層のパーセプトロン型ニューラルネットワークである。
出力層のユニットをCi、▲▼と呼ぶ。以下に、学習
時のデータの与え方について述べる。
第1に、認識すべき単語が学習サンプルの場合は、各
イベントネット110は、イベントネット110自体の学習時
に定めたように、ラベルの情報に基づいて時間軸の非線
形変動を取り除いた位置を用いる。そして、ワードネッ
ト112への入力は、この時の各イベントネット110の出力
を用いる。この時のワードネット112の教師信号は、 であり、各イベントネット110は、それぞれ最も望まし
い位置で出力するので、実際の認識時に近い学習にな
る。
第2に、認識すべき以外の単語が学習サンプルの場合
は、各イベントネット110の時間軸方向のシフトは、本
実施例では3回とする。この回数は、固定されたもので
はなく、計算量との兼ね合いで3回よりも多く設定して
よい。
イベントネット110は、5つで、それぞれが3回シフ
トするので合計15個の配置を決定する必要があり、配置
は等間隔である。
(C)スーパーネットの学習 第7図に示すように、スーパーネット113は、3層の
パーセプトロン型ニューラルネットワークから構成され
ている。本実施例では、認識対象の語彙数が30個なの
で、入力層のユニット601のユニット数は60個となる。
入力層のユニット601にはそれぞれのワードネット110の
出力値が入力される。中間層のユニット602のユニット
数は30個とする。出力層のユニット603は、認識対象の
語彙のカテゴリー番号に対応するユニット30個と、リジ
ェクトを表すユニット1個との合計31個のユニットを備
えている。
入力音声が認識し得る語彙に含まれる場合は、そのカ
テゴリー番号をIとすると、出力層のユニットC1,
C2,,,,C31に、 (C1,C2,,CI,,C31)=(0,0,,1,,0) として、I番目のユニットだけが1の値を有し、その他
のユニットが0になるような教師信号を与えて学習す
る。
また、入力音声が認識し得る語彙に含まれない場合出
力層の各ユニットに (C1,C2,,,,C30,C31)=(0,0,,,,0,1) として、C31のユニットだけが1の値を有し、その他の
ユニットが0になるような教師信号を与えて学習する。
以上のようにして、各ネットワークの各結合の重み係
数を求めておく。
次に、認識時には、入力音声の特徴ベクトル106が入
力されると、パワーしきい値を用いた切り出し等の手法
で、入力音声の語頭のフレームを検出し、前述の手法を
用いて、検出された語頭より少し手前のフレームから第
1番目のイベントネットから順次作用させて行く。
最終的に第5番目のイベントネット110の最大出力値
が観測された時点で、ワードネット112の入力値が定ま
り、その入力値に対応する出力値も決定される。各認識
単語毎に、このようにワードネット112の出力値を算出
し、これらを、スーパーネット113の入力とする。スー
パーネット113の出力は、第3図の認識結果判定部115に
送られ、認識結果が得られる。この時の判定アルゴリズ
ムを第8図に示す。第8図において、θはスーパーネッ
ト113の各出力層のユニット603からの出力値の最大値が
所定の値よりも小さい場合に、リジェクトするか否かを
決定するしきい値であり、本実施例ではθ=0.5であ
る。
[発明の効果] 本発明の音声認識装置によれば、イベントネット、ワ
ードネット及びスーパーネットが、それぞれ多層パーセ
プトロン型ニューラルネットワークで構成されており、
話者及び発声の違いにより、単語中の各音韻の継続時間
が非線形的に変動することを、各イベントネットに入力
される特徴ベクトル系列の範囲をイベントネット間の時
間間隔情報に基づいて、語頭から順に適切に選択するこ
とで、時間軸を整合して同じ部分音韻系列が常に同じイ
ベントネットに入力されるので、イベントネットを語頭
から順に適切に選択することによって語尾の検出を行う
ことができる。従って、ニューラルネットワークの各結
合の重み係数を安定して求めることができ、ニューラル
ネットワークの規模を縮小することができると共に、計
算量を削減でき、語尾付近の付加雑音及びパワーの小さ
い語尾音韻、話者及び発声の変動に対して高い認識性能
を得ることが可能となる。また、語頭の検出直後からイ
ベントネットによる認識処理が発声時間の経過と共にほ
ぼ同時進行で実行され、発声終了後の主な認識処理が、
ワードネット及びスーパーネットの計算だけなので、認
識応答時間の大幅な短縮ができる。加えて、イベントネ
ットが部分音韻系列を単位としているので、音素や音韻
などの固定的な単位を基に比較する場合に比べて、単語
毎に認識が容易となるように比較単位を設定することが
できる。更に、イベントネット及びワードネットが類似
度に相当する値を出力するので、1又は0等のデジタル
的な値を出力する場合に比べて、種々の入力パターンに
対して有効な出力値を得ることができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
第1図に示した実施例を「ハチ/hachi」の音声認識に対
して示した図、第3図は本発明の一実施例における構成
図、第4図(a)及び第4図(b)は本発明の一実施例
におけるイベントネットの構成図、第5図(a)及び第
5図(b)は本発明の一実施例におけるラベルとイベン
トネットの中心フレームとの関係を示す図、第6図
(a)及び第6図(b)は本発明の一実施例におけるワ
ードネットの構成図、第7図はスーパーネットの構成
図、第8図は認識結果判定部の判定アルゴリズムを示す
図、である。 101……マイク、102……アンプ、103……A/D変換器、10
4……音響分析部、105……BPF、106……特徴ベクトル、
107……圧縮部、108……語頭検出部、109……イベント
ネット群、110……イベントネット、111……特徴ベクト
ル系列、112……ワードネット、113……スーパーネッ
ト、114……入力フレーム、115……認識結果判定部、11
6……結果出力部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−204099(JP,A) 特開 平1−177957(JP,A) 特開 平2−183300(JP,A) 久間、中山編著「ニューロコンピュー タ工学」工業調査会(平成4年2月) P.160〜161,176〜177 (58)調査した分野(Int.Cl.6,DB名) G10L 9/10 301 G10L 3/00 531 G10L 3/00 561 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を音響分析して得られた特徴量を
    多層パーセプトロン型ニューラルネットワークの入力層
    の各ユニットに入力し、出力層の各ユニットからの出力
    値に応じて音声認識を行う音声認識装置であって、入力
    音声を各フレーム毎に音響分析して得られた特徴量から
    該入力音声の始端を検出する検出手段と、前記検出され
    た入力音声の始端付近から順次、多数話者の音声サンプ
    ルから抽出された時間間隔情報に基づいて前記特徴量を
    所定の範囲内で時間的にずらし、当該時間的にずらされ
    た特徴量のなかで出力値が最大になる位置を選択して、
    認識対象語彙のうち特定の単語の部分音韻系列との類似
    度に相当する値を出力すると共に、選択した前記出力値
    が最大になる位置から前記入力音声の終端を検出するよ
    うに構成されているイベントネットと、前記イベントネ
    ットに接続されており当該イベントネットからの出力の
    全てを入力し、前記入力音声に対して前記特定の単語と
    の類似度に相当する値を出力するワードネットと、前記
    ワードネットに接続されており当該ワードネットからの
    出力の全てを入力し、該入力音声の属する認識分類に応
    じた値を出力するスーパーネットとを備え、前記イベン
    トネット、前記ワードネット及び前記スーパーネット
    は、それぞれ多層パーセプトロン型ニューラルネットワ
    ークで構成されていることを特徴とする音声認識装置。
JP2069248A 1989-12-28 1990-03-19 音声認識装置 Expired - Fee Related JP2792709B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2069248A JP2792709B2 (ja) 1990-03-19 1990-03-19 音声認識装置
DE69030561T DE69030561T2 (de) 1989-12-28 1990-12-27 Spracherkennungseinrichtung
EP90125562A EP0435282B1 (en) 1989-12-28 1990-12-27 Voice recognition apparatus
US08/024,853 US5404422A (en) 1989-12-28 1993-02-26 Speech recognition system with neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2069248A JP2792709B2 (ja) 1990-03-19 1990-03-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03269500A JPH03269500A (ja) 1991-12-02
JP2792709B2 true JP2792709B2 (ja) 1998-09-03

Family

ID=13397254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2069248A Expired - Fee Related JP2792709B2 (ja) 1989-12-28 1990-03-19 音声認識装置

Country Status (1)

Country Link
JP (1) JP2792709B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991752B2 (ja) 1990-08-07 1999-12-20 シャープ株式会社 音声認識装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3410756B2 (ja) * 1993-03-18 2003-05-26 シャープ株式会社 音声認識装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177597A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JP2531227B2 (ja) * 1988-02-09 1996-09-04 日本電気株式会社 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
久間、中山編著「ニューロコンピュータ工学」工業調査会(平成4年2月)P.160〜161,176〜177

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991752B2 (ja) 1990-08-07 1999-12-20 シャープ株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH03269500A (ja) 1991-12-02

Similar Documents

Publication Publication Date Title
US5404422A (en) Speech recognition system with neural network
US8566088B2 (en) System and method for automatic speech to text conversion
US20220343895A1 (en) User-defined keyword spotting
EP0549265A2 (en) Neural network-based speech token recognition system and method
JPH0990974A (ja) 信号処理方法
Nanavare et al. Recognition of human emotions from speech processing
JPH0792988A (ja) 音声検出装置と映像切り替え装置
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Rabiee et al. Persian accents identification using an adaptive neural network
Verma et al. An acoustic analysis of speech for emotion recognition using deep learning
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
JP2792709B2 (ja) 音声認識装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Masood et al. Isolated word recognition using neural network
Jamil et al. Influences of age in emotion recognition of spontaneous speech: A case of an under-resourced language
Polur et al. Isolated speech recognition using artificial neural networks
Zhou et al. Sound Event Detection with Speech Interference Using Convolutional Recurrent Neural Networks
JP2792720B2 (ja) 音声認識装置
Tabassum et al. Speaker independent speech recognition of isolated words in room environment
JPH0442299A (ja) 音声区間検出装置
Alshamsi et al. Automated speech emotion recognition app development on smart phones using cloud computing
Hasan et al. Bengali Speech Emotion Recognition: A hybrid approach using B-LSTM
Schulz12 et al. Predicting Perceptual Centers Located at Vowel Onset in German Speech Using Long Short-Term Memory Networks
Ramo et al. Detect Multi Spoken Languages Using Bidirectional Long Short-Term Memory

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees