JPH06348299A

JPH06348299A - 音素認識装置および音素認識方法

Info

Publication number: JPH06348299A
Application number: JP5164284A
Authority: JP
Inventors: Yoshimune Konishi; 吉宗小西; Toshifumi Kato; 利文加藤; Yoshihiko Tsuzuki; 嘉彦都築
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1993-06-07
Filing date: 1993-06-07
Publication date: 1994-12-22

Abstract

(57)【要約】【目的】入力音が極めて効率よく計算、分析され、精度
よく音素認識されること。【構成】図１は本発明の音素認識装置を示す構成図で、
入力音の分析手段２、セグメンテーション(SG)・大分類
ニューラルネットワーク（NN) ３、SG・大分類認識手段
４、細分類選択・駆動手段５、細分類NN 6、細分類認識
手段７、認識音素８とから成る。入力音の音素を認識す
るため、まず大分類NNのみを駆動してSGと大分類認識を
同時に行い、大分類されたSG区間について細分類認識の
ために必要な細分類NNのみを選択・駆動して最終的な細
かい音素認識を行う構成とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音素抽出手段により入力
音声を音素単位で認識する音声認識装置に関し、特にニ
ューラルネットワーク（神経回路網）を用いた音素認識
装置に関するものであって、システムのボイスコマンド
入力装置等に用いられる。

【０００２】

【従来の技術】近年、音声入力を音素単位で認識するこ
とにより、単語音声のみならず、連続した文音声を認識
可能とする技術の開発が多数試みられている。特に、ニ
ューラルネットワークを用いて音素認識する従来方式と
して、例えば特開平3-120600号公報に記載のものがあ
る。これは、図６(a) に示すような入力層９１を共通と
したＴＤＮＮ（Time Delay Neural Network ）と呼ばれ
る多数のニューラルネットワーク９２ａ〜９２ｉと、こ
れを統合するニューラルネットワーク９３と、２４音素
を識別出力できる出力層９４とから成る、全体ニューラ
ルネットワークを図６(b) に示すように１フレーム周期
で時間的にシフトさせながら駆動し、その出力値時系列
によって入力音声中の音素（音韻）をスポッティング
（特定）し、認識しようとするものである。

【０００３】

【発明が解決しようとする課題】しかしながら、前述ニ
ューラルネットワークは、極めて大規模であり、一般に
１フレームにつき10msec前後の周期毎に行うニューラル
ネットワークの計算・処理量は極めて膨大であり、１秒
以内のリアルタイムで認識応答させようとしても困難で
ある。これを達成するには大規模ニューラルネットワー
クを構築可能な極めて小型のニューロンチップのような
ハードウエア素子を必要とするが、これはいまだ開発段
階にあり、入手は不可能である。従って現段階では、例
えば高速浮動小数点演算素子を複数個搭載したアクセラ
レータボードを多数枚用いて、分散・並列処理させると
いった、極めて大規模なコンピュータハードウエアが必
要となるという問題があった。本発明は上記問題点に鑑
みてなされたものであり、音素抽出手段としてニューラ
ルネットワークを用いた音素認識方式において、認識性
能が同等以上でかつ音素認識のための計算・処理量が少
なく、よって必要とするハードウエア規模が少なくて済
む、より実用性の高い音素認識装置・方法を提供するこ
とを目的とするものである。

【０００４】

【課題を解決するための手段】上記の課題を解決するた
め第一発明の構成は、ニューラルネットワークを用いた
音素認識装置において、入力音を所定のフレーム周期ご
とに分析して複数個の特徴パラメータを求める分析手段
と、前記特徴パラメータを時間的にフレーム単位でずら
しながら、所定フレーム数分とった特徴パラメータ系列
が入力されて、該入力音をセグメンテーションすると同
時に、音素の大分類認識を行うのに必要な出力値を得る
セグメンテーション・大分類ニューラルネットワーク
と、同じく前記特徴パラメータ系列が入力されて音素の
細分類認識を行うのに必要な出力値を得る複数個の細分
類ニューラルネットワークより成る細分類ニューラルネ
ットワーク群と、前記セグメンテーション・大分類ニュ
ーラルネットワークの出力値をもとに該入力音をセグメ
ンテーションすると同時に、音素の大分類を行うセグメ
ンテーション・大分類認識手段と、このセグメンテーシ
ョン・大分類結果に基づいて、該当する細分類ニューラ
ルネットワーク群より逐次選択すると同時に、セグメン
テーションされた区間について駆動する細分類ニューラ
ルネットワーク選択・駆動手段と、前記細分類ニューラ
ルネットワーク群の出力値をもとに該入力音に対応した
認識音素列を得る細分類認識手段とから構成されること
を特徴とする。

【０００５】また第二発明の構成は、ニューラルネット
ワークを用いた入力音の音素認識方法において、該入力
音を所定のフレーム周期ごとに分析して複数個の該フレ
ームの特徴パラメータを求め、前記特徴パラメータを時
間的にフレーム単位でずらしながら、所定フレーム数分
とった特徴パラメータ系列をセグメンテーション・大分
類音素抽出手段に入力して該入力音をセグメンテーショ
ンすると同時に音素の大分類認識を行い、該セグメンテ
ーション・大分類認識の結果に基づいて、該当する細分
類音素抽出手段を逐次選択すると同時に、セグメンテー
ションされた区間について前記細分類音素抽出手段を駆
動し、当該区間の前記特徴パラメータ系列を基に音素の
細分類認識を行い、前記細分類認識の出力値をもとに該
入力音に対応した認識音素列を得ることを特徴とする。

【０００６】

【作用】入力音は、まず分析手段において音素認識装置
で分析可能な信号系列に変換され、次にその信号系列デ
ータ全体が大きい特徴に分類され、それによって把握さ
れた特徴を基にしてさらに細かく分類されて、個々の音
素に特定される。

【０００７】

【発明の効果】上記構成により、本発明においては、セ
グメンテーション・大分類ニューラルネットワークのみ
を，入力音、とくに入力音声中の全区間に渡って駆動
し、また大分類されたセグメンテーション区間につい
て、細分類ニューラルネットワーク群の該当する一つの
細分類ニューラルネットワークが逐次選択・駆動される
のみであることから、従来の、すべてのニューラルネッ
トワークを全区間駆動して音素認識を行う場合に比べ
て、ニューラルネットワークの計算、処理量は大幅に低
減され、必要とするハードウエア規模も小さくて済み、
より実用性の高い音素を認識単位とした音声認識装置の
実現を可能にするという優れた効果がある。またこの音
素認識方法を採用することにより、効率的な音素認識が
実現する。

【０００８】

【実施例】以下、本発明を具体的な実施例に基づいて説
明する。図１は本発明の一実施例における音素認識方式
の全体を示す構成図である。まず分析手段２に対して入
力音声１が入力される。分析手段２では入力音声１を１
フレーム10msec周期ごとに20msecの区間で１５次のＬＰ
Ｃ（線型予測）分析を行い、線型予測係数α₁,α₂,…
… ,α₁₅と残差パワーＥを求める。そしてこのデータに
よりパワー項Ｃ₀を含むケプストラム係数Ｃ_n（０≦ｎ
≦１５）を以下に示す数１式および数２式で算出する。

【数１】

【数２】Ｃ₀＝ｌｏｇＥ

【０００９】続いて、このケプストラム係数Ｃ_nを−１
から＋１までの範囲内に正規化して特徴パラメータＰ_n
( 0≦ｎ≦15）とし、この特徴パラメータＰ_nをフレー
ムｆごとに求めた特徴パラメータＰ_nf系列を得る（分析
手段２）。そして、この特徴パラメータＰ_nfを所定フレ
ーム数ｍ分Ｐ_nf-m〜Ｐ_nfをセグメンテーション・大分類
ニューラルネットワーク３に入力し、その出力としてＯ
_Vf', Ｏ_Sf', ……,Ｏ_Uf'を得る。

【００１０】ここで、ニューラルネットワーク３は図２
(a) に示すような多層パーセプトロン型ニューラルネッ
トワークで、入力層２１は所定フレーム数分の特徴パラ
メータ数に等しいニューロン数よりなり、中間１層２
２、中間２層２３、出力層２４の４層構造で、各層のニ
ューロンは前後層のニューロンと全結合した構造をして
いる。

【００１１】また、音素を図３の様に大分類し、その大
分類音素記号を、Ｖ，Ｓ，Ｚ，Ｐ，Ｍ，Ｂ，Ｕの７つと
する。この意味は例えば母音ａｉｕｅｏの５つの音素は
ひとまとめにＶとして大きく分類して取り扱うというこ
とである。その他各子音についても同様に大きく分類し
ておく。そして、図２(a) のニューラルネットワークの
出力層２４は、この大分類音素Ｖ〜Ｕに対応した出力Ｏ
_V, Ｏ_S, ……, Ｏ_Uを得るための出力ニューロンより
構成されている。さらにこのニューラルネットワークは
母音Ｖの特徴パラメータ系列が入力された時には、出力
Ｏ_Vが１で、その他の出力が０となるように、また、大
分類子音Ｓの特徴パラメータ系列が入力された時には、
出力Ｏ_Sが１で、その他の出力が０となるように、同時
に全ての音素および無音データによって予め内部の重み
係数が学習されている。学習方法は多層パーセプトロン
型ニューラルネットワークでよく用いられる周知のエラ
ーバックプロパゲーション法またはその他の方法により
行う。

【００１２】入力される特徴パラメータ系列のフレーム
位置と、出力値を得るフレーム位置との関係は、図２
(b) に示すように、入力フレーム幅のほぼ中間フレーム
位置で出力値を得るように設定されている。これは着目
しているフレームにおける抽出したい音素の特徴は、そ
の音素の前後の音素との絡みがあると考えられるので前
後のフレームも調べることに相当する。本実施例では入
力フレーム数を１０フレームにとり、最新の入力フレー
ムをｆとした場合、ｆ−４フレーム目に出力値が得られ
るようにしており、前述のニューラルネットワーク３の
出力フレームｆ’はｆ−４を示している。

【００１３】図１において、このようにして得られたセ
グメンテーション・大分類ニューラルネットワーク３の
出力値時系列に対して、セグメンテーション・大分類認
識手段４で、フレームごとの各出力値を所定のしきい値
と比較し、そのしきい値を越えたもの、あるいは最大出
力となったものを選択して、その出力値に対応する大分
類音素記号に置き換える。それで各フレームごとの大分
類音素記号列が得られる。さらに、この大分類音素記号
列に対してスムージング・整形処理を行ってセグメンテ
ーション・大分類記号列を得る。つまり、時系列での同
じ音素がまとまっていることを明確にするセグメント化
（区分）が行われ、各区分の中身は音素が大雑把に区分
けされている訳である。

【００１４】以上のようなセグメンテーション・大分類
方式の音素認識方式を用いて、入力音声１の例として
「ポプラ並木（ＰＯＰＵＲＡＮＡＭＩＫＩ）」を分析し
た結果を図４に示す。まず、入力音声の音声波形１ａ
を、前述したように10msecごとにＬＰＣ分析して、得ら
れた特徴パラメータ系列の10フレーム分が１フレームず
つシフトされながらニューラルネットワークに入力さ
れ、このときのフレームごとの出力値（０〜１の規格値
範囲）が図４の３１〜３７として示されている。この各
出力値は各々のしきい値３１ａ〜３７ａと比較され、し
きい値を越えた出力について、対応する大分類音素記号
に置き換えられ、出力選択後の大分類音素列４１として
得られている。ここで、しきい値３１ａ〜３７ａは実験
的に求められた値である。また各フレームにおいて、い
ずれの出力もしきい値を越えなかった場合を＊印にて示
している。

【００１５】一般的に、ある音素から音素に遷移する場
合、人間の発生器官は急激に変化することができず、い
ずれの音素とも特定しがたい過渡的な部分を伴って発声
されるものであるが、この＊印フレームがそのような過
渡的な部分を示すものである。また、音声の語尾には呼
気音と呼ばれるものを伴うことが多いが、この呼気音部
も＊印にて検出されている。ここで、前後は他の同一音
素で、一箇所だけ単発的に生じているような、大分類音
素列４１中の丸印で示したＭやＢは、前後の音素と同じ
ものとみなして修正する等のスムージング・整形処理を
行うことによって、セグメンテーション・大分類音素４
２を得ている。即ち、この大分類音素列４２を見てわか
るように、入力音声「ポプラ並木」が大分類音素記号
Ｕ，Ｐ，Ｖ等の同一記号の並びによって音素区間が明確
に区分（セグメンテーション）されると同時に音素の大
分類認識が行われている。

【００１６】さらにこのセグメンテーション・大分類の
結果を基に、図１に示す細分類ニューラルネットワーク
選択・駆動手段５は、大分類音素記号で示される各フレ
ーム区間をさらに細分類認識するための細分類ニューラ
ルネットワーク６ａ〜６ｆより成る細分類ニューラルネ
ットワーク群６の中から、対応する細分類ニューラルネ
ットワークを選択し、対応するフレーム区間についての
み、大分類ニューラルネットワークと同様に駆動、即
ち、該当する区間の特徴パラメータを入力してニューラ
ルネットワークの計算、処理を行わせる。つまり、図４
の大分類音素記号列４２の、例えばＰと大分類された最
初の区間は細分類ニューラルネットワークＰ（図１の６
ｄ）を選択し、対応するフレームの特徴パラメータを入
力して細分類ニューラルネットワークＰの出力値を得る
ように駆動する。

【００１７】ここで、細分類ニューラルネットワーク６
ａ〜６ｆは、一例として図５に示した、母音Ｖを細分類
するニューラルネットワークＶで示すように、図２(a)
に示すセグメンテーション・大分類ニューラルネットワ
ーク３と同種の構造の多層パーセプトロン型ニューラル
ネットワークを用いている。従って図３の一覧からわか
るように、細分類の出力層の数は各ニューラルネットワ
ークによって異なり、例えば大分類音素記号Ｚの細分類
では、出力はＯ_z, Ｏ_hの２つしかない。

【００１８】そして、図１に示す細分類認識手段７は、
前述したセグメンテーション・大分類認識手段４と同様
にフレームの各出力値（この場合Ｏ_p, Ｏ_t, Ｏ_k）と
各々のしきい値を越えたもの、あるいは最大出力となっ
たものを選択してその出力に対応した細分類音素記号６
１（この場合ｐｐｐｔ……）を得、さらにこのｐ区間内
で最多出現回数のｐをこの区間の最終的な認識音素８と
して出力する。以下同様に、次のＶと大分類された区間
は細分類ニューラルネットワークＶ（図１の６ａ）を選
択・駆動し、認識音素Ｏを出力する、という処理を行っ
てゆき、入力音声に対応した認識音素列８を得るという
ものである。

【００１９】なお、半母音音素ｙおよびｗは母音ｖとし
て大分類し、例えばその細分類認識結果が「ｉｅａ」ま
たは「ｅａ」といった連続母音列として出現した場合
は、これを「ｙａ」と認識出力し、また他に「ｏａ」ま
たは「ｕａ」といった連続母音として出現した場合は、
これを「ｗａ」として認識出力する、というような現実
に対応させたルール処理を図１の細分類認識手段７にて
行うようにしている。また、無音のデータに対しては細
分類するまでもないので、大分類ニューラルネットワー
クの出力層２４より得られた出力Ｏ_Uのしきい値以上の
結果をそのまま保持し、細分類データに無音時間のデー
タとして付加される。

【００２０】なお、上記実施例は本発明の一実施例を示
すものであり、本発明はこれに限定されるものではな
い。例えば、特徴パラメータとしてケプストラム係数以
外のものとして、所定周波数のスペクトル相当値を用い
ても良い。フレーム数もフレーム周期も必要とするシス
テムによって自由に設定、変更できる。個々のニューラ
ルネットワークとしても全結合型の多層パーセプトロン
以外の、例えば前述ＴＤＮＮ、あるいは他の構造のニュ
ーラルネットワークを用いても良い。

【００２１】以上説明したように、音素を認識するため
のニューラルネットとして、まず大分類ニューラルネッ
トワークを駆動してセグメンテーションと大分類認識を
同時に行い、大分類されたセグメンテーション区間につ
いて細分類認識のために必要な細分類ニューラルネット
ワークのみを選択・駆動して最終的な細かい音素認識を
行う構成とすることにより、計算・処理量の大きいニュ
ーラルネットワーク処理が極めて効率よく行えると同時
に、精度よく音素認識されることがわかる。

【図面の簡単な説明】

【図１】本発明の音素認識方式の全体のブロック構成
図。

【図２】大分類のニューラルネットワークの構成図。

【図３】大分類音素記号の対応図。

【図４】実際の分析しデータ一覧図。

【図５】細分類のニューラルネットワークの構成図。

【図６】従来の音素認識方式を示す構成図。

【符号の説明】

１入力音声（被分析音声データ）２分析手段３セグメンテーション・大分類ニューラルネットワー
ク（セグメンテーション・大分類音素抽出手段）４セグメンテーション・大分類認識手段５細分類ニューラルネットワーク選択・駆動手段６細分類ニューラルネットワーク群（細分類音素抽出
手段）７細分類認識手段８認識音素列（細分類結果、分析結果データ）２１入力層２２中間１層２３中間２層２４出力層３１〜３７セグメンテーション・大分類ニューラルネ
ットワーク出力４１、４２セグメンテーション・大分類結果６１細分類ニューラルネット出力選択結果

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いた音素認識
装置において、入力音を所定のフレーム周期ごとに分析して複数個の特
徴パラメータを求める分析手段と、前記特徴パラメータを時間的にフレーム単位でずらしな
がら、所定フレーム数分とった特徴パラメータ系列が入
力されて、該入力音をセグメンテーションすると同時
に、音素の大分類認識を行うのに必要な出力値を得るセ
グメンテーション・大分類ニューラルネットワークと、同じく前記特徴パラメータ系列が入力されて音素の細分
類認識を行うのに必要な出力値を得る複数個の細分類ニ
ューラルネットワークより成る細分類ニューラルネット
ワーク群と、前記セグメンテーション・大分類ニューラルネットワー
クの出力値をもとに該入力音をセグメンテーションする
と同時に、音素の大分類を行うセグメンテーション・大
分類認識手段と、このセグメンテーション・大分類結果に基づいて、該当
する細分類ニューラルネットワーク群より逐次選択する
と同時に、セグメンテーションされた区間について駆動
する細分類ニューラルネットワーク選択・駆動手段と、前記細分類ニューラルネットワーク群の出力値をもとに
該入力音に対応した認識音素列を得る細分類認識手段と
から構成されることを特徴とする音素認識装置。
【請求項２】前記セグメンテーション・大分類ニューラ
ルネットワークは単一のニューラルネットワークであっ
て、あらかじめ無音を含むすべての音素について同時に
学習させてあることを特徴とする請求項１記載の音素認
識装置。
【請求項３】ニューラルネットワークを用いた入力音の
音素認識方法において、該入力音を所定のフレーム周期ごとに分析して複数個の
該フレームの特徴パラメータを求め、前記特徴パラメータを時間的にフレーム単位でずらしな
がら、所定フレーム数分とった特徴パラメータ系列をセ
グメンテーション・大分類音素抽出手段に入力して該入
力音をセグメンテーションすると同時に音素の大分類認
識を行い、該セグメンテーション・大分類認識の結果に基づいて、
該当する細分類音素抽出手段を逐次選択すると同時に、
セグメンテーションされた区間について前記細分類音素
抽出手段を駆動し、当該区間の前記特徴パラメータ系列を基に音素の細分類
認識を行い、前記細分類認識の出力値をもとに該入力音に対応した認
識音素列を得ることを特徴とする音素認識方法。