JP2736361B2

JP2736361B2 - ニューラルネット構成方法

Info

Publication number: JP2736361B2
Application number: JP63058032A
Authority: JP
Inventors: 達雄松岡; 洋浜田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-03-11
Filing date: 1988-03-11
Publication date: 1998-04-02
Anticipated expiration: 2013-04-02
Also published as: JPH01232464A

Description

【発明の詳細な説明】「産業上の利用分野」この発明は、パターン認識に用いられ、バックプロパ
ゲーションにより学習を行うニューラルネットの構成法
に関するものである。

「従来の技術」識別対象の各特徴量（ベクトル）をニューラルネット
に入力させて、バックプロパゲーションにより学習を行
って入力が属するカテゴリー（パターン）を識別するこ
とが行われている。

第１図にバックプロパゲーションにより学習を行うニ
ューラルネットの構成例を示す。入力層、隠れ層、出力
層間にユニットは互いに結合しており、各結合は各々重
みを持っている。バックプロパゲーションでは、所望の
出力値との誤差をもとに所望の値を出力するように結合
の重みを学習する。

まず、各結合の重みの値をランダムに設定し、入力と
その入力に対する所望の出力を与える。次に、入力層、
隠れ層、出力層の方向に、入力に対する出力を決定して
いく。入力層のユニットは入力値をそのまま出力値とす
る。隠れ層、出力層のユニットは下位層の複数のユニッ
トの出力値とユニット間の結合の重みの加重総和を入力
値とする。隠れ層、出力層の各ユニットは入力値を非線
形関数（sigmoid関数など）により変換して出力値を出
力する。次に、出力層のユニットの出力と所望の出力の
誤差を評価する。この評価関数の値を小さくするように
各ユニットのしきい値、結合の重みを更新する。

以上の手順で評価値は十分小さくなるまで学習を繰り
返す。（バックプロパゲーションについては文献“Para
llel Distributed Processing",Rumelhart,McClelland,
and PDP Research Group,The MIT Press,1986に詳し
い。）１回の学習における計算量は、結合の数（入力層、隠
れ層、出力層のユニット数をそれぞれI,J,Kとした時、
Ｉ×Ｊ＋Ｊ×Ｋ）に比例する。従って、各層のユニット
数I,J,Kが大きくなれば、計算量も増大する。

識別対象のカテゴリー数が多い実際の識別問題に、こ
の従来のニューラルネットの構成を適用する場合には、
識別対象のカテゴリー数に対応して出力層のユニット数
が増加する。また、カテゴリー数を増加した場合には高
い識別率を得るためには隠れ層のユニット数も増加しな
ければならない。入力層のユニット数は、扱う特徴量に
より異なるが、カテゴリー数を増加すれば、やはりより
多くの特徴量が必要となるため入力層のユニット数も増
加する必要がある。従って、結合の数は、識別対象のカ
ゲゴリー数の増加に対して二〜三乗のオーダーで増加す
る。結合の数が増加すると、評価値が十分小さい値に集
束するまでの学習回数が増加する傾向がある。

以上のように識別対象のカテゴリー数が大きい場合に
は、評価値が集束するまでの計算量、すなわち学習時間
が膨大となり、現実的でなくなる。また、計算時間を現
実的なものとするために隠れ層のユニット数、入力層の
ユニット数を小さな値に抑えると、十分な識別性能が得
られなくなるという欠点があった。

この発明の目的は、ニューラルネットを識別対象の多
い識別に適用する場合に学習時間を短縮し、また、識別
性能を向上させることにある。

「課題を解決するための手段」この発明は識別対象を予め幾つかのグループに分け、
そのグループの識別を行うネットワークと、グループ内
の個々の識別対象を識別する小規模なネットワークとを
設け、それぞれ独立に学習をした上で各ネットワーク毎
に識別を行い、次にグループを識別するニューラルネッ
トの出力結果とグループ内の識別を行うニューラルネッ
トの出力結果の両者から識別結果を決定することを最も
主要な特徴とする。従来の方式とは、複数の独立な規模
の小さいネットワークにより学習、識別を行い、その結
果を総合して識別結果を決定することが異なる。

「実施例」第２図はこの発明の説明図である。Ａはグループを識
別するネットワーク、Ｂ₁〜Ｂ_nはグループ毎のネットワ
ークで、本図ではそれぞれ隠れ層を一層としている。A,
B₁〜Ｂ_nとも、入力データの特徴量に対応した数の入力
ユニットを持つ。本図では、A,B₁〜Ｂ_nの入力ユニット
をすべて共通化しているが、入力ユニットは非線形変換
を行わない単なる端子であり、入力ユニット数は直接計
算量とは関係ないため特に共通である必要はない。各ネ
ットワークとも、隠れ層のユニット数は予備検討などに
より適宜決定する。Ａはネットワークは各グループに対
応したｎ個の出力ユニットを持ち、Ｂ₁〜Ｂ_nは各グルー
プ内の要素に対応した数の出力ユニットを持つ。A,B₁〜
Ｂ_nの出力ユニットの出力値は判定回路に入力されてい
る。

このネットワークにおいて、まず学習の際には、Ａは
すべての学習用データを用いてグループを識別するよう
に所望の出力のパターンをＡの出力ユニットに設定しな
がらバックプロパゲーションにより学習する。Ｂ₁〜Ｂ_n
は各グループ内のカテゴリーに属する学習用データだけ
を用いてグループ内のカテゴリーを識別するように、同
じくバックプロパゲーションにより学習する。判定回路
は学習時には動作しない。次に、識別の際には、学習の
終了したA,B₁〜Ｂ_nに試験用データを入力し、Ａの出力
結果とＢ₁〜Ｂ_nの出力結果から判定回路において識別結
果を判定する。判定回路では、Ａの出力ユニットのう
ち最大の活性値（出力値）を示したユニットに対応する
サブネットワーク（Ｂ₁〜Ｂ_n）を選択し、そのサブネッ
トワークの出力ユニットのうち最大の活性値を示したユ
ニットに対応するカテゴリーを識別結果とする、Ｂ₁
〜Ｂ_nの各出力値と、それぞれのサブネットワークに対
応するＡの出力値との積を評価し、その最大値により識
別結果を判定する、等の判定方法により識別結果を決定
する。

以下にこの発明のニューラルネット構成法を音声の子
音認識に適用した例を示す。

実施例１特定話者が発声した、母音/a/が後続する単音節の14
子音/b,d,g,p,t,k,z,s,h,m,n,w,y,r/を識別対象として
認識実験を行った。入力データは音声始端から８フレー
ムの16次LPCケプストラム係数（12kHzサンプリング、16
msハミング窓、フレーム周期8ms）である。

第３図に本実験に適用したネットワークの構成を示
す。ネットワークはグループの識別をＡのネットワーク
と各グループ内の識別を行うＢ₁〜Ｂ_n（n:複数の要素を
持つグループの数。グループ内の要素は１の場合もあ
る。）のサブネットワークからなる。実験では、グルー
プ数を７とし、またA,B₁〜Ｂ_nとも３層のネットワーク
とした。Ａのネットワークの隠れ層のユニット数は30と
した。また、Ｂ₁〜Ｂ_nの隠れ層のユニット数はグループ
内の識別率が最大となる数に選んだ。本実験では従来の
音声学的知見に基づき、調音様式の同じもの、すなわち
/z/,/s,h/,/b,d,g/,/p,t,k/,/w,y/,/m,n/,/r/をグルー
プとして用いた。

各ネットワークとも結合の重み、ユニットのしきい値
を、非線形関数としてsigmoid関数を用いて、バックプ
ロパゲーションにより学習した。Ａのネットワークは14
子音のデータを用いて、Ｂ₁〜Ｂ_nのサブネットワークは
各グループ内のデータのみを用いて学習した。

この時、所望の出力値と実際の出力値との誤差が予め
定めたしきい値以下に集束するまでの各ネットワークの
学習回数は、Ａのネットワークが約9000×14回（14はカ
テゴリー数、以下同様）、サブネットワークは、/s,h/
が150×２回、/b,d,g/が2400×３回、/p,t,k/が1200×
３回、/w,y/が140×２回、/m,n/が2300×２回であっ
た。これを計算量の評価値となる結合数と学習回数の積
の総和に直すと約51485万で、グループ分けせずに前音
節を一つのニューラルネットで学習した場合の約65604
万より小さく、学習量すなわち学習時間が少なく済ん
だ。

識別では、出力ユニットのなかで最大の活性値を示し
たものを識別結果と定義した。ある入力データを与えた
時、Ａの出力によりその入力データが属するグループを
決定し、Ｂ₁〜Ｂ_nのうち当該グループに対応するサブネ
ットワークを選択する。そして選択されたサブネットワ
ークの出力により最終的な識別結果を決定した。サブネ
ットワークの選択はＡの出力結果でＢ₁〜Ｂ_nの出力にゲ
ートをかけることで実現した。また、要素が一つだけの
グループが最大の活性値を示した場合はＡの出力をその
まま識別結果とした。

識別率は第４図に示す通りとなり、グループ分けせず
に全音節を一つのニューラルネットで識別した場合の識
別率92.5％より高く95.7％であった。

実施例２グループの設定方法としてニューラルネットの隠れ層
の発火状態からグループを設定する方法を用いて実施例
１と同様の実験を行った。つまりこの方法では、まず14
子音をグループに分けることなく、識別するニューラル
ネットを学習、構成した。その時の隠れ層のユニット数
を30とした。次にそのニューラルネットに学習用データ
を入力データとして入力し、出力値を計算し、最大の活
性値を示したものが入力データのカテゴリーと一致した
時の隠れ層の発火状態を30次元のベクトルとし、このよ
うにして得た格子音と対応するベクトル間のユークリッ
ド距離を求め、このユークリッド距離が近い子音を同一
グループとするようにクラスタリングを行ってグループ
を設定した。このグループは第５図のように分かれた。
このグループ分けに対して実施例１と同様にＡのネット
ワーク、Ｂ₁〜Ｂ₇のサブネットワークについて学習を行
ってニューラルネットワークを構成した。このニューラ
ルネットワークを用いた識別率はやはりグループ分けせ
ずに一つのニューラルネットで識別した場合より高く9
5.0％であった。

このグループの設定に際し、隠れ層が複数の場合には
（隠れ層の数）×（各層のユニット数）のマトリクスと
考え、そのマトリクスのクラスタリングにより隠れ層の
発火状態に近いものを同一グループとしてグループ分け
を行う。

「発明の効果」以上説明したように、識別対象をグループ分けし、グ
ループを識別するネットワークと、各グループ内の識別
を行う複数の独立な規模の小さいネットワークとにより
学習、識別を行い、その結果を総合して識別結果を決定
することにより、一つのニューラルネットにより全対象
を同時に識別する場合より識別性能を向上できるという
利点がある。また、大規模なネットワークの学習が不要
となり学習量を削減することができる利点がある。

さらに、識別対象すべてを一つのニューラルネットで
学習、識別した時の隠れ層のユニットの発火状態をベク
トルまたはマトリクスと考え、そのベクトルまたはマト
リクスのクラスタリングにより隠れ層の発火状態の近い
ものを同一グループとしてグループ分けを行うことによ
り、先験的知識を用いなくとも統計的にグループ分けが
行える利点がある。

【図面の簡単な説明】

第１図は従来のニューラルネットの構成を示す図、第２
図はこの発明のニューラルネットの構成を示す図、第３
図は実施例のニューラルネットの構成を示す図、第４
図、及び第５図はそれぞれ実施例の結果を示す図であ
る。

Claims

(57)【特許請求の範囲】

【請求項１】所望の出力値と実際の出力値との誤差に従
って入力層、隠れ層、出力層の間の結合の重みを変化さ
せるアルゴリズムにより所望の値を出力するように学習
してニューラルネットを構成する方法において、識別対象を幾つかのグループに分け、そのグループの識
別を行う第１ネットワークと、グループ内の個々の識別
対象を識別する第２ネットワークとを用い、上記第１、第２ネットワークをそれぞれ個別に学習を
し、識別の際はまず各ネットワーク毎に識別を行い、次にグ
ループを識別するニューラルネットの出力結果とグルー
プ内の識別を行うニューラルネットの出力結果の両者か
ら識別結果を決定することを特徴とするニューラルネッ
ト構成方法。
【請求項２】識別対象すべてを一つのニューラルネット
で学習、識別し、その時の隠れ層のユニットの発火状態
を隠れ層のユニット数の次元のベクトル、または隠れ層
が複数の場合には（隠れ層の数）×（各層のユニット
数）のマトリクスとし、そのベクトルまたはマトリクス
のクラスタリングにより、隠れ層の発火状態の近いもの
を同一グループとして上記グループ分けを行うことを特
徴とする請求項１に記載のニューラルネット構成方法。