JPH0644207A

JPH0644207A - ニューラルネットワーク及びその構成方法

Info

Publication number: JPH0644207A
Application number: JP5080338A
Authority: JP
Inventors: Buesuko Marinofu; ヴェスコマリノフ; Eiburamu Maritsukii; エイブラムマリッキー; Sofuia Maritsukii; ソフィアマリッキー
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-04-16
Filing date: 1993-04-07
Publication date: 1994-02-18

Abstract

(57)【要約】【目的】非線形多変数関数の解を表わす値を提供する
ためと、組合せを各々から分離するための学習可能な単
層の重み付けを有する改良されたニューラルネットワー
クを得ること。【構成】ニューラルネットワークの入力へ与えられた
一つの変数の関数から各々が導かれる複数の第１値を計
算するための複数のノード４０１，４０２を有する第１
処理層を含む。第２処理層は第１処理層により提供され
た複数の第１値の部分集合の和の関数を各々が計算する
ための複数のノード４１０〜４１９を含む。本ニューラ
ルネットワークは、さらに、第２処理層を第３処理層に
結合する学習可能な相互接続層４２５を含む。本ニュー
ラルネットワークは、さらに、第２処理層の複数のノー
ド４１０〜４１９により計算された重み付けした値の和
を計算するための第３処理層を含み、学習可能な相互接
続層４２５により第３処理層が第２処理層の複数のノー
ド４１０〜４１９に結合される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連想記憶などの分野に
関し、より特定すれば、ニューラルネットワーク及びそ
の構成方法に関する。

【０００２】

【従来の技術】ニューラルネットワークは、例えば、入
力パターンが基準となるパターンを含むものとして認識
されるか又は認識されないかといったパターン認識の問
題で、また、例えば、信号をノイズから分離する問題
で、２組のデータを相互に分離するための周知の機構を
提供した。これらの問題を解決する上で、ニューラルネ
ットワークはデータを分離する見掛けを構築することに
よって２組のデータを解析するものと見做すことができ
る。組の分離の問題を解決するためのこの方法は、一つ
の変数の関数である点の線形に分離可能な組の例におい
てはそれほど困難ではない。データの点を分離する境界
面が複数の変数の関数、特に非線形関数であるとき、デ
ータの組の分離は大幅に複雑さを増すようになる。こう
した状況は普遍的であり、しばしば未知の分析形態を有
する非線形多変数関数の解法を必要とするのが常であ
る。

【０００３】２組を相互に分離する在来のニューラルネ
ットワーク手法及びこれ以外に非線形多変数関数を計算
するための方法は、誤差後ろ向き伝播を用いて学習する
学習可能な（適応可能な）、少なくとも２層の重み付け
を含む多層ネットワークを用いることで、これはニュー
ラルネットワーク技術において周知のパラダイムになっ
ている。例えば、ジュディス・Ｅ・ディホフ（Ｊudith
Ｅ. Ｄayhoff）著、「ニューラルネットワーク・アーキ
テクチャ（Ｎeural Ｎetwork Ａrchitectures）」ヴァ
ン・ノストランド・ラインホルド刊、ニューヨーク１９
９０年を参照されたい。誤差後ろ向き伝播を用いて学習
した学習可能な多層の重みを含むニューラルネットワー
クが、非線形多変数関数に関する問題の解明に効率的か
つ正確な解答を得ることが時々あるとしても、こうした
ニューラルネットワークでは計算面の負担が大きく十分
な正確度を提供し得ないこともしばしばである。

【０００４】誤差後ろ向き伝播（単に、「バックプロパ
ゲーション」とも称する）により学習した学習可能な多
層の重みを含むニューラルネットワークは、こうしたニ
ューラルネットワークの学習のために膨大な計算資源を
必要とする。これらの問題は十分に記述されている。ま
た、ニューラルネットワーク内部の処理ノードの隠れた
層について必要とされる学習から発生することが殆どで
ある。このようなニューラルネットワークでさらに重要
な欠点は、おそらくエネルギー（エネルギーの大きさ）
平面における大域的極小に収束させることができないネ
ットワークの無力さに起因することが多い不十分な正確
さである。エネルギー平面の複雑さはＮ次元空間におけ
る関数表面形状から直接得られるものである。

【０００５】図１では、少なくとも２層の学習可能な重
み、例えば、相互接続されている層Ｉ１及びＩ２などを
含む周知の多層ニューラルネットワークを示す。Ｉ３も
学習可能な重みを有する相互接続層の一つとしてよい。
図１に示したニューラルネットワークはＰ１，Ｐ２，Ｐ
３，Ｐ４などのニューロン処理ノードを含む４つの処理
層を含む。処理層Ｐ１は通常入力層と称され、処理層Ｐ
４は通常出力層と称される。入力層Ｐ１はノード１０〜
１４を含み、処理層Ｐ２はニューロンのノード２０〜２
３を含むのが解る。処理層Ｐ２は通常隠蔽層と称されて
おり、このような隠蔽層がネットワークの学習のために
多くの剰余計算ステップを必要とし、また、そのために
誤差後ろ向き伝播を用いる多層ニューラルネットワーク
の学習を難しいものにしている。

【０００６】図２は縦軸６１がニューラルネットワーク
のエネルギー又は誤差を表わし、横軸６０が図１に示し
た層Ｉ２などの特定の相互接続層内部の各種の重みの内
の「一つ」を表わすような２次元における「エネルギー
平面」を図示したものである。図２の曲線上の点５１が
大域的極小を表わし、また、点５３及び５６が局部的極
小を表わすのが望ましい。学習可能な相互接続の重みの
多層を含むニューラルネットワークは大域的極小への収
束を行なわないことが多いが、むしろ「エネルギー平
面」のＮ次元における関数表面の形状の複雑さにより、
例えば、点５３，５６などの局部的極小への収束を行な
うことになる。

【０００７】

【発明が解決しようとする課題】よって、例えば、重み
について選択した初期値が適切な範囲内ではない場合、
ニューラルネットワークは、通常、大域的極小へ収束し
ない。大域的極小を見つけるようにニューラルネットワ
ークを強制して動かすような試みもなされてきたが、こ
うした試みはしばしば失敗し（誤差後ろ向き伝播技術の
機能とエネルギー平面の複雑さが原因）、また、学習可
能な多層の重みを有するニューラルネットワークを学習
するためにさらに大きな計算資源を必要とする。

【０００８】本発明の目的は、（パターン認識などの用
途のために）２組の値を相互に分離するためと非線形多
変数関数の解法を表わす値を提供するために改良された
ニューラルネットワークを提供することである。本発明
の別の目的は、非線形多変数関数の解法を表わす値を提
供するためと、２組を各々から相互に分離するための単
層の学習可能な重みを有するニューラルネットワークを
提供することでもある。本発明のさらなる目的は、必要
とする計算資源を少なくして各々相互から２組の分離を
なし、また、一層有効かつ正確な非線形多変数関数の解
法の導出をなすような単層の学習可能な重みを有するよ
うに改良されたニューラルネットワーク及びその構成方
法を提供することである。

【０００９】

【発明の概要】本発明は、Ｎ個なる複数の変数（Ｘ₁〜
Ｘ_N）を有する非線形多変数関数を表わす値を提供する
ために単層の学習可能な重みを有するニューラルネット
ワークに関する。本発明のニューラルネットワークは、
入力を受信するための入力手段と、第１処理層と、学習
可能な相互接続層と単一のニューロンノードによる第２
処理層とからなる。学習可能な相互接続層は、通常、複
数のニューロンノードからなる第１処理層を第２処理層
に接続する。入力手段は一つの変数“Ｎ”が複数の変数
関数における変数量を表わすような一つの変数の関数の
計算から得られた値を受信する。第１処理層は、入力手
段により受信された値の下位分類の和の関数を各々が計
算するような複数の処理ノード（ニューロンノード）を
含む。第１処理層の各ノードの出力は、学習可能な相互
接続層により重み付けがなされ、また、第２処理層は、
第１処理層からの重み付け出力を加算する。学習可能な
相互接続層の重みは、単一の学習可能な層を有する正帰
還ニューラルネットワークを学習するための通常の方法
で学習される。

【００１０】ここに、例えばニューラルネットワーク
は、複数の入力の各々が各々の変数の値の入力を受信す
るようになしてある全てのＮ変数についての複数の入力
を受信するための入力手段と、第１のノード層（ノード
手段）であって入力手段に結合されており多変数関数に
おける変数の数を表わすＮが変数であるような一つの変
数の関数の値を所定の入力の一つに与えられた場合にこ
の層内の各々のノード手段で計算するための第１処理層
と、第１のノード層に結合された第２のノード層（ノー
ド手段）であって各ノードが第１処理層で計算された幾
つかの値の合計に基づいて一つの値を計算するようにな
した第２処理層と、この第２処理層で計算された各々の
値について重み付けの値を提供して学習可能な相互接続
手段が複数の重み付けの値を提供するようになしてある
ような第２処理層に結合されている学習可能な相互接続
層と、学習可能な相互接続手段により第２処理層内の各
ノードに結合された単一ノード（ノード手段）よりなる
層であって学習可能な相互接続層からの複数の重み付け
の値の和を計算するための第３処理層を含む。本ニュー
ラルネットワークは、非線形多変数関数の既知の値を変
数の既知の入力値に用いることで学習される。学習は学
習可能な単層の重みを有する在来の正帰還ニューラルネ
ットワークを学習する標準的方法で完了する。

【００１１】本発明のニューラルネットワークが、ニュ
ーラルネットワークを実現する一般的な方法の何れか
で、例えば、ソフトウェアによって又はソフトウェアと
ハードウェアの組合せによって実現し得ることは当業者
には理解されよう。本発明が本発明の教示に従って組立
てられた在来のニューラルネットワークハードウェア回
路を用いて完全にハードウェアとして実現し得ることも
理解されよう。

【００１２】

【実施例】図４及び図５では図３に図示した処理に従っ
て構築した本発明のニューラルネットワークが図示して
あり、これは本発明によるニューラルネットワークを構
築するための方法の一般的フローチャートを示したもの
である。図３に図示したように、本発明によるニューラ
ルネットワークを構築する過程は特定の多変数関数、例
えば、Ｆ（Ｘ₁〜Ｘ_N）の変数の決定及び変数の数Ｎの決
定に関係するステップ３０１から始まる。本発明のニュ
ーラルネットワークを学習するためには、ステップ３０
２において変数Ｘ₁〜Ｘ_Nの幾つかの既知の入力値につい
て多変数関数の既知の値が作られる必要がある。変数の
数Ｎの決定後、その変数の数の関数（“Ψ”）が後述す
るようにステップ３０３で分析的に決定される。次に、
ステップ３０４で単層の学習可能な相互接続した重みを
有するニューラルネットワークが各種の変数値の入力値
を与えられた一つの変数の関数を計算する第１処理層を
提供することにより、また、第１処理層において計算し
た各々の値についての重み付けの値を提供するための学
習可能な相互接続手段を提供することにより、さらに、
重み付けした値を受信するために学習可能な相互接続層
手段により第１のノードの処理層に結合されている層の
第２処理層を提供することにより構築されている。

【００１３】図４は、このステップ３０４の方法で構築
したニューラルネットワークの実施例を示したものであ
る。ステップ３０５において、構築されたばかりのニュ
ーラルネットワークは、既知の入力に関数Ｆ（Ｘ₁〜
Ｘ_N）の既知の値を用いる正帰還ニューラルネットワー
クでの標準的学習技術を用いて学習される。これによ
り、学習可能な相互接続手段内の重みの値が変更され、
第２処理層において計算された関数が、組の分離の問題
の解法の表現を正確に提供するように又は非線形多変数
関数の解法を提供するようになされる。学習ステップの
後、ステップ３０６でニューラルネットワークは、ニュ
ーラルネットワークの利用者が提供する所定の入力を用
いて関数の未知の点で多変数関数の解法を提供するため
に用いられる。組の分離の問題と多変数関数は既知の分
析的形状を有する関数によって記述し得ないことは理解
されよう。しかし、本発明のニューラルネットワーク
は、こうした関数の解法を表わす十分に正確な値を提供
するものである。さらに、本発明のネットワークはネッ
トワークの変更（例えば、変数の数を変更するなど）が
要求される場合に容易に再学習することが可能で、再学
習に相当量の計算資源を要求する従来技術のニューラル
ネットワークとは異なっている。これは、ネットワーク
の再学習が難しく高価な“分野において”使用されてい
る従来技術のネットワークに対する大きな長所を提供す
るものである。

【００１４】変数Ｎの任意の連続する関数Ｆ（Ｘ₁〜
Ｘ_n）が、一方が原始関数Ｆ（Ｘ₁〜Ｘ_n）における変数
の数（Ｎ）にのみ依存しているような一つの変数の２つ
の関数だけの書換えによって表現し得ることは公知であ
る。例えば、スプレッチャー（Ｓprecher, Ｄ.Ａ.）の
「複数変数の連続関数の構造について（Ｏn the Ｓtruc
ture of continuous Ｆunctions of Ｓeveral Ｖariabl
es）」、アメリカ数学会誌１１５号、３４０〜３５５頁
を参照されたい。また、その他のスプレッチャーの出版
物も参照されたい。より特定すれば、関数Ｆ（Ｘ₁〜
Ｘ_n）は（１）式のように表現されることが周知であ
る。

【数１】

【００１５】ここで、各々の整数Ｎ≧２について、Ψが
Ｎに依存しＮが、２≦ｎ≦Ｎとなるようなｎについての
上限の、実数で一様に増加する関数Ψ(Ｘ）∈Lip［ln
２/ln(２Ｎ＋２)］が存在し、また、関数Ψへの入力は
単位間隔（即ち、０≦入力≦１）の範囲内で単位間隔Ｅ
の出力を生成する、即ち、Ψ(Ｅ)＝Ｅである。ここで、・０＜ε＜δ（δは予め割当ててある数、δ＞０）・λは関数Ｆ(Ｘ₁〜Ｘ_n)とは独立した定数・０≦Ｘｐ≦１（即ち、入力変数Ｘ₁〜Ｘ_nは単位間隔内
に収まるように標準化される）・χは実数の連続した関数・Ｌｉｐ［α］はψの領域内で全てのｘとｙについて、
条件

【数２】を満たす関数ψのクラスである。

【００１６】Ψを決定する方法が用意されており（例え
ば、スプレッチャー、スープラ（Ｓupra）を参照）、以
下にΨを決定するための例を示す。定数λは度数ｎの代
数的量であり多項の度数ｎの根に基づく。例えば、Ｎ＝
２，λ＝√２／２＝０．７０７１１〜の場合がそれであ
る。値εも定数であるが正確性を改善するために以下に
述べるように変更してもよい。ネットワークの学習で、
λに割当てた値を考慮することができるため、λが正確
に固定されなくてもよいことに注意されたい。関数Ψが
関数Ｆ(Ｘ₁〜Ｘ_n)から独立しており、関数Ｆ(Ｘ₁〜Ｘ_n)
の引数(変数）の数の上限をなすＮにのみ依存する。こ
れは、範囲２≦ｎ≦Ｎのあらゆる所定のｎについて、ま
た、ｎ変数のあらゆる関数Ｆ（Ｘ₁〜Ｘ_n)について、関
数Ψが同一であることを意味している。関数Ψが一つの
変数だけを有しており、χの計算までに決定することが
可能であり、また、χが一つの変数の関数でもあること
も重要である。関数ΨがＮ＝４について同じ値をとり、
また、Ｎ＝５について別の値をとるが、これらの値の双
方が３つの変数（即ち、ｎ＝３）をとる関数Ｆの決定に
用い得ることに注意することも重要である。当然のこと
として、この条件下では、Ｆの値を決定するためにΨ
(４)又はΨ(５)を用いることで、同一のＦについて異な
るχの値が導かれる。言い換えると、関数ΨがＮ＝５に
ついて計算された場合、その関数はｎ＝５又はｎ＝４又
はｎ＝３又はｎ＝２について用いることができると言う
ことになる。

【００１７】関数ΨがＮ変数の全ての関数について同一
であることが望ましい。例えば、関数Ψを例えばＦ＝Ｘ
₁＊Ｘ₂などの特定の関数でのＮ＝２について求めること
が可能であり、この同じ関数Ψを２つの変数のあらゆる
連続関数の表現に用いることが可能である。これは、Ｆ
₁ ＝Ｘ₁＋Ｘ₂を意味しており、２つの変数の全ての他の
連続関数がＦ₁ ＝Ｘ₁＊Ｘ₂について計算した同じΨを用
いて表現し得ると言うことである。ＦとＦ₁ の差分は、
関数χにより取込まれることになる。

【００１８】本発明のニューラルネットワークにおい
て、関数Ψは分析的に計算され、一つの変数の関数でも
あり、典型的なニューロン処理ノードのシグモイド変数
により表現し得る関数χが求められるのが望ましい。学
習可能な相互接続層が関数χを計算するニューラルネッ
トワークの出力に適応可能な重みを与えて、本発明のニ
ューラルネットワークの出力を生成する。２つの変数
（Ｘ₁及びＸ₂）の関数についての特定の例を以下に解説
する。

【００１９】図４及び図５は、本発明のニューラルネッ
トワークの実施例を示し、例えばＦ(Ｘ₁，Ｘ₂)＝Ｘ₁＊
Ｘ₂（＊は乗算を表わす）などの２つの変数（ｎ＝２）
の何らかの非線形関数の解を表わす値を提供する。この
場合、関数Ｆは上式（１）を拡張することにより、次の
ように、Ｆ(Ｘ₁，Ｘ₂)＝Ｘ₁＊Ｘ₂ ＝χ［λΨ(Ｘ₁）＋λ²Ψ(Ｘ₂)］＋χ［λΨ(Ｘ₁＋ε）＋λ²Ψ(Ｘ₂＋ε)＋１］＋χ［λΨ(Ｘ₁＋２ε）＋λ²Ψ(Ｘ₂＋２ε)＋２］＋χ［λΨ(Ｘ₁＋３ε）＋λ²Ψ(Ｘ₂＋３ε)＋３］＋χ［λΨ(Ｘ₁＋４ε）＋λ²Ψ(Ｘ₂＋４ε)＋４］＋〜表わしてもよい。

【００２０】これは、また次のように、Ｆ(Ｘ₁，Ｘ₂)＝χ₀ ＋χ₁ ＋χ₂ ＋χ₃ ＋χ₄ として書き直すことができる。ここで、 χ₀ ＝χ［λΨ(Ｘ₁）＋λ²Ψ(Ｘ₂)］， χ₁ ＝χ［λΨ(Ｘ₁＋ε）＋λ²Ψ(Ｘ₂＋ε)＋１］， χ₂ ＝… のように置換したものである。

【００２１】図５は、ｎ＝２として本発明のニューラル
ネットワークの簡略版を示している。図５のニューラル
ネットワーク５００は、入力手段（受信手段５０１〜５
１０よりなる）と、第１処理層（処理ノード５１５，５
２０，５２５，５３０，５３５よりなる）と、学習可能
な相互接続層（相互接続手段５４０，５４１，５４２，
５４３，５４４よりなる）と、ノード５５０よりなる第
２処理層を含む。学習可能な相互接続層は第１処理層
（ノード５１５〜５３５）を第２処理層（ノード５５
０）へ結合する。入力手段が一つの変数の関数の計算か
ら得られた多変数関数の変数の個数をなす値を受け取
る。第１処理層は通常複数の処理ノード（例えば、ニュ
ーロンノード）を含み、その各々が入力手段の受け取っ
た値の部分集合の和の関数を計算する。第１処理層の各
ノードの出力は学習可能な相互接続層により重みが付け
られ、第２処理層が学習可能な相互接続層により提供さ
れた重み付けした値の和を決定する。学習可能な相互接
続層の重みは、単一の学習層を有する正帰還ニューラル
ネットワークで標準的な方法により学習される。

【００２２】図４に図示したように、本発明のニューラ
ルネットワークは４つの処理層と３つの相互接続層を含
んでも良い。相互接続手段４４０〜４４４を含む相互接
続層４４５は学習可能な（適用可能な）重みを含む唯一
の層である。相互接続層４０５及び４２５は本発明の好
適実施例においては学習されないものとする。

【００２３】処理ノードの第１処理層はノード４０１及
び４０２を含み、主として２つの変数Ｘ₁ 及びＸ₂ につ
いて入力値の受信と配分の目的に供される。これらのノ
ード４０１及び４０２は入力値を受信し、これらの値を
扇状にノード４１０〜４１９からなるニューラルネット
ワークの第２処理層の処理ノードへ提供する。つまり、
例えば、ノード４０１は変数Ｘ₁ についての入力値をノ
ード４１０，４１２，４１４へ各々相互接続手段４０５
ａ，４０５ｂ，４０５ｃを経由して提供する。この第１
処理層（ノード４０１及び４０２）は、半導体メモリな
どの標準的なコンピュータ・メモリ手段を用いて実現し
得るものであるが、入力が第２処理層に直接供給し得る
なら必要とされないことが望ましい。例えば、処理ノー
ド４１０などの第２処理層における処理ノードは変数の
一つについての入力値の一つが与えられた関数Ψの計算
を実行する。よって、例えば、ノード４１０はΨ（Ｘ
₁ ）を計算し、ノード４１２はΨ（Ｘ₁ ＋ε）を計算す
る。相互接続層４２５は図４の第２のノード層（ノード
４１０〜４１９よりなる）とノード４３０〜４３４を含
む第３のノード層の間の接続を提供する。相互接続層４
２５は相互接続手段４２５ａ〜４２５ｊを含む。図４の
第２処理層のノードは、処理の一部として例えばノード
４１２がλΨ（Ｘ₁ ＋ε）を計算するか、又は、λΨ
（Ｘ₁ ＋ε）＋１を計算し得るように定数λ及び／又は
定数項１，２などに因数分解し得るのが望ましい。ま
た、図４に示したように本発明のニューラルネットワー
クの第３処理層への入力としてΨ関数の出力（図４の第
２処理層で計算される）が用いられるため、εの倍数が
Ψ関数について、また、その結果として第３処理層につ
いてバイアス定数項を構成し得るのが望ましい。ノード
４３０〜４３４よりなる第３処理層のニューロン処理ノ
ードは、入力が相互接続層４２５から提供され入力の既
知の和が与えられたχの値を決定する。χの層のノード
（ノード４３０〜４３４）は正弦波である必要はないが
正弦波でもよい。正弦波でない場合、これらは線形関数
である。標準的なニューロンノード処理技術を用い、図
４のニューラルネットワークの処理ノード４３０の一つ
を示す図８に示されている正弦波関数などの少なくとも
一つの正弦波関数により、χの値が近似し得る。ノード
４３０への入力は相互接続手段４２５ａ，４２５ｂとし
て図８に図示してある。相互接続手段４２５ａがノード
４３０へ値λΨ（Ｘ₁ ）を提供し相互接続手段４２５ｂ
がノード４１１〜ノード４３０により計算されたλ₂ Ψ
（Ｘ₂ ）を提供するのが望ましい。処理ノード４３０は
次に相互接続手段４２５ａ，４２５ｂの双方からの入力
を加算し、この和をノード４３０に図示した正弦波関数
への入力として用い、これによって、χ₀ を計算する。
図８に示した正弦波関数は、以下に示すように表わせる
一般的正弦波関数（「ｃ」が通常１に等しいような）の
例であることが望ましい。

【数３】

【００２４】処理ノード４３１〜４３４はχ₁ 〜χ₄ を
各々が評価して類似の計算を行なう。図４から、相互接
続層４２５が各々が一つの変数の関数である複数の値を
提供し、第３処理層（ノード４３０〜４３４）における
各ノードが部分集合がＮの値よりなるこの複数の値の部
分集合の和の関数の値を提供することが理解されよう。
図４の第３処理層における各処理ニューロンノードへの
出力は相互接続層４４５の適切な相互接続を経て提供さ
れる。よって、例えば、ノード４３０の出力は相互接続
手段４４０から処理ノード４５０へ提供される。処理ノ
ード４５０は図４に図示したニューラルネットワークの
第３処理層の処理ノード５つ全ての重み付けした出力を
加算する。相互接続手段４４０〜４４４を含む相互接続
層４４５の相互接続における学習可能な重みは、通常の
方法で学習される。図４に示した形式のニューラルネッ
トワークにおいて、第３処理層には（２Ｎ＋１）個のノ
ードが存在し、第２処理層には（２Ｎ＋１）個のノード
が存在する。ここで、Ｎは変数の個数である。

【００２５】Ψを計算するための方法を以下に示す。こ
れは、スプレッチャー、スープラが記載した方法に基づ
いている。Ψは単位間隔に沿って間隔を定義する所定の
選択点でのｘの値について計算され、ｘ間の跳躍又は間
隔はニューラルネットワークの設計者が選択した所定の
ｋによって決まる。小さい間隔でのｋの値が多いのは間
隔間の小さい跳躍を意味し（多くのΨの計算値を提供す
ることで）、より正確なニューラルネットワークを提供
する傾向にあるのが理解されよう。

【００２６】この方法は、ｎ，ｋ₀ ，γ＝２ｎ＋２，Ｎ
＝ｎについて所定の値を有することから開始される。こ
こで、Ｎは“ｎ”変数の最大数、ｋ₀ はΨ(ｘ)決定の増
分法における最大ステップ数である。初期のステップに
おいて、次のことを仮定する。 (１)＝０、かつ、β(１)＝０、かつ、ｊ(１)［ｉ(１)］ここで、表現“(ｊ)(１)［ｉ(１)］”において、“１”
は“１”の関数ｉの関数、“１”のｉは数１の関数を示
す。ｊ(１)［ｉ(１)］＝０の設定において、Ψ（Ｘ＝
０）＝０と規定する。Ψ(Χ)が一つのＸから次のＸへ段
階的に反復して求められる。提示した方法は、直前のス
テップで得られた値に次のステップが依存するような再
帰的なものである。

【００２７】シーケンスにおけるＫ番目のステップにつ
いて、次のように仮定する。

【数４】Ｋ番目のステップでは次のようになる。

【数５】

【００２８】本明細書に解説した方法において、ｊ(ｋ)
の値はΨ(ｋ)を表わしており、ある程度の範囲の全ての
ｉ(ｋ)について計算されることになる。例えば、Ｋ＝２
であれば、ｉ(ｋ)＝｛０，…，５｝である。ｋ＋１＜ｋ
₀ となる条件に先行する全てのステップについては、

【数６】かつ、 α_μ(ｋ＋１）＝α_(νγ+t)(ｋ＋１）を以下に示すように（＊は乗算処理を表す）、以下に規
定する３つの式の一つによって決定することが可能で、
ｔとｖによって変化する。

【数７】又は

【数８】又は

【数９】

【００２９】前述の３つの式は、ｋ＝１及びｋ＝ｋ₀ 以
外の全てのステップについて、Ψ(ｘ)を計算することに
なることに注意されたい。また、μ＝０，１，…，γ＾
k −１であり、ｊ(ｋ＋１)＝α₀ (ｋ＋１)，…，α
_μ(ｋ＋１)，…，α_(γk-1)(ｋ＋１)であることに注意
されたい。最後のｋ番目のｋ₀ の（ｋ＋１＝ｋ₀ とな
る）ステップでは、次のような特定の値を有する。

【００３０】

【数１０】とすれば、 ε(ｋ₀）＝（γ−２）＊γ−β(ｋ₀＋１）ただし、α_μ(ｋ₀）＝α_(νγ+t)(ｋ₀）以下に示すようなｔとｖに依存する３つの特定の値の一
つである。

【数１１】又は、

【数１２】又は、

【数１３】よって、ｉ(ｋ₀) → ｋ₀ なるＸをセットｊ(ｋ₀) → ｋ₀ におけるΨ

【数１４】

【外１】が理解されよう。

【００３１】図６及び図７は、ｎ＝２についての関数Ψ
のグラフ図を示す。Ψの正確な値は図６及び図７に印を
付けた点で評価され、それ以外の全ての点は２つの隣接
する点の間の線形補間により得られたものである。図７
は計算した値の増加した数からΨ関数が始まることを示
している。

【００３２】本発明のニューラルネットワークは、単一
の学習可能な相互接続層を有するニューラルネットワー
クを学習する周知の方法で学習される。例えば、ε，λ
についての値及びシグモイド関数の「一つの」定数又は
複数定数についての値は予め選択してあり、Ｆの既知の
出力を有するＦについての既知の入力がニューラルネッ
トワークに提供されて、ニューラルネットワークの出
力、例えば、図４のノード４５０において予想されたＦ
の値を提供するようになす。この出力値は関数Ｆの既知
の値に対して比較され、これらの値の差分が図４の相互
接続層４４５などの相互接続層の重みを変更するために
用いられる。このような重み付けの変更は、単層の学習
可能な相互接続層を有するニューラルネットワークにお
いて、重み付けを変更するための周知の方法で行なわれ
る。既知の出力を有する入力値を用い、本発明のニュー
ラルネットワークを介した複数の正帰還伝播と相互接続
層における重み付けの複数の接続の変更により、しばし
ば信頼性が低く計算量の多い誤差後ろ向き伝播技術によ
り学習されるニューラルネットワークに依存するのでは
なく、非線形の値の組を分離するために、又は、非線形
の多変量関数の解を表わす値を提供するために使用でき
る本発明による学習されたネットワークが得られること
になる。

【００３３】図９は本発明により学習されたニューラル
ネットワークから導いた３つのΧ関数のグラフ図であ
る。これらのΧ関数は、関数Ｆ＝Ｘ₁＊Ｘ₂について計算
されたものである。曲線９０１はＸ₀ 関数を表し、曲線
９０２及び曲線９０３は各々関数Ｆ＝Ｘ₁＊Ｘ₂について
Ｘ₁関数及びＸ₂関数を表している（上述の議論及び図４
を参照）。Χの値はｋ，ｍ＝０，…，３５とする点
(Ｘ₁，Ｘ₂)＝(ｋ，ｍ)／３６で学習したニューラルネッ
トワークにより求められた。その他の全ての点でのΧの
値は、ニューラルネットワークにより求められた隣接す
る点の間の線形補間により得られている。図９に示した
各種のΧ関数を導出したネットワークを学習する際に用
いたεの値が０．００５５であることが解る。

【００３４】図１０（ａ)(ｂ）は、発明の学習したニュ
ーラルネットワークによる関数Ｆ＝Ｘ₁＊Ｘ₂についての
Ｆの点の値を決定する上での誤差を図示している。図１
０（ａ）は本発明のニューラルネットワークが学習され
た学習シーケンス中で用いられたのと同一の入力を用い
て学習したネットワークのテストから発生する誤差を示
す。このテストにおけるεが０．００５５に設定されて
おり、ｋ及びｍが０，…，５であることに注意された
い。図１０（ａ）に図示した学習テストはニューラルネ
ットワークが学習された後で行なわれた。

【００３５】このテストは、ニューラルネットワークを
介してＦの値を提供するためニューラルネットワークの
実際の学習の間に用いられたのと同一の入力値を再適用
することによっている。そのため、同一の点での値が関
数Ｆ＝Ｘ₁＊Ｘ₂から直接評価され、また、ニューラルネ
ットワークにより提供された値と関数の直接評価により
提供された値の間の誤差が図１０（ａ）に図示したよう
に様々な点で計算された。ｙ軸はこの学習テストの間に
ニューラルネットワークにより提供された関数Ｆの値が
式から直接計算した関数Ｆの値から偏倚する誤差を表わ
す。ｙ軸上の値０．０１は１％の誤差である。この誤差
は、関数を実際の関数Ｆに近似させているΧについての
シグモイド関数の正確度の欠如のために発生している。
図１０（ａ）はＸ₁及びＸ₂の様々に異なる点について百
分率で誤差を示し、ここで、線１００１など各々の線は
特定のＸ₁ を表し、また、線に沿った点はそのＸ₁ にお
ける別のＸ₂ を表している。図１０（ｂ）はＸ₁及びＸ₂
の値がニューラルネットワークの学習中に用いられなか
った点で学習されたニューラルネットワークのテストシ
ーケンスを示す。図１０（ｂ）のｙ軸は、ここでもニュ
ーラルネットワークにより提供されたＦの値と式Ｆ＝Ｘ
₁＊Ｘ₂から直接計算したＦの値の間の誤差を表してお
り、ｙ軸上の０．０１は１％の誤差を表わす。曲線１０
０２など各々別個の曲線は特定のＸ₁ での値を表し、ま
た、線に沿った点はそのＸ₁ における別のＸ₂ を表して
いる。図１０（ｂ）から本発明のニューラルネットワー
クの誤差は通常１％内外でありＸ₂ の値が増加するにつ
れて誤差が大きくなることが解る。ニューラルネットワ
ークの正確度はΨの計算時に小さい増分を用いること
で、又は、Χを近似するために用いられるシグモイド関
数の数を増加させることにより改善し得る。例えば、図
８及び図４に図示したような、処理ノード当たり一つの
シグモイド関数（各々別個に計算したΧについて一つの
シグモイドが用いられる）を有する代りに、シグモイド
を上書きすることにより従来技術において周知のよう
に、一つのシグモイド関数を近似するために幾つかのシ
グモイド関数を用いることが可能である。例えば、Ｇ・
サイベンコ（Ｇ. Ｃybenko）の「シグモイド関数の上書
きによる近似（Ａpproximation by Ｓuperposition of
a Ｓigmoidal Ｆunction）」、制御信号及びシステムの
数学（１９８９年）を参照されたい。また、バイアス定
数項εも変更可能であり、εの値を変更して再学習しネ
ットワークの正確度が改善されたかを決定するために、
そのニューラルネットワークを用いてテストを行なうこ
とが可能である。

【００３６】本発明のニューラルネットワークの別の好
適実施例は、Χの計算における誤差を減少するようなΧ
の表現における対称性を用いて実現してもよい。このよ
うなΧの対称表現は先に用いた式（１）の変更に基づく
ものである。即ち、次式のようになる。

【数１５】

【００３７】−ｎから＋ｎまでの一連の値を有するｑの
対称的な変化を実現するためには、図４に示した本発明
のニューラルネットワークの第２，第３処理層における
処理ノードの適切な変更が必要とされることになろう。
当業者には本開示及び図４と図５に関連する説明を参照
することで、ニューラルネットワークにはごくわずかの
変更が必要とされるだけであることが理解されよう。例
えば、処理ノード４１０はΨ(Ｘ₁ )ではなく関数Ψ(Ｘ₁
−２ε)の値を計算することになる。

【００３８】上述の説明では、定数項の値、関数の変数
の数及びその他の特定の詳細を含め、本発明の特定の好
適実施例を参照して解説したが、特許請求の範囲に述べ
るごとく、本発明の範囲を逸脱することなく本発明に多
くの変化及び変更が加え得ることは明らかである。従っ
て、本明細書及び添付の図面は制約的な意味合いではな
く解説的な意味合いで捉えるべきものである。本発明の
ニューラルネットワークは、ハードウェア及びソフトウ
ェアの組合せを用いるデジタル式コンピュータ上で通常
実現されて本発明のニューラルネットワークを提供する
ことになろう。それ以外では、本発明のニューラルネッ
トワークはハードウェアにおいてニューラルネットワー
クを構築する周知の技術により全体がハードウェアによ
って実現されてもよい。

【００３９】

【発明の効果】本発明は、上述したようにＮ個の変数を
有する非線形多変数関数を表わす値を提供するために単
層の学習可能な重みを有するニューラルネットワークに
関し、入力を受信するための入力手段と、第１処理層
と、学習可能な相互接続層と単一のノードによる第２処
理層とからなり、学習可能な相互接続層を複数のノード
からなる第１処理層を第２処理層に接続するものとし、
入力手段は一つの変数が複数の変数関数における変数量
を表わすような一つの変数の関数の計算から得られた値
を受信するものとし、第１処理層は、入力手段により受
信された値の下位分類の和の関数を各々が計算するよう
な複数の処理ノードを含むものとし、第１処理層の各ノ
ードの出力は、学習可能な相互接続層により重み付けが
なされ、また、第２処理層は、第１処理層からの重み付
け出力を加算し、学習可能な相互接続層の重みは、単一
の学習可能な層を有する正帰還ニューラルネットワーク
を学習するための通常の方法で学習するように構成した
ので、例えば、パターン認識などの用途のために２組の
値を相互に分離するためと非線形多変数関数の解法を表
わす値を提供するために改良されたニューラルネットワ
ークを提供でき、また、非線形多変数関数の解法を表わ
す値を提供するためと、２組を各々から相互に分離する
ための単層の学習可能な重みを有するニューラルネット
ワークを提供でき、さらには、必要とする計算資源を少
なくして各々相互から２組の分離をなし、また、一層有
効かつ正確な非線形多変数関数の解法の導出をなすよう
な単層の学習可能な重みを有するように改良されたニュ
ーラルネットワーク及びその構成方法を提供できるもの
となる。

【図面の簡単な説明】

【図１】誤差後ろ向き伝播を用いて学習される多層の学
習可能な重みを有する従来のニューラルネットワークを
示す模式的結線図である。

【図２】典型的なニューラルネットワークのエネルギー
平面を示す模式図である。

【図３】本発明によるニューラルネットワークを構成す
るための処理を示すフローチャートである。

【図４】相互接続手段４４０〜４４４の付随する単層の
学習可能な重みを有する本発明の一実施例を示すニュー
ラルネットワークの模式的結線図である。

【図５】一層簡略化された本発明の別の一実施例を示す
ニューラルネットワークの模式的結線図である。

【図６】Ｎ＝２についての関数Ψ(Ｘ)を示すグラフであ
る。

【図７】Ｎ＝２についての関数Ψ(Ｘ)を示し、Ｘが０に
近い特定範囲内の場合のグラフである。

【図８】図４に示した処理ノードのχ層における可能な
処理ノードを示す模式図である。

【図９】学習されたニューラルネットワークのサンプル
からの異なる３種類のχ関数を示すグラフである。

【図１０】（ａ）は本発明の学習されたニューラルネッ
トワークの誤差を表わすグラフ、（ｂ）は本発明のニュ
ーラルネットワークを学習した後のテストシーケンス、
即ち、ネットワークを学習するのに用いた入力とは別の
入力を用いる場合において得られた誤差を表わすグラフ
である。

【符号の説明】

４０１，４０２ノード４０５相互接続層４１０〜４１９ノード４２５相互接続層４３０〜４３４ノード４４５相互接続層４５０ノード５１５〜５３５ノード５５０ノード

───────────────────────────────────────────────────── フロントページの続き (72)発明者マリッキーソフィアアメリカ合衆国カリフォルニア州コントラコスタバークレイモンテリー 1819

Claims

【特許請求の範囲】

【請求項１】Ｎ個の変数を有する非線形多変数関数の
解を表わす値を提供するために学習可能な単層の重みを
有し、Ｎ個の変数の内の一つの変数の関数から各々が導かれる
複数の第１値であって、各々が前記一つの変数の関数へ
の入力として前記複数の変数の一つの値を用いることに
より前記一つの変数の関数から導かれる前記第１値を計
算するための複数ノードを有する第１処理層と、各々が前記第１値の部分集合の和の関数を計算するため
の複数ノードを有して前記第１値を受信するために前記
第１処理層に結合されて複数の第２値を提供するための
第２処理層と、学習可能な重み付けのなされた相互接続手段よりなり前
記第２処理層に結合されて前記複数の第２値から複数の
重み付けされた値を提供するための第３処理層と、この第３処理層に結合されて前記複数の重み付けされた
値の和に基づく値を計算するための第４処理層とよりな
ることを特徴とするニューラルネットワーク。
【請求項２】一つの変数の関数への入力として用いら
れる複数の変数の一つの値の各々の一部として、多数の
バイアス定数項を含むものとしたことを特徴とする請求
項１記載のニューラルネットワーク。
【請求項３】多数のバイアス定数項を、第１処理層の
複数ノードにおけるノードの部分集合について０とした
ことを特徴とする請求項２記載のニューラルネットワー
ク。
【請求項４】複数の第１値である（２Ｎ＋１）個の部
分集合についての和の複数の関数を第２処理層の複数ノ
ードが計算するとともに、この第２処理層を（２Ｎ＋
１）個のノードが存在するものとしたことを特徴とする
請求項１記載のニューラルネットワーク。
【請求項５】第１処理層をＮ（２Ｎ＋１）個のノード
が存在するものとするとともに、複数の第１値の各々の
部分集合がＮ個の値よりなるものとしたことを特徴とす
る請求項４記載のニューラルネットワーク。
【請求項６】Ｎ個の変数を有する非線形多変数関数の
解を表わす値を提供するために学習可能な単層の重みを
有し、各々が各々の変数の値の入力を受信するようになしてあ
るＮ個全ての変数についての複数の入力を受信するため
の入力手段と、各々のノードにおいて前記入力の一つに与えられた一つ
の変数の関数の値を計算するための層であって、前記入
力手段に結合されて複数の第１値を提供するための第１
処理層と、この第１処理層に結合され前記第１値を受信するための
ノードによる層であって、各々のノードが前記第１値の
部分集合の和の関数を計算するための第２処理層と、この第２処理層で計算された各々の値について重み付け
した値を提供するために学習可能な相互接続層と、この相互接続層に結合されたノードよりなり、複数の重
み付けした値の和を計算するための第３処理層とよりな
ることを特徴とするニューラルネットワーク。
【請求項７】バイアス定数の倍数を、第１処理層への
各々の入力の一部として含むものとしたことを特徴とす
る請求項６記載のニューラルネットワーク。
【請求項８】バイアス定数の倍数を、入力の部分集合
について０としたことを特徴とする請求項７記載のニュ
ーラルネットワーク。
【請求項９】複数の第１値である（２Ｎ＋１）個の部
分集合についての和の複数の関数を第２処理層が計算す
るものとし、かつ、この第２処理層を（２Ｎ＋１）個の
ノードが存在するものとしたことを特徴とする請求項８
記載のニューラルネットワーク。
【請求項１０】第１処理層をＮ（２Ｎ＋１）個のノー
ドが存在するものとし、複数の第１値の各々の部分集合
がＮ個の値よりなるものとしたことを特徴とする請求項
９記載のニューラルネットワーク。
【請求項１１】複数の値の部分集合の和の関数を、シ
グモイド関数としたことを特徴とする請求項１０記載の
ニューラルネットワーク。
【請求項１２】複数の第１値の各々の特定の部分集合
について、第２処理層の複数のＡノードにより計算され
た前記第１値の前記特定の部分集合の和の複数のＡ関数
が存在するものとし、かつ、前記和の前記Ａ関数の各々
をシグモイド関数としたこと特徴とする請求項８記載の
ニューラルネットワーク。
【請求項１３】複数の第１値の各々の特定の部分集合
について、第２処理層においてＡノードが存在するもの
とし、かつ、前記第１値の各々の部分集合について前記
第１処理層においてＡＮノードが存在するものとしたこ
とを特徴とする請求項１２記載のニューラルネットワー
ク。
【請求項１４】複数の第１値の各々の特定の部分集合
において、ＡＮ個の値が存在するとともに、第２処理層
をＡ（２Ｎ＋１）個のノードが存在し、かつ、第１処理
層をＡＮ（Ａ（２Ｎ＋１））個のノードが存在するもの
としたことを特徴とする請求項１３記載のニューラルネ
ットワーク。
【請求項１５】非線形の別個の値の組を分離するため
の単一の学習可能な重みの層を有するニューラルネット
ワークであって、複数の入力を受信するための入力手段と、各々のノードにおいて前記入力の一つに与えられた一つ
の変数の関数の値を計算するための層であって、前記入
力手段に結合されて複数の第１値を提供するための第１
処理層と、前記第１値を受信するために前記第１処理層に結合され
た層であって、各々のノードが前記第１値の部分集合の
和の関数を計算するための第２処理層と、この第２処理層で計算された各々の値について重み付け
した値を提供するために学習可能な相互接続層と、この相互接続層に結合されたノードよりなり、複数の重
み付けした値の和を計算するための第３処理層とよりな
ることを特徴とするニューラルネットワーク。
【請求項１６】入力パターンから基準パターンを分離
することでパターン認識を実行し、前記基準パターンを
認識するように相互接続層が学習されるものとしたこと
を特徴とする請求項１５記載のニューラルネットワー
ク。
【請求項１７】学習可能な単層の重みを有し、Ｎ個の
変数（Ｘ₁，…，Ｘ_N）を有する非線形多変数関数の解を
表わす値を提供するためのニューラルネットワーク構成
方法であって、Ｎ個の変数の全てについて複数の入力を受信するための
入力手段を設け、前記複数の入力の各々が各々の変数の
値の入力を受信するようになし、各々のノードにおいて前記入力の一つに与えられたＮ個
の変数をなす一つの変数の関数の値を計算するための第
１処理層を前記入力手段に結合して設け、この第１処理
層から複数の第１値を提供するようになし、これらの第１値を受信するために前記第１処理層に結合
された第２処理層を設け、各々のノードが前記第１値の
部分集合の和の関数を計算するようになし、学習可能な相互接続層を設けて、前記第２処理層で計算
された各々の値について重み付けした値を提供するよう
になし、この相互接続層に結合されたノードよりなる第３処理層
を設け、複数の重み付けした値の和を計算するようにな
したことを特徴とするニューラルネットワーク構成方
法。
【請求項１８】学習可能な単層の重みを有し、Ｎ個の
変数（Ｘ₁，…，Ｘ_N）を有する非線形多変数関数の解を
表わす値を提供するためのニューラルネットワーク構成
方法であって、前記Ｎ個の変数の内の一つの値の入力が与えられたＮ個
の一つの変数の関数の値を決定するための決定手段を設
け、この決定手段が各々が一つの変数の関数をなす複数
の第１値を提供するようになし、前記決定手段に結合された第１処理層を設け、各々のノ
ードが前記第１値の部分集合の和の関数を決定するよう
になし、学習可能な相互接続層を設け、前記第１処理層において
決定された各々の値について学習され重み付けされた値
を提供するようになし、前記相互接続層に結合された第２処理層を設け、この第
２処理層が前記相互接続層により提供された値の和に基
づいて値を決定するようになしたことを特徴とするニュ
ーラルネットワーク構成方法。
【請求項１９】学習可能な単層の重みを有し、Ｎ個の
変数（Ｘ₁，…，Ｘ_N）を有する非線形多変数関数の解を
表わす値を提供するためのニューラルネットワークであ
って、前記Ｎ個の変数の内の一つの値の入力が与えられたＮ個
の一つの変数の関数の値を決定し、各々が一つの変数の
関数をなす複数の第１値を提供する決定手段と、この決定手段に結合された層であって、各々のノードが
前記第１値の部分集合の和の関数を決定する第１処理層
と、複数の重み付けした値を提供するように前記第１処理層
において決定された各々の値について重み付けした値を
提供するための学習可能な相互接続層と、この相互接続層に結合され、前記複数の重み付けした値
の和に基づく値を決定するようになしてある第２処理層
とよりなることを特徴とするニューラルネットワーク。