JP7211556B1

JP7211556B1 - ニューラル・ネットワーク・システム

Info

Publication number: JP7211556B1
Application number: JP2022516210A
Authority: JP
Inventors: 大気関井
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2021-06-09
Filing date: 2021-09-24
Publication date: 2023-01-24
Anticipated expiration: 2041-09-24
Also published as: WO2022259566A1; EP4354342A1; JPWO2022259566A1

Abstract

バッチサイズが小さい場合でも効率よく学習可能なニューラル・ネットワーク・システムを提供する。ニューラル・ネットワーク・システムであって、第１レイヤと、第２レイヤと、数値変換レイヤとを備え、数値変換レイヤは、トレーニング中に、複数の訓練データの第１レイヤ出力を受信し、訓練データごとに対応する数値変換パラメータを計算し、前記数値変換パラメータを用いて各第１レイヤ出力の各成分を数値変換して数値変換レイヤ出力を生成し、数値変換レイヤ出力を入力として前記第２レイヤに提供するように構成され、１つの訓練データに対応する数値変換パラメータは、当該訓練データを除く他の複数の訓練データの第１レイヤ出力から計算される。

Description

本開示は、ニューラル・ネットワークの学習効果を高める技術に関する。

画像認識、自然言語処理および音声認識などにニューラル・ネットワークが用いられている。ニューラル・ネットワークは、複数のレイヤを用いて、入力に対する出力を予測する機械学習モデルである。ニューラル・ネットワークでは、各レイヤの出力が、当該ネットワークの次のレイヤの入力として使用される。

このようなニューラル・ネットワークの学習効果を高める技術として、バッチ正規化と呼ばれる技術が提案されている（例えば、特許文献１参照）。

特許第６４５３４７７号公報

バッチ正規化は、複数の訓練データを一括で処理するバッチ学習において、バッチ毎にバッチ正規化対象のレイヤ出力の統計値を算出し、算出した統計値を用いてレイヤ出力を平均が０、分散が１になるように正規化することで、学習安定化や学習速度の向上に寄与する技術である。しかしながら、バッチ正規化において、バッチサイズ（１つのバッチの訓練データの数）が小さい場合、バッチ正規化の効果が薄まり、学習がうまく進まない恐れがある。

本開示は、上記課題に鑑みてなされたもので、バッチサイズが小さい場合でも効率よく学習可能なニューラル・ネットワーク・システムを提供することを目的とする。

本開示の一態様のニューラル・ネットワーク・システムは、１つまたは複数のコンピュータにより実装されるニューラル・ネットワーク・システムであって、複数の成分を有する第１レイヤ出力を生成する第１レイヤと、第２レイヤと、両レイヤ間の数値変換レイヤとを備え、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムのトレーニング中に、複数の訓練データの第１レイヤ出力を受信し、訓練データごとに対応する数値変換パラメータを計算し、前記数値変換パラメータを用いて各第１レイヤ出力の各成分を数値変換して数値変換レイヤ出力を生成し、前記数値変換レイヤ出力を入力として前記第２レイヤに提供するように構成され、１つの訓練データに対応する前記数値変換パラメータは、当該訓練データを除く他の複数の訓練データの第１レイヤ出力から計算される、または、当該訓練データを含む複数の訓練データの各第１レイヤ出力に重みを付して計算され、当該訓練データの第１レイヤ出力の重みが他の訓練データの第１レイヤ出力の重みよりも小さいことを特徴とする。

また、上記ニューラル・ネットワーク・システムにおいて、１つの訓練データに対応する前記数値変換パラメータの計算は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを含まないよう所定の選択方法で選択された複数の訓練データの第１レイヤ出力から計算されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記第１レイヤ出力の複数の成分は、次元によりインデックス化され、前記数値変換パラメータの計算は、前記バッチの訓練データごとに、前記次元の各々に対して、前記選択方法で選択された複数の訓練データの第１レイヤ出力の前記次元における成分の平均を、第１レイヤ出力の前記次元における成分の疑似平均として計算するステップと、前記次元の各々に対して、前記第１レイヤ出力の前記次元における成分の分散を、前記バッチの訓練データごとの第１レイヤ出力の前記次元における成分および前記疑似平均を用いて計算するステップと、を含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する次元に対する前記疑似平均および前記分散を用いて、前記訓練データの第１レイヤ出力の前記成分を数値変換するステップを含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、各次元に対する１組の変形パラメータの値に従って、前記数値変換された成分を変形するステップを更に含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、新たなニューラル・ネットワーク入力に対する前記第１レイヤにより生成された新たな第１レイヤ出力を受信し、予め計算された数値変換パラメータを用いて前記新たな第１レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、次元ごとに、前記次元に対する１組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第２レイヤに提供するように構成されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムのトレーニング中に前記第１レイヤにより生成された第１レイヤ出力から計算されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムがトレーニングされた後に前記第１レイヤにより生成された第１レイヤ出力から計算されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記ニューラル・ネットワーク・システムがトレーニングされた後に前記ニューラル・ネットワーク・システムにより処理される新たなニューラル・ネットワーク入力は、前記ニューラル・ネットワーク・システムをトレーニングするために使用される前記訓練データと異なるタイプの入力であるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記第１レイヤ出力の前記複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、前記数値変換パラメータの計算は、前記バッチの訓練データごとに、特徴インデックスおよび空間的位置インデックスの組合せの各々に対して、前記選択方法で選択された複数の訓練データの第１レイヤ出力の前記組合せにおける成分の平均を計算するステップと、前記バッチの訓練データごとに、特徴インデックスの各々に対して、前記特徴インデックスを含む組合せに対する前記平均の算術平均を計算するステップと、特徴インデックスおよび空間的位置インデックスの組合せごとに、前記第１レイヤ出力の前記組合せにおける成分の分散を、前記バッチの訓練データごとの第１レイヤ出力の前記組合せにおける成分および前記平均の算術平均を用いて計算するステップと、特徴インデックスごとに、前記特徴インデックスを含む組合せに対する前記分散の算術平均を計算するステップと、を含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、訓練データごとに、前記平均の算術平均および前記分散の算術平均を用いて、前記訓練データの前記第１レイヤ出力の各成分を数値変換するステップを含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、各特徴インデックスに対する１組の変形パラメータに従って、前記数値変換された成分を変換するステップを含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、新たなニューラル・ネットワーク入力に対する前記第１レイヤにより生成された新たな第１レイヤ出力を受信し、
予め計算された数値変換パラメータを用いて前記新たな第１レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、特徴インデックスごとに、前記特徴インデックスに対する１組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第２レイヤに提供するように構成されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記第１レイヤ出力の複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、前記数値変換パラメータの計算は、前記バッチの訓練データごとに、前記特徴インデックスの各々に対して、前記選択方法で選択された複数の訓練データの第１レイヤ出力の前記特徴インデックスにおける成分の平均を、第１レイヤ出力の前記特徴インデックスにおける成分の疑似平均として計算するステップと、前記特徴インデックスの各々に対して、前記第１レイヤ出力の前記特徴インデックスにおける成分の分散を、前記バッチの訓練データごとの第１レイヤ出力の前記特徴インデックスにおける成分および前記疑似平均を用いて計算するステップと、を含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する特徴インデックスに対する前記疑似平均および前記分散を用いて、前記訓練データの第１レイヤ出力の前記成分を数値変換するステップを含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、各特徴インデックスに対する１組の変形パラメータの値に従って、前記数値変換された成分を変形するステップを更に含むとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、新たなニューラル・ネットワーク入力に対する前記第１レイヤにより生成された新たな第１レイヤ出力を受信し、予め計算された数値変換パラメータを用いて前記新たな第１レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、特徴インデックスごとに、前記特徴インデックスに対する１組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第２レイヤに提供するように構成されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記第１レイヤは、前記第１レイヤに対する１組のパラメータに従って第１レイヤ入力を修正することによって前記第１レイヤ出力を生成するとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記第２レイヤは、非線形動作を前記数値変換レイヤ出力に適用することによって第２レイヤ出力を生成するとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記第１レイヤは、１組のパラメータの現在の値に従って第１レイヤ入力を修正して、修正された第１レイヤ入力を生成し、次いで非線形動作を前記修正された第１レイヤ入力に適用することによって前記第１レイヤ出力を生成するとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、前記ニューラル・ネットワーク・システムの前記トレーニングの間に、前記ニューラル・ネットワーク・システムは、前記ニューラル・ネットワーク・システムのパラメータの値を調節する一部として前記数値変換パラメータを誤差逆伝播するように構成されるとしてもよい。

また、上記ニューラル・ネットワーク・システムにおいて、１つの訓練データに対応する前記数値変換パラメータの計算における前記所定の選択方法は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを除く一部又は全ての訓練データを選択するとしてもよい。

本開示のニューラル・ネットワーク・システムによると、バッチサイズが小さい場合でも学習効率を向上させることができる。

図１は、ニューラル・ネットワーク・システム２００の構成を示すブロック図である。図２は、訓練データ群３００のデータ構造の一例を示す図である。図３は、推論時のニューラル・ネットワーク・システム２００における数値変換レイヤ２２０の入力および数値訓練レイヤ２２０の出力を説明する図である。図４は、訓練時のニューラル・ネットワーク・システム２００における数値変換レイヤ２２０の入力および数値訓練レイヤ２２０の出力を説明する図である。図５は、疑似平均の計算方法の一例を示す図である。図６は、疑似分散の計算方法の一例を示す図である。図７は、第１レイヤ出力の数値変換方法の一例を示す図である。図８は、ニューラル・ネットワーク・システム２００の訓練中に、数値変換レイヤ出力を生成するためのフローの一例を示す図である。図９は、ニューラル・ネットワーク・システム２００がトレーニングされた後、新たな入力に対して推論結果を生成するときに、数値変換レイヤ出力を生成するためのフローの一例を示す図である。図１０は、疑似平均の計算方法の変形例を示す図である。図１１は、疑似平均の計算方法の変形例を示す図である。図１２は、疑似平均の計算方法の変形例を示す図である。

１．実施の形態１
以下、実施の形態１に係るニューラル・ネットワーク・システム２００について説明する。

１．１構成
図１は、ニューラル・ネットワーク・システム２００の構成を示すブロック図である。図に示すように、ニューラル・ネットワーク・システム２００は、ＣＰＵ１１０、主記憶装置１２０、補助記憶装置１３０を備える１つ又は複数のコンピュータ１００により実装される。主記憶装置１２０には、補助記憶装置１３０に格納されたコンピュータプログラムやデータがロードされ、ＣＰＵ１１０が、主記憶装置１２０にロードされたコンピュータプログラムやデータにしたがって動作することにより、ニューラル・ネットワーク・システム２００を実現する。補助記憶装置１３０は、一例として、ハードディスクから構成されている。補助記憶装置１３０は、不揮発性の半導体メモリから構成されている、としてもよい。

ニューラル・ネットワーク・システム２００は、順番に配置された複数のニューラル・ネットワーク・レイヤを含む。複数のニューラル・ネットワーク・レイヤは、第１のレイヤ２１０、数値変換レイヤ２２０、第２レイヤ２３０を含む。ニューラル・ネットワーク・システム２００への入力は、最下位のニューラル・ネットワーク・レイヤへ入力され、各レイヤの出力が次のレイヤ入力となり、最上位のレイヤの出力がニューラル・ネットワーク・システム２００の出力となる。

各ニューラル・ネットワーク・レイヤは、入力として受け取った複数の成分を有するデータに対してパラメータを用いて計算を行って複数の成分を有する出力を生成する。このパラメータは、ニューラル・ネットワーク・システム２００の学習（訓練）により予め定められる。

ニューラル・ネットワーク・システム２００は、複数の成分を有する任意のデジタルデータを入力とすることができ、当該入力に基づいて任意の推論結果を出力するように構成される。

例えば、ニューラル・ネットワーク・システム２００の入力は、画像データ、音声データまたは文章データであってもよく、また、画像データ、音声データまたは文章データから抽出された特徴データであってもよい。

ニューラル・ネットワーク・システム２００への入力が、画像データまたは画像データから抽出した特徴データである場合、ニューラル・ネットワーク・システム２００の出力が複数のオブジェクトの各々に対するスコア（当該オブジェクトが当該画像データに含まれると推定される尤度）であってもよい。

また、ニューラル・ネットワーク・システム２００への入力が、音声データまたは音声データから抽出した特徴データである場合、ニューラル・ネットワーク・システム２００の出力が複数のキーワードの各々に対するスコア（当該キーワードが当該音声データで発話されていると推定される尤度）であってもよい。

また、ニューラル・ネットワーク・システム２００への入力が、文章データまたは文章データから抽出した特徴データである場合、ニューラル・ネットワーク・システム２００の出力が複数のトピックの各々に対するスコア（当該トピックが当該文章データの主題であると推定される尤度）であってもよい。

補助記憶装置１３０は、ニューラル・ネットワーク・システム２００の学習に用いる訓練データ群３００を記憶する。図２に示すように、訓練データ群３００は、それぞれが複数の訓練データを含むバッチが複数含まれるデータ構造をしている。なお、ここでは、バッチサイズが３として説明するが、バッチサイズは３に限られない。訓練データのそれぞれは、上述したように、複数の成分を有するデジタルデータである。

ニューラル・ネットワーク・システム２００は、訓練データ群３００に含まれる各訓練データを用いて訓練を行って、各ニューラル・ネットワーク・レイヤのパラメータを決定し、新たに受信した入力データに対して、訓練で決定されたパラメータを用いて各ニューラル・ネットワーク・レイヤで処理することにより、新たな入力データに対する推論結果を出力する。

ニューラル・ネットワーク・システム２００は、従来のバッチ正規化を行うニューラル・ネットワーク・システムにおけるバッチ正規化レイヤの代わりに数値変換レイヤ２２０を備え、バッチ正規化処理の代わりに数値変換処理を行うことを特徴とする。その他の部分については、従来のバッチ正規化を行うニューラル・ネットワーク・システムと同様であり（例えば、特許文献１を参照）、説明を省略する。

図３は、推論時のニューラル・ネットワーク・システム２００における第１レイヤ２１０の出力（数値変換レイヤ２２０の入力）および第２レイヤ２３０の入力（数値訓練レイヤ２２０の出力）を説明する図である。

図に示すように、第１レイヤ２１０は、新たな入力データ３０１（入力データＤ）に対して第１レイヤ出力４０１（第１レイヤ出力ｘ）を出力し、数値変換レイヤ２２０へ入力する。数値変換レイヤ２２０は、第１レイヤ出力ｘに対して、数値変換レイヤ出力５０１（数値変換レイヤ出力ｙ）を出力し、第２レイヤ２３０へ入力する。

第１レイヤ２１０は、次元によりインデックス化された複数（例えばＰ個とする）の成分を含む出力を生成するレイヤである。すなわち、図３において、第１レイヤ出力ｘは、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｘ₁，ｘ₂，……，ｘ_P）を有する。また、数値変換レイヤ出力ｙは、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｙ₁，ｙ₂，……，ｙ_P）を有する。

図４は、訓練時のニューラル・ネットワーク・システム２００における第１レイヤ２１０の出力および第２レイヤ２３０の入力を説明する図である。

図に示すように、複数の訓練データを一括で処理するバッチ学習を行うため、第１レイヤ２１０は、訓練データ３０２，３０３，３０４（訓練データＴ₁，Ｔ₂，Ｔ₃）に対して第１レイヤ出力４０２，４０３，４０４（第１レイヤ出力ｘ１，ｘ２，ｘ３）を出力し、数値変換レイヤ２２０へ入力する。数値変換レイヤ２２０は、第１レイヤ出力ｘ１，ｘ２，ｘ３に対して、数値変換レイヤ出力５０２，５０３，５０４（数値変換レイヤ出力ｙ１，ｙ２，ｙ３）を出力し、第２レイヤ２３０へ入力する。

図４において、第１レイヤ出力ｘ１は、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｘ_1,1，ｘ_1,2，……，ｘ_1,P）を有する。同様に、第１レイヤ出力ｘ２は、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｘ_2,1，ｘ_2,2，……，ｘ_2,P）を有し、第１レイヤ出力ｘ３は、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｘ_2,1，ｘ_2,2，……，ｘ_2,P）を有する。また、数値変換レイヤ出力ｙ１は、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｙ_1,1，ｙ_1,2，……，ｙ_1,P）を有する。同様に、数値変換レイヤ出力ｙ２は、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｙ_2,1，ｙ_2,2，……，ｙ_2,P）を有し、数値変換レイヤ出力ｙ３は、Ｐ個の次元のそれぞれに対応するＰ個の成分（ｙ_3,1，ｙ_3,2，……，ｙ_3,P）を有する。

従来のバッチ正規化レイヤは、次元ごとに、当該次元に対応する第１レイヤ出力の成分を、統計パラメータを用いて正規化する。本開示の数値変換レイヤ２２０も、次元ごとに、当該次元に対応する第１レイヤ出力の成分を、数値変換パラメータを用いて、数値変換する。

以下、訓練時に数値変換レイヤ２２０で計算される数値変換パラメータの計算方法について説明する。数値変換レイヤ２２０は、訓練データごとに疑似平均を計算し、バッチ毎に疑似分散を計算する。ｐ番目の次元に対応する疑似平均および疑似分散の計算方法について説明する。他の次元に対応する疑似平均および疑似分散についても同様に計算される。

バッチ学習により、数値変換レイヤ２２０は、訓練データ３１１，３１２，３１３（訓練データＴ１，Ｔ２，Ｔ３）に対応する第１レイヤ出力の、ｐ番目の次元に対応する成分４１１（成分ｘ_1,p），成分４１２（ｘ_2,p），成分４１３（ｘ_3,p）を受信する。

図５は、訓練データごとに計算される疑似平均の計算方法を示す。

訓練データＴ１に対応する疑似平均４２１は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,pのうち訓練データＴ１に対応するｘ_1,pを除く，ｘ_2,pおよびｘ_3,pを用いて、以下の式により計算する。

訓練データＴ２に対応する疑似平均４２２は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,pのうち訓練データＴ２に対応するｘ_2,pを除く，ｘ_1,pおよびｘ_3,pを用いて、以下の式により計算する。

訓練データＴ３に対応する疑似平均４２３は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,pのうち訓練データＴ３に対応するｘ_3,pを除く，ｘ_1,pおよびｘ_2,pを用いて、以下の式により計算する。

このように、バッチ内の複数の訓練データのうちの１つの訓練データに対応する疑似平均として、当該訓練データを除くバッチ内の他の訓練データの第１レイヤ出力の成分の平均が計算される。

図６は、バッチ毎に計算される疑似分散の計算方法を示している。

疑似分散４３０は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p、並びに、上記計算された疑似平均４２１、４２２、４２３を用いて以下の式により計算する。

このように、統計学における分散を求める公式に対して、各サンプル値（第１レイヤ出力の成分）と平均との偏差の代わりに、第１レイヤ出力と対応する疑似平均との差を用いて計算することにより、疑似分散を計算する。

数値変換レイヤ２２０は、このようにして計算された疑似平均および疑似分散を用いて、第１レイヤ出力の成分を数値変換し、数値変換出力を生成する。

図７に、数値変換出力の生成方法を示す。例えば、訓練データＴ１に対応する第１レイヤ出力４１１を以下の式により数値変換して数値変換レイヤ出力５１１を生成する。

同様に、訓練データＴ２に対応する第１レイヤ出力４１２を以下の式により数値変換して数値変換レイヤ出力５１２を生成する。

また、訓練データＴ３に対応する第１レイヤ出力４１３を以下の式により数値変換して数値変換レイヤ出力５１３を生成する。

数値計算レイヤ２２０は、訓練時、上述の数値変換、すなわち、第１レイヤ出力に対して、対応する疑似平均で減算、疑似分散の正の平方根で除算を行い、数値計算レイヤ出力５１１、５１２、５１３を計算し、第２レイヤに提供する。従来のニューラル・ネットワーク・システムにおける平均および分散の代わり疑似平均および疑似分散を用いて第１レイヤ出力の数値変換を行うことで、従来のニューラル・ネットワーク・システムと同様に、数値計算レイヤ出力５１１、５１２、５１３は、平均が０、分散が１に正規化され、学習効果の効率を高めることができる。

１．２動作
図８は、ニューラル・ネットワーク・システム２００の訓練中に、数値変換レイヤ出力を生成するためのフローの一例を示す。

数値変換レイヤ２２０は、第１レイヤ出力を受信する（ステップＳ１）。この第１レイヤ出力は、第１レイヤ２１０により、バッチ内の訓練データごとに生成されたそれぞれの出力を含む。

数値変換レイヤ２２０は、数値変換パラメータを計算する（ステップＳ２）。数値変換パラメータとして、バッチ内の訓練データごとに疑似平均を計算し、バッチに対して疑似分散を計算する。

数値変換レイヤ２２０は、計算された数値変換パラメータを用いて、バッチ内の訓練データごとに、第１レイヤ出力を数値変換して数値変換レイヤ出力を生成する（ステップＳ３）。

数値変換レイヤ２２０は、数値変換レイヤ出力を入力として第２レイヤに提供する（ステップＳ４）。

図９は、ニューラル・ネットワーク・システム２００がトレーニングされた後、新たな入力に対して、推論結果を生成するときに、数値変換レイヤ出力を生成するためのフローの一例を示す。

数値変換レイヤ２２０は、新たな入力に対する第１レイヤ出力を受信する（ステップＳ１１）。

数値変換レイヤ２２０は、予め定められた数値変換パラメータを用いて、新たな入力に対する第１レイヤ出力を数値変換して数値変換レイヤ出力を生成する（ステップＳ１２）。この数値変換パラメータは、ニューラル・ネットワーク・システム２００のトレーニングにおいて第１レイヤ２１０で生成された第１レイヤ出力に基づいて決定されてもよく、トレーニング後に別の入力データに対して第１レイヤ２１０で生成された第１レイヤ出力に基づいて決定されてもよい。

数値変換レイヤ２２０は、新たな入力に対する数値変換レイヤ出力を入力として第２レイヤに提供する（ステップＳ１３）。

１．３効果
各訓練データに着目すると、従来のバッチ正規化では、正規化用の統計値の計算に、着目している訓練データの第１レイヤ出力が必ず含まれる。バッチサイズが小さい場合、統計値の計算に占める着目している訓練データの第１レイヤ出力の割合が大きいため、着目している訓練データにとっては、自身の値に大きく影響されたバリエーションの乏しいバッチから計算された統計値が使用されることになり、正規化の効果が薄まる恐れがある。

一方、本開示の方法によれば、着目している訓練データの第１レイヤ出力を除外して数値変換用の数値変換パラメータ（疑似平均）を計算するため、数値変換パラメータにおける自身の値の影響を抑制することができ、バッチサイズが小さい場合でも、数値変換の効果（正規化と同様の効果）を奏するようになる。

２．補足
以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。

（１）上述の実施の形態において、バッチ内の複数の訓練データのうちの一の訓練データに対応する疑似平均は、バッチ内の当該一の訓練データを除く他のすべての訓練データの第１レイヤ出力を用いて計算されるとしたがこの限りではない。例えば、バッチ内の当該一の訓練データを除く他の訓練データのうち、選択された一部の訓練データの第１レイヤ出力を用いて計算してもよい。

図１０は、実施の形態と異なる疑似平均の計算方法を示す。ここでは、バッチサイズが４であり、訓練データ１００１，１００２，１００３，１００４（訓練データＴ１，Ｔ２，Ｔ３，Ｔ４）がバッチ内の訓練データであるとする。ｐ番目の次元に対応する疑似平均および疑似分散の計算方法について説明するが、他の次元に対応する疑似平均についても同様に計算される。

バッチ学習により、数値変換レイヤ２２０は、訓練データＴ１，Ｔ２，Ｔ３，Ｔ４に対応する第１レイヤ出力の、ｐ番目の次元に対応する成分１０１１（成分ｘ_1,p），成分１０１２（ｘ_2,p），成分１０１３（ｘ_3,p），成分１０１４（ｘ_4,p）を受信する。

訓練データＴ１に対応する疑似平均１０２１は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,pのうち訓練データＴ１に対応するｘ_1,pを除く，ｘ_2,p，ｘ_3,p，ｘ_4,pのうち選択されたｘ_2,p，ｘ_3,p用いて、以下の式により計算する。

訓練データＴ２に対応する疑似平均１０２２は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,pのうち訓練データＴ２に対応するｘ_2,pを除く，ｘ_1,p，ｘ_3,p，ｘ_4,pのうち選択されたｘ_3,p，ｘ_4,p用いて、以下の式により計算する。

訓練データＴ３に対応する疑似平均１０２３は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,pのうち訓練データＴ３に対応するｘ_3,pを除く，ｘ_1,p，ｘ_2,p，ｘ_4,pのうち選択されたｘ_1,p，ｘ_4,p用いて、以下の式により計算する。

訓練データＴ４に対応する疑似平均１０２４は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,pのうち訓練データＴ４に対応するｘ_4,pを除く，ｘ_1,p，ｘ_2,p，ｘ_3,pのうち選択されたｘ_1,p，ｘ_2,p用いて、以下の式により計算する。

このように、バッチ内の複数の訓練データのうちの１つの訓練データに対応する疑似平均として、当該訓練データを除くバッチ内の他の訓練データのうち選択された訓練データの第１レイヤ出力の成分の平均が計算される。当該訓練データを除く他の訓練データから一部の訓練データを選択する方法は、ランダムに選択してもよいし、所定の規則に従って選択してもよい。上記の例では、疑似平均１０２１－１０２４の平均が、第１レイヤ出力ｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,pの平均に一致するように選択している。

従来のバッチ正規化では、バッチサイズが極端に大きい場合に効果が薄まる可能性があるが、この方法によれば、バッチサイズが極端に大きいことによる効果低下を抑制できる可能性がある。

（２）上述の実施の形態において、バッチ内の複数の訓練データのうちの一の訓練データに対応する疑似平均は、バッチ内の当該一の訓練データを除く他のすべての訓練データの第１レイヤ出力を用いて計算されるとしたがこの限りではない。例えば、他のバッチ内の訓練データの第１レイヤ出力を用いて計算してもよい。

図１１は、実施の形態と異なる疑似平均の計算方法を示す。ここでは、バッチサイズが３であり、バッチ１の訓練データが訓練データ１１０１，１１０２，１１０３（訓練データＴ１，Ｔ２，Ｔ３）であり、バッチ２の訓練データが訓練データ１１０４，１１０５，１１０６（訓練データＴ４，Ｔ５，Ｔ６）であるとする。ｐ番目の次元に対応する疑似平均および疑似分散の計算方法について説明するが、他の次元に対応する疑似平均についても同様に計算される。

バッチ１の学習において、数値変換レイヤ２２０は、バッチ１の訓練データＴ１，Ｔ２，Ｔ３に対応する第１レイヤ出力の、ｐ番目の次元に対応する成分１１１１（成分ｘ_1,p），成分１１１２（ｘ_2,p），成分１１１３（ｘ_3,p）およびバッチ２の訓練データＴ４，Ｔ５，Ｔ６に対応する第１レイヤ出力の、ｐ番目の次元に対応する成分１１１４（成分ｘ_1,p），成分１１１５（ｘ_2,p），成分１１１６（ｘ_3,p）を受信する。

訓練データＴ１に対応する疑似平均１１２１は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,p，ｘ_5,p，ｘ_6,pのうち訓練データＴ１に対応するｘ_1,pを除く，ｘ_2,p，ｘ_3,p，ｘ_4,p，ｘ_5,p，ｘ_6,pのうち選択されたｘ_2,p，ｘ_3,p，ｘ_4,p用いて、以下の式により計算する。

訓練データＴ２に対応する疑似平均１１２２は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,p，ｘ_5,p，ｘ_6,pのうち訓練データＴ２に対応するｘ_2,pを除く，ｘ_1,p，ｘ_3,p，ｘ_4,p，ｘ_5,p，ｘ_6,pのうち選択されたｘ_1,p，ｘ_2,p，ｘ_5,p用いて、以下の式により計算する。

訓練データＴ２に対応する疑似平均１１２３は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,p，ｘ_4,p，ｘ_5,p，ｘ_6,pのうち訓練データＴ２に対応するｘ_2,pを除く，ｘ_1,p，ｘ_3,p，ｘ_4,p，ｘ_5,p，ｘ_6,pのうち選択されたｘ_1,p，ｘ_2,p，ｘ_5,p用いて、以下の式により計算する。

このように、複数の訓練データのうちの１つの訓練データに対応する疑似平均として、当該訓練データを除く他の訓練データのうち選択された訓練データの第１レイヤ出力の成分の平均が計算される。当該訓練データを除く他の訓練データから一部の訓練データを選択する方法は、ランダムに選択してもよいし、所定の規則に従って選択してもよい。

この疑似平均算出方法により、算出される疑似平均および疑似平均を用いて算出される疑似分散の値は、当該訓練データの第１レイヤ出力の影響が抑えられたものとなり、バッチサイズが小さい場合でも、学習効果の向上が期待できる。

（３）上述の実施の形態において、バッチ内の複数の訓練データのうちの一の訓練データに対応する疑似平均は、バッチ内の当該一の訓練データを除く他のすべての訓練データの第１レイヤ出力を用いて計算されるとしたがこの限りではない。例えば、当該一の訓練データを含む複数の訓練データの第１レイヤ出力を用いて計算してもよい。

図１２は、実施の形態と異なる疑似平均の計算方法を示す。ここでは、バッチサイズが３であり、バッチ内の訓練データが訓練データ１２０１，１２０２，１１０３（訓練データＴ１，Ｔ２，Ｔ３）であるとする。ｐ番目の次元に対応する疑似平均および疑似分散の計算方法について説明するが、他の次元に対応する疑似平均についても同様に計算される。

バッチ学習において、数値変換レイヤ２２０は、バッチ１の訓練データＴ１，Ｔ２，Ｔ３に対応する第１レイヤ出力の、ｐ番目の次元に対応する成分１２１１（成分ｘ_1,p），成分１２１２（ｘ_2,p），成分１２１３（ｘ_3,p）を受信する。

訓練データＴ１に対応する疑似平均１２３１は、数値変換レイヤ２２０で受信されたｘ_1,p，ｘ_2,p，ｘ_3,pを用いて、以下の式により計算する。

ここで、ｗ１、ｗ２、ｗ３は、予め定められた重みであり、訓練データＴ１に対応する重みｗ１は、他の訓練データに対応する重みよりも小さい。

このように、複数の訓練データのうちの１つの訓練データに対応する疑似平均として、当該訓練データを含む複数の訓練データの第１レイヤ出力の成分の加重平均が計算される。このとき、当該訓練データの第１レイヤ出力に付される重みは、他の当該訓練データの第１レイヤ出力に付される重みよりも小さいものとする。

（４）上述の実施の形態において、第１レイヤ２１０は、特徴インデックスおよび空間的位置インデックスの両方によりそれぞれインデックス化された複数の成分を含む出力を生成するニューラル・ネットワーク・レイヤであるとしてもよい。

この場合、数値変換レイヤ２２０は、特徴インデックスおよび空間的位置インデックスの組合せごとに、特徴インデックスおよび空間的位置インデックスを有する第１レイヤ出力の成分の疑似平均および疑似分散を計算する。数値変換レイヤ２２０は、特徴インデックスごとに、当該特徴インデックスおよび当該特徴インデックスを含む空間的位置インデックスの組合せに対する疑似平均の算術平均を計算する。数値変換レイヤ２２０は、特徴インデックスごとに、当該特徴インデックスおよび当該特徴インデックスを含む空間的位置インデックスの組合せに対する疑似分散の算術平均を計算する。

数値変換レイヤ２２０は、計算した算術平均および算術分散を用いて第１レイヤ２１０の出力の各々の各成分を数値変換して、バッチ内の訓練データの各々に対するそれぞれの数値変換された出力を生成する。数値変換レイヤ２２０は、算出した算術平均および算術分散を用いて、上述の実施の形態で次元によりインデックス化された出力を生成するときと同一の方式で、各成分を正規化する。

（５）ｐ番目の次元について、疑似平均および疑似分散を用いて数値変換された成分ｙ_pに対して、さらに、ｐ番目の次元に対するパラメータγ_pおよびＡ_pを用いて変形を施したｚ_p＝γ_p・ｙ_p＋Ａ_pを数値変換レイヤの出力として第２レイヤ２３０に提供してもよい。パラメータγ_pおよびＡ_pは、定数であってもよく、ニューラル・ネットワーク・システム２００のトレーニングにより定められるパラメータであってもよい。

（６）ニューラル・ネットワーク・システム２００の入力は、訓練時と推論時とで異なる種類の入力であってもよい。例えば、ユーザー画像を訓練データとしてトレーンニングし、ビデオ・フレームの推論を行ってもよい。

（７）上述の実施の形態において、第１レイヤ２１０は、当該レイヤに対する１組のパラメータの値に従って当該レイヤへの入力を修正することによって出力を生成するとしてもよい。また、第２レイヤ２３０は数値変換レイヤ２２０の出力を受信し、非線形動作、即ち、非線形起動機能を数値変換レイヤ出力に適用することによって出力を生成してもよい。また、第１レイヤ２１０は、当該レイヤに対する１組のパラメータの値に従ってレイヤ入力を修正して修正された第１レイヤ入力を生成し、出力を数値変換レイヤ２２０に提供する前に非線形動作を当該修正された第１レイヤ入力に適用することによって、出力を生成してもよい。

本開示は、画像認識、自然言語処理および音声認識などを行うニューラル・ネットワーク・システムに有用である。

２００ニューラル・ネットワーク・システム
２１０第１レイヤ
２２０数値変換レイヤ
２３０第２レイヤ

Claims

１つまたは複数のコンピュータにより実装されるニューラル・ネットワーク・システムであって、
複数の成分を有する第１レイヤ出力を生成する第１レイヤと、第２レイヤと、両レイヤ間の数値変換レイヤとを備え、
前記数値変換レイヤは、前記ニューラル・ネットワーク・システムのトレーニング中に、
複数の訓練データの第１レイヤ出力を受信し、
訓練データごとに対応する数値変換パラメータを計算し、
前記数値変換パラメータを用いて各第１レイヤ出力の各成分を数値変換して数値変換レイヤ出力を生成し、
前記数値変換レイヤ出力を入力として前記第２レイヤに提供する
ように構成され、
１つの訓練データに対応する前記数値変換パラメータは、当該訓練データを除く他の複数の訓練データの第１レイヤ出力から計算される、または、当該訓練データを含む複数の訓練データの各第１レイヤ出力に重みを付して計算され、当該訓練データの第１レイヤ出力の重みが他の訓練データの第１レイヤ出力の重みよりも小さい
ニューラル・ネットワーク・システム。
１つの訓練データに対応する前記数値変換パラメータの計算は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを含まないよう所定の選択方法で選択された複数の訓練データの第１レイヤ出力から計算される
請求項１に記載のニューラル・ネットワーク・システム。
前記第１レイヤ出力の複数の成分は、次元によりインデックス化され、
前記数値変換パラメータの計算は、
前記バッチの訓練データごとに、前記次元の各々に対して、前記選択方法で選択された複数の訓練データの第１レイヤ出力の前記次元における成分の平均を、第１レイヤ出力の前記次元における成分の疑似平均として計算するステップと、
前記次元の各々に対して、前記第１レイヤ出力の前記次元における成分の分散を、前記バッチの訓練データごとの第１レイヤ出力の前記次元における成分および前記疑似平均を用いて計算するステップと、
を含む、請求項２に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する次元に対する前記疑似平均および前記分散を用いて、前記訓練データの第１レイヤ出力の前記成分を数値変換するステップ
を含む、請求項３に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤ出力の生成は、各次元に対する１組の変形パラメータの値に従って、前記数値変換された成分を変形するステップ
を更に含む、請求項４に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、
新たなニューラル・ネットワーク入力に対する前記第１レイヤにより生成された新たな第１レイヤ出力を受信し、
予め計算された数値変換パラメータを用いて前記新たな第１レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、
次元ごとに、前記次元に対する１組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、
前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第２レイヤに提供する
ように構成される、請求項５に記載のニューラル・ネットワーク・システム。
前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムのトレーニング中に前記第１レイヤにより生成された第１レイヤ出力から計算される、請求項６に記載のニューラル・ネットワーク・システム。
前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムがトレーニングされた後に前記第１レイヤにより生成された第１レイヤ出力から計算される、請求項６に記載のニューラル・ネットワーク・システム。
前記ニューラル・ネットワーク・システムがトレーニングされた後に前記ニューラル・ネットワーク・システムにより処理される新たなニューラル・ネットワーク入力は、前記ニューラル・ネットワーク・システムをトレーニングするために使用される前記訓練データと異なるタイプの入力である、請求項７に記載のニューラル・ネットワーク・システム。
前記第１レイヤ出力の前記複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、
前記数値変換パラメータの計算は、
前記バッチの訓練データごとに、特徴インデックスおよび空間的位置インデックスの組合せの各々に対して、前記選択方法で選択された複数の訓練データの第１レイヤ出力の前記組合せにおける成分の平均を計算するステップと、
前記バッチの訓練データごとに、特徴インデックスの各々に対して、前記特徴インデックスを含む組合せに対する前記平均の算術平均を計算するステップと、
特徴インデックスおよび空間的位置インデックスの組合せごとに、前記第１レイヤ出力の前記組合せにおける成分の分散を、前記バッチの訓練データごとの第１レイヤ出力の前記組合せにおける成分および前記平均の算術平均を用いて計算するステップと、
特徴インデックスごとに、前記特徴インデックスを含む組合せに対する前記分散の算術平均を計算するステップと、
を含む、請求項２に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤ出力の生成は、訓練データごとに、前記平均の算術平均および前記分散の算術平均を用いて、前記訓練データの前記第１レイヤ出力の各成分を数値変換するステップ
を含む、請求項１０に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤ出力の生成は、各特徴インデックスに対する１組の変形パラメータに従って、前記数値変換された成分を変換するステップ
を含む、請求項１１に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、
新たなニューラル・ネットワーク入力に対する前記第１レイヤにより生成された新たな第１レイヤ出力を受信し、
予め計算された数値変換パラメータを用いて前記新たな第１レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、
特徴インデックスごとに、前記特徴インデックスに対する１組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、
前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第２レイヤに提供する
ように構成される、請求項１２に記載のニューラル・ネットワーク・システム。
前記第１レイヤ出力の複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、
前記数値変換パラメータの計算は、
前記バッチの訓練データごとに、前記特徴インデックスの各々に対して、前記選択方法で選択された複数の訓練データの第１レイヤ出力の前記特徴インデックスにおける成分の平均を、第１レイヤ出力の前記特徴インデックスにおける成分の疑似平均として計算するステップと、
前記特徴インデックスの各々に対して、前記第１レイヤ出力の前記特徴インデックスにおける成分の分散を、前記バッチの訓練データごとの第１レイヤ出力の前記特徴インデックスにおける成分および前記疑似平均を用いて計算するステップと、
を含む、請求項２に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する特徴インデックスに対する前記疑似平均および前記分散を用いて、前記訓練データの第１レイヤ出力の前記成分を数値変換するステップ
を含む、請求項１４に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤ出力の生成は、各特徴インデックスに対する１組の変形パラメータの値に従って、前記数値変換された成分を変形するステップ
を更に含む、請求項１５に記載のニューラル・ネットワーク・システム。
前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、
新たなニューラル・ネットワーク入力に対する前記第１レイヤにより生成された新たな第１レイヤ出力を受信し、
予め計算された数値変換パラメータを用いて前記新たな第１レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、
特徴インデックスごとに、前記特徴インデックスに対する１組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、
前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第２レイヤに提供する
ように構成される、請求項１６に記載のニューラル・ネットワーク・システム。
前記第１レイヤは、前記第１レイヤに対する１組のパラメータに従って第１レイヤ入力を修正することによって前記第１レイヤ出力を生成する、
請求項１乃至１７の何れか１項に記載のニューラル・ネットワーク・システム。
前記第２レイヤは、非線形動作を前記数値変換レイヤ出力に適用することによって第２レイヤ出力を生成する、請求項１８に記載のニューラル・ネットワーク・システム。
前記第１レイヤは、１組のパラメータの現在の値に従って第１レイヤ入力を修正して、修正された第１レイヤ入力を生成し、次いで非線形動作を前記修正された第１レイヤ入力に適用することによって前記第１レイヤ出力を生成する、
請求項１乃至１７の何れか１項に記載のニューラル・ネットワーク・システム。
前記ニューラル・ネットワーク・システムの前記トレーニングの間に、前記ニューラル・ネットワーク・システムは、前記ニューラル・ネットワーク・システムのパラメータの値を調節する一部として前記数値変換パラメータを誤差逆伝播するように構成される、
請求項１乃至２０の何れか１項に記載のニューラル・ネットワーク・システム。
１つの訓練データに対応する前記数値変換パラメータの計算における前記所定の選択方法は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを除く一部又は全ての訓練データを選択する
請求項２に記載のニューラル・ネットワーク・システム。
請求項１乃至２２の何れか１項に記載された数値変換レイヤにより実施される動作を含む、方法。
１つまたは複数のコンピュータに請求項１乃至２２の何れか１項に記載のニューラル・ネットワーク・システムを実行させる命令を含むコンピュータプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
１つまたは複数のコンピュータに請求項１乃至２２の何れか１項に記載のニューラル・ネットワーク・システムを実行させる命令を含むコンピュータプログラム。