JP7211556B1 - ニューラル・ネットワーク・システム - Google Patents

ニューラル・ネットワーク・システム Download PDF

Info

Publication number
JP7211556B1
JP7211556B1 JP2022516210A JP2022516210A JP7211556B1 JP 7211556 B1 JP7211556 B1 JP 7211556B1 JP 2022516210 A JP2022516210 A JP 2022516210A JP 2022516210 A JP2022516210 A JP 2022516210A JP 7211556 B1 JP7211556 B1 JP 7211556B1
Authority
JP
Japan
Prior art keywords
layer
neural network
training data
network system
layer output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022516210A
Other languages
English (en)
Other versions
JPWO2022259566A1 (ja
Inventor
大気 関井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Publication of JPWO2022259566A1 publication Critical patent/JPWO2022259566A1/ja
Application granted granted Critical
Publication of JP7211556B1 publication Critical patent/JP7211556B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

バッチサイズが小さい場合でも効率よく学習可能なニューラル・ネットワーク・システムを提供する。ニューラル・ネットワーク・システムであって、第1レイヤと、第2レイヤと、数値変換レイヤとを備え、数値変換レイヤは、トレーニング中に、複数の訓練データの第1レイヤ出力を受信し、訓練データごとに対応する数値変換パラメータを計算し、前記数値変換パラメータを用いて各第1レイヤ出力の各成分を数値変換して数値変換レイヤ出力を生成し、数値変換レイヤ出力を入力として前記第2レイヤに提供するように構成され、1つの訓練データに対応する数値変換パラメータは、当該訓練データを除く他の複数の訓練データの第1レイヤ出力から計算される。

Description

本開示は、ニューラル・ネットワークの学習効果を高める技術に関する。
画像認識、自然言語処理および音声認識などにニューラル・ネットワークが用いられている。ニューラル・ネットワークは、複数のレイヤを用いて、入力に対する出力を予測する機械学習モデルである。ニューラル・ネットワークでは、各レイヤの出力が、当該ネットワークの次のレイヤの入力として使用される。
このようなニューラル・ネットワークの学習効果を高める技術として、バッチ正規化と呼ばれる技術が提案されている(例えば、特許文献1参照)。
特許第6453477号公報
バッチ正規化は、複数の訓練データを一括で処理するバッチ学習において、バッチ毎にバッチ正規化対象のレイヤ出力の統計値を算出し、算出した統計値を用いてレイヤ出力を平均が0、分散が1になるように正規化することで、学習安定化や学習速度の向上に寄与する技術である。しかしながら、バッチ正規化において、バッチサイズ(1つのバッチの訓練データの数)が小さい場合、バッチ正規化の効果が薄まり、学習がうまく進まない恐れがある。
本開示は、上記課題に鑑みてなされたもので、バッチサイズが小さい場合でも効率よく学習可能なニューラル・ネットワーク・システムを提供することを目的とする。
本開示の一態様のニューラル・ネットワーク・システムは、1つまたは複数のコンピュータにより実装されるニューラル・ネットワーク・システムであって、複数の成分を有する第1レイヤ出力を生成する第1レイヤと、第2レイヤと、両レイヤ間の数値変換レイヤとを備え、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムのトレーニング中に、複数の訓練データの第1レイヤ出力を受信し、訓練データごとに対応する数値変換パラメータを計算し、前記数値変換パラメータを用いて各第1レイヤ出力の各成分を数値変換して数値変換レイヤ出力を生成し、前記数値変換レイヤ出力を入力として前記第2レイヤに提供するように構成され、1つの訓練データに対応する前記数値変換パラメータは、当該訓練データを除く他の複数の訓練データの第1レイヤ出力から計算される、または、当該訓練データを含む複数の訓練データの各第1レイヤ出力に重みを付して計算され、当該訓練データの第1レイヤ出力の重みが他の訓練データの第1レイヤ出力の重みよりも小さいことを特徴とする。
また、上記ニューラル・ネットワーク・システムにおいて、1つの訓練データに対応する前記数値変換パラメータの計算は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを含まないよう所定の選択方法で選択された複数の訓練データの第1レイヤ出力から計算されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記第1レイヤ出力の複数の成分は、次元によりインデックス化され、前記数値変換パラメータの計算は、前記バッチの訓練データごとに、前記次元の各々に対して、前記選択方法で選択された複数の訓練データの第1レイヤ出力の前記次元における成分の平均を、第1レイヤ出力の前記次元における成分の疑似平均として計算するステップと、前記次元の各々に対して、前記第1レイヤ出力の前記次元における成分の分散を、前記バッチの訓練データごとの第1レイヤ出力の前記次元における成分および前記疑似平均を用いて計算するステップと、を含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する次元に対する前記疑似平均および前記分散を用いて、前記訓練データの第1レイヤ出力の前記成分を数値変換するステップを含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、各次元に対する1組の変形パラメータの値に従って、前記数値変換された成分を変形するステップを更に含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、新たなニューラル・ネットワーク入力に対する前記第1レイヤにより生成された新たな第1レイヤ出力を受信し、予め計算された数値変換パラメータを用いて前記新たな第1レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、次元ごとに、前記次元に対する1組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第2レイヤに提供するように構成されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムのトレーニング中に前記第1レイヤにより生成された第1レイヤ出力から計算されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムがトレーニングされた後に前記第1レイヤにより生成された第1レイヤ出力から計算されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記ニューラル・ネットワーク・システムがトレーニングされた後に前記ニューラル・ネットワーク・システムにより処理される新たなニューラル・ネットワーク入力は、前記ニューラル・ネットワーク・システムをトレーニングするために使用される前記訓練データと異なるタイプの入力であるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記第1レイヤ出力の前記複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、前記数値変換パラメータの計算は、前記バッチの訓練データごとに、特徴インデックスおよび空間的位置インデックスの組合せの各々に対して、前記選択方法で選択された複数の訓練データの第1レイヤ出力の前記組合せにおける成分の平均を計算するステップと、前記バッチの訓練データごとに、特徴インデックスの各々に対して、前記特徴インデックスを含む組合せに対する前記平均の算術平均を計算するステップと、特徴インデックスおよび空間的位置インデックスの組合せごとに、前記第1レイヤ出力の前記組合せにおける成分の分散を、前記バッチの訓練データごとの第1レイヤ出力の前記組合せにおける成分および前記平均の算術平均を用いて計算するステップと、特徴インデックスごとに、前記特徴インデックスを含む組合せに対する前記分散の算術平均を計算するステップと、を含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、訓練データごとに、前記平均の算術平均および前記分散の算術平均を用いて、前記訓練データの前記第1レイヤ出力の各成分を数値変換するステップを含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、各特徴インデックスに対する1組の変形パラメータに従って、前記数値変換された成分を変換するステップを含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、新たなニューラル・ネットワーク入力に対する前記第1レイヤにより生成された新たな第1レイヤ出力を受信し、
予め計算された数値変換パラメータを用いて前記新たな第1レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、特徴インデックスごとに、前記特徴インデックスに対する1組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第2レイヤに提供するように構成されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記第1レイヤ出力の複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、前記数値変換パラメータの計算は、前記バッチの訓練データごとに、前記特徴インデックスの各々に対して、前記選択方法で選択された複数の訓練データの第1レイヤ出力の前記特徴インデックスにおける成分の平均を、第1レイヤ出力の前記特徴インデックスにおける成分の疑似平均として計算するステップと、前記特徴インデックスの各々に対して、前記第1レイヤ出力の前記特徴インデックスにおける成分の分散を、前記バッチの訓練データごとの第1レイヤ出力の前記特徴インデックスにおける成分および前記疑似平均を用いて計算するステップと、を含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する特徴インデックスに対する前記疑似平均および前記分散を用いて、前記訓練データの第1レイヤ出力の前記成分を数値変換するステップを含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤ出力の生成は、各特徴インデックスに対する1組の変形パラメータの値に従って、前記数値変換された成分を変形するステップを更に含むとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、新たなニューラル・ネットワーク入力に対する前記第1レイヤにより生成された新たな第1レイヤ出力を受信し、予め計算された数値変換パラメータを用いて前記新たな第1レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、特徴インデックスごとに、前記特徴インデックスに対する1組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第2レイヤに提供するように構成されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記第1レイヤは、前記第1レイヤに対する1組のパラメータに従って第1レイヤ入力を修正することによって前記第1レイヤ出力を生成するとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記第2レイヤは、非線形動作を前記数値変換レイヤ出力に適用することによって第2レイヤ出力を生成するとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記第1レイヤは、1組のパラメータの現在の値に従って第1レイヤ入力を修正して、修正された第1レイヤ入力を生成し、次いで非線形動作を前記修正された第1レイヤ入力に適用することによって前記第1レイヤ出力を生成するとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、前記ニューラル・ネットワーク・システムの前記トレーニングの間に、前記ニューラル・ネットワーク・システムは、前記ニューラル・ネットワーク・システムのパラメータの値を調節する一部として前記数値変換パラメータを誤差逆伝播するように構成されるとしてもよい。
また、上記ニューラル・ネットワーク・システムにおいて、1つの訓練データに対応する前記数値変換パラメータの計算における前記所定の選択方法は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを除く一部又は全ての訓練データを選択するとしてもよい。
本開示のニューラル・ネットワーク・システムによると、バッチサイズが小さい場合でも学習効率を向上させることができる。
図1は、ニューラル・ネットワーク・システム200の構成を示すブロック図である。 図2は、訓練データ群300のデータ構造の一例を示す図である。 図3は、推論時のニューラル・ネットワーク・システム200における数値変換レイヤ220の入力および数値訓練レイヤ220の出力を説明する図である。 図4は、訓練時のニューラル・ネットワーク・システム200における数値変換レイヤ220の入力および数値訓練レイヤ220の出力を説明する図である。 図5は、疑似平均の計算方法の一例を示す図である。 図6は、疑似分散の計算方法の一例を示す図である。 図7は、第1レイヤ出力の数値変換方法の一例を示す図である。 図8は、ニューラル・ネットワーク・システム200の訓練中に、数値変換レイヤ出力を生成するためのフローの一例を示す図である。 図9は、ニューラル・ネットワーク・システム200がトレーニングされた後、新たな入力に対して推論結果を生成するときに、数値変換レイヤ出力を生成するためのフローの一例を示す図である。 図10は、疑似平均の計算方法の変形例を示す図である。 図11は、疑似平均の計算方法の変形例を示す図である。 図12は、疑似平均の計算方法の変形例を示す図である。
1.実施の形態1
以下、実施の形態1に係るニューラル・ネットワーク・システム200について説明する。
1.1 構成
図1は、ニューラル・ネットワーク・システム200の構成を示すブロック図である。図に示すように、ニューラル・ネットワーク・システム200は、CPU110、主記憶装置120、補助記憶装置130を備える1つ又は複数のコンピュータ100により実装される。主記憶装置120には、補助記憶装置130に格納されたコンピュータプログラムやデータがロードされ、CPU110が、主記憶装置120にロードされたコンピュータプログラムやデータにしたがって動作することにより、ニューラル・ネットワーク・システム200を実現する。補助記憶装置130は、一例として、ハードディスクから構成されている。補助記憶装置130は、不揮発性の半導体メモリから構成されている、としてもよい。
ニューラル・ネットワーク・システム200は、順番に配置された複数のニューラル・ネットワーク・レイヤを含む。複数のニューラル・ネットワーク・レイヤは、第1のレイヤ210、数値変換レイヤ220、第2レイヤ230を含む。ニューラル・ネットワーク・システム200への入力は、最下位のニューラル・ネットワーク・レイヤへ入力され、各レイヤの出力が次のレイヤ入力となり、最上位のレイヤの出力がニューラル・ネットワーク・システム200の出力となる。
各ニューラル・ネットワーク・レイヤは、入力として受け取った複数の成分を有するデータに対してパラメータを用いて計算を行って複数の成分を有する出力を生成する。このパラメータは、ニューラル・ネットワーク・システム200の学習(訓練)により予め定められる。
ニューラル・ネットワーク・システム200は、複数の成分を有する任意のデジタルデータを入力とすることができ、当該入力に基づいて任意の推論結果を出力するように構成される。
例えば、ニューラル・ネットワーク・システム200の入力は、画像データ、音声データまたは文章データであってもよく、また、画像データ、音声データまたは文章データから抽出された特徴データであってもよい。
ニューラル・ネットワーク・システム200への入力が、画像データまたは画像データから抽出した特徴データである場合、ニューラル・ネットワーク・システム200の出力が複数のオブジェクトの各々に対するスコア(当該オブジェクトが当該画像データに含まれると推定される尤度)であってもよい。
また、ニューラル・ネットワーク・システム200への入力が、音声データまたは音声データから抽出した特徴データである場合、ニューラル・ネットワーク・システム200の出力が複数のキーワードの各々に対するスコア(当該キーワードが当該音声データで発話されていると推定される尤度)であってもよい。
また、ニューラル・ネットワーク・システム200への入力が、文章データまたは文章データから抽出した特徴データである場合、ニューラル・ネットワーク・システム200の出力が複数のトピックの各々に対するスコア(当該トピックが当該文章データの主題であると推定される尤度)であってもよい。
補助記憶装置130は、ニューラル・ネットワーク・システム200の学習に用いる訓練データ群300を記憶する。図2に示すように、訓練データ群300は、それぞれが複数の訓練データを含むバッチが複数含まれるデータ構造をしている。なお、ここでは、バッチサイズが3として説明するが、バッチサイズは3に限られない。訓練データのそれぞれは、上述したように、複数の成分を有するデジタルデータである。
ニューラル・ネットワーク・システム200は、訓練データ群300に含まれる各訓練データを用いて訓練を行って、各ニューラル・ネットワーク・レイヤのパラメータを決定し、新たに受信した入力データに対して、訓練で決定されたパラメータを用いて各ニューラル・ネットワーク・レイヤで処理することにより、新たな入力データに対する推論結果を出力する。
ニューラル・ネットワーク・システム200は、従来のバッチ正規化を行うニューラル・ネットワーク・システムにおけるバッチ正規化レイヤの代わりに数値変換レイヤ220を備え、バッチ正規化処理の代わりに数値変換処理を行うことを特徴とする。その他の部分については、従来のバッチ正規化を行うニューラル・ネットワーク・システムと同様であり(例えば、特許文献1を参照)、説明を省略する。
図3は、推論時のニューラル・ネットワーク・システム200における第1レイヤ210の出力(数値変換レイヤ220の入力)および第2レイヤ230の入力(数値訓練レイヤ220の出力)を説明する図である。
図に示すように、第1レイヤ210は、新たな入力データ301(入力データD)に対して第1レイヤ出力401(第1レイヤ出力x)を出力し、数値変換レイヤ220へ入力する。数値変換レイヤ220は、第1レイヤ出力xに対して、数値変換レイヤ出力501(数値変換レイヤ出力y)を出力し、第2レイヤ230へ入力する。
第1レイヤ210は、次元によりインデックス化された複数(例えばP個とする)の成分を含む出力を生成するレイヤである。すなわち、図3において、第1レイヤ出力xは、P個の次元のそれぞれに対応するP個の成分(x1,x2,……,xP)を有する。また、数値変換レイヤ出力yは、P個の次元のそれぞれに対応するP個の成分(y1,y2,……,yP)を有する。
図4は、訓練時のニューラル・ネットワーク・システム200における第1レイヤ210の出力および第2レイヤ230の入力を説明する図である。
図に示すように、複数の訓練データを一括で処理するバッチ学習を行うため、第1レイヤ210は、訓練データ302,303,304(訓練データT1,T2,T3)に対して第1レイヤ出力402,403,404(第1レイヤ出力x1,x2,x3)を出力し、数値変換レイヤ220へ入力する。数値変換レイヤ220は、第1レイヤ出力x1,x2,x3に対して、数値変換レイヤ出力502,503,504(数値変換レイヤ出力y1,y2,y3)を出力し、第2レイヤ230へ入力する。
図4において、第1レイヤ出力x1は、P個の次元のそれぞれに対応するP個の成分(x1,1,x1,2,……,x1,P)を有する。同様に、第1レイヤ出力x2は、P個の次元のそれぞれに対応するP個の成分(x2,1,x2,2,……,x2,P)を有し、第1レイヤ出力x3は、P個の次元のそれぞれに対応するP個の成分(x2,1,x2,2,……,x2,P)を有する。また、数値変換レイヤ出力y1は、P個の次元のそれぞれに対応するP個の成分(y1,1,y1,2,……,y1,P)を有する。同様に、数値変換レイヤ出力y2は、P個の次元のそれぞれに対応するP個の成分(y2,1,y2,2,……,y2,P)を有し、数値変換レイヤ出力y3は、P個の次元のそれぞれに対応するP個の成分(y3,1,y3,2,……,y3,P)を有する。
従来のバッチ正規化レイヤは、次元ごとに、当該次元に対応する第1レイヤ出力の成分を、統計パラメータを用いて正規化する。本開示の数値変換レイヤ220も、次元ごとに、当該次元に対応する第1レイヤ出力の成分を、数値変換パラメータを用いて、数値変換する。
以下、訓練時に数値変換レイヤ220で計算される数値変換パラメータの計算方法について説明する。数値変換レイヤ220は、訓練データごとに疑似平均を計算し、バッチ毎に疑似分散を計算する。p番目の次元に対応する疑似平均および疑似分散の計算方法について説明する。他の次元に対応する疑似平均および疑似分散についても同様に計算される。
バッチ学習により、数値変換レイヤ220は、訓練データ311,312,313(訓練データT1,T2,T3)に対応する第1レイヤ出力の、p番目の次元に対応する成分411(成分x1,p),成分412(x2,p),成分413(x3,p)を受信する。
図5は、訓練データごとに計算される疑似平均の計算方法を示す。
訓練データT1に対応する疑似平均421は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,pのうち訓練データT1に対応するx1,pを除く,x2,pおよびx3,pを用いて、以下の式により計算する。
Figure 0007211556000001
訓練データT2に対応する疑似平均422は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,pのうち訓練データT2に対応するx2,pを除く,x1,pおよびx3,pを用いて、以下の式により計算する。
Figure 0007211556000002
訓練データT3に対応する疑似平均423は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,pのうち訓練データT3に対応するx3,pを除く,x1,pおよびx2,pを用いて、以下の式により計算する。
Figure 0007211556000003
このように、バッチ内の複数の訓練データのうちの1つの訓練データに対応する疑似平均として、当該訓練データを除くバッチ内の他の訓練データの第1レイヤ出力の成分の平均が計算される。
図6は、バッチ毎に計算される疑似分散の計算方法を示している。
疑似分散430は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p、並びに、上記計算された疑似平均421、422、423を用いて以下の式により計算する。
Figure 0007211556000004
このように、統計学における分散を求める公式に対して、各サンプル値(第1レイヤ出力の成分)と平均との偏差の代わりに、第1レイヤ出力と対応する疑似平均との差を用いて計算することにより、疑似分散を計算する。
数値変換レイヤ220は、このようにして計算された疑似平均および疑似分散を用いて、第1レイヤ出力の成分を数値変換し、数値変換出力を生成する。
図7に、数値変換出力の生成方法を示す。例えば、訓練データT1に対応する第1レイヤ出力411を以下の式により数値変換して数値変換レイヤ出力511を生成する。
Figure 0007211556000005
同様に、訓練データT2に対応する第1レイヤ出力412を以下の式により数値変換して数値変換レイヤ出力512を生成する。
Figure 0007211556000006
また、訓練データT3に対応する第1レイヤ出力413を以下の式により数値変換して数値変換レイヤ出力513を生成する。
Figure 0007211556000007
数値計算レイヤ220は、訓練時、上述の数値変換、すなわち、第1レイヤ出力に対して、対応する疑似平均で減算、疑似分散の正の平方根で除算を行い、数値計算レイヤ出力511、512、513を計算し、第2レイヤに提供する。従来のニューラル・ネットワーク・システムにおける平均および分散の代わり疑似平均および疑似分散を用いて第1レイヤ出力の数値変換を行うことで、従来のニューラル・ネットワーク・システムと同様に、数値計算レイヤ出力511、512、513は、平均が0、分散が1に正規化され、学習効果の効率を高めることができる。
1.2 動作
図8は、ニューラル・ネットワーク・システム200の訓練中に、数値変換レイヤ出力を生成するためのフローの一例を示す。
数値変換レイヤ220は、第1レイヤ出力を受信する(ステップS1)。この第1レイヤ出力は、第1レイヤ210により、バッチ内の訓練データごとに生成されたそれぞれの出力を含む。
数値変換レイヤ220は、数値変換パラメータを計算する(ステップS2)。数値変換パラメータとして、バッチ内の訓練データごとに疑似平均を計算し、バッチに対して疑似分散を計算する。
数値変換レイヤ220は、計算された数値変換パラメータを用いて、バッチ内の訓練データごとに、第1レイヤ出力を数値変換して数値変換レイヤ出力を生成する(ステップS3)。
数値変換レイヤ220は、数値変換レイヤ出力を入力として第2レイヤに提供する(ステップS4)。
図9は、ニューラル・ネットワーク・システム200がトレーニングされた後、新たな入力に対して、推論結果を生成するときに、数値変換レイヤ出力を生成するためのフローの一例を示す。
数値変換レイヤ220は、新たな入力に対する第1レイヤ出力を受信する(ステップS11)。
数値変換レイヤ220は、予め定められた数値変換パラメータを用いて、新たな入力に対する第1レイヤ出力を数値変換して数値変換レイヤ出力を生成する(ステップS12)。この数値変換パラメータは、ニューラル・ネットワーク・システム200のトレーニングにおいて第1レイヤ210で生成された第1レイヤ出力に基づいて決定されてもよく、トレーニング後に別の入力データに対して第1レイヤ210で生成された第1レイヤ出力に基づいて決定されてもよい。
数値変換レイヤ220は、新たな入力に対する数値変換レイヤ出力を入力として第2レイヤに提供する(ステップS13)。
1.3 効果
各訓練データに着目すると、従来のバッチ正規化では、正規化用の統計値の計算に、着目している訓練データの第1レイヤ出力が必ず含まれる。バッチサイズが小さい場合、統計値の計算に占める着目している訓練データの第1レイヤ出力の割合が大きいため、着目している訓練データにとっては、自身の値に大きく影響されたバリエーションの乏しいバッチから計算された統計値が使用されることになり、正規化の効果が薄まる恐れがある。
一方、本開示の方法によれば、着目している訓練データの第1レイヤ出力を除外して数値変換用の数値変換パラメータ(疑似平均)を計算するため、数値変換パラメータにおける自身の値の影響を抑制することができ、バッチサイズが小さい場合でも、数値変換の効果(正規化と同様の効果)を奏するようになる。
2.補足
以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。
(1)上述の実施の形態において、バッチ内の複数の訓練データのうちの一の訓練データに対応する疑似平均は、バッチ内の当該一の訓練データを除く他のすべての訓練データの第1レイヤ出力を用いて計算されるとしたがこの限りではない。例えば、バッチ内の当該一の訓練データを除く他の訓練データのうち、選択された一部の訓練データの第1レイヤ出力を用いて計算してもよい。
図10は、実施の形態と異なる疑似平均の計算方法を示す。ここでは、バッチサイズが4であり、訓練データ1001,1002,1003,1004(訓練データT1,T2,T3,T4)がバッチ内の訓練データであるとする。p番目の次元に対応する疑似平均および疑似分散の計算方法について説明するが、他の次元に対応する疑似平均についても同様に計算される。
バッチ学習により、数値変換レイヤ220は、訓練データT1,T2,T3,T4に対応する第1レイヤ出力の、p番目の次元に対応する成分1011(成分x1,p),成分1012(x2,p),成分1013(x3,p),成分1014(x4,p)を受信する。
訓練データT1に対応する疑似平均1021は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,pのうち訓練データT1に対応するx1,pを除く,x2,p,x3,p,x4,pのうち選択されたx2,p,x3,p用いて、以下の式により計算する。
Figure 0007211556000008
訓練データT2に対応する疑似平均1022は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,pのうち訓練データT2に対応するx2,pを除く,x1,p,x3,p,x4,pのうち選択されたx3,p,x4,p用いて、以下の式により計算する。
Figure 0007211556000009
訓練データT3に対応する疑似平均1023は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,pのうち訓練データT3に対応するx3,pを除く,x1,p,x2,p,x4,pのうち選択されたx1,p,x4,p用いて、以下の式により計算する。
Figure 0007211556000010
訓練データT4に対応する疑似平均1024は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,pのうち訓練データT4に対応するx4,pを除く,x1,p,x2,p,x3,pのうち選択されたx1,p,x2,p用いて、以下の式により計算する。
Figure 0007211556000011
このように、バッチ内の複数の訓練データのうちの1つの訓練データに対応する疑似平均として、当該訓練データを除くバッチ内の他の訓練データのうち選択された訓練データの第1レイヤ出力の成分の平均が計算される。当該訓練データを除く他の訓練データから一部の訓練データを選択する方法は、ランダムに選択してもよいし、所定の規則に従って選択してもよい。上記の例では、疑似平均1021-1024の平均が、第1レイヤ出力x1,p,x2,p,x3,p,x4,pの平均に一致するように選択している。
従来のバッチ正規化では、バッチサイズが極端に大きい場合に効果が薄まる可能性があるが、この方法によれば、バッチサイズが極端に大きいことによる効果低下を抑制できる可能性がある。
(2)上述の実施の形態において、バッチ内の複数の訓練データのうちの一の訓練データに対応する疑似平均は、バッチ内の当該一の訓練データを除く他のすべての訓練データの第1レイヤ出力を用いて計算されるとしたがこの限りではない。例えば、他のバッチ内の訓練データの第1レイヤ出力を用いて計算してもよい。
図11は、実施の形態と異なる疑似平均の計算方法を示す。ここでは、バッチサイズが3であり、バッチ1の訓練データが訓練データ1101,1102,1103(訓練データT1,T2,T3)であり、バッチ2の訓練データが訓練データ1104,1105,1106(訓練データT4,T5,T6)であるとする。p番目の次元に対応する疑似平均および疑似分散の計算方法について説明するが、他の次元に対応する疑似平均についても同様に計算される。
バッチ1の学習において、数値変換レイヤ220は、バッチ1の訓練データT1,T2,T3に対応する第1レイヤ出力の、p番目の次元に対応する成分1111(成分x1,p),成分1112(x2,p),成分1113(x3,p)およびバッチ2の訓練データT4,T5,T6に対応する第1レイヤ出力の、p番目の次元に対応する成分1114(成分x1,p),成分1115(x2,p),成分1116(x3,p)を受信する。
訓練データT1に対応する疑似平均1121は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,p,x5,p,x6,pのうち訓練データT1に対応するx1,pを除く,x2,p,x3,p,x4,p,x5,p,x6,pのうち選択されたx2,p,x3,p,x4,p用いて、以下の式により計算する。
Figure 0007211556000012
訓練データT2に対応する疑似平均1122は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,p,x5,p,x6,pのうち訓練データT2に対応するx2,pを除く,x1,p,x3,p,x4,p,x5,p,x6,pのうち選択されたx1,p,x2,p,x5,p用いて、以下の式により計算する。
Figure 0007211556000013
訓練データT2に対応する疑似平均1123は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,p,x4,p,x5,p,x6,pのうち訓練データT2に対応するx2,pを除く,x1,p,x3,p,x4,p,x5,p,x6,pのうち選択されたx1,p,x2,p,x5,p用いて、以下の式により計算する。
Figure 0007211556000014
このように、複数の訓練データのうちの1つの訓練データに対応する疑似平均として、当該訓練データを除く他の訓練データのうち選択された訓練データの第1レイヤ出力の成分の平均が計算される。当該訓練データを除く他の訓練データから一部の訓練データを選択する方法は、ランダムに選択してもよいし、所定の規則に従って選択してもよい。
この疑似平均算出方法により、算出される疑似平均および疑似平均を用いて算出される疑似分散の値は、当該訓練データの第1レイヤ出力の影響が抑えられたものとなり、バッチサイズが小さい場合でも、学習効果の向上が期待できる。
(3)上述の実施の形態において、バッチ内の複数の訓練データのうちの一の訓練データに対応する疑似平均は、バッチ内の当該一の訓練データを除く他のすべての訓練データの第1レイヤ出力を用いて計算されるとしたがこの限りではない。例えば、当該一の訓練データを含む複数の訓練データの第1レイヤ出力を用いて計算してもよい。
図12は、実施の形態と異なる疑似平均の計算方法を示す。ここでは、バッチサイズが3であり、バッチ内の訓練データが訓練データ1201,1202,1103(訓練データT1,T2,T3)であるとする。p番目の次元に対応する疑似平均および疑似分散の計算方法について説明するが、他の次元に対応する疑似平均についても同様に計算される。
バッチ学習において、数値変換レイヤ220は、バッチ1の訓練データT1,T2,T3に対応する第1レイヤ出力の、p番目の次元に対応する成分1211(成分x1,p),成分1212(x2,p),成分1213(x3,p)を受信する。
訓練データT1に対応する疑似平均1231は、数値変換レイヤ220で受信されたx1,p,x2,p,x3,pを用いて、以下の式により計算する。
Figure 0007211556000015
ここで、w1、w2、w3は、予め定められた重みであり、訓練データT1に対応する重みw1は、他の訓練データに対応する重みよりも小さい。
このように、複数の訓練データのうちの1つの訓練データに対応する疑似平均として、当該訓練データを含む複数の訓練データの第1レイヤ出力の成分の加重平均が計算される。このとき、当該訓練データの第1レイヤ出力に付される重みは、他の当該訓練データの第1レイヤ出力に付される重みよりも小さいものとする。
この疑似平均算出方法により、算出される疑似平均および疑似平均を用いて算出される疑似分散の値は、当該訓練データの第1レイヤ出力の影響が抑えられたものとなり、バッチサイズが小さい場合でも、学習効果の向上が期待できる。
(4)上述の実施の形態において、第1レイヤ210は、特徴インデックスおよび空間的位置インデックスの両方によりそれぞれインデックス化された複数の成分を含む出力を生成するニューラル・ネットワーク・レイヤであるとしてもよい。
この場合、数値変換レイヤ220は、特徴インデックスおよび空間的位置インデックスの組合せごとに、特徴インデックスおよび空間的位置インデックスを有する第1レイヤ出力の成分の疑似平均および疑似分散を計算する。数値変換レイヤ220は、特徴インデックスごとに、当該特徴インデックスおよび当該特徴インデックスを含む空間的位置インデックスの組合せに対する疑似平均の算術平均を計算する。数値変換レイヤ220は、特徴インデックスごとに、当該特徴インデックスおよび当該特徴インデックスを含む空間的位置インデックスの組合せに対する疑似分散の算術平均を計算する。
数値変換レイヤ220は、計算した算術平均および算術分散を用いて第1レイヤ210の出力の各々の各成分を数値変換して、バッチ内の訓練データの各々に対するそれぞれの数値変換された出力を生成する。数値変換レイヤ220は、算出した算術平均および算術分散を用いて、上述の実施の形態で次元によりインデックス化された出力を生成するときと同一の方式で、各成分を正規化する。
(5)p番目の次元について、疑似平均および疑似分散を用いて数値変換された成分ypに対して、さらに、p番目の次元に対するパラメータγpおよびApを用いて変形を施したzp=γp・yp+Apを数値変換レイヤの出力として第2レイヤ230に提供してもよい。パラメータγpおよびApは、定数であってもよく、ニューラル・ネットワーク・システム200のトレーニングにより定められるパラメータであってもよい。
(6)ニューラル・ネットワーク・システム200の入力は、訓練時と推論時とで異なる種類の入力であってもよい。例えば、ユーザー画像を訓練データとしてトレーンニングし、ビデオ・フレームの推論を行ってもよい。
(7)上述の実施の形態において、第1レイヤ210は、当該レイヤに対する1組のパラメータの値に従って当該レイヤへの入力を修正することによって出力を生成するとしてもよい。また、第2レイヤ230は数値変換レイヤ220の出力を受信し、非線形動作、即ち、非線形起動機能を数値変換レイヤ出力に適用することによって出力を生成してもよい。また、第1レイヤ210は、当該レイヤに対する1組のパラメータの値に従ってレイヤ入力を修正して修正された第1レイヤ入力を生成し、出力を数値変換レイヤ220に提供する前に非線形動作を当該修正された第1レイヤ入力に適用することによって、出力を生成してもよい。
本開示は、画像認識、自然言語処理および音声認識などを行うニューラル・ネットワーク・システムに有用である。
200 ニューラル・ネットワーク・システム
210 第1レイヤ
220 数値変換レイヤ
230 第2レイヤ

Claims (25)

  1. 1つまたは複数のコンピュータにより実装されるニューラル・ネットワーク・システムであって、
    複数の成分を有する第1レイヤ出力を生成する第1レイヤと、第2レイヤと、両レイヤ間の数値変換レイヤとを備え、
    前記数値変換レイヤは、前記ニューラル・ネットワーク・システムのトレーニング中に、
    複数の訓練データの第1レイヤ出力を受信し、
    訓練データごとに対応する数値変換パラメータを計算し、
    前記数値変換パラメータを用いて各第1レイヤ出力の各成分を数値変換して数値変換レイヤ出力を生成し、
    前記数値変換レイヤ出力を入力として前記第2レイヤに提供する
    ように構成され、
    1つの訓練データに対応する前記数値変換パラメータは、当該訓練データを除く他の複数の訓練データの第1レイヤ出力から計算される、または、当該訓練データを含む複数の訓練データの各第1レイヤ出力に重みを付して計算され、当該訓練データの第1レイヤ出力の重みが他の訓練データの第1レイヤ出力の重みよりも小さい
    ニューラル・ネットワーク・システム。
  2. 1つの訓練データに対応する前記数値変換パラメータの計算は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを含まないよう所定の選択方法で選択された複数の訓練データの第1レイヤ出力から計算される
    請求項1に記載のニューラル・ネットワーク・システム。
  3. 前記第1レイヤ出力の複数の成分は、次元によりインデックス化され、
    前記数値変換パラメータの計算は、
    前記バッチの訓練データごとに、前記次元の各々に対して、前記選択方法で選択された複数の訓練データの第1レイヤ出力の前記次元における成分の平均を、第1レイヤ出力の前記次元における成分の疑似平均として計算するステップと、
    前記次元の各々に対して、前記第1レイヤ出力の前記次元における成分の分散を、前記バッチの訓練データごとの第1レイヤ出力の前記次元における成分および前記疑似平均を用いて計算するステップと、
    を含む、請求項2に記載のニューラル・ネットワーク・システム。
  4. 前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する次元に対する前記疑似平均および前記分散を用いて、前記訓練データの第1レイヤ出力の前記成分を数値変換するステップ
    を含む、請求項3に記載のニューラル・ネットワーク・システム。
  5. 前記数値変換レイヤ出力の生成は、各次元に対する1組の変形パラメータの値に従って、前記数値変換された成分を変形するステップ
    を更に含む、請求項4に記載のニューラル・ネットワーク・システム。
  6. 前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、
    新たなニューラル・ネットワーク入力に対する前記第1レイヤにより生成された新たな第1レイヤ出力を受信し、
    予め計算された数値変換パラメータを用いて前記新たな第1レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、
    次元ごとに、前記次元に対する1組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、
    前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第2レイヤに提供する
    ように構成される、請求項5に記載のニューラル・ネットワーク・システム。
  7. 前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムのトレーニング中に前記第1レイヤにより生成された第1レイヤ出力から計算される、請求項6に記載のニューラル・ネットワーク・システム。
  8. 前記予め計算された数値変換パラメータは、前記ニューラル・ネットワーク・システムがトレーニングされた後に前記第1レイヤにより生成された第1レイヤ出力から計算される、請求項6に記載のニューラル・ネットワーク・システム。
  9. 前記ニューラル・ネットワーク・システムがトレーニングされた後に前記ニューラル・ネットワーク・システムにより処理される新たなニューラル・ネットワーク入力は、前記ニューラル・ネットワーク・システムをトレーニングするために使用される前記訓練データと異なるタイプの入力である、請求項7に記載のニューラル・ネットワーク・システム。
  10. 前記第1レイヤ出力の前記複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、
    前記数値変換パラメータの計算は、
    前記バッチの訓練データごとに、特徴インデックスおよび空間的位置インデックスの組合せの各々に対して、前記選択方法で選択された複数の訓練データの第1レイヤ出力の前記組合せにおける成分の平均を計算するステップと、
    前記バッチの訓練データごとに、特徴インデックスの各々に対して、前記特徴インデックスを含む組合せに対する前記平均の算術平均を計算するステップと、
    特徴インデックスおよび空間的位置インデックスの組合せごとに、前記第1レイヤ出力の前記組合せにおける成分の分散を、前記バッチの訓練データごとの第1レイヤ出力の前記組合せにおける成分および前記平均の算術平均を用いて計算するステップと、
    特徴インデックスごとに、前記特徴インデックスを含む組合せに対する前記分散の算術平均を計算するステップと、
    を含む、請求項2に記載のニューラル・ネットワーク・システム。
  11. 前記数値変換レイヤ出力の生成は、訓練データごとに、前記平均の算術平均および前記分散の算術平均を用いて、前記訓練データの前記第1レイヤ出力の各成分を数値変換するステップ
    を含む、請求項10に記載のニューラル・ネットワーク・システム。
  12. 前記数値変換レイヤ出力の生成は、各特徴インデックスに対する1組の変形パラメータに従って、前記数値変換された成分を変換するステップ
    を含む、請求項11に記載のニューラル・ネットワーク・システム。
  13. 前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、
    新たなニューラル・ネットワーク入力に対する前記第1レイヤにより生成された新たな第1レイヤ出力を受信し、
    予め計算された数値変換パラメータを用いて前記新たな第1レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、
    特徴インデックスごとに、前記特徴インデックスに対する1組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、
    前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第2レイヤに提供する
    ように構成される、請求項12に記載のニューラル・ネットワーク・システム。
  14. 前記第1レイヤ出力の複数の成分は、特徴インデックスおよび空間的位置インデックスによりインデックス化され、
    前記数値変換パラメータの計算は、
    前記バッチの訓練データごとに、前記特徴インデックスの各々に対して、前記選択方法で選択された複数の訓練データの第1レイヤ出力の前記特徴インデックスにおける成分の平均を、第1レイヤ出力の前記特徴インデックスにおける成分の疑似平均として計算するステップと、
    前記特徴インデックスの各々に対して、前記第1レイヤ出力の前記特徴インデックスにおける成分の分散を、前記バッチの訓練データごとの第1レイヤ出力の前記特徴インデックスにおける成分および前記疑似平均を用いて計算するステップと、
    を含む、請求項2に記載のニューラル・ネットワーク・システム。
  15. 前記数値変換レイヤ出力の生成は、訓練データごとに、各成分に対応する特徴インデックスに対する前記疑似平均および前記分散を用いて、前記訓練データの第1レイヤ出力の前記成分を数値変換するステップ
    を含む、請求項14に記載のニューラル・ネットワーク・システム。
  16. 前記数値変換レイヤ出力の生成は、各特徴インデックスに対する1組の変形パラメータの値に従って、前記数値変換された成分を変形するステップ
    を更に含む、請求項15に記載のニューラル・ネットワーク・システム。
  17. 前記数値変換レイヤは、前記ニューラル・ネットワーク・システムがトレーニングされた後、
    新たなニューラル・ネットワーク入力に対する前記第1レイヤにより生成された新たな第1レイヤ出力を受信し、
    予め計算された数値変換パラメータを用いて前記新たな第1レイヤ出力の各成分を数値変換して新たな数値変換されたレイヤ出力を生成し、
    特徴インデックスごとに、前記特徴インデックスに対する1組の変形パラメータに従って、前記新たな数値変換されたレイヤ出力の成分を変換することによって、新たな数値変換レイヤ出力を生成し、
    前記新たな数値変換レイヤ出力を新たなレイヤ入力として前記第2レイヤに提供する
    ように構成される、請求項16に記載のニューラル・ネットワーク・システム。
  18. 前記第1レイヤは、前記第1レイヤに対する1組のパラメータに従って第1レイヤ入力を修正することによって前記第1レイヤ出力を生成する、
    請求項1乃至17の何れか1項に記載のニューラル・ネットワーク・システム。
  19. 前記第2レイヤは、非線形動作を前記数値変換レイヤ出力に適用することによって第2レイヤ出力を生成する、請求項18に記載のニューラル・ネットワーク・システム。
  20. 前記第1レイヤは、1組のパラメータの現在の値に従って第1レイヤ入力を修正して、修正された第1レイヤ入力を生成し、次いで非線形動作を前記修正された第1レイヤ入力に適用することによって前記第1レイヤ出力を生成する、
    請求項1乃至17の何れか1項に記載のニューラル・ネットワーク・システム。
  21. 前記ニューラル・ネットワーク・システムの前記トレーニングの間に、前記ニューラル・ネットワーク・システムは、前記ニューラル・ネットワーク・システムのパラメータの値を調節する一部として前記数値変換パラメータを誤差逆伝播するように構成される、
    請求項1乃至20の何れか1項に記載のニューラル・ネットワーク・システム。
  22. 1つの訓練データに対応する前記数値変換パラメータの計算における前記所定の選択方法は、当該訓練データを含む複数の訓練データを一組にしたバッチから当該訓練データを除く一部又は全ての訓練データを選択する
    請求項2に記載のニューラル・ネットワーク・システム。
  23. 請求項1乃至22の何れか1項に記載された数値変換レイヤにより実施される動作を含む、方法。
  24. 1つまたは複数のコンピュータに請求項1乃至22の何れか1項に記載のニューラル・ネットワーク・システムを実行させる命令を含むコンピュータプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
  25. 1つまたは複数のコンピュータに請求項1乃至22の何れか1項に記載のニューラル・ネットワーク・システムを実行させる命令を含むコンピュータプログラム。
JP2022516210A 2021-06-09 2021-09-24 ニューラル・ネットワーク・システム Active JP7211556B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021096588 2021-06-09
JP2021096588 2021-06-09
PCT/JP2021/034961 WO2022259566A1 (ja) 2021-06-09 2021-09-24 ニューラル・ネットワーク・システム

Publications (2)

Publication Number Publication Date
JPWO2022259566A1 JPWO2022259566A1 (ja) 2022-12-15
JP7211556B1 true JP7211556B1 (ja) 2023-01-24

Family

ID=84424496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022516210A Active JP7211556B1 (ja) 2021-06-09 2021-09-24 ニューラル・ネットワーク・システム

Country Status (3)

Country Link
EP (1) EP4354342A1 (ja)
JP (1) JP7211556B1 (ja)
WO (1) WO2022259566A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019123544A1 (ja) * 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
JP2020506488A (ja) * 2017-02-10 2020-02-27 グーグル エルエルシー バッチ再正規化層
JP2020135748A (ja) * 2019-02-25 2020-08-31 株式会社Preferred Networks 最適化装置、最適化方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2714152T3 (es) 2015-01-28 2019-05-27 Google Llc Capas de normalización por lotes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020506488A (ja) * 2017-02-10 2020-02-27 グーグル エルエルシー バッチ再正規化層
WO2019123544A1 (ja) * 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
JP2020135748A (ja) * 2019-02-25 2020-08-31 株式会社Preferred Networks 最適化装置、最適化方法及びプログラム

Also Published As

Publication number Publication date
WO2022259566A1 (ja) 2022-12-15
EP4354342A1 (en) 2024-04-17
JPWO2022259566A1 (ja) 2022-12-15

Similar Documents

Publication Publication Date Title
JP6935542B2 (ja) バッチ正規化レイヤ
JP7285895B2 (ja) 質問応答としてのマルチタスク学習
US20210004663A1 (en) Neural network device and method of quantizing parameters of neural network
KR102353284B1 (ko) 신경망을 사용하여 오디오 생성
US9400955B2 (en) Reducing dynamic range of low-rank decomposition matrices
CN110622178A (zh) 学习神经网络结构
US20170154262A1 (en) Resizing neural networks
JP6521440B2 (ja) ニューラルネットワーク及びそのためのコンピュータプログラム
JP6612716B2 (ja) パターン識別装置、パターン識別方法およびプログラム
CN113348472A (zh) 具有软内核选择的卷积神经网络
CN111587441B (zh) 使用以比特值为条件的回归神经网络生成输出示例
WO2020039790A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7211556B1 (ja) ニューラル・ネットワーク・システム
CN114492730A (zh) 神经网络模型的编译方法和装置、电子设备和存储介质
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
CN111832699A (zh) 用于神经网络的计算高效富于表达的输出层
US20240256867A1 (en) Neural network system that executes batch normalization
CN111078886B (zh) 基于dmcnn的特殊事件提取***
WO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP2020030702A (ja) 学習装置、学習方法及び学習プログラム
US20230124177A1 (en) System and method for training a sparse neural network whilst maintaining sparsity
CN113298248B (zh) 一种针对神经网络模型的处理方法、装置以及电子设备
JP4042678B2 (ja) 単語ベクトル推定方法及び装置及び単語ベクトル推定プログラム及び単語ベクトル推定プログラムを記録したコンピュータ読み取り可能な記録媒体
US20220147790A1 (en) Deep Polynomial Neural Networks
US20240202501A1 (en) System and method for mathematical modeling of hardware quantization process

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220311

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R150 Certificate of patent or registration of utility model

Ref document number: 7211556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150