JP7453828B2

JP7453828B2 - プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法

Info

Publication number: JP7453828B2
Application number: JP2020056716A
Authority: JP
Inventors: セルゲイタラセンコ
Original assignee: Ｇｏ株式会社
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2024-03-21
Anticipated expiration: 2040-03-26
Also published as: JP2021157468A

Description

特許法第３０条第２項適用令和１年１０月２３日に、ａｒＸｉｖのウェブサイトにて公開（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９１０．１１１０７）令和１年１０月２３日に、ＲｅｓｅａｒｃｈＧａｔｅのウェブサイトにて公開（ｈｔｔｐｓ：／／ｗｗｗ．ｒｅｓｅａｒｃｈｇａｔｅ．ｎｅｔ／ｐｕｂｌｉｃａｔｉｏｎ／３３６７３６９９３＿Ｓｔｒｅａｍｉｎｇ＿Ｎｅｔｗｏｒｋｓ＿Ｅｎａｂｌｅ＿Ａ＿Ｒｏｂｕｓｔ＿Ｃｌａｓｓｉｆｉｃａｔｉｏｎ＿ｏｆ＿Ｎｏｉｓｅ－Ｃｏｒｒｕｐｔｅｄ＿Ｉｍａｇｅｓ）

本発明は、プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法に関する。

教師あり機械学習を用いて、入力された画像がどのカテゴリに分類されるかを推定する分類器を生成する機械学習システムが提案されている（特許文献１）。

特開２０１９－７９３８１号公報

種々の原因により、元画像にノイズが重畳する場合がある。特許文献１の分類器では、ノイズが重畳した画像により機械学習が行なわれた場合には、精度の高い分類器を得られないという問題がある。

一つの態様では、ノイズが重畳した画像を用いて機械学習を行なっても、高精度の機械学習を行なえるプログラム等を提供することを目的とする。

プログラムは、画像データを取得し、取得した前記画像データを複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより、複数のスライス画像データを生成し、コンボリューション層とプーリング層とを繰り返して構成した複数のストリームが相互に並列に配置されており、複数の前記ストリームのそれぞれに生成した前記スライス画像データを入力することにより、複数の前記スライス画像データそれぞれの特徴ベクトルを抽出し、抽出した複数の前記特徴ベクトルを結合して１つの結合特徴ベクトルを生成し、生成した前記結合特徴ベクトルを全結合層に入力して、前記全結合層から出力される推定結果を出力する処理をコンピュータに実行させる。

一つの態様では、ノイズが重畳した画像を用いて機械学習を行なっても、高精度の機械学習を行なえるプログラム等を提供できる。

ニューラルネットワークシステムの概要を説明する説明図である。情報処理装置の構成を説明する説明図である。スライス条件ＤＢのレコードレイアウトを説明する説明図である。スライス部の概要を説明する説明図である。ストリームの概要を説明する説明図である。ストリームの変形例の概要を説明する説明図である。結合特徴ベクトル生成層の概要を説明する説明図である。プログラムの処理の流れを説明するフローチャートである。スライス画像生成のサブルーチンの処理の流れを説明するフローチャートである。スライス画像生成のサブルーチンの変形例の処理の流れを説明するフローチャートである。学習データＤＢのレコードレイアウトを説明する説明図である。実施の形態２のプログラムの処理の流れを説明するフローチャートである。シミュレーション例－１で用いる画像ノイズの例を説明する説明図である。テストデータに重畳したノイズ量による精度の相違をシミュレーションした結果を示すグラフである。シミュレーション例－２で用いる画像の例を説明する説明図である。画像の輝度による精度の相違をシミュレーションした結果を示すグラフである。画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。実施の形態３のスライス条件ＤＢのレコードレイアウトを説明する説明図である。実施の形態４のニューラルネットワークシステムの概要を説明する説明図である。実施の形態５のスライス部の概要を説明する説明図である。実施の形態５のスライス条件ＤＢのレコードレイアウトを説明する説明図である。実施の形態６の情報処理装置の機能ブロック図である。実施の形態７の情報処理装置の構成を説明する説明図である。

［実施の形態１］
図１は、ニューラルネットワークシステム１０の概要を説明する説明図である。ニューラルネットワークシステム１０は、入力画像４１が入力された場合に、入力画像４１に対応する分類を推定した推定結果４６を出力する。図１においては、入力画像４１が「車」のラベルに対応する確率が５パーセント、「鳥」のラベルに対応する確率が３パーセント、「虎」のラベルに対応する確率が９０パーセント等であると出力されている。なお、ニューラルネットワークシステム１０の出力は、推定結果に限られない。

ニューラルネットワークシステム１０は、スライス部１１、複数のストリーム１２、結合特徴ベクトル生成層１６、全結合層１３およびソフトマックス層１４が、この順番で連結した構成を有する。複数のストリーム１２は、スライス部１１と結合特徴ベクトル生成層１６との間に、相互に平行に配置されている。スライス部１１、ストリーム１２および結合特徴ベクトル生成層１６の構成については後述する。全結合層１３は、いわゆる全結合層であり、入力画像４１に対応するラベルを出力する。

ストリーム１２および全結合層１３は、機械学習によりそれぞれのパラメータが学習された学習モデル１９を構成する。ソフトマックス層１４により、全結合層１３の出力が各ラベルに対する確率に変換される。ソフトマックス層１４から、入力画像４１がそれぞれのラベルに対応する画像である確率の予測値が出力される。

図２は、情報処理装置２０の構成を説明する説明図である。情報処理装置２０は、制御部２１、主記憶装置２２、補助記憶装置２３、通信部２４、出力部２５、入力部２６およびバスを備える。制御部２１は、本実施の形態のプログラムを実行する演算制御装置である。制御部２１には、一または複数のＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）またはマルチコアＣＰＵ等が使用される。制御部２１は、バスを介して情報処理装置２０を構成するハードウェア各部と接続されている。

主記憶装置２２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の記憶装置である。主記憶装置２２には、制御部２１が行なう処理の途中で必要な情報および制御部２１で実行中のプログラムが一時的に保存される。

補助記憶装置２３は、ＳＲＡＭ、フラッシュメモリまたはハードディスク等の記憶装置である。補助記憶装置２３には、スライス条件ＤＢ６１、ニューラルネットワークシステム１０、制御部２１に実行させるプログラム、およびプログラムの実行に必要な各種データが保存される。

スライス条件ＤＢ６１およびニューラルネットワークシステム１０は、情報処理装置２０に接続された外部大容量記憶装置に記憶されていてもよい。ニューラルネットワークシステム１０は、図１を使用して説明した構成要素ごとに分割して記憶されていても良い。

通信部２４は、情報処理装置２０とネットワークとの間のデータ通信を行なうインターフェイスである。出力部２５は、液晶表示装置、または、有機ＥＬ（Electro-Luminescence）表示装置等の表示装置である。入力部２６は、たとえばキーボード、マウス、タッチパネル、またはマイク等である。

本実施の形態の情報処理装置２０は、汎用のパーソナルコンピュータ、タブレット、スマートフォン等の情報処理装置である。情報処理装置２０は、大型計算機上で動作する仮想マシンであっても良い。情報処理装置２０は、分散処理を行なう複数のパソコン、または大型計算機等のハードウェアにより構成されても良い。情報処理装置２０は、クラウドコンピューティングシステムまたは量子コンピュータにより構成されても良い。情報処理装置２０は、データセンターサーバであっても良い。

図３は、スライス条件ＤＢ６１のレコードレイアウトを説明する説明図である。スライス条件ＤＢ６１は、番号とスライス条件とを関連づけて記録するＤＢである。スライス条件ＤＢ６１は、番号フィールドおよび条件フィールドを有する。番号フィールドには、条件の番号が記録されている。条件フィールドには、スライス部１１の動作条件が規定されている。

たとえば、図３の番号１では、入力画像４１を構成する画素のうち、赤色の成分のピクセルバリューが最大輝度の８０パーセント以上１００パーセント以下の画素を選択することが規定されている。同様に、図３の番号８では、入力画像４１を構成する画素のうち、緑色の成分のピクセルバリューが最大輝度の４０パーセント以上６０パーセント未満の画素を選択することが規定されている。

赤色、緑色、青色のそれぞれが８ビット、すなわち０から２５５までの２５６階調で表現されるカラー画像を入力画像４１に使用する場合を例にして、具体的に説明する。前述の「赤色の成分のピクセルバリューが最大輝度の８０パーセント以上１００パーセント以下の画素」は、「赤色の階調が２０４以上２５５以下である画素」である。同様に、「緑色の成分のピクセルバリューが最大輝度の４０パーセント以上６０パーセント未満の画素」は、「緑色の階調が１０２以上１５３未満である画素」である。

図３に示すスライス画像ＤＢ６１は、例示である。スライス画像ＤＢ６１のレコード数および条件は、図３に限定されない。図３は入力画像４１がカラー画像であり、各画素がＲＧＢ（Red Green Blue）の３色の成分を有する場合のスライス条件ＤＢ６１の例を示す。図３の各レコードは例示であり、これに限定するものではない。入力画像４１が白黒画像である場合には、条件フィールドには画素の輝度範囲のみを規定する。

図３においては、赤色、緑色、青色の各色の輝度をそれぞれ５等分にする例を示すが、たとえば青色は５等分にして、緑色は８等分にする等、色により分割数が異なっていても良い。分割は等分に限定しない。たとえば輝度が低い部分を細かく分割する等、任意の条件のスライス条件ＤＢ６１を使用できる。

スライス条件ＤＢ６１には、各ピクセルの赤色、緑色、青色の３色のピクセルバリューの合計値に基づいて定めた条件が記録されていても良い。スライス条件ＤＢ６１には、たとえば赤色と緑色等の２色のピクセルバリューの合計に基づいて定められた条件が記録されていても良い。

図４は、スライス部１１の概要を説明する説明図である。スライス部１１により入力画像４１からスライス画像４２が生成される。スライス部１１は、スライスＤＢ６１に基づいて動作する。１枚の入力画像４１から、スライスＤＢ６１に記録されたレコード数と同数のスライス画像４２が生成される。

図３の番号１のレコードに対応するスライス画像４２の生成について説明する。入力画像４１の各画素から赤色の成分のみが抽出される。入力画像４１を構成する画素のうち赤色の成分が最大輝度の８０パーセント以上１００パーセント未満の画素以外の画素のピクセルバリューは、ゼロに設定される。

同様に、図３の番号８のレコードに対応するスライス画像４２の生成について説明する。入力画像４１の各画素から緑色の成分のみが抽出される。入力画像４１を構成する画素のうち緑色の成分が最大輝度の４０パーセント以上６０パーセント未満の画素以外の画素のピクセルバリューは、ゼロに設定される。その後、緑色の成分が０パーセントから１００パーセントになるように、正規化される。

スライス部１１は、制御部２１で動作するプログラムにより実現されても、ハードウェアにより実現されても良い。以下の説明においては、スライス部１１がプログラムにより実現される場合を例にして説明する。

なお、ニューラルネットワークシステム１０には全画素のピクセルバリューを正規化した入力画像４１が入力されることが望ましい。入力画像４１を正規化しておくことで、スライス部１１から出力される各スライス画像４２に入力画像４１に含まれる情報が反映される。その結果、ストリーム１２の機能が十分に発揮される。以下の説明においては、正規化されていない入力画像４１が入力された場合に、正規化の処理を行なった後にニューラルネットワークシステム１０に入力するプログラムの例を説明する。具体的な正規化の処理については後述する。

図５は、ストリーム１２の概要を説明する説明図である。ストリーム１２は、コンボリューション層１２１とプーリング層１２２との繰り返しを複数組含む。ストリーム１２に入力されたスライス画像４２から、１次元の特徴ベクトル４３が抽出される。

ニューラルネットワークシステム１０に含まれる複数のストリーム１２には、それぞれ同数のコンボリューション層１２１とプーリング層１２２とが含まれていても、異なる数のコンボリューション層１２１とプーリング層１２２とが含まれていても良い。

ストリーム１２の一部または全部は、たとえばＶＧＧ１６、ＶＧＧ１９またはＲｅｓＮｅｔ等の、公知の学習済モデルに含まれるコンボリューション層およびプーリング層であってもよい。ストリーム１２の一部または全部は、これらの公知の学習済モデルに含まれるコンボリューション層およびプーリング層に追加で学習させた層であってもよい。

図６は、ストリーム１２の変形例の概要を説明する説明図である。変形例のストリーム１２は、プーリング層１２２の出力と、次のプーリング層１２２の出力とを接続するスキップコネクション１７を有する。

１つのストリーム１２は、複数のスキップコネクション１７を有してもよい。ニューラルネットワークシステム１０に、スキップコネクション１７を有するストリーム１２と、スキップコネクション１７を有さないストリーム１２とが含まれていてもよい。

図７は、結合特徴ベクトル生成層１６の概要を説明する説明図である。結合特徴ベクトル生成層１６は、それぞれのストリーム１２により抽出された複数の特徴ベクトル４３を結合して、一つの結合特徴ベクトル４４を生成する。図７において二点鎖線で囲んで示す［Ａ₁，Ａ₂，Ａ₃ ‥‥‥］^T、［Ｂ₁，Ｂ₂，Ｂ₃ ‥‥‥］^T等は、それぞれ一つのストリーム１２から出力された特徴ベクトル４３を示す。

それぞれの特徴ベクトル４３に「０」の成分を加えて次元をそろえた後に加算することにより、すべての特徴ベクトル４３を結合した結合特徴ベクトル４４が生成される。結合特徴ベクトル生成層１６は、制御部２１で動作するプログラムにより実現されても、ハードウェアにより実現されても良い。以下の説明においては、結合特徴ベクトル生成層１６がプログラムにより実現される場合を例にして説明する。

ニューラルネットワークシステム１０は、バッチノーマライズ層を有してもよい。たとえば、ストリーム１２を構成する一部のコンボリューション層１２１とプーリング層１２２との間に、バッチノーマライズ層を配置できる。バッチノーマライズ層を設けることにより、迅速に学習可能なニューラルネットワークシステム１０を実現できる。

機械学習によりストリーム１２および全結合層１３のパラメータが十分に調整された後に、ニューラルネットワークシステム１０全体が調整済のパラメータを用いたハードウェアにより構成されても良い。

図８は、プログラムの処理の流れを説明するフローチャートである。制御部２１は、入力画像４１に対応する画像データを取得する（ステップＳ５０１）。入力画像４１は、たとえば補助記憶装置２３に記憶されている。制御部２１は、ネットワークを介して外部から入力画像４１を取得しても良い。制御部２１は、図示を省略するカメラから入力画像４１を取得しても良い。入力画像４１は、動画であっても良い。入力画像４１が動画である場合には、制御部２１は１フレームごとに以後に示す処理を実行する。

制御部２１は、スライス画像生成のサブルーチンを起動する（ステップＳ５０２）。スライス画像生成のサブルーチンは、入力画像４１から複数のスライス画像４２に対応する画像データを生成するサブルーチンである。制御部２１は、スライス画像生成のサブルーチンによりスライス部１１の機能を実現する。

制御部２１は、それぞれのスライス画像４２をストリーム１２に入力して特徴ベクトル４３を抽出する（ステップＳ５０３）。制御部２１は、複数のステップＳ５０３を並列で処理する。制御部２１は、複数のステップＳ５０３を１個ずつ順番に処理しても良い。制御部２１は、ステップＳ５０３によりストリーム１２の機能を実現する。

制御部２１は、図７を使用して説明したように、それぞれのスライス画像４２から抽出された特徴ベクトル４３を結合して、結合特徴ベクトル４４を生成する（ステップＳ５０４）。

制御部２１は、結合特徴ベクトル４４を全結合層１３に入力して、出力を取得する（ステップＳ５０５）。制御部２１は、全結合層１３の出力をソフトマックス層１４に入力して、入力画像４１が各ラベルに対応する確率を示す推定結果４６を取得する（ステップＳ５０６）。

制御部２１は、出力部２５から推定結果４６を出力する（ステップＳ５０７）。たとえば制御部２１は、推定結果４６から確率が最も大きいラベルを抽出して出力する。制御部２１は推定結果４６から所定の閾値を超える確率を示すラベルを抽出して出力しても良い。その後、制御部２１は処理を終了する。

なお、結合特徴ベクトル生成層１６以降のネットワーク構成は例示であり、これに限定されるものではない。

確率の数値を出力する必要がなく、確率が最も大きいラベルを抽出して出力する場合には、ソフトマックス層１４は存在しなくても良い。制御部２１は、全結合層１３の出力のうち、最も大きい出力に対応するラベルを出力することにより、確率が最も大きいラベルを出力できる。

同様に、推定結果４６から確率が大きい方から所定数のラベルを抽出して出力する場合にも、ソフトマックス層１４は存在しなくても良い。全結合層１３の出力のうち、制御部２１は、大きい方から所定数の出力に対応するラベルを出力することにより、確率が大きい方から所定数のラベルを出力できる。

制御部２１は、全結合層１３を使用する代わりに、結合特徴ベクトル生成層１６から出力された結合特徴ベクトル４４の回帰分析等の任意の手法に基づく演算を行ない、推定結果を出力しても良い。

全結合層１３に、結合特徴ベクトル生成層１６から出力される結合特徴ベクトル４４に加えて、他のＣＮＮ（Convolutional Neural Network）等を用いて音声またはテキストから抽出された任意の特徴ベクトルが入力されても良い。前述のとおり、それぞれのストリーム１２のコンボリューション層１２１およびプーリング層１２２の数は異なっていても良い。そのほか、それぞれのストリーム１２は、異なるネットワークであってもよい。

たとえば、入力画像４１から抽出された結合特徴ベクトル４４と、入力画像４１の撮影時に録音された音声から抽出された音声特徴ベクトルとを、全結合層１３に入力することにより、推定結果４６の精度を高めることができる。

動画から１フレーム分のデータを抽出して入力画像４１を生成しても良い。入力が動画である場合、結合特徴ベクトル４４と、動画から抽出された動きベクトルとを、全結合層１３に入力してもよい、被写体がユーザからの動作指令に基づいて動作するロボット等である場合、結合特徴ベクトル４４と、被写体に対する動作指令とを、全結合層１３に入力してもよい。

車両またはロボット等の移動体に搭載したカメラを用いて動画を撮影した場合、結合特徴ベクトル４４と、移動体に対する動作指令とを、全結合層１３に入力してもよい。動画に撮影された被写体に関する推定結果４６の精度を高めることができる。なお、全結合層１３へ入力するデータは、上記の例示に限定されない。

図９は、スライス画像生成のサブルーチンの処理の流れを説明するフローチャートである。スライス画像生成のサブルーチンは、入力画像４１から複数のスライス画像４２を生成するサブルーチンである。

制御部２１は、処理中の入力画像４１のコピー画像を作成する（ステップＳ５１０）。以後の処理は、コピー画像に対して実行される。制御部２１はコピー画像を構成する全画素のピクセルバリューを正規化する（ステップＳ５１１）。

白黒画像等、１つの色の濃淡で表現された画像を正規化する場合を例にして説明を続ける。正規化は、たとえば（１）式に基づいて行う。

Ｉ（ｘ，ｙ）は、座標（ｘ，ｙ）の画素のピクセルバリューである。
Ｓ（ｘ，ｙ）は、座標（ｘ，ｙ）の画素の正規化後のピクセルバリューである。
Ｉmaxは、コピー画像を構成する画素の最大値である。
Ｉminは、コピー画像を構成する画素の最小値である。
Ａは、スライス画像の階調数である。

カラー画像等の、それぞれの画素が複数の成分を有する画像を正規化する場合には、それぞれの成分を（１）式により正規化できる。たとえば、各画素がＲＧＢの３色の成分を有するカラー画像である場合、Ｒ成分、Ｇ成分、Ｂ成分をそれぞれ独立して正規化する。

（１）式は正規化する方法の一例である。制御部２１は、ガンマカーブに相当する係数を積算する、または、所定の変換テーブルを用いてピクセルバリューを変換する等の、任意の方法によりコピー画像のピクセルバリューを正規化できる。

制御部２１は、スライス条件ＤＢ６１から１つのレコードに記載されたスライス条件を取得する（ステップＳ５１２）。制御部２１は、コピー画像を構成する一画素のピクセルバリューを取得する（ステップＳ５１３）。

制御部２１は、ステップＳ５１３で取得したピクセルバリューがステップＳ５１２で取得した条件に合致するか否かを判定する（ステップＳ５１４）。合致しないと判定した場合（ステップＳ５１４でＮＯ）、制御部２１は処理中の画素のピクセルバリューを０にする（ステップＳ５１５）。

条件に合致すると判定した場合（ステップＳ５１４でＹＥＳ）、またはステップＳ５１５の終了後、制御部２１はコピー画像を構成する全画素の処理を終了したか否かを判定する（ステップＳ５１６）。終了していないと判定した場合（ステップＳ５１６でＮＯ）、制御部２１はステップＳ５１３に戻る。

ステップＳ５１３からステップＳ５１６までの処理の繰り返しにより、ステップＳ５１０で作成したコピー画像が、ステップＳ５１２で取得したレコードに対応するスライス画像４２に変換される。全画素の処理を終了したと判定した場合（ステップＳ５１６でＹＥＳ）、制御部２１はスライス画像４２を補助記憶装置２３に記録する（ステップＳ５１７）。

制御部２１は、スライス条件ＤＢ６１に記録された全条件の処理を終了したか否かを判定する（ステップＳ５１８）。終了していないと判定した場合（ステップＳ５１８でＮＯ）、制御部２１はステップＳ５１０に戻る。終了したと判定した場合（ステップＳ５１８でＹＥＳ）、制御部２１は処理を終了する。

マルチコアＣＰＵ等の並列処理が可能な制御部２１を使用する場合、制御部２１はステップＳ５１３からステップＳ５１６までのループ、または、ステップＳ５１０からステップＳ５１８までのループを並列して複数実行しても良い。プログラムの実行速度を高速化できる。

図１０は、スライス画像生成のサブルーチンの変形例の処理の流れを説明するフローチャートである。本変形例においては、制御部２１は入力画像４１を構成する画素ごとに、どのスライス条件に対応するかを判定する。

制御部２１は、処理中の入力画像４１のコピー画像を、スライス条件ＤＢ６１に記録されたレコードの数と同数、すなわち作成するスライス画像と同数作成する（ステップＳ５５０）。制御部２１は、それぞれのコピー画像と、スライス条件ＤＢ６１の番号フィールドに記録されているスライス条件の番号とを関連づけて、主記憶装置２２または補助記憶装置２３に一時的に記録する。以後の処理は、それぞれのコピー画像に対して実行される。

制御部２１は、それぞれのコピー画像を構成する全画素のピクセルバリューを正規化する（ステップＳ５５１）。正規化は、たとえば前述の（１）式に基づいて行う。制御部２１は、コピー画像を構成する未処理の一画素のピクセルバリューを取得する（ステップＳ５５２）。未処理の画素であるため、ステップＳ５５２で取得するピクセルバリューは、ステップＳ５５１で作成したすべてのコピー画像において共通である。

制御部２１は、スライス条件ＤＢ６１から１つのレコードに記載されたスライス条件を取得する（ステップＳ５５３）。制御部２１は、ステップＳ５５２で取得したピクセルバリューがステップＳ５５３で取得した条件に合致するか否かを判定する（ステップＳ５５４）。

合致しないと判定した場合（ステップＳ５５４でＮＯ）、制御部２１はステップＳ５５３で取得したスライス条件に対応するコピー画像を選択する（ステップＳ５５５）。制御部２１は、ステップＳ５５５で選択したコピー画像のうち、処理中の画素のピクセルバリューを０にする（ステップＳ５５６）。

条件に合致すると判定した場合（ステップＳ５５４でＹＥＳ）、またはステップＳ５５６の終了後、制御部２１はスライス条件ＤＢ６１に記録されたすべてのスライス条件の処理を終了したか否かを判定する（ステップＳ５５７）。終了していないと判定した場合（ステップＳ５５７でＮＯ）、制御部２１はステップＳ５５３に戻る。

終了したと判定した場合（ステップＳ５５７でＹＥＳ）、制御部２１はすべての画素の処理を終了したか否かを判定する（ステップＳ５５８）。終了していないと判定した場合（ステップＳ５５８でＮＯ）、制御部２１はステップＳ５５２に戻る。

終了したと判定した場合（ステップＳ５５８でＹＥＳ）、制御部２１は処理を終了した１枚のコピー画像を選択する（ステップＳ５５９）。制御部２１はスライス画像４２を補助記憶装置２３に記録する（ステップＳ５６０）。制御部２１は、すべてのコピー画像の処理を終了したか否かを判定する（ステップＳ５６１）。終了していないと判定した場合（ステップＳ５６１でＮＯ）、制御部２１はステップＳ５５９に戻る。終了したと判定した場合（ステップＳ５６１でＹＥＳ）、制御部２１は処理を終了する

マルチコアＣＰＵ等の並列処理が可能な制御部２１を使用する場合、制御部２１はステップＳ５５３からステップＳ５５７までのループ、または、ステップＳ５５２からステップＳ５５８までのループを並列して複数実行しても良い。プログラムの実行速度を高速化できる。

図１の推定結果４６に示す「車」、「鳥」、「虎」等のラベルは例示であり、これに限定するものではない。たとえば、入力画像４１は人物の画像であり、推定結果４６は「年齢」、「性別」、「職業」等の属性を示すラベルであっても良い。入力画像４１は人物の画像であり、推定結果４６は、「上機嫌」、「怒り」、「悲しみ」等の感情を示すラベルであっても良い。

ノイズが重畳した画像を用いて機械学習を行なった場合の効果については、実施の形態２の説明の後に説明する。

［実施の形態２］
本実施の形態は、ニューラルネットワークシステム１０の機械学習を行なうプログラムに関する。実施の形態１と共通する部分については、説明を省略する。

図１１は、学習データＤＢのレコードレイアウトを説明する説明図である。学習データＤＢは、画像と、ラベルと、カテゴリとを関連づけて記録したデータベースであり、ニューラルネットワークシステム１０の学習およびテストに使用される。学習データＤＢに記録された学習データは、訓練データまたは教師データと呼ばれる場合もある。同様に学習データＤＢは、訓練データＤＢまたは教師データＤＢと呼ばれる場合もある。

学習データＤＢは、画像データフィールド、ラベルフィールド、およびカテゴリフィールドを有する。画像データフィールドは、第１スライス画像フィールド、第２スライス画像フィールド等のサブフィールドを有する。

画像データフィールドの各サブフィールドには、スライス画像４２に対応する画像データが記録されている。画像データフィールドの各サブフィールドに記録されるスライス画像４２のセットは、たとえば図９または図１０を使用して説明したスライス画像生成のサブルーチンに元画像を入力することにより生成できる。スライス画像４２のセットは、ＧＰＵにより生成されてもよい。スライス画像４２のセットは、スライス画像４２の生成用にカスタマイズされたＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェアを用いて生成されてもよい。

ラベルフィールドには、それぞれの元画像に関連付けられたラベルが記録されている。ラベルは、たとえば整数である。カテゴリフィールドには、それぞれの元画像に関連づけられたカテゴリが記録されている。

なお、図１１に示す学習データＤＢは一例である。ニューラルネットワークシステム１０は、図１１に示す学習データＤＢとは異なる学習データを用いて生成し、テストすることも可能である。

図１２は、実施の形態２のプログラムの処理の流れを説明するフローチャートである。本実施の形態では、情報処理装置２０を用いて機械学習を行なう場合を例にして説明する。図１２のプログラムは情報処理装置２０とは別のハードウェアで実行され、機械学習が完了したニューラルネットワークシステム１０が補助記憶装置２３に複写されても良い。一つのハードウェアで学習させたニューラルネットワークシステム１０を、複数の情報処理装置２０で使用できる。

図１２のプログラムの実行に先立ち、図１を使用して説明した構成を備えるニューラルネットワークモデルが準備されている。図１２のプログラムにより、準備されたニューラルネットワークモデルの各パラメータが調整される。

制御部２１は、学習データＤＢから１エポックの学習に使用する学習レコードを取得する（ステップＳ５２１）。１エポックの学習に使用する学習レコードの数は、いわゆるハイパーパラメータであり、適宜定められている。

制御部２１は、図１を使用して説明したそれぞれのストリーム１２に学習レコードに記録されたスライス画像４２が入力された場合に、ソフトマックス層１４から正解ラベルが出力されるように、ストリーム１２および全結合層１３のパラメータを調整する（ステップＳ５２２）。

制御部２１は、処理を終了するか否かを判定する（ステップＳ５２３）。たとえば、制御部２１は所定のエポック数の学習を終了した場合に、処理を終了すると判定する。制御部２１は、学習データＤＢからテストデータを取得してニューラルネットワークシステム１０に入力し、所定の精度の出力が得られた場合に処理を終了すると判定しても良い。

処理を終了しないと判定した場合（ステップＳ５２３でＮＯ）、制御部２１はステップＳ５２１に戻る。処理を終了すると判定した場合（ステップＳ５２３でＹＥＳ）、制御部２１は学習済のニューラルネットワークシステム１０のパラメータを補助記憶装置２３に記録する（ステップＳ５２４）。その後、制御部２１は処理を終了する。以上の処理により、学習済のニューラルネットワークシステム１０が生成される。

なお、学習データＤＢには元画像のみが記録されていても良い。そのようにする場合には、制御部２１は機械学習を行なう都度スライス画像生成のサブルーチンを起動してスライス画像４２を生成する。ストリーム１２の数を適宜変更したニューラルネットワークシステム１０を生成できる。

［シミュレーション例－１］
本実施の形態のニューラルネットワークシステム１０の効果を説明する第１のシミュレーションについて説明する。図１３は、シミュレーション例－１で用いる画像ノイズの例を説明する説明図である。図１３Ａは、入力画像４１の例を示す。図１３Ｂおよび図１３Ｃは、入力画像４１に黒点ノイズをランダムに重畳させたノイズ重畳画像４９の例を示す。図１３Ｂにおいては、入力画像４１の面積の３０パーセントが黒点ノイズに覆われており、ノイズ量は３０パーセントである。図１３Ｃにおいては、入力画像４１の面積の５０パーセントが黒点ノイズに覆われており、ノイズ量は５０％である。

図１４は、テストデータに重畳したノイズ量による精度の相違をシミュレーションした結果を示すグラフである。図１４の横軸は、機械学習の学習回数を示すエポック数である。エポック数が大きいほど、ニューラルネットワークシステム１０の学習回数が多いことを意味する。図１４の縦軸は、学習後のニューラルネットワークシステム１０の精度である。

６本のプロットは、ニューラルネットワークシステム１０の精度評価に使用するテストデータおよびニューラルネットワークシステム１０の構造の相違を示す。各プロットの意味を、表１に示す。なお、以下の説明においては、スライスＤＢ６１において赤色、緑色、青色をそれぞれｎ個に等分する場合を例にして説明する。ストリーム１２の数は、ｎで示す。すなわち、図３に例示するスライスＤＢ６１は、５個のストリーム１２を有するニューラルネットワークシステム１０と組み合わせて使用される。

なお、入力画像はＲＧＢ画像に限定しない。前述のとおり、入力画像は白黒画像であっても良い。入力画像は、たとえば、ＣＹＭＫ（Cyan, Magenta, Yellow, Key plate）画像であってもよい。入力画像は、可視光領域に加えて赤外線領域等の不可視光領域を含む多成分画像であってもよい。

各プロットは、ノイズを含まない入力画像４１を用いて横軸に示すエポック数の学習を行なったニューラルネットワークシステム１０に、表１で示す条件のノイズを重畳したテストデータを入力し、出力ラベルの正解率を算出した結果を示す。

具体的には、太い実線および細い実線は、訓練データＤＢから選択された画像データをそのままテストデータに使用した場合の結果を示す。太い破線および細い破線は、訓練ＤＢから選択された画像データに３０％のノイズを重畳したテストデータを使用した場合の結果を示す。太い二点鎖線および細い二点鎖線は、訓練ＤＢから選択された画像データに３０％のノイズを重畳したテストデータを使用した場合の結果を示す。

なお、ｎ＝１である場合には、ニューラルネットワークシステム１０は複数のストリーム１２を備えない従来のＣＮＮと同等である。したがって、ｎ＝１である場合を比較例に使用することにより、本実施の形態のニューラルネットワークシステム１０の効果が示される。

太い実線と細い実線とを比較した場合、いずれもエポック数５０回程度で６０パーセント程度の精度が得られる。すなわち、テストデータにノイズが重畳していない場合には、ストリーム１２を複数使うことによる効果はみられない。

太い破線の精度は５０パーセント程度であり、細い破線の精度は３０パーセント程度である。したがってテストデータに３０パーセントのノイズが重畳している場合には、５個のストリーム１２を使用することにより、比較例に比べて約１．７倍の精度が得られている。

太い二点鎖線の精度は４０％程度であり、細い二点鎖線の精度は２０パーセント程度である。したがってテストデータに５０パーセントのノイズが重畳している場合には、５個のストリーム１２を使用することにより、比較例に比べて約２倍の精度が得られている。

以上により、本実施の形態のニューラルネットワークシステム１０は、入力画像４１にノイズが重畳している場合でも、高い精度の結果を出力する。

［シミュレーション例－２］
本実施の形態のニューラルネットワークシステム１０の効果を説明する第２のシミュレーションについて説明する。図１５は、シミュレーション例－２で用いる画像ノイズの例を説明する説明図である。シミュレーション例－１と共通する部分については、説明を省略する。

図１５Ａは、適正な条件で撮影された入力画像４１の例を示す。図１５Ｂは、図１５Ａに画像処理を施して、暗い画像を模擬した入力画像４１の例を示す。図１５Ｂは、たとえば曇りの日、または、夜などに撮影された低輝度の画像を模擬している。

図１６は、画像の輝度による精度の相違をシミュレーションした結果を示すグラフである。図１６の横軸は、機械学習の学習回数を示すエポック数である。図１６の縦軸は、学習後のニューラルネットワークシステム１０の精度である。

本シミュレーション例においては、適正な条件で撮影された画像を学習データに使用して機械学習を行なう。４本のプロットは、ニューラルネットワークシステム１０の構造、および、精度の評価に用いた入力画像４１の相違を示す。各プロットの意味を、表２に示す。

太い実線と細い実線とを比較した場合、エポック数７０回程度まではストリームが６個の方が高い精度が得られる。エポック数が８０回を超えた場合、ストリーム１２の数による精度の相違はみられない。すなわち、適正な輝度の画像に関しては、十分なエポック数の機械学習を行えばストリーム１２を複数使うことによる効果はみられない。

太い破線および細い破線で示すように、エポック数が７０回程度までは、暗い入力画像４１をテストデータに使用した場合には、適正な輝度の入力画像４１をテストデータに使用した場合に比べて５０パーセント程度精度が低下する。暗い画像に関しては、エポック数が８０回を超えていても、複数のストリーム１２を使用した場合に、比較例に比べて約１０パーセント程度の高い精度が得られている。

すなわち、複数のストリーム１２を使用して、十分なエポック数の学習を行なうことにより、暗い入力画像４１を入力した場合に、比較例に比べて高精度な判定を行なえる。

［シミュレーション例－３］
本実施の形態のニューラルネットワークシステム１０の効果を説明する第３のシミュレーションについて説明する。

図１７から図１９は、画像に重畳したノイズの種類による精度の相違をシミュレーションした結果を示すグラフである。図１７から図１９の横軸は、機械学習の学習回数を示すエポック数である。図１７から図１９の縦軸は、学習後のニューラルネットワークシステム１０の精度である。

図１７から図１９の各プロットは、ノイズを含まない入力画像４１を用いて横軸に示すエポック数の学習を行なったニューラルネットワークシステム１０に、それぞれの種類のノイズを重畳したテストデータを入力し、出力ラベルの正解率を算出した結果を示す。太い実線はストリーム数が５個の場合の精度を、細い実線はストリーム数が１個の場合の精度をそれぞれ示す。

図１７は、テストデータに霧状（Ｆｏｇｃｏｒｒｕｐｔｉｏｎ）のノイズが重畳した例を示す。図１８は、テストデータに霜状（Ｆｒｏｓｔｃｏｒｒｕｐｔｉｏｎ）ノイズが重畳した例を示す。図１９は、テストデータにガウシアンノイズ（ＧａｕｓｓｉａｎＮｏｉｓｅ）が重畳した例を示す。画像にそれぞれのタイプのノイズを重畳する方法は公知であるため、説明を省略する。

なお、図１７～図１９は、画像に重畳するノイズの影響をシミュレーションした結果の例示である。図示を省略するが、これらの３種類以外のノイズを重畳させてシミュレーションした場合であっても、同様の結果が得られている。

いずれの種類のノイズを重畳した場合であっても、複数のストリーム１２を使う方が高い精度が得られている。

本実施の形態によると、ノイズの影響を受けにくいニューラルネットワークシステム１０を提供できる。本実施の形態によると、暗い入力画像４１に対しても比較的精度の高い判定を行なうニューラルネットワークシステム１０を提供できる。

［実施の形態３］
本実施の形態は、スライス画像４２を作成する条件の一部が重複しているニューラルネットワークシステム１０に関する。実施の形態１と共通する部分については、説明を省略する。

図２０は、実施の形態３のスライス条件ＤＢ６１のレコードレイアウトを説明する説明図である。本実施の形態のスライス条件ＤＢ６１のフィールド構成は、図３を使用して説明した実施の形態１のスライス条件ＤＢ６１のフィールド構成と同様であるため、説明を省略する。

たとえば、図２０の番号１では、入力画像４１を構成する画素のうち、赤色の成分が最大輝度の８０パーセント以上１００パーセント以下の画素を選択することが規定されている。番号２では、入力画像４１を構成する画素のうち、赤色の成分が最大輝度の６０パーセント以上８５パーセント未満の画素を選択することが規定されている。

したがって、番号１のレコードに規定された条件と、番号２のレコードに規定された条件とで、赤色の成分が８０パーセント以上８５パーセント未満の範囲は重複している。重複した範囲を満たす画素は、番号１のレコードに対応するスライス画像４２と、番号２のレコードに対応するスライス画像４２との両方に含まれる。

本実施の形態によると、スライス画像４２を生成する条件の一部が重複していることにより、さらにノイズの影響を受けにくいニューラルネットワークシステム１０を提供できる。

［実施の形態４］
本実施の形態は、追加層１５を有するニューラルネットワークシステム１０に関する。実施の形態１と共通する部分については、説明を省略する。

図２１は、実施の形態４のニューラルネットワークシステム１０の概要を説明する説明図である。本実施の形態のニューラルネットワークシステム１０は、それぞれのストリーム１２に追加層１５が接続されている。それぞれの追加層１５は、結合特徴ベクトル生成層１６に接続されている。

追加層１５は、機械学習により学習可能なパラメータを有する。追加層１５は、たとえば
ｙ（ｘ）＝α・ｘ
αは、学習可能なパラメータ
の式で表現されるＬＡ（Linear Activation layer）である。

追加層１５は、シグモイド関数、ステップ関数、またはＲｅＬｕ関数等の任意の関数を用いた活性化層であっても良い。複数の追加層１５のそれぞれに、異なる関数が用いられていても良い。追加層１５は、一部のストリーム１２のみに接続されており、他の追加層１５は結合特徴ベクトル生成層１６に直接接続されていても良い。

追加層１５のパラメータは、ストリーム１２および全結合層１３のパラメータと同時に、機械学習により定められる。すなわち、ストリーム１２および全結合層１３の機械学習と同時に、追加層１５の機械学習も行われる。機械学習によって調整された追加層１５のパラメータは、ストリーム１２および全結合層１３のパラメータと同様に記録される。

本実施の形態によると、ノイズの影響を受けにくいニューラルネットワークシステム１０を提供できる。

［実施の形態５］
本実施の形態は、入力画像４１を座標に基づいてスライスするニューラルネットワークシステム１０に関する。実施の形態１と共通する部分については、説明を省略する。

図２２は、実施の形態５のスライス部１１の概要を説明する説明図である。図２２は、１枚の入力画像４１を縦横それぞれ４分割して、１６枚のスライス画像４２を生成するスライス部１１の例を示す。入力画像４１中の位置と、スライス画像４２との対応付けを、丸で囲んだ数字で示す。入力画像４１およびスライス画像４２に、丸で囲んだ数字を含む必要はない。

図２３は、実施の形態５のスライス条件ＤＢ６１のレコードレイアウトを説明する説明図である。本実施の形態のスライス条件ＤＢ６１は、番号フィールドおよび条件フィールドを有する。条件フィールドは、第１座標フィールドおよび第２座標フィールドを有する。番号フィールドには、条件の番号が記録されている。

以下の説明では、画像の座標は原点（０、０）を左上にし、横軸は右側が正であり、縦軸は下側が正である場合を例に説明する。第１座標フィールドには、入力画像４１を座標に基づいてスライスする際の左上の座標がピクセル単位で記録されている。第２座標フィールドには、入力画像４１を座標に基づいてスライスする際の右下の座標がピクセル単位で記録されている。

たとえば、図２３の番号１は、入力画像４１を構成する画素のうち、左上の座標（０、０）および右下の座標（１１０、１００）の２つの座標で規定した長方形の範囲の画素を選択することが規定されている。図２３の各レコードは例示であり、これに限定するものではない。

図２３に示す例においては、左右方向では隣接するスライス同士が重複しており、上下方向では隣接するスライス同士が重複していない。左右方向および上下方向のいずれにおいても、隣接するスライス同士が重複していても良い。左右方向および上下方向のいずれにおいても、隣接するスライス同士が重複していなくても良い。

スライス条件ＤＢ６１のレコード数に対応する数のストリーム１２を有するニューラルネットワークシステム１０が用意されて、機械学習によりパラメータが決定される。

スライス条件ＤＢ６１の各レコードで選択されるスライス画像４２の画素数は、レコードごとに異なっていても良い。それぞれのスライス画像４２の画素数に対応する数の入力ノードを有するストリーム１２が用意されて、機械学習によりパラメータが決定される。

本実施の形態によると、大きな入力画像４１を処理可能なニューラルネットワークシステム１０を提供できる。

［実施の形態６］
図２４は、実施の形態６の情報処理装置２０の機能ブロック図である。情報処理装置２０は、画像取得部８１、スライス画像生成部８２、複数の特徴ベクトル抽出部８３、結合特徴ベクトル生成部８４および出力部８５を有する。複数の特徴ベクトル抽出部８３は、互いに並列に接続されている。

画像取得部８１は、画像データを取得する。スライス画像生成部８２は、画像取得部８１が取得した画像データに基づいて複数のスライス画像データを生成する。特徴ベクトル抽出部８３は、スライス画像生成部８２が生成したそれぞれのスライス画像データの特徴ベクトル４３を抽出する。

結合特徴ベクトル生成部８４は、複数の特徴ベクトル抽出部８３がそれぞれ抽出した特徴ベクトル４３を結合して、一つの結合特徴ベクトル４４を生成する。出力部８５は、結合特徴ベクトル生成部８４が生成した結合特徴ベクトル４４を全結合層１３に入力して、全結合層１３から出力される推定結果４６を出力する。

［実施の形態７］
本実施の形態は、汎用のコンピュータ９０とプログラム９７とを組み合わせて動作させることにより、本実施の形態の情報処理装置２０を実現する形態に関する。図２５は、実施の形態７の情報処理装置２０の構成を示す説明図である。実施の形態１と共通する部分については、説明を省略する。

本実施の形態の情報処理装置２０は、コンピュータ９０を含む。コンピュータ９０は、制御部２１、主記憶装置２２、補助記憶装置２３、通信部２４、出力部２５、入力部２６、読取部２９およびバスを備える。コンピュータ９０は、汎用のパーソナルコンピュータ、タブレットまたはサーバコンピュータ等の情報機器である。

プログラム９７は、可搬型記録媒体９６に記録されている。制御部２１は、読取部２９を介してプログラム９７を読み込み、補助記憶装置２３に保存する。また制御部２１は、コンピュータ９０内に実装されたフラッシュメモリ等の半導体メモリ９８に記憶されたプログラム９７を読出しても良い。さらに、制御部２１は、通信部２４および図示しないネットワークを介して接続される図示しない他のサーバコンピュータからプログラム９７をダウンロードして補助記憶装置２３に保存しても良い。

プログラム９７は、コンピュータ９０の制御プログラムとしてインストールされ、主記憶装置２２にロードして実行される。これにより、コンピュータ９０は上述した情報処理装置２０として機能する。

各実施例で記載されている技術的特徴（構成要件）はお互いに組合せ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものでは無いと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１０ニューラルネットワークシステム
１１スライス部
１２ストリーム
１２１コンボリューション層
１２２プーリング層
１３全結合層
１４ソフトマックス層
１５追加層
１６結合特徴ベクトル生成層
１７スキップコネクション
１９学習モデル
２０情報処理装置
２１制御部
２２主記憶装置
２３補助記憶装置
２４通信部
２５出力部
２６入力部
２９読取部
４１入力画像（画像データ）
４２スライス画像
４３特徴ベクトル
４４結合特徴ベクトル
４６推定結果
４９ノイズ重畳画像
６１スライス条件ＤＢ
８１画像取得部
８２スライス画像生成部
８３特徴ベクトル抽出部
８４結合特徴ベクトル生成部
８５出力部
９０コンピュータ
９６可搬型記録媒体
９７プログラム
９８半導体メモリ

Claims

画像データを取得し、
取得した前記画像データを複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより、複数のスライス画像データを生成し、
コンボリューション層とプーリング層とを繰り返して構成した複数のストリームが相互に並列に配置されており、複数の前記ストリームのそれぞれに生成した前記スライス画像データを入力することにより、複数の前記スライス画像データそれぞれの特徴ベクトルを抽出し、
抽出した複数の前記特徴ベクトルを結合して１つの結合特徴ベクトルを生成し、
生成した前記結合特徴ベクトルを全結合層に入力して、前記全結合層から出力される推定結果を出力する
処理をコンピュータに実行させるプログラム。
複数の前記ピクセルバリュー範囲は、一部が相互に重複している
請求項１に記載のプログラム。
前記全結合層に連結したソフトマックス層を介して前記推定結果を出力する
請求項１または請求項２に記載のプログラム。
抽出した前記特徴ベクトルを、学習可能なパラメータを有する追加層に入力して変換し、
変換した前記特徴ベクトルを結合して、前記結合特徴ベクトルを生成する
請求項１から請求項３のいずれか一つに記載のプログラム。
画像データを複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより生成された複数のスライス画像データそれぞれの特徴ベクトルを抽出する、相互に並列配置された複数のストリームと、
前記ストリームがそれぞれ抽出した複数の特徴ベクトルを結合した一つの特徴ベクトルが入力される全結合層と、
を備えるニューラルネットワークシステム。
前記ストリームと、前記全結合層との間に、学習可能なパラメータを有する追加層を備える
請求項５に記載のニューラルネットワークシステム。
前記ストリームは、スキップコネクションを有する
請求項５または請求項６に記載のニューラルネットワークシステム。
画像データを取得し、
取得した前記画像データを複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより、複数のスライス画像データを生成し、
コンボリューション層とプーリング層とを繰り返して構成した複数のストリームが相互に並列に配置されており、複数の前記ストリームのそれぞれに生成した前記スライス画像データを入力することにより、複数の前記スライス画像データそれぞれの特徴ベクトルを抽出し、
抽出した複数の前記特徴ベクトルを結合して１つの結合特徴ベクトルを生成し、
生成した前記結合特徴ベクトルを全結合層に入力して、前記全結合層から出力される推定結果を出力する
処理をコンピュータが実行する情報処理方法。
画像データを複数のピクセルバリュー範囲に基づいてそれぞれスライスすることにより生成された複数のスライス画像のセットとラベルとを関連づけて複数組記録した学習データを取得し、
複数のスライス画像データそれぞれの特徴ベクトルを抽出する、相互に並列配置された複数のストリーム、および、複数の前記ストリームがそれぞれ抽出した複数の特徴ベクトルを結合した一つの特徴ベクトルが入力される全結合層を備えるニューラルネットワークモデルを用意し、
前記学習データを用いて、前記セットを構成する複数の前記スライス画像のそれぞれを複数の前記ストリームのそれぞれに入力した場合に、前記画像データに関連するラベルの予測値を出力するように前記ニューラルネットワークモデルのパラメータを調整する
処理をコンピュータが実行するニューラルネットワークモデルの生成方法。