WO2022004815A1

WO2022004815A1 - ニューラルネットワーク生成装置、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラム

Info

Publication number: WO2022004815A1
Application number: PCT/JP2021/024836
Authority: WO
Inventors: 浩明冨田; ジョエルオーエンニコルズ
Original assignee: ＬｅａｐＭｉｎｄ株式会社
Priority date: 2020-06-30
Filing date: 2021-06-30
Publication date: 2022-01-06
Also published as: CN115702426A; US20230316071A1; JPWO2022004815A1

Abstract

ニューラルネットワーク生成装置は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報と、前記ニューラルネットワークのネットワーク情報と、に基づいて前記ニューラルネットワーク実行モデルを生成する実行モデル生成部と、生成された前記ニューラルネットワーク実行モデルの学習済みパラメータを生成する学習部と、を備える。

Description

ニューラルネットワーク生成装置、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラム

　本発明は、ニューラルネットワーク生成装置、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムに関する。本願は、２０２０年０６月３０日に、日本国に出願された特願２０２０－１１３３１５号に基づき優先権を主張し、その内容をここに援用する。

　近年、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

特開２０１８－０７７８２９号公報

　一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等が使用されている。組み込み機器において畳み込みニューラルネットワークを効率的に動作させるため、組み込み機器のハードウェア構成に合わせたニューラルネットワーク（モデルや回路）を生成する生成方法が望まれている。また、ニューラルネットワークを生成する過程において、組み込み機器の限られたハードウェア資源においてニューラルネットワークを高性能に動作させるニューラルネットワークの学習方法が望まれている。

　上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成するニューラルネットワーク生成装置、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムを提供することを目的とする。

　上記課題を解決するために、この発明は以下の手段を提案している。
　本発明の第一の態様に係るニューラルネットワーク生成装置は、ニューラルネットワーク生成装置は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報と、前記ニューラルネットワークのネットワーク情報と、に基づいて前記ニューラルネットワーク実行モデルを生成する実行モデル生成部と、生成された前記ニューラルネットワーク実行モデルの学習済みパラメータを生成する学習部と、を備える。

　本発明の第二の態様に係るニューラルネットワーク生成方法は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成方法であって、前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報を取得するハードウェア情報取得工程と、前記ニューラルネットワークのネットワーク情報を設定するネットワーク情報取得工程と、前記ハードウェア情報と前記ネットワーク情報とに基づいて、前記ニューラルネットワーク実行モデルを生成する実行モデル生成工程と、生成された前記ニューラルネットワーク実行モデルの学習パラメータを学習する学習工程と、を備える。

　本発明の第三の態様に係るニューラルネットワーク生成プログラムは、ニューラルネットワークを演算するニューラルネットワーク実行モデルをコンピュータに生成させるニューラルネットワーク生成プログラムであって、前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報をコンピュータに取得させるハードウェア情報取得工程と、前記ニューラルネットワークのネットワーク情報をコンピュータに設定させるネットワーク情報取得工程と、前記ハードウェア情報と前記ネットワーク情報とに基づいて、前記ニューラルネットワーク実行モデルをコンピュータに生成させる実行モデル生成工程と、生成された前記ニューラルネットワーク実行モデルの学習パラメータをコンピュータに学習させる学習工程と、を備える。

　本発明のニューラルネットワーク生成装置、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムは、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成できる。

第一実施形態に係るニューラルネットワーク生成装置を示す図である。同ニューラルネットワーク生成装置の演算部の入出力を示す図である。畳み込みニューラルネットワークの一例を示す図である。同畳み込みニューラルネットワークの畳み込み層が行う畳み込み演算を説明する図である。ニューラルネットワーク実行モデルの一例を示す図である。同ニューラルネットワーク生成装置の制御フローチャートである。同ニューラルネットワーク実行モデルの動作例を示すタイミングチャートである。同畳み込み演算のデータ分割やデータ展開を説明する図である。同ニューラルネットワーク実行モデルの他の動作例を示すタイミングチャートである。畳み込み演算の出力データをタイル分割した部分テンソルを示す図である。入力データをスライス分割した部分テンソルを示す図である。入力データをスライス分割した部分テンソルを示す図である。入力データをスライス分割した部分テンソルを示す図である。レイヤ２Ｍ＋１の畳み込み演算により部分テンソルを出力するために必要な他の部分テンソルを示す図である。生成される畳み込み演算回路の内部ブロック図である。同畳み込み演算回路の乗算器の内部ブロック図である。同乗算器の積和演算ユニットの内部ブロック図である。同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。同畳み込み演算回路の制御回路のステート遷移図である。生成される量子化演算回路の内部ブロック図である。同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。同ベクトル演算回路の演算ユニットのブロック図である。同量子化回路の量子化ユニットの内部ブロック図である。生成されるＤＭＡＣの内部ブロック図である。量子化演算におけるスケーリング係数を説明する図である。量子化演算におけるスケーリング係数を説明する図である。量子化演算におけるスケーリング係数を説明する図である。

（第一実施形態）
　本発明の第一実施形態について、図１から図２５を参照して説明する。
　図１は、本実施形態に係るニューラルネットワーク生成装置３００を示す図である。

［ニューラルネットワーク生成装置３００］
　ニューラルネットワーク生成装置３００は、ＩｏＴ機器などの組み込み機器に組み込み可能な学習済みのニューラルネットワーク実行モデル１００を生成する装置である。ニューラルネットワーク実行モデル１００は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を組み込み機器において演算させるために生成されたソフトウェアやハードウェアモデルである。

　ニューラルネットワーク生成装置３００は、ＣＰＵ（Central Processing Unit）等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置（コンピュータ）である。ニューラルネットワーク生成装置３００の機能は、ニューラルネットワーク生成装置３００においてニューラルネットワーク生成プログラムを実行することにより実現される。ニューラルネットワーク生成装置３００は、記憶部３１０と、演算部３２０と、データ入力部３３０と、データ出力部３４０と、表示部３５０と、操作入力部３６０と、を備える。

　記憶部３１０は、ハードウェア情報ＨＷと、ネットワーク情報ＮＷと、学習データセットＤＳと、ニューラルネットワーク実行モデル１００（以下、「ＮＮ実行モデル１００」という）と、学習済みパラメータＰＭと、を記憶する。ハードウェア情報ＨＷ、学習データセットＤＳおよびネットワーク情報ＮＷは、ニューラルネットワーク生成装置３００に入力される入力データである。ＮＮ実行モデル１００および学習済みパラメータＰＭは、ニューラルネットワーク生成装置３００が出力する出力データである。なお、「学習済みのＮＮ実行モデル１００」は、ＮＮ実行モデル１００および学習済みパラメータＰＭを含む。

　ハードウェア情報ＨＷは、ＮＮ実行モデル１００を動作させる組み込み機器（以降、「動作対象ハードウェア」という）の情報である。ハードウェア情報ＨＷは、例えば、動作対象ハードウェアのデバイス種別、デバイス制約、メモリ構成、バス構成、動作周波数、消費電力、製造プロセス種別などである。デバイス種別は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などの種別である。デバイス制約は、動作対象デバイスに含まれる演算器数の上限や回路規模の上限などである。メモリ構成は、メモリ種別やメモリ個数やメモリ容量や入出力データ幅である。バス構成は、バス種類、バス幅、バス通信規格、同一バス上の接続デバイスなどである。また、ＮＮ実行モデル１００に複数のバリエーションが存在する場合、ハードウェア情報ＨＷには使用するＮＮ実行モデル１００のバリエーションに関する情報が含まれる。

　ネットワーク情報ＮＷは、ＣＮＮ２００の基本情報である。ネットワーク情報ＮＷは、例えば、ＣＮＮ２００のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。

　学習データセットＤＳは、学習に用いる学習データＤ１と、推論テストに用いるテストデータＤ２と、を有する。

　図２は、演算部３２０の入出力を示す図である。
　演算部３２０は、実行モデル生成部３２１と、学習部３２２と、推論部３２３と、ハードウェア生成部３２４と、を有する。演算部３２０に入力されるＮＮ実行モデル１００は、ニューラルネットワーク生成装置３００以外の装置で生成されたものであってもよい。

　実行モデル生成部３２１は、ハードウェア情報ＨＷおよびネットワーク情報ＮＷに基づいてＮＮ実行モデル１００を生成する。

　学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。推論部３２３は、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。

　ハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。ニューラルネットワークハードウェアモデル４００は、動作対象ハードウェアに実装可能なハードウェアモデルである。ニューラルネットワークハードウェアモデル４００は、ハードウェア情報ＨＷに基づいて、動作対象ハードウェアに最適化されている。ニューラルネットワークハードウェアモデル４００は、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。ニューラルネットワークハードウェアモデル４００は、ＮＮ実行モデル１００をハードウェアに実装するために必要なパラメータリストやコンフィグレーションファイルであってもよい。パラメータリストやコンフィグレーションファイルは別途生成されたＮＮ実行モデル１００と組み合わせて使用される。

　データ入力部３３０には、学習済みのＮＮ実行モデル１００を生成するために必要なハードウェア情報ＨＷやネットワーク情報ＮＷ等が入力される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報ＨＷやネットワーク情報ＮＷ等は、記憶部３１０に記憶される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、操作入力部３６０から使用者により入力または変更されてもよい。

　データ出力部３４０には、生成された学習済みのＮＮ実行モデル１００が出力される。例えば、生成されたＮＮ実行モデル１００と、学習済みパラメータＰＭとがデータ出力部３４０に出力される。

　表示部３５０は、ＬＣＤディスプレイ等の公知のモニタを有する。表示部３５０は、演算部３２０が生成したＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部３２０が使用者からの情報入力を必要とする場合、表示部３５０は操作入力部３６０から情報を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示できる。

　操作入力部３６０は、使用者が演算部３２０等に対しての指示を入力する装置である。操作入力部３６０は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部３６０の入力は、演算部３２０に送信される。

　演算部３２０の機能の全部または一部は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）のような１つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部３２０の機能の全部または一部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等のハードウェア（例えば回路部；circuity）により実現されてもよい。また、演算部３２０の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

　演算部３２０の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたＣＰＵやＧＰＵやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部３２０は、例えばクラウドサーバ上の演算性能が高いＧＰＵや専用ハードウェアを併用することで、演算部３２０の演算速度を向上させることができる。

　記憶部３１０は、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read-Only Memory）、またＲＡＭ（Random Access Memory）等により実現される。記憶部３１０の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部３２０等と接続させてもよい。

［畳み込みニューラルネットワーク（ＣＮＮ）２００］
　次に、ＣＮＮ２００について説明する。図３は、ＣＮＮ２００の一例を示す図である。ＣＮＮ２００のネットワーク情報ＮＷは、以下で説明するＣＮＮ２００の構成に関する情報である。ＣＮＮ２００は、低ビットの重みｗや量子化された入力データａを用いており、組み込み機器に組み込みやすい。

　ＣＮＮ２００は、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

　図４は、畳み込み層２１０が行う畳み込み演算を説明する図である。
　畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

　畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

　ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、ＣＮＮ２００は畳み込み層２１０の前に型変換や量子化を行う入力層をさらに有してもよい。

　畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

　畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図４において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

　量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

　プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

　Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

　活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

　量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等号「≦」は「＜」であってもよい。

　出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

　ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

［ニューラルネットワーク実行モデル１００（ＮＮ実行モデル）１００］
　次に、ＮＮ実行モデル１００について説明する。図５は、ＮＮ実行モデル１００の一例を示す図である。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

　ＮＮ実行モデル１００は、第一メモリ１と、第二メモリ２と、ＤＭＡコントローラ３（以下、「ＤＭＡＣ３」ともいう）と、畳み込み演算回路４と、量子化演算回路５と、コントローラ６と、を備える。ＮＮ実行モデル１００は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

　第一メモリ１は、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートと接続されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。外部ホストＣＰＵは、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

　第二メモリ２は、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。外部ホストＣＰＵは、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

　ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリと第一メモリ１との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと第二メモリ２との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと畳み込み演算回路４との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと量子化演算回路５との間のデータ転送を行う。

　畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

　量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を行う。量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）を第一メモリ１に書き込む。

　コントローラ６は、外部バスＥＢに接続されており、外部のホストＣＰＵのスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ実行モデル１００の動作を制御するレジスタである。状態レジスタはセマフォＳを含むＮＮ実行モデル１００の状態を示すレジスタである。外部ホストＣＰＵは、コントローラ６を経由して、レジスタ６１にアクセスできる。

　コントローラ６は、内部バスＩＢを介して、第一メモリ１と、第二メモリ２と、ＤＭＡＣ３と、畳み込み演算回路４と、量子化演算回路５と、接続されている。外部ホストＣＰＵは、コントローラ６を経由して、各ブロックに対してアクセスできる。例えば、外部ホストＣＰＵは、コントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する命令を指示することができる。また、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５は、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含む）を更新できる。状態レジスタ（セマフォＳを含む）は、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５と接続された専用配線を介して更新されるように構成されていてもよい。

　ＮＮ実行モデル１００は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリからのＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。

［ニューラルネットワーク生成装置３００の動作］
　次に、ニューラルネットワーク生成装置３００の動作（ニューラルネットワーク生成方法）を、図６に示すニューラルネットワーク生成装置３００の制御フローチャートに沿って説明する。ニューラルネットワーク生成装置３００は初期化処理（ステップＳ１０）を実施した後、ステップＳ１１を実行する。

＜ハードウェア情報取得工程（Ｓ１１）＞
　ステップＳ１１において、ニューラルネットワーク生成装置３００は、動作対象ハードウェアのハードウェア情報ＨＷを取得する（ハードウェア情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたハードウェア情報ＨＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にハードウェア情報ＨＷの入力に必要なＧＵＩ画像を表示させ、使用者にハードウェア情報ＨＷを操作入力部３６０から入力させることでハードウェア情報ＨＷを取得してもよい。

　ハードウェア情報ＨＷは、具体的には、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ種別やメモリ容量や入出力データ幅を有する。

　取得されたハードウェア情報ＨＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１２を実行する。

＜ネットワーク情報取得工程（Ｓ１２）＞
　ステップＳ１２において、ニューラルネットワーク生成装置３００は、ＣＮＮ２００のネットワーク情報ＮＷを取得する（ネットワーク情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたネットワーク情報ＮＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にネットワーク情報ＮＷの入力に必要なＧＵＩ画像を表示させ、使用者にネットワーク情報ＮＷを操作入力部３６０から入力させることでネットワーク情報ＮＷを取得してもよい。

　ネットワーク情報ＮＷは、具体的には、入力層や出力層２３０を含むネットワーク構成と、重みｗや入力データａのビット幅を含む畳み込み層２１０の構成と、量子化情報を含む量子化演算層２２０の構成と、を有する。

　取得されたネットワーク情報ＮＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１３を実行する。

＜ニューラルネットワーク実行モデル生成工程（Ｓ１３）＞
　ステップＳ１３において、ニューラルネットワーク生成装置３００の実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００を生成する（ニューラルネットワーク実行モデル生成工程）。

　ニューラルネットワーク実行モデル生成工程（ＮＮ実行モデル生成工程）は、例えば、レイヤマッピング工程（Ｓ１３－１）と、畳み込み演算回路生成工程（Ｓ１３－２）と、量子化演算回路生成工程（Ｓ１３－３）と、ＤＭＡＣ生成工程（Ｓ１３－４）と、を有する。

＜レイヤマッピング工程（Ｓ１３－１）＞
　実行モデル生成部３２１は、ＣＮＮ２００の各レイヤを、ループ状に形成された畳み込み演算回路４と量子化演算回路５とにマッピングする（レイヤマッピング工程）。実行モデル生成部３２１は、ＣＮＮ２００の各レイヤをＮＮ実行モデル１００において順番に実行するためのシーケンスデータやソフトウェアを生成する。入力層や出力層２３０などのＮＮ実行モデル１００により実施できない演算が含まれるレイヤに関しては、ＮＮ実行モデル１００とは別の外部ホストＣＰＵなどの外部演算デバイスが実行可能なソフトウェアモジュールが生成される。

　図７は、ＮＮ実行モデル１００の動作例を示すタイミングチャートである。実行モデル生成部３２１は、例えば図７に示すＮＮ実行モデル１００の動作を実施可能とするシーケンスデータやソフトウェアを生成する。以下、図７に示すＮＮ実行モデル１００の動作例を説明する。

　ＤＭＡＣ３は、レイヤ１（図３参照）の入力データａを第一メモリ１に格納する。ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１（図３参照）の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対してレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データは、第一メモリ１に格納される。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは、第一メモリ１に格納される。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図３に示すＣＮＮ２００の演算を進めていく。ＮＮ実行モデル１００は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１とレイヤ２Ｍ＋１の畳み込み演算を実施する。また、ＮＮ実行モデル１００は、量子化演算回路５が時分割によりレイヤ２Ｍ－２とレイヤ２Ｍの量子化演算を実施する。そのため、ＮＮ実行モデル１００は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

　ＮＮ実行モデル１００は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ実行モデル１００は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。なお、ＮＮ実行モデル１００は、ループ状に回路を形成するために、各レイヤで変化する畳み込み演算回路４や量子化演算回路５におけるパラメータは適宜更新される。

　ＣＮＮ２００の演算にＮＮ実行モデル１００により実施できない演算が含まれる場合、ＮＮ実行モデル１００は外部ホストＣＰＵなどの外部演算デバイスに中間データを転送する。外部演算デバイスが中間データに対して演算を行った後、外部演算デバイスによる演算結果は第一メモリ１や第二メモリ２に入力される。ＮＮ実行モデル１００は、外部演算デバイスによる演算結果に対する演算を再開する。

＜畳み込み演算回路生成工程（Ｓ１３－２）＞
　実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の畳み込み演算回路４を生成する（畳み込み演算回路生成工程）。実行モデル生成部３２１は、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ容量などに基づいて、畳み込み層２１０の畳み込み演算のデータを分割する。生成される畳み込み演算回路４は、分割された畳み込み演算のデータを演算可能な構成を備える。畳み込み層２１０の畳み込み演算のデータを分割するブロックのサイズ（ＢｃやＢｄ）を小さくすれば、畳み込み演算回路４のハードウェア規模は小さくなるが、畳み込み層２１０の畳み込み演算の演算効率は低下する。

　図８は、畳み込み演算のデータ分割やデータ展開を説明する図である。
　ＮＮ実行モデル１００の畳み込み演算回路４は、畳み込み層２１０の畳み込み演算（式１）の入力データを部分テンソルに分割して演算する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。なお、ＮＮ実行モデル１００の畳み込み演算回路４は、畳み込み層２１０の畳み込み演算（式１）の入力データを分割せずに演算することもできる。

＜畳み込み演算回路生成工程：畳み込み演算のデータ分割＞
　畳み込み演算の入力データ分割において、式１における変数ｃは、式７に示すように、サイズＢｃのブロックで分割される。また、式１における変数ｄは、式８に示すように、サイズＢｄのブロックで分割される。式７において、ｃｏはオフセットであり、ｃｉは０から(Ｂｃ－１)までのインデックスである。式８において、ｄｏはオフセットであり、ｄｉは０から(Ｂｄ－１)までのインデックスである。なお、サイズＢｃとサイズＢｄは同じであってもよい。

　式１における入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）は、ｃ軸方向においてサイズＢｃにより分割され、分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）で表される。以降の説明において、分割された入力データａを「分割入力データａ」ともいう。

　式１における重みｗ（ｉ，ｊ，ｃ，ｄ）は、ｃ軸方向においてサイズＢｃおよびｄ軸方向においてサイズＢｄにより分割され、分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）で表される。以降の説明において、分割された重みｗを「分割重みｗ」ともいう。

　サイズＢｄにより分割された出力データｆ（ｘ，ｙ，ｄｏ）は、式９により求まる。分割された出力データｆ（ｘ，ｙ，ｄｏ）を組み合わせることで、最終的な出力データｆ（ｘ，ｙ，ｄ）を算出できる。

＜畳み込み演算回路生成工程（Ｓ１３－２）：データ展開＞
　ＮＮ実行モデル１００の畳み込み演算回路４は、畳み込み層２１０の畳み込み演算における入力データａおよび重みｗを展開して畳み込み演算を行う。

　分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）は、Ｂｃ個の要素を持つベクトルデータに展開される。分割入力データａの要素は、ｃｉでインデックスされる（０≦ｃｉ＜Ｂｃ）。以降の説明において、ｉ，ｊごとにベクトルデータに展開された分割入力データａを「入力ベクトルＡ」ともいう。入力ベクトルＡは、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ）から分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１））までを要素とする。

　分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）は、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みｗの要素は、ｃｉとｄｉでインデックスされる（０≦ｄｉ＜Ｂｄ）。以降の説明において、ｉ，ｊごとにマトリクスデータに展開された分割重みｗを「重みマトリクスＷ」ともいう。重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ，ｄｏ×Ｂｄ）から分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１），ｄｏ×Ｂｄ＋（Ｂｄ－１））までを要素とする。

　入力ベクトルＡと重みマトリクスＷとを乗算することで、ベクトルデータが算出される。ｉ，ｊ，ｃｏごとに算出されたベクトルデータを３次元テンソルに整形することで、出力データｆ（ｘ，ｙ，ｄｏ）を得ることができる。このようなデータの展開を行うことで、畳み込み層２１０の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。

　畳み込み演算のデータを分割するブロックのサイズ（ＢｃやＢｄ）は、例えば、所定の数の分割入力データａおよび所定の数の分割重みｗが第一メモリ１に格納できるようなサイズに設定される。

　例えば、入力データａの大きさがＸ×Ｙ×Ｃであり、重みｗの大きさをＫ×Ｋ×Ｃ×Ｄであり、出力データｆの大きさがＸ×Ｙ×Ｄであるとする。ｄ軸方向にサイズＢｄで分割された出力データｆ（ｘ，ｙ，ｄｏ）は、ｃ軸方向にサイズＢｃで分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）と、サイズＢｃおよびＢｄにより分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）とを、ｉ，ｊ，ｃｏごとに畳み込み演算して、足し合わせることで算出できる。

　出力データｆの要素が１６ビットである場合、ｄ軸方向にサイズＢｄで分割された出力データｆ（ｘ，ｙ，ｄｏ）のサイズは、１６・Ｘ・Ｙ・Ｂｄビットである。一方、入力データａの要素が２ビットである場合、Ｂｄで分割された出力データｆを算出するために必要な入力データａのサイズは２・Ｘ・Ｙ・Ｂｃビットである。また、重みｗの要素が１ビットである場合、Ｂｄで分割された出力データｆを算出するために必要な重みｗのサイズは１・Ｋ・Ｋ・Ｂｃ・Ｂｄビットである。

　第二メモリ２のメモリ容量が１６・Ｘ・Ｙ・Ｂｄビットより大きければ、Ｂｄで分割された出力データｆ（ｘ，ｙ，ｄｏ）を第二メモリ２に格納できる。一方、第一メモリ１のメモリ容量が（２・Ｘ・Ｙ・Ｂｃ+１・Ｋ・Ｋ・Ｂｃ・Ｂｄ）ビットより大きければ、Ｂｄで分割された出力データｆを算出するために必要な入力データａおよび重みｗを第一メモリ１に格納できる。

　上述した関係に基づいて、ハードウェア情報ＨＷにおいて制約として指定された場合において、第一メモリ１および第二メモリ２のメモリ容量の上限から、分割するブロックのサイズ（ＢｃやＢｄ）を算出できる。また、分割するブロックのサイズ（ＢｃやＢｄ）から、第一メモリ１および第二メモリ２のメモリ容量を算出することもできる。

　なお、例えば畳み込み演算回路４とＤＭＡＣ３との並列動作を可能とするために、第一メモリ１および第二メモリ２のメモリ容量が上述したメモリ容量の少なくとも２倍であり、ダブルバッファリングを実施できることが望ましい。

　以上の例は分割するブロックのサイズ（ＢｃやＢｄ）や第一メモリ１および第二メモリ２のメモリ容量の決定手段の一例である。分割するブロックのサイズ（ＢｃやＢｄ）や第一メモリ１および第二メモリ２のメモリ容量の決定は、メモリ使用態様や並列動作数などに応じて適宜変更される。

＜畳み込み演算回路生成工程（Ｓ１３－２）：部分テンソルへの分割（１）＞
　図９は、ＮＮ実行モデル１００の他の動作例を示すタイミングチャートである。
　ＮＮ実行モデル１００は、入力データａを部分テンソルに分割して、時分割により部分テンソルに対する演算を行ってもよい。

　図９は、入力データａを二つの部分テンソルに分解した場合の動作例を示している。分解された部分テンソルを、「第一部分テンソルａ₁」、「第二部分テンソルａ₂」とする。例えば、レイヤ２Ｍ－１の畳み込み演算は、第一部分テンソルａ₁に対応する畳み込み演算（図９において、「レイヤ２Ｍ－１（ａ₁）」と表記）と、第二部分テンソルａ₂に対応する畳み込み演算（図７において、「レイヤ２Ｍ－１（ａ₂）」と表記）と、に分解される。

　第一部分テンソルａ₁に対応する畳み込み演算および量子化演算と、第二部分テンソルａ₂に対応する畳み込み演算および量子化演算とは、図９に示すように、独立して実施することができる。

　畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算（図９において、レイヤ２Ｍ－１（ａ₁）で示す演算）を行う。その後、畳み込み演算回路４は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算（図９において、レイヤ２Ｍ－１（ａ_２）で示す演算）を行う。また、量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算（図９において、レイヤ２Ｍ（ａ₁）で示す演算）を行う。このように、ＮＮ実行モデル１００は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算と、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算と、を並列に実施できる。

　次に、畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算（図９において、レイヤ２Ｍ＋１（ａ₁）で示す演算）を行う。また、量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算（図９において、レイヤ２Ｍ（ａ_２）で示す演算）を行う。このように、ＮＮ実行モデル１００は、第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算と、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算と、を並列に実施できる。

　入力データａを部分テンソルに分割することで、ＮＮ実行モデル１００は畳み込み演算回路４と量子化演算回路５とを並列して動作させることができる。その結果、畳み込み演算回路４と量子化演算回路５が待機する時間が削減され、ＮＮ実行モデル１００の演算処理効率が向上する。図９に示す動作例において部分テンソルへの分割数は２であったが、分割数が２より大きい場合も同様に、ＮＮ実行モデル１００は畳み込み演算回路４と量子化演算回路５とを並列して動作させることができる。

＜畳み込み演算回路生成工程（Ｓ１３－２）：部分テンソルへの分割（２）＞
　図１０は、畳み込み演算の出力データｆをタイル分割した部分テンソルｆｔを示す図である。入力データａｔは、入力データａをｘ軸方向およびｙ軸方向において所定のサイズのタイル（ブロック）に分割したものである。部分テンソルｆｔは、出力データｆをｘ軸方向およびｙ軸方向においてそれぞれサイズＴのタイル（ブロック）に分割したものである。上述した例と同様に、入力データａの大きさがＸ×Ｙ×Ｃであり、重みｗの大きさをＫ×Ｋ×Ｃ×Ｄであり、出力データｆの大きさがＸ×Ｙ×Ｄであるとする。部分テンソルｆｔのサイズは、Ｔ・Ｔ・Ｄである。

　畳み込み演算回路４は、第一メモリ１から入力データａｔの一部を読み出し、部分テンソルｆｔ（第一の部分テンソルｆｔ_１という）を出力とするレイヤ２Ｍ－１の畳み込み演算を行う。第一の部分テンソルｆｔ_１は、第二メモリ２に書き込まれる。第一メモリ１に格納された入力データａの残部に対する畳み込み演算を実施する前に、量子化演算回路５は第二メモリ２に格納された第一の部分テンソルｆｔ_１に対応するレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは第一メモリ１に書き込まれる。その結果、第二メモリ２に書き込まれた第一の部分テンソルｆｔ_１は不要となる。

　次に、畳み込み演算回路４は、第一メモリ１から入力データａｔの他の一部を読み出し、部分テンソルｆｔ（第二の部分テンソルｆｔ_２という）を出力とするレイヤ２Ｍ－１の畳み込み演算を行う。第二の部分テンソルｆｔ_２は、第二メモリ２に書き込まれる。第二の部分テンソルｆｔ_２は、第一の部分テンソルｆｔ_１を上書きする。第一メモリ１に格納された入力データａの残部に対する畳み込み演算を実施する前に、量子化演算回路５は第二メモリ２に格納された第二の部分テンソルｆｔ_２に対応するレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは第一メモリ１に書き込まれる。その結果、第二メモリ２に書き込まれた第二の部分テンソルｆｔ_２は不要となる。

　上記の演算を第一メモリ１から入力データａの残部に対して行うことで、レイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍの量子化演算を完了する。このように畳み込み演算の出力データｆをタイル分割することで、第二メモリ２のサイズを一つの部分テンソルｆｔを格納できるメモリサイズまで削減できる。例えば出力データｆを１６ビットとする。タイル分割を行わない場合、第二メモリ２は出力データｆを格納する必要があり、必要なメモリサイズは１６・Ｘ・Ｙ・Ｄビットである。一方、タイル分割を行う場合、第二メモリ２は一つの部分テンソルｆｔを格納できればよく、必要なメモリサイズは１６・Ｔ^２・Ｄビットまで削減される。

　一方、タイル分割を用いる場合、レイヤ２Ｍ－１の畳み込み演算の入力データａと、レイヤ２Ｍの量子化演算の出力データと、を第一メモリ１に別々に保持する必要がある。しかしながら、ＴのサイズをＸやＹに比べて十分小さくすることで、第一メモリ１および第二メモリ２のメモリ容量全体を削減できる。

＜畳み込み演算回路生成工程（Ｓ１３－２）：部分テンソルへの分割（３）＞
　図１１から図１３は、入力データａをスライス分割した部分テンソルａｓを示す図である。部分テンソルａｓは、入力データａをｙ軸方向において所定のサイズのスライス（ブロック）に分割したものである。

　図１１に示すように、畳み込み演算回路４は、第一メモリ１から部分テンソルａｓ（第一の部分テンソルａｓ_１）の一部を読み出し、部分テンソルｆｔ（第一の部分テンソルｆｔ_１という）を出力とするレイヤ２Ｍ－１の畳み込み演算を行う。第一の部分テンソルｆｔ_１は、第二メモリ２に書き込まれる。第一メモリ１に格納された第一の部分テンソルａｓ_１の残部に対する畳み込み演算を実施する前に、量子化演算回路５は第二メモリ２に格納された第一の部分テンソルｆｔ_１に対応するレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは第一メモリ１に書き込まれる。その結果、第二メモリ２に書き込まれた第一の部分テンソルｆｔ_１は不要となる。

　次に、畳み込み演算回路４は、第一メモリ１から第一の部分テンソルａｓ_１の他の一部を読み出し、部分テンソルｆｔ（第二の部分テンソルｆｔ_２という）を出力とするレイヤ２Ｍ－１の畳み込み演算を行う。第二の部分テンソルｆｔ_２は、第二メモリ２に書き込まれる。第二の部分テンソルｆｔ_２は、第一の部分テンソルｆｔ_１を上書きする。第一メモリ１に格納された第一の部分テンソルａｓ_１の残部に対する畳み込み演算を実施する前に、量子化演算回路５は第二メモリ２に格納された第二の部分テンソルｆｔ_２に対応するレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは第一メモリ１に書き込まれる。その結果、第二メモリ２に書き込まれた第二の部分テンソルｆｔ_２は不要となる。

　上記の演算を第一メモリ１から第一の部分テンソルａｓ_１の残部に対して行うことで、第一の部分テンソルａｓ_１に対するレイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍの量子化演算を完了する。その結果、第一メモリ１に書き込まれた第一の部分テンソルａｓ_１は不要となる。

　次に、図１２に示すように、畳み込み演算回路４および量子化演算回路５は、第一メモリ１から他の部分テンソルａｓ（第二の部分テンソルａｓ_２）に対して、同様に畳み込み演算と量子化演算を実施する。第一メモリ１に書き込まれた第一の部分テンソルａｓ_１は不要であり、レイヤ２Ｍの量子化演算の出力データで上書きしてもよい。第二の部分テンソルａｓ_２に対するレイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍの量子化演算を完了すると、第一メモリ１に書き込まれた第二の部分テンソルａｓ_２は不要となる。

　次に、図１３に示すように、畳み込み演算回路４および量子化演算回路５は、第一メモリ１から他の部分テンソルａｓ（第三の部分テンソルａｓ_３）に対して、同様に畳み込み演算と量子化演算を実施する。第一メモリ１に書き込まれた第一の部分テンソルａｓ_１および第二の部分テンソルａｓ_２は不要であり、レイヤ２Ｍの量子化演算の出力データで上書きしてもよい。第三の部分テンソルａｓ_３に対するレイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍの量子化演算を完了すると、第一メモリ１に書き込まれた第三の部分テンソルａｓ_３は不要となる。

　上記の演算を第一メモリ１から入力データａの残部に対して行うことで、レイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍの量子化演算の全てを完了する。このように入力データａをスライス分割することで、第一メモリ１のサイズを図１０に示した例と比べて削減できる。

＜畳み込み演算回路生成工程（Ｓ１３－２）：部分テンソルへの分割（４）＞
　図１４は、レイヤ２Ｍ＋１の畳み込み演算により部分テンソルｆｔを出力するために必要な他の部分テンソルを示す図である。

　レイヤ２Ｍ＋１の畳み込み演算を行い部分テンソルｆｔを出力するために、レイヤ２Ｍの量子化演算の入力の部分テンソルが必要となる。さらに、レイヤ２Ｍ－１の畳み込み演算の入力の部分テンソルが必要となる。このように、部分テンソルｆｔを出力するために必要な部分テンソルには依存関係がある。この依存関係に基づき部分テンソルｆｔを出力するために必要な部分テンソルを順番に演算することにより、部分テンソルｆｔを算出してもよい。第一メモリ１および第二メモリ２のメモリサイズは部分テンソルを格納できるサイズであればよく、第一メモリ１および第二メモリ２のメモリ容量全体を削減できる。

　上述した様々な部分テンソルのサイズは、例えば、所定の数の部分テンソルが第一メモリ１や第二メモリ２に格納できるようなサイズに設定される。部分テンソルのサイズから第一メモリ１や第二メモリ２のメモリ容量を算出してもよい。

＜畳み込み演算回路生成工程（Ｓ１３－２）：ハードウェアモデル生成＞
　次に、実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される畳み込み演算回路４のハードウェアモデルの一例を説明する。

　図１５は、生成される畳み込み演算回路４の内部ブロック図である。
　畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

　重みメモリ４１は、畳み込み演算に用いる重みＷが格納されるメモリであり、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みＷを重みメモリ４１に書き込む。

　図１６は、乗算器４２の内部ブロック図である。
　乗算器４２は、入力ベクトルＡと重みマトリクスＷとを乗算する。入力ベクトルＡは、上述したように、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）が展開されたＢｃ個の要素を持つベクトルデータである。また、重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）が展開されたＢｃ×Ｂｄ個の要素を持つマトリクスデータである。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとを乗算を並列して実施できる。

　乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

　図１７は、積和演算ユニット４７の内部ブロック図である。
　積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

　積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

　図１８は、アキュムレータ回路４３の内部ブロック図である。
　アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

　図１９は、アキュムレータユニット４８の内部ブロック図である。
　アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

　加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

　乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリに、出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

　ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

　命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

　制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

　図２０は、制御回路４６のステート遷移図である。
　制御回路４６は、命令キュー４５に命令コマンドＣ４が入力されると（Ｎｏｔ　ｅｍｐｔｙ）、アイドルステートＳ１からデコードステートＳ２に遷移する。

　制御回路４６は、デコードステートＳ２において、命令キュー４５から出力される命令コマンドＣ３をデコードする。また、制御回路４６は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ４において指示された乗算器４２やアキュムレータ回路４３の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔ　ｒｅａｄｙ）、制御回路４６は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路４６はデコードステートＳ２から実行ステートＳ３に遷移する。

　制御回路４６は、実行ステートＳ３において、乗算器４２やアキュムレータ回路４３を制御して、乗算器４２やアキュムレータ回路４３に命令コマンドＣ４において指示された動作を実施させる。制御回路４６は、乗算器４２やアキュムレータ回路４３の動作が終わると、命令キュー４５から実行を終えた命令コマンドＣ４を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路４６は、命令キュー４５に命令がある場合（Ｎｏｔ　ｅｍｐｔｙ）、実行ステートＳ３からデコードステートＳ２に遷移する。制御回路４６は、命令キュー４５に命令がない場合（ｅｍｐｔｙ）、実行ステートＳ３からアイドルステートＳ１に遷移する。

　実行モデル生成部３２１は、畳み込み演算のデータを分割するブロックのサイズ（ＢｃやＢｄ）を、図１６に示すように、積和演算ユニット４７の個数（Ｂｃ×Ｂｄ個）に関連付ける。畳み込み層２１０の畳み込み演算のデータを分割するブロックのサイズ（ＢｃやＢｄ）を小さくすれば、乗算器４２のハードウェア規模は小さくなるが、乗算器４２の演算速度は低下する。

　図１６に示すように、乗算器４２にはＢｃ個の要素を持つ入力ベクトルＡとＢｃ×Ｂｄ個の要素を持つ重みマトリクスＷとが入力される。そのため、積和演算ユニット４７の個数をＢｃ×Ｂｄ個よりも多くしても、積和演算ユニット４７を有効に活用できない。

　入力データａや重みｗのｃ軸方向およびｄ軸方向のサイズやブロックのサイズ（ＢｃやＢｄ）は、除算やデータ統合などを効率よく実施するため、６４や１２８や２５６などの２のべき乗のサイズであることが望ましい。

　ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅を小さくすれば、乗算器４２やアキュムレータ回路４３のハードウェア規模を低減できる。また、重みｗや入力データａのビット幅を小さくすれば、これらを格納する第一メモリ１と第二メモリ２のメモリ容量を小さくできる。また、ＤＭＡＣ３による第一メモリ１と第二メモリ２へのデータ転送時間を短縮できる。

＜量子化演算回路生成工程（Ｓ１３－３）＞
　実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の量子化演算回路５を生成する（量子化演算回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化演算回路５のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される量子化演算回路５のハードウェアモデルの一例を説明する。

　図２１は、生成される量子化演算回路５の内部ブロック図である。
　量子化演算回路５は、量子化パラメータメモリ５１と、ベクトル演算回路５２と、量子化回路５３と、ステートコントローラ５４と、を有する量子化演算回路５は、ベクトル演算回路５２および量子化回路５３に対する専用のステートコントローラ５４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。

　量子化パラメータメモリ５１は、量子化演算に用いる量子化パラメータｑが格納されるメモリであり、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、量子化演算に必要な量子化パラメータｑを量子化パラメータメモリ５１に書き込む。

　図２２は、ベクトル演算回路５２と量子化回路５３の内部ブロック図である。
　ベクトル演算回路５２は、第二メモリ２に格納された出力データｆ（ｘ，ｙ，ｄｏ）に対して演算を行う。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７を有し、出力データｆ（ｘ，ｙ，ｄｏ）に対して並列にＳＩＭＤ演算を行う。

　図２３は、演算ユニット５７のブロック図である。
　演算ユニット５７は、例えば、ＡＬＵ５７ａと、第一セレクタ５７ｂと、第二セレクタ５７ｃと、レジスタ５７ｄと、シフタ５７ｅと、を有する。演算ユニット５７は、公知の汎用ＳＩＭＤ演算回路が有する他の演算器等をさらに有してもよい。

　ベクトル演算回路５２は、演算ユニット５７が有する演算器等を組み合わせることで、出力データｆ（ｘ，ｙ，ｄｏ）に対して、量子化演算層２２０におけるプーリング層２２１や、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２や、活性化関数層２２３の演算のうち少なくとも一つの演算を行う。

　演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより加算できる。演算ユニット５７は、ＡＬＵ５７ａによる加算結果をレジスタ５７ｄに格納できる。演算ユニット５７は、第一セレクタ５７ｂの選択によりレジスタ５７ｄに格納されたデータに代えて「０」をＡＬＵ５７ａに入力することで加算結果を初期化できる。例えばプーリング領域が２×２である場合、シフタ５７ｅはＡＬＵ５７ａの出力を２ｂｉｔ右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式２に示す平均プーリングの演算を実施できる。

　演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより比較できる。
演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて第二セレクタ５７ｃを制御して、レジスタ５７ｄに格納されたデータと要素ｆ（ｄｉ）の大きい方を選択できる。演算ユニット５７は、第一セレクタ５７ｂの選択により要素ｆ（ｄｉ）の取りうる値の最小値をＡＬＵ５７ａに入力することで比較対象を最小値に初期化できる。本実施形態において要素ｆ（ｄｉ）は１６ｂｉｔ符号付き整数であるので、要素ｆ（ｄｉ）の取りうる値の最小値は「０ｘ８０００」である。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式３のＭＡＸプーリングの演算を実施できる。なお、ＭＡＸプーリングの演算ではシフタ５７ｅは第二セレクタ５７ｃの出力をシフトしない。

　演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより減算できる。シフタ５７ｅはＡＬＵ５７ａの出力を左シフト（すなわち乗算）もしくは右シフト（すなわち除算）できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式４のＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算を実施できる。

　演算ユニット５７は、第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）と第一セレクタ５７ｂにより選択された「０」とをＡＬＵ５７ａにより比較できる。演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて要素ｆ（ｄｉ）と予めレジスタ５７ｄに格納された定数値「０」のいずれかを選択して出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式５のＲｅＬＵ演算を実施できる。

　ベクトル演算回路５２は、平均プーリング、ＭＡＸプーリング、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路５２は、汎用ＳＩＭＤ演算を実施できるため、量子化演算層２２０における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路５２は、量子化演算層２２０における演算以外の演算を実施してもよい。

　なお、量子化演算回路５は、ベクトル演算回路５２を有してなくてもよい。量子化演算回路５がベクトル演算回路５２を有していない場合、出力データｆ（ｘ，ｙ，ｄｏ）は量子化回路５３に入力される。

　量子化回路５３は、ベクトル演算回路５２の出力データに対して、量子化を行う。量子化回路５３は、図２２に示すように、Ｂｄ個の量子化ユニット５８を有し、ベクトル演算回路５２の出力データに対して並列に演算を行う。

　図２４は、量子化ユニット５８の内部ブロック図である。
　量子化ユニット５８は、ベクトル演算回路５２の出力データの要素ｉｎ（ｄｉ）に対して量子化を行う。量子化ユニット５８は、比較器５８ａと、エンコーダ５８ｂと、を有する。量子化ユニット５８はベクトル演算回路５２の出力データ（１６ビット／要素）に対して、量子化演算層２２０における量子化層２２４の演算（式６）を行う。量子化ユニット５８は、量子化パラメータメモリ５１から必要な量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を読み出し、比較器５８ａにより入力ｉｎ（ｄｉ）と量子化パラメータｑとの比較を行う。量子化ユニット５８は、比較器５８ａによる比較結果をエンコーダ５８ｂにより２ビット／要素に量子化する。式４におけるα(c)とβ(c)は、変数ｃごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）はｉｎ（ｄｉ）ごとに異なるパラメータである。

　量子化ユニット５８は、入力ｉｎ（ｄｉ）を３つの閾値ｔｈ０，ｔｈ１，ｔｈ２と比較することにより、入力ｉｎ（ｄｉ）を４領域（例えば、ｉｎ≦ｔｈ０，ｔｈ０＜ｉｎ≦ｔｈ１，ｔｈ１＜ｉｎ≦ｔｈ２，ｔｈ２＜ｉｎ）に分類し、分類結果を２ビットにエンコードして出力する。量子化ユニット５８は、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）の設定により、量子化と併せてＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎや活性化関数の演算を行うこともできる。

　量子化ユニット５８は、閾値ｔｈ０を式４のβ(ｃ)、閾値の差（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を式４のα(ｃ)として設定して量子化を行うことで、式４に示すＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算を量子化と併せて実施できる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を大きくすることでα(ｃ)を小さくできる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を小さくすることで、α(ｃ)を大きくできる。

　量子化ユニット５８は、入力ｉｎ（ｄｉ）の量子化と併せて活性化関数のＲｅＬＵ演算を実施できる。例えば、量子化ユニット５８は、ｉｎ（ｄｉ）≦ｔｈ０およびｔｈ２＜ｉｎ（ｄｉ）となる領域では出力値を飽和させる。量子化ユニット５８は、出力が非線形となるように量子化パラメータｑを設定することで活性化関数の演算を量子化と併せて実施できる。

　ステートコントローラ５４は、ベクトル演算回路５２および量子化回路５３のステートを制御する。また、ステートコントローラ５４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ５４は、命令キュー５５と制御回路５６とを有する。

　命令キュー５５は、量子化演算回路５用の命令コマンドＣ５が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー５５には、内部バスＩＢ経由で命令コマンドＣ５が書き込まれる。

　制御回路５６は、命令コマンドＣ５をデコードし、命令コマンドＣ５に基づいてベクトル演算回路５２および量子化回路５３を制御するステートマシンである。制御回路５６は、畳み込み演算回路４のステートコントローラ４４の制御回路４６と同様の構成である。

　量子化演算回路５は、Ｂｄ個の要素を持つ量子化演算出力データを第一メモリ１に書き込む。なお、ＢｄとＢｃの好適な関係を式１０に示す。式１０においてｎは整数である。

　実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化演算回路５における、プーリングの演算の有無および方式、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算の有無および方式、活性化関数の演算の有無および方式、量子化の方式、およびその他の演算の有無を決定する。

　例えば量子化演算回路５においてプーリングの演算を行う場合、実行モデル生成部３２１は、演算を行うプーリングの種類（平均プーリング、ＭＡＸプーリングなど）に最適化された演算ユニット５７を生成する。

　例えば量子化演算回路５において活性化関数の演算を行う場合、実行モデル生成部３２１は、演算を行う活性化関数（ＲｅＬＵ演算など）に最適化された演算ユニット５７や量子化ユニット５８を生成する。

　例えば量子化演算回路５においてＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算を行う場合、実行モデル生成部３２１はＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算にあわせて演算ユニット５７を生成する。また、実行モデル生成部３２１はＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算にあわせて量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を調整する。

　例えば量子化演算回路５による量子化が３ビット以上の量子化である場合、実行モデル生成部３２１はプーリングとＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎと量子化のためのスケーリングとを実施可能なベクトル演算回路５２を生成する。

　例えば量子化演算回路５の演算負荷を低減するために、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの正規化の演算を効率化してもよい。具体的には、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの正規化処理においてビットシフトを用いるために、入力テンソルの各要素を２のべき乗にする。これによりＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの正規化の演算をビットシフトのみで実現できる。ここで、入力テンソルの各要素を２のべき乗に変換するための追加の演算回路は量子化演算回路５に追加されてもよいし、畳み込み演算回路４に追加されてもよい。

＜ＤＭＡＣ生成工程（Ｓ１３－４）＞
　実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００のＤＭＡＣ３を生成する（ＤＭＡＣ生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成されるＤＭＡＣ３のハードウェアモデルの一例を説明する。

　図２５は、生成されるＤＭＡＣ３の内部ブロック図である。
　ＤＭＡＣ３は、データ転送回路３１と、ステートコントローラ３２と、を有する。ＤＭＡＣ３は、データ転送回路３１に対する専用のステートコントローラ３２を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにＤＭＡデータ転送を実施できる。

　データ転送回路３１は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリと第一メモリ１との間のＤＭＡデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリと第二メモリ２との間のＤＭＡデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリと畳み込み演算回路４との間のデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリと量子化演算回路５との間のデータ転送を行う。データ転送回路３１のＤＭＡチャンネル数は限定されない。例えば、第一メモリ１と第二メモリ２のそれぞれに専用のＤＭＡチャンネルを有していてもよい。

　ステートコントローラ３２は、データ転送回路３１のステートを制御する。また、ステートコントローラ３２は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ３２は、命令キュー３３と制御回路３４とを有する。

　命令キュー３３は、ＤＭＡＣ３用の命令コマンドＣ３が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー３３には、内部バスＩＢ経由で１つ以上の命令コマンドＣ３が書き込まれる。

　制御回路３４は、命令コマンドＣ３をデコードし、命令コマンドＣ３に基づいて順次データ転送回路３１を制御するステートマシンである。制御回路３４は、畳み込み演算回路４のステートコントローラ４４の制御回路４６と同様の構成である。

　実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３における、ＤＭＡチャンネル数やデータバス幅などを決定する。

　例えば、実行モデル生成部３２１は、ホスト側の外部バスＥＢの仕様にあわせた仕様（データバス幅等）のＤＭＡＣ３を生成する。データバス幅やＤＭＡチャンネル数を増やすことで外部メモリと第一メモリ１や第二メモリ２とのデータ伝送速度を向上させることができる。

＜学習工程（Ｓ１４）＞
　ステップＳ１４において、ニューラルネットワーク生成装置３００の学習部３２２および推論部３２３は、学習データセットＤＳを用いて、生成されたＮＮ実行モデル１００の学習パラメータを学習する（学習工程）。学習工程（Ｓ１４）は、例えば、学習済みパラメータ生成工程（Ｓ１４－１）と、推論テスト工程（Ｓ１４－２）と、を有する。

＜学習工程：学習済みパラメータ生成工程（Ｓ１４－１）＞
　学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。学習済みパラメータＰＭは、学習済みの重みｗおよび量子化パラメータｑ等である。

　例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、学習データＤ１は入力画像と教師データＴとの組み合わせである。入力画像は、ＣＮＮ２００に入力される入力データａである。教師データＴは、画像に撮像された被写体の種類や、画像における検出対象物の有無や、画像における検出対象物の座標値などである。

　学習部３２２は、公知の技術である誤差逆伝播法などを用いた教師あり学習によって、学習済みパラメータＰＭを生成する。学習部３２２は、入力画像に対するＮＮ実行モデル１００の出力と、入力画像に対応する教師データＴと、の差分Ｅを損失関数（誤差関数）により求め、差分Ｅが小さくなるように重みｗおよび量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を更新する。

　例えば重みｗを更新する場合、重みｗに関する損失関数の勾配が用いられる。勾配は、例えば損失関数を微分することにより算出される。誤差逆伝播法を用いる場合、勾配は逆伝番（ｂａｃｋｗａｒｄ）により算出される。

　学習部３２２は、学習済みパラメータＰＭを生成する際に、畳み込み演算に関連する演算や量子化演算に関連する演算等をＮＮ実行モデル１００が実施する演算より高精度化する。

　学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００が使用する低ビットの重みｗ（例えば１ビット）より高精度な３２ビットの浮動小数点型の重みｗが学習に使用される。また、ＮＮ実行モデル１００の畳み込み演算回路４において実施する畳み込み演算が高精度化される。

　学習部３２２は、勾配を算出して重みｗを更新する際において、活性化関数に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００の量子化演算回路５において実施するＲｅＬＵ関数などの活性化関数より高精度なシグモンド関数が学習に使用される。

　一方、学習部３２２は、順伝搬（ｆоｒｗａｒｄ）により入力画像に対する出力データを算出する際においては、畳み込み演算および活性化関数に関連する演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。重みｗを更新する際に用いられた高精度な重みｗは、ルックアップテーブル等により低ビット化される。

　学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算および活性化関数に関連する演算を高精度化することにより、演算における中間データの精度低下を防止して、高い推論精度を実現できる学習済みパラメータＰＭを生成できる。

　一方、学習部３２２は、入力画像に対する出力データを算出する際において、順伝搬（ｆоｒｗａｒｄ）の演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。そのため、学習部３２２が算出した出力データと、生成された学習済みパラメータＰＭを用いたＮＮ実行モデル１００の出力データと、が一致する。

＜学習工程：推論テスト工程（Ｓ１４－２）＞
　推論部３２３は、学習部３２２が生成した学習済みパラメータＰＭ、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、テストデータＤ２は、学習データＤ１同様に入力画像と教師データＴとの組み合わせである。

　推論部３２３は、推論テストの進捗および結果を表示部３５０に表示する。推論テストの結果は、例えばテストデータＤ２に対する正解率である。

＜確認工程（Ｓ１５）＞
　ステップＳ１５において、ニューラルネットワーク生成装置３００の推論部３２３は、操作入力部３６０から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示部３５０に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部３６０から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、次にステップＳ１６を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、再度ステップＳ１２を実施する。なお、ニューラルネットワーク生成装置３００はステップＳ１１まで戻って、ハードウェア情報ＨＷを使用者に再入力させてもよい。

＜出力工程（Ｓ１６）＞
　ステップＳ１６において、ニューラルネットワーク生成装置３００のハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。次に、ニューラルネットワーク生成装置３００はステップＳ１７を実施して処理を終了する。

　以上説明したように、本実施形態に係るニューラルネットワーク生成装置３００、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムによれば、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワーク実行モデル１００およびニューラルネットワークハードウェアモデル４００を生成できる。

　以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（第二実施形態）
　本発明の第二実施形態に係るニューラルネットワーク生成装置３００Ｂについて、図２６から図２８を参照して説明する以降の説明において、既に説明したものと共通する構成については、同一の符号を付して重複する説明を省略する。ニューラルネットワーク生成装置３００Ｂは、第一実施形態のニューラルネットワーク生成装置３００と比較して、学習工程（Ｓ１４－１）のみが異なる。以下、以下の本実施形態における学習工程（Ｓ１４－１）を説明する。

＜学習工程：学習済みパラメータ生成工程（Ｓ１４－１）＞
　学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。学習済みパラメータＰＭは、学習済みの重みｗ、量子化パラメータｑ、およびスケーリング係数ｓｆ等である。

　学習部３２２は、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を学習するとともに、スケーリング係数ｓｆ（スケーリングファクタまたはステップサイズともいう）を学習する。スケーリング係数ｓｆは、量子化された量子化演算出力データのスケールを示す係数であり、具体的には量子化演算出力データに対して乗算される係数である。

　図２６から図２８は、量子化演算におけるスケーリング係数ｓｆを説明する図である。
　量子化演算は、図２６に示すように、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）に基づいて２ビット（０，１，２，３）に量子化された量子化演算出力データを出力する。スケーリング係数ｓｆは、図２７および図２８に示すように、量子化演算出力データに対して乗算される係数である。なお、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）は、量子化演算における入力データの範囲に適したパラメータであって、例えば８ビット以上の多ビットのパラメータである。

　学習部３２２は、例えば、量子化演算における入力データの範囲と量子化演算出力データにスケーリング係数ｓｆを乗算したデータの範囲とが近付くようにスケーリング係数ｓｆを学習する。例えば、入力データの範囲が狭い場合、スケーリング係数ｓｆは小さくなる。また、入力データの範囲が広い場合、スケーリング係数ｓｆは大きくなる。このように学習したスケーリング係数ｓｆを量子化演算出力データに乗算することにより、学習部３２２は量子化演算に伴う精度低下を低減できる。

　スケーリング係数ｓｆは、例えばレイヤごとに学習されるパラメータである。この場合、学習部３２２は、量子化演算における入力データの範囲に最適なスケーリング係数ｓｆをレイヤごとに学習できる。なお、スケーリング係数ｓｆは、レイヤごとに学習される態様に限定されず、例えば要素Ｏ（ｄｉ）ごとに学習されてもよい。

　学習部３２２は、第一実施形態と同様に、学習済みパラメータを生成する際に畳み込み演算に関連する演算を高精度化する。本実施形態において、学習部３２２は、量子化演算出力データに対してスケーリング係数ｓｆを乗算したデータを畳み込み演算の入力データとして使用する。畳み込み演算の高精度化および量子化演算出力データに対するスケーリング係数ｓｆの適用により、学習部３２２は、演算における中間データの精度低下を防止して、より高い推論精度を実現できる学習済みパラメータＰＭを生成できる。

　一方、ＮＮ実行モデル１００において、量子化演算出力データは２ビットであり、スケーリング係数ｓｆは量子化演算出力データに対して直接乗算されない。そのため、学習時ではなく推論時に用いられる学習済みのＮＮ実行モデル１００（ＮＮ実行モデル１００および学習済みパラメータＰＭを含む）においては、学習済みのスケーリング係数ｓｆは、他の演算のパラメータに組み込まれる。他の演算のパラメータは、学習済みパラメータＰＭやＮＮ実行モデル１００を制御するソフトウェアのパラメータであって、例えば、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）、活性化関数の閾値、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎのパラメータ、重みｗなどである。

　例えば、学習済みのスケーリング係数ｓｆは、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）に組み込まれる。具体的には、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）は、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）をスケーリング係数ｓｆにより除算した値に置換される。

　例えば、学習済みのスケーリング係数ｓｆは、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎのパラメータに組み込まれる。具体的には、式４に示すα(ｃ)は、α(ｃ)をスケーリング係数ｓｆにより除算した値に置換される。

　ＣＮＮ２００は、レイヤごとに実施する演算の種類が異なる場合がある。そのため、学習済みのスケーリング係数ｓｆは、各レイヤが実施する演算から適宜選択された演算のパラメータとして組み込まれる。

　本実施形態においては、学習部３３２が量子化された量子化演算出力データに対するスケーリング係数ｓｆを学習する例を示した。学習部３３２は、学習工程で学習される高精度化された重みｗをルックアップテーブル等により量子化する際に、量子化された重みｗに対するスケーリング係数を利用してもよい。学習部３３２は、量子化演算出力データに対するスケーリング係数ｓｆを学習する方法と同様の方法により、重みｗに対するスケーリング係数を学習できる。重みｗに対するスケーリング係数は、量子化演算出力データに対するスケーリング係数ｓｆと同様に、他の演算のパラメータに組み込まれる。

　以上説明したように、本実施形態に係るニューラルネットワーク生成装置３００Ｂ、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムによれば、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワーク実行モデル１００およびニューラルネットワークハードウェアモデル４００を生成できる。

　以上、本発明の第二実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（変形例１）
　上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

（変形例２）
　例えば、上記実施形態に記載のＮＮ実行モデル１００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ実行モデル１００に入力されるデータは、ニューラルネットワークハードウェアモデル４００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

（変形例３）
　ＮＮ実行モデル１００が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

　上述した実施形態におけるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　本発明は、ニューラルネットワークの生成に適用することができる。

３００，３００Ｂ　ニューラルネットワーク生成装置
２００　畳み込みニューラルネットワーク（ＣＮＮ）
１００　ニューラルネットワーク実行モデル（ＮＮ実行モデル）
４００　ニューラルネットワークハードウェアモデル
１　第一メモリ
２　第二メモリ
３　ＤＭＡコントローラ（ＤＭＡＣ）
４　畳み込み演算回路
４２　乗算器
４３　アキュムレータ回路
５　量子化演算回路
５２　ベクトル演算回路
５３　量子化回路
６　コントローラ
６１　レジスタ
ＰＭ　学習済みパラメータ
ＤＳ　学習データセット
ＨＷ　ハードウェア情報
ＮＷ　ネットワーク情報

Claims

　ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、
　前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報と、前記ニューラルネットワークのネットワーク情報と、に基づいて前記ニューラルネットワーク実行モデルを生成する実行モデル生成部と、
　生成された前記ニューラルネットワーク実行モデルの学習済みパラメータを生成する学習部と、
　を備える、
　ニューラルネットワーク生成装置。
　前記ハードウェア情報および前記ニューラルネットワーク実行モデルに基づいて、ニューラルネットワークハードウェアモデルを生成するハードウェア生成部をさらに備える、
　請求項１に記載のニューラルネットワーク生成装置。
　前記実行モデル生成部は、生成した前記ニューラルネットワーク実行モデルに基づいて、前記ニューラルネットワーク実行モデルにおいて実施する畳み込み演算を分割する、
　請求項１または請求項２に記載のニューラルネットワーク生成装置。
　前記学習部は、前記学習済みパラメータを生成する際に実施する関連する演算を、前記ニューラルネットワーク実行モデルが実施する演算より高精度化する、
　請求項１から請求項３のいずれか一項に記載のニューラルネットワーク生成装置。
　前記ニューラルネットワーク実行モデルは、畳み込み演算を実施する畳み込み演算回路と、量子化演算を実施する量子化演算回路と、を備える、
　請求項１から請求項３のいずれか一項に記載のニューラルネットワーク生成装置。
　前記学習部は、前記学習済みパラメータを生成する際に実施する畳み込み演算を、前記畳み込み演算回路が実施する畳み込み演算より高精度化する、
　請求項５に記載のニューラルネットワーク生成装置。
　前記学習部は、前記量子化演算回路が前記量子化演算に用いる量子化パラメータを学習する、
　請求項５に記載のニューラルネットワーク生成装置。
　前記学習部は、前記量子化パラメータを学習する際に、前記量子化パラメータにより量子化された量子化演算出力データに対するスケーリング係数を学習する、
　請求項７に記載のニューラルネットワーク生成装置。
　ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成方法であって、
　前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報を取得するハードウェア情報取得工程と、
　前記ニューラルネットワークのネットワーク情報を設定するネットワーク情報取得工程と、
　前記ハードウェア情報と前記ネットワーク情報とに基づいて、前記ニューラルネットワーク実行モデルを生成する実行モデル生成工程と、
　生成された前記ニューラルネットワーク実行モデルの学習パラメータを学習する学習工程と、
　を備える、
　ニューラルネットワーク生成方法。
　前記ハードウェア情報および前記ニューラルネットワーク実行モデルに基づいて、ニューラルネットワークハードウェアモデルを生成する出力工程をさらに備える、
　請求項９に記載のニューラルネットワーク生成方法。
　前記実行モデル生成工程は、生成した前記ニューラルネットワーク実行モデルに基づいて、前記ニューラルネットワーク実行モデルにおいて実施する畳み込み演算を分割する、
　請求項９または請求項１０に記載のニューラルネットワーク生成方法。
　前記学習工程は、前記学習パラメータを学習する際に実施する関連する演算を、前記ニューラルネットワーク実行モデルが実施する演算より高精度化する、
　請求項９から請求項１１のいずれか一項に記載のニューラルネットワーク生成方法。
　ニューラルネットワークを演算するニューラルネットワーク実行モデルをコンピュータに生成させるニューラルネットワーク生成プログラムであって、
　前記ニューラルネットワーク実行モデルが動作するハードウェアのハードウェア情報をコンピュータに取得させるハードウェア情報取得工程と、
　前記ニューラルネットワークのネットワーク情報をコンピュータに設定させるネットワーク情報取得工程と、
　前記ハードウェア情報と前記ネットワーク情報とに基づいて、前記ニューラルネットワーク実行モデルをコンピュータに生成させる実行モデル生成工程と、
　生成された前記ニューラルネットワーク実行モデルの学習パラメータをコンピュータに学習させる学習工程と、
　を備える、
　ニューラルネットワーク生成プログラム。
　前記ハードウェア情報および前記ニューラルネットワーク実行モデルに基づいて、ニューラルネットワークハードウェアモデルをコンピュータに生成させる出力工程をさらに備える、
　請求項１３に記載のニューラルネットワーク生成プログラム。
　前記実行モデル生成工程は、生成した前記ニューラルネットワーク実行モデルに基づいて、前記ニューラルネットワーク実行モデルにおいて実施する畳み込み演算を分割する、
　請求項１３または請求項１４に記載のニューラルネットワーク生成プログラム。
　前記学習工程は、前記学習パラメータを学習する際に実施する関連する演算を、前記ニューラルネットワーク実行モデルが実施する演算より高精度化する、
　請求項１３から請求項１５のいずれか一項に記載のニューラルネットワーク生成プログラム。