JP7114528B2

JP7114528B2 - 推論装置、学習装置、推論方法及び学習方法

Info

Publication number: JP7114528B2
Application number: JP2019126591A
Authority: JP
Inventors: 敦司谷口; 昭行谷沢; 渉浅野; 修平新田; 幸辰坂田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2022-08-08
Anticipated expiration: 2039-07-08
Also published as: JP2021012553A; US20210012228A1

Description

本発明の実施形態は推論装置、学習装置、推論方法及び学習方法に関する。

エッジデバイス等で機械学習モデルを用いて推論処理を行う技術が従来から知られている。エッジデバイス等で推論処理を行う場合に、リソースの使用状況に合わせて推論処理の負荷を動的に調整できるようにする技術が求められている。一般に、機械学習モデルのサイズが小さいほど、推論処理の負荷は小さくなる。しかし、ニューラルネットワークをはじめとする機械学習モデルは、推論時に学習時とは異なるサイズに変更すると推論精度が大幅に低下する。

ＪｉａｈｕｉＹｕ，ＬｉｎｊｉｅＹａｎｇ，ＮｉｎｇＸｕ，ＪｉａｎｃｈａｏＹａｎｇ，ａｎｄＴｈｏｍａｓＨｕａｎｇ， "ＳｌｉｍｍａｂｌｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ"，ａｒｘｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８１２．０８９２８，２０１８．

従来の技術では、推論精度の低下を抑えながら、機械学習モデルを任意のサイズに変更することが難しかった。

実施形態の推論装置は、第１の機械学習モデルを前記第１の機械学習モデルよりもサイズが小さい第２の機械学習モデルに変更する推論装置であって、取得部と分解部と設定部と変更部と推論部とを備える。取得部は、第２の機械学習モデルの制御パラメータを取得する。分解部は、前記第１の機械学習モデルの重み係数のテンソルを、テンソル分解法によって２以上の分解テンソルに分解する。設定部は、前記制御パラメータに応じて、前記分解テンソルの幅を設定し、前記第２の機械学習モデルのサイズを設定する。変更部は、前記第１の機械学習モデルを、前記設定部により設定されたサイズを有する２以上の分解テンソルによって表される第２の機械学習モデルに変更する。推論部は、前記第２の機械学習モデルを使用して、入力データに応じた推論をする。前記重み係数のテンソルは、重み係数の行列である。前記分解テンソルは、Ｒ個の基底ベクトルにより構成される２以上の行列である。前記設定部は、前記Ｒ個の基底ベクトルからｒ（ｒ≦Ｒ）個の基底ベクトルを選択することによって、前記分解テンソルの幅を設定する。前記変更部は、前記第１の機械学習モデルを、前記設定部により設定された幅を有する２以上の分解テンソルによって表される第２の機械学習モデルに変更する。

第１実施形態の推論装置の機能構成の例を示す図。第１実施形態の分解部の分解処理の例を示す図。第１実施形態の重み行列の幅について説明するための図。第１実施形態の幅ｒの設定例（一様な場合）を示す図。第１実施形態の幅ｒの設定例（非一様な場合）を示す図。第１実施形態の変更部の変更処理の例を示す図。第２実施形態の推論システムの装置構成の例を示す図。第２実施形態の学習装置の機能構成の例を示す図。第１及び第２実施形態の効果を説明するための図。第３実施形態の自動運転システムの構成の例を示す図。第１乃至第３実施形態の推論装置及び学習装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、推論装置、学習装置、推論方法及び学習方法の実施形態を詳細に説明する。

（第１実施形態）
第１実施形態では、機械学習モデルとして多層のニューラルネットワークを用いる場合を例にして説明する。なお、機械学習モデルは、多層のニューラルネットワークに限らず、サポートベクターマシンなどの他のモデルでもよい。また、ニューラルネットワークは全結合型について説明するが、畳み込み型などであってもよい。第１実施形態の説明では、重み係数のテンソルは、行列（階数２のテンソル）として説明を行う。なお、畳み込み型の場合は、横幅×縦幅×入力チャネル×出力チャネルの階数４のテンソルを（横幅×縦幅×入力チャネル）×出力チャネルというように行列に変換できる。制御パラメータとして直接モデルサイズを取得する場合について説明する。消費電力やメモリ容量などの所望のハードウェア性能を元にモデルサイズを決めてもよい。

［機能構成の例］
図１は第１実施形態の推論装置１０の機能構成の例を示す図である。第１実施形態の推論装置１０は、モデル取得部１１、分解部１２、モデルサイズ取得部１３、設定部１４、変更部１５、入力データ取得部１６及び推論部１７を備える。

モデル取得部１１は、機械学習モデルを取得する。モデル取得部１１は、例えば学習装置から機械学習モデルを取得する。なお、学習装置については第２実施形態で説明する。

分解部は、機械学習モデル（第１の機械学習モデル）の重み係数のテンソルを、テンソル分解法によって２以上のテンソル（分解テンソル）に分解する。第１実施形態では、分解部１２は、モデル取得部１１により取得された機械学習モデルの重み行列Ｗを分解する。

図２は第１実施形態の分解部１２の分解処理の例を示す図である。図２の例は、ｍ×ｎサイズの重み行列Ｗを幅Ｒの二つの行列に分解する場合を示す。重み行列Ｗの各成分は、実数値の重みを示す。分解方法は、例えば特異値分解（ＳＶＤ：ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）を用いて、図２のように分解する。なお分解部１２は、他の分解方法を用いて重み行列Ｗを三つ以上に分解してもよい。

分解部１２は、１≦Ｒ≦ｍｉｎ（ｍ，ｎ）の範囲でＲを決定する。具体的には、Ｒは、基底ベクトル（ＵＳの各列またはＶ^Ｔの各行）のうち、寄与度が低い基底ベクトルを削除後に残った数である。ｊ（＝１，…，ｍｉｎ（ｍ，ｎ））番目の各基底ベクトルの寄与度α_ｊは、例えば特異値の大きさに基づいて計算される。第１実施形態では、寄与度α_ｊは、特異値を最大値で正規化する下記式（１）を用いて計算される。

ここでσ_ｊは、ｊ番目の基底ベクトルの特異値（対角行列Ｓの対角成分）を表す。なお寄与度として、分散基準、情報量基準及び判別基準などを用いてもよい。分解部１２は、Ｒ個の各基底の寄与度及びパラメータ数を含むモデル情報を設定部１４へ入力する。パラメータ数は、重み行列Ｕ_ＲＳ_Ｒの成分（重み係数）の数ｍＲ、及び、重み行列Ｖ_Ｒ ^Ｔの成分の数Ｒｎの和である。また、分解部１２は、分解された重み行列の重み係数（重み行列Ｕ_ＲＳ_Ｒの重み係数、及び、重み行列Ｖ_Ｒ ^Ｔの重み係数）を変更部１５に入力する。

ニューラルネットワークが複数の層を持つ場合など、機械学習モデルが複数の重み行列Ｗを有する場合は、それぞれの重み行列Ｗについて上記分解処理を行ってもよい。なお、分解部１２の分解処理は、モデル取得部１１から入力された機械学習モデルに対して一度だけ実行されればよい。

図１に戻り、モデルサイズ取得部１３は、機械学習モデルのモデルサイズを取得すると、当該モデルサイズを設定部１４に入力する。モデルサイズは、変更部１５によって生成される機械学習モデル（第２の機械学習モデル）のサイズである。なお、モデルサイズは、推論装置１０のハードウェア性能を制御する制御パラメータの一例である。第１実施形態では、制御パラメータがモデルサイズである場合を例にして説明するが、制御パラメータはモデルサイズに限られない。制御パラメータは、例えばモデルサイズ、演算量、推論精度、推論速度、消費電力、メモリ量及びメモリ帯域の少なくとも１つを含む。

設定部１４は、モデルサイズに応じて、重み係数のテンソルの分解テンソルの幅を設定する。第１実施形態では、設定部１４は、モデルサイズ取得部１３からモデルサイズが入力されるたびに、重み行列Ｗの幅ｒとして（Ｕ_ｒＳ_ｒ）Ｖ_ｒ ^Ｔの幅ｒ（１≦ｒ≦Ｒ）を設定し、当該重み行列Ｗの幅ｒを示す幅情報を変更部１５へ入力する。

図３は第１実施形態の重み行列Ｗの幅ｒについて説明するための図である。重み行列Ｗの幅ｒは、分解された重み行列Ｕ_ＲＳ_Ｒの列数ｒ（分解された重み行列Ｖ_Ｒ ^Ｔの行数ｒ）によって決定される。設定部１４は、Ｒ個の基底ベクトルからｒ（１≦ｒ≦Ｒ）個の基底ベクトルを選択することによって、分解テンソル（図３では、重み行列Ｕ_ｒＳ_ｒ及び重み行列Ｖ_ｒ ^Ｔ）の幅を設定する。具体的には、設定部１４は、分解部１２から入力されるモデル情報をもとに、寄与度α_ｊの大きい基底ベクトルから基底ベクトルを追加して、目的のモデルサイズとなるまで、重み行列Ｗの幅ｒを増加させる。または、設定部１４は、寄与度α_ｊの小さい基底ベクトルから基底ベクトルを削除して、目的のモデルサイズとなるまで重み行列Ｗの幅ｒを減少させる。

機械学習モデルが複数の重み行列Ｗを有する場合は、設定部１４は、各重み行列Ｗが目的のサイズになるまで、独立に幅ｒの設定を行ってもよい。この場合は各重み行列Ｗのパラメータ数が同じであれば、幅ｒは一様になる。または設定部１４は、複数の重み行列Ｗに含まれる基底ベクトルの寄与度を大きい順または小さい順に一列に並べた上で、上記幅ｒの設定を行ってもよい。この場合は、寄与度の大きい基底ベクトルを含む重み行列Ｗの幅ｒが優先的に増加するため、各重み行列Ｗのパラメータ数が同じであっても、幅ｒは非一様になる。

図４Ａは第１実施形態の幅ｒの設定例（一様な場合）を示す図である。図４Ｂは第１実施形態の幅ｒの設定例（非一様な場合）を示す図である。図４Ａ及びＢの例は、５１２ノードをもつ中間層３つからならニューラルネットワークの幅ｒを設定した場合を示す。ｈ１～３は、中間層の階層を示す。非一様の方式では、図４Ｂに示すように、寄与度の大きい層（寄与度の大きい基底ベクトルをより多く含む重み行列Ｗに対応する層）ほど幅ｒが大きくなる。これらの各重み行列Ｗの幅ｒとモデルサイズとの関係はテーブル化して、推論装置１０で保持しておくとよい。なお、図４Ａ及びＢは、中間層３つからならニューラルネットワークの場合を例示しているが、中間層の層数は任意でよい。

図１に戻り、変更部１５は、制御パラメータに応じて、第１の機械学習モデルを第２の機械学習モデルに変更する。具体的には、変更部１５は、機械学習モデル（第１の機械学習モデル）を、設定部１４により設定された幅を有する２以上の分解テンソルによって表される機械学習モデル（第２の機械学習モデル）に変更する。第１実施形態では、変更部１５は、設定部１４から、幅ｒ（１≦ｒ≦Ｒ）を示す幅情報が入力されるたびに、重み行列Ｗの幅ｒを変更し、変更されたモデル（重み係数）を推論部１７に入力する。これにより重み行列Ｗのパラメータ数（重み係数の数）を、（ｍ＋ｎ）≦（ｍ＋ｎ）ｒ≦（ｍ＋ｎ）Ｒの範囲で変更できる。

図５は第１実施形態の変更部１５の変更処理の例を示す図である。図５の例は、中間層３つからなるニューラルネットワークの幅を変更する場合を示す。この場合、１層、２層、３層目につながる重み行列Ｗのそれぞれが、上述の分解処理によって、重み行列ＵＳ及びＶ^Ｔに分解される。変更部１５は、第１層につながる重み行列Ｗを、幅ｒ１の重み行列ＵＳ及びＶ^Ｔに変更し、第２層につながる重み行列Ｗを、幅ｒ２の重み行列ＵＳ及びＶ^Ｔに変更し、第３層につながる重み行列Ｗを、幅ｒ３の重み行列ＵＳ及びＶ^Ｔに変更することにより、機械学習モデルを変更する。

また、変更部１５は、モデルが正規化処理を有する場合、幅ｒ（１≦ｒ≦Ｒ）に基づいて、正規化処理のパラメータを変更することで、幅変更の影響を補正する。例えば、変更部１５は、機械学習モデルが正規化処理をする正規化層を含む場合、正規化処理で使用されるパラメータを、設定部１４により設定された幅に応じて補正する。第１実施形態ではニューラルネットワークがＢａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ層を有する場合に、平均及び分散のパラメータを補正する場合について説明する。

Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ層は、重み行列Ｗによる入力ｘの射影後のベクトルｙを、以下のように正規化する。

ここで、Γ、βは学習で決定されるスケールおよびバイアスパラメータ、μ、Ｚが学習で決定される平均および分散のパラメータである。変更部１５は、幅ｒを用いて、μ、Ｚの補正値μｒ、Ｚｒを以下のように計算する。

ここでΣは、学習サンプルを用いて計算されたｙの共分散行列である。ＺｒはΣｒの対角成分のみを取出した対角行列である。

このように、ニューラルネットワークの推論において、第１実施形態の推論装置１０では、分解部１２が、機械学習モデルの重み係数の行列Ｗを、行列分解法を用いて複数に分割する。変形部１５が、推論時に指定される行列の幅ｒに基づいて行列を変形する。ニューラルネットワークが正規化層を持つ場合には、推論時に指定される幅ｒに応じて、正規化層のパラメータを変更する。第１実施形態により、幅ｒを制御することで、なるべく推論精度を保ちながら、機械学習モデルを任意のモデルサイズに変更できる。

図１に戻り、入力データ取得部１６は、画像等の入力データを取得する。

推論部１７は、入力データ取得部１６から入力データが入力されるたびに、推論処理を行い、結果を出力する。ここでの推論処理とはニューラルネットワークの順伝播を表す。推論部１７は変更部１５から変更された機械学習モデル（重み係数）が入力されない限り、入力に対して同一の機械学習モデルを使い続ける。

以上説明したように、第１実施形態の推論装置１０では、分解部１２が、第１の機械学習モデルの重み係数のテンソル（第１実施形態では、重み行列Ｗ）を、テンソル分解法によって２以上の分解テンソルに分解する。モデルサイズ取得部１３は、機械学習モデルのモデルサイズを取得する。設定部１４は、モデルサイズに応じて、分解テンソルの幅を設定する。変更部１５は、第１の機械学習モデルを、設定部１４により設定された幅を有する２以上の分解テンソルによって表される第２の機械学習モデルに変更する。推論部１７は、第２の機械学習モデルを使用して、入力データに応じた推論をする。

これにより第１実施形態の推論装置１０によれば、推論精度の低下を抑えながら、機械学習モデルを任意のサイズに変更することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態では、第１実施形態と同様の説明については省略する。第２実施形態では、機械学習モデルとして多層のニューラルネットワークを用いる場合を例に説明する。なお、機械学習モデルは、多層のニューラルネットワークに限らず、サポートベクターマシンなどの他のモデルを用いてもよい。重み係数のテンソルは、行列（階数２のテンソル）として説明を行う。制御パラメータとしてモデルサイズを用いる場合について説明する。消費電力やメモリ容量などの所望のハードウェア性能を元にモデルサイズを決めてもよい。

［装置構成の例］
図６は第２実施形態の推論システム１００の装置構成の例を示す図である。第２実施形態の推論システム１００は、推論装置１０及び学習装置２０を備える。推論装置１０の説明は、第１実施形態と同様であるので省略する。学習装置２０は、モデルを学習データによって、機械学習し、学習済みモデルを推論装置１０に入力する。なお、第２実施形態では、推論装置１０及び学習装置２０を備える推論システム１００として説明するが、学習装置２０単体でシステムを構成してもよい。

［機能構成の例］
図７は第２実施形態の学習装置２０の機能構成の例を示す図である。第２実施形態の学習装置２０は、モデル取得部２１、学習データ取得部２２、近似部２３、損失計算部２４、勾配計算部２５、勾配集積部２６及び更新部２７を備える。

モデル取得部２１は、学習開始時には、外部からモデルを受け取り、当該モデルの初期化を行う。また、モデル取得部２１は、学習中は、各ステップにおいて更新されたモデルを受け取る。また、モデル取得部２１は、学習終了時には、学習済みモデルを推論装置１０に入力する。

学習データ取得部２２は、学習開始時に外部から学習データを受け取る。学習データは、モデルの入力データと、教師データとを含む。教師データは、入力データに対応するモデルの出力データ（正解ラベル）を示す。学習データ取得部２２は、学習中の各ステップでは、入力データの全てまたは一部を、幅Ａ～Ｃモデル１０１ａ～ｃに入力し、教師データの全てまたは一部を損失計算部２４に入力する。

近似部２３は、ｍ×ｎサイズの重み行列Ｗを、よりランクの低い重み行列Ｗ_ｒに近似する。近似方法は、例えば上述の特異値分解を用いて、Ｗｒ＝Ｕ_ｒＳ_ｒＶ_ｒ ^Ｔとする。次数ｒ（上述の幅ｒ）には、１≦ｒ≦ｍｉｎ（ｍ，ｎ）の範囲で予め決定された値、累積寄与率などを用いて計算された値、及び、ランダムに選択された値などが用いられる。

なお、モデルが複数の重み行列Ｗを有する場合は、近似部２３は、全ての重み行列Ｗを近似しても良いし、一部の重み行列Ｗを選択して近似しても良い。重み行列Ｗ_ｒに含まれるｒ個の基底の選択に当たっては、第１実施形態の設定部１４と同様に、特異値などに基づいて定められた寄与度が大きいものから選択するとよい。近似部２３は、上述の近似方法で単一のモデルから、ランクｒの異なる複数の近似モデルを生成する。なお、近似モデルの数は、３つに限らず任意でよい。

図７の例では、近似部２３は、近似モデルとして、幅Ａ～Ｃモデル１０１ａ～ｃを生成する。幅Ａモデル１０１ａは、幅ｒ＝Ａである重み行列Ｗ_Ａによって表されるモデルである。幅Ｂモデル１０１ｂは、幅ｒ＝Ｂである重み行列Ｗ_Ｂによって表されるモデルである。幅Ｃモデル１０１ｃは、幅ｒ＝Ｃである重み行列Ｗ_Ｃによって表されるモデルである。近似モデルは、それぞれの重み行列Ｗ_Ａ～Ｗ_ｃ以外の全てのパラメータを共有して処理を行う。

損失計算部２４は、各ランクｒｉ（ｉ＝１，…，Ｍ）の近似モデルについて、損失関数Ｌ_ｉ（Ｄ，Ｗ_ｒｉ，Θ）（ｉ＝１，…，Ｍ）を計算する。ここで、Ｍはモデル数であり、例えば、図７に示す三つのモデルを用いる場合はＭ＝３である。Ｄは学習データである。Ｌ_ｉは損失関数であり、分類問題などでは例えばクロスエントロピー関数などを用いる。Ｗ_ｒｉは、ランクｒｉの近似モデルの重み行列を表す。ΘはＷ_ｒｉ以外の全ての学習可能なパラメータを表す。なお損失関数に、重みのＬ_２正則化などの正則化関数を追加してもよい。

勾配計算部２５は、各近似モデルについて、下記式（９）及び（１０）により、損失関数を微分して勾配を計算する。

ここで、上記式（９）の重み行列Ｗに関する微分は、各近似モデルの重み行列Ｗ_ｒｉについてではなく、近似前の重み行列Ｗに関して計算する。具体的には例えば、下記式（１１）又は（１２）により計算する。

ここでＵ_ｒｉおよびＶ_ｒｉは、ランクｒｉに近似した際に得られる行列である。

勾配集積部２６は、各近似モデルの勾配を集積して更新部２７へ入力する。具体的には、勾配集積部２６は、下記式（１３）及び（１４）によって、各近似モデルの勾配を集積する。

ここでα_ｉ，β_ｉ（ｉ＝１，…，Ｍ）は、各損失の加重を表す係数である。α_ｉ，β_ｉは、例えば予め決定された値、各モデルのランク（幅ｒ）に応じて計算される値、及び、学習の進捗によって決定される値などである。なお損失関数に、重みのＬ_２正則化などの正則化関数を追加する場合は、上記式（１３）及び（１４）に正則化関数の勾配を加える。

更新部２７は、勾配集積部２６で集積された勾配を使って、複数の近似モデルに対して同時に損失関数を最小化することによって、学習対象のモデルのパラメータを更新する。更新方法は、ｍｏｍｅｎｔｕｍ－ＳＧＤ及びＡｄａｍなどの確率的勾配法を用いるとよい。

以上説明したように、第２実施形態の推論システム１００は、推論装置１０及び学習装置２０を備える。推論装置１０は、上述の幅ｒを制御することで、なるべく推論精度を保ちながら、機械学習モデルを任意のモデルサイズの近似モデルに変更する（図３参照）。

学習装置２０では、モデル取得部２１が、学習対象のモデルを取得する。近似部２３が、モデルの重み係数のテンソル（第２実施形態では重み行列Ｗ）を、テンソル分解法によって得られる２以上の分解テンソルに分解し、モデルを、幅の異なる複数の分解テンソルによって表された複数の近似モデル（第２実施形態では、幅Ａ～Ｃモデル１０１ａ～ｃ）に近似する。学習データ取得部２２が、入力データと教師データとを含む学習データを取得し、入力データを複数の近似モデルに入力する。損失計算部２４が、教師データと、複数の近似モデルから入力データに応じて出力される出力データとを使用して、複数の近似モデルそれぞれの損失関数を計算する。勾配計算部２５が、それぞれの損失関数の勾配を計算する。集積部２６が、勾配を集積する。そして、更新部２７が、集積された勾配に基づいて、複数の近似モデルの損失関数が最小化されるようにして、学習対象のモデルのパラメータを更新する。

すなわち、学習装置２０では、推論装置１０によって、複数の行列のランク（幅ｒ）で近似モデルが実行されることを想定して、複数の幅ｒの近似モデルでの損失関数の勾配を計算しながらモデルを学習する。これにより、機械学習モデルを、なるべく推論精度を保ちながら任意のサイズに変更できるようにする。

図８は第１及び第２実施形態の効果を説明するための図である。図８の例は、１０クラス一般物体認識のデータセット（ＣＩＦＡＲ１０）において、１５層の畳み込み型ニューラルネットワークを使用した場合を示す。縦軸は分類精度を示す。横軸はモデルサイズを示す。

グラフ２０１～２０３は、推論装置１０及び学習装置２０を備える認識システム１００による結果を示す。グラフ２０１は、推論装置１０で、Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ層のパラメータ補正があり、幅ｒの設定が非一様（特異値順）に行われている場合を示す。グラフ２０２は、推論装置１０で、Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ層のパラメータ補正があり、幅ｒの設定が一様に行われている場合を示す。グラフ２０３は、推論装置１０で、Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ層のパラメータ補正がなく、幅ｒの設定が一様に行われている場合を示す。

グラフ２０４は、推論装置１０による結果を示す。グラフ２０４は、Ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ層のパラメータ補正がなく、幅ｒの設定が一様に行われている場合を示す。

（第３実施形態）
次に第３実施形態について説明する。第３実施形態では、第１実施形態と同様の説明については省略する。第３実施形態では、具体例として、推論装置１０を自動運転システムで利用する場合について説明する。自動運転システムは、車両の運転を補助するシステムである。例えば、自動運転システムは、車両に取り付けられたカメラにより撮像された画像を認識し、認識結果に基づき、車両の運転制御を実行する。例えば、自動運転システムは、歩行者、車両、信号、標識及び車線等を認識して、車両の運転制御を実行する。

［構成の例］
図９は第３実施形態の自動運転システム２００の構成の例を示す図である。第３実施形態の自動運転システム２００は、推論装置１０、取得装置３０及び車両制御装置４０を備える。

取得装置３０は、車両に取り付けられたカメラにより撮像された画像を取得する。装置３０は、取得された画像を推論装置１０に入力する。

推論装置１０は、制御パラメータを取得する。制御パラメータは、例えば車両に搭載された計算リソースの使用状況や複数の処理装置の優先度である。例えば、自動運転システム２００で複数の処理が実行される場合、推論装置１０は、推論処理の優先度が高いほど、大きいモデルサイズを設定する。推論装置１０は、撮像された画像から歩行者、車両、信号、標識及び車線等のオブジェクトを認識する。推論装置１０は、例えば第２実施形態の学習装置２０により最適化されている。なお、学習装置２０が、自動運転システム２００に含まれていてもよい。

車両制御装置４０は、推論装置１０から入力された認識結果に基づき、制御処理を実行する。例えば、車両制御装置４０は、車両を制御したり運転者に警告を与えたりする。

第３実施形態の自動運転システム２００は、なるべく推論精度を保ちながら任意のモデルサイズに変更できるモデルを用いている。これにより、第３実施形態の自動運転システム２００によれば、推論装置１０が、自動運転システム２００における推論処理の優先度に応じてモデルサイズを変更することで、自動運転システム２００の消費電力などを削減することができる。

なお、第１及び第２実施形態の推論装置１０および学習装置２０は、自動運転システム２００に限らず他のアプリケーションに適用することもできる。

例えば、推論装置１０は、インフラストラクチャメンテナンスシステムに適用することができる。インフラストラクチャメンテナンスシステムに適用された推論装置１０は、ドローン等に搭載されたカメラにより撮像された画像から、飛行経路の計画を行ったり、鉄橋または橋等の劣化度等を検出したりする。

また例えば、推論装置１０をロボット制御システムに適用することができる。ロボット制御システムに適用された推論装置１０は、搭載されたセンサ、カメラにより撮像された画像などから、ロボットの動作を制御する。

また例えば、推論装置１０をＰＯＳ／サイネージシステムに適用することができる。ＰＯＳ／サイネージシステムに適用された推論装置１０は、搭載されたカメラにより撮像された画像から、顧客の属性推定、リコメンデーションなどを行う。

また例えば、推論装置１０をスマートフォンなどの端末に適用することができる。スマートフォンなどの端末に適用された推論装置１０は、搭載されたカメラにより撮像された画像を認識したり、画面から入力されるテキストを認識したり、スピーカーから入力される音声を認識したりする。

これらのシステム（インフラストラクチャメンテナンスシステム、ロボット制御システム、ＰＯＳ／サイネージシステム、及び、スマートフォンなど）に適用された推論装置１０は、第３実施形態の自動運転システム２００と同様に、システム内における推論装置１０の推論処理の優先度によって、モデルサイズを変更することで消費電力などを削減することができる。

また例えば、推論装置１０は、監視システムに適用できる。監視システムに適用された推論装置１０は、エレベーター、鉄道車両、工場、照明及び街頭などに設置されたカメラにより撮像された画像から、周囲の状況を監視して異常があれば知らせる。これらに適用された推論装置１０は、時間帯や混雑状況により、モデルサイズを変更することで消費電力などを削減することができる。

最後に、第１乃至第３実施形態の推論装置１０及び学習装置２０のハードウェア構成の例について説明する。

［ハードウェア構成の例］
図１０は第１乃至第３実施形態の推論装置１０及び学習装置２０のハードウェア構成の例を示す図である。

推論装置１０は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６は、バス３１０を介して接続されている。

制御装置３０１は、補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。主記憶装置３０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置３０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、及び、メモリカード等である。

表示装置３０４は表示情報を表示する。表示装置３０４は、例えば液晶ディスプレイ等である。入力装置３０５は、コンピュータを操作するためのインタフェースである。入力装置３０５は、例えばキーボードやマウス等である。コンピュータがスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置３０４及び入力装置３０５は、例えばタッチパネルである。通信装置３０６は、他の装置と通信するためのインタフェースである。

コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、メモリカード、ＣＤ－Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

またコンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

またコンピュータで実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

コンピュータで実行されるプログラムは、上述の推論装置１０の機能構成（機能ブロック）のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置３０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置３０２上にロードされる。すなわち上記各機能ブロックは主記憶装置３０２上に生成される。

なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２つ以上を実現してもよい。

また推論装置１０を実現するコンピュータの動作形態は任意でよい。例えば、推論装置１０を１台のコンピュータにより実現してもよい。また例えば、推論装置１０を、ネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０推論装置
１１モデル取得部
１２分解部
１３モデルサイズ取得部
１４設定部
１５変更部
１６入力データ取得部
１７推論部
２０学習装置
２１モデル取得部
２２学習データ取得部
２３近似部
２４損失計算部
２５勾配計算部
２６集積部
２７更新部
３０取得装置
４０車両制御装置
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置

Claims

第１の機械学習モデルを前記第１の機械学習モデルよりもサイズが小さい第２の機械学習モデルに変更する推論装置であって、
前記第２の機械学習モデルの制御パラメータを取得する取得部と、
前記第１の機械学習モデルの重み係数のテンソルを、テンソル分解法によって２以上の分解テンソルに分解する分解部と、
前記制御パラメータに応じて、前記分解テンソルの幅を設定し、前記第２の機械学習モデルのサイズを設定する設定部と、
前記第１の機械学習モデルを、前記設定部により設定されたサイズを有する２以上の分解テンソルによって表される前記第２の機械学習モデルに変更する変更部と、
前記第２の機械学習モデルを使用して、入力データに応じた推論をする推論部と、を備え、
前記重み係数のテンソルは、重み係数の行列であり、
前記分解テンソルは、Ｒ個の基底ベクトルにより構成される２以上の行列であり、
前記設定部は、前記Ｒ個の基底ベクトルからｒ（ｒ≦Ｒ）個の基底ベクトルを選択することによって、前記分解テンソルの幅を設定し、
前記変更部は、前記第１の機械学習モデルを、前記設定部により設定された幅を有する２以上の分解テンソルによって表される第２の機械学習モデルに変更する、
推論装置。
第１の機械学習モデルを前記第１の機械学習モデルよりもサイズが小さい第２の機械学習モデルに変更する推論装置であって、
前記第２の機械学習モデルの制御パラメータを取得する取得部と、
前記第１の機械学習モデルの重み係数のテンソルを、テンソル分解法によって２以上の分解テンソルに分解する分解部と、
前記制御パラメータに応じて、前記分解テンソルの幅を設定し、前記第２の機械学習モデルのサイズを設定する設定部と、
前記第１の機械学習モデルを、前記設定部により設定されたサイズを有する２以上の分解テンソルによって表される前記第２の機械学習モデルに変更する変更部と、
前記第２の機械学習モデルを使用して、入力データに応じた推論をする推論部と、を備え、
前記変更部は、前記第１の機械学習モデルを、前記設定部により設定された幅を有する２以上の分解テンソルによって表される第２の機械学習モデルに変更し、
前記変更部は、前記第１の機械学習モデルが正規化処理をする正規化層を含む場合、正規化処理で使用されるパラメータを、前記設定部により設定された幅に応じて補正する、
推論装置。
前記制御パラメータは、前記推論装置のハードウェア性能を制御するパラメータであり、モデルサイズ、演算量、推論精度、推論速度、消費電力、メモリ量及びメモリ帯域の少なくとも１つを含む、
請求項１または２に記載の推論装置。
前記設定部は、前記基底ベクトルの寄与度が大きい順に、ｒ個の基底ベクトルを選択することによって、前記分解テンソルの幅を設定する、
請求項１に記載の推論装置。
前記分解部は、前記重み係数の行列の特異値分解に基づいて、前記重み係数の行列を分解し、
前記設定部は、特異値に基づいて定められた寄与度が大きい順に、ｒ個の基底ベクトルを選択することによって、前記分解テンソルの幅を設定する、
請求項１に記載の推論装置。
学習対象のモデルを取得するモデル取得部と、
前記モデルの重み係数のテンソルを、テンソル分解法によって得られる２以上の分解テンソルに分解し、前記モデルを、幅の異なる複数の前記分解テンソルによって表された複数の近似モデルに近似する近似部と、
入力データと教師データとを含む学習データを取得し、前記入力データを前記複数の近似モデルに入力する学習データ取得部と、
前記教師データと、前記複数の近似モデルから前記入力データに応じて出力される出力データとを使用して、前記複数の近似モデルそれぞれの損失関数を計算する損失計算部と、
前記それぞれの損失関数の勾配を計算する勾配計算部と、
前記勾配を集積する集積部と、
前記集積された勾配に基づいて、前記複数の近似モデルの損失関数が最小化されるようにして、前記学習対象のモデルのパラメータを更新する更新部と、
を備える学習装置。
第１の機械学習モデルを前記第１の機械学習モデルよりもサイズが小さい第２の機械学習モデルに変更する推論装置の推論方法であって、
第２の機械学習モデルの制御パラメータを取得するステップと、
前記第１の機械学習モデルの重み係数のテンソルを、テンソル分解法によって２以上の分解テンソルに分解するステップと、
前記制御パラメータに応じて、前記分解テンソルの幅を設定し、前記第２の機械学習モデルのサイズを設定するステップと、
前記第１の機械学習モデルを、前記設定するステップにより設定されたサイズを有する２以上の分解テンソルによって表される第２の機械学習モデルに変更するステップと、
前記第２の機械学習モデルを使用して、入力データに応じた推論をするステップと、を含み、
前記重み係数のテンソルは、重み係数の行列であり、
前記分解テンソルは、Ｒ個の基底ベクトルにより構成される２以上の行列であり、
前記設定するステップは、前記Ｒ個の基底ベクトルからｒ（ｒ≦Ｒ）個の基底ベクトルを選択することによって、前記分解テンソルの幅を設定し、
前記変更するステップは、前記第１の機械学習モデルを、前記設定するステップにより設定された幅を有する２以上の分解テンソルによって表される第２の機械学習モデルに変更する、
推論方法。
第１の機械学習モデルを前記第１の機械学習モデルよりもサイズが小さい第２の機械学習モデルに変更する推論装置の推論方法であって、
前記第２の機械学習モデルの制御パラメータを取得するステップと、
前記第１の機械学習モデルの重み係数のテンソルを、テンソル分解法によって２以上の分解テンソルに分解するステップと、
前記制御パラメータに応じて、前記分解テンソルの幅を設定し、前記第２の機械学習モデルのサイズを設定するステップと、
前記第１の機械学習モデルを、前記設定するステップにより設定されたサイズを有する２以上の分解テンソルによって表される前記第２の機械学習モデルに変更するステップと、
前記第２の機械学習モデルを使用して、入力データに応じた推論をするステップと、を含み、
前記変更するステップは、前記第１の機械学習モデルを、前記設定するステップにより設定された幅を有する２以上の分解テンソルによって表される第２の機械学習モデルに変更し、
前記変更するステップは、前記第１の機械学習モデルが正規化処理をする正規化層を含む場合、正規化処理で使用されるパラメータを、前記設定するステップにより設定された幅に応じて補正する、
推論方法。
学習対象のモデルを取得するステップと、
前記モデルの重み係数のテンソルを、テンソル分解法によって得られる２以上の分解テンソルに分解し、前記モデルを、幅の異なる複数の前記分解テンソルによって表された複数の近似モデルに近似するステップと、
入力データと教師データとを含む学習データを取得し、前記入力データを前記複数の近似モデルに入力するステップと、
前記教師データと、前記複数の近似モデルから前記入力データに応じて出力される出力データとを使用して、前記複数の近似モデルそれぞれの損失関数を計算するステップと、
前記それぞれの損失関数の勾配を計算するステップと、
前記勾配を集積するステップと、
前記集積された勾配に基づいて、前記複数の近似モデルの損失関数が最小化されるようにして、前記学習対象のモデルのパラメータを更新するステップと、
を含む学習方法。