JP7171520B2

JP7171520B2 - 機械学習システム

Info

Publication number: JP7171520B2
Application number: JP2019127431A
Authority: JP
Inventors: 洋内垣内
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2022-11-15
Anticipated expiration: 2039-07-09
Also published as: US20210012231A1; US11715036B2; JP2021012616A

Description

本発明は機械学習における学習及び推論処理の省電力化と高速化を実現する機械学習システムに関するものである。

近年、深層学習などに代表される機械学習アルゴリズムの進展により、計算機による画像や音声などの認識精度が向上した。これにより、自動運転や機械翻訳など、機械学習の応用例が急速に拡大している。

複雑な問題に機械学習を適用する際の課題の一つは、学習完了までに必要なモデルパラメタの更新回数が増大してしまうことである。モデルパラメタとは、例えばニューラルネットワークではニューロン間の接続係数に相当する。更新回数が増大すると、比例して演算回数が増え、学習時間が増大する。そのため、最近、モデルパラメタの更新回数が少なくても学習可能なアルゴリズムの研究が盛んである。ボルツマンマシンを用いた機械学習もその一つである。ボルツマンマシンを用いると、ニューラルネットワークを利用した場合と比較して、学習に必要なモデルパラメタの更新回数を減らせる場合があることがわかっている。これにより、複雑な問題でも短時間で学習することが可能となる。

特許文献１には、量子効果を用いた物理シミュレーションに関する技術が開示されており、特許文献２には、量子アニーリングを実現するためのハードウェア及びプログラミング技術が開示されている。

特開２０１８－６７２００号公報特表２０１７－５０７４３９号公報

背景記述に記したように、ボルツマンマシンを用いた機械学習は、ニューラルネットワークを用いた機械学習と比較して、モデルパラメタの更新回数を減らすことができる。ただし、モデルパラメタを１回更新するために必要な積和演算回数は、ニューラルネットワークを用いた場合と比較して増えてしまう。そのため、モデルパラメタを更新するために必要な積和演算回数を削減する技術が求められている。

特許文献１には、２値を取りうる複数のスピンからなる系（ボルツマンマシンやイジングモデルを含む）の物理量を算出する際、一時相転移を回避しつつ負符号問題を解決する技術が記載されている。これにより、これまで、負符号問題により物理量を算出することができなかった系においても、物理量を求めることができ、量子効果を用いて高速に物理量を算出することができる。ただし、学習に適用した際、モデルパラメタを更新するために必要な積和演算回数を削減することはできない。

また、特許文献２には、複数の量子スピンからなる系（ボルツマンマシンやイジングモデルを含む）を実装したハードウェアに関する技術が記載されている。これにより、量子スピン系の基底状態探索を高速に実行する事はできるが、学習に適用した際、モデルパラメタを更新するために必要な積和演算回数を削減することはできない。

本発明の目的は、ボルツマンマシンを機械学習に利用した場合、モデルパラメタを更新するために必要な積和演算回数を削減し、学習時間を短縮可能な技術を提供することである。

上記目的を解決する、機械学習システムの一態様は、学習部と、メモリを含む演算部とを有する機械学習システムであって、演算部は、メモリに、要求精度と学習器の内部状態と重み値を保持し、機械学習システムに入力された入力データと、メモリに保持された重み値とを用いて計算処理を実行することにより、メモリに保持された内部状態を更新し、計算処理の結果から内部状態の精度を算出し、算出された精度が要求精度より高い場合、機械学習システムに入力された入力データと、メモリに保持された重み値と、メモリに保持された更新された内部状態を用いて、評価値を計算し、評価値を学習部に送付し、学習部は、評価値を用いて、メモリに保持された重み値を更新し、重み値の更新回数を演算部に通知する。

本発明を用いることで、機械学習における学習及び推論処理の省電力化と高速化を実現でき、例えば、電力や回路規模の制限の厳しいエッジでの学習及び推論処理が可能となる。

機械学習システムの実施例を示す構成図である。機械学習システムの実施例の別の構成の例を示す構成図である。演算部の構成の一例を示す構成図である。演算制御部の構成の一例を示す構成図である。学習部の構成の一例を示す構成図である。ボルツマンマシンの構成の一例を示す説明図である。初期設定における、設定値の一例を示す表である。学習部が実行する学習の全体処理の一例を示すフローチャートである。学習部が実行する推論処理の一例を示すフローチャートである。演算部に入力する画像データの変換の一例を示す説明図である。演算部に入力する連続値データの変換の一例を示す説明図である。学習部が実行する重み更新処理の一例を示すフローチャートである。演算部が実行する演算の全体処理の一例を示すフローチャートである。演算部が実行する演算追加実行判定処理の一例を示すフローチャートである。演算の繰り返し回数と演算の精度の関係性の一例を示すグラフである。異なる学習ステップ数における、演算の繰り返し回数と演算の精度の関係性の違いの一例を示すグラフである。異なる要求精度における、学習ステップ数と要求精度を満たす演算の繰り返し回数の最小値の関係性の違いの一例を示すグラフである。

以下、本発明である機械学習システムの実施例を説明する。

機械学習システムの構成を図１及び図２に示す。機械学習システム１００は、機械学習を統括する上位システム(ホストシステム)や機械学習の指示を出すユーザ１０１と、学習で用いるデータを供給する環境、学習で用いるデータを保存するストレージやメモリ１０２と、学習を実行する学習部１０３と、学習に必要な演算を実行する演算部１０４により構成される。学習部１０３と接続されているのは、ホストシステムとユーザのいずれか一方だけでも、両方と接続されていても良い。

また、図１に示すように、環境、ストレージ、メモリ１０２のうち、いずれか１つのみが学習部１０３に接続されていても、２つ以上が接続されていてもよい。もしくは、図２に示すように、環境、ストレージ、メモリ１０２は、学習部１０３ではなくホストシステムもしくはユーザ１０１と接続されていてもよい。その場合、学習で用いるデータは、ホストシステムもしくはユーザ１０１を経由して学習部１０３に送られる。

ホストシステム１０１の例としては、学習部１０３を実行するオペレーティングシステムや仮想マシン、Ｄｏｃｋｅｒなどに代表されるコンテナや、それらを管理するソフトウェア及びそれらを実装するハードウェアなどが挙げられる。その場合、学習部１０３の例としては、ＴｅｎｓｏｒＦｌｏｗ、Ｋｅｒａｓ、Ｃａｆｆｅ、ＰｙＴｏｒｃｈ、Ｃｈａｉｎｅｒなどの機械学習フレームワークが挙げられ、演算部１０４の例としては、重み値を有するニューラルネットワークやボルツマンマシンの演算を実装した専用ハードウェア（ＡＳＩＣやＦＰＧＡ）や、それらの演算を記述したソフトウェアとＣＰＵやＧＰＵなどの汎用ハードウェアが挙げられる。

また、別の例として、ホストシステムがＴｅｎｓｏｒＦｌｏｗ、Ｋｅｒａｓ、Ｃａｆｆｅ、ＰｙＴｏｒｃｈ、Ｃｈａｉｎｅｒなどの機械学習フレームワークに対応する場合が挙げられる。その場合、学習部１０３及び演算部１０４は、より低レイヤの学習や演算を実行するソフトウェア、ハードウェア、もしくはそれらの組み合わせに対応する。図１及び図２に記載された矢印は、データやコマンドの流れを表す。各矢印に対応するデータやコマンドの詳細は、後述する。本明細書においては、学習部１０３と演算器１０４によって処理されるデータの集合を学習器と呼ぶ。

機械学習システム１００内の演算部１０４の構成の一例を図３に示す。演算部１０４は、データインターフェース部２０１と、メモリ２０４と、演算制御部２０３と、計算部２０２から構成される。データインターフェース部２０１は、学習部１０３とメモリ２０４間のデータ通信を行い、メモリ２０４は、データインターフェース部２０１と演算制御部２０３間のデータ通信を行い、演算制御部２０３は、メモリ２０４と計算部２０２間のデータ通信を行い、計算部２０２は、演算制御部２０３とデータ通信を行う。図３に記載された矢印は、データやコマンドの流れを表す。各矢印に対応するデータやコマンドの詳細は、後述する。

演算部１０４内の演算制御部２０３の構成の一例を図４に示す。演算制御部２０３は、初期計算制御部４０１と、精度計算部４０２と、精度比較部４０４と、計算結果統合部４０３と、追加計算制御部４０５から構成される。図４に記載された矢印は、データやコマンドの流れを表す。図４の矢印のうち、Ｇ、Ｈ、Ｉ、Ｊは、図３に示す計算部２０２とのデータ通信を表し、Ｋ、Ｌ、Ｍ、Ｎ、Ｏ、Ｐ、Ｑ、Ｒ、Ｓは、図３に示すメモリ２０４とのデータ通信を表す。各矢印に対応するデータやコマンドの詳細は、後述する。

機械学習システム内の学習部１０３の構成の一例を図５に示す。学習部１０３は、データインターフェース部５０１と、メモリ５０２と、初期重み処理部５０３、入力加工部５０４、学習ステップ管理部５０５、重み更新部５０６、結果加工部５０７から構成される。学習部１０３は、処理部であるＣＰＵ、メモリ、インタフェースを含む一般的な計算機で構成される。ＣＰＵが主記憶装置であるメモリに格納される初期重み処理プログラム、入力加工プログラム、学習ステップ管理プログラム、重み更新プログラム、結果加工プログラムを実行することで、図５に示した各機能を実現する。尚、各プログラムを格納するメモリは、図５に示したメモリ５０２と同じメモリであっても、異なるメモリで構成されていても良い。

図５に記載された矢印は、データやコマンドの流れを表す。矢印Ａ、Ｂは、データインターフェース部５０１と図１及び図２に記載されたホストシステム、ユーザ、環境、ストレージ、メモリ１０２、演算部１０４との間のデータ通信を表す。

機械学習システム１００の学習器に用いるボルツマンマシンの例を図６に示す。

ボルツマンマシンは、可視スピン６０１と隠れスピン６０２から構成される。各スピンは向きを有しており、上向きと下向きの２通り（２値）を取りうる。可視スピンが２つに分かれているのは、意味合いの異なる２種類のスピンを入力するためである。例えば、画像認識・分類に代表されるような教師付き学習では、可視スピン６０１ａは学習対象の画像データとなり、可視スピン６０１ｂは可視スピン６０１ａに入力された画像データの分類(例えば猫なのか犬なのか)に関する情報となる。

また、強化学習の場合、可視スピン６０１ａは環境からＡｇｅｎｔに返される状態に対応し、可視スピン６０１ｂはＡｇｅｎｔから環境に返答する行動(例えば右に向かうのか左に向かうのか)に対応する。

隠れスピンは、１つ以上の層(図中Ｈ［０］などのスピン１列分)から構成され、隠れスピンが１層の場合は制限ボルツマンマシン、２層以上の場合はディープボルツマンマシンと呼ばれる。図６中の例では、隣り合う層に属するスピン６０３間は全対全で結合しているが、結合の仕方はこの例に限らず、部分的に接続されていてもよい。結合の強さは、重み６０４と呼ばれ、数値で表現される。学習によって、この重みの値は更新される。

学習前の初期設定時に設定されるパラメタの一例を図７に示す。

パラメタは、学習実行前に、図１に記載されたホストシステムもしくはユーザ１０１から学習部１０３に送付される（図１の矢印Ｂ）。または、ホストシステムもしくはユーザ１０１から学習部１０３に送付されるコマンド（図１の矢印Ｂ）をトリガーとして、学習部１０３は、環境、ストレージ、もしくはメモリ１０２からパラメタを取得する（図１の矢印Ｄ）。

別の例では、図２に示すように、学習実行前に、ホストシステムもしくはユーザ１０１は、環境、ストレージ、もしくはメモリ１０２からパラメタを読み出す（図２の矢印Ｃ）。その後、ホストシステムもしくはユーザ１０１はパラメタを学習部１０３に送付する（図２の矢印Ｂ）。このようにして学習部１０３に送付されたパラメタのうち、一部は図５に記載された学習部１０３内のメモリ５０２に、データインターフェース部５０１経由で格納され（図５の矢印Ｂ及びＤ）、残りは、学習部１０３から演算部１０４に送付される（図１及び図２の矢印Ｆ）。

演算部１０４に送付された残りのパラメタは、図３に記載された演算部１０４内のメモリ２０４に、データインターフェース部２０１経由で格納される（図３の矢印Ｂ及びＤ）。

図７（ａ）は、学習部１０３に保存されるパラメタの一例を示す。表の上から順に学習係数、ユニット(スピン)の数、層数、最適化手法、学習ステップの最大値、学習の完了条件の一例を示す。

図７（ｂ）は、演算部１０４に保存されるパラメタの一例を示す。表の上から順に要求精度、初期計算回数、追加計算回数、最大計算回数の一例を示す。

学習部１０３の動作フローチャートの一例を図８に示す。

まず、ステップＳ８１で、学習部１０３は、ホストシステムもしくはユーザ１０１から学習開始コマンドを受領する（図１及び図２の矢印Ｂ）。ステップＳ８２で、学習コマンドを受領したことをトリガーとして、学習部１０３内の初期重み処理部５０３は、学習部１０３内のメモリ５０２からパラメタ（例えば図７（ａ）初期設定１）を読み出し（図５の矢印Ｅ）、初期の重み値を生成する。生成された初期の重み値はメモリ５０２に格納される（図５の矢印Ｆ）。初期の重み値とは、例えば図６に示すボルツマンマシンの重み値の初期値を意味する。

次に、ステップＳ８３で、メモリ５０２に格納された初期の重み値は、学習部１０３内のデータインターフェース部５０１経由で演算部１０４に送付される（図５の矢印ＣおよびＡ）。演算部１０４に送付された初期の重み値は、演算部１０４内のデータインターフェース部２０１経由で演算部１０４内のメモリ２０４に格納される（図３の矢印Ｂ及びＤ）。

次に、ステップＳ８４で、学習部１０３内部の学習ステップ管理部５０５は、学習ステップの値を０に初期化する。

ステップＳ８５で、学習処理を続けるか判定し、続けない場合(図８のＮＯ)は学習を終了する(Ｓ８６)。例えば、学習処理の対象データが画像データであり、画像データに犬や猫の画像を含む場合に、犬か猫かの判定を一定精度で行うことができるようになると終了する。

続ける場合(図８のＹＥＳ)は、次のステップＳ８７に進む。続けるか否かの判定基準は、学習前の初期設定時に設定される。一例としては、図７(a)に示すように、学習ステップの最大値に到達したか否か、学習の完了条件を満たしたか否かなどで判定される。現在の学習ステップの値は学習部１０３内部の学習ステップ管理部５０５が管理する。

Ｓ８７では推論処理を行う。ホストシステム１０１、環境、ストレージ、もしくはメモリ１０２（図１及び図２のメモリ１０２もしくは図５の学習部内部のメモリ５０２）から学習部１０３に送られたデータに対する推論処理が実行される。推論処理の詳細は後述する。

ステップＳ８８で、学習部１０３は、重み値の更新処理を実行する。ステップＳ８８の詳細は後述する。

ステップＳ８９で、学習部１０３内部の学習ステップ管理部５０５は、学習ステップの値を一つ増やす。その後動作はステップＳ８５に戻る。上記の例では、ステップＳ８５からステップＳ８９までを学習ステップ（１ステップ分）と呼ぶ。学習部１０３の動作は、学習ステップの繰り返しから構成される。

学習部１０３が実行する推論処理（Ｓ８７）の動作フローチャートの一例を図９に示す。

ステップＳ９１で、学習部１０３は、ホストシステム１０１、環境、ストレージ、もしくはメモリ１０２（図１及び図２のメモリ１０２もしくは図５の学習部内部のメモリ５０２）から、推論対象となるデータを取得する。どこからデータを取得するかは、機械学習の種類や学習過程によって異なる。例えば教師付き学習であれば、図１の矢印Ｄのように、ユーザなどが設定した単位（例えばミニバッチサイズ）でストレージ、もしくはメモリ１０２から取得する。もしくは図２の矢印Ｂのように、ホストシステム１０１経由でストレージ、もしくはメモリ１０２から取得する。また、強化学習であれば、図１の矢印Ｄや図２の矢印Ｂのように、環境から（ホストシステム経由で）データを取得する場合もあるし、図５の矢印Ｇのように、学習部内部のメモリ５０２から、過去に推論したデータをユーザなどが設定した単位（例えばミニバッチサイズ）で取得する場合もある（学習部内部のメモリ５０２がreplayメモリに相当）。

ステップＳ９２で、学習部内の入力加工部５０４は、ステップＳ９１で取得したデータを加工する。データ加工の例を図１０、図１１に示す。

図１０は、画像データを加工した場合の一例を示す。この例では、簡単のため画像データは白黒とし、各ピクセルに０から１２７までの整数値が割り当てられているとする。図６に示すように、ボルツマンマシンで推論処理を実行する場合、入力するデータを可視スピン１(可視スピン６０１ａ)のスピン配置、つまり上向き下向きの配置として表現する必要があるので、データを何らかの２値の配列に変換する必要がある。図１０に示す例では、各ピクセル値の整数を予め決めた変換規則に従って、２値（０ｏｒ１）の配列に変換している。例えば、ピクセル１００１を２値のデータ１００２に変換する。

図１１は、複数の連続値からなるデータを加工した場合の一例を示す。例えば古典制御（力学的な問題）を扱う場合、物体の点の位置や加速度は連続値として表現される。図１１に示すように、それらを予め決めた変換規則に従って２値（０ｏｒ１）の配列に変換し、可視スピン１(可視スピン６０１ａ)のスピン配列として学習器（ボルツマンマシン）に入力する。

ステップ９３で、学習部１０３は、加工されたデータを演算部１０４に送付する。具体的なデータの流れを、図５を用いて説明する。まず入力加工部５０４は加工したデータをメモリ５０２に送る（図５の矢印Ｈ）。次にデータインターフェース部５０１は加工済みデータをメモリ５０２から読み出し（図５の矢印Ｃ）、演算部１０４に送付する（図５の矢印Ａ及び図１と図２の矢印Ｆ）。

ステップＳ９４で、学習部１０３は、演算部１０４からの演算結果を受領する。演算部１０４から出力された演算結果は、学習部内部のデータインターフェース部５０１を経由して、学習部内部のメモリ５０２に保存される（図５の矢印Ｂ及びＤ）。演算部１０４で実行する演算処理の詳細は後述する。

ステップＳ９５で、学習部１０３は、演算部１０４から受領した演算結果を必要に応じて加工し、ホストシステム１０１や環境１０２へ送付する。演算結果の加工とは、教師付き学習においては、例えば、得られた各分類の出力値（演算結果）から最も出力値の高い分類番号を抽出する処理であり、強化学習においては、例えば、各行動に対する評価値（Ｑ値や行動選択確率、演算結果として演算部１０４から受領）に対して、一つの行動を選択する処理である。

学習部内部のメモリ５０２に保存された演算結果は、図５に示す結果加工部５０７によって読み出され、加工され、再び学習部内部のメモリ５０２に保存される（図５の矢印Ｍ及びＮ）。また、必要に応じて加工された演算結果は、メモリ５０２を経由して、データインターフェース部５０１によって、ホストシステム１０１や環境１０２へ送付される（図５の矢印Ｎ、Ｃ、Ａと図１の矢印ＡやＣ及び図２の矢印ＡやＤ）。以上で学習部１０３が実行する推論処理の動作は終了する（Ｓ９６）。

図８のステップＳ８８の学習部１０３が実行する重み値の更新処理の動作フローチャートの一例を図１２に示す。

ステップＳ１２１で、学習部内部の重み更新部５０６は、学習部内部のメモリ５０２に保存された演算結果もしくは加工された演算結果を読み出す（図５の矢印Ｋ）。

ステップＳ１２２で、学習部内部の重み更新部５０６は、読み出した演算結果もしくは加工された演算結果を基に、勾配値の計算を行う。ここで勾配値とは、学習における評価値と真値（もしくは真値に準ずる値）との誤差を、図６に示した学習器（ボルツマンマシン）の重みで偏微分した際の勾配の値である。誤差とは、教師付き学習においては、例えば、データが各分類に属する確率と正解ラベル（例えば正解分類番号の値が１で残りが０）との誤差である。また、強化学習においては、例えばＱ値と推定Ｑ値との誤差などである。また、ミニバッチ学習を行う場合は、複数のデータに対する上述の誤差の平均値の勾配値が計算される。計算した勾配値は、学習部内部のメモリ５０２に保存される（図５の矢印Ｌ）。

ステップＳ１２３で、学習部内部の重み更新部５０６は、ステップＳ１２２で計算した勾配値を、学習部内部のメモリ５０２から読み出し（図５の矢印Ｋ）、読み出した勾配値を基に、学習器（ボルツマンマシン）の重み(Ｗｅｉｇｈｔ)の更新量を計算する。重み(Ｗｅｉｇｈｔ)の更新量とは、今回の学習ステップで更新される（増減する）重みの値の量である。例えば、現在の重みの値が０．５５で、重みの更新量が０．０３であれば、更新後の重みは０．５５＋０．０３＝０．５８となる。重みの更新量は、計算した勾配値のほかに、図７(a)に示す学習係数や、最適化手法を基に計算される。

計算した重みの更新量は、学習部内部のメモリ５０２に保存される（図５の矢印Ｌ）。次に、重み更新部５０６は、重み値の読み出し命令をメモリ５０２経由でデータインターフェース部５０１に送付する（図５の矢印Ｌ及びＣ）。データインターフェース部５０１は、重み値の読み出し命令を演算部１０４に送付する（図５の矢印Ａ及び図３の矢印Ｂ）。

命令を受けた演算部内部のデータインターフェース部２０１は、演算部内部のメモリ２０４)に格納された重み値を学習部１０３に送付する（図３の矢印Ｃ、Ａ及び図５の矢印Ｂ）。重み値を受領した学習部内部のデータインターフェース部５０１は、受領した重み値を学習部内部のメモリ５０２に保存する（図５の矢印Ｄ）。

重み更新部５０６は、受領した重み値及び先ほど計算した重みの更新量をメモリ５０２から読み出し、足し合わせることで、重み値を更新する（図５の矢印Ｋ）。更新された重み値は、再び学習部内部のメモリ５０２に保存される（図５の矢印Ｌ）。

ステップＳ１２４で、学習部内部の重み更新部５０６は、メモリ５０２内部のフラグなどを利用して、学習部内部のデータインターフェース部５０１に対して、ステップＳ１２３の完了を伝える。完了通知を受けて、データインターフェース部５０１はメモリ５０２に保存された更新済みの重みを、演算部１０４に送付する（図５の矢印Ｃ及びＡ）。更新済みの重みを演算部１０４に送付後、学習部内部の重み更新部５０６は、重みの送付完了を学習ステップ管理部５０５に通知し（図５の矢印Ｏ）、重み値の更新処理の動作を終了する。

演算部１０４が実行する演算処理の動作フローチャートの一例を図１３に示す。

ステップＳ１３１で、演算部１０４内部のデータインターフェース部２０１は、学習対象のデータとして学習部１０３から送付された加工済みデータを受領し、演算部内部のメモリ２０４に保存する（図３の矢印Ｂ及びＤ）。これは、前述した推論処理内の処理（Ｓ９３）で学習部１０３から演算部１０４に送られた加工済みデータに対応するものである。

ステップＳ１３２で、演算制御部２０３の内部の初期計算制御部４０１は、今回の演算処理で実行された処理の回数（＝Ｎｏｐｅｒａｔｉｏｎ）を０にリセットする。また、初期計算制御部４０１は、学習器の内部状態を初期化し、初期化した内部状態を演算部１０４内のメモリ２０４に保存する（図４の矢印Ｌ）。学習器の一例は図６に示すボルツマンマシンであり、例えば、学習器の内部状態は各隠れスピン６０２の向きや上向き確率に対応する。初期化では、学習器の内部状態がランダムもしくは設定された初期化アルゴリズムに従ってリセットされる。

ステップＳ１３３で、演算制御部２０３の内部の初期計算制御部４０１もしくは追加計算制御部４０５は、加工済みデータと学習部の重み値と学習器の内部状態を演算部１０４内のメモリ２０４から読み出す（図４の矢印ＫもしくはＱ）。その後、読み出した加工済みデータと重み値と内部状態を計算部２０２に送付する（図４の矢印ＧもしくはＩ）。

計算部２０２は送付された加工済みデータと重み値と学習器の内部状態を基に計算処理を実行する。計算処理では、例えば、図６に示すボルツマンマシンの各隠れスピン６０２の向きや上向き確率を計算する。内部状態とは、ボルツマンマシンで学習器が構成される場合、スピンの向きや上向き確率を言う。各隠れスピン６０２の向きを計算する方法としては、焼きなまし法がある。焼きなまし法では、隠れスピン６０２の向きを緩和させながら、十分高温から徐々に温度を決められた一定温度まで冷やす。この場合、加工済みデータ（２値化されている）は可視スピン(可視スピン６０１ａや可視スピン６０１ｂ)の向きとして設定され、その向きは固定されているとする。１回の計算処理で、各隠れスピン６０２の向きが１通り得られることとなる。

計算処理では、必要に応じて、各隠れスピン６０２の向きに加えて、これら可視スピン(可視スピン６０１ａ及び可視スピン６０１ｂ)と隠れスピン６０２の向きから全系のエネルギーも計算する。計算した各隠れスピン６０２の向きやエネルギーの値は、内部状態を示す計算処理の結果となる。

また、上述のように、計算処理で各隠れスピン６０２の向きを１通りずつ計算し、それらの結果から期待値計算をすることによって、各隠れスピン６０２の上向き確率を求めてもよいが、平均場近似などを用いて、直接上向き確率を計算することもできる。平均場近似では、はじめ初期化した上向き確率の値からスタートして、計算処理ごとにその上向き確率の値を真値に収束させていく。そのため、前回の計算処理の結果得られた各隠れスピン６０２の上向き確率と、加工済みデータと重み値とを用いて計算処理を実行し、新しい各隠れスピン６０２の上向き確率を計算する。

焼きなまし法の場合と同様に、計算処理では、必要に応じて、各隠れスピン６０２の上向き確率に加えて、これら可視スピン(可視スピン６０１ａ及び可視スピン６０１ｂ)と隠れスピン６０２の上向き確率から全系のエネルギーも計算する。計算した各隠れスピン６０２の上向き確率やエネルギーの値は、計算処理の結果となる。

計算部２０２で実行した計算処理の結果は、初期計算制御部４０１もしくは追加計算制御部４０５を経由して演算部１０４内のメモリ２０４に保存される（図４の矢印Ｈ、ＬもしくはＪ、Ｒ）。計算処理が今回の学習で初めて実行される場合、メモリ２０４には、図８のステップＳ８２の処理で学習部１０３から演算部１０４に送られた初期の重み値が格納されており、その初期の重み値を計算処理に用いる。

計算処理の前に、重み値の更新処理（Ｓ１２３）が行われている場合は、ステップＳ１２４で学習部１０３から演算部１０４に送られた更新済みの重み値を計算処理に用いる。また、強化学習では、推定Q値を計算する際、現在の最新の重み値ではなく、少し前の学習ステップにおける重み値を用いて計算処理を実行する場合がある。どのくらい前の学習ステップの重み値を用いるかは、図７に示したパラメタの一部として、学習前の初期設定時に設定される。

ステップＳ１３４で、初期計算制御部４０１もしくは追加計算制御部４０５は、演算部１０４内のメモリ２０４から、ステップＳ１３３で実行した計算処理の結果と、学習器の内部状態と、必要に応じて学習器の重み値を読み出し、計算部２０２に送る（図４の矢印ＫとＧもしくはＱとＩ）。

計算部２０２は、それらを基に内部状態を更新し、更新した内部状態を初期計算制御部４０１もしくは追加計算制御部４０５経由で再び演算部１０４内のメモリ２０４に格納する。内部状態の更新は、例えば、内部状態が各隠れスピン６０２の向きに対応する場合は、今回の計算処理の結果を、前回までの結果に加えることや、必要に応じて平均値や分散値などを計算することに対応する。また、内部状態の更新は、内部状態が各隠れスピン６０２の上向き確率に対応する場合、今回の計算処理の結果を前回までの結果に加えることや、必要に応じてそれらから真値などを推定することに対応する。

ステップＳ１３５で、初期計算制御部４０１は、処理回数（Ｎｏｐｅｒａｔｉｏｎ）を１だけ増やす。

ステップＳ１３６で、演算制御部２０３は、ステップＳ１３３を追加で実行するか判断する。追加で実行すると判断された場合（図１３のＹＥＳ）、再びステップＳ１３３の処理を実行し、追加実行不要と判断された場合（図１３のＮＯ）、次のステップＳ１３７を実行する。ステップＳ１３６の動作の詳細は後述する。

ステップＳ１３７で、演算制御部２０３内部の計算結果統合部４０３は、これまで何回か繰り返された計算処理の結果（内部状態である各隠れスピン６０２の向きや上向き確率）を、統合処理して評価値を算出する。統合処理を具体的に述べると、例えば、計算結果統合部４０３は、計算処理の繰り返し回数分だけメモリ２０４に格納された計算処理の結果を読み出し、それらの平均値を計算して再びメモリ２０４に格納する（図４の矢印Ｏ及びＰ）。もしくは、メモリ２０４に格納された最新の計算処理の結果を統合された計算結果としてもよい。

ステップＳ１３８で、演算部内部のデータインターフェース部２０１は、メモリ２０４に格納された統合された結果を読み出し、学習部１０３に送付する（図３の矢印Ｃ及びＡ）。送付の後、演算処理の動作は終了する。後で詳述するように、学習部１０３は、統合された結果を、例えば教師付き学習であれば、得られた各分類の出力値として、また、強化学習であれば、各行動に対する評価値（Ｑ値や行動選択確率）として利用する。

演算制御部２０３が実行するステップＳ１３６の動作フローチャートの一例を図１４に示す。

ステップＳ１４２で、初期計算制御部４０１は、演算部内部のメモリ２０４からＮｉｎｉを読み出す（図４の矢印Ｋ）。Ｎｉｎｉは、図７（ｂ）に示す初期計算回数に対応する。学習前の初期設定時に設定され、演算部内部のメモリ２０４に保存されるパラメタの一つである。初期計算制御部４０１は、ステップＳ１３３の回数ＮｏｐｅｒａｔｉｏｎとＮｉｎｉを比較し、ＮｏｐｅｒａｔｉｏｎがＮｉｎｉ以上であれば（図１４のＹＥＳ）、次のステップＳ１４３に進む。そうでなければ、ステップＳ１４６に進み、ＹＥＳを返す（“ＲＥＴＵＲＮＹＥＳ”）。ＹＥＳを返すことは、図１３の演算処理の動作フローチャートのステップＳ１３６のＹＥＳに対応し、ステップＳ１３３からの処理をもう一度実行することとなる。この場合は、ＮｏｐｅｒａｔｉｏｎがＮｉｎｉ未満であるため、処理は初期計算制御部４０１が主導して実行する。

ステップＳ１４３で、精度計算部４０２は、図１３に示す演算処理の動作フローチャート中のステップＳ１３３の「実行」でこれまでに実行した計算処理の結果をメモリ２０４から読み出す（図４の矢印Ｍ）。精度計算部４０２は、読み出した結果から精度を計算し、計算した精度を精度比較部４０４に送付する（図４の矢印Ｄ）ことで、精度を算定する。

以上説明した通り、図６のボルツマンマシンを用いた学習器は、スピンやその平均値等を示す内部状態やスピン間の重みを有する。スピン間の重みが学習部１０３で更新処理され、スピンやその平均値等の内部状態が演算部１０４で計算され、更新される。

計算処理の結果から精度を計算する方法の一例を、図１５を用いて説明する。
図１５は計算処理の回数(Ｎｏｐｅｒａｔｉｏｎ)と精度の関係性の一例を示すグラフである。この例では、計算処理の回数(Ｎｏｐｅｒａｔｉｏｎ)が増えるに従って、精度も向上している。このような関係性となるのは、例えば計算処理の結果の値が、同一の確率分布に従いつつも、値は試行ごとに確率的に変動する場合や、計算処理ごとに結果の値がある値に収束してくような場合が考えられる。前者の場合は変動する結果の値の確率分布を想定して、最尤推定法などを用いることにより、複数回試行した計算処理の結果の値の平均値の誤差などを、計算精度として求めることができる。後者の場合は、計算処理ごとの結果の値（の変動）を外挿することによって、収束先の真値や現在の結果の値との誤差を、計算精度として求めることができる。

ステップＳ１４４で、精度計算部４０２で計算した精度を受領した精度比較部４０４は、演算部内部のメモリ２０４から、図７（ｂ）に示す要求精度を読み出す（図４の矢印Ｓ）。前述の通り、要求精度は学習前の初期設定時に設定され、演算部内部のメモリ２０４に保存される。次に、精度比較部４０４は精度計算部４０２から受領した精度と、読み出した要求精度を比較する。その結果、もし受領した精度が要求精度よりも高ければ、ステップＳ１４５に進み、ＮＯを返す（“ＲＥＴＵＲＮＮＯ”）。ＮＯを返すことは、図１３の演算処理の動作フローチャートのステップＳ１３６のＮＯに対応し、次はステップＳ１３７を実行することとなる。

また、比較の結果、もし受領した精度が要求精度よりも低ければ、ステップＳ１４６に進み、ＹＥＳを返す（“ＲＥＴＵＲＮＹＥＳ”）。ＹＥＳを返すことは、図１３の演算処理の動作フローチャートのステップＳ１３６のＹＥＳに対応し、ステップＳ１３３からもう一度実行することとなる。この場合、ＮｏｐｅｒａｔｉｏｎはＮｉｎｉ以上であるため、初期計算は終了しているとみなされ、追加計算制御部４０５が主導でステップＳ１３３からの処理を実行する。追加計算制御部４０５は、図７(b)に示す追加計算回数をメモリ２０４から読み出し（図４の矢印Ｑ）、追加で何回の計算処理を実行するか決定する。

学習ステップに従って、計算処理の回数（Ｎｏｐｅｒａｔｉｏｎ）と精度の関係性が変化する例を、図１６及び図１７を用いて説明する。

図１６は、計算処理の回数(Ｎｏｐｅｒａｔｉｏｎ)と精度の関係性が、学習ステップが１００ステップ（図１６の“１００ステップ”）の場合と１００００ステップ（図１６の“１００００ステップ”）の場合で変化する一例を示す。図１６の横点線で示す要求精度を満たすには、学習ステップが１００ステップの場合は、計算処理の回数をＮ２以上にすれば良く、学習ステップが１００００ステップの場合は、Ｎ１以上にすればよい。

この例では、Ｎ１＜Ｎ２である。つまり、学習ステップが増えると（学習が進むと）、より少ない計算処理の回数（Ｎｏｐｅｒａｔｉｏｎ）で、精度が向上するようになる。前述の一例である、計算処理の結果の値が、同一の確率分布に従いつつも、値は試行ごとに確率的に変動する場合では、学習ステップが増えるに連れて、結果の値が従う確率分布の分散が減少していることに対応する。

分散が減少すると、より少ない計算処理の回数(Ｎｏｐｅｒａｔｉｏｎ)で、結果の値の平均値の誤差が小さくなる。すなわち、精度が高いことになる。また、計算処理ごとに結果の値がある値に収束してくような場合では、学習ステップが増えるに連れて、収束する速度が向上していることに相当する。収束する速度が向上すれば、より少ない計算処理の回数(Ｎｏｐｅｒａｔｉｏｎ)で、収束先の真値に近い値が得られる。すなわち、精度が高いことになる。

図１７は、重み値の更新回数などの学習ステップと、要求精度を満たす計算処理の回数の最小値の関係性が、要求精度が０．９５の場合（図１７の“要求精度０．９５”）と、０．９７の場合（図１７の“要求精度０．９７”）で変化する一例を示す。

いずれの場合も、学習ステップが増大するに連れて、要求精度を満たす計算処理の回数の最小値は減少する。これは、図１６で示す例と同様に、より少ない計算処理の回数で、精度が向上するようになることに対応する。また、同一の学習ステップで、２つの場合を比較した場合、要求精度が高い０．９７の場合の方が、要求精度を満たす計算処理の回数の最小値は多くなる。これは、図１５や図１６に示すように、計算処理の回数を増やすと、精度も単調に増えていることに対応する。

上記の実施例でも述べたように、ホストシステムはその機能を実現するものであれば、ソフトウェアでもハードウェアでもそれらの組み合わせでもよく、学習部１０３や演算部１０４と連帯した(もしくは一体型の)ソフトウェアもしくはハードウェアでもよい。また、学習部１０３もハードウェアに限らず、一部もしくは全体がソフトウェアとして実装されていてもよく、演算部１０４と連帯した(もしくは一体型の)ソフトウェアもしくはハードウェアでもよい。また、上記の実施例では、機械学習システムがホストシステムと学習部１０３と演算部１０４から構成される例を挙げたが、ホストシステムと学習部１０３と演算部１０４の機能を持たせた単独のモジュールとして構成してもよい。

以上の実施例における説明では、上位システム、環境、ストレージ、メモリ、学習部、演算部など、機能ごとに分かれたブロック図として、機械学習システムを例示していたが、上記の機能分割に限らず、機械学習を統括する機能、機械学習で用いるデータを保存・供給する機能、データから推論する機能、学習部の重みを更新する機能が含まれていれば良い。実装形態も、ＡＳＩＣのような専用回路として実装してもよいし、ＦＰＧＡのようにプログラマブルなロジックとして実装してもよいし、組み込みのマイコンに実装してもよいし、ＣＰＵやＧＰＵ上で動作するソフトウェアとして実装してもよい。もしくは、機能ごとに上記の組み合わせで実装してもよい。

以上、添付図面を参照して具体的に説明したが、好ましい実施の形態は以上の説明に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

以上説明した本実施例によって得られる主な効果は以下の通りである。
機械学習において、学習の進行度ごとにデータ推論時の精度を推定することにより、学習部の重み値を更新する際に必要な積和演算回数を削減することができ、これまでよりも学習時間を短縮することができる。

また、学習時間の短縮により、より高速で省電力な機械学習システムを構築することができる。

さらに、演算部は、重み値の更新回数の増加に応じて、評価値を計算するための計算処理及び学習器の内部状態の更新の繰り返し回数を減少させることができる。

１０１：上位システム／ユーザ、
１０２：環境／ストレージ／メモリ、
１０３：学習部、
１０４：演算部、
２０１：データインターフェース部、
２０２：計算部、
２０３：演算制御部、
２０４：メモリ、
４０１：初期計算制御部、
４０２：精度計算部、
４０３：計算結果統合部、
４０４：精度比較部、
４０５：追加計算制御部、
５０１：データインターフェース部
５０２：メモリ、
５０３：初期重み処理部、
５０４：入力加工部、
５０５：学習ステップ管理部、
５０６：重み更新部、
５０７：結果加工部。

Claims

学習部と、メモリを含む演算部とを有する機械学習システムであって、
前記演算部は、
前記メモリに、要求精度と学習器の内部状態と重み値を保持し、
前記機械学習システムに入力された入力データと、前記メモリに保持された前記重み値とを用いて計算処理を実行することにより、前記メモリに保持された前記内部状態を更新し、
前記計算処理の結果から前記内部状態の精度を算出し、
前記算出された精度が前記要求精度より高い場合、前記機械学習システムに入力された前記入力データと、前記メモリに保持された前記重み値と、前記メモリに保持された更新された前記内部状態を用いて、評価値を計算し、
前記評価値を前記学習部に送付し、
前記学習部は、
前記評価値を用いて、前記メモリに保持された前記重み値を更新し、前記重み値の更新回数を前記演算部に通知することを特徴とする機械学習システム。
請求項１に記載の機械学習システムにおいて、
前記演算部は、
前記算出された精度が前記要求精度より低い場合、前記内部状態を更新して前記計算処理を繰り返すことを特徴とする機械学習システム。
請求項２に記載の機械学習システムにおいて、
前記算出された精度は、前記演算部が前記内部状態の更新を繰り返し実行した際に、前記内部状態が収束する状態と現在の前記内部状態との差分値、または、現在の前記内部状態の分散値となることを特徴とする機械学習システム。
請求項２に記載の機械学習システムにおいて、
前記要求精度は、前記機械学習システムの外部から前記メモリに設定されることを特徴とする機械学習システム。
請求項４に記載の機械学習システムにおいて、
前記演算部は、前記内部状態の精度と前記要求精度とを比較することを特徴とする機械学習システム。
請求項５に記載の機械学習システムにおいて、
前記演算部は、前記比較の結果、前記内部状態の精度が前記要求精度の閾値を満たしていなければ、前記評価値を計算する前に、前記計算処理及び前記内部状態の更新を追加で実行することを特徴とする機械学習システム。
請求項５に記載の機械学習システムにおいて、
前記演算部は、前記比較を実行する前に、前記機械学習システムの外部より初期設定される初期計算処理回数の数だけ、前記計算処理及び前記内部状態の更新を実行することを特徴とする機械学習システム。
請求項７に記載の機械学習システムにおいて、
前記初期計算処理回数は、前記メモリに設定することを特徴とする機械学習システム。
請求項５に記載の機械学習システムにおいて、
前記演算部は、前記比較の結果にかかわらず、前記計算処理及び前記内部状態の更新の回数が最大計算処理回数以上であれば、前記評価値を計算し、前記学習部に送付することを特徴とする機械学習システム。
請求項１に記載の機械学習システムにおいて、
前記演算部は、ボルツマンマシンから構成される計算部を有し、
前記内部状態は２値の離散的な値をもつことを特徴とする機械学習システム。
請求項１に記載の機械学習システムにおいて、
前記演算部の前記内部状態が３値以上の離散的な値から構成されることを特徴とする機械学習システム。
学習部と、メモリを含む演算部とを有する機械学習システムにおける方法であって、
前記演算部は、
前記メモリに、要求精度と学習器の内部状態と重み値を保持し、
前記機械学習システムに入力された入力データと、前記メモリに保持された前記重み値とを用いて計算処理を実行することにより、前記メモリに保持された前記内部状態を更新し、
前記計算処理の結果から前記内部状態の精度を算出し、
前記算出された精度が前記要求精度より高い場合、前記機械学習システムに入力された前記入力データと、前記メモリに保持された前記重み値と、前記メモリに保持された更新された前記内部状態を用いて評価値を計算し、
前記評価値を前記学習部に送付し、
前記学習部は、
前記評価値を用いて、前記メモリに保持された前記重み値を更新し、前記重み値の更新回数を前記演算部に通知することを特徴とする機械学習システムの学習方法。