JP7453767B2

JP7453767B2 - 情報処理装置、情報処理方法

Info

Publication number: JP7453767B2
Application number: JP2019174542A
Authority: JP
Inventors: 裕一郎飯尾; 温之鈴木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2024-03-21
Anticipated expiration: 2039-09-25
Also published as: US20210089823A1; JP2021051589A

Description

本発明は、階層型ニューラルネットワークにおける学習技術に関するものである。

画像や音声などのデータの内容を学習して認識を行う技術が存在する。認識処理の目的をここでは認識タスクと呼ぶ。例えば、画像から人間の顔の領域を検出する顔認識タスク、画像中の物体（被写体）のカテゴリ（猫・車・建物等）を判別する物体カテゴリ認識タスク、シーンのカテゴリ（都市・山間・海岸等）を判別するシーン種別認識タスク等、多様な認識タスクがある。

上記のような認識タスクを学習・実行する技術としては、ニューラルネットワークの技術が知られている。深い（層の数が多い）多層ニューラルネットワークはＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＤＮＮ）と呼ばれ、性能が高いことで近年注目されている。ＤＮＮは、データを入力する入力層、複数の中間層、認識結果を出力する出力層、から構成されている。ＤＮＮの学習フェーズでは、予め設定された損失関数に出力層から出力される推定結果と教師情報とを入力して損失（推定結果と教師情報との差異を表す指標）を算出し、誤差逆伝搬法（バックプロパゲーション）などを用いて損失を最小化するように学習を行う。

ＤＮＮの学習を行う際に、関連のある複数のタスクを同時に学習することでそれぞれのタスクの精度を向上させる、マルチタスク学習の技術が知られている。例えば、特許文献１では、入力画像中に人が存在するか否かの識別タスクと、入力画像における人の位置の回帰タスクと、を同時に学習することで、人の一部が隠れている場合でも精度よく人の位置を検知できる技術が開示されている。特許文献２では、ＤＮＮを用いて複数のサブタスクの推定を行い、後段で複数の異なるサブタスクの推定結果を統合することでメインタスクの推定精度の向上を図っている。

特開２０１６－６６２６号公報特開２０１９－３２７７３号公報

ニューラルネットワークによる認識タスクでは、誤った推定結果を出力してしまう場合がある。特に特定事例の学習データが不足している場合等に、該特定事例に対して誤った推定をすることが起こりうる。学習データが不足していなくても、特定事例については、推定の再現率または適合率が低くなるなど推定精度が低いことがある。本発明では、階層型ニューラルネットワークにおいて全体の精度への劣化の影響を軽減しつつ低い精度の事例の精度を向上させるための学習技術を提供する。

本発明の一様態は、学習データ群を用いて学習した階層型ニューラルネットワークにおいて誤った結果を出力する学習データに対して困難事例ラベルを設定する設定手段と、
前記困難事例ラベルが設定された学習データであるか否かを分類するための出力層を伴うネットワークを前記階層型ニューラルネットワークに追加した更新階層型ニューラルネットワークを生成する更新手段と、
前記困難事例ラベルが設定された学習データであるか否かを前記出力層が判別するように前記ネットワークを学習するための学習手段と
を備えることを特徴とする。

本発明の構成によれば、階層型ニューラルネットワークにおいて全体の精度への劣化の影響を軽減しつつ低い精度の事例の精度を向上させることができる。

ニューラルネットワーク処理装置の機能構成例を示すブロック図。ニューラルネットワーク処理装置１０００が行う処理のフローチャート。ステップＳ２０２における処理の詳細を示すフローチャート。ステップＳ２０５における学習処理の詳細を示すフローチャート。分類タスクを行うＤＮＮの一般的な学習処理の流れを示す図。（ａ）は分類タスクを行うＤＮＮの中間層におけるＣＮＮ特徴量を特徴空間上に可視化した様子を示す図、（ｂ）は誤分類を説明する図。（ａ）は初期ＤＮＮモデル１２０の一例を示す図、（ｂ）は更新後の初期ＤＮＮモデル１２０の一例を示す図。ステップＳ２０２における処理の詳細を示すフローチャート。（ａ）は初期ＤＮＮモデル１２０の一例を示す図、（ｂ）は更新後の初期ＤＮＮモデル１２０の一例を示す図。ニューラルネットワーク処理装置３０００の機能構成例を示すブロック図。ニューラルネットワーク処理装置３０００が行う処理のフローチャート。未検出および誤検出を説明する図。コンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態では、分類タスクを高精度に行うニューラルネットワーク処理装置について説明する。分類タスクは、入力画像に含まれる対象が、予め定められた複数のクラスのいずれに属するのかを判別するタスクである。本実施形態では、入力画像に含まれているオブジェクトが３つのクラス（「犬」「猫」「豚」）の何れに属するのかを判別する分類タスクをＤＮＮ（階層型ニューラルネットワーク）を用いて処理するニューラルネットワーク処理装置について説明する。

一般に、分類タスクを行うＤＮＮは、入力画像に対して、各クラスが該入力画像中に存在する尤度（クラス尤度）を表すクラス尤度ベクトルを出力する。例えば、猫が写った画像を入力画像としてＤＮＮに入力した場合、該ＤＮＮは、犬クラスの尤度＝０．１０、猫クラスの尤度＝０．８５、豚クラスの尤度＝０．０５、を列挙したクラス尤度ベクトル［犬、猫、豚］＝［０．１０，０．８５，０．０５］を出力する。このクラス尤度ベクトルでは、猫クラスの尤度が最も高いため、ＤＮＮは、入力画像中の猫は猫クラスに属すると判別したことになる。

先ず、分類タスクを行うＤＮＮの一般的な学習処理の流れについて図５を用いて説明する。分類タスクを行うＤＮＮの学習では複数の学習データを用いる。学習データは、学習画像と正解クラスラベルのペアから成る。学習画像はＤＮＮに学習させたいオブジェクトが含まれている画像であり、正解クラスラベルは該オブジェクトが属するクラスを表す文字列である。

先ずは、（１）として示す如く、学習画像をＤＮＮの入力層へ入力し、中間層および出力層を動作させて該学習画像におけるオブジェクトに対するクラスの推定結果としてのクラス尤度ベクトルを導出し、該クラス尤度ベクトルを出力層から出力する。ＤＮＮの各層は、学習パラメータである重み係数を保持しており、各層では入力に対して重み係数を用いた重みづけを行った結果を次の層へ出力する処理を行っており、これにより、出力層では、学習画像に対するクラス尤度ベクトルが導出される。クラス尤度ベクトルは、各クラスに対応する尤度を要素として有する１次元ベクトルであり、上記の例では、犬クラスの尤度、猫クラスの尤度、豚クラスの尤度、を要素として有する１次元ベクトルである。

次に、（２）として示す如く、クラス尤度ベクトルと、教師ベクトルと、の差分を損失関数に入力することで得られる関数値を損失として算出する。教師ベクトルとは、クラス尤度ベクトルと同数の要素を有する１次元ベクトルであり、入力層に入力した学習画像とペアになっている正解クラスラベルに対応する要素の値を１、それ以外の要素の値を０とする１次元ベクトルである。入力層に入力した学習画像とペアになっている正解クラスラベル＝「猫」の場合、対応する教師ベクトルは、［犬、猫、豚］＝［０，１，０］である。

そして最後に、（３）として示す如く、算出した損失に基づいて誤差逆伝搬法（バックプロパゲーション）などを用いてＤＮＮにおける各層の重み係数を更新する。誤差逆伝搬法は周知の技術であるため、説明は省略する。

一般に分類タスクを行うＤＮＮは、複数の畳み込み層を連結した中間層において入力画像から特徴量（ＣＮＮ特徴量）を抽出し、該特徴量をＤＮＮの全結合層で統合することで、入力画像におけるオブジェクトのクラスの分類を行う。

そして上記の（１）、（２）、（３）の処理を繰り返してＤＮＮにおける各層の重み係数を更新していくことで、損失を徐々に小さくしていくことにより、ＤＮＮの学習処理を達成する。

図６（ａ）に、分類タスクを行うＤＮＮの中間層におけるＣＮＮ特徴量を特徴空間上に可視化した様子を示す。正解クラスラベルが「犬」である学習画像のＣＮＮ特徴量を○、正解クラスラベルが「豚」である学習画像のＣＮＮ特徴量を◇、正解クラスラベルが「猫」である学習画像のＣＮＮ特徴量を△で図示している。また、犬クラスに属するブルドッグのＣＮＮ特徴量を●、猫クラスに属するペルシャ猫のＣＮＮ特徴量を▲で示している。ＤＮＮの全結合層はこれらのＣＮＮ特徴量に基づいて入力画像中のオブジェクトの分類を行う。

分類タスクでは誤分類、すなわちあるクラスに属するオブジェクトを誤って別のクラスに分類してしまうことが発生する。誤分類には、ＤＮＮにとって未知（十分に学習できていない）なオブジェクトであるために誤ったクラスへ分類されてしまう誤分類ａと、特定のクラスのオブジェクトが系統的に特定のクラスに誤分類されてしまう誤分類ｂと、がある。

誤分類ａでは、抽出されたＣＮＮ特徴量に十分な性能がないため、ＤＮＮにおける全結合層では入力画像がいずれのクラスに属するかの判定が正しくできない。図６（ａ）におけるペルシャ猫のＣＮＮ特徴量の分布は、誤分類ａの要因となる状態の一例である。図６（ａ）に示す如く、同じペルシャ猫であってもＣＮＮ特徴量が特徴空間の様々な場所に分布しており、「猫」らしさを表す特徴量が抽出しきれていない（ＤＮＮには何の画像なのかわかっていない）状態となっている。このような誤分類ａの発生を抑制するためには、中間層の学習を十分に行う必要がある。

一方、誤分類ｂでは、画像の特徴としてＣＮＮ特徴量が十分に抽出できているものの、ＤＮＮの全結合層における分類時に誤ったクラスに分類されてしまう。図６（ａ）におけるブルドッグのＣＮＮ特徴量の分布は、誤分類ｂの要因となる状態の一例である。図６（ａ）に示す如く、特徴空間上ではブルドッグのＣＮＮ特徴量同士の距離が近く、ブルドッグらしさを表す特徴を抽出できていると言えるが、他の多くの犬のＣＮＮ特徴量とは特徴空間上での距離が遠い。図６（ａ）の例では、ブルドッグのＣＮＮ特徴量の分布は、豚のＣＮＮ特徴量の分布に含まれている。このような場合、図６（ｂ）に示す如く、ＤＮＮはブルドッグを豚クラスに誤分類してしまう場合がある。特に、ブルドッグのサンプル数が少ない場合やＤＮＮの全結合層が軽量である場合には、誤分類ｂが発生しやすくなる。本実施形態では、誤分類ｂを抑制することで分類タスクの精度向上を実現する。

次に、ＤＮＮを用いて分類タスクを行うニューラルネットワーク処理装置の機能構成例について、図１のブロック図を用いて説明する。学習データ群１１０は、学習画像と、該学習画像に含まれるオブジェクトが属するクラスを表す文字列である正解クラスラベルと、のペアを複数含むデータセットであり、分類タスクのためのデータセットである。初期ＤＮＮモデル１２０は、予め学習データ群１１０を用いて学習されたＤＮＮモデルである。分類タスクを行う初期ＤＮＮモデル１２０の一例を図７（ａ）に示す。図７（ａ）に示す初期ＤＮＮモデル１２０は、９６画素×９６画素のＲＧＢ画像（Ｒプレーン、Ｇブレーン、Ｂプレーンの３プレーンを有する）を入力とし、２つの畳み込み層と３つの全結合層を通して３つのクラスのいずれかに分類するＤＮＮモデルである。最後の畳み込み層から出力される９２１６×１のテンソル（１次元ベクトル）が初期ＤＮＮモデル１２０におけるＣＮＮ特徴量となる。なお、本実施形態に適用可能なＤＮＮの構造はこのような構造に限らず、他の構造を採用しても良い。探索部１１００は、初期ＤＮＮモデル１２０で誤分類（誤分類ｂ）された学習データを探索する。更新部１２００は、探索部１１００による探索結果に基づき、困難事例を検出する困難事例検出タスクを実施可能なネットワーク構造を初期ＤＮＮモデル１２０に追加した新しい構造のＤＮＮモデルを生成する。学習処理部１３００は、更新部１２００によって更新された新しいネットワーク構造を有するＤＮＮモデルの学習処理を行う。

なお、本実施形態では、図１の構成を有するニューラルネットワーク処理装置１０００を１台の装置で構成する。しかし、図１の構成を有するニューラルネットワーク処理装置１０００を複数台の装置で構成しても良い。

次に、ニューラルネットワーク処理装置１０００が行う処理について、図２のフローチャートに従って説明する。

ステップＳ２０２では、探索部１１００は、学習データ群１１０を構成するそれぞれの学習データのうち、初期ＤＮＮモデル１２０による分類タスクにおいて誤分類した学習データを困難事例データに設定する処理を行う。ステップＳ２０２における処理の詳細について、図３のフローチャートに従って説明する。

ステップＳ３０１では、探索部１１００は学習データ群１１０に含まれるそれぞれの学習データのうち、初期ＤＮＮモデル１２０による分類タスクにおいて誤分類した学習データを抽出する。

例えば、探索部１１００は、学習データ群１１０に含まれるそれぞれの学習データについて、該学習データに含まれている学習画像を初期ＤＮＮモデル１２０に入力することで該初期ＤＮＮモデル１２０から出力されるクラス尤度ベクトルを取得する。そして探索部１１００は、学習データ群１１０に含まれるそれぞれの学習データについて、該学習データに対応するクラス尤度ベクトルにおいて最も高い尤度に対応するクラスと、該学習データに含まれている正解クラスラベルが指すクラスと、が一致している否かを判断する。そして探索部１１００は、学習データ群１１０に含まれるそれぞれの学習データのうち、一致していないと判断した学習データを、学習データ群１１０から抽出する。ステップＳ３０１において探索部１１００が学習データ群１１０から抽出した学習データが困難事例データの候補となる。

ステップＳ３０２で探索部１１００は、ステップＳ３０１で困難事例データの候補として抽出したそれぞれの学習データについて、該学習データに含まれている学習画像を入力した初期ＤＮＮモデル１２０の中間層からの出力（ＣＮＮ特徴量）を取得する。初期ＤＮＮモデル１２０では、複数の畳み込み層を連結した中間層によって学習画像からＣＮＮ特徴量を抽出するので、探索部１１００は、該中間層の出力をＣＮＮ特徴量として取得する。

ステップＳ３０３で探索部１１００は、ステップＳ３０１で困難事例データの候補として抽出した学習データ間でＣＮＮ特徴量の類似度（ＣＮＮ特徴量類似度）を求める。例えば、図７（ａ）に示す初期ＤＮＮモデル１２０のＣＮＮ特徴量は９２１６×１の１次元ベクトルで表現されるので、該１次元ベクトル同士のコサイン類似度でＣＮＮ特徴量間の類似度（ＣＮＮ特徴量類似度）を算出することができる。なお、ＣＮＮ特徴量類似度はＣＮＮ特徴量間のコサイン類似度に限らず、他の算出方法で求めたＣＮＮ特徴量間の類似度であっても良い。

ステップＳ３０４で探索部１１００は、ステップＳ３０１で困難事例データの候補として抽出した学習データから、「互いの正解クラスラベルが同じであり且つ互いの間のＣＮＮ特徴量類似度が閾値以上となる学習データ」を困難事例データとして選択する。

互いの間のＣＮＮ特徴量類似度が閾値以上となる学習データ群を構成するそれぞれの学習データの正解クラスラベルが互いに異なる場合、現状のＣＮＮ特徴量でこれらの学習データを分離することはできず、これは上記の誤分類ａに属する誤分類パターンとなる。

本実施形態では、ＣＮＮ特徴量類似度の閾値Ｔｓおよび困難事例データの候補における困難事例データの割合の閾値Ｔｃがハイパーパラメータとして予め設定されているものとする。このハイパーパラメータはユーザがマニュアル操作で設定しても良いし、何らかの処理を介してニューラルネットワーク処理装置１０００が設定しても良い。

この場合、探索部１１００は、ステップＳ３０１で困難事例データの候補として抽出した学習データから、互いの正解クラスラベルが同じであり且つ互いの間のＣＮＮ特徴量類似度が閾値Ｔｓ以上となる学習データを困難事例データとして選択する。そして探索部１１００は、「困難事例データの候補として抽出した学習データの数」に対する「困難事例データとして選択した学習データの数」の割合が閾値Ｔｃ以上であれば、困難事例データに対し、追加教師情報として分類困難ラベルを付与する。

例えば、Ｔｓ＝０．６、Ｔｃ＝０．９である場合、探索部１１００は、困難事例データの候補として抽出した学習データから、互いの正解クラスラベルが同じ且つ互いの間のＣＮＮ特徴量類似度が０．６以上となる学習データを困難事例データとして選択する。そして探索部１１００は、「困難事例データの候補として抽出した学習データの数」に対する「困難事例データとして選択した学習データの数」の割合が９０％以上であれば、困難事例データに対し、追加教師情報として分類困難ラベルを付与する。

分類困難ラベルは、誤分類しやすい学習データ集合のうちＣＮＮ特徴空間上で近接している学習データの集合を他の学習データと区別するために用いられる。なお、分類困難ラベルを付与する条件を満たす学習データ集合が複数存在する場合には、それぞれの学習データ集合に、該学習データ集合に対応する分類困難ラベルを付与してもよい。

分類困難事例の説明として簡単のため「ブルドッグ」を例に挙げて説明を行ったが、実際はＣＮＮ特徴量類似度にのみ基づいてカテゴライズされるため、犬種のようにユーザが明に分類困難事例の区分を設定して分類困難事例が形成されることはない。

ステップＳ３０５では、探索部１１００は、学習データ群１１０において困難事例データではない学習データ（分類成功学習データ）から、困難事例データとしての学習データとのＣＮＮ特徴量類似度が閾値以上となる学習データを探索する。この探索の結果、分類成功学習データのうち、困難事例データとしての学習データとのＣＮＮ特徴量類似度が閾値以上となる分類成功学習データがあれば、探索部１１００は、該分類成功学習データに分類困難ラベルを付与する。

より具体的には、探索部１１００は、困難事例データの正解クラスラベルと同じ正解クラスラベルに対応する分類成功学習データのＣＮＮ特徴量を上記の如く初期ＤＮＮモデル１２０の中間層から取得する。そして探索部１１００は、困難事例データのＣＮＮ特徴量と、困難事例データの正解クラスラベルと同じ正解クラスラベルに対応する分類成功学習データのＣＮＮ特徴量と、のＣＮＮ特徴量類似度が閾値Ｔｓ以上であれば、該分類成功学習データに対し、追加教師情報として分類困難ラベルを付与する。

以上の処理により、学習データ群１１０においてＣＮＮ特徴量では、他のＣＮＮ特徴量と区別できているが、分類が困難だった学習データの集合に対して分類困難ラベルが付与される。なお、ここでは学習データ群１１０に属する全ての学習画像を対象にして困難事例データの抽出を行ったが、これに限らず、学習データ群１１０における一部の学習データを対象にして困難事例データの抽出を行っても良い。もしくは学習データとは別途用意したバリデーションデータから困難事例データを抽出しても良い。

図２に戻って、次に、ステップＳ２０３では、更新部１２００は、初期ＤＮＮモデル１２０の中間層に分類困難事例を検出するためのネットワーク構造を追加する。具体的には、更新部１２００は、ＣＮＮ特徴量を入力として分類困難事例か否かを分類する１つ以上の全結合層を初期ＤＮＮモデル１２０に追加し、該追加した全結合層からの出力を従来の全結合層の入力に加算する構造に初期ＤＮＮモデル１２０を更新する。

図７（ａ）に示す構造を有する初期ＤＮＮモデル１２０を更新部１２００によって更新した更新後の初期ＤＮＮモデル１２０（更新ＤＮＮモデル：更新階層型ニューラルネットワーク）の構造の一例を図７（ｂ）に示す。便宜上、初期ＤＮＮモデル１２０の３つの全結合層をそれぞれＦＣ１層、ＦＣ２層、ＦＣ３層と称する。ＦＣ１層は要素数が９２１６の１次元ベクトルであるＣＮＮ特徴量を入力として、要素数が１０００の１次元ベクトルである特徴量を出力する。ＦＣ２層はＦＣ１層の出力である「要素数が１０００の１次元ベクトルである特徴量」を入力として、要素数が１００の１次元ベクトルである特徴量を出力する。ＦＣ３層はＦＣ２層の出力である「要素数が１００の１次元ベクトルである特徴量」を入力として、要素数が３の１次元ベクトルであるクラス尤度ベクトルを出力する。

このとき、更新部１２００によって、初期ＤＮＮモデル１２０のネットワーク構造にＦＣ１’層、ＦＣ２’層、ＦＣ３’－２層が追加される。ＦＣ１’層は要素数が９２１６の１次元ベクトルであるＣＮＮ特徴量を入力として、要素数が１０００の１次元ベクトルである特徴量を出力する。ＦＣ２’層はＦＣ１’層の出力である「要素数が１０００の１次元ベクトルである特徴量」を入力として、要素数が１００の１次元ベクトルである特徴量を出力する。ＦＣ３’－２はＦＣ２’層の出力である「要素数が１００の１次元ベクトルである特徴量」を入力として、分類困難事例か否かの２クラス分類に対する推定クラス尤度を推定結果として出力する。更に、ＦＣ２’層の出力である「要素数が１００の１次元ベクトルである特徴量」を入力として、要素数が１０００の１次元ベクトルである特徴量を出力するＦＣ３’－１層を追加する。更に、ＦＣ１層の出力である「要素数が１０００の１次元ベクトルである特徴量」とＦＣ３’－１層の出力である「要素数が１０００の１次元ベクトルである特徴量」とを加算するネットワーク構造に変形する。

なお、ステップＳ３０４においてＮ（Ｎは２以上の整数）パターンの困難事例データが生成された場合（分類困難ラベルを付与する条件を満たす学習データ集合の数がＮの場合）には、更新部１２００は初期ＤＮＮモデル１２０の構造を以下のように更新する。

つまり更新部１２００は、分類困難事例か否かを分類する２クラス分類のネットワーク構造を有する層をＮ個だけ初期ＤＮＮモデル１２０に追加し、該Ｎ個の層からの出力であるＮ個の１次元ベクトル（特徴量）がＦＣ１層の出力と加算される構造に更新する。

以上の処理により、初期ＤＮＮモデル１２０の結合層で失われていた分類困難事例特有の特徴量をＦＣ１’層、ＦＣ２’層で抽出し、ＦＣ３’－１層からの出力を従来の特徴量に加えることで分類困難事例に関する特徴をＦＣ２層に与えることができる。そのため、ＦＣ２層およびＦＣ３層は学習データのうち分類成功学習データの分類に重要な特徴をＦＣ１層から、分類困難なデータの分類に重要な特徴をＦＣ３’－１層から受け取る。これにより、最終的な推定結果において分類成功学習データの推定分類精度を維持しつつ分類困難なデータの推定分類精度を向上させることができる。なお、本実施形態においては追加した全結合層の出力を従来の全結合層の１層目（ＦＣ１）の出力と結合したが、結合する位置を限定することを意図したものではなく、例えばＦＣ２’の出力とＦＣ２の出力とを結合するような構造にしてもよい。また、追加する１つ以上の全結合層の構成もここでは３つの全結合層からなる構造で説明したが、任意の構造にすることが可能である。

次に、ステップＳ２０４では、更新部１２００は、ステップＳ２０３で構造を更新した更新ＤＮＮモデルを出力する。ステップＳ２０５では、学習処理部１３００は、ステップＳ２０４において更新部１２００から出力された更新ＤＮＮモデルに対して、分類タスクを行うネットワークの学習処理を行う。

なお、更新ＤＮＮモデルにおいて新規に追加された層以外の層の重み係数は、初期ＤＮＮモデル１２０において対応する層の重み係数を引き継いでいる。ステップＳ２０５における学習処理の詳細について、図４のフローチャートに従って説明する。

ステップＳ４０１では、学習処理部１３００は、学習データ群１１０に含まれるそれぞれの学習データについて、該学習データに含まれている学習画像を更新ＤＮＮモデルに入力して該更新ＤＮＮモデルから出力されるクラス尤度ベクトルを求める。そして学習処理部１３００は、学習データ群１１０に含まれるそれぞれの学習データについて、該学習データについて求めたクラス尤度ベクトルと、該学習データに対応する教師ベクトルと、の差分を第１の損失として求める。さらに学習処理部１３００は、分類困難事例か否かの２クラス分類の推定結果と分類困難ラベルに基づく損失を第２の損失として求める。「分類困難事例か否かの２クラス分類の推定結果と分類困難ラベルに基づく損失」は、タスクに応じた任意の損失関数を用いて算出可能であり、一般的には交差エントロピー誤差が多く用いられる。

ステップＳ４０２では、学習処理部１３００は、第１の損失および第２の損失に応じて（例えば、第１の損失および第２の損失に基づいて誤差逆伝搬法（バックプロパゲーション）などを用いて）更新ＤＮＮにおける対象層の重み係数を更新する。追加されたネットワークは、分類困難ラベルを教師情報としている。分類困難ラベルが付いたデータに対して１、分類困難ラベルが付いていないデータ（分類成功学習データ）に対して０を出力するように学習されてゆくネットワークである。入力された学習データに対する分類困難事例か否かの推定結果と分類困難ラベルとの差分を第２の損失とし、重み係数を更新していくことで第２の損失を小さくしてゆく。これにより、分類困難事例特有の特徴が、ＦＣ１‘層、ＦＣ２’層で抽出され、ＦＣ２層に与えられるようになる。また、分類成功学習データにも、「分類困難事例ではない」という特徴が抽出されるようになり、ＦＣ２層に与えられるようになる。例えば、図６に示す「豚」の特徴が抽出される学習データが入力されたときに、「分類困難事例のブルドッグではない」という特徴が与えられることになるので、より精度良く、「豚」と分類することができるようになる。本実施形態においては、ＣＮＮ特徴量を抽出する複数の畳み込み層については初期ＤＮＮモデル１２０の学習によって十分に学習できており、分類困難事例に属する画像も含めて分類対象の特徴抽出はできている状態にある。また、全結合層における分類においても分類困難事例以外の分類対象に対して高い分類精度を出せている。そこで、ステップＳ４０２では既に分類精度が高い既存の学習データに対しては精度を維持しつつ分類困難事例の精度を向上させるために、ＣＮＮ特徴量を抽出する中間層については重み係数の更新を行わない。また、ＣＮＮ特徴量に基づき分類困難事例に属していない学習データを正しく分類するための特徴抽出を行う全結合層、即ち追加した全結合層の出力と結合される全結合層（図７（ｂ）におけるＦＣ１層）も重み係数の更新を行わない。ステップＳ４０２では、追加した全結合層（図７（ｂ）におけるＦＣ１’層、ＦＣ２’層、ＦＣ３’－１層、ＦＣ３’－２層）の重み係数および追加した全結合層以降の全結合層（図７（ｂ）におけるＦＣ２層、ＦＣ３層）の重み係数を更新する。

ステップＳ４０２における処理により、更新ＤＮＮモデルは、元々分類精度の高かった学習データに対する分類精度を維持しつつ、分類困難事例か否かの２クラス分類に関わる学習および分類困難事例のクラス分類に関する学習を行うことができる。

＜変形例＞
探索部１１００は、ステップＳ２０２において同一の分類困難ラベルが付与された学習データ集合をユーザに提示しても良い。ユーザへの学習データ集合の提示方法は特定の提示方法に限らない。例えば、表示装置に同一の分類困難ラベルごとに学習データ集合を表示しても良いし、投影装置に同一の分類困難ラベルごとに学習データ集合を投影させても良い。また、ユーザには、同一の分類困難ラベルごとの学習データ集合に加えてもしくは代えて他の情報を提示しても良い。例えば、ＣＮＮ特徴量類似度や初期ＤＮＮモデル１２０における推定結果等を提示してもよい。このようなユーザへの提示により、例えばユーザはハイパーパラメータであるＴｓ、Ｔｃを設定／修正することができる。

このように、本実施形態によれば、分類タスクを行うニューラルネットワークにおいて全体の分類精度を維持しつつ、分類精度の低い特定のクラスの分類精度を向上するように効率よく学習を行うことができる。

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。第１の実施形態では分類タスクを学習対象とした。本実施形態では、入力画像中に特定の物体が含まれていた場合には、該入力画像における該特定の物体の画像領域を検出（推定）するタスクである物体領域検出タスクを学習対象とする。

例えば、特定の物体として人体を用いた物体領域検出タスクを学習済みのＤＮＮに図１２（ａ）の画像２００（人体の領域２１を含む画像）が入力されたとする。ＤＮＮが正しく推定できた場合には、図１２（ｂ）に示す画像２１０のように、人体が存在する領域２２を出力する。しかし、ＤＮＮが推定に失敗した場合には、図１２（ｃ）に示す画像２２０のように、誤って人体が存在しない領域２３を出力する事例（誤検出）や、人体が存在する領域２４を検出できない事例（未検出）が発生する。本実施形態では、系統的に検出が困難な未検出事例や系統的に誤検出が発生しやすい事例の発生を抑制することで物体領域検出タスクの精度を向上する。

はじめに、物体領域検出タスクを行うＤＮＮの学習処理の流れの一例について、分類タスクを行うＤＮＮの学習処理の流れと異なる点を、図５を用いて説明する。ここでは、ＤＮＮで検出する物体は１種とする。

物体領域検出タスクを行うＤＮＮの学習では、学習画像と教師マップのペアを学習データとして用いる。学習画像はＤＮＮに学習させたいオブジェクトが含まれている画像であり、教師マップは該学習画像における該オブジェクトの領域を構成する画素に対応する画素値を１とし、該領域以外の領域を構成する画素に対応する画素値を０とした２値画像である。

先ずは、（１）として示す如く、学習画像をＤＮＮの入力層へ入力し、中間層および出力層を動作させて該学習画像におけるオブジェクトの推定領域を表す推定マップを出力層から出力する。推定マップは、学習画像においてオブジェクトが存在すると推定される推定領域を表す２次元マップであり、該２次元マップにおける各画素の画素値は０以上１以下の値を取る。画素の画素値が１に近いほど、該画素はオブジェクトが存在する領域を構成する画素である確率がより高いと推定されたことになる。なお、複数種のオブジェクトを検出する場合には、推定マップがオブジェクトの種別数だけ出力されることになる。

次に、（２）として示す如く、推定マップと教師マップとの差分を損失関数に入力することで得られる関数値を損失として算出する。損失の算出は、推定マップと教師マップとで同位置の画素の画素値の差分に基づいて予め設定された損失関数を用いて算出される。

そして上記の（１）、（２）、（３）の処理を繰り返してＤＮＮにおける各層の重み係数を更新していくことで、損失を徐々に小さくしていく（推定マップを教師マップに近づけていく）ことにより、ＤＮＮの学習処理を達成する。

本実施形態では、学習データ群１１０は、学習画像と教師マップとのペアを複数含むデータセットであり、物体領域検出タスクのためのデータセットである。初期ＤＮＮモデル１２０は、このような学習データ群１１０を用いて学習されたＤＮＮモデルである。

物体領域検出タスクを行う初期ＤＮＮモデル１２０の一例を図９（ａ）に示す。図９（ａ）に示す初期ＤＮＮモデル１２０は、９６画素×９６画素のＲＧＢ画像（Ｒプレーン、Ｇブレーン、Ｂプレーンの３プレーンを有する）を入力とし、２つの畳み込み層（Ｃｏｎｖ１、Ｃｏｎｖ２）と２つの逆畳み込み層（Ｄｅｃｏｎｖ１、Ｄｅｃｏｎｖ２）を通して９６画素×９６画素の１ｃｈの推定マップを出力するニューラルネットワークモデルである。なお、本実施形態に適用可能なＤＮＮの構造はこのような構造に限らず、他の構造を採用しても良い。

探索部１１００は、初期ＤＮＮモデル１２０で物体領域検出を行う際に未検出あるいは誤検出であった推定結果の学習データを探索する。特に、探索部１１００は、未検出／誤検出である推定結果のうちＣＮＮ特徴空間上で近接している推定結果に対応する学習データを探索する。

本実施形態に係るニューラルネットワーク処理装置１０００もまた第１の実施形態と同様に、図２のフローチャートに従った処理を行うが、ステップＳ２０２において図８のフローチャートに従った処理を行う。

ステップＳ８０１では、探索部１１００は、学習データ群１１０から、初期ＤＮＮモデル１２０においてオブジェクトが未検出もしくは誤検出であった学習データを抽出する。探索部１１００は、学習データ群１１０におけるそれぞれの学習データについて以下の処理を行うことで、初期ＤＮＮモデル１２０においてオブジェクトが未検出もしくは誤検出であった学習データを学習データ群１１０から抽出する。

先ず探索部１１００は、学習データに含まれている学習画像を初期ＤＮＮモデル１２０の入力層へ入力し、中間層および出力層を動作させて該学習画像に対応する推定マップを出力層から出力する。そして探索部１１００は、該学習データに含まれている教師マップにおいて画素値が１の画素で構成されている領域に対応する推定マップ中の領域を特定する。そして探索部１１００は、該特定した領域が「画素値（尤度）が閾値未満の画素で構成されている領域」であれば、該特定した領域に対応する該学習画像中の領域を「未検出事例データの候補」とする。また探索部１１００は、該学習データに含まれている教師マップにおいて画素値が０の画素で構成されている領域に対応する推定マップ中の領域を特定する。そして探索部１１００は、該特定した領域が「画素値（尤度）が閾値以上の画素で構成されている領域」であれば、該特定した領域に対応する該学習画像中の領域を「誤検出事例データの候補」とする。そして探索部１１００は、「未検出事例データの候補」もしくは「誤検出事例データの候補」のいずれかとされた領域を含む学習画像を含む学習データを学習データ群１１０から抽出する。

ステップＳ８０２では、探索部１１００は、ステップＳ８０１で学習データ群１１０から抽出されたそれぞれの学習データについて、該学習データに含まれている学習画像を入力した初期ＤＮＮモデル１２０の中間層からの出力（ＣＮＮ特徴量）を取得する。ＣＮＮ特徴量は、学習画像の全画像領域から抽出しても良いし、学習画像において「未検出事例データの候補」もしくは「誤検出事例データの候補」のいずれかとされた領域を含む局所領域から抽出してもよい。また、中間層として存在するいずれの層からＣＮＮ特徴量を抽出しても良い。

ステップＳ８０３では、探索部１１００は、ステップＳ８０２で取得したＣＮＮ特徴量間の類似度（ＣＮＮ特徴量類似度）を、上記のステップＳ３０３と同様にして算出する。

ステップＳ８０４では、探索部１１００は、ステップＳ８０３で算出したＣＮＮ特徴量類似度に基づいて、「未検出事例データの候補」から「未検出事例データ」を選択する、もしくは「誤検出事例データの候補」から「誤検出事例データ」を選択する。

探索部１１００は、「未検出事例データの候補」を含む学習画像の集合において、ＣＮＮ特徴量類似度が閾値Ｔｓ以上となる学習画像を特定し、該特定した学習画像における「未検出事例データの候補」を「未検出事例データ」として選択する。また探索部１１００は、「誤検出事例データの候補」を含む学習画像の集合において、ＣＮＮ特徴量類似度が閾値Ｔｓ以上となる学習画像を特定し、該特定した学習画像における「誤検出事例データの候補」を「誤検出事例データ」として選択する。

そして探索部１１００は、選択した「未検出事例データ」や「誤検出事例データ」に対し、追加教師情報として新規に困難領域教師マップを作成する。困難領域教師マップは未検出あるいは誤検出であった領域の画素値を１、それ以外の領域の画素値を０とする画像である。更に、探索部１１００は、選択した「未検出事例データ」や「誤検出事例データ」に対し、分類困難ラベルを付与する。分類困難ラベルは類似した事例データを判別するためのｉｄが割り当てられた教師情報であり、例えば、ある類似した未検出事例データ集合と、ある類似した誤検出事例データ集合にはそれぞれ異なるｉｄが割り振られる。

以上の処理により、探索部１１００によって、学習データ群１１０のうちＣＮＮ特徴空間では区別できているがオブジェクトの検出が困難な学習データの集合に対して検出困難ラベルが追加される。

図２に戻って、ステップＳ２０３では、更新部１２００は、初期ＤＮＮモデル１２０の中間層に、未検出事例や誤検出事例を検出するためのネットワーク構造を追加する。具体的には、ＣＮＮ特徴量を入力として未検出事例や誤検出事例を検出する１つ以上の層を初期ＤＮＮモデル１２０に追加し、更に、追加した層からの出力をＣＮＮ特徴量を抽出した層以降の層の出力に加算する構造に初期ＤＮＮモデル１２０を更新する。ここで追加する層は、ステップＳ２０２においてＣＮＮ特徴量を抽出した中間層と同じ層から分岐して追加する。なお、追加する層は、探索部１１００において付与された分類困難ラベルのｉｄの数だけ分岐する。

図９（ａ）に示す構造を有する初期ＤＮＮモデル１２０を更新部１２００によって更新した更新後の初期ＤＮＮモデル１２０（更新ＤＮＮモデル）の構造の一例を図９（ｂ）に示す。ここで示すのは分類困難な領域の種類が１パターン、すなわち分類困難ラベルが１種類の時の構造である。便宜上、初期ＤＮＮモデル１２０の２つの畳み込み層をそれぞれＣｏｎｖ１層、Ｃｏｎｖ２層、２つの逆畳み込み層をＤｅｃｏｎｖ１層、Ｄｅｃｏｎｖ２層と称する。Ｃｏｎｖ１層は９６画素×９６画素のＲＧＢ画像（Ｒプレーン、Ｇブレーン、Ｂプレーンの３プレーンを有する）を入力とし、４８×４８×３２ｃｈの３次元テンソルを出力する。Ｃｏｎｖ２層はＣｏｎｖ１層の出力を入力として２４×２４×６４ｃｈの３次元テンソルを出力する。Ｄｅｃｏｎｖ１層はＣｏｎｖ２層の出力を入力として４８×４８×３２ｃｈの３次元テンソルを出力し、Ｄｅｃｏｎｖ２層はＤｅｃｏｎｖ１層の出力を入力として９６×９６×１ｃｈの推定検出マップを出力する。ステップＳ２０２における困難事例探索処理に用いたＣＮＮ特徴量としてＣｏｎｖ２層の出力である２４×２４×６４ｃｈの３次元テンソルを用いたとき、ステップＳ２０３のネットワーク構造更新処理によって初期ＤＮＮモデル１２０のネットワーク構造にＤｅｃｏｎｖ１’層、Ｄｅｃｏｎｖ２’層が追加される。Ｄｅｃｏｎｖ１’層はＣｏｎｖ２層の出力である２４×２４×６４ｃｈの３次元テンソルを入力として４８×４８×３２ｃｈの３次元テンソルを出力する。Ｄｅｃｏｎｖ２’層はＤｅｃｏｎｖ１’層の出力を入力として「未検出事例を検出した推定マップ」もしくは「誤検出事例を検出した推定マップ」を出力する。更にステップＳ２０３では、Ｄｅｃｏｎｖ１層の出力である３次元テンソルとＤｅｃｏｎｖ１’層の出力である３次元テンソルを加算する構造が初期ＤＮＮモデル１２０のネットワーク構造に追加される。なお、追加する１つ以上の層の構成はこれに限定するものではなく、任意の構造を追加することが可能である。

ステップＳ２０４では、更新部１２００は、ステップＳ２０３で構造を更新した更新ＤＮＮモデルを出力する。そしてステップＳ２０５では、学習処理部１３００は、ステップＳ２０４において更新部１２００から出力された更新ＤＮＮモデルに対して、物体領域検出タスクを行うネットワークの学習処理を行う。第１の実施形態と同様、既に物体領域検出精度が高い既存の学習データに対しては精度を維持しつつ検出困難事例の精度を向上させるべく、学習処理では追加した層以降の層（図９（ｂ）の例ではＤｅｃｏｎｖ１’層、Ｄｅｃｏｎｖ２’層）を学習する。このときの学習は探索部１１００で抽出された学習データを用いて行われ、その際の教師マップには、探索部１１００で付与された困難領域教師マップが用いられる。

このように本実施形態によれば、物体領域検出タスクを行うニューラルネットワークにおいて全体の分類精度を維持しつつ、未検出になりやすい又は誤検出になりやすい特定のクラスに対する物体領域検出精度を向上するように効率よく学習を行うことができる。

［第３の実施形態］
本実施形態では、学習済みのＤＮＮモデルに対して新しい学習データが追加されたときに、効率よく学習を行うニューラルネットワーク処理装置を提供する。なお、本実施形態においては物体領域検出タスクを行うＤＮＮモデルを一例として説明するが、分類タスクなどの他のタスクにおいても適用可能である。

本実施形態に係るニューラルネットワーク処理装置３０００の機能構成例について、図１０のブロック図を用いて説明する。学習データ群３１０、初期ＤＮＮモデル３２０、更新部３３００、学習処理部３４００のそれぞれは、第２の実施形態の学習データ群１１０、初期ＤＮＮモデル１２０、更新部１２００、学習処理部１３００と同様である。

初期ＤＮＮモデル３２０は、学習データ群３１０を用いて学習されたＤＮＮモデルであり、未知の入力画像に対して推定マップを出力するように学習された重み係数を獲得している。ただし、初期ＤＮＮモデル３２０は、既に既存の学習データ群３１０によって検出困難事例データの推定マップを出力する構成が追加されていても構わない。この場合、既存の学習データ群３１０には追加の教師情報として検出困難事例ラベルが付与されている。

追加部３１００は、学習データ群３１０に新規の学習データを追加する。探索部３２００は、新規に追加された学習データに対して初期ＤＮＮモデル１２０で物体領域検出を行う際に未検出あるいは誤検出であった推定結果を含む学習データを探索する。

なお、本実施形態では、図１０の構成を有するニューラルネットワーク処理装置３０００を１台の装置で構成する。しかし、図１０の構成を有するニューラルネットワーク処理装置３０００を複数台の装置で構成しても良い。

本実施形態に係るニューラルネットワーク処理装置３０００が行う処理について、図１１のフローチャートに従って説明する。

ステップＳ１１０２では、追加部３１００は、新たに追加された学習データの集合を既存の学習データ群３１０に追加する。新たに追加される学習データの数は一定数以上であることが望ましい。例えば、クラウド上のデータベースに随時学習データがアップロードされる構成である場合、追加された学習データの枚数がユーザの設定した閾値を超えたときに本処理が実行される。

ステップＳ１１０３では、探索部３２００は上記のステップＳ８０１～Ｓ８０４の処理を行うことで、新規に追加された学習データのうち、未検出事例データを含む学習画像を含む学習データ、誤検出事例データを含む学習画像を含む学習データを探索する。新たに追加した学習データを探索した結果は、以下の（ａ）～（ｄ）のいずれかのケースに該当することになる。
（ａ）全追加学習データが検出成功（未検出事例データを含む学習画像を含む学習データや誤検出事例データを含む学習画像を含む学習データがない）
（ｂ）新規の検出困難事例集合が抽出される（未検出事例データを含む学習画像を含む学習データ、誤検出事例データを含む学習画像を含む学習データのいずれかがある）
（ｃ）（既に検出困難事例ラベルの付いた学習データが存在する場合）既存の検出困難事例集合とのＣＮＮ特徴量類似度が閾値以上となる学習データが存在する
（ｄ）未検出事例データを含む学習画像を含む学習データ、誤検出事例データを含む学習画像を含む学習データは存在するが、ＣＮＮ特徴空間上でＣＮＮ特徴量類似度が閾値以上の追加学習データは存在しない
ステップＳ１１０４では、探索部３２００は、未検出事例データや誤検出事例データを含む学習画像があったか否かを判断する。この判断の結果、未検出事例データや誤検出事例データを含む学習画像があった場合には、処理はステップＳ１１０５に進む。一方、未検出事例データや誤検出事例データを含む学習画像が無かった場合（即ちステップＳ１１０４における（ａ）の場合）には、図１１のフローチャートに従った処理は終了する。しかし、未検出事例データや誤検出事例データを含む学習画像が無かった場合にステップＳ１１０８に処理を進めて追加学習データを用いた学習処理を実施してもよい。

ステップＳ１１０５では、探索部３２００は、検出困難事例集合が新規に抽出されたか否かを判定する。この判断の結果、検出困難事例集合が新規に抽出された場合、即ちステップＳ１１０４における（ｂ）の場合には、処理はステップＳ１１０６に進む。一方、新規の検出困難事例が存在しない場合、即ちステップＳ１１０４における（ｃ）あるいは（ｄ）の場合には、処理はステップＳ１１０８に進む。

ステップＳ１１０６およびステップＳ１１０７では、それぞれ第２の実施形態に係るステップＳ２０３およびステップＳ２０４と同様であるため、その説明を省略する。ステップＳ１１０３で新規の検出困難事例が抽出された場合には、本処理によって該検出困難事例を検出するサブネットワークを追加した更新DNNモデルが生成される。

ステップＳ１１０８では、学習処理部３４００は、ステップＳ１１０７において更新部３３００から出力された更新ＤＮＮモデルに対して、物体領域検出タスクを行うネットワークの学習処理を行う。ここでは、追加された学習データに対する困難事例探索処理の結果に応じて学習を行う層を決定する。即ち、ステップＳ１１０３における探索結果が（ｄ）である場合にはＣＮＮ特徴量を抽出する中間層の性能が十分ではないので、ＣＮＮ特徴量を抽出した層以前を含む層に対して学習を行う。（ｂ）もしくは（ｃ）である場合は、抽出された検出困難事例を検出するサブネットワーク以降の層を学習する。（ａ）であり学習を行う場合には更新ＤＮＮモデルの任意の層の学習を行ってよい。

以上の処理により本実施形態では、未知の学習データが新たに追加された場合に現状の検出精度劣化の影響を軽減しつつ未検出事例および誤検出事例の発生を抑制し、全体の性能を向上する。

［第４の実施形態］
図１のニューラルネットワーク処理装置１０００において学習データ群１１０を除く各機能部は、ハードウェアで実装しても良いが、ソフトウェア（コンピュータプログラム）で実装しても良い。同様に、図１０のニューラルネットワーク処理装置３０００において学習データ群３１０を除く各機能部は、ハードウェアで実装しても良いが、ソフトウェア（コンピュータプログラム）で実装しても良い。このようなソフトウェアを実行可能な情報処理装置としてのコンピュータは、図１のニューラルネットワーク処理装置１０００や図１０のニューラルネットワーク処理装置３０００に適用可能である。

図１のニューラルネットワーク処理装置１０００や図１０のニューラルネットワーク処理装置３０００に適用可能なコンピュータ装置のハードウェア構成例について、図１３のブロック図を用いて説明する。

ＣＰＵ１３０１は、ＲＡＭ１３０２やＲＯＭ１３０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１３０１は、コンピュータ装置全体の動作制御を行うと共に、図１のニューラルネットワーク処理装置１０００や図１０のニューラルネットワーク処理装置３０００が行うものとして上述した各処理を実行もしくは制御する。

ＲＡＭ１３０２は、ＲＯＭ１３０３や外部記憶装置１３０６からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ１３０７を介して外部から受信したデータ、を格納するためのエリアを有する。さらにＲＡＭ１３０２は、ＣＰＵ１３０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１３０２は各種のエリアを適宜提供することができる。ＲＯＭ１３０３には、コンピュータ装置の設定データや起動プログラムなどが格納されている。

操作部１３０４は、キーボード、マウス、タッチパネル画面などのユーザインターフェースであり、ユーザが操作することで各種の指示や情報（上記の閾値など）をＣＰＵ１３０１に対して入力することができる。

表示部１３０５は、液晶画面やタッチパネル画面等を有し、ＣＰＵ１３０１による処理結果を画像や文字などでもって表示することができる。なお、表示部１３０５は、画像や文字などを投影するプロジェクタなどの投影装置であっても良い。

外部記憶装置１３０６は、ハードディスクドライブ装置などの大容量情報記憶装置である。外部記憶装置１３０６には、ＯＳ（オペレーティングシステム）が保存されている。また外部記憶装置１３０６には、ニューラルネットワーク処理装置１０００やニューラルネットワーク処理装置３０００が行うものとして上述した各処理をＣＰＵ１３０１に実行もしくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置１３０６に保存されているコンピュータプログラムには、図１のニューラルネットワーク処理装置１０００において学習データ群１１０を除く各機能部の機能をＣＰＵ１３０１に実現させるためのコンピュータプログラムが含まれている。また、外部記憶装置１３０６に保存されているコンピュータプログラムには、図１０のニューラルネットワーク処理装置３０００において学習データ群３１０を除く各機能部の機能をＣＰＵ１３０１に実現させるためのコンピュータプログラムが含まれている。また、外部記憶装置１３０６に保存されているデータには、上記の学習データ群１１０や学習データ群３１０、上記の説明において既知の情報として取り扱った情報等が含まれている。

外部記憶装置１３０６に保存されているコンピュータプログラムやデータは、ＣＰＵ１３０１による制御に従って適宜ＲＡＭ１３０２にロードされ、ＣＰＵ１３０１による処理対象となる。

Ｉ／Ｆ１３０７は、コンピュータ装置が外部装置とのデータ通信を行うために用いる通信インターフェースである。例えば、学習データを外部装置からＩ／Ｆ１３０７を介してコンピュータ装置にダウンロードしても良いし、コンピュータ装置にて行った処理結果をＩ／Ｆ１３０７を介して外部装置に対して送信しても良い。

ＣＰＵ１３０１、ＲＡＭ１３０２、ＲＯＭ１３０３、操作部１３０４、表示部１３０５、外部記憶装置１３０６、Ｉ／Ｆ１３０７は何れも、バス１３０８に接続されている。なお、図１のニューラルネットワーク処理装置１０００や図１０のニューラルネットワーク処理装置３０００に適用可能なコンピュータ装置の構成は図１３に示した構成に限らず、適宜変更／変更が可能である。

なお、上記の説明において使用した具体的な数値は、具体的な説明を行うために使用したものであって、上記の各実施形態や各変形例がこれらの数値に限定されることを意図したものではない。また、以上説明した各実施形態や各変形例の一部若しくは全部を適宜組み合わせても構わない。また、以上説明した各実施形態や各変形例の一部若しくは全部を選択的に用いても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１１０：学習データ群１２０：初期ＤＮＮモデル１０００：ニューラルネットワーク処理装置１１００：探索部１２００：更新部１３００：学習処理部

Claims

学習データ群を用いて学習した階層型ニューラルネットワークにおいて誤った結果を出力する学習データに対して困難事例ラベルを設定する設定手段と、
前記困難事例ラベルが設定された学習データであるか否かを分類するための出力層を伴うネットワークを前記階層型ニューラルネットワークに追加した更新階層型ニューラルネットワークを生成する更新手段と、
前記困難事例ラベルが設定された学習データであるか否かを前記出力層が判別するように前記ネットワークを学習するための学習手段と
を備えることを特徴とする情報処理装置。
前記設定手段は、
前記階層型ニューラルネットワークにおいて誤った結果を出力する学習データについて該階層型ニューラルネットワークの中間層から得られる特徴量を取得し、該取得した特徴量間の類似度に基づいて前記設定を行うことを特徴とする請求項１に記載の情報処理装置。
前記設定手段は、
前記階層型ニューラルネットワークにおいて誤った結果を出力する学習データのうち、前記類似度が閾値以上となる学習データに対して困難事例ラベルを設定することを特徴とする請求項２に記載の情報処理装置。
前記設定手段は、
前記階層型ニューラルネットワークにおいて正解を出力する学習データについて該階層型ニューラルネットワークの中間層から得られる特徴量を取得し、該学習データのうち、前記困難事例ラベルが設定された学習データの特徴量との類似度が閾値以上となる特徴量の学習データに対して困難事例ラベルを設定することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記学習手段は、前記出力層における損失に基づいて、前記出力層より前の前記ネットワークの層における重み係数を更新することを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
前記設定手段は前記困難事例ラベルが設定された学習データをユーザに提示することを特徴とする請求項１乃至５の何れか１項に記載の情報処理装置。
更に、
前記学習データ群に新たな学習画像を追加する追加手段を備え、
前記設定手段は、前記新たな学習画像のうち前記階層型ニューラルネットワークにおいて誤った結果を出力する学習データに対して困難事例ラベルを設定することを特徴とする請求項１乃至６の何れか１項に記載の情報処理装置。
前記誤った結果は、オブジェクトの誤分類であることを特徴とする請求項１乃至７の何れか１項に記載の情報処理装置。
前記誤った結果は、オブジェクトの未検出もしくは誤検出であることを特徴とする請求項１乃至７の何れか１項に記載の情報処理装置。
情報処理装置が行う情報処理方法であって、
前記情報処理装置の設定手段が、学習データ群を用いて学習した階層型ニューラルネットワークにおいて誤った結果を出力する学習データに対して困難事例ラベルを設定する設定工程と、
前記情報処理装置の更新手段が、前記困難事例ラベルが設定された学習データであるか否かを分類するための出力層を伴うネットワークを前記階層型ニューラルネットワークに追加した更新階層型ニューラルネットワークを生成する更新工程と、
前記情報処理装置の学習手段が、前記困難事例ラベルが設定された学習データであるか否かを前記出力層が判別するように前記ネットワークを学習するための学習工程と
を備えることを特徴とする情報処理方法。
コンピュータを、請求項１乃至９の何れか１項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。