JP2019086979A

JP2019086979A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2019086979A
Application number: JP2017214064A
Authority: JP
Inventors: 貝塚　洋; Hiroshi Kaizuka; 洋貝塚; 信介山岡; Shinsuke Yamaoka
Original assignee: NS Solutions Corp
Current assignee: NS Solutions Corp
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2019-06-06

Abstract

【課題】より軽負担に、より適切に特徴量抽出器を学習することを目的とする。【解決手段】予め定められた領域集合群に含まれる領域集合ごとに、入力画像における領域集合に含まれる領域が入力画像と異なる他の画像に変更された画像を、画像から特徴量を抽出する特徴量抽出器の学習に用いられる学習画像として取得し、領域集合群に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、特徴量抽出器を学習し、前記領域集合群に含まれる領域集合それぞれは、前記入力画像内に予め設定された領域の集合であり、包含関係によって順序付けられている。【選択図】図３

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

画像識別において、入力画像をニューラルネットワーク等の特徴量抽出器に入力して、特徴量を抽出し、抽出された特徴量を、識別器に入力することで、画像識別を行うことが行われている。特徴量抽出器により、入力画像の特徴をより適切に捉えた特徴量が抽出されれば、識別精度がより向上させることができる。
そこで、より適切に画像の特徴を捉えた特徴量を抽出可能な特徴量抽出器を学習することが望まれている。特徴量抽出器を学習する方法には、ラベル付きの学習データを利用した教師あり学習がある。しかし、ラベル付きの学習データを十分な量、用意するのには、非常に手間がかかる。そこで、特徴量抽出器を、ラベルなしの学習データを利用して教師なし学習する方法が提案されている。
ラベルなしの学習データを利用した特徴量抽出器の教師なし学習の方法には、オートエンコーダがある。オートエンコーダは、入力画像から特徴量を抽出するエンコーダ部分と、抽出された特徴量から入力画像を復元するためのエンコーダ部分を反転させたデコーダ部分と、を用意し、デコーダ部分の出力と、入力画像と、の誤差を最小化するように、エンコーダ部分とデコーダ部分とのパラメータを学習する方法である。オートエンコーダで学習されたエンコーダ部分を特徴量抽出器として利用することができる。元の入力画像を復元できるように抽出された特徴量は、入力画像の特徴を十分に捉えている特徴量であると期待できる。非特許文献１には、エンコーダ部分とデコーダ部分との双方がＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ、畳み込みニューラルネットワーク）である畳み込みオートエンコーダ（ＣＡＥ、ＣｏｎｖｏｌｕｔｉｏｎａｌＡｕｔｏ−Ｅｎｃｏｄｅｒ）が開示されている。

また、ラベルなしの学習データを利用した特徴量抽出器の教師なし学習の方法には、非特許文献２に開示されているｓｉａｍｅｓｅアーキテクチャ（同一アーキテクチャで同一値のパラメータを有する２本の特徴量抽出用ニューラルネットワークＮＮ１、ＮＮ２が並列するニューラルネットワーク）を利用した類似度学習法がある。類似度学習法は、以下のような方法である。入力データである「ラベルが付与されていない画像データ」に対して、何らかの事前知識を活用して、各画像に対して「似ている画像」を選定し、それ以外の画像は「似ていない画像」として、（画像Ｉ、画像Ｊ、似ているｏｒ似ていない）という学習データを作る。この事前知識は、例えば、ＮＮ１に入力される画像Ｉと、ＮＮ２に入力される画像Ｊと、の入力空間でのユークリッド距離が小さければ「似ている」として、大きければ「似ていない」とするというような知識である。
そして、画像ＩをＮＮ１に入力して特徴量ベクトルｆ（Ｉ）を計算し、画像ＪをＮＮ２に入力して特徴量ベクトルｆ（Ｊ）を計算する。画像Ｉと画像Ｊが「似ている」場合にはｆ（Ｉ）とｆ（Ｊ）との特徴量空間でのユークリッド距離が小さくなるように学習し、画像ＩとＪが「似ていない」場合にはｆ（Ｉ）とｆ（Ｊ）との特徴量空間でのユークリッド距離が大きくなるように学習する。

Ｖ．Ｔｕｒｃｈｅｎｋｏ、Ｅ．Ｃｈａｌｍｅｒｓ、ＱＡ．Ｌｕｃｚａｋ：Ａｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌａｕｔｏ−ｅｎｃｏｄｅｒｗｉｔｈｐｏｏｌｉｎｇ−ｕｎｐｏｏｌｉｎｇｌａｙｅｒｓｉｎＣａｆｆｅ．ａｒＸｉｖ：１７０１．０４９４９（２０１７）．Ｒ．Ｈａｄｓｅｌｌ、Ｓ．Ｃｈｏｐｒａ、Ｙ．ＬｅＣｕｎ：Ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎｂｙｌｅａｒｎｉｎｇａｎｉｎｖａｒｉａｎｔｍａｐｐｉｎｇ．Ｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ、２００６ＩＥＥＥｃｏｍｐｕｔｅｒｓｏｃｉｅｔｙｃｏｎｆｅｒｅｎｃｅｏｎ．ｖｏｌ．２、ｐｐ．１７３５−１７４２（２００６）．Ｉ．Ｇｏｏｄｆｅｌｌｏｗ、Ｙ．Ｂｅｎｇｉｏ、Ａ．Ｃｏｕｒｖｉｌｌｅ：ＤｅｅｐＬｅａｒｎｉｎｇ、ＴｈｅＭＩＴＰｒｅｓｓ、２０１６．

オートエンコーダでは、入力画像から特徴量を抽出するエンコーダ部分に加え、エンコーダ部分により抽出された特徴量から入力画像を復元するデコーダ部分についても、パラメータを学習する必要があり、学習に係る処理の負担が増大するという問題があった。
また、オートエンコーダでは、画像認識タスクが高度なタスクである程、特徴量抽出用ニューラルネットワーク、即ち、エンコーダが複雑になり、したがって、エンコーダと対称構造であるデコーダも複雑になる。その結果、デコーダ部分の表現能力が高くなり、エンコーダが出力する特徴量ベクトルとデコーダの表現能力が協調してＣＡＥの学習が進み、画像認識タスクに適正な特徴量ベクトルが抽出できない場合がある。例えば、非特許文献３の１４．１節に記載されているように、特徴量ベクトルが１次元の場合をイメージする。このとき、デコーダの表現能力が高い場合に、入力画像ｘ（ｉ）をＣＡＥに入力した場合、特徴量ベクトルとしてはｉを求め、デコーダで「特徴量ベクトルがｉならば、画像ｘ（ｉ）を出力する」という学習が進む可能性が増加する。このように、ＣＡＥでは、余分なデコーダ部分の追加が必要となる限り、特徴量ベクトルが不適切になる可能性が増加してしまう。結果として、オートエンコーダでは、特徴量抽出器を適切に学習できない可能性が増加するという問題があった。

類似度学習法では、入力画像Ｉと入力画像Ｊとの入力空間でのユークリッド距離がどれくらいの時に「似ている」とするかの基準がないため、適切に２つの画像が似ているか否かを決定できない場合があるという問題があった。たとえば、物体における傷の検出を行うタスク（傷検出タスク）の場合には、傷のある物体の画像と、傷のない物体の画像と、が良く似ている場合には、画像間の入力空間でのユークリッド距離はどれも似たような小さな値になる。そのため、効果的な（画像Ｉ、画像Ｊ、似ているｏｒ似ていな）データを生成できない場合がある。また、逆に、画像内の傷以外の画像が大きく異なる場合には、画像間の入力空間でのユークリッド距離はどれも似たような大きな値になり、効果的な（画像Ｉ、画像Ｊ、似ているｏｒ似ていな）データを生成できない場合がある。そのため、適切に特徴量抽出器を学習できない可能性が増大するという問題がある。

そこで、本発明の情報処理装置は、予め定められた領域の集合である複数の領域集合に含まれる領域集合ごとに、前記領域集合に含まれる領域が入力画像と異なる他の画像に変更された前記入力画像を、画像から特徴量を抽出する徴量抽出器の学習に用いられる学習画像として取得する取得手段と、前記取得手段により前記複数の領域集合に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、前記特徴量抽出器のパラメータを学習する学習手段と、を有し、前記複数の領域集合それぞれは、異なる領域の集合であって、前記複数の領域集合に含まれる他の領域集合のうち、含まれる領域の合計の面積が自身に含まれる領域の合計の面積以下である領域集合に含まれる全ての領域を含む。

本発明によれば、より軽負担に、より適切に特徴量抽出器を学習することができる。

図１は、情報処理装置のハードウェア構成の一例を示す図である。図２は、情報処理装置の機能構成の一例を示す図である。図３は、学習処理の一例を示すフローチャートである。図４は、学習データ生成処理の一例を説明する図である。図５は、生成された学習データの一例を示す図である。図６は、学習処理の一例を説明する図である。図７は、情報処理装置の機能構成の一例を示す図である。図８は、前処理部の処理の一例を説明する図である。図９は、特徴量抽出用ＮＮの一例を説明する図である。図１０は、特徴量抽出用ＮＮの一例を説明する図である。

以下、本発明の実施形態について図面に基づいて説明する。
＜実施形態１＞
（本実施形態の処理の概要）
以下の参考文献１に開示されているニューラルネットワークにおける深層学習によって、畳み込みニューラルネットワーク（ＣＮＮ、ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）の物体認識性能は一挙に向上した。
参考文献１：Ａ．Ｋｒｉｚｈｅｖｓｋｙ、Ｉ．Ｓｕｔｓｋｅｖｅｒ、Ｇ．Ｅ．Ｈｉｎｔｏｎ：Ｉｍａｇｅｎｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ．ｐｐ．１０９７−１１０５（２０１２）．
参考文献１でのニューラルネットワークの学習によって決定すべきパラメータ数は約６千万個あった。その後、全結合ネットワークを回避する手法が発展して、以下の参考文献２に開示されているＧｏｏｇＬｅＮｅｔではこのパラメータ数は約５百万個に減少している。
参考文献２：Ｃ．Ｓｚｅｇｅｄｙ、Ｖ．Ｖａｎｈｏｕｃｋｅ、Ｓ．Ｉｏｆｆｅ、Ｊ．Ｓｈｌｅｎｓ、ａｎｄＺ．Ｗｏｊｎａ：Ｒｅｔｈｉｎｋｉｎｇｔｈｅｉｎｃｅｐｔｉｏｎａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．ａｒＸｉｖ：１５１２．００５６７ｖ３、２０１５．

現状では、物体認識タスクの難易度に応じて、数１０万個から数百万個の学習によって決定すべきパラメータを含むニューラルネットワークが利用されており、決定すべきパラメータ数は膨大である。
このように大量のパラメータを含むニューラルネットワークを汎化能力の高いニューラルネットワークにするために、大量の学習データ、即ち、大量の（画像データ、その画像のラベル）のペアを使って、パラメータを最適な値に学習させることが行われている。例えば、傷検出タスクの場合には、（画像データ、傷のある場所を示す０‐１行列）という学習データを大量に用いて学習する場合がある。しかし、ラベル付きの画像を大量に用意するのは非常に手間がかかり、ニューラルネットワークを適用して解決したい画像認識タスクによっては、ラベル付きの学習データが十分には集められない場合もあるという問題がある。

この問題の解決策として、転移学習が提案されている。これは、ＳｔａｎｆｏｒｄＵｎｉｖｅｒｓｉｔｙが開発したＩｍａｇｅＮｅｔ等の既存のラベル付き画像によって学習させた「学習済みニューラルネットワーク」から、高次の特徴量を抽出している層までを取り出し、この特徴量を入力とする識別機（ｃｌａｓｓｉｆｉｅｒ）を組み合わせて「画像認識タスクの識別システム」を構成する。画像認識タスク用の比較的少数のラベル付き学習データを使って、「画像認識タスクの識別システム」を学習させる。この際に、特徴量を計算するためのニューラルネットワークと識別機との両方を学習させる手法（ｆｉｎｅ−ｔｕｎｉｎｇ手法この場合には識別機もニューラルネットワークとする）と、特徴量を計算するためのニューラルネットワークは変更せずに利用し、識別機のみを学習させる手法（ｐｒｅ−ｔｒａｉｎｉｎｇ手法）と、がある。以下の参考文献３〜５には、このような手段を用いることで高性能な識別システムが構成できることが開示されている。
参考文献３：Ｊ．Ｄｏｎａｈｕｅ、Ｙ．Ｊｉａ、Ｏ．Ｖｉｎｙａｌｓ、Ｊ．Ｈｏｆｆｍａｎ、Ｎ．Ｚｈａｎｇ、Ｅ．Ｔｚｅｎｇ、ａｎｄＴ．Ｄａｒｒｅｌｌ：ＤｅＣＡＦ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＡｃｔｉｖａｔｉｏｎＦｅａｔｕｒｅｆｏｒＧｅｎｅｒｉｃＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎ．ａｒＸｉｖ：１３１０．１５３１ｖ１（２０１３）．
参考文献４：Ｒ．Ｇｉｒｓｈｉｃｋ、Ｊ．Ｄｏｎａｈｕｅ、Ｔ．Ｄａｒｒｅｌｌ、ａｎｄＪ．Ｍａｌｉｋ：Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ、Ｔｅｃｈｒｅｐｏｒｔ（ｖ５）．ａｒＸｉｖ：１３１１．２５２４ｖ５（２０１４）．
参考文献５：Ｐ．Ａｇｒａｗａｌ、Ｒ．Ｇｉｒｓｈｉｃｋ、Ｊ．Ｍａｌｉｋ：ＡｎａｌｙｚｉｎｇｔｈｅＰｅｒｆｏｒｍａｎｃｅｏｆＭｕｌｔｉｌａｙｅｒＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ．ａｒＸｉｖ：１４０７．１６１０ｖ２（２０１４）．

転移学習がうまくいく根拠は、大量のラベル付き画像（例えば、（画像、その画像のカテゴリ））を使って特徴量を計算するためのニューラルネットワークを事前に学習させることで、画像認識に必要な一般的な高次特徴量を計算できるニューラルネットワークが構成されると考えられることである。したがって、この学習済みのニューラルネットワークを画像認識タスクで用いられる特徴量抽出用ニューラルネットワークに適用することで、画像認識タスク用の比較的少数のラベル付き学習データでの学習であっても、高性能な識別システムを実現できると期待される。
しかし、転移学習が効果を発揮するためには、「転移学習用の大規模なラベル付き学習用画像データ（＝特徴量を計算するためのニューラルネットワークの学習に使用される大規模なラベル付き学習用画像データ）」が、実行したい画像認識タスクに現れる画像データとある程度以上の関連性を有する必要がある。画像認識タスクの種類によっては、このような転移学習用の大規模なラベル付き学習用画像データ準備することは困難である場合がある。例えば、産業現場での傷検出タスクでは、ＩｍａｇｅＮｅｔに含まれている動物や車等の画像で特徴量を計算するためのニューラルネットワークを学習しても効果は望めない。そこで、画像認識タスクで使用するニューラルネットワークへの入力データである「ラベルが付与されていない画像データ」だけを使って、特徴量抽出用ニューラルネットワークを教師なし学習で事前学習させるオートエンコーダや類似度学習法といった手法が提案されている。しかし、これらの手法には、処理負担が増大する、適切な学習ができない可能性が増大するといった問題がある。

そこで、本実施形態では、図１で後述する情報処理装置１００が以下に説明する処理を実行することで、特徴量を抽出するニューラルネットワーク（以下では、ＮＮとする）を学習する。以下では、画像から特徴量を抽出するＮＮを、特徴量抽出用ＮＮとする。特徴量抽出用ＮＮは、画像から特徴量を抽出する特徴量抽出器の一例である。本実施形態では、特徴量抽出用ＮＮは、畳み込みニューラルネットワーク（ＣＮＮ）であるとする。
本実施形態では、情報処理装置１００は、画像Ｊ中の領域の集合である複数の領域集合（Ω₁、Ω₂、・・・、Ω_K-1、Ω_K）を、Ω_k⊂Ω_k+1 ＆ Ω_k≠Ω_k+1（１＜＝ｋ＜＝Ｋ−１）を満たすように生成する。以下では、｛Ω₁、Ω₂、・・・、Ω_K-1、Ω_K｝を、領域集合群Ωとする。そのため、領域集合群Ωに含まれる領域集合は、それぞれが異なる領域集合であり、Ω₁⊂Ω₂⊂Ω₃⊂・・・⊂Ω_K-1⊂Ω_Kのように、包含関係により順位づけられていることとなる。即ち、領域集合群Ωに含まれる領域集合それぞれは、異なる領域集合であり、領域集合群Ωに含まれる領域集合のうち、含まれる全領域の面積が自身以下である領域集合を全て含むこととなる。
本実施形態では、Ω₁は、空集合であるとする。また、Ω_Kは、入力画像の全領域を含む集合であるとする。しかし、Ω₁は、空集合でないとしてもよいし、Ω_Kは、入力画像の全部でなく一部の領域を含む集合であるとしてもよい。
そして、情報処理装置１００は、複数の領域集合群Ωに含まれる領域集合Ω_i（１＜＝ｉ＜＝Ｋ）それぞれについて、以下の処理を行う。即ち、情報処理装置１００は、入力画像Ｊに対して、領域集合Ω_iに含まれる領域の部分について入力画像と異なる画像に変更する処理を行う。以下では、入力画像Ｊに対して領域集合Ω_iに含まれる領域を変更する処理が施された画像を、画像Ｊ（Ω_i）とする。これにより、情報処理装置１００は、入力画像１つにつき、入力画像内の領域集合Ω_iに含まれる領域が変更された画像Ｊ（Ω₁）〜画像Ｊ（Ω_K）を取得する。

Ω_j⊂Ω_j+1 ＆ Ω_j≠Ω_j+1（１＜＝ｊ＜＝Ｋ−１）なので、画像Ｊ（Ω₁）と画像Ｊ（Ω₂）とで共通する入力画像Ｊのままである部分は、画像Ｊ（Ω₁）と画像Ｊ（Ω₃）とで共通する入力画像Ｊのままである部分の全てを含み、画像Ｊ（Ω₁）と画像Ｊ（Ω₃）とで共通する入力画像Ｊのままである部分よりも広い。そのため、画像Ｊ（Ω₂）は、画像Ｊ（Ω₃）よりも画像Ｊ（Ω₁）と類似すると仮定できる。また、同様に、画像Ｊ（Ω₃）は、画像Ｊ（Ω₄）よりも画像Ｊ（Ω₁）と類似すると仮定できる。このように、画像Ｊ（Ω_i）（２＜＝ｉ＜＝Ｋ−１）は、画像Ｊ（Ω_i+1）よりも画像Ｊ（Ω₁）と類似すると仮定できる。画像Ｊ（Ω₁）を基準画像とすると、情報処理装置１００は、基準画像との類似の度合いが順序付けられた画像Ｊ（Ω₂）〜画像Ｊ（Ω_K）を取得することができたこととなる。以下では、基準画像と比較される対象となる画像を、比較画像とする。
画像から抽出される特徴量が画像の特徴をより正確に捉える特徴量である程、その特徴量は、次のような性質があると仮定できる。即ち、複数の画像の類似の度合いが高い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに近い値となり、複数の画像の類似の度合いが低い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに遠い値となるという性質である。

そこで、情報処理装置１００は、取得した画像Ｊ（Ω₁）〜画像Ｊ（Ω_K）と、予め定められた評価関数と、に基づいて、画像から特徴量を抽出する特徴量抽出用ＮＮを以下のように学習する。即ち、情報処理装置１００は、特徴量抽出用ＮＮを、複数の画像の類似の度合いが高い程、その複数の画像それぞれから抽出する特徴量それぞれが近い値となり、複数の画像の類似の度合いが低い程、その複数の画像それぞれから抽出する特徴量それぞれが遠い値となるように学習する。
これにより、情報処理装置１００は、オートエンコーダのようにデコーダ部分のパラメータを学習する必要がなく、より軽負担に、特徴量抽出用ＮＮの各パラメータを学習できる。また、情報処理装置１００は、オートエンコーダのようにデコーダ部分のパラメータを利用しないため、オートエンコーダに比べて表現力が増加するわけでなく、誤った学習を行う可能性を低減させ、より適切に、特徴量抽出用ＮＮの各パラメータを学習できる。また、情報処理装置１００は、類似度学習法と異なり、２つの画像が似ているか否かを不確実な基準を基に決定する必要がないため、類似度学習法に比べて、より適切に特徴量抽出用ＮＮの各パラメータを学習できる。

（情報処理装置のハードウェア構成）
図１は、情報処理装置１００のハードウェア構成の一例を示す図である。情報処理装置１００は、特徴量抽出用ＮＮを学習するパーソナルコンピュータ（ＰＣ）、サーバ装置、タブレット装置等の情報処理装置である。情報処理装置１００は、ＣＰＵ１０１、主記憶装置１０２、補助記憶装置１０３、入力Ｉ／Ｆ１０４、出力Ｉ／Ｆ１０５、ネットワークＩ／Ｆ１０６を含む。各要素は、システムバス１０７を介して、相互に通信可能に接続されている。
ＣＰＵ１０１は、情報処理装置１００を制御する中央演算装置である。主記憶装置１０２は、ＣＰＵ１０１のワークエリアやデータの一時的な記憶場所として機能する記憶装置である。主記憶装置１０２は、例えば、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等の記録媒体を用いて実装される。補助記憶装置１０３は、各種プログラム、各種設定情報、各種画像データ、各種ＮＮのパラメータの初期値の情報等を記憶する記憶装置である。補助記憶装置１０３は、例えば、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）等の記録媒体を用いて実装される。
入力Ｉ／Ｆ１０４は、マウス、キーボード、タッチパネルの操作部等の入力装置との接続に利用されるインターフェースである。ＣＰＵ１０１は、入力Ｉ／Ｆ１０４を介して、入力Ｉ／Ｆ１０４に接続された入力装置からの入力を受付ける。出力Ｉ／Ｆ１０５は、モニタ、スピーカ、タッチパネルの表示部等の出力装置との接続に利用されるインターフェースである。ネットワークＩ／Ｆ１０６は、外部のサーバや装置等とのネットワーク（例えば、インターネットやＬＡＮ等）を介した通信に利用されるインターフェースである。
ＣＰＵ１０１が、補助記憶装置１０３に記憶されたプログラムに基づき処理を実行することによって、図２で後述する情報処理装置１００の機能及び、図３で後述するフローチャートの処理等が実現される。

（情報処理装置の機能構成）
図２は、情報処理装置１００の機能構成の一例を示す図である。情報処理装置１００は、画像生成部２０１、ミニバッチ生成部２０２、学習部２０３を含む。
画像生成部２０１は、ミニバッチ生成部２０２から入力された画像と、領域集合と、に基づいて、入力された画像に対して、入力された画像内の入力された領域集合に含まれる領域を、各ピクセルが乱数となる画像に変更する処理を行うことで、特徴量抽出用ＮＮの学習に用いられる学習データとなる画像を生成する。
ミニバッチ生成部２０２は、予め用意されたＣチャネルの画像の集合Ｉから、予め定められた数Ｎ_minibatch（例えば、３２等）個の画像（Ｊ⁽¹⁾、Ｊ⁽²⁾、・・・Ｊ^{(Nminibatch-1)}、Ｊ^(Nminibatch)）を抽出する。以下では、このＪ⁽¹⁾、Ｊ⁽²⁾、・・・Ｊ^{(Nminibatch-1)}、Ｊ^(Nminibatch)の画像を、画像Ｊと総称する。本実施形態では、Ｃは、３とするが、２以下でもよいし、４以上でもよい。ミニバッチ生成部２０２は、例えば、集合Ｉからランダムな復元抽出を行うことで、Ｎ_minibatch個の画像を抽出する。また、ミニバッチ生成部２０２は、集合Ｉからランダムな非復元抽出を行うことで、Ｎ_minibatch個の画像を抽出することとしてもよい。そして、ミニバッチ生成部２０２は、抽出したＮ_minibatch個のＣチャネルの画像｛画像Ｊ^(j)（１＜＝ｊ＜＝Ｎ_minibatch）｝それぞれについて、以下の処理を行う。即ち、ミニバッチ生成部２０２は、画像Ｊ^(j)について、画像Ｊ^(j)中の領域の集合である予め定められた数Ｋ（例えば、４等）個の領域集合Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kを、Ω^(j) _k⊂Ω^(j) _k+1 ＆ Ω^(j) _k≠Ω^(j) _k+1（１＜＝ｋ＜＝Ｋ−１）を満たすように生成する。以下では、Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kの領域集合を含む領域集合群を、領域集合群Ω^(j)とする。また、以下では、Ω⁽¹⁾、Ω⁽²⁾、・・・、Ω^{(Nminibatch-1)}、Ω^{(Nminibatchj)}を、領域集合群Ωと総称する。領域集合群Ω^(j)に含まれる領域集合それぞれは、異なる領域の集合であって、領域集合群Ω^(j)に含まれる他の領域集合のうち、含まれる領域の合計の面積が自身に含まれる領域の合計の面積以下である領域集合に含まれる全ての領域を含むこととなる。そして、ミニバッチ生成部２０２は、画像Ｊ^(j)と、領域集合群Ω^(j)と、を画像生成部２０１に入力し、学習データの生成を指示する。そして、ミニバッチ生成部２０２は、画像Ｊそれぞれについて画像生成部２０１を介して生成した画像の集合を、特徴量抽出用ＮＮの学習に用いられる学習データの塊であるミニバッチとして決定し、ミニバッチの情報を、主記憶装置１０２、補助記憶装置１０３等に記憶する。
学習部２０３は、ミニバッチ生成部２０２により主記憶装置１０２、補助記憶装置１０３等に記憶されたミニバッチの情報と、予め定められた評価関数と、に基づいて、特徴量抽出用ＮＮの各パラメータを学習する。

（特徴量抽出用ＮＮの学習処理）
図３は、学習処理の一例を示すフローチャートである。図３を用いて、情報処理装置１００が学習データとなる画像を生成し、生成した学習データに基づいて、特徴量抽出用ＮＮを学習する処理を説明する。図４に、情報処理装置１００が行う学習データ生成処理の概要を示す。図４には、画像Ｊ^(j)と、領域集合群Ω^(j)と、が入力された画像生成部２０１が、学習データとなる画像Ｊ^(j)（Ω^(j) ₁）〜Ｊ^(j)（Ω^(j) _K）を生成している様子が示されている。
Ｓ３０１において、ミニバッチ生成部２０２は、補助記憶装置１０３に予め記憶されているＣチャネルの画像の集合Ｉから、予め定められた数Ｎ_minibatch個の画像Ｊ（Ｊ⁽¹⁾、Ｊ⁽²⁾、・・・Ｊ^{(Nminibatch-1)}、Ｊ^(Nminibatch)）を抽出する。
Ｓ３０２において、ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像Ｊから１つを選択する。以下では、Ｓ３０２で選択された画像を画像Ｊ^(j)とする。
Ｓ３０３において、ミニバッチ生成部２０２は、Ｓ３０２で選択された画像Ｊ^(j)中の領域の集合である予め定められた数Ｋ（例えば、４等）個の領域集合Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kを、Ω^(j) _k⊂Ω^(j) _k+1 ＆ Ω^(j) _k≠Ω^(j) _k+1（１＜＝ｋ＜＝Ｋ−１）を満たすように生成する。

Ｓ３０４において、ミニバッチ生成部２０２は、Ｓ３０２で選択した画像Ｊ^(j)と、Ｓ３０３で生成した領域集合群Ω^(j)と、を画像生成部２０１に入力する。画像生成部２０１は、入力された領域集合群Ω^(j)に含まれる領域集合それぞれについて、入力された画像Ｊ^(j)中の領域集合に含まれる領域を各ピクセルのピクセル値が乱数となる画像に変更することで、特徴量抽出用ＮＮの学習に用いられる学習データとなる画像Ｊ^(j)（Ω^(j) ₁）、Ｊ^(j)（Ω^(j) ₂）、・・・、Ｊ^(j)（Ω^(j) _K-1）、Ｊ^(j)（Ω^(j) _K）を生成する。画像Ｊ^(j)（Ω^(j) _k）は、画像Ｊ^(j)におけるΩ^(j) _kが示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像である。以下では、｛画像Ｊ^(j)（Ω^(j) ₁）、Ｊ^(j)（Ω^(j) ₂）、・・・、Ｊ^(j)（Ω^(j) _K-1）、Ｊ^(j)（Ω^(j) _K）｝を、画像群Ｊ^(j)（Ω^(j)）とする。画像群Ｊ^(j)（Ω^(j)）は、基準画像との類似の度合いが順序付けられる画像群となる。また、以下では、Ｊ⁽¹⁾（Ω⁽¹⁾）、Ｊ⁽²⁾（Ω⁽²⁾）、・・・、Ｊ^{(Nminibatch-1)}（Ω^{(Nminibatch-1)}）、Ｊ^(Nminibatch)（Ω^(Nminibatch)）を、Ｊ（Ω）と総称する。
また、画像生成部２０１は、入力された領域集合群Ω^(j)に含まれる領域集合それぞれについて、入力された画像Ｊ^(j)中の領域集合が示す領域を予め定められた画像（例えば、ピクセル値が１２８の画像）に変更することで、特徴量抽出用ＮＮの学習に用いられる学習データとなる画像を生成してもよい。しかし、例えば、画像Ｊ^(j)中の変更対象の領域（Ω^(j)それぞれが示す領域）が、この予め定められた画像に類似する場合、変更後の画像が元の画像と類似することとなるため、元の画像と特徴の異なる画像を生成することができない場合がある。そのため、画像生成部２０１は、画像Ｊ^(j)中の変更対象の領域を、各ピクセルのピクセル値が乱数となる画像に変更することで、元の画像と特徴の異なる画像を生成する可能性を向上させることができる。
また、（本実施形態の処理の概要）で説明したように、特徴量抽出用ＮＮの学習に用いられる画像は、実行したい画像認識タスクに現れる画像データとある程度以上の関連性を有する必要がある。画像Ｊ^(j)が、実行したい画像認識タスクに現れる画像データとある程度の関連性のある画像である場合であっても、領域集合群Ωに含まれる領域集合が示す領域が変更された画像が、画像データとの関連性が学習に不適切な程に低下した画像となる場合がある。そこで、画像生成部２０１は、画像Ｊ^(j)中の変更対象の領域を、各ピクセルのピクセル値が乱数であり、各ピクセルのピクセル値の平均値が画像Ｊ^(j)の全領域におけるピクセル値の平均値であり、各ピクセルのピクセル値の分散値が画像Ｊ^(j)の全領域におけるピクセル値の分散値である画像に変更することとしてもよい。このように、画像生成部２０１は、画像Ｊ^(j)中の変更対象の領域を、元の画像のピクセル値の特徴を維持したまま、変更することで、変更対象の領域が変更された画像が、実行したい画像認識タスクに現れる画像データとの関連性が学習に不適切な程に低下した画像となる可能性を低減できる。

図５は、画像生成部２０１により生成された学習データの一例を示す図である。図５を用いて、Ｋが４であり、Ω^(j) ₁が空集合であり、Ω^(j) ₂が８×８に分割された画像Ｊ^(j)の領域のうちの８個の領域を含む集合であり、Ω^(j) ₃がΩ^(j) ₂に含まれる領域を全て含み、８×８に分割された画像Ｊ^(j)の領域のうちの３２個の領域であり、Ω^(j) ₄が画像Ｊ^(j)の全領域を含む集合である場合に、画像生成部２０１により生成される画像の一例を説明する。
画像５００は、画像生成部２０１により、画像Ｊ^(j)の領域のうち、Ω^(j) ₁が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。Ω^(j) ₁が空集合であるため、画像５００は、元の画像（画像Ｊ^(j)）そのままとなっている。
画像５０１は、画像生成部２０１により、画像Ｊ^(j)の領域のうち、Ω^(j) ₂が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。８×８に分割された元の画像（画像Ｊ^(j)）の領域のうちの８個の領域が、ピクセル値が乱数の画像に変更されていることが分かる。
画像５０２は、画像生成部２０１により、画像Ｊ^(j)の領域のうち、Ω^(j) ₃が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。８×８に分割された元の画像（画像Ｊ^(j)）の領域のうちの３２個の領域が、ピクセル値が乱数の画像に変更されていることが分かる。
画像５０３は、画像生成部２０１により、画像Ｊ^(j)の領域のうち、Ω^(j) ₄が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。元の画像（画像Ｊ^(j)）の全領域が、ピクセル値が乱数の画像に変更されていることが分かる。

画像５００と画像５０１とで共通する入力画像Ｊ^(j)のままである部分は、画像５００と画像５０２とで共通する入力画像Ｊ^(j)のままである部分の全てを含み、画像５００と画像５０２とで共通する入力画像Ｊ^(j)のままである部分よりも広い。そのため、画像５０１は、画像５０２よりも画像５００と類似すると仮定できる。また、同様に、画像５０２は、画像５０３よりも画像５００と類似すると仮定できる。このように、画像５０１、画像５０２、画像５０３の順に、画像５００と類似すると仮定できる。
また、画像５０３と画像５０２とで共通するピクセル値が乱数の画像に変更された部分は、画像５０３と画像５０１とで共通するピクセル値が乱数の画像に変更された部分の全てを含み、画像５０３と画像５０１とで共通するピクセル値が乱数の画像に変更された部分よりも広い。そのため、画像５０２は、画像５０１よりも画像５０３と類似すると仮定できる。また、同様に、画像５０１は、画像５００よりも画像５０３と類似すると仮定できる。このように、画像５０２、画像５０１、画像５００の順に、画像５０３と類似すると仮定できる。
本実施形態では、画像Ｊは、Ｃチャネル画像である。そのため、画像生成部２０１は、各チャネルの画像それぞれについて、領域集合群Ω^(j)に含まれる領域集合が示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像を生成することとなる。図５の例では、画像５００〜５０３と同様に、画像中の領域集合群Ω^(j)に含まれる領域集合それぞれが示す領域が変更された画像が、チャネルごとに４個生成されることとなる。

Ｓ３０５において、ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像全てについて、Ｓ３０３〜Ｓ３０４の処理が完了したか否かを判定する。ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像全てについて、Ｓ３０３〜Ｓ３０４の処理が完了したと判定した場合、Ｓ３０６の処理に進む。ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像の中に、Ｓ３０３〜Ｓ３０４の処理が完了していない画像があると判定した場合、Ｓ３０２の処理に進む。
Ｓ３０６において、ミニバッチ生成部２０２は、Ｓ３０４で生成した画像全てを特徴量抽出用ＮＮの学習に用いられる学習データの塊であるミニバッチとして決定する。
このように、Ｓ３０１〜Ｓ３０６の処理により、情報処理装置１００は、複数の画像であって、その複数の画像に含まれるある画像と他の画像それぞれの類似の度合いが順序付けられた複数の画像を、学習データとして生成できる。

Ｓ３０７において、学習部２０３は、Ｓ３０６で決定されたミニバッチと、予め定められた評価関数Ｆと、に基づいて、特徴量抽出用ＮＮを学習する。図６に、情報処理装置１００が行う学習処理の概要を示す。図６には、ミニバッチに含まれる画像Ｊ^(j)（Ω^(j) _k）（１＜＝ｋ＜＝Ｋ）がそれぞれ、特徴量抽出用ＮＮ（特徴量抽出用ＮＮ₁〜特徴量抽出用ＮＮ_K）に入力されることで、特徴量ｆ（Ｊ^(j)（Ω^(j) _k））（１＜＝ｋ＜＝Ｋ）が取得され、学習部２０３に入力される様子が示されている。以下では、特徴量抽出用ＮＮが、任意のＣチャネルの画像Ｘから、抽出した特徴量を、ｆ（Ｘ）とする。特徴量抽出用ＮＮ₁〜特徴量抽出用ＮＮ_Kは、ｓｉａｍｅｓｅアーキテクチャと同様に、全て同一のＮＮである。即ち、同一のアーキテクチャで、かつ、含まれるパラメータの値も同一である。学習部２０３は、この入力された特徴量ｆ（Ｊ^(j)（Ω^(j) _k））（１＜＝ｊ＜＝Ｎ_minibatch １＜＝ｋ＜＝Ｋ）と、予め定められた評価関数Ｆと、に基づいて、特徴量抽出用ＮＮの各パラメータを学習する。
Ｓ３０７の処理の詳細を説明する。学習部２０３は、補助記憶装置１０３から特徴量抽出用ＮＮの初期パラメータの情報を取得する。また、学習部２０３は、補助記憶装置１０３から予め定められた評価関数Ｆの情報を取得する。

画像Ｊ^(j)（Ω^(j)）に含まれる一群の画像（Ｊ^(j)（Ω^(j) ₁）〜Ｊ^(j)（Ω^(j) _K））のうち、類似の度合いの比較の対象となる画像を基準画像とする。この一群の画像に含まれる他の画像と基準画像との類似の度合いが大きい程、特徴量抽出用ＮＮが基準画像、この他の画像それぞれから、より近い値の特徴量を抽出し、この他の画像と基準画像との類似の度合いが小さい程、より遠い値の特徴量を抽出することが望まれる。
そこで、本実施形態では、例えば、画像Ｊ^(j)（Ω^(j)）に含まれる一群の画像（Ｊ^(j)（Ω^(j) ₁）〜Ｊ^(j)（Ω^(j) _K））のうち、類似の度合いの比較の対象となる画像をＪ^(j)（Ω^(j) ₁）とすると、以下のような評価関数Ｆを用いることとする。即ち、評価関数Ｆとして、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ）」という大小関係が強化される程、小さくなるような関数を用いることとする。大小関係の強化とは、大小関係を有する２つの対象のうち、大きい方がより大きく、小さい方がより小さくなることである。このような大小関係が強化されるということは、特徴量抽出用ＮＮが、ある画像と別の画像との類似の度合いが大きい程、これらの画像それぞれから、より近い値の特徴量を抽出するようになるということである。学習部２０３は、このような評価関数Ｆの値を最小化するように、特徴量抽出用ＮＮの各パラメータを学習する。

また、評価関数Ｆとして、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ）」という大小関係が強化される程、大きくなるような関数を用いることとしてもよい。その場合、学習部２０３は、このような評価関数Ｆの値を最大化するように、特徴量抽出用ＮＮの各パラメータを学習することとなる。
また、本実施形態では、評価関数は、更に、基準画像として、Ｊ^(j)（Ω^(j) ₁）に加えて、Ｊ^(j)（Ω^(j) _K）を用いる。即ち、評価関数Ｆとして、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（１＜＝ｋ＜＝Ｋ−２）」という大小関係が強化される程、小さくなるような関数を用いることとする。
本実施形態では、評価関数Ｆは、以下の式１で表される関数である。

式１におけるｊは、ミニバッチに含まれる同一の画像から画像生成部２０１により生成された一群の画像群を識別するためのインデックスである。ρは、チューニングパラメータであり、０以上の実数である。ρ_k（ρ₁〜ρ_K）は、チューニングパラメータであり、合計が１となるそれぞれ０以上の実数である。αは、１以上の整数である。関数Ｌ、Ｌ_inverseは、それぞれｊを入力とする関数である。関数ｄは、２つの画像を入力とする関数である。関数ｄは、入力された２つの画像から特徴量抽出量ＮＮにより抽出される特徴量同士の差分を示す。ｆ_dimは、関数ｄに入力された２つの画像から特徴量抽出用ＮＮにより抽出された特徴量であるベクトルの次元である。
式１で、Ｋが大きくなるにつれて、ｄ（Ｊ^(j)（Ω^(j) ₁）、Ｊ^(j)（Ω^(j) ₂））とｄ（Ｊ^(j)（Ω^(j) _K）、Ｊ^(j)（Ω^(j) _K-1））とが小さくなる傾向や、ｄ（Ｊ^(j)（Ω^(j) ₁）、Ｊ^(j)（Ω^(j) ₃））とｄ（Ｊ^(j)（Ω^(j) _K）、Ｊ^(j)（Ω^(j) _K-2））とが小さくなる傾向が顕著になる。この傾向を防止するために、Ｋ＝３、４の場合には「α＝１」、Ｋ＝５、６、７、８の場合にはα＝２、Ｋ＝９、１０の場合にはα＝４とすることができる。このように１以上の整数であるαの値は、Ｋの値に応じて決定されることとしてもよい。
評価関数Ｆの第１項（最初のΣで囲まれた項）は、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ）」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（１＜＝ｋ＜＝Ｋ−２）」という大小関係と、を強化するための制約を示す項である。
評価関数Ｆの第１項中の関数Ｌは、画像Ｊ^(j)（Ω^(j)）における基準画像である画像Ｊ^(j)（Ω^(j) ₁））と画像Ｊ^(j)（Ω^(j) _k）（３＜＝ｋ＜＝Ｋ）との特徴量の差分と、画像Ｊ^(j)（Ω^(j) ₁））と画像Ｊ^(j)（Ω^(j) _k）よりも画像Ｊ^(j)（Ω^(j) ₁））に類似する画像Ｊ^(j)（Ω^(j) _k-1）との特徴量の差分と、の比率の合計を示す関数である。特徴量の差分は、特徴量の相違の度合いを示す指標の一例である。本実施形態では、関数Ｌは、画像Ｊ^(j)（Ω^(j) ₁））と画像Ｊ^(j) （Ω^(j) _k-1）との特徴量の差分を、画像Ｊ^(j)（Ω^(j) ₁））と画像Ｊ^(j)（Ω^(j) _k）との特徴量の差分で除した値の合計を示す。
関数Ｌを含む評価関数Ｆは、基準画像を画像Ｊ^(j)（Ω^(j) ₁））として、その他の画像（画像Ｊ^(j)（Ω^(j) ₂））〜画像Ｊ^(j)（Ω^(j) _K）））を複数の比較画像とした場合の、基準画像から特徴量抽出用ＮＮにより抽出される特徴量と、複数の比較画像それぞれから特徴量抽出用ＮＮにより抽出される特徴量と、に関する項を含む関数の一例である。

評価関数Ｆの第１項中の関数Ｌ_inverseは、画像Ｊ^(j)（Ω^(j)）における基準画像である画像Ｊ^(j)（Ω^(j) _K））と画像Ｊ^(j)（Ω^(j) _k-2）（３＜＝ｋ＜＝Ｋ）との特徴量の差分と、画像Ｊ^(j)（Ω^(j) _K））と画像Ｊ^(j)（Ω^(j) _k-2）よりも画像Ｊ^(j)（Ω^(j) _K））に類似する画像Ｊ^(j)（Ω^(j) _k-1）との特徴量の差分と、の比率の合計を示す関数である。本実施形態では、関数Ｌ_inverseは、画像Ｊ^(j)（Ω^(j) _K））と画像Ｊ^(j) （Ω^(j) _k-1）との特徴量の差分を、画像Ｊ^(j)（Ω^(j) ₁））と画像Ｊ^(j)（Ω^(j) _k-2）との特徴量の差分で除した値の合計を示す。
関数Ｌ_inverseを含む評価関数Ｆは、基準画像を画像Ｊ^(j)（Ω^(j) _K））として、その他の画像（画像Ｊ^(j)（Ω^(j) ₁））〜画像Ｊ^(j)（Ω^(j) _K-1）））を複数の比較画像とした場合の、基準画像から特徴量抽出用ＮＮにより抽出される特徴量と、複数の比較画像それぞれから特徴量抽出用ＮＮにより抽出される特徴量と、に関する項を含む関数の一例である。
このように、関数Ｌ、Ｌ_inverseは、基準画像と基準画像でないある画像（１）との特徴量の差分を、基準画像と画像（１）よりも基準画像に類似の度合いが低い画像（２）との特徴量の差分で除した値の合計を示す。そのため、基準画像と基準画像でない画像（１）との特徴量の差分がより小さくなり、基準画像と画像（２）との特徴量の差分がより大きくなると、関数Ｌ、Ｌ_inverseは、より小さくなり、結果として、評価関数Ｆの第１項もより小さくなる。したがって、学習部２０３は、評価関数Ｆを最小化するように、特徴量抽出用ＮＮの各パラメータを学習することで、基準画像と画像（１）とからより近い値の特徴量を抽出し、基準画像と画像（２）とからより遠い値の特徴量を抽出するような特徴量抽出用ＮＮを決定できる。

また、関数Ｌ、Ｌ_inverseは、基準画像と画像（１）との特徴量の差分を、基準画像と画像（１）よりも基準画像に類似の度合いが高い画像（２）との特徴量の差分で除した値の合計を示す関数としてもよい。その場合、基準画像と画像（１）との特徴量の差分がより大きくなり、基準画像と画像（２）との特徴量の差分がより小さくなると、関数Ｌ、Ｌ_inverseは、より大きくなり、結果として、評価関数Ｆの第１項もより大きくなる。したがって、学習部２０３は、評価関数Ｆを最大化するように、特徴量抽出用ＮＮの各パラメータを学習することで、基準画像と画像（１）とからより遠い値の特徴量を抽出し、基準画像と画像（２）とからより近い値の特徴量を抽出するような特徴量抽出用ＮＮを決定できる。
また、評価関数Ｆの第１項は、関数Ｌ、Ｌ_inverseのうち、何れか１つのみを含むこととしてもよい。即ち、基準画像を１つのみとしてもよい。これにより、情報処理装置１００は、学習処理におけるＣＰＵ１０１の利用率等を軽減できる。

また、画像Ｊ^(j)（Ω^(j) _k））（１＜＝ｋ＜＝Ｋ）のうち、画像Ｊ^(j)（Ω^(j) ₁））、画像Ｊ^(j)（Ω^(j) _K））以外の画像を、基準画像としてもよい。例えば、画像Ｊ^(j)（Ω^(j) ₂）を基準画像としてもよい。その場合、図５の例では、画像５０１が基準画像となる。図５の例では、画像５０１と画像５００とで共通する入力画像Ｊ^(j)のままである部分は、画像５０１と画像５０２とで共通する入力画像Ｊ^(j)のままである部分の全てを含み、画像５０１と画像５０２とで共通する入力画像Ｊ^(j)のままである部分よりも広い。そのため、画像５００は、画像５０２よりも画像５０１と類似すると仮定できる。また、同様に、画像５０２は、画像５０３よりも画像５０１と類似すると仮定できる。このように、画像５００、画像５０２、画像５０３の順に、画像５０１と類似すると仮定できる。
図５の例で、基準画像がＪ^(j)（Ω^(j) ₂）である場合、評価関数Ｆ内の関数Ｌの中身は、以下の式のようになる。
Ｌ（ｊ）＝（ｄ（Ｊ^(j)（Ω^(j) ₂）、Ｊ^(j)（Ω^(j) ₁））／ｄ（Ｊ^(j)（Ω^(j) ₂）、Ｊ^(j)（Ω^(j) ₃）））^α＋（ｄ（Ｊ^(j)（Ω^(j) ₂）、Ｊ^(j)（Ω^(j) ₃））／ｄ（Ｊ^(j)（Ω^(j) ₂）、Ｊ^(j)（Ω^(j) ₄）））^α

評価関数Ｆの第２項（第１項以外の部分）は、特徴量抽出用ＮＮにより抽出される特徴量のサイズに関する制約を示す項である。本実施形態では、評価関数Ｆの第２項（第１項以外の部分）は、特徴量の集合｛ｆ（Ｊ^(j)（Ω^(j) _k））（１＜＝ｊ＜＝Ｎ_minibatch、１＜＝ｋ＜＝Ｋ）｝に含まれる特徴量が示すベクトルの長さの重み付き平均値が指定された定数からは外れる程、大きくなる。評価関数Ｆの第２項により、学習部２０３は、指定されたオーダのサイズの特徴量を抽出できるように、特徴量抽出用ＮＮを学習できる。
「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ）」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（１＜＝ｋ＜＝Ｋ−２）」という大小関係と、がどのオーダのユークリッド距離で成立するのかが不定であるため学習が安定しない場合もある。そこで、学習部２０３は、評価関数Ｆの第２項を用いることで、特徴量抽出用ＮＮの各パラメータをより安定して学習することができる。
この第２項を含む評価関数Ｆは、特徴量抽出用ＮＮに入力される画像それぞれが特徴量抽出用ＮＮに入力される際に抽出される特徴量のサイズの制約に関する項を含む関数の一例である。

そして、学習部２０３は、ミニバッチに含まれる画像と、取得した特徴量抽出用ＮＮの初期パラメータと、評価関数Ｆと、に基づいて、確率勾配降下法（ＳＧＤ、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、Ａｄａｍ等の最適化手法を用いて、特徴量抽出用ＮＮの各パラメータを学習する。
評価関数Ｆを、ミニバッチに含まれる各画像（Ｊ^(j)（Ω^(j) _k）（１＜＝ｊ＜＝Ｎ_minibatch １＜＝ｋ＜＝Ｋ））が定数であり、特徴量抽出用ＮＮの各パラメータが変数である関数として、学習部２０３は、以下の処理を行う。即ち、学習部２０３は、評価関数Ｆを特徴量抽出用ＮＮの各パラメータで偏微分することで、現在の特徴量抽出用ＮＮの各パラメータの値が示す点における勾配ベクトルを求める。そして、学習部２０３は、求めた勾配ベクトルの逆方向に予め定められた値だけ、特徴量抽出用ＮＮの各パラメータを変動させることで、特徴量抽出用ＮＮの各パラメータを更新する。
学習部２０３は、評価関数Ｆの値が収束するまで、又は、｛ｆ（Ｊ^(j)（Ω^(j) _k））（１＜＝ｊ＜＝Ｎ_minibatch ）｝が特徴量空間内でｋ毎に分離されたと判断されるまで、又は、ある一定の反復回数になるまで、以上の処理を繰り返し、最終的に更新された特徴量抽出用ＮＮのパラメータを、最終的な学習結果の特徴量抽出用ＮＮのパラメータとして決定する。

（効果）
以上、本実施形態では、情報処理装置１００は、ラベルなしの画像Ｊ（Ｊ⁽¹⁾〜Ｊ^(Nminibatch)）それぞれについて、画像Ｊ^(j)中の領域の集合であるＫ個の領域集合Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kを、領域集合群Ω^(j)として、Ω^(j) _k⊂Ω^(j) _k+1 ＆ Ω^(j) _k≠Ω^(j) _k+1（１＜＝ｋ＜＝Ｋ−１）を満たすように生成した。そして、情報処理装置１００は、画像Ｊ^(j)それぞれについて、画像Ｊ^(j)内の領域集合群Ω^(j)に含まれる領域集合が示す領域が、各ピクセルのピクセル値が乱数である画像に変更された画像Ｊ^(j)（Ω^(j)）を生成した。画像Ｊ^(j)（Ω^(j) _k）（２＜＝ｋ＜＝Ｋ）それぞれは、画像Ｊ^(j)（Ω^(j) ₁）との類似の度合いが、順序づいた画像とみなすことができる。また、画像Ｊ^(j)（Ω^(j) _k）（１＜＝ｋ＜＝Ｋ−１）それぞれは、画像Ｊ^(j)（Ω^(j) _K）との類似の度合いが、順序づいた画像とみなすことができる。
そして、情報処理装置１００は、生成したＪ^(j)（Ω^(j)）と、式１に示す評価関数Ｆと、に基づいて、評価関数Ｆを最小化するように、特徴量抽出用ＮＮの各パラメータを学習することとした。
これにより、学習部２０３は、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ）」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（１＜＝ｋ＜＝Ｋ−２）」という大小関係と、を強化するように、特徴量抽出用ＮＮの各パラメータを学習した。
画像から抽出される特徴量が画像の特徴をより正確に捉える特徴量である程、その特徴量は、次のような性質があると仮定できる。即ち、複数の画像の類似の度合いが高い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに近い値となり、複数の画像の類似の度合いが低い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに遠い値となるという性質である。本実施形態では、情報処理装置１００は、このような性質を満たすように、特徴量抽出用ＮＮを学習したこととなる。これにより、情報処理装置１００は、より適切に特徴量抽出用ＮＮを学習することができる。

また、本実施形態の処理では、情報処理装置１００は、特徴量抽出用ＮＮのパラメータのみを学習するので、オートエンコーダのように、特徴量抽出用ＮＮに加えて更にデコーダ部分のパラメータを学習する必要がなく、オートエンコーダに比べてより軽負担に、特徴量抽出用ＮＮのパラメータを学習できる。
また、情報処理装置１００は、オートエンコーダのように、デコーダ部分のパラメータを追加しないため、表現能力が増加させないため、オートエンコーダに比べて、誤った学習を行う可能性を低減でき、より適切に特徴量抽出用ＮＮの各パラメータを学習できる。
また、情報処理装置１００は、類似度学習法と異なり、２つの画像が似ているか否かを不確実な基準を基に決定する必要がないため、類似度学習法に比べて、より適切に特徴量抽出用ＮＮの各パラメータを学習できる。
また、類似度学習法には、学習画像のラベルとして「似ている」と「似ていない」の２値の基準しかないため、数千次元の特徴量ベクトルを抽出する目的には、粗すぎるという問題がある。対して、本実施形態の情報処理装置１００は、２値の基準でなく、Ｋ個の段階で分けられた基準画像との類似の度合いを用いるため、数千次元の特徴量ベクトルを抽出しなければならないタスクで使用される特徴量抽出用ＮＮの各パラメータを、そのタスクで使用されるＮＮへの入力データである「ラベルが付与されていない画像データ」だけを使って、より正確に教師なし学習できる。

＜実施形態２＞
本実施形態では、特徴量抽出用ＮＮに入力される画像が、動画である場合の情報処理装置１００の処理について説明する。
本実施形態の情報処理装置１００のハードウェア構成は、実施形態１と同様である。
図７は、本実施形態の情報処理装置１００の機能構成の一例を示す図である。本実施形態の情報処理装置１００の機能構成は、実施形態１と比べて、前処理部７０１が含まれる点で異なる。
前処理部７０１は、動画像から、複数の静止画像を、特徴量抽出用ＮＮに入力される入力画像として取得する処理を行う。

図３を用いて、本実施形態の情報処理装置１００による特徴量抽出用ＮＮの学習処理の一例を説明する。
Ｓ３０１において、ミニバッチ生成部２０２は、補助記憶装置１０３に予め記憶されているＣチャネルの動画像の集合Ｉから、予め定められた数Ｎ_minibatch（例えば、３２等）個の画像Ｕ（Ｕ⁽¹⁾、Ｕ⁽²⁾、・・・Ｕ^{(Nminibatch-1)}、Ｕ^(Nminibatch)）を抽出する。
そして、前処理部７０１は、抽出した画像Ｕそれぞれについて、以下の処理を行う。ここで、抽出された画像Ｕ^(j)（１＜＝ｊ＜＝Ｎ_minibatch）を、時刻ｔ_jから撮影された予め定められたサイズのＣ−チャネルの動画像であるとする。抽出された動画像における時刻ｔ_jからΔｔ間隔の各時刻におけるＰ＋１枚のＣ−チャネルの静止画像をそれぞれ、画像Ｖ^(j)（ｔ_j）、画像Ｖ^(j)（ｔ_j＋Δｔ）、画像Ｖ^(j)（ｔ_j＋２Δｔ）、・・・、画像Ｖ^(j)（ｔ_j＋（Ｐ−１）Δｔ）、画像Ｖ^(j)（ｔ_j＋ＰΔｔ）とする。以下では、画像Ｖ^(j)（ｔ_j）、画像Ｖ^(j)（ｔ_j＋Δｔ）、画像Ｖ^(j)（ｔ_j＋２Δｔ）、・・・、画像Ｖ^(j)（ｔ_j＋ＰΔｔ）を、画像Ｖ^(j)と総称する。
前処理部７０１は、抽出した動画像である画像Ｕ^(j)それぞれから、画像Ｖ^(j)それぞれを取得する。そして、前処理部７０１は、取得したＰ＋１枚の画像Ｖ^(j)から、画像Ｕ^(j)の最初（時刻ｔ_j）におけるフレームである画像Ａ^(j)（ｔ_j）と、画像Ｕ^(j)の時刻ｔ_j＋ｐ△ｔ（１＜＝ｐ＜＝Ｐ）におけるフレームと画像Ｕ^(j)の時刻ｔ_j＋（ｐ−１）△ｔにおけるフレームとの差分を示す画像Ｄ^(j) _p（ｔ_j）（１＜＝ｐ＜＝Ｐ）と、を取得する。そして、前処理部７０１は、取得した画像Ａ^(j)（ｔ_j）と画像Ｄ^(j) _p（ｔ_j）（１＜＝ｐ＜＝Ｐ）との集合を、特徴量抽出用ＮＮに入力される画像Ｊ^(j)とする。以下では、画像Ｊ⁽¹⁾、画像Ｊ⁽²⁾、・・・、画像Ｊ^{(Nminibatch-1)}、画像Ｊ^(Nminibatch)を、画像Ｊと総称する。

前処理部７０１は、例えば、画像Ａ^(j)（ｔ_j）、画像Ｄ^(j) _p（ｔ_j）を、以下の式を用いて取得する。
Ａ^(j)（ｔ_j）＝Ｖ^(j)（ｔ_j）
Ｄ^(j) ₁（ｔ_j）＝Ｖ^(j)（ｔ_j＋Δｔ）−Ｖ^(j)（ｔ_j）
Ｄ^(j) ₂（ｔ_j）＝Ｖ^(j)（ｔ_j＋２Δｔ）−Ｖ^(j)（ｔ_j＋Δｔ）
・・・
Ｄ^(j) _P（ｔ_j）＝Ｖ^(j)（ｔ_j＋ＰΔｔ）−Ｖ^(j)（ｔ_j＋（Ｐ−１）Δｔ）
前処理部７０１は、Ｓ３０１で抽出した画像Ｕ^(j)（Ｕ⁽¹⁾、Ｕ⁽²⁾、・・・Ｕ^{(Nminibatch-1)}、Ｕ^(Nminibatch)）それぞれについて、画像Ｊ^(j)（画像Ｊ⁽¹⁾、画像Ｊ⁽²⁾、・・・、画像Ｊ^{(Nminibatch-1)}、画像Ｊ^(Nminibatch)）を取得する。
図８に、前処理部７０１の処理の一例の概要を示す。図８には、前処理部７０１に画像Ｖ^(j)を含む画像Ｕ^(j)が入力され、画像Ｊ^(j)が出力されている様子が示される。
また、前処理部７０１は、Ｄ^(j) _p（ｔ_j）を、Ｖ^(j)（ｔ_j＋ｐΔｔ）とＶ^(j)（ｔ_j＋（ｐ−１）Δｔ）とから計算されるオプティカルフローとして取得してもよい。この場合、Ｄ^(j) _p（ｔ_j）（１＜＝ｐ＜＝Ｐ）は２−チャネル画像となる。

Ｓ３０２において、ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像Ｊから１つを選択する。以下では、Ｓ３０２で選択された画像を画像Ｊ^(j)とする。
Ｓ３０３において、ミニバッチ生成部２０２は、Ｓ３０２で選択された画像Ｊ^(j)に含まれる画像が示す領域中の領域の集合である予め定められた数Ｋ個の領域集合Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kを、Ω^(j) _k⊂Ω^(j) _k+1 ＆ Ω^(j) _k≠Ω^(j) _k+1（１＜＝ｋ＜＝Ｋ−１）を満たすように生成する。以下では、Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kの領域集合を、領域集合群Ω^(j)と総称する。
Ｓ３０４において、ミニバッチ生成部２０２は、Ｓ３０２で選択した画像Ｊ^(j)と、Ｓ３０３で生成した領域集合群Ω^(j)と、を画像生成部２０１に入力する。画像生成部２０１は、入力された画像Ｊ^(j)に含まれる画像それぞれ（画像Ａ^(j)（ｔ_j）、画像Ｄ^(j) _p（ｔ_j）（１＜＝ｐ＜＝Ｐ）それぞれ）について、以下の処理を行う。即ち、画像生成部２０１は、入力された領域集合群Ω^(j)に含まれる領域集合それぞれについて、領域集合が示す領域を各ピクセルのピクセル値が乱数となる画像に変更する処理を行う。以下では、画像Ａ^(j)（ｔ_j）の領域集合Ω^(j) _kが示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像を、画像Ａ^(j)（ｔ_j、Ω^(j) _k）とする。また、以下では、画像Ａ^(j)（ｔ_j、Ω^(j) ₁）、画像Ａ^(j)（ｔ_j、Ω^(j) ₂）、・・・、画像Ａ^(j)（ｔ_j、Ω^(j) _K-1）、画像Ａ^(j)（ｔ_j、Ω^(j) _K）を、画像Ａ^(j)（ｔ_j、Ω^(j)）と総称する。また、以下では、画像Ｄ^(j) _p（ｔ_j）の領域集合Ω^(j) _kが示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像を、画像Ｄ^(j) _p（ｔ_j、Ω^(j) _k）とする。また、以下では、画像Ｄ^(j) _p（ｔ_j、Ω^(j) ₁）、画像Ｄ^(j) _p（ｔ_j、Ω^(j) ₂）、・・・、画像Ｄ^(j) _p（ｔ_j、Ω^(j) _K-1）、画像Ｄ^(j) _p（ｔ_j、Ω^(j) _K）を、画像Ｄ^(j) _p（ｔ_j、Ω^(j)）と総称する。また、以下では、Ｓ３０４で画像Ｊ^(j)含まれる画像それぞれから生成された画像（画像Ａ^(j)（ｔ_j、Ω^(j)）、画像Ｄ^(j) _p（ｔ_j、Ω^(j)））を、まとめて画像群Ｊ^(j)（Ω^(j)）とする。また、以下では、画像Ａ^(j)（ｔ_j、Ω^(j) _k）と画像Ｄ^(j) _p（ｔ_j、Ω^(j) _k）（１＜＝ｐ＜＝Ｐ）とを、まとめて画像Ｊ^(j)（Ω^(j) _k）とする。

Ｓ３０５において、ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像Ｊ全てについて、Ｓ３０３〜Ｓ３０４の処理が完了したか否かを判定する。ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像全てについて、Ｓ３０３〜Ｓ３０４の処理が完了したと判定した場合、Ｓ３０６の処理に進む。ミニバッチ生成部２０２は、Ｓ３０１で抽出した画像の中に、Ｓ３０３〜Ｓ３０４の処理が完了していない画像があると判定した場合、Ｓ３０２の処理に進む。
Ｓ３０６において、ミニバッチ生成部２０２は、Ｓ３０４で生成した画像全てを特徴量抽出用ＮＮの学習に用いられる学習データの塊であるミニバッチとして決定する。

図９を用いて、本実施形態で学習部２０３が学習する特徴量抽出用ＮＮの構造を説明する。図９の例では、特徴量抽出用ＮＮは、画像Ｊ^(j)に含まれる画像Ａ^(j)（ｔ_j）から特徴量を抽出する特徴量抽出用ＮＮ_Aと、画像Ｊ^(j)に含まれる画像Ｄ^(j) _p（ｔ_j）それぞれから特徴量を抽出する特徴量抽出用ＮＮ_Dp （１＜＝ｐ＜＝Ｐ）と、を含む構造となっている。特徴量抽出用ＮＮ_Aにより抽出された特徴量を、ｆ_A（Ａ^(j)（ｔ））とする。また、特徴量抽出用ＮＮ_Dp （１＜＝ｐ＜＝Ｐ）それぞれにより抽出された特徴量を、ｆ_Dp（Ｄ^(j) _p（ｔ_j））（１＜＝ｐ＜＝Ｐ）とする。即ち、特徴量抽出用ＮＮは、画像Ｊ^(j)から、特徴量ｆ（Ｊ^(j)）として、ｆ_A（Ａ^(j)（ｔ_j））、｛ｆ_Dp（Ｄ^(j) _p（ｔ_j））（１＜＝ｐ＜＝Ｐ）｝を抽出する。
また、本実施形態の特徴量抽出用ＮＮは、図１０に示すような構造であってもよい。図１０の例では、特徴量抽出用ＮＮは、画像Ｊ^(j)に含まれる画像Ａ^(j)（ｔ_j）から特徴量を抽出する特徴量抽出用ＮＮ_Aと、画像Ｊ^(j)に含まれる｛画像Ｄ^(j) _p（ｔ_j）（１＜＝ｐ＜＝Ｐ）｝から特徴量を抽出する特徴量抽出用ＮＮ_Dと、を含む構造となっている。特徴量抽出用ＮＮ_Dにより、｛画像Ｄ^(j) _p（ｔ_j）（１＜＝ｐ＜＝Ｐ）｝から抽出された特徴量をｆ_D（｛Ｄ^(j) _p（ｔ_j）｝）とする。即ち、図１０の例では、特徴量抽出用ＮＮは、画像Ｊ^(j)から、特徴量ｆ（Ｊ^(j)）として、ｆ_A（Ａ^(j)（ｔ））、ｆ_D（｛Ｄ^(j) _p（ｔ_j）｝）を抽出することとなる。

Ｓ３０７において、学習部２０３は、Ｓ３０６で決定されたミニバッチと、式１の評価関数Ｆと、に基づいて、実施形態１と同様に特徴量抽出用ＮＮを学習する。
本実施形態では、前処理部７０１は、画像Ｕ^(j)の最初のフレーム（時刻ｔ_jのフレーム）の静止画像と、時刻ｔ_j＋（ｐ−１）△ｔのフレームと時刻ｔｊ＋ｐ△ｔのフレームとの差分画像と、を入力画像Ｊ^(j)として抽出した。しかし、前処理部７０１は、時刻ｔ_j＋ｐ△ｔ（０＜＝ｐ＜＝Ｐ）のフレームの静止画像それぞれを、入力画像Ｊ^(j)として抽出してもよい。その場合、前処理部７０１は、例えば、画像Ａ^(j)（ｔ_j）、画像Ｄ^(j) _p（ｔ_j）を、以下の式を用いて取得する。
Ａ^(j)（ｔ_j）＝Ｖ^(j)（ｔ_j）
Ｄ^(j) ₁（ｔ_j）＝Ｖ^(j)（ｔ_j＋Δｔ）
Ｄ^(j) ₂（ｔ_j）＝Ｖ^(j)（ｔ_j＋２Δｔ）
・・・
Ｄ^(j) _P（ｔ_j）＝Ｖ^(j)（ｔ_j＋ＰΔｔ）

以上、本実施形態では、入力画像として動画像を用いる場合の情報処理装置１００の処理について説明した。本実施形態の処理により、情報処理装置１００は、より軽負担に、より適切に動画像から特徴量を抽出する特徴量抽出用ＮＮの各パラメータを学習できる。

＜実施形態３＞
実施形態１では、情報処理装置１００は、画像Ｊ^(j)に対して、包含関係で順序付けられた領域集合群を１つ（Ω^(j)）生成し、生成した領域集合群に基づいて、基準画像との類似の度合いが順序付けられた画像群を１つ生成し、生成した画像群に基づいて、特徴量抽出用ＮＮの各パラメータを学習することとした。本実施形態では、画像Ｊ^(j)に対して包含関係で順序付けられた領域集合を複数生成し、基準画像との類似の度合いが順序付けられた画像群を複数生成し、生成した複数の画像群に基づいて特徴量抽出用ＮＮの各パラメータを学習する場合の情報処理装置１００の処理を説明する。
本実施形態の情報処理装置１００のハードウェア構成は、実施形態１と同様である。

図３を用いて、本実施形態の情報処理装置１００による特徴量抽出用ＮＮの学習処理の一例を説明する。図３の処理のうち、実施形態１と異なる点について説明する。
Ｓ３０３において、ミニバッチ生成部２０２は、Ｓ３０２で選択された画像Ｊ^(j)中の領域の集合である予め定められた数Ｋ’（例えば、４等）個の領域集合Ω’^(j) ₁、Ω’^(j) ₂、・・・、Ω’^(j) _K'-1、Ω’^(j) _K'を、Ω’^(j) _k⊂Ω’^(j) _k+1 ＆ Ω’^(j) _k≠Ω’^(j) _k+1（１＜＝ｋ＜＝Ｋ’−１）を満たすように生成する。以下では、｛Ω’^(j) ₁、Ω’^(j) ₂、・・・、Ω’^(j) _K'-1、Ω’^(j) _K'｝を、領域集合群Ω’^(j)とする。
また、本実施形態では、ミニバッチ生成部２０２は、更に、もう一つ別のＫ’個の領域集合Λ^(j) ₁、Λ^(j) ₂、・・・、Λ^(j) _K'-1、Λ^(j) _K'を、Λ^(j) _k⊂Λ^(j) _k+1 ＆ Λ^(j) _k≠Λ^(j) _k+1（１＜＝ｋ＜＝Ｋ’−１）を満たすように生成する。以下では、｛Λ^(j) ₁、Λ^(j) ₂、・・・、Λ^(j) _K'-1、Λ^(j) _K'｝を、領域集合群Λ^(j)とする。ここで、Ω’^(j) ₁とΛ^(j) ₁とは空集合とし、Ω’^(j) _K'とΛ^(j) _K'とは画像Ｊ^(j)に含まれる全領域とする。

以下では、｛Ω’^(j) ₁、Ω’^(j) ₂、・・・、Ω’^(j) _K'-1、Λ^(j) ₂、・・・、Λ^(j) _K'-1、Ω’^(j) _K'｝を、２Ｋ’−２をＫと読み替えた上で、改めて、Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _Kと表記する。したがって、Ω^(j) ₁は入力画像と一致し、Ω^(j) _Kは全領域が入力画像と異なる画像に変更された画像となる。
即ち、本実施形態では、ミニバッチ生成部２０２は、Ｓ３０３で、領域集合群Ω^(j)＝｛Ω^(j) ₁、Ω^(j) ₂、・・・、Ω^(j) _K-1、Ω^(j) _K｝＝｛Ω’^(j) ₁、Ω’^(j) ₂、・・・、Ω’^(j) _K'-1、Λ^(j) ₂、・・・、Λ^(j) _K'-1、Ω’^(j) _K'｝を生成することとなる。
そして、ミニバッチ生成部２０２は、Ｓ３０４で、画像生成部２０１を介して、Ｓ３０２で選択した画像Ｊ^(j)と、Ｓ３０３で生成した領域集合群Ω^(j)と、に基づいて、特徴量抽出用ＮＮの学習に用いられる学習データとなる画像Ｊ^(j)（Ω^(j)）を生成する。

｛画像Ｊ^(j)（Ω^(j) ₁）、画像Ｊ^(j)（Ω^(j) ₂）、・・・、画像Ｊ^(j)（Ω^(j) _K'-2）、画像Ｊ^(j)（Ω^(j) _K'-1）、画像Ｊ^(j)（Ω^(j) _K）｝の画像群に含まれる画像それぞれは、領域集合群Ω’^(j)に基づいて生成された画像となる。画像Ｊ^(j)（Ω^(j) ₁）を基準画像とすると、画像Ｊ^(j)（Ω^(j) ₂）、・・・、画像Ｊ^(j)（Ω^(j) _K'-2）、画像Ｊ^(j)（Ω^(j) _K'-1）、画像Ｊ^(j)（Ω^(j) _K）は、画像Ｊ^(j)（Ω^(j) ₁）との類似の度合いが順序づいた画像とみなすことができる。即ち、この画像群は、基準画像との類似の度合いが順序付けられる画像群となる。以下では、この画像群を、第１の画像群とする。
また、｛画像Ｊ^(j)（Ω^(j) ₁）、画像Ｊ^(j)（Ω^(j) _K'）、画像Ｊ^(j)（Ω^(j) _K'+1）、・・・、画像Ｊ^(j)（Ω^(j) _K-1）、画像Ｊ^(j)（Ω^(j) _K）｝の画像群に含まれる画像それぞれは、領域集合群Λ^(j)に基づいて生成された画像となる。画像Ｊ^(j)（Ω^(j) ₁）を基準画像とすると、画像Ｊ^(j)（Ω^(j) _K'）、画像Ｊ^(j)（Ω^(j) _K'+1）、・・・、画像Ｊ^(j)（Ω^(j) _K-1）、画像Ｊ^(j)（Ω^(j) _K）は、画像Ｊ^(j)（Ω^(j) ₁）との類似の度合いが順序づいた画像とみなすことができる。即ち、この画像群は、基準画像との類似の度合いが順序付けられる画像群となる。以下では、この画像群を、第２の画像群とする。
実施形態１では、情報処理装置１００は、基準画像との類似の度合いが順序付けられる画像群を１つ生成し、生成した１つの画像群に基づいて、特徴量抽出用ＮＮの各パラメータを学習することとした。本実施形態では、情報処理装置１００は、基準画像との類似の度合いが順序付けられる画像群を、第１の画像群と第２の画像群との２つ生成し、生成した２つの画像群に基づいて、特徴量抽出用ＮＮの各パラメータを学習する。

本実施形態のＳ３０７の処理では、例えば、基準画像を、Ｊ^(j)（Ω^(j) ₁）とすると、以下のような評価関数Ｆを用いることとする。即ち、評価関数Ｆとして、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ／２）」という大小関係と「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _K/2））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _K））とのユークリッド距離」という大小関係が強化される程、また、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（（Ｋ／２）＋２＜＝ｋ＜＝Ｋ）」という大小関係が強化される程、小さくなるような関数を用いることとする。
更に、例えば、基準画像を、Ｊ^(j)（Ω^(j) _K）とすると、評価関数Ｆとして、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（（Ｋ／２）＋１＜＝ｋ＜＝Ｋ−２）」と「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _(K/2)+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) ₁））とのユークリッド距離」という大小関係が強化される程、また、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（１＜＝ｋ＜＝（Ｋ／２）−１）」という大小関係が強化される程、小さくなるような関数を用いることとする。
本実施形態では、評価関数Ｆは、以下の式２で表される関数である。

式２におけるｊは、ミニバッチに含まれる同一の画像から画像生成部２０１により生成された一群の画像群を識別するためのインデックスである。ρは、チューニングパラメータであり、０以上の実数である。ρ_k（ρ₁〜ρ_K）は、チューニングパラメータであり、合計が１となるそれぞれ０以上の実数である。αは、１以上の整数である。関数Ｌ、Ｌ_inverseは、それぞれｊを入力とする関数である。関数ｄは、２つの画像を入力とする関数である。関数ｄは、入力された２つの画像から特徴量抽出量ＮＮにより抽出される特徴量同士の差分を示す。ｆ_dimは、関数ｄに入力された２つの画像から特徴量抽出用ＮＮにより抽出された特徴量であるベクトルの次元である。式２で、Ｋ＝４、６の場合にはα＝１、Ｋ＝８、１０、１２、１４の場合にはα＝２としてもよい。
評価関数Ｆの第１項（最初のΣで囲まれた項）は、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（３＜＝ｋ＜＝Ｋ／２）」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _K/2））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _K））とのユークリッド距離」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k-1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) ₁））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（（Ｋ／２）＋２＜＝ｋ＜＝Ｋ）」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（（Ｋ／２）＋１＜＝ｋ＜＝Ｋ−２）」と「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _(K/2)+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) ₁））とのユークリッド距離」という大小関係と、「ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k+1））とのユークリッド距離＜ｆ（Ｊ^(j)（Ω^(j) _K））とｆ（Ｊ^(j)（Ω^(j) _k））とのユークリッド距離（１＜＝ｋ＜＝（Ｋ／２）−１）」という大小関係と、を強化するための制約を示す項である。

評価関数Ｆ中の関数Ｌの第１項（｛｝で囲まれた部分）は、Ｓ３０４で領域集合群Ω’^(j)に基づいて生成された画像に対する制約を示す項である。関数Ｌの第２項（｛｝で囲まれた部分を除く部分）は、Ｓ３０４で領域集合群Λ^(j)に基づいて生成された画像に対する制約を示す項である。
評価関数Ｆ中の関数Ｌ_inverseの第１項（｛｝で囲まれた部分）は、Ｓ３０４で領域集合群Λ^(j)に基づいて生成された画像に対する制約を示す項である。関数Ｌ_inverseの第２項（｛｝で囲まれた部分を除く部分）は、Ｓ３０４で領域集合群Ω’^(j)に基づいて生成された画像に対する制約を示す項である。
評価関数Ｆの第２項（最初のΣで囲まれた領域を除く部分）は、実施形態１の式１と同様である。
学習部２０３は、第１の画像群と、第２の画像群と、式２の評価関数Ｆと、に基づいて、実施形態１と同様の処理で、特徴量抽出用ＮＮの各パラメータを学習する。

以上、本実施形態では、情報処理装置１００は、包含関係で順序付けられた領域集合の集合である領域集合群を２つ生成し、生成した複数の領域集合群それぞれについて、Ｓ３０４で特徴量抽出用ＮＮの学習に用いられる画像を生成した。これにより、情報処理装置１００は、基準画像との類似の度合いが順序付けられる画像群を２つ生成したこととなる。そして、情報処理装置１００は、生成した２つの画像群と、式２の評価関数Ｆと、に基づいて、特徴量抽出用ＮＮの各パラメータを学習することとした。
このように、情報処理装置１００は、基準画像との類似の度合いが順序付けられる画像群を２つ利用して、特徴量抽出用ＮＮの各パラメータを学習するため、実施形態１に比べて、より効率的に特徴量抽出用ＮＮを学習できる。
また、情報処理装置１００は、包含関係で順序付けられた領域集合の集合である領域集合群を３以上の複数生成し、生成した複数の領域集合群それぞれについて、Ｓ３０４で特徴量抽出用ＮＮの学習に用いられる画像を生成することとしてもよい。この場合、情報処理装置１００は、基準画像との類似の度合いが順序付けられる画像群を、３以上の複数生成することとなる。そして、情報処理装置１００は、生成した３以上の複数の画像群に基づいて、特徴量抽出用ＮＮの各パラメータを学習することとしてもよい。その場合、情報処理装置１００は、例えば、生成した各領域集合群に基づいて生成された画像群それぞれに対する制約を示す評価関数Ｆを用いて、特徴量抽出用ＮＮの各パラメータを学習することとなる。

＜その他の実施形態＞
実施形態１〜３では、情報処理装置１００は、単体の情報処理装置であるとした。しかし、情報処理装置１００は、ネットワーク（ＬＡＮやインターネット）を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置１００に含まれる複数の情報処理装置それぞれのＣＰＵが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図２の機能及び図３のフローチャートの処理等が実現される。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置１００の機能構成の一部又は全てをハードウェアとして情報処理装置１００に実装してもよい。

１００情報処理装置
１０１ＣＰＵ

Claims

予め定められた領域集合群に含まれる領域集合ごとに、入力画像における前記領域集合に含まれる領域が前記入力画像と異なる他の画像に変更された画像を、画像から特徴量を抽出する特徴量抽出器の学習に用いられる学習画像として取得する取得手段と、
前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、前記特徴量抽出器を学習する学習手段と、
を有し、
前記領域集合群に含まれる領域集合それぞれは、前記入力画像内に予め設定された領域の集合であり、包含関係によって順序付けられている情報処理装置。
前記取得手段は、前記領域集合群に含まれる領域集合ごとに、前記領域集合に含まれる領域が各ピクセルのピクセル値が乱数である前記他の画像に変更された前記入力画像を、前記学習画像として取得する請求項１記載の情報処理装置。
前記取得手段は、前記領域集合群に含まれる領域集合ごとに、前記領域集合に含まれる領域が、各ピクセルのピクセル値が乱数であり、全てのピクセルのピクセル値の平均値が前記入力画像のピクセル値の平均値であり、全てのピクセルのピクセル値の分散値が前記入力画像のピクセル値の分散値である前記他の画像に変更された前記入力画像を、前記学習画像として取得する請求項１又は２記載の情報処理装置。
前記領域集合群に含まれる領域集合のうち、含まれる領域の合計の面積の最も小さい領域集合は、空集合である請求項１乃至３何れか１項記載の情報処理装置。
前記領域集合群に含まれる領域集合のうち、含まれる領域の合計の面積の最も大きい領域集合は、前記入力画像に含まれる全領域を含む請求項１乃至４何れか１項記載の情報処理装置。
前記評価関数は、類似の度合いの比較の基準となる基準画像から前記特徴量抽出器により抽出される特徴量と、前記基準画像と類似の度合いを比較する対象であり、前記基準画像との類似の度合いがそれぞれ異なる複数の比較画像それぞれから前記特徴量抽出器により抽出される特徴量と、に関する項を含む関数であり、
前記学習手段は、前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像の中から決定された前記基準画像と前記複数の比較画像とに基づいて、前記評価関数を用いて、前記特徴量抽出器を学習する請求項１乃至５何れか１項記載の情報処理装置。
前記学習手段は、前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像のうち、含まれる領域の合計の面積の最も小さい領域集合に対して取得された学習画像を前記基準画像として、前記基準画像と前記複数の比較画像とに基づいて、前記評価関数を用いて、前記特徴量抽出器を学習する請求項６記載の情報処理装置。
前記学習手段は、前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像のうち、含まれる領域の合計の面積の最も大きい領域集合に対して取得された学習画像を前記基準画像として、前記基準画像と前記複数の比較画像とに基づいて、前記評価関数を用いて、前記特徴量抽出器を学習する請求項６又は７記載の情報処理装置。
前記評価関数は、前記特徴量抽出器に入力される画像それぞれが前記特徴量抽出器に入力される際に抽出される特徴量のサイズの制約に関する項を含む関数である請求項１乃至８何れか１項記載の情報処理装置。
前記入力画像は、動画像から抽出された複数の静止画像であって、
前記取得手段は、前記領域集合群に含まれる領域集合ごとに、前記入力画像に含まれる静止画像における前記領域集合に含まれる領域が前記静止画像と異なる前記他の画像に変更された画像を、前記特徴量抽出器の学習に用いられる学習画像として取得する請求項１乃至９何れか１項記載の情報処理装置。
前記取得手段は、複数の前記領域集合群それぞれについて、前記領域集合群に含まれる領域集合ごとに、前記入力画像における前記領域集合に含まれる領域が前記他の画像に変更された画像を、前記特徴量抽出器の学習に用いられる学習画像として取得し、
前記学習手段は、前記取得手段により複数の前記領域集合群それぞれについて、前記領域集合群に含まれる領域集合ごとに取得された学習画像と、前記評価関数と、に基づいて、前記特徴量抽出器を学習する請求項１乃至１０何れか１項記載の情報処理装置。
前記特徴量抽出器は、ニューラルネットワークである請求項１乃至１１何れか１項記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
予め定められた領域集合群に含まれる領域集合ごとに、入力画像における前記領域集合に含まれる領域が前記入力画像と異なる他の画像に変更された画像を、画像から特徴量を抽出する特徴量抽出器の学習に用いられる学習画像として取得する取得ステップと、
前記取得ステップで前記領域集合群に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、前記特徴量抽出器を学習する学習ステップと、
を含み、
前記領域集合群に含まれる領域集合それぞれは、前記入力画像内に予め設定された領域の集合であり、包含関係によって順序付けられている情報処理方法。
コンピュータを、請求項１乃至１２何れか１項記載の情報処理装置の各手段として、機能させるためのプログラム。