JP2019086979A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2019086979A
JP2019086979A JP2017214064A JP2017214064A JP2019086979A JP 2019086979 A JP2019086979 A JP 2019086979A JP 2017214064 A JP2017214064 A JP 2017214064A JP 2017214064 A JP2017214064 A JP 2017214064A JP 2019086979 A JP2019086979 A JP 2019086979A
Authority
JP
Japan
Prior art keywords
image
learning
area
area set
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017214064A
Other languages
English (en)
Inventor
貝塚 洋
Hiroshi Kaizuka
洋 貝塚
信介 山岡
Shinsuke Yamaoka
信介 山岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2017214064A priority Critical patent/JP2019086979A/ja
Publication of JP2019086979A publication Critical patent/JP2019086979A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】より軽負担に、より適切に特徴量抽出器を学習することを目的とする。【解決手段】予め定められた領域集合群に含まれる領域集合ごとに、入力画像における領域集合に含まれる領域が入力画像と異なる他の画像に変更された画像を、画像から特徴量を抽出する特徴量抽出器の学習に用いられる学習画像として取得し、領域集合群に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、特徴量抽出器を学習し、前記領域集合群に含まれる領域集合それぞれは、前記入力画像内に予め設定された領域の集合であり、包含関係によって順序付けられている。【選択図】図3

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
画像識別において、入力画像をニューラルネットワーク等の特徴量抽出器に入力して、特徴量を抽出し、抽出された特徴量を、識別器に入力することで、画像識別を行うことが行われている。特徴量抽出器により、入力画像の特徴をより適切に捉えた特徴量が抽出されれば、識別精度がより向上させることができる。
そこで、より適切に画像の特徴を捉えた特徴量を抽出可能な特徴量抽出器を学習することが望まれている。特徴量抽出器を学習する方法には、ラベル付きの学習データを利用した教師あり学習がある。しかし、ラベル付きの学習データを十分な量、用意するのには、非常に手間がかかる。そこで、特徴量抽出器を、ラベルなしの学習データを利用して教師なし学習する方法が提案されている。
ラベルなしの学習データを利用した特徴量抽出器の教師なし学習の方法には、オートエンコーダがある。オートエンコーダは、入力画像から特徴量を抽出するエンコーダ部分と、抽出された特徴量から入力画像を復元するためのエンコーダ部分を反転させたデコーダ部分と、を用意し、デコーダ部分の出力と、入力画像と、の誤差を最小化するように、エンコーダ部分とデコーダ部分とのパラメータを学習する方法である。オートエンコーダで学習されたエンコーダ部分を特徴量抽出器として利用することができる。元の入力画像を復元できるように抽出された特徴量は、入力画像の特徴を十分に捉えている特徴量であると期待できる。非特許文献1には、エンコーダ部分とデコーダ部分との双方がConvolutional Neural Network(CNN、畳み込みニューラルネットワーク)である畳み込みオートエンコーダ(CAE、Convolutional Auto−Encoder)が開示されている。
また、ラベルなしの学習データを利用した特徴量抽出器の教師なし学習の方法には、非特許文献2に開示されているsiameseアーキテクチャ(同一アーキテクチャで同一値のパラメータを有する2本の特徴量抽出用ニューラルネットワークNN1、NN2が並列するニューラルネットワーク)を利用した類似度学習法がある。類似度学習法は、以下のような方法である。入力データである「ラベルが付与されていない画像データ」に対して、何らかの事前知識を活用して、各画像に対して「似ている画像」を選定し、それ以外の画像は「似ていない画像」として、(画像I、 画像J、 似ている or 似ていない)という学習データを作る。この事前知識は、例えば、NN1に入力される画像Iと、NN2に入力される画像Jと、の入力空間でのユークリッド距離が小さければ「似ている」として、大きければ「似ていない」とするというような知識である。
そして、画像IをNN1に入力して特徴量ベクトルf(I)を計算し、画像JをNN2に入力して特徴量ベクトルf(J)を計算する。画像Iと画像Jが「似ている」場合にはf(I)とf(J)との特徴量空間でのユークリッド距離が小さくなるように学習し、画像IとJが「似ていない」場合にはf(I)とf(J)との特徴量空間でのユークリッド距離が大きくなるように学習する。
V. Turchenko、 E. Chalmers、 QA. Luczak: A deep convolutional auto−encoder with pooling−unpooling layers in Caffe. arXiv:1701.04949 (2017). R. Hadsell、S. Chopra、Y. LeCun: Dimensionality reduction by learning an invariant mapping. Computer vision and pattern recognition、 2006 IEEE computer society conference on. vol. 2、 pp. 1735−1742 (2006). I. Goodfellow、 Y. Bengio、 A. Courville: Deep Learning、 The MIT Press、 2016.
オートエンコーダでは、入力画像から特徴量を抽出するエンコーダ部分に加え、エンコーダ部分により抽出された特徴量から入力画像を復元するデコーダ部分についても、パラメータを学習する必要があり、学習に係る処理の負担が増大するという問題があった。
また、オートエンコーダでは、画像認識タスクが高度なタスクである程、特徴量抽出用ニューラルネットワーク、即ち、エンコーダが複雑になり、したがって、エンコーダと対称構造であるデコーダも複雑になる。その結果、デコーダ部分の表現能力が高くなり、エンコーダが出力する特徴量ベクトルとデコーダの表現能力が協調してCAEの学習が進み、画像認識タスクに適正な特徴量ベクトルが抽出できない場合がある。例えば、非特許文献3の14.1節に記載されているように、特徴量ベクトルが1次元の場合をイメージする。このとき、デコーダの表現能力が高い場合に、入力画像x(i)をCAEに入力した場合、特徴量ベクトルとしてはiを求め、デコーダで「特徴量ベクトルがiならば、画像x(i)を出力する」という学習が進む可能性が増加する。このように、CAEでは、余分なデコーダ部分の追加が必要となる限り、特徴量ベクトルが不適切になる可能性が増加してしまう。結果として、オートエンコーダでは、特徴量抽出器を適切に学習できない可能性が増加するという問題があった。
類似度学習法では、入力画像Iと入力画像Jとの入力空間でのユークリッド距離がどれくらいの時に「似ている」とするかの基準がないため、適切に2つの画像が似ているか否かを決定できない場合があるという問題があった。たとえば、物体における傷の検出を行うタスク(傷検出タスク)の場合には、傷のある物体の画像と、傷のない物体の画像と、が良く似ている場合には、画像間の入力空間でのユークリッド距離はどれも似たような小さな値になる。そのため、効果的な(画像I、 画像J、 似ている or 似ていな)データを生成できない場合がある。また、逆に、画像内の傷以外の画像が大きく異なる場合には、画像間の入力空間でのユークリッド距離はどれも似たような大きな値になり、効果的な(画像I、 画像J、 似ている or 似ていな)データを生成できない場合がある。そのため、適切に特徴量抽出器を学習できない可能性が増大するという問題がある。
そこで、本発明の情報処理装置は、予め定められた領域の集合である複数の領域集合に含まれる領域集合ごとに、前記領域集合に含まれる領域が入力画像と異なる他の画像に変更された前記入力画像を、画像から特徴量を抽出する徴量抽出器の学習に用いられる学習画像として取得する取得手段と、前記取得手段により前記複数の領域集合に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、前記特徴量抽出器のパラメータを学習する学習手段と、を有し、前記複数の領域集合それぞれは、異なる領域の集合であって、前記複数の領域集合に含まれる他の領域集合のうち、含まれる領域の合計の面積が自身に含まれる領域の合計の面積以下である領域集合に含まれる全ての領域を含む。
本発明によれば、より軽負担に、より適切に特徴量抽出器を学習することができる。
図1は、情報処理装置のハードウェア構成の一例を示す図である。 図2は、情報処理装置の機能構成の一例を示す図である。 図3は、学習処理の一例を示すフローチャートである。 図4は、学習データ生成処理の一例を説明する図である。 図5は、生成された学習データの一例を示す図である。 図6は、学習処理の一例を説明する図である。 図7は、情報処理装置の機能構成の一例を示す図である。 図8は、前処理部の処理の一例を説明する図である。 図9は、特徴量抽出用NNの一例を説明する図である。 図10は、特徴量抽出用NNの一例を説明する図である。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(本実施形態の処理の概要)
以下の参考文献1に開示されているニューラルネットワークにおける深層学習によって、畳み込みニューラルネットワーク(CNN、 convolutional neural network)の物体認識性能は一挙に向上した。
参考文献1:A. Krizhevsky、 I. Sutskever、 G.E. Hinton: Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. pp. 1097−1105 (2012).
参考文献1でのニューラルネットワークの学習によって決定すべきパラメータ数は約6千万個あった。その後、全結合ネットワークを回避する手法が発展して、以下の参考文献2に開示されているGoogLeNetではこのパラメータ数は約5百万個に減少している。
参考文献2:C. Szegedy、 V. Vanhoucke、 S. Ioffe、 J. Shlens、 and Z. Wojna: Rethinking the inception architecture for computer vision. arXiv:1512.00567v3、 2015.
現状では、物体認識タスクの難易度に応じて、数10万個から数百万個の学習によって決定すべきパラメータを含むニューラルネットワークが利用されており、決定すべきパラメータ数は膨大である。
このように大量のパラメータを含むニューラルネットワークを汎化能力の高いニューラルネットワークにするために、大量の学習データ、即ち、大量の(画像データ、その画像のラベル)のペアを使って、パラメータを最適な値に学習させることが行われている。例えば、傷検出タスクの場合には、(画像データ、傷のある場所を示す0‐1行列)という学習データを大量に用いて学習する場合がある。しかし、ラベル付きの画像を大量に用意するのは非常に手間がかかり、ニューラルネットワークを適用して解決したい画像認識タスクによっては、ラベル付きの学習データが十分には集められない場合もあるという問題がある。
この問題の解決策として、転移学習が提案されている。これは、Stanford Universityが開発したImageNet等の既存のラベル付き画像によって学習させた「学習済みニューラルネットワーク」から、高次の特徴量を抽出している層までを取り出し、この特徴量を入力とする識別機(classifier)を組み合わせて「画像認識タスクの識別システム」を構成する。画像認識タスク用の比較的少数のラベル付き学習データを使って、「画像認識タスクの識別システム」を学習させる。この際に、特徴量を計算するためのニューラルネットワークと識別機との両方を学習させる手法(fine−tuning手法 この場合には識別機もニューラルネットワークとする)と、特徴量を計算するためのニューラルネットワークは変更せずに利用し、識別機のみを学習させる手法(pre−training手法)と、がある。以下の参考文献3〜5には、このような手段を用いることで高性能な識別システムが構成できることが開示されている。
参考文献3:J. Donahue、 Y. Jia、 O. Vinyals、 J. Hoffman、 N. Zhang、 E. Tzeng、 and T. Darrell: DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. arXiv:1310.1531v1 (2013).
参考文献4:R. Girshick、 J. Donahue、 T. Darrell、 and J. Malik: Rich feature hierarchies for accurate object detection and semantic segmentation、 Tech report(v5). arXiv:1311.2524v5 (2014).
参考文献5:P. Agrawal、 R. Girshick、 J. Malik: Analyzing the Performance of Multilayer Neural Networks for Object Recognition. arXiv:1407.1610v2 (2014).
転移学習がうまくいく根拠は、大量のラベル付き画像(例えば、(画像、その画像のカテゴリ))を使って特徴量を計算するためのニューラルネットワークを事前に学習させることで、画像認識に必要な一般的な高次特徴量を計算できるニューラルネットワークが構成されると考えられることである。したがって、この学習済みのニューラルネットワークを画像認識タスクで用いられる特徴量抽出用ニューラルネットワークに適用することで、画像認識タスク用の比較的少数のラベル付き学習データでの学習であっても、高性能な識別システムを実現できると期待される。
しかし、転移学習が効果を発揮するためには、「転移学習用の大規模なラベル付き学習用画像データ(=特徴量を計算するためのニューラルネットワークの学習に使用される大規模なラベル付き学習用画像データ)」が、実行したい画像認識タスクに現れる画像データとある程度以上の関連性を有する必要がある。画像認識タスクの種類によっては、このような転移学習用の大規模なラベル付き学習用画像データ準備することは困難である場合がある。例えば、産業現場での傷検出タスクでは、ImageNetに含まれている動物や車等の画像で特徴量を計算するためのニューラルネットワークを学習しても効果は望めない。そこで、画像認識タスクで使用するニューラルネットワークへの入力データである「ラベルが付与されていない画像データ」だけを使って、特徴量抽出用ニューラルネットワークを教師なし学習で事前学習させるオートエンコーダや類似度学習法といった手法が提案されている。しかし、これらの手法には、処理負担が増大する、適切な学習ができない可能性が増大するといった問題がある。
そこで、本実施形態では、図1で後述する情報処理装置100が以下に説明する処理を実行することで、特徴量を抽出するニューラルネットワーク(以下では、NNとする)を学習する。以下では、画像から特徴量を抽出するNNを、特徴量抽出用NNとする。特徴量抽出用NNは、画像から特徴量を抽出する特徴量抽出器の一例である。本実施形態では、特徴量抽出用NNは、畳み込みニューラルネットワーク(CNN)であるとする。
本実施形態では、情報処理装置100は、画像J中の領域の集合である複数の領域集合(Ω1、Ω2、・・・、ΩK-1、ΩK)を、Ωk⊂Ωk+1 & Ωk≠Ωk+1(1<=k<=K−1)を満たすように生成する。以下では、{Ω1、Ω2、・・・、ΩK-1、ΩK}を、領域集合群Ωとする。そのため、領域集合群Ωに含まれる領域集合は、それぞれが異なる領域集合であり、Ω1⊂Ω2⊂Ω3⊂・・・⊂ΩK-1⊂ΩKのように、包含関係により順位づけられていることとなる。即ち、領域集合群Ωに含まれる領域集合それぞれは、異なる領域集合であり、領域集合群Ωに含まれる領域集合のうち、含まれる全領域の面積が自身以下である領域集合を全て含むこととなる。
本実施形態では、Ω1は、空集合であるとする。また、ΩKは、入力画像の全領域を含む集合であるとする。しかし、Ω1は、空集合でないとしてもよいし、ΩKは、入力画像の全部でなく一部の領域を含む集合であるとしてもよい。
そして、情報処理装置100は、複数の領域集合群Ωに含まれる領域集合Ωi(1<=i<=K)それぞれについて、以下の処理を行う。即ち、情報処理装置100は、入力画像Jに対して、領域集合Ωiに含まれる領域の部分について入力画像と異なる画像に変更する処理を行う。以下では、入力画像Jに対して領域集合Ωiに含まれる領域を変更する処理が施された画像を、画像J(Ωi)とする。これにより、情報処理装置100は、入力画像1つにつき、入力画像内の領域集合Ωiに含まれる領域が変更された画像J(Ω1)〜画像J(ΩK)を取得する。
Ωj⊂Ωj+1 & Ωj≠Ωj+1(1<=j<=K−1)なので、画像J(Ω1)と画像J(Ω2)とで共通する入力画像Jのままである部分は、画像J(Ω1)と画像J(Ω3)とで共通する入力画像Jのままである部分の全てを含み、画像J(Ω1)と画像J(Ω3)とで共通する入力画像Jのままである部分よりも広い。そのため、画像J(Ω2)は、画像J(Ω3)よりも画像J(Ω1)と類似すると仮定できる。また、同様に、画像J(Ω3)は、画像J(Ω4)よりも画像J(Ω1)と類似すると仮定できる。このように、画像J(Ωi)(2<=i<=K−1)は、画像J(Ωi+1)よりも画像J(Ω1)と類似すると仮定できる。画像J(Ω1)を基準画像とすると、情報処理装置100は、基準画像との類似の度合いが順序付けられた画像J(Ω2)〜画像J(ΩK)を取得することができたこととなる。以下では、基準画像と比較される対象となる画像を、比較画像とする。
画像から抽出される特徴量が画像の特徴をより正確に捉える特徴量である程、その特徴量は、次のような性質があると仮定できる。即ち、複数の画像の類似の度合いが高い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに近い値となり、複数の画像の類似の度合いが低い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに遠い値となるという性質である。
そこで、情報処理装置100は、取得した画像J(Ω1)〜画像J(ΩK)と、予め定められた評価関数と、に基づいて、画像から特徴量を抽出する特徴量抽出用NNを以下のように学習する。即ち、情報処理装置100は、特徴量抽出用NNを、複数の画像の類似の度合いが高い程、その複数の画像それぞれから抽出する特徴量それぞれが近い値となり、複数の画像の類似の度合いが低い程、その複数の画像それぞれから抽出する特徴量それぞれが遠い値となるように学習する。
これにより、情報処理装置100は、オートエンコーダのようにデコーダ部分のパラメータを学習する必要がなく、より軽負担に、特徴量抽出用NNの各パラメータを学習できる。また、情報処理装置100は、オートエンコーダのようにデコーダ部分のパラメータを利用しないため、オートエンコーダに比べて表現力が増加するわけでなく、誤った学習を行う可能性を低減させ、より適切に、特徴量抽出用NNの各パラメータを学習できる。また、情報処理装置100は、類似度学習法と異なり、2つの画像が似ているか否かを不確実な基準を基に決定する必要がないため、類似度学習法に比べて、より適切に特徴量抽出用NNの各パラメータを学習できる。
(情報処理装置のハードウェア構成)
図1は、情報処理装置100のハードウェア構成の一例を示す図である。情報処理装置100は、特徴量抽出用NNを学習するパーソナルコンピュータ(PC)、サーバ装置、タブレット装置等の情報処理装置である。情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、入力I/F104、出力I/F105、ネットワークI/F106を含む。各要素は、システムバス107を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリアやデータの一時的な記憶場所として機能する記憶装置である。主記憶装置102は、例えば、Random Access Memory(RAM)等の記録媒体を用いて実装される。補助記憶装置103は、各種プログラム、各種設定情報、各種画像データ、各種NNのパラメータの初期値の情報等を記憶する記憶装置である。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記録媒体を用いて実装される。
入力I/F104は、マウス、キーボード、タッチパネルの操作部等の入力装置との接続に利用されるインターフェースである。CPU101は、入力I/F104を介して、入力I/F104に接続された入力装置からの入力を受付ける。出力I/F105は、モニタ、スピーカ、タッチパネルの表示部等の出力装置との接続に利用されるインターフェースである。ネットワークI/F106は、外部のサーバや装置等とのネットワーク(例えば、インターネットやLAN等)を介した通信に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されたプログラムに基づき処理を実行することによって、図2で後述する情報処理装置100の機能及び、図3で後述するフローチャートの処理等が実現される。
(情報処理装置の機能構成)
図2は、情報処理装置100の機能構成の一例を示す図である。情報処理装置100は、画像生成部201、ミニバッチ生成部202、学習部203を含む。
画像生成部201は、ミニバッチ生成部202から入力された画像と、領域集合と、に基づいて、入力された画像に対して、入力された画像内の入力された領域集合に含まれる領域を、各ピクセルが乱数となる画像に変更する処理を行うことで、特徴量抽出用NNの学習に用いられる学習データとなる画像を生成する。
ミニバッチ生成部202は、予め用意されたCチャネルの画像の集合Iから、予め定められた数Nminibatch(例えば、32等)個の画像(J(1)、J(2)、・・・J(Nminibatch-1)、J(Nminibatch))を抽出する。以下では、このJ(1)、J(2)、・・・J(Nminibatch-1)、J(Nminibatch)の画像を、画像Jと総称する。本実施形態では、Cは、3とするが、2以下でもよいし、4以上でもよい。ミニバッチ生成部202は、例えば、集合Iからランダムな復元抽出を行うことで、Nminibatch個の画像を抽出する。また、ミニバッチ生成部202は、集合Iからランダムな非復元抽出を行うことで、Nminibatch個の画像を抽出することとしてもよい。そして、ミニバッチ生成部202は、抽出したNminibatch個のCチャネルの画像{画像J(j)(1<=j<=Nminibatch)}それぞれについて、以下の処理を行う。即ち、ミニバッチ生成部202は、画像J(j)について、画像J(j)中の領域の集合である予め定められた数K(例えば、4等)個の領域集合Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kを、Ω(j) k⊂Ω(j) k+1 & Ω(j) k≠Ω(j) k+1(1<=k<=K−1)を満たすように生成する。以下では、Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kの領域集合を含む領域集合群を、領域集合群Ω(j)とする。また、以下では、Ω(1)、Ω(2)、・・・、Ω(Nminibatch-1)、Ω(Nminibatchj)を、領域集合群Ωと総称する。領域集合群Ω(j)に含まれる領域集合それぞれは、異なる領域の集合であって、領域集合群Ω(j)に含まれる他の領域集合のうち、含まれる領域の合計の面積が自身に含まれる領域の合計の面積以下である領域集合に含まれる全ての領域を含むこととなる。そして、ミニバッチ生成部202は、画像J(j)と、領域集合群Ω(j)と、を画像生成部201に入力し、学習データの生成を指示する。そして、ミニバッチ生成部202は、画像Jそれぞれについて画像生成部201を介して生成した画像の集合を、特徴量抽出用NNの学習に用いられる学習データの塊であるミニバッチとして決定し、ミニバッチの情報を、主記憶装置102、補助記憶装置103等に記憶する。
学習部203は、ミニバッチ生成部202により主記憶装置102、補助記憶装置103等に記憶されたミニバッチの情報と、予め定められた評価関数と、に基づいて、特徴量抽出用NNの各パラメータを学習する。
(特徴量抽出用NNの学習処理)
図3は、学習処理の一例を示すフローチャートである。図3を用いて、情報処理装置100が学習データとなる画像を生成し、生成した学習データに基づいて、特徴量抽出用NNを学習する処理を説明する。図4に、情報処理装置100が行う学習データ生成処理の概要を示す。図4には、画像J(j)と、領域集合群Ω(j)と、が入力された画像生成部201が、学習データとなる画像J(j)(Ω(j) 1)〜J(j)(Ω(j) K)を生成している様子が示されている。
S301において、ミニバッチ生成部202は、補助記憶装置103に予め記憶されているCチャネルの画像の集合Iから、予め定められた数Nminibatch個の画像J(J(1)、J(2)、・・・J(Nminibatch-1)、J(Nminibatch))を抽出する。
S302において、ミニバッチ生成部202は、S301で抽出した画像Jから1つを選択する。以下では、S302で選択された画像を画像J(j)とする。
S303において、ミニバッチ生成部202は、S302で選択された画像J(j)中の領域の集合である予め定められた数K(例えば、4等)個の領域集合Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kを、Ω(j) k⊂Ω(j) k+1 & Ω(j) k≠Ω(j) k+1(1<=k<=K−1)を満たすように生成する。
S304において、ミニバッチ生成部202は、S302で選択した画像J(j)と、S303で生成した領域集合群Ω(j)と、を画像生成部201に入力する。画像生成部201は、入力された領域集合群Ω(j)に含まれる領域集合それぞれについて、入力された画像J(j)中の領域集合に含まれる領域を各ピクセルのピクセル値が乱数となる画像に変更することで、特徴量抽出用NNの学習に用いられる学習データとなる画像J(j)(Ω(j) 1)、J(j)(Ω(j) 2)、・・・、J(j)(Ω(j) K-1)、J(j)(Ω(j) K)を生成する。画像J(j)(Ω(j) k)は、画像J(j)におけるΩ(j) kが示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像である。以下では、{画像J(j)(Ω(j) 1)、J(j)(Ω(j) 2)、・・・、J(j)(Ω(j) K-1)、J(j)(Ω(j) K)}を、画像群J(j)(Ω(j))とする。画像群J(j)(Ω(j))は、基準画像との類似の度合いが順序付けられる画像群となる。また、以下では、J(1)(Ω(1))、J(2)(Ω(2))、・・・、J(Nminibatch-1)(Ω(Nminibatch-1))、J(Nminibatch)(Ω(Nminibatch))を、J(Ω)と総称する。
また、画像生成部201は、入力された領域集合群Ω(j)に含まれる領域集合それぞれについて、入力された画像J(j)中の領域集合が示す領域を予め定められた画像(例えば、ピクセル値が128の画像)に変更することで、特徴量抽出用NNの学習に用いられる学習データとなる画像を生成してもよい。しかし、例えば、画像J(j)中の変更対象の領域(Ω(j)それぞれが示す領域)が、この予め定められた画像に類似する場合、変更後の画像が元の画像と類似することとなるため、元の画像と特徴の異なる画像を生成することができない場合がある。そのため、画像生成部201は、画像J(j)中の変更対象の領域を、各ピクセルのピクセル値が乱数となる画像に変更することで、元の画像と特徴の異なる画像を生成する可能性を向上させることができる。
また、(本実施形態の処理の概要)で説明したように、特徴量抽出用NNの学習に用いられる画像は、実行したい画像認識タスクに現れる画像データとある程度以上の関連性を有する必要がある。画像J(j)が、実行したい画像認識タスクに現れる画像データとある程度の関連性のある画像である場合であっても、領域集合群Ωに含まれる領域集合が示す領域が変更された画像が、画像データとの関連性が学習に不適切な程に低下した画像となる場合がある。そこで、画像生成部201は、画像J(j)中の変更対象の領域を、各ピクセルのピクセル値が乱数であり、各ピクセルのピクセル値の平均値が画像J(j)の全領域におけるピクセル値の平均値であり、各ピクセルのピクセル値の分散値が画像J(j)の全領域におけるピクセル値の分散値である画像に変更することとしてもよい。このように、画像生成部201は、画像J(j)中の変更対象の領域を、元の画像のピクセル値の特徴を維持したまま、変更することで、変更対象の領域が変更された画像が、実行したい画像認識タスクに現れる画像データとの関連性が学習に不適切な程に低下した画像となる可能性を低減できる。
図5は、画像生成部201により生成された学習データの一例を示す図である。図5を用いて、Kが4であり、Ω(j) 1が空集合であり、Ω(j) 2が8×8に分割された画像J(j)の領域のうちの8個の領域を含む集合であり、Ω(j) 3がΩ(j) 2に含まれる領域を全て含み、8×8に分割された画像J(j)の領域のうちの32個の領域であり、Ω(j) 4が画像J(j)の全領域を含む集合である場合に、画像生成部201により生成される画像の一例を説明する。
画像500は、画像生成部201により、画像J(j)の領域のうち、Ω(j) 1が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。Ω(j) 1が空集合であるため、画像500は、元の画像(画像J(j))そのままとなっている。
画像501は、画像生成部201により、画像J(j)の領域のうち、Ω(j) 2が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。8×8に分割された元の画像(画像J(j))の領域のうちの8個の領域が、ピクセル値が乱数の画像に変更されていることが分かる。
画像502は、画像生成部201により、画像J(j)の領域のうち、Ω(j) 3が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。8×8に分割された元の画像(画像J(j))の領域のうちの32個の領域が、ピクセル値が乱数の画像に変更されていることが分かる。
画像503は、画像生成部201により、画像J(j)の領域のうち、Ω(j) 4が示す領域を、各ピクセルのピクセル値が乱数となる画像に変更された画像である。元の画像(画像J(j))の全領域が、ピクセル値が乱数の画像に変更されていることが分かる。
画像500と画像501とで共通する入力画像J(j)のままである部分は、画像500と画像502とで共通する入力画像J(j)のままである部分の全てを含み、画像500と画像502とで共通する入力画像J(j)のままである部分よりも広い。そのため、画像501は、画像502よりも画像500と類似すると仮定できる。また、同様に、画像502は、画像503よりも画像500と類似すると仮定できる。このように、画像501、画像502、画像503の順に、画像500と類似すると仮定できる。
また、画像503と画像502とで共通するピクセル値が乱数の画像に変更された部分は、画像503と画像501とで共通するピクセル値が乱数の画像に変更された部分の全てを含み、画像503と画像501とで共通するピクセル値が乱数の画像に変更された部分よりも広い。そのため、画像502は、画像501よりも画像503と類似すると仮定できる。また、同様に、画像501は、画像500よりも画像503と類似すると仮定できる。このように、画像502、画像501、画像500の順に、画像503と類似すると仮定できる。
本実施形態では、画像Jは、Cチャネル画像である。そのため、画像生成部201は、各チャネルの画像それぞれについて、領域集合群Ω(j)に含まれる領域集合が示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像を生成することとなる。図5の例では、画像500〜503と同様に、画像中の領域集合群Ω(j)に含まれる領域集合それぞれが示す領域が変更された画像が、チャネルごとに4個生成されることとなる。
S305において、ミニバッチ生成部202は、S301で抽出した画像全てについて、S303〜S304の処理が完了したか否かを判定する。ミニバッチ生成部202は、S301で抽出した画像全てについて、S303〜S304の処理が完了したと判定した場合、S306の処理に進む。ミニバッチ生成部202は、S301で抽出した画像の中に、S303〜S304の処理が完了していない画像があると判定した場合、S302の処理に進む。
S306において、ミニバッチ生成部202は、S304で生成した画像全てを特徴量抽出用NNの学習に用いられる学習データの塊であるミニバッチとして決定する。
このように、S301〜S306の処理により、情報処理装置100は、複数の画像であって、その複数の画像に含まれるある画像と他の画像それぞれの類似の度合いが順序付けられた複数の画像を、学習データとして生成できる。
S307において、学習部203は、S306で決定されたミニバッチと、予め定められた評価関数Fと、に基づいて、特徴量抽出用NNを学習する。図6に、情報処理装置100が行う学習処理の概要を示す。図6には、ミニバッチに含まれる画像J(j)(Ω(j) k)(1<=k<=K)がそれぞれ、特徴量抽出用NN(特徴量抽出用NN1〜特徴量抽出用NNK)に入力されることで、特徴量f(J(j)(Ω(j) k))(1<=k<=K)が取得され、学習部203に入力される様子が示されている。以下では、特徴量抽出用NNが、任意のCチャネルの画像Xから、抽出した特徴量を、f(X)とする。特徴量抽出用NN1〜特徴量抽出用NNKは、siameseアーキテクチャと同様に、全て同一のNNである。即ち、同一のアーキテクチャで、かつ、含まれるパラメータの値も同一である。学習部203は、この入力された特徴量f(J(j)(Ω(j) k))(1<=j<=Nminibatch 1<=k<=K)と、予め定められた評価関数Fと、に基づいて、特徴量抽出用NNの各パラメータを学習する。
S307の処理の詳細を説明する。学習部203は、補助記憶装置103から特徴量抽出用NNの初期パラメータの情報を取得する。また、学習部203は、補助記憶装置103から予め定められた評価関数Fの情報を取得する。
画像J(j)(Ω(j))に含まれる一群の画像(J(j)(Ω(j) 1)〜J(j)(Ω(j) K))のうち、類似の度合いの比較の対象となる画像を基準画像とする。この一群の画像に含まれる他の画像と基準画像との類似の度合いが大きい程、特徴量抽出用NNが基準画像、この他の画像それぞれから、より近い値の特徴量を抽出し、この他の画像と基準画像との類似の度合いが小さい程、より遠い値の特徴量を抽出することが望まれる。
そこで、本実施形態では、例えば、画像J(j)(Ω(j))に含まれる一群の画像(J(j)(Ω(j) 1)〜J(j)(Ω(j) K))のうち、類似の度合いの比較の対象となる画像をJ(j)(Ω(j) 1)とすると、以下のような評価関数Fを用いることとする。即ち、評価関数Fとして、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K)」という大小関係が強化される程、小さくなるような関数を用いることとする。大小関係の強化とは、大小関係を有する2つの対象のうち、大きい方がより大きく、小さい方がより小さくなることである。このような大小関係が強化されるということは、特徴量抽出用NNが、ある画像と別の画像との類似の度合いが大きい程、これらの画像それぞれから、より近い値の特徴量を抽出するようになるということである。学習部203は、このような評価関数Fの値を最小化するように、特徴量抽出用NNの各パラメータを学習する。
また、評価関数Fとして、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K)」という大小関係が強化される程、大きくなるような関数を用いることとしてもよい。その場合、学習部203は、このような評価関数Fの値を最大化するように、特徴量抽出用NNの各パラメータを学習することとなる。
また、本実施形態では、評価関数は、更に、基準画像として、J(j)(Ω(j) 1)に加えて、J(j)(Ω(j) K)を用いる。即ち、評価関数Fとして、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 (1<=k<=K−2)」という大小関係が強化される程、小さくなるような関数を用いることとする。
本実施形態では、評価関数Fは、以下の式1で表される関数である。
Figure 2019086979
式1におけるjは、ミニバッチに含まれる同一の画像から画像生成部201により生成された一群の画像群を識別するためのインデックスである。ρは、チューニングパラメータであり、0以上の実数である。ρk(ρ1〜ρK)は、チューニングパラメータであり、合計が1となるそれぞれ0以上の実数である。αは、1以上の整数である。関数L、Linverseは、それぞれjを入力とする関数である。関数dは、2つの画像を入力とする関数である。関数dは、入力された2つの画像から特徴量抽出量NNにより抽出される特徴量同士の差分を示す。fdimは、関数dに入力された2つの画像から特徴量抽出用NNにより抽出された特徴量であるベクトルの次元である。
式1で、Kが大きくなるにつれて、d(J(j)(Ω(j) 1)、J(j)(Ω(j) 2))とd(J(j)(Ω(j) K)、J(j)(Ω(j) K-1))とが小さくなる傾向や、d(J(j)(Ω(j) 1)、J(j)(Ω(j) 3))とd(J(j)(Ω(j) K)、J(j)(Ω(j) K-2))とが小さくなる傾向が顕著になる。この傾向を防止するために、K=3、4の場合には「α=1」、K=5、6、7、8の場合にはα=2、K=9、10の場合にはα=4とすることができる。このように1以上の整数であるαの値は、Kの値に応じて決定されることとしてもよい。
評価関数Fの第1項(最初のΣで囲まれた項)は、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K)」という大小関係と、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 (1<=k<=K−2)」という大小関係と、を強化するための制約を示す項である。
評価関数Fの第1項中の関数Lは、画像J(j)(Ω(j))における基準画像である画像J(j)(Ω(j) 1))と画像J(j)(Ω(j) k)(3<=k<=K)との特徴量の差分と、画像J(j)(Ω(j) 1))と画像J(j)(Ω(j) k)よりも画像J(j)(Ω(j) 1))に類似する画像J(j)(Ω(j) k-1)との特徴量の差分と、の比率の合計を示す関数である。特徴量の差分は、特徴量の相違の度合いを示す指標の一例である。本実施形態では、関数Lは、画像J(j)(Ω(j) 1))と画像J(j) (Ω(j) k-1)との特徴量の差分を、画像J(j)(Ω(j) 1))と画像J(j)(Ω(j) k)との特徴量の差分で除した値の合計を示す。
関数Lを含む評価関数Fは、基準画像を画像J(j)(Ω(j) 1))として、その他の画像(画像J(j)(Ω(j) 2))〜画像J(j)(Ω(j) K)))を複数の比較画像とした場合の、基準画像から特徴量抽出用NNにより抽出される特徴量と、複数の比較画像それぞれから特徴量抽出用NNにより抽出される特徴量と、に関する項を含む関数の一例である。
評価関数Fの第1項中の関数Linverseは、画像J(j)(Ω(j))における基準画像である画像J(j)(Ω(j) K))と画像J(j)(Ω(j) k-2)(3<=k<=K)との特徴量の差分と、画像J(j)(Ω(j) K))と画像J(j)(Ω(j) k-2)よりも画像J(j)(Ω(j) K))に類似する画像J(j)(Ω(j) k-1)との特徴量の差分と、の比率の合計を示す関数である。本実施形態では、関数Linverseは、画像J(j)(Ω(j) K))と画像J(j) (Ω(j) k-1)との特徴量の差分を、画像J(j)(Ω(j) 1))と画像J(j)(Ω(j) k-2)との特徴量の差分で除した値の合計を示す。
関数Linverseを含む評価関数Fは、基準画像を画像J(j)(Ω(j) K))として、その他の画像(画像J(j)(Ω(j) 1))〜画像J(j)(Ω(j) K-1)))を複数の比較画像とした場合の、基準画像から特徴量抽出用NNにより抽出される特徴量と、複数の比較画像それぞれから特徴量抽出用NNにより抽出される特徴量と、に関する項を含む関数の一例である。
このように、関数L、Linverseは、基準画像と基準画像でないある画像(1)との特徴量の差分を、基準画像と画像(1)よりも基準画像に類似の度合いが低い画像(2)との特徴量の差分で除した値の合計を示す。そのため、基準画像と基準画像でない画像(1)との特徴量の差分がより小さくなり、基準画像と画像(2)との特徴量の差分がより大きくなると、関数L、Linverseは、より小さくなり、結果として、評価関数Fの第1項もより小さくなる。したがって、学習部203は、評価関数Fを最小化するように、特徴量抽出用NNの各パラメータを学習することで、基準画像と画像(1)とからより近い値の特徴量を抽出し、基準画像と画像(2)とからより遠い値の特徴量を抽出するような特徴量抽出用NNを決定できる。
また、関数L、Linverseは、基準画像と画像(1)との特徴量の差分を、基準画像と画像(1)よりも基準画像に類似の度合いが高い画像(2)との特徴量の差分で除した値の合計を示す関数としてもよい。その場合、基準画像と画像(1)との特徴量の差分がより大きくなり、基準画像と画像(2)との特徴量の差分がより小さくなると、関数L、Linverseは、より大きくなり、結果として、評価関数Fの第1項もより大きくなる。したがって、学習部203は、評価関数Fを最大化するように、特徴量抽出用NNの各パラメータを学習することで、基準画像と画像(1)とからより遠い値の特徴量を抽出し、基準画像と画像(2)とからより近い値の特徴量を抽出するような特徴量抽出用NNを決定できる。
また、評価関数Fの第1項は、関数L、Linverseのうち、何れか1つのみを含むこととしてもよい。即ち、基準画像を1つのみとしてもよい。これにより、情報処理装置100は、学習処理におけるCPU101の利用率等を軽減できる。
また、画像J(j)(Ω(j) k)) (1<=k<=K)のうち、画像J(j)(Ω(j) 1))、画像J(j)(Ω(j) K))以外の画像を、基準画像としてもよい。例えば、画像J(j)(Ω(j) 2)を基準画像としてもよい。その場合、図5の例では、画像501が基準画像となる。図5の例では、画像501と画像500とで共通する入力画像J(j)のままである部分は、画像501と画像502とで共通する入力画像J(j)のままである部分の全てを含み、画像501と画像502とで共通する入力画像J(j)のままである部分よりも広い。そのため、画像500は、画像502よりも画像501と類似すると仮定できる。また、同様に、画像502は、画像503よりも画像501と類似すると仮定できる。このように、画像500、画像502、画像503の順に、画像501と類似すると仮定できる。
図5の例で、基準画像がJ(j)(Ω(j) 2)である場合、評価関数F内の関数Lの中身は、以下の式のようになる。
L(j)=(d(J(j)(Ω(j) 2)、J(j)(Ω(j) 1))/d(J(j)(Ω(j) 2)、J(j)(Ω(j) 3)))α+(d(J(j)(Ω(j) 2)、J(j)(Ω(j) 3))/d(J(j)(Ω(j) 2)、J(j)(Ω(j) 4)))α
評価関数Fの第2項(第1項以外の部分)は、特徴量抽出用NNにより抽出される特徴量のサイズに関する制約を示す項である。本実施形態では、評価関数Fの第2項(第1項以外の部分)は、特徴量の集合{f(J(j)(Ω(j) k)) (1<=j<=Nminibatch、 1<=k<=K)}に含まれる特徴量が示すベクトルの長さの重み付き平均値が指定された定数からは外れる程、大きくなる。評価関数Fの第2項により、学習部203は、指定されたオーダのサイズの特徴量を抽出できるように、特徴量抽出用NNを学習できる。
「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K)」という大小関係と、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 (1<=k<=K−2)」という大小関係と、がどのオーダのユークリッド距離で成立するのかが不定であるため学習が安定しない場合もある。そこで、学習部203は、評価関数Fの第2項を用いることで、特徴量抽出用NNの各パラメータをより安定して学習することができる。
この第2項を含む評価関数Fは、特徴量抽出用NNに入力される画像それぞれが特徴量抽出用NNに入力される際に抽出される特徴量のサイズの制約に関する項を含む関数の一例である。
そして、学習部203は、ミニバッチに含まれる画像と、取得した特徴量抽出用NNの初期パラメータと、評価関数Fと、に基づいて、確率勾配降下法(SGD、Stochastic Gradient Descent)、Adam等の最適化手法を用いて、特徴量抽出用NNの各パラメータを学習する。
評価関数Fを、ミニバッチに含まれる各画像(J(j)(Ω(j) k) (1<=j<=Nminibatch 1<=k<=K))が定数であり、特徴量抽出用NNの各パラメータが変数である関数として、学習部203は、以下の処理を行う。即ち、学習部203は、評価関数Fを特徴量抽出用NNの各パラメータで偏微分することで、現在の特徴量抽出用NNの各パラメータの値が示す点における勾配ベクトルを求める。そして、学習部203は、求めた勾配ベクトルの逆方向に予め定められた値だけ、特徴量抽出用NNの各パラメータを変動させることで、特徴量抽出用NNの各パラメータを更新する。
学習部203は、評価関数Fの値が収束するまで、又は、{f(J(j)(Ω(j) k)) (1<=j<=Nminibatch )}が特徴量空間内でk毎に分離されたと判断されるまで、又は、ある一定の反復回数になるまで、以上の処理を繰り返し、最終的に更新された特徴量抽出用NNのパラメータを、最終的な学習結果の特徴量抽出用NNのパラメータとして決定する。
(効果)
以上、本実施形態では、情報処理装置100は、ラベルなしの画像J(J(1)〜J(Nminibatch))それぞれについて、画像J(j)中の領域の集合であるK個の領域集合Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kを、領域集合群Ω(j)として、Ω(j) k⊂Ω(j) k+1 & Ω(j) k≠Ω(j) k+1(1<=k<=K−1)を満たすように生成した。そして、情報処理装置100は、画像J(j)それぞれについて、画像J(j)内の領域集合群Ω(j)に含まれる領域集合が示す領域が、各ピクセルのピクセル値が乱数である画像に変更された画像J(j)(Ω(j))を生成した。画像J(j)(Ω(j) k)(2<=k<=K)それぞれは、画像J(j)(Ω(j) 1)との類似の度合いが、順序づいた画像とみなすことができる。また、画像J(j)(Ω(j) k)(1<=k<=K−1)それぞれは、画像J(j)(Ω(j) K)との類似の度合いが、順序づいた画像とみなすことができる。
そして、情報処理装置100は、生成したJ(j)(Ω(j))と、式1に示す評価関数Fと、に基づいて、評価関数Fを最小化するように、特徴量抽出用NNの各パラメータを学習することとした。
これにより、学習部203は、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K)」という大小関係と、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 (1<=k<=K−2)」という大小関係と、を強化するように、特徴量抽出用NNの各パラメータを学習した。
画像から抽出される特徴量が画像の特徴をより正確に捉える特徴量である程、その特徴量は、次のような性質があると仮定できる。即ち、複数の画像の類似の度合いが高い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに近い値となり、複数の画像の類似の度合いが低い程、その複数の画像それぞれから抽出されるその特徴量それぞれは、互いに遠い値となるという性質である。本実施形態では、情報処理装置100は、このような性質を満たすように、特徴量抽出用NNを学習したこととなる。これにより、情報処理装置100は、より適切に特徴量抽出用NNを学習することができる。
また、本実施形態の処理では、情報処理装置100は、特徴量抽出用NNのパラメータのみを学習するので、オートエンコーダのように、特徴量抽出用NNに加えて更にデコーダ部分のパラメータを学習する必要がなく、オートエンコーダに比べてより軽負担に、特徴量抽出用NNのパラメータを学習できる。
また、情報処理装置100は、オートエンコーダのように、デコーダ部分のパラメータを追加しないため、表現能力が増加させないため、オートエンコーダに比べて、誤った学習を行う可能性を低減でき、より適切に特徴量抽出用NNの各パラメータを学習できる。
また、情報処理装置100は、類似度学習法と異なり、2つの画像が似ているか否かを不確実な基準を基に決定する必要がないため、類似度学習法に比べて、より適切に特徴量抽出用NNの各パラメータを学習できる。
また、類似度学習法には、学習画像のラベルとして「似ている」と「似ていない」の2値の基準しかないため、数千次元の特徴量ベクトルを抽出する目的には、粗すぎるという問題がある。対して、本実施形態の情報処理装置100は、2値の基準でなく、K個の段階で分けられた基準画像との類似の度合いを用いるため、数千次元の特徴量ベクトルを抽出しなければならないタスクで使用される特徴量抽出用NNの各パラメータを、そのタスクで使用されるNNへの入力データである「ラベルが付与されていない画像データ」だけを使って、より正確に教師なし学習できる。
<実施形態2>
本実施形態では、特徴量抽出用NNに入力される画像が、動画である場合の情報処理装置100の処理について説明する。
本実施形態の情報処理装置100のハードウェア構成は、実施形態1と同様である。
図7は、本実施形態の情報処理装置100の機能構成の一例を示す図である。本実施形態の情報処理装置100の機能構成は、実施形態1と比べて、前処理部701が含まれる点で異なる。
前処理部701は、動画像から、複数の静止画像を、特徴量抽出用NNに入力される入力画像として取得する処理を行う。
図3を用いて、本実施形態の情報処理装置100による特徴量抽出用NNの学習処理の一例を説明する。
S301において、ミニバッチ生成部202は、補助記憶装置103に予め記憶されているCチャネルの動画像の集合Iから、予め定められた数Nminibatch(例えば、32等)個の画像U(U(1)、U(2)、・・・U(Nminibatch-1)、U(Nminibatch))を抽出する。
そして、前処理部701は、抽出した画像Uそれぞれについて、以下の処理を行う。ここで、抽出された画像U(j)(1<=j<=Nminibatch)を、時刻tjから撮影された予め定められたサイズのC−チャネルの動画像であるとする。抽出された動画像における時刻tjからΔt間隔の各時刻におけるP+1枚のC−チャネルの静止画像をそれぞれ、画像V(j)(tj)、画像V(j)(tj+Δt)、画像V(j)(tj+2Δt)、・・・、画像V(j)(tj+(P−1)Δt)、画像V(j)(tj+PΔt)とする。以下では、画像V(j)(tj)、画像V(j)(tj+Δt)、画像V(j)(tj+2Δt)、・・・、画像V(j)(tj+PΔt)を、画像V(j)と総称する。
前処理部701は、抽出した動画像である画像U(j)それぞれから、画像V(j)それぞれを取得する。そして、前処理部701は、取得したP+1枚の画像V(j)から、画像U(j)の最初(時刻tj)におけるフレームである画像A(j)(tj)と、画像U(j)の時刻tj+p△t(1<=p<=P)におけるフレームと画像U(j)の時刻tj+(p−1)△tにおけるフレームとの差分を示す画像D(j) p(tj)(1<=p<=P)と、を取得する。そして、前処理部701は、取得した画像A(j)(tj)と画像D(j) p(tj)(1<=p<=P)との集合を、特徴量抽出用NNに入力される画像J(j)とする。以下では、画像J(1)、画像J(2)、・・・、画像J(Nminibatch-1)、画像J(Nminibatch)を、画像Jと総称する。
前処理部701は、例えば、画像A(j)(tj)、画像D(j) p(tj)を、以下の式を用いて取得する。
(j)(tj) = V(j)(tj
(j) 1(tj) = V(j)(tj+Δt)−V(j)(tj
(j) 2(tj) = V(j)(tj+2Δt)−V(j)(tj+Δt)
・・・
(j) P(tj) = V(j)(tj+PΔt)−V(j)(tj+(P−1)Δt)
前処理部701は、S301で抽出した画像U(j)(U(1)、U(2)、・・・U(Nminibatch-1)、U(Nminibatch))それぞれについて、画像J(j)(画像J(1)、画像J(2)、・・・、画像J(Nminibatch-1)、画像J(Nminibatch))を取得する。
図8に、前処理部701の処理の一例の概要を示す。図8には、前処理部701に画像V(j)を含む画像U(j)が入力され、画像J(j)が出力されている様子が示される。
また、前処理部701は、D(j) p(tj)を、V(j)(tj+pΔt)とV(j)(tj+(p−1)Δt)とから計算されるオプティカルフローとして取得してもよい。この場合、D(j) p(tj)(1<=p<=P)は2−チャネル画像となる。
S302において、ミニバッチ生成部202は、S301で抽出した画像Jから1つを選択する。以下では、S302で選択された画像を画像J(j)とする。
S303において、ミニバッチ生成部202は、S302で選択された画像J(j)に含まれる画像が示す領域中の領域の集合である予め定められた数K個の領域集合Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kを、Ω(j) k⊂Ω(j) k+1 & Ω(j) k≠Ω(j) k+1(1<=k<=K−1)を満たすように生成する。以下では、Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kの領域集合を、領域集合群Ω(j)と総称する。
S304において、ミニバッチ生成部202は、S302で選択した画像J(j)と、S303で生成した領域集合群Ω(j)と、を画像生成部201に入力する。画像生成部201は、入力された画像J(j)に含まれる画像それぞれ(画像A(j)(tj)、画像D(j) p(tj) (1<=p<=P)それぞれ)について、以下の処理を行う。即ち、画像生成部201は、入力された領域集合群Ω(j)に含まれる領域集合それぞれについて、領域集合が示す領域を各ピクセルのピクセル値が乱数となる画像に変更する処理を行う。以下では、画像A(j)(tj)の領域集合Ω(j) kが示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像を、画像A(j)(tj、Ω(j) k)とする。また、以下では、画像A(j)(tj、Ω(j) 1)、画像A(j)(tj、Ω(j) 2)、・・・、画像A(j)(tj、Ω(j) K-1)、画像A(j)(tj、Ω(j) K)を、画像A(j)(tj、Ω(j))と総称する。また、以下では、画像D(j) p(tj)の領域集合Ω(j) kが示す領域が各ピクセルのピクセル値が乱数となる画像に変更された画像を、画像D(j) p(tj、Ω(j) k)とする。また、以下では、画像D(j) p(tj、Ω(j) 1)、画像D(j) p(tj、Ω(j) 2)、・・・、画像D(j) p(tj、Ω(j) K-1)、画像D(j) p(tj、Ω(j) K)を、画像D(j) p(tj、Ω(j))と総称する。また、以下では、S304で画像J(j)含まれる画像それぞれから生成された画像(画像A(j)(tj、Ω(j))、画像D(j) p(tj、Ω(j)))を、まとめて画像群J(j)(Ω(j))とする。また、以下では、画像A(j)(tj、Ω(j) k)と画像D(j) p(tj、Ω(j) k) (1<=p<=P)とを、まとめて画像J(j)(Ω(j) k)とする。
S305において、ミニバッチ生成部202は、S301で抽出した画像J全てについて、S303〜S304の処理が完了したか否かを判定する。ミニバッチ生成部202は、S301で抽出した画像全てについて、S303〜S304の処理が完了したと判定した場合、S306の処理に進む。ミニバッチ生成部202は、S301で抽出した画像の中に、S303〜S304の処理が完了していない画像があると判定した場合、S302の処理に進む。
S306において、ミニバッチ生成部202は、S304で生成した画像全てを特徴量抽出用NNの学習に用いられる学習データの塊であるミニバッチとして決定する。
図9を用いて、本実施形態で学習部203が学習する特徴量抽出用NNの構造を説明する。図9の例では、特徴量抽出用NNは、画像J(j)に含まれる画像A(j)(tj)から特徴量を抽出する特徴量抽出用NNAと、画像J(j)に含まれる画像D(j) p(tj)それぞれから特徴量を抽出する特徴量抽出用NNDp (1<=p<=P)と、を含む構造となっている。特徴量抽出用NNAにより抽出された特徴量を、fA(A(j)(t))とする。また、特徴量抽出用NNDp (1<=p<=P)それぞれにより抽出された特徴量を、fDp(D(j) p(tj)) (1<=p<=P)とする。即ち、特徴量抽出用NNは、画像J(j)から、特徴量f(J(j))として、fA(A(j)(tj))、{fDp(D(j) p(tj)) (1<=p<=P)}を抽出する。
また、本実施形態の特徴量抽出用NNは、図10に示すような構造であってもよい。図10の例では、特徴量抽出用NNは、画像J(j)に含まれる画像A(j)(tj)から特徴量を抽出する特徴量抽出用NNAと、画像J(j)に含まれる{画像D(j) p(tj) (1<=p<=P)}から特徴量を抽出する特徴量抽出用NNDと、を含む構造となっている。特徴量抽出用NNDにより、{画像D(j) p(tj) (1<=p<=P)}から抽出された特徴量をfD({D(j) p(tj)})とする。即ち、図10の例では、特徴量抽出用NNは、画像J(j)から、特徴量f(J(j))として、fA(A(j)(t))、fD({D(j) p(tj)})を抽出することとなる。
S307において、学習部203は、S306で決定されたミニバッチと、式1の評価関数Fと、に基づいて、実施形態1と同様に特徴量抽出用NNを学習する。
本実施形態では、前処理部701は、画像U(j)の最初のフレーム(時刻tjのフレーム)の静止画像と、時刻tj+(p−1)△tのフレームと時刻tj+p△tのフレームとの差分画像と、を入力画像J(j)として抽出した。しかし、前処理部701は、時刻tj+p△t (0<=p<=P)のフレームの静止画像それぞれを、入力画像J(j)として抽出してもよい。その場合、前処理部701は、例えば、画像A(j)(tj)、画像D(j) p(tj)を、以下の式を用いて取得する。
(j)(tj) = V(j)(tj
(j) 1(tj) = V(j)(tj+Δt)
(j) 2(tj) = V(j)(tj+2Δt)
・・・
(j) P(tj) = V(j)(tj+PΔt)
以上、本実施形態では、入力画像として動画像を用いる場合の情報処理装置100の処理について説明した。本実施形態の処理により、情報処理装置100は、より軽負担に、より適切に動画像から特徴量を抽出する特徴量抽出用NNの各パラメータを学習できる。
<実施形態3>
実施形態1では、情報処理装置100は、画像J(j)に対して、包含関係で順序付けられた領域集合群を1つ(Ω(j))生成し、生成した領域集合群に基づいて、基準画像との類似の度合いが順序付けられた画像群を1つ生成し、生成した画像群に基づいて、特徴量抽出用NNの各パラメータを学習することとした。本実施形態では、画像J(j)に対して包含関係で順序付けられた領域集合を複数生成し、基準画像との類似の度合いが順序付けられた画像群を複数生成し、生成した複数の画像群に基づいて特徴量抽出用NNの各パラメータを学習する場合の情報処理装置100の処理を説明する。
本実施形態の情報処理装置100のハードウェア構成は、実施形態1と同様である。
図3を用いて、本実施形態の情報処理装置100による特徴量抽出用NNの学習処理の一例を説明する。図3の処理のうち、実施形態1と異なる点について説明する。
S303において、ミニバッチ生成部202は、S302で選択された画像J(j)中の領域の集合である予め定められた数K’(例えば、4等)個の領域集合Ω’(j) 1、Ω’(j) 2、・・・、Ω’(j) K'-1、Ω’(j) K'を、Ω’(j) k⊂Ω’(j) k+1 & Ω’(j) k≠Ω’(j) k+1(1<=k<=K’−1)を満たすように生成する。以下では、{Ω’(j) 1、Ω’(j) 2、・・・、Ω’(j) K'-1、Ω’(j) K'}を、領域集合群Ω’(j)とする。
また、本実施形態では、ミニバッチ生成部202は、更に、もう一つ別のK’個の領域集合Λ(j) 1、Λ(j) 2、・・・、Λ(j) K'-1、Λ(j) K'を、Λ(j) k⊂Λ(j) k+1 & Λ(j) k≠Λ(j) k+1(1<=k<=K’−1)を満たすように生成する。以下では、{Λ(j) 1、Λ(j) 2、・・・、Λ(j) K'-1、Λ(j) K'}を、領域集合群Λ(j)とする。ここで、Ω’(j) 1とΛ(j) 1とは空集合とし、Ω’(j) K'とΛ(j) K'とは画像J(j)に含まれる全領域とする。
以下では、{Ω’(j) 1、Ω’(j) 2、・・・、Ω’(j) K'-1、Λ(j) 2、・・・、Λ(j) K'-1、Ω’(j) K'}を、2K’−2をKと読み替えた上で、改めて、Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) Kと表記する。したがって、Ω(j) 1は入力画像と一致し、Ω(j) Kは全領域が入力画像と異なる画像に変更された画像となる。
即ち、本実施形態では、ミニバッチ生成部202は、S303で、領域集合群Ω(j)={Ω(j) 1、Ω(j) 2、・・・、Ω(j) K-1、Ω(j) K}={Ω’(j) 1、Ω’(j) 2、・・・、Ω’(j) K'-1、Λ(j) 2、・・・、Λ(j) K'-1、Ω’(j) K'}を生成することとなる。
そして、ミニバッチ生成部202は、S304で、画像生成部201を介して、S302で選択した画像J(j)と、S303で生成した領域集合群Ω(j)と、に基づいて、特徴量抽出用NNの学習に用いられる学習データとなる画像J(j)(Ω(j))を生成する。
{画像J(j)(Ω(j) 1)、画像J(j)(Ω(j) 2)、・・・、画像J(j)(Ω(j) K'-2)、画像J(j)(Ω(j) K'-1)、画像J(j)(Ω(j) K)}の画像群に含まれる画像それぞれは、領域集合群Ω’(j)に基づいて生成された画像となる。画像J(j)(Ω(j) 1)を基準画像とすると、画像J(j)(Ω(j) 2)、・・・、画像J(j)(Ω(j) K'-2)、画像J(j)(Ω(j) K'-1)、画像J(j)(Ω(j) K)は、画像J(j)(Ω(j) 1)との類似の度合いが順序づいた画像とみなすことができる。即ち、この画像群は、基準画像との類似の度合いが順序付けられる画像群となる。以下では、この画像群を、第1の画像群とする。
また、{画像J(j)(Ω(j) 1)、画像J(j)(Ω(j) K')、画像J(j)(Ω(j) K'+1)、・・・、画像J(j)(Ω(j) K-1)、画像J(j)(Ω(j) K)}の画像群に含まれる画像それぞれは、領域集合群Λ(j)に基づいて生成された画像となる。画像J(j)(Ω(j) 1)を基準画像とすると、画像J(j)(Ω(j) K')、画像J(j)(Ω(j) K'+1)、・・・、画像J(j)(Ω(j) K-1)、画像J(j)(Ω(j) K)は、画像J(j)(Ω(j) 1)との類似の度合いが順序づいた画像とみなすことができる。即ち、この画像群は、基準画像との類似の度合いが順序付けられる画像群となる。以下では、この画像群を、第2の画像群とする。
実施形態1では、情報処理装置100は、基準画像との類似の度合いが順序付けられる画像群を1つ生成し、生成した1つの画像群に基づいて、特徴量抽出用NNの各パラメータを学習することとした。本実施形態では、情報処理装置100は、基準画像との類似の度合いが順序付けられる画像群を、第1の画像群と第2の画像群との2つ生成し、生成した2つの画像群に基づいて、特徴量抽出用NNの各パラメータを学習する。
本実施形態のS307の処理では、例えば、基準画像を、J(j)(Ω(j) 1)とすると、以下のような評価関数Fを用いることとする。即ち、評価関数Fとして、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K/2)」という大小関係と「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) K/2))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) K))とのユークリッド距離」という大小関係が強化される程、また、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 ((K/2)+2<=k<=K)」という大小関係が強化される程、小さくなるような関数を用いることとする。
更に、例えば、基準画像を、J(j)(Ω(j) K)とすると、評価関数Fとして、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 ((K/2)+1<=k<=K−2)」と「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) (K/2)+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) 1))とのユークリッド距離」という大小関係が強化される程、また、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 (1<=k<=(K/2)−1)」という大小関係が強化される程、小さくなるような関数を用いることとする。
本実施形態では、評価関数Fは、以下の式2で表される関数である。
Figure 2019086979
式2におけるjは、ミニバッチに含まれる同一の画像から画像生成部201により生成された一群の画像群を識別するためのインデックスである。ρは、チューニングパラメータであり、0以上の実数である。ρk(ρ1〜ρK)は、チューニングパラメータであり、合計が1となるそれぞれ0以上の実数である。αは、1以上の整数である。関数L、Linverseは、それぞれjを入力とする関数である。関数dは、2つの画像を入力とする関数である。関数dは、入力された2つの画像から特徴量抽出量NNにより抽出される特徴量同士の差分を示す。fdimは、関数dに入力された2つの画像から特徴量抽出用NNにより抽出された特徴量であるベクトルの次元である。式2で、K=4、6の場合にはα=1、K=8、10、12、14の場合にはα=2としてもよい。
評価関数Fの第1項(最初のΣで囲まれた項)は、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 (3<=k<=K/2)」という大小関係と、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) K/2))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) K))とのユークリッド距離」という大小関係と、「f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k-1))とのユークリッド距離 < f(J(j)(Ω(j) 1))とf(J(j)(Ω(j) k))とのユークリッド距離 ((K/2)+2<=k<=K)」という大小関係と、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 ((K/2)+1<=k<=K−2)」と「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) (K/2)+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) 1))とのユークリッド距離」という大小関係と、「f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k+1))とのユークリッド距離 < f(J(j)(Ω(j) K))とf(J(j)(Ω(j) k))とのユークリッド距離 (1<=k<=(K/2)−1)」という大小関係と、を強化するための制約を示す項である。
評価関数F中の関数Lの第1項({}で囲まれた部分)は、S304で領域集合群Ω’(j)に基づいて生成された画像に対する制約を示す項である。関数Lの第2項({}で囲まれた部分を除く部分)は、S304で領域集合群Λ(j)に基づいて生成された画像に対する制約を示す項である。
評価関数F中の関数Linverseの第1項({}で囲まれた部分)は、S304で領域集合群Λ(j)に基づいて生成された画像に対する制約を示す項である。関数Linverseの第2項({}で囲まれた部分を除く部分)は、S304で領域集合群Ω’(j)に基づいて生成された画像に対する制約を示す項である。
評価関数Fの第2項(最初のΣで囲まれた領域を除く部分)は、実施形態1の式1と同様である。
学習部203は、第1の画像群と、第2の画像群と、式2の評価関数Fと、に基づいて、実施形態1と同様の処理で、特徴量抽出用NNの各パラメータを学習する。
以上、本実施形態では、情報処理装置100は、包含関係で順序付けられた領域集合の集合である領域集合群を2つ生成し、生成した複数の領域集合群それぞれについて、S304で特徴量抽出用NNの学習に用いられる画像を生成した。これにより、情報処理装置100は、基準画像との類似の度合いが順序付けられる画像群を2つ生成したこととなる。そして、情報処理装置100は、生成した2つの画像群と、式2の評価関数Fと、に基づいて、特徴量抽出用NNの各パラメータを学習することとした。
このように、情報処理装置100は、基準画像との類似の度合いが順序付けられる画像群を2つ利用して、特徴量抽出用NNの各パラメータを学習するため、実施形態1に比べて、より効率的に特徴量抽出用NNを学習できる。
また、情報処理装置100は、包含関係で順序付けられた領域集合の集合である領域集合群を3以上の複数生成し、生成した複数の領域集合群それぞれについて、S304で特徴量抽出用NNの学習に用いられる画像を生成することとしてもよい。この場合、情報処理装置100は、基準画像との類似の度合いが順序付けられる画像群を、3以上の複数生成することとなる。そして、情報処理装置100は、生成した3以上の複数の画像群に基づいて、特徴量抽出用NNの各パラメータを学習することとしてもよい。その場合、情報処理装置100は、例えば、生成した各領域集合群に基づいて生成された画像群それぞれに対する制約を示す評価関数Fを用いて、特徴量抽出用NNの各パラメータを学習することとなる。
<その他の実施形態>
実施形態1〜3では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図2の機能及び図3のフローチャートの処理等が実現される。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。
100 情報処理装置
101 CPU

Claims (14)

  1. 予め定められた領域集合群に含まれる領域集合ごとに、入力画像における前記領域集合に含まれる領域が前記入力画像と異なる他の画像に変更された画像を、画像から特徴量を抽出する特徴量抽出器の学習に用いられる学習画像として取得する取得手段と、
    前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、前記特徴量抽出器を学習する学習手段と、
    を有し、
    前記領域集合群に含まれる領域集合それぞれは、前記入力画像内に予め設定された領域の集合であり、包含関係によって順序付けられている情報処理装置。
  2. 前記取得手段は、前記領域集合群に含まれる領域集合ごとに、前記領域集合に含まれる領域が各ピクセルのピクセル値が乱数である前記他の画像に変更された前記入力画像を、前記学習画像として取得する請求項1記載の情報処理装置。
  3. 前記取得手段は、前記領域集合群に含まれる領域集合ごとに、前記領域集合に含まれる領域が、各ピクセルのピクセル値が乱数であり、全てのピクセルのピクセル値の平均値が前記入力画像のピクセル値の平均値であり、全てのピクセルのピクセル値の分散値が前記入力画像のピクセル値の分散値である前記他の画像に変更された前記入力画像を、前記学習画像として取得する請求項1又は2記載の情報処理装置。
  4. 前記領域集合群に含まれる領域集合のうち、含まれる領域の合計の面積の最も小さい領域集合は、空集合である請求項1乃至3何れか1項記載の情報処理装置。
  5. 前記領域集合群に含まれる領域集合のうち、含まれる領域の合計の面積の最も大きい領域集合は、前記入力画像に含まれる全領域を含む請求項1乃至4何れか1項記載の情報処理装置。
  6. 前記評価関数は、類似の度合いの比較の基準となる基準画像から前記特徴量抽出器により抽出される特徴量と、前記基準画像と類似の度合いを比較する対象であり、前記基準画像との類似の度合いがそれぞれ異なる複数の比較画像それぞれから前記特徴量抽出器により抽出される特徴量と、に関する項を含む関数であり、
    前記学習手段は、前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像の中から決定された前記基準画像と前記複数の比較画像とに基づいて、前記評価関数を用いて、前記特徴量抽出器を学習する請求項1乃至5何れか1項記載の情報処理装置。
  7. 前記学習手段は、前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像のうち、含まれる領域の合計の面積の最も小さい領域集合に対して取得された学習画像を前記基準画像として、前記基準画像と前記複数の比較画像とに基づいて、前記評価関数を用いて、前記特徴量抽出器を学習する請求項6記載の情報処理装置。
  8. 前記学習手段は、前記取得手段により前記領域集合群に含まれる領域集合ごとに取得された学習画像のうち、含まれる領域の合計の面積の最も大きい領域集合に対して取得された学習画像を前記基準画像として、前記基準画像と前記複数の比較画像とに基づいて、前記評価関数を用いて、前記特徴量抽出器を学習する請求項6又は7記載の情報処理装置。
  9. 前記評価関数は、前記特徴量抽出器に入力される画像それぞれが前記特徴量抽出器に入力される際に抽出される特徴量のサイズの制約に関する項を含む関数である請求項1乃至8何れか1項記載の情報処理装置。
  10. 前記入力画像は、動画像から抽出された複数の静止画像であって、
    前記取得手段は、前記領域集合群に含まれる領域集合ごとに、前記入力画像に含まれる静止画像における前記領域集合に含まれる領域が前記静止画像と異なる前記他の画像に変更された画像を、前記特徴量抽出器の学習に用いられる学習画像として取得する請求項1乃至9何れか1項記載の情報処理装置。
  11. 前記取得手段は、複数の前記領域集合群それぞれについて、前記領域集合群に含まれる領域集合ごとに、前記入力画像における前記領域集合に含まれる領域が前記他の画像に変更された画像を、前記特徴量抽出器の学習に用いられる学習画像として取得し、
    前記学習手段は、前記取得手段により複数の前記領域集合群それぞれについて、前記領域集合群に含まれる領域集合ごとに取得された学習画像と、前記評価関数と、に基づいて、前記特徴量抽出器を学習する請求項1乃至10何れか1項記載の情報処理装置。
  12. 前記特徴量抽出器は、ニューラルネットワークである請求項1乃至11何れか1項記載の情報処理装置。
  13. 情報処理装置が実行する情報処理方法であって、
    予め定められた領域集合群に含まれる領域集合ごとに、入力画像における前記領域集合に含まれる領域が前記入力画像と異なる他の画像に変更された画像を、画像から特徴量を抽出する特徴量抽出器の学習に用いられる学習画像として取得する取得ステップと、
    前記取得ステップで前記領域集合群に含まれる領域集合ごとに取得された学習画像と、入力される画像が類似する程に値が近い特徴量を抽出する特徴量抽出器の学習に用いられる予め定められた評価関数と、に基づいて、前記特徴量抽出器を学習する学習ステップと、
    を含み、
    前記領域集合群に含まれる領域集合それぞれは、前記入力画像内に予め設定された領域の集合であり、包含関係によって順序付けられている情報処理方法。
  14. コンピュータを、請求項1乃至12何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
JP2017214064A 2017-11-06 2017-11-06 情報処理装置、情報処理方法及びプログラム Pending JP2019086979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017214064A JP2019086979A (ja) 2017-11-06 2017-11-06 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017214064A JP2019086979A (ja) 2017-11-06 2017-11-06 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019086979A true JP2019086979A (ja) 2019-06-06

Family

ID=66764229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017214064A Pending JP2019086979A (ja) 2017-11-06 2017-11-06 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2019086979A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102196874B1 (ko) * 2020-08-07 2020-12-31 주식회사 환경과학기술 위성 이미지 생성 학습 장치, 위성 이미지 생성 학습 방법, 위성 이미지 생성 장치 및 위성 이미지 생성 방법
JP2021105758A (ja) * 2019-12-26 2021-07-26 株式会社Rutilea 物品検査装置
CN114119562A (zh) * 2021-11-29 2022-03-01 青岛理工大学 一种基于深度学习的刹车盘外表面缺陷检测方法及***
CN114511112A (zh) * 2022-01-24 2022-05-17 北京通建泰利特智能***工程技术有限公司 一种基于物联网的智慧运维方法、***和可读存储介质
JPWO2022130498A1 (ja) * 2020-12-15 2022-06-23

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021105758A (ja) * 2019-12-26 2021-07-26 株式会社Rutilea 物品検査装置
KR102196874B1 (ko) * 2020-08-07 2020-12-31 주식회사 환경과학기술 위성 이미지 생성 학습 장치, 위성 이미지 생성 학습 방법, 위성 이미지 생성 장치 및 위성 이미지 생성 방법
JPWO2022130498A1 (ja) * 2020-12-15 2022-06-23
WO2022130498A1 (ja) * 2020-12-15 2022-06-23 三菱電機株式会社 類似度算出装置、類似度算出方法、及び、類似度算出プログラム
CN114119562A (zh) * 2021-11-29 2022-03-01 青岛理工大学 一种基于深度学习的刹车盘外表面缺陷检测方法及***
CN114119562B (zh) * 2021-11-29 2024-05-24 青岛理工大学 一种基于深度学习的刹车盘外表面缺陷检测方法及***
CN114511112A (zh) * 2022-01-24 2022-05-17 北京通建泰利特智能***工程技术有限公司 一种基于物联网的智慧运维方法、***和可读存储介质

Similar Documents

Publication Publication Date Title
Mukhoti et al. Evaluating bayesian deep learning methods for semantic segmentation
JP7193252B2 (ja) 画像の領域のキャプション付加
CN106973244B (zh) 使用弱监督数据自动生成图像字幕的方法和***
Fan et al. Deep learning based matrix completion
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
Deng et al. Low-rank structure learning via nonconvex heuristic recovery
JP2023549579A (ja) ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ
US11657590B2 (en) Method and system for video analysis
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
Wang et al. Substructure and boundary modeling for continuous action recognition
Xu et al. Semi-supervised multi-label feature selection by preserving feature-label space consistency
RU2742701C1 (ru) Способ интерактивной сегментации объекта на изображении и электронное вычислительное устройство для его реализации
JP2024511171A (ja) 動作認識の方法および装置
Fan et al. A hierarchical Dirichlet process mixture of generalized Dirichlet distributions for feature selection
Chen et al. Bayesian adaptive matrix factorization with automatic model selection
Xu et al. Graphical modeling for multi-source domain adaptation
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
Sonthi et al. An Intelligent Telugu Handwritten Character Recognition Using Multi-Objective Mayfly Optimization with Deep Learning–Based DenseNet Model
Tu et al. The complex action recognition via the correlated topic model
CN113255752A (zh) 基于特征聚类的固体材料一致性分选方法
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CA3066337A1 (en) Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
Zamzami et al. An accurate evaluation of msd log-likelihood and its application in human action recognition