WO2018203551A1

WO2018203551A1 - 信号検索装置、方法、及びプログラム

Info

Publication number: WO2018203551A1
Application number: PCT/JP2018/017413
Authority: WO
Inventors: 卓弘金子; 薫平松; 柏野　邦夫
Original assignee: 日本電信電話株式会社
Priority date: 2017-05-02
Filing date: 2018-05-01
Publication date: 2018-11-08
Also published as: JPWO2018203551A1; US11615611B2; US20200057913A1; JP6886120B2

Abstract

信号検索装置は、変更部と、信号検索部とを含む。変更部は、入力された信号又は信号蓄積部に蓄積されている蓄積信号が表現する対象の属性の値、又は入力された信号の信号発生源に関する属性の値を変更し、複数の変更後の属性の値を取得する。信号検索部は、変更部によって取得された複数の変更後の属性の値の各々に応じて属性が変更された入力された信号又は蓄積信号を用いて、入力された信号に類似する蓄積信号を検索する。

Description

信号検索装置、方法、及びプログラム

　本発明は、信号検索装置、方法、及びプログラムに係り、特に、類似する信号を検索するための信号検索装置、方法、及びプログラムに関する。
　本願は、２０１７年５月２日に、日本に出願された特願２０１７－０９１７４１号に基づき優先権を主張し、その内容をここに援用する。

　従来より、画像に対して特徴量抽出を行って特徴量を抽出し、特徴量に基づき画像を照合することが行われている（非特許文献１）。

　画像に対してＣＮＮ（Convolutional Neural Networks）を用いてエンコードを行う方法が知られている（非特許文献２）。

石川博、「知識の森」２群－２編－２章、電子情報通信学会、２０１２年 "Deep learning", Yann LeCun, Yoshua Bengio, and Geoffrey Hinton, Nature, Volume 521, Issue 7553, pp.436-444, 2015

　上記非特許文献１に記載の方法では、複数の画像から同一画像を検出する精度は高い。しかし、被写体が髪型を変えたり、笑ったりして属性が変化した場合、画像の特徴量は、同一の被写体の画像であっても、属性が変化する前の画像の特徴量と異なる。そのため、類似画像と認識される可能性が低下するものであった。

　本発明は、上記事情を考慮して成されたものであり、属性が変更されても類似する信号を検索することができる信号検索装置、方法、及びプログラムを提供することを目的とする。

　上記目的を達成するために、本発明に係る第１の態様における信号検索装置は、入力された信号又は信号蓄積部に蓄積されている蓄積信号が表現する対象の属性の値、又は前記入力された信号の信号発生源に関する属性の値を変更し、複数の変更後の前記属性の値を取得する変更部と、前記変更部によって取得された複数の変更後の前記属性の値の各々に応じて前記属性が変更された前記入力された信号又は前記蓄積信号を用いて、前記入力された信号に類似する前記蓄積信号を検索する信号検索部と、を含む。
　本発明に係る第２の態様によれば、第１の態様の信号検索装置において、前記信号は、画像データであり、前記属性は、前記画像データが表現する被写体の特徴を表す。

　本発明に係る第３の態様における信号検索方法では、変更部が、入力された信号又は信号蓄積部に蓄積されている蓄積信号が表現する対象の属性の値、又は前記入力された信号の信号発生源に関する属性の値を変更して、複数の変更後の前記属性の値を取得し、信号検索部が、前記変更部によって取得された複数の変更後の前記属性の値の各々に応じて前記属性が変更された前記入力された信号又は前記蓄積信号を用いて、前記入力された信号に類似する前記蓄積信号を検索する。

　本発明に係る第１、第２又は第３の態様によれば、入力された信号が表現する属性、又は入力された信号の信号発生源に関する属性の値を変更し、変更後の属性の値に基づいて属性が変更された変更後の信号を用いて、入力された信号に類似する蓄積信号を検索することにより、属性が変更されても類似する信号を検索することができる。

　本発明に係る第４の態様における信号検索装置は、入力された信号又は前記入力された信号の信号発生源に関する複数の特徴を表す複数の隠れ変数を抽出する変数抽出部と、前記抽出された前記複数の隠れ変数のうち属性を表す隠れ変数としての一部の隠れ変数の値を変更した複数の変更後の隠れ変数を取得する変更部と、前記変更部によって取得された前記複数の変更後の隠れ変数に基づいて、前記属性が変更された前記入力された信号を変更後の信号として生成する信号生成部と、前記信号生成部により生成された前記変更後の信号と、信号蓄積部に蓄積された蓄積信号の前記属性を表す隠れ変数を変更して生成された変更後の蓄積信号とに基づいて、前記変更後の信号に類似する前記変更後の蓄積信号を検索する信号検索部と、を含む。
　本発明に係る第５の態様によれば、第４の態様の信号検索装置において、前記変数抽出部は、前記複数の隠れ変数を抽出するための予め学習された第１のニューラルネットワークを用いて、前記入力された信号から前記入力された信号の前記複数の特徴を表す前記複数の隠れ変数を抽出し、前記信号生成部は、信号を生成するための予め学習された第２のニューラルネットワークを用いて、前記変更部によって取得され前記複数の変更後の隠れ変数から前記変更後の信号を生成し、前記変更後の蓄積信号は、前記信号蓄積部に蓄積された前記蓄積信号から抽出された複数の隠れ変数のうち前記属性を表す隠れ変数の値を変更した複数の変更後の隠れ変数から前記第２のニューラルネットワークを用いて生成され、前記信号検索部は、前記信号生成部により生成された前記変更後の信号と、前記変更後の蓄積信号とを比較して、前記変更後の信号に類似する前記変更後の蓄積信号を検索する。

　本発明に係る第６の態様における信号検索方法では、変数抽出部が、入力された信号又は前記入力された信号の信号発生源に関する複数の特徴を表す複数の隠れ変数を抽出し、変更部が、前記抽出された複数の隠れ変数のうち属性を表す隠れ変数としての一部の隠れ変数の値を変更した複数の変更後の隠れ変数を複数取得し、信号生成部が、前記変更部によって取得された前記複数の変更後の隠れ変数に基づいて、前記属性が変更された前記入力された信号を変更後の信号として生成し、信号検索部が、前記信号生成部により生成された前記変更後の信号と、信号蓄積部に蓄積された蓄積信号の前記属性を表す隠れ変数を変更して生成された変更後の蓄積信号とに基づいて、前記変更後の信号に類似する前記変更後の蓄積信号を検索する。

　本発明に係る第４、第５又は第６の態様によれば、入力された信号又は入力された信号の信号発生源に関する複数の特徴を表す複数の隠れ変数を抽出し、抽出された属性を表す複数の隠れ変数を変更し、変更後の属性を表す隠れ変数に基づいて属性が変更された変更後の信号に類似する信号を、属性が変更された変更後の蓄積信号から検索することにより、属性が変更されても類似する信号を検索することができる。

　本発明に係る第７の態様におけるプログラムは、コンピュータを、第１、第２、第４及び第５の態様のうち何れかの信号検索装置として機能させるためのプログラムである。

　本発明の信号検索装置、方法、及びプログラムによれば、属性が変更されても類似する信号を検索することができる、という効果が得られる。

本発明の第１の実施の形態におけるエンコーダの概念図である。第１の実施の形態における生成器の概念図である。第１の実施の形態における生成器及び識別器を学習する方法を説明するための図である。第１及び第２の実施の形態に係る信号検索装置の構成を示すブロック図である。第１及び第２の実施の形態に係る信号検索装置における学習処理ルーチンを示すフローチャートである。第１及び第２の実施の形態に係る信号検索装置における検索処理ルーチンを示すフローチャートである。第２の実施の形態における生成器、識別器、及び近似分布の概念図である。第２の実施の形態における生成器の概念図である。第２の実施の形態における学習部が備える構成の一例を示す図である。

　以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の第１の実施の形態に係る概要＞
　まず、本発明の第１の実施の形態における概要を説明する。

　人物のポートレート画像として世の中には多様な画像データが存在する。例えば、様々な顔の向き、様々な照明条件、様々な年齢、様々な表情などの画像データが存在する。

　そこで、第１の実施の形態における信号検索装置は、画像をそのまま検索に用いるのではなく、図１に示すようなニューラルネットワークＥを用いて、画像から複数の隠れ変数を抽出し、隠れ変数の値を変更して得られた画像をもとに画像を検索する。画像の隠れ変数は、画像を表現するのに有用なエッセンスのようなものであり、画像の特徴を示す。図１に例示されるエンコーダ１におけるニューラルネットワークＥは、２層のネットワークを有し、入力される画像データｘから隠れ変数ｚ_ｉ、ｚ_ａを算出する。

　また、画像における被写体の特徴を示す一つの属性の中にも多様性が存在する。例えば、一言に「前髪」と言っても様々な形状が存在する。

　そこで、第１の実施の形態では、図２に示すように、生成器２が、生成する画像の各属性を複数の隠れ変数で表現する。具体的には、複数の隠れ変数を個体性と属性とに分離することで、生成器２により生成される画像の属性をコントロールしやすくする。生成器２は、各属性を複数の隠れ変数で表現することにより、十分な表現能力を得る。属性が離散的な値で表現される場合、属性が取り得る離散的な値で定められた区間における任意の値を取り得る連続値で隠れ変数を表現してもよい。連続値を有する隠れ変数で各属性を表現することにより、生成器２は、十分な表現能力を得る。同様に、属性がある分布で表現される場合、それよりもより詳細な分布で隠れ変数を表現してもよい。より詳細な分布に従う隠れ変数で各属性を表現することにより、生成器２は、十分な表現能力を得る。
　図２に例示される生成器２は、２層のネットワークからなるニューラルネットワークＧを有し、入力される隠れ変数ｚ_ｉ、ｚ_ａと属性ベクトルｙとに基づいて画像データＧ（ｚ_ｉ，ｚ_ａ，ｙ）を生成する。図２において、ｆ_ｙは、隠れ変数ｚ_ａの変換に用いられるフィルタ関数である。画像の属性は、複数の隠れ変数のうち属性ベクトルｙにより制約が付与される隠れ変数ｚ_ａで示される。画像の個体性は、複数の隠れ変数のうち属性ベクトルｙにより制約が付与されない隠れ変数ｚ_ｉで示される。属性ベクトルｙは、少なくとも１つの属性の有無又はその度合いを示す。

　エンコーダ１及び生成器２におけるニューラルネットワークＥ、Ｇの構造を愚直に学習しようとする場合、真のデータと、エンコーダ１及び生成器２を介して生成されたデータとの誤差が小さくなるようにエンコーダ１及び生成器２におけるニューラルネットワークＥ、Ｇの学習が行われる。このとき、隠れ変数ｚと、属性ベクトルｙとの二つがそれぞれ何を表すかについて明確な制約を与えられない。

　そこで、第１の実施の形態では、図３に示すように、生成器２の学習時にＣＦＧＡＮ（Conditional Filtered Generative Adversarial Networks）を一緒に学習する。ＣＦＧＡＮは、あるデータ分布から生成した隠れ変数ｚに基づいて生成する画像に対して、属性ベクトルｙに応じた制約を付与する。画像には、ある属性の有無又はその度合いを示す値に対する制約が付与される。識別器３は、属性ベクトルｙが表す各属性に対する制約の下で、生成された画像が真の画像と同一の分布に従うか否かを識別する。これにより、様々な隠れ変数ｚ_ｉ、ｚ_ａが個体性、属性をそれぞれ表現するように制約を与えることができる。生成された画像が真の画像と同一の分布に従うとは、生成された画像が真の画像として識別されることを意味する。真の画像は、学習に用いられる画像であり、例えば予め定められた複数の画像を含む。

　第１の実施の形態では、画像の属性を変更する際に、個体性を保持したまま属性を変更する。

＜本発明の第１の実施の形態に係る信号検索装置の構成＞

　次に、本発明の第１の実施の形態に係る信号検索装置の構成について説明する。図４に示すように、本発明の第１の実施の形態に係る信号検索装置１００は、入力部１０と、演算部２０と、出力部９０とを備えている。信号検索装置１００は、ＣＰＵ（central processing unit）とＲＡＭ（random access memory）とＲＯＭ（read only memory）とを含むコンピュータで構成してもよい。ＣＰＵは、ＲＯＭに記憶された後述する学習処理ルーチン及び検索処理ルーチンを実行するためのプログラムと各種データとをＲＡＭに読み出し、プログラムを実行することにより入力部１０、演算部２０及び出力部９０として動作してもよい。

　入力部１０は、画像データｘ及び属性ベクトルｙのペアを含む複数の学習データを受け付ける。入力部１０は、検索対象となる複数の蓄積画像データと、検索のための変更対象となる画像データｘとを受け付ける。属性ベクトルｙは、例えば属性の有無や正負を表すが、特にこれらに限定されない。信号検索装置１００は、検索のための変更対象となる画像データｘに類似する画像データを、複数の蓄積画像データに基づいて検索する。

　演算部２０は、学習部３０と、ニューラルネットワーク記憶部４０と、予測部４２と、変数抽出部４４と、変更部４６と、信号生成部４８と、信号蓄積部４９と、予測部５０と、変数抽出部５２と、変更部６２と、信号生成部６４と、信号検索部６５と、類似信号出力部６６とを含んで構成されている。

　学習部３０は、生成器２として動作するニューラルネットワークＧ（第１のニューラルネットワーク）と、識別器３として動作するニューラルネットワークＤ（第２のニューラルネットワーク）と、エンコーダ１として動作するニューラルネットワークＥとを有する。２つのニューラルネットワークＧ、Ｄは、入力部１０に入力された複数の学習データに基づいて、互いに競合する最適化条件に従って学習する。ニューラルネットワークＧは、あるデータ分布から生成された個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａ’とを入力し、個体性を表す隠れ変数ｚ_ｉ及び各属性を表す隠れ変数ｚ_ａ’から、画像データを生成する。ニューラルネットワークＤは、ニューラルネットワークＧにより生成された画像データと、真の画像データと、画像データの各属性を表す属性ベクトルｙとを入力し、生成された画像データが属性ベクトルｙの下で真の画像データと同一の分布に従うか否かを識別する。すなわち、ニューラルネットワークＤは、生成された画像データが真の画像データであるか否かを識別する。真の画像データは、複数の学習データに含まれる画像データである。
　各属性を表す隠れ変数ｚ_ａ’は、属性ベクトルｙの値により、各属性を表す隠れ変数ｚ_ａを変換することにより得られる。変換の一例としては、属性ベクトルｙが属性の有無を表す場合に、生成された各属性を表す隠れ変数ｚ_ａと属性ベクトルｙとを掛け合わせることが考えられる。式（１）は、この場合の変換の一例を示す。

　あるいは、属性ベクトルｙが属性の正負を表す場合に、生成された各属性を表す隠れ変数ｚ_ａに対して、属性ベクトルｙに応じて正負を与えることが考えられる。式（２）は、この場合の変換の一例を示す。

　学習部３０は、学習データに含まれる画像データｘと属性ベクトルｙとを入力し、個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａとをあるデータ分布から生成する。画像データｘが、顔画像データである場合には、属性ベクトルｙが、「メガネ」、「化粧」、「髭」、「前髪」の各々の有無や、「男性／女性」、「笑顔でない／笑顔」、「老けている／若い」の区別を表す。属性を表す隠れ変数ｚ_ａが、各属性の多様性を表す。属性ベクトルｙが「メガネ」の有無を表す場合、属性の多様性は、例えば、メガネの形状及び色を表す。学習部３０は、個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａとを乱数を用いて生成してもよい。
　属性を表す隠れ変数ｚ_ａが離散的である場合、学習部３０は、式（３）に従って、属性を表す隠れ変数ｚ_ａを生成する。

　式（３）において、ｋは、カテゴリ数（離散的な値の数）を表す。また、Ｃａｔは、カテゴリ数Ｋの各カテゴリを示す値からなる分布であり、ｐは確率である。
　属性を表す隠れ変数ｚ_ａが連続的である場合には、学習部３０は、式（４）に従って、属性を表す隠れ変数ｚ_ａを生成する。

　式（４）において、Ｕｎｉｆ（－１，１）は、値の範囲を－１から１までとした一様分布である。
　なお、他の分布に従う隠れ変数ｚ_ａや変換を採用することができる。例えば、隠れ変数ｚ_ａの分布として、一様分布（Ｕｎｉｆ（－１，１））ではなく、正規分布を用いることが可能である。隠れ変数ｚ_ａの値の範囲を変更することも可能である。
　属性を表す隠れ変数ｚ_ａの生成方法は、これらに限定されず、ガウシアン分布やディリクレ分布など任意の分布から隠れ変数ｚ_ａを生成してもよい。ある乱数から生成された値を、別のニューラルネットワークで変換したものを隠れ変数ｚａとして用いてもよい。

　学習部３０は、生成された個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａ’とから、生成器２としてのニューラルネットワークＧを用いて、画像データを生成する。生成器２としてのニューラルネットワークＧの入力となる各属性を表す隠れ変数ｚ_ａ’は、属性ベクトルｙの値により、各属性を表す隠れ変数ｚ_ａを変換することにより得られる。

　生成器２としてのニューラルネットワークＧの学習において、学習部３０は、生成された画像データを属性ベクトルｙの下で真の画像データと同一の分布に従うと識別器３が識別するように、生成器２としてのニューラルネットワークＧのパラメータを更新する。すなわち、生成される画像を真の画像データであると識別器３が識別するように、ニューラルネットワークＧのパラメータが更新される。

　識別器３としてのニューラルネットワークＤの学習において、学習部３０は、生成器２により生成された画像データを属性ベクトルｙの下で真の画像データｘと同一の分布に従わないと識別器３が識別し、かつ、真の画像データｘに含まれる各画像データを真の画像データｘと同一の分布に従うと識別器３が識別するように、識別器３としてのニューラルネットワークＤのパラメータを更新する。

　なお、生成器２としてのニューラルネットワークＧと、識別器３としてのニューラルネットワークＤとが、学習において互いに競合する最適化条件は、式（５）で表される。

　式（５）に含まれ、式（６－１）～（６－４）で示される動作は、次の通りである。式（６－１）の動作は、学習データから、真の画像データｘと属性ベクトルｙをサンプリングすることを表す。式（６－２）の動作は、個体性を表す隠れ変数ｚ_ｉを、あるデータ分布から生成することを表す。例えば、個体性を表す隠れ変数ｚ_ｉを、乱数で生成する。式（６－３）の動作は、属性を表す隠れ変数ｚ_ａを、あるデータ分布から生成することを表す。例えば、属性を表す隠れ変数ｚ_ａを、乱数で生成する。式（６－４）の動作は、学習データから、属性ベクトルｙをサンプリングすることを表す。

　学習部３０は、上記の処理を、学習データ毎に行って、生成器２としてのニューラルネットワークＧのパラメータと、識別器３としてのニューラルネットワークＤのパラメータとを繰り返し交互に更新する。

　最終的に得られた、生成器２としてのニューラルネットワークＧと、識別器３としてのニューラルネットワークＤとは、ニューラルネットワーク記憶部４０に記憶される。

　学習部３０は、入力された学習データに含まれる画像データｘから、エンコーダ１としてのニューラルネットワークＥを用いて、個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａを抽出する。

　学習部３０は、抽出された個体性を表す隠れ変数ｚ_ｉと、各属性を表す隠れ変数ｚ_ａ’とから、生成器２としてのニューラルネットワークＧを用いて、画像データを生成する。このとき、各属性を表す隠れ変数ｚ_ａ’は、属性ベクトルｙの値により、エンコーダ１としてのニューラルネットワークＥが出力する各属性を表す隠れ変数ｚ_ａを変換することにより得られる。変換の一例としては、エンコーダ１としてのニューラルネットワークＥが出力する各属性を表す隠れ変数ｚ_ａと属性ベクトルｙとを掛け合わせることが考えられる。

　エンコーダ１としてのニューラルネットワークＥの学習において、学習部３０は、生成された画像データが元の画像データｘと同じになる制約を満たすように、エンコーダ１としてのニューラルネットワークＥのパラメータを更新する。

　学習部３０は、上記の処理を、学習データ毎に行って、エンコーダ１のニューラルネットワークＥのパラメータを繰り返し更新する。

　最終的に得られたエンコーダ１としてのニューラルネットワークＥは、ニューラルネットワーク記憶部４０に記憶される。

　予測部４２は、入力部１０で受け付けた蓄積画像データの各々に対し、当該蓄積画像データを、属性ベクトルｙを予測するための予測器（図示せず）としての予め学習されたニューラルネットワーク（例えば、ＣＮＮ）に入力し、属性ベクトルｙを予測する。

　予測器としてのニューラルネットワークは、属性ベクトルｙを出力する。属性ベクトルｙは、例えば、各属性の有無又は正負の分類である。しかし、属性ベクトルｙは、特にこれらに限定されない。

　変数抽出部４４は、複数の蓄積画像データを入力とし、ニューラルネットワーク記憶部４０に記憶された、エンコーダ１としてのニューラルネットワークＥを用いて、各蓄積画像データの個体性を表す隠れ変数ｚ_ｉ及び各属性を表す隠れ変数ｚ_ａを抽出する。変数抽出部４４は、抽出された各属性を表す隠れ変数ｚ_ａと、予測部４２によって予測された属性ベクトルｙとに基づいて、各属性を表す隠れ変数ｚ_ａ’を求める。このとき、各属性を表す隠れ変数ｚ_ａ’は、予測部４２によって予測された属性ベクトルｙの値により、変数抽出部４４によって抽出された各属性を表す隠れ変数ｚ_ａを変換することにより得られる。変換の一例としては、各属性を表す隠れ変数ｚ_ａと属性ベクトルｙとを掛け合わせることが考えられる。各属性を表す隠れ変数ｚ_ａは、属性毎に複数の隠れ変数を有しているため、属性ベクトルｙの要素は、属性に対応する複数の隠れ変数の全てに掛け合わされる。

　変更部４６は、各属性を表す隠れ変数ｚ_ａ’に含まれる隠れ変数のうち、変更対象の属性を表す隠れ変数の値を変更し、変更対象の属性を表す隠れ変数の値を変更した各属性を表す隠れ変数ｚ_ａ’を複数取得する。変更部４６は、乱数を用いて変更対象の属性を表す隠れ変数の値を変更してもよい。あるいは、変更部４６は、変更対象の属性を表す隠れ変数の値が連続値である場合には、連続的に隠れ変数の値を変更してもよいし、変更対象の属性を表す隠れ変数の値が離散値（カテゴリ値）である場合には、各離散値を用いて隠れ変数ｚ_ａ’の値を変更してもよい。

　変更部４６は、変数抽出部４４によって求められた各属性を表す隠れ変数ｚ_ａ’のうち、変更対象の属性を表す隠れ変数の値を、変更後の隠れ変数の値で置き換えることにより、変更後の各属性を表す隠れ変数ｚ_ａ’を複数求める。

　また、変更対象の属性が複数ある場合には、変更部４６は、変更対象の属性の各々に対して、上述した処理を繰り返して、変更後の各属性を表す隠れ変数ｚ_ａ’を複数求める。

　信号生成部４８は、変更部４６によって得られた変更後の各属性を表す隠れ変数ｚ_ａ’毎に、変数抽出部４４によって抽出された個体性を表す隠れ変数ｚ_ｉと、当該変更後の各属性を表す隠れ変数ｚ_ａ’とから、ニューラルネットワーク記憶部４０に記憶された、生成器２としてのニューラルネットワークＧを用いて、変更後の蓄積画像データを生成する。すなわち、信号生成部４８は、蓄積画像データから抽出された各属性を表す隠れ変数ｚ_ａ’の値を変更して得られる隠れ変数ｚ_ａ’ごとに画像データを生成する。蓄積画像データごとに生成される複数の画像データ（変更後の蓄積画像データ）は、予測された属性ベクトルｙで表される属性について多様性を有する画像データである。

　信号蓄積部４９は、信号生成部４８により蓄積画像データの各々に対して生成された複数の変更後の蓄積画像データを記憶する。信号蓄積部４９に蓄積される変更後の蓄積画像データそれぞれは、属性を表現する隠れ変数ｚ_ａ’を変更することにより得られる画像データである。

　予測部５０は、入力部１０で受け付けた変更対象の画像データを、属性ベクトルｙを予測するための予測器としての予め学習されたニューラルネットワークに入力し、変更対象の画像データの属性ベクトルｙを予測する。変更対象の画像データは、複数の蓄積画像データから類似する画像データを検索する際に用いられる画像データである。

　変数抽出部５２は、入力された変更対象の画像データｘを入力とし、ニューラルネットワーク記憶部４０に記憶された、エンコーダ１としてのニューラルネットワークＥを用いて、変更対象の画像データｘの個体性を表す隠れ変数ｚ_ｉ及び各属性を表す隠れ変数ｚ_ａを抽出する。変数抽出部５２は、抽出された各属性を表す隠れ変数ｚ_ａと、予測部５０によって予測された属性ベクトルｙとに基づいて、各属性を表す隠れ変数ｚ_ａ’を求める。このとき、各属性を表す隠れ変数ｚ_ａ’は、予測部５０によって予測された属性ベクトルｙの値により、変数抽出部５２によって抽出された各属性を表す隠れ変数ｚ_ａを変換することにより得られる。

　変更部６２は、変更部４６と同様に、各属性を表す隠れ変数ｚ_ａ’に含まれる隠れ変数のうち、変更対象の属性を表す隠れ変数の値を変更し、変更対象の属性を表す隠れ変数の値を変更した各属性を表す隠れ変数ｚ_ａ’を複数取得する。

　変更部６２は、変数抽出部５２によって求められた各属性を表す隠れ変数ｚ_ａ’に含まれる隠れ変数のうち、変更対象の属性を表す隠れ変数の値を、変更後の値で置き換えることにより、変更対象の属性を表す隠れ変数の値を変更する。変更部６２は、変更対象の属性を表す隠れ変数の値を変更した各属性を表す隠れ変数ｚ_ａ’を複数求める。

　また、変更対象の属性が複数ある場合には、変更部６２は、変更対象の属性の各々に対して、上述した処理を繰り返して、変更後の各属性を表す隠れ変数ｚ_ａ’を複数求める。

　信号生成部６４は、変更部６２によって得られた変更後の各属性を表す隠れ変数ｚ_ａ’毎に、変数抽出部５２によって抽出された個体性を表す隠れ変数ｚ_ｉと、当該変更後の各属性を表す隠れ変数ｚ_ａ’とから、ニューラルネットワーク記憶部４０に記憶された、生成器２としてのニューラルネットワークＧを用いて、変更後の画像データを生成する。すなわち、信号生成部６４は、変更対象の画像データｘから抽出された隠れ変数ｚ_ａ’の値を変更して得られる隠れ変数ｚ_ａ’ごとに画像データを生成する。変更対象の画像データｘから生成される複数の画像データは、予測された属性ベクトルｙで表される属性について多様性を有する画像データである。

　信号検索部６５は、信号生成部６４によって生成された変更後の画像データの各々と信号蓄積部４９に記憶された、変更後の蓄積画像データの各々とを比較して、信号生成部６４によって生成された変更後の画像データに類似する、変更後の蓄積画像データを検索する。画像データ同士を比較する際には、既知の画像データの特徴量を比較して得られる類似度を用いればよい。信号検索部６５は、変更後の画像データに対する類似度が閾値以上となる変更後の蓄積画像データを、検索結果として出力すればよい。信号検索部６５は、検索結果を類似度順にソートして、検索結果をランキング形式で出力してもよい。

　類似信号出力部６６は、出力部９０により、信号検索部６５によって検索された変更後の蓄積画像データを検索結果として表示する。出力部９０は、信号検索部６５から出力される検索結果に含まれる変更後の蓄積画像データを外部の装置へ出力してもよい。

＜本発明の第１の実施の形態に係る信号検索装置の作用＞
　本発明の第１の実施の形態に係る信号検索装置１００の作用について説明する。信号検索装置１００は、以下に説明する学習処理ルーチンと検索処理ルーチンとを実行する。

　学習処理ルーチンについて説明する。入力部１０において学習データとして、画像データｘと属性ベクトルｙとのペアを複数受け付けると、信号検索装置１００は、図５に示す学習処理ルーチンを実行する。

　ステップＳ１００では、学習部３０が、入力部１０で受け付けた複数の学習データのうちの何れか一つを取得する。

　ステップＳ１０２では、学習部３０が、あるデータ分布から個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａとを生成する。

　ステップＳ１０４では、学習部３０が、ステップＳ１００で取得した学習データに含まれる属性ベクトルｙの値により、ステップＳ１０２で生成された各属性を表す隠れ変数ｚ_ａを変換することにより、各属性を表す隠れ変数ｚ_ａ’を求める。

　ステップＳ１０６では、学習部３０が、ステップＳ１０２で生成された個体性を表す隠れ変数ｚ_ｉと、Ｓ１０４で求められた各属性を表す隠れ変数の変換結果ｚ_ａ’とから、生成器２としてのニューラルネットワークＧを用いて、画像データｘ^ｐを生成する。

　ステップＳ１０８では、学習部３０が、ステップＳ１０２で生成された個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａと、生成された画像データと、ステップＳ１０６で生成された画像データｘ^ｐと、ステップＳ１００で得た学習データに含まれる画像データｘ及び属性ベクトルｙとに基づいて、生成器２としてのニューラルネットワークＧのパラメータ、及び識別器３としてのニューラルネットワークＤのパラメータを更新する。

　ステップＳ１１０では、学習部３０が、全ての学習データについて、ステップＳ１００～Ｓ１０８の処理を実行したか否かを判定する。ステップＳ１００～Ｓ１０８の処理に使用されていない学習データが存在する場合、学習部３０は、ステップＳ１００へ戻り、当該学習データを取得する。全ての学習データがステップＳ１００～Ｓ１０８の処理に使用されている場合には、学習部３０は、最終的に得られた、生成器２としてのニューラルネットワークＧのパラメータ、及び識別器３としてのニューラルネットワークＤのパラメータを、ニューラルネットワーク記憶部４０に格納する。

　ステップＳ１１２では、学習部３０が、入力部１０で受け付けた複数の学習データのうちの何れか一つを取得する。

　ステップＳ１１４では、学習部３０が、ステップＳ１１２で得た学習データに含まれる画像データｘと属性ベクトルｙとから、エンコーダ１としてのニューラルネットワークＥを用いて、個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａとを抽出する。学習部３０は、抽出された個体性を表す隠れ変数ｚ_ｉと、各属性を表す隠れ変数ｚ_ａ’とから、生成器２としてのニューラルネットワークＧを用いて、画像データを生成する。このとき、各属性を表す隠れ変数ｚ_ａ’は、当該画像データｘに対応する属性ベクトルｙの値により、抽出された各属性を表す隠れ変数ｚ_ａを変換することにより得られる。

　ステップＳ１１６では、学習部３０が、生成された画像データと、ステップＳ１１２で得た学習データに含まれる画像データｘとに基づいて、エンコーダ１としてのニューラルネットワークＥのパラメータを更新する。

　ステップＳ１１８では、学習部３０が、全ての学習データについて、ステップＳ１１２～Ｓ１１６の処理を実行したか否かを判定する。ステップＳ１１２～Ｓ１１６の処理に使用されていない学習データが存在する場合、学習部３０は、ステップＳ１１２へ戻り、当該学習データを取得する。全ての学習データがステップＳ１１２～Ｓ１１６の処理に使用されている場合には、学習部３０は、学習処理ルーチンを終了する。学習部３０は、最終的に得られたエンコーダ１としてのニューラルネットワークＥのパラメータを、ニューラルネットワーク記憶部４０に格納する。

　入力部１０において複数の蓄積画像データを受け付けると、予測部４２が、入力部１０で受け付けた蓄積画像データの各々を、属性ベクトルｙを予測するための予測器としての予め学習されたニューラルネットワークに入力し、各蓄積画像データの属性ベクトルｙを予測する。

　変数抽出部４４が、ニューラルネットワーク記憶部４０に記憶された、エンコーダ１としてのニューラルネットワークＥを用いて、各蓄積画像データの個体性を表す隠れ変数ｚ_ｉ及び各属性を表す隠れ変数ｚ_ａを抽出する。変数抽出部４４が、抽出された各属性を表す隠れ変数ｚ_ａと、予測部４２によって予測された属性ベクトルｙとに基づいて、各属性を表す隠れ変数ｚ_ａ’を求める。

　変更部４６は、各蓄積画像データから得られた各属性を表す隠れ変数ｚ_ａ’に含まれる隠れ変数のうち変更対象の属性を表す隠れ変数の値を変更し、変更対象の属性を表す隠れ変数の値を変更した各属性を表す隠れ変数ｚ_ａ’を複数取得する。変更部４６は、蓄積画像データごとに、変更後の各属性を表す隠れ変数ｚ_ａ’を複数得る。

　信号生成部４８は、変更部４６によって得られた変更後の各属性を表す隠れ変数ｚ_ａ’毎に、変数抽出部４４によって抽出された個体性を表す隠れ変数ｚ_ｉと、当該変更後の各属性を表す隠れ変数ｚ_ａ’とから、ニューラルネットワーク記憶部４０に記憶された、生成器２としてのニューラルネットワークＧを用いて、変更後の蓄積画像データを生成する。

　信号蓄積部４９に、信号生成部４８により蓄積画像データの各々に対して生成された複数の変更後の蓄積画像データが記憶される。信号蓄積部４９に記憶される複数の変更後の蓄積画像データは、各蓄積画像データから予測された属性ベクトルｙが表す属性について多様性を有する。

　検索処理ルーチンについて説明する。入力部１０において変更対象となる画像データを受け付けると、信号検索装置１００は、図６に示す検索処理ルーチンを実行する。

　ステップＳ１５２では、予測部５０が、入力部１０で受け付けた変更対象となる画像データに基づいて、予め学習された予測器としてのニューラルネットワークを用いて、属性ベクトルｙを予測する。

　ステップＳ１５４では、変数抽出部５２が、入力部１０で受け付けた変更対象となる画像データから、ニューラルネットワーク記憶部４０に記憶された、エンコーダ１としてのニューラルネットワークＥを用いて、個体性を表す隠れ変数ｚ_ｉと各属性を表す隠れ変数ｚ_ａを抽出する。変数抽出部５２が、抽出された各属性を表す隠れ変数ｚ_ａと、上記ステップＳ１５２で予測された属性ベクトルｙとに基づいて、各属性を表す隠れ変数ｚ_ａ’を求める。このとき、各属性を表す隠れ変数ｚ_ａ’は、予測された属性ベクトルｙの値により、抽出された各属性を表す隠れ変数ｚ_ａを変換することにより得られる。

　ステップＳ１６０では、変更部６２が、ステップＳ１５４で得られた各属性を表す隠れ変数ｚ_ａ’ に含まれる隠れ変数のうち、変更対象の属性を表す隠れ変数の値を変更し、変更対象の属性を表す隠れ変数の値が変更された各属性を表す隠れ変数ｚ_ａ’を複数取得する。

　ステップＳ１６２では、信号生成部６４が、ステップＳ１６０で得られた変更後の各属性を表す隠れ変数ｚ_ａ’毎に、ステップＳ１５４で抽出された個体性を表す隠れ変数ｚ_ｉと、当該変更後の各属性を表す隠れ変数ｚ_ａ’とから、ニューラルネットワーク記憶部４０に記憶された、生成器２としてのニューラルネットワークＧを用いて、変更後の画像データを生成する。信号生成部６４により生成される複数の変更後の画像データは、ステップＳ１５２において予測された属性ベクトルｙが示す属性について多様性を有する。

　ステップＳ１６３では、信号検索部６５が、ステップＳ１６２で生成された変更後の画像データの各々と信号蓄積部４９に記憶された複数の変更後の蓄積画像データの各々とを比較して、生成された変更後の画像データに類似する、変更後の蓄積画像データを検索する。

　ステップＳ１６４で、類似信号出力部６６が、出力部９０により、ステップＳ１６３で検索された変更後の蓄積画像データを検索結果として表示し、検索処理ルーチンを終了する。

　以上説明したように、本発明の第１の実施の形態に係る信号検索装置は、検索のための変更対象の画像データの、個体性を表す隠れ変数と、各属性を表す隠れ変数とを抽出する。信号検索装置は、抽出された各属性を表す隠れ変数を変更し、変更後の属性を表す隠れ変数に基づいて属性が変更された変更後の画像データに類似する画像データを、属性が変更された変更後の蓄積画像データから検索する。前述の動作を含む信号検索方法を行うことにより、信号検索装置は、属性が変更されても類似する画像データを検索することができる。すなわち、信号検索装置は、検索のための変更対象の画像データに含まれる属性と異なる属性を蓄積画像データ又は変更後の蓄積画像データが有していても、蓄積画像データ又は変更後の蓄積画像データから画像データに類似する画像を検索できる。

　信号検索装置は、エンコーダ１としてのニューラルネットワークＥを用いて、入力された画像データの隠れ変数を抽出し、抽出された隠れ変数の値を変更する。信号検索装置は、変更された隠れ変数から、生成器２としてのニューラルネットワークＧを用いて、画像データを生成することにより、属性を変更した画像データを生成することができる。例えば、メガネに関する属性だけを変えたい場合は、信号生成部への入力において、個体性を表す隠れ変数ｚ_ｉを固定して、属性を多次元で表す隠れ変数ｚ_ａの各次元をインタラクティブに変更すればよい。属性を維持したまま個体性だけを変えたい場合は、信号生成部の入力において、各属性を表す隠れ変数ｚ_ａを固定して、個体性を表す隠れ変数ｚ_ｉを変更すればよい。

　本発明の第１の実施の形態に係る信号検索装置は、属性毎に、複数の隠れ変数を有するため、属性の多様性を表現することができる。また、信号検索装置は、一つの属性に対する複数の隠れ変数のうちの一つの隠れ変数の値だけをコントロールすることができる。

　本発明の第１の実施の形態に係る信号検索装置は、画像データにおける個体性を表す隠れ変数、及び各属性を表す隠れ変数を生成する。信号検索装置は、入力された学習データに含まれる真の画像データと、生成された個体性を表す隠れ変数、及び各属性を表す隠れ変数とに基づいて、画像を生成する生成器２としてのニューラルネットワークＧと、生成された画像データが、属性ベクトルの下での真の画像データと同一の分布に従うか否かを識別する識別器３としてのニューラルネットワークＤとを、互いに競合する最適化条件に従って学習させる。上述の動作を含む学習処理ルーチンを行うことにより、信号検索装置は、画像の属性を制御しつつ、画像データを生成することができる生成器２としてのニューラルネットワークＧを学習することができる。

　第１の実施の形態において、学習部３０が、互いに競合する最適化条件に従って、生成器２としてのニューラルネットワークＧと、識別器３としてのニューラルネットワークＤとを学習する場合を例に説明したが、これに限定されない。例えば、各隠れ変数が独立なものを表現するように制約を更に設けてもよい。具体的には、式（７）に示す、隠れ変数ｚ_ａ’と、隠れ変数ｚ_ａ’から生成された画像データとの相関（情報量）が大きくなるように制約を更に設ける。

　式（７）において、Ｉ（ｚ_ａ’；Ｇ（ｚ_ｉ，ｚ_ａ，ｙ）｜ｙ）は、属性ベクトルｙの下において生成される画像と、各属性を表す隠れ変数ｚ_ａ’との相互情報量を表す。Ｈ（ｚ_ａ’｜ｙ）、Ｈ（ｚ_ａ’｜Ｇ（ｚ_ｉ，ｚ_ａ，ｙ），ｙ）は、条件付きエントロピーを表す。Ｅは期待値を表す。Ｄ_ＫＬは、ＫＬ（Kullback-Leibler）ダイバージェンスを表す。Ｐ（ｚ_ａ’｜ｘ，ｙ）は学習データに含まれる真の画像データｘ及び属性ベクトルｙが与えられたときの各属性を示す隠れ変数ｚ_ａ’の分布を表す。＾ｚ_ａ’（＾はｚ_ａの上に付される）は、Ｐ（ｚ_ａ’｜ｘ，ｙ）の分布に従って得られた隠れ変数である。
　Ｐ（ｚ_ａ’｜ｘ，ｙ）は未知であるため、上記の情報量Ｉを直接求めることは困難である。そのため、上記のように近似分布Ｑ（ｚ_ａ’｜ｘ，ｙ）を導入する。学習部３０は、変分法を使い、情報量Ｉの下限を最大化するように、近似分布Ｑ（ｚ_ａ’｜ｘ，ｙ）を推定するニューラルネットワークＱを学習すると共に、互いに競合する最適化条件の最適化を行う。これにより、属性「メガネ」に対する複数の隠れ変数が隠れ変数ｚ_ａ ^１と隠れ変数ｚ_ａ ^２とを含み、かつ、属性「メガネ」に対する隠れ変数ｚ_ａ ^１がサングラスを表す場合に、隠れ変数ｚ_ａ ^２がサングラス以外のメガネを表現するようになる。

　第１の実施の形態では、エンコーダ１としてのニューラルネットワークＥが、属性を表す隠れ変数ｚ_ａと個体性を表す隠れ変数ｚ_ｉを同時に推定する場合を例に説明した。しかし、隠れ変数の推定方法は、これに限定されるものではない。例えば、エンコーダ１としてのニューラルネットワークＥが、属性を表す隠れ変数ｚ_ａではなく、属性を表す隠れ変数ｚ_ａ’を直接推定することにより、属性を表す隠れ変数ｚ_ａ’と個体性を表す隠れ変数ｚ_ｉとを同時に推定するようにしてもよい。

　生成器２としてのニューラルネットワークＧの学習の際に、近似分布Ｑ（ｚ_ａ’｜ｘ，ｙ）を推定するニューラルネットワークＱを一緒に学習した場合は、学習部３０は、この近似分布を推定するニューラルネットワークＱを用いて、属性を表す隠れ変数ｚ_ａ’を推定するようにしてもよい。更に、エンコーダ１としてのニューラルネットワークＥは、個体性を表す隠れ変数ｚ_ｉだけを推定するようにしてもよい。

　エンコーダ１としてのニューラルネットワークＥを使わずに、生成器２としてのニューラルネットワークＧに任意の個体性を表す隠れ変数ｚ_ｉを入力し、生成器２としてのニューラルネットワークＧの出力が目的画像ｘに近づくように勾配法で個体性を表す隠れ変数ｚ_ｉを更新していくことで、最適な個体性を表す隠れ変数ｚ_ｉを求めるようにしてもよい。また、エンコーダ１としてのニューラルネットワークＥで、属性を表す隠れ変数ｚ_ａ’と個体性を表す隠れ変数ｚ_ｉとを求めた後、これらを初期値にして、生成器２としてのニューラルネットワークＧに個体性を表す隠れ変数ｚ_ｉを入力し、生成器２としてのニューラルネットワークＧの出力が目的画像ｘに近づくように勾配法で個体性を表す隠れ変数ｚ_ｉを更新していくことで、最適な個体性を表す隠れ変数ｚ_ｉを求めるようにしてもよい。また、エンコーダ１としてのニューラルネットワークＥ、または、予測器としてのニューラルネットワークを、生成器２としてのニューラルネットワークＧ及び識別器３としてのニューラルネットワークＤと一緒に学習しても良い。

＜本発明の第２の実施の形態に係る概要＞
　次に、本発明の第２の実施の形態に係る信号検索装置の構成について説明する。なお、第２の実施の形態に係る信号検索装置は、第１の実施の形態に係る信号検索装置と同様であるため、同一の符号を付して説明を省略する。

　第２の実施の形態では、各属性を表す隠れ変数が、階層構造になっている点が、第１の実施の形態と異なっている。

　第２の実施の形態では、信号検索装置１００は、属性に対して階層的な制御を行う。この制御を実現するために、図７に示すように、各属性を表す隠れ変数が、２階層以上の階層的な隠れ変数であって、階層的に変換される構造を学習部３０が有する。１層目の隠れ変数ｃ_１が、１層目の各属性を表す隠れ変数であり、第１の実施の形態における属性ベクトルｙに対応している。隠れ変数は、例えば属性の有無や正負を表すが、特にこれらに限定されない。

　２層目の隠れ変数ｃ_２は、１層目の隠れ変数ｃ_１の値により変換され、変換結果ｃ_２’が得られる。３層目の隠れ変数ｃ_３は、２層目の隠れ変数ｃ_２の変換結果ｃ_２’の値により変換され、変換結果ｃ_３’が得られる。信号検索装置１００は、３層目において、個体性を表す隠れ変数ｚ_３と、各属性を表す隠れ変数としての変換結果ｃ_３’とを生成器の入力とし、生成器としてのニューラルネットワークＧ_３により、画像データを生成する。信号検索装置１００は、画像データ同士を比較して、変更後の画像データに類似する変更後の蓄積画像データを検索する。

　ニューラルネットワークの学習では、図８に示すように、１層目の隠れ変数ｃ_１及び個体性を表す隠れ変数ｚ_１を入力とし、画像データを生成するニューラルネットワークＧ_１、識別器としてのニューラルネットワークＤ_１、及び、隠れ変数ｃ_１の分布を推定するニューラルネットワークＱ_１の学習が行われる。２層目の隠れ変数の変換結果ｃ_２’及び個体性を表す隠れ変数ｚ_２を入力とし、画像データを生成するニューラルネットワークＧ_２、識別器としてのニューラルネットワークＤ_２、及び、隠れ変数ｃ_２の分布を推定するニューラルネットワークＱ_２の学習が行われる。３層目の隠れ変数の変換結果ｃ_３及び個体性を表す隠れ変数ｚ_３を入力とし、画像データを生成するニューラルネットワークＧ_３、識別器としてのニューラルネットワークＤ_３、及び、隠れ変数ｃ_３の分布を推定するニューラルネットワークＱ_３の学習が行われる。各層における学習は順次行われる。図８におけるＰ_１、Ｐ_２、Ｐ_３は、識別器としてのニューラルネットワークＤ_１、Ｄ_２、Ｄ_３による識別結果をそれぞれ表す。

　上述のように、信号検索装置１００は、１層目の隠れ変数に対応する各ニューラルネットワークを最初に学習し、その学習結果をもとに一層深い層の隠れ変数に対応するニューラルネットワークを学習することを再帰的に行って、一階層ずつ、各ニューラルネットワークを学習する。階層的な学習により、浅い階層において、抽象的な概念が最初に獲得され、階層が深くなるに従って、徐々に属性の多様性を詳細化することができる。

＜本発明の第２の実施の形態に係る信号検索装置の構成＞
　本発明の第２の実施の形態に係る信号検索装置１００の入力部１０は、学習データとして、複数の画像データｘを受け付ける。また、入力部１０は、検索対象となる複数の蓄積画像データと、検索のための変更対象となる画像データｘを受け付ける。信号検索装置１００は、検索のための変更対象となる画像データｘに類似する画像データを、複数の蓄積画像データに基づいて検索する。

　学習部３０は、あるデータ分布から個体性を表す隠れ変数ｚ_ｉ（ｚ_１、ｚ_２、ｚ_３）及び各階層における各属性を表す隠れ変数ｃ_１、ｃ_２、ｃ_３を生成する。各隠れ変数は、例えば各階層における属性の有無や正負を表すものが考えられるが、特にこれらに限定されない。学習部３０は、個体性を表す隠れ変数ｚ_ｉ（ｚ_１、ｚ_２、ｚ_３）及び各階層における各属性を表す隠れ変数ｃ_１、ｃ_２、ｃ_３を乱数を用いて生成してもよい。
　学習部３０は、生成器として動作するニューラルネットワークＧ_１、Ｇ_２、Ｇ_３と、識別器として動作するニューラルネットワークＤ_１、Ｄ_２、Ｄ_３と、隠れ変数ｃ_１、ｃ_２’、ｃ_３’の分布を推定するニューラルネットワークＱ_１、Ｑ_２、Ｑ_３とを有する。
　生成器としてのニューラルネットワークＧ_１、Ｇ_２、Ｇ_３は、生成された個体性を表す隠れ変数ｚ_ｉと各階層における各属性を表す隠れ変数ｃ_１、ｃ_２、ｃ_３とを入力とし、個体性を表す隠れ変数ｚ_ｉ及び各属性を表す隠れ変数ｃ_１、ｃ_２、ｃ_３から、画像データをそれぞれ生成する。識別器として動作するニューラルネットワークＤ_１、Ｄ_２、Ｄ_３は、ニューラルネットワークＧ_１、Ｇ_２、Ｇ_３により生成された各画像データが真の画像データと同一の分布に従うか否かをそれぞれ識別する。ニューラルネットワークＱ_１、Ｑ_２、Ｑ_３は、ニューラルネットワークＧ_１、Ｇ_２、Ｇ_３により生成される画像データについての各属性を示す隠れ変数ｃ_１、ｃ_２’、ｃ_３’に対する分布Ｐ（ｃ_１｜ｘ）、Ｐ（ｃ_２’｜ｘ，ｃ_１）、Ｐ（ｃ_３’｜ｘ，ｃ_１，ｃ_２’）の近似分布をそれぞれ推定する。ニューラルネットワークＱ_１、Ｑ_２、Ｑ_３は、推定した近似分布に基づいて、各属性を表す隠れ変数ｃ_１、ｃ_２’、ｃ_３’をそれぞれ推定する。
　生成器、識別器として動作する各ニューラルネットワークは、入力部１０に入力された複数の学習データに基づいて、互いに競合する最適化条件に従い学習する。同時に、ニューラルネットワークＱ_１、Ｑ_２、Ｑ_３は、ニューラルネットワークＧ_１、Ｇ_２、Ｇ_３により生成された画像データの情報量の下限を最大化するように学習する。学習部３０は、各階層のニューラルネットワークに対して学習を再帰的に繰り返し行う。学習部３０における各ニューラルネットワークに、例えばＣＮＮが用いられてもよい。

　具体的には、学習部３０は、１層目に対して、入力された学習データに含まれる真の画像データｘと、生成された個体性を表す隠れ変数ｚ_１と、生成された１層目の各属性を表す隠れ変数ｃ_１とを入力とする。

　学習部３０は、生成された個体性を表す隠れ変数ｚ_１と、１層目の各属性を表す隠れ変数ｃ_１とをニューラルネットワークＧ_１の入力とし、生成器としてのニューラルネットワークＧ_１を用いて、画像データを生成する。

　生成器としてのニューラルネットワークＧ_１の学習において、学習部３０は、生成された画像データを真の画像データと同一の分布に従うと識別器が識別するように、ニューラルネットワークＧ_１のパラメータを更新する。すなわち、生成される画像を真の画像データであると識別器としてのニューラルネットワークＤ_１が識別するように、ニューラルネットワークＧ_１のパラメータが更新される。

　識別器としてのニューラルネットワークＤ_１の学習において、学習部３０は、生成器により生成された画像データを真の画像データと同一の分布に従わないと識別器が識別し、かつ、真の画像データｘに含まれる各画像データを真の画像データと同一の分布に従うと識別器が識別するように、識別器としてのニューラルネットワークＤ_１のパラメータを更新する。

　ニューラルネットワークＱ_１は、生成器としてのニューラルネットワークＧ_１により生成された画像データについての１層目の各属性を表す隠れ変数ｃ_１を予測する。ニューラルネットワークＱ_１の学習において、学習部３０は、隠れ変数ｃ_１と、隠れ変数ｃ_１から生成された画像データとの相関（情報量）の下限が最大化するように、ニューラルネットワークＱ_１のパラメータを更新する。

　学習部３０は、２層目に対して、入力された学習データに含まれる真の画像データｘと、ニューラルネットワークＱ_１によって予測された１層目の各属性を表す隠れ変数ｃ_１と、生成された個体性を表す隠れ変数ｚ_２と、生成された２層目の各属性を表す隠れ変数ｃ_２とを入力とする。このとき、２層目の各属性を表す隠れ変数ｃ_２’は、１層目の各属性を表す隠れ変数ｃ_１の値により、２層目の各属性を表す隠れ変数ｃ_２を変換することにより得られる。変換の一例としては、２層目の各属性を表す隠れ変数ｃ_２と１層目の各属性を表す隠れ変数ｃ_１とを掛け合わせることが考えられる。

　学習部３０は、生成された個体性を表す隠れ変数ｚ_２と、生成された２層目の各属性を表す隠れ変数ｃ_２の変換結果ｃ_２’とをニューラルネットワークＧ_２の入力とし、生成器としてのニューラルネットワークＧ_２を用いて、画像データを生成する。

　生成器としてのニューラルネットワークＧ_２の学習において、学習部３０は、生成された画像データを１層目の各属性を表す隠れ変数ｃ_１の下で真の画像データと同一の分布に従うと識別器が識別するように、生成器としてのニューラルネットワークＧ_２のパラメータを更新する。すなわち、生成される画像を真の画像データであると識別器としてのニューラルネットワークＤ_２が識別するように、ニューラルネットワークＧ_２のパラメータが更新される。

　識別器としてのニューラルネットワークＤ_２の学習において、学習部３０は、生成器により生成された画像データを１層目の各属性を表す隠れ変数ｃ_１の下で真の画像データと同一の分布に従わないと識別器が識別し、かつ、真の画像データｘに含まれる各画像データを真の画像データと同一の分布に従うと識別器が識別するように、識別器としてのニューラルネットワークＤ_２のパラメータを更新する。

　ニューラルネットワークＱ_２は、１層目の各属性を表す隠れ変数ｃ_１の下で、ニューラルネットワークＧ_２により生成された画像データについての２層目の各属性を表す隠れ変数ｃ_２’を予測する。ニューラルネットワークＱ_２の学習において、学習部３０は、隠れ変数ｃ_２’と、隠れ変数ｃ_２’から生成された画像データとの相関（情報量）の下限が最大化するように、ニューラルネットワークＱ_２のパラメータを更新する。

　学習部３０は、３層目に対して、入力された学習データに含まれる真の画像データｘと、ニューラルネットワークＱ_２によって予測された２層目の各属性を表す隠れ変数ｃ_２’と、生成された個体性を表す隠れ変数ｚ_３と、生成された３層目の各属性を表す隠れ変数ｃ_３とを入力とする。このとき、３層目の各属性を表す隠れ変数ｃ_３’は、２層目の各属性を表す隠れ変数ｃ_２の変換結果ｃ_２’の値により、３層目の各属性を表す隠れ変数ｃ_３を変換することにより得られる。

　学習部３０は、生成された個体性を表す隠れ変数ｚ_３と、生成された３層目の各属性を表す隠れ変数ｃ_３の変換結果ｃ_３’とをニューラルネットワークＧ_３の入力とし、生成器としてのニューラルネットワークＧ_３を用いて、画像データを生成する。

　生成器としてのニューラルネットワークＧ_３の学習において、学習部３０は、生成された画像データを２層目の各属性を表す隠れ変数ｃ_２の変換結果ｃ_２’の下で真の画像データと同一の分布に従うと識別器が識別するように、生成器としてのニューラルネットワークＧ_３のパラメータを更新する。すなわち、生成される画像を真の画像データであると識別器としてのニューラルネットワークＤ_３が識別するように、ニューラルネットワークＧ_３のパラメータが更新される。

　識別器としてのニューラルネットワークＤ_３の学習において、学習部３０は、生成器により生成された画像データを２層目の各属性を表す隠れ変数ｃ_２の変換結果ｃ_２’の下で真の画像データと同一の分布に従わないと識別器が識別し、かつ、真の画像データｘに含まれる各画像データを真の画像データと同一の分布に従うと識別器が識別するように、識別器としてのニューラルネットワークＤ_３のパラメータを更新する。

　ニューラルネットワークＱ_３は、２層目の各属性を表す隠れ変数ｃ_２の変換結果ｃ_２’の下で、ニューラルネットワークＧ_３により生成された画像データについての３層目の各属性を表す隠れ変数ｃ_３’を予測する。ニューラルネットワークＱ_３の学習において、学習部３０は、隠れ変数ｃ_３’と、隠れ変数ｃ_３’から生成された画像データとの相関（情報量）の下限が最大化するように、ニューラルネットワークＱ_３のパラメータを更新する。

　学習部３０は、上記の処理を、学習データ毎に行って、各種のニューラルネットワークのパラメータを繰り返し更新する。

　最終的に得られた、生成器としてのニューラルネットワークＧ_１、Ｇ_２、Ｇ_３と、識別器としてのニューラルネットワークＤ_１、Ｄ_２、Ｄ_３と、ニューラルネットワークＱ_１、Ｑ_２、Ｑ_３とは、ニューラルネットワーク記憶部４０に記憶される。

　学習部３０は、入力された学習データに含まれる画像データｘを入力とし、エンコーダとしてのニューラルネットワークを用いて、個体性を表す隠れ変数ｚ_ｉ（ｚ_１、ｚ_２、ｚ_３）を推定する。学習部３０は、近似分布を推定するニューラルネットワークＱ_２、Ｑ_３を用いて、各属性を表す隠れ変数ｃ_２’、ｃ_３’を抽出する。

　学習部３０は、推定された個体性を表す隠れ変数ｚ_３と、各属性を表す隠れ変数ｃ_３’とを入力とし、生成器としてのニューラルネットワークＧ_３を用いて、画像データを生成する。

　学習部３０は、生成された画像データが、元の画像データｘと同じになる制約を満たすように、エンコーダとしてのニューラルネットワークのパラメータを更新する。

　学習部３０は、上記の処理を、学習データ毎に行って、エンコーダとしてのニューラルネットワークＥのパラメータを繰り返し更新する。

　最終的に得られたエンコーダとしてのニューラルネットワークＥは、ニューラルネットワーク記憶部４０に記憶される。

　予測部４２は、入力部１０で受け付けた蓄積画像データを、１層目の各属性を表す隠れ変数ｃ_１を予測するための予測器としての予め学習されたニューラルネットワークＱ_１に入力し、１層目の各属性を表す隠れ変数ｃ_１を予測する。ニューラルネットワークＱ_１から出力される各属性を表す隠れ変数ｃ_１は、例えば蓄積画像データにおける各属性の有無又は度合いを示すものが考えられるが、特にこれらに限定されない。属性の有無は、例えば、０及び１の２値、あるいは正負の値で示される。

　変数抽出部４４は、蓄積画像データを、ニューラルネットワーク記憶部４０に記憶された、エンコーダとしてのニューラルネットワークＥへ入力し、エンコーダを用いて、蓄積画像データの個体性を表す隠れ変数ｚ_ｉを推定する。変数抽出部４４は、蓄積画像データをニューラルネットワークＱ_２、Ｑ_３へ入力し、ニューラルネットワークＱ_２、Ｑ_３を用いて、２層目以降の各属性を表す隠れ変数ｃ_２’、ｃ_３’を抽出する。

　変更部４６は、各属性を表す隠れ変数ｃ_１、ｃ_２’、又はｃ_３’のうち、変更対象の属性を表す隠れ変数の値を変更し、変更対象の属性を表す隠れ変数の価を変更した各属性を表す隠れ変数ｃ_１、ｃ_２’、又はｃ_３’を複数取得する。属性を表す隠れ変数の値ｃ_１を変更した場合には、関連する属性を表す隠れ変数ｃ_２’、ｃ_３’の値も変更される。属性を表す隠れ変数ｃ_２’の値が変更された場合には、関連する属性を表す隠れ変数ｃ_３’の値も変更される。

　変更部４６は、変数抽出部４４によって求められた各属性を表す隠れ変数ｃ_３’のうち、変更対象の属性を表す隠れ変数の値を、変更後の値で置き換えることにより、各属性を表す隠れ変数ｃ_３’を変更して、変更後の各属性を表す隠れ変数ｃ_３’を複数求める。

　信号生成部４８は、変数抽出部４４によって抽出された個体性を表す隠れ変数ｚ_ｉと、変更部４６にり変更された各属性を表す隠れ変数ｃ_３’とを生成器の入力とし、ニューラルネットワーク記憶部４０に記憶された、生成器としてのニューラルネットワークＧ_３を用いて、画像データを生成する。

　信号蓄積部４９には、信号生成部４８により蓄積画像データの各々に対し生成された変更後の蓄積画像データの各々が記憶される。

　予測部５０は、入力部１０で受け付けた変更対象の画像データを、１層目の各属性を表す隠れ変数ｃ_１を予測するための予測器として予め学習されたニューラルネットワークＱ_１に入力し、１層目の各属性を表す隠れ変数ｃ_１を予測する。ニューラルネットワークＱ_１から出力される各属性を表す隠れ変数ｃ_１は、例えば変更対象の画像データにおける各属性の有無又は度合いを示すものが考えられるが、特にこれらに限定されない。属性の有無は、例えば、０及び１の２値、あるいは正負の値で示される。

　変数抽出部５２は、入力された変更対象の画像データｘから、ニューラルネットワーク記憶部４０に記憶された、エンコーダとしてのニューラルネットワークＥを用いて、変更対象の画像データｘの個体性を表す隠れ変数ｚ_ｉを推定する。変数抽出部５２は、ニューラルネットワークＱ_１、Ｑ_２、Ｑ_３を用いて、入力された変更対象の画像データｘから各属性を表す隠れ変数ｃ_１、ｃ_２’、ｃ_３’を抽出する。

　変更部６２は、変数抽出部５２により抽出された各属性を表す隠れ変数ｃ_１、ｃ_２’、又はｃ_３’のうち、変更対象の属性を表す隠れ変数の値を変更することにより、変更対象の属性を表す隠れ変数の値が変更された各属性を表す隠れ変数ｃ_１、ｃ_２’、又はｃ_３’を複数取得する。属性を表す隠れ変数の値ｃ_１を変更した場合には、関連する属性を表す隠れ変数ｃ_２’、ｃ_３’の値も変更される。属性を表す隠れ変数ｃ_２’の値が変更された場合には、関連する属性を表す隠れ変数ｃ_３’の値も変更される。

　変更部６２は、変数抽出部５２によって求められた各属性を表す隠れ変数ｃ_３’のうち、変更対象の属性を表す隠れ変数の値を、変更後の値で置き換えることにより、各属性を表す隠れ変数ｃ_３’を変更して、変更後の各属性を表す隠れ変数ｃ_３’を複数求める。

　信号生成部６４は、変数抽出部５２によって抽出された個体性を表す隠れ変数ｚ_３と、変更部６２により変更された各属性を表す隠れ変数ｃ_３’とを生成器の入力とし、ニューラルネットワーク記憶部４０に記憶された、生成器としてのニューラルネットワークＧ_３を用いて、画像データを生成する。

　なお、第２の実施の形態に係る信号検索装置１００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

　以上説明したように第２の実施の形態に係る信号検索装置は、１層目の各属性を表す隠れ変数、２層目又は３層目の各属性を表す隠れ変数の変換結果の値を変更する。信号検索装置は、エンコーダとしてのニューラルネットワークにより抽出された個体性を表す隠れ変数、及び変更後の３層目の各属性を表す隠れ変数の変換結果を生成器の入力として、生成器としてのニューラルネットワークを用いて、属性が変更された変更後の画像データを生成する。信号検索装置は、各属性を表す隠れ変数を変更して得られた変更後の画像データに類似する画像データを、各属性を表す隠れ変数を変更して得られた変更後の蓄積画像データから検索する。属性を表す隠れ変数の値を変更した各属性を表す隠れ変数を用いて生成された変更後の画像データ及び変更後の蓄積画像データは属性について多様性を有する。多様性を有する変更後の画像データ及び変更後の蓄積画像データを用いることにより、信号検索装置は、属性が変更されても類似する画像データを検索することができる。

　なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、上述した実施の形態では、ニューラルネットワークの学習を行う学習部を含む信号検索装置として構成していたが、これに限定されるものではない。例えば、学習部及びニューラルネットワーク記憶部４０を含む学習装置と、予測部、変数抽出部、変更部、信号生成部、信号蓄積部、信号検索部、及び類似信号出力部を含む信号検索装置とのそれぞれに分けて構成してもよい。

　また、上述した実施の形態では、入力される信号が、顔画像データである場合を例に説明した。しかし、入力される信号は、これに限定されるものではなく、顔以外の画像データであってもよい。例えば、入力される信号が、文字画像データであってもよい。この場合には、属性ベクトルｙが、文字の種類（例：ａ，ｂ，ｃ，…，１，２，…）の各々の有無を表す。属性を表す隠れ変数ｚ_ａが、文字の多様性を表す。例えば、属性ベクトルｙが文字「４」を表す場合、文字の多様性は、「４」の大きさや形状を表す。
　あるいは、属性ベクトルｙが、文字のフォント（例：ゴシック体、明朝体、太字、斜体字、…）の各々の有無を表し、属性を表す隠れ変数ｚ_ａが、フォントの多様性を表す。例えば、属性ベクトルｙがゴシック体を表す場合、フォントの多様性は、ゴシック体の種別を表す。

　また、入力される信号が、動物画像データ（例えば、鳥画像データ）であってもよい。この場合には、属性ベクトルｙが、色の有無を表し、属性を表す隠れ変数ｚ_ａが、色の多様性を表す。例えば、属性ベクトルｙが赤色の有無を表し、隠れ変数ｚ_ａが鳥のいずれの部位が赤いか又は赤の色合いを表す。
　あるいは、属性ベクトルｙが、鳥の部位の形状（を表し、属性を表す隠れ変数ｚ_ａが、鳥の部位の多様性を表す。例えば、属性ベクトルｙが嘴の先端が丸いか、尖っているかを表し、どのように丸い嘴であるかを隠れ変数ｚ_ａが表す。

　入力される信号が、背景画像データであってもよい。この場合には、属性ベクトルｙが、背景のタイプを表し、属性を表す隠れ変数ｚ_ａが、背景のタイプの多様性を表す。例えば、属性ベクトルｙが海、山、川、家又は道路の有無を表し、どのような海、山、川、家又は道路であるかを隠れ変数ｚ_ａが表す。

　また、入力される信号が、家画像データであってもよい。この場合には、属性ベクトルｙが、色の有無を表し、属性を表す隠れ変数ｚ_ａが、色の多様性を表す。例えば、属性ベクトルｙが赤の有無を表し、隠れ変数ｚ_ａが家のいずれの部位が赤いか又は赤の色合いを表す。

　入力される信号が、建物画像データであってもよい。この場合には、属性ベクトルｙが、建物の種類それぞれの有無を表し、属性を表す隠れ変数ｚ_ａが、建物の多様性を表す。例えば、属性ベクトルｙがビル、戸建及びタワーの有無を表し、どのような形状の建物であるかを隠れ変数ｚ_ａが表す。
　あるいは、属性ベクトルｙが、建物のパーツの形状の有無を表し、属性を表す隠れ変数ｚ_ａが、パーツの多様性を表す。例えば、属性ベクトルｙが平らな屋根、丸い屋根及び三角形状の屋根の有無を表し、屋根がどのように平らであるかを隠れ変数ｚ_ａが表す。

　上述した実施の形態では、入力される信号が、画像データである場合を例に説明した。しかし、入力される信号は、これに限定されるものではなく、画像データ以外の信号であってもよい。例えば、入力される信号が、音声信号（あるいは楽曲信号）、テキストデータ、動画データであってもよい。

　入力される信号が、音声信号である場合には、信号検索装置は、個体性を表す隠れ変数と、各属性を表す隠れ変数とを生成し、生成器としてのニューラルネットワークが音声信号を生成するようにしてもよい。各属性を表す隠れ変数は、音声信号の発生源である人に関する属性や、音声信号を構成する要素に関する属性を表してもよい。例えば、音声信号の発生源である人に関する属性は、魅力、感情及び方言などの有無やその度合い、人が男性であるか女性であるか、人が若いか年寄りかを表す。音声信号を構成する要素に関する属性は、スピーチの速度、声の高さなどを表す。信号検索装置は、個体性を表す隠れ変数と属性を表す隠れ変数とを抽出した後、属性を表す隠れ変数を変更して、属性について多様性を有する音声信号を再構成することができる。

　入力される信号が、テキストデータである場合には、信号検索装置は、個体性を表す隠れ変数と、各属性を表す隠れ変数とを生成し、生成器としてのニューラルネットワークがテキストデータを生成するようにしてもよい。各属性を表す隠れ変数は、テキストデータの発生源である人に関する属性や、テキストデータを構成する要素に関する属性を表してもよい。例えば、人に関する属性は、丁寧度、人が男性であるか女性であるかなどを表す。要素に関する属性は、テキストが抽象的であるか具体的であるか、テキストが感情的であるか否か、テキストのジャンル、テキストが口語的であるか文語的であるか、テキストがフォーマルであるか否かを表す。信号検索装置は、個体性を表す隠れ変数と属性を表す隠れ変数とを抽出した後、属性を表す隠れ変数を変更して、属性について多様性を有するテキストデータを再構成することができる。

　入力される信号が、動画データである場合には、信号検索装置は、個体性を表す隠れ変数と、各属性を表す隠れ変数とを生成し、生成器としてのニューラルネットワークが動画データを生成するようにしてもよい。各属性を表す隠れ変数は、動画データを構成する要素に関する属性を表す。例えば、各属性を表す隠れ変数は、コミカル度、動画が古いか新しいか、動画が実写であるかアニメであるか、感情の有無、動画のジャンルなどを表す。信号検索装置は、個体性を表す隠れ変数と属性を表す隠れ変数とを抽出した後、属性を表す隠れ変数を変更して、属性について多様性を有する動画データを再構成することができる。

　信号検索装置は、再構成した画像データに含まれる再構成誤差を考慮して、再構成した画像データを補正するようにしてもよい。例えば、信号検索装置は、式（８）に従って、属性を表す隠れ変数を変更し、かつ、生成器としてのニューラルネットワークを用いて生成した画像データｘ_ｍｏｄを補正するようにしてもよい。

　式（８）において、ｘ_ｒｅｃは、属性を表す隠れ変数を変更せずに再構成した画像データであり、ｘは、変更対象の画像データである。Δは、属性を表す隠れ変数の値を変更して再構成した画像データｘ_ｍｏｄと、隠れ変数の値を変更せずに再構成した画像ｘ_ｒｅｃとの差分画像である。Δ’は、変更対象の画像データｘと、隠れ変数の値を変更せずに再構成した画像ｘ_ｒｅｃとの差分画像である。～ｘ（～はｘの上に付される）は、補正により得られる画像データである。Ｍは、式（９）に従って予め求められたマスク画像である。

　式（９）において、σは、式（１０）にて示されるパラメータに対するガウシアン分布の分散を表す。αは、当該ガウシアン分布の広がりを表している。式（１０）は、差分画像Δの各画素における赤、緑及び青それぞれの輝度値の絶対値の平均値を表す。
　上述では、マスク画像の算出にガウシアン分布を用いる場合を例に説明したが、ラプラシアン分布など任意の分布を用いてもよい。差分画像のノルムの計算に絶対値の平均値を用いる場合を礼に説明したが、L２ノルムなど、任意のノルムを用いてもよい。輝度値ごとにマスク画像を算出してもよい。

　上述した実施の形態では、エンコーダ、生成器、及び予測器それぞれのニューラルネットワークとして、ＣＮＮを用いる場合を例に説明したが、これに限定されるものではなく、他のニューラルネットワーク構造を用いてもよく、例えば、時系列性を考慮したモデルであるＲＮＮ（Recurrent Neural Network）やＦｕｌｌｙ　Ｃｏｎｎｅｃｔｅｄなどを用いてもよい。ＲＮＮは、ＬＳＴＭ（Long Short-Term Memory）を用いて構成してもよい。

　エンコーダの出力として、隠れ変数ｚ_ｉ、ｚ_ａそのものを出力する場合を例に説明した。しかし、エンコーダの出力は、これに限定されない。例えば、エンコーダが、隠れ変数の分布に関するパラメータ（例えば、ガウシアン分布の場合、平均と標準偏差）を出力し、変数抽出部４４が、エンコーダから出力された分布パラメータに従ってサンプリングして隠れ変数を得るようにしてもよい。

　第２の実施の形態では、エンコーダが、個体性を表す隠れ変数ｚ_ｉ（ｚ_１、ｚ_２、ｚ_３）を推定し、変数抽出部が、ニューラルネットワークＱ_２、Ｑ_３により推定された近似分布を用いて、属性を表す隠れ変数ｃ_２’、ｃ_３’を予測し、予測部が、予測器を用いてｃ_１を予測する場合を例に説明した。しかし、エンコーダが、属性を表す隠れ変数ｃ_１、ｃ_２、ｃ_３と個体性を表す隠れ変数ｚ_ｉ（ｚ_１、ｚ_２、ｚ_３）とを同時に推定するようにしてもよい。あるいは、エンコーダが、属性を表す隠れ変数ｃ_２、ｃ_３ではなく、属性を表す隠れ変数ｃ_２’、ｃ_３’を直接推定するようにしてもよい。
　信号検索装置が、エンコーダを使わずに、生成器に任意の個体性を表す隠れ変数ｚ_ｉを入力し、生成器としてのニューラルネットワークＧから出力される画像データが目的画像ｘに近づくように勾配法で個体性を表す隠れ変数ｚ_ｉを更新していくことで、最適な個体性を表す隠れ変数ｚ_ｉを求めるようにしてもよい。
　信号検索装置が、予測器で属性を表す隠れ変数ｃ_１を求め、エンコーダで、属性を表す隠れ変数ｃ_２’、ｃ_３’と個体性を表す隠れ変数ｚ_ｉ（ｚ_１、ｚ_２、ｚ_３）とを求めてもよい。更に、信号検索装置が、求めた隠れ変数ｃ_１、ｃ_２’、ｃ_３’、ｚ_ｉを初期値にして、生成器に個体性を表す隠れ変数ｚ_ｉを入れて、生成器としてのニューラルネットワークＧから出力される画像データが目的画像ｘに近づくように勾配法で個体性を表す隠れ変数ｚ_ｉを更新していくことで、最適な個体性を表す隠れ変数ｚ_ｉを求めるようにしてもよい。
　信号検索装置が、エンコーダとしてのニューラルネットワークを用いて、個体性を表す隠れ変数ｚ_ｉと同時に、属性を表す隠れ変数ｃ_２、ｃ_３を推定する場合には、推定された各属性を表す隠れ変数ｃ_２、ｃ_３と、予測された１層目の各属性を表す隠れ変数ｃ_１とに基づいて、各属性を表す隠れ変数ｃ_２’、ｃ_３’を求める。各属性を表す隠れ変数ｃ_３’は、以下のように得られる。
　２層目の各属性を表す隠れ変数ｃ_２’が、１層目の各属性を表す隠れ変数ｃ_１の値により、２層目の各属性を表す隠れ変数ｃ_２を変換することにより得られる。３層目の各属性を表す隠れ変数ｃ_３’が、２層目の各属性を表す隠れ変数ｃ_２の変換結果ｃ_２’の値により、３層目の各属性を表す隠れ変数ｃ_３を変換することにより得られる。
　信号検索装置が、エンコーダ又は予測器を、生成器及び識別器と一緒に学習してもよい。

　第２の実施の形態では、学習部３０が、学習データに含まれる画像データから、１層目の各属性を表す隠れ変数ｃ_１を予測して、学習に用いる場合を例に説明した。しかし、これに限定されるものではなく、学習部３０が、各ニューラルネットワークを学習する際に、１層目の各属性を表す隠れ変数ｃ_１を学習データとして入力するようにしてもよい。

　学習部３０が、１層目の各属性を表す隠れ変数ｃ_１だけでなく、任意の階層の各属性を表す隠れ変数も学習データとして入力して、より深い階層を学習するようにしてもよい。

　第１の実施の形態では、学習データに含まれる全ての画像データｘについて、属性ベクトルｙが付与されている場合を例に説明した。しかし、これに限定されるものではなく、学習データに含まれる一部の画像データｘについてだけ、属性ベクトルｙが付与されていてもよい。あるいは、学習データが属性ベクトルｙを含まずともよい。この場合、信号検索装置は、第２の実施の形態の信号検索装置が属性ベクトルｙに対応する各属性を表す隠れ変数ｃ_１を推定するのと同様に、属性ベクトルｙを推定してもよい。信号検索装置は、推定した属性ベクトルｙに基づいて、各ニューラルネットワークを学習してもよい。
　第２の実施の形態の場合において、任意の階層の各属性を表す隠れ変数を学習データとして入力するときに、学習データに含まれる一部の画像データｘについて、各属性を表す隠れ変数を付与するようにしてもよい。

　また、第１の実施の形態と第２の実施の形態とでは、信号検索装置が、入力された画像データと、蓄積画像データとの双方に対して属性を変更し、変更後の画像データと類似する変更後の蓄積画像データを検索する場合を例に説明した。しかし、信号検索装置による検索は、これに限定されるものではない。例えば、信号検索装置が、入力された画像データのみに対して属性を変更し、変更後の画像データと類似する蓄積画像データを検索するようにしてもよい。あるいは、信号検索装置が、蓄積画像データのみに対して属性を変更し、入力された画像データと類似する変更後の蓄積画像データを検索するようにしてもよい。

　第２の実施の形態の信号検索装置が、１つ前の層の各属性を表す隠れ変数ｃ_ｉ－１’の値により、隠れ変数ｃ_ｉを変換して隠れ変数ｃ_ｉ’を得る場合について説明した。しかし、信号検索装置は、これに限定されることなく、隠れ変数ｃ_ｉ’に対応する層より浅い層の隠れ変数ｃ_ｊ’（ｊ＝１，２，…，ｉ－１）のうち少なくとも１つにより、隠れ変数ｃ_ｉを変換して隠れ変数ｃ_ｉ’を得てもよい。例えば、信号検索装置は、隠れ変数ｃ_ｉ’を得る際に、隠れ変数ｃ_ｉ’に対応する層より２つ浅い層の隠れ変数ｃ_ｉ－２’により、隠れ変数ｃ_ｉを変換して隠れ変数ｃ_ｉ’を得てもよい。更に、信号検索装置は、隠れ変数ｃ_ｉ’に対応する層より浅い層の隠れ変数ｃ_ｊ’（ｊ＝１，２，…，ｉ－１）と隠れ変数ｃ_ｉ’との予め定められた関係に基づいて、隠れ変数ｃ_ｉ’を得てもよい。

　第１の実施の形態の信号検索装置における生成器２において、隠れ変数ｚ_ａを属性ベクトルｙで変換する処理をニューラルネットワークが行ってもよい。学習部は、隠れ変数ｚ_ａを変換するニューラルネットワークの学習を、生成器としてのニューラルネットワークＧの学習とともに行ってもよい。第２の実施の形態の信号検索装置における生成器２において、隠れ変数ｃ_ｉを隠れ変数ｃ_ｉ－１’で変換して隠れ変数ｃ_ｉ’を得る処理をニューラルネットワークが行ってもよい。学習部は、隠れ変数ｃ_ｉ’を得るニューラルネットワークの学習を、生成器としてのニューラルネットワークＧ_ｉの学習とともに行ってもよい。

　第１の実施の形態における信号検索装置が、カテゴリ分布又は一様分布に基づいた乱数を用いて隠れ変数ｚ_ｉ、ｚ_ａを生成する場合について説明した。しかし、隠れ変数ｚ_ｉ、ｚ_ａを生成する方法は、これに限定されない。例えば、信号検索装置は、ガウシアン分布、ディリクレ分布などを含む任意の分布に基づいて、隠れ変数ｚ_ｉ、ｚ_ａを生成してもよい。第２の実施の形態における信号検索装置は、同様に、ガウシアン分布、ディリクレ分布などを含む任意の分布に基づいて、隠れ変数ｚ_１，ｚ_２，ｚ_３，ｃ_１，ｃ_２，ｃ_３を生成してもよい。あるいは、第１及び第２の実施の形態における信号検索装置は、隠れ変数それぞれを生成するニューラルネットワークを備えてもよい。

　第１及び第２の実施の形態における信号検索装置が、生成器としてのニューラルネットワークＧと識別器としてのニューラルネットワークＤとの学習における最適化条件として式（５）で表される目的関数を用いる場合について説明した。しかし、生成器としてのニューラルネットワークＧと識別器としてのニューラルネットワークＤとの学習における最適化条件を表す目的関数は、これに限定されない。例えば、信号検索装置は、Least Squares ＧＡＮ、Wasserstein ＧＡＮなどを含む任意の拡張モデルを用いてもよい。

　第１及び第２の実施の形態における識別器としてのニューラルネットワークＤが、生成器により生成される画像データが属性ベクトルの下で真の画像データと同一の分布に従うか否かを識別する場合について説明した。しかし、識別器としてのニューラルネットワークＤが識別する対象は、これに限定されない。例えば、識別器としてのニューラルネットワークＤは、生成される画像データが真の画像データと同一の分布に従うか否かを識別してもよい。この場合、生成器としてのニューラルネットワークＧと、識別器としてのニューラルネットワークＤとの学習における目的関数に、画像データが属性ベクトルを含むか否かの識別結果を加えてもよい。画像データが属性ベクトルを含むとは、属性ベクトルが示す属性（特徴）が画像データに含まれていることである。画像データが属性ベクトルを含むか否かの識別は、例えば、Ｐ（ｃ_１｜ｘ）及びＰ（ｃ｜ｘ，ｐ）の近似分布を推定するニューラルネットワークＱ_ｌ（ｌ＝１，２，…，Ｌ）が行ってもよい。

　画像データが属性ベクトルを含むか否かの識別結果を、最適化条件としての目的関数に加える場合、例えば、目的関数は式（１１）で表される。式（１１）で表される目的関数を用いる学習では、生成器としてのニューラルネットワークＧと、識別器としてのニューラルネットワークＤと、Ｐ（ｃ_１｜ｘ）及びＰ（ｃ｜ｘ，ｐ）近似分布を推定するニューラルネットワークＱ_ｌ（ｌ＝１，２，…，Ｌ）との学習が行われる。

　式（１１）における、λ_１，…，λ_Ｌは、トレードオフ・パラメータである。Ｌ_ＧＡＮ（Ｄ，Ｇ）は式（１２－１）で表される。Ｌ_{ＭＩ／ＡＣ}（Ｇ，Ｑ_１）は、式（１２－２）で表されるＬ_ＭＩ（Ｇ，Ｑ_１）と、式（１２－３）で表されるＬ_ＡＣ（Ｇ，Ｑ_１）との何れかを用いることを表す。学習データに属性ベクトルが含まれない場合、Ｌ_ＭＩ（Ｇ，Ｑ_１）が用いられる。学習データに属性ベクトルが含まれる場合、Ｌ_ＡＣ（Ｇ，Ｑ_１）が用いられる。Ｌ_ＨＣＭＩ（Ｇ，Ｑ_ｌ）は、式（１２－４）で表される。

　式（１２－１）～式（１２－４）におけるｘ～Ｐ_ｄａｔａ（ｘ）は、学習データから真の画像データｘをサンプリングすることを表す。ｚ～Ｐ（ｚ）は、隠れ変数ｚ（ｚ_ｉ，ｚ_ａ）をあるデータ分布から生成することを表す。ｃ_１～Ｐ（ｃ_１）は、１層目の属性ベクトルｃ_１をあるデータ分布から生成することを表す。ｘ～Ｇ（＾ｃ_Ｌ，ｚ）は、Ｌ階層における各属性を表す隠れ変数＾ｃ_Ｌと隠れ変数ｚ（ｚ_ｉ，ｚ_ａ）に基づいて、生成器としてのニューラルネットワークＧで画像データを生成することを表す。ｃ_１，ｘ～Ｐ_ｄａｔａ（ｃ_１，ｘ）は、学習データから真の画像データｘと画像データｘに対応する属性ベクトルｃ_１とをサンプリングすることを表す。ｃ～Ｐ（ｃ｜ｐ）は、Ｐ（ｃ｜ｐ）の分布に従って隠れ変数ｃをサンプリングすることを表す。式（１２－４）におけるｃはｌ層目の各属性を表す隠れ変数であり、ｐは（ｌ－１）層目の各属性を表す隠れ変数である。

　第２の実施の形態の信号検索装置において、生成される画像データが真の画像データと同一の分布に従うか否かを識別器が識別する場合、学習部３０は、図８に示した３層のニューラルネットワークを有する構成に代えて、図９に示す１層のニューラルネットワークを有する構成を備えてもよい。図９に示す１層のニューラルネットワークの構成を学習部３０が備える場合、学習部３０は、生成器として動作するニューラルネットワークＧ_３と、識別器として動作するニューラルネットワークＤ_３と、各属性を表す隠れ変数ｃ_１、ｃ_２’、ｃ_３’の分布を推定するニューラルネットワークＱ_１、Ｑ_２、Ｑ_３とを有する。
　各ニューラルネットワークの学習において、学習部３０は、学習対象となる１つのニューラルネットワーク以外の他のニューラルネットワークのパラメータを固定して、学習対象のニューラルネットワークのパラメータを更新する。学習部３０が有するニューラルネットワークそれぞれの学習は、第１及び第２の実施の形態において説明した学習と同様に、学習データ毎に繰り返し行われる。
　ニューラルネットワークＱ_１の学習を行う際、学習部３０は、予め定められた初期値を設定した隠れ変数ｃ_２、ｃ_３と、あるデータ分布から生成される隠れ変数ｚ_３、ｃ_１とに基づいて、ニューラルネットワークＱ_１のパラメータを更新する。ニューラルネットワークＱ_２の学習を行う際、学習部３０は、初期値を設定した隠れ変数ｃ_３と、あるデータ分布から生成される隠れ変数ｚ_３、ｃ_１、ｃ_２とに基づいて、ニューラルネットワークＱ_２のパラメータを更新する。ニューラルネットワークＱ_３の学習を行う際、学習部３０は、あるデータ分布から生成される隠れ変数ｚ_３、ｃ_１、ｃ_２、ｃ_３に基づいて、ニューラルネットワークＱ_３のパラメータを更新する。
　属性を表す隠れ変数ｃ_２、ｃ_３に設定する初期値は、例えば、隠れ変数ｃ_２、ｃ_３が取り得る値の期待値、平均値に基づいて決定される。あるいは、隠れ変数ｃ_２、ｃ_３に含まれる変数の数に基づいて初期値を決定してもよい。ニューラルネットワークＧ_３、Ｄ_３の学習は、第２の実施の形態において説明した学習と同様である。

　画像データが属性ベクトルを含むか否かの識別は、識別器としてのニューラルネットワークＤが行ってもよい。画像データが属性ベクトルを含むか否かの識別を識別器が行う場合、識別器は、入力される画像データに各属性が含まれるか否かを判定するニュールラルネットワークを更に含んでもよい。

　信号検索装置は、生成した画像データに対して、既知の画像処理技術を適用してもよい。例えば、信号検索装置は、生成した画像に対して超解像処理や画質の補正を行ってもよい。

　本発明は、信号に含まれる属性が変更されても当該信号に類似する他の信号を検索することが要求される用途に適用できる。

２　生成器
３　識別器
１０　入力部
２０　演算部
３０　学習部
４０　ニューラルネットワーク記憶部
４２　予測部
４４　変数抽出部
４６　変更部
４８　信号生成部
４９　信号蓄積部
５０　予測部
５２　変数抽出部
６２　変更部
６４　信号生成部
６５　信号検索部
６６　類似信号出力部
９０　出力部
１００　信号検索装置

Claims

　入力された信号又は信号蓄積部に蓄積されている蓄積信号が表現する対象の属性の値、又は前記入力された信号の信号発生源に関する属性の値を変更し、複数の変更後の前記属性の値を取得する変更部と、
　前記変更部によって取得された複数の変更後の前記属性の値の各々に応じて前記属性が変更された前記入力された信号又は前記蓄積信号を用いて、前記入力された信号に類似する前記蓄積信号を検索する信号検索部と、
　を含む信号検索装置。
　前記信号は、画像データであり、
　前記属性は、前記画像データが表現する被写体の特徴を表す、
　請求項１記載の信号検索装置。
　入力された信号又は前記入力された信号の信号発生源に関する複数の特徴を表す複数の隠れ変数を抽出する変数抽出部と、
　前記抽出された前記複数の隠れ変数のうち属性を表す隠れ変数としての一部の隠れ変数の値を変更した複数の変更後の隠れ変数を取得する変更部と、
　前記変更部によって取得された前記複数の変更後の隠れ変数に基づいて、前記属性が変更された前記入力された信号を変更後の信号として生成する信号生成部と、
　前記信号生成部により生成された前記変更後の信号と、信号蓄積部に蓄積された蓄積信号の前記属性を表す隠れ変数を変更して生成された変更後の蓄積信号とに基づいて、前記変更後の信号に類似する前記変更後の蓄積信号を検索する信号検索部と、
　を含む信号検索装置。
　前記変数抽出部は、前記複数の隠れ変数を抽出するための予め学習された第１のニューラルネットワークを用いて、前記入力された信号から前記入力された信号の前記複数の特徴を表す前記複数の隠れ変数を抽出し、
　前記信号生成部は、信号を生成するための予め学習された第２のニューラルネットワークを用いて、前記変更部によって取得され前記複数の変更後の隠れ変数から前記変更後の信号を生成し、
　前記変更後の蓄積信号は、前記信号蓄積部に蓄積された前記蓄積信号から抽出された複数の隠れ変数のうち前記属性を表す隠れ変数の値を変更した複数の変更後の隠れ変数から前記第２のニューラルネットワークを用いて生成され、
　前記信号検索部は、前記信号生成部により生成された前記変更後の信号と、前記変更後の蓄積信号とを比較して、前記変更後の信号に類似する前記変更後の蓄積信号を検索する
　請求項３記載の信号検索装置。
　変更部が、入力された信号又は信号蓄積部に蓄積されている蓄積信号が表現する対象の属性の値、又は前記入力された信号の信号発生源に関する属性の値を変更して、複数の変更後の前記属性の値を取得し、
　信号検索部が、前記変更部によって取得された複数の変更後の前記属性の値の各々に応じて前記属性が変更された前記入力された信号又は前記蓄積信号を用いて、前記入力された信号に類似する前記蓄積信号を検索する
　信号検索方法。
　変数抽出部が、入力された信号又は前記入力された信号の信号発生源に関する複数の特徴を表す複数の隠れ変数を抽出し、
　変更部が、前記抽出された複数の隠れ変数のうち属性を表す隠れ変数としての一部の隠れ変数の値を変更した複数の変更後の隠れ変数を複数取得し、
　信号生成部が、前記変更部によって取得された前記複数の変更後の隠れ変数に基づいて、前記属性が変更された前記入力された信号を変更後の信号として生成し、
　信号検索部が、前記信号生成部により生成された前記変更後の信号と、信号蓄積部に蓄積された蓄積信号の前記属性を表す隠れ変数を変更して生成された変更後の蓄積信号とに基づいて、前記変更後の信号に類似する前記変更後の蓄積信号を検索する
　信号検索方法。
　コンピュータを、請求項１～請求項４の何れか１項記載の信号検索装置として機能させるためのプログラム。