JP6801529B2

JP6801529B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6801529B2
Application number: JP2017044846A
Authority: JP
Inventors: 山本　康平; 康平山本; 前野　蔵人; 蔵人前野
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2020-12-16
Anticipated expiration: 2037-03-09
Also published as: US11366999B2; JP2018147428A; US20180260702A1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

近年、脳神経系の仕組みを模した数学モデルであるニューラルネットワークが注目されている。また、ニューラルネットワークを用いて種々の状態推定を行う技術が提案されている。例えば、特許文献１には、アレーアンテナから得られる受信信号ベクトルの位相差から、先行車両の台数を、ニューラルネットワークを用いて推定するレーダ信号処理装置が開示されている。また、特許文献２には、従来、実数型ニューロンで構成されていた畳み込みニューラルネットワークを、複素数型ニューロンを用いて構成する技術が開示されている。

特開２０１６−７５５５８号公報

Nitzan Guberman、"On Complex Valued Convolutional Neural Networks"、［ｏｎｌｉｎｅ］、平成２８年２月２９日、ヘブライ大学、［平成２９年２月１日検索］、インターネット〈https://arxiv.org/pdf/1602.09046.pdf〉

しかし、特許文献１に記載の技術では、実数型または複素数型ニューラルネットワークにおいて、受信信号ベクトルの自己相関行列の対角成分を除いた上三角行列を入力としている。このため、特許文献１に記載の技術では、受信信号ベクトルの要素数に対応する全通りの組み合わせペアを入力することが求められ、ニューラルネットワークの規模が大型化する傾向がある。

また、特許文献１や非特許文献１に記載の技術では、同一の層に属するニューロン間の位相差を扱うことが困難である。このため、特許文献１や非特許文献１に記載の技術では、ニューロン間における位相の相関関係が重要となる問題に対して推定精度が劣化する可能性がある。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、位相の相関関係に意味を有するデータに対する推定精度をより向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、ニューラルネットワークを用いて状態推定を行う推定部、を備え、前記ニューラルネットワークは、複素数データを入力とする第１の複素数型ニューラルネットワーク層と、前記複素数データに係る複数の集合間における要素ごとの位相差を出力する位相差演算層と、前記位相差に基づいて複素数データを出力する第２の複素数型ニューラルネットワーク層と、を備える、情報処理装置が提供される。

前記位相差演算層は、前記集合間において対応する要素の共役積に基づいて前記位相差を出力してもよい。

前記位相差演算層は、同一層に属する複素数型ニューロンを少なくとも２以上の集合に分割し、当該集合間における要素ごとの位相差を出力してもよい。

前記第１の複素数型ニューラルネットワーク層は、複素数型畳み込みニューラルネットワーク層であってもよい。

前記複素数型畳み込みニューラルネットワーク層は、互いに構造の異なる一対の畳み込みフィルタを用いて畳み込み処理を実行してもよい。

前記畳み込みフィルタは、実数型の重みを有してもよい。

前記ニューラルネットワークは、前記第２の複素数型ニューラルネットワーク層により出力される複素数型データを実数型データに変換する変換層、をさらに備えてもよい。

また、上記課題を解決するために、本発明の別の観点によれば、ニューラルネットワークを用いて状態推定を行う情報処理方法であって、複素数データを入力することと、複素数データに係る複数の集合間における要素ごとの位相差を出力することと、前記位相差に基づいて複素数データを出力することと、を含む、情報処理方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、ニューラルネットワークを用いて状態推定を行う推定部、を備え、前記ニューラルネットワークは、複素数データを入力とする第１の複素数型ニューラルネットワークと、前記複素数データに係る複数の集合間における要素ごとの位相差を出力する位相差演算層と、前記位相差に基づいて複素数データを出力する第２の複素数型ニューラルネットワーク層と、を備える、情報処理装置、として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、相対的な位相に意味を有するデータに対する推定精度をより向上させることが可能となる。

本発明の第１の実施形態に係る情報処理装置の機能ブロック図の一例である。同実施形態に係るニューラルネットワークのネットワーク構成例を示す図である。同実施形態に係る位相差演算層の構成について説明するための図である。同実施形態に係る順方向伝播の一例を示す図である。同実施形態に係る変換層を備えるニューラルネットワークのネットワーク構成例を示す図である。本発明の第２の実施形態に係るニューラルネットワークに入力される複素数データについて説明するための図である。一般的な複素数型畳み込みニューラルネットワークに係る畳み込み処理について説明するための図である。一般的な複素数型畳み込みニューラルネットワークにおける出力特徴マップと畳み込みフィルタとの関係について説明するための図である。本発明の第２の実施形態に係るニューラルネットワークのネットワーク構成例を示す図である。同実施形態に係るニューラルネットワークによる畳み込み処理における入力特徴マップと畳み込みフィルタの関係について説明するための図である。同実施形態に係る互いに構造の異なる一対の畳み込みフィルタについて説明するための図である。本発明の一実施形態に係る情報処理装置のハードウェア構成例である。一般的な実数型ニューラルネットワークの結合関係を示す図である。一般的な複素数型ニューラルネットワークの結合関係を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜１．背景＞
近年、情報処理技術の発展に伴い、種々のニューラルネットワークモデルが提案されている。また、上記のようなニューラルネットワークモデルには、入力される複素数や四元数などの多次元データに基づいて識別を行うモデルも存在する。

ここで、まず、一般的な実数型ニューラルネットワークおよび複素数型ニューラルネットワークの概要について説明する。図１３は、一般的な実数型ニューラルネットワークの結合関係を示す図である。図１３に示すように、実数型ニューラルネットワークでは、入力ｘ_Ｒ、重みｗ_Ｒ、および出力ｙ_Ｒは、すべて実数で定義される。すなわち、実数型ニューラルネットワークの結合関係は、下記の数式（１）により表現され得る。ここで、図１３および下記の数式（１）におけるＲは実数を示す。

このため、実数型ニューラルネットワークでは、複素数データをそのまま入力することができず、予め複素数データから実数を抽出する処理が求められる。

一方、図１４は、一般的な複素数型ニューラルネットワークの結合関係を示す図である。図１４に示すように、複素数型ニューラルネットワークでは、入力ｘ_Ｃ、重みｗ_Ｃ、および出力ｙ_Ｃは、すべて複素数で定義される。すなわち、複素数型ニューラルネットワークの結合関係は、下記の数式（２）により表現され得る。ここで、図１４および下記の数式（２）におけるＣは複素数を示す。

このため、複素数型ニューラルネットワークは、複素数データを入力とする処理に優れている。ここで、上記の複素数データとは、例えば、電波や音波など、波動の大きさや位相の進み・遅れに意味を持つデータや、風向きなど特定の方向に意味を持つデータを含む。

しかし、一般的な複素数型ニューラルネットワークでは、通常、同一層に属するニューロン間の位相差を扱うことが困難である。このため、一般的な複素数型ニューラルネットワークでは、例えば、アレーアンテナから得られる受信信号ベクトルを用いて到来方向を推定するなど、要素間の位相の相関関係が重要となる問題に対し、推定精度が劣化することが予想される。

上記についてより具体的に説明する。複素数型ニューラルネットワークにおける複素数の内積操作は、上記の数式（２）に示すように、入力ｘ_Ｃと重みｗ_Ｃの要素の積、および当該積の和となる。ここで、複素数の積には積算する要素同士の位相を加減算する作用があるが、複素数の和にはこのような作用は認められない。すなわち、位相は振幅によって重み付けられた平均となる。このため、一般的な複素数型ニューラルネットワークでは、同一層に属するニューロン間の相関関係が考慮され難い。

本技術思想は、上記の点に着目して発想されたものであり、複素数型ニューラルネットワークにおいて、同一の層に属するニューロン間、すなわち複素数データ間の位相差を算出することを可能とする。このために、本発明の一実施形態に係るニューラルネットワークは、複素数データに係る複数の集合間における要素ごとの位相差情報を出力する位相差演算層を備えること、を特徴の一つとする。本発明の一実施形態に係るニューラルネットワークが有する上記の特徴によれば、相対的な位相に意味を有するデータに対する推定精度をより向上させることが可能となる。

＜２．第１の実施形態＞
＜＜２．１．情報処理装置１０の機能構成例＞＞
続いて、本発明の第１の実施形態について説明する。まず、本実施形態に係る情報処理装置１０の機能構成例について述べる。図１は、本実施形態に係る情報処理装置１０の機能ブロック図の一例である。図１を参照すると、本実施形態に係る情報処理装置１０は、入力部１１０、推定部１２０、記憶部１３０、および出力部１４０を備える。以下、上記構成について、当該構成が有する機能を中心に説明する。

（入力部１１０）
入力部１１０は、操作者による種々の入力操作を検出する機能を有する。本実施形態に係る入力部１１０は、例えば、後述する推定部１２０による推定に用いるデータを指定する操作者の入力操作を検出してよい。このために、本実施形態に係る入力部１１０は、操作者による入力操作を検出するための各種の装置を含んでよい。入力部１１０は、例えば、各種のボタン、キーボード、タッチパネル、マウス、スイッチなどにより実現され得る。

（推定部１２０）
推定部１２０は、入力される複素数データを用いて、機械学習モデルに基づく状態推定を行う機能を有する。この際、本実施形態に係る推定部１２０は、ニューラルネットワークを用いて上記の状態推定を行ってよい。例えば、本実施形態に係る推定部１２０は、ニューラルネットワークを用いて、回帰問題や分類問題などに対する解答を出力することができる。本実施形態に係るニューラルネットワークの構成については、別途詳細に説明する。

（記憶部１３０）
記憶部１３０は、情報処理装置１０が備える各構成で用いられるプログラムやデータなどを記憶する機能を有する。本実施形態に係る記憶部１３０は、例えば、推定部１２０が備えるニューラルネットワークに用いられる種々のパラメータや、推定部１２０が出力する出力結果などを記憶してよい。

（出力部１４０）
出力部１４０は、操作者に対し種々の情報出力を行う機能を有する。本実施形態に係る出力部１４０は、例えば、推定部１２０による推定結果を出力してよい。このために、本実施形態に係る出力部１４０は、視覚情報を出力するディスプレイ装置を含んで構成され得る。ここで、上記のディスプレイ装置は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、タッチパネル、プロジェクタなどにより実現され得る。

以上、本実施形態に係る情報処理装置１０の機能構成例について説明した。なお、上記で説明した機能構成例はあくまで一例であり、本実施形態に係る情報処理装置１０の機能構成例は係る例に限定されない。本実施形態に係る情報処理装置１０は、図１に示す以外の構成をさらに備えてもよい。情報処理装置１０は、例えば、他の情報処理端末との情報通信を行う通信部などをさらに備えてもよい。本実施形態に係る情報処理装置１０の機能構成は、柔軟に設計変更され得る。

＜＜２．２．ネットワーク構成例＞＞
次に、本実施形態に係るニューラルネットワークのネットワーク構成例について詳細に説明する。図２は、本実施形態に係るニューラルネットワークのネットワーク構成例を示す図である。

図２を参照すると、本実施形態に係るニューラルネットワークは、第１の複素数型ニューラルネットワーク層ＣＶＮＮ１と、位相差演算層ＣＤ１、およびＣＶＮＮ２を備える。

ここで、本実施形態に係る第１の複素数型ニューラルネットワーク層ＣＶＮＮ１には、図示するように複素数データが入力されてよい。第１の複素数型ニューラルネットワーク層ＣＶＮＮ１は、入力される複素数データに基づく演算処理を実行し、当該演算処理の結果に該当する複素数データを出力する。

また、本実施形態に係る位相差演算層ＣＤ１は、複素数データ間の位相差を算出する機能を有する。より具体的には、本実施形態に係る位相差演算層ＣＤ１は、複素数データに係る複数の集合間における要素ごとの位相差情報を出力することができる。

また、本実施形態に係る第２の複素数型ニューラルネットワーク層ＣＶＮＮ２は、位相差演算層ＣＤ１により出力される位相差情報に基づく演算処理を行い、当該演算処理の結果に該当する複素数データを出力してよい。

ここで、本実施形態に係る位相差演算層ＣＤ１の構成について詳細に説明する。図３は、本実施形態に係る位相差演算層ＣＤ１の構成について説明するための図である。図３を参照すると、本実施形態に係る位相差演算層ＣＤ１は、入力層ＩＬ、中間層ＨＬ、分割層ＤＬ、統合層ＵＬ、および出力層ＯＬを備える。なお、図３の上部には、位相差演算層の構成の概略が示されており、図３の下部には、中間層ＨＬ、分割層ＤＬ、統合層ＵＬを構成するニューロンの一例が示されている。すなわち、図３では、丸が単一のニューロンを、角丸の四角形が複数のニューロンの集合をそれぞれ示している。

まず、入力層ＩＬに、第１の複素数型ニューラルネットワーク層ＣＶＮＮ１から出力される複素数データが入力され、中間層ＨＬに伝播される。

次に、本実施形態に係る分割層ＤＬにより、中間層ＨＬを構成するニューロンの集合が２つ以上の集合に分割される。図３の一例では、中間層ＨＬを構成する６つのニューロンが分割層ＤＬにおいて、それぞれ３つずつのニューロンを含む２つの集合ＡおよびＢに分割される場合が示されている。上記のような分割を行うため、本実施形態に係る中間層ＨＬを構成するニューロンの数は偶数であってよい。上記の処理により、集合間における要素ごとの位相差を出力することが可能となる。

続く統合層ＵＬでは、分割層ＤＬにおける集合間の各要素を一対一で対応付け、当該要素間の位相差を算出する。この際、順方向伝播において、要素ｚ_１が集合Ａに、ｚ_２が集合Ｂにそれぞれ属するとすると、統合層ＵＬは、下記の数式（３）または数式（４）などの関数を用いて要素間の位相差を算出することが可能である。なお、下記の数式（３）における＊は、複素共役記号を示す。すなわち、本実施形態に係る位相差演算層ＣＤ１は、集合間において対応する要素の共役積に基づいて位相差を出力してよい。

次に、逆方向伝播（誤差逆伝播）について説明する。図４は、本実施形態に係る順方向伝播の一例を示す図である。このように、順方向伝播において、要素ｚ_１およびｚ_２が、ｆ（ｚ_１，ｚ_２）＝αｚ_１ｚ_２ ^＊＋β＝ｚ_３（ただし、αおよびβはスカラーの実定数）、によってｚ_３に変換され、逆方向伝播において、上層から誤差勾配δｚ_３が伝播してきた際、要素ｚ_１およびｚ_２に対応するそれぞれのニューロンが伝播する誤差勾配δｚ_１およびδｚ_２は、下記の数式（５）および（６）により表現することができる。

このように、本実施形態に係る位相差演算層ＣＤ１では、誤差勾配δｚ_１およびδｚ_２を下層側に伝播させることで、位相差演算処理を複素数型ニューラルネットワークの枠組みで実現することができる。

以上、本実施形態に係るニューラルネットワークの構成例について説明した。なお、図２や図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係るニューラルネットワークの構成は係る例に限定されない。例えば、本実施形態に係るニューラルネットワークは、複素数型ニューラルネットワーク層を３つ以上備えてもよい。また、例えば、本実施形態に係る位相差演算層ＣＤ１は、複数の中間層ＨＬ１を備えてもよい。また、位相差演算層ＣＤ１は、中間層ＨＬ、分割層ＤＬ、統合層ＵＬのセットを複数備えることも可能である。

また、本実施形態に係るニューラルネットワークは、複素数型データを実数型データに変換する変換層、および当該変換層により出力される実数型データに基づく演算処理を実行する実数型ニューラルネットワーク層をさらに備えてもよい。

図５は、本実施形態に係る変換層を備えるニューラルネットワークのネットワーク構成例を示す図である。図５を参照すると、本実施形態に係るニューラルネットワークは、図２に示した構成に加え、変換層ＴＬ１と第１の実数型ニューラルネットワーク層ＮＶＮＮ１をさらに備えることができる。

ここで、位相差演算の結果を複素数ｕとすると、変換層ＴＬ１は、下記の数式（７）により複素数ｚを得ることができる。この際、数式（７）におけるＡｒｇ（ｕ）は、ｕの位相であってよい。次に、変換層ＴＬ１は、実部を抽出するための下記の数式（８）と、虚部を抽出するための下記の数式（９）をそれぞれ独立に適用することにより、ｕの振幅に係る実数ニューロン（ｘ＝｜ｕ｜）とｕの位相に係る実数ニューロン（ｙ＝Ａｒｇ（ｕ））とを求めることが可能である。この際、Ａｒｇ（ｕ）には、位相差演算処理による複素数型ニューロン間の位相差成分が含まれているため、実数として位相差が得られることとなる。

以上、本実施形態に係るニューラルネットワークの構成について詳細に説明した。本実施形態に係るニューラルネットワークによれば、予め入力データ間の全組み合わせに係る位相差を算出することなく、当該組み合わせの対応関係を自動的に決定することができ、演算コストを大幅に低減することが可能となる。また、本実施形態に係るニューラルネットワークによれば、ニューロン間における位相の相関関係を考慮することができ、回帰問題や分類問題の推定精度が大きく向上することが期待される。

なお、上記の説明では、入力されるデータが複素数データである場合を中心に述べたが、本技術思想は、多元数型ニューラルネットワークにも適用可能である。例えば、多元数体系の一つでる四元数ニューラルネットワークでは、単一の四元数ニューロンを、ｑ＝ａ＋ｂｉ＋ｃｊ＋ｄｋ、と表現することができる。ここで、上記の式におけるｉ、ｊ、およびｋは、虚数単位であってよい。この際、上述した複素数型ニューラルネットワークにおいて位相差を算出する関数ｆ（ｚ_１，ｚ_２）＝ｚ_１ｚ_２ ^＊と同様に、四元数ニューラルネットワークでは、２つの四元数ニューロンの積が算出可能である。このため、共役な四元数ｑ^＊＝ａ−ｂｉ−ｃｊ−ｄｋを用いて関数ｆ（ｑ_１，ｑ_２）＝ｑ_１ｑ_２ ^＊と求めることにより、四元数ニューラルネットワークにおいてニューロン間の位相差を考慮することが可能となる。

＜３．第２の実施形態＞
＜＜３．１．第２の実施形態の概要＞＞
続いて、本発明の第２の実施形態について説明する。本発明の第２の実施形態に係るニューラルネットワークは、入力される複素数データを畳み込むことで複数の特徴マップを出力し、当該特徴マップ間における要素ごとの位相差を算出することができる。すなわち、本実施形態に係るニューラルネットワークは、複素数型畳み込みニューラルネットワーク（複素数型ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）であることを特徴の一つとする。

上述したように、非特許文献１には、実数ニューロンで構成される畳み込みニューラルネットワークを拡張した複素数型畳み込みニューラルネットワークが開示されている。しかし、非特許文献１に記載の構成では、ニューロン間における位相差を考慮できないため、位相の相関関係に意味を有するデータに対し、推定精度が劣化することが予想される。

ここで、上記の位相の相関関係に意味を有するデータとしては、例えば、信号にフーリエ変換を適用することで得られる周波数スペクトルが挙げられる。周波数スペクトルは複素数で構成されるため、振幅と位相を抽出すること可能であるが、当該位相はフーリエ変換を適用する際の信号の切り出しタイミングや信号振幅の変化などの要因により０〜２πの範囲で変化するため、絶対的な値としてパターン認識などの特徴量に用いることが困難である。

このため、周波数スペクトルを特徴量として用いるためには、例えば、隣接する近傍周波数ビン間の位相差に変換するなどの処理が必要となる。このように得られた位相差は相対的な値であるため、上述のような位相変化に対して頑健な特徴量となり得る。

図６は、本実施形態に係るニューラルネットワークに入力される複素数データについて説明するための図である。図６の左側には、レーダがオブジェクトＯ１により反射された際に得られる位相値Ｐ１〜Ｐ６のイメージが示されている。この際、位相値Ｐ１〜Ｐ６は、半波長の単位で折り返されるため、図中に示す位相のイメージとは異なり、絶対的な値に意味を有しない。このため、上記のような位相値を非特許文献１に記載されるような構成でそのまま処理しても推定精度が劣化することが予想される。

一方、位相同士の相対的な関係、すなわち位相差には、オブジェクトＯ１の物体形状による差異が現れることが予想される。例えば、図６には、レーダの受信信号から得られる複素数データＣＶＤ１が示されている。ここで、複素数データＣＶＤ１は、例えば、受信信号の強度を、距離および角度による二次元空間で表したデータであってもよい。この際、複素数データＣＶＤ１の各セルには、それぞれ位相θ_１〜θ_ｎが格納され得る。一方、この際、位相差を抽出するための位相の組み合わせは膨大となるため、手動ですべての組み合わせを作成するのには限界がある。

このため、本実施形態に係るニューラルネットワークでは、互いに構造の異なる一対の畳み込みフィルタを用いることで、位相の組み合わせパターンを自動的に獲得することを可能とする。

以下、上記の特徴を有する本実施形態に係るニューラルネットワークの構成について詳細に説明する。なお、以下の説明においては、第１の実施形態との差異について中心に述べ、第１の実施形態と共通する構成については詳細な説明を省略する。

＜＜３．２．ネットワーク構成例＞＞
（一般的な複素数型畳み込みニューラルネットワーク）
まず、本実施形態に係るニューラルネットワークの優位性を明確とするため、一般的な複素数型畳み込みニューラルネットワークについて説明する。一般的な複素数型畳み込みニューラルネットワークでは、実数型畳み込みニューラルネットワークと同様に、畳み込み処理とプーリング処理とが繰り返し適用され、最終的に複素数型ニューラルネットワークに接続される。

ここで、上記の畳み込み処理について説明する。例えば、第ｌ−１層でＩ×Ｊ（ｉ＝０，１，…，Ｉ；ｊ＝０，１，…，Ｊ）の大きさを有する複素数の入力特徴マップｈと、Ｐ×Ｑ（ｐ＝０，１，…，Ｐ；ｑ＝０，１，…，Ｑ）の大きさを有する複素数の重みｗと、複素数のバイアスｂを用いると、出力される特徴マップｕは、下記の数式（１０）により表現できる。なお、以降の説明においては、重みｗとバイアスｂを含めて、畳み込みフィルタ、と称する。

より具体的には、（Ｉ，Ｊ，Ｐ，Ｑ）＝（５，５，３，３）のとき、図７における入力特徴マップの破線枠内のニューロンと重みの積和結果にバイアスｂを足し込んだものが出力特徴マップｕの要素となり得る。図７は、一般的な複素数型畳み込みニューラルネットワークに係る畳み込み処理について説明するための図である。この際、一般的な複素数型畳み込みニューラルネットワークでは、図７に示す破線枠をスライドさせてニューロンの組み合わせを変更することで出力特徴マップｕの各要素を計算することが可能である。また、得られた出力マップｕに対し、任意の活性化関数が適用されてもよい。

ここで、一般に、畳み込み処理では、複数の入力特徴マップに対し複数の畳み込みフィルタが適用される。このため、例えば、入力特徴マップｈおよび畳み込みフィルタの数をそれぞれＫ個およびＭ個とすると、上述した数式（１０）は、下記の数式（１１）に置換することが可能である。

この際、出力特徴マップｕの数と畳み込みフィルタの数は等しくなる。図８は、一般的な複素数型畳み込みニューラルネットワークにおける出力特徴マップと畳み込みフィルタとの関係について説明するための図である。図８には、３個の入力特徴マップｍ１〜ｍ３と、２個の畳み込みフィルタｆ１およびｆ２と、２個の出力特徴マップｕ１およびｕ２が示されている。この際、出力特徴マップｕ１は、ｕ１＝ｆ１＊ｍ１＋ｆ１＊ｍ２＋ｆ１＊ｍ３と表すことができる。また、出力特徴マップｕ２は、ｕ２＝ｆ２＊ｍ１＋ｆ２＊ｍ２＋ｆ２＊ｍ３と表すことができる。ただし、ここで上記の＊は、畳み込み処理を意味する。

このように、一般的な複素数型畳み込みニューラルネットワークでは、畳み込み処理の際、畳み込みフィルタ内での複素数の積和演算が行われる。当該演算の結果、得られる出力特徴マップｕは、実数型畳み込みニューラルネットワークの場合と同様、入力特徴マップと畳み込みフィルタとの類似度となる。この際、上記の類似度は、比較可能な尺度である必要があるため、出力特徴マップの振幅が実質的な類似度の指標となり得る。

また、複素数型畳み込みニューラルネットワークを用いた学習において、所定要素の類似度を大きくするように複素数の重みを修正する場合、重みの振幅は入力特徴マップの振幅と共起するように修正され、重みの位相は入力特徴マップの逆相に定数を足し込んだものとなるように修正される。ただし、上記の定数は１回の畳み込み演算に関して共通であってよい。また、重みの位相が上記のように修正される理由は、畳み込みに係る積和演算の和の操作において、すべての位相が同一（同位相）であるときに最も振幅、すなわち類似度が大きくなるためである。

次に、一般的な複素数型畳み込みニューラルネットワークにおけるプーリング処理について説明する。一般的な複素数型畳み込みニューラルネットワークにおいて用いられるプーリング処理としては、例えば、下記の数式（１２）により定義される最大振幅プーリングが挙げられる。プーリング処理では、畳み込み処理の出力である出力特徴マップｕを入力として、次層の畳み込み処理に対する入力となる入力特徴マップｈを生成する。ただし、Ｐ_ｉ，ｊは、プーリング処理を適用する（ｉ，ｊ）を中心としたＵ×Ｈ領域に係るニューロンの集合である。

最大振幅プーリング処理では、複素数の振幅の最大値に対応する特徴マップの要素のみを抽出することで、対象とする特徴量の位置がマップ内において変化する場合であっても当該位置の変化を無視することができ、ネットワークが特徴量の位置に対する不変性を獲得することが可能となる。

（本実施形態に係るニューラルネットワーク）
次に、本実施形態に係るニューラルネットワークの構成について詳細に説明する。上述したとおり、本実施形態に係るニューラルネットワークは、相対的な位相に意味を有するデータへの対応を可能とするものである。このため、本実施形態に係るニューラルネットワークは、上述した一般的な複素数型畳み込みニューラルネットワークが備える構成に加え、入力特徴マップ間の要素ごとの位相差を算出する機能を有してよい。

図９は、本実施形態に係るニューラルネットワークのネットワーク構成例を示す図である。図９を参照すると、本実施形態に係るニューラルネットワークは、第１の複素数型畳み込みニューラルネットワーク層ＣＶＣＮＮ１、位相差演算層ＣＤ２、第２の複素数型畳み込みニューラルネットワーク層ＣＶＣＮＮ２、プーリング層ＰＬ、変換層ＴＬ１、および第１の実数型ニューラルネットワーク層ＮＶＮＮ１を備える。

まず、本実施形態に係る第１の複素数型畳み込みニューラルネットワーク層ＣＶＣＮＮ１による畳み込み処理について説明する。本実施形態に係る第１の複素数型畳み込みニューラルネットワーク層ＣＶＣＮＮ１は、入力される複数の入力特徴マップに対し、互いに構造の異なる一対の畳み込みフィルタを用いた畳み込み処理を行うことができる。

図１０は、本実施形態に係るニューラルネットワークによる畳み込み処理における入力特徴マップと畳み込みフィルタの関係について説明するための図である。本実施形態に係る第１の複素数型畳み込みニューラルネットワーク層ＣＶＣＮＮ１は、例えば、図１０に示すように、入力される３つの入力特徴マップｍ１〜ｍ３に対し、互いに構造の異なる一対の畳み込みフィルタｇ１およびｇ２を用いて畳み込み処理を実行し、出力特徴マップｕ１およびｕ２を得ることができる。

この際、出力特徴マップｕ１は、ｕ１＝ｇ１＊ｍ１＋ｇ１＊ｍ２＊ｇ１＊ｍ３、により表される。また、出力特徴マップｕ２は、ｕ２＝ｇ２＊ｍ１＋ｇ２＊ｍ２＊ｇ２＊ｍ３、により表される。

より具体的には、本実施形態に係る畳み込み処理では、下記の数式（１３）を適用することで、２つの出力特徴マップｕ１およびｕ２を求めることができる。ここで、下記の数式（１３）におけるＰ［・］は、一対の畳み込みフィルタ（ｍ＝０，１）を示す。

ただし、この際、畳み込みフィルタに係る重みには、一般的な複素数型畳み込みニューラルネットワークとは異なり、実数型の重みパラメータが用いられてよい。重みパラメータに実数を用いることで、入力特徴マップの振幅のみに反応する畳み込みフィルタを学習することができ、さらに畳み込んだ領域についての平均的な位相を有する出力特徴マップを生成することが可能となる。また、本実施形態に係る畳み込み処理には、バイアス項が含まれなくてよい。

次に、本実施形態に係る位相差演算層ＣＤ２は、得られた出力特徴マップｕ１およびｕ２の要素ごとに位相差を算出する関数を適用し、図１０に示すように、１つの位相差マップｖ１に統合する。すなわち、本実施形態に係る位相差演算層ＣＤ２も、第１の実施形態に係る位相差演算層ＣＤ１と同様に、複素数データに係る複数の集合間における要素ごとの位相差を出力することができる。この際、本実施形態に係る位相差演算層ＣＤ２は、例えば、上述した数式（３）や数式（４）を適用することで、位相差マップｖ１への統合を実現することが可能である。

例えば、位相差演算層ＣＤ２は、数式（３）を下記の数式（１４）のように適用することで統合した位相差マップｖ１を得ることができる。ここで、統合に用いられる出力特徴マップｕは、偶数であってよい。例えば、Ｍ個の出力特徴マップｕを使用する際、下記の数式（１３）を適用することにより、Ｍ／２個の位相差マップｖを得ることができる。ただし、上線は複素共役を示す。

なお、この際、得られる位相差マップｖは、上述したように、互いに構造の異なる一対の畳み込みフィルタを用いて抽出された２つの出力特徴マップｕ１およびｕ２の要素ごとの位相差を含む。

図１１は、本実施形態に係る互いに構造の異なる一対の畳み込みフィルタについて説明するための図である。図１１には、構造の異なる一対の畳み込みフィルタｇ１およびｇ２の例がパターン１〜３により示されている。上述したように、本実施形態に係る一対の畳み込みフィルタｇ１およびｇ２は、実数の重みパラメータを有してよい。重みパラメータに複素数を用いる場合、得られる出力特徴マップｕ１およびｕ２の位相には、重みの初期値などにより変動する定数項が現れるが、上記のような不定の定数項は、位相差を算出する関数を適用する場合の誤差要因となり得る。このため、本実施形態では、実数の重みパラメータを用いることで、上記の誤差要因を排除することが可能である。

なお、図１１においては、説明を容易とするため、一対の畳み込みフィルタｇ１およびｇ２が３×３のサイズであり、また、０または１の重みパラメータを有する場合の例を示しているが、本実施形態に係る重みパラメータは、係る例に限定されない。

本実施形態に係る構造の異なる一対の畳み込みフィルタｇ１およびｇ２は、例えば、図１１のパターン１に示すように、中心の平均位相と周囲の平均位相とをそれぞれ抽出するものであってもよい。また、対の畳み込みフィルタｇ１およびｇ２は、例えば、パターン２に示すように、左列の平均位相と中央列の平均位相とをそれぞれ抽出するものであってもよい。また、対の畳み込みフィルタｇ１およびｇ２は、例えば、パターン３に示すように、左上方と右下方とで対象となるように平均位相をそれぞれ抽出するものであってもよい。

このように、本実施形態に係る一対の畳み込みフィルタｇ１およびｇ２によれば、例えば、入力特徴マップ上で所定の位相が周囲の位相に対して異なる、などの特徴を有するデータ、すなわち、位相の相関関係に意味を有するデータに対して有効な特徴を抽出することが可能となる。また、本実施形態に係るニューラルネットワークによれば、モデルの訓練によってより有効な一対の畳み込みフィルタのパターンを自動的に決定することが可能となる。

本実施形態では、上記のように取得した位相差マップｖを、第２の複素数型畳み込みニューラルネットワーク層ＣＶＣＮＮ２の入力特徴マップとして用いることで、位相の相関関係に意味を有するデータに有効なネットワークを構成することが可能である。

また、本実施形態に係るニューラルネットワークは、第１の実施形態と同様に、変換層ＴＬ１および第１の実数型ニューラルネットワーク層ＮＶＮＮ１をさらに備えてもよい。上述したように、本実施形態に係る変換層ＴＬ１によれば、１つの複素数データを２つの実数データに変換することができ、実数としての位相差を得ることが可能となる。なお、本実施形態に係る第１の実数型ニューラルネットワーク層ＮＶＮＮ１は、例えば、全結合層やソフトマックス関数などから構成されてもよい。

＜４．ハードウェア構成例＞
次に、本発明の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図１２は、本発明の一実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。図１２を参照すると、情報処理装置１０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力部８７８と、出力部８７９と、記憶部８８０と、ドライブ８８１と、接続ポート８８２と、通信部８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（ＣＰＵ８７１）
ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、記憶部８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力部８７８）
入力部８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、マイク、及びレバー等が用いられる。さらに、入力部８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

（出力部８７９）
出力部８７９には、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置（表示装置）、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

（記憶部８８０）
記憶部８８０は、各種のデータを格納するための装置である。記憶部８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信部８８３）
通信部８８３は、ネットワーク９０３に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。また、内線電話網や携帯電話事業者網等の電話網に接続してもよい。

＜５．まとめ＞
以上説明したように、本発明の一実施形態に係る情報処理装置１０は、複素数型ニューラルネットワークを用いた状態推定を行う機能を有する。上記の複素数型ニューラルネットワークは、複素数データに係る複数の集合間における要素ごとの位相差を出力する位相差演算層を備えること、を特徴の一つとする。係る構成によれば、相対的な位相に意味を有するデータに対する推定精度をより向上させることが可能となる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０情報処理装置
１１０入力部
１２０推定部
１３０記憶部
１４０出力部
ＣＶＮＮ１第１の複素数型ニューラルネットワーク層
ＣＤ１、ＣＤ２位相差演算層
ＣＶＮＮ２第２の複素数型ニューラルネットワーク層
ＴＬ１変換層
ＮＶＮＮ１第１の実数型ニューラルネットワーク層
ＣＶＣＮＮ１第１の複素数型畳み込みニューラルネットワーク層
ＣＶＣＮＮ２第２の複素数型畳み込みニューラルネットワーク層
ＰＬ１プーリング層

Claims

ニューラルネットワークを用いて状態推定を行う推定部、
を備え、
前記ニューラルネットワークは、
複素数データを入力とする第１の複素数型ニューラルネットワーク層と、
前記複素数データに係る複数の集合間における要素ごとの位相差を出力する位相差演算層と、
前記位相差に基づいて複素数データを出力する第２の複素数型ニューラルネットワーク層と、
を備える、
情報処理装置。
前記位相差演算層は、前記集合間において対応する要素の共役積に基づいて前記位相差を出力する、
請求項１に記載の情報処理装置。
前記位相差演算層は、同一層に属する複素数型ニューロンを少なくとも２以上の集合に分割し、当該集合間における要素ごとの位相差を出力する、
請求項１または２に記載の情報処理装置。
前記第１の複素数型ニューラルネットワーク層は、複素数型畳み込みニューラルネットワーク層である、
請求項１または２に記載の情報処理装置。
前記複素数型畳み込みニューラルネットワーク層は、互いに構造の異なる一対の畳み込みフィルタを用いて畳み込み処理を実行する、
請求項４に記載の情報処理装置。
前記畳み込みフィルタは、実数型の重みを有する、
請求項５に記載の情報処理装置。
前記ニューラルネットワークは、前記第２の複素数型ニューラルネットワーク層により出力される複素数型データを実数型データに変換する変換層、
をさらに備える、
請求項１〜６のいずれかに記載の情報処理装置。
ニューラルネットワークを用いて状態推定を行う情報処理方法であって、
複素数データを入力することと、
複素数データに係る複数の集合間における要素ごとの位相差を出力することと、
前記位相差に基づいて複素数データを出力することと、
を含む、
情報処理方法。
コンピュータを、
ニューラルネットワークを用いて状態推定を行う推定部、
を備え、
前記ニューラルネットワークは、
複素数データを入力とする第１の複素数型ニューラルネットワークと、
前記複素数データに係る複数の集合間における要素ごとの位相差を出力する位相差演算層と、
前記位相差に基づいて複素数データを出力する第２の複素数型ニューラルネットワーク層と、
を備える、
情報処理装置、
として機能させるためのプログラム。