JP7446903B2

JP7446903B2 - 画像処理装置、画像処理方法及び画像処理システム

Info

Publication number: JP7446903B2
Application number: JP2020076511A
Authority: JP
Inventors: ヴィヴィアナクレシテリ; 俊大島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2024-03-11
Anticipated expiration: 2040-04-23
Also published as: JP2021174183A; US20210334580A1; US11954600B2

Description

本発明は、画像処理装置、画像処理方法及び画像処理システムに関する。

近年、ＩＴ化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増えるにつれ、その映像におけるオブジェクトを自在に検出し、正確に識別するニーズが高まっている。
オブジェクト検出の手段の一つとして、深層学習を用いたオブジェクト検出用ニューラルネットワークが知られている。オブジェクト検出用ニューラルネットワークを用いることにより、対象の画像に写っているそれぞれのオブジェクトのカテゴリー及び領域を高精度で判定することが可能となり、これらのオブジェクト検出用ニューラルネットワークが様々な分野に適用されている。

例えば、特許文献１には「カメラによって取得されたシーンの画像から人間を検出するための方法およびシステムが提示される。画像内のピクセルの勾配が決定され、ヒストグラムのビンに分類される。ヒストグラムのビンごとに積分画像が保存される。積分画像からの特徴が抽出される。抽出された特徴は、テスト画像内の可変サイズのランダムに選択されたピクセルのブロックの実質的により大きなセットのサブセットに対応する。特徴を
カスケードされた分類子に適用することで、テスト画像に人間が含まれているかどうかを判断する。」技術が記載されている。

ＵＳ２００７０２３７３８７Ａ１

特許文献１に記載の技術では、対象の画像の特徴を分析することにより、当該画像に人間が写っているか否かを判定することができる。

しかし、特許文献１に記載の技術では、処理対象の画像がカメラから取得された、ＲＧＢ画像等のようなシングルソースの画像であるため、例えば画像が撮影された撮影環境が暗い場合には、ＲＧＢカメラで取得できる情報が限定的となり、オブジェクト検出の精度が不十分となることがある。

そこで、本発明では、複数の、異なる種類の画像（例えば、ＲＧＢ画像と赤外線画像）を合成し、この合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いてオブジェクト検出を行うことで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することを目的とする。

上記の課題を解決するために、代表的な本発明の画像処理装置の１つは、第１のＭチャンネル画像と、前記第１のＭチャンネル画像から生成される第１のＮチャンネル画像とから生成される第１のＫチャンネル画像を用いて訓練されるオブジェクト検出用ニューラルネットワークを格納するストレージ部と、同一の被写体を含む第２のＭチャンネル画像及び第２のＮチャンネル画像とをセンサから受信する受付部と、前記第１のＫチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、前記第２のＭチャンネル画像と前記第２のＮチャンネル画像とから生成される第２のＫチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する画像分析部とを含む。

本発明によれば、複数の、異なる種類の画像（例えば、ＲＧＢ画像と赤外線画像）を合成し、この合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いてオブジェクト検出を行うことで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することができる。
上記した以外の課題、構成および効果は、以下の発明を実施するための形態の説明により明らかにされる。

図１は、本発明の実施形態を実施するためのコンピュータシステムを示す図である。図２は、本発明の実施形態に係る画像処理システムの構成の一例を示す図である。図３は、本発明の実施形態に係る画像処理方法における訓練処理の流れを示す図である。図４は、本発明の実施形態に係る画像処理方法における推論処理の流れを示す図である。図５は、本発明の実施形態に係る画像処理装置の訓練段階の論理構成の一例を示す図である。図６は、本発明の実施形態に係る画像処理装置の推論段階の論理構成の一例を示す図である。図７は、本発明の実施形態に係る画像処理装置をＲＧＢ画像及び赤外線画像に適用した場合の訓練段階の論理構成の一例を示す図である。図８は、本発明の実施形態に係る画像処理装置をＲＧＢ画像及び赤外線画像に適用した場合の推論段階の論理構成の一例を示す図である。図９は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の訓練段階の論理構成の一例を示す図である。図１０は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の推論段階の論理構成の一例を示す図である。図１１は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の訓練段階の論理構成の一例を示す図である。図１２は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の推論段階の論理構成の一例を示す図である。図１３は、本発明の実施形態に係る画像生成部を敵対的生成ネットワークとして実施した場合の一例を示す図である。図１４は、本発明の実施形態に係る画像生成部の訓練方法の一例を示す図である。図１５は、本発明の実施形態に係る画像合わせ部の一例を示す図である。

以下、図面を参照して本発明の実施形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
図面において示す各構成要素の数、種類、形式、構成などは、発明の理解を容易にするため、実際の数、種類、形式、構成などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された数、種類、形式、構成等に限定されない。

また、同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。

実施例において、本発明の機能を実施するための装置、方法、及びシステムについて説明する場合があるが、本発明はこれらの実施形態に限定されず、コンピュータによってプログラムとして実行されてもよい。この場合、コンピュータは、プロセッサ（例えばＣＰＵ、ＧＰＵ）によりプログラムを実行し、記憶資源（例えばメモリ）やインターフェースデバイス（例えば通信ポート）等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）等である。
また、ここでのプログラムは、プログラムソースからコンピュータにインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施例において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。
（ハードウェア構成）

まず、図１を参照して、本開示の実施形態を実施するためのコンピュータシステム３００について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインタフェース３１４、Ｉ／Ｏ（入出力）デバイスインタフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェースユニット３０９、及びＩ／Ｏバスインターフェースユニット３１０を介して、相互的に接続されてもよい。

コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。ある実施形態では、コンピュータシステム３００は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム３００は単一のＣＰＵシステムであってもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

ある実施形態では、メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。メモリ３０４は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、画像処理アプリケーション３５０を格納していてもよい。ある実施形態では、画像処理アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよい。

ある実施形態では、画像処理アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、画像処理アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０間の通信を行うバスインターフェースユニット３０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインタフェースユニット３１２，３１４，３１６、及び３１８と通信してもよい。

表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。

例えば、コンピュータシステム３００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。

Ｉ／Ｏインタフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インタフェースユニット３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。

ストレージインタフェース３１４は、１つ又は複数のディスクドライブや直接アクセスストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施形態では、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、ストレージ装置３２２に記憶され、必要に応じてストレージ装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインタフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

ある実施形態では、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

次に、図２を参照して、本発明の実施形態に係る画像処理システムの構成について説明する。

図２は、本発明の実施形態に係る画像処理システム２００の構成の一例を示す図である。図２に示すように、画像処理システム２００は、主にクライアント端末２１５Ａ、２１５Ｂ、センサ２２５Ａ、２２５Ｂ、ネットワーク２３５、及び画像処理装置２０５からなる。画像処理装置２０５は、ネットワーク２３５を介して、クライアント端末２１５Ａ、２１５Ｂ、及びセンサ２２５Ａ、２２５Ｂと接続されている。

クライアント端末２１５Ａ、２１５Ｂは、オブジェクト検出の処理を画像処理装置２０５に依頼するための端末である。クライアント端末２１５Ａ、２１５Ｂは、オブジェクト検出の処理の条件等の指定する電文を画像処理装置２０５に送信したり、画像処理装置２０５から、オブジェクト検出の結果を示すオブジェクト検出結果情報を受信したりしてもよい。
クライアント端末２１５Ａ、２１５Ｂは、個人に利用される端末であってもよく、警察署や民間企業等の組織における端末であってもよい。また、クライアント端末２１５Ａ、２１５Ｂは、例えば、デスクトップパソコン、ノートパソコン、タブレット、スマートフォン等、任意のデバイスであってもよい。

センサ２２５Ａ、２２５Ｂは、自然現象や人工物の機械的・電磁気的・熱的・音響的・化学的性質に関する情報を取得し、人間や機械が扱い易い形式の情報や信号に変換する装置である。例えば、本発明の実施形態に係るセンサ２２５Ａ、２２５Ｂは、分析用の画像（ＲＧＢ画像、赤外線画像）を取得するカメラであってもよい。
図２に示すように、画像処理システム２００は、２つのセンサ２２５Ａ、２２５Ｂを含んでもよいが、本発明はこれに限定されず、センサの数及び種類は画像処理システム２００の使用目的に応じて適宜に選択されてもよい。従って、センサ２２５Ａ、２２５Ｂが同じ種類のセンサであってもよく、互いに異なるセンサであってもよい。例えば、センサ２２５ＡがＲＧＢ画像を取得することができるカメラであり、センサ２２５Ｂが赤外線画像を取得するカメラとする構成も可能である。
また、画像処理システム２００は、図２に示すような２つのセンサを有する構成だけでなく、複数の異なる種類の画像を取得することができる単独のセンサを有する構成とすることも可能である。一例として、画像処理システム２００は、ＲＧＢ画像を取得するモードと、赤外線画像を取得するモードとの間で動的に切り替えることが可能なセンサを含んでもよい。

画像処理装置２０５は、所定の対象画像に対するオブジェクト検出処理を施し、当該対象画像におけるオブジェクトを正確に検出し、識別する装置である。画像処理装置２０５は、例えば、対象の画像におけるそれぞれのオブジェクトのカテゴリー及び領域に関する情報を検出結果として出力してもよい。
図２に示すように、画像処理装置２０５は、受付部２１０と、画像生成部２２０と、画像合成部２３０と、画像分析部２４０と、画像合わせ部２４５と、オブジェクト検出ネットワーク２５５を格納するストレージ部２５０とを含む。

受付部２１０は、訓練用の画像である第１のＭチャンネル画像（例えば、ＲＧＢ画像）と、分析用の画像である第２のＭチャンネル画像（例えば、ＲＧＢ画像）及び第２のＮチャンネル画像（例えば、赤外線画像）を取得するための機能部である。例えば、受付部２１０は、第１のＭチャンネル画像を事前に用意されている訓練用画像データベース（図示せず）から取得して、第２のＭチャンネル画像及び第２のＮチャンネル画像をセンサ２２５Ａ、２２５Ｂ（あるいは、クライアント端末２１５Ａ、２１５Ｂ又は）から取得してもよい。
なお、ここでのＭ、Ｎ、及びＫは、画像のチャンネル数を表す数字であり、画像の種類によって定められる。Ｍ及びＮは互いに異なる数字であってもよく、画像の種類によっては、同一の数字であってもよい。例えば、ＲＧＢ画像の場合、チャンネル数が３（赤、緑、青）であり、赤外線画像の場合、チャンネル数が１つのみである。以下では、Ｍチャンネル画像がＲＧＢの３チャンネル画像であり、Ｎチャンネル画像が赤外線の１チャンネル画像であり、Ｋチャンネル画像がＲＧＢ画像及びＮチャンネル画像を合成することによって得られる３チャンネルの画像である場合を一例として説明するが、本発明はこれに限定されず、Ｍチャンネル画像及びＮチャンネル画像の種類及びチャンネル数はＲＧＢ－Ｄ画像、レントゲン画像、熱画像等、任意の種類の画像であってもよい。

画像生成部２２０は、Ｍチャンネル画像をＮチャンネル画像に変換することで、新たなＮチャンネル画像を生成する機能部である。画像生成部２２０は、例えば、第１のＭチャンネル画像に基づいて、第１のＮチャンネル画像の候補画像を生成する生成ネットワークと、当該候補画像を、第１のＮチャンネル画像のグラウンドトゥルースに比較することにより、候補画像のグラウンドトゥルースに対する乖離度を判定し、所定の乖離度基準を満たす候補画像を、第１のＮチャンネル画像として出力する識別ネットワークとを備える敵対的生成ネットワークであってもよい。
このような構成によれば、画像生成部２２０は、特定のチャンネル数の画像を、別のチャンネル数の画像に変換するように訓練されてもよい。これにより、画像生成部２２０は、例えばＲＧＢ画像のような３チャンネル画像を入力し、当該ＲＧＢ画像を赤外線画像のような１チャンネル画像に変換した新たな赤外線画像を生成することができる。

画像合成部２３０は、Ｍチャンネル画像とＮチャンネル画像とを合成することで、Ｋチャンネル画像を生成する機能部である。例えば、画像合成部２３０は、ＲＧＢ画像と、画像生成部２２０によって生成された、当該ＲＧＢ画像を赤外線画像に変換した赤外線画像とを合成することで、ＲＧＢ画像の特徴と、赤外線画像の特徴との両方を含むＫチャンネル画像を生成することができる。
ここで、Ｍチャンネル画像とＮチャンネル画像とを合成するためには、画像合成部２３０は、Ｍチャンネル画像（ＲＧＢ画像）から色調成分を抽出し、Ｎチャンネル画像（赤外線画像）からエッジ成分及び階調成分を抽出し、抽出された各成分を用いて合成することでＫチャンネル画像を生成してもよい。
画像合成部２３０は、例えばＲＧＢ画像及び赤外線画像を合成した合成画像を生成することで、低照度の環境においても、輪郭が鮮明で色鮮やかな画像を生成できる。

画像分析部２４０は、第１のＫチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、第２のＭチャンネル画像と第２のＮチャンネル画像とから生成される第２のＫチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する機能部である。画像分析部２４０によって出力される検出結果情報は、Ｋチャンネル画像におけるそれぞれのオブジェクトのカテゴリー及び空間的領域（座標等）に関する情報であってもよい。

画像合わせ部２４５は、Ｍチャンネル画像及びＮチャンネル画像の視点を互いに合わせるための機能部である。画像合わせ部２４５は、例えば、所定の回転関数及び／又は平行移動関数を用いて、受信した画像の位置や角度を調整することで、Ｍチャンネル画像及びＮチャンネル画像における要素の位置を互いに整合するように加工することができる。

ストレージ部２５０は、上述した機能部が用いる各種データを格納するための記憶部である。ストレージ部２５０は、例えば図２に示すように、オブジェクトを検出するためのオブジェクト検出ネットワーク２５５を格納してもよい。ここでのストレージ部２５０は、例えば、フラッシュメモリ、ハードディスクドライブ等、任意の記憶媒体であってもよい。

オブジェクト検出ネットワーク２５５は、画像合成部２３０によって生成されるＫチャンネル画像に対するオブジェクト検出処理を施し、オブジェクト検出結果情報を生成し、出力するニューラルネットワークモデルである。ここでのオブジェクト検出ネットワーク２５５は、後述する図３に示す訓練処理によって訓練され、図４に示す推論処理によって対象の画像を分析する。
本発明の実施形態に係るオブジェクト検出ネットワーク２５５は、例えば、畳み込みニューラルネットワーク(ＣＮＮ、Ｒ－ＣＮＮ、Ｆａｓｔｅｒ－ＲＣＮＮ等)であってもよい。

なお、以上説明した機能部は、ソフトウェアのプログラムモジュールとして実施されてもよく、専用なハードウェアとして実施されてもよい。また、ある実施形態では、上述した機能部は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又はＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、等のハードウエアアクセラレーションデバイス上で実施されてもよい。
上述した構成によれば、異なるチャンネル数の画像を合成し、この合成した画像を用いてオブジェクト検出用ニューラルネットワークを訓練することで、様々な照明条件の環境の画像に対して良好なオブジェクト検出結果を生成することができる。

次に、図３を参照して、本発明の実施形態に係る画像処理方法における訓練処理の流れについて説明する。

図３は、本発明の実施形態に係る画像処理方法における訓練処理３６０の流れを示す図である。図３に示す訓練処理３６０は、図２に示すオブジェクト検出ネットワーク２５５を訓練させるための処理である。

まず、ステップＳ３６５では、受付部（例えば、図２に示す画像処理装置２０５の受付部２１０）は、第１のＭチャンネル画像を取得する。この第１のＭチャンネル画像は、例えば、事前に用意されている訓練用画像データベース（図示せず）から取得されている訓練用の画像である。また、上述したように、この第１のＭチャンネル画像は、任意のチャンネル数の画像であってもよいが、説明の便宜上、以下では、この第１のＭチャンネル画像が３チャンネルのＲＧＢ画像である場合を一例として説明する。

次に、ステップＳ３７０では、画像生成部（例えば、図２に示す画像処理装置２０５の画像生成部２２０）は、ステップＳ３６５で取得された第１のＭチャンネル画像を用いて、第１のＮチャンネル画像を生成する。ここで、ユーザは第１のＮチャンネル画像の種類及びチャンネル数を設定してもよい。例えば、ユーザは、第１のＮチャンネル画像を１チャンネルの赤外線画像に設定した場合、画像生成部は、第１のＭチャンネル画像を１チャンネルの赤外線画像に変換した画像を第１のＮチャンネル画像として生成してもよい。
上述したように、ここでの画像生成部は、例えば生成ネットワークと、識別ネットワークとを含む敵対的生成ネットワークであってもよい。この敵対的生成ネットワークの詳細については後述する。

次に、ステップＳ３７５では、画像合成部（例えば、図２に示す画像処理装置２０５の画像合成部２３０）は、ステップＳ３６５で取得された第１のＭチャンネル画像と、ステップＳ３７０で生成された第１のＮチャンネル画像とを合成することで、第１のＫチャンネル画像を生成する。ここでの画像合成部は、例えば、画像の特徴を抽出するように構成された畳み込みニューラルネットワークであってもよい。この場合には、画像合成部は、第１のＭチャンネル画像から第１の特徴セットを抽出し、第１のＮチャンネル画像から第２の特徴セットを抽出した後、第１の特徴セットと第２の特徴セットを合成することで、第１のＮチャンネル画像及び第１のＭチャンネル画像の両方の特徴を含む第１のＫチャンネル画像を生成してもよい。

次に、ステップＳ３８０では、画像分析部（例えば、図２に示す画像処理装置２０５の画像分析部２４０）は、ステップＳ３８０で生成されたＫチャンネル画像を用いて、オブジェクト検出ネットワーク（例えば、図２に示す画像処理装置２０５のオブジェクト検出ネットワーク２５５）を訓練する。より具体的には、オブジェクト検出ネットワークは、
Ｋチャンネル画像を入力した後、当該Ｋチャンネル画像に対するオブジェクト検出処理を施し、Ｋチャンネル画像におけるそれぞれのオブジェクトのカテゴリー及び空間的領域（座標等）に関する情報を含む検出結果情報を出力する。その後、この画像分析部は、当該検出結果情報と、当該Ｋチャンネル画像に対する正しいオブジェクト検出結果を示すグラウンドトゥルースとを比較することにより、オブジェクト検出結果のグラウンドトゥルースに対する損失を計算する。ここで計算した損失をオブジェクト検出ネットワークにバックプロパゲーションし、オブジェクト検出ネットワークの各層のパラメータをグラウンドトゥルースにより類似するオブジェクト検出結果を生成するように最適化することにより、オブジェクト検出ネットワークが訓練され、オブジェクト検出精度を向上させることができる。

次に、図４を参照して、本発明の実施形態に係る画像処理方法における推論処理の流れについて説明する。

図４は、画像処理方法における推論処理４００の流れを示す図である。図４に示す推論処理４００は、図３に示す訓練処理３６０によって訓練されたオブジェクト検出ネットワーク２５５を用いて、対象の分析用画像に対してオブジェクト検出を行う処理である。

まず、ステップＳ４０５では、受付部（例えば、図２に示す画像処理装置２０５の受付部２１０）は、第２のＭチャンネル画像及び第２のＮチャンネル画像を取得する。この第２のＭチャンネル画像及び第２のＮチャンネル画像は、例えば、図２に示すクライアント端末２１５Ａ、２１５Ｂ又はセンサ２２５Ａ、２２５Ｂから取得される、オブジェクト検出を行う対象の分析用画像である。また、上述したように、この第２のＭチャンネル画及び第２のＮチャンネル画像は、任意のチャンネル数の画像であってもよいが、説明の便宜上、以下では、この第２のＭチャンネル画像が３チャンネルのＲＧＢ画像であり、第２のＮチャンネル画像が１チャンネルの赤外線画像である場合を一例として説明する。
また、ここでの第２のＭチャンネル画像及び第２のＮチャンネル画像の構図は実質的に同様である。例えば、第２のＭチャンネル画像及び第２のＮチャンネル画像は、同じ被写体を同時に撮影したＲＧＢカメラの画像と赤外線画像カメラの画像であってもよい。

次に、ステップＳ４１０では、画像合わせ部（例えば、図２に示す画像処理装置２０５の画像合わせ部２４５）は、ステップＳ４０５で取得された第２のＭチャンネル画像及び第２のＮチャンネル画像に対する画像合わせ処理を行う。この画像合わせ処理とは、第２のＭチャンネル画像及び第２のＮチャンネル画像の位置や角度を調整することで、第２のＭチャンネル画像及び第２のＮチャンネル画像における要素の位置が互いに整合するように加工する処理である。より具体的には、画像合わせ部は、所定の回転関数及び平行移動関数等の線形変換を施すことで画像合わせを行ってもよい。

次に、ステップＳ４１５では、画像合成部（例えば、図２に示す画像処理装置２０５の画像合成部２３０）は、ステップＳ４１０で画像合わせ処理を施した第２のＭチャンネル画像と第２のＮチャンネル画像とを合成することで、第２のＫチャンネル画像を生成する。このステップＳ４１５での処理は、図３を参照して説明した訓練処理３６０のステップＳ３７５に実質的に対応する。
一例として、画像合成部は、第２のＭチャンネル画像から第１の特徴セットを抽出し、第２のＮチャンネル画像から第２の特徴セットを抽出した後、第１の特徴セットと第２の特徴セットを合成することで、第２のＮチャンネル画像及び第２のＭチャンネル画像の両方の特徴を含む第２のＫチャンネル画像を生成してもよい。この第２のＫチャンネル画像は、第２のＮチャンネル画像及び第２のＭチャンネル画像の両方の特徴を含むため、第２のＮチャンネル画像及び第２のＭチャンネル画像をそれぞれ個別にオブジェクト検出ネットワークで分析した場合に比べて、より精度の高い検出結果を生成することができる。

次に、ステップＳ４２０では、画像分析部（例えば、図２に示す画像処理装置２０５の画像分析部２４０）は、図３に示す訓練処理３６０によって訓練されたオブジェクト検出ネットワーク２５５を用いて、ステップＳ４１５で生成されたＫチャンネル画像に対してオブジェクト検出処理を行い、検出結果情報を出力する。この検出結果情報は、例えば、Ｋチャンネル画像におけるそれぞれのオブジェクトのカテゴリー及び空間的領域（座標等）に関する情報であってもよい。また、画像分析部は、ここで生成された検出結果情報を、例えば図２に示すクライアント端末２１５Ａ、２１５Ｂに送信してもよい。

以上説明した推論処理４００により、複数の、種類（又はチャンネル画像）が異なる画像を合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いて対象の分析用画像に対してオブジェクト検出を行うことで、オブジェクト検出精度を向上させることができる。

次に、図５を参照して、本発明の実施形態に係る画像処理装置の訓練段階の論理構成について説明する。

図５は、本発明の実施形態に係る画像処理装置の訓練段階の論理構成５００の一例を示す図である。図５に示す論理構成５００は、図３を参照して説明した訓練処理３６０に対応する。

画像処理装置の訓練段階では、まず、事前に用意されている訓練用画像データベース等（図示せず）から取得された第１のＭチャンネル画像５１０が画像生成部２２０に供給される。画像生成部２２０が敵対的生成ネットワークとして実施される場合には、この敵対的生成ネットワークが既に訓練済みである。次に、画像生成部２２０は、入力された第１のＭチャンネル画像５１０に戻づいて、当該第１のＭチャンネル画像５１０をＮチャンネル画像に変換した第１のＮチャンネル画像５２０を生成する。

第１のＭチャンネル画像５１０と、画像生成部２２０によって生成された第１のＮチャンネル画像５２０とが画像合成部２３０に入力される。画像合成部２３０は、第１のＭチャンネル画像５１０と第１のＮチャンネル画像５２０とを合成することにより、第１のＭチャンネル画像５１０と第１のＮチャンネル画像５２０との両方の特徴を含む第１のＫチャンネル画像５３０を生成する。この第１のＫチャンネル画像５３０は、オブジェクト検出ネットワーク２５５に入力される。このオブジェクト検出ネットワーク２５５は、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＡＳＩＣなどのハードウェアに含まれる演算器により構成され、ストレージ部２５０からＤＲＡＭやＳＲＡＭなどのメモリ上に呼び出された、オブジェクト検出ネットワーク２５５を構成するために必要な情報にもとづいて、演算を行う。第１のＫチャンネル画像５３０を入力したオブジェクト検出ネットワーク２５５は、第１のＫチャンネル画像５３０をトレーニングデータとしてエンドツーエンドで訓練される。

次に、図６を参照して、本発明の実施形態に係る画像処理装置の推論段階の論理構成について説明する。

図６は、本発明の実施形態に係る画像処理装置の推論段階の論理構成６００の一例を示す図である。図６に示す論理構成６００は、図４を参照して説明した推論処理４００に対応する。

推論段階では、まず、受付部（例えば、図２に示す受付部２１０）は、センサ２２５Ａから、第２のＭチャンネル画像６１０を取得し、センサ２２５Ｂから、第２のＮチャンネル画像６２０を取得する。上述したように、第２のＭチャンネル画像６１０及び第２のＮチャンネル画像６２０は、例えば、実質的に同一の構図を有し、同一の被写体を含む、オブジェクト検出を行う対象の分析用画像である。また、図６では、第２のＭチャンネル画像６１０がセンサ２２５Ａによって取得され、第２のＮチャンネル画像６２０がセンサ２２５Ｂによって取得される場合を一例として示しているが、本発明はこれに限定されず、第２のＭチャンネル画像６１０及び第２のＮチャンネル画像６２０は、同じセンサによって取得されてもよい。

第２のＭチャンネル画像６１０及び第２のＮチャンネル画像６２０を取得した後、画像合わせ部２４５は画像合わせ処理を行い、第２のＭチャンネル画像６１０及び第２のＮチャンネル画像６２０の位置や角度を調整することで、第２のＭチャンネル画像６１０及び第２のＮチャンネル画像６２０における要素の位置を互いに合うように加工する。その後、画像合わせ部２４５は画像合わせ処理を施した第２のＭチャンネル画像６１０及び第２のＮチャンネル画像６２０を画像合成部２３０に入力する。

画像合成部２３０は、第２のＭチャンネル画像６１０と第２のＮチャンネル画像６２０とを合成することにより、第２のＭチャンネル画像６１０と第２のＮチャンネル画像６２０との両方の特徴を含む第２のＫチャンネル画像６３０を生成する。この第２のＫチャンネル画像６３０は、前記の通りストレージ部２５０に格納されている情報にもとづいて構成されたオブジェクト検出ネットワーク２５５に入力される。第２のＫチャンネル画像６３０を入力したオブジェクト検出ネットワーク２５５は、第２のＫチャンネル画像６３０に対してオブジェクト検出処理を行い、検出結果情報を出力する。この検出結果情報は、例えば、第２のＫチャンネル画像６３０におけるそれぞれのオブジェクトのカテゴリー及び空間的領域（座標等）に関する情報であってもよい。

次に、図７～図８を参照して、本発明の実施形態に係る画像処理装置をＲＧＢ画像及び赤外線画像に適用した場合の一例について説明する。

図７は、本発明の実施形態に係る画像処理装置をＲＧＢ画像及び赤外線画像に適用した場合の訓練段階の論理構成７００の一例を示す図である。

上述したように、本発明の実施形態に係る画像処理手段では、異なる種類及びチャンネル数の画像（例えば、Ｍチャンネル画像及びＮチャンネル画像）を合成し、合成された全ての画像の特徴を含む画像（Ｋチャンネル画像）を生成し、この合成した画像をオブジェクト検出に用いることで、オブジェクト検出精度を向上させることができる。

一例として、本発明の実施形態に係る画像処理手段をＲＧＢ画像及び赤外線画像に適用することができる。一般に、画像が撮影される撮影環境が明るい場合には、ＲＧＢカメラは当該環境を正確に表現するための詳細な画像情報を取得することができる。しかし、撮影環境が暗い場合には、ＲＧＢカメラが取得できる情報が限られてしまい、当該ＲＧＢカメラによって取得されたＲＧＢ画像は撮影環境を正確に表現できないことがある。
一方、赤外線カメラは、ＲＧＢ画像に比べて、暗い撮影環境に関するより多くの詳細な画像情報を取得することができる。従って、ＲＧＢ画像及び赤外線画像を合成し、ＲＧＢ画像及び赤外線画像の両方の特徴を含む画像を用いてオブジェクト検出ネットワークを訓練することで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することができる。
以下、画像処理装置をＲＧＢ画像及び赤外線画像に適用した場合の訓練段階について説明する。
なお、図７に示す論理構成７００は、図５に示す論理構成５００に実質的に対応するため、繰り返しとなる説明は省略する。

図７に示すように、まず、事前に用意されている訓練用画像データベース等（図示せず）から取得された（第１の）ＲＧＢ画像７１０が画像生成部２２０に供給される。次に、画像生成部２２０は、ＲＧＢ画像７１０に基づいて、当該ＲＧＢ画像７１０を赤外線画像に変換した赤外線画像７２０を生成する。

その後、ＲＧＢ画像７１０と、画像生成部２２０によって生成された（第１の）赤外線画像７２０とが画像合成部２３０に入力される。画像合成部２３０は、ＲＧＢ画像７１０と赤外線画像７２０を合成することにより、ＲＧＢ画像７１０と赤外線画像７２０との両方の特徴を含む３チャンネルの合成画像７３０を生成する。この合成画像７３０は、ストレージ部２５０に格納されている情報に基づいて構成されたオブジェクト検出ネットワーク２５５に入力される。合成画像７３０を入力したオブジェクト検出ネットワーク２５５は、合成画像７３０をトレーニングデータとしてエンドツーエンドで訓練される。これにより、オブジェクト検出ネットワーク２５５のオブジェクト検出精度が向上し、例えば暗い照明条件下で撮影された画像の場合であっても、良好なオブジェクト検出結果を生成することができるようになる。

図８は、本発明の実施形態に係る画像処理装置をＲＧＢ画像及び赤外線画像に適用した場合の推論段階の論理構成８００の一例を示す図である。
図８は、図７に示すように訓練されたオブジェクト検出ネットワークを用いて、ＲＧＢ画像及赤外線画像を合成した画像に対してオブジェクト検出処理を施す場合の一例を示す。
なお、図８に示す論理構成８００は、図６に示す論理構成６００に実質的に対応するため、繰り返しとなる説明は省略する。

推論段階では、まず、受付部（例えば、図２に示す受付部２１０）は、ＲＧＢカメラ８２５Ａから（第２の）ＲＧＢ画像８１０を取得し、赤外線カメラ８２５Ｂから、（第２の）赤外線画像８２０を取得する。上述したように、ＲＧＢ画像８１０及び赤外線画像８２０は、例えば、実質的に同一の構図を有する、同一の被写体を含む、オブジェクト検出を行う対象の分析用画像である。また、図８では、ＲＧＢ画像８１０がＲＧＢカメラ８２５Ａによって取得され、赤外線画像８２０が赤外線カメラ８２５Ｂによって取得される場合を一例として示しているが、本発明はこれに限定されず、ＲＧＢ画像８１０及び赤外線画像８２０は、ＲＧＢカメラのモードと赤外線カメラのモードとの間で切り替え可能な単独のセンサによって取得されてもよい。

ＲＧＢ画像８１０及び赤外線画像８２０を取得した後、画像合わせ部２４５は、画像合わせ処理を行い、ＲＧＢ画像８１０及び赤外線画像８２０の位置や角度を調整することで、ＲＧＢ画像８１０及び赤外線画像８２０における要素の位置を互いに合うように加工する。その後、受付部は画像合わせ処理を施したＲＧＢ画像８１０及び赤外線画像８２０を画像合成部２３０に入力する。

画像合成部２３０は、ＲＧＢ画像８１０と赤外線画像８２０とを合成することにより、ＲＧＢ画像８１０と赤外線画像８２０との両方の特徴を含む３チャンネルの合成画像８３０を生成する。この合成画像８３０は、ストレージ部２５０に格納されている情報にもとづいて構成されたオブジェクト検出ネットワーク２５５に入力される。合成画像８３０を入力したオブジェクト検出ネットワーク２５５は、合成画像８３０に対してオブジェクト検出処理を行い、検出結果情報を出力する。この検出結果情報は、例えば、合成画像８３０におけるそれぞれのオブジェクトのカテゴリー及び空間的領域（座標等）に関する情報であってもよい。
これにより、例えば暗い照明条件下で撮影された画像に対してオブジェクト検出を行う場合であっても、良好なオブジェクト検出結果を生成することができる。

次に、図９～図１０を参照して、本発明の実施形態に係る画像処理において特徴抽出ネットワークを用いる場合の一例について説明する。

図９は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の訓練段階の論理構成９００の一例を示す図である。

上述したように、本発明の実施形態に係る画像処理装置は、複数の、種類種類及びチャンネル数が異なる画像（例えば、ＲＧＢ画像及び赤外線画像）を合成することで、合成された全ての画像の特徴を含む画像（Ｋチャンネル画像）を生成し、この合成した画像をオブジェクト検出に用いる。そこで、異なる種類及びチャンネル数の画像を合成するためには、画像処理装置は、特徴抽出ネットワークを用いて、入力されたそれぞれの画像の特徴を抽出し、抽出した特徴を合成することで、入力された全ての画像の特徴を含む合成画像を生成してもよい。
以下、画像処理装置が特徴抽出ネットワークを用いて画像合成を行う場合の一例について説明する。
なお、図９に示す論理構成９００は、図５に示す論理構成５００に実質的に対応するため、繰り返しとなる説明は省略する。

図９に示すように、事前に用意されている訓練用画像データベース等（図示せず）から取得された（第１の）Ｍチャンネル画像９１０とＭチャンネル画像９１０に基づいて画像生成部２２０によって生成される（第１の）Ｎチャンネル画像９２０とは、特徴抽出ネットワーク９３５Ａ、Ｂに入力される前に、画像次元調整９２６Ａ、Ｂを受ける。この画像次元調整９２６Ａ、Ｂは、Ｍチャンネル画像９１０及びＮチャンネル画像９２０の次元（ｄｉｍｅｎｓｉｏｎａｌｉｔｙ）を、特徴抽出ネットワーク９３５Ａ、Ｂが処理できる次元に調整するための処理である。

画像次元調整９２６Ａ、Ｂの処理が終了した後、Ｍチャンネル画像９１０が特徴抽出ネットワーク９３５Ａに入力され、Ｎチャンネル画像９２０が特徴抽出ネットワーク９３５Ｂに入力される。その後、特徴抽出ネットワーク９３５Ａは、Ｍチャンネル画像９１０からの第１の特徴セットを抽出し、特徴抽出ネットワーク９３５Ｂは、Ｎチャンネル画像９２０からの第２の特徴セットを抽出する。次に、特徴抽出ネットワーク９３５Ａ、Ｂによって抽出された第１の特徴セット及び第２の特徴セットが画像合成部２３０に入力される。次に、画像合成部２３０は、第１の特徴セット及び第２の特徴セットを合成することで、Ｋチャンネル画像の合成画像９５０を生成する。
なお、以降の処理は上述した図５等の処理と実質的に対応するため、ここではその説明は省略する。

図１０は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の推論段階の論理構成１０００一例を示す図である。

図１０に示すように、推論段階では、センサ１０２５Ａから取得された第２のＭチャンネル画像１０１０とセンサ１０２５Ｂから取得された第２のＮチャンネル画像１０２０とは、画像合わせ部２４５による画像合わせ処理を受けた後、特徴抽出ネットワーク１０３５Ａ、Ｂに入力される。上述したように、第２のＭチャンネル画像１０１０及び第２のＮチャンネル画像１０２０は、例えば、実質的に同一の構図を有する、同一の被写体を含む画像である。

次に、特徴抽出ネットワーク１０３５Ａは、第２のＭチャンネル画像１０１０からの第１の特徴セットを抽出し、特徴抽出ネットワーク１０３５Ｂは、第２のＮチャンネル画像１０３５からの第２の特徴セットを抽出する。次に、特徴抽出ネットワーク１０３５Ａ、Ｂによって抽出された第１の特徴セット及び第２の特徴セットが画像合成部２３０に入力される。次に、画像合成部２３０は、第１の特徴セット及び第２の特徴セットを合成することで、Ｋチャンネル画像の分析用の合成画像１０５０を生成する。ここでは、第１の特徴セット及び第２の特徴セットを合成するためには、所定の既存の特徴合成手法が用いられてもよい。
なお、以降の処理は上述した図６等の処理と実質的に対応するため、ここではその説明は省略する。

次に、図１１～図１２を参照して、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の一例について説明する。

上述したように、本発明では、異なるチャンネル数の画像を合成し、この合成した画像を用いてオブジェクト検出用ニューラルネットワークを訓練することで、様々な照明条件下で撮影された画像に対して良好なオブジェクト検出結果を生成することができる。そこで、本発明の実施形態に係る画像処理手段をＯｐｅｎｐｏｓｅ等の、人間の体の手、頭、足、関節等の特徴点（キーポイント）を推定するための特徴点推定モジュールに組み合わせることで、例えば人間等のオブジェクトが暗い撮影環境で撮影された場合であっても、人間の身体の特徴を正確に検出することができる。

図１１は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の訓練段階の論理構成１１００の一例を示す図である。
図１１に示すように、事前に用意されている訓練用画像データベース等（図示せず）から取得されたＲＧＢ画像１１１０がＯｐｅｎｐｏｓｅ等の特徴点推定モジュール１１３５Ａに入力される。また、このＲＧＢ画像１１１０に基づいて画像生成部２２０によって生成される赤外線画像１１２０が画像次元調整の処理を受け、Ｏｐｅｎｐｏｓｅ等の特徴点推定モジュール１１３５Ｂが受け付ける３チャンネルの画像に変換される。ここで、１チャンネルの赤外線画像１１２０を３チャンネルの画像に変換するためには、赤外線画像の１チャンネルの情報を３チャンネルになるように複製してもよい。

ＲＧＢ画像１１１０を受け付けた特徴点推定モジュール１１３５Ａ及び赤外線画像を受け付けた特徴点推定モジュール１１３５Ｂのそれぞれは、受け付けた画像のオブジェクトの特徴点を検出する。例えば、画像の被写体が人間の場合、人間の手、頭、足、関節等が特徴点として検出されてもよい。その後、特徴点推定モジュール１１３５Ａ及び特徴点推定モジュール１１３５Ｂによって検出された特徴点は、画像合成部２３０に入力される。次に、画像合成部２３０は、受信した特徴点を合成することで、ＲＧＢ画像１１１０及び赤外線画像１１２０の特徴点を両方とも含むＫチャンネルの合成画像１１５０を生成する。
なお、ここでの画像合成部２３０は、いわゆるＦｅａｔｕｒｅＦｕｓｉｏｎＮｅｔｗｏｒｋであってもよい。
また、以降の処理は上述した図５等の処理と実質的に対応するため、ここではその説明は省略する。

図１２は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の推論段階の論理構成１２００の一例を示す図である。
図１２に示すように、推論段階では、ＲＧＢカメラ１２２５Ａから取得されたＲＧＢ画像１２１０及び赤外線カメラ１２２５Ｂから取得された赤外線画像１２２０は、画像合わせ処理１２２６を受けた後、Ｏｐｅｎｐｏｓｅ等の特徴点推定モジュール１２３５Ａ、１２３５Ｂに入力される。
上述したように、ＲＧＢ画像１２１０及び赤外線画像１２２０は、例えば、実質的に同一の構図を有し、同一の被写体を含む画像である。

次に、ＲＧＢ画像１２１０を受け付けた特徴点推定モジュール１２３５Ａ及び赤外線画像１２２０を受け付けた特徴点推定モジュール１２３５Ｂのそれぞれは、受け付けた画像からオブジェクトの特徴点（キーポイント）を検出する。その後、特徴点推定モジュール１２３５Ａ及び特徴点推定モジュール１２３５Ｂによって検出された特徴点は、画像合成部２３０に入力される。次に、画像合成部２３０は、受信した特徴点を合成することで、ＲＧＢ画像１２１０及び赤外線画像１２２０の特徴点を両方とも含むＫチャンネルの合成画像１２５０を生成する。

合成画像１２５０を受け付けたオブジェクト検出ネットワーク２５５は、いわゆるキーポイントグルーピング（ＫｅｙｐｏｉｎｔＧｒｏｕｐｉｎｇ）処理を行い、合成画像１２５０の特徴点（キーポイント）を分類し、特徴点間の最適な接続を判定する。例えば、合成画像１２５０の被写体が人間の場合、オブジェクト検出ネットワーク２５５は、特徴点推定モジュール１２３５Ａ，１２３５Ｂによって検出されたキーポイントを、頭、右腕、左手、左腕、右手、銅、左足、右足、肘、膝等のカテゴリーに分類する。その後、オブジェクト検出ネットワーク２５５は、分類された特徴点に基づいて、合成画像１２５０の被写体である人間の体勢を推定する。

以上説明したように、本発明の実施形態に係る画像処理手段をＯｐｅｎｐｏｓｅ等の、人間の体の手、頭、足、関節等の特徴点（キーポイント）を推定するための特徴点推定モジュールに組み合わせることで、例えば人間等のオブジェクトが暗い撮影環境で撮影された場合であっても、人間の身体の特徴を正確に検出し、体勢を正確に推定することができる。

次に、図１３を参照して、本発明の実施形態に係る画像生成部を敵対的生成ネットワークとして実施した場合の一例について説明する。

図１３は、本発明の実施形態に係る画像生成部２２０を敵対的生成ネットワーク１３１０として実施した場合の一例を示す図である。図１３に示すように、敵対的生成ネットワーク１３１０は、生成ネットワーク１３２０と、識別ネットワーク１３３０とからなる。生成ネットワーク１３２０と、識別ネットワーク１３３０とは、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、又はオートエンコーダ等であってもよい。

生成ネットワーク１３２０は、Ｍチャンネル画像（例えば、ＲＧＢ画像）１３０５が入力されると、当該Ｍチャンネル画像１３０５に基づいて、所望のＮチャンネル画像（例えば、赤外線画像）の候補画像を生成し、候補画像を識別ネットワーク１３３０に送信する。
なお、ここでのＮは、例えば、ユーザによって設定されてもよい。

識別ネットワーク１３３０は、受信した候補画像を、グラウンドトゥルース１３１５に比較することで、候補画像のグラウンドトゥルースに対する乖離度を判定する。ここでのグラウンドトゥルース１３１５とは、Ｍチャンネル画像１３０５をＮチャンネル画像に変換した場合の正しい出力を示す模範の画像である。
また、ここでの乖離度とは、生成ネットワーク１３２０によって生成された候補画像とグラウンドトゥルースとの差を定量的に示す尺度であり、既存の損失計算法によって算出されてもよい。

次に、識別ネットワーク１３３０は、判定した乖離度をフィードバックとして生成ネットワーク１３２０に送信した後、生成ネットワーク１３２０は、この乖離度に基づいて、グラウンドトゥルースにより類似する候補画像を生成するように、各層のパラメータを最適化する。

以上説明した処理を繰り返すことで、生成ネットワーク１３２０が訓練され、より精度の高い候補画像を生成することができるようになる。そして、識別ネットワーク１３３０は、生成ネットワーク１３２０が生成する候補画像の中から、所定の乖離度基準を満たす候補画像を、Ｎチャンネル画像１３５０として出力する。
ここでの所定の乖離度基準は、例えば、乖離度の許容上限を示す値であり、この上限以下の乖離度を満たす（つまり、グラウンドトゥルース１３１５と類似度が高い）画像は、Ｎチャンネル画像１３５０として出力される。

このように、画像生成部２４０は、例えばＲＧＢ等の所定のＭチャンネル画像に基づいて、高精度のＮチャンネル画像（例えば、赤外線画像）を生成することができる。

次に、図１４を参照して、本発明の実施形態に係る画像生成部の訓練方法について説明する。

図１４は、本発明の実施形態に係る画像生成部の訓練方法１４００の一例を示す図である。図１４に示す訓練方法１４００を実行することにより、画像生成部の画像生成精度が向上し、より高精度のＮチャンネル画像を生成することができるようになる。

まず、ステップＳ１４１０では、画像生成部の生成ネットワークは、訓練用のＭチャンネル画像を取得する。訓練用のＭチャンネル画像は、例えば、事前に用意されている訓練用画像データベースから取得されてもよい。上述したように、この訓練用のＭチャンネル画像は例えば３チャンネルのＲＧＢ画像であってもよい。

次に、ステップＳ１４２０では、画像生成部の生成ネットワークは、取得したＭチャンネル画像に基づいて当該Ｍチャンネル画像を所望のＮチャンネル画像に変換するためのデータ分布のマッピングを学習し、Ｎチャンネル画像の候補画像を生成する。ここでのＮチャンネル画像は、ユーザによって設定されてもよく、例えば１チャンネルの赤外線画像であってもよい。

次に、ステップＳ１４３０では、画像生成部の識別ネットワークは、ステップＳ１４２０で生成されたＮチャンネル画像の候補画像のグラウンドトゥルースに対する乖離度を判定する。上述したように、ここでのグラウンドトゥルースは、ステップＳ１４１０で取得されたＭチャンネル画像をＮチャンネル画像に変換した場合の正しい出力を示す模範の画像である。また、ここでの乖離度とは、生成ネットワークによって生成された候補画像とグラウンドトゥルースとの差を定量的に示す尺度である。

次に、ステップＳ１４４０では、識別ネットワークによって判定された乖離度は、フィードバックとして生成ネットワークに送信される。このフィードバックを受信した生成ネットワークは、この乖離度に基づいて、グラウンドトゥルースにより類似する候補画像を生成するように、各層のパラメータを最適化する。

次に、図１５を参照して、本発明の実施形態に係る画像合わせ部について説明する。

図１５は、本発明の実施形態に係る画像合わせ部２４５の一例を示す図である。上述したように、推論段階において画像処理装置に入力される画像（第２のＭチャンネル画像及び第２のＮチャンネル画像）が異なるセンサから取得された場合、当該センサの空間的関係によって、それぞれの画像内の要素が互いにずれることがある。そのため、本発明では、このズレを修正するためには、受信した画像の位置や角度を調整することで、第２のＭチャンネル画像及び第２のＮチャンネル画像における要素の位置を互いに合うように加工する画像合わせ部２４５が用いられる。
以下、画像合わせ部２４５について説明する。

図１５に示すように、画像合わせ部２４５は、第２のＭチャンネル画像１４０５と、第２のＮチャンネル画像１４１０とを受信する。第２のＭチャンネル画像１４０５は、例えば、推論段階においてＲＧＢカメラによって取得されるＲＧＢ画像であってもよい。また、第２のＮチャンネル画像は、例えば、推論段階において赤外線カメラによって取得された赤外線画像であってもよい。
上述したように、この段階では、第２のＭチャンネル画像１４０５を取得したセンサと、第２のＮチャンネル画像１４１０を取得したセンサとの空間的関係によって、第２のＭチャンネル画像と第２のＮチャンネル画像の視点が互いにずれていることがある。

第２のＭチャンネル画像１４０５及び第２のＮチャンネル画像１４１０を取得した後、画像合わせ部２４５は、所定の回転関数１４２０及び平行移動関数１４３０を用いて、第２のＭチャンネル画像１４０５及び第２のＮチャンネル画像１４１０の位置や角度を調整する。回転関数１４２０は、第２のＭチャンネル画像１４０５及び／又は第２のＮチャンネル画像１４１０の角度を変更するための関数であり、平行移動関数１４３０は、第２のＭチャンネル画像１４０５及び／又は第２のＮチャンネル画像１４１０の二次元的な位置を変更するための関数である。

画像合わせ部２４５は、回転関数１４２０及び／又は平行移動関数１４３０を適宜に用いることで、第２のＭチャンネル画像１４０５及び第２のＮチャンネル画像１４１０の位置や角度を調整し、視点が互いに合わせられた加工済みの第２のＭチャンネル画像１４４０と加工済みの第２のＮチャンネル画像１４５０を生成することができる。この視点が互いに合わせられた加工済みの第２のＭチャンネル画像１４４０及び第２のＮチャンネル画像１４５０を上述した画像合成部２３０に送信することで、それぞれの画像の特徴を含む高精度の合成画像を生成することができる。

以上説明した画像処理装置、画像処理方法、及び画像処理システムによれば、複数の、異なる種類の画像（例えば、ＲＧＢ画像と赤外線画像）を合成し、この合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いてオブジェクト検出を行うことで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することができる。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

２０５画像処理装置
２１０受付部
２１５Ａ、Ｂクライアント端末
２２０画像生成部
２２５Ａ、Ｂセンサ
２３０画像合成部
２３５ネットワーク
２４０画像分析部
２４５画像合わせ部
２５０ストレージ部
２５５オブジェクト検出ネットワーク

Claims

画像処理装置であって、
第１のＭチャンネル画像と、前記第１のＭチャンネル画像を敵対的生成ネットワークによって処理することで生成した第１のＮチャンネル画像とから生成される第１のＫチャンネル画像を用いて訓練されるオブジェクト検出用ニューラルネットワークを格納するストレージ部と、
同一の被写体を含む第２のＭチャンネル画像及び第２のＮチャンネル画像とをセンサから受信する受付部と、
前記第１のＫチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、前記第２のＭチャンネル画像と前記第２のＮチャンネル画像とから生成される第２のＫチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する画像分析部と、
前記第１のＭチャンネル画像に基づいて、前記第１のＮチャンネル画像の候補画像を生成する生成ネットワークと、
前記候補画像を、前記第１のＮチャンネル画像のグラウンドトゥルースに比較することにより、前記候補画像の前記グラウンドトゥルースに対する乖離度を判定し、所定の乖離度基準を満たす候補画像を、前記第１のＮチャンネル画像として出力する識別ネットワークと、
を備える敵対的生成ネットワークからなる画像合成部と、
を含むことを特徴とする画像処理装置。
前記画像合成部は、
同一の被写体を含むＭチャンネル画像及びＮチャンネル画像とを合成することで、Ｋチャンネル画像を生成する、
ことを特徴とする、請求項１に記載の画像処理装置。
前記画像合成部は、
前記Ｍチャンネル画像から抽出された第１の特徴セットと、
前記Ｎチャンネル画像から抽出された第２の特徴セットと、
を合成することで前記Ｋチャンネル画像を生成する、
ことを特徴とする、請求項２に記載の画像処理装置。
前記Ｍチャンネル画像及び前記Ｎチャンネル画像は、
ＲＧＢ画像、ＲＧＢ－Ｄ画像、赤外線画像、レントゲン画像、及び熱画像から選択されるものである、
ことを特徴とする、請求項２に記載の画像処理装置。
画像処理方法であって、
第１のＭチャンネル画像を取得する工程と、
敵対的生成ネットワークの生成ネットワークを用いて、前記第１のＭチャンネル画像に基づいて、第１のＮチャンネル画像の候補画像を生成する工程と、
前記敵対的生成ネットワークの識別ネットワークを用いて、前記候補画像を、前記第１のＮチャンネル画像のグラウンドトゥルースに比較することにより、前記候補画像の前記グラウンドトゥルースに対する乖離度を判定する工程と、
前記敵対的生成ネットワークの前記識別ネットワークを用いて、所定の乖離度基準を満たす候補画像を、前記第１のＮチャンネル画像として出力する工程と、
前記第１のＭチャンネル画像と、前記第１のＮチャンネル画像とを合成し、第１のＫチャンネル画像を生成する工程と、
前記第１のＫチャンネル画像を用いて、オブジェクト検出用のニューラルネットワークを訓練する工程と、
同一の被写体を含む第２のＭチャンネル画像及び第２のＮチャンネル画像とを取得する工程と、
前記第２のＭチャンネル画像と、前記第２のＮチャンネル画像とを合成し、第２のＫチャンネル画像を生成する工程と、
前記第１のＫチャンネル画像を用いて訓練された前記オブジェクト検出用のニューラルネットワークを用いて、前記第２のＫチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する工程と、
を含むことを特徴とする画像処理方法。
前記第２のＭチャンネル画像と、前記第２のＮチャンネル画像とを合成し、第２のＫチャンネル画像を生成する工程は、
前記第２のＭチャンネル画像から第１の特徴セットを抽出する工程と、
前記第２のＮチャンネル画像から第２の特徴セットを抽出する工程と、
前記第１の特徴セットと、前記第２の特徴セットとを合成することで前記第２のＫチャンネル画像を生成する、
ことを特徴とする、請求項５に記載の画像処理方法。
クライアント端末と、センサと、画像処理装置とが通信ネットワークを介して接続されている画像処理システムであって、
前記画像処理装置は、
第１のＭチャンネル画像と、前記第１のＭチャンネル画像を敵対的生成ネットワークによって処理することで生成した第１のＮチャンネル画像とから生成される第１のＫチャンネル画像を用いて訓練されるオブジェクト検出用ニューラルネットワークを格納するストレージ部と、
同一の被写体を含む第２のＭチャンネル画像及び第２のＮチャンネル画像とを前記センサから受信する受付部と、
前記第１のＫチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、前記第２のＭチャンネル画像と前記第２のＮチャンネル画像とから生成される第２のＫチャンネル画像に対するオブジェクト検出結果情報を生成し、前記クライアント端末に出力する画像分析部と、
前記第１のＭチャンネル画像に基づいて、前記第１のＮチャンネル画像の候補画像を生成する生成ネットワークと、
前記候補画像を、前記第１のＮチャンネル画像のグラウンドトゥルースに比較することにより、前記候補画像の前記グラウンドトゥルースに対する乖離度を判定し、所定の乖離度基準を満たす候補画像を、前記第１のＮチャンネル画像として出力する識別ネットワークと、
を備える敵対的生成ネットワークからなる画像合成部と、
を含むことを特徴とする画像処理システム。