JP7446903B2 - 画像処理装置、画像処理方法及び画像処理システム - Google Patents

画像処理装置、画像処理方法及び画像処理システム Download PDF

Info

Publication number
JP7446903B2
JP7446903B2 JP2020076511A JP2020076511A JP7446903B2 JP 7446903 B2 JP7446903 B2 JP 7446903B2 JP 2020076511 A JP2020076511 A JP 2020076511A JP 2020076511 A JP2020076511 A JP 2020076511A JP 7446903 B2 JP7446903 B2 JP 7446903B2
Authority
JP
Japan
Prior art keywords
image
channel image
channel
network
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020076511A
Other languages
English (en)
Other versions
JP2021174183A (ja
Inventor
ヴィヴィアナ クレシテリ
俊 大島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020076511A priority Critical patent/JP7446903B2/ja
Priority to US17/203,785 priority patent/US11954600B2/en
Publication of JP2021174183A publication Critical patent/JP2021174183A/ja
Application granted granted Critical
Publication of JP7446903B2 publication Critical patent/JP7446903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理方法及び画像処理システムに関する。
近年、IT化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増えるにつれ、その映像におけるオブジェクトを自在に検出し、正確に識別するニーズが高まっている。
オブジェクト検出の手段の一つとして、深層学習を用いたオブジェクト検出用ニューラルネットワークが知られている。オブジェクト検出用ニューラルネットワークを用いることにより、対象の画像に写っているそれぞれのオブジェクトのカテゴリー及び領域を高精度で判定することが可能となり、これらのオブジェクト検出用ニューラルネットワークが様々な分野に適用されている。
例えば、特許文献1には「カメラによって取得されたシーンの画像から人間を検出するための方法およびシステムが提示される。画像内のピクセルの勾配が決定され、ヒストグラムのビンに分類される。ヒストグラムのビンごとに積分画像が保存される。積分画像からの特徴が抽出される。抽出された特徴は、テスト画像内の可変サイズのランダムに選択されたピクセルのブロックの実質的により大きなセットのサブセットに対応する。特徴を
カスケードされた分類子に適用することで、テスト画像に人間が含まれているかどうかを判断する。」技術が記載されている。
US20070237387A1
特許文献1に記載の技術では、対象の画像の特徴を分析することにより、当該画像に人間が写っているか否かを判定することができる。
しかし、特許文献1に記載の技術では、処理対象の画像がカメラから取得された、RGB画像等のようなシングルソースの画像であるため、例えば画像が撮影された撮影環境が暗い場合には、RGBカメラで取得できる情報が限定的となり、オブジェクト検出の精度が不十分となることがある。
そこで、本発明では、複数の、異なる種類の画像(例えば、RGB画像と赤外線画像)を合成し、この合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いてオブジェクト検出を行うことで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することを目的とする。
上記の課題を解決するために、代表的な本発明の画像処理装置の1つは、第1のMチャンネル画像と、前記第1のMチャンネル画像から生成される第1のNチャンネル画像とから生成される第1のKチャンネル画像を用いて訓練されるオブジェクト検出用ニューラルネットワークを格納するストレージ部と、同一の被写体を含む第2のMチャンネル画像及び第2のNチャンネル画像とをセンサから受信する受付部と、前記第1のKチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、前記第2のMチャンネル画像と前記第2のNチャンネル画像とから生成される第2のKチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する画像分析部とを含む。
本発明によれば、複数の、異なる種類の画像(例えば、RGB画像と赤外線画像)を合成し、この合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いてオブジェクト検出を行うことで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することができる。
上記した以外の課題、構成および効果は、以下の発明を実施するための形態の説明により明らかにされる。
図1は、本発明の実施形態を実施するためのコンピュータシステムを示す図である。 図2は、本発明の実施形態に係る画像処理システムの構成の一例を示す図である。 図3は、本発明の実施形態に係る画像処理方法における訓練処理の流れを示す図である。 図4は、本発明の実施形態に係る画像処理方法における推論処理の流れを示す図である。 図5は、本発明の実施形態に係る画像処理装置の訓練段階の論理構成の一例を示す図である。 図6は、本発明の実施形態に係る画像処理装置の推論段階の論理構成の一例を示す図である。 図7は、本発明の実施形態に係る画像処理装置をRGB画像及び赤外線画像に適用した場合の訓練段階の論理構成の一例を示す図である。 図8は、本発明の実施形態に係る画像処理装置をRGB画像及び赤外線画像に適用した場合の推論段階の論理構成の一例を示す図である。 図9は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の訓練段階の論理構成の一例を示す図である。 図10は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の推論段階の論理構成の一例を示す図である。 図11は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の訓練段階の論理構成の一例を示す図である。 図12は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の推論段階の論理構成の一例を示す図である。 図13は、本発明の実施形態に係る画像生成部を敵対的生成ネットワークとして実施した場合の一例を示す図である。 図14は、本発明の実施形態に係る画像生成部の訓練方法の一例を示す図である。 図15は、本発明の実施形態に係る画像合わせ部の一例を示す図である。
以下、図面を参照して本発明の実施形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
図面において示す各構成要素の数、種類、形式、構成などは、発明の理解を容易にするため、実際の数、種類、形式、構成などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された数、種類、形式、構成等に限定されない。
また、同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
実施例において、本発明の機能を実施するための装置、方法、及びシステムについて説明する場合があるが、本発明はこれらの実施形態に限定されず、コンピュータによってプログラムとして実行されてもよい。この場合、コンピュータは、プロセッサ(例えばCPU、GPU)によりプログラムを実行し、記憶資源(例えばメモリ)やインターフェースデバイス(例えば通信ポート)等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。
また、ここでのプログラムは、プログラムソースからコンピュータにインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施例において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
(ハードウェア構成)
まず、図1を参照して、本開示の実施形態を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、画像処理アプリケーション350を格納していてもよい。ある実施形態では、画像処理アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
ある実施形態では、画像処理アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、画像処理アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、ストレージ装置322に記憶され、必要に応じてストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
次に、図2を参照して、本発明の実施形態に係る画像処理システムの構成について説明する。
図2は、本発明の実施形態に係る画像処理システム200の構成の一例を示す図である。図2に示すように、画像処理システム200は、主にクライアント端末215A、215B、センサ225A、225B、ネットワーク235、及び画像処理装置205からなる。画像処理装置205は、ネットワーク235を介して、クライアント端末215A、215B、及びセンサ225A、225Bと接続されている。
クライアント端末215A、215Bは、オブジェクト検出の処理を画像処理装置205に依頼するための端末である。クライアント端末215A、215Bは、オブジェクト検出の処理の条件等の指定する電文を画像処理装置205に送信したり、画像処理装置205から、オブジェクト検出の結果を示すオブジェクト検出結果情報を受信したりしてもよい。
クライアント端末215A、215Bは、個人に利用される端末であってもよく、警察署や民間企業等の組織における端末であってもよい。また、クライアント端末215A、215Bは、例えば、デスクトップパソコン、ノートパソコン、タブレット、スマートフォン等、任意のデバイスであってもよい。
センサ225A、225Bは、自然現象や人工物の機械的・電磁気的・熱的・音響的・化学的性質に関する情報を取得し、人間や機械が扱い易い形式の情報や信号に変換する装置である。例えば、本発明の実施形態に係るセンサ225A、225Bは、分析用の画像(RGB画像、赤外線画像)を取得するカメラであってもよい。
図2に示すように、画像処理システム200は、2つのセンサ225A、225Bを含んでもよいが、本発明はこれに限定されず、センサの数及び種類は画像処理システム200の使用目的に応じて適宜に選択されてもよい。従って、センサ225A、225Bが同じ種類のセンサであってもよく、互いに異なるセンサであってもよい。例えば、センサ225AがRGB画像を取得することができるカメラであり、センサ225Bが赤外線画像を取得するカメラとする構成も可能である。
また、画像処理システム200は、図2に示すような2つのセンサを有する構成だけでなく、複数の異なる種類の画像を取得することができる単独のセンサを有する構成とすることも可能である。一例として、画像処理システム200は、RGB画像を取得するモードと、赤外線画像を取得するモードとの間で動的に切り替えることが可能なセンサを含んでもよい。
画像処理装置205は、所定の対象画像に対するオブジェクト検出処理を施し、当該対象画像におけるオブジェクトを正確に検出し、識別する装置である。画像処理装置205は、例えば、対象の画像におけるそれぞれのオブジェクトのカテゴリー及び領域に関する情報を検出結果として出力してもよい。
図2に示すように、画像処理装置205は、受付部210と、画像生成部220と、画像合成部230と、画像分析部240と、画像合わせ部245と、オブジェクト検出ネットワーク255を格納するストレージ部250とを含む。
受付部210は、訓練用の画像である第1のMチャンネル画像(例えば、RGB画像)と、分析用の画像である第2のMチャンネル画像(例えば、RGB画像)及び第2のNチャンネル画像(例えば、赤外線画像)を取得するための機能部である。例えば、受付部210は、第1のMチャンネル画像を事前に用意されている訓練用画像データベース(図示せず)から取得して、第2のMチャンネル画像及び第2のNチャンネル画像をセンサ225A、225B(あるいは、クライアント端末215A、215B又は)から取得してもよい。
なお、ここでのM、N、及びKは、画像のチャンネル数を表す数字であり、画像の種類によって定められる。M及びNは互いに異なる数字であってもよく、画像の種類によっては、同一の数字であってもよい。例えば、RGB画像の場合、チャンネル数が3(赤、緑、青)であり、赤外線画像の場合、チャンネル数が1つのみである。以下では、Mチャンネル画像がRGBの3チャンネル画像であり、Nチャンネル画像が赤外線の1チャンネル画像であり、Kチャンネル画像がRGB画像及びNチャンネル画像を合成することによって得られる3チャンネルの画像である場合を一例として説明するが、本発明はこれに限定されず、Mチャンネル画像及びNチャンネル画像の種類及びチャンネル数はRGB-D画像、レントゲン画像、熱画像等、任意の種類の画像であってもよい。
画像生成部220は、Mチャンネル画像をNチャンネル画像に変換することで、新たなNチャンネル画像を生成する機能部である。画像生成部220は、例えば、第1のMチャンネル画像に基づいて、第1のNチャンネル画像の候補画像を生成する生成ネットワークと、当該候補画像を、第1のNチャンネル画像のグラウンドトゥルースに比較することにより、候補画像のグラウンドトゥルースに対する乖離度を判定し、所定の乖離度基準を満たす候補画像を、第1のNチャンネル画像として出力する識別ネットワークとを備える敵対的生成ネットワークであってもよい。
このような構成によれば、画像生成部220は、特定のチャンネル数の画像を、別のチャンネル数の画像に変換するように訓練されてもよい。これにより、画像生成部220は、例えばRGB画像のような3チャンネル画像を入力し、当該RGB画像を赤外線画像のような1チャンネル画像に変換した新たな赤外線画像を生成することができる。
画像合成部230は、Mチャンネル画像とNチャンネル画像とを合成することで、Kチャンネル画像を生成する機能部である。例えば、画像合成部230は、RGB画像と、画像生成部220によって生成された、当該RGB画像を赤外線画像に変換した赤外線画像とを合成することで、RGB画像の特徴と、赤外線画像の特徴との両方を含むKチャンネル画像を生成することができる。
ここで、Mチャンネル画像とNチャンネル画像とを合成するためには、画像合成部230は、Mチャンネル画像(RGB画像)から色調成分を抽出し、Nチャンネル画像(赤外線画像)からエッジ成分及び階調成分を抽出し、抽出された各成分を用いて合成することでKチャンネル画像を生成してもよい。
画像合成部230は、例えばRGB画像及び赤外線画像を合成した合成画像を生成することで、低照度の環境においても、輪郭が鮮明で色鮮やかな画像を生成できる。
画像分析部240は、第1のKチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、第2のMチャンネル画像と第2のNチャンネル画像とから生成される第2のKチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する機能部である。画像分析部240によって出力される検出結果情報は、Kチャンネル画像におけるそれぞれのオブジェクトのカテゴリー及び空間的領域(座標等)に関する情報であってもよい。
画像合わせ部245は、Mチャンネル画像及びNチャンネル画像の視点を互いに合わせるための機能部である。画像合わせ部245は、例えば、所定の回転関数及び/又は平行移動関数を用いて、受信した画像の位置や角度を調整することで、Mチャンネル画像及びNチャンネル画像における要素の位置を互いに整合するように加工することができる。
ストレージ部250は、上述した機能部が用いる各種データを格納するための記憶部である。ストレージ部250は、例えば図2に示すように、オブジェクトを検出するためのオブジェクト検出ネットワーク255を格納してもよい。ここでのストレージ部250は、例えば、フラッシュメモリ、ハードディスクドライブ等、任意の記憶媒体であってもよい。
オブジェクト検出ネットワーク255は、画像合成部230によって生成されるKチャンネル画像に対するオブジェクト検出処理を施し、オブジェクト検出結果情報を生成し、出力するニューラルネットワークモデルである。ここでのオブジェクト検出ネットワーク255は、後述する図3に示す訓練処理によって訓練され、図4に示す推論処理によって対象の画像を分析する。
本発明の実施形態に係るオブジェクト検出ネットワーク255は、例えば、畳み込みニューラルネットワーク(CNN、R-CNN、Faster-RCNN等)であってもよい。
なお、以上説明した機能部は、ソフトウェアのプログラムモジュールとして実施されてもよく、専用なハードウェアとして実施されてもよい。また、ある実施形態では、上述した機能部は、GPU(Graphics Procesing Unit)、FPGA(Field Programmable Gate Array)又はASIC(Application Specific Integrated Circuit)、等のハードウエアアクセラレーションデバイス上で実施されてもよい。
上述した構成によれば、異なるチャンネル数の画像を合成し、この合成した画像を用いてオブジェクト検出用ニューラルネットワークを訓練することで、様々な照明条件の環境の画像に対して良好なオブジェクト検出結果を生成することができる。
次に、図3を参照して、本発明の実施形態に係る画像処理方法における訓練処理の流れについて説明する。
図3は、本発明の実施形態に係る画像処理方法における訓練処理360の流れを示す図である。図3に示す訓練処理360は、図2に示すオブジェクト検出ネットワーク255を訓練させるための処理である。
まず、ステップS365では、受付部(例えば、図2に示す画像処理装置205の受付部210)は、第1のMチャンネル画像を取得する。この第1のMチャンネル画像は、例えば、事前に用意されている訓練用画像データベース(図示せず)から取得されている訓練用の画像である。また、上述したように、この第1のMチャンネル画像は、任意のチャンネル数の画像であってもよいが、説明の便宜上、以下では、この第1のMチャンネル画像が3チャンネルのRGB画像である場合を一例として説明する。
次に、ステップS370では、画像生成部(例えば、図2に示す画像処理装置205の画像生成部220)は、ステップS365で取得された第1のMチャンネル画像を用いて、第1のNチャンネル画像を生成する。ここで、ユーザは第1のNチャンネル画像の種類及びチャンネル数を設定してもよい。例えば、ユーザは、第1のNチャンネル画像を1チャンネルの赤外線画像に設定した場合、画像生成部は、第1のMチャンネル画像を1チャンネルの赤外線画像に変換した画像を第1のNチャンネル画像として生成してもよい。
上述したように、ここでの画像生成部は、例えば生成ネットワークと、識別ネットワークとを含む敵対的生成ネットワークであってもよい。この敵対的生成ネットワークの詳細については後述する。
次に、ステップS375では、画像合成部(例えば、図2に示す画像処理装置205の画像合成部230)は、ステップS365で取得された第1のMチャンネル画像と、ステップS370で生成された第1のNチャンネル画像とを合成することで、第1のKチャンネル画像を生成する。ここでの画像合成部は、例えば、画像の特徴を抽出するように構成された畳み込みニューラルネットワークであってもよい。この場合には、画像合成部は、第1のMチャンネル画像から第1の特徴セットを抽出し、第1のNチャンネル画像から第2の特徴セットを抽出した後、第1の特徴セットと第2の特徴セットを合成することで、第1のNチャンネル画像及び第1のMチャンネル画像の両方の特徴を含む第1のKチャンネル画像を生成してもよい。
次に、ステップS380では、画像分析部(例えば、図2に示す画像処理装置205の画像分析部240)は、ステップS380で生成されたKチャンネル画像を用いて、オブジェクト検出ネットワーク(例えば、図2に示す画像処理装置205のオブジェクト検出ネットワーク255)を訓練する。より具体的には、オブジェクト検出ネットワークは、
Kチャンネル画像を入力した後、当該Kチャンネル画像に対するオブジェクト検出処理を施し、Kチャンネル画像におけるそれぞれのオブジェクトのカテゴリー及び空間的領域(座標等)に関する情報を含む検出結果情報を出力する。その後、この画像分析部は、当該検出結果情報と、当該Kチャンネル画像に対する正しいオブジェクト検出結果を示すグラウンドトゥルースとを比較することにより、オブジェクト検出結果のグラウンドトゥルースに対する損失を計算する。ここで計算した損失をオブジェクト検出ネットワークにバックプロパゲーションし、オブジェクト検出ネットワークの各層のパラメータをグラウンドトゥルースにより類似するオブジェクト検出結果を生成するように最適化することにより、オブジェクト検出ネットワークが訓練され、オブジェクト検出精度を向上させることができる。
次に、図4を参照して、本発明の実施形態に係る画像処理方法における推論処理の流れについて説明する。
図4は、画像処理方法における推論処理400の流れを示す図である。図4に示す推論処理400は、図3に示す訓練処理360によって訓練されたオブジェクト検出ネットワーク255を用いて、対象の分析用画像に対してオブジェクト検出を行う処理である。
まず、ステップS405では、受付部(例えば、図2に示す画像処理装置205の受付部210)は、第2のMチャンネル画像及び第2のNチャンネル画像を取得する。この第2のMチャンネル画像及び第2のNチャンネル画像は、例えば、図2に示すクライアント端末215A、215B又はセンサ225A、225Bから取得される、オブジェクト検出を行う対象の分析用画像である。また、上述したように、この第2のMチャンネル画及び第2のNチャンネル画像は、任意のチャンネル数の画像であってもよいが、説明の便宜上、以下では、この第2のMチャンネル画像が3チャンネルのRGB画像であり、第2のNチャンネル画像が1チャンネルの赤外線画像である場合を一例として説明する。
また、ここでの第2のMチャンネル画像及び第2のNチャンネル画像の構図は実質的に同様である。例えば、第2のMチャンネル画像及び第2のNチャンネル画像は、同じ被写体を同時に撮影したRGBカメラの画像と赤外線画像カメラの画像であってもよい。
次に、ステップS410では、画像合わせ部(例えば、図2に示す画像処理装置205の画像合わせ部245)は、ステップS405で取得された第2のMチャンネル画像及び第2のNチャンネル画像に対する画像合わせ処理を行う。この画像合わせ処理とは、第2のMチャンネル画像及び第2のNチャンネル画像の位置や角度を調整することで、第2のMチャンネル画像及び第2のNチャンネル画像における要素の位置が互いに整合するように加工する処理である。より具体的には、画像合わせ部は、所定の回転関数及び平行移動関数等の線形変換を施すことで画像合わせを行ってもよい。
次に、ステップS415では、画像合成部(例えば、図2に示す画像処理装置205の画像合成部230)は、ステップS410で画像合わせ処理を施した第2のMチャンネル画像と第2のNチャンネル画像とを合成することで、第2のKチャンネル画像を生成する。このステップS415での処理は、図3を参照して説明した訓練処理360のステップS375に実質的に対応する。
一例として、画像合成部は、第2のMチャンネル画像から第1の特徴セットを抽出し、第2のNチャンネル画像から第2の特徴セットを抽出した後、第1の特徴セットと第2の特徴セットを合成することで、第2のNチャンネル画像及び第2のMチャンネル画像の両方の特徴を含む第2のKチャンネル画像を生成してもよい。この第2のKチャンネル画像は、第2のNチャンネル画像及び第2のMチャンネル画像の両方の特徴を含むため、第2のNチャンネル画像及び第2のMチャンネル画像をそれぞれ個別にオブジェクト検出ネットワークで分析した場合に比べて、より精度の高い検出結果を生成することができる。
次に、ステップS420では、画像分析部(例えば、図2に示す画像処理装置205の画像分析部240)は、図3に示す訓練処理360によって訓練されたオブジェクト検出ネットワーク255を用いて、ステップS415で生成されたKチャンネル画像に対してオブジェクト検出処理を行い、検出結果情報を出力する。この検出結果情報は、例えば、Kチャンネル画像におけるそれぞれのオブジェクトのカテゴリー及び空間的領域(座標等)に関する情報であってもよい。また、画像分析部は、ここで生成された検出結果情報を、例えば図2に示すクライアント端末215A、215Bに送信してもよい。
以上説明した推論処理400により、複数の、種類(又はチャンネル画像)が異なる画像を合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いて対象の分析用画像に対してオブジェクト検出を行うことで、オブジェクト検出精度を向上させることができる。
次に、図5を参照して、本発明の実施形態に係る画像処理装置の訓練段階の論理構成について説明する。
図5は、本発明の実施形態に係る画像処理装置の訓練段階の論理構成500の一例を示す図である。図5に示す論理構成500は、図3を参照して説明した訓練処理360に対応する。
画像処理装置の訓練段階では、まず、事前に用意されている訓練用画像データベース等(図示せず)から取得された第1のMチャンネル画像510が画像生成部220に供給される。画像生成部220が敵対的生成ネットワークとして実施される場合には、この敵対的生成ネットワークが既に訓練済みである。次に、画像生成部220は、入力された第1のMチャンネル画像510に戻づいて、当該第1のMチャンネル画像510をNチャンネル画像に変換した第1のNチャンネル画像520を生成する。
第1のMチャンネル画像510と、画像生成部220によって生成された第1のNチャンネル画像520とが画像合成部230に入力される。画像合成部230は、第1のMチャンネル画像510と第1のNチャンネル画像520とを合成することにより、第1のMチャンネル画像510と第1のNチャンネル画像520との両方の特徴を含む第1のKチャンネル画像530を生成する。この第1のKチャンネル画像530は、オブジェクト検出ネットワーク255に入力される。このオブジェクト検出ネットワーク255は、CPU、GPU、FPGA、ASICなどのハードウェアに含まれる演算器により構成され、ストレージ部250からDRAMやSRAMなどのメモリ上に呼び出された、オブジェクト検出ネットワーク255を構成するために必要な情報にもとづいて、演算を行う。第1のKチャンネル画像530を入力したオブジェクト検出ネットワーク255は、第1のKチャンネル画像530をトレーニングデータとしてエンドツーエンドで訓練される。
次に、図6を参照して、本発明の実施形態に係る画像処理装置の推論段階の論理構成について説明する。
図6は、本発明の実施形態に係る画像処理装置の推論段階の論理構成600の一例を示す図である。図6に示す論理構成600は、図4を参照して説明した推論処理400に対応する。
推論段階では、まず、受付部(例えば、図2に示す受付部210)は、センサ225Aから、第2のMチャンネル画像610を取得し、センサ225Bから、第2のNチャンネル画像620を取得する。上述したように、第2のMチャンネル画像610及び第2のNチャンネル画像620は、例えば、実質的に同一の構図を有し、同一の被写体を含む、オブジェクト検出を行う対象の分析用画像である。また、図6では、第2のMチャンネル画像610がセンサ225Aによって取得され、第2のNチャンネル画像620がセンサ225Bによって取得される場合を一例として示しているが、本発明はこれに限定されず、第2のMチャンネル画像610及び第2のNチャンネル画像620は、同じセンサによって取得されてもよい。
第2のMチャンネル画像610及び第2のNチャンネル画像620を取得した後、画像合わせ部245は画像合わせ処理を行い、第2のMチャンネル画像610及び第2のNチャンネル画像620の位置や角度を調整することで、第2のMチャンネル画像610及び第2のNチャンネル画像620における要素の位置を互いに合うように加工する。その後、画像合わせ部245は画像合わせ処理を施した第2のMチャンネル画像610及び第2のNチャンネル画像620を画像合成部230に入力する。
画像合成部230は、第2のMチャンネル画像610と第2のNチャンネル画像620とを合成することにより、第2のMチャンネル画像610と第2のNチャンネル画像620との両方の特徴を含む第2のKチャンネル画像630を生成する。この第2のKチャンネル画像630は、前記の通りストレージ部250に格納されている情報にもとづいて構成されたオブジェクト検出ネットワーク255に入力される。第2のKチャンネル画像630を入力したオブジェクト検出ネットワーク255は、第2のKチャンネル画像630に対してオブジェクト検出処理を行い、検出結果情報を出力する。この検出結果情報は、例えば、第2のKチャンネル画像630におけるそれぞれのオブジェクトのカテゴリー及び空間的領域(座標等)に関する情報であってもよい。
次に、図7~図8を参照して、本発明の実施形態に係る画像処理装置をRGB画像及び赤外線画像に適用した場合の一例について説明する。
図7は、本発明の実施形態に係る画像処理装置をRGB画像及び赤外線画像に適用した場合の訓練段階の論理構成700の一例を示す図である。
上述したように、本発明の実施形態に係る画像処理手段では、異なる種類及びチャンネル数の画像(例えば、Mチャンネル画像及びNチャンネル画像)を合成し、合成された全ての画像の特徴を含む画像(Kチャンネル画像)を生成し、この合成した画像をオブジェクト検出に用いることで、オブジェクト検出精度を向上させることができる。
一例として、本発明の実施形態に係る画像処理手段をRGB画像及び赤外線画像に適用することができる。一般に、画像が撮影される撮影環境が明るい場合には、RGBカメラは当該環境を正確に表現するための詳細な画像情報を取得することができる。しかし、撮影環境が暗い場合には、RGBカメラが取得できる情報が限られてしまい、当該RGBカメラによって取得されたRGB画像は撮影環境を正確に表現できないことがある。
一方、赤外線カメラは、RGB画像に比べて、暗い撮影環境に関するより多くの詳細な画像情報を取得することができる。従って、RGB画像及び赤外線画像を合成し、RGB画像及び赤外線画像の両方の特徴を含む画像を用いてオブジェクト検出ネットワークを訓練することで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することができる。
以下、画像処理装置をRGB画像及び赤外線画像に適用した場合の訓練段階について説明する。
なお、図7に示す論理構成700は、図5に示す論理構成500に実質的に対応するため、繰り返しとなる説明は省略する。
図7に示すように、まず、事前に用意されている訓練用画像データベース等(図示せず)から取得された(第1の)RGB画像710が画像生成部220に供給される。次に、画像生成部220は、RGB画像710に基づいて、当該RGB画像710を赤外線画像に変換した赤外線画像720を生成する。
その後、RGB画像710と、画像生成部220によって生成された(第1の)赤外線画像720とが画像合成部230に入力される。画像合成部230は、RGB画像710と赤外線画像720を合成することにより、RGB画像710と赤外線画像720との両方の特徴を含む3チャンネルの合成画像730を生成する。この合成画像730は、ストレージ部250に格納されている情報に基づいて構成されたオブジェクト検出ネットワーク255に入力される。合成画像730を入力したオブジェクト検出ネットワーク255は、合成画像730をトレーニングデータとしてエンドツーエンドで訓練される。これにより、オブジェクト検出ネットワーク255のオブジェクト検出精度が向上し、例えば暗い照明条件下で撮影された画像の場合であっても、良好なオブジェクト検出結果を生成することができるようになる。
図8は、本発明の実施形態に係る画像処理装置をRGB画像及び赤外線画像に適用した場合の推論段階の論理構成800の一例を示す図である。
図8は、図7に示すように訓練されたオブジェクト検出ネットワークを用いて、RGB画像及赤外線画像を合成した画像に対してオブジェクト検出処理を施す場合の一例を示す。
なお、図8に示す論理構成800は、図6に示す論理構成600に実質的に対応するため、繰り返しとなる説明は省略する。
推論段階では、まず、受付部(例えば、図2に示す受付部210)は、RGBカメラ825Aから(第2の)RGB画像810を取得し、赤外線カメラ825Bから、(第2の)赤外線画像820を取得する。上述したように、RGB画像810及び赤外線画像820は、例えば、実質的に同一の構図を有する、同一の被写体を含む、オブジェクト検出を行う対象の分析用画像である。また、図8では、RGB画像810がRGBカメラ825Aによって取得され、赤外線画像820が赤外線カメラ825Bによって取得される場合を一例として示しているが、本発明はこれに限定されず、RGB画像810及び赤外線画像820は、RGBカメラのモードと赤外線カメラのモードとの間で切り替え可能な単独のセンサによって取得されてもよい。
RGB画像810及び赤外線画像820を取得した後、画像合わせ部245は、画像合わせ処理を行い、RGB画像810及び赤外線画像820の位置や角度を調整することで、RGB画像810及び赤外線画像820における要素の位置を互いに合うように加工する。その後、受付部は画像合わせ処理を施したRGB画像810及び赤外線画像820を画像合成部230に入力する。
画像合成部230は、RGB画像810と赤外線画像820とを合成することにより、RGB画像810と赤外線画像820との両方の特徴を含む3チャンネルの合成画像830を生成する。この合成画像830は、ストレージ部250に格納されている情報にもとづいて構成されたオブジェクト検出ネットワーク255に入力される。合成画像830を入力したオブジェクト検出ネットワーク255は、合成画像830に対してオブジェクト検出処理を行い、検出結果情報を出力する。この検出結果情報は、例えば、合成画像830におけるそれぞれのオブジェクトのカテゴリー及び空間的領域(座標等)に関する情報であってもよい。
これにより、例えば暗い照明条件下で撮影された画像に対してオブジェクト検出を行う場合であっても、良好なオブジェクト検出結果を生成することができる。
次に、図9~図10を参照して、本発明の実施形態に係る画像処理において特徴抽出ネットワークを用いる場合の一例について説明する。
図9は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の訓練段階の論理構成900の一例を示す図である。
上述したように、本発明の実施形態に係る画像処理装置は、複数の、種類種類及びチャンネル数が異なる画像(例えば、RGB画像及び赤外線画像)を合成することで、合成された全ての画像の特徴を含む画像(Kチャンネル画像)を生成し、この合成した画像をオブジェクト検出に用いる。そこで、異なる種類及びチャンネル数の画像を合成するためには、画像処理装置は、特徴抽出ネットワークを用いて、入力されたそれぞれの画像の特徴を抽出し、抽出した特徴を合成することで、入力された全ての画像の特徴を含む合成画像を生成してもよい。
以下、画像処理装置が特徴抽出ネットワークを用いて画像合成を行う場合の一例について説明する。
なお、図9に示す論理構成900は、図5に示す論理構成500に実質的に対応するため、繰り返しとなる説明は省略する。
図9に示すように、事前に用意されている訓練用画像データベース等(図示せず)から取得された(第1の)Mチャンネル画像910とMチャンネル画像910に基づいて画像生成部220によって生成される(第1の)Nチャンネル画像920とは、特徴抽出ネットワーク935A、Bに入力される前に、画像次元調整926A、Bを受ける。この画像次元調整926A、Bは、Mチャンネル画像910及びNチャンネル画像920の次元(dimensionality)を、特徴抽出ネットワーク935A、Bが処理できる次元に調整するための処理である。
画像次元調整926A、Bの処理が終了した後、Mチャンネル画像910が特徴抽出ネットワーク935Aに入力され、Nチャンネル画像920が特徴抽出ネットワーク935Bに入力される。その後、特徴抽出ネットワーク935Aは、Mチャンネル画像910からの第1の特徴セットを抽出し、特徴抽出ネットワーク935Bは、Nチャンネル画像920からの第2の特徴セットを抽出する。次に、特徴抽出ネットワーク935A、Bによって抽出された第1の特徴セット及び第2の特徴セットが画像合成部230に入力される。次に、画像合成部230は、第1の特徴セット及び第2の特徴セットを合成することで、Kチャンネル画像の合成画像950を生成する。
なお、以降の処理は上述した図5等の処理と実質的に対応するため、ここではその説明は省略する。
図10は、本発明の実施形態に係る画像処理装置が特徴抽出ネットワークを含む場合の推論段階の論理構成1000一例を示す図である。
図10に示すように、推論段階では、センサ1025Aから取得された第2のMチャンネル画像1010とセンサ1025Bから取得された第2のNチャンネル画像1020とは、画像合わせ部245による画像合わせ処理を受けた後、特徴抽出ネットワーク1035A、Bに入力される。上述したように、第2のMチャンネル画像1010及び第2のNチャンネル画像1020は、例えば、実質的に同一の構図を有する、同一の被写体を含む画像である。
次に、特徴抽出ネットワーク1035Aは、第2のMチャンネル画像1010からの第1の特徴セットを抽出し、特徴抽出ネットワーク1035Bは、第2のNチャンネル画像1035からの第2の特徴セットを抽出する。次に、特徴抽出ネットワーク1035A、Bによって抽出された第1の特徴セット及び第2の特徴セットが画像合成部230に入力される。次に、画像合成部230は、第1の特徴セット及び第2の特徴セットを合成することで、Kチャンネル画像の分析用の合成画像1050を生成する。ここでは、第1の特徴セット及び第2の特徴セットを合成するためには、所定の既存の特徴合成手法が用いられてもよい。
なお、以降の処理は上述した図6等の処理と実質的に対応するため、ここではその説明は省略する。
次に、図11~図12を参照して、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の一例について説明する。
上述したように、本発明では、異なるチャンネル数の画像を合成し、この合成した画像を用いてオブジェクト検出用ニューラルネットワークを訓練することで、様々な照明条件下で撮影された画像に対して良好なオブジェクト検出結果を生成することができる。そこで、本発明の実施形態に係る画像処理手段をOpenpose等の、人間の体の手、頭、足、関節等の特徴点(キーポイント)を推定するための特徴点推定モジュールに組み合わせることで、例えば人間等のオブジェクトが暗い撮影環境で撮影された場合であっても、人間の身体の特徴を正確に検出することができる。
図11は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の訓練段階の論理構成1100の一例を示す図である。
図11に示すように、事前に用意されている訓練用画像データベース等(図示せず)から取得されたRGB画像1110がOpenpose等の特徴点推定モジュール1135Aに入力される。また、このRGB画像1110に基づいて画像生成部220によって生成される赤外線画像1120が画像次元調整の処理を受け、Openpose等の特徴点推定モジュール1135Bが受け付ける3チャンネルの画像に変換される。ここで、1チャンネルの赤外線画像1120を3チャンネルの画像に変換するためには、赤外線画像の1チャンネルの情報を3チャンネルになるように複製してもよい。
RGB画像1110を受け付けた特徴点推定モジュール1135A及び赤外線画像を受け付けた特徴点推定モジュール1135Bのそれぞれは、受け付けた画像のオブジェクトの特徴点を検出する。例えば、画像の被写体が人間の場合、人間の手、頭、足、関節等が特徴点として検出されてもよい。その後、特徴点推定モジュール1135A及び特徴点推定モジュール1135Bによって検出された特徴点は、画像合成部230に入力される。次に、画像合成部230は、受信した特徴点を合成することで、RGB画像1110及び赤外線画像1120の特徴点を両方とも含むKチャンネルの合成画像1150を生成する。
なお、ここでの画像合成部230は、いわゆるFeature Fusion Networkであってもよい。
また、以降の処理は上述した図5等の処理と実質的に対応するため、ここではその説明は省略する。
図12は、本発明の実施形態に係る画像処理において特徴点推定モジュールを用いる場合の推論段階の論理構成1200の一例を示す図である。
図12に示すように、推論段階では、RGBカメラ1225Aから取得されたRGB画像1210及び赤外線カメラ1225Bから取得された赤外線画像1220は、画像合わせ処理1226を受けた後、Openpose等の特徴点推定モジュール1235A、1235Bに入力される。
上述したように、RGB画像1210及び赤外線画像1220は、例えば、実質的に同一の構図を有し、同一の被写体を含む画像である。
次に、RGB画像1210を受け付けた特徴点推定モジュール1235A及び赤外線画像1220を受け付けた特徴点推定モジュール1235Bのそれぞれは、受け付けた画像からオブジェクトの特徴点(キーポイント)を検出する。その後、特徴点推定モジュール1235A及び特徴点推定モジュール1235Bによって検出された特徴点は、画像合成部230に入力される。次に、画像合成部230は、受信した特徴点を合成することで、RGB画像1210及び赤外線画像1220の特徴点を両方とも含むKチャンネルの合成画像1250を生成する。
合成画像1250を受け付けたオブジェクト検出ネットワーク255は、いわゆるキーポイントグルーピング(Keypoint Grouping)処理を行い、合成画像1250の特徴点(キーポイント)を分類し、特徴点間の最適な接続を判定する。例えば、合成画像1250の被写体が人間の場合、オブジェクト検出ネットワーク255は、特徴点推定モジュール1235A,1235Bによって検出されたキーポイントを、頭、右腕、左手、左腕、右手、銅、左足、右足、肘、膝等のカテゴリーに分類する。その後、オブジェクト検出ネットワーク255は、分類された特徴点に基づいて、合成画像1250の被写体である人間の体勢を推定する。
以上説明したように、本発明の実施形態に係る画像処理手段をOpenpose等の、人間の体の手、頭、足、関節等の特徴点(キーポイント)を推定するための特徴点推定モジュールに組み合わせることで、例えば人間等のオブジェクトが暗い撮影環境で撮影された場合であっても、人間の身体の特徴を正確に検出し、体勢を正確に推定することができる。
次に、図13を参照して、本発明の実施形態に係る画像生成部を敵対的生成ネットワークとして実施した場合の一例について説明する。
図13は、本発明の実施形態に係る画像生成部220を敵対的生成ネットワーク1310として実施した場合の一例を示す図である。図13に示すように、敵対的生成ネットワーク1310は、生成ネットワーク1320と、識別ネットワーク1330とからなる。生成ネットワーク1320と、識別ネットワーク1330とは、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、又はオートエンコーダ等であってもよい。
生成ネットワーク1320は、Mチャンネル画像(例えば、RGB画像)1305が入力されると、当該Mチャンネル画像1305に基づいて、所望のNチャンネル画像(例えば、赤外線画像)の候補画像を生成し、候補画像を識別ネットワーク1330に送信する。
なお、ここでのNは、例えば、ユーザによって設定されてもよい。
識別ネットワーク1330は、受信した候補画像を、グラウンドトゥルース1315に比較することで、候補画像のグラウンドトゥルースに対する乖離度を判定する。ここでのグラウンドトゥルース1315とは、Mチャンネル画像1305をNチャンネル画像に変換した場合の正しい出力を示す模範の画像である。
また、ここでの乖離度とは、生成ネットワーク1320によって生成された候補画像とグラウンドトゥルースとの差を定量的に示す尺度であり、既存の損失計算法によって算出されてもよい。
次に、識別ネットワーク1330は、判定した乖離度をフィードバックとして生成ネットワーク1320に送信した後、生成ネットワーク1320は、この乖離度に基づいて、グラウンドトゥルースにより類似する候補画像を生成するように、各層のパラメータを最適化する。
以上説明した処理を繰り返すことで、生成ネットワーク1320が訓練され、より精度の高い候補画像を生成することができるようになる。そして、識別ネットワーク1330は、生成ネットワーク1320が生成する候補画像の中から、所定の乖離度基準を満たす候補画像を、Nチャンネル画像1350として出力する。
ここでの所定の乖離度基準は、例えば、乖離度の許容上限を示す値であり、この上限以下の乖離度を満たす(つまり、グラウンドトゥルース1315と類似度が高い)画像は、Nチャンネル画像1350として出力される。
このように、画像生成部240は、例えばRGB等の所定のMチャンネル画像に基づいて、高精度のNチャンネル画像(例えば、赤外線画像)を生成することができる。
次に、図14を参照して、本発明の実施形態に係る画像生成部の訓練方法について説明する。
図14は、本発明の実施形態に係る画像生成部の訓練方法1400の一例を示す図である。図14に示す訓練方法1400を実行することにより、画像生成部の画像生成精度が向上し、より高精度のNチャンネル画像を生成することができるようになる。
まず、ステップS1410では、画像生成部の生成ネットワークは、訓練用のMチャンネル画像を取得する。訓練用のMチャンネル画像は、例えば、事前に用意されている訓練用画像データベースから取得されてもよい。上述したように、この訓練用のMチャンネル画像は例えば3チャンネルのRGB画像であってもよい。
次に、ステップS1420では、画像生成部の生成ネットワークは、取得したMチャンネル画像に基づいて当該Mチャンネル画像を所望のNチャンネル画像に変換するためのデータ分布のマッピングを学習し、Nチャンネル画像の候補画像を生成する。ここでのNチャンネル画像は、ユーザによって設定されてもよく、例えば1チャンネルの赤外線画像であってもよい。
次に、ステップS1430では、画像生成部の識別ネットワークは、ステップS1420で生成されたNチャンネル画像の候補画像のグラウンドトゥルースに対する乖離度を判定する。上述したように、ここでのグラウンドトゥルースは、ステップS1410で取得されたMチャンネル画像をNチャンネル画像に変換した場合の正しい出力を示す模範の画像である。また、ここでの乖離度とは、生成ネットワークによって生成された候補画像とグラウンドトゥルースとの差を定量的に示す尺度である。
次に、ステップS1440では、識別ネットワークによって判定された乖離度は、フィードバックとして生成ネットワークに送信される。このフィードバックを受信した生成ネットワークは、この乖離度に基づいて、グラウンドトゥルースにより類似する候補画像を生成するように、各層のパラメータを最適化する。
次に、図15を参照して、本発明の実施形態に係る画像合わせ部について説明する。
図15は、本発明の実施形態に係る画像合わせ部245の一例を示す図である。上述したように、推論段階において画像処理装置に入力される画像(第2のMチャンネル画像及び第2のNチャンネル画像)が異なるセンサから取得された場合、当該センサの空間的関係によって、それぞれの画像内の要素が互いにずれることがある。そのため、本発明では、このズレを修正するためには、受信した画像の位置や角度を調整することで、第2のMチャンネル画像及び第2のNチャンネル画像における要素の位置を互いに合うように加工する画像合わせ部245が用いられる。
以下、画像合わせ部245について説明する。
図15に示すように、画像合わせ部245は、第2のMチャンネル画像1405と、第2のNチャンネル画像1410とを受信する。第2のMチャンネル画像1405は、例えば、推論段階においてRGBカメラによって取得されるRGB画像であってもよい。また、第2のNチャンネル画像は、例えば、推論段階において赤外線カメラによって取得された赤外線画像であってもよい。
上述したように、この段階では、第2のMチャンネル画像1405を取得したセンサと、第2のNチャンネル画像1410を取得したセンサとの空間的関係によって、第2のMチャンネル画像と第2のNチャンネル画像の視点が互いにずれていることがある。
第2のMチャンネル画像1405及び第2のNチャンネル画像1410を取得した後、画像合わせ部245は、所定の回転関数1420及び平行移動関数1430を用いて、第2のMチャンネル画像1405及び第2のNチャンネル画像1410の位置や角度を調整する。回転関数1420は、第2のMチャンネル画像1405及び/又は第2のNチャンネル画像1410の角度を変更するための関数であり、平行移動関数1430は、第2のMチャンネル画像1405及び/又は第2のNチャンネル画像1410の二次元的な位置を変更するための関数である。
画像合わせ部245は、回転関数1420及び/又は平行移動関数1430を適宜に用いることで、第2のMチャンネル画像1405及び第2のNチャンネル画像1410の位置や角度を調整し、視点が互いに合わせられた加工済みの第2のMチャンネル画像1440と加工済みの第2のNチャンネル画像1450を生成することができる。この視点が互いに合わせられた加工済みの第2のMチャンネル画像1440及び第2のNチャンネル画像1450を上述した画像合成部230に送信することで、それぞれの画像の特徴を含む高精度の合成画像を生成することができる。
以上説明した画像処理装置、画像処理方法、及び画像処理システムによれば、複数の、異なる種類の画像(例えば、RGB画像と赤外線画像)を合成し、この合成した画像に基づいて訓練されたオブジェクト検出用ニューラルネットワークを用いてオブジェクト検出を行うことで、様々な照明条件下で撮影された画像に対して高精度なオブジェクト検出結果を提供することができる。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
205 画像処理装置
210 受付部
215A、B クライアント端末
220 画像生成部
225A、B センサ
230 画像合成部
235 ネットワーク
240 画像分析部
245 画像合わせ部
250 ストレージ部
255 オブジェクト検出ネットワーク

Claims (7)

  1. 画像処理装置であって、
    第1のMチャンネル画像と、前記第1のMチャンネル画像を敵対的生成ネットワークによって処理することで生成した第1のNチャンネル画像とから生成される第1のKチャンネル画像を用いて訓練されるオブジェクト検出用ニューラルネットワークを格納するストレージ部と、
    同一の被写体を含む第2のMチャンネル画像及び第2のNチャンネル画像とをセンサから受信する受付部と、
    前記第1のKチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、前記第2のMチャンネル画像と前記第2のNチャンネル画像とから生成される第2のKチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する画像分析部と、
    前記第1のMチャンネル画像に基づいて、前記第1のNチャンネル画像の候補画像を生成する生成ネットワークと、
    前記候補画像を、前記第1のNチャンネル画像のグラウンドトゥルースに比較することにより、前記候補画像の前記グラウンドトゥルースに対する乖離度を判定し、所定の乖離度基準を満たす候補画像を、前記第1のNチャンネル画像として出力する識別ネットワークと、
    を備える敵対的生成ネットワークからなる画像合成部と、
    を含むことを特徴とする画像処理装置。
  2. 前記画像合成部は、
    同一の被写体を含むMチャンネル画像及びNチャンネル画像とを合成することで、Kチャンネル画像を生成する、
    とを特徴とする、請求項1に記載の画像処理装置。
  3. 前記画像合成部は、
    前記Mチャンネル画像から抽出された第1の特徴セットと、
    前記Nチャンネル画像から抽出された第2の特徴セットと、
    を合成することで前記Kチャンネル画像を生成する、
    ことを特徴とする、請求項2に記載の画像処理装置。
  4. 前記Mチャンネル画像及び前記Nチャンネル画像は、
    RGB画像、RGB-D画像、赤外線画像、レントゲン画像、及び熱画像から選択されるものである、
    ことを特徴とする、請求項2に記載の画像処理装置。
  5. 画像処理方法であって、
    第1のMチャンネル画像を取得する工程と、
    敵対的生成ネットワークの生成ネットワークを用いて、前記第1のMチャンネル画像に基づいて、第1のNチャンネル画像の候補画像を生成する工程と、
    前記敵対的生成ネットワークの識別ネットワークを用いて、前記候補画像を、前記第1のNチャンネル画像のグラウンドトゥルースに比較することにより、前記候補画像の前記グラウンドトゥルースに対する乖離度を判定する工程と、
    前記敵対的生成ネットワークの前記識別ネットワークを用いて、所定の乖離度基準を満たす候補画像を、前記第1のNチャンネル画像として出力する工程と、
    前記第1のMチャンネル画像と、前記第1のNチャンネル画像とを合成し、第1のKチャンネル画像を生成する工程と、
    前記第1のKチャンネル画像を用いて、オブジェクト検出用のニューラルネットワークを訓練する工程と、
    同一の被写体を含む第2のMチャンネル画像及び第2のNチャンネル画像とを取得する工程と、
    前記第2のMチャンネル画像と、前記第2のNチャンネル画像とを合成し、第2のKチャンネル画像を生成する工程と、
    前記第1のKチャンネル画像を用いて訓練された前記オブジェクト検出用のニューラルネットワークを用いて、前記第2のKチャンネル画像に対するオブジェクト検出結果情報を生成し、出力する工程と、
    を含むことを特徴とする画像処理方法。
  6. 前記第2のMチャンネル画像と、前記第2のNチャンネル画像とを合成し、第2のKチャンネル画像を生成する工程は、
    前記第2のMチャンネル画像から第1の特徴セットを抽出する工程と、
    前記第2のNチャンネル画像から第2の特徴セットを抽出する工程と、
    前記第1の特徴セットと、前記第2の特徴セットとを合成することで前記第2のKチャンネル画像を生成する、
    ことを特徴とする、請求項5に記載の画像処理方法。
  7. クライアント端末と、センサと、画像処理装置とが通信ネットワークを介して接続されている画像処理システムであって、
    前記画像処理装置は、
    第1のMチャンネル画像と、前記第1のMチャンネル画像を敵対的生成ネットワークによって処理することで生成した第1のNチャンネル画像とから生成される第1のKチャンネル画像を用いて訓練されるオブジェクト検出用ニューラルネットワークを格納するストレージ部と、
    同一の被写体を含む第2のMチャンネル画像及び第2のNチャンネル画像とを前記センサから受信する受付部と、
    前記第1のKチャンネル画像を用いて訓練されたオブジェクト検出用ニューラルネットワークを用いて、前記第2のMチャンネル画像と前記第2のNチャンネル画像とから生成される第2のKチャンネル画像に対するオブジェクト検出結果情報を生成し、前記クライアント端末に出力する画像分析部と、
    前記第1のMチャンネル画像に基づいて、前記第1のNチャンネル画像の候補画像を生成する生成ネットワークと、
    前記候補画像を、前記第1のNチャンネル画像のグラウンドトゥルースに比較することにより、前記候補画像の前記グラウンドトゥルースに対する乖離度を判定し、所定の乖離度基準を満たす候補画像を、前記第1のNチャンネル画像として出力する識別ネットワークと、
    を備える敵対的生成ネットワークからなる画像合成部と、
    を含むことを特徴とする画像処理システム。
JP2020076511A 2020-04-23 2020-04-23 画像処理装置、画像処理方法及び画像処理システム Active JP7446903B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020076511A JP7446903B2 (ja) 2020-04-23 2020-04-23 画像処理装置、画像処理方法及び画像処理システム
US17/203,785 US11954600B2 (en) 2020-04-23 2021-03-17 Image processing device, image processing method and image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020076511A JP7446903B2 (ja) 2020-04-23 2020-04-23 画像処理装置、画像処理方法及び画像処理システム

Publications (2)

Publication Number Publication Date
JP2021174183A JP2021174183A (ja) 2021-11-01
JP7446903B2 true JP7446903B2 (ja) 2024-03-11

Family

ID=78222380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020076511A Active JP7446903B2 (ja) 2020-04-23 2020-04-23 画像処理装置、画像処理方法及び画像処理システム

Country Status (2)

Country Link
US (1) US11954600B2 (ja)
JP (1) JP7446903B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11861896B1 (en) * 2021-03-31 2024-01-02 Skydio, Inc. Autonomous aerial navigation in low-light and no-light conditions

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022547769A (ja) 2019-09-11 2022-11-16 グーグル エルエルシー 機械学習を用いた画像カラー化

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070237387A1 (en) 2006-04-11 2007-10-11 Shmuel Avidan Method for detecting humans in images
US9754182B2 (en) * 2015-09-02 2017-09-05 Apple Inc. Detecting keypoints in image data
WO2020206362A1 (en) * 2019-04-04 2020-10-08 Inscopix, Inc. Multi-modal microscopic imaging
US10013765B2 (en) * 2016-08-19 2018-07-03 Mitsubishi Electric Research Laboratories, Inc. Method and system for image registrations
US10916001B2 (en) * 2016-11-28 2021-02-09 Adobe Inc. Facilitating sketch to painting transformations
US10748062B2 (en) * 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
US10713537B2 (en) * 2017-07-01 2020-07-14 Algolux Inc. Method and apparatus for joint image processing and perception
US10989779B2 (en) * 2017-09-29 2021-04-27 Yonsei University, University - Industry Foundation (UIF) Apparatus and method for reconstructing magnetic resonance image using learning, and under-sampling apparatus method and recording medium thereof
CN107767408B (zh) * 2017-11-09 2021-03-12 京东方科技集团股份有限公司 图像处理方法、处理装置和处理设备
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
US10223611B1 (en) * 2018-03-08 2019-03-05 Capital One Services, Llc Object detection using image classification models
WO2019209276A1 (en) * 2018-04-25 2019-10-31 Hewlett-Packard Development Company, L.P. Identifying differences between images
WO2019237240A1 (zh) * 2018-06-12 2019-12-19 中国科学院深圳先进技术研究院 一种增强型生成式对抗网络以及目标样本识别方法
WO2020051776A1 (en) * 2018-09-11 2020-03-19 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
US10929676B2 (en) * 2018-11-01 2021-02-23 Microsoft Technology Licensing, Llc Video recognition using multiple modalities
US10810725B1 (en) * 2018-12-07 2020-10-20 Facebook, Inc. Automated detection of tampered images
US10776673B2 (en) * 2019-01-31 2020-09-15 StradVision, Inc. Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
AU2020224659A1 (en) * 2019-02-20 2021-09-23 Bluerock Therapeutics Lp Detecting cells of interest in large image datasets using artificial intelligence
CN109919888B (zh) * 2019-02-26 2023-09-19 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置
US10853642B2 (en) * 2019-03-22 2020-12-01 Advanced New Technologies Co., Ltd. Fusing multi-spectral images for identity authentication
CN115442515B (zh) * 2019-03-25 2024-02-02 华为技术有限公司 图像处理方法和设备
JP7167832B2 (ja) * 2019-04-19 2022-11-09 日本電信電話株式会社 画像変換装置、画像変換モデル学習装置、方法、及びプログラム
JP7491041B2 (ja) * 2019-05-22 2024-05-28 富士通株式会社 画像コーディング装置、確率モデル生成装置及び画像デコーディング装置
CN110188776A (zh) * 2019-05-30 2019-08-30 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
CN110211205B (zh) * 2019-06-14 2022-12-13 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和存储介质
CN110232696B (zh) * 2019-06-20 2024-03-08 腾讯科技(深圳)有限公司 一种图像区域分割的方法、模型训练的方法及装置
GB201910720D0 (en) * 2019-07-26 2019-09-11 Tomtom Global Content Bv Generative adversarial Networks for image segmentation
CN110599395B (zh) * 2019-09-17 2023-05-12 腾讯科技(深圳)有限公司 目标图像生成方法、装置、服务器及存储介质
CN110838133B (zh) * 2019-09-27 2020-11-24 深圳云天励飞技术有限公司 多目标跟踪方法及相关设备
CN112219224B (zh) * 2019-12-30 2024-04-26 商汤国际私人有限公司 图像处理方法及装置、电子设备和存储介质
CN111291885B (zh) * 2020-01-20 2023-06-09 北京百度网讯科技有限公司 近红外图像的生成方法、生成网络的训练方法和装置
KR102144320B1 (ko) * 2020-02-13 2020-08-13 주식회사 에어스 메디컬 자기 공명 영상 처리 장치 및 그 방법
US11475714B2 (en) * 2020-02-19 2022-10-18 Motorola Solutions, Inc. Systems and methods for detecting liveness in captured image data
CN111311629B (zh) * 2020-02-21 2023-12-01 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
US11210831B2 (en) * 2020-02-28 2021-12-28 Adobe Inc. Depicting humans in text-defined outfits
CN115210751A (zh) * 2020-03-04 2022-10-18 奥林巴斯株式会社 学习数据生成***以及学习数据生成方法
US11455793B2 (en) * 2020-03-25 2022-09-27 Intel Corporation Robust object detection and classification using static-based cameras and events-based cameras
CN111598133B (zh) * 2020-04-22 2022-10-14 腾讯医疗健康(深圳)有限公司 基于人工智能的图像显示方法、装置、***、设备及介质
EP4139838A4 (en) * 2020-04-23 2023-12-06 Nokia Technologies Oy METHOD AND DEVICE FOR 3D OBJECT RECOGNITION

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022547769A (ja) 2019-09-11 2022-11-16 グーグル エルエルシー 機械学習を用いた画像カラー化

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ivana Shopovska et al.,Deep Visible and Thermal Image Fusion for Enhanced Pedestrian Visibility,Sensors 2019, 19 ,3727,2019年08月28日,https://www.mdpi.com/1424-8220/19/17/3727
S. Cygert et al.,Style Transfer for Detecting Vehicles with Thermal Camera,2019 Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA),2019年09月20日,https://ieeexplore.ieee.org/abstract/document/8936707

Also Published As

Publication number Publication date
JP2021174183A (ja) 2021-11-01
US20210334580A1 (en) 2021-10-28
US11954600B2 (en) 2024-04-09

Similar Documents

Publication Publication Date Title
Sun et al. Putting people in their place: Monocular regression of 3d people in depth
Pavlakos et al. Expressive body capture: 3d hands, face, and body from a single image
Gao et al. 6d object pose regression via supervised learning on point clouds
Jackson et al. 3d human body reconstruction from a single image via volumetric regression
Sheikh et al. Exploring the space of a human action
Wang et al. Action recognition from depth maps using deep convolutional neural networks
Tan et al. Face detection and verification using lensless cameras
US20210056701A1 (en) Method of image processing using a neural network
Liu et al. A cross-modal adaptive gated fusion generative adversarial network for RGB-D salient object detection
WO2018228218A1 (zh) 身份识别方法、计算设备及存储介质
Nazir et al. SemAttNet: Toward attention-based semantic aware guided depth completion
US10204423B2 (en) Visual odometry using object priors
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
EP4030381A1 (en) Artificial-intelligence-based image processing method and apparatus, and device and storage medium
Tekin et al. Fusing 2d uncertainty and 3d cues for monocular body pose estimation
JP2020525958A (ja) 画像処理システム及び画像処理方法
Li et al. Action recognition from depth sequence using depth motion maps-based local ternary patterns and CNN
Al-Dhabi et al. Deepfake video detection by combining convolutional neural network (cnn) and recurrent neural network (rnn)
JP2023521270A (ja) 多様なポートレートから照明を学習すること
Liu et al. Aurora guard: Real-time face anti-spoofing via light reflection
US20240096134A1 (en) Action Recognition System and Method
JP7446903B2 (ja) 画像処理装置、画像処理方法及び画像処理システム
Véges et al. Multi-person absolute 3D human pose estimation with weak depth supervision
CN116977463A (zh) 图像处理方法、装置、计算机设备、存储介质及产品
Nguyen et al. Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240228

R150 Certificate of patent or registration of utility model

Ref document number: 7446903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150