JP7061191B2

JP7061191B2 - 画像処理方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP7061191B2
Application number: JP2020533126A
Authority: JP
Inventors: グワンバオジョウ; グイミンジャン; チウトンホー
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-08-19
Publication date: 2022-04-27
Anticipated expiration: 2039-08-19
Also published as: CN109948494B; CN109948494A; KR102446687B1; TW202034211A; WO2020181728A1; SG11202006321UA; JP2021517747A; US11288531B2; US20200327353A1; KR20200110642A; TWI702544B; PH12020551046A1

Description

（関連出願の相互参照）
本願は、出願番号が２０１９１０１８１０７８．０であり、出願日が２０１９年３月１１日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本開示は、コンピュータ技術に関し、特に、画像処理方法及び装置、電子機器並びに記憶媒体に関する。

関連技術において、顔認識技術を用いて目標対象の参照画像に基づいて大量のビデオから目標対象が含まれるビデオフレームを検索することができるが、参照画像内の目標対象の特徴情報が不完全である場合に（例えば、人体領域又は顔領域しか撮影できていない場合に）、検索過程において、検索して見つけた一部の特徴情報に対応する領域に対してマッチングする必要があり、例えば、顔領域によって複数のビデオフレームを検索して見つけ、ビデオフレームから顔領域とマッチング可能な人体領域を決定する。しかしながら、マッチングに干渉し得る領域がビデオフレームに多くあるのが一般であり、従って、顔領域と人体領域がマッチングしにくい。

本開示の実施例は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。

本開示の実施例の一態様によれば、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定するステップと、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するステップと、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定するステップと、
前記第１位置情報、前記第２位置情報及び前記第３位置情報に基づいて、前記第１画像において前記目標対象の顔領域の第４位置情報及び前記目標対象の人体領域の第５位置情報を決定するステップと、
前記第４位置情報と前記第５位置情報に基づいて、前記第１画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第２画像を取得するステップと、を含む画像処理方法を提供する。

本開示の実施例に係る画像処理方法は、目標対象が含まれる第１画像において目標対象の所在する目標領域を決定して、目標領域に対して切り抜き処理を行って、切り抜き画像において目標対象の顔領域及び人体領域を決定することができ、干渉領域を除去して、目標対象の顔領域と人体領域をマッチングする難易度を低減することができる。

可能な一実施形態では、参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定する前記ステップは、
顔特徴情報及び／又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得するステップと、
前記目標対象の特徴情報に基づいて、複数の被処理画像において目標対象が含まれる第１画像を決定するステップと、
前記第１画像において、前記目標対象が所在する目標領域の第１位置情報を決定するステップと、を含む。

可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定する前記ステップは、
前記参照画像内の目標対象の顔特徴情報に基づいて、前記切り抜き画像において、前記目標対象の顔領域の第２位置情報を決定するステップと、
前記切り抜き画像において、複数の人体領域の位置情報を決定するステップと、
前記第２位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定するステップと、を含む。

可能な一実施形態では、前記第２位置情報は、前記目標対象の顔領域に対してボックス選択を行う第１選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第２選択ボックスの座標情報を含み、
前記第２位置情報に基づいて前記切り抜き画像内の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定する前記ステップは、
前記第２位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて、前記切り抜き画像内の非目標人体領域を除去して、第１人体領域を取得するステップと、
前記第１選択ボックスの中心位置の座標と前記第２選択ボックスの上縁中点の座標との間の距離に基づいて、第１人体領域から第２人体領域を選び出すステップと、
前記第２人体領域の第２選択ボックスの中心位置と前記第１選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第２人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第３位置情報を決定するステップと、を含む。

このような形態によれば、座標の計算によって目標対象の人体領域を決定し、処理効率を高めることができる。

可能な一実施形態では、前記非目標人体領域は、
前記第１選択ボックスに対して共通部分が存在しない第２選択ボックスに対応する人体領域、
中心位置の縦座標が第１選択ボックスの下縁の縦座標以上である第２選択ボックスに対応する人体領域、
左縁の横座標が第１選択ボックスの右縁の横座標以上である第２選択ボックスに対応する人体領域、
右縁の横座標が第１選択ボックスの左縁の横座標以下である第２選択ボックスに対応する人体領域の中の少なくとも１つのものを含む。

このような形態によれば、複数のノイズとしての人体領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができる。

可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定する前記ステップは、
前記参照画像内の目標対象の人体特徴情報に基づいて、前記切り抜き画像において、前記目標対象の人体領域の第３位置情報を決定するステップと、
前記切り抜き画像において、複数の顔領域の位置情報を決定するステップと、
前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定するステップと、を含む。

可能な一実施形態では、前記第３位置情報は、前記目標対象の人体領域に対してボックス選択を行う第３選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第４選択ボックスの座標情報を含み、
前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定する前記ステップは、
前記第３位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて、前記切り抜き画像内の非目標顔領域を除去して、第１顔領域を取得するステップと、
前記第３選択ボックスの上縁中点の座標と前記第４選択ボックスの中心位置の座標との間の距離に基づいて、第１顔領域から第２顔領域を選び出すステップと、
前記第２顔領域の第４選択ボックスの中心位置と前記第３選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第２顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第２位置情報を決定するステップと、を含む。

このような形態によれば、座標の計算によって目標対象の顔領域を決定し、処理効率を高めることができる。

可能な一実施形態では、前記非目標顔領域は、
前記第３選択ボックスに対して共通部分が存在しない第４選択ボックスに対応する顔領域、
下縁の縦座標が第３選択ボックスの中心位置の縦座標以下である第４選択ボックスに対応する顔領域、
左縁の横座標が第３選択ボックスの右縁の横座標以上である第４選択ボックスに対応する顔領域、
右縁の横座標が第３選択ボックスの左縁の横座標以下である第４選択ボックスに対応する顔領域の中の少なくとも１つのものを含む。

このような形態によれば、複数のノイズとしての顔領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができる。

本開示の実施例の別の態様によれば、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定するように構成される第１決定モジュールと、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するように構成される切り抜きモジュールと、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定するように構成されるノイズ除去モジュールと、
前記第１位置情報、前記第２位置情報及び前記第３位置情報に基づいて、前記第１画像において前記目標対象の顔領域の第４位置情報及び前記目標対象の人体領域の第５位置情報を決定するように構成される第２決定モジュールと、
前記第４位置情報と前記第５位置情報に基づいて、前記第１画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第２画像を取得するように構成される処理モジュールと、を含む画像処理装置を提供する。

可能な一実施形態では、前記第１決定モジュールは、顔特徴情報及び／又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得し、前記目標対象の特徴情報に基づいて複数の被処理画像において目標対象が含まれる第１画像を決定し、前記第１画像において、前記目標対象が所在する目標領域の第１位置情報を決定するように構成される。

可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の顔特徴情報に基づいて前記切り抜き画像において、前記目標対象の顔領域の第２位置情報を決定し、前記切り抜き画像において、複数の人体領域の位置情報を決定し、前記第２位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定するように構成される。

可能な一実施形態では、前記第２位置情報は、前記目標対象の顔領域に対してボックス選択を行う第１選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第２選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第２位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて前記切り抜き画像内の非目標人体領域を除去して第１人体領域を取得し、前記第１選択ボックスの中心位置の座標と前記第２選択ボックスの上縁中点の座標との間の距離に基づいて第１人体領域から第２人体領域を選び出し、前記第２人体領域の第２選択ボックスの中心位置と前記第１選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第２人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第３位置情報を決定するように構成される。

可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の人体特徴情報に基づいて前記切り抜き画像において、前記目標対象の人体領域の第３位置情報を決定し、前記切り抜き画像において、複数の顔領域の位置情報を決定し、前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定するように構成される。

可能な一実施形態では、前記第３位置情報は、前記目標対象の人体領域に対してボックス選択を行う第３選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第４選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第３位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて前記切り抜き画像内の非目標顔領域を除去して第１顔領域を取得し、前記第３選択ボックスの上縁中点の座標と前記第４選択ボックスの中心位置の座標との間の距離に基づいて第１顔領域から第２顔領域を選び出し、前記第２顔領域の第４選択ボックスの中心位置と前記第３選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第２顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第２位置情報を決定するように構成される。

本開示の実施例の一態様によれば、
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが上記画像処理方法を実行するように構成される電子機器を提供する。

本開示の実施例の一態様によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記画像処理方法を実現するコンピュータ読取可能記憶媒体を提供する。

以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。

以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。

本開示の実施例に係る画像処理方法のフローチャートを示す。本開示の実施例に係る目標領域の模式図を示す。本開示の実施例に係る画像処理方法の適用の模式図を示す。本開示の実施例に係る画像処理装置のブロック図を示す。本開示の実施例に係る電子装置のブロック図を示す。本開示の実施例に係る電子装置のブロック図を示す。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３種の場合を示してもよい。また、本明細書の用語の「少なくとも１種」は多種のうちのいずれか１種又は多種のうちの少なくとも２種の任意の組合を示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むということは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。

図１は本開示の実施例に係る画像処理方法のフローチャートを示し、図１に示すように、前記方法は、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定するステップＳ１１と、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するステップＳ１２と、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定するステップＳ１３と、
前記第１位置情報、前記第２位置情報及び前記第３位置情報に基づいて、前記第１画像において前記目標対象の顔領域の第４位置情報及び前記目標対象の人体領域の第５位置情報を決定するステップＳ１４と、
前記第４位置情報と前記第５位置情報に基づいて、前記第１画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第２画像を取得するステップＳ１５と、を含む。

本開示の実施例に係る画像処理方法は、目標対象が含まれる第１画像において目標対象の所在する目標領域を決定して、目標領域に対して切り抜き処理を行って、切り抜き画像において目標対象の顔領域及び人体領域を決定するようにしてよく、干渉領域を除去して、目標対象の顔領域と人体領域をマッチングする難易度を低減することができる。

可能な一実施形態では、前記画像処理方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ，ＵＥ）、携帯機器、ユーザ端末、端末、セル方式の携帯無線電話、無線電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ，ＰＤＡ）、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等の端末装置により実行してよく、前記方法は、プロセッサによってメモリに記憶されたコンピュータ読取可能コマンドを呼び出して実現してよい。又は、前記画像処理方法はサーバによって実行する。

可能な一実施形態では、前記参照画像は、ユーザが選択した画像であってもよく、アップロードした画像であってもよく、被検出ビデオのビデオフレームであってもよい。前記目標対象の特徴情報を参照画像から取得することができる。一例として、前記被検出ビデオは、複数の地理的位置に分散されたビデオ取得装置で撮影した所定の時間帯内のビデオを含む。例えば、ビデオ取得装置は各区域又は各街路に分散されたカメラであってよく、各カメラは撮影したビデオをサーバに送信し得、サーバは各カメラの撮影したビデオをよせ集めて前記被検出ビデオを取得し得る。例えば、所定の時間帯は１日、１時間等であってよく、あるカメラで取得された所定の時間帯内のビデオを前記被検出ビデオとしてよい。別の例として、被検出ビデオは複数の地理的位置に分散されたカメラで撮影した所定の時間帯内のビデオであり、例えば、被検出ビデオは複数の街路に分散された多数のカメラが９：００－１０：００に撮影したビデオであってよい。

前記被検出ビデオは、目標対象を含むビデオフレームを有してよく、例えば、前記被検出ビデオが監視ビデオであり、前記目標対象が犯罪容疑者であり、被検出ビデオは犯罪容疑者を含むビデオフレームを有してよい。更に、被検出ビデオの各ビデオフレームは、各ビデオフレームを取得する時の時間情報を示すタイムスタンプを有してよい。被検出ビデオの各ビデオフレームは、各ビデオフレームを取得するビデオ取得装置（例えば、カメラ）の所在する地理的位置、又はビデオ取得装置が撮影する領域の所在する地理的位置を示す地理的位置情報を有してよい。

可能な一実施形態では、前記参照画像は、目標対象の顔領域と人体領域のうちの少なくとも一方を有する画像であってよく、この画像から目標対象の特徴情報を抽出し得る。前記参照画像は、目標対象（例えば、犯罪容疑者）を含む画像であり、例えば、目標対象を含む写真であってよく、前記写真は目標対象の顔領域と人体領域のうちの少なくとも一方を有し、この写真をサーバにアップロードし得る。一例において、参照画像内の目標対象の顔領域は鮮明度が低くてもよく、又は、参照画像は目標対象の人体領域のみを含むか、目標対象の顔領域のみを含む。

可能な一実施形態では、参照画像は複数の対象を含んでよく、目標対象は前記複数の対象のうちの１つであってよく、複数の対象から目標対象を選定してよく、例えば、目標対象の顔領域又は人体領域に対してボックス選択してよい。

可能な一実施形態では、ステップＳ１１は、顔特徴情報及び／又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得するステップと、前記目標対象の特徴情報に基づいて、複数の被処理画像において目標対象が含まれる第１画像を決定するステップと、前記第１画像において、前記目標対象が所在する目標領域の第１位置情報を決定するステップと、を含んでよい。

可能な一実施形態では、参照画像内の目標対象に対して特徴抽出処理を行ってよく、一例において、参照画像又はビデオフレーム内の対象としては目標対象しか有さなく、例えば、参照画像は目標対象の顔領域と人体領域のうちの少なくとも一方のみを含み、目標対象の顔領域、人体領域のうちの少なくとも一方に対して特徴抽出処理を行って目標対象の特徴情報を取得してよい。例えば、目標対象の顔領域に対して特徴抽出処理を行って目標対象の顔特徴情報を取得してよく、更に例えば、目標対象の人体領域に対して特徴抽出処理を行って目標対象の人体特徴情報を取得してよい。一例において、参照画像又はビデオフレームは複数の対象を含んでよく、複数の対象から目標対象の顔領域又は人体領域を選択してよく、例えば、目標対象の顔領域と人体領域のうちの少なくとも一方に対してボックス選択し、ボックス選択された領域の特徴情報を抽出してよい。例えば、ボックス選択された領域が目標対象の顔領域であれば、目標対象の顔特徴情報を抽出してよく、更に例えば、ボックス選択された領域が目標対象の人体領域であれば、目標対象の人体特徴情報を抽出してよい。

一例において、顔特徴情報は、顔キーポイントに基づいて決定される特徴情報を含んでよく、前記特徴情報は、例えば顔における五官の位置、形状等の情報を示す特徴情報を含み、更に肌色等の情報を示す特徴情報を含んでもよい。人体特徴情報は、人体キーポイントに基づいて決定される特徴情報を含んでよく、前記特徴情報は、例えば身長、体型、下肢長、腕の長さ等の情報を示す特徴情報を含み、更に、服のスタイル、色等の情報を示す特徴情報を含んでもよい。

一例において、畳み込みニューラルネットワーク等によって、ボックス選択された領域に対して特徴抽出処理を行って、目標対象の特徴情報を取得してよく、即ち、畳み込みニューラルネットワークによって顔特徴情報又は人体特徴情報を取得する。

可能な一実施形態では、前記目標対象の特徴情報に基づいて複数の被処理画像において検索してよい。一例において、前記複数の被処理画像は被検出ビデオの複数のビデオフレームであってもよく、画像データベース内の複数の画像であってもよく、被処理画像は本開示の実施例で制限されない。一例において、被処理画像内の各対象の特徴情報を取得し、前記各対象の特徴情報を目標対象の特徴情報と対比し、目標対象と前記各対象の特徴類似度を取得するようにしてよく、更に、特徴類似度が類似度閾値以上である対象を目標対象としてよく、更に目標対象を含む被処理画像を前記第１画像としてよい。一例において、前記被処理画像が前記被検出ビデオの複数のビデオフレームであり、上記形態によって前記複数のビデオフレームから目標対象を含むビデオフレーム、即ち、第１画像を決定してよい。

可能な一実施形態では、第１画像において、目標対象が所在する目標領域の第１位置情報を決定してよい。一例において、前記目標領域は、目標対象の特徴情報に基づいて決定された第１画像内の目標対象を含んでよい。例えば、前記特徴情報が顔特徴情報であれば、前記目標領域は、目標対象の顔領域を含む領域であり、又は、前記特徴情報が人体特徴情報であれば、前記目標領域は、目標対象の人体領域を含む領域であり、又は、特徴情報が人体特徴情報及び顔特徴情報であれば、前記目標領域は、目標対象の人体領域及び顔領域を含む領域である。

図２は本開示の実施例に係る目標領域の模式図を示し、図２に示すように、点線でボックス選択された領域が前記目標領域、即ち、目標対象の所在する領域である。目標領域のサイズは目標対象の顔領域又は人体領域のサイズより大きくてよい。例えば、前記特徴情報が顔特徴情報であるが、第１画像内の対象の数量が多く、複数の人体領域が重なり又は遮られる等のことがあるので、目標対象の顔領域とマッチング可能な人体領域が決定しにくく、このような場合に、前記目標領域は目標対象の顔領域及び近くにある複数の人体領域を含んでよい。更に例えば、前記特徴情報が人体特徴情報であるが、第１画像内の対象の数量が多く、複数の顔領域が重なり又は遮られる等のことがあるので、目標対象の人体領域とマッチング可能な顔領域が決定しにくく、このような場合に、前記目標領域は目標対象の人体領域及び近くにある複数の顔領域を含んでよい。

可能な一実施形態では、前記目標領域は所定のサイズの領域であってよく、例えば、第１画像の解像度が１２８０×１０２４であり、後続の処理を容易にするために、目標対象を含む解像度が８００×６００の画像を取得する必要がある。例えば、後続の認識処理において解像度が８００×６００の画像を入力可能なニューラルネットワークによって実行してよいので、第１画像において、目標対象を含み且つサイズが８００×６００である目標領域を決定してよい。

可能な一実施形態では、ステップＳ１２において、前記目標領域に対して切り抜き等の処理を行って新しい画像（即ち、切り抜き画像）を取得してよい。例えば、前記ニューラルネットワークによって容易に処理するように、目標領域に対して切り抜き等の処理を行って、解像度が８００×６００の画像（即ち、切り抜き画像）を取得してよい。

可能な一実施形態では、ステップＳ１３において、前記切り抜き画像に対して認識処理を行って、前記切り抜き画像における目標対象の顔領域の第２位置情報及び前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定してよい。一例において、前記認識処理は、畳み込みニューラルネットワーク等によって実現してよく、認識処理の方式は本開示の実施例によって制限されない。

可能な一実施形態では、前記目標対象の特徴情報は目標対象の顔特徴情報を含み、切り抜き画像において、顔特徴情報に基づいて顔領域の第２位置情報を決定し、且つ前記顔領域とマッチング可能な人体領域（即ち、目標対象の人体領域）の第３位置情報を決定してよい。

可能な一実施形態では、ステップＳ１３は、前記参照画像内の目標対象の顔特徴情報に基づいて、前記切り抜き画像において、前記目標対象の顔領域の第２位置情報を決定するステップと、前記切り抜き画像において、複数の人体領域の位置情報を決定するステップと、前記第２位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定するステップと、を含んでよい。

可能な一実施形態では、目標対象の顔特徴情報に基づいて、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定してよい。例えば、前記第２位置情報は、前記目標対象の顔領域に対してボックス選択を行う第１選択ボックスの座標情報（例えば、第１選択ボックスの４つの頂点の切り抜き画像での座標）を含み、切り抜き画像において目標対象の顔を認識し、且つ目標対象の顔に対してボックス選択してよい。切り抜き画像において目標対象の顔を認識することで、目標対象の顔領域の第２位置情報を高速かつ正確に取得して、認識処理内のノイズ干渉を減少して、認識精度を高めることができる。

可能な一実施形態では、切り抜き画像において複数の人体領域の位置情報を取得してよく、例えば、切り抜き画像内の全ての人体領域に対してボックス選択を行う第２選択ボックスの座標情報を取得してよい。目標対象の顔領域の第２位置情報に基づいて切り抜き画像内の複数の人体領域に対してノイズ除去処理を行い、目標対象の顔領域とマッチング可能な人体領域、即ち前記切り抜き画像における目標対象の人体領域の第３位置情報を決定し、例えば、目標対象の人体領域に対してボックス選択を行う選択ボックスの座標情報を決定するようにしてよい。

可能な一実施形態では、前記第２位置情報に基づいて前記切り抜き画像内の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定する前記ステップは、前記第２位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて、前記切り抜き画像内の非目標人体領域を除去して、第１人体領域を取得するステップと、前記第１選択ボックスの中心位置の座標と前記第２選択ボックスの上縁中点の座標との間の距離に基づいて、第１人体領域から第２人体領域を選び出すステップと、前記第２人体領域の第２選択ボックスの中心位置と前記第１選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第２人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第３位置情報を決定するステップと、を含む。

可能な一実施形態では、切り抜き画像内の非目標人体領域は、前記目標対象の顔領域と明らかにマッチングしない人体領域、例えば、顔領域との位置ずれが大き過ぎる人体領域を含んでよい。一例において、前記第２位置情報は、前記目標対象の顔領域に対してボックス選択を行う第１選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第２選択ボックスの座標情報を含み、前記非目標人体領域は、前記第１選択ボックスに対して共通部分が存在しない第２選択ボックスに対応する人体領域、中心位置の縦座標が第１選択ボックスの下縁の縦座標以上である第２選択ボックスに対応する人体領域、左縁の横座標が第１選択ボックスの右縁の横座標以上である第２選択ボックスに対応する人体領域、右縁の横座標が第１選択ボックスの左縁の横座標以下である第２選択ボックスに対応する人体領域の中の少なくとも１つのものを含む。非目標人体領域を除去した後、切り抜き画像に残された人体領域が前記第１人体領域となる。

第１の例において、目標対象の顔領域に対してボックス選択を行う第１選択ボックスと切り抜き画像の人体領域に対してボックス選択を行う選択ボックスは共通部分を有するはずであり、例えば、第１選択ボックスの下縁が目標対象の人体領域選択ボックスの上縁の下にあってよい。従って、目標対象の顔領域の第１選択ボックスに対して共通部分が全くない第２選択ボックスが除去されてよく、即ち、前記第１選択ボックスに対して共通部分が存在しない第２選択ボックスに対応する人体領域が非目標人体領域となる。

第２の例において、目標対象の顔領域に対してボックス選択を行う第１選択ボックスは目標対象の人体領域に対してボックス選択を行う選択ボックスより高いくなるはずであり、第１選択ボックスの下縁が目標対象の人体領域に対してボックス選択を行う選択ボックスの中心位置より高くなるはずである。従って、中心位置が第１選択ボックスの下縁より高い第２選択ボックスが除去されてよく、即ち、中心位置の縦座標が第１選択ボックスの下縁の縦座標以上である第２選択ボックスに対応する人体領域が非目標人体領域となる。

第３の例において、目標対象の人体領域に対してボックス選択を行う選択ボックスは第１選択ボックスに対して垂直方向に揃うか大体揃うはずであり、従って、垂直方向でのずれが大き過ぎる人体領域の選択ボックスが除去されてよく、即ち、左縁の横座標が第１選択ボックスの右縁の横座標以上である第２選択ボックスに対応する人体領域、及び右縁の横座標が第１選択ボックスの左縁の横座標以下である第２選択ボックスに対応する人体領域はいずれも非目標人体領域とされてよい。

可能な一実施形態では、第１人体領域から目標対象の顔領域とマッチング可能な人体領域、即ち目標対象の人体領域を決定してよい。

一例において、第１選択ボックスの中心位置の座標と前記第２選択ボックスの上縁中点の座標との間の距離を決定し、距離が最も近い第２選択ボックスに対応する人体領域、即ち第２人体領域を決定してよい。前記距離が最も近い第２選択ボックスが１つしかなければ、この第２選択ボックスに対応する第２人体領域を目標対象の人体領域としてよい。

一例において、距離が同じな第２選択ボックスが複数存在すれば、即ち、複数の第２人体領域が存在すれば、第２人体領域の第２選択ボックスの中心位置と前記第１選択ボックスの中心位置との間の連結線と垂直方向との間の夾角を決定してよく、この夾角が小さいほど、前記連結線の方向が垂直方向に近接するようになり、前記夾角が最も小さい第２選択ボックスに対応する第２人体領域を前記目標対象の人体領域としてよい。一例において、前記夾角のコサイン値を決定してよく、前記夾角のコサイン値が最も大きい第２選択ボックスに対応する第２人体領域を前記目標対象の人体領域としてよい。更に目標対象の人体領域の第３位置情報を決定してよい。

可能な一実施形態では、前記目標対象の特徴情報は目標対象の人体特徴情報を含み、切り抜き画像において人体特徴情報に基づいて人体領域の第３位置情報を決定し、前記人体領域とマッチング可能な顔領域（即ち、目標対象の顔領域）の第２位置情報を決定してよい。

可能な一実施形態では、ステップＳ１３は、前記参照画像内の目標対象の人体特徴情報に基づいて、前記切り抜き画像において、前記目標対象の人体領域の第３位置情報を決定するステップと、前記切り抜き画像において、複数の顔領域の位置情報を決定するステップと、前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定するステップと、を含んでよい。

可能な一実施形態では、目標対象の人体特徴情報に基づいて、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定してよい。例えば、前記第３位置情報は、前記目標対象の人体領域に対してボックス選択を行う第３選択ボックスの座標情報（例えば、第３選択ボックスの４つの頂点の切り抜き画像での座標）を含み、切り抜き画像において目標対象の人体を認識し、且つ目標対象の人体に対してボックス選択してよい。切り抜き画像において目標対象の人体を認識することで、目標対象の人体領域の第３位置情報を高速かつ正確に取得して、認識処理内のノイズ干渉を減少して、認識精度を高めることができる。

可能な一実施形態では、切り抜き画像において複数の顔領域の位置情報を取得してよく、例えば、切り抜き画像内の全ての顔領域に対してボックス選択を行う第４選択ボックスの座標情報を取得してよい。目標対象の人体領域の第３位置情報に基づいて切り抜き画像内の複数の顔領域に対してノイズ除去処理を行い、目標対象の人体領域とマッチング可能な顔領域、即ち前記切り抜き画像における目標対象の顔領域の第２位置情報を決定し、例えば、目標対象の顔領域に対してボックス選択を行う選択ボックスの座標情報を決定するようにしてよい。

可能な一実施形態では、前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定する前記ステップは、前記第３位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて、前記切り抜き画像内の非目標顔領域を除去して、第１顔領域を取得するステップと、前記第３選択ボックスの上縁中点の座標と前記第４選択ボックスの中心位置の座標との間の距離に基づいて、第１顔領域から第２顔領域を選び出すステップと、前記第２顔領域の第４選択ボックスの中心位置と前記第３選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第２顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第２位置情報を決定するステップと、を含む。

可能な一実施形態では、切り抜き画像内の非目標顔領域は、前記目標対象の人体領域と明らかにマッチングしない顔領域、例えば、人体領域との位置ずれが大き過ぎる顔領域を含んでよい。一例において、前記第３位置情報は、前記目標対象の人体領域に対してボックス選択を行う第３選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第４選択ボックスの座標情報を含み、前記非目標顔領域は、前記第３選択ボックスに対して共通部分が存在しない第４選択ボックスに対応する顔領域、下縁の縦座標が第３選択ボックスの中心位置の縦座標以下である第４選択ボックスに対応する顔領域、左縁の横座標が第３選択ボックスの右縁の横座標以上である第４選択ボックスに対応する顔領域、右縁の横座標が第３選択ボックスの左縁の横座標以下である第４選択ボックスに対応する顔領域の中の少なくとも１つのものを含む。非目標顔領域を除去した後、切り抜き画像に残された顔領域が前記第１顔領域となる。

第１の例において、目標対象の人体領域に対してボックス選択を行う第３選択ボックスと切り抜き画像の顔領域に対してボックス選択を行う選択ボックスは共通部分を有するはずであり、例えば、第３選択ボックスの上縁が目標対象の顔領域選択ボックスの下縁の上にあってよい。従って、目標対象の人体領域の第３選択ボックスに対して共通部分が全くない第４選択ボックスが除去されてよく、即ち、前記第３選択ボックスに対して共通部分が存在しない第４選択ボックスに対応する顔領域が非目標顔領域となる。

第２の例において、目標対象の人体領域に対してボックス選択を行う第３選択ボックスは目標対象の顔領域に対してボックス選択を行う選択ボックスより低くなるはずであり、第３選択ボックスの中心位置が目標対象の顔領域に対してボックス選択を行う選択ボックスの下縁より低くなるはずである。従って、下縁が第３選択ボックスの中心位置より低い第４選択ボックスが除去されてよく、即ち、下縁の縦座標が第３選択ボックスの中心位置の縦座標以下である第４選択ボックスに対応する顔領域が非目標顔領域となる。

第３の例において、目標対象の顔領域に対してボックス選択を行う選択ボックスは第３選択ボックスに対して垂直方向に揃うか大体揃うはずであり、従って、垂直方向でのずれが大き過ぎる顔領域の選択ボックスが除去されてよく、即ち、左縁の横座標が第３選択ボックスの右縁の横座標以上である第４選択ボックスに対応する顔領域、及び右縁の横座標が第３選択ボックスの左縁の横座標以下である第４選択ボックスに対応する顔領域はいずれも非目標人体領域とされてよい。

可能な一実施形態では、第１顔領域から目標対象の人体領域とマッチング可能な顔領域、即ち目標対象の顔領域を決定してよい。

一例において、第３選択ボックスの上縁中点の座標と前記第４選択ボックスの中心位置の座標との間の距離を決定し、距離が最も近い第４選択ボックスに対応する顔領域、即ち第２顔領域を決定してよい。前記距離が最も近い第４選択ボックスが１つしかなければ、この第４選択ボックスに対応する第２顔領域を目標対象の顔領域としてよい。

一例において、距離が同じな第４選択ボックスが複数存在すれば、即ち、複数の第２顔領域が存在すれば、第２顔領域の第４選択ボックスの中心位置と前記第３選択ボックスの中心位置との間の連結線と垂直方向との間の夾角を決定してよく、この夾角が小さいほど、前記連結線の方向が垂直方向に近接するようになり、前記夾角が最も小さい第４選択ボックスに対応する第２顔領域を前記目標対象の顔領域としてよい。一例において、前記夾角のコサイン値を決定してよく、前記夾角のコサイン値が最も大きい第４選択ボックスに対応する第２顔領域を前記目標対象の顔領域としてよい。更に目標対象の顔領域の第２位置情報を決定してよい。

可能な一実施形態では、ステップＳ１４において、第１位置情報、第２位置情報及び第３位置情報に基づいて、目標対象の顔領域の第１画像での第４位置情報、及び目標対象の人体領域の第１画像での第５位置情報を決定してよい。

一例において、座標変換によって前記第４位置情報及び前記第５位置情報を取得してよい。例えば、前記第１位置情報が前記切り抜き画像の第１画像での座標情報であり、例えば、切り抜き画像の左上頂点の座標が（ｘ，ｙ）である。第２位置情報が目標対象の顔領域の切り抜き画像での座標情報であり、例えば、切り抜き画像内の顔領域の選択ボックスの左上頂点座標が（ａ_１，ｂ_１）であり、顔領域の選択ボックスの右下頂点座標が（ａ_２，ｂ_２）である。第３位置情報が目標対象の人体領域の切り抜き画像での座標情報であり、例えば、切り抜き画像内の人体領域の選択ボックスの左上頂点座標が（ｃ_１，ｄ_１）であり、顔領域の選択ボックスの右下頂点座標が（ｃ_２，ｄ_２）である。そのように前記第４位置情報が目標対象の顔領域の第１画像での座標情報であり、例えば、第１画像内の顔領域の選択ボックスの左上頂点座標が（ｘ＋ａ_１，ｙ＋ｂ_１）であり、顔領域の選択ボックスの右下頂点座標が（ｘ＋ａ_２，ｙ＋ｂ_２）である。第１画像内の人体領域の選択ボックスの左上頂点座標が（ｘ＋ｃ_１，ｙ＋ｄ_１）であり、人体領域の選択ボックスの右下頂点座標が（ｘ＋ｃ_２，ｙ＋ｄ_２）である。

可能な一実施形態では、ステップＳ１４において、前記第４位置情報及び第５位置情報に基づいて第１画像を処理してよく、例えば、第４位置情報及び第５位置情報に基づいて第１画像内の目標対象の顔領域及び人体領域をラベリングしてよく、即ち、目標対象の顔領域及び人体領域に対してボックス選択を行う選択ボックスをラベリングして第２画像を取得してよい。

一例において、被処理画像が監視ビデオのビデオフレームであり、目標対象を含む各ビデオフレームにおいて目標対象の顔領域及び人体領域をラベリングし、複数のビデオフレーム内の目標対象の顔領域及び人体領域の位置情報に基づいて目標対象の移動軌跡を決定するようにしてよい。

本開示の実施例に係る画像処理方法は、目標対象が含まれる第１画像において目標対象の所在する目標領域を決定し、目標領域を切り抜き、切り抜き画像において目標対象の顔領域及び人体領域を決定するようにしてよく、そのように干渉領域を除去して目標対象の顔領域と人体領域をマッチングする難易度を低くすることができる。また、切り抜き画像において複数のノイズ領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができ、また、座標の計算によって目標対象の顔領域又は人体領域を決定して、処理効率を高めることができる。

図３は本開示の実施例に係る画像処理方法の適用の模式図を示し、図３に示すように、目標対象の顔領域又は人体領域に対して特徴抽出処理を行って、目標対象の特徴情報を取得し、目標対象の特徴情報に基づいて被処理画像から検索し、目標対象が含まれる第１画像を取得するようにしてよい。また、第１画像において、目標対象が所在する目標領域の第１位置情報、即ち目標領域の第１画像での座標情報を決定し、例えば、目標領域の左上頂点座標が（ｘ，ｙ）等である。また、目標領域に対して切り抜き処理を行って切り抜き画像を取得してよい。

可能な一実施形態では、前記特徴情報が顔特徴情報であれば、切り抜き画像から目標対象の顔領域を検索し、且つ目標対象の顔領域の切り抜き画像での第２位置情報を決定してよく、例えば、切り抜き画像内の顔領域の選択ボックスの左上頂点座標が（ａ_１，ｂ_１）であり、顔領域の選択ボックスの右下頂点座標が（ａ_２，ｂ_２）である。

可能な一実施形態では、切り抜き画像内の非目標人体領域を除去し、残された第１人体領域から顔領域及び人体領域の選択ボックスの座標に基づいて目標対象の人体領域の第３位置情報を決定してよく、例えば、切り抜き画像内の人体領域の選択ボックスの左上頂点座標が（ｃ_１，ｄ_１）であり、顔領域の選択ボックスの右下頂点座標が（ｃ_２，ｄ_２）である。

可能な一実施形態では、前記特徴情報が人体特徴情報であれば、切り抜き画像から目標対象の人体領域を検索し、且つ切り抜き画像における目標対象の人体領域の第３位置情報を決定してよく、例えば、切り抜き画像内の人体領域の選択ボックスの左上頂点座標が（ｃ_１，ｄ_１）であり、顔領域の選択ボックスの右下頂点座標が（ｃ_２、ｄ_２）である。

可能な一実施形態では、切り抜き画像内の非目標顔領域を除去し、残された第１顔領域から顔領域及び人体領域の選択ボックスの座標に基づいて目標対象の顔領域の第２位置情報を決定してよく、例えば、切り抜き画像内の顔領域の選択ボックスの左上頂点座標が（ａ_１，ｂ_１）であり、顔領域の選択ボックスの右下頂点座標が（ａ_２，ｂ_２）である。

可能な一実施形態では、座標変換によって目標対象の顔領域及び人体領域の第１画像での位置情報を決定してよい。例えば、第１画像内の顔領域の選択ボックスの左上頂点座標が（ｘ＋ａ_１，ｙ＋ｂ_１）であり、顔領域の選択ボックスの右下頂点座標が（ｘ＋ａ_２，ｙ＋ｂ_２）である。第１画像内の人体領域の選択ボックスの左上頂点座標が（ｘ＋ｃ_１，ｙ＋ｄ_１）であり、人体領域の選択ボックスの右下頂点座標が（ｘ＋ｃ_２，ｙ＋ｄ_２）である。

可能な一実施形態では、上記座標に基づいて、第１画像において目標対象の顔領域及び人体領域を選択する選択ボックスをラベリングしてよい。

可能な一実施形態では、前記画像処理方法は、大量の監視ビデオにおいて不完全な特徴情報に基づいて目標対象の位置を決定することに利用可能であり、目標対象を監視、追跡することができる。例えば、警察側が監視ビデオにおいて犯罪容疑者の位置を確定することに寄与する。

図４は本開示の実施例に係る画像処理装置のブロック図を示し、図４に示すように、前記装置は、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定するように構成される第１決定モジュール１１と、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するように構成される切り抜きモジュール１２と、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定するように構成されるノイズ除去モジュール１３と、
前記第１位置情報、前記第２位置情報及び前記第３位置情報に基づいて、前記第１画像において前記目標対象の顔領域の第４位置情報及び前記目標対象の人体領域の第５位置情報を決定するように構成される第２決定モジュール１４と、
前記第４位置情報と前記第５位置情報に基づいて、前記第１画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第２画像を取得するように構成される処理モジュール１５と、を含む。

可能な一実施形態では、前記非目標人体領域は、前記第１選択ボックスに対して共通部分が存在しない第２選択ボックスに対応する人体領域、中心位置の縦座標が第１選択ボックスの下縁の縦座標以上である第２選択ボックスに対応する人体領域、左縁の横座標が第１選択ボックスの右縁の横座標以上である第２選択ボックスに対応する人体領域、右縁の横座標が第１選択ボックスの左縁の横座標以下である第２選択ボックスに対応する人体領域の中の少なくとも１つのものを含む。

可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記ノイズ除去モジュール、前記参照画像内の目標対象の人体特徴情報に基づいて前記切り抜き画像において、前記目標対象の人体領域の第３位置情報を決定し、前記切り抜き画像において、複数の顔領域の位置情報を決定し、前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定するように構成される。

可能な一実施形態では、前記非目標顔領域は、前記第３選択ボックスに対して共通部分が存在しない第４選択ボックスに対応する顔領域、下縁の縦座標が第３選択ボックスの中心位置の縦座標以下である第４選択ボックスに対応する顔領域、左縁の横座標が第３選択ボックスの右縁の横座標以上である第４選択ボックスに対応する顔領域、右縁の横座標が第３選択ボックスの左縁の横座標以下である第４選択ボックスに対応する顔領域の中の少なくとも１つのものを含む。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。

また、本開示は画像処理装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか１種の画像処理方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。

本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体又は揮発性記憶媒体であってよい。

本開示の実施例は、更に、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。

電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。

図５は例示的な一実施例に基づいて示した電子機器８００のブロック図である。例えば、装置８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。

図５を参照すると、電子機器８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つ以上を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ８２０を含んで命令を実行することができる。また、処理コンポーネント８０２は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８との対話のために、マルチメディアモジュールを含むことができる。

メモリ８０４は電子機器８００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器８００において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または後面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ）を含む。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント８１４は電子機器８００に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器８００の表示装置およびキーパッドであることを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように配置される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記方法を完了することができる。

図６は例示的な一実施例に基づいて示した電子機器１９００のブロック図である。例えば、電子機器１９００はサーバとして提供できる。図６を参照すると、電子機器１９００は、さらに一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント１９２２は命令を実行し、それによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含むことができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は電子機器１９００の処理コンポーネント１９２２によって実行して上記方法を完了することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。

コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

なお、ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims

参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定するステップと、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するステップと、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定するステップと、
前記第１位置情報、前記第２位置情報及び前記第３位置情報に基づいて、前記第１画像において前記目標対象の顔領域の第４位置情報及び前記目標対象の人体領域の第５位置情報を決定するステップと、
前記第４位置情報と前記第５位置情報に基づいて、前記第１画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第２画像を取得するステップと、を含み、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定する前記ステップは、
顔特徴情報及び／又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得するステップと、
前記目標対象の特徴情報に基づいて、複数の被処理画像において前記目標対象が含まれる第１画像を決定するステップと、
前記第１画像において、前記目標対象が所在する目標領域の第１位置情報を決定するステップと、を含み、
前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定する前記ステップは、
前記参照画像内の目標対象の顔特徴情報に基づいて、前記切り抜き画像において、前記目標対象の顔領域の第２位置情報を決定するステップと、
前記切り抜き画像において、複数の人体領域の位置情報を決定するステップと、
前記第２位置情報に基づいて前記切り抜き画像内の前記複数の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定するステップと、を含む
画像処理方法。
前記第２位置情報は、前記目標対象の顔領域に対してボックス選択を行う第１選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第２選択ボックスの座標情報を含み、
前記第２位置情報に基づいて前記切り抜き画像内の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定する前記ステップは、
前記第２位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて、前記切り抜き画像内の非目標人体領域を除去して、第１人体領域を取得するステップと、
前記第１選択ボックスの中心位置の座標と前記第２選択ボックスの上縁中点の座標との間の距離に基づいて、前記第１人体領域から第２人体領域を選び出すステップと、
前記第２人体領域の第２選択ボックスの中心位置と前記第１選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第２人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第３位置情報を決定するステップと、を含む請求項１に記載の方法。
前記非目標人体領域は、
前記第１選択ボックスに対して共通部分が存在しない第２選択ボックスに対応する人体領域、
中心位置の縦座標が第１選択ボックスの下縁の縦座標以上である第２選択ボックスに対応する人体領域、
左縁の横座標が第１選択ボックスの右縁の横座標以上である第２選択ボックスに対応する人体領域、
右縁の横座標が第１選択ボックスの左縁の横座標以下である第２選択ボックスに対応する人体領域の中の少なくとも１つのものを含む請求項２に記載の方法。
前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定する前記ステップは、
前記参照画像内の目標対象の人体特徴情報に基づいて、前記切り抜き画像において、前記目標対象の人体領域の第３位置情報を決定するステップと、
前記切り抜き画像において、複数の顔領域の位置情報を決定するステップと、
前記第３位置情報に基づいて前記切り抜き画像内の前記複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定するステップと、をさらに含む請求項１に記載の方法。
前記第３位置情報は、前記目標対象の人体領域に対してボックス選択を行う第３選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第４選択ボックスの座標情報を含み、
前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定する前記ステップは、
前記第３位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて、前記切り抜き画像内の非目標顔領域を除去して、第１顔領域を取得するステップと、
前記第３選択ボックスの上縁中点の座標と前記第４選択ボックスの中心位置の座標との間の距離に基づいて、第１顔領域から第２顔領域を選び出すステップと、
前記第２顔領域の第４選択ボックスの中心位置と前記第３選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第２顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第２位置情報を決定するステップと、を含む請求項４に記載の方法。
前記非目標顔領域は、
前記第３選択ボックスに対して共通部分が存在しない第４選択ボックスに対応する顔領域、
下縁の縦座標が第３選択ボックスの中心位置の縦座標以下である第４選択ボックスに対応する顔領域、
左縁の横座標が第３選択ボックスの右縁の横座標以上である第４選択ボックスに対応する顔領域、
右縁の横座標が第３選択ボックスの左縁の横座標以下である第４選択ボックスに対応する顔領域の中の少なくとも１つのものを含む請求項５に記載の方法。
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第１画像と、前記第１画像において目標対象が所在する目標領域の第１位置情報とを決定するように構成される第１決定モジュールと、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するように構成される切り抜きモジュールと、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第２位置情報及び前記目標対象の人体領域の第３位置情報を決定するように構成されるノイズ除去モジュールと、
前記第１位置情報、前記第２位置情報及び前記第３位置情報に基づいて、前記第１画像において前記目標対象の顔領域の第４位置情報及び前記目標対象の人体領域の第５位置情報を決定するように構成される第２決定モジュールと、
前記第４位置情報と前記第５位置情報に基づいて、前記第１画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第２画像を取得するように構成される処理モジュールと、を含み、
前記第１決定モジュールは、顔特徴情報及び／又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得し、前記目標対象の特徴情報に基づいて複数の被処理画像において目標対象が含まれる第１画像を決定し、前記第１画像において、前記目標対象が所在する目標領域の第１位置情報を決定するように構成され、
前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の顔特徴情報に基づいて前記切り抜き画像において、前記目標対象の顔領域の第２位置情報を決定し、前記切り抜き画像において、複数の人体領域の位置情報を決定し、前記第２位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の人体領域の第３位置情報を決定するように構成される
画像処理装置。
前記第２位置情報は、前記目標対象の顔領域に対してボックス選択を行う第１選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第２選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第２位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて前記切り抜き画像内の非目標人体領域を除去して第１人体領域を取得し、前記第１選択ボックスの中心位置の座標と前記第２選択ボックスの上縁中点の座標との間の距離に基づいて第１人体領域から第２人体領域を選び出し、前記第２人体領域の第２選択ボックスの中心位置と前記第１選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第２人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第３位置情報を決定するように構成される請求項７に記載の装置。
前記非目標人体領域は、
前記第１選択ボックスに対して共通部分が存在しない第２選択ボックスに対応する人体領域、
中心位置の縦座標が第１選択ボックスの下縁の縦座標以上である第２選択ボックスに対応する人体領域、
左縁の横座標が第１選択ボックスの右縁の横座標以上である第２選択ボックスに対応する人体領域、
右縁の横座標が第１選択ボックスの左縁の横座標以下である第２選択ボックスに対応する人体領域の中の少なくとも１つのものを含む請求項８に記載の装置。
前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の人体特徴情報に基づいて前記切り抜き画像において、前記目標対象の人体領域の第３位置情報を決定し、前記切り抜き画像において、複数の顔領域の位置情報を決定し、前記第３位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の顔領域の第２位置情報を決定するように構成される請求項７に記載の装置。
前記第３位置情報は、前記目標対象の人体領域に対してボックス選択を行う第３選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第４選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第３位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて前記切り抜き画像内の非目標顔領域を除去して第１顔領域を取得し、前記第３選択ボックスの上縁中点の座標と前記第４選択ボックスの中心位置の座標との間の距離に基づいて第１顔領域から第２顔領域を選び出し、前記第２顔領域の第４選択ボックスの中心位置と前記第３選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第２顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第２位置情報を決定するように構成される請求項１０に記載の装置。
前記非目標顔領域は、
前記第３選択ボックスに対して共通部分が存在しない第４選択ボックスに対応する顔領域、
下縁の縦座標が第３選択ボックスの中心位置の縦座標以下である第４選択ボックスに対応する顔領域、
左縁の横座標が第３選択ボックスの右縁の横座標以上である第４選択ボックスに対応する顔領域、
右縁の横座標が第３選択ボックスの左縁の横座標以下である第４選択ボックスに対応する顔領域の中の少なくとも１つのものを含む請求項１１に記載の装置。
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが請求項１－６のいずれか一項に記載の方法を実行するように構成される電子機器。
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項１－６のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
コンピュータに、請求項１－６のいずれか一項に記載の画像処理方法を実行させるためのプログラム。