JP7061191B2 - 画像処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

画像処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP7061191B2
JP7061191B2 JP2020533126A JP2020533126A JP7061191B2 JP 7061191 B2 JP7061191 B2 JP 7061191B2 JP 2020533126 A JP2020533126 A JP 2020533126A JP 2020533126 A JP2020533126 A JP 2020533126A JP 7061191 B2 JP7061191 B2 JP 7061191B2
Authority
JP
Japan
Prior art keywords
target
human body
position information
image
selection box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020533126A
Other languages
English (en)
Other versions
JP2021517747A (ja
Inventor
グワンバオ ジョウ
グイミン ジャン
チウトン ホー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021517747A publication Critical patent/JP2021517747A/ja
Application granted granted Critical
Publication of JP7061191B2 publication Critical patent/JP7061191B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Description

(関連出願の相互参照)
本願は、出願番号が201910181078.0であり、出願日が2019年3月11日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示は、コンピュータ技術に関し、特に、画像処理方法及び装置、電子機器並びに記憶媒体に関する。
関連技術において、顔認識技術を用いて目標対象の参照画像に基づいて大量のビデオから目標対象が含まれるビデオフレームを検索することができるが、参照画像内の目標対象の特徴情報が不完全である場合に(例えば、人体領域又は顔領域しか撮影できていない場合に)、検索過程において、検索して見つけた一部の特徴情報に対応する領域に対してマッチングする必要があり、例えば、顔領域によって複数のビデオフレームを検索して見つけ、ビデオフレームから顔領域とマッチング可能な人体領域を決定する。しかしながら、マッチングに干渉し得る領域がビデオフレームに多くあるのが一般であり、従って、顔領域と人体領域がマッチングしにくい。
本開示の実施例は、画像処理方法及び装置、電子機器並びに記憶媒体を提供する。
本開示の実施例の一態様によれば、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定するステップと、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するステップと、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定するステップと、
前記第1位置情報、前記第2位置情報及び前記第3位置情報に基づいて、前記第1画像において前記目標対象の顔領域の第4位置情報及び前記目標対象の人体領域の第5位置情報を決定するステップと、
前記第4位置情報と前記第5位置情報に基づいて、前記第1画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第2画像を取得するステップと、を含む画像処理方法を提供する。
本開示の実施例に係る画像処理方法は、目標対象が含まれる第1画像において目標対象の所在する目標領域を決定して、目標領域に対して切り抜き処理を行って、切り抜き画像において目標対象の顔領域及び人体領域を決定することができ、干渉領域を除去して、目標対象の顔領域と人体領域をマッチングする難易度を低減することができる。
可能な一実施形態では、参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定する前記ステップは、
顔特徴情報及び/又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得するステップと、
前記目標対象の特徴情報に基づいて、複数の被処理画像において目標対象が含まれる第1画像を決定するステップと、
前記第1画像において、前記目標対象が所在する目標領域の第1位置情報を決定するステップと、を含む。
可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定する前記ステップは、
前記参照画像内の目標対象の顔特徴情報に基づいて、前記切り抜き画像において、前記目標対象の顔領域の第2位置情報を決定するステップと、
前記切り抜き画像において、複数の人体領域の位置情報を決定するステップと、
前記第2位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定するステップと、を含む。
可能な一実施形態では、前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第2選択ボックスの座標情報を含み、
前記第2位置情報に基づいて前記切り抜き画像内の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定する前記ステップは、
前記第2位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて、前記切り抜き画像内の非目標人体領域を除去して、第1人体領域を取得するステップと、
前記第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離に基づいて、第1人体領域から第2人体領域を選び出すステップと、
前記第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第2人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第3位置情報を決定するステップと、を含む。
このような形態によれば、座標の計算によって目標対象の人体領域を決定し、処理効率を高めることができる。
可能な一実施形態では、前記非目標人体領域は、
前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域、
中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域、
左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、
右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域の中の少なくとも1つのものを含む。
このような形態によれば、複数のノイズとしての人体領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができる。
可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定する前記ステップは、
前記参照画像内の目標対象の人体特徴情報に基づいて、前記切り抜き画像において、前記目標対象の人体領域の第3位置情報を決定するステップと、
前記切り抜き画像において、複数の顔領域の位置情報を決定するステップと、
前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定するステップと、を含む。
可能な一実施形態では、前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第4選択ボックスの座標情報を含み、
前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定する前記ステップは、
前記第3位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて、前記切り抜き画像内の非目標顔領域を除去して、第1顔領域を取得するステップと、
前記第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離に基づいて、第1顔領域から第2顔領域を選び出すステップと、
前記第2領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第2顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第2位置情報を決定するステップと、を含む。
このような形態によれば、座標の計算によって目標対象の顔領域を決定し、処理効率を高めることができる。
可能な一実施形態では、前記非目標顔領域は、
前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域、
下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域、
左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、
右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域の中の少なくとも1つのものを含む。
このような形態によれば、複数のノイズとしての顔領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができる。
本開示の実施例の別の態様によれば、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定するように構成される第1決定モジュールと、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するように構成される切り抜きモジュールと、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定するように構成されるノイズ除去モジュールと、
前記第1位置情報、前記第2位置情報及び前記第3位置情報に基づいて、前記第1画像において前記目標対象の顔領域の第4位置情報及び前記目標対象の人体領域の第5位置情報を決定するように構成される第2決定モジュールと、
前記第4位置情報と前記第5位置情報に基づいて、前記第1画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第2画像を取得するように構成される処理モジュールと、を含む画像処理装置を提供する。
可能な一実施形態では、前記第1決定モジュールは、顔特徴情報及び/又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得し、前記目標対象の特徴情報に基づいて複数の被処理画像において目標対象が含まれる第1画像を決定し、前記第1画像において、前記目標対象が所在する目標領域の第1位置情報を決定するように構成される。
可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の顔特徴情報に基づいて前記切り抜き画像において、前記目標対象の顔領域の第2位置情報を決定し、前記切り抜き画像において、複数の人体領域の位置情報を決定し、前記第2位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定するように構成される。
可能な一実施形態では、前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第2選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第2位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて前記切り抜き画像内の非目標人体領域を除去して第1人体領域を取得し、前記第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離に基づいて第1人体領域から第2人体領域を選び出し、前記第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第2人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第3位置情報を決定するように構成される。
可能な一実施形態では、前記非目標人体領域は、
前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域、
中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域、
左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、
右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域の中の少なくとも1つのものを含む。
可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の人体特徴情報に基づいて前記切り抜き画像において、前記目標対象の人体領域の第3位置情報を決定し、前記切り抜き画像において、複数の顔領域の位置情報を決定し、前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定するように構成される。
可能な一実施形態では、前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第4選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第3位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて前記切り抜き画像内の非目標顔領域を除去して第1顔領域を取得し、前記第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離に基づいて第1顔領域から第2顔領域を選び出し、前記第2領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第2顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第2位置情報を決定するように構成される。
可能な一実施形態では、前記非目標顔領域は、
前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域、
下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域、
左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、
右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域の中の少なくとも1つのものを含む。
本開示の実施例の一態様によれば、
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが上記画像処理方法を実行するように構成される電子機器を提供する。
本開示の実施例の一態様によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記画像処理方法を実現するコンピュータ読取可能記憶媒体を提供する。
以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
本開示の実施例に係る画像処理方法のフローチャートを示す。 本開示の実施例に係る目標領域の模式図を示す。 本開示の実施例に係る画像処理方法の適用の模式図を示す。 本開示の実施例に係る画像処理装置のブロック図を示す。 本開示の実施例に係る電子装置のブロック図を示す。 本開示の実施例に係る電子装置のブロック図を示す。
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の用語の「少なくとも1種」は多種のうちのいずれか1種又は多種のうちの少なくとも2種の任意の組合を示し、例えば、A、B、Cのうちの少なくとも1種を含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
図1は本開示の実施例に係る画像処理方法のフローチャートを示し、図1に示すように、前記方法は、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定するステップS11と、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するステップS12と、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定するステップS13と、
前記第1位置情報、前記第2位置情報及び前記第3位置情報に基づいて、前記第1画像において前記目標対象の顔領域の第4位置情報及び前記目標対象の人体領域の第5位置情報を決定するステップS14と、
前記第4位置情報と前記第5位置情報に基づいて、前記第1画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第2画像を取得するステップS15と、を含む。
本開示の実施例に係る画像処理方法は、目標対象が含まれる第1画像において目標対象の所在する目標領域を決定して、目標領域に対して切り抜き処理を行って、切り抜き画像において目標対象の顔領域及び人体領域を決定するようにしてよく、干渉領域を除去して、目標対象の顔領域と人体領域をマッチングする難易度を低減することができる。
可能な一実施形態では、前記画像処理方法は、ユーザ側装置(User Equipment,UE)、携帯機器、ユーザ端末、端末、セル方式の携帯無線電話、無線電話、携帯情報端末(Personal Digital Assistant,PDA)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等の端末装置により実行してよく、前記方法は、プロセッサによってメモリに記憶されたコンピュータ読取可能コマンドを呼び出して実現してよい。又は、前記画像処理方法はサーバによって実行する。
可能な一実施形態では、前記参照画像は、ユーザが選択した画像であってもよく、アップロードした画像であってもよく、被検出ビデオのビデオフレームであってもよい。前記目標対象の特徴情報を参照画像から取得することができる。一例として、前記被検出ビデオは、複数の地理的位置に分散されたビデオ取得装置で撮影した所定の時間帯内のビデオを含む。例えば、ビデオ取得装置は各区域又は各街路に分散されたカメラであってよく、各カメラは撮影したビデオをサーバに送信し得、サーバは各カメラの撮影したビデオをよせ集めて前記被検出ビデオを取得し得る。例えば、所定の時間帯は1日、1時間等であってよく、あるカメラで取得された所定の時間帯内のビデオを前記被検出ビデオとしてよい。別の例として、被検出ビデオは複数の地理的位置に分散されたカメラで撮影した所定の時間帯内のビデオであり、例えば、被検出ビデオは複数の街路に分散された多数のカメラが9:00-10:00に撮影したビデオであってよい。
前記被検出ビデオは、目標対象を含むビデオフレームを有してよく、例えば、前記被検出ビデオが監視ビデオであり、前記目標対象が犯罪容疑者であり、被検出ビデオは犯罪容疑者を含むビデオフレームを有してよい。更に、被検出ビデオの各ビデオフレームは、各ビデオフレームを取得する時の時間情報を示すタイムスタンプを有してよい。被検出ビデオの各ビデオフレームは、各ビデオフレームを取得するビデオ取得装置(例えば、カメラ)の所在する地理的位置、又はビデオ取得装置が撮影する領域の所在する地理的位置を示す地理的位置情報を有してよい。
可能な一実施形態では、前記参照画像は、目標対象の顔領域と人体領域のうちの少なくとも一方を有する画像であってよく、この画像から目標対象の特徴情報を抽出し得る。前記参照画像は、目標対象(例えば、犯罪容疑者)を含む画像であり、例えば、目標対象を含む写真であってよく、前記写真は目標対象の顔領域と人体領域のうちの少なくとも一方を有し、この写真をサーバにアップロードし得る。一例において、参照画像内の目標対象の顔領域は鮮明度が低くてもよく、又は、参照画像は目標対象の人体領域のみを含むか、目標対象の顔領域のみを含む。
可能な一実施形態では、参照画像は複数の対象を含んでよく、目標対象は前記複数の対象のうちの1つであってよく、複数の対象から目標対象を選定してよく、例えば、目標対象の顔領域又は人体領域に対してボックス選択してよい。
可能な一実施形態では、ステップS11は、顔特徴情報及び/又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得するステップと、前記目標対象の特徴情報に基づいて、複数の被処理画像において目標対象が含まれる第1画像を決定するステップと、前記第1画像において、前記目標対象が所在する目標領域の第1位置情報を決定するステップと、を含んでよい。
可能な一実施形態では、参照画像内の目標対象に対して特徴抽出処理を行ってよく、一例において、参照画像又はビデオフレーム内の対象としては目標対象しか有さなく、例えば、参照画像は目標対象の顔領域と人体領域のうちの少なくとも一方のみを含み、目標対象の顔領域、人体領域のうちの少なくとも一方に対して特徴抽出処理を行って目標対象の特徴情報を取得してよい。例えば、目標対象の顔領域に対して特徴抽出処理を行って目標対象の顔特徴情報を取得してよく、更に例えば、目標対象の人体領域に対して特徴抽出処理を行って目標対象の人体特徴情報を取得してよい。一例において、参照画像又はビデオフレームは複数の対象を含んでよく、複数の対象から目標対象の顔領域又は人体領域を選択してよく、例えば、目標対象の顔領域と人体領域のうちの少なくとも一方に対してボックス選択し、ボックス選択された領域の特徴情報を抽出してよい。例えば、ボックス選択された領域が目標対象の顔領域であれば、目標対象の顔特徴情報を抽出してよく、更に例えば、ボックス選択された領域が目標対象の人体領域であれば、目標対象の人体特徴情報を抽出してよい。
一例において、顔特徴情報は、顔キーポイントに基づいて決定される特徴情報を含んでよく、前記特徴情報は、例えば顔における五官の位置、形状等の情報を示す特徴情報を含み、更に肌色等の情報を示す特徴情報を含んでもよい。人体特徴情報は、人体キーポイントに基づいて決定される特徴情報を含んでよく、前記特徴情報は、例えば身長、体型、下肢長、腕の長さ等の情報を示す特徴情報を含み、更に、服のスタイル、色等の情報を示す特徴情報を含んでもよい。
一例において、畳み込みニューラルネットワーク等によって、ボックス選択された領域に対して特徴抽出処理を行って、目標対象の特徴情報を取得してよく、即ち、畳み込みニューラルネットワークによって顔特徴情報又は人体特徴情報を取得する。
可能な一実施形態では、前記目標対象の特徴情報に基づいて複数の被処理画像において検索してよい。一例において、前記複数の被処理画像は被検出ビデオの複数のビデオフレームであってもよく、画像データベース内の複数の画像であってもよく、被処理画像は本開示の実施例で制限されない。一例において、被処理画像内の各対象の特徴情報を取得し、前記各対象の特徴情報を目標対象の特徴情報と対比し、目標対象と前記各対象の特徴類似度を取得するようにしてよく、更に、特徴類似度が類似度閾値以上である対象を目標対象としてよく、更に目標対象を含む被処理画像を前記第1画像としてよい。一例において、前記被処理画像が前記被検出ビデオの複数のビデオフレームであり、上記形態によって前記複数のビデオフレームから目標対象を含むビデオフレーム、即ち、第1画像を決定してよい。
可能な一実施形態では、第1画像において、目標対象が所在する目標領域の第1位置情報を決定してよい。一例において、前記目標領域は、目標対象の特徴情報に基づいて決定された第1画像内の目標対象を含んでよい。例えば、前記特徴情報が顔特徴情報であれば、前記目標領域は、目標対象の顔領域を含む領域であり、又は、前記特徴情報が人体特徴情報であれば、前記目標領域は、目標対象の人体領域を含む領域であり、又は、特徴情報が人体特徴情報及び顔特徴情報であれば、前記目標領域は、目標対象の人体領域及び顔領域を含む領域である。
図2は本開示の実施例に係る目標領域の模式図を示し、図2に示すように、点線でボックス選択された領域が前記目標領域、即ち、目標対象の所在する領域である。目標領域のサイズは目標対象の顔領域又は人体領域のサイズより大きくてよい。例えば、前記特徴情報が顔特徴情報であるが、第1画像内の対象の数量が多く、複数の人体領域が重なり又は遮られる等のことがあるので、目標対象の顔領域とマッチング可能な人体領域が決定しにくく、このような場合に、前記目標領域は目標対象の顔領域及び近くにある複数の人体領域を含んでよい。更に例えば、前記特徴情報が人体特徴情報であるが、第1画像内の対象の数量が多く、複数の顔領域が重なり又は遮られる等のことがあるので、目標対象の人体領域とマッチング可能な顔領域が決定しにくく、このような場合に、前記目標領域は目標対象の人体領域及び近くにある複数の顔領域を含んでよい。
可能な一実施形態では、前記目標領域は所定のサイズの領域であってよく、例えば、第1画像の解像度が1280×1024であり、後続の処理を容易にするために、目標対象を含む解像度が800×600の画像を取得する必要がある。例えば、後続の認識処理において解像度が800×600の画像を入力可能なニューラルネットワークによって実行してよいので、第1画像において、目標対象を含み且つサイズが800×600である目標領域を決定してよい。
可能な一実施形態では、ステップS12において、前記目標領域に対して切り抜き等の処理を行って新しい画像(即ち、切り抜き画像)を取得してよい。例えば、前記ニューラルネットワークによって容易に処理するように、目標領域に対して切り抜き等の処理を行って、解像度が800×600の画像(即ち、切り抜き画像)を取得してよい。
可能な一実施形態では、ステップS13において、前記切り抜き画像に対して認識処理を行って、前記切り抜き画像における目標対象の顔領域の第2位置情報及び前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定してよい。一例において、前記認識処理は、畳み込みニューラルネットワーク等によって実現してよく、認識処理の方式は本開示の実施例によって制限されない。
可能な一実施形態では、前記目標対象の特徴情報は目標対象の顔特徴情報を含み、切り抜き画像において、顔特徴情報に基づいて顔領域の第2位置情報を決定し、且つ前記顔領域とマッチング可能な人体領域(即ち、目標対象の人体領域)の第3位置情報を決定してよい。
可能な一実施形態では、ステップS13は、前記参照画像内の目標対象の顔特徴情報に基づいて、前記切り抜き画像において、前記目標対象の顔領域の第2位置情報を決定するステップと、前記切り抜き画像において、複数の人体領域の位置情報を決定するステップと、前記第2位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定するステップと、を含んでよい。
可能な一実施形態では、目標対象の顔特徴情報に基づいて、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定してよい。例えば、前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報(例えば、第1選択ボックスの4つの頂点の切り抜き画像での座標)を含み、切り抜き画像において目標対象の顔を認識し、且つ目標対象の顔に対してボックス選択してよい。切り抜き画像において目標対象の顔を認識することで、目標対象の顔領域の第2位置情報を高速かつ正確に取得して、認識処理内のノイズ干渉を減少して、認識精度を高めることができる。
可能な一実施形態では、切り抜き画像において複数の人体領域の位置情報を取得してよく、例えば、切り抜き画像内の全ての人体領域に対してボックス選択を行う第2選択ボックスの座標情報を取得してよい。目標対象の顔領域の第2位置情報に基づいて切り抜き画像内の複数の人体領域に対してノイズ除去処理を行い、目標対象の顔領域とマッチング可能な人体領域、即ち前記切り抜き画像における目標対象の人体領域の第3位置情報を決定し、例えば、目標対象の人体領域に対してボックス選択を行う選択ボックスの座標情報を決定するようにしてよい。
可能な一実施形態では、前記第2位置情報に基づいて前記切り抜き画像内の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定する前記ステップは、前記第2位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて、前記切り抜き画像内の非目標人体領域を除去して、第1人体領域を取得するステップと、前記第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離に基づいて、第1人体領域から第2人体領域を選び出すステップと、前記第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第2人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第3位置情報を決定するステップと、を含む。
可能な一実施形態では、切り抜き画像内の非目標人体領域は、前記目標対象の顔領域と明らかにマッチングしない人体領域、例えば、顔領域との位置ずれが大き過ぎる人体領域を含んでよい。一例において、前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第2選択ボックスの座標情報を含み、前記非目標人体領域は、前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域、中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域、左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域の中の少なくとも1つのものを含む。非目標人体領域を除去した後、切り抜き画像に残された人体領域が前記第1人体領域となる。
第1の例において、目標対象の顔領域に対してボックス選択を行う第1選択ボックスと切り抜き画像の人体領域に対してボックス選択を行う選択ボックスは共通部分を有するはずであり、例えば、第1選択ボックスの下縁が目標対象の人体領域選択ボックスの上縁の下にあってよい。従って、目標対象の顔領域の第1選択ボックスに対して共通部分が全くない第2選択ボックスが除去されてよく、即ち、前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域が非目標人体領域となる。
第2の例において、目標対象の顔領域に対してボックス選択を行う第1選択ボックスは目標対象の人体領域に対してボックス選択を行う選択ボックスより高いくなるはずであり、第1選択ボックスの下縁が目標対象の人体領域に対してボックス選択を行う選択ボックスの中心位置より高くなるはずである。従って、中心位置が第1選択ボックスの下縁より高い第2選択ボックスが除去されてよく、即ち、中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域が非目標人体領域となる。
第3の例において、目標対象の人体領域に対してボックス選択を行う選択ボックスは第1選択ボックスに対して垂直方向に揃うか大体揃うはずであり、従って、垂直方向でのずれが大き過ぎる人体領域の選択ボックスが除去されてよく、即ち、左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、及び右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域はいずれも非目標人体領域とされてよい。
このような形態によれば、複数のノイズとしての人体領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができる。
可能な一実施形態では、第1人体領域から目標対象の顔領域とマッチング可能な人体領域、即ち目標対象の人体領域を決定してよい。
一例において、第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離を決定し、距離が最も近い第2選択ボックスに対応する人体領域、即ち第2人体領域を決定してよい。前記距離が最も近い第2選択ボックスが1つしかなければ、この第2選択ボックスに対応する第2人体領域を目標対象の人体領域としてよい。
一例において、距離が同じな第2選択ボックスが複数存在すれば、即ち、複数の第2人体領域が存在すれば、第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角を決定してよく、この夾角が小さいほど、前記連結線の方向が垂直方向に近接するようになり、前記夾角が最も小さい第2選択ボックスに対応する第2人体領域を前記目標対象の人体領域としてよい。一例において、前記夾角のコサイン値を決定してよく、前記夾角のコサイン値が最も大きい第2選択ボックスに対応する第2人体領域を前記目標対象の人体領域としてよい。更に目標対象の人体領域の第3位置情報を決定してよい。
このような形態によれば、座標の計算によって目標対象の人体領域を決定し、処理効率を高めることができる。
可能な一実施形態では、前記目標対象の特徴情報は目標対象の人体特徴情報を含み、切り抜き画像において人体特徴情報に基づいて人体領域の第3位置情報を決定し、前記人体領域とマッチング可能な顔領域(即ち、目標対象の顔領域)の第2位置情報を決定してよい。
可能な一実施形態では、ステップS13は、前記参照画像内の目標対象の人体特徴情報に基づいて、前記切り抜き画像において、前記目標対象の人体領域の第3位置情報を決定するステップと、前記切り抜き画像において、複数の顔領域の位置情報を決定するステップと、前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定するステップと、を含んでよい。
可能な一実施形態では、目標対象の人体特徴情報に基づいて、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定してよい。例えば、前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報(例えば、第3選択ボックスの4つの頂点の切り抜き画像での座標)を含み、切り抜き画像において目標対象の人体を認識し、且つ目標対象の人体に対してボックス選択してよい。切り抜き画像において目標対象の人体を認識することで、目標対象の人体領域の第3位置情報を高速かつ正確に取得して、認識処理内のノイズ干渉を減少して、認識精度を高めることができる。
可能な一実施形態では、切り抜き画像において複数の顔領域の位置情報を取得してよく、例えば、切り抜き画像内の全ての顔領域に対してボックス選択を行う第4選択ボックスの座標情報を取得してよい。目標対象の人体領域の第3位置情報に基づいて切り抜き画像内の複数の顔領域に対してノイズ除去処理を行い、目標対象の人体領域とマッチング可能な顔領域、即ち前記切り抜き画像における目標対象の顔領域の第2位置情報を決定し、例えば、目標対象の顔領域に対してボックス選択を行う選択ボックスの座標情報を決定するようにしてよい。
可能な一実施形態では、前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定する前記ステップは、前記第3位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて、前記切り抜き画像内の非目標顔領域を除去して、第1顔領域を取得するステップと、前記第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離に基づいて、第1顔領域から第2顔領域を選び出すステップと、前記第2領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第2顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第2位置情報を決定するステップと、を含む。
可能な一実施形態では、切り抜き画像内の非目標顔領域は、前記目標対象の人体領域と明らかにマッチングしない顔領域、例えば、人体領域との位置ずれが大き過ぎる顔領域を含んでよい。一例において、前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第4選択ボックスの座標情報を含み、前記非目標顔領域は、前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域、下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域、左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域の中の少なくとも1つのものを含む。非目標顔領域を除去した後、切り抜き画像に残された顔領域が前記第1顔領域となる。
第1の例において、目標対象の人体領域に対してボックス選択を行う第3選択ボックスと切り抜き画像の顔領域に対してボックス選択を行う選択ボックスは共通部分を有するはずであり、例えば、第3選択ボックスの上縁が目標対象の顔領域選択ボックスの下縁の上にあってよい。従って、目標対象の人体領域の第3選択ボックスに対して共通部分が全くない第4選択ボックスが除去されてよく、即ち、前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域が非目標顔領域となる。
第2の例において、目標対象の人体領域に対してボックス選択を行う第3選択ボックスは目標対象の顔領域に対してボックス選択を行う選択ボックスより低くなるはずであり、第3選択ボックスの中心位置が目標対象の顔領域に対してボックス選択を行う選択ボックスの下縁より低くなるはずである。従って、下縁が第3選択ボックスの中心位置より低い第4選択ボックスが除去されてよく、即ち、下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域が非目標顔領域となる。
第3の例において、目標対象の顔領域に対してボックス選択を行う選択ボックスは第3選択ボックスに対して垂直方向に揃うか大体揃うはずであり、従って、垂直方向でのずれが大き過ぎる顔領域の選択ボックスが除去されてよく、即ち、左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、及び右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域はいずれも非目標人体領域とされてよい。
このような形態によれば、複数のノイズとしての顔領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができる。
可能な一実施形態では、第1顔領域から目標対象の人体領域とマッチング可能な顔領域、即ち目標対象の顔領域を決定してよい。
一例において、第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離を決定し、距離が最も近い第4選択ボックスに対応する顔領域、即ち第2顔領域を決定してよい。前記距離が最も近い第4選択ボックスが1つしかなければ、この第4選択ボックスに対応する第2顔領域を目標対象の顔領域としてよい。
一例において、距離が同じな第4選択ボックスが複数存在すれば、即ち、複数の第2顔領域が存在すれば、第2顔領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角を決定してよく、この夾角が小さいほど、前記連結線の方向が垂直方向に近接するようになり、前記夾角が最も小さい第4選択ボックスに対応する第2顔領域を前記目標対象の顔領域としてよい。一例において、前記夾角のコサイン値を決定してよく、前記夾角のコサイン値が最も大きい第4選択ボックスに対応する第2顔領域を前記目標対象の顔領域としてよい。更に目標対象の顔領域の第2位置情報を決定してよい。
このような形態によれば、座標の計算によって目標対象の顔領域を決定し、処理効率を高めることができる。
可能な一実施形態では、ステップS14において、第1位置情報、第2位置情報及び第3位置情報に基づいて、目標対象の顔領域の第1画像での第4位置情報、及び目標対象の人体領域の第1画像での第5位置情報を決定してよい。
一例において、座標変換によって前記第4位置情報及び前記第5位置情報を取得してよい。例えば、前記第1位置情報が前記切り抜き画像の第1画像での座標情報であり、例えば、切り抜き画像の左上頂点の座標が(x,y)である。第2位置情報が目標対象の顔領域の切り抜き画像での座標情報であり、例えば、切り抜き画像内の顔領域の選択ボックスの左上頂点座標が(a,b)であり、顔領域の選択ボックスの右下頂点座標が(a,b)である。第3位置情報が目標対象の人体領域の切り抜き画像での座標情報であり、例えば、切り抜き画像内の人体領域の選択ボックスの左上頂点座標が(c,d)であり、顔領域の選択ボックスの右下頂点座標が(c,d)である。そのように前記第4位置情報が目標対象の顔領域の第1画像での座標情報であり、例えば、第1画像内の顔領域の選択ボックスの左上頂点座標が(x+a1,y+b)であり、顔領域の選択ボックスの右下頂点座標が(x+a,y+b)である。第1画像内の人体領域の選択ボックスの左上頂点座標が(x+c,y+d)であり、人体領域の選択ボックスの右下頂点座標が(x+c,y+d)である。
可能な一実施形態では、ステップS14において、前記第4位置情報及び第5位置情報に基づいて第1画像を処理してよく、例えば、第4位置情報及び第5位置情報に基づいて第1画像内の目標対象の顔領域及び人体領域をラベリングしてよく、即ち、目標対象の顔領域及び人体領域に対してボックス選択を行う選択ボックスをラベリングして第2画像を取得してよい。
一例において、被処理画像が監視ビデオのビデオフレームであり、目標対象を含む各ビデオフレームにおいて目標対象の顔領域及び人体領域をラベリングし、複数のビデオフレーム内の目標対象の顔領域及び人体領域の位置情報に基づいて目標対象の移動軌跡を決定するようにしてよい。
本開示の実施例に係る画像処理方法は、目標対象が含まれる第1画像において目標対象の所在する目標領域を決定し、目標領域を切り抜き、切り抜き画像において目標対象の顔領域及び人体領域を決定するようにしてよく、そのように干渉領域を除去して目標対象の顔領域と人体領域をマッチングする難易度を低くすることができる。また、切り抜き画像において複数のノイズ領域を除去して、認識処理の効率を高めると共に、認識処理の正確度を高めることができ、また、座標の計算によって目標対象の顔領域又は人体領域を決定して、処理効率を高めることができる。
図3は本開示の実施例に係る画像処理方法の適用の模式図を示し、図3に示すように、目標対象の顔領域又は人体領域に対して特徴抽出処理を行って、目標対象の特徴情報を取得し、目標対象の特徴情報に基づいて被処理画像から検索し、目標対象が含まれる第1画像を取得するようにしてよい。また、第1画像において、目標対象が所在する目標領域の第1位置情報、即ち目標領域の第1画像での座標情報を決定し、例えば、目標領域の左上頂点座標が(x,y)等である。また、目標領域に対して切り抜き処理を行って切り抜き画像を取得してよい。
可能な一実施形態では、前記特徴情報が顔特徴情報であれば、切り抜き画像から目標対象の顔領域を検索し、且つ目標対象の顔領域の切り抜き画像での第2位置情報を決定してよく、例えば、切り抜き画像内の顔領域の選択ボックスの左上頂点座標が(a,b)であり、顔領域の選択ボックスの右下頂点座標が(a,b)である。
可能な一実施形態では、切り抜き画像内の非目標人体領域を除去し、残された第1人体領域から顔領域及び人体領域の選択ボックスの座標に基づいて目標対象の人体領域の第3位置情報を決定してよく、例えば、切り抜き画像内の人体領域の選択ボックスの左上頂点座標が(c,d)であり、顔領域の選択ボックスの右下頂点座標が(c,d)である。
可能な一実施形態では、前記特徴情報が人体特徴情報であれば、切り抜き画像から目標対象の人体領域を検索し、且つ切り抜き画像における目標対象の人体領域の第3位置情報を決定してよく、例えば、切り抜き画像内の人体領域の選択ボックスの左上頂点座標が(c,d)であり、顔領域の選択ボックスの右下頂点座標が(c、d)である。
可能な一実施形態では、切り抜き画像内の非目標顔領域を除去し、残された第1顔領域から顔領域及び人体領域の選択ボックスの座標に基づいて目標対象の顔領域の第2位置情報を決定してよく、例えば、切り抜き画像内の顔領域の選択ボックスの左上頂点座標が(a,b)であり、顔領域の選択ボックスの右下頂点座標が(a,b)である。
可能な一実施形態では、座標変換によって目標対象の顔領域及び人体領域の第1画像での位置情報を決定してよい。例えば、第1画像内の顔領域の選択ボックスの左上頂点座標が(x+a,y+b)であり、顔領域の選択ボックスの右下頂点座標が(x+a,y+b)である。第1画像内の人体領域の選択ボックスの左上頂点座標が(x+c,y+d)であり、人体領域の選択ボックスの右下頂点座標が(x+c,y+d)である。
可能な一実施形態では、上記座標に基づいて、第1画像において目標対象の顔領域及び人体領域を選択する選択ボックスをラベリングしてよい。
可能な一実施形態では、前記画像処理方法は、大量の監視ビデオにおいて不完全な特徴情報に基づいて目標対象の位置を決定することに利用可能であり、目標対象を監視、追跡することができる。例えば、警察側が監視ビデオにおいて犯罪容疑者の位置を確定することに寄与する。
図4は本開示の実施例に係る画像処理装置のブロック図を示し、図4に示すように、前記装置は、
参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定するように構成される第1決定モジュール11と、
前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するように構成される切り抜きモジュール12と、
前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定するように構成されるノイズ除去モジュール13と、
前記第1位置情報、前記第2位置情報及び前記第3位置情報に基づいて、前記第1画像において前記目標対象の顔領域の第4位置情報及び前記目標対象の人体領域の第5位置情報を決定するように構成される第2決定モジュール14と、
前記第4位置情報と前記第5位置情報に基づいて、前記第1画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第2画像を取得するように構成される処理モジュール15と、を含む。
可能な一実施形態では、前記第1決定モジュールは、顔特徴情報及び/又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得し、前記目標対象の特徴情報に基づいて複数の被処理画像において目標対象が含まれる第1画像を決定し、前記第1画像において、前記目標対象が所在する目標領域の第1位置情報を決定するように構成される。
可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
前記ノイズ除去モジュールは、前記参照画像内の目標対象の顔特徴情報に基づいて前記切り抜き画像において、前記目標対象の顔領域の第2位置情報を決定し、前記切り抜き画像において、複数の人体領域の位置情報を決定し、前記第2位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定するように構成される。
可能な一実施形態では、前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第2選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第2位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて前記切り抜き画像内の非目標人体領域を除去して第1人体領域を取得し、前記第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離に基づいて第1人体領域から第2人体領域を選び出し、前記第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第2人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第3位置情報を決定するように構成される。
可能な一実施形態では、前記非目標人体領域は、前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域、中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域、左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域の中の少なくとも1つのものを含む。
可能な一実施形態では、前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
前記ノイズ除去モジュール、前記参照画像内の目標対象の人体特徴情報に基づいて前記切り抜き画像において、前記目標対象の人体領域の第3位置情報を決定し、前記切り抜き画像において、複数の顔領域の位置情報を決定し、前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定するように構成される。
可能な一実施形態では、前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第4選択ボックスの座標情報を含み、
前記ノイズ除去モジュールは、前記第3位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて前記切り抜き画像内の非目標顔領域を除去して第1顔領域を取得し、前記第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離に基づいて第1顔領域から第2顔領域を選び出し、前記第2領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第2顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第2位置情報を決定するように構成される。
可能な一実施形態では、前記非目標顔領域は、前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域、下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域、左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域の中の少なくとも1つのものを含む。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
また、本開示は画像処理装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか1種の画像処理方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体又は揮発性記憶媒体であってよい。
本開示の実施例は、更に、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。
電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。
図5は例示的な一実施例に基づいて示した電子機器800のブロック図である。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。
図5を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ820を含んで命令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との対話のために、マルチメディアモジュールを含むことができる。
メモリ804は電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器800において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク(MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント814は電子機器800に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
図6は例示的な一実施例に基づいて示した電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供できる。図6を参照すると、電子機器1900は、さらに一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行し、それによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。
コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (15)

  1. 参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定するステップと、
    前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するステップと、
    前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定するステップと、
    前記第1位置情報、前記第2位置情報及び前記第3位置情報に基づいて、前記第1画像において前記目標対象の顔領域の第4位置情報及び前記目標対象の人体領域の第5位置情報を決定するステップと、
    前記第4位置情報と前記第5位置情報に基づいて、前記第1画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第2画像を取得するステップと、を含み、
    参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定する前記ステップは、
    顔特徴情報及び/又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得するステップと、
    前記目標対象の特徴情報に基づいて、複数の被処理画像において前記目標対象が含まれる第1画像を決定するステップと、
    前記第1画像において、前記目標対象が所在する目標領域の第1位置情報を決定するステップと、を含み、
    前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
    前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定する前記ステップは、
    前記参照画像内の目標対象の顔特徴情報に基づいて、前記切り抜き画像において、前記目標対象の顔領域の第2位置情報を決定するステップと、
    前記切り抜き画像において、複数の人体領域の位置情報を決定するステップと、
    前記第2位置情報に基づいて前記切り抜き画像内の前記複数の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定するステップと、を含む
    画像処理方法。
  2. 前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第2選択ボックスの座標情報を含み、
    前記第2位置情報に基づいて前記切り抜き画像内の人体領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定する前記ステップは、
    前記第2位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて、前記切り抜き画像内の非目標人体領域を除去して、第1人体領域を取得するステップと、
    前記第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離に基づいて、前記第1人体領域から第2人体領域を選び出すステップと、
    前記第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第2人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第3位置情報を決定するステップと、を含む請求項に記載の方法。
  3. 前記非目標人体領域は、
    前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域、
    中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域、
    左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、
    右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域の中の少なくとも1つのものを含む請求項に記載の方法。
  4. 前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
    前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定する前記ステップは、
    前記参照画像内の目標対象の人体特徴情報に基づいて、前記切り抜き画像において、前記目標対象の人体領域の第3位置情報を決定するステップと、
    前記切り抜き画像において、複数の顔領域の位置情報を決定するステップと、
    前記第3位置情報に基づいて前記切り抜き画像内の前記複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定するステップと、をさらに含む請求項に記載の方法。
  5. 前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第4選択ボックスの座標情報を含み、
    前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って、前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定する前記ステップは、
    前記第3位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて、前記切り抜き画像内の非目標顔領域を除去して、第1顔領域を取得するステップと、
    前記第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離に基づいて、第1顔領域から第2顔領域を選び出すステップと、
    前記第2領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて、前記第2顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第2位置情報を決定するステップと、を含む請求項に記載の方法。
  6. 前記非目標顔領域は、
    前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域、
    下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域、
    左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、
    右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域の中の少なくとも1つのものを含む請求項に記載の方法。
  7. 参照画像に基づいて、複数の被処理画像において、前記参照画像内の目標対象が含まれる第1画像と、前記第1画像において目標対象が所在する目標領域の第1位置情報とを決定するように構成される第1決定モジュールと、
    前記目標領域に対して切り抜き処理を行って、切り抜き画像を取得するように構成される切り抜きモジュールと、
    前記参照画像に基づいて、前記切り抜き画像に対してノイズ除去処理を行って、前記切り抜き画像において前記目標対象の顔領域の第2位置情報及び前記目標対象の人体領域の第3位置情報を決定するように構成されるノイズ除去モジュールと、
    前記第1位置情報、前記第2位置情報及び前記第3位置情報に基づいて、前記第1画像において前記目標対象の顔領域の第4位置情報及び前記目標対象の人体領域の第5位置情報を決定するように構成される第2決定モジュールと、
    前記第4位置情報と前記第5位置情報に基づいて、前記第1画像を処理して、前記目標対象の顔領域及び人体領域のアノテーション情報を含む第2画像を取得するように構成される処理モジュールと、を含み、
    前記第1決定モジュールは、顔特徴情報及び/又は人体特徴情報を含む、前記参照画像内の目標対象の特徴情報を取得し、前記目標対象の特徴情報に基づいて複数の被処理画像において目標対象が含まれる第1画像を決定し、前記第1画像において、前記目標対象が所在する目標領域の第1位置情報を決定するように構成され、
    前記目標対象の特徴情報は、前記目標対象の顔特徴情報を含み、
    前記ノイズ除去モジュールは、前記参照画像内の目標対象の顔特徴情報に基づいて前記切り抜き画像において、前記目標対象の顔領域の第2位置情報を決定し、前記切り抜き画像において、複数の人体領域の位置情報を決定し、前記第2位置情報に基づいて前記切り抜き画像内の複数の人体領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の人体領域の第3位置情報を決定するように構成される
    画像処理装置。
  8. 前記第2位置情報は、前記目標対象の顔領域に対してボックス選択を行う第1選択ボックスの座標情報を含み、前記切り抜き画像内の人体領域の位置情報は、前記人体領域に対してボックス選択を行う第2選択ボックスの座標情報を含み、
    前記ノイズ除去モジュールは、前記第2位置情報及び前記切り抜き画像内の人体領域の位置情報に基づいて前記切り抜き画像内の非目標人体領域を除去して第1人体領域を取得し、前記第1選択ボックスの中心位置の座標と前記第2選択ボックスの上縁中点の座標との間の距離に基づいて第1人体領域から第2人体領域を選び出し、前記第2人体領域の第2選択ボックスの中心位置と前記第1選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第2人体領域において、前記目標対象の人体領域及び前記目標対象の人体領域の第3位置情報を決定するように構成される請求項に記載の装置。
  9. 前記非目標人体領域は、
    前記第1選択ボックスに対して共通部分が存在しない第2選択ボックスに対応する人体領域、
    中心位置の縦座標が第1選択ボックスの下縁の縦座標以上である第2選択ボックスに対応する人体領域、
    左縁の横座標が第1選択ボックスの右縁の横座標以上である第2選択ボックスに対応する人体領域、
    右縁の横座標が第1選択ボックスの左縁の横座標以下である第2選択ボックスに対応する人体領域の中の少なくとも1つのものを含む請求項に記載の装置。
  10. 前記目標対象の特徴情報は、前記目標対象の人体特徴情報を含み、
    前記ノイズ除去モジュールは、前記参照画像内の目標対象の人体特徴情報に基づいて前記切り抜き画像において、前記目標対象の人体領域の第3位置情報を決定し、前記切り抜き画像において、複数の顔領域の位置情報を決定し、前記第3位置情報に基づいて前記切り抜き画像内の複数の顔領域に対してノイズ除去処理を行って前記切り抜き画像における前記目標対象の顔領域の第2位置情報を決定するように構成される請求項に記載の装置。
  11. 前記第3位置情報は、前記目標対象の人体領域に対してボックス選択を行う第3選択ボックスの座標情報を含み、前記切り抜き画像内の顔領域の位置情報は、前記顔領域に対してボックス選択を行う第4選択ボックスの座標情報を含み、
    前記ノイズ除去モジュールは、前記第3位置情報及び前記切り抜き画像内の顔領域の位置情報に基づいて前記切り抜き画像内の非目標顔領域を除去して第1顔領域を取得し、前記第3選択ボックスの上縁中点の座標と前記第4選択ボックスの中心位置の座標との間の距離に基づいて第1顔領域から第2顔領域を選び出し、前記第2領域の第4選択ボックスの中心位置と前記第3選択ボックスの中心位置との間の連結線と垂直方向との間の夾角に基づいて前記第2顔領域から前記目標対象の顔領域及び前記目標対象の顔領域の第2位置情報を決定するように構成される請求項10に記載の装置。
  12. 前記非目標顔領域は、
    前記第3選択ボックスに対して共通部分が存在しない第4選択ボックスに対応する顔領域、
    下縁の縦座標が第3選択ボックスの中心位置の縦座標以下である第4選択ボックスに対応する顔領域、
    左縁の横座標が第3選択ボックスの右縁の横座標以上である第4選択ボックスに対応する顔領域、
    右縁の横座標が第3選択ボックスの左縁の横座標以下である第4選択ボックスに対応する顔領域の中の少なくとも1つのものを含む請求項11に記載の装置。
  13. プロセッサと、
    プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
    前記プロセッサが請求項1-のいずれか一項に記載の方法を実行するように構成される電子機器。
  14. コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項1-のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
  15. コンピュータに、請求項1-のいずれか一項に記載の画像処理方法を実行させるためのプログラム。
JP2020533126A 2019-03-11 2019-08-19 画像処理方法及び装置、電子機器並びに記憶媒体 Active JP7061191B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910181078.0 2019-03-11
CN201910181078.0A CN109948494B (zh) 2019-03-11 2019-03-11 图像处理方法及装置、电子设备和存储介质
PCT/CN2019/101384 WO2020181728A1 (zh) 2019-03-11 2019-08-19 图像处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021517747A JP2021517747A (ja) 2021-07-26
JP7061191B2 true JP7061191B2 (ja) 2022-04-27

Family

ID=67009474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533126A Active JP7061191B2 (ja) 2019-03-11 2019-08-19 画像処理方法及び装置、電子機器並びに記憶媒体

Country Status (8)

Country Link
US (1) US11288531B2 (ja)
JP (1) JP7061191B2 (ja)
KR (1) KR102446687B1 (ja)
CN (1) CN109948494B (ja)
PH (1) PH12020551046A1 (ja)
SG (1) SG11202006321UA (ja)
TW (1) TWI702544B (ja)
WO (1) WO2020181728A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948494B (zh) * 2019-03-11 2020-12-29 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110619626B (zh) * 2019-08-30 2023-04-07 北京都是科技有限公司 图像处理设备、***、方法以及装置
CN111222404A (zh) * 2019-11-15 2020-06-02 北京市商汤科技开发有限公司 检测同行人的方法及装置、***、电子设备和存储介质
CN111144215B (zh) * 2019-11-27 2023-11-24 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111476214A (zh) * 2020-05-21 2020-07-31 北京爱笔科技有限公司 一种图像区域匹配方法和相关装置
CN111724442B (zh) * 2020-05-28 2022-04-22 上海商汤智能科技有限公司 图像处理方法及装置、电子设备及存储介质
CN111784773A (zh) * 2020-07-02 2020-10-16 清华大学 图像处理方法及装置、神经网络训练方法及装置
CN112085701B (zh) * 2020-08-05 2024-06-11 深圳市优必选科技股份有限公司 一种人脸模糊度检测方法、装置、终端设备及存储介质
CN112465843A (zh) * 2020-12-22 2021-03-09 深圳市慧鲤科技有限公司 图像分割方法及装置、电子设备和存储介质
CN112733650B (zh) * 2020-12-29 2024-05-07 深圳云天励飞技术股份有限公司 目标人脸检测方法、装置、终端设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018173947A1 (ja) 2017-03-22 2018-09-27 株式会社日立国際電気 画像検索装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1526477B1 (en) * 2002-07-26 2010-05-19 Mitsubishi Denki Kabushiki Kaisha Image processing apparatus
US9692964B2 (en) * 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
JP2005094741A (ja) * 2003-08-14 2005-04-07 Fuji Photo Film Co Ltd 撮像装置及び画像合成方法
JP2008181423A (ja) * 2007-01-25 2008-08-07 Fujitsu Ten Ltd 歩行者認識装置および歩行者認識方法
CN101216885A (zh) * 2008-01-04 2008-07-09 中山大学 一种基于视频的行人人脸检测与跟踪算法
KR101180471B1 (ko) * 2011-09-27 2012-09-07 (주)올라웍스 한정된 메모리 환경 하에서 얼굴 인식 성능 향상을 위한 참조 얼굴 데이터베이스 관리 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP5882975B2 (ja) * 2012-12-26 2016-03-09 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、及び記録媒体
US9307191B2 (en) * 2013-11-19 2016-04-05 Microsoft Technology Licensing, Llc Video transmission
JP6664163B2 (ja) * 2015-08-05 2020-03-13 キヤノン株式会社 画像識別方法、画像識別装置及びプログラム
CN105227918B (zh) * 2015-09-30 2016-10-19 珠海安联锐视科技股份有限公司 一种智能监控方法
WO2018080547A1 (en) * 2016-10-31 2018-05-03 Hewlett-Packard Development Company, L.P. Video monitoring
KR20180086048A (ko) * 2017-01-20 2018-07-30 한화에어로스페이스 주식회사 카메라 및 카메라의 영상 처리 방법
CN106845432B (zh) * 2017-02-07 2019-09-17 深圳市深网视界科技有限公司 一种人脸与人体共同检测的方法和设备
CN108319953B (zh) * 2017-07-27 2019-07-16 腾讯科技(深圳)有限公司 目标对象的遮挡检测方法及装置、电子设备及存储介质
CN107644204B (zh) * 2017-09-12 2020-11-10 南京凌深信息科技有限公司 一种用于安防***的人体识别与跟踪方法
CN109948494B (zh) * 2019-03-11 2020-12-29 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018173947A1 (ja) 2017-03-22 2018-09-27 株式会社日立国際電気 画像検索装置

Also Published As

Publication number Publication date
CN109948494B (zh) 2020-12-29
CN109948494A (zh) 2019-06-28
KR102446687B1 (ko) 2022-09-23
TW202034211A (zh) 2020-09-16
WO2020181728A1 (zh) 2020-09-17
SG11202006321UA (en) 2020-10-29
JP2021517747A (ja) 2021-07-26
US11288531B2 (en) 2022-03-29
US20200327353A1 (en) 2020-10-15
KR20200110642A (ko) 2020-09-24
TWI702544B (zh) 2020-08-21
PH12020551046A1 (en) 2021-09-06

Similar Documents

Publication Publication Date Title
JP7061191B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
US20210089799A1 (en) Pedestrian Recognition Method and Apparatus and Storage Medium
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
KR20210047336A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US20220019772A1 (en) Image Processing Method and Device, and Storage Medium
CN110942036B (zh) 人员识别方法及装置、电子设备和存储介质
US11138758B2 (en) Image processing method and apparatus, and storage medium
CN111523346B (zh) 图像识别方法及装置、电子设备和存储介质
CN109034150B (zh) 图像处理方法及装置
US11450021B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN108171222B (zh) 一种基于多流神经网络的实时视频分类方法及装置
CN110909203A (zh) 视频分析方法及装置、电子设备和存储介质
AU2020323956B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN110781842A (zh) 图像处理方法及装置、电子设备和存储介质
CN112330717B (zh) 目标跟踪方法及装置、电子设备和存储介质
CN110929545A (zh) 人脸图像的整理方法及装置
CN113538310A (zh) 图像处理方法及装置、电子设备和存储介质
CN111062407B (zh) 图像处理方法及装置、电子设备和存储介质
WO2021136979A1 (en) Image processing method and apparatus, electronic device, and storage medium
CN111651627A (zh) 数据处理方法及装置、电子设备和存储介质
CN113506324B (zh) 图像处理方法及装置、电子设备和存储介质
CN113506325B (zh) 图像处理方法及装置、电子设备和存储介质
CN110929546B (zh) 人脸比对方法及装置
CN110717425A (zh) 案件关联方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220415

R150 Certificate of patent or registration of utility model

Ref document number: 7061191

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150