JP2022526347A - 画像処理方法、装置、電子機器並びにコンピュータプログラム製品 - Google Patents

画像処理方法、装置、電子機器並びにコンピュータプログラム製品 Download PDF

Info

Publication number
JP2022526347A
JP2022526347A JP2021557462A JP2021557462A JP2022526347A JP 2022526347 A JP2022526347 A JP 2022526347A JP 2021557462 A JP2021557462 A JP 2021557462A JP 2021557462 A JP2021557462 A JP 2021557462A JP 2022526347 A JP2022526347 A JP 2022526347A
Authority
JP
Japan
Prior art keywords
target
detection frame
detection
seat
body key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021557462A
Other languages
English (en)
Other versions
JP7235892B2 (ja
Inventor
フェイ ワン
チェン チエン
Original Assignee
シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド filed Critical シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Publication of JP2022526347A publication Critical patent/JP2022526347A/ja
Application granted granted Critical
Publication of JP7235892B2 publication Critical patent/JP7235892B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本発明の実施例は、画像処理方法、装置並びに電子機器を提供する。前記画像処理方法は、検出待ちの画像を取得することと、前記画像において目標対象の顔を表す第1検出枠、及び目標対象の体を表す第2検出枠をそれぞれ決定することであって、前記第1検出枠の数はMであり、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数であることと、M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することであって、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しいことと、M、N及びKに基づいて前記画像内の目標対象の数を決定することと、を含む。【選択図】図1

Description

[関連出願への相互参照]
本願は、2020年02月18日に中国特許局に提出された、出願番号が202010098809.8である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
[技術分野]
本発明は、画像分析技術に関し、具体的には、画像処理方法、装置並びに電子機器に関する。
現在、車内の人数の統計は、顔を検出する方式で実現できる。しかし、車内には座席によってブロックされるか、又は顔の回転角度が大きすぎると、検出漏れが発生し、車内の人数の統計精度が低下する。
本発明の実施例は、画像処理方法、装置、電子機器並びにコンピュータプログラム製品を提供する。
本発明の実施例は、画像処理方法を提供し、前記方法は、
検出待ちの画像を取得することと、
前記画像において目標対象の顔を表す第1検出枠、及び目標対象の体を表す第2検出枠をそれぞれ決定することであって、前記第1検出枠の数はMであり、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数であることと、
M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することであって、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しいことと、
M、N及びKに基づいて前記目標対象の数を決定することと、を含む。
本発明のいくつかの例示的な実施例において、前記M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することは、
前記M個の第1検出枠をトラバースして、各第1検出枠と各第2検出枠とのIoU(Intersection over Union)を決定することと、
各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することと、を含む。
本発明のいくつかの実施例において、前記各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することは、
各第1検出枠と各第2検出枠とのIoUのうちの最大IoUを決定することと、
前記最大IoUがプリセットされた閾値より大きいかどうかを判断することと、
前記最大IoUが前記プリセットされた閾値より大きいことに応答して、前記最大IoUに対応する第1検出枠と第2検出枠がマッチング関係を満たすと決定することと、を含む。
本発明のいくつかの実施例において、前記M、N及びKに基づいて前記画像内の目標対象の数を決定することは、前記目標対象の数が、K+(M-K)+(N-K)であると決定することを含む。
本発明のいくつかの実施例において、前記画像処理方法は、
前記画像内の各目標対象の体キーポイントを取得することと、
前記体キーポイントに対応する位置分類カテゴリを決定することであって、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを表す、ことと、
各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することと、を更に含む。
本発明のいくつかの実施例において、
各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することは、1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することを含み、
前記画像処理方法は、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定することを更に含む。
本発明のいくつかの実施例において、前記1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することは、
1つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計することと、
体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定することと、を含む。
本発明の実施例は、画像処理装置を更に提供し、前記画像処理装置は、取得ユニット、第1決定ユニット、第2決定ユニット及びマッチングユニットを備え、
前記取得ユニットは、検出待ちの画像を取得するように構成され、
前記第1決定ユニットは、前記画像において目標対象の顔を表す第1検出枠を決定するように構成され、前記第1検出枠の数はMであり、
前記第2決定ユニットは、前記画像において目標対象の体を表す第2検出枠を決定するように構成され、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数であり、
前記マッチングユニットは、M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定し、M、N及びKに基づいて前記画像内の目標対象の数を決定するように構成され、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しい。
本発明のいくつかの実施例において、前記マッチングユニットは、前記M個の第1検出枠をトラバースして、各第1検出枠と各第2検出枠とのIoU(Intersection over Union)を決定し、各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定するように構成される。
本発明のいくつかの実施例において、前記マッチングユニットは、各第1検出枠と各第2検出枠とのIoUのうちの最大IoUを決定し、前記最大IoUがプリセットされた閾値より大きいかどうかを判断し、前記最大IoUが前記プリセットされた閾値より大きいことに応答して、前記最大IoUに対応する第1検出枠と第2検出枠がマッチング関係を満たすと決定するように構成される。
本発明のいくつかの実施例において、前記マッチングユニットは、前記目標対象の数が、K+(M-K)+(N-K)であると決定するように構成される。
本発明のいくつかの実施例において、前記画像処理装置は更に、分類ユニット及び第3決定ユニットを備え、
前記第2決定ユニットは更に、前記画像内の各目標対象の体キーポイントを取得するように構成され、
前記分類ユニットは、前記体キーポイントに対応する位置分類カテゴリを決定するように構成され、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを表し、
前記第3決定ユニットは、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定するように構成される。
本発明のいくつかの実施例において、各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記第3決定ユニットは、1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定し、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定するように構成される。
本発明のいくつかの実施例において、前記第3決定ユニットは、1つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計し、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定するように構成される。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を更に提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の画像処理方法のステップを実現する。
本発明の実施例は、電子機器を更に提供し、前記電子機器は、メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実現する。
本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラム製品を更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の画像処理方法を実行させる。
本発明の実施例は、画像処理方法、装置、電子機器並びにコンピュータプログラム製品を提供し、前記画像処理方法は、検出待ちの画像を取得することと、前記画像において目標対象の顔を表す第1検出枠、及び目標対象の体を表す第2検出枠をそれぞれ決定することであって、前記第1検出枠の数はMであり、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数であることと、M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することであって、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しいことと、M、N及びKに基づいて前記画像内の目標対象の数を決定することと、を含む。本発明の実施例の技術的解決策によれば、顔検出によって画像内の顔の数を検出し、体検出によって画像内の体の数を検出し、顔と体をマッチングする方式で画像内の人数を決定することにより、画像内の目標対象がブロックされるか、目標対象の顔の回転角度が大きすぎると、検出漏れが発生するという問題を解決し、画像内の人数統計の精度を向上させる。
本発明の実施例に係る画像処理方法の第1の例示的なフローチャートである。 本発明の実施例に係る画像処理方法の第2の例示的なフローチャートである。 本発明の実施例に係る画像処理方法のネットワーク構造の概略図である。 本発明の実施例に係る画像処理装置の構成の第1概略構造図である。 本発明の実施例に係る画像処理装置の構成の第2概略構造図である。 本発明の実施例に係る電子機器の構成の概略構造図である。
以下、図面および具体的な実施例を参照して、本発明についてさらに詳細に説明する。
本発明の実施例は、画像処理方法を提供する。図1は、本発明の実施例に係る画像処理方法の第1の例示的なフローチャートであり、図1に示されたように、前記画像処理方法は、次のステップを含む。
ステップ101において、検出待ちの画像を取得する。
ステップ102において、前記画像において目標対象の顔を表す第1検出枠、及び目標対象の体を表す第2検出枠をそれぞれ決定し、ここで、前記第1検出枠の数はMであり、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数である。
ステップ103において、M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定し、Kは、非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しい。
ステップ104において、M、N及びKに基づいて前記画像内の目標対象の数を決定する。
本実施例では、画像処理方法は画像処理装置に適用され、画像処理装置は、携帯電話、タブレットコンピュータ、ノットブックなどの移動端末に配置されてもよく、デスクトップコンピュータ、オールインワンコンピュータ、サーバなどの電子機器に配置されてもよい。
本実施例では、検出待ちの画像(以下、画像と略称)には目標対象が含まれ、ここで、目標対象は、実際の人物であってもよく、他の実施形態において、目標対象は、アニメのキャラクタなどの仮想人物であってもよい。もちろん、目標対象は、他のタイプの対象であってもよく、本実施例ではこれらに対して限定しない。
いくつかの例示的な実施例において、前記目標対象は、車内の内部環境にある目標対象である。例示的に、車両が5人乗りの車両で、車両内に3人が乗車している場合、車両の前部で車両の内部の写真を撮り、取得された画像には、車両内の環境の一部及び座席に座っている3人が含まれることができ、この場合、上記の収集された画像を、本実施例における画像として使用でき、上記の画像内の3人を、本実施例における目標対象として扱うことができる。
本発明のいくつかの例示的な実施例において、前記画像において目標対象の顔を表す第1検出枠及び目標対象を表す第2検出枠をそれぞれ決定することは、第1ネットワークを介して、前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の顔を表す第1検出枠を決定することと、第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記画像において目標対象を表す第2検出枠を決定することと、を含む。
本実施例では、第1ネットワークを介して画像内の顔を検出することにより、画像内のM個の第1検出枠を決定することができる。ここで、前記第1ネットワークは、顔を検出できる任意のネットワーク構造を採用でき、本実施例ではこれらに対して限定しない。
本実施例では、第2ネットワークを介して画像内の目標対象を検出することができ、例えば、画像内の体を検出して、画像内のN個の第2検出枠を決定する。ここで、前記第2ネットワークは、目標対象を検出できる任意のネットワーク構造(例えば、人体検出ネットワーク)を採用でき、本実施例ではこれらに対して限定しない。
いくつかの例示的な実施例において、画像内の目標対象の体を表す第2検出枠を決定することは、第2ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて目標対象のキーポイントを決定する(すなわち、キーポイントの位置情報を決定する)ことと、決定された目標対象のキーポイントに基づいて、目標対象を表す第2検出枠を決定することと、を含む。ここで、前記キーポイント的位置情報は、キーポイントの座標で表すことができる。ここで、同一目標対象に属するすべてのキーポイントを決定することができ、同一目標対象に属するすべてのキーポイントの位置情報に基づいて、当該目標対象の第2検出枠を決定することにより、第2検出枠の領域が当該目標対象のすべてのキーポイントを含むようにし、当該第2検出枠の領域が当該目標対象のすべてのキーポイントを含む最小の領域である。一例として、前記第2検出枠は長方形の枠であってもよい。
ここで、前記目標対象のキーポイントは、骨骼キーポイント及び/又は輪郭キーポイントを含み得、前記輪郭キーポイントは、目標対象の輪郭エッジを表し、輪郭キーポイントの位置情報に基づいて、目標対象の輪郭エッジを形成できることが理解できる。前記骨骼キーポイントは、目標対象の骨骼的キーポイントを表し、骨骼キーポイントの位置情報に基づいて、目標対象の主な骨骼を形成できることが理解できる。ここで、前記輪郭キーポイントは、腕の輪郭キーポイント、手の輪郭キーポイント、肩の輪郭キーポイント、脚の輪郭キーポイント、足の輪郭キーポイント、腰の輪郭キーポイント、頭の輪郭キーポイント、臀の輪郭キーポイント、胸の輪郭キーポイントのうちの少なくとも1つを含み得る。前記骨骼キーポイントは、腕の骨骼キーポイント、手の骨骼キーポイント、肩の骨骼キーポイント、脚の骨骼キーポイント、足の骨骼キーポイント、腰の骨骼キーポイント、頭の骨骼キーポイント、臀の骨骼キーポイント、胸の骨骼キーポイントのうちの少なくとも1つを含み得る。
いくつかの例示的な実施例において、画像内の目標対象の体を表す第2検出枠を決定することは、第2ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、目標対象の中心点及び目標対象に対応する第2検出枠の長さと幅を決定し、前記中心点、前記長さ及び幅に従って前記目標対象の体の第2検出枠を決定することを含む。
本発明のいくつかの例示的な実施例において、前記M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することは、前記M個の第1検出枠をトラバースして、各第1検出枠と各第2検出枠とのIoU(Intersection over Union)を決定することと、各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することと、を含む。
本実施例では、各第1検出枠について、第1検出枠と各第2検出枠とのIoUをそれぞれ決定する。ここで、前記IoUは、第1検出枠が位置する領域と第2検出枠が位置する領域との積集合および和集合の比率を表す。理解できることとして、前記IoUは、対応する第1検出枠と第2検出枠との間の関連度を表し、つまり、対応する顔と目標対象との間の関連度を表す。例示的に、IoUが大きいほど、対応する第1検出枠と第2検出枠との間の関連度が高くなり、つまり、対応する顔と目標対象との間の関連度が高くなる。これに対応して、IoUが小さいほど、対応する第1検出枠と第2検出枠との間の関連度が低くなり、つまり、対応する顔と目標対象との間の関連度が低くなる。本実施例では、各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することができ、前記マッチング関係を満たす第1検出枠と第2検出枠は、同一目標対象に属する第1検出枠と第2検出枠である。
本発明のいくつかの例示的な実施例において、前記各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することは、各第1検出枠と各第2検出枠とのIoUのうちの最大IoUを決定することと、前記最大IoUがプリセットされた閾値より大きいかどうかを判断することと、前記最大IoUが前記プリセットされた閾値より大きいことに応答して、前記最大IoUに対応する第1検出枠と第2検出枠がマッチング関係を満たすと決定することと、を含む。
本実施例では、各第1検出枠と各第2検出枠とのIoUについて、そのうちの最大IoUに対応する第2検出枠を決定し、最大IoUが前記プリセットされた閾値より大きい場合、第1検出枠と最大IoUに対応する第2検出枠がマッチング関係を満たすと決定することができ、つまり、最大IoUに対応する第1検出枠と第2検出枠が同一目標対象に属すると決定することができる。
本実施例のステップ104では、前記目標対象の数は、K+(M-K)+(N-K)を満たすことができる。
本実施例では、マッチング関係を満たす第1検出枠及び第2検出枠の数はKである場合、マッチング関係を満たさない第1検出枠の数はM-Kであり、マッチング関係を満たさない第2検出枠の数はN-Kであり、理解できることとして、上記のM-K個の第1検出枠及び上記のN-K個の第2検出枠は、目標対象がブロックされるか、または回転角度が大きすぎるという原因によって生成されたものである可能性がある。本実施例では、上記の原因による第1検出枠及び第2検出枠は、依然として統計の総数に含まれる。
本発明の実施例の技術的解決策によれば、顔検出によって画像内の顔の数を検出し、体検出によって画像内の体の数を検出し、顔と体をマッチングする方式で画像内の人数を決定することにより、画像内の目標対象がブロックされるか、目標対象の顔の回転角度が大きすぎると、検出漏れが発生するという問題を解決し、画像内の人数統計の精度を向上させる。
上記の実施例に基づき、本発明の実施例は、画像処理方法を更に提供する。図2は、本発明の実施例に係る画像処理方法の第2の例示的なフローチャートであり、図2に示されたように、前記画像処理方法は、次のステップを含む。
ステップ201において、検出待ちの画像を取得する。
ステップ202において、前記画像内の各目標対象の体キーポイントを取得する。
ステップ203において、前記体キーポイントに対応する位置分類カテゴリを決定し、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを表す。
ステップ204において、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定する。
本発明のいくつかの例示的な実施例において、前記画像内の各目標対象の体キーポイントを取得することは、第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の体を表す第2検出枠及び各目標対象の体キーポイントを決定することを含む。
本実施例では、前述した実施例における第2ネットワークを介して、前記画像内の各目標対象の体キーポイントを取得することができる。第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、各目標対象の体キーポイントを取得することができる一方、抽出された特徴に基づいて、目標対象の体を表す第2検出枠を決定することもできることが理解できる。理解できることとして、画像を第2ネットワークに入力して、各目標対象の体キーポイントを出力する同時に、各目標対象の体の第2検出枠も抽出できる。あるいは、画像を第2ネットワークに入力して、各目標対象の体キーポイントの位置情報を抽出する同時に、各目標対象の体の第2検出枠の位置情報も抽出できる。
いくつかの例示的な実施例において、第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、各目標対象の体キーポイントを取得できる一方、抽出された特徴に基づいて、目標対象の中心点及び目標対象に対応する第2検出枠の長さと幅を決定でき、前記中心点、前記長さ及び幅に従って各目標対象の体の第2検出枠を決定し、更に、各目標対象の第2検出枠が位置する領域、及び各体キーポイントに従って、各目標対象の第2検出枠が位置する領域内の体キーポイントを決定し、各第2検出枠が位置する領域内の体キーポイントを、各第2検出枠に対応する目標対象の体キーポイントとして決定する。
本発明のいくつかの例示的な実施例において、前記体キーポイントに対応する位置分類カテゴリを決定することは、第3ネットワークを介して、前記体キーポイントに対応する位置分類カテゴリを決定することを含み、前記第3ネットワークは、体キーポイントの位置情報及び特定領域の注釈情報を含むサンプル画像に基づいてトレーニングすることによって得られたものである。
本実施例では、第3ネットワークを介して、各体キーポイントに対応する位置分類カテゴリを決定することができる。理解できることとして、前記第3ネットワークは、任意の分類ネットワークであってもよく、決定された位置分類カテゴリは、前記キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを示す。
本実施例では、画像は、1つ又は複数の特定領域を含み得、前記特定領域は、前記第3ネットワークの分類タスクに関連する。
例示的に、目標対象が車両の内部環境にある目標対象である場合、第3ネットワークの分類タスクは、各目標対象の体キーポイントが車両内の座席領域にあるかどうかを判定するために使用され、この場合、前記特定領域は、車両内の座席であってもよい。例示的に、車両が5人乗りの車両である場合、第3ネットワークを介して、各体キーポイントがどの座席の領域内に位置するかを決定でき、それにより、各座席の状態を決定することができる。
本発明のいくつかの例示的な実施例において、各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することは、1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することを含み、前記画像処理方法は、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定することを更に含む。
ここで、前記座席の状態は、アイドル状態又は非アイドル状態を含み得、前記アイドル状態は、対応する座席に目標対象がないこと、すなわち、座席が占有されていないことを表し、これに対応して、前記非アイドル状態は、対応する座席に目標対象があること、すなわち、座席が占有されていることを表す。
本実施例では、各目標対象の体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象の体キーポイントに対応する特定領域を決定し(すなわち、各目標対象の体キーポイントに対応する座席を決定し)、1つの目標対象の体キーポイントが1つの座席に対応する場合、当該座席の状態が非アイドル状態であること、すなわち、座席が占有されていることを表し、1つの座席がどの目標対象の体キーポイントにも対応しない場合、当該座席の状態がアイドル状態であること、すなわち、座席が占有されていないことを表す。
本発明のいくつかの例示的な実施例において、前記1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することは、1つの目標対象の複数のキーポイントのうち、同じ座席に対応するキーポイントの数を統計することと、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定することと、を含む。
実際の適用では、目標対象の体キーポイントの数は複数であってもよく、目標対象が必ずしも1つの特定領域(即ち、座席)内にあるとは限れないため、いくつかの例示的な実施例において、同一目標対象に属するすべての体キーポイントの位置分類カテゴリを決定し、同じ位置分類カテゴリに属する体キーポイントの数を統計し(すなわち、同じ座席に対応する体キーポイントの数を統計する)、体キーポイントの最大数を決定し、体キーポイントの最大数に対応する位置分類カテゴリに対応する特定領域を、前記目標対象に対応する領域として使用する(すなわち、体キーポイントの最大数に対応する座席を前記目標対象が位置する座席として使用する)。これに対応して、体キーポイントの最大数に対応する座席の状態を、非アイドル状態、すなわち、座席が占有されている状態として決定する。
従来の技術、すなわち、座席にセンサを設置することによって座席が占有されているかどうかを決定する実施形態と比較すると、本実施例の技術的解決策では、座席にセンサを設置する必要がないため、検出コストが低減し、更に、圧力センサを設置することで座席が占有されているかどうかを判断する場合、座席に物体が置かれていると、座席が占有されていると見なされるが、本実施例の技術的解決策は、上記の誤判定の発生を回避することができ、これにより、検出の精度を大幅に向上させることができる。
以下では、具体的な例を参照して、本発明の実施例の画像処理方法について説明する。
図3は、本発明の実施例に係る画像処理方法のネットワーク構造の概略図であり、図3に示されたように、画像を第1ネットワーク及び第2ネットワークにそれぞれ入力し、ここで、第1ネットワークは、顔検出ネットワークであってもよく、第2ネットワークは、体検出ネットワークであってもよい。
本実施例では、画像は、車両の内部環境の画像であってもよく、例として、車両が5人乗りの車両である場合、画像内の特定領域は、5つの特定領域を含み得、つまり、画像は、5つの座席が位置する領域、例えば、運転席領域、助手席領域、後部座席の左領域、後部座席の中間領域及び後部座席の右領域を含み得、上記の順序に従って、各特定領域のラベルを、それぞれ、0、1、2、3、4として定義することができる。画像内の運転席領域、助手席領域及び後部座席の左領域に人がいると仮定する。
第1態様では、第1ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、画像内の顔検出枠(即ち、上記の実施例における第1検出枠)を取得し、第2ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、画像内の体検出枠(即ち、上記の実施例における第2検出枠)を取得する。抽出された顔検出枠の数がMであり、人体検出枠の数がNであると仮定し、目標対象がブロックされるか又は回転角度が大きすぎる可能性があるため、Mの値は3より小さいか等しく、Nの値は3より小さいか等しく、つまり、3つの顔検出枠及び/又は3つの体検出枠が検出されない場合が発生する可能性がある。各顔検出枠と各体検出枠とのIoUをそれぞれ計算し、各顔検出枠について、最大IoUを有する人体検出枠を決定し、最大IoUがプリセットされた閾値より大きいかどうかを判断し、最大IoUがプリセットされた閾値より大きいと判断した場合、当該顔検出枠が最大IoUの人体検出枠とマッチングすると判断することができ、つまり、当該顔検出枠と最大IoUの体検出枠が同一人に属すると判断することができ、更に、顔検出枠とマッチングする体検出枠の数Kを決定する。上記のM、N及びKに基づいて車内の人数を決定し、K+(M-K)+(N-K)の結果を車内の人数とする。
第2態様では、第2ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、画像内の体検出枠を取得する一方、画像内の体キーポイント情報も取得でき、当該体キーポイント情報は、各体キーポイントの座標を含み得る。
例示的に、第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、各目標対象の体キーポイントを取得できる一方、抽出された特徴に基づいて、目標対象の中心点及び目標対象に対応する体検出枠の長さと幅を決定でき、前記中心点、前記長さ及び幅に従って各目標対象の体検出枠を決定することができる。更に、各目標対象の体検出枠が位置する領域、及び各体キーポイントに従って、各目標対象の体検出枠が位置する領域内の体キーポイントを決定し、各体検出枠が位置する領域内の体キーポイントを、各体検出枠に対応する目標対象の体キーポイントとして決定できる。
例示的に、画像が3×I×Iとして表されると仮定し、ここで、3はチャネル数を表し、この例において、画像は、RGBカラー画像であり得、この場合、3つのチャネルのうち、1つのチャネルデータは赤(Red)を表すチャネルデータであり、1つのチャネルデータは緑(Green)を表すチャネルデータであり、1つのチャネルデータは青(Blue)を表すチャネルデータであり、I×Iは、画像のサイズを表す。この場合、第2ネットワークを介して、画像に対して特徴抽出を実行して、C×F×Fの特徴マップを取得し、ここで、Cはチャネル数を表し、F×Fは、特徴マップのサイズを表す。次に、特定のサイズの畳み込み層(例えば、1×1の畳み込み層など)を介して特徴マップに対して畳み込み処理を実行して、H×F×Fの特徴マップを取得し、ここで、Hはチャネル数を表し、各チャネルは、1つのキーポイントを決定でき、この場合、H個のキーポイントを取得することができる。ここで、H×F×Fの特徴マップのガウスピークを識別することにより、ガウスピークの頂点座標をキーポイントの座標として使用し、このようにして、H個のキーポイントを決定する。
さらに、取得された体キーポイントを第3ネットワークに入力することにより、各体キーポイントの位置分類カテゴリを決定する。例示的に、上記の5つの特定領域を例にとると、本実施例では、第3ネットワークを介して、各キーポイントに対応する特定領域のラベルを決定する。
本発明の実施例は、画像処理装置を更に提供する。図4は、本発明の実施例に係る画像処理装置の構成の第1の概略構造図であり、図4に示されたように、前記画像処理装置は、取得ユニット31、第1決定ユニット32、第2決定ユニット33及びマッチングユニット34を備える。
前記取得ユニット31は、検出待ちの画像を取得するように構成される。
前記第1決定ユニット32は、前記画像において目標対象の顔を表す第1検出枠を決定するように構成され、前記第1検出枠の数はMである。
前記第2決定ユニットは、前記画像において目標対象の体を表す第2検出枠を決定するように構成され、ここで、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数である。
前記マッチングユニット34は、M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定し、M、N及びKに基づいて前記画像内の目標対象の数を決定するように構成され、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しい。
本発明のいくつかの例示的な実施例において、前記マッチングユニット34は、前記M個の第1検出枠をトラバースして、各第1検出枠と各第2検出枠とのIoU(Intersection over Union)を決定し、各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記マッチングユニット34は、各第1検出枠と各第2検出枠とのIoUのうちの最大IoUを決定し、前記最大IoUがプリセットされた閾値より大きいかどうかを判断し、前記最大IoUが前記プリセットされた閾値より大きいことに応答して、前記最大IoUに対応する第1検出枠と第2検出枠がマッチング関係を満たすと決定するように構成される。
本発明のいくつかの例示的な実施例において、前記マッチングユニットは、前記目標対象の数が、K+(M-K)+(N-K)であると決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第1決定ユニット32は、第1ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の顔を表す第1検出枠を決定するように構成される。
前記第2決定ユニット33は、第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の体を表す第2検出枠を決定するように構成される。
本発明のいくつかの例示的な実施例において、図5に示されたように、前記画像処理装置は更に、分類ユニット35及び第3決定ユニット36を備え、ここで、
前記第2決定ユニット33は更に、前記画像内の各目標対象の体キーポイントを取得するように構成され、
前記分類ユニット35は、前記体キーポイントに対応する位置分類カテゴリを決定するように構成され、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを表し、
前記第3決定ユニット36は、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第2決定ユニット33は、第2ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の体を表す第2検出枠及び各目標対象の体キーポイントを決定するように構成される。
本発明のいくつかの例示的な実施例において、前記分類ユニット35は、第3ネットワークを介して、前記キーポイントに対応する位置分類カテゴリを決定するように構成され、前記第3ネットワークは、体キーポイントの位置情報及び特定領域の注釈情報を含むサンプル画像に基づいてトレーニングすることによって得られたものである。
本発明のいくつかの例示的な実施例において、各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記第3決定ユニット36は、1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定し、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第3決定ユニット36は、1つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計し、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定するように構成される。
本発明の実施例において、前記画像処理装置における取得ユニット31、第1決定ユニット32、第2決定ユニット33、マッチングユニット34、分類ユニット35、及び第3決定ユニット36は、実際の応用ではすべて前記装置の中央処理装置(CPU:Central Processing Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、マイクロコントローラユニット(MCU:Microcontroller Unit)又はフィールド(FPGA、Field-Programmable Gate Array)で実現できる。
上記の実施例に係る画像処理装置が画像処理を実行することについて、上述の各プログラムモジュールの分割のみを例に挙げて説明しているが、実際の応用では、必要に応じて、上記の処理が異なるプログラムモジュールによって完了するように割り当てることができ、即ち、上記の処理の全てまたは一部を完了するために、装置の内部構造を異なるプログラムモジュールに分割することができることに留意されたい。更に、上述の実施例で提供される画像処理装置の実施例は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては、方法の実施例を参照でき、ここでは繰り返して説明しない。
本発明の実施例は、電子機器を更に提供する。図6は、本発明の実施例に係る電子機器の構成の概略構造図であり、図6に示されたように、前記電子機器40は、メモリ42と、プロセッサ41と、メモリ42に記憶された、プロセッサ41によって実行可能なコンピュータプログラムとを備え、前記プロセッサ41が前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実現する。
例示的に、電子機器40の各コンポーネントは、バスシステム43を介して結合できる。理解できることとして、バスシステム43は、これらのコンポーネント間の接続通信を実現するために使用される。データバスに加えて、バスシステム43は更に、電力バス、制御バスおよび状態信号バスを備える。しかしながら、説明を明確にするために、図6では様々なバスをすべてバスシステム43として表記する。
メモリ42は、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性および不揮発性メモリの両方を含んでもよいことを理解されたい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable ROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、強磁性ランダムアクセスメモリ(FRAM:ferromagnetic random access memory)フラッシュメモリ(Flash Memory)、磁気メモリ、コンパクトディスク、または読み取り専用コンパクトディスク(CD-ROM:Compact Disc Read-Only Memory)であり得、磁気メモリは、磁気ディスクメモリまたは磁気テープメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(RAM:Random Access Memory)であってもよい。例示的であるが限定的な説明ではないが、例えば、スタティックランダムアクセスメモリ(SRAM:Static RAM)、同期スタティックランダムアクセスメモリ(SSRAM:Synchronous Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous Dynamic Random Access Memory)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(DDRSDRAM:Double Data Rate Synchronous Dynamic Random Access Memory)、強化された同期ダイナミックランダムアクセスメモリ(ESDRAM:Enhanced Synchronous Dynamic Random Access Memory)、ダイナミックランダムアクセスメモリの同期接続(SLDRAM:SyncLink Dynamic Random Access Memory)およびダイレクトメモリバスランダムアクセスメモリ(DRRAM:Direct Rambus Random Access Memory)など様々な形のRAMを使用することができる。本発明の実施例に記載のメモリ42は、これらおよび任意の他の適切なタイプのメモリを含むが、これらに限定されないことを意図する。
上記の本発明の実施例で開示される方法は、プロセッサ41に適用されるか、またはプロセッサ41によって実現されることができる。プロセッサ41は、信号処理機能を備えた集積回路チップであり得る。実現プロセスにおいて、前述した方法の各ステップは、プロセッサ41におけるハードウェアの集積論理回路またはソフトウェアの形の命令によって完了することができる。上記のプロセッサ41は、汎用プロセッサ、DSP、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。プロセッサ41は、本開示の実施例で開示された各方法、ステップおよび論理ブロック図を実現または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。本発明の実施例を組み合たせて開示された方法のステップは、直接に、ハードウェア復号化プロセッサによって実行されて完了すると具現されることができ、または復号化プロセッサにおけるハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完了する。ソフトウェアモジュールは記憶媒体に配置されることができ、当該記憶媒体は、メモリ42に配置され、プロセッサ41は、メモリ42内の情報を読み取り、そのハードウェアと組み合わせて前記方法のステップを完成する。
例示的な実施例において、電子機器は、前記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP)、プログラマブルロジックデバイス(PLD)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、FPGA、汎用プロセッサ、コントローラ、MCU、マイクロプロセッサ(Microprocessor)または他の電子素子によって実現されることができる。
例示的な実施例において、本発明の実施例は、コンピュータプログラム命令を含むメモリ42などのコンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラムは、電子機器40のプロセッサ41によって実行されることにより、上記の方法を完了することができる。コンピュータ記憶媒体は、FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁気表面メモリ、光ディスク、またはCD-ROMなどのメモリであってもよいし、携帯電話、コンピュータ、タブレットコンピュータ、形態情報端末などの上記のメモリのうちの1つ又は任意に組み合わせた様々な機器であってもよい。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例における画像処理方法のステップを実現する。
本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラム製品を更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例における画像処理方法を実行させる。
本願で提供されるいくつかの方法の実施例に開示される方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。
本願で提供されるいくつかの製品の実施例に開示される技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。
本願で提供されるいくつかの方法又は機器の実施例に開示される特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。
本願で提供されたいくつかの実施例において、開示された機器及び方法は、他の方式で実現できることを理解されたい。上記で説明された機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視したり、又は実行しないことができる。さらに、表示または議論された各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。
上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。
なお、本発明の各実施例における各機能ユニットは、全部1つの処理ユニットに統合してもよいし、各ユニットを別々に1つのユニットとして使用してもよいし、2つ以上のユニットを1つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。
当業者なら自明であるが、前述した方法の実施例のステップの全てまたは一部は、プログラムを介して関連するハードウェアに命令することによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるときに、上記の方法の実施例のステップを実行し、前記記憶媒体は、モバイル記憶機器、ROM、RAM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。
あるいは、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る)に、本開示の各実施例に記載の方法の全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ROM、RAM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。
上記の内容は、本発明の特定の実施形態に過ぎず、本発明の保護範囲はこれに限定されない。当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更又は置換は、すべて本開示の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims (17)

  1. 画像処理方法であって、
    検出待ちの画像を取得することと、
    前記画像において目標対象の顔を表す第1検出枠、及び目標対象の体を表す第2検出枠をそれぞれ決定することであって、前記第1検出枠の数はMであり、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数である、ことと、
    M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することであって、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しい、ことと、
    M、N及びKに基づいて前記画像内の目標対象の数を決定することと、を含む、前記画像処理方法。
  2. 前記M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定することは、
    前記M個の第1検出枠をトラバースして、各第1検出枠と各第2検出枠とのIoU(Intersection over Union)を決定することと、
    各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することと、を含む、
    請求項1に記載の画像処理方法。
  3. 前記各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定することは、
    各第1検出枠と各第2検出枠とのIoUのうちの最大IoUを決定することと、
    前記最大IoUがプリセットされた閾値より大きいかどうかを判断することと、
    前記最大IoUが前記プリセットされた閾値より大きいことに応答して、前記最大IoUに対応する第1検出枠と第2検出枠がマッチング関係を満たすと決定することと、を含む、
    請求項2に記載の画像処理方法。
  4. 前記M、N及びKに基づいて前記画像内の目標対象の数を決定することは、
    前記目標対象の数が、K+(M-K)+(N-K)であると決定することを含む、
    請求項1ないし3のいずれか一項に記載の画像処理方法。
  5. 前記画像処理方法は、
    前記画像内の各目標対象の体キーポイントを取得することと、
    前記体キーポイントに対応する位置分類カテゴリを決定することであって、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを表す、ことと、
    各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することと、を更に含む、
    請求項1ないし4のいずれか一項に記載の画像処理方法。
  6. 各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することは、
    1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することを含み、
    前記画像処理方法は、
    キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定することを更に含む、
    請求項5に記載の画像処理方法。
  7. 前記1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することは、
    1つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計することと、
    体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定することと、を含む、
    請求項6に記載の画像処理方法。
  8. 画像処理装置であって、
    取得ユニット、第1決定ユニット、第2決定ユニット及びマッチングユニットを備え、
    前記取得ユニットは、検出待ちの画像を取得するように構成され、
    前記第1決定ユニットは、前記画像において目標対象の顔を表す第1検出枠を決定するように構成され、前記第1検出枠の数はMであり、
    前記第2決定ユニットは、前記画像において目標対象の体を表す第2検出枠を決定するように構成され、前記第2検出枠の数はNであり、M及びNのいずれも非負の整数であり、
    前記マッチングユニットは、M個の第1検出枠及びN個の第2検出枠のうち、マッチング関係を満たすK個の第1検出枠と第2検出枠を決定し、M、N及びKに基づいて前記画像内の目標対象の数を決定するように構成され、Kは非負の整数であり、KはMより小さいか等しく、KはNより小さいか等しい、前記画像処理装置。
  9. 前記マッチングユニットは、前記M個の第1検出枠をトラバースして、各第1検出枠と各第2検出枠とのIoU(Intersection over Union)を決定し、各第1検出枠と各第2検出枠とのIoUに基づいて、マッチング関係を満たす第1検出枠と第2検出枠を決定するように構成される、
    請求項8に記載の画像処理装置。
  10. 前記マッチングユニットは、各第1検出枠と各第2検出枠とのIoUのうちの最大IoUを決定し、前記最大IoUがプリセットされた閾値より大きいかどうかを判断し、前記最大IoUが前記プリセットされた閾値より大きいことに応答して、前記最大IoUに対応する第1検出枠と第2検出枠がマッチング関係を満たすと決定するように構成される、
    請求項9に記載の画像処理装置。
  11. 前記マッチングユニットは、前記目標対象の数が、K+(M-K)+(N-K)であると決定するように構成される、
    請求項8ないし10のいずれか一項に記載の画像処理装置。
  12. 前記画像処理装置は更に、分類ユニット及び第3決定ユニットを備え、
    前記第2決定ユニットは更に、前記画像内の各目標対象の体キーポイントを取得するように構成され、
    前記分類ユニットは、前記体キーポイントに対応する位置分類カテゴリを決定するように構成され、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの1つの特定領域内に位置することを表し、
    前記第3決定ユニットは、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定するように構成される、
    請求項8ないし11のいずれか一項に記載の画像処理装置。
  13. 各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、
    前記第3決定ユニットは、1つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定し、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定するように構成される、
    請求項12に記載の画像処理装置。
  14. 前記第3決定ユニットは、1つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計し、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定するように構成される、
    請求項13に記載の画像処理装置。
  15. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    当該プログラムがプロセッサによって実行されるときに、請求項1ないし7のいずれか一項に記載の方法のステップを実現する、前記コンピュータ可読記憶媒体。
  16. 電子機器であって、
    メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが、前記プログラムを実行するときに、請求項1ないし7のいずれか一項に記載の方法のステップを実現する、前記電子機器。
  17. コンピュータ可読コードを含むコンピュータプログラム製品あって、
    前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1ないし7のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。
JP2021557462A 2020-02-18 2020-12-14 画像処理方法、装置、電子機器並びにコンピュータプログラム製品 Active JP7235892B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010098809.8A CN111275002A (zh) 2020-02-18 2020-02-18 一种图像处理方法、装置及电子设备
CN202010098809.8 2020-02-18
PCT/CN2020/136216 WO2021164395A1 (zh) 2020-02-18 2020-12-14 图像处理方法、装置、电子设备及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2022526347A true JP2022526347A (ja) 2022-05-24
JP7235892B2 JP7235892B2 (ja) 2023-03-08

Family

ID=71003930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557462A Active JP7235892B2 (ja) 2020-02-18 2020-12-14 画像処理方法、装置、電子機器並びにコンピュータプログラム製品

Country Status (4)

Country Link
JP (1) JP7235892B2 (ja)
KR (1) KR20210140758A (ja)
CN (1) CN111275002A (ja)
WO (1) WO2021164395A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022542668A (ja) * 2019-09-18 2022-10-06 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275002A (zh) * 2020-02-18 2020-06-12 上海商汤临港智能科技有限公司 一种图像处理方法、装置及电子设备
CN111814612A (zh) * 2020-06-24 2020-10-23 浙江大华技术股份有限公司 目标的脸部检测方法及其相关装置
JP2023511238A (ja) * 2020-12-29 2023-03-17 商▲湯▼国▲際▼私人有限公司 対象検出方法、装置、及び電子デバイス
KR102580281B1 (ko) * 2020-12-29 2023-09-18 센스타임 인터내셔널 피티이. 리미티드. 관련 대상 검출 방법 및 장치
CN114312580B (zh) * 2021-12-31 2024-03-22 上海商汤临港智能科技有限公司 确定车辆内乘员的座位及车辆控制方法及装置
KR102570386B1 (ko) * 2023-03-17 2023-08-28 (주)지앤티솔루션 다인승전용차로 내 차량의 탑승인원 검지를 위한 서비스 제공 시스템 및 방법
CN117132590B (zh) * 2023-10-24 2024-03-01 威海天拓合创电子工程有限公司 一种基于图像的多板卡缺陷检测方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114976A (ja) * 1995-10-18 1997-05-02 Mitsubishi Electric Corp 物体の検出方法及び物体の検出装置
CN1899890A (zh) * 2005-07-19 2007-01-24 高田株式会社 乘员信息检测***、乘员约束装置和车辆
JP2009107527A (ja) * 2007-10-31 2009-05-21 Denso Corp 車両の乗員検出装置
JP2011070629A (ja) * 2009-08-25 2011-04-07 Dainippon Printing Co Ltd 広告効果測定システム及び広告効果測定装置
JP2013162329A (ja) * 2012-02-06 2013-08-19 Sony Corp 画像処理装置、画像処理方法、プログラム、及び記録媒体
JP2014120139A (ja) * 2012-12-19 2014-06-30 Canon Inc 画像処理装置およびその制御方法、撮像装置、および表示装置
JP2016179149A (ja) * 2015-03-25 2016-10-13 株式会社Jvcケンウッド 着席判定装置、着席判定方法、及びプログラム
JP2017021557A (ja) * 2015-07-10 2017-01-26 ソニー株式会社 画像処理装置、画像処理方法、並びにプログラム
JP2017212647A (ja) * 2016-05-26 2017-11-30 パナソニックIpマネジメント株式会社 座席モニタリング装置、座席モニタリングシステムおよび座席モニタリング方法
CN109190454A (zh) * 2018-07-17 2019-01-11 北京新唐思创教育科技有限公司 用于识别视频中的目标人物的方法、装置、设备及介质
JP2019101664A (ja) * 2017-11-30 2019-06-24 富士通株式会社 推定プログラム、推定システム、及び推定方法
CN110427908A (zh) * 2019-08-08 2019-11-08 北京百度网讯科技有限公司 一种人物检测的方法、装置及计算机可读存储介质
JP2020017107A (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2674914B1 (en) * 2012-06-11 2018-08-08 Volvo Car Corporation Method for determining a body parameter of a person
CN103679212A (zh) * 2013-12-06 2014-03-26 无锡清华信息科学与技术国家实验室物联网技术中心 基于视频图像的人员检测和计数方法
CN107609517B (zh) * 2017-09-15 2020-10-30 华中科技大学 一种基于计算机视觉的课堂行为检测***
EP3493116B1 (en) * 2017-12-04 2023-05-10 Aptiv Technologies Limited System and method for generating a confidence value for at least one state in the interior of a vehicle
CN110059547B (zh) * 2019-03-08 2021-06-25 北京旷视科技有限公司 目标检测方法及装置
CN110287892A (zh) * 2019-06-26 2019-09-27 海尔优家智能科技(北京)有限公司 空位识别方法及装置
CN110532985B (zh) * 2019-09-02 2022-07-22 北京迈格威科技有限公司 目标检测方法、装置及***
CN111275002A (zh) * 2020-02-18 2020-06-12 上海商汤临港智能科技有限公司 一种图像处理方法、装置及电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114976A (ja) * 1995-10-18 1997-05-02 Mitsubishi Electric Corp 物体の検出方法及び物体の検出装置
CN1899890A (zh) * 2005-07-19 2007-01-24 高田株式会社 乘员信息检测***、乘员约束装置和车辆
JP2009107527A (ja) * 2007-10-31 2009-05-21 Denso Corp 車両の乗員検出装置
JP2011070629A (ja) * 2009-08-25 2011-04-07 Dainippon Printing Co Ltd 広告効果測定システム及び広告効果測定装置
JP2013162329A (ja) * 2012-02-06 2013-08-19 Sony Corp 画像処理装置、画像処理方法、プログラム、及び記録媒体
JP2014120139A (ja) * 2012-12-19 2014-06-30 Canon Inc 画像処理装置およびその制御方法、撮像装置、および表示装置
JP2016179149A (ja) * 2015-03-25 2016-10-13 株式会社Jvcケンウッド 着席判定装置、着席判定方法、及びプログラム
JP2017021557A (ja) * 2015-07-10 2017-01-26 ソニー株式会社 画像処理装置、画像処理方法、並びにプログラム
JP2017212647A (ja) * 2016-05-26 2017-11-30 パナソニックIpマネジメント株式会社 座席モニタリング装置、座席モニタリングシステムおよび座席モニタリング方法
JP2019101664A (ja) * 2017-11-30 2019-06-24 富士通株式会社 推定プログラム、推定システム、及び推定方法
CN109190454A (zh) * 2018-07-17 2019-01-11 北京新唐思创教育科技有限公司 用于识别视频中的目标人物的方法、装置、设备及介质
JP2020017107A (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN110427908A (zh) * 2019-08-08 2019-11-08 北京百度网讯科技有限公司 一种人物检测的方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022542668A (ja) * 2019-09-18 2022-10-06 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
JP7262659B2 (ja) 2019-09-18 2023-04-21 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体

Also Published As

Publication number Publication date
KR20210140758A (ko) 2021-11-23
CN111275002A (zh) 2020-06-12
JP7235892B2 (ja) 2023-03-08
WO2021164395A1 (zh) 2021-08-26

Similar Documents

Publication Publication Date Title
JP2022526347A (ja) 画像処理方法、装置、電子機器並びにコンピュータプログラム製品
CN110660066B (zh) 网络的训练方法、图像处理方法、网络、终端设备及介质
US20190347767A1 (en) Image processing method and device
CN110276408B (zh) 3d图像的分类方法、装置、设备及存储介质
WO2020233069A1 (zh) 点云数据处理方法、装置、电子设备及存储介质
JP2022520498A (ja) 画像処理方法、装置、記憶媒体及び電子機器
US20230394834A1 (en) Method, system and computer readable media for object detection coverage estimation
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
CN111488930A (zh) 分类网络的训练方法、目标检测方法、装置和电子设备
US20160110909A1 (en) Method and apparatus for creating texture map and method of creating database
CN112965681A (zh) 图像处理方法、装置、设备、及存储介质
CN109583341B (zh) 对包含人像的图像的多人骨骼关键点检测方法及装置
US9414039B2 (en) Information processing method and information processing device
JPWO2020008576A1 (ja) 判定方法、判定プログラムおよび情報処理装置
CN114677319A (zh) 干细胞分布确定方法、装置、电子设备及存储介质
JP5795916B2 (ja) 画像処理装置、画像処理方法
WO2021051580A1 (zh) 基于分组批量的图片检测方法、装置及存储介质
WO2020244076A1 (zh) 人脸识别方法、装置、电子设备及存储介质
CN113610864B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN115731442A (zh) 图像处理方法、装置、计算机设备和存储介质
CN110852932B (zh) 图像处理方法及装置、图像设备及存储介质
Suk et al. Fixed homography–based real‐time sw/hw image stitching engine for motor vehicles
JP7107544B2 (ja) 情報処理装置、制御方法、及びプログラム
JP2021015527A (ja) 化粧評価装置、化粧評価システム、および化粧評価方法
CN110647946B (zh) 一种画中画的检测方法、装置和计算机存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210927

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230224

R150 Certificate of patent or registration of utility model

Ref document number: 7235892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150