JP2022526347A

JP2022526347A - 画像処理方法、装置、電子機器並びにコンピュータプログラム製品

Info

Publication number: JP2022526347A
Application number: JP2021557462A
Authority: JP
Inventors: フェイワン; チェンチエン
Original assignee: シャンハイセンスタイムリンガンインテリジェントテクノロジーカンパニーリミテッド
Priority date: 2020-02-18
Filing date: 2020-12-14
Publication date: 2022-05-24
Anticipated expiration: 2040-12-14
Also published as: KR20210140758A; CN111275002A; JP7235892B2; WO2021164395A1

Abstract

本発明の実施例は、画像処理方法、装置並びに電子機器を提供する。前記画像処理方法は、検出待ちの画像を取得することと、前記画像において目標対象の顔を表す第１検出枠、及び目標対象の体を表す第２検出枠をそれぞれ決定することであって、前記第１検出枠の数はＭであり、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数であることと、Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することであって、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しいことと、Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定することと、を含む。【選択図】図１

Description

［関連出願への相互参照］
本願は、２０２０年０２月１８日に中国特許局に提出された、出願番号が２０２０１００９８８０９．８である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
［技術分野］
本発明は、画像分析技術に関し、具体的には、画像処理方法、装置並びに電子機器に関する。

現在、車内の人数の統計は、顔を検出する方式で実現できる。しかし、車内には座席によってブロックされるか、又は顔の回転角度が大きすぎると、検出漏れが発生し、車内の人数の統計精度が低下する。

本発明の実施例は、画像処理方法、装置、電子機器並びにコンピュータプログラム製品を提供する。

本発明の実施例は、画像処理方法を提供し、前記方法は、
検出待ちの画像を取得することと、
前記画像において目標対象の顔を表す第１検出枠、及び目標対象の体を表す第２検出枠をそれぞれ決定することであって、前記第１検出枠の数はＭであり、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数であることと、
Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することであって、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しいことと、
Ｍ、Ｎ及びＫに基づいて前記目標対象の数を決定することと、を含む。

本発明のいくつかの例示的な実施例において、前記Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することは、
前記Ｍ個の第１検出枠をトラバースして、各第１検出枠と各第２検出枠とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を決定することと、
各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することと、を含む。

本発明のいくつかの実施例において、前記各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することは、
各第１検出枠と各第２検出枠とのＩｏＵのうちの最大ＩｏＵを決定することと、
前記最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断することと、
前記最大ＩｏＵが前記プリセットされた閾値より大きいことに応答して、前記最大ＩｏＵに対応する第１検出枠と第２検出枠がマッチング関係を満たすと決定することと、を含む。

本発明のいくつかの実施例において、前記Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定することは、前記目標対象の数が、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）であると決定することを含む。

本発明のいくつかの実施例において、前記画像処理方法は、
前記画像内の各目標対象の体キーポイントを取得することと、
前記体キーポイントに対応する位置分類カテゴリを決定することであって、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを表す、ことと、
各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することと、を更に含む。

本発明のいくつかの実施例において、
各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することは、１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することを含み、
前記画像処理方法は、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定することを更に含む。

本発明のいくつかの実施例において、前記１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することは、
１つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計することと、
体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定することと、を含む。

本発明の実施例は、画像処理装置を更に提供し、前記画像処理装置は、取得ユニット、第１決定ユニット、第２決定ユニット及びマッチングユニットを備え、
前記取得ユニットは、検出待ちの画像を取得するように構成され、
前記第１決定ユニットは、前記画像において目標対象の顔を表す第１検出枠を決定するように構成され、前記第１検出枠の数はＭであり、
前記第２決定ユニットは、前記画像において目標対象の体を表す第２検出枠を決定するように構成され、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数であり、
前記マッチングユニットは、Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定し、Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定するように構成され、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しい。

本発明のいくつかの実施例において、前記マッチングユニットは、前記Ｍ個の第１検出枠をトラバースして、各第１検出枠と各第２検出枠とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を決定し、各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定するように構成される。

本発明のいくつかの実施例において、前記マッチングユニットは、各第１検出枠と各第２検出枠とのＩｏＵのうちの最大ＩｏＵを決定し、前記最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断し、前記最大ＩｏＵが前記プリセットされた閾値より大きいことに応答して、前記最大ＩｏＵに対応する第１検出枠と第２検出枠がマッチング関係を満たすと決定するように構成される。

本発明のいくつかの実施例において、前記マッチングユニットは、前記目標対象の数が、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）であると決定するように構成される。

本発明のいくつかの実施例において、前記画像処理装置は更に、分類ユニット及び第３決定ユニットを備え、
前記第２決定ユニットは更に、前記画像内の各目標対象の体キーポイントを取得するように構成され、
前記分類ユニットは、前記体キーポイントに対応する位置分類カテゴリを決定するように構成され、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを表し、
前記第３決定ユニットは、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定するように構成される。

本発明のいくつかの実施例において、各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記第３決定ユニットは、１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定し、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定するように構成される。

本発明のいくつかの実施例において、前記第３決定ユニットは、１つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計し、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定するように構成される。

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を更に提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の画像処理方法のステップを実現する。

本発明の実施例は、電子機器を更に提供し、前記電子機器は、メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実現する。

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラム製品を更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の画像処理方法を実行させる。

本発明の実施例は、画像処理方法、装置、電子機器並びにコンピュータプログラム製品を提供し、前記画像処理方法は、検出待ちの画像を取得することと、前記画像において目標対象の顔を表す第１検出枠、及び目標対象の体を表す第２検出枠をそれぞれ決定することであって、前記第１検出枠の数はＭであり、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数であることと、Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することであって、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しいことと、Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定することと、を含む。本発明の実施例の技術的解決策によれば、顔検出によって画像内の顔の数を検出し、体検出によって画像内の体の数を検出し、顔と体をマッチングする方式で画像内の人数を決定することにより、画像内の目標対象がブロックされるか、目標対象の顔の回転角度が大きすぎると、検出漏れが発生するという問題を解決し、画像内の人数統計の精度を向上させる。

本発明の実施例に係る画像処理方法の第１の例示的なフローチャートである。本発明の実施例に係る画像処理方法の第２の例示的なフローチャートである。本発明の実施例に係る画像処理方法のネットワーク構造の概略図である。本発明の実施例に係る画像処理装置の構成の第１概略構造図である。本発明の実施例に係る画像処理装置の構成の第２概略構造図である。本発明の実施例に係る電子機器の構成の概略構造図である。

以下、図面および具体的な実施例を参照して、本発明についてさらに詳細に説明する。

本発明の実施例は、画像処理方法を提供する。図１は、本発明の実施例に係る画像処理方法の第１の例示的なフローチャートであり、図１に示されたように、前記画像処理方法は、次のステップを含む。

ステップ１０１において、検出待ちの画像を取得する。

ステップ１０２において、前記画像において目標対象の顔を表す第１検出枠、及び目標対象の体を表す第２検出枠をそれぞれ決定し、ここで、前記第１検出枠の数はＭであり、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数である。

ステップ１０３において、Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定し、Ｋは、非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しい。

ステップ１０４において、Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定する。

本実施例では、画像処理方法は画像処理装置に適用され、画像処理装置は、携帯電話、タブレットコンピュータ、ノットブックなどの移動端末に配置されてもよく、デスクトップコンピュータ、オールインワンコンピュータ、サーバなどの電子機器に配置されてもよい。

本実施例では、検出待ちの画像（以下、画像と略称）には目標対象が含まれ、ここで、目標対象は、実際の人物であってもよく、他の実施形態において、目標対象は、アニメのキャラクタなどの仮想人物であってもよい。もちろん、目標対象は、他のタイプの対象であってもよく、本実施例ではこれらに対して限定しない。

いくつかの例示的な実施例において、前記目標対象は、車内の内部環境にある目標対象である。例示的に、車両が５人乗りの車両で、車両内に３人が乗車している場合、車両の前部で車両の内部の写真を撮り、取得された画像には、車両内の環境の一部及び座席に座っている３人が含まれることができ、この場合、上記の収集された画像を、本実施例における画像として使用でき、上記の画像内の３人を、本実施例における目標対象として扱うことができる。

本発明のいくつかの例示的な実施例において、前記画像において目標対象の顔を表す第１検出枠及び目標対象を表す第２検出枠をそれぞれ決定することは、第１ネットワークを介して、前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の顔を表す第１検出枠を決定することと、第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて前記画像において目標対象を表す第２検出枠を決定することと、を含む。

本実施例では、第１ネットワークを介して画像内の顔を検出することにより、画像内のＭ個の第１検出枠を決定することができる。ここで、前記第１ネットワークは、顔を検出できる任意のネットワーク構造を採用でき、本実施例ではこれらに対して限定しない。

本実施例では、第２ネットワークを介して画像内の目標対象を検出することができ、例えば、画像内の体を検出して、画像内のＮ個の第２検出枠を決定する。ここで、前記第２ネットワークは、目標対象を検出できる任意のネットワーク構造（例えば、人体検出ネットワーク）を採用でき、本実施例ではこれらに対して限定しない。

いくつかの例示的な実施例において、画像内の目標対象の体を表す第２検出枠を決定することは、第２ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて目標対象のキーポイントを決定する（すなわち、キーポイントの位置情報を決定する）ことと、決定された目標対象のキーポイントに基づいて、目標対象を表す第２検出枠を決定することと、を含む。ここで、前記キーポイント的位置情報は、キーポイントの座標で表すことができる。ここで、同一目標対象に属するすべてのキーポイントを決定することができ、同一目標対象に属するすべてのキーポイントの位置情報に基づいて、当該目標対象の第２検出枠を決定することにより、第２検出枠の領域が当該目標対象のすべてのキーポイントを含むようにし、当該第２検出枠の領域が当該目標対象のすべてのキーポイントを含む最小の領域である。一例として、前記第２検出枠は長方形の枠であってもよい。

ここで、前記目標対象のキーポイントは、骨骼キーポイント及び／又は輪郭キーポイントを含み得、前記輪郭キーポイントは、目標対象の輪郭エッジを表し、輪郭キーポイントの位置情報に基づいて、目標対象の輪郭エッジを形成できることが理解できる。前記骨骼キーポイントは、目標対象の骨骼的キーポイントを表し、骨骼キーポイントの位置情報に基づいて、目標対象の主な骨骼を形成できることが理解できる。ここで、前記輪郭キーポイントは、腕の輪郭キーポイント、手の輪郭キーポイント、肩の輪郭キーポイント、脚の輪郭キーポイント、足の輪郭キーポイント、腰の輪郭キーポイント、頭の輪郭キーポイント、臀の輪郭キーポイント、胸の輪郭キーポイントのうちの少なくとも１つを含み得る。前記骨骼キーポイントは、腕の骨骼キーポイント、手の骨骼キーポイント、肩の骨骼キーポイント、脚の骨骼キーポイント、足の骨骼キーポイント、腰の骨骼キーポイント、頭の骨骼キーポイント、臀の骨骼キーポイント、胸の骨骼キーポイントのうちの少なくとも１つを含み得る。

いくつかの例示的な実施例において、画像内の目標対象の体を表す第２検出枠を決定することは、第２ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、目標対象の中心点及び目標対象に対応する第２検出枠の長さと幅を決定し、前記中心点、前記長さ及び幅に従って前記目標対象の体の第２検出枠を決定することを含む。

本発明のいくつかの例示的な実施例において、前記Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することは、前記Ｍ個の第１検出枠をトラバースして、各第１検出枠と各第２検出枠とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を決定することと、各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することと、を含む。

本実施例では、各第１検出枠について、第１検出枠と各第２検出枠とのＩｏＵをそれぞれ決定する。ここで、前記ＩｏＵは、第１検出枠が位置する領域と第２検出枠が位置する領域との積集合および和集合の比率を表す。理解できることとして、前記ＩｏＵは、対応する第１検出枠と第２検出枠との間の関連度を表し、つまり、対応する顔と目標対象との間の関連度を表す。例示的に、ＩｏＵが大きいほど、対応する第１検出枠と第２検出枠との間の関連度が高くなり、つまり、対応する顔と目標対象との間の関連度が高くなる。これに対応して、ＩｏＵが小さいほど、対応する第１検出枠と第２検出枠との間の関連度が低くなり、つまり、対応する顔と目標対象との間の関連度が低くなる。本実施例では、各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することができ、前記マッチング関係を満たす第１検出枠と第２検出枠は、同一目標対象に属する第１検出枠と第２検出枠である。

本発明のいくつかの例示的な実施例において、前記各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することは、各第１検出枠と各第２検出枠とのＩｏＵのうちの最大ＩｏＵを決定することと、前記最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断することと、前記最大ＩｏＵが前記プリセットされた閾値より大きいことに応答して、前記最大ＩｏＵに対応する第１検出枠と第２検出枠がマッチング関係を満たすと決定することと、を含む。

本実施例では、各第１検出枠と各第２検出枠とのＩｏＵについて、そのうちの最大ＩｏＵに対応する第２検出枠を決定し、最大ＩｏＵが前記プリセットされた閾値より大きい場合、第１検出枠と最大ＩｏＵに対応する第２検出枠がマッチング関係を満たすと決定することができ、つまり、最大ＩｏＵに対応する第１検出枠と第２検出枠が同一目標対象に属すると決定することができる。

本実施例のステップ１０４では、前記目標対象の数は、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）を満たすことができる。

本実施例では、マッチング関係を満たす第１検出枠及び第２検出枠の数はＫである場合、マッチング関係を満たさない第１検出枠の数はＭ－Ｋであり、マッチング関係を満たさない第２検出枠の数はＮ－Ｋであり、理解できることとして、上記のＭ－Ｋ個の第１検出枠及び上記のＮ－Ｋ個の第２検出枠は、目標対象がブロックされるか、または回転角度が大きすぎるという原因によって生成されたものである可能性がある。本実施例では、上記の原因による第１検出枠及び第２検出枠は、依然として統計の総数に含まれる。

本発明の実施例の技術的解決策によれば、顔検出によって画像内の顔の数を検出し、体検出によって画像内の体の数を検出し、顔と体をマッチングする方式で画像内の人数を決定することにより、画像内の目標対象がブロックされるか、目標対象の顔の回転角度が大きすぎると、検出漏れが発生するという問題を解決し、画像内の人数統計の精度を向上させる。

上記の実施例に基づき、本発明の実施例は、画像処理方法を更に提供する。図２は、本発明の実施例に係る画像処理方法の第２の例示的なフローチャートであり、図２に示されたように、前記画像処理方法は、次のステップを含む。

ステップ２０１において、検出待ちの画像を取得する。

ステップ２０２において、前記画像内の各目標対象の体キーポイントを取得する。

ステップ２０３において、前記体キーポイントに対応する位置分類カテゴリを決定し、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを表す。

ステップ２０４において、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定する。

本発明のいくつかの例示的な実施例において、前記画像内の各目標対象の体キーポイントを取得することは、第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の体を表す第２検出枠及び各目標対象の体キーポイントを決定することを含む。

本実施例では、前述した実施例における第２ネットワークを介して、前記画像内の各目標対象の体キーポイントを取得することができる。第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、各目標対象の体キーポイントを取得することができる一方、抽出された特徴に基づいて、目標対象の体を表す第２検出枠を決定することもできることが理解できる。理解できることとして、画像を第２ネットワークに入力して、各目標対象の体キーポイントを出力する同時に、各目標対象の体の第２検出枠も抽出できる。あるいは、画像を第２ネットワークに入力して、各目標対象の体キーポイントの位置情報を抽出する同時に、各目標対象の体の第２検出枠の位置情報も抽出できる。

いくつかの例示的な実施例において、第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、各目標対象の体キーポイントを取得できる一方、抽出された特徴に基づいて、目標対象の中心点及び目標対象に対応する第２検出枠の長さと幅を決定でき、前記中心点、前記長さ及び幅に従って各目標対象の体の第２検出枠を決定し、更に、各目標対象の第２検出枠が位置する領域、及び各体キーポイントに従って、各目標対象の第２検出枠が位置する領域内の体キーポイントを決定し、各第２検出枠が位置する領域内の体キーポイントを、各第２検出枠に対応する目標対象の体キーポイントとして決定する。

本発明のいくつかの例示的な実施例において、前記体キーポイントに対応する位置分類カテゴリを決定することは、第３ネットワークを介して、前記体キーポイントに対応する位置分類カテゴリを決定することを含み、前記第３ネットワークは、体キーポイントの位置情報及び特定領域の注釈情報を含むサンプル画像に基づいてトレーニングすることによって得られたものである。

本実施例では、第３ネットワークを介して、各体キーポイントに対応する位置分類カテゴリを決定することができる。理解できることとして、前記第３ネットワークは、任意の分類ネットワークであってもよく、決定された位置分類カテゴリは、前記キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを示す。

本実施例では、画像は、１つ又は複数の特定領域を含み得、前記特定領域は、前記第３ネットワークの分類タスクに関連する。

例示的に、目標対象が車両の内部環境にある目標対象である場合、第３ネットワークの分類タスクは、各目標対象の体キーポイントが車両内の座席領域にあるかどうかを判定するために使用され、この場合、前記特定領域は、車両内の座席であってもよい。例示的に、車両が５人乗りの車両である場合、第３ネットワークを介して、各体キーポイントがどの座席の領域内に位置するかを決定でき、それにより、各座席の状態を決定することができる。

本発明のいくつかの例示的な実施例において、各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することは、１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することを含み、前記画像処理方法は、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定することを更に含む。

ここで、前記座席の状態は、アイドル状態又は非アイドル状態を含み得、前記アイドル状態は、対応する座席に目標対象がないこと、すなわち、座席が占有されていないことを表し、これに対応して、前記非アイドル状態は、対応する座席に目標対象があること、すなわち、座席が占有されていることを表す。

本実施例では、各目標対象の体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象の体キーポイントに対応する特定領域を決定し（すなわち、各目標対象の体キーポイントに対応する座席を決定し）、１つの目標対象の体キーポイントが１つの座席に対応する場合、当該座席の状態が非アイドル状態であること、すなわち、座席が占有されていることを表し、１つの座席がどの目標対象の体キーポイントにも対応しない場合、当該座席の状態がアイドル状態であること、すなわち、座席が占有されていないことを表す。

本発明のいくつかの例示的な実施例において、前記１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することは、１つの目標対象の複数のキーポイントのうち、同じ座席に対応するキーポイントの数を統計することと、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定することと、を含む。

実際の適用では、目標対象の体キーポイントの数は複数であってもよく、目標対象が必ずしも１つの特定領域（即ち、座席）内にあるとは限れないため、いくつかの例示的な実施例において、同一目標対象に属するすべての体キーポイントの位置分類カテゴリを決定し、同じ位置分類カテゴリに属する体キーポイントの数を統計し（すなわち、同じ座席に対応する体キーポイントの数を統計する）、体キーポイントの最大数を決定し、体キーポイントの最大数に対応する位置分類カテゴリに対応する特定領域を、前記目標対象に対応する領域として使用する（すなわち、体キーポイントの最大数に対応する座席を前記目標対象が位置する座席として使用する）。これに対応して、体キーポイントの最大数に対応する座席の状態を、非アイドル状態、すなわち、座席が占有されている状態として決定する。

従来の技術、すなわち、座席にセンサを設置することによって座席が占有されているかどうかを決定する実施形態と比較すると、本実施例の技術的解決策では、座席にセンサを設置する必要がないため、検出コストが低減し、更に、圧力センサを設置することで座席が占有されているかどうかを判断する場合、座席に物体が置かれていると、座席が占有されていると見なされるが、本実施例の技術的解決策は、上記の誤判定の発生を回避することができ、これにより、検出の精度を大幅に向上させることができる。

以下では、具体的な例を参照して、本発明の実施例の画像処理方法について説明する。

図３は、本発明の実施例に係る画像処理方法のネットワーク構造の概略図であり、図３に示されたように、画像を第１ネットワーク及び第２ネットワークにそれぞれ入力し、ここで、第１ネットワークは、顔検出ネットワークであってもよく、第２ネットワークは、体検出ネットワークであってもよい。

本実施例では、画像は、車両の内部環境の画像であってもよく、例として、車両が５人乗りの車両である場合、画像内の特定領域は、５つの特定領域を含み得、つまり、画像は、５つの座席が位置する領域、例えば、運転席領域、助手席領域、後部座席の左領域、後部座席の中間領域及び後部座席の右領域を含み得、上記の順序に従って、各特定領域のラベルを、それぞれ、０、１、２、３、４として定義することができる。画像内の運転席領域、助手席領域及び後部座席の左領域に人がいると仮定する。

第１態様では、第１ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、画像内の顔検出枠（即ち、上記の実施例における第１検出枠）を取得し、第２ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、画像内の体検出枠（即ち、上記の実施例における第２検出枠）を取得する。抽出された顔検出枠の数がＭであり、人体検出枠の数がＮであると仮定し、目標対象がブロックされるか又は回転角度が大きすぎる可能性があるため、Ｍの値は３より小さいか等しく、Ｎの値は３より小さいか等しく、つまり、３つの顔検出枠及び／又は３つの体検出枠が検出されない場合が発生する可能性がある。各顔検出枠と各体検出枠とのＩｏＵをそれぞれ計算し、各顔検出枠について、最大ＩｏＵを有する人体検出枠を決定し、最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断し、最大ＩｏＵがプリセットされた閾値より大きいと判断した場合、当該顔検出枠が最大ＩｏＵの人体検出枠とマッチングすると判断することができ、つまり、当該顔検出枠と最大ＩｏＵの体検出枠が同一人に属すると判断することができ、更に、顔検出枠とマッチングする体検出枠の数Ｋを決定する。上記のＭ、Ｎ及びＫに基づいて車内の人数を決定し、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）の結果を車内の人数とする。

第２態様では、第２ネットワークを介して画像に対して特徴抽出を実行し、抽出された特徴に基づいて、画像内の体検出枠を取得する一方、画像内の体キーポイント情報も取得でき、当該体キーポイント情報は、各体キーポイントの座標を含み得る。

例示的に、第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、各目標対象の体キーポイントを取得できる一方、抽出された特徴に基づいて、目標対象の中心点及び目標対象に対応する体検出枠の長さと幅を決定でき、前記中心点、前記長さ及び幅に従って各目標対象の体検出枠を決定することができる。更に、各目標対象の体検出枠が位置する領域、及び各体キーポイントに従って、各目標対象の体検出枠が位置する領域内の体キーポイントを決定し、各体検出枠が位置する領域内の体キーポイントを、各体検出枠に対応する目標対象の体キーポイントとして決定できる。

例示的に、画像が３×Ｉ×Ｉとして表されると仮定し、ここで、３はチャネル数を表し、この例において、画像は、ＲＧＢカラー画像であり得、この場合、３つのチャネルのうち、１つのチャネルデータは赤（Ｒｅｄ）を表すチャネルデータであり、１つのチャネルデータは緑（Ｇｒｅｅｎ）を表すチャネルデータであり、１つのチャネルデータは青（Ｂｌｕｅ）を表すチャネルデータであり、Ｉ×Ｉは、画像のサイズを表す。この場合、第２ネットワークを介して、画像に対して特徴抽出を実行して、Ｃ×Ｆ×Ｆの特徴マップを取得し、ここで、Ｃはチャネル数を表し、Ｆ×Ｆは、特徴マップのサイズを表す。次に、特定のサイズの畳み込み層（例えば、１×１の畳み込み層など）を介して特徴マップに対して畳み込み処理を実行して、Ｈ×Ｆ×Ｆの特徴マップを取得し、ここで、Ｈはチャネル数を表し、各チャネルは、１つのキーポイントを決定でき、この場合、Ｈ個のキーポイントを取得することができる。ここで、Ｈ×Ｆ×Ｆの特徴マップのガウスピークを識別することにより、ガウスピークの頂点座標をキーポイントの座標として使用し、このようにして、Ｈ個のキーポイントを決定する。

さらに、取得された体キーポイントを第３ネットワークに入力することにより、各体キーポイントの位置分類カテゴリを決定する。例示的に、上記の５つの特定領域を例にとると、本実施例では、第３ネットワークを介して、各キーポイントに対応する特定領域のラベルを決定する。

本発明の実施例は、画像処理装置を更に提供する。図４は、本発明の実施例に係る画像処理装置の構成の第１の概略構造図であり、図４に示されたように、前記画像処理装置は、取得ユニット３１、第１決定ユニット３２、第２決定ユニット３３及びマッチングユニット３４を備える。

前記取得ユニット３１は、検出待ちの画像を取得するように構成される。

前記第１決定ユニット３２は、前記画像において目標対象の顔を表す第１検出枠を決定するように構成され、前記第１検出枠の数はＭである。

前記第２決定ユニットは、前記画像において目標対象の体を表す第２検出枠を決定するように構成され、ここで、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数である。

前記マッチングユニット３４は、Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定し、Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定するように構成され、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しい。

本発明のいくつかの例示的な実施例において、前記マッチングユニット３４は、前記Ｍ個の第１検出枠をトラバースして、各第１検出枠と各第２検出枠とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を決定し、各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記マッチングユニット３４は、各第１検出枠と各第２検出枠とのＩｏＵのうちの最大ＩｏＵを決定し、前記最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断し、前記最大ＩｏＵが前記プリセットされた閾値より大きいことに応答して、前記最大ＩｏＵに対応する第１検出枠と第２検出枠がマッチング関係を満たすと決定するように構成される。

本発明のいくつかの例示的な実施例において、前記マッチングユニットは、前記目標対象の数が、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）であると決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第１決定ユニット３２は、第１ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の顔を表す第１検出枠を決定するように構成される。

前記第２決定ユニット３３は、第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の体を表す第２検出枠を決定するように構成される。

本発明のいくつかの例示的な実施例において、図５に示されたように、前記画像処理装置は更に、分類ユニット３５及び第３決定ユニット３６を備え、ここで、
前記第２決定ユニット３３は更に、前記画像内の各目標対象の体キーポイントを取得するように構成され、
前記分類ユニット３５は、前記体キーポイントに対応する位置分類カテゴリを決定するように構成され、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを表し、
前記第３決定ユニット３６は、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第２決定ユニット３３は、第２ネットワークを介して前記画像に対して特徴抽出を実行し、抽出された特徴に基づいて、前記画像において目標対象の体を表す第２検出枠及び各目標対象の体キーポイントを決定するように構成される。

本発明のいくつかの例示的な実施例において、前記分類ユニット３５は、第３ネットワークを介して、前記キーポイントに対応する位置分類カテゴリを決定するように構成され、前記第３ネットワークは、体キーポイントの位置情報及び特定領域の注釈情報を含むサンプル画像に基づいてトレーニングすることによって得られたものである。

本発明のいくつかの例示的な実施例において、各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記第３決定ユニット３６は、１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定し、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第３決定ユニット３６は、１つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計し、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定するように構成される。

本発明の実施例において、前記画像処理装置における取得ユニット３１、第１決定ユニット３２、第２決定ユニット３３、マッチングユニット３４、分類ユニット３５、及び第３決定ユニット３６は、実際の応用ではすべて前記装置の中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、マイクロコントローラユニット（ＭＣＵ：ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ）又はフィールド（ＦＰＧＡ、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）で実現できる。

上記の実施例に係る画像処理装置が画像処理を実行することについて、上述の各プログラムモジュールの分割のみを例に挙げて説明しているが、実際の応用では、必要に応じて、上記の処理が異なるプログラムモジュールによって完了するように割り当てることができ、即ち、上記の処理の全てまたは一部を完了するために、装置の内部構造を異なるプログラムモジュールに分割することができることに留意されたい。更に、上述の実施例で提供される画像処理装置の実施例は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては、方法の実施例を参照でき、ここでは繰り返して説明しない。

本発明の実施例は、電子機器を更に提供する。図６は、本発明の実施例に係る電子機器の構成の概略構造図であり、図６に示されたように、前記電子機器４０は、メモリ４２と、プロセッサ４１と、メモリ４２に記憶された、プロセッサ４１によって実行可能なコンピュータプログラムとを備え、前記プロセッサ４１が前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実現する。

例示的に、電子機器４０の各コンポーネントは、バスシステム４３を介して結合できる。理解できることとして、バスシステム４３は、これらのコンポーネント間の接続通信を実現するために使用される。データバスに加えて、バスシステム４３は更に、電力バス、制御バスおよび状態信号バスを備える。しかしながら、説明を明確にするために、図６では様々なバスをすべてバスシステム４３として表記する。

メモリ４２は、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性および不揮発性メモリの両方を含んでもよいことを理解されたい。ここで、不揮発性メモリは、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、強磁性ランダムアクセスメモリ（ＦＲＡＭ：ｆｅｒｒｏｍａｇｎｅｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、磁気メモリ、コンパクトディスク、または読み取り専用コンパクトディスク（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）であり得、磁気メモリは、磁気ディスクメモリまたは磁気テープメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。例示的であるが限定的な説明ではないが、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲＡＭ）、同期スタティックランダムアクセスメモリ（ＳＳＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダブルデータレートの同期ダイナミックランダムアクセスメモリ（ＤＤＲＳＤＲＡＭ：ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、強化された同期ダイナミックランダムアクセスメモリ（ＥＳＤＲＡＭ：ＥｎｈａｎｃｅｄＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリの同期接続（ＳＬＤＲＡＭ：ＳｙｎｃＬｉｎｋＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびダイレクトメモリバスランダムアクセスメモリ（ＤＲＲＡＭ：ＤｉｒｅｃｔＲａｍｂｕｓＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）など様々な形のＲＡＭを使用することができる。本発明の実施例に記載のメモリ４２は、これらおよび任意の他の適切なタイプのメモリを含むが、これらに限定されないことを意図する。

上記の本発明の実施例で開示される方法は、プロセッサ４１に適用されるか、またはプロセッサ４１によって実現されることができる。プロセッサ４１は、信号処理機能を備えた集積回路チップであり得る。実現プロセスにおいて、前述した方法の各ステップは、プロセッサ４１におけるハードウェアの集積論理回路またはソフトウェアの形の命令によって完了することができる。上記のプロセッサ４１は、汎用プロセッサ、ＤＳＰ、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。プロセッサ４１は、本開示の実施例で開示された各方法、ステップおよび論理ブロック図を実現または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。本発明の実施例を組み合たせて開示された方法のステップは、直接に、ハードウェア復号化プロセッサによって実行されて完了すると具現されることができ、または復号化プロセッサにおけるハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完了する。ソフトウェアモジュールは記憶媒体に配置されることができ、当該記憶媒体は、メモリ４２に配置され、プロセッサ４１は、メモリ４２内の情報を読み取り、そのハードウェアと組み合わせて前記方法のステップを完成する。

例示的な実施例において、電子機器は、前記方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルロジックデバイス（ＰＬＤ）、複合プログラマブルロジックデバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ、汎用プロセッサ、コントローラ、ＭＣＵ、マイクロプロセッサ（Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）または他の電子素子によって実現されることができる。

例示的な実施例において、本発明の実施例は、コンピュータプログラム命令を含むメモリ４２などのコンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラムは、電子機器４０のプロセッサ４１によって実行されることにより、上記の方法を完了することができる。コンピュータ記憶媒体は、ＦＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦｌａｓｈＭｅｍｏｒｙ、磁気表面メモリ、光ディスク、またはＣＤ－ＲＯＭなどのメモリであってもよいし、携帯電話、コンピュータ、タブレットコンピュータ、形態情報端末などの上記のメモリのうちの１つ又は任意に組み合わせた様々な機器であってもよい。

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例における画像処理方法のステップを実現する。

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラム製品を更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例における画像処理方法を実行させる。

本願で提供されるいくつかの方法の実施例に開示される方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。

本願で提供されるいくつかの製品の実施例に開示される技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。

本願で提供されるいくつかの方法又は機器の実施例に開示される特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。

本願で提供されたいくつかの実施例において、開示された機器及び方法は、他の方式で実現できることを理解されたい。上記で説明された機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視したり、又は実行しないことができる。さらに、表示または議論された各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。

上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、１箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。

なお、本発明の各実施例における各機能ユニットは、全部１つの処理ユニットに統合してもよいし、各ユニットを別々に１つのユニットとして使用してもよいし、２つ以上のユニットを１つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。

当業者なら自明であるが、前述した方法の実施例のステップの全てまたは一部は、プログラムを介して関連するハードウェアに命令することによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるときに、上記の方法の実施例のステップを実行し、前記記憶媒体は、モバイル記憶機器、ＲＯＭ、ＲＡＭ、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。

あるいは、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る）に、本開示の各実施例に記載の方法の全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ＲＯＭ、ＲＡＭ、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。

上記の内容は、本発明の特定の実施形態に過ぎず、本発明の保護範囲はこれに限定されない。当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更又は置換は、すべて本開示の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims

画像処理方法であって、
検出待ちの画像を取得することと、
前記画像において目標対象の顔を表す第１検出枠、及び目標対象の体を表す第２検出枠をそれぞれ決定することであって、前記第１検出枠の数はＭであり、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数である、ことと、
Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することであって、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しい、ことと、
Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定することと、を含む、前記画像処理方法。
前記Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定することは、
前記Ｍ個の第１検出枠をトラバースして、各第１検出枠と各第２検出枠とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を決定することと、
各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することと、を含む、
請求項１に記載の画像処理方法。
前記各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定することは、
各第１検出枠と各第２検出枠とのＩｏＵのうちの最大ＩｏＵを決定することと、
前記最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断することと、
前記最大ＩｏＵが前記プリセットされた閾値より大きいことに応答して、前記最大ＩｏＵに対応する第１検出枠と第２検出枠がマッチング関係を満たすと決定することと、を含む、
請求項２に記載の画像処理方法。
前記Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定することは、
前記目標対象の数が、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）であると決定することを含む、
請求項１ないし３のいずれか一項に記載の画像処理方法。
前記画像処理方法は、
前記画像内の各目標対象の体キーポイントを取得することと、
前記体キーポイントに対応する位置分類カテゴリを決定することであって、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを表す、ことと、
各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することと、を更に含む、
請求項１ないし４のいずれか一項に記載の画像処理方法。
各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、前記各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定することは、
１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することを含み、
前記画像処理方法は、
キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定することを更に含む、
請求項５に記載の画像処理方法。
前記１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定することは、
１つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計することと、
体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定することと、を含む、
請求項６に記載の画像処理方法。
画像処理装置であって、
取得ユニット、第１決定ユニット、第２決定ユニット及びマッチングユニットを備え、
前記取得ユニットは、検出待ちの画像を取得するように構成され、
前記第１決定ユニットは、前記画像において目標対象の顔を表す第１検出枠を決定するように構成され、前記第１検出枠の数はＭであり、
前記第２決定ユニットは、前記画像において目標対象の体を表す第２検出枠を決定するように構成され、前記第２検出枠の数はＮであり、Ｍ及びＮのいずれも非負の整数であり、
前記マッチングユニットは、Ｍ個の第１検出枠及びＮ個の第２検出枠のうち、マッチング関係を満たすＫ個の第１検出枠と第２検出枠を決定し、Ｍ、Ｎ及びＫに基づいて前記画像内の目標対象の数を決定するように構成され、Ｋは非負の整数であり、ＫはＭより小さいか等しく、ＫはＮより小さいか等しい、前記画像処理装置。
前記マッチングユニットは、前記Ｍ個の第１検出枠をトラバースして、各第１検出枠と各第２検出枠とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を決定し、各第１検出枠と各第２検出枠とのＩｏＵに基づいて、マッチング関係を満たす第１検出枠と第２検出枠を決定するように構成される、
請求項８に記載の画像処理装置。
前記マッチングユニットは、各第１検出枠と各第２検出枠とのＩｏＵのうちの最大ＩｏＵを決定し、前記最大ＩｏＵがプリセットされた閾値より大きいかどうかを判断し、前記最大ＩｏＵが前記プリセットされた閾値より大きいことに応答して、前記最大ＩｏＵに対応する第１検出枠と第２検出枠がマッチング関係を満たすと決定するように構成される、
請求項９に記載の画像処理装置。
前記マッチングユニットは、前記目標対象の数が、Ｋ＋（Ｍ－Ｋ）＋（Ｎ－Ｋ）であると決定するように構成される、
請求項８ないし１０のいずれか一項に記載の画像処理装置。
前記画像処理装置は更に、分類ユニット及び第３決定ユニットを備え、
前記第２決定ユニットは更に、前記画像内の各目標対象の体キーポイントを取得するように構成され、
前記分類ユニットは、前記体キーポイントに対応する位置分類カテゴリを決定するように構成され、前記位置分類カテゴリは、前記体キーポイントが前記画像内の複数の特定領域のうちの１つの特定領域内に位置することを表し、
前記第３決定ユニットは、各体キーポイントに対応する位置分類カテゴリに基づいて、各目標対象が位置する領域を決定するように構成される、
請求項８ないし１１のいずれか一項に記載の画像処理装置。
各特定領域がキャビン内の各座席である場合、前記体キーポイントに対応する位置分類カテゴリは、前記体キーポイントに対応する座席であり、
前記第３決定ユニットは、１つの目標対象の体キーポイントに対応する座席に基づいて、当該目標対象が位置する座席を決定し、キャビンにおける各目標対象が位置する座席に従って、前記キャビン内の各座席の状態を決定するように構成される、
請求項１２に記載の画像処理装置。
前記第３決定ユニットは、１つの目標対象の複数の体キーポイントのうち、同じ座席に対応する体キーポイントの数を統計し、体キーポイントの最大数に対応する座席が前記目標対象の座席であると決定するように構成される、
請求項１３に記載の画像処理装置。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
当該プログラムがプロセッサによって実行されるときに、請求項１ないし７のいずれか一項に記載の方法のステップを実現する、前記コンピュータ可読記憶媒体。
電子機器であって、
メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが、前記プログラムを実行するときに、請求項１ないし７のいずれか一項に記載の方法のステップを実現する、前記電子機器。
コンピュータ可読コードを含むコンピュータプログラム製品あって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項１ないし７のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。