JP7248345B2

JP7248345B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP7248345B2
Application number: JP2021505596A
Authority: JP
Inventors: 永記石寺
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2019-03-11
Filing date: 2020-02-06
Publication date: 2023-03-29
Anticipated expiration: 2040-02-06
Also published as: JPWO2020184006A1; WO2020184006A1

Description

本開示は、画像処理装置、画像処理方法及びプログラムに関する。

所定の領域を監視する監視装置の一つとして、カメラで撮像した画像（動画像を含む）から人物等の移動物体を検出して追跡する画像処理を行う装置が知られている（例えば、特許文献１）。

特許文献１には、過去の画像から検出された人物の位置に基づいて、現在の処理対象の画像において複数の人物の重なり領域を検出し、最前の人物を判断することが開示されている。

特開２０１７－０２７１９７号公報

画像において、複数の人物の重なり領域が存在する場合、重なっている人物の人物領域を正確に特定する必要がある。特許文献１では、人物の位置を推定する処理を行うことが開示されているが、重なっている人物の人物領域を特定することが開示されていない。

本開示の目的は、このような課題を解決するためになされたものであり、画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供することである。

本開示にかかる画像処理装置は、
撮像装置により撮像された第１画像を入力する入力部と、
学習済みの学習モデルに基づいて、前記第１画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第１領域を抽出し、前記第１領域を含む第２画像を生成する生成部と、を備える画像処理装置である。

本開示にかかる画像処理方法は、
撮像装置により撮像された第１画像を入力することと、
学習済みの学習モデルに基づいて、前記第１画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第１領域を抽出し、前記第１領域を含む第２画像を生成することと、を含む画像処理方法である。

本開示にかかるプログラムは、
撮像装置により撮像された第１画像を入力することと、
学習済みの学習モデルに基づいて、前記第１画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第１領域を抽出し、前記第１領域を含む第２画像を生成することと、をコンピュータに実行させるプログラムである。

本開示によれば、画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供することができる。

実施の形態１にかかる画像処理装置の構成例を示す図である。実施の形態２にかかる画像処理装置の構成例を示す図である。入力画像の一例を示す図である。等距離領域を含む画像の一例を示す図である。合成画像の一例を示す図である。領域パターンを説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。生成処理を説明するための図である。決定処理を説明するための図である。決定処理を説明するための図である。実施の形態２にかかる学習装置の構成例を示す図である。実施の形態２にかかる画像処理装置の動作例を説明する図である。実施の形態２にかかる学習装置の動作例を示す図である。本開示の各実施の形態にかかる画像処理装置等を実現可能な、コンピュータ（情報処理装置）のハードウェア構成を例示するブロック図である。

（実施の形態１）
以下、図面を参照して本発明の実施の形態について説明する。図１は、実施の形態１にかかる画像処理装置の構成例を示す図である。画像処理装置１は、例えば、サーバ装置、パーソナルコンピュータ装置等であってもよい。

画像処理装置１は、入力部２と、生成部３とを備える。
入力部２は、撮像装置により撮像された第１画像を入力する。撮像装置は、例えば、監視カメラ、定点カメラ、デジタルカメラ等であってもよい。

生成部３は、学習済みの学習モデルに基づいて、第１画像のうち、人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される第１領域を抽出し、第１領域を含む第２画像を生成する。

第１画像において、複数の人物が重なる領域が含まれている場合、重なっている人物の人物領域は、撮像装置からの距離が異なると推定される。生成部３は、人物が含まれると推定される推定領域から、撮像装置からの距離が等しい第１領域を抽出することにより、抽出された第１領域を第１画像に含まれる各人物の人物領域と特定することが可能となる。したがって、画像処理装置１によれば、画像に含まれる人物の人物領域を精度良く特定することが可能となる。

（実施の形態２）
続いて、実施の形態２について説明する。実施の形態２は、実施の形態１を詳細にした実施の形態である。

＜画像処理装置の構成例＞
図２を用いて、実施の形態２にかかる画像処理装置１０について説明する。図２は、実施の形態２にかかる画像処理装置の構成例を示す図である。画像処理装置１０は、入力部１１と、データ記憶部１２と、生成部１３と、モデル記憶部１４と、決定部１５とを備える。

入力部１１は、撮像装置により撮像された画像を入力し、入力された画像をデータ記憶部１２に記憶する。入力部１１は、記録媒体に記憶された画像を入力してもよい。もしくは、入力部１１は、画像処理装置１０に接続された外部のパーソナルコンピュータ装置又はサーバ装置等から、撮像装置により撮像された画像を入力してもよい。

入力部１１に入力される画像は、例えば、監視カメラ、定点カメラ、デジタルカメラ等の撮像装置により撮像された画像であってもよい。なお、以降の説明では、入力部１１は、監視カメラにより撮像された画像を、監視カメラに接続されたサーバ装置から入力することとして説明する。また、以降の説明では、入力部１１に入力される画像を入力画像と称して記載する。

ここで、図３を用いて、入力画像の一例について説明する。図３は、入力画像の一例を示す図である。入力部１１に入力される画像（入力画像）は、監視カメラにより撮像された画像である。図３に示すように、入力画像には複数の人物が含まれており、人物が重なって撮像された領域が含まれる。

図２に戻り、データ記憶部１２について説明する。
データ記憶部１２は、入力画像を記憶する。また、データ記憶部１２は、入力部１１に入力された画像の背景画像を記憶する。なお、背景画像も、入力部１１に入力され、入力部１１が背景画像をデータ記憶部１２に記憶するようにしてもよい。データ記憶部１２は、生成部１３が生成する画像も記憶する。

生成部１３は、後述するモデル記憶部１４に記憶された学習済みの学習モデルに基づいて、入力画像のうち、人物が含まれると推定される推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部１３は、等距離領域を含む画像を生成し、生成した画像をデータ記憶部１２に記憶する。

生成部１３は、背景画像と、入力画像とをデータ記憶部１２から取得する。生成部１３は、背景画像と入力画像とを用いて、例えば、背景差分法（背景差分処理）により、入力画像のうち、人物が含まれると推定される領域を示す推定領域を推定する。

生成部１３は、モデル記憶部１４に記憶された学習済みの学習モデルを取得する。生成部１３は、取得した学習モデルに基づいて、推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部１３は、入力画像を学習モデルに入力し、等距離領域を抽出する。生成部１３は、抽出された等距離領域を含む画像を生成して、データ記憶部１２に記憶する。

ここで、図４を用いて、生成部１３が生成する等距離領域を含む画像の一例について説明する。図４は、等距離領域を含む画像の一例を示す図である。図４において、白色の領域は、生成部１３が抽出した等距離領域である。領域Ｕ１は、等距離領域を含む画像の一部の領域であり、領域Ｕ１のうち右半分の領域は、入力画像において人物が重なっている領域である。

領域Ｕ１には、１１人の人物が含まれている。領域Ｕ１において、隣り合う等距離領域の間には黒線（黒の領域）が含まれており、当該黒線（黒の領域）により、等距離領域同士が区切られている。そのため、画像処理装置１０は、白色の等距離領域から、予め定められた所定の閾値以上の面積を持つ連結領域（等距離領域）のみを取り出すことで、領域Ｕ１には、１１人の人物が含まれていることを特定することができる。なお、領域Ｕ１以外の他の領域についても、同様であるため、画像処理装置１０は、画像に含まれる人物の人物領域を精度良く特定することができる。

図２に戻り、生成部１３の説明を続ける。
生成部１３は、取得した学習モデルに基づいて、人物が含まれると推定される推定領域から、監視カメラとの距離が異なる境界線よりも撮像装置からの距離が短い領域を示す手前領域、及び境界線よりも撮像装置からの距離が長い領域を示す奥領域を抽出する。生成部１３は、入力画像を学習モデルに入力し、推定領域から、手前領域及び奥領域を抽出する。

また、生成部１３は、人物が含まれると推定される推定領域から、監視カメラとの距離が異なる境界線も抽出する。なお、生成部１３は、監視カメラとの距離が異なる境界線を抽出しなくてもよい。

具体的には、生成部１３は、学習モデルに基づいて、入力画像のうち、等距離領域の周辺領域から、境界線と、手前領域と、奥領域とを抽出する。等距離領域の周辺領域は、図４の領域Ｕ１のうち、等距離領域同士を区切っている黒線（黒の領域）である。周辺領域は、図４の領域Ｕ１のうち、隣り合う等距離領域との間に含まれる黒線（黒の領域）であるとも言える。

生成部１３は、境界線、手前領域及び奥領域を抽出すると、データ記憶部１２に記憶されている、等距離領域を含む画像と、境界線、手前領域及び奥領域とを合成して、合成された画像を生成する。生成部１３は、生成した画像をデータ記憶部１２に記憶する。なお、学習モデル、及び生成部１３が各領域を抽出し、抽出された各領域を含む画像を生成する生成処理について後述する。また、以降の説明では、等距離領域を含む画像と、等距離領域、境界線、手前領域及び奥領域が合成された画像とを区別するために、等距離領域を含む画像を等距離画像とし、合成された画像を合成画像と称して記載する。

ここで、図５を用いて、生成部１３が生成する合成画像の一例について説明する。図５は、合成画像の一例を示す図である。図５について、領域Ｕ２を用いて説明する。領域Ｕ２は、図４の領域Ｕ１の一部の領域であり、２人の人物が重なる領域である。

領域Ｕ２には、一点鎖線Ｌ１、点線Ｌ２及び実線Ｌ３が記載されている。一点鎖線Ｌ１は、生成部１３が生成した等距離領域の境界を表す線である。一点鎖線Ｌ１の内側の領域（点線Ｌ２の方向と逆側の領域）は、等距離領域である。点線Ｌ２は、生成部１３が抽出した境界線を表す線である。一点鎖線Ｌ１と点線Ｌ２との間の領域は、生成部１３が抽出した手前領域である。実線Ｌ３は、奥領域の境界を表す線であり、点線Ｌ２と実線Ｌ３との間の領域は、奥領域である。

別の観点で説明をすると、領域Ｕ２は、色の濃淡により、各領域が分かるように示されており、白い領域（点線Ｌ２と実線Ｌ３との間の領域）は奥領域であり、黒い領域（一点鎖線Ｌ１と点線Ｌ２との間の領域）は手前領域である。また、白と黒の間のグレーの領域（一点鎖線Ｌ１から点線Ｌ２の方向と逆側の領域）は等距離領域である。このように、生成部１３は、等距離領域の周辺領域から境界線、手前領域及び奥領域を抽出して、抽出した境界線、手前領域及び奥領域と、等距離画像とを合成して合成画像を生成する。

図２に戻り、モデル記憶部１４について説明する。
モデル記憶部１４は、生成部１３が用いる学習済みの学習モデルを記憶する。モデル記憶部１４に記憶される学習モデルは、後述する学習装置２０により学習された学習モデルである。学習モデルは、推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルである。所定の画素ブロックは、例えば、１５×１５のパッチ画像として切り出された画素ブロック（画素群）である。なお、上記の画素ブロックは一例であり、３×３～１５０×１５０の画素ブロックの中から任意に選択することができる。

学習モデルは、例えば、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）であり、入力層と、多層の隠れ層と、出力層とを含む。入力層は、例えば、入力画像がＲＧＢ(Red Green Blue)画像である場合、Ｒ、Ｇ、Ｂのチャネル別にパッチ画像のサイズを乗じた値とすることができる。また、学習モデルは、３層の隠れ層で構成し、活性化関数としてＲｅＬＵ関数を用いて構成してもよい。学習モデルは、学習装置２０において深層学習（Deep learning）により学習され、各層に適用される重み及び閾値を含むパラメータが学習される。なお、学習モデルは、他のアルゴリズムを用いた学習モデルであってもよい。また、上記した入力層、隠れ層、活性化関数は一例であるので、異なるように構成された学習モデルであってもよい。

決定部１５は、合成画像における等距離領域、手前領域及び奥領域の少なくとも１つの領域に基づいて、入力画像に含まれる人物の前後関係を決定する。

決定部１５は、合成画像における等距離領域に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。もしくは、決定部１５は、合成画像における等距離領域を、入力画像に含まれる人物の人物領域と特定し、特定された人物領域の各々について、手前領域及び奥領域のうちの少なくとも１つの領域に基づいて、隣接する人物領域との前後関係を決定する。そして、決定部１５は、決定された、各人物領域と、当該人物領域に隣接する人物領域との前後関係に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。もしくは、決定部１５は、合成画像における等距離領域、手前領域及び奥領域のうちの２つ以上を組み合わせて入力領域に含まれる人物の前後関係を決定してもよい。

本実施の形態では、決定部１５は、合成画像に含まれる等距離領域、手前領域及び奥領域を用いて入力画像に含まれる人物の前後関係を決定する。なお、決定部１５が行う人物の前後関係の決定処理については後述する。

＜学習モデル＞
次に、モデル記憶部１４に記憶された学習モデルについて説明する。上述したように、学習モデルは、推定領域に含まれる所定の画素ブロック毎に、予め定義された複数の領域パターンのうち一致する領域パターンを出力する学習モデルである。

ここで、図６を用いて、複数の領域パターンについて説明する。図６は、領域パターンを説明するための図である。図６に記載されている数字は、領域パターンの番号を示しており、数字の下に記載された図は、各領域パターンの概念図を示している。

各領域パターンの概念図の中に含まれる実線は、撮像装置からの距離が異なる境界線を示している。Ｆ（斜線でハッチングされた領域）は手前領域を表しており、Ｂ（縦線でハッチングされた領域）は奥領域を表している。領域パターンの番号が１～８の領域パターンは、境界線と、手前領域と、奥領域との配置関係がそれぞれ異なる領域パターンであり、撮像装置からの距離（深度）の勾配を示す奥行勾配方向がそれぞれ異なる領域パターンである。換言すると、領域パターンの番号が１～８の領域パターンは、手前領域から奥領域に向けた勾配方向がそれぞれ異なる領域パターンである。また、領域パターンの番号が１～８の領域パターンは、手前領域と、奥領域と、境界線との配置パターンがそれぞれ異なる領域パターンであるとも言える。

図６に示すように、領域パターンの番号が１～８の領域パターンは、奥行勾配方向がそれぞれ異なる８方向に対応する。なお、領域パターンの番号が１～８は、奥行勾配方向がそれぞれ異なる８方向に対応する領域パターンであるが、奥行勾配方向が８方向の間の方向を含めた１６方向に対応する領域パターンを設けるようにしてもよい。

領域パターンの番号が９の領域パターンは、撮像装置からの距離が等距離の領域を示す領域パターンであり、等距離領域を抽出する領域パターンである。

以上のように、複数の領域パターン（パターン１～９）を定義する。そして、学習モデルは、人物が存在すると推定される推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する。

＜生成処理＞
次に、図４、図５及び図７～図１４を用いて、生成部１３が行う各領域の抽出及び画像の生成処理について説明する。図７～図１４は、生成処理を説明するための図である。

生成部１３は、モデル記憶部１４に記憶された学習モデルを用いて入力画像のうち、人物が存在すると推定される推定領域に含まれる所定の画素ブロック毎に、処理対象画素を変更させながら複数の領域パターンのうち一致する領域パターンを出力する。生成部１３は、推定領域に含まれる所定の画素ブロックに対して、出力された領域パターンを適用して等距離領域、又は境界線、手前領域及び奥領域を抽出する。

生成部１３は、学習モデルから領域パターンの番号が９の領域パターンが出力された画素ブロックに対して当該領域パターンを適用して等距離領域を抽出し、図４に示す画像を生成する。

生成部１３は、学習モデルから領域パターンの番号が１の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、図７に示す画像を生成する。図７は、境界線が合成画像の左右方向であり、境界線に対して手前領域が合成画像の下側に存在し、境界線に対して奥領域が合成画像の上側に存在する領域である。つまり、生成部１３は、領域パターンの番号が１に一致する領域を抽出した画像を生成する。

生成部１３は、学習モデルから領域パターンの番号が２の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、図８に示す画像を生成する。図８は、境界線が合成画像の左下から右上に向かう斜め方向であり、境界線に対して手前領域が合成画像の右下側に存在し、境界線に対して奥領域が合成画像の左上側に存在する領域である。つまり、生成部１３は、領域パターンの番号が２に一致する領域を抽出した画像を生成する。

生成部１３は、同様に、学習モデルから領域パターンの番号が３～８の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、図９～１４に示す画像を生成する。なお、図９～図１４は、それぞれ、領域パターンが３～８に対応する図である。

生成部１３は、各領域パターンから生成された画像を合成して、図５に示す合成画像を生成する。このように、生成部１３は、学習モデルにより出力された領域パターンの画素ブロックから等距離領域、境界線、手前領域及び奥領域を抽出して、抽出した各領域を合成して合成画像を生成する。

＜決定処理＞
次に、図１５及び図１６を用いて、決定部１５が行う人物の前後関係を決定する決定処理について説明する。図１５及び図１６は、決定処理を説明するための図である。

まず、決定処理の概要について説明する。
決定部１５は、合成画像に含まれる等距離領域に基づき人物領域を特定する。決定部１５は、特定された人物領域の各々の下端線に基づいて入力画像に含まれる人物の前後関係を決定する。

決定部１５は、特定された各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域に基づいて、各人物領域と、隣接する人物領域との前後関係を決定する。決定部１５は、特定された各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域の距離を用いて、手前領域が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する。決定部１５は、奥領域が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する。

決定部１５は、各人物領域の下端線を用いて決定された人物領域の前後関係の決定処理の結果と、各人物領域について、隣接する人物領域との前後関係の決定処理の結果とを用いて、入力画像に含まれる人物の前後関係を決定する。

次に、図１５を用いて、各人物領域の下端線及び各人物領域の画素数を用いた決定処理について説明する。図１５は、図５の合成画像を模式化した図であり、図４の領域Ｕ１に対応する領域を示している。実線で囲まれた領域は、等距離領域を示している。点線は、境界線を示しており、斜線でハッチングされた領域は、手前領域を示し、縦線でハッチングされた領域は、奥領域を示している。なお、図１５には、生成部１３が抽出した境界線、手前領域及び奥領域のうち、等距離領域同士が隣り合う部分のみの境界線、手前領域及び奥領域を示している。

決定部１５は、合成画像に座標を設定する。決定部１５は、例えば、合成画像の左下の端点を原点座標に設定し、合成画像の右方向をＸ軸正方向とし、合成画像の上方向をＹ軸正方向として設定する。決定部１５は、等距離領域で囲まれた領域を人物領域として特定する。図１５に示すように、決定部１５は、人物領域Ｐ１～Ｐ１１と特定する。

決定部１５は、人物領域Ｐ１～Ｐ１１のそれぞれに対して下端線を決定する。各人物領域の下端線のＹ座標が小さい場合、撮像装置に近い位置に存在する人物であると考えられる。そのため、決定部１５は、下端線のＹ座標が小さい方から順に、撮像装置から近い位置に存在する人物の人物領域として決定する。決定部１５は、決定した結果に基づいて、入力画像に含まれる人物の前後関係を決定する。

例えば、人物領域Ｐ１の下端線のＹ座標がＹ１、人物領域Ｐ２の下端線のＹ座標がＹ２、人物領域Ｐ３の下端線のＹ座標がＹ３、人物領域Ｐ４の下端線のＹ座標がＹ４、人物領域Ｐ５の下端線のＹ座標がＹ５であるとする。また、Ｙ１＜Ｙ２＜Ｙ３＜Ｙ４＜Ｙ５であるとする。この場合、決定部１５は、人物領域Ｐ１、Ｐ２、Ｐ３、Ｐ４及びＰ５の順に撮像装置から近い位置に存在する人物の人物領域として決定する。決定部１５は、人物領域Ｐ６～Ｐ１１に対しても同様の決定処理を行う。

人物領域Ｐ６～Ｐ１１については、下端線が他の人物領域に隣接しており、他の人物領域と重なっている人物領域と判断することができる。そのため、人物領域Ｐ６～Ｐ１１については、正確な前後関係を決定することができない可能性があるため、決定部１５は、人物領域の下端線に基づいて、一時的に前後関係を決定する。そして、決定部１５は、人物領域の下端線が、他の人物領域と重なっている人物領域について、後述する決定処理の結果を適用して、入力画像に含まれる人物の前後関係を決定する。

なお、決定部１５は、各人物領域に含まれる画素数に基づいて、撮像装置から近い位置に存在する人物の人物領域を決定し、決定した結果に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。

各人物領域に含まれる画素数が多い場合、撮像装置に近い位置に存在する人物であると考えられる。そのため、決定部１５は、各人物領域に含まれる画素数を算出して、算出された画素数が多い順に、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。

また、決定部１５は、各人物領域の下端線のＹ座標と、各人物領域に含まれる画素数とに対して重み付けを行ってもよい。そして、決定部１５は、重み付けされた、各人物領域の下端線のＹ座標及び各人物領域に含まれる画素数に基づいて、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。

また、決定部１５は、人物領域の下端線が他の人物領域と隣接する人物領域に対して、人物領域の上端線に基づいて、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。

各人物領域の下端線のＹ座標が大きい場合、撮像装置から遠い位置に存在する人物であると考えられる。そのため、決定部１５は、人物領域の下端線が他の人物領域と隣接する人物領域に対して、上端線のＹ座標が大きい方から順に、撮像装置から遠い位置に存在する人物の人物領域として決定してもよい。

次に、図１６について説明する。図１６は、図１５と同様の図であり、図５の合成画像を模式化した図であり、図４の領域Ｕ１に対応する領域を示している。実線で囲まれた領域は、等距離領域を示している。点線は、境界線を示しており、斜線でハッチングされた領域は、手前領域を示し、縦線でハッチングされた領域は、奥領域を示している。なお、図１５には、生成部１３が抽出した境界線、手前領域及び奥領域のうち、等距離領域同士が隣り合う部分のみの境界線、手前領域及び奥領域を示している。

決定部１５は、例えば、合成画像において、ある人物領域と隣接する人物領域とについて、所定の距離未満の人物領域を隣接する人物領域として決定する。決定部１５は、人物領域Ｐ３～Ｐ１１を、他の人物領域と隣接している人物領域として特定する。決定部１５は、他の人物領域と隣接している人物領域Ｐ３～Ｐ１１の各々について、手前領域及び奥領域に基づいて、隣接する人物領域との前後関係を決定する。決定部１５は、各人物領域についての隣接する人物領域との前後関係に基づいて、入力画像に含まれる人物の前後関係を決定する。

例えば、人物領域Ｐ３と、人物領域Ｐ５とは隣接する人物領域である。人物領域Ｐ３を基準として、人物領域Ｐ５との前後関係を決定する場合、人物領域Ｐ３と人物領域Ｐ５との間の領域Ｕ３に注目する。

領域Ｕ３には、手前領域と奥領域とが含まれている。領域Ｕ３に含まれる手前領域は、人物領域Ｐ３と隣接している。つまり、人物領域Ｐ３は、人物領域Ｐ５よりも領域Ｕ３に含まれる手前領域に距離が近い。

一方、領域Ｕ３に含まれる奥領域は、人物領域Ｐ５と隣接している。つまり、人物領域Ｐ５は、人物領域Ｐ３よりも領域Ｕ３に含まれる奥領域に距離が近い。そのため、決定部１５は、手前領域と隣接し、距離が近い人物領域Ｐ３の人物を人物領域Ｐ５の人物よりも前に位置すると決定する。また、決定部１５は、奥領域と隣接し、距離が近い人物領域Ｐ５の人物を人物領域Ｐ３の人物よりも後ろに位置すると決定する。

例えば、人物領域Ｐ３を基準として、人物領域Ｐ８との前後関係を決定する場合、人物領域Ｐ３と人物領域Ｐ８との間の手前領域は、人物領域Ｐ３と隣接し、距離が近い。人物領域Ｐ３と人物領域Ｐ８との間の奥領域は、人物領域Ｐ８と隣接し、距離が近い。そのため、決定部１５は、人物領域Ｐ３の人物を人物領域Ｐ８の人物よりも前に位置し、物領域Ｐ５の人物を人物領域Ｐ３の人物よりも後ろに位置すると決定する。その他の人物領域についても同様に、決定部１５は、各人物領域についての隣接する人物領域との前後関係を決定する。

決定部１５は、人物領域Ｐ１～Ｐ１１の下端線から決定した前後関係の決定処理の結果と、各人物領域についての隣接する人物領域との前後関係の決定処理の結果とを用いて、人物領域Ｐ１～Ｐ１１について前後関係を決定する。

決定部１５は、人物領域Ｐ１～Ｐ１１について前後関係を決定すると、合成画像の下側に存在する人物領域（撮像装置から近い人物の人物領域）から順に、撮像装置からの距離の順序を示すラベル番号を設定する。決定部１５は、設定したラベル番号に基づいて、入力画像に含まれる人物の前後関係を決定する。

なお、決定部１５は、人物領域Ｐ１～Ｐ１１について、前後関係が正確に判定できない場合、判定出来なかった人物領域に対して前後関係が正しく判定出来なかったことを示すフラグを設定してもよい。もしくは、決定部１５は、人物領域Ｐ１～Ｐ１１について、前後関係が正確に判定できない場合、判定出来なかった人物領域に対して、同一のラベル番号を設定し、前後関係が正しく判定出来なかったことを示してもよい。

＜学習装置の構成例＞
次に、図１７を用いて、学習装置２０の構成例について説明する。図１７は、実施の形態２にかかる学習装置の構成例を示す図である。学習装置２０は、未学習の学習モデルを学習して、学習済みの学習モデルを生成する。学習装置２０は、入力部２１と、データ記憶部２２と、モデル記憶部２３と、学習部２４とを備える。

入力部２１は、学習用画像及び教師データのペアを学習データとして入力する。入力部２１は、入力された画像をデータ記憶部２２に記憶する。

データ記憶部２２は、入力部２１に入力された学習データを記憶する。
モデル記憶部２３は、未学習の学習モデル（学習中の学習モデルも含む）及び学習済みの学習モデルの少なくとも一方を記憶する。

学習部２４は、データ記憶部２２に入力された学習データを用いて、未学習の学習モデルを学習する。学習部２４は、深層学習により学習し、各層に適用される重み及び閾値を含むパラメータを学習し、更新する。学習部２４は、学習が終了すると、学習済みの学習モデルを生成してモデル記憶部２３に記憶する。なお、学習部２４は、未学習の学習モデルを学習済みの学習モデルにより更新してもよい。なお、学習部２４により生成された学習済みの学習モデルは、画像処理装置１０の管理者、運用者等により、画像処理装置１０のモデル記憶部１４に格納される。

＜画像処理装置の動作例＞
次に、図１８を用いて、画像処理装置１０の動作例について説明する。図１８は、実施の形態２にかかる画像処理装置の動作例を説明する図である。

まず、入力部１１は、処理対象の画像（入力画像）を入力する（ステップＳ１）。入力部１１は、監視カメラにより撮像された画像を、監視カメラに接続されたサーバ装置から入力し、データ記憶部１２に記憶する。

生成部１３は、入力画像において、人物が含まれると推定される推定領域を推定する（ステップＳ２）。生成部１３は、データ記憶部１２から入力画像と、背景画像とを取得する。生成部１３は、背景画像と入力画像とを用いて、例えば、背景差分法（背景差分処理）により、入力画像のうち、人物が含まれると推定される領域を示す推定領域を推定する。

生成部１３は、学習済みの学習モデルに基づいて、推定領域から等距離領域を抽出する（ステップＳ３）。生成部１３は、モデル記憶部１４に記憶された学習済みの学習モデルを取得する。生成部１３は、取得した学習モデルに基づいて、推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部１３は、抽出された等距離画像を生成する。

生成部１３は、学習済みの学習モデルに基づいて、推定領域から境界線、手前領域及び奥領域を抽出する（ステップＳ４）。生成部１３は、学習モデルに基づいて、入力画像のうち、等距離領域の周辺領域から、境界線と、手前領域と、奥領域とを抽出する。生成部１３は、境界線、手前領域及び奥領域を抽出すると、データ記憶部１２に記憶されている、等距離画像と、境界線、手前領域及び奥領域とを合成して、合成画像を生成する。生成部１３は、生成した合成画像をデータ記憶部１２に記憶する。

なお、ステップＳ３及びステップＳ４は、同時に実行されてもよい。モデル記憶部１４に記憶された学習モデルは、推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致するパターンを出力する学習モデルである。そのため、生成部１３は、学習モデルを用いることにより、等距離領域、境界線、手前領域及び奥領域を一度に抽出することができる。したがって、生成部１３は、等距離領域、境界線、手前領域及び奥領域を一度に抽出して、等距離画像を生成せずに、合成画像を生成するようにしてもよい。

決定部１５は、合成画像における等距離領域を人物領域と特定し（ステップＳ５）、各人物領域の下端線から各人物領域の前後関係を決定する（ステップＳ６）。決定部１５は、合成画像にＸＹ座標系を設定する。決定部１５は、各人物領域の下端線を算出し、下端線のＹ座標に基づいて、各人物領域の前後関係を決定する。

決定部１５は、各人物領域について、隣接する人物領域との前後関係を決定する（ステップＳ７）。決定部１５は、合成画像において、各人物領域に対して、隣接する人物領域を決定する。決定部１５は、各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域に基づいて、隣接する人物領域との前後関係を決定する。決定部１５は、各人物領域について、比較対象の隣接する人物領域との間に含まれる手前領域と隣接する人物領域の人物が、他方の人物領域の人物よりも前に位置すると決定する。決定部１５は、各人物領域について、比較対象の隣接する人物領域との間に含まれる奥領域と隣接する人物領域の人物が、他方の人物領域の人物よりも後ろに位置すると決定する。

決定部１５は、入力画像に含まれる人物の前後関係を決定する（ステップＳ８）。決定部１５は、ステップＳ６及びＳ７において決定した結果に基づいて、各人物領域の前後関係を決定する。決定部１５は、各人物領域の前後関係を決定すると、合成画像の下側に存在する人物領域（撮像装置から近い人物の人物領域）から順に、撮像装置からの距離の順序を示すラベル番号を設定する。決定部１５は、設定したラベル番号に基づいて、入力画像に含まれる人物の前後関係を決定する。

＜学習装置の動作例＞
次に、図１９を用いて、学習装置２０の動作例について説明する。図１９は、実施の形態２にかかる学習装置の動作例を示す図である。

入力部２１は、学習データを入力する（ステップＳ１１）。入力部２１は、学習用画像及び教師データのペアを学習データとして入力する。入力部２１は、入力された画像をデータ記憶部２２に記憶する。

学習部２４は、学習済みの学習モデルを生成する（ステップＳ１２）。学習部２４は、データ記憶部２２に入力された学習データを用いて、未学習の学習モデルを学習する。学習部２４は、深層学習により学習し、各層に適用される重み及び閾値を含むパラメータを学習し、更新する。学習部２４は、学習が終了すると、学習済みの学習モデルを生成してモデル記憶部２３に記憶する。

以上説明したように、生成部１３は、入力画像において、人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される等距離領域を抽出する。入力画像において、複数の人物が重なる領域が含まれている場合、重なっている人物の人物領域は、撮像装置からの距離が異なると推定される。そのため、生成部１３が等距離領域を抽出することにより、等距離領域を入力画像に含まれる各人物の人物領域と特定することが可能となる。したがって、画像処理装置１０によれば、画像に含まれる人物の人物領域を精度良く特定することが可能となる。

また、等距離領域を抽出することにより、入力画像に含まれる人物の人物領域を特定することができるので、画像処理装置１０を用いることにより、入力画像に含まれる人物の人数、人物が存在する位置等を特定することが可能となる。

生成部１３は、等距離領域に加えて、推定領域から手前領域及び奥領域を抽出する。決定部１５は、等距離領域に基づいて、合成画像に含まれる人物領域を特定する。決定部１５は、等距離領域、手前領域及び奥領域に基づいて、合成画像に含まれる各人物領域の前後関係を決定する。そして、決定部１５は、各人物領域の前後関係に基づいて、入力画像に含まれる人物の前後関係を決定する。したがって、画像処理装置１０によれば、入力画像に含まれる各人物の前後関係を特定することが可能となる。

画像処理装置１０を用いることにより、入力画像に含まれる各人物の前後関係を特定することができるので、例えば、各時刻において撮像された画像を入力して、入力された画像に含まれる特定人物の位置を特定することができる。したがって、画像処理装置１０を用いることにより、例えば、特定人物の追跡を行うことが可能となる。

（変形例）
実施の形態２では、生成部１３は、手前領域及び奥領域を抽出することで説明を行ったが、手前領域及び奥領域のうちのいずれか一方を抽出するようにしてもよい。この場合、決定部１５は、各人物領域について、隣接する人物領域との前後関係を決定する決定処理において、抽出された手前領域又は奥領域を用いる。

生成部１３が抽出した領域が手前領域であれば、各人物領域と、比較対象の隣接する人物領域の間に含まれる手前領域と隣接する距離が近い人物領域の人物が、他方の人物領域の人物よりも前に位置すると決定する。

生成部１３が抽出した領域が奥領域であれば、各人物領域と、比較対象の隣接する人物領域の間に含まれる奥領域と隣接する距離が近い人物領域の人物が、他方の人物領域の人物よりも後ろに位置すると決定する。このようにしても、実施の形態２と同様の効果を得ることが可能となる。

（他の実施の形態）
上述した実施の形態において説明した画像処理装置１、１０及び学習装置２０（以下、画像処理装置１等と称する）は、次のようなハードウェア構成を有していてもよい。図２０は、本開示の各実施の形態にかかる画像処理装置等を実現可能な、コンピュータ（情報処理装置）のハードウェア構成を例示するブロック図である。

図２０を参照すると、画像処理装置１等は、プロセッサ１２０１及びメモリ１２０２を含む。プロセッサ１２０１は、メモリ１２０２からソフトウェア（コンピュータプログラム）を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された画像処理装置１等の処理を行う。プロセッサ１２０１は、例えば、マイクロプロセッサ、MPU（Micro Processing Unit）、又はCPU（Central Processing Unit）であってもよい。プロセッサ１２０１は、複数のプロセッサを含んでもよい。

メモリ１２０２は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１２０２は、プロセッサ１２０１から離れて配置されたストレージを含んでもよい。この場合、プロセッサ１２０１は、図示されていないI/Oインターフェースを介してメモリ１２０２にアクセスしてもよい。

図２０の例では、メモリ１２０２は、ソフトウェアモジュール群を格納するために使用される。プロセッサ１２０１は、これらのソフトウェアモジュール群をメモリ１２０２から読み出して実行することで、上述の実施形態において説明された画像処理装置１等の処理を行うことができる。

図２０を用いて説明したように、画像処理装置１等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む１または複数のプログラムを実行する。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）を含む。さらに、非一時的なコンピュータ可読媒体の例は、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
撮像装置により撮像された第１画像を入力する入力部と、
学習済みの学習モデルに基づいて、前記第１画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第１領域を抽出し、前記第１領域を含む第２画像を生成する生成部と、を備える画像処理装置。
（付記２）
前記生成部は、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第２領域、及び前記境界線よりも前記撮像装置からの距離が長い第３領域のうちの少なくとも１つの領域を抽出し、前記第２領域及び前記第３領域のうちの少なくとも１つの領域を含む前記第２画像を生成し、
前記第１領域と、前記第２領域及び前記第３領域の少なくとも１つの領域とに基づいて、前記第１画像に含まれる人物の前後関係を決定する決定部を備える、付記１に記載の画像処理装置。
（付記３）
前記決定部は、前記第１領域に基づき人物領域を特定し、前記特定された人物領域の各々の下端線、上端線、及び前記特定された人物領域の各々に含まれる画素数のうちの少なくとも１つに基づいて、前記第１画像に含まれる人物の前後関係を決定する、付記２に記載の画像処理装置。
（付記４）
前記決定部は、前記第１領域に基づき人物領域を特定し、前記特定された人物領域の各々について、前記第２領域及び前記第３領域のうちの少なくとも１つの領域に基づいて、隣接する人物領域との前後関係を決定し、各人物領域についての前記隣接する人物領域との前後関係に基づいて、前記第１画像に含まれる人物の前後関係を決定する、付記２又は３に記載の画像処理装置。
（付記５）
前記決定部は、前記特定された人物領域の各々と、前記隣接する人物領域との間に含まれる前記第２領域及び前記第３領域のうちの少なくとも１つの領域との距離に基づいて、前記特定された各人物領域の人物と、前記隣接する人物領域の人物との前後関係を決定する、付記４に記載の画像処理装置。
（付記６）
前記決定部は、前記生成部が前記第２領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第２領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する、付記５に記載の画像処理装置。
（付記７）
前記決定部は、前記生成部が前記第３領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第３領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する、付記５又は６に記載の画像処理装置。
（付記８）
前記学習モデルは、前記推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルであり、
前記生成部は、前記出力された領域パターンに基づいて、前記推定領域から、前記第１領域と、前記第２領域及び前記第３領域のうちの少なくとも１つの領域と、を抽出する、付記２～７のいずれか１項に記載の画像処理装置。
（付記９）
前記複数の領域パターンは、前記第１領域を抽出するための第１パターンと、前記第２領域及び前記第３領域のうちの少なくとも１つの領域を抽出するための複数の第２パターンとを含む、付記８に記載の画像処理装置。
（付記１０）
前記複数の第２パターンは、前記撮像装置との距離の勾配方向を示す奥行勾配方向がそれぞれ異なるパターンである、付記９に記載の画像処理装置。
（付記１１）
前記複数の第２パターンは、前記奥行勾配方向が８方向又は１６方向のそれぞれに対応するパターンである、付記１０に記載の画像処理装置。
（付記１２）
撮像装置により撮像された第１画像を入力することと、
学習済みの学習モデルに基づいて、前記第１画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第１領域を抽出し、前記第１領域を含む第２画像を生成することと、を含む画像処理方法。
（付記１３）
撮像装置により撮像された第１画像を入力することと、
学習済みの学習モデルに基づいて、前記第１画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第１領域を抽出し、前記第１領域を含む第２画像を生成することと、をコンピュータに実行させるプログラム。

この出願は、２０１９年３月１１日に出願された日本出願特願２０１９－０４４２７３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１、１０画像処理装置
２、１１、２１入力部
３、１３生成部
１２、２２データ記憶部
１４、２３モデル記憶部
１５決定部
２０学習装置
２４学習部

Claims

撮像装置により撮像された第１画像を入力する入力手段と、
学習済みの学習モデルに基づいて、前記第１画像のうち、複数の人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される画素の集まりである第１領域を複数抽出し、前記抽出された複数の第１領域が互いに区別可能な態様で含まれる第２画像を生成する生成手段と、を備え、
前記生成手段は、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第２領域、及び前記境界線よりも前記撮像装置からの距離が長い第３領域のうちの少なくとも１つの領域を抽出し、前記第２領域及び前記第３領域のうちの少なくとも１つの領域を含む前記第２画像を生成し、
前記第１領域と、前記第２領域及び前記第３領域の少なくとも１つの領域とに基づいて、前記第１画像に含まれる人物の前後関係を決定する決定手段を備える、画像処理装置。
前記決定手段は、前記第１領域に基づき人物領域を特定し、前記特定された人物領域の各々の下端線、上端線、及び前記特定された人物領域の各々に含まれる画素数のうちの少なくとも１つに基づいて、前記第１画像に含まれる人物の前後関係を決定する、請求項１に記載の画像処理装置。
前記決定手段は、前記第１領域に基づき人物領域を特定し、前記特定された人物領域の各々について、前記第２領域及び前記第３領域のうちの少なくとも１つの領域に基づいて、隣接する人物領域との前後関係を決定し、各人物領域についての前記隣接する人物領域との前後関係に基づいて、前記第１画像に含まれる人物の前後関係を決定する、請求項１又は２に記載の画像処理装置。
前記決定手段は、前記特定された人物領域の各々と、前記隣接する人物領域との間に含まれる前記第２領域及び前記第３領域のうちの少なくとも１つの領域との距離に基づいて、前記特定された各人物領域の人物と、前記隣接する人物領域の人物との前後関係を決定する、請求項３に記載の画像処理装置。
前記学習モデルは、前記推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルであり、
前記生成手段は、前記出力された領域パターンに基づいて、前記推定領域から、前記第１領域と、前記第２領域及び前記第３領域のうちの少なくとも１つの領域と、を抽出する、請求項１～４のいずれか１項に記載の画像処理装置。
前記複数の領域パターンは、前記第１領域を抽出するための第１パターンと、前記第２領域及び前記第３領域のうちの少なくとも１つの領域を抽出するための複数の第２パターンとを含む、請求項５に記載の画像処理装置。
前記複数の第２パターンは、前記撮像装置との距離の勾配方向を示す奥行勾配方向がそれぞれ異なるパターンである、請求項６に記載の画像処理装置。
撮像装置により撮像された第１画像を入力することと、
学習済みの学習モデルに基づいて、前記第１画像のうち、複数の人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される画像の集まりである第１領域を抽出し、前記抽出された複数の第１領域が互いに区別可能な態様で含まれる第２画像を生成することと、を含み、
前記第２画像の生成において、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第２領域、及び前記境界線よりも前記撮像装置からの距離が長い第３領域のうちの少なくとも１つの領域を抽出し、前記第２領域及び前記第３領域のうちの少なくとも１つの領域を含む前記第２画像を生成し、
前記第１領域と、前記第２領域及び前記第３領域の少なくとも１つの領域とに基づいて、前記第１画像に含まれる人物の前後関係を決定することを含む、画像処理方法。
撮像装置により撮像された第１画像を入力することと、
学習済みの学習モデルに基づいて、前記第１画像のうち、複数の人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される画像の集まりである第１領域を抽出し、前記抽出された複数の第１領域が互いに区別可能な態様で含まれる第２画像を生成することと、をコンピュータに実行させ、
前記第２画像の生成において、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第２領域、及び前記境界線よりも前記撮像装置からの距離が長い第３領域のうちの少なくとも１つの領域を抽出し、前記第２領域及び前記第３領域のうちの少なくとも１つの領域を含む前記第２画像を生成し、
前記第１領域と、前記第２領域及び前記第３領域の少なくとも１つの領域とに基づいて、前記第１画像に含まれる人物の前後関係を決定すること、を前記コンピュータに実行させる、プログラム。