JP7364077B2

JP7364077B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP7364077B2
Application number: JP2022531159A
Authority: JP
Inventors: 雅冬潘; 登吉田; 諒川合; 健全劉; 祥治西村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-10-18
Anticipated expiration: 2040-06-17
Also published as: WO2021255846A1; JPWO2021255846A1

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

近年、監視システム等において、監視カメラの画像から人物の姿勢や行動等の状態の検出や検索を行う技術が利用されている。関連する技術として、例えば、特許文献１乃至４が知られている。

特許文献１には、深さ映像に含まれる人物の頭や手足等のキージョイントに基づいて、類似する人物の姿勢を検索する技術が開示されている。特許文献２には、人物の姿勢と関連しないが、画像に付加された傾き等の姿勢情報を利用して類似画像を検索する技術が開示されている。特許文献３には、姿勢情報の入力を受付け、指定された姿勢を含む画像を検索する技術が開示されている。特許文献４には、ユーザから画像内の人物の頭に対応する一点を指定する入力を受付けると、その点を所定位置とした矩形領域を切り出し、その後、エッジ検出等でその矩形領域の画像を背景領域と人物領域とを分け、人物領域の画像を指定された人物画像として処理する技術が開示されている。なお、その他に、人物の骨格推定に関連する技術として、非特許文献１が知られている。

特表２０１４－５２２０３５号公報特開２００６－２６０４０５号公報特開２０１９－９１１３８号公報国際公開第２０１６／０６７５７３号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

画像内における人物の位置（端に位置するなど）や周辺の背景画像等に起因して、人物の状態（姿勢や行動）の検出が困難になる場合がある。しかし、このような人物の状態も検出できることが好ましい。本発明の目的は、画像内における人物の位置や周辺の背景画像等に関わらず、人物の状態を精度よく検出できるようにすることである。

本発明によれば、
画像を取得する画像取得手段と、
前記画像に含まれる人物の２次元骨格構造を検出する骨格構造検出手段と、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定する指定手段と、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する補正手段と、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を前記骨格構造検出手段に実行させる再検出手段と、
を備える画像処理装置が提供される。

また、本発明によれば、
コンピュータが、
画像を取得し、
前記画像に含まれる人物の２次元骨格構造を検出し、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定し、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成し、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を実行する画像処理方法が提供される。

また、本発明によれば、
コンピュータを、
画像を取得する画像取得手段、
前記画像に含まれる人物の２次元骨格構造を検出する骨格構造検出手段、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定する指定手段、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する補正手段、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を前記骨格構造検出手段に実行させる再検出手段、
として機能させるプログラムが提供される。

本発明によれば、画像内における人物の位置や周辺の背景画像等に関わらず、人物の状態を精度よく検出できるようになる。

実施の形態に係る画像処理装置の概要を示す構成図である。実施の形態１に係る画像処理装置の構成を示す構成図である。実施の形態１に係る画像処理方法を示すフローチャートである。実施の形態１に係る分類方法を示すフローチャートである。実施の形態１に係る検索方法を示すフローチャートである。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る分類方法の具体例を示すグラフである。実施の形態１に係る分類結果の表示例を示す図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索方法を説明するための図である。実施の形態１に係る検索結果の表示例を示す図である。実施の形態２に係る画像処理装置の構成を示す構成図である。実施の形態２に係る画像処理方法を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例１を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態２に係る身長画素数算出方法の具体例２を示すフローチャートである。実施の形態２に係る正規化方法を示すフローチャートである。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る人体モデルを示す図である。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る身長画素数算出方法を説明するためのヒストグラムである。実施の形態２に係る骨格構造の検出例を示す図である。実施の形態２に係る３次元人体モデルを示す図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る身長画素数算出方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。実施の形態２に係る正規化方法を説明するための図である。画像処理装置が処理する情報の一例を模式的に示す図である。画像処理装置が処理する情報の一例を模式的に示す図である。画像処理装置が出力する画面の一例を模式的に示す図である。画像処理装置が出力する画面の一例を模式的に示す図である。画像処理装置のハードウエア構成例を示す図である。画像処理装置の処理の流れの一例を示すフローチャートである。画像処理装置が出力する画面の一例を模式的に示す図である。画像処理装置が生成する画像の一例を模式的に示す図である。画像処理装置の処理の流れの一例を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（実施の形態に至る検討）
近年、ディープラーニング等の機械学習を活用した画像認識技術が様々なシステムに応用されている。例えば、監視カメラの画像により監視を行う監視システムへの適用が進められている。監視システムに機械学習を活用することで、画像から人物の姿勢や行動等の状態をある程度把握することが可能とされつつある。

しかしながら、このような関連する技術では、必ずしもオンデマンドにユーザが望む人物の状態を把握できない場合がある。例えば、ユーザが検索し把握したい人物の状態を事前に特定できている場合もあれば、未知の状態のように具体的に特定できていない場合もある。そうすると、場合によっては、ユーザが検索したい人物の状態を詳細に指定することができない。また、人物の体の一部が隠れているような場合には検索等を行うことができない。関連する技術では、特定の検索条件のみからしか人物の状態を検索できないため、所望の人物の状態を柔軟に検索や分類することが困難である。

発明者らは、オンデマンドに画像からユーザ所望の人物の状態を認識するため、非特許文献１などの骨格推定技術を利用する方法を検討した。非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、人物の状態を柔軟に認識することを可能とする。

なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。

（実施の形態の概要）
図１は、実施の形態に係る画像処理装置１０の概要を示している。図１に示すように、画像処理装置１０は、骨格検出部１１、特徴量算出部１２、及び認識部１３を備えている。骨格検出部１１は、カメラ等から取得される２次元画像に基づいて、複数の人物の２次元骨格構造（以下、単に「骨格構造」という場合がある）を検出する。特徴量算出部１２は、骨格検出部１１により検出された複数の２次元骨格構造の特徴量を算出する。認識部１３は、特徴量算出部１２により算出された複数の特徴量の類似度に基づいて、複数の人物の状態の認識処理を行う。認識処理は、人物の状態の分類処理や検索処理等である。

このように、実施の形態では、２次元画像から人物の２次元骨格構造を検出し、この２次元骨格構造から算出される特徴量に基づいて人物の状態の分類や検索等の認識処理を行う。

（実施の形態１）
以下、図面を参照して実施の形態１について説明する。図２は、本実施の形態に係る画像処理装置１００の構成を示している。画像処理装置１００は、カメラ２００及び記憶手段（データベース（ＤＢ）１１０）、とともに画像処理システム１を構成する。画像処理装置１００を含む画像処理システム１は、画像から推定される人物の骨格構造に基づき、人物の姿勢や行動等の状態を分類及び検索するシステムである。

カメラ２００は、２次元の画像を生成する監視カメラ等の撮像部である。カメラ２００は、所定の箇所に設置されて、その設置箇所から撮像領域における人物等を撮像する。カメラ２００は、撮像した画像（映像）を画像処理装置１００へ出力可能に有線又は無線で直接接続、もしくは任意の通信ネットワーク等を介して接続されている。なお、カメラ２００を画像処理装置１００の内部に設けてもよい。

データベース１１０は、画像処理装置１００の処理に必要な情報（データ）や処理結果等を格納するデータベースである。データベース１１０は、画像取得部１０１が取得した画像や、補正部１１１が生成した補正後画像や、骨格構造検出部１０２の検出結果、機械学習用のデータ、特徴量算出部１０３が算出した特徴量、分類部１０４の分類結果、検索部１０５の検索結果等を記憶する。データベース１１０は、画像処理装置１００と必要に応じてデータを入出力可能に有線又は無線で直接接続、もしくは任意の通信ネットワーク等を介して接続されている。なお、データベース１１０をフラッシュメモリなどの不揮発性メモリやハードディスク装置等として、画像処理装置１００の内部に設けてもよい。

図２に示すように、画像処理装置１００は、画像取得部１０１、骨格構造検出部１０２、特徴量算出部１０３、分類部１０４、検索部１０５、入力部１０６、表示部１０７、指定部１０９、補正部１１１及び再検出部１１２を備えている。なお、各部（ブロック）の構成は一例であり、後述の方法（動作）が可能であれば、その他の各部で構成されてもよい。また、画像処理装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、入力部１０６や表示部１０７等を外部の装置としてもよい。また、分類部１０４及び検索部１０５の両方を備えていてもよいし、いずれか一方のみを備えていてもよい。分類部１０４及び検索部１０５の両方、もしくは一方は、人物の状態の認識処理を行う認識部１３である。また、骨格構造検出部１０２、指定部１０９、補正部１１１及び再検出部１１２は、図１の骨格検出部１１に該当する。

画像処理装置１００は、データ蓄積処理と、分類処理と、検索処理とをこの順に実行する。なお、以下で説明するように、画像処理装置１００は分類処理を実行しなくてもよい。

＜データ蓄積処理＞
データ蓄積処理は、解析対象の画像（以下、「解析対象画像」）を取得し、複数の解析対象画像各々から人物の２次元骨格構造を検出し、検出された２次元骨格構造の特徴量を算出し、算出した特徴量を各解析対象画像に紐付けてデータベース１１０に格納する処理である。以下、データ蓄積処理に関わる機能部の構成を説明する。

画像取得部１０１は、解析対象画像を取得する。本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。

例えば、画像取得部１０１は、所定の監視期間にカメラ２００が撮像した人物を含む２次元の画像を解析対象画像として取得する。その他、画像取得部１０１は、データベース１１０等の記憶手段に記憶されている人物を含む２次元の画像を解析対象画像として取得してもよい。

骨格構造検出部１０２は、取得された解析対象画像各々から人物の２次元骨格構造を検出する。骨格構造検出部１０２は、解析対象画像の中で認識される全ての人物について、骨格構造を検出することができる。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用い、関節等の特徴的な点であるキーポイントを検出したりする。

指定部１０９は、２次元骨格構造の検出を行った解析対象画像の中に、２次元骨格構造の検出に失敗した人物が存在するか判定する（検出漏れ判定処理）。そして、指定部１０９は、２次元骨格構造の検出に失敗した人物が存在すると判定した解析対象画像に対し、未検出人物領域を指定する処理を実行する（未検出人物領域指定処理）。

「２次元骨格構造の検出に失敗した人物」は、骨格構造検出部１０２により所定数（１以上の整数）以上のキーポイントが検出されなかった人物である。「未検出人物領域」は、２次元骨格構造の検出に失敗した人物が存在する画像内の領域である。

まず、検出漏れ判定処理の一例を説明する。以下で説明するように、指定部１０９は、ユーザ入力に基づき、又は、画像解析で、２次元骨格構造の検出を行った解析対象画像の中に２次元骨格構造の検出に失敗した人物が存在するか判定することができる。

「検出漏れ判定処理例１」
指定部１０９は、図４５に示すように、画像取得部１０１が取得した解析対象画像上に、骨格構造検出部１０２による２次元骨格構造の検出結果を重畳した画像を生成し、ユーザに向けて出力する。当該画像では、図示するように、検出されたキーポイントやボーンを検出された画像上の位置に表示する。結果、各人物から検出されたキーポイントやボーンは、各人物に重ねて表示される。図示する人物Ｐ１乃至Ｐ３は、キーポイントやボーンが表示されている。一方、人物Ｐ４は、キーポイントやボーンが表示されていない。この表示により、人物Ｐ１乃至Ｐ３は２次元骨格構造の検出に成功し、人物Ｐ４は２次元骨格構造の検出に失敗したことが分かる。

上述の画像を表示後、指定部１０９は、２次元骨格構造の検出に失敗した人物が画像内に存在するか否かの入力をユーザから受け付ける。例えば、「当該画像の中に２次元骨格構造が検出されていない人物はいますか？」のような問い合わせ文を表示し、「ＹｅｓＯＲＮｏ」でその回答を受付けてもよい。ユーザは、キーポイントやボーンが重畳表示されていない人物や、その数が基準より少ない人物が画像内に存在する場合、２次元骨格構造の検出に失敗した人物が画像内に存在する旨を入力する。指定部１０９は、当該ユーザ入力に基づき、２次元骨格構造の検出に失敗した人物が存在するか判定する。

「検出漏れ判定処理例２」
指定部１０９は、画像取得部１０１が取得した解析対象画像に対して、人物検出処理を行う。人物検出処理は、骨格構造検出部１０２による２次元骨格構造の検出と異なるアルゴリズム（例えば、顔を検出するアルゴリズム）で、画像内の人物を検出する処理である。当該人物検出処理で採用するアルゴリズムは特段制限されず、周知のあらゆる技術を採用できる。

そして、指定部１０９は、上記人物検出処理で検出された人物の数が、２次元骨格構造の検出に成功した人物の数より多い場合、２次元骨格構造の検出に失敗した人物が存在すると判定する。なお、「２次元骨格構造の検出に成功した人物」は、所定数（１以上の整数）以上のキーポイントが検出された人物である。

次に、未検出人物領域指定処理の一例を説明する。以下で説明するように、指定部１０９は、ユーザ入力に基づき、又は、画像解析で、未検出人物領域を指定することができる。

「未検出人物領域指定処理例１」
指定部１０９は、図４５に示すような画像を表示し、当該画像上で未検出人物領域を指定する入力を受付ける。当該入力で、人物の輪郭を指定する入力を受付けてもよい。その他、当該入力で、人物を含む所定形状（矩形）の領域を指定する入力を受付けてもよい。後者の例の場合、指定された領域内に、人物以外の背景画像が含まれる。指定部１０９は、エッジ検出、予め用意された背景画像との差分算出、セマンテックセグメンテーション、インスタンスセグメンテーション等の任意の手段を用いて、人物領域と背景領域とを切り分け、人物のみが存在する未検出人物領域を得ることができる。

「未検出人物領域指定処理例２」
指定部１０９は、画像取得部１０１が取得した解析対象画像に対して、人物検出処理を行い、人物が存在する領域を検出する。人物検出処理は、骨格構造検出部１０２による２次元骨格構造の検出と異なるアルゴリズム（例えば、顔を検出するアルゴリズム）で、画像内の人物を検出する処理である。当該人物検出処理で採用するアルゴリズムは特段制限されず、周知のあらゆる技術を採用できる。例えば、セマンテックセグメンテーションやインスタンスセグメンテーション等の任意の手段を用いて、人物のみの領域を検出してもよいし、人物及び背景を含む所定形状（矩形）の領域を検出してもよい。

次いで、指定部１０９は、当該人物検出処理で検出された人物が存在する領域の画像内の位置と、骨格構造検出部１０２により検出された２次元骨格構造各々の画像内の位置とを照合し、人物検出処理で検出された領域のうち、その領域内で２次元骨格構造の検出に成功していない領域を特定する。

そして、指定部１０９は、特定した領域に基づき、未検出人物領域を指定する。上記人物検出処理で人物のみの領域が検出されている場合、指定部１０９は、特定した領域を、未検出人物領域として指定する。一方、上記人物検出処理で人物及び背景を含む所定形状（矩形）の領域が検出されている場合、指定部１０９は、エッジ検出、予め用意された背景画像との差分算出、セマンテックセグメンテーション、インスタンスセグメンテーション等の任意の手段を用いて、人物領域と背景領域とを切り分け、人物のみが存在する未検出人物領域を得ることができる。

補正部１１１は、解析対象画像に対し未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する。単純化する処理は、例えば、未検出人物領域以外の領域を所定の単色画像（例：白、青等）にする処理であってもよいし、未検出人物領域以外の領域を所定のパターン画像（例：ドットパタン、千鳥格子パターン等）にする処理であってもよいし、その他であってもよい。図４６に、図４５の解析対象画像に対して上記単純化する処理を行うことで生成された補正後画像の一例を示す。図４６に示す例では、人物Ｐ４が存在する領域（未検出人物領域）以外の領域が、白の単色画像になっている。未検出人物領域以外の領域の情報を単純化することで、当該単純化を行う前に比べて、未検出人物領域に存在する人物の２次元骨格構造が検出されやすくなる。

再検出部１１２は、補正後画像に含まれる人物の２次元骨格構造を検出する処理を骨格構造検出部１０２に実行させる。骨格構造検出部１０２は、解析対象画像に対する処理と同じアルゴリズムで補正後画像を処理し、補正後画像に含まれる人物の２次元骨格構造を検出する。

特徴量算出部１０３は、検出された２次元骨格構造の特徴量を算出し、算出した特徴量を、その２次元骨格構造が検出された解析対象画像に紐付けてデータベース１１０に格納する。骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態を分類や検索するための要素となる。通常、この特徴量は、複数のパラメータ（例えば後述する分類要素）を含んでいる。特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

なお、ユーザが望む分類や検索を行うためには、分類や検索処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない分類や検索を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。

＜分類処理＞
分類処理は、データ蓄積処理でデータベース１１０に格納されたデータ（解析対象画像と、各解析対象画像から検出された２次元骨格構造の特徴量とを紐付けたデータ）に基づき、解析対象画像から検出された複数の２次元骨格構造をその特徴量が類似するもの同士でまとめて分類（グループ分け）する処理である。なお、解析対象画像と、各解析対象画像から検出された２次元骨格構造とは互いに紐付けられている。このため、分類処理による複数の２次元骨格構造の分類は、複数の解析対象画像の分類にもなる。分類処理により、複数の解析対象画像は、類似する２次元骨格構造を含むもの同士でまとめられる。以下、分類処理に関わる機能部の構成を説明する。

分類部１０４は、データベース１１０に格納された複数の骨格構造を、骨格構造の特徴量の類似度に基づいて分類する（クラスタリングする）。分類部１０４は、人物の状態の認識処理として、骨格構造の特徴量に基づいて複数の人物の状態を分類しているとも言える。類似度は、骨格構造の特徴量間の距離である。分類部１０４は、骨格構造の全体の特徴量の類似度により分類してもよいし、骨格構造の一部の特徴量の類似度により分類してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により分類してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を分類してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を分類してもよい。すなわち、分類部１０４は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を分類できる。例えば、分類部１０４は、所定の監視期間に撮像された複数の画像における複数の骨格構造を分類対象とする。分類部１０４は、分類対象の特徴量間の類似度を求め、類似度の高い骨格構造が同じクラスタ（似た姿勢のグループ）となるように分類する。なお、検索と同様に、分類条件をユーザが指定できるようにしてもよい。分類部１０４は、骨格構造の分類結果をデータベース１１０に格納するとともに、表示部１０７に表示することができる。

＜検索処理＞
検索処理は、データ蓄積処理でデータベース１１０に格納されたデータ（解析対象画像と、各解析対象画像から検出された２次元骨格構造の特徴量とを紐付けたデータ）に基づき、解析対象画像から検出された複数の２次元骨格構造の中から所定の骨格構造を検索する処理である。なお、解析対象画像と、各解析対象画像から検出された２次元骨格構造とは互いに紐付けられている。このため、上記「解析対象画像から検出された複数の２次元骨格構造の中から所定の骨格構造を検索する処理」により、所定の骨格構造を含む解析対象画像を検索することができる。

本実施形態の検索処理では、画像処理装置１００は、１つ又は複数のクエリ画像の候補を取得すると、各々の評価値を算出する。この評価値は、コンピュータ処理により人物の状態の特徴部分がよく検出できる画像であるか否かの指標となる。そして、画像処理装置１００は、このような評価値に基づきクエリ画像の候補の中からクエリ画像を選択し、選択したクエリ画像に基づき検索を行う。このような画像処理装置１００によれば、検索用に好ましい画像をクエリ画像として選択することが可能となる。そして、所定の状態の人物を含む画像を高精度に検索できるようになる。以下、検索処理に関わる機能部の構成を説明する。

画像取得部１０１は、クエリ画像の候補を取得する。画像取得部１０１は、例えば以下の取得例のいずれかにより、クエリ画像の候補を取得することができる。

「取得例１」
当該例では、画像取得部１０１は、解析対象画像の中のいずれかをクエリ画像の候補として取得する。例えば、画像取得部１０１は、上記分類処理で生成した複数のグループ各々から所定のルールで所定数の解析対象画像を選択し、選択した解析対象画像をクエリ画像の候補としてもよい。

「取得例２」
当該例では、画像取得部１０１は、ユーザが用意し、画像処理装置１００に入力した画像をクエリ画像の候補として取得する。

「取得例３」
当該例では、画像取得部１０１は、ユーザが指定したキーワードで検索した画像をクエリ画像の候補として取得する。キーワードは、「座る」、「立つ」等のように、人物の状態（姿勢、行動等）に関する内容が想定される。キーワードの入力は、例えばテキストボックス、ドロップダウン、チェックボックス等の周知のＧＵＩを利用して実現できる。

例えば、予め、図３９に示すように、クエリ画像として利用されるために用意された画像（以下、「クエリ用の画像」）と、キーワード（各画像に含まれる人物の状態を示すワード）とを紐付けた情報が、データベース１１０に登録されてもよい。そして、画像取得部１０１は、入力されたキーワードが紐付けられたクエリ用の画像を当該情報の中から検索し、検索結果に含まれるクエリ用の画像の一部又は全部をクエリ画像の候補として取得してもよい。

その他、図４０に示すように、解析対象画像の一部と、キーワード（各画像に含まれる人物の状態を示すワード）とを紐付けた情報が、データベース１１０に登録されてもよい。そして、画像取得部１０１は、入力されたキーワードが紐付けられた解析対象画像を当該情報の中から検索し、検索結果に含まれる解析対象画像の一部又は全部をクエリ画像の候補として取得してもよい。

その他、画像取得部１０１は、キーワードに関連する画像を検索する検索エンジンに、入力されたキーワードを送信し、当該検索エンジンから検索結果を取得してもよい。そして、画像取得部１０１は、検索結果に含まれる画像の一部又は全部をクエリ画像の候補として取得してもよい。

骨格構造検出部１０２は、クエリ画像の候補に含まれる人物の２次元骨格構造を検出する。骨格構造検出部１０２の当該検出処理は、データ蓄積処理で説明した通りである。

検索部１０５は、骨格構造検出部１０２による２次元骨格構造の検出結果に基づき、クエリ画像の候補の評価値を算出する。検索部１０５は、検出されたキーポイントの数、及び検出されたキーポイント各々の信頼度（検出結果の信頼度）の少なくとも一方に基づき、評価値を算出することができる。また、検索部１０５は、画像内における人物の大きさに基づき、評価値を算出することができる。

評価値算出の詳細なアルゴリズムは特段制限されないが、以下の内容を満たすように設計される。
・検出されたキーポイントの数が多いほど、評価値が高い。
・検出されたキーポイントの信頼度が高いほど、評価値が高い。
・画像内における人物が大きいほど評価値が高い。

なお、検索部１０５は、ユーザ入力に基づき設定された複数のキーポイント各々の重み付け値に基づき、評価値を算出してもよい。この場合、評価値算出のアルゴリズムは、上記内容に加えて、さらに以下の内容を満たすように設計される。
・より重み付け値が高いキーポイントが検出されているほど、評価値が高い。
・より重み付け値が高いキーポイントが検出され、その信頼度が高いほど、評価値が高い。

ここで、ユーザ入力に基づき複数のキーポイント各々の重み付け値を設定する処理の一例を説明する。

まず、画像処理装置１００は、以下の３つの処理のいずれかに基づき、複数のキーポイントの中の一部を特定する。
・人物の身体を示す画像上で身体の一部を枠で囲むユーザ入力を受付け、当該枠内に含まれるキーポイントを特定する。
・人物の身体及び身体のキーポイントを示す画像（人物の身体上に複数のキーポイントを重畳した画像）上で一部のキーポイントを指定するユーザ入力を受付け、指定されたキーポイントを特定する。
・人物の身体の一部をその部位の名称（例；右腕、右足、下半身、上半身等）で指定するユーザ入力を受付け、指定された部位に含まれるキーポイントを特定する。

そして、画像処理装置１００は、特定したキーポイントの重み付け値をユーザ入力に基づき設定する。

検索部１０５は、各クエリ画像の候補の評価値に基づき、クエリ画像の候補の中からクエリ画像を選択する。例えば、検索部１０５は、図４１や図４２に示すように、複数のクエリ画像の候補の評価値（図中、各画像の下に表示された数値）を比較可能に出力し、複数のクエリ画像の候補の中から１つ又は複数のクエリ画像を指定するユーザ入力を受付ける。そして、検索部１０５は、ユーザ入力で指定された１つ又は複数のクエリ画像の候補をクエリ画像として選択する。なお、図４１及び図４２の例では、複数のクエリ画像の候補の評価値を一覧表示することで、それらが比較可能になっているが、画面に表示するクエリ画像の候補を順に切り替えることで、それらを比較可能にしてもよい。そして、検索部１０５は、評価値が高い順にクエリ画像の候補を表示してもよい。例えば、検索部１０５は、評価値の順に並べて、クエリ画像の候補及びその評価値を一覧表示してもよい。また、検索部１０５は、クエリ画像の候補及びその評価値を、評価値の順に順次表示してもよい。なお、図４１や図４２に示す例では複数のクエリ画像の候補の評価値が表示されているが、画像取得部１０１が１つのクエリ画像の候補を取得した場合、その１つのクエリ画像の候補の評価値が表示される。

図４１は、上述したキーワードでクエリ画像の候補を検索した場合の例であり、検索結果として、キーワードでヒットした画像（クエリ画像の候補）と、各々の評価値（各画像に紐付いた数値）が表示されている。

図４２は、解析対象画像の一部をクエリ画像の候補として取得する場合の例である。上記分類処理で生成した複数のグループ各々から所定のルールで選択された所定数の解析対象画像が、クエリ画像の候補として表示されている。複数のクエリ画像の候補は、グループ毎にまとめて表示されている。そして、複数のクエリ画像の候補各々の評価値（各画像に紐付いた数値）が表示されている。

なお、図４２に示すように検出されたキーポイントを表示してもよいし、図４１に示すように検出されたキーポイントを表示しなくてもよい。

「選択例２」
検索部１０５は、評価値が基準（基準値以上）を満たすクエリ画像の候補を、クエリ画像として選択する。この例の場合、画像処理装置１００がクエリ画像の候補の中からクエリ画像を自動選択するので、ユーザによる選択操作が不要となる。

特徴量算出部１０３は、検索部１０５が選択したクエリ画像から検出された２次元骨格構造の特徴量を算出する。特徴量算出部１０３の当該算出処理は、データ蓄積処理で説明した通りである。

そして、検索部１０５は、データ蓄積処理でデータベース１１０に格納された複数の骨格構造の中から、検索クエリ（クエリ状態）の特徴量（クエリ画像から検出された２次元骨格構造の特徴量）と類似度の高い骨格構造を検索する。

例えば、検索部１０５は、検索クエリの特徴量と、複数の解析対象画像各々から検出された骨格構造の特徴量とを照合することで、検索クエリの特徴量と類似度の高い骨格構造を検索してもよい。この構成の場合、上述した分類処理は不要となる。しかし、照合対象が複数の解析対象画像の全てとなるので、照合におけるコンピュータの処理負担が大きくなる。

そこで、検索部１０５は、分類処理で得られたグループ毎に２次元骨格構造の特徴量の代表を任意の手段で決定し、代表と上記検索クエリの特徴量との照合により、検索クエリの特徴量と類似度の高い骨格構造を検索してもよい。この構成の場合、照合対象の数が少なくなるので、照合におけるコンピュータの処理負担が小さくなる。

なお、解析対象画像と、各解析対象画像から検出された２次元骨格構造とは互いに紐付けられている。このため、上記「解析対象画像から検出された複数の２次元骨格構造の中から所定の骨格構造を検索する処理」により、所定の骨格構造（検索クエリの特徴量と類似度の高い骨格構造）を含む解析対象画像を検索することができる。すなわち、解析対象画像の中から、クエリ画像に含まれる人物の状態と類似する状態の人物を含む解析対象画像を検索することができる。

類似度は、骨格構造の特徴量間の距離である。検索部１０５は、骨格構造の全体の特徴量の類似度により検索してもよいし、骨格構造の一部の特徴量の類似度により検索してもよく、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度により検索してもよい。なお、各画像における人物の骨格構造の特徴量に基づいて人物の姿勢を検索してもよいし、時系列に連続する複数の画像における人物の骨格構造の特徴量の変化に基づいて人物の行動を検索してもよい。すなわち、検索部１０５は、骨格構造の特徴量に基づいて人物の姿勢や行動を含む人物の状態を検索できる。例えば、検索部１０５は、所定の監視期間に撮像された複数の解析対象画像における複数の骨格構造の特徴量を検索対象とする。

入力部１０６は、画像処理装置１００を操作するユーザから入力された情報を取得する入力インターフェイスである。例えば、ユーザは、監視カメラの画像から不審な状態の人物を監視する監視者である。入力部１０６は、例えば、ＧＵＩ（Graphical User Interface）であり、キーボード、マウス、タッチパネル、マイク、物理ボタン等の入力装置から、ユーザの操作に応じた情報が入力される。

表示部１０７は、画像処理装置１００の動作（処理）の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイ等のディスプレイ装置である。表示部１０７は、分類部１０４の分類結果、検索部１０５の検索結果、上述したクエリ画像の候補の評価値等を表示する。

次に、画像処理装置１００のハードウエア構成の一例を説明する。画像処理装置１００の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図４３は、画像処理装置１００のハードウエア構成を例示するブロック図である。図４３に示すように、画像処理装置１００は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置１００は周辺回路４Ａを有さなくてもよい。なお、画像処理装置１００は物理的及び／又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び／又は論理的に一体となった１つの装置で構成されてもよい。画像処理装置１００が物理的及び／又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。

バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

図３～図５、図４４、図４７は、本実施の形態に係る画像処理装置１００の処理の流れを示している。図３は、画像処理装置１００における画像取得から検索処理までの流れを示し、図４は、図３の分類処理（Ｓ１０４）の流れを示し、図５、図４４は、図３の検索処理（Ｓ１０５）の流れを示している。図４７は、図３のＳ１０２及び図４４のＳ３２２の骨格構造検出処理の流れの一例を示している。

図３に示すように、画像取得部１０１は、複数の解析対象画像を取得する（Ｓ１０１）。続いて、骨格構造検出部１０２は、取得された複数の解析対象画像各々から人物の２次元骨格構造を検出する（Ｓ１０２）。図６は、骨格構造の検出例を示している。図６に示すように、解析対象画像には複数の人物が含まれている場合がある。この場合、骨格構造検出部１０２は、解析対象画像に含まれる各人物について骨格構造を検出する。

図７は、このとき検出する人体モデル３００の骨格構造を示しており、図８～図１０は、骨格構造の検出例を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図７のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を検出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図７の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。骨格構造検出部１０２は、検出した人物の骨格構造をデータベース１１０に格納する。

図８は、起立した状態の人物を検出する例である。図８では、起立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

図９は、しゃがみ込んでいる状態の人物を検出する例である。図９では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

図１０は、寝ている状態の人物を検出する例である。図１０では、寝ている人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

続いて、図３に示すように、特徴量算出部１０３は、検出された骨格構造の特徴量を算出する（Ｓ１０３）。例えば、骨格領域の高さや面積を特徴量とする場合、特徴量算出部１０３は、骨格構造を含む領域を検出し、その領域の高さ（画素数）や面積（画素面積）を求める。骨格領域の高さや面積は、検出される骨格領域の端部の座標や端部のキーポイントの座標から求められる。特徴量算出部１０３は、求めた骨格構造の特徴量をデータベース１１０に格納する。なお、この骨格構造の特徴量は、人物の状態を示す情報としても用いられる。

図８の例では、起立した人物の骨格構造から全てのボーンを含む骨格領域を検出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は左足のキーポイントＡ８２、骨格領域の左端は右肘のキーポイントＡ４１、骨格領域の右端は左手のキーポイントＡ５２となる。このため、キーポイントＡ１とキーポイントＡ８２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ４１とキーポイントＡ５２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図９の例では、しゃがみ込んだ人物の骨格構造から全てのボーンを含む骨格領域を検出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は右足のキーポイントＡ８１、骨格領域の左端は右腰のキーポイントＡ６１、骨格領域の右端は右手のキーポイントＡ５１となる。このため、キーポイントＡ１とキーポイントＡ８１のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ６１とキーポイントＡ５１のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

図１０の例では、寝ている人物の骨格構造から全てのボーンを含む骨格領域を検出する。この場合、骨格領域の上端は左肩のキーポイントＡ３２、骨格領域の下端は左手のキーポイントＡ５２、骨格領域の左端は右手のキーポイントＡ５１、骨格領域の右端は左足のキーポイントＡ８２となる。このため、キーポイントＡ３２とキーポイントＡ５２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ５１とキーポイントＡ８２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。

続いて、図３に示すように、分類部１０４は、分類処理を行う（Ｓ１０４）。分類処理では、図４に示すように、分類部１０４は、算出された骨格構造の特徴量の類似度を算出し（Ｓ１１１）、算出された特徴量に基づいて骨格構造を分類する（Ｓ１１２）。分類部１０４は、分類対象であるデータベース１１０に格納されている全ての骨格構造間の特徴量の類似度を求め、最も類似度が高い骨格構造（姿勢）を同じクラスタに分類する（クラスタリングする）。さらに、分類したクラスタ間の類似度を求めて分類し、所定の数のクラスタとなるまで分類を繰り返す。図１１は、骨格構造の特徴量の分類結果のイメージを示している。図１１は、２次元の分類要素によるクラスタ分析のイメージであり、２つ分類要素は、例えば、骨格領域の高さと骨格領域の面積等である。図１１では、分類の結果、複数の骨格構造の特徴量が３つのクラスタＣ１～Ｃ３に分類されている。クラスタＣ１～Ｃ３は、例えば、立っている姿勢、座っている姿勢、寝ている姿勢のように各姿勢に対応し、似ている姿勢ごとに骨格構造（人物）が分類される。

本実施の形態では、人物の骨格構造の特徴量に基づいて分類することにより、多様な分類方法を用いることができる。なお、分類方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。また、後述する検索方法と同じ方法により分類を行ってもよい。つまり、検索条件と同様の分類条件により分類してもよい。例えば、分類部１０４は、次の分類方法により分類を行う。いずれかの分類方法を用いてもよいし、任意に選択された分類方法を組み合わせてもよい。

＜分類方法１＞
複数の階層による分類全身の骨格構造による分類や、上半身や下半身の骨格構造による分類、腕や脚の骨格構造による分類等を階層的に組み合わせて分類する。すなわち、骨格構造の第１の部分や第２の部分の特徴量に基づいて分類し、さらに、第１の部分や第２の部分の特徴量に重みづけを行って分類してもよい。

＜分類方法２＞
時系列に沿った複数枚の画像による分類時系列に連続する複数の画像における骨格構造の特徴量に基づいて分類する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて分類してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて分類してもよい。

＜分類方法３＞
骨格構造の左右を無視した分類人物の右側と左側が反対の骨格構造を同じ骨格構造として分類する。

さらに、分類部１０４は、骨格構造の分類結果を表示する（Ｓ１１３）。分類部１０４は、データベース１１０から必要な骨格構造や人物の画像を取得し、分類結果として似ている姿勢（クラスタ）ごとに骨格構造及び人物を表示部１０７に表示する。図１２は、姿勢を３つに分類した場合の表示例を示している。例えば、図１２に示すように、表示ウィンドウＷ１に、姿勢ごとの姿勢領域ＷＡ１～ＷＡ３を表示し、姿勢領域ＷＡ１～ＷＡ３にそれぞれ該当する姿勢の骨格構造及び人物（イメージ）を表示する。姿勢領域ＷＡ１は、例えば立っている姿勢の表示領域であり、クラスタＣ１に分類された、立っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ２は、例えば座っている姿勢の表示領域であり、クラスタＣ２に分類された、座っている姿勢に似た骨格構造及び人物を表示する。姿勢領域ＷＡ３は、例えば寝ている姿勢の表示領域であり、クラスタＣ２に分類された、寝ている姿勢に似た骨格構造及び人物を表示する。

続いて、図３に示すように、画像処理装置１００は、検索処理を行う（Ｓ１０５）。検索処理では、図５に示すように、画像処理装置１００は、検索条件の入力を受け付ける（Ｓ１２１）。

Ｓ１２１の処理の一例を、図４４を用いて説明する。画像取得部１０１は上述した取得例１乃至３のいずれかに基づき、１つ又は複数のクエリ画像の候補を取得する（Ｓ３２１）。次いで、骨格構造検出部１０２は、各クエリ画像の候補に含まれる人物の２次元骨格構造を検出する（Ｓ３２２）。次いで、検索部１０５は、Ｓ３２２における２次元骨格構造の検出結果に基づき、各クエリ画像の候補の評価値を算出する（Ｓ３２３）。

次いで、検索部１０５は、Ｓ３２３で算出された評価値に基づき、クエリ画像の候補の中からクエリ画像を選択する（Ｓ３２４）。次いで、特徴量算出部１０３は、Ｓ３２４で選択されたクエリ画像から検出された２次元骨格構造の特徴量を算出する（Ｓ３２５）。クエリ画像から検出された２次元骨格構造の特徴量が、検索クエリとなる。

図５に戻り、その後、検索部１０５は、検索条件に基づいて骨格構造を検索する（Ｓ１２２）。検索部１０５は、ユーザにより指定された骨格構造を検索クエリとして、検索対象であるデータベース１１０に格納されている骨格構造の中から特徴量の類似度が高い骨格構造を検索する。検索部１０５は、検索クエリの骨格構造の特徴量と検索対象の骨格構造の特徴量（解析対象画像から検出された骨格構造の特徴量）との類似度を算出し、算出した類似度が所定の閾値よりも高い骨格構造を検出する。検索クエリの骨格構造の特徴量は、予め算出された特徴量を使用してもよいし、検索時に求めた特徴量を使用してもよい。なお、検索クエリは、ユーザの操作に応じて骨格構造の各部を動かすことで入力してもよいし、ユーザがカメラの前で実演した姿勢を検索クエリとしてもよい。

本実施の形態では、分類方法と同様に、人物の骨格構造の特徴量に基づいて検索することにより、多様な検索方法を用いることができる。なお、検索方法は、予め設定されていてもよいし、ユーザが任意に設定できるようにしてもよい。例えば、検索部１０５は、次の検索方法により検索を行う。いずれかの検索方法を用いてもよいし、任意に選択された検索方法を組み合わせてもよい。複数の検索方法（検索条件）を論理式（例えばAND（論理積）、OR（論理和）、NOT（否定））により組み合わせて検索してもよい。例えば、検索条件を「（右手を挙げている姿勢）AND（左足を挙げている姿勢）」として検索してもよい。

＜検索方法１＞
高さ方向の特徴量のみによる検索人物の高さ方向の特徴量のみを用いて検索することで、人物の横方向の変化の影響を抑えることができ、人物の向きや人物の体型の変化に対しロバスト性が向上する。例えば、図１３の骨格構造５０１～５０３のように、人物の向きや体型が異なる場合でも、高さ方向の特徴量は大きく変化しない。このため、骨格構造５０１～５０３では、検索時（分類時）に同じ姿勢であると判断することができる。

＜検索方法２＞
部分検索画像において人物の体の一部が隠れている場合、認識可能な部分の情報のみを用いて検索する。例えば、図１４の骨格構造５１１及び５１２のように、左足が隠れていることにより、左足のキーポイントが検出できない場合でも、検出されている他のキーポイントの特徴量を使用して検索できる。このため、骨格構造５１１及び５１２では、検索時（分類時）に同じ姿勢であると判断することができる。つまり、全てのキーポイントではなく、一部のキーポイントの特徴量を用いて、分類や検索を行うことができる。図１５の骨格構造５２１及び５２２の例では、両足の向きが異なっているものの、上半身のキーポイント（Ａ１、Ａ２、Ａ３１、Ａ３２、Ａ４１、Ａ４２、Ａ５１、Ａ５２）の特徴量を検索クエリとすることで、同じ姿勢であると判断することができる。また、検索したい部分（特徴点）に対して、重みを付けて検索してもよいし、類似度判定の閾値を変化させてもよい。体の一部が隠れている場合、隠れた部分を無視して検索してもよいし、隠れた部分を加味して検索してもよい。隠れた部分も含めて検索することで、同じ部位が隠れているような姿勢を検索することができる。

＜検索方法３＞
骨格構造の左右を無視した検索人物の右側と左側が反対の骨格構造を同じ骨格構造として検索する。例えば、図１６の骨格構造５３１及び５３２のように、右手を挙げている姿勢と、左手を挙げている姿勢を同じ姿勢として検索（分類）できる。図１６の例では、骨格構造５３１と骨格構造５３２は、右手のキーポイントＡ５１、右肘のキーポイントＡ４１、左手のキーポイントＡ５２、左肘のキーポイントＡ４２の位置が異なるものの、その他のキーポイントの位置は同じである。骨格構造５３１の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１と骨格構造５３２の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となり、また、骨格構造５３１の左手のキーポイントＡ５２及び左肘のキーポイントＡ４２と骨格構造５３２の右手のキーポイントＡ５１及び右肘のキーポイントＡ４１のうち、一方の骨格構造のキーポイントを左右反転させると、他方の骨格構造のキーポイントと同じ位置となるため、同じ姿勢と判断する。

＜検索方法４＞
縦方向と横方向の特徴量による検索人物の縦方向（Ｙ軸方向）の特徴量のみで検索を行った後、得られた結果をさらに人物の横方向（Ｘ軸方向）の特徴量を用いて検索する。

＜検索方法５＞
時系列に沿った複数枚の画像による検索時系列に連続する複数の画像における骨格構造の特徴量に基づいて検索する。例えば、時系列方向に特徴量を積み重ねて、累積値に基づいて検索してもよい。さらに、連続する複数の画像における骨格構造の特徴量の変化（変化量）に基づいて検索してもよい。

さらに、検索部１０５は、骨格構造の検索結果を表示する（Ｓ１２３）。検索部１０５は、データベース１１０から必要な骨格構造や人物の画像を取得し、検索結果として得られた骨格構造及び人物を表示部１０７に表示する。例えば、検索クエリ（検索条件）が複数指定されている場合、検索クエリごとに検索結果を表示する。図１７は、３つの検索クエリ（姿勢）により検索した場合の表示例を示している。例えば、図１７に示すように、表示ウィンドウＷ２において、左端部に指定された検索クエリＱ１０、Ｑ２０、Ｑ３０の骨格構造及び人物を表示し、検索クエリＱ１０、Ｑ２０、Ｑ３０の右側に各検索クエリの検索結果Ｑ１１、Ｑ２１、Ｑ３１の骨格構造及び人物を並べて表示する。

検索結果を検索クエリの隣から並べて表示する順番は、該当する骨格構造が見つかった順でもよいし、類似度が高い順でもよい。部分検索の部分（特徴点）に重みを付けて検索した場合に、重み付けて計算した類似度順に表示してもよい。ユーザが選択した部分（特徴点）のみから計算した類似度順に表示してもよい。また、検索結果の画像（フレーム）を中心に、時系列の前後の画像（フレーム）を一定時間分切り出して表示してもよい。

次に、図４７を用いて、図３のＳ１０２及び図４４のＳ３２２の骨格構造検出処理の流れの一例を説明する。

まず、骨格構造検出部１０２は、処理対象の画像（解析対象画像、クエリ画像の候補等）に含まれる人物の２次元骨格構造を検出する（Ｓ４２１）。画像内に複数の人物が存在する場合、骨格構造検出部１０２は、複数の人物各々の２次元骨格構造を検出する。

次いで、指定部１０９は、例えば上述した検出漏れ判定処理例１又は２に基づき、Ｓ４２１で処理された画像の中に、２次元骨格構造の検出に失敗した人物が存在するか判定する（Ｓ４２２）。２次元骨格構造の検出に失敗した人物が存在しない場合（Ｓ４２２のＮｏ）、Ｓ４２１での２次元骨格構造の検出結果が出力される（Ｓ４２６）。

一方、２次元骨格構造の検出に失敗した人物が存在する場合（Ｓ４２２のＹｅｓ）、指定部１０９は、例えば上述した未検出人物領域指定処理例１又は２に基づき、２次元骨格構造の検出に失敗した人物が存在する画像内の領域である未検出人物領域を指定する（Ｓ４２３）。

次いで、補正部１１１は、処理対象の画像に対し、記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する（Ｓ４２４）。その後、再検出部１１２は、補正後画像に含まれる人物の２次元骨格構造を検出する処理を骨格構造検出部１０２に実行させる（Ｓ４２５）。そして、Ｓ４２１及びＳ４２５での２次元骨格構造の検出結果が出力される（Ｓ４２６）。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造の特徴量に基づいて分類や検索を行うことを可能とした。これにより、類似度が高い似た姿勢ごとに分類することができ、また、検索クエリ（検索キー）と類似度が高い似た姿勢を検索することができる。画像から似ている姿勢を分類し表示することで、ユーザが姿勢等を指定することなく、画像中の人物の姿勢を把握することができる。分類結果の中からユーザが検索クエリの姿勢を指定できるため、予めユーザが検索したい姿勢を詳細に把握していない場合でも、所望の姿勢を検索することができる。例えば、人物の骨格構造の全体や一部等を条件として分類や検索を行うことができるため、柔軟な分類や検索が可能となる。

また、本実施の形態では、２次元骨格構造の検出に失敗した人物が画像内に存在する場合、その人物が存在する領域（未検出人物領域）以外の領域の情報を単純化する補正を行い、当該補正後画像に基づき、再度２次元骨格構造を検出する処理を行う。このような処理を行うことで、補正前の画像では２次元骨格構造を検出できなかった人物の２次元骨格構造を検出することが可能となる。本発明者は、当該処理は、画像内における人物の位置（端に位置するなど）や周辺の背景画像等に起因して人物の状態を検出できない場合の改善策として有効であることを確認している。

また、本実施の形態では、２次元骨格構造の検出に失敗した人物が存在する場合のみ、上記補正後画像の生成、及び、補正後画像に基づく、再度の２次元骨格構造の検出を行うことができる。すなわち、補正後画像でなく補正前の画像から次元骨格構造を検出できる人物に対しては当該処理を回避できる。このため、不要に多く当該処理を実行することによるコンピュータ負担を軽減できる。

また、本実施の形態では、コンピュータによる画像解析で、２次元骨格構造の検出に失敗した人物が存在するか否かの判定や、未検出人物領域の検出を行うことができる。このため、ユーザの負担を軽減できる。また、上述のような特徴的な手法で当該検出や判定を行うことができるで、精度よく当該検出や判定を行うことができる。

また、本実施の形態では、画像処理装置１００は、クエリ画像の候補を取得すると、各々の評価値を算出する。この評価値は、コンピュータ処理により人物の状態の特徴部分がよく検出できる画像であるか否かの指標となる。そして、画像処理装置１００は、このような評価値に基づきクエリ画像の候補の中からクエリ画像を選択し、選択したクエリ画像に基づき検索を行う。このような画像処理装置１００によれば、検索用に好ましい画像をクエリ画像として選択することが可能となる。そして、所定の状態の人物を含む画像を高精度に検索できるようになる。

また、本実施の形態では、画像処理装置１００は、検出されたキーポイントの数、及び検出されたキーポイント各々の信頼度の少なくとも一方に基づき、評価値を算出することができる。また、画像処理装置１００は、画像内における人物の大きさに基づき、評価値を算出することができる。このような画像処理装置１００によれば、コンピュータ処理により人物の状態の特徴部分がよく検出できる画像であるか否かをよく表した評価値を算出することができる。

また、本実施の形態では、画像処理装置１００は、ユーザ入力に基づき設定された複数のキーポイント各々の重み付け値に基づき、評価値を算出することができる。このような画像処理装置１００によれば、検索したい人物の状態の中における特に特徴的な部分が、コンピュータ処理によりよく検出できる画像であるか否かを精度よく評価することが可能となる。例えば、右手を挙げている人物を検索したい場合、右手部分が特に特徴的な部分となる。そして、右手部分に含まれるキーポイントの重み付け値が高めに設定される。

また、本実施の形態では、画像処理装置１００は、「人物の身体を示す画像上で身体の一部を枠で囲むユーザ入力を受付け、当該枠内に含まれるキーポイントを特定する処理」、「人物の身体及び身体のキーポイントを示す画像上で一部のキーポイントを指定するユーザ入力を受付け、指定されたキーポイントを特定する処理」、又は「人物の身体の一部をその部位の名称で指定するユーザ入力を受付け、指定された部位に含まれるキーポイントを特定する処理」、により一部のキーポイントを特定し、特定したキーポイントの重み付け値をユーザ入力に基づき設定することができる。このような画像処理装置１００によれば、ユーザは、所望のキーポイントを容易に指定することが可能となる。すなわち、操作性の高いユーザフレンドリーな仕組みが実現される。

また、本実施形態では、画像処理装置１００は、クエリ画像の候補を取得すると、評価値を算出し、算出した評価値をユーザに提示することができる。そして、画像処理装置は、その後にクエリ画像の候補の中からクエリ画像を選択するユーザ入力を受付け、選択されたクエリ画像に基づく検索を行うことができる。このような画像処理装置１００によれば、ユーザは、評価値に基づき、クエリ画像の候補の中から所望のクエリ画像を容易に選択することが可能となる。特に、クエリ画像の候補が多数ある場合に、特に有益である。

（実施の形態２）
以下、図面を参照して実施の形態２について説明する。本実施の形態では、実施の形態１における特徴量算出の具体例について説明する。本実施の形態では、人物の身長を用いて正規化することで特徴量を求める。その他については、実施の形態１と同様である。

図１８は、本実施の形態に係る画像処理装置１００の構成を示している。図１８に示すように、画像処理装置１００は、実施の形態１の構成に加えて、さらに身長算出部１０８を備える。なお、特徴量算出部１０３と身長算出部１０８を一つの処理部としてもよい。

身長算出部（身長推定部）１０８は、骨格構造検出部１０２により検出された２次元骨格構造に基づき、２次元の画像内の人物の起立時の高さ（身長画素数という）を算出（推定）する。身長画素数は、２次元の画像における人物の身長（２次元画像空間上の人物の全身の長さ）であるとも言える。身長算出部１０８は、検出された骨格構造の各ボーンの長さ（２次元画像空間上の長さ）から身長画素数（ピクセル数）を求める。

以下の例では、身長画素数を求める方法として具体例１～３を用いる。なお、具体例１～３のいずれかの方法を用いてもよいし、任意に選択される複数の方法を組み合わせて用いてもよい。具体例１では、骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求める。骨格構造検出部１０２（骨格推定技術）が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正することもできる。具体例２では、各ボーンの長さと全身の長さ（２次元画像空間上の身長）との関係を示す人体モデルを用いて、身長画素数を算出する。具体例３では、３次元人体モデルを２次元骨格構造にフィッティング（あてはめる）することで、身長画素数を算出する。

本実施の形態の特徴量算出部１０３は、算出された人物の身長画素数に基づいて、人物の骨格構造（骨格情報）を正規化する正規化部である。特徴量算出部１０３は、正規化した骨格構造の特徴量（正規化値）をデータベース１１０に格納する。特徴量算出部１０３は、骨格構造に含まれる各キーポイント（特徴点）の画像上での高さを、身長画素数で正規化する。本実施の形態では、例えば、高さ方向は、画像の２次元座標（Ｘ－Ｙ座標）空間における上下の方向（Ｙ軸方向）である。この場合、キーポイントの高さは、キーポイントのＹ座標の値（画素数）から求めることができる。あるいは、高さ方向は、実世界の３次元座標空間における地面（基準面）に対し垂直な鉛直軸の方向を、２次元座標空間に投影した鉛直投影軸の方向（鉛直投影方向）でもよい。この場合、キーポイントの高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて２次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値（画素数）から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラ２００の姿勢、位置、撮像角度、焦点距離等である。カメラ２００により、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。撮像された画像の両端ではひずみが発生し、実世界の鉛直方向と画像の上下方向が合わない場合がある。これに対し、画像を撮影したカメラのパラメータを使用することで、実世界の鉛直方向が画像中でどの程度傾いているのかが分かる。このため、カメラパラメータに基づいて画像中に投影した鉛直投影軸に沿ったキーポイントの値を身長で正規化することで、実世界と画像のずれを考慮してキーポイントを特徴量化することができる。なお、左右方向（横方向）は、画像の２次元座標（Ｘ－Ｙ座標）空間における左右の方向（Ｘ軸方向）であり、または、実世界の３次元座標空間における地面に対し平行な方向を、２次元座標空間に投影した方向である。

図１９～図２３は、本実施の形態に係る画像処理装置１００の処理の流れを示している。図１９は、画像処理装置１００における画像取得から検索処理までの流れを示し、図２０～図２２は、図１９の身長画素数算出処理（Ｓ２０１）の具体例１～３の流れを示し、図２３は、図１９の正規化処理（Ｓ２０２）の流れを示している。

図１９に示すように、本実施の形態では、実施の形態１における特徴量算出処理（Ｓ１０３）として、身長画素数算出処理（Ｓ２０１）及び正規化処理（Ｓ２０２）を行う。その他については実施の形態１と同様である。

画像処理装置１００は、画像取得（Ｓ１０１）及び骨格構造検出（Ｓ１０２）に続いて、検出された骨格構造に基づいて身長画素数算出処理を行う（Ｓ２０１）。この例では、図２４に示すように、画像における直立時の人物の骨格構造の高さを身長画素数（ｈ）とし、画像の人物の状態における骨格構造の各キーポイントの高さをキーポイント高さ（ｙｉ）とする。以下、身長画素数算出処理の具体例１～３について説明する。

＜具体例１＞
具体例１では、頭部から足部までのボーンの長さを用いて身長画素数を求める。具体例１では、図２０に示すように、身長算出部１０８は、各ボーンの長さを取得し（Ｓ２１１）、取得した各ボーンの長さを合計する（Ｓ２１２）。

身長算出部１０８は、人物の頭部から足部の２次元の画像上のボーンの長さを取得し、身長画素数を求める。すなわち、骨格構造を検出した画像から、図２４のボーンのうち、ボーンＢ１（長さＬ１）、ボーンＢ５１（長さＬ２１）、ボーンＢ６１（長さＬ３１）及びボーンＢ７１（長さＬ４１）、もしくは、ボーンＢ１（長さＬ１）、ボーンＢ５２（長さＬ２２）、ボーンＢ６２（長さＬ３２）及びボーンＢ７２（長さＬ４２）の各長さ（画素数）を取得する。各ボーンの長さは、２次元の画像における各キーポイントの座標から求めることができる。これらを合計した、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、もしくは、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数（ｈ）として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。

図２５の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出されている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

図２６の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い右足側のＬ１＋Ｌ２１＋Ｌ３１＋Ｌ４１に補正定数を乗じた値を身長画素数とする。

図２７の例では、ボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２が重なっている。これらのボーンの合計である、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、及び、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２を求め、例えば、検出されたボーンの長さが長い左足側のＬ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数とする。

具体例１では、頭から足までのボーンの長さを合計することで身長を求めることができるため、簡易な方法で身長画素数を求めることができる。また、機械学習を用いた骨格推定技術により、少なくとも頭から足までの骨格を検出できればよいため、しゃがみ込んでいる状態など、必ずしも人物の全体が画像に写っていない場合でも精度よく身長画素数を推定することができる。

＜具体例２＞
具体例２では、２次元骨格構造に含まれる骨の長さと２次元画像空間上の人物の全身の長さとの関係を示す２次元骨格モデルを用いて身長画素数を求める。

図２８は、具体例２で用いる、２次元画像空間上の各ボーンの長さと２次元画像空間上の全身の長さとの関係を示す人体モデル（２次元骨格モデル）３０１である。図２８に示すように、平均的な人物の各ボーンの長さと全身の長さとの関係（全身の長さに対する各ボーンの長さの割合）を、人体モデル３０１の各ボーンに対応付ける。例えば、頭のボーンＢ１の長さは全身の長さ×０．２（２０％）であり、右手のボーンＢ４１の長さは全身の長さ×０．１５（１５％）であり、右足のボーンＢ７１の長さは全身の長さ×０．２５（２５％）である。このような人体モデル３０１の情報をデータベース１１０に記憶しておくことで、各ボーンの長さから平均的な全身の長さを求めることができる。平均的な人物の人体モデルの他に、年代、性別、国籍等の人物の属性ごとに人体モデルを用意してもよい。これにより、人物の属性に応じて適切に全身の長さ（身長）を求めることができる。

具体例２では、図２１に示すように、身長算出部１０８は、各ボーンの長さを取得する（Ｓ２２１）。身長算出部１０８は、検出された骨格構造において、全てのボーンの長さ（２次元画像空間上の長さ）を取得する。図２９は、しゃがみ込んでいる状態の人物を右斜め後ろから撮像し、骨格構造を検出した例である。この例では、人物の顔や左側面が写っていないことから、頭のボーンと左腕及び左手のボーンが検出できていない。このため、検出されているボーンＢ２１、Ｂ２２、Ｂ３１、Ｂ４１、Ｂ５１、Ｂ５２、Ｂ６１、Ｂ６２、Ｂ７１、Ｂ７２の各長さを取得する。

続いて、身長算出部１０８は、図２１に示すように、人体モデルに基づき、各ボーンの長さから身長画素数を算出する（Ｓ２２２）。身長算出部１０８は、図２８のような、各ボーンと全身の長さとの関係を示す人体モデル３０１を参照し、各ボーンの長さから身長画素数を求める。例えば、右手のボーンＢ４１の長さが全身の長さ×０．１５であるため、ボーンＢ４１の長さ／０．１５によりボーンＢ４１に基づいた身長画素数を求める。また、右足のボーンＢ７１の長さが全身の長さ×０．２５であるため、ボーンＢ７１の長さ／０．２５によりボーンＢ７１に基づいた身長画素数を求める。

このとき参照する人体モデルは、例えば、平均的な人物の人体モデルであるが、年代、性別、国籍等の人物の属性に応じて人体モデルを選択してもよい。例えば、撮像した画像に人物の顔が写っている場合、顔に基づいて人物の属性を識別し、識別した属性に対応する人体モデルを参照する。属性ごとの顔を機械学習した情報を参照し、画像の顔の特徴から人物の属性を認識することができる。また、画像から人物の属性が識別できない場合に、平均的な人物の人体モデルを用いてもよい。

また、ボーンの長さから算出した身長画素数をカメラパラメータにより補正してもよい。例えばカメラを高い位置において、人物を見下ろすように撮影した場合、二次元骨格構造において肩幅のボーン等の横の長さはカメラの俯角の影響を受けないが、首－腰のボーン等の縦の長さは、カメラの俯角が大きくなる程小さくなる。そうすると、肩幅のボーン等の横の長さから算出した身長画素数が実際より大きくなる傾向がある。そこで、カメラパラメータを活用すると、人物がどの程度の角度でカメラに見下ろされているかがわかるため、この俯角の情報を使って正面から撮影したような二次元骨格構造に補正することができる。これによって、より正確に身長画素数を算出できる。

続いて、身長算出部１０８は、図２１に示すように、身長画素数の最適値を算出する（Ｓ２２３）。身長算出部１０８は、ボーンごとに求めた身長画素数から身長画素数の最適値を算出する。例えば、図３０に示すような、ボーンごとに求めた身長画素数のヒストグラムを生成し、その中で大きい身長画素数を選択する。つまり、複数のボーンに基づいて求められた複数の身長画素数の中で他よりも長い身長画素数を選択する。例えば、上位３０％を有効な値とし、図３０ではボーンＢ７１、Ｂ６１、Ｂ５１による身長画素数を選択する。選択した身長画素数の平均を最適値として求めてもよいし、最も大きい身長画素数を最適値としてもよい。２次元画像のボーンの長さから身長を求めるため、ボーンを正面からできていない場合、すなわち、ボーンがカメラから見て奥行き方向に傾いて撮像された場合、ボーンの長さが正面から撮像した場合よりも短くなる。そうすると、身長画素数が大きい値は、身長画素数が小さい値よりも、正面から撮像された可能性が高く、より尤もらしい値となることから、より大きい値を最適値とする。

具体例２では、２次元画像空間上のボーンと全身の長さとの関係を示す人体モデルを用いて、検出した骨格構造のボーンに基づき身長画素数を求めるため、頭から足までの全ての骨格が得られない場合でも、一部のボーンから身長画素数を求めることができる。特に、複数のボーンから求められた値のうち、より大きい値を採用することで、精度よく身長画素数を推定することができる。

＜具体例３＞
具体例３では、２次元骨格構造を３次元人体モデル（３次元骨格モデル）にフィッティングさせて、フィッティングした３次元人体モデルの身長画素数を用いて全身の骨格ベクトルを求める。

具体例３では、図２２に示すように、身長算出部１０８は、まず、カメラ２００の撮像した画像に基づき、カメラパラメータを算出する（Ｓ２３１）。身長算出部１０８は、カメラ２００が撮像した複数の画像の中から、予め長さが分かっている物体を検出し、検出した物体の大きさ（画素数）からカメラパラメータを求める。なお、カメラパラメータを予め求めておき、求めておいたカメラパラメータを必要に応じて取得してもよい。

続いて、身長算出部１０８は、３次元人体モデルの配置及び高さを調整する（Ｓ２３２）。身長算出部１０８は、検出された２次元骨格構造に対し、身長画素数算出用の３次元人体モデルを用意し、カメラパラメータに基づいて、同じ２次元画像内に配置する。具体的には、カメラパラメータと、２次元骨格構造から、「実世界におけるカメラと人物の相対的な位置関係」を特定する。例えば、仮にカメラの位置を座標（０，０，０）としたときに、人物が立っている（または座っている）位置の座標（ｘ，ｙ，ｚ）を特定する。そして、特定した人物と同じ位置（ｘ，ｙ，ｚ）に３次元人体モデルを配置して撮像した場合の画像を想定することで、２次元骨格構造と３次元人体モデルを重ね合わせる。

図３１は、しゃがみ込んでいる人物を左斜め前から撮像し、２次元骨格構造４０１を検出した例である。２次元骨格構造４０１は、２次元の座標情報を有する。なお、全てのボーンを検出していることが好ましいが、一部のボーンが検出されていなくてもよい。この２次元骨格構造４０１に対し、図３２のような、３次元人体モデル４０２を用意する。３次元人体モデル（３次元骨格モデル）４０２は、３次元の座標情報を有し、２次元骨格構造４０１と同じ形状の骨格のモデルである。そして、図３３のように、検出した２次元骨格構造４０１に対し、用意した３次元人体モデル４０２を配置し重ね合わせる。また、重ね合わせるとともに、３次元人体モデル４０２の高さを２次元骨格構造４０１に合うように調整する。

なお、このとき用意する３次元人体モデル４０２は、図３３のように、２次元骨格構造４０１の姿勢に近い状態のモデルでもよいし、直立した状態のモデルでもよい。例えば、機械学習を用いて２次元画像から３次元空間の姿勢を推定する技術を用いて、推定した姿勢の３次元人体モデル４０２を生成してもよい。２次元画像の関節と３次元空間の関節の情報を学習することで、２次元画像から３次元の姿勢を推定することができる。

続いて、身長算出部１０８は、図２２に示すように、３次元人体モデルを２次元骨格構造にフィッティングする（Ｓ２３３）。身長算出部１０８は、図３４のように、３次元人体モデル４０２を２次元骨格構造４０１に重ね合わせた状態で、３次元人体モデル４０２と２次元骨格構造４０１の姿勢が一致するように、３次元人体モデル４０２を変形させる。すなわち、３次元人体モデル４０２の身長、体の向き、関節の角度を調整し、２次元骨格構造４０１との差異がなくなるように最適化する。例えば、３次元人体モデル４０２の関節を、人の可動範囲で回転させていき、また、３次元人体モデル４０２の全体を回転させたり、全体のサイズを調整する。なお、３次元人体モデルと２次元骨格構造のフィッティング（あてはめ）は、２次元空間（２次元座標）上で行う。すなわち、２次元空間に３次元人体モデルを写像し、変形させた３次元人体モデルが２次元空間（画像）でどのように変化するかを考慮して、３次元人体モデルを２次元骨格構造に最適化する。

続いて、身長算出部１０８は、図２２に示すように、フィッティングさせた３次元人体モデルの身長画素数を算出する（Ｓ２３４）。身長算出部１０８は、図３５のように、３次元人体モデル４０２と２次元骨格構造４０１の差異がなくなり、姿勢が一致すると、その状態の３次元人体モデル４０２の身長画素数を求める。最適化された３次元人体モデル４０２を直立させた状態として、カメラパラメータに基づき、２次元空間上の全身の長さを求める。例えば、３次元人体モデル４０２を直立させた場合の頭から足までのボーンの長さ（画素数）により身長画素数を算出する。具体例１と同様に、３次元人体モデル４０２の頭部から足部までのボーンの長さを合計してもよい。

具体例３では、カメラパラメータに基づいて３次元人体モデルを２次元骨格構造にフィッティングさせて、その３次元人体モデルに基づいて身長画素数を求めることで、全てのボーンが正面に写っていない場合、すなわち、全てのボーンが斜めに映っているため誤差が大きい場合でも、精度よく身長画素数を推定することができる。

＜正規化処理＞
図１９に示すように、画像処理装置１００は、身長画素数算出処理に続いて、正規化処理（Ｓ２０２）を行う。正規化処理では、図２３に示すように、特徴量算出部１０３は、キーポイント高さを算出する（Ｓ２４１）。特徴量算出部１０３は、検出された骨格構造に含まれる全てのキーポイントのキーポイント高さ（画素数）を算出する。キーポイント高さは、骨格構造の最下端（例えばいずれかの足のキーポイント）からそのキーポイントまでの高さ方向の長さ（画素数）である。ここでは、一例として、キーポイント高さを、画像におけるキーポイントのＹ座標から求める。なお、上記のように、キーポイント高さは、カメラパラメータに基づいた鉛直投影軸に沿った方向の長さから求めてもよい。例えば、図２４の例で、首のキーポイントＡ２の高さ（ｙｉ）は、キーポイントＡ２のＹ座標から右足のキーポイントＡ８１または左足のキーポイントＡ８２のＹ座標を引いた値である。

続いて、特徴量算出部１０３は、正規化のための基準点を特定する（Ｓ２４２）。基準点は、キーポイントの相対的な高さを表すための基準となる点である。基準点は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い（画像の上下方向における上である）ことが好ましく、例えば、首のキーポイントの座標を基準点とする。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標（例えば骨格構造の中心座標等）を基準点としてもよい。

続いて、特徴量算出部１０３は、キーポイント高さ（ｙｉ）を身長画素数で正規化する（Ｓ２４３）。特徴量算出部１０３は、各キーポイントのキーポイント高さ、基準点、身長画素数を用いて、各キーポイントを正規化する。具体的には、特徴量算出部１０３は、基準点に対するキーポイントの相対的な高さを身長画素数により正規化する。ここでは、高さ方向のみに着目する例として、Ｙ座標のみを検出し、また、基準点を首のキーポイントとして正規化を行う。具体的には、基準点（首のキーポイント）のＹ座標を（ｙｃ）として、次の式（１）を用いて、特徴量（正規化値）を求める。なお、カメラパラメータに基づいた鉛直投影軸を用いる場合は、（ｙｉ）及び（ｙｃ）を鉛直投影軸に沿った方向の値に変換する。

例えば、キーポイントが１８個の場合、各キーポイントの１８点の座標（ｘ０、ｙ０）、（ｘ１、ｙ１）、・・・（ｘ１７、ｙ１７）を、上記式（１）を用いて、次のように１８次元の特徴量に変換する。

図３６は、特徴量算出部１０３が求めた各キーポイントの特徴量の例を示している。この例では、首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図３７のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図３８のように、図３６に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、本実施の形態の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造から求めた身長画素数（２次元画像空間上の直立時の高さ）を用いて、骨格構造の各キーポイントを正規化する。この正規化された特徴量を用いることで、分類や検索等を行った場合のロバスト性を向上することができる。すなわち、本実施の形態の特徴量は、上記のように人物の横方向の変化に影響を受けないため、人物の向きや人物の体型の変化に対しロバスト性が高い。

さらに、本実施の形態では、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて人物の骨格構造を検出することで実現できるため、人物の姿勢等を学習する学習データを用意する必要がない。また、骨格構造のキーポイントを正規化し、データベースに格納しておくことで、人物の姿勢等の分類や検索が可能となるため、未知な姿勢に対しても分類や検索を行うことができる。また、骨格構造のキーポイントを正規化することで、明確でわかりやすい特徴量を得ることができるため、機械学習のようにブラックボックス型のアルゴリズムと異なり、処理結果に対するユーザの納得性が高い。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
１．画像を取得する画像取得手段と、
前記画像に含まれる人物の２次元骨格構造を検出する骨格構造検出手段と、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定する指定手段と、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する補正手段と、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を前記骨格構造検出手段に実行させる再検出手段と、
を有する画像処理装置。
２．前記指定手段は、ユーザ入力に基づき、又は、画像解析で、前記未検出人物領域を指定する１に記載の画像処理装置。
３．前記指定手段は、
前記２次元骨格構造の検出を行った前記画像の中に、前記２次元骨格構造の検出に失敗した人物が存在するか判定し、
前記２次元骨格構造の検出に失敗した人物が存在すると判定した前記画像に対し、前記未検出人物領域を指定する処理を実行する１に記載の画像処理装置。
４．前記指定手段は、ユーザ入力に基づき、又は、画像解析で、前記２次元骨格構造の検出を行った前記画像の中に、前記２次元骨格構造の検出に失敗した人物が存在するか判定する３に記載の画像処理装置。
５．前記指定手段は、
前記画像に含まれる人物を検出し、
検出された人物の数が、前記２次元骨格構造の検出に成功した人物の数より多い場合、前記２次元骨格構造の検出に失敗した人物が存在すると判定する４に記載の画像処理装置。
６．検出された前記２次元骨格構造の特徴量を算出する特徴量算出手段と、
算出された前記特徴量の類似度に基づき、前記画像に含まれる人物の状態の認識処理を行う認識手段と、
を有する１から５のいずれかに記載の画像処理装置。
７．コンピュータが、
画像を取得し、
前記画像に含まれる人物の２次元骨格構造を検出し、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定し、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成し、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を実行する画像処理方法。
８．コンピュータを、
画像を取得する画像取得手段、
前記画像に含まれる人物の２次元骨格構造を検出する骨格構造検出手段、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定する指定手段、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する補正手段、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を前記骨格構造検出手段に実行させる再検出手段、
として機能させるプログラム。

１画像処理システム
１０画像処理装置
１１骨格検出部
１２特徴量算出部
１３認識部
１００画像処理装置
１０１画像取得部
１０２骨格構造検出部
１０３特徴量算出部
１０４分類部
１０５検索部
１０６入力部
１０７表示部
１０８身長算出部
１０９指定部
１１０データベース
１１１補正部
１１２再検出部
２００カメラ
３００、３０１人体モデル
４０１２次元骨格構造
４０２３次元人体モデル

Claims

画像を取得する画像取得手段と、
前記画像に含まれる人物の２次元骨格構造を検出する骨格構造検出手段と、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定する指定手段と、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する補正手段と、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を前記骨格構造検出手段に実行させる再検出手段と、
を有する画像処理装置。
前記指定手段は、ユーザ入力に基づき、又は、画像解析で、前記未検出人物領域を指定する請求項１に記載の画像処理装置。
前記指定手段は、
前記２次元骨格構造の検出を行った前記画像の中に、前記２次元骨格構造の検出に失敗した人物が存在するか判定し、
前記２次元骨格構造の検出に失敗した人物が存在すると判定した前記画像に対し、前記未検出人物領域を指定する処理を実行する請求項１に記載の画像処理装置。
前記指定手段は、ユーザ入力に基づき、又は、画像解析で、前記２次元骨格構造の検出を行った前記画像の中に、前記２次元骨格構造の検出に失敗した人物が存在するか判定する請求項３に記載の画像処理装置。
前記指定手段は、
前記画像に含まれる人物を検出し、
検出された人物の数が、前記２次元骨格構造の検出に成功した人物の数より多い場合、前記２次元骨格構造の検出に失敗した人物が存在すると判定する請求項４に記載の画像処理装置。
検出された前記２次元骨格構造の特徴量を算出する特徴量算出手段と、
算出された前記特徴量の類似度に基づき、前記画像に含まれる人物の状態の認識処理を行う認識手段と、
を有する請求項１から５のいずれか１項に記載の画像処理装置。
コンピュータが、
画像を取得し、
前記画像に含まれる人物の２次元骨格構造を検出し、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定し、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成し、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を実行する画像処理方法。
コンピュータを、
画像を取得する画像取得手段、
前記画像に含まれる人物の２次元骨格構造を検出する骨格構造検出手段、
前記２次元骨格構造の検出に失敗した人物が存在する前記画像内の領域である未検出人物領域を指定する指定手段、
前記未検出人物領域以外の領域の情報を単純化する処理を行い、補正後画像を生成する補正手段、
前記補正後画像に含まれる人物の前記２次元骨格構造を検出する処理を前記骨格構造検出手段に実行させる再検出手段、
として機能させるプログラム。