WO2023209955A1

WO2023209955A1 - 情報処理装置、情報処理方法及び記録媒体

Info

Publication number: WO2023209955A1
Application number: PCT/JP2022/019290
Authority: WO
Inventors: 諒川合; 登吉田; 健全劉; 智史山崎; テイテイトウ; カレンステファン; 洋平佐々木; 直樹進藤; 悠太並木
Original assignee: 日本電気株式会社
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-11-02

Abstract

情報処理装置（１００）は、姿勢取得部（１１３）、検索部（１１７）及び表示制御部（１１９）を備える。姿勢取得部（１１３）は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する。検索部（１１７）は、第１姿勢情報と第２姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。表示制御部（１１９）は、第１姿勢情報と第２姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部に表示させる。

Description

情報処理装置、情報処理方法及び記録媒体

　本発明は、情報処理装置、情報処理方法及び記録媒体に関する。

　例えば特許文献１に記載の画像検索装置は、姿勢推定部と、特徴量抽出部と、クエリ生成部と、画像検索部とを備える。

　同文献に記載の姿勢推定部は、入力画像から複数の特徴点で構成される検索対象の姿勢情報を認識する。同文献に記載の特徴量抽出部は、姿勢情報と入力画像から特徴量を抽出する。同文献に記載のクエリ生成部は、特徴量を入力画像と関連付けて蓄積する画像データベースと、ユーザが指定した姿勢情報から検索クエリを生成する。同文献に記載の画像検索部は、検索クエリに従って類似した姿勢を含む画像を画像データベースから検索する。

　例えば特許文献２に記載の画像処理装置は、画像取得部と、骨格構造検出部と、クエリ評価部と、選択部と、特徴量算出部と、検索部とを備える。

　同文献に記載の画像取得部は、クエリ画像の候補を取得する。同文献に記載の骨格構造検出部は、クエリ画像の候補に含まれる人物の２次元骨格構造を検出する。同文献に記載のクエリ評価部は、２次元骨格構造の検出結果に基づきクエリ画像の候補の評価値を算出する。同文献に記載の選択部は、評価値に基づき、クエリ画像の候補の中からクエリ画像を選択する。同文献に記載の特徴量算出部は、クエリ画像から検出された２次元骨格構造の特徴量を算出する。同文献に記載の検索部は、算出された特徴量の類似度に基づき、解析対象画像の中から、クエリ画像に含まれる人物の姿勢と類似する姿勢の人物を含む解析対象画像を検索する。

　なお、特許文献３には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が記載されている。非特許文献１には、人物の骨格推定に関連する技術が記載されている。

特開２０１９-０９０１１３８号公報国際公開第２０２１／２５０８０８号国際公開第２０２１／０８４６７７号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, [Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields];, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　特許文献１～２には、画像に基づいて姿勢又は行動を推定するための技術が記載されている。しかしながら、特許文献１～２では、姿勢が正しく推定されたか否かが分からないため、画像に示される被撮影者の姿勢を推定する精度を向上させることが困難である。

　なお、特許文献３及び非特許文献１も、人物を撮影した画像から予め定められた姿勢である人物を検出する精度を向上させるための技術を開示していない。

　本発明の目的の一例は、上述した課題を鑑み、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置、情報処理方法及び記録媒体を提供することにある。

　本発明の一態様によれば、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する姿勢取得手段と、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する検索手段と、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる表示制御手段とを備える
　情報処理装置が提供される。

　本発明の一態様によれば、
　コンピュータが、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる
　情報処理方法が提供される。

　本発明の一態様によれば、
　コンピュータに、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラムが記録された記録媒体が提供される。

　本発明の一態様によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置、情報処理方法及び記録媒体を提供することが可能になる。

一実施形態に係る情報処理装置の概要を示す図である。一実施形態に係る情報処理システムの概要を示す図である。一実施形態に係る情報処理の概要を示すフローチャートである。一実施形態に係る情報処理システムの詳細な機能的な構成例を示す図である。通話姿勢に対応付けられた参照画像を含む参照情報の構成例を示す図である。通話姿勢に対応付けられた重みを示す重み情報の構成例を示す図である。一実施形態に係る類似度取得部の機能的な構成例を示す図である。一実施形態に係る情報処理装置の物理的な構成例を示す図である。一実施形態に係る姿勢推定処理の一例を示すフローチャートである。複数のフレーム画像から一部を間引く方法の一例を示す図である。一実施形態に係る類似度取得処理の詳細例を示すフローチャートである。一実施形態に係る推定支援処理の一例を示すフローチャートである。検索結果を表示する結果表示画面の一例を示す図である。結果表示画面におけるクエリ画像の表示例を示す図である。結果表示画面におけるクエリ画像の別の表示例を示す図である。

　以下、本発明の一実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜実施形態＞
（概要）
　図１は、一実施形態に係る情報処理装置１００の概要を示す図である。情報処理装置１００は、姿勢取得部１１３、検索部１１７及び表示制御部１１９を備える。

　姿勢取得部１１３は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する。

　検索部１１７は、第１姿勢情報と第２姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。

　表示制御部１１９は、第１姿勢情報と第２姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部に表示させる。

　この情報処理装置１００によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理装置を提供することが可能になる。

　図２は、一実施形態に係る情報処理システムＳ１の概要を示す図である。情報処理システムＳ１は、クエリ画像を撮影するための撮影部１０１と、情報処理装置１００とを備える。

　この情報処理システムＳ１によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理システムを提供することが可能になる。

　図３は、一実施形態に係る情報処理の概要を示すフローチャートである。

　姿勢取得部１１３は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する（ステップＳ１０３）。

　検索部１１７は、第１姿勢情報と第２姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する（ステップＳ２０１）。

　表示制御部１１９は、第１姿勢情報と第２姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部に表示させる（ステップＳ２０３）。

　この情報処理によれば、画像に示される被撮影者の姿勢を推定する精度を向上することを解決する情報処理方法を提供することが可能になる。

（詳細）
　以下、一実施形態に係る情報処理システムＳ１の詳細例について説明する。

　図４は、一実施形態に係る情報処理システムＳ１の詳細な機能的な構成例を示す図である。情報処理システムＳ１は、撮影部１０１と、情報処理装置１００と、解析装置１０２とを備える。撮影部１０１、情報処理装置１００及び解析装置１０２は、有線、無線又はこれらを組み合わせて構成されるネットワークＮを介して接続されており、互いに情報を送受信することができる。

　撮影部１０１は、所定の行動を行っている人物（被撮影者）を撮影する。撮影部１０１は、例えば、銀行などの金融機関の店舗に設置され、現金自動預払機（ＡＴＭ）を操作する操作者を撮影するカメラである。

　なお、撮影部１０１は、ＡＴＭの操作者を撮影するためのカメラに限られず、銀行などの店舗内を撮影するカメラであってもよく、金融機関以外の各種の店舗などに設置されるカメラであってもよい。また、撮影部１０１は、複数であってもよい。

　撮影部１０１は、所定の撮影領域を撮影して動画像を示す画像情報を情報処理装置１００へ送信する。

　詳細には、撮影部１０１は、所定のフレームレートで時間的に連続して複数回撮影する。撮影部１０１は、各撮影でフレーム画像を含むフレーム情報を生成する。撮影部１０１は、時系列のフレーム画像の各々を含むフレーム情報をネットワークＮを介して情報処理装置１００へ送信する。

　解析装置１０２は、画像を解析する装置である。解析装置１０２は、撮影部１０１にて生成された画像情報をネットワークＮを介して取得する。本実施形態では、解析装置１０２は、撮影部１０１から情報処理装置１００を介して画像情報を取得する例を説明するが、撮影部１０１から直接画像情報を取得してもよい。

　解析装置１０２は、取得した画像情報に含まれる画像を解析する装置である。

　詳細には、解析装置１０２は、画像を解析するための処理（解析処理）を行う１つ又は複数の解析機能を備える。解析装置１０２が備える解析機能は、（１）物体検出機能、（２）顔解析機能、（３）人型解析機能、（４）姿勢解析機能、（５）行動解析機能、（６）外観属性解析機能、（７）勾配特徴解析機能、（８）色特徴解析機能、（９）動線解析機能などの１つ又は複数である。

　（１）物体検出機能は、画像から人物及び物を検出する。物体検出機能は、画像内の人物及び物の位置を求めることもできる。物体検出処理に適用されるモデルとして、例えば、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）がある。物体検出機能は、例えば、操作者、携帯電話（スマートフォンを含む。）、車椅子などを検出する。また例えば、物体検出機能は、検出した人物及び物の位置を求める。

　（２）顔解析機能は、画像から人の顔を検出し、検出した顔の特徴量（顔特徴量）の抽出、検出した顔の分類（クラス分け）などを行う。顔解析機能は、顔の画像内の位置を求めることもできる。顔解析機能は、異なる画像から検出した人物の顔特徴量同士の類似度などに基づいて、異なる画像から検出した人物の同一性を判定することもできる。

　（３）人型解析機能は、画像に含まれる人の人体的特徴量（例えば、体形の肥痩や、身長、服装などの全体的な特徴を示す値）の抽出、画像に含まれる人の分類（クラス分け）などを行う。人型解析機能は、人の画像内の位置を特定することもできる。人型解析機能は、異なる画像に含まれる人の人体的特徴量などに基づいて、異なる画像に含まれる人の同一性を判定することもできる。

　（４）姿勢解析機能は、人の姿勢を示す姿勢情報を生成する。姿勢情報は、例えば、人物の姿勢推定モデルを含む。姿勢推定モデルは、画像から推定される人物の関節を繋いだモデルである。姿勢推定モデルは、関節に対応する関節要素、胴体に対応する体幹要素、関節間を接続する骨に対応する骨要素などに対応する複数のモデル要素から構成される。姿勢解析機能は、例えば、画像から人物の関節点を検出し、関節点を繋げて姿勢推定モデルを作成する。

　そして、姿勢解析機能は、姿勢推定モデルの情報を用いて、人の姿勢を推定し、推定した姿勢の特徴量（姿勢特徴量）の抽出、画像に含まれる人の分類（クラス分け）などを行う。姿勢解析機能は、異なる画像に含まれる人の姿勢特徴量などに基づいて、異なる画像に含まれる人の同一性を判定することもできる。

　例えば、姿勢解析機能は、通話姿勢、車椅子姿勢などの姿勢推定モデルを作成し、それらの姿勢における姿勢特徴量を抽出する。通話姿勢は、携帯電話を用いて通話する姿勢である。車椅子姿勢は、車椅子を利用する者の姿勢である。

　姿勢解析機能には、例えば、特許文献３、非特許文献１に開示された技術を適用することができる。
　（５）行動解析処理は、姿勢推定モデルの情報、姿勢の変化などを用いて、人の動きを推定し、人の動きの特徴量（動き特徴量）の抽出、画像に含まれる人の分類（クラス分け）などを行うことができる。行動解析処理では、棒人間モデルの情報を用いて、人の身長を推定したり、人物の画像内の位置を特定したりすることもできる。行動解析処理は、例えば、姿勢の変化又は推移、移動（位置の変化又は推移）などの行動を画像から推定し、その行動の動き特徴量を抽出することができる。

　（６）外観属性解析機能は、人に付随する外観属性を認識することができる。外観属性解析機能は、認識した外観属性に関する特徴量（外観属性特徴量）の抽出、画像に含まれる人の分類（クラス分け）などを行う。外観属性とは、外観上の属性であり、例えば、服装の色、靴の色、髪型、帽子やネクタイ、眼鏡などの着用又は非着用などの１つ以上を含む。

　（７）勾配特徴解析機能は、画像における勾配の特徴量（勾配特徴量）を抽出する。勾配特徴検出処理には、例えば、ＳＩＦＴ、ＳＵＲＦ、ＲＩＦＦ、ＯＲＢ、ＢＲＩＳＫ、ＣＡＲＤ、ＨＯＧなどの技術を適用することができる。

　（８）色特徴解析機能は、画像から物体を検出し、検出した物体の色の特徴量（色特徴量）の抽出、検出した物体の分類（クラス分け）などを行うことができる。色特徴量は、例えばカラーヒストグラムなどである。色特徴解析機能は、例えば、画像に含まれる人物、物を検出することができる。

　（９）動線解析機能は、例えば上述の（２）～（６）の解析機能のいずれかにおける同一性の判定の結果を用いて、映像に含まれる人の動線（移動の軌跡）を求めることができる。詳細には例えば、時系列的に異なる画像間で同一であると判定された人を接続することで、その人の動線を求めることができる。なお、動線解析機能は、異なる撮影領域を撮影する複数の撮影部１０１で撮影した映像を取得した場合などには、異なる撮影領域を撮影した複数の映像間に跨る動線を求めることもできる。

　画像特徴量は、例えば、物体検出機能での物品の検知結果、顔特徴量、人体的特徴量、姿勢特徴量、動き特徴量、外観属性特徴量、勾配特徴量、色特徴量、動線を含む。

　なお、（１）～（９）の各解析機能は、他の解析機能が行った解析の結果を適宜利用してもよい。情報処理装置１００は、解析装置１０２の機能を備える解析部を備えてもよい。

　一実施形態に係る情報処理装置１００は、フレーム画像に含まれる人物の姿勢を推定する装置である。情報処理装置１００は、図４に示すように、機能的に、画像取得部１１１と、記憶部１１２と、姿勢取得部１１３と、類似度取得部１１４と、推定部１１５と、入力部１１６と、検索部１１７と、表示部１１８と、表示制御部１１９とを備える。

　画像取得部１１１は、動画像を示す画像情報を撮影部１０１から取得する。すなわち、画像取得部１１１は、時間的に連続する複数回の撮影で得られる時系列の複数のフレーム画像を取得する。

　詳細には、画像取得部１１１は、時系列の複数のフレーム画像の各々を含むフレーム情報を撮影部１０１から取得する。画像取得部１１１は、取得したフレーム情報を記憶する。

　記憶部１１２は、各種情報を記憶するための記憶部である。記憶部１１２は、例えば、参照画像を示す参照情報１１２ａ、重みを示す重み情報１１２ｂなどを予め記憶する。

　参照画像は、所定の姿勢に対応付けられた人物の画像である。参照画像は、クエリ画像に含まれる人物の姿勢を推定するために参照される画像であり、適宜選定して記憶部１１２に設定される。所定の姿勢は、例えば、通話姿勢、車椅子姿勢などである。なお、通話姿勢は、右手で携帯電話を持って通話する姿勢である右手通話姿勢、左手で携帯電話を持って通話する姿勢である右手通話姿勢などと細分化して設定されてもよい。

　図５は、通話姿勢に対応付けられた参照画像を含む参照情報１１２ａの構成例を示す図である。図５に例示する参照情報１１２ａは、例えば、正例と、負例とを含む。

　正例は、通話姿勢である人物の参照画像である。例えば、正例は、立って右手又は左手で携帯電話を持って通話する人物を示す。

　負例は、通話姿勢ではない人物の参照画像である。負例には、通話姿勢ではないが通話姿勢に類似する姿勢である人物の画像が選定されるとよい。例えば、負例は、携帯電話を持たずに直立する姿勢の人物を示す。

　図５は、通話姿勢に対応付けてＭ個の正例とＮ個の負例とを含む参照情報１１２ａの例を示す。ここで、Ｍ，Ｎは、いずれも、１以上の整数である。

　なお、参照情報１１２ａは、少なくとも１つの参照画像を含めば、幾つの参照画像を含んでもよい。また、参照情報１１２ａは、正例のみを含んでもよい。

　重みは、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す値である。重み情報１１２ｂは、所定の姿勢ごとに、モデル要素の各々の重みを含む。

　図６は、通話姿勢に対応付けられた重みを示す重み情報１１２ｂの構成例を示す図である。図６に例示する重み情報１１２ｂは、通話姿勢における要素ＩＤと重みとを関連付ける。要素ＩＤは、モデル要素を識別するための情報である。要素ＩＤは、例えば、体幹要素、左右の腕の上部及び下部、左右の脚の大腿部及び下腿部などに対応する骨要素と、関節要素との各々に適宜付与される番号などである。重みは、所定の姿勢のモデル要素ごとに定められる。図６では、重みが０以上の整数である例を示すが、重みの設定方法は適宜変更されてもよい。

　例えば、通話姿勢では携帯電話を持って通話するため、腕に関して設定される重みは、脚に関して設定される重みよりも大きい。また例えば、右手で通話する場合の通話姿勢では、右手に関して設定される重みは、左手に関して設定される重みよりも大きい。

　姿勢取得部１１３は、通話姿勢などの所定の姿勢に対応付けられた複数の参照画像を記憶部１１２から取得して、取得した複数の参照画像に基づいて、第１姿勢情報を取得する。

　第１姿勢情報は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す情報である。第１姿勢情報は、例えば、参照画像に示される人物に関する姿勢推定モデルである第１モデルを含む。

　また、姿勢取得部１１３は、画像取得部１１１から時系列のフレーム画像を取得し、時系列のフレーム画像から一部を間引くことでクエリ画像を取得する。そして、姿勢取得部１１３は、取得したクエリ画像に基づいて、第２姿勢情報を取得する。

　第２姿勢情報は、クエリ画像に示される被撮影者の姿勢を示す情報である。第２姿勢情報は、例えば、クエリ画像に示される被撮影者に関する姿勢推定モデルである第２モデルを含む。

　詳細には例えば、姿勢取得部１１３は、取得した参照画像及びクエリ画像の各々を解析装置１０２へネットワークＮを介して送信する。参照画像を解析装置１０２へ送信した場合、姿勢取得部１１３は、当該参照画像に示される人物に関する第１モデルを含む第１姿勢情報を解析装置１０２から取得する。クエリ画像を解析装置１０２へ送信した場合、姿勢取得部１１３は、当該クエリ画像に示される人物に関する第２モデルを含む第２姿勢情報を解析装置１０２から取得する。

　類似度取得部１１４は、時系列のクエリ画像と、所定の姿勢に対応する複数の参照画像との組み合わせの各々について、クエリ画像に示される被撮影者と参照画像に示される人物との姿勢に関する類似度を求める。

　類似度は、所定の姿勢における姿勢推定モデル間の類似する程度を示す値である。

　例えば、類似度取得部１１４は、所定の姿勢に対応する複数の参照画像の各々に示される人物の第１モデルを姿勢取得部１１３から取得する。また、類似度取得部１１４は、時系列のクエリ画像の各々に示される被撮影者の第２モデルを姿勢取得部１１３から取得する。類似度取得部１１４は、第１モデルと第２モデルとの組み合わせの各々について、第１モデルと第２モデルとを用いて類似度を求める。

　類似度は、全体類似度と、要素類似度とを含む。

　全体類似度は、所定の姿勢における第１モデルと第２モデルとの全体的な類似する程度を示す値、すなわち、第１モデルと第２モデルとの全体的な類似度である。

　要素類似度は、所定の姿勢における第１モデルと第２モデルとの間で対応するモデル要素ごとの類似度、すなわち、第１モデルと第２モデルとの間で対応するモデル要素ごとの類似度である。

　なお、類似度は、全体類似度と、要素類似度との少なくとも一方を含めばよい。

　図７は、本実施形態に係る類似度取得部１１４の機能的な構成例を示す図である。類似度取得部１１４は、全体算出部１１４ａと、要素算出部１１４ｂとを含む。

　全体算出部１１４ａは、第１モデルと第２モデルとの全体類似度を求める。詳細には、全体算出部１１４ａは、重み情報１１２ｂに含まれる所定の姿勢に対応する重みと、要素算出部１１４ｂが求める要素類似度と、を用いて、全体類似度を求める。

　例えば、全体算出部１１４ａは、各モデル要素の類似度を要素算出部１１４ｂから取得すると、モデル要素の類似度の各々と、対応するモデル要素の重みとの積を求め、姿勢推定モデルを構成する各モデル要素について得られた積を合算する。この合算の結果として得られる値が全体類似度である。

　要素算出部１１４ｂは、第１モデルと第２モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める。要素算出部１１４ｂは、例えば、第１モデルと第２モデルとで対応するモデル要素ごとに、大きさ、長さ、傾きなどに基づいて、要素類似度を求める。

　推定部１１５は、所定の行動を行っている間の複数回の撮影に基づいて得られる複数のクエリ画像と、所定の姿勢に対応付けられた人物を示す参照画像と、に基づいて、複数のクエリ画像の各々に示される被撮影者の姿勢を推定する。

　例えば、推定部１１５は、類似度取得部１１４が求めた類似度（例えば、全体類似度）に基づいて、時系列のクエリ画像の各々に示される被撮影者の姿勢を推定する。

　また、推定部１１５は、時系列のフレーム画像のうち、間引かれた少なくとも１つのフレーム画像と、参照画像と、に基づいて、当該間引かれた少なくとも１つのフレーム画像に示される被撮影者の姿勢を推定してもよい。

　この場合、姿勢取得部１１３は、間引かれた少なくとも１つのフレーム画像を画像取得部１１１から取得し、当該フレーム画像に示される被撮影者の第２モデルを取得する。類似度取得部１１４は、当該フレーム画像に示される被撮影者の第２モデルと、複数の参照画像の各々に示される人物の第１モデルとに基づいて、全体類似度を求める。そして、推定部１１５は、類似度取得部１１４が求めた全体類似度に基づいて、当該間引かれた少なくとも１つのフレーム画像に示される被撮影者の姿勢を推定する。

　推定部１１５が類似度に基づいて被撮影者の姿勢を推定する方法は、種々である。以下にその例として、姿勢推定方法１～５を説明する。

（姿勢推定方法１）
　例えば、推定部１１５は、正例と負例のうち、類似度が最も大きい値の参照画像に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、例えば、類似度が最大の参照画像が正例の場合、推定部１１５は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。類似度が最大の参照画像が負例の場合、推定部１１５は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。

（姿勢推定方法２）
　また例えば、推定部１１５は、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。正例平均値は、所定の姿勢に対応付けられた複数の正例とクエリ画像又はフレーム画像との類似度の平均値である。負例平均値は、所定の姿勢に対応付けられた複数の負例とクエリ画像又はフレーム画像との類似度の平均値である。

　この場合、例えば、推定部１１５は、正例平均値が負例平均値より大きい場合に、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。正例平均値が負例平均値以下である場合に、推定部１１５は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。

（姿勢推定方法３）
　さらに例えば、推定部１１５は、クエリ画像又はフレーム画像と参照画像との画像マッチングを行い、画像マッチングにおいて適合した参照画像とクエリ画像又はフレーム画像との類似度に基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。この場合、推定部１１５は、画像マッチングで適合した参照画像のうちの、正例平均値と負例平均値とに基づいて、クエリ画像又はフレーム画像に示される被撮影者の姿勢を推定してもよい。

　詳細には例えば、推定部１１５は、画像マッチングで適合した参照画像のうちの正例平均値が負例平均値より大きい場合に、被撮影者の姿勢が当該参照画像に対応する所定の姿勢であると推定する。画像マッチングで適合した参照画像のうちの正例平均値が負例平均値以下である場合に、推定部１１５は、被撮影者の姿勢が当該参照画像に対応する所定の姿勢でないと推定する。

　なお、画像マッチングには、種々の公知の技術が適用されてよい。例えば、推定部１１５は、クエリ画像又はフレーム画像に示される被撮影者と参照画像に示される人物との特徴量などに基づいて画像間の類似度を求める。推定部１１５は、画像間の類似度と閾値とを比較することで、クエリ画像又はフレーム画像と参照画像とが適合するか否かを判定する。推定部１１５は、例えば、画像間の類似度が閾値以上である場合に適合（類似）すると判定し、画像間の類似度が閾値未満である場合に適合しない（非類似）と判定する。

（姿勢推定方法４）
　推定部１１５は、類似度を用いずに、画像マッチングのみを用いて、被撮影者の姿勢を推定してもよい。

　例えば、推定部１１５は、画像マッチングで少なくとも１つの正例と適合した場合に、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢であると推定してもよい。また例えば、推定部１１５は、画像マッチングで少なくとも１つの負例と適合した場合に、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢でないと推定してもよい。

　さらに例えば、推定部１１５は、画像マッチングで適合する正例と負例との適合する数に基づいて、被撮影者の姿勢を推定してもよい。この場合、例えば、推定部１１５は、正例との適合数が負例との適合数よりも多い場合、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢であると推定する。また例えば、推定部１１５は、正例との適合数が負例との適合数以下である場合、クエリ画像又はフレーム画像に示される被撮影者が当該参照画像に対応する所定の姿勢でないと推定する。

　画像マッチングにおいて、クエリ画像又はフレーム画像が正例と負例のいずれとも適合しない場合、推定部１１５は、当該クエリ画像又は当該フレーム画像を、正例と負例のいずれとも異なると判定してもよく、負例と判定してもよい。

（姿勢推定方法５）
　推定部１１５は、参照画像を用いた機械学習を行って学習済みの学習モデルを用いて、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合（類似）するかを判定してもよい。この学習モデルは、被撮影者が正例と負例とのいずれに適合するかを判定するための機械学習を行った学習済みの学習モデルである。この場合、推定部１１５は、被撮影者を示すクエリ画像又は当該フレーム画像を含む画像情報を、学習モデルに入力することで、クエリ画像又は当該フレーム画像が正例と負例とのいずれに適合（類似）するかの判定結果を取得する。

　学習時の学習モデルへのインプットデータは、人物を示す画像情報を含む。また、学習では、インプットデータが正例と負例とのいずれに適合するかを示すラベル（正解）を含む教師あり学習が行われるとよい。

　入力部１１６は、ユーザからの入力を受け付けるキーボード、マウス、タッチパネルなどである。

　検索部１１７は、例えば、ユーザが適宜指定するクエリ画像を取得する。検索部１１７は、第１姿勢情報と第２姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。検索部１１７は、例えば、類似度が予め設定される基準値以上の参照画像を検索結果として出力する。

　ユーザが指定するクエリ画像は、フレーム画像のいずれかであってもよく、撮影部１０１が撮影する画像以外の画像であってもよい。検索のために用いられる基準値は、全体類似度に関する値であってもよく、要素類似度に関する値であってもよい。

　基準値が要素類似度に関して定められる場合、検索部１１７は、例えば、基準値以上の要素類似度を含む第１モデルに対応する参照画像を検索結果として出力する。

　表示部１１８は、各種情報を表示するディスプレイなどである。表示制御部１１９は、表示部１１８を制御し、各種情報を表示部１１８に表示させる。表示制御部１１９は、例えば、推定部１１５が所定の姿勢の被撮影者を検出した場合、当該被撮影者に印を付したクエリ画像又はフレーム画像を表示部１１８に表示させる。印は、例えば、被撮影者を囲む矩形の枠などである。

　また、表示制御部１１９は、第１姿勢情報と第２姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部１１８に表示させる。

　参照画像を検索するために用いられる指標は、例えば、類似度、重みなどの１つ又は複数である。なお、参照画像を検索するために用いられる指標は、これらに限られない。表示態様は、例えば、体幹要素を表す線の太さ、色及び線種、骨要素を表す線の太さ、色及び線種、関節要素を表す図形（例えば、円、正方形など）の大きさ、色及び線種などである。線種は、例えば、実線、点線、破線、一点鎖線、二点鎖線などである。

　詳細には、表示制御部１１９は、検索部１１７の検索結果に含まれる参照画像に対応する第１姿勢情報と、検索部１１７が取得するユーザ指定のクエリ画像に対応する第２姿勢情報との少なくとも一方を、指標に応じた表示態様で表示部１１８に表示させる。

　表示制御部１１９は、検索部１１７から出力される検索結果予め定められた最大表示数よりも多い場合、類似度が大きい第１モデルに対応する参照画像から順に最大表示数の参照画像を表示対象として選定してもよい。

　指標が類似度を含む場合、表示制御部１１９は、第１姿勢情報と第２姿勢情報との少なくとも一方を、類似度に応じた表示態様で表示部１１８に表示させてもよい。

　第２姿勢情報を表示させる場合、表示制御部１１９は、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１姿勢情報との間の類似度に応じた表示態様で第２姿勢情報を表示部１１８に表示させてもよい。

　この場合に、第１姿勢情報及び第２姿勢情報がそれぞれ第１モデル及び第２モデルを含んでもよい。第２モデルを表示させる場合、表示制御部１１９は、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１モデルとの間の類似度に応じた表示態様で第２モデルを表示部１１８に表示させてもよい。

　特定の参照画像に対応する第１モデルは、第２モデルとの間で、全体類似度が最も大きい第１モデル、最も大きい要素類似度を含む第１モデル、ユーザが指定する第１モデルなどのいずれか１つである。

　第２モデルを表示させる場合、表示制御部１１９は、当該第２モデルとそれに対する検索結果として出力された第１モデルの各々との間でモデル要素ごとに要素類似度の平均値を求め、平均値に応じた表示態様で第２モデルを表示部１１８に表示させてもよい。

　類似度が要素類似度を含む場合、表示制御部１１９は、第１モデルと第２モデルとの少なくとも一方を構成するモデル要素のうち、要素類似度が第１基準値以上、第２基準値以下又は重みが所定の閾値以上のモデル要素のみを表示部１１８に表示させてもよい。第１基準値、第２基準値の各々は、適宜設定される値である。

　指標が重みを含む場合、表示制御部１１９は、第１モデルと第２モデルとの少なくとも一方を構成する複数のモデル要素を、重みに応じた表示態様で表示部１１８に表示させてもよい。

　表示制御部１１９は、モデル要素である体幹要素及び骨要素の少なくとも１つを矢印付きの線で表示部１１８に表示させてもよい。

（情報処理システムＳ１の物理的構成）
　情報処理システムＳ１は、物理的に、ネットワークＮを介して接続された撮影部１０１、情報処理装置１００及び解析装置１０２から構成される。撮影部１０１、情報処理装置１００及び解析装置１０２の各々は、物理的に異なる単一の装置から構成される。撮影部１０１は、例えば、カメラである。

　なお、情報処理装置１００及び解析装置１０２は物理的に単一の装置から構成されてもよく、この場合、情報処理装置１００及び解析装置１０２はネットワークＮの代わりに、後述する内部のバス１０１０を用いて接続される。また、情報処理装置１００及び解析装置１０２の一方又は両方は、物理的に、ネットワークＮなどの適宜の通信回線を介して接続された複数の装置から構成されてもよい。

　図８は、本実施形態に係る情報処理装置１００の物理的な構成例を示す図である。情報処理装置１００は、例えば汎用のコンピュータである。情報処理装置１００は、例えば、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、ネットワークインタフェース１０５０、入力インタフェース１０６０及び出力インタフェース１０７０を有する。

　バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、ネットワークインタフェース１０５０、入力インタフェース１０６０及び出力インタフェース１０７０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０２０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などで実現されるプロセッサである。

　メモリ１０３０は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などで実現される主記憶装置である。

　ストレージデバイス１０４０は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、メモリカード、又はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などで実現される補助記憶装置である。ストレージデバイス１０４０は、情報処理装置１００の各機能を実現するためのプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。

　ネットワークインタフェース１０５０は、情報処理装置１００をネットワークＮに接続するためのインタフェースである。

　入力インタフェース１０６０は、ユーザが情報を入力するためのインタフェースである。入力インタフェース１０６０は、例えば、キーボード、マウス、タッチパネルなどの１つ又は複数から構成される。

　出力インタフェース１０７０は、ユーザに情報を提示するためのインタフェースである。出力インタフェース１０７０は、例えば、液晶パネル、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネルなどから構成される。

　解析装置１０２は、物理的には例えば汎用のコンピュータである。解析装置１０２は、物理的には、情報処理装置１００と概ね同様に構成される（図８参照）。

　解析装置１０２のストレージデバイス１０４０は、解析装置１０２の各機能を実現するためのプログラムモジュールを記憶している。解析装置１０２のプロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。解析装置１０２のネットワークインタフェース１０５０は、解析装置１０２をネットワークＮに接続するためのインタフェースである。これらの点を除いて、解析装置１０２は物理的に、情報処理装置１００と同様に構成されるとよい。

（情報処理システムＳ１の動作）
　本実施形態に係る情報処理システムＳ１は、クエリ画像に含まれる被撮影者の姿勢を推定するための処理を実行する。情報処理システムＳ１が実行する処理は、姿勢推定処理と、推定支援処理とを含む。

　姿勢推定処理は、所定の姿勢に対応付けられた参照画像を用いて、クエリ画像に含まれる被撮影者の姿勢を推定する処理である。推定支援処理は、被撮影者の姿勢の推定を支援するための処理である。

　図９は、本実施形態に係る姿勢推定処理の一例を示すフローチャートである。姿勢推定処理は、例えば情報処理システムＳ１の稼働中に実行される。

　画像取得部１１１は、時系列の複数のフレーム画像を取得する（ステップＳ１０１）。画像取得部１１１は、取得したフレーム画像を記憶する。

　詳細には例えば、画像取得部１１１は、時刻Ｔ１から時刻Ｔ２よりも前まで、時系列の複数のフレーム画像を順次取得する。時刻Ｔ２－時刻Ｔ１＝時間間隔ΔＴとする。

　画像取得部１１１は、ステップＳ１０１にて取得した複数のフレーム画像の一部を間引いて、クエリ画像を取得する（ステップＳ１０２）。

　詳細には例えば、画像取得部１１１は、予め定められた規則に従って、複数のフレーム画像の一部を間引く。例えば、図１０は、複数のフレーム画像から一部を間引く方法の一例を示す図である。画像取得部１１１は、同図に示すように、予め定められた時間間隔ΔＴの間（両端の時間を除く）に取得されたフレーム画像を間引く。これにより、画像取得部１１１は、予め定められた一定の時間間隔ΔＴの時系列のクエリ画像を取得する。なお、複数のフレーム画像から一部を間引いてクエリ画像を取得する方法は、これに限られず、例えば、時間間隔ΔＴは、一定でなくてもよく、動作モード（被撮影者を追跡するモード、被撮影者の姿勢を検出するモード）に応じて変更されてもよい。また、クエリ画像は、間引いていない複数のフレーム画像であってもよい。

　姿勢取得部１１３は、所定の姿勢に対応付けられた複数の参照画像に基づく第１姿勢情報と、ステップＳ１０２にて取得されたクエリ画像に基づく第２姿勢情報とを取得する（ステップＳ１０３）。

　詳細には例えば、姿勢取得部１１３は、記憶部１１２から所定の姿勢に対応する複数の参照画像を取得する。所定の姿勢が通話姿勢であり、図５に示す参照情報１１２ａが記憶部１１２に記憶されている場合、姿勢取得部１１３は、参照画像１～参照画像７を取得する。姿勢取得部１１３は、取得した参照画像１～参照画像７を解析装置１０２へ送信する。これに応じて、解析装置１０２は、参照画像１～参照画像７の各々が示す人物の第１モデルを含む第１姿勢情報を生成して情報処理装置１００へ送信する。姿勢取得部１１３は、第１姿勢情報を解析装置１０２から取得する。

　姿勢取得部１１３は、ステップＳ１０２にて取得されたクエリ画像を画像取得部１１１から取得する。姿勢取得部１１３は、取得したクエリ画像を解析装置１０２へ送信する。これに応じて、解析装置１０２は、クエリ画像が示す被撮影者の第２モデルを含む第２姿勢情報を生成して情報処理装置１００へ送信する。姿勢取得部１１３は、第２姿勢情報を解析装置１０２から取得する。

　類似度取得部１１４は、ステップＳ１０２で取得した第１姿勢情報と第２姿勢情報とのそれぞれに含まれる第１モデルの各々と第２モデルとの類似度を求める（ステップＳ１０４）。

　図１１は、本実施形態に係る類似度取得処理（ステップＳ１０４）の詳細例を示すフローチャートである。

　要素算出部１１４ｂは、ステップＳ１０３で取得した第１姿勢情報に含まれる第１モデルの各々について、ステップＳ１０４ｂ～Ｓ１０４ｃを繰り返す（ステップＳ１０４ａ）。

　要素算出部１１４ｂは、第１モデルと第２モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める（ステップＳ１０４ｂ）。

　全体算出部１１４ａは、記憶部１１２に記憶された重み情報１１２ｂを取得し、ステップＳ１０４ｂで求めたモデル要素ごとの要素類似度と重みとに基づいて、第１モデルと第２モデルとの全体類似度を求める（ステップＳ１０４ｃ）。

　例えば、全体算出部１１４ａは、対応するモデル要素の要素類似度と重みとの積の総和を求め、この総和を全体類似度とする。

　全体算出部１１４ａは、ステップＳ１０３で取得した第１姿勢情報に含まれる第１モデルの各々についてステップＳ１０４ｂ～Ｓ１０４ｃを繰り返す結果、第１モデルの各々と第２モデルと全体類似度を求める。全体算出部１１４ａは、テップＳ１０３で取得した第１姿勢情報に含まれる第１モデルの各々についてステップＳ１０４ｂ～Ｓ１０４ｃを実行すると、ループＡ（ステップＳ１０４ａ）を終了し、姿勢推定処理に戻る。

　図９を再び参照する。
　推定部１１５は、ステップＳ１０２で取得されたクエリ画像と、複数の参照画像と、に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する（ステップＳ１０５）。

　例えば、推定部１１５は、ステップＳ１０２で取得されたクエリ画像と参照画像１～参照画像７の各々との全体類似度に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する。なお、ステップＳ１０５では、推定部１１５は、被撮影者の姿勢を推定するために、上述の姿勢推定方法１～５のいずれを用いてもよく、姿勢推定方法１～５以外の方法を用いてもよい。

　推定部１１５は、所定の姿勢を検出したか否かを判定する（ステップＳ１０６）。

　詳細には例えば、推定部１１５は、クエリ画像に示される被撮影者がステップＳ１０５で所定の姿勢であると推定された場合に、所定の姿勢を検出したと判定する。推定部１１５は、クエリ画像に示される被撮影者がステップＳ１０５で所定の姿勢でないと推定された場合に、所定の姿勢を検出していないと判定する。

　所定の姿勢を検出していないと判定された場合（ステップＳ１０６；Ｎｏ）、画像取得部１１１は、ステップＳ１０１を再び実行する。

　所定の姿勢を検出したと判定された場合（ステップＳ１０６；Ｎｏ）、表示制御部１１９は、所定の姿勢が検出された旨を表示部１１８に表示させる（ステップＳ１０７）。その後、画像取得部１１１は、ステップＳ１０１を再び実行する。

　ステップＳ１０７では、表示制御部１１９は、所定の姿勢である被撮影者を示すクエリ画像を表示部１１８に表示させる。ここで表示されるクエリ画像は、上述のように、被撮影者に印を付した画像であってもよい。

　ユーザは、表示部１１８を見て、所定の姿勢の被撮影者が検出されたことを知ることができる。例えば、ＡＴＭの操作中に通話姿勢である場合、振り込め詐欺の被欺罔者や不審人物の可能性があるため、ユーザは、例えば、ＡＴＭの近くの警備員に確認するように通知するなどの措置を講じることができる。

　このような姿勢推定処理を繰り返し実行することで、時系列のクエリ画像の各々について、被撮影者の姿勢を推定することができる。

　ここで、被撮影者の姿勢を精度よく推定するには、適切な参照画像が設定されていることが重要である。しかしながら、参照画像は複数設定されていることが多く、姿勢を推定するために、いずれの参照画像が重視されているかは、分からないことが多い。そのため、仮に姿勢が誤って推定されていたとしても、その原因となった参照画像を推定することは困難である。

　推定支援処理は、被撮影者の姿勢の推定を支援するために、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する処理である。推定支援処理は、誤った姿勢の推定がなされる場合に、その原因となった参照画像を推定するために役立つ。推定支援処理について、以下、図面を参照して説明する。

　図１２は、本実施形態に係る推定支援処理の一例を示すフローチャートである。

　推定支援処理は、例えば、ユーザがクエリ画像、姿勢、最大表示数、全体類似度の下限値を示す第１基準値、要素類似度の下限値を示す第２基準値などを指定して検索の開始指示を与えると、当該開始指示に応じて開始する。

　指定されるクエリ画像は、例えば、姿勢推定処理で誤って姿勢が推定されたクエリ画像である。指定される姿勢は、検索の対象とする姿勢である。以下では、通話姿勢の正例（図５参照）を対象とする例を用いて説明する。第１基準値及び第２基準値は、姿勢の推定の結果に影響する可能性が高い参照画像を検索するために設定される。第２基準値は、参照画像に対応する第２モデルに関する要素類似度のうち、最大の要素類似度の下限値を示す。

　なお、負例について同様に行われてもよい。また、最大表示数及び基準値の一方又は両方は、設定されなくてもよい。この場合、最大表示数が設定されない場合、例えば、類似度が大きい参照画像から順に、検索結果が表示されてもよい。

　図１２を参照する。
　姿勢取得部１１３、類似度取得部１１４及び推定部１１５は、例えば検索部１１７の指示に従って、姿勢推定処理のステップＳ１０３～Ｓ１０５と同様の処理を実行する。

　詳細には例えば、姿勢取得部１１３は、指定された姿勢である通話姿勢に対応付けられた複数の参照画像に基づく第１姿勢情報と、指定されたクエリ画像に基づく第２姿勢情報とを取得する（ステップＳ１０３）。

　類似度取得部１１４は、ステップＳ１０３で取得した第１姿勢情報と第２姿勢情報とのそれぞれに含まれる第１モデルの各々と第２モデルとの類似度を求める（ステップＳ１０４）。

　推定部１１５は、指定されたクエリ画像と、複数の参照画像と、に基づいて、当該クエリ画像に示される被撮影者の姿勢を推定する（ステップＳ１０５）。

　検索部１１７は、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する（ステップＳ２０１）。

　詳細には例えば、検索部１１７は、全体類似度が第１基準値以上、かつ、要素類似度の最大値が第２基準値以上である参照画像を検索する。検索部１１７は、検索した結果を出力する。

　表示制御部１１９は、検索部１１７から出力される検索結果に基づいて、基準値を満たす参照画像があるか否かを判定する（ステップＳ２０２）。基準値を満たす参照画像がない場合（ステップＳ２０２；Ｎｏ）、表示制御部１１９は、推定支援処理を終了する。

　基準値を満たす参照画像がある場合（ステップＳ２０２；Ｙｅｓ）、表示制御部１１９は、検索結果などを表示部１１８に表示させる（ステップＳ２０３）。

　詳細には例えば、表示制御部１１９は、第１姿勢情報（例えば、第１モデル）と第２姿勢情報（例えば、第２モデル）との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部１１９に表示させる。また、基準値を満たす参照画像が表示最大数を超える場合、表示制御部１１９は、類似度（例えば、全体類似度）が大きいものから順に、表示最大数の参照画像を選定し、検索結果として表示する。

　図１３は、検索結果を表示する結果表示画面ＳＣの一例を示す図である。

　図１３に示す結果表示画面ＳＣでは、第１基準値の設定値は０．９８であり、第２基準値の設定値は０．５である。また、姿勢には、「通話姿勢」が選定されている。クエリ画像に示される被撮影者の姿勢に関する推定の結果は、肯定推定（「通話姿勢である」）である。

　図１３は、表示最大数が「３」である場合の例である。結果表示画面ＳＣは、入力画像であるクエリ画像Ｑと、検索結果である参照画像Ａ～参照画像Ｃを含む。参照画像Ａ～参照画像Ｃは、図５に示す正例（参照画像１～参照画像Ｍ）のいずれかである。

　クエリ画像Ｑ及び参照画像Ａ～参照画像Ｃのそれぞれに下には、全体類似度、要素類似度（最大値）、要素類似度（平均値）が表示されている。

　詳細には、クエリ画像Ｑの下には、関連付けられた参照画像との全体類似度、要素類似度（最大値）、要素類似度（平均値）が表示されている。図１３に示す例では、クエリ画像Ｑは、参照画像Ａ～参照画像Ｃの中で全体類似度が最大である参照画像Ａと関連付けられている。すなわち、参照画像Ａが上述の「特定の参照画像」に相当する。クエリ画像Ｑが参照画像Ａと関連付けられているため、クエリ画像Ｑに対応付けられた各類似度は、参照画像Ａに対応付けられた各類似度と同じ値である。

　また、図１３は、クエリ画像Ｑと参照画像Ａ～参照画像Ｃの各々との全体類似度を、画像を囲む矩形枠線の太さで表す例を示す。図１３に示す例では、クエリ画像Ｑ及び参照画像Ａ～参照画像Ｃの各々は、全体類似度の大きさに応じた３種類の異なる太さの矩形枠線で囲まれている。このように、全体類似度の大きさに応じて第１姿勢情報（例えば、第１モデル）及び第２姿勢情報（例えば、第２モデル）の表示態様を変えることで、全体類似度の大きさを直感的に把握し易くなる。

　図１４は、クエリ画像Ｑの表示例を示す図である。図１４は、クエリ画像Ｑに第２モデルが重ねて表示される例を示す。

　図１４に示す第２モデルにおいて、丸は関節要素を表す。関節要素間を繋ぐ矢印付きの線は、体幹要素及び骨要素を表す。矢印は、胸の上部中央（首の付け根近く）を基点として、基点から離れる方向を示す。基点から下方に延びる２本の線は、体幹要素を表し、その他の線は、骨要素を表す。なお、基点は、適宜設定されてよい。

　図１４に示す第２モデルでは、体幹要素及び骨要素は、３種の異なる太さ及び２種の異なる線種（実線及び点線）の線で表されている。太さは、重みに対応する。線種は、要素類似度に対応する。詳細には、図１４に示す第２モデルは、重みを３段階で表しており、対応付けられた重みが大きいモデル要素ほど太い線となっている。また、図１４に示す第２モデルは、関連付けられた参照画像Ａに対応する第１モデルを構成するモデル要素の各々と、当該各モデル要素に対応する第２モデルとの要素類似度を２段階で表す。大きい要素類似度は実線であり、小さい要素類似度は点線である。

　参照画像Ａ～参照画像Ｃの各々について、図示しないが、クエリ画像Ｑと同様に、第１モデルが重ねて表示されるとよい。また、第１モデルのモデル要素についても、第２モデルと同様に、重み及び要素類似度に応じた異なる表示態様で表示されるとよい。

　このように、重み及び要素類似度に応じてモデル要素の表示態様を変えることで、重み及び要素類似度の大きさを直感的に把握し易くなる。

　図１５は、クエリ画像Ｑの別の表示例を示す図である。図１５では、図１４では実線で表されるモデル要素（骨要素、体幹要素）及びこれらに関連する関節要素、すなわち要素類似度が大きいモデル要素及びこれらに関連する関節要素のみを表示部１１８に表示させる例である。要素類似度が小さいモデル要素及びこれらに関連する関節要素を非表示にしている点を除いて、図１４及び１５に示すクエリ画像Ｑは同じである。

　なお、図１５では、要素類似度が大きいモデル要素及びこれらに関連する関節要素のみを含むクエリ画像Ｑを表示部１１８に表示させる例を説明した。すなわち、クエリ画像Ｑの表示において、要素類似度が小さいモデル要素及びこれらに関連する関節要素を含めない例を説明した。しかし、クエリ画像Ｑの表示において、要素類似度が小さいモデル要素及びこれらに関連する関節要素の表示方法はこれに限られない。例えば、要素類似度が小さいモデル要素及びこれらに関連する関節要素は、細く或いは小さく表示されてもよく、半透明で表示されてもよく、他のモデル要素及びこれらに関連する関節要素とは異なる図形（例えば、×）などで表示されてもよい。

（作用・効果）
　以上、本実施形態によれば、情報処理装置１００は、姿勢取得部１１３、検索部１１７及び表示制御部１１９を備える。

　姿勢取得部１１３は、所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する。検索部１１７は、第１姿勢情報と第２姿勢情報との類似度に基づいて、複数の参照画像の中から、クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する。表示制御部１１９は、第１姿勢情報と第２姿勢情報との少なくとも一方を、参照画像を検索するために用いられる指標に応じた表示態様で表示部１１８に表示させる。

　これにより、第１姿勢情報と第２姿勢情報との少なくとも一方が上記の指標に応じた表示態様で表示されるので、ユーザは、参照画像を検索するために用いられる指標を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、指標は類似度を含む。表示制御部１１９は、第１姿勢情報と第２姿勢情報との少なくとも一方を、類似度に応じた表示態様で表示部１１８に表示させる。

　これにより、第１姿勢情報と第２姿勢情報との少なくとも一方が類似度に応じた表示態様で表示されるので、ユーザは、類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、表示制御部１１９は、第２姿勢情報を表示させる場合に、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１姿勢情報との間の類似度に応じた表示態様で第２姿勢情報を表示部１１８に表示させる。

　これにより、第２姿勢情報が類似度に応じた表示態様で表示されるので、ユーザは、第２姿勢情報に関する類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、第１姿勢情報は、参照画像に示される人物に関する姿勢推定モデルである第１モデルを含む。第２姿勢情報は、クエリ画像に含まれる被撮影者に示される姿勢推定モデルである第２モデルを含む。姿勢推定モデルは、複数のモデル要素から構成される。

　これにより、第１モデルと第２モデルとの少なくとも一方が指標に応じた表示態様で表示されるので、ユーザは、参照画像を検索するために用いられる姿勢推定モデルと指標とを直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、指標は、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す重みを含む。表示制御部１１９は、第１モデルと第２モデルとの少なくとも一方を構成する複数のモデル要素を、重みに応じた表示態様で表示部１１８に表示させる。

　これにより、第１モデルと第２モデルとの少なくとも一方が重みに応じた表示態様で表示されるので、ユーザは、参照画像を検索するために用いられる姿勢推定モデルと重みとを直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、類似度は、第１モデルと第２モデルとの全体的な類似度である全体類似度と、第１モデルと第２モデルとの間で対応するモデル要素ごとの類似度である要素類似度と、の少なくとも一つを含む。

　これにより、第１モデルと第２モデルとの少なくとも一方が、全体類似度と要素類似度との少なくとも一方に応じた表示態様で表示される。そのため、ユーザは、参照画像を検索するために用いられる第１モデルと第２モデルとの少なくとも一方と全体類似度と要素類似度との少なくとも一方とを直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、指標は、類似度を含む。表示制御部１１９は、第２モデルを表示させる場合に、複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１モデルとの間の類似度に応じた表示態様で第２モデルを表示部１１８に表示させる。特定の参照画像に対応する第１モデルは、前記全体類似度が最も大きい第１モデル、最も大きい前記要素類似度を含む第１モデル、又は、ユーザが指定する第１モデルである

　これにより、第２モデルが類似度に応じた表示態様で表示されるので、ユーザは、特定の参照画像に対応する第１モデルと第２モデルとの類似度を直感的に把握し、被撮影者の姿勢を推定するために不適切な参照画像を推定することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、表示制御部１１９は、第２モデルを表示させる場合に、モデル要素ごとに要素類似度の平均値を求め、平均値に応じた表示態様で前記第２モデルを表示部１１８に表示させる

　本実施形態によれば、表示制御部１１９は、類似度が要素類似度を含む場合に、第１モデルと第２モデルとの少なくとも一方を構成するモデル要素のうち、要素類似度が第１基準値以上、第２基準値以下又は重みが所定の閾値以上のモデル要素のみを表示部１１８に表示させる。

　これにより、要素類似度が第１基準値以上又は第２基準値以下のモデル要素のみを表示部１１８に表示させることができる。そのため、ユーザは、全体的に類似していると推定されたが類似していない部位、或いは、全体的に類似していないと推定されたが類似している部位を直感的に把握することができる。

　また、重みが所定の閾値以上のモデル要素のみを表示部１１８に表示させるそのため、ユーザは、大きい重みが設定された部位を直感的に把握することができる。

　そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、情報処理装置１００は、第１モデルと第２モデルとを用いて、類似度を求める類似度取得部１１４をさらに含む。

　これにより、ユーザは、類似度を求めるために用いられる第１モデルと第２モデルとの少なくとも一方に関する指標を、これらの少なくとも一方に関連付けて直感的に把握することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、類似度取得部１１４は、第１モデルと第２モデルとの全体類似度を求める全体算出部１１４ａを含む。

　これにより、ユーザは、全体類似度を求めるために用いられる第１モデルと第２モデルとの少なくとも一方に関する全体類似度を、これらの少なくとも一方に関連付けて直感的に把握することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、類似度取得部１１４は、第１モデルと第２モデルとの間で対応するモデル要素ごとの類似度である要素類似度を求める要素算出手段をさらに含む。全体算出部１１４ａは、所定の姿勢における姿勢推定モデル間の類似度を求めるためにモデル要素の各々が重視される程度を示す重みと、要素類似度と、を用いて、全体類似度を求める。

　これにより、ユーザは、全体類似度及び要素類似度を求めるために用いられる第１モデルと第２モデルとの少なくとも一方に関する全体類似度及び要素類似度を、これらの少なくとも一方に関連付けて直感的に把握することができる。そのため、ユーザは、不適切な参照画像を削除するなどの対処ができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　本実施形態によれば、モデル要素は、複数の関節に対応する関節要素と、複数の関節の間を接続する体幹及び骨格のそれぞれに対応する体幹要素及び骨要素とを含む。表示制御部１１９は、体幹要素及び骨要素の少なくとも１つを矢印付きの線で表示部１１８に表示させる。

　一般的に、表示部１１８での表示上で骨要素を表す線が画像上で近くにある場合、線に矢印がないと、骨要素を表す線と被撮影者の骨格との対応が分かり難いことがある。線に矢印を付けることで、骨要素を表す線と被撮影者の骨格との対応付けを容易にすることができる。そのため、直感的な把握を容易にすることができる。従って、画像に示される被撮影者の姿勢を推定する精度を向上することが可能になる。

　以上、図面を参照して本発明の実施の形態及び変形例について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、実施の形態の各々で実行される工程の実行順序は、その記載の順番に制限されない。実施の形態の各々では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の実施の形態及び変形例は、内容が相反しない範囲で組み合わせることができる。

　上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。

１．　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する姿勢取得手段と、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する検索手段と、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる表示制御手段とを備える
　情報処理装置。
２．　前記指標は、前記類似度を含み、
　前記表示制御手段は、前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記類似度に応じた表示態様で前記表示手段に表示させる
　１．に記載の情報処理装置。
３．　前記表示制御手段は、前記第２姿勢情報を表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１姿勢情報との間の前記類似度に応じた表示態様で前記第２姿勢情報を前記表示手段に表示させる
　２．に記載の情報処理装置。
４．　前記第１姿勢情報は、前記参照画像に示される人物に関する姿勢推定モデルである第１モデルを含み、
　前記第２姿勢情報は、前記クエリ画像に含まれる被撮影者に示される姿勢推定モデルである第２モデルを含み、
　前記姿勢推定モデルは、複数のモデル要素から構成される
　１．から３．のいずれか１つに記載の情報処理装置。
５．　前記指標は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みを含み、
　前記表示制御手段は、前記第１モデルと前記第２モデルとの少なくとも一方を構成する複数のモデル要素を、前記重みに応じた表示態様で前記表示手段に表示させる
　４．に記載の情報処理装置。
６．　前記類似度は、前記第１モデルと前記第２モデルとの全体的な類似度である全体類似度と、前記第１モデルと前記第２モデルとの間で対応するモデル要素ごとの類似度である要素類似度と、の少なくとも一つを含む
　４．又は５．に記載の情報処理装置。
７．　前記指標は、前記類似度を含み、
　前記表示制御手段は、前記第２モデルを表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１モデルとの間の前記類似度に応じた表示態様で前記第２モデルを前記表示手段に表示させ、
　前記特定の参照画像に対応する第１モデルは、前記全体類似度が最も大きい第１モデル、最も大きい前記要素類似度を含む第１モデル、又は、ユーザが指定する第１モデルである
　６．に記載の情報処理装置。
８．　前記表示制御手段は、前記第２モデルを表示させる場合に、前記モデル要素ごとに前記要素類似度の平均値を求め、前記平均値に応じた表示態様で前記第２モデルを前記表示手段に表示させる
　６．に記載の情報処理装置。
９．　前記表示制御手段は、前記類似度が前記要素類似度を含む場合に、前記第１モデルと前記第２モデルとの少なくとも一方を構成するモデル要素のうち、前記要素類似度が第１基準値以上、第２基準値以下又は重みが所定の閾値以上のモデル要素のみを前記表示手段に表示させる
　４．から８．のいずれか１つに記載の情報処理装置。
１０．　前記第１モデルと前記第２モデルとを用いて、前記類似度を求める類似度取得手段をさらに含む
　４．から９．のいずれか１つに記載の情報処理装置。
１１．　前記類似度取得手段は、前記第１モデルと前記第２モデルとの前記全体類似度を求める全体算出手段を含む
　１０．に記載の情報処理装置。
１２．　前記類似度取得手段は、前記第１モデルと前記第２モデルとの間で対応するモデル要素ごとの類似度である前記要素類似度を求める要素算出手段をさらに含み、
　前記全体算出手段は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みと、前記要素類似度と、を用いて、前記全体類似度を求める
　１１．に記載の情報処理装置。
１３．　前記モデル要素は、複数の関節に対応する関節要素と、前記複数の関節の間を接続する体幹及び骨格のそれぞれに対応する体幹要素及び骨要素とを含み、
　前記表示制御手段は、前記体幹要素及び前記骨要素の少なくとも１つを矢印付きの線で表示手段に表示させる
　４．から１２．のいずれか１つに記載の情報処理装置。
１４．　コンピュータが、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる
　情報処理方法。
１５．　コンピュータに、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。
１６．　コンピュータに、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラム。

１００　情報処理装置
１０１　撮影部
１０２　解析装置
１１１　画像取得部
１１２　記憶部
１１２ａ　参照情報
１１２ｂ　重み情報
１１３　姿勢取得部
１１４　類似度取得部
１１４ａ　全体算出部
１１４ｂ　要素算出部
１１５　推定部
１１６　入力部
１１７　検索部
１１８　表示部
１１９　表示制御部

Claims

　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得する姿勢取得手段と、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索する検索手段と、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる表示制御手段とを備える
　情報処理装置。
　前記指標は、前記類似度を含み、
　前記表示制御手段は、前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記類似度に応じた表示態様で前記表示手段に表示させる
　請求項１に記載の情報処理装置。
　前記表示制御手段は、前記第２姿勢情報を表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１姿勢情報との間の前記類似度に応じた表示態様で前記第２姿勢情報を前記表示手段に表示させる
　請求項２に記載の情報処理装置。
　前記第１姿勢情報は、前記参照画像に示される人物に関する姿勢推定モデルである第１モデルを含み、
　前記第２姿勢情報は、前記クエリ画像に含まれる被撮影者に示される姿勢推定モデルである第２モデルを含み、
　前記姿勢推定モデルは、複数のモデル要素から構成される
　請求項１から３のいずれか１項に記載の情報処理装置。
　前記指標は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みを含み、
　前記表示制御手段は、前記第１モデルと前記第２モデルとの少なくとも一方を構成する複数のモデル要素を、前記重みに応じた表示態様で前記表示手段に表示させる
　請求項４に記載の情報処理装置。
　前記類似度は、前記第１モデルと前記第２モデルとの全体的な類似度である全体類似度と、前記第１モデルと前記第２モデルとの間で対応するモデル要素ごとの類似度である要素類似度と、の少なくとも一つを含む
　請求項４に記載の情報処理装置。
　前記指標は、前記類似度を含み、
　前記表示制御手段は、前記第２モデルを表示させる場合に、前記複数の参照画像のうちの特定の参照画像と関連付け、当該特定の参照画像に対応する第１モデルとの間の前記類似度に応じた表示態様で前記第２モデルを前記表示手段に表示させ、
　前記特定の参照画像に対応する第１モデルは、前記全体類似度が最も大きい第１モデル、最も大きい前記要素類似度を含む第１モデル、又は、ユーザが指定する第１モデルである
　請求項６に記載の情報処理装置。
　前記表示制御手段は、前記第２モデルを表示させる場合に、前記モデル要素ごとに前記要素類似度の平均値を求め、前記平均値に応じた表示態様で前記第２モデルを前記表示手段に表示させる
　請求項６に記載の情報処理装置。
　前記表示制御手段は、前記類似度が前記要素類似度を含む場合に、前記第１モデルと前記第２モデルとの少なくとも一方を構成するモデル要素のうち、前記要素類似度が第１基準値以上、第２基準値以下又は重みが所定の閾値以上のモデル要素のみを前記表示手段に表示させる
　請求項４に記載の情報処理装置。
　前記第１モデルと前記第２モデルとを用いて、前記類似度を求める類似度取得手段をさらに含む
　請求項４に記載の情報処理装置。
　前記類似度取得手段は、前記第１モデルと前記第２モデルとの前記全体類似度を求める全体算出手段を含む
　請求項１０に記載の情報処理装置。
　前記類似度取得手段は、前記第１モデルと前記第２モデルとの間で対応するモデル要素ごとの類似度である前記要素類似度を求める要素算出手段をさらに含み、
　前記全体算出手段は、前記所定の姿勢における前記姿勢推定モデル間の類似度を求めるために前記モデル要素の各々が重視される程度を示す重みと、前記要素類似度と、を用いて、前記全体類似度を求める
　請求項１１に記載の情報処理装置。
　前記モデル要素は、複数の関節に対応する関節要素と、前記複数の関節の間を接続する体幹及び骨格のそれぞれに対応する体幹要素及び骨要素とを含み、
　前記表示制御手段は、前記体幹要素及び前記骨要素の少なくとも１つを矢印付きの線で表示手段に表示させる
　請求項４に記載の情報処理装置。
　コンピュータが、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させる
　情報処理方法。
　コンピュータに、
　所定の姿勢に対応付けられた複数の参照画像の各々に示される人物の姿勢を示す第１姿勢情報と、クエリ画像に示される被撮影者の姿勢を示す第２姿勢情報と、を取得し、
　前記第１姿勢情報と前記第２姿勢情報との類似度に基づいて、前記複数の参照画像の中から、前記クエリ画像に示される被撮影者と姿勢又は行動が類似する人物を示す参照画像を検索し、
　前記第１姿勢情報と前記第２姿勢情報との少なくとも一方を、前記参照画像を検索するために用いられる指標に応じた表示態様で表示手段に表示させることを実行させるためのプログラムが記録された記録媒体。