JP2024067990A

JP2024067990A - 生成プログラム、生成方法および情報処理装置

Info

Publication number: JP2024067990A
Application number: JP2022178464A
Authority: JP
Inventors: 源太鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2024-05-17

Abstract

【課題】現場での行動検知の精度を向上させることを課題とする。【解決手段】情報処理装置は、人物の行動の要素を示すルールを特定する。情報処理装置は、特定したルールに合致した姿勢を示す人物のモデルを生成する。情報処理装置は、カメラパラメータを用いて、画像データの中に人物のモデルが配置された合成データを生成する。防犯やリテール、製造、業務効率化など、様々なシーンに適した映像分析ソリューションを提供できる。【選択図】図２７

Description

本発明は、生成プログラム、生成方法および情報処理装置に関する。

映像データを用いた行動認識として、映像データ内の人物検出、属性検出、姿勢推定などの技術が知られている。例えば、店舗内や工場内を撮像した映像データを機械学習モデルに入力し、機械学習モデルの出力結果を取得する。そして、機械学習モデルの出力結果を用いて、不審者の検出、体調不良者の検出、不審な行動の検出などが行われる。

特開２０１２－１７３９０３号公報特開２０１３－５０９４５号公報

しかしながら、上記技術では、行動認識を行う現場環境における特殊な服装、カメラ歪み、設置位置などの様々な条件により、行動認識の精度が落ちることがある。

例えば、訓練データに含まれていない、もしくは少量の訓練データにしか含まれていない服装、カメラに対する向き、姿勢などについては、行動認識の精度が低下する。また、現場環境では物体と物体、物体と人物、人物と人物などのように、様々な重なり（オクルージョン）が発生し、行動認識の精度が低下する。

一つの側面では、現場での行動検知の精度を向上させることができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。

第１の案では、生成プログラムは、コンピュータに、人物の行動の要素を示すルールを特定し、特定した前記ルールに合致した姿勢を示す人物のモデルを生成し、カメラパラメータを用いて、画像データの中に人物のモデルが配置された合成データを生成する、処理を実行させることを特徴とする。

一実施形態によれば、現場での行動検知の精度を向上させることができる。

図１は、実施例１にかかる情報処理装置を説明する図である。図２は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図３は、３Ｄ生成モデルの訓練を説明する図である。図４は、領域抽出モデルの訓練を説明する図である。図５は、骨格推定モデルの訓練を説明する図である。図６は、３Ｄアバターの生成を説明する図である。図７は、歩行の動作判定を説明するための図である。図８は、フレームから生成される３Ｄアバターの一例を示す図である。図９は、３Ｄアバターの歩行姿勢を匿名化する処理を説明するための図である。図１０は、セマンティックセグメンテーションによる注目領域の検出を説明する図である。図１１は、骨格推定モデルを用いた動作解析を説明する図である。図１２は、トラッキングによる基準方向の設定を説明する図である。図１３は、クラスタリングを説明する図である。図１４は、クラスタの抽出を説明する図である。図１５は、注目領域の抽出を説明する図である。図１６は、セマンティックセグメンテーションの実行結果への基準線の設定を説明する図である。図１７は、基準線に基づくクラスタリングを説明する図である。図１８は、ラベル修正を説明する図である。図１９は、商品棚エリアの設定を説明する図である。図２０は、合成データの生成を説明する図である。図２１は、合成データの生成を説明する図である。図２２は、カメラパラメータの推定を説明する図（１）である。図２３は、カメラパラメータの推定を説明する図（２）である。図２４は、カメラパラメータの推定を説明する図（３）である。図２５は、各種モデルの訓練への適用を説明する図である。図２６は、実施例１にかかる合成データの生成処理の流れを示すフローチャートである。図２７は、実施例２にかかる情報処理装置を説明する図である。図２８は、実施例２にかかる情報処理装置の機能構成を示す機能ブロック図である。図２９は、行動ルールＤＢを説明する図である。図３０は、行動ルールに基づく合成データの生成を説明する図である。図３１は、実施例２にかかる合成データを用いた機械学習モデルの評価処理の流れを示すフローチャートである。図３２は、３Ｄアバターの配置例を説明する図である。図３３は、ハードウェア構成例を説明する図である。

以下に、本願の開示する生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

＜情報処理装置の説明＞
図１は、実施例１にかかる情報処理装置１０を説明する図である。図１に示す情報処理装置１０は、人物を検出する人物検出モデル、性別やユニフォームの着衣有無などを推定する属性推定モデル、人物の姿勢を検出する姿勢推定モデルなどの各種機械学習モデルの訓練に使用可能なデータを生成するコンピュータの一例である。

近年、不審者の検出、体調不良者の検出、不審な行動の検出などの行動認識を行う機械学習モデルが利用されている。しかし、現場環境と訓練環境との違い、訓練データの充実度、現場で発生するオクルージョンなどにより、行動認識の精度が低下する。

例えば、店内の画像データに対して店員か否かの識別処理を行う場合、あらかじめエプロン着用の店員の画像データを学習した機械学習モデルを用いた識別処理が行われる。しかし、現場となる売り場によってエプロンが異なり、訓練データに少量しか含まれない使用頻度の少ないエプロンや、人物姿勢（後ろ向き、横向き、しゃがみなど）によっては、店員と判別できず接客者検知での虚報が多い。

また、工場の画像データに対して作業員の検出処理を行う場合、様々な行動を学習した機械学習モデルを用いた検出処理が行われる。しかし、検出したい行動が一般的な訓練データセットに含まれていない姿勢だと人物検知や姿勢推定に失敗する。

一方で、全ての現場環境や全てのオクルージョンを想定した教師有りの訓練データを用意することは現実的ではない。

そこで、実施例１にかかる情報処理装置１０は、様々な環境で撮像された画像データを用いて、現場環境で想定される姿勢や属性の人物を含む合成データを生成することで、行動検知の精度を向上させる。

具体的には、図１に示すように、情報処理装置１０は、人物を撮影した第一の画像データと、所定の場所を撮影した第二の画像データとを取得する。情報処理装置１０は、取得した第一の画像データを第一の機械学習モデルに入力することで、人物の形状と形状に対して付与されるテクスチャから成る３次元の人物モデルを生成する。また、情報処理装置１０は、取得した第二の画像データに対して機械学習モデルによる推定や画像解析を行うことで、人物が行動する領域を特定する。その後、情報処理装置１０は、カメラパラメータを用いて、特定された領域に３次元の人物モデルが配置された合成データを生成する。

情報処理装置１０は、このようにして生成された合成データに基づき、２次元画像データおよびラベル（正解情報）が付加された訓練データを用いて、各種機械学習モデルの訓練を行うことで、現場での行動検知の精度を向上させることができる。なお、実施例では、画像データを単に「画像」と表記することがある。

＜情報処理装置の機能構成＞
図２は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図２に示すように、情報処理装置１０は、通信部１１、記憶部２０、制御部３０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、人物が写っている画像データである人物画像データを受信し、店舗内に設置された複数のカメラから店舗における所定の場所が写っている画像データである場所画像データを受信する。

なお、人物画像データは、店舗で撮像された画像データに限ったものではなく、想定される各人物が写っていればどこで撮像されかを問わない。また、場所画像データは、実施例１では店舗内の画像データを例にして説明するが、これに限定されるものではなく、想定される現場の画像データであればよい。

記憶部２０は、各種データや制御部３０が実行するプログラムなどを記憶する処理部の一例であり、例えばメモリやハードディスクなどにより実現される。この記憶部１２は、訓練データＤＢ２１、人物画像データＤＢ２２、場所画像データＤＢ２３、３Ｄ生成モデル２４、領域抽出モデル２５、骨格推定モデル２６を記憶する。

訓練データＤＢ２１は、３Ｄ生成モデル２４、領域抽出モデル２５、骨格推定モデル２６の訓練に使用する訓練データを記憶するデータベースである。各訓練データは、説明変数である画像データと、目的変数であるラベル（正解情報）とが対応付けられたデータである。

人物画像データＤＢ２２は、人物が撮像された画像データである人物画像データを記憶するデータベースである。例えば、人物画像データＤＢ２２が記憶する人物画像データには、想定される現場で撮像された人物画像データと、様々な場所で撮像された人物画像データとが含まれてよい。

場所画像データＤＢ２３は、人物検出、属性推定、骨格検知などを行う各現場を撮像した画像データである場所画像データを記憶するデータベースである。例えば、場所画像データＤＢ２３が記憶する場所画像データには、同じ現場の場所画像データと、様々な場所の場所画像データとが含まれてよい。なお、現場とは、例えば店舗の場合、人物が商品を取る商品棚を含む場所、人物が歩く通路の場所、人物が商品を購入する会計機を含む場所などが該当する。

３Ｄ生成モデル２４は、人物の画像データを基にして、３Ｄアバターを生成する機械学習モデルである。たとえば、３Ｄ生成モデル２４は、「Mesh Graphormer」と、「Texformer」との機能を有する。Mesh Graphormerは、１つのフレームの人物の領域の画像データを基にして、人物の姿勢や、人物の各頂点を推定し、３次元の人物のメッシュモデルを生成する。Texformerは、１つのフレームの人物の領域の画像データを基にして、人物のテクスチャを生成する。３Ｄ生成モデル２４は、Mesh Graphormerによって推定された３次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、３Ｄアバターを生成する。

領域抽出モデル２５は、セマンティックセグメンテーションを実行することで、人物が行動する領域を含む各種領域の抽出を実行する機械学習モデルである。具体的には、領域抽出モデル２５は、ＲＧＢの画像データの入力に応じて、セグメンテーション結果を出力する。セグメンテーション結果には、画像データ内の各領域に対して、識別されたラベルが設定される。例えば、領域抽出モデル２５には、convolutional encoder-decoderなどを採用することができる。

骨格推定モデル２６は、画像フレームの人物の領域（全身画像）を入力すると、該当する人物の骨格データを出力する機械学習モデルである。骨格推定モデル２６は、OpenPose等の機械学習モデルで実現することができる。

また、骨格推定モデル２６には、動作解析を実行する機械学習モデルを用いることもできる。具体的には、骨格推定モデル２６には、人物の２次元画像データに対して、頭、手首、腰、足首などの２次元の関節位置（骨格座標）を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う、訓練済みの深層学習器を採用することができる。この骨格推定モデル２６を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。

制御部３０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどによる実現される。この制御部３０は、事前学習部３１、取得部３２、人物モデル生成部３３、領域特定部３４、合成データ生成部３５、機械学習部３６を有する。なお、事前学習部３１、取得部３２、人物モデル生成部３３、領域特定部３４、合成データ生成部３５、機械学習部３６は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

（事前学習）
事前学習部３１は、訓練データＤＢ２１に記憶される各訓練データを用いて、３Ｄ生成モデル２４、領域抽出モデル２５、骨格推定モデル２６を生成する処理部である。なお、ここでは、情報処理装置１０が上記各機械学習モデルを生成する例で説明するが、これに限定されるものではなく、他の装置で生成された訓練済みの各機械学習モデルを用いることもできる。

図３は、３Ｄ生成モデルの訓練を説明する図である。図３に示すように、事前学習部３１は、説明変数である人物が写っている画像データと、目的変数である３Ｄアバターを含む訓練データを３Ｄ生成モデル２４に入力する。そして、事前学習部３１は、３Ｄ生成モデル２４が「Mesh Graphormer」から出力された３次元の人物のメッシュモデルと、「Texformer」から出力された人物のテクスチャとを合成することで生成した３Ｄアバターを取得する。その後、事前学習部３１は、目的変数である３Ｄモデルと、３Ｄ生成モデル２４の出力結果である３Ｄモデルとの誤差が最小化するように、３Ｄ生成モデル２４のパラメータ更新を行うことで、３Ｄ生成モデル２４の訓練を実行する。

図４は、領域抽出モデル２５の訓練を説明する図である。図４に示すように、事前学習部３１は、説明変数であるＲＧＢの画像データと、目的変数であるセグメンテーション結果とを含む訓練データを領域抽出モデル２５に入力し、出力結果（セグメンテーション結果）を取得する。そして、事前学習部３１は、訓練データの目的変数と出力結果との誤差が最小化するように、領域抽出モデル２５のパラメータ更新を行うことで、領域抽出モデル２５の訓練を実行する。

図５は、骨格推定モデル２６の訓練を説明する図である。図５に示すように、事前学習部３１は、説明変数である画像データと、目的変数である骨格データとを含む訓練データを骨格推定モデル２６に入力し、出力結果（骨格認識結果）を取得する。そして、事前学習部３１は、訓練データの目的変数と出力結果との誤差が最小化するように、骨格推定モデル２６のパラメータ更新を行うことで、骨格推定モデル２６の訓練を実行する。なお、骨格データには、２次元の関節位置（骨格座標）、足首の位置、顏の向き、身体の向きや動作などを含めることができる。

（データ取得）
取得部３２は、人物を撮影した人物画像データと、所定の場所を撮影した場所画像データとを取得する処理部である。例えば、取得部３２は、人物検出、属性推定、骨格検知などを行う各現場で撮像された人物画像データや場所画像データを取得して各ＤＢに格納する。また、取得部３２は、各画像データをインターネット等から取得してもよい。

（３Ｄアバターの生成）
人物モデル生成部３３は、人物画像データを３Ｄ生成モデル２４に入力することで、人物の形状と形状に対して付与されるテクスチャから成る３次元の人物モデルを生成する処理部である。具体的には、人物モデル生成部３３は、人物画像データＤＢ２２に記憶される各人物画像データに対して機械学習モデルや画像解析を行うことで、各人物画像データに写っている人物から３次元の人物モデルの一例である３Ｄアバターを生成し、生成された３Ｄアバターを記憶部２０に格納する。

図６は、３Ｄアバターの生成を説明する図である。人物モデル生成部３３は、映像データに含まれるフレーム５０を取得し、フレーム５０の人物の領域５０ａを特定する。人物の領域は、たとえば、Bounding Boxに対応する領域となる。人物モデル生成部３３は、人物の領域の画像を基にして、人物の「骨格情報」および「属性情報」を推定する。骨格情報は、人物の各関節の位置が設定された情報である。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。

人物モデル生成部３３は、人物の領域５０ａの画像を、３Ｄ生成モデル２４に入力することで、３Ｄアバターａｖ１を生成する。人物モデル生成部３３は、３Ｄアバターａｖ１の頭部の部位、手の部位を低解像度化する。また、人物モデル生成部３３は、骨格情報を基にして、人物の動作が歩行であると判定した場合には、３Ｄアバターａｖ１の所定の部位を移動させることで、３Ｄアバターａｖ１の歩行姿勢を匿名化する。人物モデル生成部３３が、上記の処理を実行することで、３Ｄアバターａｖ２が生成される。

ここで、３Ｄアバターの生成処理を具体的に説明する。具体的には、人物モデル生成部３３は、歩行動作の判定処理、３Ｄアバターを生成する処理、３Ｄアバターの特徴量を変換する処理、３Ｄアバターの歩行姿勢を匿名化する処理、変換映像データを生成する処理を実行する。

まず、歩行動作の判定処理について説明する。図７は、歩行の動作判定を説明するための図である。たとえば、人物モデル生成部３３は、図７に示す骨格情報を、人物の姿勢を判定する訓練済みの姿勢判定モデルなどに入力することで、人物の動作を判定する。人物モデル生成部３３は、骨格推定モデル２６など用いて推定された骨格情報をそのまま利用してもよいし、図７の骨格情報ＳＫ１０のように、一部の関節位置を抽出して、利用してもよい。骨格情報ＳＫ１０には、関節ｐ１，ｐ２，ｐ３，ｐ４，ｐ５，ｐ６、ｐ７，ｐ８が含まれる。

関節ｐ１は、左肩の関節である。関節ｐ２は、右肩の関節である。関節ｐ３は、左腰の関節である。関節ｐ４は、右腰の関節である。関節ｐ５は、左膝の関節である。関節ｐ６は、右膝の関節である。関節ｐ７は、左足首の関節である。関節ｐ８は、右足首の関節である。たとえば、姿勢判定モデルＭ４は、骨格情報ＳＫ１０が入力されると、関節ｐ３，ｐ４，ｐ５，ｐ６の角度のパターンに応じて、姿勢を、立つ、歩く、しゃがむ、座る、寝る等の何れかに分類する。

次に、人物モデル生成部３３が実行する３Ｄアバターを生成する処理について説明する。人物モデル生成部３３は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、３Ｄ生成モデル２４に入力することで、３Ｄアバターを生成する。たとえば、人物モデル生成部３３は、人物の領域の画像を、Mesh Graphormerに入力し、３次元の人物のメッシュモデルを生成する。人物モデル生成部３３は、人物の領域の画像を、Texformerに入力して、人物のテクスチャを生成する。人物モデル生成部３３は、Mesh Graphormerによって推定された３次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、３Ｄアバターを生成する。人物モデル生成部３３は、１つのフレームから、かかるフレームに含まれる人物の３Ｄアバターを生成することが可能である。

図８は、フレームから生成される３Ｄアバターの一例を示す図である。たとえば、人物モデル生成部３３が、フレーム６０の人物の領域の画像を、３Ｄ生成モデル２４に入力することで、３Ｄアバター６０ａが生成される。人物モデル生成部３３が、フレーム６１の人物の領域の画像を、３Ｄ生成モデル２４に入力することで、３Ｄアバター６１ａが生成される。人物モデル生成部３３が、フレーム６２の人物の領域の画像を、３Ｄ生成モデル２４に入力することで、３Ｄアバター６２ａが生成される。人物モデル生成部３３が、フレーム６３の人物の領域の画像を、３Ｄ生成モデル２４に入力することで、３Ｄアバター６３ａが生成される。

続いて、人物モデル生成部３３が実行する３Ｄアバターの特徴量を変換する処理について説明する。人物モデル生成部３３は、フレーム番号ｎのフレームから推定された骨格情報と、フレーム番号ｎのフレームから生成した３Ｄアバターとを基にして、３Ｄアバターを構成する複数の部位のうち、特徴量を変換する部位を特定する。たとえば、人物モデル生成部３３は、骨格情報と、３Ｄアバターとを重ねて配置し、骨格情報の頭、手首の関節位置を基準として、３Ｄアバターの頭（顔、耳介を含む）の部位と、手の部位を特定する。

続いて、人物モデル生成部３３は、３Ｄアバターの手の部位、頭の部位を低解像度化する（ぼかす）。また、人物モデル生成部３３は、３Ｄアバターの頭部の部位の位置を、所定の方向へ所定の距離ずらす。所定の方向、所定の距離は、予め設定される。人物モデル生成部３３が、かかる処理を実行することで、３Ｄアバターの特徴量を変換する。

なお、人物モデル生成部３３は、アバターの頭の部位の特徴と類似する頭部のパーツを、予め記憶する情報から選択し、選択した頭部のパーツによって、アバターの頭部の部位を置き換えることで、３Ｄアバターの特徴量を変換してもよい。人物モデル生成部３３は、画像データの識別番号と対応付けて、特徴量を変換した３Ｄアバターの情報を、記憶部２０に登録する。

次に、人物モデル生成部３３が、３Ｄアバターの歩行姿勢を匿名化する処理について説明する。人物モデル生成部３３は、歩行検出情報に設定されるフレーム番号のフレームから生成した３Ｄアバターを選択し、選択した３Ｄアバターの歩行姿勢を匿名化する。なお、歩行検出情報とは、時系列の骨格情報から、一つの骨格情報を取得し、骨格情報を姿勢判定モデルに入力することで、人物の動作が「歩行」であると判定されたフレームを特定する情報であり、人物モデル生成部３３によって生成される。

図９は、３Ｄアバターの歩行姿勢を匿名化する処理を説明するための図である。たとえば、人物モデル生成部３３は、歩行姿勢であると判定された３Ｄアバターに対応する骨格情報を、骨格情報ＳＫ２０とする。骨格情報ＳＫ２０には、関節ｐ１～ｐ１３が含まれる。関節ｐ１～ｐ８の関節の説明は、図７と同様である、関節ｐ９は、左肘の関節である。関節ｐ１０は、右肘の関節である。関節ｐ１１は、左手首の関節である。関節ｐ１２は、右手首の関節である。関節ｐ１３は、頭部の各関節に対応する。

人物モデル生成部３３は、骨格情報ＳＫ２０の関節ｐ３，ｐ５，ｐ７のｘ座標の値が同じ値となるように、関節ｐ５，ｐ７を移動させる。人物モデル生成部３３は、骨格情報ＳＫ２０の関節ｐ４，ｐ６，ｐ８のｘ座標の値が同じ値となるように、関節ｐ６，ｐ８を移動させる。人物モデル生成部３３は、骨格情報ＳＫ２０の関節ｐ９，ｐ１１のｘ座標の値が同じ値となるように、関節ｐ１１を移動させる。人物モデル生成部３３は、骨格情報ＳＫ２０の関節ｐ１０，ｐ１２のｘ座標の値が同じ値となるように、関節ｐ１２を移動させる。上記のように、どの関節の組のｘ座標を同じにするかに関する情報は、設定情報として、予め記憶部２０に登録される。人物モデル生成部３３は、設定情報を基にして、上記の処理を実行する。

人物モデル生成部３３が、上記処理を実行することで、骨格情報ＳＫ２０が、骨格情報ＳＫ２０ａとなる。人物モデル生成部３３は、３Ｄアバターの姿勢を、骨格情報ＳＫ２０ａに合わせて調整する。たとえば、人物モデル生成部３３は、３Ｄアバターの各部位のうち、歩行に関連する関節ｐ３～１２に対応する部位を特定し、特定した部位を、骨格情報ＳＫ２０ａの関節ｐ３～１２に位置に合わせて移動させることで、３Ｄアバターの歩行姿勢を匿名化する。

なお、人物モデル生成部３３は、頭部の各関節ｐ１３をそのままとすることで、人物が向いていた方向をユーザが確認できるように、３Ｄアバターの顔の向きの情報をそのままとする。たとえば、人物モデル生成部３３は、人物が商品に手を伸ばす等の購買行動（物体を探索する動作）が検出された場合、３Ｄアバターの各部位のうち、頭部の各関節ｐ１３に対応する部位をそのままとすることで、購買行動に関する人の動きを反映させる。

このように、人物モデル生成部３３は、歩行検出情報に設定されたフレーム番号に対応する３Ｄアバターについて、上記処理をそれぞれ実行することで、３Ｄアバターの歩行姿勢を匿名化する。このようにして、人物モデル生成部３３は、複数の人物画像データから、様々な姿勢、種別（性別や年齢）、服装の３Ｄアバター（３Ｄモデル）を生成する。

（領域特定）
図２に戻り、領域特定部３４は、場所画像データの中から、人物が行動する領域を特定する処理部である。具体的には、領域特定部３４は、場所画像データＤＢ２３に記憶される各場所画像データに対して機械学習モデルや画像解析を行うことで、各場所画像データ内で人物が行動する領域を特定する。そして、領域特定部３４は、各場所画像データと各特定結果とを対応付けて記憶部２０に格納する。

例えば、領域特定部３４は、領域抽出モデル２５を用いたセマンティックセグメンテーションにより、人物が行動する領域（注目領域）を特定することができる。図１０は、セマンティックセグメンテーションによる注目領域の検出を説明する図である。図１０に示すように、領域特定部３４は、画像データを領域抽出モデル２５（convolutional encoder-decoder）に入力し、画像データの各領域にラベルが設定された出力結果（セグメンテーション結果）を取得する。一例を挙げると、領域特定部３４は、ラベル「通路」が設定された領域を注目領域と特定したり、ラベル「通路」が設定された領域内でラベル「商品棚」と隣接する領域を注目領域と特定したりする。

なお、領域特定部３４は、カメラの映像データから人の作業位置を抽出し、作業位置のクラスタリングによってＲＯＩ（Region Of Interest）を注目領域と特定することもできる。

また、領域特定部３４は、領域抽出モデル２５によるセマンティックセグメンテーションの実行結果を適切な情報を用いて修正することで、人物が行動する領域をより正確に特定することもできる。具体的には、領域特定部３４は、店舗での購買行動は移動と商品を選び取る行動が主として発生し、選び取る際には通路方向に対して身体の向きにバラつきが生じることを用いて、商品の選び取りが発生する注目領域を抽出し、セグメンテーション結果を修正することで、行動分析の対象となる注目領域を正確に設定する。

図１１は、骨格推定モデル２６を用いた動作解析を説明する図である。図１１に示すように、領域特定部３４は、ＲＧＢの画像データを骨格推定モデル２６に入力し、画像データに写っている人物の２次元骨格座標を取得する。そして、領域特定部３４は、２次元骨格座標にしたがって、人物の足首の位置、顔の向き、身体の向きを特定する。

すなわち、領域特定部３４は、所定時間間隔で取得された各映像データに含まれる各画像データ（例えば１００フレーム）それぞれを骨格推定モデル２６に入力し、各画像データに写っている人物の足首の位置、顔の向き、身体の向きを測定することで、映像データ内における人物の足首の位置の遷移、顔の向きの遷移、身体の向きの遷移を特定することができる。

次に、領域特定部３４は、トラッキング情報から人の移動経路を抽出し、基準線となる通路方向を設定する。具体的には、領域特定部３４は、映像データ内から画像データを取得（選択）し、ある人物の移動経路を用いて、画像データ上にユーザが歩く方向である基準方向を設定する。そして、領域特定部３４は、設定された基準方向を、移動経路を示す基準線として抽出する。

図１２は、トラッキングによる基準方向の設定を説明する図である。図１２に示すように、領域特定部３４は、画像データ上に、トラッキング結果である移動経路Ａ１と移動経路Ａ２とを設定する。このとき、領域特定部３４は、設定された移動経路を含む領域を通路の領域と設定することができる。なお、領域特定部３４は、画像データに対してセマンティックセグメンテーションを実行した結果により、画像データ上に通路の領域を設定することができる。

次に、領域特定部３４は、トラッキング結果により、移動経路Ａ１から移動経路Ａ２への遷移を特定し、その遷移にしたがって、通路の領域上に基準方向Ｂ１、Ｂ２、Ｂ３のそれぞれを設定する。そして、領域特定部３４は、この基準方向Ｂ１、Ｂ２、Ｂ３それぞれを、基準線に設定する。なお、移動経路や移動経路の遷移は、一方方向に限らず、多方向が特定されることもあるが、この場合であっても、方向を除外して同じ移動軌跡であれば、１つの通路方向であり、１つの基準線として抽出される。例えば、領域特定部３４は、ユーザが歩く複数の移動経路から通路方向となる近似直線を算出し、その近似曲線を基準線として設定する。

次に、領域特定部３４は、各人物の移動軌跡を抽出し、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する。つまり、領域特定部３４は、各移動軌跡がどの基準線に近いかをクラスタリングする。

図１３は、クラスタリングを説明する図である。図１３に示すように、領域特定部３４は、各画像データに写っている人物の足首の位置を取得し、基準線Ｂ１、Ｂ２、Ｂ３が設定された画像データにプロットする。そして、領域特定部３４は、各基準線と各人物の移動軌跡との距離に基づくクラスタリングにより、複数のクラスタを生成する。

例えば、領域特定部３４は、各移動軌跡から各基準線への垂線を引き、その垂線の長さを基にしたクラスタリングを実行することにより、各移動軌跡をいずれかの基準線にクラスタリングする。なお、ベースとなる距離は、垂線の長さに限らず、ユークリッド距離などを用いることもできる。

この結果、領域特定部３４は、基準線Ｂ１に最も近い移動軌跡の点群を含むクラスタＣ１と、基準線Ｂ２に最も近い移動軌跡の点群を含むクラスタＣ２と、基準線Ｂ３に最も近い移動軌跡の点群を含むクラスタＣ３と、を生成する。

次に、領域特定部３４は、クラスタリングされた各移動軌跡について、各基準線に対する身体の向きのなす角を算出する。具体的には、領域特定部３４は、各画像データに写っている人物の身体の向きを取得し、画像データ内の移動軌跡に、該当する身体の向きを対応付ける。そして、領域特定部３４は、クラスタリング結果を用いて、各移動軌跡が属するクラスタの基準線を特定する。その後、領域特定部３４は、各移動軌跡に対して、公知の手法を用いて、属するクラスタの基準線と身体の向きとのなす角度を算出する。なお、領域特定部３４は、身体の向きに限らず、顔の向きを用いることもできる。

続いて、領域特定部３４は、複数のクラスタそれぞれについて、クラスタに属する各移動軌跡と基準線とのなす角度に基づく評価値が閾値以上であるクラスタを含む領域を注目領域に抽出する。具体的には、領域特定部３４は、各基準線に対する身体の向きのなす角のうち、大きい角度を多く含む基準線を抽出し、このような基準線が属する領域を注目領域として抽出する。

図１４は、クラスタの抽出を説明する図である。図１４に示すように、領域特定部３４は、各移動軌跡がプロットされた画像データに対して、各移動軌跡に対応する身体の向きをプロットする。また、領域特定部３４は、各移動軌跡に対して算出された角度も対応付ける。

そして、領域特定部３４は、各クラスタについて、属する移動軌跡の角度を集計する。例えば、図１４に示すように、領域特定部３４は、クラスタＣ１に属する各移動軌跡の角度とその角度に該当する移動軌跡の数、クラスタＣ２に属する各移動軌跡の角度とその角度に該当する移動軌跡の数、クラスタＣ３に属する各移動軌跡の角度とその角度に該当する移動軌跡の数を集計する。

その後、領域特定部３４は、大きい角度を多く有するクラスタを抽出する。例えば、領域特定部３４は、クラスタごとに、角度の中央値、角度の平均値、６０度以上の角度の数の割合などを評価値として算出する。そして、領域特定部３４は、評価値が閾値以上であるクラスタＣ２とクラスタＣ３を抽出する。

続いて、領域特定部３４は、抽出したクラスタＣ２とクラスタＣ３について、注目領域として、クラスタに属する各移動軌跡を囲む多角形を生成する。図１５は、注目領域の抽出を説明する図である。図１５に示すように、領域特定部３４は、クラスタＣ２について、クラスタＣ２に属する各移動軌跡を含む最大の多角形Ｃ２´を生成して、注目領域として抽出する。同様に、領域特定部３４は、クラスタＣ３について、クラスタＣ３に属する各移動軌跡を含む最大の多角形Ｃ３´を生成して、注目領域として抽出する。

その後、領域特定部３４は、上記抽出結果を用いて、セマンティックセグメンテーションにより得られた各エリアのラベルを修正（変更）する。例えば、領域特定部３４は、修上述した処理により得られた基準線に関する情報、注目領域の抽出結果、ＲＯＩに関する情報、足首の位置や身体の向きや顔の向きなどの行動認識結果などを取得する。

また、領域特定部３４は、上記注目領域の抽出に使用された画像データなど、映像データに含まれる画像データを、領域抽出モデル２５に入力し、セマンティックセグメンテーションの実行結果を取得する。なお、セグメンテーションの実行結果には、画像データに含まれる複数の領域それぞれについて、識別された結果を示すラベルが付与されている。例えば、セマンティックセグメンテーションの実行結果には、「棚」、「通路」、「壁」などのラベルが付与される。

次に、領域特定部３４は、セグメンテーション結果に基準線を設定する。図１６は、セマンティックセグメンテーションの実行結果への基準線の設定を説明する図である。図１６に示すように、領域特定部３４は、セグメンテーション結果と基準線に関する情報を取得し、セグメンテーション結果に対して、基準線Ｂ１、Ｂ２、Ｂ３をプロットする。

次に、領域特定部３４は、基準線が設定されたセグメンテーション結果に対して、基準線に基づくクラスタリングを実行する。図１７は、基準線に基づくクラスタリングを説明する図である。図１７に示すように、領域特定部３４は、セグメンテーション結果に設定（識別）された各ラベルのうち、「通路」のラベルが設定されたエリアを特定する。そして、領域特定部３４は、特定した「通路」のエリアに属する各画素と各基準線（Ｂ１、Ｂ２、Ｂ３）との距離を算出し、最も距離が近い基準線に属するように、各画素をクラスタリングする。なお、距離には、各画素から各基準線に対する垂線の長さや、画素と基準線とのユークリッド距離などを用いることができる。そして、領域特定部３４は、基準線Ｂ１に属するクラスタＬ１、基準線Ｂ２に属するクラスタＬ２、基準線Ｂ３に属するクラスタＬ３を特定する。

次に、領域特定部３４は、上記抽出結果に基づき、セグメンテーション結果のラベルを修正する。具体的には、領域特定部３４は、複数のクラスタのうち注目領域に対応する注目クラスタを特定し、注目クラスタの領域を、対応する注目領域を含む領域に修正し、修正された領域に対して設定されたラベルを、注目領域に該当するラベルに変更する。すなわち、領域特定部３４は、クラスタリング結果と抽出された注目領域とを含む領域が最大を取るように各クラスタの領域を修正し、その修正された領域を注目領域としてラベリングする。

図１８は、ラベル修正を説明する図である。図１８に示すように、領域特定部３４は、注目領域（Ｃ２´とＣ３´）に関する各多角形の座標を取得し、クラスタリングされたセグメンテーション結果（画像データ）にマッピングする。そして、領域特定部３４は、注目領域Ｃ２´が属するクラスタＬ２と、注目領域Ｃ３´が属するクラスタＬ３とを特定する。

その後、領域特定部３４は、注目領域Ｃ２´が含まれるように、クラスタＬ２の領域を拡張した領域Ｌ２´を生成する。そして、領域特定部３４は、領域Ｌ２´に設定されているラベル「通路」を、ラベル「注目領域」に修正（変更）する。

同様に、領域特定部３４は、注目領域Ｃ３´が含まれるように、クラスタＬ３の領域を拡張した領域Ｌ３´を生成する。そして、領域特定部３４は、領域Ｌ３´に設定されているラベル「通路」を、ラベル「注目領域」に修正する。なお、領域特定部３４は、注目領域の方がクラスタの領域よりも大きい場合、注目領域のラベル「通路」を、ラベル「注目領域」に修正（変更）する。

次に、領域特定部３４は、顔の向きまたは身体の向きに基づき、店舗を構成する複数の領域のうちラベル「注目領域」と隣接する、人物に関連する物体が収納される領域を設定する。具体的には、領域特定部３４は、画像データに対して、ピッキング動作の対象となる商品が置いてある商品棚エリアを特定する。すなわち、領域特定部３４は、領域Ｌ２´や領域Ｌ３´と隣接するエリアについて、セグメンテーション結果により設定済みであるラベルを、ラベル「商品棚」に変更する。

図１９は、商品棚エリアの設定を説明する図である。図１９に示すように、領域特定部３４は、ラベル「注目領域」が設定された領域Ｌ２´と領域Ｌ３´のそれぞれについて、各領域に属する各移動軌跡および顔の向きをプロットする。

そして、領域特定部３４は、顔の向きのベクトルの数が閾値以上である方向を特定し、その方向にある領域のうち、領域Ｌ２´と接する領域もしく領域Ｌ２´と隣接する領域として、領域Ｅ１と領域Ｅ２を特定する。この結果、領域特定部３４は、セグメンテーション結果において、領域Ｅ１と領域Ｅ２のラベルを「商品棚エリア」と設定する。

同様に、領域特定部３４は、顔の向きのベクトルの数が閾値以上である方向を特定し、その方向にある領域のうち、領域Ｌ３´と接する領域もしく領域Ｌ３´と隣接する領域として、領域Ｅ３と領域Ｅ４を特定する。この結果、領域特定部３４は、セグメンテーション結果において、領域Ｅ３と領域Ｅ４のラベルを「商品棚エリア」と設定する。

そして、領域特定部３４は、領域Ｅ１、領域Ｅ２、領域Ｅ３、領域Ｅ４の座標や、領域Ｅ１からＥ４それぞれを設定した画像データなどの情報を記憶部２０に格納する。なお、領域特定部３４は、セグメンテーション結果ではなく、セグメンテーション結果の元となった画像データに対して、「商品棚エリア」に領域を設定することもできる。

（合成データの生成）
図２に戻り、合成データ生成部３５は、カメラパラメータを用いて、領域特定部３４により特定された領域に、人物モデル生成部３３によって生成された３次元の人物モデルが配置された合成データを生成する処理部である。

具体的には、合成データ生成部３５は、領域特定部３４により特定された場所画像データ内の注目領域（行動を行う領域）に、特定の行動を行う３Ｄアバターを配置した合成データを生成する。例えば、合成データ生成部３５は、注目領域に、「商品棚エリア」に対して商品を取る行動を行う３Ｄアバターを配置した合成データを生成する。

ここで、合成データ生成部３５は、場所画像データを撮像したカメラの位置を推定して、適切な大きさの３Ｄアバターを配置する。例えば、合成データ生成部３５は、単眼デプス推定を行う訓練済みの機械学習モデル（推定モデル）を用いて、カメラから注目領域までの距離を推定し、推定された距離にしたがって３Ｄアバターを適切に配置することができる。

図２０は、合成データの生成を説明する図である。図２０に示すように、合成データ生成部３５は、場所画像データに対する領域特定部３４の領域特定処理により、場所画像データ内の床のうち注目領域を３Ｄアバターの配置位置に決定する。

一方で、合成データ生成部３５は、推定モデルに場所画像データを入力し、明るいほどカメラからの距離が遠い位置を表すデプス画像を取得する。そして、合成データ生成部３５は、デプス画像および公知の単眼カメラ距離計測技術などを用いて、カメラから配置位置までの距離を算出する。続いて、合成データ生成部３５は、カメラと配置位置までの距離を用いて俯角を算出し、俯角および距離を用いて３Ｄアバターの高さを決定する。例えば、合成データ生成部３５は、俯角および距離を用いた三平方の定理により配置位置から天井や商品棚までの高さを算出し、その高さより低い３Ｄアバターを配置位置に配置した合成データを生成する。

ここで、３Ｄアバターは、条件により様々な姿勢に変更することができる。このため、合成データ生成部３５は、目的とする行動（学習対象とする行動）が指定されることで、目的とする３Ｄアバターを含む合成データを生成することができる。上記領域特定部３４による処理結果を用いた合成データの具体的な生成例を説明する。

図２１は、合成データの生成を説明する図である。図２１に示すように、合成データ生成部３５は、複数のうち場所画像データのうち、商品棚を含む画像や飲み物売り場などユーザが指定した条件等の指示に合致した場所画像データを選定する。そして、合成データ生成部３５は、選択された場所画像データに対して領域特定部３４が特定した場所画像データ内の領域を選択する。例えば、合成データ生成部３５は、ユーザの指示に応じて、特定された領域であるクラスタＣ２の領域（移動軌跡の領域）、クラスタＬ２の領域（基準線を含む領域）、拡張された領域Ｌ２´（移動軌跡と基準線を含む領域）、クラスタＣ３の領域、クラスタＬ３の領域、拡張された領域Ｌ３´の中から、領域Ｌ３´を選択する。

続いて、合成データ生成部３５は、人物モデル生成部３３により生成された複数の３Ｄアバター７０のうち、商品を選ぶ女性や商品を陳列する男性従業員などユーザが指定した条件等の指示に合致した３Ｄアバター７０を選定する。そして、合成データ生成部３５は、ユーザが指定した条件に合致するように、選定した３Ｄアバター７０を上下方向、左右方向に回転させるとともに、手を上げたり、しゃがんだりさせて、該当する姿勢に生成する。

その後、合成データ生成部３５は、場所画像データ内の領域Ｌ３´に、商品棚Ｅ４の方を向いて、商品を物色する行動を行う３Ｄアバター７０を配置した合成データを生成する。ここで、合成データ生成部３５は、３Ｄアバター７０を配置する際に、図２０を用いた手法に限らず、カメラの位置やレンズのパラメータなどを含むカメラパラメータを用いて適切に配置することができる。なお、カメラパラメータは、すべての場所画像データについて既知の情報とは限らないので、場所画像データに合わせて適切に推定することで、精度を向上させることができる。

（カメラパラメータの推定）
ここでは、３Ｄアバターの身長を推定するカメラパラメータの推定について説明する。図２２、図２３、図２４は、カメラパラメータの推定を説明する図である。図２２について説明する。図２２では、映像データに含まれる複数の画像フレーム（場所画像データ）のうち、画像フレームＦ２１を用いて説明を行う。

画像フレームＦ２１の座標系は、画像座標系（ｘ，ｙ）となる。人物が現実に存在する座標系は、世界座標系（Ｘ，Ｙ，Ｚ）となる。以下の説明では、画像フレームＦ２１に映った画像座標系の人物を人物２１－１ａと表記し、世界座標系の人物を人物２１－２ａと表記する。

カメラ１００のカメラパラメータには、カメラ１００の高さｃと、カメラ１００の角度θと、カメラ１００の焦点距離ｆとが含まれる。カメラ１００のカメラパラメータを未知とし、合成データ生成部３５は、カメラパラメータに予め所定の初期値を設定しておく。なお、カメラパラメータは、これらに限らず、幾何学関係を定義可能なその他のパラメータでも良い。たとえば、その他のパラメータとして、光軸と画像の交点（光軸中心座標）やカメラの回転角などが含まれる。

合成データ生成部３５は、画像フレームＦ２１を解析することで、人物２１－１ａの骨格データを特定する。たとえば、合成データ生成部３５は、画像フレームＦ２１を、機械学習済みの学習モデル（例えば骨格推定モデル２６）に入力することで、人物２１－１ａの骨格データを特定する。

骨格データには、人物の複数の関節に関する情報が含まれ、各関節は、画像フレーム上の座標に対応付けられる。たとえば、画像フレームＦ２１に対応する骨格データには、人物２１－１ａの頭部の座標（ｘ_ｈ１，ｙ_ｈ１）、足部の座標（ｘ_ｆ１，ｙ_ｆ１）等が含まれる。

合成データ生成部３５は、属性テーブルを有しており、かかる属性テーブルには、各国の領土の範囲と、該当する国に住む人物の平均身長とが対応付けられる。合成データ生成部３５は、カメラ１００から受信する位置データと、属性テーブルとを基にして、カメラ１００が設置された国の人物の平均身長（画像フレームＦ２１に映った人物の平均身長）を特定する。

合成データ生成部３５は、カメラ１００のカメラパラメータを基にして、画像座標系の足部の座標（ｘ_ｆ１，ｙ_ｆ１）を世界座標系の座標に投影する。たとえば、合成データ生成部３５は、カメラ１００と、人物２１－１ａの足部の座標（ｘ_ｆ１，ｙ_ｆ１）とを通る線分ｌ５と、世界座標系のＸＺ平面との交点（Ｘ_ｆ１，Ｙ_ｆ１，Ｚ_ｆ１）を、世界座標系の人物２１－２ａの足部の座標として算出する。

合成データ生成部３５は、位置データおよび属性情報を基にして特定した身長（平均身長）Ｌを、世界座標軸系の人物２１－２ａに割り当てる。合成データ生成部３５は、人物２１－２ａの足部の座標と、身長Ｌとを基にして、人物２１－２ａの頭部の座標（Ｘ_ｈ１，Ｙ_ｈ１，Ｚ_ｈ１）を算出する。

合成データ生成部３５は、カメラ１００のカメラパラメータを基にして、世界座標系の頭部の座標（Ｘ_ｈ１，Ｙ_ｈ１，Ｚ_ｈ１）を、画像座標系の座標に逆投影する。たとえば、合成データ生成部３５は、カメラ１００と、人物２１－２ａの頭部の座標（Ｘ_ｈ１，Ｙ_ｈ１，Ｚ_ｈ１）とを通る線分ｌ６と、画像座標系の平面との交点の座標（ｘ´_ｆ１，ｙ´_ｆ１）を算出し、画像座標系の人物２１－１ａの頭部の座標とする。

合成データ生成部３５は、画像座標系の足部の座標（ｘ_ｆ１，ｙ_ｆ１）から、座標（ｘ´_ｆ１，ｙ´_ｆ１）までの距離を、「第一の特徴量」として設定する。第一の特徴量は、割り当てた身長Ｌと、カメラ１００のカメラパラメータに基づいて推定される人物２１－１ａの身長に対応する。

合成データ生成部３５は、画像座標系の足部の座標（ｘ_ｆ１，ｙ_ｆ１）から、頭部の座標（ｘ_ｈ１，ｙ_ｈ１）までの距離を、「第二の特徴量」として設定する。第二の特徴量は、骨格データに基づいて推定される人物２１－１ａの身長に対応する。

図２３の説明に移行する。合成データ生成部３５は、画像フレームＦ２１に含まれる他の人物２２－１ａ，２３－１ａ，２４－１ａ，２５－１ａについても、人物２１－１ａと同様にして、身長Ｌを割り振り、各人物２２－１ａ～２５－１ａの第一の特徴量、第二の特徴量をそれぞれ設定する。初回に、各人物２１－１ａ～２５－１ａに割り振られる身長Ｌは、同じ身長（平均身長）となる。

人物２２－１ａの骨格データから得られる、画像座標系の足部の座標を（ｘ_ｆ２，ｙ_ｆ２）とし、頭部の座標を（ｘ_ｈ２，ｙ_ｈ２）とする。カメラパラメータと身長Ｌとを用いて得られる頭部の座標を（ｘ´_ｆ２，ｙ´_ｆ２）とする。人物２２－１ａの第一の特徴量は、座標（ｘ_ｆ２，ｙ_ｆ２）から、座標（ｘ´_ｆ２，ｙ´_ｆ２）までの距離となる。人物２２－１ａの第二の特徴量は、座標（ｘ_ｆ２，ｙ_ｆ２）から、頭部の座標（ｘ_ｈ２，ｙ_ｈ２）までの距離となる。

人物２３－１ａの骨格データから得られる、画像座標系の足部の座標を（ｘ_ｆ３，ｙ_ｆ３）とし、頭部の座標を（ｘ_ｈ３，ｙ_ｈ３）とする。カメラパラメータと身長Ｌとを用いて得られる頭部の座標を（ｘ´_ｆ３，ｙ´_ｆ３）とする。人物２３－１ａの第一の特徴量は、座標（ｘ_ｆ３，ｙ_ｆ３）から、座標（ｘ´_ｆ３，ｙ´_ｆ３）までの距離となる。人物２３－１ａの第二の特徴量は、座標（ｘ_ｆ３，ｙ_ｆ３）から、頭部の座標（ｘ_ｈ３，ｙ_ｈ３）までの距離となる。

人物２４－１ａの骨格データから得られる、画像座標系の足部の座標を（ｘ_ｆ４，ｙ_ｆ４）とし、頭部の座標を（ｘ_ｈ４，ｙ_ｈ４）とする。カメラパラメータと身長Ｌとを用いて得られる頭部の座標を（ｘ´_ｆ４，ｙ´_ｆ４）とする。人物２４－１ａの第一の特徴量は、座標（ｘ_ｆ４，ｙ_ｆ４）から、座標（ｘ´_ｆ４，ｙ´_ｆ４）までの距離となる。人物２４－１ａの第二の特徴量は、座標（ｘ_ｆ４，ｙ_ｆ４）から、頭部の座標（ｘ_ｈ４，ｙ_ｈ４）までの距離となる。

人物２５－１ａの骨格データから得られる、画像座標系の足部の座標を（ｘ_ｆ５，ｙ_ｆ５）とし、頭部の座標を（ｘ_ｈ５，ｙ_ｈ５）とする。カメラパラメータと身長Ｌとを用いて得られる頭部の座標を（ｘ´_ｆ５，ｙ´_ｆ５）とする。人物２５－１ａの第一の特徴量は、座標（ｘ_ｆ５，ｙ_ｆ５）から、座標（ｘ´_ｆ５，ｙ´_ｆ５）までの距離となる。人物２５－１ａの第二の特徴量は、座標（ｘ_ｆ５，ｙ_ｆ５）から、頭部の座標（ｘ_ｈ５，ｙ_ｈ５）までの距離となる。

合成データ生成部３５は、人物２１－１ａ～２５－１ａの身長Ｌを固定した状態で、それぞれの人物２１－１ａ～２５－１ａについて、第一の特徴量と、第二の特徴量との差が小さくなるように、カメラ１００のカメラパラメータを最適化する。

図２４の説明に移行する。合成データ生成部３５は、上記処理によって最適化したカメラパラメータを基にして、人物２１－１ａ～２５－１ａの身長をそれぞれ算出する。合成データ生成部３５は、人物２１－１ａ～２５－１ａのうち、算出した身長が、所定の範囲に含まれない人物を特定する。たとえば、所定の範囲を、「初期値（平均身長）±４」とする。合成データ生成部３５は、２回目以降のカメラパラメータの最適化を行う場合、算出した身長が、所定の範囲に含まれない人物の情報を用いる。

図２４に示した例では、最適化したカメラパラメータを基にして算出した人物２１－１ａ～２５－１ａの身長をそれぞれ「１７３」、「１６９」、「１６７」、「１７７」、「１７０」とする。初期値を１７２とすると、所定の範囲は「１６８～１７６」となる。そうすると、合成データ生成部３５は、身長が、所定の範囲に含まれない人物として、身長「１６７」の人物２３－１ａと身長「１７７」の人物２４－１ａとを特定する。

合成データ生成部３５は、特定した人物の身長が、初期値以上場合には、人物の身長に所定値を加算し、加算した身長を２回目の初期値として設定する。合成データ生成部３５は、特定した人物の身長が、初期値未満の場合には、人物の身長に所定値を減算し、減算した身長を２回目の初期値として設定する。所定値を１とする。

たとえば、人物２３－１ａの身長が「１６７」であり、初期値未満である。このため、合成データ生成部３５は、人物２３－１ａの身長Ｌに、２回目の初期値として「１６６」を設定する。人物２４－１ａの身長が「１７７」であり、初期値以上である。このため、合成データ生成部３５は、人物２４－１ａの身長Ｌに、２回目の初期値として「１７８」を設定する。

合成データ生成部３５は、人物２３－１ａ，２４－１ａの身長Ｌを固定した状態で、それぞれの人物２３－１ａ，２４－１ａについて、第一の特徴量と、第二の特徴量との差が小さくなるように、カメラ１００のカメラパラメータを最適化する。２回目のカメラパラメータの初期値は、１回目のカメラパラメータの推定結果とする。

上記のように合成データ生成部３５は、１回目の処理で、各人物に仮の平均身長を割り当て、カメラパラメータを推定する。合成データ生成部３５は、カメラパラメータの推定結果から特定される各人物の身長が、平均身長を基準とする所定範囲に含まれない人物を抽出する。合成データ生成部３５は、抽出した人物の身長を用いて、２回目以降のカメラパラメータを再計算することで、カメラパラメータを決定する。これによって、人物の身長を精度よく算出するためのカメラパラメータをカメラ１００に設定することができる。

合成データ生成部３５は、平均身長を基準とする所定範囲に含まれない人物を特定して、かかる人物の身長を再設定し、カメラパラメータの再計算を行い、統計的な平均値から外れる人物が存在する場合でも、カメラパラメータを収束させることができる。

このように、合成データ生成部３５は、画像フレームに含まれる全ての人物の身長が未知であっても、それぞれの人物の身長を推定することができる。したがって、合成データ生成部３５は、推定された身長となるように、３Ｄアバターの身長を変更して該当領域に配置することで、状況を正確に表した合成データを生成することができる。

（機械学習へ適用）
図２に戻り、機械学習部３６は、合成データから２次元の人物モデルを含む画像データを生成し、画像データを訓練データとして、画像データの入力に応じて人物を識別する機械学習モデルを生成する処理部である。

具体的には、機械学習部３６は、合成データ内の３Ｄアバターを公知の手法で２次元化した２次元の画像データを生成する。ここで、上述したように、合成データは、ユーザの指定条件にしたがって生成されていることから、合成データで使用された場所画像データは、撮像された場所が既知であり、合成データ内の３Ｄアバターは、種別、行動、姿勢等が既知である。

そのため、機械学習部３６は、合成データに基づく２次元の画像データに、学習対象の機械学習モデルに応じたラベルを付加することで、学習内容に応じた訓練データを生成する。なお、機械学習部３６は、訓練として、目的変数と各機械学習モデルの出力結果との誤差が最小化するように、各機械学習モデルのパラメータ更新を実行する。

図２５は、各種モデルの訓練への適用を説明する図である。図２５に示すように、機械学習部３６は、人物検出モデルの訓練を行う場合、２次元の画像データに、ラベルとして「人物の領域（バウンティングボックス）」を付加した訓練データを生成する。そして、機械学習部３６は、画像データを説明変数、ラベルを目的変数とする訓練データを用いて、画像データから画像データに写っている物の領域を検出する人物検出モデルの訓練を実行する。

同様に、機械学習部３６は、属性推定モデルの訓練を行う場合、２次元の画像データに、ラベルとして「服装」、「年齢」や「性別」などを付加した訓練データを生成する。そして、機械学習部３６は、画像データを説明変数、ラベルを目的変数とする訓練データを用いて、画像データから画像データに写っている人物の属性を推定する属性推定モデルの訓練を実行する。

同様に、機械学習部３６は、骨格推定モデルの訓練を行う場合、２次元の画像データに、ラベルとして「骨格情報（例えば１８関節の情報）」などを付加した訓練データを生成する。そして、機械学習部３６は、画像データを説明変数、ラベルを目的変数とする訓練データを用いて、画像データから画像データに写っている人物の骨格を推定する骨格推定モデルの訓練を実行する。

同様に、機械学習部３６は、行動検知モデルの訓練を行う場合、２次元の画像データに、ラベルとして「歩く」、「座る」や「物を取る」などの「行動」を付加した訓練データを生成する。そして、機械学習部３６は、画像データを説明変数、ラベルを目的変数とする訓練データを用いて、画像データから画像データに写っている人物の行動を検知する行動検知モデルの訓練を実行する。

＜処理の流れ＞
図２６は、実施例１にかかる合成データの生成処理の流れを示すフローチャートである。図２６に示すように、情報処理装置１０は、処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、合成処理の開始が指示されるまで（Ｓ１０３：Ｎｏ）、人物画像データと場所画像データを蓄積する（Ｓ１０２）。

その後、情報処理装置１０は、合成処理の開始が指示されると（Ｓ１０３：Ｙｅｓ）、各人物画像データから各３Ｄアバターを生成する（Ｓ１０４）。続いて、情報処理装置１０は、各場所画像データに対して行動領域の特定を行い、各場所画像データにおいて人物が行動する領域を特定する（Ｓ１０５）。

そして、情報処理装置１０は、カメラパラメータの推定を実行し（Ｓ１０６）、推定されたカメラパラメータを用いて、任意の３Ｄアバターと任意の場所画像データとを用いて、行動領域に３Ｄアバターが配置された合成データを生成する（Ｓ１０７）。

ここで、他の合成データを生成する場合（Ｓ１０８：Ｎｏ）、情報処理装置１０は、Ｓ１０７以降を繰り返し、他の合成データを生成しない場合（Ｓ１０８：Ｙｅｓ）、処理を終了する。

＜効果＞
上述したように、実施例１にかかる情報処理装置１０は、すでに設置されているカメラにより撮像された人物画像データや場所画像データを用いて、合成データを生成することができる。また、情報処理装置１０は、合成データから訓練データを生成して、各種機械学習モデルを訓練することができる。

したがって、情報処理装置１０は、各種機械学習モデルを用いた検知を行う現場に適した訓練データを用いて、現場に適した機械学習モデルを生成することができる。この結果、情報処理装置１０は、現場での行動検知の精度を向上させることができる。

また、情報処理装置１０は、各現場で教師ありの訓練データを収集する場合に比べて、高速に訓練データを生成することができるので、機械学習モデルの訓練にかかるコストを削減することができる。また、情報処理装置１０は、教師ありの訓練データを高速かつ正確に生成することができるので、現場に適した機械学習モデルの生成時間を短縮することができる。さらに、情報処理装置１０は、現場における精度高い行動検知の高速に実現することができる。

ところで、人物が行う行動には様々な行動が含まれるが、商品を手にとる行動や商品を物色する行動のように、種別が類似する行動には同じような動作（骨格情報の変化）が行われる。したがって、行動をルール化しておき、ルールに基づいて人物の３次元モデルのポーズと配置を自動で決定することができる。

そこで、実施例２では、情報処理装置１０が、行動を決めるルールに基づいて、人物の３次元モデルのポーズと配置を決定して、自動で合成データを生成する例を説明する。また、実施例２にかかる情報処理装置１０は、生成された合成データを各種機械学習モデルに入力し、正しく認識されなかった機械学習モデルの訓練を実行する。

図２７は、実施例２にかかる情報処理装置１０を説明する図である。図２７に示すように、情報処理装置１０は、予め定義したルールＡ、ルールＢ、ルールＣなどの各種ルールを記憶する。情報処理装置１０は、実施例１の手法で生成された各３Ｄアバターと行動領域が特定された各場所画像データとを用いて、各ルールに基づく姿勢で３Ｄアバターを配置した合成データＡ１、合成データＢ１、合成データＣ１を生成する。

その後、情報処理装置１０は、人物検出モデル、属性推定モデル、骨格推定モデルなどの各種機械学習モデルに、各合成データを入力して、各モデルの出力結果を取得する。そして、情報処理装置１０は、推定が失敗した機械学習モデルを訓練対象と特定する。例えば、合成データＡ１が入力されたときの人物検出モデルの人物検出結果が正しい検出結果ではない場合、情報処理装置１０は、合成データＡ１を用いて人物検出モデルの訓練を実行する。また、合成データＣ１が入力されたときの属性推定モデルの属性推定結果が正しい推定結果ではない場合、情報処理装置１０は、合成データＣ１を用いて属性推定モデルの訓練を実行する。

図２８は、実施例２にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図２８に示す各処理部や各ＤＢのうち、実施例１と異なる点は、行動ルールＤＢ２７であるので、ここでは、行動ルールＤＢ２７について説明する。

行動ルールＤＢ２７は、人物の行動の要素を示すルールを記憶するデータベースである。具体的には、行動ルールＤＢ２７は、行動ごとに、３Ｄアバターの配置位置や３Ｄアバターの姿勢やポーズ等を記憶する。

図２９は、行動ルールＤＢ２７を説明する図である。図２９に示すように、行動ルールＤＢ２７は、「行動名、姿勢、身体の向き、立ち位置、手の位置」を対応付けて記憶する。ここで記憶される「行動名」は、行動を一意に識別する情報である。「姿勢」は、行動を行うときに姿勢を示す情報である。「身体の向き」は、行動を行うときに身体の向きを示す情報である。「立ち位置」は、行動を行うときに立ち位置を示す情報である。「手の位置」は、行動を行うときに手の位置を示す情報である。

図２９の例では、「倒れる行動」の場合、人物は、「床」で「寝る」姿勢を取り、「床にお尻や体が付く」状態であることが定義されている。なお、行動の要素として「姿勢」や「身体の向き」を例示したが、「手の位置」を省略し、「背中の向き」を追加するなど、任意に変更することができる。

合成データ生成部３５は、行動ルールに基づいて、合成データを自動で生成する。例えば、合成データ生成部３５は、ユーザが指定した行動に対応するルール（行動の要素）を行動ルールＤＢ２７から特定し、特定したルールにしたがって合成データを生成する。また、合成データ生成部３５は、行動ルールＤＢ２７に記憶される行動ごとに、行動に対応付けられるルールに一致する３Ｄアバターと場所画像データとを選択して、合成データを生成することもできる。

図３０は、行動ルールに基づく合成データの生成を説明する図である。図３０に示すように、合成データ生成部３５は、ユーザにより「商品を取る」行動が指定された場合、行動ルールＤＢ２７から行動の要素を取得する。すなわち、「商品を取る行動」の場合、人物は、「領域（ROI：Region of Interest）に両足首が入った」状態で、「立つ」姿勢を取り、身体が「商品棚に向いて」、手を「商品棚に入れる」状態であることが定義されている。

合成データ生成部３５は、特定した要素のうち、姿勢「立つ」を特定する。そして、合成データ生成部３５は、該当する３Ｄアバターの姿勢を立った姿勢に変更する。

続いて、合成データ生成部３５は、商品棚を含む場所画像データを選択し、実施例１の手法で特定された行動領域と商品棚領域のそれぞれを立ち位置ＲＯＩと手の位置ＲＯＩに設定する。そして、合成データ生成部３５は、立ち位置ＲＯＩに、立ち姿勢の３Ｄアバターを配置する。ここで、合成データ生成部３５は、「商品を取る行動」に対応付けられる要素のうち、身体の向きが「商品棚に向いている」かつ「手の位置」が「商品棚に入れる」となっていることから、立ち位置ＲＯＩから手の位置ＲＯＩに対して、手を伸ばしている３Ｄアバターを配置する。

このように行動ごとにルールを対応付けておくことで、合成データ生成部３５は、行動に合致した合成データを正確に生成することができるので、合成データの生成時間を短縮することができ、人為的なミスによる不正確な合成データの生成を抑制することができる。

次に、合成データを用いた各種機械学習モデルの評価の具体例を説明する。ここで例示する機械学習モデルは例示であり、数、評価の順番、機械学習モデルの種別などを限定するものではない。

図３１は、実施例２にかかる合成データを用いた機械学習モデルの評価処理の流れを示すフローチャートである。図３１に示すように、機械学習部３６は、処理開始が指示されると（Ｓ２０１：Ｙｅｓ）、生成されて記憶部２０等に格納される合成データを取得する（Ｓ２０２）。

続いて、機械学習部３６は、実施例１による手法や合成データの生成に使用されたルールから、合成データにラベル（正解情報）を設定する（Ｓ２０３）。例えば、機械学習部３６は、人物の領域、属性、骨格情報などを各ラベルとして設定する。なお、機械学習部３６は、合成データから生成した上記２次元モデルの画像データを用いてもよい。

その後、機械学習部３６は、人物検出モデルを用いて合成データから人物検出を実行する（Ｓ２０４）。すなわち、機械学習部３６は、合成データを人物検出モデルに入力して、人物検出モデルによる人物検出結果を取得する。

そして、機械学習部３６は、人物検出モデルによる人物検出が成功した場合（Ｓ２０５：Ｙｅｓ）、Ｓ２０６を実行せずにＳ２０７を実行し、人物検出モデルによる人物検出が失敗した場合（Ｓ２０５：Ｎｏ）、合成データを用いて人物検出モデルを訓練する（Ｓ２０６）。例えば、機械学習部３６は、人物検出モデルにより合成データから人物が検出されなかった場合、合成データを説明変数、ラベルを目的変数として人物検出モデルの訓練を実行する。

その後、機械学習部３６は、属性推定モデルを用いて合成データから人物の属性推定を実行する（Ｓ２０７）。すなわち、機械学習部３６は、合成データを属性推定モデルに入力して、属性推定モデルによる属性推定結果を取得する。

そして、機械学習部３６は、属性推定モデルによる属性推定が成功した場合（Ｓ２０８：Ｙｅｓ）、Ｓ２０９を実行せずにＳ２１０を実行し、属性推定モデルによる属性推定が失敗した場合（Ｓ２０８：Ｎｏ）、合成データを用いて属性推定モデルを訓練する（Ｓ２０９）。例えば、機械学習部３６は、属性推定モデルにより合成データから属性が推定されなかった場合や属性が間違って推定された場合、合成データを説明変数、ラベルを目的変数として属性推定モデルの訓練を実行する。

その後、機械学習部３６は、骨格推定モデルを用いて合成データから人物の骨格推定を実行する（Ｓ２１０）。すなわち、機械学習部３６は、合成データを骨格推定モデルに入力して、骨格推定モデルによる骨格推定結果を取得する。

そして、機械学習部３６は、骨格推定モデルによる骨格推定が成功した場合（Ｓ２１１：Ｙｅｓ）、処理を終了する。一方、機械学習部３６は、骨格推定モデルによる骨格推定が失敗した場合（Ｓ２１１：Ｎｏ）、合成データを用いて骨格推定モデルを訓練する（Ｓ２１２）。例えば、機械学習部３６は、骨格推定モデルにより合成データから骨格が推定されなかった場合や骨格が間違って推定された場合、合成データを説明変数、ラベルを目的変数として骨格推定モデルの訓練を実行する。

このように、機械学習部３６は、推定精度が悪い機械学習モデルのみを特定し、その機械学習モデルに対してのみ訓練および再訓練を行うことができる。この結果、情報処理装置１０は、現場で複数の機械学習モデルを使用する場合でも、精度劣化の検出精度を向上させることができ、精度劣化の是正処理の短縮を実現することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

（数値等）
上記実施例で用いたデータ例、行動、訓練データ、ラベル、機械学習モデルの種別や数、３Ｄアバター、３Ｄアバターの姿勢、現場等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。

（モデルの形態）
上記実施例では、各機械学習モデルとしては、多値判定モデル（多値分類モデル）や２値分類モデルなどを用いることもできる。

（想定場所）
上記実施例では、店舗を例にして説明したが、これに限定されるものではない。例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも流用することができる。これらの場合、人物に関連する物体が収納された領域の一例として説明した商品棚の領域に代わりに、物を置く領域や荷物をしまう領域が検出、設定対象となる。また、上記情報処理装置１０は、姿勢や属性に限らず、ユニフォームの着用有無、エプロンの着用有無など、現場に応じた格好の３Ｄアバターを生成することができる。

また、上記実施例では、人物の足首の位置を用いる例を説明したが、これに限定されるものではなく、例えば足の位置、靴の位置などを用いることもできる。また、上記実施例では、顔の向きの方向にあるエリアを商品棚エリアと特定する例を説明したが、身体の向きの方向にあるエリアを商品棚エリアと特定することもできる。また、各機械学習モデルは、ニューラルネットワークなどを用いることができる。

（合成データ生成の別例）
例えば、情報処理装置１０は、上記カメラパラメータ等を用いて商品棚等の奥行を推定し、行動領域（注目領域）に含まれる物体の後ろに３次元アバターが配置された合成データを生成することができる。

図３２は、３Ｄアバターの配置例を説明する図である。図３２に示すように、情報処理装置１０は、人物画像データから３Ｄアバターを生成する。また、情報処理装置１０は、場所画像データに対して環境認識を実行する。例えば、情報処理装置１０は、場所画像データからデプス画像やセマンティックセグメンテーション結果などを生成し、カメラパラメータの推定やキャリブレーションを実行する。そして、情報処理装置１０は、場所画像データ内の注目領域と注目領域までの距離を特定するとともに、セマンティックセグメンテーション結果によりラベル「商品棚」が設定された領域およびその領域までの距離を特定する。

ここで、情報処理装置１０は、商品棚と注目領域の位置関係を正確に再現した合成データを生成する。例えば、情報処理装置１０は、注目領域の中に商品棚が含まれるとともに、注目領域が商品棚よりもカメラに近い場合には、図３２の（ａ）に示すように、商品棚の前に３Ｄアバター７０を配置する。一方、情報処理装置１０は、注目領域の中に商品棚が含まれるとともに、商品棚が注目領域よりもカメラに近い場合には、図３２の（ｂ）に示すように、商品棚の後ろに３Ｄアバター７０を配置する。

このように、情報処理装置１０は、状況を正確に再現した合成データを生成することができるので、合成データを用いた機械学習モデルの訓練の精度を向上させることができ、結果として、機械学習モデルの訓練時間を短縮することができる。

（システム）
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。このシステムにより、防犯やリテール、製造、業務効率化など、様々なシーンに適した映像分析ソリューションを提供できる。

［ハードウェア］
図３３は、ハードウェア構成例を説明する図である。図３３に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図３３に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図２に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、事前学習部３１、取得部３２、人物モデル生成部３３、領域特定部３４、合成データ生成部３５、機械学習部３６等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、事前学習部３１、取得部３２、人物モデル生成部３３、領域特定部３４、合成データ生成部３５、機械学習部３６等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。

このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。

１０情報処理装置
１１通信部
２０記憶部
２１訓練データＤＢ
２２人物画像データＤＢ
２３場所画像データＤＢ
２４３Ｄ生成モデル
２５領域抽出モデル
２６骨格推定モデル
３０制御部
３１事前学習部
３２取得部
３３人物モデル生成部
３４領域特定部
３５合成データ生成部
３６機械学習部

Claims

コンピュータに、
人物の行動の要素を示すルールを特定し、
特定した前記ルールに合致した姿勢を示す人物のモデルを生成し、
カメラパラメータを用いて、画像データの中に人物のモデルが配置された合成データを生成する、
処理を実行させることを特徴とする生成プログラム。
生成された前記合成データを機械学習モデルに入力することで、前記ルールに合致する条件を前記機械学習モデルが示すか否かを判定する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の生成プログラム。
前記判定する処理は、
前記合成データを機械学習モデルに入力して得られた前記機械学習モデルの出力結果が、前記ルールに合致する条件を示さない場合に、前記合成データを用いて、前記機械学習モデルの訓練を実行する、ことを特徴とする請求項２に記載の生成プログラム。
前記判定する処理は、
画像データ内の人物を検出する人物検出モデル、画像データ内の人物の属性を推定する属性推定モデル、画像データ内の人物の骨格情報を推定する骨格推定モデルのそれぞれに、前記合成データを入力し、
前記合成データの入力に基づく出力結果に基づき、訓練対象のモデルを決定する、ことを特徴とする請求項３に記載の生成プログラム。
前記特定する処理は、
行動毎に人物が行動する領域と人物が行動するときの姿勢とを規定した複数のルールから、指定された条件に応じたルールを特定し、
前記モデルを生成する処理は、
前記指定された条件に応じたルールに規定される姿勢を示す前記人物のモデルを生成し、
前記合成データを生成する処理は、
前記画像データ内の前記指定された条件に応じたルールに規定される領域に、前記カメラパラメータを用いて前記姿勢を示す前記人物のモデルを配置した前記合成データを生成する、ことを特徴とする請求項４に記載の生成プログラム。
前記合成データを生成する処理は、
異なる各場所を撮影した複数の画像データそれぞれから、各画像データにおいて人物が行動する領域を特定し、
前記複数の画像データから、前記指定された条件に応じたルールに該当する画像データおよび前記領域を選定し、
選定された前記画像データ内の前記指定された条件に応じたルールに規定される領域に、前記カメラパラメータを用いて前記姿勢を示す前記人物のモデルを配置した前記合成データを生成する、ことを特徴とする請求項５に記載の生成プログラム。
前記合成データは、前記画像データの中に設定されるＲＯＩ（Region Of Interest）に、前記ルールに基づく特定の行動を行う３Ｄアバターを配置した画像である、
ことを特徴とする請求項１に記載の生成プログラム。
コンピュータが、
人物の行動の要素を示すルールを特定し、
特定した前記ルールに合致した姿勢を示す人物のモデルを生成し、
カメラパラメータを用いて、画像データの中に人物のモデルが配置された合成データを生成する、
処理を実行することを特徴とする生成方法。
人物の行動の要素を示すルールを特定し、
特定した前記ルールに合致した姿勢を示す人物のモデルを生成し、
カメラパラメータを用いて、画像データの中に人物のモデルが配置された合成データを生成する、
制御部を有することを特徴とする情報処理装置。