JP7362076B2

JP7362076B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7362076B2
Application number: JP2021087753A
Authority: JP
Inventors: 隆之堀; 容範金; 裕真鈴木; 一也植木
Original assignee: SoftBank Corp; Meisei Gakuen
Current assignee: SoftBank Corp; Meisei Gakuen
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-10-17
Anticipated expiration: 2041-05-25
Also published as: JP2022180958A

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来、文字情報から画像を検索可能とするため、画像の内容を示す文字情報（キャプションやタグなど）を生成する技術が知られている。例えば、画像に含まれる人物を検索可能とするため、画像において人物を含む人物領域を特定し、人物領域を複数の部分領域に分割する。そして、複数の部分領域それぞれにおいてクエリ要素を生成し、複数の部分領域のクエリ要素を組み合わせて人物を検索するための検索クエリを生成する技術が知られている。

特開２０１６－１６２４１４号公報特開２０１９－２１９９８８号公報

画像の検索精度を向上させる技術が求められている。

本願に係る情報処理装置は、セグメンテーションの技術を用いて領域分割された画像のうち、構造を有する物体を含む分割領域である物体領域に関する領域情報、および、姿勢推定の技術を用いて推定された前記物体の構造に関する構造情報に基づいて、前記物体の属性に関する属性情報を抽出する属性情報抽出部と、前記属性情報抽出部によって抽出された属性情報に基づいて生成された文章であって、前記画像の内容を示す文章と前記画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥ（Visual-Semantic Embedding）モデルを生成するモデル生成部と、を備える。

図１は、実施形態に係る情報処理の概要について説明するための図である。図２は、実施形態に係るＶＳＥ（Visual-Semantic Embedding）モデルとコンセプト識別器について説明するための図である。図３は、実施形態に係る情報処理装置の構成例を示す図である。図４は、実施形態に係る属性情報の抽出処理手順とＶＳＥモデルの生成処理手順を示す図である。図５は、実施形態に係る情報処理手順を示す図である。図６は、変形例に係る情報処理手順を示す図である。図７は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．はじめに〕
従来、画像に含まれる物体（例えば、人物）の属性に関する属性情報を画像から抽出する技術が知られている。例えば、画像に含まれる人物の姿勢に関する姿勢情報を抽出する姿勢推定（Pose Estimation）の技術（以下、姿勢推定技術ともいう）が知られている。また、画像に含まれる人物の領域や服装の領域に関する情報を抽出するセグメンテーション（Segmentation）の技術が知られている。

しかしながら、セグメンテーションの技術は、画像に含まれる人物の領域や服装の領域を精度よく抽出することができるものの、画像に含まれる人物の姿勢を抽出することはできない。また、姿勢推定の技術は、画像に含まれる人物の姿勢を精度よく抽出することができるものの、画像に含まれる人物の領域や服装の領域を精度よく抽出することは困難である。

これに対して、一実施形態に係る情報処理装置１００は、セグメンテーションの技術と姿勢推定の技術を組み合わせることで、画像に含まれる人物の領域や服装の領域、および画像に含まれる人物の姿勢を精度よく抽出することができる。図１は、一実施形態に係る情報処理の概要について説明するための図である。図１に示す情報処理は、後述する情報処理装置１００（図３参照）によって行われる。

図１に示すように、一実施形態に係る情報処理装置１００は、セグメンテーションの技術を用いて画像を領域分割し、領域分割された画像のうち人物を含む分割領域である人物領域に関する人物領域情報を抽出する。ここで、情報処理装置１００は、セグメンテーションの技術を用いて画像を領域分割することで、人物の頭の先から足の先までの全体を含む人物領域を人物ごとに抽出してよい。また、情報処理装置１００は、セグメンテーションの技術を用いて画像を領域分割することで、人物の各身体部位（例えば、頭髪、顔、および人物が身に付けている各ファッションアイテムなど）を含む分割領域である身体部位領域に関する身体部位領域情報を身体部位ごとに抽出してよい。

ここで、セグメンテーションの技術とは、画像を入力として、ピクセルレベルで領域を分割しラベルを付けていく技術である。セグメンテーションの技術は、そのラベリングの意味合いから、３種類に大別される。セマンティックセグメンテーション（Semantic Segmentation）は、画像上の全ピクセルをクラスに分類する技術である。マンティックセグメンテーションは、物体の種類ごとに画像を領域分割する。また、インスタンスセグメンテーション（Instance Segmentation）は、物体ごとの領域を分割し、かつ物体の種類を認識する技術である。インスタンスセグメンテーションは、物体ごとに画像を領域分割する。また、パノプティックセグメンテーション（Panoptic Segmentation）は、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせた技術である。パノプティックセグメンテーションは、人物や動物、自動車などの物体（数えられるクラス、Thing クラスともいう）に対してインスタンスセグメンテーションを行い、空や道路、芝生などの背景（数えられないクラス、Stuff クラスともいう）に対してセマンティックセグメンテーションを行う技術である。情報処理装置１００は、セマンティックセグメンテーション、インスタンスセグメンテーション、またはパノプティックセグメンテーションの技術を用いて画像を領域分割してよい。また、情報処理装置１００は、セマンティックセグメンテーション、インスタンスセグメンテーションおよびパノプティックセグメンテーションの技術を組み合わせて画像を領域分割してよい。

また、情報処理装置１００は、姿勢推定の技術を用いて画像に含まれる人物の骨格に関する骨格情報を抽出する。具体的には、情報処理装置１００は、姿勢推定に関するあらゆる公知技術を用いて画像から骨格情報を抽出してよい。例えば、情報処理装置１００は、姿勢推定モデルと呼ばれる深層学習モデルを用いて、動画や静止画から人物や動物の姿勢（骨格）を推定する姿勢推定技術を用いて、骨格情報を抽出してよい。なお、情報処理装置１００は、１枚の画像に複数の人物が写っている場合には、姿勢推定処理により、複数の人物について特徴点を検出して、複数の人物の骨格に関する骨格情報を推定してもよい。情報処理装置１００は、姿勢推定技術を用いることで、画像中の人物の身体の部位を精緻に推定することができる。

例えば、姿勢推定モデルの一例として、ＯｐｅｎＰｏｓｅ（“OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields”、Zhe Cao et al., 2018）が知られている。ＯｐｅｎＰｏｓｅは、画像に含まれる人物の身体の特徴を示す特徴点（キーポイントともいう）を検出し、特徴点を結んだ人物の姿勢を推定する姿勢推定モデルである。例えば、ＯｐｅｎＰｏｓｅは、画像に含まれる人物の身体の特徴点として、人物の身体の関節の位置を示す関節点を推定し、関節点を連結して生成される人物の身体の骨格を示す骨格モデルを人物の姿勢として検出する。また、例えば、特徴点を検出するタイプの姿勢推定モデルの中には、画像中の人物の身体の３０種類の部位を推定可能なものがある。具体的には、特徴点を検出するタイプの姿勢推定モデルを用いると、画像中の人物の身体の部位として、頭、目（右、左）、耳（右、左）、鼻、首、肩（右、中央、左）、肘（右、左）、背骨、手首（右、左）、手（右、左）、親指（右、左）、手先（右、左）、腰（右、中央、左）、膝（右、左）、足首（右、左）、足（右、左）を特定することができる。

また、姿勢推定モデルの一例として、ＤｅｎｓｅＰｏｓｅ（参考ＵＲＬ：http://openaccess.thecvf.com/content_cvpr_2018/html/Guler_DensePose_Dense_Human_CVPR_2018_paper.html）が知られている。ＤｅｎｓｅＰｏｓｅは、２次元の画像中の人物の人物領域を検出し、検出した人物領域に対応する３次元身体表面モデルを生成する姿勢推定モデルである。より具体的には、ＤｅｎｓｅＰｏｓｅは、ＲＧＢ画像を入力として、ＲＧＢ画像中の人物の３次元表面のＵＶ座標を推定する。ＤｅｎｓｅＰｏｓｅを用いると、２次元の画像に写る人物領域から３次元身体表面のＵＶ座標を推定することができるので、２次元の画像に写る人物領域の各人体パーツ（人物の身体の部位）を精緻に推定することができる。ＤｅｎｓｅＰｏｓｅを用いると、画像中の人物の身体の２４種類の部位を推定することができる。具体的には、ＤｅｎｓｅＰｏｓｅを用いると、ＲＧＢ画像から、画像中の人物の身体の部位として、頭（左、右）、首、胴体、腕（左、右／上、前／前、後）、脚（左、右／太もも、ふくらはぎ／前、後）、手（左、右）、足（左、右）を特定することができる。

続いて、情報処理装置１００は、抽出した人物領域情報および骨格情報に基づいて、画像に含まれる人物の属性に関する人物属性情報を抽出する。例えば、情報処理装置１００は、人物属性情報の一例として、例えば、抽出された骨格情報に基づいて、人物の姿勢に関する姿勢情報を抽出する。また、情報処理装置１００は、人物属性情報の一例として、例えば、抽出された骨格情報の時間変化のパターンに基づいて、人物の動作に関する動作情報を抽出する。例えば、情報処理装置１００は、画像に含まれる人物が立っている状態から座っている状態に姿勢を変化させたという情報を抽出する。また、情報処理装置１００は、人物属性情報の一例として、例えば、抽出した各身体部位の身体部位領域の情報に基づいて、人物が身に着けている服装、髪型、および表情に関する情報を抽出する。例えば、情報処理装置１００は、画像に含まれる人物の服装が青い服であるという情報を抽出する。続いて、情報処理装置１００は、抽出した人物属性情報に基づいて、画像の内容を示す文章を生成する。例えば、情報処理装置１００は、画像に含まれる人物が立っている状態から座っている状態に姿勢を変化させたという情報と人物の服装が青い服であるという情報とに基づいて、画像の内容を示す文章の一例として、「青い服を来た人がレストラン内で赤いソファに座った。」という文章を生成してよい。

上述したように、一実施形態に係る情報処理装置１００は、セグメンテーションの技術を用いて領域分割された画像のうち、人物を含む分割領域である人物領域に関する人物領域情報、および、姿勢推定の技術を用いて推定された人物の骨格に関する骨格情報に基づいて、人物の属性に関する人物属性情報を抽出する。また、一実施形態に係る情報処理装置１００は、抽出された人物属性情報に基づいて生成された文章であって、画像の内容を示す文章と画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥモデルを生成する。

このように、一実施形態に係る情報処理装置１００は、セグメンテーションの技術と姿勢推定の技術を組み合わせることで、画像に含まれる人物の領域や服装の領域、および画像に含まれる人物の姿勢を精度よく抽出することができる。これにより、情報処理装置１００は、画像に含まれる人物領域および人物領域の構成要素（例えば、各関節の関節位置情報、身体部位領域、およびファッションアイテムの領域など）を階層的に分解することができる。また、情報処理装置１００は、分解された構成要素の階層的な関係性に基づいて、人物領域や骨格情報から、人物の属性に関する人物属性情報を適切に抽出することができる。また、情報処理装置１００は、画像から適切に抽出された人物属性情報に基づいて、画像の内容を示す文章を適切に生成することができる。したがって、一実施形態に係る情報処理装置１００は、画像の検索精度を向上させることができる。

なお、上述した例では、情報処理装置１００が、セグメンテーションの技術を用いて画像から人物領域情報を抽出し、抽出した人物領域情報に基づいて、人物属性情報を抽出する場合について説明したが、これに限られない。例えば、情報処理装置１００は、セグメンテーションの技術を用いて、画像から人物領域を抽出する。続いて、情報処理装置１００は、姿勢推定の技術を用いて、人物領域から人物領域に含まれる人物の骨格に関する骨格情報を抽出してよい。このように、情報処理装置１００は、姿勢推定の技術を用いて骨格情報を推定するために、セグメンテーションの技術を用いて抽出された人物領域の情報を用いることで、より精度よく姿勢情報を推定することができる。また、情報処理装置１００は、人物属性情報を推定するために、画像情報、人物領域情報、および骨格情報を組み合わせた情報を用いてよい。これにより、情報処理装置１００は、より精度よく人物属性情報を推定することができる。

また、近年、膨大な数の映像コンテンツを効率よく整理、管理するために、画像の内容を自動で分析し、画像の内容を示す文字情報（キャプションやタグなど）を自動で生成・付与する技術が知られている。これにより、文字情報から画像を検索可能とすることができる。ここで、本願明細書における「画像」とは、映像などの動画であってもよいし、映像に含まれる各シーン（静止画）であってもよい。

このような背景の下、文字情報から画像を検索する代表的な２つの手法を比較した研究が知られている。具体的には、（１）画像に含まれる物体、人物、場面および動作等の検出対象（以下、コンセプトともいう）をあらかじめ学習した学習済みの機械学習モデル（以下、コンセプト識別器ともいう）を用いてクエリ文から画像を検索する手法と、（２）画像の特徴を示す画像特徴量と、画像の内容を言語で表現した言語表現の特徴を示す言語特徴量とが対応付けられて埋め込まれた共通空間を用いて、クエリ文とマッチする画像を検索する手法とを比較した研究が知られている（参考文献；「Comparison and Evaluation of Video Retrieval Approaches Using Query Sentences」、IMIP 2020: Proceedings of the 2020 2nd International Conference on Intelligent Medicine and Image Processing、April 2020、Pages 103‐107、https://doi.org/10.1145/3399637.3399657）。

上記の研究によると、（１）に示すコンセプト識別器を用いる手法と（２）に示すＶＳＥを用いる手法は、相補的であることが示されている。そこで、本願発明の発明者は、（１）に示すコンセプト識別器を用いる手法と（２）に示すＶＳＥに基づく手法を統合することで、画像の検索精度を向上させる技術を提案する。具体的には、一実施形態に係る情報処理装置１００は、コンセプト識別器を用いて画像から適切なコンセプトを抽出し、ＶＳＥモデルを用いて抽出されたコンセプトと類似する画像を再検索する。例えば、情報処理装置１００は、視覚グラフ情報と文字グラフ情報とを対応付けて共通空間に埋め込むように学習されたＶＳＥモデル（以下、ＶＳＥモデルと記載する場合がある）を用いて抽出されたコンセプトと類似する画像を再検索する。これにより、一実施形態に係る情報処理装置１００は、例えば、利用者から受け付けたクエリ文に明示されていないコンセプト（例えば、暗示的なコンセプト）の中から、適切なコンセプトを抽出して、抽出したコンセプトと類似する画像を再検索することができる。したがって、本願発明の一実施形態によれば、画像の検索精度を向上させることができる。

ここから、図２を用いて、実施形態に係るＶＳＥモデルとコンセプト識別器について説明する。図２は、実施形態に係るＶＳＥモデルとコンセプト識別器について説明するための図である。

図２の左側は、実施形態に係るＶＳＥモデルの一例を示す。例えば、図２の左側に示すＶＳＥモデルは、画像から文を検索する場合、画像をＶＳＥモデルに入力して、画像の特徴を示す画像特徴量に対応する特徴ベクトル（以下、画像の特徴ベクトルともいう）を生成する。続いて、ＶＳＥモデルは、生成した画像の特徴ベクトルを文の特徴を示す文特徴量に対応する特徴ベクトル（以下、文の特徴ベクトルともいう）との共通の空間にマッピングしたのち、画像の特徴ベクトルと類似する文の特徴ベクトルに対応する文を検索結果とする。例えば、ＶＳＥモデルは、画像の特徴ベクトルと文の特徴ベクトルとの類似度が所定の閾値を超えるような文の特徴ベクトルに対応する文を検索結果として出力する。

また、ＶＳＥモデルは、画像から画像特徴量を抽出することができる。ＶＳＥモデルは、画像から画像特徴量を抽出することができる任意の公知技術により実現されてよい。例えば、ＶＳＥモデルは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を備えてよい。そして、ＶＳＥモデルは、ＣＮＮを用いて、画像から画像特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、物体認識用に開発されたＲｅｓＮｅｔ（Residual Network）（Kaiming He et al., 2015）、ＡｌｅｘＮｅｔ（Krizhevsky et al., 2012）、ＶＧＧＮｅｔ（Simonyan et al., 2014）、ＧｏｏｇＬｅＮｅｔ（Szegedy et al., 2014）、ＳＥＮｅｔ（Squeeze-and-Excitation Networks）（Jie Hu et al., 2018））、ＥｆｆｉｃｉｅｎｔＮｅｔ（Tan et al., 2019）、またはＺＦＮｅｔ（Matthew et al., 2013）を備えてよい。そして、ＶＳＥモデルは、ＲｅｓＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＳＥＮｅｔ、ＥｆｆｉｃｉｅｎｔＮｅｔ、またはＺＦＮｅｔを用いて、画像から画像特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、物体検出用に開発されたＦａｓｔｅｒＲ－ＣＮＮ（Shaoqing Ren et al., 2015）、ＹＯＬＯ（You Look Only Onse）（Joseph Redmon et al., 2015）、またはＳＳＤ（Single Shot MultiBox Detector）（Wei Liu., 2015）を備えてよい。そして、ＶＳＥモデルは、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ、またはＳＳＤを用いて、画像から画像特徴量を抽出してよい。

また、図２の左側に示すＶＳＥモデルは、文から画像を検索する場合、文をＶＳＥモデルに入力して、文の特徴ベクトルを生成する。続いて、ＶＳＥモデルは、生成した文の特徴ベクトルを画像の特徴ベクトルとの共通の空間にマッピングしたのち、文の特徴ベクトルと類似する画像の特徴ベクトルに対応する画像を検索結果とする。例えば、ＶＳＥモデルは、文の特徴ベクトルと画像の特徴ベクトルとの類似度が所定の閾値を超えるような画像の特徴ベクトルに対応する画像を検索結果として出力する。

また、ＶＳＥモデルは、言語表現（文章、フレーズ、又はキーワードなど）から言語表現の特徴を示す言語特徴量を抽出する。ＶＳＥモデルは、言語特徴量を抽出することができる任意の公知技術により実現されてよい。例えば、ＶＳＥモデルは、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）を備えてよい。そして、ＶＳＥモデルは、ＲＮＮを用いて、言語表現から言語特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、ＧＲＵ（Gated Recurrent Unit）またはＬＳＴＭ（Long Short Term Memory）を備えてよい。そして、ＶＳＥモデルは、ＧＲＵまたはＬＳＴＭを用いて、言語表現から言語特徴量を抽出してよい。また、例えば、ＶＳＥモデルは、Ｔｒａｎｓｆｏｒｍｅｒ（Ashish Vaswani et al., 2017）、ＴｒａｎｓｆｏｒｍｅｒをベースとしたＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＧＰＴ－３（Generative Pre-Training3）またはＴ５（Text-to-Text Transfer Transformer）を備えてよい。そして、ＶＳＥモデルは、Ｔｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴ、ＧＰＴ－３またはＴ５を用いて、言語表現から言語特徴量を抽出してよい。

図２の右側は、実施形態に係るコンセプト識別器の出力結果の一例を示す。コンセプト識別器は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像との類似度を示すコンセプト類似度を出力するよう学習された学習済みの機械学習モデルである。ここで、コンセプト識別器が学習するコンセプト（検出対象ともいう）には、画像に含まれる物体や人物等の対象物に限らず、画像の場面（シーン）および画像に含まれる人物や動物等の動作（走っている、座っている等）等の概念が含まれる。例えば、図２の右側に示すコンセプト識別器の出力結果は、バイクの横に男性が立っている画像がコンセプト識別器に入力された場合に、画像に含まれる男性の髪の毛の色、男性が着ている服装、男性の体の部位、バイクの色、背景の山や海、赤い橋といった対象を検出し、対象のクラス（カテゴリ）を出力したものである。なお、図２の右側では図示を省略しているが、コンセプト識別器は、画像に含まれるコンセプトのクラスとともに、画像に含まれるコンセプトが当該コンセプトのクラス（カテゴリ）に該当する確率を出力する。このように、コンセプト識別器は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトを検出するとともに、検出されたコンセプトのクラスを推定する。すなわち、コンセプト識別器は、コンセプトを含む画像が入力された場合に、コンセプト類似度として、画像に含まれる各コンセプトが推定された各コンセプトのクラスに該当する確率をそれぞれ出力する。

〔２．情報処理装置の構成〕
次に、図３を用いて、実施形態に係る情報処理装置の構成について説明する。図３は、実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、入力部１３０と、出力部１４０と、制御部１５０とを有する。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）、モデムチップ及びアンテナモジュール等によって実現される。また、通信部１１０は、ネットワークＮ（図示略）と有線又は無線で接続される。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部１２０は、複数の映像または複数の映像それぞれに含まれる各シーンである画像のデータベースである映像プールを記憶する。また、記憶部１２０は、複数の文章または複数の文章それぞれに含まれる各テキストである文字列のデータベースであるキャプションプールを記憶する。

（入力部１３０）
入力部１３０は、利用者から各種操作の入力を受け付ける。例えば、入力部１３０は、タッチパネル機能により表示面（例えば出力部１４０）を介して利用者からの各種操作を受け付けてもよい。また、入力部１３０は、情報処理装置１００に設けられたボタンや、情報処理装置１００に接続されたキーボードやマウスからの各種操作を受け付けてもよい。例えば、入力部１３０は、利用者からクエリ文の入力を受け付けてよい。また、入力部１３０は、利用者からクエリ画像の入力を受け付けてよい。

（出力部１４０）
出力部１４０は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される表示画面であり、各種情報を表示するための表示装置である。出力部１４０は、制御部１５０の制御に従って、各種情報を表示する。なお、情報処理装置１００にタッチパネルが採用される場合には、入力部１３０と出力部１４０とは一体化される。また、以下の説明では、出力部１４０を画面と記載する場合がある。

（制御部１５０）
制御部１５０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、情報処理装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。図３に示す例では、制御部１５０は、属性情報抽出部１５１と、モデル生成部１５２と、受付部１５３と、取得部１５４と、検索部１５５と、抽出部１５６と、生成部１５７を有する。

（属性情報抽出部１５１）
属性情報抽出部１５１は、セグメンテーションの技術を用いて領域分割された画像のうち、構造を有する物体を含む分割領域である物体領域に関する領域情報を抽出する。例えば、属性情報抽出部１５１は、構造を有する物体の一例として、人物を含む分割領域である人物領域に関する人物領域情報を抽出する。例えば、属性情報抽出部１５１は、人物領域情報の一例として、人物が身に着けている各ファッションアイテムを含む分割領域であるアイテム領域に関するアイテム領域情報を抽出してよい。

また、属性情報抽出部１５１は、人物領域情報の一例として、人物の各身体部位を含む分割領域である身体部位領域に関する身体部位領域情報を抽出してよい。例えば、属性情報抽出部１５１は、身体部位領域情報の一例として、人物の頭髪の領域に関する情報を抽出してよい。また、属性情報抽出部１５１は、身体部位領域情報の一例として、人物の顔の領域に関する情報を抽出してよい。

また、属性情報抽出部１５１は、姿勢推定の技術を用いて推定された物体の構造に関する構造情報を抽出する。例えば、属性情報抽出部１５１は、構造情報の一例として、姿勢推定の技術を用いて推定された人物の骨格に関する骨格情報を抽出する。例えば、属性情報抽出部１５１は、骨格情報の一例として、人物の各関節の関節位置情報を抽出する。

また、属性情報抽出部１５１は、領域情報と構造情報を抽出すると、抽出した領域情報と構造情報に基づいて、物体の属性に関する属性情報を抽出する。例えば、属性情報抽出部１５１は、抽出した人物領域情報と骨格情報に基づいて、画像に含まれる人物の属性に関する人物属性情報を抽出する。

例えば、属性情報抽出部１５１は、人物属性情報の一例として、抽出した人物の各関節の関節位置情報に基づいて、人物の姿勢に関する姿勢情報を抽出する。例えば、属性情報抽出部１５１は、人物が立っている状態、座っている状態、または右手を挙げている状態である等の姿勢情報を抽出してよい。

また、属性情報抽出部１５１は、人物属性情報の一例として、抽出した人物の各関節の関節位置情報の時間変化のパターンに基づいて、人物の動作に関する動作情報を抽出する。例えば、属性情報抽出部１５１は、人物が立っている状態から座っている状態に姿勢を変化させたという動作情報を抽出してよい。また、属性情報抽出部１５１は、人物が走っている、歩いている、または右手を振っている等の動作情報を抽出してよい。

また、属性情報抽出部１５１は、人物属性情報の一例として、抽出したアイテム領域情報に基づいて、人物が身に着けているファッションアイテムの属性に関するアイテム属性情報を抽出する。例えば、属性情報抽出部１５１は、アイテム属性情報の一例として、人物が身に着けている衣服や靴、帽子、カバンなどのファッションアイテムの種類や色、形状、材質等を示す情報を抽出してよい。

また、属性情報抽出部１５１は、人物属性情報の一例として、人物の身体部位の属性に関する身体部位属性情報を抽出する。例えば、属性情報抽出部１５１は、身体部位属性情報の一例として、人物の頭髪の領域に関する情報に基づいて、人物の髪型に関する情報を抽出する。例えば、属性情報抽出部１５１は、人物の髪型の種類や色、形状、毛質当を示す情報を抽出してよい。また、属性情報抽出部１５１は、身体部位領域情報の一例として、人物の顔の領域に関する情報に基づいて、人物の表情に関する情報を抽出する。例えば、属性情報抽出部１５１は、人物の表情の種類（笑っている、怒っている等）や表情の度合い（少し笑っている、とても怒っている等）等を示す情報を抽出してよい。

なお、上述した例では、属性情報抽出部１５１が、構造を有する物体の一例として、画像に含まれる人物の属性に関する人物属性情報を抽出する場合について説明したが、属性情報抽出部１５１は、構造を有する物体であれば、人物以外のどのような物体の属性情報を抽出してもよい。例えば、属性情報抽出部１５１は、構造を有する物体の一例として、ドア部分、窓ガラス部分、およびタイヤ部分といったパーツを組み合わせて構成される車両の属性に関する属性情報を抽出してよい。例えば、属性情報抽出部１５１は、画像のうち、領域情報として、車両である物体を含む分割領域である車両領域に関する車両領域情報、および、構造情報として、姿勢推定の技術を用いて推定された車両の骨格に関する骨格情報に基づいて、属性情報として、車両の属性に関する車両属性情報を抽出する。

（モデル生成部１５２）
モデル生成部１５２は、属性情報抽出部１５１によって抽出された属性情報に基づいて生成された文章であって、画像の内容を示す文章と画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥモデルを生成する。具体的には、モデル生成部１５２は、属性情報抽出部１５１によって抽出された人物属性情報に基づいて生成された文章であって、画像の内容を示す文章と画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥモデルを生成する。

例えば、モデル生成部１５２は、属性情報抽出部１５１によって抽出された人物属性情報の特徴を示す人物属性特徴ベクトルを生成する。例えば、モデル生成部１５２は、セグメンテーションの技術を用いて抽出された人物領域の特徴を示す人物領域特徴ベクトルを生成する。また、モデル生成部１５２は、姿勢推定の技術を用いて推定された人物の骨格情報の特徴を示す骨格情報特徴ベクトルを生成する。続いて、モデル生成部１５２は、生成した人物領域特徴ベクトルと骨格情報特徴ベクトルをつなぎ合わせることで、人物属性特徴ベクトルを生成する。また、モデル生成部１５２は、生成した画像の内容を示す文章の特徴を示す文章特徴ベクトルを生成する。モデル生成部１５２は、人物属性特徴ベクトルと文章特徴ベクトルを生成すると、生成した人物属性特徴ベクトルと文章特徴ベクトルとが共通空間において類似するようにＶＳＥモデルを学習することで、ＶＳＥモデルを生成する。

（受付部１５３）
受付部１５３は、利用者によって入力されたクエリ文を受け付ける。例えば、受付部１５３は、入力部１３０を介して利用者が入力したクエリ文を受け付ける。ここで、本願明細書におけるクエリ文とは、完全な文章でなくてもよく、例えば、キーワードやフレーズであってもよい。以下では、受付部１５３が利用者から最初に受け付けたクエリ文を「第１クエリ文」と記載する。例えば、受付部１５３は、第１クエリ文の一例として、利用者から「person in a car」というフレーズを受け付ける。

（取得部１５４）
取得部１５４は、映像プールから画像を取得する。例えば、取得部１５４は、受付部１５３が第１クエリ文を受け付けると、記憶部１２０を参照して、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する。例えば、取得部１５４は、Ｎ個（Ｎは自然数）の画像＃１１～画像＃１Ｎを映像プールから取得する。

（検索部１５５）
検索部１５５は、モデル生成部１５２によって生成されたＶＳＥモデルを用いて、受付部１５３によって受け付けられた第１クエリ文に関する第１画像を検索する。具体的には、検索部１５５は、取得部１５４が画像を取得すると、受付部１５３によって受け付けられた第１クエリ文と取得部１５４によって取得された画像の組をＶＳＥモデルに入力する。例えば、検索部１５５は、第１クエリ文である「person in a car」とＮ個の画像＃１１～画像＃１Ｎそれぞれとの組をＶＳＥモデルに入力する。

続いて、検索部１５５は、第１クエリ文と画像との第１類似度をＶＳＥモデルから出力する。例えば、検索部１５５は、第１クエリ文とＮ個の画像＃１１～画像＃１Ｎそれぞれとの類似度＃１１～類似度＃１Ｎそれぞれを出力する。続いて、検索部１５５は、出力された第１類似度が第１閾値を超える第１画像を検索する。例えば、類似度＃１１～類似度＃１３は第１閾値を超えるが、類似度＃１４～類似度＃１Ｎは第１閾値以下であるとする。このとき、検索部１５５は、Ｎ個の画像＃１１～画像＃１Ｎの中から、第１クエリ文との第１類似度が第１閾値を超える画像＃１１～画像＃１３を第１画像として取得する。

なお、検索部１５５は、出力された第１類似度が第１閾値を超える第１画像を検索する代わりに、出力された第１類似度が高い方から順にいくつかの第１画像を検索してよい。例えば、第１クエリ文とＮ個の画像＃１１～画像＃１Ｎそれぞれとの類似度＃１１～類似度＃１Ｎのうち、類似度＃１１の類似度が最も高く、Ｎが大きくなるほど類似度が低いとする。このとき、検索部１５５は、Ｎ個の画像＃１１～画像＃１Ｎの中から、第１クエリ文との第１類似度が高い方から順に、例えば、３つの画像＃１１～画像＃１３を第１画像として取得してよい。

（抽出部１５６）
抽出部１５６は、第１画像に関するコンセプトを抽出する。具体的には、抽出部１５６は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、第１画像から第１画像に関するコンセプトを抽出する。例えば、抽出部１５６は、検索部１５５によって第１画像が検索されると、検索部１５５によって検索された第１画像をコンセプト識別器に入力する。例えば、抽出部１５６は、検索部１５５によって検索された第１画像である画像＃１１～画像＃１３それぞれをコンセプト識別器に入力する。なお、以下では、簡単のため、第１画像が画像＃１１のみである場合について説明する。

続いて、抽出部１５６は、第１画像に含まれるコンセプトと第１画像とのコンセプト類似度をコンセプト識別器から出力する。例えば、抽出部１５６は、画像＃１１に含まれるコンセプトである「car_interior」と画像＃１１とのコンセプト類似度＃２１である「９０％」をコンセプト識別器から出力する。また、例えば、抽出部１５６は、画像＃１１に含まれるコンセプトである「自動車」と画像＃１１とのコンセプト類似度＃２２である「８０％」をコンセプト識別器から出力する。また、例えば、抽出部１５６は、画像＃１１に含まれるコンセプトである「バイク」と画像＃１１とのコンセプト類似度＃２３である「７０％」をコンセプト識別器から出力する。

続いて、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。例えば、コンセプト閾値が「８５％」であるとする。このとき、抽出部１５６は、コンセプト類似度がコンセプト閾値である「８５％」を超えるコンセプトである「car_interior」を抽出する。続いて、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第１クエリ文に含まれないコンセプトである隠れコンセプトを抽出する。例えば、抽出部１５６は、第１クエリ文に含まれない文字列を含むコンセプトを隠れコンセプトとして抽出する。例えば、抽出部１５６は、第１クエリ文である「person in a car」に含まれない文字列である「interior」を含むコンセプトである「car_interior」を隠れコンセプトとして抽出する。

なお、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する代わりに、出力されたコンセプト類似度が高い方から順にいくつかのコンセプトを抽出してよい。例えば、第１画像とＭ個（Ｍは自然数）のコンセプト＃１１～コンセプト＃１Ｍそれぞれとのコンセプト類似度＃１１～コンセプト類似度＃１Ｍのうち、コンセプト類似度＃１１のコンセプト類似度が最も高く、Ｍが大きくなるほどコンセプト類似度が低いとする。このとき、抽出部１５６は、Ｍ個のコンセプト＃１１～コンセプト＃１Ｍの中から、第１画像とのコンセプト類似度が高い方から順に、例えば、３つのコンセプト＃１１～コンセプト＃１３を抽出してよい。

（生成部１５７）
以下では、抽出部１５６によって抽出された隠れコンセプトに基づいて生成されたクエリ文のことを「第２クエリ文」と記載する。生成部１５７は、抽出部１５６によって抽出された隠れコンセプトに基づいて、第２クエリ文を生成する。例えば、生成部１５７は、抽出部１５６によって抽出された隠れコンセプトに基づいて、第１クエリ文を更新して、第２クエリ文を生成してよい。例えば、生成部１５７は、抽出部１５６によって抽出された隠れコンセプトである「car_interior」を含む第２クエリ文を生成してよい。出力部１４０は、生成部１５７によって生成された第２クエリ文を出力する。例えば、出力部１４０は、生成部１５７によって生成された第２クエリ文の一例として、「car_interior」を出力する。受付部１５３は、出力部１４０によって出力された第２クエリ文を利用者から受け付ける。例えば、受付部１５３は、出力部１４０によって出力された第２クエリ文である「car_interior」を利用者から受け付ける。

なお、生成部１５７が第２クエリ文を生成する代わりに、出力部１４０によって出力された隠れコンセプトに基づいて利用者が第２クエリ文を生成してもよい。受付部１５３は、利用者によって生成された第２クエリ文を利用者から受け付けてもよい。

また、取得部１５４は、受付部１５３が第２クエリ文を受け付けると、記憶部１２０を参照して、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する。検索部１５５は、ＶＳＥモデルを用いて、受付部１５３によって受け付けられた第２クエリ文に関する第２画像を再検索する。例えば、検索部１５５は、受付部１５３によって受け付けられた第２クエリ文である「car_interior」に関する第２画像を再検索する。例えば、検索部１５５は、受付部１５３によって受け付けられた第２クエリ文と取得部１５４によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５５は、画像と第２クエリ文との第２類似度をＶＳＥモデルから出力する。続いて、検索部１５５は、出力された第２類似度が第２閾値を超える第２画像を再検索する。出力部１４０は、検索部１５５によって再検索された第２画像を検索結果として出力する。このようにして、出力部１４０は、例えば、隠れコンセプトである「car_interior」に基づいて生成された第２クエリ文である「car_interior」に関する第２画像を検索結果として出力する。

上述した例では、抽出部１５６が、第１クエリ文である「person in a car」に含まれない文字列「interior」を含むコンセプトである「car_interior」を隠れコンセプトとして抽出する場合について説明したが、他の例について説明する。例えば、受付部１５３は、第１クエリ文の一例として、「destroyed old building」というフレーズを利用者から受け付ける。検索部１５５は、ＶＳＥモデルを用いて、受付部１５３によって受け付けられた第１クエリ文である「destroyed old building」に関する第１画像を検索する。抽出部１５６は、第１画像をコンセプト識別器に入力して、第１画像に含まれるコンセプトである「ruin」を抽出する。続いて、抽出部１５６は、第１クエリ文である「destroyed old building」に含まれない文字列である「ruin」を含むコンセプトである「ruin」を隠れコンセプトとして抽出する。

〔３．情報処理のフロー〕
次に、図４を用いて、実施形態に係る情報処理の手順について説明する。図４は、実施形態に係る情報処理の一例を示すフローチャートである。図４では、属性情報抽出部１５１が、処理対象となる画像を取得する（ステップＳ１１）。例えば、属性情報抽出部１５１は、処理対象となる画像を映像プールから取得する。

続いて、属性情報抽出部１５１は、セグメンテーションの技術を用いて、画像のうち人物を含む人物領域に関する人物領域情報を抽出する。また、属性情報抽出部１５１は、姿勢推定の技術を用いて、画像に含まれる人物の骨格情報を抽出する（ステップＳ１２）。

続いて、属性情報抽出部１５１は、人物領域情報および骨格情報に基づいて、画像に含まれる人物の属性に関する人物属性情報を抽出する（ステップＳ１３）。属性情報抽出部１５１は、人物属性情報を抽出すると、抽出された人物属性情報に基づいて、画像の内容を示す文章を生成する（ステップＳ１４）。

モデル生成部１５２は、属性情報抽出部１５１が生成した文章と画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥモデルを生成する（ステップＳ１５）。

次に、図５を用いて、実施形態に係る情報処理の手順について説明する。図５は、実施形態に係る情報処理の一例を示すフローチャートである。図５では、受付部１５３が、利用者によって入力された第１クエリ文を受け付ける（ステップＳ１０１）。取得部１５４は、受付部１５３が第１クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ１０２）。

検索部１５５は、受付部１５３によって受け付けられた第１クエリ文と取得部１５４によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５５は、第１クエリ文と画像との第１類似度をＶＳＥモデルから出力する（ステップＳ１０３）。続いて、検索部１５５は、出力された第１類似度が第１閾値を超える第１画像を検索する（ステップＳ１０４）。

抽出部１５６は、検索部１５５によって検索された第１画像をコンセプト識別器に入力する（ステップＳ１０５）。続いて、抽出部１５６は、第１画像に含まれるコンセプトと第１画像とのコンセプト類似度をコンセプト識別器から出力する（ステップＳ１０６）。続いて、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。続いて、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第１クエリ文に含まれないコンセプトである隠れコンセプトを抽出する（ステップＳ１０７）。

出力部１４０は、抽出部１５６によって抽出された隠れコンセプトを出力する（ステップＳ１０８）。利用者は、出力部１４０によって出力された隠れコンセプトに基づいて第１クエリ文を更新し、新たな第２クエリ文を生成する（ステップＳ１０９）。受付部１５３は、出力部１４０によって出力された隠れコンセプトに基づいて更新された第２クエリ文を利用者から受け付ける。例えば、受付部１５３は、入力部１３０を介して、利用者によって更新された第２クエリ文を利用者から受け付ける（ステップＳ１１０）。取得部１５４は、受付部１５３が第２クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ１１１）。

検索部１５５は、受付部１５３によって受け付けられた第２クエリ文と取得部１５４によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５５は、画像と第２クエリ文との第２類似度をＶＳＥモデルから出力する（ステップＳ１１２）。続いて、検索部１５５は、出力された第２類似度が第２閾値を超える第２画像を再検索する（ステップＳ１１３）。出力部１４０は、検索部１５５によって再検索された第２画像を検索結果として出力する（ステップＳ１１４）。

〔４．変形例〕
次に、図６を用いて、変形例に係る情報処理の手順について説明する。図６は、変形例に係る情報処理の一例を示すフローチャートである。図６では、受付部１５３が、利用者によって入力されたクエリ画像を受け付ける（ステップＳ２０１）。例えば、受付部１５３は、入力部１３０を介して利用者が入力したクエリ画像を受け付ける。ここで、本願明細書におけるクエリ画像とは、画像全体でなくてもよく、例えば、画像の一部であってもよい。

取得部１５４は、受付部１５３がクエリ画像を受け付けると、記憶部１２０を参照して、複数の文章または複数の文章それぞれに含まれる各テキストである文字列をキャプションプールから取得する（ステップＳ２０２）。

また、検索部１５５は、取得部１５４が文字列を取得すると、受付部１５３によって受け付けられたクエリ画像と取得部１５４によって取得された文字列の組をＶＳＥモデルに入力する。続いて、検索部１５５は、クエリ画像と文字列との第３類似度をＶＳＥモデルから出力する（ステップＳ２０３）。続いて、検索部１５５は、出力された第３類似度が第３閾値を超える文字列を検索する（ステップＳ２０４）。

生成部１５７は、検索部１５５によって検索された文字列に基づいて第３クエリ文を生成する。出力部１４０は、生成部１５７によって生成された第３クエリ文を出力する。受付部１５３は、出力部１４０によって出力された第３クエリ文を利用者から受け付ける（ステップＳ２０５）。取得部１５４は、受付部１５３が第３クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ２０６）。

検索部１５５は、受付部１５３によって受け付けられた第３クエリ文と取得部１５４によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５５は、画像と第３クエリ文との第１類似度をＶＳＥモデルから出力する（ステップＳ２０７）。続いて、検索部１５５は、出力された第１類似度が第１閾値を超える第３画像を検索する（ステップＳ２０８）。

抽出部１５６は、検索部１５５によって検索された第３画像をコンセプト識別器に入力する（ステップＳ２０９）。続いて、抽出部１５６は、第３画像に含まれるコンセプトと第３画像とのコンセプト類似度をコンセプト識別器から出力する（ステップＳ２１０）。続いて、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。続いて、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第３クエリ文に含まれないコンセプトである隠れコンセプトを抽出する（ステップＳ２１１）。

出力部１４０は、抽出部１５６によって抽出された隠れコンセプトを出力する（ステップＳ２１２）。利用者は、出力部１４０によって出力された隠れコンセプトに基づいて第３クエリ文を更新し、新たな第４クエリ文を生成する（ステップＳ２１３）。受付部１５３は、出力部１４０によって出力された隠れコンセプトに基づいて更新された第４クエリ文を利用者から受け付ける。例えば、受付部１５３は、入力部１３０を介して、利用者によって更新された第４クエリ文を利用者から受け付ける（ステップＳ２１４）。取得部１５４は、受付部１５３が第４クエリ文を受け付けると、複数の映像または複数の映像それぞれに含まれる各シーンである画像を映像プールから取得する（ステップＳ２１５）。

検索部１５５は、受付部１５３によって受け付けられた第４クエリ文と取得部１５４によって取得された画像の組をＶＳＥモデルに入力する。続いて、検索部１５５は、画像と第４クエリ文との第２類似度をＶＳＥモデルから出力する（ステップＳ２１６）。続いて、検索部１５５は、出力された第２類似度が第２閾値を超える第４画像を再検索する（ステップＳ２１７）。出力部１４０は、検索部１５５によって再検索された第４画像を検索結果として出力する（ステップＳ２１８）。

なお、ステップＳ２０５において、利用者は、出力部１４０によって出力された第３クエリ文を変更することができる。受付部１５３は、入力部１３０を介して、利用者によって変更された第３クエリ文を利用者から受け付ける。

〔５．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、属性情報抽出部１５１と、モデル生成部１５２を有する。属性情報抽出部１５１は、セグメンテーションの技術を用いて領域分割された画像のうち、構造を有する物体を含む分割領域である物体領域に関する領域情報、および、姿勢推定の技術を用いて推定された物体の構造に関する構造情報に基づいて、物体の属性に関する属性情報を抽出する。モデル生成部１５２は、属性情報抽出部１５１によって抽出された属性情報に基づいて生成された文章であって、画像の内容を示す文章と画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥ（Visual-Semantic Embedding）モデルを生成する。

このように、情報処理装置１００は、セグメンテーションの技術と姿勢推定の技術を組み合わせることで、画像に含まれる構造を有する物体（例えば、車両や人物）の領域や物体の構成要素（各部位や各パーツ）の領域、および画像に含まれる物体の姿勢を精度よく抽出することができる。これにより、情報処理装置１００は、画像に含まれる物体領域および物体領域の構成要素（例えば、物体の構造、各部位の領域など）を階層的に分解することができる。また、情報処理装置１００は、分解された構成要素の階層的な関係性に基づいて、物体領域や構造情報から、物体の属性に関する属性情報を適切に抽出することができる。また、情報処理装置１００は、画像から適切に抽出された属性情報に基づいて、画像の内容を示す文章を適切に生成することができる。したがって、本願発明に係る情報処理装置１００は、画像の検索精度を向上させることができる。

また、属性情報抽出部１５１は、画像のうち、領域情報として、人物である物体を含む分割領域である人物領域に関する人物領域情報、および、構造情報として、姿勢推定の技術を用いて推定された人物の骨格に関する骨格情報に基づいて、属性情報として、人物の属性に関する人物属性情報を抽出する。モデル生成部１５２は、属性情報抽出部１５１によって抽出された人物属性情報に基づいて生成された文章であって、画像の内容を示す文章と画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥモデルを生成する。

情報処理装置１００は、セグメンテーションの技術と姿勢推定の技術を組み合わせることで、画像に含まれる人物の領域や服装の領域、および画像に含まれる人物の姿勢を精度よく抽出することができる。これにより、情報処理装置１００は、画像に含まれる人物領域および人物領域の構成要素（例えば、各関節の関節位置情報、身体部位領域、およびファッションアイテムの領域など）を階層的に分解することができる。また、情報処理装置１００は、分解された構成要素の階層的な関係性に基づいて、人物領域や骨格情報から、人物の属性に関する人物属性情報を適切に抽出することができる。また、情報処理装置１００は、画像から適切に抽出された人物属性情報に基づいて、画像の内容を示す文章を適切に生成することができる。したがって、本願発明に係る情報処理装置１００は、画像の検索精度を向上させることができる。

また、属性情報抽出部１５１は、骨格情報として、人物の各関節の関節位置情報に基づいて、人物属性情報として、人物の姿勢に関する姿勢情報および人物の動作に関する動作情報を抽出する。

これにより、情報処理装置１００は、画像に含まれる人物の姿勢および動作に関する情報を適切に抽出することができるので、画像の内容を示す文章を適切に生成することができる。

また、属性情報抽出部１５１は、人物領域情報として、人物が身に着けている各ファッションアイテムを含む分割領域であるアイテム領域に関するアイテム領域情報に基づいて、人物属性情報として、人物が身に着けているファッションアイテムの属性に関するアイテム属性情報を抽出する。

これにより、情報処理装置１００は、画像に含まれる人物のファッションアイテムに関する情報を適切に抽出することができるので、画像の内容を示す文章を適切に生成することができる。

また、属性情報抽出部１５１は、人物領域情報として、人物の各身体部位を含む分割領域である身体部位領域に関する身体部位領域情報に基づいて、人物属性情報として、人物の身体部位の属性に関する身体部位属性情報を抽出する。例えば、属性情報抽出部１５１は、身体部位領域情報として、人物の頭髪の領域に関する情報に基づいて、身体部位属性情報として、人物の髪型に関する情報を抽出する。また、属性情報抽出部１５１は、身体部位領域情報として、人物の顔の領域に関する情報に基づいて、身体部位属性情報として、人物の表情に関する情報を抽出する。

これにより、情報処理装置１００は、画像に含まれる人物の髪型や表情に関する情報を適切に抽出することができるので、画像の内容を示す文章を適切に生成することができる。

また、情報処理装置１００は、受付部１５３と、検索部１５５と、抽出部１５６を有する。受付部１５３は、利用者によって入力された第１クエリ文を受け付ける。検索部１５５は、モデル生成部１５２によって生成されたＶＳＥモデルを用いて、第１クエリ文に関する第１画像を検索する。抽出部１５６は、第１画像に関するコンセプトを抽出する。検索部１５５は、ＶＳＥモデルを用いて、抽出部１５６によって抽出されたコンセプトに基づく第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、ＶＳＥを用いることで、利用者によって入力されたクエリ文に関する画像を適切に検索することができる。また、情報処理装置１００は、適切に検索された画像からコンセプトを抽出したうえで、抽出したコンセプトに基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。

また、情報処理装置１００は、生成部１５７をさらに備える。生成部１５７は、抽出部１５６によって抽出されたコンセプトに基づいて、第２クエリ文を生成する。検索部１５５は、ＶＳＥモデルを用いて、生成部１５７によって生成された第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、適切なコンセプトに基づいて適切なクエリ文を生成することができる。例えば、情報処理装置１００は、適切な検索キーワードを追加（または不適切な検索キーワードを排除）することで、検索精度を向上させることを可能にする。したがって、情報処理装置１００は、適切なクエリ文に基づいて画像を再検索することができるので、画像の検索精度を向上させることができる。

また、情報処理装置１００は、検索部１５５による検索結果を出力する出力部１４０をさらに備える。出力部１４０は、抽出部１５６によって抽出されたコンセプトを出力する。受付部１５３は、出力部１４０によって出力されたコンセプトに基づく第２クエリ文を利用者から受け付ける。検索部１５５は、ＶＳＥモデルを用いて、受付部１５３によって受け付けられた第２クエリ文に関する第２画像を再検索する。

これにより、情報処理装置１００は、利用者が、適切なコンセプトに基づいて適切なクエリ文を生成するのを助けることができる。例えば、情報処理装置１００は、利用者が適切な検索キーワードを追加（または不適切な検索キーワードを排除）することで、検索精度を向上させることを可能にする。したがって、情報処理装置１００は、適切なクエリ文に基づいて画像を再検索することができるので、画像の検索精度を向上させることができる。

また、情報処理装置１００は、取得部１５４をさらに備える。取得部１５４は、複数の映像または複数の映像それぞれに含まれる各シーンである画像を取得する。検索部１５５は、取得部１５４によって取得された画像と受付部１５３によって受け付けられた第１クエリ文の組をＶＳＥモデルに入力して、画像と第１クエリ文との第１類似度をＶＳＥモデルから出力し、出力された第１類似度が第１閾値を超える第１画像を検索する。

これにより、情報処理装置１００は、ＶＳＥに基づく処理により、適切な画像を選択することができる。

また、検索部１５５は、取得部１５４によって取得された画像と抽出部１５６によって抽出されたコンセプトに基づく第２クエリ文の組をＶＳＥモデルに入力して、画像と第２クエリ文との第２類似度をＶＳＥモデルから出力し、出力された第２類似度が第２閾値を超える第２画像を再検索する。

これにより、情報処理装置１００は、ＶＳＥに基づく処理とコンセプト識別器に基づく処理を回すことで、適切なコンセプトを選択することができる。例えば、情報処理装置１００は、利用者が入力したクエリ文に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。

また、抽出部１５６は、コンセプトを含む画像が入力された場合に、画像に含まれるコンセプトと画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、第１画像から第１画像に関するコンセプトを抽出する。

これにより、情報処理装置１００は、コンセプト識別器を用いることで、適切に検索された画像から適切なコンセプトを抽出することができる。また、情報処理装置１００は、適切なコンセプトを抽出したうえで、適切なコンセプトに基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。

また、抽出部１５６は、検索部１５５によって検索された第１画像をコンセプト識別器に入力して、第１画像に含まれるコンセプトと第１画像とのコンセプト類似度をコンセプト識別器から出力し、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトを抽出する。

これにより、情報処理装置１００は、適切なコンセプトを抽出することができる。

また、抽出部１５６は、出力されたコンセプト類似度がコンセプト閾値を超えるコンセプトの中から、第１クエリ文に含まれないコンセプトである隠れコンセプトを抽出する。

これにより、情報処理装置１００は、利用者が入力したクエリ文に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。また、情報処理装置１００は、利用者が入力したクエリ文に明示されていないコンセプト（例えば、暗示的なコンセプト）に基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。
また、受付部１５３は、利用者によって入力されたクエリ画像を受け付ける。検索部１５５は、ＶＳＥモデルを用いて、受付部１５３によって受け付けられたクエリ画像に関する文字列を検索し、検索した文字列に基づく第３クエリ文に関する第３画像を検索する。

これにより、情報処理装置１００は、利用者が入力したクエリ画像に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。

また、取得部１５４は、複数の文章または複数の文章それぞれに含まれる各テキストである文字列を取得する。検索部１５５は、取得部１５４によって取得された文字列と受付部１５３によって受け付けられたクエリ画像の組をＶＳＥモデルに入力して、文字列とクエリ画像との第３類似度をＶＳＥモデルから出力し、出力された第３類似度が第３閾値を超える文字列を検索し、検索した文字列に基づく第３クエリ文に関する第３画像を検索する。

これにより、情報処理装置１００は、ＶＳＥに基づく処理とコンセプト識別器に基づく処理を回すことで、適切なコンセプトを選択することができる。

また、抽出部１５６は、第３画像に関するコンセプトを抽出する。検索部１５５は、ＶＳＥモデルを用いて、抽出部１５６によって抽出されたコンセプトに基づく第４クエリ文に関する第４画像を再検索する。

これにより、情報処理装置１００は、利用者が入力したクエリ画像に明示されていない内容（例えば、暗示的な内容）に関するコンセプトを抽出することができる。また、情報処理装置１００は、利用者が入力したクエリ画像に明示されていないコンセプト（例えば、暗示的なコンセプト）に基づいて画像を再検索することができる。したがって、情報処理装置１００は、画像の検索精度を向上させることができる。

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図７に示すような構成のコンピュータ１０００によって実現される。図７は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。なお、ＣＰＵ１１００の代わりに、ＭＰＵ（Micro Processing Unit）、また多大な計算パワーを必要とすることからＧＰＵ（Graphics Processing Unit）を用いてもよい。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１５０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検索部は、検索手段や検索回路に読み替えることができる。

１００情報処理装置
１１０通信部
１２０記憶部
１３０入力部
１４０出力部
１５０制御部
１５１属性情報抽出部
１５２モデル生成部
１５３受付部
１５４取得部
１５５検索部
１５６抽出部
１５７生成部

Claims

セグメンテーションの技術を用いて領域分割された画像のうち、構造を有する物体を含む分割領域である物体領域に関する領域情報、および、姿勢推定の技術を用いて推定された前記物体の構造に関する構造情報に基づいて、前記物体の属性に関する属性情報を抽出する属性情報抽出部と、
前記属性情報抽出部によって抽出された属性情報に基づいて生成された文章であって、前記画像の内容を示す文章と前記画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥ（Visual-Semantic Embedding）モデルを生成するモデル生成部と、
を備える情報処理装置。
前記属性情報抽出部は、
前記画像のうち、前記領域情報として、人物である前記物体を含む分割領域である人物領域に関する人物領域情報、および、前記構造情報として、前記姿勢推定の技術を用いて推定された前記人物の骨格に関する骨格情報に基づいて、前記属性情報として、前記人物の属性に関する人物属性情報を抽出し、
前記モデル生成部は、
前記属性情報抽出部によって抽出された人物属性情報に基づいて生成された文章であって、前記画像の内容を示す文章と前記画像とを対応付けて共通空間に埋め込むように学習された前記ＶＳＥモデルを生成する、
請求項１に記載の情報処理装置。
前記属性情報抽出部は、
前記骨格情報として、前記人物の各関節の関節位置情報に基づいて、前記人物属性情報として、前記人物の姿勢に関する姿勢情報および前記人物の動作に関する動作情報を抽出する、
請求項２に記載の情報処理装置。
前記属性情報抽出部は、
前記人物領域情報として、前記人物が身に着けている各ファッションアイテムを含む分割領域であるアイテム領域に関するアイテム領域情報に基づいて、前記人物属性情報として、前記人物が身に着けているファッションアイテムの属性に関するアイテム属性情報を抽出する、
請求項２または３に記載の情報処理装置。
前記属性情報抽出部は、
前記人物領域情報として、前記人物の各身体部位を含む分割領域である身体部位領域に関する身体部位領域情報に基づいて、前記人物属性情報として、前記人物の身体部位の属性に関する身体部位属性情報を抽出する、
請求項２～４のいずれか１つに記載の情報処理装置。
前記属性情報抽出部は、
前記身体部位領域情報として、前記人物の頭髪の領域に関する情報に基づいて、前記身体部位属性情報として、前記人物の髪型に関する情報を抽出する、
請求項５に記載の情報処理装置。
前記属性情報抽出部は、
前記身体部位領域情報として、前記人物の顔の領域に関する情報に基づいて、前記身体部位属性情報として、前記人物の表情に関する情報を抽出する、
請求項５または６に記載の情報処理装置。
利用者によって入力された第１クエリ文を受け付ける受付部と、
前記モデル生成部によって生成されたＶＳＥモデルを用いて、前記第１クエリ文に関する第１画像を検索する検索部と、
前記第１画像に含まれる検出対象である第１コンセプトを抽出する抽出部と、
をさらに備え、
前記検索部は、
前記ＶＳＥモデルを用いて、前記抽出部によって抽出された第１コンセプトに基づく第２クエリ文に関する第２画像を再検索する、
請求項１～７のいずれか１つに記載の情報処理装置。
前記検出対象は、物体、人物、場面および動作の少なくともいずれか一つを含む
請求項８に記載の情報処理装置。
前記抽出部によって抽出された第１コンセプトに基づいて、前記第２クエリ文を生成する生成部をさらに備え、
前記検索部は、
前記ＶＳＥモデルを用いて、前記生成部によって生成された前記第２クエリ文に関する前記第２画像を再検索する、
請求項８に記載の情報処理装置。
前記検索部による検索結果を出力する出力部、をさらに備え、
前記出力部は、
前記抽出部によって抽出された第１コンセプトに関する第１コンセプト情報を出力し、
前記受付部は、
前記出力部によって出力された第１コンセプト情報に基づく前記第２クエリ文を前記利用者から受け付け、
前記検索部は、
前記ＶＳＥモデルを用いて、前記受付部によって受け付けられた前記第２クエリ文に関する前記第２画像を再検索する、
請求項８に記載の情報処理装置。
複数の映像または前記複数の映像それぞれに含まれる各シーンである画像を取得する取得部をさらに備え、
前記検索部は、
前記取得部によって取得された画像と前記受付部によって受け付けられた第１クエリ文の組を前記ＶＳＥモデルに入力して、前記画像と前記第１クエリ文との第１類似度を前記ＶＳＥモデルから出力し、当該出力された前記第１類似度が第１閾値を超える前記第１画像を検索する、
請求項８～１１のいずれか１つに記載の情報処理装置。
前記検索部は、
前記取得部によって取得された画像と前記抽出部によって抽出された第１コンセプトに基づく第２クエリ文の組を前記ＶＳＥモデルに入力して、前記画像と前記第２クエリ文との第２類似度を前記ＶＳＥモデルから出力し、当該出力された前記第２類似度が第２閾値を超える前記第２画像を再検索する、
請求項１２に記載の情報処理装置。
前記抽出部は、
画像が入力された場合に、前記画像に含まれる検出対象であるコンセプトと前記画像とのコンセプト類似度を出力するよう学習された学習済みの機械学習モデルであるコンセプト識別器を用いて、前記第１画像から前記第１コンセプトを抽出する、
請求項８～１３のいずれか１つに記載の情報処理装置。
前記抽出部は、
前記検索部によって検索された第１画像を前記コンセプト識別器に入力して、前記第１画像に含まれる検出対象である第１コンセプトと前記第１画像とのコンセプト類似度を前記コンセプト識別器から出力し、当該出力されたコンセプト類似度がコンセプト閾値を超える前記第１コンセプトを抽出する、
請求項１４に記載の情報処理装置。
前記抽出部は、
前記出力されたコンセプト類似度がコンセプト閾値を超える前記第１コンセプトの中から、前記第１クエリ文に含まれない文字列に対応する前記第１コンセプトである隠れコンセプトを抽出する、
請求項１５に記載の情報処理装置。
前記受付部は、
前記利用者によって入力されたクエリ画像を受け付け、
前記検索部は、
前記ＶＳＥモデルを用いて、前記受付部によって受け付けられたクエリ画像に関する文字列を検索し、当該検索した文字列に基づく第３クエリ文に関する第３画像を検索する、
請求項８～１６のいずれか１つに記載の情報処理装置。
複数の文章または前記複数の文章それぞれに含まれる各テキストである文字列を取得する取得部をさらに備え、
前記検索部は、
前記取得部によって取得された文字列と前記受付部によって受け付けられたクエリ画像の組を前記ＶＳＥモデルに入力して、前記文字列と前記クエリ画像との第３類似度を前記ＶＳＥモデルから出力し、当該出力された前記第３類似度が第３閾値を超える文字列を検索し、当該検索した文字列に基づく前記第３クエリ文に関する前記第３画像を検索する、
請求項１７に記載の情報処理装置。
前記抽出部は、
前記第３画像に含まれる検出対象である第３コンセプトを抽出し、
前記検索部は、
前記ＶＳＥモデルを用いて、前記抽出部によって抽出された第３コンセプトに基づく第４クエリ文に関する第４画像を再検索する、
請求項１８に記載の情報処理装置。
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
セグメンテーションの技術を用いて領域分割された画像のうち、構造を有する物体を含む分割領域である物体領域に関する領域情報、および、姿勢推定の技術を用いて推定された前記物体の構造に関する構造情報に基づいて、前記物体の属性に関する属性情報を抽出する属性情報抽出工程と、
前記属性情報抽出工程によって抽出された属性情報に基づいて生成された文章であって、前記画像の内容を示す文章と前記画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥ（Visual-Semantic Embedding）モデルを生成するモデル生成工程と、
を含む情報処理方法。
セグメンテーションの技術を用いて領域分割された画像のうち、構造を有する物体を含む分割領域である物体領域に関する領域情報、および、姿勢推定の技術を用いて推定された前記物体の構造に関する構造情報に基づいて、前記物体の属性に関する属性情報を抽出する属性情報抽出手順と、
前記属性情報抽出手順によって抽出された属性情報に基づいて生成された文章であって、前記画像の内容を示す文章と前記画像とを対応付けて共通空間に埋め込むように学習されたＶＳＥ（Visual-Semantic Embedding）モデルを生成するモデル生成手順と、
をコンピュータに実行させる情報処理プログラム。