JP7476163B2

JP7476163B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7476163B2
Application number: JP2021200233A
Authority: JP
Inventors: 紗記子西; 磨翁西; みゆき大島; 愛友成
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2024-04-30
Anticipated expiration: 2041-12-09
Also published as: JP2023085915A

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来、被写体（撮影対象）を異なる視点で撮像した複数の画像である多視点画像（自由視点画像）を生成する技術が提供されている（例えば特許文献１参照）。

特開２０１６－１１９５１３号公報

しかしながら、上述した従来技術では、多視点画像を用いたサービスの提供が十分であるとは言えない場合がある。例えば、上述した従来技術では、ユーザに多視点画像を活用させているものの、多視点画像を用いたサービス提供の質については改善の余地がある。

本願は、上記に鑑みてなされたものであって、多視点画像を用いたサービス提供の質をより向上させることを目的とする。

本願に係る情報処理装置は、多視点画像を構成する画像の撮影時に、前記画像に含まれる撮影対象を認識する認識部と、認識された前記撮影対象を利用者に通知する通知部と、を備え、前記通知部は、多視点画像を構成する画像の撮影が完了した又は完了していないカメラの位置や角度を利用者に通知することを特徴とする。

実施形態の一態様によれば、多視点画像を用いたサービス提供の質をより向上させることができる。

図１は、実施形態に係る情報処理方法の概要を示す説明図である。図２は、撮影ガイドの表示の概要を示す説明図である。図３は、撮影モデルの顔画像の置換の概要を示す説明図である。図４は、実施形態に係る情報処理システムの構成例を示す図である。図５は、実施形態に係る端末装置の構成例を示す図である。図６は、実施形態に係る情報提供装置の構成例を示す図である。図７は、利用者情報データベースの一例を示す図である。図８は、履歴情報データベースの一例を示す図である。図９は、画像情報データベースの一例を示す図である。図１０は、実施形態に係る処理手順を示すフローチャートである。図１１は、ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と記載する）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報処理方法の概要〕
まず、図１を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。図１は、実施形態に係る情報処理方法の概要を示す説明図である。なお、図１では、多視点画像を用いたサービス提供を行う場合を例に挙げて説明する。

図１に示すように、情報処理システム１は、端末装置１０と情報提供装置１００とを含む。端末装置１０と情報提供装置１００とは、ネットワークＮ（図４参照）を介して有線又は無線で互いに通信可能に接続される。本実施形態では、端末装置１０は、情報提供装置１００と連携する。

端末装置１０は、利用者Ｕ（ユーザ）により使用されるスマートフォンやタブレット等のスマートデバイスであり、４Ｇ（Generation）やＬＴＥ（Long Term Evolution）等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置１０は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者Ｕから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作としてもよい。また、端末装置１０は、スマートデバイスのみならず、デスクトップＰＣ（Personal Computer）やノートＰＣ等の情報処理装置であってもよい。

情報提供装置１００は、各利用者Ｕの端末装置１０と連携し、各利用者Ｕの端末装置１０に対して、各種アプリケーション（以下、アプリ）等に対するＡＰＩ（Application Programming Interface）サービス等と、各種データを提供する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。

また、情報提供装置１００は、各利用者Ｕの端末装置１０に対して、オンラインで何らかのＷｅｂサービスを提供する情報処理装置であってもよい。例えば、情報提供装置１００は、Ｗｅｂサービスとして、インターネット接続、検索サービス、ＳＮＳ（Social Networking Service）、電子商取引（ＥＣ：Electronic Commerce）、ファッションコーディネート（ファッションアイテムを着用した写真（静止画）や動画）が投稿される投稿サイト、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報等のサービスを提供してもよい。実際には、情報提供装置１００は、上記のようなＷｅｂサービスを提供する各種サーバと連携し、Ｗｅｂサービスを仲介してもよいし、Ｗｅｂサービスの処理を担当してもよい。

なお、情報提供装置１００は、利用者Ｕに関する利用者情報を取得可能である。例えば、情報提供装置１００は、利用者Ｕの性別、年代、居住地域といった利用者Ｕの属性に関する情報を取得する。そして、情報提供装置１００は、利用者Ｕを示す識別情報（利用者ＩＤ等）とともに利用者Ｕの属性に関する情報を記憶して管理する。

また、情報提供装置１００は、利用者Ｕの端末装置１０から、あるいは利用者ＩＤ等に基づいて各種サーバ等から、利用者Ｕの行動を示す各種の履歴情報（ログデータ）を取得する。例えば、情報提供装置１００は、利用者Ｕの位置や日時の履歴である位置履歴を端末装置１０から取得する。また、情報提供装置１００は、利用者Ｕが入力した検索クエリの履歴である検索履歴を検索サーバ（検索エンジン）や電子商取引サーバや投稿サーバから取得する。また、情報提供装置１００は、利用者Ｕが閲覧したコンテンツや商品（ファッションアイテム）の履歴である閲覧履歴をコンテンツサーバや電子商取引サーバや投稿サーバから取得する。また、情報提供装置１００は、利用者Ｕが購入や決済したコンテンツや商品（ファッションアイテム）の履歴である購入履歴（決済履歴）を電子商取引サーバや決済処理サーバから取得する。また、情報提供装置１００は、利用者Ｕのマーケットプレイスへの出品の履歴である出品履歴や販売履歴を電子商取引サーバや決済処理サーバから取得してもよい。また、情報提供装置１００は、利用者Ｕが投稿したファッションコーディネート（ファッションアイテム）の履歴である投稿履歴や閲覧者が支持（いいね）したファッションコーディネート（ファッションアイテム）の履歴である支持履歴を投稿サーバやＳＮＳサーバから取得する。

本実施形態では、情報提供装置１００は、ユーザのファッションの嗜好に関するファッション情報に基づき、ファッションアイテム（服、装飾品、鞄、靴、帽子等）とその付加情報との組合せを画像解析とＡＩ（Artificial Intelligence：人工知能）によって決定し、適切な位置に表示する。ここでは、情報提供装置１００は、画像解析により画像に含まれるファッションアイテムを特定し、そのファッションアイテムに対応するアノテーションタグ（以下、タグ）を付与する。なお、タグを付与するとは、タグ付けの対象の近傍の適当な位置にタグを表示することを示す。例えば、情報提供装置１００は、投稿サイトやＳＮＳに投稿するための写真や動画としてユーザがファッションアイテムを着用して自身を撮影した画像、あるいはそのように撮影・投稿された他のユーザの画像において、ファッションアイテムに対応するタグを付与する。

例えば、情報提供装置１００は、そのファッションアイテムの詳細情報を表示したタグを付与する。また、情報提供装置１００は、そのファッションアイテムの商品ページ（販売ページ／購入ページ／広告ページ等）、又はそのファッションアイテムに関連する他のファッションアイテム（一緒に購入されることが多い商品、同一ブランドの商品等）の商品ページへ案内するタグを付与してもよい。

また、情報提供装置１００は、ファッションアイテムに合わせて、特徴的なタグを付与してもよい。例えば、情報提供装置１００は、ファッションアイテムとの色相環的な相性度が高いタグを付与する。あるいは、投稿サイトやＳＮＳでの閲覧者による支持率（いいね率）が高くなると推定されるタグを付与する。あるいは、閲覧者によるファッションアイテムの購入率が高くなると推定されるタグを付与する。これにより、閲覧者によるファッションアイテムの購入を促進することができる。

ユーザのファッションの嗜好に関するファッション情報は、各利用者Ｕの属性情報や履歴情報等から取得可能である。また、ファッション情報は、利用者Ｕが着用するファッションアイテムや利用者Ｕが閲覧したファッションアイテムに関する情報（ファッションアイテム情報）を含む。本実施形態では、ファッション情報は、ファッション通販サイト（例えば「ZOZOTOWN」（登録商標））等の電子商取引サイトやファッションコーディネート投稿サイト（例えば「WEAR」（登録商標））での行動情報（検索、選択、閲覧、購入、投稿）を含む。また、ファッション情報は、利用者Ｕが検索、閲覧、購入、所有、投稿等をしたファッションアイテムに関する情報（ファッションアイテム情報）を含む。

ユーザのファッションの嗜好は、本システムとアカウントを連結している（又は本システムの一部である）ファッション通販サイト等の電子商取引サイトやファッションコーディネート投稿サイト等の様々な履歴情報（ログデータ）を基に算出／推定するロジックにより決定される。例えば、情報提供装置１００は、ユーザがファッション通販サイトで購入した服（ユーザ情報とマッチする服を着ている服と定義）や閲覧した服から、「服とタグとの組合せ」を算出／推定し、服との組合せに最適なタグを付与する。また、情報提供装置１００は、ユーザがファッションコーディネート投稿サイトで閲覧した服から、「服とタグとの組合せ」を算出／推定し、服との組合せに最適なタグを付与する。

また、情報提供装置１００は、ファッション情報に加えて、ユーザの生活行動・習慣や気分等の情報に基づき、タグを付与してもよい。すなわち、情報提供装置１００は、同じファッションアイテムであっても、閲覧するユーザごとにタグの内容や形態を変更してもよい。

本実施形態では、情報提供装置１００は、ファッションコーディネート投稿サイト（例えば「WEAR」（登録商標））のようなファッション写真（画像）を撮影して投稿するサービスにおいて、ファッションアイテム（服、装飾品、鞄、靴、帽子等）にタグ付けする。例えば、タグ付けとして、ファッション通販サイト（例えば「ZOZOTOWN」（登録商標））等の電子商取引サイトの商品ページとの関係性を設定する。タグは写真に重畳して表示される。タグをクリックすると、ファッション通販サイト（例えば「ZOZOTOWN」（登録商標））等の電子商取引サイトでその商品（ファッションアイテム）を販売する商品ページに遷移する。

また、情報提供装置１００は、ファッションコーディネート投稿サイト（例えば「WEAR」（登録商標））において、多視点画像で表示する。例えば、情報提供装置１００は、ファッションコーディネート投稿サイト（例えば「WEAR」（登録商標））において、クリック又はスクロールして写真（画像）が表示されると、自動的に／経時的に／ユーザの操作に応じて、視点が異なる画像に切り替わるようにする。

〔１－１．アノテーションタグ〕
本実施形態では、情報提供装置１００は、多視点画像内の撮影対象にアノテーション（注釈）のタグを付与するときに、多視点画像の各視点の画像から同一注視点（タグ付けの対象）を検出して、その同一注視点の近傍にタグを設定して表示する。

図１に示すように、情報提供装置１００は、ネットワークＮ（図４参照）を介して、投稿者である利用者Ｕの端末装置１０から、多視点画像を取得する（ステップＳ１）。例えば、情報提供装置１００は、ネットワークＮ（図４参照）を介して、投稿者である利用者Ｕの端末装置１０から、多視点画像の作成に用いられる様々な視点から撮影された各画像を取得する。図１では、画像内において、被撮影者（撮影モデル）をＭ、撮影対象のバッグをＢ、タグをＴとして示す。

次に、情報提供装置１００は、取得された全ての画像について画像認識（Image Recognition）又は機械学習を行い、撮影対象を認識して特定・分類する（ステップＳ２）。例えば、情報提供装置１００は、各画像に含まれる撮影対象を特定して、カテゴリ別に分類する。撮影対象は、複数であってもよい。

次に、情報提供装置１００は、多視点画像内の撮影対象の位置（画像内の位置）を推定する（ステップＳ３）。本実施形態では、情報提供装置１００は、多視点画像を構成する画像ごとに（各視点の画像ごとに）、各画像に含まれる撮影対象の３次元的な位置を推定（又は特定）する。撮影対象の３次元的な位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。また、３次元的な位置は一例に過ぎない。

次に、情報提供装置１００は、投稿者又は閲覧者である利用者Ｕから、多視点画像内の３次元的な位置が推定された撮影対象（アノテーション対象の候補）のうち、タグ付けの対象（アノテーション対象）の選択を受け付ける（ステップＳ４）。例えば、情報提供装置１００は、投稿者又は閲覧者である利用者Ｕの端末装置１０から、ネットワークＮ（図４参照）を介して、タグ付けの対象（アノテーション対象）となる商品（ファッションアイテム）と、対応付ける当該商品の商品ページの指定を受け付ける。このとき、情報提供装置１００は、ファッション通販サイト（例えば「ZOZOTOWN」（登録商標））等の電子商取引サイトの各商品ページから画像認識又は機械学習で当該商品の類似画像を検索し、検索結果に基づいて当該商品の商品ページを自動で特定してもよい。

なお、情報提供装置１００は、投稿者又は閲覧者である利用者Ｕからタグ付けの対象（アノテーション対象）の選択を受け付けていない場合、多視点画像内の全ての撮影対象をタグ付けの対象（アノテーション対象）としてもよい。また、情報提供装置１００は、投稿者又は閲覧者である利用者Ｕからのタグ付けの対象（アノテーション対象）の選択に関係なく、無条件で多視点画像内の全ての撮影対象をタグ付けの対象（アノテーション対象）としてもよい。また、情報提供装置１００は、事前設定に従って、撮影対象（アノテーション対象の候補）のうち、タグ付けの対象（アノテーション対象）を決定してもよい。

また、情報提供装置１００は、学習モデルを用いて、多視点画像内の３次元的な位置が推定された撮影対象のうち、タグ付けの対象（アノテーション対象）を推定してもよい。例えば、情報提供装置１００は、過去にタグ付けの対象として選択された撮影対象と、そのタグ付けの対象に付与されたタグとの組合せについて学習することで学習モデルを構築してもよい。そして、情報提供装置１００は、学習モデルに撮影対象を入力すると、その撮影対象がタグ付けの対象である場合に適当なタグを推論して出力してもよい。

次に、情報提供装置１００は、ネットワークＮ（図４参照）を介して、閲覧者である利用者Ｕの端末装置１０に、多視点画像内の撮影対象のうち、選択されたタグ付けの対象（アノテーション対象）にアノテーションのタグを付けて表示する（ステップＳ５）。

次に、情報提供装置１００は、ネットワークＮ（図４参照）を介して、多視点画像の視点の変更に合わせて、閲覧者である利用者Ｕの端末装置１０に表示されたアノテーションのタグの位置を変更する（ステップＳ６）。例えば、情報提供装置１００は、多視点画像の視点が変更された際に、多視点画像内のタグ付けの対象（アノテーション対象）を自動で追従してアノテーションのタグを付与して適当な位置に表示する。このとき、情報提供装置１００は、視点の異なる画像ごとに（その都度）、タグ付けの対象（アノテーション対象）にアノテーションのタグを付与して適当な位置に表示してもよい。

このとき、情報提供装置１００は、アノテーションのタグが、他の対象や他のタグと重複しないように配置（表示）する。また、情報提供装置１００は、アノテーションのタグと、タグ付けの対象（アノテーション対象）との位置関係が保持されるような位置にタグを配置（表示）し続ける。

このように、本実施形態では、情報提供装置１００は、投稿者又は閲覧者であるユーザから多視点画像（投稿者により投稿された多視点画像、閲覧者により指定された多視点画像等）を取得し、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定し、タグ付けの対象の多視点画像内の３次元的な位置を推定する。そして、情報提供装置１００は、タグ付けの対象の３次元的な位置に合わせてタグ付けの対象にタグを付与する。すなわち、情報提供装置１００は、タグ付けの対象とともにタグを端末装置１０の画面に表示してユーザに通知（提示）する。

また、情報提供装置１００は、多視点画像の各視点の画像ごとに画像認識又は機械学習で撮影対象を特定して分類する。また、情報提供装置１００は、投稿者又は閲覧者であるユーザからタグ付けの対象の選択を受け付ける。そして、情報提供装置１００は、タグ付けの対象の選択に応じて、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。

例えば、情報提供装置１００は、投稿者又は閲覧者であるユーザから、タグ付けの対象の選択と、タグ付けの対象に対応付けるウェブページの指定とを受け付ける。あるいは、情報提供装置１００は、ネットワーク上の複数のウェブページから画像認識又は機械学習でタグ付けの対象の画像の類似画像を検索し、類似画像を含むウェブページをタグ付けの対象に対応付けるウェブページとして自動で特定する。

情報提供装置１００は、タグ付けの対象にタグを付与する際、タグが他の対象及び他のタグと重複しないように付与する。また、情報提供装置１００は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されていない状態であれば、タグ付けの対象にタグを付与する。なお、情報提供装置１００は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されている状態であっても、タグ付けの対象のタグが他の対象のタグよりも表示の優先度が高い場合には、他の対象にはタグを付与せず、タグ付けの対象にタグを付与する。

なお、上記の各処理は、情報提供装置１００ではなく、端末装置１０がアプリ等の機能により実施してもよい。すなわち、端末装置１０上で処理が完結してもよい。

〔１－２．タグの表示位置の変更〕
本実施形態では、情報提供装置１００は、多視点画像に撮影された撮影対象の位置関係に応じて、撮影対象を示すコンテンツ（アノテーションのタグ）の表示位置（表示態様）を変更する。なお、撮影対象を示すコンテンツ（アノテーションのタグ）は、複数でもよい。

情報提供装置１００は、アノテーションのタグと、タグ付けの対象（アノテーション対象）との位置関係に応じて、タグの表示位置を変更する。

情報提供装置１００は、アノテーション対象が撮影モデル／ユーザや他の撮影対象の陰に隠れている場合は、当該アノテーション対象に付与されるタグを隠す。

例えば、情報提供装置１００は、アノテーション対象の撮像範囲／表示範囲が所定値以下である場合や、アノテーション対象がユーザや他の対象の陰になって隠れている場合には、アノテーションのタグを表示しない。

あるいは、情報提供装置１００は、アノテーション対象と他の対象とのタグの前後関係を変更してもよい。情報提供装置１００は、複数のタグが存在する場合に、特に指定がない場合（何も設定されていない場合）には、通常は最も画面の手前に配置された対象のタグを表示する。本実施形態では、情報提供装置１００は、最も画面の手前に配置された対象よりも優先度が高い対象が陰に隠れている場合、最も画面の手前に配置された対象のタグを表示せず、その優先度が高い対象のタグを表示する。

このとき、情報提供装置１００は、各対象に優先度を設定し、設定された優先度の大小関係で表示されるタグを決定してもよい。また、情報提供装置１００は、最も画面の手前に配置された対象よりもユーザの興味や関心が高いと推測される対象を、最も画面の手前に配置された対象よりも優先度が高い対象として決定してもよい。

このように、本実施形態では、情報提供装置１００は、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定し、タグ付けの対象の位置に合わせてタグを付与する。その後、情報提供装置１００は、多視点画像の視点の変更に伴い画面内のタグ付けの対象の位置が変更した場合に、タグ付けの対象の位置の変更に合わせてタグの表示位置を変更する。

また、情報提供装置１００は、多視点画像の視点が変更されても、タグ付けの対象とタグとの位置関係が保持されるような位置にタグを配置する。

〔１－３．撮影ガイドの表示〕
本実施形態では、情報提供装置１００は、ユーザが多視点画像を投稿するために、カメラ（インカメラ等）を有する端末装置１０（撮像装置）を用いて自身の画像を撮影（インカメラ撮影）する際に、撮影に用いられるユーザの端末装置１０（又はそれに搭載／接続された表示装置）の画面（写真撮影画面）に所定の撮影ガイドを表示し、画像を撮影する度に（視点を移動する度に）、撮影ガイドを変更する。図２は、撮影ガイドの表示の概要を示す説明図である。図２では、画像内において、被撮影者（撮影モデル）をＭ、撮影対象のバッグをＢとして示す。

図２に示すように、情報提供装置１００は、ユーザが多視点画像を投稿するために、カメラを有する端末装置１０が多視点画像の撮影を開始したことを確認する（ステップＳ１１）。例えば、情報提供装置１００は、ネットワークＮ（図４参照）を介して、ユーザの端末装置１０から、多視点画像の撮影開始を示す信号やデータを受信する。

次に、情報提供装置１００は、ネットワークＮ（図４参照）を介して、ユーザの端末装置１０と連携する（ステップＳ１２）。例えば、情報提供装置１００は、ＡＰＩを介して、端末装置１０の撮影アプリを制御してもよい。すなわち、以降の処理は、情報提供装置１００が端末装置１０と連携して実施してもよい。

次に、端末装置１０は、ユーザが自身の画像を撮影（インカメラ撮影）する際に、端末装置１０の画面に撮影ガイドを表示する（ステップＳ１３）。

次に、端末装置１０は、ユーザのポーズや所持しているバッグ等が撮影ガイドからずれている場合、撮影ガイドからずれている箇所を通知する（ステップＳ１４）。なお、通知方法は、画面表示でも音声案内でもよい。

次に、端末装置１０は、ユーザのポーズや所持しているバッグ等が撮影ガイドと一致している場合、自動的に撮影する（ステップＳ１５）。なお、端末装置１０は、ユーザのポーズや所持しているバッグ等が撮影ガイドと完全に一致していなくても、所定の割合以上一致していれば、一致していると判定して自動的に撮影してもよい。また、端末装置１０は、ユーザのポーズや所持しているバッグ等が撮影ガイドと一致している場合、自動的に撮影してもよい。このとき、情報提供装置１００は、端末装置１０に対して、ユーザのポーズや所持しているバッグ等が撮影ガイドと一致している場合には自動的に撮影するようにあらかじめ指示しておいてもよい。

次に、端末装置１０は、撮影された画像に含まれる撮影対象（アノテーション対象の候補）を特定して通知する（ステップＳ１６）。詳細については後述する。

次に、端末装置１０は、多視点画像の生成のための視点変更に応じて、撮影ガイドを変更する（ステップＳ１７）。すなわち、端末装置１０は、変更後の視点に応じた撮影ガイドを表示する。

次に、端末装置１０は、多視点画像の生成のために必要な全視点の画像の撮影が完了した後、多視点画像を投稿する（ステップＳ１８）。例えば、端末装置１０は、撮影された画像から多視点画像を生成し、ネットワークＮ（図４参照）を介して、情報提供装置１００に多視点画像を自動的に投稿する。あるいは、端末装置１０は、ネットワークＮ（図４参照）を介して、情報提供装置１００に、撮影された画像をそのまま投稿してもよい。この場合、情報提供装置１００は、投稿された画像を取得した後に、投稿された画像から多視点画像を生成してもよい。

本実施形態では、多視点画像の撮影に用いられるユーザの端末装置１０は、端末装置１０の画面に、撮影ガイドとして、表情のガイド、姿勢（ポーズ）のガイド、商品の持ち方のガイド、又は着用の仕方のガイド等を表示し、位置（ポジション）や角度（アングル）を変えて画像を撮影する度に、撮影ガイドを変更する。

例えば、端末装置１０は、撮影に用いられるユーザの端末装置１０の画面に、撮影ガイドとして、ユーザが取るべき表情、姿勢（ポーズ）、商品の持ち方、又は着用の仕方のシルエットや輪郭を表示し、位置（ポジション）や角度（アングル）を変えて画像を撮影する度に、シルエットや輪郭を変更してもよい。この場合、ユーザは、画面に表示された表情、姿勢（ポーズ）、商品の持ち方、又は着用の仕方のシルエットや輪郭に合わせるように、自分の表情、姿勢（ポーズ）、商品の持ち方、又は着用の仕方を変えていく。

また、端末装置１０は、撮影ガイドの表示・変更に合わせて、音声での案内（ガイダンス）を行ってもよい。また、端末装置１０は、撮影画面上で、表情、姿勢（ポーズ）、商品の持ち方、又は着用の仕方等について、ユーザが変更する必要がある箇所・部位に、変更内容に関するコメントを表示したタグを付与してもよい。

（ポーズガイドの場合）
ここで、撮影ガイドの一例として、ポーズガイドの場合について説明する。カメラを有するユーザの端末装置１０は、多視点画像の撮影時に、端末装置１０の画面にポーズガイドを表示する。端末装置１０は、画像を撮影する度に（視点を移動する度に）、撮影ガイドを変更する。すなわち、ポーズガイドは、撮影する度に次々に変わっていく。

なお、端末装置１０のカメラは固定であるため、ユーザが端末装置１０を移動／回転させることで、カメラの位置（ポジション）や角度（アングル）を変えることになる。撮影ガイドは、ポーズ、表情、持ち方等に関する内容である。ポーズは、顔の向き、体の向き等を含む。カメラの位置（ポジション）や角度（アングル）に合わせて、ポーズガイドも段々（徐々に）変化していく。すなわち、端末装置１０は、カメラの位置（ポジション）や角度（アングル）に合わせて、ポーズガイドを段階的に変更していく。

端末装置１０は、画面内においてポーズガイドとユーザのポーズとが一致したと判断すると、自動的に撮影する。このとき、端末装置１０は、ユーザのポーズの適切性を判定する。端末装置１０は、ユーザのポーズが適切ではないと判定した場合、ユーザのポーズが適切になるように具体的なアドバイスをして、適切なポーズとなるように誘導する。

例えば、端末装置１０は、アゴ（顎）を引く、脚を開く／閉じる、体を傾ける、背を反らす、特定方向（前後左右）に○○歩／××ｃｍずれる、バッグやポーチ等をどういう風にもつか等のポーズガイドを表示したり、音声での案内（ガイダンス）を行ったりする。

端末装置１０は、インカメラで撮影する際に、ユーザとポーズガイドとを画面に重畳表示する。ポーズガイドは、例えばシルエットや輪郭でもよいし、半透明の表示でもよい。また、音声で「こうしてください」でもよい。端末装置１０は、ユーザの現在のポーズとポーズガイドとの差分を特定して「もっと右手を挙げてください」、「もう少し、足を挙げてください」等のように、ポーズと違う部分を特定して表示／案内してもよい。そして、端末装置１０は、ユーザのポーズがポーズガイドに一致したと判定した場合に、自動で撮影してもよい。

また、ポーズガイドは、表情のガイドであってもよい。例えば、「一回転したら、笑顔になる」等でもよい。すなわち、撮影の度に、同一の表情でなくてもよい。また、端末装置１０は、最初の画像でポーズを特定して、特定したポーズガイドを表示してもよい。

このように、本実施形態では、端末装置１０は、多視点画像を撮影する際に、所定の撮影ガイドを画面に表示する。例えば、端末装置１０は、撮影ガイドとして被写体のうち被撮影者（撮影モデル）のポーズ、表情、持ち方のうち少なくとも１つに関するガイドを画面に表示する。また、端末装置１０は、撮影ガイドとして被写体のシルエット、輪郭、又は半透明の表示を画面に表示する。

また、端末装置１０は、被写体を撮影する際に、被写体に撮影ガイドを重畳表示する。また、端末装置１０は、最初に撮影された画像で被写体のうち被撮影者のポーズを特定し、特定されたポーズに応じた撮影ガイドを選択して表示する。

また、端末装置１０は、撮影時の視点を移動する度に、画面に表示された撮影ガイドを視点に応じて変更する。また、端末装置１０は、撮影時の視点を移動するにつれて、撮影ガイドを段階的に変更してもよい。

また、端末装置１０は、端末装置１０に対して、被写体が撮影ガイドに一致した場合には自動的に撮影するように指示する。また、端末装置１０は、被写体が撮影ガイドとずれている場合、被写体が撮影ガイドとずれている箇所を撮影者（利用者Ｕ）に通知（提示）する。なお、被写体は、撮影者自身であってもよい。すなわち、撮影者と被撮影者は同一人物であってもよい。

なお、上記の各処理は、端末装置１０ではなく、ＡＰＩを介して情報提供装置１００が実施してもよい。

〔１－４．アノテーション対象の候補の認識〕
本実施形態では、端末装置１０は、多視点画像を構成する画像の撮影時に、撮影された画像に含まれる撮影対象（アノテーション対象の候補）を特定し、特定された撮影対象を利用者に通知する。

端末装置１０は、多視点画像の登録時に、撮影の度に画像認識又は機械学習で画像に含まれる撮影対象を認識し、撮影対象に関する情報を利用者に画面表示や音声で通知する。撮影対象は複数であってもよい。撮影対象を特定して通知することで、後でタグ付けが楽になる。また、先にタグ付けをする手間がなくなる。なお、端末装置１０は、事前にタグ付けの対象（アノテーション対象）をユーザに通知し、撮影の度にそのタグ付けの対象（アノテーション対象）が撮影されているか否かをユーザに通知してもよい。

また、端末装置１０は、「ワンピースが撮れました」、「バックは何カット撮れました」等を利用者に画面表示や音声で通知してもよい。また、撮る度に、「残り○○枚です」のように、あと何枚撮影するかを利用者に画面表示や音声で通知してもよい。すなわち、端末装置１０は、撮影の度に、撮影対象の撮影枚数（ショット数）や、多視点画像を構成する画像の必要数までの残り枚数を利用者に通知してもよい。また、端末装置１０は、撮影が完了した（又は完了していない）カメラの位置（ポジション）や角度（アングル）を利用者に画面表示や音声で通知してもよい。また、端末装置１０は、多視点画像の生成に必要な各視点の画像について、撮影漏れの視点（画像）があれば、利用者に画面表示や音声で通知してもよい。このとき、端末装置１０は、通知内容を示したタグを付与して表示することで通知してもよい。

また、端末装置１０は、カメラの位置（ポジション）や角度（アングル）が変わったことにより、撮影の途中で見えなくなった（ユーザや他の対象の陰に隠れた）撮影対象を通知してもよい。このとき、端末装置１０は、撮影対象が他の対象の陰に隠れていることを示すタグを付与して表示することにより、撮影の途中で見えなくなった（ユーザや他の対象の陰に隠れた）撮影対象を通知してもよい。

〔１－５．撮影モデルの顔画像の置換〕
本実施形態では、情報提供装置１００は、多視点画像の被撮影者（撮影モデル）の顔を、閲覧者である利用者Ｕの顔に置き換える。すなわち、情報提供装置１００は、多視点画像の被撮影者（撮影モデル）の顔を別人の顔に置き換える。図３は、被撮影者（撮影モデル）の顔画像の置換の概要を示す説明図である。図３では、画像内において、顔画像の置換前の被撮影者（撮影モデル）をＭ１、被撮影者とともに撮影されたバッグをＢ、顔画像を利用者Ｕの顔画像に置換した被撮影者をＭ＋Ｕとして示す。

図３に示すように、情報提供装置１００は、ネットワークＮ（図４参照）を介して、利用者Ｕ（ユーザ）の端末装置１０から、利用者Ｕの顔の多視点顔画像を取得する（ステップＳ２１）。例えば、情報提供装置１００は、利用者Ｕの端末装置１０から、投稿された多視点画像を閲覧する利用者Ｕの顔を、複数の視点から撮影した多視点顔画像を取得する。

次に、情報提供装置１００は、利用者Ｕの閲覧対象となる多視点画像から、被撮影者（撮影モデル）の顔を特定する（ステップＳ２２）。例えば、情報提供装置１００は、多視点画像の視点ごとの被撮影者（撮影モデル）の顔を特定する。本実施形態では、閲覧対象となる多視点画像は、利用者Ｕ（ユーザ）とは異なる被撮影者（撮影モデル）の顔が含まれる多視点画像である。なお、実際には、利用者Ｕ（ユーザ）自身の顔が含まれる多視点画像であってもよい。

次に、情報提供装置１００は、閲覧対象となる多視点画像から、撮影時の視点を特定する（ステップＳ２３）。例えば、情報提供装置１００は、多視点画像の視点ごとの被撮影者（撮影モデル）の顔の位置（ポジション）や角度（アングル）を特定する。

次に、情報提供装置１００は、撮影時の視点に応じて、閲覧対象となる多視点画像の被撮影者の顔を、閲覧者である利用者Ｕ（ユーザ）の顔に変更する（ステップＳ２４）。例えば、情報提供装置１００は、多視点画像の視点ごとの被撮影者（撮影モデル）の顔の位置（ポジション）や角度（アングル）に応じて、被撮影者（撮影モデル）の顔をユーザの顔に置き換えた画像を生成する。このとき、情報提供装置１００は、閲覧対象となる多視点画像の被撮影者の顔を、閲覧者である利用者Ｕ（ユーザ）の顔に、可能な限り自然な形で（できるだけ違和感が無いように）置き換える。また、情報提供装置１００は、同時に閲覧される複数の多視点画像のそれぞれの撮影時の視点に合わせて、それぞれの被撮影者（撮影モデル）の顔を一括して利用者Ｕ（ユーザ）の顔に変換する。

次に、情報提供装置１００は、多視点画像の被撮影者（撮影モデル）の顔を、閲覧者である利用者Ｕ（ユーザ）の顔に変更する際、必要に応じて、多視点画像の被撮影者（撮影モデル）の身長調整を行う（ステップＳ２５）。すなわち、情報提供装置１００は、被撮影者（撮影モデル）の顔に限らず身長もユーザに合わせて変更してもよい。例えば、情報提供装置１００は、多視点画像の被撮影者（撮影モデル）の身長をユーザの身長に変更してもよい。また、情報提供装置１００は、多視点画像の被撮影者（撮影モデル）の顔とユーザの顔とに基づいて被撮影者の身長を調整してもよい。また、情報提供装置１００は、背景や被撮影者と一緒に撮影された撮影対象のサイズに合わせて被撮影者の身長を調整してもよい。

また、情報提供装置１００は、多視点画像の被撮影者（撮影モデル）の顔をユーザの顔に変更した際、あるいは多視点画像の被撮影者（撮影モデル）がユーザ本人である場合に、画像加工編集等により、画像内のユーザの髪型や髪の色（濃淡を含む）、表情等を変更してもよい。例えば、ロングヘアーをショートヘアーに変更したり、黒髪を茶髪にしたり、目尻や口角を上げ下げしたりしてもよい。あるいは、情報提供装置１００は、ユーザの指示等に応じて、多視点画像に表示されている現在の顔画像（変換後のユーザの顔画像等）を、髪型や髪の色（濃淡を含む）、表情等が異なる顔画像に変換してもよい。

次に、情報提供装置１００は、ネットワークＮ（図４参照）を介して、利用者Ｕ（ユーザ）の端末装置１０に、変換後の多視点画像を表示する（ステップＳ２６）。

なお、上記の説明では、情報提供装置１００は、多視点画像の被撮影者の顔を、閲覧者である利用者Ｕの顔に変換したが、実際には、閲覧者である利用者Ｕの顔に限定されない。情報提供装置１００は、閲覧者である利用者Ｕの顔以外にも、任意の人物の顔に変換してもよい。例えば、情報提供装置１００は、多視点画像に含まれる撮影対象のうちタグ付けの対象（アノテーション対象）に該当する商品を購入した際のプレゼント先となる利用者Ｕの友人の顔にしてもよい。

また、上記の説明では、情報提供装置１００は、多視点画像の被撮影者の顔を、別人の顔に変換したが、実際には、別人の顔に限定されない。情報提供装置１００は、別人の顔に限らず、同一人物の別の顔に変換してもよい。例えば、情報提供装置１００は、ある多視点画像の被撮影者が閲覧者である利用者Ｕ本人である場合（多視点画像の被撮影者と閲覧者が同一人である場合等）、その多視点画像の被撮影者である利用者Ｕの顔を、利用者Ｕの別の顔に変換してもよい。

また、情報提供装置１００は、ディープフェイク等の技術を用いて、閲覧対象となる多視点画像の被撮影者の顔を変換してもよい。また、情報提供装置１００は、単一視点の顔画像から複数視点の画像を生成する公知技術を用いて、差し替え先となる顔の多視点画像を生成し、これを用いて画像の顔を変換してもよい。

〔２．情報処理システムの構成例〕
次に、図４を用いて、実施形態に係る情報提供装置１００が含まれる情報処理システム１の構成について説明する。図４は、実施形態に係る情報処理システム１の構成例を示す図である。図４に示すように、実施形態に係る情報処理システム１は、端末装置１０と情報提供装置１００とを含む。これらの各種装置は、ネットワークＮを介して、有線又は無線により通信可能に接続される。ネットワークＮは、例えば、ＬＡＮ（Local Area Network）や、インターネット等のＷＡＮ（Wide Area Network）である。

また、図４に示す情報処理システム１に含まれる各装置の数は図示したものに限られない。例えば、図４では、図示の簡略化のため、端末装置１０を１台のみ示したが、これはあくまでも例示であって限定されるものではなく、２台以上であってもよい。

端末装置１０は、利用者Ｕによって使用される情報処理装置である。例えば、端末装置１０は、スマートフォンやタブレット端末等のスマートデバイス、フィーチャーフォン、ＰＣ（Personal Computer）、ＰＤＡ（Personal Digital Assistant）、通信機能を備えたゲーム機やＡＶ機器、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ等のウェアラブルデバイス（Wearable Device）、スマートグラス等である。

また、かかる端末装置１０は、ＬＴＥ（Long Term Evolution）、４Ｇ（4th Generation）、５Ｇ（5th Generation：第５世代移動通信システム）等の無線通信網や、Ｂｌｕｅｔｏｏｔｈ（登録商標）、無線ＬＡＮ（Local Area Network）等の近距離無線通信を介してネットワークＮに接続し、情報提供装置１００と通信することができる。

情報提供装置１００は、例えばＰＣやサーバ装置、あるいはメインフレーム又はワークステーション等である。なお、情報提供装置１００は、クラウドコンピューティングにより実現されてもよい。

〔３．端末装置の構成例〕
次に、図５を用いて、端末装置１０の構成について説明する。図５は、端末装置１０の構成例を示す図である。図５に示すように、端末装置１０は、通信部１１と、表示部１２と、入力部１３と、測位部１４と、撮像部１５と、センサ部２０と、制御部３０（コントローラ）と、記憶部４０とを備える。

（通信部１１）
通信部１１は、ネットワークＮ（図４参照）と有線又は無線で接続され、ネットワークＮを介して、情報提供装置１００との間で情報の送受信を行う。例えば、通信部１１は、ＮＩＣ（Network Interface Card）やアンテナ等によって実現される。

（表示部１２）
表示部１２は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部１２は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）や有機ＥＬディスプレイ（Organic Electro-Luminescent Display）である。また、表示部１２は、タッチパネル式のディスプレイであるが、これに限定されるものではない。

（入力部１３）
入力部１３は、利用者Ｕから各種操作を受け付ける入力デバイスである。例えば、入力部１３は、文字や数字等を入力するためのボタン等を有する。なお、入力部１３は、入出力ポート（I/O port）やＵＳＢ（Universal Serial Bus）ポート等であってもよい。また、表示部１２がタッチパネル式のディスプレイである場合、表示部１２の一部が入力部１３として機能する。また、入力部１３は、利用者Ｕから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。

（測位部１４）
測位部１４は、ＧＰＳ（Global Positioning System）の衛星から送出される信号（電波）を受信し、受信した信号に基づいて、自装置である端末装置１０の現在位置を示す位置情報（例えば、緯度及び経度）を取得する。すなわち、測位部１４は、端末装置１０の位置を測位する。なお、ＧＰＳは、ＧＮＳＳ（Global Navigation Satellite System）の一例に過ぎない。

また、測位部１４は、ＧＰＳ以外にも、種々の手法により位置を測位することができる。例えば、測位部１４は、位置補正等のための補助的な測位手段として、下記のように、端末装置１０の様々な通信機能を利用して位置を測位してもよい。

（撮像部１５）
撮像部１５は、被写体を撮影する画像センサ（カメラ）である。例えば、撮像部１５は、ＣＭＯＳイメージセンサやＣＣＤイメージセンサ等である。なお、撮像部１５は、内蔵カメラに限らず、端末装置１０と通信可能なワイヤレスカメラや、Ｗｅｂカメラ等の外付けカメラであってもよい。

（Ｗｉ－Ｆｉ測位）
例えば、測位部１４は、端末装置１０のＷｉ－Ｆｉ（登録商標）通信機能や、各通信会社が備える通信網を利用して、端末装置１０の位置を測位する。具体的には、測位部１４は、Ｗｉ－Ｆｉ通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置１０の位置を測位する。

（ビーコン測位）
また、測位部１４は、端末装置１０のＢｌｕｅｔｏｏｔｈ（登録商標）機能を利用して位置を測位してもよい。例えば、測位部１４は、Ｂｌｕｅｔｏｏｔｈ（登録商標）機能によって接続されるビーコン（beacon）発信機と接続することにより、端末装置１０の位置を測位する。

（地磁気測位）
また、測位部１４は、予め測定された構造物の地磁気のパターンと、端末装置１０が備える地磁気センサとに基づいて、端末装置１０の位置を測位する。

（ＲＦＩＤ測位）
また、例えば、端末装置１０が駅改札や店舗等で使用される非接触型ＩＣカードと同等のＲＦＩＤ（Radio Frequency Identification）タグの機能を備えている場合、もしくはＲＦＩＤタグを読み取る機能を備えている場合、端末装置１０によって決済等が行われた情報とともに、使用された位置が記録される。測位部１４は、かかる情報を取得することで、端末装置１０の位置を測位してもよい。また、位置は、端末装置１０が備える光学式センサや、赤外線センサ等によって測位されてもよい。

測位部１４は、必要に応じて、上述した測位手段の一つ又は組合せを用いて、端末装置１０の位置を測位してもよい。

（センサ部２０）
センサ部２０は、端末装置１０に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置１０以外の検知装置であってもよい。図５に示す例では、センサ部２０は、加速度センサ２１と、ジャイロセンサ２２と、気圧センサ２３と、気温センサ２４と、音センサ２５と、光センサ２６と、磁気センサ２７とを備える。

なお、上記した各センサ２１～２７は、あくまでも例示であって限定されるものではない。すなわち、センサ部２０は、各センサ２１～２７のうちの一部を備える構成であってもよいし、各センサ２１～２７に加えてあるいは代えて、湿度センサ等その他のセンサを備えてもよい。また、撮像部１５も、画像センサの一種である。

加速度センサ２１は、例えば、３軸加速度センサであり、端末装置１０の移動方向、速度、及び、加速度等の端末装置１０の物理的な動きを検知する。ジャイロセンサ２２は、端末装置１０の角速度等に基づいて３軸方向の傾き等の端末装置１０の物理的な動きを検知する。気圧センサ２３は、例えば端末装置１０の周囲の気圧を検知する。

端末装置１０は、上記した加速度センサ２１やジャイロセンサ２２、気圧センサ２３等を備えることから、これらの各センサ２１～２３等を利用した歩行者自律航法（ＰＤＲ：Pedestrian Dead-Reckoning）等の技術を用いて端末装置１０の位置を測位することが可能になる。これにより、ＧＰＳ等の測位システムでは取得することが困難な屋内での位置情報を取得することが可能になる。

例えば、加速度センサ２１を利用した歩数計により、歩数や歩くスピード、歩いた距離を算出することができる。また、ジャイロセンサ２２を利用して、利用者Ｕの進行方向や視線の方向、体の傾きを知ることができる。また、気圧センサ２３で検知した気圧から、利用者Ｕの端末装置１０が存在する高度やフロアの階数を知ることもできる。

気温センサ２４は、例えば端末装置１０の周囲の気温を検知する。音センサ２５は、例えば端末装置１０の周囲の音を検知する。光センサ２６は、端末装置１０の周囲の照度を検知する。磁気センサ２７は、例えば端末装置１０の周囲の地磁気を検知する。撮像部１５は、端末装置１０の周囲の画像を撮像する。

上記した気圧センサ２３、気温センサ２４、音センサ２５、光センサ２６及び撮像部１５は、それぞれ気圧、気温、音、照度を検知したり、周囲の画像を撮像したりすることで、端末装置１０の周囲の環境や状況等を検知することができる。また、端末装置１０の周囲の環境や状況等から、端末装置１０の位置情報の精度を向上させることが可能になる。

（制御部３０）
制御部３０は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路等のハードウェアで構成されてもよい。制御部３０は、送信部３１と、受信部３２と、処理部３３と、ガイド表示部３４と、ガイド変更部３５と、撮影判定部３６と、認識部３７と、通知部３８とを備える。なお、実際には、処理部３３が、ガイド表示部３４と、ガイド変更部３５と、撮影判定部３６と、認識部３７と、通知部３８とを備えていてもよい。

（送信部３１）
送信部３１は、例えば入力部１３を用いて利用者Ｕにより入力された各種情報や、端末装置１０に搭載又は接続された各センサ２１～２７によって検知された各種情報、測位部１４によって測位された端末装置１０の位置情報等を、通信部１１を介して情報提供装置１００へ送信することができる。

（受信部３２）
受信部３２は、通信部１１を介して、情報提供装置１００から提供される各種情報や、情報提供装置１００からの各種情報の要求を受信することができる。

（処理部３３）
処理部３３は、表示部１２等を含め、端末装置１０全体を制御する。例えば、処理部３３は、送信部３１によって送信される各種情報や、受信部３２によって受信された情報提供装置１００からの各種情報を表示部１２へ出力して表示させることができる。

（ガイド表示部３４）
ガイド表示部３４は、多視点画像を撮影する際に、所定の撮影ガイドを画面に表示する。例えば、ガイド表示部３４は、撮影ガイドとして被写体のうち被撮影者（撮影モデル）のポーズ、表情、持ち方のうち少なくとも１つに関するガイドを画面に表示する。また、ガイド表示部３４は、撮影ガイドとして被写体のシルエット、輪郭、又は半透明の表示を画面に表示する。

また、ガイド表示部３４は、被写体を撮影する際に、被写体に撮影ガイドを重畳表示する。また、ガイド表示部３４は、最初に撮影された画像で被写体のうち被撮影者のポーズを特定し、特定されたポーズに応じた撮影ガイドを選択して表示する。

（ガイド変更部３５）
ガイド変更部３５は、撮影時の視点を移動する度に、画面に表示された撮影ガイドを視点に応じて変更する。また、ガイド変更部３５は、撮影時の視点を移動するにつれて、撮影ガイドを段階的に変更してもよい。

（撮影判定部３６）
撮影判定部３６は、被写体が前記撮影ガイドに一致した場合、撮像部１５を用いて、自動的に撮影する。また、撮影判定部３６は、多視点画像の撮影が完了した場合、送信部３１を用いて、多視点画像を情報提供装置１００に投稿する。このとき、撮影判定部３６は、撮影された画像から多視点画像を生成してもよい。

（認識部３７）
認識部３７は、多視点画像を構成する画像の撮影時に、画像に含まれる撮影対象を認識する。例えば、認識部３７は、画像認識又は機械学習で、画像に含まれる撮影対象を認識する。また、認識部３７は、撮影の度に、画像に含まれる撮影対象を認識する。また、認識部３７は、撮影の度に、画像に含まれる複数の撮影対象の各々を認識する。また、認識部３７は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を認識する。

（通知部３８）
通知部３８は、被写体が撮影ガイドとずれている場合、被写体が撮影ガイドとずれている箇所を撮影者に通知する。なお、被写体は、撮影者自身であってもよい。すなわち、撮影者と被撮影者は同一人物であってもよい。

また、通知部３８は、認識部３７により認識された撮影対象を利用者に通知する。例えば、通知部３８は、撮影の度に、認識された撮影対象を利用者に通知する。また、通知部３８は、撮影の度に、認識された複数の撮影対象の各々を利用者に通知する。また、通知部３８は、撮影の度に、認識された撮影対象の画像の撮影枚数を利用者に通知する。また、通知部３８は、撮影の度に、多視点画像を構成する画像の必要数までの残り枚数を利用者に通知する。また、通知部３８は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を利用者に通知する。

このとき、通知部３８は、特定された撮影対象を利用者に音声で通知してもよい。また、通知部３８は、特定された撮影対象を利用者に画面表示で通知してもよい。

（記憶部４０）
記憶部４０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置によって実現される。かかる記憶部４０には、各種プログラムや各種データ等が記憶される。

〔４．情報提供装置の構成例〕
次に、図６を用いて、実施形態に係る情報提供装置１００の構成について説明する。図６は、実施形態に係る情報提供装置１００の構成例を示す図である。図６に示すように、情報提供装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。また、通信部１１０は、ネットワークＮ（図４参照）と有線又は無線で接続される。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ＨＤＤ、ＳＳＤ、光ディスク等の記憶装置によって実現される。図６に示すように、記憶部１２０は、利用者情報データベース１２１と、履歴情報データベース１２２と、画像情報データベース１２３とを有する。

（利用者情報データベース１２１）
利用者情報データベース１２１は、利用者Ｕに関する利用者情報を記憶する。例えば、利用者情報データベース１２１は、利用者Ｕの属性等の種々の情報を記憶する。図７は、利用者情報データベース１２１の一例を示す図である。図７に示した例では、利用者情報データベース１２１は、「利用者ＩＤ（Identifier）」、「年齢」、「性別」、「自宅」、「勤務地」、「興味」といった項目を有する。

「利用者ＩＤ」は、利用者Ｕを識別するための識別情報を示す。なお、「利用者ＩＤ」は、利用者Ｕの連絡先（電話番号、メールアドレス等）であってもよいし、利用者Ｕの端末装置１０を識別するための識別情報であってもよい。

また、「年齢」は、利用者ＩＤにより識別される利用者Ｕの年齢を示す。なお、「年齢」は、利用者Ｕの具体的な年齢（例えば３５歳など）を示す情報であってもよいし、利用者Ｕの年代（例えば３０代など）を示す情報であってもよい。あるいは、「年齢」は、利用者Ｕの生年月日を示す情報であってもよいし、利用者Ｕの世代（例えば８０年代生まれなど）を示す情報であってもよい。また、「性別」は、利用者ＩＤにより識別される利用者Ｕの性別を示す。

また、「自宅」は、利用者ＩＤにより識別される利用者Ｕの自宅の位置情報を示す。なお、図７に示す例では、「自宅」は、「ＬＣ１１」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「自宅」は、地域名や住所であってもよい。

また、「勤務地」は、利用者ＩＤにより識別される利用者Ｕの勤務地（学生の場合は学校）の位置情報を示す。なお、図７に示す例では、「勤務地」は、「ＬＣ１２」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「勤務地」は、地域名や住所であってもよい。

また、「興味」は、利用者ＩＤにより識別される利用者Ｕの興味を示す。すなわち、「興味」は、利用者ＩＤにより識別される利用者Ｕが関心の高い対象を示す。例えば、「興味」は、利用者Ｕが検索エンジンに入力して検索した検索クエリ（キーワード）等であってもよい。なお、図７に示す例では、「興味」は、各利用者Ｕに１つずつ図示するが、複数であってもよい。

例えば、図７に示す例において、利用者ＩＤ「Ｕ１」により識別される利用者Ｕの年齢は、「２０代」であり、性別は、「男性」であることを示す。また、例えば、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、自宅が「ＬＣ１１」であることを示す。また、例えば、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、勤務地が「ＬＣ１２」であることを示す。また、例えば、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、「スポーツ」に興味があることを示す。

ここで、図７に示す例では、「Ｕ１」、「ＬＣ１１」及び「ＬＣ１２」といった抽象的な値を用いて図示するが、「Ｕ１」、「ＬＣ１１」及び「ＬＣ１２」には、具体的な文字列や数値等の情報が記憶されるものとする。以下、他の情報に関する図においても、抽象的な値を図示する場合がある。

なお、利用者情報データベース１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、利用者情報データベース１２１は、利用者Ｕの端末装置１０に関する各種情報を記憶してもよい。また、利用者情報データベース１２１は、利用者Ｕのデモグラフィック（人口統計学的属性）、サイコグラフィック（心理学的属性）、ジオグラフィック（地理学的属性）、ベヘイビオラル（行動学的属性）等の属性に関する情報を記憶してもよい。例えば、利用者情報データベース１２１は、氏名、家族構成、出身地（地元）、職業、職位、収入、資格、居住形態（戸建、マンション等）、車の有無、通学・通勤時間、通学・通勤経路、定期券区間（駅、路線等）、利用頻度の高い駅（自宅・勤務地の最寄駅以外）、習い事（場所、時間帯等）、趣味、興味、ライフスタイル等の情報を記憶してもよい。

（履歴情報データベース１２２）
履歴情報データベース１２２は、利用者Ｕの行動を示す履歴情報（ログデータ）に関する各種情報を記憶する。図８は、履歴情報データベース１２２の一例を示す図である。図８に示した例では、履歴情報データベース１２２は、「利用者ＩＤ」、「位置履歴」、「検索履歴」、「閲覧履歴」、「購入履歴」、「投稿履歴」といった項目を有する。

「利用者ＩＤ」は、利用者Ｕを識別するための識別情報を示す。また、「位置履歴」は、利用者Ｕの位置や移動の履歴である位置履歴を示す。また、「検索履歴」は、利用者Ｕが入力した検索クエリの履歴である検索履歴を示す。また、「閲覧履歴」は、利用者Ｕが閲覧したコンテンツの履歴である閲覧履歴を示す。また、「購入履歴」は、利用者Ｕによる購入の履歴である購入履歴を示す。また、「投稿履歴」は、利用者Ｕによる投稿の履歴である投稿履歴を示す。なお、「投稿履歴」は、利用者Ｕの所有物に関する質問を含んでいてもよい。

例えば、図８に示す例において、利用者ＩＤ「Ｕ１」により識別される利用者Ｕは、「位置履歴＃１」の通りに移動し、「検索履歴＃１」の通りに検索し、「閲覧履歴＃１」の通りにコンテンツを閲覧し、「購入履歴＃１」の通りに所定の店舗等で所定の商品等を購入し、「投稿履歴」の通りに投稿したことを示す。

ここで、図８に示す例では、「Ｕ１」、「位置履歴＃１」、「検索履歴＃１」、「閲覧履歴＃１」、「購入履歴＃１」及び「投稿履歴＃１」といった抽象的な値を用いて図示するが、「Ｕ１」、「位置履歴＃１」、「検索履歴＃１」、「閲覧履歴＃１」、「購入履歴＃１」及び「投稿履歴＃１」には、具体的な文字列や数値等の情報が記憶されるものとする。

なお、履歴情報データベース１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、履歴情報データベース１２２は、利用者Ｕの所定のサービスの利用履歴等を記憶してもよい。また、履歴情報データベース１２２は、利用者Ｕの実店舗の来店履歴又は施設の訪問履歴等を記憶してもよい。また、履歴情報データベース１２２は、利用者Ｕの端末装置１０を用いた決済（電子決済）での決済履歴等を記憶してもよい。

（画像情報データベース１２３）
画像情報データベース１２３は、多視点画像に関する各種情報を記憶する。図９は、画像情報データベース１２３の一例を示す図である。図９に示した例では、画像情報データベース１２３は、「多視点画像」、「画像」、「視点」、「撮影対象」、「位置」、「アノテーション対象」、「タグ」、「顔の位置」といった項目を有する。

「多視点画像」は、多視点画像を識別するための識別情報を示す。なお、実際には、多視点画像のデータの格納場所や所在位置等であってもよい。また、「画像」は、多視点画像を構成する画像を識別するための識別情報を示す。なお、実際には、多視点画像を構成する画像のデータの格納場所や所在位置等であってもよい。

また、「視点」は、多視点画像を構成する画像を撮影した時の視点を示す。すなわち、視点は、多視点画像を構成する画像に組まれる撮影対象の位置（ポジション）や角度（アングル）を示す。

また、「撮影対象」は、多視点画像を構成する画像に含まれる撮影対象を示す。すなわち、被写体として撮影された撮影対象を示す。例えば、撮影対象の分類（カテゴリ）や具体的な商品名、商品コード等を示す。また、撮影対象は、被撮影者（人物）であってもよい。また、撮影対象は、複数であってもよい。すなわち、１つの画像に複数の撮影対象が含まれていてもよい。例えば、被撮影者と、その被撮影者が身につけている２つのファッションアイテムを、それぞれ撮影対象としてもよい。

また、「位置」は、多視点画像内の撮影対象の位置（画像内の位置）を示す。本実施形態では、多視点画像を構成する個々の画像内の撮影対象の３次元的な位置を示す。撮影対象の３次元的な位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。また、３次元的な位置は一例に過ぎない。

また、「アノテーション対象」は、撮影対象（アノテーション対象の候補）のうち、タグ付けの対象（アノテーション対象）を示す。タグ付けの対象は、ユーザにより選択されたものであってもよいし、事前設定や機械学習等により自動的に決定されたものであってもよい。

また、「タグ」は、タグ付けの対象（アノテーション対象）に付与されるタグを示す。例えば、事前に登録されたタグを識別するための識別情報であってもよいし、タグの内容であってもよい。例えば、タグ付けの対象（アノテーション対象）となる商品（ファッションアイテム）の商品ページに関する情報であってもよい。このとき、ファッション通販サイト（例えば「ZOZOTOWN」（登録商標））等の電子商取引サイトの各商品ページから画像認識又は機械学習で当該商品の類似画像を検索し、検索結果に基づいて当該商品の商品ページを自動で特定してもよい。

また、「顔の位置」は多視点画像内の被撮影者の顔の位置（画像内の顔の位置）を示す。本実施形態では、多視点画像を構成する個々の画像内の被撮影者の顔の３次元的な位置を示す。顔の位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。また、顔の輪郭や顔の各部（眉、目、耳、鼻、口、顎等）の位置等であってもよい。

例えば、図９に示す例において、多視点画像「Ａ」を構成する画像「Ａ１」は、「視点＃Ａ１」で撮影され、撮影対象である「バッグ」が画像内の「位置＃Ａ１」にあり、「アノテーション対象」（タグ付けの対象）として選定されており、対象のバッグに関するウェブサイト「サイト＃Ｗ１」へのリンクがタグとして付与され、画像内の被撮影者の顔の位置は「顔位置＃Ａ１」であることを示す。

ここで、図９に示す例では、「Ａ」、「Ａ１」、「視点＃Ａ１」、「位置＃Ａ１」、「サイト＃Ｗ１」及び「顔位置＃Ａ１」といった抽象的な値を用いて図示するが、「Ａ」、「Ａ１」、「視点＃Ａ１」、「位置＃Ａ１」、「サイト＃Ｗ１」及び「顔位置＃Ａ１」には、具体的な文字列や数値等の情報が記憶されるものとする。

なお、画像情報データベース１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、画像情報データベース１２３は、多視点画像の投稿者又は閲覧者を識別するための識別情報を記憶してもよい。また、画像情報データベース１２３は、被写体（撮影対象、被撮影者等）に関する詳細情報を記憶してもよい。また、画像情報データベース１２３は、候補となるタグのリストを記憶してもよい。また、画像情報データベース１２３は、撮影場所や撮影日時に関する情報を記憶してもよい。また、画像情報データベース１２３は、撮影に用いた撮影装置（ユーザの端末装置等）や撮影環境に関する情報を記憶してもよい。

（制御部１３０）
図６に戻り、説明を続ける。制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等によって、情報提供装置１００の内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭ等の記憶領域を作業領域として実行されることにより実現される。図６に示す例では、制御部１３０は、取得部１３１と、特定部１３２と、推定部１３３と、タグ付与部１３４と、タグ変更部１３５と、画像変換部１３６と、提供部１３７とを有する。

（取得部１３１）
取得部１３１は、利用者Ｕにより入力された検索クエリを取得する。例えば、取得部１３１は、利用者Ｕが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部１１０を介して、当該検索クエリを取得する。すなわち、取得部１３１は、通信部１１０を介して、利用者Ｕにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。

また、取得部１３１は、通信部１１０を介して、利用者Ｕに関する利用者情報を取得する。例えば、取得部１３１は、利用者Ｕの端末装置１０から、利用者Ｕを示す識別情報（利用者ＩＤ等）や、利用者Ｕの位置情報、利用者Ｕの属性情報等を取得する。また、取得部１３１は、利用者Ｕのユーザ登録時に、利用者Ｕを示す識別情報や、利用者Ｕの属性情報等を取得してもよい。そして、取得部１３１は、利用者情報を、記憶部１２０の利用者情報データベース１２１に登録する。

また、取得部１３１は、通信部１１０を介して、利用者Ｕの行動を示す各種の履歴情報（ログデータ）を取得する。例えば、取得部１３１は、利用者Ｕの端末装置１０から、あるいは利用者ＩＤ等に基づいて各種サーバ等から、利用者Ｕの行動を示す各種の履歴情報を取得する。そして、取得部１３１は、各種の履歴情報を、記憶部１２０の履歴情報データベース１２２に登録する。

また、取得部１３１は、通信部１１０を介して、投稿者又は閲覧者である利用者Ｕから多視点画像を取得する。例えば、取得部１３１は、投稿者である利用者Ｕの端末装置１０から、投稿者が撮影した多視点画像を取得する。また、取得部１３１は、閲覧者である利用者Ｕが指定した他の投稿者が撮影した多視点画像を取得する。

また、取得部１３１は、通信部１１０を介して、被撮影者とは異なる別人の顔の多視点画像を取得する。例えば、取得部１３１は、別人の顔を複数の視点から撮影した多視点顔画像を取得する。別人の顔は、閲覧者である利用者Ｕの顔であってもよい。本実施形態では、取得部１３１は、通信部１１０を介して、閲覧者の顔の多視点画像を取得する。なお、取得部１３１は、閲覧者の顔の多視点画像を事前に取得してもよいし、閲覧時に取得してもよい。また、閲覧者の顔の多視点画像は、少なくとも閲覧者の顔を含む多視点画像であってもよい。例えば、取得部１３１は、閲覧者である利用者Ｕの顔を複数の視点から撮影した多視点顔画像を取得する。

また、取得部１３１は、通信部１１０を介して、投稿者からタグ付けの対象の選択を受け付ける受付部としても機能する。例えば、取得部１３１（受付部）は、投稿者から、タグ付けの対象の選択と、タグ付けの対象に対応付けるウェブページの指定とを受け付ける。

（特定部１３２）
特定部１３２は、多視点画像に含まれる撮影対象を特定する。そして、特定部１３２は、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。このとき、特定部１３２は、多視点画像の各視点の画像ごとに画像認識又は機械学習で撮影対象を特定して分類する。

例えば、特定部１３２は、投稿者からのタグ付けの対象の選択に応じて、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。あるいは、特定部１３２は、画像認識又は機械学習で、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。

また、特定部１３２は、ネットワーク上の複数のウェブページから画像認識又は機械学習でタグ付けの対象の画像の類似画像を検索し、類似画像を含むウェブページをタグ付けの対象に対応付けるウェブページとして自動で特定する。

また、特定部１３２は、利用者Ｕの閲覧対象となる多視点画像の被撮影者の顔を特定する。例えば、特定部１３２は、利用者Ｕの閲覧対象となる多視点画像の被撮影者の顔と、多視点画像の撮影時の視点とを特定する。このとき、特定部１３２は、同時に閲覧される複数の多視点画像のそれぞれの被撮影者の顔と、複数の多視点画像のそれぞれの撮影時の視点とを特定してもよい。

（推定部１３３）
推定部１３３は、多視点画像内の撮影対象の位置を推定する。すなわち、推定部１３３は、多視点画像内の撮影対象から選択されたタグ付けの対象の位置を推定する。本実施形態では、推定部１３３は、タグ付けの対象の多視点画像内の３次元的な位置を推定する。多視点画像内の３次元的な位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。なお、実際には、特定部１３２が推定部１３３として機能してもよい。このとき、特定部１３２は、タグ付けの対象の多視点画像内の３次元的な位置を特定する。

（タグ付与部１３４）
タグ付与部１３４は、タグ付けの対象の位置に合わせてタグを付与する。例えば、タグ付与部１３４は、タグ付けの対象の３次元的な位置に合わせてタグ付けの対象にタグを付与する。これにより、付与されたタグが画面内に表示される。また、タグ付与部１３４は、タグ付けの対象にタグを付与する際、タグが他の対象及び他のタグと重複しないように付与する。

また、タグ付与部１３４は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されていない状態であれば、タグ付けの対象にタグを付与する。なお、タグ付与部１３４は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されている状態であっても、タグ付けの対象のタグが他の対象のタグよりも表示の優先度が高い場合には、他の対象にはタグを付与せず、タグ付けの対象にタグを付与してもよい。

（タグ変更部１３５）
タグ変更部１３５は、多視点画像の視点の変更に伴い画面内のタグ付けの対象の位置が変更した場合に、タグ付けの対象の位置の変更に合わせてタグの表示位置を変更する。また、タグ変更部１３５は、多視点画像の視点が変更されても、タグ付けの対象とタグとの位置関係が保持されるような位置にタグを配置する。なお、実際には、タグ付与部１３４がタグ変更部１３５として機能してもよい。この場合、タグ付与部１３４は、多視点画像の視点が変更される度に、タグ付けの対象の位置の変更に合わせて、タグ付けの対象にタグを付与する。

（画像変換部１３６）
画像変換部１３６は、多視点画像を構成する画像ごとに、多視点画像の被撮影者の顔を別人の顔に変換する。例えば、画像変換部１３６は、多視点画像を構成する画像ごとに、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換する。このとき、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に置き換えた新たな多視点画像を生成してもよい。

本実施形態では、画像変換部１３６は、多視点画像を構成する画像ごとに、多視点画像の被撮影者の顔を、閲覧者である利用者Ｕの顔に変換する。例えば、画像変換部１３６は、多視点画像を構成する画像ごとに、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Ｕの顔に変換する。このとき、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Ｕの顔に置き換えた新たな多視点画像を生成してもよい。

また、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換する際に、多視点画像の被撮影者の身長を別人の身長に合わせて調整する。このとき、画像変換部１３６は、被撮影者の顔と別人の顔とに基づいて被撮影者の身長を調整してもよい。

本実施形態では、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、閲覧者である利用者Ｕの顔に変換する際に、多視点画像の被撮影者の身長を利用者Ｕの身長に合わせて調整する。このとき、画像変換部１３６は、被撮影者の顔と利用者Ｕの顔とに基づいて被撮影者の身長を調整してもよい。

また、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換するとともに、変換後の画像の別人の顔の表情を変更する。また、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換するとともに、変換後の画像の別人の髪型を変更する。また、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換するとともに、変換後の画像の別人の髪の色（濃淡を含む）を変更する。

本実施形態では、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、閲覧者である利用者Ｕの顔に変換する際に、変換後の利用者Ｕの顔の表情を変更する。また、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Ｕの顔に変換する際に、変換後の利用者Ｕの髪型を変更する。また、画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Ｕの顔に変換する際に、変換後の利用者Ｕの髪の色を変更する。

例えば、画像変換部１３６は、画像加工編集等により、画像内の利用者Ｕの髪型や髪の色（濃淡を含む）、表情等を変更してもよい。あるいは、画像変換部１３６は、利用者Ｕの指示等に応じて、多視点画像に表示されている現在の顔画像（変換後の利用者Ｕの顔画像等）を、髪型や髪の色（濃淡を含む）、表情等が異なる顔画像に変換してもよい。

また、画像変換部１３６は、同時に閲覧される複数の多視点画像のそれぞれの撮影時の視点に合わせて、それぞれの被撮影者の顔を一括して別人の顔に変換する。本実施形態では、画像変換部１３６は、同時に閲覧される複数の多視点画像のそれぞれの撮影時の視点に合わせて、それぞれの被撮影者の顔を一括して閲覧者である利用者Ｕの顔に変換する。

（提供部１３７）
提供部１３７は、別人の顔に変換後の多視点画像を利用者Ｕに提供する。例えば、提供部１３７は、生成された新たな多視点画像を利用者Ｕに提供する。また、提供部１３７は、別人の顔に変換後の複数の多視点画像のそれぞれを利用者Ｕに提供する。

本実施形態では、提供部１３７は、閲覧者である利用者Ｕの顔に変換後の多視点画像を利用者Ｕに提供する。例えば、提供部１３７は、生成された新たな多視点画像を利用者Ｕに提供する。また、提供部１３７は、利用者Ｕの顔に変換後の複数の多視点画像のそれぞれを利用者Ｕに提供する。

〔５．処理手順〕
次に、図１０を用いて実施形態に係る端末装置１０及び情報提供装置１００による処理手順について説明する。図１０は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、端末装置１０の制御部３０及び情報提供装置１００の制御部１３０によって繰り返し実行される。また、端末装置１０と情報提供装置１００とは連携する。

図１０に示すように、端末装置１０のガイド表示部３４は、多視点画像を撮影する際に、所定の撮影ガイドを画面に表示する（ステップＳ１０１）。

続いて、端末装置１０の撮影判定部３６は、被写体が前記撮影ガイドに一致した場合、撮像部１５により、自動的に撮影する（ステップＳ１０２）。このとき、端末装置１０の通知部３８は、被写体が撮影ガイドとずれている場合、被写体が撮影ガイドとずれている箇所を撮影者に通知する。このとき、通知部３８は、特定された撮影対象を利用者に音声で通知してもよいし、特定された撮影対象を利用者に画面表示で通知してもよい。

続いて、端末装置１０の認識部３７は、撮影された画像に含まれる撮影対象を認識する。端末装置１０の通知部３８は、認識部３７により認識された撮影対象を利用者に通知する（ステップＳ１０３）。例えば、通知部３８は、撮影の度に、認識された撮影対象の画像の撮影枚数や、多視点画像を構成する画像の必要数までの残り枚数、他の撮影対象に隠れて見えなくなった撮影対象等を利用者に通知する。

続いて、端末装置１０のガイド変更部３５は、撮影時の視点を移動する度に、画面に表示された撮影ガイドを視点に応じて変更する（ステップＳ１０４）。このとき、ガイド変更部３５は、撮影時の視点を移動するにつれて、撮影ガイドを段階的に変更してもよい。

続いて、端末装置１０の撮影判定部３６は、多視点画像の撮影が完了した場合、送信部３１を用いて、多視点画像を情報提供装置１００に投稿する（ステップＳ１０５）。このとき、撮影判定部３６は、撮影された画像から多視点画像を生成してもよい。また、撮影判定部３６は、投稿前に撮影者に投稿してもよいか確認するようにしてもよい。

続いて、情報提供装置１００の推定部１３３は、多視点画像内の撮影対象の位置を推定する（ステップＳ１０６）。例えば、情報提供装置１００の取得部１３１は、通信部１１０を介して、端末装置１０から多視点画像を取得する。情報提供装置１００の特定部１３２は、多視点画像内の撮影対象を特定する。そして、情報提供装置１００の推定部１３３は、多視点画像内の撮影対象の３次元的な位置を推定する。

続いて、情報提供装置１００の特定部１３２は、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する（ステップＳ１０７）。例えば、特定部１３２は、投稿者からのタグ付けの対象の選択に応じて、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。あるいは、特定部１３２は、画像認識又は機械学習で、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。

続いて、情報提供装置１００のタグ付与部１３４は、タグ付けの対象にタグを付与する（ステップＳ１０８）。このとき、情報提供装置１００の推定部１３３は、多視点画像内のタグ付けの対象の位置を推定する。タグ付与部１３４は、タグ付けの対象の位置に合わせてタグを付与する。なお、タグを付与する位置については、多視点画像を投稿した投稿者があらかじめ指定していてもよい。

このとき、タグ付与部１３４は、タグ付けの対象にタグを付与する際、タグが他の対象及び他のタグと重複しないように付与する。また、タグ付与部１３４は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されていない状態であれば、タグ付けの対象にタグを付与する。なお、タグ付与部１３４は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されている状態であっても、タグ付けの対象のタグが他の対象のタグよりも表示の優先度が高い場合には、他の対象にはタグを付与せず、タグ付けの対象にタグを付与してもよい。

続いて、情報提供装置１００のタグ変更部１３５は、多視点画像の各視点の画像に合わせて、タグ付けの対象に付与されたタグの表示位置を変更する（ステップＳ１０９）。
例えば、タグ変更部１３５は、多視点画像の視点の変更に伴い画面内のタグ付けの対象の位置が変更した場合に、タグ付けの対象の位置の変更に合わせてタグの表示位置を変更する。

続いて、情報提供装置１００の画像変換部１３６は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、閲覧者の顔に変換する（ステップＳ１１０）。このとき、情報提供装置１００の取得部１３１は、通信部１１０を介して、閲覧者の顔の多視点画像を取得する。なお、取得部１３１は、閲覧者の顔の多視点画像を事前に取得してもよいし、閲覧時に取得してもよい。また、情報提供装置１００の提供部１３７は、通信部１１０を介して、閲覧者の顔に変換後の多視点画像を閲覧者に提供する。

〔６．変形例〕
上述した端末装置１０及び情報提供装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。

上記の実施形態において、情報提供装置１００が実行している処理の一部又は全部は、実際には、端末装置１０が実行してもよい。例えば、スタンドアローン（Stand-alone）で（端末装置１０単体で）処理が完結してもよい。この場合、端末装置１０に、上記の実施形態における情報提供装置１００の機能が備わっているものとする。また、上記の実施形態では、端末装置１０は情報提供装置１００と連携しているため、利用者Ｕから見れば、情報提供装置１００の処理も端末装置１０が実行しているように見える。すなわち、他の観点では、端末装置１０は、情報提供装置１００を備えているともいえる。

また、上記の実施形態において、撮影対象（アノテーション対象の候補）及びタグ付けの対象（アノテーション対象）としてファッションアイテムを例に説明しているが、実際にはファッションアイテムに限定されない。撮影対象及びタグ付けの対象（アノテーション対象）は、多視点画像の撮影時に、ユーザとともに撮影される物品であってもよい。例えば、撮影時にユーザが着用しているウェアラブルデバイスや手に持っている端末装置等であってもよいし、撮影時にユーザの周囲に配置されている家電製品（家電機器・電化製品）、背景として一緒に撮影された室内のインテリア、本棚の書籍、キッチンやテーブルの料理や食器、アート作品等であってもよい。

また、上記の実施形態において、多視点画像の撮影時に、ユーザではなく、特定の物品のみを撮影してもよい。例えば、多視点画像内のタグ付けの対象（アノテーション対象）にアノテーション（注釈）のタグを付与する際、多視点画像にユーザが含まれていなくてもよい。

〔７．効果〕
上述してきたように、本願に係る情報処理装置（端末装置１０及び情報提供装置１００）は、多視点画像を構成する画像の撮影時に、画像に含まれる撮影対象を認識する認識部３７と、認識された撮影対象を利用者Ｕに通知する通知部３８と、を備える。

認識部３７は、撮影の度に、画像に含まれる撮影対象を認識する。通知部３８は、撮影の度に、認識された撮影対象を利用者Ｕに通知する。

認識部３７は、撮影の度に、画像に含まれる複数の撮影対象の各々を認識する。通知部３８は、撮影の度に、認識された複数の撮影対象の各々を利用者Ｕに通知する。

通知部３８は、撮影の度に、認識された撮影対象の画像の撮影枚数を利用者Ｕに通知する。

通知部３８は、撮影の度に、多視点画像を構成する画像の必要数までの残り枚数を利用者Ｕに通知する。

認識部３７は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を認識する。通知部３８は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を利用者Ｕに通知する。

通知部３８は、認識された撮影対象を利用者Ｕに音声で通知する。

通知部３８は、認識された撮影対象を利用者Ｕに画面表示で通知する。

上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、多視点画像を用いたサービス提供の質をより向上させることができる。

〔８．ハードウェア構成〕
また、上述した実施形態に係る端末装置１０や情報提供装置１００は、例えば図１１に示すような構成のコンピュータ１０００によって実現される。以下、情報提供装置１００を例に挙げて説明する。図１１は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力Ｉ／Ｆ（Interface）１０６０、入力Ｉ／Ｆ１０７０、ネットワークＩ／Ｆ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置１０３０は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等により実現される。

一次記憶装置１０４０は、ＲＡＭ（Random Access Memory）等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等により実現される。二次記憶装置１０５０は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置１０５０は、ＵＳＢ（Universal Serial Bus）メモリやＳＤ（Secure Digital）メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置１０５０は、クラウドストレージ（オンラインストレージ）やＮＡＳ（Network Attached Storage）、ファイルサーバ等であってもよい。

出力Ｉ／Ｆ１０６０は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインターフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力Ｉ／Ｆ１０７０は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置１０２０から情報を受信するためのインターフェースであり、例えば、ＵＳＢ等により実現される。

また、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０はそれぞれ出力装置１０１０及び入力装置１０２０と無線で接続してもよい。すなわち、出力装置１０１０及び入力装置１０２０は、ワイヤレス機器であってもよい。

また、出力装置１０１０及び入力装置１０２０は、タッチパネルのように一体化していてもよい。この場合、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０も、入出力Ｉ／Ｆとして一体化していてもよい。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。

ネットワークＩ／Ｆ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力Ｉ／Ｆ１０６０や入力Ｉ／Ｆ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器から取得したプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。

〔９．その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

例えば、上述した情報提供装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
１０端末装置
３４ガイド表示部
３５ガイド変更部
３６撮影判定部
３７認識部
３８通知部
１００情報提供装置
１１０通信部
１２０記憶部
１２１利用者情報データベース
１２２履歴情報データベース
１２３画像情報データベース
１３０制御部
１３１取得部
１３２特定部
１３３推定部
１３４タグ付与部
１３５タグ変更部
１３６画像変換部
１３７提供部

Claims

多視点画像を構成する画像の撮影時に、前記画像に含まれる撮影対象を認識する認識部と、
認識された前記撮影対象を利用者に通知する通知部と、
を備え、
前記通知部は、多視点画像を構成する画像の撮影が完了した又は完了していないカメラの位置や角度を利用者に通知する
ことを特徴とする情報処理装置。
前記認識部は、撮影の度に、前記画像に含まれる前記撮影対象を認識し、
前記通知部は、撮影の度に、認識された前記撮影対象を利用者に通知する
ことを特徴とする請求項１に記載の情報処理装置。
前記認識部は、撮影の度に、前記画像に含まれる複数の撮影対象の各々を認識し、
前記通知部は、撮影の度に、認識された複数の撮影対象の各々を利用者に通知する
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記通知部は、撮影の度に、認識された前記撮影対象の画像の撮影枚数を利用者に通知する
ことを特徴とする請求項１～３のうちいずれか１つに記載の情報処理装置。
前記通知部は、撮影の度に、前記多視点画像を構成する画像の必要数までの残り枚数を利用者に通知する
ことを特徴とする請求項１～４のうちいずれか１つに記載の情報処理装置。
前記認識部は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を認識し、
前記通知部は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を利用者に通知する
ことを特徴とする請求項１～５のうちいずれか１つに記載の情報処理装置。
前記通知部は、認識された前記撮影対象を利用者に音声で通知する
ことを特徴とする請求項１～６のうちいずれか１つに記載の情報処理装置。
前記通知部は、認識された前記撮影対象を利用者に画面表示で通知する
ことを特徴とする請求項１～７のうちいずれか１つに記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
多視点画像を構成する画像の撮影時に、前記画像に含まれる撮影対象を認識する認識工程と、
認識された前記撮影対象を利用者に通知する通知工程と、
を含み、
前記通知工程では、多視点画像を構成する画像の撮影が完了した又は完了していないカメラの位置や角度を利用者に通知する
ことを特徴とする情報処理方法。
多視点画像を構成する画像の撮影時に、前記画像に含まれる撮影対象を認識する認識手順と、
認識された前記撮影対象を利用者に通知する通知手順と、
をコンピュータに実行させるための情報処理プログラムであって、
前記通知手順では、多視点画像を構成する画像の撮影が完了した又は完了していないカメラの位置や角度を利用者に通知する
ことを特徴とする情報処理プログラム。