以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と記載する)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報処理方法の概要〕
まず、図1を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。図1は、実施形態に係る情報処理方法の概要を示す説明図である。なお、図1では、多視点画像を用いたサービス提供を行う場合を例に挙げて説明する。
図1に示すように、情報処理システム1は、端末装置10と情報提供装置100とを含む。端末装置10と情報提供装置100とは、ネットワークN(図4参照)を介して有線又は無線で互いに通信可能に接続される。本実施形態では、端末装置10は、情報提供装置100と連携する。
端末装置10は、利用者U(ユーザ)により使用されるスマートフォンやタブレット等のスマートデバイスであり、4G(Generation)やLTE(Long Term Evolution)等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。また、端末装置10は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、利用者Uから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作としてもよい。また、端末装置10は、スマートデバイスのみならず、デスクトップPC(Personal Computer)やノートPC等の情報処理装置であってもよい。
情報提供装置100は、各利用者Uの端末装置10と連携し、各利用者Uの端末装置10に対して、各種アプリケーション(以下、アプリ)等に対するAPI(Application Programming Interface)サービス等と、各種データを提供する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。
また、情報提供装置100は、各利用者Uの端末装置10に対して、オンラインで何らかのWebサービスを提供する情報処理装置であってもよい。例えば、情報提供装置100は、Webサービスとして、インターネット接続、検索サービス、SNS(Social Networking Service)、電子商取引(EC:Electronic Commerce)、ファッションコーディネート(ファッションアイテムを着用した写真(静止画)や動画)が投稿される投稿サイト、電子決済、オンラインゲーム、オンラインバンキング、オンライントレーディング、宿泊・チケット予約、動画・音楽配信、ニュース、地図、ルート検索、経路案内、路線情報、運行情報、天気予報等のサービスを提供してもよい。実際には、情報提供装置100は、上記のようなWebサービスを提供する各種サーバと連携し、Webサービスを仲介してもよいし、Webサービスの処理を担当してもよい。
なお、情報提供装置100は、利用者Uに関する利用者情報を取得可能である。例えば、情報提供装置100は、利用者Uの性別、年代、居住地域といった利用者Uの属性に関する情報を取得する。そして、情報提供装置100は、利用者Uを示す識別情報(利用者ID等)とともに利用者Uの属性に関する情報を記憶して管理する。
また、情報提供装置100は、利用者Uの端末装置10から、あるいは利用者ID等に基づいて各種サーバ等から、利用者Uの行動を示す各種の履歴情報(ログデータ)を取得する。例えば、情報提供装置100は、利用者Uの位置や日時の履歴である位置履歴を端末装置10から取得する。また、情報提供装置100は、利用者Uが入力した検索クエリの履歴である検索履歴を検索サーバ(検索エンジン)や電子商取引サーバや投稿サーバから取得する。また、情報提供装置100は、利用者Uが閲覧したコンテンツや商品(ファッションアイテム)の履歴である閲覧履歴をコンテンツサーバや電子商取引サーバや投稿サーバから取得する。また、情報提供装置100は、利用者Uが購入や決済したコンテンツや商品(ファッションアイテム)の履歴である購入履歴(決済履歴)を電子商取引サーバや決済処理サーバから取得する。また、情報提供装置100は、利用者Uのマーケットプレイスへの出品の履歴である出品履歴や販売履歴を電子商取引サーバや決済処理サーバから取得してもよい。また、情報提供装置100は、利用者Uが投稿したファッションコーディネート(ファッションアイテム)の履歴である投稿履歴や閲覧者が支持(いいね)したファッションコーディネート(ファッションアイテム)の履歴である支持履歴を投稿サーバやSNSサーバから取得する。
本実施形態では、情報提供装置100は、ユーザのファッションの嗜好に関するファッション情報に基づき、ファッションアイテム(服、装飾品、鞄、靴、帽子等)とその付加情報との組合せを画像解析とAI(Artificial Intelligence:人工知能)によって決定し、適切な位置に表示する。ここでは、情報提供装置100は、画像解析により画像に含まれるファッションアイテムを特定し、そのファッションアイテムに対応するアノテーションタグ(以下、タグ)を付与する。なお、タグを付与するとは、タグ付けの対象の近傍の適当な位置にタグを表示することを示す。例えば、情報提供装置100は、投稿サイトやSNSに投稿するための写真や動画としてユーザがファッションアイテムを着用して自身を撮影した画像、あるいはそのように撮影・投稿された他のユーザの画像において、ファッションアイテムに対応するタグを付与する。
例えば、情報提供装置100は、そのファッションアイテムの詳細情報を表示したタグを付与する。また、情報提供装置100は、そのファッションアイテムの商品ページ(販売ページ/購入ページ/広告ページ等)、又はそのファッションアイテムに関連する他のファッションアイテム(一緒に購入されることが多い商品、同一ブランドの商品等)の商品ページへ案内するタグを付与してもよい。
また、情報提供装置100は、ファッションアイテムに合わせて、特徴的なタグを付与してもよい。例えば、情報提供装置100は、ファッションアイテムとの色相環的な相性度が高いタグを付与する。あるいは、投稿サイトやSNSでの閲覧者による支持率(いいね率)が高くなると推定されるタグを付与する。あるいは、閲覧者によるファッションアイテムの購入率が高くなると推定されるタグを付与する。これにより、閲覧者によるファッションアイテムの購入を促進することができる。
ユーザのファッションの嗜好に関するファッション情報は、各利用者Uの属性情報や履歴情報等から取得可能である。また、ファッション情報は、利用者Uが着用するファッションアイテムや利用者Uが閲覧したファッションアイテムに関する情報(ファッションアイテム情報)を含む。本実施形態では、ファッション情報は、ファッション通販サイト(例えば「ZOZOTOWN」(登録商標))等の電子商取引サイトやファッションコーディネート投稿サイト(例えば「WEAR」(登録商標))での行動情報(検索、選択、閲覧、購入、投稿)を含む。また、ファッション情報は、利用者Uが検索、閲覧、購入、所有、投稿等をしたファッションアイテムに関する情報(ファッションアイテム情報)を含む。
ユーザのファッションの嗜好は、本システムとアカウントを連結している(又は本システムの一部である)ファッション通販サイト等の電子商取引サイトやファッションコーディネート投稿サイト等の様々な履歴情報(ログデータ)を基に算出/推定するロジックにより決定される。例えば、情報提供装置100は、ユーザがファッション通販サイトで購入した服(ユーザ情報とマッチする服を着ている服と定義)や閲覧した服から、「服とタグとの組合せ」を算出/推定し、服との組合せに最適なタグを付与する。また、情報提供装置100は、ユーザがファッションコーディネート投稿サイトで閲覧した服から、「服とタグとの組合せ」を算出/推定し、服との組合せに最適なタグを付与する。
また、情報提供装置100は、ファッション情報に加えて、ユーザの生活行動・習慣や気分等の情報に基づき、タグを付与してもよい。すなわち、情報提供装置100は、同じファッションアイテムであっても、閲覧するユーザごとにタグの内容や形態を変更してもよい。
本実施形態では、情報提供装置100は、ファッションコーディネート投稿サイト(例えば「WEAR」(登録商標))のようなファッション写真(画像)を撮影して投稿するサービスにおいて、ファッションアイテム(服、装飾品、鞄、靴、帽子等)にタグ付けする。例えば、タグ付けとして、ファッション通販サイト(例えば「ZOZOTOWN」(登録商標))等の電子商取引サイトの商品ページとの関係性を設定する。タグは写真に重畳して表示される。タグをクリックすると、ファッション通販サイト(例えば「ZOZOTOWN」(登録商標))等の電子商取引サイトでその商品(ファッションアイテム)を販売する商品ページに遷移する。
また、情報提供装置100は、ファッションコーディネート投稿サイト(例えば「WEAR」(登録商標))において、多視点画像で表示する。例えば、情報提供装置100は、ファッションコーディネート投稿サイト(例えば「WEAR」(登録商標))において、クリック又はスクロールして写真(画像)が表示されると、自動的に/経時的に/ユーザの操作に応じて、視点が異なる画像に切り替わるようにする。
〔1-1.アノテーションタグ〕
本実施形態では、情報提供装置100は、多視点画像内の撮影対象にアノテーション(注釈)のタグを付与するときに、多視点画像の各視点の画像から同一注視点(タグ付けの対象)を検出して、その同一注視点の近傍にタグを設定して表示する。
図1に示すように、情報提供装置100は、ネットワークN(図4参照)を介して、投稿者である利用者Uの端末装置10から、多視点画像を取得する(ステップS1)。例えば、情報提供装置100は、ネットワークN(図4参照)を介して、投稿者である利用者Uの端末装置10から、多視点画像の作成に用いられる様々な視点から撮影された各画像を取得する。図1では、画像内において、被撮影者(撮影モデル)をM、撮影対象のバッグをB、タグをTとして示す。
次に、情報提供装置100は、取得された全ての画像について画像認識(Image Recognition)又は機械学習を行い、撮影対象を認識して特定・分類する(ステップS2)。例えば、情報提供装置100は、各画像に含まれる撮影対象を特定して、カテゴリ別に分類する。撮影対象は、複数であってもよい。
次に、情報提供装置100は、多視点画像内の撮影対象の位置(画像内の位置)を推定する(ステップS3)。本実施形態では、情報提供装置100は、多視点画像を構成する画像ごとに(各視点の画像ごとに)、各画像に含まれる撮影対象の3次元的な位置を推定(又は特定)する。撮影対象の3次元的な位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。また、3次元的な位置は一例に過ぎない。
次に、情報提供装置100は、投稿者又は閲覧者である利用者Uから、多視点画像内の3次元的な位置が推定された撮影対象(アノテーション対象の候補)のうち、タグ付けの対象(アノテーション対象)の選択を受け付ける(ステップS4)。例えば、情報提供装置100は、投稿者又は閲覧者である利用者Uの端末装置10から、ネットワークN(図4参照)を介して、タグ付けの対象(アノテーション対象)となる商品(ファッションアイテム)と、対応付ける当該商品の商品ページの指定を受け付ける。このとき、情報提供装置100は、ファッション通販サイト(例えば「ZOZOTOWN」(登録商標))等の電子商取引サイトの各商品ページから画像認識又は機械学習で当該商品の類似画像を検索し、検索結果に基づいて当該商品の商品ページを自動で特定してもよい。
なお、情報提供装置100は、投稿者又は閲覧者である利用者Uからタグ付けの対象(アノテーション対象)の選択を受け付けていない場合、多視点画像内の全ての撮影対象をタグ付けの対象(アノテーション対象)としてもよい。また、情報提供装置100は、投稿者又は閲覧者である利用者Uからのタグ付けの対象(アノテーション対象)の選択に関係なく、無条件で多視点画像内の全ての撮影対象をタグ付けの対象(アノテーション対象)としてもよい。また、情報提供装置100は、事前設定に従って、撮影対象(アノテーション対象の候補)のうち、タグ付けの対象(アノテーション対象)を決定してもよい。
また、情報提供装置100は、学習モデルを用いて、多視点画像内の3次元的な位置が推定された撮影対象のうち、タグ付けの対象(アノテーション対象)を推定してもよい。例えば、情報提供装置100は、過去にタグ付けの対象として選択された撮影対象と、そのタグ付けの対象に付与されたタグとの組合せについて学習することで学習モデルを構築してもよい。そして、情報提供装置100は、学習モデルに撮影対象を入力すると、その撮影対象がタグ付けの対象である場合に適当なタグを推論して出力してもよい。
次に、情報提供装置100は、ネットワークN(図4参照)を介して、閲覧者である利用者Uの端末装置10に、多視点画像内の撮影対象のうち、選択されたタグ付けの対象(アノテーション対象)にアノテーションのタグを付けて表示する(ステップS5)。
次に、情報提供装置100は、ネットワークN(図4参照)を介して、多視点画像の視点の変更に合わせて、閲覧者である利用者Uの端末装置10に表示されたアノテーションのタグの位置を変更する(ステップS6)。例えば、情報提供装置100は、多視点画像の視点が変更された際に、多視点画像内のタグ付けの対象(アノテーション対象)を自動で追従してアノテーションのタグを付与して適当な位置に表示する。このとき、情報提供装置100は、視点の異なる画像ごとに(その都度)、タグ付けの対象(アノテーション対象)にアノテーションのタグを付与して適当な位置に表示してもよい。
このとき、情報提供装置100は、アノテーションのタグが、他の対象や他のタグと重複しないように配置(表示)する。また、情報提供装置100は、アノテーションのタグと、タグ付けの対象(アノテーション対象)との位置関係が保持されるような位置にタグを配置(表示)し続ける。
このように、本実施形態では、情報提供装置100は、投稿者又は閲覧者であるユーザから多視点画像(投稿者により投稿された多視点画像、閲覧者により指定された多視点画像等)を取得し、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定し、タグ付けの対象の多視点画像内の3次元的な位置を推定する。そして、情報提供装置100は、タグ付けの対象の3次元的な位置に合わせてタグ付けの対象にタグを付与する。すなわち、情報提供装置100は、タグ付けの対象とともにタグを端末装置10の画面に表示してユーザに通知(提示)する。
また、情報提供装置100は、多視点画像の各視点の画像ごとに画像認識又は機械学習で撮影対象を特定して分類する。また、情報提供装置100は、投稿者又は閲覧者であるユーザからタグ付けの対象の選択を受け付ける。そして、情報提供装置100は、タグ付けの対象の選択に応じて、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。
例えば、情報提供装置100は、投稿者又は閲覧者であるユーザから、タグ付けの対象の選択と、タグ付けの対象に対応付けるウェブページの指定とを受け付ける。あるいは、情報提供装置100は、ネットワーク上の複数のウェブページから画像認識又は機械学習でタグ付けの対象の画像の類似画像を検索し、類似画像を含むウェブページをタグ付けの対象に対応付けるウェブページとして自動で特定する。
情報提供装置100は、タグ付けの対象にタグを付与する際、タグが他の対象及び他のタグと重複しないように付与する。また、情報提供装置100は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されていない状態であれば、タグ付けの対象にタグを付与する。なお、情報提供装置100は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されている状態であっても、タグ付けの対象のタグが他の対象のタグよりも表示の優先度が高い場合には、他の対象にはタグを付与せず、タグ付けの対象にタグを付与する。
なお、上記の各処理は、情報提供装置100ではなく、端末装置10がアプリ等の機能により実施してもよい。すなわち、端末装置10上で処理が完結してもよい。
〔1-2.タグの表示位置の変更〕
本実施形態では、情報提供装置100は、多視点画像に撮影された撮影対象の位置関係に応じて、撮影対象を示すコンテンツ(アノテーションのタグ)の表示位置(表示態様)を変更する。なお、撮影対象を示すコンテンツ(アノテーションのタグ)は、複数でもよい。
情報提供装置100は、アノテーションのタグと、タグ付けの対象(アノテーション対象)との位置関係に応じて、タグの表示位置を変更する。
情報提供装置100は、アノテーション対象が撮影モデル/ユーザや他の撮影対象の陰に隠れている場合は、当該アノテーション対象に付与されるタグを隠す。
例えば、情報提供装置100は、アノテーション対象の撮像範囲/表示範囲が所定値以下である場合や、アノテーション対象がユーザや他の対象の陰になって隠れている場合には、アノテーションのタグを表示しない。
あるいは、情報提供装置100は、アノテーション対象と他の対象とのタグの前後関係を変更してもよい。情報提供装置100は、複数のタグが存在する場合に、特に指定がない場合(何も設定されていない場合)には、通常は最も画面の手前に配置された対象のタグを表示する。本実施形態では、情報提供装置100は、最も画面の手前に配置された対象よりも優先度が高い対象が陰に隠れている場合、最も画面の手前に配置された対象のタグを表示せず、その優先度が高い対象のタグを表示する。
このとき、情報提供装置100は、各対象に優先度を設定し、設定された優先度の大小関係で表示されるタグを決定してもよい。また、情報提供装置100は、最も画面の手前に配置された対象よりもユーザの興味や関心が高いと推測される対象を、最も画面の手前に配置された対象よりも優先度が高い対象として決定してもよい。
このように、本実施形態では、情報提供装置100は、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定し、タグ付けの対象の位置に合わせてタグを付与する。その後、情報提供装置100は、多視点画像の視点の変更に伴い画面内のタグ付けの対象の位置が変更した場合に、タグ付けの対象の位置の変更に合わせてタグの表示位置を変更する。
また、情報提供装置100は、多視点画像の視点が変更されても、タグ付けの対象とタグとの位置関係が保持されるような位置にタグを配置する。
なお、上記の各処理は、情報提供装置100ではなく、端末装置10がアプリ等の機能により実施してもよい。すなわち、端末装置10上で処理が完結してもよい。
〔1-3.撮影ガイドの表示〕
本実施形態では、情報提供装置100は、ユーザが多視点画像を投稿するために、カメラ(インカメラ等)を有する端末装置10(撮像装置)を用いて自身の画像を撮影(インカメラ撮影)する際に、撮影に用いられるユーザの端末装置10(又はそれに搭載/接続された表示装置)の画面(写真撮影画面)に所定の撮影ガイドを表示し、画像を撮影する度に(視点を移動する度に)、撮影ガイドを変更する。図2は、撮影ガイドの表示の概要を示す説明図である。図2では、画像内において、被撮影者(撮影モデル)をM、撮影対象のバッグをBとして示す。
図2に示すように、情報提供装置100は、ユーザが多視点画像を投稿するために、カメラを有する端末装置10が多視点画像の撮影を開始したことを確認する(ステップS11)。例えば、情報提供装置100は、ネットワークN(図4参照)を介して、ユーザの端末装置10から、多視点画像の撮影開始を示す信号やデータを受信する。
次に、情報提供装置100は、ネットワークN(図4参照)を介して、ユーザの端末装置10と連携する(ステップS12)。例えば、情報提供装置100は、APIを介して、端末装置10の撮影アプリを制御してもよい。すなわち、以降の処理は、情報提供装置100が端末装置10と連携して実施してもよい。
次に、端末装置10は、ユーザが自身の画像を撮影(インカメラ撮影)する際に、端末装置10の画面に撮影ガイドを表示する(ステップS13)。
次に、端末装置10は、ユーザのポーズや所持しているバッグ等が撮影ガイドからずれている場合、撮影ガイドからずれている箇所を通知する(ステップS14)。なお、通知方法は、画面表示でも音声案内でもよい。
次に、端末装置10は、ユーザのポーズや所持しているバッグ等が撮影ガイドと一致している場合、自動的に撮影する(ステップS15)。なお、端末装置10は、ユーザのポーズや所持しているバッグ等が撮影ガイドと完全に一致していなくても、所定の割合以上一致していれば、一致していると判定して自動的に撮影してもよい。また、端末装置10は、ユーザのポーズや所持しているバッグ等が撮影ガイドと一致している場合、自動的に撮影してもよい。このとき、情報提供装置100は、端末装置10に対して、ユーザのポーズや所持しているバッグ等が撮影ガイドと一致している場合には自動的に撮影するようにあらかじめ指示しておいてもよい。
次に、端末装置10は、撮影された画像に含まれる撮影対象(アノテーション対象の候補)を特定して通知する(ステップS16)。詳細については後述する。
次に、端末装置10は、多視点画像の生成のための視点変更に応じて、撮影ガイドを変更する(ステップS17)。すなわち、端末装置10は、変更後の視点に応じた撮影ガイドを表示する。
次に、端末装置10は、多視点画像の生成のために必要な全視点の画像の撮影が完了した後、多視点画像を投稿する(ステップS18)。例えば、端末装置10は、撮影された画像から多視点画像を生成し、ネットワークN(図4参照)を介して、情報提供装置100に多視点画像を自動的に投稿する。あるいは、端末装置10は、ネットワークN(図4参照)を介して、情報提供装置100に、撮影された画像をそのまま投稿してもよい。この場合、情報提供装置100は、投稿された画像を取得した後に、投稿された画像から多視点画像を生成してもよい。
本実施形態では、多視点画像の撮影に用いられるユーザの端末装置10は、端末装置10の画面に、撮影ガイドとして、表情のガイド、姿勢(ポーズ)のガイド、商品の持ち方のガイド、又は着用の仕方のガイド等を表示し、位置(ポジション)や角度(アングル)を変えて画像を撮影する度に、撮影ガイドを変更する。
例えば、端末装置10は、撮影に用いられるユーザの端末装置10の画面に、撮影ガイドとして、ユーザが取るべき表情、姿勢(ポーズ)、商品の持ち方、又は着用の仕方のシルエットや輪郭を表示し、位置(ポジション)や角度(アングル)を変えて画像を撮影する度に、シルエットや輪郭を変更してもよい。この場合、ユーザは、画面に表示された表情、姿勢(ポーズ)、商品の持ち方、又は着用の仕方のシルエットや輪郭に合わせるように、自分の表情、姿勢(ポーズ)、商品の持ち方、又は着用の仕方を変えていく。
また、端末装置10は、撮影ガイドの表示・変更に合わせて、音声での案内(ガイダンス)を行ってもよい。また、端末装置10は、撮影画面上で、表情、姿勢(ポーズ)、商品の持ち方、又は着用の仕方等について、ユーザが変更する必要がある箇所・部位に、変更内容に関するコメントを表示したタグを付与してもよい。
(ポーズガイドの場合)
ここで、撮影ガイドの一例として、ポーズガイドの場合について説明する。カメラを有するユーザの端末装置10は、多視点画像の撮影時に、端末装置10の画面にポーズガイドを表示する。端末装置10は、画像を撮影する度に(視点を移動する度に)、撮影ガイドを変更する。すなわち、ポーズガイドは、撮影する度に次々に変わっていく。
なお、端末装置10のカメラは固定であるため、ユーザが端末装置10を移動/回転させることで、カメラの位置(ポジション)や角度(アングル)を変えることになる。撮影ガイドは、ポーズ、表情、持ち方等に関する内容である。ポーズは、顔の向き、体の向き等を含む。カメラの位置(ポジション)や角度(アングル)に合わせて、ポーズガイドも段々(徐々に)変化していく。すなわち、端末装置10は、カメラの位置(ポジション)や角度(アングル)に合わせて、ポーズガイドを段階的に変更していく。
端末装置10は、画面内においてポーズガイドとユーザのポーズとが一致したと判断すると、自動的に撮影する。このとき、端末装置10は、ユーザのポーズの適切性を判定する。端末装置10は、ユーザのポーズが適切ではないと判定した場合、ユーザのポーズが適切になるように具体的なアドバイスをして、適切なポーズとなるように誘導する。
例えば、端末装置10は、アゴ(顎)を引く、脚を開く/閉じる、体を傾ける、背を反らす、特定方向(前後左右)に○○歩/××cmずれる、バッグやポーチ等をどういう風にもつか等のポーズガイドを表示したり、音声での案内(ガイダンス)を行ったりする。
端末装置10は、インカメラで撮影する際に、ユーザとポーズガイドとを画面に重畳表示する。ポーズガイドは、例えばシルエットや輪郭でもよいし、半透明の表示でもよい。また、音声で「こうしてください」でもよい。端末装置10は、ユーザの現在のポーズとポーズガイドとの差分を特定して「もっと右手を挙げてください」、「もう少し、足を挙げてください」等のように、ポーズと違う部分を特定して表示/案内してもよい。そして、端末装置10は、ユーザのポーズがポーズガイドに一致したと判定した場合に、自動で撮影してもよい。
また、ポーズガイドは、表情のガイドであってもよい。例えば、「一回転したら、笑顔になる」等でもよい。すなわち、撮影の度に、同一の表情でなくてもよい。また、端末装置10は、最初の画像でポーズを特定して、特定したポーズガイドを表示してもよい。
このように、本実施形態では、端末装置10は、多視点画像を撮影する際に、所定の撮影ガイドを画面に表示する。例えば、端末装置10は、撮影ガイドとして被写体のうち被撮影者(撮影モデル)のポーズ、表情、持ち方のうち少なくとも1つに関するガイドを画面に表示する。また、端末装置10は、撮影ガイドとして被写体のシルエット、輪郭、又は半透明の表示を画面に表示する。
また、端末装置10は、被写体を撮影する際に、被写体に撮影ガイドを重畳表示する。また、端末装置10は、最初に撮影された画像で被写体のうち被撮影者のポーズを特定し、特定されたポーズに応じた撮影ガイドを選択して表示する。
また、端末装置10は、撮影時の視点を移動する度に、画面に表示された撮影ガイドを視点に応じて変更する。また、端末装置10は、撮影時の視点を移動するにつれて、撮影ガイドを段階的に変更してもよい。
また、端末装置10は、端末装置10に対して、被写体が撮影ガイドに一致した場合には自動的に撮影するように指示する。また、端末装置10は、被写体が撮影ガイドとずれている場合、被写体が撮影ガイドとずれている箇所を撮影者(利用者U)に通知(提示)する。なお、被写体は、撮影者自身であってもよい。すなわち、撮影者と被撮影者は同一人物であってもよい。
なお、上記の各処理は、端末装置10ではなく、APIを介して情報提供装置100が実施してもよい。
〔1-4.アノテーション対象の候補の認識〕
本実施形態では、端末装置10は、多視点画像を構成する画像の撮影時に、撮影された画像に含まれる撮影対象(アノテーション対象の候補)を特定し、特定された撮影対象を利用者に通知する。
端末装置10は、多視点画像の登録時に、撮影の度に画像認識又は機械学習で画像に含まれる撮影対象を認識し、撮影対象に関する情報を利用者に画面表示や音声で通知する。撮影対象は複数であってもよい。撮影対象を特定して通知することで、後でタグ付けが楽になる。また、先にタグ付けをする手間がなくなる。なお、端末装置10は、事前にタグ付けの対象(アノテーション対象)をユーザに通知し、撮影の度にそのタグ付けの対象(アノテーション対象)が撮影されているか否かをユーザに通知してもよい。
また、端末装置10は、「ワンピースが撮れました」、「バックは何カット撮れました」等を利用者に画面表示や音声で通知してもよい。また、撮る度に、「残り○○枚です」のように、あと何枚撮影するかを利用者に画面表示や音声で通知してもよい。すなわち、端末装置10は、撮影の度に、撮影対象の撮影枚数(ショット数)や、多視点画像を構成する画像の必要数までの残り枚数を利用者に通知してもよい。また、端末装置10は、撮影が完了した(又は完了していない)カメラの位置(ポジション)や角度(アングル)を利用者に画面表示や音声で通知してもよい。また、端末装置10は、多視点画像の生成に必要な各視点の画像について、撮影漏れの視点(画像)があれば、利用者に画面表示や音声で通知してもよい。このとき、端末装置10は、通知内容を示したタグを付与して表示することで通知してもよい。
また、端末装置10は、カメラの位置(ポジション)や角度(アングル)が変わったことにより、撮影の途中で見えなくなった(ユーザや他の対象の陰に隠れた)撮影対象を通知してもよい。このとき、端末装置10は、撮影対象が他の対象の陰に隠れていることを示すタグを付与して表示することにより、撮影の途中で見えなくなった(ユーザや他の対象の陰に隠れた)撮影対象を通知してもよい。
なお、上記の各処理は、端末装置10ではなく、APIを介して情報提供装置100が実施してもよい。
〔1-5.撮影モデルの顔画像の置換〕
本実施形態では、情報提供装置100は、多視点画像の被撮影者(撮影モデル)の顔を、閲覧者である利用者Uの顔に置き換える。すなわち、情報提供装置100は、多視点画像の被撮影者(撮影モデル)の顔を別人の顔に置き換える。図3は、被撮影者(撮影モデル)の顔画像の置換の概要を示す説明図である。図3では、画像内において、顔画像の置換前の被撮影者(撮影モデル)をM1、被撮影者とともに撮影されたバッグをB、顔画像を利用者Uの顔画像に置換した被撮影者をM+Uとして示す。
図3に示すように、情報提供装置100は、ネットワークN(図4参照)を介して、利用者U(ユーザ)の端末装置10から、利用者Uの顔の多視点顔画像を取得する(ステップS21)。例えば、情報提供装置100は、利用者Uの端末装置10から、投稿された多視点画像を閲覧する利用者Uの顔を、複数の視点から撮影した多視点顔画像を取得する。
次に、情報提供装置100は、利用者Uの閲覧対象となる多視点画像から、被撮影者(撮影モデル)の顔を特定する(ステップS22)。例えば、情報提供装置100は、多視点画像の視点ごとの被撮影者(撮影モデル)の顔を特定する。本実施形態では、閲覧対象となる多視点画像は、利用者U(ユーザ)とは異なる被撮影者(撮影モデル)の顔が含まれる多視点画像である。なお、実際には、利用者U(ユーザ)自身の顔が含まれる多視点画像であってもよい。
次に、情報提供装置100は、閲覧対象となる多視点画像から、撮影時の視点を特定する(ステップS23)。例えば、情報提供装置100は、多視点画像の視点ごとの被撮影者(撮影モデル)の顔の位置(ポジション)や角度(アングル)を特定する。
次に、情報提供装置100は、撮影時の視点に応じて、閲覧対象となる多視点画像の被撮影者の顔を、閲覧者である利用者U(ユーザ)の顔に変更する(ステップS24)。例えば、情報提供装置100は、多視点画像の視点ごとの被撮影者(撮影モデル)の顔の位置(ポジション)や角度(アングル)に応じて、被撮影者(撮影モデル)の顔をユーザの顔に置き換えた画像を生成する。このとき、情報提供装置100は、閲覧対象となる多視点画像の被撮影者の顔を、閲覧者である利用者U(ユーザ)の顔に、可能な限り自然な形で(できるだけ違和感が無いように)置き換える。また、情報提供装置100は、同時に閲覧される複数の多視点画像のそれぞれの撮影時の視点に合わせて、それぞれの被撮影者(撮影モデル)の顔を一括して利用者U(ユーザ)の顔に変換する。
次に、情報提供装置100は、多視点画像の被撮影者(撮影モデル)の顔を、閲覧者である利用者U(ユーザ)の顔に変更する際、必要に応じて、多視点画像の被撮影者(撮影モデル)の身長調整を行う(ステップS25)。すなわち、情報提供装置100は、被撮影者(撮影モデル)の顔に限らず身長もユーザに合わせて変更してもよい。例えば、情報提供装置100は、多視点画像の被撮影者(撮影モデル)の身長をユーザの身長に変更してもよい。また、情報提供装置100は、多視点画像の被撮影者(撮影モデル)の顔とユーザの顔とに基づいて被撮影者の身長を調整してもよい。また、情報提供装置100は、背景や被撮影者と一緒に撮影された撮影対象のサイズに合わせて被撮影者の身長を調整してもよい。
また、情報提供装置100は、多視点画像の被撮影者(撮影モデル)の顔をユーザの顔に変更した際、あるいは多視点画像の被撮影者(撮影モデル)がユーザ本人である場合に、画像加工編集等により、画像内のユーザの髪型や髪の色(濃淡を含む)、表情等を変更してもよい。例えば、ロングヘアーをショートヘアーに変更したり、黒髪を茶髪にしたり、目尻や口角を上げ下げしたりしてもよい。あるいは、情報提供装置100は、ユーザの指示等に応じて、多視点画像に表示されている現在の顔画像(変換後のユーザの顔画像等)を、髪型や髪の色(濃淡を含む)、表情等が異なる顔画像に変換してもよい。
次に、情報提供装置100は、ネットワークN(図4参照)を介して、利用者U(ユーザ)の端末装置10に、変換後の多視点画像を表示する(ステップS26)。
なお、上記の説明では、情報提供装置100は、多視点画像の被撮影者の顔を、閲覧者である利用者Uの顔に変換したが、実際には、閲覧者である利用者Uの顔に限定されない。情報提供装置100は、閲覧者である利用者Uの顔以外にも、任意の人物の顔に変換してもよい。例えば、情報提供装置100は、多視点画像に含まれる撮影対象のうちタグ付けの対象(アノテーション対象)に該当する商品を購入した際のプレゼント先となる利用者Uの友人の顔にしてもよい。
また、上記の説明では、情報提供装置100は、多視点画像の被撮影者の顔を、別人の顔に変換したが、実際には、別人の顔に限定されない。情報提供装置100は、別人の顔に限らず、同一人物の別の顔に変換してもよい。例えば、情報提供装置100は、ある多視点画像の被撮影者が閲覧者である利用者U本人である場合(多視点画像の被撮影者と閲覧者が同一人である場合等)、その多視点画像の被撮影者である利用者Uの顔を、利用者Uの別の顔に変換してもよい。
また、情報提供装置100は、ディープフェイク等の技術を用いて、閲覧対象となる多視点画像の被撮影者の顔を変換してもよい。また、情報提供装置100は、単一視点の顔画像から複数視点の画像を生成する公知技術を用いて、差し替え先となる顔の多視点画像を生成し、これを用いて画像の顔を変換してもよい。
なお、上記の各処理は、情報提供装置100ではなく、端末装置10がアプリ等の機能により実施してもよい。すなわち、端末装置10上で処理が完結してもよい。
〔2.情報処理システムの構成例〕
次に、図4を用いて、実施形態に係る情報提供装置100が含まれる情報処理システム1の構成について説明する。図4は、実施形態に係る情報処理システム1の構成例を示す図である。図4に示すように、実施形態に係る情報処理システム1は、端末装置10と情報提供装置100とを含む。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネット等のWAN(Wide Area Network)である。
また、図4に示す情報処理システム1に含まれる各装置の数は図示したものに限られない。例えば、図4では、図示の簡略化のため、端末装置10を1台のみ示したが、これはあくまでも例示であって限定されるものではなく、2台以上であってもよい。
端末装置10は、利用者Uによって使用される情報処理装置である。例えば、端末装置10は、スマートフォンやタブレット端末等のスマートデバイス、フィーチャーフォン、PC(Personal Computer)、PDA(Personal Digital Assistant)、通信機能を備えたゲーム機やAV機器、カーナビゲーションシステム、スマートウォッチやヘッドマウントディスプレイ等のウェアラブルデバイス(Wearable Device)、スマートグラス等である。
また、かかる端末装置10は、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation:第5世代移動通信システム)等の無線通信網や、Bluetooth(登録商標)、無線LAN(Local Area Network)等の近距離無線通信を介してネットワークNに接続し、情報提供装置100と通信することができる。
情報提供装置100は、例えばPCやサーバ装置、あるいはメインフレーム又はワークステーション等である。なお、情報提供装置100は、クラウドコンピューティングにより実現されてもよい。
〔3.端末装置の構成例〕
次に、図5を用いて、端末装置10の構成について説明する。図5は、端末装置10の構成例を示す図である。図5に示すように、端末装置10は、通信部11と、表示部12と、入力部13と、測位部14と、撮像部15と、センサ部20と、制御部30(コントローラ)と、記憶部40とを備える。
(通信部11)
通信部11は、ネットワークN(図4参照)と有線又は無線で接続され、ネットワークNを介して、情報提供装置100との間で情報の送受信を行う。例えば、通信部11は、NIC(Network Interface Card)やアンテナ等によって実現される。
(表示部12)
表示部12は、位置情報等の各種情報を表示する表示デバイスである。例えば、表示部12は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機ELディスプレイ(Organic Electro-Luminescent Display)である。また、表示部12は、タッチパネル式のディスプレイであるが、これに限定されるものではない。
(入力部13)
入力部13は、利用者Uから各種操作を受け付ける入力デバイスである。例えば、入力部13は、文字や数字等を入力するためのボタン等を有する。なお、入力部13は、入出力ポート(I/O port)やUSB(Universal Serial Bus)ポート等であってもよい。また、表示部12がタッチパネル式のディスプレイである場合、表示部12の一部が入力部13として機能する。また、入力部13は、利用者Uから音声入力を受け付けるマイク等であってもよい。マイクはワイヤレスであってもよい。
(測位部14)
測位部14は、GPS(Global Positioning System)の衛星から送出される信号(電波)を受信し、受信した信号に基づいて、自装置である端末装置10の現在位置を示す位置情報(例えば、緯度及び経度)を取得する。すなわち、測位部14は、端末装置10の位置を測位する。なお、GPSは、GNSS(Global Navigation Satellite System)の一例に過ぎない。
また、測位部14は、GPS以外にも、種々の手法により位置を測位することができる。例えば、測位部14は、位置補正等のための補助的な測位手段として、下記のように、端末装置10の様々な通信機能を利用して位置を測位してもよい。
(撮像部15)
撮像部15は、被写体を撮影する画像センサ(カメラ)である。例えば、撮像部15は、CMOSイメージセンサやCCDイメージセンサ等である。なお、撮像部15は、内蔵カメラに限らず、端末装置10と通信可能なワイヤレスカメラや、Webカメラ等の外付けカメラであってもよい。
(Wi-Fi測位)
例えば、測位部14は、端末装置10のWi-Fi(登録商標)通信機能や、各通信会社が備える通信網を利用して、端末装置10の位置を測位する。具体的には、測位部14は、Wi-Fi通信等を行い、付近の基地局やアクセスポイントとの距離を測位することにより、端末装置10の位置を測位する。
(ビーコン測位)
また、測位部14は、端末装置10のBluetooth(登録商標)機能を利用して位置を測位してもよい。例えば、測位部14は、Bluetooth(登録商標)機能によって接続されるビーコン(beacon)発信機と接続することにより、端末装置10の位置を測位する。
(地磁気測位)
また、測位部14は、予め測定された構造物の地磁気のパターンと、端末装置10が備える地磁気センサとに基づいて、端末装置10の位置を測位する。
(RFID測位)
また、例えば、端末装置10が駅改札や店舗等で使用される非接触型ICカードと同等のRFID(Radio Frequency Identification)タグの機能を備えている場合、もしくはRFIDタグを読み取る機能を備えている場合、端末装置10によって決済等が行われた情報とともに、使用された位置が記録される。測位部14は、かかる情報を取得することで、端末装置10の位置を測位してもよい。また、位置は、端末装置10が備える光学式センサや、赤外線センサ等によって測位されてもよい。
測位部14は、必要に応じて、上述した測位手段の一つ又は組合せを用いて、端末装置10の位置を測位してもよい。
(センサ部20)
センサ部20は、端末装置10に搭載又は接続される各種のセンサを含む。なお、接続は、有線接続、無線接続を問わない。例えば、センサ類は、ウェアラブルデバイスやワイヤレスデバイス等、端末装置10以外の検知装置であってもよい。図5に示す例では、センサ部20は、加速度センサ21と、ジャイロセンサ22と、気圧センサ23と、気温センサ24と、音センサ25と、光センサ26と、磁気センサ27とを備える。
なお、上記した各センサ21~27は、あくまでも例示であって限定されるものではない。すなわち、センサ部20は、各センサ21~27のうちの一部を備える構成であってもよいし、各センサ21~27に加えてあるいは代えて、湿度センサ等その他のセンサを備えてもよい。また、撮像部15も、画像センサの一種である。
加速度センサ21は、例えば、3軸加速度センサであり、端末装置10の移動方向、速度、及び、加速度等の端末装置10の物理的な動きを検知する。ジャイロセンサ22は、端末装置10の角速度等に基づいて3軸方向の傾き等の端末装置10の物理的な動きを検知する。気圧センサ23は、例えば端末装置10の周囲の気圧を検知する。
端末装置10は、上記した加速度センサ21やジャイロセンサ22、気圧センサ23等を備えることから、これらの各センサ21~23等を利用した歩行者自律航法(PDR:Pedestrian Dead-Reckoning)等の技術を用いて端末装置10の位置を測位することが可能になる。これにより、GPS等の測位システムでは取得することが困難な屋内での位置情報を取得することが可能になる。
例えば、加速度センサ21を利用した歩数計により、歩数や歩くスピード、歩いた距離を算出することができる。また、ジャイロセンサ22を利用して、利用者Uの進行方向や視線の方向、体の傾きを知ることができる。また、気圧センサ23で検知した気圧から、利用者Uの端末装置10が存在する高度やフロアの階数を知ることもできる。
気温センサ24は、例えば端末装置10の周囲の気温を検知する。音センサ25は、例えば端末装置10の周囲の音を検知する。光センサ26は、端末装置10の周囲の照度を検知する。磁気センサ27は、例えば端末装置10の周囲の地磁気を検知する。撮像部15は、端末装置10の周囲の画像を撮像する。
上記した気圧センサ23、気温センサ24、音センサ25、光センサ26及び撮像部15は、それぞれ気圧、気温、音、照度を検知したり、周囲の画像を撮像したりすることで、端末装置10の周囲の環境や状況等を検知することができる。また、端末装置10の周囲の環境や状況等から、端末装置10の位置情報の精度を向上させることが可能になる。
(制御部30)
制御部30は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM、入出力ポート等を有するマイクロコンピュータや各種の回路を含む。また、制御部30は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路等のハードウェアで構成されてもよい。制御部30は、送信部31と、受信部32と、処理部33と、ガイド表示部34と、ガイド変更部35と、撮影判定部36と、認識部37と、通知部38とを備える。なお、実際には、処理部33が、ガイド表示部34と、ガイド変更部35と、撮影判定部36と、認識部37と、通知部38とを備えていてもよい。
(送信部31)
送信部31は、例えば入力部13を用いて利用者Uにより入力された各種情報や、端末装置10に搭載又は接続された各センサ21~27によって検知された各種情報、測位部14によって測位された端末装置10の位置情報等を、通信部11を介して情報提供装置100へ送信することができる。
(受信部32)
受信部32は、通信部11を介して、情報提供装置100から提供される各種情報や、情報提供装置100からの各種情報の要求を受信することができる。
(処理部33)
処理部33は、表示部12等を含め、端末装置10全体を制御する。例えば、処理部33は、送信部31によって送信される各種情報や、受信部32によって受信された情報提供装置100からの各種情報を表示部12へ出力して表示させることができる。
(ガイド表示部34)
ガイド表示部34は、多視点画像を撮影する際に、所定の撮影ガイドを画面に表示する。例えば、ガイド表示部34は、撮影ガイドとして被写体のうち被撮影者(撮影モデル)のポーズ、表情、持ち方のうち少なくとも1つに関するガイドを画面に表示する。また、ガイド表示部34は、撮影ガイドとして被写体のシルエット、輪郭、又は半透明の表示を画面に表示する。
また、ガイド表示部34は、被写体を撮影する際に、被写体に撮影ガイドを重畳表示する。また、ガイド表示部34は、最初に撮影された画像で被写体のうち被撮影者のポーズを特定し、特定されたポーズに応じた撮影ガイドを選択して表示する。
(ガイド変更部35)
ガイド変更部35は、撮影時の視点を移動する度に、画面に表示された撮影ガイドを視点に応じて変更する。また、ガイド変更部35は、撮影時の視点を移動するにつれて、撮影ガイドを段階的に変更してもよい。
(撮影判定部36)
撮影判定部36は、被写体が前記撮影ガイドに一致した場合、撮像部15を用いて、自動的に撮影する。また、撮影判定部36は、多視点画像の撮影が完了した場合、送信部31を用いて、多視点画像を情報提供装置100に投稿する。このとき、撮影判定部36は、撮影された画像から多視点画像を生成してもよい。
(認識部37)
認識部37は、多視点画像を構成する画像の撮影時に、画像に含まれる撮影対象を認識する。例えば、認識部37は、画像認識又は機械学習で、画像に含まれる撮影対象を認識する。また、認識部37は、撮影の度に、画像に含まれる撮影対象を認識する。また、認識部37は、撮影の度に、画像に含まれる複数の撮影対象の各々を認識する。また、認識部37は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を認識する。
(通知部38)
通知部38は、被写体が撮影ガイドとずれている場合、被写体が撮影ガイドとずれている箇所を撮影者に通知する。なお、被写体は、撮影者自身であってもよい。すなわち、撮影者と被撮影者は同一人物であってもよい。
また、通知部38は、認識部37により認識された撮影対象を利用者に通知する。例えば、通知部38は、撮影の度に、認識された撮影対象を利用者に通知する。また、通知部38は、撮影の度に、認識された複数の撮影対象の各々を利用者に通知する。また、通知部38は、撮影の度に、認識された撮影対象の画像の撮影枚数を利用者に通知する。また、通知部38は、撮影の度に、多視点画像を構成する画像の必要数までの残り枚数を利用者に通知する。また、通知部38は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を利用者に通知する。
このとき、通知部38は、特定された撮影対象を利用者に音声で通知してもよい。また、通知部38は、特定された撮影対象を利用者に画面表示で通知してもよい。
(記憶部40)
記憶部40は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置によって実現される。かかる記憶部40には、各種プログラムや各種データ等が記憶される。
〔4.情報提供装置の構成例〕
次に、図6を用いて、実施形態に係る情報提供装置100の構成について説明する。図6は、実施形態に係る情報提供装置100の構成例を示す図である。図6に示すように、情報提供装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークN(図4参照)と有線又は無線で接続される。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD、SSD、光ディスク等の記憶装置によって実現される。図6に示すように、記憶部120は、利用者情報データベース121と、履歴情報データベース122と、画像情報データベース123とを有する。
(利用者情報データベース121)
利用者情報データベース121は、利用者Uに関する利用者情報を記憶する。例えば、利用者情報データベース121は、利用者Uの属性等の種々の情報を記憶する。図7は、利用者情報データベース121の一例を示す図である。図7に示した例では、利用者情報データベース121は、「利用者ID(Identifier)」、「年齢」、「性別」、「自宅」、「勤務地」、「興味」といった項目を有する。
「利用者ID」は、利用者Uを識別するための識別情報を示す。なお、「利用者ID」は、利用者Uの連絡先(電話番号、メールアドレス等)であってもよいし、利用者Uの端末装置10を識別するための識別情報であってもよい。
また、「年齢」は、利用者IDにより識別される利用者Uの年齢を示す。なお、「年齢」は、利用者Uの具体的な年齢(例えば35歳など)を示す情報であってもよいし、利用者Uの年代(例えば30代など)を示す情報であってもよい。あるいは、「年齢」は、利用者Uの生年月日を示す情報であってもよいし、利用者Uの世代(例えば80年代生まれなど)を示す情報であってもよい。また、「性別」は、利用者IDにより識別される利用者Uの性別を示す。
また、「自宅」は、利用者IDにより識別される利用者Uの自宅の位置情報を示す。なお、図7に示す例では、「自宅」は、「LC11」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「自宅」は、地域名や住所であってもよい。
また、「勤務地」は、利用者IDにより識別される利用者Uの勤務地(学生の場合は学校)の位置情報を示す。なお、図7に示す例では、「勤務地」は、「LC12」といった抽象的な符号を図示するが、緯度経度情報等であってもよい。また、例えば、「勤務地」は、地域名や住所であってもよい。
また、「興味」は、利用者IDにより識別される利用者Uの興味を示す。すなわち、「興味」は、利用者IDにより識別される利用者Uが関心の高い対象を示す。例えば、「興味」は、利用者Uが検索エンジンに入力して検索した検索クエリ(キーワード)等であってもよい。なお、図7に示す例では、「興味」は、各利用者Uに1つずつ図示するが、複数であってもよい。
例えば、図7に示す例において、利用者ID「U1」により識別される利用者Uの年齢は、「20代」であり、性別は、「男性」であることを示す。また、例えば、利用者ID「U1」により識別される利用者Uは、自宅が「LC11」であることを示す。また、例えば、利用者ID「U1」により識別される利用者Uは、勤務地が「LC12」であることを示す。また、例えば、利用者ID「U1」により識別される利用者Uは、「スポーツ」に興味があることを示す。
ここで、図7に示す例では、「U1」、「LC11」及び「LC12」といった抽象的な値を用いて図示するが、「U1」、「LC11」及び「LC12」には、具体的な文字列や数値等の情報が記憶されるものとする。以下、他の情報に関する図においても、抽象的な値を図示する場合がある。
なお、利用者情報データベース121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、利用者情報データベース121は、利用者Uの端末装置10に関する各種情報を記憶してもよい。また、利用者情報データベース121は、利用者Uのデモグラフィック(人口統計学的属性)、サイコグラフィック(心理学的属性)、ジオグラフィック(地理学的属性)、ベヘイビオラル(行動学的属性)等の属性に関する情報を記憶してもよい。例えば、利用者情報データベース121は、氏名、家族構成、出身地(地元)、職業、職位、収入、資格、居住形態(戸建、マンション等)、車の有無、通学・通勤時間、通学・通勤経路、定期券区間(駅、路線等)、利用頻度の高い駅(自宅・勤務地の最寄駅以外)、習い事(場所、時間帯等)、趣味、興味、ライフスタイル等の情報を記憶してもよい。
(履歴情報データベース122)
履歴情報データベース122は、利用者Uの行動を示す履歴情報(ログデータ)に関する各種情報を記憶する。図8は、履歴情報データベース122の一例を示す図である。図8に示した例では、履歴情報データベース122は、「利用者ID」、「位置履歴」、「検索履歴」、「閲覧履歴」、「購入履歴」、「投稿履歴」といった項目を有する。
「利用者ID」は、利用者Uを識別するための識別情報を示す。また、「位置履歴」は、利用者Uの位置や移動の履歴である位置履歴を示す。また、「検索履歴」は、利用者Uが入力した検索クエリの履歴である検索履歴を示す。また、「閲覧履歴」は、利用者Uが閲覧したコンテンツの履歴である閲覧履歴を示す。また、「購入履歴」は、利用者Uによる購入の履歴である購入履歴を示す。また、「投稿履歴」は、利用者Uによる投稿の履歴である投稿履歴を示す。なお、「投稿履歴」は、利用者Uの所有物に関する質問を含んでいてもよい。
例えば、図8に示す例において、利用者ID「U1」により識別される利用者Uは、「位置履歴#1」の通りに移動し、「検索履歴#1」の通りに検索し、「閲覧履歴#1」の通りにコンテンツを閲覧し、「購入履歴#1」の通りに所定の店舗等で所定の商品等を購入し、「投稿履歴」の通りに投稿したことを示す。
ここで、図8に示す例では、「U1」、「位置履歴#1」、「検索履歴#1」、「閲覧履歴#1」、「購入履歴#1」及び「投稿履歴#1」といった抽象的な値を用いて図示するが、「U1」、「位置履歴#1」、「検索履歴#1」、「閲覧履歴#1」、「購入履歴#1」及び「投稿履歴#1」には、具体的な文字列や数値等の情報が記憶されるものとする。
なお、履歴情報データベース122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、履歴情報データベース122は、利用者Uの所定のサービスの利用履歴等を記憶してもよい。また、履歴情報データベース122は、利用者Uの実店舗の来店履歴又は施設の訪問履歴等を記憶してもよい。また、履歴情報データベース122は、利用者Uの端末装置10を用いた決済(電子決済)での決済履歴等を記憶してもよい。
(画像情報データベース123)
画像情報データベース123は、多視点画像に関する各種情報を記憶する。図9は、画像情報データベース123の一例を示す図である。図9に示した例では、画像情報データベース123は、「多視点画像」、「画像」、「視点」、「撮影対象」、「位置」、「アノテーション対象」、「タグ」、「顔の位置」といった項目を有する。
「多視点画像」は、多視点画像を識別するための識別情報を示す。なお、実際には、多視点画像のデータの格納場所や所在位置等であってもよい。また、「画像」は、多視点画像を構成する画像を識別するための識別情報を示す。なお、実際には、多視点画像を構成する画像のデータの格納場所や所在位置等であってもよい。
また、「視点」は、多視点画像を構成する画像を撮影した時の視点を示す。すなわち、視点は、多視点画像を構成する画像に組まれる撮影対象の位置(ポジション)や角度(アングル)を示す。
また、「撮影対象」は、多視点画像を構成する画像に含まれる撮影対象を示す。すなわち、被写体として撮影された撮影対象を示す。例えば、撮影対象の分類(カテゴリ)や具体的な商品名、商品コード等を示す。また、撮影対象は、被撮影者(人物)であってもよい。また、撮影対象は、複数であってもよい。すなわち、1つの画像に複数の撮影対象が含まれていてもよい。例えば、被撮影者と、その被撮影者が身につけている2つのファッションアイテムを、それぞれ撮影対象としてもよい。
また、「位置」は、多視点画像内の撮影対象の位置(画像内の位置)を示す。本実施形態では、多視点画像を構成する個々の画像内の撮影対象の3次元的な位置を示す。撮影対象の3次元的な位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。また、3次元的な位置は一例に過ぎない。
また、「アノテーション対象」は、撮影対象(アノテーション対象の候補)のうち、タグ付けの対象(アノテーション対象)を示す。タグ付けの対象は、ユーザにより選択されたものであってもよいし、事前設定や機械学習等により自動的に決定されたものであってもよい。
また、「タグ」は、タグ付けの対象(アノテーション対象)に付与されるタグを示す。例えば、事前に登録されたタグを識別するための識別情報であってもよいし、タグの内容であってもよい。例えば、タグ付けの対象(アノテーション対象)となる商品(ファッションアイテム)の商品ページに関する情報であってもよい。このとき、ファッション通販サイト(例えば「ZOZOTOWN」(登録商標))等の電子商取引サイトの各商品ページから画像認識又は機械学習で当該商品の類似画像を検索し、検索結果に基づいて当該商品の商品ページを自動で特定してもよい。
また、「顔の位置」は多視点画像内の被撮影者の顔の位置(画像内の顔の位置)を示す。本実施形態では、多視点画像を構成する個々の画像内の被撮影者の顔の3次元的な位置を示す。顔の位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。また、顔の輪郭や顔の各部(眉、目、耳、鼻、口、顎等)の位置等であってもよい。
例えば、図9に示す例において、多視点画像「A」を構成する画像「A1」は、「視点#A1」で撮影され、撮影対象である「バッグ」が画像内の「位置#A1」にあり、「アノテーション対象」(タグ付けの対象)として選定されており、対象のバッグに関するウェブサイト「サイト#W1」へのリンクがタグとして付与され、画像内の被撮影者の顔の位置は「顔位置#A1」であることを示す。
ここで、図9に示す例では、「A」、「A1」、「視点#A1」、「位置#A1」、「サイト#W1」及び「顔位置#A1」といった抽象的な値を用いて図示するが、「A」、「A1」、「視点#A1」、「位置#A1」、「サイト#W1」及び「顔位置#A1」には、具体的な文字列や数値等の情報が記憶されるものとする。
なお、画像情報データベース123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、画像情報データベース123は、多視点画像の投稿者又は閲覧者を識別するための識別情報を記憶してもよい。また、画像情報データベース123は、被写体(撮影対象、被撮影者等)に関する詳細情報を記憶してもよい。また、画像情報データベース123は、候補となるタグのリストを記憶してもよい。また、画像情報データベース123は、撮影場所や撮影日時に関する情報を記憶してもよい。また、画像情報データベース123は、撮影に用いた撮影装置(ユーザの端末装置等)や撮影環境に関する情報を記憶してもよい。
(制御部130)
図6に戻り、説明を続ける。制御部130は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報提供装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図6に示す例では、制御部130は、取得部131と、特定部132と、推定部133と、タグ付与部134と、タグ変更部135と、画像変換部136と、提供部137とを有する。
(取得部131)
取得部131は、利用者Uにより入力された検索クエリを取得する。例えば、取得部131は、利用者Uが検索エンジン等に検索クエリを入力してキーワード検索を行った際に、通信部110を介して、当該検索クエリを取得する。すなわち、取得部131は、通信部110を介して、利用者Uにより検索エンジンやサイト又はアプリの検索窓に入力されたキーワードを取得する。
また、取得部131は、通信部110を介して、利用者Uに関する利用者情報を取得する。例えば、取得部131は、利用者Uの端末装置10から、利用者Uを示す識別情報(利用者ID等)や、利用者Uの位置情報、利用者Uの属性情報等を取得する。また、取得部131は、利用者Uのユーザ登録時に、利用者Uを示す識別情報や、利用者Uの属性情報等を取得してもよい。そして、取得部131は、利用者情報を、記憶部120の利用者情報データベース121に登録する。
また、取得部131は、通信部110を介して、利用者Uの行動を示す各種の履歴情報(ログデータ)を取得する。例えば、取得部131は、利用者Uの端末装置10から、あるいは利用者ID等に基づいて各種サーバ等から、利用者Uの行動を示す各種の履歴情報を取得する。そして、取得部131は、各種の履歴情報を、記憶部120の履歴情報データベース122に登録する。
また、取得部131は、通信部110を介して、投稿者又は閲覧者である利用者Uから多視点画像を取得する。例えば、取得部131は、投稿者である利用者Uの端末装置10から、投稿者が撮影した多視点画像を取得する。また、取得部131は、閲覧者である利用者Uが指定した他の投稿者が撮影した多視点画像を取得する。
また、取得部131は、通信部110を介して、被撮影者とは異なる別人の顔の多視点画像を取得する。例えば、取得部131は、別人の顔を複数の視点から撮影した多視点顔画像を取得する。別人の顔は、閲覧者である利用者Uの顔であってもよい。本実施形態では、取得部131は、通信部110を介して、閲覧者の顔の多視点画像を取得する。なお、取得部131は、閲覧者の顔の多視点画像を事前に取得してもよいし、閲覧時に取得してもよい。また、閲覧者の顔の多視点画像は、少なくとも閲覧者の顔を含む多視点画像であってもよい。例えば、取得部131は、閲覧者である利用者Uの顔を複数の視点から撮影した多視点顔画像を取得する。
また、取得部131は、通信部110を介して、投稿者からタグ付けの対象の選択を受け付ける受付部としても機能する。例えば、取得部131(受付部)は、投稿者から、タグ付けの対象の選択と、タグ付けの対象に対応付けるウェブページの指定とを受け付ける。
(特定部132)
特定部132は、多視点画像に含まれる撮影対象を特定する。そして、特定部132は、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。このとき、特定部132は、多視点画像の各視点の画像ごとに画像認識又は機械学習で撮影対象を特定して分類する。
例えば、特定部132は、投稿者からのタグ付けの対象の選択に応じて、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。あるいは、特定部132は、画像認識又は機械学習で、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。
また、特定部132は、ネットワーク上の複数のウェブページから画像認識又は機械学習でタグ付けの対象の画像の類似画像を検索し、類似画像を含むウェブページをタグ付けの対象に対応付けるウェブページとして自動で特定する。
また、特定部132は、利用者Uの閲覧対象となる多視点画像の被撮影者の顔を特定する。例えば、特定部132は、利用者Uの閲覧対象となる多視点画像の被撮影者の顔と、多視点画像の撮影時の視点とを特定する。このとき、特定部132は、同時に閲覧される複数の多視点画像のそれぞれの被撮影者の顔と、複数の多視点画像のそれぞれの撮影時の視点とを特定してもよい。
(推定部133)
推定部133は、多視点画像内の撮影対象の位置を推定する。すなわち、推定部133は、多視点画像内の撮影対象から選択されたタグ付けの対象の位置を推定する。本実施形態では、推定部133は、タグ付けの対象の多視点画像内の3次元的な位置を推定する。多視点画像内の3次元的な位置は、画像内の座標等の絶対位置であってもよいし、基準点や他の撮像対象からの相対位置であってもよい。なお、実際には、特定部132が推定部133として機能してもよい。このとき、特定部132は、タグ付けの対象の多視点画像内の3次元的な位置を特定する。
(タグ付与部134)
タグ付与部134は、タグ付けの対象の位置に合わせてタグを付与する。例えば、タグ付与部134は、タグ付けの対象の3次元的な位置に合わせてタグ付けの対象にタグを付与する。これにより、付与されたタグが画面内に表示される。また、タグ付与部134は、タグ付けの対象にタグを付与する際、タグが他の対象及び他のタグと重複しないように付与する。
また、タグ付与部134は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されていない状態であれば、タグ付けの対象にタグを付与する。なお、タグ付与部134は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されている状態であっても、タグ付けの対象のタグが他の対象のタグよりも表示の優先度が高い場合には、他の対象にはタグを付与せず、タグ付けの対象にタグを付与してもよい。
(タグ変更部135)
タグ変更部135は、多視点画像の視点の変更に伴い画面内のタグ付けの対象の位置が変更した場合に、タグ付けの対象の位置の変更に合わせてタグの表示位置を変更する。また、タグ変更部135は、多視点画像の視点が変更されても、タグ付けの対象とタグとの位置関係が保持されるような位置にタグを配置する。なお、実際には、タグ付与部134がタグ変更部135として機能してもよい。この場合、タグ付与部134は、多視点画像の視点が変更される度に、タグ付けの対象の位置の変更に合わせて、タグ付けの対象にタグを付与する。
(画像変換部136)
画像変換部136は、多視点画像を構成する画像ごとに、多視点画像の被撮影者の顔を別人の顔に変換する。例えば、画像変換部136は、多視点画像を構成する画像ごとに、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換する。このとき、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に置き換えた新たな多視点画像を生成してもよい。
本実施形態では、画像変換部136は、多視点画像を構成する画像ごとに、多視点画像の被撮影者の顔を、閲覧者である利用者Uの顔に変換する。例えば、画像変換部136は、多視点画像を構成する画像ごとに、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Uの顔に変換する。このとき、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Uの顔に置き換えた新たな多視点画像を生成してもよい。
また、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換する際に、多視点画像の被撮影者の身長を別人の身長に合わせて調整する。このとき、画像変換部136は、被撮影者の顔と別人の顔とに基づいて被撮影者の身長を調整してもよい。
本実施形態では、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、閲覧者である利用者Uの顔に変換する際に、多視点画像の被撮影者の身長を利用者Uの身長に合わせて調整する。このとき、画像変換部136は、被撮影者の顔と利用者Uの顔とに基づいて被撮影者の身長を調整してもよい。
また、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換するとともに、変換後の画像の別人の顔の表情を変更する。また、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換するとともに、変換後の画像の別人の髪型を変更する。また、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、別人の顔に変換するとともに、変換後の画像の別人の髪の色(濃淡を含む)を変更する。
本実施形態では、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、閲覧者である利用者Uの顔に変換する際に、変換後の利用者Uの顔の表情を変更する。また、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Uの顔に変換する際に、変換後の利用者Uの髪型を変更する。また、画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、利用者Uの顔に変換する際に、変換後の利用者Uの髪の色を変更する。
例えば、画像変換部136は、画像加工編集等により、画像内の利用者Uの髪型や髪の色(濃淡を含む)、表情等を変更してもよい。あるいは、画像変換部136は、利用者Uの指示等に応じて、多視点画像に表示されている現在の顔画像(変換後の利用者Uの顔画像等)を、髪型や髪の色(濃淡を含む)、表情等が異なる顔画像に変換してもよい。
また、画像変換部136は、同時に閲覧される複数の多視点画像のそれぞれの撮影時の視点に合わせて、それぞれの被撮影者の顔を一括して別人の顔に変換する。本実施形態では、画像変換部136は、同時に閲覧される複数の多視点画像のそれぞれの撮影時の視点に合わせて、それぞれの被撮影者の顔を一括して閲覧者である利用者Uの顔に変換する。
(提供部137)
提供部137は、別人の顔に変換後の多視点画像を利用者Uに提供する。例えば、提供部137は、生成された新たな多視点画像を利用者Uに提供する。また、提供部137は、別人の顔に変換後の複数の多視点画像のそれぞれを利用者Uに提供する。
本実施形態では、提供部137は、閲覧者である利用者Uの顔に変換後の多視点画像を利用者Uに提供する。例えば、提供部137は、生成された新たな多視点画像を利用者Uに提供する。また、提供部137は、利用者Uの顔に変換後の複数の多視点画像のそれぞれを利用者Uに提供する。
〔5.処理手順〕
次に、図10を用いて実施形態に係る端末装置10及び情報提供装置100による処理手順について説明する。図10は、実施形態に係る処理手順を示すフローチャートである。なお、以下に示す処理手順は、端末装置10の制御部30及び情報提供装置100の制御部130によって繰り返し実行される。また、端末装置10と情報提供装置100とは連携する。
図10に示すように、端末装置10のガイド表示部34は、多視点画像を撮影する際に、所定の撮影ガイドを画面に表示する(ステップS101)。
続いて、端末装置10の撮影判定部36は、被写体が前記撮影ガイドに一致した場合、撮像部15により、自動的に撮影する(ステップS102)。このとき、端末装置10の通知部38は、被写体が撮影ガイドとずれている場合、被写体が撮影ガイドとずれている箇所を撮影者に通知する。このとき、通知部38は、特定された撮影対象を利用者に音声で通知してもよいし、特定された撮影対象を利用者に画面表示で通知してもよい。
続いて、端末装置10の認識部37は、撮影された画像に含まれる撮影対象を認識する。端末装置10の通知部38は、認識部37により認識された撮影対象を利用者に通知する(ステップS103)。例えば、通知部38は、撮影の度に、認識された撮影対象の画像の撮影枚数や、多視点画像を構成する画像の必要数までの残り枚数、他の撮影対象に隠れて見えなくなった撮影対象等を利用者に通知する。
続いて、端末装置10のガイド変更部35は、撮影時の視点を移動する度に、画面に表示された撮影ガイドを視点に応じて変更する(ステップS104)。このとき、ガイド変更部35は、撮影時の視点を移動するにつれて、撮影ガイドを段階的に変更してもよい。
続いて、端末装置10の撮影判定部36は、多視点画像の撮影が完了した場合、送信部31を用いて、多視点画像を情報提供装置100に投稿する(ステップS105)。このとき、撮影判定部36は、撮影された画像から多視点画像を生成してもよい。また、撮影判定部36は、投稿前に撮影者に投稿してもよいか確認するようにしてもよい。
続いて、情報提供装置100の推定部133は、多視点画像内の撮影対象の位置を推定する(ステップS106)。例えば、情報提供装置100の取得部131は、通信部110を介して、端末装置10から多視点画像を取得する。情報提供装置100の特定部132は、多視点画像内の撮影対象を特定する。そして、情報提供装置100の推定部133は、多視点画像内の撮影対象の3次元的な位置を推定する。
続いて、情報提供装置100の特定部132は、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する(ステップS107)。例えば、特定部132は、投稿者からのタグ付けの対象の選択に応じて、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。あるいは、特定部132は、画像認識又は機械学習で、多視点画像に含まれる撮影対象の中から、アノテーションのタグ付けの対象を特定する。
続いて、情報提供装置100のタグ付与部134は、タグ付けの対象にタグを付与する(ステップS108)。このとき、情報提供装置100の推定部133は、多視点画像内のタグ付けの対象の位置を推定する。タグ付与部134は、タグ付けの対象の位置に合わせてタグを付与する。なお、タグを付与する位置については、多視点画像を投稿した投稿者があらかじめ指定していてもよい。
このとき、タグ付与部134は、タグ付けの対象にタグを付与する際、タグが他の対象及び他のタグと重複しないように付与する。また、タグ付与部134は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されていない状態であれば、タグ付けの対象にタグを付与する。なお、タグ付与部134は、タグ付けの対象にタグを付与する際、タグ付けの対象が他の対象により隠されている状態であっても、タグ付けの対象のタグが他の対象のタグよりも表示の優先度が高い場合には、他の対象にはタグを付与せず、タグ付けの対象にタグを付与してもよい。
続いて、情報提供装置100のタグ変更部135は、多視点画像の各視点の画像に合わせて、タグ付けの対象に付与されたタグの表示位置を変更する(ステップS109)。
例えば、タグ変更部135は、多視点画像の視点の変更に伴い画面内のタグ付けの対象の位置が変更した場合に、タグ付けの対象の位置の変更に合わせてタグの表示位置を変更する。
続いて、情報提供装置100の画像変換部136は、多視点画像の撮影時の視点に合わせて、多視点画像の被撮影者の顔を、閲覧者の顔に変換する(ステップS110)。このとき、情報提供装置100の取得部131は、通信部110を介して、閲覧者の顔の多視点画像を取得する。なお、取得部131は、閲覧者の顔の多視点画像を事前に取得してもよいし、閲覧時に取得してもよい。また、情報提供装置100の提供部137は、通信部110を介して、閲覧者の顔に変換後の多視点画像を閲覧者に提供する。
〔6.変形例〕
上述した端末装置10及び情報提供装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。
上記の実施形態において、情報提供装置100が実行している処理の一部又は全部は、実際には、端末装置10が実行してもよい。例えば、スタンドアローン(Stand-alone)で(端末装置10単体で)処理が完結してもよい。この場合、端末装置10に、上記の実施形態における情報提供装置100の機能が備わっているものとする。また、上記の実施形態では、端末装置10は情報提供装置100と連携しているため、利用者Uから見れば、情報提供装置100の処理も端末装置10が実行しているように見える。すなわち、他の観点では、端末装置10は、情報提供装置100を備えているともいえる。
また、上記の実施形態において、撮影対象(アノテーション対象の候補)及びタグ付けの対象(アノテーション対象)としてファッションアイテムを例に説明しているが、実際にはファッションアイテムに限定されない。撮影対象及びタグ付けの対象(アノテーション対象)は、多視点画像の撮影時に、ユーザとともに撮影される物品であってもよい。例えば、撮影時にユーザが着用しているウェアラブルデバイスや手に持っている端末装置等であってもよいし、撮影時にユーザの周囲に配置されている家電製品(家電機器・電化製品)、背景として一緒に撮影された室内のインテリア、本棚の書籍、キッチンやテーブルの料理や食器、アート作品等であってもよい。
また、上記の実施形態において、多視点画像の撮影時に、ユーザではなく、特定の物品のみを撮影してもよい。例えば、多視点画像内のタグ付けの対象(アノテーション対象)にアノテーション(注釈)のタグを付与する際、多視点画像にユーザが含まれていなくてもよい。
〔7.効果〕
上述してきたように、本願に係る情報処理装置(端末装置10及び情報提供装置100)は、多視点画像を構成する画像の撮影時に、画像に含まれる撮影対象を認識する認識部37と、認識された撮影対象を利用者Uに通知する通知部38と、を備える。
認識部37は、撮影の度に、画像に含まれる撮影対象を認識する。通知部38は、撮影の度に、認識された撮影対象を利用者Uに通知する。
認識部37は、撮影の度に、画像に含まれる複数の撮影対象の各々を認識する。通知部38は、撮影の度に、認識された複数の撮影対象の各々を利用者Uに通知する。
通知部38は、撮影の度に、認識された撮影対象の画像の撮影枚数を利用者Uに通知する。
通知部38は、撮影の度に、多視点画像を構成する画像の必要数までの残り枚数を利用者Uに通知する。
認識部37は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を認識する。通知部38は、撮影の度に、他の撮影対象に隠れて見えなくなった撮影対象を利用者Uに通知する。
通知部38は、認識された撮影対象を利用者Uに音声で通知する。
通知部38は、認識された撮影対象を利用者Uに画面表示で通知する。
上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、多視点画像を用いたサービス提供の質をより向上させることができる。
〔8.ハードウェア構成〕
また、上述した実施形態に係る端末装置10や情報提供装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。以下、情報提供装置100を例に挙げて説明する。図11は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USB(Universal Serial Bus)メモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェースであり、例えば、USB等により実現される。
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
〔9.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
例えば、上述した情報提供装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。