JP2014068290A

JP2014068290A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2014068290A
Application number: JP2012213527A
Authority: JP
Inventors: Kyosuke Yoshida; 恭助吉田; Kenji Tanaka; 健司田中; Yukihiro Nakamura; 幸弘中村; Yoshihiro Takahashi; 義博高橋; Kentaro Fukazawa; 健太郎深沢; Kazumasa Tanaka; 和政田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-09-27
Filing date: 2012-09-27
Publication date: 2014-04-17
Also published as: US20140086556A1; CN103702117A; US9549162B2

Abstract

【課題】画像の空間的特徴量からは探し出すことが難しいシーンを探すことができるようにする。
【解決手段】画像処理装置の探索制御部は、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを表示部に表示させる。本技術は、例えば、所望のシーンを探索するための画像処理装置等に適用できる。
【選択図】図１

Description

本技術は、画像処理装置、画像処理方法、およびプログラムに関し、特に、画像の空間的特徴量からは探し出すことが難しいシーンを探すことができるようにする画像処理装置、画像処理方法、およびプログラムに関する。

多数の動画コンテンツを記憶したデータベースのなかから、あるシーンに類似する類似シーンを検索する技術が多数提案されている。

類似シーンの検索は、通常、検索したいシーン（検索シーン）の特徴量を抽出して、データベースに記憶されている他の動画コンテンツのなかで、検索シーンと同様の特徴量を有するシーンを、類似シーンとして検出するものである。

抽出される特徴量としては、例えば、動画像を構成する画像（静止画）の空間的な情報、例えば、色空間情報のヒストグラムやエッジのヒストグラムなどを用いたものがある（例えば、特許文献１参照）。また、所望のコンテンツを容易に検索できるようにするため、メタデータを用いて、コンテンツを複数のカテゴリのいずれかに予め分類しておく場合もある（例えば、特許文献２参照）。

特開２０１０−９７２４６号公報特開２００８−７０９５９号公報

しかしながら、画像の空間的特徴量が類似するものを検出するようなシーン検索では、シーンに意味的には関連するが、空間的特徴量的にはまったく関連がないシーンを探し出すことは難しい。例えば、編集時において、関ケ原の合戦で徳川家康のシーン後に敗走する石田光成のシーンが欲しくても、徳川家康のシーンの特徴量からは石田光成のシーンを探し出すことは難しい。

本技術は、このような状況に鑑みてなされたものであり、画像の空間的特徴量からは探し出すことが難しいシーンを探すことができるようにするものである。

本技術の一側面の画像処理装置は、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部を備える。

本技術の一側面の画像処理方法は、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させるステップを含む。

本技術の一側面のプログラムは、コンピュータを、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部として機能させるためのものである。

本技術の一側面においては、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューが所定の表示部に表示される。

なお、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

画像処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

本技術の一側面によれば、画像の空間的特徴量からは探し出すことが難しいシーンを探すことができる。

本技術が適用された画像処理装置の一実施の形態の構成例を示すブロック図である。コンテンツビューの例を示す図である。リレーションシップビューの例を示す図である。コンテンツビューとリレーションシップビューの概念を説明する図である。メタデータ生成部の詳細構成を示す図である。登場パターンの生成について説明する図である。ノイズ除去処理について説明する図である。ノイズ除去処理について説明する図である。パターン圧縮処理について説明する図である。パターン圧縮処理について説明する図である。人物関係情報生成部の処理について説明する図である。人物関係情報生成部の処理について説明する図である。人物関係情報生成部の処理について説明する図である。人物関係情報生成部の処理について説明する図である。統計情報算出部の処理について説明する図である。メタデータ生成処理を説明するフローチャートである。第１のコンテンツ探索処理を説明するフローチャートである。コンテンツビューからリレーションシップビューへの遷移を説明する図である。リレーションシップビューからコンテンツビューへの遷移を説明する図である。コンテンツビューからリレーションシップビューへの遷移を説明する図である。第２のコンテンツ探索処理を説明するフローチャートである。リレーションシップビューからコンテンツビューへの遷移を説明する図である。コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。本技術が適用されたコンピュータの一実施の形態の構成例を示すブロック図である。

［画像処理装置の構成例］
図１は、本技術が適用された画像処理装置の一実施の形態の構成例を示すブロック図である。

図１の画像処理装置１は、入力されてきた映像コンテンツ（動画像コンテンツ）を蓄積するとともに、映像コンテンツに登場する登場人物の情報を基に、蓄積されている映像コンテンツのなかから所望の映像コンテンツを検索する装置である。

画像処理装置１は、画像取得部１１、メタデータ生成部１２、記憶部１３、探索制御部１４、表示部１５、および操作部１６により構成される。

画像取得部１１は、他の装置から供給された映像コンテンツのコンテンツデータを取得し、メタデータ生成部１２と記憶部１３に供給する。

メタデータ生成部１２は、画像取得部１１から供給された映像コンテンツ（のコンテンツデータ）のメタデータを生成し、記憶部１３に供給する。メタデータの生成では、記憶部１３に記憶されている他の映像コンテンツのメタデータが必要に応じて参照される。メタデータ生成部１２が生成するメタデータの詳細については後述する。

記憶部１３は、多数の映像コンテンツのコンテンツデータを記憶するコンテンツDB１３Aと、各映像コンテンツのメタデータを記憶するメタデータDB１３Bとを有する。すなわち、画像取得部１１から供給された映像コンテンツのコンテンツデータがコンテンツDB１３Aに記憶され、そのコンテンツデータに対応するメタデータが、メタデータ生成部１２から供給され、メタデータDB１３Bに記憶される。なお、本実施の形態では、コンテンツDB１３AとメタデータDB１３Bが分けられているが、必ずしも分けられている必要はなく、コンテンツデータとメタデータが対応付けられて記憶されていればよい。

探索制御部１４は、ユーザが所望の映像コンテンツを探索（検索）するための画面を表示部１５に表示させ、操作部１６を介して取得されるユーザの指示に基づいて、映像コンテンツを探索する。探索制御部１４は、コンテンツビュー制御部２１とリレーションビュー制御部２２を少なくとも備える。

コンテンツビュー制御部２１は、コンテンツDB１３Aに記憶されている映像コンテンツについて、映像コンテンツに登場する登場人物の統計情報を見ることができるコンテンツビューを、表示部１５に表示させる制御を行う。

リレーションビュー制御部２２は、コンテンツDB１３Aに記憶されている映像コンテンツについて、映像コンテンツに登場する登場人物の人物関係情報を見ることができるリレーションシップビューを、表示部１５に表示させる制御を行う。

表示部１５は、探索制御部１４の制御にしたがい、コンテンツビューやリレーションシップビューなどの画面を表示する。

操作部１６は、表示部１５に表示された画面に従ってユーザがした操作を受け付け、ユーザの操作に対応する操作信号を探索制御部１４に供給する。

以上のように画像処理装置１が構成される。

なお、画像処理装置１の各ブロックの機能は、携帯端末とサーバ装置（クラウドサーバ）などの２以上の装置で分担されて実現されるものでもよい。画像処理装置１の機能が２以上の装置で分担されて実現される場合の各装置の機能分担は任意に決定することができる。

［コンテンツビューの表示例］
図２は、コンテンツビュー制御部２１が表示部１５に表示させるコンテンツビューの例を示している。

図２のコンテンツビュー４０では、コンテンツDB１３Aに記憶されている１以上の映像コンテンツについて、コンテンツ名４１、人物登場比率４２、各登場人物の登場比率４３、シーン構成情報４４、および各登場人物の登場パターン４５が、映像コンテンツごとに表示される。図２の各項目の符号の右下の添え字は、映像コンテンツの識別符号である。

コンテンツ名４１は、映像コンテンツの名称である。人物登場比率４２は、映像コンテンツにおいて人物が登場する場面の比率を表す。各登場人物の登場比率４３は、人物が登場する場面のなかの各登場人物の登場比率を表す。シーン構成情報４４は、映像コンテンツにおいてシーン（場面）が変わるポイントであるシーンチェンジ点の情報に基づくシーン構成を示す情報である。各登場人物の登場パターン４５は、映像コンテンツのなかで各登場人物が登場する箇所（画像）を示す時系列データである。

例えば、コンテンツ名４１₁は、その映像コンテンツの名称が「コンテンツ１」であることを示している。人物登場比率４２₁は、「コンテンツ１」の映像コンテンツ全体における人物の登場比率が５０％であることを示している。登場人物の登場比率４３₁は、人物が登場するシーンの１００％がAさんのシーンであることを示している。

また、シーン構成情報４４₁は、「コンテンツ１」の映像コンテンツが、シーン１（S1）とシーン２（S2）の２つのシーン単位で構成されることを示している。登場人物の登場パターン４５₁は、Aさんがシーン１の前半部分とシーン２の後半部分で登場することを示している。

コンテンツ名４１₂は、その映像コンテンツの名称が「コンテンツ２」であることを示している。人物登場比率４２₂は、「コンテンツ２」の映像コンテンツ全体における人物の登場比率が５０％であることを示している。登場人物の登場比率４３₂は、人物が登場するシーンの１００％がBさんのシーンであることを示している。

また、シーン構成情報４４₂は、「コンテンツ２」の映像コンテンツが、シーン１（S1）とシーン２（S2）の２つのシーン単位で構成されることを示している。登場人物の登場パターン４５₂は、Bさんがシーン１の後半部分とシーン２の前半部分で登場することを示している。

コンテンツ名４１₁₀₀は、その映像コンテンツの名称が「コンテンツ１００」であることを示している。人物登場比率４２₁₀₀は、「コンテンツ１００」の映像コンテンツ全体における人物の登場比率が８０％であることを示している。登場人物の登場比率４３₁₀₀は、人物が登場するシーンのうち、６２．５％がCさんのシーンで、３７．５％がDさんのシーンであることを示している。

また、シーン構成情報４４₁₀₀は、「コンテンツ１００」の映像コンテンツが、シーン１（S1）、シーン２（S2）、およびシーン３（S3）の３つのシーン単位で構成されることを示している。登場人物の登場パターン４５₁₀₀は、Cさんはシーン１の途中からシーン２の途中まで登場していることを示し、DさんはCさんが登場しなくなったシーン２の後半からシーン３の最後まで登場していることを示している。

［リレーションシップビューの表示例］
図３は、リレーションビュー制御部２２が表示部１５に表示させるリレーションシップビューの例を示している。

図３のリレーションシップビュー５０では、例えば、コンテンツDB１３Aに記憶されている映像コンテンツに登場する登場人物ごとに、その人物関係情報が表示される。ここで、人物関係情報は、同一の映像コンテンツまたは同一のシーンにおいて登場人物が同時に登場しているか否かを、リレーションシップ情報として、比率で表したものである。例えば、ある二人の登場人物が、同一の映像コンテンツまたは同一のシーンで同時に登場している場合、その二人の人物関係情報としての比率は大きくなる。

リレーションシップビュー５０の一番上には、Aさんについての人物関係情報が表示されている。

すなわち、リレーションシップ情報R２は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、AさんとBさんが９０％の関係度で関係する映像コンテンツがあることを示している。また、リレーションシップ情報R２１は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、Aさんが、CさんおよびDさんとそれぞれ５０％の関係度で関係する映像コンテンツがあることを示している。リレーションシップ情報R１は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、Aさんと“Unknown1”さんが１０％の関係度で関係する映像コンテンツがあることを示している。

ここで、Aさん、Bさん、Cさん、およびDさんは、後述する顔画像識別部６３Aにより個人が特定されている人物の人物名である。顔画像識別部６３Aにおいて、登録されている人物以外の他の人物であると識別（分類）された場合には、「Unknown1」、「Unknown2」、・・のように人物名が順次付与されて表示される。

Aさんについての人物関係情報の次には、Bさんについての人物関係情報が表示されている。

すなわち、リレーションシップ情報R２は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、AさんとBさんが９０％の関係度で関係する映像コンテンツがあることを示している。このリレーションシップ情報R２は、上述のAさんの最上段のリレーションシップ情報R２と同一であり、Bさんからの視点で表示されたものである。

リレーションシップ情報R５は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、BさんとEさんが７０％の関係度で関係する映像コンテンツがあることを示している。リレーションシップ情報R１１は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、BさんとFさんが６９％の関係度で関係する映像コンテンツがあることを示している。リレーションシップ情報R３は、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、Bさんと“Unknown8”さんが３％の関係度で関係する映像コンテンツがあることを示している。

このように、リレーションシップビュー５０では、コンテンツDB１３Aに記憶されている映像コンテンツに登場する登場人物ごとに、その人物関係情報が、関係度の大きい順などの所定の順序で表示される。

［処理概念図］
図４は、コンテンツビュー４０とリレーションシップビュー５０の概念を説明する図である。

コンテンツビュー制御部２１が表示するコンテンツビュー４０では、どの映像コンテンツに誰がどのくらいの割合で登場しているかなど、映像コンテンツに登場する登場人物の統計情報を知ることができる。

従って、コンテンツビュー４０によれば、例えば、図４に示されるように、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、Aさんが登場している映像コンテンツ１（コンテンツ名「コンテンツ１」）があることがわかる。また、Bさんが登場している映像コンテンツ８（コンテンツ名「コンテンツ８」）や、CさんとDさんが登場している映像コンテンツ３３（コンテンツ名「コンテンツ３３」）があることがわかる。

一方、リレーションビュー制御部２２が表示するリレーションシップビュー５０では、映像コンテンツの登場人物の関係性を知ることができる。

例えば、図４に示されるリレーションシップビュー５０のリレーションシップ情報R２により、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、AさんとBさんが９０％の関係度で関係する映像コンテンツがあることがわかる。AさんとBさんの関連性を示すリレーションシップ情報R２は、映像コンテンツ１と映像コンテンツ８の登場人物に基づく人物関係情報であり、リレーションシップ情報R２には、映像コンテンツ１と映像コンテンツ８が紐付けられている。

また例えば、リレーションシップビュー５０のリレーションシップ情報R２１により、コンテンツDB１３Aに記憶されている映像コンテンツのなかに、AさんとCさん及びDさんが５０％の関係度で関係する映像コンテンツがあることがわかる。このリレーションシップ情報R２１は、映像コンテンツ１と映像コンテンツ３３の登場人物に基づく人物関係情報であり、リレーションシップ情報R２１には、映像コンテンツ１と映像コンテンツ３３が紐付けられている。

［メタデータ生成部１２の詳細構成例］
図５を参照して、映像コンテンツのメタデータの生成について説明する。図５は、メタデータ生成部１２の詳細構成を示している。

メタデータ生成部１２は、静止画抽出部６１、シーンチェンジ点検出部６２、特徴量抽出部６３、ノイズ除去部６４、パターン圧縮部６５、人物関係情報生成部６６、および統計情報算出部６７により構成される。

静止画抽出部６１は、映像コンテンツを構成する複数の静止画のなかから、例えば、１秒ごとなどの一定の時間間隔で静止画を抽出し、映像コンテンツを要約した複数枚の静止画からなる時系列データを生成する。ここで、抽出された複数枚の静止画の時系列データを、以下では、静止画時系列データという。

シーンチェンジ点検出部６２は、静止画時系列データからシーンチェンジ点を検出する。シーンチェンジ点は、連続する静止画のなかで、場面が変わるポイントであり、ポイントの前後の静止画では輝度値の差異（変化）が大きいので、その輝度値の差異などを検出することによりシーンチェンジ点を検出することができる。例えば、番組の本編からコマーシャルに切り替わるポイントや、夜の場面から昼間の場面に切り替わるポイントが、シーンチェンジ点として検出される。シーンチェンジは、映像コンテンツの内容に依存するため、映像コンテンツ毎に、シーンチェンジが検出される間隔などは異なる。なお、シーンチェンジ点の検出には、既知の任意のシーンチェンジ点検出技術を採用することができる。

シーンチェンジ点検出部６２は、検出されたシーンチェンジ点を示すシーンチェンジ点情報を生成し、記憶部１３のメタデータDB１３Bに供給して記憶させる。

特徴量抽出部６３は、静止画時系列データにおける人物の登場を示す時系列パターンである登場パターンを、映像コンテンツの特徴量として抽出する。特徴量抽出部６３は、その内部に、画像中の顔画像を認識して人物（個人）を識別する顔画像識別部６３Aを有しており、特徴量抽出部６３では、静止画に登場する人物ごとに、登場パターンが生成される。

例えば、映像コンテンツ１（Content1）の静止画時系列データが５枚の画像からなり、最初の２枚にはAさんが映っておらず、後半の３枚にAさんが映っているような場合、Aさんが映っているときを“1”、映っていないときを“0”で表し、A of Content1＝｛0,0,1,1,1｝のように、Aさんの登場パターンが生成される。

顔画像識別部６３Aには、個人を特定するための顔画像が予め登録されている。

なお、特徴量抽出部６３では、人物を識別して、登場人物ごとの登場の有無を示す時系列データが生成できればよいので、人物の識別方法は、顔画像認識技術に限定されない。例えば、話者認識技術など用いて登場人物を識別してもよい。

ノイズ除去部６４は、特徴量抽出部６３で生成された各登場人物の登場パターンのノイズを除去するノイズ除去処理を行う。ノイズ除去処理の詳細については、図７および図８を参照して後述する。

パターン圧縮部６５は、ノイズ除去処理後の登場パターンを圧縮処理し、処理後の登場パターンを人物関係情報生成部６６に供給するとともに、メタデータDB１３Bにも供給して記憶させる。パターン圧縮処理の詳細については、図９および図１０を参照して後述する。

なお、ノイズ除去部６４とパターン圧縮部６５の構成は省略することができる。あるいは、ノイズ除去処理とパターン圧縮処理の実行のオン・オフを設定する設定画面を設け、そこでの設定値に基づいて、ノイズ除去部６４とパターン圧縮部６５が、処理を実行するかどうかを制御してもよい。

人物関係情報生成部６６は、リレーションシップビューのリレーションシップ情報を表示するための人物関係情報を生成し、メタデータDB１３Bに供給して記憶させる。人物関係情報の生成方法については後述する。

また、人物関係情報生成部６６は、パターン圧縮部６５から供給された各登場人物の登場パターンを、登場人物統計情報生成のために、統計情報算出部６７に供給する。

統計情報算出部６７は、人物関係情報生成部６６から供給された各登場人物の登場パターンに基づいて、登場人物統計情報を生成し、メタデータDB１３Bに供給して記憶させる。具体的には、統計情報算出部６７は、映像コンテンツの静止画時系列データにおいて人物が登場する割合である人物登場比率と、登場人物ごとの登場比率（登場頻度）を算出し、登場人物統計情報として、記憶部１３に供給して記憶させる。例えば、ある６０枚の静止画時系列データにおいて、Aさんが１５枚の静止画に登場し、Bさんが５枚の静止画に登場している場合、人物登場比率は、２０／６０＝３３％であり、Aさんの登場比率は１５／２０＝７５％、Bさんの登場比率は５／２０＝１５％となる。

［特徴量抽出部６３の処理］
次に、図６を参照して、特徴量抽出部６３による登場パターンの生成について説明する。

例えば、図６に示されるような映像コンテンツ１の静止画時系列データがあるとする。

すなわち、映像コンテンツ１の静止画時系列データは、シーン１，２，３の３つのシーン単位で構成される。また、映像コンテンツ１の静止画時系列データは、７枚の静止画で構成され、そのうちの最初の３枚がシーン１に属し、次の３枚がシーン２に属し、最後の（７枚目の）静止画のみがシーン３に属する。

そして、映像コンテンツ１の静止画時系列データには、Aさん、Bさん、Cさんの３人の人物が登場する。より具体的には、最初の２枚の静止画にはAさんが登場し、３枚目の静止画にはBさんが登場し、４枚目の静止画にはCさんが登場し、５乃至７枚目の静止画には、AさんとBさんの２人が登場する。

このような映像コンテンツ１の静止画時系列データに対し、特徴量抽出部６３は、Aさんの登場パターンA0 of Content1、Bさんの登場パターンB0 of Content1、及び、Cさんの登場パターンC0 of Content1を、以下のように生成する。
A0 of Content1 =｛1,1,0,0,1,1,1｝
B0 of Content1 =｛0,0,1,0,1,1,1｝
C0 of Content1 =｛0,0,0,1,0,0,0｝

［ノイズ除去部６４の処理］
映像コンテンツのシーンが目まぐるしく変化すれば、登場パターンも細かく変化する。しかし、そのような微細な変化は、映像コンテンツ全体の流れという観点からはノイズと考えてよい場合がある。そこで、ノイズ除去処理により、そのような微細な変化を除去して、映像コンテンツをおおまかに表現することができる。

図７は、ノイズ除去部６４のノイズ除去処理の例を示している。図７上側は、ノイズ除去処理前の映像コンテンツの静止画時系列データとその登場パターンを示し、図７下側は、ノイズ除去処理後の映像コンテンツの静止画時系列データとその登場パターンを示している。

例えば、ノイズ除去処理前の映像コンテンツのシーン１は、「前半はAさんから始まり、２秒後と８秒後にAさんが一瞬消える。後半で登場人物がAさんからBさんに交代し、Bさん登場から１秒後にBさんが一瞬消える」ことを表している。

ノイズ除去処理後の映像コンテンツのシーン１は、「前半にAさんが登場し、後半にBさんが登場する」ことを表し、シーン１が要約されている。ノイズ除去処理では、このように、映像コンテンツの登場パターンの微細な変化を省略し、映像コンテンツをおおまかに表現して要約することができる。

図８は、ノイズ除去処理の具体的処理方法を示している。

ノイズ除去処理には、平滑化フィルタを用いることができる。図８では、ある映像コンテンツのシーン１の登場パターンA0に対して、フィルタタップ数を「３」とした場合のノイズ除去処理例が示されている。

登場パターンA0に対して、フィルタタップ数「３」の平滑化フィルタ処理を行い、フィルタ処理後のデータを四捨五入することで、ノイズ除去処理後の登場パターンA3が得られる。

［パターン圧縮部６５の処理］
次に、図９と図１０を参照して、パターン圧縮部６５によるパターン圧縮処理について説明する。

パターン圧縮処理には、登場パターンを、シーン単位に区切って圧縮する方法と、シーン単位に区切らずに圧縮する方法がある。

図９は、図６に示した映像コンテンツ１の登場パターンA0およびB0に対して、シーン単位に区切って圧縮処理を施した登場パターンA1およびB1を示している。

圧縮処理では、登場パターンにおいて同一の値が続いている場合、２番目以降の値が削除される。ただし、シーン単位に区切って圧縮処理するので、同じ値が続いている場合でも、シーンが変わったときの値は削除されない。

従って、映像コンテンツ１の登場パターンA0およびB0を圧縮処理した登場パターンA1およびB1は、以下のようになる。
A1 of Content1 =｛1,0,0,1,1｝
B1 of Content1 =｛0,1,0,1,1｝

図１０は、図６に示した映像コンテンツ１の登場パターンA0およびB0に対して、シーン単位に区切らず圧縮処理した登場パターンA2およびB2を示している。シーン単位に区切らず圧縮処理した映像コンテンツ１の登場パターンA2およびB2は、以下のようになる。
A2 of Content1 =｛1,0,1｝
B2 of Content1 =｛0,1,0,1｝

シーン単位に区切らず圧縮処理した場合、圧縮処理後の映像コンテンツ１の登場パターンA2と登場パターンB2は、データ数が異なる。しかし、人物関係情報生成部６６および統計情報算出部６７で、人物関係情報および登場人物統計情報を生成する場合には、各登場人物のデータ数は揃っている方が都合がよい。そこで、パターン圧縮部６５は、各登場人物のデータ数が異なる場合、データ数の多い登場パターンに、データ数の少ない登場パターンのデータ数を合わせる処理も行う。具体的には、パターン圧縮部６５は、図１０において破線で示されるように、登場パターンB2に対して欠けている登場パターンA2の要素の箇所に、圧縮処理前の値（“0”）を挿入することで、登場パターンA2のデータ数を登場パターンB2のデータ数に合わせる。
A2 of Content1 =｛1,0,1｝ →｛1,0,0,1｝

［人物関係情報生成部６６の処理］
次に、図１１乃至図１４を参照して、人物関係情報生成部６６の処理について説明する。

人物関係情報生成部６６は、画像取得部１１から供給された映像コンテンツに登場する各人物に着目し、着目した人物に関連する他の人物を検索する。そして、人物関係情報生成部６６は、着目した人物に関連する他の人物を、αタイプ、βタイプ、γタイプ、およびδタイプのいずれかに分類する。

αタイプ、βタイプ、γタイプ、およびδタイプは、以下のように定義される。
αタイプ：同一映像コンテンツ内で、着目した人と同一シーンに登場している人
βタイプ：他の映像コンテンツ内で、着目した人と同一シーンに登場している人
γタイプ：同一映像コンテンツ内で、着目した人と別のシーンに登場している人
δタイプ：他の映像コンテンツ内で、着目した人と別のシーンに登場している人

例えば、画像取得部１１から、図１２に示される映像コンテンツ２１が供給されたとする。映像コンテンツ２１は、コンテンツの最初のｔ１時間が、Cさんが登場するシーンで構成され、次のｔ２時間が、人物なしのシーンで構成され、さらに次のｔ３時間が、AさんとBさんが同時に登場するシーンで構成されるコンテンツである。

また、記憶部１３には、図１２に示される映像コンテンツ２２が記憶されているとする。映像コンテンツ２２は、コンテンツの最初のｔ４時間が、Dさんが登場するシーンで構成され、次のｔ５時間が、人物なしのシーンで構成され、さらに次のｔ６時間が、AさんとEさんが同時に登場するシーンで構成されるコンテンツである。

この場合、映像コンテンツ２１のAさんに着目すると、Bさんはαタイプに分類され、Cさんはγタイプに分類され、Eさんはβタイプに分類され、Dさんはδタイプに分類される。

次に、人物関係情報生成部６６は、着目した人物に関連する他の人物を分類したタイプに応じて、図１１に示すように、αタイプ、βタイプ、γタイプ、δタイプの順に強い関係となるように、着目した人物との関係度を算出する。

まず、人物関係情報生成部６６は、着目した人物に関連する人物を、登場時間に応じてスコア化する。図１２に示されるように、AさんとBさんのスコアSCORE(A,B)は、ｔ３／（ｔ１＋ｔ３）で算出される。AさんとCさんのスコアSCORE(A,C)は、ｔ１／（ｔ１＋ｔ３）で算出される。同様に、AさんとEさんのスコアSCORE(A,E)は、ｔ６／（ｔ４＋ｔ６）で、AさんとDさんのスコアSCORE(A,D)は、ｔ４／（ｔ４＋ｔ６）で算出される。

次に、人物関係情報生成部６６は、αタイプ、βタイプ、γタイプ、δタイプの順に強い関係となるように設定された関係度係数Ｋを、算出されたスコアに乗算することで、各登場人物との関係度を計算する。

関係度係数Ｋは、例えば、図１３に示されるように、αタイプの関係度係数Ｋ_α＝１．０、βタイプの関係度係数Ｋ_β＝０．７５、γタイプの関係度係数Ｋ_γ＝０．５、δタイプの関係度係数Ｋ_δ＝０．２５のように設定されている。

したがって、AさんとBさんの関係度R(A,B)は、以下で算出される。
R(A,B)＝SCORE(A,B)×Ｋ_α×１００％＝SCORE(A,B)×１．０×１００％

同様に、AさんとCさんの関係度R(A,C)、AさんとEさんの関係度R(A,E)、およびAさんとDさんとの関係度R(A,D)は、以下で算出される。
R(A,C)＝SCORE(A,C)×Ｋ_γ×１００％＝SCORE(A,C)×０．５×１００％
R(A,E)＝SCORE(A,E)×Ｋ_β×１００％＝SCORE(A,E)×０．７５×１００％
R(A,D)＝SCORE(A,D)×Ｋ_δ×１００％＝SCORE(A,D)×０．２５×１００％

以上のように、画像取得部１１から供給された映像コンテンツに登場する各人物に着目して、着目した人物と関連のある他の人物との関係度が算出され、人物関係情報として、記憶部１３のメタデータDB１３Bに格納される。

なお、上述した例では、着目した人物と関連のある他の人物とのスコアを、人物が登場する全時間に対する、着目した人物の登場時間としたが、映像コンテンツ全時間に対する、着目した人物の登場時間としてもよい。すなわち、図１２の例で言えば、SCORE(A,B)＝ｔ３／（ｔ１＋ｔ２＋ｔ３）、SCORE(A,C)＝ｔ１／（ｔ１＋ｔ２＋ｔ３）、SCORE(A,E)＝ｔ６／（ｔ４＋ｔ５＋ｔ６）、SCORE(A,D)＝ｔ４／（ｔ４＋ｔ５＋ｔ６）のようにスコアを算出してもよい。

また、パターン圧縮処理を行っていない場合には、着目した人物と関連のある他の人物とのスコアを、コンテンツの時間比ではなく、各人物が登場する静止画の枚数をカウントすることで計算することもできる。

上述した例では、着目した人物と同時に登場している人ほど、強い関係となるように、関係度係数Ｋが設定されていたが、関係度係数Ｋは操作部１６から任意の値に設定することができる。

例えば、図１４Aに示されるように、着目した人物と同時に登場している人ほど弱い関係となるように、弱い関係を強調する関係度係数Ｋを設定することができる。図１４Aの例では、αタイプの関係度係数Ｋ_α＝０．２５、βタイプの関係度係数Ｋ_β＝０．５、γタイプの関係度係数Ｋ_γ＝０．７５、δタイプの関係度係数Ｋ_δ＝１．０に設定されている。

また、図１４Bに示されるように、関係度係数Ｋを一定にして、登場時間のみに応じて関係度が設定されるようにすることもできる。

なお、関係度係数Ｋが変更された場合には、各映像コンテンツの登場人物ごとに、関係度が再計算される。

［統計情報算出部６７の処理］
次に、統計情報算出部６７の処理について説明する。

図１５は、図６に示した映像コンテンツ１の登場パターンに対して、統計情報算出部６７が登場人物統計情報を生成した結果を示している。

統計情報算出部６７は、映像コンテンツ１の静止画時系列データにおいて人物が登場する割合である人物登場比率を計算する。図６に示した映像コンテンツ１の例では、７枚の静止画時系列データのうちの７枚全てに人物が登場しているので、人物登場比率は、７／７＝１００％となる。

また、統計情報算出部６７は、Aさんの登場比率を計算する。図６に示した映像コンテンツ１の例では、人物が登場する７枚の静止画のうち、５枚にAさんが登場しているので、Aさんの登場比率は、５／７＝７１％となる。

また、統計情報算出部６７は、Bさんの登場比率を計算する。図６に示した映像コンテンツ１の例では、人物が登場する７枚の静止画のうち、４枚にBさんが登場しているので、Bさんの登場比率は、４／７＝５７％となる。

また、統計情報算出部６７は、Cさんの登場比率を計算する。図６に示した映像コンテンツ１の例では、人物が登場する７枚の静止画のうち、１枚にCさんが登場しているので、Cさんの登場比率は、１／７＝１４％となる。

したがって、統計情報算出部６７は、人物登場比率＝１００％、Aさんの登場比率＝７１％、Bさんの登場比率＝５７％、及び、Cさんの登場比率＝１４％を、登場人物統計情報として、記憶部１３のメタデータDB１３Bに記憶させる。

なお、図１５の例では、圧縮処理されていない登場パターンを用いて、静止画の枚数をカウントして人物登場比率と各登場人物の登場比率を算出したが、登場パターンが圧縮処理されている場合には、図１２のスコアと同様に、登場時間を用いて、人物登場比率と各登場人物の登場比率を算出することができる。

［メタデータ生成処理の処理フロー］
次に、図１６のフローチャートを参照して、画像処理装置１に映像コンテンツが入力された場合に実行される、映像コンテンツのメタデータを生成するメタデータ生成処理について説明する。

初めに、ステップＳ１において、画像取得部１１は、映像コンテンツのコンテンツデータを取得し、取得した映像コンテンツのコンテンツデータを、記憶部１３のコンテンツDB１３Aに記憶させるとともに、メタデータ生成部１２にも供給する。

ステップＳ２において、メタデータ生成部１２の静止画抽出部６１は、映像コンテンツのコンテンツデータから、一定の時間間隔で静止画を抽出し、映像コンテンツを要約した複数枚の静止画で構成される静止画時系列データを生成する。

ステップＳ３において、シーンチェンジ点検出部６２は、静止画時系列データに対してシーンチェンジ点を検出して、シーンチェンジ点情報を生成し、メタデータDB１３Bに供給して記憶させる。

ステップＳ４において、特徴量抽出部６３は、映像コンテンツの特徴量を抽出する。具体的には、特徴量抽出部６３は、静止画時系列データにおける人物の登場を示す時系列データである登場パターンを登場人物ごとに生成する。生成された特徴量としての各登場人物の登場パターンは、メタデータDB１３Bに供給されて記憶される。

ステップＳ５において、ノイズ除去部６４は、各登場人物の登場パターンのノイズ除去処理を行う。

ステップＳ６において、パターン圧縮部６５は、ノイズ除去処理後の各登場人物の登場パターンに対して、パターン圧縮処理を行い、圧縮処理後の登場パターンを、メタデータDB１３Bに供給して記憶させる。

なお、メタデータ生成部１２は、ノイズ除去処理や圧縮処理を行う前の各登場人物の登場パターンについてもメタデータDB１３Bに保存しておくことが望ましい。これにより、ノイズ除去処理や圧縮処理を、必要に応じて後で行うことができる。

ステップＳ７において、人物関係情報生成部６６は、画像取得部１１から供給された映像コンテンツに登場する各登場人物の登場人物関係情報を生成する。すなわち、人物関係情報生成部６６は、映像コンテンツに登場する各登場人物に着目して、着目した人物と関連のある他の人物との関係度を算出し、算出結果を、登場人物関係情報として、メタデータDB１３Bに供給して記憶させる。

ステップＳ８において、統計情報算出部６７は、人物関係情報生成部６６から供給された各登場人物の登場パターンに基づいて、登場人物統計情報を生成する。すなわち、統計情報算出部６７は、映像コンテンツの人物登場比率と、各登場人物の登場比率を算出する。そして、統計情報算出部６７は、算出した登場人物統計情報を、メタデータDB１３Bに供給して記憶させる。

以上で、メタデータ生成処理が終了する。

［映像コンテンツの第１の探索方法］
次に、メタデータDB１３Bに記憶されている映像コンテンツのメタデータを用いて、所望の映像コンテンツを探索する探索方法について説明する。

初めに、コンテンツビュー４０を起点として、映像コンテンツの探索を開始する第１の探索方法について説明する。

図１７は、第１の探索方法を適用した第１のコンテンツ探索処理のフローチャートを示している。

初めに、ステップＳ２１において、コンテンツビュー制御部２１は、コンテンツビュー４０を表示部１５に表示させる。例えば、図２に示したコンテンツビュー４０が、ステップＳ２１で表示される。

ユーザは、操作部１６において、コンテンツビュー４０に表示された映像コンテンツの人物統計情報を参考にして、注目する人物（以下、注目人物という。）を選択する操作を行う。すると、操作部１６は、ステップＳ２２において、ユーザが選択した注目人物を特定し、注目人物を示す情報をリレーションビュー制御部２２に供給する。

ステップＳ２３において、リレーションビュー制御部２２は、ユーザが選択した注目人物を操作部１６からの情報により認識し、注目人物の人物関係情報を表示するリレーションシップビュー５０を表示部１５に表示させる。

図１８は、図２に示したコンテンツビュー４０において、「コンテンツ１」が選択されたことにより、登場人物「Aさん」が注目人物として決定された場合の、コンテンツビュー４０からリレーションシップビュー５０への遷移を示している。図１８左側のコンテンツビュー４０が、ステップＳ２１の処理で表示され、図１８右側のリレーションシップビュー５０が、ステップＳ２３の処理で表示される。図１８右側のリレーションシップビュー５０では、注目人物として決定された登場人物「Aさん」の人物関係情報が表示されている。

ユーザは、操作部１６において、リレーションシップビュー５０に表示された注目人物の人物関係情報を参考にして、注目人物に関連する人物（以下、関連人物という。）を選択する操作を行う。すると、操作部１６は、ステップＳ２４において、ユーザが選択した関連人物を特定し、その関連人物を示す情報をコンテンツビュー制御部２１に供給する。

ステップＳ２５において、コンテンツビュー制御部２１は、ユーザが選択した関連人物を操作部１６からの情報により認識し、関連人物の映像コンテンツについてのコンテンツビュー４０を表示部１５に表示させる。

図１９は、図１８に示したリレーションシップビュー５０において、リレーションシップ情報R２が選択されたことにより、登場人物「Aさん」と９０％の関係度で関連付けられている登場人物「Bさん」が関連人物として決定された場合の、リレーションシップビュー５０からコンテンツビュー４０への遷移を示している。

図１９右側に示されるコンテンツビュー４０では、選択された関連人物「Bさん」に関連する映像コンテンツの人物統計情報が表示されている。

関連人物「Bさん」に関連する映像コンテンツには、例えば、「コンテンツ２」と「コンテンツ３」がある。「コンテンツ２」の映像コンテンツは、人物の登場する割合が５０％であり、そのうちの１００％がBさんのシーンであることを示している。「コンテンツ３」の映像コンテンツは、人物の登場する割合が２５％であり、そのうちの７０％がBさんのシーンで、３０％がUnknown1（U1）さんのシーンであることを示している。

以上のように、映像コンテンツの登場人物の関連性から、所望の映像コンテンツを探索することができる。

なお、図２０に示すように、関連人物である「Bさん」のコンテンツビュー４０から、さらに、「Bさん」のリレーションシップビュー５０へ遷移させるようにすることも可能である。このように、コンテンツビュー４０によるコンテンツ選択とリレーションシップビュー５０による人物関係情報の選択を繰り返すことにより、所望の映像コンテンツにたどり着くことができる。

例えば、デジタルカメラで最近撮影した映像コンテンツを使って、以前に撮りためた映像コンテンツのなかから、最近撮影した映像コンテンツの登場人物に関連するシーンを取得するようなことが可能となり、映像コンテンツの再利用に貢献することができる。

［映像コンテンツの第２の探索方法］
次に、リレーションシップビュー５０を起点として、映像コンテンツの探索を開始する第２の探索方法について説明する。

図２１は、第２の探索方法を適用した第２のコンテンツ探索処理のフローチャートを示している。

第２のコンテンツ探索処理では、初めに、ステップＳ４１において、リレーションビュー制御部２２は、リレーションシップビュー５０を表示部１５に表示させる。ここでは、メタデータDB１３Bに記憶されている全ての映像コンテンツのメタデータに基づいて、全ての映像コンテンツに登場する全ての登場人物の人物関係情報（リレーションシップ情報）が表示される。

ユーザは、操作部１６において、リレーションシップビュー５０に表示された人物関係情報のなかから、所望の人物関係情報を選択する操作を行う。すると、ステップＳ４２において、操作部１６は、ユーザが選択した人物関係情報を特定し、その人物関係情報を示す情報をコンテンツビュー制御部２１に供給する。

ステップＳ４３において、コンテンツビュー制御部２１は、ユーザが選択した人物関係情報に紐付けられている映像コンテンツの人物統計情報を、コンテンツビュー４０に表示させる。

図２２は、全ての映像コンテンツについての人物関係情報を示すリレーションビュー５０において、「Aさん」と「Bさん」が９０％の関係度を有するリレーションシップ情報R２が選択されたときの、リレーションシップビュー５０からコンテンツビュー４０への遷移を示している。図２２左側のリレーションビュー５０が、ステップＳ４１の処理で表示され、図２２右側のコンテンツビュー４０が、ステップＳ４３の処理で表示される。

「Aさん」と「Bさん」が９０％の関係度を有するリレーションシップ情報R２は、「コンテンツ２２」における「Aさん」と「Bさん」の関係度を示したものであるため、図２２右側のコンテンツビュー４０には、「コンテンツ２２」の登場人物統計情報が表示されている。

［GUI画面例］
次に、上述したコンテンツビュー４０とリレーションシップビュー５０を利用したGUI画面の例について説明する。

図２３に示されるGUI画面１００は、コンテンツDB１３Aに記憶されている映像コンテンツのダイジェスト（要約）を見ることができるとともに、ダイジェストを表示した映像コンテンツに登場する登場人物の関連性から、所望の映像コンテンツを探索する機能を有する。このGUI画面１００は、メタデータDB１３Bに記憶されているコンテンツのメタデータを利用して探索制御部１４により生成されて表示部１５に表示される。

GUI画面１００は、タイムライン表示部１１１、静止画ビューワ（静止画表示部）１１２、登場人物表示部１１３、リレーションシップビュー１１４、および、コンテンツビュー１１５を有する。

タイムライン表示部１１１には、タイムライン１２１とインジケータ１２２が表示されている。

タイムライン１２１は、映像コンテンツの各時刻における登場人物を表示する。タイムライン１２１は矩形となっており、その横幅は映像コンテンツの再生時間に対応し、矩形の横軸が、左端を開始時刻、右端を終了時刻とする時間軸となっている。

ユーザは、インジケータ１２２を横方向に移動させることにより、映像コンテンツの所定の時刻を指定することができる。静止画ビューワ１１２には、インジケータ１２２によって指し示された時刻に対応する静止画が表示される。図２３の例では、インジケータ１２２によって指し示された時刻Pの静止画が、静止画ビューワ１１２に表示されている。

また、インジケータ１２２によって指し示された時刻に対応する静止画に人物が登場する場合、その登場人物の顔画像が、登場人物表示部１１３に表示される。図２３の例では、時刻Pの静止画は風景シーンであり、人物が登場しないため、登場人物表示部１１３には、何も表示されていない（「登場人物なし」と表示されている）。

リレーションシップビュー１１４は、上述したリレーションシップビュー５０に対応するものであり、映像コンテンツに登場する登場人物の人物関係情報を表示する。コンテンツビュー１１５は、上述したリレーションシップビュー５０に対応するものであり、映像コンテンツに登場する登場人物の統計情報を表示する。ただし、リレーションシップビュー１１４およびコンテンツビュー１１５は、登場人物が確定しないと表示できないため、この段階では、何も表示されていない。

ユーザによってインジケータ１２２が移動されて、例えば、図２４に示すように、登場人物として「Aさん」と「Bさん」が登場するシーンである時刻Qが指し示されると、時刻Qの静止画が、静止画ビューワ１１２に表示されるとともに、登場人物表示部１１３に、「Aさん」と「Bさん」の人物顔が表示される。

登場人物表示部１１３に表示された「Aさん」と「Bさん」のうち、図２５に示すように、カーソル等により「Aさん」が注目人物として選択されると、リレーションシップビュー１１４に、「Aさん」の人物関係情報が表示される。

そして、例えば、リレーションシップビュー１１４に表示された注目人物「Aさん」についての人物関係情報のなかから、図２６に示すように、９０％の関係度で関連付けられている登場人物「Bさん」との関係性を示すリレーションシップ情報R２が選択される。すると、コンテンツビュー１１５に、「Bさん」に関連する映像コンテンツの統計情報が表示される。すなわち、注目人物「Aさん」に関連する関連人物「Bさん」についての映像コンテンツの統計情報が、コンテンツビュー１１５に表示される。

このようにして、ある映像コンテンツに登場する登場人物を起点として、その登場人物に関連する関連人物の映像コンテンツを探索していくことができる。

なお、上述した例では、リレーションシップビュー１１４において、人物関係情報（リレーションシップ情報）を選択するようにしたが、関連人物を、直接、選択するようにしてもよい。例えば、図２６のリレーションシップビュー１１４において、リレーションシップ情報R２の「Bさん」、リレーションシップ情報R２１の「Cさん」または「Dさん」、リレーションシップ情報R１の「Unknown1さん」を直接選択するようにしてもよい。

以上のように、本技術を適用した画像処理装置１では、映像コンテンツから抽出した静止画時系列データを用いて、映像コンテンツについて、登場人物の人物関係情報および登場人物統計情報が、メタデータとして生成され、記憶される。

そして、画像処理装置１は、予め作成された登場人物の人物関係情報および登場人物統計情報に基づいて、登場人物に関連性がある映像コンテンツを、リレーションシップビュー１１４（リレーションシップビュー５０）またはコンテンツビュー１１５（コンテンツビュー４０）で提示することができる。

登場人物の関連性を利用することで、色空間情報のヒストグラムやエッジのヒストグラムなどの画像の空間的特徴量を用いた場合には検出することができない映像コンテンツのシーンを探索することができる。

また、関係度係数Ｋを変更することにより、登場人物に強い関連性がある映像コンテンツだけでなく、登場人物に関連性がない映像コンテンツを探索していくことも可能であり、関係度係数Ｋを利用することで、登場人物を利用した映像コンテンツの探索において、登場人物の関連性にバリエーションを持たせることができる。

［コンピュータ適用例］
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図２７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロホンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体２１１を駆動する。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータでは、プログラムは、リムーバブル記録媒体２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は以下のような構成も取ることができる。
（１）
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部を備える
画像処理装置。
（２）
前記表示制御部は、前記コンテンツビューにおいて前記統計情報が表示されている所定の登場人物が選択された場合に、選択された登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
前記（１）に記載の画像処理装置。
（３）
前記表示制御部は、前記リレーションシップビューにおいて所定の人物関係情報が選択された場合に、選択された人物関係情報の登場人物の前記統計情報を、前記コンテンツビューに表示させる
前記（１）または（２）に記載の画像処理装置。
（４）
前記表示制御部は、前記コンテンツビューと前記リレーションシップビューを同時に前記表示部に表示させる
前記（１）乃至（３）のいずれかに記載の画像処理装置。
（５）
前記表示制御部は、映像コンテンツに対して指定された所定の時刻に人物が登場する場合、その登場人物の顔画像をさらに前記表示部に表示させる
前記（１）乃至（４）のいずれかに記載の画像処理装置。
（６）
前記表示制御部は、前記表示部に表示されている前記顔画像が選択された場合に、その顔画像の登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
前記（５）に記載の画像処理装置。
（７）
映像コンテンツのメタデータとして、前記統計情報と前記人物関係情報を生成するメタデータ生成部と、
生成された前記メタデータを記憶する記憶部と
をさらに備える
前記（１）乃至（６）のいずれかに記載の画像処理装置。
（８）
前記統計情報は、映像コンテンツにおいて前記登場人物が登場する割合である人物登場比率と、前記登場人物ごとの登場比率である
前記（１）乃至（７）のいずれかに記載の画像処理装置。
（９）
前記人物関係情報は、同一の映像コンテンツまたは同一のシーンに前記登場人物が同時に登場している比率である
前記（１）乃至（８）のいずれかに記載の画像処理装置。
（１０）
前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合の関係度の強さが、関係度係数により調整される
前記（９）に記載の画像処理装置。
（１１）
前記関係度係数は、前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合に、関係度が強くなるように調整される
前記（１０）に記載の画像処理装置。
（１２）
前記関係度係数を設定する設定部をさらに備える
前記（１０）または（１１）に記載の画像処理装置。
（１３）
前記メタデータ生成部は、映像コンテンツの静止画を所定の時間間隔で抽出した静止画時系列データから、人物を識別して、識別した人物の登場パターンを生成し、生成した前記登場パターンに基づいて、前記統計情報と前記人物関係情報を生成する
前記（７）乃至（１２）のいずれかに記載の画像処理装置。
（１４）
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる
ステップを含む画像処理方法。
（１５）
コンピュータを、
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部
として機能させるためのプログラム。

１画像処理装置，１２メタデータ生成部，１３記憶部，１４探索制御部，１５表示部，２１コンテンツビュー制御部，２２リレーションビュー制御部，６１静止画抽出部，６２シーンチェンジ点検出部，６３特徴量抽出部，６３A 顔画像認識部，６４ノイズ除去部，６５パターン圧縮部，６６人物関係情報生成部，６７統計情報算出部，２０１ CPU，２０２ ROM，２０３ RAM，２０６入力部，２０７出力部，２０８記憶部，２０９通信部，２１０ドライブ

Claims

映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部を備える
画像処理装置。
前記表示制御部は、前記コンテンツビューにおいて前記統計情報が表示されている所定の登場人物が選択された場合に、選択された登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
請求項１に記載の画像処理装置。
前記表示制御部は、前記リレーションシップビューにおいて所定の人物関係情報が選択された場合に、選択された人物関係情報の登場人物の前記統計情報を、前記コンテンツビューに表示させる
請求項１に記載の画像処理装置。
前記表示制御部は、前記コンテンツビューと前記リレーションシップビューを同時に前記表示部に表示させる
請求項１に記載の画像処理装置。
前記表示制御部は、映像コンテンツに対して指定された所定の時刻に人物が登場する場合、その登場人物の顔画像をさらに前記表示部に表示させる
請求項１に記載の画像処理装置。
前記表示制御部は、前記表示部に表示されている前記顔画像が選択された場合に、その顔画像の登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
請求項５に記載の画像処理装置。
映像コンテンツのメタデータとして、前記統計情報と前記人物関係情報を生成するメタデータ生成部と、
生成された前記メタデータを記憶する記憶部と
をさらに備える
請求項１に記載の画像処理装置。
前記統計情報は、映像コンテンツにおいて前記登場人物が登場する割合である人物登場比率と、前記登場人物ごとの登場比率である
請求項１に記載の画像処理装置。
前記人物関係情報は、同一の映像コンテンツまたは同一のシーンに前記登場人物が同時に登場している比率である
請求項１に記載の画像処理装置。
前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合の関係度の強さが、関係度係数により調整される
請求項９に記載の画像処理装置。
前記関係度係数は、前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合に、関係度が強くなるように調整される
請求項１０に記載の画像処理装置。
前記関係度係数を設定する設定部をさらに備える
請求項１０に記載の画像処理装置。
前記メタデータ生成部は、映像コンテンツの静止画を所定の時間間隔で抽出した静止画時系列データから、人物を識別して、識別した人物の登場パターンを生成し、生成した前記登場パターンに基づいて、前記統計情報と前記人物関係情報を生成する
請求項７に記載の画像処理装置。
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる
ステップを含む画像処理方法。
コンピュータを、
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部
として機能させるためのプログラム。