JP2014068290A - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
JP2014068290A
JP2014068290A JP2012213527A JP2012213527A JP2014068290A JP 2014068290 A JP2014068290 A JP 2014068290A JP 2012213527 A JP2012213527 A JP 2012213527A JP 2012213527 A JP2012213527 A JP 2012213527A JP 2014068290 A JP2014068290 A JP 2014068290A
Authority
JP
Japan
Prior art keywords
video content
content
relationship
person
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012213527A
Other languages
English (en)
Inventor
Kyosuke Yoshida
恭助 吉田
Kenji Tanaka
健司 田中
Yukihiro Nakamura
幸弘 中村
Yoshihiro Takahashi
義博 高橋
Kentaro Fukazawa
健太郎 深沢
Kazumasa Tanaka
和政 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012213527A priority Critical patent/JP2014068290A/ja
Priority to CN201310428994.2A priority patent/CN103702117A/zh
Priority to US14/033,069 priority patent/US9549162B2/en
Publication of JP2014068290A publication Critical patent/JP2014068290A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】画像の空間的特徴量からは探し出すことが難しいシーンを探すことができるようにする。
【解決手段】画像処理装置の探索制御部は、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを表示部に表示させる。本技術は、例えば、所望のシーンを探索するための画像処理装置等に適用できる。
【選択図】図1

Description

本技術は、画像処理装置、画像処理方法、およびプログラムに関し、特に、画像の空間的特徴量からは探し出すことが難しいシーンを探すことができるようにする画像処理装置、画像処理方法、およびプログラムに関する。
多数の動画コンテンツを記憶したデータベースのなかから、あるシーンに類似する類似シーンを検索する技術が多数提案されている。
類似シーンの検索は、通常、検索したいシーン(検索シーン)の特徴量を抽出して、データベースに記憶されている他の動画コンテンツのなかで、検索シーンと同様の特徴量を有するシーンを、類似シーンとして検出するものである。
抽出される特徴量としては、例えば、動画像を構成する画像(静止画)の空間的な情報、例えば、色空間情報のヒストグラムやエッジのヒストグラムなどを用いたものがある(例えば、特許文献1参照)。また、所望のコンテンツを容易に検索できるようにするため、メタデータを用いて、コンテンツを複数のカテゴリのいずれかに予め分類しておく場合もある(例えば、特許文献2参照)。
特開2010−97246号公報 特開2008−70959号公報
しかしながら、画像の空間的特徴量が類似するものを検出するようなシーン検索では、シーンに意味的には関連するが、空間的特徴量的にはまったく関連がないシーンを探し出すことは難しい。例えば、編集時において、関ケ原の合戦で徳川家康のシーン後に敗走する石田光成のシーンが欲しくても、徳川家康のシーンの特徴量からは石田光成のシーンを探し出すことは難しい。
本技術は、このような状況に鑑みてなされたものであり、画像の空間的特徴量からは探し出すことが難しいシーンを探すことができるようにするものである。
本技術の一側面の画像処理装置は、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部を備える。
本技術の一側面の画像処理方法は、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させるステップを含む。
本技術の一側面のプログラムは、コンピュータを、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部として機能させるためのものである。
本技術の一側面においては、映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューが所定の表示部に表示される。
なお、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術の一側面によれば、画像の空間的特徴量からは探し出すことが難しいシーンを探すことができる。
本技術が適用された画像処理装置の一実施の形態の構成例を示すブロック図である。 コンテンツビューの例を示す図である。 リレーションシップビューの例を示す図である。 コンテンツビューとリレーションシップビューの概念を説明する図である。 メタデータ生成部の詳細構成を示す図である。 登場パターンの生成について説明する図である。 ノイズ除去処理について説明する図である。 ノイズ除去処理について説明する図である。 パターン圧縮処理について説明する図である。 パターン圧縮処理について説明する図である。 人物関係情報生成部の処理について説明する図である。 人物関係情報生成部の処理について説明する図である。 人物関係情報生成部の処理について説明する図である。 人物関係情報生成部の処理について説明する図である。 統計情報算出部の処理について説明する図である。 メタデータ生成処理を説明するフローチャートである。 第1のコンテンツ探索処理を説明するフローチャートである。 コンテンツビューからリレーションシップビューへの遷移を説明する図である。 リレーションシップビューからコンテンツビューへの遷移を説明する図である。 コンテンツビューからリレーションシップビューへの遷移を説明する図である。 第2のコンテンツ探索処理を説明するフローチャートである。 リレーションシップビューからコンテンツビューへの遷移を説明する図である。 コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。 コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。 コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。 コンテンツビューとリレーションシップビューを利用したGUI画面の例を示す図である。 本技術が適用されたコンピュータの一実施の形態の構成例を示すブロック図である。
[画像処理装置の構成例]
図1は、本技術が適用された画像処理装置の一実施の形態の構成例を示すブロック図である。
図1の画像処理装置1は、入力されてきた映像コンテンツ(動画像コンテンツ)を蓄積するとともに、映像コンテンツに登場する登場人物の情報を基に、蓄積されている映像コンテンツのなかから所望の映像コンテンツを検索する装置である。
画像処理装置1は、画像取得部11、メタデータ生成部12、記憶部13、探索制御部14、表示部15、および操作部16により構成される。
画像取得部11は、他の装置から供給された映像コンテンツのコンテンツデータを取得し、メタデータ生成部12と記憶部13に供給する。
メタデータ生成部12は、画像取得部11から供給された映像コンテンツ(のコンテンツデータ)のメタデータを生成し、記憶部13に供給する。メタデータの生成では、記憶部13に記憶されている他の映像コンテンツのメタデータが必要に応じて参照される。メタデータ生成部12が生成するメタデータの詳細については後述する。
記憶部13は、多数の映像コンテンツのコンテンツデータを記憶するコンテンツDB13Aと、各映像コンテンツのメタデータを記憶するメタデータDB13Bとを有する。すなわち、画像取得部11から供給された映像コンテンツのコンテンツデータがコンテンツDB13Aに記憶され、そのコンテンツデータに対応するメタデータが、メタデータ生成部12から供給され、メタデータDB13Bに記憶される。なお、本実施の形態では、コンテンツDB13AとメタデータDB13Bが分けられているが、必ずしも分けられている必要はなく、コンテンツデータとメタデータが対応付けられて記憶されていればよい。
探索制御部14は、ユーザが所望の映像コンテンツを探索(検索)するための画面を表示部15に表示させ、操作部16を介して取得されるユーザの指示に基づいて、映像コンテンツを探索する。探索制御部14は、コンテンツビュー制御部21とリレーションビュー制御部22を少なくとも備える。
コンテンツビュー制御部21は、コンテンツDB13Aに記憶されている映像コンテンツについて、映像コンテンツに登場する登場人物の統計情報を見ることができるコンテンツビューを、表示部15に表示させる制御を行う。
リレーションビュー制御部22は、コンテンツDB13Aに記憶されている映像コンテンツについて、映像コンテンツに登場する登場人物の人物関係情報を見ることができるリレーションシップビューを、表示部15に表示させる制御を行う。
表示部15は、探索制御部14の制御にしたがい、コンテンツビューやリレーションシップビューなどの画面を表示する。
操作部16は、表示部15に表示された画面に従ってユーザがした操作を受け付け、ユーザの操作に対応する操作信号を探索制御部14に供給する。
以上のように画像処理装置1が構成される。
なお、画像処理装置1の各ブロックの機能は、携帯端末とサーバ装置(クラウドサーバ)などの2以上の装置で分担されて実現されるものでもよい。画像処理装置1の機能が2以上の装置で分担されて実現される場合の各装置の機能分担は任意に決定することができる。
[コンテンツビューの表示例]
図2は、コンテンツビュー制御部21が表示部15に表示させるコンテンツビューの例を示している。
図2のコンテンツビュー40では、コンテンツDB13Aに記憶されている1以上の映像コンテンツについて、コンテンツ名41、人物登場比率42、各登場人物の登場比率43、シーン構成情報44、および各登場人物の登場パターン45が、映像コンテンツごとに表示される。図2の各項目の符号の右下の添え字は、映像コンテンツの識別符号である。
コンテンツ名41は、映像コンテンツの名称である。人物登場比率42は、映像コンテンツにおいて人物が登場する場面の比率を表す。各登場人物の登場比率43は、人物が登場する場面のなかの各登場人物の登場比率を表す。シーン構成情報44は、映像コンテンツにおいてシーン(場面)が変わるポイントであるシーンチェンジ点の情報に基づくシーン構成を示す情報である。各登場人物の登場パターン45は、映像コンテンツのなかで各登場人物が登場する箇所(画像)を示す時系列データである。
例えば、コンテンツ名411は、その映像コンテンツの名称が「コンテンツ1」であることを示している。人物登場比率421は、「コンテンツ1」の映像コンテンツ全体における人物の登場比率が50%であることを示している。登場人物の登場比率431は、人物が登場するシーンの100%がAさんのシーンであることを示している。
また、シーン構成情報441は、「コンテンツ1」の映像コンテンツが、シーン1(S1)とシーン2(S2)の2つのシーン単位で構成されることを示している。登場人物の登場パターン451は、Aさんがシーン1の前半部分とシーン2の後半部分で登場することを示している。
コンテンツ名412は、その映像コンテンツの名称が「コンテンツ2」であることを示している。人物登場比率422は、「コンテンツ2」の映像コンテンツ全体における人物の登場比率が50%であることを示している。登場人物の登場比率432は、人物が登場するシーンの100%がBさんのシーンであることを示している。
また、シーン構成情報442は、「コンテンツ2」の映像コンテンツが、シーン1(S1)とシーン2(S2)の2つのシーン単位で構成されることを示している。登場人物の登場パターン452は、Bさんがシーン1の後半部分とシーン2の前半部分で登場することを示している。
コンテンツ名41100は、その映像コンテンツの名称が「コンテンツ100」であることを示している。人物登場比率42100は、「コンテンツ100」の映像コンテンツ全体における人物の登場比率が80%であることを示している。登場人物の登場比率43100は、人物が登場するシーンのうち、62.5%がCさんのシーンで、37.5%がDさんのシーンであることを示している。
また、シーン構成情報44100は、「コンテンツ100」の映像コンテンツが、シーン1(S1)、シーン2(S2)、およびシーン3(S3)の3つのシーン単位で構成されることを示している。登場人物の登場パターン45100は、Cさんはシーン1の途中からシーン2の途中まで登場していることを示し、DさんはCさんが登場しなくなったシーン2の後半からシーン3の最後まで登場していることを示している。
[リレーションシップビューの表示例]
図3は、リレーションビュー制御部22が表示部15に表示させるリレーションシップビューの例を示している。
図3のリレーションシップビュー50では、例えば、コンテンツDB13Aに記憶されている映像コンテンツに登場する登場人物ごとに、その人物関係情報が表示される。ここで、人物関係情報は、同一の映像コンテンツまたは同一のシーンにおいて登場人物が同時に登場しているか否かを、リレーションシップ情報として、比率で表したものである。例えば、ある二人の登場人物が、同一の映像コンテンツまたは同一のシーンで同時に登場している場合、その二人の人物関係情報としての比率は大きくなる。
リレーションシップビュー50の一番上には、Aさんについての人物関係情報が表示されている。
すなわち、リレーションシップ情報R2は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、AさんとBさんが90%の関係度で関係する映像コンテンツがあることを示している。また、リレーションシップ情報R21は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、Aさんが、CさんおよびDさんとそれぞれ50%の関係度で関係する映像コンテンツがあることを示している。リレーションシップ情報R1は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、Aさんと“Unknown1”さんが10%の関係度で関係する映像コンテンツがあることを示している。
ここで、Aさん、Bさん、Cさん、およびDさんは、後述する顔画像識別部63Aにより個人が特定されている人物の人物名である。顔画像識別部63Aにおいて、登録されている人物以外の他の人物であると識別(分類)された場合には、「Unknown1」、「Unknown2」、・・のように人物名が順次付与されて表示される。
Aさんについての人物関係情報の次には、Bさんについての人物関係情報が表示されている。
すなわち、リレーションシップ情報R2は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、AさんとBさんが90%の関係度で関係する映像コンテンツがあることを示している。このリレーションシップ情報R2は、上述のAさんの最上段のリレーションシップ情報R2と同一であり、Bさんからの視点で表示されたものである。
リレーションシップ情報R5は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、BさんとEさんが70%の関係度で関係する映像コンテンツがあることを示している。リレーションシップ情報R11は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、BさんとFさんが69%の関係度で関係する映像コンテンツがあることを示している。リレーションシップ情報R3は、コンテンツDB13Aに記憶されている映像コンテンツのなかに、Bさんと“Unknown8”さんが3%の関係度で関係する映像コンテンツがあることを示している。
このように、リレーションシップビュー50では、コンテンツDB13Aに記憶されている映像コンテンツに登場する登場人物ごとに、その人物関係情報が、関係度の大きい順などの所定の順序で表示される。
[処理概念図]
図4は、コンテンツビュー40とリレーションシップビュー50の概念を説明する図である。
コンテンツビュー制御部21が表示するコンテンツビュー40では、どの映像コンテンツに誰がどのくらいの割合で登場しているかなど、映像コンテンツに登場する登場人物の統計情報を知ることができる。
従って、コンテンツビュー40によれば、例えば、図4に示されるように、コンテンツDB13Aに記憶されている映像コンテンツのなかに、Aさんが登場している映像コンテンツ1(コンテンツ名「コンテンツ1」)があることがわかる。また、Bさんが登場している映像コンテンツ8(コンテンツ名「コンテンツ8」)や、CさんとDさんが登場している映像コンテンツ33(コンテンツ名「コンテンツ33」)があることがわかる。
一方、リレーションビュー制御部22が表示するリレーションシップビュー50では、映像コンテンツの登場人物の関係性を知ることができる。
例えば、図4に示されるリレーションシップビュー50のリレーションシップ情報R2により、コンテンツDB13Aに記憶されている映像コンテンツのなかに、AさんとBさんが90%の関係度で関係する映像コンテンツがあることがわかる。AさんとBさんの関連性を示すリレーションシップ情報R2は、映像コンテンツ1と映像コンテンツ8の登場人物に基づく人物関係情報であり、リレーションシップ情報R2には、映像コンテンツ1と映像コンテンツ8が紐付けられている。
また例えば、リレーションシップビュー50のリレーションシップ情報R21により、コンテンツDB13Aに記憶されている映像コンテンツのなかに、AさんとCさん及びDさんが50%の関係度で関係する映像コンテンツがあることがわかる。このリレーションシップ情報R21は、映像コンテンツ1と映像コンテンツ33の登場人物に基づく人物関係情報であり、リレーションシップ情報R21には、映像コンテンツ1と映像コンテンツ33が紐付けられている。
[メタデータ生成部12の詳細構成例]
図5を参照して、映像コンテンツのメタデータの生成について説明する。図5は、メタデータ生成部12の詳細構成を示している。
メタデータ生成部12は、静止画抽出部61、シーンチェンジ点検出部62、特徴量抽出部63、ノイズ除去部64、パターン圧縮部65、人物関係情報生成部66、および統計情報算出部67により構成される。
静止画抽出部61は、映像コンテンツを構成する複数の静止画のなかから、例えば、1秒ごとなどの一定の時間間隔で静止画を抽出し、映像コンテンツを要約した複数枚の静止画からなる時系列データを生成する。ここで、抽出された複数枚の静止画の時系列データを、以下では、静止画時系列データという。
シーンチェンジ点検出部62は、静止画時系列データからシーンチェンジ点を検出する。シーンチェンジ点は、連続する静止画のなかで、場面が変わるポイントであり、ポイントの前後の静止画では輝度値の差異(変化)が大きいので、その輝度値の差異などを検出することによりシーンチェンジ点を検出することができる。例えば、番組の本編からコマーシャルに切り替わるポイントや、夜の場面から昼間の場面に切り替わるポイントが、シーンチェンジ点として検出される。シーンチェンジは、映像コンテンツの内容に依存するため、映像コンテンツ毎に、シーンチェンジが検出される間隔などは異なる。なお、シーンチェンジ点の検出には、既知の任意のシーンチェンジ点検出技術を採用することができる。
シーンチェンジ点検出部62は、検出されたシーンチェンジ点を示すシーンチェンジ点情報を生成し、記憶部13のメタデータDB13Bに供給して記憶させる。
特徴量抽出部63は、静止画時系列データにおける人物の登場を示す時系列パターンである登場パターンを、映像コンテンツの特徴量として抽出する。特徴量抽出部63は、その内部に、画像中の顔画像を認識して人物(個人)を識別する顔画像識別部63Aを有しており、特徴量抽出部63では、静止画に登場する人物ごとに、登場パターンが生成される。
例えば、映像コンテンツ1(Content1)の静止画時系列データが5枚の画像からなり、最初の2枚にはAさんが映っておらず、後半の3枚にAさんが映っているような場合、Aさんが映っているときを“1”、映っていないときを“0”で表し、A of Content1={0,0,1,1,1}のように、Aさんの登場パターンが生成される。
顔画像識別部63Aには、個人を特定するための顔画像が予め登録されている。
なお、特徴量抽出部63では、人物を識別して、登場人物ごとの登場の有無を示す時系列データが生成できればよいので、人物の識別方法は、顔画像認識技術に限定されない。例えば、話者認識技術など用いて登場人物を識別してもよい。
ノイズ除去部64は、特徴量抽出部63で生成された各登場人物の登場パターンのノイズを除去するノイズ除去処理を行う。ノイズ除去処理の詳細については、図7および図8を参照して後述する。
パターン圧縮部65は、ノイズ除去処理後の登場パターンを圧縮処理し、処理後の登場パターンを人物関係情報生成部66に供給するとともに、メタデータDB13Bにも供給して記憶させる。パターン圧縮処理の詳細については、図9および図10を参照して後述する。
なお、ノイズ除去部64とパターン圧縮部65の構成は省略することができる。あるいは、ノイズ除去処理とパターン圧縮処理の実行のオン・オフを設定する設定画面を設け、そこでの設定値に基づいて、ノイズ除去部64とパターン圧縮部65が、処理を実行するかどうかを制御してもよい。
人物関係情報生成部66は、リレーションシップビューのリレーションシップ情報を表示するための人物関係情報を生成し、メタデータDB13Bに供給して記憶させる。人物関係情報の生成方法については後述する。
また、人物関係情報生成部66は、パターン圧縮部65から供給された各登場人物の登場パターンを、登場人物統計情報生成のために、統計情報算出部67に供給する。
統計情報算出部67は、人物関係情報生成部66から供給された各登場人物の登場パターンに基づいて、登場人物統計情報を生成し、メタデータDB13Bに供給して記憶させる。具体的には、統計情報算出部67は、映像コンテンツの静止画時系列データにおいて人物が登場する割合である人物登場比率と、登場人物ごとの登場比率(登場頻度)を算出し、登場人物統計情報として、記憶部13に供給して記憶させる。例えば、ある60枚の静止画時系列データにおいて、Aさんが15枚の静止画に登場し、Bさんが5枚の静止画に登場している場合、人物登場比率は、20/60=33%であり、Aさんの登場比率は15/20=75%、Bさんの登場比率は5/20=15%となる。
[特徴量抽出部63の処理]
次に、図6を参照して、特徴量抽出部63による登場パターンの生成について説明する。
例えば、図6に示されるような映像コンテンツ1の静止画時系列データがあるとする。
すなわち、映像コンテンツ1の静止画時系列データは、シーン1,2,3の3つのシーン単位で構成される。また、映像コンテンツ1の静止画時系列データは、7枚の静止画で構成され、そのうちの最初の3枚がシーン1に属し、次の3枚がシーン2に属し、最後の(7枚目の)静止画のみがシーン3に属する。
そして、映像コンテンツ1の静止画時系列データには、Aさん、Bさん、Cさんの3人の人物が登場する。より具体的には、最初の2枚の静止画にはAさんが登場し、3枚目の静止画にはBさんが登場し、4枚目の静止画にはCさんが登場し、5乃至7枚目の静止画には、AさんとBさんの2人が登場する。
このような映像コンテンツ1の静止画時系列データに対し、特徴量抽出部63は、Aさんの登場パターンA0 of Content1、Bさんの登場パターンB0 of Content1、及び、Cさんの登場パターンC0 of Content1を、以下のように生成する。
A0 of Content1 ={1,1,0,0,1,1,1}
B0 of Content1 ={0,0,1,0,1,1,1}
C0 of Content1 ={0,0,0,1,0,0,0}
[ノイズ除去部64の処理]
映像コンテンツのシーンが目まぐるしく変化すれば、登場パターンも細かく変化する。しかし、そのような微細な変化は、映像コンテンツ全体の流れという観点からはノイズと考えてよい場合がある。そこで、ノイズ除去処理により、そのような微細な変化を除去して、映像コンテンツをおおまかに表現することができる。
図7は、ノイズ除去部64のノイズ除去処理の例を示している。図7上側は、ノイズ除去処理前の映像コンテンツの静止画時系列データとその登場パターンを示し、図7下側は、ノイズ除去処理後の映像コンテンツの静止画時系列データとその登場パターンを示している。
例えば、ノイズ除去処理前の映像コンテンツのシーン1は、「前半はAさんから始まり、2秒後と8秒後にAさんが一瞬消える。後半で登場人物がAさんからBさんに交代し、Bさん登場から1秒後にBさんが一瞬消える」ことを表している。
ノイズ除去処理後の映像コンテンツのシーン1は、「前半にAさんが登場し、後半にBさんが登場する」ことを表し、シーン1が要約されている。ノイズ除去処理では、このように、映像コンテンツの登場パターンの微細な変化を省略し、映像コンテンツをおおまかに表現して要約することができる。
図8は、ノイズ除去処理の具体的処理方法を示している。
ノイズ除去処理には、平滑化フィルタを用いることができる。図8では、ある映像コンテンツのシーン1の登場パターンA0に対して、フィルタタップ数を「3」とした場合のノイズ除去処理例が示されている。
登場パターンA0に対して、フィルタタップ数「3」の平滑化フィルタ処理を行い、フィルタ処理後のデータを四捨五入することで、ノイズ除去処理後の登場パターンA3が得られる。
[パターン圧縮部65の処理]
次に、図9と図10を参照して、パターン圧縮部65によるパターン圧縮処理について説明する。
パターン圧縮処理には、登場パターンを、シーン単位に区切って圧縮する方法と、シーン単位に区切らずに圧縮する方法がある。
図9は、図6に示した映像コンテンツ1の登場パターンA0およびB0に対して、シーン単位に区切って圧縮処理を施した登場パターンA1およびB1を示している。
圧縮処理では、登場パターンにおいて同一の値が続いている場合、2番目以降の値が削除される。ただし、シーン単位に区切って圧縮処理するので、同じ値が続いている場合でも、シーンが変わったときの値は削除されない。
従って、映像コンテンツ1の登場パターンA0およびB0を圧縮処理した登場パターンA1およびB1は、以下のようになる。
A1 of Content1 ={1,0,0,1,1}
B1 of Content1 ={0,1,0,1,1}
図10は、図6に示した映像コンテンツ1の登場パターンA0およびB0に対して、シーン単位に区切らず圧縮処理した登場パターンA2およびB2を示している。シーン単位に区切らず圧縮処理した映像コンテンツ1の登場パターンA2およびB2は、以下のようになる。
A2 of Content1 ={1,0,1}
B2 of Content1 ={0,1,0,1}
シーン単位に区切らず圧縮処理した場合、圧縮処理後の映像コンテンツ1の登場パターンA2と登場パターンB2は、データ数が異なる。しかし、人物関係情報生成部66および統計情報算出部67で、人物関係情報および登場人物統計情報を生成する場合には、各登場人物のデータ数は揃っている方が都合がよい。そこで、パターン圧縮部65は、各登場人物のデータ数が異なる場合、データ数の多い登場パターンに、データ数の少ない登場パターンのデータ数を合わせる処理も行う。具体的には、パターン圧縮部65は、図10において破線で示されるように、登場パターンB2に対して欠けている登場パターンA2の要素の箇所に、圧縮処理前の値(“0”)を挿入することで、登場パターンA2のデータ数を登場パターンB2のデータ数に合わせる。
A2 of Content1 ={1,0,1} →{1,0,0,1}
[人物関係情報生成部66の処理]
次に、図11乃至図14を参照して、人物関係情報生成部66の処理について説明する。
人物関係情報生成部66は、画像取得部11から供給された映像コンテンツに登場する各人物に着目し、着目した人物に関連する他の人物を検索する。そして、人物関係情報生成部66は、着目した人物に関連する他の人物を、αタイプ、βタイプ、γタイプ、およびδタイプのいずれかに分類する。
αタイプ、βタイプ、γタイプ、およびδタイプは、以下のように定義される。
αタイプ:同一映像コンテンツ内で、着目した人と同一シーンに登場している人
βタイプ:他の映像コンテンツ内で、着目した人と同一シーンに登場している人
γタイプ:同一映像コンテンツ内で、着目した人と別のシーンに登場している人
δタイプ:他の映像コンテンツ内で、着目した人と別のシーンに登場している人
例えば、画像取得部11から、図12に示される映像コンテンツ21が供給されたとする。映像コンテンツ21は、コンテンツの最初のt1時間が、Cさんが登場するシーンで構成され、次のt2時間が、人物なしのシーンで構成され、さらに次のt3時間が、AさんとBさんが同時に登場するシーンで構成されるコンテンツである。
また、記憶部13には、図12に示される映像コンテンツ22が記憶されているとする。映像コンテンツ22は、コンテンツの最初のt4時間が、Dさんが登場するシーンで構成され、次のt5時間が、人物なしのシーンで構成され、さらに次のt6時間が、AさんとEさんが同時に登場するシーンで構成されるコンテンツである。
この場合、映像コンテンツ21のAさんに着目すると、Bさんはαタイプに分類され、Cさんはγタイプに分類され、Eさんはβタイプに分類され、Dさんはδタイプに分類される。
次に、人物関係情報生成部66は、着目した人物に関連する他の人物を分類したタイプに応じて、図11に示すように、αタイプ、βタイプ、γタイプ、δタイプの順に強い関係となるように、着目した人物との関係度を算出する。
まず、人物関係情報生成部66は、着目した人物に関連する人物を、登場時間に応じてスコア化する。図12に示されるように、AさんとBさんのスコアSCORE(A,B)は、t3/(t1+t3)で算出される。AさんとCさんのスコアSCORE(A,C)は、t1/(t1+t3)で算出される。同様に、AさんとEさんのスコアSCORE(A,E)は、t6/(t4+t6)で、AさんとDさんのスコアSCORE(A,D)は、t4/(t4+t6)で算出される。
次に、人物関係情報生成部66は、αタイプ、βタイプ、γタイプ、δタイプの順に強い関係となるように設定された関係度係数Kを、算出されたスコアに乗算することで、各登場人物との関係度を計算する。
関係度係数Kは、例えば、図13に示されるように、αタイプの関係度係数Kα=1.0、βタイプの関係度係数Kβ=0.75、γタイプの関係度係数Kγ=0.5、δタイプの関係度係数Kδ=0.25のように設定されている。
したがって、AさんとBさんの関係度R(A,B)は、以下で算出される。
R(A,B)=SCORE(A,B)×Kα×100%=SCORE(A,B)×1.0×100%
同様に、AさんとCさんの関係度R(A,C)、AさんとEさんの関係度R(A,E)、およびAさんとDさんとの関係度R(A,D)は、以下で算出される。
R(A,C)=SCORE(A,C)×Kγ×100%=SCORE(A,C)×0.5×100%
R(A,E)=SCORE(A,E)×Kβ×100%=SCORE(A,E)×0.75×100%
R(A,D)=SCORE(A,D)×Kδ×100%=SCORE(A,D)×0.25×100%
以上のように、画像取得部11から供給された映像コンテンツに登場する各人物に着目して、着目した人物と関連のある他の人物との関係度が算出され、人物関係情報として、記憶部13のメタデータDB13Bに格納される。
なお、上述した例では、着目した人物と関連のある他の人物とのスコアを、人物が登場する全時間に対する、着目した人物の登場時間としたが、映像コンテンツ全時間に対する、着目した人物の登場時間としてもよい。すなわち、図12の例で言えば、SCORE(A,B)=t3/(t1+t2+t3)、SCORE(A,C)=t1/(t1+t2+t3)、SCORE(A,E)=t6/(t4+t5+t6)、SCORE(A,D)=t4/(t4+t5+t6)のようにスコアを算出してもよい。
また、パターン圧縮処理を行っていない場合には、着目した人物と関連のある他の人物とのスコアを、コンテンツの時間比ではなく、各人物が登場する静止画の枚数をカウントすることで計算することもできる。
上述した例では、着目した人物と同時に登場している人ほど、強い関係となるように、関係度係数Kが設定されていたが、関係度係数Kは操作部16から任意の値に設定することができる。
例えば、図14Aに示されるように、着目した人物と同時に登場している人ほど弱い関係となるように、弱い関係を強調する関係度係数Kを設定することができる。図14Aの例では、αタイプの関係度係数Kα=0.25、βタイプの関係度係数Kβ=0.5、γタイプの関係度係数Kγ=0.75、δタイプの関係度係数Kδ=1.0に設定されている。
また、図14Bに示されるように、関係度係数Kを一定にして、登場時間のみに応じて関係度が設定されるようにすることもできる。
なお、関係度係数Kが変更された場合には、各映像コンテンツの登場人物ごとに、関係度が再計算される。
[統計情報算出部67の処理]
次に、統計情報算出部67の処理について説明する。
図15は、図6に示した映像コンテンツ1の登場パターンに対して、統計情報算出部67が登場人物統計情報を生成した結果を示している。
統計情報算出部67は、映像コンテンツ1の静止画時系列データにおいて人物が登場する割合である人物登場比率を計算する。図6に示した映像コンテンツ1の例では、7枚の静止画時系列データのうちの7枚全てに人物が登場しているので、人物登場比率は、7/7=100%となる。
また、統計情報算出部67は、Aさんの登場比率を計算する。図6に示した映像コンテンツ1の例では、人物が登場する7枚の静止画のうち、5枚にAさんが登場しているので、Aさんの登場比率は、5/7=71%となる。
また、統計情報算出部67は、Bさんの登場比率を計算する。図6に示した映像コンテンツ1の例では、人物が登場する7枚の静止画のうち、4枚にBさんが登場しているので、Bさんの登場比率は、4/7=57%となる。
また、統計情報算出部67は、Cさんの登場比率を計算する。図6に示した映像コンテンツ1の例では、人物が登場する7枚の静止画のうち、1枚にCさんが登場しているので、Cさんの登場比率は、1/7=14%となる。
したがって、統計情報算出部67は、人物登場比率=100%、Aさんの登場比率=71%、Bさんの登場比率=57%、及び、Cさんの登場比率=14%を、登場人物統計情報として、記憶部13のメタデータDB13Bに記憶させる。
なお、図15の例では、圧縮処理されていない登場パターンを用いて、静止画の枚数をカウントして人物登場比率と各登場人物の登場比率を算出したが、登場パターンが圧縮処理されている場合には、図12のスコアと同様に、登場時間を用いて、人物登場比率と各登場人物の登場比率を算出することができる。
[メタデータ生成処理の処理フロー]
次に、図16のフローチャートを参照して、画像処理装置1に映像コンテンツが入力された場合に実行される、映像コンテンツのメタデータを生成するメタデータ生成処理について説明する。
初めに、ステップS1において、画像取得部11は、映像コンテンツのコンテンツデータを取得し、取得した映像コンテンツのコンテンツデータを、記憶部13のコンテンツDB13Aに記憶させるとともに、メタデータ生成部12にも供給する。
ステップS2において、メタデータ生成部12の静止画抽出部61は、映像コンテンツのコンテンツデータから、一定の時間間隔で静止画を抽出し、映像コンテンツを要約した複数枚の静止画で構成される静止画時系列データを生成する。
ステップS3において、シーンチェンジ点検出部62は、静止画時系列データに対してシーンチェンジ点を検出して、シーンチェンジ点情報を生成し、メタデータDB13Bに供給して記憶させる。
ステップS4において、特徴量抽出部63は、映像コンテンツの特徴量を抽出する。具体的には、特徴量抽出部63は、静止画時系列データにおける人物の登場を示す時系列データである登場パターンを登場人物ごとに生成する。生成された特徴量としての各登場人物の登場パターンは、メタデータDB13Bに供給されて記憶される。
ステップS5において、ノイズ除去部64は、各登場人物の登場パターンのノイズ除去処理を行う。
ステップS6において、パターン圧縮部65は、ノイズ除去処理後の各登場人物の登場パターンに対して、パターン圧縮処理を行い、圧縮処理後の登場パターンを、メタデータDB13Bに供給して記憶させる。
なお、メタデータ生成部12は、ノイズ除去処理や圧縮処理を行う前の各登場人物の登場パターンについてもメタデータDB13Bに保存しておくことが望ましい。これにより、ノイズ除去処理や圧縮処理を、必要に応じて後で行うことができる。
ステップS7において、人物関係情報生成部66は、画像取得部11から供給された映像コンテンツに登場する各登場人物の登場人物関係情報を生成する。すなわち、人物関係情報生成部66は、映像コンテンツに登場する各登場人物に着目して、着目した人物と関連のある他の人物との関係度を算出し、算出結果を、登場人物関係情報として、メタデータDB13Bに供給して記憶させる。
ステップS8において、統計情報算出部67は、人物関係情報生成部66から供給された各登場人物の登場パターンに基づいて、登場人物統計情報を生成する。すなわち、統計情報算出部67は、映像コンテンツの人物登場比率と、各登場人物の登場比率を算出する。そして、統計情報算出部67は、算出した登場人物統計情報を、メタデータDB13Bに供給して記憶させる。
以上で、メタデータ生成処理が終了する。
[映像コンテンツの第1の探索方法]
次に、メタデータDB13Bに記憶されている映像コンテンツのメタデータを用いて、所望の映像コンテンツを探索する探索方法について説明する。
初めに、コンテンツビュー40を起点として、映像コンテンツの探索を開始する第1の探索方法について説明する。
図17は、第1の探索方法を適用した第1のコンテンツ探索処理のフローチャートを示している。
初めに、ステップS21において、コンテンツビュー制御部21は、コンテンツビュー40を表示部15に表示させる。例えば、図2に示したコンテンツビュー40が、ステップS21で表示される。
ユーザは、操作部16において、コンテンツビュー40に表示された映像コンテンツの人物統計情報を参考にして、注目する人物(以下、注目人物という。)を選択する操作を行う。すると、操作部16は、ステップS22において、ユーザが選択した注目人物を特定し、注目人物を示す情報をリレーションビュー制御部22に供給する。
ステップS23において、リレーションビュー制御部22は、ユーザが選択した注目人物を操作部16からの情報により認識し、注目人物の人物関係情報を表示するリレーションシップビュー50を表示部15に表示させる。
図18は、図2に示したコンテンツビュー40において、「コンテンツ1」が選択されたことにより、登場人物「Aさん」が注目人物として決定された場合の、コンテンツビュー40からリレーションシップビュー50への遷移を示している。図18左側のコンテンツビュー40が、ステップS21の処理で表示され、図18右側のリレーションシップビュー50が、ステップS23の処理で表示される。図18右側のリレーションシップビュー50では、注目人物として決定された登場人物「Aさん」の人物関係情報が表示されている。
ユーザは、操作部16において、リレーションシップビュー50に表示された注目人物の人物関係情報を参考にして、注目人物に関連する人物(以下、関連人物という。)を選択する操作を行う。すると、操作部16は、ステップS24において、ユーザが選択した関連人物を特定し、その関連人物を示す情報をコンテンツビュー制御部21に供給する。
ステップS25において、コンテンツビュー制御部21は、ユーザが選択した関連人物を操作部16からの情報により認識し、関連人物の映像コンテンツについてのコンテンツビュー40を表示部15に表示させる。
図19は、図18に示したリレーションシップビュー50において、リレーションシップ情報R2が選択されたことにより、登場人物「Aさん」と90%の関係度で関連付けられている登場人物「Bさん」が関連人物として決定された場合の、リレーションシップビュー50からコンテンツビュー40への遷移を示している。
図19右側に示されるコンテンツビュー40では、選択された関連人物「Bさん」に関連する映像コンテンツの人物統計情報が表示されている。
関連人物「Bさん」に関連する映像コンテンツには、例えば、「コンテンツ2」と「コンテンツ3」がある。「コンテンツ2」の映像コンテンツは、人物の登場する割合が50%であり、そのうちの100%がBさんのシーンであることを示している。「コンテンツ3」の映像コンテンツは、人物の登場する割合が25%であり、そのうちの70%がBさんのシーンで、30%がUnknown1(U1)さんのシーンであることを示している。
以上のように、映像コンテンツの登場人物の関連性から、所望の映像コンテンツを探索することができる。
なお、図20に示すように、関連人物である「Bさん」のコンテンツビュー40から、さらに、「Bさん」のリレーションシップビュー50へ遷移させるようにすることも可能である。このように、コンテンツビュー40によるコンテンツ選択とリレーションシップビュー50による人物関係情報の選択を繰り返すことにより、所望の映像コンテンツにたどり着くことができる。
例えば、デジタルカメラで最近撮影した映像コンテンツを使って、以前に撮りためた映像コンテンツのなかから、最近撮影した映像コンテンツの登場人物に関連するシーンを取得するようなことが可能となり、映像コンテンツの再利用に貢献することができる。
[映像コンテンツの第2の探索方法]
次に、リレーションシップビュー50を起点として、映像コンテンツの探索を開始する第2の探索方法について説明する。
図21は、第2の探索方法を適用した第2のコンテンツ探索処理のフローチャートを示している。
第2のコンテンツ探索処理では、初めに、ステップS41において、リレーションビュー制御部22は、リレーションシップビュー50を表示部15に表示させる。ここでは、メタデータDB13Bに記憶されている全ての映像コンテンツのメタデータに基づいて、全ての映像コンテンツに登場する全ての登場人物の人物関係情報(リレーションシップ情報)が表示される。
ユーザは、操作部16において、リレーションシップビュー50に表示された人物関係情報のなかから、所望の人物関係情報を選択する操作を行う。すると、ステップS42において、操作部16は、ユーザが選択した人物関係情報を特定し、その人物関係情報を示す情報をコンテンツビュー制御部21に供給する。
ステップS43において、コンテンツビュー制御部21は、ユーザが選択した人物関係情報に紐付けられている映像コンテンツの人物統計情報を、コンテンツビュー40に表示させる。
図22は、全ての映像コンテンツについての人物関係情報を示すリレーションビュー50において、「Aさん」と「Bさん」が90%の関係度を有するリレーションシップ情報R2が選択されたときの、リレーションシップビュー50からコンテンツビュー40への遷移を示している。図22左側のリレーションビュー50が、ステップS41の処理で表示され、図22右側のコンテンツビュー40が、ステップS43の処理で表示される。
「Aさん」と「Bさん」が90%の関係度を有するリレーションシップ情報R2は、「コンテンツ22」における「Aさん」と「Bさん」の関係度を示したものであるため、図22右側のコンテンツビュー40には、「コンテンツ22」の登場人物統計情報が表示されている。
[GUI画面例]
次に、上述したコンテンツビュー40とリレーションシップビュー50を利用したGUI画面の例について説明する。
図23に示されるGUI画面100は、コンテンツDB13Aに記憶されている映像コンテンツのダイジェスト(要約)を見ることができるとともに、ダイジェストを表示した映像コンテンツに登場する登場人物の関連性から、所望の映像コンテンツを探索する機能を有する。このGUI画面100は、メタデータDB13Bに記憶されているコンテンツのメタデータを利用して探索制御部14により生成されて表示部15に表示される。
GUI画面100は、タイムライン表示部111、静止画ビューワ(静止画表示部)112、登場人物表示部113、リレーションシップビュー114、および、コンテンツビュー115を有する。
タイムライン表示部111には、タイムライン121とインジケータ122が表示されている。
タイムライン121は、映像コンテンツの各時刻における登場人物を表示する。タイムライン121は矩形となっており、その横幅は映像コンテンツの再生時間に対応し、矩形の横軸が、左端を開始時刻、右端を終了時刻とする時間軸となっている。
ユーザは、インジケータ122を横方向に移動させることにより、映像コンテンツの所定の時刻を指定することができる。静止画ビューワ112には、インジケータ122によって指し示された時刻に対応する静止画が表示される。図23の例では、インジケータ122によって指し示された時刻Pの静止画が、静止画ビューワ112に表示されている。
また、インジケータ122によって指し示された時刻に対応する静止画に人物が登場する場合、その登場人物の顔画像が、登場人物表示部113に表示される。図23の例では、時刻Pの静止画は風景シーンであり、人物が登場しないため、登場人物表示部113には、何も表示されていない(「登場人物なし」と表示されている)。
リレーションシップビュー114は、上述したリレーションシップビュー50に対応するものであり、映像コンテンツに登場する登場人物の人物関係情報を表示する。コンテンツビュー115は、上述したリレーションシップビュー50に対応するものであり、映像コンテンツに登場する登場人物の統計情報を表示する。ただし、リレーションシップビュー114およびコンテンツビュー115は、登場人物が確定しないと表示できないため、この段階では、何も表示されていない。
ユーザによってインジケータ122が移動されて、例えば、図24に示すように、登場人物として「Aさん」と「Bさん」が登場するシーンである時刻Qが指し示されると、時刻Qの静止画が、静止画ビューワ112に表示されるとともに、登場人物表示部113に、「Aさん」と「Bさん」の人物顔が表示される。
登場人物表示部113に表示された「Aさん」と「Bさん」のうち、図25に示すように、カーソル等により「Aさん」が注目人物として選択されると、リレーションシップビュー114に、「Aさん」の人物関係情報が表示される。
そして、例えば、リレーションシップビュー114に表示された注目人物「Aさん」についての人物関係情報のなかから、図26に示すように、90%の関係度で関連付けられている登場人物「Bさん」との関係性を示すリレーションシップ情報R2が選択される。すると、コンテンツビュー115に、「Bさん」に関連する映像コンテンツの統計情報が表示される。すなわち、注目人物「Aさん」に関連する関連人物「Bさん」についての映像コンテンツの統計情報が、コンテンツビュー115に表示される。
このようにして、ある映像コンテンツに登場する登場人物を起点として、その登場人物に関連する関連人物の映像コンテンツを探索していくことができる。
なお、上述した例では、リレーションシップビュー114において、人物関係情報(リレーションシップ情報)を選択するようにしたが、関連人物を、直接、選択するようにしてもよい。例えば、図26のリレーションシップビュー114において、リレーションシップ情報R2の「Bさん」、リレーションシップ情報R21の「Cさん」または「Dさん」、リレーションシップ情報R1の「Unknown1さん」を直接選択するようにしてもよい。
以上のように、本技術を適用した画像処理装置1では、映像コンテンツから抽出した静止画時系列データを用いて、映像コンテンツについて、登場人物の人物関係情報および登場人物統計情報が、メタデータとして生成され、記憶される。
そして、画像処理装置1は、予め作成された登場人物の人物関係情報および登場人物統計情報に基づいて、登場人物に関連性がある映像コンテンツを、リレーションシップビュー114(リレーションシップビュー50)またはコンテンツビュー115(コンテンツビュー40)で提示することができる。
登場人物の関連性を利用することで、色空間情報のヒストグラムやエッジのヒストグラムなどの画像の空間的特徴量を用いた場合には検出することができない映像コンテンツのシーンを探索することができる。
また、関係度係数Kを変更することにより、登場人物に強い関連性がある映像コンテンツだけでなく、登場人物に関連性がない映像コンテンツを探索していくことも可能であり、関係度係数Kを利用することで、登場人物を利用した映像コンテンツの探索において、登場人物の関連性にバリエーションを持たせることができる。
[コンピュータ適用例]
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図27は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
入力部206は、キーボード、マウス、マイクロホンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体211を駆動する。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータでは、プログラムは、リムーバブル記録媒体211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、本技術は以下のような構成も取ることができる。
(1)
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部を備える
画像処理装置。
(2)
前記表示制御部は、前記コンテンツビューにおいて前記統計情報が表示されている所定の登場人物が選択された場合に、選択された登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
前記(1)に記載の画像処理装置。
(3)
前記表示制御部は、前記リレーションシップビューにおいて所定の人物関係情報が選択された場合に、選択された人物関係情報の登場人物の前記統計情報を、前記コンテンツビューに表示させる
前記(1)または(2)に記載の画像処理装置。
(4)
前記表示制御部は、前記コンテンツビューと前記リレーションシップビューを同時に前記表示部に表示させる
前記(1)乃至(3)のいずれかに記載の画像処理装置。
(5)
前記表示制御部は、映像コンテンツに対して指定された所定の時刻に人物が登場する場合、その登場人物の顔画像をさらに前記表示部に表示させる
前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)
前記表示制御部は、前記表示部に表示されている前記顔画像が選択された場合に、その顔画像の登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
前記(5)に記載の画像処理装置。
(7)
映像コンテンツのメタデータとして、前記統計情報と前記人物関係情報を生成するメタデータ生成部と、
生成された前記メタデータを記憶する記憶部と
をさらに備える
前記(1)乃至(6)のいずれかに記載の画像処理装置。
(8)
前記統計情報は、映像コンテンツにおいて前記登場人物が登場する割合である人物登場比率と、前記登場人物ごとの登場比率である
前記(1)乃至(7)のいずれかに記載の画像処理装置。
(9)
前記人物関係情報は、同一の映像コンテンツまたは同一のシーンに前記登場人物が同時に登場している比率である
前記(1)乃至(8)のいずれかに記載の画像処理装置。
(10)
前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合の関係度の強さが、関係度係数により調整される
前記(9)に記載の画像処理装置。
(11)
前記関係度係数は、前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合に、関係度が強くなるように調整される
前記(10)に記載の画像処理装置。
(12)
前記関係度係数を設定する設定部をさらに備える
前記(10)または(11)に記載の画像処理装置。
(13)
前記メタデータ生成部は、映像コンテンツの静止画を所定の時間間隔で抽出した静止画時系列データから、人物を識別して、識別した人物の登場パターンを生成し、生成した前記登場パターンに基づいて、前記統計情報と前記人物関係情報を生成する
前記(7)乃至(12)のいずれかに記載の画像処理装置。
(14)
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる
ステップを含む画像処理方法。
(15)
コンピュータを、
映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部
として機能させるためのプログラム。
1 画像処理装置, 12 メタデータ生成部, 13 記憶部, 14 探索制御部, 15 表示部, 21 コンテンツビュー制御部, 22 リレーションビュー制御部, 61 静止画抽出部, 62 シーンチェンジ点検出部, 63 特徴量抽出部, 63A 顔画像認識部, 64 ノイズ除去部, 65 パターン圧縮部, 66 人物関係情報生成部, 67 統計情報算出部, 201 CPU, 202 ROM, 203 RAM, 206 入力部, 207 出力部, 208 記憶部, 209 通信部, 210 ドライブ

Claims (15)

  1. 映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部を備える
    画像処理装置。
  2. 前記表示制御部は、前記コンテンツビューにおいて前記統計情報が表示されている所定の登場人物が選択された場合に、選択された登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
    請求項1に記載の画像処理装置。
  3. 前記表示制御部は、前記リレーションシップビューにおいて所定の人物関係情報が選択された場合に、選択された人物関係情報の登場人物の前記統計情報を、前記コンテンツビューに表示させる
    請求項1に記載の画像処理装置。
  4. 前記表示制御部は、前記コンテンツビューと前記リレーションシップビューを同時に前記表示部に表示させる
    請求項1に記載の画像処理装置。
  5. 前記表示制御部は、映像コンテンツに対して指定された所定の時刻に人物が登場する場合、その登場人物の顔画像をさらに前記表示部に表示させる
    請求項1に記載の画像処理装置。
  6. 前記表示制御部は、前記表示部に表示されている前記顔画像が選択された場合に、その顔画像の登場人物の前記人物関係情報を、前記リレーションシップビューに表示させる
    請求項5に記載の画像処理装置。
  7. 映像コンテンツのメタデータとして、前記統計情報と前記人物関係情報を生成するメタデータ生成部と、
    生成された前記メタデータを記憶する記憶部と
    をさらに備える
    請求項1に記載の画像処理装置。
  8. 前記統計情報は、映像コンテンツにおいて前記登場人物が登場する割合である人物登場比率と、前記登場人物ごとの登場比率である
    請求項1に記載の画像処理装置。
  9. 前記人物関係情報は、同一の映像コンテンツまたは同一のシーンに前記登場人物が同時に登場している比率である
    請求項1に記載の画像処理装置。
  10. 前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合の関係度の強さが、関係度係数により調整される
    請求項9に記載の画像処理装置。
  11. 前記関係度係数は、前記登場人物が同一の映像コンテンツまたは同一のシーンに同時に登場している場合に、関係度が強くなるように調整される
    請求項10に記載の画像処理装置。
  12. 前記関係度係数を設定する設定部をさらに備える
    請求項10に記載の画像処理装置。
  13. 前記メタデータ生成部は、映像コンテンツの静止画を所定の時間間隔で抽出した静止画時系列データから、人物を識別して、識別した人物の登場パターンを生成し、生成した前記登場パターンに基づいて、前記統計情報と前記人物関係情報を生成する
    請求項7に記載の画像処理装置。
  14. 映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる
    ステップを含む画像処理方法。
  15. コンピュータを、
    映像コンテンツに登場する登場人物の統計情報を表示するコンテンツビューと、映像コンテンツに登場する登場人物の人物関係情報を表示するリレーションシップビューを所定の表示部に表示させる表示制御部
    として機能させるためのプログラム。
JP2012213527A 2012-09-27 2012-09-27 画像処理装置、画像処理方法、およびプログラム Pending JP2014068290A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012213527A JP2014068290A (ja) 2012-09-27 2012-09-27 画像処理装置、画像処理方法、およびプログラム
CN201310428994.2A CN103702117A (zh) 2012-09-27 2013-09-18 图像处理设备、图像处理方法及程序
US14/033,069 US9549162B2 (en) 2012-09-27 2013-09-20 Image processing apparatus, image processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012213527A JP2014068290A (ja) 2012-09-27 2012-09-27 画像処理装置、画像処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2014068290A true JP2014068290A (ja) 2014-04-17

Family

ID=50338943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012213527A Pending JP2014068290A (ja) 2012-09-27 2012-09-27 画像処理装置、画像処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US9549162B2 (ja)
JP (1) JP2014068290A (ja)
CN (1) CN103702117A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008607A (ja) * 2017-06-26 2019-01-17 Jcc株式会社 映像管理サーバー及び映像管理システム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150122510A (ko) * 2014-04-23 2015-11-02 엘지전자 주식회사 영상 표시 장치 및 그것의 제어방법
CN106874827A (zh) * 2015-12-14 2017-06-20 北京奇虎科技有限公司 视频识别方法和装置
US10117000B2 (en) * 2016-03-10 2018-10-30 Silveredge Technologies Pvt. Ltd. Method and system for hardware agnostic detection of television advertisements
CN108471544B (zh) * 2018-03-28 2020-09-15 北京奇艺世纪科技有限公司 一种构建视频用户画像方法及装置
US11250271B1 (en) * 2019-08-16 2022-02-15 Objectvideo Labs, Llc Cross-video object tracking
KR20210107480A (ko) * 2020-02-24 2021-09-01 삼성전자주식회사 전자장치 및 그 제어방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100347710B1 (ko) * 1998-12-05 2002-10-25 엘지전자주식회사 등장인물들의관계중심동영상검색데이터구성방법및검색방법
US8225359B2 (en) * 2002-12-24 2012-07-17 Poltorak Alexander I Apparatus and method for providing information in conjunction with media content
US7761795B2 (en) * 2003-05-22 2010-07-20 Davis Robert L Interactive promotional content management system and article of manufacture thereof
US7797328B2 (en) * 2004-12-21 2010-09-14 Thomas Lane Styles System and method of searching for story-based media
US7783085B2 (en) * 2006-05-10 2010-08-24 Aol Inc. Using relevance feedback in face recognition
JP4469868B2 (ja) * 2007-03-27 2010-06-02 株式会社東芝 説明表現付加装置、プログラムおよび説明表現付加方法
EP2147405A1 (en) * 2007-05-08 2010-01-27 Thomson Licensing Movie based forensic data for digital cinema
JP4424396B2 (ja) * 2007-09-03 2010-03-03 ソニー株式会社 データ処理装置および方法、並びにデータ処理プログラムおよびデータ処理プログラムが記録された記録媒体
US8224856B2 (en) * 2007-11-26 2012-07-17 Abo Enterprises, Llc Intelligent default weighting process for criteria utilized to score media content items
US8880599B2 (en) * 2008-10-15 2014-11-04 Eloy Technology, Llc Collection digest for a media sharing system
US20100135580A1 (en) * 2008-11-28 2010-06-03 Inventec Appliances Corp. Method for adjusting video frame
KR101599886B1 (ko) * 2009-09-29 2016-03-04 삼성전자주식회사 장면 모드 표시에 따른 영상 처리 장치 및 방법
JP2011188342A (ja) * 2010-03-10 2011-09-22 Sony Corp 情報処理装置、情報処理方法及びプログラム
CN103069823A (zh) * 2010-04-14 2013-04-24 斯文·里思米勒 与媒体广播的平台无关的交互性
US8763068B2 (en) * 2010-12-09 2014-06-24 Microsoft Corporation Generation and provision of media metadata
US20130151969A1 (en) * 2011-12-08 2013-06-13 Ihigh.Com, Inc. Content Identification and Linking
US8924636B2 (en) * 2012-02-23 2014-12-30 Kabushiki Kaisha Toshiba Management information generating method, logical block constructing method, and semiconductor memory device
JP5364184B2 (ja) * 2012-03-30 2013-12-11 楽天株式会社 情報提供装置、情報提供方法、プログラム、情報記憶媒体及び情報提供システム
JP2014067333A (ja) * 2012-09-27 2014-04-17 Sony Corp 画像処理装置、画像処理方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008607A (ja) * 2017-06-26 2019-01-17 Jcc株式会社 映像管理サーバー及び映像管理システム

Also Published As

Publication number Publication date
US20140086556A1 (en) 2014-03-27
CN103702117A (zh) 2014-04-02
US9549162B2 (en) 2017-01-17

Similar Documents

Publication Publication Date Title
JP2014068290A (ja) 画像処理装置、画像処理方法、およびプログラム
EP2557782B1 (en) Server system for real-time moving image collection, recognition, classification, processing, and delivery
US8416332B2 (en) Information processing apparatus, information processing method, and program
JP5092000B2 (ja) 映像処理装置、方法、及び映像処理システム
CN103686344B (zh) 增强视频***及方法
CN110119711A (zh) 一种获取视频数据人物片段的方法、装置及电子设备
US8184947B2 (en) Electronic apparatus, content categorizing method, and program therefor
US10129515B2 (en) Display control device, recording control device, and display control method
US8068678B2 (en) Electronic apparatus and image processing method
JP2009110460A (ja) 人物画像検索装置
KR20070118635A (ko) 오디오 및/또는 비주얼 데이터의 서머라이제이션
JP2009140042A (ja) 情報処理装置、情報処理方法、およびプログラム
CN105872717A (zh) 视频处理方法及***、视频播放器与云服务器
JP2008146191A (ja) 画像出力装置および画像出力方法
JP2014067333A (ja) 画像処理装置、画像処理方法、およびプログラム
JP2013207529A (ja) 表示制御装置、表示制御方法、及びプログラム
JP2021509201A (ja) 映像前処理方法、装置及びコンピュータプログラム
JP6917788B2 (ja) 要約映像生成装置及びプログラム
JP2007006129A (ja) 代表画像抽出装置及びその方法
JP2013206104A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019003585A (ja) 要約映像生成装置およびそのプログラム
JP2006217046A (ja) 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム
JP2006079460A (ja) 電子アルバム表示システム、電子アルバム表示方法、電子アルバム表示プログラム、画像分類装置、画像分類方法、及び画像分類プログラム
CN109151599B (zh) 视频处理方法和装置
WO2014103374A1 (ja) 情報管理装置、サーバ及び制御方法