JP2009201041A - コンテンツ検索装置およびその表示方法 - Google Patents

コンテンツ検索装置およびその表示方法 Download PDF

Info

Publication number
JP2009201041A
JP2009201041A JP2008043164A JP2008043164A JP2009201041A JP 2009201041 A JP2009201041 A JP 2009201041A JP 2008043164 A JP2008043164 A JP 2008043164A JP 2008043164 A JP2008043164 A JP 2008043164A JP 2009201041 A JP2009201041 A JP 2009201041A
Authority
JP
Japan
Prior art keywords
image
face
information
scene
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008043164A
Other languages
English (en)
Inventor
Toshiya Irie
俊也 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008043164A priority Critical patent/JP2009201041A/ja
Publication of JP2009201041A publication Critical patent/JP2009201041A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】比較的少ない処理量で、ユーザが見たいシーンを直感的に選び易く、かつ誤検出の少ないコンテンツ検索装置およびその表示方法を提供。
【解決手段】DVD/HDD装置10は、解析部14の顔検出部22でフレーム画像を解析し、フレーム画像から解析情報として顔画像を検出し、シーン切替検出部24でフレーム画像を基に動画像のシーンの切替えを検出し、重み付け算出部26でフレーム画像に検出された登場人物それぞれに対する重み情報を算出して、解析し、検出した顔画像、シーン切替えの情報および算出した重み情報それぞれを時系列的にストレージ16に格納して、画像生成部28でストレージ16から保存した情報を読み出し、読み出した情報を基に供給される動画像のコンテンツの内容を表現する画像を生成し、生成した画像をディスプレイ18に表示させる。
【選択図】図1

Description

本発明は、コンテンツ検索装置およびその表示方法に関し、より具体的には、提供されるコンテンツから所望のシーンを検索し、再生に寄与するコンテンツ検索装置に関し、また、コンテンツを検索し、その検索した結果を表示させるコンテンツ検索の表示方法に関するものである。
近年、テレビジョン番組のような映像コンテンツの視聴において、録画装置は、記憶装置の大容量化により大量録画が可能になってきている。また、映像コンテンツは、地上放送に限らず、衛星放送、ケーブルテレビのように多様な提供ソースがあり、コンテンツが増大してきている。そこで、録画装置の機能を有効に利用することによりユーザは、一般的に、まず大量の番組を録画し、後日時間の余裕があるときに録画した番組を視聴するスタイルを採用してきている。
また、携帯端末装置は性能が向上してきている。携帯端末装置には、たとえば携帯電話機、携帯音楽プレーヤや携帯ゲーム機がある。現在、携帯電話機はモバイル端末装置向け地上波デジタル放送、いわゆるワンセグ放送の受信機能を搭載したものもあり、携帯音楽プレーヤには動画像再生機能を搭載しているものがある。また、携帯ゲーム機にも、動画表示機能を搭載したものがある。これら搭載機能から明らかなように、携帯端末装置は、自宅以外でも映像の視聴が可能なように環境が整備されてきている。さらに、ネットワーク経由の映像配信サービスも拡充してきている。これは、ネットワークの高速化に基づいている。
番組ソフトであるコンテンツの提供方法がこのように多様化して、視聴可能な映像コンテンツが著しく増大していることから、録画装置には録画した大量の映像から視聴者が見たいシーンだけを素早く見つけて視聴できることが望まれている。
そこで、一般家庭用のDVD/HDD(Digital Versatile Disc/Hard-Disc Drive)レコーダは、録画した映像をコマーシャル前後の適当なタイミングでシーンを区切り、その先頭のフレーム画像をサムネイル画像で時系列に列挙し、モニタ表示する機能を有している。ユーザはこの機能により表示されたサムネイルを見て、このサムネイルから見たいシーンを選択している。
ところで、この方法は、列挙されたサムネイルを、映像の内容とは関係なしに抽出する。このため、この方法は、必ずしも映像の内容を解りやすく示すものではなく、ユーザが見たいシーンを選べない場合が多い。
特許文献1は画像検索方法およびその装置である。特許文献1は、映像中の登場人物の顔に着目し、画像解析処理により映像中の顔をシーン毎に検出し、シーン間で同一人物を判別し統合することで映像中の登場人物を探索し、探索において画像解析処理により登場人物の性別や顔の大きさ、顔の向き、表情を検索する方法を提案している。
特許文献2は、映像シーン情報生成装置であり、特許文献1と同様に同一人物を顔認証技術により統合し登場人物一覧を生成している。特許文献2は、検出結果の提示を重要人物に絞り込むことで、シーンで重要な役割をもった登場人物を解り易くしている。このため、特許文献2は、家庭用ビデオカメラのように、撮影者が明らかに重要人物を映像の中心になるように撮影する装置に適用すると、効果がある。
特許文献3は動画像表示装置および表示方法であり、登場人物を検出して一覧表示するだけでなく、それぞれの登場回数をカウントすることで回数に応じて表示順位を変えたり、それぞれの人物が登場するシーンのサムネイルを表示したりすることを提案している。
特開2001−167110号公報 特開2007−036540号公報 特許第3315888号
しかしながら、特許文献1は実際のテレビ番組の処理には精度が不十分で、誤検出や誤認識が多くなり、同じ人物を他人として多数検出してしまう。また、性別や表情の検出に精度が不十分なだけでなく、処理量が膨大でコストが極めて高くなる。このため、特許文献1の機能を家庭用レコーダや携帯端末装置に搭載することは難しい。
特許文献2も実際のテレビ映像では精度が不十分で、同一人物が多数別人として検出されてしまう。また、テレビ番組の映像において登場人物の映り方は千差万別であり、重要人物の判定パターンをユーザが選ばなくてはならないことから、特許文献2でシーンの内容を反映した判り易い検出はできない。特許文献2は、結果として、ユーザの見たいシーンが必ずしも重要人物の検出パタ−ンと合わず、見たい人物の割愛を生じさせてしまう。
また、特許文献3でも、同様に映像中に何度も出てくる人物を同一人物と判別することは実際に精度の面で困難である。特許文献3で、映像コンテンツから見たいシーンを選ぶ場合、ユーザは、必ずしも登場人物の情報だけから選択するのがよいとは限らない。実際に映像コンテンツの表示把握には時間軸の情報も合わせて判断しているケースが多い。
具体的に、番組コンテンツの内容を検討する。歌番組は、冒頭でその日の番組内に出演するアーティスト全員が紹介され、その後、各アーティストのトークと歌があり、エンディング近くでも出演アーティスト全員にインタビューし、さらに、あるアーティストの歌の前後に他のアーティストのコメントが入るといった流れが多い。このような番組の流れにおいて、ユーザがある特定のアーティストの歌をその直前のコメントシーンから見たい場合、ユーザは登場人物の代表画像と各シーンのサムネイルだけを基にした探索は難しいという課題がある。
本発明はこのような課題に鑑み、家庭用レコーダや携帯端末装置で動作可能な比較的少ない処理量で、ユーザが見たいシーンを直感的に選び易く、かつ誤検出の少ないコンテンツ検索装置およびその表示方法を提供することを目的とする。
本発明は上述の課題を解決するために、動画像の構成要素であるフレーム画像を解析し、解析した結果から動画像を基に供給される番組ソフトであるコンテンツの内容を検索するコンテンツ検索装置において、この装置は、フレーム画像を解析して、解析したフレーム画像に含まれる情報を抽出する解析手段と、抽出した情報を時系列的に格納する情報保存手段と、情報保存手段に蓄積された情報を基に生成される画像を表示する表示手段とを含み、解析手段は、フレーム画像から登場人物の顔を検出し、検出した顔領域の顔画像を出力する顔検出手段と、フレーム画像を基に動画像のシーンの切替えを検出する切替検出手段と、フレーム画像で検出された登場人物それぞれに対する重み情報を算出する重み算出手段と、情報保存手段に保存された情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する画像生成手段とを含むことを特徴とする。
また、本発明は上述の課題を解決するために、動画像の構成要素であるフレーム画像を解析し、解析した結果から動画像を基に供給される番組ソフトであるコンテンツの内容を検索し、検索した結果を表示するコンテンツ検索の表示方法において、この方法は、供給されるフレーム画像を解析して、このフレーム画像から顔を検出し、検出した顔領域の顔画像を顔に関する解析情報として出力する第1の工程と、検出した顔に関する解析情報を保存する第2の工程と、フレーム画像を基に動画像のシーンの切替えを検出する第3の工程と、検出したシーンの切替えに関する解析情報を保存する第4の工程と、フレーム画像で検出された登場人物それぞれに対する重み情報を算出する第5の工程と、算出した重み情報を解析情報として保存する第6の工程と、保存した解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する第7の工程とを含むことを特徴とする。
本発明に係るコンテンツ検索装置によれば、解析手段に顔検出手段、切替検出手段、重み算出手段および画像生成手段を含み、顔検出手段でフレーム画像を解析し、フレーム画像から解析情報として顔画像を検出し、切替検出手段でフレーム画像を基に動画像のシーンの切替えを検出し、重み算出手段でフレーム画像に検出された登場人物それぞれに対する重み情報を算出して、解析し、検出した顔画像、シーン切替えの情報および算出した重み情報それぞれを時系列的に情報保存手段に格納して、画像生成手段で情報保存手段から保存した情報を読み出し、読み出した情報を基に供給される動画像のコンテンツの内容を表現する画像を生成し、生成した画像を表示手段に表示させることにより比較的少ない処理量で、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制することができるという効果が得られる。
本発明に係るコンテンツ検索の表示方法によれば、供給されるフレーム画像を解析して、このフレーム画像から顔を検出し、検出した顔領域の顔画像を顔に関する解析情報として出力し、検出した顔に関する解析情報を保存し、フレーム画像を基に動画像のシーンの切替えを検出し、検出したシーンの切替えに関する解析情報を保存し、フレーム画像で検出された登場人物それぞれに対する重み情報を算出し、算出した重み情報を解析情報として保存し、保存した解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成することにより比較的少ない処理量で、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制することができるという効果が得られる。
次に添付図面を参照して本発明によるコンテンツ検索装置の一実施例を詳細に説明する。図1を参照すると、本発明によるコンテンツ検索装置の実施例は、DVD/HDD装置10に適用し、DVD/HDD装置10は、解析部14に顔検出部22、シーン切替検出部24、重み付け算出部26および画像生成部28を含み、顔検出部22でフレーム画像を解析し、フレーム画像から解析情報として顔画像を検出し、シーン切替検出部24でフレーム画像を基に動画像のシーンの切替えを検出し、重み付け算出部26でフレーム画像に検出された登場人物それぞれに対する重み情報を算出して、解析し、検出した顔画像、シーン切替えの情報および算出した重み情報それぞれを時系列的にストレージ16に格納して、画像生成部28でストレージ16から保存した情報を読み出し、読み出した情報を基に供給される動画像のコンテンツの内容を表現する画像を生成し、生成した画像をディスプレイ18に表示させることにより比較的少ない処理量で、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制することができるという効果が得られる。
本実施例は、本発明のコンテンツ検索装置をDVD/HDD装置10に適用した場合である。本発明と直接関係のない部分について図示および説明を省略する。以下の説明で、信号はその現れる接続線の参照番号で指示する。
DVD/HDD装置10は、図1に示すように、画像入力部12、解析部14、ストレージ16およびディスプレイ18を含む。
画像入力部12は、映像を入力する機能を有する。画像入力部12は、入力がテレビ場合、テレビアンテナから得た信号をチューナーでデコード処理したテレビ番組映像が入力される。画像入力部12は、DVD/HDDレコーダの場合、内蔵する記憶装置内に以前録画したテレビ番組の記録やDVD媒体で提供される映像コンテンツの再生機能を含むものである。画像入力部12は、上述した2つの場合両方に対応した機能を有していてもよい。画像入力部12には、1フレ−ム毎の静止画像、すなわちフレーム画像を連続して入力される。画像入力部12は、入力された1フレーム画像20を順次、解析部14に出力する。
解析部14は、入力画像20に対してフレーム画像を所定の手法で解析し、解析したフレーム画像に含まれる情報を抽出する機能を有する。具体的には、顔検出、シーン切替検出、重み付け算出および解析結果を表示画像の生成制御の機能がある。これに対応して、解析部14は、顔検出部22、シーン切替検出部24、重み付け算出部26および画像生成部28を含む。入力画像20は、顔検出部22およびシーン切替検出部24に供給される。
顔検出部22は、フレーム画像から登場人物の顔を検出し、検出した顔領域の顔画像を出力する機能を有し、具体的にはフレーム画像毎にフレーム画像を解析し、フレーム画像内の顔を検出し、検出された顔を複数のフレーム画像にまたがって同一人物であるか否かを判定し、追跡する機能を有する。この追跡機能は、顔検出部22で「顔」を一度検出した場合、次のフレーム画像にも似たような位置・大きさに「顔」が検出されると、同一人物と判断して、結果として顔を追跡するものである。顔検出部22には、フレーム画像20が供給される。顔検出部22は、検出した顔画像もストレージ16に出力する。また、顔検出部22には、シーン切替検出部24からシーンの切替の有無を示す信号30も供給されている。顔検出部22は、シーン切替検出部24からシーンの切替わりを検出したことを通知された場合、一旦、すべての顔の追跡を終了して、リセットし、次のフレームから改めて顔を検出し、顔を追跡する。これにより、顔検出部22はシーン毎に顔を追跡できる。顔の追跡方法は、最初に検出した顔領域の特微量を抽出し、次のフレーム画像の同一領域付近に同様の特微量を持つ領域があれば、同一人物に判定し、さらにその特微量でその次のフレーム画像の同一領域付近を探索するという繰り返しで追跡する方法等が一般的に知られている。
顔検出部22は、このようにフレーム画像毎における顔を検出し、供給される信号30を基に複数のフレーム画像にまたがって同一人物であるか否かを判定し、追跡した結果である解析情報32をストレージ16に出力する。解析情報32は、検出した顔における顔ID(IDentification)、位置、大きさ、登場したフレーム番号および代表顔画像を含む。
シーン切替検出部24は、フレーム画像を基に供給される動画像におけるシーンの切替えを検出する機能を有する。この機能は、動画像におけるフレーム画像全体の特徴を前のフレーム画像の特徴を比較し、この比較によりシーンの切替わりの有無を判定して、シーンの切替わりを検出している。実際、シーン切替検出部24は、供給されるフレーム画像20の特徴からシーンの切替わりを検出する。シーン切替検出部24は、検出した結果であるシーン切替の有無を示す信号30を顔検出部22に出力し、シーンの切替わり位置34をストレージ16および重み付け算出部26に出力する。
重み付け算出部26は、フレーム画像で検出された登場人物それぞれに対する重み情報を算出する機能を有する。重み情報は、検出した顔およびシーン切替わりについて得られた情報を基に、それぞれのシーンにおける登場人物の顔がそれぞれどの程度の重みを持っているかを表わす情報である。重み付け算出部26は、シーン切替の有無を示す信号30に応じてシーンの主役が誰で、脇役が誰であるかを示す重みまたは度合いを算出し、算出した重みまたは度合いを重み付け情報36としてストレージ16および画像生成部28に出力する。また、重み付け算出部26には、ストレージ16からたとえば、記録時に格納した時系列の解析情報38が供給される。解析情報38は、ID、位置、大きさ、登場したフレーム番号および代表顔画像、ならびにシーンの切替わり位置を含む。
画像生成部28は、ストレージに保存された解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する機能を有する。コンテンツの内容は、解析結果の表示画面または画像を生成することで具体的に表わされる。この機能を実現するため、画像生成部28は、図2に示すように、シーンの長さに応じてこのシーンの時間を大きさまたは形状で表現する画像を生成する画像生成機能部28aと、登場人物における重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、代表顔画像を重み情報に応じた大きさまたは形状で表現する画像を生成する画像生成機能部28bとを含む。画像生成部28は、解析情報40を基にシーン毎それぞれの解析結果が一目で理解できるように表示画面42を生成し、生成した表示画面42をディスプレイ18に出力する。
なお、解析部14は、図示しない制御部の制御により制御される。
ストレージ16は、供給される解析情報を格納する機能を有する。格納する解析情報は、検出した顔およびシーン切替わりについての様々な解析情報32、34および36を時系列的に保持する。ストレージ16は、顔検出部22からの解析情報32、シーン切替検出部24からの解析情報34および重み付け算出部26からの解析情報36を格納し、解析情報38を重み付け算出部26に出力し、解析情報40を画像生成部28に出力する。解析情報40は、シーン、顔および重みの情報を含む。ストレージ16の書込み/読出しも図示しない制御部の制御により制御される。
ディスプレイ18は、供給される映像信号を動画像として表示するとともに、解析結果をユーザに表示する一般的な表示装置である。ディスプレイ18は、一般に、装置が持つ他の機能も有する。他の機能とは、たとえば入力する映像の選択、解析結果を表示した後、ユーザが選択した映像の再生を表示する機能である。
なお、本実施例は、DVD/HDD装置に限定されず、2つの装置を組み合わせたシステムでもよい。システムは、第1の装置であるパーソナルコンピュータやDVD/HDDレコーダで顔検出、シーン切替え検出および重み付けを処理し、得られた解析結果情報と映像データを第2の装置である携帯端末装置に送って、携帯端末装置上で結果画面の生成および表示を行い、携帯端末装置で映像を再生させてもよい。
次に本発明に係るコンテンツ検索装置を適用したDVD/HDD装置10の動作について図3および図4を参照しながら、記述する。DVD/HDD装置10は、図3に示すように、映像を画像入力部12に入力する(ステップS10)。映像は、たとえばテレビ放送を受信した番組であったり、DVDプレーヤで再生した映画であったり、インターネットでストリーム配信された映像、またはダウンロードした映像コンテンツであったりしてよい。
次に画像入力部12は、映像の各フレーム画像にフレーム番号を付与した上で、時系列に順次、顔検出部22およびシーン切替検出部24に送る(ステップS12)。フレーム番号(ID)は、単純に時系列に並んだフレーム画像毎に+1ずつ歩進する数値でよい。
次に供給されるフレーム画像を解析し、解析した情報を抽出する(サブルーチンSUB)。解析結果は、抽出した解析情報をストレージ16に格納する。
次に全フレームが終了したか否かを判断する(ステップS14)。全フレームが未終了の場合(NO)、フレーム画像の取得に戻る(ステップS12へ)。また、全フレームが終了の場合(YES)、画面の生成に進む(ステップS16へ)。
画面の生成は、画像生成部28でストレージ16から格納してある解析情報、すなわちシーン、顔、重みに関する情報を取得し、解析情報の結果を示す画面を生成する(ステップS16)。画面の生成は、画像生成部28の機能を基にシーンの長さに応じてこのシーンの時間を大きさまたは形状で表現する画像を生成し、登場人物の重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、代表顔画像を重み情報に応じた大きさまたは形状で表現する画像を生成する。
次に生成した結果の画面をディスプレイ18に送り、結果の画面を表示する(ステップS18)。ユーザは画面上の顔画像やシーンの代表画像を選択することで、そのシーンから映像を視聴することができる。
次に解析部14におけるフレーム画像の解析手順について図4を参照しながら記述する。顔検出部22では、画像入力部12から供給されるフレーム画像20内の顔画像を検出する(サブステップSS10)。顔検出部22は、顔を中心に頭部全体を含む顔領域の位置/大きさを座標値で示す。顔の検出は、たとえば顔領域を矩形で表し、矩形の右上および左下の2点の座標で表す方法が最も単純である。このとき、顔検出は、フレーム画像内の顔すべてを検出してもよいし、処理量やデータ量、最終的に表示される解析結果の表示量を考慮し、検出する顔の数を絞り込むためにあらかじめ、決められたサイズ以上の顔だけを検出したり、検出された顔の大きい順に固定数を検出するようにしたりしてもよい。固定数は、たとえば大きいものから5個が好ましい。
また、顔の検出方法は、ウェーブレットまたはHaar特徴検出を用いるアルゴリズムが一般的に知られている。顔の検出方法は、扱う映像の種類や装置の性能によって適切なものを選択して使用するとよい。
さらに、複数の顔を識別する場合、それぞれの顔にユニークな番号で表現される顔IDを付与する。顔IDは、重複しないように適当な数値を自動的に割り当てればよい。顔検出部22は、連続するフレーム画像間で同一の顔であるか否かを追跡する。フレーム画像それぞれに、同一の顔である場合、同じ顔IDを付与する。これによりある連続するフレーム画像間で同じ顔が映り続けている場合は、一人の人物として捉えることができる。顔画像は一人の人物につき一つを割り当て、連続するフレームの顔領域から一つを自動的に選択する。顔検出部22は、検出した座標値、顔IDおよび顔領域の画像、すなわち顔画像に関する解析情報32としてストレージ16に供給する。
次に解析情報32をストレージ16に時系列的に保存する(サブステップSS12)。たとえば最初に検出したフレーム画像の顔領域は、仮に選択してストレージ16に保存する。以降のフレーム画像でその人物の顔領域がより大きければ、その大きい顔領域の画像を新たに上書き保存するという方法がある。この方法によれば、そのシーンでその人物が最も大きく映った瞬間の画像を顔画像として保存できる。
顔検出と同時に、同じフレーム画像20は、シーン切替検出部24でシーンの切替えを検出する(サブステップSS14)。シーン切替検出部24は、受けたフレーム画像20全体の特微量を抽出し、前のフレーム画像全体の特微量と比較する。
シーン切替えがあるか否か判断する(サブステップSS16)。判断は、抽出した特徴量が所定の閾値以上か否かを比較する。
シーン切替検出部24での検出結果に対する判断が偽(NO)では、シーン切替検出部24は、類似度が高く、同一シーンと判断し、重み付けの算出に進む(サブステップSS18へ)。また、抽出した特徴量が所定の閾値より小さい真(YES)では、シーンの切替わりと判断し、解析情報の保存に進む(サブステップSS20へ)。
なお、シーン切替検出部24は、映像の最初のフレーム画像では、前フレーム画像がないことから、単に新規のシーンIDを生成し、解析情報34をストレージ16に保存するだけである。また、最後のフレームを受け取った場合もシーン切替検出部24はシーンの切替わりと判断する。
次に重み付け算出部26は、結果的にシーン切替わり検出の有無に関わらず、シーンそれぞれに対する顔についての重みを算出する(サブステップSS18)。とくに、シーンの切替わりを検出した場合、シーン切替の検出を示す信号30を通知し、この通知を受けたとき、確実に重みを算出する。算出方法には様々な方法がある。
第1の具体例として重み付け算出部26は、人物毎の顔の大きさを比較する。ストレージ16には、それぞれの人物における顔領域の大きさが保存されているから、重み付け算出部26は、各人物のそのシーン内でもっとも大きな顔の大きさを算出し、重み付けする。たとえば顔領域の長辺の値を顔領域のサイズに用い、最も大きな顔領域のサイズを1に設定し、これに対する他の顔の大きさを比で表わす。仮にあるシーン内に3人の人物が検出されたとして、最も顔領域が大きい人の矩形領域の長辺が100画素、2番目の人物が75画素、3番目の人物が50画素と仮定すると、重みはそれぞれ1.0、0.75、0.50となる。重みは、長辺の比に限定されるものでなく、短辺の長さ、面積および対角線の長さといった顔領域の大きさを示す様々な要素を利用するとよい。
第2の具体例として重み付け算出部26は、人物がシーンに登場する時間と顔領域の積算値を比較する。重み付け算出部26は、ストレージ16から解析情報38から人物毎にフレーム画像に存在したかを算出し、シーン内における最も多くのフレームに存在している人物を1とし、それ以外の人物の存在しているフレーム数の比を算出する。次に第1の具体例で記述した方法で顔の大きさの比を算出し、人物毎に登場時間比と顔の大きさの比の積を算出しこれを重みとする。
このような重み付けの算出は一例であり、これに限定されない。重み付けはそれぞれのシーン毎に算出するので、最終的に供給される映像の解析処理が終わるとすべてのシーンについて登場人物の重み付けすることになる。ここでは、シーンが切り替わる都度、重み付けを算出する具体例を示したが、顔検出およびシーン切替わり検出が映像の最後まで終わってから、まとめて算出してもよいし、顔検出およびシーン切替わり検出を行いながら、並行して算出してもよい。前者の場合、重み付け算出部26は、ストレージ16から解析情報38を読み出し、解析の完了したシーンそれぞれの顔に対して重みを算出する場合、重み付け算出を全フレームの終了判断処理と画像の生成処理の間でまとめて重みを算出するとよい。
次にシーン切替検出部24は、シーンの切替わり検出した場合(YES)、シーンIDを更新し、新しいシーンIDを付与する。シーン切替検出部24は、フレーム番号およびシーンIDを解析情報34としてストレージ16に保存する(サブステップSS20)。シーン切替検出部24は、シーンの切替わりを検出したこと、すなわち信号30を顔検出部22に通知し、解析情報34を重み付け算出部26に通知する。重み付け算出部26は、解析情報34が供給されるとき、シーンの切替わりを検出したと判断するとよい。
重み付けの算出後、重み付け算出部26は、算出した重みを解析情報36としてストレージ16に出力し、格納する(サブステップSS22)。この処理後、リターンに進んでサブルーチンを終了する。
このように解析して、全フレームに対する解析が終わると、画像生成部28は、ストレージ16から解析情報40、すなわちシーン、顔および重みの情報を取得し、解析情報の結果画面を生成する。
結果画面の例について図5Aおよび図5Bを示す。生成される解析の結果画面44は、図5Aに示すように、それぞれのシーンを時系列順に、かつシーンの長さが一目見て分かるようにシーンの長さに応じた大きさ46で表わす。また、結果画面44は、図5Bの場合、シーンの長さを立体の奥行き48で表わしてもよい。
さらに、結果画面44においてシーン毎における顔画像の表示は、表示する人物の重みが一目見て分かるように顔画像の大きさ50または形状を変えて表示する。結果画面44は、表示するシーンの最も重みのある人物の顔画像を取得したフレーム画像全体をシーンの代表画像として合わせて表示してもよい。
なお、本実施例は、シーンとそのシーンに登場する人物の顔画像の長さ/大きさを変える場合で示したが、この表示方法に限定されず、表示色を変えたり、表示する明るさを変えたり、アニメーション表示させてアニメーションの動きを変えたりしてもよい。表示方法は、ユーザが直感的に示される解析情報が認識できるものであれば、他のどのような表現方法でもよい。
また、本実施例は、シーンの特徴表示に人物の顔を特化して示したが、動物、一般的に特徴的な建物、有名な自然物および風景を検出し、検出したものをそのシーンの登場物体として画像表示させてもよい。
このように構成し、比較的少ない処理量で結果画面を生成し、生成した結果画面をディスプレイ18に送って、生成した結果画面を表示させることにより、表示後、ユーザは画面上の顔画像やシーンの代表画像を選択して、直感的に見たいシーンを選択し、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制して、見たいシーンの映像を迅速に視聴することができる。さらに、シーン間で同一人物を統合するような高精度の実現が困難、かつ処理量の多い手段を使わず、家庭用レコーダや携帯端末装置であっても、少ない処理量でシーン間における同一人物を検出し同一人物を統合できるという効果が得られる。
本発明に係るコンテンツ検索装置を適用したDVD/HDD装置における概略的な構成を示すブロック図である。 図1のDVD/HDD装置における画像生成部の概略的な構成を示す機能ブロック図である。 図1のDVD/HDD装置におけるコンテンツ検索の動作手順を示すフローチャートである。 図2のサブルーチンにおける解析の動作手順を示すフローチャートである。 図1のディスプレイに表示される結果画面の表示例を示す図である。 図1のディスプレイに表示される結果画面における他の表示例を示す図である。
符号の説明
10 DVD/HDD装置
12 画像入力部
14 解析部
16 ストレージ
18 ディスプレイ
22 顔検出部
24 シーン切替検出部
26 重み付け算出部
28 画像生成部

Claims (4)

  1. 動画像の構成要素であるフレーム画像を解析し、解析した結果から前記動画像を基に供給される番組ソフトであるコンテンツの内容を検索するコンテンツ検索装置において、該装置は、
    前記フレーム画像を解析して、解析したフレーム画像に含まれる情報を抽出する解析手段と、
    抽出した情報を時系列的に格納する情報保存手段と、
    前記情報保存手段に蓄積された情報を基に生成される画像を表示する表示手段とを含み、
    前記解析手段は、前記フレーム画像から登場人物の顔を検出し、検出した顔領域の顔画像を出力する顔検出手段と、
    前記フレーム画像を基に前記動画像のシーンの切替えを検出する切替検出手段と、
    前記フレーム画像で検出された登場人物それぞれに対する重み情報を算出する重み算出手段と、
    前記情報保存手段に保存された情報を基に動画像のコンテンツの内容を表現する画像を生成する画像生成手段とを含むことを特徴とするコンテンツ検索装置。
  2. 請求項1に記載の装置において、前記画像生成手段は、前記シーンの長さに応じて該シーンの時間を大きさまたは形状で表現する画像を生成する機能ブロックと、
    前記登場人物の重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、前記代表顔画像を前記重み情報に応じた大きさまたは形状で表現する画像を生成する機能ブロックとを含むことを特徴とするコンテンツ検索装置。
  3. 動画像の構成要素であるフレーム画像を解析し、解析した結果から前記動画像を基に供給される番組ソフトであるコンテンツの内容を検索し、検索した結果を表示するコンテンツ検索の表示方法において、該方法は、
    供給されるフレーム画像を解析して、該フレーム画像から顔を検出し、検出した顔領域の顔画像を顔に関する解析情報として出力する第1の工程と、
    検出した顔に関する解析情報を保存する第2の工程と、
    前記フレーム画像を基に前記動画像のシーンの切替えを検出する第3の工程と、
    検出したシーンの切替えに関する解析情報を保存する第4の工程と、
    前記フレーム画像で検出された登場人物それぞれに対する重み情報を算出する第5の工程と、
    算出した重み情報を解析情報として保存する第6の工程と、
    保存した解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する第7の工程とを含むことを特徴とするコンテンツ検索の表示方法。
  4. 請求項3に記載の方法において、第7の工程は、前記シーンの長さに応じて該シーンの時間を大きさまたは形状表現する画像を生成する第8の工程と、
    前記登場人物の重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、前記代表顔画像を前記重み情報に応じた大きさまたは形状で表現する画像を生成する第9の工程とを含むことを特徴とするコンテンツ検索の表示方法。
JP2008043164A 2008-02-25 2008-02-25 コンテンツ検索装置およびその表示方法 Withdrawn JP2009201041A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008043164A JP2009201041A (ja) 2008-02-25 2008-02-25 コンテンツ検索装置およびその表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008043164A JP2009201041A (ja) 2008-02-25 2008-02-25 コンテンツ検索装置およびその表示方法

Publications (1)

Publication Number Publication Date
JP2009201041A true JP2009201041A (ja) 2009-09-03

Family

ID=41144023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008043164A Withdrawn JP2009201041A (ja) 2008-02-25 2008-02-25 コンテンツ検索装置およびその表示方法

Country Status (1)

Country Link
JP (1) JP2009201041A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256105A (ja) * 2011-06-07 2012-12-27 Sony Corp 表示装置、オブジェクト表示方法、及びプログラム
JP2014507699A (ja) * 2010-12-17 2014-03-27 オーディブル・インコーポレイテッド 参照対象とストーリーとの間の関連性の図式的表示
WO2015045543A1 (ja) * 2013-09-26 2015-04-02 富士フイルム株式会社 撮像画像の主要顔画像決定装置ならびにその制御方法およびその制御プログラム
JP2016504790A (ja) * 2012-11-05 2016-02-12 ネクストリーミング、コーポレーションNexstreaming Corporation 動画像編集方法、その端末および記録媒体
US9436741B2 (en) 2010-12-17 2016-09-06 Audible, Inc. Graphically representing associations between referents and stories
JP2017021844A (ja) * 2016-09-29 2017-01-26 富士フイルム株式会社 撮像画像の主要顔画像決定装置ならびにその制御方法およびその制御プログラム
JP2017504085A (ja) * 2013-10-31 2017-02-02 アルカテル−ルーセント 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法
US9779305B2 (en) 2012-04-05 2017-10-03 Panasonic Intellectual Property Corporation Of America Video analyzing device, video analyzing method, program, and integrated circuit
WO2019114508A1 (zh) * 2017-12-13 2019-06-20 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备
KR102112033B1 (ko) * 2019-07-03 2020-05-18 박혜림 얼굴 군집화 기법을 이용한 영상 추출 장치

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014507699A (ja) * 2010-12-17 2014-03-27 オーディブル・インコーポレイテッド 参照対象とストーリーとの間の関連性の図式的表示
US9436741B2 (en) 2010-12-17 2016-09-06 Audible, Inc. Graphically representing associations between referents and stories
JP2012256105A (ja) * 2011-06-07 2012-12-27 Sony Corp 表示装置、オブジェクト表示方法、及びプログラム
US9779305B2 (en) 2012-04-05 2017-10-03 Panasonic Intellectual Property Corporation Of America Video analyzing device, video analyzing method, program, and integrated circuit
JP2016504790A (ja) * 2012-11-05 2016-02-12 ネクストリーミング、コーポレーションNexstreaming Corporation 動画像編集方法、その端末および記録媒体
WO2015045543A1 (ja) * 2013-09-26 2015-04-02 富士フイルム株式会社 撮像画像の主要顔画像決定装置ならびにその制御方法およびその制御プログラム
JP2015064811A (ja) * 2013-09-26 2015-04-09 富士フイルム株式会社 撮像画像の主要顔画像決定装置ならびにその制御方法およびその制御プログラム
US9832439B2 (en) 2013-09-26 2017-11-28 Fujifilm Corporation Device for determining principal facial image in photographic image, and method and program for controlling same
JP2017504085A (ja) * 2013-10-31 2017-02-02 アルカテル−ルーセント 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法
JP2017021844A (ja) * 2016-09-29 2017-01-26 富士フイルム株式会社 撮像画像の主要顔画像決定装置ならびにその制御方法およびその制御プログラム
WO2019114508A1 (zh) * 2017-12-13 2019-06-20 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备
KR102112033B1 (ko) * 2019-07-03 2020-05-18 박혜림 얼굴 군집화 기법을 이용한 영상 추출 장치

Similar Documents

Publication Publication Date Title
JP2009201041A (ja) コンテンツ検索装置およびその表示方法
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
US8457469B2 (en) Display control device, display control method, and program
US8935169B2 (en) Electronic apparatus and display process
US20120057775A1 (en) Information processing device, information processing method, and program
US8126309B2 (en) Video playback apparatus and method
US8103149B2 (en) Playback system, apparatus, and method, information processing apparatus and method, and program therefor
JP5637930B2 (ja) 興味区間検出装置、視聴者興味情報提示装置、および興味区間検出プログラム
US9659595B2 (en) Video remixing system
TW201545120A (zh) 自動產生編譯視訊
US9558784B1 (en) Intelligent video navigation techniques
WO2006025272A1 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
US9564177B1 (en) Intelligent video navigation techniques
CN101444092A (zh) 视频播放装置,视频播放方法,以及视频播放程序
US20220021942A1 (en) Systems and methods for displaying subjects of a video portion of content
US20110235859A1 (en) Signal processor
JP2010258615A (ja) 再生装置及びプログラム
US20240201940A1 (en) Systems and methods for displaying subjects of an audio portion of content and searching for content related to a subject of the audio portion
KR20140041561A (ko) 객체 위치를 통한 비디오 내비게이션
US10999647B2 (en) Systems and methods for displaying subjects of a video portion of content and searching for content related to a subject of the video portion
US11099811B2 (en) Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
US20210089781A1 (en) Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion
US20210089577A1 (en) Systems and methods for displaying subjects of a portion of content and displaying autocomplete suggestions for a search related to a subject of the content
US20200204856A1 (en) Systems and methods for displaying subjects of an audio portion of content

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110510