JP2008153920A

JP2008153920A - 動画像一覧表示装置

Info

Publication number: JP2008153920A
Application number: JP2006339626A
Authority: JP
Inventors: Takeaki Suenaga; 健明末永; Yoshiaki Ogisawa; 義昭荻澤; Shuichi Watabe; 秀一渡部
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-12-18
Filing date: 2006-12-18
Publication date: 2008-07-03

Abstract

【課題】動画像を複数並べて再生する際に、各々が互いに類似しないような動画像に要約し、再生することにより、ユーザが一覧表示する動画像の差異を容易に理解可能な動画像一覧表示装置を提供する。
【解決手段】この動画像一覧表示装置１００は、蓄積部１０１に蓄積された動画像から、条件入力部１０３で指定された条件に基づき動画像選出部１０２で選出する。選出された動画像は特徴検出部１０９で特徴が検出され、この特徴を用いて動画像群の相関計算を相関計算部１０４で行い、計算された相関を加味した動画像の要約を要約作成部１０５で作成して、作成された要約を一覧表示する。
【選択図】図１

Description

本発明は、複数の動画像の一覧表示を行う動画像一覧表示装置に関する。

近年、ネットワークの高速化、チャンネルの多様化に伴い、個人が視聴することの出来る動画像コンテンツの量は飛躍的に増加している。また、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）やハードディスク装置（ＨＤＤ）などの記録媒体の大容量化に伴い、動画像をこれらの記録媒体へ大量に録画し、放送時間に縛られることなく番組を視聴するというスタイルも一般的となった。

このように、個人が扱う動画像の量が膨大になると、自分の視聴したい動画像を探す為にその動画像の内容を素早く簡単に確認する技術が必要となる。この問題を解決する手段の一つとして特許文献１、２がある。

特許文献１では、動画像の要約を作成し、それを確認するという手法である。また、特許文献２では、更に、動画像データから複数のサムネイル静止画像を選出し、それらをコマ送りした動画像の要約を作成するだけでなく、この要約を一覧として同時に再生させることで、ユーザが複数の動画像の内容を素早く確認することを可能にしている。
特開２００３−１０１９３９号公報特開平１１−２８４９４８号公報

しかしながら、例えば同一ジャンルに分類される複数の動画像各々の要約を作成した場合、その内容が似通ってしまう場合がある。これら似通った要約を特許文献２に示されるような、一覧として表示した場合、ユーザが各動画像の差異を十分に理解することが出来ないため、結果どの動画像を選択して良いか分からなくなるという問題がある。

例えば、同一タイトルのドラマの複数話を各々要約すると、特許文献１に示される動画像の要約作成技術では、ジャンル別に最適化されたパラメータを用いて部分的な動画像を選択し、時間長が短縮された動画像の要約を作成する。このジャンル別に用意された要約条件を適用する場合、今要約しようとする動画像群のジャンルは「ドラマ」で同一であるので、適用される要約条件も一緒になる。

ここで、これらのドラマが、毎回定型化されたパターンで構成されていた場合を考える。どれか一つ話の要約でその定型化されたパターンを含む動画像の一部分が選択されれば、同一の要約条件で要約したその他の話の要約でも、同一のパターンを含む部分が選択される可能性が高くなる。

一般的に、この定型化されたパターンは、映像的乃至は音声的に似通っている場合が多く、それゆえ、これら動画像の要約を一覧として並べても、ユーザにはどれも同じような内容に見えてしまい、各動画像間の差異を理解することが困難である。その結果、ユーザはどの動画像を視聴すべきかを決定し難い。

本発明は、上記の実情を考慮してなされたものであって、一覧表示される動画像各シーンの相関を考慮することで、ユーザが各々を比較し易いようなユニークな動画像の要約を作成し、一覧表示を行う動画像一覧表示装置を提供することを目的とする。

上記の課題を解決するために、本発明の動画像一覧表示装置は次のような構成を持つものとする。
本発明の動画像一覧表示装置は、映像、音声を含む複数の情報からなる動画像を蓄積する蓄積部と、前記蓄積部から所定の条件に従い一覧表示する複数の動画像を選出する選出部と、動画像自体から得られる情報乃至動画像に付属する情報に基づいて、動画像全体またはシーンごとの特徴情報を検出する特徴検出部と、前記特徴検出部で検出された前記特徴情報を用いて、前記選出部で選出された複数の動画像の各シーンについて、シーン間の相関を計算する相関計算部と、前記相関計算部で計算された前記シーン間の相関と、前記特徴検出部で検出された前記特徴情報とに基づいて、前記選出部で選出された各動画像の要約を作成する要約作成部と、前記要約作成部で作成された要約を一覧表示する一覧表示部と、を備えるものである。

あるいは、本発明の動画像一覧表示装置は、映像、音声を含む複数の情報からなる動画像と、該動画像の特徴情報とを蓄積する蓄積部と、前記蓄積部から所定の条件に従い一覧表示する複数の動画像を選出する選出部と、前記蓄積部で蓄積された前記特徴情報を用いて、前記選出部で選出された複数の動画像の各シーンについて、シーン間の相関を計算する相関計算部と、前記相関計算部で計算された前記シーン間の相関と、前記蓄積部で蓄積された前記特徴情報とに基づいて、前記選出部で選出された各動画像の要約を作成する要約作成部と、前記要約作成部で作成された要約を一覧表示する一覧表示部と、を備えるものである。

ここで、前記所定の条件は、ジャンル指定やキーワード指定や、一覧表示された動画像群の中からユーザによって選択操作され、前記動画像自体から得られる情報乃至動画像に付属する情報は、例えば、映像情報、音声情報、字幕情報や、動画像に付属する情報（例えば、ＥＰＧ、および、タグ情報等）のうち１つ以上の組み合わせである。
また、前記相関計算部は、凝集型のクラスタリング手法やｋ−ｍｅａｎｓに代表される分岐型のクラスタリング手法等を用いてシーン間の相関を求める。

前記要約作成部は、次のいずれかで動画像の要約を作成する。
（１）前記相関計算部で計算された前記シーン間の相関に基づき、類似したシーンの数に応じて当該シーンを再生する時間長を決定し、動画像に含まれる各シーンを決定された前記時間長で再生することで各動画像の要約を作成する。
前記時間長は、当該シーンについて、類似したシーンが多いほど再生時間を短くするものであってもよいし、さらに、前記特徴検出部から得られた前記特徴情報に基づいて、当該シーンの前記時間長を調整するようにしてもよい。
また、他の動画像との差異を良く示したシーンの場合には、該シーンの再生時間を変更しないようにしてもよい。
さらに、前記類似したシーンの含まれる動画像が同一の動画像か異なる動画像かによって、当該シーンの前記時間長を調整するようにしてもよい。

（２）前記相関計算部で計算された各シーン間の相関に基づき、類似したシーンが所定数よりも少ないシーンを集めて各動画像の要約を作成する。
（３）各動画像について目標再生時間を定め、前記相関計算部で計算された各シーン間の相関に基づいて、他の動画像との差異を良く示したシーンを前記目標再生時間で再生可能なだけ集めて各動画像の要約を作成する。

（４）一覧表示された動画像群の中から特定の動画像の指定を受け付ける操作入力部を備え、前記要約作成部は、前記操作入力部で指定された動画像（以下、注目動画像）に関しては、前記相関計算部で計算された前記シーン間の相関と独立に要約を作成し、その他の動画像の要約に関しては、前記指定された動画像の要約に含まれるシーンに類似したシーンを除いて作成する。これにより、複数の動画像が一覧表示された場合でも、一覧表示される動画像中に似通ったものが多く存在すると判断されたシーンが要約の中に選出されにくくなるので、ユーザは動画像の差異を確認することが容易になり、所望の動画像を探し出しやすくなる。

さらに、上記の動画像一覧表示装置において、前記蓄積部には、蓄積されている全ての動画像について、予め特徴情報を検出して蓄積しておき、前記相関計算部および前記要約作成部は、前記動画像選出部で選出された動画像の特徴情報を、前記蓄積部から直接読み出すようにしてもよい。

また、上述した構成の動画像一覧表示装置の各部として、コンピュータを機能させるためのプログラムを作成しておき、または、そのプログラムをコンピュータ読み取り可能な記録媒体に記録しておき、このプログラムをコンピュータで実行することによっても上記課題を解決することができる。

本発明では、複数の動画像を一覧表示するものとし、一覧表示される動画像の少なくとも一つを動画像の要約として再生する際に、作成される要約を一覧表示される動画像群の組み合わせに応じて変化させる。
また、動画像の要約を作成する基準のひとつにシーン間の相関を用い、一覧表示される動画像中に似通ったものが多く存在すると判断されたシーンは、要約の中に選出されにくくする。
これにより、複数の動画像が一覧表示された場合でも、ユーザは動画像の差異を確認することが容易になり、所望の動画像を容易に探し出すことができる。

以下、図面を参照して本発明の動画像一覧表示装置に係る好適な実施形態を説明する。
＜実施形態１＞
図１は、本実施形態１に係る動画像一覧表示装置の機能構成を示すブロック図である。
図１において、動画像一覧表示装置１００は、蓄積部１０１、動画像選出部１０２、条件入力部１０３、相関計算部１０４、要約作成部１０５、画面合成部１０６、表示部１０７、操作入力部１０８、特徴検出部１０９を含んで構成される。

以下に、本実施形態１に係る動画像一覧表示装置の各部についての詳細を示す。
蓄積部１０１は、ＤＶＤやＨＤＤ等の記憶媒体で形成され、本実施形態１で対象とする複数の動画像を蓄積する。この動画像は、放送波を受信し録画したもの、インターネットなどのネットワークを介して取得したもの、ＤＶＤや各種メモリーカードなどの記録メディアを通じて取得したものなどであり、WMV、MPEG-1、MPEG-2、MPEG-4、H.264/AVC等で圧縮されていてもよい。また、これら動画像の他にも、各シーンの相関の計算や動画像の要約を作成する際に利用される動画像付加情報（例えば、字幕情報、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）、動画像に付されたタグ情報など）が蓄積される。

条件入力部１０３は、蓄積部１０１に蓄積された複数の動画像から一覧表示する動画像を選出するための条件を入力する。この動画像を選出する条件としては、例えば、ジャンル指定、キーワードなどを用いた検索が挙げられる。勿論、これら条件を一切指定せず、全ての動画像を選択することも可能である。

動画像選出部１０２は、条件入力部１０３を通じてユーザが入力した条件に合致する動画像を蓄積部１０１に蓄積された複数の動画像の中から選出する。

特徴検出部１０９は、動画像選出部１０２で選出された動画像について、動画像から様々な情報を取得し、動画像全体、またはシーンごとの特徴を検出し、ここで得られた動画像の特徴は、相関計算部１０４や要約作成部１０５に伝達され、各シーンの相関の計算や、動画像の要約を作成する際に利用される。

ここで、本発明におけるシーンとは、複数のフレームの時系列である動画像中における、意味的まとまりを持つフレーム区間のことを指し、何らかの基準、例えば、予め人手によって記述されたメタデータや動画像情報を用いた自動分割手法によって、既に分割されているものとする。
この自動分割手法としては、公知の方法（例えば、山田伸、藤岡利和、金森克洋、松島宏司:部分領域ごとの共通色に着目したシーンチェンジ検出方式の検討:テレビジョン学会技術報告:Ｖｏｌ１７，Ｎｏ５５）を用いるものとする。

特徴検出部１０９は、動画像自体から得られる情報乃至は動画像に付属する情報を利用して特徴を検出する。
動画像自体から得られる情報の例としては、動画像に含まれる映像情報や、音声情報または字幕情報など、動画像に付属する情報としてはＥＰＧ、動画像に付されたタグ情報などが挙げられる。
これら動画像情報から得られる特徴の例として、映像情報から得られる平均輝度情報、各種色空間における色ヒストグラム情報、エッジの方向・密度、エッジ情報、動きベクトル情報、音声情報から得られる音声レベルや周波数分布、発話位置、背景音楽（ＢＧＭ）情報、テキスト情報から得られるテロップ情報、ＥＰＧやタグ情報から得られるタイトル、ジャンル情報、出演者、録画日時などの重要キーワードが挙げられる。

相関計算部１０４は、動画像間の相関を計算するために、動画像選出部１０２から得られる表示する動画像全体乃至は各々に含まれる各シーンの相関を計算する。
シーンの相関は、特徴検出部１０９にて得た複数の特徴情報を単一的または複合的に使用し、各シーンの特徴情報は任意の次元の特徴ベクトルに変換される。ここで、特徴ベクトルとは、各シーンから得られる特徴情報を任意の次元のベクトルとしたものである。

次に、凝集型クラスタリング手法を用いて、各シーンの相関計算の例を説明する。
図２に示すように、シーンＡからシーンＦに分けられた動画像１と、シーンＧからシーンＬに分けられた動画像２があるものとする。ここで、任意のシーンｉの動画像の特徴から、ｍ次元の特徴ベクトルＶ_ｉが得られたものとする。このとき、ｍ次元空間において、ベクトルＶ_ｉに基づき、シーン１からシーンｎまでのｎ個のシーン各々を１個だけ含むｎ個のクラスタ（Ｃ_１〜Ｃ_ｎ）に分類し、これを初期状態とする。

この初期状態から、２つのシーンの特徴ベクトルＶ_ｉとＶ_ｊのユークリッド距離ｄ（Ｖ_ｉ，Ｖ_ｊ）を取得する。この距離ｄ（Ｖ_ｉ，Ｖ_ｊ）はシーンｉとシーンｊの相関の高さを示し、値が小さければシーンｉとシーンｊの相関が高いことを示す。
さらに、この情報ｄ（Ｖ_ｉ，Ｖ_ｊ）を用いて、各クラスタの距離を求める。クラスタＣ_ｉとＣ_ｊの距離Ｄ（Ｃ_ｉ，Ｃ_ｊ）は以下の式（１）で求められる。

ここで、ｎ_ｉ、ｎ_ｊはそれぞれクラスタＣ_ｉ、Ｃ_ｊに含まれるシーンの個数である。ここでは、説明のため、クラスタＣ_ｉに含まれる全シーンとクラスタＣ_ｊに含まれる全シーンとの距離を求め、その平均をクラスタ間の距離Ｄ（Ｃ_ｉ，Ｃ_ｊ）としたが、これ以外の計算手法を用いてクラスタ間の距離計算を行ってもよい。例えば、クラスタＣ_ｉに含まれる任意のシーンｉ´とクラスタＣ_ｊに含まれる任意のシーンｊ´との間の距離ｄ（Ｖ_ｉ´，Ｖ_ｊ´）の中で最小のものをクラスタ間の距離とする最短距離法や、前述の距離の中で最大のものをクラスタ間の距離とする最大距離法などを用いてもよい。

次に、このクラスタ間の距離Ｄ（Ｃ_ｉ，Ｃ_ｊ）を全クラスタ間で計算し、最も距離が小さくなる次の式（２）を満たすクラスタＣ_ｋ、Ｃ_ｌを同一クラスタとして併合する。

併合後の（ｎ−１）個のクラスタについて、再度この併合処理を行うことを繰り返すことで、クラスタをステップごとに纏めていく。但し、Ｄ_ｍｉｎ（Ｃ_ｋ，Ｃ_ｌ）が予め設定した閾値Ｔｈを超える場合は、併合処理を打ち切る。即ち、閾値Ｔｈ以上に全てのクラスタ間が離れている場合は、そのクラスタ各々は互いに類似しないシーンクラスタであるとみなす。

図３は、図２に示された各シーンＡ〜Ｌから得られたｍ次元の特徴ベクトルから、前述のクラスタリング手法を用いて分類した結果の例を示す図である。なお、ここでは説明のため、２次元に簡略化してプロットしている。分類の結果、各シーンは、点線で囲まれた各クラスタに分類されている。

本発明では、このようにして得られた複数のクラスタにおいて、同一クラスタに分類されたシーンは互いに相関が高いと判断し、反対に別なクラスタに分類されたシーンは相関が低いものとする。以後、この一つ乃至は複数のシーンが分類されたクラスタをシーンクラスタと呼ぶ。

上記の説明では、シーンの相関を計算するために、凝集型のクラスタリング手法を用いたが、ｋ−ｍｅａｎｓに代表される分岐型のクラスタリング手法を用いても良いし、その他の技術を用いてシーン間の相関を求めてもよい。

要約作成部１０５は、相関計算部１０４に示された各シーンの相関と特徴検出部１０９から得られた特徴情報を用いて、動画像選出部１０２で選出された動画像各々の要約を作成する。以下、図４乃至図１２を用いて、動画像の要約を作成する手法の一例を説明する。

今、４つの動画像、動画像１、動画像２、動画像３、動画像４を一覧表示する場合を考える。これらの各動画像は、図４に示すようにシーン分割されており、前述の手法を用いて全てのシーンをシーンクラスタＡからＯに分類したものとする。
分類の結果、複数の類似したシーンの集合からなるシーンクラスタＡ、Ｂ、Ｃ、Ｄが作成され、それ以外のシーンクラスタＥからＯに含まれるシーンは、類似するシーンが存在せず、各々１つのクラスタに対して１つのシーンのみ分類されたとする。

ここで、類似したシーンが多ければ多いほど、即ち同一シーンクラスタに分類されたシーンの個数が多ければ多いほど、それらのシーンの重要の度合いを下げるような係数を設定したい。この係数を重要度ω_ｉとすると、重要度ω_ｉは次の式（３）で計算される。ここで、a、ｂは本装置に予め設定された任意の定数とし、ｎ_ｉは、シーンクラスタｉに分類されたシーンの個数である。

この重要度ω_ｉを用いて各シーンの再生時間長乃至はシーン再生の有無を判定する。
例えば、図４に示された動画像１から動画像４を分類した結果から各シーンクラスタの重要度ω_ｉを求めると次のような関係が成り立つ。

ω_Ａ＜ ω_Ｂ＜ ω_Ｃ＝ ω_Ｄ＜ ω_Ｅ＝ ω_Ｆ＝ … ＝ ω_Ｏ

上記の説明では、全てのシーンを等価なものとして扱いω_ｉを求めたが、ここに同一の動画に含まれるシーンかどうかを加味して重要度を決定するようにしても良い。
例えば、先に示した重要度ω_ｉの算出方法では、同一の動画像から得られるシーンのみが集まったクラスタｉであっても、重要度ω_ｉが下がってしまう。

ところが、動画像間の差異を確認するという観点からすれば、同一動画像から得られるシーンのみが集まったクラスタｉは、他の動画像との差異を良く示したシーンが集まったクラスタであるといえる。そこで、あるクラスタに分類されたシーン群の中で、同一の動画像から得られたシーンが多く含まれる場合は、そのクラスタに分類されるシーンの重要度が高くなるように、重要度ω_ｉを次の式（４）で設定する。但し、ａ、ｂは予め設定された定数であり、ｍ_ｉはクラスタｉに含まれるシーンを、同一動画像に含まれるシーンを重複してカウントすることのないようにしたシーンの数である。

図３において、先に示した重要度計算法に基づくと、２つのシーンが分類されたクラスタである３０１と３０２は同一の重要度を持つことになるが、今回示した重要度計算法に基づけば、３０１に比べて３０２の重要度が高くなる。ここにおいて、３０２は動画像２のシーンを多く含むクラスタであり、動画像１との差異を示すのに好適なクラスタであると考えられる。

次に、求められた重要度ω_ｉを利用し、動画像の要約を作成する。
ここでは、動画像の要約を作成する例の一つとして、重要度を要約後の各シーンの再生時間計算に用いた例を示す。
求められた重要度ω_ｉを利用し、要約後の再生時間長Ｔｘ_ｉを次の式（５）で求める。但し、ｔｘ_ｉは、シーンクラスタｉに分類されたシーンｘの再生時間長を表すものである。

図５に示すように、シーンｘは要約後の再生時間長Ｔｘ_ｉに合わせて要約される。
指定の時間に合わせてシーンを要約する手法としては、公知の要約技術（例えば、特許３６４０６１５号公報）を用いて、部分的な再生や、高速再生によって実現されることとしても良いし、勿論、その他の技術を利用することとしても良い。

このようにして、図４の動画像１から動画像４を要約した図が図６である。要約された動画像１から要約された動画像４は、各々動画像１から動画像４の各シーンの再生時間を前述の手法を用いて求め要約したものである。図６の例では、各動画像における類似するシーンが多いほど短くまとめられ、逆に他のシーンと類似しないユニークなシーンを中心に要約が作成されている。

また、要約の長さを予め決定し、それに合わせる形で動画像の要約を作成する要約作成法も考えられる。図６で示した要約作成例では、重要度をそのまま動画像に適用して各シーンの再生時間長を決定したため、各要約の再生時間長が不揃いになっている。この要約の再生時間長を、目標とする再生時間長で正規化することにより、全ての要約再生時間を一定とすることが可能である。

また、図７では、各動画像を構成するシーンを先に求めた重要度ω_ｉによる降順に並び替え、即ち、ユニークなシーンが優先的に再生されるように並び替え、先頭から任意の時間分を要約として再生する例を示している。今、時刻ｔを目標再生時間として定め、時刻ｔ以内で再生可能なシーンを先頭から再生していくとすると、図８（Ａ）に示すような動画像の要約が作成される。また、図８（Ｂ）に示すように、図８（Ａ）で得られた目標再生時間ｔ以内で再生可能なシーンの集合を、時間軸に沿って、即ち要約前の動画像における出現順に従って、再度並び替えることにしてもよい。

重要度ω_ｉを用いた要約手法としては、他にも、重要度ω_ｉが予め設定された条件を満たす場合のみ、再生を行う形式とすることも考えられる。図９では、類似するシーンが他に無いシーンのみを再生、即ちω_ｉ＝ａ＋ｂを満たすシーンのみを再生することとした場合の例を示す図である。

他にも、図１０に示すように、重要度ω_ｉが高いシーンの中から、任意の１シーンを選んで再生するようにしてもよいし、各シーンから代表静止画像を複数枚抜き出してパラパラ漫画のように連続表示することとし、この抜き出す代表静止画像の枚数を重要度ω_ｉの大きさに比例させるようにしても良い。

勿論、重要度ω_ｉは一つの指標から導き出されるものではなく、複数の指標を組み合わせても良い。相関計算部１０４で得られた各シーンの相関情報に加えて、特徴検出部１０９で検出された特徴情報を利用することで、より柔軟な動画像の要約の作成が可能となる。

図１１は、音声レベル１１０１が高く、他の動画像に含まれないシーンを重要なシーンとした例を示す図である。即ち、シーンｉにおける重要度ω_ｉを式（６）で求める。ここにおいて、a、ｂ、ｃは予め設定された任意の定数、ｓ_ｉはシーンｉにおける平均音声レベルである。

この重要度ω_ｉの最も高いシーンが動画像の要約として選出されるとすると、シーンＦが動画像の要約として選択される。
重要度を決定するために利用可能な特徴情報は、この他にも、シーン切り替え頻度などが挙げられる。例えば、スポーツ番組において、野球中継におけるヒットや投球シーン、サッカー中継における重要なパスやゴールシーンなど、一般的にユーザが重要と考えるシーンにおいては、カメラの切り替わりやリプレイ再生、人物のアップなど、シーン切り替えが頻発する。このことから、シーンが前述のカメラの切り替わりなどの場面転換となるような位置で区切られていた場合、シーンの間隔が短い場合は重要の度合いが高く、逆に長い場合は重要の度合いが低くなるような指標を加味した重要度ω_ｉを設定する。即ち、重要度ω_ｉを次の式（７）で求める。ここにおいて、ｌ_ｉはシーンｉにおける再生時間長であり、ａ、ｂ、ｃは予め設定された係数であるとする。

他にも、音声情報のモノラル、ステレオの種別からシーン中にコマーシャル区間と判断される区間を多く含むか否かを判別し、各シーンにおけるコマーシャル以外（本編）が占める割合を指標の一つとして用いることで、動画像の要約からコマーシャル部分を排除するようにしても良いし、映像情報から得られる動きベクトル情報からシーンの動きの激しさを求め、これを重要度ω_ｉ計算の指標の一つとして用いても良い。

また、予め設定しておいた特徴情報、例えば特定の人物の顔、などにマッチするフレームをパターンマッチングなどの手法を用いて検出し、該フレームがシーン中に含まれる割合を指標の一つと考えても良いし、映像中に埋め込まれたテロップが出現するシーンなど、エッジ強度が高い領域を多く含むシーンの重要度を高くするために、シーン中に含まれる各フレームのエッジ強度を指標の一つとしても良い。

また、上記重要度作成の例では、扱う動画像が何らかの形式で圧縮されている場合、復号処理した映像情報から取得可能な情報を用いて重要度の計算を行ったが、勿論復号前の情報を用いて重要度を計算しても良い。例えば、先の動きベクトルを用いた重要度の計算を行う際に、映像情報がＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）方式のようなフレーム間予測符号化方式によって圧縮されていた場合、復号前の映像情報から得られる動きベクトル情報を用いても良い。

このように、動画像間の相関を加味し、動画像各々のユニークなシーンが強調されるように動画像の要約を作成することで、ユーザがこれら要約を並べて視聴する場合でもコンテンツの差異を把握しやすくなる。

操作入力部１０８は、ユーザの操作を受け付けるリモコン等の入力デバイスからなり、一覧表示される動画像の選択などを通じて、画面合成部１０６に指示を出す。

画面合成部１０６は、動画像選出部１０２で選択された動画像を、要約映像作成部１０５で要約された動画像を全て同時に再生して表示部１０７に一覧表示する。
しかし、全て同時に再生するのではなく、ユーザがカーソルを合わせて選択した動画像のみ要約再生し、選択されないその他の動画像は代表静止画像を表示する形式としても良い。

一覧表示させる動画像は、図１２（Ａ）に示すように、動画像の要約のみを一覧表示する形式としても良いし、図１２（Ｂ）に示すように動画像の要約とそれらに付随する情報（例えば、タイトル、録画日時など）を同時に表示する形式としても良い。

さらに、ユーザがカーソルを合わせた動画像の詳細だけ表示するようにしても良い。例えば、図１２（Ｃ）のように、ユーザが動画像３（１２０１）にカーソルを合わせたときに、選択された動画像３の拡大表示された要約と、動画像の詳細を示す文字情報１２０３を表示してもよい。ここで、表示される拡大表示される１２０２の位置には、要約される前の動画像３を再生させるようにしても良いし、動画像の相関を加味しない要約を再生するようにしても良い。

但し、本発明における動画像の相関を加味しない要約とは、相関計算部１０４から得られる相関を使用せず、特徴検出部１０９から得られる特徴情報のみを用いて、作成される動画像の要約のこと指し、公知の方法（例えば、特開２００３−１０１９３９号公報など）によって作成する。

また、上述のように、動画像選出部１０２で選択された動画像全てを一度に画面に表示する必要はなく、図１２（Ｄ）に示すようにスクロールバー１２０４を用いてスクロールさせたり、図１２（Ｅ）に示すように動画像を予め複数のページに分割して表示するようにし、ページめくりの戻りボタン１２０５や次へボタン１２０６をユーザが選択することでページを切り替えるようにしてもよい。

表示部１０７は、液晶ディスプレイ等からなり、条件入力部１０３や操作入力部１０８でユーザの入力した結果や、画面合成部１０６で合成された要約された複数の動画像の一覧等を表示する。

＜実施形態１の変形例＞
上記の実施形態１（図１）では、動画像選出部１０２で選択された動画像から特徴情報を逐次計算する構成となっているが、特徴検出部１０９で扱われる動画像は録画済のものであるから、予め特徴情報を全ての動画像について検出して蓄積しておくものとしても良い。

図１３は、実施形態１の変形例の動画像一覧表示装置２００の機能構成を示すブロックであり、同図において、動画像一覧表示装置２００は、蓄積部２０１、動画像選出部１０２、条件入力部１０３、相関計算部１０４、要約作成部１０５、画面合成部１０６、表示部１０７、操作入力部１０８を含んで構成される。図１３において、図１と同じ機能については同一の符号を付し、その説明を省略する。

この変形例の場合、蓄積部２０１には、全ての動画像について、予め特徴情報を検出して蓄積しておき、相関計算部１０４、要約作成部１０５は、動画像選出部１０２で選出された動画像の特徴情報を、蓄積部２０１から直接読み出すようにする。

また、蓄積部２０１に記録される特徴情報は、本装置の特徴検出部１０９以外で検出されても良く、予め検出された動画像の特徴情報を、放送波やネットワーク、各種記録メディアを通じて取得し、蓄積部２０１に記録するようにしても良い。

＜実施形態２＞
実施形態１において、一覧表示をした後にさらに条件を絞って動画像を選択する場合も考えられる。本実施形態２は、実施形態１で一覧表示された動画像群の中から、ユーザがさらに一部に絞って内容を確認する場合の例である。

図１４は、実施形態２に係る動画像一覧表示装置３００の機能構成を示すブロック図であり、同図において、動画像一覧表示装置３００は、蓄積部１０１、動画像選出部１０２、条件入力部１０３、相関計算部１０４、要約作成部１０５、画面合成部１０６、表示部１０７、操作入力部３０８、特徴検出部１０９を含んで構成される。図１４において、図１とおなじ機能については同一の符号を付し、その説明を省略する。
操作入力部３０８は、一覧表示された動画像群の中から一部に絞って内容を確認するためのユーザからの指示を受け付け、画面合成部１０６へ指示する。
なお、上記の実施形態１の変形例のように、蓄積部１０１に予め特徴情報を全ての動画像について検出して蓄積しておくものとしても良い。この場合の構成は、図１の代わりに図１３を用いて構成する。

本実施形態２の場合の動作を図１４および図１５を用いて説明する。
今、ユーザが図１５（Ａ）の１５０１に示すように、一覧表示された動画像の中から、動画像３、動画像４、動画像５、動画像８の要約だけを表示するように要求するものとする。
これらの動画像のうちからカーソルを合わせて選択し、選出を行った後の図が図１５（Ｂ）である。このとき、動画像３、動画像４、動画像５、動画像８が選択、抽出されたと言う情報は、操作入力部３０８から条件入力部１０３に動画像選択条件として伝えられ、これら動画像が動画像選出部１０２で選出された上で、再度シーン間の相関算出がなされ、これら４つの動画像の相関のみを加味した動画像３、動画像４、動画像５、動画像８に対する動画像の要約が新しく作成される。

動画像を選択する方法は、図１５（Ａ）で示したような、直接ユーザが選択指示する手法に限らず、図１５（Ｃ）に示すように、予め複数の動画像が選択可能な大きさを持った範囲１５０２に入った動画像を選択するものとしてもよい。
また、図１５（Ａ）の中から任意の動画像を選択する手法としては、範囲で選択するだけでなく、図１５（Ｄ）に示すように、動画像に付随するＥＰＧ情報などから判断したジャンル情報１５０３で限定することで、一部の動画像を選出することとしても良いし、図１５（Ｅ）に示すように、キーワード検索などの検索結果を選出の条件としても良い。

＜実施形態３＞
本実施形態３では、現在ユーザが注目している動画像を、相関を加味しない動画像の要約とし、該要約を基準として、その周辺に表示される動画像の要約を類似することの無いようにする。
図１６は、実施形態３に係る動画像一覧表示装置４００の機能構成を示すブロック図であり、同図において、動画像一覧表示装置４００は、蓄積部１０１、動画像選出部１０２、条件入力部１０３、相関計算部１０４、要約作成部４０５、画面合成部１０６、表示部１０７、操作入力部４０８、特徴検出部１０９を含んで構成される。図１６において、図１とおなじ機能については同一の符号を付し、その説明を省略する。
なお、上記の実施形態１の変形例のように、蓄積部１０１に予め特徴情報を全ての動画像について検出して蓄積しておくものとしても良い。この場合の構成は、図１の代わりに図１３を用いて構成する。

要約作成部４０５は、相関計算部１０４で求められた相関に加えてユーザが今現在注目している動画像であるかどうかを考慮して動画像選出部１０２で求められた動画像各々の要約を作成する。
操作入力部４０８は、今現在注目している動画像であるかどうかの指示をユーザから受け付け、指示された動画像を要約作成部４０５へ渡す。
以下に、本実施形態３の動作を図１６乃至図２１を用いて説明する。

上記の実施形態１（図１）で説明した通り、まず、ユーザは条件入力部１０３から一覧表示する動画像の選択条件を入力し、動画像選出部１０２では、その条件に基づき蓄積部１０１から動画像を選択し、特徴検出部１０９で得られる選択された動画像の特徴情報を利用して、相関計算部１０４で相関を計算し、それを考慮した動画像の要約を要約作成部４０５で作成する。

但し、この時点では操作入力部４０８からの出力は無く、要約作成部４０５は実施形態１で説明した要約作成部１０５と同等の動きをするものとする。その後、一覧表示を行う動画像の要約を画面合成部１０６で合成し、表示部１０７に一覧表示を行う。

この一覧表示を行った際、ユーザが操作入力部４０８を通じて、ユーザが今現在注目している動画像を選択したものとする。このとき、操作入力部４０８は、画面合成部１０６を通じて、ユーザの操作入力を表示部１０７に反映させるだけでなく、要約作成部４０５にも伝える。

要約作成部４０５では、ユーザが注目している動画像が存在する場合、その動画像に関しては、他の動画像との相関を加味しない要約を作成する。即ち、要約作成部４０５では、ユーザが一覧表示された動画像にカーソルを合わせる（図１７）等によって、操作入力部４０８からユーザの注目した動画像が指定されると、以下の手順に従って動画像の要約を作成する。

まず、ユーザが注目している動画像については、相関計算部１０４で計算された各動画像間の相関を用いずに要約を作成する。この動画像の相関を用いない要約は、例えば、図１８に示すように音声特徴を用いて作成される。図１８は、動画像の音声から得られる特徴の一つである、音声レベルを用いた要約作成法を示したものである。主にスポーツ番組などでは、重要なシーンでは観客の歓声が大きくなる。即ち、音声レベルが高いシーンは重要度が高いと判断できる。

このことから、各シーンに含まれる音声の音声レベル１８０１に対し、閾値１８０２を超える音声レベルを含むシーンは重要シーンとして抜き出すことで、動画像の要約が作成される。但し、閾値１８０２は、予め設定された任意の値であるとする。ここでは、該当するシーンＢ、Ｃ、Ｅが選出され、要約１が作成されている。
勿論、動画像の相関を加味せず、映像の特徴から要約を作成するためには、上記以外の手法を用いても良く、公知の文献（例えば、特開平１１−２８４９４８号公報）の技術を用いてもよい。
ここで、この作成された動画像の要約を注目動画像の要約と呼ぶことにする。

次に、ユーザが注目した動画像以外の動画像の要約を行う。
今、相関計算部１０４で、図１８に示した動画像１の各シーンＡからＦと、図１９に示した動画像２の各シーンＧからＬとの相関を計算する。ここでは、上述したようなクラスタリングを行うものとし、この結果を２次元にプロットした図が図２０である。

このとき、ユーザが注目している動画像の要約である、注目動画像の要約に類似しないように、ユーザが注目していない動画像（以下、非注目動画像と呼ぶ）を要約したい。今、ユーザが注目している動画像は動画像１であり、注目動画像の要約が要約１であるとすると、要約１に含まれるシーンである、シーンＢ、シーンＣ、シーンＥに類似するシーン、即ち、シーンＢ、シーンＣ、シーンＥの各々と同一クラスタに分類されるシーンについて重要度を下げることにする。

図２１では、注目動画像の要約映像である要約１と同一のクラスタに分類されなかったシーンを要約映像として抜き出す例を示したものである。図２０に示されているように、要約１に含まれるシーンである、シーンＢ、シーンＣ、シーンＥと同一のクラスタ２００１、２００２、２００３に分類されたシーンＧ、シーンＩ、シーンＬは要約２からは省かれ、要約１に含まれていないシーンＨ、シーンＪ、シーンＫで要約２が作成されている。

勿論、要約作成部１０５で述べたように、動画像の要約は動画像間の相関のみを基準に作成されるわけではなく、特徴検出部１０９から得られる様々な特徴情報を加味して作成されるものとしても良い。

以上の構成で示したように、一覧表示される動画像の中で、ユーザが注目する動画像に対して作成した要約を基準に、その他の類似しない要約を作成することによって、注目動画像の重要なシーンを確認しつつ、周辺の動画像については、注目動画像との差異を確認することが可能になる。

尚、本発明は上述した実施形態に限定されず、本発明の要旨を逸脱しない範囲内で各種の変形、修正が可能であるのは勿論である。例えば、動画像一覧表示装置の各部の機能をコンピュータプログラム化し、このコンピュータプログラムを動画像一覧表示装置へインストールして実行することでも実現される。また、このコンピュータプログラムを着脱可能な記録媒体に記録したり、ネットワークや放送波を介してダウンロードすることにより、移送が簡単になり容易に実施することができる。

実施形態１に係る動画像一覧表示装置の機能構成を示すブロック図である。シーンに分割された動画像の様子を示す図である。図２で示されたシーンをクラスタリングした後の様子を２次元にプロットした図である。図２で示された各シーンを各クラスタに分類した様子を示す図である。図２で示された動画像１を、設定された目標再生時間に基づき要約した様子を示す図である。図２で示された動画像１から動画像４を、設定された目標再生時間に基づき要約した様子を示す図である。得られた重要度に基づき、図２で示された動画像１から動画像４各々のシーンを重要度順に並び替えた様子を示す図である。目標再生時間ｔに基づき、図２で示された動画像１から動画像４の各シーンから、再生を行うシーンを選出した様子を示した図である。図２で示された動画像１を、設定された閾値に基づき要約した様子を示す図である。図２で示された動画像１から、任意の１シーンを選出することで要約した様子を示す図である。図２で示された各シーンの類似度と音声レベルに基づき、要約を行う様子を示す図である。動画像の一覧表示手法の一例を示す図である。本実施形態の変形例に係る動画像一覧表示装置の機能構成を示すブロック図である。実施形態２に係る動画像一覧表示装置の機能構成を示すブロック図である。一覧表示された動画像から任意の動画像を選択する様子を示した図である。実施形態３に係る動画像一覧表示装置の機能構成を示すブロック図である。ユーザが任意の動画像を１つ選択する様子を示した図である。音声レベルを用いて動画像１を要約した様子を示した図である。シーン分割された動画像２の様子を示した図である。図１８、図１９で示された動画像１、動画像２の各シーンのクラスタリング結果を２次元にプロットした図である。図１９に示された動画像２を要約した様子を示す図である。

符号の説明

１００，２００，３００，４００…動画像一覧表示装置、１０１，２０１…蓄積部、１０２…動画像選出部、１０３…条件入力部、１０４…相関計算部、１０５，４０５…要約作成部、１０６…画面合成部、１０７…表示部、１０８，３０８，４０８…操作入力部、１０９…特徴検出部、３０１…シーンクラスタ１、３０２…シーンクラスタ２、１１０１，１８０１…音声レベルグラフ、１８０２…閾値、１２０１…選択された動画像、１２０２…選択された動画像の拡大動画サムネイル、１２０３…動画像の詳細を示す文字情報、１２０４…スクロールバー、１２０５…ひとつ前のページに戻す「戻る」ボタン、１２０６…ひとつ次のページに進む「次へ」ボタン、１５０１…選択された動画像、１５０２…範囲によって選択された動画像、１５０３…選択されたカテゴリ情報、２００１…シーンクラスタ１、２００２…シーンクラスタ２、２００３…シーンクラスタ３。

Claims

映像、音声を含む複数の情報からなる動画像を蓄積する蓄積部と、前記蓄積部から所定の条件に従い一覧表示する複数の動画像を選出する選出部と、動画像自体から得られる情報乃至動画像に付属する情報に基づいて、動画像全体またはシーンごとの特徴情報を検出する特徴検出部と、前記特徴検出部で検出された前記特徴情報を用いて、前記選出部で選出された複数の動画像の各シーンについて、シーン間の相関を計算する相関計算部と、前記相関計算部で計算された前記シーン間の相関と、前記特徴検出部で検出された前記特徴情報とに基づいて、前記選出部で選出された各動画像の要約を作成する要約作成部と、前記要約作成部で作成された要約を一覧表示する一覧表示部と、を備えることを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、前記所定の条件は、ジャンル指定またはキーワード指定によって与えられることを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、一覧表示された動画像群の中から選択された特定の動画像を受け付ける操作入力部を備え、前記所定の条件は、前記操作入力部で入力されたユーザの選択操作によって与えられることを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、前記動画像自体から得られる情報乃至動画像に付属する情報は、映像情報、音声情報、字幕情報、ＥＰＧ、および、タグ情報の１つ以上の組み合わせであることを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、前記相関計算部は、クラスタリング手法を用いて前記シーンの相関を計算することを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、前記要約作成部は、前記相関計算部で計算された前記シーン間の相関に基づき、類似したシーンの数に応じて当該シーンを再生する時間長を決定し、動画像に含まれる各シーンを決定された前記時間長で再生することで各動画像の要約を作成することを特徴とする動画像一覧表示装置。
請求項６に記載の動画像一覧表示装置において、前記時間長は、当該シーンについて、類似したシーンが多いほど再生時間を短くすることを特徴とする動画像一覧表示装置。
請求項７に記載の動画像一覧表示装置において、前記要約作成部は、さらに、前記特徴検出部から得られた前記特徴情報に基づいて、当該シーンの前記時間長を調整することを特徴とする動画像一覧表示装置。
請求項６に記載の動画像一覧表示装置において、前記要約作成部は、前記特徴検出部から得られた前記特徴情報に基づいて、他の動画像との差異を良く示したシーンの場合には、該シーンの再生時間を変更しないことを特徴とする動画像一覧表示装置。
請求項６に記載の動画像一覧表示装置において、前記要約作成部は、さらに、前記類似したシーンの含まれる動画像が同一の動画像か異なる動画像かによって、当該シーンの前記時間長を調整することを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、前記要約作成部は、前記相関計算部で計算された各シーン間の相関に基づき、類似したシーンが所定数よりも少ないシーンを集めて各動画像の要約を作成することを特徴とする動画像一覧表示装置。
請求項１に記載の動画像一覧表示装置において、前記要約作成部は、各動画像について目標再生時間を定め、前記相関計算部で計算された各シーン間の相関に基づいて、他の動画像との差異を良く示したシーンを前記目標再生時間で再生可能なだけ集めて各動画像の要約を作成することを特徴とする動画像一覧表示装置。
請求項１乃至１２のいずれかに記載の動画像一覧表示装置において、一覧表示された動画像群の中から特定の動画像の指定を受け付ける操作入力部を備え、前記要約作成部は、前記操作入力部で指定された動画像に関しては、前記相関計算部で計算された前記シーン間の相関と独立に要約を作成し、その他の動画像の要約に関しては、前記指定された動画像の要約に含まれるシーンに類似したシーンを除いて作成することを特徴とする動画像一覧表示装置。
請求項１乃至１３のいずれかに記載の動画像一覧表示装置において、前記蓄積部は、動画像について予め特徴情報を検出して蓄積しておき、前記相関計算部および前記要約作成部は、前記動画像選出部で選出された動画像の特徴情報を、前記蓄積部から読み出すようにしたことを特徴とする動画像一覧表示装置。
映像、音声を含む複数の情報からなる動画像と、該動画像の特徴情報とを蓄積する蓄積部と、前記蓄積部から所定の条件に従い一覧表示する複数の動画像を選出する選出部と、前記蓄積部で蓄積された前記特徴情報を用いて、前記選出部で選出された複数の動画像の各シーンについて、シーン間の相関を計算する相関計算部と、前記相関計算部で計算された前記シーン間の相関と、前記蓄積部で蓄積された前記特徴情報とに基づいて、前記選出部で選出された各動画像の要約を作成する要約作成部と、前記要約作成部で作成された要約を一覧表示する一覧表示部と、を備えることを特徴とする動画像一覧表示装置。