JP2011182274A

JP2011182274A - 映像記録再生装置

Info

Publication number: JP2011182274A
Application number: JP2010046074A
Authority: JP
Inventors: Tsutomu Usui; 勉薄井; Hiromi Nishiura; 裕美西浦; Kenji Akaboshi; 健司赤星
Original assignee: Hitachi Consumer Electronics Co Ltd
Current assignee: Hitachi Consumer Electronics Co Ltd
Priority date: 2010-03-03
Filing date: 2010-03-03
Publication date: 2011-09-15

Abstract

【課題】
今後、動画像の更なる高解像度化や、多彩なコンテンツによる大容量化の為、映像全体を処理する場合に従来の映像データでは機器等への転送の際に時間が必要となってしまうことや、ポータブル機器に映像データを持ち出す際にはポータブル機器のストレージ容量が不足してしまうことが考えられる。
【解決手段】
映像コンテンツから複数のシーンを検出する映像検出手段と、検出したシーンから静止画を抽出する静止画抽出手段と、前記映像コンテンツの音声に前記静止画を合わせた音声付静止画を生成する音声付静止画生成手段を有し、前記映像検出手段は映像コンテンツから特徴的なシーンを複数検出し、検出したシーンから静止画抽出手段を用いて静止画を抽出し、音声付静止画生成手段を用いて抽出した静止画と映像コンテンツ全体の音声とを合わせた音声付静止画を生成する事を特徴とする。
【選択図】図１

Description

本発明は映像記録再生装置に関する。

本技術分野の背景技術として、特開2006-295575号公報（特許文献１）がある。該公報には、「記録済の動画から“音声付き”の静止画を切り出せるようにして、さらなる利便性の向上を図る」という課題に対して、「音声付き動画データの任意のシーンを静止画として切り出す静止画切り出し手段（Ｓ３８ｂ）と、前記静止画切り出しの対象となった動画データから所定時間長または指定された時間長の音声を切り出す音声切り出し手段（Ｓ３８ｅ）と、前記静止画切り出し手段によって切り出された静止画と前記音声切り出し手段によって切り出された音声とを一緒にして音声付き静止画データを生成する音声付き静止画データ生成手段（Ｓ３８ｆ）とを備える」という解決手段を用いることが記載されている。

また、他の背景技術として、http://members.ld.infoseek.co.jp/hp_yamakatsu/dvd2dv
dshrink.html（非特許文献１）がある。該ホームページには「DVD shrink 3.2」というソフトに関する記載があり、当該ページの中の図において、「圧縮設定」の「スティルピクチャー」の説明として「選択したビデオを0.5秒間隔の静止フレームで置き換える」と表示されることが開示されている。

特開2006-295575号公報

http://members.ld.infoseek.co.jp/hp_yamakatsu/dvd2dvdshrink.html

しかしながら、特開2006-295575号公報記載のデジタルカメラには動画全体の音声はなく、静止画で切り出された特定のシーンと、そのシーンから所定時間長指定された期間の音声を切り出すために、映像コンテンツ全体の内容を理解することは困難であるという課題があった。一方で今後、動画像の更なる高解像度化や、多彩なコンテンツによる大容量化の為、映像全体を処理する場合に従来の映像データでは機器等への転送の際に時間が必要となる事や、ポータブル機器に映像データを持ち出す際にはポータブル機器のストレージ容量が不足してしまうことが考えられる。

また、ポータブル機器でのこれらの動画再生には常時エンコード等を行う為にCPUパワーが必要となることから、消費電力の問題や再生時間が短くなるといった点でも課題となる。

更にモバイル機器では移動中などは常に画面を注視し視聴し続けることが場合困難な場合や、また据え置きTVであっても他の作業をしながら番組等を見ている「ながら見」等をしている際など画面を注視していない為に、特徴的なシーンを見逃す事や、映像コンテンツの概要の把握が困難になる事が考えられる。

本発明では例えば以下の実施態様により前記課題を解決できるが、この実施態様に限られることはない。

本発明の一実施形態によれば、映像コンテンツから複数のシーンを検出する映像検出手段と、検出したシーンから静止画を抽出する静止画抽出手段と、前記映像コンテンツの音声に前記静止画を合わせた音声付静止画を生成する音声付静止画生成手段を有する映像記録再生装置であって、前記映像検出手段は映像コンテンツから特徴的なシーンを複数検出し、検出したシーンから静止画抽出手段を用いて静止画を抽出、音声付静止画生成手段を用いて映像コンテンツ全体の音声に前記静止画を合わせた音声付静止画を生成する映像記録再生装置を用いる。

本発明によれば、データサイズを削減した映像コンテンツを提供する事が可能となる。例えばポータブル機器で持ち運ぶ際、映像コンテンツのデータ容量を通常の動画像の時に比べて削減することで、ポータブル機器へのデータ転送時間を削減可能であり、また内蔵ストレージ使用容量を削減する事が出来る。

また従来は動画表示サイズの縮小によりデータ容量を削減していた為に高解像の画像でなくなっていたが、本発明では元の動画から意味のある最適な内容やシーンのみを静止画とすることで、より高解像の画像で視聴することが可能となる。

更に静止画再生の為、動画再生時のエンコードに比べ電力消費の削減も可能である。これらの発明によってデータサイズ削減、機器の消費電力削減、高画質を維持しつつ番組などの映像コンテンツの内容を的確に把握可能となる。

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

映像記録再生装置のブロック図である映像記録再生装置の検出するシーン条件を示す図である第一の実施例の時間軸を示す図である第一の実施例の時間軸を示す図である第一の実施例の時間軸を示す図である第二の実施例の検出するシーン条件を示す図である第二の実施例の時間軸を示す図である第二の実施例の時間軸を示す図である第二の実施例の時間軸を示す図である第三の実施例の時間軸を示す図である第六の実施例のブロック図である第七の実施例のブロック図である

以下、本発明の好適な実施例について図面を用いて説明する。

図１は、本発明を実施するハードウェア構成の一例である。１０１はストレージ、１０２は映像データを音声と映像に分離するDemux手段、１０３は音声と映像データのデコード手段、１０４は所望の静止画を抽出する静止画抽出手段、１０５は映像と音声か所望のシーンを検出する映像音声解析手段、１０６は映像と音声のエンコード手段、１０７は映像と音声を一つのデータに合成するMux手段である。

はじめに図１を用いて、本映像記録再生装置の流れを説明する。ストレージ１０１に蓄積された映像データはDemux手段１０２で音声と映像に分離され、音声と映像はデコード手段１０３によってデコードされ映像音声解析手段１０５に送られる。映像音声解析手段によって検出された複数の特徴的なシーンの時間情報が静止画抽出手段１０４に送られ、その情報に基づいて映像データから各シーンが静止画として抽出される。そして抽出された各静止画シーンと、音声データをエンコード手段１０６によって再度エンコードしたうえでMux手段によって音声と映像はひとつのデータに変換される。

次に映像音声解析手段１０５で行われる各シーンの検出方法および、検出タイミングについて述べる。はじめに、映像と音声を解析する際のシーン条件を図２に示す。

これらの映像と音声解析シーン条件は、映像コンテンツの中からコンテンツ全体の内容を把握するのに適当な静止画を検出するための条件を表している。例えば図２のシーンNo１文字情報が中央に表示されているシーンは、番組冒頭のタイトルや重要なコメントであるとから検出条件としている。シーンNo２はテロップが流れるシーンも内容の補足を文字情報でおこなっている事が多い事から検出条件としている。シーンNo３〜No５は人物が検出されたシーンでも人物が正面を向いているシーンや静止しているシーンは特徴的なシーンとして検出している。また視聴率情報によって視聴率の高いシーンはそのコンテンツのなかにおいて重要であると考えられるので検出条件としている。

次にこれらの検出条件を満たすシーンの検出区間について、横軸に時刻０分から映像と音声が始まる図を例にして、静止画が検出される際の検出タイミングを図３に示す。またシーンの検出は図２で示した各条件を満たすように映像音声解析手段１０５を用いて行われ、各静止画A,B,C,Dは、映像コンテンツの開始時刻０分よりX分間隔ごとに、X分間隔の前後X÷2分の区間で静止画A,B,C,D検出する場合を示している。このように静止画を検出する事により動画コンテンツから静止画を抽出する際にコンテンツの内容全体を把握できるようにある一定区間毎に平均的に抽出することができる。

次に各検出区間Ａ，Ｂ，Ｃ，Ｄ内において、時刻a,b,c,dのタイミングで静止画A,B,C,Dが検出された状態を図４に表している。これは映像音声解析手段１０５にて各静止画検出区間内における特徴的なシーンを検出した結果、静止画検出時刻がa,b,c,dの時点である事を示している。この時刻情報ａ，ｂ，ｃ，ｄに基づいて静止画抽出手段１０４が静止画を抽出している。

次に抽出された静止画A,B,C,Dと音声データはエンコード手段１０６によってエンコードされた後、Mux手段１０７によって静止画と音声が組み合わされる。この静止画と音声を組み合わせたときの音声に対する静止画の表示タイミングを図５に示す。

横軸0分から始まる音声に対して、抽出された静止画A,B,C,Dは、静止画Ａ区間，Ｂ区間，Ｃ区間，Ｄ区間の代表静止画ではあるが、静止画と音声を合わせた再生時に静止画を各A、B,C,D区間の先頭時刻から表示するのではなく、静止画Aは時刻a〜時刻ｂまでの間再生され、同様に静止画Bは時刻ｂ〜時刻ｃ、静止画Cは時刻ｃ〜時刻ｄ、静止画Dは時刻ｄ〜の間に表示される。

このように静止画の抽出タイミングと同じ時刻に静止画を再生しながら、元の音声と組み合わせた映像を生成する事によって、元のコンテンツの内容を理解できるだけの情報を維持しつつファイルサイズを削減した映像データを作成することが可能となる。

また第二に実施例として、静止画を検出する場合の間隔を、第一の実施例（図３）で示すように一定間隔毎に所定の枚数の静止画をとるのではなく、静止画を切り出す単位を、動画内の内容に区切られた間隔毎に静止画を切り出すこととする。その動画の内容の区切り範囲の抽出方法は、「続いて」「次に」などの言葉や、画面のフェードアウト状態、無音一定時間によって判断することとし、判断条件となるシーンの例を図６に示す。また図６の動画内の内容によるシーン条件によって静止画検出範囲を判断した結果を図７に示す。

図７において条件１〜４に該当するシーンが検出された例を時刻a〜eとして、横軸time上に記した。また各条件１〜４によって検出された各タイミングの間を静止画A区間〜F区間とした。そして第一の実施例同様に各区間内の時刻a,b,c,dのタイミングで静止画A,B,C,Dが検出された状態を図８に表している。次に第一の実施例同様、抽出された静止画A,B,C,Dと音声データは、エンコード手段１０６によってエンコードされた後Mux手段１０７によって静止画と音声が組み合わされる。この静止画と音声を組み合わせたときの音声に対する静止画の表示タイミングを図９に示す。

第三の実施例を図１０に示す。第三の実施例では動画コンテンツからシーン検出され静止画として抽出された静止画は、静止画Ａ区間，Ｂ区間，Ｃ区間，Ｄ区間の代表静止画であるので、静止画表示のタイミングは各A、B,C,D区間の先頭時刻からとして、静止画と音声を再生時にする事を特徴とする。このときの各区間は、一定時間毎に区切られても良いし、実施例２のように静止画を切り出す単位を、動画内の内容に区切られた間隔毎に静止画を切り出す事としてもよい。

また第四の実施例として、各区間ないで複数のシーンを検出する事で、区間ないで繰り返し静止画表示し動画コンテンツの内容把握しやすくする事が出来る。

第五の実施例として、音声を文字情報に変換したものを、静止画に文字情報として合成する事とする。音声データを文字データに変換する事によって音声データの縮小が可能となり、従来の映像データと比較して更にデータサイズの削減が可能となる。この際の合成方法は、静止画Aが検出された時刻をaとし、時刻aの音声情報から変換された文字情報を表示する際に同期して静止画Aを表示する事とする。

第六の実施例として、動画コンテンツから特徴的なシーンを動画としてシーン抽出を行い、音声と組み合わせる事も可能である。

第七の実施例として、動画コンテンツから特徴的なシーンを動画と静止画としてシーン抽出を行い、音声と組み合わせる事も可能である。
またこれらの実施例すべての消費電力に関して、従来の動画再生については随時エンコードを行っているが、静止画データとすることで再生時のエンコードに必要な電力も削減する事ができる。

また静止画、動画が切り替わる再に、音で知らせる事で静止画の切り替わった事をユーザに通知する事で、画面を注視することなく映像コンテンツの内容を把握する事ができる。

更に、本発明はポータブルデバイス等での視聴にだけでなく、ストリーミングなどによる視聴時にも有効であり、映像データの削減によりストリーミングにおける帯域も少なくてよく、通信データサイズも少ないでの通信コスト面でも有利である。

以上，添付図面を参照しながら本発明にかかる好適な実施形態について説明したが，本発明はかかる例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された技術的思想の範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。

101・・・ストレージ、102・・・Ｄｅｍｕｘ手段、103・・・デコード手段、104・・・静止画抽出手段、105・・・映像音声解析手段、106・・・エンコード手段、107・・・Ｍｕｘ手段
、201・・・シーン検出条件、301・・・X分間隔にプロットを打った動画/音声軸、302・・・静止画Aを検索する範囲、303・・・静止画Bを検索する範囲、304・・・静止画Cを検索する範囲、305・・・静止画Dを検索する範囲、401・・・静止画Aの検出タイミング、402・・・静止画Bの検出タイミング、403・・・静止画Cの検出タイミング、404・・・静止画Dの検出タイミング、501・・・静止画Aの再生区間、502・・・静止画Bの再生区間、503・・・静止画Cの再生区間、504・・・静止画Dの再生区間、601・・・静止画検出区間検出条件、1001・・・静止画Aの再生開始時刻a、1002・・・静止画Bの再生開始時刻b´、1003・・・静止画Eの再生開始時刻e´、1004・・・静止画Fの再生開始時刻f´1101・・・ストレージ、1102・・・Ｄｅｍｕｘ手段、1103・・・デコード手段、1104・・・動画抽出手段、1105・・・映像音声解析手段、1106・・・エンコード手段、1107・・・Ｍｕｘ手段、1201・・・ストレージ、1202・・・Ｄｅｍｕｘ手段、1203・・・デコード手段、1204・・・動画/静止画抽出手段、1205・・・映像音声解析手段、1206・・・エンコード手段、1207・・・Ｍｕｘ手段

Claims

映像コンテンツから複数のシーンを検出する映像検出手段と、
検出したシーンから静止画を抽出する静止画抽出手段と、
前記映像コンテンツの音声に前記静止画を合わせた音声付静止画を生成する音声付静止画生成手段を有し、
前記映像検出手段は映像コンテンツから特徴的なシーンを複数検出し、検出したシーンから静止画抽出手段を用いて静止画を抽出し、音声付静止画生成手段を用いて映像コンテンツ全体の音声に前記静止画を合わせた音声付静止画を生成する事
を特徴とする映像記録再生装置。
請求項１において、所定時間毎を中心に一定期間の間に一枚以上の静止画を抽出する事を特徴とする映像記録再生装置。
請求項１において、映像コンテンツの内容の解析を行うことによって、その内容の区切り毎の間に一枚以上の静止画を抽出する事を特徴とする映像記録再生装置。
請求項２あるいは３において、映像コンテンツが静止して動きが少ないシーンを検出する事を特徴とする映像記録再生装置。
請求項２あるいは３において、映像コンテンツに動きが少ないシーンを検出する事を特徴とする映像記録再生装置。
請求項２あるいは３において、映像コンテンツのテロップが開始したシーンを検出する事を特徴とする映像記録再生装置。
請求項２あるいは３において、映像コンテンツに人物が正面を向いているシーンを検出する事を特徴とする映像記録再生装置。
請求項２あるいは３において、映像コンテンツ中の人物の動きが静止したシーンを検出する事を特徴とする映像記録再生装置。
請求項２あるいは３において、映像コンテンツ中の人物のサイズが小さいシーンを検出する事を特徴とする映像記録再生装置。
請求項１において、前記映像検出手段によって検出した複数の映像シーンから動画像抽出手段を用いて動画像を抽出し音声付動画像を生成する事を特徴とする映像記録再生装置。
請求項１において、前記映像検出手段によって検出した複数の映像シーンから動画像抽出手段と静止画抽出手段を用いて動画像と静止画を抽出し、動画と静止画が混在した音声付動画像を生成する事を特徴とする映像記録再生装置。