JP2006050045A

JP2006050045A - 動画像データ編集装置及び動画像データ編集方法

Info

Publication number: JP2006050045A
Application number: JP2004225280A
Authority: JP
Inventors: Takeo Tomokane; 武郎友兼; Shinichiro Okamura; 真一郎岡村; Eriko Koda; 恵理子幸田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-08-02
Filing date: 2004-08-02
Publication date: 2006-02-16

Abstract

【課題】
複数のシーンを含む動画像のダイジェスト編集の編集作業効率を向上させる。
【解決手段】
動画像データ編集装置は、音データのパワー情報と音データが表す音の変化点とを算出し、その変化点及びパワー情報に基づき、動画像データに含まれる各シーンが、無音シーン、会話シーン、音楽シーン、及び、会話と音楽とのオーバラップシーンのいずれであるかを判別する(Ｓ５０１〜Ｓ５０８)。動画像データ編集装置は、その判別結果(各シーンのシーン種別、開始／終了時間)をシーンインデックステーブルに格納し、ユーザの編集操作に応じて、そのシーンインデックステーブルを更新する。
【選択図】図７

Description

本発明は、ディジタルオーディオレコーダ、デジタルビデオレコーダ、パーソナルコンピュータ等の、動画像の再生装置に適用可能な動画像データ編集支援技術に関する。

映像データのシーンの変化点を検出する技術として特許文献１記載の技術が知られている。また、音の聴覚的な変化点を検出する技術として特許文献２として知られている。さらに、音声レベルが所定レベルを超えるダイジェスト部分を映像音声信号から抽出する技術として特許文献３記載の技術が知られている。

特開平７−２６２６４３号公報(この公報番号は正しいですか？) 特許第３４２３２３３号公報特開平１０−３２７７６号公報

一般に、ＴＶ放送等の番組には、歌、演奏等の音楽の他、人の会話等が含まれている。番組中における会話は、音楽以上に、番組のストーリー上、重要な意味を持つことが多い。ところが、上記従来の技術には、このような会話に関する認識がないため、ユーザは、例えばストーリを持つ番組等について適切なダイジェストを生成できるとは限らない。

そこで、本発明は、ストーリに沿った複数のシーンを含む動画像のダイジェスト編集を支援する動画像データ編集装置を提供することを目的とする。

この発明は以下の構成を提供する。すなわち、本発明は、
音データを含む動画像データを編集する動画像データ編集装置であって、
前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別し、当該各シーンのシーン種別と、前記動画像データが表す動画像における当該各シーンの期間を表す時間情報とを含むインデックス情報を生成する演算処理手段と、
前記インデックス情報に対する編集操作を受け付ける入力受付け手段と、
を有し、
前記編集受け付け手段が前記編集操作を受け付けた場合に、前記演算処理手段は、前記編集操作に応じて前記インデックス情報を更新することを特徴とする動画像データ編集装置を提供する。

本発明によれば、ストーリにそった複数のシーンを含む動画像のダイジェスト編集の編集作業効率を向上させることができる。

以下、添付の図面を参照しながら、本発明に係る実施の一形態について説明する。

ここでは、符号化された映像データと符号化された音データとの多重化により生成されたビットストリームを編集対象デジタルデータ(以下、動画像データと呼ぶ)とする。このようなビットストリームの圧縮方式としては、例えば、IEC/ISOの動画符号化の国際標準であるMPEG-2 TS(Transport Stream)、MP4FF(MPEG-4 File Format)等が知られている。また、映像データの符号化方式としては、MPEG-2 video、MPEG-4 visual等、音データの符号化方式としては、MPEG-1 Audio Layer3(いわゆるMP3)、MPEG-2 Audio、MPEG-2 AAC(Advanced Audio CODEC)、Dolby AC3等が知られている。

本実施の形態に係る動画像データ編集装置は、符号化音データから聴覚的な変化点を抽出し、その変化点から、会話シーン、音楽シーン、及び、会話と音楽とのオーバラップシーンの別を判別する。

聴覚的な変化点を有する音と有しない音との符号化音データの復号により得られる波形データの相違を説明する。

聴覚的な変化点が存在しない音または音楽の符号化音データを復号化すると、図２(ａ)に示すように、歪みのない、連続した音声波形が得られる。しかし、著しく変化する音(例えば無音状態から音楽が始まる場合、または、別の音源から音楽が発生する場合等の音)を復号化すると、図２(ｂ)に示すように、音楽の発生開始時２０１において音声波形が著しく変化する。その後、音楽の終了時(無音状態に戻った時、または、元の音源が鳴っている状態に戻った時)２０２にも、波形が著しく変化する。このような変化点の発生は、前後の音声と関係のない音が挿入されたことに起因する。

このような変化点が存在する音のパワースペクトラム及び存在しない音のパワースペクトラムを図２(ｃ)及び図２(ｄ)に示す。なお、これらのパワースペクトラムは、音のＰＣＭデータからサンプルを適当数(例えば１０２４サンプル)ずつ抽出し、それらのサンプルに対してFFT(離散的フーリエ変換)を施すことによって求めたものである。

図２(ｃ)に示すように、大きな変化点が存在しない音のパワースペクトラムには、振幅の大きな変化は認められないが、図２(ｄ)に示すように、大きな変化点が存在する音のパワースペクトラムには、大きな振幅の変化が認められる。本実施の形態においては、パワースペクトラムに大きな変化が生じた時点を音の聴覚的な変化点の発生時と定める。概要は、以下の通りである。

まず、音のＰＣＭデータを適当な時間窓で切り出し、その時間窓内のサンプル(１０２４サンプル、６４サンプル)にFFTまたはMDCTを施すことによってパワースペクトラムを求める。このパワースペクトラムを帯域分割し、帯域毎に平均パワースペクトラムを求める。帯域毎の平均パワースペクトラムと前後のフレームまたは数フレーム(例えば２フレームまたは３フレーム程度)離れたフレームのものとを比較し、その差分が一定の閾値を超えた点を変化点と決定する。なお、ここで帯域分割を行っているのは、ある音源が鳴っている状態で別の周波数帯の音が鳴り出した場合の変化点を抽出可能とするためである。なお、このような方法は、変化点の抽出方法の一例であるから、他の方法で変化点を抽出してもよい。

つぎに、このような変化点を利用してダイジェスト編集を支援する動画像データ編集装置の構成について説明する。

図３に、動画像データ編集装置のハードウエア構成を示す。

動画像データ編集装置３０１は、ネットワーク３０２及びＴＶアンテナ３０３のいずれか一方を介して動画像データを送受信し、ダイジェスト作成、受信した動画像データの蓄積及び再生を行なう。動画像データの再生により得られる動画像及び音は、それぞれ、モニタ３０４及びスピーカ３０５に出力される。

動画像データ編集装置３０１は、ネットワークＩ／Ｆ３０７、データ蓄積部(ハードディスク、リライタブルＤＶＤ、フラッシュＲＡＭ等)３０８、ユーザの操作を受け付ける入力装置(ボタン、キーボード、マウス、赤外線または無線を利用したリモートコントローラ等)３１０、動画像復号化部３１１、動画像符号化部３１２、ＣＰＵ３１３、ＣＰＵのワークメモリ等として利用されるメモリ３０９、音出力部３１４、表示部３１５、チューナ３１６、これら各部を相互に接続するバス３１７を有している。

ネットワークＩ／Ｆ３０７は、ネットワークを介して動画像データを受信したり、データ蓄積部３０８またはメモリ３０９のデータを送信する。データ蓄積部３０８は、各種データ(動画像データ、プログラム等)を保存する。動画像復号化部３１１は、動画像データのデマルチプレクス及び符号化データ(映像データ、音データ)の復号化を行なう。動画像符号化部３１２は、映像データと音データとの符号化及び符号化映像データと符号化音データとのマルチプレクスを行う。音出力部３１４は、動画像復号化部３１１で復号化した音データ及び操作音等をスピーカ３０４に出力する。表示部３１５は、動画像復号化部３１１で復号化した映像データ及び操作画面等をモニタ３０５に表示させる。チューナ３１６は、ＴＶアンテナ３０３で受信したデジタル衛星放送またはデジタル地上波放送の電波を動画像データに変換して、動画像復号化部３１１に送信またはデータ蓄積部３０８に保存する。ＣＰＵ３１３は、データ蓄積部３０８に格納されているプログラムの実行により各種制御処理を実行する。なお、動画像復号化部３１１及び動画像符号化部３１２は、ソフトウェアで実現されるものであってもよい。

このようなハードウエア構成を有する動画像データ編集装置３０１は、プログラムの実行により、図１の機能構成を実現する。

データ蓄積部からの動画像データがＡＶ分離部１０１に入力されと、ＡＶ分離部１０１は、動画像データから符号化音データを分離する。Ａｕｄｉｏ復号化部１０２は、この符号化音データをフレーム単位で復号化する。例えば、音データがMPEG-2 AACで符号化されている場合、１フレームの復号化により、１チャンネル当たり１０２４サンプル分のPCMデータが得られる。さらに、Ａｕｄｉｏ復号化部１０２は、これにより得られるＰＣＭデータを１つのストリームとして連結する。

パワー計測部１０３は、Ａｕｄｉｏ復号化部１０２からのPCMデータを一定サンプルおきに分割し、それにより得られる各分割データについて、例えば数式(１)を用いてパワーを算出する。
Power = (ΣX[i]*X[i])/width (１)
for i = 0 to width -1
ここで、widthは、PCMデータの分割サイズ、X[i]は、i番目の分割データに含まれるＰＣＭデータサンプルの信号値の配列である。

なお、分割データのサイズは、任意のサイズ(例えば、６４サンプル、１０２４サンプル)でよいが、後述の変化点抽出部１０４が用いる分割サイズと一致していることが好ましい。

変化点抽出部１０４は、パワー計測部１０３と同様、Ａｕｄｉｏ復号化部１０２からのPCMデータを一定サンプルおきに分割し、特許文献２記載の方法と同様な方法によって聴覚的な変化点を抽出する。

解析データ蓄積部１０５には、パワー計測部１０３からのパワー情報と、変化点抽出部１０４からの変化点情報が時系列に蓄積される。シーン判別に充分なデータが解析データ蓄積部１０５に蓄積されると、音楽音声シーン判別部１０６は、シーンの判別を実行する。

この判別方法を、図４、５を用いて説明する。

図４において、４０１は、Ａｕｄｉo復号化部の出力(PCMデータ)、４０２は、パワー計測部１０３の出力(パワー情報)、４０３は、変化点抽出部１０４の出力(変化点情報)である。ここでは、パワー情報４０２が閾値ＴＨｐ以下となった区間を無音と扱うこととする。この閾値ＴＨｐは、あらかじめ定めた値、ユーザが入力装置３１０で設定した値、及び、一定時間(たとえば１秒間)分の区間における平均パワーの所定割合(１／１０)の値のいずれであってもよい。なお、一定時間(たとえば１秒間)分の区間における平均パワーから閾値を動的に定める場合には、閾値の下限値を設定しておくことが望ましい。

また、このパワーが閾値ＴＨｐを超える時点、または、パワーが閾値ＴＨｐ以下となる時点も変化点の１つとして扱うことが望ましい。

PCMデータ４０１には、音楽シーン４０４、無音シーン４０５及び会話シーン４０６が含まれることとする。音楽シーン４０４中のパワーデータ４０７は、ほぼ全域においてＴＨｐ以上のパワー値を示す傾向にある。また、変化点抽出により、音楽シーンの始まりの変化点４１０及び終わりの変化点４１２が検出されるが、それらの変化点４１０,４１２間の変化点の発生頻度は少ない傾向にある。ただし、まれに曲調の変化、音楽シーン途中の無音箇所が発生すると、音楽シーン４０４の途中にも変化点４１１が検知されることがある。例えば、４４.１ＫＨｚ、１６ビットサンプリングのＰＣＭデータに対して、６４サンプルごとに変化点を検出した場合、音楽シーンについては、１秒間当たりの変化点の発生頻度はほぼ０回であり、まれに変化点が生じたとしてもせいぜい４回程度である。しかも断続的に出現することはなく、１秒間当たりの頻度に換算すると１回／秒程度である。

無音シーン４０５中のパワーデータ４０８は、ほぼ全域においてＴＨｐ以下の値を示す傾向にある。また、変化点はほとんど検出されない。

会話シーン４０６中のパワーデータ４０９は、時折ＴＨｐ以下になる等、ほぼ全域において激しく変動する傾向にある。また、会話シーン４０６の始まりから終わりまで、変化点が多発する傾向にある。例えば、４４.１ＫＨｚ、１６ビットサンプリングのＰＣＭデータに対して、６４サンプルごとに変化点を検出した場合、会話シーンについては、声が生じている間、変化点が３回／秒以上の変化点が断続的に発生する傾向にある。会話シーンについては、平均して２回／秒以上の変化点が発生する傾向にある。

音楽音声シーン判別部１０６は、このような傾向に基づき、音楽、会話及び無音の各シーンを判別する。具体的には、以下に示すように、図５のフローチャートにしたがった処理を実行する。ここでは、動画像データがデータ蓄積部３０８に格納されていることとする。

まず、音楽音声シーン判別部１０６は、変化点間のパワーがＴＨｐ未満、継続時間Ｔｎ秒以上の区間を検索し、それにより得られた各区間を無音シーンと判定する(Ｓ５０１)。ここで、Ｔｎは、人間の聴覚で無音と感知できる程度の時間(例えば５００ｍ秒)とすればよい。

このようにして複数の無音シーンを検出すると、音楽音声シーン判別部１０６は、無音シーンと無音シーンとの間の時間をそれぞれ計測する。その結果、無音シーン間の時間がＴｃ秒以下であれば、無音シーン間のシーンを会話シーンと判断する(Ｓ５０２)。このようにしているのは、短時間で終了する有音シーンは音楽シーンでない傾向にあるためである。なお、Ｔｃは、一般的な音楽シーンの継続時間未満の値(例えば３秒)を用いればよい。

音楽音声シーン判別部１０６は、以上において検出した無音及び会話シーン以外のシーンを処理対象シーンとして、以下の処理(Ｓ５０３〜Ｓ５０６)を実行する。

音楽音声シーン判別部１０６は、処理対象シーンにおける変化点の頻度を算出する(Ｓ５０３)。例えば、処理対象シーン内の変化点の数を、処理対象シーンの継続時間で除算することにより、１秒間当たりの変化点の数を算出する。

音楽音声シーン判別部１０６は、この変化点の頻度とＴＨｃとを比較し(Ｓ５０４)、その比較結果に応じて処理対象シーンが、音楽及び会話シーンのいずれであるかを決定する。具体的には、音楽音声シーン判別部１０６は、変化点の頻度がＴＨｃ未満であれば、処理対象シーンを音楽シーンと判定し(５０５)、変化点の頻度がＴＨｃ以上であれば、処理対象シーンを会話シーンと判定する(Ｓ５０６)。ここで用いるＴＨｃには、予め適当な値(例えば２)が設定されている。

音楽音声シーン判別部１０６は、無音及び会話シーン以外のすべてのシーンが音楽及び会話シーンのいずれに分類されたか否かを判断し(Ｓ５０７)、その結果、未分類のシーンが残されていれば、そのシーンを新たな処理対象シーンとして以上の処理(Ｓ５０３〜Ｓ５０６)を繰り返し実行する。

このようにして、すべてのシーンが、無音、会話及び音楽シーンのいずれかに分類されたら、音楽音声シーン判別部１０６は、会話シーンと会話シーンとの間に存在している無音シーンを検索し、該当する無音シーンが存在していれば、その無音シーンの継続時間とＴｓとを比較する。その結果、無音シーンの継続時間がＴｓ以下であるば、音楽音声シーン判別部１０６は、２つの会話シーンとその間の無音シーンとを含めて１つの会話シーンと判別する(Ｓ５０８)。このようにするのは、会話には、いわゆる間が存在するためである。なお、ここで用いるＴｓには、会話の間として許容される時間(例えば１秒)が設定されていればよい。

以上においては、会話シーンと音楽シーンとがはっきり分かれている場合を例に挙げたが、実際には、必ずしも、そのようになっているとは限らない。例えば、音楽シーンに、会話、ナレーション等が入っていることもある。

図６において、６０１は、Ａｕｄｉo復号化部の出力(PCMデータ)、６０２は、パワー計測部１０３の出力(パワー情報)、６０３は、変化点抽出部１０４の出力(変化点情報)である。

ＰＣＭデータ６０１においては、２つの無音シーン６０４,６０８間に、２つの音楽シーン６０５,６０７、音楽と会話とがオーバーラップしたシーン(以下、オーバラップシーンと呼ぶ)６０６が存在している。パワーデータは、音楽シーン６０５の始まりから音楽シーン６０７の終わりまでＴＨｐ以上の値を示している。そして、オーバーラップシーン６０６にだけ変化点６０９が多発する。

音楽音声シーン判別部１０６は、以下に示すように、図７のフローチャートにしたがった処理を実行することによって、このようなオーバーラップシーンを検出する。なお、図７のフローチャート中、図５と同じ符号が付された処理は、図５と同様な処理であるため、ここでは説明を省略する。

音楽音声シーン判別部１０６は、無音及び会話シーン以外のシーンを処理対象シーンとして、以下の処理(Ｓ６０１〜Ｓ５０７)を実行する。

音楽音声シーン判別部１０６は、処理対象シーンにおける変化点の頻度を、適当な間隔(例えば２秒)おきに計測する(Ｓ６０１)。

その結果、音楽音声シーン判別部１０６は、変化点の頻度がＴＨｃ未満となった区間のうち、パワーが継続的にＴＨｐ以上の値を示す区間を音楽シーンと判定し(Ｓ６０２)、変化の頻度がＴＨｃ以上となった区間のうち、パワーが継続的にＴＨｐ以上の値を示す区間をオーバーラップシーンと判定する(Ｓ６０３)。さらに、音楽音声シーン判別部１０６は、処理対象シーン内のその他の区間を会話シーンと判断する(Ｓ６０４)。

音楽音声シーン判別部１０６は、無音及び会話シーン以外のすべてのシーンが音楽及び会話シーンのいずれに分類されるまで、Ｓ６０１〜Ｓ６０４の処理を繰り返し実行する。

その後、音楽音声シーン判別部１０６は、いわゆる間を挟んだ２つの会話シーンを１つの会話シーンとしてから(Ｓ５０８)、２つのオーバーラップシーン間に存在している音楽シーンのうち、継続時間Ｔｓ以下の音楽シーンを検索する。その結果、該当する音楽シーンが存在していれば、音楽音声シーン判別部１０６は、２つのオーバラップシーンとその間の音楽シーンとをあわせて、１つのオーバーラップと判断する(Ｓ６０５)。このようにするのは、音楽にオーバラップした会話にも、いわゆる間が存在するためである。

図５及び図７に示した処理において用いられる閾値は、前述の通り、あらかじめ定められた値でもよいが、ユーザが設定した値でもよい。ユーザが閾値を設定できるようにする場合には、ユーザの設定作業を支援するため、例えば、図１１に示すような設定画面が準備されていることが好ましい。

図１１において、１１０１は、パワー閾値ＴＨｐの入力を受け付けるフィールド、１１０２は、シーン識別で用いる変化点頻度の閾値ＴＨｃの入力を受け付けるフィールド、１１０３は、会話シーンを抽出するための閾値Ｔｃの入力を受け付けるフィールド、１１０４は、無音シーンを抽出するための閾値Ｔｎの入力を受け付けるフィールド、１１０５は、会話中の間を検出するための閾値Ｔｓの入力を受け付けるフィールドである。

つぎに、音楽音声シーン判別部１０６は、以上の検出結果に基づきインデックステーブルを作成し、このインデックステーブルをシーンインデックス格納部１０７に格納する。このインデックステーブルには、図８に示すように、検出されたシーンごとに、開始時間８０１、終了時間８０２及び種別８０３が登録されている。

つぎに、ユーザが、シーンインデックス格納部１０７内のシーンインデックステーブルに基づきダイジェストを作成する処理について説明する。

図９に、ユーザがダイジェストを作成するために使用する編集画面を示す。

この編集画面には、動画像データのタイトル９０１、インデックステーブルに登録された複数のシーンのなかの所定数(ここでは８つ)のシーンに相当する映像データ９０２、各シーンの開始／終了時刻９０３、編集メニューを表示させるためのボタン９０５、編集を終了させるための終了ボタン(不図示)が配置される。シーンインデックスに、編集画面に１度に表示可能な数(ここでは８つ)以上のシーンが登録されている場合には、編集画面には、さらに、表示中の映像シーン一覧よりも時間的に前の映像シーン一覧を表示させるボタン９０４、表示中の映像シーン一覧よりも時間的に後の映像シーン一覧を表示させるためのボタン９０６が配置される。

ユーザが、入力装置(キーボード、マウス、リモートコントローラ等)３１０を用いて、この編集画面上の映像データ一覧のなかから、いずれかの映像データを選択してから、さらにボタン９０５を押すと、図１０に示すように、選択したシーンの編集を行うための編集メニュー１００１が表示される。ユーザは、この編集メニュー１００１を利用して、映像データ９０２の並び、すなわちダイジェストを編集することができる。例えば、会話シーン１と無音シーン２との間に会話シーン７を挿入する場合には、ユーザは、まず、会話シーン７を選択してから編集メニュー１００１を表示させ、その編集メニュー１００１のなかからメニュー項目「コピー」１００４を選択する。その後、会話シーン１を選択してから編集メニュー１００１を表示させ、その編集メニューのなかからメニュー項目「貼り付け」１００５を選択すればよい。いずれかの映像データを削除する場合には、その映像データを選択してから編集メニューを表示させ、その編集メニューのなかからメニュー項目「削除」１００３を選択すればよい。さらい、シーンの切れ目を変更する場合には、ユーザは、シーンを選択してから編集メニュー１００１を表示させ、その編集メニュー１００１のなかからメニュー項目「シーンエンド拡大」１００６または「シーンエンド縮小」１００７を選択すればよい。これにより、選択したシーンの終了時間を、現在の表示時刻よりも時間的に後または前に変更することができる。

その後、終了ボタンが押されると、音楽音声シーン判別部１０６は、編集画面上の情報に基づきシーンインデックステーブルを生成し、そのシーンインデックステーブルをシーンインデックス格納部１０７に格納する。その後、シーンインデックス格納部１０７内の新たなインデックステーブルの登録情報に基づき、データ蓄積部３０８内の動画像データからダイジェストを作成する。具体的には、以下の通りである。

ＡＶ分離部１０１が、データ蓄積部から動画像データを読み出し、その動画像データを、符号化映像データと符号化音データとに分離する。符号化映像データはＶｉｄｅｏ復号化部１０９へ、符合化した音データはＡｕｄｉｏ復号化部１０８へ送る。

Ａｕｄｉｏ復号化部１０８は、ＡＶ分離部１０１からの符号化音データを復号化し、Ｖｉｄｅｏ復号化部１０９は、ＡＶ分離部１０１からの符号化映像データを復号化する。動画像編集部１１０は、シーンインデックス格納部１０７内のシーンインデックステーブルに登録されたシーンに対応する音データ及び映像データを、Ａｕｄｉｏ復号化部１０８の復号により得られたＰＣＭデータ及びＶｉｄｅｏ復号化部１０９の復号により得られた映像データから抽出する。動画像編集部１１０は、その結果得られた、各シーンの音データ及び映像データをつなぎ合わせて１つの音データ(音ダイジェストデータ)及び１つの映像データ(映像ダイジェストデータ)に再編成する。その後、Ａｕｄｉｏ符号化部１１１が、動画像編集部１１０からの音ダイジェストデータを符号化し、Ｖｉｄｅｏ符号化部１１２が、動画像編集部１１０からの映像ダイジェストデータを符号化する。最終的に、ＡＶ多重化部１１３が、Ａｕｄｉｏ符号化部１１１からの符号化音ダイジェストデータと、Ｖｉｄｅｏ符号化部１１２からの符号化映像ダイジェストデータとを多重化し、ダイジェストデータとしてデータ蓄積部に格納する。

以上においては、ユーザがダイジェストデータを作成しているが、ユーザが示した方針にしたがってダイジェストデータが自動的に作成されるようにしてもよい。この場合には、ユーザの作業を支援するため、ユーザの方針入力を受け付ける自動ダイジェスト作成メニュー画面をモニタ３０５に表示することが好ましい。この自動ダイジェスト作成メニュー画面には、例えば、図１２に示すように、ダイジェストに使用するシーンの種別の選択を受け付ける複数のチェックボックス１２０１〜１２０４、設定終了ボタン(不図示)が配置される。ユーザが、これらのチェックボックス１２０１〜１２０４のなかから、ダイジェストに使用するシーン種別に対応するチェックボックスをチェックしてから設定終了ボタンを押すと、チェックされたチェックボタンに対応するシーン種別のシーン以外のシーンがシーンインデックス格納部１０７内のシーンインデックステーブルから削除される。

また、自動ダイジェスト作成メニュー画面には、シーン種別の選択を受け付けるチェックボックス以外に、オプション機能の選択を受け付けるチェックボックス１２０５が配置されていてもよい。このようなオプション機能としては、例えば、シーンからＣＭをカットするＣＭカット機能がある。以下、このＣＭカット機能を実現するための処理について説明する。

図１３に、ＣＭを含むＰＣＭデータ１３０１の波形を示す。一般のＣＭでは、１５秒間、音楽、ナレーション等が継続または繰り返される。さらに、ＣＭは、複数回(４回以上)連続する傾向にある。このため、一連のＣＭが始まると、番組の切れ目の無音シーンから定期的(約１５秒おき)に無音シーン(ＣＭの切れ目、ＣＭと番組との切れ目)１３０２,１３０４,１３０６,１３０８が入ることになる。そこで、ＣＭカット機能が選択された場合には、１５秒以内の有音シーン(音楽シーン１３０５、または、オーバラップシーン１３０３,１３０７)と短時間の無音シーンとが交互に４回以上続く区間のレコード(開始時間８０１、終了時間８０２及び種別８０３)を、一連のＣＭ部分としてシーンインデックステーブルから削除すればよい。

つぎに、MPEG-2 AACによる符号化音データを含む動画像データを動画像データとする場合について説明する。

ここで、簡単にMPEG-2 AAC方式の符号化について説明しておく。

まず、図１５(ａ)または図１５(ｂ)に示すように、ＰＣＭデータに窓関数を掛ける。

図１５(ａ)の窓関数は、２０４８サンプルのＰＣＭデータに掛けられるロングウィンドウである。この窓関数が掛けられたサンプルに対して、周波数変換(ＭＤＣＴ)、量子化、ハフマン符号化を施す。このようにしてＰＣＭデータがフレーム単位で符号化される。フレームを復号化すると、１０２４サンプルのＰＣＭデータを取得することができる。

一方、図１５(ｂ)の窓関数は、２５６サンプルのＰＣＭデータに掛けられる８個のショートウィンドウである。この窓関数が掛けられたサンプルに対して、周波数変換(ＭＤＣＴ)、量子化、ハフマン符号化が施される点は、ロングウィンドウと同様である。

聴覚的な変化点を含むＰＣＭデータをロングウィンドウで符号化すると、量子化誤差のために、復号化時にノイズがのる。そこで、符号化前に聴覚的な変化点の有無を予めチェックし、該当する変化点が存在しているときにはショートウィンドウを用いる。

図１４に、MPEG-2 AACにより符号化された音データを含む動画データを編集対象デジタルデータとする場合のシステム構成を示す。

窓形状取得部１４０１は、ＡＶ分離部１０１によって分離された符号化音データからフレーム毎の窓形状を取得する。この窓形状がショートウィンドウであれば、このフレーム内には聴覚的変化点が含まれることを意味する。フレーム内における聴覚的変化点の有無に関する情報は、解析データ蓄積部１０５に格納される。

変化点抽出部１４０２は、ＡＶ分離部１０１によって分離された符号化音データを復号化して周波数データを取得し、前述の方法により、この周波数データから変化点を抽出する。得られた変化点に関する情報は、解析データ蓄積部１０５に格納される。

パワー解析部１４０３は、ＡＶ分離部１０１によって分離された符号化音データからパワー情報を取り出し、そのパワー情報を解析データ蓄積部１０５に格納する。

その他の構成部は、変化点が存在するフレームについて、上述の場合と同様な処理を行う。

このように、シーン検出に必要な情報を符号化音データから直接取得することができるため、処理の軽減を図ることができる。また、他の符号化方式(例えば、ＭＰ３、ＤｏｌｂｙＡＣ３等)についても同様にして情報を取得することができる。

ところで、以上においては、音のパワースペクトラムから変化点を検出しているが、音の音圧レベルから変化点を抽出してもよい。具体的には、原音の音圧レベルと、一定期間内における平均音圧レベルとの差分を検出し、この差分が所定の閾値を超えた点を変化点として抽出する。さらに詳細に説明する。

図１６(ａ)に、無音状態から音楽が始まり、その後、再度無音状態となったときの音圧レベルの時間変化及び平均音圧レベルと音圧レベルとの差分の時間変化を示す。ここで用いた音圧レベルは、音圧(ＰＣＭデータ値)を人間の感覚に近いスケールで表したものである。一般に、音圧が２倍になっても、人間は音量が２倍になったとは感じない。人間の知覚する音量は音圧の対数比に比例することが知られている。音圧レベルは、この音量を示し、数式２によって求められる。
pwl=20.0×log₁₀(X*0.00002) (2)
ここで、ＸはＰＣＭデータ値、ｐｗｌは音圧レベル(ｄＢ)を示す。

一般に、１６ビットのＰＣＭデータは、−９６ｄＢから０ｄＢまでの９６ｄＢのダイナミックレンジを有する。

また、一定期間widthの平均音圧レベルは、数式(３)により求められる。
ave_pwl=20.0×log₁₀(sqrt((ΣX[i]*X[i])/width)*0.00002) (3)
for i=0 to (width-1)
ここで、X[i]は、時系列に並ぶPCMデータの配列、ave_pwlは、平均音圧レベルを表す。

図１６(ａ)において、１７０１は、原音の音圧レベル、１７０２は、原音の前後一定幅の平均音圧レベルである。前後一定幅とは、例えば前後0.5秒ずつ、計１秒間の幅とすることができる。さらに、原音の音圧レベル１７０１から平均音圧レベル１７０２を引くことにより得られる差分１７０３に対して２種類の閾値TH1,−TH1を設定する。これらの閾値を差分１７０３が超えた点を変化点として検出する。ここで、TH1には、例えば５ｄBが設定される。また、TH1に例えば５ｄB及び８ｄBを設定しておき、差分が８ｄBを超えた点を、より大きな変化点として検出するようにしてもよい。

一般に音楽シーンでは、音楽の音圧レベルの上下が少ないため、抽出される変化点の数は少ない。突発的に音が大きくなることがあっても、その後の変化が少ないため、抽出される箇所が少ない傾向にある。

図１６(ｂ)に、無音と会話とが繰り返す会話シーンの音圧レベルを示す。図１６(ｂ)において、１７０６は、会話シーンの音圧レベル、１７０７は、前後一定幅における平均音圧レベルである。１７０８は、音圧レベル１７０６と平均音圧レベル１７０７との差分である。会話シーンにおいては、人の声の音圧レベルが激しく変化する傾向にあるため、会話中、差分１７０８が閾値TH1を超えることが多い。この差分１７０８が閾値TH1を越えた点を変化点として抽出することができる。音楽シーン中に会話が入った場合も、同様に、音圧レベルが激しく変動する傾向にある。

本発明の一実施形態に係る動画像データ編集装置の概略構成図聴覚的な変化点を説明するための図本発明の一実施形態に係る動画像データ編集装置の概略構成図本発明の一実施形態に係るダイジェストデータ作成処理を説明するための波形図本発明の一実施形態に係るダイジェストデータ作成処理のフローチャート本発明の一実施形態に係るダイジェストデータ作成処理を説明するための波形図本発明の一実施形態に係るダイジェストデータ作成処理のフローチャート本発明の一実施形態に係るインデックステーブルのデータ構造を概念的に示した図本発明の一実施形態に係る編集画面のレイアウトを示した図本発明の一実施形態に係る編集画面を利用した編集作業を説明するための図本発明の一実施形態に係るシーン判別パラメータ設定画面本発明の一実施形態に係る自動ダイジェスト作成メニュー画面のレイアウトを示した図本発明の一実施形態に係るＣＭカット機能を説明するための波形図本発明の一実施形態に係る動画録画システムの概略構成図 MPEG-2 AAC方式の符号化において用いられる窓関数の形状を示した図本発明の一実施形態に係るシーン判別処理を説明するための図。

符号の説明

１０１…ＡＶ分離部、１０２,１０８…Ａｕｄｉｏ復号化部、１０３…パワー計測部、１０４…変化点抽出部、１０５…解析データ蓄積部、１０６…音楽会話シーン判別部、１０７…シーンインデックス格納部、１０９…Ｖｉｄｅｏ復号化部、１１０…動画像編集部、１１１…Ａｕｄｉｏ符号化部、１１２…Ｖｉｄｅｏ符号化部、１１３…ＡＶ多重化部、３０１…動画像データ作成装置、３０２…ネットワーク、３０３…ＴＶアンテナ、３０４…スピーカ、３０５…モニタ、３０６…動画像送受信装置、３０７…ネットワークＩ／Ｆ部、３０８…データ蓄積部、３０９…メモリ、３１０…入力装置、３１１…動画像復号化部、３１２…動画像符号化部、３１３…ＣＰＵ、３１４…音出力部、３１５…表示部、３１６…チューナー

Claims

音データを含む動画像データを編集する動画像データ編集装置であって、
前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別し、当該判別結果に基づき、当該各シーンのシーン種別と、前記動画像データが表す動画像における当該各シーンの期間を表す時間情報を含むインデックス情報を生成する演算処理手段と、
前記インデックス情報に対する編集を受け付ける入力受付け手段と、
を有し、
前記編集受け付け手段が前記編集操作を受け付けた場合に、前記演算処理手段は、前記編集操作に応じて前記インデックス情報を更新することを特徴とする動画像データ編集装置。
請求項１の動画像データ編集装置であって、
前記音データは、符号化された音データであり、
前記演算処理手段は、前記音データの各フレームの符号化に用いられた窓関数の形状に基づき、前記音データのフレームごとに前記変化点の有無を判定することを特徴とする動画像データ編集装置。
請求項１記載の動画像データ編集装置であって、
前記演算処理手段は、前記変化点を含まない所定の時間以上の区間が前記音データに含まれている場合には、前記動画像データが表す動画像の、当該区間に対応するシーンのシーン種別を無音シーンとすることを特徴とする動画像データ編集装置。
請求項３記載の動画像データ編集装置であって、
前記動画像データにおいて、無音シーンと、会話及び音楽の少なくとも一方を含む１５秒以内の有音シーンとが交互に所定の回数以上繰り返される場合には、当該無音シーン及び当該有音シーンのシーン種別及び時間情報を前記インデックス情報から削除することを特徴とする動画像データ編集装置。
請求項１記載の動画像データ編集装置であって、
前記演算処理手段は、前記変化点の発生頻度が１回／秒以下のシーンを音楽シーン、前記変化点の発生頻度が２回／秒以上のシーンを会話シーンと判断することを特徴とする動画像データ編集装置。
音データを含む動画像データの編集処理を動画像データ編集装置に実行させるプログラムであって、
前記動画像編集装置は、演算処理手段と入力受付手段と記憶手段とを有し、
当該プログラムは、
前記演算処理手段が、前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別する処理と、
前記演算処理手段が、前記各シーンのシーン種別及び前記動画像データが表す動画像における当該各シーンの期間を表す時間情報を含むインデックス情報を生成し、当該インデックス情報を前記記憶手段に格納する処理と、
前記インデックス情報に対する編集操作を前記入力受付け手段が受け付けと、前記演算処理手段が、前記入力受付け手段が受け付けた編集操作に基づき前記記憶手段内の前記インデックス情報を更新する処理と、
を含むことを特徴とするプログラム。
請求項６のプログラムであって、
前記演算処理手段は、前記変化点の発生頻度が１回／秒以下のシーンを音楽シーン、前記変化点の発生頻度が２回／秒以上のシーンを会話シーンと判断することを特徴とするプログラム。
音データを含む動画像データを動画像データ編集装置で編集する動画像データ編集方法であって、
前記動画像編集装置は、演算処理手段と入力受付手段と記憶手段とを有し、
当該動画像データ編集方法は、
前記演算処理手段が、前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別する処理と、
前記演算処理手段が、前記各シーンのシーン種別及び前記動画像データが表す動画像における当該各シーンの期間を表す時間情報を含むインデックス情報を生成し、当該インデックス情報を前記記憶手段に格納する処理と、
前記インデックス情報に対する編集操作を前記入力受付け手段が受け付けると、前記演算処理手段が、前記入力受付け手段が受け付けた編集操作に基づき前記記憶手段内の前記インデックス情報を更新する処理と、
を備えることを特徴とする動画像データ編集方法。