JP2006050045A - 動画像データ編集装置及び動画像データ編集方法 - Google Patents
動画像データ編集装置及び動画像データ編集方法 Download PDFInfo
- Publication number
- JP2006050045A JP2006050045A JP2004225280A JP2004225280A JP2006050045A JP 2006050045 A JP2006050045 A JP 2006050045A JP 2004225280 A JP2004225280 A JP 2004225280A JP 2004225280 A JP2004225280 A JP 2004225280A JP 2006050045 A JP2006050045 A JP 2006050045A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- moving image
- image data
- sound
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management Or Editing Of Information On Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】
複数のシーンを含む動画像のダイジェスト編集の編集作業効率を向上させる。
【解決手段】
動画像データ編集装置は、音データのパワー情報と音データが表す音の変化点とを算出し、その変化点及びパワー情報に基づき、動画像データに含まれる各シーンが、無音シーン、会話シーン、音楽シーン、及び、会話と音楽とのオーバラップシーンのいずれであるかを判別する(S501〜S508)。動画像データ編集装置は、その判別結果(各シーンのシーン種別、開始/終了時間)をシーンインデックステーブルに格納し、ユーザの編集操作に応じて、そのシーンインデックステーブルを更新する。
【選択図】 図7
複数のシーンを含む動画像のダイジェスト編集の編集作業効率を向上させる。
【解決手段】
動画像データ編集装置は、音データのパワー情報と音データが表す音の変化点とを算出し、その変化点及びパワー情報に基づき、動画像データに含まれる各シーンが、無音シーン、会話シーン、音楽シーン、及び、会話と音楽とのオーバラップシーンのいずれであるかを判別する(S501〜S508)。動画像データ編集装置は、その判別結果(各シーンのシーン種別、開始/終了時間)をシーンインデックステーブルに格納し、ユーザの編集操作に応じて、そのシーンインデックステーブルを更新する。
【選択図】 図7
Description
本発明は、ディジタルオーディオレコーダ、デジタルビデオレコーダ、パーソナルコンピュータ等の、動画像の再生装置に適用可能な動画像データ編集支援技術に関する。
映像データのシーンの変化点を検出する技術として特許文献1記載の技術が知られている。また、音の聴覚的な変化点を検出する技術として特許文献2として知られている。さらに、音声レベルが所定レベルを超えるダイジェスト部分を映像音声信号から抽出する技術として特許文献3記載の技術が知られている。
一般に、TV放送等の番組には、歌、演奏等の音楽の他、人の会話等が含まれている。番組中における会話は、音楽以上に、番組のストーリー上、重要な意味を持つことが多い。ところが、上記従来の技術には、このような会話に関する認識がないため、ユーザは、例えばストーリを持つ番組等について適切なダイジェストを生成できるとは限らない。
そこで、本発明は、ストーリに沿った複数のシーンを含む動画像のダイジェスト編集を支援する動画像データ編集装置を提供することを目的とする。
この発明は以下の構成を提供する。すなわち、本発明は、
音データを含む動画像データを編集する動画像データ編集装置であって、
前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別し、当該各シーンのシーン種別と、前記動画像データが表す動画像における当該各シーンの期間を表す時間情報とを含むインデックス情報を生成する演算処理手段と、
前記インデックス情報に対する編集操作を受け付ける入力受付け手段と、
を有し、
前記編集受け付け手段が前記編集操作を受け付けた場合に、前記演算処理手段は、前記編集操作に応じて前記インデックス情報を更新することを特徴とする動画像データ編集装置を提供する。
音データを含む動画像データを編集する動画像データ編集装置であって、
前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別し、当該各シーンのシーン種別と、前記動画像データが表す動画像における当該各シーンの期間を表す時間情報とを含むインデックス情報を生成する演算処理手段と、
前記インデックス情報に対する編集操作を受け付ける入力受付け手段と、
を有し、
前記編集受け付け手段が前記編集操作を受け付けた場合に、前記演算処理手段は、前記編集操作に応じて前記インデックス情報を更新することを特徴とする動画像データ編集装置を提供する。
本発明によれば、ストーリにそった複数のシーンを含む動画像のダイジェスト編集の編集作業効率を向上させることができる。
以下、添付の図面を参照しながら、本発明に係る実施の一形態について説明する。
ここでは、符号化された映像データと符号化された音データとの多重化により生成されたビットストリームを編集対象デジタルデータ(以下、動画像データと呼ぶ)とする。このようなビットストリームの圧縮方式としては、例えば、IEC/ISOの動画符号化の国際標準であるMPEG-2 TS(Transport Stream)、MP4FF(MPEG-4 File Format)等が知られている。また、映像データの符号化方式としては、MPEG-2 video、MPEG-4 visual等、音データの符号化方式としては、MPEG-1 Audio Layer3(いわゆるMP3)、MPEG-2 Audio、MPEG-2 AAC(Advanced Audio CODEC)、Dolby AC3等が知られている。
本実施の形態に係る動画像データ編集装置は、符号化音データから聴覚的な変化点を抽出し、その変化点から、会話シーン、音楽シーン、及び、会話と音楽とのオーバラップシーンの別を判別する。
聴覚的な変化点を有する音と有しない音との符号化音データの復号により得られる波形データの相違を説明する。
聴覚的な変化点が存在しない音または音楽の符号化音データを復号化すると、図2(a)に示すように、歪みのない、連続した音声波形が得られる。しかし、著しく変化する音(例えば無音状態から音楽が始まる場合、または、別の音源から音楽が発生する場合等の音)を復号化すると、図2(b)に示すように、音楽の発生開始時201において音声波形が著しく変化する。その後、音楽の終了時(無音状態に戻った時、または、元の音源が鳴っている状態に戻った時)202にも、波形が著しく変化する。このような変化点の発生は、前後の音声と関係のない音が挿入されたことに起因する。
このような変化点が存在する音のパワースペクトラム及び存在しない音のパワースペクトラムを図2(c)及び図2(d)に示す。なお、これらのパワースペクトラムは、音のPCMデータからサンプルを適当数(例えば1024サンプル)ずつ抽出し、それらのサンプルに対してFFT(離散的フーリエ変換)を施すことによって求めたものである。
図2(c)に示すように、大きな変化点が存在しない音のパワースペクトラムには、振幅の大きな変化は認められないが、図2(d)に示すように、大きな変化点が存在する音のパワースペクトラムには、大きな振幅の変化が認められる。本実施の形態においては、パワースペクトラムに大きな変化が生じた時点を音の聴覚的な変化点の発生時と定める。概要は、以下の通りである。
まず、音のPCMデータを適当な時間窓で切り出し、その時間窓内のサンプル(1024サンプル、64サンプル)にFFTまたはMDCTを施すことによってパワースペクトラムを求める。このパワースペクトラムを帯域分割し、帯域毎に平均パワースペクトラムを求める。帯域毎の平均パワースペクトラムと前後のフレームまたは数フレーム(例えば2フレームまたは3フレーム程度)離れたフレームのものとを比較し、その差分が一定の閾値を超えた点を変化点と決定する。なお、ここで帯域分割を行っているのは、ある音源が鳴っている状態で別の周波数帯の音が鳴り出した場合の変化点を抽出可能とするためである。なお、このような方法は、変化点の抽出方法の一例であるから、他の方法で変化点を抽出してもよい。
つぎに、このような変化点を利用してダイジェスト編集を支援する動画像データ編集装置の構成について説明する。
図3に、動画像データ編集装置のハードウエア構成を示す。
動画像データ編集装置301は、ネットワーク302及びTVアンテナ303のいずれか一方を介して動画像データを送受信し、ダイジェスト作成、受信した動画像データの蓄積及び再生を行なう。動画像データの再生により得られる動画像及び音は、それぞれ、モニタ304及びスピーカ305に出力される。
動画像データ編集装置301は、ネットワークI/F307、データ蓄積部(ハードディスク、リライタブルDVD、フラッシュRAM等)308、ユーザの操作を受け付ける入力装置(ボタン、キーボード、マウス、赤外線または無線を利用したリモートコントローラ等)310、動画像復号化部311、動画像符号化部312、CPU313、CPUのワークメモリ等として利用されるメモリ309、音出力部314、表示部315、チューナ316、これら各部を相互に接続するバス317を有している。
ネットワークI/F307は、ネットワークを介して動画像データを受信したり、データ蓄積部308またはメモリ309のデータを送信する。データ蓄積部308は、各種データ(動画像データ、プログラム等)を保存する。動画像復号化部311は、動画像データのデマルチプレクス及び符号化データ(映像データ、音データ)の復号化を行なう。動画像符号化部312は、映像データと音データとの符号化及び符号化映像データと符号化音データとのマルチプレクスを行う。音出力部314は、動画像復号化部311で復号化した音データ及び操作音等をスピーカ304に出力する。表示部315は、動画像復号化部311で復号化した映像データ及び操作画面等をモニタ305に表示させる。チューナ316は、TVアンテナ303で受信したデジタル衛星放送またはデジタル地上波放送の電波を動画像データに変換して、動画像復号化部311に送信またはデータ蓄積部308に保存する。CPU313は、データ蓄積部308に格納されているプログラムの実行により各種制御処理を実行する。なお、動画像復号化部311及び動画像符号化部312は、ソフトウェアで実現されるものであってもよい。
このようなハードウエア構成を有する動画像データ編集装置301は、プログラムの実行により、図1の機能構成を実現する。
データ蓄積部からの動画像データがAV分離部101に入力されと、AV分離部101は、動画像データから符号化音データを分離する。Audio復号化部102は、この符号化音データをフレーム単位で復号化する。例えば、音データがMPEG-2 AACで符号化されている場合、1フレームの復号化により、1チャンネル当たり1024サンプル分のPCMデータが得られる。さらに、Audio復号化部102は、これにより得られるPCMデータを1つのストリームとして連結する。
パワー計測部103は、Audio復号化部102からのPCMデータを一定サンプルおきに分割し、それにより得られる各分割データについて、例えば数式(1)を用いてパワーを算出する。
Power = (ΣX[i]*X[i])/width (1)
for i = 0 to width -1
ここで、widthは、PCMデータの分割サイズ、X[i]は、i番目の分割データに含まれるPCMデータサンプルの信号値の配列である。
Power = (ΣX[i]*X[i])/width (1)
for i = 0 to width -1
ここで、widthは、PCMデータの分割サイズ、X[i]は、i番目の分割データに含まれるPCMデータサンプルの信号値の配列である。
なお、分割データのサイズは、任意のサイズ(例えば、64サンプル、1024サンプル)でよいが、後述の変化点抽出部104が用いる分割サイズと一致していることが好ましい。
変化点抽出部104は、パワー計測部103と同様、Audio復号化部102からのPCMデータを一定サンプルおきに分割し、特許文献2記載の方法と同様な方法によって聴覚的な変化点を抽出する。
解析データ蓄積部105には、パワー計測部103からのパワー情報と、変化点抽出部104からの変化点情報が時系列に蓄積される。シーン判別に充分なデータが解析データ蓄積部105に蓄積されると、音楽音声シーン判別部106は、シーンの判別を実行する。
この判別方法を、図4、5を用いて説明する。
図4において、401は、Audio復号化部の出力(PCMデータ)、402は、パワー計測部103の出力(パワー情報)、403は、変化点抽出部104の出力(変化点情報)である。ここでは、パワー情報402が閾値THp以下となった区間を無音と扱うこととする。この閾値THpは、あらかじめ定めた値、ユーザが入力装置310で設定した値、及び、一定時間(たとえば1秒間)分の区間における平均パワーの所定割合(1/10)の値のいずれであってもよい。なお、一定時間(たとえば1秒間)分の区間における平均パワーから閾値を動的に定める場合には、閾値の下限値を設定しておくことが望ましい。
また、このパワーが閾値THpを超える時点、または、パワーが閾値THp以下となる時点も変化点の1つとして扱うことが望ましい。
PCMデータ401には、音楽シーン404、無音シーン405及び会話シーン406が含まれることとする。音楽シーン404中のパワーデータ407は、ほぼ全域においてTHp以上のパワー値を示す傾向にある。また、変化点抽出により、音楽シーンの始まりの変化点410及び終わりの変化点412が検出されるが、それらの変化点410,412間の変化点の発生頻度は少ない傾向にある。ただし、まれに曲調の変化、音楽シーン途中の無音箇所が発生すると、音楽シーン404の途中にも変化点411が検知されることがある。例えば、44.1KHz、16ビットサンプリングのPCMデータに対して、64サンプルごとに変化点を検出した場合、音楽シーンについては、1秒間当たりの変化点の発生頻度はほぼ0回であり、まれに変化点が生じたとしてもせいぜい4回程度である。しかも断続的に出現することはなく、1秒間当たりの頻度に換算すると1回/秒程度である。
無音シーン405中のパワーデータ408は、ほぼ全域においてTHp以下の値を示す傾向にある。また、変化点はほとんど検出されない。
会話シーン406中のパワーデータ409は、時折THp以下になる等、ほぼ全域において激しく変動する傾向にある。また、会話シーン406の始まりから終わりまで、変化点が多発する傾向にある。例えば、44.1KHz、16ビットサンプリングのPCMデータに対して、64サンプルごとに変化点を検出した場合、会話シーンについては、声が生じている間、変化点が3回/秒以上の変化点が断続的に発生する傾向にある。会話シーンについては、平均して2回/秒以上の変化点が発生する傾向にある。
音楽音声シーン判別部106は、このような傾向に基づき、音楽、会話及び無音の各シーンを判別する。具体的には、以下に示すように、図5のフローチャートにしたがった処理を実行する。ここでは、動画像データがデータ蓄積部308に格納されていることとする。
まず、音楽音声シーン判別部106は、変化点間のパワーがTHp未満、継続時間Tn秒以上の区間を検索し、それにより得られた各区間を無音シーンと判定する(S501)。ここで、Tnは、人間の聴覚で無音と感知できる程度の時間(例えば500m秒)とすればよい。
このようにして複数の無音シーンを検出すると、音楽音声シーン判別部106は、無音シーンと無音シーンとの間の時間をそれぞれ計測する。その結果、無音シーン間の時間がTc秒以下であれば、無音シーン間のシーンを会話シーンと判断する(S502)。このようにしているのは、短時間で終了する有音シーンは音楽シーンでない傾向にあるためである。なお、Tcは、一般的な音楽シーンの継続時間未満の値(例えば3秒)を用いればよい。
音楽音声シーン判別部106は、以上において検出した無音及び会話シーン以外のシーンを処理対象シーンとして、以下の処理(S503〜S506)を実行する。
音楽音声シーン判別部106は、処理対象シーンにおける変化点の頻度を算出する(S503)。例えば、処理対象シーン内の変化点の数を、処理対象シーンの継続時間で除算することにより、1秒間当たりの変化点の数を算出する。
音楽音声シーン判別部106は、この変化点の頻度とTHcとを比較し(S504)、その比較結果に応じて処理対象シーンが、音楽及び会話シーンのいずれであるかを決定する。具体的には、音楽音声シーン判別部106は、変化点の頻度がTHc未満であれば、処理対象シーンを音楽シーンと判定し(505)、変化点の頻度がTHc以上であれば、処理対象シーンを会話シーンと判定する(S506)。ここで用いるTHcには、予め適当な値(例えば2)が設定されている。
音楽音声シーン判別部106は、無音及び会話シーン以外のすべてのシーンが音楽及び会話シーンのいずれに分類されたか否かを判断し(S507)、その結果、未分類のシーンが残されていれば、そのシーンを新たな処理対象シーンとして以上の処理(S503〜S506)を繰り返し実行する。
このようにして、すべてのシーンが、無音、会話及び音楽シーンのいずれかに分類されたら、音楽音声シーン判別部106は、会話シーンと会話シーンとの間に存在している無音シーンを検索し、該当する無音シーンが存在していれば、その無音シーンの継続時間とTsとを比較する。その結果、無音シーンの継続時間がTs以下であるば、音楽音声シーン判別部106は、2つの会話シーンとその間の無音シーンとを含めて1つの会話シーンと判別する(S508)。このようにするのは、会話には、いわゆる間が存在するためである。なお、ここで用いるTsには、会話の間として許容される時間(例えば1秒)が設定されていればよい。
以上においては、会話シーンと音楽シーンとがはっきり分かれている場合を例に挙げたが、実際には、必ずしも、そのようになっているとは限らない。例えば、音楽シーンに、会話、ナレーション等が入っていることもある。
図6において、601は、Audio復号化部の出力(PCMデータ)、602は、パワー計測部103の出力(パワー情報)、603は、変化点抽出部104の出力(変化点情報)である。
PCMデータ601においては、2つの無音シーン604,608間に、2つの音楽シーン605,607、音楽と会話とがオーバーラップしたシーン(以下、オーバラップシーンと呼ぶ)606が存在している。パワーデータは、音楽シーン605の始まりから音楽シーン607の終わりまでTHp以上の値を示している。そして、オーバーラップシーン606にだけ変化点609が多発する。
音楽音声シーン判別部106は、以下に示すように、図7のフローチャートにしたがった処理を実行することによって、このようなオーバーラップシーンを検出する。なお、図7のフローチャート中、図5と同じ符号が付された処理は、図5と同様な処理であるため、ここでは説明を省略する。
音楽音声シーン判別部106は、無音及び会話シーン以外のシーンを処理対象シーンとして、以下の処理(S601〜S507)を実行する。
音楽音声シーン判別部106は、処理対象シーンにおける変化点の頻度を、適当な間隔(例えば2秒)おきに計測する(S601)。
その結果、音楽音声シーン判別部106は、変化点の頻度がTHc未満となった区間のうち、パワーが継続的にTHp以上の値を示す区間を音楽シーンと判定し(S602)、変化の頻度がTHc以上となった区間のうち、パワーが継続的にTHp以上の値を示す区間をオーバーラップシーンと判定する(S603)。さらに、音楽音声シーン判別部106は、処理対象シーン内のその他の区間を会話シーンと判断する(S604)。
音楽音声シーン判別部106は、無音及び会話シーン以外のすべてのシーンが音楽及び会話シーンのいずれに分類されるまで、S601〜S604の処理を繰り返し実行する。
その後、音楽音声シーン判別部106は、いわゆる間を挟んだ2つの会話シーンを1つの会話シーンとしてから(S508)、2つのオーバーラップシーン間に存在している音楽シーンのうち、継続時間Ts以下の音楽シーンを検索する。その結果、該当する音楽シーンが存在していれば、音楽音声シーン判別部106は、2つのオーバラップシーンとその間の音楽シーンとをあわせて、1つのオーバーラップと判断する(S605)。このようにするのは、音楽にオーバラップした会話にも、いわゆる間が存在するためである。
図5及び図7に示した処理において用いられる閾値は、前述の通り、あらかじめ定められた値でもよいが、ユーザが設定した値でもよい。ユーザが閾値を設定できるようにする場合には、ユーザの設定作業を支援するため、例えば、図11に示すような設定画面が準備されていることが好ましい。
図11において、1101は、パワー閾値THpの入力を受け付けるフィールド、1102は、シーン識別で用いる変化点頻度の閾値THcの入力を受け付けるフィールド、1103は、会話シーンを抽出するための閾値Tcの入力を受け付けるフィールド、1104は、無音シーンを抽出するための閾値Tnの入力を受け付けるフィールド、1105は、会話中の間を検出するための閾値Tsの入力を受け付けるフィールドである。
つぎに、音楽音声シーン判別部106は、以上の検出結果に基づきインデックステーブルを作成し、このインデックステーブルをシーンインデックス格納部107に格納する。このインデックステーブルには、図8に示すように、検出されたシーンごとに、開始時間801、終了時間802及び種別803が登録されている。
つぎに、ユーザが、シーンインデックス格納部107内のシーンインデックステーブルに基づきダイジェストを作成する処理について説明する。
図9に、ユーザがダイジェストを作成するために使用する編集画面を示す。
この編集画面には、動画像データのタイトル901、インデックステーブルに登録された複数のシーンのなかの所定数(ここでは8つ)のシーンに相当する映像データ902、各シーンの開始/終了時刻903、編集メニューを表示させるためのボタン905、編集を終了させるための終了ボタン(不図示)が配置される。シーンインデックスに、編集画面に1度に表示可能な数(ここでは8つ)以上のシーンが登録されている場合には、編集画面には、さらに、表示中の映像シーン一覧よりも時間的に前の映像シーン一覧を表示させるボタン904、表示中の映像シーン一覧よりも時間的に後の映像シーン一覧を表示させるためのボタン906が配置される。
ユーザが、入力装置(キーボード、マウス、リモートコントローラ等)310を用いて、この編集画面上の映像データ一覧のなかから、いずれかの映像データを選択してから、さらにボタン905を押すと、図10に示すように、選択したシーンの編集を行うための編集メニュー1001が表示される。ユーザは、この編集メニュー1001を利用して、映像データ902の並び、すなわちダイジェストを編集することができる。例えば、会話シーン1と無音シーン2との間に会話シーン7を挿入する場合には、ユーザは、まず、会話シーン7を選択してから編集メニュー1001を表示させ、その編集メニュー1001のなかからメニュー項目「コピー」1004を選択する。その後、会話シーン1を選択してから編集メニュー1001を表示させ、その編集メニューのなかからメニュー項目「貼り付け」1005を選択すればよい。いずれかの映像データを削除する場合には、その映像データを選択してから編集メニューを表示させ、その編集メニューのなかからメニュー項目「削除」1003を選択すればよい。さらい、シーンの切れ目を変更する場合には、ユーザは、シーンを選択してから編集メニュー1001を表示させ、その編集メニュー1001のなかからメニュー項目「シーンエンド拡大」1006または「シーンエンド縮小」1007を選択すればよい。これにより、選択したシーンの終了時間を、現在の表示時刻よりも時間的に後または前に変更することができる。
その後、終了ボタンが押されると、音楽音声シーン判別部106は、編集画面上の情報に基づきシーンインデックステーブルを生成し、そのシーンインデックステーブルをシーンインデックス格納部107に格納する。その後、シーンインデックス格納部107内の新たなインデックステーブルの登録情報に基づき、データ蓄積部308内の動画像データからダイジェストを作成する。具体的には、以下の通りである。
AV分離部101が、データ蓄積部から動画像データを読み出し、その動画像データを、符号化映像データと符号化音データとに分離する。符号化映像データはVideo復号化部109へ、符合化した音データはAudio復号化部108へ送る。
Audio復号化部108は、AV分離部101からの符号化音データを復号化し、Video復号化部109は、AV分離部101からの符号化映像データを復号化する。動画像編集部110は、シーンインデックス格納部107内のシーンインデックステーブルに登録されたシーンに対応する音データ及び映像データを、Audio復号化部108の復号により得られたPCMデータ及びVideo復号化部109の復号により得られた映像データから抽出する。動画像編集部110は、その結果得られた、各シーンの音データ及び映像データをつなぎ合わせて1つの音データ(音ダイジェストデータ)及び1つの映像データ(映像ダイジェストデータ)に再編成する。その後、Audio符号化部111が、動画像編集部110からの音ダイジェストデータを符号化し、Video符号化部112が、動画像編集部110からの映像ダイジェストデータを符号化する。最終的に、AV多重化部113が、Audio符号化部111からの符号化音ダイジェストデータと、Video符号化部112からの符号化映像ダイジェストデータとを多重化し、ダイジェストデータとしてデータ蓄積部に格納する。
以上においては、ユーザがダイジェストデータを作成しているが、ユーザが示した方針にしたがってダイジェストデータが自動的に作成されるようにしてもよい。この場合には、ユーザの作業を支援するため、ユーザの方針入力を受け付ける自動ダイジェスト作成メニュー画面をモニタ305に表示することが好ましい。この自動ダイジェスト作成メニュー画面には、例えば、図12に示すように、ダイジェストに使用するシーンの種別の選択を受け付ける複数のチェックボックス1201〜1204、設定終了ボタン(不図示)が配置される。ユーザが、これらのチェックボックス1201〜1204のなかから、ダイジェストに使用するシーン種別に対応するチェックボックスをチェックしてから設定終了ボタンを押すと、チェックされたチェックボタンに対応するシーン種別のシーン以外のシーンがシーンインデックス格納部107内のシーンインデックステーブルから削除される。
また、自動ダイジェスト作成メニュー画面には、シーン種別の選択を受け付けるチェックボックス以外に、オプション機能の選択を受け付けるチェックボックス1205が配置されていてもよい。このようなオプション機能としては、例えば、シーンからCMをカットするCMカット機能がある。以下、このCMカット機能を実現するための処理について説明する。
図13に、CMを含むPCMデータ1301の波形を示す。一般のCMでは、15秒間、音楽、ナレーション等が継続または繰り返される。さらに、CMは、複数回(4回以上)連続する傾向にある。このため、一連のCMが始まると、番組の切れ目の無音シーンから定期的(約15秒おき)に無音シーン(CMの切れ目、CMと番組との切れ目)1302,1304,1306,1308が入ることになる。そこで、CMカット機能が選択された場合には、15秒以内の有音シーン(音楽シーン1305、または、オーバラップシーン1303,1307)と短時間の無音シーンとが交互に4回以上続く区間のレコード(開始時間801、終了時間802及び種別803)を、一連のCM部分としてシーンインデックステーブルから削除すればよい。
つぎに、MPEG-2 AACによる符号化音データを含む動画像データを動画像データとする場合について説明する。
ここで、簡単にMPEG-2 AAC方式の符号化について説明しておく。
まず、図15(a)または図15(b)に示すように、PCMデータに窓関数を掛ける。
図15(a)の窓関数は、2048サンプルのPCMデータに掛けられるロングウィンドウである。この窓関数が掛けられたサンプルに対して、周波数変換(MDCT)、量子化、ハフマン符号化を施す。このようにしてPCMデータがフレーム単位で符号化される。フレームを復号化すると、1024サンプルのPCMデータを取得することができる。
一方、図15(b)の窓関数は、256サンプルのPCMデータに掛けられる8個のショートウィンドウである。この窓関数が掛けられたサンプルに対して、周波数変換(MDCT)、量子化、ハフマン符号化が施される点は、ロングウィンドウと同様である。
聴覚的な変化点を含むPCMデータをロングウィンドウで符号化すると、量子化誤差のために、復号化時にノイズがのる。そこで、符号化前に聴覚的な変化点の有無を予めチェックし、該当する変化点が存在しているときにはショートウィンドウを用いる。
図14に、MPEG-2 AACにより符号化された音データを含む動画データを編集対象デジタルデータとする場合のシステム構成を示す。
窓形状取得部1401は、AV分離部101によって分離された符号化音データからフレーム毎の窓形状を取得する。この窓形状がショートウィンドウであれば、このフレーム内には聴覚的変化点が含まれることを意味する。フレーム内における聴覚的変化点の有無に関する情報は、解析データ蓄積部105に格納される。
変化点抽出部1402は、AV分離部101によって分離された符号化音データを復号化して周波数データを取得し、前述の方法により、この周波数データから変化点を抽出する。得られた変化点に関する情報は、解析データ蓄積部105に格納される。
パワー解析部1403は、AV分離部101によって分離された符号化音データからパワー情報を取り出し、そのパワー情報を解析データ蓄積部105に格納する。
その他の構成部は、変化点が存在するフレームについて、上述の場合と同様な処理を行う。
このように、シーン検出に必要な情報を符号化音データから直接取得することができるため、処理の軽減を図ることができる。また、他の符号化方式(例えば、MP3、Dolby AC3等)についても同様にして情報を取得することができる。
ところで、以上においては、音のパワースペクトラムから変化点を検出しているが、音の音圧レベルから変化点を抽出してもよい。具体的には、原音の音圧レベルと、一定期間内における平均音圧レベルとの差分を検出し、この差分が所定の閾値を超えた点を変化点として抽出する。さらに詳細に説明する。
図16(a)に、無音状態から音楽が始まり、その後、再度無音状態となったときの音圧レベルの時間変化及び平均音圧レベルと音圧レベルとの差分の時間変化を示す。ここで用いた音圧レベルは、音圧(PCMデータ値)を人間の感覚に近いスケールで表したものである。一般に、音圧が2倍になっても、人間は音量が2倍になったとは感じない。人間の知覚する音量は音圧の対数比に比例することが知られている。音圧レベルは、この音量を示し、数式2によって求められる。
pwl=20.0×log10(X*0.00002) (2)
ここで、XはPCMデータ値、pwlは音圧レベル(dB)を示す。
pwl=20.0×log10(X*0.00002) (2)
ここで、XはPCMデータ値、pwlは音圧レベル(dB)を示す。
一般に、16ビットのPCMデータは、−96dBから0dBまでの96dBのダイナミックレンジを有する。
また、一定期間widthの平均音圧レベルは、数式(3)により求められる。
ave_pwl=20.0×log10(sqrt((ΣX[i]*X[i])/width)*0.00002) (3)
for i=0 to (width-1)
ここで、X[i]は、時系列に並ぶPCMデータの配列、ave_pwlは、平均音圧レベルを表す。
ave_pwl=20.0×log10(sqrt((ΣX[i]*X[i])/width)*0.00002) (3)
for i=0 to (width-1)
ここで、X[i]は、時系列に並ぶPCMデータの配列、ave_pwlは、平均音圧レベルを表す。
図16(a)において、1701は、原音の音圧レベル、1702は、原音の前後一定幅の平均音圧レベルである。前後一定幅とは、例えば前後0.5秒ずつ、計1秒間の幅とすることができる。さらに、原音の音圧レベル1701から平均音圧レベル1702を引くことにより得られる差分1703に対して2種類の閾値TH1,−TH1を設定する。これらの閾値を差分1703が超えた点を変化点として検出する。ここで、TH1には、例えば5dBが設定される。また、TH1に例えば5dB及び8dBを設定しておき、差分が8dBを超えた点を、より大きな変化点として検出するようにしてもよい。
一般に音楽シーンでは、音楽の音圧レベルの上下が少ないため、抽出される変化点の数は少ない。突発的に音が大きくなることがあっても、その後の変化が少ないため、抽出される箇所が少ない傾向にある。
図16(b)に、無音と会話とが繰り返す会話シーンの音圧レベルを示す。図16(b)において、1706は、会話シーンの音圧レベル、1707は、前後一定幅における平均音圧レベルである。1708は、音圧レベル1706と平均音圧レベル1707との差分である。会話シーンにおいては、人の声の音圧レベルが激しく変化する傾向にあるため、会話中、差分1708が閾値TH1を超えることが多い。この差分1708が閾値TH1を越えた点を変化点として抽出することができる。音楽シーン中に会話が入った場合も、同様に、音圧レベルが激しく変動する傾向にある。
101…AV分離部、102,108…Audio復号化部、103…パワー計測部、104…変化点抽出部、105…解析データ蓄積部、106…音楽会話シーン判別部、107…シーンインデックス格納部、109…Video復号化部、110…動画像編集部、111…Audio符号化部、112…Video符号化部、113…AV多重化部、301…動画像データ作成装置、302…ネットワーク、303…TVアンテナ、304…スピーカ、305…モニタ、306…動画像送受信装置、307…ネットワークI/F部、308…データ蓄積部、309…メモリ、310…入力装置、311…動画像復号化部、312…動画像符号化部、313…CPU、314…音出力部、315…表示部、316…チューナー
Claims (8)
- 音データを含む動画像データを編集する動画像データ編集装置であって、
前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別し、当該判別結果に基づき、当該各シーンのシーン種別と、前記動画像データが表す動画像における当該各シーンの期間を表す時間情報を含むインデックス情報を生成する演算処理手段と、
前記インデックス情報に対する編集を受け付ける入力受付け手段と、
を有し、
前記編集受け付け手段が前記編集操作を受け付けた場合に、前記演算処理手段は、前記編集操作に応じて前記インデックス情報を更新することを特徴とする動画像データ編集装置。 - 請求項1の動画像データ編集装置であって、
前記音データは、符号化された音データであり、
前記演算処理手段は、前記音データの各フレームの符号化に用いられた窓関数の形状に基づき、前記音データのフレームごとに前記変化点の有無を判定することを特徴とする動画像データ編集装置。 - 請求項1記載の動画像データ編集装置であって、
前記演算処理手段は、前記変化点を含まない所定の時間以上の区間が前記音データに含まれている場合には、前記動画像データが表す動画像の、当該区間に対応するシーンのシーン種別を無音シーンとすることを特徴とする動画像データ編集装置。 - 請求項3記載の動画像データ編集装置であって、
前記動画像データにおいて、無音シーンと、会話及び音楽の少なくとも一方を含む15秒以内の有音シーンとが交互に所定の回数以上繰り返される場合には、当該無音シーン及び当該有音シーンのシーン種別及び時間情報を前記インデックス情報から削除することを特徴とする動画像データ編集装置。 - 請求項1記載の動画像データ編集装置であって、
前記演算処理手段は、前記変化点の発生頻度が1回/秒以下のシーンを音楽シーン、前記変化点の発生頻度が2回/秒以上のシーンを会話シーンと判断することを特徴とする動画像データ編集装置。 - 音データを含む動画像データの編集処理を動画像データ編集装置に実行させるプログラムであって、
前記動画像編集装置は、演算処理手段と入力受付手段と記憶手段とを有し、
当該プログラムは、
前記演算処理手段が、前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別する処理と、
前記演算処理手段が、前記各シーンのシーン種別及び前記動画像データが表す動画像における当該各シーンの期間を表す時間情報を含むインデックス情報を生成し、当該インデックス情報を前記記憶手段に格納する処理と、
前記インデックス情報に対する編集操作を前記入力受付け手段が受け付けと、前記演算処理手段が、前記入力受付け手段が受け付けた編集操作に基づき前記記憶手段内の前記インデックス情報を更新する処理と、
を含むことを特徴とするプログラム。 - 請求項6のプログラムであって、
前記演算処理手段は、前記変化点の発生頻度が1回/秒以下のシーンを音楽シーン、前記変化点の発生頻度が2回/秒以上のシーンを会話シーンと判断することを特徴とするプログラム。 - 音データを含む動画像データを動画像データ編集装置で編集する動画像データ編集方法であって、
前記動画像編集装置は、演算処理手段と入力受付手段と記憶手段とを有し、
当該動画像データ編集方法は、
前記演算処理手段が、前記音データのパワー及び音圧のいずれか一方を表す特性情報と、前記音データが表す音の変化点とを算出し、当該変化点と当該特性情報とに基づき、前記音データに対応する、前記動画像データが表す各シーンが、それぞれ、会話シーン及び音楽シーンのいずれのシーン種別であるかを判別する処理と、
前記演算処理手段が、前記各シーンのシーン種別及び前記動画像データが表す動画像における当該各シーンの期間を表す時間情報を含むインデックス情報を生成し、当該インデックス情報を前記記憶手段に格納する処理と、
前記インデックス情報に対する編集操作を前記入力受付け手段が受け付けると、前記演算処理手段が、前記入力受付け手段が受け付けた編集操作に基づき前記記憶手段内の前記インデックス情報を更新する処理と、
を備えることを特徴とする動画像データ編集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004225280A JP2006050045A (ja) | 2004-08-02 | 2004-08-02 | 動画像データ編集装置及び動画像データ編集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004225280A JP2006050045A (ja) | 2004-08-02 | 2004-08-02 | 動画像データ編集装置及び動画像データ編集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006050045A true JP2006050045A (ja) | 2006-02-16 |
Family
ID=36028128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004225280A Pending JP2006050045A (ja) | 2004-08-02 | 2004-08-02 | 動画像データ編集装置及び動画像データ編集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006050045A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272975A (ja) * | 2006-03-30 | 2007-10-18 | Toshiba Corp | オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム |
JP2010169878A (ja) * | 2009-01-22 | 2010-08-05 | Victor Co Of Japan Ltd | 音響信号分析装置および音響信号分析方法 |
JP2010210815A (ja) * | 2009-03-09 | 2010-09-24 | Yawata Electric Industrial Co Ltd | 音声信号調整装置及びその調整方法 |
JP2011066546A (ja) * | 2009-09-15 | 2011-03-31 | Tokyo Kogei Univ | コマ割り画像生成装置及びプログラム |
JP2012209958A (ja) * | 2012-06-08 | 2012-10-25 | Mitsubishi Electric Corp | 映像音声記録装置及び映像音声記録方法 |
US8737807B2 (en) | 2010-12-28 | 2014-05-27 | Olympus Imaging Corp. | Reproduction apparatus and image-capturing apparatus |
JP7502221B2 (ja) | 2021-03-05 | 2024-06-18 | 株式会社日立国際電気 | 映像編集送出システム |
-
2004
- 2004-08-02 JP JP2004225280A patent/JP2006050045A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272975A (ja) * | 2006-03-30 | 2007-10-18 | Toshiba Corp | オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム |
JP2010169878A (ja) * | 2009-01-22 | 2010-08-05 | Victor Co Of Japan Ltd | 音響信号分析装置および音響信号分析方法 |
JP2010210815A (ja) * | 2009-03-09 | 2010-09-24 | Yawata Electric Industrial Co Ltd | 音声信号調整装置及びその調整方法 |
JP2011066546A (ja) * | 2009-09-15 | 2011-03-31 | Tokyo Kogei Univ | コマ割り画像生成装置及びプログラム |
US8737807B2 (en) | 2010-12-28 | 2014-05-27 | Olympus Imaging Corp. | Reproduction apparatus and image-capturing apparatus |
JP2012209958A (ja) * | 2012-06-08 | 2012-10-25 | Mitsubishi Electric Corp | 映像音声記録装置及び映像音声記録方法 |
JP7502221B2 (ja) | 2021-03-05 | 2024-06-18 | 株式会社日立国際電気 | 映像編集送出システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7627471B2 (en) | Providing translations encoded within embedded digital information | |
US8139165B2 (en) | Television receiver | |
US7418393B2 (en) | Data reproduction device, method thereof and storage medium | |
KR101061129B1 (ko) | 오디오 신호의 처리 방법 및 이의 장치 | |
KR101958664B1 (ko) | 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법 | |
CN108307250B (zh) | 一种生成视频摘要的方法及装置 | |
EP1924092A1 (en) | Content replay apparatus, content reproducing apparatus, content replay method, content reproducing method, program and recording medium | |
JP2006195385A (ja) | 音楽再生装置および音楽再生プログラム | |
US20160065160A1 (en) | Terminal device and audio signal output method thereof | |
US9153241B2 (en) | Signal processing apparatus | |
JP3840928B2 (ja) | 信号処理装置および方法、記録媒体、並びにプログラム | |
JP2006050045A (ja) | 動画像データ編集装置及び動画像データ編集方法 | |
JP4712812B2 (ja) | 記録再生装置 | |
JP3607450B2 (ja) | オーディオ情報分類装置 | |
US20220059102A1 (en) | Methods, Apparatus and Systems for Dual-Ended Media Intelligence | |
KR102431737B1 (ko) | 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치 | |
JP2009284212A (ja) | デジタル音声信号解析方法、その装置、及び映像音声記録装置 | |
JP2004334160A (ja) | 特徴量抽出装置 | |
JP3925466B2 (ja) | ストリームデータ編集方法及びその装置 | |
JP3803302B2 (ja) | 映像要約装置 | |
US20050132397A1 (en) | Method for graphically displaying audio frequency component in digital broadcast receiver | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
JP2002297200A (ja) | 話速変換装置 | |
JP2005003912A (ja) | オーディオ信号符号化装置、オーディオ信号符号化方法及びプログラム | |
JP2000092435A (ja) | 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090623 |