JP2009103945A - 映像コンテンツ処理装置およびプログラム - Google Patents

映像コンテンツ処理装置およびプログラム Download PDF

Info

Publication number
JP2009103945A
JP2009103945A JP2007275937A JP2007275937A JP2009103945A JP 2009103945 A JP2009103945 A JP 2009103945A JP 2007275937 A JP2007275937 A JP 2007275937A JP 2007275937 A JP2007275937 A JP 2007275937A JP 2009103945 A JP2009103945 A JP 2009103945A
Authority
JP
Japan
Prior art keywords
video content
feature amount
type
processing apparatus
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007275937A
Other languages
English (en)
Inventor
Takashi Watanabe
剛史 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Electronics Corp
Original Assignee
NEC Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Electronics Corp filed Critical NEC Electronics Corp
Priority to JP2007275937A priority Critical patent/JP2009103945A/ja
Publication of JP2009103945A publication Critical patent/JP2009103945A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】映像コンテンツを正確かつ効率良く分類する。
【解決手段】サーバ110における特徴量抽出部130は、アップロードされた映像コンテンツに含まれる音声データの特徴量を抽出する。分類処理部140は、アップロードされた映像コンテンツを分類してコンテンツ記憶部170に蓄積するサービスと、蓄積された映像コンテンツの検索サービスを提供する。分類処理部140は、蓄積および検索の際に、特徴量抽出部130が抽出した特徴量を、該映像コンテンツの種類を判定する指標として利用する。
【選択図】図6

Description

本発明は、映像コンテンツ処理技術、具体的には、映像コンテンツを分類する技術に関する。
インターネットの普及および通信網の高速化に伴い、個人ユーザでさえ映像コンテンツをインターネット上のサーバにアップロードすることが容易になっている。そのため、インターネット上には夥しい量の映像コンテンツが蓄積されており、これらの映像コンテンツは、またユーザにより視聴されたりするなど盛んに利用されている。
通常、目的の映像コンテンツにたどり着くために、ユーザは検索操作を行う。検索エンジンに対して、ユーザの検索操作に応じて目的の映像コンテンツを正確にかつ漏れなく選出できることが要求されている。
検索の技術については、従来キーワードによる手法が用いられている。この手法は、元々テキストコンテンツ用のものであり、映像コンテンツの検索に適用するためには、たとえば、映像コンテンツのサムネイルに該映像コンテンツの種類を示すテキスト情報を書込み、検索の際には、ユーザが入力したキーワードと、サムネイルに書き込まれたテキスト情報とを比較し、キーワードと一致するテキスト情報を有する映像コンテンツを目的映像コンテンツとして抽出する。
また、近年、画像解析技術の向上により、キーワードが示す種類の画像を検索可能にした手法も開発されている。この手法によれば、たとえば、「花」というキーワードに対して、画像解析の結果により花であると判定された画像を検索結果として得るようになっている。
特開2002−91481号公報 特開2001−215982号公報 特表2006−501502号公報 特開2005−250472号公報
映像コンテンツのサムネイルに該映像コンテンツの種類を示すテキスト情報を書き込む手法は、2種類が考えられる。1つは、サーバ側において、管理者がアップロードされた映像コンテンツを視聴してその種類を判断し、判断結果に応じてテキスト情報をサムネイルに書き込む手法である。この手法は、管理者による手作業が必要であり、夥しい量の映像コンテンツがアップロードされる現状においては、不現実である。
もう1つは、映像コンテンツの種類を予め規定しておき、映像コンテンツをアップロードするユーザに種類の指定をさせ、ユーザが指定した種類に対応するテキスト情報を当該映像コンテンツのサムネイルに書き込んで格納する手法である。この手法は、ユーザによる指定が必要であり、効率が良くない。また、ユーザの指定が必ずしも正しいとは限らないため、後に検索の際に、不正確な検索結果または検索漏れが生じやすいという問題がある。
また、映像コンテンツに含まれる画像が通常動画像であるので、画像解析により映像コンテンツの種類を特定することは困難である。
本発明の一つの態様は、映像コンテンツ処理装置である。この装置は、映像コンテンツに含まれる音声データの特徴量を取得する特徴量取得部と、該特徴量取得部が取得した特徴量を、映像コンテンツの種類を判定する指標として利用する分類処理部を備える。
なお、上記態様を方法やシステム、またはコンピュータを上記装置として動作せしめるプログラムに置き換えて表現したものも、本発明の態様としては有効である。
本発明にかかる技術によれば、映像コンテンツを正確かつ効率良く分類することができる。
本発明の実施の形態を説明する前に、まず、本発明の原理について説明する。
映像コンテンツは、通常、動画像データと音声データから構成される。本願発明者は、研究模索した結果、映像コンテンツの種類によって、それに含まれる音声データにより示される音声が異なる特徴を呈することを知見した。図1〜図3を参照して説明する。
図1は、映像コンテンツに含まれる音声データが示す音声の例を示す。このような音声に対して、主要周波数帯域、主要周波数帯域のパワースペクトルと全周波数帯域のパワースペクトルの総和との比、最大音量、平均音量、平均音量と最大音量の比、低音量区間密度を求めることができる。
最大音量は、映像コンテンツに含まれる音声データの全サンプルのレベル値の中の最大値である。
低音量区間は、映像コンテンツの全区間に亘り、音量が小さい区間例えばレベルの絶対値が所定の閾値以下である区間の総長であり、低音量区間密度は、低音量区間が全区間に占める割合である。
平均音量は、映像コンテンツの全区間に亘って、低音量区間を除いた区間の音量の平均値である。
以下の説明において、上述した主要周波数帯域、主要周波数帯域のパワースペクトルと全周波数帯域のパワースペクトルの総和との比、最大音量、平均音量、平均音量と最大音量の比、低音量区間密度を特徴量という。
図2は、複数の種類の映像コンテンツに対して上記6種類の特徴量を求めた結果を示す。映像コンテンツの種類として、「News」、「Vocal」、「Piano」、「Classic」、「CM」は、それぞれ、「テレビで放送されたニュース」、「ボーカル」、「ピアノのソロ演奏」、「オーケストラによるクラシック音楽演奏」、「テレビで放送されたコマーシャル」の映像を示し、「Vocal」のうち、「F−Vocal」と「M−Vocal」は「女性ボーカル」と「男性ボーカル」の映像をそれぞれ示す。また、上記各種類の映像コンテンツと比較するための「Tone」と「Noise」は、それぞれ単調な正弦波とノイズを示す。
図2に示す結果から、それぞれの種類の映像コンテンツの音声の傾向を見出すことができる。図3に示すように、それぞれの種類の映像コンテンツは、上述した各特徴量のうちの1つまたは複数について、所定の範囲内の値をとるなどの傾向を有する。
本願発明者は、映像コンテンツの音声データの特徴量と映像コンテンツの種類とが関係することを知見し、映像コンテンツの音声データの特徴量を、映像コンテンツの種類を判定する指標として用いる技術を想到した。特徴量としては、上述した主要周波数帯域、「主要周波数帯域のパワースペクトル/全周波数帯域のパワースペクトル」により代表される周波数特徴量と、最大音量、「平均音量/最大音量」により代表される音量特徴量と、低音量区間密度の3種類の特徴量のうちの2つ以上が用いられる。
この技術は、様々な適用形態が考えられる。
例えば、映像コンテンツの記録や保存に際して、映像コンテンツの音声データの上述した特徴量を抽出し、抽出した特徴量に基づいて映像コンテンツの種類を判定する。そして、判定した種類を示すテキスト情報を映像コンテンツのサムネイルなどの付属情報に格納する。こうすることによって、映像コンテンツの種類の指定や、映像コンテンツを視聴してその種類を示すテキスト情報を入力するなどの作業を介さずに、映像コンテンツの種類情報を映像コンテンツに付属させ、のちのキーワードによる検索などに供することができる。
また、キーワードによる検索のみならず、所定の映像コンテンツ例えばユーザが指定したコンテンツと相似する映像コンテンツを検索する場合にも本発明の技術を適用することができる。この場合、たとえば、映像コンテンツの記録や保存に際して、その音声データの上述した特徴量を抽出した、抽出した特徴量そのものを付属情報に格納する。所定の映像コンテンツと相似する映像コンテンツの検索に際しては、該所定の映像コンテンツの特徴量を抽出して、保存中の映像コンテンツの特徴量と比較することによって、目的の映像コンテンツを選出してもよい。
勿論、本発明にかかる技術は、上述した2つの例に限らず、映像コンテンツの分類を必要とするいかなる場合にも適用することができ、また、いずれかの場合に適用した場合にも、映像コンテンツの分類を正確かつ効率良く行うことを実現できる。
音声データの特徴量を抽出して利用する技術は従来様々な視点から提案されているが(特許文献1〜特許文献4)、これらの技術は、音声データの特徴量を、該音声データを含む映像コンテンツの種類を判定する指標として用いる発想が無く、抽出する特徴量の性質も異なる。たとえば、特許文献1に開示された技術は、標準音声と入力音声から特徴量を抽出して、抽出した特徴量に基づいて入力音声と標準音声の類似度を算出して音声認識を行う技術を開示している。この技術は、例えば「ga」という人間の発声を入力音声から検出するために、予め「ga」の標準音声から特徴量(基準特徴量)を抽出しておく。そして、入力音声に各局部の特徴量をそれぞれ抽出して、特徴量が基準特徴量と類似する局部の有無を探す。すなわち、この技術は、音声の局部の具体的な内容を特定するものであり、特徴量も音声の局部の特徴を表すものである。
それに対して、本発明にかかる技術は、局部が具体的にどんな内容であるかとは関係なく、音声データ全体の特徴を表しうるものを特徴量として抽出して音声データ全体の特徴を捉えている。図4を参照して説明する。図中基準音声は、テレビ放送されたニュースの音声であり、比較対象音声1は、テレビ放送された別のニュースの音声であり、比較対象音声2は、音楽会の音声である。本発明の技術によれば、比較対象音声1と基準音声について、局部的に見た場合に相似するか否かとは関係なく、比較対象音声1が基準音声と似た特徴を有すると判定され、それらをそれぞれ含む映像コンテンツも似た種類のものであると判定される。また、比較対象音声2と基準音声についても、局部的に見た場合に相似するか否かとは関係なく、本発明の技術によれば、比較対象音声1が基準音声と波異なった特徴を有すると判定され、それらをそれぞれ含む映像コンテンツも異なった種類のものであると判定される。
以上の説明を踏まえて、本発明の実施の形態を説明する。
図5は、本発明の実施の形態となるネットワークシステム100を示す。ネットワークシステム100は、サーバ110、ネットワーク例えばインターネット180を介してサーバ110と接続可能な複数の端末190を備える。
図6は、サーバ110の構成を示す。本実施の形態において、サーバ110は、任意の端末190からアップロードされる映像コンテンツの蓄積サービス、および蓄積された映像コンテンツの検索サービスを提供する。図6に示すように、サーバ110は、ユーザインタフェース120、特徴量抽出部130、分類処理部140、再生部150、基準データ記憶部160、コンテンツ記憶部170を備える。
ユーザインタフェース120は、端末190とサーバ110のインタフェースであり、端末190とサーバ110間の送受信の仲介を行う。また、ユーザインタフェース120は、端末190が利用できるサービスメニューの表示も行う。本実施の形態において、ユーザインタフェース120は、メインメニューとして、下記の3つを表示する。
1.映像コンテンツのアップロード
2.映像コンテンツの検索
3.サムネイル表示
ユーザインタフェース120は、端末190によりメインメニュー中の「映像コンテンツのアップロード」が選択された際に、該端末190からアップロードされた映像コンテンツを受信して特徴量抽出部130に出力する。
また、ユーザインタフェース120は、端末190によりメインメニュー中の「映像コンテンツの検索」が選択された際に、サブメニューとして映像コンテンツの種類の一覧を表示すると共に、種類を選択するように端末190に対して指示する。そして、ユーザインタフェース120は、端末190を介してユーザが選択した種類を示す情報を分類処理部140に出力することによりユーザが選択した種類に基づく検索を行わせる。
端末190によりメインメニュー中の「サムネイル表示」が選択された際に、ユーザインタフェース120は、コンテンツ記憶部170に記憶された全ての映像コンテンツのサムネイルの表示を再生部150に指示する。
また、この指示に応じて再生部150が表示したサムネイルのうちのいずれかが選択された際に、ユーザインタフェース120は、選択されたサムネイルに対応する映像コンテンツの再生を再生部150に指示する。
さらに、この指示に応じて再生部150が当該映像コンテンツを再生した際に、ユーザインタフェース120は、サブメニューとして「関連コンテンツの検索」を表示すると共に、端末190によりこのサブメニューが選択された際に、再生された映像コンテンツの関連コンテンツの検索を分類処理部140に指示する。
すなわち、本実施の形態において、サーバ110は、検索サービスについて、ユーザが指摘した種類の映像コンテンツの検索と、ユーザが指定した映像コンテンツの関連コンテンツの検索の2種類を提供する。
特徴量抽出部130は、ユーザインタフェース120を介して端末190から映像コンテンツがアップロードされたときに、該映像コンテンツの音声データから、特徴量を抽出して分類処理部140に出力する。ここで、特徴量抽出部130は、周波数特徴量として主要周波数帯域と「主要周波数帯域のパワースペクトル/全周波数帯域のパワースペクトルの総和」を抽出し、音量特徴量として、最大音量と、平均音量と、「平均音量/最大音量」とを抽出すると共に、低音量区間密度も抽出する。すなわち、本実施の形態において、6種類の特徴量が用いられる。
ここで図3のフローチャートを参照して、主要周波数帯域の抽出手法の一例を説明する。主要周波数帯域は、映像コンテンツに含まれる音声の各周波数帯域のうちの、パワースペクトルが最も強い周波数帯域とすることができる。特徴量抽出部130は、この周波数帯域を取得するために、まず、音声データを複数(divNum)のフレームに分割する。1フレームは、離散フーリエ変換の処理単位であり、フレーム長は、1フレームにおけるサンプル数である。
特徴量抽出部130は、1つ目のフレーム(S12、S14:No)に対して、離散フーリエ変換を行い、該フレームについて、各周波数帯域におけるパワースペクトルresultを得る(S16)。その後、特徴量抽出部130は、ステップS16におけるフーリエ変換を各フレームに対して順次行うと共に、周波数帯域別にパワースペクトルを累積する(S14:No、S16、S18、S20)。特徴量抽出部130は、全フレームに対してフーリエ変換を行って、周波数帯域別のパワースペクトルの累積値accm(divNum)を得るまで(S14:Yes)上記処理を行う。
なお、ステップS16における離散フーリエ変換は、高速フーリエ変換FFTであり、その一例を下記の式(1)〜(3)により表わされることができる。
Figure 2009103945
特徴量抽出部130は、このようにして得た周波数帯域別のパワースペクトルの累積値accm(divNum)のうちの最大値に対応する周波数帯域を主要周波数帯域として取得する。
なお、「主要周波数帯域のパワースペクトル/全周波数帯域のパワースペクトルの総和」については、パワースペクトルの累積値accm(divNum)のうちの最大値と、各周波数帯域のパワースペクトルの累積値accm(divNum)の総和との比を求めればよい。
次に低音量密度の抽出手法の一例を説明する。図8のフローチャートに示すように、特徴量抽出部130は、音量すなわちレベル値が低音量判定閾値th以下のサンプルが、低音量区間検出閾値minThが示すサンプル数以上連続した区間を低音量区間とし、音声データにおける低音量区間のサンプル数の総和と、音声データの総サンプル数との比を低音量密度として求める。
特徴量抽出部130は、このようにして映像コンテンツの音声データから種々の特徴量を抽出して分類処理部140に出力する。
分類処理部140は、端末190から映像コンテンツがアップロードされた際に、該映像コンテンツの付属情報を生成して映像コンテンツと共にコンテンツ記憶部170に格納する処理と、ユーザインタフェース120から検索指示がなされた際に、検索指示に基づいてコンテンツ記憶部170から目的コンテンツを検索して再生部150にそれらのサムネイルを表示させる処理を行う。
まず、映像コンテンツがアップロードされた際の分類処理部140の処理を説明する。このとき、分類処理部140は、特徴量抽出部130からの特徴量と、基準データ記憶部160に記憶された基準データとを用いて、付属情報としての類似度を算出する。
基準データ記憶部160には、映像コンテンツの複数の種類について、基準となる映像コンテンツの特徴量をそれぞれ記憶している。例えば、ニュースについて、図2に示す「news」の各特徴量を記憶しており、女性ボーカリストBについて、図2に示す「F−vocal B1」および「F−vocal B2」のそれぞれの特徴量を記憶している。例として、図2に示す内容は、基準データとして、基準データ記憶部160に記憶されている。以下の説明において、基準データ記憶部160に記憶された各種類の映像コンテンツの特徴量を、その種類の映像コンテンツの「基準特徴量」という。
分類処理部140は、映像コンテンツの種類毎に、下記の式(4)に従って、特徴量抽出部130からの特徴量と、基準データ記憶部160に記憶された基準特徴量との類似度を特徴量の種類毎に求める。
Figure 2009103945
これにより、映像コンテンツの種類毎に、主要周波数帯域、主要周波数帯域のパワースペクトルと全周波数帯域のパワースペクトルの総和との比、最大音量、平均音量、平均音量と最大音量の比、主要周波数帯域、低音量区間密度についての6つの類似度が得られる。
そして、分類処理部140は、映像コンテンツの種類毎に、下記の式(5)に従って類似スコアを求める。
類似スコア=k1×主要周波数帯域類似度
+k2×「主要周波数帯域のパワースペクトル/
全周波数帯域のパワースペクトルの総和」類似度
+k3×最大音量類似度 (5)
+k4×平均音量類似度
+k5×「平均音量/最大音量」類似度
+k6×低音量区間密度
式中のkは、重付け係数であり、それらを調整することによって、求められた類似スコアが示す類似の程度をより精確に表すことができる。
図9は、アップロードされた映像コンテンツがボーカルである場合に、分類処理部140が求めた類似スコアの例を示す。図示のように、アップロードされた映像コンテンツの類似スコアは、比較対象の映像コンテンツと相似するほど低くなる。
また、図10は、アップロードされた映像コンテンツがクラシック音楽会である場合の類似スコアの例を示す。図10からも分かるように、アップロードされた映像コンテンツの類似スコアは、比較対象の映像コンテンツと相似するほど低くなる。
すなわち、分類処理部140が求めた類似スコアが低い種類ほど、アップロードされた映像コンテンツはその種類の映像コンテンツと相似する。
分類処理部140は、アップロードされた映像コンテンツの各特徴量と類似スコアを付属情報として、該映像コンテンツと共にコンテンツ記憶部170に格納する。
図11は、コンテンツ記憶部170における映像コンテンツの格納態様を示す。図11に示すように、コンテンツ記憶部170には、映像コンテンツ本体と、付属情報とを対応付けて記憶されており、付属情報は、主要周波数帯域、「主要周波数帯域のパワースペクトル/全周波数帯域のパワースペクトルの総和」、最大音量、平均音量、「平均音量/最大音量」、低音量区間密度の6つの特徴量と、「News」、「F−vocal A」、「F−vocal B1」など映像コンテンツの各種類についての類似スコアである。
次に、ユーザインタフェース120から検索指示がなされた際に、分類処理部140が行う処理を説明する。前述したように、本実施の形態において、サーバ110は、ユーザが指定した種類の映像コンテンツの検索と、ユーザが指定した映像コンテンツの関連コンテンツの検索の2種類の検索サービスを提供する。
分類処理部140は、ユーザが指定した種類の映像コンテンツの検索が指示された際に、コンテンツ記憶部170に格納された各映像コンテンツに対して、ユーザが指定した種類についての類似スコアをソーティングし、類似スコアが所定の閾値以下である映像コンテンツを選出する。このように選出された映像コンテンツは、類似スコアが閾値以下すなわちユーザが指定種類の映像コンテンツと閾値が示す程度以上に相似するものである。
分類処理部140は、選出した映像コンテンツのサムネイルを、類似スコアが低いものからの順に再生部150に再生させる。
一方、ユーザが指定した映像コンテンツの関連コンテンツの検索が指示された際に、分類処理部140は、指示された映像コンテンツの各特徴量を基準特徴として、コンテンツ記憶部170に記憶された他の映像コンテンツと該映像コンテンツの類似スコアを求める。類似スコアの求め方については、基準特徴量が異なる点を除き、アップロードされた映像コンテンツに対して類似スコアを求める手法と同じである。
図12は、コンテンツ記憶部170に記憶された各映像コンテンツのうちの「コンテンツ2」の関連コンテンツの検索が指示された際に、分類処理部140が求めた類似スコアの例を示す。図示のように、コンテンツ1、コンテンツ3、コンテンツ4など、コンテンツ2以外の他の映像コンテンツについて、コンテンツ2との類似スコアが求められる。
分類処理部140は、このようにして求められた類似スコアをソーティングし、類似スコアが所定の閾値以下である映像コンテンツを選出する。このように選出された映像コンテンツは、類似スコアが閾値以下すなわちユーザが指定映像コンテンツと閾値が示す程度以上に相似するものである。
分類処理部140は、選出した映像コンテンツのサムネイルを、類似スコアが低いものからの順に再生部150に再生させる。
このように、本実施の形態におけるサーバ110は、自動的に映像コンテンツを分類することができると共に、任意に指定された映像コンテンツの種類と類似する種類のコンテンツの検索も可能である。
以上、実施の形態をもとに本発明による技術を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、さまざまな変更、増減を加えてもよい。これらの変更、増減が加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば、上述した実施の形態において、5種の特徴量を用いたが、取り扱う映像コンテンツの種類に応じて特徴量の種類を増減してもよい。
また、上述した実施の形態は、本発明にかかる技術を検索のために適用したものであるが、本発明の技術は、映像コンテンツの種類の判定が必要な場合や、映像コンテンツの種類を判定するための情報を提供する場合などにも適用することができる。たとえば、映像コンテンツを記録する際に、上述した特徴量を抽出して映像コンテンツに付属して記録するように記録装置を構成してもよい。
映像コンテンツに含まれる音声データの例を示す図である。 各種映像コンテンツの特徴量の例を示す図である。 映像コンテンツの種類とその特徴量の関係を説明するための図である。 本発明にかかる技術による音声データの特徴の捉え方を説明するための図である。 本発明の実施の形態にかかるネットワークシステムを示す図である。 図5に示すネットワークシステムにおけるサーバを示す図である。 図6に示すサーバにおける特徴量抽出部が主要周波数帯域を求める手法の例を示すフローチャートである。 図6に示すサーバにおける特徴量抽出部が低音量区間密度を求める手法の例を示すフローチャートである。 図6に示すサーバにおける分類処理部が、アップロードされた映像コンテンツに対して、映像コンテンツの種類毎に求めた類似スコアの例を示す図である(その1)。 図6に示すサーバにおける分類処理部が、アップロードされた映像コンテンツに対して、映像コンテンツの種類毎に求めた類似スコアの例を示す図である(その2)。 図6に示すサーバにおけるコンテンツ記憶部における映像コンテンツの格納形態を示す図である。 図6に示すサーバにおける分類処理部が求めた、ユーザにより指定された映像コンテンツと、コンテンツ記憶部に格納された他の映像コンテンツとの類似スコアの例を示す図である。
符号の説明
100 ネットワークシステム
110 サーバ
120 ユーザインタフェース
130 特徴量抽出部
140 分類処理部
150 再生部
160 基準データ記憶部
170 コンテンツ記憶部
180 インターネット
190 端末

Claims (8)

  1. 映像コンテンツに含まれる音声データの特徴量を取得する特徴量取得部と、
    該特徴量取得部が取得した前記特徴量を、前記映像コンテンツの種類を判定する指標として利用する分類処理部とを備えた映像コンテンツ処理装置。
  2. 前記特徴量は、前記音声データが表す音声の周波数特徴量、音量特徴量、所定の音量以下の区間が前記音声の全区間に占める割合の3種類の特徴のうちの2つ以上を含むことを特徴とする請求項1に記載の映像コンテンツ処理装置。
  3. 前記周波数特徴量は、主要周波数帯域と、前記周波数帯域のパワースペクトルと全周波数帯域のパワースペクトルの総和との比を含むことを特徴とする請求項2に記載の映像コンテンツ処理装置。
  4. 前記音量特徴量は、最大音量と、平均音量と前記最大音量の比を含むことを特徴とする請求項2または3に記載の映像コンテンツ処理装置。
  5. 前記分類処理部は、第1の映像コンテンツに含まれる音声データと、第2の映像コンテンツに含まれる音声データとに対して前記特徴量取得部が取得したそれぞれの特徴量を用いて、前記第1の映像コンテンツの種類と前記第2の映像コンテンツの種類との類似程度を求めるものであることを特徴とする請求項1から4のいずれか1項に記載の映像コンテンツ処理装置。
  6. 前記分類処理部は、前記第1の映像コンテンツに含まれる音声データの複数種類の特徴量と、前記第2の映像コンテンツに含まれる音声データの前記複数種類の特徴量とを用いて、種類毎の特徴量の類似度を求め、各種類の特徴量の前記類似度を統合して前記第1の映像コンテンツの種類と前記第2の映像コンテンツの種類との類似程度を求めるものであることを特徴とする請求項5に記載の映像コンテンツ処理装置。
  7. 前記分類処理部は、前記各種類の特徴量の前記類似度を重み付け加算することによって統合することを特徴とする請求項6に記載の映像コンテンツ処理装置。
  8. 映像コンテンツに含まれる音声データの特徴量を取得し、
    取得した前記特徴量を、前記映像コンテンツの種類を判定する指標として利用する処理をコンピュータに実行せしめることを特徴とするプログラム。
JP2007275937A 2007-10-24 2007-10-24 映像コンテンツ処理装置およびプログラム Pending JP2009103945A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007275937A JP2009103945A (ja) 2007-10-24 2007-10-24 映像コンテンツ処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007275937A JP2009103945A (ja) 2007-10-24 2007-10-24 映像コンテンツ処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2009103945A true JP2009103945A (ja) 2009-05-14

Family

ID=40705679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007275937A Pending JP2009103945A (ja) 2007-10-24 2007-10-24 映像コンテンツ処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2009103945A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
JP2013541274A (ja) * 2010-09-08 2013-11-07 マイクロソフト コーポレーション コンテンツシグネチャリング

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013541274A (ja) * 2010-09-08 2013-11-07 マイクロソフト コーポレーション コンテンツシグネチャリング
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置

Similar Documents

Publication Publication Date Title
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
KR101578279B1 (ko) 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템
EP1081960B1 (en) Signal processing method and video/voice processing device
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US20170140260A1 (en) Content filtering with convolutional neural networks
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
WO2009119063A1 (ja) 番組情報表示装置および番組情報表示方法
WO2020155750A1 (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
KR101268987B1 (ko) 메타데이터를 자동적으로 생성/갱신하는 멀티미디어 데이터기록 방법 및 장치
CN111901626A (zh) 背景音频确定方法、视频剪辑方法、装置和计算机设备
US9606975B2 (en) Apparatus and method for automatically generating visual annotation based on visual language
JP6046393B2 (ja) 情報処理装置、情報処理システム、情報処理方法および記録媒体
JP5306114B2 (ja) クエリ抽出装置、クエリ抽出方法およびクエリ抽出プログラム
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
KR100896336B1 (ko) 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
CN115269889B (zh) 剪辑模板搜索方法及装置
JP2014153977A (ja) コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
CN109271501B (zh) 一种音频数据库的管理方法及***
JP4447602B2 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
JP2009103945A (ja) 映像コンテンツ処理装置およびプログラム
US9047916B2 (en) Recording medium, category creating apparatus, and category creating method
US20080055468A1 (en) Information processing apparatus, recording medium, and data signal
KR101369270B1 (ko) 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
JP5054608B2 (ja) コンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体