JP5254900B2 - 映像再構成方法、映像再構成装置および映像再構成プログラム - Google Patents
映像再構成方法、映像再構成装置および映像再構成プログラム Download PDFInfo
- Publication number
- JP5254900B2 JP5254900B2 JP2009177287A JP2009177287A JP5254900B2 JP 5254900 B2 JP5254900 B2 JP 5254900B2 JP 2009177287 A JP2009177287 A JP 2009177287A JP 2009177287 A JP2009177287 A JP 2009177287A JP 5254900 B2 JP5254900 B2 JP 5254900B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- video
- segment
- impact
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Image Analysis (AREA)
Description
・時間順序を並び替える
・別の映像(シーン)を挿入する
具体的には、編集して、一部を切りだして要約したり、予告篇を作成したり、さらには、別の映像、例えばCMを挿入したりするといった場合がこれにあたる。
・セグメントの削除
・セグメントの結合
・セグメントの時間順序交換
の3つの操作を施すことによって得られる、すべての再構成映像の集合の中から、最も印象的インパクトが大きい再構成映像を1つ選び、それを出力する。図3の例では、5 つのセグメントy1 、y2 、・・・、y5 を選び、それらをつなぎ合わせたものを出力する例を示している。
ステップS102では、画像・音の情報から、特徴量を抽出する。特徴量は、画像から抽出するものと、音から抽出するものがある。いずれも、例えば、50msなどの微小な区間から抽出することを想定しており、例えば、画像特徴の場合は、当該区間に含まれる画像フレームから抽出し、音特徴の場合は、当該区間の音声信号から抽出する。
カット特徴としては、このような方法によって得られたカット点の有無を用いるものとしてもよいし、あるいは、カットの頻度を用いるものとしてもよい。頻度の取り方としては、例えば、単位時間区間あたりのカット回数としてもよいし、隣り合うカット点までの時間などとして表現してもよい。
参考文献3:H. Bay, T. Tuytelaars, and L.V. Gool, "SURF: Speeded Up Robust F eatures," Lecture Notes in Computer Science, vol. 3951, pp.404-4 17, 2006.
また、オブジェクト特徴として、特定の物体に焦点を当て、検出するといった方法を用いることも考えられる。例えば、顔の出現やその表情を得るといったアプローチが代表的である。顔を検出する方法としては、例えば、下記の参考文献4に記載される方法などを用いればよい。さらに表情も認識する場合には、下記の参考文献5に記載される方法などを用いればよい。
参考文献5:I. Cohen, N. Sebe, A. Garg, L.S. Chen, and T.S. Huang, "Facial E xpression Recognition from Video Sequences: Temporal and Static Modeling," Computer Vision and Image Understanding, vol.91, issu es 1-2, pp.160-187, 2003.
画像イベント特徴とは、映像中に生起する事象のことである。例えば、急激なカメラワークや、テロップの出現などがある。例えば、急激なカメラワークを用いる場合は、上記の参考文献1に記載される方法などを用いることによって検出することができる。また、テロップを用いる場合は、下記の参考文献6に記載される方法などを用いることによって検出することができる。
一方、音情報から抽出する特徴量としては、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴などがある。
音量特徴としては、音声波形データの振幅値を用いるものとしてもよいし、短時間パワースペクトルを求め、任意の帯域の平均パワーを計算して用いるものとしてもよい。
発話特徴、音楽特徴は、それぞれ、発話の有無、音楽の有無を表す。発話・音楽の存在する区間を発見するには、例えば、下記の参考文献9に記載される方法などを用いればよい。
音イベント情報としては、例えば、笑い声や大声などの感情的な音声、あるいは、銃声や爆発音などの環境音の生起などを用いるものとすればよい。このような音イベントを検出するには、例えば、下記の参考文献10(特許文献)に記載される方法などを用いればよい。
〔2〕ステップS103/ステップS104/ステップS105の詳細処理
ステップS103では、ステップS102で得た特徴量、あるいはその一部に基づいて、セグメント分割を行う。
しかしながら、これらの方法では、各セグメントが細かく分割されすぎる傾向があるという問題点がある。そこで、さらにもう少し意味レベルの高い、ストーリーや文脈情報を考慮したセグメント分割を実施し、適当な数のセグメントを得ることが好ましい。
参考文献13:D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent Dirichlet Allocat ion," The Journal of Machine Learning Research, vol.3, pp.993- 1022, 2003.
これらのモデルはいずれも、ヒストグラムhs と、その背後にあるトピックts の同時確率p(hs ,ts )として表現される。このモデルに従い、セグメントxs のヒストグラムhs が与えられたときに、その背後にあるトピックts は、下記の式(1)によって計算することができる。
ステップS105までの処理の結果、入力された元映像は、いくつかのセグメントとして表現されている。また、ステップS105の処理によって、各セグメントには、その背後にあるトピック確率値のベクトルが付与されている。
f1 (xs )=p(es |ts )
と定義する。
f1 (xs )=p(es |ts )
とするのではなくて、
f1 (xs ,es-1 )=p(es |es-1 ,ts )
とするものとしてもよい。
100 映像入力手段
101 映像記憶手段
102 フレーム特徴量抽出手段
103 フレーム特徴量記憶手段
104 セグメント分割手段
105 セグメント情報記憶手段
106 ヒストグラム生成手段
107 ヒストグラム記憶手段
108 学習用映像記憶手段
109 学習用ヒストグラム生成手段
110 学習用ヒストグラム記憶手段
111 トピック数設定手段
112 学習用ヒストグラム分類手段
113 特徴量グループ情報記憶手段
114 インパクト度設定手段
115 トピック推定手段
116 映像再構成手段
117 再構成映像出力手段
Claims (9)
- 処理対象の映像を再構成する映像再構成方法であって、
処理対象の映像の持つ画像情報および/または音情報から、フレーム毎に、特徴量ベクトルを抽出する過程と、
前記抽出した特徴量ベクトルに基づいて、処理対象の映像を1つ以上のセグメントに分割する過程と、
前記抽出した特徴量ベクトルをベクトル量子化して有限個の符号に変換したのち、セグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成する過程と、
セグメント毎に、前記生成したヒストグラムに基づいて、複数の特徴量グループへの帰属度合いを示す確率値ベクトルを算出する過程と、
セグメント毎に、前記算出した確率値ベクトルに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて最適な再構成映像を決定する過程とを備えることを、
特徴とする映像再構成方法。 - 請求項1に記載の映像再構成方法において、
前記決定する過程は、
各々のセグメントが視聴者に与える印象的インパクトの推定値をセグメント内インパクトとして算出する過程と、
セグメント間の遷移によって視聴者に与える印象的インパクトの推定値をセグメント間インパクトとして算出する過程と、
前記セグメント内インパクトと前記セグメント間インパクトとの加重和を評価関数として、より大きな評価値を示すセグメントに基づいて最適な再構成映像を決定する過程とを備えることを、
特徴とする映像再構成方法。 - 請求項1または2に記載の映像再構成方法において、
前記分割する過程では、まず、前記抽出した特徴量ベクトルに基づいて、処理対象の映像を仮にセグメントに分割し、続いて、この仮に分割したセグメントについて得られる前記確率値ベクトルに基づいて、この仮に分割したセグメントをまとめることで、処理対象の映像を最終的にセグメントに分割することを、
特徴とする映像再構成方法。 - 請求項1ないし3のいずれか1項に記載の映像再構成方法において、
前記抽出する過程では、処理対象の映像の持つ画像情報、音情報から、フレーム毎に、明るさ特徴、色特徴、動き特徴、テクスチャ特徴、カット特徴、オブジェクト特徴、画像イベント特徴、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴のうち少なくとも1つを特徴量ベクトルとして抽出することを、
特徴とする映像再構成方法。 - 処理対象の映像を再構成する映像再構成装置であって、
処理対象の映像の持つ画像情報および/または音情報から、フレーム毎に、特徴量ベクトルを抽出する手段と、
前記抽出した特徴量ベクトルに基づいて、処理対象の映像を1つ以上のセグメントに分割する手段と、
前記抽出した特徴量ベクトルをベクトル量子化して有限個の符号に変換したのち、セグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成する手段と、
セグメント毎に、前記生成したヒストグラムに基づいて、複数の特徴量グループへの帰属度合いを示す確率値ベクトルを算出する手段と、
セグメント毎に、前記算出した確率値ベクトルに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて最適な再構成映像を決定する手段とを備えることを、
特徴とする映像再構成装置。 - 請求項5に記載の映像再構成装置において、
前記決定する手段は、
各々のセグメントが視聴者に与える印象的インパクトの推定値をセグメント内インパクトとして算出する手段と、
セグメント間の遷移によって視聴者に与える印象的インパクトの推定値をセグメント間インパクトとして算出する手段と、
前記セグメント内インパクトと前記セグメント間インパクトとの加重和を評価関数として、より大きな評価値を示すセグメントに基づいて最適な再構成映像を決定する手段とを備えることを、
特徴とする映像再構成装置。 - 請求項5または6に記載の映像再構成装置において、
前記分割する手段は、まず、前記抽出した特徴量ベクトルに基づいて、処理対象の映像を仮にセグメントに分割し、続いて、この仮に分割したセグメントについて得られる前記確率値ベクトルに基づいて、この仮に分割したセグメントをまとめることで、処理対象の映像を最終的にセグメントに分割することを、
特徴とする映像再構成装置。 - 請求項5ないし7のいずれか1項に記載の映像再構成装置において、
前記抽出する手段は、処理対象の映像の持つ画像情報、音情報から、フレーム毎に、明るさ特徴、色特徴、動き特徴、テクスチャ特徴、カット特徴、オブジェクト特徴、画像イベント特徴、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴のうち少なくとも1つを特徴量ベクトルとして抽出することを、
特徴とする映像再構成装置。 - 請求項1ないし4のいずれか1項に記載の映像再構成方法をコンピュータに実行させるための映像再構成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177287A JP5254900B2 (ja) | 2009-07-30 | 2009-07-30 | 映像再構成方法、映像再構成装置および映像再構成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177287A JP5254900B2 (ja) | 2009-07-30 | 2009-07-30 | 映像再構成方法、映像再構成装置および映像再構成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011035489A JP2011035489A (ja) | 2011-02-17 |
JP5254900B2 true JP5254900B2 (ja) | 2013-08-07 |
Family
ID=43764157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009177287A Active JP5254900B2 (ja) | 2009-07-30 | 2009-07-30 | 映像再構成方法、映像再構成装置および映像再構成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5254900B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7209293B2 (ja) | 2019-05-17 | 2023-01-20 | 三菱重工機械システム株式会社 | 加速空洞 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3358692B2 (ja) * | 1995-08-02 | 2002-12-24 | 日本電信電話株式会社 | 映像ブロック分類方法及び装置 |
JP4812733B2 (ja) * | 2007-11-01 | 2011-11-09 | 日本電信電話株式会社 | 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 |
-
2009
- 2009-07-30 JP JP2009177287A patent/JP5254900B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7209293B2 (ja) | 2019-05-17 | 2023-01-20 | 三菱重工機械システム株式会社 | 加速空洞 |
Also Published As
Publication number | Publication date |
---|---|
JP2011035489A (ja) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brezeale et al. | Automatic video classification: A survey of the literature | |
JP5691289B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
Essid et al. | Smooth nonnegative matrix factorization for unsupervised audiovisual document structuring | |
US20140245463A1 (en) | System and method for accessing multimedia content | |
WO2012020667A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP4873018B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
JP2021069117A5 (ja) | ||
US20110243529A1 (en) | Electronic apparatus, content recommendation method, and program therefor | |
JP2009095013A (ja) | ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム | |
EP0966717A2 (en) | Multimedia computer system with story segmentation capability and operating program therefor | |
JP5209593B2 (ja) | 映像編集装置,映像編集方法および映像編集プログラム | |
CN108307250B (zh) | 一种生成视频摘要的方法及装置 | |
JP2006287319A (ja) | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム | |
Wang et al. | A multimodal scheme for program segmentation and representation in broadcast video streams | |
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
JP2005532763A (ja) | 圧縮ビデオをセグメント化する方法 | |
EP4345814A1 (en) | Video-generation system | |
JPH10187182A (ja) | 映像分類方法および装置 | |
JP5600040B2 (ja) | 映像要約装置,映像要約方法および映像要約プログラム | |
JP5254900B2 (ja) | 映像再構成方法、映像再構成装置および映像再構成プログラム | |
Acar et al. | Fusion of learned multi-modal representations and dense trajectories for emotional analysis in videos | |
Schindler et al. | A music video information retrieval approach to artist identification | |
Lin et al. | Semantic based background music recommendation for home videos | |
JP5129198B2 (ja) | 映像予告生成装置、映像予告生成方法および映像予告生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5254900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160426 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |