JP2014187687A - 動画像のハイライトシーン抽出装置及び方法 - Google Patents

動画像のハイライトシーン抽出装置及び方法 Download PDF

Info

Publication number
JP2014187687A
JP2014187687A JP2014017221A JP2014017221A JP2014187687A JP 2014187687 A JP2014187687 A JP 2014187687A JP 2014017221 A JP2014017221 A JP 2014017221A JP 2014017221 A JP2014017221 A JP 2014017221A JP 2014187687 A JP2014187687 A JP 2014187687A
Authority
JP
Japan
Prior art keywords
scene
feature
moving image
highlight
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014017221A
Other languages
English (en)
Other versions
JP2014187687A5 (ja
Inventor
Shotaro Miwa
祥太郎 三輪
Makito Seki
真規人 関
Takashi Hirai
隆史 平位
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2014017221A priority Critical patent/JP2014187687A/ja
Publication of JP2014187687A publication Critical patent/JP2014187687A/ja
Publication of JP2014187687A5 publication Critical patent/JP2014187687A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】動画像中から人物の顔を含む特定のハイライトシーンを抽出する。
【解決手段】ハイライトシーン抽出装置は、フレーム画像から人物の顔を検出するフレーム抽出回路2と、フレーム画像における検出された顔の位置及び大きさによって決まる複数の特徴値を含むシーン構図特徴Cを生成するシーン構図決定回路4と、少なくとも1つの特定のハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件Dとして予め格納したシーン記憶装置5と、シーン構図特徴Cの特徴値がシーン構図条件Dの特徴値の範囲内にあるか否かを判定するハイライトシーン抽出装置6と、シーン構図特徴Cの特徴値がシーン構図条件Dの特徴値の範囲内にあるとき、フレーム画像にハイライトシーンのインデックスを付与するインデックス生成回路7とを備える。
【選択図】図1

Description

本発明は、動画像のハイライトシーン抽出装置及び方法に関し、特に、動画像中から人物の顔を含む特定のハイライトシーンを抽出する装置及び方法に関する。
動画像から人物の顔を抽出し、顔インデックスを作成する技術として、例えば特許文献1の発明が知られている。
特許文献1の発明は、動画像蓄積部、顔画像追跡部、代表顔決定部、顔インデックス構築部を備える。動画像蓄積部から取り出された各フレーム画像に対して、顔画像追跡部は、各フレーム画像中の顔を検出し、連続フレーム中で、検出された顔がフレーム中の同じ位置にある場合、同一人物の画像として追跡し、1つのまとまったフレーム群情報を生成する。次いで、代表顔決定部は、まとまったフレーム群から正面顔に近いものを代表顔画像として選択する。顔インデックス構築部は、この選択された代表顔画像を顔画像キーとして用いて、顔インデックスを構築する。ユーザは、例えばサムネイル画像として表示された顔画像キーを選ぶことで、その顔画像の人物が登場しているシーンを検索して再生することができる。
特開2008−252296号公報
P. Viola, M. Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features", IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), Vol. 1, pp. 511-51, 2001
動画像は、その内容に応じて、さまざまなハイライトシーンを含む。例えば、ドラマの盛り上がるシーンでは、2人の人物の顔が大きく表示されることがあり、また、重要なシーン又はスポーツ等のインタビューでは、1人の人物が大きく表示されることがある。
特許文献1の発明では、ユーザが動画像から選択できるシーンは、顔画像キーで特定されるものに限られていた。従って、特許文献1の発明では、ユーザは、顔画像キーの人物が登場しているシーンを検索して再生することができるが、特定のハイライトシーンを検索して再生することが困難であった。
本発明の目的は、以上の問題点を解決し、動画像中から人物の顔を含む特定のハイライトシーンを抽出する動画像のハイライトシーン抽出装置及び方法を提供することにある。
本発明の態様に係る動画像のハイライトシーン抽出装置は、
動画像のフレームから人物の顔を検出する手段と、
上記フレームにおける上記検出された顔の位置及び大きさによって決まる複数の特徴値を含むシーン構図特徴を生成する手段と、
少なくとも1つの特定のハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件として予め格納した格納手段と、
上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるか否かを判定する第1の判定手段と、
上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるとき、上記フレームにハイライトシーンのインデックスを付与するインデックス手段とを備えたことを特徴とする。
本発明によれば、動画像中から人物の顔を含む特定のハイライトシーンを抽出することができる。
本発明の実施の形態1に係るハイライトシーン抽出装置の構成を示すブロック図である。 図1のハイライトシーン抽出装置によって実行されるインデックス生成処理を示すフローチャートである。 図1の顔検出回路3により、フレーム画像100から人物P0の顔を検出する例を示す図である。 図1の顔検出回路3により、フレーム画像101から複数の人物P0及びP1の顔を検出する例を示す図である。 図1のシーン構図決定回路4により決定された、複数の人物P0〜PNを含むフレーム画像のシーン構図特徴Cを示す表である。 ドラマのハイライトシーンを含むフレーム画像110の例を示す図である。 図6のフレーム画像110における注目領域111及び注目人物Piの顔Fiを示す図である。 図6のフレーム画像110におけるシーン構図特徴Cを示す図である。 本発明の実施の形態2に係るハイライトシーン抽出装置の構成を示すブロック図である。 図9の動画像ジャンル決定回路11、シーン構図選択回路12、及び顔追跡回路13によって実行されるシーン選択処理S5Aを示すフローチャートである。 インタビューシーンを含むフレーム画像120の例を示す図である。 インタビューシーンを含む動画像のシーン構図特徴Cの例を示す図である。 本発明の実施の形態3に係るハイライトシーン抽出装置の構成を示すブロック図である。 図13のハイライトシーン抽出装置によって実行されるインデックス生成処理を示すフローチャートである。
以下、図面を参照して、本発明の実施の形態について説明する。各図面にわたって、同様の構成要素は、同じ符号により示す。
実施の形態1.
図1は、本発明の実施の形態1に係るハイライトシーン抽出装置の構成を示すブロック図である。図1のハイライトシーン抽出装置は、動画像入力回路1、フレーム抽出回路2、顔検出回路3、シーン構図決定回路4、シーン記憶装置5、ハイライトシーン判定回路6、インデックス生成回路7、及び動画像記憶装置8を備える。
動画像入力回路1は、チューナ、DVDもしくはブルーレイなどの記録媒体、又は、LANもしくはインターネットなどのネットワークから動画像を取得する。動画像入力回路1は、後述する動画像記憶装置8から動画像を取得してもよい。フレーム抽出回路2は、入力された動画像から一連のフレーム画像を生成する。顔検出回路3は、生成された各フレーム画像から人物の顔を検出する。フレーム画像から顔を検出するために、例えば非特許文献1の方法を使用可能である。
図3は、図1の顔検出回路3により、フレーム画像100から人物P0の顔を検出する例を示す図である。図4は、図1の顔検出回路3により、フレーム画像101から複数の人物P0及びP1の顔を検出する例を示す図である。図3のフレーム画像100は、サイズh×wを有する。図3のフレーム画像100は人物P0を含み、人物P0の顔は、頂点A0,B0を有する矩形領域F0として検出される。人物P0の顔F0は、例えば正方形領域であり、その位置は重心G0=(x,y)により特定され、その大きさは辺の長さlにより特定される。また、図4のフレーム画像101は人物P0,P1を含み、人物P1の顔F1は、例えば正方形領域であり、その位置は重心G1=(x,y)により特定され、その大きさは辺の長さlにより特定される。
シーン構図決定回路4は、フレーム画像における検出された顔の位置及び大きさによって決まる複数の特徴値を含むシーン構図特徴Cを生成する。動画像において盛り上がるシーン又は重要なシーン等は、登場人物の空間的な配置により定義することができる。従って、シーン構図特徴Cの特徴値は、この登場人物の空間的な配置を定義する。
図5は、図1のシーン構図決定回路4により決定された、複数の人物P0〜PNを含むフレーム画像のシーン構図特徴Cを示す表である。シーン構図特徴Cの各要素Cij(1≦i,j≦N)は、任意の一対の人物Pi,Pjについて、以下のように定義される。
[数1]
ij=(x,y,h,sij,dij
[数2]
=l/h
[数3]
ij=l/l
[数4]
ij=sqrt((x−x+(y−y)/h
ここで、x,yは、人物Piの顔の位置(重心)を示す。hは、フレーム画像のサイズhで正規化された人物Piの顔の大きさである。sijは、人物Pi,Pjの顔の大きさの比である。dijは、フレーム画像のサイズhで正規化された人物Pi,Pjの顔の間の距離である。言い換えると、シーン構図特徴Cの各要素Cijは、人物Pi自体の顔を特定する特徴値(位置x,y及び大きさh)と、他の人物Pjの顔との関係を示す特徴値(大きさの比sij及び距離dij)とを含む。なお、一般的なフレーム画像は横長であり(w>h)、このため、数2及び数4では、短辺の長さhを用いている。
シーン記憶装置5は、少なくとも1つの特定のハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件Dとして予め格納している。言い換えると、シーン構図条件Dは、フレーム画像が特定のハイライトシーンであるときに、当該ハイライトシーンが有すると考えられるシーン構図特徴Cの特徴値の予め決められた範囲を示す。
例示的なシーン構図条件Dを以下に示す。
[数5]
/3≦x/h≦r×2/3
[数6]
1/3≦y/h≦2/3
[数7]
1/2≦h≦1
[数8]
0.8≦sij≦1.2
[数9]
×1.5≦dij≦h×2.5
ここで、係数r=w/hである。数5〜数9のシーン構図条件Dは、動画像がドラマである場合を示す。ドラマの場合、主人公と、それと主に関係する重要人物とが存在し、シナリオの展開の中で重要なシーンでは、主人公とその重要人物とが大きく表示されることが多い。このようなシーンのシーン構図特徴C及びシーン構図条件Dについて、図6〜図8を参照して以下に説明する。
図6は、ドラマのハイライトシーンを含むフレーム画像110の例を示す図である。図7は、図6のフレーム画像110における注目領域111及び注目人物Piの顔Fiを示す図である。図8は、図6のフレーム画像110におけるシーン構図特徴Cを示す図である。図6のフレーム画像110は、注目人物(主人公)となる人物Piと、その周辺人物となる人物Pjとを含む。まず、フレーム画像110の中央の注目領域111で大きく表示されている顔Fiを有する人物Piを、注目人物として決定し(図7)、また、注目人物である人物Piの近くにおいて、人物Piと同様に大きく表示されている顔Fjを有する人物Pjを、周辺人物として決定する(図8)。注目人物及び周辺人物は、その顔の位置(x,y;x,y)及び大きさ(h;h)が数5〜数7を満たす人物である。さらに、フレーム画像110は、数8及び数9をさらに満たすとき、ドラマのハイライトシーンであると判断される。なお、数5〜数9に例示した特徴値の範囲は、固定値ではなく、設計時に任意に設定できる。
シーン記憶装置5に格納されるシーン構図条件Dは、数5〜数9に例示された特徴値の範囲に限定されるものではなく、また、ドラマ以外の他のハイライトシーンが有すると考えられるシーン構図特徴Cの特徴値の範囲を格納してもよい。
ハイライトシーン判定回路6は、シーン構図決定回路4によって生成されたシーン構図特徴Cの特徴値が、シーン記憶装置5に格納されたシーン構図条件Dの特徴値の範囲内にあるか否かを判定する。次いで、インデックス生成回路7は、シーン構図特徴Cの特徴値がシーン構図条件Dの特徴値の範囲内にあるとき、フレーム画像にハイライトシーンのインデックスを付与する。
ハイライトシーン判定回路6による判定を、以下のコードにより説明する。
[数10]
for i:=1 to N do
for j:=1 to N do
if i≠j then
val:=calc_corr(Cij,D)
if val==true then
make_index(i,j,D)
end
end
数10によれば、あるフレーム画像のシーン構図特徴Cの各要素Cij(1≦i,j≦N)のうち、i≠jのすべての要素について、関数calc_corr(Cij,D)を実行し、関数calc_corr(Cij,D)がtrue(真)の値を返すとき、関数make_index(i,j,D)を実行する。関数calc_corr(Cij,D)は、あるフレーム画像のシーン構図特徴Cの特徴値が数5〜数9のシーン構図条件Dの特徴値の範囲内にあるか否かを判定し、YESのときtrue(真)の値を返し、NOのときfalse(偽)の値を返す。ここで、関数calc_corr(Cij,D)がtrueの値を返すとき、インデックス生成回路7は、関数make_index(i,j,D)を実行することで、フレーム画像にハイライトシーンのインデックスを付与する。詳しくは、インデックス生成回路7は、フレーム画像のタイムスタンプ情報を動画像記憶装置8に記憶することで、当該フレーム画像にハイライトシーンが含まれることを示す。
動画像記憶装置8は、ハイライトシーンのインデックスを記憶するとともに、動画像入力回路1によって取得された動画像を記憶する。ユーザは、動画像の再生時にハイライトシーンのインデックスを用いて、動画中のハイライトシーンを検索することができる。なお、ハイライトシーンのインデックスを記憶する記憶装置と、動画像入力回路1によって取得された動画像を記憶する記憶装置とが、別個に設けられてもよい。
図2は、図1のハイライトシーン抽出装置によって実行されるインデックス生成処理を示すフローチャートである。図2のステップS1において、動画像入力回路1は動画像を取得する。ステップS2において、フレーム抽出回路2は、取得された動画像からフレーム画像を生成する。ステップS3において、顔検出回路3は、生成されたフレーム画像から顔を検出する。ステップS4において、シーン構図決定回路4は、検出された顔情報を用いてシーン構図特徴を生成する。ステップS5のシーン選択処理において、ハイライトシーン判定回路6は、シーン構図条件をシーン記憶装置5から読み出す。ステップS6において、ハイライトシーン判定回路6は、シーン構図特徴の特徴値が、シーン構図条件の特徴値の予め決められた範囲内にあるか否かを判定し、YESのときはステップS7に進み、NOのときはステップS8に進む。ステップS7において、インデックス生成回路7は、フレームにハイライトシーンのインデックスを付与し、当該インデックスを動画像記憶装置8に記憶する。ステップS8において、シーン構図決定回路4は、取得された動画像から次のフレーム画像を生成し、ステップS3に戻る。
以上説明したように、本発明の実施の形態1に係るハイライトシーン抽出装置によれば、動画像中から人物の顔を含む特定のハイライトシーンを抽出することができる。
本発明では、動画像の撮影者の意図(ハイライトシーンであるか否か)がフレーム画像中における人物の配置として現れることに着目している。本発明では、人物の配置として、フレーム画像における検出された顔の位置及び大きさによって決まる複数の特徴値を含むシーン構図特徴を生成する。本発明によれば、フレーム画像から生成されたシーン構図特徴の特徴値が、予め格納されたシーン構図条件の特徴値の範囲内にあるか否かを判定し、動画像の中から特定のハイライトシーンだけを検索して再生することができる。
従来技術の手法では、動画像中に顔が現れるか否かという点だけに注目し、各フレーム画像から顔を検出し、顔が現れる部分に対して検索用の顔インデックスを作成していた。これに対して、本発明の実施の形態1では、シーン構図特徴を用いることで、ある人物が登場する特定のハイライトシーンを抽出することができる。
実施の形態2.
一般に、動画像は特定のジャンルに関連付けられ、ジャンルに応じて、異なるハイライトシーンを含む可能性がある。本発明の実施の形態2では、動画像のジャンルに応じて異なるシーン構図条件を選択する。
図9は、本発明の実施の形態2に係るハイライトシーン抽出装置の構成を示すブロック図である。図9のハイライトシーン抽出装置は、図1のハイライトシーン抽出装置の構成要素に加えて、動画像ジャンル決定回路11、シーン構図選択回路12、及び顔追跡回路13を備える。また、図9のハイライトシーン抽出装置は、図1のインデックス生成回路7に代えて、顔追跡回路13から出力される信号に応じて動作するインデックス生成回路7Aを備える。シーン記憶装置5は、少なくとも1つの特定のジャンルのハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件として予め格納している。
動画像ジャンル決定回路11は、例えば放送波中のEPG(電子番組ガイド)情報から、動画像のジャンルを示すジャンル情報(ドラマ、ニュース、スポーツなど)を取得する。次いで、動画像ジャンル決定回路11は、動画像がインタビューシーンを含むジャンルであるか否かを判定する。動画像がインタビューシーンを含むジャンル(ニュース又はスポーツなど)であるとき、シーン構図選択回路12は、当該ジャンルと同じジャンルのハイライトシーンに対応するシーン構図条件をシーン記憶装置5から選択してハイライトシーン判定回路6に送り、顔追跡回路13は、フレーム画像における検出された顔を一定時間にわたって追跡する。一方、動画像がインタビューシーンを含まないジャンル(ドラマなど)であるとき、シーン構図選択回路12は、当該ジャンルと同じジャンルのハイライトシーンに対応するシーン構図条件をシーン記憶装置5から選択してハイライトシーン判定回路6に送り、顔追跡回路13は顔の追跡を実行しない。
ここで、図11及び図12を参照して、顔追跡回路13による顔の追跡について説明する。
図11は、インタビューシーンを含むフレーム画像120の例を示す図である。図12は、インタビューシーンを含む動画像のシーン構図特徴の例を示す図である。動画像入力回路1、フレーム抽出回路2、及び顔検出回路3は、実施の形態1の場合と同様に動作する。図12の時間tにおいてフレーム画像120に含まれる人物P10の顔F10が検出されたとき、顔追跡回路13は、時間tにおけるフレーム画像から時間的に連続した複数のフレーム画像のうちの各隣接したフレーム画像において検出される顔の位置又は大きさの変化量が、所定のしきい値より小さいか否かを判定する。言い換えると、顔追跡回路13は、顔の位置の変化量のしきい値th、又は、顔の大きさの変化量のしきい値thに対して、次式のいずれかを満たすか否かを判定する。
[数11]
th≦sqrt((x(n+1)−x(n))+(y(n+1)−y(n))
[数12]
th≦abs|h(n+1)−h(n)|
ここで、整数nは、離散化された時間tを示す。
図12の例では、時間tから時間tまでの時間期間にわたって、フレーム画像120は実質的に一定の顔F10を含み、従って、数11及び数12のいずれも成立しない。時間tから時間tまでの時間期間では、顔の位置又は大きさの変化量がしきい値th又はthより小さいフレーム画像が連続し、この時間期間を「追跡時間長ta」と呼ぶ。
顔追跡回路13は、数11及び数12のいずれかが満たされたとき、追跡時間長taが所定のしきい値thを超えているか否かを判定する。追跡時間長taがしきい値thを超えているとき、フレーム画像120はインタビューシーン(すなわち、フレーム画像の中央に同一人物の顔が長時間にわたって大きく表示されているシーン)を含むと考えられる。このとき、顔追跡回路13は、インタビューシーンに対応するシーン構図条件をシーン記憶装置5から選択してハイライトシーン判定回路6に送るようにシーン構図選択回路12に指示し、さらに、顔追跡回路13は、追跡時間長taの開始時間tをインデックス生成回路7Aに通知する。一方、追跡時間長taがしきい値thを超えていないとき、フレーム画像120はインタビューシーンを含まないと考えられる。このとき、顔追跡回路13は、動画像ジャンル決定回路11によって判定された動画像のジャンルに対応するシーン構図条件をシーン記憶装置5から選択してハイライトシーン判定回路6に送るようにシーン構図選択回路12に指示する。
ハイライトシーン判定回路6は、シーン構図選択回路12により送られたシーン構図条件に基づいて、実施の形態1の場合と同様に、シーン構図特徴の特徴値がシーン構図条件の特徴値の範囲内にあるか否かを判定する。
インデックス生成回路7Aは、追跡時間長taがしきい値thを超えているとき(すなわち、顔追跡回路13から追跡時間長taが入力されているとき)、かつ、シーン構図特徴の特徴値がシーン構図条件の特徴値の範囲内にあるとき、追跡時間長taの開始時間tのフレーム画像にハイライトシーンのインデックスを付与する。なお、追跡時間長taがしきい値th以下であるとき(すなわち、顔追跡回路13から追跡時間長taが入力されていないとき)、かつ、シーン構図特徴の特徴値がシーン構図条件の特徴値の範囲内にあるとき、現在のフレーム画像にハイライトシーンのインデックスを付与する。
図10は、図9の動画像ジャンル決定回路11、シーン構図選択回路12、及び顔追跡回路13によって実行されるシーン選択処理S5Aを示すフローチャートである。図10のシーン選択処理S5Aは、図2のシーン選択処理S5に代えて実行される。図10のステップS11において、動画像ジャンル決定回路11は、動画像のジャンル情報を取得する。ステップS12において、動画像ジャンル決定回路11は、動画像がインタビューシーンを含むジャンルであるか否かを判定し、YESのときはステップS13に進み、NOのときはステップS16に進む。ステップS13において、顔追跡回路13は、フレーム画像における検出された顔を一定時間にわたって追跡する。ステップS14において、顔追跡回路13は、顔画像の追跡時間長taがしきい値thを超えているか否かを判定し、YESのときはステップS15に進み、NOのときはステップS16に進む。ステップS15において、シーン構図選択回路12は、インタビューシーンに対応するシーン構図条件をハイライトシーン判定回路6に送り、図2のステップS6に進む。ステップS16において、動画像ジャンル決定回路11によって判定された動画像のジャンルに対応するシーン構図条件をハイライトシーン判定回路6に送り、図2のステップS6に進む。
以上説明したように、本発明の実施の形態2に係るハイライトシーン抽出装置によれば、動画像のジャンルに応じて異なるシーン構図条件を選択することができる。
ハイライトシーンのシーン構図は、動画像のジャンルによって異なる。そこで、動画像のジャンルを示すジャンル情報を取得し、動画像のジャンルと同じジャンルのハイライトシーンに対応するシーン構図条件を用いることで、特定のジャンルの動画像から特定のハイライトシーンを抽出することができる。
実施の形態3.
一般に、動画像において映像情報と音声情報とは互いに密接に関係しているので、ハイライトシーンを決定するとき、シーン構図特徴と、そのシーン構図特徴に高い関連性を有する音声特徴とを利用することで、ハイライトシーンをより正確に抽出することが可能になる。
図13は、本発明の実施の形態3に係るハイライトシーン抽出装置の構成を示すブロック図である。図13のハイライトシーン抽出装置は、図1のシーン記憶装置5及びハイライトシーン判定回路6に代えてシーン記憶装置5B及びハイライトシーン判定回路6Bを備え、さらに、音声特徴生成回路21を備える。音声特徴生成回路21は、動画像から音声情報を分離して音声特徴を生成し、音声特徴をハイライトシーン判定回路6Bに送る。シーン記憶装置5Bは、シーン構図条件の特徴値の範囲に加えて、少なくとも1つの特定のハイライトシーンの前後における音声情報に係る複数の特徴値の範囲を音声条件として予め格納している。言い換えると、音声条件は、フレーム画像が特定のハイライトシーンであるときに、当該ハイライトシーンの前後の音声情報が有すると考えられる音声特徴の特徴値の範囲を示す。
図14は、図13のハイライトシーン抽出装置によって実行されるインデックス生成処理を示すフローチャートである。図14のステップS1〜S4は、図2のステップS1〜S4と同様である。音声特徴生成回路21は、ステップS21において、動画像入力回路1により取得された動画像(ステップS1)から音声情報を分離し、ステップS22において、音声情報から音声特徴を生成してハイライトシーン判定回路6Bに送る。ステップS5Bのシーン選択処理において、ハイライトシーン判定回路6Bは、シーン構図条件及び音声条件をシーン記憶装置5Bから読み出す。ステップS6Bにおいて、ハイライトシーン判定回路6Bは、シーン構図特徴及び音声特徴の各特徴値が、シーン構図条件及び音声条件の各特徴値の予め決められた範囲内にあるか否かを判定し、YESのときはステップS7に進み、NOのときはステップS8に進む。図14のステップS7〜S8は、図2のステップS7〜S8と同様である。
音声特徴としては、抽出しようとするシーン構図特徴と関連性の高いものを用いることができる。例えば、ハイライトシーンでは音量(音の大きさ)|V|が大きくなることが多いので、音声特徴として音量|V|を使用し、音声条件として音量のしきい値|Vth|を使用してもよい。この場合、ステップS6Bにおいて、ハイライトシーン判定回路6Bは、音量|V|がしきい値|Vth|より大きいかどうかを判定する。また、ハイライトシーンにおいて観客が興奮するようなケースでは音の周波数が高くなるので、音声特徴として音の周波数|Fv|を使用し、音声条件として周波数のしきい値|Fth|を使用してもよい。ハイライトシーン判定回路6Bは、周波数|Fv|がしきい値|Fth|より高いかどうかを判定する。
以上説明したように、本発明の実施の形態3に係るハイライトシーン抽出装置によれば、映像情報からのシーン構図特徴と、音声情報からの音声特徴とを組み合わせることで、動画像中から人物の顔を含む特定のハイライトシーンをより精度良く抽出することができる。
本発明の動画像のハイライトシーン抽出装置及び方法は、動画像を記録するハードディスクレコーダなどに適用可能である。
1 動画像入力回路、2 フレーム抽出回路、3 顔検出回路、4 シーン構図決定回路、5,5B シーン記憶装置、6,6B ハイライトシーン判定回路、7,7A インデックス生成回路、8 動画像記憶装置、11 動画像ジャンル判定回路、12 シーン構図選択回路、13 顔追跡回路、100,101,110,120 フレーム画像、111 注目領域、A0,B0 頂点、F0,F1,Fi,Fj,F10 顔、G0,G1,Gi,Gj,G10 重心、P0,P1,Pi,Pj,P10 人物。

Claims (10)

  1. 動画像のフレームから人物の顔を検出する手段と、
    上記フレームにおける上記検出された顔の位置及び大きさによって決まる複数の特徴値を含むシーン構図特徴を生成する手段と、
    少なくとも1つの特定のハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件として予め格納した格納手段と、
    上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるか否かを判定する第1の判定手段と、
    上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるとき、上記フレームにハイライトシーンのインデックスを付与するインデックス手段とを備えたことを特徴とする動画像のハイライトシーン抽出装置。
  2. 上記動画像は特定のジャンルに関連付けられ、
    上記格納手段は、少なくとも1つの特定のジャンルのハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件として予め格納し、
    上記動画像のハイライトシーン抽出装置は、
    上記動画像のジャンルを示すジャンル情報を取得する手段と、
    上記動画像のジャンルと同じジャンルのハイライトシーンに対応するシーン構図条件を上記格納手段から選択する手段とをさらに備え、
    上記第1の判定手段は、上記シーン構図特徴の特徴値が上記選択されたシーン構図条件の特徴値の範囲内にあるか否かを判定することを特徴とする請求項1記載の動画像のハイライトシーン抽出装置。
  3. 上記シーン構図特徴の特徴値は、上記フレームが複数の人物を含むとき、上記複数の人物の顔の大きさの比、及び、上記複数の人物の顔の間の距離を含み、
    上記シーン構図条件は、複数の人物の顔の大きさの比の範囲、及び、複数の人物の顔の間の距離の範囲を含むことを特徴とする請求項1又は2記載の動画像のハイライトシーン抽出装置。
  4. 上記動画像のハイライトシーン抽出装置は、
    第1のフレームから時間的に連続した複数のフレームのうちの各隣接したフレームにおいて検出される顔の位置又は大きさの変化量が第1のしきい値より小さいか否かを判定し、上記変化量が上記第1のしきい値より小さいフレームが連続する時間長が第2のしきい値を超えているか否かを判定する第2の判定手段をさらに備え、
    上記インデックス手段は、上記変化量が上記第1のしきい値より小さいフレームが連続する時間長が第2のしきい値を超えているとき、かつ、上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるとき、上記第1のフレームにハイライトシーンのインデックスを付与することを特徴とする請求項1〜3のうちのいずれか1つに記載の動画像のハイライトシーン抽出装置。
  5. 上記動画像は映像情報及び音声情報を含み、
    上記ハイライトシーン抽出装置は、上記音声情報に係る複数の特徴値を含む音声特徴を生成する手段をさらに備え、
    上記格納手段は、少なくとも1つの特定のハイライトシーンの前後における音声情報に係る複数の特徴値の範囲を音声条件として予め格納し、
    上記第1の判定手段は、上記シーン構図特徴及び上記音声特徴の各特徴値が上記シーン構図条件及び上記音声条件の各特徴値の範囲内にあるか否かを判定し、
    上記インデックス手段は、上記シーン構図特徴及び上記音声特徴の各特徴値が上記シーン構図条件及び上記音声条件の各特徴値の範囲内にあるとき、上記フレームにハイライトシーンのインデックスを付与することを特徴とする請求項1〜4のうちのいずれか1つに記載の動画像のハイライトシーン抽出装置。
  6. 動画像のフレームから人物の顔を検出するステップと、
    上記フレームにおける上記検出された顔の位置及び大きさによって決まる複数の特徴値を含むシーン構図特徴を生成するステップと、
    少なくとも1つの特定のハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件として格納手段に予め格納するステップと、
    上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるか否かを判定するステップと、
    上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるとき、上記フレームにハイライトシーンのインデックスを付与するステップとを含むことを特徴とする動画像のハイライトシーン抽出方法。
  7. 上記動画像は特定のジャンルに関連付けられ、
    上記格納手段は、少なくとも1つの特定のジャンルのハイライトシーンにおける人物の顔の位置及び大きさによって決まる複数の特徴値の範囲をシーン構図条件として予め格納し、
    上記動画像のハイライトシーン抽出方法は、
    上記動画像のジャンルを示すジャンル情報を取得するステップと、
    上記動画像のジャンルと同じジャンルのハイライトシーンに対応するシーン構図条件を上記格納手段から選択するステップと、
    上記シーン構図特徴の特徴値が上記選択されたシーン構図条件の特徴値の範囲内にあるか否かを判定するステップとを含むことを特徴とする請求項6記載の動画像のハイライトシーン抽出方法。
  8. 上記シーン構図特徴の特徴値は、上記フレームが複数の人物を含むとき、上記複数の人物の顔の大きさの比、及び、上記複数の人物の顔の間の距離を含み、
    上記シーン構図条件は、複数の人物の顔の大きさの比の範囲、及び、複数の人物の顔の間の距離の範囲を含むことを特徴とする請求項6又は7記載の動画像のハイライトシーン抽出方法。
  9. 上記動画像のハイライトシーン抽出方法は、
    第1のフレームから時間的に連続した複数のフレームのうちの各隣接したフレームにおいて検出される顔の位置又は大きさの変化量が第1のしきい値より小さいか否かを判定し、上記変化量が上記第1のしきい値より小さいフレームが連続する時間長が第2のしきい値を超えているか否かを判定するステップと、
    上記変化量が上記第1のしきい値より小さいフレームが連続する時間長が第2のしきい値を超えているとき、かつ、上記シーン構図特徴の特徴値が上記シーン構図条件の特徴値の範囲内にあるとき、上記第1のフレームにハイライトシーンのインデックスを付与するステップとを含むことを特徴とする請求項6〜8のうちのいずれか1つに記載の動画像のハイライトシーン抽出方法。
  10. 上記動画像は映像情報及び音声情報を含み、
    上記動画像のハイライトシーン抽出方法は、
    上記音声情報に係る複数の特徴値を含む音声特徴を生成するステップと、
    少なくとも1つの特定のハイライトシーンの前後における音声情報に係る複数の特徴値の範囲を音声条件として予め格納するステップと、
    上記シーン構図特徴及び上記音声特徴の各特徴値が上記シーン構図条件及び上記音声条件の各特徴値の範囲内にあるか否かを判定するステップと、
    上記シーン構図特徴及び上記音声特徴の各特徴値が上記シーン構図条件及び上記音声条件の各特徴値の範囲内にあるとき、上記フレームにハイライトシーンのインデックスを付与するステップとをさらに含むことを特徴とする請求項6〜9のうちのいずれか1つに記載の動画像のハイライトシーン抽出方法。
JP2014017221A 2013-02-21 2014-01-31 動画像のハイライトシーン抽出装置及び方法 Pending JP2014187687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014017221A JP2014187687A (ja) 2013-02-21 2014-01-31 動画像のハイライトシーン抽出装置及び方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013032126 2013-02-21
JP2013032126 2013-02-21
JP2014017221A JP2014187687A (ja) 2013-02-21 2014-01-31 動画像のハイライトシーン抽出装置及び方法

Publications (2)

Publication Number Publication Date
JP2014187687A true JP2014187687A (ja) 2014-10-02
JP2014187687A5 JP2014187687A5 (ja) 2016-01-07

Family

ID=51834750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014017221A Pending JP2014187687A (ja) 2013-02-21 2014-01-31 動画像のハイライトシーン抽出装置及び方法

Country Status (1)

Country Link
JP (1) JP2014187687A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383636A (zh) * 2016-09-23 2017-02-08 珠海市魅族科技有限公司 一种索引信息的显示方法及装置
JP2018501533A (ja) * 2014-10-09 2018-01-18 スーズ,インコーポレイテッド 1または複数のイベントを描写するカスタマイズハイライトシーケンスの生成
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
KR20200072237A (ko) * 2018-12-12 2020-06-22 인하대학교 산학협력단 동영상 내 등장인물 갈등정보 추출 장치
KR20200072238A (ko) * 2018-12-12 2020-06-22 인하대학교 산학협력단 동영상 내 인물 영역 추출 장치
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11138438B2 (en) 2018-05-18 2021-10-05 Stats Llc Video processing for embedded information card localization and content extraction
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008167063A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp 撮像装置および撮像方法
JP2009135754A (ja) * 2007-11-30 2009-06-18 Oki Electric Ind Co Ltd ダイジェスト作成装置及び方法
JP2010206609A (ja) * 2009-03-04 2010-09-16 Canon Inc 画像再生装置、画像再生装置の制御方法、及びプログラム
JP2012070283A (ja) * 2010-09-24 2012-04-05 Toshiba Corp 映像処理装置、方法、及び映像処理システム
JP2012105205A (ja) * 2010-11-12 2012-05-31 Nikon Corp キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008167063A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp 撮像装置および撮像方法
JP2009135754A (ja) * 2007-11-30 2009-06-18 Oki Electric Ind Co Ltd ダイジェスト作成装置及び方法
JP2010206609A (ja) * 2009-03-04 2010-09-16 Canon Inc 画像再生装置、画像再生装置の制御方法、及びプログラム
JP2012070283A (ja) * 2010-09-24 2012-04-05 Toshiba Corp 映像処理装置、方法、及び映像処理システム
JP2012105205A (ja) * 2010-11-12 2012-05-31 Nikon Corp キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11778287B2 (en) 2014-10-09 2023-10-03 Stats Llc Generating a customized highlight sequence depicting multiple events
US11882345B2 (en) 2014-10-09 2024-01-23 Stats Llc Customized generation of highlights show with narrative component
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
JP2018501533A (ja) * 2014-10-09 2018-01-18 スーズ,インコーポレイテッド 1または複数のイベントを描写するカスタマイズハイライトシーケンスの生成
US11582536B2 (en) 2014-10-09 2023-02-14 Stats Llc Customized generation of highlight show with narrative component
US11290791B2 (en) 2014-10-09 2022-03-29 Stats Llc Generating a customized highlight sequence depicting multiple events
CN106383636A (zh) * 2016-09-23 2017-02-08 珠海市魅族科技有限公司 一种索引信息的显示方法及装置
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11373404B2 (en) 2018-05-18 2022-06-28 Stats Llc Machine learning for recognizing and interpreting embedded information card content
US11615621B2 (en) 2018-05-18 2023-03-28 Stats Llc Video processing for embedded information card localization and content extraction
US11138438B2 (en) 2018-05-18 2021-10-05 Stats Llc Video processing for embedded information card localization and content extraction
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor
US11922968B2 (en) 2018-06-05 2024-03-05 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
KR102179590B1 (ko) * 2018-12-12 2020-11-17 인하대학교 산학협력단 동영상 내 등장인물 갈등정보 추출 장치
KR102179591B1 (ko) 2018-12-12 2020-11-17 인하대학교 산학협력단 동영상 내 인물 영역 추출 장치
KR20200072238A (ko) * 2018-12-12 2020-06-22 인하대학교 산학협력단 동영상 내 인물 영역 추출 장치
KR20200072237A (ko) * 2018-12-12 2020-06-22 인하대학교 산학협력단 동영상 내 등장인물 갈등정보 추출 장치

Similar Documents

Publication Publication Date Title
JP2014187687A (ja) 動画像のハイライトシーン抽出装置及び方法
KR20150093425A (ko) 콘텐츠 추천 방법 및 장치
JP2008271268A (ja) 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
KR20150127070A (ko) 비디오를 위한 픽토리얼 요약
JP2009089032A (ja) 電子機器およびシーン種類表示方法
JP2011217209A (ja) 電子機器、コンテンツ推薦方法及びプログラム
JP2008148077A (ja) 動画再生装置
US20050264703A1 (en) Moving image processing apparatus and method
JP4047264B2 (ja) 動画像処理装置、動画像処理方法および動画像処理プログラム
JPWO2006016590A1 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP6096548B2 (ja) 音響映像コンテンツのための視聴レベル設定方法
KR102505973B1 (ko) 영상 처리 장치, 이의 제어 방법 및 컴퓨터 프로그램이 기록된 기록 매체
JP2011504034A (ja) オーディオビジュアル信号における意味的なまとまりの開始点を決定する方法
US20230290382A1 (en) Method and apparatus for matching music with video, computer device, and storage medium
CN108958592B (zh) 视频处理方法及相关产品
Lin et al. Automatic highlights extraction for drama video using music emotion and human face features
JP2010039877A (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
CN107180058B (zh) 一种用于基于字幕信息进行查询的方法和装置
JP2005536937A (ja) 一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法
JP2014130536A (ja) 情報管理装置、サーバ及び制御方法
JP4491009B2 (ja) 動画像処理装置
JP2006014084A (ja) 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JPWO2011161820A1 (ja) 映像処理装置、映像処理方法及び映像処理プログラム
JP6164445B2 (ja) チャプタ設定装置
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170425