JP2022190958A - ショット境界検出装置、ショット境界学習装置及びそれらのプログラム - Google Patents

ショット境界検出装置、ショット境界学習装置及びそれらのプログラム Download PDF

Info

Publication number
JP2022190958A
JP2022190958A JP2021099504A JP2021099504A JP2022190958A JP 2022190958 A JP2022190958 A JP 2022190958A JP 2021099504 A JP2021099504 A JP 2021099504A JP 2021099504 A JP2021099504 A JP 2021099504A JP 2022190958 A JP2022190958 A JP 2022190958A
Authority
JP
Japan
Prior art keywords
feature amount
image
learning
shot boundary
shot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021099504A
Other languages
English (en)
Inventor
吉彦 河合
Yoshihiko Kawai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021099504A priority Critical patent/JP2022190958A/ja
Publication of JP2022190958A publication Critical patent/JP2022190958A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】複数のフレーム画像に渡るショット境界を正確に検出できるショット境界検出装置を提供する。【解決手段】ショット境界検出装置1は、画像特徴量を算出する画像特徴量算出部11と、物体特徴ニューラルネットワークを用いて、物体特徴量を算出する物体特徴量算出部12と、画像特徴量及び物体特徴量が結合した結合特徴量を算出する特徴量結合部13と、結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定する判定部14と、を備える。【選択図】図1

Description

本発明は、ショット境界検出装置、ショット境界学習装置及びそれらのプログラムに関する。
ショットとは、一台のカメラで連続して撮影された映像の区間のことであり、映像の基本単位である。また、ショット境界とは、ショットの切り替え点のことである。映像の要約や検索といった映像処理の際には、入力映像からショット境界を検出し、ショットに分割する作業が必要不可欠となる。
ショット境界検出の基本的なアプローチは、同一ショットに属する連続した2枚のフレーム画像の類似性が高く、その類似性の高さがショット境界で失われるという経験的知識に基づいて行われている。具体的な処理の流れとしては、連続した2枚のフレーム画像間の類似度を計算する。そして、類似度が閾値以上の場合、2枚のフレーム画像が同一ショットに属すると判定し、類似度が閾値よりも低い場合、2枚のフレーム画像の間にショット境界があると判断する。フレーム画像間の類似度(正確には差異)を表す指標としては、画素値の差分の総和や色ヒストグラムの差分があげられる。また、ディゾルブやフェードなどの複数のフレーム画像に渡るショット境界を検出する場合、連続したフレーム画像列を入力すればよい。
近年、機械学習によってショット境界を検出する手法が用いられている。例えば、機械学習によるショット境界検出のアプローチには、2枚のフレーム画像から輝度又は色の差分などの物理的な特徴量を求め、それらを特徴ベクトルとしてサポートベクターマシン(SVM)で判定するものがある。
図10(a)には、隣接する2枚のフレーム画像から特徴量を算出し、その間にショット境界が存在するか否かをSVMで検出する手法を図示した。具体的には、フレーム画像をN個のブロックに分割し、各ブロックから輝度ヒストグラムの差分を算出する。そして、輝度ヒストグラムの差分を連結し、特徴ベクトル(di,0,0,…,di,j,c,…,di,N,M)を生成する。ここで、輝度ヒストグラムの絶対差分di,j,cは、以下の式(1)で表される。なお、di,j,cは、i番目のフレーム画像のj番目のブロックにおいて、M段階で表される輝度レベルcを有する画素の総数を表す(但し、i=1,2,…,k)。
Figure 2022190958000002
なお、物理的な特徴量として、ブロック毎の輝度ヒストグラムの絶対差分ではなく、ブロック内の各画素の輝度の平均値の差分、エッジ方向毎に画素の頻度を求めたエッジ方向ヒストグラム、SURFを利用してもよい(非特許文献1)。
図10(b)に示すように、ニューラルネットワークを利用して、ショット境界を検出する手法も提案されている(非特許文献2及び3)。SVMを用いる手法との違いは、2枚のフレーム画像をそのままニューラルネットワークに入力し、ショット境界を検出する点である。複数のフレーム画像に渡るショット境界を検出する場合、SVMと同様、連続したフレーム画像列を入力すればよい。
H. Bay, T. Tuytelaars, and L. Van Gool. SURF: Speeded-up robust features, ECCV2006. M. Gygli: Ridiculously Fast Shot Boundary Detection with Fully Convolutional Neural Networks, arXiv:1705.08214v1, 2017. T. Soucek, J. Moravec, J. Lokoc: TransNet: A deep network for fast detection of common shot transitions, arXiv:1906.03363v1, 2019.
複数のフレーム画像に渡ってショットを切り替える手法のひとつとして、2次元的又は3次元的なショット境界の移動、拡大又は縮小などを組み合わせたものがある(トランジションと呼ばれる場合もある)。前記した従来手法では、輝度、色又はエッジなどの物理的な特徴量のみを用いるため、これらのショット境界を正確に検出できないという問題がある。
図11(a)及び図11(b)に示すように、複数のフレーム画像に渡って徐々に、ショットAからショットBに切り替える場合を考える。図11(a)の例は、ショットBの領域が徐々に拡大してショットAからショットBに切り替わるものである。また、図11(b)の例は、画面右側からショットBの領域が画面左側に移動し、ショットAからショットBに切り替わるものである。図11(a)及び図11(b)の何れも、ショットの切り替え方法として一般的なものである。
ここで、ショット境界か否かの判定が困難となる場合を考える。図11(a)の例では、室内から玄関を通って室外に出るシーンの場合、ショット境界として判定すべきではない。図11(b)の例では、ビルの角から向こう側をのぞくシーンや、縦に線がある単一のオブジェクトをパンで撮影するシーンの場合、ショット境界と判別すべきでない。特に、CGを多用した映像やアニメーションの場合には、ショット境界か否かの判断が困難となるケースが多い。CGは実写と異なるため、例えば、ドアのつもりで描かれている枠なのか、又は、次のショットをドア風の枠で囲っているだけなのか、たまたまドアに見えるだけなのかなど、ショット境界か否かの判定が困難な場合が想定される。
そこで、本発明は、複数のフレーム画像に渡るショット境界を正確に検出できるショット境界検出装置、ショット境界学習装置及びそれらのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係るショット境界検出装置は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するショット境界検出装置であって、画像特徴量算出部と、物体特徴量算出部と、特徴量結合部と、判定部と、を備える構成とした。
かかる構成によれば、画像特徴量算出部は、フレーム画像の物理的な特徴量である画像特徴量を算出する。
物体特徴量算出部は、物体の種類を示す物体ラベルが付与された学習用画像群を予め学習した物体特徴ニューラルネットワークを用いて、フレーム画像の内容が反映された物体特徴量を算出する。
なお、物体特徴量算出部は、物体特徴ニューラルネットワークではなく、エッジなどの一般的な画像特徴に基づく物体特徴量や、ニューラルネットワーク以外の機械学習により物体特徴量を算出してもよい。
特徴量結合部は、画像特徴量及び物体特徴量が結合した結合特徴量を算出する。
判定部は、結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定する。
また、前記課題を解決するため、本発明に係るショット境界学習装置は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するためのニューラルネットワークを学習するショット境界学習装置であって、画像特徴量学習部と、物体特徴量学習部と、ショット境界学習部と、を備える構成とした。
かかる構成によれば、画像特徴量学習部は、フレーム画像の物理的な特徴量である画像特徴量を算出するための画像特徴量ニューラルネットワークを学習する。
物体特徴量学習部は、フレーム画像の内容が反映された物体特徴量を算出するための物体特徴ニューラルネットワークを学習する。
ショット境界学習部は、画像特徴量及び物体特徴量が結合した結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定するための境界判定ニューラルネットワークを学習する。
すなわち、複数のフレーム画像に渡るショット境界を正確に検出するためには、各ショットに映っている物体の種類や各ショットに映っている物体の関係などのフレーム画像の内容を考慮する必要がある。そこで、本発明は、従来の物理的な画像特徴量に加えて、フレーム画像の内容を反映した物体特徴量を用いることで、より正確にショット境界を検出できるようにした。
なお、本発明は、コンピュータを、前記したショット境界検出装置又はショット境界学習装置として機能させるためのプログラムで実現することもできる。
本発明によれば、複数のフレーム画像に渡るショット境界を正確に検出することができる。
第1実施形態に係るショット境界検出装置の構成を示すブロック図である。 第1実施形態において、画像特徴量ニューラルネットワークの一例を説明する説明図である。 第1実施形態において、畳み込みニューラルネットワークの一例を説明する説明図である。 第1実施形態において、物体特徴ニューラルネットワークの一例を説明する説明図である。 第1実施形態において、特徴ベクトルの変換を説明する説明図である。 第1実施形態に係るショット境界検出装置の動作を示すフローチャートである。 第1実施形態に係るショット境界学習装置の構成を示すブロック図である。 (a)及び(b)は、第1実施形態においてショット境界学習装置の学習を説明する説明図である。 第1実施形態に係るショット境界検出装置の構成を示すブロック図である。 (a)及び(b)は、従来のショット境界検出手法を説明する説明図である。 (a)及び(b)は、複数のフレーム画像に渡るショット境界の一例を説明する説明図である。
以下、本発明の各実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
(第1実施形態)
[ショット境界検出装置の構成]
図1を参照し、第1実施形態に係るショット境界検出装置1の構成について説明する。
ショット境界検出装置1は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するものである。本実施形態では、ショット境界検出装置1は、後記するショット境界学習装置2(図7)で学習したニューラルネットワークを用いて、ショット境界を検出することとする。図1に示すように、ショット境界検出装置1は、画像入力部10と、画像特徴量算出部11と、物体特徴量算出部12と、特徴量結合部13と、判定部14とを備える。
画像入力部10は、ショット境界の検出対象となるフレーム画像列(映像)が入力されるものである。このフレーム画像列は、その内容や長さが特に制限されない。そして、画像入力部10は、入力されたフレーム画像列を画像特徴量算出部11及び物体特徴量算出部12に出力する。
画像特徴量算出部11は、フレーム画像の物理的な特徴量である画像特徴量を算出するものである。本実施形態では、画像特徴量算出部11は、予め学習した画像特徴量ニューラルネットワークを用いて、画像入力部10より入力されたフレーム画像列から画像特徴量を算出する。
ここで、画像特徴量算出部11は、画像特徴量ニューラルネットワークとして、畳み込みニューラルネットワークを利用できる。例えば、畳み込みニューラルネットワークでは、図2に示すように、連続する3枚のフレーム画像i,i+1,i+2において、空間方向(x方向、y方向)及び時間方向(z方向)の3次元畳み込みフィルタを利用できる。図3に示すように、畳み込みニューラルネットワークは、畳み込み層(Conv1~4)と、最大プーリング層(Max pooling)とを交互に適用する構造を有する。なお、図3では、Conv1~4の後ろに、カーネルサイズ及び出力チャンネルを記載した。例えば、Conv1は、カーネルサイズが5×5×3であり、出力チャンネルが48である。
その他、画像特徴量算出部11は、画像特徴量ニューラルネットワークとして、AlexNet、ResNetなどの一般的なニューラルネットワークを利用してもよい(参考文献1,2)。
参考文献1:Alex Krizhevsky & Ilya Sutskever & Geoffrey E. Hinton:ImageNet Classification with Deep Convolutional Neural Networks, 2012.
参考文献2:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun:Deep Residual Learning for Image Recognition, arXiv:1512.03385, 2015.
画像特徴量算出部11は、算出した画像特徴量(画像特徴量ニューラルネットワークが出力したスコア)を特徴量結合部13に出力する。なお、画像特徴量の出力形式については、詳細を後記する。
物体特徴量算出部12は、物体特徴ニューラルネットワークを用いて、フレーム画像の内容が反映された物体特徴量を算出するものである。本実施形態では、画像入力部10より入力されたフレーム画像列から物体特徴量を算出する。
なお、物体特徴ニューラルネットワークとは、物体の種類を示す物体ラベルが付与された学習用画像群を予め学習したニューラルネットワークのことである。また、物体ラベルとは、各フレーム画像に含まれる様々な物体(例えば、自動車、バイク、テーブル)の種類を示すラベルのことである。つまり、物体特徴ニューラルネットワークは、物体ラベルが付与された大量の学習用画像を用いて事前に学習したものであり、フレーム画像を入力すると、物体ラベル毎のスコア(確率値)を出力する。例えば、物体特徴ニューラルネットワークとして、SSD(Single Shot Multibox Detector)、AlexNet、ResNetなどの一般的なニューラルネットワークを利用できる(参考文献3)。
参考文献3:Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg: SSD: Single Shot MultiBox Detector, ECCV2016.
ここで、物体特徴量算出部12は、以下で説明する理由により、物体特徴ニューラルネットワークの出力層より予め設定した数だけ前の層のスコアを用いて、物体特徴量を算出することが好ましい。図4に示すように、一般的な畳み込みニューラルネットワークは、畳み込み層(Conv)及びプーリング層(Pool)が交互に続いた後、数層の全結合層(Fc)が続く構造を有する。後段の全結合層の出力は、物体ラベル毎のスコアという意味合いが大きく、物体ラベルの種類に大きく依存すると考えられる。従って、当初想定されていなかった物体が映っていた場合、全結合層の出力を使用すると、ショット境界を正確に検出できない可能性がある。
一方、前段の各層の出力は、物体の種類を判定するための材料となる特徴量という意味合いが大きく、物体ラベルの種類にさほど依存せず、汎用性が高いと考えられる。つまり、前段の各層の出力は、フレーム画像から抽出した物体の汎用的な特徴を表していると考えられる。従って、当初想定されていなかった物体が映っていた場合でも、前段の各層の出力を使用すれば、ショット境界を正確に検出できる。そこで、物体特徴ニューラルネットワークが畳み込みニューラルネットワークの場合、全結合層の直前に位置するプーリング層の出力(スコア)を用いることが好ましい。
物体特徴量算出部12は、算出した物体特徴量(物体特徴ニューラルネットワークが出力したスコア)を特徴量結合部13に出力する。なお、物体特徴量の出力形式については、詳細を後記する。
特徴量結合部13は、画像特徴量及び物体特徴量が結合した結合特徴量を算出し、算出した結合特徴量を判定部14に出力するものである。本実施形態では、特徴量結合部13は、以下で説明する第1の結合手法又は第2の結合手法の何れかを利用することとする。
<第1の結合手法:1次元の特徴ベクトル>
第1の結合手法は、画像特徴量算出部11から入力された画像特徴量及び物体特徴量算出部12から入力された物体特徴量を1次元のベクトルとして結合する手法である。具体的には、特徴量結合部13は、長さmの画像特徴ベクトルと長さnの物体特徴ベクトルをそれぞれ1次元に変換した後、両特徴ベクトルを連結することで、長さ(m+n)の結合特徴ベクトルを生成する。また、特徴量結合部13は、長さmの画像特徴ベクトルと長さnの物体特徴ベクトルそれぞれ1次元に変換した後、両特徴ベクトルを加算することで、結合特徴ベクトルを生成してもよい。
ここで、画像特徴量及び物体特徴量の出力形式を補足する。例えば、平坦化を行うことで、画像特徴ベクトル及び物体特徴ベクトルをそれぞれ1次元のベクトルに変換できる。この平坦化とは、n行m列の2次元の情報を、長さがn×mの1次元のベクトルに変換する処理のことである。図5に示すように、畳み込みニューラルネットワークでは、フレーム画像内で位置を変えながら畳み込みを行い、畳み込み層から2次元の情報を出力する。そして、畳み込みニューラルネットワークでは、平坦化として、2次元の情報を1次元に変換し、全結合層に入力する。
なお、特徴ベクトル同士を加算する場合、画像特徴量算出部11及び物体特徴量算出部12では、画像特徴ベクトル及び物体特徴ベクトルの長さを等しくする必要がある(m=n)。ニューラルネットワークでは、全結合層を1層追加するだけで、特徴ベクトルの長さを任意に調整できる。
<第2の結合手法:3次元特徴量>
第2の結合手法は、画像特徴量算出部11から入力された画像特徴量及び物体特徴量算出部12から入力された物体特徴量を、2次元の情報(画像内における各画素の位置情報k,l)を保持したまま結合する手法である。つまり、特徴量結合部13は、k×l×c1の3次元の画像特徴量と、k×l×c2の3次元の物体特徴量とを結合する。具体的には、特徴量結合部13は、画像特徴量及び物体特徴量を特徴チャンネル方向に連結し、k×l×(c1+c2)の行列を3次元特徴量として生成する。
なお、k及びlは、フレーム画像における縦方向及び横方向の次元に相当するものである。c1及びc2は、特徴チャンネル(特徴量の種類)を表す次元である。
ここで、2次元の情報を保持する場合において、画像特徴量及び物体特徴量の出力形式を補足する。この場合、画像特徴量算出部11及び物体特徴量算出部12では、画像特徴ベクトル及び物体特徴ベクトルを平坦化せず、2次元の情報を保持したまま特徴量結合部13に出力すればよい。
この他、特徴量結合部13は、画像特徴量及び物体特徴量の行列を加算し、3次元特徴量を生成してもよい。この場合、画像特徴量算出部11及び物体特徴量算出部12では、特徴チャンネルc1及びc2の長さを等しくする必要がある。ニューラルネットワークでは、カーネルサイズを1×1、出力チャンネル数を目的のチャンネル数とした畳み込み層を1層追加するだけで、チャンネル数を任意に調整できる。
図1に戻り、ショット境界検出装置1の説明を続ける。
判定部14は、特徴量結合部13から入力された結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定するものである。本実施形態では、判定部14は、予め学習した境界判定ニューラルネットワークを用いて、ショット境界がフレーム画像列に含まれるか否かを判定する。
ここで、判定部14は、境界判定ニューラルネットワークとして、画像特徴量算出部11と同様、畳み込み層と最大プーリング層とを交互に連結した畳み込みニューラルネットワークを利用できる。また、判定部14は、境界判定ニューラルネットワークとして、AlexNet、ResNetなどの一般的なニューラルネットワークを利用できる。
判定部14は、ショット境界がフレーム画像列に含まれるか否かの判定結果を任意の手法で出力する。例えば、判定部14は、判定結果をディスプレイ(不図示)に表示してもよく、他のコンピュータに判定結果を送信してもよい。
[ショット境界検出装置の動作]
図6を参照し、ショット境界検出装置1の動作について説明する。
図6に示すように、ステップS1において、ショット境界検出装置1は、画像入力部10に入力された全フレーム画像の処理が完了したか否かを判定する。
処理が完了していない場合(ステップS1でNo)、ショット境界検出装置1は、ステップS2の処理に進む。
処理が完了した場合(ステップS1でYes)、ショット境界検出装置1は、動作を終了する。
ステップS2において、画像特徴量算出部11は、フレーム画像iから画像特徴量を算出する。
ステップS3において、物体特徴量算出部12は、フレーム画像iから物体特徴量を算出する。
ステップS4において、特徴量結合部13は、ステップS2の画像特徴量及びステップS3の物体特徴量が結合した結合特徴量を算出する。
ステップS5において、判定部14は、ステップS4の結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定する。
ステップS6において、ショット境界検出装置1は、カウンタiをインクリメントし、ステップS1の処理に戻る。
[ショット境界学習装置の構成]
図7を参照し、第1実施形態に係るショット境界学習装置2の構成について説明する。
ショット境界学習装置2は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するためのニューラルネットワークを学習するものである。図7に示すように、ショット境界学習装置2は、画像入力部20と、画像特徴量学習部21と、物体特徴量学習部22と、ショット境界学習部23とを備える。
画像入力部20は、ニューラルネットワークの学習対象となるフレーム画像列(第1学習用画像群、第2学習用画像群)が入力されるものである。そして、画像入力部20は、入力されたフレーム画像列を画像特徴量学習部21及び物体特徴量学習部22に出力する。
画像特徴量学習部21は、画像特徴量算出部11(図1)が用いる画像特徴量ニューラルネットワークを学習するものである。
物体特徴量学習部22は、物体特徴量算出部12が用いる物体特徴ニューラルネットワークを学習するものである。
ショット境界学習部23は、判定部14が用いる境界判定ニューラルネットワークを学習するものである。
<ニューラルネットワークの学習>
図8を参照し、ニューラルネットワークの学習手法を詳細に説明する。
ここで、ショット境界学習装置2は、ニューラルネットワークの学習を2段階で行うので順に説明する。
図8(a)に示すように、第1学習段階では、物体ラベルが付与された第1学習用画像群を画像入力部20に入力し、物体特徴ニューラルネットワークN1を学習する。具体的には、物体特徴量学習部22は、撮影された物体の種類を示す物体ラベルが付与された第1学習用画像群から、物体ラベル毎のスコアを出力するように物体特徴ニューラルネットワークN1を学習する。例えば、物体特徴ニューラルネットワークN1の出力は、バイクのスコアが「0.99」、自動車のスコア「0.10」のように、物体ラベル毎のスコア(確率値)が格納されたベクトルとなる。
図8(b)に示すように、第2学習段階では、ショット境界ラベルが付与された第2学習用画像群を画像入力部20に入力し、境界判定ニューラルネットワークN3を学習する。この第2学習段階は、第1学習段階が終了した後に行う。
具体的には、画像特徴量学習部21は、ショット境界であるか否かを示すショット境界ラベルが付与された第2学習用画像群から、ランダムな値を初期値として、画像特徴量ニューラルネットワークN2を学習する。この画像特徴量ニューラルネットワークN2は、最後尾の層を出力する(ハッチングで図示)。
続いて、物体特徴量学習部22は、第2学習用画像群から、第1学習段階で学習したパラメータを初期値として、出力層より予め設定した数だけ前の層のスコアを物体特徴量として出力するように物体特徴ニューラルネットワークN1を再度学習する。この物体特徴ニューラルネットワークN1は、前記したように、物体の汎用的な特徴を表すことから、全結合層の直前に位置する層を出力する(ハッチングで図示)。
続いて、ショット境界学習部23は、画像特徴量及び物体特徴量が結合した結合特徴量に基づいて、境界判定ニューラルネットワークN3を学習する。つまり、ショット境界学習部23は、物体特徴ニューラルネットワークN1及び画像特徴量ニューラルネットワークN2の出力が結合した結合特徴量を入力し、ランダムな値を初期値として学習を行う。この境界判定ニューラルネットワークN3は、ショット境界であるか否かのスコアを出力する。
[作用・効果]
以上のように、第1実施形態では、ショット境界検出装置1及びショット境界学習装置2は、従来の物理的な画像特徴量に加えて、フレーム画像の内容を反映した物体特徴量を用いることとした。これにより、ショット境界検出装置1は、各ショットに映っている物体の種類や各ショットに映っている物体の関係などのフレーム画像の内容を考慮することが可能となり、より正確にショット境界を検出できる。
さらに、ショット境界学習装置2は、物体特徴ニューラルネットワークN1を事前に学習した後、その物体特徴ニューラルネットワークN1の学習結果を境界判定ニューラルネットワークN3に反映させて再度学習する。これにより、ショット境界検出装置1は、ショット境界検出の正確性をさらに向上させることができる。
(第2実施形態)
[ショット境界検出装置の構成]
図9を参照し、第2実施形態に係るショット境界検出装置3の構成について説明する。
ショット境界検出装置3は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するものである。本実施形態では、ショット境界検出装置3は、サポートベクターマシン(SVM:Support Vector Machine)などの機械学習を用いて、ショット境界を検出することとする。図9に示すように、ショット境界検出装置3は、画像入力部30と、画像特徴量算出部31と、物体特徴量算出部32と、特徴量結合部33と、判定部34とを備える。
画像入力部30は、ショット境界の検出対象となるフレーム画像列(映像)が入力されるものである。そして、画像入力部30は、入力されたフレーム画像列を画像特徴量算出部31及び物体特徴量算出部32に出力する。
画像特徴量算出部31は、フレーム画像の物理的な特徴量である画像特徴量を算出し、算出した画像特徴量を特徴量結合部13に出力するものである。本実施形態では、画像特徴量算出部31は、画像入力部10より入力されたフレーム画像列から、輝度値やエッジなどの情報に基づいて、フレーム画像間の類似性を示す画像特徴量を算出する。例えば、画像特徴量算出部31は、画像特徴量として、ブロック毎の輝度ヒストグラムの絶対差分を算出する。また、画像特徴量算出部31は、画像特徴量として、SURFなどの特徴ベクトルを算出してもよい。
この他、画像特徴量算出部31は、式(2)に示すように輝度値の絶対差分、又は、式(3)に示すように輝度値の絶対差分二乗和を画像特徴量として算出してもよい。なお、f(x,y)は、i番目のフレーム画像の座標(x,y)における画素値(輝度値)を表す。また、x,y∈jは、i番目のフレーム画像でj番目のブロックに所属する座標値を表す。
Figure 2022190958000003
物体特徴量算出部32は、フレーム画像の内容が反映された物体特徴量を算出するものである。本実施形態では、物体特徴量算出部32は、物体特徴量として、物体の種類を区別できるように、物体の汎用的な特徴を表す特徴量を表すベクトルを算出する。この物体特徴量は、同種の物体の場合、近似した値となり、異なる種類の物体の場合、異なる値となればよい。例えば、物体特徴量としては、SIFT(Scale-Invariant Feature Transform)、SURF、HOG(Histograms of Oriented Gradients)などの局所特徴量を利用するBag of Visual Wordsがあげられる。また、物体特徴量として、フレーム画像の各領域に含まれる画素の画素値の平均値、又は、フレーム画像の周波数特徴量を用いてもよい。そして、物体特徴量算出部32は、算出した物体特徴量を特徴量結合部33に出力する。
特徴量結合部33は、画像特徴量及び物体特徴量が結合した結合特徴量を算出するものである。本実施形態では、特徴量結合部33は、画像特徴量算出部31から入力された画像特徴量及び物体特徴量算出部32から入力された物体特徴量算を結合した多次元の特徴量を算出する。そして、特徴量結合部33は、算出した結合特徴量を判定部34に出力する。
判定部34は、特徴量結合部33から入力された結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定するものである。本実施形態では、判定部34は、SVMなどの一般的な機械学習により、ショット境界がフレーム画像列に含まれるか否かを判定する。例えば、判定部34は、予めパラメータを学習したSVMに結合特徴量を入力することで、SVMから判定結果が得られる。
判定部34は、ショット境界がフレーム画像列に含まれるか否かの判定結果を任意の手法で出力する。例えば、判定部34は、判定結果をディスプレイ(不図示)に表示してもよく、他のコンピュータに定結果を送信してもよい。
以下、ショット境界検出装置3での学習手法を補足する。
機械学習としてSVMを用いる場合、ショット境界検出装置3では、教師あり学習を行えばよい。具体的には、画像入力部30には、ショット境界であるか否かを示すショット境界ラベルが付与された学習用画像を入力する。また、画像特徴量算出部31及び物体特徴量算出部32は、前記と同様、境界ラベルが付与された学習用画像から画像特徴量及び物体特徴量をそれぞれ算出する。また、特徴量結合部33は、前記と同様、境界ラベルが付与された学習用画像についての結合特徴量を算出する。そして、判定部34は、SVMの判定結果と境界ラベルとの誤差が少なくなるようにSVMのパラメータを学習する。
[作用・効果]
以上のように、第2実施形態では、ショット境界検出装置3は、従来の物理的な画像特徴量に加えて、フレーム画像の内容を反映した物体特徴量を用いることとした。これにより、ショット境界検出装置3は、各ショットに映っている物体の種類や各ショットに映っている物体の関係などのフレーム画像の内容を考慮することが可能となり、より正確にショット境界を検出できる。
以上、各実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した第2実施形態では、機械学習としてSVMを用いることとして説明したが、これに限定されない。例えば、機械学習として、決定木、遺伝的アルゴリズム、ベイジアンネットワークなどの教師あり学習を用いることができる。
前記した各実施形態では、ショット境界検出装置及びショット境界学習装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記したショット境界検出装置又はショット境界学習装置装置として動作させるプログラムで実現することもできる。これらプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
1,3 ショット境界検出装置
10,30 画像入力部
11,31 画像特徴量算出部
12,32 物体特徴量算出部
13,33 特徴量結合部
14,34 判定部
2 ショット境界学習装置
20 画像入力部
21 画像特徴量学習部
22 物体特徴量学習部
23 ショット境界学習部

Claims (9)

  1. フレーム画像が連続するフレーム画像列から、複数の前記フレーム画像に渡るショット境界を検出するショット境界検出装置であって、
    前記フレーム画像の物理的な特徴量である画像特徴量を算出する画像特徴量算出部と、
    物体の種類を示す物体ラベルが付与された学習用画像群を予め学習した物体特徴ニューラルネットワークを用いて、前記フレーム画像の内容が反映された物体特徴量を算出する物体特徴量算出部と、
    前記画像特徴量及び前記物体特徴量が結合した結合特徴量を算出する特徴量結合部と、
    前記結合特徴量に基づいて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定する判定部と、
    を備えることを特徴とするショット境界検出装置。
  2. 前記物体特徴量算出部は、前記物体特徴ニューラルネットワークの出力層より予め設定した数だけ前の層のスコアを用いて、前記物体特徴量を算出することを特徴とする請求項1に記載のショット境界検出装置。
  3. 前記画像特徴量算出部は、予め学習した画像特徴量ニューラルネットワークを用いて、前記フレーム画像列から前記画像特徴量を算出し、
    前記判定部は、予め学習した境界判定ニューラルネットワークを用いて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定することを特徴とする請求項1又は請求項2に記載のショット境界検出装置。
  4. フレーム画像が連続するフレーム画像列から、複数の前記フレーム画像に渡るショット境界を検出するためのニューラルネットワークを学習するショット境界学習装置であって、
    前記フレーム画像の物理的な特徴量である画像特徴量を算出するための画像特徴量ニューラルネットワークを学習する画像特徴量学習部と、
    前記フレーム画像の内容が反映された物体特徴量を算出するための物体特徴ニューラルネットワークを学習する物体特徴量学習部と、
    前記画像特徴量及び前記物体特徴量が結合した結合特徴量に基づいて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定するための境界判定ニューラルネットワークを学習するショット境界学習部と、
    を備えることを特徴とするショット境界学習装置。
  5. 第1学習段階として、
    前記物体特徴量学習部は、撮影された物体の種類を示す物体ラベルが付与された第1学習用画像群から、前記物体ラベル毎のスコアを出力するように前記物体特徴ニューラルネットワークを学習し、
    第2学習段階として、
    前記画像特徴量学習部は、前記ショット境界であるか否かを示すショット境界ラベルが付与された第2学習用画像群から、前記画像特徴量ニューラルネットワークを学習し、
    前記物体特徴量学習部は、前記第2学習用画像群から、前記物体特徴ニューラルネットワークの出力層より予め設定した数だけ前の層のスコアを前記物体特徴量として出力するように前記物体特徴ニューラルネットワークを再度学習し、
    前記ショット境界学習部は、前記結合特徴量に基づいて、前記境界判定ニューラルネットワークを学習することを特徴とする請求項4に記載のショット境界学習装置。
  6. フレーム画像が連続するフレーム画像列から、複数の前記フレーム画像に渡るショット境界を検出するショット境界検出装置であって、
    前記フレーム画像の物理的な特徴量である画像特徴量を算出する画像特徴量算出部と、
    -前記フレーム画像の内容が反映された物体特徴量を算出する物体特徴量算出部と、
    前記画像特徴量及び前記物体特徴量が結合した結合特徴量を算出する特徴量結合部と、
    前記結合特徴量に基づいて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定する判定部と、
    を備えることを特徴とするショット境界検出装置。
  7. 前記判定部は、機械学習により、前記ショット境界が前記フレーム画像列に含まれるか否かを判定することを特徴とする請求項6に記載のショット境界検出装置。
  8. コンピュータを、請求項1から請求項3の何れか一項、請求項6又は請求項7に記載のショット境界検出装置として機能させるためのプログラム。
  9. コンピュータを、請求項4又は請求項5に記載のショット境界学習装置として機能させるためのプログラム。
JP2021099504A 2021-06-15 2021-06-15 ショット境界検出装置、ショット境界学習装置及びそれらのプログラム Pending JP2022190958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021099504A JP2022190958A (ja) 2021-06-15 2021-06-15 ショット境界検出装置、ショット境界学習装置及びそれらのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021099504A JP2022190958A (ja) 2021-06-15 2021-06-15 ショット境界検出装置、ショット境界学習装置及びそれらのプログラム

Publications (1)

Publication Number Publication Date
JP2022190958A true JP2022190958A (ja) 2022-12-27

Family

ID=84612755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021099504A Pending JP2022190958A (ja) 2021-06-15 2021-06-15 ショット境界検出装置、ショット境界学習装置及びそれらのプログラム

Country Status (1)

Country Link
JP (1) JP2022190958A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975020A (zh) * 2024-03-07 2024-05-03 中南大学 一种基于非对称卷积多层次注意网络的微镜头分割方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975020A (zh) * 2024-03-07 2024-05-03 中南大学 一种基于非对称卷积多层次注意网络的微镜头分割方法

Similar Documents

Publication Publication Date Title
US10254845B2 (en) Hand gesture recognition for cursor control
Xiong et al. Spatiotemporal modeling for crowd counting in videos
US20180189556A1 (en) Hand gesture recognition for virtual reality and augmented reality devices
CN110781350B (zh) 一种面向全画面监控场景的行人检索方法及***
US9179071B2 (en) Electronic device and image selection method thereof
WO2020052476A1 (zh) 特征点定位方法、存储介质和计算机设备
US10217221B2 (en) Place recognition algorithm
JP2021506017A (ja) 物体検出器及び物体検出方法
WO2018082308A1 (zh) 一种图像处理方法及终端
EP3204888A1 (en) Spatial pyramid pooling networks for image processing
KR20170047167A (ko) 전자 장치가 동영상의 얼굴의 인상을 변형하는 방법 및 그 전자 장치
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
Huang et al. S3: Learnable sparse signal superdensity for guided depth estimation
CN111723713B (zh) 一种基于光流法的视频关键帧提取方法及***
Afifi et al. Object depth estimation from a single image using fully convolutional neural network
Giang et al. TopicFM: Robust and interpretable topic-assisted feature matching
Berral-Soler et al. RealHePoNet: a robust single-stage ConvNet for head pose estimation in the wild
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
JP2022190958A (ja) ショット境界検出装置、ショット境界学習装置及びそれらのプログラム
Zhao et al. Learning probabilistic coordinate fields for robust correspondences
US11238309B2 (en) Selecting keypoints in images using descriptor scores
KR102572415B1 (ko) 레퍼런스 이미지의 검증을 통해 자연스러운 3차원 디지털 트윈을 생성하기 위한 방법 및 장치
CN116468753A (zh) 目标追踪方法、装置、设备、存储介质和程序产品
CN111915713A (zh) 一种三维动态场景的创建方法、计算机设备、存储介质
Wang et al. Pixel-wise video stabilization