JP2022169009A - Program, information processing method, and information processing device - Google Patents
Program, information processing method, and information processing device Download PDFInfo
- Publication number
- JP2022169009A JP2022169009A JP2021074755A JP2021074755A JP2022169009A JP 2022169009 A JP2022169009 A JP 2022169009A JP 2021074755 A JP2021074755 A JP 2021074755A JP 2021074755 A JP2021074755 A JP 2021074755A JP 2022169009 A JP2022169009 A JP 2022169009A
- Authority
- JP
- Japan
- Prior art keywords
- shot
- group
- score
- shots
- shot group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、動画要約におけるプログラム、情報処理方法及び情報処理装置に関する。 The present invention relates to a program, an information processing method, and an information processing apparatus for summarizing moving images.
近年、動画からより短い長さの要約動画を生成するため、深層学習の応用が試みられている。例えば、下記非特許文献1には、教師あり学習によって要約動画をつくるニューラルネットワークを生成する研究が記載されている。ここで、教師あり学習に用いる学習動画には、動画のフレーム毎に要約動画に含めるか否かを示すラベルが付与される。また、下記非特許文献2には、深層強化学習を用いて、教師なしで要約動画を生成する研究が記載されている。
Recently, applications of deep learning have been attempted to generate short-length digest videos from videos. For example, Non-Patent
しかしながら、非特許文献1のように教師あり学習によって動画を要約する学習モデルを生成する場合、動画のフレーム全てにラベル付けをする必要があり、アノテーションコストが膨大となる。
However, when generating a learning model that summarizes a moving image by supervised learning as in Non-Patent
この点、非特許文献2ではラベル付けが不要だが、要約動画全体に対して強化学習の報酬を算出し、その報酬を、個々のフレームを要約動画に含めるか否かを選択する行動に分配しているため、報酬に差が付きづらく、適切な要約動画を生成することが難しいことがある。 In this regard, although labeling is not required in Non-Patent Document 2, the reward for reinforcement learning is calculated for the entire summarized video, and the reward is distributed to actions that select whether or not to include individual frames in the summarized video. Therefore, it is difficult to differentiate the rewards, and it is difficult to generate an appropriate summary video.
そこで、本発明は、動画要約に対照学習を適用し、教師なし学習であっても適切な要約動画を生成することができるプログラム、情報処理方法及び情報処理装置を提供することを目的の一つとする。 Accordingly, one of the objects of the present invention is to provide a program, an information processing method, and an information processing apparatus capable of applying contrast learning to video summarization and generating an appropriate summary video even in unsupervised learning. do.
本発明の一態様に係るプログラムは、情報処理装置に、複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成すること、前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、選択されたショットに基づいて、要約動画を生成することと、を実行させる。 A program according to an aspect of the present invention instructs an information processing device to convert a moving image including a plurality of frames into a plurality of shots that are fewer in number than the plurality of frames, and convert a first shot group including the plurality of shots into On the other hand, a first process for maintaining relevance with the moving image is added to the plurality of shots to generate a second shot group, and a second process for eliminating relevance to the moving image is performed by performing the first processing on the plurality of shots. generating a third shot group in addition to the shots, setting the first shot group as an anchor, the second shot group as a positive example, and the third shot group as a negative example; calculating a score for each shot by a learning model generated by self-supervised contrast learning on whether to include each shot in a video summary, for each group and said third shot group, said first shot group a first degree of similarity based on the score of each shot in the second shot group and the score of each shot in the second shot group, and the score of each shot in the first shot group and the score of each shot in the third shot group Based on the score of each shot in the first shot group calculated by the learning model optimized using a loss function including a first function using 2 similarities and another second function, Selecting whether or not to include each shot in the digest video, and generating the digest video based on the selected shots are executed.
本発明によれば、動画要約に対照学習を適用し、教師なし学習であっても適切な要約動画を生成することができるプログラム、情報処理方法及び情報処理装置を提供することができる。 According to the present invention, it is possible to provide a program, an information processing method, and an information processing apparatus capable of applying contrast learning to video summarization and generating an appropriate summary video even with unsupervised learning.
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。 Embodiments of the present invention will be described with reference to the accompanying drawings. It should be noted that, in each figure, the same reference numerals have the same or similar configurations.
<構成>
図1は、本発明の実施形態に係る情報処理装置10の処理構成の一例を示すブロック図である。情報処理装置10は、取得部11、変換部12、第1生成部13、算出部14、選択部15及び第2生成部16を備える。
<Configuration>
FIG. 1 is a block diagram showing an example processing configuration of an
取得部11は、動画データベースDBから動画を取得する。動画データベースDBは、任意の動画を格納するデータベースであり、例えば公開されている動画データセットを含む。動画データベースDBは、例えば、SumMeデータセット(Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool, "Creating Summaries from User Videos," ECCV 2014.)や、TVSumデータセット(Song, Yale, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes, "TVSum: Summarizing web videos using titles," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5179-5187, 2015.)、OVP(Open Video Project)(https://open-video.org/)、YouTube(登録商標)のデータセット、又はユーザ等により撮影された所定の動画を含んでよい。
変換部12は、任意の自然数をNと表すとき、動画に含まれる複数のフレームを、複数のフレームより数が少ない複数のNのショットに変換する。例えば、変換部12は、複数のフレームを画像特徴量に変換し、画像特徴量の類似度に基づいて、複数のフレームの画像特徴量からNのショットを抽出してよい。ここで、フレームの画像特徴量は、CNN(Convolutional Neural Network)の特徴マップであってよい。
The
また、変換部12は、例えば、D. Potapov, M. Douze, Z. Harchaoui, and C. Schmid, "Category-specific video summarization," ECCV 2014.に記載されいてる技術を用いて、動画に含まれる複数のフレームを、複数のフレームより数が少ないNのショットに変換してよい。変換部12によって、代表的なショットを抽出して、適切な要約動画が生成されるようにすることができる。
Also, the
第1生成部13は、変換された複数のショットを含む第1ショット群に対し、元の動画との関連性維持に関する第1処理を複数のショットに加えて第2ショット群を生成する。また、第1生成部13は、変換された複数のショットを含む第1ショット群に対し、第1処理よりも元の動画との関連性をなくす第2処理を複数のショットに加えて第3ショット群を生成する。
The
例えば、第1生成部13は、第1ショット群の各ショットの順番を逆順にする処理を実行し、第2ショット群を生成してよい。また、第1生成部13は、第1ショット群の各ショットの順番をランダムにする処理を実行し、第3ショット群を生成してよい。
For example, the
ここで、本実施形態では,教師なし学習に分類される自己教師ありの対照学習を用いるため、第1ショット群はアンカーに設定され、第2ショット群は正例(ポジティブサンプル)に設定され、第3ショット群は負例(ネガティブサンプル)に設定される。このように各サンプルが設定されることで、各サンプルのショット数がアンカーのショット数と同数になり、損失関数に用いる各ショットの類似度の算出など効率よく学習を行うことが可能になる。 Here, in this embodiment, since self-supervised contrastive learning classified as unsupervised learning is used, the first shot group is set as an anchor, the second shot group is set as a positive example (positive sample), The third shot group is set as a negative example (negative sample). By setting each sample in this way, the number of shots in each sample becomes the same as the number of shots in the anchor, enabling efficient learning such as calculation of the similarity of each shot used in the loss function.
算出部14は、所定の学習モデル14aによって、Nのショットを要約動画に含めるか否かを表すスコアを算出する。ここで、所定の学習モデル14aは、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習(Contrastive Self-Supervised Learning)により生成される。上述したとおり、算出部14は、第1ショット群をアンカーに、第2ショット群を正例に、第3ショット群を負例に設定し、後述する損失関数を用いて、損失関数の値が最小化するように学習モデル14aのパラメータを更新して学習を行う。
The
従来、教師あり学習によって要約動画を生成する場合、複数のフレーム毎又は複数のショット毎に、フレームを要約動画に含めるか否かのラベル付けがされた学習動画を用いている。このような学習動画は、アノテーションコストが高く、データ量を増やすことが難しかった。この点、本実施形態に係る情報処理装置10の学習モデル14aは、アノテーションを不要とし、アノテーションコストをなくすことができる。また、対照学習において、アンカーから正例と負例を生成するため、例えば負例として別の動画を用意する必要がない。したがって、要約を生成したい動画を準備するだけで本実施形態を適用することができ、実用化の面で大きなメリットがある。
Conventionally, when a digest video is generated by supervised learning, a learning video labeled as to whether or not the frame is included in the digest video is used for each of a plurality of frames or for each of a plurality of shots. Such learning videos have a high annotation cost, and it was difficult to increase the amount of data. In this respect, the
また、本実施形態では、アノテーションを必要としないため、任意の外部データを用いて大規模な学習をすることが可能である。任意の外部データは、例えば、YFCC100Mのデータセットに代表されるように各種SNS(Social Networking Service)に投稿された動画やテレビ放送に用いられた動画などである。また、本実施形態では、このような大規模学習データを用いて学習モデルを学習しておくことで、精度が向上することが実験的に確認されている(図4参照)。 In addition, since annotations are not required in this embodiment, large-scale learning can be performed using arbitrary external data. Arbitrary external data are, for example, videos posted on various SNSs (Social Networking Services) and videos used in television broadcasting, as typified by the YFCC100M data set. Further, in the present embodiment, it has been experimentally confirmed that the accuracy is improved by learning the learning model using such large-scale learning data (see FIG. 4).
選択部15は、所定の損失関数を用いてパラメータが最適化された学習モデルにより算出される第1ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択する。所定の損失関数は、例えば、第1ショット群の各ショットのスコアと第2ショット群の各ショットのスコアとに基づく第1類似度と、第1ショット群の各ショットのスコアと第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数である。
The
選択部15は、例えば、要約動画が所定の長さになるように、重要度に関するナップサック問題を解くことで、Nのショットを要約動画に含めるか否かを選択してよい。なお、ナップサック問題を解くためのアルゴリズムは任意であるが、例えば貪欲法を用いたり、動的計画法を用いたりしてよい。
For example, the
第2生成部16は、選択されたショットに基づいて、要約動画を生成する。本実施形態に係る情報処理装置10によれば、対照学習を用いて自己教師ありの学習モデルを用いることで、アノテーションコストが不要であり、後述する実験結果が示すように適切な要約動画を生成することができる。
The
図2は、本実施形態に係る情報処理装置10の物理的構成の一例を示す図である。情報処理装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では情報処理装置10が一台のコンピュータで構成される場合について説明するが、情報処理装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、情報処理装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。なお、CPU10aは、GPU(Graphical Processing Unit)でもよい。
FIG. 2 is a diagram showing an example of the physical configuration of the
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、動画を構成する複数のフレームのうち一部を抽出して要約動画を生成するプログラム(要約生成プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
The
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、要約対象となる動画といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
The
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば要約生成プログラムや、書き換えが行われないデータを記憶してよい。
The
通信部10dは、情報処理装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
The
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
The
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、要約対象となる動画や要約した動画を表示してよい。
The
要約生成プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な非一時的な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。情報処理装置10では、CPU10aが要約生成プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、情報処理装置10は、GPUを備えていてもよく、CPU及びCPU10aが要約生成プログラムを実行することにより、図1を用いて説明した様々な動作が実現されてよい。
The abstract generation program may be provided by being stored in a computer-readable non-temporary storage medium such as the
<処理例>
図3は、本実施形態に係る情報処理装置10により実行される処理の概要を示す図である。本実施形態に係る処理は、(1)事前処理、(2)要約ネットワーク、(3)事後処理の主な3つに分けられる。
<Processing example>
FIG. 3 is a diagram showing an outline of processing executed by the
(1)事前処理
情報処理装置10の変換部12は、動画V0に含まれる複数のフレームを画像特徴量に変換し、画像特徴量に基づいて、複数のフレームの画像特徴量からNのショットに変換する。
(1) Pre-processing The
例えば、変換部12は、公知の技術を用いて動画を各ショットに変換してよいが、一例として、GoogLeNet(Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,
Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. CVPR, page 1-9, 2015.)を用いて、ダウンサンプリングされたショットのキーフレームvと、特徴xに基づきNのショットに変換する。
v={vi},i∈[1,2,...,N]
x={xi},i∈[1,2,...,N]
xi=F(vi)(F()は特徴量を求める関数)
ここで、Nは、ダウンサンプリングされたフレーム数を表し、ショット数を表す。ショット内のフレームは1以上の任意の数であり、15枚程度が好ましい。
For example, the
Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Convert to N shots.
Let v={v i }, iε[1, 2, . . . , N]
Let x={x i }, iε[1, 2, . . . , N]
x i =F(v i ) (F() is a function for obtaining a feature amount)
Here, N represents the number of downsampled frames and the number of shots. The number of frames in a shot is any number of 1 or more, preferably about 15 frames.
(2)要約ネットワーク
要約ネットワークでは、自己教師ありの対照学習を用いて、各ショットを要約動画に含めるか否かに関するスコアが算出される。まず、第1生成部13は、N個の第1ショット群(Anchor)から、対照学習の正例に用いる第2ショット群(Positive)と、負例に用いる第3ショット群(Intra-negative(単にNegativeとも表記する。))とを生成する。
(2) Summarization Network The summarization network uses self-supervised contrastive learning to calculate a score for whether or not each shot should be included in the summary video. First, from the N first shot groups (Anchor), the
第1生成部13は、元の動画との関連性を維持するような第1処理を第1ショット群の各ショットに加えて第2ショット群を生成する。第1処理は、ユーザが第2ショット群を視聴した場合に、元の第1ショット群と同じ動画であると認識できるような処理である。例えば、第1処理は、元の動画に対し、所定の時間的関係又は空間的関係を維持する処理を含む。
The
所定の時間的関係を維持する処理の一例として、第1処理は、第1ショット群の各ショットの順番を逆順にする処理を含んでよい。この場合の第2ショット群の各ショットを以下の式(1)xposで表す。
xpos=reversed(x)
={xj
pos},j∈[1,2,...,N] (1)
ここで、xj
pos=xN+1-j,j∈[1,2,...,N]
また、第1処理は、第1ショット群の各ショットを複数のグループに分け、各グループの順番を入れ替えるなどの元の各ショットの時間的関係をある程度維持するような処理でもよい。
As an example of processing for maintaining a predetermined temporal relationship, the first processing may include processing for reversing the order of shots in the first shot group. Each shot of the second shot group in this case is represented by the following equation (1) x pos .
xpos = reversed(x)
={x j pos }, jε[1, 2, . . . , N] (1)
where x j pos =x N+1-j , jε[1, 2, . . . , N]
Alternatively, the first process may be a process of dividing the shots of the first shot group into a plurality of groups and rearranging the order of the groups to maintain the original temporal relationship of the shots to some extent.
所定の空間的関係を維持する処理の一例として、第1処理は、第1ショット群の各ショットの左右を反転させる処理を含んでよい。また、第1処理は、第1ショット群の各ショットを回転させたり、グレースケール化したり、元画像の特徴を壊さないような画像変換処理でもよい。 As an example of processing for maintaining a predetermined spatial relationship, the first processing may include processing for horizontally reversing each shot in the first shot group. Further, the first processing may be image transformation processing such as rotating each shot of the first shot group, grayscaling, or not destroying the features of the original image.
また、第1生成部13は、元の動画との関連性を壊すような第2処理を第1ショット群の各ショットに加えて第3ショット群を生成する。第2処理は、第1処理よりも動画との関連性をなくすような処理を含む。例えば、第2処理は、元の動画に対し、所定の時間的関係又は空間的関係をなくす処理、あるいは各ショットの任意のフレームを他のフレームに置換する処理を含んでよい。
Further, the
所定の時間的関係をなくす処理の一例として、第2処理は、第1ショット群の各ショットの順番をシャッフルし、順番をランダムにする処理を含む。この場合の第3ショット群の各ショットを以下の式(2-1)xnegで表す。
xneg=shuffle(x) (2-1)
ここで、xneg≠x
また、第2処理は、各ショット内の全てのフレームを、特定のフレーム(例えば最初のフレーム)に置き換える処理を含んでもよい。例えば、第3ショット群の各ショットを以下の式(2-2)xnegで表してもよい。
x neg =shuffle(x) (2-1)
where x neg ≠x
The second process may also include replacing all frames in each shot with a specific frame (eg, the first frame). For example, each shot of the third shot group may be represented by the following equation (2-2) x neg .
次に、算出部14は、所定の学習モデル14aによって、各ショットに対し、要約動画に含めるか否かに関するスコアを算出する。図3に示す例では、所定の学習モデル14aとして、LSTM(Long Short-Term Memory)が用いられる。具体例としては、双方向LSTM(Bi-LSTM)が使用され、学習モデル14aの関数f()と定義するとき、算出部14は、以下の式(3)~(5)を用いて、第1ショット群の各ショットのスコアs、第2ショット群のスコアspos、第3ショット群のスコアsnegを算出する。
s=f(x) (3)
spos=reserved(f(xpos)) (4)
sneg=f(xneg) (5)
Next, the
s=f(x) (3)
s pos =reserved(f(x pos )) (4)
s neg =f(x neg ) (5)
本実施形態の場合、スコアs={si}、spos={sj pos}、sneg={sk neg}それぞれは、x={xi}、xpos={xj pos}、xneg={xk neg},i,j,k∈[1,2,...,N]から求められる重要度でもある。 In the case of this embodiment, the scores s={s i }, s pos ={s j pos }, s neg ={s k neg } are respectively x={x i }, x pos ={x j pos }, Let x neg ={x k neg },i,j,kε[1,2, . . . , N].
ここで、要約動画に含めるかの重要性を示す重要度spos={sj pos}について、第2ショット群の重要度を逆順に並べ替えた重要度は、元動画との時間的依存性が壊されていないので、第1ショット群の重要度s={si}に類似するはずである。他方、第3ショット群の重要度sneg={sk neg}は、元動画との時間的依存性が壊されているので、第1ショット群の重要度s={si}に類似しないはずである。 Here, regarding the importance s pos ={s j pos } indicating the importance of inclusion in the summary video, the importance obtained by rearranging the importance of the second shot group in reverse order is the temporal dependence with the original video. is not broken, it should be similar to the importance of the first group of shots s={s i }. On the other hand, the importance s neg ={s k neg } of the third shot group is not similar to the importance s={s i } of the first shot group because the temporal dependence with the original video is broken. should be.
上述した重要度(スコア)の関係を用いて損失関数が設定される。本実施形態では、算出部14は、第1ショット群のスコアsと第2ショット群のスコアsposとに基づく第1類似度と、第1ショット群のスコアsと第3ショット群のスコアsnegとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いる。
A loss function is set using the importance (score) relationship described above. In this embodiment, the
まず、第2関数について説明する。第2関数は、要約動画が、元の動画のうち所定の箇所(時間帯)から集中して選択されることを避けるべく、なるべく様々な時間帯から選択されるようにするための損失関数である。例えば、第2関数は、第1ショット群の各ショットのスコアsと所定値σとの差、及び第2ショット群の各ショットのスコアsposと所定値σとの差を用いる損失関数Lpercentageであり、以下の式(6)で表される。
なお、第2関数は、上記例に限られるものではなく、後述するように、再構成損失関数などでも適切に実装可能であることが、発明者らの実験により分かっている。
First, the second function will be explained. The second function is a loss function for selecting digest videos from as many different time zones as possible in order to avoid concentrated selection from a predetermined portion (time zone) of the original video. be. For example, the second function is a loss function L percentage and is represented by the following equation (6).
The second function is not limited to the above example, and experiments by the inventors have shown that a reconstruction loss function or the like can be appropriately implemented as described later.
次に、第1関数について説明する。例えば、第1関数は、第2ショット群のスコアspos={sj
pos}と、第1ショット群のスコアs={si}が類似するように、他方、第3ショット群のスコアsneg={sk
neg}と、第1ショット群のスコアs={si}が類似しないようにするための損失関数Lcontrastiveである。各類似度は、例えば式(9)を用いて、以下の式(7)(8)により算出される。
また、算出部14は、対照学習における損失関数として、雑音対照推定(NCE:Noise Contrastive Estimation)損失を適用し、第1関数Lcontrastiveを次の式(10)で定義する。
算出部14は、損失関数Lpが最小となるように、誤差逆伝搬法を用いて学習モデル14aのパラメータを更新し、学習モデルの最適化を図る。算出部14は、パラメータが最適化された学習モデルを用いて最終的なスコアを算出する。
The
次に、第2関数として、再構成損失関数を用いる例について説明する。再構成損失関数Lreconは、次の式(12)で表される。
(3)事後処理
選択部15は、例えば、要約動画が所定の長さになるように、スコアに関するナップサック問題を解くことで、各ショットを要約動画に含めるか否かを選択してよい。なお、ナップサック問題を解くためのアルゴリズムは任意であるが、例えば貪欲法を用いたり、動的計画法を用いたりしてよい。
(3) Post-processing The
第2生成部16は、選択されたショットに基づいて、要約動画V1を生成する。例えば、第2生成部16は、選択されたショットを順番に連結して要約動画V1を生成する。本実施形態に係る情報処理装置10によれば、対照学習を用いて自己教師ありの学習モデルを用いることで、アノテーションコストが不要であり、後述する実験結果が示すように適切な要約動画を生成することができる。
The
<評価>
図4は、本実施形態に係る情報処理装置10により生成される要約動画のF値と比較例1及び2の要約動画のF値を示す図である。ここで、F値は、PrecisionとRecallの調和平均である2×Precision×Recall/(Precision+Recall)で定義される値であり、Precision=A∩B/A、Recall=A∩B/Bで定義される値であり、Aは人が作成した要約動画であり、Bは本実施形態に係る情報処理装置10(又は比較例)によって生成された要約動画である。F値は、1に近いほど正確かつ漏れの少ない要約ができていることを表す。
<Evaluation>
FIG. 4 is a diagram showing the F value of the digest video generated by the
図5は、本実施形態の評価に用いられる各データセットを示す図である。図4に示す例では、図5に示す各データセットが用いられる。 FIG. 5 is a diagram showing each data set used for evaluation in this embodiment. In the example shown in FIG. 4, each data set shown in FIG. 5 is used.
図4に示す比較例は、以下の(1)教師なし学習(unsupervised)と、(2)弱教師あり学習(weakly supervised)との手法が用いられる。
(比較例1)教師なし学習
SUM-GAN(Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.)
DR-DSN(Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.)
SUM-GAN-sl(Evlampios Apostolidis, Alexandros I. Metsai, Eleni Adamantidou, Vasileios Mezaris, and Ioannis Patras. Stepwise, label-based approach for improving the adversarial training in unsupervised video summarization. AI4TV, page 17-25, 2019.)
Cycle-SUM(Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng.
Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.)
ACGAN(Xufeng He, Yang Hua, Tao Song, Zongpu Zhang, Zhengui Xue, Ruhui Ma, Neil Robertson, and Haibing Guan. Unsupervised video summarization with attentive conditional generative adversarial networks. ACMMM, page 2296-2304,
2019.)
SUM-GAN-AAE(Evlampios Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, and Ioannis Patras. Unsupervised video summarization via attention-driven adversarial learning. International Conference on Multimedia Modeling, pages 492-504, 2020.)
(比較例2)弱教師あり学習
MWSum(Yiyan Chen, Li Tao, Xueting Wang, and Toshihiko Yamasaki. Weakly supervised video summarization by hierarchical reinforcement learning. ACMMMAsia, page 1-6, 2019.)
The comparative example shown in FIG. 4 uses the following methods of (1) unsupervised learning and (2) weakly supervised learning.
(Comparative example 1) Unsupervised learning SUM-GAN (Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.)
DR-DSN (Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.)
SUM-GAN-sl (Evlampios Apostolidis, Alexandros I. Metsai, Eleni Adamantidou, Vasileios Mezaris, and Ioannis Patras. Stepwise, label-based approach for improving the adversarial training in unsupervised video summarization. AI4TV, page 17-25, 2019.)
Cycle-SUM (Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng.
Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.)
ACGAN (Xufeng He, Yang Hua, Tao Song, Zongpu Zhang, Zhengui Xue, Ruhui Ma, Neil Robertson, and Haibing Guan. Unsupervised video summarization with attentive conditional generative adversarial networks. ACMMM, page 2296-2304,
2019.)
SUM-GAN-AAE (Evlampios Apostolidis, Eleni Adamantidou, Alexandros I. Metsai, Vasileios Mezaris, and Ioannis Patras. Unsupervised video summarization via attention-driven adversarial learning. International Conference on Multimedia Modeling, pages 492-504, 2020.)
(Comparative example 2) Weakly supervised learning MWSum (Yiyan Chen, Li Tao, Xueting Wang, and Toshihiko Yamasaki. Weakly supervised video summarization by hierarchical reinforcement learning. ACMMMAsia, page 1-6, 2019.)
図4に示す例では、本実施形態に記載の手法(以下、「実施手法」とも表記する。)は、Proposalとして表記され、pはLp、rはLrを表し、shは式(2-1)の第3ショット群を表し、reは式(2-2)の第3ショット群を表す(インターバルサイズは20)。また、pre-trainedは、アノテーションなしのYFCC100M内の992本のビデオを用いて、本実施形態の学習モデルを事前訓練した手法を表す。 In the example shown in FIG. 4, the method described in this embodiment (hereinafter also referred to as “implementation method”) is represented as Proposal, p represents L p , r represents L r , and sh represents formula (2 -1), and re represents the third shot group of equation (2-2) (the interval size is 20). Also, pre-trained represents a method of pre-training the learning model of this embodiment using 992 videos in YFCC100M without annotations.
図4に示すとおり、本実施形態に記載の各実施手法(各Proposal)は、同じ教師なし学習の比較例に比べて、ほぼ全てにおいて適切な要約動画を生成することができている。また、本実施形態に記載の各実施手法は、弱教師あり学習の比較例と比べても、ほぼ全てにおいて適切な要約動画を生成することができている。なお、図4に示す本実施形態に記載の手法は、図3に示すモデルに基づいている。 As shown in FIG. 4, each implementation method (each proposal) described in this embodiment can generate an appropriate summary video in almost all cases compared to the same comparison example of unsupervised learning. In addition, each implementation method described in this embodiment can generate an appropriate summary video in almost all cases, even when compared with comparative examples of weakly supervised learning. The method described in this embodiment shown in FIG. 4 is based on the model shown in FIG.
図6は、本実施形態に係る情報処理装置10により生成される要約動画のF値と比較例3の要約動画のF値を示す図である。比較例3は、以下の教師あり学習(Supervised)の手法が用いられる。
(比較例3)教師あり学習
vsLSTM(Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016)
dppLSTM(Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016)
SUM-GANsup(Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.)
DR-DSNsup(Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.)
VASNet(Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso, and Paolo Remagnino. Summarizing videos with attention. ACCV, pages 39-54, 2018.)
DMASum(Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng. Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.)
FIG. 6 is a diagram showing the F value of the digest video generated by the
(Comparative Example 3) Supervised learning vs LSTM (Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016)
dppLSTM (Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. ECCV pages 766-782, 2016)
SUM-GANsup (Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. CVPR, pages 2982-2991, 2017.)
DR-DSNsup (Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. AAAI, page 7582-7589, 2018.)
VASNet (Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso, and Paolo Remagnino. Summarizing videos with attention. ACCV, pages 39-54, 2018.)
DMASum (Li Yuan, Francis EH Tay, Ping Li, Li Zhou, and Jiashi Feng. Cycle-sum: Cycle-consistent adversarial lstm networks for unsupervised video summarization. AAAI, pages 2711-2722, 2019.)
図6に示すラベルフリー(label-free)の「X」は、人手によるアノテーションが必須であることを示し、「Y」は、ラベルが要求されないことを示す。また、「+」は、実施手法よりも良いことを示し、「-」は、実施手法の方が改善できていることを示す。図6に示すとおり、教師なし学習の各実施手法は、ほとんどのケースにおいて、教師あり学習の手法よりも改善できている。これにより、実施手法はアノテーションがないにも関わらず実用性が高いと言える。 A label-free "X" shown in FIG. 6 indicates that manual annotation is required, and a "Y" indicates that no label is required. Also, "+" indicates that the implementation method is better, and "-" indicates that the implementation method is better. As shown in FIG. 6, each implementation method of unsupervised learning can improve over the method of supervised learning in most cases. From this, it can be said that the implementation method is highly practical despite the absence of annotations.
なお、実施手法の損失関数における第2関数Lpercengateで用いられるσについて、0.1から1.0までの間で変動させ、SumMeとTVSumとのデータセットについてF値が調べられたところ、0.5が双方で良い結果であったので、本実施形態では、σ=0.5が使用される。しかしながら、所定値σの0.5は一例であって、動画の特徴に応じて適宜変更されてもよい。 The σ used in the second function L percengate in the loss function of the implementation method was varied between 0.1 and 1.0, and the F value was examined for the SumMe and TVSum data sets. .sigma.=0.5 is used in this embodiment since .5 gave good results on both. However, the predetermined value σ of 0.5 is just an example, and may be changed as appropriate according to the characteristics of the moving image.
以上、実施手法は、教師あり学習、弱教師あり学習、その他の教師なし学習の比較手法に比べて、より適切かつ漏れの少ない要約動画を生成することができていると言える。 As described above, it can be said that the implementation method is able to generate a more appropriate summary video with fewer omissions than the comparison methods of supervised learning, weakly supervised learning, and other unsupervised learning.
図7は、本実施形態に係る情報処理装置10により生成される要約動画のτ値及びρ値と比較例により生成される要約動画のτ値及びρ値を示す図である。τ値は、ケンドールの順位相関係数であり、正答の要約動画と情報処理装置10(又は比較例)によって生成された要約動画との関連性を表す。また、ρ値は、スピアマンの順位相関係数であり、正答の要約動画と情報処理装置10(又は比較例)によって生成された要約動画との関連性を表す。いずれの値も、1に近いほど正答との関連性が強いことを表す。なお、図7では、参考のため、人(Human)が要約動画を作成した場合のτ値及びρ値を記載している。
FIG. 7 is a diagram showing the τ and ρ values of the digest video generated by the
図7に示す例では、データセットとしてTVSumが用いられる。また、比較例として、教師あり学習は、DPP-LSTM、DMASum、教師なし学習は、SUM-GAN、DR-DSN、弱教師あり学習は、MWSumがそれぞれ使用される。 In the example shown in FIG. 7, TVSum is used as the data set. As comparative examples, DPP-LSTM and DMASum are used for supervised learning, SUM-GAN and DR-DSN are used for unsupervised learning, and MWSum is used for weakly supervised learning.
まず、Proposal(pre)の実施手法は、事前の訓練の効果が表れ、各提案手法の中で一番よい結果となっている。また、各実施手段は、τ値及びρ値について、いずれもよい結果を表しているが、特に、Proposal(p+sh)、Proposal(r+re)、Proposal(pre)がDMASum以外の比較例よりも良い結果となっている。 First, the implementation method of Proposal (pre) shows the effect of prior training and is the best result among the proposed methods. In addition, each implementation means shows good results for both the τ value and the ρ value. It has become.
このように、F値以外の指標によって比較しても、本実施形態に係る情報処理装置10は、従来の比較例より適切な要約動画を生成できていることが確認できる。
As described above, it can be confirmed that the
次に、実施手法の一般性・汎用性について説明する。図8は、教師なし学習のSUM-GANのモデルを示す図である。図8に示すSUM-GANのモデルのsLSTM部分に、実施手法を適用することが可能である。すなわち、実施手法は、既存の学習モデルにも適用可能であり、汎用性が高い。 Next, the generality and versatility of the implementation method will be explained. FIG. 8 is a diagram showing a model of SUM-GAN for unsupervised learning. The implementation approach can be applied to the sLSTM part of the SUM-GAN model shown in FIG. In other words, the implementation method is applicable to existing learning models and has high versatility.
図9は、既存の学習モデルに対して実施手法の適用有無を比較するための図である。図9に示す例では、データセットして、SumMeとTVSumとが使用される。また、図8に示すSUM-GANの学習モデルに対して、実施手法の適用有無によるF値の違いを示し、単純なLSTMのF値と、図3に示す実施手法とのF値の違いを示す。 FIG. 9 is a diagram for comparing the presence/absence of application of an implementation method to an existing learning model. In the example shown in FIG. 9, SumMe and TVSum are used as data sets. In addition, for the SUM-GAN learning model shown in FIG. show.
図9に示すとおり、既存のSUM-GANよりも、対照学習を用いる図3に示す要約ネットワークを適用したSUM-GANの方が、F値が高い。また、単純なLSTMよりも、図3に示す要約ネットワークを適用したLSTM(実施手法)の方が、F値が高い。 As shown in FIG. 9, the SUM-GAN applying the summary network shown in FIG. 3 with contrast learning has a higher F-measure than the existing SUM-GAN. Also, the LSTM (implementation method) to which the summary network shown in FIG. 3 is applied has a higher F value than the simple LSTM.
次に、実施手法の収束速度について説明する。図10は、図9に示す各手法の収束速度を示す図である。LSTMについて、(b)に表される実施手法のエポック数は、(a)に表される単純LSTMのエポック数よりも少ない。したがって、実施手法は、単純LSTMよりも学習速度が速いことを示す。また、SUM-GANについて、(d)に表される実施手法を適用したSUM-GANのエポック数は、(c)に表される実施手法を適用していないSUM-GANのエポック数よりも少ない。したがって、実施手法は、既存のSUM-GANに適用されることで、性能も学習速度も速くなることを示す。 Next, the convergence speed of the implementation method will be described. FIG. 10 is a diagram showing the convergence speed of each technique shown in FIG. For the LSTM, the number of epochs of the implementation scheme depicted in (b) is less than that of the simple LSTM depicted in (a). Therefore, the implementation approach shows faster learning speed than the naive LSTM. Also, for SUM-GAN, the number of epochs of SUM-GAN to which the implementation method represented in (d) is applied is less than the number of epochs of SUM-GAN to which the implementation method represented in (c) is not applied. . Therefore, the implementation approach is shown to be applied to existing SUM-GANs to improve both performance and learning speed.
実施手法の適用により学習速度(収束速度)が速くなる理由としては、第1関数Lcontrastiveを損失関数に含めることで、動画に対する表現能力が高くなり、学習の反復回数を減らすことができるからと考えられる。 The reason why the learning speed (convergence speed) is increased by applying the implementation method is that by including the first function L contrastive in the loss function, the ability to express moving images increases and the number of iterations of learning can be reduced. Conceivable.
図11は、本実施形態に係る実施手法と比較手法により選択されたフレームを示す図である。図11に示す例では、は、TVSumに含まれる、犬の耳を掃除する動画について要約動画が生成される。(a)は、オリジナルの動画を示し、(b)は、比較手法の一つ、教師なし学習のDR-DSNにより生成される要約動画を示し、(c)は、比較手法の一つ、弱教師あり学習のMWSumにより生成される要約動画を示し、(d)は、図3に示すLpercentageを用いる実施手法により生成される要約動画を示す。 FIG. 11 is a diagram showing frames selected by the implementation method and the comparison method according to this embodiment. In the example shown in FIG. 11, a summary video is generated for a video of cleaning a dog's ears included in TVSum. (a) shows the original video, (b) shows a summary video generated by DR-DSN of unsupervised learning, one of the comparison methods, and (c) shows one of the comparison methods, weak 3 shows a summary video generated by supervised learning MWSum, and (d) shows a summary video generated by the implementation method using L percentage shown in FIG.
また、図11に示す(b)~(d)のバーの高さは、アノテーションにより得られた要約動画に含められるか否かを示すスコアであり、バーが高いほど、そのフレームは要約動画に含められるべきであることを示す。(d)の要約動画は、(b)の要約動画よりも、冒頭部分の重要ではないフレームが選択されておらず、要約動画として選択されるべき、バーの高さが高い中間部分から多くのフレームが選択されている。また、(d)の要約動画は、(c)の要約動画よりも、要約動画として選択されるべき、バーの高さが高い中間部分から多くのフレームが選択されている。これにより、(d)の要約動画のF値(75.2)が、他の従来技術の手法のF値よりも大きくなることが分かる。なお、図3に示すLreconを用いる場合、F値は71.9であることが確認されており、いずれの従来技術の手法のF値よりも大きい。 In addition, the height of the bars (b) to (d) shown in FIG. 11 is a score indicating whether or not the frame is included in the video summary obtained by annotation. Indicates that it should be included. In the summary video of (d), less important frames at the beginning than the summary video of (b) are selected, and many A frame is selected. Also, in the digest video of (d), more frames are selected from the middle part with the taller bar, which should be selected as the digest video than in the digest video of (c). It can be seen that this results in a larger F-number for the digest movie in (d) (75.2) than the F-number for other prior art approaches. It should be noted that when using the L recon shown in FIG. 3, the F-number was found to be 71.9, which is larger than the F-number of any prior art approach.
さらに、実施手法の損失関数は、選択されるショット(又はフレーム)が同じ場面に偏るのを防ぐための第2関数を含めているため、中間部分だけではなく、冒頭部分などのショット(又はフレーム)も要約動画として選択されている。 Furthermore, since the loss function of the implementation method includes a second function to prevent the selected shots (or frames) from being biased toward the same scene, the shots (or frames) such as the beginning portion, as well as the middle portion, ) is also selected as a summary video.
<動作手順>
図12は、本実施形態に係る情報処理装置10により実行される動画要約処理の一例を示すフローチャートである。
<Operation procedure>
FIG. 12 is a flow chart showing an example of video abstract processing executed by the
ステップS102において、情報処理装置10の変換部12は、取得部11により取得された複数のフレームを含む動画を、複数のフレームより数が少ない複数のショットに変換する。
In step S<b>102 , the
ステップS104において、第1生成部13は、複数のショットを含む第1ショット群に対し、オリジナルの動画との関連性維持に関する第1処理を複数のショットに加えて第2ショット群を生成する。
In step S104, the
ステップS106において、第1生成部13は、第1ショット群に対し、第1処理よりもオリジナルの動画との関連性をなくす第2処理を複数のショットに加えて第3ショット群を生成する。ステップS104とS106との順序は不問であり、同時に処理されてよい。
In step S<b>106 , the
ステップS108において、算出部14は、第1ショット群をアンカー、第2ショット群を正例、第3ショット群を負例とし、第1ショット群、第2ショット群、及び第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデル14aによって、各ショットのスコアを算出する。
In step S108, the
ステップS110において、選択部15は、第1ショット群の各ショットのスコアと第2ショット群の各ショットのスコアとに基づく第1類似度と、第1ショット群の各ショットのスコアと第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された学習モデル14aにより算出される第1ショット群の各ショットのスコアに基づいて、各ショットそれぞれを要約動画に含めるか否かを選択する。
In step S110, the
ステップS112において、第2生成部16は、選択されたショットに基づいて、要約動画を生成する。
In step S112, the
図13は、本実施形態に係る情報処理装置10により実行される学習処理の一例を示すフローチャートである。図13に示す学習処理は、図12に示すステップS108の学習処理の一例を示す。
FIG. 13 is a flowchart showing an example of learning processing executed by the
ステップS202において、算出部14は、例えば式(3)~(5)により、第1~第3の各ショット群に対し、学習モデル14aによって、各ショットを動画要約に含めるか否かに関するスコアを算出する。
In step S202, the
ステップS204において、算出部14は、例えば式(7)により、第1ショット群のスコアsと、第2ショット群のスコアsposとの第1類似度を算出する。
In step S204, the
ステップS206において、算出部14は、例えば式(8)により、第1ショット群のスコアsと第3ショット群のスコアsnegとの第2類似度を算出する。ステップS204とS206の順序は不問であり、同時に処理されてもよい。
In step S206, the
ステップS208において、算出部14は、例えば式(11)により、第1及び第2類似度を用いる第1関数(例えば式(10))と、他の第2関数(例えば式(6))とを含む損失関数の値を算出する。
In step S208, the
ステップS210において、算出部14は、損失関数の値が最小化されるように、所定の学習条件が満たされたか否かを判定する。所定の学習条件は、例えば、所定数のエポック数を超えることでもよい。学習条件が満たされれば(ステップS210-YES)、処理は終了し、学習条件が満たされていなければ(ステップS210-NO)、処理はステップS212に進む。
In step S210, the
ステップS212において、算出部14は、誤差逆伝搬法により学習モデル14aのハイパーパラメータを更新する。その後、処理はステップS202に戻り、更新されたハイパーパラメータを用いて学習が続行される。
In step S212, the
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。なお、本実施形態は、スポーツを撮影した動画の要約や、結婚式の様子を撮影した動画の要約など、様々な動画の要約生成に利用することが可能である。 The embodiments described above are for facilitating understanding of the present invention, and are not intended to limit and interpret the present invention. Each element included in the embodiment and its arrangement, materials, conditions, shape, size, etc. are not limited to those illustrated and can be changed as appropriate. Also, it is possible to partially replace or combine the configurations shown in different embodiments. Note that this embodiment can be used to generate a summary of various moving images, such as a summary of a moving image of sports or a moving image of a wedding ceremony.
10…情報処理装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…変換部、13…第1生成部、14…算出部、14a…学習モデル、15…選択部、16…第2生成部
DESCRIPTION OF
Claims (8)
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、
前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成すること、
前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、
前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、
選択されたショットに基づいて、要約動画を生成することと、
を実行させる、プログラム。 information processing equipment,
converting a video including a plurality of frames into a plurality of shots having a smaller number than the plurality of frames;
For a first shot group including the plurality of shots, applying a first process related to maintaining the relationship with the moving image to the plurality of shots to generate a second shot group, and performing the first processing to generate a second shot group. applying a second disassociation process to the plurality of shots to generate a third group of shots;
With the first shot group as an anchor, the second shot group as a positive example, and the third shot group as a negative example, each shot for each of the first shot group, the second shot group, and the third shot group calculating a score for each shot by a learning model generated by self-supervised contrastive learning on whether to include in the video summary,
a first similarity based on the score of each shot in the first shot group and the score of each shot in the second shot group; the score of each shot in the first shot group and the score of each shot in the third shot group; a score of each shot in the first shot group calculated by the learning model optimized using a loss function including a first function using a second similarity based on the score and another second function selecting whether to include each of the shots in the summary video based on
generating a summary video based on the selected shots;
The program that causes the to run.
複数のフレームを含む動画を、前記複数のフレームより数が少ない複数のショットに変換すること、
前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成すること、
前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出すること、
前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択すること、
選択されたショットに基づいて、要約動画を生成することと、
を実行する、情報処理方法。 The information processing device
converting a video including a plurality of frames into a plurality of shots having a smaller number than the plurality of frames;
For a first shot group including the plurality of shots, applying a first process related to maintaining the relationship with the moving image to the plurality of shots to generate a second shot group, and performing the first processing to generate a second shot group. applying a second disassociation process to the plurality of shots to generate a third group of shots;
With the first shot group as an anchor, the second shot group as a positive example, and the third shot group as a negative example, each shot for each of the first shot group, the second shot group, and the third shot group calculating a score for each shot by a learning model generated by self-supervised contrastive learning on whether to include in the video summary,
a first similarity based on the score of each shot in the first shot group and the score of each shot in the second shot group; the score of each shot in the first shot group and the score of each shot in the third shot group; a score of each shot in the first shot group calculated by the learning model optimized using a loss function including a first function using a second similarity based on the score and another second function selecting whether to include each of the shots in the summary video based on
generating a summary video based on the selected shots;
A method of processing information that performs
前記複数のショットを含む第1ショット群に対し、前記動画との関連性維持に関する第1処理を前記複数のショットに加えて第2ショット群を生成し、前記第1処理よりも前記動画との関連性をなくす第2処理を前記複数のショットに加えて第3ショット群を生成する第1生成部と、
前記第1ショット群をアンカー、前記第2ショット群を正例、前記第3ショット群を負例とし、前記第1ショット群、前記第2ショット群、及び前記第3ショット群ごとに、各ショットを動画要約に含めるか否かに関する自己教師ありの対照学習により生成される学習モデルによって、各ショットのスコアを算出する算出部と、
前記第1ショット群の各ショットのスコアと前記第2ショット群の各ショットのスコアとに基づく第1類似度と、前記第1ショット群の各ショットのスコアと前記第3ショット群の各ショットのスコアとに基づく第2類似度とを用いる第1関数と、他の第2関数とを含む損失関数を用いて最適化された前記学習モデルにより算出される前記第1ショット群の各ショットのスコアに基づいて、前記各ショットそれぞれを要約動画に含めるか否かを選択する選択部と、
選択されたショットに基づいて、要約動画を生成する第2生成部と、
を備える、情報処理装置。 a conversion unit that converts a moving image including a plurality of frames into a plurality of shots that are fewer in number than the plurality of frames;
For a first shot group including the plurality of shots, applying a first process related to maintaining the relationship with the moving image to the plurality of shots to generate a second shot group, and performing the first processing to generate a second shot group. a first generation unit that generates a third shot group by applying a second process of disassociation to the plurality of shots;
With the first shot group as an anchor, the second shot group as a positive example, and the third shot group as a negative example, each shot for each of the first shot group, the second shot group, and the third shot group A calculation unit that calculates the score of each shot by a learning model generated by self-supervised contrast learning regarding whether to include in the video summary;
a first similarity based on the score of each shot in the first shot group and the score of each shot in the second shot group; the score of each shot in the first shot group and the score of each shot in the third shot group; a score of each shot in the first shot group calculated by the learning model optimized using a loss function including a first function using a second similarity based on the score and another second function a selection unit that selects whether to include each of the shots in the summary video based on
a second generation unit that generates a summary video based on the selected shot;
An information processing device.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021074755A JP2022169009A (en) | 2021-04-27 | 2021-04-27 | Program, information processing method, and information processing device |
PCT/JP2022/018604 WO2022230777A1 (en) | 2021-04-27 | 2022-04-22 | Information processing method, computer-readable non-transitory storage medium, and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021074755A JP2022169009A (en) | 2021-04-27 | 2021-04-27 | Program, information processing method, and information processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022169009A true JP2022169009A (en) | 2022-11-09 |
Family
ID=83847189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021074755A Pending JP2022169009A (en) | 2021-04-27 | 2021-04-27 | Program, information processing method, and information processing device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022169009A (en) |
WO (1) | WO2022230777A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023129179A (en) * | 2022-02-03 | 2023-09-14 | インハ インダストリー パートナーシップ インスティテュート | Method and apparatus for summarization of unsupervised video with efficient key frame selection reward functions |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731498B (en) * | 2022-12-01 | 2023-06-06 | 石家庄铁道大学 | Video abstract generation method combining reinforcement learning and contrast learning |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535639B1 (en) * | 1999-03-12 | 2003-03-18 | Fuji Xerox Co., Ltd. | Automatic video summarization using a measure of shot importance and a frame-packing method |
KR100708337B1 (en) * | 2003-06-27 | 2007-04-17 | 주식회사 케이티 | Apparatus and method for automatic video summarization using fuzzy one-class support vector machines |
US8200063B2 (en) * | 2007-09-24 | 2012-06-12 | Fuji Xerox Co., Ltd. | System and method for video summarization |
JP2021060874A (en) * | 2019-10-08 | 2021-04-15 | 国立大学法人 東京大学 | Device, method, and program for summarizing video |
-
2021
- 2021-04-27 JP JP2021074755A patent/JP2022169009A/en active Pending
-
2022
- 2022-04-22 WO PCT/JP2022/018604 patent/WO2022230777A1/en active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023129179A (en) * | 2022-02-03 | 2023-09-14 | インハ インダストリー パートナーシップ インスティテュート | Method and apparatus for summarization of unsupervised video with efficient key frame selection reward functions |
JP7378172B2 (en) | 2022-02-03 | 2023-11-13 | インハ インダストリー パートナーシップ インスティテュート | Unsupervised video summarization method and apparatus with efficient keyframe selection reward function |
Also Published As
Publication number | Publication date |
---|---|
WO2022230777A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Autopruner: An end-to-end trainable filter pruning method for efficient deep model inference | |
Liu et al. | Audio self-supervised learning: A survey | |
Fajtl et al. | Summarizing videos with attention | |
Jing et al. | Low-rank multi-view embedding learning for micro-video popularity prediction | |
WO2021223567A1 (en) | Content processing method and apparatus, computer device, and storage medium | |
Chen et al. | A novel online incremental and decremental learning algorithm based on variable support vector machine | |
WO2022230777A1 (en) | Information processing method, computer-readable non-transitory storage medium, and information processing device | |
Lin et al. | Deep hierarchical LSTM networks with attention for video summarization | |
Wu et al. | Self-supervised sparse representation for video anomaly detection | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN110704601A (en) | Method for solving video question-answering task requiring common knowledge by using problem-knowledge guided progressive space-time attention network | |
CN111263238B (en) | Method and equipment for generating video comments based on artificial intelligence | |
CN116686017A (en) | Time bottleneck attention architecture for video action recognition | |
Fu et al. | Self-attention binary neural tree for video summarization | |
Li et al. | Composing good shots by exploiting mutual relations | |
CN109885728B (en) | Video abstraction method based on meta-learning | |
Cascianelli et al. | Full-GRU natural language video description for service robotics applications | |
US20210342684A1 (en) | Method and system for table retrieval using multimodal deep co-learning with helper query-dependent and query-independent relevance labels | |
Sun et al. | Disentangling architecture and training for optical flow | |
US20220101144A1 (en) | Training a latent-variable generative model with a noise contrastive prior | |
Gasmi et al. | Optimal deep neural network-based model for answering visual medical question | |
Guo et al. | Attention based consistent semantic learning for micro-video scene recognition | |
Wang et al. | An efficient sparse pruning method for human pose estimation | |
Gu et al. | Joint learning based deep supervised hashing for large-scale image retrieval | |
Shang et al. | Semantic consistency cross-modal dictionary learning with rank constraint |