CN111814922B

CN111814922B - 一种基于深度学习的视频片段内容匹配方法

Info

Publication number: CN111814922B
Application number: CN202010925775.5A
Authority: CN
Inventors: 温序铭; 陈尧森; 孙毅
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-25
Anticipated expiration: 2040-09-07
Also published as: CN111814922A

Abstract

本发明公开了一种基于深度学习的视频片段内容匹配方法，包括如下步骤：A、构建具有类别标注的N类视频片段数据集；B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型，并利用所述视频片段数据集训练该嵌入模型；C、构建基于视频片段内容表示的嵌入模型的匹配模型，并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型；D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配，得到匹配结果。能够对相似的视频内容进行高效的匹配，同时具有较好的语义理解能力和泛化能力，为视频编辑和查询提供智能技术支持。

Description

一种基于深度学习的视频片段内容匹配方法

技术领域

本发明涉及计算机视觉技术，尤其是一种基于深度学习的视频片段内容匹配方法。

背景技术

随着融合媒体的快速发展，特别是在广播电视编辑的视频用于互联网视频进行发布时，视频内容匹配和查询是成为非常重要的挑战。例如在赛事转播过程中，多个机位拍摄到的同一种行为的视频片段，在新媒体上发布时需要对这些视频内容进行匹配并归类以满足新媒体运营商在短视频业务上面的部署。同时，在编辑未剪辑的视频片段过程中查询相似内容的视频片段，使得视频编辑者可以快速对视频内容进行整合发布。因此视频内容匹配和查询的方法会提高编辑的工作效率，降低人工成本。

现有的视频片段内容匹配具有以下不足之处：

（1）、现有的视频片段内容匹配都是基于视频帧进行的，因此需要从视频中抽取若干关键帧进行特征提取，从而需要耗费较长的处理时间。

（2）、现有视频内容匹配基于规则特征，例如灰度值或亮度值的变换进行比较，不能较好的理解基于时序的动作行为等高层语义。

（3）、利用手动定义的相似度度量规则，例如欧氏距离、余弦相似性等方法来度量视频片段的内容相似性不能够具有较强的泛化能力，导致视频片段内容匹配的精度不高。

因此，我们需要设计一种基于深度学习的视频片段内容匹配方法来对相似的视频内容进行高效的匹配，同时具有较好的语义理解能力和泛化能力，为视频编辑和查询提供智能技术支持。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于深度学习的视频片段内容匹配方法，通过该方法对相似的视频内容进行高效的匹配，同时具有较好的语义理解能力和泛化能力，为视频编辑和查询提供智能技术支持。

本发明采用的技术方案如下：

一种基于深度学习的视频片段内容匹配方法，包括如下步骤：

A、构建具有类别标注的N类视频片段数据集；

B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型，并利用所述视频片段数据集训练该嵌入模型；

C、构建基于视频片段内容表示的嵌入模型的匹配模型，并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型；

D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配，得到匹配结果。

进一步地，步骤A中，构建具有类别标注的N类视频片段数据集时，采用数据增强手段扩充数据集，并保持类间样本均衡。

进一步地，步骤B中，所述三维卷积神经网络为I3D模型，利用该I3D模型构建的嵌入模型结构按串联顺序包括：一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块、一个3×3×3的三维卷积层、五个Inception模块、一个2×1×1的最大池化层、两个Inception模块、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层。

进一步地，步骤B中，利用所述视频片段数据集训练该嵌入模型时，先使用Kinetics视频数据集进行预训练，然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练。

进一步地，步骤B中，利用所述视频片段数据集训练该嵌入模型的训练方法，包括：将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2，以及将7×7×7的平均池化层的步长修改为2×7×7，通过挤压操作使得该2×7×7的平均池化层输出为一维张量；然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程；训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1，以及将修改为2×7×7的平均池化层的步长重新改回7×7×7，由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。

进一步地，步骤C中，所述匹配模型的结构包括两次融合操作和一个全连接层；每次融合操作的过程为：一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量；另一路先将三维特征变形为二维张量，再以2×2的卷积层对二维张量进行卷积操作输出二维张量，然后将该二维张量变形为三维向量后，与前述三维卷积操作得到的三维向量进行融合；经过两次融合后，通过一个全连接层输出，得到视频片段匹配概率。

进一步地，在训练该匹配模型时，采用对比损失函数来监督训练过程。

进一步地，步骤D包括如下子步骤：

D1，嵌入模型分别对输入的1个查询视频片段和M个被查询视频片段进行三维特征信息提取，分别得到1个查询视频片段特征和M个被查询视频片段特征；

D2，将1个查询视频片段特征和M个被查询视频片段特征输入匹配模型得到匹配得分，查询视频片段相对于M个被查询视频片段的匹配得分；其中，得分最高的被查询视频片段即为该查询视频片段匹配到的视频片段。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明能够对相似的视频内容进行高效的匹配，同时具有较好的语义理解能力和泛化能力，为视频编辑和查询提供智能技术支持。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于深度学习的视频片段内容匹配方法的流程框图。

图2为本发明实施例的嵌入模型的结构示意图。

图3为本发明实施例的匹配模型的结构示意图。

图4为利用嵌入模型和匹配模型进行匹配的过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例的一种基于深度学习的视频片段内容匹配方法，包括如下步骤：

A、构建具有类别标注的N类视频片段数据集；

其中，构建具有类别标注的N类视频片段数据集时，可以采用数据增强手段（例如裁剪、平移等）扩充数据集，并保持类间样本均衡。

本实施例中，所述三维卷积神经网络为I3D模型，利用该I3D模型构建的嵌入模型结构如图2所示，按串联顺序包括：一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块（分别为inc_3a，inc_3b）、一个3×3×3的三维卷积层、五个Inception模块（分别为inc_4a，inc_4b，inc_4c，inc_4d，inc_4e）、一个2×1×1的最大池化层、两个Inception模块（分别为inc_5a，inc_5b）、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层。该嵌入模型输入为视频片段数据集，输出为视频片段的三维特征。

进一步地，利用所述视频片段数据集训练该嵌入模型时，可以先使用Kinetics视频数据集（也可以是其他较大视频数据集）进行预训练，然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练，以提高该嵌入模型对视频片段内容的表达。

进一步地，由于所述视频片段数据集为具有类别标注的N类视频片段数据集，该嵌入模型训练阶段是对视频片段数据集的类别进行训练，但是图2所示的嵌入模型无法直接进行分类训练，本发明针对该问题提出了利用所述视频片段数据集训练该嵌入模型的训练方法，包括：将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2，以及将7×7×7的平均池化层的步长修改为2×7×7，通过挤压（squeeze）操作使得该2×7×7的平均池化层输出为一维张量；然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程；训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1，以及将修改为2×7×7的平均池化层的步长重新改回7×7×7，由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。

本实施例中，所述匹配模型的结构如图3所示，包括两次融合操作和一个全连接层；每次融合操作的过程为：一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量；另一路先将三维特征变形为二维张量，再以2×2的卷积层对二维张量进行卷积操作输出二维张量，然后将该二维张量变形为三维向量后，与前述三维卷积操作得到的三维向量进行融合；经过两次融合后，通过一个全连接层输出，得到视频片段匹配概率。也就是说，该匹配模型利用两次融合操作再通过全连接输出为N个匹配分数值，代表匹配到的视频片段的概率。进一步地，在训练该匹配模型时，采用对比损失函数（contrastive loss）来监督训练过程。

如图4所示，步骤D包括如下子步骤：

示例：

本发明利用构建的匹配模型中利用神经网络来拟合匹配关系代替传统相似度度量方法。因传统相似度度量函数为某一确定规则（例如欧式度量只能度量向量上的欧式距离），而在不同的度量任务上可能不能特别合适；相反，利用神经网络的强大表达能力，能够直接从数据中学习这种度量方式进而更好的适用特定的该匹配任务。因此具有较好的语义理解能力和泛化能力，测试结果进一步验证了这种结论：在构建的篮球比赛视频片段数据集上，本发明的匹配精度大大优于其他度量匹配的方法。

（1）相较于利用余弦相似性度量的方法精度提高了17.04%（56.79% vs 73.83%）；

（2）相较于欧式距离度量方法的精度提高了20.12%（53.71% vs 73.83%）。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的视频片段内容匹配方法，其特征在于，包括如下步骤：

A、构建具有类别标注的N类视频片段数据集；

D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配，得到匹配结果；

步骤B中，所述三维卷积神经网络为I3D模型，利用该I3D模型构建的嵌入模型结构按串联顺序包括：一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块、一个3×3×3的三维卷积层、五个Inception模块、一个2×1×1的最大池化层、两个Inception模块、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层；

步骤B中，利用所述视频片段数据集训练该嵌入模型时，先使用Kinetics视频数据集进行预训练，然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练；

步骤B中，利用所述视频片段数据集训练该嵌入模型的训练方法，包括：将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2，以及将7×7×7的平均池化层的步长修改为2×7×7，通过挤压操作使得该2×7×7的平均池化层输出为一维张量；然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程；训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1，以及将修改为2×7×7的平均池化层的步长重新改回7×7×7，由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。

2.根据权利要求1所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤A中，构建具有类别标注的N类视频片段数据集时，采用数据增强手段扩充数据集，并保持类间样本均衡。

3.根据权利要求1所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤C中，所述匹配模型的结构包括两次融合操作和一个全连接层；每次融合操作的过程为：一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量；另一路先将三维特征变形为二维张量，再以2×2的卷积层对二维张量进行卷积操作输出二维张量，然后将该二维张量变形为三维向量后，与前述三维卷积操作得到的三维向量进行融合；经过两次融合后，通过一个全连接层输出，得到视频片段匹配概率。

4.根据权利要求3所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤C中，在训练该匹配模型时，采用对比损失函数来监督训练过程。

5.根据权利要求1所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤D包括如下子步骤：