CN110225366B

CN110225366B - 视频数据处理及广告位确定方法、装置、介质及电子设备

Info

Publication number: CN110225366B
Application number: CN201910563663.7A
Authority: CN
Inventors: 揭泽群; 黄浩智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2020-12-18
Anticipated expiration: 2039-06-26
Also published as: CN110225366A

Abstract

本申请的实施例提供了一种视频数据处理及广告位确定方法、装置、介质及电子设备。该视频数据的处理方法包括：获取待处理的视频数据；对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域；在所述目标区域中生成用于投放信息的目标位置。本申请实施例的技术方案可以实现对信息投放位置的自动检测与生成，提高了视频数据中信息投放位置的生成效率。

Description

视频数据处理及广告位确定方法、装置、介质及电子设备

技术领域

本申请涉及计算机及通信技术领域，具体而言，涉及一种视频数据处理及广告位确定方法、装置、介质及电子设备。

背景技术

相关技术提出的针对视频数据中的广告位处理方案通常都是对已有海报区域的广告内容进行替换的方案，即利用目标检测算法检测视频帧中的海报区域，如果在视频帧中检测到海报区域，则将检测到的海报区域视为广告位，进而可以***广告。但是，如果视频帧中原来没有海报区域，那么就无法实现广告位的自动生成。

发明内容

本申请的实施例提供了一种视频数据处理及广告位确定方法、装置、介质及电子设备，进而至少在一定程度上可以实现对信息投放位置的自动检测与生成，提高了视频数据中信息投放位置的生成效率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种视频数据的处理方法，包括：获取待处理的视频数据；对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域；在所述目标区域中生成用于投放信息的目标位置。

根据本申请实施例的一个方面，提供了一种视频数据中的广告位确定方法，包括：获取需要***广告位的视频数据；对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域，所述指定类型的物体包括能够设置广告位的物体；在所述目标区域中确定待选广告位，以基于所述待选广告位投放推广信息。

根据本申请实施例的一个方面，提供了一种视频数据的处理装置，包括：获取单元，用于获取待处理的视频数据；场景分割单元，用于对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域；生成单元，用于在所述目标区域中生成用于投放信息的目标位置。

在本申请的一些实施例中，基于前述方案，所述生成单元配置为：在所述目标区域中确定距离所述目标区域的边缘最远的目标点；以所述目标点为中心，生成用于投放信息的目标位置。

在本申请的一些实施例中，基于前述方案，所述生成单元配置为：基于设定的长度和宽度，以所述目标点为中心生成矩形区域，将生成的所述矩形区域作为所述目标位置。

在本申请的一些实施例中，基于前述方案，所述生成单元配置为：检测在所述指定视频帧中识别出的所述指定类型的物体所在的各个目标区域的区域面积；在区域面积大于或等于面积阈值的目标区域中生成所述目标位置。

在本申请的一些实施例中，基于前述方案，所述的视频数据的处理装置还包括：处理单元，用于在所述生成单元生成用于投放信息的目标位置之后，基于视频帧之间的光流信息和所述目标位置，依次在所述视频数据包含的其它视频帧中确定所述目标位置的对应位置。

在本申请的一些实施例中，基于前述方案，所述处理单元配置为：将所述指定视频帧作为参考视频帧，确定所述参考视频帧的相邻视频帧；根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述目标位置的对应位置；将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述目标位置，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止。

在本申请的一些实施例中，基于前述方案，所述处理单元配置为：根据所述参考视频帧与所述相邻视频帧之间的光流信息，计算所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值；基于所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值，将所述目标位置映射到所述相邻视频帧中得到所述对应位置。

在本申请的一些实施例中，基于前述方案，所述处理单元配置为：将所述目标位置中的指定像素点映射到所述相邻视频帧中，得到映射像素点，基于所述映射像素点在所述相邻视频帧中生成所述对应位置；或将所述目标位置映射到所述相邻视频帧中得到映射位置，将所述映射位置作为所述对应位置。

在本申请的一些实施例中，基于前述方案，所述处理单元还用于：根据所述参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的所述目标位置所包含的所有像素点的光流信息方差值；若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述目标位置的对应位置。

在本申请的一些实施例中，基于前述方案，所述处理单元还用于：通过神经网络模型提取所述视频帧之间的光流信息，其中，所述神经网络模型通过标注了光流信息的第一训练数据进行训练得到，所述第一训练数据包括相邻视频帧之间各像素在指定维度方向上的位置偏移量。

在本申请的一些实施例中，基于前述方案，所述场景分割单元配置为：通过深度神经网络模型对所述指定视频帧进行场景分割处理，其中，所述深度神经网络模型通过第二训练数据进行训练得到，所述第二训练数据包括以像素形式标注了所述指定类型的物体的图像数据。

根据本申请实施例的一个方面，提供了一种视频数据中的广告位确定装置，包括：获取单元，用于获取需要***广告位的视频数据；场景分割单元，用于对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域，所述指定类型的物体包括能够设置广告位的物体；生成单元，用于在所述目标区域中确定待选广告位，以基于所述待选广告位投放推广信息。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的视频数据的处理方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的视频数据的处理方法。

在本申请的一些实施例所提供的技术方案中，通过对指定视频帧进行场景分割处理，以在指定视频帧中识别出指定类型的物体所在的目标区域，并在该目标区域中生成用于投放信息的目标位置，使得能够通过对视频帧进行场景分割处理来检测视频帧中适合投放信息的目标区域，进而能够生成用于投放信息的目标位置，实现了对信息投放位置的自动检测与生成，提高了视频数据中信息投放位置的生成效率，避免了由人工设置信息投放位置而产生的人力开销，降低了确定信息投放位置的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图；

图2示出了根据本申请的一个实施例的视频数据的处理方法的流程图；

图3示出了根据本申请的一个实施例的在目标区域中生成用于投放信息的目标位置的流程图；

图4示出了根据本申请的一个实施例的在视频数据包含的其它视频帧中确定目标位置的对应位置的流程图；

图5示出了根据本申请的一个实施例的在相邻视频帧中确定目标位置的对应位置的流程图；

图6示出了根据本申请的一个实施例的判断在相邻视频帧中是否无法确定出对应位置的流程图；

图7示出了根据本申请的一个实施例的针对视频自动生成广告位候选位置的流程图；

图8示出了根据本申请的一个实施例的基于本申请实施例的技术方案对单帧图像进行场景分割前后的对比效果示意图；

图9示出了根据本申请的一个实施例的基于本申请实施例的技术方案对单帧图像进行场景分割及矩形框生成的效果示意图；

图10示出了根据本申请的一个实施例的视频数据的处理装置的框图；

图11示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图。

如图1所示，***架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，终端设备可以向服务器105提供待处理的视频数据，服务器105在获取到终端设备提供的待处理的视频数据之后，可以对该视频数据中包含的指定视频帧进行场景分割处理，以在该指定视频帧中识别出指定类型的物体所在的目标区域，然后可以在该目标区域中生成用于投放信息的目标位置。比如，该待处理的视频数据可以是需要***广告位的视频数据，在对该视频数据进行场景分割处理之后可以识别出能够设置广告位的物体(比如地面、墙面、桌面等)所在的目标区域，然后在该目标区域中确定待选广告位，进而用户可以从这些待选广告位中选择部分广告位来投放推广信息。可见，本申请实施例的技术方案实现了对信息投放位置(如广告位)的自动检测与生成，提高了视频数据中信息投放位置的生成效率，避免了由人工设置信息投放位置而产生的人力开销，降低了确定信息投放位置的成本。

需要说明的是，本申请实施例所提供的视频数据的处理方法一般由服务器105执行，相应地，视频数据的处理装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的视频数据的处理方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的视频数据的处理方法的流程图，该视频数据的处理方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该视频数据的处理方法至少包括步骤S210至步骤S230，详细介绍如下：

在步骤S210中，获取待处理的视频数据。

在本申请的一个实施例中，待处理的视频数据可以是需要识别出信息投放位置的视频数据，比如需要***广告位的视频数据。其中，待处理的视频数据可以包括多个视频帧，或者也可以仅包括一个视频帧，如果待处理的视频数据包括一个视频帧，那么待处理的视频数据即为一帧图像。

在本申请的一个实施例中，待处理的视频数据可以是用户指定的一段视频数据，比如用户通过终端设备上传的一段视频数据或者通过终端设备选取的一段视频数据。此外，待处理的视频数据也可以是从数据库中拉取到的视频数据。

继续参照图2所示，在步骤S220中，对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域。

在本申请的一个实施例中，可以通过深度神经网络模型对该指定视频帧进行场景分割处理，其中，该深度神经网络模型可以通过训练数据进行训练得到，该训练数据包括以像素形式标注了指定类型的物体的图像数据。可选地，该深度神经网络模型可以是PSPNet(Pyramid Scene Parsing Network，金字塔场景解析网络)、Deeplab(一种语义分割模型)网络等。

在本申请的一个实施例中，指定类型的物体可以是能够设置信息投放位置的物体，比如可以是地面、墙面、桌面等。

继续参照图2所示，在步骤S230中，在所述目标区域中生成用于投放信息的目标位置。

在本申请的一个实施例中，可以将目标区域中的任意位置作为用于投放信息的目标位置，比如可以在目标区域中选择一个矩形区域作为目标位置，或者也在目前区域中选择一个圆形或其它形状的区域作为目标位置。

在本申请的一个实施例中，如图3所示，步骤S230中在目标区域中生成用于投放信息的目标位置的流程，包括如下步骤：

步骤S310，在目标区域中确定距离目标区域的边缘最远的目标点。

在本申请的一个实施例中，在目标区域中确定距离目标区域的边缘最远的目标点的过程可以当作求解多边形内部最大圆的圆心问题，或者当作求解难抵极问题(pole ofinaccessibility problem)。比如可以基于维诺图(Voronoi diagram)方法或者穷举法等来确定距离目标区域的边缘最远的目标点。

步骤S320，以所述目标点为中心，生成用于投放信息的目标位置。

在本申请的一个实施例中，可以基于设定的长度和宽度，以所述目标点为中心生成矩形区域，进而将生成的矩形区域作为该目标位置。在本申请的其它实施例中，也可以基于设定的半径，以该目标点为圆心生成圆形区域，以作为该目标位置。此外，还可以以该目标点为中心，生成其它任意形状的区域，以作为该目标位置。

图3所示实施例的技术方案使得能够尽可能选择位于目标区域中心的区域来作为目标位置，进而使得选择的目标位置能够尽量避免目标区域边缘造成的干扰，同时也使得选择的目标位置在视频数据的其它视频帧中出现的概率较大，进而能够便于在其它视频帧中确定与该目标位置相对应的位置。

在本申请的一个实施例中，由于指定视频帧中的目标区域可能面积较小，这种情况下不便于从中选取信息投放位置，因此可以检测在指定视频帧中识别出的所述指定类型的物体所在的各个目标区域的区域面积，然后在区域面积大于或等于面积阈值的目标区域中生成前述的目标位置。即该实施例的技术方案可以过滤掉面积较小的目标区域，以避免在面积较小的目标区域中也生成目标位置而增加处理负荷。

本申请前述实施例的技术方案实现了对信息投放位置(如广告位)的自动检测与生成，提高了视频数据中信息投放位置的生成效率，避免了由人工设置信息投放位置而产生的人力开销，降低了确定信息投放位置的成本。

基于前述实施例的技术方案，在本申请的一个实施例中，当在目标区域中生成用于投放信息的目标位置之后，还可以基于视频帧之间的光流信息和所述的目标位置，依次在视频数据包含的其它视频帧中确定目标位置的对应位置。该实施例的技术方案使得能够基于视频帧之间的关系来将确定出的目标位置映射到其它各个视频帧中，提高了在其它视频帧中确定信息投放位置的效率。

在本申请的一个实施例中，如图4所示，基于视频帧之间的光流信息和所述目标位置，依次在视频数据包含的其它视频帧中确定目标位置的对应位置的流程，可以包括如下步骤S410至步骤S430，详细说明如下：

在步骤S410中，将指定视频帧作为参考视频帧，确定所述参考视频帧的相邻视频帧。

在本申请的一个实施例中，参考视频帧的相邻视频帧可以时间序列上位于参考视频帧之后的一个视频帧，也可以是时间序列上位于参考视频帧之前的一个视频帧。

在步骤S420中，根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述目标位置的对应位置。

在本申请的一个实施例中，可以通过神经网络模型提取视频帧之间的光流信息，其中，该神经网络模型通过标注了光流信息的训练数据进行训练得到，该训练数据包括相邻视频帧之间各像素在指定维度方向上的位置偏移量。可选地，若视频帧的形状是矩形，那么指定维度方向可以是视频帧的长度方向和宽度方向。

在本申请的一个实施例中，如图5所示，步骤S420中根据参考视频帧与相邻视频帧之间的光流信息，在相邻视频帧中确定目标位置的对应位置的流程，可以包括如下步骤：

步骤S510，根据参考视频帧与相邻视频帧之间的光流信息，计算目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值。

在本申请的一个实施例中，若视频帧的形状是矩形，那么指定维度方向可以是视频帧的长度方向和宽度方向。

步骤S520，基于所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值，将所述目标位置映射到所述相邻视频帧中得到所述对应位置。

在本申请的一个实施例中，将目标位置映射到相邻视频帧中得到所述对应位置的过程可以是将目标位置中的指定像素点映射到相邻视频帧中，得到映射像素点，然后基于该映射像素点在相邻视频帧中生成所述对应位置。比如，若目标位置为矩形，则可以基于设定的长度和宽度，将该映射像素点作为中心点来生成矩形形状的对应位置；若目标位置为圆形，则可以基于设定的半径，将该映射像素点作为圆心来生成圆形形状的对应位置。

在本申请的一个实施例中，可以将目标位置直接映射到相邻视频帧中得到映射位置，将该映射位置作为所述对应位置。比如，可以将目标位置中的所有像素点都映射到相邻视频帧中得到映射位置；或者也可以将目标位置的轮廓上的像素点映射到相邻视频帧中得到映射轮廓，然后基于该映射轮廓确定映射位置。

继续参照图4所示，在步骤S430中，将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述目标位置，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止。

在本申请的一个实施例中，如图6所示，判断在相邻视频帧中是否无法确定出所述对应位置的过程可以包括：

步骤S610，根据参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的目标位置所包含的所有像素点的光流信息方差值。

步骤S620，若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述目标位置的对应位置。

在本申请的一个实施例中，如果光流信息方差值较大，则可以认为光流信息预测结果不准确且不可靠，因此可以确定在相邻视频帧中无法确定出目标位置的对应位置。比如，若根据第T帧与第T+1帧之间的光流信息计算出的第T帧中的目标位置所包含的所有像素点的光流信息方差值较大，则可以说明在第T+1帧中无法确定出与该目标位置对应的位置。

本申请实施例的技术方案可以应用到自动确定广告位的应用场景中，比如可以对需要***广告位的视频数据中包含的指定视频帧进行场景分割处理，以在该指定视频帧中识别出能够设置广告位的物体所在的目标区域，然后在该目标区域中确定待选广告位，以基于该待选广告位投放推广信息，并且可以基于视频帧之间的关系，在视频数据的其它视频帧中进行映射得到与该待选广告位相对应的位置。具体地，以下结合图7，对本申请实施例中针对视频自动生成广告位候选位置的技术方案进行详细阐述。

参照图7所示，根据本申请实施例的针对视频自动生成广告位候选位置的流程，主要包括如下几个过程：视频单帧分割过程701、区域最中心矩形提取过程702、光流生成过程703和矩形框扩散过程704。以下针对各个过程分别进行说明。

视频单帧分割过程701：

在本申请的一个实施例中，可以针对视频中给定的一帧进行场景分割处理，主要是为了得到视频帧中目标类别所在的区域，该目标类型可以包括地面、墙面、桌面等无定形的物体类别。可选地，可以利用深度卷积神经网络来进行场景分割处理比如可以采用PSPNet、Deeplab等。其中，可以采用以像素形式标注了上述目标类别的图像作为训练数据来训练以上的网络模型，在对模型进行训练的过程中，损失函数可以采用像素级别的交叉熵分类损失函数，比如可以如下述公式1所示：

在公式1中，函数I(x)表示指示函数，当x成立时，I(x)值为1；

表示神经网络模型对第i行、第j列的像素在第k类上的预测置信度；c表示像素的真值标注类别；N表示总的类别数。

在本申请的一个实施例中，图8所示为基于本申请实施例的技术方案对单帧图像进行场景分割前后的对比效果示意图，可以看出，进行场景分割后可以得到目标类别所在的区域，比如区域801、区域802和区域803。

区域最中心矩形提取过程702：

在本申请的一个实施例中，当对图像进行场景分割之后，可以得到能够设置广告位候选位置的区域，由于有些区域面积较小，因此可以筛选出面积较大的区域来选择广告位候选位置。由于得到的区域为不规则边缘形状，当在其内部挑选合适的矩形位置(该实施例中以矩形为例进行说明，在本申请的其它实施例中，也可以是圆形等其它形状)作为广告候选位置时，可以将以距离区域边缘最远的点为中心的矩形框作为挑选出的矩形位置。具体地，从不规则的区域中找到距离边缘最远的点可以当作求解多边形内部最大圆的圆心问题，或者当作求解难抵极问题，例如可以基于维诺图的方法或者穷举法等来进行求解。当得到距离区域边缘最远的中心点后，可以基于设定得长和宽生成所需要的矩形框。

在本申请的一个实施例中，图9所示为基于本申请实施例的技术方案对单帧图像进行场景分割及矩形框生成的效果示意图，可以看出，最后生成的矩形框基本上是处于区域的中心位置，即处于距离不规则区域边缘最远的位置，该位置可以视为这一帧图像中适合***广告的位置。

光流生成过程703：

在本申请的一个实施例中，在生成单帧图像中的矩形框之后，可以将该矩形框扩散到视频数据的其他帧中，比如该帧图像后续一定数量的连续帧。在进行矩形框的扩散前，需要先提取相邻帧之间的光流信息，利用光流信息找到前一帧中的矩形框所在的位置在后续帧中的对应位置，这些后续帧中的对应位置亦为合适的广告位候选位置。

在本申请的一个实施例中，可利用光流计算神经网络模型来提取相邻帧之间的光流信息，例如可以通过FlowNet(光流神经网络)、PWC-Net(使用金字塔Pyramid、卷绕Warping和成本量Cost Volume的神经网络)等来提取相邻帧之间的光流信息。可选地，这些神经网络模型可以依赖其他数据集进行光流信息的训练得到，该其他数据集需要带有光流信息的标注，光流信息的标注通常为连续两帧之间所有像素在指定维度方向上的位移偏量。其中，若视频帧的形状是矩形，那么指定维度方向可以是视频帧的长度方向和宽度方向。

矩形框扩散过程704：

在本申请的一个实施例中，在提取得到相邻帧之间的光流信息后，第一帧中的矩形框可以通过光流信息映射到后续的视频帧中。具体地，可以计算第一帧中矩形框内所有点的光流信息在长度方向和宽度方向(假设视频帧的形状为矩形)的均值，然后将矩形框的中心点通过这两个方向上的光流均值映射到下一帧，进而以映射后的中心点为中心，基于给定的矩形长宽生成相应的矩形框，即得到下一帧中的对应矩形框。

在本申请的一个实施例中，由于一个无规则区域不可能无限存在于视频中，因此需要自动判断矩形框映射结束的停止帧，即在停止帧之后不再进行矩形框的映射处理。可选地，判断停止帧可以依赖于光流信息对该矩形框预测值的不均匀性。具体而言，如果矩形框内全部像素预测的光流值有一个较大的方差，则认为光流预测不准确和不可靠，因而可认为该矩形框在下一帧会失去对应位置。比如，若根据第T帧与第T+1帧之间的光流信息计算出的第T帧中的矩形框所包含的所有像素点的光流信息的方差值较大，则可以说明在第T+1帧中会失去矩形框的对应位置。通过这种方式，可以将矩形框扩散到视频的后续帧中，直到失去对应位置为止。

本申请上述实施例的技术方案能够辅助技术人员在视频数据(比如时间较长的一段视频)中筛选适合植入广告的位置，如果没有本申请实施例的技术方案，则技术人员需要标出视频中每一帧内适合***广告的位置，当有多个潜在的广告位时，还需要进一步把相邻视频帧上的广告位的对应关系标注出来；而在实施本申请实施例的技术方案之后，技术人员可以仅验证本申请实施例的技术方案识别出潜在广告位是否合适，并且可以在需要的时候对广告位进行微调，提高了在视频中生成广告位的效率，极大的减少了人工成本。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的视频数据的处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的视频数据的处理方法的实施例。

图10示出了根据本申请的一个实施例的视频数据的处理装置的框图。

参照图10所示，根据本申请的一个实施例的视频数据的处理装置1000，包括：获取单元1002、场景分割单元1004和生成单元1006。

其中，获取单元1002用于获取待处理的视频数据；场景分割单元1004用于对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域；生成单元1006用于在所述目标区域中生成用于投放信息的目标位置。

在本申请的一些实施例中，生成单元1006配置为：在所述目标区域中确定距离所述目标区域的边缘最远的目标点；以所述目标点为中心，生成用于投放信息的目标位置。

在本申请的一些实施例中，生成单元1006配置为：基于设定的长度和宽度，以所述目标点为中心生成矩形区域，将生成的所述矩形区域作为所述目标位置。

在本申请的一些实施例中，生成单元1006配置为：检测在所述指定视频帧中识别出的所述指定类型的物体所在的各个目标区域的区域面积；在区域面积大于或等于面积阈值的目标区域中生成所述目标位置。

在本申请的一些实施例中，所述的视频数据的处理装置1000还包括：处理单元，用于在所述生成单元生成用于投放信息的目标位置之后，基于视频帧之间的光流信息和所述目标位置，依次在所述视频数据包含的其它视频帧中确定所述目标位置的对应位置。

在本申请的一些实施例中，所述处理单元配置为：将所述指定视频帧作为参考视频帧，确定所述参考视频帧的相邻视频帧；根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述目标位置的对应位置；将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述目标位置，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止。

在本申请的一些实施例中，所述处理单元配置为：根据所述参考视频帧与所述相邻视频帧之间的光流信息，计算所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值；基于所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值，将所述目标位置映射到所述相邻视频帧中得到所述对应位置。

在本申请的一些实施例中，所述处理单元配置为：将所述目标位置中的指定像素点映射到所述相邻视频帧中，得到映射像素点，基于所述映射像素点在所述相邻视频帧中生成所述对应位置；或将所述目标位置映射到所述相邻视频帧中得到映射位置，将所述映射位置作为所述对应位置。

在本申请的一些实施例中，所述处理单元还用于：根据所述参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的所述目标位置所包含的所有像素点的光流信息方差值；若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述目标位置的对应位置。

在本申请的一些实施例中，所述处理单元还用于：通过神经网络模型提取所述视频帧之间的光流信息，其中，所述神经网络模型通过标注了光流信息的第一训练数据进行训练得到，所述第一训练数据包括相邻视频帧之间各像素在指定维度方向上的位置偏移量。

在本申请的一些实施例中，所述场景分割单元1004配置为：通过深度神经网络模型对所述指定视频帧进行场景分割处理，其中，所述深度神经网络模型通过第二训练数据进行训练得到，所述第二训练数据包括以像素形式标注了所述指定类型的物体的图像数据。

需要说明的是，图11示出的电子设备的计算机***1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机***1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1103中，还存储有***操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频数据的处理方法，其特征在于，包括：

获取待处理的视频数据；

对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域；

在所述目标区域中生成用于投放信息的目标位置；

将所述指定视频帧作为参考视频帧，确定所述参考视频帧的相邻视频帧；

根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述目标位置的对应位置；

将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述目标位置，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止；

其中，根据所述参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的所述目标位置所包含的所有像素点的光流信息方差值，若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述目标位置的对应位置。

2.根据权利要求1所述的视频数据的处理方法，其特征在于，在所述目标区域中生成用于投放信息的目标位置，包括：

在所述目标区域中确定距离所述目标区域的边缘最远的目标点；

以所述目标点为中心，生成用于投放信息的目标位置。

3.根据权利要求2所述的视频数据的处理方法，其特征在于，以所述目标点为中心，生成用于投放信息的目标位置，包括：

基于设定的长度和宽度，以所述目标点为中心生成矩形区域，将生成的所述矩形区域作为所述目标位置。

4.根据权利要求1所述的视频数据的处理方法，其特征在于，在所述目标区域中生成用于投放信息的目标位置，包括：

检测在所述指定视频帧中识别出的所述指定类型的物体所在的各个目标区域的区域面积；

在区域面积大于或等于面积阈值的目标区域中生成所述目标位置。

5.根据权利要求1所述的视频数据的处理方法，其特征在于，根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述目标位置的对应位置，包括：

根据所述参考视频帧与所述相邻视频帧之间的光流信息，计算所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值；

基于所述目标位置中的所有像素点在所述参考视频帧的指定维度方向上的光流均值，将所述目标位置映射到所述相邻视频帧中得到所述对应位置。

6.根据权利要求5所述的视频数据的处理方法，其特征在于，将所述目标位置映射到所述相邻视频帧中得到所述对应位置，包括：

将所述目标位置中的指定像素点映射到所述相邻视频帧中，得到映射像素点，基于所述映射像素点在所述相邻视频帧中生成所述对应位置；或

将所述目标位置映射到所述相邻视频帧中得到映射位置，将所述映射位置作为所述对应位置。

7.根据权利要求1所述的视频数据的处理方法，其特征在于，还包括：

通过神经网络模型提取所述视频帧之间的光流信息，其中，所述神经网络模型通过标注了光流信息的第一训练数据进行训练得到，所述第一训练数据包括相邻视频帧之间各像素在指定维度方向上的位置偏移量。

8.根据权利要求1至7中任一项所述的视频数据的处理方法，其特征在于，对所述视频数据中包含的指定视频帧进行场景分割处理，包括：

通过深度神经网络模型对所述指定视频帧进行场景分割处理，其中，所述深度神经网络模型通过第二训练数据进行训练得到，所述第二训练数据包括以像素形式标注了所述指定类型的物体的图像数据。

9.一种视频数据中的广告位确定方法，其特征在于，包括：

获取需要***广告位的视频数据；

对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域，所述指定类型的物体包括能够设置广告位的物体；

在所述目标区域中确定待选广告位，以基于所述待选广告位投放推广信息；

根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述待选广告位的对应位置；

将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述待选广告位，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止；

其中，所述广告位确定方法还包括：根据所述参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的所述待选广告位所包含的所有像素点的光流信息方差值，若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述对应位置。

10.一种视频数据的处理装置，其特征在于，包括：

获取单元，用于获取待处理的视频数据；

场景分割单元，用于对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域；

生成单元，用于在所述目标区域中生成用于投放信息的目标位置；

处理单元，用于在所述生成单元生成用于投放信息的目标位置之后，将所述指定视频帧作为参考视频帧，确定所述参考视频帧的相邻视频帧，根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述目标位置的对应位置，将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述目标位置，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止；

其中，所述处理单元还用于：根据所述参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的所述目标位置所包含的所有像素点的光流信息方差值，若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述目标位置的对应位置。

11.根据权利要求10所述的视频数据的处理装置，其特征在于，所述生成单元配置为：

以所述目标点为中心，生成用于投放信息的目标位置。

12.根据权利要求11所述的视频数据的处理装置，其特征在于，所述生成单元配置为：

13.根据权利要求10所述的视频数据的处理装置，其特征在于，所述生成单元配置为：

14.根据权利要求10所述的视频数据的处理装置，其特征在于，所述处理单元配置为：

15.根据权利要求14所述的视频数据的处理装置，其特征在于，所述处理单元配置为：

16.根据权利要求10所述的视频数据的处理装置，其特征在于，所述处理单元还用于：

17.根据权利要求10至16中任一项所述的视频数据的处理装置，其特征在于，所述场景分割单元配置为：

18.一种视频数据中的广告位确定装置，其特征在于，包括：

获取单元，用于获取需要***广告位的视频数据；

场景分割单元，用于对所述视频数据中包含的指定视频帧进行场景分割处理，以在所述指定视频帧中识别出指定类型的物体所在的目标区域，所述指定类型的物体包括能够设置广告位的物体；

生成单元，用于在所述目标区域中确定待选广告位，以基于所述待选广告位投放推广信息；

处理单元，用于在所述生成单元确定所述待选广告位之后，将所述指定视频帧作为参考视频帧，确定所述参考视频帧的相邻视频帧，根据所述参考视频帧与所述相邻视频帧之间的光流信息，在所述相邻视频帧中确定所述待选广告位的对应位置，将所述相邻视频帧作为所述参考视频帧，并将所述对应位置作为所述待选广告位，继续确定所述参考视频帧的相邻视频帧中包含的所述对应位置，直至在所述相邻视频帧中无法确定出所述对应位置为止；

其中，所述处理单元还用于：根据所述参考视频帧与所述参考视频帧的相邻视频帧之间的光流信息，计算所述参考视频中的所述待选广告位所包含的所有像素点的光流信息方差值，若所述光流信息方差值大于或等于方差阈值，则确定在所述相邻视频帧中无法确定出所述对应位置。

19.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的视频数据的处理方法，或实现如权利要求9所述的视频数据中的广告位确定方法。

20.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的视频数据的处理方法，或实现如权利要求9所述的视频数据中的广告位确定方法。