CN114051166A

CN114051166A - 在视频中植入广告的方法、装置、电子设备和存储介质

Info

Publication number: CN114051166A
Application number: CN202010725796.2A
Authority: CN
Inventors: 石峰; 郭小燕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2022-02-15
Anticipated expiration: 2040-07-24
Also published as: CN114051166B

Abstract

本公开关于一种在视频中植入广告的方法、装置、电子设备和存储介质。其中，该方法包括：获取视频观看者的视线停留区域，并将视线停留区域作为视频观看者观看视频时的感兴趣区域；获取待植入广告；根据待植入广告和感兴趣区域，在视频之中生成投放待植入广告的三维空间位置；以及在三维空间位置上投放待植入广告，以将待植入广告融入至视频的原生内容中。本公开可以利用该三维空间位置将广告无缝融入到视频的原生内容中，在最大程度上达到不打扰用户观看，以更智能和隐形的方式以提高广告投资回报率。

Description

在视频中植入广告的方法、装置、电子设备和存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种在视频中植入广告的方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的发展，互联网视频流量在近几年大量增加，短视频、直播等各种新型UGC(User Generated Content，用户原创内容)的出现促使互联网视频越来越丰富，同时受众群体也越来越庞大。在这种情况下，商家往往倾向于在互联网视频中投放更多的广告，以此来追求更高的广告投资回报率。

相关技术中，互联网平台中视频广告投放方式主要有两种：一种是广告以内容平台的原生内容形式出现，另一种是以二维平面的方式直接嵌入到视频中，又称创可贴广告。

但是，目前存在的问题是：上述两种广告投放方式都会在一定程度上破坏内容观看体验，引起用户反感，从而降低广告的回报率。

发明内容

本公开提供一种在视频中植入广告的方法、装置、电子设备和存储介质，以至少解决相关技术中的广告投放方式会破坏视频内容观看体验，引起用户反感，进而降低广告的回报率的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种在视频中植入广告的方法，包括：

获取视频观看者的视线停留区域，并将所述视线停留区域作为所述视频观看者观看视频时的感兴趣区域；

获取待植入广告；

根据所述待植入广告和所述感兴趣区域，在所述视频中生成投放所述待植入广告的三维空间位置；以及

在所述三维空间位置上投放所述待植入广告，以将所述待植入广告融入至所述视频的原生内容中。

在本公开一些实施例中，所述获取待植入广告，包括：获取所述视频的内容类别和所述视频观看者的属性信息；根据所述视频的内容类别和所述视频观看者的属性信息，获取所述待植入广告。

在本公开一些实施例中，所述获取所述视频的内容类别，包括：提取所述视频的视觉特征和音频特征；将所述视觉特征和所述音频特征输入至视频内容分类模型，以获取所述视频的内容类别。

在本公开一些实施例中，所述获取所述视频的内容类别，包括：提取所述视频的多个关键帧；对每个所述关键帧进行内容分类，以得到每个所述关键帧的分类结果；统计每个所述关键帧的分类结果以获取所述视频的内容类别。

在本公开一些实施例中，所述根据所述待植入广告和所述感兴趣区域，在所述视频生成投放所述待植入广告的三维空间位置，包括：获取所述待植入广告的内容类型；根据所述待植入广告的内容类型确定所述感兴趣区域内是否存在所述待植入广告的植入对象；当所述感兴趣区域内存在所述待植入广告的植入对象时，获取所述植入对象在所述视频之中的三维信息；根据所述植入对象在所述视频之中的三维信息生成投放所述待植入广告的三维空间位置。

在本公开一些实施例中，所述方法还包括：当所述感兴趣区域内不存在所述待植入广告的植入对象时，根据所述待植入广告的内容类型生成虚拟植入对象；获取所述虚拟植入对象在所述视频之中的三维信息；根据所述虚拟植入对象在所述视频之中的三维信息，在所述视频之中生成用以投放所述待植入广告的三维空间位置。

在本公开一些实施例中，所述根据所述待植入广告的内容类型确定所述感兴趣区域内是否存在所述待植入广告的植入对象，包括：获取所述感兴趣区域内的至少一个物体；确定每个物体的类型；根据所述待植入广告的内容类型和所述每个物体的类型，确定所述至少一个物体中是否存在用以承载所述待植入广告的物体；当所述至少一个物体中不存在用以承载所述待植入广告的物体时，确定所述感兴趣区域内不存在所述待植入广告的植入对象；当所述至少一个物体中存在用以承载所述待植入广告的物体时，将所述用以承载所述待植入广告的物体确定为所述植入对象，并确定所述感兴趣区域内存在所述待植入广告的植入对象。

在本公开一些实施例中，所述方法还包括：在所述三维空间位置上投放所述待植入广告的过程中，对所述待植入广告的内容的三维空间朝向进行调整，以使所述待植入广告的内容的三维空间朝向与所述三维空间位置之中物体的三维空间朝向保持一致。

在本公开一些实施例中，在将所述待植入广告投放至所述三维空间位置上之后，所述方法还包括：对所述视频之中已投放广告的区域在三维空间中进行逐帧实时追踪；当追踪到所述区域的三维信息在当前帧中发生变化时，获取所述区域在所述当前帧之中的三维信息；根据所述区域在所述当前帧之中的三维信息对所述已投放广告的内容的三维空间朝向进行实时调整，以使所述已投放广告的内容的三维空间朝向与所述区域之中物体的三维空间朝向保持一致。

根据本公开实施例的第二方面，提供一种在视频中植入广告的装置，包括：

第一获取模块，被配置为获取视频观看者的视线停留区域，并将所述视线停留区域作为所述视频观看者观看视频时的感兴趣区域；

第二获取模块，被配置为获取待植入广告；

生成模块，被配置为根据所述待植入广告和所述感兴趣区域，在所述视频中生成投放所述待植入广告的三维空间位置；以及

投放模块，被配置为在所述三维空间位置上投放所述待植入广告，以将所述待植入广告融入至所述视频的原生内容中。

在本公开的一些实施例中，所述第二获取模块包括：第一获取单元，被配置为获取所述视频的内容类别和所述视频观看者的属性信息；第二获取单元，被配置为根据所述视频的内容类别和所述视频观看者的属性信息，获取所述待植入广告。

在本公开的一些实施例中，所述第一获取单元被配置为：提取所述视频的视觉特征和音频特征；将所述视觉特征和所述音频特征输入至视频内容分类模型，以获取所述视频的内容类别。

在本公开的一些实施例中，所述第一获取单元被配置为：提取所述视频的多个关键帧；对每个所述关键帧进行内容分类，以得到每个所述关键帧的分类结果；统计每个所述关键帧的分类结果以获取所述视频的内容类别。

在本公开的一些实施例中，所述生成模块被配置为：获取所述待植入广告的内容类型；根据所述待植入广告的内容类型确定所述感兴趣区域内是否存在所述待植入广告的植入对象；当所述感兴趣区域内存在所述待植入广告的植入对象时，获取所述植入对象在所述视频之中的三维信息；根据所述植入对象在所述视频之中的三维信息生成投放所述待植入广告的三维空间位置。

在本公开的一些实施例中，所述生成模块还被配置为：当所述感兴趣区域内不存在所述待植入广告的植入对象时，根据所述待植入广告的内容类型生成虚拟植入对象；获取所述虚拟植入对象在所述视频之中的三维信息；根据所述虚拟植入对象在所述视频之中的三维信息，在所述视频之中生成投放所述待植入广告的三维空间位置。

在本公开的一些实施例中，所述生成模块被配置为：获取所述感兴趣区域内的至少一个物体；确定每个物体的类型；根据所述待植入广告的内容类型和所述每个物体的类型，确定所述至少一个物体中是否存在用以承载所述待植入广告的物体；当所述至少一个物体中不存在用以承载所述待植入广告的物体时，确定所述感兴趣区域内不存在所述待植入广告的植入对象；当所述至少一个物体中存在用以承载所述待植入广告的物体时，将所述用以承载所述待植入广告的物体确定为所述植入对象，并确定所述感兴趣区域内存在所述待植入广告的植入对象。

在本公开的一些实施例中，所述装置还包括：第一调整模块，被配置为在所述三维空间位置上投放所述待植入广告的过程中，对所述待植入广告的内容的三维空间朝向进行调整，以使所述待植入广告的内容的三维空间朝向与所述三维空间位置之中物体的三维空间朝向保持一致。

在本公开的一些实施例中，所述装置还包括：追踪模块，被配置为对所述视频之中已投放广告的区域在三维空间中进行逐帧实时追踪；第二调整模块，被配置为在追踪到所述区域的三维信息在当前帧中发生变化时，获取所述区域在所述当前帧之中的三维信息，并根据所述区域在所述当前帧之中的三维信息对所述已投放广告的内容的三维空间朝向进行实时调整，以使所述已投放广告的内容的三维空间朝向与所述区域之中物体的三维空间朝向保持一致。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现本公开实施例的第一方面所述的在视频中植入广告的方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面所述的在视频中植入广告的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行上述第一方面所述的在视频中植入广告的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过视线追踪、感兴趣区域检测、三维重建、深度估计等人工智能技术自动挖掘和生成互联网视频流中适合投放广告的三维空间位置，进而利用该三维空间位置将广告无缝融入到视频的原生内容中，在最大程度上达到不打扰用户观看，以更智能和隐形的方式以提高广告投资回报率。另外，由于植入的广告通常具有时间概念，因此，本公开将广告植入的维度提升到了四维空间(即时间+三维空间)，使得植入了广告中的视频更真实，更自然，使得植入效果更加贴近真实的物理世界，从而实现更加逼真的植入效果。本公开在广告植入的过程中，不依赖于视频后期处理，可以在视频拍摄的过程中或者观看视频(如视频观看者观看直播视频)的过程中，可以同步看到广告植入的效果，提高了视频植入的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种在视频中植入广告的方法的流程图。

图2是根据一示例性实施例示出的另一种在视频中植入广告的方法的流程图。

图3是根据一示例性实施例示出的又一种在视频中植入广告的方法的流程图。

图4是根据一示例性实施例示出的短视频的原始内容显示效果示意图。

图5是在图4所示的短视频的原始内容上植入广告后的效果示意图。

图6是根据一示例性实施例示出的一种在视频中植入广告的装置框图。

图7是根据一示例性实施例示出的另一种在视频中植入广告的装置框图。

图8是根据一示例性实施例示出的又一种在视频中植入广告的装置框图。

图9是根据一示例性实施例示出的再一种在视频中植入广告的装置框图。

图10是根据一示例性实施例示出的一种电子设备1000的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种在视频中植入广告的方法的流程图，如图1所示，在视频中植入广告的方法用于电子设备中，包括以下步骤。

在步骤S11中，获取视频观看者的视线停留区域，并将视线停留区域作为视频观看者观看视频时的感兴趣区域。

举例而言，本公开实施例在视频中植入广告的方法的应用场景可以是用户正在录制视频场景等。其中，该视频可以是短视频或其他类型的视频。另外，由于直播的实质就是录制视频，并将实时录制的视频进行推流，视频观看者通过拉流的方式可以观看主播所实时录制的视频，实现观看直播的效果，因此，本公开实施例的应用场景还可以是用户正在观看视频场景(比如，观看直播场景)，即用户正在观看直播，本公开通过在该直播对应的视频流中植入广告，以使得用户观看直播时能够看到该被植入的广告。

在本公开一些实施例中，可通过视线区域检测方式来获取视频观看者的视线停留区域。具体而言，步骤一：可采用SDM(Supervised Descent Method，监督下降方法)检测算法检测人眼特征点，经多次迭代后找到特征点最优解，从而确定左/右眼的六个特征点，利用几何知识，定位人眼轮廓中心点；步骤二：利用图像梯度信息来获取虹膜的中心位置；步骤三：采用最小二乘法椭圆拟合算法拟合人眼轮廓，然后依据拟合椭圆的宽高比确定人眼的开闭状态；步骤四：如果宽高比大于设定睁开阈值，则人眼属于睁开状态，跳转到步骤五；如果宽高比小于设定的睁开阈值，人眼属于关闭状态，输出人眼关闭；步骤五：计算人眼轮廓中心点与实际瞳孔的距离，该距离与给定中心半径比较，当该距离大于给定中心半径，则判别人眼视线区域不在“中间”，跳转步骤六；当该距离小于给定中心半径，输出人眼视线区域为“中间”；步骤六：如果宽高比小于或等于给定的临界阈值，则视线区域定位到“左下”、“右下”，比较人眼轮廓中心点位置x0与实际瞳孔位置x的距离和相对位置，当x<x0-0.4*b时，输出人眼视线区域为“右下”，当x>x0+0.4*b，输出人眼视线区域为“左下”；b为虹膜的短半轴长；否则，跳转到步骤七；步骤七：如果宽高比大于给定的临界阈值，则视线区域定位到“左上”、“右上”，比较人眼轮廓中心点位置与实际瞳孔位置的距离和相对位置，当x<x0-0.4*b时，输出人眼视线区域为“右上”，当x>x0+0.4*b，输出人眼视线区域为“左上”。

在本公开的另一些实施例中，可通过视线追踪算法确定正在观看视频的视频观看者的视线停留区域。其中，该视线追踪算法可包括但不限于：基于2D模型的视线追踪算法、基于眼球重建异面直线模型的双目视线追踪算法、基于图像处理技术的视线追踪算法、基于瞳孔-角膜反射的视线追踪算法等。

可选地，将获取到的视频观看者的视线停留区域作为该视频观看者观看视频时的感兴趣区域。例如，假设用户利用手机录制短视频时，视线停留在了短视频显示界面的上方区域，则可将该短视频显示界面的上方区域作为该用户观看视频时的感兴趣区域。又如，假设用户利用手机观看某短视频时，视线停留在该短视频显示界面的中间区域，则可将该短视频显示界面的中间区域作为该用户观看视频时的感兴趣区域。

在步骤S12中，获取待植入广告。

可选地，从广告数据库中获取待植入广告。其中，该广告数据库可被配置于服务器上。

在步骤S13中，根据待植入广告和感兴趣区域，在视频中生成投放待植入广告的三维空间位置。

可选地，在获得待植入广告，且确定出视频观看者观看视频时的感兴趣区域之后，可根据该感兴趣区域和待植入广告的广告内容，在视频之中生成适合投放待植入广告的三维空间位置。其中，在视频中生成三维空间位置的目的是为了能够将待植入广告投放到视频当中，也就是说，由于视频当中具有相应的场景内容，若想在该视频的某个区域之上投放广告，则需要利用三维信息才可将该广告投放到该区域之上，以使得被投放广告的区域显示该广告而不再显示被遮挡的内容，从而实现广告投放到视频的目的。因此，为了能够实现将广告真正融入到视频的原生内容中，可根据待植入广告的内容和感兴趣区域，利用深度估计方式在视频之中生成适合投放待植入广告的三维空间位置，以便后续利用该三维空间位置将该被植入广告投放到视频之中。而视频在显示内容时仍是以二维显示，本公开实施例生成三维空间位置的目的就是能够利用该位置的深度信息将待植入广告投放到该位置上，以使该广告遮挡住该位置上的原有内容，使得该位置上显示该广告内容。

在步骤S14中，在三维空间位置上投放待植入广告，以将待植入广告融入至视频的原生内容中。

可选地，在视频之中生成适合投放待植入广告的三维空间位置之后，可将该待植入广告放置到该三维空间位置上，从而将待植入广告融入至视频的原生内容中。可以理解，为了能够实现将待植入广告投放到视频内容之中，需在视频之中生成适合投放待植入广告的三维空间位置，将该待植入广告放置在该三维空间位置上，以便该待植入广告遮挡住该位置上视频的原有内容，从而使得视频的该位置上显示该待植入广告，从而实现将广告内容无缝融入到视频的原生内容中。

根据本公开实施例的在视频中植入广告的方法，可获取视频观看者的视线停留区域，并将视线停留区域作为视频观看者观看视频时的感兴趣区域，获取待植入广告，并根据待植入广告和感兴趣区域，在视频中生成适合投放待植入广告的三维空间位置，以及在三维空间位置上投放待植入广告，以将待植入广告融入至视频的原生内容中。由此，通过视线追踪、感兴趣区域检测、三维重建、深度估计等人工智能技术自动挖掘和生成互联网视频流中适合投放广告的三维空间位置，进而利用该三维空间位置将广告无缝融入到视频的原生内容中，在最大程度上达到不打扰用户观看，以更智能和隐形的方式以提高广告投资回报率。另外，由于植入的广告通常具有时间概念，因此，本公开将广告植入的维度提升到了四维空间(即时间+三维空间)，使得植入了广告中的视频更真实，更自然，使得植入效果更加贴近真实的物理世界，从而实现更加逼真的植入效果。本公开在广告植入的过程中，不依赖于视频后期处理，可以在视频拍摄的过程中或者观看视频(如视频观看者观看直播视频)的过程中，可以同步看到广告植入的效果，提高了视频植入的效率。

为了进一步提升用户体验，使得被植入的广告更加符合用户需求，实现广告的个性化推荐。可利用视频内容和视频观看者的属性信息为视频观看者个性化推荐广告。具体而言，图2是根据一示例性实施例示出的另一种在视频中植入广告的方法的流程图，如图2所示，该在视频中植入广告的方法包括以下步骤。

在步骤S21中，获取视频观看者的视线停留区域。

在步骤S22中，将视线停留区域作为视频观看者观看视频时的感兴趣区域。

在步骤S23中，获取视频的内容类别。

可选地，利用视频内容理解算法对视频内容进行分类，以得到该视频的内容类别。或者，可利用图像识别算法识别视频中关键帧的内容类别，并通过统计关键帧序列的分类结果来确定该视频的内容类别。下面将给出这两种示例的实现方式：

作为一种示例的可能实现方式，可提取视频的视觉特征和音频特征，并将视觉特征和音频特征输入至视频内容分类模型，以获取视频的内容类别。由此，通过视频的视觉特征和音频语义特征即可实现对视频内容的分类，提高视频内容分析的效率。

在本公开实施例中，该视频内容分类模型可以是利用训练数据预先训练而得到的模型，该训练数据可包括视觉特征样本、音频特征样本以及这些样本所对应的视频内容标签，基于该训练数据对分类器进行训练，从而可以得到上述视频内容分类模型。利用该视频内容分类模型即可实现对视频内容的分类，确定视频的内容类别。

作为另一种示例的可能实现方式，可提取视频的多个关键帧，并对每个关键帧进行内容分类，以得到每个关键帧的分类结果，并统计每个关键帧的分类结果以获取视频的内容类别。可以理解，视频内容理解算法可以直接对视频进行分类，而图像识别算法需要先对视频进行抽帧，抽取视频中的多个关键帧，并对抽帧得到的关键帧图像进行分类，并通过统计图像序列的分类结果来确定视频的内容类别。例如，关键帧图像连续多帧的分类结果均为化妆品内容，则可确定该视频为化妆品视频。由此，通过对视频中的关键帧进行分类，并统计关键帧的分类结果来确定出视频的内容分类，可以提高视频内容分析的准确性。

在步骤S24中，获取视频观看者的属性信息。

在本公开实施例中，该属性信息可包括但不限于身份信息、职业信息、兴趣爱好信息等。其中，该身份信息可包括但不限于性别、年龄、所在区域等。

在步骤S25中，根据视频的内容类别和视频观看者的属性信息，获取待植入广告。

可选地，根据视频的内容类别和视频观看者的属性信息，在广告数据库中进行检索，以获取与视频内容类别和视频观看者的属性信息匹配的待植入广告，从而实现为视频观看者个性化推荐广告。

在步骤S26中，根据待植入广告和感兴趣区域，在视频中生成投放待植入广告的三维空间位置。

在步骤S27中，在三维空间位置上投放待植入广告，以将待植入广告融入至视频的原生内容中。

根据本公开实施例的在视频中植入广告的方法，可利用视频内容和视频观看者的属性信息为视频观看者个性化推荐广告，可以使得被植入的广告更加符合用户需求，实现广告的个性化推荐，进一步提升了用户体验。

为了能够将被植入的广告无缝融入到视频的原生内容中，可将视频广告的空间植入维度从二维扩展到三维。另外，为了能够将广告植入到视频中，可从视频中确定出适合用来承载该广告的植入对象，以便将广告投放到该植入对象之上。具体而言，在本公开一些实施例中，如图3所示，所述根据待植入广告和感兴趣区域，在视频中生成适合投放待植入广告的三维空间位置的具体实现过程可包括如下步骤：

在步骤S31中，获取待植入广告的内容类型。

可选地，广告数据库存储有广告及其内容类型，在从广告数据库中获取待植入广告时，还可从广告数据库中获取与该待植入广告对应的内容类型。在本公开其他实施例中，可通过视频内容理解算法或者图像识别算法对待植入广告进行内容分类，以得到该待植入广告的内容类型。

在步骤S32中，根据待植入广告的内容类型确定感兴趣区域内是否存在待植入广告的植入对象。

其中，该植入对象可理解为视频的感兴趣区域之中的物体，该植入对象可包括但不限于背景墙、场景中物体的表面、服装、桌面、地面等。

在本公开的一些实施例中，可获取感兴趣区域内的至少一个物体，并确定每个物体的类型，并根据待植入广告的内容类型和每个物体的类型，确定至少一个物体中是否存在可用来承载待植入广告的物体，当至少一个物体中不存在能用来承载待植入广告的物体时，确定感兴趣区域内不存在能用来植入该广告的植入对象；当至少一个物体中存在能用来承载待植入广告的物体时，将能用来承载待植入广告的物体确定为植入对象，并判定感兴趣区域内存在能用来植入该广告的植入对象。

举例而言，可利用物体检测算法分析感兴趣区域内的至少一个物体，并确定每个物体的类型，比如该物体是背景墙、还是物体表面、或还是服装、或还是桌面或地面等。根据待植入广告的内容类型和每个物体的类型，确定至少一个物体中是否存在有适合承载待植入广告的物体，假设识别出感兴趣区域内有如下物体：地面和桌子，假设待植入广告的内容类型为牛奶瓶子，即该广告为牛奶广告，该广告的内容为牛奶瓶子，此时可根据待植入广告的内容类型和每个物体的类型，确定感兴趣区域内是否存在有适合承载待植入广告的物体，由于“牛奶瓶子”放在桌子上会更加贴近真是生活，效果更真实，所以可将感兴趣区域内的桌面作为适合承载待植入广告的植入对象，即判定感兴趣区域内存在能用来植入该广告的植入对象，该植入对象即为桌面。

又如，假设识别出感兴趣区域内有墙面和服装，假设待植入广告的内容类型为二维的LOGO，由于服装更加吸引眼球，所以可将感兴趣区域内的服装确定为适合承载待植入广告的植入对象，或者，可将感兴趣区域内的服装和墙面均作为适合承载待植入广告的植入对象。

再如，假设识别出感兴趣区域内只有墙面和地面，即视频的内容为一个空旷的屋内场景，假设待植入广告的内容类型为牛奶瓶子，即该广告为牛奶广告，该广告的内容为牛奶瓶子，由于“牛奶瓶子”放在桌子上会更加贴近真是生活，效果更真实，所以此时可确定感兴趣区域内不存在能用来植入待植入广告的植入对象。

在步骤S33中，当感兴趣区域内存在待植入广告的植入对象时，获取植入对象在视频之中的三维信息。

可选地，在确定感兴趣区域内存在能用来植入该待植入广告的植入对象时，可利用深度估计算法获取该植入对象在视频之中的三维信息，比如，可利用单目深度估计算法获取该植入对象在视频之中的深度信息，从而可以获取该植入对象在视频之中的三维信息。

在步骤S34中，根据植入对象在视频之中的三维信息生成投放待植入广告的三维空间位置。

可选地，获取待植入广告之中内容的三维信息，并根据所述待植入广告之中内容的三维信息和植入对象在视频之中的三维信息，将该植入对象的至少部分区域作为用以投放该待植入广告的位置，为了能够将该待植入广告投放到该位置，需将该位置生成三维空间位置，从而得到能用来投放待植入广告的三维空间位置。

需要说明的是，上述物体检测算法可由图像显著区域检测算法、全景分割算法、或语义分割算法代替。图像显著区域检测算法、全景分割算法、语义分割算法可以在做完显著性区域检测和分割后通过联通域检测算法得到植入对象的位置信息。

为了使得广告植入效果更加贴近物理世界，贴近真实，在本公开一些实施例中，当感兴趣区域内不存在待植入广告的植入对象时，根据待植入广告的内容类型生成虚拟植入对象；获取虚拟植入对象在视频之中的三维信息；根据虚拟植入对象在所述视频之中的三维信息，在视频之中生成能用来投放待植入广告的三维空间位置。也就是说，当确定感兴趣区域内不存在待植入广告的植入对象时，可根据待植入广告的内容类型生成一个可用以承载该待植入广告的虚拟植入对象，进而根据该虚拟植入对象在所述视频之中的三维信息，在视频之中生成适合投放待植入广告的三维空间位置。举例而言，假设识别出感兴趣区域内只有墙面和地面，即视频的内容为一个空旷的屋内场景，假设待植入广告的内容类型为牛奶瓶子，即该广告为牛奶广告，该广告的内容为牛奶瓶子，由于“牛奶瓶子”放在桌子上会更加贴近真是生活，效果更真实，所以此时可通过导入三维模型的生成方式在地面上导入一个虚拟桌子，将该虚拟桌子作为虚拟的植入对象，进而根据该桌子的三维虚拟植入对象模型的三维信息在视频之中生成适合投放待植入广告的三维空间位置，即可以将“牛奶瓶子”放在生成的虚拟桌子上，可以根据需求在合成的虚拟物体或场景中植入广告，为更丰富的广告创意提供支持，从而可以使得广告植入效果更加贴近物理世界，贴近真实。

为了进一步提高广告植入效果，在本公开一些实施例中，在三维空间位置上投放待植入广告的过程中，可对待植入广告的内容的三维空间朝向进行调整，以使待植入广告的内容的三维空间朝向与三维空间位置之中物体的三维空间朝向保持一致。作为一种示例，上述三维空间之中的物体可以是该视频的原生物体(即上述的可用以承载待植入广告的植入对象)，还是可以为了能够承载待植入广告而生成的虚拟物体。举例而言，在三维空间位置上投放待植入广告的过程中，可根据植入对象或虚拟植入对象的三维空间朝向对待植入广告的内容的三维空间朝向进行调整，以使广告内容的三维空间朝向与三维空间位置之中物体的三维空间朝向保持一致，从而可以让人感觉到该广告内容就是该视频原生内容的一部分，无违和感，可以进一步提高广告植入效果。

为了进一步提高投放广告的曝光率，使得植入效果更加贴近真实的物理世界，从而实现更加逼真的植入效果。在本公开一些实施例中，在将待植入广告投放至三维空间位置上之后，对视频之中已投放广告的区域在三维空间中进行逐帧实时追踪，当追踪到区域的三维信息在当前帧中发生变化时，获取区域在当前帧之中的三维信息，并根据区域在当前帧之中的三维信息对已投放广告的内容的三维空间朝向进行实时调整，以使已投放广告的内容的三维空间朝向与区域之中物体的三维空间朝向保持一致。举例而言，在将待植入广告投放至三维空间位置上之后，可对视频之中已投放广告的区域在三维空间中进行六自由度逐帧实时追踪，在追踪到该区域的三维信息在当前帧中发生变化时，根据该区域在当前帧之中的三维新型对该已投放广告的内容的三维空间朝向进行实时调整，以使该已投放广告的内容的三维空间朝向与该区域之中物体的三维空间朝向保持一致，从而使得广告内容无缝融入到视频的原生内容中，使得植入了广告中的视频更真实，更自然，使得植入效果更加贴近真实的物理世界，从而实现更加逼真的植入效果。

举例而言，假设用户正在录制短视频，短视频的原始内容显示效果可如图4所示。此时可利用视线追踪算法确定正在观看视频用户的视线停留区域，以此来作为用户在观看视频时的感兴趣区域，假设感兴趣区域为人物所在区域。假设待植入广告为一个熊猫LOGO，此时，可根据待植入广告的内容类型确定感兴趣区域内存在有适合植入所述待植入广告的植入对象，比如衣服，此时可根据该“衣服”在所述视频之中的三维信息生成适合投放所述待植入广告的三维空间位置。之后，在该三维空间位置投放该熊猫LOGO的广告，在投放过程中，可根据“衣服”的三维空间朝向对熊猫LOGO内容的三维朝向进行调整，以使熊猫LOGO内容的三维朝向与“衣服”的三维空间朝向保持一致，并对视频中已经植入了广告的区域在三维空间中进行6自由度逐帧实时追踪，并根据追踪结果对广告内容的三维朝向进行实时调整并植入。例如，如图5所示，为视频之中植入广告后的效果，将熊猫LOGO内容叠加到了视频之中的衣服表面，使得广告内容无缝融入到视频的原生内容中，使得植入了广告中的视频更真实，更自然，使得植入效果更加贴近真实的物理世界，从而实现更加逼真的植入效果。

图6是根据一示例性实施例示出的一种在视频中植入广告的装置框图。参照图6，该装置600包括：第一获取模块610、第二获取模块620、生成模块630和投放模块640。

具体地，第一获取模块610被配置为获取视频观看者的视线停留区域，并将视线停留区域作为视频观看者观看视频时的感兴趣区域。

第二获取模块620被配置为获取待植入广告。

生成模块630被配置为根据待植入广告和感兴趣区域，在视频中生成投放待植入广告的三维空间位置。在本公开一些实施例中，生成模块630被配置为：获取待植入广告的内容类型；根据待植入广告的内容类型确定感兴趣区域内是否存在待植入广告的植入对象；当感兴趣区域内存在待植入广告的植入对象时，获取植入对象在视频之中的三维信息；根据植入对象在视频之中的三维信息生成投放待植入广告的三维空间位置。

在本公开一些实施例中，生成模块630还被配置为：当感兴趣区域内不存在待植入广告的植入对象，则根据待植入广告的内容类型生成虚拟植入对象；获取虚拟植入对象在视频之中的三维信息；根据虚拟植入对象在视频之中的三维信息，在视频之中生成投放待植入广告的三维空间位置。

在本公开实施例中，生成模块630根据待植入广告的内容类型确定感兴趣区域内是否存在待植入广告的植入对象的具体实现过程可如下：获取感兴趣区域内的至少一个物体；确定每个物体的类型；根据待植入广告的内容类型和每个物体的类型，确定至少一个物体中是否存在用以承载待植入广告的物体；当至少一个物体中不存在用以承载待植入广告的物体时，确定感兴趣区域内不存在待植入广告的植入对象；当至少一个物体中存在用以承载待植入广告的物体时，将用以承载待植入广告的物体确定为植入对象，并确定感兴趣区域内存在待植入广告的植入对象。

投放模块640被配置为在三维空间位置上投放待植入广告，以将待植入广告融入至视频的原生内容中。

在本公开一些实施例中，如图7所示，该第二获取模块620可包括：第一获取单元621和第二获取单元622。其中，第一获取单元621被配置为获取视频的内容类别和视频观看者的属性信息；第二获取单元622被配置为根据视频的内容类别和视频观看者的属性信息，获取待植入广告。

在本公开一些实施例中，第一获取单元621被配置为：提取视频的视觉特征和音频特征；将视觉特征和音频特征输入至视频内容分类模型，以获取视频的内容类别。

在本公开一些实施例中，第一获取单元621被配置为：提取视频的多个关键帧；对每个关键帧进行内容分类，以得到每个关键帧的分类结果；统计每个关键帧的分类结果以获取视频的内容类别。

在本公开一些实施例中，如图8所示，该在视频中植入广告的装置600还可包括：第一调整模块650。其中，第一调整模块650被配置为在三维空间位置上投放待植入广告的过程中，对待植入广告的内容的三维空间朝向进行调整，以使待植入广告的内容的三维空间朝向与三维空间位置之中物体的三维空间朝向保持一致。

在本公开一些实施例中，如图9所示，该在视频中植入广告的装置600还可包括：追踪模块660和第二调整模块670。其中，追踪模块660被配置为对所述视频之中已投放广告的区域在三维空间中进行逐帧实时追踪；第二调整模块660被配置为在追踪到所述区域的三维信息在当前帧中发生变化时，获取所述区域在所述当前帧之中的三维信息，并根据所述区域在所述当前帧之中的三维信息对所述已投放广告的内容的三维空间朝向进行实时调整，以使所述已投放广告的内容的三维空间朝向与所述区域之中物体的三维空间朝向保持一致。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开实施例的在视频中植入广告的装置，可通过视线追踪、感兴趣区域检测、三维重建、深度估计等人工智能技术自动挖掘和生成互联网视频流中适合投放广告的三维空间位置，进而利用该三维空间位置将广告无缝融入到视频的原生内容中，在最大程度上达到不打扰用户观看同时又能引起注意的目的，以更智能和隐形的方式以提高广告投资回报率。另外，由于植入的广告通常具有时间概念，因此，本公开将广告植入的维度提升到了四维空间(即时间+三维空间)，使得植入了广告中的视频更真实，更自然，使得植入效果更加贴近真实的物理世界，从而实现更加逼真的植入效果。本公开在广告植入的过程中，不依赖于视频后期处理，可以在视频拍摄的过程中或者观看视频(如视频观看者观看直播视频)的过程中，可以同步看到广告植入的效果，提高了视频植入的效率。为了实现上述实施例，本公开还提供了一种电子设备，图10是根据一示例性实施例示出的一种电子设备1000的框图。例如，电子设备1000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，电子设备1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电源组件1006，多媒体组件1008，音频组件1010，输入/输出(I/O)的接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制电子设备1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在电子设备1000的操作。这些数据的示例包括用于在电子设备1000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1006为电子设备1000的各种组件提供电力。电源组件1006可以包括电源管理***，一个或多个电源，及其他与为电子设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述电子设备1000和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当电子设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当电子设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为电子设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到电子设备1000的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1000的显示器和小键盘，传感器组件1014还可以检测电子设备1000或电子设备1000一个组件的位置改变，用户与电子设备1000接触的存在或不存在，电子设备1000方位或加速/减速和电子设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于电子设备1000和其他设备之间有线或无线方式的通信。电子设备1000可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述在视频中植入广告的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由电子设备1000的处理器1020执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备1000的处理器执行时，使得电子设备1000能够执行一种在视频中植入广告的方法。

一种计算机程序产品，当计算机程序产品中的指令由电子设备1000的处理器执行时，使得电子设备1000能够执行一种在视频中植入广告的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种在视频中植入广告的方法，其特征在于，包括：

获取待植入广告；

2.根据权利要求1所述的在视频中植入广告的方法，其特征在于，所述获取待植入广告，包括：

获取所述视频的内容类别和所述视频观看者的属性信息；

根据所述视频的内容类别和所述视频观看者的属性信息，获取所述待植入广告。

3.根据权利要求2所述的在视频中植入广告的方法，其特征在于，所述获取所述视频的内容类别，包括：

提取所述视频的视觉特征和音频特征；

将所述视觉特征和所述音频特征输入至视频内容分类模型，以获取所述视频的内容类别。

4.根据权利要求2所述的在视频中植入广告的方法，其特征在于，所述获取所述视频的内容类别，包括：

提取所述视频的多个关键帧；

对每个所述关键帧进行内容分类，以得到每个所述关键帧的分类结果；

统计每个所述关键帧的分类结果以获取所述视频的内容类别。

5.根据权利要求1所述的在视频中植入广告的方法，其特征在于，所述根据所述待植入广告和所述感兴趣区域，在所述视频中生成投放所述待植入广告的三维空间位置，包括：

获取所述待植入广告的内容类型；

根据所述待植入广告的内容类型确定所述感兴趣区域内是否存在所述待植入广告的植入对象；

当所述感兴趣区域内存在所述待植入广告的植入对象时，获取所述植入对象在所述视频之中的三维信息；

根据所述植入对象在所述视频之中的三维信息生成投放所述待植入广告的三维空间位置。

6.根据权利要求5所述的在视频中植入广告的方法，其特征在于，所述方法还包括：

当所述感兴趣区域内不存在所述待植入广告的植入对象时，根据所述待植入广告的内容类型生成虚拟植入对象；

获取所述虚拟植入对象在所述视频之中的三维信息；

根据所述虚拟植入对象在所述视频之中的三维信息，在所述视频之中生成投放所述待植入广告的三维空间位置。

7.根据权利要求5所述的在视频中植入广告的方法，其特征在于，所述根据所述待植入广告的内容类型确定所述感兴趣区域内是否存在所述待植入广告的植入对象，包括：

获取所述感兴趣区域内的至少一个物体；

确定每个物体的类型；

根据所述待植入广告的内容类型和所述每个物体的类型，确定所述至少一个物体中是否存在用以承载所述待植入广告的物体；

当所述至少一个物体中不存在用以承载所述待植入广告的物体时，确定所述感兴趣区域内不存在所述待植入广告的植入对象；

当所述至少一个物体中存在用以承载所述待植入广告的物体时，将所述用以承载所述待植入广告的物体确定为所述植入对象，并确定所述感兴趣区域内存在所述待植入广告的植入对象。

8.一种在视频中植入广告的装置，其特征在于，包括：

第二获取模块，被配置为获取待植入广告；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的在视频中植入广告的方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的在视频中植入广告的方法。