CN109842811B

CN109842811B - 一种在视频中植入推送信息的方法、装置及电子设备

Info

Publication number: CN109842811B
Application number: CN201910266669.8A
Authority: CN
Inventors: 顾照鹏; 郑远力; 谢年华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2021-01-19
Anticipated expiration: 2039-04-03
Also published as: CN109842811A

Abstract

本发明公开了一种在视频中植入推送信息的方法、装置及电子设备，其中在视频中植入推送信息的方法包括：获取待植入视频的帧图像，得到帧图像集；根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集；确定所述待植入视频的场景点集所对应的平面集中的目标植入区域；将目标推送信息添加至所述目标植入区域，得到目标图像；根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，得到目标视频。本发明不需要专业拍摄设备以及拍摄场景标志物，任何设备拍摄的视频都可以进行推送信息的植入，提高了在视频中植入推送信息的效率以及灵活性。

Description

一种在视频中植入推送信息的方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种在视频中植入推送信息的方法、装置及电子设备。

背景技术

由于电视剧、电影、娱乐节目等视频广受喜爱，越来越多的用户在视频中加入推送信息，从而实现在播放视频的同时将推送信息传播给用户。

在实现本发明的过程中，发明人发现现有技术中至少存在以下缺陷：

相关技术中，在视频中加入推送信息时需要对视频的拍摄过程进行限制，例如在拍摄场景中放置特别设计的标志物，该标志物作为后期加入推送信息的标识，从而存在操作上繁琐、效率低、灵活性差的问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种在视频中植入推送信息的方法、装置及电子设备。所述技术方案如下：

一方面，提供了一种在视频中植入推送信息的方法，所述方法包括：

获取待植入视频的帧图像，得到帧图像集；

根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集；

确定所述待植入视频的场景点集所对应的平面集中的目标植入区域；

将目标推送信息添加至所述目标植入区域，得到目标图像；

根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，得到目标视频。

另一方面，提供了一种在视频中植入推送信息的装置，所述装置包括：

第一获取模块，用于获取待植入视频的帧图像，得到帧图像集；

生成模块，用于根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集；

第一确定模块，用于确定所述待植入视频的场景点集所对应的平面集中的目标植入区域；

添加模块，用于将目标推送信息添加至所述目标植入区域，得到目标图像；

渲染模块，用于根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，得到目标视频。

另一方面，提供了一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的在视频中植入推送信息的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例通过获取待植入视频的帧图像得到帧图像集，然后根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集，并确定所述待植入视频的场景点集所对应的平面集中的目标植入区域；将目标推送信息添加至所述目标植入区域，得到目标图像；根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，从而得到植入了推送信息的目标视频。上述方法中不需要专业拍摄设备以及拍摄场景标志物，任何设备拍摄的视频都可以进行推送信息的植入，提高了在视频中植入推送信息的效率以及灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种在视频中植入推送信息的方法的流程示意图；

图2是本发明实施例提供的根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集的一种流程示意图；

图3是本发明实施例提供的根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集的一种流程示意图；

图4是本发明实施例提供的确定所述待植入视频的场景点集所对应的平面集中的目标植入区域的一种流程示意图；

图5是本发明实施例提供的另一种在视频中植入推送信息的方法的流程示意图；

图6是本发明实施例提供的一种在视频中植入推送信息的装置的结构示意图；

图7是本发明实施例提供的生成模块的一种结构示意图；

图8是本发明实施例提供的第一生成子模块的一种结构示意图；

图9是本发明实施例提供的另一种在视频中植入推送信息的装置的结构示意图；

图10是本发明实施例提供的第一确定模块的一种结构示意图；

图11是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在视频中植入推送信息是在已经制作完成的视频中利用计算机视觉技术智能植入推送信息的技术。其中的推送信息可以包括广告信息、股票信息、物品链接信息等。

请参阅图1，其所示为本发明实施例提供的一种在视频中植入推送信息的方法的流程示意图。需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或电子设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，所述方法包括：

S101，获取待植入视频的帧图像，得到帧图像集。

在本说明书实施例中，待植入视频为需要植入推送信息的视频，该视频可以是一个完整视频，也可以是一个完整视频中的某个或者某几个视频段。一般待植入视频的场景信息与将要植入该视频的推送信息的具体内容相匹配。

所述帧图像是指构成视频的图像，视频可以看作是多个帧图像顺序构成的图像序列，视频的播放可以理解为顺序显示该图像序列中的帧图像，由于视频帧的显示频率大于人眼可识别的数值范围，由此形成人眼看到的连续变化的视频画面。

在本说明书实施例中，所述帧图像集可以包括关键帧图像集和非关键帧图像，所述关键帧图像是指视频中角色或者物体运动或者变化中的关键动作所处的那一帧的帧图像。

实际应用中可以将待植入视频拆分为图像序列，然后针对图像序列中的帧图像利用特征匹配算法进行特征提取和特征匹配，并基于特征匹配的结果利用模型选择算法提取出关键帧图像，从而得到关键帧图像集；图像序列中除关键帧图像之外的帧图像为非关键帧图像，该图像序列经过关键帧图像提取之后剩余的帧图像构成非关键帧图像集。

具体的，所述特征匹配算法可以包括尺度不变特征转换算法即SIFT(Scale-Invariant Feature Transform)，SIFT算法用来侦测与描述影像中的局部特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。所述利用SIFT算法进行特征提取以及特征匹配的步骤可以包括：构建尺度空间，检测图像的极值点，获取尺度不变性；特征点过滤并进行精确定位，剔除不稳定的特征点；在特征点处提取描述符，为特征点分配方向值；生成特征描述符，利用特征描述符寻找匹配点；计算变换参数，即当两幅图的SIFT特征向量生成以后，可以采用特征点特征向量的欧式距离来作为两幅图像中特征点的相似性判断度量。例如，可以取两幅图像(A图像和B图像)中的A图像的某个特征点a1，通过遍历找到B图像中的距离最近的两个特征点b1和b2，在特征点b1和b2中，如果最近距离(假设为b1)除以次近距离(假设为b2)小于预设阈值，则可以确定最近距离对应的B图像中特征点b1与A图像中的特征点a1为一对匹配点。

应理解的，所述特征匹配算法还可以包括其他的用来进行图像中特征提取和特征匹配的方法，例如所述特征匹配算法还可以包括快速提取和描述算法即ORB(Orientedfast and Rota ted Brief)等，本发明对此不作具体限定。

具体的，所述模型选择算法可以包括稳健几何信息准则GRIC(Geometric RobustInformation Criterion)，GRIC用来检测匹配数据的拟合模型，通常对于两张图像间的匹配数据，描述其约束关系可以采用基本矩阵F和单应矩阵H，其中单应矩阵H更适用于描述短基线情况，当基线距离较长时，基础矩阵F更适合用来描述两幅图像的关系。根据GRIC准则计算两幅图像的GRIC(F)和GRIC(H)，其中GRIC(F)为基础矩阵对应的GRIC值，GRIC(H)为单应矩阵对应的GRIC值。该GRIC准则的表达式如下：

其中，n表示两幅图像间的匹配点数量，d表示参与计算的模型的维数，估计基础矩阵的模型维数是3，相应的单应矩阵的模型维数是2。k表示模型中参数数量，计算基础矩阵时k＝7，计算单应矩阵时k＝8。λ₁和λ₂表示两个调节参数，e_i用来表征对应模型的误差，若对应模型为单应矩阵，则e_i表示参考平面上的特征点与其反投影点之间的误差，若对应的模型为基础矩阵，则e_i表示点到对应极线的距离。

是一个与误差e_i相关的函数，其表达形式为：

其中，λ₃是权重函数，σ²表示方差，r表示参与计算的数据维数，当用来计算两幅图像间的关系时，r的取值为4。调节参数λ₁＝ln(r)和λ₂＝ln(rn)。

应理解的，所述模型选择算法还可以包括其他的能够实现基于帧图像的匹配点进行关键帧图像的提取的算法，例如自回归算法等，本发明对此不作具体限定。

S103，根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集。

在本说明书实施例中，相机姿态参数包括位移向量和旋转矩阵。

具体的，所述根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集可以采用图2所示的方法，该方法可以包括：

S201，根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集。

具体的，首先利用关键帧图像以及一般透视相机给出相机内参数初值K_init，然后进行第一相机姿态和第一场景点集的生成。其中，

I_w,I_h为关键帧图像的水平和垂直分辨率，α为相机水平视场角，一般透视相机范围在40-45°之间。

在本说明书实施例中，所述根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集可以采用图3所示的方法，该方法可以包括：

S301，从关键帧图像集中选取初始关键帧图像。

具体的，初始关键帧图像为关键帧图像集中的任意关键帧图像，初始关键帧图像的数量可以根据需要确定，例如，可以选择关键帧图像k₀和关键帧图像k₁作为初始关键帧图像。

S303，确定所述初始关键帧图像的相机姿态参数以及第一三维点。

具体的，可以令关键帧图像k₀的相机姿态参数为T₀＝[I0]，其中，I为单位阵，0为3维列向量，然后基于关键帧图像k₀和关键帧图像k₁进行基本矩阵的求解。基本矩阵由以下方程定义：

x^’TFx＝0

其中，

是两幅图像的任意一对匹配点。由于每一组点的匹配提供了计算F系数的一个线性方程，当给定至少7个点(3*3的齐次矩阵减去一个尺度，以及一个秩为2的约束)时，方程可以计算出未知的F系数，若记点的坐标为x＝(x,y,1)^T，x′＝(x′,y′,1)^T，则上述方程对应为：

其中，

即为基本矩阵。

在实际应用中，可以利用8点算法进行上述基本矩阵的求解，给定n>8组对应点

确定基本矩阵F使得x^’TFx＝0。当然，还可以采用其他的算法进行上述基本矩阵的求解，本发明对此不作具体限定。

在确定了关键帧图像k₀和关键帧图像k₁的基本矩阵后，通过对基本矩阵进行刚体变换即可得到刚体变换矩阵T₁，该刚体变换矩阵T₁记为关键帧图像k₁的相机姿态参数。之后可以利用相机姿态T₀和T₁，以及初始关键帧图像k₀与k₁的匹配点计算第一三维点。在一些示例中，第一三维点的计算可以采用三角化算法，通过在不同位置观察到的三维点的二维投影点X₁(x₁,y₁)和X₂(x₂,y₂)，利用三角关系恢复出三维点的深度信息z。

S305，根据所述第一三维点以及所述初始关键帧图像，确定所述关键帧图像集中剩余关键帧图像的相机姿态参数以及第二三维点。

其中，剩余关键帧图像是所述关键帧图像集中除所述初始关键帧图像之外的图像。

具体的，可以遍历所述关键帧图像集中的每一剩余关键帧图像，在遍历时执行以下步骤：

确定初始关键帧图像中与当前剩余关键帧图像的匹配度达到预设匹配度阈值的目标关键帧图像。具体的，两幅图像的匹配度可以通过两幅图像中的匹配点的数量来度量，当两幅图像的匹配点的数量较多时，可以认为这两幅图像的匹配度较高；反之，当两幅图像的匹配点的数量较少时，可以认为这两幅图像的匹配度较小。因此，预设匹配度阈值可以为预设的匹配点的数量。实际应用中，可以将与当前剩余关键帧图像的匹配点最多的初始关键帧图像作为目标关键帧图像。

获取所述当前剩余关键帧图像与所述目标关键帧图像的匹配点，得到匹配点集合。具体的，可以参见前述的SIFT算法来确定当前剩余关键帧图像与目标关键帧图像的匹配点，得到匹配点集合。

根据所述第一三维点的位置信息以及所述匹配点集合，生成所述当前剩余关键帧图像的相机姿态参数。具体的，根据第一三维点的位置信息和匹配点集合中的匹配点，计算当前剩余关键帧图像相对初始关键帧图像的相对刚体变换矩阵，例如，计算当前剩余关键帧图像i相对关键帧图像k₀的相对刚体变换矩阵T_i，该刚体变换矩阵T_i记为当前剩余关键帧图像i的相机姿态参数，其中相对刚体变换矩阵的确定可以参见前述，在此不再赘述。

根据所述当前剩余关键帧图像与初始关键帧图像中非目标关键帧图像的匹配点，生成所述当前剩余关键帧图像的第二三维点。所述第二三维点的具体计算可以参见前述第一三维点的相对应内容，在此不再赘述。

将所述当前剩余关键帧图像作为初始关键帧图像。

在遍历结束时，将遍历过程中的相机姿态参数和第二三维点作为所述关键帧图像集中剩余关键帧图像的相机姿态参数以及第二三维点。

S307，根据所述第一三维点和第二三维点，生成基础场景点集。

将上述步骤S303生成的第一三维点以及步骤S305生成的第二三维点组合在一起，即可得到基础场景点集。

S309，根据所述初始关键帧图像的相机姿态参数和剩余关键帧图像的相机姿态参数，生成基础相机姿态参数。

将上述步骤S303生成的初始关键帧图像的相机姿态参数以及步骤S305生成的剩余关键帧图像的相机姿态参数组合在一起，即可得到基础相机姿态参数。

S311，对所述基础场景点集和基础相机姿态参数进行捆绑调整优化，得到所述第一场景点集和第一相机姿态参数。

在本说明书实施例中，对于上述计算得到的基础场景点集和基础相机姿态参数进行捆绑调整优化处理，在捆绑调整优化处理过程中最小化基础场景点集中每一个三维点在对应的关键帧图像上的重投影误差，从而获得最优的场景点集和相机姿态参数，该最优的场景点集和相机姿态参数即为所述第一场景点集和第一相机姿态参数。具体的，所述捆绑调整优化处理的公式如下：

其中，m为基础相机姿态参数的个数；n为基础场景点集的个数；K代表相机内参数；k_j代表关键帧图像集中第j幅关键帧图像；p_i代表基础场景点集中第i个三维点；v_ij是一个二值变量，当第i个三维点在第j幅图像可见时，v_ij＝1；反之，当第i个三维点在第j幅图像不可见时，v_ij＝0；π()为第j幅图像的投影方程；d()为图像欧式距离，x_ij表示第i个三维点在第j副图像上的图像坐标。

S203，根据所述非关键帧图像集中的非关键帧图像和所述关键帧图像集中的关键帧图像，生成第二相机姿态参数。

具体的，可以遍历所述非关键帧图像集中的每一非关键帧图像，在遍历时执行以下步骤：

根据当前非关键帧图像的特征点，确定所述关键帧图像集中关键帧图像的匹配点，所述关键帧图像的匹配点包括与所述当前非关键帧图像的特征点相匹配的关键帧图像的特征点。具体的，可以参见前述的SIFT算法来计算当前非关键帧图像的特征点与关键帧图像集中所有关键帧图像的匹配点。

获取所述关键帧图像的匹配点所对应的第一场景点集中第一场景点的位置信息。具体的，第一场景点的位置信息为场景点的三维空间位置信息。

根据所述关键帧图像的匹配点所对应的第一场景点集中第一场景点的位置信息以及所述当前非关键帧图像的特征点，生成所述当前非关键帧图像的第二相机姿态参数。具体的，可以采用PnP(Perspective n Points)算法来计算当前非关键帧图像的相机姿态。PnP算法描述了当知道n个三维空间点坐标及其二维投影位置时如何估计相机姿态，PnP算法可以包括P3P算法，P4P算法以及EPnP算法等。以P3P算法为例，P3P通过3对3D-2D匹配点，求解四种可能的相机姿态，如世界坐标系下的ABC三点和图像坐标系下的abc三点匹配，其中AB、BC、AC的长度已知，<a,b>，<b,c>，<a,c>也是已知，通过余弦定理可以求出A，B，C在相机参考系中的坐标，然后进行坐标系的对齐就可以求得当前的相机姿态。

在遍历结束时，将遍历过程中的第二相机姿态参数作为所述第二相机姿态参数。

S205，根据所述第一相机姿态参数和所述第二相机姿态参数，生成所述待植入视频的相机姿态参数。

具体的，将对应于关键帧图像的第一相机姿态参数和对应于非关键帧图像的第二相机姿态参数进行组合，从而得到待植入视频的相机姿态参数。

S207，根据所述待植入视频的相机姿态参数和所述第一场景点集进行第二三维重建，生成所述待植入视频的场景点集。

具体的，可以根据待植入视频的相机姿态参数和第一场景点集，使用基于面片的三维多视角立体视觉(Patch-Based Multi-View Stereo，PMVS)算法重建出稠密的点云，即可得到待植入视频的场景点集。具体的，PMVS算法可以根据待植入视频的相机姿态参数和第一场景点集生成以三维空间点为中心的矩形面片，该面片被称为以法向量为具体方向的种子面片，然后以相邻面片的两个相似特性为条件(法向量和空间点位置)，一步步将种子面片的临近相似面片扩散并重建出来，扩散结束后进行过滤处理操作将不满足一致性的错误面片剔除。其中PMVS在扩散和过滤阶段需要迭代运行n次(n一般取值为3)，通过这种算法可以鲁棒性的扩散出稠密的三维空间面片。

需要说明的是，对于待植入视频的场景点集的生成方法不限于上述的PMVS，还可以采用其他的方法，例如多视图聚簇(Clustering Views for Multi-view Stereo，CMVS)等等，本发明对此不作具体限定。

S105，确定所述待植入视频的场景点集所对应的平面集中的目标植入区域。

在本说明书实施例中，所述确定所述待植入视频的场景点集所对应的平面集中的目标植入区域可以采用图4所示的方法，该方法可以包括：

S401，获取所述待植入视频的场景点集所对应的平面集。

具体的，可以对待植入视频的场景点集进行识别以识别出所有的平面，从而得到对应的平面集。识别待植入视频的场景点集对应的平面集可以采用随机抽样一致(RANdomSAmple Consensus，RANSAN)算法。在RANSAN算法中进行了以下基本假设：数据由“局内点”组成，例如：数据的分布可以用一些模型参数来解释；“局外点”是不能适应该模型的数据；除此之外的数据属于噪声数据，该算法可以从一组包含“局外点”的观测数据集中，通过迭代方式估计数学模型的参数。

S403，确定所述平面集中平面的平面属性特征。

具体的，可以根据平面在待植入视频的场景中的用途来确定平面的平面属性特征，例如，某一平面的在待植入视频的场景中的用途是用于车辆行驶，则可以确定该平面的平面属性特征为车辆行驶。

S405，获取所述目标推送信息的信息属性特征。

具体的，目标推送信息的信息属性特征可以用于体现目标推送信息的信息内容，例如，目标推送信息为某一广告时，其对应的信息属性特征可以是汽车广告、洗发水广告等。

S407，从所述平面集中选取所述平面属性特征与所述信息属性特征相匹配的目标平面，所述目标平面记为所述目标植入区域。

具体的，可以查找平面集中每一平面对应的平面属性特征，从而选取平面属性特征与信息属性特征相匹配的目标平面作为目标植入区域，此处的相匹配表示平面属性特征与信息属性特征具有一定程度的相关性。例如，信息属性特征为汽车广告时，与其相匹配的平面属性特征可以为车辆行驶，则可以将平面属性特征为车辆行驶的平面确定为目标植入区域。从而可以使得后续植入的目标推送信息与目标植入区域更加的匹配，使得内容场景更加的逼真。

S107，将目标推送信息添加至所述目标植入区域，得到目标图像。

在本说明书实施例中，在将目标推送信息添加至目标植入区域时，可以根据目标植入区域对目标推送信息进行调整，然后将调整后的目标推送信息添加到目标植入区域。具体的调整可以是尺寸的缩放、旋转等等。

实际应用中，由于三维重建过程中建立的三维坐标系是随机建立的，一般是第一个相机位置或者第一个三维点的位置，因此在添加目标推送信息之前需要对该三维坐标系进行调整以避免对后续植入效果的影响。具体的，如图5所示，在步骤S107之前还可以包括：

S501，选取目标地平面，确定所述目标地平面的重力方向。

所述目标地平面可以根据实际场景需要进行选取，在选取目标地平面后可以采用随机抽样一致(RANdom SAmple Consensus，RANSAC)算法确定目标地平面的法线方向，而该法线方向的反方向即为目标地平面的重力方向。

S503，调整所述平面集所对应的三维坐标系的纵轴，至所述三维坐标系的纵轴与所述重力方向重合。

S109，根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，得到目标视频。

具体的，可以将目标图像作为前景图像，将待植入视频的每一帧的帧图像作为背景图像，然后根据待植入视频的相机姿态参数对所述前景图像和背景图像进行渲染，从而得到目标视频。该目标视频中作为前景图像的目标图像与背景视频能够无缝融合，内容场景逼真，让推送消息的受众与推送消息产生共鸣，从而更容易联想到相似的实际生活场景，有利于提升对推送消息的关注度。

由本发明实施例的以上技术方案可见，本发明实施例能够仅依靠视频图像来自动识别视频场景进而恢复视频场景的三维信息，基于恢复的视频场景的三维信息进行目标推送信息的植入，使得植入的目标推送信息能够与背景视频无缝融合，不需要专业的视频拍摄设备以及拍摄场景标志物，具有效率高、灵活性强的有点，非常适用于目前大量互联网短视频、小视频及长视频的三维推送信息的植入。

与上述几种实施例提供的在视频中植入推送信息的方法相对应，本发明实施例还提供一种在视频中植入推送信息的装置，由于本发明实施例提供的在视频中植入推送信息的装置与上述几种实施例提供的在视频中植入推送信息的方法相对应，因此前述在视频中植入推送信息的方法的实施方式也适用于本实施例提供的在视频中植入推送信息的装置，在本实施例中不再详细描述。

请参阅图6，其所示为本发明实施例提供的一种在视频中植入推送信息的装置的结构示意图，如图6所示，该装置可以包括：第一获取模块610，生成模块620，第一确定模块630，添加模块640和渲染模块650，其中，

第一获取模块610，用于获取待植入视频的帧图像，得到帧图像集；

生成模块620，用于根据所述帧图像集中的帧图像进行三维重建，生成所述待植入视频的相机姿态参数和所述待植入视频的场景点集；

第一确定模块630，用于确定所述待植入视频的场景点集所对应的平面集中的目标植入区域；

添加模块640，用于将目标推送信息添加至所述目标植入区域，得到目标图像；

渲染模块650，用于根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，得到目标视频。

在一具体实施方式中，所述帧图像集包括关键帧图像集和非关键帧图像集，相应的，如图7所示，所述生成模块620可以包括：

第一生成子模块6210，用于根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集；

第二生成子模块6220，用于根据所述非关键帧图像集中的非关键帧图像和所述关键帧图像集中的关键帧图像，生成第二相机姿态参数；

第三生成子模块6230，用于根据所述第一相机姿态参数和所述第二相机姿态参数，生成所述待植入视频的相机姿态参数；

第四生成子模块6240，用于根据所述待植入视频的相机姿态参数和所述第一场景点集进行第二三维重建，生成所述待植入视频的场景点集。

可选的，所述第二生成子模块6220，具体可以用于：遍历所述非关键帧图像集中的每一非关键帧图像，在遍历时执行以下步骤：

根据当前非关键帧图像的特征点，确定所述关键帧图像集中关键帧图像的匹配点；所述关键帧图像的匹配点包括与所述当前非关键帧图像的特征点相匹配的关键帧图像的特征点；获取所述关键帧图像的匹配点所对应的第一场景点集中第一场景点的位置信息；根据所述关键帧图像的匹配点所对应的第一场景点集中第一场景点的位置信息以及所述当前非关键帧图像的特征点，生成所述当前非关键帧图像的第二相机姿态参数；在遍历结束时，将遍历过程中的第二相机姿态参数作为所述第二相机姿态参数。

可选的，如图8所示，所述第一生成子模块6210可以包括：

第一选取模块6211，用于从关键帧图像集中选取初始关键帧图像；

第二确定模块6222，用于确定所述初始关键帧图像的相机姿态参数以及第一三维点；

第三确定模块6223，用于根据所述第一三维点以及所述初始关键帧图像，确定所述关键帧图像集中剩余关键帧图像的相机姿态参数以及第二三维点；所述剩余关键帧图像是所述关键帧图像集中除所述初始关键帧图像之外的图像；

第五生成子模块6224，用于根据所述第一三维点和第二三维点，生成基础场景点集；

第六生成子模块6225，用于根据所述初始关键帧图像的相机姿态参数和剩余关键帧图像的相机姿态参数，生成基础相机姿态参数；

调整优化模块6226，用于对所述基础场景点集和基础相机姿态参数进行捆绑调整优化，得到所述第一场景点集和第一相机姿态参数。

可选的，所述第二确定模块6222，具体可以用于：遍历所述关键图像帧集中的每一剩余关键帧图像，在遍历时执行以下步骤：

确定初始关键帧图像中与当前剩余关键帧图像的匹配度达到预设匹配度阈值的目标关键帧图像；获取所述当前剩余关键帧图像与所述目标关键帧图像的匹配点，得到匹配点集合；根据所述第一三维点的位置信息以及所述匹配点集合，生成所述当前剩余关键帧图像的相机姿态参数；根据所述当前剩余关键帧图像与初始关键帧图像中非目标关键帧图像的匹配点，生成所述当前剩余关键帧图像的第二三维点；将所述当前剩余关键帧图像作为初始关键帧图像；在遍历结束时，将遍历过程中的相机姿态参数和第二三维点作为所述关键帧图像集中剩余关键帧图像的相机姿态参数以及第二三维点。

在另一具体实施方式中，如图9提供的另一种在视频中植入推送信息的装置的结构示意图，所述装置还可以包括：

第二选取模块660，用于选取目标地平面，确定所述目标地平面的重力方向；

调整模块670，用于调整所述平面集所对应的三维坐标系的纵轴，至所述三维坐标系的纵轴与所述重力方向重合。

可选的，所述渲染模块650，具体可以用于：将所述目标图像作为前景图像；将所述待植入视频的帧图像作为背景图像；根据所述待植入视频的相机姿态参数，对所述前景图像和背景图像进行渲染。

可选的，如图10所示，所述第一确定模块630可以包括：

第二获取模块6310，用于获取所述待植入视频的场景点集所对应的平面集；

第四确定模块6320，用于确定所述平面集中平面的平面属性特征；

第三获取模块6330，用于获取所述目标推送信息的信息属性特征；

第三选取模块6340，用于从所述平面集中选取所述平面属性特征与所述信息属性特征相匹配的目标平面，所述目标平面记为所述目标植入区域。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本发明实施例能够仅依靠视频图像来自动识别视频场景进而恢复视频场景的三维信息，基于恢复的视频场景的三维信息进行目标推送信息的植入，使得植入的目标推送信息能够与背景视频无缝融合，不需要专业的视频拍摄设备以及拍摄场景标志物，具有效率高、灵活性强的有点，非常适用于目前大量互联网短视频、小视频及长视频的三维推送信息的植入。

请参阅图11，其所示为本发明实施例提供的一种电子设备的结构示意图，该电子设备用于实施上述实施例中提供的在视频中植入推荐信息的方法。该电子设备可以是诸如PC(PersonalComputer，个人计算机)、手机、PDA(平板电脑)等终端设备，也可以是诸如应用服务器、集群服务器等服务设备。请参见图11，该电子设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，电子设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本说明书实施例所示图11中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器可以是高速RAM存储设备，也可以是非不稳定的存储设备(non-volatile memory)，例如至少一个磁盘存储设备；可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间，该存储空间存储了电子设备的操作***，可包括但不限于：Windows***(一种操作***)，Linux(一种操作***)，Android(安卓，一种移动操作***)***、IOS(一种移动操作***)***等等，本发明对此并不作限定；并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。在本说明书实施例中，处理器加载并执行存储器中存放的一条或一条以上指令，以实现上述方法实施例提供的在视频中植入推荐信息的方法。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于终端之中以保存用于实现方法实施例中的一种内存管理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的在视频中植入推荐信息的方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器，也可以位于终端中。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在视频中植入推送信息的方法，其特征在于，所述方法包括：

获取待植入视频的帧图像，得到帧图像集；所述帧图像集包括关键帧图像集和非关键帧图像集；

根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集；

根据所述非关键帧图像集中的非关键帧图像和所述关键帧图像集中的关键帧图像，生成第二相机姿态参数；

根据所述第一相机姿态参数和所述第二相机姿态参数，生成所述待植入视频的相机姿态参数；

根据所述待植入视频的相机姿态参数和所述第一场景点集进行第二三维重建，生成所述待植入视频的场景点集；

将目标推送信息添加至所述目标植入区域，得到目标图像；

2.根据权利要求1所述的在视频中植入推送信息的方法，其特征在于，所述根据所述非关键帧图像集中的非关键帧图像和所述关键帧图像集中的关键帧图像，生成第二相机姿态参数包括：

遍历所述非关键帧图像集中的每一非关键帧图像，在遍历时执行以下步骤：

根据当前非关键帧图像的特征点，确定所述关键帧图像集中关键帧图像的匹配点；所述关键帧图像的匹配点包括与所述当前非关键帧图像的特征点相匹配的关键帧图像的特征点；

获取所述关键帧图像的匹配点所对应的第一场景点集中第一场景点的位置信息；

根据所述关键帧图像的匹配点所对应的第一场景点集中第一场景点的位置信息以及所述当前非关键帧图像的特征点，生成所述当前非关键帧图像的第二相机姿态参数；

3.根据权利要求1所述的在视频中植入推送信息的方法，其特征在于，所述根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集包括：

从关键帧图像集中选取初始关键帧图像；

确定所述初始关键帧图像的相机姿态参数以及第一三维点；

根据所述第一三维点以及所述初始关键帧图像，确定所述关键帧图像集中剩余关键帧图像的相机姿态参数以及第二三维点；所述剩余关键帧图像是所述关键帧图像集中除所述初始关键帧图像之外的图像；

根据所述第一三维点和第二三维点，生成基础场景点集；

根据所述初始关键帧图像的相机姿态参数和剩余关键帧图像的相机姿态参数，生成基础相机姿态参数；

对所述基础场景点集和基础相机姿态参数进行捆绑调整优化，得到所述第一场景点集和第一相机姿态参数。

4.根据权利要求3所述的在视频中植入推送信息的方法，其特征在于，所述根据所述第一三维点以及所述初始关键帧图像，确定所述关键帧图像集中剩余关键帧图像的相机姿态参数以及第二三维点包括：

遍历所述关键帧图像集中的每一剩余关键帧图像，在遍历时执行以下步骤：

确定初始关键帧图像中与当前剩余关键帧图像的匹配度达到预设匹配度阈值的目标关键帧图像；

获取所述当前剩余关键帧图像与所述目标关键帧图像的匹配点，得到匹配点集合；

根据所述第一三维点的位置信息以及所述匹配点集合，生成所述当前剩余关键帧图像的相机姿态参数；

根据所述当前剩余关键帧图像与初始关键帧图像中非目标关键帧图像的匹配点，生成所述当前剩余关键帧图像的第二三维点；

将所述当前剩余关键帧图像作为初始关键帧图像；

5.根据权利要求1所述的在视频中植入推送信息的方法，其特征在于，在将目标推送信息添加至所述目标植入区域，得到目标图像之前，所述方法还包括：

选取目标地平面，确定所述目标地平面的重力方向；

调整所述平面集所对应的三维坐标系的纵轴，至所述三维坐标系的纵轴与所述重力方向重合。

6.根据权利要求1所述的在视频中植入推送信息的方法，其特征在于，所述根据所述待植入视频的相机姿态参数对所述目标图像和待植入视频进行渲染，得到目标视频包括：

将所述目标图像作为前景图像；

将所述待植入视频的帧图像作为背景图像；

根据所述待植入视频的相机姿态参数，对所述前景图像和背景图像进行渲染。

7.根据权利要求1所述的在视频中植入推送信息的方法，其特征在于，所述确定所述待植入视频的场景点集所对应的平面集中的目标植入区域包括：

获取所述待植入视频的场景点集所对应的平面集；

确定所述平面集中平面的平面属性特征；

获取所述目标推送信息的信息属性特征；

从所述平面集中选取所述平面属性特征与所述信息属性特征相匹配的目标平面，所述目标平面记为所述目标植入区域。

8.一种在视频中植入推送信息的装置，其特征在于，所述装置包括：

第一获取模块，用于获取待植入视频的帧图像，得到帧图像集；所述帧图像集包括关键帧图像集和非关键帧图像集；

生成模块，用于根据所述关键帧图像集中的关键帧图像进行第一三维重建，生成第一相机姿态参数和第一场景点集；根据所述非关键帧图像集中的非关键帧图像和所述关键帧图像集中的关键帧图像，生成第二相机姿态参数；根据所述第一相机姿态参数和所述第二相机姿态参数，生成所述待植入视频的相机姿态参数；根据所述待植入视频的相机姿态参数和所述第一场景点集进行第二三维重建，生成所述待植入视频的场景点集；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的在视频中植入推送信息的方法。