CN111862275A

CN111862275A - 基于3d重建技术的视频编辑方法和装置以及设备

Info

Publication number: CN111862275A
Application number: CN202010725481.8A
Authority: CN
Inventors: 吴善思源; 龚秋棠; 吴方灿; 林奇
Original assignee: Xiamen Zhenjing Technology Co ltd
Current assignee: Xiamen Zhenjing Technology Co ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-30
Anticipated expiration: 2040-07-24
Also published as: CN111862275B

Abstract

本发明公开了基于3D重建技术的视频编辑方法，所述方法包括：获取待编辑视频；检测所述待编辑视频每一帧中可识别的对象；利用神经网络重建与每一所述对象对应的第一3D模型；选择所述待编辑视频中的所述对象的当前帧，对所选择的所述对象进行编辑，并将所编辑的内容修改所述第一3D模型，生成第二3D模型；基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上。本发明提出的方案能够实现在视频中单帧编辑物体后，自动应用到整个视频帧上的相同物体，从而提高了用户编辑视频的效率以及提高了体验效果。

Description

基于3D重建技术的视频编辑方法和装置以及设备

技术领域

本发明涉及视频处理技术领域，尤其涉及基于3D重建技术的视频编辑方法和装置以及设备。

背景技术

随着5G和短视频应用的发展，用户逐步开始从编辑图片转向编辑视频。现阶段的视频编辑软件更多在于视频整体时间线编辑，如删除无用片段、增加音乐等。若用户想编辑视频中的某一物体，如在视频中改变家具颜色或修改人物衣服图案等，则需逐帧进行修改，一段5分钟视频就要编辑7200帧图像，工作量极大；没有办法对某一物体进行编辑后同步给后续的视频帧，从而导致用户编辑视频的体验效果不好。

发明内容

有鉴于此，本发明的目的在于提出一种基于3D重建技术的视频编辑方法和装置以及设备，能够实现在视频中单帧编辑物体后，自动应用到整个视频帧上的相同物体，从而提高了用户编辑视频的效率以及提高了体验效果。

为实现上述目的，本发明提供一种基于3D重建技术的视频编辑方法，所述方法包括：

获取待编辑视频；

检测所述待编辑视频每一帧中可识别的对象；

利用神经网络重建与每一所述对象对应的第一3D模型；

选择所述待编辑视频中的所述对象的当前帧，对所选择的所述对象进行编辑，并将所编辑的内容修改所述第一3D模型，生成第二3D模型；

基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上。

优选的，所述检测所述待编辑视频每一帧中可识别的对象，包括：

利用通用物体检测技术检测所述待编辑视频每一帧中可识别的对象。

优选的，所述利用神经网络重建与每一所述对象对应的第一3D模型，包括：

通过自编码器根据每一所述对象的体素组成重建所述对象对应的所述第一3D模型。

优选的，基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上，所述基于所述3D模型对所述对象进行实时姿态估计，并驱动所述3D模型将所编辑的内容渲染至所述待编辑视频的同一所述对象的所有帧上，包括：

根据所述对象所在的每一帧图像的坐标，裁出所述对象，并输入至所述第二3D模型中；

输出所述对象所在的每一帧图像的坐标和所述对象的三维姿态参数；

根据所述坐标和所述三维姿态参数驱动所述第二3D模型旋转平移至对应的所在的每一帧图像中出现所述对象的位置，将所编辑的内容投影至同一所述对象的所有帧上，替换所有帧中的像素点，实现渲染。

为了实现上述目的，本发明还提出一种基于3D重建技术的视频编辑装置，所述装置包括：

获取单元，用于获取待编辑视频；

检测单元，用于检测所述待编辑视频每一帧中可识别的对象；

重建单元，用于利用神经网络重建与每一所述对象对应的第一3D模型；

编辑单元，用于选择所述待编辑视频中的所述对象的当前帧，对所选择的所述对象进行编辑，并将所编辑的内容修改所述第一3D模型，生成第二3D模型；

渲染单元，用于基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上。

优选的，所述检测单元还包括：

优选的，所述编辑单元还包括：

优选的，所述渲染单元还包括：

输入单元，用于根据所述对象所在的每一帧图像的坐标，裁出所述对象，并输入至所述第二3D模型中；

输出单元，用于输出所述对象所在的每一帧图像的坐标和所述对象的三维姿态参数；

驱动单元，用于根据所述坐标和所述三维姿态参数驱动所述第二3D模型旋转平移至对应的所在的每一帧图像中出现所述对象的位置，将所编辑的内容投影至同一所述对象的所有帧上，替换所有帧中的像素点，实现渲染。

为了实现上述目的，本发明又提出一种基于3D重建技术的视频编辑设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行时实现如上述任意一项所述的基于3D重建技术的视频编辑方法。

为了实现上述目的，本发明再提出一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行时实现如上述任意一项所述的基于3D重建技术的视频编辑方法。

可以发现，以上方案，可以获取待编辑视频，检测该待编辑视频每一帧中可识别的对象，利用神经网络重建与每一对象对应的第一3D模型，选择待编辑视频中的对象的当前帧，对所选择的对象进行编辑，并将所编辑的内容修改第一3D模型，生成第二3D模型，基于第二3D模型对对象所在的每一帧图像进行实时姿态估计，并根据姿态估计驱动第二3D模型生成替换图像，将替换图像渲染至待编辑视频的同一对象的所有帧上，能够实现在视频中单帧编辑物体后，自动应用到整个视频帧上的相同物体，从而提高了用户编辑视频的效率以及提高了体验效果。

进一步的，以上方案，利用通用物体检测技术检测该待编辑视频每一帧中可识别的对象，这样的好处是能够准确识别视频中的多个物体、并且识别的种类多。

进一步的，以上方案，通过自编码器根据每一对象的体素组成重建对象对应的所述第一3D模型，能够实现在视频中对单帧上的物体进行编辑可以自动应用至整个视频中，解决了对视频中的编辑需要逐帧进行编辑的困难。

进一步的，以上方案，根据对象所在的每一帧图像的坐标，裁出对象，并输入至第二3D模型中，输出对象所在的每一帧图像的坐标和对象的三维姿态参数，根据坐标和三维姿态参数驱动第二3D模型旋转平移至对应的所在的每一帧图像中出现对象的位置，将所编辑的内容投影至同一对象的所有帧上，替换所有帧中的像素点，实现渲染，能够实现在视频中单帧编辑物体后，自动应用到整个视频帧上的相同物体，从而提高了用户编辑视频的效率以及提高了体验效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于3D重建技术的视频编辑方法的流程示意图。

图2为本发明另一实施例提供的一种基于3D重建技术的视频编辑装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下结合实施例详细阐述本发明的内容。

本发明提供一种基于3D重建技术的视频编辑方法，能够实现在视频中单帧编辑物体后，自动应用到整个视频帧上的相同物体，从而提高了用户编辑视频的效率以及提高了体验效果。

参照图1所示为本发明一实施例提供的一种基于3D重建技术的视频编辑方法的流程示意图。所述方法包括：

S1，获取待编辑视频。

S2，检测所述待编辑视频每一帧中可识别的对象。

其中，检测所述待编辑视频每一帧中可识别的对象，包括：利用通用物体检测技术检测所述待编辑视频每一帧中可识别的对象。

在本实施例中，通过遍历整个视频，利用通用物体检测技术找出视频中出现可识别的对象，其中，上述对象包括物体、人物、动物等可供用户进行选择编辑。

上述通用物体检测技术实际上是通过大量数据的标注，对神经网络模型进行训练后，神经网络模型能根据给定的图像，检测出图像中所含物体，例如：猫、狗、人、床、被子等，并框出这些物体所在图像中的位置。

由于视频本质是由一帧帧图像组成，1秒钟视频一般情况下包含30帧图像，在对视频进行检测可识别的对象时，将视频中的每一帧图像都输入至通用物体检测的神经网络模型，神经网络模型会给出每帧图像中所包含的物体内容，将所有图像检测的结果汇聚起来，选择出现频率最高的n个(例如5个)物体，视为视频检测的结果，并同时会标注这些物体在视频中出现的位置。

S3，利用神经网络重建与每一所述对象对应的第一3D模型。

在本实施例中，根据实际应用场景时间和精度的需求，用户选择某个物体时，可根据单帧或根据多帧运用神经网络重建出与该物体对应的3D模型。其中，对时间要求严格时，可选择单帧进行重建与该物体对应的3D模型；对精度要求严格时，可选择多帧进行重建与该物体对应的3D模型。

其中，利用神经网络重建与每一所述对象对应的第一3D模型，包括：通过自编码器根据每一所述对象的体素组成重建所述对象对应的所述第一3D模型。

具体地，通过自编码网络(auto-encoder)，输入图像，输出重建后由物体的体素组成的3D模型。其中：输入图像可以为上述中通过通用物体检测技术检测后的物体，并根据通用物体检测技术检测的位置结果将物体从图像中裁出。

此外为了时间和精度考虑，该3D模型包括有两种模式：第一种为速度快的，即输入只有1张图像；另一种为精度高的，将视频中n帧图像(例如5帧)分别通过过第一种模式的神经网络模型，输出n个3D模型后将这些模型的体素的值按位置取平均，得到最终高精度的3D模型。

S4，选择所述待编辑视频中的所述对象的当前帧，对所选择的所述对象进行编辑，并将所编辑的内容修改所述第一3D模型，生成第二3D模型。

在本实施例中，用户在图像上对该物体进行编辑时，如换色、改变形状等，该改变会记录在已经重建好的3D模型上，得到一个修改后的3D模型。

S5，基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上。

其中，基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上，包括：

S5-1，根据所述对象所在的每一帧图像的坐标，裁出所述对象，并输入至所述第二3D模型中；

S5-2，输出所述对象所在的每一帧图像的坐标和所述对象的三维姿态参数；

S5-3，根据所述坐标和所述三维姿态参数驱动所述第二3D模型旋转平移至对应的所在的每一帧图像中出现所述对象的位置，将所编辑的内容投影至同一所述对象的所有帧上，替换所有帧中的像素点，实现渲染。

在本实施例中，针对每个物体会单独训练一个神经网络模型，输入为物体的图像，输出为该物体中心在图像中的坐标(x，y)和物体三维的姿态(即yaw、pitch、roll 3个姿态的旋转角度)。

根据用户选择的物体调用相应物体的3D模型，针对视频中通用物体检测技术检测后出现该物体的帧和对应的物体在图像中的坐标，裁出图像，输入3D模型中，输出包括x、y、yaw、pitch、roll 5个姿态参数供后续使用。

运用上述3D模型、以及输出的5个姿态参数，驱动该3D模型旋转平移到对应帧图像出现该物体的位置，针对用户对3D模型的编辑直接投影到2维图像上，替换帧图像中的像素点，完成渲染。

例如，在一段家居环境的展示视频，用户选择了通过通用物体检测技术检测出的被子，神经网络模型重建出被子的3D模型，通过调色改变床上的被子的颜色，确认编辑后，整个视频中该被子的颜色都会被修改。

又例如，在一段自拍视频中，通过通用物体检测技术检测出场景中的人、衣服等，用户选择了人体的衣服，神经网络模型重建出人体衣服的3D模型，通过编辑改变衣服的图案，确认编辑后，整个视频中该衣服图案都会被修改。

参照图2所示为本发明另一实施例提供的一种基于3D重建技术的视频编辑装置的结构示意图。所述装置10包括：

获取单元11，用于获取待编辑视频；

检测单元12，用于检测所述待编辑视频每一帧中可识别的对象；

重建单元13，用于利用神经网络重建与每一所述对象对应的第一3D模型；

编辑单元14，用于选择所述待编辑视频中的所述对象的当前帧，对所选择的所述对象进行编辑，并将所编辑的内容修改所述第一3D模型，生成第二3D模型；

渲染单元15，用于基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上。

可选地，所述检测单元12，进一步用于：

可选地，所述编辑单元14，进一步用于：

可选地，所述渲染单元15，进一步包括：

输入单元(图中未标示)，用于根据所述对象所在的每一帧图像的坐标，裁出所述对象，并输入至所述第二3D模型中；

输出单元(图中未标示)，用于输出所述对象所在的每一帧图像的坐标和所述对象的三维姿态参数；

驱动单元(图中未标示)，用于根据所述坐标和所述三维姿态参数驱动所述第二3D模型旋转平移至对应的所在的每一帧图像中出现所述对象的位置，将所编辑的内容投影至同一所述对象的所有帧上，替换所有帧中的像素点，实现渲染。

上述一种基于3D重建技术的视频编辑装置中的各个单元执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

本发明实施例还提供一种基于3D重建技术的视频编辑设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的基于3D重建技术的视频编辑方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的基于3D重建技术的视频编辑方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在基于3D重建技术的视频编辑设备中的执行过程。

所述基于3D重建技术的视频编辑设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是基于3D重建技术的视频编辑设备的示例，并不构成对基于3D重建技术的视频编辑设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于3D重建技术的视频编辑设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述基于3D重建技术的视频编辑设备的控制中心，利用各种接口和线路连接整个基于3D重建技术的视频编辑设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于3D重建技术的视频编辑设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于3D重建技术的视频编辑设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中的实施方案可以进一步组合或者替换，且实施例仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中专业技术人员对本发明的技术方案作出的各种变化和改进，均属于本发明的保护范围。

Claims

1.一种基于3D重建技术的视频编辑方法，其特征在于，所述方法包括：

获取待编辑视频；

检测所述待编辑视频每一帧中可识别的对象；

利用神经网络重建与每一所述对象对应的第一3D模型；

2.根据权利要求1所述的一种基于3D重建技术的视频编辑方法，其特征在于，所述检测所述待编辑视频每一帧中可识别的对象，包括：

3.根据权利要求1所述的一种基于3D重建技术的视频编辑方法，其特征在于，所述利用神经网络重建与每一所述对象对应的第一3D模型，包括：

4.根据权利要求1所述的一种基于3D重建技术的视频编辑方法，其特征在于，基于所述第二3D模型对所述对象所在的每一帧图像进行实时姿态估计，并根据所述姿态估计驱动所述第二3D模型生成替换图像，将所述替换图像渲染至所述待编辑视频的同一所述对象的所有帧上，包括：

5.一种基于3D重建技术的视频编辑装置，其特征在于，所述装置包括：

获取单元，用于获取待编辑视频；

6.根据权利要求5所述的一种基于3D重建技术的视频编辑装置，其特征在于，所述检测单元还包括：

7.根据权利要求5所述的一种基于3D重建技术的视频编辑装置，其特征在于，所述编辑单元还包括：

8.根据权利要求5所述的一种基于3D重建技术的视频编辑装置，其特征在于，所述渲染单元还包括：

9.一种基于3D重建技术的视频编辑设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1至4任意一项所述的基于3D重建技术的视频编辑方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4任意一项所述的基于3D重建技术的视频编辑方法。