CN106991641A

CN106991641A - 植入图片的方法及装置

Info

Publication number: CN106991641A
Application number: CN201710141946.3A
Authority: CN
Inventors: 张涛
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2017-07-28
Anticipated expiration: 2037-03-10
Also published as: CN106991641B

Abstract

本公开是关于一种植入图片的方法及装置，用以提高向视频画面植入图片的视觉效果。所述方法包括：从视频画面中选取用于植入图片的至少一个候选区域；将至少一个候选区域输入至已训练的卷积神经网络；已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件；通过已训练的卷积神经网络提取至少一个候选区域各自的图像特征；对每一个候选区域中图像特征符合标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域；根据至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定至少一个具备对应标定信息的候选区域对应的待植入图片。本公开技术方案可以提高向视频画面植入图片的视觉效果。

Description

植入图片的方法及装置

技术领域

本公开涉及图像识别技术领域，尤其涉及一种植入图片的方法及装置。

背景技术

随着图像识别技术的发展，视频的播放画面上越来越多的广告植入。相关技术中，通过识别视频画面中变化平缓的区域，认为这些变化平缓的区域可能是墙壁、桌子等物体，然后在这些区域里面植入一些图片广告。然而，视频画面中所包含的变化缓慢的区域除了可能是上述桌子、墙壁等物体，还可能包含天空、白布等等，如果在这些区域植入图片广告，从视觉效果上来看显得很突兀，导致用户体验差。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种植入图片的方法及装置，用以提高向视频画面植入图片的视觉效果。

根据本公开实施例的第一方面，提供一种植入图片的方法，包括：

从视频画面中选取出用于植入图片的至少一个候选区域；

将所述至少一个候选区域输入至已训练的卷积神经网络；所述已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件；

通过所述已训练的卷积神经网络提取所述至少一个候选区域中每一个候选区域各自的图像特征；

对所述每一个候选区域中图像特征符合所述标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域；

根据所述至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定所述至少一个具备对应标定信息的候选区域对应的待植入图片。

在一实施例中，所述方法还可包括：

将包含至少一个标定区域的设定数量的图像样本以及每一图像样本中所包含的至少一个标定区域对应的标定信息输入至未训练的卷积神经网络，对所述未训练的卷积神经网络的卷积层和全连接层进行训练；

在确定所述卷积层和全连接层中各节点之间的连接的权重参数符合预设条件时，停止训练所述卷积神经网络，得到已训练的卷积神经网络。

在一实施例中，所述方法还可包括：

确定所述每一图像样本中所包含的至少一个标定区域对应的标定信息与所述每一图像样本中所包含的至少一个标定区域对应的实际信息是否对应相同；

当所述每一图像样本中所包含的至少一个标定区域对应的标定信息与所述每一图像样本中所包含的至少一个标定区域对应的实际信息对应相同时，确定所述卷积层和全连接层中各节点之间的连接的权重参数符合预设条件。

在一实施例中，所述方法还可包括：

确定所述具备对应标定信息的至少一个候选区域对应的实际信息；

根据所述具备对应标定信息的至少一个候选区域对应的标定信息与所述具备对应标定信息的至少一个候选区域对应的实际信息是否对应相同确定是否需要对所述已训练的卷积神经网络的权值参数进行更新。

在一实施例中，所述方法还可包括：

当需要对所述已训练的卷积神经网络的权值参数进行更新时，向提供所述已训练的卷积神经网络的服务器获取更新后的卷积神经网络的权值参数。

在一实施例中，所述方法还可包括：

将所述待植入图片对应地植入所述至少一个具备对应标定信息的候选区域。

根据本公开实施例的第二方面，提供一种植入图片的装置，包括：

选取模块，被配置为从视频画面中选取出用于植入图片的至少一个候选区域；

输入模块，被配置为将所述至少一个候选区域输入至已训练的卷积神经网络；所述已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件；

特征提取模块，被配置为通过所述已训练的卷积神经网络提取所述至少一个候选区域中每一个候选区域各自的图像特征；

标定模块，被配置为对所述每一个候选区域中图像特征符合所述标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域；

第一确定模块，被配置为根据所述至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定所述至少一个具备对应标定信息的候选区域对应的待植入图片。

在一实施例中，所述装置还可包括：

训练模块，被配置为将包含至少一个标定区域的设定数量的图像样本以及每一图像样本中所包含的至少一个标定区域对应的标定信息输入至未训练的卷积神经网络，对所述未训练的卷积神经网络的卷积层和全连接层进行训练；

第一控制模块，被配置为在确定所述卷积层和全连接层中各节点之间的连接的权重参数符合预设条件时，停止训练所述卷积神经网络，得到已训练的卷积神经网络。

在一实施例中，所述装置还可包括：

第二确定模块，被配置为确定所述每一图像样本中所包含的至少一个标定区域对应的标定信息与所述每一图像样本中所包含的至少一个标定区域对应的实际信息是否对应相同；

第三确定模块，被配置为当所述每一图像样本中所包含的至少一个标定区域对应的标定信息与所述每一图像样本中所包含的至少一个标定区域对应的实际信息对应相同时，确定所述卷积层和全连接层中各节点之间的连接的权重参数符合预设条件。

在一实施例中，所述装置还可包括：

第四确定模块，被配置为确定所述具备对应标定信息的至少一个候选区域对应的实际信息；

第五确定模块，被配置为根据所述具备对应标定信息的至少一个候选区域对应的标定信息与所述具备对应标定信息的至少一个候选区域对应的实际信息是否对应相同确定是否需要对所述已训练的卷积神经网络的权值参数进行更新。

在一实施例中，所述装置还可包括：

获取模块，被配置为当需要对所述已训练的卷积神经网络的权值参数进行更新时，向提供所述已训练的卷积神经网络的服务器获取更新后的卷积神经网络的权值参数。

根据本公开实施例的第三方面，提供一种植入图片的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从视频画面中选取出用于植入图片的至少一个候选区域；

本公开的实施例提供的技术方案可以包括以下有益效果：通过将从视频画面中选取的用于植入图片的至少一个候选区域输入至已训练的卷积神经网络，通过已训练的卷积神经网络得到每一个候选区域各自的图像特征，并根据每一个候选区域各自对应的图像特征对每一个候选区域进行标定，得到具备对应标定信息的候选区域，这样，根据候选区域对应的标定信息、预设的标定信息与图片的对应关系，便可以确定具备对应标定信息的候选区域对应的待植入图片。由于已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件，因此可以从选取的用于植入图片的至少一个候选区域中准确地选取出符合标定条件的候选区域进行标定，未标定的候选区域便不能被植入图片，再根据候选区域的标定信息准确地确定对应的待植入图片，可以避免向视频画面植入的图片与视频画面在视觉效果上显得突兀，提高向视频画面植入图片的视觉效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1A是根据一示例性实施例示出的植入图片的方法的流程图。

图1B是根据一示例性实施例示出的植入图片的方法的场景图。

图2A是根据一示例性实施例一示出的对卷积神经网络训练的流程图。

图2B是根据一示例性实施例一示出的卷积神经网络的示意图。

图2C是根据一示例性实施例一示出的卷积神经网络进行训练的示意图。

图3是根据一示例性实施例二示出的植入图片的方法的流程图。

图4A是根据一示例性实施例三示出的植入图片的方法的流程图。

图4B是根据一示例性实施例三示出的植入图片的方法的场景图。

图5是根据一示例性实施例示出的一种植入图片的装置的框图。

图6是根据一示例性实施例示出的另一种植入图片的装置的框图。

图7是根据一示例性实施例示出的再一种植入图片的装置的框图。

图8是根据一示例性实施例示出的一种植入图片的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1A是根据一示例性实施例示出的植入图片的方法的流程图，图1B是根据一示例性实施例示出的植入图片的方法的场景图；该植入图片的方法可以应用在视频播放装置或者与视频播放装置相连接的图像处理设备上，如图1A所示，该植入图片的方法包括以下步骤S101-S105：

在步骤S101中，从视频画面中选取出用于植入图片的至少一个候选区域。

在一实施例中，可以使用选择性搜索(slective search)方法，从视频画面中查找出约2000个候选区域，在又一实施例中，也可以使用其他方法从视频画面中查找出多个候选区域。在一个实施例中，候选区域可以是矩形区域，矩形区域中可以为一个人、动物(比如狗、猫等)或者实物(比如桌子、墙壁等)。

在一实施例中，植入的图片可以是广告图片，例如装饰物品广告图片、饮品广告图片(比如咖啡广告图片)、狗粮广告图片、快餐广告图片、景区宣传图片等。

在步骤S102中，将至少一个候选区域输入至已训练的卷积神经网络；已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件。

在一实施例中，可以根据已训练的卷积神经网络的输入维度对至少一个候选区域分别进行归一化处理，控制每个候选区域的分辨率与已训练的卷积神经网络的输入维度相同。由于候选区域的分辨率不同，而卷积神经网络的输入维度在训练之后已经固定不变，因此需要对候选区域进行归一化处理，控制归一化处理后的候选区域的分辨率与已训练的卷积神经网络的输入维度相同，从而可以使归一化处理后的候选区域能够输入至已训练的卷积神经网络，例如，对于输入维度为227*227的卷积神经网络，如果候选区域的分辨率为400*300，则需要将该400*300分辨率的候选区域归一化为227*227的图像。在一个实施例中，可以以最紧凑原则对候选区域进行归一化处理。在又一个实施例中，可以以补灰原则对候选区域进行归一化处理。在再一个实施例中，可以以拉伸原则对候选区域进行归一化处理。

在步骤S103中，通过已训练的卷积神经网络提取至少一个候选区域中每一个候选区域各自的图像特征。

在一实施例中，卷积神经网络可以根据实际需要设置不同个数的卷积层和全连接层，通过卷积层和全连接层对归一化处理后的候选区域进行特征提取，从而得到归一化处理后的每一个候选区域各自的图像特征。

在步骤S104中，对每一个候选区域中图像特征符合标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域。

在一示例性实施例中，一帧视频画面中可以包括一只猫、一只狗与一张桌子，那么，该视频画面对应的标定文件中便可以对应地包括三个候选区域，一个候选区域为猫的区域，一个候选区域为狗的区域，一个候选区域为桌子的区域。如果只有桌子所对应的候选区域符合标定条件，那么便可以对桌子的所对应的候选区域进行标定，假设桌子对应的类别为1328，则赋予1328给桌子的所对应的候选区域作为标定信息。

在步骤S105中，根据至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定至少一个具备对应标定信息的候选区域对应的待植入图片。

在一实施例中，预设的标定信息与图片的对应关系可以是标定信息与图片的对应关系表，在该对应关系表中，标定信息与图片可以一一对应地保存。在得到候选区域对应的标定信息后，可以通过查表的方式确定与候选区域对应的标定信息相对应的图片，即确定每个具备标定信息的候选区域对应的待植入图片。这样，可以避免向视频画面植入的图片与视频画面在视觉效果上显得突兀，提高向视频画面植入图片的视觉效果。

作为一个示例性场景，如图1B所示，当视频播放装置10播放视频时，装置11通过执行本公开提供的植入图片的方法实现识别用于植入图片的区域以及确定对应的待植入图片。具体地，预处理模块12可以从视频画面中选取出用于植入图片的至少一个候选区域，并根据已训练的卷积神经网络的输入维度对至少一个候选区域分别进行归一化处理，以使每个候选区域的分辨率与已训练的卷积神经网络的输入维度相同。预处理模块12将归一化处理后的至少一个候选区域输入至已训练的卷积神经网络13，通过已训练的卷积神经网络13提取出归一化处理后的至少一个候选区域各自的图像特征，并对每一个候选区域中图像特征符合标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域；结果输出模块14根据至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，得到至少一个具备对应标定信息的候选区域对应的待植入图片并输出。如果视频播放装置10的用户通过观察的方式确定已训练的卷积神经网络13得到的每一视频画面中所包含的至少一个标定区域对应的标定信息与每一视频画面中所包含的至少一个标定区域对应的实际信息并不对应相同时，则用户可以通过通信接口15向提供已训练的卷积神经网络服务的服务器获取权值参数更新后的卷积神经网络，并对已训练的卷积神经网络13中的权值参数进行更新，从而确保已训练的卷积神经网络得到的每一视频画面中所包含的至少一个标定区域对应的标定信息的准确度。

本实施例中，通过将从视频画面中选取的用于植入图片的至少一个候选区域输入至已训练的卷积神经网络，通过已训练的卷积神经网络得到每一个候选区域各自的图像特征，并根据每一个候选区域各自对应的图像特征对每一个候选区域进行标定，得到具备对应标定信息的候选区域，这样，根据候选区域对应的标定信息、预设的标定信息与图片的对应关系，便可以确定具备对应标定信息的候选区域对应的待植入图片。由于已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件，因此可以从选取的用于植入图片的至少一个候选区域中准确地选取出符合标定条件的候选区域进行标定，未标定的候选区域便不能被植入图片，再根据候选区域的标定信息准确地确定对应的待植入图片，可以避免向视频画面植入的图片与视频画面在视觉效果上显得突兀，提高向视频画面植入图片的视觉效果。

在一实施例中，所述方法还可包括：

将包含至少一个标定区域的设定数量的图像样本以及每一图像样本中所包含的至少一个标定区域对应的标定信息输入至未训练的卷积神经网络，对未训练的卷积神经网络的卷积层和全连接层进行训练；

在确定卷积层和全连接层中各节点之间的连接的权重参数符合预设条件时，停止训练卷积神经网络，得到已训练的卷积神经网络。

在一实施例中，所述方法还可包括：

确定每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息是否对应相同；

当每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息对应相同时，确定卷积层和全连接层中各节点之间的连接的权重参数符合预设条件。

在一实施例中，所述方法还可包括：

确定具备对应标定信息的至少一个候选区域对应的实际信息；

根据具备对应标定信息的至少一个候选区域对应的标定信息与具备对应标定信息的至少一个候选区域对应的实际信息是否对应相同确定是否需要对已训练的卷积神经网络的权值参数进行更新。

在一实施例中，所述方法还可包括：

当需要对已训练的卷积神经网络的权值参数进行更新时，向提供已训练的卷积神经网络的服务器获取更新后的卷积神经网络的权值参数。

在一实施例中，所述方法还可包括：

将待植入图片对应地植入至少一个具备对应标定信息的候选区域。

具体如何实现向视频画面植入图片的，请参考后续实施例。

至此，本公开实施例提供的上述方法，可以通过已训练的卷积神经网络得到用于植入图片的每一个候选区域各自的图像特征，并根据每一个候选区域各自对应的图像特征对每一个候选区域进行标定，得到具备对应标定信息的候选区域，这样，根据候选区域对应的标定信息、预设的标定信息与图片的对应关系，便可以确定具备对应标定信息的候选区域对应的待植入图片，这样，可以避免向视频画面植入的图片与视频画面在视觉效果上显得突兀，提高向视频画面植入图片的视觉效果。

下面以具体实施例来说明本公开实施例提供的技术方案。

图2A是根据一示例性实施例一示出的对卷积神经网络训练的流程图，图2B是根据一示例性实施例一示出的卷积神经网络的示意图，图2C是根据一示例性实施例一示出的卷积神经网络进行训练的示意图；本实施例利用本公开实施例提供的上述方法，以如何通过包含标定区域以及标定信息的图像样本对卷积神经网络进行训练为例进行示例性说明，如图2A所示，包括如下步骤：

在步骤S201中，将包含至少一个标定区域的设定数量的图像样本以及每一图像样本中所包含的至少一个标定区域对应的标定信息输入至未训练的卷积神经网络，对未训练的卷积神经网络的卷积层和全连接层进行训练。

在步骤S202中，确定每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息是否对应相同。当每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息对应相同时，执行步骤S203，当每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息对应不相同时，执行步骤S201。在一个实施例中，可以在确定存在至少一个标定区域对应的标定信息与该标定区域对应的实际信息不相同时，便可以执行步骤201。

在步骤S203中，当每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息对应相同时，确定卷积层和全连接层中各节点之间的连接的权重参数符合预设条件。

在步骤S204中，在确定卷积层和全连接层中各节点之间的连接的权重参数符合预设条件时，停止训练卷积神经网络，得到已训练的卷积神经网络。

在对未训练的卷积神经网络进行训练之前，需要准备海量的各类tag(标签)数据，即包括各类标定信息的图像样本(例如，准备2000类的tag数据，每类tag数据1000张，本公开所述的“海量”可以通过两个较大的设定数量来限定，一个设定数量用于限定tag数据的类别数目，一个设定数量用于限定没类tag数据的数目，例如，两个设定数量均可以达到千以上的量级)。对这些海量的图像样本中的标定区域进行标定(label)，使得标定区域具备标定信息，例如，一图像样本中包括一只猫，一图像样本中包括一只狗，一图像样本中包括一张桌子，那么，三张图像样本对应的标定文件中对应地包括一个矩形区域，一个矩形区域为猫的区域，对应的标定信息为90(假设猫对应的类别为90)，该标定信息可以以标签的形式标定在猫的矩形区域的相应位置；一个矩形区域为狗的区域，对应的标定信息为37(假设狗对应的类别为37)，该标定信息也可以以标签的形式标定在狗的矩形区域的相应位置；一个矩形区域为桌子的区域，对应的标定信息为1328(假设桌子对应的类别为1328)，该标定信息也可以以标签的形式标定在桌子的矩形区域的相应位置。

未训练的卷积神经网络的结构可以参照图2B的示意，如图2B所示，在该未训练的卷积神经网络中，包括输入层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第一全连接层、第二全连接层以及输出层，其中，stride(步长)为4，max pooling为最大化池，dense为稠密层，即全连接层。上述的2000000张图像样本作为训练样本输入到该卷积神经网络中进行训练，并根据卷积神经网络输出的分类结果，不断对该卷积神经网络各卷积层上节点之间的连接的权重参数进行调整。在不断的调整过程中，该卷积神经网络在基于输入的训练样本进行训练后，输出的分类结果与用户标定的分类结果相比，准确度将会逐渐提高。与此同时，用户可以预先设置一个预设条件，例如，在不断的调整过程中，如果该卷积神经网络输出的分类结果与用户标定的分类结果相比，准确度达到预先设置的准确度阈值后，表示该卷积神经网络中各卷积层节点之间连接的权重参数均为最佳权重参数，此时可以认为该卷积神经网络的卷积层和全连接层中各节点之间的连接的权重参数符合该预设条件。

为了验证结果输出模块14输出的至少一个具备对应标定信息的候选区域对应的待植入图片的准确度，还可以通过图2C所示的对比模块20通过执行上述步骤S202和步骤S203的方式来控制卷积神经网络训练的迭代次数。在一实施例中，对比模块20可以通过逐一对比每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息来确定每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息是否对应相同，如果对比模块20得到数目大于1个的标定区域对应的标定信息与对应的实际信息不对应相同，则通过图像样本继续对卷积神经网络13进行训练，例如，卷积神经网络13对包括猫的图像样本中的标定区域标定的标定信息为37，而包括猫的图像样本中的标定区域的实际信息为90，经比模块20对比发现，包括猫的图像样本中的标定区域的标定信息与包括猫的图像样本中的标定区域的实际信息不相同，需要继续对卷积神经网络13进行训练，卷积神经网络13中的各层的权值参数又被更新了一次，如此迭代，例如在迭代了一直到100w轮之后，在卷积神经网络13得到的输出结果为包括猫的图像样本中的标定区域标定的标定信息为90，此时可以停止训练卷积神经网络13，此时保存卷积神经网络训练得到的权值参数，得到已训练的卷积神经网络。

本实施例中，通过海量的图像样本对卷积神经网络进行训练，由于图像样本中包含有海量的与待植入图片对应的候选区域的图像特征，进而可以使已训练的卷积神经网络的权值参数能够准确的表达与待植入图片对应的候选区域的图像特征，当输入已训练的卷积神经网络的候选区域中包含有与待植入图片对应的候选区域时，可以准确地识别出与待植入图片对应的候选区域，避免出现向候选区域植入的图片在视觉效果上显得突兀的情形。

图3是根据一示例性实施例二示出的植入图片的方法的流程图；本实施例利用本公开实施例提供的上述方法，以如何根据候选区域的实际信息来对卷积神经网络中的权值参数进行更新为例并结合图1B进行示例性说明，如图3所示，包括如下步骤：

在步骤S301中，从视频画面中选取出用于植入图片的至少一个候选区域。

在步骤S302中，将至少一个候选区域输入至已训练的卷积神经网络；已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件。

在步骤S303中，通过已训练的卷积神经网络提取至少一个候选区域中每一个候选区域各自的图像特征。

在步骤S304中，对每一个候选区域中图像特征符合标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域。

在步骤S305中，根据至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定至少一个具备对应标定信息的候选区域对应的待植入图片。

步骤S301和步骤S305的相关描述可以参见上述图1A所示实施例的描述，在此不再详述。

在步骤S306中，监听用于控制权值参数更新的按键是否被触发，如果按键被触发，执行步骤S307，如果按键未被触发，则将得到的至少一个具备对应标定信息的候选区域对应的待植入图片作为最终的结果输出。

在一实施例中，用于控制权值参数更新的按键既可以为实体按键，也可以为执行本公开所述方法的装置上的虚拟按键。该按键可以由用户通过观察的方式来触发，例如，用户发现视频播放装置播放的视频画面上植入的图片在视觉效果上显得突兀时，触发该按键，以确定需要对卷积神经网络的权值参数进行更新。

在步骤S307中，当需要对已训练的卷积神经网络的权值参数进行更新时，向提供已训练的卷积神经网络的服务器获取更新后的卷积神经网络的权值参数。

在一实施例中，当提供卷积神经网络的服务器接收到大量用户发送的需要更新权值参数的请求时，服务器可以对卷积神经网络的权值参数进行更新，以确保用户在使用过程中通过卷积神经网络能够得到准确的候选区域及其对应的待植入图片，在一实施例中，可以通过图1B所示的通信接口15向服务器获取权值参数。

本实施例在具有上述实施例的有益技术效果的基础上，通过对卷积申请网络的权值参数进行更新，可以确保在使用过程中通过卷积神经网络能够得到准确的用于植入图片的候选区域及其对应的待植入图片。

图4A是根据一示例性实施例三示出的植入图片的方法的流程图；图4B是根据一示例性实施例三示出的植入图片的方法的场景图；本实施例利用本公开实施例提供的上述方法，以如何植入图片为例并结合图4B进行示例性说明，如图4A所示，包括如下步骤：

在步骤S401中，从视频画面中选取出用于植入图片的至少一个候选区域。

在步骤S402中，将至少一个候选区域输入至已训练的卷积神经网络；已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件。

在步骤S403中，通过已训练的卷积神经网络提取至少一个候选区域中每一个候选区域各自的图像特征。

在步骤S404中，对每一个候选区域中图像特征符合标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域。

在步骤S405中，根据至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定至少一个具备对应标定信息的候选区域对应的待植入图片。

步骤S401和步骤S405的相关描述可以参见上述图1A所示实施例的描述，在此不再详述。

在步骤S406中，将待植入图片对应地植入至少一个具备对应标定信息的候选区域。

在一实施例中，如果同一帧视频画面中包括一个以上的具备对应标定信息的候选区域，在步骤S405中可以得到所有具备对应标定信息的候选区域与对应的待植入图片的一一对应的关系，该对应关系由结果输出模块14输出至视频播放装置10，在步骤S406中，视频播放装置10可以根据所有具备对应标定信息的候选区域与对应的待植入图片的一一对应的关系，将待植入图片一一对应地植入所有具备对应标定信息的候选区域，这样，每个确定用于植入图片的候选区域都可以被植入对应的图片而避免在视觉效果上显得突兀。

本实施例在具有上述实施例的有益技术效果的基础上，可以一一对应地将确定的每个用于植入图片的候选区域都可以被植入对应的图片而避免在视觉效果上显得突兀。

图5是根据一示例性实施例示出的一种植入图片的装置的框图，如图5所示，植入图片的装置包括：

选取模块51，被配置为从视频画面中选取出用于植入图片的至少一个候选区域；

输入模块52，被配置为将所述至少一个候选区域输入至已训练的卷积神经网络；所述已训练的卷积神经网络的各个卷积层和全连接层中的权值参数用于表示候选区域的标定条件；

特征提取模块53，被配置为通过所述已训练的卷积神经网络提取所述至少一个候选区域中每一个候选区域各自的图像特征；

标定模块54，被配置为对所述每一个候选区域中图像特征符合所述标定条件的候选区域进行标定，得到具备对应标定信息的至少一个候选区域；

第一确定模块55，被配置为根据所述至少一个候选区域对应的标定信息、预设的标定信息与图片的对应关系，确定所述至少一个具备对应标定信息的候选区域对应的待植入图片。

在一实施例中，选取模块51与输入模块52可以与上述图1B所示的预处理模块12相同，特征提取模块53与标定模块54一起可以等组成上述图1B所示的卷积申请网络13。

图6是根据一示例性实施例示出的另一种植入图片的装置的框图，如图6所示，在上述图5所示实施例的基础上，在一实施例中，装置还可包括：

训练模块61，被配置为将包含至少一个标定区域的设定数量的图像样本以及每一图像样本中所包含的至少一个标定区域对应的标定信息输入至未训练的卷积神经网络，对未训练的卷积神经网络的卷积层和全连接层进行训练；

第一控制模块62，被配置为在确定卷积层和全连接层中各节点之间的连接的权重参数符合预设条件时，停止训练卷积神经网络，得到已训练的卷积神经网络。

在一实施例中，装置还可包括：

第二确定模块63，被配置为确定每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息是否对应相同；

第三确定模块64，被配置为当每一图像样本中所包含的至少一个标定区域对应的标定信息与每一图像样本中所包含的至少一个标定区域对应的实际信息对应相同时，确定卷积层和全连接层中各节点之间的连接的权重参数符合预设条件。

图7是根据一示例性实施例示出的再一种植入图片的装置的框图，如图7所示，在上述图5或图6所示实施例的基础上，在一实施例中，装置还可包括：

第四确定模块71，被配置为确定具备对应标定信息的至少一个候选区域对应的实际信息；

第五确定模块72，被配置为根据具备对应标定信息的至少一个候选区域对应的标定信息与具备对应标定信息的至少一个候选区域对应的实际信息是否对应相同确定是否需要对已训练的卷积神经网络的权值参数进行更新。

在一实施例中，装置还可包括：

获取模块73，被配置为当需要对已训练的卷积神经网络的权值参数进行更新时，向提供已训练的卷积神经网络的服务器获取更新后的卷积神经网络的权值参数。

在一实施例中，装置还可包括：

植入模块74，被配置为将待植入图片对应地植入至少一个具备对应标定信息的候选区域。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种植入图片的装置的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件808，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件808为装置800的各种组件提供电力。电力组件808可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种植入图片的方法，其特征在于，所述方法包括：

从视频画面中选取出用于植入图片的至少一个候选区域；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种植入图片的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

植入模块，被配置为将所述待植入图片对应地植入所述至少一个具备对应标定信息的候选区域。

13.一种植入图片的装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从视频画面中选取出用于植入图片的至少一个候选区域；