CN109325521B

CN109325521B - 用于虚拟人物的检测方法及装置

Info

Publication number: CN109325521B
Application number: CN201810974781.2A
Authority: CN
Inventors: 赵昊; 张默
Original assignee: Beijing Moshanghua Technology Co ltd
Current assignee: Beijing Moshanghua Technology Co ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-09-07
Anticipated expiration: 2038-08-24
Also published as: CN109325521A

Abstract

本申请公开了一种用于虚拟人物的检测方法及装置。该方法包括输入待检测图像；对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置；对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及融合所述虚拟人物图像分类结果，得到虚拟人物图像。本申请解决了缺乏有效地虚拟人物检测方法的技术问题。通过本申请的方法，结合传统计算机视觉和深度学习特征分别去分类虚拟人物后检测出虚拟人物。此外，检测方法使用时可降低对海量数据集的需求。

Description

用于虚拟人物的检测方法及装置

技术领域

本申请涉及计算机视觉领域，具体而言，涉及一种用于虚拟人物的检测方法及装置。

背景技术

随着深度学习的的出现和快速发展，在计算机视觉领域中的物体检测和物体分类的准确率有了非常大幅度的提升。一方面是因为深度学习网络比传统机器学习在提取特征上有了更强的能力，另一方面是因为不断的有海量图片数据集的出现，使深度学习网络模型的训练不会造成过拟合。

发明人发现，对于虚拟人物的检测问题,由于公开数据集都是关于现实生活中的图片，因而没有关于虚拟人物的数据集。进而无法在大数据上进行提前训练，训练过程中容易发生过拟合。进一步，影响通过深度学习提取到的高级特征与虚拟人物特征不能适应。进而影响到检测的效果和准确率。

针对相关技术中缺乏有效地虚拟人物检测方法的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种用于虚拟人物的检测方法及装置，以解决缺乏有效地虚拟人物检测方法的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种用于虚拟人物的检测方法。

根据本申请的用于虚拟人物的检测方法包括：输入待检测图像；对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置；对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及融合所述虚拟人物图像分类结果，得到虚拟人物图像。

进一步地，对所述虚拟人物图像执行第一预设检测任务得到虚拟人物图像位置之后还包括：根据所述虚拟人物图像位置从所述待检测图像中分割出虚拟人物且保存分割后的虚拟人物图像。

进一步地，对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置包括：采集预设影像信息中的虚拟人物视频截图以及图像标注特征；根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型；以及通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置。

进一步地，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类包括：提取待检测的虚拟人物图片中SIFT特征；根据所述SIFT特征和图像标注特征训练得到分类器；以及根据所述分类器区分所述虚拟人物的类别。

进一步地，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类包括：通过所述虚拟人物图像训练深度学***均后的分类结果。

为了实现上述目的，根据本申请的另一方面，提供了一种用于虚拟人物的检测装置。

根据本申请的用于虚拟人物的检测装置包括：输入模块，用于输入待检测图像；第一执行模块，用于对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置；第二执行模块，用于对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及融合模块，用于融合所述虚拟人物图像分类结果，得到虚拟人物图像。

进一步地，装置还包括：分割模块，所述分割模块，用于根据所述虚拟人物图像位置从所述待检测图像中分割出虚拟人物且保存分割后的虚拟人物图像。

进一步地，所述第二执行模块包括：采集单元，用于采集预设影像信息中的虚拟人物视频截图以及图像标注特征；第一训练单元，用于根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型；以及位置检测单元，用于通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置。

进一步地，所述第二执行模块包括：提取单元，用于提取待检测的虚拟人物图片中SIFT特征；第二训练单元，用于根据所述SIFT特征和图像标注特征训练得到前馈全连接神经网络；以及第一类别单元，用于根据所述前馈全连接神经网络区分所述虚拟人物的类别。

进一步地，所述第二执行模块包括：所述融合模块包括：加权模块，第三训练单元，用于通过所述虚拟人物图像训练深度学***均后的分类结果。

在本申请实施例中，采用对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置的方式，通过对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类，达到了融合所述虚拟人物图像分类结果，得到虚拟人物图像的目的，从而实现了结合传统计算机视觉和深度学习特征分别去分类虚拟人物的技术效果，进而解决了缺乏有效地虚拟人物检测方法的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的用于虚拟人物的检测方法示意图；

图2是根据本申请第二实施例的用于虚拟人物的检测方法示意图；

图3是根据本申请第三实施例的用于虚拟人物的检测方法示意图；

图4是根据本申请第四实施例的用于虚拟人物的检测方法示意图；

图5是根据本申请第五实施例的用于虚拟人物的检测方法示意图；

图6是根据本申请第一实施例的用于虚拟人物的检测方法示意图；

图7是根据本申请第二实施例的用于虚拟人物的检测方法示意图；

图8是根据本申请第三实施例的用于虚拟人物的检测方法示意图；以及

图9是根据本申请第四实施例的用于虚拟人物的检测方法示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请中的用于虚拟人物的检测方法，输入待检测图像；对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置；对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及融合所述虚拟人物图像分类结果，得到虚拟人物图像。在整体的虚拟人物检测方法上，相比于用单独一个既检测类别又检测位置的网络模型，本申请首先可以通过将两个问题拆分，用不一样的稍小的模型针对性的分别做物体分类和位置检测，可以将各自相对应的任务的准确率提高,并且降低对海量数据集的需求。不仅如此，在实际应用场景中，当虚拟人物的类别需要增加的时候，不再需要考虑重新训练模型去检测新增类别的虚拟人物物***置，只需要对分类的模型进行微调fine tune即可，减少了在实际使用中不必要的工作。

如图1所示，该方法包括如下的步骤S102至步骤S108：

步骤S102，输入待检测图像；

待检测图像可以是指虚拟动画片或者虚拟动画电影中的虚拟人物视频的截图。

同时，在进行位置信息提取时还需要进行特征数据标注，可以是图片中虚拟人物的位置信息和类别信息。

步骤S104，对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置；

具体地，使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据比如，包括图片中虚拟人物的位置信息和类别信息。首先可以先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型，该深度学习网络模型中暂不考虑虚拟人物类别，模型结构为去分类的检测算法。

由于用于虚拟人物人别的公开数据集都是关于现实生活中的图片，没有关于虚拟人物的数据集。因此，对于虚拟人物检测的深度学习网络模型无法先在大数据集上预训练pre train，很容易造成深度学习网络模型在自己的小虚拟人物训练集上过拟合。通过首先可以先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型可以很好地解决过拟合的问题。

需要注意的是，在本申请中的深度学习网络模型，可以是先通过backbone主干提取图片特征，再通过提取backbone中多个不同尺度的特征图，并对每一个特征图各自接两层卷积层，用于做线性回归进而检测图片中的虚拟人物的具***置比如，可以是紧贴虚拟人物的左上角和虚拟人物的长和宽。

步骤S106，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；

所述虚拟人物预设分类中至少包括：图像深度学习分类和图像特征提取分类。本领域技术人员可以按照不同的训练场景，对所述虚拟人物图像执行虚拟人物预设分类。图像深度学习分类主要是指基于深度学习的机器学习。图像特征提取分类是指基础传统计算机视觉特征的提取方法。

具体地，可以利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。

此外，具体地，还可以提取所有虚拟人物图片中的传统计算机视觉SIFT特征，将所有虚拟人物图片用特征向量SIFT表示，结合标注数据用于训练分类器分类虚拟人物的类别。

此外，具体地，还可以提取所有虚拟人物图片中的传统计算机视觉Surf特征，将所有虚拟人物图片用特征向量Surf表示，结合标注数据用于训练分类器分类虚拟人物的类别。

此外，具体地，还可以提取所有虚拟人物图片中的传统计算机视觉Harris特征，将所有虚拟人物图片用特征向量Harris表示，结合标注数据用于训练分类器分类虚拟人物的类别。

可以理解，本领域技术人员传统计算机视觉特征可以被替换为其他特征，比如Surf，Harris等等。

可以理解，训练的分类器可以是前馈神经网络分类器或者其他分类器比如SVM。

步骤S108，融合所述虚拟人物图像分类结果，得到虚拟人物图像。

具体地，通过使用机器学***均结合两个结果作为最终分类结果。此外，通过结合使用传统计算机视觉的特征和深度学习自动提取的高级特征，进而增加了图片中虚拟人物特征的表征范围，可以在虚拟人物的分类准确率上有很大的提升。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，如图2所示，对所述虚拟人物图像执行第一预设检测任务得到虚拟人物图像位置之后还包括：

步骤S1010，根据所述虚拟人物图像位置从所述待检测图像中分割出虚拟人物且保存分割后的虚拟人物图像。

具体地，将训练好的去分类SSD用于提取视频图片中虚拟人物的位置信息，并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来。

根据本申请实施例，作为本实施例中的优选，如图3所示，对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置包括：

步骤S302，采集预设影像信息中的虚拟人物视频截图以及图像标注特征；

使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型,暂不考虑虚拟人物类别。

步骤S304，根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型；以及

标注数据中主要包括图片中虚拟人物的位置信息和类别信息，可以根据不同场景进行选择和确定。从而将原有与线性回归对应的物体分类分支去掉。

步骤S306，通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置。

在所述深度学习网络模型中去除分类分支。

通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置时还可以是检测左上角和右下角，中心点和长和宽。

通过去掉深度学习物体检测网络中的分类分支，将物体分类和物***置检测的问题拆分，进而提高不同任务的准确率,降低深度学习模型对海量数据集的需求，同时在实际应用中减少了后续的不必要的重新训练模型去检测物***置的任务。

优选地，根据所述位置信息分割出虚拟人物图像包括：根据训练好的用于提取虚拟人物图像位置的深度学习网络模型从待检测图像中分割出虚拟人物且保存分割后的所述虚拟人物图像。比如，比如SSD、Yolo、FasterRCNN等目标检测网络。

根据本申请实施例，作为本实施例中的优选，如图4所示，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类包括：

步骤S402，提取待检测的虚拟人物图片中SIFT特征；

步骤S404，根据所述SIFT特征和图像标注特征训练得到分类器；以及

步骤S406，根据所述分类器区分所述虚拟人物的类别。

具体地，在实施上述步骤时，提取所有虚拟人物图片中的传统计算机视觉SIFT特征，将所有虚拟人物图片用特征向量SIFT表示，结合标注数据用于训练一个多层的传统前馈全连接神经网络MLP分类虚拟人物的类别。

需要注意的是，上述传统计算机视觉SIFT特征可以被替换为其他特征，比如Surf，Harris等等。

此外，同时前馈神经网络分类器可以被替换为其他分类器比如SVM。

通过结合上述步骤中使用的传统计算机视觉的特征和上述步骤中使用的深度学习自动提取的高级特征，进而增加了图片中虚拟人物特征的表征范围，可以在虚拟人物的分类准确率上有很大的提升。

根据本申请实施例，作为本实施例中的优选，如图5所示，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类包括：

步骤S502，通过所述虚拟人物图像训练深度学习网络分类模型；

步骤S504，根据深度学习网络分类模型提取虚拟人物的高级特征；

步骤S506，检测出虚拟人物类别；以及

步骤S508，对所述虚拟人物图像的类别采用模型融合，得到加权平均后的分类结果。

具体地，在实施上述步骤时，利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型ResNet50用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。通过上述步骤，提取虚拟人物在图片中各自类别上的细小的高级特征。

需要注意的是，由于采用了去掉分类分支的方式，在实际应用场景中，当虚拟人物的类别需要增加的时候，不再需要考虑重新训练模型去检测新增类别的虚拟人物物***置，只需要对分类的模型进行微调fine-tune即可，减少了在实际使用中不必要的工作。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述用于虚拟人物的检测方法的装置，如图6所示，该装置包括：输入模块10，用于输入待检测图像；第一执行模块20，用于对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置；第二执行模块30，用于对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及融合模块40，用于融合所述虚拟人物图像分类结果，得到虚拟人物图像。

本申请实施例的输入模块10中待检测图像可以是指虚拟动画片或者虚拟动画电影中的虚拟人物视频的截图。

本申请实施例的第一执行模块20中具体地，使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据比如，包括图片中虚拟人物的位置信息和类别信息。首先可以先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型，该深度学习网络模型中暂不考虑虚拟人物类别，模型结构为去分类的检测算法。

本申请实施例的第二执行模块30中所述虚拟人物预设分类中至少包括：图像深度学习分类和图像特征提取分类。本领域技术人员可以按照不同的训练场景，对所述虚拟人物图像执行虚拟人物预设分类。图像深度学习分类主要是指基于深度学习的机器学习。图像特征提取分类是指基础传统计算机视觉特征的提取方法。

本申请实施例的融合模块40中具体地，通过使用机器学***均结合两个结果作为最终分类结果。此外，通过结合使用传统计算机视觉的特征和深度学习自动提取的高级特征，进而增加了图片中虚拟人物特征的表征范围，可以在虚拟人物的分类准确率上有很大的提升。

此外，通过结合使用传统计算机视觉的特征和深度学习自动提取的高级特征，进而增加了图片中虚拟人物特征的表征范围，可以在虚拟人物的分类准确率上有很大的提升。

优选地，装置还包括：分割模块，所述分割模块，用于根据所述虚拟人物图像位置从所述待检测图像中分割出虚拟人物且保存分割后的虚拟人物图像。

根据本申请实施例，作为本实施例中的优选，如图7所示，所述第二执行模块30包括：采集单元301，用于采集预设影像信息中的虚拟人物视频截图以及图像标注特征；第一训练单元302，用于根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型；以及位置检测单元303，用于通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置。所述第二执行模块30既可以提取虚拟人物在图片中较为简单且易分类的整体特征也可以提取虚拟人物在图片中各自类别上的细小的高级特征，两者分类结合的结果会比单独使用深度学习或者传统计算机视觉进行分类在准确率上都有很大的提升，并且相较于深度学习。

本申请实施例的采集单元301中使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型,暂不考虑虚拟人物类别。

本申请实施例的第一训练单元302中标注数据中主要包括图片中虚拟人物的位置信息和类别信息，可以根据不同场景进行选择和确定。从而将原有与线性回归对应的物体分类分支去掉。

本申请实施例的位置检测单元303中在所述深度学习网络模型中去除分类分支。

根据本申请实施例，作为本实施例中的优选，如图8所示，所述第二执行模块30包括：提取单元304，用于提取待检测的虚拟人物图片中SIFT特征；第二训练单元305，用于根据所述SIFT特征和图像标注特征训练得到前馈全连接神经网络；以及第一类别单元306，用于根据所述前馈全连接神经网络区分所述虚拟人物的类别。

所述第二执行模块30中具体地，在实施上述步骤时，提取所有虚拟人物图片中的传统计算机视觉SIFT特征，将所有虚拟人物图片用特征向量SIFT表示，结合标注数据用于训练一个多层的传统前馈全连接神经网络MLP分类虚拟人物的类别。

根据本申请实施例，作为本实施例中的优选，如图9所示，所述第二执行模块30包括：第三训练单元307、特征单元308、第二类别单元309，所述融合模块40包括：加权模块401，第三训练单元307，用于通过所述虚拟人物图像训练深度学***均后的分类结果。

所述第二执行模块30中通过使用机器学***均作为最终分类结果。

具体地，在实施上述步骤时，利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型ResNet50用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。通过上述模块，提取虚拟人物在图片中各自类别上的细小的高级特征。

本申请的原理具体如下，在下述原理中选用SSD检测网络为例，对本申请中的原理进行详细说明。

具体地，在整体的虚拟人物识别方法上，相比于用单独一个既检测类别又检测位置的网络模型，本申请首先可以通过将两个问题拆分，用不一样的稍小的模型针对性的分别做物体分类和位置检测，可以将各自相对应的任务的准确率提高,并且降低对海量数据集的需求。同时不仅如此，在实际应用场景中，当虚拟人物的类别需要增加的时候，不再需要考虑重新训练模型去检测新增类别的虚拟人物物***置，只需要对分类的模型进行微调fine tune即可，减少了在实际使用中不必要的工作。

步骤一，使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据比如，可以包括图片中虚拟人物的位置信息和类别信息。先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型，暂不考虑虚拟人物类别，深度学习网络模型结构为去分类的SSD检测网络。

可选地，步骤一中检测物***置可以被替换为其他方式，比如检测左上角和右下角，中心点和长和宽。

可选地，深度学习网络模型改进的思想也可以被应用在其他物体检测的网络结构中，比如Yolo或者FasterRCNN。

具体地，深度学习网络模型是先通过backbone主干提取图片特征，再通过提取backbone中多个不同尺度的特征图，并对每一个特征图各自接两层卷积层，用于做线性回归进而检测图片中的虚拟人物的具***置比如，紧贴虚拟人物的左上角和虚拟人物的长和宽，此外将原有与线性回归对应的物体分类分支去掉，此结构在本申请中称为去分类的SSD。

本申请中首先可以通过将位置检测和分类检测的问题进行拆分，使用不一样的稍小的模型针对性的分别做物体分类和位置检测，可以将各自相对应的任务的准确率提高，并且降低对海量数据集的需求。

步骤二，训练好的去分类SSD用于提取视频图片中虚拟人物的位置信息，并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来。通过此步骤抠出虚拟人物。

步骤三，利用所有抠出来的虚拟人物图片和标注数据训练出一个深度学习网络分类模型ResNet50用于提取虚拟人物的高级特征并检测具体的虚拟人物类别。

可选地，深度学习网络分类模型的结构可以被替换为其他结构，比如Vgg16，Xception等等。

步骤四，提取所有虚拟人物图片中的传统计算机视觉SIFT特征,将所有虚拟人物图片用特征向量SIFT表示，结合标注数据用于训练一个多层的传统前馈全连接神经网络MLP分类虚拟人物的类别。

可选地，采用传统计算机视觉特征可以被替换为其他特征，比如Surf,Harris等等。

可选地，同时前馈神经网络分类器可以被替换为其他分类器比如，SVM。

步骤五，使用机器学***均作为最终分类结果.。

本申请中通过在分类虚拟人物的问题上,结合传统计算机视觉特征提取方法和深度学习手段，既可以提取虚拟人物在图片中较为简单且易分类的整体特征也可以提取虚拟人物在图片中各自类别上的细小的高级特征，两者分类结合的结果会比单独使用深度学习或者传统计算机视觉进行分类在准确率上都有很大的提升。并且相较于深度学习，用于分类SIFT特征的前馈神经网络不需要过多的全连接层,因此在分类效率上不会对深度学习网络模型造成滞后的效果。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于虚拟人物的检测方法，其特征在于，包括：

输入待检测图像；

对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置，包括：通过训练完成的深度学习网络模型检测所述待检测图像中的虚拟人物的具***置；其中，所述位置包括紧贴虚拟人物左上角、右上角、中心点、虚拟人物的长度和宽度；所述深度学习网络模型为去分类的SSD检测网络；所述深度学习网络模型的训练过程包括：使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据包括图片中虚拟人物的位置信息和类别信息，首先可以先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型，该深度学习网络模型中暂不考虑虚拟人物类别，模型结构为去分类的检测算法；在所述深度学习网络模型中，先通过backbone主干提取图片特征，再通过提取backbone中多个不同尺度的特征图，并对每一个特征图各自接两层卷积层，用于做线性回归进而检测图片中的虚拟人物的具***置；而后基于训练好的去分类SSD用于提取视频图片中虚拟人物的位置信息，并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来以抠出虚拟人物；

对所述抠出的虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及

融合所述虚拟人物图像分类结果，得到虚拟人物图像；

对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置包括：采集预设影像信息中的虚拟人物视频截图以及图像标注特征；根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型；以及通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置。

2.根据权利要求1所述的检测方法，其特征在于，对所述虚拟人物图像执行第一预设检测任务得到虚拟人物图像位置之后还包括：

根据所述虚拟人物图像位置从所述待检测图像中分割出虚拟人物且保存分割后的虚拟人物图像。

3.根据权利要求1所述的检测方法，其特征在于，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类包括：

提取待检测的虚拟人物图片中SIFT特征；

根据所述SIFT特征和图像标注特征训练得到分类器；以及

根据所述分类器区分所述虚拟人物的类别。

4.根据权利要求1所述的检测方法，其特征在于，对所述虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类包括：

通过所述虚拟人物图像训练深度学习网络分类模型；

根据深度学习网络分类模型提取虚拟人物的高级特征；

检测出虚拟人物类别；以及

对所述虚拟人物图像的类别采用模型融合，得到加权平均后的分类结果。

5.一种用于虚拟人物的检测装置，其特征在于，包括：

输入模块，用于输入待检测图像；

第一执行模块，用于对所述待检测图像中的虚拟人物执行第一预设检测任务得到虚拟人物图像位置，包括：通过训练完成的深度学习网络模型检测所述待检测图像中的虚拟人物的具***置；其中，所述位置包括紧贴虚拟人物左上角、右上角、中心点、虚拟人物的长度和宽度；所述深度学习网络模型为去分类的SSD检测网络；所述深度学习网络模型的训练过程包括：使用虚拟动画片或虚拟动画电影中虚拟人物视频截图和标注数据包括图片中虚拟人物的位置信息和类别信息，首先可以先训练一个只用于检测图片中虚拟人物具***置的深度学习网络模型，该深度学习网络模型中暂不考虑虚拟人物类别，模型结构为去分类的检测算法；在所述深度学习网络模型中，先通过backbone主干提取图片特征，再通过提取backbone中多个不同尺度的特征图，并对每一个特征图各自接两层卷积层，用于做线性回归进而检测图片中的虚拟人物的具***置；而后基于训练好的去分类SSD用于提取视频图片中虚拟人物的位置信息，并利用提取出的位置信息将所有视频图片中只有虚拟人物的部分分割出来以抠出虚拟人物；

第二执行模块，用于对所述抠出的虚拟人物图像位置对应的虚拟人物执行第二预设检测任务得到虚拟人物图像分类；以及

融合模块，用于融合所述虚拟人物图像分类结果，得到虚拟人物图像。

6.根据权利要求5所述的检测装置，其特征在于，还包括：分割模块，

所述分割模块，用于根据所述虚拟人物图像位置从所述待检测图像中分割出虚拟人物且保存分割后的虚拟人物图像。

7.根据权利要求5所述的检测装置，其特征在于，所述第二执行模块包括：

采集单元，用于采集预设影像信息中的虚拟人物视频截图以及图像标注特征；

第一训练单元，用于根据所述虚拟人物视频截图和所述图像标注特征训练用于检测虚拟人物位置的深度学习网络模型；以及

位置检测单元，用于通过所述深度学习网络模型执行位置检测任务得到虚拟人物图像位置。

8.根据权利要求5所述的检测装置，其特征在于，所述第二执行模块包括：

提取单元，用于提取待检测的虚拟人物图片中SIFT特征；

第二训练单元，用于根据所述SIFT特征和图像标注特征训练得到前馈全连接神经网络；以及

第一类别单元，用于根据所述前馈全连接神经网络区分所述虚拟人物的类别。

9.根据权利要求5所述的检测装置，其特征在于，所述第二执行模块包括：

第三训练单元、特征单元、第二类别单元，所述融合模块包括：加权模块，

第三训练单元，用于通过所述虚拟人物图像训练深度学习网络分类模型；

特征单元，用于根据深度学习网络分类模型提取虚拟人物的高级特征；

第二类别单元，用于检测出虚拟人物类别；以及

所述加权模块，用于对所述虚拟人物图像分类采用模型融合，得到加权平均后的分类结果。