CN110738211A

CN110738211A - 一种对象检测的方法、相关装置以及设备

Info

Publication number: CN110738211A
Application number: CN201910989269.XA
Authority: CN
Inventors: 黄超; 张力柯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-01-31

Abstract

本申请公开了一种对象检测的方法，包括：获取图像集合，图像集合至少包括第一图像以及第二图像，第一图像为第二图像的前一帧图像；基于图像集合，获取深度特征集合，深度特征集合包括第一深度特征以及第二深度特征；根据深度特征集合生成待检测区域所对应的目标时序特征；基于目标时序特征，通过时序检测模型获取对象检测结果，对象检测结果为第二图像中待检测区域的检测结果。本申请还提供了一种对象检测装置以及电子设备。本申请可以将相邻图像在同一区域的特征进行融合，得到具有时序性的目标时序特征，基于该目标时序特征预测得到的检测结果更准确，提升了检测精度。

Description

一种对象检测的方法、相关装置以及设备

技术领域

本申请涉及人工智能领域，尤其涉及一种对象检测的方法、相关装置以及设备。

背景技术

随着生活水平的提高，人们可以随时随地的通过电脑、手机以及平板电脑等终端设备体验各种各样的游戏，这些游戏为用户提供方便且快捷的休闲娱乐方式，并起到了缓解压力的效果。为了能够更好地维护游戏的正常运行，通常需要对游戏进行自动化测试。

在自动化测试的过程中，需要对用户界面(User Interface，UI)中的目标对象进行检测。目前，可以采用基于深度网络的目标检测算法检测出目标对象所在的位置和类别，即提取每帧游戏画面中目标对象的深度特征，根据该深度特征预测出目标对象的位置，基于目标对象的位置执行相应的操作。

然而，由于在短时间内目标对象的位置变化往往较小，因此，采用上述方式检测得到的相邻帧游戏画面之间的深度特征较为接近，导致检测结果差异度很小，难以辨识出目标对象的位置变化。从而降低了检测精度。

发明内容

本申请实施例提供了一种对象检测的方法、相关装置以及设备，可以将相邻图像在同一区域的特征进行融合，得到具有时序性的目标时序特征，基于该目标时序特征预测得到的检测结果更准确，提升了检测精度。

有鉴于此，本申请第一方面提供一种对象控制的方法，包括：

获取图像集合，其中，所述图像集合至少包括第一图像以及第二图像，所述第一图像为所述第二图像的前一帧图像；

基于所述图像集合，获取深度特征集合，其中，所述深度特征集合包括第一深度特征以及第二深度特征，所述第一深度特征属于所述第一图像中待检测区域的深度特征，所述第二深度特征属于所述第二图像中待检测区域的深度特征；

根据所述深度特征集合生成所述待检测区域所对应的目标时序特征；

基于所述目标时序特征，通过时序检测模型获取对象检测结果，其中，所述对象检测结果为所述第二图像中待检测区域的检测结果。

本申请第二方面提供一种对象检测装置，包括：

获取模块，用于获取图像集合，其中，所述图像集合至少包括第一图像以及第二图像，所述第一图像为所述第二图像的前一帧图像；

所述获取模块，还用于基于所述图像集合，获取深度特征集合，其中，所述深度特征集合包括第一深度特征以及第二深度特征，所述第一深度特征属于所述第一图像中待检测区域的深度特征，所述第二深度特征属于所述第二图像中待检测区域的深度特征；

生成模块，用于根据所述获取模块获取的所述深度特征集合生成所述待检测区域所对应的目标时序特征；

所述获取模块，还用于基于所述生成模块生成的所述目标时序特征，通过时序检测模型获取对象检测结果，其中，所述对象检测结果为所述第二图像中待检测区域的检测结果。

在一种可能的设计中，在本申请实施例的第二方面的第一种实现方式中，

所述获取模块，具体用于基于所述第一图像，通过所述目标检测模型获取所述第一深度特征，其中，所述第一深度特征包括所述待检测区域在P个尺度下的第一特征，所述P为大于或等于1的整数；

基于所述第二图像，通过目标检测模型获取所述第二深度特征，其中，所述第二深度特征包括所述待检测区域在P个尺度下的第二特征；

根据所述第一深度特征以及所述第二深度特征，生成所述深度特征集合。

在一种可能的设计中，在本申请实施例的第二方面的第二种实现方式中，

所述生成模块，具体用于对所述第一深度特征以及所述第二深度特征进行级联处理，得到所述目标时序特征，其中，所述目标时序特征为特征矩阵，所述第一深度特征以及所述第二深度特征均为特征向量。

在一种可能的设计中，在本申请实施例的第二方面的第三种实现方式中，

所述生成模块，具体用于基于第一尺度，对所述第一深度特征中的第一特征以及所述第二深度特征中的第二特征进行级联处理，得到所述第一目标时序特征，其中，所述第一目标时序特征为特征矩阵，所述第一特征以及所述第二特征均为特征向量，所述第一尺度属于所述P个尺度中的其中一个尺度；

基于第二尺度，对所述第一深度特征中的第一特征以及所述第二深度特征中的第二特征进行级联处理，得到所述第二目标时序特征，其中，所述第二目标时序特征为特征矩阵，所述第二尺度属于所述P个尺度中的另一个尺度，且所述第二尺度与所述第一尺度属于不同尺度。

在一种可能的设计中，在本申请实施例的第二方面的第四种实现方式中，

所述获取模块，具体用于基于所述目标时序特征，通过所述时序检测模型获取对象检测特征，其中，所述对象检测特征为特征向量；

根据所述对象检测特征生成所述对象检测结果，其中，所述对象检测结果包括在待检测区域中的对象出现概率、类别信息以及位置信息。

在一种可能的设计中，在本申请实施例的第二方面的第五种实现方式中，

所述获取模块，具体用于基于所述第一目标时序特征，通过所述时序检测模型获取第一对象检测特征，其中，所述第一对象检测特征为特征向量；

基于所述第二目标时序特征，通过所述时序检测模型获取第二对象检测特征，其中，所述第二对象检测特征为特征向量；

根据所述第一对象检测特征确定第一置信度；

根据所述第二对象检测特征确定第二置信度；

若所述第一置信度大于所述第二置信度，则根据所述第一对象检测特征生成所述对象检测结果，其中，所述对象检测结果包括在待检测区域中的对象出现概率、类别信息以及位置信息；

若所述第二置信度大于所述第一置信度，则根据所述第二对象检测特征生成所述对象检测结果。

在一种可能的设计中，在本申请实施例的第二方面的第六种实现方式中，

所述获取模块，还用于在所述获取模块基于所述目标时序特征，通过时序检测模型获取对象检测结果之后，若所述对象检测结果确定包括目标对象，则根据执行目标操作，以获取辅助操作结果。

在一种可能的设计中，在本申请实施例的第二方面的第七种实现方式中，所述对象检测装置还包括训练模块；

所述获取模块，还用于获取待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像携带真实标注信息；

所述获取模块，还用于基于所述待训练图像集合，通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息；

所述获取模块，还用于根据所述待训练图像的真实标注信息以及所述待训练图像的预测标注信息，计算得到第一损失函数；

训练模块，用于当所述第一损失函数收敛时，训练得到目标检测模型。

在一种可能的设计中，在本申请实施例的第二方面的第八种实现方式中，

所述获取模块，具体用于根据所述预测标注信息确定预测边界框的位置信息，其中，所述预测边界框的位置信息包括所述预测边界框的中心横坐标值、中心纵坐标值、高度值以及宽度值；

根据所述真实标注信息确定真实边界框的位置信息，其中，所述真实边界框的位置信息包括所述真实边界框的中心横坐标值、中心纵坐标值、高度值以及宽度值；

根据得到真实标注信息以及所述预测标注信息确定边框置信度；

根据所述预测标注信息确定预测类别；

根据所述真实标注信息确定真实类别；

基于所述预测边界框的位置信息、所述真实边界框的位置信息、所述边框置信度、所述预测类别以及所述真实类别，计算得到所述第一损失函数。

在一种可能的设计中，在本申请实施例的第二方面的第九种实现方式中，

所述获取模块，具体用于获取待处理视频，其中，所述待处理视频包括多帧待处理图像；

对所述待处理视频进行去重处理，得到所述待训练图像集合。

在一种可能的设计中，在本申请实施例的第二方面的第十种实现方式中，

获取所述待处理图像中待训练对象的对象尺寸；

若所述待训练对象的对象尺寸大于或等于尺寸阈值，则确定所述待处理图像为待训练图像。

在一种可能的设计中，在本申请实施例的第二方面的第十一种实现方式中，

所述获取模块，还用于获取待训练图像集合，其中，所述待训练图像集合包括多个待训练图像，所述待训练图像携带真实标注信息；

所述生成模块，还用于根据所述待训练图像集合生成待训练样本集合，其中，所述待训练样本集合包括至少一个待训练样本，所述待训练样本包括多个待训练图像；

所述获取模块，还用于基于所述生成模块生成的所述待训练样本集合，通过待训练时序检测模型获取所述待训练样本所对应的预测标注信息；

所述获取模块，还用于根据所述待训练样本的真实标注信息以及所述待训练图像的预测标注信息，计算得到第二损失函数；

所述训练模块，还用于当所述第二损失函数收敛时，训练得到时序检测模型。

本申请第三方面提供一种电子设备，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述第一方面中任一项所述的方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种对象检测的方法，首先获取图像集合，图像集合至少包括第一图像以及第二图像，然后基于图像集合，获取深度特征集合，再根据第一深度特征以及第二深度特征，生成待检测区域所对应的目标时序特征，最后基于目标时序特征，通过时序检测模型获取对象检测结果，该对象检测结果为第二图像中待检测区域的检测结果。通过上述方式，提取多帧相邻图像的深度特征，将相邻图像在同一区域的特征进行融合，得到具有时序性的目标时序特征，由于目标时序特征利用了多个图像的信息，因此，基于该目标时序特征预测得到的检测结果更准确，提升了检测精度。

附图说明

图1为本申请实施例中对象检测***的一个架构示意图；

图2A为本申请实施例中基于虚拟场景的一个显示尺度示意图；

图2B为本申请实施例中基于虚拟场景的另一个显示尺度示意图；

图3为本申请实施例中对象检测的方法一个实施例示意图；

图4为本申请实施例中目标检测网络的一个结构示意图；

图5为本申请实施例中时序检测网络的一个结构示意图；

图6为本申请实施例中基于多尺度提取的一个目标检测网络结构示意图；

图7为本申请实施例中基于三帧连续图像检测的一个时序检测网络结构示意图；

图8为本申请实施例中基于单尺度对象检测的一个实施例示意图；

图9为本申请实施例中基于多尺度对象检测的一个实施例示意图；

图10为本申请实施例中对象检测框架的一个流程示意图；

图11为本申请实施例中对象检测装置的一个实施例示意图；

图12为本申请实施例中对象检测装置的另一个实施例示意图；

图13为本申请实施例中终端设备的一个结构示意图；

图14为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的方法可以基于人工智能(Artificial Intelligence，AI)的计算机视觉技术(Computer Vision，CV)来实现对象的检测。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

应理解，本申请提供的对象检测方法可以应用于自动化测试场景，也可以应用于人机对战场景或智能队友辅助场景，还可以应用于智能演示场景等。以人机对战场景为例，机器可基于对象检测方法检测游戏画面中不同对象所在的位置，当检测到真实玩家所在位置时，即可向真实玩家发起攻击等操作。以智能队友辅助场景为例，机器可基于检测对象方法检测游戏画面中不同对象所在的位置，当检测到对方玩家所在位置，或非玩家角色(NonPlayer Character，NPC)所在位置时，即可向对方玩家或者NPC发起攻击等操作，从而达到辅助真实玩家的目的。以智能演示场景为例，机器可以基于于对象检测方法检测应用画面中不同按钮所在的位置，当检测到启动按钮时，向用户展示模拟点击启动按钮的操作，当检测到关闭按钮时，向用户展示模拟点击关闭按钮的操作。

下面将以自动化测试场景为例进行介绍，自动化测试可以针对不同类型的应用程序进行测试，包含但不仅限于交互式应用、即时通讯类应用以及视频类应用等。其中，交互式应用包含但不仅限于射击(Shooting Game，STG)游戏、多人在线战术竞技(MultiplayerOnline Battle Arena，MOBA)游戏、角色扮演(Role-playing game，RPG)游戏。通过自动化测试能够提升应用制作的效率，例如：减少规则和行为树的编码难度、测试游戏以及关卡生成等。对于游戏的自动化测试而言，一项重要的任务就是识别用户界面(User Interface，UI)中的不同对象，包括检测出对象的类型以及对象所在的位置等，基于检测结果执行相应的动作策略，即通过程序接口控制游戏的操作，从而模拟用户的行为。

为了便于理解，本申请提出了一种对象检测的方法，该方法应用于图1所示的对象检测***，请参阅图1，图1为本申请实施例中对象检测***的一个架构示意图，如图所示，首先需要训练得到检测模型，该检测模型包括两个部分，即目标检测模型以及时序检测模型，然后使用检测模型对图像进行检测和识别。目标检测模型的检测对象是单帧图像，时序检测模型的检测对象是多帧图像。在检测的过程中，可以分为两种实现方式，分别为在线检测和离线检测。下面将分别进行说明：在线检测时，目标检测模型以及时序检测模型均存储于服务器，客户端收集待检测图像之后，将待处理图像传输至服务器，由服务器采用目标检测模型以及时序检测模型对待检测图像进行检测，再将检测结果反馈至客户端，由客户端展示检测结果。离线检测时，目标检测模型以及时序检测模型均存储于终端设备本地，客户端收集待检测图像之后，将待处理图像输入至本地存储的检测模型中，从而得到输出的检测结果，客户端直接展示该检测结果。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

在STG游戏的自动化测试中，检测的目标对象会受到不同游戏场景的影响，为了便于介绍，请参阅图2A和图2B，图2A为本申请实施例中基于虚拟场景的一个显示尺度示意图，图2B为本申请实施例中基于虚拟场景的另一个显示尺度示意图，如图所示，图2A中目标对象(A1所指示的区域)的位置在画面右侧，图2B中目标对象(A2所指示的区域)的位置在画面左侧，且图2A中目标对象的尺度相对于图2B中目标对象的尺度而言较大。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

结合上述介绍，下面将对本申请中对象检测的方法进行介绍，请参阅图3，本申请实施例中对象检测的方法一个实施例包括：

101、获取图像集合，其中，图像集合至少包括第一图像以及第二图像，第一图像为第二图像的前一帧图像；

本实施例中，对象检测装置先获取图像集合，其中，图像集合包括多帧图像，即至少包括第一图像和第二图像，第一图像和第二待预测是前后两张相邻的图像。需要说明的是，本申请中的对象检测装置可以部署于终端设备，也可以部署于服务器，此次不做限定。

需要说明的是，图像集合还可以包括3帧待预测图像，或者其他数量的待预测图像，相邻两帧待预测图像的时间间隔可以是0.2秒，也可以设置其他的时间间隔，此处不做限定。

102、基于图像集合，获取深度特征集合，其中，深度特征集合包括第一深度特征以及第二深度特征，第一深度特征属于第一图像中待检测区域的深度特征，第二深度特征属于第二图像中待检测区域的深度特征；

本实施例中，对象检测装置将图像集合输入至目标检测模型中，由该目标检测模型输出深度特征集合。具体地，假设第一图像包括N个待检测区域，第二图像也包括R个待检测区域，R为大于或等于1的整数。将第一图像中的第k个待检测区域输入至目标检测模型，由目标检测模型输出第一深度特征。将第一图像中的第k个待检测区域输入至目标检测模型，由目标检测模型输出第一深度特征。第二图像中与第一图像对应的第k个待检测区域输入至目标检测模型，由目标检测模型输出第二深度特征。第一深度特征是指第一图像中从待检测区域提取到的抽象信息，表示为多维度的特征向量。第二深度特征是指第二图像中从待检测区域提取到的抽象信息，表示为多维度的特征向量。

为了便于理解，请参阅图4，图4为本申请实施例中目标检测网络的一个结构示意图，如图所示，以目标检测网络为你只看一次(You only look once，YOLO)网络为例，该YOLO网络可采用深度网络53(Darknet53)实现深度特征的提取，Darknet53是包含53层卷积层的深度网络。Darknet53深度网络可以更好地利用图形处理器(Graphics ProcessingUnit，GPU)，且采用的残差层数量较少。使得采用Darknet53深度网络进行预测的效率更高，速度更快。YOLO网络将输入图片进行栅格化处理，得到P*P个单元，每个单元为一个检测区域，需要检测的区域即为待检测区域。YOLO网络可以输出每个待检测区域的深度特征，深度特征即包含了待检测区域的抽象信息。其中，图4中的×2表示该结构重复了2次，×8分别表示该结构重复了8次。

需要说明的是，目标检测网络还可以是单次多框检测器(Single Shot MultiBoxDetector，SSD)、区域卷积神经网络(Region-Convolutional Neural Network，R-CNN)、快速区域卷积神经网络(Fast Region-Convolutional Neural Network，Fast R-CNN)以及更快区域卷积神经网络(Faster Region-Convolutional Neural Network，Faster R-CNN)，本申请以YOLO网络为例，然而这不应理解为对本申请的限定。

103、根据深度特征集合生成待检测区域所对应的目标时序特征；

本实施例中，对象检测装置根据第一深度特征以及第二深度特征，生成第k个待检测区域所对应的目标时序特征。假设第一深度特征为1×N维的特征向量，第二深度特征为1×N维的特征向量，那么目标时序特征为2×N的特征矩阵。可以理解的是，N表示维度。可以理解的是，目标时序特征表示相邻多帧图像对应的特征。

104、基于目标时序特征，通过时序检测模型获取对象检测结果，其中，对象检测结果为第二图像中待检测区域的检测结果。

本实施例中，对象检测装置将目标时序特征输入至时序检测模型，由该时序检测模型输出对象检测结果，该对象检测结果中包括第二图像中针对第k个待检测区域所对应的检测结果，检测结果包含但不仅限于目标对象出现的概率以及目标对象的类别等。

为了便于介绍，请参阅图5，图5为本申请实施例中时序检测网络的一个结构示意图，如图所示，在得到第n帧中第k个区域的深度特征以及第n+1帧中第k个区域的深度特征之后，将这两个深度特征进行级联处理，得到目标时序特征，将目标时序特征输入至时序检测网络，其中，该时序检测网络可以包括长短期记忆(long short term memory，LSTM)网络以及全连接层(Fully connected layer，FC layer)，LSTM网络是一种时间循环神经网络，FC层可以将特征矩阵转换为特征向量，比如得到1×M的特征向量，根据该1×M的特征向量得到第n+1帧中第k个区域所对应的检测结果。需要说明的是，级联处理表示将两个或两个以上的特征向量做合并处理，假设第一深度特征为1×N的特征向量，第二深度特征为1×N的特征向量，级联后得到2×N的目标时序特征，即得到2×N的特征矩阵。级联的时候可以将第一深度特征置于第二深度特征之前，也可以将第一深度特征置于第二深度特征之后，此处不做限定。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第一个可选实施例中，基于图像集合，获取深度特征集合，可以包括：

基于第一图像，通过目标检测模型获取第一深度特征，其中，第一深度特征包括待检测区域在P个尺度下的第一特征，P为大于或等于1的整数；

基于第二图像，通过目标检测模型获取第二深度特征，其中，第二深度特征包括待检测区域在P个尺度下的第二特征；

根据第一深度特征以及第二深度特征，生成深度特征集合。

本实施例中，介绍了一种基于多尺度的深度特征集合提取方式，对象检测装置将第一图像输入至目标检测模型，由目标检测模型输出第一深度特征，第一深度特征包括待检测区域在P个尺度下的第一特征。此外，对象检测装置还需要将第二图像输入至目标检测模型，由目标检测模型输出第二深度特征，第一深度特征包括待检测区域在P个尺度下的第二特征。

可以理解的是，多尺度包括P个尺度，当P等于1时，即为图像的初始尺度。当P大于1时，即需要对图像进行分割。具体地，假设P等于2，则表示图像被分割为2*2个待检测区域。假设P等于3，则表示图像被分割为3*3个待检测区域。以此类推，尺度越大，图像的待检测区域数量越多，且该图像中每个待检测区域所包括的图像特征越少。因此，基于多个尺度的特征提取，既有全局的整体信息，又有局部的详细信息，从而得到更全面的图像信息。

具体地，为了便于介绍，请参阅图6，图6为本申请实施例中基于多尺度提取的一个目标检测网络结构示意图，如图所示，目标检测网络采用特征金字塔网络(FeaturePyramid Networks，FPN)提取多个尺度，即包括尺度一、尺度二和尺度三，图6中的尺度个数仅为一个示意，不应理解为对本申请的限定。FPN是根据特征金字塔概念设计的特征提取器，待预测图像经过一系列的卷积以后得到特征图，对特征图进行上采样之后再还原回去,从而在保证高级语义信息没丢的情况下,使得特征图的尺寸增加大了，然后用大尺寸的特征图去检测小目标，从而解决小目标难以检测的问题。图6中的×2表示该结构重复了2次，×4表示该结构重复了4次，×8分别表示该结构重复了8次。

以第一图像为例，将第一图像输入至图6所示的目标检测模型，由该目标检测模型输出第一尺度下的第一特征、第二尺度下的第一特征以及第三尺度下的第一特征，这些第一特征均属于第一深度特征。类似地，将第二图像输入至图6所示的目标检测模型，由该目标检测模型输出第一尺度下的第二特征、第二尺度下的第二特征以及第三尺度下的第二特征，这些第二特征均属于第二深度特征。基于第一深度特征和第二深度特征得到深度特征集合。

其次，本申请实施例中，提供了一种基于多尺度的深度特征集合提取方式，即基于第一图像，通过目标检测模型获取P个尺度下的第一特征，并且基于第二图像，通过目标检测模型获取P个尺度下的第二特征，根据P个尺度下的第一特征和第二特征，生成深度特征集合。通过上述方式，能够提取图像中P个尺度下的特征，并且融合多个尺度的特征，从而增加图像信息的利用率，进而提升对象检测的准确度和可靠性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第二个可选实施例中，根据深度特征集合生成待检测区域所对应的目标时序特征，可以包括：

对第一深度特征以及第二深度特征进行级联处理，得到目标时序特征，其中，目标时序特征为特征矩阵，第一深度特征以及第二深度特征均为特征向量。

本实施例中，介绍了一种基于单尺度下的目标时序特征生成方式，在得到深度特征集合之后，可以将深度特征集合中的深度特征进行级联处理，即对第一深度特征以及第二深度特征进行级联处理，从而得到目标时序特征，这里的第一深度特征和第二深度特征均为待检测区域所对应的深度特征，且第一深度特征和第二深度特征都是特征向量，而级联后得到的目标时序特征属于特征矩阵。假设第一深度特征为第一图像中第k个待检测区域的深度特征，第二深度特征为第二图像中第k个待检测区域的深度特征，且假设第一深度特征为1×N的特征向量，第二深度特征为1×N的特征向量，级联后得到2×N的目标时序特征，即得到2×N的特征矩阵。

为了便于理解，下面将基于连续三帧待预测图像的预测方式进行说明，请参阅图7，图7为本申请实施例中基于三帧连续图像检测的一个时序检测网络结构示意图，如图所示，具体地，假设连续三帧待预测图像分为为第n帧图像、第n+1帧图像和第n+2帧图像，这三帧待预测图像均被分为R个待检测区域，这里同时对第k个待检测区域进行级联处理，得到第k个待检测区域所对应的目标时序特征。对于R个待检测区域而言，即可得到R个时序特征，这里以目标时序特征为例进行说明，然而这不应理解为对本申请的限定。

目标时序特征通过时序检测模型中的LSTM网络之后，得到特征矩阵，通过FC层将该特征矩阵转换为1×M的对象检测特征，基于对象检测特征检测得到第n+2帧图像中第k个待检测区域的检测结果，即得到对象检测结果。可以理解的是，对于R个待检测区域而言，即可得到R个对象检测特征，这里以第k个待检测区域所对应的对象检测特征为例进行说明，然而这不应理解为对本申请的限定。

其次，本申请实施例中，提供了一种基于单尺度下的目标时序特征生成方式，即对第一深度特征以及第二深度特征进行级联处理，得到目标时序特征，目标时序特征为特征矩阵，第一深度特征以及第二深度特征均为特征向量。通过上述方式，能够对单尺度下的多个深度特征进行特征融合处理，从而增加了特征量，得到具有多帧图像信息的时序特征，利用该时序特征作为模型的输入，能够预测得到更加准确的检测结果。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第三个可选实施例中，根据深度特征集合生成待检测区域所对应的目标时序特征，可以包括：

基于第一尺度，对第一深度特征中的第一特征以及第二深度特征中的第二特征进行级联处理，得到第一目标时序特征，其中，第一目标时序特征为特征矩阵，第一特征以及第二特征均为特征向量，第一尺度属于P个尺度中的一个尺度；

基于第二尺度，对第一深度特征中的第一特征以及第二深度特征中的第二特征进行级联处理，得到第二目标时序特征，其中，第二目标时序特征为特征矩阵，第二尺度属于P个尺度中的另一个尺度，且第二尺度与第一尺度属于不同尺度。

本实施例中，介绍了一种基于多尺度下的目标时序特征生成方式，在得到深度特征集合之后，可以将深度特征集合中的深度特征进行级联处理，即对第一深度特征以及第二深度特征进行级联处理，从而得到目标时序特征，这里的第一深度特征和第二深度特征均包括不同尺度下的深度特征。为了便于介绍，本申请以两个不同的尺度为例进行说明，即分别为第一尺度和第二尺度，第一深度特征中的第一特征和第二深度特征中的第二特征均属于特征向量。在第一尺度下，第一图像包括R1个待检测区域，第二图像也包括R1个待检测区域，将第一图像中第k个待检测区域所对应的第一特征与第二图像中第k个待检测区域所对应的第二特征进行级联处理。且假设第一特征为1×N的特征向量，第二特征为1×N的特征向量，级联后得到2×N的第一目标时序特征，即得到2×N的特征矩阵。其中，k为大于或等于1，且小于或等于R1的整数。

类似地，在第二尺度下，第一图像包括R2个待检测区域，第二图像也包括R2个待检测区域，将第一图像中第k个待检测区域所对应的第一特征与第二图像中第k个待检测区域所对应的第二特征进行级联处理。且假设第一特征为1×N的特征向量，第二特征为1×N的特征向量，级联后得到2×N的第二目标时序特征，即得到2×N的特征矩阵。其中，k为大于或等于1，且小于或等于R2的整数。

再次，本申请实施例中，提供了一种基于多尺度下的目标时序特征生成方式，即基于第一尺度，对第一深度特征中的第一特征以及第二深度特征中的第二特征进行级联处理，得到第一目标时序特征，并且基于第二尺度，对第一深度特征中的第一特征以及第二深度特征中的第二特征进行级联处理，得到第二目标时序特征。对第一深度特征以及第二深度特征进行级联处理，得到目标时序特征，目标时序特征为特征矩阵，第一深度特征以及第二深度特征均为特征向量。通过上述方式，能够对多尺度下的多个深度特征进行特征融合处理，增加了特征量，得到具有多帧图像信息的时序特征，利用该时序特征作为模型的输入，能够预测得到更加准确的检测结果。并且融合多个尺度的特征，还可以增加图像信息的利用率，进而提升对象检测的准确度和可靠性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第四个可选实施例中，通过时序检测模型获取对象检测结果，可以包括：

基于目标时序特征，通过时序检测模型获取对象检测特征，其中，对象检测特征为特征向量；

根据对象检测特征生成对象检测结果，其中，对象检测结果包括在待检测区域中的对象出现概率、类别信息以及位置信息。

本实施例中，介绍了一种基于单尺度下的对象检测结果生成方式，为了便于介绍，下面将结合图8进行说明，请参阅图8，图8为本申请实施例中基于单尺度对象检测的一个实施例示意图，如图所示，假设第一图像为图像A，第二图像为图像B，假设图像A为分割为3×3个待检测区域，图像B也为分割为3×3个待检测区域。首先提取图像A中的区域1的第一深度特征(1×N的特征向量)，以及提取图像B中的区域1的第二深度特征(1×N的特征向量)，然后将区域1的第一深度特征和第二深度特征进行级联处理，得到区域1所对应的目标时序特征(2×N的特征矩阵)，再将区域1所对应的目标时序特征输入至时序检测模型，从而得到区域1所对应的对象检测特征。根据对象检测特征确定对象检测结果，对象检测结果包括在区域1中的对象出现概率、类别信息以及位置信息，以图8为例，对象检测结果可以是对象出现概率为1，类别信息为“潜伏者”，位置信息包括中心横坐标值、中心纵坐标值、高度值以及宽度值，中心横坐标值x为50，中心纵坐标值y为70，高度值h为30，宽度值w为15。

类似地，提取图像A中的区域2的第一深度特征(1×N的特征向量)，以及提取图像B中的区域2的第二深度特征(1×N的特征向量)，然后将区域2的第一深度特征和第二深度特征进行级联处理，得到区域2所对应的目标时序特征(2×N的特征矩阵)，再将区域2所对应的目标时序特征输入至时序检测模型，从而得到区域2所对应的对象检测特征。根据对象检测特征确定对象检测结果，对象检测结果包括在区域2中的对象出现概率、类别信息以及位置信息。

进一步地，本申请实施例中，提供了一种基于单尺度下的对象检测结果生成方式，即基于目标时序特征，通过时序检测模型获取对象检测特征，然后根据对象检测特征生成对象检测结果。通过上述方式，能够直接使用单尺度下的对象检测特征，无需对对象检测特征进行二次处理，从而提升模型预测的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第五个可选实施例中，基于目标时序特征，通过时序检测模型获取对象检测结果，可以包括：

基于第一目标时序特征，通过时序检测模型获取第一对象检测特征，其中，第一对象检测特征为特征向量；

基于第二目标时序特征，通过时序检测模型获取第二对象检测特征，其中，第二对象检测特征为特征向量；

根据第一对象检测特征确定第一置信度；

根据第二对象检测特征确定第二置信度；

若第一置信度大于第二置信度，则根据第一对象检测特征生成对象检测结果，其中，对象检测结果包括在待检测区域中的对象出现概率、类别信息以及位置信息；

若第二置信度大于第一置信度，则根据第二对象检测特征生成对象检测结果。

本实施例中，介绍了一种基于多尺度下的对象检测结果生成方式，为了便于介绍，下面将结合图9进行说明，请参阅图9，图9为本申请实施例中基于多尺度对象检测的一个实施例示意图，如图所示，假设第一图像为图像A，第二图像为图像B，假设图像A具有两个尺度，第一尺度下图像A分割为3×3个待检测区域，第二尺度下图像A分割为4×4个待检测区域。图像A也具有两个尺度，第一尺度下图像B分割为3×3个待检测区域，第二尺度下图像B分割为4×4个待检测区域。

在第一尺度下，首先提取图像A中的区域1的第一特征(1×N的特征向量)，以及提取图像B中的区域1的第二特征(1×N的特征向量)，然后将区域1的第一特征和第二特征进行级联处理，得到区域1所对应的第一目标时序特征(2×N的特征矩阵)，再将区域1所对应的第一目标时序特征输入至时序检测模型，从而得到区域1所对应的第一对象检测特征。类似地，首先提取图像A中的区域2的第一特征(1×N的特征向量)，以及提取图像B中的区域2的第二特征(1×N的特征向量)，然后将区域2的第一特征和第二特征进行级联处理，得到区域2所对应的第一目标时序特征(2×N的特征矩阵)，再将区域2所对应的第一目标时序特征输入至时序检测模型，从而得到区域2所对应的第一对象检测特征，即得到对象检测特征A。

在第二尺度下，首先提取图像A中的区域3的第一特征(1×N的特征向量)，以及提取图像B中的区域3的第二特征(1×N的特征向量)，然后将区域3的第一特征和第二特征进行级联处理，得到区域3所对应的第二目标时序特征(2×N的特征矩阵)，再将区域3所对应的第二目标时序特征输入至时序检测模型，从而得到区域3所对应的第二对象检测特征。类似地，首先提取图像A中的区域4的第一特征(1×N的特征向量)，以及提取图像B中的区域4的第二特征(1×N的特征向量)，然后将区域4的第一特征和第二特征进行级联处理，得到区域4所对应的第二目标时序特征(2×N的特征矩阵)，再将区域4所对应的第二目标时序特征输入至时序检测模型，从而得到区域4所对应的第二对象检测特征，即得到对象检测特征B。

在得到第一对象检测特征和第二对象检测特征之后，可以采用非极大值抑制(Non-Maximum Suppression，NMS)方法选择一个对象检测特征来生成最终的对象检测结果。首先根据每个对象检测特征生成置信度的得分，然后根据置信度得分进行排序，选择置信度最高的边框(Bounding Box，BBox)，再遍历其余对象检测特征所对应的BBox，如果和当前最高分BBox的重叠面积(Intersection over Union，IoU)大于阈值，则将该对象检测特征所对应的BBox删除。最后从未处理的BBox中继续选一个得分最高的，重复上述过程，直至处理完所有对象检测特征所对应的BBox。

以第一对象检测特征和第二对象检测特征为例，获取第一对象检测特征的第一置信度和第二对象检测特征的第二置信度，以置信度较高的对象检测特征为准，生成对象检测结果，由此得到待检测区域中的对象出现概率、类别信息以及位置信息。

进一步地，本申请实施例中，提供了一种基于多尺度下的对象检测结果生成方式，即对于多尺度特征提取的情况会得到多个对象检测特征，分别计算不同对象检测特征所对应的置信度，最后根据置信度较大的对象检测特征生成对象检测结果。通过上述方式，能够去除冗余的检测结果，保留一个更为准确的检测结果作为最终的对象检测结果，从而提升对象检测的准确率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第六个可选实施例中，基于目标时序特征，通过时序检测模型获取对象检测结果之后，还可以包括：

若对象检测结果确定包括目标对象，则根据执行目标操作，以获取辅助操作结果。

本实施例中，介绍了一种结合对象检测结果进行辅助操作的方法，即根据对象检测结果确定是否存在目标对象，如果存在目标对象，则按照关联策略对目标对象执行目标操作，从而得到辅助操作结果。

为了便于介绍，请参阅图10，图10为本申请实施例中对象检测框架的一个流程示意图，如图所示，以对枪战游戏进行AI操作为例，具体地：

步骤S1中，录制枪战游戏的视频，从录制的视频中采集待训练图像；

步骤S2中，以工人标注的方式或者以机器自动标注的方式标注对象检测特征，标注的内容包含待训练图像中是否存在待训练对象以及待训练对象所在的位置信息等；

步骤S3中，基于标注好的注待训练图像训练YOLO网络；

步骤S4中，利用训练好的YOLO网络提取待预测图像的特征金字塔，得到P个尺度下的深度特征；

步骤S5中，将连续多帧对象检测特征的深度特征进行级联处理，得到时序特征，将时序特征输入至LSTM网络，由该LSTM网络输出对象检测特征；

步骤S6中，基于对象检测特征检测到战游戏中的目标对象；

步骤S7中，根据目标对象的类型以及位置等信息，辅助AI执行相应操作。为了便于说明，请参阅表1，表1为对象与操作之间关联策略的一个对应关系示意。

表1

对象	操作
		守卫者	与守卫者进行对话
潜伏者	使用普通技能攻击潜伏者
		小怪物	使用普通技能攻击小怪物
大怪物	使用法术技能攻击大怪物
		草丛	进行隐藏
铁匠	与铁匠进行对话

由此可见，目标对象属于其中一个对象，目标操作即为该对象对应的操作，可以理解的是，表1所示的关联策略仅为一个示意，不应理解为对本申请的限定。

其次，本申请实施例中，提供了一种结合对象检测结果进行辅助操作的方法，即若对象检测结果确定包括目标对象，则根据执行目标操作，以获取辅助操作结果。通过上述方式，可以采用提前指定的执行策略，针对输出的对象检测结果选择相应的目标操作，从而实现自动化测试或者人机对战等操作结果，提升方案的实用性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第七个可选实施例中，还可以包括：

获取待训练图像集合，其中，待训练图像集合包括至少一个待训练图像，待训练图像携带真实标注信息；

基于待训练图像集合，通过待训练目标检测模型获取待训练图像所对应的预测标注信息；

根据待训练图像的真实标注信息以及待训练图像的预测标注信息，计算得到第一损失函数；

当第一损失函数收敛时，训练得到目标检测模型。

本实施例中，介绍了一种目标检测模型的训练方法，在得到待训练图像集合之后，需要对待训练图像集合中的待训练图像进行标注，从而得到相应的真实标注信息。真实标注信息包括待训练对象的类别标签(比如守卫者标签或者潜伏者标签等)以及位置信息(比如左上角的横坐标、左上角的纵坐标、BBox的宽度以及BBox的高度)。得到真实标注信息之后，将待训练图像输入至待训练目标检测模型，由待训练目标检测模型输出待训练图像所对应的预测标注信息。具体地，以目标检测模型为YOLO网络模型为例，通过darknet53深度网络进行特征提取，然后，采用特征金字塔的方式提取不同尺度下各个区域的深度特征，其中，特征金字塔是一种常见的多尺度特征提取方法，将底层特征与高层特征进行融合，提升不同尺度特征的判别力。这里的深度特征是指通过卷积层输出的特征，用于预测目标对象的类别和位置。基于待训练图像的真实标注信息以及预测标注信息，计算得到第一损失函数，通过最小化第一损失函数，以减小目标对象的真实位置信息与预测位置信息之间差异，以及减小目标对象的真实类别与预测类别之间的差异，来优化模型参数。采用梯度后向传播的方式进行模型参数的更新，当第一损失函数收敛时，采用当前得到的模型参数训练得到目标检测模型。

更进一步地，本申请实施例中，提供了一种目标检测模型的训练方式，即先获取待训练图像集合，然后基于待训练图像集合，通过待训练目标检测模型获取待训练图像所对应的预测标注信息，再根据待训练图像的真实标注信息以及待训练图像的预测标注信息，计算得到第一损失函数，当第一损失函数收敛时，训练得到目标检测模型。通过上述方式，为目标检测模型的训练提供了具体的实现依据，从而增加了方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第八个可选实施例中，根据待训练图像的真实标注信息以及待训练图像的预测标注信息，计算得到第一损失函数，可以包括：

根据预测标注信息确定预测边界框的位置信息，其中，预测边界框的位置信息包括预测边界框的中心横坐标值、中心纵坐标值、高度值以及宽度值；

根据真实标注信息确定真实边界框的位置信息，其中，真实边界框的位置信息包括真实边界框的中心横坐标值、中心纵坐标值、高度值以及宽度值；

根据得到真实标注信息以及预测标注信息确定边框置信度；

根据预测标注信息确定预测类别；

根据真实标注信息确定真实类别；

基于预测边界框的位置信息、真实边界框的位置信息、边框置信度、预测类别以及真实类别，计算得到第一损失函数。

本实施例中，介绍了一种第一损失函数的计算方式。在获取预测标注信息和真实标注信息之后，需要根据预测标注信息获取预测边界框(BBox)的位置信息，并且根据真实标注信获取真实边界框的位置信息，位置信息包括中心横坐标值、中心纵坐标值、高度值以及宽度值。利用位置信息实现坐标的预测，边界框的预测可以使用维度聚类(dimensionclusters)的方法，训练的过程中使用平方误差损失的总和。

基于真实标注信息以及预测标注信息确定边框置信度，即使用维数聚类获得先验边界框，训练时使用均方误差损失函数。物体存在的置信度使用逻辑回归策略预测，当某个真实边界框与边界框的交叠比其他先验更多时，对应的边框置信度为1。若先验不是最好的，但交叠超出设定的阈值(如0.5)，就忽略这个预测。

基于真实类别以及预测类别，使用二元交叉熵损失来进行类别预，每个边界框使用多标签分类来预测边界框可能包含的类。下面将介绍一种第一损失函数：

其中，λ_coord表示第一系数，和λ_noobj表示第二系数，表示第i个网格中的第j个边界框是否对应目标对象，若对应，则

为1，反之，

为0，

表示第i个网格中的第j个边界框不对应目标对象。C表示边框置信度。w表示宽度值，h表示高度值，x表示中心横坐标值，y表示中心纵坐标值，P表示类别。

可以理解的是，本申请采用的目标检测网络可以是YOLO V3网络，YOLO V3网络可以在3个不同尺度上进行3种边界框预测，从而得到3个尺度所对应的9个聚类中心，分别为(10×13)、(16×30)、(33×23)、(30×61)、(62×45)、(59×119)、(116×90)、(156×198)以及(373×326)。

再进一步地，本申请实施例中，提供了一种第一损失函数的计算方式，即根据预测边界框的位置信息和真实边界框的位置信息，确定边框置信度，结合预测类别和真实类别共同计算得到第一损失函数。通过上述方式，能够为方案的实现提供具体依据，从而有利于方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第九个可选实施例中，获取待训练图像集合，可以包括：

获取待处理视频，其中，待处理视频包括多帧待处理图像；

对待处理视频进行去重处理，得到待训练图像集合。

本实施例中，介绍了一种获取待训练图像的方式，具体地，首先可以获取录制的待处理视频，其中，该待处理视频可以是针对交互式应用录制的视频，例如，玩家在枪战游戏过程中录制的视频。待处理视频包括多帧待处理图像，假设每间隔1秒采集一帧处理图像，那么2分钟的待处理视频包括120帧的待处理图像。采集完成后，可以人工筛选样本作为待训练图像，也可以由设备自动筛选得到待训练图像。筛选的规则是去除冗余的图像，如果是人工筛选冗余图像，则可以对每个场景选择若干张图像，相同场景内的待训练图像不超过Q张，Q为大于或等于1的整数。如果是设备自动筛选冗余图像，则可以计算相邻两帧图像之间的相似度，如果相似度高于相似度阈值，则执行去重处理，如果相似度低于或等于相似度阈值，则将该帧待处理图像作为待训练图像。

例如，待处理图像A与待处理图像B的相似度高于相似度阈值，则去除待处理图像A，然后将待处理图像B与待处理图像C进行相似度比对，假设待处理图像B与待处理图像C的相似度低于或等相似度阈值，则将待处理图像B确定为待训练图像，而待训练图像C进入后续的相似度比对流程，此次不做赘述。

又进一步地，本申请实施例中，提供了一种获取待训练图像的方式，即先获取待处理视频，待处理视频包括多帧待处理图像，然后对待处理视频进行去重处理，得到待训练图像集合。通过上述方式，可以去除冗余的图像，在实际训练的过程中采用的图像更具有更多的特征，从而防止模型过拟合，提供模型训练的可靠性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第十个可选实施例中，获取待训练图像集合，可以包括：

获取待处理视频，其中，待处理视频包括多帧待处理图像；

获取待处理图像中待训练对象的对象尺寸；

若待训练对象的对象尺寸大于或等于尺寸阈值，则确定待处理图像为待训练图像。

本实施例中，本实施例中，还介绍了一种获取待训练图像的方式，具体地，首先可以获取录制的待处理视频，该待处理视频可以是针对交互式应用录制的视频。采集完成后，可以人工筛选样本作为待训练图像，也可以由设备自动筛选得到待训练图像。筛选的规则是去除目标面积过小的图像，对于人工筛选待训练图像的情况而言，可以判断每帧待处理图像中的待训练对象(例如NPC以及障碍物等)的尺寸是否过小，如果待训练对象的尺寸过小，则将该帧待处理图像剔除，如果待训练对象的尺寸合适，则将该帧待处理图像作为待训练图像。

对于设备自动筛选待训练图像的情况而言，可以提取待处理图像中每个待训练对象的对象尺寸，其中，对象尺寸可以采用像素表示，例如10*10，或者5*50，将提取到的每个待训练对象的对象尺寸与尺寸阈值进行比对，如果待训练对象的对象尺寸大于或等于尺寸阈值，则确定该帧待处理图像作为待训练图像。如果待训练对象的对象尺寸小于尺寸阈值，则将该帧待处理图像剔除。可以理解的是，尺寸阈值可以是整个待处理图像面积的1/400，在实际应用中，还可以设定其他的尺寸阈值，此次不做限定。

又进一步地，本申请实施例中，提供了另一种获取待训练图像的方式，即先获取待处理视频，然后获取待处理图像中待训练对象的对象尺寸，若待训练对象的对象尺寸大于或等于尺寸阈值，则确定待处理图像为待训练图像。通过上述方式，可以去除目标面积过小的图像，从而减小模型训练难度，防止模型难以收敛。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的对象控制的方法第十一个可选实施例中，还可以包括：

获取待训练图像集合，其中，待训练图像集合包括多个待训练图像，待训练图像携带真实标注信息；

根据待训练图像集合生成待训练样本集合，其中，待训练样本集合包括至少一个待训练样本，待训练样本包括多个待训练图像；

基于待训练样本集合，通过待训练时序检测模型获取待训练样本所对应的预测标注信息；

根据待训练样本的真实标注信息以及待训练图像的预测标注信息，计算得到第二损失函数；

当第二损失函数收敛时，训练得到时序检测模型。

本实施例中，介绍了一种时序检测模型的训练方法，在得到待训练图像集合之后，需要对待训练图像集合中的待训练图像进行标注，从而得到相应的真实标注信息。真实标注信息包括待训练对象的类别标签(比如守卫者标签或者潜伏者标签等)以及位置信息(比如左上角的横坐标、左上角的纵坐标、BBox的宽度以及BBox的高度)。得到真实标注信息之后，将连续的多帧待训练图像作为一个待训练样本，多个待训练样本构成待训练样本集合。接下来，将待训练样本输入至待训练时序检测模型，具体地，通过深度网络提取图像不同区域的深度特征，将相邻图像对应区域的深度特征输入待训练时序检测模型(如LSTM深度网络)中，由待训练时序检测模型输出预测标注信息，预测标注信息包括每个区域内包含的目标对象出现的概率、目标所属的类别信息以及目标对象所在边界框的位置信息等。根据待训练样本的真实标注信息以及待训练图像的预测标注信息，计算得到第二损失函数，可以理解的是，第二损失函数可以是smooth-L1损失函数，也可以是其他类型的损失函数，此次不做限定。

通过最小化第二损失函数，以减小目标对象的真实位置信息与预测位置信息之间差异，以及减小目标对象的真实类别与预测类别之间的差异，来优化模型参数。通过第二损失函数计算梯度，根据梯度可以通过梯度后向传递的方法计算模型参数的梯度，最后更新模型参数，当第二损失函数收敛时，采用当前得到的模型参数训练得到时序检测模型。

再进一步地，本申请实施例中，提供了一种时序检测模型的训练方式，即先获取待训练图像集合，然后根据待训练图像集合生成待训练样本集合，再基于待训练样本集合，通过待训练时序检测模型获取待训练样本所对应的预测标注信息，最后根据待训练样本的真实标注信息以及待训练图像的预测标注信息，计算得到第二损失函数，当第二损失函数收敛时，训练得到时序检测模型。通过上述方式，为时序检测模型的训练提供了具体的实现依据，从而增加了方案的可行性和可操作性。

为了便于介绍，下面将结合一个具体场景对本申请提供的方案进行介绍，以枪战游戏为例进行说明。首先，客户端获取多帧连续的图像，假设为图像1和图像2，图像1和图像2间隔0.2秒。接下来，将图像1和图像2输入至目标检测模型，通过目标检测模型提取到图像1的深度特征和图像2的深度特征。假设图像1中待检测区域的深度特征为1×N的特征向量，图像2中待检测区域的深度特征也为1×N的特征向量，将这这两个特征向量进行级联处理，得到2×N的目标时序特征。再将目标时序特征输入至时序检测模型，由此输出对象检测特征。假设该对象检测特征表示为(0.8，0.1，0.2，0.7，50，70，30，15)。其中，0.8表示出现目标对象的概率，由于0.8大于0.5，因此，图像2中存在目标对象。0.1表示该目标对象为障碍物的概率，0.2表示该目标对象为守卫者的概率，0.7表示该目标对象为潜伏者的概率。由于0.7大于0.2，且大于0.1，因此，该目标对象为潜伏者。50表示目标对象的中心横坐标值，70表示目标对象的中心纵坐标值，30表示目标对象的高度值，15表示目标对象的宽度值。

基于对象检测特征得到对象检测结果，该对象检测结果为图像2中存在目标对象，该目标对象的类别信息为“潜伏者”，“潜伏者”在图像2中采用BBox表示，BBox的中心横坐标值为50像素，BBox的中心纵坐标值为70像素，BBox的高度值为30，BBox的宽度值为15。由此识别到枪战游戏中的目标对象。

下面对本申请中的对象检测装置进行详细描述，请参阅图11，图11为本申请实施例中对象检测装置一个实施例示意图，对象检测装置20包括：

获取模块201，用于获取图像集合，其中，所述图像集合至少包括第一图像以及第二图像，所述第一图像为所述第二图像前一帧图像；

所述获取模块201，还用于基于所述图像集合，获取深度特征集合，其中，所述深度特征集合包括第一深度特征以及第二深度特征，所述第一深度特征属于所述第一图像中待检测区域的深度特征，所述第二深度特征属于所述第二图像中待检测区域的深度特征；

生成模块202，用于根据所述获取模块201获取的所述深度特征集合生成所述待检测区域所对应的目标时序特征；

所述获取模块201，还用于基于所述生成模块202生成的所述目标时序特征，通过时序检测模型获取对象检测结果，其中，所述对象检测结果为所述第二图像中待检测区域的检测结果。

可选地，在上述图11所对应的实施例的基础上，本申请实施例提供的对象检测装置20的另一实施例中，

所述获取模块201，具体用于基于所述第一图像，通过所述目标检测模型获取所述第一深度特征，其中，所述第一深度特征包括所述待检测区域在P个尺度下的第一特征，所述P为大于或等于1的整数；

基于所述第二图像，通过所述目标检测模型获取所述第二深度特征，其中，所述第二深度特征包括所述待检测区域在P个尺度下的第二特征；

所述生成模块202，具体用于对所述第一深度特征以及所述第二深度特征进行级联处理，得到所述目标时序特征，其中，所述目标时序特征为特征矩阵，所述第一深度特征以及所述第二深度特征均为特征向量。

所述生成模块202，具体用于基于第一尺度，对所述第一深度特征中的第一特征以及所述第二深度特征中的第二特征进行级联处理，得到所述第一目标时序特征，其中，所述第一目标时序特征为特征矩阵，所述第一特征以及所述第二特征均为特征向量，所述第一尺度属于所述P个尺度中的一个尺度；

所述获取模块201，具体用于基于所述目标时序特征，通过所述时序检测模型获取对象检测特征，其中，所述对象检测特征为特征向量；

所述获取模块201，具体用于基于所述第一目标时序特征，通过所述时序检测模型获取第一对象检测特征，其中，所述第一对象检测特征为特征向量；

根据所述第一对象检测特征确定第一置信度；

根据所述第二对象检测特征确定第二置信度；

所述获取模块201，还用于在基于所述目标时序特征，通过时序检测模型获取对象检测结果之后，若所述对象检测结果确定包括目标对象，则根据执行目标操作，以获取辅助操作结果。

可选地，在上述图11所对应的实施例的基础上，请参阅图12，本申请实施例提供的对象检测装置20的另一实施例中，所述对象检测装置20还包括训练模块203；

所述获取模块201，还用于获取待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像携带真实标注信息；

所述获取模块201，还用于基于所述待训练图像集合，通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息；

所述获取模块201，还用于根据所述待训练图像的真实标注信息以及所述待训练图像的预测标注信息，计算得到第一损失函数；

训练模块203，用于当所述第一损失函数收敛时，训练得到目标检测模型。

可选地，在上述图11或图12所对应的实施例的基础上，本申请实施例提供的对象检测装置20的另一实施例中，

所述获取模块201，具体用于根据所述预测标注信息确定预测边界框的位置信息，其中，所述预测边界框的位置信息包括所述预测边界框的中心横坐标值、中心纵坐标值、高度值以及宽度值；

根据所述预测标注信息确定预测类别；

根据所述真实标注信息确定真实类别；

所述获取模块201，具体用于获取待处理视频，其中，所述待处理视频包括多帧待处理图像；

获取所述待处理图像中待训练对象的对象尺寸；

所述获取模块201，还用于获取待训练图像集合，其中，所述待训练图像集合包括多个待训练图像，所述待训练图像携带真实标注信息；

所述生成模块202，还用于根据所述获取模块201获取的所述待训练图像集合生成待训练样本集合，其中，所述待训练样本集合包括至少一个待训练样本，所述待训练样本包括多个待训练图像；

所述获取模块201，还用于基于所述生成模块202生成的所述待训练样本集合，通过待训练时序检测模型获取所述待训练样本所对应的预测标注信息；

所述获取模块201，还用于根据所述待训练样本的真实标注信息以及所述待训练图像的预测标注信息，计算得到第二损失函数；

所述训练模块203，还用于当所述第二损失函数收敛时，训练得到时序检测模型。

本申请实施例还提供了另一种对象检测装置，如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图13中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；可选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，可选的，电源可以通过电源管理***与处理器380逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器380还具有以下功能：

获取图像集合，其中，所述图像集合至少包括第一图像以及第二图像，所述第一图像为所述第二图像前一帧图像；

可选地，处理器380具体用于执行如下步骤：

基于所述第一图像，通过所述目标检测模型获取所述第一深度特征，其中，所述第一深度特征包括所述待检测区域在P个尺度下的第一特征，所述P为大于或等于1的整数；

可选地，处理器380具体用于执行如下步骤：

对所述第一深度特征以及所述第二深度特征进行级联处理，得到所述目标时序特征，其中，所述目标时序特征为特征矩阵，所述第一深度特征以及所述第二深度特征均为特征向量。

可选地，处理器380具体用于执行如下步骤：

基于第一尺度，对所述第一深度特征中的第一特征以及所述第二深度特征中的第二特征进行级联处理，得到所述第一目标时序特征，其中，所述第一目标时序特征为特征矩阵，所述第一特征以及所述第二特征均为特征向量，所述第一尺度属于所述P个尺度中的一个尺度；

可选地，处理器380具体用于执行如下步骤：

基于所述目标时序特征，通过所述时序检测模型获取对象检测特征，其中，所述对象检测特征为特征向量；

可选地，处理器380具体用于执行如下步骤：

基于所述第一目标时序特征，通过所述时序检测模型获取第一对象检测特征，其中，所述第一对象检测特征为特征向量；

根据所述第一对象检测特征确定第一置信度；

根据所述第二对象检测特征确定第二置信度；

可选地，处理器380还用于执行如下步骤：

若所述对象检测结果确定包括目标对象，则根据执行目标操作，以获取辅助操作结果。

图14是本发明实施例提供的一种服务器结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作***441，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 422还具有以下功能：

可选地，CPU 422还用于执行如下步骤：

获取待训练图像集合，其中，所述待训练图像集合包括至少一个待训练图像，所述待训练图像携带真实标注信息；

基于所述待训练图像集合，通过待训练目标检测模型获取所述待训练图像所对应的预测标注信息；

根据所述待训练图像的真实标注信息以及所述待训练图像的预测标注信息，计算得到第一损失函数；

当所述第一损失函数收敛时，训练得到目标检测模型。

可选地，CPU 422具体用于执行如下步骤：

根据所述预测标注信息确定预测边界框的位置信息，其中，所述预测边界框的位置信息包括所述预测边界框的中心横坐标值、中心纵坐标值、高度值以及宽度值；

根据所述预测标注信息确定预测类别；

根据所述真实标注信息确定真实类别；

可选地，CPU 422具体用于执行如下步骤：

获取待处理视频，其中，所述待处理视频包括多帧待处理图像；

可选地，CPU 422具体用于执行如下步骤：

获取所述待处理图像中待训练对象的对象尺寸；

可选地，CPU 422还用于执行如下步骤：

获取待训练图像集合，其中，所述待训练图像集合包括多个待训练图像，所述待训练图像携带真实标注信息；

根据所述待训练图像集合生成待训练样本集合，其中，所述待训练样本集合包括至少一个待训练样本，所述待训练样本包括多个待训练图像；

基于所述待训练样本集合，通过待训练时序检测模型获取所述待训练样本所对应的预测标注信息；

根据所述待训练样本的真实标注信息以及所述待训练图像的预测标注信息，计算得到第二损失函数；

当所述第二损失函数收敛时，训练得到时序检测模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对象检测的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像集合，获取深度特征集合，包括：

基于所述第一图像，通过目标检测模型获取所述第一深度特征，其中，所述第一深度特征包括所述待检测区域在P个尺度下的第一特征，所述P为大于或等于1的整数；

3.根据权利要求1所述的方法，其特征在于，所述根据所述深度特征集合生成所述待检测区域所对应的目标时序特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述深度特征集合生成所述待检测区域所对应的目标时序特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标时序特征，通过时序检测模型获取对象检测结果，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述目标时序特征，通过时序检测模型获取对象检测结果，包括：

根据所述第一对象检测特征确定第一置信度；

根据所述第二对象检测特征确定第二置信度；

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标时序特征，通过时序检测模型获取对象检测结果之后，所述方法还包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

当所述第一损失函数收敛时，训练得到目标检测模型。

9.根据权利要求8所述的方法，其特征在于，所述根据所述待训练图像的真实标注信息以及所述待训练图像的预测标注信息，计算得到第一损失函数，包括：

根据所述预测标注信息确定预测类别；

根据所述真实标注信息确定真实类别；

10.根据权利要求8所述的方法，其特征在于，所述获取待训练图像集合，包括：

11.根据权利要求8或所述的方法，其特征在于，所述获取待训练图像集合，包括：

获取所述待处理图像中待训练对象的对象尺寸；

12.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

当所述第二损失函数收敛时，训练得到时序检测模型。

13.一种对象检测装置，其特征在于，包括：

获取模块，用于获取图像集合，其中，所述图像集合至少包括第一图像以及第二图像，所述第一图像为所述第二图像前一帧图像；

14.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至12中任一项所述的方法；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的方法。