CN115496911A - 一种目标点检测方法、装置、设备及存储介质 - Google Patents

一种目标点检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115496911A
CN115496911A CN202211418471.5A CN202211418471A CN115496911A CN 115496911 A CN115496911 A CN 115496911A CN 202211418471 A CN202211418471 A CN 202211418471A CN 115496911 A CN115496911 A CN 115496911A
Authority
CN
China
Prior art keywords
target
point detection
target point
network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211418471.5A
Other languages
English (en)
Other versions
CN115496911B (zh
Inventor
崔宪坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211418471.5A priority Critical patent/CN115496911B/zh
Publication of CN115496911A publication Critical patent/CN115496911A/zh
Application granted granted Critical
Publication of CN115496911B publication Critical patent/CN115496911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标点检测方法、装置、设备及存储介质,本申请实施例涉及计算机视觉技术领域。具体的,该方法包括:获取目标场景类别下的待检测图像对应的初始热图;将初始热图分别输入多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定的,每个目标点检测网络对应的目标图像尺寸与网络结构参数呈负相关;基于多个目标点检测网络各自对应的目标热图,对待检测图像中的多个待检测目标进行位置预测,得到多个待检测目标对应的目标点位置信息。利用本申请的技术方案,可以在低耗条件下,提高对多尺寸目标的检测精度。

Description

一种目标点检测方法、装置、设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种目标点检测方法、装置、设备及存储介质。
背景技术
机器视觉检测是一种通过计算机视觉技术来进行图像目标检测的方法,机器视觉检测中的多尺寸目标点检测方法一般通过预测目标点来定位目标。
现有的目标点检测方法,在低处理能力硬件且需要实时运行环境的应用场景中,通常直接对现有检测模型做模型裁剪,即通过减少网络结构中的参数数量来降低耗能,虽然达到了降低耗能的效果,同时也降低了模型检测精度;此外,现有检测模型在多尺寸目标检测任务中,往往对不同尺寸的目标采用相同的一种处理方式,无法同时满足多尺寸目标的检测精度要求。
发明内容
本申请提供了一种目标点检测方法、装置、设备及存储介质,可以通过对不同尺寸的目标设置不同的网络结构参数和不同的热图输出尺寸,在保证网络低耗运行的条件下,提高多尺寸目标点检测的精度,本申请技术方案如下:
一方面,提供了一种目标点检测方法,所述方法包括:
获取目标场景类别下的待检测图像对应的初始热图,所述待检测图像包含有目标物尺寸不同的多个待检测目标;
将所述初始热图分别输入所述目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和所述每个目标点检测网络对应的目标图像尺寸确定的,所述每个目标点检测网络对应的目标图像尺寸与所述每个目标点检测网络对应的网络结构参数呈负相关,所述每个目标点检测网络各自对应的目标图像尺寸是基于所述目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
基于所述多个目标点检测网络各自对应的目标热图,对所述多个待检测目标进行位置预测,得到所述多个待检测目标对应的目标点位置信息。
另一方面,提供了一种目标点检测装置,所述装置包括:
初始热图获取模块,用于获取目标场景类别下的待检测图像对应的初始热图,所述待检测图像包含有目标物尺寸不同的多个待检测目标;
目标点检测模块,用于将所述初始热图分别输入所述目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和所述每个目标点检测网络对应的目标图像尺寸确定的,所述每个目标点检测网络对应的目标图像尺寸与所述每个目标点检测网络对应的网络结构参数呈负相关,所述每个目标点检测网络各自对应的目标图像尺寸是基于所述目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
位置预测模块,用于基于所述多个目标点检测网络各自对应的目标热图,对所述多个待检测目标进行位置预测,得到所述多个待检测目标对应的目标点位置信息。
另一方面,提供了一种目标点检测设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的目标点检测方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的目标点检测方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如第一方面所述的目标点检测方法。
本申请提供的一种目标点检测方法、装置、设备及存储介质,具有如下技术效果:
本申请在对多尺寸目标进行目标点检测的应用场景中,基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定目标场景类别对应的多个目标点检测网络各自对应的目标图像尺寸,并基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定每个目标点检测网络对应的网络结构参数,使得每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关,可以在限制网络计算量的情况下,对大目标设置较小的输出热图尺寸和较大的网络结构参数,以获得更好的全局视野信息,对小目标设置较大的输出热图尺寸和较小的网络结构参数,以提高局部细节信息的表达,然后将该目标场景类别下的待检测图像对应的初始热图输入该多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,通过对不同尺寸的目标设置不同的网络结构参数和不同的热图输出尺寸,可以在保证网络低耗运行的条件下,提高多尺寸目标点检测的精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种目标点检测方法的流程示意图;
图3是本申请实施例提供的一种将待检测图像输入热图生成网络进行热图生成,得到初始热图的流程示意图;
图4是本申请实施例提供的一种热图生成网络的网络结构示意图;
图5是本申请实施例提供的一种每个目标点检测网络对应的目标图像尺寸的确定方法的流程示意图;
图6是本申请实施例提供的一种基于目标物尺寸比例信息,确定每个目标点检测网络对应的下采样倍数的流程示意图;
图7是本申请实施例提供的一种多个目标点检测网络的结构示意图;
图8是本申请实施例提供的一种将初始热图分别输入目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图的流程示意图;
图9是本申请实施例提供的一种多个目标点检测网络训练方法的流程示意图;
图10是本申请实施例提供的一种多尺寸目标点检测网络的整体框架图;
图11是本申请实施例提供的一种目标点检测装置的组成框图;
图12是本申请实施例提供的一种目标点检测设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为便于对本申请实施例的理解,下面先对几个概念进行简单介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
深度学习是一种通过人工神经网络为架构,对数据进行表征学习的方法。与传统的基于先验知识,基于构建规则的方法不同,它是一种数据驱动下的算法,通过对海量数据的学习,自动挖掘深层鲁邦特征,从而形成从输入到输出的自动计算过程,不需要人工参与。
机器视觉检测是一种通过计算机视觉技术对图像中的目标进行位置预测的方法,这里机器视觉检测的应用场景包括但不限于目标检测,实体分割和人体姿态检测等。
人体姿态检测是一种计算机视觉任务,可以通过摄像头和计算机处理来检测人体关键点。
热图是在二维空间或多维空间中对数据可视化的技术,通过空间中的数据大小来展示目标在空间中的位置信息和相关关系。具体的,数据大小的可视化可以通过图像像素点的明暗来表现。
目标点是用于标记目标位置的点,通常由多个目标点标记出目标的位置和形态,在机器视觉检测中一般通过预测目标点来定位目标。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,该应用环境中可以包括客户端10和服务器端20,客户端10和服务器端20可以通过无线通信方式进行间接地连接。客户端10向服务器端20发送目标点检测指令,服务器端20响应于目标点检测指令,获取目标场景类别下的待检测图像对应的初始热图,待检测图像包含有目标物尺寸不同的多个待检测目标,然后将初始热图分别输入目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定的,每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关,每个目标点检测网络各自对应的目标图像尺寸是基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的,再基于多个目标点检测网络各自对应的目标热图,对多个待检测目标进行位置预测,得到多个待检测目标对应的目标点位置信息,并将目标点位置信息返回客户端10。需要说明的是,图1仅仅是一种示例。
客户端可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、车载终端等类型的实体设备,也可以是运行于实体设备中的软体,比如计算机程序。第一客户端所对应的操作***可以是安卓***(Android***)、iOS***(是由苹果公司开发的移动操作***)、Linux***(一种操作***)、Microsoft Windows***(微软视窗操作***)等。
服务器端可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。
上述客户端10和服务器端20可以用于构建一个有关目标点检测的***,该***可以是分布式***。以分布式***为区块链***为例,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,Peer ToPeer)网络,P2P 协议是一个运行在传输控制协议(TCP,Transmission Control Protocol )协议之上的应用层协议。在分布式***中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作***层和应用层。
上述区块链***中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链***中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链***中节点提交的记录数据。
需要说明的是,本申请提供的目标点检测方法既可以应用在客户端,也可以应用在服务器端,并不以上述应用环境的实施例为限。
以下介绍本申请提供的一种目标点检测方法的具体实施例,图2是本申请实施例提供的一种目标点检测方法的流程示意图,本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的,如图2所示,所述方法可以包括:
S201,获取目标场景类别下的待检测图像对应的初始热图,待检测图像包含有目标物尺寸不同的多个待检测目标。
在本说明书实施例中,目标场景类别可以为存在多目标点检测需求的场景类别,例如,目标场景类别可以包括:人体姿态检测、自动驾驶障碍物检测、肿瘤图像分割等。
在本说明书实施例中,待检测图像可以包含有目标物尺寸不同的多个待检测目标,具体的,目标物尺寸可以表征待检测目标对应目标物类别的实际目标物的尺寸大小。
在本说明书实施例中,初始热图可以用于表征待检测图像的图像特征信息。
在一个具体的实施例中,在待检测图像包含有多个待检测目标的情况下,初始热图可以表征待检测图像中多个待检测目标的位置关系和特征信息。
在一个具体的实施例中,初始热图可以包括多张局部热图,每一局部热图可以表征待检测图像对应局部图像的图像特征信息。
在一个具体的实施例中,上述获取目标场景类别下的待检测图像对应的初始热图可以包括:
1)获取待检测图像;
2)将待检测图像输入热图生成网络进行热图生成,得到初始热图。
具体的,热图生成网络可以用来提取待检测图像的图像特征信息,该图像特征信息一般具有泛化性,主要用来过滤图像中和待检测目标不相关的信息,提高图像中和待检测目标相关的信息的显著性。
由以上实施例可见,通过热图生成网络生成初始热图,来提高图像中和待检测目标相关的信息的显著性。
在一个具体的实施例中,上述热图生成网络包括:深度可分离卷积网络、特征拼接网络和通道重组网络,如图3所示,上述将待检测图像输入热图生成网络进行热图生成,得到初始热图可以包括:
S301,基于深度可分离卷积网络,对待检测图像进行特征提取,得到多个通道维度的初始特征图。
具体的,深度可分离卷积网络可以为一种对空间维度和通道维度进行拆分的卷积神经网络。这里的空间维度包括图像的宽度和高度。
具体的,初始特征图可以表征对应通道维度的图像特征信息。在实际应用中,待检测图像的多个图像通道维度与深度可分离卷积网络的多个卷积通道维度一一对应,因此,这里的通道维度可以指图像通道维度,也可以指卷积通道维度。
S302,基于特征拼接网络,分别对多个通道维度的初始特征图与待检测图像进行特征拼接,得到多个拼接特征图。
具体的,特征拼接网络可以将每个通道维度的初始特征图分别与待检测图像进行特征融合,这样既可以通过卷积操作提取图像特征信息,又通过融合待检测图像保持信息的完整性。
S303,基于通道重组网络,对多个拼接特征图进行通道重组,得到初始热图。
具体的,通道重组网络通过将不同通道的图像特征信息进行重新排序,进而在后续计算操作中做到通道间的信息交互。
参见图4,图4是本申请实施例提供的一种热图生成网络的网络结构示意图。图4中的热图生成网络可以包括:深度可分离卷积网络、特征拼接网络和通道重组网络。
具体的,这里的深度可分离卷积网络可以包括:第一1×1卷积层、3×3深度可分离卷积层和第二1×1卷积层。第一1×1卷积层和第二1×1卷积层的卷积核为1×1的卷积算子,主要用来做模型通道维度调整和跨通道间的信息交互;3×3深度可分离卷积层的卷积核为3×3的分层卷积算子,主要用来做单通道内热图的特征提取。深度可分离卷积网络通过1×1卷积层和3×3深度可分离卷积层来代替普通的卷积操作,在相同效果下,计算量可以下降到普通卷积的1/3。
具体的,图4所示的热图生成网络的网络结构仅为本申请提供的一种示意性网络结构,本申请并不以此为限。
由以上实施例可见,使用深度可分离网络结构和通道重组结构,来减少网络的计算量,进一步降低目标点检测过程的耗时和耗能。
S202,将初始热图分别输入目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定的,每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关,每个目标点检测网络各自对应的目标图像尺寸是基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的。
在本说明书实施例中,目标场景类别对应的多个目标点检测网络可以用于检测目标场景类别下的多尺寸目标。每个目标点检测网络可以对与目标检测尺寸信息对应的特定目标物类别的目标进行检测,并输出目标图像尺寸的目标热图。具体的,目标检测尺寸信息可以表征对应目标点检测网络可检测的目标物的尺寸范围,特定目标物类别可以为多个目标物类别中对应目标物尺寸在该尺寸范围内的目标物类别。
在一个具体的实施例中,每个目标点检测网络可以为基于样本目标图像对应的初始热图进行目标检测训练后得到的目标点检测网络,这里的样本目标图像可以为包含有每个目标点检测网络对应的特定目标物类别的样本目标的图像。
在本说明书实施例中,待检测图像可以包含有多个待检测目标,目标热图可以表征与目标检测尺寸信息对应的特定目标物类别的待检测目标在待检测图像中的位置关系和特征信息。
在本说明书实施例中,目标图像尺寸可以表征对应目标热图的尺寸大小,目标检测尺寸信息与目标图像尺寸存在一一对应关系。
在一个具体的实施例中,如图5所示,每个目标点检测网络对应的目标图像尺寸的确定方法可以包括:
S501,确定目标场景类别下的多个目标物类别和目标场景类别对应的检测图像尺寸。
具体的,多个目标物类别可以结合目标场景类别的目标检测需求进行确定。以目标场景类别为人体姿态检测为例,多个目标物类别可以包括:头部、躯干、手掌、手臂、大腿等。
具体的,检测图像尺寸可以为待检测图像的图像尺寸,这里的检测图像尺寸可以结合实际应用中目标点检测的精准度进行设置,例如,检测图像尺寸可以为512×512。
S502,基于多个目标物类别进行目标物尺寸分析,确定多个目标物类别对应的目标物尺寸比例信息。
具体的,目标物尺寸比例信息可以表征多个目标物类别对应的目标物尺寸之间的比较情况。
具体的,这里的目标物尺寸可以为对应目标物类别的实际目标物的尺寸大小,在实际应用中,可以基于目标物类别下大量样本实际目标的尺寸大小的平均数据,确定该目标物类别对应的目标物尺寸。
具体的,这里的基于多个目标物类别进行目标物尺寸分析,确定多个目标物类别对应的目标物尺寸比例信息可以包括:确定多个目标物类别各自对应的目标物尺寸,基于该多个目标物类别各自对应的目标物尺寸,确定多个目标物类别对应的目标物尺寸比例信息。
以目标场景类别为人体姿态检测为例,假设多个目标物类别分别为头部、躯干、手掌、手臂和大腿,可以基于大量样本成人的实际头部尺寸,确定头部对应的目标物尺寸,类似地,确定躯干对应的目标物尺寸、手掌对应的目标物尺寸、手臂对应的目标物尺寸和大腿对应的目标物尺寸,并根据头部、躯干、手掌、手臂和大腿各自对应的目标物尺寸,得到目标物尺寸比例信息。
S503,基于目标物尺寸比例信息,确定多个目标点检测网络对应的下采样倍数。
在一个具体的实施例中,下采样倍数可以表征对应目标点检测网络对检测图像尺寸的缩放倍数。
在一个具体的实施例中,如图6所示,上述基于目标物尺寸比例信息,确定每个目标点检测网络对应的下采样倍数可以包括:
S601,基于目标物尺寸比例信息,确定多个目标点检测网络各自对应的目标检测尺寸信息。
具体的,目标检测尺寸信息可以表征对应目标点检测网络可检测的目标物的尺寸范围。
在一个具体的实施例中,这里的基于目标物尺寸比例信息,确定多个目标点检测网络各自对应的目标检测尺寸信息可以包括:基于目标物尺寸比例信息,确定多个目标物类别与多个目标点检测网络的对应关系;该对应关系和多个目标物类别各自对应的目标物尺寸,确定多个目标点检测网络各自对应的目标检测尺寸信息。
在一个可选的实施例中,在目标物尺寸比例信息指示至少两个目标物类别对应的目标物尺寸的尺寸差异信息小于预设尺寸差异条件的情况下,可以将该至少两个目标物类别对应于同一目标点检测网络,即可以通过一个目标点检测网络来检测目标物尺寸相同或接近的多个目标物类别对应的目标。
具体的,这里的尺寸差异信息可以表征至少两个目标物类别对应的目标物尺寸的大小差异,例如,尺寸差异信息可以为至少两个目标物类别对应的目标物尺寸的差值。具体的,预设尺寸差异条件可以结合实际应用中的多个目标物类别对应的目标物尺寸进行设置。
在一个具体的实施例中,上述对应关系可以为:每个目标点检测网络与至少一个目标物类别对应,该对应关系和多个目标物类别各自对应的目标物尺寸,确定多个目标点检测网络各自对应的目标检测尺寸信息可以包括:基于每个目标点检测网络对应的至少一个目标物类别和该至少一个目标物类别对应的目标物尺寸,确定每个目标点检测网络可检测的目标物的尺寸范围,将该尺寸范围作为每个目标点检测网络对应的目标检测尺寸信息,将该至少一个目标物类别作为目标检测尺寸信息对应的特定目标物类别。
在一个示例中,以多个目标物类别为目标物类别a、b、c和d为例,假设目标物类别a-d各自对应的目标物尺寸分别为1、2、10和50,则目标物类别a-d对应的目标物尺寸比例信息可以为1:2:10:50。由于目标物类别a和b的目标物尺寸相对比较接近,因此,确定目标物类别a和b与目标点检测网络1之间的对应关系,目标物类别c与目标点检测网络2之间的对应关系,目标物类别d与目标点检测网络3之间的对应关系,然后基于上述对应关系和目标物类别a-d的目标物尺寸,得到目标点检测网络1的目标检测尺寸信息为第一尺寸范围(0~5),目标点检测网络2的目标检测尺寸信息为第二尺寸范围(5~20),目标点检测网络3的目标检测尺寸信息为第三尺寸范围(20~100),其中,目标点检测网络1可以用于检测目标物类别a和b对应的目标,目标点检测网络2可以用于检测目标物类别c对应的目标,目标点检测网络3可以用于检测目标物类别d对应的目标。
S602,基于多个目标点检测网络各自对应的目标检测尺寸信息,确定多个目标点检测网络各自对应的下采样倍数;
其中,每个目标点检测网络对应的目标检测尺寸信息与每个目标点检测网络对应的下采样倍数呈正相关。
具体的,目标检测尺寸信息与下采样倍数的正相关程度可以结合实际应用中的目标检测精度和网络计算量进行设置。例如,在目标点检测网络1-3的目标检测尺寸信息分别为(0~5)、(5~20)和(20~100)的情况下,目标点检测网络1-3对应的下采样倍数可以分别为:1倍、2倍和3倍。
S504,基于下采样倍数和检测图像尺寸,确定多个目标点检测网络对应的目标图像尺寸。
在一个具体的实施例中,上述基于下采样倍数和检测图像尺寸,确定每个目标点检测网络对应的目标图像尺寸可以通过如下公式表示:
A=B/2n,其中,A表示每个目标点检测网络对应的目标图像尺寸,B表示每个目标点检测网络对应的检测图像尺寸,n表示每个目标点检测网络对应的下采样倍数。
由以上实施例可见,根据目标场景类别下的多个目标物类别各自的目标物尺寸,得到目标物尺寸比例信息,根据目标物尺寸比例信息,确定多个目标点检测网络各自对应的目标检测尺寸信息,再根据目标检测尺寸信息,确定多个目标点检测网络各自对应的下采样倍数,基于两者的正相关关系,可以为不需要太多细节信息的较大目标,设置较大的下采样倍数,从而得到较小尺寸的输出热图,降低网络功耗;反之,可以为需要细节表达的较小目标,设置较小的下采样倍数,从而得到较大尺寸的输出热图,提升局部细节特征的表达,进而提高检测精度。
在本说明书实施例中,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定的,每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关。
在本说明书实施例中,预设网络计算量可以为预先设置的目标点检测网络的计算量上限信息,具体的,预设网络计算量可以结合实际应用中目标点检测的精度和目标点检测网络的模型复杂度进行预先设置。
在本说明书实施例中,网络结构参数可以为目标点检测网络的网络结构相关的参数。在一个具体的实施例中,网络结构参数包括网络深度参数和网络宽度参数。
在一个具体实施例中,每个目标点检测网络对应的网络结构参数基于预设网络计算量、每个目标点检测网络对应的目标图像尺寸确定可以通过如下所示的公式表示:
S2×W2×D≤F,其中,S为目标点检测网络对应的目标图像尺寸,W为目标点检测网络的网络宽度参数,D为目标点检测网络对应的网络深度参数,F为预设网络计算量。
具体的,在目标图像尺寸较大的情况下,可以将网络宽度参数和网络深度参数设置为较小的参数;在目标图像尺寸较小的情况下,可以将网络宽度参数和网络深度参数设置为较大的参数,从而控制目标点检测网络的计算量在较小的范围内。
参见图7,图7是本申请实施例提供的一种多个目标点检测网络的结构示意图。图中的矩形表示热图,矩形大小表示目标图像尺寸,目标点检测网络中矩形的行数表示网络深度参数D,每一行的矩形个数表示网络宽度参数W。在目标点检测网络1-N各自的网络计算量相同的限制下,目标点检测网络1和目标图像尺寸1适用于目标物尺寸大的目标,可以降低大尺寸目标的热图尺寸,增加该类目标对应目标点检测网络的深度来增大全局视野,以及增加网络宽度来增大抽象语义提取;而目标点检测网络2和目标图像尺寸2适用于目标物尺寸小的目标,因为小尺寸目标的空间区域占比小,不需要太多的全局信息,减少该类目标对应目标点检测网络的深度和宽度可以降低耗能和耗时,同时增大热图尺寸来提高细节信息的表达,从而提高预测目标点位置的精度。以人体姿态检测的应用场景为例,目标点检测网络1和目标图像尺寸1适用于躯干的目标点检测,目标点检测网络2和目标图像尺寸2适用于手掌的目标点检测。
由以上实施例可见,在限制网络计算量的情况下,基于每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数的负相关关系,能够在目标图像尺寸较大的情况下,将网络宽度参数和网络深度参数设置为较小的参数;在目标图像尺寸较小的情况下,将网络宽度参数和网络深度参数设置为较大的参数,从而在低耗条件下,提升多尺寸目标的检测精度。
在一个具体的实施例中,如图8所示,上述每个目标点检测网络可以包括:特征卷积层和目标点预测层,上述每个目标点检测网络的特征卷积层对应的下采样倍数与上述每个目标点检测网络对应的目标图像尺寸对应,上述将初始热图分别输入目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图可以包括:
S801,将初始热图分别输入每个目标点检测网络的特征卷积层进行特征提取,得到每个目标点检测网络对应的下采样倍数的下采样热图。
S802,将下采样热图输入每个目标点检测网络的目标点预测层进行目标点预测,得到每个目标点检测网络对应的目标图像尺寸的目标热图。
具体的,目标热图可以为每个目标点检测网络的特定目标物类别对应的待检测目标对应的热图。
在一个具体的实施例中,在特定目标物类别对应的待检测目标包括多个目标物的情况下,目标点检测网络可以输出该多个目标物各自对应的目标热图。
具体的,通过下采样操作可以增大感受野,从而融合整张待检测图像的全局特征信息,这样在对特定目标物类别对应的待检测目标进行目标点预测时可以参考全图信息,从而提升目标热图对待检测目标的特征表征和位置关系表征的精准性。
由以上实施例可见,提升目标热图对待检测目标的特征表征和位置关系表征的精准性。
S203,基于多个目标点检测网络各自对应的目标热图,对多个待检测目标进行位置预测,得到多个待检测目标对应的目标点位置信息。
在本说明书实施例中,目标点位置信息可以表征待检测目标对应的多个目标点在待检测图像中的位置信息。在一个具体的实施例中,目标点位置信息可以包括:目标点坐标信息。
在一个具体的实施例中,可以通过多个目标点检测网络各自对应的目标热图,预测得到每个目标热图对应待检测目标的目标点位置信息,最终得到待检测图像中所有待检测目标对应的目标点位置信息。
在一个具体的实施例中,由于热图是在二维空间或多维空间中对数据可视化得到的图像,即通过图像中像素点的明暗来表现数据的大小,在像素点越亮的情况下,对应数据越大,在像素点越暗的情况下,对应数据越小,因此,可以将目标热图转化为数值矩阵,数值矩阵中目标数量个最大数值在数值矩阵中的位置即为目标数量个目标点在待检测图像中的位置。数值矩阵中每个位置的数值的大小可以表征该位置预测为目标点的概率,数值越大,则预测正确的概率越大。例如,数值矩阵的行列可以与待检测图像的X-Y坐标系对应,矩阵的行与y轴对应,矩阵的列与x轴对应。
由以上实施例可见,基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定目标场景类别对应的多个目标点检测网络各自对应的目标图像尺寸,并基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定每个目标点检测网络对应的网络结构参数,使得每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关,可以在限制网络计算量的情况下,对大目标设置较小的输出热图尺寸和较大的网络结构参数,以获得更好的全局视野信息,对小目标设置较大的输出热图尺寸和较小的网络结构参数,以提高局部细节信息的表达,然后将该目标场景类别下的待检测图像对应的初始热图输入该多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,通过对不同尺寸的目标设置不同的网络结构参数和不同的热图输出尺寸,可以在保证网络低耗运行的条件下,提高多尺寸目标点检测的精度。
在本说明书实施例中,如图9所示,上述多个目标点检测网络是通过如下方式进行训练的:
S901,获取目标场景类别下的样本检测图像对应的样本初始热图,样本检测图像包含有目标物尺寸不同的多个样本检测目标;
S902,获取多个样本检测目标对应的标注目标点位置信息;
S903,将样本初始热图分别输入目标场景类别对应的多个预设目标点检测网络进行目标点检测,得到多个目标图像尺寸的样本目标热图,每个预设目标点检测网络对应的网络结构参数是基于预设网络计算量和每个预设目标点检测网络对应的目标图像尺寸确定的,每个预设目标点检测网络对应的目标图像尺寸与每个预设目标点检测网络对应的网络结构参数呈负相关,每个预设目标点检测网络各自对应的目标图像尺寸是基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
S904,基于多个预设目标点检测网络各自对应的样本目标热图,对多个样本检测目标进行位置预测,得到多个样本检测目标对应的样本目标点位置信息;
S905,基于标注目标点位置信息和样本目标点位置信息,训练多个预设目标点检测网络,得到多个目标点检测网络。
在一个具体的实施例中,样本检测图像对应的样本初始热图可以为用于训练多个预设目标点检测网络的初始热图。在一个具体的实施例中,样本检测图像中可以包括目标物尺寸不同的多个样本检测目标,相应的,分别对每个样本检测目标进行目标点位置信息的标注,得到标注目标点位置信息。
在一个具体的实施例中,上述基于标注目标点位置信息和样本目标点位置信息,训练多个预设目标点检测网络,得到多个目标点检测网络可以包括:
基于标注目标点位置信息和样本目标点位置信息,确定位置损失信息;基于位置损失信息,训练多个预设目标点检测网络,得到多个目标点检测网络。
在一个可选的实施例中,上述样本目标点位置信息可以包括样本初始热图的预测目标点位置信息。
在一个具体的实施例中,上述基于标注目标点位置信息和样本目标点位置信息,确定位置损失信息可以包括基于预设损失函数,确定标注目标点位置信息和样本目标点位置信息间的位置损失信息。
在一个具体的实施例中,位置损失信息可以表征标注目标点位置信息和样本目标点位置信息间的差异。在一个具体的实施例中,预设损失函数可以包括但不限于交叉熵损失函数、逻辑损失函数、指数损失函数等。
在一个可选的实施例中,基于位置损失信息,训练多个预设目标点检测网络,得到多个目标点检测网络可以包括:
S9051,基于位置损失信息,更新多个预设目标点检测网络的网络参数;
S9052,基于更新后的多个预设目标点检测网络,重复步骤S903、S904和S9051的目标点检测迭代操作,直至达到目标点检测收敛条件;
S9053,将达到目标点检测收敛条件的情况下得到的多个预设目标点检测网络,作为多个目标点检测网络。
在一个可选的实施例中,上述达到目标点检测收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的,达到目标点检测收敛条件也可以为当前位置损失信息小于指定阈值。本说明书实施例中,预设训练次数和指定阈值可以结合实际应用中对网络的训练速度和精准度预先设置。
在一个具体的实施例中,在训练多个目标点检测网络的过程中,可以结合热图生成网络进行联合训练,相应的,可以预设热图生成网络(待训练的热图生成网络)之后分别连接多个预设目标点检测网络(待训练的多个目标点检测网络)。
在一个具体的实施例中,上述将样本初始热图分别输入目标场景类别对应的多个预设目标点检测网络进行目标点检测,得到多个目标图像尺寸的样本目标热图可以包括:
将样本初始热图分别输入每个预设目标点检测网络进行目标点检测,得到每个预设目标点检测网络输出的特定样本检测目标对应的样本目标热图;
具体的,特定样本检测目标可以为上述多个样本检测目标中每个预设目标点检测网络可检测的特定目标物类别对应的样本检测目标。
相应的,上述基于多个预设目标点检测网络各自对应的样本目标热图,对多个样本检测目标进行位置预测,得到多个样本检测目标对应的样本目标点位置信息可以包括:
基于特定样本检测目标对应的样本目标热图,对特定样本检测目标进行位置预测,得到该特定样本检测目标对应的样本目标点位置信息;
相应的,上述基于标注目标点位置信息和样本目标点位置信息,训练多个预设目标点检测网络,得到多个目标点检测网络可以包括:
基于特定样本检测目标对应的标注目标点位置信息和特定样本检测目标对应的样本目标点位置信息,训练每个预设目标点检测网络,得到每个目标点检测网络。
由以上实施例可见,在目标点检测网络训练过程中,结合位置损失信息,可以在提升目标点检测网络的泛化能力的同时,提升目标点检测的精度。
参见图10,图10是本申请实施例提供的一种多尺寸目标点检测网络的整体框架图。具体的,根据目标场景类别下多个目标物类别对应的目标物尺寸比例信息来确定目标点检测网络1—N各自对应的目标图像尺寸,并根据公式:S2×W2×D≤F来确定目标点检测网络1—N各自对应的网络结构参数,其中,S为目标点检测网络对应的目标图像尺寸,W为目标点检测网络的网络宽度参数,D为目标点检测网络对应的网络深度参数,F为预设网络计算量;然后获取包含有多个待检测目标的待检测图像,将待检测图像输入到主干神经网络即热图生成网络获得初始热图,该初始热图可以包括多图像通道的初始热图;接着将得到的初始热图分别输入到目标点检测网络1-N,得到不同目标图像尺寸的多个目标热图;根据多个目标热图,分别对多个目标热图各自对应的待检测目标进行位置预测,得到待检测目标的目标点坐标。
以人体姿态检测的应用场景为例,人体姿态检测相关的人体组成部位可以包括头部、手掌、手臂、躯干和大腿这5个部位类别,由于手掌尺寸<头部尺寸<手臂尺寸<躯干尺寸<大腿尺寸,且彼此之间的尺寸差异较大,因此,设置了预设目标点检测网络1-5,可以根据5个部位类别的目标物尺寸比例信息和5个部位类别各自的目标物尺寸,来确定5个预设目标点检测网络的目标图像尺寸,使得预设目标点检测网络1的目标图像尺寸>预设目标点检测网络2的目标图像尺寸>预设目标点检测网络3的目标图像尺寸>预设目标点检测网络4的目标图像尺寸>预设目标点检测网络5的目标图像尺寸,同时使得预设目标点检测网络1的网络结构参数<预设目标点检测网络2的网络结构参数<预设目标点检测网络3的目标图像尺寸<预设目标点检测网络4的目标图像尺寸<预设目标点检测网络5的目标图像尺寸。
由于较大尺寸热图适用于较小尺寸目标,较小尺寸热图适用于较大尺寸目标,因此,基于包含有手掌的样本图像对预设目标点检测网络1进行手掌识别训练,得到目标点检测网络1,使得目标点检测网络1具备识别手掌对应目标点位置的能力,以及,基于包含有头部的样本图像对预设目标点检测网络2进行头部识别训练,得到目标点检测网络2,使得目标点检测网络2具备识别头部对应目标点位置的能力,以及,基于包含有手臂的样本图像对预设目标点检测网络3进行手臂识别训练,得到目标点检测网络3,使得目标点检测网络3具备识别手臂对应目标点位置的能力,以及,基于包含有躯干的样本图像对预设目标点检测网络4进行躯干识别训练,得到目标点检测网络4,使得目标点检测网络4具备识别躯干对应目标点位置的能力,以及,基于包含有大腿的样本图像对预设目标点检测网络5进行大腿识别训练,得到目标点检测网络5,使得目标点检测网络5具备识别躯干对应目标点位置的能力。
此外,还可以基于包含有这5个部位的样本人体姿态图像输入预设热图生成网络进行热图生成训练,得到热图生成网络,然后对该热图生成网络和目标点检测网络1-5进行组合,可以得到与图10类似的多尺寸目标点检测网络。
在实际应用中,可以将包含有这5个部位的待检测人体姿态图像输入多尺寸目标点检测网络中的热图生成网络获得初始的人体姿态热图,再将初始的人体姿态热图分别输入多尺寸目标点检测网络中的目标点检测网络1-5,得到目标点检测网络1输出的手掌目标点热图,目标点检测网络2输出的头部目标点热图,目标点检测网络3输出的手臂目标点热图,目标点检测网络4输出的躯干目标点热图,目标点检测网络5输出的大腿目标点热图,并根据所有的目标点热图进行位置预测,得到待检测人体姿态图像中头部、手掌、手臂、躯干和大腿各自的对应的目标点位置信息。
由以上本申请实施例提供的技术方案可见,根据目标场景类别下的多个目标物类别各自的目标物尺寸,得到目标物尺寸比例信息,然后根据目标物尺寸比例信息,确定多个目标点检测网络各自对应的目标检测尺寸信息,并根据目标检测尺寸信息,确定多个目标点检测网络各自对应的下采样倍数,基于两者的正相关关系,可以为不需要太多细节信息的较大目标,设置较大的下采样倍数,从而得到较小尺寸的输出热图,降低网络功耗;反之,可以为需要细节表达的较小目标,设置较小的下采样倍数,从而得到较大尺寸的输出热图,提升局部细节特征的表达;再基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定每个目标点检测网络对应的网络结构参数,使得每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关,可以在限制网络计算量的情况下,对大目标设置较小的输出热图尺寸和较大的网络结构参数,以获得更好的全局视野信息,对小目标设置较大的输出热图尺寸和较小的网络结构参数,以提高局部细节信息的表达,然后将该目标场景类别下的待检测图像对应的初始热图输入该多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,通过对不同尺寸的目标设置不同的网络结构参数和不同的热图输出尺寸,可以在保证网络低耗运行的条件下,提高多尺寸目标点检测的精度。
本申请实施例还提供了一种目标点检测装置,如图11所示,该目标点检测装置可以包括:
初始热图获取模块1110,用于获取目标场景类别下的待检测图像对应的初始热图,待检测图像包含有目标物尺寸不同的多个待检测目标;
目标点检测模块1120,用于将初始热图分别输入目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和每个目标点检测网络对应的目标图像尺寸确定的,每个目标点检测网络对应的目标图像尺寸与每个目标点检测网络对应的网络结构参数呈负相关,每个目标点检测网络各自对应的目标图像尺寸是基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
位置预测模块1130,用于基于多个目标点检测网络各自对应的目标热图,对多个待检测目标进行位置预测,得到多个待检测目标对应的目标点位置信息。
在一个具体的实施例中,上述初始热图获取模块1110可以包括:
待检测图像获取单元,用于获取待检测图像;
初始热图生成单元,用于将待检测图像输入热图生成网络进行热图生成,得到初始热图。
在一个具体的实施例中,上述热图生成网络包括:深度可分离卷积网络、特征拼接网络和通道重组网络,上述初始热图生成单元可以包括:
特征提取单元,用于基于深度可分离卷积网络,对待检测图像进行特征提取,得到多个通道维度的初始特征图;
特征拼接单元,用于基于特征拼接网络,分别对多个通道维度的初始特征图与待检测图像进行特征拼接,得到多个拼接特征图;
通道重组单元,用于基于通道重组网络,对多个拼接特征图进行通道重组,得到初始热图。
在本说明书实施例中,上述装置还可以包括:
检测图像尺寸确定模块,用于确定目标场景类别下的多个目标物类别和目标场景类别对应的检测图像尺寸;
目标物尺寸比例信息确定模块,用于基于多个目标物类别进行目标物尺寸分析,确定多个目标物类别对应的目标物尺寸比例信息;
下采样倍数确定模块,用于基于目标物尺寸比例信息,确定多个目标点检测网络对应的下采样倍数;
目标图像尺寸确定模块,用于基于下采样倍数和检测图像尺寸,确定多个目标点检测网络对应的目标图像尺寸。
在一个具体的实施例中,上述下采样倍数确定模块可以包括:
目标检测尺寸信息确定单元,用于基于目标物尺寸比例信息,确定多个目标点检测网络各自对应的目标检测尺寸信息;
下采样倍数确定单元,用于基于多个目标点检测网络各自对应的目标检测尺寸信息,确定多个目标点检测网络对应的下采样倍数;其中,每个目标点检测网络对应的目标检测尺寸信息与每个目标点检测网络对应的下采样倍数呈正相关。
在一个具体的实施例中,上述每个目标点检测网络可以包括:特征卷积层和目标点预测层,上述每个目标点检测网络的特征卷积层对应的下采样倍数与每个目标点检测网络对应的目标图像尺寸对应,上述目标点检测模块1120可以包括:
下采样热图单元,用于将初始热图分别输入每个目标点检测网络的特征卷积层进行特征提取,得到每个目标点检测网络对应的下采样倍数的下采样热图;
目标热图单元,用于将下采样热图输入每个目标点检测网络的目标点预测层进行目标点预测,得到每个目标点检测网络对应的目标图像尺寸的目标热图。
在本说明书实施例中,上述多个目标点检测网络是通过如下装置进行训练的:
样本初始热图模块,用于获取目标场景类别下的样本检测图像对应的样本初始热图,样本检测图像包含有目标物尺寸不同的多个样本检测目标;
标注目标点位置信息模块,用于获取多个样本检测目标对应的标注目标点位置信息;
样本目标热图模块,用于将样本初始热图分别输入目标场景类别对应的多个预设目标点检测网络进行目标点检测,得到多个目标图像尺寸的样本目标热图,每个预设目标点检测网络对应的网络结构参数是基于预设网络计算量和每个预设目标点检测网络对应的目标图像尺寸确定的,每个预设目标点检测网络对应的目标图像尺寸与每个预设目标点检测网络对应的网络结构参数呈负相关,每个预设目标点检测网络各自对应的目标图像尺寸是基于目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
样本目标点位置信息模块,用于基于多个预设目标点检测网络各自对应的样本目标热图,对多个样本检测目标进行位置预测,得到多个样本检测目标对应的样本目标点位置信息;
网络训练模块,用于基于标注目标点位置信息和样本目标点位置信息,训练多个预设目标点检测网络,得到多个目标点检测网络。
需要说明的是,所述装置实施例中的装置与方法实施例基于同样的发明构思。
本申请实施例提供了一种目标点检测设备,该目标点检测设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的目标点检测方法。
进一步地,图12示出了一种用于实现本申请实施例所提供的目标点检测方法的目标点检测设备的硬件结构示意图,所述目标点检测设备可以参与构成或包含本申请实施例所提供的目标点检测装置。如图12所示,目标点检测设备120可以包括一个或多个(图中采用1202a、1202b,……,1202n来示出)处理器1202(处理器1202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1204、以及用于通信功能的传输装置1206。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图12所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,目标点检测设备120还可包括比图12中所示更多或者更少的组件,或者具有与图12所示不同的配置。
应当注意到的是上述一个或多个处理器1202和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到目标点检测设备120(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1204可用于存储应用软件的软件程序以及模块,如本申请实施例中所述的目标点检测方法对应的程序指令/数据存储装置,处理器1202通过运行存储在存储器1204内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种目标点检测方法。存储器1204可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1204可进一步包括相对于处理器1202远程设置的存储器,这些远程存储器可以通过网络连接至目标点检测设备120。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括目标点检测设备120的通信供应商提供的无线网络。在一个实例中,传输装置1206包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中,传输装置1206可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与目标点检测设备120(或移动设备)的用户界面进行交互。
本申请的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于目标点检测设备之中以保存用于实现方法实施例中目标点检测方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的目标点检测方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如方法实施例提供的目标点检测方法。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种目标点检测方法,其特征在于,所述方法包括:
获取目标场景类别下的待检测图像对应的初始热图,所述待检测图像包含有目标物尺寸不同的多个待检测目标;
将所述初始热图分别输入所述目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和所述每个目标点检测网络对应的目标图像尺寸确定的,所述每个目标点检测网络对应的目标图像尺寸与所述每个目标点检测网络对应的网络结构参数呈负相关,所述每个目标点检测网络各自对应的目标图像尺寸是基于所述目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
基于所述多个目标点检测网络各自对应的目标热图,对所述多个待检测目标进行位置预测,得到所述多个待检测目标对应的目标点位置信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标场景类别下的多个目标物类别和所述目标场景类别对应的检测图像尺寸;
基于所述多个目标物类别进行目标物尺寸分析,确定所述多个目标物类别对应的目标物尺寸比例信息;
基于所述目标物尺寸比例信息,确定所述多个目标点检测网络对应的下采样倍数;
基于所述下采样倍数和所述检测图像尺寸,确定所述多个目标点检测网络对应的目标图像尺寸。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标物尺寸比例信息,确定所述多个目标点检测网络对应的下采样倍数包括:
基于所述目标物尺寸比例信息,确定所述多个目标点检测网络各自对应的目标检测尺寸信息;
基于所述多个目标点检测网络各自对应的目标检测尺寸信息,确定所述多个目标点检测网络对应的下采样倍数;
其中,所述每个目标点检测网络对应的目标检测尺寸信息与所述每个目标点检测网络对应的下采样倍数呈正相关。
4.根据权利要求1所述的方法,其特征在于,所述每个目标点检测网络包括:特征卷积层和目标点预测层,所述每个目标点检测网络的特征卷积层对应的下采样倍数与所述每个目标点检测网络对应的目标图像尺寸对应,所述将所述初始热图分别输入所述目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图包括:
将所述初始热图分别输入所述每个目标点检测网络的特征卷积层进行特征提取,得到所述每个目标点检测网络对应的下采样倍数的下采样热图;
将所述下采样热图输入所述每个目标点检测网络的目标点预测层进行目标点预测,得到所述每个目标点检测网络对应的目标图像尺寸的目标热图。
5.根据权利要求1所述的方法,其特征在于,所述获取目标场景类别下的待检测图像对应的初始热图包括:
获取所述待检测图像;
将所述待检测图像输入热图生成网络进行热图生成,得到所述初始热图。
6.根据权利要求5所述的方法,其特征在于,所述热图生成网络包括:深度可分离卷积网络、特征拼接网络和通道重组网络,所述将所述待检测图像输入热图生成网络进行热图生成,得到所述初始热图包括:
基于所述深度可分离卷积网络,对所述待检测图像进行特征提取,得到多个通道维度的初始特征图;
基于所述特征拼接网络,分别对所述多个通道维度的初始特征图与所述待检测图像进行特征拼接,得到多个拼接特征图;
基于所述通道重组网络,对所述多个拼接特征图进行通道重组,得到所述初始热图。
7.根据权利要求1至6任一所述的方法,其特征在于,所述多个目标点检测网络是通过如下方式进行训练的:
获取目标场景类别下的样本检测图像对应的样本初始热图,所述样本检测图像包含有目标物尺寸不同的多个样本检测目标;
获取所述多个样本检测目标对应的标注目标点位置信息;
将所述样本初始热图分别输入所述目标场景类别对应的多个预设目标点检测网络进行目标点检测,得到多个目标图像尺寸的样本目标热图,每个预设目标点检测网络对应的网络结构参数是基于所述预设网络计算量和所述每个预设目标点检测网络对应的目标图像尺寸确定的,所述每个预设目标点检测网络对应的目标图像尺寸与所述每个预设目标点检测网络对应的网络结构参数呈负相关,所述每个预设目标点检测网络各自对应的目标图像尺寸是基于所述目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
基于所述多个预设目标点检测网络各自对应的样本目标热图,对所述多个样本检测目标进行位置预测,得到所述多个样本检测目标对应的样本目标点位置信息;
基于所述标注目标点位置信息和所述样本目标点位置信息,训练所述多个预设目标点检测网络,得到所述多个目标点检测网络。
8.一种目标点检测装置,其特征在于,所述装置包括:
初始热图获取模块,用于获取目标场景类别下的待检测图像对应的初始热图,所述待检测图像包含有目标物尺寸不同的多个待检测目标;
目标点检测模块,用于将所述初始热图分别输入所述目标场景类别对应的多个目标点检测网络进行目标点检测,得到多个目标图像尺寸的目标热图,每个目标点检测网络对应的网络结构参数是基于预设网络计算量和所述每个目标点检测网络对应的目标图像尺寸确定的,所述每个目标点检测网络对应的目标图像尺寸与所述每个目标点检测网络对应的网络结构参数呈负相关,所述每个目标点检测网络各自对应的目标图像尺寸是基于所述目标场景类别下多个目标物类别对应的目标物尺寸比例信息确定的;
位置预测模块,用于基于所述多个目标点检测网络各自对应的目标热图,对所述多个待检测目标进行位置预测,得到所述多个待检测目标对应的目标点位置信息。
9.一种目标点检测设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的目标点检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的目标点检测方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的目标点检测方法。
CN202211418471.5A 2022-11-14 2022-11-14 一种目标点检测方法、装置、设备及存储介质 Active CN115496911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211418471.5A CN115496911B (zh) 2022-11-14 2022-11-14 一种目标点检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211418471.5A CN115496911B (zh) 2022-11-14 2022-11-14 一种目标点检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115496911A true CN115496911A (zh) 2022-12-20
CN115496911B CN115496911B (zh) 2023-03-24

Family

ID=85115613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211418471.5A Active CN115496911B (zh) 2022-11-14 2022-11-14 一种目标点检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115496911B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958244A (zh) * 2023-09-21 2023-10-27 深圳市德壹医疗科技有限公司 基于视觉识别***的患者穴位定位方法、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190279014A1 (en) * 2016-12-27 2019-09-12 Beijing Sensetime Technology Development Co., Ltd Method and apparatus for detecting object keypoint, and electronic device
US20210049395A1 (en) * 2018-11-19 2021-02-18 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, and storage medium
CN112801971A (zh) * 2021-01-25 2021-05-14 北京工业大学 一种基于把目标视为点改进的目标检测方法
CN113139471A (zh) * 2021-04-25 2021-07-20 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN113159198A (zh) * 2021-04-27 2021-07-23 上海芯物科技有限公司 一种目标检测方法、装置、设备及存储介质
US20210295088A1 (en) * 2020-12-11 2021-09-23 Beijing Baidu Netcom Science & Technology Co., Ltd Image detection method, device, storage medium and computer program product
CN114186632A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 关键点检测模型的训练方法、装置、设备、存储介质
US20220147822A1 (en) * 2021-01-22 2022-05-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Training method and apparatus for target detection model, device and storage medium

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190279014A1 (en) * 2016-12-27 2019-09-12 Beijing Sensetime Technology Development Co., Ltd Method and apparatus for detecting object keypoint, and electronic device
US20210049395A1 (en) * 2018-11-19 2021-02-18 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, and storage medium
US20210295088A1 (en) * 2020-12-11 2021-09-23 Beijing Baidu Netcom Science & Technology Co., Ltd Image detection method, device, storage medium and computer program product
US20220147822A1 (en) * 2021-01-22 2022-05-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Training method and apparatus for target detection model, device and storage medium
CN112801971A (zh) * 2021-01-25 2021-05-14 北京工业大学 一种基于把目标视为点改进的目标检测方法
CN113139471A (zh) * 2021-04-25 2021-07-20 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN113159198A (zh) * 2021-04-27 2021-07-23 上海芯物科技有限公司 一种目标检测方法、装置、设备及存储介质
CN114186632A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 关键点检测模型的训练方法、装置、设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUN YANG ET AL: "Stacked Multi-Target Network for Robust Facial Landmark Localisation", 《CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 *
李嘉: "基于高速公路ETC门架数据的车辆行驶轨迹检测", 《中国交通信息化》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958244A (zh) * 2023-09-21 2023-10-27 深圳市德壹医疗科技有限公司 基于视觉识别***的患者穴位定位方法、设备及介质

Also Published As

Publication number Publication date
CN115496911B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN110807451B (zh) 人脸关键点检测方法、装置、设备及存储介质
CN111340864A (zh) 基于单目估计的三维场景融合方法及装置
CN111754396B (zh) 脸部图像处理方法、装置、计算机设备和存储介质
CN110599491B (zh) 基于先验信息的眼部图像分割方法、装置、设备及介质
CN110866977B (zh) 增强现实处理方法及装置、***、存储介质和电子设备
CN112070782B (zh) 识别场景轮廓的方法、装置、计算机可读介质及电子设备
CN109272543B (zh) 用于生成模型的方法和装置
CN111784818B (zh) 生成三维人体模型的方法、装置及计算机可读存储介质
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111445486A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN112257645B (zh) 人脸的关键点定位方法和装置、存储介质及电子装置
CN115496911B (zh) 一种目标点检测方法、装置、设备及存储介质
CN110807379A (zh) 一种语义识别方法、装置、以及计算机存储介质
CN111124902A (zh) 对象操作方法和装置、计算机可读的存储介质及电子装置
CN111192223A (zh) 人脸纹理图像的处理方法、装置、设备及存储介质
CN112287730A (zh) 姿态识别方法、装置、***、存储介质及设备
CN114565916A (zh) 目标检测模型训练方法、目标检测方法以及电子设备
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
EP4290459A1 (en) Augmented reality method and related device thereof
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN111652168B (zh) 基于人工智能的群体检测方法、装置、设备及存储介质
CN112307799A (zh) 姿态识别方法、装置、***、存储介质及设备
CN112862840B (zh) 图像分割方法、装置、设备及介质
CN111582208B (zh) 用于生成生物体姿态关键点信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40079469

Country of ref document: HK