CN111275040A - 定位方法及装置、电子设备、计算机可读存储介质 - Google Patents

定位方法及装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN111275040A
CN111275040A CN202010058788.7A CN202010058788A CN111275040A CN 111275040 A CN111275040 A CN 111275040A CN 202010058788 A CN202010058788 A CN 202010058788A CN 111275040 A CN111275040 A CN 111275040A
Authority
CN
China
Prior art keywords
pixel point
target
distance
information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010058788.7A
Other languages
English (en)
Other versions
CN111275040B (zh
Inventor
战赓
欧阳万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202010058788.7A priority Critical patent/CN111275040B/zh
Publication of CN111275040A publication Critical patent/CN111275040A/zh
Priority to PCT/CN2021/072210 priority patent/WO2021143865A1/zh
Priority to JP2022500616A priority patent/JP2022540101A/ja
Priority to KR1020227018711A priority patent/KR20220093187A/ko
Application granted granted Critical
Publication of CN111275040B publication Critical patent/CN111275040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种定位方法及装置、电子设备、计算机可读存储介质,本公开基于目标图像的图像特征图为目标图像中的每个像素点确定了一个对象锚框,即对象边框信息对应的对象边框,锚框及对应预测的锚框存在互斥性,减少了对象定位过程中使用的对象锚框的数量,降低了计算量。同时基于目标图像的图像特征图还能够确定目标图像中的每个像素点所属对象的对象类型信息、对象边框信息对应的置信度、对象类型信息对应的置信度,继而基于确定的上述两个置信度确定对象边框信息对应的最终的置信度,有效增强了对象边框的信息表达能力,有利于提高基于对象边框进行对象定位的准确度。

Description

定位方法及装置、电子设备、计算机可读存储介质
技术领域
本公开涉及计算机技术、图像处理领域,具体而言,涉及一种定位方法及装置、电子设备、计算机可读存储介质。
背景技术
对象检测或对象定位是计算机视觉中重要的基础技术,具体应用于实例分割、对象追踪、行人识别、人脸识别等场景。
对象检测或对象定位多利用对象锚框实现。但是在进行对象定位中存在使用的对象锚框数量多、对象锚框表达能力弱等导致的对象定位计算量大、定位不准确的缺陷。
发明内容
有鉴于此,本公开至少提供一种定位方法及装置。
第一方面,本公开提供了一种定位方法,包括:
获取目标图像;
基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度;
基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度;
基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
上述实施方式中,基于目标图像的图像特征图能够为目标图像中的每个像素点仅确定一个对象锚框,即对象边框信息对应的对象边框,减少了对象定位过程中使用的对象锚框的数量,降低了计算量,提高了对象定位的效率。同时基于目标图像的图像特征图还能够确定目标图像中的每个像素点所属对象的对象类型信息、对象边框信息对应的置信度、对象类型信息对应的置信度,继而基于确定的上述两个置信度确定对象边框信息对应的最终的置信度,有效增强了对象边框或对象边框信息的信息表达能力,不仅能够表达对象边框信息对应的对象边框的定位信息、对象类型信息,还能表达对象边框信息的置信度信息,从而有利于提高基于对象边框进行对象定位的准确度。
在一种可能的实施方式中,所述图像特征图包括用于对所述目标图像中的像素点所属的对象进行分类的分类特征图和用于对所述目标图像中的像素点所属的对象进行定位的定位特征图;
所述基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度,包括:
基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度;
基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
上述实施方式,基于目标图像的分类特征图和定位特征图,不仅确定了目标图像中每个像素点所属对象的对象边框信息,还确定了目标图像中每个像素点所属对象的对象类型信息,以及,对象类型信息和对象边框信息分别对应的置信度,提高了对象边框的信息表达能力,从而有利于提高基于对象边框进行对象定位的准确度。
在一种可能的实施方式中,所述基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,包括:
针对所述目标图像中的一个像素点,基于所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围;
基于所述目标距离范围和所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的目标距离;
基于该像素点在所述目标图像中的位置信息,和该像素点与每条边框的目标距离,确定该像素点所属对象的对象边框信息。
上述实施方式,首先确定像素点与该像素点所属对象的对象边框中的每条边框的距离所在的目标距离范围,之后,基于确定的目标距离范围,确定像素点与每条边框目标距离,经过该两步处理能够提高确定的目标距离的准确度。之后,基于确定的该精确的目标距离,能够为像素点确定一个位置精确的对象边框,提高了确定的对象边框的准确度。
在一种可能的实施方式中,确定一个像素点与该像素点所述对象的对象边框中的每条边框的距离所位于的目标距离范围,包括:
针对所述目标图像中的一个像素点所属对象的对象边框中的一条边框,基于所述定位特征图,确定该像素点与该条边框的最大距离;
将所述最大距离进行分段处理,得到多个距离范围;
基于所述定位特征图,确定该像素点与该条边框的距离位于每个距离范围内的第一概率值;
基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。
上述实施方式,可以选取最大概率值对应的距离范围作为像素点与某一边框的距离所位于的目标距离范围,提高了确定的目标距离范围的准确度,从而有利于提高基于该目标距离范围确定的像素点与某一条边框的距离的准确度。
在一种可能的实施方式中,所述基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围,包括:
基于所述定位特征图,确定该像素点与该条边框的距离不确定参数值;
基于所述距离不确定参数值和每个第一概率值,确定该像素点与该条边框的距离位于每个距离范围内的目标概率值;
将最大的所述目标概率值对应的距离范围,作为该像素点与该条边框的距离所位于的目标距离范围。
上述实施方式,在确定像素点与某条边框的距离位于每个距离范围内的第一概率值的同时,还确定了一个不确定参数值,基于该不确定参数值能够对第一概率进行修正和校正,得到像素点与某条边框的距离位于每个距离范围内的目标概率值,提高了确定的像素点与某条边框的距离位于每个距离范围内的概率值的准确度,从而有利于提高基于该概率值确定的目标距离范围的准确度。
在一种可能的实施方式中,确定所述对象边框信息对应的第二置信度,包括:
基于所述目标图像中的一个像素点与该像素点所属对象的对象边框中每条边框的距离所位于的目标距离范围对应的第一概率值,确定该像素点所属对象的对象边框信息对应的第二置信度。
上述实施方式,利用像素点分别与每条边框的距离对应的最大的第一概率值,能够确定该像素点所属对象的对象边框信息的置信度,增强了对象边框的信息表达能力。
在一种可能的实施方式中,所述基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,包括:
基于所述分类特征图,确定所述目标图像中每个像素点所属的对象为每种预设对象类型的第二概率值;
基于最大的所述第二概率值对应的预设对象类型,确定该像素点所属对象的对象类型信息。
上述实施方式,选取最大概率值对应的预设对象类型作为该像素点所属对象的对象类型信息,提高了确定的对象类型信息的准确度。
在一种可能的实施方式中,所述基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息,包括:
从所述目标图像中筛选出多个目标像素点;在所述目标图像中不同的目标像素点之间的距离小于预设阈值,并且不同的目标像素点所属对象的对象类型信息相同;
从每个目标像素点所属对象的对象边框信息中,选取最高的目标置信度对应的对象边框信息,得到目标边框信息;
基于选取的所述目标边框信息,以及所述目标边框信息对应的目标置信度,确定所述目标图像中对象的定位信息。
上述实施方式,从距离比较近的、对象类型信息相同的像素点中选取目标置信度最高的对象边框信息,来进行对象的定位,能够有效减少用于进行对象定位的对象边框信息的数量,有利于提高对象定位的时效性。
第二方面,本公开提供了一种定位装置,包括:
图像获取模块,用于获取目标图像;
图像处理模块,用于基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度;
置信度处理模块,用于基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度;
定位模块,用于基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
在一种可能的实施方式中,所述图像特征图包括用于对所述目标图像中的像素点所属的对象进行分类的分类特征图和用于对所述目标图像中的像素点所属的对象进行定位的定位特征图;
所述图像处理模块用于:
基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度;
基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
在一种可能的实施方式中,所述图像处理模块在基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息时,用于:
针对所述目标图像中的一个像素点,基于所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围;
基于所述目标距离范围和所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的目标距离;
基于该像素点在所述目标图像中的位置信息,和该像素点与每条边框的目标距离,确定该像素点所属对象的对象边框信息。
在一种可能的实施方式中,所述图像处理模块在确定一个像素点与该像素点所述对象的对象边框中的每条边框的距离所位于的目标距离范围时,用于:
针对所述目标图像中的一个像素点所属对象的对象边框中的一条边框,基于所述定位特征图,确定该像素点与该条边框的最大距离;
将所述最大距离进行分段处理,得到多个距离范围;
基于所述定位特征图,确定该像素点与该条边框的距离位于每个距离范围内的第一概率值;
基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。
在一种可能的实施方式中,所述图像处理模块在基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围时,用于:
基于所述定位特征图,确定该像素点与该条边框的距离不确定参数值;
基于所述距离不确定参数值和每个第一概率值,确定该像素点与该条边框的距离位于每个距离范围内的目标概率值;
将最大的目标概率值对应的距离范围作为该像素点与该条边框的距离所位于的目标距离范围。
在一种可能的实施方式中,所述图像处理模块在确定所述对象边框信息对应的第二置信度时,用于:
基于所述目标图像中的一个像素点与该像素点所属对象的对象边框中每条边框的距离所位于的目标距离范围对应的第一概率值,确定该像素点所属对象的对象边框信息对应的第二置信度。
在一种可能的实施方式中,所述图像处理模块在基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息时,用于:
基于所述分类特征图,确定所述目标图像中每个像素点所属的对象为每种预设对象类型的第二概率值;
基于最大的所述第二概率值对应的预设对象类型,确定该像素点所属对象的对象类型信息。
在一种可能的实施方式中,所述定位模块用于:
从所述目标图像中筛选出多个目标像素点;在所述目标图像中不同的目标像素点之间的距离小于预设阈值,并且不同的目标像素点所属对象的对象类型信息相同;
从每个目标像素点所属对象的对象边框信息中,选取最高的目标置信度对应的对象边框信息,得到目标边框信息;
基于选取的所述目标边框信息,以及所述目标边框信息对应的目标置信度,确定所述目标图像中对象的定位信息。
第三方面,本公开提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述定位方法的步骤。
第四方面,本公开还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述定位方法的步骤。
本公开上述装置、电子设备、和计算机可读存储介质,至少包含与本公开上述方法的任一方面或任一方面的任一实施方式的技术特征实质相同或相似的技术特征,因此关于上述装置、电子设备、和计算机可读存储介质的效果描述,可以参见上述方法内容的效果描述,这里不再赘述。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例提供的一种定位方法的流程图;
图2示出了本公开实施例提供的另一种定位方法的流程图;
图3示出了本公开实施例提供的再一种定位方法中基于定位特征图,确定目标图像中每个像素点所属对象的对象边框信息的流程图;
图4示出了本公开实施例提供的再一种定位方法中基于确定的第一概率值,从多个距离范围中,选取像素点与某条边框的距离所位于的目标距离范围的流程图;
图5示出了本公开实施例提供的再一种定位方法中基于每个像素点所属对象的对象边框信息和对象边框信息的目标置信度,确定目标图像中对象的定位信息的流程图;
图6示出了本公开实施例提供的一种定位装置的结构示意图;
图7示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,应当理解,本公开中附图仅起到说明和描述的目的,并不用于限定本公开的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本公开内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
针对在利用对象锚框进行对象定位过程中,如何减少定位所用的对象锚框的数量,提高对象锚框的信息表达能力,以提高对象定位的准确度,本公开提供了一种定位方法及装置、电子设备、计算机可读存储介质。其中,本公开基于目标图像的图像特征图为目标图像中的每个像素点仅确定一个对象锚框,即对象边框信息对应的对象边框,减少了对象定位过程中使用的对象锚框的数量,降低了计算量。同时基于目标图像的图像特征图还能够确定目标图像中的每个像素点所属对象的对象类型信息、对象边框信息对应的置信度、对象类型信息对应的置信度,继而基于确定的上述两个置信度确定对象边框信息对应的最终的置信度,有效增强了对象边框的信息表达能力,有利于提高基于对象边框进行对象定位的准确度。
下面通过具体的实施例对本公开的定位方法及装置、电子设备、计算机可读存储介质进行说明。
本公开实施例提供了一种定位方法,该方法应用于对图像中的对象进行定位的终端设备。具体地,如图1所示,本公开实施例提供的定位方法包括如下步骤:
S110、获取目标图像。
这里,目标图像可以是在对象追踪过程中拍摄的包括目标对象的图像,也可以是在人脸检测中拍摄的包括人脸的图像,本公开对目标图像的用途并不进行限定。
目标图像中包括至少一个待定位的对象。这里的对象可以是物体,也可以是人、动物等。
目标图像可以由执行本实施例的定位方法的终端设备拍摄,也可以由其他设备拍摄后,传输给执行本实施例的定位方法的终端设备,本公开对目标图像的拍摄设备并不进行限定。
S120、基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度。
在执行此步骤之前,首先需要对目标图像进行处理,得到目标图像对应的图像特征图。在具体实施时,可以利用卷积神经网络对目标图像进行图像特征提取,得到图像特征图。
在确定了目标图像的图像特征图之后,对图像特征图进行处理,能够确定目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度。在具体实施时,可以利用卷积神经网络对图像特征图进行进一步地图像特征提取,来得到上述对象类型信息、对象边框信息、第一置信度和第二置信度。
上述对象类型信息包括像素点所属的对象的对象类别。上述对象边框信息包括像素点与对象边框信息对应的对象边框中每个边框的距离。其中,上述对象边框也可以称为对象锚框。
上述第一置信度用于表征基于图像特征图确定的对象类型信息的准确程度或可信程度。上述第二置信度用于表征基于图像特征图确定的对象边框信息的准确程度或可信程度。
S130、基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度。
这里,具体可以将第一置信度和第二置信度的乘积作为对象边框信息对应的目标置信度。该目标置信度用于综合表征对象边框信息对应的对象边框的定位准确和分类准确度。
当然,还可以利用其他方法确定目标置信度,例如,可以结合第一置信度的预设权重、第二置信度的预设权重、第一置信度和第二置信度来确定目标置信度,本公开对基于第一置信度和第二置信度确定目标置信度的具体的实现方案并不进行限定。
S140、基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
这里,可以将像素点所属对象的对象边框信息和对象边框信息的目标置信度作为像素点所属对象在目标图像中的定位信息,之后,基于每个像素点所属对象在目标图像中的定位信息,确定目标图像中每个对象的定位信息。
这里,不仅确定了像素点所属对象的对象边框信息,还确定了对象边框信息的目标置信度,有效增强了对象边框或对象边框信息的信息表达能力,不仅能够表达对象边框信息对应的对象边框的定位信息、对象类型信息,还能表达对象边框信息的置信度信息,从而有利于提高基于对象边框进行对象定位的准确度。
另外,上述实施例基于目标图像的图像特征图能够为目标图像中的每个像素点确定一个对象锚框,即对象边框信息对应的对象边框,减少了对象定位过程中使用的对象锚框的数量,降低了计算量,提高了对象定位的效率。
在一些实例中,如图2所示,上述所述图像特征图包括用于对所述目标图像中的像素点所属的对象进行分类的分类特征图和用于对所述目标图像中的像素点所属的对象进行定位的定位特征图。
在具体实施时,如图2所示,可以利用卷积神经网络对目标图像进行图像特征提取,得到初始的特征图,之后分别利用4个3×3、输入输出都是256的卷积层对初始的特征图进行处理,得到上述分类特征图和定位特征图。
在得到分类特征图和定位特征图之后,上述基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度,具体可以利用如下步骤实现:
基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度;基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
在具体实施时,可以利用卷积神经网络或卷积层对分类特征图进行图像特征提取,得到每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度。利用卷积神经网络或卷积层对定位特征图进行图像特征提取,得到每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
上述实施例,基于目标图像的分类特征图和定位特征图,不仅确定了目标图像中每个像素点所属对象的对象边框信息,还确定了目标图像中每个像素点所属对象的对象类型信息,以及,对象类型信息和对象边框信息分别对应的置信度,提高了对象边框的信息表达能力,从而有利于提高基于对象边框进行对象定位的准确度。
在一些实施例中,如图3所示,上述基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,具体可以利用如下步骤实现:
S310、针对所述目标图像中的一个像素点,基于所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围。
这里,可以利用卷积神经网络或卷积层对定位特征图进行图像特征提取,以确定像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围。
在具体实施时,可以首先基于定位特征图,确定像素点与某条边框的最大距离;之后,将所述最大距离进行分段处理,得到多个距离范围;并利用卷积神经网络或卷积层对定位特征图进行图像特征提取,以确定该像素点与该条边框的距离位于每个距离范围内的第一概率值;最后,基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。具体,可以将最大的第一概率值对应的距离范围作为上述目标距离范围。
如图2所示,对象边框可以包括上边框、下边框、左边框和右边框,基于上述方法确定了左边框对应与五个距离范围的五个第一概率值a,b,c,d,e,并选取最大的第一概率值b对应的距离范围作为目标距离范围。
上述,选取最大概率值对应的距离范围作为像素点与该条边框的距离所位于的目标距离范围,提高了确定的目标距离范围的准确度,从而有利于提高基于该目标距离范围确定的像素点与某一条边框的距离的准确度。
S320、基于所述目标距离范围和所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的目标距离。
在确定了目标距离范围之后,选取与目标距离范围匹配的回归网络,例如卷积神经网络,对定位特征图进行图像特征提取,以得到像素点与该像素点所属对象的对象边框中的每条边框的目标距离。
这里在确定了目标距离范围的基础上,进一步利用卷积神经网络确定了一个精确的距离,能够有效提高确定的距离的准确度。
另外,如图2所示,在确定了目标距离之后,可以利用一个预设的或训练好的参数或权重N对确定的目标距离进行校正,得到最终的目标距离。
如图2所示,利用本步骤确定了像素点与左边框的精确的目标距离,该目标距离标注在图2中,用f表示。如图2所示,确定的目标距离位于确定的目标距离范围内。
S330、基于该像素点在所述目标图像中的位置信息,和该像素点与每条边框的目标距离,确定该像素点所属对象的对象边框信息。
这里利用像素点在目标图像中的位置信息和该像素点与每条边框的目标距离,能够确定对象边框信息对应的对象边框中每条边框在目标图像中的位置信息。最后可以将每条边框在目标图像中的位置信息,作为像素点所属对象的对象边框信息。
上述实施例,首先确定像素点与对象边框中的每条边框的距离所在的目标距离范围,之后,基于确定的目标距离范围,确定像素点与每条边框目标距离,经过该两步处理能够提高确定的目标距离的准确度。之后,基于确定的该精确的目标距离,能够为像素点确定一个位置精确的对象边框,提高了确定的对象边框的准确度。
在一些实施例中,如图4所示,上述基于确定的所述第一概率值,从所述多个距离范围中,选取像素点与某条边框的距离所位于的目标距离范围,还可以利用如下步骤实现:
S410、基于所述定位特征图,确定像素点与某条边框的距离不确定参数值。
这里,可以利用确定第一概率值的卷积神经网络,在确定像素点与某条边框的距离位于每个距离范围内的第一概率值的同时,确定该像素点与该条边框的距离不确定参数值。这里的距离不确定参数值可以用于表征确定的各个第一概率的可信度。
S420、基于所述距离不确定参数值和每个第一概率值,确定该像素点与该条边框的距离位于每个距离范围内的目标概率值。
这里,利用距离不确定参数值对每个第一概率值进行修正,得到对应的目标概率值。
在具体实施时,可以利用如下公式确定目标概率值:
Figure BDA0002373719570000141
式中,px,n表示像素点与边框x的距离位于第n个距离范围内的目标概率值,N表示距离范围的数量,σx表示与边框x对应的距离不确定参数值,sx,n表示像素点与边框x的距离位于第n个距离范围内的第一概率值;sx,m表示像素点与边框x的距离位于第m个距离范围内的第一概率值。
S430、基于确定的所述目标概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。
这里,具体地可以选取最大的目标概率值对应的距离范围作为目标距离范围。
上述实施例,在确定像素点与某条边框的距离位于每个距离范围内的第一概率值的同时,还确定了一个不确定参数值,基于该参数值能够对第一概率进行修正和校正,得到像素点与某条边框的距离位于每个距离范围内的目标概率值,提高了确定的像素点与某条边框的距离位于每个距离范围内的概率值的准确度,从而有利于提高基于该概率值确定的目标距离范围的准确度。
在确定像素点与对应的对象边框中每条边框的目标距离之后,可以利用如下步骤确定对应的对象边框信息的置信度,即上述第二置信度:
基于所述目标图像中的一个像素点与该像素点所属对象的对象边框中每条边框的距离所位于的目标距离范围对应的第一概率值,确定该像素点所属对象的对象边框信息对应的第二置信度。
在具体实施时,可以将像素点所属对象的对象边框中所有边框对应的目标距离范围对应的第一概率值的均值作为上述第二置信度。
当然,还可以利用其他方法确定第二置信度,本公开对基于目标距离范围对应的第一概率值确定第二置信度的方法并不进行限定。
上述实施方式,利用像素点分别与每条边框的距离对应的最大第一概率值,能够确定该像素点所属对象的对象边框信息的置信度,即上述第二置信度,增强了对象边框的信息表达能力。
在一些实施例中,上述基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,具体可以利用如下步骤实现:
基于所述分类特征图,确定所述目标图像中每个像素点所属的对象为每种预设对象类型的第二概率值;基于最大的所述第二概率值对应的预设对象类型,确定该像素点所属对象的对象类型信息。
在具体实施时,可以利用卷积神经网络或卷积层对分类特征图进行图像特征提取,得到像素点所属的对象为每种预设对象类型的第二概率值。之后,选取最大的第二概率值对应的预设对象类型,来确定该像素点所属对象的对象类型信息。如图2所示,利用本实施例确定的猫对应的第二概率值最大,因此确定对象类型信息与猫对应。
上述实施方式,选取最大概率值对应的预设对象类型作为该像素点所属对象的对象类型信息,提高了确定的对象类型信息的准确度。
在一些实施例中,如图5所示,上述基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息,具体可以利用如下步骤实现:
S510、从所述目标图像中筛选出多个目标像素点;在所述目标图像中不同的目标像素点之间的距离小于预设阈值,并且不同的目标像素点所属对象的对象类型信息相同。
这里,筛选得到的多个目标像素点为同一个对象上的像素点。
S520、从每个目标像素点所属对象的对象边框信息中,选取最高的目标置信度对应的对象边框信息,得到目标边框信息。
对于同一对象上的像素点,可以选取最高的目标置信度对应的对象边框信息对对象进行定位,其他目标置信度较低的对象边框信息可以剔除,以降低对象定位过程中的计算量。
S530、基于选取的所述目标边框信息,以及所述目标边框信息对应的目标置信度,确定所述目标图像中对象的定位信息。
上述实施方式,从距离比较近的、对象类型信息相同的像素点中选取目标置信度最高的对象边框信息,来进行对象的定位,能够有效减少用于进行对象定位的对象边框信息的数量,有利于提高对象定位的时效性。
对应于上述定位方法,本公开实施例还提供了一种定位装置,该装置对图像中的对象进行定位的终端设备上,并且该装置及其各个模块能够执行与上述定位方法相同的方法步骤,并且能够达到相同或相似的有益效果,因此对于重复的部分不再赘述。
如图6所示,本公开提供的定位装置包括:
图像获取模块610,用于获取目标图像。
图像处理模块620,用于基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度。
置信度处理模块630,用于基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度。
定位模块640,用于基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
在一些实施例中,所述图像特征图包括用于对所述目标图像中的像素点所属的对象进行分类的分类特征图和用于对所述目标图像中的像素点所属的对象进行定位的定位特征图;
所述图像处理模块620用于:
基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度;
基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
在一些实施例中,所述图像处理模块620在基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息时,用于:
针对所述目标图像中的一个像素点,基于所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围;
基于所述目标距离范围和所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的目标距离;
基于该像素点在所述目标图像中的位置信息,和该像素点与每条边框的目标距离,确定该像素点所属对象的对象边框信息。
在一些实施例中,所述图像处理模块620在确定一个像素点与该像素点所述对象的对象边框中的每条边框的距离所位于的目标距离范围时,用于:
针对所述目标图像中的一个像素点所属对象的对象边框中的一条边框,基于所述定位特征图,确定该像素点与该条边框的最大距离;
将所述最大距离进行分段处理,得到多个距离范围;
基于所述定位特征图,确定该像素点与该条边框的距离位于每个距离范围内的第一概率值;
基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。
在一些实施例中,所述图像处理模块620在基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围时,用于:
基于所述定位特征图,确定该像素点与该条边框的距离不确定参数值;
基于所述距离不确定参数值和每个第一概率值,确定该像素点与该条边框的距离位于每个距离范围内的目标概率值;
将最大的目标概率值对应的距离范围作为该像素点与该条边框的距离所位于的目标距离范围。
在一些实施例中,所述图像处理模块620在确定所述对象边框信息对应的第二置信度时,用于:
基于所述目标图像中的一个像素点与该像素点所属对象的对象边框中每条边框的距离所位于的目标距离范围对应的第一概率值,确定该像素点所属对象的对象边框信息对应的第二置信度。
在一些实施例中,所述图像处理模块620在基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息时,用于:
基于所述分类特征图,确定所述目标图像中每个像素点所属的对象为每种预设对象类型的第二概率值;
基于最大的所述第二概率值对应的预设对象类型,确定该像素点所属对象的对象类型信息。
在一些实施例中,所述定位模块640用于:
从所述目标图像中筛选出多个目标像素点;在所述目标图像中不同的目标像素点之间的距离小于预设阈值,并且不同的目标像素点所属对象的对象类型信息相同;
从每个目标像素点所属对象的对象边框信息中,选取最高的目标置信度对应的对象边框信息,得到目标边框信息;
基于选取的所述目标边框信息,以及所述目标边框信息对应的目标置信度,确定所述目标图像中对象的定位信息。
本公开实施例公开了一种电子设备,如图7所示,包括:处理器701、存储器702和总线703,所述存储器702存储有所述处理器701可执行的机器可读指令,当电子设备运行时,所述处理器701与所述存储器702之间通过总线703通信。
所述机器可读指令被所述处理器701执行时执行以下定位方法的步骤:
获取目标图像;
基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度;
基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度;
基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
除此之外,机器可读指令被处理器701执行时,还可以执行上述方法部分描述的任一实施方式中的方法内容,这里不再赘述。
本公开实施例还提供的一种对应于上述方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,本文不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本公开中不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种定位方法,其特征在于,包括:
获取目标图像;
基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度;
基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度;
基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
2.根据权利要求1所述的定位方法,其特征在于,所述图像特征图包括用于对所述目标图像中的像素点所属的对象进行分类的分类特征图和用于对所述目标图像中的像素点所属的对象进行定位的定位特征图;
所述基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度,包括:
基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度;
基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
3.根据权利要求2所述的定位方法,其特征在于,所述基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,包括:
针对所述目标图像中的一个像素点,基于所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围;
基于所述目标距离范围和所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的目标距离;
基于该像素点在所述目标图像中的位置信息,和该像素点与每条边框的目标距离,确定该像素点所属对象的对象边框信息。
4.根据权利要求3所述的定位方法,其特征在于,确定一个像素点与该像素点所述对象的对象边框中的每条边框的距离所位于的目标距离范围,包括:
针对所述目标图像中的一个像素点所属对象的对象边框中的一条边框,基于所述定位特征图,确定该像素点与该条边框的最大距离;
将所述最大距离进行分段处理,得到多个距离范围;
基于所述定位特征图,确定该像素点与该条边框的距离位于每个距离范围内的第一概率值;
基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。
5.根据权利要求4所述的定位方法,其特征在于,所述基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围,包括:
基于所述定位特征图,确定该像素点与该条边框的距离不确定参数值;
基于所述距离不确定参数值和每个第一概率值,确定该像素点与该条边框的距离位于每个距离范围内的目标概率值;
将最大的所述目标概率值对应的距离范围,作为该像素点与该条边框的距离所位于的目标距离范围。
6.根据权利要求4所述的定位方法,其特征在于,确定所述对象边框信息对应的第二置信度,包括:
基于所述目标图像中的一个像素点与该像素点所属对象的对象边框中每条边框的距离所位于的目标距离范围对应的第一概率值,确定该像素点所属对象的对象边框信息对应的第二置信度。
7.根据权利要求2至6任一项所述的定位方法,其特征在于,所述基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,包括:
基于所述分类特征图,确定所述目标图像中每个像素点所属的对象为每种预设对象类型的第二概率值;
基于最大的所述第二概率值对应的预设对象类型,确定该像素点所属对象的对象类型信息。
8.根据权利要求1至7任一项所述的定位方法,其特征在于,所述基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息,包括:
从所述目标图像中筛选出多个目标像素点;在所述目标图像中不同的目标像素点之间的距离小于预设阈值,并且不同的目标像素点所属对象的对象类型信息相同;
从每个目标像素点所属对象的对象边框信息中,选取最高的目标置信度对应的对象边框信息,得到目标边框信息;
基于选取的所述目标边框信息,以及所述目标边框信息对应的目标置信度,确定所述目标图像中对象的定位信息。
9.一种定位装置,其特征在于,包括:
图像获取模块,用于获取目标图像;
图像处理模块,用于基于所述目标图像的图像特征图,确定所述目标图像中每个像素点所属对象的对象类型信息、每个像素点所属对象的对象边框信息、所述对象类型信息对应的第一置信度和所述对象边框信息对应的第二置信度;
置信度处理模块,用于基于所述第一置信度和所述第二置信度,分别确定每个像素点所属对象的对象边框信息的目标置信度;
定位模块,用于基于每个像素点所属对象的对象边框信息和所述对象边框信息的目标置信度,确定所述目标图像中对象的定位信息。
10.根据权利要求9所述的定位装置,其特征在于,所述图像特征图包括用于对所述目标图像中的像素点所属的对象进行分类的分类特征图和用于对所述目标图像中的像素点所属的对象进行定位的定位特征图;
所述图像处理模块用于:
基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息,和所述对象类型信息对应的第一置信度;
基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息,和所述对象边框信息对应的第二置信度。
11.根据权利要求10所述的定位装置,其特征在于,所述图像处理模块在基于所述定位特征图,确定所述目标图像中每个像素点所属对象的对象边框信息时,用于:
针对所述目标图像中的一个像素点,基于所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的距离所位于的目标距离范围;
基于所述目标距离范围和所述定位特征图,分别确定该像素点与该像素点所属对象的对象边框中的每条边框的目标距离;
基于该像素点在所述目标图像中的位置信息,和该像素点与每条边框的目标距离,确定该像素点所属对象的对象边框信息。
12.根据权利要求11所述的定位装置,其特征在于,所述图像处理模块在确定一个像素点与该像素点所述对象的对象边框中的每条边框的距离所位于的目标距离范围时,用于:
针对所述目标图像中的一个像素点所属对象的对象边框中的一条边框,基于所述定位特征图,确定该像素点与该条边框的最大距离;
将所述最大距离进行分段处理,得到多个距离范围;
基于所述定位特征图,确定该像素点与该条边框的距离位于每个距离范围内的第一概率值;
基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围。
13.根据权利要求12所述的定位装置,其特征在于,所述图像处理模块在基于确定的所述第一概率值,从所述多个距离范围中,选取该像素点与该条边框的距离所位于的目标距离范围时,用于:
基于所述定位特征图,确定该像素点与该条边框的距离不确定参数值;
基于所述距离不确定参数值和每个第一概率值,确定该像素点与该条边框的距离位于每个距离范围内的目标概率值;
将最大的目标概率值对应的距离范围作为该像素点与该条边框的距离所位于的目标距离范围。
14.根据权利要求12所述的定位装置,其特征在于,所述图像处理模块在确定所述对象边框信息对应的第二置信度时,用于:
基于所述目标图像中的一个像素点与该像素点所属对象的对象边框中每条边框的距离所位于的目标距离范围对应的第一概率值,确定该像素点所属对象的对象边框信息对应的第二置信度。
15.根据权利要求10至14任一项所述的定位装置,其特征在于,所述图像处理模块在基于所述分类特征图,确定所述目标图像中每个像素点所属对象的对象类型信息时,用于:
基于所述分类特征图,确定所述目标图像中每个像素点所属的对象为每种预设对象类型的第二概率值;
基于最大的所述第二概率值对应的预设对象类型,确定该像素点所属对象的对象类型信息。
16.根据权利要求9至15任一项所述的定位装置,其特征在于,所述定位模块用于:
从所述目标图像中筛选出多个目标像素点;在所述目标图像中不同的目标像素点之间的距离小于预设阈值,并且不同的目标像素点所属对象的对象类型信息相同;
从每个目标像素点所属对象的对象边框信息中,选取最高的目标置信度对应的对象边框信息,得到目标边框信息;
基于选取的所述目标边框信息,以及所述目标边框信息对应的目标置信度,确定所述目标图像中对象的定位信息。
17.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1~8任一所述的定位方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1~8任一所述的定位方法。
CN202010058788.7A 2020-01-18 2020-01-18 定位方法及装置、电子设备、计算机可读存储介质 Active CN111275040B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010058788.7A CN111275040B (zh) 2020-01-18 2020-01-18 定位方法及装置、电子设备、计算机可读存储介质
PCT/CN2021/072210 WO2021143865A1 (zh) 2020-01-18 2021-01-15 定位方法及装置、电子设备、计算机可读存储介质
JP2022500616A JP2022540101A (ja) 2020-01-18 2021-01-15 ポジショニング方法及び装置、電子機器、コンピュータ読み取り可能な記憶媒体
KR1020227018711A KR20220093187A (ko) 2020-01-18 2021-01-15 포지셔닝 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010058788.7A CN111275040B (zh) 2020-01-18 2020-01-18 定位方法及装置、电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111275040A true CN111275040A (zh) 2020-06-12
CN111275040B CN111275040B (zh) 2023-07-25

Family

ID=70998770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010058788.7A Active CN111275040B (zh) 2020-01-18 2020-01-18 定位方法及装置、电子设备、计算机可读存储介质

Country Status (4)

Country Link
JP (1) JP2022540101A (zh)
KR (1) KR20220093187A (zh)
CN (1) CN111275040B (zh)
WO (1) WO2021143865A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931723A (zh) * 2020-09-23 2020-11-13 北京易真学思教育科技有限公司 目标检测与图像识别方法和设备、计算机可读介质
CN112819003A (zh) * 2021-04-19 2021-05-18 北京妙医佳健康科技集团有限公司 一种提升体检报告ocr识别准确率的方法及装置
WO2021143865A1 (zh) * 2020-01-18 2021-07-22 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN114613147A (zh) * 2020-11-25 2022-06-10 浙江宇视科技有限公司 一种车辆违章的识别方法、装置、介质及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762109B (zh) * 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
US20190035101A1 (en) * 2017-07-27 2019-01-31 Here Global B.V. Method, apparatus, and system for real-time object detection using a cursor recurrent neural network
CN109426803A (zh) * 2017-09-04 2019-03-05 三星电子株式会社 用于识别对象的方法和设备
CN109522938A (zh) * 2018-10-26 2019-03-26 华南理工大学 一种基于深度学习的图像中目标的识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275040B (zh) * 2020-01-18 2023-07-25 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190035101A1 (en) * 2017-07-27 2019-01-31 Here Global B.V. Method, apparatus, and system for real-time object detection using a cursor recurrent neural network
CN109426803A (zh) * 2017-09-04 2019-03-05 三星电子株式会社 用于识别对象的方法和设备
CN108764292A (zh) * 2018-04-27 2018-11-06 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
CN109522938A (zh) * 2018-10-26 2019-03-26 华南理工大学 一种基于深度学习的图像中目标的识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021143865A1 (zh) * 2020-01-18 2021-07-22 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111931723A (zh) * 2020-09-23 2020-11-13 北京易真学思教育科技有限公司 目标检测与图像识别方法和设备、计算机可读介质
CN111931723B (zh) * 2020-09-23 2021-01-05 北京易真学思教育科技有限公司 目标检测与图像识别方法和设备、计算机可读介质
CN114613147A (zh) * 2020-11-25 2022-06-10 浙江宇视科技有限公司 一种车辆违章的识别方法、装置、介质及电子设备
CN114613147B (zh) * 2020-11-25 2023-08-04 浙江宇视科技有限公司 一种车辆违章的识别方法、装置、介质及电子设备
CN112819003A (zh) * 2021-04-19 2021-05-18 北京妙医佳健康科技集团有限公司 一种提升体检报告ocr识别准确率的方法及装置

Also Published As

Publication number Publication date
WO2021143865A1 (zh) 2021-07-22
KR20220093187A (ko) 2022-07-05
CN111275040B (zh) 2023-07-25
JP2022540101A (ja) 2022-09-14

Similar Documents

Publication Publication Date Title
CN108229322B (zh) 基于视频的人脸识别方法、装置、电子设备及存储介质
CN111275040A (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN109325964B (zh) 一种人脸追踪方法、装置及终端
CN108960211B (zh) 一种多目标人体姿态检测方法以及***
US8395676B2 (en) Information processing device and method estimating a posture of a subject in an image
CN108009466B (zh) 行人检测方法和装置
CN114119676B (zh) 基于多特征信息融合的目标检测跟踪识别方法和***
CN106203539B (zh) 识别集装箱箱号的方法和装置
CN111126184B (zh) 一种基于无人机视频的震后建筑物损毁检测方法
CN105678213B (zh) 基于视频特征统计的双模式蒙面人事件自动检测方法
CN111814690B (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN112464797A (zh) 一种吸烟行为检测方法、装置、存储介质及电子设备
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN113378675A (zh) 一种同时检测和特征提取的人脸识别方法
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN112101134B (zh) 物体的检测方法及装置、电子设备和存储介质
CN113657370A (zh) 一种文字识别方法及其相关设备
CN116363655A (zh) 一种财务票据识别方法及***
CN108985216B (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
CN116091781A (zh) 一种用于图像识别的数据处理方法及装置
US20220405527A1 (en) Target Detection Methods, Apparatuses, Electronic Devices and Computer-Readable Storage Media
CN115019152A (zh) 一种图像拍摄完整度判定方法及装置
CN114494355A (zh) 基于人工智能的轨迹分析方法、装置、终端设备及介质
CN113378837A (zh) 车牌遮挡识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant