CN110197100B - 物体定位方法和装置 - Google Patents

物体定位方法和装置 Download PDF

Info

Publication number
CN110197100B
CN110197100B CN201810161862.0A CN201810161862A CN110197100B CN 110197100 B CN110197100 B CN 110197100B CN 201810161862 A CN201810161862 A CN 201810161862A CN 110197100 B CN110197100 B CN 110197100B
Authority
CN
China
Prior art keywords
probability density
target
density function
determining
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810161862.0A
Other languages
English (en)
Other versions
CN110197100A (zh
Inventor
马星辰
王旭
张彦刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201810161862.0A priority Critical patent/CN110197100B/zh
Publication of CN110197100A publication Critical patent/CN110197100A/zh
Application granted granted Critical
Publication of CN110197100B publication Critical patent/CN110197100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种物体定位方法和装置,其中,方法包括:获取物体的目标图像,确定目标图像对应的各概率密度函数的目标参数值,根据各概率密度函数的目标参数值,生成混合概率密度函数,根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题,同时扩展了应用场景,提高了定位的效率。

Description

物体定位方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种物体定位方法和装置。
背景技术
机器学习模型是实现人工智能的基础,通过训练好的学习模型可以实现物体的定位。
相关技术中,物体定位的方法,对于场景中物体的个数有一定限制,当实际场景中的物体个数和模型训练时的物体个数不相符,则电子设备无法准确定位到物体的位置,定位效率低,可应用场景较少。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种物体定位方法,以实现通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,解决了现有技术中模型仅能够对图像中符合固定个数的物体进行定位的技术问题,扩展了应用场景,提高了定位的效率。
本发明提出一种物体定位装置。
本发明提出一种计算机设备。
本发明提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种物体定位方法,包括:
获取物体的目标图像;
确定所述目标图像对应的各概率密度函数的目标参数值;
根据各概率密度函数的目标参数值,生成混合概率密度函数;其中,所述混合概率密度函数用于指示所述目标图像中物体处于不同位置的概率;
根据所述混合概率密度函数,确定所述目标图像中物体的目标位置。
可选地,作为第一方面的第一种可能的实现方式,所述根据所述混合概率密度函数,确定所述目标图像中物体的目标位置,包括:
依据所述混合概率密度函数进行随机采样,得到所述目标图像中多个候选位置;
根据所述多个候选位置,确定所述目标位置。
可选地,作为第一方面的第二种可能的实现方式,所述根据所述多个候选位置,确定所述目标位置,包括:
根据所述多个候选位置之间的距离,对所述多个候选位置进行聚类,以得到至少一个聚簇;
针对每一个聚簇,根据聚簇中所含候选位置的平均值,确定一个目标位置。
可选地,作为第一方面的第三种可能的实现方式,所述方法,还包括:
对所述多个候选位置进行聚类,以得到至少一个聚簇之后,根据聚簇的个数,确定所述目标图像中呈现物体的个数;
或者,确定所述目标图像中物体的目标位置之后,根据所述目标位置的个数,确定所述目标图像中呈现物体的个数。
可选地,作为第一方面的第四种可能的实现方式,所述参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重;
所述根据各概率密度函数的目标参数值,生成混合概率密度函数,包括:
根据用于指示期望和方差的目标参数值,确定对应概率密度函数的期望和方差;
根据用于指示权重的目标参数值,对确定期望和方差的概率密度函数进行加权求和,得到所述混合概率密度函数。
可选地,作为第一方面的第五种可能的实现方式,所述确定所述目标图像对应的各概率密度函数的目标参数值,包括:
将所述目标图像输入经过训练的神经网络模型;所述神经网络模型已学习得到各图像特征与各概率密度函数的参数值之间的映射关系,包括用于进行特征提取的输入层,以及用于输出各概率密度函数的参数值的输出层;
获取所述神经网络模型输出的各概率密度函数的目标参数值。
可选地,作为第一方面的第六种可能的实现方式,所述神经网络模型采用如下方式得到:
获取经过标注的训练样本;其中,所述训练样本,是对一个或多个物体组合进行成像得到的图像;所述训练样本的标注,用于指示各概率密度函数中的一个概率密度函数的期望,所述标注的取值是根据所述训练样本成像的各物体中的其中一个物体成像区域所在位置确定的;
采用所述经过标注的训练样本,对所述神经网络模型进行训练。
可选地,作为第一方面的第七种可能的实现方式,所述采用经过标注的训练样本,对所述神经网络模型进行训练,包括:
将所述训练样本输入所述神经网络模型,以得到所述神经网络模型输出的参数值;
根据所述参数值和所述训练样本的标注确定损失函数的取值,并根据所述损失函数的取值,采用反向梯度算法对所述神经网络模型进行模型参数调整;当所述损失函数取值最小时,所述神经网络模型训练完成。
可选地,作为第一方面的第八种可能的实现方式,所述根据所述参数值和所述训练样本的标注确定损失函数的取值,包括:
将用于指示期望和方差的参数值,以及将所述训练样本的标注,代入各概率密度函数对应的似然函数;
根据各概率密度函数对应的似然函数取值,以及用于指示权重的参数值,确定所述混合概率密度函数的似然函数取值;
根据所述混合概率密度函数的似然函数取值,确定所述损失函数取值。
可选地,作为第一方面的第九种可能的实现方式,所述训练样本成像的物体个数不大于所述概率密度函数的个数。
可选地,作为第一方面的第十种可能的实现方式,各概率密度函数符合高斯型分布。
可选地,作为第一方面的第十一种可能的实现方式,所述目标位置包括所述物体的成像区域的中心位置;所述确定所述目标图像中物体的目标位置之后,还包括:
根据所述目标位置,进行物体抓取。
本发明实施例的物体定位方法中,获取物体的目标图像,确定目标图像对应的各概率密度函数的目标参数值,根据各概率密度函数的目标参数值,生成混合概率密度函数,根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题,同时扩展了应用场景,提高了定位的效率。
为达上述目的,本发明第二方面实施例提出了一种物体定位装置,包括:
获取模块,用于获取物体的目标图像;
处理模块,用于确定所述目标图像对应的各概率密度函数的目标参数值;
生成模块,用于根据各概率密度函数的目标参数值,生成混合概率密度函数;其中,所述混合概率密度函数用于指示所述物体的成像区域处于所述目标图像中不同位置的概率;
定位模块,用于根据所述混合概率密度函数,确定所述物体的成像区域在所述目标图像中的目标位置。
本发明实施例的物体定位装置中,获取模块用于获取物体的目标图像,处理模块用于确定目标图像对应的各概率密度函数的目标参数值,生成模块用于根据各概率密度函数的目标参数值,生成混合概率密度函数,定位模块用于根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题,同时扩展了应用场景,提高了定位的效率。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该程序时,实现第一方面所述的物体定位方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当所述存储介质中的指令由处理器执行时,实现第一方面所述的物体定位方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种物体定位方法的流程示意图;
图2为本申请实施例所提供的一种神经网络模型的训练方法的流程示意图;
图3为本发明实施例所提供的另一种物体定位方法的流程示意图;
图4即为物体定位方法的识别结果示意图;
图5为本发明实施例提供的一种物体定位装置的结构示意图;
图6为本发明实施例所提供的另一种物体定位装置的结构示意图;以及
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本申请各实施例针对相关技术中,需要确定物***置,对物体进行抓取时,采用的是模型直接回归物体空间位置的方法,或者是采用训练分类网络的方法来确定物***置,这两种方法,都要求实际场景中的物体数量和训练场景中的物体数量严格对应,一般为单个物体的场景,当场景中物体数量大于一个时,就使得物体空间位置识别精度较差,且网络泛化较差的问题,提出了一种物体定位方法。
本申请实施例提出的物体定位方法,获取物体的目标图像,确定目标图像对应的各概率密度函数的目标参数值,根据各概率密度函数的目标参数值,生成混合概率密度函数,根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,不限定图像中物体个数为固定个数,扩展了应用场景,提高了定位的效率。
下面参考附图描述本发明实施例的物体定位方法和装置。
图1为本发明实施例所提供的一种物体定位方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,获取物体的目标图像。
其中,本申请实施例的物体定位方法的执行主体,为本申请实施例提供的物体定位装置,该装置可被配置在包含摄像装置的电子设备中,对获取的物体的目标图像进行物体定位,识别物体在目标图像中的目标位置。
具体地,利用电子设备的摄像头对应用场景中待确定位置的物体,采集包含物体的目标图像。
步骤102,确定目标图像对应的各概率密度函数的目标参数值。
其中,目标参数值用于指示目标图像的图像特征对应的各概率密度函数的参数值,包含期望、方差和/或在混合概率密度函数中所占的权重。
具体地,将目标图像输入经过训练的神经网络模型,经过训练的神经网络模型已学习得到各图像特征与各概率密度函数的参数值之间的映射关系,该神经网络模型包括用于对输入的目标图像进行特征提取的输入层,以及用于输出各概率密度函数的参数值的输出层。将目标图像输入该经过训练的神经网络模型后,可获取神经网络模型输出的对应目标图像特征的各概率密度函数的目标参数值。
需要说明的是,神经网络模型可为多层的深度卷积神经网络模型。对于神经网络模型的训练方法,下述实施例中会详细介绍。
步骤103,根据各概率密度函数的目标参数值,生成混合概率密度函数。
具体地,神经网络模型根据目标图像的特征确定目标图像对应的各概率密度函数的期望和方差,还可以确定各概率密度函数在混合概率密度函数中所占的权重,从而,根据用于指示权重的目标参数值,对确定了期望和方差的概率密度函数进行加权求和,得到混合概率密度函数。
其中,混合概率密度函数用于指示目标图像中物体处于不同位置的概率。每一个概率密度函数符合对应的分布形态,作为一种可能的实现方式,各概率密度函数均符合高斯型分布,区别仅在于不同概率密度函数的期望和方差不同,以及在混合概率密度函数中所占权重可能存在差异。
步骤104,根据混合概率密度函数,确定目标图像中物体的目标位置。
具体地,根据混合概率密度函数进行随机采样,得到目标图像中多个候选位置,根据多个候选位置确定目标位置。
本发明实施例的物体定位方法中,获取物体的目标图像,确定目标图像对应的各概率密度函数的目标参数值,根据各概率密度函数的目标参数值,生成混合概率密度函数,根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,将物***置以空间的分布概率形式进行描述,解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题,同时扩展了应用场景,提高了定位的效率。
根据上述实施例的描述可知,将待识别物体输入到训练完成的神经网络模型中,获取神经网络模型输出的目标参数值,根据目标参数值生成混合概率密度函数,进而确定目标图像中物体的目标位置,其中,步骤102中用于确定目标参数值的神经网络模型是预先训练完成的,通过对神经网络模型的训练,可以调整各神经网络模型的网络参数,以使得神经网络模型的输出层可以输出符合需求的各概率密度函数的参数值,以及各概率密度函数在混合概率密度函数中所占的权重,以使训练完成的神经网络模型输出的目标参数,生成的混合概率密度函数可以准确描述目标图像中物体中心坐标的分布,从而准确的确定目标图像中物体的位置。作为一种可能的实现方式,本申请实施例提出了一种神经网络模型的训练方法的可能的实现方式。
图2为本申请实施例所提供的一种神经网络模型的训练方法的流程示意图。
如图2所示,该方法可以包括以下步骤:
步骤201,获取经过标注的训练样本。
具体地,训练样本是对一个或多个物体组合进行成像得到的图像,对训练样本进行标注,是用于指示各概率密度函数中的一个概率密度函数的期望,标注的取值是根据训练样本成像的各物体中的其中一个物体成像区域所在位置确定的,例如该标注值可以为图像中物体的中心坐标。
举例,若采集到的图像中包含2个物体,为了便于描述,称为物体1和物体2,则对该图像中的2个物体分别进行标注,首先标注图像中物体1的位置,将图像中标注了物体1位置的图像作为一个训练样本,然后,标注图像中物体2的位置,将图像中标注了物体2位置的图像作为又一个训练样本,即得到分别标注了物体1位置和物体2位置的2个图像作为训练样本。
需要说明的是,本实施例中的训练样本,仅为举例说明,实际应用中训练样本的数量是较大的,本例中并不限定训练样本的数量,以及得到的训练样本的图像中物体的个数。
步骤202,将训练样本输入神经网络模型,得到神经网络模型输出的参数值。
其中,参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重。
具体地,将训练样本输入神经网络模型中,神经网络模型的输入层根据训练样本对应的图像进行特征提取,神经网络模型根据提取到的图像特征,确定图像特征对应的神经网络模型中各概率密度函数的参数值,利用神经网络模型的输出层输出对应训练样本的输出参数值。
步骤203,根据参数值和训练样本的标注确定损失函数的取值。
具体地,将用于指示期望和方差的参数值,以及训练样本的标注,代入各概率密度函数对应的似然函数,根据各概率密度函数对应的似然函数取值,以及用于指示权重的参数值,进行加权平均求和,确定混合概率密度函数的似然函数取值,根据混合概率密度函数的似然函数取值,确定损失函数取值,从而调整模型参数,使得损失函数取值最小,神经网络模型尽快收敛。
作为一种可能的实现方式,各概率密度函数符合高斯型分布,单个概率密度函数的似然函数可以用如下公式表示:
Figure BDA0001583244910000071
其中,t代表标注的取值,μi代表每个概率密度函数的期望,
Figure BDA0001583244910000072
代表概率密度函数的方差,x为需预测的物***置,例如物体的中心位置坐标。
混合概率密度函数的似然函数公式为:
Figure BDA0001583244910000073
其中,n为概率密度函数的个数,αi为各概率密度函数的似然函数在混合概率密度函数中所占的权重,αi的和为1。
由于单个概率密度函数对应的似然函数取值较小,进行加权求和后取值仍较小,因此,作为一种可能的实现方式,可以对混合概率密度函数的似然函数做对数运算,然后取反得到损失函数,损失函数用E表示,则E=-lnP。
需要说明的是,实际应用中,本领域技术人员会根据实际情况使用各种trick对损失函数进行变换,包括但不限于在对混合概率密度函数的似然函数做对数运算并取反之前,进行指数运算和求和运算等,本实施例中对损失函数的获取方法不做具体限定。
步骤204,当损失函数取值最小时,神经网络模型训练完成。
具体地,根据损失函数的取值,调整神经网络模型的参数,以使得神经网络模型在确定的模型参数下,获得的损失函数的取值最小,当损失函数取值最小时,神经网络模型训练完成。
作为一种可能的实现方式,可采用反向梯度算法,逆向确定神经网络模型的模型参数,具体为:按照步骤203确定损失函数的取值,然后梯度减小损失函数值,反向调整神经网络模型的模型参数,同时反向调整神经网络模型本身的矩阵权值系数,以使得损失函数的取值尽量小,在全部训练数据完成后,达到整体平衡的最优解,即损失函数值最小,从而确定了神经网络模型的参数,即神经网络模型训练完成。
本实施例的物体识别方法中,在采用神经网络模型进行图像中物体识别之前,需要先对神经网络模型进行训练,神经网络模型包含多个概率密度函数,各概率密度函数符合高斯型分布,通过对神经网络模型进行训练,调整神经网络模型的模型参数,使得神经网络模型可以根据不同的图像输入,输出混合高斯模型的权值系数和参数,而混合高斯模型的参数和权值系数,描述了图像中物体中心坐标的分布规律,同时,可以使得当应用场景中获取到的图像中物体的个数不大于神经网络模型中包含的概率密度函数的个数时,均可以准确识别场景中物体的位置,提高了识别的准确率,同时,图像中物体的个数不受限制,扩展了应用场景。
上述实施例中,描述了根据获取的物体的目标图像,通过训练完成的神经网络模型,可获取生成混合概率密度函数的参数值,根据生成的混合概率密度函数确定目标图像中物体的位置,而在实际的应用场景中,例如机器人抓取应用场景中,场景中的物体可能为多个,获取的物体的目标图像中物体个数则也为多个,利用本实施例的方法还可以确定目标图像中物体的个数。
基于上述实施例,本发明还提出了一种物体定位方法的可能的实现方式,进一步说明了,通过混合概率密度函数确定图像中物***置时,还可以确定图像中物体的个数,并对图像中的物体进行抓取,图3为本发明实施例所提供的另一种物体定位方法的流程示意图,如图3所示,该方法包括如下步骤:
步骤301,获取物体的目标图像。
本实施例的方法可以用于实际场景中的机器人抓取场景中,为了便于理解,本实施例结合机器人抓取场景进行解释说明。
具体地,机器人待抓取的物体为两种瓶装物体,比如为纸杯、维生素瓶,采用机器人的机械臂携带的摄像头,移动该机械臂采集图像,采集到的图像为纸杯和维生素瓶在同一个图像中。
步骤302,确定目标图像对应的各概率密度函数的目标参数值。
具体地,将包含纸杯和维生素瓶的目标图像输入训练好的神经网络模型中,神经网络模型的输入层,提取图像的图像特征,根据图像特征和各概率密度函数之间的映射关系,得到对应该目标图像的目标参数值。目标参数值用于指示目标图片对应的各概率密度函数的期望、方差和/或在混合概率密度函数中所占的比重。
其中,概率密度函数符合高斯型分布。
步骤303,根据各概率密度函数的目标参数值,生成混合概率密度函数。
具体地,目标图像中有一个或多个物体,每个物体的像素中心坐标都由混合概率密度函数中的每个概率密度函数共同产生,每个概率密度函数的贡献程度是由概率密度函数在混合概率密度函数中所占的比重决定。每个概率密度函数的期望用于指示在该期望对应的坐标处可能存在一个物体中心,而在物体的中心坐标处,概率密度函数的概率密度值最大,如果目标图像中存在物体的中心,则该概率密度函数在混合概率密度函数中所占的比重也最大,则此时混合概率密度函数对应该期望的中心坐标的概率密度值也最大。
步骤304,根据混合概率密度函数,进行随机采样,得到目标图像中的多个候选位置。
具体地,概率密度函数具有集中性和对称性,生成的混合概率密度函数也同样具有集中性和对称性,由于目标参数值用于指示各概率密度函数的期望、方差和/在混合概率密度函数中所占的比重,而各概率密度函数在混合概率密度函数中所占的比重,指示了各概率密度函数在混合概率密度函数中存在的概率,也就是说混合概率密度函数可用于指示目标图像中物体处于不同位置的概率。对混合概率密度函数对应的坐标数据进行随机采样,坐标为(x,y),采样值会大概率集中在物体真实存在的坐标附近,越接近真实物体的中心坐标,采样值处的概率密度值越大。根据采样得到的数据,得到目标图像中多个候选位置。
步骤305,根据多个候选位置进行聚类,得到至少一个聚簇,针对聚簇,确定图像中物体的目标位置和物体的个数。
具体地,将采样确定的多个候选位置,根据多个候选位置之间的距离,采用聚类算法对候选位置进行聚类,得到至少一个聚簇,针对每一个聚簇,根据聚簇中所含候选位置的平均值,确定一个目标位置,进而可确定所有聚簇对应的目标位置。
进一步,根据聚簇个数,可确定目标图像中呈现物体的个数。或者,确定目标图像中物体的目标位置后,根据目标位置的个数,确定目标图像中呈现物体的个数。
图4即为物体定位方法的识别结果示意图,如图4所示,采用本申请实施例的物体定位方法,目标图像中含有2个物体,进行图像中物体定位后,确定了图像中物体的位置,图中“x”指示的位置即为识别出的物体在图像中的位置,进而识别出图像中物体的个数为2个。
本申请实施例不仅可以确定目标图像中物体的目标位置,还可以在目标图像中物体个数不止一个时,确定物体目标位置的同时确定目标物体的个数,相较于现有技术中,仅可在场景中物体个数为固定个数时,才可以确定物***置,扩展了应用场景,同时可识别图像中多个物体的位置,还提高了定位的效率。
步骤306,根据确定的物体的位置进行抓取。
具体地,确定物***置后,还可以根据具体的应用场景的需求,对物体进行抓取。例如机器人抓取应用场景中,通过机器人的抓取,解放了人的双手,或者是实现人手不便于操作的位置的抓取,给人们的生活带来了便利。
本发明实施例提出的物体定位方法中,获取物体的目标图像,确定目标图像对应的各概率密度函数的目标参数值,根据各概率密度函数的目标参数值,生成混合概率密度函数,根据混合概率密度函数,进行随机采样,得到多个候选位置,根据多个候选位置确定目标图像中物体的目标位置和物体的个数。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,对目标图形中待定位的物体,不限定物体个数为固定个数,扩展了应用场景,提高了定位的效率。
为了实现上述实施例,本发明还提出一种物体定位装置。
图5为本发明实施例提供的一种物体定位装置的结构示意图。
如图5所示,该装置包括:获取模块51、处理模块52、生成模块53和定位模块54。
获取模块51,用于获取物体的目标图像。
处理模块52,用于确定目标图像对应的各概率密度函数的目标参数值。
生成模块53,用于根据各概率密度函数的目标参数值,生成混合概率密度函数,其中,混合概率密度函数用于指示物体的成像区域处于目标图像中不同位置的概率。
定位模块54,用于根据混合概率密度函数,确定物体的成像区域在目标图像中的目标位置。
作为一种可能的实现方式,各概率密度函数符合高斯型分布。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的物体定位装置中,获取模块用于获取物体的目标图像,处理模块用于确定目标图像对应的各概率密度函数的目标参数值,生成模块用于根据各概率密度函数的目标参数值,生成混合概率密度函数,定位模块用于根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题,同时扩展了应用场景,提高了定位的效率。
基于上述实施例,本发明实施例还提供了一种物体定位装置的可能的实现方式,图6为本发明实施例所提供的另一种物体定位装置的结构示意图,在上一实施例的基础上,如图6所示,该装置还包括:抓取模块55和训练模块56。
抓取模块55,用于根据目标位置,进行物体抓取。
训练模块56,用于对输出各概率密度函数的目标参数值的神经网络模型进行训练。
作为本实施例的一种可能的实现方式,训练模块,可以包括:获取单元561和训练单元562。
获取单元561,用于获取经过标注的训练样本,其中,训练样本,是对一个或多个物体组合进行成像得到的图像,训练样本的标注,用于指示各概率密度函数中的一个概率密度函数的期望,标注的取值是根据训练样本成像的各物体中的其中一个物体成像区域所在位置确定的。
需要说明的是,训练样本成像的物体个数不大于概率密度函数的个数。
训练单元562,用于采用经过标注的训练样本,对神经网络模型进行训练。
作为本实施例的一种可能的实现方式,训练单元562,具体可以用于:
将训练样本输入神经网络模型,以得到神经网络模型输出的参数值,根据参数值和训练样本的标注确定损失函数的取值,并根据损失函数的取值,采用反向梯度算法对神经网络模型进行模型参数调整,当损失函数取值最小时,神经网络模型训练完成。
作为本实施例的一种可能的实现方式,训练单元562,还可以用于确定损失函数的取值,具体为:
将用于指示期望和方差的参数值以及将训练样本的标注,代入各概率密度函数对应的似然函数,根据各概率密度函数对应的似然函数取值,以及用于指示权重的参数值,确定混合概率密度函数的似然函数取值,根据混合概率密度函数的似然函数取值,确定损失函数取值。
作为本实施例的一种可能的实现方式,定位模块54,还可以包括:采样单元541和确定单元542。
采样单元541,依据混合概率密度函数进行随机采样,得到目标图像中多个候选位置。
确定单元542,根据多个候选位置,确定目标位置。
作为一种可能的实现方式,确定单元542,具体可以用于:
根据多个候选位置之间的距离,对多个候选位置进行聚类,以得到至少一个聚簇,针对每一个聚簇,根据聚簇中所含候选位置的平均值,确定一个目标位置。
作为一种可能的实现方式,确定单元542,还可以用于确定图像中物体的个数,具体为:
对多个候选位置进行聚类,以得到至少一个聚簇之后,根据聚簇的个数,确定目标图像中呈现物体的个数;
或者,确定目标图像中物体的目标位置之后,根据目标位置的个数,确定目标图像中呈现物体的个数。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的物体定位装置中,获取模块用于获取物体的目标图像,处理模块用于确定目标图像对应的各概率密度函数的目标参数值,生成模块用于根据各概率密度函数的目标参数值,生成混合概率密度函数,定位模块用于根据混合概率密度函数,确定目标图像中物体的目标位置。通过将模型学习各图像特征与各概率密度函数的参数值之间的映射关系,与概率密度函数确定物***置相结合,解决了相关技术中仅能够对图像中符合固定个数的物体进行准确定位的技术问题,同时扩展了应用场景,提高了定位的效率。
为了实现上述实施例,本发明第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该程序时,实现前述方法实施例所述的物体定位方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,当所述存储介质中的指令由处理器执行时,实现前述方法实施例所述的物体定位方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种物体定位方法,其特征在于,所述方法包括以下步骤:
获取物体的目标图像;
确定所述目标图像对应的各概率密度函数的目标参数值;
根据各概率密度函数的目标参数值,生成混合概率密度函数;其中,所述混合概率密度函数用于指示所述目标图像中物体处于不同位置的概率;
根据所述混合概率密度函数,确定所述目标图像中物体的目标位置;
其中,确定所述目标图像对应的各概率密度函数的目标参数值,包括:
将所述目标图像输入经过训练的神经网络模型;所述神经网络模型已学习得到各图像特征与各概率密度函数的参数值之间的映射关系,包括用于进行特征提取的输入层,以及用于输出各概率密度函数的参数值的输出层;获取所述神经网络模型输出的各概率密度函数的目标参数值;
所述神经网络模型采用如下方式得到:
获取经过标注的训练样本;其中,所述训练样本,是对一个或多个物体组合进行成像得到的图像;所述训练样本的标注,用于指示各概率密度函数中的一个概率密度函数的期望,所述标注的取值是根据所述训练样本成像的各物体中的其中一个物体成像区域所在位置确定的;采用所述经过标注的训练样本,对所述神经网络模型进行训练。
2.根据权利要求1所述的定位方法,其特征在于,所述根据所述混合概率密度函数,确定所述目标图像中物体的目标位置,包括:
依据所述混合概率密度函数进行随机采样,得到所述目标图像中多个候选位置;
根据所述多个候选位置,确定所述目标位置。
3.根据权利要求2所述的定位方法,其特征在于,所述根据所述多个候选位置,确定所述目标位置,包括:
根据所述多个候选位置之间的距离,对所述多个候选位置进行聚类,以得到至少一个聚簇;
针对每一个聚簇,根据聚簇中所含候选位置的平均值,确定一个目标位置。
4.根据权利要求3所述的定位方法,其特征在于,所述方法,还包括:
对所述多个候选位置进行聚类,以得到至少一个聚簇之后,根据聚簇的个数,确定所述目标图像中呈现物体的个数;
或者,确定所述目标图像中物体的目标位置之后,根据所述目标位置的个数,确定所述目标图像中呈现物体的个数。
5.根据权利要求1所述的定位方法,其特征在于,所述参数值用于指示各概率密度函数的期望、方差和/或在混合概率密度函数中所占的权重;
所述根据各概率密度函数的目标参数值,生成混合概率密度函数,包括:
根据用于指示期望和方差的目标参数值,确定对应概率密度函数的期望和方差;
根据用于指示权重的目标参数值,对确定期望和方差的概率密度函数进行加权求和,得到所述混合概率密度函数。
6.根据权利要求1所述的定位方法,其特征在于,所述采用经过标注的训练样本,对所述神经网络模型进行训练,包括:
将所述训练样本输入所述神经网络模型,以得到所述神经网络模型输出的参数值;
根据所述参数值和所述训练样本的标注确定损失函数的取值,并根据所述损失函数的取值,采用反向梯度算法对所述神经网络模型进行模型参数调整;当所述损失函数取值最小时,所述神经网络模型训练完成。
7.根据权利要求6所述的定位方法,其特征在于,所述根据所述参数值和所述训练样本的标注确定损失函数的取值,包括:
将用于指示期望和方差的参数值,以及将所述训练样本的标注,代入各概率密度函数对应的似然函数;
根据各概率密度函数对应的似然函数取值,以及用于指示权重的参数值,确定所述混合概率密度函数的似然函数取值;
根据所述混合概率密度函数的似然函数取值,确定所述损失函数取值。
8.根据权利要求1所述的定位方法,其特征在于,所述训练样本成像的物体个数不大于所述概率密度函数的个数。
9.根据权利要求1-8任一项所述的定位方法,其特征在于,各概率密度函数符合高斯型分布。
10.根据权利要求1-8任一项所述的定位方法,其特征在于,所述目标位置包括所述物体的成像区域的中心位置;所述确定所述目标图像中物体的目标位置之后,还包括:
根据所述目标位置,进行物体抓取。
11.一种物体定位装置,其特征在于,所述装置包括:
获取模块,用于获取物体的目标图像;
处理模块,用于确定所述目标图像对应的各概率密度函数的目标参数值;
生成模块,用于根据各概率密度函数的目标参数值,生成混合概率密度函数;其中,所述混合概率密度函数用于指示所述物体的成像区域处于所述目标图像中不同位置的概率;
定位模块,用于根据所述混合概率密度函数,确定所述物体的成像区域在所述目标图像中的目标位置;
其中,处理模块,具体用于将所述目标图像输入经过训练的神经网络模型;所述神经网络模型已学习得到各图像特征与各概率密度函数的参数值之间的映射关系,包括用于进行特征提取的输入层,以及用于输出各概率密度函数的参数值的输出层;获取所述神经网络模型输出的各概率密度函数的目标参数值;
所述神经网络模型采用如下方式得到:
获取经过标注的训练样本;其中,所述训练样本,是对一个或多个物体组合进行成像得到的图像;所述训练样本的标注,用于指示各概率密度函数中的一个概率密度函数的期望,所述标注的取值是根据所述训练样本成像的各物体中的其中一个物体成像区域所在位置确定的;采用所述经过标注的训练样本,对所述神经网络模型进行训练。
12.一种计算机设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-10中任一所述的物体定位方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的物体定位方法。
CN201810161862.0A 2018-02-27 2018-02-27 物体定位方法和装置 Active CN110197100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810161862.0A CN110197100B (zh) 2018-02-27 2018-02-27 物体定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810161862.0A CN110197100B (zh) 2018-02-27 2018-02-27 物体定位方法和装置

Publications (2)

Publication Number Publication Date
CN110197100A CN110197100A (zh) 2019-09-03
CN110197100B true CN110197100B (zh) 2022-07-26

Family

ID=67751233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810161862.0A Active CN110197100B (zh) 2018-02-27 2018-02-27 物体定位方法和装置

Country Status (1)

Country Link
CN (1) CN110197100B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102563752B1 (ko) * 2017-09-29 2023-08-04 삼성전자주식회사 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
CN113139006A (zh) * 2020-01-19 2021-07-20 深圳云天励飞技术有限公司 固定场所挖掘方法、装置、终端设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715849B2 (en) * 2001-02-28 2010-05-11 Nokia Corporation User positioning
CN1275201C (zh) * 2001-09-25 2006-09-13 松下电器产业株式会社 参数估计装置和数据匹配装置
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
US8774498B2 (en) * 2009-01-28 2014-07-08 Xerox Corporation Modeling images as sets of weighted features
CN103489009B (zh) * 2013-09-17 2016-08-17 北方信息控制集团有限公司 基于自适应修正神经网络的模式识别方法
KR102147361B1 (ko) * 2015-09-18 2020-08-24 삼성전자주식회사 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
CN105959987B (zh) * 2016-04-14 2019-05-14 北京邮电大学 一种提高无线传感器网络能量利用率和服务性能的数据融合算法
CN106485269B (zh) * 2016-09-28 2019-08-20 武汉大学 基于混合统计分布与多部件模型的sar图像目标检测方法

Also Published As

Publication number Publication date
CN110197100A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110197190B (zh) 模型训练和物体的定位方法及装置
CN109948542B (zh) 手势识别方法、装置、电子设备和存储介质
CN108304765B (zh) 用于人脸关键点定位与语义分割的多任务检测装置
US10936911B2 (en) Logo detection
CN110874594B (zh) 基于语义分割网络的人体外表损伤检测方法及相关设备
WO2020215672A1 (zh) 医学图像病灶检测定位方法、装置、设备及存储介质
Babenko et al. Robust object tracking with online multiple instance learning
CN110838125B (zh) 医学图像的目标检测方法、装置、设备、存储介质
CN104392223B (zh) 二维视频图像中的人体姿态识别方法
EP3488387A1 (en) Method for detecting object in image and objection detection system
Schauerte et al. Saliency-based identification and recognition of pointed-at objects
CN110175528B (zh) 人体跟踪方法及装置、计算机设备及可读介质
CN109977824B (zh) 物品取放识别方法、装置及设备
CN113012200B (zh) 一种运动物体的定位方法、装置、电子设备及存储介质
CN112991280B (zh) 视觉检测方法、***及电子设备
KR20170036747A (ko) 장면 내 키포인트를 추적하기 위한 방법
CN110197100B (zh) 物体定位方法和装置
CN111429481B (zh) 一种基于自适应表达的目标追踪方法、装置及终端
CN110796108B (zh) 一种人脸质量检测的方法、装置、设备及存储介质
CN109948515B (zh) 物体的类别识别方法和装置
CN110516638B (zh) 一种基于轨迹和随机森林的手语识别方法
CN112991281B (zh) 视觉检测方法、***、电子设备及介质
CN107729863B (zh) 人体指静脉识别方法
WO2019165626A1 (en) Methods and apparatus to match images using semantic features
Yashas et al. Hand gesture recognition: a survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant