CN109165654A - 一种目标定位模型的训练方法和目标定位方法及装置 - Google Patents

一种目标定位模型的训练方法和目标定位方法及装置 Download PDF

Info

Publication number
CN109165654A
CN109165654A CN201810992851.7A CN201810992851A CN109165654A CN 109165654 A CN109165654 A CN 109165654A CN 201810992851 A CN201810992851 A CN 201810992851A CN 109165654 A CN109165654 A CN 109165654A
Authority
CN
China
Prior art keywords
model
image
loss function
coordinate
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810992851.7A
Other languages
English (en)
Other versions
CN109165654B (zh
Inventor
叶锦宇
刘玉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiuhu Times Intelligent Technology Co Ltd
Original Assignee
Beijing Jiuhu Times Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiuhu Times Intelligent Technology Co Ltd filed Critical Beijing Jiuhu Times Intelligent Technology Co Ltd
Priority to CN201810992851.7A priority Critical patent/CN109165654B/zh
Publication of CN109165654A publication Critical patent/CN109165654A/zh
Application granted granted Critical
Publication of CN109165654B publication Critical patent/CN109165654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种目标定位模型的训练方法,包括:将图像样本输入到卷积模型,以提取图像样本的第一图像特征;将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;根据所述第一前景坐标和第二前景坐标计算模型损失函数;根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。采用上述方案,通过训练卷积模型、分割模型和回归模型,使得实际预测阶段的卷积模型获得更好的图像特征,同时,利用回归模型提升图像定位速度。

Description

一种目标定位模型的训练方法和目标定位方法及装置
技术领域
本申请涉及图像识别技术领域,尤其是涉及一种目标定位模型的训练方法和目标定位方法及装置。
背景技术
图像的定位识别技术在生活生产中被广泛的应用,尤其是在金融信审业务中,为了应对海量的待识别图像,信审人员通常会借助图像定位识别技术来完成智能信审(一般是对用户的身份证、银行卡和营业执照等资料进行审核),以节约人力成本,并提升生产效率。
现有的图像定位识别技术是以OCR识别技术为基础开发出来的技术。但目前的OCR识别技术尚不完善。
发明内容
有鉴于此,本申请的目的在于提供一种目标定位模型的训练方法和目标定位方法及装置。
第一方面,本申请实施例提供了一种目标定位模型的训练方法,所述方法包括:
将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
根据所述第一前景坐标和第二前景坐标计算模型损失函数;
根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,步骤所述根据所述第一前景坐标和第二前景坐标计算模型损失函数,包括:
根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
根据所述第一损失函数和第二损失函数,确定模型损失函数。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,步骤根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,包括:
判断模型损失函数是否符合预设的输出要求;
若模型损失函数不符合预设的输出要求,则根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,并重新执行步骤将图像样本输入到卷积模型,以提取图像样本的第一图像特征。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,步骤根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,还包括:
判断模型损失函数是否符合预设的输出要求;
若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型。
第二方面,本申请实施例还提供一种目标定位方法,其中,将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
第三方面,本申请实施例还提供一种目标定位模型的训练装置,其中,包括第一提取模块,用于将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
第一处理模块,用于将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
第二图像处理模块,用于将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
第一分析模块,用于根据所述第一前景坐标和第二前景坐标计算模型损失函数;
第一生成模块,用于根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。
结合第三方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述第一分析模块包括:第一分析单元、第二分析单元和第一确定单元;
所述第一分析单元,用于根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
所述第二分析单元,用于根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
所述第一确定单元,用于根据所述第一损失函数和第二损失函数,确定模型损失函数。
结合第三方面的第一种可能的实施方式,本申请实施例提供了第三方面的第二种可能的实施方式,其中,所述第一生成模块包括:第一判断单元、第一生成单元和第一处理单元;
所述第一判断单元,用于判断模型损失函数是否符合预设的要求;
所述第一处理单元,当模型损失函数不符合预设的输出要求时,则用于根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,并驱动第一提取模块重新工作。
结合第三方面的第一种可能的实施方式,本申请实施例提供了第三方面的第三种可能的实施方式,其中,所述第一生成模块还包括:第二判断单元和第二生成单元;
第二判断单元,用于判断模型损失函数是否符合预设的输出要求;
第二生成单元,用于若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型。
第四方面,本申请实施例还提供一种目标定位的装置,其中,包括第二提取模块和第二分析模块;
所述第二提取模块,用于将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
所述第二分析模块,用于将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
本申请实施例提供的一种目标定位模型的训练方法,包括:将图像样本输入到卷积模型,以提取图像样本的第一图像特征;将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;根据所述第一前景坐标和第二前景坐标计算模型损失函数;根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。即,在训练阶段,利用分割模型帮助卷积模型,和/或回归模型进行训练,并最终在训练完成后,将卷积模型和回归模型组成目标定位模型,以改善在使用分割模型的情况下定位速度较慢的情况。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种目标定位模型的训练方法的基本流程图;
图2示出了在本申请实施例所提供的一种目标定位模型的训练方法中,所使用到的训练过程中的模型的示意图;
图3示出了本申请实施例所提供的一种目标定位模型的训练方法的优化流程图;
图4示出了本申请实施例所提供的另一种目标定位模型的训练方法的优化流程图;
图5示出了本申请实施例所提供的一种目标定位方法的流程图;
图6示出了在本申请实施例所提供的一种目标定位方法中,训练完成的模型的示意图;
图7示出了本申请实施例所提供的一种目标定位模型的训练装置的结构示意图;
图8示出了本申请实施例所提供的一种进行目标定位模型的训练方法和目标定位方法的计算设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图像的定位识别技术应用广泛,尤其是在金融审核业务中。信审人员每天需要对用户上传至页面或者APP端的海量身份证、银行卡、营业执照等资料进行审核。近年来随着GPU、TPU等硬件加速设备的发展,以及各类图像识别算法在准确率方面的提升,开始利用人工智能技术来进行图像的定位识别,以节约人力成本和提升生产效率。
目前在金融信审业务中,主要使用的是OCR识别技术。通过OCR识别技术可以自动识别用户上传的证件图片中的文字信息。金融信审业务中的审核对象,不论是身份证,还是银行卡,基本都是矩形外框,且文本区域相对固定,文字大小统一。整个OCR识别技术中定位技术是通过分别对图片前景和文字区域的定位来进行图像定位。为了实现来自网页端和APP端的图片定位,通常会在一个限定了图片大小和长宽比固定的前置框内,要求用户上传图片,然后进行图片的OCR识别。其中前置框的限定,相当于过滤掉了背景图,极大的降低了前景定位和文字定位的难度。另外,在不加前置框的前提下,利用传统的边界检测以及近年来兴起的神经网络来进行区域定位,定位到前景区域的坐标后,抠取前景图片,再进行后续的文字区域定位。
对于加前置框的处理方法,一般用于手机APP端,调取用户手机的摄像头进行现场拍摄。该方案限于用户上传的图片必须是现场拍摄,而无法使用相册中存储的历史图片,另外前置框的设置也提升了用户拍照的难度,降低了用户体验。另外,当前置框不是一个强规则的时候,只能在一定程度上限制背景区域在整个图片中的占比,后续步骤依然少不了前景定位。当不加前置框限制时,图片可能来自现场拍摄,也可以是相册中的历史图片。当利用传统的边界检测来进行前景定位时,首先边界检测受到图片质量的影响较大,鲁棒性不强,当图片不清晰,边界特征不明显或者背景过于复杂的时候,将无法获得定位结果,或者定位误差很大。
考虑到上述问题,本申请实施例提供了一种目标定位模型的训练方法和目标定位方法及装置,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种目标定位模型的训练方法进行介绍,如图1所示,该方法包括如下步骤:
S101,将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
S102,将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
S103,将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
S104,根据所述第一前景坐标和第二前景坐标计算模型损失函数;
S105,根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。
如图2所示,示出了上述步骤S101-S105所使用到的训练中的模型,该训练中的模型由卷积模型201、分割模型202和回归模型203组成。其中,分割模型202和回归模型203作为接收卷积模型的输出结果的两个模型,分别接收由卷积模型输出的图像样本的第一图像特征。
如步骤S101,在训练时,先将作为训练集的图像样本(如像素矩阵)按比例缩放至卷积模型的输入大小,然后将其输入到卷积模型。这是考虑到卷积模型中的全连接层对输入的图像尺寸是有要求的。具体而言,虽然卷积模型中的卷积层对于图像没有尺寸的限制要求,但全链接层需要输入固定大小的图像。因此,需要对图像样本的尺寸进行统一的调整,即调整为固定的大小。更具体的,全链接层输入向量的维数(反应了输入的图像的大小)与全链接层的权值参数个数是相对应的,若输入向量的维数不固定,则全链接层的权值参数个数也是不固定的,在此种情况下,卷积模型在训练的过程中将持续变化,可能导致卷积模型最终无法训练成功。所以,这里应当将固定大小的图像的像素矩阵作为图像样本输入到卷积模型中,以使卷积模型能够提取图像样本的第一图像特征。
S102和S103可以是同时进行的两个步骤,步骤S102在具体执行时,通过使用分割模型对图像样本的第一图像特征进行分割识别,以确定图像样本的第一前景坐标。此处,分割模型是利用各种图像分割算法,以较为准确的定位图像的前景坐标。这里使用的图像分割算法,主要有基于阈值的分割方法、基于边缘的分割方法、基于区域的分割方法、基于聚类分析的图像分割方法、基于小波变换的分割方法、基于数学形态学的分割方法和基于人工神经网络的分割方法等。其中,利用人工神经网络的分割算法是通过训练多层感知机来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的。这种分割模型需要大量的训练数据,而神经网络存在巨量的连接,容易引入空间信息,能较好地解决图像中的噪声和不均匀问题。因此,上述分割模型优选为利用人工网络的分割算法的模型。
另外,步骤S103在具体执行时,主要通过使用回归模型,对第一图像特征进行线性回归定位,以得到图像样本的第二前景坐标。回归模型主要是通过给待定位目标向量寻找与之对应的映射,以使目标向量与目标的真实位置向量误差最小。即,给定输入的第一图像特征的特征向量,然后通过学***移,然后再进行尺度缩放,以得到图像样本的第二前景坐标的预测值。并计算预测值和实际值之间的函数关系,得到优化参数。最后通过优化参数的学习,使得预测值接近真实值,以得到图像样本的第二前景坐标。
步骤S104是将分割模型和回归模型在训练过程中分别获得的第一损失函数(第一损失函数是根据第一前景坐标确定的)和第二损失函数(第二损失函数是根据第二前景坐标确定的)进行计算,以得到模型损失函数。
步骤S105中,利用模型损失函数对卷积函数、分割函数和回归模型同时进行训练。利用模型损失函数可以使训练模型的每一部分得到优化,以生成最后由卷积模型和回归模型组成的目标定位模型。具体实现时,可以是利用模型损失函数对分割模型和回归模型进行训练,也可以是对卷积模型和回归模型进行训练,或者用模型损失函数对卷积模型、分割模型和损失模型进行训练。
本申请实施例中的目标定位模型的训练方法,首先是利用卷积模型提取图像样本的第一图像特征,然后将卷积模型输出的结果,即第一图像特征分别输入到分割模型和回归模型,并根据分割模型和回归模型的输出结果对卷积模型、分割模型和回归模型同时进行训练,从而得到由卷积模型和回归模型组成的目标定位模型,以改善在使用分割模型的情况下定位速度较慢的情况。
进一步的,步骤S104可以按照以下步骤实现,如图3所示:
S301,根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
S302,根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
S303,根据所述第一损失函数和第二损失函数,确定模型损失函数。
步骤S301,是将分割模型得到的第一前景坐标与图像样本中目标的实际坐标进行比较,以确定第一损失函数。其中,在模型训练的过程中,会事先确定图像样本中目标的实际坐标,并进行标注,以确定第一损失函数。
步骤S302中,通过计算第二前景坐标即预测值,和图像样本中目标的实际坐标即真实值的区别,确定第二损失函数。具体执行的时候,步骤S301和步骤S302可以是同时执行的,也可以是分别执行的。
步骤S303中,根据前述步骤中获得的第一损失函数和第二损失函数,计算得到最终的模型损失函数。这里的第一损失函数和第二损失函数是随着模型损失函数分别对卷积模型、分割模型和回归模型进行优化而持续生成的,即生成不同的第一前景坐标和第二前景坐标,并将第一前景坐标和第二前景坐标分别和实际坐标进行比较,以分别生成对应的第一损失函数和第二损失函数。通过持续的生成第一损失函数和第二损失函数,并对第一损失函数和第二损失函数进行计算,确定最终的模型损失函数。
进一步的,如图4所示,步骤S105可以按照以下步骤实现,步骤S105包含两种情况,第一种情况具体如下:
S401,判断模型损失函数是否符合预设的输出要求;
S402,若模型损失函数不符合预设的要求,则根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,并重新执行步骤将图像样本输入到卷积模型,以提取图像样本的第一图像特征。
根据第一损失函数和第二损失函数确定模型损失函数后,对生成的模型损失函数进行判断,当最终的模型损失函数不符合预设的输出要求时,则应当重新执行步骤将图像样本输入到卷积模型,以提取图像样本的第一图像特征;将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;根据所述第一前景坐标和第二前景坐标计算模型损失函数;再根据生成的模型损失函数对卷积模型、分割模型和回归模型同时模型进行训练。预设的输出要求是指当卷积模型、分割模型和回归模型分别输出的结果与真实结果的误差最小时,则将与之对应的,根据第一损失函数和第二损失函数确定的模型损失函数确定为最终的模型损失函数。
第二种情况如下:
S403,判断模型损失函数是否符合预设的输出要求;
S404,若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型。
符合预设的输出要求的模型损失函数训练出的卷积模型和回归模型则应当为最终确定的目标定位模型。当判断该模型损失函数符合预设的输出要求时,即确定模型损失函数是最优的模型损失函数时,利用梯度下降算法计算模型损失函数的梯度值,计算对应的优化参数,并利用模型参数训练卷积模型、分割模型和回归模型,并生成最终由卷积模型和回归模型组成的目标定位模型。利用分割模型训练卷积模型以使卷积模型可以在实际应用中获取精度更高的图像特征,同时,训练后的回归模型具有更好的定位速度。
综上所述,所提供的一种目标定位模型的训练方法,通过分别训练卷积模型、分割模型和回归模型,使得实际预测阶段的卷积模型获得更好的图像特征,同时,训练回归模型提升图像定位速度。
与上述目标定位模型的训练方法相对应的,本申请还提供一种目标定位方法,如图5所示:
S501,将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
S502,将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
步骤S501和S502是使用上述步骤训练确定的目标定位摸型来进行实际预测的过程。通过将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征。此处的目标定位模型是根据上述步骤S101到S105训练确定的目标定位模型。目标定位模型中的卷积模型根据分割模型的参数进行了优化,可以更精确的提取目标图像的第二图像特征。将第二图像特征输入到目标定位模型中的回归模型,以生成最终需要的目标图像的前景坐标。实际预测使用的目标定位模型既可以对目标图像有较高的定位精度,同时也会有更块的定位速度。
在图像定位的实际应用中,舍弃分割模型,使用卷积模型和回归模型组成的目定位模型,可以改善分割模型定位速度较慢的问题,更好更快的获得图像定位结果。
上述图5所述的方法是利用目标定位模型进行的,即如图6所示,最后生成的实际的目标定位模型是由卷积模型601和回归模型602组成的。利用目标定位模型中的卷积模型和回归模型不仅提高了目标定位的精度,同时也提高了定位的速度。
综上,本申请前述方法的实施例的具体步骤如下:
步骤1,将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
步骤2,将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
步骤3,根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
步骤4,将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
步骤5,根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
步骤6,根据第一损失函数和第二损失函数,确定模型损失函数;
步骤7,判断模型损失函数是否符合预设的输出要求;
步骤8,若模型损失函数不符合预设的输出要求,则根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,并重新执行步骤将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
步骤9,若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型;
步骤10,将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
步骤11,将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
通过上述步骤1-9实现了目标定位模型的训练方法,通过上述步骤10-11实现了目标定位方法。
本申请实施例中,通过训练由卷积模型、回归模拟和分割模型组成的模型结构,并在训练过程中,利用回归模型和分割模型构造的模型损失函数,来更新共享卷积层、回归层和分割层的参数。在实际应用阶段,舍弃分割模型,将回归模型的输出作为最终的结果。综上,因为卷积模型进行特征抽象后进行回归模型定位,模型的训练速度较快,但定位精度不高,如果用分割定位,可以获得很高的定位精度,但模型复杂,训练时间长。而通过回归模型和分割模型共享卷积层,在训练阶段利用分割模型来获得更好的模型特征,预测阶段用回归模型,来加快预测速度,同时也提高了预测的精度。
另外,本申请实施例还提供了一种目标定位模型的训练装置,如图7所示:第一提取模块701,用于将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
第一处理模块702,用于将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
第二处理模块703,用于将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
第一分析模块704,用于根据所述第一前景坐标和第二前景坐标计算模型损失函数;
第一生成模块705,用于根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。
其中,第一分析模块704包括:第一分析单元、第二分析单元和第一确定单元;
第一分析单元,用于根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
第二分析单元,用于根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
第一确定单元,根据所述第一损失函数和第二损失函数进行计算,以确定模型损失函数。
其中,第一生成模块705包括:第一判断单元和第一处理单元;
第一判断单元,用于判断模型损失函数是否符合预设的输出要求;
第一处理单元,当模型损失函数不符合预设的输出要求,用于根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,并驱动第一提取模块重新工作。
其中,第一生成模块705还包括:第二判断单元和第二生成单元;
第二判断单元,用于判断模型损失函数是否符合预设的输出要求;
第二生成单元,用于若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型。
本申请实施例还包括一种目标定位的装置,包括第二提取模块和第二分析模块;
第二提取模块,用于将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
第二分析模块,用于将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
如图8所示,为本申请实施例所提供的计算设备示意图,该计算设备80包括:处理器81、存储器82和总线83,存储器82存储有执行指令,当计算设备运行时,处理器81与存储器82之间通过总线83通信,处理器81执行存储器82中存储的如进行目标定位模型的训练方法和目标定位方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例进行目标定位模型的训练方法和目标定位方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述进行目标定位模型的训练方法和目标定位方法,从而通过分别训练卷积模型、分割模型和回归模型,使得实际预测阶段的卷积模型获得更好的图像特征,同时,利用回归模型提升图像定位速度。
本申请实施例所提供的进行目标定位模型的训练方法和目标定位方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种目标定位模型的训练方法,其特征在于,包括:
将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
根据所述第一前景坐标和第二前景坐标计算模型损失函数;
根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。
2.根据权利要求1所述的方法,其特征在于,根据所述第一前景坐标和第二前景坐标计算模型损失函数,包括:
根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
根据所述第一损失函数和第二损失函数,确定模型损失函数。
3.根据权利要求1所述的方法,其特征在于,根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,包括:
判断模型损失函数是否符合预设的输出要求;
若模型损失函数不符合预设的输出要求,则根据模型损失函数对卷积模型、分割模型和回归模型中同时进行训练,并重新执行步骤将图像样本输入到卷积模型,以提取图像样本的第一图像特征。
4.根据权利要求3所述的方法,其特征在于,根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,还包括:
判断模型损失函数是否符合预设的输出要求;
若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型。
5.一种目标定位方法,其特征在于,基于如权利要求1-4任一项所述的方法,包括:
将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
6.一种目标定位模型的训练装置,其特征在于,包括:
第一提取模块,用于将图像样本输入到卷积模型,以提取图像样本的第一图像特征;
第一处理模块,用于将所述第一图像特征输入到分割模型,以生成图像样本的第一前景坐标;
第二处理模块,用于将所述第一图像特征输入到回归模型,以生成图像样本的第二前景坐标;
第一分析模块,用于根据所述第一前景坐标和第二前景坐标计算模型损失函数;
第一生成模块,用于根据模型损失函数对卷积模型、分割模型和回归模型中同时进行训练,以生成由卷积模型和回归模型组成的目标定位模型。
7.根据权利要求6所述的一种装置,其特征在于,所述第一分析模块包括:第一分析单元、第二分析单元和第一确定单元;
所述第一分析单元,用于根据所述第一前景坐标和图像样本中目标的实际坐标的差别,确定第一损失函数;
所述第二分析单元,用于根据所述第二前景坐标和图像样本中目标的实际坐标的差别,确定第二损失函数;
所述第一确定单元,用于根据所述第一损失函数和第二损失函数,确定模型损失函数。
8.根据权利要求6所述的一种装置,其特征在于,所述第一生成模块包括:第一判断单元、第一生成单元和第一处理单元;
所述第一判断单元,用于判断模型损失函数是否符合预设的输出要求;
所述第一处理单元,当模型损失函数不符合预设的输出要求时,则用于根据模型损失函数对卷积模型、分割模型和回归模型同时进行训练,并驱动第一提取模块重新工作。
9.根据权利要求8所述的一种装置,其特征在于,所述第一生成模块还包括:第二判断单元和第二生成单元;
第二判断单元,用于判断模型损失函数是否符合预设的输出要求;
第二生成单元,用于若模型损失函数符合预设的输出要求,则生成由卷积模型和回归模型组成的目标定位模型。
10.一种目标定位的装置,其特征在于,包括:第二提取模块和第二分析模块;
所述第二提取模块,用于将目标图像输入到目标定位模型中的卷积模型,以提取目标图像的第二图像特征;
所述第二分析模块,用于将所述第二图像特征输入到所述目标定位模型中的回归模型,以生成目标图像的前景坐标。
CN201810992851.7A 2018-08-23 2018-08-23 一种目标定位模型的训练方法和目标定位方法及装置 Active CN109165654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810992851.7A CN109165654B (zh) 2018-08-23 2018-08-23 一种目标定位模型的训练方法和目标定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810992851.7A CN109165654B (zh) 2018-08-23 2018-08-23 一种目标定位模型的训练方法和目标定位方法及装置

Publications (2)

Publication Number Publication Date
CN109165654A true CN109165654A (zh) 2019-01-08
CN109165654B CN109165654B (zh) 2021-03-30

Family

ID=64893338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810992851.7A Active CN109165654B (zh) 2018-08-23 2018-08-23 一种目标定位模型的训练方法和目标定位方法及装置

Country Status (1)

Country Link
CN (1) CN109165654B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675453A (zh) * 2019-10-16 2020-01-10 北京天睿空间科技股份有限公司 一种已知场景中运动目标的自定位方法
CN111080694A (zh) * 2019-12-20 2020-04-28 上海眼控科技股份有限公司 定位模型的训练和定位方法、装置、设备以及存储介质
CN111179628A (zh) * 2020-01-09 2020-05-19 北京三快在线科技有限公司 自动驾驶车辆的定位方法、装置、电子设备及存储介质
CN113469172A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 目标定位、模型训练、界面交互方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550746A (zh) * 2015-12-08 2016-05-04 北京旷视科技有限公司 机器学习模型的训练方法和训练装置
CN107730514A (zh) * 2017-09-29 2018-02-23 北京奇虎科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
CN108133186A (zh) * 2017-12-21 2018-06-08 东北林业大学 一种基于深度学习的植物叶片识别方法
CN108416412A (zh) * 2018-01-23 2018-08-17 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流复合码识别方法
CN108416378A (zh) * 2018-02-28 2018-08-17 电子科技大学 一种基于深度神经网络的大场景sar目标识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550746A (zh) * 2015-12-08 2016-05-04 北京旷视科技有限公司 机器学习模型的训练方法和训练装置
CN107730514A (zh) * 2017-09-29 2018-02-23 北京奇虎科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
CN108133186A (zh) * 2017-12-21 2018-06-08 东北林业大学 一种基于深度学习的植物叶片识别方法
CN108416412A (zh) * 2018-01-23 2018-08-17 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流复合码识别方法
CN108416378A (zh) * 2018-02-28 2018-08-17 电子科技大学 一种基于深度神经网络的大场景sar目标识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JOSEPH REDMON等: "You Only Look Once: Unified, Real-Time Object Detection", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
KAIMING HE等: "Mask R-CNN", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
SHELLCOLLECTOR: "深度学习剪枝", 《HTTPS://BLOG.CSDN.NET/JACKE121/ARTICLE/DETAILS/79450321》 *
STEFAN P NICULESCU: "Artificial neural networks and genetic algorithms in QSAR", 《JOURNAL OF MOLECULAR STRUCTURE: THEOCHEM》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675453A (zh) * 2019-10-16 2020-01-10 北京天睿空间科技股份有限公司 一种已知场景中运动目标的自定位方法
CN110675453B (zh) * 2019-10-16 2021-04-13 北京天睿空间科技股份有限公司 一种已知场景中运动目标的自定位方法
CN111080694A (zh) * 2019-12-20 2020-04-28 上海眼控科技股份有限公司 定位模型的训练和定位方法、装置、设备以及存储介质
CN111179628A (zh) * 2020-01-09 2020-05-19 北京三快在线科技有限公司 自动驾驶车辆的定位方法、装置、电子设备及存储介质
CN111179628B (zh) * 2020-01-09 2021-09-28 北京三快在线科技有限公司 自动驾驶车辆的定位方法、装置、电子设备及存储介质
CN113469172A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 目标定位、模型训练、界面交互方法及设备
CN113469172B (zh) * 2020-03-30 2022-07-01 阿里巴巴集团控股有限公司 目标定位、模型训练、界面交互方法及设备

Also Published As

Publication number Publication date
CN109165654B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
US11030471B2 (en) Text detection method, storage medium, and computer device
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN110852447B (zh) 元学习方法和装置、初始化方法、计算设备和存储介质
CN109165654A (zh) 一种目标定位模型的训练方法和目标定位方法及装置
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
CN109492627B (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
CN110517278A (zh) 图像分割和图像分割网络的训练方法、装置和计算机设备
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN105205453B (zh) 基于深度自编码器的人眼检测和定位方法
CN107330439A (zh) 一种图像中物体姿态的确定方法、客户端及服务器
CN110047095A (zh) 基于目标检测的跟踪方法、装置及终端设备
CN110852257B (zh) 一种人脸关键点的检测方法、装置及存储介质
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN111274999B (zh) 数据处理、图像处理方法、装置及电子设备
CN111401192B (zh) 基于人工智能的模型训练方法和相关装置
CN112651333B (zh) 静默活体检测方法、装置、终端设备和存储介质
CN110298281A (zh) 视频结构化方法、装置、电子设备及存储介质
CN115830449A (zh) 显式轮廓引导和空间变化上下文增强的遥感目标检测方法
CN114930409A (zh) 多任务人脸检测器和特征点检测器
WO2021042544A1 (zh) 基于去网纹模型的人脸验证方法、装置、计算机设备及存储介质
CN112749576B (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN104915641A (zh) 基于android平台获取人脸图像光源方位的方法
CN111429414A (zh) 基于人工智能的病灶影像样本确定方法和相关装置
CN116468702A (zh) 黄褐斑评估方法、装置、电子设备及计算机可读存储介质
CN115222578A (zh) 图像风格迁移方法、程序产品、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant