CN112233078A - 一种堆叠千克组砝码识别与关键部位分割方法 - Google Patents
一种堆叠千克组砝码识别与关键部位分割方法 Download PDFInfo
- Publication number
- CN112233078A CN112233078A CN202011083318.2A CN202011083318A CN112233078A CN 112233078 A CN112233078 A CN 112233078A CN 202011083318 A CN202011083318 A CN 202011083318A CN 112233078 A CN112233078 A CN 112233078A
- Authority
- CN
- China
- Prior art keywords
- kilogram
- stacked
- weights
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000011478 gradient descent method Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000012937 correction Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 claims description 2
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 claims description 2
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种堆叠千克组砝码识别与关键部位分割方法,包括:确定千克组砝码特征及关键部位;对收集到的堆叠千克组砝码数据集进行标注;使用图像增强算法对标记数据进行图像增强、数据增强处理;使用ResNet+FPN网络作为堆叠千克组砝码及其关键部位的特征提取器;对堆叠千克组砝码关键部位进行分割以及对堆叠千克组砝码中千克组砝码实例进行识别、定位;使用增强过的堆叠千克组砝码数据对网络进行训练,目标函数为图像的交叉熵损失函数,用梯度下降法求解损失函数取,取到全局最小值或局部最小值时得到对应的模型参数,完成神经网络模型建立。本发明可快速精准地识别、分割堆叠千克组砝码及其关键部位,可适用于部分遮挡的低对比度物体识别与分割。
Description
技术领域
本发明涉及机器学习实例分割技术领域,尤其涉及一种堆叠千克组砝码识别与关键部位分割方法。
背景技术
堆叠砝码与砝码之间、砝码抓手的识别是典型的遮挡对象低对比度低饱和度图像检测问题。低对比度图像具有邻近像素的空间相关性高、灰度变化不明显的特点,图像中的目标、细节、特征等信息都包含在一个较窄的灰度范围内而难以区分,从而给目标的识别与分割带来困难。传统的目标识别方法多基于对轮廓片段等局部特征的模板匹配,记录匹配得分的情况实现对遮挡目标的识别。基于模板匹配的传统识别方法对遮挡物体的识别需要在特定的条件下才可以较准确的识别,在面对低对比度低饱和度遮挡物体时准确率不佳、定位误差较大。本发明提出的一种堆叠千克组砝码识别与关键部位分割方法,这个算法利用了目前先进的深度神经网络,具有很好的图像理解能力,再加上合理的图像增强及数据增强,解决了识别堆叠千克组砝码的问题。
发明内容
为解决上述技术问题,本发明的目的是提供一种堆叠千克组砝码识别与关键部位分割方法。
本发明的目的通过以下的技术方案来实现:
一种堆叠千克组砝码识别与关键部位分割方法,包括:
A确定千克组砝码特征及关键部位;
B对收集到的堆叠千克组砝码数据集进行标注;
C使用图像增强算法对标记数据进行图像增强、数据增强处理;
D使用ResNet+FPN网络作为堆叠千克组砝码及其关键部位的特征提取器;
E对堆叠千克组砝码关键部位进行分割以及对堆叠千克组砝码中千克组砝码实例进行识别、定位;
F使用增强过的堆叠千克组砝码数据对网络进行训练,目标函数为图像的交叉熵损失函数,用梯度下降法求解损失函数取,取到全局最小值或局部最小值时得到对应的模型参数,完成神经网络模型建立。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
可以快速精准地识别、分割堆叠千克组砝码及其关键部位,可适用于部分遮挡的低对比度物体识别与分割。为千克组砝码智能化检定过程的自动化抓取扫除了识别的技术障碍,为复杂环境下堆叠物体识别分割提供了相关技术。
附图说明
图1是堆叠千克组砝码识别与关键部位分割方法流程框图;
图2是改进Mask R-CNN网络的基础结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
本实施例提供了一种堆叠千克组砝码识别与关键部位分割方法,该方法是先将图片输入骨干网络进行特征提取得到特征图,以特征图中像素点为中心,设定若干个感兴趣区域;利用滑动窗口在特征图上为每个像素点生成若干预设尺寸的锚点框(anchor),通过anchor与ground truth间IoU(intersection over union,IoU)数值判断anchor中为目标或者背景,并修正目标anchor坐标。具体通过在x、y方向上增加平移修正量tx、ty,在长、宽方向上乘以tw、th进行缩放实现去掉anchor中判断为背景的ROI区域;边界框回归之前需经全连接层实现特征全连接计算,后输出边界框(bounding box);MASK生成分支则经图像维度扩展,经全卷积网络(fully convolutional network,FCN)后完成目标像素级实例分割。再用标注、增强好的样本数据将网络训练成识别、分割堆叠千克组砝码的专用网络。此网络可以快速精准地识别、分割堆叠千克组砝码及其关键部位,可适用于部分遮挡的低对比度物体识别与分割。为千克组砝码智能化检定过程的自动化抓取扫除了识别的技术障碍,为复杂环境下堆叠物体识别分割提供了相关技术。
如图1所示,为堆叠千克组砝码识别与关键部位分割流程,包括千克组砝码特征确定阶段;数据标注阶段;图片预处理、数据增强阶段;特征提取网络搭建阶段;特征识别与分割网络搭建阶段和网络训练阶段;具体包括如下步骤:
步骤10确定千克组砝码特征及关键部位;
步骤20使用VGG Image Annotator图形标注工具对收集到的堆叠千克组砝码数据集进行标注;
步骤30使用图像增强算法对标记数据进行图像增强、数据增强处理;
步骤40使用ResNet+FPN网络作为堆叠千克组砝码及其关键部位的特征提取器;
步骤50使用Fully convolutional Network全卷积网络对堆叠千克组砝码关键部位进行分割,Fully Connection Network全连接网络+Classifier分类器对堆叠千克组砝码中千克组砝码实例进行识别、定位;
步骤60使用增强过的堆叠千克组砝码数据对网络进行训练,目标函数为图像的交叉熵损失函数,用梯度下降法求解损失函数取,取到全局最小值或局部最小值时得到对应的模型参数,完成神经网络模型建立。
上述步骤10具体包括:
先确定千克组砝码易于辨识的特征,包括千克组砝码标识、千克组砝码边界;然后确定不太易于辨识的关键特征,包括堆叠千克组砝码边界、千克组砝码提手。
上述步骤20是在linux/ubuntu操作***环境下,打开VGG Image Annotator图形标注工具软件,利用软件提供的多边形标注框标记图片中感兴趣的特征并给相应实例命名,对收集到的堆叠千克组砝码数据集进行标注,并将标注数据以JSON文件格式存储,方便后续操作。
上述步骤30编写图像增强程序对数据集中图片进行对比度增强,对数据集进行数据增强,使数据集中图片大致包含实际使用中的所有情况,具体过程包括以下步骤:
(1)读取标注数据集的图片及JSON数据;
(2)对每张图片进行对比度增强及其他形式的图像变换,如翻转、旋转等;
(3)对每张图片对应的JSON坐标数据进行步骤(2)中同等变换;
(4)将增强的图像输出,将变换过后的坐标信息填入JSON文件中对应的字典内;
(5)循环遍历数据集中所有图片进行步骤(1)、步骤(2)、步骤(3)、步骤(5),生成所需大小的数据集。
上述步骤40具体包括:从网络上下载已经构建好的在COCO数据集上经过预先训练的ResNet+FPN网络作为整个算法的特征提取器;ResNet的一个基本结构,可用如下函数表示:
F=W2σ(W1x)
y=F(x,W1,W2)+x
其中,x、y分别表示网络的输入、输出;σ表示ReLU激活函数,W1、W2分别表示第一、二层网络的权重;整个ResNet网络结构由此基本结构层层叠加而成;ResNet的网络的基本结构如图2所示。
上述步骤50具体包括:使用Fully convolutiona1 Network全卷积网络对堆叠千克组砝码关键部位进行分割,得到千克组砝码在图像中的MASK掩膜0-1二值图像;使用Fully Connection Network全连接网络+Classifier分类器对堆叠千克组砝码中千克组砝码实例进行定位,得到千克组砝码在图像中的定位框信息。
上述步骤60中网络训练的内容包括:使用增强过的堆叠千克组砝码数据对网络进行训练,目标函数为图像的交叉熵损失函数。其损失函数如下:
Lfinal=Lrpn_c+Lrpn_b+Lmrcnn_b+Lmrcnn_m
式中:
Lmrcnn_m=Sigmoid(Clsk)——MASK损失。
其中:
MASK损失为二分类均值交叉熵损失,仅在其对应的第K类ROI计算时有定义,其他K-1个MASK对整个损失函数不做贡献。
网络的训练可由如下最优化公式:
其中pout表示神经网络的模型,是关于网络权重的函数;NaP表示样本个数;然后利用梯度下降法求解出使得上述方程取值最小时所对应的神经网络权重,获得训练完成的神经网络模型。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (7)
1.一种堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述方法包括:
A确定千克组砝码特征及关键部位;
B对收集到的堆叠千克组砝码数据集进行标注;
C使用图像增强算法对标记数据进行图像增强、数据增强处理;
D使用ResNet+FPN网络作为堆叠千克组砝码及其关键部位的特征提取器;
E对堆叠千克组砝码关键部位进行分割以及对堆叠千克组砝码中千克组砝码实例进行识别、定位;
F使用增强过的堆叠千克组砝码数据对网络进行训练,目标函数为图像的交叉熵损失函数,用梯度下降法求解损失函数取,取到全局最小值或局部最小值时得到对应的模型参数,完成神经网络模型建立。
2.如权利要求1所述的堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述步骤A具体包括:
先确定千克组砝码易于辨识的特征,包括千克组砝码标识、千克组砝码边界;
然后确定不太易于辨识的关键特征,包括堆叠千克组砝码边界、千克组砝码提手。
3.如权利要求1所述的堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述步骤B中使用VGG Image Annotator图形标注工具对收集到的堆叠千克组砝码数据集进行标注,具体包括:在linux/ubuntu操作***环境下,打开VGG Image Annotator图形标注工具软件,利用软件提供的多边形标注框标记图片中感兴趣的特征并给相应实例命名,对收集到的堆叠千克组砝码数据集进行标注,并将标注数据以JSON文件格式存储,方便后续操作。
4.如权利要求1所述的堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述步骤C具体包括编写图像增强程序对数据集中图片进行对比度增强,对数据集进行数据增强,使数据集中图片大致包含实际使用中的所有情况,具体过程包括以下步骤:
(1)读取标注数据集的图片及JSON数据;
(2)对每张图片进行对比度增强及其他形式的图像变换,其他形式包括翻转、旋转;
(3)对每张图片对应的JSON坐标数据进行步骤(2)中同等变换;
(4)将增强的图像输出,将变换过后的坐标信息填入JSON文件中对应的字典内;
(5)循环遍历数据集中所有图片进行步骤(1)、步骤(2)、步骤(3)、步骤(5),生成所需大小的数据集。
5.如权利要求1所述的堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述步骤D具体包括:
从网络上下载已经构建好的在COCO数据集上经过预先训练的ResNet+FPN网络作为整个算法的特征提取器;ResNet的一个基本结构,用如下函数表示:
F=W2σ(W1x)
y=F(x,W1,W2)+x
其中,x、y分别表示网络的输入、输出;σ表示ReLU激活函数,W1、W2分别表示第一、二层网络的权重;整个ResNet网络结构由此基本结构层层叠加而成。
6.如权利要求1所述的堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述步骤E具体包括:使用Fully convolutional Network全卷积网络对堆叠千克组砝码关键部位进行分割,得到千克组砝码在图像中的MASK掩膜0-1二值图像;
使用Fully Connection Network全连接网络+Classifier分类器对堆叠千克组砝码中千克组砝码实例进行识别、定位,得到千克组砝码在图像中的定位框信息。
7.如权利要求1所述的堆叠千克组砝码识别与关键部位分割方法,其特征在于,所述步骤F具体包括:
使用增强过的堆叠千克组砝码数据对网络进行训练,目标函数为图像的交叉熵损失函数;其损失函数如下:
Lfinal=Lrpn_c+Lrpn_b+Lmrcnn_b+Lmrcnn_m
式中:
Lmrcnn_m=Sigmoid(Clsk)——MASK损失;
其中:
MASK损失为二分类均值交叉熵损失,仅在其对应的第K类ROI计算时有定义,其他K-1个MASK对整个损失函数不做贡献;
网络的训练可由如下最优化公式:
其中pout表示神经网络的模型,是关于网络权重的函数;Nap表示样本个数;然后利用梯度下降法求解出使得上述方程取值最小时所对应的神经网络权重,获得训练完成的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011083318.2A CN112233078A (zh) | 2020-10-12 | 2020-10-12 | 一种堆叠千克组砝码识别与关键部位分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011083318.2A CN112233078A (zh) | 2020-10-12 | 2020-10-12 | 一种堆叠千克组砝码识别与关键部位分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112233078A true CN112233078A (zh) | 2021-01-15 |
Family
ID=74112082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011083318.2A Pending CN112233078A (zh) | 2020-10-12 | 2020-10-12 | 一种堆叠千克组砝码识别与关键部位分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233078A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420839A (zh) * | 2021-08-23 | 2021-09-21 | 齐鲁工业大学 | 用于堆叠平面目标物体的半自动标注方法及分割定位*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140544B1 (en) * | 2018-04-02 | 2018-11-27 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
CN109376712A (zh) * | 2018-12-07 | 2019-02-22 | 广州纳丽生物科技有限公司 | 一种人脸额头关键点的识别方法 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109584251A (zh) * | 2018-12-06 | 2019-04-05 | 湘潭大学 | 一种基于单目标区域分割的舌体图像分割方法 |
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
-
2020
- 2020-10-12 CN CN202011083318.2A patent/CN112233078A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140544B1 (en) * | 2018-04-02 | 2018-11-27 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109584251A (zh) * | 2018-12-06 | 2019-04-05 | 湘潭大学 | 一种基于单目标区域分割的舌体图像分割方法 |
CN109376712A (zh) * | 2018-12-07 | 2019-02-22 | 广州纳丽生物科技有限公司 | 一种人脸额头关键点的识别方法 |
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420839A (zh) * | 2021-08-23 | 2021-09-21 | 齐鲁工业大学 | 用于堆叠平面目标物体的半自动标注方法及分割定位*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN110598609B (zh) | 一种基于显著性引导的弱监督目标检测方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN109784333B (zh) | 基于点云带权通道特征的三维目标检测方法及*** | |
CN109255776B (zh) | 一种输电线路开口销缺损自动识别方法 | |
CN108596055B (zh) | 一种复杂背景下高分辨遥感图像的机场目标检测方法 | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN110599537A (zh) | 基于Mask R-CNN的无人机图像建筑物面积计算方法及*** | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
CN112233129B (zh) | 基于深度学习的并行多尺度注意力机制语义分割方法及装置 | |
CN113435240B (zh) | 一种端到端的表格检测和结构识别方法及*** | |
CN110298227B (zh) | 一种基于深度学习的无人机航拍图像中的车辆检测方法 | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
CN109919145B (zh) | 一种基于3d点云深度学习的矿卡检测方法及*** | |
CN113177456B (zh) | 基于单阶段全卷积网络和多特征融合的遥感目标检测方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110598698A (zh) | 基于自适应区域建议网络的自然场景文本检测方法和*** | |
CN112541491A (zh) | 基于图像字符区域感知的端到端文本检测及识别方法 | |
CN111612747A (zh) | 产品表面裂缝快速检测方法及检测*** | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN112233078A (zh) | 一种堆叠千克组砝码识别与关键部位分割方法 | |
CN111160372B (zh) | 一种基于高速卷积神经网络的大目标识别方法 | |
CN113326734A (zh) | 一种基于YOLOv5的旋转目标检测方法 | |
CN110766001B (zh) | 基于cnn和rnn的银行卡***定位与端到端识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210115 |