CN116758545A - 一种基于深度学习的纸质医药包装钢印字符识别方法 - Google Patents
一种基于深度学习的纸质医药包装钢印字符识别方法 Download PDFInfo
- Publication number
- CN116758545A CN116758545A CN202310665162.6A CN202310665162A CN116758545A CN 116758545 A CN116758545 A CN 116758545A CN 202310665162 A CN202310665162 A CN 202310665162A CN 116758545 A CN116758545 A CN 116758545A
- Authority
- CN
- China
- Prior art keywords
- loss
- character recognition
- frame
- steel seal
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004806 packaging method and process Methods 0.000 title claims abstract description 35
- 229910000831 Steel Inorganic materials 0.000 title claims abstract description 33
- 239000010959 steel Substances 0.000 title claims abstract description 33
- 239000003814 drug Substances 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 229940079593 drug Drugs 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004049 embossing Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005507 spraying Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1431—Illumination control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的纸质医药包装钢印字符识别方法,包括获取图像数据;对图像数据中的钢印字符进行标注,得到数据集并进行划分;将数据集输入基于目标检测网络框架构建的字符识别模型进行模型训练,并输出目标检测结果;根据目标检测结果调整模型参数,并继续训练模型直至模型的损失函数收敛,以及输出高准确度的字符识别结果;利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型,得出最终字符识别结果。本发明通过构建网络模型,并训练好模型后与图像采集设备连接,得到实时识别结果。与现有的钢印字符识别方法相比,保证了识别准确率的同时,识别的速度也更快。
Description
技术领域
本发明涉及纸质医药包装钢印识别技术领域,特别涉及一种基于深度学习的纸质医药包装钢印字符识别方法。
背景技术
根据药监局规定,纸质医药包装需要包含药品的生产批号、生产时间和有效期信息,上述信息一般采取压印或者喷码方式打印在纸质医药包装上。喷码方式成本较高,因此压印方式成为主流的打印方式。医药包装钢印字符通过字符模具施加压力形成,字符与背景的颜色相同。而且纸质包装不同于钢材等材质,纸质包装钢印的压印较浅,字符的边缘灰度值变化很小,字符识别的难度大。医药包装钢印字符包含了与药品相关的重要信息,其准确识别是具有重要意义的,但是对于医药包装钢印字符识别的相关研究很少。在实际生产过程当中,人工检测方式还是常用的一种方法,由工人对生产线上的医药包装上的钢印字符进行识别和记录。但人工成本高、效率和准确率低。参照一般类型字符的识别方式,基于机器视觉的纸质药品包装钢印字符的检测方式主要有两种。方式一基于人工特征的方法,这些算法基于传统图像算法处理图像,然后提取字符特征,并应用于分类器,把字符识别转换成多分类问题。提取的特征具有一定的抗干扰能力,但特征提取过程繁琐费时,而且十分依赖图像的预处理效果,鲁棒性差。方式二是基于深度学习的方法,其原理是使用卷积神经网络和候选区域来进行特征提取,不需要花费大量时间设计字符特征,识别准确率大幅度提升,但是候选区域的获取和分类仍然需要许多时间,实时性差。
现有技术方案,一是基于人工设计特征的方法,人工设计特征的方法可以分为传统目标检测和传统OCR(光学字符识别),两者在原理上是相似的。传统目标检测通过滑动窗口来提取候选区域,而传统OCR则是对于图像进行预处理,然后进行字符定位切割。两者均提取这些区域或者字符的特征信息,最后通过机器学习的分类器识别结果。其中HOG(方向梯度图)和SVM(支持向量机)是较为常用的一种方法。[Naiemi F,Ghods V,Khalesi H.Anefficient character recognition method using enhanced HOG for spam imagedetection[J].Soft Computing,2019,23(22):11759-11774.],该算法的基本思路是定位提取字符区域,统一字符区域的尺寸,然后使用enhanced HOG(增强方向梯度图)提取字符特征,通过SVM分类器输出识别结果。二是基于深度学习的目标检测方法,基于深度学习的目标检测算法利用深层神经网络强大的特征学习能力来学习高级特征,从而避免了传统算法只能提取到浅层特征的不足,同时采用了新的分类器。MASK R-CNN算法集分类、回归、分割于一体,检测精度高,在字符识别方面应用广泛。[Biao W U,Qing-hua Z,Xiao-weiZ.Stencil Character Recognition of Paper Medicine Packaging Based on Mask-RCNN[J].Computer and Modernization,2022(02):108.]MASK R-CNN是一个两阶段的框架,第一个阶段扫描图像并且生成可能包含目标的区域,第二个阶段对区域进行分类生成边界框和掩码,其中提出了感兴趣区域对齐层,解决了像素偏差问题,使得准确率更高。三是基于深度学习的光学字符识别方法,基于深度学习的光学字符识别将字符识别分成文本检测和字符识别两个步骤,第一步寻找和定位图像上存在字符的区域,第二步识别文本内容并输出。[Liao,M.,Wan,Z.,Yao,C.,Chen,K.,Bai,X.:Real-time scene text detectionwith differentiable binarization.In:Proceedings of the AAAI Conference onArtificial Intelligence,vol.34,no.07,pp.11474–11481(2020)]文本检测采用DBNet网络,这是一种基于分割的文本检测算法,通过网络的输出预测每个像素点的阈值,将文本区域分离出来。字符识别通过由CNN+RNN+CTC(Connectionist Temporal Classification)组成的卷积循环神经网络CRNN实现,把字符识别转换成序列特征学习,然后将序列特征转化为字符信息。
现有技术的不足之处在于,基于人工设计特征的方法:需要花费很多时间取设计特征,特征的泛化能力在字体变化、模糊以及背景被施加干扰时会急剧下降。并且这种方法十分依赖字符切分的结果,在字符扭曲、粘连、噪声干扰的情况下,切分的错误率会上升。
基于深度学习的目标检测方法:MASK R-CNN属于两阶段类型的方法,这类方法需要对ROI进行提取,然后再进行字符的识别。这样相当一部分的时间都用在了ROI提取的过程当中,字符识别效率满足不了实际需求,实时性差,而且数据标注比较麻烦。
基于深度学习的光学字符识别方法:DBNet模型的输出是概率图,通过概率图计算出每个文本框比较耗时,存在速度慢的问题。在文本密集的情况下,识别的效果不好。同时与基于深度学习的目标检测算法相比,识别准确率也略有下降。
综合来看,现有的现有的钢印字符识别方法存在识别的准确率低、识别速度慢等诸多问题,难以满足药品包装行业工业自动化的需求。
发明内容
本发明的目的克服现有技术存在的不足,为实现以上目的,采用一种基于深度学习的纸质医药包装钢印字符识别方法,以解决上述背景技术中提出的问题。
一种基于深度学习的纸质医药包装钢印字符识别方法,包括以下步骤:
步骤S1、利用图像采集模块获取具有纸质医药包装钢印字符的图像数据;
步骤S2、基于图像标注工具对获取的图像数据中的钢印字符进行标注,得到数据集并进行划分;
步骤S3、将得到的数据集输入基于目标检测网络框架构建的字符识别模型进行模型训练,并输出目标检测结果;
步骤S4、根据输出的目标检测结果调整模型参数,并继续训练模型直至模型的损失函数收敛,以及输出高准确度的字符识别结果;
步骤S5、利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型,得出最终字符识别结果。
作为本发明的进一步的方案:所述步骤S1中的具体步骤包括:
利用工业相机对不同种类药品的纸质医药包装钢印字符的图像数据进行图像采集;
同时,通过调节光源的光强模拟不同的环境状态,增加采集的图像数据的多样性。
作为本发明的进一步的方案:所述步骤S2中的具体步骤包括:
基于图像标注工具labelme对采集的纸质医药包装钢印字符的图像数据的字符进行标注;
再将图像数据中的每个字符采用标注框标注其对应的种类,得到具有标注框位置信息,以及标注框对应的字符的json文件,且转换为xml文件,所述xml文件包括标签文件和图像文件,并存储于不同的文件目录下,形成最终的数据集;
最后对数据集进行划分为训练集、验证集,以及测试集,其中将各个数据集包含的图像数据名称存储于txt文件中。
作为本发明的进一步的方案:所述步骤S3中基于目标检测网络框架构建的字符识别模型进行模型训练的具体步骤包括:
采用YOLOv5目标检测网络框架构建字符识别模型,所述YOLOv5目标检测网络由Input、Backbone、Neck,以及Head四个网络部分组成,其中,Input网络部分用于对输入图像进行缩放,以及归一化操作,且对数据进行Mosaic数据增强;Backbone网络部分用于对输入图像的特征通过三个特征层进行提取,便于后续网络构建;Neck网络部分对提取到的三个特征层的特征进行特征融合,并对不同尺度的特征信息进行结合;Head网络部分用于对特征层的特征点进行判断,判断是否有字符与其对应。
作为本发明的进一步的方案:每个网络部分均分别由CBS、Focus、CSP,以及SPP基本组件组成;
其中,CBS组件为目标检测网络中最基本的组件,由卷积层Conv、批标准化层BN,以及激活层SiLU组成;Focus组件用于对图片进行每隔一个像素获取一个值,得到四个特征层,并将四个特征层进行堆叠,将图片变为若干小尺寸图片,增大每张图片的通道数,减少计算量;SPP组件通过采用不同尺寸的池化核的最大池化进行特征提取,提高目标检测网络的感受野;CSP组件包括CSP1_X和CSP2_X两种组件,用于将基础层的特征映射分成两个部分,并对其中一部分进行网络计算后,与另一部分进行组合。
作为本发明的进一步的方案:所述步骤S4中的具体步骤包括:
通过构建的字符识别模型的YOLOv5目标检测网络的Head网络部分得到的三个特征层的预测结果;
基于得分筛选和非极大值抑制对预测结果的预测框进行筛选,得到预测框未堆叠的最终预测结果;
根据得到的最终预测结果的预测框和目标框信息,计算网络的总损失函数,其中,所述总损失函数包括边界框损失bbox_loss、置信度损失obj_loss,以及分类损失cls_loss。
作为本发明的进一步的方案:将损失函数CIOU_loss作为边界框损失bbox_loss,并通过预测框与目标框的重叠面积、中心点距离、以及框宽高比进行参数计算:
其中,IOU为预测框和目标框之间交集面积和并集面积的比值,Dis_a为预测框和目标框的中心点距离,Dis_c为预测框和目标框最小外接矩形的对角线长度,是权重函数,τ为预测框和目标框的宽高比相似度,wgt为目标框宽,hgt为目标框高,wp为预测框宽,hp为预测框高。
作为本发明的进一步的方案:所述置信度损失和分类损失均采用二元交叉熵损失函数BCEWithLogitsLoss:
po=IOU×pobject;
式中,po为预测框的置信度分数,piou为预测框对应的目标框的IOU值;wobj为置信度损失各参数的权重;pobject表示预测框是否包含目标;cp为预测框的类别分数;cgt为目标框类别;wcls为分类损失各参数的权重;
其中,置信度损失由预测框的置信度分数与作为ground_truth的目标框的IOU值计算得到,分类损失由预测框的类别与目标框的类别计算得到,且两者均采用sigmoid激活函数。
作为本发明的进一步的方案:所述总损失函数L为边界框损失bbox_loss、置信度损失obj_loss,以及分类损失cls_loss的三种损失之和,公式为:
L=Lbbox+Lboj+Lcls;
式中,Lbbox为边界框损失bbox_loss,Lboj为置信度损失obj_loss,Lcls为分类损失cls_loss。
作为本发明的进一步的方案:所述步骤S5中的具体步骤包括:
利用图像采集模块实时获取图像数据并输入已训练完成的字符识别模型中进行识别,得到输出高准确度的字符识别结果;
再基于字符排序算法对输出的高准确度的字符识别结果进行字符排序,得到最终的字符识别结果。
与现有技术相比,本发明存在以下技术效果:
采用上述的技术方案,通过采集纸质医药包装钢印字符的图像数据并进行标注等预处理,得到数据集后输入基于目标检测网络框架构建的字符识别模型进行模型训练,并调整模型参数直至模型的损失函数收敛;最后,输入实时图像数据并利用排序算法排序,得出最终字符识别结果。从而解决了现有医药包装钢印字符识别方法实时性差且准确率不足,以及传统人工记录方法误检率大、成本过高,从而导致不能满足现代化生产线需求的问题。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1为本申请公开实施例的字符识别方法的步骤示意图;
图2为本申请公开实施例的字符识别方法的总流程框图;
图3为本申请公开实施例的目标检测网络的网络结构示意图;
图4为本申请公开实施例的目标检测网络的各组件结构示意图;
图5为本申请公开实施例的图像采集设备的操作界面示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1和图2,本发明实施例中,一种基于深度学习的纸质医药包装钢印字符识别方法,包括以下步骤:
步骤S1、利用图像采集模块获取具有纸质医药包装钢印字符的图像数据,具体步骤包括:
步骤S11、本实施例中,具体利用工业相机作为图像采集模块,对不同种类药品的纸质医药包装钢印字符的图像数据进行图像采集,需要说明的是,其中的图像采集模块可根据实际情况进行合理选择;
步骤S12、同时,为了能够获取多种多样的图像数据,我们可通过对光源的光强进行调节,从而模拟不同的环境状态,进而增加采集的图像数据的多样性。
步骤S2、基于图像标注工具对获取的图像数据中的钢印字符进行标注,得到数据集并进行划分,具体步骤包括:
步骤S21、本实施例中,可使用图像标注工具labelme对采集到的包含纸质医药包装钢印字符的图像数据的字符进行标注;
再将图像数据中的每个字符采用标注框标注其对应的种类,得到具有标注框位置信息,以及标注框对应的字符的json文件;
步骤S22、由于上述得到的json文件在目标检测网络中不能直接使用,需将其转换为xml文件,所述xml文件包括标签文件和图像文件,并存储于不同的文件目录下,形成最终的数据集;
步骤S23、最后对形成的数据集进行划分,得到训练集、验证集,以及测试集,其中将各个数据集包含的图像数据名称存储于txt文件中。
步骤S3、将得到的数据集输入基于目标检测网络框架构建的字符识别模型进行模型训练,并输出目标检测结果;
本实施例中,步骤S3中基于目标检测网络框架构建的字符识别模型进行模型训练的具体步骤包括:
步骤S31、获取预处理和划分后的数据集;
步骤S32、采用YOLOv5目标检测网络框架构建字符识别模型,如图3所示,图示为YOLOv5目标检测网络框架的网络结构示意图,是一种一阶段目标检测算法,相比于现有基于人工特征的字符识别方法,该算法不需要花费时间进行特征设计,且与两阶段框架相比,可以实现端到端的字符识别,速度更快;
具体的,所述YOLOv5目标检测网络由Input、Backbone、Neck,以及Head四个网络部分组成;
其中,Input网络部分用于对输入图像进行缩放,以及归一化操作,使图片大小满足输入要求,且对数据进行Mosaic数据增强;
Backbone网络部分,即主干网络,又称特征提取网络,用于对输入图像的特征进行提取,在特征提取网络当中,我们获得了三个特征层,然后将提取特征用于后续的网络构建;
Neck网络部分用于加强特征提取网络,其作用是对提取到的三个特征层进行特征融合,对不同尺度的特征信息进行结合;
Head网络部分为分类器和回归器,通过Neck网络我们得到了3个加强过的特征层,特征层可以看做是特征点的集合,Head网络部分能够对特征层的特征点进行判断,判断是否有字符与其对应。
因此,上述整个网络的工作主要可以分为特征提取、特征加强,以及预测三个部分。
具体实施方式中,每个网络部分均分别由CBS、Focus、CSP,以及SPP基本组件组成,如图4所示,图示为目标检测网络的各组件结构示意图;
其中,CBS组件为目标检测网络中最基本的组件,由卷积层Conv、批标准化层BN,以及激活层SiLU组成;
Focus组件用于对图片进行每隔一个像素获取一个值,得到四个特征层,并将四个特征层进行堆叠,将图片变为若干小尺寸图片,增大每张图片的通道数,减少计算量;
SPP组件通过采用不同尺寸的池化核的最大池化进行特征提取,提高目标检测网络的感受野;
CSP组件包括CSP1_X和CSP2_X两种组件,用于将基础层的特征映射分成两个部分,并对其中一部分进行网络计算后,与另一部分进行组合,减少计算量的同时保证准确性。
步骤S4、根据输出的目标检测结果调整模型参数,并继续训练模型直至模型的损失函数收敛,以及输出高准确度的字符识别结果,具体步骤包括:
步骤S41、本实施例中,通过构建的字符识别模型的YOLOv5目标检测网络的Head网络部分得到的三个特征层的预测结果,由于这个预测结果并不对应着最终的预测框在图片上的位置,还需要进行解码操作;
步骤S42、基于得分筛选和非极大值抑制对预测结果的预测框进行筛选,得到预测框未堆叠的最终预测结果,其中,得分筛选是指筛选出得分满足confidence置信度的预测框,非极大值抑制用来筛选出一定区域内属于同一种类得分最大的框;
经过上述的后处理操作,我们可以得到最终的预测结果;
步骤S43、根据得到的最终预测结果的预测框和目标框信息,计算网络的总损失函数,其中,所述总损失函数包括边界框损失bbox_loss、置信度损失obj_loss,以及分类损失cls_loss。
具体实施方式中,将损失函数CIOU_loss作为边界框损失bbox_loss,并通过预测框与目标框的重叠面积、中心点距离、以及框宽高比进行参数计算:
其中,IOU为预测框和目标框之间交集面积和并集面积的比值,Dis_a为预测框和目标框的中心点距离,Dis_c为预测框和目标框最小外接矩形的对角线长度,是权重函数,τ为预测框和目标框的宽高比相似度,wgt为目标框宽,hgt为目标框高,wp为预测框宽,hp为预测框高。
具体的,所述置信度损失和分类损失均采用二元交叉熵损失函数BCEWithLogitsLoss:
po=IOU×pobject;
式中,po为预测框的置信度分数,piou为预测框对应的目标框的IOU值;wobj为置信度损失各参数的权重;pobject表示预测框是否包含目标;cp为预测框的类别分数;cgt为目标框类别;wcls为分类损失各参数的权重;
其中,置信度损失由预测框的置信度分数与作为ground_truth的目标框的IOU值计算得到,分类损失由预测框的类别与目标框的类别计算得到,且两者均采用sigmoid激活函数。
具体实施方式中,所述总损失函数L为边界框损失bbox_loss、置信度损失obj_loss,以及分类损失cls_loss的三种损失之和,公式为:
L=Lbbox+Lboj+Lcls;
式中,Lbbox为边界框损失bbox_loss,Lboj为置信度损失obj_loss,Lcls为分类损失cls_loss。
步骤S5、利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型,得出最终字符识别结果,具体步骤包括:
S51、利用图像采集模块实时获取图像数据并输入已训练完成的字符识别模型中进行识别,得到输出高准确度的字符识别结果;
本实施例中,由于会出现目标检测算法输出乱序的问题,我们设计一种排序算法,利用检测到的每个字符坐标进行排序,确保得到正确的字符排序;
S52、再基于字符排序算法对输出的高准确度的字符识别结果进行字符排序,得到最终的字符识别结果;
具体实施方式中,结合训练好的模型以及设计的排序算法,通过可以连接图像采集设备,实现实时字符识别、识别结果的可视化、语音播报,以及结果记录等功能,如图5所示,图示为图像采集设备的操作界面示意图。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,包括以下步骤:
步骤S1、利用图像采集模块获取具有纸质医药包装钢印字符的图像数据;
步骤S2、基于图像标注工具对获取的图像数据中的钢印字符进行标注,得到数据集并进行划分;
步骤S3、将得到的数据集输入基于目标检测网络框架构建的字符识别模型进行模型训练,并输出目标检测结果;
步骤S4、根据输出的目标检测结果调整模型参数,并继续训练模型直至模型的损失函数收敛,以及输出高准确度的字符识别结果;
步骤S5、利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型,得出最终字符识别结果。
2.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述步骤S1中的具体步骤包括:
利用工业相机对不同种类药品的纸质医药包装钢印字符的图像数据进行图像采集;
同时,通过调节光源的光强模拟不同的环境状态,增加采集的图像数据的多样性。
3.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述步骤S2中的具体步骤包括:
基于图像标注工具labelme对采集的纸质医药包装钢印字符的图像数据的字符进行标注;
再将图像数据中的每个字符采用标注框标注其对应的种类,得到具有标注框位置信息,以及标注框对应的字符的json文件,且转换为xml文件,所述xml文件包括标签文件和图像文件,并存储于不同的文件目录下,形成最终的数据集;
最后对数据集进行划分为训练集、验证集,以及测试集,其中将各个数据集包含的图像数据名称存储于txt文件中。
4.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述步骤S3中基于目标检测网络框架构建的字符识别模型进行模型训练的具体步骤包括:
采用YOLOv5目标检测网络框架构建字符识别模型,所述YOLOv5目标检测网络由Input、Backbone、Neck,以及Head四个网络部分组成,其中,Input网络部分用于对输入图像进行缩放,以及归一化操作,且对数据进行Mosaic数据增强;Backbone网络部分用于对输入图像的特征通过三个特征层进行提取,便于后续网络构建;Neck网络部分对提取到的三个特征层的特征进行特征融合,并对不同尺度的特征信息进行结合;Head网络部分用于对特征层的特征点进行判断,判断是否有字符与其对应。
5.根据权利要求4所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,每个网络部分均分别由CBS、Focus、CSP,以及SPP基本组件组成;
其中,CBS组件为目标检测网络中最基本的组件,由卷积层Conv、批标准化层BN,以及激活层SiLU组成;Focus组件用于对图片进行每隔一个像素获取一个值,得到四个特征层,并将四个特征层进行堆叠,将图片变为若干小尺寸图片,增大每张图片的通道数,减少计算量;SPP组件通过采用不同尺寸的池化核的最大池化进行特征提取,提高目标检测网络的感受野;CSP组件包括CSP1_X和CSP2_X两种组件,用于将基础层的特征映射分成两个部分,并对其中一部分进行网络计算后,与另一部分进行组合。
6.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述步骤S4中的具体步骤包括:
通过构建的字符识别模型的YOLOv5目标检测网络的Head网络部分得到的三个特征层的预测结果;
基于得分筛选和非极大值抑制对预测结果的预测框进行筛选,得到预测框未堆叠的最终预测结果;
根据得到的最终预测结果的预测框和目标框信息,计算网络的总损失函数,其中,所述总损失函数包括边界框损失bbox_loss、置信度损失obj_loss,以及分类损失cls_loss。
7.根据权利要求6所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,将损失函数CIOU_loss作为边界框损失bbox_loss,并通过预测框与目标框的重叠面积、中心点距离、以及框宽高比进行参数计算:
其中,IOU为预测框和目标框之间交集面积和并集面积的比值,Dis_a为预测框和目标框的中心点距离,Dis_c为预测框和目标框最小外接矩形的对角线长度,是权重函数,τ为预测框和目标框的宽高比相似度,wgt为目标框宽,hgt为目标框高,wp为预测框宽,hp为预测框高。
8.根据权利要求6所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述置信度损失和分类损失均采用二元交叉熵损失函数BCEWithLogitsLoss:
po=IOU×pobject;
式中,po为预测框的置信度分数,piou为预测框对应的目标框的IOU值;wobj为置信度损失各参数的权重;pobject表示预测框是否包含目标;cp为预测框的类别分数;cgt为目标框类别;wcls为分类损失各参数的权重。
其中,置信度损失由预测框的置信度分数与作为ground_truth的目标框的IOU值计算得到,分类损失由预测框的类别与目标框的类别计算得到,且两者均采用sigmoid激活函数。
9.根据权利要求6所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述总损失函数L为边界框损失bbox_loss、置信度损失obj_loss,以及分类损失cls_loss的三种损失之和,公式为:
L=Lbbox+Lboj+Lcls;
式中,Lbbox为边界框损失bbox_loss,Lboj为置信度损失obj_loss,Lcls为分类损失cls_loss。
10.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法,其特征在于,所述步骤S5中的具体步骤包括:
利用图像采集模块实时获取图像数据并输入已训练完成的字符识别模型中进行识别,得到输出高准确度的字符识别结果;
再基于字符排序算法对输出的高准确度的字符识别结果进行字符排序,得到最终的字符识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310665162.6A CN116758545A (zh) | 2023-06-05 | 2023-06-05 | 一种基于深度学习的纸质医药包装钢印字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310665162.6A CN116758545A (zh) | 2023-06-05 | 2023-06-05 | 一种基于深度学习的纸质医药包装钢印字符识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758545A true CN116758545A (zh) | 2023-09-15 |
Family
ID=87950706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310665162.6A Pending CN116758545A (zh) | 2023-06-05 | 2023-06-05 | 一种基于深度学习的纸质医药包装钢印字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758545A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958998A (zh) * | 2023-09-20 | 2023-10-27 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的数字仪表读数的识别方法 |
CN117912037A (zh) * | 2024-03-20 | 2024-04-19 | 杭州汇萃智能科技有限公司 | 一种ocr模型后处理方法、***及存储介质 |
-
2023
- 2023-06-05 CN CN202310665162.6A patent/CN116758545A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958998A (zh) * | 2023-09-20 | 2023-10-27 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的数字仪表读数的识别方法 |
CN116958998B (zh) * | 2023-09-20 | 2023-12-26 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的数字仪表读数的识别方法 |
CN117912037A (zh) * | 2024-03-20 | 2024-04-19 | 杭州汇萃智能科技有限公司 | 一种ocr模型后处理方法、***及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376658B (zh) | 一种基于深度学习的ocr方法 | |
CN109344693B (zh) | 一种基于深度学习的人脸多区域融合表情识别方法 | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及*** | |
CN100565559C (zh) | 基于连通分量和支持向量机的图像文本定位方法和装置 | |
CN116758545A (zh) | 一种基于深度学习的纸质医药包装钢印字符识别方法 | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的***及方法 | |
CN110807422A (zh) | 一种基于深度学习的自然场景文本检测方法 | |
CN112836650B (zh) | 一种质量检验报告扫描图像表格语义解析方法与*** | |
WO2023083280A1 (zh) | 一种场景文本识别方法和装置 | |
CN112085024A (zh) | 一种罐表面字符识别方法 | |
CN111008632B (zh) | 一种基于深度学习的车牌字符分割方法 | |
CN111191611A (zh) | 基于深度学习的交通标志标号识别方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及*** | |
CN111339975A (zh) | 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法 | |
CN110555420A (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN111461133A (zh) | 快递面单品名识别方法、装置、设备及存储介质 | |
CN112381175A (zh) | 一种基于图像处理的电路板识别与分析方法 | |
Dorbe et al. | FCN and LSTM based computer vision system for recognition of vehicle type, license plate number, and registration country | |
CN112766273A (zh) | 一种车牌识别方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
Saluja et al. | Ocr on-the-go: Robust end-to-end systems for reading license plates & street signs | |
CN112884741B (zh) | 一种基于图像相似性对比的印刷表观缺陷检测方法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN117593244A (zh) | 一种基于改进注意力机制的膜产品缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |