CN116758545A

CN116758545A - 一种基于深度学习的纸质医药包装钢印字符识别方法

Info

Publication number: CN116758545A
Application number: CN202310665162.6A
Authority: CN
Inventors: 夏懿; 张佰斧; 陈鹏; 章军; 王明生
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-15

Abstract

本发明公开了一种基于深度学习的纸质医药包装钢印字符识别方法，包括获取图像数据；对图像数据中的钢印字符进行标注，得到数据集并进行划分；将数据集输入基于目标检测网络框架构建的字符识别模型进行模型训练，并输出目标检测结果；根据目标检测结果调整模型参数，并继续训练模型直至模型的损失函数收敛，以及输出高准确度的字符识别结果；利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型，得出最终字符识别结果。本发明通过构建网络模型，并训练好模型后与图像采集设备连接，得到实时识别结果。与现有的钢印字符识别方法相比，保证了识别准确率的同时，识别的速度也更快。

Description

一种基于深度学习的纸质医药包装钢印字符识别方法

技术领域

本发明涉及纸质医药包装钢印识别技术领域，特别涉及一种基于深度学习的纸质医药包装钢印字符识别方法。

背景技术

根据药监局规定，纸质医药包装需要包含药品的生产批号、生产时间和有效期信息，上述信息一般采取压印或者喷码方式打印在纸质医药包装上。喷码方式成本较高，因此压印方式成为主流的打印方式。医药包装钢印字符通过字符模具施加压力形成，字符与背景的颜色相同。而且纸质包装不同于钢材等材质，纸质包装钢印的压印较浅，字符的边缘灰度值变化很小，字符识别的难度大。医药包装钢印字符包含了与药品相关的重要信息，其准确识别是具有重要意义的，但是对于医药包装钢印字符识别的相关研究很少。在实际生产过程当中，人工检测方式还是常用的一种方法，由工人对生产线上的医药包装上的钢印字符进行识别和记录。但人工成本高、效率和准确率低。参照一般类型字符的识别方式，基于机器视觉的纸质药品包装钢印字符的检测方式主要有两种。方式一基于人工特征的方法，这些算法基于传统图像算法处理图像，然后提取字符特征，并应用于分类器，把字符识别转换成多分类问题。提取的特征具有一定的抗干扰能力，但特征提取过程繁琐费时，而且十分依赖图像的预处理效果，鲁棒性差。方式二是基于深度学习的方法，其原理是使用卷积神经网络和候选区域来进行特征提取，不需要花费大量时间设计字符特征，识别准确率大幅度提升，但是候选区域的获取和分类仍然需要许多时间，实时性差。

现有技术方案，一是基于人工设计特征的方法，人工设计特征的方法可以分为传统目标检测和传统OCR(光学字符识别)，两者在原理上是相似的。传统目标检测通过滑动窗口来提取候选区域，而传统OCR则是对于图像进行预处理，然后进行字符定位切割。两者均提取这些区域或者字符的特征信息，最后通过机器学习的分类器识别结果。其中HOG(方向梯度图)和SVM(支持向量机)是较为常用的一种方法。[Naiemi F,Ghods V,Khalesi H.Anefficient character recognition method using enhanced HOG for spam imagedetection[J].Soft Computing,2019,23(22):11759-11774.]，该算法的基本思路是定位提取字符区域，统一字符区域的尺寸，然后使用enhanced HOG(增强方向梯度图)提取字符特征，通过SVM分类器输出识别结果。二是基于深度学习的目标检测方法，基于深度学习的目标检测算法利用深层神经网络强大的特征学习能力来学习高级特征，从而避免了传统算法只能提取到浅层特征的不足，同时采用了新的分类器。MASK R-CNN算法集分类、回归、分割于一体，检测精度高，在字符识别方面应用广泛。[Biao W U,Qing-hua Z,Xiao-weiZ.Stencil Character Recognition of Paper Medicine Packaging Based on Mask-RCNN[J].Computer and Modernization,2022(02):108.]MASK R-CNN是一个两阶段的框架，第一个阶段扫描图像并且生成可能包含目标的区域，第二个阶段对区域进行分类生成边界框和掩码，其中提出了感兴趣区域对齐层，解决了像素偏差问题，使得准确率更高。三是基于深度学习的光学字符识别方法，基于深度学习的光学字符识别将字符识别分成文本检测和字符识别两个步骤，第一步寻找和定位图像上存在字符的区域，第二步识别文本内容并输出。[Liao,M.,Wan,Z.,Yao,C.,Chen,K.,Bai,X.:Real-time scene text detectionwith differentiable binarization.In:Proceedings of the AAAI Conference onArtificial Intelligence,vol.34,no.07,pp.11474–11481(2020)]文本检测采用DBNet网络，这是一种基于分割的文本检测算法，通过网络的输出预测每个像素点的阈值，将文本区域分离出来。字符识别通过由CNN+RNN+CTC(Connectionist Temporal Classification)组成的卷积循环神经网络CRNN实现，把字符识别转换成序列特征学习，然后将序列特征转化为字符信息。

现有技术的不足之处在于，基于人工设计特征的方法：需要花费很多时间取设计特征，特征的泛化能力在字体变化、模糊以及背景被施加干扰时会急剧下降。并且这种方法十分依赖字符切分的结果，在字符扭曲、粘连、噪声干扰的情况下，切分的错误率会上升。

基于深度学习的目标检测方法：MASK R-CNN属于两阶段类型的方法，这类方法需要对ROI进行提取，然后再进行字符的识别。这样相当一部分的时间都用在了ROI提取的过程当中，字符识别效率满足不了实际需求，实时性差，而且数据标注比较麻烦。

基于深度学习的光学字符识别方法：DBNet模型的输出是概率图，通过概率图计算出每个文本框比较耗时，存在速度慢的问题。在文本密集的情况下，识别的效果不好。同时与基于深度学习的目标检测算法相比，识别准确率也略有下降。

综合来看，现有的现有的钢印字符识别方法存在识别的准确率低、识别速度慢等诸多问题，难以满足药品包装行业工业自动化的需求。

发明内容

本发明的目的克服现有技术存在的不足，为实现以上目的，采用一种基于深度学习的纸质医药包装钢印字符识别方法，以解决上述背景技术中提出的问题。

一种基于深度学习的纸质医药包装钢印字符识别方法，包括以下步骤：

步骤S1、利用图像采集模块获取具有纸质医药包装钢印字符的图像数据；

步骤S2、基于图像标注工具对获取的图像数据中的钢印字符进行标注，得到数据集并进行划分；

步骤S3、将得到的数据集输入基于目标检测网络框架构建的字符识别模型进行模型训练，并输出目标检测结果；

步骤S4、根据输出的目标检测结果调整模型参数，并继续训练模型直至模型的损失函数收敛，以及输出高准确度的字符识别结果；

步骤S5、利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型，得出最终字符识别结果。

作为本发明的进一步的方案：所述步骤S1中的具体步骤包括：

利用工业相机对不同种类药品的纸质医药包装钢印字符的图像数据进行图像采集；

同时，通过调节光源的光强模拟不同的环境状态，增加采集的图像数据的多样性。

作为本发明的进一步的方案：所述步骤S2中的具体步骤包括：

基于图像标注工具labelme对采集的纸质医药包装钢印字符的图像数据的字符进行标注；

再将图像数据中的每个字符采用标注框标注其对应的种类，得到具有标注框位置信息，以及标注框对应的字符的json文件，且转换为xml文件，所述xml文件包括标签文件和图像文件，并存储于不同的文件目录下，形成最终的数据集；

最后对数据集进行划分为训练集、验证集，以及测试集，其中将各个数据集包含的图像数据名称存储于txt文件中。

作为本发明的进一步的方案：所述步骤S3中基于目标检测网络框架构建的字符识别模型进行模型训练的具体步骤包括：

采用YOLOv5目标检测网络框架构建字符识别模型，所述YOLOv5目标检测网络由Input、Backbone、Neck，以及Head四个网络部分组成，其中，Input网络部分用于对输入图像进行缩放，以及归一化操作，且对数据进行Mosaic数据增强；Backbone网络部分用于对输入图像的特征通过三个特征层进行提取，便于后续网络构建；Neck网络部分对提取到的三个特征层的特征进行特征融合，并对不同尺度的特征信息进行结合；Head网络部分用于对特征层的特征点进行判断，判断是否有字符与其对应。

作为本发明的进一步的方案：每个网络部分均分别由CBS、Focus、CSP，以及SPP基本组件组成；

其中，CBS组件为目标检测网络中最基本的组件，由卷积层Conv、批标准化层BN，以及激活层SiLU组成；Focus组件用于对图片进行每隔一个像素获取一个值，得到四个特征层，并将四个特征层进行堆叠，将图片变为若干小尺寸图片，增大每张图片的通道数，减少计算量；SPP组件通过采用不同尺寸的池化核的最大池化进行特征提取，提高目标检测网络的感受野；CSP组件包括CSP1_X和CSP2_X两种组件，用于将基础层的特征映射分成两个部分，并对其中一部分进行网络计算后，与另一部分进行组合。

作为本发明的进一步的方案：所述步骤S4中的具体步骤包括：

通过构建的字符识别模型的YOLOv5目标检测网络的Head网络部分得到的三个特征层的预测结果；

基于得分筛选和非极大值抑制对预测结果的预测框进行筛选，得到预测框未堆叠的最终预测结果；

根据得到的最终预测结果的预测框和目标框信息，计算网络的总损失函数，其中，所述总损失函数包括边界框损失bbox_loss、置信度损失obj_loss，以及分类损失cls_loss。

作为本发明的进一步的方案：将损失函数CIOU_loss作为边界框损失bbox_loss，并通过预测框与目标框的重叠面积、中心点距离、以及框宽高比进行参数计算：

其中，IOU为预测框和目标框之间交集面积和并集面积的比值，Dis_a为预测框和目标框的中心点距离，Dis_c为预测框和目标框最小外接矩形的对角线长度，是权重函数，τ为预测框和目标框的宽高比相似度，w^gt为目标框宽，h^gt为目标框高，w^p为预测框宽，h^p为预测框高。

作为本发明的进一步的方案：所述置信度损失和分类损失均采用二元交叉熵损失函数BCEWithLogitsLoss:

p_o＝IOU×p_object；

式中，p_o为预测框的置信度分数，p_iou为预测框对应的目标框的IOU值；w_obj为置信度损失各参数的权重；p_object表示预测框是否包含目标；c_p为预测框的类别分数；c_gt为目标框类别；w_cls为分类损失各参数的权重；

其中，置信度损失由预测框的置信度分数与作为ground_truth的目标框的IOU值计算得到，分类损失由预测框的类别与目标框的类别计算得到，且两者均采用sigmoid激活函数。

作为本发明的进一步的方案：所述总损失函数L为边界框损失bbox_loss、置信度损失obj_loss，以及分类损失cls_loss的三种损失之和，公式为：

L＝L_bbox+L_boj+L_cls；

式中，L_bbox为边界框损失bbox_loss，L_boj为置信度损失obj_loss，L_cls为分类损失cls_loss。

作为本发明的进一步的方案：所述步骤S5中的具体步骤包括：

利用图像采集模块实时获取图像数据并输入已训练完成的字符识别模型中进行识别，得到输出高准确度的字符识别结果；

再基于字符排序算法对输出的高准确度的字符识别结果进行字符排序，得到最终的字符识别结果。

与现有技术相比，本发明存在以下技术效果：

采用上述的技术方案，通过采集纸质医药包装钢印字符的图像数据并进行标注等预处理，得到数据集后输入基于目标检测网络框架构建的字符识别模型进行模型训练，并调整模型参数直至模型的损失函数收敛；最后，输入实时图像数据并利用排序算法排序，得出最终字符识别结果。从而解决了现有医药包装钢印字符识别方法实时性差且准确率不足，以及传统人工记录方法误检率大、成本过高，从而导致不能满足现代化生产线需求的问题。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1为本申请公开实施例的字符识别方法的步骤示意图；

图2为本申请公开实施例的字符识别方法的总流程框图；

图3为本申请公开实施例的目标检测网络的网络结构示意图；

图4为本申请公开实施例的目标检测网络的各组件结构示意图；

图5为本申请公开实施例的图像采集设备的操作界面示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，本发明实施例中，一种基于深度学习的纸质医药包装钢印字符识别方法，包括以下步骤：

步骤S1、利用图像采集模块获取具有纸质医药包装钢印字符的图像数据，具体步骤包括：

步骤S11、本实施例中，具体利用工业相机作为图像采集模块，对不同种类药品的纸质医药包装钢印字符的图像数据进行图像采集，需要说明的是，其中的图像采集模块可根据实际情况进行合理选择；

步骤S12、同时，为了能够获取多种多样的图像数据，我们可通过对光源的光强进行调节，从而模拟不同的环境状态，进而增加采集的图像数据的多样性。

步骤S2、基于图像标注工具对获取的图像数据中的钢印字符进行标注，得到数据集并进行划分，具体步骤包括：

步骤S21、本实施例中，可使用图像标注工具labelme对采集到的包含纸质医药包装钢印字符的图像数据的字符进行标注；

再将图像数据中的每个字符采用标注框标注其对应的种类，得到具有标注框位置信息，以及标注框对应的字符的json文件；

步骤S22、由于上述得到的json文件在目标检测网络中不能直接使用，需将其转换为xml文件，所述xml文件包括标签文件和图像文件，并存储于不同的文件目录下，形成最终的数据集；

步骤S23、最后对形成的数据集进行划分，得到训练集、验证集，以及测试集，其中将各个数据集包含的图像数据名称存储于txt文件中。

本实施例中，步骤S3中基于目标检测网络框架构建的字符识别模型进行模型训练的具体步骤包括：

步骤S31、获取预处理和划分后的数据集；

步骤S32、采用YOLOv5目标检测网络框架构建字符识别模型，如图3所示，图示为YOLOv5目标检测网络框架的网络结构示意图，是一种一阶段目标检测算法，相比于现有基于人工特征的字符识别方法，该算法不需要花费时间进行特征设计，且与两阶段框架相比，可以实现端到端的字符识别，速度更快；

具体的，所述YOLOv5目标检测网络由Input、Backbone、Neck，以及Head四个网络部分组成；

其中，Input网络部分用于对输入图像进行缩放，以及归一化操作，使图片大小满足输入要求，且对数据进行Mosaic数据增强；

Backbone网络部分，即主干网络，又称特征提取网络，用于对输入图像的特征进行提取，在特征提取网络当中，我们获得了三个特征层，然后将提取特征用于后续的网络构建；

Neck网络部分用于加强特征提取网络，其作用是对提取到的三个特征层进行特征融合，对不同尺度的特征信息进行结合；

Head网络部分为分类器和回归器，通过Neck网络我们得到了3个加强过的特征层，特征层可以看做是特征点的集合，Head网络部分能够对特征层的特征点进行判断，判断是否有字符与其对应。

因此，上述整个网络的工作主要可以分为特征提取、特征加强，以及预测三个部分。

具体实施方式中，每个网络部分均分别由CBS、Focus、CSP，以及SPP基本组件组成，如图4所示，图示为目标检测网络的各组件结构示意图；

其中，CBS组件为目标检测网络中最基本的组件，由卷积层Conv、批标准化层BN，以及激活层SiLU组成；

Focus组件用于对图片进行每隔一个像素获取一个值，得到四个特征层，并将四个特征层进行堆叠，将图片变为若干小尺寸图片，增大每张图片的通道数，减少计算量；

SPP组件通过采用不同尺寸的池化核的最大池化进行特征提取，提高目标检测网络的感受野；

CSP组件包括CSP1_X和CSP2_X两种组件，用于将基础层的特征映射分成两个部分，并对其中一部分进行网络计算后，与另一部分进行组合，减少计算量的同时保证准确性。

步骤S4、根据输出的目标检测结果调整模型参数，并继续训练模型直至模型的损失函数收敛，以及输出高准确度的字符识别结果，具体步骤包括：

步骤S41、本实施例中，通过构建的字符识别模型的YOLOv5目标检测网络的Head网络部分得到的三个特征层的预测结果，由于这个预测结果并不对应着最终的预测框在图片上的位置，还需要进行解码操作；

步骤S42、基于得分筛选和非极大值抑制对预测结果的预测框进行筛选，得到预测框未堆叠的最终预测结果，其中，得分筛选是指筛选出得分满足confidence置信度的预测框，非极大值抑制用来筛选出一定区域内属于同一种类得分最大的框；

经过上述的后处理操作，我们可以得到最终的预测结果；

步骤S43、根据得到的最终预测结果的预测框和目标框信息，计算网络的总损失函数，其中，所述总损失函数包括边界框损失bbox_loss、置信度损失obj_loss，以及分类损失cls_loss。

具体实施方式中，将损失函数CIOU_loss作为边界框损失bbox_loss，并通过预测框与目标框的重叠面积、中心点距离、以及框宽高比进行参数计算：

其中，IOU为预测框和目标框之间交集面积和并集面积的比值，Dis_a为预测框和目标框的中心点距离，Dis_c为预测框和目标框最小外接矩形的对角线长度，是权重函数，τ为预测框和目标框的宽高比相似度,w^gt为目标框宽，h^gt为目标框高，w^p为预测框宽，h^p为预测框高。

具体的，所述置信度损失和分类损失均采用二元交叉熵损失函数BCEWithLogitsLoss:

p_o＝IOU×p_object；

具体实施方式中，所述总损失函数L为边界框损失bbox_loss、置信度损失obj_loss，以及分类损失cls_loss的三种损失之和，公式为：

L＝L_bbox+L_boj+L_cls；

步骤S5、利用图像采集模块实时获取图像数据并输入基于目标检测网络框架构建且训练完成的字符识别模型，得出最终字符识别结果，具体步骤包括：

S51、利用图像采集模块实时获取图像数据并输入已训练完成的字符识别模型中进行识别，得到输出高准确度的字符识别结果；

本实施例中，由于会出现目标检测算法输出乱序的问题，我们设计一种排序算法，利用检测到的每个字符坐标进行排序，确保得到正确的字符排序；

S52、再基于字符排序算法对输出的高准确度的字符识别结果进行字符排序，得到最终的字符识别结果；

具体实施方式中，结合训练好的模型以及设计的排序算法，通过可以连接图像采集设备，实现实时字符识别、识别结果的可视化、语音播报，以及结果记录等功能，如图5所示，图示为图像采集设备的操作界面示意图。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述步骤S1中的具体步骤包括：

3.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述步骤S2中的具体步骤包括：

4.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述步骤S3中基于目标检测网络框架构建的字符识别模型进行模型训练的具体步骤包括：

5.根据权利要求4所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，每个网络部分均分别由CBS、Focus、CSP，以及SPP基本组件组成；

6.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述步骤S4中的具体步骤包括：

7.根据权利要求6所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，将损失函数CIOU_loss作为边界框损失bbox_loss，并通过预测框与目标框的重叠面积、中心点距离、以及框宽高比进行参数计算：

8.根据权利要求6所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述置信度损失和分类损失均采用二元交叉熵损失函数BCEWithLogitsLoss:

p_o＝IOU×p_object；

式中，p_o为预测框的置信度分数，p_iou为预测框对应的目标框的IOU值；w_obj为置信度损失各参数的权重；p_object表示预测框是否包含目标；c_p为预测框的类别分数；c_gt为目标框类别；w_cls为分类损失各参数的权重。

9.根据权利要求6所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述总损失函数L为边界框损失bbox_loss、置信度损失obj_loss，以及分类损失cls_loss的三种损失之和，公式为：

L＝L_bbox+L_boj+L_cls；

10.根据权利要求1所述一种基于深度学习的纸质医药包装钢印字符识别方法，其特征在于，所述步骤S5中的具体步骤包括：