CN117409400B

CN117409400B - 基于深度学习网络的复杂条件字符识别方法

Info

Publication number: CN117409400B
Application number: CN202311347751.6A
Authority: CN
Inventors: 丁志鹏; 吴静静; 庄祉珊; 肖天行
Original assignee: Wuxi Jiuxiao Technology Co ltd
Current assignee: Wuxi Jiuxiao Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-06-07
Anticipated expiration: 2043-10-18
Also published as: CN117409400A

Abstract

本发明公开了基于深度学习网络的复杂条件字符识别方法，属于字符识别技术领域。本发明的字符识别方法采用的***包括：图像预处理模块、高通滤波引导模块、特征提取模块、检测模块。图像预处理模块用于消除字符随机角度影响；高通滤波引导模块用于强化字符的高频特征，突出其边缘信息；特征提取模块用于强调高频边缘信息消除模糊的同时抑制连续杂波特征干扰，检测模块设计解耦检测头，使得网络更加分别专注于回归和分类输出，本发明解决了工况复杂、脏污和水渍以及产线高速运动引起的日期字符杂波噪声干扰和运动模糊的问题，有效地提升了识别精度和效率。

Description

基于深度学习网络的复杂条件字符识别方法

技术领域

本发明涉及基于深度学习网络的复杂条件字符识别方法，属于字符识别技术领域。

背景技术

食品包装生产日期是决定食品安全的重要因素之一，GB 7718-2011《预包装食品标签通则》规定，标签应清晰、醒目、持久，日期标示应清晰标示预包装食品的生产日期，易拉罐食品包装流水工况复杂以及打印装置质量不一，在罐底区域易出现脏污、水渍等现象，导致字符具有杂波等噪声。由于快节奏的生产节拍，对罐底生产日期进行人工目检效率低下，不具有可行性。

字符识别传统方法主要有基于图像匹配和基于统计的方法，“孙晓娜,刘继超,高国华.基于视觉的乳品包装日期喷码缺陷检测技术[J].食品与机械,2018,34(10):100-103+108.”使用灰度模板匹配的方法对乳品包装日期字符进行识别。“马玲,罗晓曙,蒋品群.基于模板匹配和支持向量机的点阵字符识别研究[J].计算机工程与应用,2020,56(04):134-139.”将模板匹配结合支持向量机识别点阵字符。而他们均采用最大类间方差法分割字符，使用投影法切分字符，此方法在具有杂波噪声干扰及图像模糊时鲁棒性差，且都是用像素统计思想提取字符特征，特征单一，对复杂条件的字符识别效果较差。

深度学习的兴起对OCR领域产生了重大影响，字符图像识别的思路从手工设计特征逐渐转变为自动提取深层特征。“Shi B,Bai X,Yao C.An end-to-end trainableneural network for image-based sequence recognition and its application toscene text recognition[J].IEEE transactions on pattern analysis and machineintelligence,2016,39(11):2298-2304.”使用卷积神经网络(Convolutional NeuralNetworks,CNN)提取图像特征，循环神经网络进行序列推理，是文本识别的一个重要模型。“Tian Z,Huang W,He T,et al.Detecting text in natural image with connectionisttext proposal network[C]//European conference on computer vision.Springer,Cham,2016:56-72.”是另一种文字检测算法，它结合CNN与长短时序记忆网络(Long Short-Term Memory,LSTM),相较CRNN能检测多行文本内容。而对于自然场景字符识别，单阶段检测方法“Xing L,Tian Z,Huang W,et al.Convolutional character networks[C]//Proceedings of the IEEE/CVF international conference on computer vision.2019:9126-9136.”通过迭代算法处理多方向和曲线排布字符,但是对于对比度低或具有杂波干扰的字符，此类文本识别方法由于网络层数不够，且无法进行自动特征筛选，仍具有一定局限性。

针对复杂条件下的字符目标，具有模糊和杂波噪声干扰特点，设计一种高速鲁棒的复杂条件下字符识别算法，克服以上缺点，具有重要意义。

发明内容

为了提升复杂条件下具有模糊和杂波噪声干扰特点的字符目标识别精度和识别速度，本发明提供了基于深度学习网络的复杂条件字符识别方法，所述技术方案如下：

本发明的第一个目的在于提供一种字符识别方法，包括：

步骤1：采集待识别的字符图像并进行预处理，包括：提取字符区域，对字符区域进行旋转矫正；

步骤2：针对预处理后的字符图像，采用高通滤波器引导模块强化字符的高频特征，突出边缘信息，减小运动模糊带来的特征丢失；

步骤3：采用patch partition对所述步骤2得到的强化特征图进行分块，然后依次通过4个层级式的特征提取模块完成特征提取，每个特征提取模块包括：Swin T CSPbottleneck；

步骤4：第2、3、4个所述Swin T CSP bottleneck生成的特征图被输入至YOLOv5的FPN+PAN层，分别自顶向下和自底向上进行多尺度特征融合；

步骤5：将所述步骤4得到的融合特征图输入YOLOv5头部的轻量解耦合检测头，得到回归框和类别，在图像上框出字符识别结果，同时返回识别文本。

可选的，所述步骤3中特征提取的过程包括：在主分支上，通过线性变换层对特征通道赋予权重；然后经过n个Swin T block后，与次分支卷积结果拼接；最后使用1×1卷积改变通道数量减小网络参数，输出特征图；

所述Swin T block的处理流程包括：

步骤31：采用LN层对输入特征图X进行归一化；

步骤32：采用W-MSA层对所述步骤31得到的特征图进行注意力计算，然后经过残差计算的方式得到特征图X′；

步骤33：将所述步骤32得到的特征图X′依次经过LN层和带Gelu非线性激活函数的多层感知机计算权重信息，经过与x'的残差计算，得到特征图X_L1；

步骤34：将所述步骤33提取的特征依次输入LN层和SW-MSA进行注意力计算，再与特征图X_L1进行残差计算，得到特征图X′_L1；

步骤35：所述步骤34的输出X′_L1再次经过LN层和带Gelu非线性激活函数的多层感知机计算权重信息，再与特征图X′_L1进行残差计算，得到特征图X_L2。

可选的，所述步骤2中高通滤波器引导模块的计算过程包括：

步骤21：对图像进行快速傅里叶变换将图像转化到频域，然后进行高通滤波保留高频部分信息，再用逆快速傅里叶变换将图像还原；

步骤22：使用灰度线性归一化法将正像素值归一至0到1，同时将iFFT算得的非正值结果置零，突出目标边缘；

步骤23：通过2个深度超参数卷积层对傅里叶变换后的图像初步提取特征；

第一个深度超参数卷积层为2个卷积核大小为6*6、步长为1、填充为0的卷积操作，第二个深度超参数卷积层为2个卷积核大小为6*6、步长为1、填充为0的卷积操作；

步骤24：通过2个深度超参数卷积层待测图像初步提取特征；

步骤25：将所述步骤23和步骤24的输出进行cat拼接。

可选的，所述步骤1的预处理过程包括：

步骤11：采用双大津法进行图像阈值分割，以提取出字符区域；

步骤12：阈值分割后对图像进行膨胀，获取连通域的最小外接矩形；

步骤13：根据所述最小外接矩形的水平角度计算旋转矩阵，使用所述旋转矩阵对图像进行旋转；

步骤14：根据所述字符区域的长宽先验信息对最小外接矩形进行长宽修正，初步切除杂波噪声区域。

可选的，所述轻量解耦合检测头的计算流程包括：

步骤51：PAN的结果首先进行1×1卷积进行通道压缩；

步骤52：各自送入分类分支和回归分支；

每个分支使用1个3×3的卷积进行信息整合，随后再进行一次1×1卷积转换通道数；

所述分类分支的1个输出通道数为类别数；所述回归分支再分成box位置偏移(x,y,w,h)和回归置信度2个输出，其中，(x,y)为目标框中心点，w和h分别是目标框的宽度和高度。

可选的，所述双大津法采用最大类间方差思想，计算三类像素的类间方差，嵌套遍历两个阈值，使类间方差最大，所述三类像素的类间方差计算方法如下：

σ²＝p₁(m₁-m_G)²+p₂(m₂-m_G)²+p₃(m₃-m_G)²

其中，p₁、p₂、p₃为像素被分为3类的概率，m₁、m₂、m₃为3类的像素均值，m_G为全局像素均值，取得2个阈值使被分为的3类像素值满足σ最大。

可选的，所述旋转矩阵的计算方法为：

其中，M为计算的旋转矩阵，angel为连通域水平夹角。

本发明的第二个目的在于提供一种字符识别***，用于上述任一项所述的字符识别方法，所述***基于包括：

图像预处理模块，用于提取字符区域，并对对字符区域进行旋转矫正；

高通滤波引导模块，用于强化预处理后字符的高频特征，突出其边缘信息，减小运动模糊带来的特征丢失；

特征提取模块，用于抑制杂波噪声和运动模糊产生的灰度值变化和重影，并提取有效的字符特征；

检测模块，用于将提取的字符特征图分别输入回归和分类分支，输出识别结果。

本发明的第二个目的在于提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，实现上述任一项所述的字符识别方法。

本发明有益效果是：

本发明的字符识别方法，引入了高通滤波器引导模块强化字符的高频特征，突出其边缘信息；还提出了基于Swin T CSP bottleneck的特征提取模块，进一步强调高频边缘信息，消除模糊的同时抑制连续杂波特征干扰，检测模块设计解耦检测头，使得网络更加分别专注于回归和分类输出；相比于现有的字符识别方法，本发明更适用于复杂条件下的字符目标识别。

实验结果证明，本发明的字符识别方法在复杂条件下具备更高的准确率和推理速度，有效提高了复杂条件下字符的识别精度和识别速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的HPFST-YOLOv5模型整体框架图。

图2是本发明的高通滤波引导器结构图。

图3是本发明的Swin T CSP Bottleneck结构图。

图4是本发明的轻量解耦合检测头结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种字符识别方法，包括：

步骤3：采用patch partition对步骤2得到的强化特征图进行分块，然后依次通过4个层级式的特征提取模块完成特征提取，每个特征提取模块包括：Swin T CSPbottleneck；

步骤4：第2、3、4个Swin T CSP bottleneck生成的特征图被输入至YOLOv5的FPN+PAN层，分别自顶向下和自底向上进行多尺度特征融合；

步骤5：将步骤4得到的融合特征输入YOLOv5头部的轻量解耦合检测头，得到回归框和类别，在图像上框出字符识别结果，同时返回识别文本。

实施例二：

本实施例提供一种字符识别方法，包括：

步骤13：根据最小外接矩形的水平角度计算旋转矩阵，使用旋转矩阵对图像进行旋转；

步骤14：根据字符区域的长宽先验信息对最小外接矩形进行长宽修正，初步切除杂波噪声区域。

双大津法进行图像阈值分割，以提取出灰度值较高的字符区域。双大津法采用最大类间方差思想，计算三类像素的类间方差，嵌套遍历两个阈值，使类间方差最大，三类像素的类间方差计算方法如下：

σ²＝p₁(m₁-m_G)²+p₂(m₂-m_G)²+p₃(m₃-m_G)²

旋转矩阵的计算方法为：

其中，M为计算的旋转矩阵，angel为连通域水平夹角。

高通滤波器引导模块的计算过程包括：

步骤24：通过2个深度超参数卷积层待测图像初步提取特征；

步骤25：将步骤23和步骤24的输出进行cat拼接。

特征提取的过程包括：在主分支上，通过线性变换层(Linear embedding)对特征通道赋予权重；然后经过2个Swin T block后，与次分支卷积结果拼接；最后使用1×1卷积改变通道数量减小网络参数，输出特征图；

Swin T block的处理流程包括：

步骤31：采用LN层对输入特征图进行标准化；

步骤32：采用W-MSA对步骤31得到的结果进行注意力计算，然后计算与输入特征图的残差；

步骤33：将步骤32得到的残差依次经过LN层和带Gelu非线性激活函数的多层感知机计算权重信息，再计算一次残差，完成这一层的特征提取；

步骤34：将步骤33提取的特征依次输入LN层和SW-MSA进行注意力计算，再与输入特征计算残差；

步骤35：步骤34的输出再次经过LN层和带Gelu非线性激活函数的多层感知机计算权重信息，再计算一次残差，完成这一层的特征提取。

轻量解耦合检测头的计算流程包括：

步骤51：PAN的结果首先进行1×1卷积进行通道压缩；

步骤52：各自送入分类分支和归回分支；

分类分支的1个输出通道数为类别数；回归分支再分成box位置偏移(x,y,w,h)和归回置信度2个输出。

为了进一步说明本发明的有益效果，进行了对比实验，实验过程与结果介绍如下：

软件环境：64位Windows10操作***、pytorch 1.10.0深度学习框架。硬件配置方面，计算机CPU为Intel Core i9-12900K,32GB运行内存，GPU为24GB显存的Nvidia GeForceRTX 3090。

开发环境：pycharm2022。

根据实验实际需要和硬件环境调整超参数之后，确定训练batch size为8；训练总轮数为300；选用Adam为优化器；初始学***翻转图像增广。

罐底数据集对比实验采用的7个对照算法为双阈值大津法分割+支持向量机进行识别(OTSU+HOG+SVM)、Faster R-CNN+FPN、YOLOv4、YOLOXm、YOLOv5s、YOLOv5和DeformableDETR。其中OTSU+HOG+SVM属于传统图像处理方法，其余为深度学习先进目标检测方法。对比实验从检测精度和算法效率两个角度对算法进行综合评价，所有实验均在相同硬件环境下进行，先在训练集上训练生成权重文件，然后用测试集进行测试，所有深度学习方法都使用相同的预训练模型，测试中置信度阈值设为0.4，NMS阈值设为0.5。

实验结果数据如下表1所示：

表1罐底数据集字符识别方法对比结果

结果表明，本发明在罐底数据集字符识别任务上达到了较高的精度，与其他目标检测模型相比精度更高。同时其OCR的准确率也是最高的，为95.8％。

较YOLOv5m和YOLOXm均提升4％，其FPS较二阶段F-RCNN和Deformable DETR高，略低于原始YOLO系列，为31.3，但也完全达到工业检测节拍要求。传统方法、Faster R-CNN、YOLOXm和YOLOv5系列均受到杂波噪声影响，错误地将部分杂波噪声识别为字符，YOLOv4除了过检之外还有分类错误现象，Deformable DETR检测模型也融合了transformer的自注意力机制，对于杂波噪声有一定抑制作用，结果图中并无错检测，但是其预测框的位置准确度不如本发明方法，且推理速度仅有本发明方法的一半。

在SVHN公开数据集上进行的对比实验选取YOLOv5s和YOLOv5m为对照算法，不使用预处理和预训练，直接将图像送入模型得到识别结果。各项参数设置与第一个对比实验一致。实验结果数据如表2所示：

表2 SVHN数据集字符识别方法对比结果

根据表2，原始YOLOv5s和YOLOv5m受杂波噪声和模糊字符影响严重，发生漏检、过检、错误分类问题，特别是深色竖线部分，而本发明改进模型在此方面有所改善，OCR准确率较YOLOv5s和YOLOv5m分别有4.7％和2.6％的提升，证明了本文复杂条件字符识别模型具有较高的先进性和可迁移性。

从表1和表2中得出，本发明在自建的罐底生产日期数据集和SVHN公开数据集上的mAP0.5分别达到99.5％和93.5％。在罐底生产日期数据集中mAP0.75和字符识别准确率分别较YOLOv5s提升4.9％和5.1％；在SVHN公开数据集上mAP0.75和字符识别准确率较YOLOv5s提升2.5％和4.7％。两个数据集推理速度分别可达31.3FPS和37.6FPS，证明本发明对复杂条件下字符具有较好的识别精度和推理速度，工业应用前景较好，可为类似场景的目标识别方法提供参考。

为验证本发明所提出的检测方法的准确率与鲁棒性，设计了如下消融试验。本发明设计并加入了特征提取模块、高通滤波引导模块、检测模块以及预训练模型改进原始YOLOv5。消融实验在原始YOLOv5s上依次添加上述4个改进项，对罐底数据集进行效果验证，共计5组实验，实验结果如表3所示。

表3消融实验结果

在特征提取主干网络中用本发明的Swin T CSP瓶颈模块替换原有卷积模块后mAP_0.75提升了2.1％，再加入高通滤波引导器后又提升了0.6％，证明本发明的高通滤波引导的Swin T特征提取主干结构有效提升了模型杂波噪声抑制和特征提取的能力。解耦合检测头和预训练模型的加入又分别在mAP_0.75指标上创造了1.2％和1.0％的提升，表明本发明各项改进设计对复杂条件字符识别精度均有提升。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种字符识别方法，其特征在于，所述字符识别方法包括：

步骤3：采用图像块分割模块patch partition对所述步骤2得到的强化特征图进行分块，然后依次通过4个层级式的特征提取模块完成特征提取，每个特征提取模块包括：SwinTCSP瓶颈模块；

步骤4：第2、3、4个所述Swin T CSP瓶颈模块生成的特征图被输入至YOLOv5的FPN+PAN层，分别自顶向下和自底向上进行多尺度特征融合；

步骤5：将所述步骤4得到的融合特征图输入YOLOv5头部的轻量解耦合检测头，得到回归框和类别，在图像上框出字符识别结果，同时返回识别文本；

所述步骤3中的Swin T CSP瓶颈模块进行特征提取的过程包括：在主分支上，通过线性变换层对特征通道赋予权重；然后经过n个Swin T模块后，与次分支卷积结果拼接；最后使用1×1卷积改变通道数量减小网络参数，输出特征图；

所述Swin T模块的处理流程包括：

步骤31：采用LN层对输入特征图X进行归一化；

步骤33：将所述步骤32得到的特征图X′依次经过LN层和带Gelu非线性激活函数的多层感知机计算权重信息，经过与X′的残差计算，得到特征图X_L1；

步骤34：将所述步骤33得到特征图X_L1依次输入LN层和SW-MSA进行注意力计算，再与特征图X_L1进行残差计算，得到特征图X′_L1；

步骤35：所述步骤34的输出X′_L1再次经过LN层和带Gelu非线性激活函数的多层感知机计算权重信息，再与特征图X′_L1进行残差计算，得到特征图X_L2；

所述步骤2中高通滤波器引导模块的计算过程包括：

步骤22：使用灰度线性归一化法将正像素值归一至0到1，同时将逆快速傅里叶变换iFFT算得的非正值结果置零，突出目标边缘；

步骤23：通过2个深度超参数卷积层对快速傅里叶变换后的图像初步提取特征；

步骤24：通过2个深度超参数卷积层对所述步骤22输出的待测图像初步提取特征；

步骤25：将所述步骤23和步骤24的输出进行cat拼接。

2.根据权利要求1所述的字符识别方法，其特征在于，所述步骤1的预处理过程包括：

步骤14：根据所述字符区域的长宽先验信息对最小外接矩形进行长宽修正，初步切除杂波噪声区域；

所述双大津法采用最大类间方差思想，计算三类像素的类间方差，嵌套遍历两个阈值，使类间方差最大，所述三类像素的类间方差计算方法如下：

σ²＝p₁(m₁-m_G)²+p₂(m₂-m_G)²+p₃(m₃-m_G)²

3.根据权利要求1所述的字符识别方法，其特征在于，所述轻量解耦合检测头的计算流程包括：

步骤51：PAN的结果首先进行1×1卷积进行通道压缩；

步骤52：各自送入分类分支和回归分支；

4.根据权利要求2所述的字符识别方法，其特征在于，所述旋转矩阵的计算方法为：

其中，M为计算的旋转矩阵，angel为连通域水平夹角。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，实现如权利要求1-4任一项所述的字符识别方法。