CN114241469A - 一种面向电表轮换过程的信息识别方法和装置 - Google Patents
一种面向电表轮换过程的信息识别方法和装置 Download PDFInfo
- Publication number
- CN114241469A CN114241469A CN202111595568.9A CN202111595568A CN114241469A CN 114241469 A CN114241469 A CN 114241469A CN 202111595568 A CN202111595568 A CN 202111595568A CN 114241469 A CN114241469 A CN 114241469A
- Authority
- CN
- China
- Prior art keywords
- specific information
- image
- information area
- text
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向电表轮换过程的信息识别方法和装置,涉及电力***和计算机图像处理的技术领域,包括获取电表图像,在电表图像中定位出特定信息区域;对特定信息区域进行图像预处理,获得特定信息区域预处理图像,基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;对文本信息区域进行处理,获得水平单行文本;对水平单行文本进行识别,获得特定信息。本发明能够在复杂环境下快速准确地定位电表图像中的特定信息区域并识别相应文本,获得特定信息,降低在电表轮换作业过程中人工读取信息出现错误的概率,提高了作业效率。
Description
技术领域
本发明涉及电力***和计算机图像处理的技术领域,更具体地,涉及一种面向电表轮换过程的信息识别方法和装置。
背景技术
随着科技的进步和电力行业的发展,每个家庭都使用智能电表来计量用电。为了保证电能表计量的准确性,电力公司会依据国家规定对电能表计进行定期更换,即表计轮换。传统做法是由施工人员拍摄电能表图像后通过肉眼观察的方式手动将电能表的用电量、资产号和电表号等信息录入到***中。由于环境因素的影响,电能表所处位置不同,部分电能表的位置过高过偏、电表屏幕有污渍和划痕,使得这种电表信息录入方式不仅耗费大量的人力和时间,还无法保证数据的准确性,存在一定程度的漏检和读数错误的问题。现有方法中采用红外发射接收管、蓝牙或USB通信等方式进行,但一定程度上需要依赖过多硬件设备支持且具有一定的操作规范。因此可以结合计算机图像处理相关领域的知识,采用软件算法设计的方法来实现对信息的读取。基于传统图像处理方法的电表读数识别中,往往通过二值化、边缘检测、霍夫直线检测和形态学操作等图像预处理方法来得到信息区域,再通过投影法和最小包围矩形等方法来分割字符,最后使用模板匹配或者穿线法等来进行字符识别。这些方法在复杂环境下的鲁棒性和泛化能力都不足,识别准确率和速度都不理想。基于深度学***文本框无法准确包围目标读数区域,对后续的字符分割和识别带来严重的影响,准确率会大幅降低。
现有技术公开了一种基于R-CNN的智能电表数值识别方法,离线训练,采集大量的用摄像头已拍好的电表图片,并用图像预处理方法对这些电表图片样本进行预处理,再对样本添加标签以便于网络学习,所述标签设为表盘的读数值,得到用于识别表盘的网络;在线预测,其包括电表表盘位置区域提取,首先通过选择性搜索算法生成一系列候选区域;识别过程是将每个候选区域缩放好的图片输入到R-CNN网络中进行特征提取,然后通过SVM网络识别候选区域图片是否为目标区域,即电表表盘区域,通过多层R-CNN网络和全连接网络识别表盘信息,输出最终识别的电表读数。该方法离线训练时,需要采集大量的用摄像头已拍好的电表图片,效率低;预测时,对表盘位置区域提取无法准确包围目标读数区域,对后续的字符分割和识别带来严重的影响,准确率会大幅降低。
发明内容
本发明为克服上述现有技术在复杂环境下识别准确率低、识别速度慢的缺陷,提供一种面向电表轮换过程的信息识别方法和装置,能够在复杂环境下快速准确地定位电表图像中的特定信息区域并识别相应文本,获得特定信息,降低在电表轮换作业过程中人工读取信息出现错误的概率,提高了作业效率。
为解决上述技术问题,本发明的技术方案如下:
本发明提供了一种面向电表轮换过程的信息识别方法,包括:
S1:获取电表图像;
S2:在电表图像中定位出特定信息区域;
S3:对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
S4:基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;
S5:对文本信息区域进行处理,获得水平单行文本;
S6:对水平单行文本进行识别,获得特定信息。
本发明首先获取需要进行更换的旧电表的电表图像,定位出所需的特定信息区域;对特定信息区域进行图像预处理,消除复杂环境因素的影响;之后对特定信息区域的文本信息进行定位,获得文本信息区域,进而对该区域进行处理,转化为水平单行文本;最后基于水平单行文本进行识别,识别速度快,识别出的特定信息准确度高。
优选地,所述步骤S2中,利用YOLO目标检测定位算法在电表图像中定位出特定信息区域;具体过程为:
S2.1:调整电表图像的大小;
S2.2:基于调整大小后的电表图像,利用Darknet-53网络进行上采样,获得三个分辨率不同的特征图,即第一特征图、第二特征图和第三特征图;
S2.3:对第一特征图、第二特征图和第三特征图进行特征融合,获得第一融合特征图;
S2.4:在第一融合特征图上生成多个锚框;
所述锚框包括置信度和4个预测数值,预测数值分别为锚框中心坐标水平坐标预测值tx、锚框中心坐标竖直坐标预测值ty、锚框宽度预测值tw和锚框高度预测值th;
S2.5:获得特定信息区域;
计算锚框的置信度分数,置信度分数等于类别条件概率乘置信度;根据预设的特定信息的类别,将所有锚框的置信度分数进行排序,置信度分数最高的锚框的类别对应特定信息的类别,锚框区域即为特定信息区域。
利用YOLO目标检测定位算法定位特定信息区域,首先将电表图像调整成同统一的大小,采用Darknet-53网络作为backbone特征提取部分对电表图像进行上采样,获得三个分辨率不同的特征图,其中,第一特征图的分辨率是电表图像的1/32,第二特征图的分辨率是电表图像的1/16,第三特征图的分辨率是电表图像的1/8;之后对三个特张图进行特征融合,获得第一融合特征图,目的是提高对多尺度目标的检测效果;在第一融合特征图上生成多个锚框,锚框的数量与所需特定信息区域的数量相等;每个锚框包括置信度和4个预测数值,预测数值分别为锚框的中心坐标水平坐标预测值tx、中心坐标竖直坐标预测值ty、宽度预测值tw和高度预测值th;预测锚框的类别时,某一个类别的置信度分数等于类别条件概率乘置信度,将所有类别的置信度分数中数值最大的类别作为预测类别,对应为特定信息的类别,此时预测数值组成的锚框区域即为特定信息区域。
优选地,所述特定信息区域包括用电量区域、资产号区域和电表序号区域;所述特定信息包括用电量、资产号和电表序号。
电表轮换作业过程需要记录的信息包括用电量、资产号和电表序号,将上述信息设置为特定信息,上述信息所在的区域即为特定信息区域。
优选地,所述步骤S3中,对特定信息区域进行的图像预处理包括灰度化、高斯模糊和直方图均衡化操作。
高斯模糊用于去除图像噪声,直方图均衡化用于增强图像对比度,图像预处理后可以有效去除环境因素的干扰。
优选地,所述步骤S4中,利用改进的可微分二值化网络对特定信息区域的文本信息进行定位,获得文本信息区域的具体方法为:
S4.1:对特定信息区域预处理图像进行特征提取,获得四个不同尺度的特征图,即第四特征图、第五特征图、第六特征图和第七特征图;
S4.2:对第四特征图、第五特征图、第六特征图和第七特征图均上采样后进行拼接,实现多尺度信息融合,获得第二融合特征图;
S4.3:对第二融合特征图上的每个像素点进行自适应二值化,获得概率图和阈值图,根据概率图和阈值图计算二值化图,公式为:
S4.4:基于二值化图,获得图中左上点、右上点、右下点和左下点的坐标,四个顶点构成的区域即为文本信息区域。
改进的可微分二值化网络包括依次连接的EfficientNet骨干特征提取模块、BiFPN特征融合模块和后处理模块;EfficientNet骨干特征提取模块由5个MBConv卷积块组成,每个MBConv卷积块包括依次连接的1×1卷积层、深度卷积层和点卷积层,并且深度卷积层和点卷积层还加入一个SE注意力机制块;1×1卷积层用来进行升维操作,经过由深度卷积层和点卷积层组成的深度可分离卷积,输出特征图,加入的SE注意力机制块可以增加对重要通道特征的学习占比,减少不重要特征的占比,提高训练结果精度;EfficientNet骨干特征提取模块共输出4个不同尺度的特征图,第四特征图、第五特征图、第六特征图和第七特征图的尺度分别是特定信息区域预处理图像的1/4、1/8、1/16和1/32;将4个不同尺度的特征图输入BiFPN特征融合模块,将输出上采样和拼接后获得的第二融合特征图充分融合了各个特征图的特征,实现了对多尺度信息的融合,有效提高对不同尺度的文本信息区域的检测效果;后处理模块对第二融合特征图上的每个像素点进行自适应二值化,预测得到概率图和阈值图,然后用带系数的sigmoid函数来计算得到近似的二值化图,在二值化图上确定左上点、右上点、右下点和左下点的坐标,四个顶点构成的区域即为文本信息区域;改进的可微分二值化网络具有较好的鲁棒性,网络结构可在降低了较多参数量和计算量的情况下保持对文本信息区域的高检测和定位准确率,提高了检测精度。
优选地,所述步骤S5中,对文本信息区域进行处理,获得水平单行文本的具体方法为:
S5.1:将文本信息区域输入getPerspectiveTransform函数中,进行透视变换,获得透视变换矩阵;
S5.2:将变形矩阵输入warpPerspective函数中,获得水平单行文本。
利用改进的可微分二值化网络对特定信息区域的文本信息进行定位,预测获得左上点、右上点、右下点和左下点的坐标值,由于这4个顶点构成的文本信息区域不是正规的矩形,使用OPENCV中的getPerspectiveTransform函数获得透视变换矩阵,在使用warpPerspective函数获得水平单行文本,便于后续的文本识别。
优选地,所述步骤S6中,对水平单行文本进行识别,获得特定信息的具体方法为:
S6.1:基于水平单行文本,获得卷积特征图;
S6.2:对卷积特征图进行特征序列提取,处理后获得概率分布矩阵;
S6.3:对概率分布矩阵进行解析,获得特定信息。
8.根据权利要求7所述的面向电表轮换过程的信息识别方法,其特征在于,构建改进的卷积神经循环网络对水平单行文本进行识别,获得特定信息;改进的卷积神经循环网络包括依次连接的卷积神经网络模块、循环神经网络模块和信息转录模块;
现有的卷积神经循环网络包括依次连接的VGG-16网络、LSTM网络和Softmax交叉熵损失函数层;利用MobileNetV3网络替代VGG-16网络中除第一个卷积层以外的结构,构成卷积神经网络模块;利用GRU网络代替LSTM网络,构成循环神经网络模块;利用CTC损失函数层代替Softmax交叉熵损失函数层,构成信息转录模块;
水平单行文本输入卷积神经网络模块,获得卷积特征图;循环神经网络模块对卷积特征图进行特征序列提取,处理后获得概率分布矩阵;信息转录模块对概率分布矩阵进行解析,获得特定信息。
MobileNetV3网络中,先由一个线性瓶颈层来升维,然后经过一个深度可分离卷积层,最后根据各层的标志来判断是否需要加入SE注意力机制块;同时,在网络的第1、2、4、6层输出的特征图后面加上了最大池化操作,前两个最大池化层都是将特征图的宽度和高度压缩为原来的一半,后两个最大池化只将高度进行对半放缩,而宽度保持不变,使最后一层输出的卷积特征图的高度等于1,在保持较高识别准确率的同时大大地减少了网络的参数量;卷积特征图输入深层双向的GRU网络中进行特征序列提取,GRU网络与传统的RNN和LSTM网络相比,参数量更少且更容易收敛,通过进行特征序列提取,加强了上下文之间的联系;由于不同水平单行文本的形状类别、长度和文字间隔都不同,如果在循环神经网络的后面使用常见的Softmax交叉熵损失函数,则需要保证每一列即每一个小块都得对应一个字符元素,而且训练之前还需要标记出每个字符在图片中的具***置,再将卷积神经网络的感受野对齐到特征图的每一列才能获取到相应的标签,这样会给数据集的标注带来特别大的困难,因此最后使用CTC损失函数层对概率分布矩阵进行解析,解决字符无法对齐的情况,通过引入空白字符来解决有些位置没有字符的问题,然后用递推快速计算梯度来调整GRU的权重参数,最后获得准确的特定信息。
优选地,所述方法还包括:
S7:将电表图像和对应的特定信息上传至服务器保存。
本发明还提供了一种面向电表轮换过程的信息识别装置,包括:
图像获取模块,用于获取电表图像;
第一检测模块,用于在电表图像中定位出特定信息区域;
预处理模块,用于对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
第二检测模块,基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;
处理模块,用于对文本信息区域进行处理,获得水平单行文本;
识别模块,用于对水平单行文本进行识别,获得特定信息。
优选地,所述装置还包括:
通讯模块,用于将电表图像和对应的特定信息上传至服务器保存。
与现有技术相比,本发明技术方案的有益效果是:
本发明针对电表轮换作业过程,首先获取需要进行更换的旧电表的电表图像,定位出所需的特定信息区域;对特定信息区域进行图像预处理,消除复杂环境因素的影响;之后对特定信息区域的文本信息进行定位,获得准确的文本信息区域;进而对该区域进行处理,转化为水平单行文本,便于后续的文本识别;最后基于水平单行文本进行识别,识别速度快,识别出的特定信息准确度高。
附图说明
图1为实施例1所述的一种面向电表轮换过程的信息识别方法的流程图;
图2为实施例2所述的改进的可微分二值化网络的结构图;
图3为实施例2所述的MBConv卷积块的结构图;
图4为实施例2所述的改进的卷积神经循环网络的结构图。
图5为实施例3所述的一种面向电表轮换过程的信息识别装置的结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种面向电表轮换过程的信息识别方法,如图1所示,包括:
S1:获取电表图像;
S2:在电表图像中定位出特定信息区域;
S3:对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
S4:基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;
S5:对文本信息区域进行处理,获得水平单行文本;
S6:对水平单行文本进行识别,获得特定信息。
在具体实施过程中,本实施例首先获取需要进行更换的旧电表的电表图像,定位出所需的特定信息区域;对特定信息区域进行图像预处理,消除复杂环境因素的影响;之后对特定信息区域的文本信息进行定位,获得文本信息区域,进而对该区域进行处理,转化为水平单行文本;最后基于水平单行文本进行识别,识别速度快,识别出的特定信息准确度高。
实施例2
本发明提供了一种面向电表轮换过程的信息识别方法,包括:
S1:获取电表图像;
S2:在电表图像中定位出特定信息区域;所述特定信息区域包括用电量区域、资产号区域和电表序号区域;
具体的,利用YOLO目标检测定位算法在电表图像中定位出特定信息区域:
S2.1:调整电表图像的大小;
S2.2:基于调整大小后的电表图像,利用Darknet-53网络进行上采样,获得三个分辨率不同的特征图,即第一特征图、第二特征图和第三特征图;第一特征图的分辨率是电表图像的1/32,第二特征图的分辨率是电表图像的1/16,第三特征图的分辨率是电表图像的1/8;
S2.3:对第一特征图、第二特征图和第三特征图进行特征融合,获得第一融合特征图;
S2.4:在第一融合特征图上生成多个锚框;
所述锚框包括置信度和4个预测数值,预测数值分别为锚框中心坐标水平坐标预测值tx、锚框中心坐标竖直坐标预测值ty、锚框宽度预测值tw和锚框高度预测值th;
S2.5:获得特定信息区域;
计算锚框的置信度分数,置信度分数等于类别条件概率乘置信度;根据预设的特定信息的类别,将所有锚框的置信度分数进行排序,置信度分数最高的锚框的类别对应特定信息的类别,锚框区域即为特定信息区域;
S3:对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
所述图像预处理包括灰度化、高斯模糊和直方图均衡化操作;
高斯模糊用于去除图像噪声,直方图均衡化用于增强图像对比度,图像预处理后可以有效去除环境因素的干扰;
S4:基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;具体的:
S4.1:对特定信息区域预处理图像进行特征提取,获得四个不同尺度的特征图,即第四特征图、第五特征图、第六特征图和第七特征图;
S4.2:对第四特征图、第五特征图、第六特征图和第七特征图均上采样后进行拼接,实现多尺度信息融合,获得第二融合特征图;
S4.3:对第二融合特征图上的每个像素点进行自适应二值化,获得概率图和阈值图,根据概率图和阈值图计算二值化图,公式为:
S4.4:基于二值化图,获得图中左上点、右上点、右下点和左下点的坐标,四个顶点构成的区域即为文本信息区域;
如图2所示,改进的可微分二值化网络包括依次连接EfficientNet骨干特征提取模块、BiFPN特征融合模块和后处理模块;EfficientNet骨干特征提取模块由5个MBConv卷积块组成,如图3所示,每个MBConv卷积块包括依次连接的1×1卷积层、深度卷积层和点卷积层,并且深度卷积层和点卷积层还加入一个SE注意力机制块;1×1卷积层用来进行升维操作,经过由深度卷积层和点卷积层组成的深度可分离卷积,输出特征图,加入的SE注意力机制块可以增加对重要通道特征的学习占比,减少不重要特征的占比,提高训练结果精度;EfficientNet骨干特征提取模块共输出4个不同尺度的特征图,第四特征图、第五特征图、第六特征图和第七特征图的尺度分别是特定信息区域预处理图像的1/4、1/8、1/16和1/32;将4个不同尺度的特征图输入BiFPN特征融合模块,将输出上采样和拼接后获得的第二融合特征图充分融合了各个特征图的特征,实现了对多尺度信息的融合,有效提高对不同尺度的文本信息区域的检测效果;后处理模块对第二融合特征图上的每个像素点进行自适应二值化,预测得到概率图和阈值图,然后用带系数的sigmoid函数来计算得到近似的二值化图,在二值化图上确定左上点、右上点、右下点和左下点的坐标,四个顶点构成的区域即为文本信息区域;改进的可微分二值化网络具有较好的鲁棒性,网络结构可在降低了较多参数量和计算量的情况下保持对文本信息区域的高检测和定位准确率,提高了检测精度;
S5:对文本信息区域进行处理,获得水平单行文本;具体的:
S5.1:将文本信息区域输入getPerspectiveTransform函数中,进行透视变换,获得透视变换矩阵;
S5.2:将变形矩阵输入warpPerspective函数中,获得水平单行文本。
利用改进的可微分二值化网络对特定信息区域的文本信息进行定位,预测获得左上点、右上点、右下点和左下点的坐标值,由于这4个顶点构成的文本信息区域不是正规的矩形,使用OPENCV中的getPerspectiveTransform函数获得透视变换矩阵,在使用warpPerspective函数获得水平单行文本,便于后续的文本识别;
S6:对水平单行文本进行识别,获得特定信息;所述特定信息包括用电量、资产号和电表序号;具体的:
S6.1:基于水平单行文本,获得卷积特征图;
S6.2:对卷积特征图进行特征序列提取,处理后获得概率分布矩阵;
S6.3:对概率分布矩阵进行解析,获得特定信息。
构建改进的卷积神经循环网络对水平单行文本进行识别,获得特定信息;改进的卷积神经循环网络包括依次连接的卷积神经网络模块、循环神经网络模块和信息转录模块;
现有的卷积神经循环网络包括依次连接的VGG-16网络、LSTM网络和Softmax交叉熵损失函数层;利用MobileNetV3网络替代VGG-16网络中除第一个卷积层以外的结构,构成卷积神经网络模块;利用GRU网络代替LSTM网络,构成循环神经网络模块;利用CTC损失函数层代替Softmax交叉熵损失函数层,构成信息转录模块;
水平单行文本输入卷积神经网络模块,获得卷积特征图;循环神经网络模块对卷积特征图进行特征序列提取,处理后获得概率分布矩阵;信息转录模块对概率分布矩阵进行解析,获得特定信息。
MobileNetV3网络中,先由一个线性瓶颈层来升维,然后经过一个深度可分离卷积层,最后根据各层的标志来判断是否需要加入SE注意力机制块;同时,在网络的第1、2、4、6层输出的特征图后面加上了最大池化操作,前两个最大池化层都是将特征图的宽度和高度压缩为原来的一半,后两个最大池化只将高度进行对半放缩,而宽度保持不变,使最后一层输出的卷积特征图的高度等于1,在保持较高识别准确率的同时大大地减少了网络的参数量;卷积特征图输入深层双向的GRU网络中进行特征序列提取,GRU网络与传统的RNN和LSTM网络相比,参数量更少且更容易收敛,通过进行特征序列提取,加强了上下文之间的联系;由于不同水平单行文本的形状类别、长度和文字间隔都不同,如果在循环神经网络的后面使用常见的Softmax交叉熵损失函数,则需要保证每一列即每一个小块都得对应一个字符元素,而且训练之前还需要标记出每个字符在图片中的具***置,再将卷积神经网络的感受野对齐到特征图的每一列才能获取到相应的标签,这样会给数据集的标注带来特别大的困难,因此最后使用CTC损失函数层对概率分布矩阵进行解析,解决字符无法对齐的情况,通过引入空白字符来解决有些位置没有字符的问题,然后用递推快速计算梯度来调整GRU的权重参数,最后获得准确的特定信息;
S7:将电表图像和对应的特定信息上传至服务器保存。
在具体实施过程中,本实施例获取需要进行更换的旧电表的电表图像,利用YOLO目标检测定位算法在电表图像中定位出用电量区域、资产号区域和电表序号区域;首先将电表图像大小调整成256×256×3的维度,采用Darknet-53作为backbone特征提取部分进行上采样,获得分标率分别为电表图像1/32、1/16、1/8的第一特征图、第二特征图和第三特征图;将不同尺寸的特征图进行上采样和拼接操作,提高对多尺度目标的检测效果,获得第一融合特征图,维度为N×N×[3×(4+1+80)],N为第一融合特征图的大小;在第一融合特征图上生成3个锚框,每个锚框包括置信度和4个预测数值;本实施例中有80个物体的类别,计算预测类别时,锚框对某一类别的置信度分数等于当前预测框对应类别的条件概率乘上当前预测框的置信度,取置信度分数最大对应的类别作为预测类别,输出锚框的中心点坐标和框高、框宽等数值信息,组成电量区域、资产号区域和电表序号区域;对定位出上述区域的图像进行灰度化、高斯模糊和直方图均衡化操作,获得特定信息区域预处理图像;使用改进的可微分二值化网络对特定信息区域的文本信息进行定位;改进的可微分二值化网络包括依次连接EfficientNet骨干特征提取模块、BiFPN特征融合模块和后处理模块;首先EfficientNet骨干特征提取模块包括5个依次连接MBConv卷积块,每个MBConv卷积块包括依次连接的1×1卷积层、深度卷积层和点卷积层,并且深度卷积层和点卷积层还加入一个SE注意力机制块,SE模块中的比例系数设为0.25;EfficientNet骨干特征提取模块输出4个不同尺度的特征图,形状依次为[1,16,56,56]、[1,24,28,28]、[1,56,14,14]和[1,480,7,7],尺度分别是特定信息区域预处理图像的1/4、1/8、1/16和1/32;输入BiFPN特征融合模块,将4个不同尺度的特征图的通道数调整到24,融合后通道数为96;如图2所示,BiFPN特征融合模块与传统的FPN不同在于,BiFPN特征融合模块除了第一层和最后一层以外的输出都是由3个部分组成,分别是原输入、上一层经过下采样的输出、原输入与后一层上采样后的输出拼接后再进行上采样的输出,以P3_out为例,是由P3_in、P2_out上采样后的结果和P3_up分别乘上一个权重系数后拼接组成的,其中P3_up是由P3_in和P4_up上采样后的结果乘以一个系数拼接后再进行上采样得到的,这样做的目的是在每一个输出中充分融合各个特征图的特征,做到对多尺度信息的融合,可以有效提高对不同尺度的文本行的检测效果;经过特征融合后,将4个输出进行上采样和拼接操作,获得第二融合特征图,形状为[1,96,56,56];对第二融合特征图上的每个像素点进行自适应二值化,获得概率图和阈值图,根据概率图和阈值图计算二值化图,获得图中左上点、右上点、右下点和左下点的坐标,四个顶点构成的区域即为文本信息区域;由于这4个顶点形成的文本信息区域不是正规的矩形,因此需要使用OPENCV中的getPerspectiveTransform函数来得到透视变换矩阵,具体做法是设置2个数组用来存放矫正前和矫正后的矩形区域,其中,maxWidth代表最大宽度像素值,maxHeight代表最大高度像素值,矫正前左上点的坐标对应矫正后的原点(0,0),矫正前右上点的坐标对应矫正后的(maxWidth-1,0),矫正前右下点的坐标对应矫正后的(maxWidth-1,maxHeight-1),矫正前左下点的坐标对应矫正后的(0,maxHeight-1),得到透视变换矩阵后,再使用warpPerspective函数来得到经过透视变换后的水平单行文本;最后利用改进的卷积神经循环网络水平单行文本进行识别;如图4所示,改进的卷积神经循环网络包括依次连接的卷积神经网络模块、循环神经网络模块和信息转录模块;现有的卷积神经循环网络包括依次连接的VGG-16网络、LSTM网络和Softmax交叉熵损失函数层;利用MobileNetV3网络替代VGG-16网络中除第一个卷积层以外的结构,构成卷积神经网络模块,MobileNetV3网络中,先由一个线性瓶颈层来升维,然后经过一个深度可分离卷积层,最后根据各层的标志来判断是否需要加入SE注意力机制块;同时,在网络的第1、2、4、6层输出的特征图后面加上了最大池化操作,前两个最大池化层都是将特征图的宽度和高度压缩为原来的一半,后两个最大池化只将高度进行对半放缩,而宽度保持不变,使最后一层输出的卷积特征图的高度等于1,维度从(32,100,3)变成了最后一层的(1,25,128);利用GRU网络代替LSTM网络,构成循环神经网络模块,GRU网络在完成文本识别任务上的表现跟LSTM差不多且参数量比LSTM要小,所以使用GRU网络来提取文字上下文序列特征,隐藏层神经元数设为96,由于输入GRU网络的图像的维度是(32,100,3),则输出的特征图的高度为25,令T=25,作为循环神经网络的最大时间长度输入,也相当于把整个图像分成25个小块,以此来预测每个小块区域中为所有数字字符的概率分布,最终得到25个长度为字符类别数的概率向量,处理后获得概率分布矩阵;利用CTC损失函数层代替Softmax交叉熵损失函数层,构成信息转录模块,使用CTC损失函数层对概率分布矩阵进行解析,解决字符无法对齐的情况,通过引入空白字符来解决有些位置没有字符的问题,然后用递推快速计算梯度来调整GRU的权重参数,最后获得准确的用电量、资产号和电表序号。将旧电表的电表图像和识别出的用电量、资产号和电表序号对应起来,封装后发送到服务器进行保存。本实施例提供的方法在实际复杂背景拍摄下的电表图片上可以达到98%左右的识别准确率,对电能表轮换作业过程中电表止度识别记录工作的简化,省去了繁琐费力的人工处理步骤从而提高了实际的工作效率。
实施例3
本实施例提供一种面向电表轮换过程的信息识别装置,如图5所示,包括:
图像获取模块,用于获取电表图像;
第一检测模块,用于在电表图像中定位出特定信息区域;
预处理模块,用于对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
第二检测模块,基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;
处理模块,用于对文本信息区域进行处理,获得水平单行文本;
识别模块,用于对水平单行文本进行识别,获得特定信息;
通讯模块,用于将电表图像和对应的特定信息上传至服务器保存。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种面向电表轮换过程的信息识别方法,其特征在于,包括:
S1:获取电表图像;
S2:在电表图像中定位出特定信息区域;
S3:对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
S4:基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;
S5:对文本信息区域进行处理,获得水平单行文本;
S6:对水平单行文本进行识别,获得特定信息。
2.根据权利要求1所述的面向电表轮换过程的信息识别方法,其特征在于,所述步骤S2中,利用YOLO目标检测定位算法在电表图像中定位出特定信息区域;具体过程为:
S2.1:调整电表图像的大小;
S2.2:基于调整大小后的电表图像,利用Darknet-53网络进行上采样,获得三个分辨率不同的特征图,即第一特征图、第二特征图和第三特征图;
S2.3:对第一特征图、第二特征图和第三特征图进行特征融合,获得第一融合特征图;
S2.4:在第一融合特征图上生成多个锚框;
所述锚框包括置信度和4个预测数值,预测数值分别为锚框中心坐标水平坐标预测值tx、锚框中心坐标竖直坐标预测值ty、锚框宽度预测值tw和锚框高度预测值th;
S2.5:获得特定信息区域;
计算锚框的置信度分数,置信度分数等于类别条件概率乘置信度;根据预设的特定信息的类别,将所有锚框的置信度分数进行排序,置信度分数最高的锚框的类别对应特定信息的类别,锚框区域即为特定信息区域。
3.根据权利要求2所述的面向电表轮换过程的信息识别方法,其特征在于,所述特定信息区域包括用电量区域、资产号区域和电表序号区域;所述特定信息包括用电量、资产号和电表序号。
4.根据权利要求1所述的面向电表轮换过程的信息识别方法,其特征在于,所述步骤S3中,对特定信息区域进行的图像预处理包括灰度化、高斯模糊和直方图均衡化操作。
5.根据权利要求1所述的面向电表轮换过程的信息识别方法,其特征在于,所述步骤S4中,利用改进的可微分二值化网络对特定信息区域的文本信息进行定位,获得文本信息区域的具体方法为:
S4.1:对特定信息区域预处理图像进行特征提取,获得四个不同尺度的特征图,即第四特征图、第五特征图、第六特征图和第七特征图;
S4.2:对第四特征图、第五特征图、第六特征图和第七特征图均上采样后进行拼接,实现多尺度信息融合,获得第二融合特征图;
S4.3:对第二融合特征图上的每个像素点进行自适应二值化,获得概率图和阈值图,根据概率图和阈值图计算二值化图,公式为:
S4.4:基于二值化图,获得图中左上点、右上点、右下点和左下点的坐标,四个顶点构成的区域即为文本信息区域。
6.根据权利要求1所述的面向电表轮换过程的信息识别方法,其特征在于,所述步骤S5中,对文本信息区域进行处理,获得水平单行文本的具体方法为:
S5.1:将文本信息区域输入getPerspectiveTransform函数中,进行透视变换,获得透视变换矩阵;
S5.2:将变形矩阵输入warpPerspective函数中,获得水平单行文本。
7.根据权利要求1所述的面向电表轮换过程的信息识别方法,其特征在于,所述步骤S6中,对水平单行文本进行识别,获得特定信息的具体方法为:
S6.1:基于水平单行文本,获得卷积特征图;
S6.2:对卷积特征图进行特征序列提取,处理后获得概率分布矩阵;
S6.3:对概率分布矩阵进行解析,获得特定信息。
8.根据权利要求7所述的面向电表轮换过程的信息识别方法,其特征在于,构建改进的卷积神经循环网络对水平单行文本进行识别,获得特定信息;改进的卷积神经循环网络包括依次连接的卷积神经网络模块、循环神经网络模块和信息转录模块;
现有的卷积神经循环网络包括依次连接的VGG-16网络、LSTM网络和Softmax交叉熵损失函数层;利用MobileNetV3网络替代VGG-16网络中除第一个卷积层以外的结构,构成卷积神经网络模块;利用GRU网络代替LSTM网络,构成循环神经网络模块;利用CTC损失函数层代替Softmax交叉熵损失函数层,构成信息转录模块;
水平单行文本输入卷积神经网络模块,获得卷积特征图;循环神经网络模块对卷积特征图进行特征序列提取,处理后获得概率分布矩阵;信息转录模块对概率分布矩阵进行解析,获得特定信息。
9.根据权利要求1所述的面向电表轮换过程的信息识别方法,其特征在于,所述方法还包括:
S7:将电表图像和对应的特定信息上传至服务器保存。
10.一种面向电表轮换过程的信息识别装置,其特征在于,包括:
图像获取模块,用于获取电表图像;
第一检测模块,用于在电表图像中定位出特定信息区域;
预处理模块,用于对特定信息区域进行图像预处理,获得特定信息区域预处理图像;
第二检测模块,基于特定信息区域预处理图像,对特定信息区域的文本信息进行定位,获得文本信息区域;
处理模块,用于对文本信息区域进行处理,获得水平单行文本;
识别模块,用于对水平单行文本进行识别,获得特定信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111595568.9A CN114241469A (zh) | 2021-12-23 | 2021-12-23 | 一种面向电表轮换过程的信息识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111595568.9A CN114241469A (zh) | 2021-12-23 | 2021-12-23 | 一种面向电表轮换过程的信息识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241469A true CN114241469A (zh) | 2022-03-25 |
Family
ID=80762404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111595568.9A Pending CN114241469A (zh) | 2021-12-23 | 2021-12-23 | 一种面向电表轮换过程的信息识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241469A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881086A (zh) * | 2022-05-21 | 2022-08-09 | 重庆大学 | 基于注意力lstm的配对轴承智能质量识别方法 |
CN115082922A (zh) * | 2022-08-24 | 2022-09-20 | 济南瑞泉电子有限公司 | 基于深度学习的水表数字图片处理方法及*** |
CN115240216A (zh) * | 2022-08-04 | 2022-10-25 | 湖南三湘银行股份有限公司 | 提高票据识别准确度的电子票据处理方法及装置 |
-
2021
- 2021-12-23 CN CN202111595568.9A patent/CN114241469A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881086A (zh) * | 2022-05-21 | 2022-08-09 | 重庆大学 | 基于注意力lstm的配对轴承智能质量识别方法 |
CN114881086B (zh) * | 2022-05-21 | 2023-08-11 | 重庆大学 | 基于注意力lstm的配对轴承智能质量识别方法 |
CN115240216A (zh) * | 2022-08-04 | 2022-10-25 | 湖南三湘银行股份有限公司 | 提高票据识别准确度的电子票据处理方法及装置 |
CN115240216B (zh) * | 2022-08-04 | 2023-07-04 | 湖南三湘银行股份有限公司 | 提高票据识别准确度的电子票据处理方法及装置 |
CN115082922A (zh) * | 2022-08-24 | 2022-09-20 | 济南瑞泉电子有限公司 | 基于深度学习的水表数字图片处理方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及*** | |
CN106875381B (zh) | 一种基于深度学习的手机外壳缺陷检测方法 | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及*** | |
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN114241469A (zh) | 一种面向电表轮换过程的信息识别方法和装置 | |
CN106529537A (zh) | 一种数字仪表读数图像识别方法 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN111539330B (zh) | 一种基于双svm多分类器的变电站数显仪表识别方法 | |
CN112085024A (zh) | 一种罐表面字符识别方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN113516124A (zh) | 基于计算机视觉技术的电能表用电信息识别算法 | |
CN110659637A (zh) | 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法 | |
CN116188756A (zh) | 一种基于深度学习的仪表角度校正与示数识别方法 | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
CN115082922A (zh) | 基于深度学习的水表数字图片处理方法及*** | |
CN117037132A (zh) | 一种基于机器视觉的船舶水尺读数检测和识别方法 | |
CN116188943A (zh) | 太阳射电频谱爆发信息检测方法及装置 | |
CN117315670B (zh) | 一种基于计算机视觉的水表读数区域检测方法 | |
CN116704512A (zh) | 一种融合语义和视觉信息的仪表识别方法及*** | |
CN116188755A (zh) | 一种基于深度学习的仪表角度校正与示数识别装置 | |
CN116259008A (zh) | 一种基于计算机视觉的水位实时监测方法 | |
CN108734158B (zh) | 一种实时列车车号识别方法及装置 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN116704518A (zh) | 一种文本识别方法及装置、电子设备、存储介质 | |
CN115205155A (zh) | 一种畸变图像的矫正方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |