CN111985484A

CN111985484A - 基于cnn-lstm的温度仪表数字识别的方法及装置

Info

Publication number: CN111985484A
Application number: CN202010802979.XA
Authority: CN
Inventors: 唐标; 李婷; 于辉; 朱梦梦; 黄绪勇; 李博; 秦雄鹏
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-24

Abstract

本申请提供一种基于CNN‑LSTM的温度仪表数字识别的方法及装置，所述方法采用卷积神经网络结合循环神经网络中的长短期记忆网络进行建模，使得对输入模型中的图片数据不用进行过多切割等繁琐的预处理过程，直接将示数图片作为整体输入模型即可进行预测，大大简化了读数识别的预处理过程。其中，长短期记忆网络部分采用双向长短期记忆网络，同时考虑过去和未来的信息，使得预测结果表现相对更好。采用连接时序分类器，对输出序列进行解码，解决了输入与输出难以对应的问题，简化许多步骤，提高了预测效率。

Description

基于CNN-LSTM的温度仪表数字识别的方法及装置

技术领域

本申请涉及神经网络技术领域，尤其涉及一种基于CNN-LSTM的温度仪表数字识别的方法及装置。

背景技术

随着温度类仪器仪表在变电站的大量使用，电网热工专业的工作量越来越饱和。受限于温度类标准设备控温速度慢的影响，在现场和实验室的工作中，温度专业人员存在效率低下、精力不易集中以及温度设备失控造成火灾等风险。为节省电力工业上在温度仪表读数时的人力与时间，许多相关自动读数的技术不断出现，这些技术的出现使得在生产上的效率以及正确率有较大提高。

现有相近技术提出，对原始仪表图片进行一定图形学预处理，将其转换为相对固定大小与角度的二值化图片；对当前二值化图片切割为单个数字图片后，使用支持向量机(Support Vector Machine，SVM)等机器学习相关技术进行数字识别以及小数点位置识别。使用SVM建模进行单独数字识别后再进行组合输出，这样使得整体预测过程处理繁琐且效率低下。

发明内容

为了解决上述问题，本申请提供一种基于CNN-LSTM的温度仪表数字识别的方法及装置，以解决现有技术中预测过程处理繁琐导致效率低下的问题。

为了实现上述目的，本申请通过以下技术方案实现：

一方面，一种基于CNN-LSTM的温度仪表数字识别的方法，所述方法包括：

获取温度仪表示数图片；

对所述温度仪表示数图片进行图形学预处理，得到示数二值化图片；

根据卷积神经网络，确定所述示数二值化图片的图片特征；

根据循环神经网络中的长短期记忆网络，对所述图片特征进行数字识别，得到概率数据；

将所述概率数据输入到Softmax激活函数，得到输出序列；根据连接时序分类器，对所述输出序列进行解码，确定温度读数数字字符串。

可选的，所述对所述温度仪表示数图片进行图形学预处理，得到示数二值化图片的步骤包括：

根据霍夫变换，将所述温度仪表示数图片进行旋转，对旋转后的图片进行切割，得到示数图片；

对所述示数图片进行二值化处理后，进行开运算，得到示数二值化图片。

可选的，卷积神经网络的结构包括卷积层和最大池化层。

可选的，所述根据循环神经网络中的长短期记忆网络，对所述图片特征进行数字识别，得到概率数据的步骤包括：

双向长短期记忆网络结构将图片特征进行正向计算与反向计算，输出中间信息，得到概率数据。

可选的，所述连接时序分类器采用的搜索方法为集束搜索。

另一方面，一种基于CNN-LSTM的温度仪表数字识别的装置，所述装置包括：

获取单元，用于获取温度仪表示数图片；

处理单元，用于对所述温度仪表示数图片进行图形学预处理，得到示数二值化图片；

确定单元，根据卷积神经网络，用于确定所述示数二值化图片的图片特征；

识别单元，根据循环神经网络中的长短期记忆网络，用于对所述图片特征进行数字识别，得到概率数据；

输出单元，用于将所述概率数据输入到Softmax激活函数，得到输出序列；解码单元，根据连接时序分类器，用于对所述输出序列进行解码，确定温度读数数字字符串。

由以上技术方案可知，本申请提供一种基于CNN-LSTM的温度仪表数字识别的方法及装置，所述方法采用卷积神经网络结合循环神经网络中的长短期记忆网络进行建模，使得对输入模型中的图片数据不用进行过多切割等繁琐的预处理过程，直接将示数图片作为整体输入模型即可进行预测，大大简化了读数识别的预处理过程。其中，长短期记忆网络部分采用双向长短期记忆网络，同时考虑过去和未来的信息，使得预测结果表现相对更好。采用连接时序分类器，对输出序列进行解码，解决了输入与输出难以对应的问题，简化许多步骤，提高了预测效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种基于CNN-LSTM的温度仪表数字识别的方法的图片旋转角度说明示意图；

图2为本申请实施例中一种基于CNN-LSTM的温度仪表数字识别的方法的网络结构示意图；

图3为本申请实施例中一种基于CNN-LSTM的温度仪表数字识别的方法的卷积层的计算示意图；

图4为本申请实施例中一种基于CNN-LSTM的温度仪表数字识别的方法的最大池化层的输出示意图；

图5为本申请实施例中长短期记忆网络的一个基本单元的结构示意图；

图6为本申请实施例中一种基于CNN-LSTM的温度仪表数字识别的方法的映射计算过程示意图。

具体实施方式

为使本申请实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本申请。

首先，获取温度仪表示数图片；拍摄一定数量的工业现场的温度仪表的示数图片，整理为温度示数图片库。本实施例中共收集了2000张未经处理的温度仪表示数图片及温度仪表示数图片的示数标签。

对所述温度仪表示数图片进行图形学预处理，得到示数二值化图片；对温度示数图片库中的温度仪表示数图片进行图形学预处理，使温度仪表示数图片最终转换为固定角度与大小的，只含读数部分的二值化图片，即黑白图片，经过预处理后的图片在AI模型中更易被提取特征以及训练。然后将所有示数二值化图片按照一定的比例分割为训练集和测试集，比例可以设置成8:2，本实施例不做具体的限定。

在一些实施例中，所述对所述温度仪表示数图片进行图形学预处理，得到示数二值化图片的步骤包括：

使用霍夫(Hough)变换检测出与竖直方向θ夹角小于阈值的直线，阈值可以设置成30°，本实施例不做限定，计算出该族直线的所有θ的均值

并将图片旋转

得到校正后的图片。如图1所示，其中横坐标x表示被处理的图片的长度，纵坐标y表示被处理的图片的宽度，r为图片中任一定点到所述直线的距离。

根据霍夫(Hough)变换，将所述温度仪表示数图片进行旋转，对旋转后的图片进行切割，得到示数图片；所述示数图片是保证显示数字完整且面积最小的图片。

对所述示数图片进行二值化处理后，进行开运算，得到示数二值化图片。其中，二值化处理包括：假定一个阈值p，图中每个像素的灰度值为u_i，则转换关系如下：

图像的开运算即为先进行腐蚀运算，去除图像中的边界噪点，使外界向内部收缩；再进行膨胀运算，将数字内部的间隔合并，使模型更易进行识别。

其次，根据卷积神经网络(Convolutional Neural Networks，CNN)，确定所述示数二值化图片的图片特征；卷积神经网络(CNN)可以对输入的图片进行一定的特征自动提取，以便后续输入长短期记忆网络(Long-Short Term Memory，LSTM)中进行数字识别。

在一些实施例中，如图2所示，卷积神经网络的结构包括卷积层和最大池化层。卷积层(Convolutional layer，Conv)是使用卷积核来提取特征的隐藏层。如图3所示，其中卷积核为一个方形矩阵，假设卷积核为3*3，从左上角开始，卷积核对应着数据的3*3的矩阵范围，然后相乘再相加得出一个值。按照这种顺序，每隔一个像素就操作一次，得出9个值。这九个值形成的矩阵被称作激活映射。

最大池化层(Max Pooling)是用来降低卷积层参数的隐藏层。如图4所示，使用一定大小的方形矩阵从池化层输出的矩阵左上角以一定步长开始滑动，选取窗口内矩阵的最大值作为输出。CNN模块中的具体参数设置详见下表：

然后，根据循环神经网络中的长短期记忆网络(LSTM)，对所述图片特征进行数字识别，得到概率数据。

在一些实施例中，如图2所示，所述根据循环神经网络中的长短期记忆网络，对所述图片特征进行数字识别，得到概率数据的步骤包括：双向长短期记忆网络结构将图片特征进行正向计算与反向计算，输出中间信息，得到概率数据。

长短期记忆网络(LSTM)为循环神经网络(Recurrent Neural Network，RNN)中的一种特殊结构，相比循环神经网络(RNN)，长短期记忆网络(LSTM)的实现不仅依赖于前一时间步和当前输入，而考虑到了更多前面的信息。如图5所示，其中，C_t-1代表t-1时刻的细胞记忆状态，C_t代表t时刻的细胞记忆状态，h_t-1代表t-1时刻的输出信息，h_t代表t时刻的输出信息，x_t代表t时刻的输入信息，σ表示sigmoid函数，tanh表示tanh函数。

双向长短期记忆网络(LSTM)结构的隐藏层要保存两个值，将同一序列分别从前往后和从后往前进行推算，对于每个时刻t，输出由这两个单向的长短期记忆网络(LSTM)共同决定。双向长短期记忆网络(LSTM)模块的具体参数设置详见下表：

最后，将所述概率数据输入到Softmax激活函数，得到输出序列；根据连接时序分类器(Connectionist Temporal Classifier，CTC)，对所述输出序列进行解码，确定温度读数数字字符串。

将训练集数据输入模型中进行训练，损失函数是用于度量预测值与实际值的偏差的函数，损失函数计算出预测值与实际值的偏差，根据该偏差值对神经网络中的参数进行更新，以不断优化神经网络模型。如图2所示，其中损失函数设置为CTC Loss，优化器选择Adam，初始学习率设置为0.001；使用损失函数对神经网络进行训练，训练200个epochs(轮)后，模型的损失函数趋于收敛。将测试集数据输入模型中进行预测，将Softmax层得到的输出值使用CTC解码为预测的标签值。

CTC输出每个可能输出以及每个可能输出的条件概率。CTC可以用来解决输入序列与输出序列难以一一对应的问题。给定输入x，CTC输出每个可能输出以及每个可能输出的条件概率。例如，循环神经网络(RNN)的每一个输出要对应到字符图像中的每一个位置，要手工做这样的标记工作量太大，而且图像中的字符数量不同，字体样式不同，大小不同，导致输出不一定能和每个字符一一对应。

CTC可以将问题转化为求解输出序列的条件概率最大的优化问题，求解公式为：

其中，l为真实的输出字符串序列，π为模型的输出字符串序列，下标πt表示的是模型的输出字符串序列在t时间步选取的元素对应的索引，B为将π转换为真实输出的映射，T为总时间，x为输入，y为输出。

在一些实施例中，所述根据连接时序分类器(CTC)采用的搜索方法为集束搜索(Beam Search)。如图6所示，假设指定映射B＝3，在第一个时间步选取概率最大的三个字符，然后在第二个时间步也选取概率最大的三个字符，两两组合即概率相乘，可以组合成9个序列，这些序列在B转换之后会得到一些相同输出，把具有相同输出的序列进行合并，比如有3个序列都可以转换成a，把它们合并即概率加在一起，计算出概率最大的三个序列，然后继续和下一个时间步的字符进行同样的合并。

获取单元，用于获取温度仪表示数图片；

由以上技术方案可知，本申请提供一种基于CNN-LSTM的温度仪表数字识别的方法及装置，所述方法采用卷积神经网络(CNN)结合循环神经网络(RNN)中的长短期记忆网络(LSTM)进行建模，使得对输入模型中的图片数据不用进行过多切割等繁琐的预处理过程，直接将示数图片作为整体输入模型即可进行预测，大大简化了读数识别的预处理过程。其中，长短期记忆网络(LSTM)部分采用双向长短期记忆网络，同时考虑过去和未来的信息，使得预测结果表现相对更好。采用连接时序分类器(CTC)，对输出序列进行解码，解决了输入与输出难以对应的问题，简化许多步骤，提高了预测效率。

以上对本申请的实施例进行了详细说明，但所述内容仅为本申请的较佳实施例，不能被认为用于限定本申请的实施范围。凡依本申请范围所作的均等变化与改进等，均应仍属于本申请的专利涵盖范围之内。

Claims

1.一种基于CNN-LSTM的温度仪表数字识别的方法，其特征在于，所述方法包括：

获取温度仪表示数图片；

根据卷积神经网络，确定所述示数二值化图片的图片特征；

2.根据权利要求1所述的一种基于CNN-LSTM的温度仪表数字识别的方法，其特征在于，所述对所述温度仪表示数图片进行图形学预处理，得到示数二值化图片的步骤包括：

3.根据权利要求1所述的一种基于CNN-LSTM的温度仪表数字识别的方法，其特征在于，卷积神经网络的结构包括卷积层和最大池化层。

4.根据权利要求1所述的一种基于CNN-LSTM的温度仪表数字识别的方法，其特征在于，所述根据循环神经网络中的长短期记忆网络，对所述图片特征进行数字识别，得到概率数据的步骤包括：

5.根据权利要求1所述的一种基于CNN-LSTM的温度仪表数字识别的方法，其特征在于，所述连接时序分类器采用的搜索方法为集束搜索。

6.一种基于CNN-LSTM的温度仪表数字识别的装置，其特征在于，所述装置包括：

获取单元，用于获取温度仪表示数图片；

确定单元，用于根据卷积神经网络，确定所述示数二值化图片的图片特征；

识别单元，用于根据循环神经网络中的长短期记忆网络，对所述图片特征进行数字识别，得到概率数据；