CN115439849B - 基于动态多策略gan网络的仪表数字识别方法及*** - Google Patents
基于动态多策略gan网络的仪表数字识别方法及*** Download PDFInfo
- Publication number
- CN115439849B CN115439849B CN202211211597.5A CN202211211597A CN115439849B CN 115439849 B CN115439849 B CN 115439849B CN 202211211597 A CN202211211597 A CN 202211211597A CN 115439849 B CN115439849 B CN 115439849B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- follows
- network
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态多策略GAN网络的仪表数字识别方法及***,方法按如下步骤:步骤1:对收集的图像数据集进行处理,提取图像特征;步骤2:对图像的网络进行训练;步骤3:对图像进行实时识别;步骤4:当正确率小于设定值时,对GAN网络模型进行离线更新。本发明大幅提升了仪表数字识别模型对多样化仪表图片的适应程度,同时能提高仪表数字识别模型精度。
Description
技术领域
本发明属于仪表数字目标识别技术领域,具体涉及一种基于动态多策略GAN网络的仪表数字识别方法与***。
背景技术
随着科技的不断发展,现如今各种智能计费***、智能数据分析***层出不穷。相比于传统的人工仪表数字统计,智能***具有效率高、智能化等特点,同时还可以降低人力成本,缩短统计周期。但截至目前部分智能***还需要人工操作,准确性和高效性还有很大的提升空间。而基于深度学习技术的仪表数字识别可以帮助智能计费和数据分析***进一步提升的智能性,最大程度地减少人工参与,全面提高识别效率,达到事半功倍的效果。用户只需要按照流程提交仪表照片,后台数据处理***就能自动识别图片中的表盘数字,实现智能统计。
但由于仪表多样性和用户拍照随机性,基于深度学习的数字识别技术也存在许多问题,比如用户拍摄的仪表照片存在图像位置偏差、图像模糊、亮度失衡,甚至还存在图片翻转、图片遮挡和图片缺损,这些因素都将导致最后的模型失效,无法正确识别仪表上的数字。此于此,本发明提出了一种基于动态多策略GAN网络的仪表数字识别技术方案,可以有效避免因用户上传图片质量问题对仪表数字识别所产生的影响。
现阶段,生成式对抗网络(Generative Adversarial Networks,GAN)是在图像识别和自然语言处理领域应用极为广泛的人工智能技术。相较于传统的深度学习模型,该技术在图像识别速度和识别精度两方面都有较大的优势。但面对复杂多样的仪表和用户提交照片的不确定性,单一学习策略的GAN网络则不能自适应地学习各种图像识别任务模式。为了更好地适应目标图像数据分布,设计一种能够自我学习的动态GAN网络就显得十分必要。判别器(Discriminator)将生成器(Generator)生成的图片与真实图片相比较后,计算优化参数并反向传递给生成器,迫使生成器学习生成更逼真的图片,以此不断循环,得到最大程度逼近真实数据分布的高质量图片。
注意力机制(Attention Mechanism)作为识别策略的代表,也是深度学习中的一种图像显著区域提取方法。根据注意力权重施加的方式和位置不同,大多数模型将注意力机制分为空间域、通道域、混合域三种,在实际使用时选择需要的域即可。但面对上述仪表多样性和用户拍照随机性所造成的图像难以识别的各类原因,往往单一策略仅能解决某一类显著性缺失的问题,所以如果仅仅使用单个域就无法满足***对仪表识别的自适应需求,会产生模型精度降低、损失函数变大等结果。
发明内容
针对现有技术从上述现状,本发明公开了一种基于动态多策略GAN网络的仪表数字识别方法及体系。
为实现上述技术目的,本发明采取以下技术方案:
基于动态多策略GAN网络的仪表数字识别方法,其按如下步骤:
步骤1:对收集的图像数据集进行处理,提取图像特征;
步骤2:对图像的网络进行训练;
步骤3:对图像进行实时识别;
步骤4:当正确率小于设定值时,对GAN网络模型进行离线更新。
优选的,步骤1具体如下:
步骤1.1:收集图像;
步骤1.2:选取不同层次噪声的图像,对图像进行处理,使图像趋于高质量,即图像无明显位置偏差、无图像模糊、无亮度失衡、无图像翻转、遮挡和缺损;
步骤1.3:调整图片的尺寸为224×224,得到待训练图片集和高质量图片集/>
步骤1.4:采用预训练VGG-16模型中的卷积层作为特征提取的卷积核,VGG-16是卷积神经网络网络(CNN)中的一个经典网络,主要使用了3×3的卷积核,确保在具有同样感知野的条件下,提升网络深度,进一步提高了神经网络的学习性能,本发明中该卷积核用于提取待训练图片集和高质量图片集/>的特征图集X1和X2。
其中C′、H′、W′分别代表卷积之前图像的维度、高度和宽度,C、H、W分别代表卷积之后图像的维度、高度和宽度。
优选的,步骤2具体如下:
步骤2.1:采用由SENet(Squeeze-and-Excitation Networks,挤压和激励网络,通过对特征通道间的相关性建模,强化重要特征以此提升准确率)、DCN(DeformableConvolutional Networks,可变形卷积网络,可以通过感受野的变化以此来更好地适应图像的几何形变)和CCNet(Criss-cross Networks,交叉注意力网络,通过引入新颖的CCA模块来获取交叉路径上周围像素的上下文信息,每个像素最终可以捕获所有像素的远程依赖关系)三个网络组合而成的混合注意力模块,输入的特征图集X1分别并行通过所述的三个网络;所述混合注意力模块定义如下:
第一个分支为自动学习不同通道特征重要程度的SENet,具体步骤如下:
首先对特征图集X1中的第c个特征图xc进行挤压(Squeeze)操作,即将一个通道上整个空间特征编码为一个全局特征,采用全局平均池化来实现,达到顺着空间维度进行特征压缩的目的,公式如下:
其中zc表示第c个特征图的数值分布情况,即全局信息。
接着进行激励(Excitation)操作,该操作主要捕获通道之间的相关性。为了降低复杂度以及提升泛化能力,引入两个全连接层,公式如下:
s=Fex(z,W)=σ(g(z,W))=σ(W2ReLU(W1z))
其中z为挤压操作的输出,W1和W2为权重,r为缩放参数16。W1z为第一个全连接层过程,起到降维的作用,ReLU()为常用的激活函数,保持输出维度不变;W2ReLU(W1z)为第二个全连接层过程,恢复到之前的维度,σ为sigmoid激活函数,输出s为通过前面这些全连接层学习得到的特征图权重;
最后将激励操作中学习到的各个通道的激活值sc乘以原始特征xc,即可学习到图像各个通道的权重系数,公式如下:
x′c=Fscale(xc,sc)=sc·xc
其中x′c∈X′1,X′1即为经过第一个分支后输出的特征图集。
第二个分支为基于平行网络学习偏移从而使卷积核在输入特征图的采样点发生偏移的DCN,具体步骤如下:
在可变形卷积中,可变形卷积操作和池化操作都是二维的且都是在同一个通道上进行,卷积核R通过增加一个偏移量进行扩张,对于特征图上的每个位置p0变为:
其中p=p0+pn+Δpn,pn是对卷积核R中的所列位置的枚举,w是可变形卷积参数,偏移量Δpn通过学习得到,通常是浮点数,因此通过对x(p)进行双线性插值即可获取输入特征图上的非整数坐标位置的像素值,公式如下:
其中q为输入特征图x上的整数坐标,p为输入特征图x上的浮点坐标;G()为双线性插值函数,最后得到特征图x(p)∈X′2;
第三个分支为捕捉上下文信息的CCNet,具体步骤如下:
引入交叉注意力模块CCA(Criss-cross Attention Module),CCA模块首先对特征图x进行两个1×1卷积生成特征图Q和K,将Q和K通过亲和(Affinity)运算进一步生成注意力图A,公式如下:
其中在特征图Q的空间维度上每一个位置u都可以得到向量Qu∈RC′,同理,从K中提取特征向量获得集合Ωu∈R(H+W-1)×C′,Ωi,u∈RC′表示Ωu的第i个元素,di,u∈D表示特征Qu与Ωi,u的相关程度,softmax为常见激活函数,将(-∞,+∞)范围内的数值映射成为一个(0,1)区间的数值。
完成上述操作后,将最开始的特征图x进行1×1卷积生成特征图V以进行特征自适应,从V中提取特征向量获得集合Vu,然后获得u位置上的十字特征向量Φu,这些向量位于位置为u的同一行或同一列中,最后进行聚合(Aggregation)操作收集远程上下文信息,公式如下:
其中Ai,u和Φi,u是对应元素按位相乘,上下文信息被添加到局部特征x以增强局部特征和像素方式的表示。
整个CCNet中,特征图x通过由两个串联的CCA模块组合而成的循环交叉注意力模块RCCA进行全局上下文信息提取,然后将提取的全局上下文信息和特征图x本身拼接起来,最后得到特征图X′3;
步骤2.2:针对混合注意力机制的权重叠加,采用遗传算法迭代得到权重分配较优解;族群初始化采用产生随机数的方法,生成5组数值范围在0.3~3之间的随机权重其中i为遗传算法第i代族群,α为混合注意力模块第一个分支权重,β为混合注意力模块第二个分支权重,γ为混合注意力模块第三个分支权重。根据各组权重对图片特征的提取情况和提取效果计算交叉熵损失函数,确定其对应的适应度值,并根据各组适应度情况构建轮盘,通过赌轮盘的方式选择其中2组作为父代,而对于被选择中的组与组之间,进行交叉操作,其交叉方法为:
其中且rand∈U(0,1),η=4;
rand为0~1之间的随机数,η为自定义的分布因子,决定子代逼近父代的概率。并设定概率为0.5%的变异,变异方式为:
其中k为变异常数,r为随机数;
通过此过程实现权重的不断发生变化,通过归一化,保证三个注意力权重之和等于3,即αi+βi+γi=3;
最终得到两个子代权重;选取其中适应度高的一组F′=(αn,βn,γn)进行特征图加权,得到混合注意力结果特征图:
步骤2.3:采用softmax损失函数和交叉熵损失函数组合而成的损失函数;将混合注意力模块输出特征图X″和高质量图片特征图X2同时输入GAN网络的判别器中比较,具体步骤如下:
先计算softmax损失函数,公式如下:
其中z为混合注意力模块输出特征图X″全连接层的输出结果,zk表示全链接层第k个值,c为分类个数,k∈{1,2,3,…,c};
接着计算交叉熵损失函数,公式如下:
其中f(zc)为softmax损失函数的输出结果,yc为高质量图片样本真值X2,以此计算得到最终的损失函数。
优选的,步骤3具体如下:
步骤3.1:将特征图X″通过全卷积神经网络(Fully Convolutional Networks,FCN)的反卷积层上采样得到尺寸为224×224的图像集;
步骤3.2:对图像仪表表头的分割采用一种全卷积神经网络(Pyramid SceneParsing Network,PSPNet),PSPNet结构将获取到的特征层划分成不同大小的网格,之后每个网格内部分别进行平均池化,从而实现聚合不同区域的上下文信息。
步骤3.3:对仪表表头中数字采用预训练的卷积神经网络VGG-16整体模型进行识别,VGG-16的基础架构中卷积层采用3×3的卷积核堆叠,池化层采用2×2的窗口且步长为2,3个全连接层;经soft-max层softmax归一化函数后输出识别结果。
优选的,步骤4具体如下:
步骤4.1:一段时间后进行复查,并计算复查图像中数字识别的正确率δ;当正确率δ>92%时,不进行模型更新;反之,将错误图片调整为高质量图片,并加入高质量图片集,之后根据新的高质量图集重复步骤1.4和步骤2重新训练整个网络,以获取全新的权重分配;
步骤4.2:一段时间后随机抽取部分图像进行网络训练,并计算该部分图像数字识别的正确率以及图像的损失函数值,当正确率δ≤92%时,将损失函数值大的前50张图像提出,经调整后放入高质量图片集,并重复步骤1.4以及步骤2再次训练以获取全新的权重分配;
步骤4.3:每次对设定张数的图进行识别后,计算正确率δ,当图像数字识别正确率δ≤92%时,将上述图片作为待训练图片集重复步骤1和2。
优选的,步骤4.3:还通过检查图像增强后的图片效果,对高质量图片集更新,增加仪表图像种类或分别制作不同种类的高质量图片集。
本发明还公开了一种基于上述仪表数字识别方法的***,其包括如下模块:
图像收集及特征提前模块:对收集的图像数据集进行处理,提取图像特征;
网络训练模块:对图像的网络进行训练;
实时识别模块:对图像进行实时识别;
离线更新模块:当正确率小于设定值时,对模型进行离线更新。
本发明提出多策略的混合注意力机制模型,即将空间域里的交叉注意力网络(Criss-cross Networks,CCNet,通过引入新颖的CCA模块来获取交叉路径上周围像素的上下文信息,每个像素最终可以捕获所有像素的远程依赖关系)、可变形卷积网络(Deformable Convolutional Networks,DCN,可以通过感受野的变化以此来更好地适应图像的几何形变)和通道域里的挤压和激励网络(Squeeze-and-Excitation Networks,SENet,通过对特征通道间的相关性建模,强化重要特征以此提升准确率)组合成混合注意力机制模块,通过遗传算法(Genetic Algorithm,GA)在训练过程中动态优化各注意力机制的权重,得到注意力机制分配的近似最优解;最后将各部分权重相加得到增强图像。本发明大幅提升了仪表数字识别模型对多样化仪表图片的适应程度,同时能提高仪表数字识别模型精度。
附图说明
图1是本发明基于动态多策略GAN网络的仪表数字识别方法流程示意图。
图2是本发明混合注意力模块流程示意图。
图3是本发明混合注意力模块SENet流程示意图。
图4是本发明混合注意力模块CCNet流程示意图。
图5是本发明基于动态多策略GAN网络的仪表数字识别***框图。
具体实施方式
下面结合附图对本发明优选实施例做详细说明。
实施例1
如图1-4所示,本实施例一种基于动态多策略GAN网络的仪表数字识别方法,具体步骤如下:
阶段1:图像数据集处理,具体如下:
步骤1.1:图像收集。本实施例的图片来自于北京某国企各房产的现场实时拍摄仪表照片。
步骤1.2:高质量图片。收集不同层次噪声的图像,经人工操作对图像进行去噪、裁剪,调整图像的对比度、饱和度、曝光等参数,使图像趋于高质量。
步骤1.3:图像尺寸调整。使用Python的第三方图像处理库PIL(Python ImagingLibrary)库批量调整图片的尺寸,统一修改为224×224,便于特征提取以及图片增强网络模块的输入,得到待训练图片集和高质量图片集/>
步骤1.4:图像特征提取。特征提取是指通过卷积核对图像进行卷积可以获得对应的特征图,而通过多个卷积核的作用,就可以获取到图像特征的信息。本发明采用预训练VGG-16模型中的卷积层作为特征提取的卷积核,VGG-16是卷积神经网络网络(CNN)中的一个经典网络,主要使用了3×3的卷积核,确保在具有同样感知野的条件下,提升网络深度,进一步提高了神经网络的学习性能,本发明中该卷积核用于提取待训练图片集和高质量图片集/>的特征图集X1和X2。
其中C′、H′、W′分别代表卷积之前图像的维度、高度和宽度,C、H、W分别代表卷积之后图像的维度、高度和宽度。
阶段2:图像的网络训练,具体如下:
步骤2.1:混合注意力设置。本实施例采用由SENet、DCN和CCNet三个网络组合而成的混合注意力模块,SENet注重输入图像的通道特征,DCN和CCNet注重输入图像的空间特征,其中DCN侧重图像相邻像素点之间的关系,CCNet侧重全局,但同时聚焦图像重点信息。输入的特征图集X1分别并行通过上述三个网络。上述混合注意力模块定义如下:
第一个分支为可以自动学习不同通道特征重要程度的SENet,具体步骤如下:
首先对特征图集X1中的第c个特征图xc进行挤压(Squeeze)操作,即将一个通道上整个空间特征编码为一个全局特征,采用全局平均池化来实现,达到顺着空间维度进行特征压缩的目的,公式如下:
其中zc表示第c个特征图的数值分布情况,即全局信息。
接着进行激励(Excitation)操作,该操作主要捕获通道之间的相关性。为了降低复杂度以及提升泛化能力,引入两个全连接层,公式如下:
s=Fex(z,W)=σ(g(z,W))=σ(W2ReLU(W1z))
其中z为挤压操作的输出,W1和W2为权重,r为缩放参数16。W1z为第一个全连接层过程,起到降维的作用,ReLU()为常用的激活函数,保持输出维度不变;W2ReLU(W1z)为第二个全连接层过程,恢复到之前的维度,σ为sigmoid激活函数,输出s为通过前面这些全连接层学习得到的特征图权重;
最后将激励操作中学习到的各个通道的激活值sc乘以原始特征xc,即可学习到图像各个通道的权重系数,公式如下:
x′c=Fscale(xc,sc)=sc·xc
其中x′c∈X′1,X′1即为经过第一个分支后输出的特征图集。
第二个分支为基于平行网络学习偏移从而使卷积核在输入特征图的采样点发生偏移的DCN,具体步骤如下:
在可变形卷积中,可变形卷积操作和池化操作都是二维的且都是在同一个通道上进行,卷积核R通过增加一个偏移量进行扩张,对于特征图上的每个位置p0变为:
其中p=p0+pn+Δpn,pn是对卷积核R中的所列位置的枚举,w是可变形卷积参数,偏移量Δpn通过学习得到,通常是浮点数,因此通过对x(p)进行双线性插值即可获取输入特征图上的非整数坐标位置的像素值,公式如下:
其中q为输入特征图x上的整数坐标,p为输入特征图x上的浮点坐标;G()为双线性插值函数,最后得到特征图x(p)∈X′2;
第三个分支为具有更高效和有效捕捉上下文信息的CCNet,具体步骤如下:
为了使用轻量级的计算和内存对本地特征表示的远程上下文相关性建模,我们引入了交叉注意力模块(Criss-cross Attention Module,CCA)。CCA模块在水平和垂直方向上收集上下文信息,以增强按像素表示的功能。
CCA模块首先对特征图x进行两个1×1卷积生成特征图Q和K,将Q和K通过亲和(Affinity)运算进一步生成注意力图A,公式如下:
其中在特征图Q的空间维度上每一个位置u都可以得到向量Qu∈RC′,同理,从K中提取特征向量获得集合Ωu∈R(H+W-1)×C′,Ωi,u∈RC′表示Ωu的第i个元素,di,u∈D表示特征Qu与Ωi,u的相关程度,softmax为常见激活函数,将(-∞,+∞)范围内的数值映射成为一个(0,1)区间的数值。
完成上述操作后,将最开始的特征图x进行1×1卷积生成特征图V以进行特征自适应,从V中提取特征向量获得集合Vu,然后获得u位置上的十字特征向量Φu,这些向量位于位置为u的同一行或同一列中,最后进行聚合(Aggregation)操作收集远程上下文信息,公式如下:
其中Ai,u和Φi,u是对应元素按位相乘,上下文信息被添加到局部特征x以增强局部特征和像素方式的表示,因此,它具有广泛的上下文视图,提升了特征表现。
在整个CCNet中,特征图x通过由两个串联的交叉注意力模块组合而成的循环交叉注意力模块(Recurrent Criss-cross Attention Module,RCCA),进行全局上下文信息提取,然后将提取的全局上下文信息和特征图x拼接起来,最后得到特征图X′3。
上述步骤1.4到步骤2.1为GAN网络生成器部分。
步骤2.2:混合注意力自适应权重分配。针对混合注意力机制的权重叠加,本发明采用遗传算法迭代得到权重分配较优解。族群初始化采用产生随机数的方法,生成5组数值范围在0.3~3之间的随机权重其中i为遗传算法第i代族群,α为混合注意力模块第一个分支权重,β为混合注意力模块第二个分支权重,γ为混合注意力模块第三个分支权重。根据各组权重对图片特征的提取情况和提取效果计算损失函数,确定其对应的适应度值,并根据各组适应度情况构建轮盘,通过赌轮盘的方式选择其中2组作为父代,而对于被选择中的组与组之间,进行交叉操作,其交叉方法为:
(适用于β,γ)
其中且rand∈U(0,1),η=4。
rand为0~1之间的随机数,η为自定义的分布因子,决定子代逼近父代的概率。并设定概率为0.5%的变异,变异方式为:
(适用于β,γ)
其中k为变异常数,r为随机数。
通过此过程实现权重的不断发生变化,通过归一化,保证三个注意力权重之和等于3,即αi+βi+γi=3。
最终得到两个子代权重。选取其中适应度高的一组F′=(αn,βn,γn)进行特征图加权,得到混合注意力结果特征图:
该步骤为GAN网络参数进化部分。
步骤2.3:损失函数的计算。本实施例采用softmax损失函数和交叉熵损失函数(Cross-entropy loss function)组合而成的损失函数。将混合注意力模块输出特征图X″和高质量图片特征图X2同时输入GAN网络的判别器中比较,具体步骤如下:
先计算softmax损失函数,公式如下:
其中z为混合注意力模块输出特征图X″全连接层的输出结果,zk表示全链接层第k个值,c为分类个数,k∈{1,2,3,…,c}。
接着计算交叉熵损失函数,公式如下:
其中f(zc)为softmax损失函数的输出结果,yc为高质量图片样本真值X2,以此计算即可得到最终的损失函数。
该步骤为GAN网络判别器部分。
阶段3:图像的实时识别,具体如下:
步骤3.1:上采样。将特征图X″通过全卷积神经网络(Fully ConvolutionalNetworks,FCN)的反卷积层上采样得到尺寸为224×224的图像集;
步骤3.2:PSPNet(Pyramid Scene Parsing Network)模型。对图像仪表表头的分割采用一种全卷积神经网络PSPNet,PSPNet结构将获取到的特征层划分成不同大小的网格,之后每个网格内部分别进行平均池化,从而实现聚合不同区域的上下文信息。
步骤3.3:对仪表表头中数字采用预训练的卷积神经网络VGG-16整体模型进行识别,VGG-16的基础架构中卷积层采用3×3的卷积核堆叠,池化层采用2×2的窗口且步长为2,3个全连接层;经soft-max层softmax归一化函数后输出识别结果。
阶段4:GAN网络模型参数离线更新,具体如下:
步骤4.1:定期人工复检。在使用一段时间后利用人工识别方式进行复查,并计算复查图像中数字识别的正确率δ。当正确率δ>92%时,不进行模型更新;反之,将错误图片人工调整为高质量图片,并加入高质量图片集,之后根据新的高质量图集重复步骤1.4和步骤2重新训练整个网络,以获取全新的权重分配。
步骤4.2:定期抽取图像进行网络训练。在使用一段时间后随机抽取部分图像(本实施例设定为1000张)进行网络训练,并计算该部分图像数字识别的正确率以及图像的损失函数值,当正确率δ≤92%时,将损失函数值大的前50张图像提出,经人工调整后放入高质量图片集,并重复步骤1.4以及步骤2再次训练以获取全新的权重分配。
步骤4.3:每次对1000张图进行识别后,计算正确率δ,当图像数字识别正确率δ≤92%时,将上述图片作为待训练图片集重复步骤1和2重新训练GAN网络。此外通过检查图像增强后的图片效果,可对高质量图片集更新,如增加仪表图像种类,或分别制作不同种类的高质量图片集。
实施例2
如图5所示,本实施例公开了一种基于实施例1所述仪表数字识别方法的***,其包括如下模块:
图像收集及特征提前模块:对收集的图像数据集进行处理,提取图像特征;
网络训练模块:对图像的网络进行训练;
实时识别模块:对图像进行实时识别;
离线更新模块:当正确率小于设定值时,对模型进行离线更新。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (5)
1.基于动态多策略GAN网络的仪表数字识别方法,其特征是按如下步骤:
步骤1:对收集的图像数据集进行处理,提取图像特征;
步骤2:对图像的网络进行训练;
步骤3:对图像进行实时识别;
步骤4:当正确率小于设定值时,对GAN网络模型进行离线更新;
步骤1具体如下:
步骤1.1:收集图像;
步骤1.2:选取不同层次噪声的图像,对图像进行处理,使图像趋于高质量;
步骤1.3:调整图片的尺寸为224×224,得到待训练图片集和高质量图片集/>
步骤1.4:采用预训练VGG-16模型中的卷积层作为特征提取的卷积核,该卷积核用于提取待训练图片集和高质量图片集/>的特征图集X1和X2
其中C′、H′、W′分别代表卷积之前图像的维度、高度和宽度,C、H、W分别代表卷积之后图像的维度、高度和宽度;
步骤2具体如下:
步骤2.1:采用由SENet、DCN和CCNet三个网络组合而成的混合注意力模块,输入的特征图集X1分别并行通过所述的三个网络;所述混合注意力模块定义如下:
第一个分支为自动学习不同通道特征重要程度的SENet,具体步骤如下:
首先对特征图集X1中的第c个特征图xc进行挤压操作,即将一个通道上整个空间特征编码为一个全局特征,采用全局平均池化来实现,达到顺着空间维度进行特征压缩的目的,公式如下:
其中zc表示第c个特征图的数值分布情况,即全局信息;
接着进行激励操作,并引入两个全连接层,公式如下:
s=Fex(z,W)=σ(g(z,W))=σ(W2ReLU(W1z))
其中z为挤压操作的输出,W1和W2为权重,r为缩放参数16;W1z为第一个全连接层过程,起到降维的作用,ReLU()为常用的激活函数,保持输出维度不变;W2ReLU(W1z)为第二个全连接层过程,恢复到之前的维度,σ为sigmoid激活函数,输出s为通过前面这些全连接层学习得到的特征图权重;
最后将激励操作中学习到的各个通道的激活值sc乘以原始特征xc,即可学习到图像各个通道的权重系数,公式如下:
x′c=Fscale(xc,sc)=sc·xc
其中x′c∈X′1,X′1即为经过第一个分支后输出的特征图集;
第二个分支为基于平行网络学习偏移从而使卷积核在输入特征图的采样点发生偏移的DCN,具体步骤如下:
在可变形卷积中,可变形卷积操作和池化操作都是二维的且都在同一个通道上进行,卷积核R通过增加一个偏移量进行扩张,对于特征图上的每个位置p0变为:
其中p=p0+pn+Δpn,pn是对卷积核R中的所列位置的枚举,w是可变形卷积参数,偏移量Δpn通过学习得到,通常是浮点数,因此通过对x(p)进行双线性插值即可获取输入特征图上的非整数坐标位置的像素值,公式如下:
其中q为输入特征图x上的整数坐标,p为输入特征图x上的浮点坐标;G()为双线性插值函数,最后得到特征图x(p)∈X′2;
第三个分支为捕捉上下文信息的CCNet,具体步骤如下:
引入交叉注意力模块CCA,CCA模块首先对特征图x进行两个1×1卷积生成特征图Q和K,将Q和K通过亲和运算进一步生成注意力图A,公式如下:
其中在特征图Q的空间维度上每一个位置u都能得到向量Qu∈RC′,同理,从K中提取特征向量获得集合Ωu∈R(H+W-1)×C′,Ωi,u∈RC′表示Ωu的第i个元素,di,u∈D表示特征Qu与Ωi,u的相关程度,softmax为常见激活函数,将(-∞,+oo)范围内的数值映射成为一个(0,1)区间的数值;
完成上述操作后,将最开始的特征图x进行1×1卷积生成特征图V以进行特征自适应,从V中提取特征向量获得集合Vu,然后获得u位置上的十字特征向量Φu,这些向量位于位置为u的同一行或同一列中,最后进行聚合操作收集远程上下文信息,公式如下:
其中Ai,u和Φi,u是对应元素按位相乘,上下文信息被添加到局部特征x以增强局部特征和像素方式的表示;
整个CCNet中,特征图x通过由两个串联的CCA模块组合而成的循环交叉注意力模块RCCA进行全局上下文信息提取,然后将提取的全局上下文信息和特征图x本身拼接起来,最后得到特征图X′3;
步骤2.2:针对混合注意力机制的权重叠加,采用遗传算法迭代得到权重分配较优解;族群初始化采用产生随机数的方法,生成5组数值范围在0.3~3之间的随机权重其中i为遗传算法第i代族群,α为混合注意力模块第一个分支权重,β为混合注意力模块第二个分支权重,γ为混合注意力模块第三个分支权重;根据各组权重对图片特征的提取情况和提取效果计算交叉熵损失函数,确定其对应的适应度值,并根据各组适应度情况构建轮盘,通过赌轮盘的方式选择其中2组作为父代,而对于被选择中的组与组之间,进行交叉操作,其交叉方法为:
其中且rand∈U(0,1),η=4;
rand为0~1之间的随机数,η为自定义的分布因子,决定子代逼近父代的概率;并设定概率为0.5%的变异,变异方式为:
其中k为变异常数,r为随机数;
通过此过程实现权重的不断发生变化,通过归一化,保证三个注意力权重之和等于3,即αi+βi+γi=3;
最终得到两个子代权重;选取其中适应度高的一组F′=(αn,βn,γn)进行特征图加权,得到混合注意力结果特征图:
步骤2.3:采用softmax损失函数和交叉熵损失函数组合而成的损失函数;将混合注意力模块输出特征图X″和高质量图片特征图X2同时输入GAN网络的判别器中比较,具体步骤如下:
先计算softmax损失函数,公式如下:
其中z为混合注意力模块输出特征图X″全连接层的输出结果,zk表示全链接层第k个值,c为分类个数,k∈{1,2,3,…,c};
接着计算交叉熵损失函数,公式如下:
其中f(zc)为softmax损失函数的输出结果,yc为高质量图片样本真值X2,以此计算得到最终的损失函数。
2.如权利要求1所述基于动态多策略GAN网络的仪表数字识别方法,其特征是,步骤3具体如下:
步骤3.1:将特征图X″通过全卷积神经网络的反卷积层上采样得到尺寸为224×224的图像集;
步骤3.2:对图像仪表表头的分割采用全卷积神经网络,全卷积神经网络结构将获取到的特征层划分成不同大小的网格,之后每个网格内部分别进行平均池化,从而实现聚合不同区域的上下文信息;
步骤3.3:对仪表表头中数字采用预训练的卷积神经网络VGG-16整体模型进行识别,VGG-16的基础架构中卷积层采用3×3的卷积核堆叠,池化层采用2×2的窗口且步长为2,3个全连接层;经soft-max层softmax归一化函数后输出识别结果。
3.如权利要求2所述基于动态多策略GAN网络的仪表数字识别方法,其特征是,步骤4具体如下:
步骤4.1:一段时间后进行复查,并计算复查图像中数字识别的正确率δ;当正确率δ>92%时,不进行模型更新;反之,将错误图片调整为高质量图片,并加入高质量图片集,之后根据新的高质量图集重复步骤1.4和步骤2重新训练整个网络,以获取全新的权重分配;
步骤4.2:一段时间后随机抽取部分图像进行网络训练,并计算该部分图像数字识别的正确率以及图像的损失函数值,当正确率δ≤92%时,将损失函数值大的前50张图像提出,经调整后放入高质量图片集,并重复步骤1.4以及步骤2再次训练以获取全新的权重分配;
步骤4.3:每次对设定张数的图进行识别后,计算正确率δ,当图像数字识别正确率δ≤92%时,将上述图片作为待训练图片集重复步骤1和2。
4.如权利要求3所述基于动态多策略GAN网络的仪表数字识别方法,其特征是,步骤4.3:还通过检查图像增强后的图片效果,对高质量图片集更新,增加仪表图像种类或分别制作不同种类的高质量图片集。
5.一种基于权利要求1-4任一项所述仪表数字识别方法的***,其特征是包括如下模块:
图像收集及特征提前模块:对收集的图像数据集进行处理,提取图像特征;
网络训练模块:对图像的网络进行训练;
实时识别模块:对图像进行实时识别;
离线更新模块:当正确率小于设定值时,对模型进行离线更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211211597.5A CN115439849B (zh) | 2022-09-30 | 2022-09-30 | 基于动态多策略gan网络的仪表数字识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211211597.5A CN115439849B (zh) | 2022-09-30 | 2022-09-30 | 基于动态多策略gan网络的仪表数字识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115439849A CN115439849A (zh) | 2022-12-06 |
CN115439849B true CN115439849B (zh) | 2023-09-08 |
Family
ID=84251574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211211597.5A Active CN115439849B (zh) | 2022-09-30 | 2022-09-30 | 基于动态多策略gan网络的仪表数字识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439849B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036875B (zh) * | 2023-07-11 | 2024-04-26 | 南京航空航天大学 | 一种基于融合注意力gan的红外弱小移动目标生成算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830271A (zh) * | 2018-06-13 | 2018-11-16 | 深圳市云识科技有限公司 | 一种基于卷积神经网络的数显仪表读数识别方法 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN114266898A (zh) * | 2022-01-11 | 2022-04-01 | 辽宁石油化工大学 | 一种基于改进EfficientNet的肝癌识别方法 |
CN114782669A (zh) * | 2022-01-07 | 2022-07-22 | 西安理工大学 | 基于深度学习的数字仪表自动识别、定位与读数方法 |
-
2022
- 2022-09-30 CN CN202211211597.5A patent/CN115439849B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830271A (zh) * | 2018-06-13 | 2018-11-16 | 深圳市云识科技有限公司 | 一种基于卷积神经网络的数显仪表读数识别方法 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN114782669A (zh) * | 2022-01-07 | 2022-07-22 | 西安理工大学 | 基于深度学习的数字仪表自动识别、定位与读数方法 |
CN114266898A (zh) * | 2022-01-11 | 2022-04-01 | 辽宁石油化工大学 | 一种基于改进EfficientNet的肝癌识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115439849A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378844B (zh) | 基于循环多尺度生成对抗网络的图像盲去运动模糊方法 | |
CN110119780B (zh) | 基于生成对抗网络的高光谱图像超分辨重建方法 | |
Lin et al. | Hyperspectral image denoising via matrix factorization and deep prior regularization | |
CN110634108B (zh) | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 | |
CN110163808B (zh) | 一种基于卷积神经网络的单帧高动态成像方法 | |
CN109035142B (zh) | 一种对抗网络结合航拍图像先验的卫星图像超分辨方法 | |
Yan et al. | Deep objective quality assessment driven single image super-resolution | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN112541877B (zh) | 基于条件生成对抗网络的去模糊方法、***、设备及介质 | |
CN112561799A (zh) | 一种红外图像超分辨率重建方法 | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN112699838B (zh) | 基于光谱诊断特征加权的高光谱混合像元非线性盲分解方法 | |
CN111861886A (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN115936985A (zh) | 一种基于高阶退化循环生成对抗网络的图像超分辨率重建方法 | |
Song et al. | Grouped multi-scale network for real-world image denoising | |
CN115439849B (zh) | 基于动态多策略gan网络的仪表数字识别方法及*** | |
CN115564649A (zh) | 一种图像超分辨率重建方法、装置及设备 | |
CN109949217A (zh) | 基于残差学习和隐式运动补偿的视频超分辨率重建方法 | |
CN114494003B (zh) | 一种联合形状变换和纹理转换的古文字生成方法 | |
CN113592715A (zh) | 一种面向小样本图像集的超分辨率图像重构方法 | |
Jang et al. | Dual path denoising network for real photographic noise | |
CN115953317A (zh) | 图像增强方法、装置、电子设备及存储介质 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN115760670B (zh) | 基于网络隐式先验的无监督高光谱融合方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |