CN118038481A - 一种基于计算机视觉技术的变电站端子排图纸识别方法及*** - Google Patents

一种基于计算机视觉技术的变电站端子排图纸识别方法及*** Download PDF

Info

Publication number
CN118038481A
CN118038481A CN202410437024.7A CN202410437024A CN118038481A CN 118038481 A CN118038481 A CN 118038481A CN 202410437024 A CN202410437024 A CN 202410437024A CN 118038481 A CN118038481 A CN 118038481A
Authority
CN
China
Prior art keywords
primitive
frame
prediction
scale
primitive detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410437024.7A
Other languages
English (en)
Other versions
CN118038481B (zh
Inventor
吴勇
洪文谦
葛奕雯
高正霄
金振强
李自然
陈镜石
蔡焱蒙
刘自强
陈蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Power Transmission And Distribution Co ltd
Nanjing University of Posts and Telecommunications
Original Assignee
Jiangsu Power Transmission And Distribution Co ltd
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Power Transmission And Distribution Co ltd, Nanjing University of Posts and Telecommunications filed Critical Jiangsu Power Transmission And Distribution Co ltd
Priority to CN202410437024.7A priority Critical patent/CN118038481B/zh
Publication of CN118038481A publication Critical patent/CN118038481A/zh
Application granted granted Critical
Publication of CN118038481B publication Critical patent/CN118038481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于计算机视觉技术的变电站端子排图纸识别方法及***,属于图纸识别技术领域,方法包括:利用多尺度滑动窗口对输入图纸进行二次处理,获取大尺度切片图像和小尺度切片图像;利用图元检测模型进行图元检测,并获取多个最优图元检测结果;获取多个目标文本识别结果;根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,则按照设定格式输出,若匹配失败,则按照设定的拒识格式输出;本发明有效地处理了多尺度图纸的目标差异问题,并且利用图元检测模型,提高了图纸识别的准确性,对于出现的误识别和漏识别,在输出结果上进行标明,从而方便后续人工检查。

Description

一种基于计算机视觉技术的变电站端子排图纸识别方法及 ***
技术领域
本发明属于图纸识别技术领域,具体涉及一种基于计算机视觉技术的变电站端子排图纸识别方法及***。
背景技术
变电站二次接线图纸在新建、扩建、技改、运维等工作中扮演着重要的角色。然而,图纸信息的识别和整理是一项费时费力的人工工作,不仅费时费力,且由于重复劳动较多以及图纸打印后尺寸极大等原因,技术人员极易在识别图纸、寻找线缆信息及录入文档等过程中产生错误,导致工作效率极低。随着智能电网和数字电网的发展,传统的人工识别方式已经难以满足电网***的需求。
随着深度学习的发展,使用卷积神经网络的目标检测和文本识别技术非常方便我们用于文本和图元的定位以及精确的文本识别,但是直接使用这些技术无法满足我们目前需求,仍存在一些不足之处,具体如下:
1.由于图纸尺寸差异大,传统的目标检测算法例如YOLO在处理多尺度图像时效果不佳。现有的YOLT滑动窗口检测方法能够处理大尺度图像,但无法良好解决图元目标尺度差异问题;
2. 图纸中的图元尺寸小,且与表格、线缆交叉处相似,增加了小目标检测的难度。虽然一些优化方法提高了小目标的相对比例,但滑动窗口和特殊区域的处理方式也可能引入更多的干扰特征。
3. 图纸文本数量多,特殊字符出现频率高,且文本位置不固定、与背景表格互相干扰。通用的预训练模型对专业领域文本定位不准确,尤其在识别引号、括号等特殊字符时准确率较低。
4.由于图元检测和文本识别结果中存在漏检、错检的情况,结构化输出接线情况的任务变得困难,需要电气领域专业知识来规避错误信息。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于计算机视觉技术的变电站端子排图纸识别方法及***,识别速度快且准确性高。
本发明提供了如下的技术方案:
第一方面,提供了一种基于计算机视觉技术的变电站端子排图纸识别方法,包括:
利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像;
利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果;
将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果;
对小尺度切片图像进行文本识别和融合,获取多个目标文本识别结果;
通过拓扑位置关系,将多个目标文本识别结果和最优图元检测结果进行位置对应;
根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,将该线缆对应的目标文本识别结果按照设定格式输出,若匹配失败,将该线缆对应的目标文本识别结果按照设定的拒识格式输出,以完成对变电站端子排图纸的识别。
可选地,所述利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像中,当输入图像的尺寸信息为滑动窗口尺寸信息的0.8-1.2倍时,将输入图像的尺寸信息调整为滑动窗口的尺寸信息;当输入图像的尺寸信息超过滑动窗口尺寸信息的1.2倍时,设定输入图像中冗余区域的尺寸信息;输入图像、滑动窗口和冗余区域的尺寸信息为各自的宽度信息或者高度信息。
可选地,所述利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果中,所述图元检测模型基于YOLOv8算法改进构建;所述图元检测模型主干网络中的C2f模块结合有多尺度注意力机制模块,颈部网络中包括有混合注意力机制模块,所述混合注意力机制模块包括通道注意力模块和空间注意力模块,所述多尺度注意力机制模块采用多头设计,将特征图的通道分为n个不同的头部,在不同的头部使用不同的空洞率来执行滑动窗口膨胀注意力;所述图元检测模型的边框回归损失函数引入了内部区域交互比和中心区域交互比。
可选地,所述多尺度注意力机制模块的输入张量为:
其中,为第n个头部的输出;
第i个头部的输出为:
其中,为输入到第i个头部的特征图的查询矩阵,为输入到第i个头部的特征 图的键矩阵,为输入到第i个头部的特征图的值矩阵,为第i个头部的膨胀率。
可选地,所述图元检测模型的边框回归损失函数为:
其中,为改进后的WIoU的边界框回归损失函数,为中心区域交互比,为内部区域的交互比;
所述改进后的WIoU的边界框回归损失函数为:
其中,为梯度增益,为WIoU的边界框回归损失函数;
所述梯度增益为:
其中,为离群度,为第一超参数,为第二超参数;
所述WIoU的边界框回归损失函数为,
其中,为距离效果增强的交互比,为中心区域交互比损失函数;
所述距离效果增强的交互比为:
其中,是预测框的中心坐标,为真实框的中心坐标,为预 测框与真实框最小外接矩形框的宽度;为预测框与真实框最小外接矩形框的高度;*代 表分离操作;
所述内部区域的交互比为:
其中,inter为预测框与真实框交集部分的面积,union为预测框与真实框并集部分的面积;
所述预测框与真实框交集部分的面积inter为:
其中,为真实框右上角的坐标,为预测框右上角的坐标,为真实框左上角 的坐标,为预测框左上角的坐标,为真实框右下角的坐标,为预测框右下角的坐标,为真实框左下角的坐标,为预测框左下角的坐标;
所述预测框与真实框并集部分的面积union为:
其中,为尺度因子,为预测框的宽度,为预测框的高度。
可选地,所述将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果包括:
判断所有第一图元检测结果和第二图元检测结果的预测框的图元类型;
根据预测框的图元类型,对第一图元检测结果和第二图元检测结果的预测框进行WBF模型融合,生成目标预测框;
将所有图元类型的目标预测框作为最优图元检测结果进行输出。
可选地,所述根据预测框的图元类型,对第一图元检测结果和第二图元检测结果的预测框进行WBF模型融合,生成目标预测框中:
当预测框的图元类型为单元标牌图元时,设置IOU阈值,剔除不满足IOU阈值的预测框,将满足IOU阈值的预测框使用WBF模型融合,生成融合预测框,并将融合预测框作为单元标牌图元的目标预测框;
当预测框的图元类型为左右线缆单元时,对多个左右线缆单元的预测框使用WBF模型融合,生成左右线缆单元的融合预测框;计算左右线缆单元的融合预测框的平均高度,并设置平均高度的阈值,遍历所有左右线缆单元的预测框,剔除不满足平均高度阈值的预测框,满足平均高度阈值的融合预测框为左右线缆单元的目标预测框;
当预测框的图元类型为指示物单元时,对多个指示物单元的预测框使用WBF模型融合,生成指示物单元的融合预测框,并将指示物单元的融合预测框高度调整为左右线缆单元的融合预测框的平均高度,并将调整高度后的融合预测框作为指示物单元的目标预测框。
可选地,所述使用WBF模型融合的步骤为:
在当前图元类型的所有预测框中,挑选N个相互之间不重叠的聚类中心;
将当前图元类型的所有预测框围绕聚类中心生成N个簇;
采用指数滑动平均算法融合每一个簇内的所有预测框的中心点及大小,生成本图元类型的N个融合预测框。
可选地,所述根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配包括:
根据最优图元检测结果中线缆的方向进行寻路,获取每条线缆的完整路径及其对应的多个目标文本识别结果;
将各线缆的多个目标文本识别结果按照预设规则进行过滤,保留各线缆对应的有效文本内容;
对各线缆对应的有效文本内容按照设定的识别要求进行匹配,当该线缆的所有有效文本内容均满足匹配要求时,则该线缆匹配成功,否则匹配失败。
第二方面,提供了一种基于计算机视觉技术的变电站端子排图纸识别***,包括:
切片图像处理模块,用于利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像;
图元信息检测模块,用于利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果;
图元信息融合模块,用于将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果;
文本识别模块,用于对小尺度切片图像进行文本识别和融合,获取多个目标文本识别结果;
位置对应模块,用于通过拓扑位置关系,将多个目标文本识别结果和最优图元检测结果进行位置对应;
寻路匹配模块,用于根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,将该线缆对应的目标文本识别结果按照设定格式输出,若匹配失败,将该线缆对应的目标文本识别结果按照设定的拒识格式输出,以完成对变电站端子排图纸的识别。
与现有技术相比,本发明的有益效果是:
(1)本发明通过引入多尺度滑动窗口机制,有效地处理了多尺度图纸的目标差异问题;并且利用图元检测模型,提高了图纸识别的准确性,对于出现的误识别和漏识别,在输出结果上标明识别错误类型,从而方便后续人工检查。
(2)本发明的图元检测模型基于YOLOv8算法改进构建,提高算法对不同尺度目标的检测性能,并且通过自适应融合方式规避了由切割图片产生的“碎片”预测问题, 另外,本发明引入了注意力机制,有助于解决小目标特征干扰严重的问题。
(3)本发明通过迁移学习文本识别模型,有效地解决了图纸特殊文本难识别的问题,同时,引入了电气领域专业知识,通过路径搜索等策略修正不准确识别导致的解析困难问题,提高了解析的准确性与鲁棒性。
(4)本发明具有拒识功能,可以自动辨识因图纸差异或设计问题而造成的寻路匹配错误。
附图说明
图1是本发明的基于计算机视觉技术的变电站端子排图纸识别方法的工作流程图;
图2是本发明的基于计算机视觉技术的变电站端子排图纸识别方法的结构图;
图3是本发明的图元检测流程图;
图4是本发明的图元检测模型的结构图;
图5是本发明给出的变电站端子排图纸的示例图;
图6是本发明对图5所示图纸的识别结果示意图;
图7是本发明的基于计算机视觉技术的变电站端子排图纸识别***的结构框图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一、
如图1和2所示,一种基于计算机视觉技术的变电站端子排图纸识别方法,包括以下步骤:
S1:利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像。
具体地,S1步骤中,当输入图像的尺寸信息为滑动窗口尺寸信息的0.8-1.2倍时,将输入图像的尺寸信息调整为滑动窗口的尺寸信息;当输入图像的尺寸信息超过滑动窗口尺寸信息的1.2倍时,设定输入图像中冗余区域的尺寸信息;输入图像、滑动窗口和冗余区域的尺寸信息为各自的宽度信息或者高度信息。
更具体地,如图3所示,首先采用尺寸判断机制进行切割流程设计,本发明设置大小尺度滑动窗口的尺度为2560×3488像素和1280×1744像素,然后,当输入图像宽高为滑动窗口宽高的0.8-1.2倍时,将图像宽高resize至滑动窗口宽高;当图像宽高为滑动窗口宽高的1.2倍以上时,设定冗余区域为300像素宽/高,确保每个切片间有300像素宽或300像素高的重叠部分,遍历全图以完成图纸的切割,最后得到两种不同尺寸大小的切片,即大尺度切片图像和小尺度切片图像。
在一些其他的实施例中,变电站端子排图纸需要先进行预处理,然后将预处理后的变电站端子排图纸进行输入,利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理。
所述对变电站端子排图纸需要进行预处理包括:
D1:对输入的变电站端子排图纸进行格式转换;将图片格式从pdf转换为JPG格式。
D2:对变电站端子排图纸进行高斯锐化和图像二值化处理,并应用mosaic数据增强算法进行随机裁剪和排布;
D3:判断裁剪和排布后的图纸是否满足清晰度的要求,若满足,将随机裁剪和排布后的图纸进行输入,若不满足,则对随机裁剪和排布后的图中进行生成式超分辨率处理,并将超分辨率处理后的图纸进行输入。
S2:利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果。
更进一步地,定义图元检测、文本识别、线缆路径搜索过程中可识别且需要使用的图元、文本及各标识符,基于端子排图纸定义可识别图元,具体分为表格类图元(单元标牌、端子号、回路编号),线缆类图元(结束标识、左上标记、右上标记、左上下标记、右上下标记、右下标记、左下标记)以及文本区域。
如图4所示,具体地,图元检测模型基于YOLOv8算法进行改进构建的;构建图元检测模型的步骤包括:
E1:将端子排图纸进行预处理,得到图元检测数据集,将图元检测数据集分为训练集、验证集与测试集。
E2:所述图元检测模型的主干网络中,将多尺度注意力机制模块(MSDA)与C2f模块结合替代原来YOLOv8算法的C2f模块,同时将空间通道注意力机制模块(CBAM)的CAM模块和SAM模块引入至图元检测模型的颈部网络中,调整通道数和特征图的大小确保输入和输出的维度适配。
图元检测模型的多尺度注意力机制模块(MSDA)采用多头设计,将特征图的通道分为n个不同的头部,在不同的头部使用不同的空洞率来执行滑动窗口膨胀注意力SWDA(Sliding Window Dilated Attention),进而在被关注的感受野内的各个尺度上聚合语义信息,有效地减少自注意力机制的冗余。
滑动窗口膨胀注意力SWDA的描述如下:
其中,Q为查询矩阵,K和V为键和值矩阵,r用于控制稀疏程度;对于原始特征图中位置为(i,j)的查询,SWAD在以(i,j)为中心的大小为w×w的滑动窗口中稀疏选择键和值进行自注意力。
对于位置(i,j),SWDA运算输出X1对应分量定义如下:
其中,为特征图的宽度,为特征图的高度,表示从特征图K和V中选择的 键和值。
给定位于的查询,将选择位于下一组坐标的键和值进行自注意力:
所述多尺度注意力机制模块的输入张量为:
其中,为第n个头部的输出;
第i个头部的输出为:
其中,为输入到第i个头部的特征图的查询矩阵,为输入到第i个头部的特征 图的键矩阵,为输入到第i个头部的特征图的值矩阵,为第i个头部的膨胀率。
多尺度注意力机制模块中:每个头部均有一个独立的膨胀率,为每个头部提供 不同的关注焦点;从特征图中获取切片,执行注意力机制模块,得到每个头部的输出;将所有头部的输出连接在一起,然后通过一个线性层进行特征聚合,得到最终的输出。
E3:将YOLOv8中用来衡量预测框与真实目标框之间的相似度的损失函数模块从CIoU替换为拓展了Inner_IoU的WIoU,从而提高预测框质量。
由于小目标数量众多且密集,回归框对尺寸的感知能力变得尤为关键,然而由于尺寸变化的影响较大,导致回归不稳定。此外,由于图纸的复杂性,数据标注难免存在误差。鉴于目标相对较小,错误标注对训练产生的干扰也相当显著。
为了解决这些问题,我们提出将原模型中的CIoU(完整***并比)替换为WIoU(中心区域交并比),从而使得预测框的回归更加关注目标中心点,减少对框大小的过度敏感,提高模型的稳定性。
同时,鉴于WIoU参数较多,结构较为复杂,我们引入了Inner_IoU(内部区域交并比)来加速收敛过程。这一优化措施有助于更快地调整模型参数,使其更好地适应小目标的特性。
通过这些改进,我们期望提高模型对小目标的检测性能,降低对尺寸变化和标注误差的敏感度,从而使训练更加稳定和可靠。
图元检测模型的边框回归损失函数为:
其中,为改进后的WIoU的边界框回归损失函数,为中心区域交互比,为内部区域的交互比;为中心区域交互比的求解可以参考现有技术。
所述改进后的WIoU的边界框回归损失函数为:
其中,为梯度增益,为WIoU的边界框回归损失函数;
所述梯度增益为:
其中,为离群度,为第一超参数,为第二超参数;第一超参数和第二超参数为 人为设定的值;
离群度为:
其中,为中心区域交互比损失函数,为移动平均值,中心区域交互比损失 函数和移动平均值的求解可以参考现有技术;
所述WIoU的边界框回归损失函数为,
其中,为距离效果增强的交互比,为中心区域交互比损失函数;
所述距离效果增强的交互比为:
其中,是预测框的中心坐标,为真实框的中心坐标,为预 测框与真实框最小外接矩形框的宽度;为预测框与真实框最小外接矩形框的高度;为了 防止产生阻碍收敛的梯度,将从计算图中分离,*代表分离操作,有效地消 除了阻碍收敛的因素。
所述内部区域的交互比为:
其中,inter为预测框与真实框交集部分的面积,union为预测框与真实框并集部分的面积;
所述预测框与真实框交集部分的面积inter为:
其中,为真实框右上角的坐标,为预测框右上角的坐标,为真实框左上角 的坐标,为预测框左上角的坐标,为真实框右下角的坐标,为预测框右下角的坐标,为真实框左下角的坐标,为预测框左下角的坐标;
所述预测框与真实框并集部分的面积union为:
其中,为尺度因子,为预测框的宽度,为预测框的高度;
真实框左上角、右上角、左下角和右下角的坐标,以及预测框左上角、右上角、左下角和右下角的坐标可以通过下列公式求解;
E4:将E1步骤中得到的数据集输入至改进后的YOLOv8模型内进行训练验证,并进行优化,得到图元检测模型;另外,所述改进后的YOLOv8模型在进行训练时需设置参数。
本发明的图元检测网络结构由Backbone网络,Neck网络、Head网络三部分组成。在Backbone网络中前两个C2f层(CSPLayer_2Conv,双卷积瓶颈层)后各添加一个MSDA层(多尺度注意力层),在Neck网络中所有的Upsample层(上采样层)前和Conv层(卷积层)前各添加一个CBAM层(卷积注意力层),形成新的YOLOv8网络结构,如图4所示,本发明的Head网络结构和YOLOv8完全一样。
更具体地,本发明的图元检测模型在Backbone网络中添加MSDA层(多尺度注意力层),在Neck网络中添加CBAM层(卷积注意力层),其他处理单元及网络结构不变;其结构主要包括:
Backbone网络:该阶段通常使用一些性能优异的分类器网络,如CSPDarknet结构,提取通用的特征表示;它由5个Conv层、4个C2f层和一个SPPF(快速空间金字塔池化层)层构成,并加入两个MSDA层以缓解多尺度图片差异,让特征信息更加丰富;
Neck网络:该阶段依旧采用PAN-FPN的思想,同时加入CBAM层增强对小目标的关注;该模块位于Backbone网络和Head网络中间,将多尺度特征图进行融合,更好地捕捉不同尺度目标的信息;
Head网络:负责最终的目标检测和分类任务,包括检测头和分类头,检测头包含一系列卷积层和反卷积层,用于生成检测结果;分类头则采用全局平均池化来对每个特征图进行分类。
本发明的图元检测模型能够更好地关注小目标与背景的区别,提高对小目标的识别准确性;同时,图元检测模型将CIoU损失函数模块替换为拓展了Inner_IoU的WIoU,使得从而使得预测框的回归更加关注目标中心点,减少对框大小的过度敏感,提高模型的稳定性。
S3:将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果。
具体地,步骤S3包括:
S31:判断所有第一图元检测结果和第二图元检测结果的预测框的图元类型;
S32:根据预测框的图元类型,对第一图元检测结果和第二图元检测结果的预测框进行WBF模型融合,生成目标预测框;
S33:将所有图元类型的目标预测框作为最优图元检测结果进行输出。
更进一步地,将第一图元检测结果和第二图元检测结果的所有预测框,剔除切片产生的断裂预测框。
更具体地,步骤S32中,当预测框的图元类型为单元标牌图元时,设置较低的IOU阈值(这里设置为0.15)保留尽量多的框,将满足IOU阈值的预测框使用WBF模型融合,生成融合预测框,并将融合预测框作为单元标牌图元的目标预测框;
当预测框的图元类型为左右线缆单元时,IOU阈值为0.3,对左右线缆单元使用WBF融合预测结果,然后计算融合预测框的平均高度,遍历所有线缆图元,若其融合预测框的高度高于或低于高度差阈值区间(平均高度×0.4—平均高度×1.8),则剔除该框,满足平均高度阈值的融合预测框为左右线缆单元的目标预测框;
当预测框的图元类型为指示物单元(结束标识、左上标记、右上标记、左上下标记、右上下标记、右下标记、左下标记)时,设置IOU阈值为0.3,对多个指示物单元的预测框使用WBF模型融合,生成指示物单元的融合预测框,并将指示物单元的融合预测框高度调整为左右线缆单元的融合预测框的平均高度,并将调整高度后的融合预测框作为指示物单元的目标预测框。
更进一步地,所述使用WBF模型融合的步骤为:
在本图元类型的所有预测框中,挑选N个相互之间不重叠的聚类中心;
将本图元类型的所有预测框围绕聚类中心生成N个簇;
采用指数滑动平均算法融合每一个簇内的所有预测框的中心点及大小,生成本图元类型的N个融合预测框。
S4:对小尺度切片图像进行文本识别和融合,获取多个目标文本识别结果。
具体地,以基于PubTabNet表格数据集预训练的CRNN文本识别模型作为基础模型,对其进行电气专业领域文本迁移学习;具体地,文本区域输入预训练模型,得到预测结果;然后人工核对文本识别结果后,用修改后的标签与原数据集组合构建出新的迁移学习数据集;最后在不更换字典的前提下,将迁移学习数据集与PubTabNet数据集混合后以1:1的采样概率进行混合训练;迁移学习中,首先使用预训练模型并冻结其底层特征提取层,然后添加新的分类层以适应目标任务;在初始阶段,只训练新的分类层,随后逐渐解冻底层特征提取层,允许模型微调以适应新任务;最终,整个模型在目标任务上进行继续训练,以提高性能。
在对小尺度切片图像进行文本识别和融合时,对于文本图元设置IOU阈值为0.15,以保留更多的文本图元预测框,然后根据WBF模型融合多个文本图元预测框,以输出目标文本图元预测框,然后对目标文本图元预测框进行文本的识别,以获得多个目标文本识别结果。
S5:通过拓扑位置关系,将多个目标文本识别结果和最优图元检测结果进行位置对应。
如图5和6所示,N1:利用步骤S32中获得的单元标牌图元的坐标获得其对应位置文本区域的识别结果,将单元标牌图元和其文本匹配,得到单元标牌结果输出(如图5中42YD,TD);
N2:利用步骤S32获得左线缆和右线缆图元,遍历所有文本,在水平方向上寻找可达的最近端子号(如图5中1-5,1-10)和最近回路编号(如图5中B811) 从而完成线缆与端子号、回路编号的绑定,完成“线缆-端子号-回路编号”的单元集合(如图5中{[右线缆-4-B811],[右线缆-5-B812]});
N3:利用步骤S32得到的“线缆-端子号-回路编号”的单元集合,遍历步骤N1得到所有单元标牌,在垂直方向上向上寻找可达的最近单元标牌从而完成线缆与单元号、端子号、回路编号的绑定,形成“线缆-单元号-端子号-回路编号”的单元集合(如图5中{[右线缆-42YD-4-B811],[右线缆-42YD-5-B812]});
N4:以步骤N3中得到的“线缆-单元号、端子号、回路编号”单元集合为起点,根据左右线缆决定初始方向后,循环以下过程直至找到步骤S32检测出的终点标记:依据终点与结束方向,找到最近的文本结果作为线缆名称,绑定步骤N3中的“线缆-单元号-端子号-回路编号”单元集合,与线缆名称生成“单元号-端子号-回路编号-线缆名称”单元集合;(如图5中{[42YD-4-B811:1B-131],[42YD-5-B812:1B-131]})。
S6:如图6所示,根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,将该线缆对应的目标文本识别结果按照设定格式输出,若匹配失败,将该线缆对应的目标文本识别结果按照设定的拒识格式输出,以完成对变电站端子排图纸的识别。
具体地,所述根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配包括:根据最优图元检测结果中线缆的方向进行寻路,获取每条线缆的完整路径及其对应的多个目标文本识别结果;将各线缆的多个目标文本识别结果按照预设规则进行过滤,保留各线缆对应的有效文本内容;对各线缆对应的有效文本内容按照设定的识别要求进行匹配,当该线缆的所有有效文本内容均满足匹配要求时,则该线缆匹配成功,否则匹配失败。
具体地,根据最优图元检测结果中线缆的方向进行寻路包括:首先确定左右线缆的当前方向,其次遍历当前方向上由步骤S32检测出的线缆方向指示物,包括结束标记、左上标记、右上标记、左上下标记、右上下标记、右下标记、左下标记,然后找到最近的且纵向覆盖率最大的线缆方向指示物作为下一次遍历的起点;遍历完成后确定终点,即确定了线缆的完整路径,并根据线缆的方向,确定了该条线缆的路径对应的目标文本识别结果。
具体地,引入电气领域知识(线缆名称通常为数字、字母的组合,不包含中文,且带有“X”的多为电缆规格),针对步骤N4得到的“单元号-端子号-回路编号-线缆名称”单元集合使用正确表达式“\d{1,2}[Xx]\d\.\d{1}\(\d\)|\d{1,2}[Xx]\d|^[Q?oO0](\d{1,2})$”对线缆名称进行过滤(如图5中将“1B-131 10X2.5(3)”的结果筛选出来后变更为1B-131)完成纵向修正。
具体地,给出一种设定的识别要求的示例:
判断本条线缆的所有有效文本内容是否存在以下四种情况:
(1)线缆名称为空或出现异常字符(小写字母、“*”、“?”、“(”、“)”、“:”);
(2)回路编号为空或出现异常字符(“*”、“?”、“(”、“)”、“.”)或同单元标牌下的回路编号重复;
(3)单元标牌名称以2个及以上的1为开头;
(4)同一单元标牌下的端子号后缀基本相同时,出现不同的端子号后缀。
将“单元号-端子号-回路编号-线缆名称”单元集合结果整合成两列(第一列:回路编号/单元标牌:端子号,第二列:线缆名称)输出至excel文档中,若出现情况1,则将该单元集合的第二列单元格标红;若出现情况2,则将该单元集合的第一列单元格标黄;若出现情况3和4,则将该单元集合的第一列单元格标蓝,若不存在以上情况,则视为匹配成功。
实施例二、
如图7所示,提供一种基于计算机视觉技术的变电站端子排图纸识别***,包括:
切片图像处理模块10,用于利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像;
图元信息检测模块20,用于利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果;
图元信息融合模块30,用于将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果;
文本识别模块40,用于对小尺度切片图像进行文本识别和融合,获取多个目标文本识别结果;
位置对应模块50,用于通过拓扑位置关系,将多个目标文本识别结果和最优图元检测结果进行位置对应;
寻路匹配模块60,用于根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,将该线缆对应的目标文本识别结果按照设定格式输出,若匹配失败,将该线缆对应的目标文本识别结果按照设定的拒识格式输出,以完成对变电站端子排图纸的识别。
在另一实施例中,本发明提供一种计算机设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现上述基于计算机视觉技术的变电站端子排图纸识别方法的步骤。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
在另一实施例中,本发明提供一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现上述基于计算机视觉技术的变电站端子排图纸识别方法的步骤。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的***、设备和存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.一种基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,包括:
利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像;
利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果;
将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果;
对小尺度切片图像进行文本识别和融合,获取多个目标文本识别结果;
通过拓扑位置关系,将多个目标文本识别结果和最优图元检测结果进行位置对应;
根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,将该线缆对应的目标文本识别结果按照设定格式输出,若匹配失败,将该线缆对应的目标文本识别结果按照设定的拒识格式输出,以完成对变电站端子排图纸的识别。
2.根据权利要求1所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像中,当输入图像的尺寸信息为滑动窗口尺寸信息的0.8-1.2倍时,将输入图像的尺寸信息调整为滑动窗口的尺寸信息;当输入图像的尺寸信息超过滑动窗口尺寸信息的1.2倍时,设定输入图像中冗余区域的尺寸信息;输入图像、滑动窗口和冗余区域的尺寸信息为各自的宽度信息或者高度信息。
3.根据权利要求1所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果中,所述图元检测模型基于YOLOv8算法改进构建;所述图元检测模型主干网络中的C2f模块结合有多尺度注意力机制模块,颈部网络中包括有混合注意力机制模块,所述混合注意力机制模块包括通道注意力模块和空间注意力模块,所述多尺度注意力机制模块采用多头设计,将特征图的通道分为n个不同的头部,在不同的头部使用不同的空洞率来执行滑动窗口膨胀注意力;所述图元检测模型的边框回归损失函数引入了内部区域交互比和中心区域交互比。
4.根据权利要求3所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述多尺度注意力机制模块的输入张量为:
其中,为第n个头部的输出;
第i个头部的输出为:
其中,为输入到第i个头部的特征图的查询矩阵,/>为输入到第i个头部的特征图的键矩阵,/>为输入到第i个头部的特征图的值矩阵,/>为第i个头部的膨胀率。
5.根据权利要求3所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述图元检测模型的边框回归损失函数为:
其中,为改进后的WIoU的边界框回归损失函数,/>为中心区域交互比,为内部区域的交互比;
所述改进后的WIoU的边界框回归损失函数为:
其中,为梯度增益,/>为WIoU的边界框回归损失函数;
所述梯度增益为:
其中,为离群度,/>为第一超参数,/>为第二超参数;
所述WIoU的边界框回归损失函数为:
其中,为距离效果增强的交互比,/>为中心区域交互比损失函数;
所述距离效果增强的交互比为:
其中, 和 />是预测框的中心坐标,/>和 />为真实框的中心坐标,/>为预测框与真实框最小外接矩形框的宽度;/>为预测框与真实框最小外接矩形框的高度,*代表分离操作;
所述内部区域的交互比为:
其中,inter为预测框与真实框交集部分的面积,union为预测框与真实框并集部分的面积;
所述预测框与真实框交集部分的面积inter为:
其中,为真实框右上角的坐标,/>为预测框右上角的坐标,/>为真实框左上角的坐标,/>为预测框左上角的坐标,/>为真实框右下角的坐标,/>为预测框右下角的坐标,/>为真实框左下角的坐标,/>为预测框左下角的坐标;
所述预测框与真实框并集部分的面积union为:
其中,为尺度因子,/>为预测框的宽度,/>为预测框的高度。
6.根据权利要求1所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果包括:
判断所有第一图元检测结果和第二图元检测结果的预测框的图元类型;
根据预测框的图元类型,对第一图元检测结果和第二图元检测结果的预测框进行WBF模型融合,生成目标预测框;
将所有图元类型的目标预测框作为最优图元检测结果进行输出。
7.根据权利要求6所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述根据预测框的图元类型,对第一图元检测结果和第二图元检测结果的预测框进行WBF模型融合,生成目标预测框中:
当预测框的图元类型为单元标牌图元时,设置IOU阈值,剔除不满足IOU阈值的预测框,将满足IOU阈值的预测框使用WBF模型融合,生成融合预测框,并将融合预测框作为单元标牌图元的目标预测框;
当预测框的图元类型为左右线缆单元时,对多个左右线缆单元的预测框使用WBF模型融合,生成左右线缆单元的融合预测框;计算左右线缆单元的融合预测框的平均高度,并设置平均高度的阈值,遍历所有左右线缆单元的预测框,剔除不满足平均高度阈值的预测框,满足平均高度阈值的融合预测框为左右线缆单元的目标预测框;
当预测框的图元类型为指示物单元时,对多个指示物单元的预测框使用WBF模型融合,生成指示物单元的融合预测框,并将指示物单元的融合预测框高度调整为左右线缆单元的融合预测框的平均高度,并将调整高度后的融合预测框作为指示物单元的目标预测框。
8.根据权利要求7所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述使用WBF模型融合的步骤为:
在当前图元类型的所有预测框中,挑选N个相互之间不重叠的聚类中心;
将当前图元类型的所有预测框围绕聚类中心生成N个簇;
采用指数滑动平均算法融合每一个簇内的所有预测框的中心点及大小,生成本图元类型的N个融合预测框。
9.根据权利要求1所述的基于计算机视觉技术的变电站端子排图纸识别方法,其特征在于,所述根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配包括:
根据最优图元检测结果中线缆的方向进行寻路,获取每条线缆的完整路径及其对应的多个目标文本识别结果;
将各线缆的多个目标文本识别结果按照预设规则进行过滤,保留各线缆对应的有效文本内容;
对各线缆对应的有效文本内容按照设定的识别要求进行匹配,当该线缆的所有有效文本内容均满足匹配要求时,则该线缆匹配成功,否则匹配失败。
10.一种基于计算机视觉技术的变电站端子排图纸识别***,其特征在于,包括:
切片图像处理模块,用于利用多尺度滑动窗口对输入的变电站端子排图纸进行二次处理,获取大尺度切片图像和小尺度切片图像;
图元信息检测模块,用于利用图元检测模型分别对大尺度切片图像和小尺度切片图像进行图元检测,获取大尺度切片图像所对应的第一图元检测结果和小尺度切片图像所对应的第二图元检测结果;
图元信息融合模块,用于将第一图元检测结果和第二图元检测结果进行融合,获取多个最优图元检测结果;
文本识别模块,用于对小尺度切片图像进行文本识别和融合,获取多个目标文本识别结果;
位置对应模块,用于通过拓扑位置关系,将多个目标文本识别结果和最优图元检测结果进行位置对应;
寻路匹配模块,用于根据最优图元检测结果中线缆的方向进行寻路,并将各线缆对应的多个目标文本识别结果与设定的识别要求进行匹配,若匹配成功,将该线缆对应的目标文本识别结果按照设定格式输出,若匹配失败,将该线缆对应的目标文本识别结果按照设定的拒识格式输出,以完成对变电站端子排图纸的识别。
CN202410437024.7A 2024-04-12 2024-04-12 一种基于计算机视觉技术的变电站端子排图纸识别方法及*** Active CN118038481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410437024.7A CN118038481B (zh) 2024-04-12 2024-04-12 一种基于计算机视觉技术的变电站端子排图纸识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410437024.7A CN118038481B (zh) 2024-04-12 2024-04-12 一种基于计算机视觉技术的变电站端子排图纸识别方法及***

Publications (2)

Publication Number Publication Date
CN118038481A true CN118038481A (zh) 2024-05-14
CN118038481B CN118038481B (zh) 2024-06-21

Family

ID=91004544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410437024.7A Active CN118038481B (zh) 2024-04-12 2024-04-12 一种基于计算机视觉技术的变电站端子排图纸识别方法及***

Country Status (1)

Country Link
CN (1) CN118038481B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329556A (zh) * 2022-07-29 2022-11-11 国网河北省电力有限公司电力科学研究院 变电站cad图纸审核方法及设备
CN116959039A (zh) * 2023-08-04 2023-10-27 西安工程大学 应用于复杂环境的手掌感兴趣区域轻量化提取方法
CN117612195A (zh) * 2023-11-01 2024-02-27 北京四方继保工程技术有限公司 一种基于主接线图识别技术的图模生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329556A (zh) * 2022-07-29 2022-11-11 国网河北省电力有限公司电力科学研究院 变电站cad图纸审核方法及设备
CN116959039A (zh) * 2023-08-04 2023-10-27 西安工程大学 应用于复杂环境的手掌感兴趣区域轻量化提取方法
CN117612195A (zh) * 2023-11-01 2024-02-27 北京四方继保工程技术有限公司 一种基于主接线图识别技术的图模生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGGE MAO等: "Research on Substation Diagram Automatic Generation Based on Artificial Intelligence Algorithms", 《2023 4TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND HUMAN-COMPUTER INTERACTION (ICHCI)》, 17 October 2023 (2023-10-17), pages 219 - 225 *
王祥宇: "变电站工程图纸智能化解析方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 02, 15 February 2024 (2024-02-15), pages 042 - 878 *

Also Published As

Publication number Publication date
CN118038481B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别***
CN112836650B (zh) 一种质量检验报告扫描图像表格语义解析方法与***
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和***
CN111144300B (zh) 一种基于图像识别的pdf表格结构识别方法
CN115880536B (zh) 数据处理方法、训练方法、目标对象检测方法及装置
CN111914720B (zh) 一种输电线路绝缘子爆裂识别方法及装置
CN112818951A (zh) 一种票证识别的方法
CN111460927A (zh) 对房产证图像进行结构化信息提取的方法
CN111652171B (zh) 一种基于双分支网络的面部表情识别模型的构建方法
CN113435240A (zh) 一种端到端的表格检测和结构识别方法及***
CN113343740A (zh) 表格检测方法、装置、设备和存储介质
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114170423B (zh) 一种图像文档版面识别方法、装置及其***
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及***
CN118038481B (zh) 一种基于计算机视觉技术的变电站端子排图纸识别方法及***
CN114511862B (zh) 表格识别方法、装置及电子设备
CN112766269B (zh) 一种图片文本检索方法、智能终端及存储介质
CN114494678A (zh) 文字识别方法和电子设备
CN113657196A (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN113033541A (zh) 发行公告版面分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant