CN115455133A

CN115455133A - 一种基于文本挖掘的操作票校核方法、***及设备

Info

Publication number: CN115455133A
Application number: CN202211152036.2A
Authority: CN
Inventors: 关振坚; 唐涛涛; 刘志欣; 罗其锋; 吕叶卿; 陈月辉; 冯文超; 林甲川; 侯伟; 陈光景; 罗妙茵; 蒋杰锋; 许文政; 徐颖斯
Original assignee: Guangdong Power Grid Co Ltd; Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-09

Abstract

本申请涉及电力运行与管理技术领域，提供一种基于文本挖掘的操作票校核方法、***及设备，方法包括：通过对操作票数据库中的历史操作票进行文本挖掘，划分历史操作票中的电力名词、动词和介词，并识别出不同词性词语的组合关系；以电力名词构建词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则构建知识库；以两库对待校核操作校核后，准许出票的正确操作票再作为历史操作票存入操作票数据库中，进行文本挖掘，补充数据库和知识库，使得两库在文本挖掘和校核的循环中，不仅保证了操作票出票校核的可靠性，还实现了知识库和数据库的自适应更新。

Description

一种基于文本挖掘的操作票校核方法、***及设备

技术领域

本发明涉及操作票审核技术领域，尤其涉及一种基于文本挖掘的操作票校核方法、***及设备。

背景技术

操作票是操作人员对电气设备进行操作的书面依据，更是保证电力安全生产，防止电气误操作和人身伤害事故的重要手段。

随着电网自动化和智能化工作的推进，操作票已经由人工书写发展为以机代写，最先进的操作票生成***为专家***，其知识库需要编程人员将现场人员和专家的相关运行经验和操作规范转化为规则；而数据库则用于保存在操作过程中产生的数据以及对已生成的操作票进行管理。

该操作票生成***中的规则库和数据库的构建依赖人力，涉及人员多且操作复杂，其在开发时就已固化；随着电网的发展和制度规程改进，字词术语和规程也会改变，但规则库和数据库难以适应性的更新，将导致操作票出票时存在漏检和错检的风险。

发明内容

本申请提供了一种基于文本挖掘的操作票校核方法、***及设备，解决了现有技术中操作票校核***构建困难，且规则库和数据库难以随电网发展更新的问题。

本申请第一方面提供了一种基于文本挖掘的操作票校核方法，包括：

对操作票数据库中的历史操作票进行文本挖掘，通过文本分词和词性标注，划分历史操作票中的电力名词、动词和介词，并识别不同词性词语的组合关系；以电力名词构建词典，将词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则，构建知识库；

以数据库和知识库对待校核操作票进行校核；若校核结果为正确，则准许出票；

将出票后的操作票作为历史操作票存入操作票数据库中，进行文本挖掘，补充数据库和知识库。

可选的，所述以电力名词构建词典，将词典作为数据库，具体为：

从电力名词中提取厂站名称、箱柜名称、设备编号和设备名称等关键词语，构建对应厂站、箱柜和设备的三层字典，作为数据库。

可选的，所述根据动词或介词与电力名词的组合关系得到句式规则，构建知识库，具体为：

提取动词和介词，根据动词或介词与电力名词的组合关系得到句式规则，构造句式规则对应的正则表达式，形成知识库。

可选的，所述对历史操作票进行文本挖掘之后还包括：

经过对预设数量的历史操作票文本挖掘后，统计字典中各词语出现频率，以及各句式规则的出现频率，在数据库和知识库中剔除出现频率低于阈值的词语和句式规则。

可选的，所述以数据库和知识库对待校核操作票进行校核之后，还包括：

若校核结果为错误，则生成修改意见，并对修改意见逐条进行人工核验。

可选的，所述对修改意见逐条进行人工核验具体为：

对修改意见逐条进行人工核验，判断修改意见是否正确；若核验结果为修改意见正确，根据修改意见对操作票相应位置进行修改，并发送至一线人员和专家处进行反馈和学习。

可选的，所述对修改意见逐条进行人工核验，判断修改意见是否正确之后，还包括：

若核验结果为修改意见错误，则通过反更新直接对修改意见对应的内容在知识库或数据库中进行逆向更新。

本申请第二方面提供了一种基于文本挖掘的操作票校核***，包括：

操作票数据库，分别与文本挖掘模块和自适应更新模块连接，用于存储历史操作票；

文本挖掘模块，用于对操作票数据库中的历史操作票进行文本挖掘，通过文本分词和词性标注，划分历史操作票中的电力名词、动词和介词，并识别不同词性词语的组合关系；以电力名词构建词典，将词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则，构建知识库；

操作票校核模块，用于以数据库和知识库对待校核操作票进行校核；若校核结果为正确，则准许出票；

自适应更新模块，用于将出票后的操作票作为历史操作票存入操作票数据库中，进行文本挖掘，补充数据库和知识库。

可选的，所述文本挖掘模块中，根据动词或介词与电力名词的组合关系得到句式规则，构建知识库，具体为：

本申请第三方面提供了一种基于文本挖掘的操作票校核设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行本申请第一方面任一项所述的基于文本挖掘的操作票校核方法。

本申请提供的基于文本挖掘的操作票校核方法，通过对操作票数据库中的历史操作票进行文本挖掘，划分历史操作票中的电力名词、动词和介词，并识别出不同词性词语的组合关系；以电力名词构建词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则构建知识库；以两库对待校核操作校核后，准许出票的正确操作票再作为历史操作票存入操作票数据库中，进行文本挖掘，补充数据库和知识库，使得两库在文本挖掘和校核的循环中，不仅保证了操作票出票校核的可靠性，还实现了知识库和数据库的自适应更新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的基于文本挖掘的操作票校核方法的流程示意图；

图2为本申请提供的基于文本挖掘的操作票校核方法的知识库和数据库构建流程示意图；

图3为本申请提供的基于文本挖掘的操作票校核方法的修改意见核验流程示意图；

图4为本申请提供的基于文本挖掘的操作票校核***结构图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本申请提供了一种基于文本挖掘的操作票校核方法，解决了现有技术中操作票校核***构建困难，且规则库和数据库难以随电网发展更新的技术问题。

请参阅图1，图1为本申请提供的一种基于文本挖掘的操作票校核方法的流程示意图。

本实施例第一方面提供了一种基于文本挖掘的操作票校核方法，包括：

S100，对操作票数据库中的历史操作票进行文本挖掘，通过文本分词和词性标注，划分历史操作票中的电力名词、动词和介词，并识别不同词性词语的组合关系；以电力名词构建词典，将词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则，构建知识库；

需要说明的是，工作人员在日常工作中分析发现，操作票文本具有用词规范、名词有库、动词单一、规律性强、句式固定等优点，且文本句子主要是电力名词和少量高频使用的动词、介词的组合；其中，操作票中用词规范和名词有库的特点以及大量电力名词术语的使用，能在分词时快速准确的区分各词语，并标注词性；而操作票文本动词单一、规律性强和句式固定的特点，例如在XX保护柜、在XX箱、合上XX刀闸等，可以识别出不同词性词语间存在的组合关系。

从操作票中提取出的多个电力名词，如设备编号、设备名称、厂站名称和箱规名称等，构建词典作为数据库，能够在名词识别上有针对性强和辨识度高的效果；而不同词性词语间存在的组合关系体现了操作票文本的行文逻辑和句式规则，例如某些高频出现的动词会与什么电力名词组合出现，构建的知识库能在无需读懂文本内容的情况下对词语组合成的句子进行校核。数据库与知识库分别蕴含字词本身和字词组合的标准，两库结合能实现对待校核操作票高效全面的校核。

在构建数据库的初期词典内容少难以进行分词，可以先根据预设的电力名词信息，如压板投退表和压板列表等其他包含电力名词的文件先构建一个初期词典，来引导初期数据库的构建。

操作票数据库中的历史操作票是已校核过的操作票，对其进行文本挖掘后得到的电力名词、动词、介词和句式规则都能确保正确，因此构建的数据库和知识库也能准确的对待校核操作票进行校核。

S200，以数据库和知识库对待校核操作票进行校核；若校核结果为正确，则准许出票；

需要说明的是，待校核操作票为编制好但还未出票被执行的操作票，需要校核确认内容后才能出票，避免错误的内容影响操作票执行人员的安全。以数据库对待校核操作票的各词语本身进行校核，并以知识库对待校核操作票的词语组合进行校核，完成操作票出票前的校核。可以理解，数据库和知识库的内容越丰富，对操作票的校核会更准确。

S300，将出票后的操作票作为历史操作票存入操作票数据库中，进行文本挖掘，补充数据库和知识库。

需要说明的是，随着电网发展和规程制度改进，操作票的内容也会存在变化，例如当变电站新建、改建或扩建时，电力名词常常会发生变化；而对于其中一些符合数据库和知识库校核逻辑的内容，能被识别为正确的操作票，即在符合例如数据库的词典同义词，或知识库的字词组合规则的前提下，操作票的内容即使存在一些改变也能直接通过校核；进而再作为历史操作票被存储在操作票数据库中，通过文本挖掘，将这些蕴含更新的操作票内容补充入知识库和规则库内，实现两库的自适应反馈学习，经过一段时间多个操作票的文本挖掘，两库的内容也就能随电网发展和规程制度完成更新。

本实施例中，通过对操作票数据库中的历史操作票进行文本挖掘，划分历史操作票中的电力名词、动词和介词，并识别出不同词性词语的组合关系；以电力名词构建词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则构建知识库；以两库对待校核操作校核后，准许出票的正确操作票再作为历史操作票存入操作票数据库中，进行文本挖掘，补充数据库和知识库，使得两库在文本挖掘和校核的循环中，不仅保证了操作票出票校核的可靠性，还实现了知识库和数据库的自适应更新。

以上为本申请提供的一种基于文本挖掘的操作票校核方法的第一个实施例的详细说明，下面为本申请提供的一种基于文本挖掘的操作票校核方法的第二个实施例的详细说明。

本实施例中，进一步提供了一种基于文本挖掘的操作票校核方法中步骤S100的一个具体实施例，请参见图2，在实施例中，步骤S100具体包括步骤S101-S103，详情如下：

S101，对操作票数据库中的历史操作票进行文本挖掘，通过文本分词和词性标注，将历史操作票中的文本分成各个词语，并对各词语标注出名词、动词和介词等词性，并识别不同词性词语的组合关系。

需要说明的是，通过构建隐马尔可夫模型，文本分词按一定规则从句子中提取词语，对照词典，将句子拆分后则实现分词，根据词语之间的语义和连接关系进行词性标注，并对分词后词性为名词的词语进行提取，再识别不同词性词语的组合关系。

本实施例进行文本挖掘的操作票种类是倒闸操作票；采用的是基于词典的分词方法，并从逆向最大匹配；其中，逆向最大匹配是设定最大词长，从待分词内容行文的右边起，取最大词长字串，得到候选字串，然后查词典，若在词典中查到则将该候选字串放入分词序列，并从待分词内容中将候选字串删掉；若在词典中没有查到则将候选字串最右的一个字去掉再进行查词典，直到候选字串在词典中查得或为单字，然后再从待分词内容中取下一候选字串，直到待分词内容被分词完毕。

S102，从电力名词中提取厂站名称、箱柜名称、设备编号和设备名称等关键词语，构建对应厂站、箱柜和设备的三层字典，作为数据库。

需要说明的是，数据库在内存中的表现形式为字典，硬盘中存储的表现形式为Excel文件，即二者是不同表现形式下的数据库；在需要使用字典进行校核时，数据库将Excel文件从硬盘中读入内存的3层字典中，方便后续的分析和运算。

数据库中包含校核要用到的所有变电站一、二次设备数据信息，其对应于厂站名称、箱柜名称、设备编号和设备名称等。三层字典的层次从高到低位厂站，箱柜和设备，层次的排序对应电力名词在实际中的包含关系；三层字典也可以与二层字典互相转化，二层字典即为厂站和设备。

S103，提取动词和介词，根据动词或介词与电力名词的组合关系得到句式规则，构造句式规则对应的正则表达式，形成知识库。

需要说明的是，构造正则表达式的方法和创建数学表达式的方法类似，都是用多种元字符和运算符将小的表达式结合在一起来创建更大的表达式；而正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

操作票的文本主要是电力名词和少量高频使用的名词或介词的组合，其句式固定且有规律，因此可以利用这些动词和介词与电力名词来构造正则表达式。将同类的组合关系聚类分析，分析各句子本身语义表示的操作类别和动作方位的规则，以及分析各句子之间步骤的次序规律，利用变长正则表达式泛化表达句式规则，构建知识库。知识库的正则表达形式如表1所示。

表1操作票文本的正则表达式

知识库包含校核要用到的所有规则，比如屏柜双编号规则、压板等设备的双编号规则、动词和检查的双行设备双编号规则、刀闸动作前检查开关位置规则、热倒母线规则、更改定值规则、地点厂站名规则等，虽然校核的种类不一样，但校核用到的底层逻辑是一样的，因此，校核并没有本质区别，知识库的内容易于扩展。操作票数据库所存储的历史操作票越多，文本挖掘程序能挖掘生成的知识库和数据库的内容就越丰富。两库除了可以利用文本挖掘程序自动生成，也可以由专家和一线人员手动增删和修改。

进一步的，经过对预设数量的历史操作票文本挖掘后，统计字典中各词语出现频率，以及各句式规则的出现频率，在数据库和知识库中剔除出现频率低于阈值的词语和句式规则。

需要说明的是，在文本挖掘的初期，为快速的构建起内容足够丰富的数据库和知识库，采用的策略是将文本挖掘得到的所有词语和句式规则都存储下来；而在文本挖掘的后期，在完成了预设数量的历史操作票的文本挖掘后，两库的内容足够，为了提高校核匹配的效率，可以统计各词语和各句式规则的出现频率，将低于预设阈值的内容从数据库和知识库中剔除；例如存在有偶尔出现于操作票的词语，在大量样本下发现其出现频率很低，即该词语近乎没有再被识别出来过，若该低词频的词语存在于字典中会导致无意义的识别，因此将其剔除能提高分词速度；剔除低频出现的句式规则能提高知识库校核的效率。历史操作票的预设数量和频率的阈值可以根据操作票文本的篇幅和实际情况设置。

文本挖掘构建数据库和知识库的方法，具备极高的适应性和自定义性，以不同变电站的历史操作票能构建出不同针对性内容的两库，针对性的构建使得两库的内容精简，因此对特定变电站的操作票校核有更高的准确性，针对的变电站操作票会有更高的校核效率。

本实施例中，通过对操作票电力名词的提取构建数据库，并以操作票中强规律性的句式以正则表达式构建出知识库，使得两库的构建能贴合变电站的实际情况，使得操作票的出票校核效率提高。

以上为本申请提供的一种基于文本挖掘的操作票校核方法的第二个实施例的详细说明，下面为本申请提供的一种基于文本挖掘的操作票校核方法的第三个实施例的详细说明。

本实施例中，进一步提供了一种基于文本挖掘的操作票校核方法，前述步骤S200之后还包括的步骤S400，若校核结果为错误，则生成修改意见，并对修改意见逐条进行人工核验。

请参见图3，步骤S400具体包括步骤S401-S405，详情如下：

S401，若校核结果为错误，则根据知识库和数据库对错误内容生成修改意见。

需要说明的是，根据知识库和数据库对操作票校核后，若存在语句不符合两库的内容，则会判断为存在错误，并针对错误，再依照两库的内容生成修改意见，

本实施例中，待校核操作票的形式为依操作步骤逐行存储的Excel表，校核完成后，会将修改意见批注在表格中，例如压板名称错误：XX站XX保护柜，或动作错误：未检查开关位置等。

S402，对修改意见逐条进行人工核验，判断修改意见是否正确；若核验结果为修改意见正确，则进入步骤S403，若核验结果为修改意见错误，则进入步骤S404；

需要说明的是，对于校核后生成的修改意见还需进一步校核，判断该修改意见是因为操作票确实编写错误，还是电网发展和规程变化引起知识库或数据库需要更新，而两库无法识别，避免出现因知识库和数据库内容陈旧或错误导致的误检；可以以校核人员的人工判断来添补两库的不足，因为校核人员获取电站发展和规程变更的速度必然比两库自适应更新更快，使得操作票出票校核可靠性得到进一步的保障。

进一步的，根据生成的修改意见数量n，若n＞0则对修改意见逐条进行人工核验，核验人员核对第i条修改意见，每完成一条修改意见的核对后，判断i是否等于n，若否则使i＝i+1，并进入下一条修改意见的修改；若是则完成对修改意见的人工核验。

S403，根据修改意见对操作票相应位置进行修改，并发送至一线人员和专家处进行反馈和学习；

需要说明的是，修改意见核验为正确，即操作票确实存在错误，需要进行修改，将错误内容发送给一线人员和专家处，除了吸取教训改进，供大家一起学习，提高大家的出票能力外；，还可以避免是有校核人员不在操作一线导致的误判，进一步增加出票可靠性，若是较大更新则通过人工编辑规则和字典的方式对两库内容进行手动补充更新。

S404，通过反更新直接对修改意见对应的内容在知识库或数据库中进行逆向更新。

需要说明的是，反更新为根据修改意见将知识库或数据库内容更新为与修改意见相反的内容。修改意见核验为错误，说明是数据库或知识库存在与目前变电站情况不符内容，需要对其进行更新，校核人员可以通过反更新的方式，检查这条告警对应的知识库中的某条正则表达式和数据库中的某条设备信息，很方便的定位问题并当场更新知识库或数据库，将对应库中的内容直接更新修改，使得再有类似内容的操作票，知识库和数据库能正确识别。

本实施例中，通过对校核为错误的操作票进行逐条修改意见的核验，对真实存在错误的操作票进行修改，增加出票的可靠性，并进一步确认修改情况；根据非真实存在错误对两库进行反更新，快速便捷的实现两库内容的修改，使得操作票的出票校核能更快的满足实时需求。

以上为本申请提供的一种基于文本挖掘的操作票校核方法的第二个实施例的详细说明，下面为本申请第二方面提供的一种基于文本挖掘的操作票校核***的详细说明。

请参阅图4，本实施例提供了一种基于文本挖掘的操作票校核***，包括：

操作票数据库10，分别与文本挖掘模块20和自适应更新模块40连接，用于存储历史操作票；

文本挖掘模块20，用于对操作票数据库10中的历史操作票进行文本挖掘，通过文本分词和词性标注，划分历史操作票中的电力名词、动词和介词，并识别不同词性词语的组合关系；以电力名词构建词典，将词典作为数据库；根据动词或介词与电力名词的组合关系得到句式规则，构建知识库；

操作票校核模块30，用于以数据库和知识库对待校核操作票进行校核；若校核结果为正确，则准许出票；

自适应更新模块40，用于将出票后的操作票作为历史操作票存入操作票数据库10中，进行文本挖掘，补充数据库和知识库。

可选的，所述文本挖掘模块20中，根据动词或介词与电力名词的组合关系得到句式规则，构建知识库，具体为：

本申请第三方面还提供了一种基于文本挖掘的操作票校核设备，包括处理器以及存储器：其中存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行上述基于文本挖掘的操作票校核方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，设备和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，***或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于文本挖掘的操作票校核方法，其特征在于，包括：

2.根据权利要求1所述的基于文本挖掘的操作票校核方法，其特征在于，所述以电力名词构建词典，将词典作为数据库，具体为：

3.根据权利要求1所述的基于文本挖掘的操作票校核方法，其特征在于，所述根据动词或介词与电力名词的组合关系得到句式规则，构建知识库，具体为：

4.根据权利要求1所述的基于文本挖掘的操作票校核方法，其特征在于，所述对历史操作票进行文本挖掘之后还包括：

5.根据权利要求1所述的基于文本挖掘的操作票校核方法，其特征在于，所述以数据库和知识库对待校核操作票进行校核之后，还包括：

6.根据权利要求5所述的基于文本挖掘的操作票校核方法，其特征在于，所述对修改意见逐条进行人工核验具体为：

7.根据权利要求6所述的基于文本挖掘的操作票校核方法，其特征在于，所述对修改意见逐条进行人工核验，判断修改意见是否正确之后，还包括：

8.一种基于文本挖掘的操作票校核***，其特征在于，包括：

9.根据权利要求8所述的基于文本挖掘的操作票校核***，其特征在于，所述文本挖掘模块中，根据动词或介词与电力名词的组合关系得到句式规则，构建知识库，具体为：

10.一种基于文本挖掘的操作票校核设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的基于文本挖掘的操作票校核方法。