CN110866397A

CN110866397A - 一种基于Ternary Search Trie的电力设备模型特征匹配方法

Info

Publication number: CN110866397A
Application number: CN201911115893.3A
Authority: CN
Inventors: 张鹏; 肖林朋; 张�浩; 王守琴; 郭子明; 穆永铮; 戚岳; 孙舶皓; 刘蒙; 耿艳; 张旭
Original assignee: State Grid Corp of China SGCC; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-06

Abstract

本发明公开一种基于Ternary Search Trie的电力设备模型特征匹配方法，包括以下步骤：步骤a，使用递归的方法将专业电力设备名称存放在三叉字典查找树中，建立起电力专业词库；步骤b，将电力专业词库中电力语术进行分词操作，统一数字书写；步骤c，基于分词的效果，计算电力设备模型特征语义相似度。本发明提供的一种基于Ternary Search Trie的电力设备模型特征匹配方法，选用三叉查询字典树，具备存储高效，查询快速优点；对设备名称进行数字书写统一，具有电力设备命名实体识别功能；考虑词序以及***数字和特殊字符之间的相似性，适用于针对非常规设备编号的相似度计算问题。

Description

一种基于Ternary Search Trie的电力设备模型特征匹配方法

技术领域

本发明涉及一种基于Ternary Search Trie的电力设备模型特征匹配方法，属于电力***调度自动化技术领域。

背景技术

随着智能电网科技的快速发展以及信息化的大数据时代到来，针对电网专业的名称识别，使用基于数据和算法的识别服务将逐步代替人工识别工作。这种使用原始数据，针对电网行业的算法是保障数据应用质量，是电网数据发挥价值的关键一步。由于缺乏对电网设备命名标准的统一规范管理，调度***应用更是各应用自身拥有和维护一套甚至多套台账信息，这些问题都导致了涉及的设备台账信息命名出现了大量不一致的情况，降低了应用的兼容性和拓展性，由此，解析设备名称中的语义信息，并识别出本质为同一设备的不同命名成为提升电力、互联网交互行业的工作效率的主要难点。

在现有工作中对于设备名称相似度匹配已经投入一些研究，主要是基于文本比较的编辑距离计算，利用LD相似度算法和jarccard相似度算法匹配配置数据库制定列中数据的相似度,对大于设定阈值的条目输出对照表，识别常见命名不匹配情况。单纯的比较编辑距离算法，由于是将设备名称作为两个给定的文本，造成依赖字符串的分词顺序，对于记录缺失或者不规范的设备名缺乏识别能力，对于专业电网业务场景面临的专业词库和单纯的中文或英文命名没有很好的解决。

发明内容

本发明要解决的技术问题是，克服现有技术的缺陷，提供一种具备存储高效，查询快速优点，具有电力设备命名实体识别功能，适用于针对非常规设备编号的相似度计算问题的基于Ternary Search Trie的电力设备模型特征匹配方法。

为解决上述技术问题，本发明采用的技术方案为：

一种基于Ternary Search Trie的电力设备模型特征匹配方法，包括以下步骤：

步骤a，使用递归的方法将专业电力设备名称存放在三叉字典查找树中，建立起电力专业词库；

步骤b，将电力专业词库中电力语术进行分词操作，统一数字书写；

步骤c，基于分词的效果，计算电力设备模型特征语义相似度。

步骤a包括以下具体步骤：

步骤a1，将数据库中的词汇进行清洗和去重后按照Unicode编码顺序排序存在数组中；

步骤a2，如果数组长度大于一则输出数据组中点的值写入新数组；

步骤a3，将输入的词汇拆分为单个字符，分别对左子树和右子树进行单字符的***；

步骤a4，如果数组长度大于1，那么左边数组递归调用函数，如果数组长度大于1，那么右边数组递归调用函数；

步骤a5，返回***数据后的树结构。

步骤b包括以下具体步骤：

步骤b1，计算输入字符串的字符长度；

步骤b2，记录匹配起始位置；

步骤b3，进入循环并记录起始位置小于字符串长度的值；

步骤b4，在循环中记录正向最大长度单词；

步骤b5，如若该单词已经与词库中的某个单词匹配，则输入该单词并将指针向下移动，否则按照单个字切分，输出单个字并将指针向下一位；

步骤b6，返回设备名称分词数组。

步骤c包括以下具体步骤：

步骤c1，将分词后的两个设备特征向量合并，并去除冗余；

步骤c2，将合并处理后的向量进行特殊词的正则化；

步骤c3，按照原始分词设备特征向量中元素在合并处理后向量中对应位置出现的词序构建比较向量；

步骤c4，计算语义相似度S_a；

步骤c5，计算词序相似度S_b；

步骤c6，根据语义相似度S_a和词序相似度S_b计算整体相似度S；

步骤c7，返回设备相似度S。

步骤c1中，两个电力设备分词向量Т_x＝{ω₁,ω₂,…,ω_n}，合并后用向量T表示，其中x＝1,2，ω_n代表在T_x中词序。

如果被分词的词元u_i出现在T_X中那么S_x＝{ω_i＝1},R_x＝{ω_i}，否则S_x＝{ω_i＝0.2},R_x＝{ω_i＝0.4}；语义相似度

词序相似度

步骤c6中，整体相似度S的计算方法如下：

其中α代表语义相似度比重。

本发明的有益效果：本发明提供一种基于Ternary Search Trie的电力设备模型特征匹配方法，使用递归的方法建立三查字典查找树，将中间值作为根节点，父节点与直接孩子组成词语，与左右孩子并不能组成词，而是旁边词语的首字符，具备数字搜索树效率优点和二叉搜索树空间优点，适用于专业词汇问题；对设备名称进行数字书写统一，最大匹配分词结果是按照维护的最优字典完成，规避未登录词出现的问题，针对一些常用不规范的设备名称具有自动识别功能，适用于对不规范数据的整治；根据语义向量语义公式计算相似度，词序相似度计算两个句子的语义相似度和词序相似度，然后进行加权得到两个句子的相似度，通过语义向量余弦公式算得设备命名相似度，适用于针对非常规设备编号的相似度计算问题。

附图说明

图1为本发明一种基于Ternary Search Trie的电力设备模型特征匹配方法的流程示意图。

具体实施方式

下面结合实施例对本发明作进一步描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明公开一种基于Ternary Search Trie的电力设备模型特征匹配方法，包括以下步骤：

步骤一，使用递归的方法将专业电力设备名称存放在三叉字典查找树中，建立起电力专业词库。专业电力设备名称具有名词专业性、构成规则化以及词汇少有共同前缀等特点,为解决这些特点所造成的问题,模型选择将设备名称存放于一种特殊的树形结构，三叉查询字典树中，从而建立起电力专业词库，具体主要包括以下步骤：

步骤a1，将数据库中的词汇进行清洗和去重后按照Unicode编码顺序排序存在数组中。

步骤a2，如果数组长度大于一则输出数据组中点的值写入新数组。

步骤a3，将输入的词汇拆分为单个字符，分别对左子树和右子树进行单字符的***。

步骤a4，如果数组长度大于1，那么左边数组递归调用函数，如果数组长度大于1，那么右边数组递归调用函数。

步骤a5，返回***数据后的树结构。

步骤二，将电力专业词库中电力语术进行分词操作，统一数字书写。在目前的各地电力***中，设备名称记录习惯因人而异,同一设备的不同表述方式的现状十分严重，因此在对原设备名称做规范化之前,除了对的编码处理、非汉字字符过滤等预处理操作外,一项非常重要的操作就是对数字书写的统一，具体主要包括以下步骤：

步骤b1，计算输入字符串的字符长度。

步骤b2，记录匹配起始位置。

步骤b3，进入循环并记录起始位置小于字符串长度的值。

步骤b4，在循环中记录正向最大长度单词。

步骤b5，如若该单词已经与词库中的某个单词匹配，则输入该单词并将指针向下移动，否则按照单个字切分，输出单个字并将指针向下一位。

步骤b6，返回设备名称分词数组。

步骤三，基于分词的效果，计算电力设备模型特征语义相似度。在对原设备名称做分词之后，计算相似度时基于分词的效果，不仅要考虑规范化单词之间的相似度之前,还要考虑词序以及***数字和特殊字符之间的相似性，包括以下具体步骤：

步骤c1，将分词后的两个设备特征向量合并，并去除冗余。两个电力设备分词向量Т_x＝{ω₁,ω2,…,ω_n}，合并后用向量T表示，其中x＝1,2，ω_n代表

在T_x中词序。

步骤c2，将合并处理后的向量进行特殊词的正则化。

步骤c3，按照原始分词设备特征向量中元素在合并处理后向量中对应位置出现的词序构建比较向量。

步骤c4，计算语义相似度S_a。

步骤c5，计算词序相似度S_b。

词序相似度

步骤c6，根据语义相似度S_a和词序相似度S_b计算整体相似度S；整体相似度S的计算方法如下：

其中α代表语义相似度比重。

步骤c7，返回设备相似度S。

本发明的一种基于Ternary Search Trie的电力设备模型特征匹配方法，通过相识度识别算法，对设备描述进行专业词库建立、分词划分以及计算识别相似度，从而减少识别设备的人力工作，提升电力专业业务场景的工作效率，进而为智能电网统一的数据环境打下坚实的基础。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：步骤a包括以下具体步骤：

步骤a5，返回***数据后的树结构。

3.根据权利要求1所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：步骤b包括以下具体步骤：

步骤b1，计算输入字符串的字符长度；

步骤b2，记录匹配起始位置；

步骤b3，进入循环并记录起始位置小于字符串长度的值；

步骤b4，在循环中记录正向最大长度单词；

步骤b6，返回设备名称分词数组。

4.根据权利要求1所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：步骤c包括以下具体步骤：

步骤c1，将分词后的两个设备特征向量合并，并去除冗余；

步骤c2，将合并处理后的向量进行特殊词的正则化；

步骤c4，计算语义相似度S_a；

步骤c5，计算词序相似度S_b；

步骤c7，返回设备相似度S。

5.根据权利要求4所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：步骤c1中，两个电力设备分词向量Т_x＝{ω₁,ω₂,…,ω_n}，合并后用向量T表示，其中x＝1,2，ω_n代表在T_x中词序。

6.根据权利要求5所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：如果被分词的词元u_i出现在T_X中，那么S_x＝{ω_i＝1},R_x＝{ω_i}，否则S_x＝{ω_i＝0.2},R_x＝{ω_i＝0.4}；语义相似度

词序相似度

7.根据权利要求6所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法，其特征在于：步骤c6中，整体相似度S的计算方法如下：

其中α代表语义相似度比重。