CN110866397A - 一种基于Ternary Search Trie的电力设备模型特征匹配方法 - Google Patents
一种基于Ternary Search Trie的电力设备模型特征匹配方法 Download PDFInfo
- Publication number
- CN110866397A CN110866397A CN201911115893.3A CN201911115893A CN110866397A CN 110866397 A CN110866397 A CN 110866397A CN 201911115893 A CN201911115893 A CN 201911115893A CN 110866397 A CN110866397 A CN 110866397A
- Authority
- CN
- China
- Prior art keywords
- word
- similarity
- electric power
- array
- power equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于Ternary Search Trie的电力设备模型特征匹配方法,包括以下步骤:步骤a,使用递归的方法将专业电力设备名称存放在三叉字典查找树中,建立起电力专业词库;步骤b,将电力专业词库中电力语术进行分词操作,统一数字书写;步骤c,基于分词的效果,计算电力设备模型特征语义相似度。本发明提供的一种基于Ternary Search Trie的电力设备模型特征匹配方法,选用三叉查询字典树,具备存储高效,查询快速优点;对设备名称进行数字书写统一,具有电力设备命名实体识别功能;考虑词序以及***数字和特殊字符之间的相似性,适用于针对非常规设备编号的相似度计算问题。
Description
技术领域
本发明涉及一种基于Ternary Search Trie的电力设备模型特征匹配方法,属于电力***调度自动化技术领域。
背景技术
随着智能电网科技的快速发展以及信息化的大数据时代到来,针对电网专业的名称识别,使用基于数据和算法的识别服务将逐步代替人工识别工作。这种使用原始数据,针对电网行业的算法是保障数据应用质量,是电网数据发挥价值的关键一步。由于缺乏对电网设备命名标准的统一规范管理,调度***应用更是各应用自身拥有和维护一套甚至多套台账信息,这些问题都导致了涉及的设备台账信息命名出现了大量不一致的情况,降低了应用的兼容性和拓展性,由此,解析设备名称中的语义信息,并识别出本质为同一设备的不同命名成为提升电力、互联网交互行业的工作效率的主要难点。
在现有工作中对于设备名称相似度匹配已经投入一些研究,主要是基于文本比较的编辑距离计算,利用LD相似度算法和jarccard相似度算法匹配配置数据库制定列中数据的相似度,对大于设定阈值的条目输出对照表,识别常见命名不匹配情况。单纯的比较编辑距离算法,由于是将设备名称作为两个给定的文本,造成依赖字符串的分词顺序,对于记录缺失或者不规范的设备名缺乏识别能力,对于专业电网业务场景面临的专业词库和单纯的中文或英文命名没有很好的解决。
发明内容
本发明要解决的技术问题是,克服现有技术的缺陷,提供一种具备存储高效,查询快速优点,具有电力设备命名实体识别功能,适用于针对非常规设备编号的相似度计算问题的基于Ternary Search Trie的电力设备模型特征匹配方法。
为解决上述技术问题,本发明采用的技术方案为:
一种基于Ternary Search Trie的电力设备模型特征匹配方法,包括以下步骤:
步骤a,使用递归的方法将专业电力设备名称存放在三叉字典查找树中,建立起电力专业词库;
步骤b,将电力专业词库中电力语术进行分词操作,统一数字书写;
步骤c,基于分词的效果,计算电力设备模型特征语义相似度。
步骤a包括以下具体步骤:
步骤a1,将数据库中的词汇进行清洗和去重后按照Unicode编码顺序排序存在数组中;
步骤a2,如果数组长度大于一则输出数据组中点的值写入新数组;
步骤a3,将输入的词汇拆分为单个字符,分别对左子树和右子树进行单字符的***;
步骤a4,如果数组长度大于1,那么左边数组递归调用函数,如果数组长度大于1,那么右边数组递归调用函数;
步骤a5,返回***数据后的树结构。
步骤b包括以下具体步骤:
步骤b1,计算输入字符串的字符长度;
步骤b2,记录匹配起始位置;
步骤b3,进入循环并记录起始位置小于字符串长度的值;
步骤b4,在循环中记录正向最大长度单词;
步骤b5,如若该单词已经与词库中的某个单词匹配,则输入该单词并将指针向下移动,否则按照单个字切分,输出单个字并将指针向下一位;
步骤b6,返回设备名称分词数组。
步骤c包括以下具体步骤:
步骤c1,将分词后的两个设备特征向量合并,并去除冗余;
步骤c2,将合并处理后的向量进行特殊词的正则化;
步骤c3,按照原始分词设备特征向量中元素在合并处理后向量中对应位置出现的词序构建比较向量;
步骤c4,计算语义相似度Sa;
步骤c5,计算词序相似度Sb;
步骤c6,根据语义相似度Sa和词序相似度Sb计算整体相似度S;
步骤c7,返回设备相似度S。
步骤c1中,两个电力设备分词向量Тx={ω1,ω2,…,ωn},合并后用向量T表示,其中x=1,2,ωn代表在Tx中词序。
本发明的有益效果:本发明提供一种基于Ternary Search Trie的电力设备模型特征匹配方法,使用递归的方法建立三查字典查找树,将中间值作为根节点,父节点与直接孩子组成词语,与左右孩子并不能组成词,而是旁边词语的首字符,具备数字搜索树效率优点和二叉搜索树空间优点,适用于专业词汇问题;对设备名称进行数字书写统一,最大匹配分词结果是按照维护的最优字典完成,规避未登录词出现的问题,针对一些常用不规范的设备名称具有自动识别功能,适用于对不规范数据的整治;根据语义向量语义公式计算相似度,词序相似度计算两个句子的语义相似度和词序相似度,然后进行加权得到两个句子的相似度,通过语义向量余弦公式算得设备命名相似度,适用于针对非常规设备编号的相似度计算问题。
附图说明
图1为本发明一种基于Ternary Search Trie的电力设备模型特征匹配方法的流程示意图。
具体实施方式
下面结合实施例对本发明作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明公开一种基于Ternary Search Trie的电力设备模型特征匹配方法,包括以下步骤:
步骤一,使用递归的方法将专业电力设备名称存放在三叉字典查找树中,建立起电力专业词库。专业电力设备名称具有名词专业性、构成规则化以及词汇少有共同前缀等特点,为解决这些特点所造成的问题,模型选择将设备名称存放于一种特殊的树形结构,三叉查询字典树中,从而建立起电力专业词库,具体主要包括以下步骤:
步骤a1,将数据库中的词汇进行清洗和去重后按照Unicode编码顺序排序存在数组中。
步骤a2,如果数组长度大于一则输出数据组中点的值写入新数组。
步骤a3,将输入的词汇拆分为单个字符,分别对左子树和右子树进行单字符的***。
步骤a4,如果数组长度大于1,那么左边数组递归调用函数,如果数组长度大于1,那么右边数组递归调用函数。
步骤a5,返回***数据后的树结构。
步骤二,将电力专业词库中电力语术进行分词操作,统一数字书写。在目前的各地电力***中,设备名称记录习惯因人而异,同一设备的不同表述方式的现状十分严重,因此在对原设备名称做规范化之前,除了对的编码处理、非汉字字符过滤等预处理操作外,一项非常重要的操作就是对数字书写的统一,具体主要包括以下步骤:
步骤b1,计算输入字符串的字符长度。
步骤b2,记录匹配起始位置。
步骤b3,进入循环并记录起始位置小于字符串长度的值。
步骤b4,在循环中记录正向最大长度单词。
步骤b5,如若该单词已经与词库中的某个单词匹配,则输入该单词并将指针向下移动,否则按照单个字切分,输出单个字并将指针向下一位。
步骤b6,返回设备名称分词数组。
步骤三,基于分词的效果,计算电力设备模型特征语义相似度。在对原设备名称做分词之后,计算相似度时基于分词的效果,不仅要考虑规范化单词之间的相似度之前,还要考虑词序以及***数字和特殊字符之间的相似性,包括以下具体步骤:
步骤c1,将分词后的两个设备特征向量合并,并去除冗余。两个电力设备分词向量Тx={ω1,ω2,…,ωn},合并后用向量T表示,其中x=1,2,ωn代表
在Tx中词序。
步骤c2,将合并处理后的向量进行特殊词的正则化。
步骤c3,按照原始分词设备特征向量中元素在合并处理后向量中对应位置出现的词序构建比较向量。
步骤c4,计算语义相似度Sa。
步骤c5,计算词序相似度Sb。
步骤c7,返回设备相似度S。
本发明的一种基于Ternary Search Trie的电力设备模型特征匹配方法,通过相识度识别算法,对设备描述进行专业词库建立、分词划分以及计算识别相似度,从而减少识别设备的人力工作,提升电力专业业务场景的工作效率,进而为智能电网统一的数据环境打下坚实的基础。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于Ternary Search Trie的电力设备模型特征匹配方法,其特征在于:包括以下步骤:
步骤a,使用递归的方法将专业电力设备名称存放在三叉字典查找树中,建立起电力专业词库;
步骤b,将电力专业词库中电力语术进行分词操作,统一数字书写;
步骤c,基于分词的效果,计算电力设备模型特征语义相似度。
2.根据权利要求1所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法,其特征在于:步骤a包括以下具体步骤:
步骤a1,将数据库中的词汇进行清洗和去重后按照Unicode编码顺序排序存在数组中;
步骤a2,如果数组长度大于一则输出数据组中点的值写入新数组;
步骤a3,将输入的词汇拆分为单个字符,分别对左子树和右子树进行单字符的***;
步骤a4,如果数组长度大于1,那么左边数组递归调用函数,如果数组长度大于1,那么右边数组递归调用函数;
步骤a5,返回***数据后的树结构。
3.根据权利要求1所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法,其特征在于:步骤b包括以下具体步骤:
步骤b1,计算输入字符串的字符长度;
步骤b2,记录匹配起始位置;
步骤b3,进入循环并记录起始位置小于字符串长度的值;
步骤b4,在循环中记录正向最大长度单词;
步骤b5,如若该单词已经与词库中的某个单词匹配,则输入该单词并将指针向下移动,否则按照单个字切分,输出单个字并将指针向下一位;
步骤b6,返回设备名称分词数组。
4.根据权利要求1所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法,其特征在于:步骤c包括以下具体步骤:
步骤c1,将分词后的两个设备特征向量合并,并去除冗余;
步骤c2,将合并处理后的向量进行特殊词的正则化;
步骤c3,按照原始分词设备特征向量中元素在合并处理后向量中对应位置出现的词序构建比较向量;
步骤c4,计算语义相似度Sa;
步骤c5,计算词序相似度Sb;
步骤c6,根据语义相似度Sa和词序相似度Sb计算整体相似度S;
步骤c7,返回设备相似度S。
5.根据权利要求4所述的一种基于Ternary Search Trie的电力设备模型特征匹配方法,其特征在于:步骤c1中,两个电力设备分词向量Тx={ω1,ω2,…,ωn},合并后用向量T表示,其中x=1,2,ωn代表在Tx中词序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115893.3A CN110866397A (zh) | 2019-11-14 | 2019-11-14 | 一种基于Ternary Search Trie的电力设备模型特征匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115893.3A CN110866397A (zh) | 2019-11-14 | 2019-11-14 | 一种基于Ternary Search Trie的电力设备模型特征匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866397A true CN110866397A (zh) | 2020-03-06 |
Family
ID=69654083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911115893.3A Pending CN110866397A (zh) | 2019-11-14 | 2019-11-14 | 一种基于Ternary Search Trie的电力设备模型特征匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866397A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625596A (zh) * | 2020-05-14 | 2020-09-04 | 国网辽宁省电力有限公司 | 新能源实时消纳调度的多源数据同步共享方法及*** |
CN112182313A (zh) * | 2020-09-30 | 2021-01-05 | 国网青海省电力公司 | 一种继电保护定值名称匹配方法、*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092870B1 (en) * | 2000-09-15 | 2006-08-15 | International Business Machines Corporation | System and method for managing a textual archive using semantic units |
CN109800416A (zh) * | 2018-12-14 | 2019-05-24 | 天津大学 | 一种电力设备名称识别方法 |
-
2019
- 2019-11-14 CN CN201911115893.3A patent/CN110866397A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092870B1 (en) * | 2000-09-15 | 2006-08-15 | International Business Machines Corporation | System and method for managing a textual archive using semantic units |
CN109800416A (zh) * | 2018-12-14 | 2019-05-24 | 天津大学 | 一种电力设备名称识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625596A (zh) * | 2020-05-14 | 2020-09-04 | 国网辽宁省电力有限公司 | 新能源实时消纳调度的多源数据同步共享方法及*** |
CN111625596B (zh) * | 2020-05-14 | 2023-12-26 | 国网辽宁省电力有限公司 | 新能源实时消纳调度的多源数据同步共享方法及*** |
CN112182313A (zh) * | 2020-09-30 | 2021-01-05 | 国网青海省电力公司 | 一种继电保护定值名称匹配方法、*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6169999B1 (en) | Dictionary and index creating system and document retrieval system | |
CN102867040B (zh) | 一种面向中文搜索引擎混杂语言的查询纠错方法及*** | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
US6839665B1 (en) | Automated generation of text analysis systems | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN110889310B (zh) | 金融文档信息智能提取***及方法 | |
WO2016138773A1 (zh) | 基于图的地址知识处理方法及装置 | |
US7627567B2 (en) | Segmentation of strings into structured records | |
CN109657053A (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及*** | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN112182156B (zh) | 基于文本处理的方面级可解释深度网络评分预测推荐方法 | |
CN110866397A (zh) | 一种基于Ternary Search Trie的电力设备模型特征匹配方法 | |
CN111178079A (zh) | 一种三元组抽取方法及装置 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN110390099B (zh) | 一种基于模板库的对象关系抽取***和抽取方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成***及生成方法 | |
CN113590827A (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
CN106484660A (zh) | 标题处理方法和装置 | |
CN114880022A (zh) | 一种基于CodeBERT微调和检索增强的Bash代码注释生成方法 | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
CN113971403A (zh) | 一种考虑文本语义信息的实体识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |