CN107944591A - 基于电力调度通用数据对象的重复对象模糊检验优化算法 - Google Patents

基于电力调度通用数据对象的重复对象模糊检验优化算法 Download PDF

Info

Publication number
CN107944591A
CN107944591A CN201710361735.0A CN201710361735A CN107944591A CN 107944591 A CN107944591 A CN 107944591A CN 201710361735 A CN201710361735 A CN 201710361735A CN 107944591 A CN107944591 A CN 107944591A
Authority
CN
China
Prior art keywords
matching
algorithm
full
chinese
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710361735.0A
Other languages
English (en)
Inventor
殷智
毛锐
齐建峰
甘文峰
马富
周思源
王守琴
肖林鹏
张敬伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kedong Electric Power Control System Co Ltd
Southwest Branch of State Grid Corp
Original Assignee
Beijing Kedong Electric Power Control System Co Ltd
Southwest Branch of State Grid Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kedong Electric Power Control System Co Ltd, Southwest Branch of State Grid Corp filed Critical Beijing Kedong Electric Power Control System Co Ltd
Priority to CN201710361735.0A priority Critical patent/CN107944591A/zh
Publication of CN107944591A publication Critical patent/CN107944591A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于电力***调度自动化技术领域,特别是涉及基于电力调度通用数据对象的重复对象模糊检验的优化算法。所述算法在对电力调度通用数据对象的重复对象模糊检验时,采取数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法,具体包括:(1)数字、中文编号匹配算法;(2)全角、半角匹配算法;(3)全称简称匹配算法;(4)特殊符号匹配算法。本发明合理匹配了***、中文数字、全角、半角、全称、简称、特殊符号,有效避免了数据错误,从而增强了用户体验。

Description

基于电力调度通用数据对象的重复对象模糊检验优化算法
技术领域
本发明属于电力***调度自动化技术领域,特别是涉及基于电力调度通用数据对象的重复对象模糊检验的优化算法。
背景技术
随着特高压交直流电网建设的全面提速、新能源的快速发展、电力市场化改革的深入推进,电网调度运行正在步入一个新时期、新阶段。现阶段,电网一体化特征已更加明显,对电网实施集中决策、分散控制的要求更加迫切。
为更好的支撑调控业务发展,需要加强平台支撑能力建设,一是深化D5000平台成熟技术及机制的应用;二是吸纳互联网新技术,云计算、大数据等理念对架构进行升级,提高***架构的稳定性、数据处理能力和并发访问能力;三是开展数据标准化设计工作,做好基础数据规范化工作。
电力调度通用数据对象结构化设计目的是明确电力通用数据对象的范围,规范数据对象的结构化设计方法及内容,以元数据管理方法构建一个完整的、科学的、可持续的数据管理体系。是横纵向应用数据共享的基础。电力调度通用数据对象是指与电力调度生产运行密切相关的各种电力容器、电器设备、通信设备等。结构化建模范围包括电力调度中涉及的一、二次设备(DEV)及设备所在的电力容器(CON),拓扑连接关系(TOP),以及电力容器公用环境信息(COM),组织机构人员信息(ORG)等对象。另外,对具体数据记录维护中所需的标准化选项建立数据字典(DIC)。
质量低劣的数据对象数据已经成为影响电网调度相关部门正确决策的关键因素,成为制约信息服务的瓶颈。因此,如何高效的管理数据,提高数据质量,使其成为决策部门的有效依据,是具有较高研究价值和实际意义的问题。
发明内容
本发明由此背景出发,根据不同类型的数据错误,采用相应检测方法,并通过实现具体程序,验证方法的有效性。基于电力调度通用数据对象的重复对象模糊检验,对存在歧义的特征属性进行模糊校验,计算相似度,并由维护人员确定是否为同一数据对象。以电力调度通用数据对象为模型,由数字编号差异、全称简称混用、特殊符号差异等方面来对重复对象模糊检验。
本发明要解决的技术问题如下:
1、数字、中文编号匹配;
2、全角、半角匹配;
3、全称、简称匹配;
4、特殊符号匹配;
由于模型数据命名不规范,存在***数字和中文数字同时对对象命名、全角和半角同时命名、全称和简称同时命名、特殊符号命名的情况,由此给用户查询及数据匹配造成极大的干扰和不确定性,需提供对应算法进行重复对象模糊检验。
为实现上述目的,本发明提出如下技术方案:
一种基于电力调度通用数据对象的重复对象模糊检验的优化算法,其特征在于,所述算法在对电力调度通用数据对象的重复对象模糊检验时,采取数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法,具体包括:
(1)数字、中文编号匹配算法;
(2)全角、半角匹配算法;
(3)全称简称匹配算法;
(4)特殊符号匹配算法;
所述数字、中文编号匹配算法具体为:
匹配1个数字算法为:^\d$;
匹配连续的多个数字算法为:^\d+$;
匹配0个或多个数字算法为:^\d*$;
匹配0个或1个数字算法为:^\d?$;
所述全角、半角匹配算法为:[\uFF10-\uFF19];
所述全称简称匹配算法具体为:
匹配所有空格算法为:\\s+;
全、简称匹配算法为:like‘%%’;
所述特殊符号匹配算法为:((?=[\x21-\x7e]+)[^A-Za-z0-9])。
本发明的有益效果在于:
1、合理匹配***、中文数字、全角、半角、全称、简称、特殊符号。满足查询对象含有***、中文数字、全角、半角、全称、简称、特殊符号的匹配要求,精度达到95%以上。
2、避免数据错误。经过***的校对核查,极大的提升数据质量,避免重复数据的同时减少用户因数据干扰导致的失误。
3、增强用户体验。通过***的校验核对,减少用户手动查找数据校对数据的工作量,将工作变被动为主动,极大提高用户工作效率,增强了用户的体验。
具体实施方式
本发明提供了一种基于电力调度通用数据对象的重复对象模糊检验的优化算法,在对电力调度通用数据对象的重复对象模糊检验时,采取数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法,具体包括:
(1)数字、中文编号匹配算法
匹配1个数字算法^\d$;
匹配连续的多个数字算法^\d+$;
匹配0个或多个数字算法^\d*$;
匹配0个或1个数字算法^\d?$;
(2)全角、半角匹配算法
全角指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。半角指一字符占用一个标准的字符位置。通常的英文字母、数字键、符号键都是半角的,半角的显示内码都是一个字节。
算法:[\uFF10-\uFF19];
(3)全称简称匹配算法
匹配所有空格算法:\\s+;
全、简匹配算法:like‘%%’;
(4)特殊符号匹配算法
匹配所有键盘上可见的非字母和数字的特殊符号
算法:((?=[\x21-\x7e]+)[^A-Za-z0-9])。
本发明重点给出了异常数据和相似重复记录的检测方法。充分考虑数据内部之间的联系,采用基于关联规则的思想对异常数据进行检测。将数据集中的数据进行转换,使其满足关联规则挖掘的条件;然后在训练集中找出所有的频繁项集,由频繁项集生成关联规则,并将其放入规则库;最后将测试集中的记录与规则库中的规则进行比对,以此判断记录是否异常。通过实验证明此方法检测异常数据效果良好。
采用基于权值分组的方法来检测相似重复记录。根据识别事物的能力给不同的属性分配相应的权值,以此提高检测精度;根据关键字段将大数据集分割成不相交的小数据集,再在小数据集中检测相似重复记录,以减少匹配次数;采用位置编码方法计算字段相似度,解决了英文缩写问题和中文字符匹配问题;使用多趟查找技术克服了字符敏感问题。***证明此方法能够快速准确的检测相似重复记录。
现有的主流商业信息检索***大部分采用基于关键词精确匹配的检索技术,取得了一定的成果。但是在实际应用中,用户的查询输入与检索***数据库的构建都不可能完全正确。用户对于搜索主题所处的领域不了解,采用不合适的查询词,会导致查询词的覆盖范围大大缩小;在中文信息检索***中,用户还常会输入同音或近音的错别字。模糊检索根据用户输入的模糊特征来检索匹配内容,可处理精确的关键词匹配所无法解决的这些问题。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
基于正则表达式,我们发明数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法。基于这4种算法实现对电力调度通用数据对象的重复对象模糊校验。
基于这4种算法实现对电力调度通用数据对象的重复对象模糊校验,减少用户手动查找数据校对数据的工作量,将工作变被动为主动,极大提高用户工作效率,增强了用户的体验。

Claims (1)

1.一种基于电力调度通用数据对象的重复对象模糊检验的优化算法,其特征在于,所述算法在对电力调度通用数据对象的重复对象模糊检验时,采取数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法,具体包括:
(1)数字、中文编号匹配算法;
(2)全角、半角匹配算法;
(3)全称简称匹配算法;
(4)特殊符号匹配算法;
所述数字、中文编号匹配算法具体为:
匹配1个数字算法为:^\d$;
匹配连续的多个数字算法为:^\d+$;
匹配0个或多个数字算法为:^\d*$;
匹配0个或1个数字算法为:^\d?$;
所述全角、半角匹配算法为:[\uFF10-\uFF19];
所述全称简称匹配算法具体为:
匹配所有空格算法为:\\s+;
全、简称匹配算法为:like‘%%’;
所述特殊符号匹配算法为:((?=[\x21-\x7e]+)[^A-Za-z0-9])。
CN201710361735.0A 2017-05-22 2017-05-22 基于电力调度通用数据对象的重复对象模糊检验优化算法 Pending CN107944591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710361735.0A CN107944591A (zh) 2017-05-22 2017-05-22 基于电力调度通用数据对象的重复对象模糊检验优化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710361735.0A CN107944591A (zh) 2017-05-22 2017-05-22 基于电力调度通用数据对象的重复对象模糊检验优化算法

Publications (1)

Publication Number Publication Date
CN107944591A true CN107944591A (zh) 2018-04-20

Family

ID=61928582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710361735.0A Pending CN107944591A (zh) 2017-05-22 2017-05-22 基于电力调度通用数据对象的重复对象模糊检验优化算法

Country Status (1)

Country Link
CN (1) CN107944591A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036372A (zh) * 2014-07-04 2014-09-10 云南电力调度控制中心 一种电力设备疑似重复数据识别方法
CN104182911A (zh) * 2014-08-25 2014-12-03 国家电网公司 一种实现配电网***cim模型一致性的校验方法
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法
CN105306475A (zh) * 2015-11-05 2016-02-03 天津理工大学 一种基于关联规则分类的网络入侵检测方法
CN106530121A (zh) * 2016-10-24 2017-03-22 南方电网科学研究院有限责任公司 电力监控***安全防护合规性检测方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036372A (zh) * 2014-07-04 2014-09-10 云南电力调度控制中心 一种电力设备疑似重复数据识别方法
CN104182911A (zh) * 2014-08-25 2014-12-03 国家电网公司 一种实现配电网***cim模型一致性的校验方法
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法
CN105306475A (zh) * 2015-11-05 2016-02-03 天津理工大学 一种基于关联规则分类的网络入侵检测方法
CN106530121A (zh) * 2016-10-24 2017-03-22 南方电网科学研究院有限责任公司 电力监控***安全防护合规性检测方法和***

Similar Documents

Publication Publication Date Title
US11562304B2 (en) Preventative diagnosis prediction and solution determination of future event using internet of things and artificial intelligence
CN106372798B (zh) 一种基于风险的用户自定义的合同生成方法和***
CN106777644A (zh) 电厂标识***编码的自动生成方法及装置
CN113870046B (zh) 电力设备故障诊断方法及设备
CN102930479A (zh) 一种用于电力***规程知识的形式化方法及其形式化***
CN110097278A (zh) 一种科技资源智能共享融合训练***和应用***
CN113887930B (zh) 问答机器人健康度评估方法、装置、设备及存储介质
CN111611774B (zh) 一种运维操作指令安全分析方法、***及存储介质
CN112613611A (zh) 一种基于知识图谱的税务知识库***
CN115563968A (zh) 水电运检知识自然语言人工智能***及方法
CN109977131A (zh) 一种房型匹配***
CN112487789B (zh) 一种基于知识图谱的操作票调度逻辑合法性验证方法
CN116737947A (zh) 实体关系图构建方法、装置、设备及存储介质
CN107944591A (zh) 基于电力调度通用数据对象的重复对象模糊检验优化算法
Liu et al. A two-stage clustering ensemble algorithm applicable to risk assessment of railway signaling faults
Song et al. Improved Cluster Intelligent and Complex Optimization Algorithm for Power Equipment CAD‐Assisted Intelligent Operation and Maintenance
Porwal et al. A comparative analysis of data cleaning approaches to dirty data
CN115099680A (zh) 风险管理方法、装置、设备及存储介质
CN112765958B (zh) 代词消解方法、装置、电子设备及存储介质
CN113435494A (zh) 低压居民用户异常用电识别方法及仿真模拟***
Jin Integration mechanism of heterogeneous foreign language education resources based on time series analysis in IIoT
CN111626792A (zh) 一种对配网内综合能源源荷储精准画像技术
Li et al. Decision‐making of product‐service system solution selection based on integrated weight and technique for order preference by similarity to an ideal solution
Xu et al. [Retracted] Hazard Trend Identification Model Based on Statistical Analysis of Abnormal Power Generation Behavior Data
CN110175328A (zh) 一种基于关键词序列结构的文档相似度度量方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180420

WD01 Invention patent application deemed withdrawn after publication