CN109710647B - 一种基于关键字搜索的电网台账数据融合方法及装置 - Google Patents

一种基于关键字搜索的电网台账数据融合方法及装置 Download PDF

Info

Publication number
CN109710647B
CN109710647B CN201811640460.5A CN201811640460A CN109710647B CN 109710647 B CN109710647 B CN 109710647B CN 201811640460 A CN201811640460 A CN 201811640460A CN 109710647 B CN109710647 B CN 109710647B
Authority
CN
China
Prior art keywords
data
object group
measuring point
matching
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811640460.5A
Other languages
English (en)
Other versions
CN109710647A (zh
Inventor
陈冠缘
田翔
周刚
马凯
罗颖婷
黄勇
鄂盛龙
徐思尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Electric Power Research Institute of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201811640460.5A priority Critical patent/CN109710647B/zh
Publication of CN109710647A publication Critical patent/CN109710647A/zh
Application granted granted Critical
Publication of CN109710647B publication Critical patent/CN109710647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请公开了一种基于关键字搜索的电网台账数据融合方法及装置,其中本申请提供的方法通过关键字准确匹配和首字母模糊匹配结合的方式,先通过关键字提取,剔除数据命名信息中与地域信息及设备信息无关的标识字词,通过关键字比对进行初次数据匹配关联,接着在通过首字母匹配方式,对初次数据匹配不成功的数据进行二次模糊匹配,降低了因人为输入错误导致数据匹配失败,产生新的“数据孤岛”的概率,也解决了对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致的现有的因数据命名异常导致的“数据孤岛”的处理效率低的技术问题。

Description

一种基于关键字搜索的电网台账数据融合方法及装置
技术领域
本申请涉及数据融合领域,尤其涉及一种基于关键字搜索的数据融合方法及装置。
背景技术
随着大数据技术的成熟,各地电网运维部门逐渐通过建立规范的数据库,以及通过数据融合的方式,建立以电网大数据为基础的电能质量监测***。然而,各个数据库***之间都是由不同的管理团队进行管理,且这些数据在进行融合之前都属于独立的、异构的数据,由于管理人员的个人偏好或录入信息时的人为失误,导致了即使是同一个数据对象,在不同的数据库***中可能有不同命名的情况,最终导致这些命名异常的数据对象在数据融合时难以与相同的数据对象进行合并,也难以与其他合法的数据对象进行关联,形成了新的“数据孤岛”。
然而,对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致了现有的因数据命名异常导致的“数据孤岛”的处理方式效率低的技术问题。
发明内容
本申请提供了一种基于关键字搜索的电网台账数据融合方法及装置,用于解决现有技术对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致了现有的因数据命名异常导致的“数据孤岛”的处理方式效率低的技术问题。
有鉴于此,本申请第一方面提供了一种基于关键字搜索的电网台账数据融合方法,包括:
获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;
根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;
提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;
根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。
优选地,所述将所述数据名关键字集合添加到所述数据对象组中之后还包括:
获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除。
优选地,所述分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新之后还包括:
统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。
优选地,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息。
优选地,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。
本申请第二方面提供了一种基于关键字搜索的电网台账数据融合装置,包括:
预处理模块,用于获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;
初次关联模块,用于根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;
二次关联模块,用于提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;
数据关联处理模块,用于根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。
优选地,还包括:
校验模块,用于获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除。
优选地,还包括:
剩余数据统计模块,用于统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。
优选地,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息。
优选地,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。
从以上技术方案可以看出,本申请具有以下优点:
本申请第一方面提供了一种基于关键字搜索的电网台账数据融合方法,包括:获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。
本申请通过关键字准确匹配和首字母模糊匹配结合的方式,先通过关键字提取,剔除数据命名信息中与地域信息及设备信息无关的标识字词,通过关键字比对进行初次数据匹配关联,接着在通过首字母匹配方式,对初次数据匹配不成功的数据进行二次模糊匹配,降低了因人为输入错误导致数据匹配失败,产生新的“数据孤岛”的概率,也解决了对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致的现有的因数据命名异常导致的“数据孤岛”的处理效率低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种基于关键字搜索的电网台账数据融合方法的第一个实施例的流程示意图;
图2为本申请提供的一种基于关键字搜索的电网台账数据融合方法的第二个实施例的流程示意图;
图3为本申请提供的一种基于关键字搜索的电网台账数据融合装置的结构示意图。
具体实施方式
本申请实施例提供了一种基于关键字搜索的电网台账数据融合方法及装置,用于解决现有技术对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致了现有的因数据命名异常导致的“数据孤岛”的处理方式效率低的技术问题。
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例提供了一种基于关键字搜索的电网台账数据融合方法,包括:
步骤101、获取各个数据库平台中的测点台账数据,并对测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;
需要说明的是,在从各个数据库平台中获取到测点台账数据后,在数据匹配关联之前,先对获取到的测点台账数据的命名信息进行关键字提取预处理,将命名信息中“供电局”、“电网”“有限公司”、“有限责任”、“责任”“局”、“公司”、“供电所”、“市”、“县”、“省”等标识单位机构字剔除,并保留下来的地域信息及设备信息合并,得到与该测点台账数据相对应的数据名关键字集合。
步骤102、根据数据名关键字集合中的关键字元素,对各个数据名关键字集合进行初次匹配,将关键字匹配结果一致的测点台账数据关联到一个数据对象组;
需要说明的是,在得到数据名关键字集合后,接着根据数据名关键字集合中的关键字元素,通过单字匹配或词组匹配的关键字匹配的方式进行初步匹配,若关键字匹配结果一致,说明这些测点台账数据是属于同一个测点对象的数据,此时,将关键字匹配结果一致的测点台账数据添加到一个数据对象组中进行数据关联。
通过关键字提取的初次匹配方式,剔除无关字样,只针对有效信息,如地域信息等进行匹配,可以有效避免因数据库管理人员在录入数据时数据命名不规范,导致数据匹配出错的情况,初步提高了数据匹配率。
步骤103、提取未合并的数据名关键字集合的首字母,根据数据名关键字集合的首字母与各个数据对象组元素的首字母进行二次匹配,若数据名关键字集合的首字母与数据对象组元素的首字母的匹配结果为一致,则将数据名关键字集合添加到数据对象组中;
需要说明的是,在经过初步匹配得到了各个测点对象对应的数据对象组后,接着获取在初步匹配步骤中,未成功匹配到相同测点对象的测点台账数据,这类数据大多是因为数据库管理人员在录入数据时的录入了拼音相近的字样,最终导致了匹配失败的问题,针对这类数据,本实施例通过采用首字母匹配方式,扩大数据匹配范围,将与数据对象组元素的首字母的匹配结果为一致的数据名关键字集合的测点台账数据添加到对应的数据对象组中进行关联。
步骤104、根据关键字元素和预置的数据命名模板,分别对同一数据对象组中的测点台账数据的命名信息进行统一更新。
需要说明的是,在二次匹配后,按照预置的数据命名模板和数据名关键字集合中的关键字信息对完成分类后的测点台账数据进行命名信息统一修正。确保相同测点对象的数据的命名信息保持一致。
本实施例通过关键字准确匹配和首字母模糊匹配结合的方式,先通过关键字提取,剔除数据命名信息中与地域信息及设备信息无关的标识字词,通过关键字比对进行初次数据匹配关联,接着在通过首字母匹配方式,对初次数据匹配不成功的数据进行二次模糊匹配,降低了因人为输入错误导致数据匹配失败,产生新的“数据孤岛”的概率,也解决了对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致的现有的因数据命名异常导致的“数据孤岛”的处理效率低的技术问题。
以上为本申请提供的一种基于关键字搜索的电网台账数据融合方法的第一个实施例的详细说明,下面为本申请提供的本申请提供的一种基于关键字搜索的电网台账数据融合方法的第二个实施例的详细说明。
请参阅图2,本申请实施例提供了一种基于关键字搜索的电网台账数据融合方法,包括:
步骤201、获取各个数据库平台中的测点台账数据,并对测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;
需要说明的是,在从各个数据库平台中获取到测点台账数据后,在数据匹配关联之前,先对获取到的测点台账数据的命名信息进行关键字提取预处理,将命名信息中“供电局”、“电网”“有限公司”、“有限责任”、“责任”“局”、“公司”、“供电所”、“市”、“县”、“省”等标识单位机构字剔除,并保留下来的地域信息及设备信息合并,得到与该测点台账数据相对应的数据名关键字集合。
步骤202、根据数据名关键字集合中的关键字元素,对各个数据名关键字集合进行初次匹配,将关键字匹配结果一致的测点台账数据关联到一个数据对象组;
需要说明的是,在得到数据名关键字集合后,接着根据数据名关键字集合中的关键字元素,通过关键字匹配的方式进行初步匹配,若关键字匹配结果一致,说明这些测点台账数据是属于同一个测点对象的数据,此时,将关键字匹配结果一致的测点台账数据添加到一个数据对象组中进行数据关联。
通过关键字提取的初次匹配方式,剔除无关字样,只针对有效信息,如地域信息等进行匹配,可以有效避免因数据库管理人员在录入数据时数据命名不规范,导致数据匹配出错的情况,初步提高了数据匹配率。
步骤203、提取未合并的数据名关键字集合的首字母,根据数据名关键字集合的首字母与各个数据对象组元素的首字母进行二次匹配,若数据名关键字集合的首字母与数据对象组元素的首字母的匹配结果为一致,则将数据名关键字集合添加到数据对象组中;
需要说明的是,在经过初步匹配得到了各个测点对象对应的数据对象组后,接着获取在初步匹配步骤中,未成功匹配到相同测点对象的测点台账数据,这类数据大多是因为数据库管理人员在录入数据时的录入了拼音相近的字样,最终导致了匹配失败的问题,针对这类数据,本实施例通过采用首字母匹配方式,扩大数据匹配范围,将与数据对象组元素的首字母的匹配结果为一致的数据名关键字集合的测点台账数据添加到对应的数据对象组中进行关联。
更具体地,数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息。
更具体地,测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。
1、变电站融合
变电站台账融合与单位融合相似,也可认为变电站是一类单位。变电站可能是地市局直管,有些则是分(县)局直管,因此单独罗列。
变电站名称一般以其所在地名称命名,如35kV羊街变电站,该变电站建设于一个叫羊街地名中,电压等级越低地名管辖地域越小,电压等级越高则地名管理地域越大,如:500kV佛山站。
为有效管理变电站台账,本次规定变电站命名规范为:电压等级+名称+站,如:35kV羊街变电站转换为标准命名后为35kV羊街站。
变电站基于所属地市局及名称融合。所属地市局提出预防降低融合错误可能性,可建立基于地市局统计的变电站列表,按3.4.2.3.1中融合单位的算法进行融合与纠错。
2、线路融合
本部分所说线路包括母线与馈线。母线实现电能汇集,是出线的“源”。馈线为大用户与配变10kV/0.4kV供电,是电能质量评估关键环节。调度自动化***、电压监测***、营销***、电能质量***等在母线及供电线路设置监测点,可获取电压、电流、有功、无功等数据,线路台账融合极为关键。
统一线路命名是多***数据融合基础。本次规则线路命名规则为变电站名+电压等级+名称+线,变电站名参考变电站名,如35kV羊街站10kV大具线。
多***线路融合核心是线路名称,本次融合基于名称进行匹配融合。具体可参照以下算法:
(1)建立等价文字表,其中,等价文字表包括部分关键字以及代表该关键字的符号对应关系;比如母线与母、M;2与II、号与#等;
(2)线路名匹配。基于等价文字表替换名称中可替换内容,将之转换为标准表示法。如110kV基塘站.10kV-2段母线,替换为110kV基塘变10kVII母线;拆分关键字,可按变电站名、线路电压等级、线路名拆分。首先匹配变电站名,若符合则可继续,若不符合则跳过,当变电站名一致时匹配电压等级,依次下去。基于此思路也可引入更为适合的算法。
(3)纠错措施。为防止人为输入错误导致匹配率降低问题,引入中文纠错应用于常规算法无法匹配的台账中。中文纠错以相近字,拼音等带来字词错误,可参考如下算法。
a、名字距离相似性。基于距离求两个字符串的相似性,例如:10kV可靠线农家村公变和10kV可控变农家村公变,距离=2;10kV可靠线农家村公变与10kV可靠线农家村公变的距离=0,有了编辑距离,借助最长前缀匹配设定距离阀值,例如2个字,允许1个字不一样,6个字允许两个字不一样。
b、基于拼音首字母纠错。汉字的输入错误大部分来自同音字。因而可基于全拼和首字母进行纠错,例如必须首字母相同:A***存在:可控变农家村公变的首字母为kkbnjcgb,而B***存在:可控变那就村公变首字母kkbnjcgb首字母相同,则将认可是相同台账。
3、变压器融合
变压器可按其分布位置分为变电站站内变压器、低压台变(专指10kV/0.4kV)。站内变压器可基于所属变电站降低融合错误率,低压配变则基于供电线路减少融合错误率。
站内变压器一般命名为1#主变、2#主变方式,且一个变电站一般不超过3台变压器,因此只需建立命名规则及所属变电站即可很好匹配台账。站内变压器命名规则为变电站名数字编号#主变方式命名。
低压台变则以所供电区域命名,可分为专变和公变,如:电力小区专变、民政局公变等。实际上可通过增加供电变电站供电线路更好实现台账融合,因此本次提出以变电站名+供电线路名+名称+公变(专变)方式命名,由于大多***未对低压台变中增加变电站及线路名,因此对低压台变名称匹配时需提取台账表中供电线路字段进行匹配,再通过低压台变名称进行匹配,实现台账融合。可通过供电线路获取供电变电站名。
纠错措施。为防止人为输入错误导致匹配率降低问题,引入中文纠错应用于常规算法无法匹配的台账中。中文纠错以相近字,拼音等带来字词错误,可参考如下算法。
(1)名字距离相似性。基于距离求两个字符串的相似性,例如:10kV可靠线农家村公变和10kV可控变农家村公变,距离=2;10kV可靠线农家村公变与10kV可靠线农家村公变的距离=0,有了编辑距离,借助最长前缀匹配设定距离阀值,例如2个字,允许1个字不一样,6个字允许两个字不一样。
(2)基于拼音首字母纠错。汉字的输入错误大部分来自同音字。因而可基于全拼和首字母进行纠错,例如必须首字母相同:A***存在:可控变农家村公变的首字母为kkbnjcg,而B***存在:可控变那就村公变首字母kkbnjcgb首字母相同,则将认可是相同台账。
4、用户台账融合
电力***于用户侧覆盖安装较大规模的智能电能表、负控终端、电压监测仪、FTU等设备,数据分布于计量***、营销***、电压***等,因此用户是测点的一类。
用户属性分类方法较多,可按负荷类型、供电容量、负荷特性等分类,本方案将用户分为商业用户、工业用户及居民用户三类。
用户台账融合首先建立标准命名规则。工业用户及商业用户以注册企业名称命名,居民用户则以户主名字命名。
用户融合关键点以供电线路或低压台变及名称进行匹配融合。首先匹配其供电线路或低压台变名称,通过用户名称进行最终匹配。
纠错措施。为防止人为输入错误导致匹配率降低问题,引入中文纠错应用于常规算法无法匹配的台账中。中文纠错以相近字,拼音等带来字词错误,可参考如下算法。
(1)名字距离相似性。基于距离求两个字符串的相似性,例如:10kV可靠线农家村公变和10kV可控变农家村公变,距离=2;10kV可靠线农家村公变与10kV可靠线农家村公变的距离=0,有了编辑距离,借助最长前缀匹配设定距离阀值,例如2个字,允许1个字不一样,6个字允许两个字不一样。
(2)基于拼音首字母纠错。汉字的输入错误大部分来自同音字。因而可基于全拼和首字母进行纠错,例如必须首字母相同:A***存在:可控变农家村公变的首字母为kkbnjcgb,而B***存在:可控变那就村公变首字母kkbnjcgb首字母相同,则将认可是相同的测点对象。
步骤204、获取数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验数据对象组中各个测点台账数据的管理地域拓扑关系与数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从数据对象组中移除。
需要说明的是,针对低等级地域可能存在同名的情况,此时,则需要通过测点对象的地域管理拓扑进行校验筛查,具体的,获取通过二次匹配完成后的测点台账数据的管理地域拓扑关系数据,例如,A和B两个同等级的地域内都存在一个同名地区C,在A地域C地区的一个测点的数据对象组中,若在该数据对象组中检测到一个属于B地域的C地区测点,则将该B地域的测点数据从A地域C地区的数据对象组中移除。
步骤205、根据关键字元素和预置的数据命名模板,分别对同一数据对象组中的测点台账数据的命名信息进行统一更新。
需要说明的是,在二次匹配后,按照预置的数据命名模板和数据名关键字集合中的关键字信息对完成分类后的测点台账数据进行命名信息统一修正。确保相同测点对象的数据的命名信息保持一致。
步骤206、统计未合并到数据对象组的剩余测点台账数据,将剩余测点台账数据全部合并到未定义数据对象组。
需要说明的是,对于经过两次匹配均未成功匹配的测点台账数据,均放置于未定义数据对象组中由人工决定是否删除或纠正。
本申请通过关键字准确匹配和首字母模糊匹配结合的方式,先通过关键字提取,剔除数据命名信息中与地域信息及设备信息无关的标识字词,通过关键字比对进行初次数据匹配关联,接着在通过首字母匹配方式,对初次数据匹配不成功的数据进行二次模糊匹配,降低了因人为输入错误导致数据匹配失败,产生新的“数据孤岛”的概率,也解决了对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致的现有的因数据命名异常导致的“数据孤岛”的处理效率低的技术问题。同时本实施例还通过引入管理地域拓扑关系校验和剩余测点台账数据统计机制,进一步完善本实施例的用于解决数据命名异常导致的“数据孤岛”现象的数据融合方法。
以上为本申请提供的一种基于关键字搜索的电网台账数据融合方法的第二个实施例的详细说明,下面为本申请提供的一种基于关键字搜索的电网台账数据融合装置的一个实施例的详细说明。
请参阅图3,本申请实施例提供了一种基于关键字搜索的电网台账数据融合装置,包括:
预处理模块301,用于获取各个数据库平台中的测点台账数据,并对测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;
初次关联模块302,用于根据数据名关键字集合中的关键字元素,对各个数据名关键字集合进行初次匹配,将关键字匹配结果一致的测点台账数据关联到一个数据对象组;
二次关联模块303,用于提取未合并的数据名关键字集合的首字母,根据数据名关键字集合的首字母与各个数据对象组元素的首字母进行二次匹配,若数据名关键字集合的首字母与数据对象组元素的首字母的匹配结果为一致,则将数据名关键字集合添加到数据对象组中;
数据关联处理模块304,用于根据关键字元素和预置的数据命名模板,分别对同一数据对象组中的测点台账数据的命名信息进行统一更新。
更具体地,还包括:
校验模块305,用于获取数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验数据对象组中各个测点台账数据的管理地域拓扑关系与数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从数据对象组中移除。
更具体地,还包括:
剩余数据统计模块306,用于统计未合并到数据对象组的剩余测点台账数据,将剩余测点台账数据全部合并到未定义数据对象组。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种基于关键字搜索的电网台账数据融合方法,其特征在于,包括:
获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息;
根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;
提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;
获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除;
根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。
2.根据权利要求1所述的方法,其特征在于,所述分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新之后还包括:
统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。
3.根据权利要求1所述的方法,其特征在于,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。
4.一种基于关键字搜索的电网台账数据融合装置,其特征在于,包括:
预处理模块,用于获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息;
初次关联模块,用于根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;
二次关联模块,用于提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;
数据关联处理模块,用于根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新;
还包括:
校验模块,用于获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除。
5.根据权利要求4所述的装置,其特征在于,还包括:
剩余数据统计模块,用于统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。
6.根据权利要求4所述的装置,其特征在于,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。
CN201811640460.5A 2018-12-29 2018-12-29 一种基于关键字搜索的电网台账数据融合方法及装置 Active CN109710647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811640460.5A CN109710647B (zh) 2018-12-29 2018-12-29 一种基于关键字搜索的电网台账数据融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811640460.5A CN109710647B (zh) 2018-12-29 2018-12-29 一种基于关键字搜索的电网台账数据融合方法及装置

Publications (2)

Publication Number Publication Date
CN109710647A CN109710647A (zh) 2019-05-03
CN109710647B true CN109710647B (zh) 2021-06-25

Family

ID=66260238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811640460.5A Active CN109710647B (zh) 2018-12-29 2018-12-29 一种基于关键字搜索的电网台账数据融合方法及装置

Country Status (1)

Country Link
CN (1) CN109710647B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705230A (zh) * 2019-08-23 2020-01-17 国网浙江省电力有限公司杭州供电公司 一种基于检修作业行为感知的电子台账生成方法及***
CN111078683A (zh) * 2019-11-02 2020-04-28 国网辽宁省电力有限公司经济技术研究院 一种基于插值查找的电网台账数据填充与统计方法及装置
CN110909525A (zh) * 2019-11-19 2020-03-24 云南电网有限责任公司信息中心 一种实现台账信息自动比对的***及方法
CN111782704A (zh) * 2020-07-13 2020-10-16 广东电网有限责任公司电力调度控制中心 一种电子化移交中相似数据的推送方法和相关装置
CN112801817B (zh) * 2020-12-29 2023-07-21 广东电网有限责任公司电力科学研究院 一种电能质量数据中心构建方法及其***
CN113077236A (zh) * 2021-04-13 2021-07-06 国网新疆电力有限公司电力科学研究院 多***的电气二次设备台账数据的关联融合方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014046328A1 (ko) * 2012-09-20 2014-03-27 한국전력공사 계통 데이터 축약 시스템 및 그 방법
CN103902738A (zh) * 2014-04-21 2014-07-02 杭州东方通信软件技术有限公司 信息处理方法及***
CN104992382A (zh) * 2015-07-21 2015-10-21 国网天津市电力公司 一种面向配电网现状评估的数据融合方法
CN106503033A (zh) * 2016-09-14 2017-03-15 国网山东省电力公司青岛供电公司 一种配电网工单地址的检索方法和装置
CN106919663A (zh) * 2017-02-14 2017-07-04 华北电力大学 电力调控***多源异构数据融合中的字符串匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014046328A1 (ko) * 2012-09-20 2014-03-27 한국전력공사 계통 데이터 축약 시스템 및 그 방법
CN103902738A (zh) * 2014-04-21 2014-07-02 杭州东方通信软件技术有限公司 信息处理方法及***
CN104992382A (zh) * 2015-07-21 2015-10-21 国网天津市电力公司 一种面向配电网现状评估的数据融合方法
CN106503033A (zh) * 2016-09-14 2017-03-15 国网山东省电力公司青岛供电公司 一种配电网工单地址的检索方法和装置
CN106919663A (zh) * 2017-02-14 2017-07-04 华北电力大学 电力调控***多源异构数据融合中的字符串匹配方法

Also Published As

Publication number Publication date
CN109710647A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109710647B (zh) 一种基于关键字搜索的电网台账数据融合方法及装置
CN111768077B (zh) 一种基于知识图谱的电网跳闸事件智能识别方法
CN108549650B (zh) 一种智能变电站防误闭锁逻辑规则源端配置方法及***
CN105427039A (zh) 一种基于责任区的配电网抢修工单高效处理方法
CN111461520B (zh) 一种配网线路自动开关分布智能分析方法
CN104050605B (zh) 电力设备匹配方法和***
CN104463696A (zh) 电网运行风险识防方法及***
CN111241488A (zh) 一种基于全信息数据流的配网保护定值整定***
CN104881739B (zh) 一种基于iec61970/61968 cim标准的营配数据一致性校验方法
CN111861250A (zh) 一种调度决策生成方法、装置、电子设备和存储介质
CN115033704A (zh) 基于图数据库的配网故障预案知识图谱设计方法及***
CN111708817A (zh) 一种变电站监控信息的智能处置方法
CN104657814A (zh) 基于ems***的继电保护装置信号模板抽取定义方法
CN112148897A (zh) 一种电力***故障信息自动检索归类方法及***
CN112949271A (zh) 一种检修安全措施分析方法及***
CN112420042A (zh) 电力***的控制方法及装置
CN116109440A (zh) 基于图搜索的停电检修方式调整方案自动生成方法及装置
CN112821566B (zh) 一种配网故障遥控介入处理的智能统计方法及装置
CN114822592B (zh) 一种基于语音识别的变电站信号验收方法及***
CN113868821B (zh) 一种基于营配大数据融合的配网降损方法及终端机
CN111078683A (zh) 一种基于插值查找的电网台账数据填充与统计方法及装置
CN110633268A (zh) 配电线路自动化开关继电保护级差的配置***及配置方法
CN110502257A (zh) 一种变电站监控信息管控及核对方法
CN108335231A (zh) 一种自动匹配的配电网数据诊断方法
CN107748819A (zh) 一种基于自然语言处理的电气二次设备建模方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant