CN115757735A - 一种面向电网数字化建设成果资源的智能检索方法及*** - Google Patents
一种面向电网数字化建设成果资源的智能检索方法及*** Download PDFInfo
- Publication number
- CN115757735A CN115757735A CN202211474240.6A CN202211474240A CN115757735A CN 115757735 A CN115757735 A CN 115757735A CN 202211474240 A CN202211474240 A CN 202211474240A CN 115757735 A CN115757735 A CN 115757735A
- Authority
- CN
- China
- Prior art keywords
- power grid
- digital construction
- grid digital
- model
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向电网数字化建设成果资源的智能检索方法及***,包括:获取检索词句;将检索词句输入到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型,在深度网络联合模型中基于分词模型将检索词句进行分词处理得到语义特征,电网数字化建设成果知识图谱将语义特征经过深度网络推理得到赋予不同权重排序后的匹配结果;将匹配结果作为搜索结果输出。优点:将电网数字化建设成果这种非结构化的信息使用知识图谱关联建模,构建结构化的电网数字化建设成果知识图谱,能给业务人员提供更准确高效的搜索体验,能形成与检索关键词相关的业务数据展示,有效降低电网数字化建设成果资源的开放成本。
Description
技术领域
本发明涉及一种面向电网数字化建设成果资源的智能检索方法及***,属于自然语言处理技术领域。
背景技术
电网公司为了展示数字化建设成果全貌,将分散在云平台、数据中台、业务中台、技术中台等建设的基础设施、数据资源、共享服务、数据模型、算法模型、数字化应用、知识案例等数字化成果进行全量汇聚,设计科学的分级分类体系,形成统一服务窗口,已经接入了 TB 级的成果数量,但是这些数字化成果是非结构化的,以文档、视频等各种形式存在,基层业务人员难以准确搜索到成果并加以利用,传统的检索方式采用词语相似匹配度,业务人员使用传统检索方式查找所需成果存在“查询慢”、“获取难”的困局,导致各专业、部门的业务人员对数字化建设成果的学习成果较高。
随着人工智能领域的发展,深度网络逐步发挥更大的作用,知识图谱就是深度网络的一种表征形式,知识图谱以三元组形式存储实体的属性和关系,可以理解为一张由知识点相互连接而成的语义深度网络,可以用来更好的查询非结构化信息。例如申请号为CN202111540151.2的中国专利公开了一种基于知识图谱的智能搜索***,该专利使用二次训练三元组抽取模型的方法,使企业级搜索引擎更加智能化。又例如申请号为CN202111194340.9的中国专利公开了一种基于知识图谱的任务类智能对话构建方法,其减少意图及词槽的配置,方便不同任务之间的相关联性。可见,通过知识图谱建立业务与业务之间、业务与数据之间、数据与数据之间的关联关系,可有效支撑搜索大量非结构化数据的检索工作。电网数字化建设成果这种非结构化的数据亟需借助知识图谱等工具,实现智能高效、快捷灵活的信息检索。
采用传统检索方式检索电网数字化建设成果时,存在由于成果数据非结构化导致检索耗时多、不精确的问题,不满足用户便捷查找各类成果的需求。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种面向电网数字化建设成果资源的智能检索方法及***。
为解决上述技术问题,本发明提供一种面向电网数字化建设成果资源的智能检索方法,包括:
获取检索词句;
将检索词句输入到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型,在深度网络联合模型中基于分词模型将检索词句进行分词处理得到语义特征,电网数字化建设成果知识图谱将语义特征经过深度网络推理得到赋予不同权重排序后的匹配结果;
将匹配结果作为搜索结果输出。
进一步的,所述基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型的训练,包括:
所述分词模型采用BERT中文自然语言处理模型;
获取GCN预训练模型;
利用构建的电网数字化建设成果知识图谱数据集对BERT中文自然语言处理预训练模型与GCN预训练模型进行联合网络训练直至收敛,得到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型。
进一步的,所述电网数字化建设成果数据集的构建,包括:
根据业务需求梳理检索场景,收集检索案例;
以检索对应的成果本体对象为中心,确定中心与其他关联属性的拓扑结构,再与其他相关数据进行关联,形成以成果本体为核心、其他相关属性为枝叶的电网数字化建设成果知识图谱数据集。
进一步的,所述利用构建的电网数字化建设成果知识图谱数据集对BERT中文自然语言处理预训练模型与GCN预训练模型进行联合网络训练直至收敛,包括:
使用GCN预训练模型对电网数字化建设成果知识图谱数据集进行关系抽取,使用BERT中文自然语言处理模型将电网数字化建设成果知识图谱数据集的成果实体进行分词处理,再通过GCN预训练模型把成果的语义关系编码成向量,然后对编码后的数据集采用半监督学习模式,针对实体对中的节点进行训练,在计算损失函数时进行负采样,不断调优直至网络模型收敛。
一种面向电网数字化建设成果资源的智能检索***,包括:
获取模块,用于获取检索词句;
处理模块,用于将检索词句输入到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型,在深度网络联合模型中基于分词模型将检索词句进行分词处理得到语义特征,电网数字化建设成果知识图谱将语义特征经过深度网络推理得到赋予不同权重排序后的匹配结果;
输出模块,用于将匹配结果作为搜索结果输出。
一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
一种计算设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
本发明所达到的有益效果:
将电网数字化建设成果这种非结构化的信息使用知识图谱关联建模,构建结构化的电网数字化建设成果知识图谱,能给业务人员提供更准确高效的搜索体验,能形成与检索关键词相关的业务数据展示,本发明能有效降低电网数字化建设成果资源的开放成本,面向公司各单位、各级人员,充分释放已有建设成果的资源和能力,支撑快速搜索。
附图说明
图1为本发明的流程图;
图2为本发明中电网数字化建设成果知识图谱建模图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种面向电网数字化建设成果资源的智能检索方法,使用方式参见附图1,步骤如下:
步骤1:输入检索词句
步骤2:检索模块根据检索词句搜索成果
步骤3:输出搜索结果
进一步地,步骤2中所述的检索模块由基于BERT的分词模型和基于GCN的电网数字化建设成果知识图谱组成,检索模块的运行步骤为:
步骤(1):基于BERT的分词模型将检索词句进行分词处理得到语义特征
步骤(2):基于GCN的电网数字化建设成果知识图谱将语义特征经过深度网络推理,得到赋予不同权重排序后的匹配结果
进一步地,步骤(2)中所述的基于BERT的分词模型,其特征在于,BERT(Bidirectional Encoder Representation from Transformers)是自然语言处理学习表征中表现最好的预训练模型之一,拥有强大的语言表征能力和特征提取能力,本发明使用谷歌开源的基于BERT的中文预训练模型,TensorFlow版BERT-base-Chinese,依托于Huggingface-Transformers 3.1.0以及PaddleHub 来调用模型,BERT中文处理预训练模型能够有效将检索词句进行预处理,将与GCN预训练模型进行联合网络训练直至模型收敛,得到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型;GCN预训练模型特指预先训练设置好参数的简单框架模型,经过不同场景不同数据集的调优就成为训练好的模型,本发明才有TensorFlow版本的GCN预训练模型。
进一步地,步骤(2)中所述的基于GCN的电网数字化建设成果知识图谱,其特征在于,本发明使用半监督图卷积网络(GCN,Graph Convolutional Network)构建知识图谱,其输入是任意大小和形状的图,具体输入是节点和结构的特征向量,其目标是学习一种非线性公式来表示输入的特征,并生成节点级的输出。GCN可以将相邻关系节点的信息编码,并利用图形将结构和输入特征结合在一起,方便作用于后端的分类回归任务,能够降低知识图谱的运行成本。电网数字化建设成果知识图谱建模方式参见附图2,步骤如下:
步骤S1:检索案例收集
步骤S2:定义成果实体及标注属性关联信息,得到电网数字化建设成果知识图谱数据集;
步骤S3:使用深度网络对数据集进行处理训练,得到网络模型不断调优直到收敛;
步骤S4:检索服务上线测试
步骤S1中,根据业务需求梳理检索场景,收集大量检索案例。
步骤S2中,以检索对应的成果本体对象为中心,确定中心与其他关联属性(如成果目录、成果类型)的拓扑结构,再与其他相关数据(如应用场景、提报人)进行关联,形成以成果本体为核心、其他相关属性为枝叶的完整电网数字化建设成果知识图谱数据集。
步骤S3中,针对这个电网数字化建设成果知识图谱数据集,将基于BERT的中文处理预训练模型和GCN预训练模型进行联合训练,使用基于BERT的中文处理预训练模型将数据集的成果实体进行分词处理,再通过GCN预训练模型编码成向量,对编码后的数据集采用半监督学习模式,针对成果实体对中的节点进行训练,在计算损失函数时进行负采样,不断调优直至网络模型收敛,得到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型。
步骤S4中,将检索模型与业务***联调测试,持续完善。
应用实例:
参见附图2,构建检索模块
实际应用场景中,根据电网数字化建设成果资源的智能检索业务需求,开展以下工作:
(1)检索案例收集:
根据业务需求梳理检索场景,举例如下:
a.江苏省访问量最高的成果;
b.评分最高的组件应用;
c.甘肃电网资源业务中台的停电申请单检修;
d.湖南基础设施;
e. ……。
(2)定义成果实体及标注属性关联信息:
根据检索词句列表,梳理相匹配的成果,确定参数实体,对成果的相关属性进行定义标注,如:江苏省访问量最高的成果,搜索数据对应成果为【江苏无人机】,根据***中的成果信息,将成果实体参数及相关属性定义为:江苏省电力公司(组织机构)-党组办公室(部门)-无人机(成果名称)-数字化应用(成果目录)-平台应用(成果类型),如附图2以此类推,根据***内部提供的成果数据,本发明标注了1805个检索案例数,定义了66317个成果实体,得到电网数字化建设成果知识图谱数据集。
(3)构建知识图谱与模型训练调优:
针对这个电网数字化建设成果知识图谱本文集,将基于BERT的中文处理预训练模型和GCN预训练模型进行联合训练,迭代运算直到深度网络模型收敛,得到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型。
(4)检索服务上线测试:
服务上线,与业务***联调测试,持续调优问题。
展示检索示例:
示例: 输入【江苏无人机】,排序后的检索结果:
(1)匹配江苏成果名称是无人机的成果;
(2)匹配成果名称包含“江苏无人机”的成果;
(3)匹配成果描述包含‘江苏无人机’,成果名称包含‘无人机’的成果;
(4)匹配组织机构包含‘江苏’,成果名称包含‘无人机’的成果;
(5)匹配应用场景是‘江苏无人机’的成果;
(6).......。
通过上述实施例可见,本发明构建了电网数字化建设成果知识图谱,融合了深度网络给能够有效地对非结构化的电网数字化建设成果资源进行精确的检索,为业务人员探索公司数字化成果提供了便利,降低了学习成本。
相应的本发明还提供一种面向电网数字化建设成果资源的智能检索***,包括:
获取模块,用于获取检索词句;
处理模块,用于将检索词句输入到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型,在深度网络联合模型中基于分词模型将检索词句进行分词处理得到语义特征,电网数字化建设成果知识图谱将语义特征经过深度网络推理得到赋予不同权重排序后的匹配结果;
输出模块,用于将匹配结果作为搜索结果输出。
相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
相应的本发明还提供一种计算设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种面向电网数字化建设成果资源的智能检索方法,其特征在于,包括:
获取检索词句;
将检索词句输入到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型,在深度网络联合模型中基于分词模型将检索词句进行分词处理得到语义特征,电网数字化建设成果知识图谱将语义特征经过深度网络推理得到赋予不同权重排序后的匹配结果;
将匹配结果作为搜索结果输出。
2.根据权利要求1所述的面向电网数字化建设成果资源的智能检索方法,其特征在于,所述基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型的训练,包括:
所述分词模型采用BERT中文自然语言处理模型;
获取GCN预训练模型;
利用构建的电网数字化建设成果知识图谱数据集对BERT中文自然语言处理预训练模型与GCN预训练模型进行联合网络训练直至收敛,得到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型。
3.根据权利要求2所述的面向电网数字化建设成果资源的智能检索方法,其特征在于,所述电网数字化建设成果数据集的构建,包括:
根据业务需求梳理检索场景,收集检索案例;
以检索对应的成果本体对象为中心,确定中心与其他关联属性的拓扑结构,再与其他相关数据进行关联,形成以成果本体为核心、其他相关属性为枝叶的电网数字化建设成果知识图谱数据集。
4.根据权利要求2所述的面向电网数字化建设成果资源的智能检索方法,其特征在于,所述利用构建的电网数字化建设成果知识图谱数据集对BERT中文自然语言处理预训练模型与GCN预训练模型进行联合网络训练直至收敛,包括:
使用GCN预训练模型对电网数字化建设成果知识图谱数据集进行关系抽取,使用BERT中文自然语言处理模型将电网数字化建设成果知识图谱数据集的成果实体进行分词处理,再通过GCN预训练模型把成果的语义关系编码成向量,然后对编码后的数据集采用半监督学习模式,针对实体对中的节点进行训练,在计算损失函数时进行负采样,不断调优直至网络模型收敛。
5.一种面向电网数字化建设成果资源的智能检索***,其特征在于,包括:
获取模块,用于获取检索词句;
处理模块,用于将检索词句输入到训练好的基于分词模型和电网数字化建设成果知识图谱的深度网络联合模型,在深度网络联合模型中基于分词模型将检索词句进行分词处理得到语义特征,电网数字化建设成果知识图谱将语义特征经过深度网络推理得到赋予不同权重排序后的匹配结果;
输出模块,用于将匹配结果作为搜索结果输出。
6.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。
7.一种计算设备,其特征在于,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211474240.6A CN115757735A (zh) | 2022-11-23 | 2022-11-23 | 一种面向电网数字化建设成果资源的智能检索方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211474240.6A CN115757735A (zh) | 2022-11-23 | 2022-11-23 | 一种面向电网数字化建设成果资源的智能检索方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757735A true CN115757735A (zh) | 2023-03-07 |
Family
ID=85335965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211474240.6A Pending CN115757735A (zh) | 2022-11-23 | 2022-11-23 | 一种面向电网数字化建设成果资源的智能检索方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757735A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823193A (zh) * | 2023-08-31 | 2023-09-29 | 深圳市永迦电子科技有限公司 | 基于大数据的智能制造流程管理*** |
-
2022
- 2022-11-23 CN CN202211474240.6A patent/CN115757735A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823193A (zh) * | 2023-08-31 | 2023-09-29 | 深圳市永迦电子科技有限公司 | 基于大数据的智能制造流程管理*** |
CN116823193B (zh) * | 2023-08-31 | 2023-11-03 | 深圳市永迦电子科技有限公司 | 基于大数据的智能制造流程管理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114691831B (zh) | 一种基于知识图谱的任务型汽车故障智能问答*** | |
CN108664599A (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN109542247A (zh) | 句式推荐方法及装置、电子设备、存储介质 | |
CN116991869A (zh) | 一种基于nlp语言模型自动生成数据库查询语句的方法 | |
CN112100397A (zh) | 基于双向门控循环单元的电力预案知识图谱构建方法及*** | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN112100506B (zh) | 信息推送方法、***、设备及存储介质 | |
CN112632239A (zh) | 基于人工智能技术的类脑问答*** | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及*** | |
CN115757735A (zh) | 一种面向电网数字化建设成果资源的智能检索方法及*** | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和*** | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、***及电子设备 | |
Wu et al. | A summary of the latest research on knowledge graph technology | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
CN113095068A (zh) | 基于权重字典的情感分析方法、***、装置及存储介质 | |
CN113434658A (zh) | 火电机组运行问答生成方法、***、设备及可读存储介质 | |
CN112507131A (zh) | 一种电力调度知识图谱构建方法、设备及*** | |
Yan et al. | Implementation of Intelligent Q&A System for Electric Power Knowledge Based on Knowledge Graph | |
Yang et al. | Construction and analysis of scientific and technological personnel relational graph for group recognition | |
CN117891960B (zh) | 基于自适应梯度调制的多模态哈希检索方法和*** | |
CN111339239B (zh) | 知识检索方法及装置、存储介质、服务器 | |
Zhou et al. | Application Research of a Practical and New Intelligent Question Answering System | |
Deng et al. | An Artificial Intelligence Model Recommendation Method for Power Dispatching Scenario Based on Knowledge Graph and Scene Label Matching | |
Liu et al. | Research and application of intelligent search for knowledge graph of power grid dispatch and control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |