CN115757585A - 一种企业知识库数据储存方法、装置及存储介质 - Google Patents

一种企业知识库数据储存方法、装置及存储介质 Download PDF

Info

Publication number
CN115757585A
CN115757585A CN202211512598.3A CN202211512598A CN115757585A CN 115757585 A CN115757585 A CN 115757585A CN 202211512598 A CN202211512598 A CN 202211512598A CN 115757585 A CN115757585 A CN 115757585A
Authority
CN
China
Prior art keywords
knowledge
knowledge base
keywords
data
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211512598.3A
Other languages
English (en)
Inventor
马艳洁
陆岫昶
鲍晨漪
易也
陈运晶
钱俊凤
纪元
周玲
娄方桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202211512598.3A priority Critical patent/CN115757585A/zh
Publication of CN115757585A publication Critical patent/CN115757585A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用于企业的数据处理技术领域,特别是涉及一种企业知识库数据储存方法、装置及存储介质。方法包括筛选素材文本,产生多个关键词,对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,形成多个知识数据;根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库;所述子知识库能够根据输入的关键词选择检索策略并输出给用户。能够为信息化项目、运维、客服人员提供知识搜索、知识图谱、智能应答等功能,提升信息化整体解决能力,提高解决效率。

Description

一种企业知识库数据储存方法、装置及存储介质
技术领域
本发明涉及用于企业的数据处理技术领域,特别是涉及一种企业知识库数据储存方法、装置及存储介质。
背景技术
随着互联网的兴起,大数据时代的到来,数据、算力、模型的飞速发展,以知识图谱为代表的大数据知识工程应运而生。2012年,谷歌率先推出了面向搜索的大规模知识图谱。发展至今日,知识图谱已发展为人工智能范畴中的一种技术体系,本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。知识图谱在数据分析、智慧搜索、智能推荐、自然人机交互、决策支持等应用方面有突出表现。
公司数字化转型工作涉及到信息化项目建设、信息***运维、信息专业客服等领域,并配套印发了相应制度。公司每年信息化项目数量多,建设的***功能繁杂,同时衍生出大量运维及客服工作。
大量的信息化项目、信息***运维、信息***客服的数据和文档分散在各个信息***或线下,难以统一收集管理,更无法***地从中提取归纳出需要的信息及关系,由此将出现项目立项内容重复、运维客服问题解决经验难以传递、客服问题无法高效解决等问题。
针对以上问题,亟需以知识管理工具为基础建设一套知识图谱及智慧搜索***,为信息化项目、运维、客服人员提供知识搜索、知识图谱、智能应答等功能,提升信息化整体解决能力,提高解决效率。
发明内容
本发明要解决的技术问题是:提供一种企业知识库数据储存方法、装置及存储介质,以克服现有技术的不足。
本发明的技术方案是:
一方面,本发明公开了一种企业知识库数据储存方法,包括:
筛选素材文本,产生多个关键词,所述关键词是待建知识库所涉及的业务中多次出现的关键词;
对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,以及根据多个关键词共同出现的词频进行关联形成关联词组;
将所述关键词和所述关联词组进行扩展,形成多个知识数据;
根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库;
所述子知识库能够根据输入的关键词选择检索策略并输出给用户。
优选地,还包括在所述建子知识库过程中检测当前子知识库与其他业务的子知识库的知识数据是否关联,并生成关系信息,以及检测各知识库中是否存在矛盾的知识,若有,则进行标记进行人工研判。
优选地,所述关键词和所述关联词组进行扩展包括对同义词、相关词、简写、错字进行扩展,并以扩展后的所述关键词和所述关联词组作为要素收集知识库中包含所述要素的至少一个问题,并与所述问题的答案形成所述知识数据。
进一步地,所述根据知识库构架模型构建子知识库包括:
列表类知识库架构模型;所述列表类知识库架构模型通过构建列表类知识集合进行构建;
概念类知识库架构模型;所述概念类知识库架构模型通过构建概念类知识集合进行构建;
FAQ类知识库架构模型;所述FAQ类知识库架构模型通过构建FAQ类知识集合进行构建。
进一步地,所述列表类知识集合包括列表类问答,包括至少一个标准问题和至少一个标准答案,并根据问答中的关键词扩展,共同形成所述列表类知识集合;
所述概念类知识集合包括至少一个标准问题和至少一个标准答案,以及标准问题和标准答案的扩展概念,共同形成所述概念类知识集合;
所述FAQ类知识集合包至少一个标准问题和至少一个标准答案,以及至少一个由标准问题和标准答案扩展的问题。
第二方面,本发明公开了一种企业知识库数据储存装置,包括:
生成模块,用于筛选素材文本,产生多个关键词,所述关键词是待建知识库所涉及的业务中多次出现的关键词;并对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,以及根据多个关键词共同出现的词频进行关联形成关联词组;再将所述关键词和所述关联词组进行扩展,形成多个知识数据。
优选地,还包括构建模块,用于根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库,其中所述知识库架构模型包括:列表类知识库架构模型、概念类知识库架构模型和FAQ类知识库架构模型。
优选地,还包括判断模块,用于在所述建子知识库过程中检测当前子知识库与其他业务的子知识库的知识数据是否关联,并生成关系信息,以及检测各知识库中是否存在矛盾的知识,若有,则进行标记进行人工研判。
优选地,还包括输出模块。用于根据输入的关键词选择检索策略并输出给用户。
第三方面,本发明还公开了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行如上述中任意一项所述的企业知识库储存方法。
本发明的有益效果是:与现有技术相比,通过将知识库划分为不同类型的子知识库,每个子知识库具有对应不同的架构模型和对应的架构规则,进而可利用不同的架构规则构建相应的子知识库,从而有效避免相同语句和词汇的重复录入,提高存储器的存储空间的利用率,并且有效降低工作人员录入量。更为主要的是通过不同类型的子知识库实现针对不同用户的优化输出结果,提高准确率的同时避免产生矛盾点。
附图说明
图1是根据本发明实施例的流程图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体实施方式对上述技术方案进行详细说明。
实施实例1:
参考图1,本发明提供了一种企业知识库数据储存方法,包括:
筛选素材文本,产生多个关键词,所述关键词是待建知识库所涉及的业务中多次出现的关键词;
对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,以及根据多个关键词共同出现的词频进行关联形成关联词组;
将所述关键词和所述关联词组进行扩展,形成多个知识数据;
根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库;
所述子知识库能够根据输入的关键词选择检索策略并输出给用户。
所述业务区域可分为:综合知识区域:要求输入关键字在知识库中进行全局知识搜索,支持全文检索功能,高亮显示匹配关键字或摘要内容;项目知识区域:要求信息化项目实体及相关文档专用查询场景,根据输入关键字以信息化项目实体或相关文档知识范围内的文档知识进行检索,支持全文检索功能,高亮显示匹配关键字或摘要内容;制度知识区域:要求信息化制度相关文档专用查询场景,根据输入关键字以信息化制度相关文档知识范围内的文档知识进行检索,支持全文检索功能,高亮显示匹配关键字或摘要内容;客服知识区域:要求客服等数字化业务知识专用查询场景,根据输入关键字和客服等数字化业务相关文档知识范围内的文档知识进行检索,支持全文检索功能,高亮显示匹配关键字或摘要内容,支持按文档存放路径进行文档查找;运维知识区域:信息化***运维知识搜索相关文档专用查询场景,根据输入关键字以信息化***运维相关文档知识范围内的文档知识进行检索,支持全文检索功能,高亮显示匹配关键字或摘要内容,支持按文档存放路径进行文档查找;等等。
优选地,还包括在所述建子知识库过程中检测当前子知识库与其他业务的子知识库的知识数据是否关联,并生成关系信息,以及检测各知识库中是否存在矛盾的知识,若有,则进行标记进行人工研判。
优选地,所述关键词和所述关联词组进行扩展包括对同义词、相关词、简写、错字进行扩展,并以扩展后的所述关键词和所述关联词组作为要素收集知识库中包含所述要素的至少一个问题,并与所述问题的答案形成所述知识数据。
进一步地,所述根据知识库构架模型构建子知识库包括:
列表类知识库架构模型;所述列表类知识库架构模型通过构建列表类知识集合进行构建;
概念类知识库架构模型;所述概念类知识库架构模型通过构建概念类知识集合进行构建;
FAQ类知识库架构模型;所述FAQ类知识库架构模型通过构建FAQ类知识集合进行构建。
进一步地,所述列表类知识集合包括列表类问答,包括至少一个标准问题和至少一个标准答案,并根据问答中的关键词扩展,共同形成所述列表类知识集合;
所述概念类知识集合包括至少一个标准问题和至少一个标准答案,以及标准问题和标准答案的扩展概念,共同形成所述概念类知识集合,将有效概念存储至概念扩展集后,工作人员无需在概念扩展集中录入标准问题的有效概念,从而减少词语的重复出现,提高存储器的存储空间的利用率,并且有效降低工作人员的录入量;
所述FAQ类知识集合包至少一个标准问题和至少一个标准答案,以及至少一个由标准问题和标准答案扩展的问题,FAQ类知识架构模型适用于常用的知识点,例如:“如何办理过户”等。这一类知识往往不需要复杂的逻辑和要素补充,因此,一个标准问和若干个扩展问对应一个答案即可。
实施实例2:
本发明还公开了一种企业知识库数据储存装置,包括:
生成模块,用于筛选素材文本,产生多个关键词,所述关键词是待建知识库所涉及的业务中多次出现的关键词;并对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,以及根据多个关键词共同出现的词频进行关联形成关联词组;再将所述关键词和所述关联词组进行扩展,形成多个知识数据。
进一步地,还包括构建模块,用于根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库,其中所述知识库架构模型包括:列表类知识库架构模型、概念类知识库架构模型和FAQ类知识库架构模型。子知识库构架模型包括要素类知识库架构模型、列表类知识库架构模型、概念类知识库架构模型和FAQ类知识库架构模型等。要素类知识库架构模型适用于每个知识点含有多个要素,且每个知识点的一个或多个要素不同的情况;列表类知识库架构模型适用于一个知识点的问题中含有较多同位概念的情况;概念类知识库架构模型适用于知识点的标准问题和扩展问题的重复词汇较多的情况;FAQ类知识库架构模型适用于常用知识点的情况。上述四种初始请求信息类型可涵盖大多数的知识信息,满足问答***的知识库的应用需求。并且将知识库划分为不同类型的子知识库,每个子知识库具有对应不同的架构模型和对应的架构规则,工作人员在对知识库进行扩充时,仅需增加子知识库类型,无需更改整个知识库构架,也便于工作人员对知识库进一步完善。工作人员可通过电脑等终端设备的显示界面的按钮等形式,发送初始请求信息。
进一步地,还包括判断模块,用于在所述建子知识库过程中检测当前子知识库与其他业务的子知识库的知识数据是否关联,并生成关系信息,以及检测各知识库中是否存在矛盾的知识,若有,则进行标记进行人工研判。
进一步地,还包括输出模块。用于根据输入的关键词选择检索策略并输出给用户。
实施实例3:
本发明提供了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行如上述中任意一项所述的企业知识库储存方法。
由以上技术方案可知,本申请实施例提供一种知识库的构建方法及装置,将知识库划分为不同类型的子知识库,每个子知识库具有对应不同的架构模型和对应的架构规则,进而可利用不同的架构规则构建相应的子知识库,从而有效避免相同语句和词汇的重复录入,减少存储器的存储空间。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种企业知识库数据储存方法,其特征在于,包括:
筛选素材文本,产生多个关键词,所述关键词是待建知识库所涉及的业务中多次出现的关键词;
对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,以及根据多个关键词共同出现的词频进行关联形成关联词组;
将所述关键词和所述关联词组进行扩展,形成多个知识数据;
根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库;
所述子知识库能够根据输入的关键词选择检索策略并输出给用户。
2.根据权利要求1所述的企业知识库数据储存方法,其特征在于,还包括在所述建子知识库过程中检测当前子知识库与其他业务的子知识库的知识数据是否关联,并生成关系信息,以及检测各知识库中是否存在矛盾的知识,若有,则进行标记进行人工研判。
3.根据权利要求1的企业知识库数据储存方法,其特征在于,所述关键词和所述关联词组进行扩展包括对同义词、相关词、简写、错字进行扩展,并以扩展后的所述关键词和所述关联词组作为要素收集知识库中包含所述要素的至少一个问题,并与所述问题的答案形成所述知识数据。
4.根据权利要求3的企业知识库数据储存方法,其特征在于,所述根据知识库构架模型构建子知识库包括:
列表类知识库架构模型;所述列表类知识库架构模型通过构建列表类知识集合进行构建;
概念类知识库架构模型;所述概念类知识库架构模型通过构建概念类知识集合进行构建;
FAQ类知识库架构模型;所述FAQ类知识库架构模型通过构建FAQ类知识集合进行构建。
5.根据权利要求4的企业知识库数据储存方法,其特征在于,所述列表类知识集合包括列表类问答,包括至少一个标准问题和至少一个标准答案,并根据问答中的关键词扩展,共同形成所述列表类知识集合;
所述概念类知识集合包括至少一个标准问题和至少一个标准答案,以及标准问题和标准答案的扩展概念,共同形成所述概念类知识集合;
所述FAQ类知识集合包至少一个标准问题和至少一个标准答案,以及至少一个由标准问题和标准答案扩展的问题。
6.一种企业知识库数据储存装置,其特征在于,包括:
生成模块,用于筛选素材文本,产生多个关键词,所述关键词是待建知识库所涉及的业务中多次出现的关键词;并对所述关键词进行关联处理,根据所述关键词在不同业务内的词频进行归类,以及根据多个关键词共同出现的词频进行关联形成关联词组;再将所述关键词和所述关联词组进行扩展,形成多个知识数据。
7.根据权利要求6的企业知识库数据储存装置,其特征在于,还包括构建模块,用于根据知识数据的关键词或关联词组识别知识数据的业务区域,并根据知识库构架模型构建子知识库,其中所述知识库架构模型包括:列表类知识库架构模型、概念类知识库架构模型和FAQ类知识库架构模型。
8.根据权利要求6的企业知识库数据储存装置,其特征在于,还包括判断模块,用于在所述建子知识库过程中检测当前子知识库与其他业务的子知识库的知识数据是否关联,并生成关系信息,以及检测各知识库中是否存在矛盾的知识,若有,则进行标记进行人工研判。
9.根据权利要求6的企业知识库数据储存装置,其特征在于,还包括输出模块,
用于根据输入的关键词选择检索策略并输出给用户。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行如权利要求1至9中任意一项所述的企业知识库储存方法。
CN202211512598.3A 2022-11-28 2022-11-28 一种企业知识库数据储存方法、装置及存储介质 Pending CN115757585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211512598.3A CN115757585A (zh) 2022-11-28 2022-11-28 一种企业知识库数据储存方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211512598.3A CN115757585A (zh) 2022-11-28 2022-11-28 一种企业知识库数据储存方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115757585A true CN115757585A (zh) 2023-03-07

Family

ID=85340442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211512598.3A Pending CN115757585A (zh) 2022-11-28 2022-11-28 一种企业知识库数据储存方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115757585A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093884A (zh) * 2024-04-27 2024-05-28 深圳品阔信息技术有限公司 基于关键词匹配的文本聚类方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093884A (zh) * 2024-04-27 2024-05-28 深圳品阔信息技术有限公司 基于关键词匹配的文本聚类方法及***

Similar Documents

Publication Publication Date Title
Hao et al. Integrating and navigating engineering design decision-related knowledge using decision knowledge graph
US20080005094A1 (en) Method and system for finding the focus of a document
CN111694965A (zh) 一种基于多模态知识图谱的图像场景检索***及方法
CN116911312B (zh) 一种任务型对话***及其实现方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
CN112632239A (zh) 基于人工智能技术的类脑问答***
CN115757689A (zh) 一种信息查询***、方法及设备
CN113297251A (zh) 多源数据检索方法、装置、设备及存储介质
CN113946686A (zh) 电力营销知识图谱构建方法及***
CN117312531A (zh) 知识图谱增强的基于大语言模型配电网故障归因分析方法
CN112000790A (zh) 一种法律文本精确检索方法、终端***和可读存储介质
Kim et al. i-Dataquest: A heterogeneous information retrieval tool using data graph for the manufacturing industry
CN115757585A (zh) 一种企业知识库数据储存方法、装置及存储介质
CN111126073B (zh) 语义检索方法和装置
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
Richter et al. HeidelPlace: An extensible framework for geoparsing
Markovets et al. Stages of implementation of citizens' appeals processing system in heterogeneous web environments
CN110688559A (zh) 一种检索方法及装置
CN116467291A (zh) 一种知识图谱存储与搜索方法及***
CN115495545A (zh) 一种电网运行全景模型检索方法及电子设备、存储介质
Iftikhar et al. Domain specific query generation from natural language text
CN115617973A (zh) 一种基于智能数据处理的信息获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination