CN112749284A - 知识图谱构建方法、装置、设备及存储介质 - Google Patents

知识图谱构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112749284A
CN112749284A CN202011635788.5A CN202011635788A CN112749284A CN 112749284 A CN112749284 A CN 112749284A CN 202011635788 A CN202011635788 A CN 202011635788A CN 112749284 A CN112749284 A CN 112749284A
Authority
CN
China
Prior art keywords
key
service
knowledge
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011635788.5A
Other languages
English (en)
Other versions
CN112749284B (zh
Inventor
杜振中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011635788.5A priority Critical patent/CN112749284B/zh
Publication of CN112749284A publication Critical patent/CN112749284A/zh
Application granted granted Critical
Publication of CN112749284B publication Critical patent/CN112749284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析领域,公开了一种知识图谱构建方法、装置、设备及存储介质,用于针对特定业务领域进行知识图谱的自动构建。知识图谱构建方法包括:调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;将各类型业务的业务文本输入专名识别模型中,得到关键名词集;根据关键名词集,在信息数据库中获取关键名词集中各关键名词之间的实体关系;调用文本分类模型,分析关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系,得到选定的业务类型的知识图谱。此外,本发明还涉及区块链技术,知识图谱的相关信息可存储于区块链中。

Description

知识图谱构建方法、装置、设备及存储介质
技术领域
本发明涉及数据分析领域,尤其涉及一种知识图谱构建方法、装置、设备及存储介质。
背景技术
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,是一种由关系、实体与属性构成的结构化知识组织结构,实现后可被广泛应用到语义搜索、智能问答、个性化推荐等众多领域。
现有技术中,主流知识图谱知识领域覆盖大,存在大量与所需领域无关的知识,基于这些知识图谱进行实际应用,会造成效率与精确度低下;手工构建知识图谱会耗费大量人力物力,而且难以随着知识的变化而进行更新与拓展;没有能够针对当前所需领域自动进行知识图谱构建的方法。
发明内容
本发明的主要目的在于解决现有的知识图谱构建方法不能针对所需领域自动构建知识图谱的问题。
本发明第一方面提供了一种知识图谱构建方法,包括:
调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系;
调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱。
可选的,在本发明第一方面的第一种实现方式中,所述调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本包括:
向所述业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
根据所述目标网站源代码下载所述目标网站中的页面数据;
对所述页面数据中的内容进行识别,得到不同类型的业务的业务文本。
可选的,在本发明第一方面的第二种实现方式中,在所述将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集之前,还包括:
收集文本语料信息;
将所述文本语料信息中的词语进行标注,将标注后的文本语料信息进行分句与重组,得到文本语料训练集;
调用所述文本语料训练集对所述深度学习模型进行训练,得到专名识别模型。
可选的,在本发明第一方面的第三种实现方式中,在所述调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与对应的业务的相关性,得到分析结果之前,还包括:
收集所述选定的业务类型的业务语料,对所述业务语料进行业务分类标签的标注,得到语料分类训练集;
获取Bert预训练模型,将所述语料分类训练集作为Bert预训练模型的新增输入向量,对所述Bert预训练模型进行微调训练,得到训练完毕的文本分类模型。
可选的,在本发明第一方面的第四种实现方式中,在所述获取Bert预训练模型,将所述语料分类训练集作为Bert预训练模型的新增输入向量,对所述Bert预训练模型进行微调训练,得到训练完毕的文本分类模型之前,还包括:
调用所述文本语料训练集对双通道Transformer模型进行预训练,得到初始参数;
将所述初始参数保存,得到Bert预训练模型。
可选的,在本发明第一方面的第五种实现方式中,在所述根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系之前,还包括:
获取至少一个知识资源网站,其中,所述知识资源网站包括百度百科、中国知网以及MBA智库;
调用信息爬虫工具对所述至少一个知识资源网站知识资源网站进行爬取,得到所述至少一个知识资源网站知识资源网站中的数据信息;
根据所述数据信息,构建信息数据库。
可选的,在本发明第一方面的第六种实现方式中,在所述根据所述分析结果,将与对应的业务无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到业务知识图谱之后,还包括:
基于接收到的知识图谱更新请求,调用信息爬虫工具从业务数据库中获取不同类型的业务的新增业务文本;
将所述各类型业务的新增业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到新增关键名词集;
根据所述新增关键名词集,在预设的信息数据库中获取所述新增关键名词集中各新增关键名词之间的实体关系;
调用预先建立的文本分类模型,分析所述新增关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
根据所述分析结果,将与所述选定的业务类型无关的新增关键名词从所述新增关键名词集中剔除,并删除对应的实体关系,更新所述选定的业务类型的知识图谱。
本发明第二方面提供了一种知识图谱构建装置,包括:
文本获取模块,用于调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
名词提取模块,用于将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
实体关系获取模块,用于根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系;
相关性分析模块,用于调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
知识图谱建立模块,用于根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱。
可选的,在本发明第二方面的第一种实现方式中,所述文本获取模块包括:
源代码获取单元,用于向所述业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
数据下载单元,用于根据所述目标网站源代码下载所述目标网站中的页面数据;
业务文本识别单元,用于对所述页面数据中的内容进行识别,得到不同类型的业务的业务文本。
可选的,在本发明第二方面的第二种实现方式中,所述知识图谱构建装置还包括专名识别训练模块,所述专名识别训练模块具体包括:
文本语料收集单元,用于收集文本语料信息;
文本语料训练集构建单元,用于将所述文本语料信息中的词语进行标注,将标注后的文本语料信息进行分句与重组,得到文本语料训练集;
训练单元,用于调用所述文本语料训练集对所述深度学习模型进行训练,得到专名识别模型。
可选的,在本发明第二方面的第三种实现方式中,所述知识图谱构建装置还包括信息数据库构建模块,所述信息数据库构建模块包括:
知识资源网站获取单元,用于获取至少一个知识资源网站,其中,所述知识资源网站包括百度百科、中国知网以及MBA智库;
数据信息爬取单元,用于调用信息爬虫工具对所述至少一个知识资源网站进行爬取,得到所述至少一个知识资源网站中的数据信息;
信息数据库构建单元,用于根据所述数据信息,构建信息数据库。
可选的,在本发明第二方面的第四种实现方式中,所述知识图谱构建装置还包括Bert微调训练模块,所述Bert微调训练模块具体包括:
业务语料收集单元,用于收集所述选定的业务类型的业务语料,对所述业务语料进行业务分类标签的标注,得到语料分类训练集;
微调训练单元,用于获取Bert预训练模型,将所述语料分类训练集作为Bert预训练模型的新增输入向量,对所述Bert预训练模型进行微调训练,得到训练完毕的文本分类模型。
可选的,在本发明第二方面的第五种实现方式中,所述知识图谱构建装置还包括Bert预训练模块,所述Bert预训练模块具体用于:
调用所述文本语料训练集对双通道Transformer模型进行预训练,得到初始参数;将所述初始参数进行保存,得到Bert预训练模型。
可选的,在本发明第二方面的第六种实现方式中,所述知识图谱构建装置还包括知识图谱更新模块,所述知识图谱更新模块具体用于:
基于接收到的知识图谱更新请求,调用信息爬虫工具从业务数据库中获取不同类型的业务的新增业务文本;将所述各类型业务的新增业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到新增关键名词集;根据所述新增关键名词集,在预设的信息数据库中获取所述新增关键名词集中各新增关键名词之间的实体关系;调用预先建立的文本分类模型,分析所述新增关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;根据所述分析结果,将与所述选定的业务类型无关的新增关键名词从所述新增关键名词集中剔除,并删除对应的实体关系,更新所述选定的业务类型的知识图谱。
本发明第三方面提供了一种知识图谱构建设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述知识图谱构建设备执行上述的知识图谱构建方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的知识图谱构建方法的步骤。
本发明提供的技术方案中,调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;将各类型业务的业务文本输入专名识别模型中,得到关键名词集;根据关键名词集,在信息数据库中获取关键名词集中各关键名词之间的实体关系;调用文本分类模型,分析关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系,得到选定的业务类型的知识图谱。
本发明实施例中,能够自动收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作。
附图说明
图1为本发明实施例中知识图谱构建方法的一个实施例示意图;
图2为本发明实施例中知识图谱构建方法的另一个实施例示意图;
图3为本发明实施例中知识图谱构建方法的另一个实施例示意图;
图4为本发明实施例中知识图谱构建方法的另一个实施例示意图;
图5为本发明实施例中知识图谱构建装置的一个实施例示意图;
图6为本发明实施例中知识图谱构建装置的另一个实施例示意图;
图7为本发明实施例中知识图谱构建设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种知识图谱构建方法、装置、设备及存储介质,能够自动收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中知识图谱构建方法的一个实施例包括:
101、调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
可以理解的是,本发明的执行主体可以为知识图谱构建装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
为完成知识图谱的自动构建,首先要获取业务数据库,其中,业务数据库中包含有不同类型业务的业务文本。具体地,可以通过收集相关网站组成业务数据库,例如,保险相关网站包括保险业相关论坛、新闻网站或门户网站中的保险行业有关的分区板块等,将这些网站收集后,将这些网站归类并记录这些网站的相关URL(uniform resource locator;统一资源定位***),其中,URL是因特网的万维网服务程序上用于指定信息位置的表示方法;将这些网站以及相关URL组成业务数据库。也可以利用关键词等进行自动搜索,搜索整理后得到业务数据库。
获取到业务数据库后,调用信息爬虫工具对业务数据库中的网页内容进行爬取。信息爬虫工具一般指网络爬虫(Web Crawler),又被称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
调用信息爬虫工具根据业务数据库中各网站的URL地址对网站各页面上的文本数据进行爬取,其中各网站页面上的文本数据包括网页中包含的表格中的结构化文本和网页文字中的非结构化文本等数据。
这些网站页面上的数据中包括不同业务类型的业务文本,在本提案中,根据需要获取的业务只是图谱的业务类型,可以在根据需要调整业务数据库中的网站,如需要获取保险领域的业务文本时,可以在业务数据库中增加保险业相关论坛或新闻的网页内容。调用信息爬虫工具对这些文本进行爬取,得到业务文本,并将爬取到的业务文本进行保存。
102、将各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
在上步骤中调用信息爬虫工具获取到一定量的各种类型的业务文本后,接下来调用预先建立好的专名识别模型对各类型的业务文本进行名词提取。其中,专名识别(NameEntity Recognition,NER),也称作"命名实体识别",是指对文本中具有特定意义的实体,包括人名,地名,机构名,专有名词等进行识别的操作。
将爬取到的业务文本输入预先建立好的专名识别模型中,该专名识别模型由两部分神经网络LSTM模型组成,其中第一神经网络LSTM模型对爬取到的文本内容进行分词,第二神经网络LSTM模型对分词后的文本内容进行标注。具体地,该专名识别模型对文本内容进行标注时采用的是BIO标注法,BIO标注法是将具有实体意义的词语开头字符标注B,对具有实体意义的词语中间部分标注为I,对非实体意义的词语标注O,从而获取具有实体意义的完整词语。在本步骤中,预先训练好的专名识别模型在利用BIO标注法对业务文本进行标注后,将标注后的业务文本中具有实体意义的词语进行提取,得到关键名词,将获得到关键名词组成关键名词集。
103、根据关键名词集,在预设的信息数据库中获取关键名词集中各关键名词之间的实体关系;
在本步骤中,预先设置信息数据库,其中,为保证知识图谱的准确度,在建立信息数据库时,对信息数据库的数据来源进行筛选,调用筛选后的数据来源中的数据信息建立信息数据库。
获得到信息数据库后,根据上步骤中获得到的关键名词集对信息数据库中的数据进行检索与筛选,得到上步骤中提取出的关键名词集中各关键名词之间的实体关系,在获取到关键名词之间的实体关系后,将获取到的数据进行暂存。
在本提案中实体指的即是上步骤中获取到的关键名词集中各关键名词,关系即指数据对象彼此之间相互连接的方式,也称为联系;实体和实体之间具有一对一的关系,也可能具有一对多的关系。此外,实体关系模型中还包括有属性(Attribute),属性即指实体所具有的某一特性,一个实体可由若干个属性来刻画。
104、调用预先建立的文本分类模型,分析关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
获取到关键名词集中各关键名词之间的实体关系后,将得到的关键名词以及实体关系输入预先建立的文本分类模型中进行处理,其中,文本分类模型可以基于深度学习的算法进行建立。调用该文本分类模型对得到的关键名词以及实体关系进行与对应的业务的相关性的分析。
举具体的例子进行说明,例如,需要建立保险知识领域的业务知识图谱时,在前述步骤中获得到保险相关关键词以及之间的实体关系后,调用文本分类模型对关键名词以及关键名词之间的实体关系进行分析,具体分析其是否与保险领域相关,并得到分析结果。其中,分析结果中包括是否相关的判断,以及相关的程度指数。
105、根据分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系,得到选定的业务类型的知识图谱。
由于在获取关键名词的步骤中,我们只是对获取到的业务文本进行了名词提取,获得到关键名词,但由于有些关键名词具有多重含义,故其实体关系中可能会包含有多种与所需建立图谱的业务不相关的实体关系内容。故根据上步骤中获取到的分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系。
此外,根据分析结果中的相关程度指数,将相应的关键名词以及实体关系进行优先度的排序。将剔除无关关键名词后的关键名词集以及剩余的相关实体关系按照相关程度指数,构建选定的业务类型的出知识图谱。
本发明实施例能够收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作。
请参阅图2,本发明实施例中知识图谱构建方法的另一个实施例包括:
201、向业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
为完成知识图谱的自动构建,首先要获取业务数据库,其中,业务数据库中包含有不同类型业务的业务文本。具体地,可以通过收集相关网站组成业务数据库,例如,保险相关网站包括保险业相关论坛、新闻网站或门户网站中的保险行业有关的分区板块等,将这些网站收集后,将这些网站归类并记录这些网站的相关URL(uniform resource locator;统一资源定位***),其中,URL是因特网的万维网服务程序上用于指定信息位置的表示方法;将这些网站以及相关URL组成业务数据库。也可以利用关键词等进行自动搜索,搜索整理后得到业务数据库。
获取到业务数据库后,向业务数据库中的目标网站发送源代码获取请求,其中,该源代码获取请求是基于HTTP请求进行发送的,在该HTTP请求中包含有请求头,根据请求头中预置的信息向目标网站发起获取源代码的请求。在源代码获取请求通过后,读取目标网站源代码。
202、根据目标网站源代码下载目标网站中的页面数据;对页面数据中的内容进行识别,得到不同类型的业务的业务文本;
读取到目标网站源代码后,调用下载功能对目标网站中的页面数据进行下载并保存。将页面数据保存到本地后,对页面数据进行识别,将页面中的无关数据忽略,只保留页面数据中的结构化文本、半结构化文本以及非结构化文本,将结构化文本、半结构化文本以及非结构化文本组成业务文本。
具体地,结构化文本和半结构化文本主要来源于页面数据中的表格等,非结构化文本主要来源于页面数据中的文本内容。
203、收集文本语料信息;将文本语料信息中的词语进行标注,将标注后的文本语料信息进行分句与重组,得到文本语料训练集;
首先收集大量文本语料信息,将文本语料信息中的词语或短语进行分类标注,并对具有特定意义的实体词语进行BIO标注,得到标注语料信息。
获得标注语料信息后,将标注语料信息按词语或短语进行分句和重组,得到处理标注语料信息。用这种方法可以在标注语料信息数量较少时也能生成较多的处理标注语料信息,使得语料信息数量以倍数增长,将获取到的标注语料信息以及处理标注语料信息进行保存,组成文本语料训练集。
此外,在进行文本语料信息的收集时可以根据需要建立的知识图谱相关的领域增加相关领域中文本语料信息的数量,以便提高后续识别时的准确度。
204、调用文本语料训练集对深度学习模型进行训练,得到专名识别模型;
调用获取到的文本语料训练集,将文本语料训练集输入深度学习模型中,对深度学习模型进行训练得到专名识别模型,专名识别(Name Entity Recognition,NER),也称作"命名实体识别",是指对文本中具有特定意义的实体,包括人名,地名,机构名,专有名词等进行识别的操作。
其中,深度学习模型可以具体采用长短期记忆人工神经网络(Long-Short TermMemory,LSTM)进行建立。具体地,将文本语料训练集分为训练集、测试集以及验证集三部分,在训练后判断得到的识别结果是否在预设的识别误差范围内,若识别结果是否在预设的识别误差范围内,则完成训练得到专名识别模型。
205、调用预先建立的专名识别模型,对各类型的业务文本提取关键名词,得到关键名词集;
获取到一定量的各种类型的业务文本后,接下来利用预先建立好的专名识别模型对各类型的业务文本进行名词提取。
将爬取到的业务文本输入预先建立好的专名识别模型中,该专名识别模型由两部分神经网络LSTM模型组成,其中第一神经网络LSTM模型对爬取到的文本内容进行分词,第二神经网络LSTM模型对分词后的文本内容进行标注。具体地,该专名识别模型对文本内容进行标注时采用的是BIO标注法,BIO标注法是将具有实体意义的词语开头字符标注B,对具有实体意义的词语中间部分标注为I,对非实体意义的词语标注O,从而获取具有实体意义的完整词语。在本步骤中,预先训练好的专名识别模型在利用BIO标注法对业务文本进行标注后,将标注后的业务文本中具有实体意义的词语进行提取,将获得到的具有实体意义的词语组成关键名词集。
206、根据关键名词集,在预设的信息数据库中获取关键名词集中各关键名词之间的实体关系;
在本步骤中,预先设置信息数据库,其中,为保证知识图谱的准确度,在建立信息数据库时,对信息数据库的数据来源进行筛选,调用筛选后的数据来源中的数据信息建立信息数据库。
获得到信息数据库后,根据上步骤中获得到的关键名词集对信息数据库中的数据进行检索与筛选,得到上步骤中提取出的关键名词集中各关键名词之间的实体关系,在获取到关键名词之间的实体关系后,将获取到的数据进行暂存。
在本提案中实体指的即是上步骤中获取到的关键名词集中各关键名词,关系即指数据对象彼此之间相互连接的方式,也称为联系;实体和实体之间具有一对一的关系,也可能具有一对多的关系。此外,实体关系模型中还包括有属性(Attribute),属性即指实体所具有的某一特性,一个实体可由若干个属性来刻画。
207、调用预先建立的文本分类模型,分析关键名词和对应的实体关系与对应的业务的相关性,得到分析结果;
获取到关键名词集中各关键名词之间的实体关系后,将得到的关键名词以及实体关系输入预先建立的文本分类模型中进行处理,其中,文本分类模型可以基于深度学习的算法进行建立。调用该文本分类模型对得到的关键名词以及实体关系进行与对应的业务的相关性的分析。
举具体的例子进行说明,例如,需要建立保险知识领域的业务知识图谱时,在前述步骤中获得到保险相关关键词以及之间的实体关系后,调用文本分类模型对关键名词以及关键名词之间的实体关系进行分析,具体分析其是否与保险领域相关,并得到分析结果。其中,分析结果中包括是否相关的判断,以及相关的程度指数。
208、根据分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系,得到选定的业务类型的知识图谱;
由于在获取关键名词的步骤中,我们只是对获取到的业务文本进行了名词提取,获得到关键名词,但由于有些关键名词具有多重含义,故其实体关系中可能会包含有多种与所需建立图谱的业务不相关的实体关系内容。故根据上步骤中获取到的分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系。
此外,根据分析结果中的相关程度指数,将相应的关键名词以及实体关系进行优先度的排序。将剔除无关关键名词后的关键名词集以及剩余的相关实体关系按照相关程度指数,构建选定的业务类型的出知识图谱。
本发明实施例能够收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作。
请参阅图3,本发明实施例中知识图谱构建方法的另一个实施例包括:
301、向业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
为完成知识图谱的自动构建,首先要获取业务数据库,其中,业务数据库中包含有不同类型业务的业务文本。具体地,可以通过收集相关网站组成业务数据库,也可以利用关键词等进行自动搜索,搜索整理后获得业务数据库。
获取到业务数据库后,向业务数据库中的目标网站发送源代码获取请求,其中,该源代码获取请求是基于HTTP请求进行发送的,在该HTTP请求中包含有请求头,根据请求头中预置的信息向目标网站发起获取源代码的请求。在源代码获取请求通过后,读取目标网站源代码。
302、根据目标网站源代码下载目标网站中的页面数据;对页面数据中的内容进行识别,得到不同类型的业务的业务文本;
读取到目标网站源代码后,调用下载功能对目标网站中的页面数据进行下载并保存。将页面数据保存到本地后,对页面数据进行识别,将页面中的无关数据忽略,只保留页面数据中的结构化文本、半结构化文本以及非结构化文本,将结构化文本、半结构化文本以及非结构化文本组成业务文本。
具体地,结构化文本和半结构化文本主要来源于页面数据中的表格等,非结构化文本主要来源于页面数据中的文本内容。
303、调用预先建立的专名识别模型,对各类型的业务文本提取关键名词,得到关键名词集;
获取到一定量的各种类型的业务文本后,接下来调用预先建立好的专名识别模型对各类型的业务文本进行名词提取。
将爬取到的业务文本输入预先建立好的专名识别模型中,该专名识别模型由两部分神经网络LSTM模型组成,其中第一神经网络LSTM模型对爬取到的文本内容进行分词,第二神经网络LSTM模型对分词后的文本内容进行标注。具体地,该专名识别模型对文本内容进行标注时采用的是BIO标注法,BIO标注法是将具有实体意义的词语开头字符标注B,对具有实体意义的词语中间部分标注为I,对非实体意义的词语标注O,从而获取具有实体意义的完整词语。在本步骤中,预先训练好的专名识别模型在利用BIO标注法对业务文本进行标注后,将标注后的业务文本中具有实体意义的词语进行提取,将获得到的具有实体意义的词语组成关键名词集。
304、根据关键名词集,在预设的信息数据库中获取关键名词集中各关键名词之间的实体关系;
在本步骤中,预先设置信息数据库,其中,为保证知识图谱的准确度,在建立信息数据库时,对信息数据库的数据来源进行筛选,调用筛选后的数据来源中的数据信息建立信息数据库。
获得到信息数据库后,根据上步骤中获得到的关键名词集对信息数据库中的数据进行检索与筛选,得到上步骤中提取出的关键名词集中各关键名词之间的实体关系,在获取到关键名词之间的实体关系后,将获取到的数据进行暂存。
在本提案中实体指的即是上步骤中获取到的关键名词集中各关键名词,关系即指数据对象彼此之间相互连接的方式,也称为联系;实体和实体之间具有一对一的关系,也可能具有一对多的关系。此外,实体关系模型中还包括有属性(Attribute),属性即指实体所具有的某一特性,一个实体可由若干个属性来刻画。
305、调用文本语料训练集对双通道Transformer模型进行预训练,得到初始参数;将初始参数进行保存,得到Bert预训练模型;
具体地,在进行对文本分类模型进行训练前,还需要预先获取Bert预训练模型。其中,Bert预训练模型可以直接通过网络上获取预训练好的开源的Bert预训练模型,也可以自行训练获取Bert预训练模型。
其中,Bert具体为Bidirectional Encoder Representations fromTransformers,意为一种从Transformers模型得来的双向编码表征模型。
具体在训练获取Bert预训练模型时,可以采用前述步骤中预先建立的文本语料训练集对Transformer模型进行训练,具体地,将原始语料数据集中随机对词语进行遮盖(MASK)的方法对Transformer模型进行训练,得到初始参数,将始参数进行保存,得到Bert预训练模型。
306、收集选定的业务类型的业务语料,对业务语料进行业务分类标签的标注,得到语料分类训练集;获取Bert预训练模型,将语料分类训练集作为Bert预训练模型的新增输入向量,对Bert预训练模型进行微调训练,获得训练完毕的文本分类模型;
预先建立语料分类训练集。具体地,先收集业务语料,对业务语料进行标签的标注,得到语料分类训练集。
获取Bert预训练模型,将语料分类训练集输入Bert预训练模型进行微调训练(Fine-tuning)。
具体地,Bert预训练模型是经过原始语料数据训练过的Bert模型,在本提案中,由于需要调用对文本分类模型具体对特定业务中的文本进行分类识别,故在收集业务语料,对业务语料进行标签的标注,得到语料分类训练集后,利用语料分类训练集对Bert预训练模型进行微调训练(Fine-tuning),使该模型能够区分文本是否属于特定的业务类型,从而得到训练完毕的文本分类模型。
307、调用预先建立的文本分类模型,分析关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
获取到关键名词集中各关键名词之间的实体关系后,将得到的关键名词以及实体关系输入预先建立的文本分类模型中进行处理,其中,文本分类模型可以基于深度学习的算法进行建立。利用该文本分类模型对得到的关键名词以及实体关系进行与对应的业务的相关性的分析。
举具体的例子进行说明,例如,需要建立保险知识领域的业务知识图谱时,在前述步骤中获得到保险相关关键词以及之间的实体关系后,调用文本分类模型对关键名词以及关键名词之间的实体关系进行分析,具体分析其是否与保险领域相关,并得到分析结果。其中,分析结果中包括是否相关的判断,以及相关的程度指数。
308、根据分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系,得到选定的业务类型的知识图谱。
由于在获取关键名词的步骤中,我们只是对获取到的业务文本进行了名词提取,获得到关键名词,但由于有些关键名词具有多重含义,故其实体关系中可能会包含有多种与所需建立图谱的业务不相关的实体关系内容。故根据上步骤中获取到的分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系。
此外,根据分析结果中的相关程度指数,将相应的关键名词以及实体关系进行优先度的排序。将剔除无关关键名词后的关键名词集以及剩余的相关实体关系按照相关程度指数,构建选定的业务类型的出知识图谱。
本发明实施例能够收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作。
请参阅图4,本发明实施例中知识图谱构建方法的另一个实施例包括:
401、向业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
为完成知识图谱的自动构建,首先要获取业务数据库,其中,业务数据库中包含有不同类型业务的业务文本。具体地,可以通过收集相关网站组成业务数据库,例如,保险相关网站包括保险业相关论坛、新闻网站或门户网站中的保险行业有关的分区板块等,将这些网站收集后,将这些网站归类并记录这些网站的相关URL(uniform resource locator;统一资源定位***),其中,URL是因特网的万维网服务程序上用于指定信息位置的表示方法;将这些网站以及相关URL组成业务数据库。也可以利用关键词等进行自动搜索,搜索整理后获得业务数据库。
获取到业务数据库后,向业务数据库中的目标网站发送源代码获取请求,其中,该源代码获取请求是基于HTTP请求进行发送的,在该HTTP请求中包含有请求头,根据请求头中预置的信息向目标网站发起获取源代码的请求。在源代码获取请求通过后,读取目标网站源代码。
402、根据目标网站源代码下载目标网站中的页面数据;对页面数据中的内容进行识别,得到不同类型的业务的业务文本;;
读取到目标网站源代码后,调用下载功能对目标网站中的页面数据进行下载并保存。将页面数据保存到本地后,对页面数据进行识别,将页面中的无关数据忽略,只保留页面数据中的结构化文本、半结构化文本以及非结构化文本,将结构化文本、半结构化文本以及非结构化文本组成业务文本。
具体地,结构化文本和半结构化文本主要来源于页面数据中的表格等,非结构化文本主要来源于页面数据中的文本内容。
403、调用预先建立的专名识别模型,对各类型的业务文本提取关键名词,得到关键名词集;
获取到一定量的各种类型的业务文本后,接下来利用预先建立好的专名识别模型对各类型的业务文本进行名词提取。
将爬取到的业务文本输入预先建立好的专名识别模型中,该专名识别模型由两部分神经网络LSTM模型组成,其中第一神经网络LSTM模型对爬取到的文本内容进行分词,第二神经网络LSTM模型对分词后的文本内容进行标注。具体地,该专名识别模型对文本内容进行标注时采用的是BIO标注法,BIO标注法是将具有实体意义的词语开头字符标注B,对具有实体意义的词语中间部分标注为I,对非实体意义的词语标注O,从而获取具有实体意义的完整词语。在本步骤中,预先训练好的专名识别模型在利用BIO标注法对业务文本进行标注后,将标注后的业务文本中具有实体意义的词语进行提取,将获得到的具有实体意义的词语组成关键名词集。
404、获取至少一个知识资源网站;调用信息爬虫工具对至少一个知识资源网站进行爬取,得到至少一个知识资源网站中的数据信息;根据数据信息,构建信息数据库;
获取至少一个知识资源网站,随后调用信息爬虫工具对获取到的知识资源网站进行爬取,得到至少一个知识资源网站中的数据信息,将这些数据信息保存,构建出信息数据库,以便后续在根据关键名词,在预设的信息数据库中获取关键名词之间的实体关系。
具体地,本信息数据库中采用的知识资源网站可以包括百度百科、中国知网、MBA智库等网站,使用这些网站的内容进行建立信息数据库,可以保证信息的权威性,使得后续生成的知识图谱中的信息更加可信,进一步提高本提案中构建的知识图谱的知识质量。
405、根据关键名词集,在预设的信息数据库中获取关键名词集中各关键名词之间的实体关系;
在本步骤中,预先设置信息数据库,其中,为保证知识图谱的准确度,在建立信息数据库时,对信息数据库的数据来源进行筛选,调用筛选后的数据来源中的数据信息建立信息数据库。
获得到信息数据库后,根据上步骤中获得到的关键名词集对信息数据库中的数据进行检索与筛选,得到上步骤中提取出的关键名词集中各关键名词之间的实体关系,在获取到关键名词之间的实体关系后,将获取到的数据进行暂存。
在本提案中实体指的即是上步骤中获取到的关键名词集中各关键名词,关系即指数据对象彼此之间相互连接的方式,也称为联系;实体和实体之间具有一对一的关系,也可能具有一对多的关系。此外,实体关系模型中还包括有属性(Attribute),属性即指实体所具有的某一特性,一个实体可由若干个属性来刻画。
406、调用文本语料训练集对双通道Transformer模型进行预训练,得到初始参数;将初始参数进行保存,得到Bert预训练模型;
具体地,在进行对文本分类模型进行训练前,还需要预先获取Bert预训练模型。其中,Bert预训练模型可以直接通过网络上获取预训练好的开源的Bert预训练模型,也可以自行训练获取Bert预训练模型。
其中,Bert具体为Bidirectional Encoder Representations fromTransformers,意为一种从Transformers模型得来的双向编码表征模型。
具体在训练获取Bert预训练模型时,可以采用前述步骤中预先建立的文本语料训练集对Transformer模型进行训练,具体地,将原始语料数据集中随机对词语进行遮盖(MASK)的方法对Transformer模型进行训练,得到初始参数,将始参数进行保存,得到Bert预训练模型。
407、收集选定的业务类型的业务语料,对业务语料进行业务分类标签的标注,得到语料分类训练集;获取Bert预训练模型,将语料分类训练集作为Bert预训练模型的新增输入向量,对Bert预训练模型进行微调训练,得到训练完毕的文本分类模型;
预先建立语料分类训练集。具体地,先收集业务语料,对业务语料进行标签的标注,得到语料分类训练集。
获取Bert预训练模型,将语料分类训练集输入Bert预训练模型进行微调训练(Fine-tuning)。
具体地,Bert预训练模型是经过原始语料数据训练过的Bert模型,在本提案中,由于需要调用对文本分类模型具体对特定业务中的文本进行分类识别,故在收集业务语料,对业务语料进行标签的标注,得到语料分类训练集后,调用语料分类训练集对Bert预训练模型进行微调训练(Fine-tuning),使该模型能够区分文本是否属于特定的业务类型,从而得到训练完毕的文本分类模型。
408、调用预先建立的文本分类模型,分析关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
获取到关键名词集中各关键名词之间的实体关系后,将得到的关键名词以及实体关系输入预先建立的文本分类模型中进行处理,其中,文本分类模型可以基于深度学习的算法进行建立。调用该文本分类模型对得到的关键名词以及实体关系进行与对应的业务的相关性的分析。
举具体的例子进行说明,例如,需要建立保险知识领域的业务知识图谱时,在前述步骤中获得到保险相关关键词以及之间的实体关系后,调用文本分类模型对关键名词以及关键名词之间的实体关系进行分析,具体分析其是否与保险领域相关,并得到分析结果。其中,分析结果中包括是否相关的判断,以及相关的程度指数。
409、根据分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系,得到选定的业务类型的知识图谱;
由于在获取关键名词的步骤中,我们只是对获取到的业务文本进行了名词提取,获得到关键名词,但由于有些关键名词具有多重含义,故其实体关系中可能会包含有多种与所需建立图谱的业务不相关的实体关系内容。故根据上步骤中获取到的分析结果,将与选定的业务类型无关的关键名词从关键名词集中剔除,并删除对应的实体关系。
此外,根据分析结果中的相关程度指数,将相应的关键名词以及实体关系进行优先度的排序。将剔除无关关键名词后的关键名词集以及剩余的相关实体关系按照相关程度指数,构建选定的业务类型的出知识图谱。
410、基于接收到的知识图谱更新请求,对知识图谱进行更新。
基于接收到的知识图谱更新请求,调用信息爬虫工具从业务数据库中获取不同类型的业务的新增业务文本;具体地,该新增文本是通过检测在业务数据库中网站的URL进行判断的,本步骤中只对新增相关网站的URL对应的网页上的文本内容进行提取,而不是对全部的新增相关网站的文本信息进行提取,从而大大减少了重复内容的获取。
将所述各类型业务的新增业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到新增关键名词集;
根据所述新增关键名词集,在预设的信息数据库中获取所述新增关键名词集中各新增关键名词之间的实体关系;
调用预先建立的文本分类模型,分析所述新增关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
根据所述分析结果,将与所述选定的业务类型无关的新增关键名词从所述新增关键名词集中剔除,并删除对应的实体关系,更新所述选定的业务类型的知识图谱。
本发明实施例能够自动收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作;此外,本实施例还可以基于接收到的图谱更新请求对知识图谱进行更新,使得本实施例中构建的知识图谱可以随着本领域的知识的更新与拓展进行知识图谱内容的更新。
上面对本发明实施例中知识图谱构建方法进行了描述,下面对本发明实施例中知识图谱构建装置进行描述,请参阅图5,本发明实施例中知识图谱构建装置的一个实施例包括:
文本获取模块501,用于调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
名词提取模块502,用于将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
实体关系获取模块503,用于根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系;
相关性分析模块504,用于调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
知识图谱建立模块505,用于根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱。
本发明实施例能够自动收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作。
请参阅图6,本发明实施例中知识图谱构建装置的另一个实施例包括:
文本获取模块501,用于调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
名词提取模块502,用于将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
实体关系获取模块503,用于根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系;
相关性分析模块504,用于调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
知识图谱建立模块505,用于根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱。
可选的,文本获取模块501包括:
源代码获取单元5011,用于向所述业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
数据下载单元5012,用于根据所述目标网站源代码下载所述目标网站中的页面数据;
业务文本识别单元5013,用于对所述页面数据中的内容进行识别,得到不同类型的业务的业务文本。
可选的,所述知识图谱构建装置还包括专名识别训练模块506,所述专名识别训练模块506具体包括:
文本语料收集单元,用于收集文本语料信息;
文本语料训练集构建单元,用于将所述文本语料信息中的词语进行标注,将标注后的文本语料信息进行分句与重组,得到文本语料训练集;
训练单元,用于调用所述文本语料训练集对所述深度学习模型进行训练,得到专名识别模型。
可选的,所述知识图谱构建装置还包括信息数据库构建模块507,所述信息数据库构建模块507包括:
知识资源网站获取单元,用于获取至少一个知识资源网站;
数据信息爬取单元,用于调用信息爬虫工具对所述至少一个知识资源网站进行爬取,得到所述至少一个知识资源网站中的数据信息,其中,所述知识资源网站包括百度百科、中国知网以及MBA智库;
信息数据库构建单元,用于根据所述数据信息,构建信息数据库。
可选的,所述知识图谱构建装置还包括Bert微调训练模块508,所述Bert微调训练模块508具体包括:
业务语料收集单元,用于收集所述选定的业务类型的业务语料,对所述业务语料进行业务分类标签的标注,得到语料分类训练集;
微调训练单元,用于获取Bert预训练模型,将所述语料分类训练集作为Bert预训练模型的新增输入向量,对所述Bert预训练模型进行微调训练,得到训练完毕的文本分类模型。
可选的,所述知识图谱构建装置还包括Bert预训练模块509,所述Bert预训练模块具体用于:
调用所述文本语料训练集对双通道Transformer模型进行预训练,得到初始参数;将所述初始参数进行保存,得到Bert预训练模型。
可选的,所述知识图谱构建装置还包括知识图谱更新模块,所述知识图谱更新模块具体用于:
基于接收到的知识图谱更新请求,调用信息爬虫工具从业务数据库中获取不同类型的业务的新增业务文本;将所述各类型业务的新增业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到新增关键名词集;根据所述新增关键名词集,在预设的信息数据库中获取所述新增关键名词集中各新增关键名词之间的实体关系;调用预先建立的文本分类模型,分析所述新增关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;根据所述分析结果,将与所述选定的业务类型无关的新增关键名词从所述新增关键名词集中剔除,并删除对应的实体关系,更新所述选定的业务类型的知识图谱。
本发明实施例能够自动收集所需领域的业务知识,针对所需领域自动构建知识图谱,提高了知识图谱在所需业务领域的知识相关度,简化了知识图谱构建的操作;此外,本实施例还可以基于接收到的图谱更新请求对知识图谱进行更新,使得本实施例中构建的知识图谱可以随着本领域的知识的更新与拓展进行知识图谱内容的更新。
上面图5和图6从模块化功能实体的角度对本发明实施例中的知识图谱构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中知识图谱构建设备进行详细描述。
图7是本发明实施例提供的一种知识图谱构建设备的结构示意图,该知识图谱构建设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对知识图谱构建设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在知识图谱构建设备700上执行存储介质730中的一系列指令操作。
知识图谱构建设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作***731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的知识图谱构建设备结构并不构成对知识图谱构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种知识图谱构建设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述知识图谱构建方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述知识图谱构建方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识图谱构建方法,其特征在于,所述知识图谱构建方法包括:
调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系;
调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本包括:
向所述业务数据库中的目标网站发送源代码获取请求,源代码获取请求通过后读取目标网站源代码;
根据所述目标网站源代码下载所述目标网站中的页面数据;
对所述页面数据中的内容进行识别,得到不同类型的业务的业务文本。
3.根据权利要求2所述的知识图谱构建方法,其特征在于,在所述将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集之前,还包括:
收集文本语料信息;
将所述文本语料信息中的词语进行标注,将标注后的文本语料信息进行分句与重组,得到文本语料训练集;
调用所述文本语料训练集对所述深度学习模型进行训练,得到专名识别模型。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,在调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与对应的业务的相关性,得到分析结果之前,还包括:
收集所述选定的业务类型的业务语料,对所述业务语料进行业务分类标签的标注,得到语料分类训练集;
获取Bert预训练模型,将所述语料分类训练集作为Bert预训练模型的新增输入向量,对所述Bert预训练模型进行微调训练,得到训练完毕的文本分类模型。
5.根据权利要求4所述的知识图谱构建方法,其特征在于,所述获取Bert预训练模型,将所述语料分类训练集作为Bert预训练模型的新增输入向量,对所述Bert预训练模型进行微调训练,得到训练完毕的文本分类模型之前,还包括:
调用所述文本语料训练集对双通道Transformer模型进行预训练,得到初始参数;
将所述初始参数保存,得到Bert预训练模型。
6.根据权利要求4所述的知识图谱构建方法,其特征在于,在所述根据所述关键名词集,在预设的信息数据库中获取所述关键名词集中各关键名词之间的实体关系之前,还包括:
获取至少一个知识资源网站,其中,所述知识资源网站包括百度百科、中国知网以及MBA智库;
调用信息爬虫工具对所述至少一个知识资源网站知识资源网站进行爬取,得到所述至少一个知识资源网站知识资源网站中的数据信息;
根据所述数据信息,构建信息数据库。
7.根据权利要求1-6中任一项所述的知识图谱构建方法,其特征在于,在所述根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱之后,还包括:
基于接收到的知识图谱更新请求,调用信息爬虫工具从业务数据库中获取不同类型的业务的新增业务文本;
将所述各类型业务的新增业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到新增关键名词集;
根据所述新增关键名词集,在预设的信息数据库中获取所述新增关键名词集中各新增关键名词之间的实体关系;
调用预先建立的文本分类模型,分析所述新增关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
根据所述分析结果,将与所述选定的业务类型无关的新增关键名词从所述新增关键名词集中剔除,并删除对应的实体关系,更新所述选定的业务类型的知识图谱。
8.一种知识图谱构建装置,其特征在于,所述知识图谱构建装置包括:
文本获取模块,调用信息爬虫工具从业务数据库中获取不同类型的业务的业务文本;
名词提取模块,将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
实体关系获取模块,用于将所述各类型业务的业务文本输入预先建立的专名识别模型中,进行关键名词的提取,得到关键名词集;
相关性分析模块,用于调用预先建立的文本分类模型,分析所述关键名词和对应的实体关系与选定的业务类型的相关性,得到分析结果;
知识图谱建立模块,用于根据所述分析结果,将与所述选定的业务类型无关的关键名词从所述关键名词集中剔除,并删除对应的实体关系,得到所述选定的业务类型的知识图谱。
9.一种知识图谱构建设备,其特征在于,所述知识图谱构建设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述知识图谱构建设备执行如权利要求1-7中任一项所述的知识图谱构建方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述知识图谱构建方法的步骤。
CN202011635788.5A 2020-12-31 2020-12-31 知识图谱构建方法、装置、设备及存储介质 Active CN112749284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011635788.5A CN112749284B (zh) 2020-12-31 2020-12-31 知识图谱构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011635788.5A CN112749284B (zh) 2020-12-31 2020-12-31 知识图谱构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112749284A true CN112749284A (zh) 2021-05-04
CN112749284B CN112749284B (zh) 2021-12-17

Family

ID=75650969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011635788.5A Active CN112749284B (zh) 2020-12-31 2020-12-31 知识图谱构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112749284B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312195A (zh) * 2021-06-11 2021-08-27 北京明略昭辉科技有限公司 数据处理方法、装置、设备及存储介质
CN113377957A (zh) * 2021-07-01 2021-09-10 浙江工业大学 基于知识图谱的国民经济行业分类方法和***
CN113535983A (zh) * 2021-08-06 2021-10-22 中国电力科学研究院有限公司 一种电力运检的知识图谱构建方法和装置
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及***
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答***
CN114721833A (zh) * 2022-05-17 2022-07-08 中诚华隆计算机技术有限公司 一种基于平台业务类型的智能云端协调方法和装置
CN115098755A (zh) * 2022-06-20 2022-09-23 国网甘肃省电力公司电力科学研究院 一种科技信息服务平台构建方法及科技信息服务平台
CN115759256A (zh) * 2022-11-24 2023-03-07 中安华邦(北京)安全生产技术研究院股份有限公司 一种安全生产数字化知识库构建方法、***、介质及设备
CN116401375A (zh) * 2023-03-23 2023-07-07 深圳宏鹏数字供应链管理有限公司 一种知识图谱构建方法及***
CN117494811A (zh) * 2023-11-20 2024-02-02 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106126503A (zh) * 2016-07-12 2016-11-16 海信集团有限公司 业务领域定位方法及终端
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐***及方法
CN109597894A (zh) * 2018-09-30 2019-04-09 阿里巴巴集团控股有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN109766445A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN111444353A (zh) * 2020-04-03 2020-07-24 杭州叙简科技股份有限公司 一种警情知识图谱的构建及使用方法
CN111831833A (zh) * 2020-07-27 2020-10-27 人民卫生电子音像出版社有限公司 知识图谱的构建方法及装置
CN111967263A (zh) * 2020-07-30 2020-11-20 北京明略软件***有限公司 一种基于实体话题关联度的领域命名实体去噪方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106126503A (zh) * 2016-07-12 2016-11-16 海信集团有限公司 业务领域定位方法及终端
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐***及方法
CN109597894A (zh) * 2018-09-30 2019-04-09 阿里巴巴集团控股有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN109766445A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN111444353A (zh) * 2020-04-03 2020-07-24 杭州叙简科技股份有限公司 一种警情知识图谱的构建及使用方法
CN111831833A (zh) * 2020-07-27 2020-10-27 人民卫生电子音像出版社有限公司 知识图谱的构建方法及装置
CN111967263A (zh) * 2020-07-30 2020-11-20 北京明略软件***有限公司 一种基于实体话题关联度的领域命名实体去噪方法及***

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312195A (zh) * 2021-06-11 2021-08-27 北京明略昭辉科技有限公司 数据处理方法、装置、设备及存储介质
CN113377957A (zh) * 2021-07-01 2021-09-10 浙江工业大学 基于知识图谱的国民经济行业分类方法和***
CN113609305B (zh) * 2021-07-27 2024-04-26 三峡大学 基于bert的影视作品地域知识图谱构建方法及***
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及***
CN113535983A (zh) * 2021-08-06 2021-10-22 中国电力科学研究院有限公司 一种电力运检的知识图谱构建方法和装置
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答***
CN113987146B (zh) * 2021-10-22 2023-01-31 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的智能问答***
CN114721833A (zh) * 2022-05-17 2022-07-08 中诚华隆计算机技术有限公司 一种基于平台业务类型的智能云端协调方法和装置
CN115098755A (zh) * 2022-06-20 2022-09-23 国网甘肃省电力公司电力科学研究院 一种科技信息服务平台构建方法及科技信息服务平台
CN115759256A (zh) * 2022-11-24 2023-03-07 中安华邦(北京)安全生产技术研究院股份有限公司 一种安全生产数字化知识库构建方法、***、介质及设备
CN116401375A (zh) * 2023-03-23 2023-07-07 深圳宏鹏数字供应链管理有限公司 一种知识图谱构建方法及***
CN116401375B (zh) * 2023-03-23 2024-02-20 深圳宏鹏数字供应链管理有限公司 一种知识图谱构建方法及***
CN117494811A (zh) * 2023-11-20 2024-02-02 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及***
CN117494811B (zh) * 2023-11-20 2024-05-28 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及***

Also Published As

Publication number Publication date
CN112749284B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN106599160B (zh) 一种内容规则库管理***及其编码方法
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测***及方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN101853300B (zh) 一种视频下载服务网站的识别、评估方法及***
US20090216708A1 (en) Structural clustering and template identification for electronic documents
CN113282955B (zh) 隐私政策中隐私信息提取方法、***、终端及介质
US8359307B2 (en) Method and apparatus for building sales tools by mining data from websites
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
Dyvak et al. Recognition of Relevance of Web Resource Content Based on Analysis of Semantic Components
KR102107474B1 (ko) 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법
CN105117434A (zh) 一种网页分类方法和***
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN113971398A (zh) 一种面向网络安全领域实体快速识别的词典构造方法
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN113742496B (zh) 一种基于异构资源融合的电力知识学习***及方法
CN113918794A (zh) 企业网络舆情效益分析方法、***、电子设备及存储介质
US11301522B1 (en) Method and apparatus for collecting information regarding dark web
CN110457603B (zh) 用户关系抽取方法、装置、电子设备及可读存储介质
CN113806647A (zh) 识别开发框架的方法及相关设备
Naik et al. An adaptable scheme to enhance the sentiment classification of Telugu language
Mohsen et al. Enhancing bug localization using phase-based approach
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant