CN109446341A - 知识图谱的构建方法及装置 - Google Patents
知识图谱的构建方法及装置 Download PDFInfo
- Publication number
- CN109446341A CN109446341A CN201811236863.3A CN201811236863A CN109446341A CN 109446341 A CN109446341 A CN 109446341A CN 201811236863 A CN201811236863 A CN 201811236863A CN 109446341 A CN109446341 A CN 109446341A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- entity sets
- knowledge mapping
- industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 79
- 238000010276 construction Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000005055 memory storage Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种知识图谱构建方法及装置,涉及知识图谱领域,用于解决多种数据无法整合的问题。该方法包括:获取行业数据,获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。本申请实施例应用于整合多种行业数据。
Description
技术领域
本发明涉及知识图谱领域,尤其涉及一种知识图谱的构建方法及装置。
背景技术
电商平台是围绕着商品,买卖双方在线上进行交易的平台。故而电商知识图谱的核心是商品。整个商业活动中有品牌商、平台运营、消费者、国家机构、物流商等多角色参与。电商数据来源繁杂,涉及到运营平台、客服咨询、商品数据等多维度数据,而且各个数据源的结构化程度差异较大,涉及到的实体、实体关系之间的关联复杂多样,分散在各个***中,并且每个角色的数据的结构化程度不一,同时交易过程中极易产生大量的非结构化文本数据,现有的技术很难对这些数据统一整合。
发明内容
本申请的实施例提供一种知识图谱法的构建方法及装置,用于解决多种数据无法整合的问题。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种知识图谱的构建方法,该方法包括:
获取行业数据;获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;
将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。
第二方面,提供了一种知识图谱的构建装置,该装置包括:
获取单元,用于获取行业数据;
所述获取单元,还用于获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;
构建单元,用于将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。
第三方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如第一方面所述的方法。
第四方面,提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行如第一方面所述的知识图谱的构建方法。
第五方面,提供一种知识图谱的构建装置,包括:处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行上述第一方面所述的知识图谱的构建方法。
本申请的实施例提供的知识图谱的构建方法及装置,从行业数据中获取实体集合及实体集合中多个实体的关系,然后将获取到的实体集合及实体集合中的多个实体关系按照预设数据模式进行融合,最终形成知识图谱,解决了各类各维度数据孤立、分散的情况,有效的将数据链接起来。
附图说明
图1为本申请的实施例提供的构建的知识图谱的框架示意图;
图2为本申请的实施例提供的知识图谱的构建方法流程示意图一;
图3为本申请的实施例提供的知识图谱的构建方法流程示意图二;
图4为本申请的实施例提供的知识图谱的构建方法流程示意图三;
图5为本申请的实施例提供的知识图谱的构建方法流程示意图四;
图6为本申请的实施例提供的知识图谱的构建装置结构示意图。
具体实施方式
本申请实施提供的知识图谱的构建方法及装置,该知识图谱可以为电商知识图谱,通过获取行业数据,并获取行业数据中的实体集合及实体集合中多个实体之间的关系,将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。
图1为本申请实施例提供的构建的知识图谱的整体框架图。参照图1所示,整体框架包括原始数据层110、互联网信息采集与清洗层120、知识抽取层130、知识融合层140、知识储存层150三部分。
原始数据层110包括内部数据和外部数据,其中,内部数据可以包括关系型数据等结构化数据,外部数据可以包括视频网站的内容等非结构化数据。
互联网信息采集与清晰层120包括采集爬虫、采集任务调度***及解析器;其中,采集爬虫可以包括行业网站爬虫以及通用爬虫;解析器可以包括行业网站解析器。
知识抽取层130包括数据库到资源描述框架映射(database to resourcedescription framework,D2R)和行业网站抽取;其中,D2R 映射包括配置文件映射、更新配置以及任务调度***,配置文件映射包括:表格-概念、记录-实体、列名-属性、记录数据-属性值以及表关联-关系;任务调度***包括:原始导入、批量更新以及增量更新;行业网站抽取可以包括包装Wrapper插件以及任务调速***,任务调度***包括更新探测以及周期更新。当原始数据层110中的数据为内部数据时,通过D2R映射抽取知识;当原始数据层110中的数据为外部数据时,需要经过互联网信息采集与清晰层120处理后,再通过行业网站抽取知识。
知识融合层140包括数据层、模式层、冲突解决及知识图谱更新;其中,数据层包括实体对齐、实体类型对齐以及实体属性对齐,模式层包括上下围关系生成以及概念属性生成,知识图谱更新包括模式层更新以及数据层更新,冲突解决包括冲突自动检测以及冲突自动解决。数据层的数据模式可以通过人工专家定义,明确知识图谱中的实体、关系、和各实体及关系的属性。将多个数据源抽取的知识进行融合后集成到知识图谱中时,需要解决多种类型的数据冲突问题,例如,一个短语对应多个实体、实体属性名不一致、实体属性缺失、实体属性值不一致、实体属性值一对多映射等情况。
知识储存层150包括图数据储存和分布式文件索引。
本申请实施例向知识图谱中导入的数据具体为结构化数据。在数据导入过程中,涉及对结构化数据的预处理、实体对齐、属性对齐、属性筛选等过程,最终将满足条件的结构化数据导入知识图谱。后续通过增量迭代等方式,保证知识图谱的可持续更新和扩展。
下面采用详细的实施例对本知识图谱的构建过程进行详细说明。
实施例1、
本申请实施例提供了一种知识图谱的构建方法,参照图2中所示,该方法可以包括S101-S103:
S101、获取行业数据。
以电商行业的知识图谱的构建为例,电商知识图谱构建基本上采用行业内部的消费数据、电商平台相关的垂直领域数据、商品数据等相关数据作为数据来源。这些数据产生于电商平台运营或宣传过程中,与业务结合性较好,因此通常具有以下优点:
行业覆盖较广、行业深度可观。数据源均来自电商平台强相关的数据,数据相关性与行业紧密结合,基本覆盖电商行业涉及的数据,且以电商运营过程中数据作为补充,数据具有行业深度;
可靠性高:行业的内部结构化数据用于支撑企业本身的业务,因此可靠性非常高;企业数据存储在关系型数据库中,只需将关系型数据进行一定程度的转化即可得到结构化三元组数据,可靠性良好;
结构性强:内部结构化数据多数是通过关系数据库进行存储的;开放行业数据基本上由较高质量的网站编辑后发表,结构性良好。
因此,在进行电商知识图谱构建时,会优先考虑使用行业中的内部结构化数据和开放的行业知识库。
可选的,在获取行业数据之前,可以首先定义知识图谱的数据模式。数据模式是知识图谱中最核心的部分,可以由人工专家定义数据模式,并采用自顶向下的知识图谱方式,定义好数据模式后,可以将从各种数据源获取到的行业数据中的实体、实体关系或实体属性等进行数据层面的填充,其中,通过人专家定义知识图谱的数据模式可以提高知识图谱数据的完整性和准确性。
可选的,参照图3中所示,S101可以包括S201-S204:
S201、根据种子词汇获取目标网页,并根据网站将目标网页分类。
其中,种子词汇为行业专用词汇,目标网页包括网页文档及百科网页的外部链接。
具体的,可以利用一些能够代表行业的种子词汇,在搜索引擎和在线百科的搜索接口中进行搜索。对于搜索引擎返回的网页文档,将排列靠前的数据结果直接添加到目标网页列表;对于百科返回的页面,先进入到相应的文章页,然后在文章页面中寻找普通的外部链接和参考文献的外链,并将这两类链接添加到目标网页列表。
S202、按照预设深度值对每个网站对应的目标网页进行数据采集得到网站的内容。
将目标网页依据网站进行归类,并对得到的网页进行站内采集,采集的最大深度可以设置为3层,即从首页开始,使用深度优先采集策略,总共采集3层。通常行业数据网站在3层的深度下即可遍历完整个网站的结构。
S203、如果网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源。
对网站的内容分析,并对每个网站已经采集到的网页的内容进行提取保存;对于网站的内容,如果其中包含行业关键词的频度超过阈值,则说明该网站和该行业相关,可以作为相应的行业数据源。
S204、从行业数据源获取行业数据。
当确定行业数据源后,可以通过搜索引擎等工具从行业数据源获取行业数据。
S102、获取行业数据中的实体集合以及实体集合中的多个实体的关系。
知识图谱构建的技术关键点在于实体抽取和实体关系抽取,将数据中的实体及实体关系抽取出来,加以整合,可以得到更加整齐的数据,便于管理及应用。
可选的,参照图4中所示,S102可以包括:
S301、如果行业数据为结构化数据,则根据关系数据库到资源描述框架映射语言(relation database to resource description framework mapping language,D2RML)规范及映射配置文件将行业数据中的知识转换成实体集合及实体集合中多个实体的关系。
从结构化数据中进行知识映射时,需要确定结构化数据中的基本结构,包括每个表格的含义以及表之间的关联,同时确定知识图谱的结构,然后使用D2RML语言把结构化数据中的表格与知识图谱中的概念或实体关联起来。定义好映射配置文件后,可以依据配置从源数据库中转换知识,具体过程可以为:知识转换引擎连接配置文件中配置的目标数据库,读取相应表格中的数据,把关系数据库中的表和列数据分别映射成概念的实体、实体之间的关系以及实体的属性,然后将映射得到的知识存储到知识图谱中。
可选的,参照图4中所示,S102可以包括:
S401、如果行业数据为非结构化数据,则根据条件随机场模型 (conditionalrandom field algorithm,CRF)抽取行业数据中的实体集合,并根据支持向量机-K近邻分类方法(support vector machine- k-nearest neighbor,SVM-KNN)抽取行业数据中的实体集合中多个实体的关系。
具体的,CRF模型为给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。其中,CRF模型的参数化形式可以为:对于观察序列x=(x1,x2,…,xn)和状态序列y=(y1,y2,…,yn),设P(y|x) 为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量 Y取值为y的条件概率的形式如下:
其中,fk和hl为特征函数,λk和μl为对应的权值,Z(x)是归一化因子。
命名实体识别过程就是序列标注过程,将句子看作是一个观察序列,把句中每个字符或者词看作一个符号,然后给符号赋予一个状态。通过训练集进行最大化参数λk和μl,得到满足条件的条件概率。
对于一个输入序列,最可能的输出标记序列,也即最佳状态序列,即:
基于CRF模型抽取非结构化数据中的实体的过程,具体可以为:当语料为训练语料时,将语料经预处理与特征选择后,得到数据特征集,将数据特征集经CRF训练并导入CRF模型,得到实体集合;当语料为测试语料时,将语料经预处理后导入CRF模型,得到实体集合。其中,语料为基本匹配数据库;选择的特征可以包括:语言特征、上下文特征以及实体边界特征,但不局限于此。
需要说明的,语言特征可以反映出字符的基本信息,是一种基本特征。由于文本数据的随意性和自由性,对文本分词会出现分词错误最终导致实体无法识别,而字粒度包含更多的实体内部结构等信息,可以提高识别效果,故本申请实施例采用字粒度作为语言特征。字粒度语言特征如下表1所示。
表1字粒度语言特征表示
标号 | 特征 | 描述 |
1 | Character(-2) | 前两个字符 |
2 | Character(-1) | 前一个字符 |
3 | Character(0) | 当前字符 |
4 | Character(1) | 后一个字符 |
5 | Character(2) | 后两个字符 |
上下文特征是指实体词汇窗口长度内观测值之间的相互依赖关系,该特征可以很好的刻画出实体内部的依赖关系以及实体与非实体的相互关系;
实体边界特征是确定字符边界特征位置信息的重要依据,确定命名实体的边界对命名实体识别起着至关重要的作用。本申请实施例采用BIO编码模式描述观测序列的词边界特征并对实体类型进行编码,其中B表示实体的开头,I表示实体的剩余部分,O表示非实体序列。
CRF模型工具需要利用用户制定模板文件(Template File)对训练语料进行训练,特征模板如下表2所示。
表2基本特征模板
特征标识 | 特征描述 |
U00:%x[-2,0] | 当前字的前两个字 |
U01:%x[-1,0] | 当前字的前一个字 |
U02:%x[0,0] | 当前字 |
U03:%x[0,1] | 当前字的后一个字 |
U04:%x[0,2] | 当前字的后两个字 |
U05:%x[-1,0]/%x[0,0] | 当前字和前一个字的组合 |
U06:%x[0,0]/%x[0,1] | 当前字和后一个字的组合 |
U07:%x[-1,0]/%x[0,0]/%x[1,0] | 当前字和前后一个字的组合 |
U08:%x[-2,0]/%x[-1,0]/%x[0,0] | 当前字和前两个字的组合 |
U09:%x[0,0]/%x[1,0]/%x[2,0] | 当前字和后两个字的组合 |
其中,每行代表一个特征模板,可以确定训练数据中一个记号 (Token),特征模板中的基本格式%x[row,col],其中,row表示与当前 Token的相对行数,col表示绝对列数。
具体的,SVM-KNN分类方法是SVM分类方法和KNN分类方法的组合方法。SVM-KNN分类方法性能好且算法复杂度低,已被应用于文本分类、专有名词抽取等多项文本处理研究,并取得了较好效果。因此,本申请实施例可以使用SVM-KNN分类方法实现行业数据的实体关系抽取。
可选的,参照图5中所示,根据SVM-KNN分类方法抽取行业数据的实体关系可以包括S501-S504:
S501、语料预处理及特征向量形成,得到待测样本。
其中,语料可以包括训练语料及测试语料;语料预处理可以包括词性标注、词干提取、句法分析、谓词提取和语义角色标注等。本申请实施例采用的特征有:实体及上下文特征、句子动词词根特征、实体距离特征、实体扩展特征、语义角色特征和实体间词语特征,其中,上下文特征可以包括实体及其前后的词、词的词干和词性,语义角色特征可以包括谓词(predicate)特征、语义角色对(semantic role pair) 特征、语义角色对-谓词特征。
S502、根据SVM分类模型处理待测样本。
SVM分类器理论框架完善、通用性和鲁棒性强、计算简单,而且还具有较强的抗噪声能力和较高的分类正确率。
S503、如果待测样本为确定区域样本,则直接分类,以得到实体关系。
对确定区域样本可以直接输出SVM分类器结果,便可以得到实体关系。
S504、如果待测样本不是确定区域样本,则通过KNN分类器进行二次分类。
如果待测样本不是确定区域样本,即待测样本为模糊区域样本,可以使用KNN分类器进行二次分类,便可以得到实体关系。
S103、将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。
当抽取行业数据中的实体集合以及实体集合中实体的关系后,可以将实体-关系-实体三元组作为RDF数据存储到知识图谱的数据库中。
可选的,本申请实施例还可以通过可视化的规范配置工具实现映射规律的制定。
本申请实施提供的知识图谱的构建方法,通过行业知识图谱的构建可以为本行业的平台解决内部各类各维度数据孤立、分散的情况,有效的将数据链接起来,从而发现不同部门不同角色之间存在的数据关系进行数据挖掘。以最大化程度的挖掘数据资源,完整构建的知识图谱也可以为后续的推荐、搜索、智能客服等提供坚实的基础。
实施例2、
本申请实施例提供了一种知识图谱的构建装置,参照图6中所示,该装置500可以包括:
获取单元501,用于获取行业数据。
获取单元501,还可以用于获取行业数据中的实体集合以及实体集合中的多个实体的关系。
构建单元502,用于将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。
可选的,获取单元501可以具体用于:如果行业数据为结构化数据,则根据D2RML规范及映射配置文件将行业数据中的知识转换成实体集合及实体集合中多个实体的关系。
可选的,获取单元501可以具体用于:如果行业数据为非结构化数据,则根据CRF模型抽取行业数据中的实体集合,并根据SVM-KNN 分类方法抽取行业数据中的实体集合中多个实体的关系。
可选的,获取单元501可以具体用于:
根据种子词汇获取目标网页,并根据网站将目标网页分类,其中,种子词汇为行业专用词汇,目标网页包括网页文档及百科网页的外部链接;按照预设深度值对每个网站对应的目标网页进行数据采集得到网站的内容;如果网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源;从行业数据源获取行业数据。
本发明实施例提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如图2-图5中所述的知识图谱的构建方法。
本发明的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行如图2-图5中所述的知识图谱的构建方法。
本发明的实施例提供一种知识图谱的构建装置,包括:处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行如图2- 图5中所述的知识图谱的构建方法。
由于本发明的实施例中的知识图谱的构建装置、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。
需要说明的是,上述各单元可以为单独设立的处理器,也可以集成在控制器的某一个处理器中实现,此外,也可以以程序代码的形式存储于控制器的存储器中,由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit, CPU),或者是特定集成电路(Application SpecificIntegrated Circuit, ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种知识图谱的构建方法,其特征在于,包括:
获取行业数据;
获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;
将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。
2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系,包括:
如果所述行业数据为结构化数据,则根据关系数据库到资源描述框架映射语言D2RML规范及映射配置文件将所述行业数据中的知识转换成所述实体集合及所述实体集合中多个实体的关系。
3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系,包括:
如果所述行业数据为非结构化数据,则根据条件随机场CRF模型抽取所述行业数据中的实体集合,并根据支持向量机-K近邻SVM-KNN分类方法抽取所述行业数据中的所述实体集合中多个实体的关系。
4.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述获取行业数据,包括:
根据种子词汇获取目标网页,并根据网站将所述目标网页分类,其中,所述种子词汇为行业专用词汇,所述目标网页包括网页文档及百科网页的外部链接;
按照预设深度值对每个网站对应的目标网页进行数据采集得到所述网站的内容;
如果所述网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源;
从所述行业数据源获取所述行业数据。
5.一种知识图谱的构建装置,其特征在于,包括:
获取单元,用于获取行业数据;
所述获取单元,还用于获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;
构建单元,用于将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。
6.根据权利要求5所述的知识图谱的构建装置,其特征在于,所述获取单元具体用于:
如果所述行业数据为结构化数据,则根据关系数据库到资源描述框架映射语言D2RML规范及映射配置文件将所述行业数据中的知识转换成所述实体集合及所述实体集合中多个实体的关系。
7.根据权利要求5所述的知识图谱的构建装置,其特征在于,所述获取单元具体用于:
如果所述行业数据为非结构化数据,则根据CRF模型抽取所述行业数据中的实体集合,并根据SVM-KNN分类方法抽取所述行业数据中的所述实体集合中多个实体的关系。
8.根据权利要求5所述的知识图谱的构建装置,其特征在于,所述获取单元具体用于:
根据种子词汇获取目标网页,并根据网站将所述目标网页分类,其中,所述种子词汇为行业专用词汇,所述目标网页包括网页文档及百科网页的外部链接;
按照预设深度值对每个网站对应的目标网页进行数据采集得到所述网站的内容;
如果所述网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源;
从所述行业数据源获取所述行业数据。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如权利要求1-4任一项所述的知识图谱的构建方法。
10.一种包含指令的计算机程序产品,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-4任一项所述的知识图谱的构建方法。
11.一种知识图谱的构建装置,其特征在于,包括:处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行如权利要求1-4任一项所述的知识图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811236863.3A CN109446341A (zh) | 2018-10-23 | 2018-10-23 | 知识图谱的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811236863.3A CN109446341A (zh) | 2018-10-23 | 2018-10-23 | 知识图谱的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446341A true CN109446341A (zh) | 2019-03-08 |
Family
ID=65547730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811236863.3A Pending CN109446341A (zh) | 2018-10-23 | 2018-10-23 | 知识图谱的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446341A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960810A (zh) * | 2019-03-28 | 2019-07-02 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
CN110245241A (zh) * | 2019-06-18 | 2019-09-17 | 卓尔智联(武汉)研究院有限公司 | 塑料知识图谱构建装置、方法及计算机可读存储介质 |
CN110275919A (zh) * | 2019-06-18 | 2019-09-24 | 合肥工业大学 | 数据集成方法及装置 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110489395A (zh) * | 2019-07-27 | 2019-11-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110489560A (zh) * | 2019-06-19 | 2019-11-22 | 民生科技有限责任公司 | 基于知识图谱技术的小微企业画像生成方法及装置 |
CN110597969A (zh) * | 2019-08-12 | 2019-12-20 | 中国农业大学 | 一种农业知识智能问答方法、***以及电子设备 |
CN110750647A (zh) * | 2019-10-17 | 2020-02-04 | 北京华宇信息技术有限公司 | 一种多源异构情报数据的elp模型的构建方法 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN110781249A (zh) * | 2019-10-16 | 2020-02-11 | 华电国际电力股份有限公司技术服务分公司 | 基于知识图谱的火电厂多源数据融合方法与装置 |
CN110795567A (zh) * | 2019-09-29 | 2020-02-14 | 北京远舢智能科技有限公司 | 一种知识图谱平台 |
CN110990586A (zh) * | 2019-12-02 | 2020-04-10 | 浪潮软件股份有限公司 | 获取图谱数据的方法及装置 |
CN111061883A (zh) * | 2019-10-25 | 2020-04-24 | 珠海格力电器股份有限公司 | 更新知识图谱的方法、装置、设备及存储介质 |
CN111104525A (zh) * | 2019-12-31 | 2020-05-05 | 西安理工大学 | 一种基于图数据库的建筑设计规范知识图谱构建方法 |
CN111241299A (zh) * | 2020-01-09 | 2020-06-05 | 重庆理工大学 | 一种法律咨询的知识图谱自动构建方法及其检索*** |
CN111324609A (zh) * | 2020-02-17 | 2020-06-23 | 腾讯云计算(北京)有限责任公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN111563170A (zh) * | 2020-04-30 | 2020-08-21 | 北京明略软件***有限公司 | 一种知识图谱的生成方法、装置、计算机存储介质及终端 |
WO2020232943A1 (zh) * | 2019-05-23 | 2020-11-26 | 广州市香港科大***研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建***和方法 |
CN112463984A (zh) * | 2020-12-04 | 2021-03-09 | 北京明略软件***有限公司 | 数据库模式扩展方法、装置、设备及计算机可读介质 |
CN112487212A (zh) * | 2020-12-18 | 2021-03-12 | 清华大学 | 领域知识图谱的构建方法及装置 |
CN112527924A (zh) * | 2020-12-18 | 2021-03-19 | 清华大学 | 动态更新的知识图谱扩展方法及装置 |
CN112765363A (zh) * | 2021-01-19 | 2021-05-07 | 昆明理工大学 | 一种面向科技服务需求的需求图谱构建方法 |
CN113505245A (zh) * | 2021-09-10 | 2021-10-15 | 深圳平安综合金融服务有限公司 | 知识图谱的生成方法、计算机可读存储介质及计算机设备 |
CN113722509A (zh) * | 2021-09-07 | 2021-11-30 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN113783876A (zh) * | 2021-09-13 | 2021-12-10 | 国网电子商务有限公司 | 基于图神经网络的网络安全态势感知方法及相关设备 |
WO2022051996A1 (zh) * | 2020-09-10 | 2022-03-17 | 西门子(中国)有限公司 | 知识图谱构建方法和装置 |
WO2023040530A1 (zh) * | 2021-09-18 | 2023-03-23 | 华为技术有限公司 | 网页内容溯源方法、知识图谱构建方法以及相关设备 |
CN116955639A (zh) * | 2023-04-24 | 2023-10-27 | 浙商期货有限公司 | 期货产业链知识图谱构建方法、装置及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和*** |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
-
2018
- 2018-10-23 CN CN201811236863.3A patent/CN109446341A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和*** |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
Non-Patent Citations (2)
Title |
---|
刘绍毓 等: "基于多分类SVM_KNN的实体关系抽取方法", 《数据采集与处理》 * |
胡芳槐: "基于多种数据源的中文知识图谱构建方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960810A (zh) * | 2019-03-28 | 2019-07-02 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
WO2020232943A1 (zh) * | 2019-05-23 | 2020-11-26 | 广州市香港科大***研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
CN110298036A (zh) * | 2019-06-06 | 2019-10-01 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110298036B (zh) * | 2019-06-06 | 2022-07-22 | 昆明理工大学 | 一种基于词性增量迭代的在线医疗文本症状识别方法 |
CN110275919A (zh) * | 2019-06-18 | 2019-09-24 | 合肥工业大学 | 数据集成方法及装置 |
CN110245241A (zh) * | 2019-06-18 | 2019-09-17 | 卓尔智联(武汉)研究院有限公司 | 塑料知识图谱构建装置、方法及计算机可读存储介质 |
CN110489560A (zh) * | 2019-06-19 | 2019-11-22 | 民生科技有限责任公司 | 基于知识图谱技术的小微企业画像生成方法及装置 |
CN110489395A (zh) * | 2019-07-27 | 2019-11-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110489395B (zh) * | 2019-07-27 | 2022-07-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110597969A (zh) * | 2019-08-12 | 2019-12-20 | 中国农业大学 | 一种农业知识智能问答方法、***以及电子设备 |
CN110597969B (zh) * | 2019-08-12 | 2022-05-24 | 中国农业大学 | 一种农业知识智能问答方法、***以及电子设备 |
CN110795567A (zh) * | 2019-09-29 | 2020-02-14 | 北京远舢智能科技有限公司 | 一种知识图谱平台 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN110781249A (zh) * | 2019-10-16 | 2020-02-11 | 华电国际电力股份有限公司技术服务分公司 | 基于知识图谱的火电厂多源数据融合方法与装置 |
CN110750647B (zh) * | 2019-10-17 | 2020-07-31 | 北京华宇信息技术有限公司 | 一种多源异构情报数据的elp模型的构建方法 |
CN110750647A (zh) * | 2019-10-17 | 2020-02-04 | 北京华宇信息技术有限公司 | 一种多源异构情报数据的elp模型的构建方法 |
CN111061883B (zh) * | 2019-10-25 | 2023-12-08 | 珠海格力电器股份有限公司 | 更新知识图谱的方法、装置、设备及存储介质 |
CN111061883A (zh) * | 2019-10-25 | 2020-04-24 | 珠海格力电器股份有限公司 | 更新知识图谱的方法、装置、设备及存储介质 |
CN110990586A (zh) * | 2019-12-02 | 2020-04-10 | 浪潮软件股份有限公司 | 获取图谱数据的方法及装置 |
CN111104525A (zh) * | 2019-12-31 | 2020-05-05 | 西安理工大学 | 一种基于图数据库的建筑设计规范知识图谱构建方法 |
CN111104525B (zh) * | 2019-12-31 | 2022-03-25 | 西安理工大学 | 一种基于图数据库的建筑设计规范知识图谱构建方法 |
CN111241299A (zh) * | 2020-01-09 | 2020-06-05 | 重庆理工大学 | 一种法律咨询的知识图谱自动构建方法及其检索*** |
CN111324609A (zh) * | 2020-02-17 | 2020-06-23 | 腾讯云计算(北京)有限责任公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN111563170A (zh) * | 2020-04-30 | 2020-08-21 | 北京明略软件***有限公司 | 一种知识图谱的生成方法、装置、计算机存储介质及终端 |
WO2022051996A1 (zh) * | 2020-09-10 | 2022-03-17 | 西门子(中国)有限公司 | 知识图谱构建方法和装置 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建***和方法 |
CN112214611B (zh) * | 2020-09-24 | 2023-10-31 | 远光软件股份有限公司 | 一种企业知识图谱的构建***和方法 |
CN112463984A (zh) * | 2020-12-04 | 2021-03-09 | 北京明略软件***有限公司 | 数据库模式扩展方法、装置、设备及计算机可读介质 |
CN112463984B (zh) * | 2020-12-04 | 2024-02-27 | 北京明略软件***有限公司 | 数据库模式扩展方法、装置、设备及计算机可读介质 |
CN112527924A (zh) * | 2020-12-18 | 2021-03-19 | 清华大学 | 动态更新的知识图谱扩展方法及装置 |
CN112487212A (zh) * | 2020-12-18 | 2021-03-12 | 清华大学 | 领域知识图谱的构建方法及装置 |
CN112765363A (zh) * | 2021-01-19 | 2021-05-07 | 昆明理工大学 | 一种面向科技服务需求的需求图谱构建方法 |
CN113722509A (zh) * | 2021-09-07 | 2021-11-30 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN113505245A (zh) * | 2021-09-10 | 2021-10-15 | 深圳平安综合金融服务有限公司 | 知识图谱的生成方法、计算机可读存储介质及计算机设备 |
CN113783876A (zh) * | 2021-09-13 | 2021-12-10 | 国网电子商务有限公司 | 基于图神经网络的网络安全态势感知方法及相关设备 |
CN113783876B (zh) * | 2021-09-13 | 2023-10-03 | 国网数字科技控股有限公司 | 基于图神经网络的网络安全态势感知方法及相关设备 |
WO2023040530A1 (zh) * | 2021-09-18 | 2023-03-23 | 华为技术有限公司 | 网页内容溯源方法、知识图谱构建方法以及相关设备 |
CN116955639A (zh) * | 2023-04-24 | 2023-10-27 | 浙商期货有限公司 | 期货产业链知识图谱构建方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
US20220382752A1 (en) | Mapping Natural Language To Queries Using A Query Grammar | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
US20220067104A1 (en) | Natural Language Question Answering Systems | |
CN106445988A (zh) | 一种大数据的智能处理方法和*** | |
CN105843897A (zh) | 一种面向垂直领域的智能问答*** | |
US10102246B2 (en) | Natural language consumer segmentation | |
CN105408890A (zh) | 基于声音输入执行与列表数据有关的操作 | |
US20150006528A1 (en) | Hierarchical data structure of documents | |
CN108874783A (zh) | 电力信息运维知识模型构建方法 | |
CN112434024B (zh) | 面向关系型数据库的数据字典生成方法、装置、设备及介质 | |
Rajput et al. | BNOSA: A Bayesian network and ontology based semantic annotation framework | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
US20220129635A1 (en) | Semantic model instantiation method, system and apparatus | |
CN112925901B (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
Holzinger et al. | Using ontologies for extracting product features from web pages | |
US11604794B1 (en) | Interactive assistance for executing natural language queries to data sets | |
CN103678336A (zh) | 实体词识别方法及装置 | |
US8140464B2 (en) | Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture | |
CN117312989A (zh) | 一种基于GCN和RoBERTa的上下文感知的列语义识别方法和*** | |
Huang et al. | A semantic matching approach addressing multidimensional representations for web service discovery | |
US20210271637A1 (en) | Creating descriptors for business analytics applications | |
JP2023517518A (ja) | ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル | |
CN114429384B (zh) | 基于电商平台的产品智能推荐方法及*** | |
CN115982322A (zh) | 一种水利行业设计领域知识图谱的检索方法及检索*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |