CN112988974A

CN112988974A - 一种基于向量空间的产业链知识图谱的构建方法及装置

Info

Publication number: CN112988974A
Application number: CN202110323249.6A
Authority: CN
Inventors: 彭青松
Original assignee: Shanghai Yuanyu Information Technology Co ltd
Current assignee: Shanghai Yuanyu Information Technology Co ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-18

Abstract

本发明公开了一种基于向量空间的产业链知识图谱的构建方法，包括如下步骤：S1、构建向量空间模型(VSM)：将产业链知识图谱的三元组抽象成一个向量；S2、计算每个词项在向量中的权重TF‑IDF；S3、余弦相似度计算；S4、根据计算得到的值进行相似度计算，值越大表示两个三元组的信息相似度越高，就越有可能发生重名或者多名现象，通过对比产业链知识图谱中的所有三元组完成该知识图谱的知识融合，本发明中通过使用基于向量空间的计算方法，解决了产业链知识图谱构建过程中出现的实体重名、多名已经名称歧义等问题，对于知识图谱中的实体进行实体识别、歧义消解和指代消解，从而对于产业链知识图谱的实体进行去重，获得更加准确的数据。

Description

一种基于向量空间的产业链知识图谱的构建方法及装置

技术领域

本发明涉及知识图谱技术领域，具体为一种基于向量空间的产业链知识图谱的构建方法及装置。

背景技术

知识图谱本质上是一种语义网络，用图的形式描述客观事物，图由节点和边组成的，知识图谱中的节点表示概念和实体，概念是抽象出来的事物，实体是具体的事物；边表示事物的关系和属性，事物的内部特征用属性来表示，外部联系用关系来表示，实体可以是人，地方，组织机构，概念等等，关系的种类更多，可以是人与人之间的关系，人与组织之间的关系，概念与某个物体之间的关系等等，知识图谱以“实体-关系-实体”或“实体-属性-属性值”的三元组存储，形成一个图状知识库，其中，实体是知识图谱的基本元素，指具体的人名、组织机构名、地名、日期、时间等，关系是两个实体之间的语义关系，是模式层所定义关系的实例，属性是对实体的说明，是实体与属性值之间的映射关系，在知识图谱的数据层，节点表示实体，边表示实体间关系或实体的属性；

在进行产业链知识图谱构建时，会碰到很多汉语命名的实体识别和实体名称歧义，另外，还有名称歧义的问题，解决实体识别和歧义消解的过程就是知识融合，目前，主流的知识融合技术就是基于规则、基于统计或者进行人工干预，所以急需一种基于向量空间的计算方法，通过计算各个实体名称之间的余弦相似度，从而进行知识图谱的知识融合。

发明内容

本发明提供一种基于向量空间的产业链知识图谱的构建方法及装置，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于向量空间的产业链知识图谱的构建方法，包括如下步骤：

S1、构建向量空间模型(VSM)：将产业链知识图谱的三元组抽象成一个向量；

S2、计算每个词项在向量中的权重TF-IDF；

S3、余弦相似度计算；

S4、根据计算得到的值进行相似度计算，值越大表示两个三元组的信息相似度越高，就越有可能发生重名或者多名现象，通过对比产业链知识图谱中的所有三元组完成该知识图谱的知识融合。

根据上述技术方案，所述S1中向量由n个Term组成，每个词都有一个权重(TermWeight)，不同的词根据自己在文档中的权重来影响文档相关性的重要程度。

根据上述技术方案，所述S2中TF-IDF表示TF(词频)和IDF (逆文档频率)的乘积：

其中：TF-IDF＝词频(TF)×逆文档频率(IDF)：

把产业链的知识图谱看作为一篇文章，词频(Term Frequency，简称TF)表示特征词出现的次数除以该文章总词数：

其中TF表示某个关键词出现的频率；

IDF为所有三元组的数目除以包含该词语的三元组数目的对数值；

其中|D|表示所有文档的数目；

|w∈d|表示包含词语w的文档数目。

TF-IDF计算权重越大表示该词条对这个文本的重要性越大。

根据上述技术方案，所述S3中对于某个产业链的知识图谱内容，依次计算得到知识图谱中的三元组D1＝(w1,w2,...,wn)共n个关键词的权重；

知识图谱中的另一个三元组D2，采用相同的方法计算出D2＝(q1, q2,...,qn)，然后计算D1和D2的相似度；

计算两个知识图谱间的相似度通过两个向量的余弦夹角cos来描述。

根据上述技术方案，所述S3中D1和D2的相似度公式如下：

其中分子表示两个向量的点乘积，分母表示两个向量的模的积。

根据上述技术方案，一种装置，所述装置包括基于向量空间的产业链知识图谱的构建方法所确定的装置。

与现有技术相比，本发明的有益效果：本发明中通过使用基于向量空间的计算方法，解决了产业链知识图谱构建过程中出现的实体重名、多名已经名称歧义等问题，对于知识图谱中的实体进行实体识别、歧义消解和指代消解，从而对于产业链知识图谱的实体进行去重，获得更加准确的数据，通过该发明的方法，可以有效的进行实体名称的歧义消解，从而获取更加准确的产业链知识图谱。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

如图1所示，本发明提供技术方案，一种基于向量空间的产业链知识图谱的构建方法，包括如下步骤：

S2、计算每个词项在向量中的权重TF-IDF；

S3、余弦相似度计算；

根据上述技术方案，S1中向量由n个Term组成，每个词都有一个权重(TermWeight)，不同的词根据自己在文档中的权重来影响文档相关性的重要程度。

根据上述技术方案，S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积：

其中：TF-IDF＝词频(TF)×逆文档频率(IDF)：

其中TF表示某个关键词出现的频率；

其中|D|表示所有文档的数目；

|w∈d|表示包含词语w的文档数目。

TF-IDF计算权重越大表示该词条对这个文本的重要性越大。

根据上述技术方案，S3中对于某个产业链的知识图谱内容，依次计算得到知识图谱中的三元组D1＝(w1,w2,...,wn)共n个关键词的权重；

根据上述技术方案，S3中D1和D2的相似度公式如下：

根据上述技术方案，一种装置，装置包括基于向量空间的产业链知识图谱的构建方法所确定的装置。

实施例2：

本实施方式中，对于产业链知识图谱的构建整个实施流程如下所述：

S101，对外部资源文件进行加载读取，以铝产业链为例，导入上市公司25家铝企业的2019年年报文件(非机构化数据)、25家上市公司铝企股票信息(结构化数据)。

S102，对文件中的内容进行实体抽取、属性抽取和关系抽取，为每家上市公司生成一系列的三元组，如：

(上游，原材料，铝土矿)，(上游，原材料，氧化铝)

(中游，铝产品，铝合金产品)，(中游，铝产品，铝型材)，(中游，铝产品，铝加工件)，(中游，铝产品，铝型材)

(下游，铝应用，蓝宝石)、(下游，铝应用，铝电池)，(下游，铝应用，航空航天器材)

(中国铝业，主营业务，氧化铝)，(中国铝业，主营业务，铝合金产品)；

…

(南山铝业，主营业务，铝合金)，(南山铝业，主营业务，铝合金锭)，(南山铝业，主营业务，铝板带)

…

S103，将每个三元组看成一句话，并进行分词，得到的句子如下：

1、上游/原材料/铝土矿

2、上游/原材料/氧化铝

3、中游/铝/产品/铝合金/产品

4、中游/铝/产品/铝/型材

5、下游/铝/应用/蓝宝石

6、中国/铝业/主营/业务/氧化铝

7、中国/铝业/主营/业务/铝合金/产品

8、南山/铝业/主营/业务/铝合金

9、南山/铝业/主营/业务/铝合金/锭

10、南山/铝业/主营/业务/铝带板

S104，把所有的三元组进行分组，将需要进行去重和消歧的三元组放在一起，列出所有的词并进行计算词频，写出词频向量：

上游组：上游1，原材料1，铝土矿1，氧化铝0 [1,1,1,0]

上游1，原材料1，铝土矿0，氧化铝1 [1,1,0,1]

中游组：

中游1，铝1，产品2，铝合金1，型材0 [1,1,2,1,0]

中游1，铝2，产品1，铝合金0，型材1，[1,2,1,0,1]

按照企业进行分组，中国铝业组：

中国1，铝业1，主营1，业务1，铝合金0，产品0，氧化铝1 [1,1,1,1,0,0,1]

中国1，铝业1，主营1，业务1，铝合金1，产品1，氧化铝0 [1,1,1,1,1,1,0]

S105，根据公式计算每个分组的余弦值，余弦值越接近1，就表明两个向量越相似，然后将每个组中，余弦值较大的进行删除，完成去重和消歧。

上述三元组在进行去重后，将剔除：

9、南山/铝业/主营/业务/铝合金/锭

最终得到的三元组结果如下，完成了三元组的知识融合功能。

1、上游/原材料/铝土矿

2、上游/原材料/氧化铝

3、中游/铝/产品/铝合金/产品

4、中游/铝/产品/铝/型材

5、下游/铝/应用/蓝宝石

6、中国/铝业/主营/业务/氧化铝

7、中国/铝业/主营/业务/铝合金/产品

8、南山/铝业/主营/业务/铝合金

9、南山/铝业/主营/业务/铝带板

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于向量空间的产业链知识图谱的构建方法，其特征在于：包括如下步骤：

S2、计算每个词项在向量中的权重TF-IDF；

S3、余弦相似度计算；

2.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法，其特征在于，所述S1中向量由n个Term组成，每个词都有一个权重(Term Weight)，不同的词根据自己在文档中的权重来影响文档相关性的重要程度。

3.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法，其特征在于，所述S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积：

其中：TF-IDF＝词频(TF)×逆文档频率(IDF)：

其中TF表示某个关键词出现的频率；

其中|D|表示所有文档的数目；

|w∈d|表示包含词语w的文档数目。

TF-IDF计算权重越大表示该词条对这个文本的重要性越大。

4.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法，其特征在于，所述S3中对于某个产业链的知识图谱内容，依次计算得到知识图谱中的三元组D1＝(w1,w2,...,wn)共n个关键词的权重；

知识图谱中的另一个三元组D2，采用相同的方法计算出D2＝(q1,q2,...,qn)，然后计算D1和D2的相似度；

5.根据权利要求4所述的一种基于向量空间的产业链知识图谱的构建方法，其特征在于，所述S3中D1和D2的相似度公式如下：

6.一种装置，其特征在于，所述装置包括基于向量空间的产业链知识图谱的构建方法所确定的装置。