CN112988974A - 一种基于向量空间的产业链知识图谱的构建方法及装置 - Google Patents

一种基于向量空间的产业链知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN112988974A
CN112988974A CN202110323249.6A CN202110323249A CN112988974A CN 112988974 A CN112988974 A CN 112988974A CN 202110323249 A CN202110323249 A CN 202110323249A CN 112988974 A CN112988974 A CN 112988974A
Authority
CN
China
Prior art keywords
knowledge graph
industry chain
vector space
term
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110323249.6A
Other languages
English (en)
Inventor
彭青松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuanyu Information Technology Co ltd
Original Assignee
Shanghai Yuanyu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuanyu Information Technology Co ltd filed Critical Shanghai Yuanyu Information Technology Co ltd
Priority to CN202110323249.6A priority Critical patent/CN112988974A/zh
Publication of CN112988974A publication Critical patent/CN112988974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于向量空间的产业链知识图谱的构建方法,包括如下步骤:S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象成一个向量;S2、计算每个词项在向量中的权重TF‑IDF;S3、余弦相似度计算;S4、根据计算得到的值进行相似度计算,值越大表示两个三元组的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产业链知识图谱中的所有三元组完成该知识图谱的知识融合,本发明中通过使用基于向量空间的计算方法,解决了产业链知识图谱构建过程中出现的实体重名、多名已经名称歧义等问题,对于知识图谱中的实体进行实体识别、歧义消解和指代消解,从而对于产业链知识图谱的实体进行去重,获得更加准确的数据。

Description

一种基于向量空间的产业链知识图谱的构建方法及装置
技术领域
本发明涉及知识图谱技术领域,具体为一种基于向量空间的产业 链知识图谱的构建方法及装置。
背景技术
知识图谱本质上是一种语义网络,用图的形式描述客观事物,图 由节点和边组成的,知识图谱中的节点表示概念和实体,概念是抽象 出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的 内部特征用属性来表示,外部联系用关系来表示,实体可以是人,地 方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关 系,人与组织之间的关系,概念与某个物体之间的关系等等,知识图 谱以“实体-关系-实体”或“实体-属性-属性值”的三元组存储,形 成一个图状知识库,其中,实体是知识图谱的基本元素,指具体的人 名、组织机构名、地名、日期、时间等,关系是两个实体之间的语义 关系,是模式层所定义关系的实例,属性是对实体的说明,是实体与 属性值之间的映射关系,在知识图谱的数据层,节点表示实体,边表 示实体间关系或实体的属性;
在进行产业链知识图谱构建时,会碰到很多汉语命名的实体识别 和实体名称歧义,另外,还有名称歧义的问题,解决实体识别和歧义 消解的过程就是知识融合,目前,主流的知识融合技术就是基于规则、 基于统计或者进行人工干预,所以急需一种基于向量空间的计算方法, 通过计算各个实体名称之间的余弦相似度,从而进行知识图谱的知识 融合。
发明内容
本发明提供一种基于向量空间的产业链知识图谱的构建方法及 装置,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于向量空间 的产业链知识图谱的构建方法,包括如下步骤:
S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象 成一个向量;
S2、计算每个词项在向量中的权重TF-IDF;
S3、余弦相似度计算;
S4、根据计算得到的值进行相似度计算,值越大表示两个三元组 的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产 业链知识图谱中的所有三元组完成该知识图谱的知识融合。
根据上述技术方案,所述S1中向量由n个Term组成,每个词都 有一个权重(TermWeight),不同的词根据自己在文档中的权重来影 响文档相关性的重要程度。
根据上述技术方案,所述S2中TF-IDF表示TF(词频)和IDF (逆文档频率)的乘积:
其中:TF-IDF=词频(TF)×逆文档频率(IDF):
把产业链的知识图谱看作为一篇文章,词频(Term Frequency, 简称TF)表示特征词出现的次数除以该文章总词数:
Figure BDA0002992685670000031
其中TF表示某个关键词出现的频率;
IDF为所有三元组的数目除以包含该词语的三元组数目的对数值;
Figure BDA0002992685670000032
其中|D|表示所有文档的数目;
|w∈d|表示包含词语w的文档数目。
TF-IDF计算权重越大表示该词条对这个文本的重要性越大。
根据上述技术方案,所述S3中对于某个产业链的知识图谱内容, 依次计算得到知识图谱中的三元组D1=(w1,w2,...,wn)共n个关 键词的权重;
知识图谱中的另一个三元组D2,采用相同的方法计算出D2=(q1, q2,...,qn),然后计算D1和D2的相似度;
计算两个知识图谱间的相似度通过两个向量的余弦夹角cos来 描述。
根据上述技术方案,所述S3中D1和D2的相似度公式如下:
Figure BDA0002992685670000033
其中分子表示两个向量的点乘积,分母表示两个向量的模的积。
根据上述技术方案,一种装置,所述装置包括基于向量空间的产 业链知识图谱的构建方法所确定的装置。
与现有技术相比,本发明的有益效果:本发明中通过使用基于向 量空间的计算方法,解决了产业链知识图谱构建过程中出现的实体重 名、多名已经名称歧义等问题,对于知识图谱中的实体进行实体识别、 歧义消解和指代消解,从而对于产业链知识图谱的实体进行去重,获 得更加准确的数据,通过该发明的方法,可以有效的进行实体名称的 歧义消解,从而获取更加准确的产业链知识图谱。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分, 与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。 在附图中:
图1是本发明的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处 所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明提供技术方案,一种基于向量空间的产业链 知识图谱的构建方法,包括如下步骤:
S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象 成一个向量;
S2、计算每个词项在向量中的权重TF-IDF;
S3、余弦相似度计算;
S4、根据计算得到的值进行相似度计算,值越大表示两个三元组 的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产 业链知识图谱中的所有三元组完成该知识图谱的知识融合。
根据上述技术方案,S1中向量由n个Term组成,每个词都有一 个权重(TermWeight),不同的词根据自己在文档中的权重来影响文 档相关性的重要程度。
根据上述技术方案,S2中TF-IDF表示TF(词频)和IDF(逆文 档频率)的乘积:
其中:TF-IDF=词频(TF)×逆文档频率(IDF):
把产业链的知识图谱看作为一篇文章,词频(Term Frequency, 简称TF)表示特征词出现的次数除以该文章总词数:
Figure BDA0002992685670000051
其中TF表示某个关键词出现的频率;
IDF为所有三元组的数目除以包含该词语的三元组数目的对数值;
Figure BDA0002992685670000052
其中|D|表示所有文档的数目;
|w∈d|表示包含词语w的文档数目。
TF-IDF计算权重越大表示该词条对这个文本的重要性越大。
根据上述技术方案,S3中对于某个产业链的知识图谱内容,依 次计算得到知识图谱中的三元组D1=(w1,w2,...,wn)共n个关键 词的权重;
知识图谱中的另一个三元组D2,采用相同的方法计算出D2=(q1, q2,...,qn),然后计算D1和D2的相似度;
计算两个知识图谱间的相似度通过两个向量的余弦夹角cos来 描述。
根据上述技术方案,S3中D1和D2的相似度公式如下:
Figure BDA0002992685670000061
其中分子表示两个向量的点乘积,分母表示两个向量的模的积。
根据上述技术方案,一种装置,装置包括基于向量空间的产业链 知识图谱的构建方法所确定的装置。
实施例2:
本实施方式中,对于产业链知识图谱的构建整个实施流程如下所 述:
S101,对外部资源文件进行加载读取,以铝产业链为例,导入上 市公司25家铝企业的2019年年报文件(非机构化数据)、25家上市 公司铝企股票信息(结构化数据)。
S102,对文件中的内容进行实体抽取、属性抽取和关系抽取,为 每家上市公司生成一系列的三元组,如:
(上游,原材料,铝土矿),(上游,原材料,氧化铝)
(中游,铝产品,铝合金产品),(中游,铝产品,铝型材),(中 游,铝产品,铝加工件),(中游,铝产品,铝型材)
(下游,铝应用,蓝宝石)、(下游,铝应用,铝电池),(下游, 铝应用,航空航天器材)
(中国铝业,主营业务,氧化铝),(中国铝业,主营业务,铝合 金产品);
(南山铝业,主营业务,铝合金),(南山铝业,主营业务,铝合 金锭),(南山铝业,主营业务,铝板带)
S103,将每个三元组看成一句话,并进行分词,得到的句子如下:
1、上游/原材料/铝土矿
2、上游/原材料/氧化铝
3、中游/铝/产品/铝合金/产品
4、中游/铝/产品/铝/型材
5、下游/铝/应用/蓝宝石
6、中国/铝业/主营/业务/氧化铝
7、中国/铝业/主营/业务/铝合金/产品
8、南山/铝业/主营/业务/铝合金
9、南山/铝业/主营/业务/铝合金/锭
10、南山/铝业/主营/业务/铝带板
S104,把所有的三元组进行分组,将需要进行去重和消歧的三元 组放在一起,列出所有的词并进行计算词频,写出词频向量:
上游组:上游1,原材料1,铝土矿1,氧化铝0 [1,1,1,0]
上游1,原材料1,铝土矿0,氧化铝1 [1,1,0,1]
中游组:
中游1,铝1,产品2,铝合金1,型材0 [1,1,2,1,0]
中游1,铝2,产品1,铝合金0,型材1,[1,2,1,0,1]
按照企业进行分组,中国铝业组:
中国1,铝业1,主营1,业务1,铝合金0,产品0,氧化铝1 [1,1,1,1,0,0,1]
中国1,铝业1,主营1,业务1,铝合金1,产品1,氧化铝0 [1,1,1,1,1,1,0]
S105,根据公式计算每个分组的余弦值,余弦值越接近1,就表 明两个向量越相似,然后将每个组中,余弦值较大的进行删除,完成 去重和消歧。
上述三元组在进行去重后,将剔除:
9、南山/铝业/主营/业务/铝合金/锭
最终得到的三元组结果如下,完成了三元组的知识融合功能。
1、上游/原材料/铝土矿
2、上游/原材料/氧化铝
3、中游/铝/产品/铝合金/产品
4、中游/铝/产品/铝/型材
5、下游/铝/应用/蓝宝石
6、中国/铝业/主营/业务/氧化铝
7、中国/铝业/主营/业务/铝合金/产品
8、南山/铝业/主营/业务/铝合金
9、南山/铝业/主营/业务/铝带板
与现有技术相比,本发明的有益效果:本发明中通过使用基于向 量空间的计算方法,解决了产业链知识图谱构建过程中出现的实体重 名、多名已经名称歧义等问题,对于知识图谱中的实体进行实体识别、 歧义消解和指代消解,从而对于产业链知识图谱的实体进行去重,获 得更加准确的数据,通过该发明的方法,可以有效的进行实体名称的 歧义消解,从而获取更加准确的产业链知识图谱。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用 于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对 于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术 方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含 在本发明的保护范围之内。

Claims (6)

1.一种基于向量空间的产业链知识图谱的构建方法,其特征在于:包括如下步骤:
S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象成一个向量;
S2、计算每个词项在向量中的权重TF-IDF;
S3、余弦相似度计算;
S4、根据计算得到的值进行相似度计算,值越大表示两个三元组的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产业链知识图谱中的所有三元组完成该知识图谱的知识融合。
2.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S1中向量由n个Term组成,每个词都有一个权重(Term Weight),不同的词根据自己在文档中的权重来影响文档相关性的重要程度。
3.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积:
其中:TF-IDF=词频(TF)×逆文档频率(IDF):
把产业链的知识图谱看作为一篇文章,词频(Term Frequency,简称TF)表示特征词出现的次数除以该文章总词数:
Figure FDA0002992685660000011
其中TF表示某个关键词出现的频率;
IDF为所有三元组的数目除以包含该词语的三元组数目的对数值;
Figure FDA0002992685660000021
其中|D|表示所有文档的数目;
|w∈d|表示包含词语w的文档数目。
TF-IDF计算权重越大表示该词条对这个文本的重要性越大。
4.根据权利要求1所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S3中对于某个产业链的知识图谱内容,依次计算得到知识图谱中的三元组D1=(w1,w2,...,wn)共n个关键词的权重;
知识图谱中的另一个三元组D2,采用相同的方法计算出D2=(q1,q2,...,qn),然后计算D1和D2的相似度;
计算两个知识图谱间的相似度通过两个向量的余弦夹角cos来描述。
5.根据权利要求4所述的一种基于向量空间的产业链知识图谱的构建方法,其特征在于,所述S3中D1和D2的相似度公式如下:
Figure FDA0002992685660000022
其中分子表示两个向量的点乘积,分母表示两个向量的模的积。
6.一种装置,其特征在于,所述装置包括基于向量空间的产业链知识图谱的构建方法所确定的装置。
CN202110323249.6A 2021-03-25 2021-03-25 一种基于向量空间的产业链知识图谱的构建方法及装置 Pending CN112988974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110323249.6A CN112988974A (zh) 2021-03-25 2021-03-25 一种基于向量空间的产业链知识图谱的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110323249.6A CN112988974A (zh) 2021-03-25 2021-03-25 一种基于向量空间的产业链知识图谱的构建方法及装置

Publications (1)

Publication Number Publication Date
CN112988974A true CN112988974A (zh) 2021-06-18

Family

ID=76333721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110323249.6A Pending CN112988974A (zh) 2021-03-25 2021-03-25 一种基于向量空间的产业链知识图谱的构建方法及装置

Country Status (1)

Country Link
CN (1) CN112988974A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836293A (zh) * 2021-09-23 2021-12-24 平安国际智慧城市科技股份有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质
CN114219089A (zh) * 2021-11-11 2022-03-22 山东人才发展集团信息技术有限公司 一种新一代信息技术产业知识图谱的构建方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836293A (zh) * 2021-09-23 2021-12-24 平安国际智慧城市科技股份有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质
CN113836293B (zh) * 2021-09-23 2024-04-16 平安国际智慧城市科技股份有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质
CN114219089A (zh) * 2021-11-11 2022-03-22 山东人才发展集团信息技术有限公司 一种新一代信息技术产业知识图谱的构建方法及设备

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
Minkov et al. Contextual search and name disambiguation in email using graphs
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN105808768B (zh) 一种基于图书的概念-描述词知识网络的构建方法
CN112988974A (zh) 一种基于向量空间的产业链知识图谱的构建方法及装置
CN113157940A (zh) 一种产业链知识图谱的知识融合方法
Nasution et al. Studies on behaviour of information to extract the meaning behind the behaviour
Satpal et al. Web information extraction using markov logic networks
Albishre et al. Effective 20 newsgroups dataset cleaning
CN106897437B (zh) 一种知识***的高阶规则多分类方法及其***
CN114254201A (zh) 一种科技项目评审专家的推荐方法
US20100138414A1 (en) Methods and systems for associative search
JP7153420B2 (ja) データベース中にグラフ情報を記憶するためのb木使用
CN105868366A (zh) 基于概念关联的概念空间导航方法
CN112328794A (zh) 台风事件信息聚合方法
Abdulhayoglu et al. Using character n-grams to match a list of publications to references in bibliographic databases
Benny et al. Hadoop framework for entity resolution within high velocity streams
CN109710742A (zh) 一种个股公告自然语言查询处理的方法、***及设备
CN113204696A (zh) 一种基于文本图谱的智能搜索引擎的检索方法
WO2015094889A2 (en) Trending analysis for streams of documents
Priya et al. Entity resolution for high velocity streams using semantic measures
Minkov et al. An Email and Meeting Assistant Using Graph Walks.
Shobha et al. Integration and rule-based pre-processing of scientific publication records from multiple data sources
CN104090966A (zh) 基于图模型的半结构化数据检索方法
Wu Skewer: Sentiment knowledge extraction with entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618

RJ01 Rejection of invention patent application after publication