CN110598005B - 一种面向公共安全事件的多源异构数据知识图谱构建方法 - Google Patents

一种面向公共安全事件的多源异构数据知识图谱构建方法 Download PDF

Info

Publication number
CN110598005B
CN110598005B CN201910842031.4A CN201910842031A CN110598005B CN 110598005 B CN110598005 B CN 110598005B CN 201910842031 A CN201910842031 A CN 201910842031A CN 110598005 B CN110598005 B CN 110598005B
Authority
CN
China
Prior art keywords
data
entity
public safety
safety event
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910842031.4A
Other languages
English (en)
Other versions
CN110598005A (zh
Inventor
李文波
王海雷
吴雪莲
卢鹏程
常一帆
孙晓晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Technology Innovation Engineering Institute of CAS
Original Assignee
Hefei Technology Innovation Engineering Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Technology Innovation Engineering Institute of CAS filed Critical Hefei Technology Innovation Engineering Institute of CAS
Priority to CN201910842031.4A priority Critical patent/CN110598005B/zh
Publication of CN110598005A publication Critical patent/CN110598005A/zh
Application granted granted Critical
Publication of CN110598005B publication Critical patent/CN110598005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向公共安全事件的多源异构数据知识图谱构建方法,与现有技术相比解决了公共安全事件涉及数据量太大难以归纳分析的缺陷。本发明包括以下步骤:基础数据的获取;对公共安全事件多源异构数据进行实体识别及关系抽取;构建公共安全事件骨干实体知识图谱;构建公共安全事件的多源异构数据知识图谱。本发明通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据支撑,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高。

Description

一种面向公共安全事件的多源异构数据知识图谱构建方法
技术领域
本发明涉及数据语义分析技术领域,具体来说是一种面向公共安全事件的多源异构数据知识图谱构建方法。
背景技术
自2012年谷歌发布知识图谱以来,知识图谱一直因其强大的事件表达能力、关系联系能力、信息快速搜索能力和知识推理能力,被广泛应用于各种人工智能方向,例如问答机器人、智能搜索引擎等。知识图谱是语义网络和数据库的结合,由海量的三元组数据(实体,关系,实体)组成,实体与关系之间是有方向的,这种形式可以快速获取与事物相关的所有知识。
在公共安全领域,由于公共安全事件数据是从各个渠道获取,导致数据包含结构型数据、半结构化数据和非结构型数据,而且数据的质量不同,很难达到对公共安全事件的完好表达。
那么,如何将知识图谱应用于公共安全事件,以知识图谱强大的事件表达、关系互联以及知识推理能力实现公共安全事件的技术展示,已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中公共安全事件涉及数据量太大难以归纳分析的缺陷,提供一种面向公共安全事件的多源异构数据知识图谱构建方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种面向公共安全事件的多源异构数据知识图谱构建方法,包括以下步骤:
基础数据的获取:获取公共安全事件多源异构数据;
对公共安全事件多源异构数据进行实体识别及关系抽取;
构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。
所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
所述构建公共安全事件骨干实体知识图谱包括以下步骤:
根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
对非结构化数据进行实体关系提取,得到三元组数据;
将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
将每个实体映射到K维主题空间,用主题向量进行表示;
对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
所述的双向LSTM神经网络模型5层结构设置方法如下:
设定第一层为输入层:将句子输入到模型中;
设定第二层为Embedding层:将每个词映射到低维空间;
设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT
其中
Figure BDA0002194020300000041
dw为词向量的维度;
设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子将表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
有益效果
本发明的一种面向公共安全事件的多源异构数据知识图谱构建方法,与现有技术相比通过对多源异构数据的处理,对公共安全事件的表达在各个方面都有数据支撑,利用准确、大量的数据使得对公共安全事件构建知识图谱的专业性能有所提高;通过利用地理知识原理对公共安全事件的表达有一个完整的,包含时间和空间属性实体的构建知识图谱的方法,进一步完善知识图谱的准确;通过使用公共安全领域的专业知识来获得知识图谱,可以进行高效、准确的知识推理,进一步完善公共安全事件知识图谱的专业性。
本发明将公共安全事件的海量大数据变为三元组形式,对公共安全事件的表达得到提升,进一步利用知识图谱的知识推理能力,对公共安全事件进行分析判断。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种面向公共安全事件的多源异构数据知识图谱构建方法,包括以下步骤:
第一步,基础数据的获取:获取公共安全事件多源异构数据。
第二步,对公共安全事件多源异构数据进行实体识别及关系抽取。
利用获取到的公共安全事件多源异构数据,从中提取实体和关系,针对结构化的数据,通过建立数据库中概念和知识图谱中的本体的映射关系得到相关的规则抽取器进行抽取,对于半结构化数据则是建立相关模板抽取器进行抽取,而对于非结构化数据,则可以先根据结构化数据和半结构化数据所建立的知识图谱进行训练集的抽取,利用深度学习方法来训练出相应的公共安全知识表达抽取器。其具体步骤如下:
(1)对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,这使得该模型对于公共安全领域极为敏感。因为bert在实体识别方面有下游接口,所以只要加入起始和结束的符号,对于最后BERT每个位置的输出都加入一个线性的分类器就可以了。不过在使用bert的时候,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分。
(2)对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构。
双向LSTM神经网络模型5层结构设置方法如下:
A1)设定第一层为输入层:将句子输入到模型中;
A2)设定第二层为Embedding层:将每个词映射到低维空间;
A3)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
A31)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:it=σ(Wxixt+Whiht-1+Wcict-1+bi);
A32)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
A33)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
A34)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
A35)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:
ht=ottanh(ct);
A4)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT
其中
Figure BDA0002194020300000061
dw为词向量的维度;
A5)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出。
第三步,构建公共安全事件骨干实体知识图谱。根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱。其具体步骤如下:
(1)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体}。
对公共安全事件知识图谱进行构建,先构建公共安全事件的本体知识库,就是数据的模式信息。根据公共安全数据中的一些数据模式形式,提取本体知识,构建公共安全事件的本体库。通过公共安全事件的本体库,可以快速分析数据是否是关于公共安全事件。
(2)对结构化数据进行图映射或者D2R数据转换,得到三元组数据。
(3)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据。
(4)对非结构化数据进行实体关系提取,得到三元组数据。
(5)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体。
(6)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱。
第四步,构建公共安全事件的多源异构数据知识图谱。
根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱。其具体步骤如下:
(1)对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题。
(2)将每个实体映射到K维主题空间,用主题向量进行表示。
(3)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重。
(4)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (1)

1.一种面向公共安全事件的多源异构数据知识图谱构建方法,其特征在于,包括以下步骤:
11)基础数据的获取:获取公共安全事件多源异构数据;
12)对公共安全事件多源异构数据进行实体识别及关系抽取;
所述对公共安全事件多源异构数据进行实体识别及关系抽取包括以下步骤:
121)对公共安全事件多源异构数据利用bert模型进行实体识别,
使用结巴分词器将公共安全事件的结构化数据进行预处理,再用bert模型进行训练,最后得到关于公共安全事件的bert模型,在bert输出端加入softmax分类器,解决公共安全事件中多个相近实体的区分;
122)对公共安全事件多源异构数据进行关系抽取:
使用双向LSTM神经网络模型加入Attention机制方法对公共安全事件多源异构数据进行关系抽取,Attention机制用于自动发现那些对于分类起到关键作用的词,使得双向LSTM神经网络模型模型从每个句子中捕获最重要的语义信息,将双向LSTM神经网络模型设置为5层结构;
所述的双向LSTM神经网络模型5层结构设置方法如下:
1221)设定第一层为输入层:将句子输入到模型中;
1222)设定第二层为Embedding层:将每个词映射到低维空间;
1223)设定第三层为LSTM层:使用双向LSTM从Embedding层获取高级特征;
其中LSTM层包含四个部分:
12231)输入门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
12232)遗忘门:包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,决定丢弃多少旧信息:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
12233)细胞状态:包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息:ct=itgt+ftct-1
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc);
12234)输出门:包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:
ot=σ(Wxoxt+Whoht-1+Wcoct+bo);
12235)输出的当前隐状态则由当前细胞状态乘以输出们的权重矩阵得到:ht=ottanh(ct);
1224)设定第四层为Attention层:生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;
将LSTM层输入的向量集合表示为H:[h1,h2,...,hT],
其Attention层得到的权重矩阵由下面的方式得到:
M=tanh(H)
α=softmax(wTM)
r=HαT
其中
Figure FDA0003638135190000021
dw为词向量的维度;
1225)设定第五层为输出层:将句子级的特征向量用于关系分类,以分类的句子表示如下:
h*=tanh(r),经过softmax分类器分类得到关系向量并输出;
13)构建公共安全事件骨干实体知识图谱:根据公共安全事件所属领域,基于地理空间原理构建公共安全事件骨干实体知识图谱;
所述构建公共安全事件骨干实体知识图谱包括以下步骤:
131)根据公共安全事件数据中的数据模式形式,提取本体知识,构建公共安全事件的本体库,公共安全事件的本体库的形式为{实体,关系,实体};
132)对结构化数据进行图映射或者D2R数据转换,得到三元组数据;
133)对半结构化数据进行制作三元组数据提取模板,通过模板抽取器提取数据,得到三元组数据;
134)对非结构化数据进行实体关系提取,得到三元组数据;
135)将得到的三元组数据与本体库中对应的本体知识进行本体对齐操作,消除同义词、近义词实体,对三元组实体进行实体匹配操作,消去重复实体;
136)使用图数据库软件Neo4j保存得到的三元组数据,构成公共安全事件骨干实体知识图谱;
14)构建公共安全事件的多源异构数据知识图谱:根据公共安全事件所属部门提供的资料对骨干知识图谱进行属性关系补充,实现结构化、半结构化、非结构化知识的抽取,构建完备的公共安全事件的多源异构数据知识图谱;
所述构建公共安全事件的多源异构数据知识图谱包括以下步骤:
141)对公共安全事件所属部门所提供资料数据进行分块,利用主题模型LDA对数据库中实体进行聚类,得到K个主题;
142)将每个实体映射到K维主题空间,用主题向量进行表示;
143)对结构化、半结构化、非结构化数据进行实体识别,通过计算实体相似性来判断实体是否是同一个实体,得到对应实体的向量表达:
实体相似性采用基于相似性函数的特征匹配方法,在多数据源实体对齐过程中两个实体e1和e2的相似性函数定义为:
sim(e1,e2)=(1-α)simsemantic(e1,e2)+αsimNB(e1,e2),
其中,simsemantic(e1,e2)是实体对语义相似性计算函数,simNB(e1,e2)是实体对属性结构相似性函数,0<α<1为两者的调节因子,用于调节两相似性的比重;
144)利用Trans系列知识推理模型,对不具有实体对齐的实体进行知识推理,推理出相应的实体向量和关系向量,在公共安全事件骨干实体知识图谱基础上补充出完备的公共安全事件的多源异构数据知识图谱。
CN201910842031.4A 2019-09-06 2019-09-06 一种面向公共安全事件的多源异构数据知识图谱构建方法 Active CN110598005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910842031.4A CN110598005B (zh) 2019-09-06 2019-09-06 一种面向公共安全事件的多源异构数据知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910842031.4A CN110598005B (zh) 2019-09-06 2019-09-06 一种面向公共安全事件的多源异构数据知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN110598005A CN110598005A (zh) 2019-12-20
CN110598005B true CN110598005B (zh) 2022-08-16

Family

ID=68857910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910842031.4A Active CN110598005B (zh) 2019-09-06 2019-09-06 一种面向公共安全事件的多源异构数据知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110598005B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191462B (zh) * 2019-12-30 2022-02-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及***
CN111428054B (zh) * 2020-04-14 2022-11-01 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111611410B (zh) * 2020-06-23 2024-01-12 中国人民解放军国防科技大学 基于多层网络空间知识表示的知识处理方法和装置
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111984770B (zh) * 2020-07-17 2023-10-20 深思考人工智能科技(上海)有限公司 一种人机对话的方法及装置
CN112380355A (zh) * 2020-11-20 2021-02-19 华南理工大学 一种时隙异构知识图谱的表示与存储方法
CN112487202B (zh) * 2020-11-27 2022-05-06 厦门理工学院 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112800235B (zh) * 2021-01-11 2023-10-31 厦门渊亭信息科技有限公司 一种可视化知识图谱数据建模方法和***
CN113111180B (zh) * 2021-03-22 2022-01-25 杭州祺鲸科技有限公司 基于深度预训练神经网络的中文医疗同义词聚类方法
CN114742055B (zh) * 2022-03-29 2024-06-14 北京感易智能科技有限公司 基于语义事件的海量多源异构数据处理方法及装置
CN115391545B (zh) * 2022-04-26 2024-06-28 航天宏图信息技术股份有限公司 一种面向多平台协同观测任务的知识图谱构建方法和装置
CN114722159B (zh) * 2022-06-01 2022-08-23 中科航迈数控软件(深圳)有限公司 针对数控机床制造资源的多源异构数据处理方法及***
CN115757573B (zh) * 2022-11-07 2023-11-14 中电科大数据研究院有限公司 一种图谱数据的处理方法、装置以及存储介质
CN116304115B (zh) * 2023-05-19 2023-08-11 ***后勤保障部信息中心 一种基于知识图谱的物资匹配替换方法和装置
CN117455745B (zh) * 2023-12-26 2024-03-19 四川省大数据技术服务中心 基于多维融合数据分析的公共安全事件感知方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388580A (zh) * 2018-01-24 2018-08-10 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
EP3407209A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Apparatus and method for extracting and storing events from a plurality of heterogeneous sources
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及***
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN110008355A (zh) * 2019-04-11 2019-07-12 华北科技学院 基于知识图谱的灾害场景信息融合方法及装置
CN110110093A (zh) * 2019-04-08 2019-08-09 深圳众赢维融科技有限公司 一种基于知识图谱的识别方法、装置、电子设备及存储介质
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180314756A1 (en) * 2017-04-26 2018-11-01 Linkedln Corporation Online social network member profile taxonomy

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3407209A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Apparatus and method for extracting and storing events from a plurality of heterogeneous sources
CN108388580A (zh) * 2018-01-24 2018-08-10 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及***
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN110110093A (zh) * 2019-04-08 2019-08-09 深圳众赢维融科技有限公司 一种基于知识图谱的识别方法、装置、电子设备及存储介质
CN110008355A (zh) * 2019-04-11 2019-07-12 华北科技学院 基于知识图谱的灾害场景信息融合方法及装置
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BERT嵌入的中文命名实体识别方法;杨飘 等;《计算机工程》;20190530;第1-8页 *

Also Published As

Publication number Publication date
CN110598005A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
Mou et al. Natural language inference by tree-based convolution and heuristic matching
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN113705218A (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
CN111353032B (zh) 面向社区问答的问题分类方法及***
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN113076468B (zh) 一种基于领域预训练的嵌套事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant