CN108182295A - 一种企业知识图谱属性抽取方法及*** - Google Patents

一种企业知识图谱属性抽取方法及*** Download PDF

Info

Publication number
CN108182295A
CN108182295A CN201810136568.4A CN201810136568A CN108182295A CN 108182295 A CN108182295 A CN 108182295A CN 201810136568 A CN201810136568 A CN 201810136568A CN 108182295 A CN108182295 A CN 108182295A
Authority
CN
China
Prior art keywords
attribute
event
entity
word
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810136568.4A
Other languages
English (en)
Other versions
CN108182295B (zh
Inventor
孙世通
刘德彬
严开
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Yijin Technology Co.,Ltd.
Chongqing Yucun Technology Co ltd
Original Assignee
Chongqing Yu Yu Da Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Yu Yu Da Data Technology Co Ltd filed Critical Chongqing Yu Yu Da Data Technology Co Ltd
Priority to CN201810136568.4A priority Critical patent/CN108182295B/zh
Publication of CN108182295A publication Critical patent/CN108182295A/zh
Application granted granted Critical
Publication of CN108182295B publication Critical patent/CN108182295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种企业知识图谱属性抽取方法,包括以下步骤:定义实体类别和事件类别;对每一类实体定义属性结构;语料准备和打标;实体属性抽取;实体属性融合。本发明=结合专家对具体领域实体属性的知识与机器学习对文本内容抽取与分类的客观性、高效性,并应用于全量企业数据的中文语料中;实现以较少量的标注识别各类目标属性。解决对于知识图谱中节点实体属性的抽取及多来源属性融合的问题。

Description

一种企业知识图谱属性抽取方法及***
技术领域
本发明涉及一种信息处理方法及***具体涉及一种企业知识图谱属性抽取方法及***。
背景技术
知识图谱是一种基于图数据结构的语义网络,其基本的单位是节点(Node)和边(Edge)。在企业知识图谱中,节点表征事件实体和企业实体;边表征实体间的关系。整个企业知识图谱中,如果聚焦一家企业,则可以发现其基本信息,各事件节点串接而成的发展历程,各层关联企业群聚等内容(这里的“关联”包含但不仅限于股权投资、合作、上下游、从属等)。
知识图谱应用于企业信息与企业风险发现领域,其核心价值在于把各个类别的企业信息有机地串联起来,从而有助于风险模型去识别其中隐藏的关联风险、族群风险等。而在结构化节点数据这一步骤中,主要面临两大问题:1)从不同数据源中抽取不同属性,2)对同一实体中来自不同来源的属性进行合理融合。
就技术层面而言,要构建这样的企业知识图谱,须要攻克以下两个难点:
实体属性抽取及多来源属性融合和不同实体间关系的确立。
现有技术采用基于行业经验规则与词典的属性抽取与融合和基于监督学习和模式匹配的属性抽取与融合。
现有技术的缺点是基于行业经验规则与词典的属性抽取与融合:对不同行业的实体,其行业属性的确定都需要资深行业专家介入,但全依靠人力始终无法克服标注效率低下,标注标准不一致等问题。而依靠统一规范的词典虽然能识文本中以动词为中心词的关系,但对于名词同位语之类的关系抽取就容易误判。此外这种方法无法对未登录词进行有效地处理和判断。
现有技术也有采用基于监督学习和模式匹配的属性抽取与融合:通过在人工标注的语料上构造分类器,但其主要瓶颈在于需要的标注较多,且对数据质量要求较高。
现有技术企业知识图谱属性抽取以文本数据为主,但遇到图、音视频、文本同时出现,需要跨源处理时存在一定的制约。在建模过程中也没有考虑到抽取不同层次、粒度的实体与关系的情况。
现有技术企业知识图谱属性抽取对目标文本的处理采用人工标注,效率低下成本高昂,不能对海量文本快速处理。
现有技术企业知识图谱属性抽取不能实现文本之间相关性分析和推理,实现端到端的自适应学习与关系建立。
发明内容
本发明提供一种可以高效、自动、准确进行企业知识图谱属性抽取的方法,包括以下步骤:
定义训练样本的实体类别、事件类别、实体属性结构;
训练样本语料准备和打标;
训练实体属性抽取模型;
将目标文本输入实体属性抽取模型得到目标文本实体属性;
对目标文本执行实体属性融合。
进一步的,所述定义训练样本的实体类别、事件类别、实体属性结构包括,
定义实体类别为企业因素或/和个人因素;
定义事件类别为裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故中的多种或一种;
定义属性的字段为类型字段、时间字段、标记字段、主体字段中的多种或一种;
训练样本语料准备和打标包括,对训练样本库各文本的事件类别和实体属性结构标注。
进一步的,训练实体属性抽取模型包括以下步骤:
S1:按字标注,将N*K维字向量矩阵作为第一双向长短时记忆循环神经网络输入,得到每个字的N*T维标注类概率分布矩阵,其中N为批尺寸数值,K为字嵌入向量长度,T为字标注的类别数,最大值的位置对应当前字的标签,并获取每个字的字嵌入数据;
S2:确定训练样本主体信息;
S3:按下式定义事件向量,其中,eventEmbedding为事件向量,wj表示句子中第j个字的向量,n表示主体前后距离n以内的句子;
按事件标注,将N*K维事件向量矩阵作为第二双向长短时记忆循环神经网络初始输入,其中N为批尺寸数值,K为字嵌入向量长度,L为事件标注的类别数,最大值的位置对应了当前事件的标签。
定义贝叶斯网路为:
P(A,B,C,D)=P(D|A,B)*P(C|A)*P(B|A)P(A)
A为文本是否描述某类事件的概率,
B为事件抽取成功的概率,
C为含时间信息的概率,
D为含特定领域词汇的概率,
其中B的值由N*L维标注类概率分布矩阵输出的标签是否与训练样本打标相同决定,若相同则B赋值为1若不相同则B赋值为0,
从第二双向长短时记忆循环神经网络获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果反馈至第二双向长短时记忆循环神经网络;
S4:定义损失函数为双向长短时记忆循环神经网络每个时间节点的输出与训练样本打标数据的均方误差,重复步骤S3至损失函数收敛。
进一步的,实体属性抽取模型,包括,
从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入;
或者,
从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入;
进一步的,对目标文本执行实体属性融合包括以下步骤:
A依据与结构模板的相似性,选定事件实体数据的基础结构作为基底值;
B遍历候选集事件,按树型结构深度优先顺序匹配树型;
C当两个事件比较时,遵循以下规则:
若存在基础结构中节点属性值缺失,则直接补充;
若存在基础结构中,对应的节点属性值发生冲突,若质量评估函数得出候选集的属性值较优,对基底的非空值进行替换;
若基底属性为列表格式,对基底的表增添候选集中独有的非重复元素;
D重复步骤B和步骤C至属性无法继续完善。
为了保证上述方法的实施,本发明还提供一种企业知识图谱属性抽取***,包括以下单元:
定义单元,用于定义训练样本的实体类别、事件类别、实体属性结构;
打标单元,用于训练样本语料准备和打标;
训练单元,用于训练实体属性抽取模型;
实体属性抽取单元,用于将目标文本输入实体属性抽取模型得到目标文本实体属性;
属性融合单元,用于对目标文本执行实体属性融合。
进一步的,定义单元定义训练样本的实体类别、事件类别、实体属性结构包括,
定义实体类别为企业因素或/和个人因素;
定义事件类别为裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故中的多种或一种;
定义属性的字段为类型字段、时间字段、标记字段、主体字段中的多种或一种;
所述训练样本语料准备和打标包括对训练样本库各文本的事件类别和实体属性结构标注。
进一步的,训练单元采用以下步骤训练实体属性抽取模型:
S1:按字标注,将N*K维字向量矩阵作为第一双向长短时记忆循环神经网络输入,得到每个字的N*T维标注类概率分布矩阵,其中N为批尺寸数值,K为字嵌入向量长度,T为字标注的类别数,最大值的位置对应当前字的标签,并获取每个字的字嵌入数据;
S2:确定训练样本主体信息;
S3:按下式定义事件向量,其中,eventEmbedding为事件向量,wj表示句子中第j个字的向量,n表示主体前后距离n以内的句子;
按事件标注,将N*K维事件向量矩阵作为第二双向长短时记忆循环神经网络初始输入,其中N为批尺寸数值,K为字嵌入向量长度,L为事件标注的类别数,最大值的位置对应了当前事件的标签。
定义贝叶斯网路为:
P(A,B,C,D)=P(D|A,B)*P(C|A)*P(B|A)P(A)
A为文本是否描述某类事件的概率,
B为事件抽取成功的概率,
C为含时间信息的概率,
D为含特定领域词汇的概率,
其中B的值由N*L维标注类概率分布矩阵输出的标签是否与训练样本打标相同决定,若相同则B赋值为1,若不相同则B赋值为0,
从第二双向长短时记忆循环神经网络获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果反馈至第二双向长短时记忆循环神经网络;
S4:定义损失函数为双向长短时记忆循环神经网络每个时间节点的输出与训练样本打标数据的均方误差,重复步骤S3至损失函数收敛。
进一步的,实体属性抽取模型,包括,
从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵,并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入;
或者,
从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入;
进一步的,属性融合单元采取以下步骤对目标文本执行实体属性融合:
A依据与结构模板的相似性,选定事件实体数据的基础结构作为基底值;
B遍历候选集事件,按树型结构深度优先顺序成对匹配属性;
C当两个事件比较时,遵循以下规则:
若存在基础结构中节点属性值缺失,则直接补充;
若存在基础结构中,对应的节点属性值发生冲突,若质量评估函数得出候选集的属性值较优,对基底的非空值进行替换;
若基底属性为列表格式,对基底的表增添候选集中独有的非重复元素;
D重复步骤B和步骤C至属性无法继续完善。
本发明的有益效果是:
1实现多源异构数据中知识的获取以及降低算法模型对标签的依赖程度。
2实现实体属性抽取及多来源属性融合及不同实体间关系的确立。
3结合专家对具体领域实体属性的知识与机器学习对文本内容抽取与分类的客观性、高效性,并应用于全量企业数据的中文语料中;实现以较少量的标注识别各类目标属性。
4通过样本数据对属性抽取模型训练完毕后,对海量目标文本数据实现自动化实体属性抽取及知识图谱构建,提高了效率,降低了人力成本。
5本发明结合贝叶斯网络与LSTM的优势,提出贝叶斯回复式神经网络。其中,贝叶斯网络作对BiLSTM回复式神经网络进行反馈,实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性,在纵向上使用贝叶斯网络实现相关性分析和推理。同时,通过反馈贝叶斯网络的推理结果对BiLSTM进行更新,从而实现端到端的自适应学习与关系建立。
附图说明
图1为本发明一实施例企业知识图谱属性抽取方法流程图。
图2为本发明一实施例企业知识图谱属性抽取***结构图。
图3为现有技术长短期记忆网络示意图。
图4为现有技术BiLSTM神经网络模型示意图。
图5为本发明一实施例贝叶斯回复式神经网络模型示意图。
图6为本发明一实施例贝叶斯网络示意图。
图7为本发明现有技术LSTM记忆模块示意图。
图8为本发明一实施例特征融合示意图。
图9为本发明一实施例特征融合示意图。
具体实施方式
本发明解决背景技术描述问题的思路之一是:采用贝叶斯回复式神经网络作为实体属性抽取模型实现企业知识图谱属性抽取。其中,贝叶斯网络作为一个网络层堆栈到BiLSTM回复式神经网络的上层,从而实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性,在纵向上使用贝叶斯网络实现相关性分析和推理。同时,通过反馈贝叶斯网络的推理结果对BiLSTM进行更新,从而实现端到端的自适应学习与关系建立。构建准确高效的实体属性抽取模型,实现实体属性抽取的自动化。
如图1所示,本发明企业知识图谱属性抽取方法包括以下步骤:
定义训练样本的实体类别、事件类别、实体属性结构;
训练样本语料准备和打标;
训练实体属性抽取模型;
将目标文本输入实体属性抽取模型得到目标文本实体属性;
对目标文本执行实体属性融合。
其中,定义实体类别与事件类别步骤中,
实体类别可以是企业或个人。
事件类别可以是,裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故等
针对每一类实体,定义其标准化的属性结构,以事故类为例,在本发明一实施例中定义事件的属性结构为:
以股权为例,在本发明一实施例中定义事件的属性结构为:
语料的准备和打标步骤中,在本发明一实施例中字标注规范和含义如下:
B-ORG代表实体起始位标签
I-ORG代表实体组成标签
X代表标点等占位符
O代表其他文字
语料打标完成后,后续程序可以理解文本中实体的含义,方便机器对文本进行处理。
在本发明一实施例中按以上规范,完成训练文本每个字的打标。
在本发明一实施例中事件标签规范和含义如下:
JUDGE代表裁判文书;
NOTICE代表法院公告;
COURT代表开庭公告;
BIDDING代表招投标;
STOCK代表股权;
STRATEGY代表战略;
HR代表人事;
FINANCE代表财务;
DEBET代表债务;
PROD代表产品;
MARKET代表营销;
BRAND代表品牌;
ACCIDENT代表事故;
需要说明的是,事件的标签和规范可以根据具体的项目灵活选择,并且不限定只采用本发明列举的上述事件。
事件标签采用英语表述方便后续程序对文本进行处理。
按以上规范,完成训练文本每篇文本的打标。
在本发明一实施例中训练文本的打标由人工进行,打标结果作为后续步骤中模型训练的基准。
下面结合实施例对训练实体属性抽取模型步骤进行说明,
鉴于当前主流方法在处理实体属性抽取时存在的一系列问题(背景技术中提及),拟基于深度神经网络来应对这些难点。本发明提出在针对企业为主体的事件实体的属性抽取问题中,应用端到端的半监督和无监督的方法,从而实现多源异构数据中知识的获取以及降低算法模型对标签的依赖程度。
长短期记忆网络(Long Short-Term Memory Network,LSTM),是一种特殊的回复式神经网络,用以学习时间序列数据的长期依赖关系。其自被提出以来,已被广泛应用于手写、语音识别,机器翻译等诸多领域,并取得不俗的成绩。其能实现数据的长期记忆,在文本语义分析中有着显著的效果。LSTM在时间维度上进行展开,可得到链状LSTM神经网络,可对长度不确定的实体和实体间的关系进行建模,进而表征其各自的特征。LSTM记忆模块如图7所示。
LSTM的cell可用以下公式表征:
it=g(Wxixt+Whiht-1+bi)
ft=g(Wxfxt+Whfht-1+bf)
ot=g(Wxoxt+Whoht-1+bo)
输入变化可用以下公式表征:
c_int=tanh(Wxcxt+Whcht-1+bc_in)
状态变更可用以下公式表征:
ct=ft·ct-1+it·c_int
ht=ot·tanh(ct)
双向长短期记忆网络(Bidirectional LSTM,BiLSTM)包含前向隐含层与后向隐含层两组模块,可获取上下文长时间长范围的相关联依赖关系,捕获前后文实体特征,获取更多实体之间的时空相关性,并能从两个方向上排除干扰实体等噪声对神经网络模型的影响,极大助力对长期依赖关系的挖掘,提取出对信息抽取及实体关系识别等至关重要的高层语义特征。相对贝叶斯网络,LSTM及其变种的优势是能捕捉到实体间的长序列关系,但其推理能力和可解释性较差。BiLSTM神经网络模型如图4所示。
贝叶斯网络(Bayesian Network,BN),又称信念网络(Belief Network),是一种概率图模型。其模拟人类推理过程中因果关系的不确定性从而实现关系建立和推理,其具有良好的知识表现及处理不确定性知识的能力。此外,贝叶斯网络能从概率角度对知识进行编码和解释,在包括计算机智能科学、医疗诊断、信息检索等很多领域已得到广泛应用。贝叶斯网络的优点是强大的推理能力,而缺点则是对长序列的建模能力较差,不能很好地捕捉到实体与实体间的间接关系。
本发明结合贝叶斯网络与BiLSTM的优势,提出贝叶斯回复式神经网络。其中,贝叶斯网络作为一个网络层堆栈到BiLSTM回复式神经网络的上层,从而实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性,在纵向上使用贝叶斯网络实现相关性分析和推理。同时,通过反馈贝叶斯网络的推理结果对BiLSTM进行更新,从而实现端到端的自适应学习与关系建立。
本发明一实施例中贝叶斯回复式神经网络模型如图5所示。
本发明一实施例采用以下步骤训练实体属性抽取模型:
S1按字标注,将字向量矩阵(N*K)作为BiLSTM输入,得到每个字的标注类概率分布(N*4矩阵)。其中N为每个batch的长度,K为Embedding向量长度,4为字标注的类别数,最大值的位置对应了当前字的标签。此时同时还获得了每个字的word embedding。
Embedding可以看作是数学上的一个空间映射(Mapping):map(lambda y:f(x)),该映射的特点是:单射(在数学里,单射函数为一函数,其将不同的引数连接至不同的值上。更精确地说,函数f被称为是单射时,对每一值域内的y,存在至多一个定义域内的x使得f(x)=y。)、映射前后结构不变,对应到word embedding概念中可以理解为寻找一个函数或映射,生成新的空间上的表达,把单词one-hot所表达的X空间信息映射到Y的多维空间向量。
Batch Size:批尺寸。在本发明一实施例中该参数更新的方法有三种:
(1)Batch Gradient Descent,批梯度下降,遍历全部数据集计算一次损失函数,进行一次参数更新,这样得到的方向能够更加准确的指向极值的方向。
(2)Stochastic Gradient Descent,随机梯度下降,对每一个样本计算一次损失函数,进行一次参数更新,优点是速度快。
(3)Mini-batch Gradient Decent,小批梯度下降,前面两种方法的折中,把样本数据分为若干批,分批来计算损失函数和更新参数,这样方向比较稳定。S2根据序列标注的结果,从文本中获得事件的主体(subject)候选,
S2:通过句法和词性分析确定主体(依存句法分析,为本领域技术人员通晓的公知常识此处不再展开);
S3:按下式定义事件向量,其中,eventEmbedding为事件向量,wj表示句子中第j个字的向量,n表示主体前后距离n以内的句子;
通过上述步骤可以从训练文本或目标文本中每个字的标注类概率分布获取该文本的事件向量矩阵。
按事件标注,将事件向量矩阵(N*K)作为BiLSTM输入,得到训练样本中每个事件的标注类事件概率分布(N*L矩阵)。其中N为每个batch的长度,K为Embedding向量长度,L为事件标注的类别数(在后文不再赘述),最大值的位置对应了当前事件的标签。
最大值的位置对应了当前事件的标签,既在概率分布中最大概率的事件判断为实体属性抽取的结果。
在本发明一实施例中,按事件标注指训练样本中标注为同一事件类型的文本集合。
在本发明一实施例中,如图6所示依据实际依赖关系,定义贝叶斯网络既文本描述某类事件的联合概率文本描述某类事件的联合概率的DAG(有向无环图Directed AcyclicGraph)为:
P(A,B,C,D)=P(D|A,B)*P(C|A)*P(B|A)P(A)
A为文本是否描述某类事件的概率,
B为事件抽取成功的概率,
D为含特定领域词汇的概率,
C为含时间信息的概率,
其中B事件(抽取成功的概率),可通过计算语料的全体事件中,计算得到的标签是否与训练样本打标相同得到,若相同则B赋值为1若不相同则B赋值为0。
若第二双向长短时记忆循环神经网络输出的标签事件与人工标记的标签事件相同,则说明事件抽取成功,否则说明事件抽取不成功。
在本发明一实施例中,将一个训练样本输入BiLSTM得到这个样本的事件类别分布,其中该样本事件为事故的概率最大,既该样本抽取为事故事件,若对该样本的打标为事故则事件抽取成功B=1,若对该样本的打标不是事故则表示事件抽取失败B=0
在本发明一实施例中,事故事件含有特定领域词汇的概率为,样本库中人工标注所有发生事故事件的样本中含有特定领域词汇的样本数量除以人工标注为事故的样本总数量。
在本发明一实施例中,事故事件含有时间信息的概率为,样本库中人工标注所有发生事故事件的样本中含有时间信息的样本数量除以人工标注为事故的样本总数量。
贝叶斯网络输出的矩阵为文本是否描述某事件的概率分布矩阵;
从第二双向长短时记忆循环神经网络获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果反馈至第二双向长短时记忆循环神经网络;
具体的,上述过程可以包括两种实施方式,
第一实施方式:从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵,并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入;
具体的,第一实施方式包括,
如图8所示,从第二双向长短时记忆循环神经网络前向隐含层t时刻获取第一N*L维矩阵,并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层t时刻的输入;
本领域人员应当知晓,本发明中t时刻指输入序列t,循环神经网络在每一个时刻会有一个输入Xt。
在其他实施方式中从第二双向长短时记忆循环神经网络前向隐含层t1时刻获取第一N*L维矩阵,并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层t2时刻的输入,t1和t2为不同的输入序列;
第二实施方式:如图9所示,从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入;
在本发明中,贝叶斯网络作为一个网络层堆栈到BiLSTM回复式神经网络的上层,实现横向使用BiLSTM回复式神经网络捕捉实体间的长时间长范围的时空相关性,在纵向上使用贝叶斯网络实现相关性分析和推理。同时,通过反馈贝叶斯网络的推理结果对BiLSTM进行更新,从而实现端到端的自适应学习与关系建立。
需要说明的是,对双向长短时记忆循环神经网络输出矩阵和贝叶斯网络输出矩阵取算数平均值仅是矩阵特征融合的一种方式,本发明并不对此做限定,矩阵特征融合的方式还可以包括几何平均值,平方平均值(均方根平均值,rms),调和平均值,加权平均值等。
S4定义损失函数(loss function)为BiLSTM每个时间节点的输出与label的均方误差(mean square error),迭代模型至损失函数收敛即重复步骤S3至损失函数收敛。
下面结合实施例对目标文本执行实体属性融合步骤进行说明。
经过将目标文本输入实体属性抽取模型得到目标文本实体属性,可得到所有目标文本的主体及其属性结构,并得到目标文本所属事件类别的分布:
Distribution=[p1,p2,…,pL]
但对于不同数据源获得的事件中,有可能存在互相描述同一事件,但属性抽取结果各有缺失/冲突等现象。因此本发明引入融合策略,在事件抽取的基础上解决这一问题。
本发明定义两个事件的类别相似性可用他们事件分布的相似度表征(余弦相似度等)。抽取的事件太多的时候,两两遍历其相似度则会造成较大的计算开销。因此要获取事件候选集合,并在候选集合中选取待融合的事件集。
选取候选集合的基本规则如下:
事件主体相同
事件类别分布的相似度高(Cosine Similarity)
事件时间相近
对于事件候选集合,还需要实现属性的互补融合,该步骤主要依赖于时间、主体、类别等属性的匹配程度,达成相同事件的实体对齐。属性融合步骤如下:
A依据与结构模板的相似性,选定事件实体数据的基础结构作为基底值
B遍历候选集事件,按树型结构深度优先顺序成对匹配属性
C当两个事件比较时,遵循以下规则:
若存在基础结构中节点属性值缺失,则直接补充;
若存在基础结构中,对应的节点属性值发生冲突,若质量评估函数得出候选集的属性值较优,对基底的非空值进行替换;
若基底属性为列表格式,对基底的表增添候选集中独有的非重复元素;
D重复B~C直至属性无法继续完善
在本发明一实施例中对两个目标文本抽取到两个事件
本实施例中结构模板为
在本实施例中基础结构为
在本实施例中属性值为eventType、tags、subject、time、tags;
在本发明另一实施例中多个目标表文本通过属性抽取模型后得到两个事件:
事件1:
事件2:
由于上述两个事件具有相同的subject和相同time,既两个事件具有相同的结构模板,对事件1和时间2融合后得到事件3
在本发明另一实施例中多个目标文本通过属性抽取模型后得到两个事件:
事件4:
事件5:
在本实施例中两个事件存在相同的基底结构,但是time属性发出冲突,质量评估函数得出事件5的time属性值较优,故将事件4的time属性替换为time:2017-05-0800:00:00。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种企业知识图谱属性抽取方法,其特征在于,包括以下步骤:
定义训练样本的实体类别、事件类别、实体属性结构;
训练样本语料准备和打标;
训练实体属性抽取模型;
将目标文本输入实体属性抽取模型得到目标文本实体属性;
对目标文本执行实体属性融合。
2.根据权利要求1所述的一种企业知识图谱属性抽取方法,其特征在于,
所述定义训练样本的实体类别、事件类别、实体属性结构包括,
定义实体类别为企业因素或/和个人因素;
定义事件类别为裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故中的多种或一种;
定义属性的字段为类型字段、时间字段、标记字段、主体字段中的多种或一种;
训练样本语料准备和打标包括,对训练样本库各文本的事件类别和实体属性结构标注。
3.根据权利要求1所述的一种企业知识图谱属性抽取方法,其特征在于,
训练实体属性抽取模型包括以下步骤:
S1:按字标注,将N*K维字向量矩阵作为第一双向长短时记忆循环神经网络输入,得到每个字的N*T维标注类概率分布矩阵,其中N为批尺寸数值,K为字嵌入向量长度,T为字标注的类别数,最大值的位置对应当前字的标签,并获取每个字的字嵌入数据;
S2:确定训练样本主体信息;
S3:按下式定义事件向量,其中,eventEmbedding为事件向量,wj表示句子中第j个字的向量,n表示主体前后距离n以内的句子;
按事件标注,将N*K维事件向量矩阵作为第二双向长短时记忆循环神经网络初始输入,其中N为批尺寸数值,K为字嵌入向量长度,L为事件标注的类别数,最大值的位置对应了当前事件的标签;
定义贝叶斯网路为:
P(A,B,C,D)=P(D|A,B)*P(C|A)*P(B|A)P(A),
A为文本是否描述某类事件的概率,
B为事件抽取成功的概率,
C为含时间信息的概率,
D为含特定领域词汇的概率,
其中B的值由N*L维标注类概率分布矩阵输出的标签是否与训练样本打标相同决定,若相同则B赋值为1若不相同则B赋值为0,
从第二双向长短时记忆循环神经网络获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果反馈至第二双向长短时记忆循环神经网络;
S4:定义损失函数为双向长短时记忆循环神经网络每个时间节点的输出与训练样本打标数据的均方误差,重复步骤S3至损失函数收敛。
4.根据权利要求1至3中任意一项所述的一种企业知识图谱属性抽取方法,其特征在于,
实体属性抽取模型,包括,
从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入;
或者,
从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入。
5.根据权利要求1所述的一种企业知识图谱属性抽取方法,其特征在于,
对目标文本执行实体属性融合包括以下步骤:
A依据与结构模板的相似性,选定事件实体数据的基础结构作为基底值;
B遍历候选集事件,按树型结构深度优先顺序匹配属性;
C当两个事件比较时,遵循以下规则:
若存在基础结构中节点属性值缺失,则直接补充;
若存在基础结构中,对应的节点属性值发生冲突,若质量评估函数得出候选集的属性值较优,对基底的非空值进行替换;
若基底属性为列表格式,对基底的表增添候选集中独有的非重复元素;
D重复步骤B和步骤C至属性无法继续完善。
6.一种企业知识图谱属性抽取***,其特征在于,包括以下单元:
定义单元,用于定义训练样本的实体类别、事件类别、实体属性结构;
打标单元,用于训练样本语料准备和打标;
训练单元,用于训练实体属性抽取模型;
实体属性抽取单元,用于将目标文本输入实体属性抽取模型得到目标文本实体属性;
属性融合单元,用于对目标文本执行实体属性融合。
7.根据权利要求6所述的一种企业知识图谱属性抽取***,其特征在于,
定义单元定义训练样本的实体类别、事件类别、实体属性结构包括,
定义实体类别为企业因素或/和个人因素;
定义事件类别为裁判文书、法院公告、开庭公告、招投标、股权、战略、人事、财务、债务、产品、营销、品牌、事故中的多种或一种;
定义属性的字段为类型字段、时间字段、标记字段、主体字段中的多种或一种;
所述训练样本语料准备和打标包括对训练样本库各文本的事件类别和实体属性结构标注。
8.根据权利要求6所述的一种企业知识图谱属性抽取***,其特征在于,
训练单元采用以下步骤训练实体属性抽取模型:
S1:按字标注,将N*K维字向量矩阵作为第一双向长短时记忆循环神经网络输入,得到每个字的N*T维标注类概率分布矩阵,其中N为批尺寸数值,K为字嵌入向量长度,T为字标注的类别数,最大值的位置对应当前字的标签,并获取每个字的字嵌入数据;
S2:确定训练样本主体信息;
S3:按下式定义事件向量,其中,eventEmbedding为事件向量,wj表示句子中第j个字的向量,n表示主体前后距离n以内的句子;
按事件标注,将N*K维事件向量矩阵作为第二双向长短时记忆循环神经网络初始输入,其中N为批尺寸数值,K为字嵌入向量长度,L为事件标注的类别数,最大值的位置对应了当前事件的标签;
定义贝叶斯网路为:
P(A,B,C,D)=P(D|A,B)*P(C|A)*P(B|A)P(A),
A为文本是否描述某类事件的概率,
B为事件抽取成功的概率,
C为含时间信息的概率,
D为含特定领域词汇的概率,
其中B的值由N*L维标注类概率分布矩阵输出的标签是否与训练样本打标相同决定,若相同则B赋值为1若不相同则B赋值为0,
从第二双向长短时记忆循环神经网络获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果反馈至第二双向长短时记忆循环神经网络;
S4:定义损失函数为双向长短时记忆循环神经网络每个时间节点的输出与训练样本打标数据的均方误差,重复步骤S3至损失函数收敛。
9.根据权利要求6至8中任意一项所述的一种企业知识图谱属性抽取***,其特征在于,
实体属性抽取模型,包括,
从第二双向长短时记忆循环神经网络前向隐含层获取第一N*L维矩阵,并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络后向隐含层的输入;
或者,
从第二双向长短时记忆循环神经网络输出层获取第一N*L维矩阵并将第一N*L维矩阵输入贝叶斯网络,将贝叶斯网络输出的第二N*L维矩阵与第一N*L维矩阵执行特征融合,将特征融合结果作为第二双向长短时记忆循环神经网络输入层的输入。
10.根据权利要求6所述的一种企业知识图谱属性抽取***,其特征在于,
属性融合单元采取以下步骤对目标文本执行实体属性融合:
A依据与结构模板的相似性,选定事件实体数据的基础结构作为基底值;
B遍历候选集事件,按树型结构深度优先顺序成对匹配属性;
C当两个事件比较时,遵循以下规则:
若存在基础结构中节点属性值缺失,则直接补充;
若存在基础结构中,对应的节点属性值发生冲突,若质量评估函数得出候选集的属性值较优,对基底的非空值进行替换;
若基底属性为列表格式,对基底的表增添候选集中独有的非重复元素;
D重复步骤B和步骤C至属性无法继续完善。
CN201810136568.4A 2018-02-09 2018-02-09 一种企业知识图谱属性抽取方法及*** Active CN108182295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810136568.4A CN108182295B (zh) 2018-02-09 2018-02-09 一种企业知识图谱属性抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810136568.4A CN108182295B (zh) 2018-02-09 2018-02-09 一种企业知识图谱属性抽取方法及***

Publications (2)

Publication Number Publication Date
CN108182295A true CN108182295A (zh) 2018-06-19
CN108182295B CN108182295B (zh) 2021-09-10

Family

ID=62552761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810136568.4A Active CN108182295B (zh) 2018-02-09 2018-02-09 一种企业知识图谱属性抽取方法及***

Country Status (1)

Country Link
CN (1) CN108182295B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN108920556A (zh) * 2018-06-20 2018-11-30 华东师范大学 基于学科知识图谱的推荐专家方法
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109446523A (zh) * 2018-10-23 2019-03-08 重庆誉存大数据科技有限公司 基于BiLSTM和条件随机场的实体属性抽取模型
CN109446337A (zh) * 2018-09-19 2019-03-08 中国信息通信研究院 一种知识图谱构建方法和装置
CN109471929A (zh) * 2018-11-06 2019-03-15 湖南云智迅联科技发展有限公司 一种基于图谱匹配进行设备维修记录语义搜索的方法
CN109508385A (zh) * 2018-11-06 2019-03-22 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN109767758A (zh) * 2019-01-11 2019-05-17 中山大学 车载语音分析方法、***、存储介质以及设备
CN110019841A (zh) * 2018-07-24 2019-07-16 南京涌亿思信息技术有限公司 构建债务人知识图谱的数据分析方法、装置及***
CN110210840A (zh) * 2019-06-14 2019-09-06 言图科技有限公司 一种基于即时聊天实现企业管理的方法和***
CN110245244A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种基于海量文本数据的人事关系知识图谱构建方法
CN110297904A (zh) * 2019-06-17 2019-10-01 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110399487A (zh) * 2019-07-01 2019-11-01 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110516120A (zh) * 2019-08-27 2019-11-29 北京明略软件***有限公司 信息处理方法及装置、存储介质、电子装置
CN110516077A (zh) * 2019-08-20 2019-11-29 北京中亦安图科技股份有限公司 面向企业商情的知识图谱构建方法及装置
CN110858353A (zh) * 2018-08-17 2020-03-03 阿里巴巴集团控股有限公司 获取案件裁判结果的方法和***
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111382843A (zh) * 2020-03-06 2020-07-07 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN111400504A (zh) * 2020-03-12 2020-07-10 支付宝(杭州)信息技术有限公司 企业关键人的识别方法和装置
CN111475641A (zh) * 2019-08-26 2020-07-31 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN111523315A (zh) * 2019-01-16 2020-08-11 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111967761A (zh) * 2020-08-14 2020-11-20 国网电子商务有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN112000718A (zh) * 2020-10-28 2020-11-27 成都数联铭品科技有限公司 基于属性布局的知识图谱展示方法及***、介质、设备
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112199961A (zh) * 2020-12-07 2021-01-08 浙江万维空间信息技术有限公司 一种基于深度学习的知识图谱获取方法
CN112383575A (zh) * 2021-01-18 2021-02-19 北京晶未科技有限公司 用于信息安全的方法、电子装置和电子设备
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法
CN113326371A (zh) * 2021-04-30 2021-08-31 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113468342A (zh) * 2021-07-22 2021-10-01 北京京东振世信息技术有限公司 基于知识图谱的数据模型构建方法、装置、设备和介质
WO2022051996A1 (zh) * 2020-09-10 2022-03-17 西门子(中国)有限公司 知识图谱构建方法和装置
CN114741569A (zh) * 2022-06-09 2022-07-12 杭州欧若数网科技有限公司 一种在图数据库中支持复合数据类型方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索***
CN105335378A (zh) * 2014-06-25 2016-02-17 富士通株式会社 多数据源的信息处理装置、服务器及方法
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
WO2017185887A1 (en) * 2016-04-29 2017-11-02 Boe Technology Group Co., Ltd. Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text
CN107633093A (zh) * 2017-10-10 2018-01-26 南通大学 一种供电决策知识图谱的构建及其查询方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索***
CN105335378A (zh) * 2014-06-25 2016-02-17 富士通株式会社 多数据源的信息处理装置、服务器及方法
WO2017185887A1 (en) * 2016-04-29 2017-11-02 Boe Technology Group Co., Ltd. Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107633093A (zh) * 2017-10-10 2018-01-26 南通大学 一种供电决策知识图谱的构建及其查询方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TAO CHEN 等: ""Improving sentiment analysis via sentence type classification using BiLSTM-CRF and CNN"", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
曾道建 等: ""面向非结构化文本的开放式实体属性抽取"", 《江西师范大学学报(自然科学版)》 *
袁凯琦 等: ""医学知识图谱构建技术与研究进展"", 《计算机应用研究》 *
贾真 等: ""面向中文网络百科的属性和属性值抽取"", 《北京大学学报(自然科学版)》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920556A (zh) * 2018-06-20 2018-11-30 华东师范大学 基于学科知识图谱的推荐专家方法
CN108920556B (zh) * 2018-06-20 2021-11-19 华东师范大学 基于学科知识图谱的推荐专家方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN110019841A (zh) * 2018-07-24 2019-07-16 南京涌亿思信息技术有限公司 构建债务人知识图谱的数据分析方法、装置及***
CN110858353A (zh) * 2018-08-17 2020-03-03 阿里巴巴集团控股有限公司 获取案件裁判结果的方法和***
CN110858353B (zh) * 2018-08-17 2023-05-05 阿里巴巴集团控股有限公司 获取案件裁判结果的方法和***
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109446337A (zh) * 2018-09-19 2019-03-08 中国信息通信研究院 一种知识图谱构建方法和装置
CN109446337B (zh) * 2018-09-19 2020-10-13 中国信息通信研究院 一种知识图谱构建方法和装置
CN109446523A (zh) * 2018-10-23 2019-03-08 重庆誉存大数据科技有限公司 基于BiLSTM和条件随机场的实体属性抽取模型
CN109446523B (zh) * 2018-10-23 2023-04-25 重庆誉存大数据科技有限公司 基于BiLSTM和条件随机场的实体属性抽取模型
CN109471929B (zh) * 2018-11-06 2021-08-17 湖南云智迅联科技发展有限公司 一种基于图谱匹配进行设备维修记录语义搜索的方法
CN109508385A (zh) * 2018-11-06 2019-03-22 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN109471929A (zh) * 2018-11-06 2019-03-15 湖南云智迅联科技发展有限公司 一种基于图谱匹配进行设备维修记录语义搜索的方法
CN109657918B (zh) * 2018-11-19 2023-07-18 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN109767758A (zh) * 2019-01-11 2019-05-17 中山大学 车载语音分析方法、***、存储介质以及设备
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、***、存储介质以及设备
CN111523315A (zh) * 2019-01-16 2020-08-11 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111523315B (zh) * 2019-01-16 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN110210840A (zh) * 2019-06-14 2019-09-06 言图科技有限公司 一种基于即时聊天实现企业管理的方法和***
CN110297904A (zh) * 2019-06-17 2019-10-01 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110297904B (zh) * 2019-06-17 2022-10-04 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110245244A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种基于海量文本数据的人事关系知识图谱构建方法
CN110399487B (zh) * 2019-07-01 2021-09-28 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110399487A (zh) * 2019-07-01 2019-11-01 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110516077A (zh) * 2019-08-20 2019-11-29 北京中亦安图科技股份有限公司 面向企业商情的知识图谱构建方法及装置
CN111475641A (zh) * 2019-08-26 2020-07-31 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN110516120A (zh) * 2019-08-27 2019-11-29 北京明略软件***有限公司 信息处理方法及装置、存储介质、电子装置
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111105041B (zh) * 2019-12-02 2022-12-23 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111382843B (zh) * 2020-03-06 2023-10-20 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN111382843A (zh) * 2020-03-06 2020-07-07 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN111400504A (zh) * 2020-03-12 2020-07-10 支付宝(杭州)信息技术有限公司 企业关键人的识别方法和装置
CN111400504B (zh) * 2020-03-12 2023-04-07 支付宝(杭州)信息技术有限公司 企业关键人的识别方法和装置
CN111967761B (zh) * 2020-08-14 2024-04-02 国网数字科技控股有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN111967761A (zh) * 2020-08-14 2020-11-20 国网电子商务有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112101034B (zh) * 2020-09-09 2024-02-27 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
WO2022051996A1 (zh) * 2020-09-10 2022-03-17 西门子(中国)有限公司 知识图谱构建方法和装置
CN112000718A (zh) * 2020-10-28 2020-11-27 成都数联铭品科技有限公司 基于属性布局的知识图谱展示方法及***、介质、设备
CN112417104B (zh) * 2020-12-04 2022-11-11 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法
CN112199961A (zh) * 2020-12-07 2021-01-08 浙江万维空间信息技术有限公司 一种基于深度学习的知识图谱获取方法
CN112383575B (zh) * 2021-01-18 2021-05-04 北京晶未科技有限公司 用于信息安全的方法、电子装置和电子设备
CN112383575A (zh) * 2021-01-18 2021-02-19 北京晶未科技有限公司 用于信息安全的方法、电子装置和电子设备
CN113326371B (zh) * 2021-04-30 2023-12-29 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113326371A (zh) * 2021-04-30 2021-08-31 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113468342A (zh) * 2021-07-22 2021-10-01 北京京东振世信息技术有限公司 基于知识图谱的数据模型构建方法、装置、设备和介质
CN113468342B (zh) * 2021-07-22 2023-12-05 北京京东振世信息技术有限公司 基于知识图谱的数据模型构建方法、装置、设备和介质
CN114741569A (zh) * 2022-06-09 2022-07-12 杭州欧若数网科技有限公司 一种在图数据库中支持复合数据类型方法及装置

Also Published As

Publication number Publication date
CN108182295B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN108182295A (zh) 一种企业知识图谱属性抽取方法及***
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及***
Chen et al. Research on text sentiment analysis based on CNNs and SVM
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110298037A (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及***
CN110287323B (zh) 一种面向目标的情感分类方法
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及***
CN110472042B (zh) 一种细粒度情感分类方法
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN103207855A (zh) 针对产品评论信息的细粒度情感分析***及方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN110442720A (zh) 一种基于lstm卷积神经网络的多标签文本分类方法
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN111460830B (zh) 一种司法文本中经济事件的抽取方法及***
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及***
CN116719913A (zh) 一种基于改进命名实体识别的医疗问答***及其构建方法
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20191111

Address after: 400042 No.51 dapingzheng street, Yuzhong District, Chongqing

Applicant after: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Applicant after: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

Address before: 401121 the 18 layer of kylin C, No. 2, No. 53, Mount Huangshan Avenue, Yubei District, Chongqing

Applicant before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Sun Shitong

Inventor after: Liu Debin

Inventor after: Yan Kai

Inventor after: Chen Wei

Inventor after: Yang Chen

Inventor before: Sun Shitong

Inventor before: Liu Debin

Inventor before: Yan Kai

Inventor before: Chen Wei

CB03 Change of inventor or designer information
CP03 Change of name, title or address

Address after: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee after: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee before: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Country or region before: China

Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240409

Address after: 401120 Tower B, No. 10 Datagu West Road, Yubei District, Xiantao Street, Yubei District, Chongqing

Patentee after: China Telecom Yijin Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee before: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region before: China

Patentee before: Chongqing Yucun Technology Co.,Ltd.

TR01 Transfer of patent right