CN115169326A - 一种中文关系抽取方法、装置、终端及存储介质 - Google Patents

一种中文关系抽取方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN115169326A
CN115169326A CN202210392477.3A CN202210392477A CN115169326A CN 115169326 A CN115169326 A CN 115169326A CN 202210392477 A CN202210392477 A CN 202210392477A CN 115169326 A CN115169326 A CN 115169326A
Authority
CN
China
Prior art keywords
character
feature
sentence
model
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210392477.3A
Other languages
English (en)
Inventor
李龙
张煇
梁力伟
王恩慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Changhe Technology Co ltd
Original Assignee
Shanxi Changhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Changhe Technology Co ltd filed Critical Shanxi Changhe Technology Co ltd
Priority to CN202210392477.3A priority Critical patent/CN115169326A/zh
Publication of CN115169326A publication Critical patent/CN115169326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种中文关系抽取方法、装置、终端及存储介质,该方法包括:获取待处理的语句的字符表示和所有潜在单词;通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;通过Bert模型提取所述语句中的第二特征;对所述第一特征与所述第二特征进行拼接得到拼接特征;将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。本方案将Bert与多粒度网格模型进行结合,不仅利用Bert生成句子的字符向量,而且将单词多个含义融人了字符表示进行编码,更好地解决了中文多义词歧义的问题;且实验结果表明,本发明的模型在中文关系抽取任务中取得了更好的效果。

Description

一种中文关系抽取方法、装置、终端及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种中文关系抽取方法、装置、终端及存储介质。
背景技术
关系抽取是信息抽取的子任务之一,具有十分重要的地位,其目的是从冗余、多源分散的文本中抽取出实体对之间的关系,从而构成结构化的实体-关系三元组。关系抽取在知识图谱的构建、关系问答***等众多下游任务上有着广泛的应用价值。如通过抽取人物间关系联合人物实体,可获得人物知识图谱,以实现跨姓的大知识挖掘和推理服务。通过抽取旅游景点、文化之间的关系,可获得文化知识图谱,为实现文化旅游问答***提供基础。
由于关系抽取在自然语言处理领域占据着重要地位,因此获得了大量学者的关注。Liu等人首先提出了CNN(中文名称为:卷积神经网络)的神经网络方法来自动提取句子特征,避免了特征工程带来的错误传播问题,F1值达到59.42;Zeng等人将表达了位置信息的嵌入表示融入到 CNN网络中,通过最大池化获得句子中最重要的特征;受此启发,Zeng等人在其基础上进行扩充,提出了PCNN(Pulse Coupled Neural Network,脉冲耦合神经网络)方法,根据两个给定实体的位置将卷积结果分成三段,并设计分段最大池化层代替单个最大池化层,从而捕获结构信息和其他潜在信息;然而,PCNN模型面临着句子选择的问题,Lin等人将注意力机制应用于包中的所有实例,F1值达到60.55;但由于CNN网络无法捕捉长距离句子特征,因此Zhang等人首先尝试利用RNN(中文名称为:循环神经网络)方法,其在长文本建模时可以体现其记忆优势, F1值达到61.04;Zhou等人又在RNN模型中引入了注意机制,F1值达到 59.48。
上述研究虽然在一定程度上提升了中文关系抽取的准确度,但仍存在一些问题,包括:
(1)基于词的关系抽取模型很大程度依赖分词结果,分词越准确,效果越好,反之就会有错误传播问题。比如句子“达尔文研究所有杜鹃”,如果句子被正确划分为“达尔文/研究/所有/杜鹃”,那么实体“达尔文”和“杜鹃”就可以得到正确的“研究”的关系,但如果句子被划分为“达尔文/研究所/有/杜鹃”,那实体“达尔文”和“杜鹃”就会被错误标注为“属于”的关系。
(2)而基于字符的关系抽取方法虽然不受分词结果影响,但无法捕捉单词的信息,无法解决多义词歧义的问题。如句子中“杜鹃”有着“杜鹃花”和“杜鹃鸟”两种含义,对于基于字符的关系抽取,没有额外知识则很难判别其真实含义。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
有鉴于此,本发明提出了一种中文关系抽取方法、装置、终端及存储介质,用以克服现有技术中的问题。
具体的,本发明提出了以下具体的实施例:
本发明实施例提出了一种中文关系抽取方法,包括:
获取待处理的语句的字符表示和所有潜在单词;
通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;
通过Bert模型提取所述语句中的第二特征;
对所述第一特征与所述第二特征进行拼接得到拼接特征;
将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。
在一个具体的实施例中,所述字符表示通过字符嵌入与位置嵌入进行拼接得到;
所述字符嵌入是通过将所述语句表示为多个字符,并通过Skip gram 模型将每个所述字符进行映射得到的;
所述位置嵌入为每个所述字符到预设头尾实体的相对距离。
在一个具体的实施例中,所述潜在单词是通过整合有外部中文数据库的word2vec对所述语句中的字符串进行转换后得到。
在一个具体的实施例中,所述多粒度网格模型包括LSTM模型。
在一个具体的实施例中,所述拼接基于下列公式来进行:
h*=HαT
α=softmax(wTH*);
H*=tanh(H);
Figure RE-GDA0003791397400000031
其中,h为第一特征,Vec为第二特征;W为可训练的参数;T代表向量的转置、h*为拼接特征。
本发明实施例还提出了一种中文关系抽取装置,包括:
获取模块,用于获取待处理的语句的字符表示和所有潜在单词;
第一特征模块,用于通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;
第二特征模块,用于通过Bert模型提取所述语句中的第二特征;
拼接模块,用于对所述第一特征与所述第二特征进行拼接得到拼接特征;
预测模块,用于将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。
在一个具体的实施例中,所述字符表示通过字符嵌入与位置嵌入进行拼接得到;
所述字符嵌入是通过将所述语句表示为多个字符,并通过Skip gram 模型将每个所述字符进行映射得到的;
所述位置嵌入为每个所述字符到预设头尾实体的相对距离。
本发明实施例还提出了一种终端,包括处理器与存储器,所述存储器中存储有计算机程序,所述处理器在执行所述计算机程序时实现上述的方法。
本发明实施例还提出了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的方法。
以此,本发明实施例提出了一种中文关系抽取方法、装置、终端及存储介质,该方法包括:获取待处理的语句的字符表示和所有潜在单词;通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;通过Bert模型提取所述语句中的第二特征;对所述第一特征与所述第二特征进行拼接得到拼接特征;将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。本方案将Bert与多粒度网格模型进行结合,不仅利用Bert生成句子的字符向量,而且将单词多个含义融入了字符表示进行编码,更好地解决了中文多义词歧义的问题;且实验结果表明,本发明的模型在中文关系抽取任务中取得了更好的效果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例提出的一种中文关系抽取方法的流程示意图;
图2示出了本发明实施例提出的一种中文关系抽取方法中联合Bert 和多粒度网格网络的中文关系抽取模型示意图;
图3示出了本发明实施例提出的一种中文关系抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种中文关系抽取方法,如图1所示,包括以下步骤:
步骤101、获取待处理的语句的字符表示和所有潜在单词;
具体的的,所述字符表示通过字符嵌入与位置嵌入进行拼接得到;所述字符嵌入是通过将所述语句表示为多个字符,并通过Skip gram模型将每个所述字符进行映射得到的;所述位置嵌入为每个所述字符到预设头尾实体的相对距离。
具体的,具体的,首先将句子s表示为由M个字符s={c1,c2,…,cM}组成的一个字符序列,通过Skip gram模型将每个字符ci映射为一个dc维字符嵌入,表示为
Figure RE-GDA0003791397400000071
此外,利用位置嵌入来指定实体对,将每个字符的位置嵌入表示为当前字符到头实体和尾实体的相对距离,分别表示为
Figure RE-GDA0003791397400000072
由字符嵌入和位置嵌入拼接得到字符ci的向量表示
Figure RE-GDA0003791397400000073
其中
Figure RE-GDA0003791397400000074
得到最终句子的字符表示
Figure RE-GDA0003791397400000075
在一个具体的实施例中,所述潜在单词是通过整合有外部中文数据库的word2vec对所述语句中的字符串进行转换后得到。
具体的,为了捕获单词级特征,还需要输入句子中所有潜在单词的信息。在这里,潜在单词是它与在分段的大型原始文本上构建的词典中的单词相匹配的任何字符子序列,wb,e作为从第b个字符开始,到第e个字符结束的子序列。如果使用word2vec将单词wb,e转换为实值向量
Figure RE-GDA0003791397400000076
只能将其映射到一个嵌入,忽略了许多单词具有多个词义的事实。因此将一个外部知识库整合到模型(如图2所示)中以表示词义。wb,e的词义集合表示为Sense(wb,e),将其中的每个词义
Figure RE-GDA0003791397400000077
转化为实值向量
Figure RE-GDA0003791397400000078
最后,将单词wb,e表示为一个向量集合
Figure RE-GDA0003791397400000079
步骤102、通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;
具体的,所述多粒度网格模型包括LSTM模型。
具体的,编码器部分将外部知识与词义消歧结合起来,使用多粒度网格LSTM网络为每个输入实例构造分布式表示。编码器的直接输入是一个字符序列,以及词典中的所有潜在单词。经过训练后,编码器的输出是输入句子的隐藏状态向量。
首先,LSTM单元由四个基本的门结构组成:输入门ij控制哪些信息进入单元;输出门oj控制将从单元输出的信息;忘记门fj控制单元中哪些信息将被删除。所有三个门都带有权重矩阵为W(包括Wi、Wo、Wf、 Wc)与U(包括Ui、Uo、Uf、Uc)、bi、bo、bf与bc代表其偏置向量。σ()表示sigmoid函数,当前单元状态cj记录截止当前时间的所有历史信息流。因此,基于字符的LSTM函数包括:
Figure RE-GDA0003791397400000081
Figure RE-GDA0003791397400000082
Figure RE-GDA0003791397400000083
其中,
Figure RE-GDA0003791397400000084
表示句子中第j个字符向量,
Figure RE-GDA0003791397400000085
表示前一时刻隐藏状态的向量表示。
对于与词典相匹配的每个单词wb,e,其第k个词义表示为
Figure RE-GDA0003791397400000086
将其所有词义表示都计算在内,单词wb,e的第k个词义的计算为:
Figure RE-GDA0003791397400000091
Figure RE-GDA0003791397400000092
其中
Figure RE-GDA0003791397400000093
表示输入门与输出门的单词级别的集合,
Figure RE-GDA0003791397400000094
表示单词wb,e的第k个词义的记忆单元,然后将所有词义合并为一个综合表示
Figure RE-GDA0003791397400000095
以计算wb,e的记忆单元:
Figure RE-GDA0003791397400000096
Figure RE-GDA0003791397400000097
所有词义的状态都将被计算在单词表示
Figure RE-GDA0003791397400000098
中,可以更好地表示多义词。D表示与其匹配的词汇表,
Figure RE-GDA0003791397400000099
表示以第e个字符结尾的与D匹配的所有单词,所有循环路径将流入字符e得到当前单元
Figure RE-GDA00037913974000000910
Figure RE-GDA00037913974000000911
Figure RE-GDA00037913974000000912
Figure RE-GDA00037913974000000913
其中
Figure RE-GDA00037913974000000914
为正则化项。
最后,使用公式3计算序列中每个字符的最终隐藏状态向量
Figure RE-GDA00037913974000000915
步骤103、通过Bert模型提取所述语句中的第二特征;
为了更好地解决中文一词多义问题,因此引入Bert模型从整个输入语句中提取特征,首先,它使用Masked Language Model(MLM)和Next Sentence Prediction(NSP)作为新的训练任务;其次,使用了大量数据和计算能力来满足Bert的训练强度。因此利用Bert可以更好地提取输入的汉语句子s中的特征:Vec=Bert(s)。
步骤104、对所述第一特征与所述第二特征进行拼接得到拼接特征;
具体的,分别学习了一个实例的隐藏状态后,将h和Vec进行合并:
Figure RE-GDA0003791397400000101
得到最终的隐藏状态后,采用字符级注意力机制来合并特征:
H*=tanh(H) (12)
α=softmax(wTH*) (13)
h*=HαT (14)
其中,W为可训练的参数;T代表向量的转置、h*为拼接特征。
步骤105、将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。
具体的,将h*输入softmax分类器来预测关系:
o=Wh*+b (15)
p(y|s)=softmax(o) (16)
对于所有训练实例(Si,yi),使用交叉熵定义目标函数:
Figure RE-GDA0003791397400000102
本发明采用SanWen数据集进行实验,数据集的句子来自837篇中文文献,数据集包含9种类型,分别为Unknow,Create,Use,Near,Social, Located,Ownership,General-Special,Family,Part-Whole。数据集详细信息如表1所示。
表1 SanWen数据集
数据集 训练集 验证集 测试集
SanWen 695 58 84
本发明模型中使用的参数取值如表2所示。通过实验证明,表2中的取值为本发明中最好的超参数取值。
表2参数取值
超参数
学习率 0.0005
Dropout 0.5
字符嵌入 100
网格嵌入 200
位置嵌入 5
LSTM隐藏层 200
正则化 1e-8
表3将本发明模型结果与各基线模型的F1值与AUC进行了对比, Zeng等人提出了一个CNN模型。Zeng等人在此基础上加入位置嵌入,提出了分段CNN模型。在PCNN模型的基础上,Lin等人添加了选择性注意机制,Li等人提出了多粒度网格网络。从结果中,我们可以观察到由于分词的准确性以及多义词信息的存在,本发明模型在所有模型中表现最好,因此语义层次的信息可以提高从文本中获取深层语义信息的能力。
表3各模型F1值与AUC对比
Figure RE-GDA0003791397400000111
Figure RE-GDA0003791397400000121
实施例2
为了对本发明进行进一步的说明,本发明实施例2还公开了一种中文关系抽取装置,如图3所示,包括:
获取模块201,用于获取待处理的语句的字符表示和所有潜在单词;
第一特征模块202,用于通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;
第二特征模块203,用于通过Bert模型提取所述语句中的第二特征;
拼接模块204,用于对所述第一特征与所述第二特征进行拼接得到拼接特征;
预测模块205,用于将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。
进一步的,所述字符表示通过字符嵌入与位置嵌入进行拼接得到;
所述字符嵌入是通过将所述语句表示为多个字符,并通过Skipgram 模型将每个所述字符进行映射得到的;
所述位置嵌入为每个所述字符到预设头尾实体的相对距离。
进一步的,所述潜在单词是通过整合有外部中文数据库的word2vec 对所述语句中的字符串进行转换后得到。
进一步的,所述多粒度网格模型包括LSTM模型。
进一步的,所述拼接基于下列公式来进行:
h*=HαT
α=softmax(wTH*);
H*=tanh(H);
Figure RE-GDA0003791397400000131
其中,h为第一特征,Vec为第二特征;W为可训练的参数;T代表向量的转置、h*为拼接特征。
实施例3
本发明实施例3还公开了一种终端,包括处理器与存储器,所述存储器中存储有计算机程序,所述处理器在执行所述计算机程序时实现实施例 1中所述的方法。
实施例4
本发明实施例4还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现实施例1中所述的方法。
以此,本发明实施例提出了一种中文关系抽取方法、装置、终端及存储介质,该方法包括:获取待处理的语句的字符表示和所有潜在单词;通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;通过Bert模型提取所述语句中的第二特征;对所述第一特征与所述第二特征进行拼接得到拼接特征;将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。本方案将Bert与多粒度网格模型进行结合,不仅利用Bert生成句子的字符向量,而且将单词多个含义融入了字符表示进行编码,更好地解决了中文多义词歧义的问题;且实验结果表明,本发明的模型在中文关系抽取任务中取得了更好的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (9)

1.一种中文关系抽取方法,其特征在于,包括:
获取待处理的语句的字符表示和所有潜在单词;
通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;
通过Bert模型提取所述语句中的第二特征;
对所述第一特征与所述第二特征进行拼接得到拼接特征;
将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。
2.如权利要求1所述的方法,其特征在于,所述字符表示通过字符嵌入与位置嵌入进行拼接得到;
所述字符嵌入是通过将所述语句表示为多个字符,并通过Skip gram模型将每个所述字符进行映射得到的;
所述位置嵌入为每个所述字符到预设头尾实体的相对距离。
3.如权利要求1所述的方法,其特征在于,所述潜在单词是通过整合有外部中文数据库的word2vec对所述语句中的字符串进行转换后得到。
4.如权利要求1所述的方法,其特征在于,所述多粒度网格模型包括LSTM模型。
5.如权利要求1所说的方法,其特征在于,所述拼接基于下列公式来进行:
h*=HαT
α=softmax(wTH*);
H*=tanh(H);
Figure RE-FDA0003791397390000011
其中,h为第一特征,Vec为第二特征;W为可训练的参数;T代表向量的转置、h*为拼接特征。
6.一种中文关系抽取装置,其特征在于,包括:
获取模块,用于获取待处理的语句的字符表示和所有潜在单词;
第一特征模块,用于通过多粒度网格模型基于所述字符表示以及所有的所述潜在单词得到第一特征;
第二特征模块,用于通过Bert模型提取所述语句中的第二特征;
拼接模块,用于对所述第一特征与所述第二特征进行拼接得到拼接特征;
预测模块,用于将所述拼接特征输入softmax分类器,预测所述语句中的实体关系。
7.如权利要求6所述的装置,其特征在于,所述字符表示通过字符嵌入与位置嵌入进行拼接得到;
所述字符嵌入是通过将所述语句表示为多个字符,并通过Skip gram模型将每个所述字符进行映射得到的;
所述位置嵌入为每个所述字符到预设头尾实体的相对距离。
8.一种终端,其特征在于,包括处理器与存储器,所述存储器中存储有计算机程序,所述处理器在执行所述计算机程序时实现权利要求1-5任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-5任一项所述的方法。
CN202210392477.3A 2022-04-15 2022-04-15 一种中文关系抽取方法、装置、终端及存储介质 Pending CN115169326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210392477.3A CN115169326A (zh) 2022-04-15 2022-04-15 一种中文关系抽取方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210392477.3A CN115169326A (zh) 2022-04-15 2022-04-15 一种中文关系抽取方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN115169326A true CN115169326A (zh) 2022-10-11

Family

ID=83484233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210392477.3A Pending CN115169326A (zh) 2022-04-15 2022-04-15 一种中文关系抽取方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN115169326A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
KR20210040319A (ko) * 2020-04-23 2021-04-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
WO2021139247A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法
CN113239663A (zh) * 2021-03-23 2021-08-10 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN113626576A (zh) * 2021-05-26 2021-11-09 中国平安人寿保险股份有限公司 远程监督中关系特征抽取方法、装置、终端及存储介质
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114064852A (zh) * 2021-10-21 2022-02-18 杭州远传新业科技有限公司 自然语言的关系抽取方法、装置、电子设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
KR20210040319A (ko) * 2020-04-23 2021-04-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
WO2021139247A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN113239663A (zh) * 2021-03-23 2021-08-10 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法
CN113626576A (zh) * 2021-05-26 2021-11-09 中国平安人寿保险股份有限公司 远程监督中关系特征抽取方法、装置、终端及存储介质
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114064852A (zh) * 2021-10-21 2022-02-18 杭州远传新业科技有限公司 自然语言的关系抽取方法、装置、电子设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DENGTAO LIU 等: "Chinese Character Relationship Extraction Method Based on BERT", 《2021 IEEE INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND COMPUTER APPLICATIONS (ICAICA)》, 2 August 2021 (2021-08-02), pages 883 - 887 *
罗欣 等: "基于深度强化学习的文本实体关系抽取方法", 《电子科技大学学报》, vol. 51, no. 1, 31 January 2022 (2022-01-31), pages 91 - 99 *
胡红卫 等: "融合多元实体信息的关系分类模型", 《信息工程大学学报》, vol. 23, no. 1, 28 February 2022 (2022-02-28), pages 51 - 57 *
谢腾 等: "融合多特征BERT 模型的中文实体关系抽取", 《计算机***应用》, vol. 30, no. 5, 31 May 2021 (2021-05-31), pages 253 - 261 *

Similar Documents

Publication Publication Date Title
Yao et al. An improved LSTM structure for natural language processing
CN107506414B (zh) 一种基于长短期记忆网络的代码推荐方法
Ghosh et al. Fracking sarcasm using neural network
Zhou et al. A C-LSTM neural network for text classification
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、***及介质
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112348911B (zh) 基于语义约束的堆叠文本生成细粒度图像方法及***
CN111144410B (zh) 一种跨模态的图像语义提取方法、***、设备及介质
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN114254645A (zh) 一种人工智能辅助写作***
Fenghour et al. An effective conversion of visemes to words for high-performance automatic lipreading
Simske et al. Functional Applications of Text Analytics Systems
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
Göker et al. Neural text normalization for turkish social media
CN109977372B (zh) 中文篇章树的构建方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN112131879A (zh) 一种关系抽取***、方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 030006 room 707, block a, Gaoxin Guozhi building, No. 3, East Lane 2, Taiyuan Xuefu Park, Shanxi comprehensive reform demonstration zone, Taiyuan, Shanxi Province

Applicant after: Changhe Information Co.,Ltd.

Address before: 030006 room 707, block a, Gaoxin Guozhi building, No. 3, East Lane 2, Taiyuan Xuefu Park, Shanxi comprehensive reform demonstration zone, Taiyuan, Shanxi Province

Applicant before: Shanxi Changhe Technology Co.,Ltd.

CB02 Change of applicant information