CN115309910B - 语篇要素和要素关系联合抽取方法、知识图谱构建方法 - Google Patents

语篇要素和要素关系联合抽取方法、知识图谱构建方法 Download PDF

Info

Publication number
CN115309910B
CN115309910B CN202210859304.8A CN202210859304A CN115309910B CN 115309910 B CN115309910 B CN 115309910B CN 202210859304 A CN202210859304 A CN 202210859304A CN 115309910 B CN115309910 B CN 115309910B
Authority
CN
China
Prior art keywords
relation
question
elements
questions
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210859304.8A
Other languages
English (en)
Other versions
CN115309910A (zh
Inventor
刘杰
许妍欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Capital Normal University
Original Assignee
North China University of Technology
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology, Capital Normal University filed Critical North China University of Technology
Priority to CN202210859304.8A priority Critical patent/CN115309910B/zh
Publication of CN115309910A publication Critical patent/CN115309910A/zh
Application granted granted Critical
Publication of CN115309910B publication Critical patent/CN115309910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于人工智能技术领域,具体涉及一种语篇要素和要素关系联合抽取方法、知识图谱构建方法,其中联合抽取方法包括:S10、针对目标议论文文本,获取预设的要素类型问题模板,通过要素类型问题模板生成要素问题;S20、将要素问题输入到预先建立的问答框架中,得到头部要素;其中,问答框架为基于机器阅读理解建立的问答框架;S30、将头部要素和目标议论文文本输入到预先建立的要素关系预测模型中,得到要素关系;S40、基于要素关系和头部要素生成关系问题;S50、将关系问题输入到预先建立的问答框架中,得到相应的尾部要素。本申请的方法将语篇要素和要素关系进行联合抽取,缓解了错误传播;通过多轮问答避免了提取区域的限制。

Description

语篇要素和要素关系联合抽取方法、知识图谱构建方法
技术领域
本申请属于人工智能技术领域,具体涉及一种基于多轮问答的议论文语篇要素和要素关系联合抽取方法。
背景技术
知识图谱能够结构化的表示客观世界的概念、实体及其关系,为推荐***、问答***等智能化应用提供了丰富的常识性知识。然而在作文自动评分方法中,目前主流的方法仅仅根据当前作文的文本信息进行评测,没有考虑到知识层面信息。因此构建作文知识图谱,从而使作文评测***在知识层面对作文进行分析,是一项具有研究意义的任务。
在知识图谱构建中,知识抽取是至关重要的一步。语篇要素抽取任务和要素关系抽取任务的主要目的是识别和抽取议论文中的语篇要素单元并确定要素单元之间的语义连接关系,如语篇要素论点和论据之间具有支撑关系。通过两个任务构建议论文知识图谱可以为作文自动评测提供知识层面信息。然而,现有的议论文知识图谱构建方法面临两个问题:
一是分别基于深度学习的方法进行语篇要素抽取和要素关系抽取,忽略了两个任务之间的语义交互信息,那么一旦要素抽取过程中产生错误,则会使要素关系分类建立在错误的要素上,从而产生错误的要素关系,即产生了错误传播;
二是语篇要素识别采用实体识别的方法从文本中识别关键信息时,由于实体识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,而语篇要素识别议论文中具有论述性的句子,分别以单词和句子为单位,议论文要素的提取区域比实体的提取区域要大的多,议论文要素甚至是多个句子组成的段落,比如论据;因此,实体识别任务中的方法无法准确识别语篇要素。
以上问题是语篇要素和要素关系抽取任务中亟待解决的问题。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种基于多轮问答的议论文语篇要素和要素关系联合抽取方法、知识图谱构建方法、设备和介质。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种基于多轮问答的议论文语篇要素和要素关系联合抽取方法,该方法包括:
S10、针对目标议论文文本,获取预设的要素类型问题模板,通过所述要素类型问题模板生成要素问题;
S20、将所述要素问题输入到预先建立的问答框架中,得到头部要素;其中,所述问答框架为基于机器阅读理解建立的问答框架;
S30、将所述头部要素和所述目标议论文文本输入到预先建立的要素关系预测模型中,得到要素关系;其中,所述要素关系预测模型基于多分类器建立;
S40、基于所述要素关系和所述头部要素生成关系问题;
S50、将所述关系问题输入到预先建立的问答框架中,得到相应的尾部要素。
可选地,在S10之前还包括建立要素类型问题模板。
可选地,S20包括:
将所述要素问题和所述目标议论文文本输入BERT,得到基于BERT的语义表示;
将所述语义表示输入到预先建立的问答框架中,得到多个问题答案;
基于预设的问题权重确定头部要素。
可选地,将所述语义表示输入到预先建立的问答框架中,得到多个问题答案,包括:
使用softmax分类层对隐藏层输出ht进行BIOE标签分类;
根据标注后的隐藏层序列,识别以B开始到E结束位置上的片段,作为问题答案。
可选地,S30包括:
把BERT输出的上下文表征
Figure BDA0003755630940000031
与头部要素的表征
Figure BDA0003755630940000032
进行串联,作为要素关系的输入:
Figure BDA0003755630940000033
其中,
Figure BDA0003755630940000034
为头部要素的表征,
Figure BDA0003755630940000035
为上下文表征。
该输入经过softmax分类器,提取要素ei与每个要素关系类型rk的概率:
Pr(label=rk|ei)=σ(Wr·li+br)
其中,σ(·)是S型函数,
Figure BDA0003755630940000036
br∈R|R|,dl是要素标签嵌入的维度,|R|是要素关系集的大小;
在分类器中得分高的要素关系类型作为要素ei对应的要素关系。
可选地,所述关系问题中包括头部要素、尾部要素类型和要素关系。
可选地,在模型建立过程中,对头部语篇要素、尾部语篇要素和要素之间关系的损失函数进行组合优化,并共享在BERT上的训练参数,每个批次样本的平均损失
Figure BDA0003755630940000037
计算如下:
Figure BDA0003755630940000038
其中,
Figure BDA0003755630940000039
为头部语篇要素的损失函数,
Figure BDA00037556309400000310
为尾部语篇要素的损失函数,
Figure BDA00037556309400000311
为要素之间关系的损失函数
第二方面,本申请实施例提供一种基于多轮问答的议论文知识图谱构建方法,该方法包括:
通过如上第一方面任一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法抽取得到头部要素、尾部要素和要素关系;
将所述头部要素、所述要素关系和所述尾部要素作为三元组,建立议论文知识图谱。
第二方面,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法的步骤。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面任一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法的步骤。
(三)有益效果
本申请的有益效果是:本申请提出了一种基于多轮问答的议论文语篇要素和要素关系联合抽取方法、知识图谱构建方法、设备和介质,其中的联合抽取方法包括:S10、针对目标议论文文本,获取预设的要素类型问题模板,通过要素类型问题模板生成要素问题;S20、将要素问题输入到预先建立的问答框架中,得到头部要素;其中,问答框架为基于机器阅读理解建立的问答框架;S30、将头部要素和目标议论文文本输入到预先建立的要素关系预测模型中,得到要素关系;S40、基于要素关系和头部要素生成关系问题;S50、将关系问题输入到预先建立的问答框架中,得到相应的尾部要素。本申请的方法将语篇要素和要素关系进行多轮问答的联合抽取,缓解了错误传播;通过多轮问答还避免了提取区域的限制。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的基于多轮问答的议论文语篇要素和要素关系联合抽取方法流程示意图;
图2为本申请另一个实施例中的议论文语篇要素和要素关系联合抽取的多轮问答框架图;
图3为本申请又一个实施例中的基于多轮问答的议论文知识图谱构建方法流程示意图;
图4为本申请再一实施例中的电子设备的架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
实施例一
图1为本申请一个实施例中的基于多轮问答的议论文语篇要素和要素关系联合抽取方法流程示意图,如图1所示,本实施例的基于多轮问答的议论文语篇要素和要素关系联合抽取方法包括:
S10、针对目标议论文文本,获取预设的要素类型问题模板,通过所述要素类型问题模板生成要素问题;
S20、将所述要素问题输入到预先建立的问答框架中,得到头部要素;其中,所述问答框架为基于机器阅读理解建立的问答框架;
S30、将所述头部要素和所述目标议论文文本输入到预先建立的要素关系预测模型中,得到要素关系;其中,所述要素关系预测模型
S40、基于所述要素关系和所述头部要素生成关系问题;
S50、将所述关系问题输入到预先建立的问答框架中,得到相应的尾部要素。
本实施例的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,提高了语篇要素和要素关系抽取的性能,联合两个任务获得任务间的语义交互信息,有利于语篇要素和要素关系的抽取,缓解了错误传播;基于问答的联合方法扩大了提取区域,实现了句子甚至段落的提取。
为了更好地理解本发明,以下对本实施例中的各步骤进行展开说明。
语篇要素是指议论文中的议论性要素,如论点、论据等,既可以是短文本,如一个句子或子句,也可以是长文本,如一个段落。要素关系是指同一篇章内部两个相邻或跨度在一定范围内的文本段之间的语义连接关系,例如扩展关系、论证关系等。
本实施例中,问题模板可以是:
问题1:找到文章中提到的所有{要素类型}?
问题2:文章中提到了哪个{要素类型}?
问题3:哪个句子是{要素类型}要素?
根据模板填入抽取的要素类型就可以生成三个语义相同但表达不同的问题。
本实施例中,问答框架为基于机器阅读理解建立的问答框架。问答框架分为编码层、交互层和输出层。编码层对模型输入的文章和问题进行语义编码。交互层建立文章和问题之间的语义联系,模型回答问题时将结合文章和问题的语义,文章和问题中关键词语义编码相近的词以及语句将成为模型回答问题时的重点关注对象,从而预测问题的答案。输出层根据任务要求的方式生成答案,并构造合理的损失函数便于模型在训练集上进行优化。
实施例二
本实施例的执行主体可以是议论文语篇要素和要素关系联合抽取装置,该装置可由硬件和/或软件组成,并一般可集成在具有议论文语篇要素和要素关系联合抽取功能的设备中,该设备可以包括存储器和处理器,例如可以是服务器。在其他一些实施例中执行主体还可以是其他可实现相同或相似功能的电子设备,本实施例对此不加以限制。
本实施例中,议论文的语篇要素类型分为中心论点、分论点、事实论据、道理论据和结论,要素之间具有关系类型:补充、支撑、推断。
本实施例中,把一个长度为n的上下文序列写作c={c1,c2,...,cn},使用E表示预定义的要素类型集合,使用R表示预定义的要素关系类型集合。要素和要素关系抽取旨在提取一组要素,这组要素e={e1,e2,...,em}对应一组要素类型y={y1,y2,...,ym},并预测每个要素对(ei,ej)的关系rij,其中yi∈E和rij∈R。
图2为本申请另一个实施例中的议论文语篇要素和要素关系联合抽取的多轮问答框架图,如图2所示,该框架包括四部分:基于Bert的语义表示、语篇要素抽取、要素关系预测,关系问题生成。虚线表示关系问题生成和尾部语篇要素提取。以下对本实施例的具体实现过程进行详细说明。
S1、使用问题模板为每种要素类型生成三个问题。
使用问题模板为每种要素类型生成三个问题,三个问题的含义相同,表达方式不同,从不同角度解释同一问题可以使问题更加清楚。比如为了识别上下文中的论点要素,通过问题模板可以生成三个语义相同但表达不同的问题,如下所示:
问题1:找到文章中提到的所有分论点?
问题2:文章中提到了哪个分论点?
问题3:哪个句子是分论点要素?
本实施例中问题提供了外部先验证据,即语篇要素类型和要素关系类型,问题中的语篇要素类型、要素关系类型以及语篇要素的上下文使模型获得了更全面、更准确的语义信息,通过问题与上下文的交互,可以更好地捕捉语义信息。
S2、通过BERT输入连接问题和上下文表示,得到基于Bert的语义表示。
使用预训练的Bert对上下文序列c={c1,c2,...,cn}和问题序列qt={qt1,qt2,…,qtm},t∈1,2,3进行语义表征。模型的输入为上下文c和问题q的词嵌入的串联:
ht=Bert(CLS,qt,SEP,c)       (1)
其中,CLS表示特殊标记,SEP表示分隔符。
通过多层自我注意结构编码,Bert将每个问题和上下文输出为ht={ht1,ht2,...,htn},
Figure BDA0003755630940000081
t∈1,2,3其中dh表示Bert的最后一个隐藏层的维数。
S3、通过回答多个问题并选择一个最佳答案来提取头部要素。
语篇要素抽取通过回答特定问题,并计算问题答案的权重,最终答案即语篇要素类型的表示。
对问题得到的多个答案,使用softmax分类层对隐藏层输出ht进行BIOE标签分类。其中B代表Begin,表示要素的开头单词;I代表inside,表示要素的中间单词;E代表End,表示要素的结尾单词;O代表Other,表示不是任何要素类型。在进行分类时,隐藏层序列都被标注为“B、I、O、E”中一个最合理的标签。根据标注后的隐藏层序列,识别以B开始到E结束位置上的片段,作为问题的答案,即语篇要素。
对于每一个输入xi,每种边界标签的可能性可以计算如下:
Figure BDA0003755630940000082
其中,
Figure BDA0003755630940000083
Figure BDA0003755630940000084
是学习参数,db是边界标签集B的大小,
Figure BDA0003755630940000085
表示预测的边界标签。
从而可以通过识别边界标签从序列中提取所有要素e={e1,e2,...,em}。
然后每个问题对应的答案被获得为A={a1,a2,a3},其中at={at1,at1,...,atn}是由模型获得的边界序列(公式2)。为了从多个答案中获得正确答案,为每个问题设置一个权重Wt,权重Wt表明问题qt的质量,使用激活函数对权重进行更新。在每次训练阶段结束时,计算使用每个问题的答案获得最终三元组的F1分数,并将权重更新为:
wt=σ(ft)*T     (3)
其中,σ(·)为S型函数,ft表示第t个问题的F1分数,T表示生成问题的总数量。
F1分数越高则权重越高,因此权重Wt表明问题qt的质量。基于学习到的权重,对多个问题的答案边界序列加权选择得到最终的答案集合
Figure BDA0003755630940000086
根据答案集合a*,识别以B开始到E结束位置上的片段,推断出抽取的语篇要素。具体地,第i个输入的边界标签被选择为
Figure BDA0003755630940000091
S4、要素关系预测。
要素关系预测旨在识别提取头部要素ei最可能的关系类型集合
Figure BDA0003755630940000092
具体地,把Bert输出的上下文表征
Figure BDA0003755630940000093
(qt表示第t个问题),与头部要素标签的表征
Figure BDA0003755630940000094
进行串联,作为要素关系预测模型的输入:
Figure BDA0003755630940000095
其中,
Figure BDA0003755630940000096
通过随机抽样进行初始化,并在训练期间进行微调。然后该输入经过softmax分类器,以提取要素ei与每个要素关系类型rk∈R的概率:
Pr(label=rk|ei)=σ(Wr·li+br)     (6)
其中,Pr为要素对应每种要素关系的概率,σ(·)是S型函数,
Figure BDA0003755630940000097
br∈R|R|,dl是要素标签嵌入的维度,|R|是要素关系集的大小。在分类器中得分高的表示要素ei对应的关系。
通过要素关系提取预测头部要素可能的关系类型集合,最终得到候选关系集。
S5、关系问题生成
基于头部要素和预测的要素关系类型生成关系问题,关系问题中包括头部要素、尾部要素类型和要素关系。
与头部要素抽取时的问题不同,考虑问题中包含具体要素序列,把问题形式化为一个要素序列的陈述句和一个含有尾部要素类型和要素关系的疑问句,保证了问题的合理性。比如为了识别头部要素论点对应关系推理的尾部要素结论,生成三个语义相同但表达不同的问题,如下所示:
问题1:{头部要素}是分论点,找到分论点提出的结论;
问题2:{头部要素}是分论点,哪个结论由分论点提出?
问题3:{头部要素}是分论点,分论点提出哪个结论?
S6、尾部元素提取
重复步骤S2-S3,即通过BERT输入连接问题和上下文表示,得到基于Bert的语义表示;通过回答多个问题并选择一个最佳答案来提取尾部要素,最终得到要素-要素关系-要素的论述结构。
优选地,在模型建立过程中,对头部语篇要素
Figure BDA0003755630940000101
尾部语篇要素
Figure BDA0003755630940000102
和要素之间关系
Figure BDA0003755630940000103
的损失函数进行组合优化,并共享在Bert上的训练参数,每个批次(batchsize)样本的平均损失
Figure BDA0003755630940000104
计算如下:
Figure BDA0003755630940000105
本实施例的基于多轮问答的议论文语篇要素和要素关系联合抽取方法将语篇要素和要素关系抽取两个独立的任务进行联合抽取,获得两个任务间的语义交互信息,缓解了错误传播;使用基于多轮问答的联合方法进行语篇要素和要素关系抽取,通过问题与上下文的交互捕获更全面的语义信息,并且避免了提取区域的限制。此外,该方法具有很好的扩展性,问题的答案既可以是词级也可以是句子级,能够适用于语篇要素抽取任务。
以下采用本实施例的方法在数据集进行测试,并与其他抽取方法的结果进行比较,以进一步说明本实施例方法的技术效果。
(1)数据集
数据集采用从作文自动评测任务上具有权威性的国外公开数据集ASAP中爬取语料,搜集以耐心和计算机利弊为主题的中学议论文。对于每一篇作文,确定中学英文议论文的语篇要素和要素关系标注规范,具体来说,每个语篇要素之间的关系如表1所示。表1为语篇要素之间的关系表。
表1
头要素 尾要素 要素关系
中心论点 分论点 补充
分论点 事实论据 事实支撑
分论点 道理论据 道理支撑
事实论据 结论 推断
道理论据 结论 推断
中心论点 结论 推断
中心论点(Major)句是证明什么,即作者对文章主题的中心主张,统领全文。中心论点最多只有一个。
分论点(Thesis)是中心论点的补充和说明。分论点可以有0至多个。
事实论据(Fact argument)句是用什么证明,支撑论点的示例。举例说明,对客观事物的真实描述和概括,包括具体事例、概括事实、统计数字、亲身经历等。
道理论据(Reason argument)句是用什么证明,支撑论点的示例。引证和说理,对某个问题或者观点进行论证说明其正确或错误,包括经典性的著作和权威性的言论(如名人名言等)、自然科学的原理、定律、公式等。
结论(Result)句是中心论点的延伸,总结了全文,呼应本文的论点。
对标注后的作文进行统计,该数据集共包含3042个具有语篇要素类型的句子。将数据集按照4:1的比例划分为训练集和测试集,并选择训练集的20%作为验证集。
(2)评价指标
使用Precision(P)、Recall(R)、F1-score(F1)和Accuracy进行评估。Precision表示该方法预测正确的语篇要素BIOE标签和要素关系类型的百分比;Recall表示该方法的数据集中语篇要素标签和要素关系类型的百分比。F1分数是P和R的调和平均数。
(3)参数设置
参数设置包括:使用Pytorch调试多轮问答框架,使用BERTbase(cased)嵌入每篇作文,序列最大长度设置为350个单词,批量大小设置为4,初始学习率为5e-5;使用嵌入模型训练数据,并修正超参数dropout values、best epoch、learning rate(1e-3,1e-5,3e-5,5e-5)。
(4)测试结果
表2为语篇要素和要素关系联合抽取的评价表,如表2所示,与具有代表性的方法ECAT、SPert和PFN进行对比,在语篇要素和要素关系抽取任务上,基于多轮问答的方法比PFN在两个任务上的F1值分别提高了上提升了0.02和0.03。
表3为基于多轮问答的联合方法在不同主题上的评价表,在数据集的两个主题上进行了实验,实验结果如表3所示。由于英文议论文写作方式通常是以某一主题为中心进行论述,数据集中不同主题的数量和论述内容会直接影响实验结果。基于多轮问答的联合方法在两个主题数据集上的F1值误差在0.01-0.02之间,该方法在多主题语料中具有通用性。
表2
Figure BDA0003755630940000121
表3
Figure BDA0003755630940000122
实施例三
本申请第二方面提供了一种基于多轮问答的议论文知识图谱构建方法。图3为本申请又一个实施例中的基于多轮问答的议论文知识图谱构建方法流程示意图,如图3所示,该方法包括:
S100、通过如上实施例中任意一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法抽取得到头部要素、尾部要素和要素关系;
S200、将头部要素、要素关系和尾部要素作为三元组,建立议论文知识图谱。
举例来说,每个要素对(ei,ej)及之间的关系rij,形成的三元组(ei,rij,ej)输出,可分别形式化为头要素、要素关系、尾要素,例如(论点,支撑,论据)。
本实施例提供的基于多轮问答的议论文知识图谱构建方法,基于上述方法实施例中基于多轮问答的议论文语篇要素和要素关系联合抽取方法的步骤建立议论文知识图谱,其实现原理和技术效果类似,本实施例不再赘述。
实施例四
本申请第三方面通过实施例四提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上实施例中任意一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法的步骤。
图4为本申请再一实施例中的电子设备的架构示意图。
图4所示的电子设备可包括:至少一个处理器101、至少一个存储器102、至少一个网络接口104和其他的用户接口103。电子设备中的各个组件通过总线***105耦合在一起。可理解,总线***105用于实现这些组件之间的连接通信。总线***105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线***105。
其中,用户接口103可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)或者触感板等。
可以理解,本实施例中的存储器102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Sync Link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作***1021和应用程序1022。
其中,操作***1021,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1022,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1022中。
在本发明实施例中,处理器101通过调用存储器102存储的程序或指令,具体的,可以是应用程序1022中存储的程序或指令,处理器101用于执行第一方面所提供的方法步骤。
上述本发明实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成上述方法的步骤。
另外,结合上述实施例中的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,本发明实施例可提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上方法实施例中的任意一种基于多轮问答的议论文语篇要素和要素关系联合抽取方法。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (9)

1.一种基于多轮问答的议论文语篇要素和要素关系联合抽取方法,其特征在于,该方法包括:
S10、针对目标议论文文本,获取预设的要素类型问题模板,通过所述要素类型问题模板生成要素问题;
S20、将所述要素问题输入到预先建立的问答框架中,得到头部要素;其中,所述问答框架为基于机器阅读理解建立的问答框架;
S30、将所述头部要素和所述目标议论文文本输入到预先建立的要素关系预测模型中,得到要素关系;其中,所述要素关系预测模型基于多分类器建立;
S30包括:
把BERT输出的上下文表征
Figure FDA0004115706000000011
与头部要素的表征
Figure FDA0004115706000000012
进行串联,作为要素关系的输入:
Figure FDA0004115706000000013
其中,
Figure FDA0004115706000000014
为头部要素的表征,
Figure FDA0004115706000000015
为上下文表征;
该输入经过softmax分类器,提取要素ei与每个要素关系类型rk的概率:
Pr(label=rk|ei)=σ(Wr·li+br)
其中,σ(·)是S型函数,
Figure FDA0004115706000000016
br∈R|R|,dl是要素标签嵌入的维度,|R|是要素关系集的大小;
在分类器中得分高的要素关系类型作为要素ei对应的要素关系;
S40、基于所述要素关系和所述头部要素生成关系问题;
S50、将所述关系问题输入到预先建立的问答框架中,得到相应的尾部要素。
2.根据权利要求1所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,其特征在于,在S10之前还包括建立要素类型问题模板。
3.根据权利要求1所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,其特征在于,S20包括:
将所述要素问题和所述目标议论文文本输入BERT,得到基于BERT的语义表示;
将所述语义表示输入到预先建立的问答框架中,得到多个问题答案;
基于预设的问题权重确定头部要素。
4.根据权利要求3所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,其特征在于,将所述语义表示输入到预先建立的问答框架中,得到多个问题答案,包括:
使用softmax分类层对隐藏层输出ht进行标签分类,分类得到的标签包括要素的开头单词、要素的中间单词、要素的结尾单词或不是任何要素类型;
根据标注后的隐藏层序列,识别以B开始到E结束位置上的片段,作为问题答案。
5.根据权利要求1所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,其特征在于,所述关系问题中包括头部要素、尾部要素类型和要素关系。
6.根据权利要求1所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法,其特征在于,在模型建立过程中,对头部语篇要素、尾部语篇要素和要素之间关系的损失函数进行组合优化,并共享在BERT上的训练参数,每个批次样本的平均损失
Figure FDA0004115706000000021
计算如下:
Figure FDA0004115706000000022
其中,
Figure FDA0004115706000000023
为头部语篇要素的损失函数,
Figure FDA0004115706000000024
为尾部语篇要素的损失函数,
Figure FDA0004115706000000025
为要素之间关系的损失函数。
7.一种基于多轮问答的议论文知识图谱构建方法,其特征在于,该方法包括:
通过如上权利要求1至6任一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法抽取得到头部要素、尾部要素和要素关系;
将所述头部要素、所述要素关系和所述尾部要素作为三元组,建立议论文知识图谱。
8.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上权利要求1至6任一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上权利要求1至6任一项所述的基于多轮问答的议论文语篇要素和要素关系联合抽取方法的步骤。
CN202210859304.8A 2022-07-20 2022-07-20 语篇要素和要素关系联合抽取方法、知识图谱构建方法 Active CN115309910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210859304.8A CN115309910B (zh) 2022-07-20 2022-07-20 语篇要素和要素关系联合抽取方法、知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210859304.8A CN115309910B (zh) 2022-07-20 2022-07-20 语篇要素和要素关系联合抽取方法、知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN115309910A CN115309910A (zh) 2022-11-08
CN115309910B true CN115309910B (zh) 2023-05-16

Family

ID=83857121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210859304.8A Active CN115309910B (zh) 2022-07-20 2022-07-20 语篇要素和要素关系联合抽取方法、知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN115309910B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384382B (zh) * 2023-01-04 2024-03-22 深圳擎盾信息科技有限公司 一种基于多轮交互的自动化长篇合同要素识别方法及装置
CN116384381A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于知识图谱的自动化合同要素识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3764618B2 (ja) * 1999-12-27 2006-04-12 株式会社東芝 文書情報抽出装置および文書分類装置
CN110210019A (zh) * 2019-05-21 2019-09-06 四川大学 一种基于递归神经网络的事件要素抽取方法
CN112464641B (zh) * 2020-10-29 2023-01-03 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质
CN113590776B (zh) * 2021-06-23 2023-12-12 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质
CN114360677A (zh) * 2021-12-16 2022-04-15 浙江大学 基于多轮问答的ct影像报告信息抽取方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115309910A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
Bao et al. Table-to-text: Describing table region with natural language
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
Fei et al. Hierarchical multi-task word embedding learning for synonym prediction
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择***
CN116910185B (zh) 模型训练方法、装置、电子设备及可读存储介质
Krithika et al. Learning to grade short answers using machine learning techniques
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
CN112529743B (zh) 合同要素抽取方法、装置、电子设备及介质
He et al. [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning
Singh et al. Deep neural based name entity recognizer and classifier for English language
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
Thielmann et al. Human in the loop: How to effectively create coherent topics by manually labeling only a few documents per class
Markus et al. Leveraging Researcher Domain Expertise to Annotate Concepts Within Imbalanced Data
Wang et al. Knowledge points extraction of junior high school english exercises based on SVM method
Budhiraja Extracting specific text from documents using machine learning algorithms
CN117291192B (zh) 一种政务文本语义理解分析方法及***
Sindhu et al. Aspect based opinion mining leveraging weighted bigru and CNN module in parallel
Worke INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS
Song et al. A hybrid model for community-oriented lexical simplification
Kolappan Computer Assisted Short Answer Grading with Rubrics using Active Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant