CN112148863B - 一种融入常识知识的生成式对话摘要方法 - Google Patents

一种融入常识知识的生成式对话摘要方法 Download PDF

Info

Publication number
CN112148863B
CN112148863B CN202011104023.9A CN202011104023A CN112148863B CN 112148863 B CN112148863 B CN 112148863B CN 202011104023 A CN202011104023 A CN 202011104023A CN 112148863 B CN112148863 B CN 112148863B
Authority
CN
China
Prior art keywords
dialogue
node
knowledge
representation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011104023.9A
Other languages
English (en)
Other versions
CN112148863A (zh
Inventor
冯骁骋
冯夏冲
秦兵
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011104023.9A priority Critical patent/CN112148863B/zh
Publication of CN112148863A publication Critical patent/CN112148863A/zh
Application granted granted Critical
Publication of CN112148863B publication Critical patent/CN112148863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种融入常识知识的生成式对话摘要方法,属于自然语言处理领域。本发明解决了现有生成式对话摘要方法未利用常识知识而导致生成的对话摘要不准确,抽象性低的问题。本发明方法包括:获取常识知识库ConceptNet与对话摘要数据集SAMSum;利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,构建异构对话图;练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。本发明应用于对话摘要的生成。

Description

一种融入常识知识的生成式对话摘要方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种融入常识知识的生成式对话摘要方法。
背景技术
基于自然语言处理—自动文本摘要(AutomaticSummarization)[1](题目:Constructing literature abstracts by computer:techniques and prospects,作者:Chris D Paice,年份:1990年,文献引自Information Processing&Management)领域下的生成式对话摘要(Abstractive DialogueSummarization),即给定一段多人对话的文字记录,生成一段简短的、包含对话关键信息的文本描述,如图1,展示了一个多人对话及其对应的标准摘要。
对于对话摘要,现有工作大多集中于生成式(Abstractive)方法,即允许最终摘要包含原文没有的新颖的词汇和短语。例如Liu等人[2][题目:Automatic dialogue summarygeneration for customer service,作者:Chunyi Liu,年份:2019年,文献引自Proceedings of the 25th ACM SIGKDD International Conference on KnowledgeDiscovery&Data Mining]针对客服对话摘要任务,采用多步生成方式生成对话摘要,Liu等人[3][题目:Topic-aware pointer-generator networks for summarizing spokenconversations,作者:Zhengyuan Liu,年份:2019年,文献引自arXiv preprint]针对医患对话摘要任务,融入主题信息建模对话,生成最终摘要。Ganesh等人[4][题目:Abstractivesummarization of spoken and written conversation,作者:Prakhar Ganesh,年份:2019年,文献引自arXiv preprint]利用对话篇章结构作为规则去除对话中的无用句子,然后生成对话摘要。近期,在对话回复生成[5][题目:Commonsense knowledge awareconversation generation with graph attention.,作者:Hao Zhou,年份:2018年,文献引自IJCAI,]和对话上下文建模[6][题目:Masking orchestration:Multi-taskpretraining for multi-role dialogue representation learning,作者:Tianyi Wang,年份:2020年,文献引自AAAI]等任务中显示,尽管目前基于神经网络的摘要模型已经有很强的学习能力,但是现有方法忽略了常识知识的利用,一方面会导致模型无法更好的理解对话文本,生成质量低的摘要;另一方面缺少常识知识,会导致生成摘要抽象性较低。通过融入显式的常识知识可以帮助模型更好的完成任务,融入常识知识的对话摘要可以帮助模型理解对话背后的高层含义;还可以作为不连贯句子之间的桥梁,帮助更好的理解对话。然而,现有的对话摘要***却忽视了常识知识的利用。
常识知识可以帮助对话摘要***生成更高质量的摘要。如图1,通过“接”和“车坏了”可以知道鲍勃希望汤姆让他“搭便车”,引入显式的常识知识“搭便车”,可以帮助更好的生成对话摘要。在融入常识知识之后,为了更好的建模说话人,句子和常识知识三类数据,可利用异构图神经网络建模三类数据,并生成最终摘要。
发明内容
本发明是为了解决现有生成式对话摘要方法未利用常识知识而导致生成的对话摘要不准确,抽象性低的问题。现提出一种融入常识知识的生成式对话摘要方法。
一种融入常识知识的生成式对话摘要方法,包括:
步骤一、获取常识知识库ConceptNet与对话摘要数据集SAMSum;包含的常识知识以元组的形式存在,即元组知识,表示为:
R=(h,r,t,w),
其中,R表示一个元组知识;表示头实体;r表示关系;t表示尾实体;w表示权重,表示关系的置信度;知识R表示了头实体和尾实体t拥有关系r,并且权重为w;
所述对话摘要数据集SAMSum分为训练、开发和测试三部分;
步骤二、利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,构建异构对话图;具体过程为:
步骤三、构建对话异构神经网络模型;所述对话异构神经网络模型包括节点编码器、图编码器和解码器;
步骤三一、构造节点编码器,利用双向长短时神经网络获取节点初始化表示
Figure GDA0003568539010000021
和词语初始化表示
Figure GDA0003568539010000022
步骤三二、构造图编码器,利用异构图神经网络更新节点表示,并添加节点位置编码信息和更新词语表示
Figure GDA0003568539010000023
步骤三三、构造解码器;
步骤四、训练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。
有益效果
融入常识知识的对话摘要可以帮助模型理解对话背后的高层含义;
融入常识知识的对话摘要可以作为不连贯句子之间的桥梁,帮助更好的理解对话;
通过引入常识知识,可以帮助模型生成更加抽象和具有概括性的摘要;
本发明在对话摘要任务中引入常识知识,将对话中的说话人,句子和常识知识三类数据建模为异构对话图,利用异构图神经网络建模整个异构对话图。
整个模型采用图到序列框架,生成最终对话摘要。解决了现有生成式对话摘要忽略常识知识利用的问题。在本发明方法进行实验后生成的摘要中,生成了更加抽象和正确的摘要,更好的概括了对话内容,显示了本发明方法的有效性,在评价指标ROUGE上本发明方法比现有的方法取得了更好的结果。
ROUGE是一种基于召回率的相似性度量方法,是评估自动文摘以及机器翻译的一组指标,考察翻译的充分性和忠实性,值越高越好。ROUGE-1、ROUGE-2、ROUGE-L的计算分别涉及一元语法、二元语法和最长公共子序列。
附图说明
图1为一个多人对话及其对应的标准摘要示意图;
图2为SAMSum对话摘要数据集对话摘要对示例;
图3为SAMSum数据集中对话-摘要对示例;
图4为从ConceptNet中获取的相关知识三元组;
图5为本发明所构建的句子-知识图;
图6为本发明所构建的说话人-句子图;
图7为本发明所构建的异构对话图;
图8为本发明模型示意图,其中(a)异构对话图构建,(b)节点编码器,(c)图编码器,(d)解码器。
具体实施方式
具体实施方式一:本实施方式一种融入常识知识的生成式对话摘要方法,包括:
步骤一:获取大规模常识知识库ConceptNet与对话摘要数据集SAMSum。
步骤一一、获取大规模常识知识库ConceptNet:
从http://conceptnet.io/获取大规模常识知识库ConceptNet;其中包含的常识知识以元组的形式存在,即元组知识,可以表示为:
R=(h,r,t,w),
其中,R表示一个元组知识;h表示头实体;r表示关系;t表示尾实体;w表示权重,表示关系的置信度;知识R表示了头实体h和尾实体t拥有关系r,并且权重为w;例如R=(打电话,相关,联系,10,表示了“打电话”与“联系”的关系是“相关”,并且权重是10;通过网址http://conceptnet.io/可以获得大规模以元组形式存在的常识知识。
步骤一二、获取对话摘要数据集SAMSum:
https://arxiv.org/abs/1911.12237可以获得对话摘要数据集SAMSum,该数据集分为训练、开发和测试三个部分,训练、开发和测试三个部分的数量分别为14732,818,819,该划分为统一标准的固定划分;该数据集主要描述了参与者之间的闲聊等主题,且每一个对话都有对应的标准摘要;图2给出了该数据集的一个示例;
步骤二、利用获取到的大规模常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,并构建异构对话图;
步骤三、构造对话异构神经网络模型;该模型主要包括三个部分:节点编码器,图编码器和解码器三个部分;
步骤三一、构造节点编码器,利用双向长短时神经网络(Bi-LSTM)获取节点初始化表示
Figure GDA0003568539010000041
和词语初始化表示
Figure GDA0003568539010000042
(其中
Figure GDA0003568539010000043
Figure GDA0003568539010000044
均在步骤三二进行更新);
步骤三二、构造图编码器,利用异构图神经网络更新节点表示,并添加节点位置编码信息和更新词语表示
Figure GDA0003568539010000045
步骤三三、构造解码器,利用单向长短时记忆网络(LSTM)解码器来生成摘要;
步骤四:训练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤二利用获取到的大规模常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,并构建异构对话图;具体过程为:
步骤二一、获取对话相关知识;对于一段对话,本发明首先根据对话中的词语从ConceptNet中获取一系列相关元组知识,排除噪音知识,最终可以得到与给定对话相关的元组知识集合,如图4;
步骤二二、构建句子—知识图:
对于步骤二一获取到的相关元组知识中,假设存在句子A和句子B,词语a属于句子A,词语b属于句子B,如果a和b的相关知识的尾实体h一致,那么将句子A和句子B连接到尾实体h;得到句子—知识图;例如图5,句子A为“你有贝蒂的号码吗”,句子B为“劳拉上次呼叫了她”;词语a和b分别为“号码”和“呼叫”;存在相关知识元组(号码,位于,电话本)和(呼叫,相关,电话本),那么将句子A和B连接到实体“电话本”;
通过上述方式获得到的常识知识会存在多余和重复的问题,因此本发明还需要简化元组知识,通过简化知识,可以引入更加干净和质量更高的常识知识;
(1)如果句子A和B连接多个实体,那么选择边关系平均权重最高的一个,例如图5所示,“电话本”的平均权重大于“日期”的平均权重,那么选择“电话本”;
(2)如果不同对句子分别连接到同一个实体,那么将该实体合并成为一个实体,例如图5所示,两个“联系”实体合并为一个“联系”实体;
步骤二三、构建说话人-句子图:
根据“说话人说的一句话”建立说话人与句子之间的边关系,得到说话人-句子图,如图6所示;
步骤二四、融合句子-知识图与说话人-句子图:
在句子-知识图与说话人-句子图中,句子部分相同,因此将句子部分合并,融合句子-知识图和说话人-句子图为最终的异构对话图;构造出的异构对话图均在说话人和句子之间存在两种边,从说话人到句子的“speak-by”边,从句子到说话人的“rev-speak-by”边;在句子和知识之间存在两种边,从知识到句子的“know-by”边,从构造出的异构对话图均存在三类节点:说话人,句子,常识知识。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤三一、构造节点编码器,利用双向长短时神经网络(Bi-LSTM)获取节点初始化表示
Figure GDA0003568539010000051
和词语初始化表示
Figure GDA0003568539010000052
具体过程为:
对于步骤二本发明提出的异构对话图,其中每一个节点vi包含|vi|个单词,单词序列为
Figure GDA0003568539010000053
其中wi,n表示节点vi的第n个单词,n∈[1,|vi|];使用双向长短时神经网络(Bi-LSTM)来对单词序列
Figure GDA0003568539010000054
生成前向隐层序列
Figure GDA0003568539010000055
和后向隐层序列
Figure GDA0003568539010000056
其中,前向隐层状态
Figure GDA0003568539010000057
Figure GDA0003568539010000058
后向隐层状态
Figure GDA0003568539010000059
xn表示wi,n的词向量表示;将前向隐层状态的最后一个隐层表示与后向隐层状态的第一个隐层表示拼接得到节点的初始化表示
Figure GDA00035685390100000510
其中,;表示向量拼接;同时可以得到节点中每一个词语的初始化表示
Figure GDA00035685390100000511
如图8所示。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三二构造图编码器,利用异构图神经网络更新节点表示,并添加节点位置编码信息和更新词语表示
Figure GDA00035685390100000512
具体过程为:
给定一个目标节点t,可以得到其邻居节点s∈N(t),其中,N(t)表示t的邻居节点集合,s表示其中一个邻居节点;给定一个边e=(s,t),表示从邻居节点s指向目标节点t的一条边,定义:(1)节点类型映射函数为:
Figure GDA00035685390100000513
其中,τ表示节点类型映射函数;v表示给定节点;V表示节点集合;
Figure GDA00035685390100000514
表示节点类型集合;在步骤二构造的异构对话图中,一共包含说话人、句子、常识知识三种节点类型;
(2)边关系类型映射函数为:
Figure GDA00035685390100000515
其中,
Figure GDA0003568539010000061
表示边类型映射函数;e表示给定边;E表示边集合;
Figure GDA0003568539010000062
表示边类型集合;
在步骤二构造的异构对话图中,一共包含四种类型的边:speak-by,rev-speak-by,know-by,rev-know-by;对于给定边e=(s,t),s和t分别拥有来自上一层的表示
Figure GDA0003568539010000063
Figure GDA0003568539010000064
首先将
Figure GDA0003568539010000065
Figure GDA0003568539010000066
映射为
Figure GDA0003568539010000067
Figure GDA0003568539010000068
其中,
Figure GDA0003568539010000069
表示与层数有关的映射函数,
Figure GDA00035685390100000610
表示与类型有关的映射函数,l表示图网络的第l层,
Figure GDA00035685390100000611
表示邻居节点s在l层的键值表示,
Figure GDA00035685390100000612
表示节点t在l层的查询表示;
然后计算
Figure GDA00035685390100000613
Figure GDA00035685390100000614
之间的权重:
Figure GDA00035685390100000615
其中,
Figure GDA00035685390100000616
表示与层数和边类型有关的可学习参数;T表示转置;α(s,e,t)表示
Figure GDA00035685390100000617
Figure GDA00035685390100000618
之间的权重;
在得到每一个邻居节点s与目标节点t之间的权重后,对所有权重进行归一化:
Figure GDA00035685390100000619
其中,Softmax为归一化函数,ATT(l)(s,e,t)为最终归一化之后的分数;
将每一个邻居节点s表示
Figure GDA00035685390100000620
映射为:
Figure GDA00035685390100000621
其中,
Figure GDA00035685390100000622
为与类型和层数有关的映射函数;
Figure GDA00035685390100000623
表示邻居节点s在l层的消息表示;
在得到
Figure GDA00035685390100000624
之后,计算得到最终消息向量:
Figure GDA00035685390100000625
其中,
Figure GDA00035685390100000626
为与类型和层数有关的可学习参数;
当目标节点t类型不是句子节点时,本发明利用归一化分数ATT(l)(s,e,t)作为权重来加权求和消息向量Msg(l)(s,e,t)得到
Figure GDA00035685390100000627
Figure GDA0003568539010000071
其中,
Figure GDA0003568539010000072
表示求和;
Figure GDA0003568539010000073
相乘;
Figure GDA0003568539010000074
为融合t的所有邻居节点的表示;
当目标节点t类型是句子节点时,本发明区分邻居节点s的类型进行信息融合得到
Figure GDA0003568539010000075
Figure GDA0003568539010000076
Figure GDA0003568539010000077
Figure GDA0003568539010000078
其中,τ(s)表示邻居邻居节点的类型,sk表示类型为知识的邻居节点,ss表示类型为说话人的邻居节点;
针对上述两种情况分别映射得到
Figure GDA0003568539010000079
之后,本发明将其映射为
Figure GDA00035685390100000710
作为更新之后的节点表示:
Figure GDA00035685390100000711
其中,Sigmoid表示激活函数,
Figure GDA00035685390100000712
表示与类型和层数有关的映射函数;
接着,在更新后的节点表示
Figure GDA00035685390100000713
上融入位置信息,对于每一个节点vi,与其关联一个位置
Figure GDA00035685390100000714
对于说话人节点和知识节点,位置
Figure GDA00035685390100000715
对于句子节点,
Figure GDA00035685390100000716
为句子在对话中的位置,即第几句话;本发明设定一个位置向量矩阵Wpos,对于每一个位置
Figure GDA00035685390100000717
可以获得其对应的向量表示
Figure GDA00035685390100000718
Figure GDA00035685390100000719
融入
Figure GDA00035685390100000720
得到更新后的表示:
Figure GDA00035685390100000721
最后,将更新之后的节点表示
Figure GDA00035685390100000722
与对应的初始化词语表示
Figure GDA00035685390100000723
拼接,并经过映射得到更新后的词语表示:
Figure GDA00035685390100000724
其中,F_Linear()表示映射函数,;表示向量拼接。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤三三构造解码器:
在得到更新后的词语表示
Figure GDA0003568539010000081
之后,计算所有词语的表示平均s0
Figure GDA0003568539010000082
其中,G表示异构对话图中全部节点集合;s0赋值给解码器的细胞状态和隐层状态来初始化解码器的初始状态;在解码的每一步,根据解码器状态st计算上下文向量ct
Figure GDA0003568539010000083
at=Softmax(et) (12)
Figure GDA0003568539010000084
其中,Wa表示可学习的参数,
Figure GDA0003568539010000085
是更新后的词语表示;T表示转置,
Figure GDA0003568539010000086
为对于第i个节点的第n个词语的未归一化的权重;st为解码器t时刻状态;at为经过归一化以后的权重;et为归一化之前的权重;ct为上下文向量表示;
Figure GDA0003568539010000087
为归一化以后的对于第i个节点第n个词语的权重;
根据上下文向量ct和解码器t时刻状态st计算词表中生成每一个词语的概率Pvocab
Pvocab(w)=Softmax(V′(V[st;ct]+b)+b′) (14)
其中,V′,V,b,b′为可学习的参数;[st;ct]表示st和ct的拼接;Softmax为归一化函数;Pvocab(w)表示生成词语w的概率;
除了从词表中生成词语,本发明模型还允许从原文中拷贝词语;首先计算生成词语的概率pgen
Figure GDA0003568539010000088
其中,wc,ws,wx和bptr为可学习的参数;sigmoid为激活函数;pgen表示生成词语的概率;1-pgen表示了从原文中拷贝的概率;
Figure GDA0003568539010000089
为对wc求转置;
Figure GDA00035685390100000810
为对ws求转置;
Figure GDA00035685390100000811
为对wx求转置;xt为t时刻解码器输入词语的词向量;
因此对于一个词语w,综合考虑从词表中生成的概率和从原文中拷贝的概率,最终概率如式(16):
Figure GDA0003568539010000091
其中,
Figure GDA0003568539010000092
为经过归一化以后的对于第i个节点第n个词语的权重;
根据式(16),即可利用该解码器在解码每一步选择概率最大的词语作为输出。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述训练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要;具体过程为:
使用极大似然估计,利用SAMSum数据集的训练部分训练对话异构神经网络模型,在解码器解码的每一步,根据式(16)预测的词语概率和标准词语计算交叉熵损失;
对于一个对话D,给定标准摘要
Figure GDA0003568539010000093
训练目标是最小化式(17):
Figure GDA0003568539010000094
其中,
Figure GDA0003568539010000095
为标准摘要中的第一个词语;
Figure GDA0003568539010000096
为标准摘要中的最后一个词语;
Figure GDA0003568539010000097
为t时刻需要预测的标准摘要的词语;L为交叉熵损失函数;
根据公式(17)训练对话异构神经网络模型,利用SAMSum数据集的开发部分选择最好的模型,最终利用训练好的对话异构神经网络模型根据式(16)针对SAMSum数据集的测试部分来生成最终对话摘要。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述排除噪音知识方法包括:
(1)如果元组知识中的权重w低于1,那么排除此知识;
(2)如果元组知识的关系r属于:反义词、语源上相关、语源上发源于、不同于,不期望,那么排除此知识。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述简化元组知识的过程包括:
(1)如果句子A和B连接多个实体,那么选择边关系平均权重最高的一个,例如图5所示,“电话本”的平均权重大于“日期”的平均权重,那么选择“电话本”;
(2)如果不同对句子分别连接到同一个实体,那么将该实体合并成为一个实体,例如图5所示,两个“联系”实体合并为一个“联系”实体。
其它步骤及参数与具体实施方式一至七之一相同。
实施例
实施例一:
本发明对提出的模型进行了实现,同时和目前的基线模型和标准摘要进行了对比。
(1)基线模型生成的摘要:
Gary and Lara will meet at 5pm for Tom's bday party.
(2)本发明模型生成的摘要:
Gary and Lara are going to Tom's birthday party at 5pm.Lara will pickup the cake.
(3)标准摘要:
It’s Tom's birthday.Lara and Gary will come to Tom's place about 5pmto prepare everything.Gary has already paid for the cake Lara will pick it.
根据以上实施例可以看出,本发明的模型可以生成与标准摘要更加相似的结果,通过引入常识知识,可以更好的理解对话信息。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (9)

1.一种融入常识知识的生成式对话摘要方法,其特征在于,包括:
步骤一、获取常识知识库ConceptNet与对话摘要数据集SAMSum;包含的常识知识以元组的形式存在,即元组知识,表示为:
R=(h,r,t,w),
其中,R表示一个元组知识;h表示头实体;r表示关系;t表示尾实体;w表示权重,表示关系的置信度;知识R表示了头实体h和尾实体t拥有关系r,并且权重为w;
所述对话摘要数据集SAMSum分为训练、开发和测试三部分;
步骤二、利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,构建异构对话图;具体过程为:
步骤三、构建对话异构神经网络模型;所述对话异构神经网络模型包括节点编码器、图编码器和解码器;
步骤三一、构造节点编码器,利用双向长短时神经网络获取节点初始化表示
Figure FDA0003568538000000011
和词语初始化表示
Figure FDA0003568538000000012
步骤三二、构造图编码器,利用异构图神经网络更新节点表示,并添加节点位置编码信息和更新词语表示
Figure FDA0003568538000000013
步骤三三、构造解码器;
步骤四、训练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。
2.根据权利要求1所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述步骤二利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识,构建异构对话图;具体过程为:
步骤二一、对于一段对话,根据对话中的词语从ConceptNet中获取的相关元组知识,排除噪音知识,得到与给定对话相关的元组知识集合;
步骤二二、对于步骤二一获取到的相关元组知识中,假设存在句子A和句子B,词语a属于A,词语b属于B,简化元组知识,如果a和b的尾实体h一致,那么将句子A和B连接到尾实体h;得到句子—知识图;
步骤二三、根据“说话人说的一句话”建立说话人与句子之间的边关系,得到说话人—句子图;
步骤二四、将句子—知识图和说话人—句子图融合为异构对话图;所述异构对话图在说话人和句子之间存在两种边,即从说话人到句子的“speak-by”边,从句子到说话人的“rev-speak-by”边;在句子和元组知识之间存在两种边,即从知识到句子的“know-by”边,从句子到元组知识的“rev-know-by”边;异构对话图存在三类节点,即说话人、句子和常识知识。
3.根据权利要求2所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述步骤三一构造节点编码器;利用双向长短时神经网络获取节点初始化表示
Figure FDA0003568538000000021
和词语初始化表示
Figure FDA0003568538000000022
具体过程为:
对于构造的异构对话图,其中每一个节点vi包含|vi|个单词,单词序列为
Figure FDA0003568538000000023
其中,wi,n表示节点vi的第n个单词,n∈[1,|vi|];使用双向长短时神经网络对单词序列
Figure FDA0003568538000000024
生成前向隐层序列
Figure FDA0003568538000000025
和后向隐层序列
Figure FDA0003568538000000026
其中,前向隐层状态
Figure FDA0003568538000000027
后向隐层状态
Figure FDA0003568538000000028
xn为wi,n的词向量表示;将前向隐层状态的最后一个隐层表示与后向隐层状态的第一个隐层表示拼接得到节点的初始化表示
Figure FDA0003568538000000029
其中,;表示向量拼接;同时得到节点中每一个词语的初始化表示
Figure FDA00035685380000000210
4.根据权利要求1或2所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述步骤三二构造图编码器,利用异构图神经网络更新节点表示,并添加节点位置编码信息和更新词语表示
Figure FDA00035685380000000211
具体过程为:
给定一个目标节点t,得到其邻居节点s∈N(t),其中N(t)表示t的邻居节点集合,s表示其中一个邻居节点;给定一个边e=(s,t),表示从邻居节点s指向目标节点t的一条边,定义:
(1)节点类型映射函数为:
τ(v):
Figure FDA00035685380000000212
其中,τ表示节点类型映射函数;v表示给定节点;V表示节点集合;
Figure FDA00035685380000000213
表示节点类型集合;在步骤二构造的异构对话图中,一共包含说话人、句子、常识知识三种节点类型;
(2)边关系类型映射函数为:
Figure FDA00035685380000000214
其中,
Figure FDA00035685380000000215
表示边类型映射函数;e表示给定边;E表示边集合;
Figure FDA00035685380000000216
表示边类型集合;
在异构对话图中,一共包含四种类型的边:speak-by,rev-speak-by,know-by,rev-know-by;对于给定边e=(s,t),s和t分别拥有来自上一层的表示
Figure FDA0003568538000000031
Figure FDA0003568538000000032
Figure FDA0003568538000000033
Figure FDA0003568538000000034
映射为
Figure FDA0003568538000000035
Figure FDA0003568538000000036
其中,
Figure FDA0003568538000000037
表示与层数有关的映射函数,
Figure FDA0003568538000000038
表示与类型有关的映射函数;l表示图网络的第l层,
Figure FDA0003568538000000039
表示邻居节点s在l层的键值表示,
Figure FDA00035685380000000310
表示节点t在l层的查询表示;
计算
Figure FDA00035685380000000311
Figure FDA00035685380000000312
之间的权重:
Figure FDA00035685380000000313
其中,
Figure FDA00035685380000000314
表示与层数和边类型有关的可学习参数;T表示转置;α(s,e,t)表示
Figure FDA00035685380000000315
Figure FDA00035685380000000316
之间的权重;
在得到每一个邻居节点s与目标节点t之间的权重后,对所有权重进行归一化:
Figure FDA00035685380000000317
其中,Softmax为归一化函数,ATT(l)(s,e,t)为最终归一化之后的分数;
将每一个邻居节点s表示
Figure FDA00035685380000000318
映射为:
Figure FDA00035685380000000319
其中,
Figure FDA00035685380000000320
为与类型和层数有关的映射函数;
在得到
Figure FDA00035685380000000321
之后,计算得到最终消息向量:
Figure FDA00035685380000000322
其中,
Figure FDA00035685380000000323
为与类型和层数有关的可学习参数;
当目标节点t类型不是句子节点时,利用归一化分数ATT(l)(s,e,t)作为权重来加权求和消息向量Msg(l)(s,e,t)得到
Figure FDA00035685380000000324
Figure FDA00035685380000000325
其中,
Figure FDA00035685380000000326
表示求和,
Figure FDA00035685380000000327
相乘;
Figure FDA00035685380000000328
为融合t的所有邻居节点的表示;
当目标节点t类型是句子节点时,区分邻居节点s的类型进行信息融合得到
Figure FDA0003568538000000041
Figure FDA0003568538000000042
Figure FDA0003568538000000043
Figure FDA0003568538000000044
其中,τ(s)表示邻居节点的类型,sk表示类型为知识的邻居节点,式(6)中τ(s)表示邻居节点的类型,ss表示类型为说话人的邻居节点;
得到
Figure FDA0003568538000000045
之后,将其映射为
Figure FDA0003568538000000046
作为更新后的节点表示:
Figure FDA0003568538000000047
其中,Sigmoid表示激活函数,
Figure FDA0003568538000000048
表示与类型和层数有关的映射函数;
在更新后的节点表示
Figure FDA0003568538000000049
上融入位置信息,对于每一个节点vi,与其关联一个位置
Figure FDA00035685380000000410
对于说话人节点和知识节点,位置
Figure FDA00035685380000000411
对于句子节点,
Figure FDA00035685380000000412
为句子在对话中的位置,即第几句话;
设定一个位置向量矩阵Wpos,对于每一个位置
Figure FDA00035685380000000413
能够获得其对应的向量表示
Figure FDA00035685380000000414
Figure FDA00035685380000000415
融入
Figure FDA00035685380000000416
得到更新后的表示:
Figure FDA00035685380000000417
将更新之后的节点表示
Figure FDA00035685380000000418
与对应的初始化词语表示
Figure FDA00035685380000000419
拼接,并经过映射得到更新后的词语表示:
Figure FDA00035685380000000420
其中,F_Linear()表示映射函数,;表示向量拼接。
5.根据权利要求4所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述步骤三三构造解码器;具体过程为:
得到更新后的词语表示
Figure FDA00035685380000000421
后,计算所有词语的表示平均s0,表示为:
Figure FDA00035685380000000422
其中,G表示异构对话图中全部节点集合;
s0赋值给解码器的细胞状态和隐层状态来初始化解码器的初始状态;在解码的每一步,利用注意力机制,根据解码器状态st计算上下文向量ct
Figure FDA0003568538000000051
at=Softmax(et) (12)
Figure FDA0003568538000000052
其中,Wa表示可学习的参数;
Figure FDA0003568538000000053
是更新后的词语表示;T表示转置;
Figure FDA0003568538000000054
为对于第i个节点n个词语的未归一化的权重;st为解码器t时刻状态;at为经过归一化以后的权重;et为归一化之前的权重;ct为上下文向量表示;
Figure FDA0003568538000000055
为归一化以后的,对于第i个节点第n个词语的权重;
向量ct和解码器t时刻状态st计算词表中生成每一个词语的概率Pvocab
Pvocab(w)=Softmax(V′(V[st;ct]+b)+b′) (14)
其中,V′,V,b,b′为可学习的参数;[st;ct]表示st和ct的拼接;Softmax为归一化函数;Pvocab(w)表示生成词语w的概率;
除了从词表中生成词语,还允许从原文中拷贝词语;首先计算生成词语的概率pgen
Figure FDA0003568538000000056
其中,wc,ws,wx和bptr为可学习的参数;sigmoid为激活函数;pgen表示生成词语的概率;1-pgen则表示从原文中拷贝的概率;
Figure FDA0003568538000000057
为对wc求转置;
Figure FDA0003568538000000058
为对ws求转置;
Figure FDA0003568538000000059
为对wx求转置;xt为t时刻解码器输入词语的词向量;
最终概率如式(16):
Figure FDA00035685380000000510
其中,
Figure FDA00035685380000000511
为经过归一化以后的对于第i个节点第n个词语的权重;
根据式(16),利用解码器在解码的每一步选择概率最大的词语作为输出。
6.根据权利要求5所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述步骤四训练步骤三中构造的对话异构神经网络模型,通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要;具体过程为:
使用极大似然估计,利用SAMSum数据集的训练部分训练对话异构神经网络模型,在解码器解码的每一步,根据式(16)预测的词语概率和标准词语计算交叉熵损失:
对于一个对话D,给定标准摘要
Figure FDA0003568538000000061
训练目标是最小化式(17):
Figure FDA0003568538000000062
其中,
Figure FDA0003568538000000063
为标准摘要中的第一个词语;
Figure FDA0003568538000000064
为标准摘要中的最后一个词语;
Figure FDA0003568538000000065
为t时刻需要预测的标准摘要的词语;L为交叉熵损失函数;
根据公式(17)训练对话异构神经网络模型,利用SAMSum数据集的开发部分选择最好的模型,最后利用训练好的对话异构神经网络模型根据式(16)针对SAMSum数据集的测试部分来生成最终对话摘要。
7.根据权利要求2所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述排除噪音知识的方法包括:
(1)当元组知识中的权重w低于1,则排除此知识;
(2)当元组知识的关系r属于:反义词、语源上相关、语源上发源于、不同于或不期望,则排除此知识。
8.根据权利要求2所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述简化元组知识的过程包括:
(1)如果句子A和句子B连接多个实体,则选择边关系平均权重最高的一个;
(2)如果不同对句子分别连接到相同名称的实体,则将所有相同名称的实体合并为一个实体。
9.根据权利要求1所述一种融入常识知识的生成式对话摘要方法,其特征在于,所述SAMSum中训练、开发和测试三部分数量分别为:14732,818,819。
CN202011104023.9A 2020-10-15 2020-10-15 一种融入常识知识的生成式对话摘要方法 Active CN112148863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011104023.9A CN112148863B (zh) 2020-10-15 2020-10-15 一种融入常识知识的生成式对话摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011104023.9A CN112148863B (zh) 2020-10-15 2020-10-15 一种融入常识知识的生成式对话摘要方法

Publications (2)

Publication Number Publication Date
CN112148863A CN112148863A (zh) 2020-12-29
CN112148863B true CN112148863B (zh) 2022-07-01

Family

ID=73952047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011104023.9A Active CN112148863B (zh) 2020-10-15 2020-10-15 一种融入常识知识的生成式对话摘要方法

Country Status (1)

Country Link
CN (1) CN112148863B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765344B (zh) * 2021-01-12 2022-07-08 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN113204627B (zh) * 2021-05-13 2022-08-23 哈尔滨工业大学 利用DialoGPT作为特征标注器的对话摘要生成***
CN113553804A (zh) * 2021-07-15 2021-10-26 重庆邮电大学 一种基于异构图transformer的单文档文本摘要***
CN114328956B (zh) * 2021-12-23 2023-02-28 北京百度网讯科技有限公司 文本信息的确定方法、装置、电子设备及存储介质
CN114580439B (zh) * 2022-02-22 2023-04-18 北京百度网讯科技有限公司 翻译模型训练方法、翻译方法、装置、设备以及存储介质
CN114626368B (zh) * 2022-03-18 2023-06-09 中国电子科技集团公司第十研究所 一种垂直领域规则常识知识获取方法及***
CN115905513B (zh) * 2023-02-22 2023-07-14 中国科学技术大学 一种基于去噪式问答的对话摘要方法
CN116541505B (zh) * 2023-07-05 2023-09-19 华东交通大学 一种基于自适应对话分割的对话摘要生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2595541A1 (en) * 2007-07-26 2009-01-26 Hamid Htami-Hanza Assisted knowledge discovery and publication system and method
US10114148B2 (en) * 2013-10-02 2018-10-30 Nec Corporation Heterogeneous log analysis
US10055486B1 (en) * 2014-08-05 2018-08-21 Hrl Laboratories, Llc System and method for real world event summarization with microblog data
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN108763333B (zh) * 2018-05-11 2022-05-17 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
US10885281B2 (en) * 2018-12-06 2021-01-05 International Business Machines Corporation Natural language document summarization using hyperbolic embeddings
CN111026861B (zh) * 2019-12-10 2023-07-04 腾讯科技(深圳)有限公司 文本摘要的生成方法、训练方法、装置、设备及介质
CN110929024B (zh) * 2019-12-10 2021-07-02 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法
CN111339754B (zh) * 2020-03-04 2022-06-21 昆明理工大学 基于案件要素句子关联图卷积的案件舆情摘要生成方法
CN111460132B (zh) * 2020-03-10 2021-08-10 哈尔滨工业大学 一种基于图卷积神经网络的生成式会议摘要方法
CN111460135B (zh) * 2020-03-31 2023-11-07 北京百度网讯科技有限公司 用于生成文本摘要的方法和装置
CN111639176B (zh) * 2020-05-29 2022-07-01 厦门大学 一种基于一致性监测的实时事件摘要方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Also Published As

Publication number Publication date
CN112148863A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112148863B (zh) 一种融入常识知识的生成式对话摘要方法
Wang et al. Deep learning for aspect-based sentiment analysis
US11900056B2 (en) Stylistic text rewriting for a target author
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
WO2022095378A1 (zh) 基于人工智能的培训方法、装置、计算机设备及存储介质
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
US20170011289A1 (en) Learning word embedding using morphological knowledge
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
WO2022179384A1 (zh) 一种社交群体的划分方法、划分***及相关装置
CN111651973B (zh) 一种基于句法感知的文本匹配方法
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN115062208A (zh) 数据处理方法、***及计算机设备
Gu et al. HeterMPC: A heterogeneous graph neural network for response generation in multi-party conversations
Dhole Resolving intent ambiguities by retrieving discriminative clarifying questions
CN111930931A (zh) 一种摘要评价方法及装置
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与***
Yonglan et al. [Retracted] English‐Chinese Machine Translation Model Based on Bidirectional Neural Network with Attention Mechanism
CN117574915A (zh) 基于多方数据源的公共数据平台及其数据分析方法
Hsueh et al. A Task-oriented Chatbot Based on LSTM and Reinforcement Learning
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
CN112347783A (zh) 无触发词的警情笔录数据事件类型识别方法
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
Karunarathne et al. Sentence prediction on sms in sinhala language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant