CN115496061B - 一种神经网络标题生成模型的构建方法 - Google Patents

一种神经网络标题生成模型的构建方法 Download PDF

Info

Publication number
CN115496061B
CN115496061B CN202211213861.9A CN202211213861A CN115496061B CN 115496061 B CN115496061 B CN 115496061B CN 202211213861 A CN202211213861 A CN 202211213861A CN 115496061 B CN115496061 B CN 115496061B
Authority
CN
China
Prior art keywords
word
calculated
node
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211213861.9A
Other languages
English (en)
Other versions
CN115496061A (zh
Inventor
阿雅娜
卜范玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner mongolia university of finance and economics
Original Assignee
Inner mongolia university of finance and economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner mongolia university of finance and economics filed Critical Inner mongolia university of finance and economics
Priority to CN202211213861.9A priority Critical patent/CN115496061B/zh
Publication of CN115496061A publication Critical patent/CN115496061A/zh
Application granted granted Critical
Publication of CN115496061B publication Critical patent/CN115496061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,更具体而言,涉及一种神经网络标题生成模型的构建方法。神经网络标题生成模型包括:富信息词向量层;节点间交互注意力层;节点内交互注意力层;节点选择层;解码层。本发明创造性地提出将基础神经网络模型所生成的采样结果当做软模板,辅助神经网络标题生成的建模。采用本文进行的改进,可以避免调用额外的信息检索库,以及人工设计数据清洗规则。本发明可以在不需要任何训练数据的前提下,保证摘要的简洁性和连贯性。

Description

一种神经网络标题生成模型的构建方法
技术领域
本发明涉及自然语言处理技术领域,更具体而言,涉及一种神经网络标题生成模型的构建方法。
背景技术
随着深度学习技术在自然语言处理领域的快速发展,端到端神经网络标题生成也进入到了全新的发展阶段。通过一个巨大的神经网络,端到端的神经网络标题生成***在输入文章和标题之间进行映射,无需额外的语言学知识和更多的人工标注,为一篇文档逐字生成对应的标题。
尽管取得了显著的成功,神经网络标题生成模型仍面临着一些问题,如丢失重要信息和生成重复或额外的单词。因此,如何帮助神网络标题生成***规避上述问题引起了广泛关注。
发明内容
为了解决上述技术问题,本发明提供一种神经网络标题生成模型的构建方法,本发明可以在不需要任何训练数据的前提下,保证摘要的简洁性和连贯性。
为解决上述技术问题,本发明采用的技术方案为:
一种神经网络标题生成模型的构建方法,神经网络标题生成模型包括:
富信息词向量层;
节点间交互注意力层;
节点内交互注意力层;
节点选择层;
解码层;
端到端的训练。
优选的,所述富信息词向量层的构建方法包括:
S1:选定一篇包含
Figure SMS_2
个词的新闻文档 />
Figure SMS_4
、与所述文档相对应的包含/>
Figure SMS_6
个词的标题/>
Figure SMS_3
和/>
Figure SMS_5
个由基础神经网络标题生成模型采样生成的相应模板/>
Figure SMS_7
,其中第/>
Figure SMS_8
个模板包含/>
Figure SMS_1
个词;
S2:将文档和每个模板组成对,将文档模板对
Figure SMS_9
视作一个节点;
S3:采用预训练的语言模型来获得所有节点中每个词对应的词表示;
S4:获得的富信息词向量
Figure SMS_10
,通过公式(1)计算:
Figure SMS_11
(1)
其中
Figure SMS_12
和/>
Figure SMS_13
分别表示“[CLS]”和“[SEP]”。
预训练的语言模型具备在各种自然语言处理任务上,有效生成富含语义和句法信息的上下文相关的词表示的能力。
优选的,所述节点间交互注意力层的构建方法包括:
首先计算
Figure SMS_14
与第/>
Figure SMS_15
个节点中的第/>
Figure SMS_16
个词的初始表示相关的交互注意力权重/>
Figure SMS_17
,通过公式(2)计算:
Figure SMS_18
(2)
其中
Figure SMS_19
代表权重矩阵;
则第
Figure SMS_20
个节点中的第/>
Figure SMS_21
个词的表示聚合了来自第/>
Figure SMS_22
个节点的信息,通过公式(3)计算:
Figure SMS_23
(3)
根据上述公式,进一步构建第
Figure SMS_24
节点与第/>
Figure SMS_25
节点相关的向量表示,通过公式(4)计算:
Figure SMS_26
(4)
使用不同的模板构建的不同节点包含独特的信息,不同节点之间的语义交互将帮助模型更好地捕获重要信息。完全连接的节点间交互注意层旨在实现该思想。
优选的,所述节点内交互注意力层的构建方法包括:
S1:计算文档-模板匹配矩阵
Figure SMS_27
,表明第/>
Figure SMS_28
个节点中源文档和模板间的匹配度,对于/>
Figure SMS_29
中的每个元素/>
Figure SMS_30
,使用第/>
Figure SMS_31
个源文档词和第/>
Figure SMS_32
个模板词的富信息词向量进行计算,通过公式(5)计算:
Figure SMS_33
(5)
其中
Figure SMS_34
表示权重矩阵;
S2:获取源文档词与模板词相关的注意力分数
Figure SMS_35
、模板词与源文档词相关的注意力分数/>
Figure SMS_36
,分别通过公式(6)和(7):
Figure SMS_37
Figure SMS_38
(7);
S3:源文章和软模板的相关向量分别通过公式(8)和公式(9)计算:
Figure SMS_39
Figure SMS_40
(9)
优选的,节点选择层旨在控制第
Figure SMS_41
个节点的最终细粒度节点表示/>
Figure SMS_42
中/>
Figure SMS_43
的比例,通过公式(10)计算:
Figure SMS_44
(10)
其中
Figure SMS_45
表示元素乘法,/>
Figure SMS_46
表示级联操作,给定节点选择注意力分数/>
Figure SMS_47
,第/>
Figure SMS_48
个节点的第/>
Figure SMS_49
个词的最终细粒度通过公式(11)计算:
Figure SMS_50
(11)
根据上述公式,第
Figure SMS_51
个节点通过公式(12)计算:
Figure SMS_52
(12)
优选的,选择Transformer解码器来逐字解码输出标题,解码输出标题中第
Figure SMS_53
个词的条件概率通过公式(13)计算:
Figure SMS_54
(13)
其中
Figure SMS_55
来自目标端表示矩阵/>
Figure SMS_56
,/>
Figure SMS_57
表示解码器层数,/>
Figure SMS_58
代表前馈神经网络;
Figure SMS_59
通过公式(14)定义:
Figure SMS_60
(14)
其中
Figure SMS_61
表示层归一化操作;
Figure SMS_62
通过公式(15)计算:
Figure SMS_63
(15)。
本发明与现有技术相比,具有的有益效果是:
本发明可以在不需要任何训练数据的前提下,保证摘要的简洁性和连贯性。然而,手动创建所有模板是不现实的,因为这项工作不仅需要密集劳动,还需要大量的领域知识。在深度学习背景下,改进的基于模板的标题生成方法,将一些训练集合中特定文章的摘要作为模板为摘要提供类似的指导。这种方法虽然避免了手动创建模板的问题,但是检索特定文章的过程,需要精细的设计。检索模块用到了一个信息检索标准库Apache Lucene,调用这个库本身需要一定的背景知识。接着,为了根据一篇文章进行检索,还需要剔除文章中一些特定信息,如日期、导语等,以消除它们对文章匹配的影响。然后,根据已清洗过的文章,通过检索***检索出一小部分候选文档,从训练集中查找其对应的标题作为软模板。本发明创造性地提出将基础神经网络模型所生成的采样结果当做软模板,辅助神经网络标题生成的建模。采用本文进行的改进,可以避免调用额外的信息检索库,以及人工设计数据清洗规则。
附图说明
图1为本发明的流程图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种神经网络标题生成模型的构建方法,神经网络标题生成模型包括:
富信息词向量层;
节点间交互注意力层;
节点内交互注意力层;
节点选择层;
解码层;
端到端的训练。
富信息词向量层的构建方法包括:
S1:选定一篇包含
Figure SMS_66
个词的新闻文档 />
Figure SMS_67
、与文档相对应的包含/>
Figure SMS_69
个词的标题/>
Figure SMS_64
和/>
Figure SMS_68
个由基础神经网络标题生成模型采样生成的相应模板/>
Figure SMS_70
,其中第/>
Figure SMS_71
个模板包含/>
Figure SMS_65
个词;
S2:将文档和每个模板组成对,将文档模板对
Figure SMS_72
视作一个节点;
S3:采用预训练的语言模型来获得所有节点中每个词对应的词表示;
S4:获得的富信息词向量
Figure SMS_73
,通过公式(1)计算:
Figure SMS_74
(1)
其中
Figure SMS_75
和/>
Figure SMS_76
分别表示“[CLS]”和“[SEP]”。
节点间交互注意力层的构建方法包括:
首先计算
Figure SMS_77
与第/>
Figure SMS_78
个节点中的第/>
Figure SMS_79
个词的初始表示相关的交互注意力权重/>
Figure SMS_80
,通过公式(2)计算:
Figure SMS_81
(2)
其中
Figure SMS_82
代表权重矩阵;
则第
Figure SMS_83
个节点中的第/>
Figure SMS_84
个词的表示聚合了来自第/>
Figure SMS_85
个节点的信息,通过公式(3)计算:
Figure SMS_86
(3)
根据上述公式,进一步构建第
Figure SMS_87
节点与第/>
Figure SMS_88
节点相关的向量表示,通过公式(4)计算:
Figure SMS_89
。 (4)
S1:计算文档-模板匹配矩阵
Figure SMS_90
,表明第/>
Figure SMS_91
个节点中源文档和模板间的匹配度,对于/>
Figure SMS_92
中的每个元素/>
Figure SMS_93
,使用第/>
Figure SMS_94
个源文档词和第/>
Figure SMS_95
个模板词的富信息词向量进行计算,通过公式(5)计算:
Figure SMS_96
(5)
其中
Figure SMS_97
表示权重矩阵;
S2:获取源文档词与模板词相关的注意力分数
Figure SMS_98
、模板词与源文档词相关的注意力分数/>
Figure SMS_99
,分别通过公式(6)和(7):
Figure SMS_100
Figure SMS_101
; (7)
S3:源文章和软模板的相关向量分别通过公式(8)和公式(9)计算:
Figure SMS_102
Figure SMS_103
(9)
节点选择层旨在控制第
Figure SMS_104
个节点的最终细粒度节点表示/>
Figure SMS_105
中/>
Figure SMS_106
的比例,通过公式(10)计算:
Figure SMS_107
(10)
其中
Figure SMS_108
表示元素乘法,/>
Figure SMS_109
表示级联操作,给定节点选择注意力分数/>
Figure SMS_110
,第/>
Figure SMS_111
个节点的第/>
Figure SMS_112
个词的最终细粒度通过公式(11)计算:
Figure SMS_113
(11)
根据上述公式,第
Figure SMS_114
个节点通过公式(12)计算:
Figure SMS_115
(12)
选择Transformer解码器来逐字解码输出标题,解码输出标题中第
Figure SMS_116
个词的条件概率通过公式(13)计算:
Figure SMS_117
(13)
其中
Figure SMS_118
来自目标端表示矩阵/>
Figure SMS_119
,/>
Figure SMS_120
表示解码器层数,/>
Figure SMS_121
代表前馈神经网络;
Figure SMS_122
通过公式(14)定义:
Figure SMS_123
(14)
其中
Figure SMS_124
表示层归一化操作;
Figure SMS_125
通过公式(15)计算:
Figure SMS_126
。 (15)
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (2)

1.一种神经网络标题生成模型的构建方法,其特征在于,所述神经网络标题生成模型包括:
富信息词向量层;
节点间交互注意力层;
节点内交互注意力层;
节点选择层;
解码层;
端到端的训练;
所述富信息词向量层的构建方法包括:
S1:选定一篇包含
Figure QLYQS_3
个词的新闻文档 />
Figure QLYQS_5
、与所述文档相对应的包含/>
Figure QLYQS_7
个词的标题/>
Figure QLYQS_2
和/>
Figure QLYQS_4
个由基础神经网络标题生成模型采样生成的相应模板/>
Figure QLYQS_6
,其中第/>
Figure QLYQS_8
个模板包含/>
Figure QLYQS_1
个词;
S2:将文档和每个模板组成对,将文档模板对
Figure QLYQS_9
视作一个节点;
S3:采用预训练的语言模型来获得所有节点中每个词对应的词表示;
S4:获得的富信息词向量
Figure QLYQS_10
,通过公式(1)计算:
Figure QLYQS_11
(1)
其中
Figure QLYQS_12
和/>
Figure QLYQS_13
分别表示“[CLS]”和“[SEP]”;
所述节点间交互注意力层的构建方法包括:
首先计算
Figure QLYQS_14
与第/>
Figure QLYQS_15
个节点中的第/>
Figure QLYQS_16
个词的初始表示相关的交互注意力权重/>
Figure QLYQS_17
,通过公式(2)计算:
Figure QLYQS_18
(2)
其中
Figure QLYQS_19
代表权重矩阵;
则第
Figure QLYQS_20
个节点中的第/>
Figure QLYQS_21
个词的表示聚合了来自第/>
Figure QLYQS_22
个节点的信息,通过公式(3)计算:
Figure QLYQS_23
(3)
根据上述公式,进一步构建第
Figure QLYQS_24
节点与第/>
Figure QLYQS_25
节点相关的向量表示,通过公式(4)计算:
Figure QLYQS_26
(4);
所述节点内交互注意力层的构建方法包括:
S1:计算文档-模板匹配矩阵
Figure QLYQS_27
,表明第/>
Figure QLYQS_28
个节点中源文档和模板间的匹配度,对于/>
Figure QLYQS_29
中的每个元素/>
Figure QLYQS_30
,使用第/>
Figure QLYQS_31
个源文档词和第/>
Figure QLYQS_32
个模板词的富信息词向量进行计算,通过公式(5)计算:
Figure QLYQS_33
(5)
其中
Figure QLYQS_34
表示权重矩阵;
S2:获取源文档词与模板词相关的注意力分数
Figure QLYQS_35
、模板词与源文档词相关的注意力分数/>
Figure QLYQS_36
,分别通过公式(6)和(7):
Figure QLYQS_37
Figure QLYQS_38
(7);
S3:源文章和软模板的相关向量分别通过公式(8)和公式(9)计算:
Figure QLYQS_39
Figure QLYQS_40
(9);
节点选择层旨在控制第
Figure QLYQS_41
个节点的最终细粒度节点表示/>
Figure QLYQS_42
中/>
Figure QLYQS_43
的比例,通过公式(10)计算:
Figure QLYQS_44
(10);
其中
Figure QLYQS_45
表示元素乘法,/>
Figure QLYQS_46
表示级联操作,给定节点选择注意力分数/>
Figure QLYQS_47
,第/>
Figure QLYQS_48
个节点的第/>
Figure QLYQS_49
个词的最终细粒度通过公式(11)计算:
Figure QLYQS_50
(11);
根据上述公式,第
Figure QLYQS_51
个节点通过公式(12)计算:
Figure QLYQS_52
(12)。
2.根据权利要求1所述的一种神经网络标题生成模型的构建方法,其特征在于:选择Transformer解码器来逐字解码输出标题,解码输出标题中第
Figure QLYQS_53
个词的条件概率通过公式(13)计算:
Figure QLYQS_54
(13)
其中
Figure QLYQS_55
来自目标端表示矩阵/>
Figure QLYQS_56
,/>
Figure QLYQS_57
表示解码器层数,/>
Figure QLYQS_58
代表前馈神经网络;
Figure QLYQS_59
通过公式(14)定义:
Figure QLYQS_60
(14)
其中
Figure QLYQS_61
表示层归一化操作;
Figure QLYQS_62
通过公式(15)计算:
Figure QLYQS_63
(15)。
CN202211213861.9A 2022-09-30 2022-09-30 一种神经网络标题生成模型的构建方法 Active CN115496061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211213861.9A CN115496061B (zh) 2022-09-30 2022-09-30 一种神经网络标题生成模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211213861.9A CN115496061B (zh) 2022-09-30 2022-09-30 一种神经网络标题生成模型的构建方法

Publications (2)

Publication Number Publication Date
CN115496061A CN115496061A (zh) 2022-12-20
CN115496061B true CN115496061B (zh) 2023-06-20

Family

ID=84471478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211213861.9A Active CN115496061B (zh) 2022-09-30 2022-09-30 一种神经网络标题生成模型的构建方法

Country Status (1)

Country Link
CN (1) CN115496061B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
CN106502985B (zh) * 2016-10-20 2020-01-31 清华大学 一种用于生成标题的神经网络建模方法及装置
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN113407708A (zh) * 2020-03-17 2021-09-17 阿里巴巴集团控股有限公司 提要生成方法、信息生成及信息推荐方法、装置及设备
CN112560456B (zh) * 2020-11-03 2024-04-09 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和***
CN114020900B (zh) * 2021-11-16 2024-03-26 桂林电子科技大学 基于融合空间位置注意力机制的图表英语摘要生成方法
CN114218928A (zh) * 2021-12-30 2022-03-22 杭州电子科技大学 一种基于图知识和主题感知的抽象文本摘要方法
CN115019142B (zh) * 2022-06-14 2024-03-29 辽宁工业大学 基于融合特征的图像标题生成方法、***、电子设备

Also Published As

Publication number Publication date
CN115496061A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
Eisenstein Introduction to natural language processing
CN109086408B (zh) 文本生成方法、装置、电子设备及计算机可读介质
Sharma et al. Deep learning approaches for question answering system
Chakrabarty et al. MERMAID: Metaphor generation with symbolism and discriminative decoding
CN107944027B (zh) 创建语义键索引的方法及***
Liao et al. Improving readability for automatic speech recognition transcription
CN111783455B (zh) 文本生成模型的训练方法及装置、文本生成方法及装置
CN108153864A (zh) 基于神经网络生成文本摘要的方法
Zhang et al. Effective subword segmentation for text comprehension
Wei et al. Kicgpt: Large language model with knowledge in context for knowledge graph completion
CN115358289A (zh) 一种融合多类型知识库和推理技术的文本生成算法
Shen et al. Compose like humans: Jointly improving the coherence and novelty for modern chinese poetry generation
Pei et al. S2SPMN: A simple and effective framework for response generation with relevant information
Shang et al. Entity resolution in open-domain conversations
Li et al. Semi-supervised domain adaptation for dependency parsing via improved contextualized word representations
Rizou et al. Efficient intent classification and entity recognition for university administrative services employing deep learning models
Li et al. DualGCN: exploring syntactic and semantic information for aspect-based sentiment analysis
Kan et al. Event arguments extraction via dilate gated convolutional neural network with enhanced local features
Chang et al. Singability-enhanced lyric generator with music style transfer
Bao et al. AEG: Argumentative essay generation via a dual-decoder model with content planning
CN115496061B (zh) 一种神经网络标题生成模型的构建方法
Ni et al. Masked siamese prompt tuning for few-shot natural language understanding
JP2023071785A (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
Shang Spoken Language Understanding for Abstractive Meeting Summarization
Wu et al. Generating pseudo-relevant representations for spoken document retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant