CN110781290A - 一种长篇章结构化文本摘要提取方法 - Google Patents
一种长篇章结构化文本摘要提取方法 Download PDFInfo
- Publication number
- CN110781290A CN110781290A CN201910957415.0A CN201910957415A CN110781290A CN 110781290 A CN110781290 A CN 110781290A CN 201910957415 A CN201910957415 A CN 201910957415A CN 110781290 A CN110781290 A CN 110781290A
- Authority
- CN
- China
- Prior art keywords
- sentence
- abstract
- text
- paragraph
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的长篇章结构化文本摘要提取方法,采用动态词嵌入方法可以根据周围单词动态地获取词向量,解决了文本中的多义词问题;采用篇章结构分析,根据句间的关系识别结果合理划分段落,让计算机从全局角度理解文本;采用基于模型和规则的摘要提取是在篇章结构分析的基础上对每一段进行摘要提取的,既解决了传统长文本摘要直接截取的问题;又解决了多领域文本摘要提取问题。
Description
技术领域
本发明属于自然语言处理技术领域,特别涉及一种长篇章结构化文本摘要提取方法。
背景技术
目前长文本在进行摘要提取时一般涉及词嵌入、文本摘要提取、篇章结构分析三部分的处理,对于词嵌入,是将文本数据中的词转化为机器可以学习的数值向量,传统的词嵌入是先对文本中的词采用one-hot编码,再放入Word2Vec模型中进行学习,最终完成从文本到数值向量的映射,该方法简单高效,但无法解决多义词问题,因为Word2Vec下的每个字/词只有一个固定表示,且字/词的出现与上下文无关。
文本摘要提取是机器通过对文本特征学习,提取文中重要的句子作为该文本摘要的过程,其实际也是一个分类问题,即对文本句子作重要与否的二分类处理,其中重要的句子则是该文本摘要。目前主流的文本摘要提取方法是基于神经网络模型,其主要分编码与解码两个部分。编码过程是机器对文本特征学习的过程,其中包括句子编码、位置编码、文章编码等,方法有CNN、RNN、BERT等;解码过程主要是分类过程,依据编码的输出结果和给定的标签,完成分类器的训练。
但是目前文本摘要提取主要存在以下问题:(1)现有摘要提取模型在编码过程中并未很好的解决长文本问题,对于长文本问题现有技术主要采用的是直接截断的方法,再对截断后的数据进行编码操作,如此操作会极大可能丢失长文本中的重要信息;也有技术是在编码时加入段落与段落之间的编码表示,该技术存在一定的局限性,例如输入的文本并未分段,或者相邻段落之间无相关关系。(2)现公开用于中文摘要提取的数据所涉领域单一,且单个数据文本较短,该数据用于对特殊领域的长文本摘要提取训练任务并不友好。
篇章结构分析是用于识别不同文本块之间的语义关系,可以从全局角度理解文本,进而能进一步优化文本自动摘要提取,目前研究人员将将篇章结构分析又分为显式结构分析与隐式结构分析,其中显式结构分析是对存在显式连接词的篇章进行结构分析,这类篇章相比较没有连接词的篇章在结构分析中容易。在针对长文本的自动摘要提取***中,对篇章结构分析识别文本中句间因果,转折等关系,竟而区分主次关系,相较于直接截取长文本的方法,该方法更适合对长文本进行摘要提取。
目前篇章分析存在的问题有如下几点:对于没有篇章连接词的情况下如何对篇章结构进行分析?对篇章结构的分析如何应用到下游的自动摘要抽取具体任务中?综合上述的现状,仍然存在很多问题需要解决。
发明内容
为了解决上述现状中存在的多义词问题、长文本摘要提取中采用直接截断,无篇章结构分析问题及多领域下的长文本摘要提取问题,本发明提供了一种长篇章结构化文本摘要提取方法,步骤为:
(1)转化为数值信息
对输入的长文本信息进行按标点符号进行分句处理,对每一句采用Bert WordEmbedding动态词嵌入处理转换成该句的向量矩阵,即计算机学习的数值信息;
(2)篇章结构分析
对每两句进行隐式篇章关系分析,即将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签,并依据识别的标签类别对长文本进行合理分段;
(3)摘要提取
按照基于模型和规则两种方式对步骤(2)中分好的每个段落进行摘要提取,最终的摘要结果输出是融合了这两种方式的输出结果。
作为改进,步骤(3)中基于模型的摘要提取,是将每一段信息输入到模型中,模型对段落的每一句先进行编码,即特征学习,再将学习到的特征进行解码,即对每个句子进行二分类,完成摘要句的提取。
作为改进,所述编码是由两层的双向GRU模型组成,第一层输入的是句子的向量矩阵,经过前向和后向的GRU模型处理后,拼接两个方向的隐藏层向量后做最大池化处理,将处理后的结果作为第二层输入,该层的隐藏层信息wi表示的每个词的位置信息,i表示句子中第i个词;第二层操作与第一层相同,拼接后的隐藏层信息hj代表了段落每个句子信息,j表示段落中第j句,用如下公式(1)对整个段落p表示:
其中Wp,b表示每一句的权重和偏置,Np表示段落中句子数量,i、j为1、2、3……正整数。
作为改进,解码层则根据编码过程中得到的信息,进一步计算文本中句子属于摘要句的概率,用公式(2)表示如下:
其中yj=1表示段落中第j句为摘要句,W1,W2,W3为模型参数,sj是动态摘要表示,是已访问过的句子隐藏层的加权和,权重为这个句子最终属于摘要句的概率,用公式(3)表示如下:
公式(3)中:n、j表示段落中第n、j句,n、j为1、2、3……正整数,P(yn=1)表示已访问过句子n中属于摘要句的概率,计算方式如公式(2)所示。
作为改进,步骤(3)中基于规则的摘要提取,是依据不同领域文本特点,制定相应规则,对该领域具有特点的关键词、特定模式进行匹配,对匹配到的关键词、特定模式周围的词进行召回,将召回后的句子作为规则提取的摘要。
有益效果:本发明提供的长篇章结构化文本摘要提取方法,采用动态词嵌入方法可以根据周围单词动态地获取词向量,解决了文本中的多义词问题;采用篇章结构分析,根据句间的关系识别结果合理划分段落,让计算机从全局角度理解文本;采用摘要提取模型是在篇章结构分析的基础上对每一段进行摘要提取的,解决了传统长文本摘要直接截取的问题;所述的基于规则的摘要提取,根据各领域文本特点,对文本进行特征匹配与召回提取摘要句,解决了多领域文本摘要提取问题。
附图说明
图1为本发明技术方法流程图;
图2为本发明篇章结构分析结构图;
图3为本发明摘要提取结构图。
具体实施方式
下面对本发明附图结合实施例作出进一步说明。本发明提供了一种长篇章结构化文本摘要提取方法,该方法流程图如图1所示。具体实现过程如下:
首先对输入的长文本信息按标点符号进行分句处理,对每一句采用Bert WordEmbedding动态词嵌入处理转换成该句的向量矩阵。
其次对文本进行篇章结构分析,该部分的模型结构如图2所示。将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签。本发明采用的数据集为PDTB,研究的类型标签有扩展(Expansion)、时序(Temporal)、转折(Comparison)、因果(Contingency)。该部分最终的输出结果包含了对输入长文本的篇章结构的分析结果,依据该结果,对长文本进行合理分段。具体的分段方式为:将存在扩展、转折关系的句子处进行分段处理,对存在时序、因果关系的句子不做分段处理。
接着,对分好段落的文本进行逐段摘要提取,该部分模型结构如图3所示。将段落中每句的矩阵信息输入到第一层的双向GRU模型中,拼接前向与后向两个方向的隐藏层信息,再经过max-pooling处理后作为下一层的输入,第一层拼接后的隐藏层信息wi表示的每个词的位置信息,i表示句子中第i个词;第二层操作与第一层相同,拼接后的隐藏层信息hj代表了段落每个句子信息,j表示段落中第j句;对段落的表示则采用第二层拼接后的隐藏层信息hj经过一个非线性激活函数,公式(1)如下:
其中Wp,b表示每一句的权重和偏置,为模型学习参数,Np表示段落中句子数量。
解码过程则根据编码过程中得到的信息,进一步计算段落中句子属于摘要句的概率,公式(2)如下:
其中yj=1表示段落中第j句为摘要句,W1,W2,W3为模型参数,sj是动态摘要表示,是已访问过的句子隐藏层的加权和,权重为这个句子最终属于摘要句的概率,表示如公式(3)下:
其中n、j表示段落中第n、j句,n、j为1、2、3……正整数,P(yn=1)表示已访问过句子中属于摘要句的,计算方式如公式(2)所示。
该部分是在篇章结构分析的基础上完成,相比较传统方法直接对长文本截取的方法提取摘要,本发明方法全局、局部两个角度对文本进行摘要提取,提高了长文本摘要提取精度。
摘要提取模型训练时的损失函数为交叉熵函数,优化函数为Adam优化函数。该部分最终的输出结果为模型预测为摘要的句子。本发明方法最后是采用基于规则的摘要提取方法,该部分依据不同领域文本特点,制定相应规则。首先对具有该领域特点的关键词、特定模式进行匹配,接着对匹配到的关键词、特定模式的周围词进行召回,最后将召回后的句子作为规则提取的摘要。本发明将融合模型和规则提取的摘要作为最终的摘要提取结果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种长篇章结构化文本摘要提取方法,其特征在于:输入长文本信息,摘要提取步骤为:
(1)转化为数值信息
对输入的长文本信息按标点符号进行分句处理,对每一句采用Bert Word Embedding动态词嵌入处理转换成该句的向量矩阵,即计算机学习的数值信息;
(2)篇章结构分析
对每两句进行隐式篇章关系分析,即将每两个相邻子句放入两个双向GRU模型中进行处理,对两个模型的隐藏层信息进行拼接,将拼接后的结果放入多层感知机中进行分类,得到预测的类别概率,取概率最高的类别标签作为对应标签,并依据识别的标签类别对长文本进行合理分段;
(3)摘要提取
按照基于模型和规则两种方式对步骤(2)中分好的每个段落进行摘要提取,最终的摘要结果输出是融合了这两种方式的输出结果。
2.根据权利要求1所述的一种长篇章结构化文本摘要提取方法,其特征在于:步骤(3)中基于模型的摘要提取,是将每一段信息输入到模型中,模型对段落的每一句先进行编码,即特征学习,再将学习到的特征进行解码,即对每个句子进行二分类,完成摘要句的提取。
3.根据权利要求2所述的一种长篇章结构化文本摘要提取方法,其特征在于:所述编码是由两层的双向GRU模型组成,第一层输入的是句子的向量矩阵,经过前向和后向的GRU模型处理后,拼接两个方向的隐藏层向量后做最大池化处理,将处理后的结果作为第二层输入,该层的隐藏层信息wi表示的每个词的位置信息,i表示句子中第i个词;第二层操作与第一层相同,拼接后的隐藏层信息hj代表了段落每个句子信息,j表示段落中第j句,用公式(1)对整个段落p表示:
其中Wp,b表示每一句的权重和偏置,Np表示段落中句子数量,i、j为1、2、3……正整数。
5.根据权利要求1所述的一种长篇章结构化文本摘要提取方法,其特征在于:步骤(3)中基于规则的摘要提取,是依据不同领域文本特点,制定相应规则,对该领域具有特点的关键词、特定模式进行匹配,对匹配到的关键词、特定模式周围的词进行召回,将召回后的句子作为规则提取的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910957415.0A CN110781290A (zh) | 2019-10-10 | 2019-10-10 | 一种长篇章结构化文本摘要提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910957415.0A CN110781290A (zh) | 2019-10-10 | 2019-10-10 | 一种长篇章结构化文本摘要提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781290A true CN110781290A (zh) | 2020-02-11 |
Family
ID=69384923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910957415.0A Pending CN110781290A (zh) | 2019-10-10 | 2019-10-10 | 一种长篇章结构化文本摘要提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781290A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、***及可读存储介质 |
CN112307175A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112732899A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 摘要语句提取方法、装置、服务器及计算机可读存储介质 |
CN113076720A (zh) * | 2021-04-29 | 2021-07-06 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
CN113361261A (zh) * | 2021-05-19 | 2021-09-07 | 重庆邮电大学 | 一种基于enhance matrix的法律案件候选段落的选取方法及装置 |
CN114265929A (zh) * | 2021-12-24 | 2022-04-01 | 河南大学 | 融合多层次主题特征的文本摘要自动生成方法及装置 |
CN115952279A (zh) * | 2022-12-02 | 2023-04-11 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN116432752A (zh) * | 2023-04-27 | 2023-07-14 | 华中科技大学 | 一种隐式篇章关系识别模型的构建方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN107510452A (zh) * | 2017-09-30 | 2017-12-26 | 扬美慧普(北京)科技有限公司 | 一种基于多尺度深度学习神经网络的心电检测方法 |
CN110032638A (zh) * | 2019-04-19 | 2019-07-19 | 中山大学 | 一种基于编码器-解码器的生成式摘要提取方法 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
-
2019
- 2019-10-10 CN CN201910957415.0A patent/CN110781290A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN107510452A (zh) * | 2017-09-30 | 2017-12-26 | 扬美慧普(北京)科技有限公司 | 一种基于多尺度深度学习神经网络的心电检测方法 |
CN110032638A (zh) * | 2019-04-19 | 2019-07-19 | 中山大学 | 一种基于编码器-解码器的生成式摘要提取方法 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
Non-Patent Citations (1)
Title |
---|
侯圣峦等: "面向中文的修辞结构关系分类体系及无歧义标注方法" * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428525B (zh) * | 2020-06-15 | 2020-09-15 | 华东交通大学 | 隐式篇章关系识别方法、***及可读存储介质 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、***及可读存储介质 |
CN112307175B (zh) * | 2020-12-02 | 2021-11-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112307175A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
CN112732899A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 摘要语句提取方法、装置、服务器及计算机可读存储介质 |
CN113076720A (zh) * | 2021-04-29 | 2021-07-06 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
CN113076720B (zh) * | 2021-04-29 | 2022-01-28 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
CN113361261A (zh) * | 2021-05-19 | 2021-09-07 | 重庆邮电大学 | 一种基于enhance matrix的法律案件候选段落的选取方法及装置 |
CN114265929A (zh) * | 2021-12-24 | 2022-04-01 | 河南大学 | 融合多层次主题特征的文本摘要自动生成方法及装置 |
CN115952279A (zh) * | 2022-12-02 | 2023-04-11 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN115952279B (zh) * | 2022-12-02 | 2023-09-12 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN116432752A (zh) * | 2023-04-27 | 2023-07-14 | 华中科技大学 | 一种隐式篇章关系识别模型的构建方法及其应用 |
CN116432752B (zh) * | 2023-04-27 | 2024-02-02 | 华中科技大学 | 一种隐式篇章关系识别模型的构建方法及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN109062893B (zh) | 一种基于全文注意力机制的商品名称识别方法 | |
CN112069811B (zh) | 多任务交互增强的电子文本事件抽取方法 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110263325B (zh) | 中文分词*** | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN115759090A (zh) | 一种结合软词典和汉字字形特征的中文命名实体识别方法 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210316 Address after: 210000 rooms 1201 and 1209, building C, Xingzhi Science Park, Qixia Economic and Technological Development Zone, Nanjing, Jiangsu Province Applicant after: Nanjing Xingyao Intelligent Technology Co.,Ltd. Address before: Room 1211, building C, Xingzhi Science Park, 6 Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210000 Applicant before: Nanjing Shixing Intelligent Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |