CN108804495B - 一种基于增强语义的自动文本摘要方法 - Google Patents
一种基于增强语义的自动文本摘要方法 Download PDFInfo
- Publication number
- CN108804495B CN108804495B CN201810281684.5A CN201810281684A CN108804495B CN 108804495 B CN108804495 B CN 108804495B CN 201810281684 A CN201810281684 A CN 201810281684A CN 108804495 B CN108804495 B CN 108804495B
- Authority
- CN
- China
- Prior art keywords
- text
- hidden layer
- abstract
- sequence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000010410 layer Substances 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000002356 single layer Substances 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 abstract description 3
- 238000013136 deep learning model Methods 0.000 abstract 1
- 230000004927 fusion Effects 0.000 abstract 1
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000723353 Chrysanthemum Species 0.000 description 1
- 235000005633 Chrysanthemum balsamita Nutrition 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于增强语义的自动文本摘要方法,步骤如下:对文本预处理,按照词频信息从高到低排列,将词转为id;利用一个单层双向LSTM将输入序列进行编码,提取文本信息特征;利用单层单向LSTM将编码得到的文本语义向量进行解码获得隐层状态;进行语境向量的计算,提取输入序列中与当前输出最有用的信息;在解码后得到一个词表大小的概率分布,采取一定的策略进行摘要词选择,训练阶段将融合生成摘要和源文本的语义相似度进行损失计算,提高摘要和源文本的语义相似度。本发明利用LSTM深度学习模型对文本进行表征,融入上下文的语义联系,并增强了摘要和源文本的语义关系,生成的摘要更能契合文本的主题思想,应用前景广泛。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于增强语义的自动文本摘要方法。
背景技术
随着科技和互联网的快速发展,大数据时代的来临,铺天盖地的网络信息与日俱增。其中,具有代表性的文本信息量的***性增长,如新闻、博客、聊天、报告、微博等,使得信息负担过重,庞大的信息使得人们在浏览阅读时花费大量时间。因此,如何快速从大量文本信息中提取关键内容,解决信息过载的问题,已成为一个迫切的需求,自动文本摘要技术应运而生。
自动文本摘要技术按照生成摘要类型可分为抽取式摘要和生成式摘要。前者是将原文中的句子按照一定的方法来进行重要性排序,将重要性最高的前n个句子作为摘要;后者是通过挖掘更深层次的语义信息,对原文中心思想进行转述,概括。对于抽取式摘要已经由大量的研究,但是这种方法只是停留在表面的词汇信息,而生成式摘要更符合人产生摘要的过程。
近几年来,由于深度学习的兴起,在许多领域取得了不多的成绩,也被引入了自动文摘领域。基于序列到序列seq2seq模型,可以实现生成式摘要,借鉴机器翻译的成功应用,基于seq2seq模型的自动文摘已成为自然语言处理的研究热点,但还存在一些连贯性,可读性的问题。传统的抽取式摘要通常会造成很大的信息损失,尤其体现在长文本中,因此深入研究生成式自动文摘,对于真正解决信息过载具有重要意义。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于增强语义的自动文本摘要方法,该方法基于seq2seq模型,在引入注意力机制的同时,利用生成摘要与源文本的语义相似性来训练,提高生成摘要与源文本的语义相关度,提高摘要质量。
本发明的目的可以通过采取如下技术方案达到:
一种基于增强语义的自动文本摘要方法,所述的自动文本摘要方法包括:
文本预处理步骤,对文本进行分词、形态还原以及指代消解,按照词频信息从高到低排列,将词转为id;
编码步骤,将输入序列进行编码,经过神经网络得到携带文本序列信息的隐藏层状态向量;
解码步骤,将由编码器得到的最后隐藏层状态进行初始化,开始进行解码获得每一步隐藏层状态st;
注意力分布计算步骤,结合输入序列的隐藏层状态与当前时刻解码获得的隐藏层状态st进行语境向量的计算,得到当前t时刻的语境向量ut;
摘要生成步骤,将解码步骤得到的输出经过两个线性层映射为词表大小维度的向量,每一个维代表词表中单词的概率,用一定选择策略选出候选词,生成摘要。
进一步地,所述的文本预处理步骤中文本的数据是通过爬虫爬取的语料库或开源的语料库,并由文章-摘要对组成。
进一步地,所述的文本预处理步骤中,获取前200k的词作为基本词表,同时将特殊标记[PAD]、[UNK]、[START]和[STOP]加入词表,并把文本的词转为id,每一篇对应一个序列。
进一步地,所述的输入序列是将文本经过转换后获得的id序列对应的词向量,词向量维度128,序列最大长度取为700。
进一步地,所述的神经网络是一个单层双向的LSTM,隐藏层单元数是256,将正反向的隐藏层状态h连接起来得到最终隐藏层状态。
进一步地,所述的解码步骤过程如下:
接收输入的词向量以及上一时刻隐藏层状态,经过单层单向的LSTM神经网络,得到当前时刻隐藏层状态st,隐藏单元数是256。
进一步地,所述的语境向量ut的计算方式如下:
其中,v,Wh,Ws和batt是需要学习的参数,hi为encoder的隐藏层状态值,N为输入序列的长度。
进一步地,所述的选择策略指的是测试阶段用beam search算法在每一步选出概率最大的4个结果,直到最后得到概率最大的摘要序列,而训练阶段只选概率最大的词,摘要完全生成后与参考摘要进行对比评估。
进一步地,所述的摘要生成步骤中,每一步只生成一个词,最终生成摘要最大长度为100,也就是从编码步骤到摘要生成步骤最大循环次数是100,当输出结束标志或者达到最大长度时停止,概率计算公式如下:
pv=softmax(V1(V2[st,ut]+b2)+b1)
其中,V1,V2,b1,b2都是需要学习的参数,pv为预测下一个单词提供依据。
进一步地,所述的摘要生成步骤还包括:将最终得到的预测摘要和源文本序列进行语义相似度Rel计算,训练过程惩罚低语义相关度的摘要,计算如下:
本发明相对于现有技术具有如下的优点及效果:
本发明基于seq2seq模型,构建了基于LSTM的自动文本摘要模型,在解码器时引入注意力机制获取每一时刻的语境向量,并引入语义相似度来增强生成摘要与源文本的语义相关度,在训练时将相似度融合到损失函数中,避免模型走偏,提高摘要的质量。
附图说明
图1是本发明的基于增强语义的自动文本摘要方法的步骤流程图;
图2是本发明中的语义相似度计算结构图;
图3是本发明中的解码生成摘要词时每一步的算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,基于增强语义的自动文本摘要方法包括:文本预处理步骤、编码步骤、解码步骤、注意力步骤、摘要生成步骤。其中:
文本预处理步骤,这里的文本数据可以是通过爬虫爬取的语料库,也可以是开源的语料库,以CNN/Daily Mail为例,是由文章-摘要对组成的,每篇文章平均780个词,摘要平均56个词。将源文本进行分词,形态还原,指代消解后,按照词频高低,获取前200k的词作为基本词表,并且与每一个文本的词组成对应的扩展词表,同时将特殊标记[PAD],[UNK],[START],[STOP]加入词表,并把文本的词转为id,每一篇对应一个序列,摘要同理,训练集包含287226个样本,验证集包含13368个样本,测试集包含11490个样本。
编码步骤,对输入序列进行word embedding后,得到128维的向量,经过神经网络得到一个携带文本序列信息的文本表示向量。
其中,输入序列是将文章经过转换后获得的id序列,最大长度取为700,最短长度为30。
其中,编码步骤中的神经网络是一个单层双向的LSTM组成,隐藏层单元数是256,将正反向的隐藏层状态h连接起来得到最终隐藏层状态。
解码步骤,接收输入序列的词向量,经过单层单向的LSTM神经网络,得到最终隐藏层状态st,隐藏单元数是256。
注意力计算步骤,结合当前时刻解码步骤得到解码状态st和编码步骤的输入序列的隐藏层状态,得到当前时刻的语境向量ut。
其中,t时刻语境向量计算方式如下:
其中,v,Wh,Ws和batt是需要学习的参数,hi为encoder的隐藏层状态值,N为输入序列的长度。
摘要生成步骤,将解码步骤得到的输出经过两个线性层映射为词表大小维度的向量,每一个维代表词表中单词的概率,用一定选择策略选出候选词。
其中,选择策略指的是测试阶段用beam search算法每一步选出概率最大的4个结果,直到最后得到概率最大的摘要序列,而训练阶段只取概率最大的词,摘要完全生成后与参考摘要进行对比评估。
其中,生成摘要最大长度为100,概率计算公式如下:
pv=softmax(V1(V2[st,ut]+b2)+b1)
其中,V1,V2,b1,b2都是需要学习的参数,pv为预测下一个单词提供了依据。
其中,摘要生成步骤还包括将最终得到的预测摘要和源文本序列进行语义相似度Rel计算,训练过程惩罚低语义相关度的摘要,计算如下:
在训练过程中,采用的是反向传播算法,使用Adagrad优化器,学习率为0.15,初始加速器值为0.1。
解码步骤分为训练阶段和测试阶段,其中,训练阶段将参考摘要作为输入,测试阶段将上一时刻输出作为这一时刻输入。
评估参考摘要和预测摘要的指标为ROUGE指标。采用了linux操作***,并在GPU上运行程序,使用的编程语言为python,平台为tensorflow。引入语义相似度的模型运行时间大约4天,进行了约380000次迭代,实验结果如下表所示。
表1.三种模型结果对比
实验模型 | ROUGE-1 | ROUGE-2 | ROUGE-L |
基本LSTM模型 | 0.2896 | 0.1028 | 0.2613 |
LSTM+Attention | 0.3116 | 0.1127 | 0.2920 |
LSTM+Attention+Rel | 0.3493 | 0.1390 | 0.3342 |
本发明通过融合注意力机制,充分发挥seq2seq模型进行深层次挖掘文本语义信息的能力,使解码生成摘要时可以关注在输入序列中对当前输出有用的信息,并融入语义相似度进行损失计算,使模型在生成摘要时可以关注与源文本的语义相似度,得到更符合原文语义的句子。与传统的基于统计的自动文摘方法相比,基于深度学习的模型更有表征能力,在自动文本摘要任务上有很大优势。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于增强语义的自动文本摘要方法,其特征在于,所述的自动文本摘要方法包括:
文本预处理步骤,对文本进行分词、形态还原以及指代消解,按照词频信息从高到低排列,将词转为id序列;
编码步骤,将输入序列进行编码,经过神经网络得到携带文本序列信息的隐藏层状态向量;
解码步骤,将由编码器得到的最后隐藏层状态进行初始化,开始进行解码获得每一步隐藏层状态st;
注意力分布计算步骤,结合输入序列的隐藏层状态与当前时刻解码获得的隐藏层状态st进行语境向量的计算,得到当前t时刻的语境向量ut;
摘要生成步骤,将解码步骤得到的输出经过两个线性层映射为词表大小维度的向量,每一个维代表词表中单词的概率,用选择策略选出候选词,生成摘要;其中,所述的选择策略指的是测试阶段用beam search算法在每一步选出概率最大的4个结果,直到最后得到概率最大的摘要序列,而训练阶段只选概率最大的词,摘要完全生成后与参考摘要进行对比评估;
所述的摘要生成步骤还包括:将最终得到的预测摘要和源文本序列进行语义相似度Rel计算,训练过程惩罚低语义相关度的摘要,计算如下:
所述的摘要生成步骤中,每一步只生成一个词,最终生成摘要最大长度为100,也就是从编码步骤到摘要生成步骤最大循环次数是100,当输出结束标志或者达到最大长度时停止,概率计算公式如下:
pv=softmax(V1(V2[st,ut]+b2)+b1)
其中,V1,V2,b1,b2都是需要学习的参数,pv为预测下一个单词提供依据。
2.根据权利要求1所述的一种基于增强语义的自动文本摘要方法,其特征在于,所述的文本预处理步骤中文本的数据是通过爬虫爬取的语料库或开源的语料库,并由文章-摘要对组成。
3.根据权利要求1所述的一种基于增强语义的自动文本摘要方法,其特征在于,所述的文本预处理步骤中,获取前200k的词作为基本词表,同时将特殊标记[PAD]、[UNK]、[START]和[STOP]加入词表,并把文本的词转为id序列,每一篇对应一个序列。
4.根据权利要求1所述的一种基于增强语义的自动文本摘要方法,其特征在于,所述的输入序列是将文本经过转换后获得的id序列对应的词向量,词向量维度128,序列最大长度取为700。
5.根据权利要求1所述的一种基于增强语义的自动文本摘要方法,其特征在于,所述的神经网络是一个单层双向的LSTM,隐藏层单元数是256,将正反向的隐藏层状态h连接起来得到最终隐藏层状态。
6.根据权利要求1所述的一种基于增强语义的自动文本摘要方法,其特征在于,所述的解码步骤过程如下:
接收输入的词向量以及上一时刻隐藏层状态,经过单层单向的LSTM神经网络,得到当前时刻隐藏层状态st,隐藏单元数是256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281684.5A CN108804495B (zh) | 2018-04-02 | 2018-04-02 | 一种基于增强语义的自动文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281684.5A CN108804495B (zh) | 2018-04-02 | 2018-04-02 | 一种基于增强语义的自动文本摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804495A CN108804495A (zh) | 2018-11-13 |
CN108804495B true CN108804495B (zh) | 2021-10-22 |
Family
ID=64095279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810281684.5A Expired - Fee Related CN108804495B (zh) | 2018-04-02 | 2018-04-02 | 一种基于增强语义的自动文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804495B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800390B (zh) * | 2018-12-21 | 2023-08-18 | 北京石油化工学院 | 一种个性化情感摘要的计算方法与装置 |
CN109620205B (zh) * | 2018-12-26 | 2022-10-28 | 上海联影智能医疗科技有限公司 | 心电数据分类方法、装置、计算机设备和存储介质 |
CN111460109B (zh) * | 2019-01-22 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 摘要及对话摘要生成方法和装置 |
CN109829161B (zh) * | 2019-01-30 | 2023-08-04 | 延边大学 | 一种多语种自动摘要的方法 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109947931B (zh) * | 2019-03-20 | 2021-05-14 | 华南理工大学 | 基于无监督学习的文本自动摘要方法、***、设备及介质 |
CN110119444B (zh) * | 2019-04-23 | 2023-06-30 | 中电科大数据研究院有限公司 | 一种抽取式与生成式相结合的公文摘要生成模型 |
CN110134782B (zh) * | 2019-05-14 | 2021-05-18 | 南京大学 | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 |
CN110209801B (zh) * | 2019-05-15 | 2021-05-14 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110222840B (zh) * | 2019-05-17 | 2023-05-05 | 中山大学 | 一种基于注意力机制的集群资源预测方法和装置 |
CN110209802B (zh) * | 2019-06-05 | 2021-12-28 | 北京金山数字娱乐科技有限公司 | 一种提取摘要文本的方法及装置 |
CN110334362B (zh) * | 2019-07-12 | 2023-04-07 | 北京百奥知信息科技有限公司 | 一种基于医学神经机器翻译的解决产生未翻译单词的方法 |
CN110390103B (zh) * | 2019-07-23 | 2022-12-27 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及*** |
CN110688479B (zh) * | 2019-08-19 | 2022-06-17 | 中国科学院信息工程研究所 | 一种用于生成式摘要的评估方法及排序网络 |
CN110532554B (zh) * | 2019-08-26 | 2023-05-05 | 南京信息职业技术学院 | 一种中文摘要生成方法、***及存储介质 |
CN110765264A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种增强语义相关性的文本摘要生成方法 |
CN110795556B (zh) * | 2019-11-01 | 2023-04-18 | 中山大学 | 一种基于细粒度***式解码的摘要生成方法 |
CN111078866B (zh) * | 2019-12-30 | 2023-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
CN111339763B (zh) * | 2020-02-26 | 2022-06-28 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111414505B (zh) * | 2020-03-11 | 2023-10-20 | 上海爱数信息技术股份有限公司 | 一种基于序列生成模型的快速图像摘要生成方法 |
CN111563160B (zh) * | 2020-04-15 | 2023-03-31 | 华南理工大学 | 基于全局语义的文本自动摘要方法、装置、介质及设备 |
CN111708877B (zh) * | 2020-04-20 | 2023-05-09 | 中山大学 | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 |
CN111639174B (zh) * | 2020-05-15 | 2023-12-22 | 民生科技有限责任公司 | 文本摘要生成***、方法、装置及计算机可读存储介质 |
CN111797196B (zh) * | 2020-06-01 | 2021-11-02 | 武汉大学 | 一种结合注意力机制lstm和神经主题模型的服务发现方法 |
CN112364157A (zh) * | 2020-11-02 | 2021-02-12 | 北京中科凡语科技有限公司 | 多语言自动摘要生成方法、装置、设备及存储介质 |
CN113157855B (zh) * | 2021-02-22 | 2023-02-21 | 福州大学 | 一种融合语义与上下文信息的文本摘要方法及*** |
CN113221577A (zh) * | 2021-04-28 | 2021-08-06 | 西安交通大学 | 一种教育文本知识归纳方法、***、设备及可读存储介质 |
CN113111663A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种融合关键信息的摘要生成方法 |
CN113407711B (zh) * | 2021-06-17 | 2023-04-07 | 成都崇瑚信息技术有限公司 | 一种利用预训练模型的吉布斯受限文本摘要生成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291699A (zh) * | 2017-07-04 | 2017-10-24 | 湖南星汉数智科技有限公司 | 一种句子语义相似度计算方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484017B (zh) * | 2017-07-25 | 2020-05-26 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN107844469B (zh) * | 2017-10-26 | 2020-06-26 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN107832300A (zh) * | 2017-11-17 | 2018-03-23 | 合肥工业大学 | 面向微创医疗领域文本摘要生成方法及装置 |
-
2018
- 2018-04-02 CN CN201810281684.5A patent/CN108804495B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291699A (zh) * | 2017-07-04 | 2017-10-24 | 湖南星汉数智科技有限公司 | 一种句子语义相似度计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108804495A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804495B (zh) | 一种基于增强语义的自动文本摘要方法 | |
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN111061862B (zh) | 一种基于注意力机制生成摘要的方法 | |
Ji et al. | Representation learning for text-level discourse parsing | |
CN110348016A (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
CN112215013B (zh) | 一种基于深度学习的克隆代码语义检测方法 | |
JP2010250814A (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN112183058B (zh) | 基于bert句子向量输入的诗词生成方法及装置 | |
CN109325109A (zh) | 基于注意力编码器的抽取式新闻摘要生成装置 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN111984782A (zh) | 藏文文本摘要生成方法和*** | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和*** | |
CN112732862B (zh) | 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置 | |
Zhang et al. | Extractive Document Summarization based on hierarchical GRU | |
CN116069924A (zh) | 一种融合全局和局部语义特征的文本摘要生成方法及*** | |
CN109992774A (zh) | 基于词属性注意力机制的关键短语识别方法 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
CN114357154A (zh) | 一种基于双编码指针混合网络的中文摘要生成方法 | |
CN111339287B (zh) | 摘要生成方法及装置 | |
KR102214754B1 (ko) | 상품 평가 기준 생성 방법 및 그 장치 | |
Tao et al. | Improving matching models with hierarchical contextualized representations for multi-turn response selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211022 |