CN110597979B - 一种基于自注意力的生成式文本摘要方法 - Google Patents
一种基于自注意力的生成式文本摘要方法 Download PDFInfo
- Publication number
- CN110597979B CN110597979B CN201910511656.2A CN201910511656A CN110597979B CN 110597979 B CN110597979 B CN 110597979B CN 201910511656 A CN201910511656 A CN 201910511656A CN 110597979 B CN110597979 B CN 110597979B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- abstract
- attention
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 230000007547 defect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于自注意力的生成式文本摘要方法,该方法抛弃了以往文本摘要方法中常用的循环神经网络结构,转而采用了基于自注意力机制的方法,避免了循环神经网络结构的低效性。此外对于自注意力机制方法在生成摘要效果不佳的缺点,本发明对其该方法进行了改进,简化了其结构,最终实现了高效、准确的文本摘要生成。
Description
技术领域
本发明涉及自然语言处理和文本处理领域,更具体地,涉及一种基于自注意力的生成式文本摘要方法。
背景技术
随着近年来互联网技术的发展,文本信息呈现爆发式增长,人们每天能从各种途径接触到海量的文本信息,如新闻、博客、微信、微博等。大量的文本数据同时也带来了信息过载的问题。根据中国网络信息中心(CNNIC)发布的《第43次中国互联网络发展状况统计报告》显示,截至2018年12月,中国的网民又突破了历史新高,达到了8.29亿人,已经占到了中国总人口的59.6%。其中城镇网民占6.07亿,农村网民占2.22亿。而根据QuestMobile发布的《***互联网2018年半年大报告》显示,***互联网用户对互联网的依赖越发强烈,人均单日使用时长达289.7分钟(近5小时),其中资讯是除过社交和视频之外,最消耗时间的项目,且仍有上升趋势。也就是说,人们每天花费大量的时间,在浏览各式各样的信息上,因此信息过载问题不容忽视。根据社会学研究,信息过载会给人们都来许多现实和心理上的困扰,如浪费时间精力、决策失误、精神压力。在此背景下,自动文本摘要和个性化推荐***成为了解决信息过载的重要方法,因此这两个领域得以快速发展。
文本摘要,即给定一段长文本,通过提取其中的关键信息,将其精炼成一段短文本或几句话。现有的文本摘要的方法可大致分为两类,抽取式(extractive)和生成式(abstractive)。
抽取式,顾名思义,即从原文中抽取出能最大程度上保留原文信息的一个或多个句子,并将其组合成一段话,作为原文的摘要。这种方法所形成的摘要一般无语法问题,但多个句子间的衔接往往并不顺畅。此外,部分文章的关键信息较为分散,并不集中在几个句子中,故有时候得到的摘要质量较差,不过整体来说差强人意。生成式方法,与人类做摘要的方式较为接近,即先阅读原文,然后根据自己的理解写摘要。对于计算机来说,即先将原文编码成数字形式,然后根据编码信息来进行解码,使用语言模型来生产摘要。当前的各类生成式方法能生成效果较好的摘要,但其无论是在模型训练阶段还是生成摘要阶段,效率都十分的低下,尤其是在输入序列较长时,其时间消耗和空间消耗十分巨大。
发明内容
本发明提供一种高效、准确的基于自注意力的生成式文本摘要方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于自注意力的生成式文本摘要方法,包括以下步骤:
S1:建立基于自注意力机制的文本摘要模型,模型包括基于自注意力机制的编码器和基于注意力机制的解码器,其中编码器的参数被解码器共享;
S2:建立文本摘要模型的对应的损失函数;
S3:进行文本摘要模型的训练,并在目标文本数据集上测试。
进一步地,所述步骤S1的具体过程是:
S11:构建字词的向量表示层:先将文字转换成数字表示,即用向量表示层来完成;
S12:构建基于自注意力机制的编码器,编码器包括多头注意力层和全连接层,接收来自于向量表示层的向量,并提取其中隐藏的特征,以向量形式输出;
S13:构建基于注意力机制的解码器,解码器包括多头注意力层和全连接层,接收来自于编码器的特征,并根据此特征来生成摘要文本。
进一步地,所述步骤S2的具体过程是:
文本摘要模型的损失函数由负对数似然函数给出:
loss=-logP(y|x)
其中,x={x1,x2,...,xn}为输入原文文本,y={y1,y2,...,ym}为摘要序列,m<n,似然函数表示在当前模型参数下,得到摘要序列的概率,而该概率,即在当前模型参数下,得到摘要序列中每个词的概率相乘:
P(y|x)=p(y1|x)*p(y2|x,y1)*...*p(ym|x,y1,...ym-1)。
进一步地,所述步骤S3的具体过程是:
S31:对于训练集中的输入原文文本x={x1,x2,...,xn},对其进行分词,每个词输入到向量表示层得到其对应的向量,并输入到编码器,编码器提取每个词的特征,对每个词产生一个向量hi,则对于原文序列有矩阵H=[hi],对于训练集中的摘要序列y={y1,y2,...,ym},做相同的处理,得到矩阵表示S=[si];
S32:将S31得到的向量表示H和S,共同输入到解码器中,解码器来预测一个摘要序列y′={y′1,y′2,...,y′k};
S33:将y′和y作为损失函数的输入,计算损失值,并进行梯度回传,以更新文本摘要模型参数,训练文本摘要模型;
S34:对于训练集中的所有数据,重复S31-S33,迭代10次左右,即可完成文本摘要模型的训练,将训练好的文本摘要模型保存。
进一步地,用训练好的文本摘要模型在测试集上进行测试,生成测试集中每个输入文本对应的摘要序列,使用ROUGE评价方法来对生成的摘要序列质量进行量化评估。
与现有技术相比,本发明技术方案的有益效果是:
本发明抛弃了以往文本摘要方法中常用的循环神经网络结构,转而采用了基于自注意力机制的方法,避免了循环神经网络结构的低效性。此外对于自注意力机制方法在生成摘要效果不佳的缺点,本发明对其该方法进行了改进,简化了其结构,最终实现了高效、准确的文本摘要方法。
附图说明
图1为本发明流程示意图;
图2为实施例1中的算法结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,本实施例中提供了一种基于自注意力的生成式文本摘要方法,包括以下步骤:
S1:建立基于自注意力机制的文本摘要模型,模型包括基于自注意力机制的编码器和基于注意力机制的解码器,其中编码器的参数被解码器共享;
S2:建立文本摘要模型的对应的损失函数;
S3:进行文本摘要模型的训练,并在目标文本数据集上测试。
步骤S1的具体过程是:
S11:构建字词的向量表示层:先将文字转换成数字表示,即用向量表示层来完成;
S12:构建基于自注意力机制的编码器,编码器包括多头注意力层和全连接层,接收来自于向量表示层的向量,并提取其中隐藏的特征,以向量形式输出;
S13:构建基于注意力机制的解码器,解码器包括多头注意力层和全连接层,接收来自于编码器的特征,并根据此特征来生成摘要文本。
步骤S2的具体过程是:
文本摘要模型的损失函数由负对数似然函数给出:
loss=-logP(y|x)
其中,x={x1,x2,...,xn}为输入原文文本,y={y1,y2,...,ym}为摘要序列,m<n,似然函数表示在当前模型参数下,得到摘要序列的概率,而该概率,即在当前模型参数下,得到摘要序列中每个词的概率相乘:
P(y|x)=p(y1|x)*p(y2|x,y1)*...*p(ym|x,y1,...ym-1)。
步骤S3的具体过程是:
S31:对于训练集中的输入原文文本x={x1,x2,...,xn),对其进行分词,每个词输入到向量表示层得到其对应的向量,并输入到编码器,编码器提取每个词的特征,对每个词产生一个向量hi,则对于原文序列有矩阵H=[hi],对于训练集中的摘要序列y={y1,y2,...,ym),做相同的处理,得到矩阵表示S=[si];
S32:将S31得到的向量表示H和S,共同输入到解码器中,解码器来预测一个摘要序列y′={y′1,y′2,...,y′k};
S33:将y′和y作为损失函数的输入,计算损失值,并进行梯度回传,以更新文本摘要模型参数,训练文本摘要模型;
S34:对于训练集中的所有数据,重复S31-S33,迭代10次左右,即可完成文本摘要模型的训练,将训练好的文本摘要模型保存。
其中,用训练好的文本摘要模型在测试集上进行测试,生成测试集中每个输入文本对应的摘要序列,使用ROUGE评价方法来对生成的摘要序列质量进行量化评估。
本实施中的方法针对新闻文本的摘要生成,使用的数据为英文新闻数据集Gigaword和DUC2004。Gigawords来自于约翰霍普金斯大学的人类语言技术实验室,内含约400万条短新闻文本及其对应的标题;DUC2004数据集首次来源于文本分析会议TAC,包含500条文本,用于评测文本摘要效果。表1展示了这两个数据集的详细情况。
表1、Gigaword和DUC2004数据集的详细情况
已有的生成式文本摘要方法,遵循编码解码框架,通常采用循环神经网络作为其编码器和解码器。编码器由双向循环神经网络组成,用于从两个方向阅读原文,从而充分利用上下文信息。解码器由单向循环神经网络构成,最开始其输入为特定的开始标识符,如“<s>”,然后逐字生成摘要序列,当生成结束标识符,如“</s>”,则生成摘要的过程结束。基于循环神经网络的方法生成的摘要效果较好,但是其处理序列的特点是逐词处理,并行化能力较差,使得其无论是在训练阶段还是在测试阶段,效率都十分低下。所以提出了基于自注意力机制的文本摘要方法。
具体方法步骤如下:构建模型,包括基于自注意力机制的编码器,和基于注意力机制的解码器,编码器和解码器都可堆叠多层;将原文序列x和摘要序列y输入到编码器,得到其对应的特征h和s,接下来将h和s输入到解码器,可生成摘要序列y′,根据y和y′计算损失函数,以更新模型参数。在测试阶段,摘要序列一开始只包含开始标识符,然后逐词生成摘要。细节如下:
1、首先读入训练集,每个训练集包含两个文件,一个文件保存了输入文本,另一个文件保存了摘要序列,输入文本和摘要序列一一对应;
2、构建模型,包括编码器和解码器,编码器包括带掩码的多头自注意力层和全连接层。解码器包括多头注意力层和全连接层;
3、将训练集每64个原文-摘要对作为一个batch,经过编码器,得到原文和摘要对应的特征表示h和s,然后将h和s一起输入到解码器,生成摘要序列y′,然后通过损失函数计算损失值,采用反向传播来更新模型参数,以对模型进行训练。
4、重复步骤3约10次,基本上可将模型充分训练。训练完成后,将模型参数保存到本地文件。
5、读取测试集数据,在测试集上测试模型效果。读取测试集中的原文x,设置初始摘要序列y′={y0},仅包含开始标识符“<s>”;使x和y′依次经过编码器和解码器,得到摘要序列的下一个词y1,则此时y′={y0,y1},重复上述过程,直至最终得到结束标识符,完成摘要序列的生成。
6、采用ROUGE指标来对模型生成的摘要质量进行评估,其中包括三个子指标:ROUGE-1,ROUGE-2,ROUGE-L,该指标得分越高越好。
为了体现本发明方法建立的模型的效果,选择另外几个模型来进行对比:
ABS,文本摘要领域最开始的模型;
Seq2seq,基于循环神经网络和注意力机制的模型;
Transformer,基于自注意力机制的模型,最开始用于机器翻译领域;
Seq2seq+select,加入了选择门机制的seq2seq模型;
分别在Gigaword训练集上进行训练,用其验证集来选择模型,训练完成后,在Gigaword测试集和DUC2004测试集上进行实验,测试结果分别如表2和表3所示。对比了本发明方法建立的模型跟其他已有方法的效果,从表2和表3来看,本发明方法建立的模型相对以往的模型,在生成摘要的质量上有了明显的提升。此外,本发明方法的训练效率在所有的方法中,也是最优的,相对其他基于循环神经网络的模型,训练时间仅为他们的1/9~1/3。证明了本发明方法的有效性和高效性。
本发明方法建立的模型的具体结构如附图2所示。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
表2对比不同模型的在Gigaword数据集上的效果(F1值,%)
表3对比不同模型的在DUC2004数据集上的效果(召回率,%)
模型 | ROUGE-1 | ROUGE-2 | ROUGE-L |
ABS | 26.55 | 7.06 | 22.05 |
Seq2seq | 27.88 | 8.41 | 24.04 |
Transformer | 27.34 | 8.29 | 24.01 |
Seq2seq+select | 28.12 | 8.98 | 24.89 |
本发明方法 | 28.82 | 9.60 | 25.32 |
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (2)
1.一种基于自注意力的生成式文本摘要方法,其特征在于,包括以下步骤:
S1:建立基于自注意力机制的文本摘要模型,模型包括基于自注意力机制的编码器和基于注意力机制的解码器,其中编码器的参数被解码器共享;所述步骤S1的具体过程是:
S11:构建字词的向量表示层:先将文字转换成数字表示,即用向量表示层来完成;
S12:构建基于自注意力机制的编码器,编码器包括多头注意力层和全连接层,接收来自于向量表示层的向量,并提取其中隐藏的特征,以向量形式输出;
S13:构建基于注意力机制的解码器,解码器包括多头注意力层和全连接层,接收来自于编码器的特征,并根据此特征来生成摘要文本;
S2:建立文本摘要模型的对应的损失函数;所述步骤S2的具体过程是:
文本摘要模型的损失函数由负对数似然函数给出:
S3:进行文本摘要模型的训练,并在目标文本数据集上测试;所述步骤S3的具体过程是:
S31:对于训练集中的输入原文文本,对其进行分词,每个词输入到向量表示层得到其对应的向量,并输入到编码器,编码器提取每个词的特征,对每个词产生一个向量/>,则对于原文序列有矩阵/>,对于训练集中的摘要序列/>,做相同的处理,得到矩阵表示/>;
S34:对于训练集中的所有数据,重复S31-S33,迭代10次左右,即可完成文本摘要模型的训练,将训练好的文本摘要模型保存。
2.根据权利要求1所述的基于自注意力的生成式文本摘要方法,其特征在于,用训练好的文本摘要模型在测试集上进行测试,生成测试集中每个输入文本对应的摘要序列,使用ROUGE评价方法来对生成的摘要序列质量进行量化评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511656.2A CN110597979B (zh) | 2019-06-13 | 2019-06-13 | 一种基于自注意力的生成式文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511656.2A CN110597979B (zh) | 2019-06-13 | 2019-06-13 | 一种基于自注意力的生成式文本摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110597979A CN110597979A (zh) | 2019-12-20 |
CN110597979B true CN110597979B (zh) | 2023-06-23 |
Family
ID=68852753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910511656.2A Active CN110597979B (zh) | 2019-06-13 | 2019-06-13 | 一种基于自注意力的生成式文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597979B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339763B (zh) * | 2020-02-26 | 2022-06-28 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111507102A (zh) * | 2020-03-09 | 2020-08-07 | 杭州电子科技大学 | 基于局部自注意力机制和分割树的多准则中文分词方法 |
CN111563160B (zh) * | 2020-04-15 | 2023-03-31 | 华南理工大学 | 基于全局语义的文本自动摘要方法、装置、介质及设备 |
CN112000805A (zh) * | 2020-08-24 | 2020-11-27 | 平安国际智慧城市科技股份有限公司 | 基于预训练模型的文本匹配方法、装置、终端及存储介质 |
CN112052329A (zh) * | 2020-09-02 | 2020-12-08 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN112562669B (zh) * | 2020-12-01 | 2024-01-12 | 浙江方正印务有限公司 | 一种智能数字报自动摘要与语音交互聊新闻方法及*** |
CN112651242B (zh) * | 2021-01-20 | 2024-04-26 | 重庆大学 | 一种基于内外注意力机制和可变尺度卷积的文本分类方法 |
CN113688230A (zh) * | 2021-07-21 | 2021-11-23 | 武汉众智数字技术有限公司 | 一种文本摘要生成的方法及*** |
CN113609287A (zh) * | 2021-09-16 | 2021-11-05 | 深圳豹耳科技有限公司 | 一种文本摘要的生成方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522403B (zh) * | 2018-11-05 | 2023-04-21 | 中山大学 | 一种基于融合编码的摘要文本生成方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109670035B (zh) * | 2018-12-03 | 2021-03-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法 |
-
2019
- 2019-06-13 CN CN201910511656.2A patent/CN110597979B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
Non-Patent Citations (1)
Title |
---|
自注意力机制的视频摘要模型;李依依;王继龙;;计算机辅助设计与图形学学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110597979A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597979B (zh) | 一种基于自注意力的生成式文本摘要方法 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN113254599A (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
CN110297988A (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN111930895B (zh) | 基于mrc的文档数据检索方法、装置、设备及存储介质 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、***及存储介质 | |
CN112529415B (zh) | 基于组合多感受野图神经网络的物品评分方法 | |
CN111008517A (zh) | 一种基于张量分解技术的神经语言模型的压缩方法 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
Jian et al. | [Retracted] LSTM‐Based Attentional Embedding for English Machine Translation | |
De Clercq et al. | Lt3: applying hybrid terminology extraction to aspect-based sentiment analysis | |
CN110826298A (zh) | 一种智能辅助定密***中使用的语句编码方法 | |
Negara et al. | Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN110532378B (zh) | 一种基于主题模型的短文本方面提取方法 | |
Hashemzadeh et al. | Improving keyword extraction in multilingual texts. | |
CN110874392A (zh) | 基于深度双向注意力机制的文本网络信息融合嵌入方法 | |
CN114707517A (zh) | 一种基于开源数据事件抽取的目标跟踪方法 | |
CN108334573B (zh) | 基于聚类信息的高相关微博检索方法 | |
CN113901211A (zh) | 基于图注意力网络的多粒度汉越平行句对抽取方法 | |
Wang et al. | Deep Semantics Sorting of Voice-Interaction-Enabled Industrial Control System | |
CN114817566B (zh) | 基于情绪嵌入的情绪原因对抽取方法 | |
CN113535945B (zh) | 文本类别的识别方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |