CN112784036A - 基于无监督集成学习的抽取式文本摘要方法 - Google Patents

基于无监督集成学习的抽取式文本摘要方法 Download PDF

Info

Publication number
CN112784036A
CN112784036A CN202011624456.7A CN202011624456A CN112784036A CN 112784036 A CN112784036 A CN 112784036A CN 202011624456 A CN202011624456 A CN 202011624456A CN 112784036 A CN112784036 A CN 112784036A
Authority
CN
China
Prior art keywords
sentence
document
vector
idf
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011624456.7A
Other languages
English (en)
Inventor
潘晓光
易传润
王宇琦
陈亮
马彩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202011624456.7A priority Critical patent/CN112784036A/zh
Publication of CN112784036A publication Critical patent/CN112784036A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于无监督集成学习的抽取式文本摘要方法,包括以下步骤:首先将输入文档D进行预处理;然后通过TF‑IDF转换输入到编码器中,得到整篇文档的高阶特征表示下的句向量集合,对无监督模型下对使用算法和抽取式摘要的启发式规则生成候选摘要集;最后对三种模型下的结果根据投票选择方式进行集成,将句子根据得分进行排序,选取出最终摘要,输出目标摘要。通过自动确定文本摘要中心摘要数量K来提高聚类算法准确度,进一步提高抽取式文本摘要的准确度。

Description

基于无监督集成学习的抽取式文本摘要方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于无监督集成学习的抽取式文本摘要方法。
背景技术
传统的自动文本摘要方法多数基于监督学习方法,需要大量的人工标注数据,同时高维数据和稀疏数据的表示会使得语义信息难以捕获。
最初的文本摘要任务都是通过人工手动去筛选,但在互联网信息不断增长的情况下,手动的文本摘要任务己经无法完成,也与智能化的时代相违背,因此文本自动摘要的研究成为热门。文本自动摘要主要分为抽取式文本摘要以及生成式文本摘要两种,其中抽取式文本摘要主要是进行句子排序的过程,把包括原文本中最重要信息对句子进行排序和提取,通常采用棊于统计方法,或碁于规则的方法,采用无监督或半监督的方式,优点在于不需要或者只需要较少的标注好的训练集,比较方便,快捷,缺点则是准确度方面有所欠缺。在生成式文本摘要方法中,摘要是通过重写包含原始文本最重要概念的新句子构建的。生成式文本摘要需要大量的语言资源和人工生成的本体。由于缺乏自然语言资源,抽象方法非常困难,并且前期的准备工作非常多。
通过以上分析,生成式的文本摘要在研究的过程中存在非常多的困难,并且准确度的提升和保证非常困难。
发明内容
本发明的目的在于提供一种基于无监督集成学习的抽取式文本摘要方法。
为实现上述目的,本发明提供如下技术方案:基于无监督集成学习的抽取式文本摘要方法,包括以下步骤:首先将输入文档D进行预处理;然后通过TF-IDF转换输入到编码器中,得到整篇文档的高阶特征表示下的句向量集合,对无监督模型下对使用算法和抽取式摘要的启发式规则生成候选摘要集;最后对三种模型下的结果根据投票选择方式进行集成,将句子根据得分进行排序,选取出最终摘要,输出目标摘要。
进一步的,对输入文档D进行预处理的步骤如下:
S1、计算出文中所有非停用词的TF-IDF值;
S2、给出基于TF-IDF加权和Word2Vec的句向量计算公式;
S3、给出基于TF-IDF加权和Word2Vec的Sentence2Vec算法;
S4、根据常用整句标点符号对全文文档进行分词,借助第三方的中文分词软件,对文档进行分词处理,去除停用词部分,在计算句子向量时,将停用词的权重设置为0;
S5、根据上一步预处理之后的文本计算出文本中各个词汇分别对应的TF-IDF值;引入Word2Vec的连续词袋模型来实现词向量的表示;
S6、基于Word2Vec的词向量表示方法将高维度的稀疏词向量转换为低维度的稠密向量;
S7、通过步骤S2得到的词向量的权重值和步骤S3得到的词汇Word2Vec向量表示形式,分别算出文档中各个语句的句向量表示。输出最终文档D的Sentence2Vec向量。
进一步的,编码器包括自动编码器、变分编码器和极限学习机编码器。
进一步的,在步骤S1中,根据公式1计算出文中所有非停用词的TF-IDF值,记为其中i代表文档D的第i个句子,j代表第i句中的第j个词汇;
TF-IDF=TFi,j×IDFi
其中TFi,j代表在文档Dj中词汇或关键字Wi出m的次数TF,IDFi表示词条或关键字Wi在所有文档中的逆文档频率IDF。
进一步的,在步骤S2中,基于TF-IDF加权和Word2Vec的句向量计算公式,如下公式2,
Figure BDA0002877100230000021
其中Sentence2Veci,表示文档D中第i句的句向量表示,mi代表文档D第i句的词汇表中词的个数。vecij表示文档D中第i句的句向量的第j个词的词向量表示,weight(ij)代表文档D中第i句的句向量的第j个词的权重值。
进一步的,在步骤S6中,在词向量模型的训练过程中,使用的是Python第三方工具包gensim中的Word2Vec模块。
本发明的技术效果如下:在自动文本摘要任务中设计并实现了一种基于无监督深度神经网络与Word Embedding方法集成来提高自动文本摘要质量的方法。采用的是Word2Vec词嵌入模型,相比与传统的词袋模型(BOW)表示,本方案能将高维数据转化为低维空间的矢量表示。与此同时本方案是一种更具表现力的表示形式,产生的向量具有上下文的语义相关性。结合Word2Ve和TF-IDF系数改进Sentence2Vec句向量表示方法。提出了自适应K值的文本摘要抽取算法,通过自动确定文本摘要中心摘要数量K来提高聚类算法准确度,进一步提高抽取式文本摘要的准确度。
附图说明
图1为实施例中CBOW模型结构图;
图2为实施例中变分自编码器的网络结构图;
图3为实施例中基于TF-IDF加权和Word2Vec的Sentence2Vec的技术流程图;
图4为实施例中K-means聚类算法;
图5为实施例中自适应K值的K-means算法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明主要解决抽取式文本摘要技术的问题。对于抽取式文本摘要的研究工作,主要的研究步骤是:首先是对文本的转换,第二制定抽取式文本摘要的训练规则。第三是选取合适的算法并基于上一步的结果生成合适的摘要内容。
1、词袋模型
CBOW模型结构如图1所示。CBOW的训练过程各层次表示如下所示:.
1)输入层:为输入目标词向量上下文单词的One-Hot编码表示;
2)隐藏层:输入向量的累加和向量;
3)输出层是一棵二叉树结构,其中叶子节点就是文本语料中的词,词频作为权值,从而构建Huffman树。最终稠密的向量就是隐藏层的权值;
连续词袋模型(CBOW)的模型生成稠密词向量的过程中使用了霍夫曼树。相比于二叉树,霍夫曼树的计算量要小很多,使模型的训练用时大幅减少。第二,由于CBOW模型中霍夫曼树的构建过程使得出现频次高的词汇更靠近树根,这样高频词的搜索时间也会非常短。
2、模板引擎
为了避免词向量直接通过累加的方式生成句子向量的过程会损失部分信息,本发明借鉴了基于TF-IDF的方法,基于TF-IDF加权和Word2Vec相结合的方式完成Word2Vec到Sentence2Vec的过程。
TF-IDF=TFi,j×IDFi
其中TFi,j代表在文档Dj中词汇(或关键字)Wi出m的次数(TF),IDFi表示词条(或关键字)Wi在所有文档中的逆文档频率(IDF)
首先根据公式1计算出文中所有非停用词的TF-IDF值,记为其中i代表文档D的第i个句子,j代表第i句中的第j个词汇。下面给出基于TF-IDF加权和Word2Vec的句向量计算公式,如公式2
Figure BDA0002877100230000041
其中Sentence2Veci,表示文档D中第i句的句向量表示,mi代表文档D第i句的词汇表中词的个数。vecij表示文档D中第i句的句向量的第j个词的词向量表示,weight(ij)代表文档D中第i句的句向量的第j个词的权重值。
编码器
自动编码器(AE)是一种前馈神经网络,它试图通过重构其输入来学习无监督的数据。一个简单的自动编码器包含3层:输入层x,隐藏层z和输出层y。输出层和输入层的数据是相似的。训练AE将输入向量压缩为维度较小的隐藏层表示。然后,将压缩的特征(隐藏层表示)通过解码器,重建(解码过程)其输入。反向传播算法用于训练这样的网络。训练的目的是使得输入x和输出y之间的误差尽可能的小
变分编码器由两个网络表示:将输入向量x映射到高阶特征表示z的编码器和将高阶特征z重构为与输入x相同的解码器。变分自编码器的网络结构图如图2所示。
变分自编码器(VAE)属于生成模型,通过学习数据的分布来实现特征的提取。首先定义两个概率分布p(x)和q(x),如果要衡量两个数据分布p(x)和q(x)之间的差异性,则通过KL散度(交叉熵)来衡量,p(x)和q(x)的交叉熵可以由公式表示
Figure BDA0002877100230000042
KL散度具有非负性,当且仅当p(x)=q(x)时,KL散度等于0。
极限学习机编码器(ELM-AE)是一个具有单隐藏层的前馈神经网络结构,模型输入x和输出x相同。隐藏层节点的初始权重和偏倚是随机生成的。展示出了ELM-AE的网络架构。模型的输入层权值和隐藏层的偏倚值可以随机确定,且训练过程中不需要再次调整。
本发明借鉴了基于TF-IDF的方法,基于TF-IDF加权和Word2Vec相结合的方式完成Word2Vec到Sentence2Vec的过程。
1、模板生成
根据公式1计算出文中所有非停用词的TF-IDF值,记为其中i代表文档D的第i个句子,j代表第i句中的第j个词汇。
TF-IDF=TFi,j×IDFi
其中TFi,j代表在文档Dj中词汇(或关键字)Wi出m的次数(TF),IDFi表示词条(或关键字)Wi在所有文档中的逆文档频率(IDF)
基于TF-IDF加权和Word2Vec的句向量计算公式,如下公式2
Figure BDA0002877100230000051
其中Sentence2Veci,表示文档D中第i句的句向量表示,mi代表文档D第i句的词汇表中词的个数。vecij表示文档D中第i句的句向量的第j个词的词向量表示,weight(ij)代表文档D中第i句的句向量的第j个词的权重值。
给出基于TF-IDF加权和Word2Vec的Sentence2Vec算法,如图3所示。
首先根据公式1计算出文中所有非停用词的TF-IDF值,记为其中i代表文档D的第i个句子,j代表第f句中的第j个词汇。下面给出基于TF-IDF加权和Word2Vec的句向量计算公式:
根据常用整句标点符号(如,句号,叹号等)对全文文档进行分词。借助第三方的中文分词软件,对文档进行分词处理。停用词部分由于对文档和句子没有语义和内容上实质性的贡献,为避免对后续产生影响,需要去除。在计算句子向量,需要会将停用词的权重设置为0。
根据上一步预处理之后的文本计算出文本中各个词汇分别对应的TF-IDF值。分析了传统的词袋模型的缺点,引入了Word2Vec的CBOW(连续词袋模型)来实现词向量的表示。
基于Word2Vec的词向量表示方法能够将高维度的稀疏词向量转换为低维度的稠密向量。在词向量模型的训练过程中,使用的是Python第三方工具包gensim中的Word2Vec模块。在本实验中对Word2Vec的重要参数设置做出如下解释。Sentence是需要输入的语料,对应本文中的输入待处理文档Size参数代表的是词向量的维度,算法默认的维度为100维,本实验涉及多个模型的二次训练,在不特殊声明的情况下,使用默认维度。参数window:代表的是窗口的大小,对应到模型中就是词向量上下文环境之间的范围。这个参数值越大,也就代表窗口越大,产生的词向量所带有的语义关系的上下文越大,采用的窗口值为5。Sg的默认值是0,也正好对应本文采用的CBOW(连续词袋模型)。Min_count代表限定词向量的最小词频,由于的语料规模还比较大,所有将这个参数值设置为6。
通过第二步得到的词向量的权重值和第三步得到的词汇Word2Vec向量表示形式,则可根据公式2分别算出文档中各个语句的句向量表示。输出最终文档D的Sentence2Vec向量。
2、文档生成
K-means算法是普及最广的一种聚类算法,也正是因为其简单易用且聚类效果好的优势使得K-means在很多年后的今天仍然被广泛使用,并且不断有其优化版本的出现。通常K-means聚类算法的步骤如图4所示。
1)首先要确定算法质心的个数K,作为聚类的中心点;
2)分别计算每一个数据点到K个聚类中心点的距离(通常使用欧式距离),然后把各个点分配到与其相邻最近的聚类中心点,形成K个数据集合,习惯称之为K个簇;
3)然后重新计算每一个簇的中心点(质心),:一般通过均值或方差等指标进行计算。
4)重复算法的2到4步,直至达到算法终止条件,然后结束算法,算法的终止条件一般为提前设定迭代的次数或者质心的位置不在发生变化。
3、自适应K值的K-means聚类算法
引入自适应K值的K-means算法完成文本摘要的研究。下列算法如图5,其中1~5行给出自适应K-means的自动摘要生成算法。其中由自适应K-means算法迭代计算输入数据(Sentence2Vec生成的句向量的高阶特征表示)找到使得聚类效果最佳的K值,6~12行是根据既定策略生成摘要。
4、文档生成
首先要将输入文档D进行预处理,然后通过TF-IDF转换输入到编码器中。得到整篇文档的高阶特征表示下的句向量集合。对无监督模型下对使用算法和提出的抽取式摘要的启发式规则生成候选摘要集。最后对三种模型下的结果根据投票选择方式进行集成,将句子根据得分进行排序,选取出最终摘要,输出目标摘要。
在自适应K值K-means算法中,通过使用余弦相似度作为聚类的指标,如公式3
Figure BDA0002877100230000061
其中Si,Sj表示待比较的两个句向量,对使用Sentence2Vec算法后的向量则可以进一步表示为公式4
Figure BDA0002877100230000071
xi和yi分别表示句向量Si,Sj在第i个维度的取值。余弦相似度把向量空间中两个句向量夹角的余弦值作为判断两个向量在语义或内容是否相似的衡量标准。余弦值越接近1,也说明两个句向量所表示的内容是更相近的。
文档预处理后,根据Word2Vec生成文档Z词向量表示,根据算法的Sentence2Vec算法得到句向量表示
通过三种编码器得到Si的高阶表示Si-AE,Si-VAE,Si-ELM-AE,将Si-AE,Si-VAE,Si-ELM-AE分别并入文档D的高阶表示Di-AE,Di-VAE,Di-ELM-AE,执行算法4-1得到三种模型下的候选摘要Dr-AE,Dr-VAE,Dr-ELM-AE,对三种模型下的结果进行投票选择和排列得到集成结果摘要Dr
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (6)

1.基于无监督集成学习的抽取式文本摘要方法,其特征在于,包括以下步骤:首先将输入文档D进行预处理;然后通过TF-IDF转换输入到编码器中,得到整篇文档的高阶特征表示下的句向量集合,对无监督模型下对使用算法和抽取式摘要的启发式规则生成候选摘要集;最后对三种模型下的结果根据投票选择方式进行集成,将句子根据得分进行排序,选取出最终摘要,输出目标摘要。
2.根据权利要求1所述的基于无监督集成学习的抽取式文本摘要方法,其特征在于,对输入文档D进行预处理的步骤如下:
S1、计算出文中所有非停用词的TF-IDF值;
S2、给出基于TF-IDF加权和Word2Vec的句向量计算公式;
S3、给出基于TF-IDF加权和Word2Vec的Sentence2Vec算法;
S4、根据常用整句标点符号对全文文档进行分词,借助第三方的中文分词软件,对文档进行分词处理,去除停用词部分,在计算句子向量时,将停用词的权重设置为0;
S5、根据上一步预处理之后的文本计算出文本中各个词汇分别对应的TF-IDF值;引入Word2Vec的连续词袋模型来实现词向量的表示;
S6、基于Word2Vec的词向量表示方法将高维度的稀疏词向量转换为低维度的稠密向量;
S7、通过步骤S2得到的词向量的权重值和步骤S3得到的词汇Word2Vec向量表示形式,分别算出文档中各个语句的句向量表示。输出最终文档D的Sentence2Vec向量。
3.根据权利要求1所述的基于无监督集成学习的抽取式文本摘要方法,其特征在于,编码器包括自动编码器、变分编码器和极限学习机编码器。
4.根据权利要求2所述的基于无监督集成学习的抽取式文本摘要方法,其特征在于,在步骤S1中,根据公式1计算出文中所有非停用词的TF-IDF值,记为其中i代表文档D的第i个句子,j代表第i句中的第j个词汇;
TF-IDF=TFi,j×IDFi
其中TFi,j代表在文档Dj中词汇或关键字Wi出m的次数TF,IDFi表示词条或关键字Wi在所有文档中的逆文档频率IDF。
5.根据权利要求2所述的基于无监督集成学习的抽取式文本摘要方法,其特征在于,在步骤S2中,基于TF-IDF加权和Word2Vec的句向量计算公式,如下公式2,
Figure FDA0002877100220000011
其中Sentence2Veci,表示文档D中第i句的句向量表示,mi代表文档D第i句的词汇表中词的个数。vecij表示文档D中第i句的句向量的第j个词的词向量表示,weight(ij)代表文档D中第i句的句向量的第j个词的权重值。
6.根据权利要求2所述的基于无监督集成学习的抽取式文本摘要方法,其特征在于,在步骤S6中,在词向量模型的训练过程中,使用的是Python第三方工具包gensim中的Word2Vec模块。
CN202011624456.7A 2020-12-31 2020-12-31 基于无监督集成学习的抽取式文本摘要方法 Pending CN112784036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011624456.7A CN112784036A (zh) 2020-12-31 2020-12-31 基于无监督集成学习的抽取式文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011624456.7A CN112784036A (zh) 2020-12-31 2020-12-31 基于无监督集成学习的抽取式文本摘要方法

Publications (1)

Publication Number Publication Date
CN112784036A true CN112784036A (zh) 2021-05-11

Family

ID=75754381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011624456.7A Pending CN112784036A (zh) 2020-12-31 2020-12-31 基于无监督集成学习的抽取式文本摘要方法

Country Status (1)

Country Link
CN (1) CN112784036A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064885A (zh) * 2021-11-25 2022-02-18 北京航空航天大学 一种无监督中文多文档抽取式摘要方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及***
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及***
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NABIL ALAMI 等: "Enhancing unsupervised neural networks based text summarization with word emb e dding and ensemble learning", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
龙剑飞: "基于无监督集成学习的抽取式文本摘要方法研究", 《万方数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064885A (zh) * 2021-11-25 2022-02-18 北京航空航天大学 一种无监督中文多文档抽取式摘要方法
CN114064885B (zh) * 2021-11-25 2024-05-31 北京航空航天大学 一种无监督中文多文档抽取式摘要方法

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
WO2022227207A1 (zh) 文本分类方法、装置、计算机设备和存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN110825848A (zh) 一种基于短语向量的文本分类方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN111651558A (zh) 基于预训练语义模型的超球面协同度量推荐装置和方法
CN114791958B (zh) 一种基于变分自编码器的零样本跨模态检索方法
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及***
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及***
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
CN113468854A (zh) 一种多文档自动摘要生成方法
CN116756303A (zh) 一种多主题文本摘要自动生成方法及***
CN117034950A (zh) 一种引入条件掩码对比学习的长句子嵌入方法和***
CN114896392A (zh) 工单数据的聚类方法、装置、电子设备及存储介质
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN112784036A (zh) 基于无监督集成学习的抽取式文本摘要方法
CN112364160A (zh) 一种结合ALBERT和BiGRU的专利文本分类方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及***
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN115965027A (zh) 一种基于语义匹配的文本摘要自动抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210511