CN107273474A - 基于潜在语义分析的自动摘要抽取方法及*** - Google Patents

基于潜在语义分析的自动摘要抽取方法及*** Download PDF

Info

Publication number
CN107273474A
CN107273474A CN201710429824.4A CN201710429824A CN107273474A CN 107273474 A CN107273474 A CN 107273474A CN 201710429824 A CN201710429824 A CN 201710429824A CN 107273474 A CN107273474 A CN 107273474A
Authority
CN
China
Prior art keywords
document
extracted
semantic
sentence
semantic primitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710429824.4A
Other languages
English (en)
Inventor
罗强
刘世林
丁国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201710429824.4A priority Critical patent/CN107273474A/zh
Publication of CN107273474A publication Critical patent/CN107273474A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,特别涉及基于潜在语义分析的自动摘要抽取方法及***,所述方法在抽取句子生成摘要的时候,采用了潜在语义分析模型,使用一个较大的语料库来构造潜在语义分析模型,根据模型计算待抽取文本和待抽取语义单元的语义相似度,充分考虑了词语在文档中的共现信息和语义信息,而不是简单基于词频或句子间的相互“推荐”而进行句子选择,使得生成的摘要能更好的反应文档所表述的主题。同时,相对于基于字面匹配进行相似度计算或词频统计分析的摘要生成算法所生成的摘要句子具有多样性,可以有效降低摘要中的冗余信息。本发明***基于本方法提供一种简单高效的自动摘要抽取工具。

Description

基于潜在语义分析的自动摘要抽取方法及***
技术领域
本发明涉及自然语言处理领域,特别涉及基于潜在语义分析的自动摘要抽取方法及***。
背景技术
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文档数据内容也呈现出指数级增长的趋势。互联网上的文档数据中包含了丰富的信息,如何有效的阅读和筛选对我们有用的信息已经成为我们关注的重点。自动文档摘要技术对文档信息进行压缩表示,帮助用户更好的浏览和吸收互联网上的海量信息。
自动摘要技术是自然语言处理领域的一个研究热点。根据摘要内容的生产方式,可以分为抽取式摘要和生成式摘要;根据生成的摘要是否依赖查询关键字,可以分为查询相关自动摘要和查询无关自动摘要;根据摘要生成依赖的文档数量,可以分为单文档摘要和多文档摘要。
目前成熟的摘要***都是基于抽取式摘要生成技术,通常的做法是将文档切分为句子集合,对句子进行打分,选取得分高的句子作为摘要。可以使用TF-IDF技术计算每个句子的得分,或使用基于图的算法对句子进行打分,如TextRank和LexPageRank算法等。目前的自动摘要技术中,基于TF-IDF技术计算句子得分时,并没有考虑语义信息,具有相同意义的词往往TF-IDF值是不同的,会导致具有相同意义的句子最终的得分差距较大,进而影响生产的摘要质量;基于图模型的摘要生成算法,将句子作为图中的节点,将句子之间的关系作为图中的边,通常使用相似性来度量句子间的关系,然而目前的相似度度量大多还是基于字面而不是语义相似的;生成式摘要技术通过使用句子融合、句子压缩及语言生成等自然语言处理技术生成文档的摘要,但目前句子融合、句子压缩和语言生成的相关技术还不够成熟,导致生成的摘要存在语法错误、逻辑不连贯或上下文衔接生硬等问题。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供基于潜在语义分析的自动摘要抽取方法及***,在抽取句子生成摘要的时候,采用了潜在语义分析模型,充分考虑了词语在文档中的共现信息和语义信息,而不是简单基于词频或句子间的相互“推荐”而进行句子选择,使得生成的摘要能更好的反应文档所表述的主题。
为了实现上述发明目的,本发明提供了以下技术方案:基于潜在语义分析的自动摘要抽取方法,使用潜在语义分析计算出待抽取文档的潜在语义分析表示向量Q1;构建出待抽取文档中语义单元的潜在语义表示向量Q2;计算Q1和Q2的余弦相似度;抽取相似度数值最大的前n个语义单元作为待抽取文档的摘要。
所述方法包含以下实现步骤:
(1)对语料库进行分词,构建出对应的词语索引库;
(2)构建出语料库中文档和词语的共现矩阵A;其中矩阵的一列代表一篇文档,矩阵的一行代表一个词;
(3)对矩阵A进行奇异值分解,公式如下:A=USVT
(4)在矩阵S中选取值较大的前K个奇异值,对矩阵A进行降维处理,得到进而得到潜在语义分析模型:UK,SK
(5)计算待抽取文档的潜在语义表示向量其中q为待抽取文档的文档表示向量;
(6)对待抽取文档,进行语义单元的切分;切分后的语义单元形成语义单元集合;计算语义单元的潜在语义表示向量其中j为语义单元的文档表示向量;
(7)计算待抽取文档潜在语义表示向量Q1与其切分后每个语义单元的潜在语义表示向量Q2的余弦相似度;保留余弦相似度值最高的前n个语义单元作为待抽取文档的摘要。
进一步的,所述步骤(1)中对分词后语料库中的文档还包含去高频词、去停用词的预处理步骤。
进一步的,所述步骤(6)中,根据来句号、感叹号、问号、省略号为基准来进行语义单元的切分。
进一步的,还包含对所述步骤(7)中已抽取为待选语义单元进行进一步筛选的,所述过程是指:通过上述方法抽取出的摘要后,计算摘要各个语义单元中,各个语义单元之间的余弦相似度,当两个语义单元之间的余弦相似度值高于设置的阈值,时仅保留与文档的潜在语义表示向量余弦相似度值较大的语义单元作为摘要句,而将另外一个语义单元舍弃。
基于潜在语义分析模型的摘要自动生成***;所述***加载有本基于潜在语义分析的自动摘要抽取方法功能程序的计算机或者服务器。
与现有技术相比,本发明的有益效果:本发明提供基于潜在语义分析的自动摘要抽取方法及***,所述方法在抽取句子生成摘要的时候,采用了潜在语义分析模型,使用一个较大的语料库来构造潜在语义分析模型,根据模型计算待抽取文本和待抽取语义单元的语义相似度;充分考虑了词语在文档中的共现信息和语义信息,而不是简单基于词频或句子间的相互“推荐”而进行句子选择,使得生成的摘要能更好的反应文档所表述的主题。本发明方法不进行语义压缩、句子融合和语言生成,以句子来作为摘要抽取语义单元,有效减低所生成摘要的语法错误,使得摘要信息的表达语义连贯,衔接顺畅。不仅如此本发明方法在初步抽取出摘要句子的基础上,进行进一步的计算,计算待选句之间的语义相似度,去除语义重复的待选句,有效降低摘要中的冗余信息,使得生成的摘要句更具多样性。此外本发明***基于本发明方法为文档摘要的自动抽取提供工具。
附图说明:
图1为本基于潜在语义分析模型的摘要抽取方法的实现过程示意图;
图2为本基于潜在语义分析模型的摘要抽取方法的LSA模型构建过程;
图3为本基于潜在语义分析模型的摘要抽取方法中带抽取文档的LSA向量的获取过程。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明的目的在于克服现有技术中所存在的上述不足,提供基于潜在语义分析的自动摘要抽取方法,在抽取句子生成摘要的时候,采用了潜在语义分析模型,充分考虑了词语在文档中的共现信息和语义信息,而不是简单基于词频或句子间的相互“推荐”而进行句子选择,使得生成的摘要能更好的反应文档所表述的主题。
为了实现上述发明目的,本发明提供了以下技术方案:基于潜在语义分析的自动摘要抽取方法,使用潜在语义分析计算出待抽取文档的潜在语义分析表示向量Q1,构建出待抽取文档中语义单元的潜在语义表示向量Q2,计算Q1和Q2的余弦相似度;抽取相似度数值最大的前n个语义单元作为待抽取文档的摘要。
所述方法实现过程如图1所示:包含以下实现步骤:
(1)对语料库进行分词,构建出对应的词语索引库。语料的选择根据所要抽取摘要的文档类型而定,比如说,待抽取摘要的文档,主要涉及财经新闻类,那么语料库中所包含的文档主要为财经新闻;或者待抽取摘要的文档为某一领学术论文,则语料库中以该领域的对应文档为主。此外本步骤中的语料库所包含的文档数量大于等于待抽取摘要的文档总数,比如说待抽取文档数量为500篇,语料库中包含的文档数量是2000篇。或者此外当待抽取文档的数量足够多时,比如大于2000篇,此时语料库可以由所有待抽取摘要文档构成。
本步骤中构建词语索引库时,包含对语料库中文档进行预处理的步骤,所述预处理包括:分词,对分词后的结果进行去高频词,去停用词等,预处理的目的在于,去除不反应文档主题的常用词汇,降低后续计算的复杂度,提高分析的准确率。
(2)构建出语料库中文档和词语的共现矩阵A;其中矩阵的一列代表一篇文档,矩阵的一行代表一个词。文档和词语的共现矩阵A,是指经过预处理后的语料库中的每篇文档,统计其中每个词的在每篇文档中的出现次数,并将每篇文档映射成矩阵A的对应一列向量,将每个词根据其在各个文档中的出次数,映射成矩阵A的一行向量。矩阵A的每个元素值对应表示该行所代表的词在该列所代表的文档中的出现次数。比如说:语料库中包含5篇文档,经过预处理后包含的词语数是500个,对应A为一个500*5的矩阵,其中元素aij表示的第i行向量代表的词在第j列向量所代表的文档中的出现次数。
(3)对矩阵A进行奇异值分解,公式如下:A=USVT
(4)在矩阵S中选取值较大的前K个奇异值,对矩阵A进行降维处理,得到进而得到潜在语义分析模型:UK,SK潜在语义分析模型的计算的实现过程如图2所示。
(5)计算待抽取文档的潜在语义表示向量其中q为待抽取文档的文本表示向量;文档的潜在语义表示向量的计算过程如图3所示:文本表示向量q是将待抽取文档,经过分词、去高频词、去停用词后剩下的词,根据文档和词的共现矩阵A中词的排列顺序,依次计算该行向量所表示的词在该待抽取文档中出现的次数;并将该次数值作为对应行元素,形成的向量;该向量表示待抽取文档中各词的出现次数,具有词频的统计意义。根据文档表示向量,结合前步骤中所得的潜在语义分析模型,得到文档的潜在语义表示向量,结合了词频统计意义和语义分析。
(6)将待抽取文档,根据包含句号、感叹号、问号、省略号为基准进行语义单元的切分;切分后的语义单元形成语义单元集合;计算语义单元的潜在语义表示向量其中j为语义单元的文本表示向量。以句子来作为摘要抽取的语义单元,所抽取的摘要可以不进行语义压缩、句子融合和语言生成,以句子来作为摘要抽取语义单元,有效减低所生成摘要的语法错误,使得摘要信息的表达语义连贯,衔接顺畅。
(7)计算待抽取文档潜在语义表示向量Q1与其对应每个语义单元的潜在语义表示向量Q2的余弦相似度;
对计算出的相似度进行从大到小的排列,保留余弦相似度值最高的前n个语义单元作为待抽取文档的摘要。
经过潜在语义分析模型得到了文档的潜在语义表示向量Q1,经过同样的方法获得了语义单元的潜在语义表示向量Q2;充分考虑了词语在文档中的共现信息和语义信息,而不是简单基于词频或句子间的相互“推荐”而进行句子选择,使得生成的摘要能更好的反应文档所表述的主题。
进一步的,通过上述方法抽取出的摘要后,计算摘要句子中,各个句子之间的余弦相似度,当两个句子之间的余弦相似度值高于设置的阈值,时仅保留与文档的潜在语义表示向量余弦相似度值较大的句子作为摘要句,而将另外一个句子舍弃,通过这样的计算方法比较已抽取摘要句子之间的相似程度,将相似程度很高的句子进行筛选,删减;去除语义重复的语义单元;有效降低摘要中的冗余信息。
进一步的,本发提供基于潜在语义分析的自动摘要抽取***;所述***加载有本基于潜在语义分析的自动摘要抽取方法功能程序的计算机或者服务器。为文档的摘要自动抽取提供有力的工具。

Claims (6)

1.基于潜在语义分析的自动摘要抽取方法,其特征在于,使用潜在语义分析计算出待抽取文档的潜在语义分析表示向量Q1,构建出待文档中抽取语义单元的潜在语义表示向量Q2,计算Q1和Q2的余弦相似度;抽取余弦相似度较大的前n个语义单元作为待抽取文档的摘要。
2.如权利要求1所述的方法,其特征在于,包含以下实现步骤:
(1)对语料库进行分词,构建出对应的词语索引库;
(2)构建出语料库中文档和词语的共现矩阵A;
(3)对矩阵A进行奇异值分解,公式如下:A=USVT
(4)在矩阵S中选取值较大的前K个奇异值,对矩阵A进行降维处理,得到进而得到潜在语义分析模型:UK,SK
(5)计算待抽取文档的潜在语义表示向量其中q为待抽取文档的文本表示向量;
(6)将待抽取文档,进行语义单元的切分;切分后的语义单元形成语义单元集合;计算语义单元的潜在语义表示向量其中j为语义单元的文本表示向量;
(7)计算待抽取文档潜在语义表示向量Q1与其切分后每个语义单元的潜在语义表示向量Q2的余弦相似度;抽取余弦相似度较大的前n个语义单元作为待抽取文档的摘要。
3.如权利要求2所述的方法,其特征在于:所述步骤(1)中对分词后语料库中的文档还包含去高频词、去停用词的预处理步骤。
4.如权利要求3所述的方法,其特征在于:所述步骤(6)中,根据来句号、感叹号、问号、省略号为基准来进行语义单元的切分。
5.如权利要求4所述的方法,其特征在于:还包含对所述步骤(7)中已抽取为摘要的句子进行筛选的步骤,步骤如下:计算各个已抽取语义单元潜在语义表示向量的余弦相似度值,余弦相似度值大于设置的阈值的,仅保留与待抽取文本余弦相似度值较大的语义单元作为待抽取文档的摘要于语义单元。
6.基于潜在语义分析的自动摘要抽取***,其特征在于,所述***加载有如权利要求1至5之一所述方法功能程序的计算机或者服务器。
CN201710429824.4A 2017-06-08 2017-06-08 基于潜在语义分析的自动摘要抽取方法及*** Pending CN107273474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710429824.4A CN107273474A (zh) 2017-06-08 2017-06-08 基于潜在语义分析的自动摘要抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710429824.4A CN107273474A (zh) 2017-06-08 2017-06-08 基于潜在语义分析的自动摘要抽取方法及***

Publications (1)

Publication Number Publication Date
CN107273474A true CN107273474A (zh) 2017-10-20

Family

ID=60066584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710429824.4A Pending CN107273474A (zh) 2017-06-08 2017-06-08 基于潜在语义分析的自动摘要抽取方法及***

Country Status (1)

Country Link
CN (1) CN107273474A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108960296A (zh) * 2018-06-14 2018-12-07 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109726282A (zh) * 2018-12-26 2019-05-07 东软集团股份有限公司 一种生成文章摘要的方法、装置、设备和存储介质
CN109840325A (zh) * 2019-01-28 2019-06-04 山西大学 基于点互信息的文本语义相似性度量方法
CN110222194A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 基于自然语言处理的数据图表生成方法和相关装置
CN110399458A (zh) * 2019-07-04 2019-11-01 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN112685556A (zh) * 2020-12-29 2021-04-20 西安掌上盛唐网络信息有限公司 一种新闻文本自动摘要及语音播报***
WO2022146333A1 (en) * 2020-12-28 2022-07-07 Sestek Ses Ve Iletisim Bilgisayar Tek.San.Tic.A.S. A text summarization performance evaluation method sensitive to text categorization and a summarization system using the said method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916904A (zh) * 2006-09-01 2007-02-21 北大方正集团有限公司 一种基于文档扩展的单文档摘要方法
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘霞: "基于潜在语义分析的单文本自动摘要方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
叶昭晖 等: "一种基于潜语义分析的中文网页自动摘要方法", 《广西大学学报: 自然科学版》 *
武高敏: "基于主题的在线网络舆情监测技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN107992477B (zh) * 2017-11-30 2019-03-29 北京神州泰岳软件股份有限公司 文本主题确定方法及装置
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN108197111B (zh) * 2018-01-10 2020-12-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108960296A (zh) * 2018-06-14 2018-12-07 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN108960296B (zh) * 2018-06-14 2022-03-29 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109726282A (zh) * 2018-12-26 2019-05-07 东软集团股份有限公司 一种生成文章摘要的方法、装置、设备和存储介质
CN109840325A (zh) * 2019-01-28 2019-06-04 山西大学 基于点互信息的文本语义相似性度量方法
CN110222194A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 基于自然语言处理的数据图表生成方法和相关装置
CN110222194B (zh) * 2019-05-21 2022-10-04 深圳壹账通智能科技有限公司 基于自然语言处理的数据图表生成方法和相关装置
CN110399458A (zh) * 2019-07-04 2019-11-01 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN110399458B (zh) * 2019-07-04 2023-05-26 淮阴工学院 一种基于潜在语义分析和随机投影的文本相似度计算方法
WO2022146333A1 (en) * 2020-12-28 2022-07-07 Sestek Ses Ve Iletisim Bilgisayar Tek.San.Tic.A.S. A text summarization performance evaluation method sensitive to text categorization and a summarization system using the said method
CN112685556A (zh) * 2020-12-29 2021-04-20 西安掌上盛唐网络信息有限公司 一种新闻文本自动摘要及语音播报***

Similar Documents

Publication Publication Date Title
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及***
Nayak et al. Survey on pre-processing techniques for text mining
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及***
CN106446148A (zh) 一种基于聚类的文本查重方法
Katsis et al. AIT-QA: Question answering dataset over complex tables in the airline industry
CN108845986A (zh) 一种情感分析方法、设备及***、计算机可读存储介质
CN104281565A (zh) 语义词典构建方法和装置
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN110674298A (zh) 一种深度学习的混合主题模型构建方法
Ertam et al. Abstractive text summarization using deep learning with a new Turkish summarization benchmark dataset
KR20120038575A (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN110413985B (zh) 一种相关文本片段搜索方法及装置
Yan et al. Sentiment Analysis of Short Texts Based on Parallel DenseNet.
Singh et al. Deep learning architecture for multi-document summarization as a cascade of abstractive and extractive summarization approaches
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
Velasco et al. Automatic WordNet construction using word sense induction through sentence embeddings
Devrapalli et al. Effective Text Processing utilizing NLP
Bhole et al. Extractive based single document text summarization using clustering approach
CN113537345B (zh) 一种通信网设备数据关联的方法及***
CN108897749A (zh) 基于语法树和文本块密度的网页信息抽取方法及***
Ananth et al. An Investigation on the Extractive Summarization of Kannada Text Check for updates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171020

WD01 Invention patent application deemed withdrawn after publication