CN103246687A - 基于特征信息的Blog自动摘要方法 - Google Patents
基于特征信息的Blog自动摘要方法 Download PDFInfo
- Publication number
- CN103246687A CN103246687A CN2012101938833A CN201210193883A CN103246687A CN 103246687 A CN103246687 A CN 103246687A CN 2012101938833 A CN2012101938833 A CN 2012101938833A CN 201210193883 A CN201210193883 A CN 201210193883A CN 103246687 A CN103246687 A CN 103246687A
- Authority
- CN
- China
- Prior art keywords
- sentence
- score
- information
- comment
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000205 computational method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000011524 similarity measure Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。
Description
技术领域
本发明涉及自动摘要领域,尤其涉及一种基于特征信息的Blog自动摘要方法。
背景技术
随着Web2.0的兴起,Blog这种新的信息传播和交互方式不断流行,其影响力也在日益扩大,在即时性与多样性方面已经超过传统媒体,给现实世界带来了巨大影响,越来越受到网民和企业界的重视。
面对巨大的Blog用户规模所带来的海量Blog信息,读者如何去查找和阅读自己感兴趣的内容就变成了一个难题。在自动摘要研究中,一方面更为多样化的表达方式和更为复杂的段落结构给面向Blog的自动摘要带来了挑战,但另一方面,由于Blog本身比传统网页增加了标签、评论等额外信息,也提供了生成更为准确的自动摘要的可能。传统搜索引擎基于截取式的摘要提供,往往不能准确反映文章内容的大意,而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意,并迅速判断有无必要继续深入阅读,在如今这个信息***的时代,这无疑具有十分重要的意义。
发明内容
针对现有摘要方法所存在的问题和不足,本发明的目的是提供一种基于特征信息的Blog自动摘要方法,从而提高摘要的准确率和用户阅读的阅读体验。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
基于特征信息的Blog自动摘要方法,包括以下步骤:
步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;
(a)词条特征信息得分
利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为
然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:
(b)语句特征信息得分
所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
;
步骤2)基于潜在语义的评论关注得分
(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;
(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;
步骤3)摘要复选与合并
(a)初次摘要生成
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;
(b)二次摘要的抽取
假定CPS中某个自然段落,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS,其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS,分别计算和这两个集合的相似度;利用TF-IDF将PAS和量化成对应的向量、,直接以余弦相似度来衡量;
以同样的方式计算出NAS和的相似度;如果和中任意一个超过预先设定的阈值,则认为该段落是和其上下文表达的同一主题,并且已经通过上下文的摘要句得到表达,将其从CPS中移除;否则认为该段落是独立表达某个主题,需要从中抽取能够代表该主题的摘要句,即进行二次摘要抽取;
若某个候选自然段落需要进行二次摘要抽取,先根据其所包含句子数量和摘要的抽取比例确定所要抽取的摘要句数量。设r为抽取比例,为段落内的语句数,则抽取数量可表示为,即两者乘积后取下限值;因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分,改进后的词频打分公式如下:
其中为在该段落中出现的频率,PN为博文内的段落数目,为包含词条的段落数目;经过改进后,语句得分更能体现该段落的主题;然后将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为;
对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落二次摘要句集合合并在一起,记为;其中有些段落摘要句集合对应的自然段落在原文中可能是连在一起的,并为表达同一主题服务。对于这些集合需要进行一次相似度计算,并将相似度超过阈值的集合进行合并;经过这样的处理后,得到最终的二次摘要句集合SA:;
(c)合并摘要句
1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
5) 从SA中选择句补充进FA。将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中;对剩下的数量,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中;
步骤4)经过如上处理后,FA即为本发明最终所得到的摘要句集合。
进一步,步骤1(a)中所述因素包括博文词频得分、图的描述信息、标题和标签;
所述标题:标题信息往往是全文的概括,所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性,为其设定加权系数;
进一步,步骤1(b)中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD(奇异值)分解,从而构造每个分类下潜在的词-文档语义空间;计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量;
经过映射处理后,对于某条评论和某个语句的相似度则可以用其语义余弦相似度来衡量,表示如下:
本发明有益效果是:
本发明在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。
附图说明
图1是本发明摘要抽取流程图;
图2是本发明的评论关注关系图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
基于特征信息的Blog自动摘要方法,包括以下步骤:
一、基于特征信息的语句得分
1)词条特征信息得分
标签:如果某个词条出现在标签中,则应该具有一个较高的权重,设为。
2) 语句特征信息得分
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
二、基于潜在语义的评论关注得分
使用Blog评论可以有效提高信息抽取的准确率,同时由于评论体现的是读者对博文中内容的关注点,所以引入评论能够更好地发现读者感兴趣的主题,生成对读者更为友好的摘要。将评论的关注因素引进句子的权重得分计算,使得用来表达读者所关注的主题点的句子更有可能被抽取出来。
为了能够衡量这种关注权重得分需要进行两步处理:1)找出原文中的每个句子被哪些评论所关注以及关注的程度。2)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分。
接下来则需要确定的值。由于评论是由不同的人所提交的,和博文内容之间往往存在着大量的同义噪音,利用词频向量进行相似度计算反映不了真实的相似度。另外由于信息量有限,利用词频信息生成的评论向量和博文语句向量中大部分的元素都为0,存在过于稀疏的问题。基于潜在语义分析(Latent Semantic Analysis,LSA)来计算评论和语句的相似度,可以很好地解决同义噪音问题。LSA将文档从稀疏的高维词汇空间映射到一个低维的向量空间,该向量空间通常被称为隐含语义空间(Latent Semantic Space)。
本方法中,将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD分解,从而构造每个分类下潜在的词-文档语义空间。计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量。
三、摘要复选与合并
1)初次摘要生成
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA(First Abstract)。FA在语句本身的特征权重中同时融入了语句被读者关注的情况,所以其对读者更为友好。
)二次摘要的抽取
假定CPS中某个自然段落,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS,其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS,分别计算和这两个集合的相似度。利用TF-IDF将PAS和量化成对应的向量、,由于这里不存在计算评论相似度时所存在的问题,直接以余弦相似度来衡量。
以同样的方式计算出NAS和的相似度。如果和中任意一个超过预先设定的阈值,则认为该段落是和其上下文表达的同一主题,并且已经通过上下文的摘要句得到表达,将其从CPS中移除。否则认为该段落是独立表达某个主题,需要从中抽取能够代表该主题的摘要句,即进行二次摘要抽取。
若某个候选自然段落需要进行二次摘要抽取,先根据其所包含句子数量和摘要的抽取比例确定所要抽取的摘要句数量。设r为抽取比例,为段落内的语句数,则抽取数量可表示为,即两者乘积后取下限值。因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分,改进后的词频打分公式如下:
其中为在该段落中出现的频率,PN为博文内的段落数目,为包含词条的段落数目。经过改进后,语句得分更能体现该段落的主题。然后将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为。
对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落二次摘要句集合合并在一起,记为。其中有些段落摘要句集合对应的自然段落在原文中可能是连在一起的,并为表达同一主题服务。对于这些集合需要进行一次相似度计算,并将相似度超过阈值的集合进行合并。经过这样的处理后,得到最终的二次摘要句集合SA(second abstract):。
)合并摘要句
第一次的摘要抽取,其保证了大主题的充分体现,但却可能抽取了过多体现同一大主题的类似句子,带来了信息冗余,同时忽略了一些次要主题。第二次的摘要抽取,从那些没有摘要句被选出的自然段落出发,寻找出可能被忽略了的次要主题。本方法通过合并两次抽取出来的摘要来平衡大主题的信息冗余和次要主题的覆盖率。
1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
5) 从SA中选择句补充进FA。将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中。对剩下的数量,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中。
经过如上处理后,FA即为本发明最终所得到的摘要句集合。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所作出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (6)
1.基于特征信息的Blog自动摘要方法,其特征在于,包括以下步骤:
步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;
(a)词条特征信息得分
利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为
然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:
(b)语句特征信息得分
所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
步骤2)基于潜在语义的评论关注得分
(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;
(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;
步骤3)摘要复选与合并
(a)初次摘要生成
在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;
(b)二次摘要的抽取
(c)合并摘要句
1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:
5) 从SA中选择句补充进FA,将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中;对剩下的数量,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中;
步骤4)经过如上处理后,FA即为本发明最终所得到的摘要句集合。
2.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:步骤1(a)中所述因素包括博文词频得分、图的描述信息、标题和标签;
3.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:步骤1(b)中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;
在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:
4.根据权利要求1所述的基于特征信息的Blog自动摘要方法,其特征在于:
将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD分解,从而构造每个分类下潜在的词-文档语义空间;计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210193883.3A CN103246687B (zh) | 2012-06-13 | 2012-06-13 | 基于特征信息的Blog自动摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210193883.3A CN103246687B (zh) | 2012-06-13 | 2012-06-13 | 基于特征信息的Blog自动摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103246687A true CN103246687A (zh) | 2013-08-14 |
CN103246687B CN103246687B (zh) | 2016-08-17 |
Family
ID=48926211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210193883.3A Expired - Fee Related CN103246687B (zh) | 2012-06-13 | 2012-06-13 | 基于特征信息的Blog自动摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103246687B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
WO2015035898A1 (en) * | 2013-09-13 | 2015-03-19 | Tencent Technology (Shenzhen) Company Limited | Method, system and apparatus for adding network comment information |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN105868175A (zh) * | 2015-12-03 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 摘要生成方法及装置 |
CN107273474A (zh) * | 2017-06-08 | 2017-10-20 | 成都数联铭品科技有限公司 | 基于潜在语义分析的自动摘要抽取方法及*** |
CN108052686A (zh) * | 2018-01-26 | 2018-05-18 | 腾讯科技(深圳)有限公司 | 一种摘要提取方法及相关设备 |
CN108108447A (zh) * | 2017-12-27 | 2018-06-01 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108197103A (zh) * | 2017-12-27 | 2018-06-22 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN111651589A (zh) * | 2020-08-10 | 2020-09-11 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
CN112364225A (zh) * | 2020-09-30 | 2021-02-12 | 昆明理工大学 | 一种结合用户评论的司法舆情文本摘要方法 |
CN113673215A (zh) * | 2021-07-13 | 2021-11-19 | 北京搜狗科技发展有限公司 | 文本的摘要生成方法、装置、电子设备及可读介质 |
CN114741499A (zh) * | 2022-06-08 | 2022-07-12 | 杭州费尔斯通科技有限公司 | 一种基于句子语义模型的文本摘要生成方法和*** |
CN114925920A (zh) * | 2022-05-25 | 2022-08-19 | 中国平安财产保险股份有限公司 | 离线位置预测方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080033970A1 (en) * | 2006-08-07 | 2008-02-07 | Chacha Search, Inc. | Electronic previous search results log |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
-
2012
- 2012-06-13 CN CN201210193883.3A patent/CN103246687B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080033970A1 (en) * | 2006-08-07 | 2008-02-07 | Chacha Search, Inc. | Electronic previous search results log |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
Non-Patent Citations (1)
Title |
---|
陈明等: "一种基于特征信息的Blog自动文摘研究", 《计算机应用研究》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10129188B2 (en) | 2013-09-13 | 2018-11-13 | Tencent Technology (Shenzhen) Company Limited | Method, system and apparatus for adding network comment information |
WO2015035898A1 (en) * | 2013-09-13 | 2015-03-19 | Tencent Technology (Shenzhen) Company Limited | Method, system and apparatus for adding network comment information |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN104503958B (zh) * | 2014-11-19 | 2017-09-26 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN105868175A (zh) * | 2015-12-03 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 摘要生成方法及装置 |
CN107273474A (zh) * | 2017-06-08 | 2017-10-20 | 成都数联铭品科技有限公司 | 基于潜在语义分析的自动摘要抽取方法及*** |
CN108197103B (zh) * | 2017-12-27 | 2019-05-17 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108197103A (zh) * | 2017-12-27 | 2018-06-22 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108108447B (zh) * | 2017-12-27 | 2020-12-08 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108108447A (zh) * | 2017-12-27 | 2018-06-01 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108052686A (zh) * | 2018-01-26 | 2018-05-18 | 腾讯科技(深圳)有限公司 | 一种摘要提取方法及相关设备 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN111651589A (zh) * | 2020-08-10 | 2020-09-11 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
CN112364225A (zh) * | 2020-09-30 | 2021-02-12 | 昆明理工大学 | 一种结合用户评论的司法舆情文本摘要方法 |
CN113673215A (zh) * | 2021-07-13 | 2021-11-19 | 北京搜狗科技发展有限公司 | 文本的摘要生成方法、装置、电子设备及可读介质 |
CN114925920A (zh) * | 2022-05-25 | 2022-08-19 | 中国平安财产保险股份有限公司 | 离线位置预测方法、装置、电子设备及存储介质 |
CN114925920B (zh) * | 2022-05-25 | 2024-05-03 | 中国平安财产保险股份有限公司 | 离线位置预测方法、装置、电子设备及存储介质 |
CN114741499A (zh) * | 2022-06-08 | 2022-07-12 | 杭州费尔斯通科技有限公司 | 一种基于句子语义模型的文本摘要生成方法和*** |
CN114741499B (zh) * | 2022-06-08 | 2022-09-06 | 杭州费尔斯通科技有限公司 | 一种基于句子语义模型的文本摘要生成方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN103246687B (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103246687B (zh) | 基于特征信息的Blog自动摘要方法 | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
Al-Kabi et al. | An opinion analysis tool for colloquial and standard Arabic | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
Xu et al. | Using deep linguistic features for finding deceptive opinion spam | |
Velldal et al. | NoReC: The norwegian review corpus | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
Smith et al. | Automatic summarization as means of simplifying texts, an evaluation for swedish | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
Claster et al. | Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis | |
Saad et al. | Extracting comparable articles from wikipedia and measuring their comparabilities | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Hai et al. | Coarse-to-fine review selection via supervised joint aspect and sentiment model | |
Sağlam et al. | Developing Turkish sentiment lexicon for sentiment analysis using online news media | |
González et al. | Siamese hierarchical attention networks for extractive summarization | |
Novotný et al. | Ensembling ten math information retrieval systems | |
JP2006244305A (ja) | クチコミ情報判定方法及び装置及びプログラム | |
Rasheed et al. | Building a text collection for Urdu information retrieval | |
Liu et al. | An Efficient Machine-Generated Data Modeling Approach Based on Domain-Aware Knowledge for Intelligent Consumer Electronics | |
Sharaff et al. | Document Summarization by Agglomerative nested clustering approach | |
Alam et al. | Bangla news trend observation using LDA based topic modeling | |
Vaseeharan et al. | Review on sentiment analysis of twitter posts about news headlines using machine learning approaches and naïve bayes classifier | |
Jeong et al. | Efficient keyword extraction and text summarization for reading articles on smart phone | |
Li et al. | Confidence estimation and reputation analysis in aspect extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160817 Termination date: 20210613 |