CN102682120B - 一种网络评论精华文本的获取方法和装置 - Google Patents

一种网络评论精华文本的获取方法和装置 Download PDF

Info

Publication number
CN102682120B
CN102682120B CN201210151075.0A CN201210151075A CN102682120B CN 102682120 B CN102682120 B CN 102682120B CN 201210151075 A CN201210151075 A CN 201210151075A CN 102682120 B CN102682120 B CN 102682120B
Authority
CN
China
Prior art keywords
comment
text
comment text
value
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210151075.0A
Other languages
English (en)
Other versions
CN102682120A (zh
Inventor
陈学文
张宇峰
姚健
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201210151075.0A priority Critical patent/CN102682120B/zh
Publication of CN102682120A publication Critical patent/CN102682120A/zh
Application granted granted Critical
Publication of CN102682120B publication Critical patent/CN102682120B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网络评论文本精华文本的获取方法和装置,所述方法包括步骤:S1、提取评论文本中的关键字;S2、结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;S4、计算评论文本中的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高;S5、计算评论文本相似度的价值,其所依据的原则是后发表的评论文本与历史评论文本文本相似度越高价值越低;S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的标点符号价值以及步骤S5中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;S7、在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。本发明通过使用计算机程序和算法自动获取精华文本,降低网络管理成本、提高文本获取精度。

Description

一种网络评论精华文本的获取方法和装置
技术领域
本发明属于文本分析技术领域,尤其涉及一种网络评论精华文本的获取方法和装置。
背景技术
随着互联网技术的发展,以WEB2.0为基础的互联网应用越来越普及,用户个人可以在互联网上以个人名义进行文本的发布、观点的表达,由此也导致互联网上的信息成指数性增长。当然,这当中可能也包含了很多垃圾信息。因此,如何在如此之多的信息中获得有用的、精华的内容,是人们普遍关心的问题。而现有技术中获取某一主题的相关精华评论文本主要采用以下三种方式:
1、管理者标记精华评论文本。这种方式局限于管理者的人工干预,所以难免出现只会有部分的视频有精华评论文本标记,且标记评论文本的过程主观性强,而且对于突发性强的视频评论文本精华评论文本标记时间过长,比如某个同步播放的电视剧当天评论文本有存在上千条,则不能快速响应。而且,采用这种方式对于人力资源的依赖度比较高,而且缺乏足够的客观性,错漏率比较高。因此,不单管理成本较高,而且实际效果也不好。
2、使用***统计回复数量的方式来计算精华评论文本。这种方式局限于用户对于评论文本的参与情况,而且采用此方式精华标记的评论文本不一定具有精华性质,受到人为干预影响较大,比如说:争论、回答问题等。因此,这种方式所反馈出来的结果往往并不客观,用户体验比较差。
3、使用“赞同反对”“顶踩”等投票方式计算精华。这种方式局限于用户对于评论文本的参与情况,且当大量信息评论文本涌现后,用户只针对前几页的评论文本有兴趣,而对早期评论文本的关注度会较少。因此,这种方式所反馈出来的结果往往较为片面,而不能把客观事实完全地反馈给用户,容易让用户错失了重要的信息。
以上的评论文本计算方式都存在一定的局限性,且有精华评论文本标记遗漏的可能。
发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种网络评论精华文本的获取方和装置,使用计算机程序和算法自动获取精华文本,降低网络管理成本、提高文本获取的精华程度。
为了达到上述目的,本发明提供了一种网络评论精华文本的获取方法,其特征在于包括如下步骤:
S1、提取评论文本中的关键字;
S2、结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
S4、使用统计方法并对标点符号的分布进行处理以计算评论文本中的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高;
S5、采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论文本与历史评论文相似度越高价值越低;
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的标点符号价值以及步骤S5中计算得到的文本相似度价值相乘来计算每一条评论文本文本的得分;
S7、在获取多条评论文的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
进一步,本发明所述的网络评论文本精华文本的获取方法,其特征在于步骤S1的具体过程包括:
S11、对评论文本内容进行分词;
S22、分词后根据停用词表去掉停用词,剩余的则为评论文本内容的关键字。
进一步,本发明所述的网络评论精华文本的获取方法,其特征在于步骤S4的具体过程包括:
S41、统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个符号的分布得分;
S42、对符号分布得分进行处理,形成一个汉字与符号分布曲线;
S43、根据分布曲线计算评论文本中符号因素得分。
进一步,步骤S5的具体过程包括采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度,其中关键字权重值取1;
Dice系数计算公式为:
Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2))
其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
进一步,本发明所述的网络评论精华文本的获取方法,其特征在于对于还可以通过后台管理程序,设定哪些评论文本为精华评论文本,并优先展示。
一种网络评论精华文本的获取装置,其特征在于包括如下模块:
关键字提取模块,用于提取评论文中的关键字;
关键字评论文本库价值获取模块,用于结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;
评论文本关键字价值计算模块,用于根据关键字在某一主题下出现的次数以及关键字评论文本库价值获取模块中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算模块,用于使用统计方法并对标点符号的分布进行处理以计算评论文本的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高;
评论文本相似度计算模块,用于采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论文本与历史评论文本相似度越高价值越低;
评论文本得分计算模块,用于将评论文本关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;
精华评论文本确定模块,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本
本发明所述的网络评论精华文本的获取方法和***采用计算机程序对网络评论下的精华文本进行计算,自动获取出精华评论文本,精华评论文本获取结果真实客观,量大,减少遗漏。评论文本内容可以按照一定得分进行排序,方便对评论文本及相关信息进行筛选,减少人工干预及评论文本维护成本。
附图说明
图1是本发明所述的网络评论精华文本的获取方法的流程图;
图2是本发明所述的网络评论精华文本的获取装置的框图;
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
互联网上存在各种各样的主题,有帖子、微博、图片、视频等,对于这些主题,网友通常会不断跟帖进行评论文本,从而产生了大量的评论文本文本。对于不同的主题来讲,由于其评论文本格式是相同的,都是文字内容,因此,对于不同主题,其精华评论文本的获取方式是可以通用的。为此,在具体实施例中,我们以网友对某一视频主题进行评论文本的实施例来描述如何获取精华评论文本。
图1是本发明所述的一种网络评论文本精华文本的获取方法的流程图。
如图1所述,本发明方法具体执行过程如下:
S1、提取评论文本中的关键字;
由于某一主题往往存在很多评论文本,例如对于某一视频,在播出之后,往往存在上千条评论文本,为了获得精华评论文本,需要对每一个评论文本的内容进行分析,为此,针对每一条评论文本,首先要对评论文本内容进行分词,分词后根据停用词表去掉停用词,剩余的则为评论文本内容的关键字。提取这些评论文本关键字,这些关键字代表了评论文本特征。停用词词表中的词,表示这些词对文本意思的影响不大,可以忽略。停用词词表部分来源于互联网,少部分使用统计方法得出,比如统计大规模评论文本中发现后“沙发”这个关键字得分非常低,可以加入停用词词表。此外,更多的停用词,例如:似乎、的、当然等等。
提取评论文本关键字这一步骤核心思想是抽取评论文本句子中的主干,找出影响评论文本内容的主要关键字。这些关键字存在的目的是为了获得精华评论文本计算中评论文本的分值。
举例说明:“和文章什么的对比就没意思了吧”
分词后:和、文章、什么、的、对比、就、没意思、了、吧;
去掉停用词后:文章、对比、没意思。
S2、获取所提取的关键字在评论文本库中价值;
这里的评论文本库是指某一服务提供商所建立的针对所有视频的评论文本数据,例如优酷网中的所有视频,评论文本数据指的是用户观看视频后发表的评论文本。通过评论文本库可以统计出网站评论文本中出现的所有关键字,计算关键字在整个评论文本库中的价值。具体计算示例,比如:“转贴(沙发)”这个关键字可能会在大量的评论文本中出现,而“文本”这个关键字可能只会在少量的评论文本中出现,那么“文本”对评论文本的影响力(价值高)要高于“转帖”,因此,可以在评论文本库中结合关键字的表征意思进行赋值。其中:
关键字在评论文本库中价值(Term Value)是通过反文档频率(IDF)来体现的,计算一个关键字的反文档频率(IDF)的原则是在所有评论文本文档中,出现这个关键字的文档数越多,则关键字价值越低;如果某个词或短语在一篇文本中出现的频率TF高,并且在其他文本中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(TermFrequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
就某一视频来讲,获取关键字在视频下的价值的目的在于计算这个关键字在这个视频中的影响力,可理解为对关键字价值的二次计算,计算这个关键字对某一个视频的影响力。
例如:在步骤S2中计算了评论文本库中所有关键字的价值得分,假设“黄海波”“林心如”的得分均为2.0分。但是在一个视频中(如“媳妇的美好时代”第一集)这两个关键字的价值就会不一样。统计“黄海波”出现6次,“林心如”出现1次,那么“黄海波”=12分、“林心如”=2分。
一条评论文本如果可以被选定为精华评论文本,那么必然有多个关键字
精华评论文本计算公式(f步骤)中的“Video Term value(关键字分数)”可使用各个关键字得分相加
例子:有两条评论文本
“黄海波”“林心如”“演技”“不错”的得分分别是12、2、5、0.1
C1=黄海波演技不错
关键字得分“黄海波”+“演技”+“不错”=12+5+0.1=17.1
C2=林心如演技不错
关键字得分“林心如”+“演技”+“不错”=2+5+0.1=7.1
关键字在一个视频中的价值(Video Term Value)是指视频中不同用户发表关键字出现频率。
S4计算评论文本的标点符号价值;
计算评论文本内容标点符号价值(Sign Value)所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高。其计算方法为:
统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个标点符号的分布得分;后续需要处理,形成一个汉字与标点符号分布曲线;最后计算评论文本中的汉字符号比,根据计算出来的符号分布结果获取评论文本的标点符号价值得分。
举例:统计300w条句子的中文语料库,统计句子中汉字和符号的比例,设定比率最高的句子的符号得分为1分,其他汉字符号比的句子的得分根据比例算出对应值。
统计结果:
汉字和符号比为10:1的句子为30w最高(表示汉字和符号比是10:1有30w个句子),设定评论文本句子的符号得分为1分。
汉字和符号比为11:1的句子为20w,则11:1的句子得分为1*(20/30)=0.6分
汉字和符号比为9:1的句子为25w,则11:1的句子得分为1*(25/30)约等于0.8分
计算“黄海波的演技很不错啊!”这条评论文本的符号因素得分的过程为:先计算该条评论文本中汉字与标点符号的比例为10:1,则可计算出评论文本的符号因素得分等于1分。
S5、计算评论文本相似度的价值;
评论文本与历史评论文本相似度价值(Similarity Value),即在一个视频下的评论文本与历史评论文本相似度比较。依据的原则是后发表的评论文本与历史评论文本相似度越高价值越低。
采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度,其中关键字权重值取1;
Dice系数计算公式为:
Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2))
其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的符号价值以及步骤S5中计算得到的相似度价值相乘来计算每一条评论文本的得分;
具体来说,在一个视频下的一条评论文本的得分可写为:
评论文本得分=Video Term value(关键字分数)*Sign value(符号因素)*Similarity Value(相似度因素)
同时计算公式可以进行扩展:
评论文本得分=关键字因素*符号因素*相似度因素*其它因素1*其它因素2……
其它因素是例如标题、用户、视频简介等信息对评论文本得分的影响。
S7、在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
在获取多条评论文本的得分之后,按照分数高低在视频播放页显示,取得分超过一定阈值的评论文本作为精华评论文本。
此外,还可以人工干预精华评论文本,人工干预的是通过后台管理程序,设定哪些评论文本为精华评论文本,并优先展示。
例如下面的例子的精华评论文本C1和C3,人工设定C4为精华评论文本
那么最后精华评论文本的展示结果为:C4,C1,C3
下面通过一个对具体视频进行精华评论文本提取的具体例子来详细描述本发明的执行过程,以便于本领域技术人员清楚整个过程:
步骤S2中关键字在评论文本库中价值是在进行精华评论文本计算前已经算好的,在评论文本库中统计所有评论文本语料即可得到。
假设黄海波=4分,演技=2.5分,不错=0.1分
假设某一个视频有6条评论文本(真实进行精华评论文本的评论文本数至少300条,多则上万)
(用户1)C1=黄海波的演技不错。
(用户2)C2=。。。。。。。。。
(用户3)C3=这个电视剧里面的黄海波是个好人!
(用户4)C4=上面的男主角也有自己的风格。。。。。。。。。。。。。。。
(用户5)C5=黄海波演技很好。
(用户1)C6=黄海波
分词、提取关键字后得:
黄海波演技不错
NULL(没有关键字)
电视剧里面黄海波好人
上面男主角自己风格
黄海波演技很好
关键字得分
黄海波=4*3=12(关键字价值*在视频中出现的次数,一个用户的关键字只算一次,比如C6中的不计算在内)
演技=2.5*2=5
不错=0.1*1=0.1
那么每条评论文本的初步的分
C1=“黄海波”+“演技”+“不错”=12+5+0.1=17.1
C2=0
C3=19
C4=14
C5=17.2
计算符号得分
C1=1,C2=0,C3=1,C4=0.3,C5=1
计算相似度得分
C1=1
C2=1
C3=0.7(与C1最相似,相似度为0.3,最后相似度系数得分:1-0.3=0.7分)
C4=1
C5=0.3
最后得分
C1=17.1*1*1=17.1
C2=0
C3=19*1*0.7=13.3
C4=14*0.3=4.2
C5=17.2*1*0.3=5.2
最后排序
C1>C3>C5>C4>C2
根据阈值设定取前面的2条(假设阈值设定为10),取得分超过10的评论文本作为精华评论文本。
本发明技术方案可以在一单独装置中实现,由此也可以获得一种能够完成此技术方案的实体装置,图2是本发明所述的网络评论文本精华文本的获取装置的框图;具体包括如下模块:
关键字提取模块,用于提取评论文本中的关键字;
关键字评论文本库价值获取模块,用于获取所提取的关键字在评论文本库中价值;
评论文本关键字价值计算模块,用于根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算模块,用于计算评论文本的标点符号价值;
评论文本相似度计算模块,用于计算评论文本相似度的价值;
评论文本得分计算模块,用于将评论文本关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的相似度价值相乘来计算每一条评论文本的得分;
精华评论文本确定模块,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
此外,本发明也可以通过分离的各个装置来协同完成,由此可以获得一种能够完成此技术方案的***,图3是本发明所述的网络评论文本精华文本的获取***的框图,具体包括如下装置:
关键字提取装置,用于提取评论文本中的关键字;
关键字评论文本库价值获取装置,用于获取所提取的关键字在评论文本库中价值;
评论文本关键字价值计算装置,用于根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算装置,用于计算评论文本的标点符号价值;
评论文本相似度计算装置,用于计算评论文本相似度的价值;
评论文本得分计算装置,用于将评论文本关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;
精华评论文本确定装置,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
综上所述,本发明提供的一种网络评论精华文本的获取方法和装置,其采用新的技术方案是对视频下的所有评论文本使用程序自动分析计算,得出一个评论文本的精华度的得分列表;同时精华评论文本计算可以防止出现同一用户灌水行为或者多用户发相似内容等问题,评论文本的分数计算结果具有一定的公平性;适用于对一些比较优秀的评论文本在视频播放页评论文本区域上进行展现。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,例如调整接口调用顺序、改变消息格式和内容、使用不同的编程语言(如C、C++、Java等)实现等。这些都在本发明的权利要求所限定的保护范围内。

Claims (6)

1.一种网络评论精华文本的获取方法,其特征在于包括如下步骤:
S1、提取评论文本中的关键字;
S2、结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论库中的价值计算关键字在该主题下的价值;
S4、使用统计方法并对标点符号的分布进行处理以计算评论文本中的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论价值越高;
S5、采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论与历史评论文本相似度越高价值越低;
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的标点符号价值以及步骤S5中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;
S7、在获取多条评论文本的得分之后,取得分超过一定阈值的评论作为精华评论文本。
2.根据权利要求1所述的网络评论精华文本的获取方法,其特征在于步骤S1的具体过程包括:
S11、对评论文本内容进行分词;
S22、分词后根据停用词表去掉停用词,剩余的则为评论文本内容的关键字。
3.根据权利要求1所述的网络评论精华文本的获取方法,其特征在于步骤S4的具体过程包括:
S41、统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个符号的分布得分;
S42、对符号分布得分进行处理,形成一个汉字与符号分布曲线;
S43、根据分布曲线计算评论中符号因素得分。
4.根据权利要求1或3所述的网络评论精华文本的获取方法,其特征在于步骤S5的具体过程包括采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度,其中关键字权重值取1;
Dice系数计算公式为:
Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2))
其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
5.根据权利要求1所述的网络评论精华文本的获取方法,其特征在于对于还可以通过后台管理程序,设定哪些评论文本为精华评论文本,并优先展示。
6.一种网络评论精华文章的获取装置,其特征在于包括如下模块:
关键字提取模块,用于提取评论文本中的关键字;
关键字评论库价值获取模块,用于结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论库中价值;
评论文本关键字价值计算模块,用于根据关键字在某一主题下出现的次数以及关键字评论库价值获取模块中获取的关键字在评论库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算模块,用于使用统计方法并对标点符号的分布进行处理以计算评论的标点符号价值,其所依据的原理是评论中标点符号越符合规律,那么这条评论价值越高;
评论文本相似度计算模块,用于采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论与历史评论文本相似度越高价值越低;
评论文本得分计算模块,用于将评论关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的文本相似度价值相乘来计算每一条评论的得分;
精华评论文本确定模块,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
CN201210151075.0A 2012-05-15 2012-05-15 一种网络评论精华文本的获取方法和装置 Expired - Fee Related CN102682120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210151075.0A CN102682120B (zh) 2012-05-15 2012-05-15 一种网络评论精华文本的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210151075.0A CN102682120B (zh) 2012-05-15 2012-05-15 一种网络评论精华文本的获取方法和装置

Publications (2)

Publication Number Publication Date
CN102682120A CN102682120A (zh) 2012-09-19
CN102682120B true CN102682120B (zh) 2015-06-03

Family

ID=46814045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210151075.0A Expired - Fee Related CN102682120B (zh) 2012-05-15 2012-05-15 一种网络评论精华文本的获取方法和装置

Country Status (1)

Country Link
CN (1) CN102682120B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678416A (zh) * 2012-09-26 2014-03-26 杨裴生 网络新闻及信息的阅读互动***
CN104714939B (zh) * 2013-12-13 2017-09-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配***及方法
CN105630793A (zh) * 2014-10-28 2016-06-01 阿里巴巴集团控股有限公司 信息权重的确定方法和装置
CN105446602B (zh) * 2015-11-24 2019-04-16 努比亚技术有限公司 定位文章关键词的装置和方法
CN107301200A (zh) * 2017-05-23 2017-10-27 合肥智权信息科技有限公司 一种基于情感倾向分析的文章评估方法和***
CN107818173B (zh) * 2017-11-15 2021-05-14 电子科技大学 一种基于向量空间模型的中文虚假评论过滤方法
CN110276065A (zh) * 2018-03-15 2019-09-24 北京京东尚科信息技术有限公司 一种处理物品评论的方法和装置
CN109829165A (zh) * 2019-02-11 2019-05-31 杭州乾博科技有限公司 一种自媒体文章价值评估方法及***
CN110674256B (zh) * 2019-09-25 2023-05-12 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及***
CN111782761B (zh) * 2020-05-12 2023-10-31 北京达佳互联信息技术有限公司 评论信息的确定方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN101739416A (zh) * 2008-11-04 2010-06-16 未序网络科技(上海)有限公司 多指标综合权重视频排序方法
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN102254038B (zh) * 2011-08-11 2013-01-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的***及其分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739416A (zh) * 2008-11-04 2010-06-16 未序网络科技(上海)有限公司 多指标综合权重视频排序方法
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及***

Also Published As

Publication number Publication date
CN102682120A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及***
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
Shimada et al. Analyzing tourism information on twitter for a local city
CN103761239B (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN106980692A (zh) 一种基于微博特定事件的影响力计算方法
CN106484829B (zh) 一种微博排序模型的建立及微博多样性检索方法
Kothari et al. Detecting comments on news articles in microblogs
Chatzakou et al. Harvesting opinions and emotions from social media textual resources
CN102096680A (zh) 信息有效性分析的方法和装置
CN104268192B (zh) 一种网页信息提取方法、装置及终端
Bora Summarizing public opinions in tweets
WO2014048479A1 (en) A system and method for the automatic creation or augmentation of an electronically rendered publication document
CN103544321A (zh) 用于微博情感信息的数据处理方法和装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和***
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及***
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN109299865A (zh) 基于语义分析的心理测评***及方法、信息数据处理终端
CN103577405A (zh) 基于兴趣分析的微博博主社区分类方法
CN106227768A (zh) 一种基于互补语料的短文本观点挖掘方法
CN103810170A (zh) 交流平台文本分类方法及装置
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200623

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150603

Termination date: 20210515