发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种网络评论精华文本的获取方和装置,使用计算机程序和算法自动获取精华文本,降低网络管理成本、提高文本获取的精华程度。
为了达到上述目的,本发明提供了一种网络评论精华文本的获取方法,其特征在于包括如下步骤:
S1、提取评论文本中的关键字;
S2、结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
S4、使用统计方法并对标点符号的分布进行处理以计算评论文本中的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高;
S5、采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论文本与历史评论文相似度越高价值越低;
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的标点符号价值以及步骤S5中计算得到的文本相似度价值相乘来计算每一条评论文本文本的得分;
S7、在获取多条评论文的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
进一步,本发明所述的网络评论文本精华文本的获取方法,其特征在于步骤S1的具体过程包括:
S11、对评论文本内容进行分词;
S22、分词后根据停用词表去掉停用词,剩余的则为评论文本内容的关键字。
进一步,本发明所述的网络评论精华文本的获取方法,其特征在于步骤S4的具体过程包括:
S41、统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个符号的分布得分;
S42、对符号分布得分进行处理,形成一个汉字与符号分布曲线;
S43、根据分布曲线计算评论文本中符号因素得分。
进一步,步骤S5的具体过程包括采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度,其中关键字权重值取1;
Dice系数计算公式为:
Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2))
其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
进一步,本发明所述的网络评论精华文本的获取方法,其特征在于对于还可以通过后台管理程序,设定哪些评论文本为精华评论文本,并优先展示。
一种网络评论精华文本的获取装置,其特征在于包括如下模块:
关键字提取模块,用于提取评论文中的关键字;
关键字评论文本库价值获取模块,用于结合关键字所表征意思进行赋值,并通过反文档频率(IDF)计算获取所提取的关键字在评论文本库中价值;
评论文本关键字价值计算模块,用于根据关键字在某一主题下出现的次数以及关键字评论文本库价值获取模块中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算模块,用于使用统计方法并对标点符号的分布进行处理以计算评论文本的标点符号价值,其所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高;
评论文本相似度计算模块,用于采用Dice系数计算评论文本相似度的价值,其所依据的原则是后发表的评论文本与历史评论文本相似度越高价值越低;
评论文本得分计算模块,用于将评论文本关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;
精华评论文本确定模块,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本
本发明所述的网络评论精华文本的获取方法和***采用计算机程序对网络评论下的精华文本进行计算,自动获取出精华评论文本,精华评论文本获取结果真实客观,量大,减少遗漏。评论文本内容可以按照一定得分进行排序,方便对评论文本及相关信息进行筛选,减少人工干预及评论文本维护成本。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
互联网上存在各种各样的主题,有帖子、微博、图片、视频等,对于这些主题,网友通常会不断跟帖进行评论文本,从而产生了大量的评论文本文本。对于不同的主题来讲,由于其评论文本格式是相同的,都是文字内容,因此,对于不同主题,其精华评论文本的获取方式是可以通用的。为此,在具体实施例中,我们以网友对某一视频主题进行评论文本的实施例来描述如何获取精华评论文本。
图1是本发明所述的一种网络评论文本精华文本的获取方法的流程图。
如图1所述,本发明方法具体执行过程如下:
S1、提取评论文本中的关键字;
由于某一主题往往存在很多评论文本,例如对于某一视频,在播出之后,往往存在上千条评论文本,为了获得精华评论文本,需要对每一个评论文本的内容进行分析,为此,针对每一条评论文本,首先要对评论文本内容进行分词,分词后根据停用词表去掉停用词,剩余的则为评论文本内容的关键字。提取这些评论文本关键字,这些关键字代表了评论文本特征。停用词词表中的词,表示这些词对文本意思的影响不大,可以忽略。停用词词表部分来源于互联网,少部分使用统计方法得出,比如统计大规模评论文本中发现后“沙发”这个关键字得分非常低,可以加入停用词词表。此外,更多的停用词,例如:似乎、的、当然等等。
提取评论文本关键字这一步骤核心思想是抽取评论文本句子中的主干,找出影响评论文本内容的主要关键字。这些关键字存在的目的是为了获得精华评论文本计算中评论文本的分值。
举例说明:“和文章什么的对比就没意思了吧”
分词后:和、文章、什么、的、对比、就、没意思、了、吧;
去掉停用词后:文章、对比、没意思。
S2、获取所提取的关键字在评论文本库中价值;
这里的评论文本库是指某一服务提供商所建立的针对所有视频的评论文本数据,例如优酷网中的所有视频,评论文本数据指的是用户观看视频后发表的评论文本。通过评论文本库可以统计出网站评论文本中出现的所有关键字,计算关键字在整个评论文本库中的价值。具体计算示例,比如:“转贴(沙发)”这个关键字可能会在大量的评论文本中出现,而“文本”这个关键字可能只会在少量的评论文本中出现,那么“文本”对评论文本的影响力(价值高)要高于“转帖”,因此,可以在评论文本库中结合关键字的表征意思进行赋值。其中:
关键字在评论文本库中价值(Term Value)是通过反文档频率(IDF)来体现的,计算一个关键字的反文档频率(IDF)的原则是在所有评论文本文档中,出现这个关键字的文档数越多,则关键字价值越低;如果某个词或短语在一篇文本中出现的频率TF高,并且在其他文本中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(TermFrequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
S3、根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
就某一视频来讲,获取关键字在视频下的价值的目的在于计算这个关键字在这个视频中的影响力,可理解为对关键字价值的二次计算,计算这个关键字对某一个视频的影响力。
例如:在步骤S2中计算了评论文本库中所有关键字的价值得分,假设“黄海波”“林心如”的得分均为2.0分。但是在一个视频中(如“媳妇的美好时代”第一集)这两个关键字的价值就会不一样。统计“黄海波”出现6次,“林心如”出现1次,那么“黄海波”=12分、“林心如”=2分。
一条评论文本如果可以被选定为精华评论文本,那么必然有多个关键字
精华评论文本计算公式(f步骤)中的“Video Term value(关键字分数)”可使用各个关键字得分相加
例子:有两条评论文本
“黄海波”“林心如”“演技”“不错”的得分分别是12、2、5、0.1
C1=黄海波演技不错
关键字得分“黄海波”+“演技”+“不错”=12+5+0.1=17.1
C2=林心如演技不错
关键字得分“林心如”+“演技”+“不错”=2+5+0.1=7.1
关键字在一个视频中的价值(Video Term Value)是指视频中不同用户发表关键字出现频率。
S4计算评论文本的标点符号价值;
计算评论文本内容标点符号价值(Sign Value)所依据的原理是评论文本中标点符号越符合规律,那么这条评论文本价值越高。其计算方法为:
统计大规模语料标点符号的分布,以最高得分的为1分,将所有句子的汉字与符号比的分布归一化处理,计算一个标点符号的分布得分;后续需要处理,形成一个汉字与标点符号分布曲线;最后计算评论文本中的汉字符号比,根据计算出来的符号分布结果获取评论文本的标点符号价值得分。
举例:统计300w条句子的中文语料库,统计句子中汉字和符号的比例,设定比率最高的句子的符号得分为1分,其他汉字符号比的句子的得分根据比例算出对应值。
统计结果:
汉字和符号比为10:1的句子为30w最高(表示汉字和符号比是10:1有30w个句子),设定评论文本句子的符号得分为1分。
汉字和符号比为11:1的句子为20w,则11:1的句子得分为1*(20/30)=0.6分
汉字和符号比为9:1的句子为25w,则11:1的句子得分为1*(25/30)约等于0.8分
计算“黄海波的演技很不错啊!”这条评论文本的符号因素得分的过程为:先计算该条评论文本中汉字与标点符号的比例为10:1,则可计算出评论文本的符号因素得分等于1分。
S5、计算评论文本相似度的价值;
评论文本与历史评论文本相似度价值(Similarity Value),即在一个视频下的评论文本与历史评论文本相似度比较。依据的原则是后发表的评论文本与历史评论文本相似度越高价值越低。
采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度,其中关键字权重值取1;
Dice系数计算公式为:
Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2))
其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
S6、将步骤S3中计算得到的关键字价值与步骤S4中得到的符号价值以及步骤S5中计算得到的相似度价值相乘来计算每一条评论文本的得分;
具体来说,在一个视频下的一条评论文本的得分可写为:
评论文本得分=Video Term value(关键字分数)*Sign value(符号因素)*Similarity Value(相似度因素)
同时计算公式可以进行扩展:
评论文本得分=关键字因素*符号因素*相似度因素*其它因素1*其它因素2……
其它因素是例如标题、用户、视频简介等信息对评论文本得分的影响。
S7、在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
在获取多条评论文本的得分之后,按照分数高低在视频播放页显示,取得分超过一定阈值的评论文本作为精华评论文本。
此外,还可以人工干预精华评论文本,人工干预的是通过后台管理程序,设定哪些评论文本为精华评论文本,并优先展示。
例如下面的例子的精华评论文本C1和C3,人工设定C4为精华评论文本
那么最后精华评论文本的展示结果为:C4,C1,C3
下面通过一个对具体视频进行精华评论文本提取的具体例子来详细描述本发明的执行过程,以便于本领域技术人员清楚整个过程:
步骤S2中关键字在评论文本库中价值是在进行精华评论文本计算前已经算好的,在评论文本库中统计所有评论文本语料即可得到。
假设黄海波=4分,演技=2.5分,不错=0.1分
假设某一个视频有6条评论文本(真实进行精华评论文本的评论文本数至少300条,多则上万)
(用户1)C1=黄海波的演技不错。
(用户2)C2=。。。。。。。。。
(用户3)C3=这个电视剧里面的黄海波是个好人!
(用户4)C4=上面的男主角也有自己的风格。。。。。。。。。。。。。。。
(用户5)C5=黄海波演技很好。
(用户1)C6=黄海波
分词、提取关键字后得:
黄海波演技不错
NULL(没有关键字)
电视剧里面黄海波好人
上面男主角自己风格
黄海波演技很好
关键字得分
黄海波=4*3=12(关键字价值*在视频中出现的次数,一个用户的关键字只算一次,比如C6中的不计算在内)
演技=2.5*2=5
不错=0.1*1=0.1
那么每条评论文本的初步的分
C1=“黄海波”+“演技”+“不错”=12+5+0.1=17.1
C2=0
C3=19
C4=14
C5=17.2
计算符号得分
C1=1,C2=0,C3=1,C4=0.3,C5=1
计算相似度得分
C1=1
C2=1
C3=0.7(与C1最相似,相似度为0.3,最后相似度系数得分:1-0.3=0.7分)
C4=1
C5=0.3
最后得分
C1=17.1*1*1=17.1
C2=0
C3=19*1*0.7=13.3
C4=14*0.3=4.2
C5=17.2*1*0.3=5.2
最后排序
C1>C3>C5>C4>C2
根据阈值设定取前面的2条(假设阈值设定为10),取得分超过10的评论文本作为精华评论文本。
本发明技术方案可以在一单独装置中实现,由此也可以获得一种能够完成此技术方案的实体装置,图2是本发明所述的网络评论文本精华文本的获取装置的框图;具体包括如下模块:
关键字提取模块,用于提取评论文本中的关键字;
关键字评论文本库价值获取模块,用于获取所提取的关键字在评论文本库中价值;
评论文本关键字价值计算模块,用于根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算模块,用于计算评论文本的标点符号价值;
评论文本相似度计算模块,用于计算评论文本相似度的价值;
评论文本得分计算模块,用于将评论文本关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的相似度价值相乘来计算每一条评论文本的得分;
精华评论文本确定模块,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
此外,本发明也可以通过分离的各个装置来协同完成,由此可以获得一种能够完成此技术方案的***,图3是本发明所述的网络评论文本精华文本的获取***的框图,具体包括如下装置:
关键字提取装置,用于提取评论文本中的关键字;
关键字评论文本库价值获取装置,用于获取所提取的关键字在评论文本库中价值;
评论文本关键字价值计算装置,用于根据关键字在某一主题下出现的次数以及步骤S2中获取的关键字在评论文本库中的价值计算关键字在该主题下的价值;
评论文本标点符号价值计算装置,用于计算评论文本的标点符号价值;
评论文本相似度计算装置,用于计算评论文本相似度的价值;
评论文本得分计算装置,用于将评论文本关键字价值计算模块中计算得到的关键字价值与评论文本标点符号价值计算模块中得到的符号价值以及评论文本相似度计算模块中计算得到的文本相似度价值相乘来计算每一条评论文本的得分;
精华评论文本确定装置,用于在获取多条评论文本的得分之后,取得分超过一定阈值的评论文本作为精华评论文本。
综上所述,本发明提供的一种网络评论精华文本的获取方法和装置,其采用新的技术方案是对视频下的所有评论文本使用程序自动分析计算,得出一个评论文本的精华度的得分列表;同时精华评论文本计算可以防止出现同一用户灌水行为或者多用户发相似内容等问题,评论文本的分数计算结果具有一定的公平性;适用于对一些比较优秀的评论文本在视频播放页评论文本区域上进行展现。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,例如调整接口调用顺序、改变消息格式和内容、使用不同的编程语言(如C、C++、Java等)实现等。这些都在本发明的权利要求所限定的保护范围内。