CN107291780A - 一种用户评论信息展示方法和装置 - Google Patents
一种用户评论信息展示方法和装置 Download PDFInfo
- Publication number
- CN107291780A CN107291780A CN201610225381.2A CN201610225381A CN107291780A CN 107291780 A CN107291780 A CN 107291780A CN 201610225381 A CN201610225381 A CN 201610225381A CN 107291780 A CN107291780 A CN 107291780A
- Authority
- CN
- China
- Prior art keywords
- information
- comment
- comment information
- target
- quality classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种用户评论信息展示方法和装置,其中所述方法包括:获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类;对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量;根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类;根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。采用本发明,可实现将评论质量更高的评论信息优先曝光。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种用户评论信息展示方法和装置。
背景技术
随着互联网技术的飞速发展,除了传统的广播、电视之外,互联网成为一种更为重要的一种取资讯传播渠道,人们习惯于从互联网上获取资讯,并且通常习惯于在互联网上发表相关评论,分享心得或体会,同时用户评论本身也成为一种重要的资讯,人们从其他用户发表的评论可以获得更多更贴近需要的资讯,而庞大的互联网用户基数,带来巨大的评论数量,用户往往不能快速的从海量评论中找到自己所需要的资讯内容。
现有技术在展示评论时,会根据该评论是否有追加评论、是否上传相关图片、用户等级等一些附加的因素来将一些用户评论置顶处理,往往一些评论内容质量实际很高的用户评论会被埋没,让用户错失这些宝贵的信息,也让认真评论的用户得不到相应的关注。
发明内容
有鉴于此,本发明实施例提供一种用户评论信息展示方法和装置,可实现对根据评论内容对用户评论进行质量分类,进而将高质量的用户评论优先展示。
为了解决上述技术问题,本发明实施例提供了一种用户评论信息展示方法,所述方法包括:
获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类;
对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量;
根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类;
根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
相应地,本发明实施例还提供了一种用户评论信息展示装置,所述装置包括:
评论数据获取模块,用于获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类;
特征空间模块,用于对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量;
质量分类模块,用于根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类;
评论展示模块,用于根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
本实施例中通过将多个评论信息的质量分类结果和各个评论信息的文本分词特征向量作为训练样本,训练得到最逼近所述训练样本的质量分类模型,进而可以根据训练得到的质量分类模型对目标评论信息的评论质量进行评估,从而确定目标评论信息的展示排序,实现了将评论质量更高的评论信息优先曝光,给用户在浏览对应资讯时提供高质量的参考意见和评论,更可以有效提高评论信息所对应资讯的使用转化率,例如资讯跳转率或资源下载率等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种用户评论信息展示方法的流程示意图;
图2是本发明另一实施例中的用户评论信息展示方法的流程示意图;
图3是本发明另一实施例中的用户评论信息展示方法的流程示意图;
图4是本发明实施例中的一种用户评论信息展示装置的结构示意图;
图5是本发明实施例中特征空间模块的结构示意图;
图6是本发明实施例中质量分类模块的结构示意图;
图7是本发明实施例中评论展示模块的结构示意图;
图8是本发明实施例中垃圾评论过滤模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的用户评论信息展示方法和装置,可以实现于进行资讯发布的网络节点服务器,在发布资讯的同时,可以展示用户针对相关资讯的评论,所述资讯可以是新闻、消息、文章、报道,还可以是针对应用资讯、多媒体资讯等各种网络资源的信息。
图1是本发明实施例中的一种用户评论信息展示方法的流程示意图,如图所示本实施例中的用户评论信息展示方法流程包括以下步骤:
S101,获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类。
具体的,所述各个评论信息的质量分类可以是本发明实施例中的用户评论信息展示装置预先获取到的,在可选实施例中可以为通过人工标注或用户投票等方式得到的,还可以是从第三方得到的质量分类结果,所述质量分类可以包括至少两种不同质量优劣的分类,例如包括精彩评论分类、中肯评论分类、一般评论分类、无意义评论分类,还例如可以从优到劣分为第一分类、第二分类以及第三分类等。所述多个评论信息可以是任意多个评论信息,也可以是针对指定类型的资讯的评论信息,例如针对游戏应用这一资讯类型的评论信息、针对即时通讯应用这一资讯类型的评论信息,或针对八卦新闻这一资讯类型的评论信息,等等。在可选实施例中,如果S101步骤中获取的是针对某一指定类型的资讯的多个评论信息,那么本实施例后续也应该对针对该类型的资讯的目标评论信息进行质量分类和展示排序。
S102,对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
具体实现中,本发明实施例中的用户评论信息展示装置可以对各个评论信息进行全模式分词或搜索分词等方式的分词处理,得到所述多个评论信息中包含的文本分词特征。此外在分词处理之前还可以对评论信息内容进行预处理,例如乱码过滤、标点过滤、汉字繁简转换、分词、停用词过滤等。例如用户评论信息包括:
1)"个人感觉这款游戏各方面做的都挺不错的";
2)"至今用的最好的一款宝,界面清晰";
3)"软件界面不是很好,看着冷清,希望更新的时候做个暖色调的"。
经过分词后可以分别得到以下文本分词特征:
1)['个人','感觉','这款','游戏','各方面','挺不错'];
2)['至今','用的','最好','一款','宝','界面','清晰'];
3)['软件','界面','不是','很好','看着','冷清','希望','更新','时候','做个','暖色调']
进而根据获取到的所述多个评论信息中包含的文本分词特征,构造文本分词特征空间,每一个得到的文本分词特征都代表一个方向,从而也就得到各个评论信息的文本分词特征向量(若某个评论信息包含某一个文本分词特征,则在该文本分词特征的空间方向上的向量值为1,否则为0)。
S103,根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类。
具体实现中,获取所述目标评论信息的质量分类可以包括:将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练,得到最逼近所述训练样本的质量分类模型;S104,根据经过训练得到的所述质量分类模型和所述目标评论信息的文本分词特征向量获取所述目标评论信息的质量分类。
具体实现中,用户评论信息展示装置可以通过附加树extra-trees算法、支持向量机SVM(Support Vector Machine)算法或随机森林RandomForest算法对评论信息的质量分类模型进行训练。下面以随机森林算法为例进行介绍:
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。顾名思义是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。本发明实施例中,通过所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对随机森林分类器进行训练,从而可以得到最贴近训练样本结果的随机森林分类算法模型。在可选实施例中,可以采用scikit中的randomforestclassifier,详细训练过程如下:
(1)首先调用接口corpora.Dictionary.load,加载上述特征空间文件,得到训练样本的csc稀疏矩阵(Sparse Matrix)X(本实施例中即为某个评论信息的文本分词特征向量),同时得到样本矩阵对应的目标标签向量Y(本实施例中即为某个评论信息的质量分类);
(2)构造随机森林:自定义训练的随机森林的树的棵树,例如随机森林包含30棵树,调用sklearn.ensemble.RandomForestClassifier的接口fit函数,传入参数X、Y,进行训练从而可以得到最贴近训练样本结果的随机森林模型。
在其他可选实施例中,可以采用附加树extra-trees算法、支持向量机SVM(Support Vector Machine)算法对评论信息的质量分类模型进行训练,本发明实施例不再一一详细进行介绍。
本发明对评论信息的质量分类模型的原理在于,从语义角度根据用户评论文本内容优质度对评论进行质量分类,挖掘出有参考价值的精彩评论。通过分析已质量分类的评论信息中包含的文本分词特征,可以估计包含了特定文本分词特征的评论信息的评论质量。尤其针对特定类型的资讯,包含某一些与该特定类型资讯对应的关键分词特征的评论信息通常有较高概率是高质量评论,例如在针对应用app资讯的评论信息中,当用户的评论涉及到与app属性相关的关键特征时,则具有较高概率分类到高质量评论;如当“购物”类app的评论中提到了“折扣”“比价”“优惠”时,当“金融理财”类的app提到了关于“收益”“基金”“股票”“汇率”时,这些评论具有较高概率成为“购物”“金融理财”类app的的高质量评论。
具体的,用户评论信息展示装置可以对所述目标评论信息进程分词处理后,根据S102中构造的文本分词特征空间得到目标评论信息的文本分词特征向量,进而将目标文本分词特征向量代入所述经过训练的最逼近所述训练样本的质量分类模型,从而对目标评论信息进行质量分类。
进而在其他可选实施例中,用户评论信息展示装置还可以通过其他算法根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类,例如采用求线性相关拟合参数推导,或采用其他的多分类算法模型,均是本领域技术人员通过本发明实施例的启发下可以直接实施并实现本发明的发明目的的。
S104,根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
在可选实施例中,可以在目标评论信息所对应资讯的评论页面中根据各个评论信息的质量分类,将质量更高的评论信息优先展示,例如将精彩评论置顶展示,又如可以首先展示精彩评论,然后依次展示中肯评论、一般评论和无意义评论,从而根据目标评论的质量分类,确定目标评论信息在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
而在可选实施例中,用户评论信息展示装置可以结合所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息等维度,综合评价目标评论信息的质量分值,进而再根据综合评价的质量分值确定所述目标评论信息的展示排序,这将在后续实施例中详细介绍。
本实施例中的用户评论信息展示装置通过将多个评论信息的质量分类结果和各个评论信息的文本分词特征向量作为训练样本,训练得到最逼近所述训练样本的质量分类模型,进而可以根据训练得到的质量分类模型对目标评论信息的评论质量进行评估,从而确定目标评论信息的展示排序,实现了将评论质量更高的评论信息优先曝光,给用户在浏览对应资讯时提供高质量的参考意见和评论,更可以有效提高评论信息所对应资讯的使用转化率,例如资讯跳转率或资源下载率等。
图2是本发明另一实施例中的一种用户评论信息展示方法的流程示意图,如图所示本实施例中的用户评论信息展示方法流程包括以下步骤:
S201,获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类。
具体的,所述各个评论信息的质量分类可以是本发明实施例中的用户评论信息展示装置预先获取到的,在可选实施例中可以为通过人工标注或用户投票等方式得到的,还可以是从第三方得到的质量分类结果,所述质量分类可以包括至少两种不同质量优劣的分类,例如包括精彩评论分类、中肯评论分类、一般评论分类、无意义评论分类,还例如可以从优到劣分为第一分类、第二分类以及第三分类等。所述多个评论信息可以是任意多个评论信息,也可以是针对指定类型的资讯的评论信息,例如针对游戏应用这一资讯类型的评论信息、针对即时通讯应用这一资讯类型的评论信息,或针对八卦新闻这一资讯类型的评论信息,等等。
S202,对所述多个评论信息进行文本分词特征提取,获取文本分词特征提取得到的多个文本分词特征,统计各个文本分词特征的分词频率信息,所述分词频率信息包括词频、文本频率、文本数或逆文本频率。
具体实现中,本发明实施例中的用户评论信息展示装置可以对各个评论信息进行全模式分词或搜索分词等方式的分词处理,得到所述多个评论信息中包含的文本分词特征。此外在分词处理之前还可以对评论信息内容进行预处理,例如乱码过滤、标点过滤、汉字繁简转换、分词、停用词过滤等。
所述分词频率信息可以包括词频(term frequency,TF)、文档频率(documentfrequency,DF)、逆向文档频率(inverse document frequency,IDF)或词频--逆文档频率(term frequency–inverse document frequency,TF-IDF)。
S203,根据所述分词频率信息对所述多个文本分词特征进行过滤,根据经过过滤的文本分词特征构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
在本实施例中,在构造文本分词特征空间之前,首先通过统计各个文本分词特征的分词频率信息,进而根据所述分词频率信息对所述多个文本分词特征进行过滤,根据经过过滤的文本分词特征构造文本分词特征空间。
其中,所述词频指的是某一个给定的词语在所述指定的评论信息中出现的次数除以所述多个评论信息的词语总数,其中ni,j是该词在文档dj中的出现次数,而分母则是在文档dj中所有分词特征的总数,分词过滤单元422可以将平均的词频过高或过低(高于第一预设词频阈值或低于第二预设词频阈值,第一预设词频阈值大于所述第二预设词频阈值)的文本分词特征过滤掉。
所述文档频率指的是某个给定的词语,在所述多个评论信息中出现过该词语的评论信息的数量。在构造文本分词特征空间之前,可以将词频低于预设文档频率阈值(例如为1、10或100)的文本分词特征过滤掉,在另一可选方式中,文档频率还可以通过出现过该词语的评论信息的数量除以所述多个评论信息的评论信息数量得到。对应的所述预设文档频率阈值也应该处于0~1之间;
某一指定词语的逆向文档频率IDF,可以由所述多个评论信息的评论信息数量除以包含该词语之的评论信息数量,再将得到的商取对数得到,即:其中|D|为所述多个评论信息的评论信息总数,|{j:ti∈dj}|为包含词语ti的评论信息数量(即nk,j≠0的评论信息数目)。在构造文本分词特征空间之前,可以将逆向文档频率IDF过高或过低的文本分词特征过滤掉。
TF-IDF词频--逆文档频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文档或者一个语料库中的一个领域文档集的重要程度。
tfi-dfi,j=tfi,j×idfi,通常某一特定文档内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的TF-IDF。因此,通过过滤TF-IDF较低的词语,可以过滤掉常见的词语,保留重要的词语。
举个例子:假如一篇文档的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文档中的词频就是0.03(3/100)。一个计算文档频率(DF)的方法是测定有多少份文档出现过“母牛”一词,然后除以文档集里包含的文档总数。所以,如果“母牛”一词在1,000份文档出现过,而文档总数是10,000,000份的话,其逆向文档频率就是9.21(ln(10,000,000/1,000))。最后的TF-IDF的分数为0.28(0.03*9.21)。
进而根据获取到的所述多个评论信息中包含的经过过滤的文本分词特征,构造文本分词特征空间,每一个得到的文本分词特征都代表一个方向,从而也就得到各个评论信息的文本分词特征向量。
S204,将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练,得到最逼近所述训练样本的质量分类模型。
具体训练方式可以参考前文实施例中的S103,本实施例不再赘述。
S205,确定所述目标评论信息不是垃圾评论。
即本实施例中,在对评论信息进行质量分类之前,首先进行垃圾评论过滤。本发明实施例中的垃圾评论过滤可以包括关键词过滤、用户黑名单过滤或拼音过滤,其中:
(1)关键词过滤:收集常见广告中含有的关键词、昵称、脏词等,构造正则过滤词典,强制过滤包含有该规则的评论。例如:根据关键词“诚招”和“暗黑奇迹”,构造正则:“.*诚*招*”“.*暗.*黑.*奇.*迹.*”,从而可以依据该正则过滤垃圾评论。
(2)用户黑名单过滤:收集发出垃圾评论的用户ID(identification,身份)或IP(Internet Protocol,网络协议)地址等,将发出垃圾评论的次数或频率达到阈值的用户ID或IP加入黑名单,然后自动过滤由该黑名单中的ID或IP发出的评论信息。
3)拼音过滤:首先将所述评论信息中的文本信息转换为拼音信息,判断评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认该评论信息为垃圾评论。
例如水军为了帮助游戏“古剑情缘”增加曝光量,会在其他的游戏评论详情页中刷有关“古剑情缘”的评论,且逐渐演化为“古劍情緣”“咕劍凊緣”等避开打击。为了打击这种类型的垃圾评论,本发明实施例的用户评论信息展示装置将预先收集到的敏感词集合中的敏感词转化为敏感拼音,如“诚招”转化为“chengzhao”,“古剑情缘”转化为“gujianqingyuan”,从而得到敏感拼音集合。进而在判断目标评论信息是否垃圾评论时,可以将目标评论信息中的文本信息转换为拼音信息,判断目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认目标评论信息为垃圾评论。
在经过一系列垃圾评论过滤后,可以确认未被过滤掉的目标评论信息不是垃圾评论,进而执行后续的S206,否则结束流程。在可选实施例中,确定所述目标评论信息不是垃圾评论的步骤可以在执行S206之前的任意时刻执行,例如首先确定所述目标评论信息不是垃圾评论后,再针对目标评论信息去执行本实施例中的S201-S204。
S206,根据经过训练得到的所述质量分类模型和所述目标评论信息的文本分词特征向量获取所述目标评论信息的质量分类。
S207,根据所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息,计算所述目标评论信息的质量分值。
所述目标评论信息所针对的资讯版本信息,指的是所述资讯的更新版本,在同一系列的资讯中越新版本的资讯带来的质量分值越高,例如某游戏应用详情页的评论中,针对最新版本的评论信息在该项质量分值的得分最多,针对越早版本的评论信息在该项质量分值的得分最低;评论字数和回复/点赞次数类似,某评论信息的内容字数越多,或得到的回复/点赞次数越多,则在该项质量分值的得分越多;评论用户信用度可以根据用户发表的历史评论记录得到,若某个用户发表的历史评论中大多都是高质量评论,那么该用户的信用度较高,同时该用户当前发表的目标评论信息在该项质量分值的得分也较高,反之亦然,可选的可以将用户发表的历史评论的质量分值的平均值作为该用户的信用度。
S208,根据计算得到的所述目标评论信息的质量分值在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
在可选实施例中,可以在目标评论信息所对应资讯的评论页面中根据各个评论信息的质量分值,将质量分值更高的评论信息优先展示。
本实施例中的用户评论信息展示装置通过将多个评论信息的质量分类结果和各个评论信息的文本分词特征向量作为训练样本,训练得到最逼近所述训练样本的质量分类模型,进而在目标评论信息经过垃圾评论过滤后,可以根据训练得到的质量分类模型对目标评论信息的评论质量进行评估,从而确定目标评论信息的展示排序,实现了将评论质量更高的评论信息优先曝光,给用户在浏览对应资讯时提供高质量的参考意见和评论,更可以有效提高评论信息所对应资讯的使用转化率,例如资讯跳转率或资源下载率等。
图3是本发明另一实施例中的用户评论信息展示方法的流程示意图,如图所示本实施例中的用户评论信息展示方法流程包括以下步骤:
S301,将所述目标评论信息中的文本信息转换为拼音信息。
S302,确定所述目标评论信息的拼音信息中不包含除所述目标评论信息所针对资讯之外的其他同一资讯类型的资讯名称拼音。
在本实施例中,所述敏感拼音集合包括多个资讯类型对应的资讯名称拼音,在判断所述目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音时,可以判断所述目标评论信息的拼音信息中是否包含除所述目标评论信息所针对资讯之外的其他同一资讯类型的资讯名称拼音,若包含,则确认所述目标评论信息为垃圾评论。例如所述目标评论信息所针对的资讯是游戏“剑侠情缘”,那么若目标评论信息中包含游戏资讯类型的其他资讯名称拼音,例如包括“wangtubaye”、“sanguoluanshi”等,都可以认为该目标评论信息是垃圾评论,否则若目标评论信息经过了垃圾过滤,则确认目标评论信息不是垃圾评论,进而执行本实施例中的后续步骤。
S303,获取与目标评论信息对应同一资讯类型的多个评论信息以及所述多个评论信息中各个评论信息的质量分类。
例如目标评论信息针对的资讯是游戏资讯,例如某个游戏应用详情页面,那么本实施例中的多个评论信息也应该是针对游戏类型资讯的多个评论信息。
S304,对所述多个评论信息进行文本分词特征提取,获取文本分词特征提取得到的多个文本分词特征,统计各个文本分词特征的分词频率信息,所述分词频率信息包括词频、文本频率、文本数或逆文本频率。
S305,根据所述分词频率信息对所述多个文本分词特征进行过滤,根据经过过滤的文本分词特征构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
根据分词频率信息对文本分词特征进行过滤的具体方式可以参考前文实施例中的S203,本实施例中不再赘述。
S306,将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练,得到最逼近所述训练样本的质量分类模型。
本实施例中由于获取的是与目标评论信息对应同一资讯类型的多个评论信息以及所述多个评论信息中各个评论信息的质量分类,因此训练得到的是针对该资讯类型的评论信息的质量分类模型。
S306,根据经过训练得到的所述质量分类模型和所述目标评论信息的文本分词特征向量获取所述目标评论信息的质量分类。
本实施例中,S306训练得到的是所述目标评论信息所对应资讯所属的资讯类型的评论信息的质量分类模型,因此可以将所述目标评论信息的文本分词特征向量代入该质量分类模型中,从而得到对目标评论信息进行质量分类。
S308,分别将所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息进行归一化处理,并结合预设的维度权重系数,计算所述目标评论信息的质量分值。
S309,根据计算得到的所述目标评论信息的质量分值在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
本实施例中的用户评论信息展示装置根据目标评论信息所针对的资讯的资讯类型,对其进行垃圾评论过滤后,进而通过将多个针对相同资讯类型的资讯的评论信息的质量分类结果和各个评论信息的文本分词特征向量作为训练样本,训练得到最逼近所述训练样本的针对该资讯类型的评论信息的质量分类模型,进而可以根据训练得到的针对该资讯类型的评论信息的质量分类模型对目标评论信息的评论质量进行评估,进一步增强了评论信息的质量分类的准确性。
图4是本发明实施例中的一种用户评论信息展示装置的结构示意图,如图所示本发明实施例中的用户评论信息展示装置包括:
评论数据获取模块410,用于获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类;
具体的,所述各个评论信息的质量分类可以是本发明实施例中的用户评论信息展示装置预先获取到的,在可选实施例中可以为通过人工标注或用户投票等方式得到的,还可以是从第三方得到的质量分类结果,所述质量分类可以包括至少两种不同质量优劣的分类,例如包括精彩评论分类、中肯评论分类、一般评论分类、无意义评论分类,还例如可以从优到劣分为第一分类、第二分类以及第三分类等。所述多个评论信息可以是任意多个评论信息,也可以是针对指定类型的资讯的评论信息,例如针对游戏应用这一资讯类型的评论信息、针对即时通讯应用这一资讯类型的评论信息,或针对八卦新闻这一资讯类型的评论信息,等等。在可选实施例中,如果评论数据获取模块410获取的是针对某一指定类型的资讯的多个评论信息,那么本实施例后续也应该对针对该类型的资讯的目标评论信息进行质量分类和展示排序。
特征空间模块420,用于对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
具体实现中,特征空间模块420可以对各个评论信息进行全模式分词或搜索分词等方式的分词处理,得到所述多个评论信息中包含的文本分词特征。此外在分词处理之前还可以对评论信息内容进行预处理,例如乱码过滤、标点过滤、汉字繁简转换、分词、停用词过滤等。例如用户评论信息包括:
1)"个人感觉这款游戏各方面做的都挺不错的";
2)"至今用的最好的一款宝,界面清晰";
3)"软件界面不是很好,看着冷清,希望更新的时候做个暖色调的"。
经过分词后可以分别得到以下文本分词特征:
1)['个人','感觉','这款','游戏','各方面','挺不错'];
2)['至今','用的','最好','一款','宝','界面','清晰'];
3)['软件','界面','不是','很好','看着','冷清','希望','更新','时候','做个','暖色调']
进而根据获取到的所述多个评论信息中包含的文本分词特征,构造文本分词特征空间,每一个得到的文本分词特征都代表一个方向,从而也就得到各个评论信息的文本分词特征向量(若某个评论信息包含某一个文本分词特征,则在该文本分词特征的空间方向上的向量值为1,否则为0)。
进而在可选实施例中,特征空间模块420如图5所示可以进一步包括:
分词单元421,用于获取文本分词特征提取得到的多个文本分词特征,并统计各个文本分词特征的分词频率信息,所述分词频率信息包括词频、文本频率、文本数或逆文本频率。
分词过滤单元422,用于根据所述分词频率信息对所述多个文本分词特征进行过滤;
所述词频指的是某一个给定的词语在所述指定的评论信息中出现的次数除以所述多个评论信息的词语总数,其中ni,j是该词在文档dj中的出现次数,而分母则是在文档dj中所有分词特征的总数,分词过滤单元422可以将平均的词频过高或过低(高于第一预设词频阈值或低于第二预设词频阈值,第一预设词频阈值大于所述第二预设词频阈值)的文本分词特征过滤掉。
所述文档频率指的是某个给定的词语,在所述多个评论信息中出现过该词语的评论信息的数量。分词过滤单元422可以将词频低于预设文档频率阈值(例如为1、10或100)的文本分词特征过滤掉,在另一可选方式中,文档频率还可以通过出现过该词语的评论信息的数量除以所述多个评论信息的评论信息数量得到。对应的所述预设文档频率阈值也应该处于0~1之间;
某一指定词语的逆向文档频率IDF,可以由所述多个评论信息的评论信息数量除以包含该词语之的评论信息数量,再将得到的商取对数得到,
即:其中|D|为所述多个评论信息的评论信息总数,|{j:ti∈dj}|为包含词语ti的评论信息数量(即nk,j≠0的评论信息数目)。在构造文本分词特征空间之前,可以将逆向文档频率IDF过高或过低的文本分词特征过滤掉。
TF-IDF词频--逆文档频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文档或者一个语料库中的一个领域文档集的重要程度。
tfi-dfi,j=tfi,j×idfi,通常某一特定文档内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的TF-IDF。因此,通过过滤TF-IDF较低的词语,可以过滤掉常见的词语,保留重要的词语。
特征空间单元423,用于根据所述分词频率信息对所述多个文本分词特征进行过滤,根据经过过滤的文本分词特征构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
根据获取到的所述多个评论信息中包含的经过过滤的文本分词特征,特征空间单元423构造文本分词特征空间,每一个得到的文本分词特征都代表一个方向,从而也就得到各个评论信息的文本分词特征向量。
分类模型训练模块430,用于根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类。
在可选实施例中,所述质量分类模块430如图6所示进一步可以包括:分类模型训练单元431和质量分类单元432,其中:
分类模型训练单元431,用于将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练,得到最逼近所述训练样本的质量分类模型;
具体实现中,分类模型训练单元431可以通过附加树extra-trees算法、支持向量机SVM(Support Vector Machine)算法或随机森林RandomForest算法对评论信息的质量分类模型进行训练。下面以随机森林算法为例进行介绍:
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。顾名思义是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。本发明实施例中,通过所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对随机森林分类器进行训练,从而可以得到最贴近训练样本结果的随机森林分类算法模型。在可选实施例中,可以采用scikit中的randomforestclassifier,详细训练过程如下:
(1)首先调用接口corpora.Dictionary.load,加载上述特征空间文件,得到训练样本的csc稀疏矩阵(Sparse Matrix)X(本实施例中即为某个评论信息的文本分词特征向量),同时得到样本矩阵对应的目标标签向量Y(本实施例中即为某个评论信息的质量分类);
(2)构造随机森林:自定义训练的随机森林的树的棵树,例如随机森林包含30棵树,调用sklearn.ensemble.RandomForestClassifier的接口fit函数,传入参数X、Y,进行训练从而可以得到最贴近训练样本结果的随机森林模型。
在其他可选实施例中,分类模型训练单元431还可以采用附加树extra-trees算法、支持向量机SVM(Support Vector Machine)算法对评论信息的质量分类模型进行训练,本发明实施例不再一一详细进行介绍。
本发明对评论信息的质量分类模型的原理在于,从语义角度根据用户评论文本内容优质度对评论进行质量分类,挖掘出有参考价值的精彩评论。通过分析已质量分类的评论信息中包含的文本分词特征,可以估计包含了特定文本分词特征的评论信息的评论质量。尤其针对特定类型的资讯,包含某一些与该特定类型资讯对应的关键分词特征的评论信息通常有较高概率是高质量评论,例如在针对应用app资讯的评论信息中,当用户的评论涉及到与app属性相关的关键特征时,则具有较高概率分类到高质量评论;如当“购物”类app的评论中提到了“折扣”“比价”“优惠”时,当“金融理财”类的app提到了关于“收益”“基金”“股票”“汇率”时,这些评论具有较高概率成为“购物”“金融理财”类app的的高质量评论。
进而在可选实施例中,若评论数据获取模块410获取的是与目标评论信息对应同一资讯类型的多个评论信息以及所述多个评论信息中各个评论信息的质量分类,那么分类模型训练模块430训练得到的是针对该资讯类型的评论信息的质量分类模型。
质量分类单元432,用于根据经过训练得到的所述质量分类模型和所述目标评论信息的文本分词特征向量获取所述目标评论信息的质量分类。
具体的,质量分类单元432可以对所述目标评论信息进程分词处理后,根据特征空间模块420构造的文本分词特征空间得到目标评论信息的文本分词特征向量,进而将目标评论信息的文本分词特征向量代入所述经过训练的最逼近所述训练样本的质量分类模型,从而对目标评论信息进行质量分类。
进而在可选实施例中,质量分类单元432可以根据所述目标评论信息所对应资讯所属的资讯类型的评论信息的质量分类模型对目标评论信息进行质量分类。
进而在其他可选实施例中,分类模型训练模块430还可以通过其他算法根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类,例如采用求线性相关拟合参数推导,或采用其他的多分类算法模型,均是本领域技术人员通过本发明实施例的启发下可以直接实施并实现本发明的发明目的的。
评论展示模块440,用于根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
在可选实施例中,可以在目标评论信息所对应资讯的评论页面中根据各个评论信息的质量分类,将质量更高的评论信息优先展示,例如将精彩评论置顶展示,又如可以首先展示精彩评论,然后依次展示中肯评论、一般评论和无意义评论,从而根据目标评论的质量分类,确定目标评论信息在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
进而在可选实施例中,所述评论展示模块440如图6所示进一步包括:
质量分值计算单元441,用于根据所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息,计算所述目标评论信息的质量分值。
所述目标评论信息所针对的资讯版本信息,指的是所述资讯的更新版本,在同一系列的资讯中越新版本的资讯带来的质量分值越高,例如某游戏应用详情页的评论中,针对最新版本的评论信息在该项质量分值的得分最多,针对越早版本的评论信息在该项质量分值的得分最低;评论字数和回复/点赞次数类似,某评论信息的内容字数越多,或得到的回复/点赞次数越多,则在该项质量分值的得分越多;评论用户信用度可以根据用户发表的历史评论记录得到,若某个用户发表的历史评论中大多都是高质量评论,那么该用户的信用度较高,同时该用户当前发表的目标评论信息在该项质量分值的得分也较高,反之亦然,可选的可以将用户发表的历史评论的质量分值的平均值作为该用户的信用度。
可选的,质量分值计算单元441可以分别将所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息进行归一化处理,并结合预设的维度权重系数,计算所述目标评论信息的质量分值。
评论排序单元442,用于根据计算得到的所述目标评论信息的质量分值在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
进一步可选的,本发明实施例中的用户评论信息展示装置还可以包括:
垃圾评论过滤模块450,用于判断所述目标评论信息是否垃圾评论,若所述目标评论信息不是垃圾评论,则通知所述质量分类模块获取所述目标评论信息的质量分类。
即在对评论信息进行质量分类之前,可以先由垃圾评论过滤模块450进行垃圾评论过滤。本发明实施例中垃圾评论过滤模块450进行的垃圾评论过滤可以包括关键词过滤、用户黑名单过滤或拼音过滤,其中:
(1)关键词过滤:收集常见广告中含有的关键词、昵称、脏词等,构造正则过滤词典,强制过滤包含有该规则的评论。例如:根据关键词“诚招”和“暗黑奇迹”,构造正则:“.*诚*招*”“.*暗.*黑.*奇.*迹.*”,从而可以依据该正则过滤垃圾评论。
(2)用户黑名单过滤:收集发出垃圾评论的用户ID(identification,身份)或IP(Internet Protocol,网络协议)地址等,将发出垃圾评论的次数或频率达到阈值的用户ID或IP加入黑名单,然后自动过滤由该黑名单中的ID或IP发出的评论信息。
3)拼音过滤:首先将所述评论信息中的文本信息转换为拼音信息,判断评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认该评论信息为垃圾评论。
例如水军为了帮助游戏“古剑情缘”增加曝光量,会在其他的游戏评论详情页中刷有关“古剑情缘”的评论,且逐渐演化为“古劍情緣”“咕劍凊緣”等避开打击。为了打击这种类型的垃圾评论,本发明实施例的用户评论信息展示装置将预先收集到的敏感词集合中的敏感词转化为敏感拼音,如“诚招”转化为“chengzhao”,“古剑情缘”转化为“gujianqingyuan”,从而得到敏感拼音集合。进而在判断目标评论信息是否垃圾评论时,可以将目标评论信息中的文本信息转换为拼音信息,判断目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认目标评论信息为垃圾评论。
在经过一系列垃圾评论过滤后,可以确认未被过滤掉的目标评论信息不是垃圾评论,进而通知所述质量分类模块获取所述目标评论信息的质量分类。
从而,在可选实施例中,所述垃圾评论过滤模块450如图8所示进一步可以包括:
拼音转换单元451,用于将所述目标评论信息中的文本信息转换为拼音信息;
敏感拼音判断单元452,用于判断所述目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认所述目标评论信息为垃圾评论。
进一步可选的,所述敏感拼音集合可以包括多个资讯类型对应的资讯名称拼音,在判断所述目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音时,敏感拼音判断单元452可以判断所述目标评论信息的拼音信息中是否包含除所述目标评论信息所针对资讯之外的其他同一资讯类型的资讯名称拼音,若包含,则确认所述目标评论信息为垃圾评论。例如所述目标评论信息所针对的资讯是游戏“剑侠情缘”,那么若目标评论信息中包含游戏资讯类型的其他资讯名称拼音,例如包括“wangtubaye”、“sanguoluanshi”等,都可以认为该目标评论信息是垃圾评论。
本实施例中的用户评论信息展示装置通过将多个评论信息的质量分类结果和各个评论信息的文本分词特征向量作为训练样本,训练得到最逼近所述训练样本的质量分类模型,进而可以根据训练得到的质量分类模型对目标评论信息的评论质量进行评估,从而确定目标评论信息的展示排序,实现了将评论质量更高的评论信息优先曝光,给用户在浏览对应资讯时提供高质量的参考意见和评论,更可以有效提高评论信息所对应资讯的使用转化率,例如资讯跳转率或资源下载率等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (20)
1.一种用户评论信息展示方法,其特征在于,所述方法包括:
获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类;
对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量;
根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类;
根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
2.如权利要求1所述的用户评论信息展示方法,其特征在于,所述获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类包括:
获取与目标评论信息对应同一资讯类型的多个评论信息以及所述多个评论信息中各个评论信息的质量分类。
3.如权利要求1所述的用户评论信息展示方法,其特征在于,所述根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类包括:
将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练,得到最逼近所述训练样本的质量分类模型;
根据经过训练得到的所述质量分类模型和所述目标评论信息的文本分词特征向量获取所述目标评论信息的质量分类。
4.如权利要求3所述的用户评论信息展示方法,其特征在于,所述将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练包括:
通过附加树extra-trees算法、支持向量机SVM(Support Vector Machine)算法或随机森林RandomForest算法对评论信息的质量分类模型进行训练。
5.如权利要求1所述的用户评论信息展示方法,其特征在于,所述构造文本分词特征空间,并获取各个评论信息的文本分词特征向量包括:
获取文本分词特征提取得到的多个文本分词特征,统计各个文本分词特征的分词频率信息,所述分词频率信息包括词频、文本频率、文本数或逆文本频率;
根据所述分词频率信息对所述多个文本分词特征进行过滤,根据经过过滤的文本分词特征构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
6.如权利要求1所述的用户评论信息展示方法,其特征在于,所述根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序包括:
根据所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息,计算所述目标评论信息的质量分值;
根据计算得到的所述目标评论信息的质量分值在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
7.如权利要求6所述的用户评论信息展示方法,其特征在于,所述根据所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息,计算所述目标评论信息的质量分值包括:
分别将所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息进行归一化处理,并结合预设的维度权重系数,计算所述目标评论信息的质量分值。
8.如权利要求1所述的用户评论信息展示方法,其特征在于,所述根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类之前还包括:
判断所述目标评论信息是否垃圾评论,在确认所述目标评论信息不是垃圾评论后,获取所述目标评论信息的质量分类。
9.如权利要求8所述的用户评论信息展示方法,其特征在于,所述判断所述目标评论信息是否垃圾评论包括:
将所述目标评论信息中的文本信息转换为拼音信息;
判断所述目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认所述目标评论信息为垃圾评论。
10.如权利要求9所述的用户评论信息展示方法,其特征在于,所述敏感拼音集合包括所述目标评论信息对应的资讯类型下的资讯名称拼音;
所述判断所述目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音包括:
若所述目标评论信息的拼音信息中包含除所述目标评论信息所针对资讯之外的其他同一资讯类型的资讯名称拼音,则确认所述目标评论信息为垃圾评论。
11.一种用户评论信息展示装置,其特征在于,所述装置包括:
评论数据获取模块,用于获取多个评论信息以及所述多个评论信息中各个评论信息的质量分类;
特征空间模块,用于对所述多个评论信息进行文本分词特征提取,构造文本分词特征空间,并获取各个评论信息的文本分词特征向量;
质量分类模块,用于根据所述多个评论信息中各个评论信息的质量分类和文本分词特征向量,结合目标评论信息的文本分词特征向量,获取所述目标评论信息的质量分类;
评论展示模块,用于根据所述目标评论信息的质量分类,在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
12.如权利要求11所述的用户评论信息展示装置,其特征在于,所述评论数据获取模块用于:
获取与目标评论信息对应同一资讯类型的多个评论信息以及所述多个评论信息中各个评论信息的质量分类。
13.如权利要求11所述的用户评论信息展示装置,其特征在于,所述质量分类模块包括:
分类模型训练单元,用于将所述多个评论信息的文本分词特征向量以及各个评论信息的质量分类作为训练样本,对评论信息的质量分类模型进行训练,得到最逼近所述训练样本的质量分类模型;
质量分类单元,用于根据经过训练得到的所述质量分类模型和所述目标评论信息的文本分词特征向量获取所述目标评论信息的质量分类。
14.如权利要求13所述的用户评论信息展示装置,其特征在于,所述分类模型训练单元用于:
通过附加树extra-trees算法、支持向量机SVM(Support Vector Machine)算法或随机森林RandomForest算法对评论信息的质量分类模型进行训练。
15.如权利要求11所述的用户评论信息展示装置,其特征在于,所述特征空间模块包括:
分词单元,用于获取文本分词特征提取得到的多个文本分词特征,并统计各个文本分词特征的分词频率信息,所述分词频率信息包括词频、文本频率、文本数或逆文本频率;
分词过滤单元,用于根据所述分词频率信息对所述多个文本分词特征进行过滤;
特征空间单元,用于根据所述分词频率信息对所述多个文本分词特征进行过滤,根据经过过滤的文本分词特征构造文本分词特征空间,并获取各个评论信息的文本分词特征向量。
16.如权利要求11所述的用户评论信息展示装置,其特征在于,所述评论展示模块包括:
质量分值计算单元,用于根据所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息,计算所述目标评论信息的质量分值;
评论排序单元,用于根据计算得到的所述目标评论信息的质量分值在所述目标评论信息所对应资讯的评论页面上确定所述目标评论信息的展示排序。
17.如权利要求16所述的用户评论信息展示装置,其特征在于,所述质量分值计算单元用于:
分别将所述目标评论信息的质量分类、评论字数、回复/点赞次数、评论用户信用度以及所述目标评论信息所针对的资讯版本信息进行归一化处理,并结合预设的维度权重系数,计算所述目标评论信息的质量分值。
18.如权利要求11所述的用户评论信息展示装置,其特征在于,还包括:
垃圾评论过滤模块,用于判断所述目标评论信息是否垃圾评论,若所述目标评论信息不是垃圾评论,则通知所述质量分类模块获取所述目标评论信息的质量分类。
19.如权利要求18所述的用户评论信息展示装置,其特征在于,所述垃圾评论过滤模块包括:
拼音转换单元,用于将所述目标评论信息中的文本信息转换为拼音信息;
敏感拼音判断单元,用于判断所述目标评论信息的拼音信息中是否包含预设的敏感拼音集合中的敏感拼音,若存在,则确认所述目标评论信息为垃圾评论。
20.如权利要求19所述的用户评论信息展示装置,其特征在于,所述敏感拼音集合包括所述目标评论信息对应的资讯类型下的资讯名称拼音;
所述敏感拼音判断单元用于:
判断所述目标评论信息的拼音信息中是否包含除所述目标评论信息所针对资讯之外的其他同一资讯类型的资讯名称拼音,若是则确认所述目标评论信息为垃圾评论。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610225381.2A CN107291780B (zh) | 2016-04-12 | 2016-04-12 | 一种用户评论信息展示方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610225381.2A CN107291780B (zh) | 2016-04-12 | 2016-04-12 | 一种用户评论信息展示方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291780A true CN107291780A (zh) | 2017-10-24 |
CN107291780B CN107291780B (zh) | 2021-05-28 |
Family
ID=60093790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610225381.2A Active CN107291780B (zh) | 2016-04-12 | 2016-04-12 | 一种用户评论信息展示方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291780B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107831982A (zh) * | 2017-10-27 | 2018-03-23 | 掌阅科技股份有限公司 | 评论信息的显示方法及电子设备 |
CN108108436A (zh) * | 2017-12-20 | 2018-06-01 | 东软集团股份有限公司 | 数据存储方法、装置、存储介质及电子设备 |
CN108536654A (zh) * | 2018-04-13 | 2018-09-14 | 科大讯飞股份有限公司 | 识别文本展示方法及装置 |
CN108920611A (zh) * | 2018-06-28 | 2018-11-30 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备及存储介质 |
CN109271609A (zh) * | 2018-09-14 | 2019-01-25 | 广州神马移动信息科技有限公司 | 标签生成方法、装置、终端设备及计算机存储介质 |
CN109508370A (zh) * | 2018-09-28 | 2019-03-22 | 北京百度网讯科技有限公司 | 评论抽取方法、设备和存储介质 |
CN109597916A (zh) * | 2018-11-07 | 2019-04-09 | 北京达佳互联信息技术有限公司 | 视频风险分类方法、装置、电子设备及储存介质 |
CN109710940A (zh) * | 2018-12-28 | 2019-05-03 | 安徽知学科技有限公司 | 一种文章立意的分析及文章评分方法、装置 |
CN109933775A (zh) * | 2017-12-15 | 2019-06-25 | 腾讯科技(深圳)有限公司 | Ugc内容处理方法及装置 |
CN110489556A (zh) * | 2019-08-22 | 2019-11-22 | 重庆锐云科技有限公司 | 关于跟进记录的质量评价方法、装置、服务器及存储介质 |
CN110895652A (zh) * | 2019-09-27 | 2020-03-20 | 广州视源电子科技股份有限公司 | 一种评论信息的处理方法、装置、***、设备和存储介质 |
CN111090813A (zh) * | 2019-12-20 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种内容处理方法、装置和计算机可读存储介质 |
CN111385655A (zh) * | 2018-12-29 | 2020-07-07 | 武汉斗鱼网络科技有限公司 | 一种广告弹幕检测方法、装置、服务器及存储介质 |
CN111460224A (zh) * | 2020-03-27 | 2020-07-28 | 广州虎牙科技有限公司 | 评论数据的质量标注方法、装置、设备及存储介质 |
CN111475731A (zh) * | 2020-04-13 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
CN111522940A (zh) * | 2020-04-08 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
CN112149924A (zh) * | 2019-06-26 | 2020-12-29 | 北京京东尚科信息技术有限公司 | 描述信息处理方法、装置、设备及计算机可读存储介质 |
CN112256852A (zh) * | 2020-10-28 | 2021-01-22 | 北京软通智慧城市科技有限公司 | 一种景区评论数据处理方法、装置、电子设备及存储介质 |
CN112364154A (zh) * | 2020-11-10 | 2021-02-12 | 北京乐学帮网络技术有限公司 | 一种评论内容显示方法及装置 |
CN112989810A (zh) * | 2019-12-17 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 文本信息的识别方法、装置及服务器、存储介质 |
CN113741759A (zh) * | 2021-11-06 | 2021-12-03 | 腾讯科技(深圳)有限公司 | 评论信息的展示方法、装置、计算机设备和存储介质 |
CN113822045A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市易平方网络科技有限公司 | 一种基于多模态数据的影评质量的识别方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096680A (zh) * | 2009-12-15 | 2011-06-15 | 北京大学 | 信息有效性分析的方法和装置 |
WO2014049310A2 (en) * | 2012-09-27 | 2014-04-03 | Swansea University | Method and apparatuses for interactive searching of electronic documents |
CN104462509A (zh) * | 2014-12-22 | 2015-03-25 | 北京奇虎科技有限公司 | 垃圾评论检测方法及装置 |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及*** |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类*** |
-
2016
- 2016-04-12 CN CN201610225381.2A patent/CN107291780B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096680A (zh) * | 2009-12-15 | 2011-06-15 | 北京大学 | 信息有效性分析的方法和装置 |
WO2014049310A2 (en) * | 2012-09-27 | 2014-04-03 | Swansea University | Method and apparatuses for interactive searching of electronic documents |
CN104462509A (zh) * | 2014-12-22 | 2015-03-25 | 北京奇虎科技有限公司 | 垃圾评论检测方法及装置 |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及*** |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类*** |
Non-Patent Citations (1)
Title |
---|
周志杰: "基于投票机制的文本主客观分类***", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107831982A (zh) * | 2017-10-27 | 2018-03-23 | 掌阅科技股份有限公司 | 评论信息的显示方法及电子设备 |
CN109933775A (zh) * | 2017-12-15 | 2019-06-25 | 腾讯科技(深圳)有限公司 | Ugc内容处理方法及装置 |
CN109933775B (zh) * | 2017-12-15 | 2022-02-18 | 腾讯科技(深圳)有限公司 | Ugc内容处理方法及装置 |
CN108108436B (zh) * | 2017-12-20 | 2020-07-31 | 东软集团股份有限公司 | 数据存储方法、装置、存储介质及电子设备 |
CN108108436A (zh) * | 2017-12-20 | 2018-06-01 | 东软集团股份有限公司 | 数据存储方法、装置、存储介质及电子设备 |
CN108536654A (zh) * | 2018-04-13 | 2018-09-14 | 科大讯飞股份有限公司 | 识别文本展示方法及装置 |
CN108536654B (zh) * | 2018-04-13 | 2022-05-17 | 科大讯飞股份有限公司 | 识别文本展示方法及装置 |
CN108920611A (zh) * | 2018-06-28 | 2018-11-30 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备及存储介质 |
CN109271609A (zh) * | 2018-09-14 | 2019-01-25 | 广州神马移动信息科技有限公司 | 标签生成方法、装置、终端设备及计算机存储介质 |
CN109508370A (zh) * | 2018-09-28 | 2019-03-22 | 北京百度网讯科技有限公司 | 评论抽取方法、设备和存储介质 |
CN109508370B (zh) * | 2018-09-28 | 2022-07-08 | 北京百度网讯科技有限公司 | 评论抽取方法、设备和存储介质 |
CN109597916A (zh) * | 2018-11-07 | 2019-04-09 | 北京达佳互联信息技术有限公司 | 视频风险分类方法、装置、电子设备及储存介质 |
CN109710940A (zh) * | 2018-12-28 | 2019-05-03 | 安徽知学科技有限公司 | 一种文章立意的分析及文章评分方法、装置 |
CN111385655A (zh) * | 2018-12-29 | 2020-07-07 | 武汉斗鱼网络科技有限公司 | 一种广告弹幕检测方法、装置、服务器及存储介质 |
CN112149924A (zh) * | 2019-06-26 | 2020-12-29 | 北京京东尚科信息技术有限公司 | 描述信息处理方法、装置、设备及计算机可读存储介质 |
CN110489556A (zh) * | 2019-08-22 | 2019-11-22 | 重庆锐云科技有限公司 | 关于跟进记录的质量评价方法、装置、服务器及存储介质 |
CN110895652A (zh) * | 2019-09-27 | 2020-03-20 | 广州视源电子科技股份有限公司 | 一种评论信息的处理方法、装置、***、设备和存储介质 |
CN112989810A (zh) * | 2019-12-17 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 文本信息的识别方法、装置及服务器、存储介质 |
CN112989810B (zh) * | 2019-12-17 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 文本信息的识别方法、装置及服务器、存储介质 |
CN111090813A (zh) * | 2019-12-20 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种内容处理方法、装置和计算机可读存储介质 |
CN111460224B (zh) * | 2020-03-27 | 2024-03-08 | 广州虎牙科技有限公司 | 评论数据的质量标注方法、装置、设备及存储介质 |
CN111460224A (zh) * | 2020-03-27 | 2020-07-28 | 广州虎牙科技有限公司 | 评论数据的质量标注方法、装置、设备及存储介质 |
CN111522940B (zh) * | 2020-04-08 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
CN111522940A (zh) * | 2020-04-08 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 用于处理评论信息的方法和装置 |
CN111475731A (zh) * | 2020-04-13 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
CN112256852A (zh) * | 2020-10-28 | 2021-01-22 | 北京软通智慧城市科技有限公司 | 一种景区评论数据处理方法、装置、电子设备及存储介质 |
CN112364154A (zh) * | 2020-11-10 | 2021-02-12 | 北京乐学帮网络技术有限公司 | 一种评论内容显示方法及装置 |
CN113822045B (zh) * | 2021-09-29 | 2023-11-17 | 重庆市易平方科技有限公司 | 一种基于多模态数据的影评质量的识别方法及相关装置 |
CN113822045A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市易平方网络科技有限公司 | 一种基于多模态数据的影评质量的识别方法及相关装置 |
CN113741759A (zh) * | 2021-11-06 | 2021-12-03 | 腾讯科技(深圳)有限公司 | 评论信息的展示方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107291780B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291780A (zh) | 一种用户评论信息展示方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Voorhees et al. | TREC: Experiment and evaluation in information retrieval | |
CN111310446B (zh) | 裁判文书的信息抽取方法及装置 | |
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
WO2021184674A1 (zh) | 文本关键词提取方法、电子设备及计算机可读存储介质 | |
Bagić Babac et al. | A sentiment analysis of who participates, how and why, at social media sport websites: How differently men and women write about football | |
CN106682170B (zh) | 一种应用搜索方法和装置 | |
CN108052586A (zh) | 舆情分析方法、***、计算机设备和存储介质 | |
CN106294590A (zh) | 一种基于半监督学习的社交网络垃圾用户过滤方法 | |
CN106326391A (zh) | 多媒体资源推荐方法及装置 | |
CN108415961A (zh) | 一种广告图片推荐方法及装置 | |
CN110134842B (zh) | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN109117477A (zh) | 面向中文领域的非分类关系抽取方法、装置、设备及介质 | |
CN114064851A (zh) | 一种政府办公文档多机检索方法及*** | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN109597987A (zh) | 一种文本还原方法、装置及电子设备 | |
Oh et al. | How trump won: the role of social media sentiment in political elections | |
CN108427667B (zh) | 一种法律文书的分段方法及装置 | |
CN107807917A (zh) | 文本内容提取方法、装置、***及存储介质 | |
Ptaszynski et al. | Extracting patterns of harmful expressions for cyberbullying detection | |
Yaddarabullah et al. | Classification hoax news of COVID-19 on Instagram using K-nearest neighbor | |
CN112182361A (zh) | 基于发布内容的情感因素确定发布主体身份的方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |