CN113505223B

CN113505223B - 一种网络水军识别方法与***

Info

Publication number: CN113505223B
Application number: CN202110760492.4A
Authority: CN
Inventors: 肖玉芝; 冶忠林; 李明原; 张伟
Original assignee: Qinghai Normal University
Current assignee: Qinghai Normal University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2022-01-28
Anticipated expiration: 2041-07-06
Also published as: CN113505223A

Abstract

本发明提供了一种网络水军识别方法，首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果，然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果；最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合，可以融合各个网络水军的行为特征，大大提高了对网络水军的识别精度。本发明还提供了一种网络水军识别***。

Description

一种网络水军识别方法与***

技术领域

本发明属于网络水军检测技术领域，更具体地说，是涉及一种网络水军识别方法与***。

背景技术

随着大数据时代的到来，社交网络的受欢迎程度已经不言而喻。在社交平台上用户可以各抒己见，但是真假难辨，舆情意见复杂多变，受干扰因素众多。比如网络水军利用恶意炒作将个体的需求转化为群体需求，将小范围事件转化为热点事件，从而混淆公众视听。倘若纵容水军恶意炒作，网民将难以信任网络媒体，网络基本体系的完整搭建也将更加困难。网络水军的出现对社会舆论的影响是巨大的，甚至可以推动社会舆论的走向，所以水军识别对于控制网络恶性行为、促进和谐发展具有重要的社会意义。

目前针对于水军识别分析和研究相对数量较少，无法获取水军潜在的分布特征和规律。由于目前公开的网络水军数据集较少，传统的网络水军识别算法数据成本高昂，且效果欠佳。目前，针对于水军识别的研究主要分为以下三种：

第一种是以热点事件为研究对象，通过对某个时间段热度最高的事件的评论文本内容进行分析。胡舜良等提出了从技术层面上来实现对水军的识别即通过用户发帖产生的文本和服务器端产生的值进行判断，从而以此来实现对水军的识别。王军博等提出了通过对评论内容进行语义分析、聚类等生成主题模型，进而分析用户评论与该主题的偏离度从而识别水军。李建超等通过每个评论与历史评论文档进行相似度计算，以同一天的最大评论数量来实现对水军的识别。

第二种是以用户特征为研究对象，通过分析正常用户和水军用户之间的差异来识别水军。张艳梅等通过用户之间互相关注数、粉丝关注比、固定时间内发布的平均微博数等6个维度进行构造微博水军分类器从而达到识别水军的目的。SHEN Hua等识别水军是通过挖掘用户微博特征、行为特征和属性特征，在此基础上使用等监督学习方法。苏雪佳等则是从发表评论用户、评论内容本身、话题评论发布时间和评论阅读者这四个方面来阐述评论有用性影响因素指标以此来设计水军识别模型。郝开青等以用户信息特征、问答对特征、用户社交网络特征、内容特征和语言学特征五个维度综合分析用户特征以此来达到水军识别的目的。

可见，现有的水军识别方法，考虑的因素较少，使水军识别方法无法收敛到全局最优点，进而导致识别效果差。

发明内容

本发明的目的在于提供一种网络水军识别方法与***，旨在解决现有的水军识别方法识别效果差的问题。

为实现上述目的，本发明采用的技术方案是：一种网络水军识别方法，包括以下步骤：

步骤1：获取微博评论信息；所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量；

步骤2：对所述评论文本进行特征提取生成数据集；

步骤3：采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果；

步骤4：采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果；

步骤5：对所述数据集进行情感分析得到评论文本的情感特征；

步骤6：根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果；

步骤7：分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征；

步骤8：对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。

优选的，所述步骤3：采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果，包括：

步骤3.1：采用公式：

对所述数据集进行分类，得到分类结果；其中，(w，b)即w^Tx_i+b表示超平面，w表示平面上的法向量，b表示超平面到原点的距离，y_i表示样本的类别，当y_i＝+1时，与x_i所对应的评论文本为正常用户，当y_i＝-1时，与x_i所对应的评论文本为水军用户；

步骤3.2：根据所述分类结果建立第一网络水军识别模型；

步骤3.3：对所述数据集按照6∶4比例分割成第一训练集和第一测试集；

步骤3.4：利用所述第一训练集对所述第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型；

步骤3.5：利用所述训练完成的第一网络水军识别模型对所述第一测试集进行水军识别得到第一网络水军识别结果。

优选的，所述第一网络水军识别模型为：

其中，y′_i表示标签类别，m表示数据集长度。

优选的，所述步骤4：采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果，包括：

步骤4.1：对所述数据集进行划分得到划分结果；其中，所述划分结果为{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}，其中x_i＝(x₁，x₂，...x_n，1)表示维度为n的特征向量，该向量末尾为1，代表偏置项；标签y_i∈{1，0}，其中y_i＝1时，与x_i所对应的评论文本为水军用户，y_i＝0时，与x_i所对应的评论文本为正常用户；

步骤4.2：根据所述划分结果构建预测模型；其中所述预测模型为：

其中，w表示权重向量；

步骤4.3：根据所述预测模型建立似然函数；其中，所述似然函数为：

步骤4.4：对所述数据集按照8∶2比例分割成第二训练集和第二测试集；

步骤4.5：利用所述第二训练集对所述似然函数进行优化训练得到训练完成的预测模型；

步骤4.6：利用所述训练完成的预测模型对所述第二测试集进行分类得到第二网络水军识别结果。

优选的，所述步骤6：根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果，包括：

步骤6.1：对所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果进行划分得到CART数据集；其中，所述CART数据集为：

{(a₁，b₁，c₁，Setiment₁，d₁，e₁，y₁)，...，(a_n，b_n，c_n，Setiment_n，d_n，e_n，y_n)}，共n个样本，其中，a表示转发数量，b表示回复数量，c表示点赞数量，Setiment表示评论文本的情感特征，d表示第一网络水军识别结果的数据特征，e表示第二网络水军识别结果的数据特征，y表示数据类别；

步骤6.2：对所述CART数据集中的n个样本按照样本数量进行划分得到第一CART数据集和第二CART数据集；

步骤6.3：根据所述第一CART数据集和所述第二CART数据集构建基尼系数计算公式；

步骤6.4：对所述CART数据集按照8∶2比例分割成第三训练集和第三测试集；

步骤6.5：根据所述基尼系数计算公式和所述第三训练集得到CART树；

步骤6.6：对所述CART树进行剪枝得到剪枝后的CART树；

步骤6.7：根据所述剪枝后的CART树对所述第三测试集进行分类得到CART树分类结果。

优选的，所述基尼系数计算公式为：

其中，D_s表示CART数据集，D_s1表示第一CART数据集，n₁表示第一CART数据集中样本个数，D_s2表示第二CART数据集，n₂表示第二CART数据集中样本个数。

优选的，所述步骤6.6：对所述CART树进行剪枝得到剪枝后的CART树，包括：

采用惩罚函数对所述CART树进行剪枝得到剪枝后的CART树；其中，所述惩罚函数为：

其中，T为叶子节点的数量，α为惩罚参数，N_t为训练时叶节点处的样本数量，H_t为经验熵，k为类别数量，N_tk为样本点。

本发明还提供了一种网络水军识别***，包括：

微博评论信息获取模块，用于获取微博评论信息；所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量；

评论文本特征提取模块，用于对所述评论文本进行特征提取生成数据集；

支持向量机算法训练模块，用于采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果；

逻辑回归算法训练模块，用于采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果；

情感分析模块，用于对所述数据集进行情感分析得到评论文本的情感特征；

CART树训练模块，用于根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果；

结果特征提取模块，用于分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征；

特征加权融合模块，用于对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。

本发明提供的一种网络水军识别方法与***的有益效果在于：与现有技术相比，本发明的一种网络水军识别方法，首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果，然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果；最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合，可以融合各个网络水军的行为特征，大大提高了对网络水军的识别精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网络水军识别方法结构图。

图2为本发明实施例提供的一种网络水军识别方法流程图。

图3为本发明实施例提供的融合模型训练部分结果示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明依据微博评论信息的特征，识别网络水军考虑到两种属性特征。第一种是基于微博评论的文本特征；另一种是基于微博评论信息的用户行为特征。利用思想将多种分类器集成在一起以此来完成基于微博评论文本的分类，将分类的结果向量化。将转发数量、回复数量、点赞数量、评论文本情感值、第一网络水军识别结果和第二网络水军识别结果作为多特征，利用树进行分类，最后将多个模型加权融合在一起构造强分类器，以此达到识别微博水军的效果。该算法结构图如图1所示。

图2为本发明提供的一种网络水军识别方法流程图，请参阅图2；

S1：获取微博评论信息；微博评论信息包括评论文本、转发数量、回复数量和点赞数量。

S2：对评论文本进行特征提取生成数据集；

本发明联合PV-DM和PV-DBOw句向量模型，将文本数据集中的每个句子向量被看作是训练的两个向量和训练的两个向量的组合。将最后得到的向量拼接得到400维句向量。下面用一个简单的例子阐述效果。

以下是数据集中任选的简单文本：

文本1：早安新的天从没心没肺的傻笑开始哈哈。采用PV-DM和PV-DBOw融合的向量模型训练部分结果如图3所示。

S3：采用支持向量机算法对数据集进行训练得到第一网络水军识别结果；

S3具体包括：

S3.1：采用公式：

对数据集进行分类，得到分类结果；其中，(w，b)即w^Tx_i+b表示超平面，w表示平面上的法向量，b表示超平面到原点的距离，y_i表示样本的类别，当y_i＝+1时，与x_i所对应的评论文本为正常用户，当y_i＝-1时，与x_i所对应的评论文本为水军用户；

S3.2：根据分类结果建立第一网络水军识别模型；其中，第一网络水军识别模型为：

其中，s·t表示使...满足，y′_i表示标签类别，m表示数据集长度。

S3.3：对数据集按照6∶4比例分割成第一训练集和第一测试集；

S3.4：利用第一训练集对第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型；

S3.5：利用训练完成的第一网络水军识别模型对第一测试集进行水军识别得到第一网络水军识别结果。

下面对支持向量机算法进行进一步的描述：

令数据集Dm1有{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}。其中y_i为样本的类别，当结点数据x_i为正常用户时，y_i＝+1，当结点数据x_i为水军用户时，y_i＝-1。给定约束条件y_i(w^Tx_i+b)＞0，对于数据集中(x_i，y_i)希望有：

对于数据集样本x_i代入超平面表示是w^Tx_i+b。如果w^Tx_i+b＞0，则输出y_i＝1即样本x_i为正常用户；若w^Tx_i+b＜0，则输出y_i＝-1即样本x_i为水军用户。显然，只要这个超平面能正确分类，那么它可以是任意的。考虑到模型能足够鲁棒，需要一定规则的选择最优决策平面。根据规则将二分类问题转化为数学公式，即第一网络水军识别模型为：

通过控制w和b来使得距离最远，通过控制x_i选中离超平面最近的点。经过以上定义，该算法可以将评论文本分为水军用户和正常用户。本发明将62554条数据按照6∶4比例分割成训练集和测试集。考虑到随机抽样的分布不确定性，故采用更为严谨的分层抽样抽样方法，使其关键特征上具有和总体数据集上基本一致的分布。数据集分布情况，如表1所示。

表1数据集分布情况

利用该数据集训练样本50843条数据，在偏差和方差都很小时，即收敛且误差较小，可以达到较好的训练效果。

通过上述实验结果将测试集12711条数据进行预测，得到的结果构造混淆矩阵。

表2混淆矩阵

根据算法的评价指标对分类后结果进行分析，发现FN为2680个水军用户，而测试集中水军用户数量为6333个。如表3为算法模型评价指标。

表3算法模型评价指标

S4：采用逻辑回归算法对数据集进行训练得到第二网络水军识别结果。

S4具体包括：

S4.1：对数据集进行划分得到划分结果；其中，划分结果为{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}，其中x_i＝(x₁，x₂，...x_n，1)表示维度为n的特征向量，该向量末尾为1，代表偏置项；标签y_i∈{1，0}，其中y_i＝1时，与x_i所对应的评论文本为水军用户，y_i＝0时，与x_i所对应的评论文本为正常用户；

S4.2：根据划分结果构建预测模型；其中预测模型为：

其中，w表示权重向量；

S4.3：根据预测模型建立似然函数；其中，似然函数为：

S4.4：对数据集按照8∶2比例分割成第二训练集和第二测试集；

S4.5：利用第二训练集对似然函数进行优化训练得到训练完成的预测模型；

S4.6：利用训练完成的预测模型对第二测试集进行分类得到第二网络水军识别结果。

下面对逻辑回归算法进行进一步的描述：

令数据集Dm2有{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}。其中x_i＝(x₁，x₂，...x_n，1)是一个维度为n的特征向量，该向量末尾为1，代表偏置项；标签y_i∈{1，0}表示数据集两类中的一类即y_i＝1为水军用户，y_i＝0为正常用户。假设模型的权重向量w＝(w₁，w₂，...w_n)；定义模型输出为样本数据集属于1的概率即为水军的概率，则对于特征向量x_i，其模型输出的预测值

的表达式为：

为使得权重向量w在训练集中模型的输出与给定的标签越接近越好即若标签为水军用户，则模型输出值越接近1，若标签为正常用户，则模型输出值越接近于0。因此损失函数可采用极大似然估计法作建立一个似然函数L，并将其最大化。

本发明将62554条数据按照8∶2比例分割成训练集和测试集。考虑到随机抽样的分布不确定性，故采用更为严谨的分层抽样抽样方法，使其关键特征上具有和总体数据集上基本一致的分布。如下表4为数据集分布情况。

表4数据集分布情况

通过上述实验结果将测试集11440条数据进行预测，得到的结果构造混淆矩阵如表5所示。

表5混淆矩阵

根据算法的评价指标对分类后结果进行分析，发现FN为2351个水军用户，而测试集中水军用户数量为5738个。如表6为算法模型评价指标。

表6算法模型评价指标

S5：对数据集进行情感分析得到评论文本的情感特征；

S6：根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果；

S6具体包括：

S6.1：对评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果进行划分得到CART数据集；其中，CART数据集为：

{(a₁，b₁，c₁，Setiment₁，d₁，e₁，y₁)，...，(a_n，b_n，c_n，Setiment_n，d_n，e_n，y_n)}，共n个样本，其中，a表示转发数量，b表示回复数量，c表示点赞数量，Setiment表示评论文本的情感特征，d表示第一网络水军识别结果的数据特征，e表示第二网络水军识别结果的数据特征，y表示标签类别；

S6.2：对CART数据集中的n个样本按照样本数量进行划分得到第一CART数据集和第二CART数据集；

S6.3：根据第一CART数据集和第二CART数据集构建基尼系数计算公式；其中，基尼系数计算公式为：

S6.4：对CART数据集按照8∶2比例分割成第三训练集和第三测试集；

S6.5：根据基尼系数计算公式和第三训练集得到CART树；

S6.6：对CART树进行剪枝得到剪枝后的CART树；具体的，采用惩罚函数对CART树进行剪枝得到剪枝后的CART树；其中，惩罚函数为：

其中，T为叶子节点的数量，α为惩罚参数，Nt为训练时叶节点处的样本数量，H_t为经验熵，k为类别数量，N_tk为样本点。

S6.7：根据剪枝后的CART树对第三测试集进行分类得到CART树分类结果。

下面对这一过程进行进一步的描述：

本发明将62554条数据按照8∶2比例分割成训练集和测试集。考虑到随机抽样的分布不确定性，故采用更为严谨的分层抽样抽样方法，使其关键特征上具有和总体数据集上基本一致的分布。如下表7为本发明中数据集分布情况。

表7数据集分布情况

根据微博评论信息的数据特征a，b，c，Setiment及基于微博评论文本的两种算法水军识别结果d和e，构造CART树。CART树与其他树的不同之处在于ID3树中采用信息增益选择特性，具有较高的增益偏好。在C4.5树中，选择信息增益率来选择特征，从而避免特征值过多导致信息增益大的问题。CART分类树算法利用基尼系数选择特征，确定特征的最优二值分割点。

下面对CART树算法进行相关描述：

在分类问题中假设有K个类，每个样本点属于K类的概率为P_k，对于文本的二分类问题，则K＝2即正常用户和水军用户可以将基尼指数公式简化为：

Gini(p)＝2P(1-P)

令数据集D_s有：

{(a₁，b₁，c₁，Setiment₁，d₁，e₁，y₁)，...，(a_n，b_n，c_n，Setiment_n，d_n，e_n，y_n)}，共n个样本，其中a，b，c，Setiment，d、e分别为每个样本的数据特征，a为转发数量，b为回复数量，c为点赞数量，Setiment为评论文本的情感特征，d、e为基于微博评论文本的两种算法水军识别结果。根据数据集的第i个属性即(a_i，b_i，c_i，Setiment_i，d_i，e_i，y_i)，将数据集划分为两部分为D_s1和D_s2，则基尼系数计算如下：

其中，n₁和n₂分别为数据集D_s1和D_s2的样本个数。通过比较以上四种的基尼系数，选择最小的，将所得到的属性值及其第i个属性值作为样本的最优***属性。

通过上述实验结果将测试集11440条数据进行预测，得到的结果构造混淆矩阵如表8所示。

表8混淆矩阵

由于CART树存在一个过拟合的问题，为了提高泛化能力，需要进行剪枝。本发明采用惩罚函数来度量过拟合程度。

剪枝过程是自下而上遍历的CART树，不断剪枝直至根节点，生成子树序列。其剪枝原则为对比剪枝前后子树序列的惩罚函数，若小于剪枝前，则进行剪枝。通过剪枝可以轻松的降低复杂度。

根据算法的评价指标对分类后结果进行分析，发现FN为707个水军用户，而测试集中水军用户数量为5677个，说明以基于微博评论文本的水军识别算法的结果输出d作为此小节的算法的输入以达到多特征(Setiment，a，b，c，d，e)作为CART树的输入，效果良好。如表9为CART树算法模型评价指标。

表9算法模型评价指标

S7：分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征；

S8：对第一预测结果特征、第二预测结果特征和第三预测结果特征进行加权融合得到网络水军识别结果。

在实际应用中，根据基于微博评论文本的水军识别模型与基于微博评论信息的水军识别模型进行融合，这里采用的是Boosting思想，将上述两个分类器加权得到强分类器。水军识别算法描述如下所示。

上述描述了基于微博评论的水军识别算法流程，利用Boosting思想，融合基于微博评论文本的水军识别模型和基于微博评论信息的水军识别模型，并且赋予不同权重，最后对算法进行迭代训练，可以达到识别水军的效果。根据上述算法对测试集进行预测所得到混淆矩阵如表10所示。

表10混淆矩阵

经过对比发现，该融合算法效果更佳。如表11所示为算法的评价指标：

表11算法的评价指标

本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合，可以融合各个网络水军的行为特征，大大提高了对网络水军的识别精度。

本发明还提供了一种网络水军识别***，包括：

微博评论信息获取模块，用于获取微博评论信息；微博评论信息包括评论文本、转发数量、回复数量和点赞数量；

评论文本特征提取模块，用于对评论文本进行特征提取生成数据集；

支持向量机算法训练模块，用于采用支持向量机算法对数据集进行训练得到第一网络水军识别结果；

逻辑回归算法训练模块，用于采用逻辑回归算法对数据集进行训练得到第二网络水军识别结果；

情感分析模块，用于对数据集进行情感分析得到评论文本的情感特征；

CART树训练模块，用于根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果；

结果特征提取模块，用于分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征；

特征加权融合模块，用于对第一预测结果特征、第二预测结果特征和第三预测结果特征进行加权融合得到网络水军识别结果。

本发明公开了一种网络水军识别方法与***，本发明提供的一种网络水军识别方法，首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果，然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果；最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合，可以融合各个网络水军的行为特征，大大提高了对网络水军的识别精度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。