CN103729474A

CN103729474A - 用于识别论坛用户马甲账号的方法和***

Info

Publication number: CN103729474A
Application number: CN201410032746.0A
Authority: CN
Inventors: 许洪波; 樊茜; 梁英; 程学旗; ***
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2014-04-16
Anticipated expiration: 2034-01-23
Also published as: CN103729474B

Abstract

本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型，利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号，然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征，通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系，提高了识别马甲账号的概率。而且针对网络语言的语法不严谨，并且有许多的网络用语的特点，通过提取用户发言文本中有效的特征进行分析，规避了词库更新内容和速度跟不上网络语言的流行等问题，减少了维护分词词典的复杂操作，提高了马甲识别的准确率。

Description

用于识别论坛用户马甲账号的方法和***

技术领域

本发明属于网络安全领域，尤其涉及识别论坛用户马甲账号的方法。

背景技术

如今，全球超过15亿人使用社交网络，全球社交网络的月活跃用户数量早已超过20亿，每天产生大量的言论。社交网站的后台实名注册实施困难，还没有完全普及；即使网站后台是基于实名制的，但是网络言论在网站前台大都是匿名的，不易知道网络上的言论所属网络用户的真实身份。在社交网络中，一个人拥有多个账号(ID)的情况十分常见，或是在同一网站拥有几个账号或是在不同网站均注册账号。一个人在同一网站注册多于2个账号时，常用的账号为主账号，而其余账号称为马甲账号，简称马甲。马甲的功能中一部分是负面的，其中：利用不同身份为自己所开的讨论冲人气或推文；在主账号已有固定的朋友圈或形成固定形象时，使用马甲反对甚至诋毁他人或发表另类见解；注册成千上万个账号来发布不良信息、散布谣言、炒作或者通过卖等级高的马甲账号获益等等。这样的行为既浪费网络资源，又影响网络的安全性和公平性。

现有的马甲账号识别方法中，主要是基于IP鉴定、基于临时邮箱或基于用户账号行为分析来识别马甲账号。但是在这些方法中，可利用的用户信息仅限于账号曾使用的IP地址、账号的注册信息或账号的操作行为等，因此识别范围小且识别准确率低。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的论坛用户马甲识别方法。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种用于识别论坛用户马甲账号的方法，包括：

步骤1，以来自论坛服务器的一组用户账号发言的文本作为训练集，基于训练集中各用户账号及每个文本的特征向量来训练分类模型，所述分类模型用于判断文本所属的用户账号；

步骤2，利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号；

步骤3，基于所述分类结果来识别马甲账号。

上述方法中，所述步骤1可包括：

11)对训练集中各用户账号的每个文本进行分词及词性标注；

12)从经分词和词性标注后的各个文本中选取特征词，构建各文本的特征向量；

13)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练所述分类模型。

上述方法中，所述步骤12)可包括：

对于经分词和词性标注后的每个文本，从中提取2-gram词组并统计该词组在该文本中出现的次数，将所提取的出现次数不低于设定的阈值的词组作为特征词；

从每个文本中提取的特征词共同组成该训练集的特征词表；以及

基于该训练集的特征词表，构建每个文本的特征向量。

上述方法中，所述步骤12)可包括：

从经分词和词性标注后的各个文本中选取长度不低于2的且出现频率不低于2的词语作为特征词，以组成该训练集的特征词表；以及

基于该训练集的特征词表，构建每个文本的特征向量。

上述方法中，所述步骤1中所述分类模型可以为支持向量机模型。

上述方法中，所述训练集与所述测试集可以为同一集合。

上述方法中，所述步骤2可包括：

21)基于训练好的分类模型，确定测试集中每个文本被分类到训练集中各个用户账号的概率；

22)对于每个文本，比较该文本被分到非该文本所属的用户账号的概率，取最大概率值对应的用户账号为该文本所分类到的用户账号。

上述方法中，所述训练集与所述测试集可以为不同的集合。

上述方法中，所述步骤2可包括：

22)对于测试集中每个文本，取最大概率值对应的训练集中的用户账号为该文本所分类到的用户账号。

上述方法中，所述步骤3可包括：

31)对于测试集中每个用户账号的多个文本，按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量；

32)对于测试集中待识别的用户账号，将所述数量的最大值对应的训练集中的用户账号判断为马甲账号。

上述方法中，所述步骤3可包括：

301)对于测试集中每个用户账号的多个文本，按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量；

302)对于测试集中待识别用户账号，采用下面的两个公式计算该用户账号对训练集中每个用户账号的如下两组相似度：

p_{i, j} = \frac{y_{i, j}}{Σ_{0 < k \leq n}^{k} y_{i, k}}, r_{i, j} = \frac{y_{i, j}}{Σ_{0 < k \leq 1}^{k} y_{k, j}}

其中，y_i，j是测试集中待识别的第i个用户账号的文本被分类到训练集中第j个用户账号的数量，l表示测试集中用户账号的个数，n表示训练集中用户账号的个数。

303)对于待识别的用户账号，在所计算得到的两组相似度中分别取相似度值大的前一个或几个相似度对应的用户账号作为该待识别的用户账号的马甲账号。

又一方面，本发明提供了一种用于识别论坛用户马甲账号的***，包括：

训练装置，用于基于训练集中各用户账号及每个文本的特征向量来训练分类模型，所述分类模型用于判断文本所属的用户账号；其中，所述训练集包括来自论坛服务器的一组用户账号发言的文本；

分类装置，用于利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号；

马甲识别装置，用于基于所述分类结果来识别马甲账号。

与现有技术相比，本发明的优点在于：

从论坛用户账号发言的文本数据中选取特征，通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系，提高了识别马甲账号的概率。而且针对网络语言的语法不严谨，并且有许多的网络用语的特点，通过提取用户发言文本中有效的特征进行分析，规避了词库更新内容和速度跟不上网络语言的流行等问题，减少了维护分词词典的复杂操作，提高了马甲识别的准确率。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的论坛用户马甲识别方法的流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的一个实施例中，提供了一种论坛用户马甲识别的方法，从论坛用户账号发言的文本中挖掘用户的语言风格间的相似性，从而发现属于同一人的多个账号之间的映射关系，以实现对马甲账号的识别。

图1给出了根据本发明一个实施例的论坛用户马甲识别的方法的流程示意图。如图1所示，该方法主要包括下列步骤：

步骤1，以来自论坛服务器的一组用户账号发言的文本作为训练集，基于训练集中各用户账号及每个文本的特征向量来训练分类模型，所述分类模型用于判断文本所属的用户账号。

在优选的实施例中，可以对来自论坛服务器的文本数据进行预处理操作。例如，对于来自论坛服务器的一组用户账号发言的文本数据，从其中清除/筛除可能干扰后续处理的噪声数据，以提高识别的效率。其中，用户账号发言的文本数据中噪声数据为非用户所说的文本，如用户转发的内容。又例如，由于论坛用户的帖子可能长短不一，可以在进行分类训练前，对这些来自论坛服务器的各用户账号发言的文本数据进行重组，例如按照设定方式重新整理成新的数据单元的形式，以进一步提高训练分类模型的效率。在一个示例中，可以设定单个数据单元的长度限制和单个用户账号可拥有的最多数据单元数量。将同一用户账号的文本数据以单条帖子文本为单位按照每个数据单元的长度限制汇总在多个数据单元中，并同时保证单条帖子文本的完整性，即将该用户账号的若干条帖子文本汇总成一个新的数据单元，直至达到数据单元的长度限制。同一用户账号的数据单元的数量不能超过单个用户账号可拥有的最多数据单元数量，多出的数据删除。单个数据单元的长度通常要设置为小于所有单个用户账号的文本数据总长度的最小值，单个用户的数据单元个数在一个数量级。例如，如果训练集中单个用户的数据量大部分都在10KB大小左右时，可将单个数据单元的长度限制设定为500字节，最多数据单元数量设定为20个。从而，在下面的分类模型训练过程中，可将用户账号的每个数据单元看作是该用户账号的一个文本，在训练集中每个用户账号有多个文本。

在一个实施例中，所述基于训练集中各用户账号及每个文本的特征向量来训练分类模型可以包括下列步骤：

1)对训练集中各用户账号的每个文本进行分词，并进行词性标注。

分词通常是参考词典进行的。可以利用现有的具有分词标注功能的各种分词工具，例如ICTCLAS分词软件包，将训练集中每个文本切分成多个词，并对其中每个词进行词性标注，例如，标注为n(名词)、v(动词)、w(标点)等等。

2)从经分词和词性标注后的各个文本中选取特征词，构建各文本的特征向量以用于训练分类模型。

首先，从经分词和词性标注后的各个文本中选取特征词，以构建该训练集的特征词表。在一个实施例中，从每个文本经分词得到的集合中选取长度不低于2的且出现频率不低于2的词语作为特征词，并组成该训练集的特征词表。但考虑到论坛上的网络文本有字数少，样本的特征稀疏，语法及语言不规范等特点(例如，经常出现流行错别字、简写，非正式的流行词语)，而且用于分词的词典的更新速度不可能一直跟得上网络流行词汇的产生速度，这样，采用现有的分词软件工具得到的经分词和词性标注后的各个文本中，有可能漏掉或不能识别出一些网络流行用语或帖子自身的不规范用语。在一个优选的实施例中，对于经分词和词性标注后的每个文本，从中提取2-gram词组并统计该词组在该文本中出现的次数，将所提取的出现次数不低于设定的阈值(例如，2次、3次等)的词组作为特征词，这些从每个文本中提取的特征词共同组成该训练集的特征词表。这样，所提取的特征词不会过少或过多。由于不直接使用分词后的词组作为特征词，所以不会因为论坛帖子文本所采用的网络语言中含有很多分词工具所用的词典中没有的新词，而致使分词错误，如将完整的词组拆分成几个字或词义完全不同的词，从而影响提取的特征词质量以及随后的分类效果。而且，也规避了词典更新内容和速度跟不上网络语言的流行等问题，减少了维护分词词典的复杂操作，同时，此类特征与语言风格更加相关，从而文本分类准确率提高了，相应的识别效果也应该有提高。

然后，基于该训练集的特征词表，构建每个文本的特征向量。例如，对于每个文本，统计该特征词表中每个词在该文本中出现的次数(即统计词频)，从而得到该文本的特征向量。为计算方便，还可以将所统计的每个词在文本中出现的次数进行归一化，然后以归一化后的次数来构建文本的特征向量。可以使用下面的公式将统计的词频归一化：

{tf}_{t, d} = \frac{n_{t}}{N_{d}}

其中，tf_t，d表示特征词t在文本d中的词频归一化后的数值，同时也是表征文本d的特征向量的维度t的数值；n_t表示特征词t在文本d中出现的次数；N_d表示文档d中一共有的特征词的数量。

3)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练分类模型，训练好的分类模型可用于判断文本所属的用户账号。这里的分类模型可以采用支持向量机(Support Vector Machine，SVM)模型、逻辑回归模型、决策树等典型的分类模型。

继续参考图1，在步骤2，对于测试集中各用户账号发言的文本，利用训练好的分类模型对其进行分类，也就是确定测试集中的每个文本被分类到训练集中的哪个用户账号。

基于训练好的分类模型，对于测试集中的文本数据进行分类，会得到一个分类得分矩阵：

其中，n为训练集中用户账号的个数，m为测试集中的文本数，该分类得分矩阵的第i行第j列表示测试集中第i个文本属于第j个用户账号的概率，记为x_i，j。该得分矩阵的列对应的是训练集中各个用户账号。其中，训练集与测试集的数据是同一集合或者是分别的两个集合，在本发明中均适用。也就是说，如果待识别的用户账号与马甲账号在同一数据集合中，则训练集与测试集为同一集合。如果待识别的用户账号与马甲账号在不同的数据集合，则相应地训练集与测试集也为不同的数据集合。

其中，如果训练、测试的数据是同一集合，对于每个文本，在分类得分矩阵中，比较该文本被分到非原用户账号(即除了该文本所属的用户账号之外的其他用户账号)的概率，取最大概率值对应的用户账号为该文本所分类到的用户账号。这里之所以要排除原用户账号，是因为由于训练和测试集是同一集合，所以对于每个文本被分类到其所属的用户账号的概率肯定是最大的。但该方法的目的是要识别原用户账号对应的马甲账号，因此从文本所属的用户账号之外，选择该文本最有可能分类到的用户账号作为该文本的分类结果。

如果训练、测试的数据为不同的两个集合，对于测试集中的每个文本，在分类矩阵中，取最大概率值对应的用户账号为该文本所分类到的用户账号。

步骤3，基于所述分类的结果来识别马甲账号，也就是判断测试集中各用户账号与训练集中各用户账号之间的相似性，将相似的两个或多个用户账号中的一个或多个识别为马甲账号。

在一个实施例中，所述步骤3可包括下列步骤：

步骤31)对于测试集中每个用户账号的多个文本，按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量。

步骤32)对于测试集中待识别的用户账号，取所述数量的最大值对应的训练集中的用户账号为马甲账号。

为了进一步有效地涵盖可能的马甲账号，在又一个实施例中，所述步骤3可包括下列步骤：

步骤301)对于测试集中每个用户账号的多个文本，按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量，从而得到下面的用户分类矩阵：

其中，l表示测试集中用户账号的个数，n表示训练集中用户账号的个数，该用户分类矩阵的第i行第j列表示第k个用户帐号的文本被分类到第j个用户账号的数量，记为y_i，j。

步骤302)基于聚合后获得的用户分类矩阵，计算测试集中用户账号对训练集中每个用户账号的两组相似度分布。

使用下面的公式分别计算两组相似度分布：

p_{i, j} = \frac{y_{i, j}}{Σ_{0 < k \leq n}^{k} y_{i, k}}, r_{i, j} = \frac{y_{i, j}}{Σ_{0 < k \leq 1}^{k} y_{k, j}}

其中，p_i，j和r_i，j表示测试集中用户账号i对训练集用户账号j的两组相似度的值，p_i，j表示测试集中第i个用户账号的文本被分类分到训练集中第j个用户账号的比例，r_i，j表示训练集中第j个用户账号被测试集中第i个用户账号的文本分到的比例，y_i，j是所述用户分类矩阵中第i行第j列的值；l表示测试集中用户账号的个数，n表示训练集中用户账号的个数。

步骤303)基于所得到的两组相似度分布来推测出可能的马甲账号。例如，对于一个用户账号i，通过将所计算的两组相似度分布{p_i，1，…p_i，j，…，p_i，n}和{r_1，i，…r_j，i，…，r_l，i}按相似度数值由大到小排列，并记录对应的用户账号得到两个用户账号序列p_list_i和r_list_i，综合取出这两个序列{p_list₁，…p_list_j，…p_list_n}和{r_list₁，…r_list_j，…r_list_l)中前若干名账号{p_list₁，…p_list_k，r_list₁，…r_list_k)作为该用户账号i的马甲推测结果。当然也根据用户或***的实际需求，确定所需推测马甲的数量，继而确定取序列中排在前面账号的数量。在其他实施例中，也可以设定分别取两组相似度分布中的最大值对应的用户账号作为所推测的马甲账号集。

现以训练集与测试集为同一集合为例，进一步说明如何识别马甲账号。假设训练和测试数据集中包含某论坛的n个用户账号的文本数据，经数据预处理操作后，共有m个数据单元的文本；接着基于此构建特征向量并训练分类模型。对于该数据集得到每个文本的分类得分矩阵，可记为：

其中，x_i，j为第i个文本被分类到第j个用户账号的概率。然后，按文本所述的用户账号进行聚合，得到用户的分类矩阵，可记为：

其中，y_i，j为第i个用户账号的文本被分类到第j个用户账号的数量。最后，对第i个用户计算出两组相似度分布，得到{p_i，1，…p_i，j，…，p_i，n}和{r_1，j，…r_i，j，…，r_n，j}，按相似度数值由大到小排列，记录对应的账号得到序列p_list_i和r_list_i，分别取出两个序列({p_list₁，…p_list_j，…p_list_n}和{r_list₁，…r_list_j，…r_list_n})中前一名账号{p_list₁，r_list₁}，即为推测的第i个用户的马甲结果。

在本发明的又一个实施例中，还提供了一种论坛用户马甲识别***。该***包括训练装置、分类装置和马甲识别装置。所述训练装置采用上文结合步骤1所讨论的方法基于训练集中各用户账号及每个文本的特征向量来训练用于判断文本所属的用户账号的分类模型。所述分类装置采用上文结合步骤2所讨论的方法利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号；所述马甲识别装置采用如上文结合步骤3所讨论的方法基于所述分类结果来识别马甲账号。

通过上述实施例可以看出，本发明的识别马甲账号的方法利用了论坛用户发言的文本数据，进行用户语言风格的挖掘，识别相同身份的用户，从而识别用户马甲。同时针对长度较短且含有不规范用语的网络中文文本，通过选择合适的特征词，改善了分类和识别效果。此外，还通过在用户文本分类结果基础上计算用户间的相似度来进行马甲判别，有效的涵盖用户真实马甲。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种用于识别论坛用户马甲账号的方法，所述方法包括：

步骤3，基于所述分类结果来识别马甲账号。

2.根据权利要求1所述的方法，所述步骤1包括：

11)对训练集中各用户账号的每个文本进行分词及词性标注；

3.根据权利要求2所述的方法，所述步骤12)包括：

基于该训练集的特征词表，构建每个文本的特征向量。

4.根据权利要求2所述的方法，所述步骤12)包括：

基于该训练集的特征词表，构建每个文本的特征向量。

5.根据权利要求1所述的方法，所述步骤1中所述分类模型为支持向量机模型。

6.根据权利要求1所述的方法，其中，所述训练集与所述测试集为同一集合。

7.根据权利要求6所述的方法，所述步骤2包括：

8.根据权利要求1所述的方法，其中，所述训练集与所述测试集为不同的集合。

9.根据权利要求8所述的方法，所述步骤2包括：

10.根据权利要求1所述的方法，所述步骤3包括：

11.根据权利要求1所述的方法，所述步骤3包括：

p_{i, j} = \frac{y_{i, j}}{Σ_{0 < k \leq n}^{k} y_{i, k}}, r_{i, j} = \frac{y_{i, j}}{Σ_{0 < k \leq 1}^{k} y_{k, j}}

12.一种用于识别论坛用户马甲账号的***，所述***包括：

马甲识别装置，用于基于所述分类结果来识别马甲账号。