CN103729474A - 用于识别论坛用户马甲账号的方法和*** - Google Patents
用于识别论坛用户马甲账号的方法和*** Download PDFInfo
- Publication number
- CN103729474A CN103729474A CN201410032746.0A CN201410032746A CN103729474A CN 103729474 A CN103729474 A CN 103729474A CN 201410032746 A CN201410032746 A CN 201410032746A CN 103729474 A CN103729474 A CN 103729474A
- Authority
- CN
- China
- Prior art keywords
- user account
- text
- training set
- account
- vest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
Description
技术领域
本发明属于网络安全领域,尤其涉及识别论坛用户马甲账号的方法。
背景技术
如今,全球超过15亿人使用社交网络,全球社交网络的月活跃用户数量早已超过20亿,每天产生大量的言论。社交网站的后台实名注册实施困难,还没有完全普及;即使网站后台是基于实名制的,但是网络言论在网站前台大都是匿名的,不易知道网络上的言论所属网络用户的真实身份。在社交网络中,一个人拥有多个账号(ID)的情况十分常见,或是在同一网站拥有几个账号或是在不同网站均注册账号。一个人在同一网站注册多于2个账号时,常用的账号为主账号,而其余账号称为马甲账号,简称马甲。马甲的功能中一部分是负面的,其中:利用不同身份为自己所开的讨论冲人气或推文;在主账号已有固定的朋友圈或形成固定形象时,使用马甲反对甚至诋毁他人或发表另类见解;注册成千上万个账号来发布不良信息、散布谣言、炒作或者通过卖等级高的马甲账号获益等等。这样的行为既浪费网络资源,又影响网络的安全性和公平性。
现有的马甲账号识别方法中,主要是基于IP鉴定、基于临时邮箱或基于用户账号行为分析来识别马甲账号。但是在这些方法中,可利用的用户信息仅限于账号曾使用的IP地址、账号的注册信息或账号的操作行为等,因此识别范围小且识别准确率低。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的论坛用户马甲识别方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种用于识别论坛用户马甲账号的方法,包括:
步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;
步骤2,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;
步骤3,基于所述分类结果来识别马甲账号。
上述方法中,所述步骤1可包括:
11)对训练集中各用户账号的每个文本进行分词及词性标注;
12)从经分词和词性标注后的各个文本中选取特征词,构建各文本的特征向量;
13)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练所述分类模型。
上述方法中,所述步骤12)可包括:
对于经分词和词性标注后的每个文本,从中提取2-gram词组并统计该词组在该文本中出现的次数,将所提取的出现次数不低于设定的阈值的词组作为特征词;
从每个文本中提取的特征词共同组成该训练集的特征词表;以及
基于该训练集的特征词表,构建每个文本的特征向量。
上述方法中,所述步骤12)可包括:
从经分词和词性标注后的各个文本中选取长度不低于2的且出现频率不低于2的词语作为特征词,以组成该训练集的特征词表;以及
基于该训练集的特征词表,构建每个文本的特征向量。
上述方法中,所述步骤1中所述分类模型可以为支持向量机模型。
上述方法中,所述训练集与所述测试集可以为同一集合。
上述方法中,所述步骤2可包括:
21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率;
22)对于每个文本,比较该文本被分到非该文本所属的用户账号的概率,取最大概率值对应的用户账号为该文本所分类到的用户账号。
上述方法中,所述训练集与所述测试集可以为不同的集合。
上述方法中,所述步骤2可包括:
21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率;
22)对于测试集中每个文本,取最大概率值对应的训练集中的用户账号为该文本所分类到的用户账号。
上述方法中,所述步骤3可包括:
31)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;
32)对于测试集中待识别的用户账号,将所述数量的最大值对应的训练集中的用户账号判断为马甲账号。
上述方法中,所述步骤3可包括:
301)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;
302)对于测试集中待识别用户账号,采用下面的两个公式计算该用户账号对训练集中每个用户账号的如下两组相似度:
其中,yi,j是测试集中待识别的第i个用户账号的文本被分类到训练集中第j个用户账号的数量,l表示测试集中用户账号的个数,n表示训练集中用户账号的个数。
303)对于待识别的用户账号,在所计算得到的两组相似度中分别取相似度值大的前一个或几个相似度对应的用户账号作为该待识别的用户账号的马甲账号。
又一方面,本发明提供了一种用于识别论坛用户马甲账号的***,包括:
训练装置,用于基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;其中,所述训练集包括来自论坛服务器的一组用户账号发言的文本;
分类装置,用于利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;
马甲识别装置,用于基于所述分类结果来识别马甲账号。
与现有技术相比,本发明的优点在于:
从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的论坛用户马甲识别方法的流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的一个实施例中,提供了一种论坛用户马甲识别的方法,从论坛用户账号发言的文本中挖掘用户的语言风格间的相似性,从而发现属于同一人的多个账号之间的映射关系,以实现对马甲账号的识别。
图1给出了根据本发明一个实施例的论坛用户马甲识别的方法的流程示意图。如图1所示,该方法主要包括下列步骤:
步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号。
在优选的实施例中,可以对来自论坛服务器的文本数据进行预处理操作。例如,对于来自论坛服务器的一组用户账号发言的文本数据,从其中清除/筛除可能干扰后续处理的噪声数据,以提高识别的效率。其中,用户账号发言的文本数据中噪声数据为非用户所说的文本,如用户转发的内容。又例如,由于论坛用户的帖子可能长短不一,可以在进行分类训练前,对这些来自论坛服务器的各用户账号发言的文本数据进行重组,例如按照设定方式重新整理成新的数据单元的形式,以进一步提高训练分类模型的效率。在一个示例中,可以设定单个数据单元的长度限制和单个用户账号可拥有的最多数据单元数量。将同一用户账号的文本数据以单条帖子文本为单位按照每个数据单元的长度限制汇总在多个数据单元中,并同时保证单条帖子文本的完整性,即将该用户账号的若干条帖子文本汇总成一个新的数据单元,直至达到数据单元的长度限制。同一用户账号的数据单元的数量不能超过单个用户账号可拥有的最多数据单元数量,多出的数据删除。单个数据单元的长度通常要设置为小于所有单个用户账号的文本数据总长度的最小值,单个用户的数据单元个数在一个数量级。例如,如果训练集中单个用户的数据量大部分都在10KB大小左右时,可将单个数据单元的长度限制设定为500字节,最多数据单元数量设定为20个。从而,在下面的分类模型训练过程中,可将用户账号的每个数据单元看作是该用户账号的一个文本,在训练集中每个用户账号有多个文本。
在一个实施例中,所述基于训练集中各用户账号及每个文本的特征向量来训练分类模型可以包括下列步骤:
1)对训练集中各用户账号的每个文本进行分词,并进行词性标注。
分词通常是参考词典进行的。可以利用现有的具有分词标注功能的各种分词工具,例如ICTCLAS分词软件包,将训练集中每个文本切分成多个词,并对其中每个词进行词性标注,例如,标注为n(名词)、v(动词)、w(标点)等等。
2)从经分词和词性标注后的各个文本中选取特征词,构建各文本的特征向量以用于训练分类模型。
首先,从经分词和词性标注后的各个文本中选取特征词,以构建该训练集的特征词表。在一个实施例中,从每个文本经分词得到的集合中选取长度不低于2的且出现频率不低于2的词语作为特征词,并组成该训练集的特征词表。但考虑到论坛上的网络文本有字数少,样本的特征稀疏,语法及语言不规范等特点(例如,经常出现流行错别字、简写,非正式的流行词语),而且用于分词的词典的更新速度不可能一直跟得上网络流行词汇的产生速度,这样,采用现有的分词软件工具得到的经分词和词性标注后的各个文本中,有可能漏掉或不能识别出一些网络流行用语或帖子自身的不规范用语。在一个优选的实施例中,对于经分词和词性标注后的每个文本,从中提取2-gram词组并统计该词组在该文本中出现的次数,将所提取的出现次数不低于设定的阈值(例如,2次、3次等)的词组作为特征词,这些从每个文本中提取的特征词共同组成该训练集的特征词表。这样,所提取的特征词不会过少或过多。由于不直接使用分词后的词组作为特征词,所以不会因为论坛帖子文本所采用的网络语言中含有很多分词工具所用的词典中没有的新词,而致使分词错误,如将完整的词组拆分成几个字或词义完全不同的词,从而影响提取的特征词质量以及随后的分类效果。而且,也规避了词典更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,同时,此类特征与语言风格更加相关,从而文本分类准确率提高了,相应的识别效果也应该有提高。
然后,基于该训练集的特征词表,构建每个文本的特征向量。例如,对于每个文本,统计该特征词表中每个词在该文本中出现的次数(即统计词频),从而得到该文本的特征向量。为计算方便,还可以将所统计的每个词在文本中出现的次数进行归一化,然后以归一化后的次数来构建文本的特征向量。可以使用下面的公式将统计的词频归一化:
其中,tft,d表示特征词t在文本d中的词频归一化后的数值,同时也是表征文本d的特征向量的维度t的数值;nt表示特征词t在文本d中出现的次数;Nd表示文档d中一共有的特征词的数量。
3)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练分类模型,训练好的分类模型可用于判断文本所属的用户账号。这里的分类模型可以采用支持向量机(Support Vector Machine,SVM)模型、逻辑回归模型、决策树等典型的分类模型。
继续参考图1,在步骤2,对于测试集中各用户账号发言的文本,利用训练好的分类模型对其进行分类,也就是确定测试集中的每个文本被分类到训练集中的哪个用户账号。
基于训练好的分类模型,对于测试集中的文本数据进行分类,会得到一个分类得分矩阵:
其中,n为训练集中用户账号的个数,m为测试集中的文本数,该分类得分矩阵的第i行第j列表示测试集中第i个文本属于第j个用户账号的概率,记为xi,j。该得分矩阵的列对应的是训练集中各个用户账号。其中,训练集与测试集的数据是同一集合或者是分别的两个集合,在本发明中均适用。也就是说,如果待识别的用户账号与马甲账号在同一数据集合中,则训练集与测试集为同一集合。如果待识别的用户账号与马甲账号在不同的数据集合,则相应地训练集与测试集也为不同的数据集合。
其中,如果训练、测试的数据是同一集合,对于每个文本,在分类得分矩阵中,比较该文本被分到非原用户账号(即除了该文本所属的用户账号之外的其他用户账号)的概率,取最大概率值对应的用户账号为该文本所分类到的用户账号。这里之所以要排除原用户账号,是因为由于训练和测试集是同一集合,所以对于每个文本被分类到其所属的用户账号的概率肯定是最大的。但该方法的目的是要识别原用户账号对应的马甲账号,因此从文本所属的用户账号之外,选择该文本最有可能分类到的用户账号作为该文本的分类结果。
如果训练、测试的数据为不同的两个集合,对于测试集中的每个文本,在分类矩阵中,取最大概率值对应的用户账号为该文本所分类到的用户账号。
步骤3,基于所述分类的结果来识别马甲账号,也就是判断测试集中各用户账号与训练集中各用户账号之间的相似性,将相似的两个或多个用户账号中的一个或多个识别为马甲账号。
在一个实施例中,所述步骤3可包括下列步骤:
步骤31)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量。
步骤32)对于测试集中待识别的用户账号,取所述数量的最大值对应的训练集中的用户账号为马甲账号。
为了进一步有效地涵盖可能的马甲账号,在又一个实施例中,所述步骤3可包括下列步骤:
步骤301)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量,从而得到下面的用户分类矩阵:
其中,l表示测试集中用户账号的个数,n表示训练集中用户账号的个数,该用户分类矩阵的第i行第j列表示第k个用户帐号的文本被分类到第j个用户账号的数量,记为yi,j。
步骤302)基于聚合后获得的用户分类矩阵,计算测试集中用户账号对训练集中每个用户账号的两组相似度分布。
使用下面的公式分别计算两组相似度分布:
其中,pi,j和ri,j表示测试集中用户账号i对训练集用户账号j的两组相似度的值,pi,j表示测试集中第i个用户账号的文本被分类分到训练集中第j个用户账号的比例,ri,j表示训练集中第j个用户账号被测试集中第i个用户账号的文本分到的比例,yi,j是所述用户分类矩阵中第i行第j列的值;l表示测试集中用户账号的个数,n表示训练集中用户账号的个数。
步骤303)基于所得到的两组相似度分布来推测出可能的马甲账号。例如,对于一个用户账号i,通过将所计算的两组相似度分布{pi,1,…pi,j,…,pi,n}和{r1,i,…rj,i,…,rl,i}按相似度数值由大到小排列,并记录对应的用户账号得到两个用户账号序列p_listi和r_listi,综合取出这两个序列{p_list1,…p_listj,…p_listn}和{r_list1,…r_listj,…r_listl)中前若干名账号{p_list1,…p_listk,r_list1,…r_listk)作为该用户账号i的马甲推测结果。当然也根据用户或***的实际需求,确定所需推测马甲的数量,继而确定取序列中排在前面账号的数量。在其他实施例中,也可以设定分别取两组相似度分布中的最大值对应的用户账号作为所推测的马甲账号集。
现以训练集与测试集为同一集合为例,进一步说明如何识别马甲账号。假设训练和测试数据集中包含某论坛的n个用户账号的文本数据,经数据预处理操作后,共有m个数据单元的文本;接着基于此构建特征向量并训练分类模型。对于该数据集得到每个文本的分类得分矩阵,可记为:
其中,xi,j为第i个文本被分类到第j个用户账号的概率。然后,按文本所述的用户账号进行聚合,得到用户的分类矩阵,可记为:
其中,yi,j为第i个用户账号的文本被分类到第j个用户账号的数量。最后,对第i个用户计算出两组相似度分布,得到{pi,1,…pi,j,…,pi,n}和{r1,j,…ri,j,…,rn,j},按相似度数值由大到小排列,记录对应的账号得到序列p_listi和r_listi,分别取出两个序列({p_list1,…p_listj,…p_listn}和{r_list1,…r_listj,…r_listn})中前一名账号{p_list1,r_list1},即为推测的第i个用户的马甲结果。
在本发明的又一个实施例中,还提供了一种论坛用户马甲识别***。该***包括训练装置、分类装置和马甲识别装置。所述训练装置采用上文结合步骤1所讨论的方法基于训练集中各用户账号及每个文本的特征向量来训练用于判断文本所属的用户账号的分类模型。所述分类装置采用上文结合步骤2所讨论的方法利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;所述马甲识别装置采用如上文结合步骤3所讨论的方法基于所述分类结果来识别马甲账号。
通过上述实施例可以看出,本发明的识别马甲账号的方法利用了论坛用户发言的文本数据,进行用户语言风格的挖掘,识别相同身份的用户,从而识别用户马甲。同时针对长度较短且含有不规范用语的网络中文文本,通过选择合适的特征词,改善了分类和识别效果。此外,还通过在用户文本分类结果基础上计算用户间的相似度来进行马甲判别,有效的涵盖用户真实马甲。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (12)
1.一种用于识别论坛用户马甲账号的方法,所述方法包括:
步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;
步骤2,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;
步骤3,基于所述分类结果来识别马甲账号。
2.根据权利要求1所述的方法,所述步骤1包括:
11)对训练集中各用户账号的每个文本进行分词及词性标注;
12)从经分词和词性标注后的各个文本中选取特征词,构建各文本的特征向量;
13)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练所述分类模型。
3.根据权利要求2所述的方法,所述步骤12)包括:
对于经分词和词性标注后的每个文本,从中提取2-gram词组并统计该词组在该文本中出现的次数,将所提取的出现次数不低于设定的阈值的词组作为特征词;
从每个文本中提取的特征词共同组成该训练集的特征词表;以及
基于该训练集的特征词表,构建每个文本的特征向量。
4.根据权利要求2所述的方法,所述步骤12)包括:
从经分词和词性标注后的各个文本中选取长度不低于2的且出现频率不低于2的词语作为特征词,以组成该训练集的特征词表;以及
基于该训练集的特征词表,构建每个文本的特征向量。
5.根据权利要求1所述的方法,所述步骤1中所述分类模型为支持向量机模型。
6.根据权利要求1所述的方法,其中,所述训练集与所述测试集为同一集合。
7.根据权利要求6所述的方法,所述步骤2包括:
21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率;
22)对于每个文本,比较该文本被分到非该文本所属的用户账号的概率,取最大概率值对应的用户账号为该文本所分类到的用户账号。
8.根据权利要求1所述的方法,其中,所述训练集与所述测试集为不同的集合。
9.根据权利要求8所述的方法,所述步骤2包括:
21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率;
22)对于测试集中每个文本,取最大概率值对应的训练集中的用户账号为该文本所分类到的用户账号。
10.根据权利要求1所述的方法,所述步骤3包括:
31)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;
32)对于测试集中待识别的用户账号,将所述数量的最大值对应的训练集中的用户账号判断为马甲账号。
11.根据权利要求1所述的方法,所述步骤3包括:
301)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;
302)对于测试集中待识别用户账号,采用下面的两个公式计算该用户账号对训练集中每个用户账号的如下两组相似度:
其中,yi,j是测试集中待识别的第i个用户账号的文本被分类到训练集中第j个用户账号的数量,l表示测试集中用户账号的个数,n表示训练集中用户账号的个数。
303)对于待识别的用户账号,在所计算得到的两组相似度中分别取相似度值大的前一个或几个相似度对应的用户账号作为该待识别的用户账号的马甲账号。
12.一种用于识别论坛用户马甲账号的***,所述***包括:
训练装置,用于基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;其中,所述训练集包括来自论坛服务器的一组用户账号发言的文本;
分类装置,用于利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;
马甲识别装置,用于基于所述分类结果来识别马甲账号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410032746.0A CN103729474B (zh) | 2014-01-23 | 2014-01-23 | 用于识别论坛用户马甲账号的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410032746.0A CN103729474B (zh) | 2014-01-23 | 2014-01-23 | 用于识别论坛用户马甲账号的方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103729474A true CN103729474A (zh) | 2014-04-16 |
CN103729474B CN103729474B (zh) | 2017-07-21 |
Family
ID=50453548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410032746.0A Active CN103729474B (zh) | 2014-01-23 | 2014-01-23 | 用于识别论坛用户马甲账号的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103729474B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239490A (zh) * | 2014-09-05 | 2014-12-24 | 电子科技大学 | 一种用于ugc网站平台的多账户检测方法及装置 |
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和*** |
CN104901847A (zh) * | 2015-05-27 | 2015-09-09 | 国家计算机网络与信息安全管理中心 | 一种社交网络僵尸账号检测方法及装置 |
CN105183806A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种不同平台间识别同一用户的方法与*** |
CN105357167A (zh) * | 2014-08-19 | 2016-02-24 | 阿里巴巴集团控股有限公司 | 业务处理方法和装置 |
CN105630904A (zh) * | 2015-12-21 | 2016-06-01 | 中国电子科技集团公司第十五研究所 | 一种互联网账户信息挖掘的方法和装置 |
CN105740274A (zh) * | 2014-12-10 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 基于无向图的用户账号查找方法及装置 |
CN106021232A (zh) * | 2016-05-24 | 2016-10-12 | 北京工商大学 | 一种基于依存句法关系的微博马甲账号识别方法 |
WO2017028597A1 (zh) * | 2015-08-20 | 2017-02-23 | 腾讯科技(深圳)有限公司 | 一种虚拟资源的数据处理方法及装置 |
CN107070702A (zh) * | 2017-03-13 | 2017-08-18 | 中国人民解放军信息工程大学 | 基于合作博弈支持向量机的用户账号关联方法及其装置 |
CN110113664A (zh) * | 2019-04-10 | 2019-08-09 | 华南理工大学 | 一种基于直播频道用户观看行为相似性的用户身份识别方法 |
CN110598157A (zh) * | 2019-09-20 | 2019-12-20 | 北京字节跳动网络技术有限公司 | 目标信息识别方法、装置、设备及存储介质 |
CN111382366A (zh) * | 2020-03-03 | 2020-07-07 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN113742184A (zh) * | 2020-06-05 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 构建用户历史行为表示向量、用户行为异常检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102185788A (zh) * | 2011-01-31 | 2011-09-14 | 北京开心人信息技术有限公司 | 一种基于临时邮箱的查找马甲账号的方法及*** |
US20120271627A1 (en) * | 2006-10-10 | 2012-10-25 | Abbyy Software Ltd. | Cross-language text classification |
-
2014
- 2014-01-23 CN CN201410032746.0A patent/CN103729474B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120271627A1 (en) * | 2006-10-10 | 2012-10-25 | Abbyy Software Ltd. | Cross-language text classification |
CN102185788A (zh) * | 2011-01-31 | 2011-09-14 | 北京开心人信息技术有限公司 | 一种基于临时邮箱的查找马甲账号的方法及*** |
Non-Patent Citations (2)
Title |
---|
ZHAN BU ET AL.: ""A sock puppet detection algorithm on virtual spaces"", 《KNOWLEDGE-BASED SYSTEMS 》 * |
马建斌: ""中文web信息作者同一认定技术研究"", 《中国博士学位论文全文数据库-信息科技辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105357167B (zh) * | 2014-08-19 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 业务处理方法和装置 |
CN105357167A (zh) * | 2014-08-19 | 2016-02-24 | 阿里巴巴集团控股有限公司 | 业务处理方法和装置 |
CN104239490B (zh) * | 2014-09-05 | 2017-05-10 | 电子科技大学 | 一种用于ugc网站平台的多账户检测方法及装置 |
CN104239490A (zh) * | 2014-09-05 | 2014-12-24 | 电子科技大学 | 一种用于ugc网站平台的多账户检测方法及装置 |
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和*** |
CN105740274B (zh) * | 2014-12-10 | 2019-06-18 | 阿里巴巴集团控股有限公司 | 基于无向图的用户账号查找方法及装置 |
CN105740274A (zh) * | 2014-12-10 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 基于无向图的用户账号查找方法及装置 |
CN104901847B (zh) * | 2015-05-27 | 2018-10-30 | 国家计算机网络与信息安全管理中心 | 一种社交网络僵尸账号检测方法及装置 |
CN104901847A (zh) * | 2015-05-27 | 2015-09-09 | 国家计算机网络与信息安全管理中心 | 一种社交网络僵尸账号检测方法及装置 |
CN106469413A (zh) * | 2015-08-20 | 2017-03-01 | 深圳市腾讯计算机***有限公司 | 一种虚拟资源的数据处理方法及装置 |
CN106469413B (zh) * | 2015-08-20 | 2021-08-03 | 深圳市腾讯计算机***有限公司 | 一种虚拟资源的数据处理方法及装置 |
US10942949B2 (en) | 2015-08-20 | 2021-03-09 | Tencent Technology (Shenzhen) Company Limited | Data processing method and apparatus for virtual resource |
WO2017028597A1 (zh) * | 2015-08-20 | 2017-02-23 | 腾讯科技(深圳)有限公司 | 一种虚拟资源的数据处理方法及装置 |
CN105183806A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种不同平台间识别同一用户的方法与*** |
CN105630904A (zh) * | 2015-12-21 | 2016-06-01 | 中国电子科技集团公司第十五研究所 | 一种互联网账户信息挖掘的方法和装置 |
CN106021232B (zh) * | 2016-05-24 | 2019-06-28 | 北京工商大学 | 一种基于依存句法关系的微博马甲账号识别方法 |
CN106021232A (zh) * | 2016-05-24 | 2016-10-12 | 北京工商大学 | 一种基于依存句法关系的微博马甲账号识别方法 |
CN107070702B (zh) * | 2017-03-13 | 2019-12-10 | 中国人民解放军信息工程大学 | 基于合作博弈支持向量机的用户账号关联方法及其装置 |
CN107070702A (zh) * | 2017-03-13 | 2017-08-18 | 中国人民解放军信息工程大学 | 基于合作博弈支持向量机的用户账号关联方法及其装置 |
CN110113664A (zh) * | 2019-04-10 | 2019-08-09 | 华南理工大学 | 一种基于直播频道用户观看行为相似性的用户身份识别方法 |
CN110598157A (zh) * | 2019-09-20 | 2019-12-20 | 北京字节跳动网络技术有限公司 | 目标信息识别方法、装置、设备及存储介质 |
CN111382366A (zh) * | 2020-03-03 | 2020-07-07 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN113742184A (zh) * | 2020-06-05 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 构建用户历史行为表示向量、用户行为异常检测方法及装置 |
CN113742184B (zh) * | 2020-06-05 | 2024-03-26 | 国家计算机网络与信息安全管理中心 | 构建用户历史行为表示向量、用户行为异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103729474B (zh) | 2017-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103729474A (zh) | 用于识别论坛用户马甲账号的方法和*** | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN106919661B (zh) | 一种情感类型识别方法及相关装置 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
WO2020073714A1 (zh) | 训练样本获取方法,账户预测方法及对应装置 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和*** | |
CN101520802A (zh) | 一种问答对的质量评价方法和*** | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
WO2007143914A1 (fr) | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN111782793A (zh) | 智能客服处理方法和***及设备 | |
CN110362826A (zh) | 基于人工智能的期刊投稿方法、设备及可读存储介质 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20140416 Assignee: Branch DNT data Polytron Technologies Inc Assignor: Institute of Computing Technology, Chinese Academy of Sciences Contract record no.: 2018110000033 Denomination of invention: Method and system for identifying vest account numbers of forum users Granted publication date: 20170721 License type: Common License Record date: 20180807 |