发明内容
本发明提供一种僵尸账号检测方法和装置,用以解决现有技术中检测僵尸账号的时间较长,检测效率较低,并且资源消耗较大的问题。
本发明的一方面是提供一种僵尸账号检测方法,包括:
获取用户账号集合,并确定所述用户账号集合中各用户账号相互之间的关注关系;
根据所述关注关系,确定各用户账号所归属的群体以及各用户账号之间的吸引力程度,所述吸引力程度用于表征各用户账号之间的关注紧密程度;
若归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,则确定所述归属于同一群体的各用户账号为僵尸账号。
如上所述的方法中,在获取用户账号集合,并确定所述用户账号集合中各用户账号相互之间的关注关系之后,还包括:
根据所述关注关系,确定各用户账号的影响力值,所述影响力值用于表征各用户账号被关注的程度;
相应的,在所述确定所述归属于同一群体的各用户账号为僵尸账号之前,还包括:
判断所述归属于同一群体的各用户账号的影响力值是否小于第三预设阈值;
若是,则执行确定所述归属于同一群体的各用户账号为僵尸账号的步骤。
如上所述的方法中,所述根据所述关注关系,确定各用户账号所归属的群体以及各用户账号之间的吸引力程度,包括:
采用图切分算法对所述关注关系进行运算,得到各用户账号所归属的群体;
采用力导向算法对所述关注关系进行运算,得到各用户账号之间的吸引力程度。
如上所述的方法中,所述根据所述关注关系,确定各用户账号的影响力值,包括:
采用网页排名(Pagerank,简称PR)算法对所述关注关系进行运算,得到各用户账号的影响力值。
如上所述的方法中,在所述确定所述归属于同一群体的各用户账号为僵尸账号之后,还包括:
根据确定的各用户账号所归属的群体、各用户账号之间的吸引力程度以及确定的僵尸账号,确定社群关系图并显示所述社群关系图,所述社群关系图表征了各用户账号相互之间的关注紧密程度、各用户账号的群体属性以及僵尸账号,以使用户查看所述社群关系图中显示的僵尸账号所发布的内容。
本发明的另一方面是提供一种僵尸账号检测装置,包括:
获取模块,用于获取用户账号集合,并确定所述用户账号集合中各用户账号相互之间的关注关系;
第一确定模块,用于根据所述关注关系,确定各用户账号所归属的群体以及各用户账号之间的吸引力程度,所述吸引力程度用于表征各用户账号之间的关注紧密程度;
第二确定模块,用于若归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,则确定所述归属于同一群体的各用户账号为僵尸账号。
如上所述的装置中,还包括:
第三确定模块,用于在所述获取模块获取用户账号集合,并确定所述用户账号集合中各用户账号相互之间的关注关系之后,根据所述关注关系,确定各用户账号的影响力值,所述影响力值用于表征各用户账号被关注的程度;
相应的,还包括:
判断模块,用于在所述第二确定模块确定所述归属于同一群体的各用户账号为僵尸账号之前,判断所述归属于同一群体的各用户账号的影响力值是否小于第三预设阈值;若是,则执行所述第二确定模块中的确定所述归属于同一群体的各用户账号为僵尸账号的步骤。
如上所述的装置中,所述第一确定模块,具体用于:
采用图切分算法对所述关注关系进行运算,得到各用户账号所归属的群体;
采用力导向算法对所述关注关系进行运算,得到各用户账号之间的吸引力程度。
如上所述的装置中,所述第三确定模块,具体用于:
采用PR算法对所述关注关系进行运算,得到各用户账号的影响力值。
如上所述的装置中,还包括:
第四确定模块,用于在所述第二确定模块确定所述归属于同一群体的各用户账号为僵尸账号之后,根据确定的各用户账号所归属的群体、各用户账号之间的吸引力程度以及确定的僵尸账号,确定社群关系图并显示所述社群关系图,所述社群关系图表征了各用户账号相互之间的关注紧密程度、各用户账号的群体属性以及僵尸账号,以使用户查看所述社群关系图中显示的僵尸账号所发布的内容。
本发明通过获取用户账号集合,并确定用户账号集合中各用户账号相互之间的关注关系;根据关注关系,确定各用户账号所归属的群体以及各用户账号之间的吸引力程度,吸引力程度用于表征各用户账号之间的关注紧密程度;若归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,则确定归属于同一群体的各用户账号为僵尸账号。实现了只根据各个用户账号的关注关系去检测出僵尸账号,检测僵尸账号的时间较短,提高了检测效率,并且节约了资源。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的僵尸账号检测方法的流程图,如图1所示,本实施例的方法包括:
步骤101、获取用户账号集合,并确定用户账号集合中各用户账号相互之间的关注关系。
在本实施例中,具体的,首先获取用户账号集合,例如,获取某一个品牌官方微博下的全部粉丝的用户账号,组成一个用户账号集合;或者获取某一个论坛下的全部用户账号,组成一个用户账号集合。
然后获取用户账号集合中各个用户账号相互之间的关注关系。
步骤102、根据关注关系,确定各用户账号所归属的群体以及各用户账号之间的吸引力程度,吸引力程度用于表征各用户账号之间的关注紧密程度。
在本实施例中,具体的,根据各个用户账号相互之间的关注关系,对所有用户账号进行分组,确定出各个用户账号所归属的群体,给每个用户账号赋予一个群体标识。并且根据各个用户账号相互之间的关注关系,计算各个用户账号之间的关注紧密程度,从而可以得到各用户账号之间的吸引力程度。
步骤103、若归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,则确定归属于同一群体的各用户账号为僵尸账号。
在本实施例中,具体的,若归属于同一群体的各用户账号之间的吸引力程度都大于第一预设阈值,同时归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,可以确定出这些归属于同一群体的各用户账号为僵尸账号。
本实施例通过根据用户账号集合中各用户账号相互之间的关注关系,得到各用户账号所归属的群体以及各用户账号之间的吸引力程度,在归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值的情况下,确定归属于同一群体的各用户账号为僵尸账号。实现了只根据各个用户账号的关注关系去检测出僵尸账号,检测僵尸账号的时间较短,提高了检测效率,并且节约了资源。
图2为本发明实施例二提供的僵尸账号检测方法的流程图,在实施例一的基础上,如图2所示,本实施例的方法包括:
在步骤101之后,还包括:
步骤201、根据关注关系,确定各用户账号的影响力值,影响力值用于表征各用户账号被关注的程度;
相应的,在步骤103中,在确定归属于同一群体的各用户账号为僵尸账号之前,还包括:判断归属于同一群体的各用户账号的影响力值是否小于第三预设阈值;若是,则执行步骤103中确定归属于同一群体的各用户账号为僵尸账号的步骤。
在本实施例中,具体的,根据各个用户账号相互之间的关注关系,确定各用户账号被关注的程度,从而可以得到各个用户账号的影响力值。
然后,在步骤103中若归属于同一群体的各用户账号之间的吸引力程度都大于第一预设阈值,同时归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,同时,若归属于同一群体的各用户账号的影响力值都小于第三预设阈值,那么可以确定出这些归属于同一群体的各用户账号为僵尸账号。
本实施例通过确定各用户账号的影响力值,根据归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,以及归属于同一群体的各用户账号的影响力值都小于第三预设阈值的情况下,确定归属于同一群体的各用户账号为僵尸账号。实现了只根据各个用户账号的关注关系去检测出僵尸账号,检测僵尸账号的时间较短,提高了检测效率,并且节约了资源,同时提高了检测僵尸账号的准确率。
进一步的,在上述实施例的基础上,步骤102的具体实施方式,包括:
采用图切分算法对关注关系进行运算,得到各用户账号所归属的群体;
采用力导向算法对关注关系进行运算,得到各用户账号之间的吸引力程度。
在本实施方式中,具体的,根据各用户账号相互之间的相互关系,通过图切分算法(LouvainModularity,简称LM)算法对各用户账号相互之间的相互关系进行运算,对用户账号进行切分,可以得到各用户账号所归属的群体。根据各用户账号相互之间的相互关系,通过力导向算法对各用户账号相互之间的相互关系进行运算,可以对用户账号切分之后的用户数据进行计算,可以得到各用户账号之间的吸引力和排斥力的合力,这个合力为各用户账号之间的吸引力程度,吸引力程度表明了各用户账号之间的关注紧密程度。
进一步的,在上述实施例的基础上,步骤201的具体实施方式,包括:
采用PR算法算法对关注关系进行运算,得到各用户账号的影响力值。
在本实施方式中,具体的,可以采用PR算法对各用户账号的关注关系,可以在映射归约(Map-Reduce,简称MR)编程模型上实现运算,得到各用户账户的社交影响力,即各用户账号的影响力值。
进一步的,在上述实施例的基础上,在步骤103确定归属于同一群体的各用户账号为僵尸账号之后,还包括:
根据确定的各用户账号所归属的群体、各用户账号之间的吸引力程度以及确定的僵尸账号,确定社群关系图并显示社群关系图,社群关系图表征了各用户账号相互之间的关注紧密程度、各用户账号的群体属性以及僵尸账号,以使用户查看社群关系图中显示的僵尸账号所发布的内容。
在本实施方式中,具体的,在确定了归属于同一群体的各用户账号为僵尸账号之后,根据确定的各用户账号所归属的群体、各用户账号之间的吸引力程度、各用户账号的影响力值以及确定的僵尸账号,确定社群关系图。各用户账号的影响力值的大小,确定了社群关系图中表示各用户账号的各节点的大小。各用户账号所归属的群体,确定了社群关系图中表示各用户账号的各节点的颜色,归属于同一群体的用户账号的颜色相同。各用户账号之间的吸引力程度,确定了社群关系图中表示各用户账号的各节点之间的距离,可以获知各用户账号相互之间的关注紧密程度;相距越远的用户账号,关注紧密程度越低;相距越近的用户账号,关注紧密程度越高。
可以通过开源绘图脚本(JavaScript,简称JS)库,采用力导向算法绘制出社群关系图,在网页上进行图形渲染。在显示的社群关系图中,可以看到判断出的僵尸账号。僵尸账号具有如下特征:首先社交影响力较小,即影响力值较小,在社群关系图中的节点都很小,如果按直径大小排名,则这些点的直径分布在后20%;僵尸账号之间的关注关系很多,但是很少关注其他群体的账号,僵尸账号会高度内部聚合,点聚集成团簇,该团簇会远离其他群体,团簇的边缘离其他群体团簇的边缘的距离,会大于该团簇的直径。
图3为本发明实施例三提供的僵尸账号检测装置的结构示意图,如图3所示,本实施例的僵尸账号检测装置,包括:
获取模块31,用于获取用户账号集合,并确定用户账号集合中各用户账号相互之间的关注关系;
第一确定模块32,用于根据关注关系,确定各用户账号所归属的群体以及各用户账号之间的吸引力程度,吸引力程度用于表征各用户账号之间的关注紧密程度;
第二确定模块33,用于若归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,则确定归属于同一群体的各用户账号为僵尸账号。
本实施例的僵尸账号检测装置可执行本发明实施例一提供的僵尸账号检测方法,其实现原理相类似,此处不再赘述。
本实施例通过根据用户账号集合中各用户账号相互之间的关注关系,得到各用户账号所归属的群体以及各用户账号之间的吸引力程度,在归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值的情况下,确定归属于同一群体的各用户账号为僵尸账号。实现了只根据各个用户账号的关注关系去检测出僵尸账号,检测僵尸账号的时间较短,提高了检测效率,并且节约了资源。
图4为本发明实施例四提供的僵尸账号检测装置的结构示意图,在实施例三的基础上,如图4所示,本实施例的僵尸账号检测装置,还包括:
第三确定模块41,用于在获取模块31获取用户账号集合,并确定用户账号集合中各用户账号相互之间的关注关系之后,根据关注关系,确定各用户账号的影响力值,影响力值用于表征各用户账号被关注的程度;
相应的,还包括:
判断模块42,用于在第二确定模块33确定归属于同一群体的各用户账号为僵尸账号之前,判断归属于同一群体的各用户账号的影响力值是否小于第三预设阈值;若是,则执行第二确定模块33中的确定归属于同一群体的各用户账号为僵尸账号的步骤。
第一确定模块32,具体用于:
采用图切分算法对关注关系进行运算,得到各用户账号所归属的群体;
采用力导向算法对关注关系进行运算,得到各用户账号之间的吸引力程度。
第三确定模块41,具体用于:
采用PR算法对关注关系进行运算,得到各用户账号的影响力值。
还包括:
第四确定模块43,用于在第二确定模块33确定归属于同一群体的各用户账号为僵尸账号之后,根据确定的各用户账号所归属的群体、各用户账号之间的吸引力程度以及确定的僵尸账号,确定社群关系图并显示社群关系图,社群关系图表征了各用户账号相互之间的关注紧密程度、各用户账号的群体属性以及僵尸账号,以使用户查看社群关系图中显示的僵尸账号所发布的内容。
本实施例的僵尸账号检测装置可执行本发明实施例二和实施方式提供的僵尸账号检测方法,其实现原理相类似,此处不再赘述。
本实施例通过确定各用户账号的影响力值,根据归属于同一群体的各用户账号之间的吸引力程度大于第一预设阈值,且归属于同一群体的各用户账号与归属于其他群体的各用户账号之间的吸引力程度的均值小于第二预设阈值,以及归属于同一群体的各用户账号的影响力值都小于第三预设阈值的情况下,确定归属于同一群体的各用户账号为僵尸账号。实现了只根据各个用户账号的关注关系去检测出僵尸账号,检测僵尸账号的时间较短,提高了检测效率,并且节约了资源,同时提高了检测僵尸账号的准确率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。