CN109284380B - 基于大数据分析的非法用户识别方法及装置、电子设备 - Google Patents

基于大数据分析的非法用户识别方法及装置、电子设备 Download PDF

Info

Publication number
CN109284380B
CN109284380B CN201811120248.6A CN201811120248A CN109284380B CN 109284380 B CN109284380 B CN 109284380B CN 201811120248 A CN201811120248 A CN 201811120248A CN 109284380 B CN109284380 B CN 109284380B
Authority
CN
China
Prior art keywords
user set
identified
users
clusters
legal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811120248.6A
Other languages
English (en)
Other versions
CN109284380A (zh
Inventor
孙家棣
马宁
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811120248.6A priority Critical patent/CN109284380B/zh
Priority to PCT/CN2018/125248 priority patent/WO2020062690A1/zh
Publication of CN109284380A publication Critical patent/CN109284380A/zh
Application granted granted Critical
Publication of CN109284380B publication Critical patent/CN109284380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开涉及大数据技术领域,提供了一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质,所述方法包括:获取待识别用户集以及合法用户集的有效特征数据;将合法用户集的有效特征数据进行聚类,确定聚类簇数;按照聚类簇数对待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。本发明提供的技术方案,采用聚类的方式可以批量识别虚假注册的用户,提高识别效率,由于不再采用行为特征匹配的方式进行虚假注册用户的识别,提高了识别准确性。

Description

基于大数据分析的非法用户识别方法及装置、电子设备
技术领域
本公开涉及大数据技术领域,特别涉及一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质。
背景技术
目前,智能手机等智能终端的普及为各种类型的APP(Application,应用程序)提供了载体。在各种类型的APP上都充斥着大量的无活动量的僵尸用户,或者大量的专门为刷量而存在的及其活跃的用户,这两类都是虚假注册的用户,虚假注册用户的存在一方面干扰了网络上正常秩序,另一方面导致了浪费资源。
针对现状中存在的虚假注册用户,传统做法是人为判断虚假用户并进行删除,导致工作效率较低。现有做法是分析总结虚假注册用户的行为特征,形成特征库,进而对于未知用户,可以通过行为特征匹配的方式,确定是否属于虚假用户。由于特征库数据量有限,更新缓慢,因此虚假注册用户可能绕开特征库记载的特征,由此无法准确识别出虚假注册的用户。
发明内容
为了解决相关技术中存在的无法准确识别出虚假注册用户的问题,本公开提供了一种基于大数据分析的非法用户识别方法。
一方面,本发明提供了一种基于大数据分析的非法用户识别方法,包括:
获取待识别用户集以及合法用户集的有效特征数据;
将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
可选的,在所述获取待识别用户集以及合法用户集的有效特征数据之前,所述方法还包括:
获取待识别用户集和合法用户集的业务数据;
对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
可选的,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,包括:
从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
可选的,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
可选的,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
可选的,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户,包括:
从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
可选的,所述根据所述异常簇中用户,确定所述待识别用户集中的非法用户,包括:
根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
另一方面,本发明还提供了一种基于大数据分析的非法用户识别装置,所述装置包括:
数据获取模块,用于获取待识别用户集以及合法用户集的有效特征数据;
簇数确定模块,用于将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
用户聚类模块,用于按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
异常簇筛选模块,用于从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
此外,本发明还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述基于大数据分析的非法用户识别方法。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述基于大数据分析的非法用户识别方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本发明提供的技术方案,通过对合法用户集的有效特征数据进行聚类,进而可以确定合适的聚类簇数,按照该聚类簇数将待识别用户集和合法用户集的有效特征数据进行聚类,对于合法用户数量较少的聚类类可以认为是异常簇,进而对于分类至异常簇中的待识别用户集中用户,可以认为是非法用户。本发明提供的技术方案,采用聚类的方式可以批量识别虚假注册的用户,提高识别效率,由于不再采用行为特征匹配的方式进行虚假注册用户的识别,提高了识别准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本公开所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种服务器的框图;
图3是根据一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图;
图4是在图3对应实施例的基础上另一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图;
图5是图4对应实施例中步骤302的细节流程图;
图6是图4对应实施例中步骤302的细节流程图;
图7是图3对应实施例中步骤370的细节流程图;
图8是注册时间和设备剩余存储空间呈现负相关关系的示意图;
图9是图7对应实施例中步骤373的细节流程图;
图10是4个设备进行批量虚假注册的注册时间和设备剩余存储空间关系示意图;
图11是根据一示例性实施例示出的一种基于大数据分析的非法用户识别装置的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本公开所涉及的实施环境的示意图。该实施环境包括:多个移动终端110和服务器120。
多个移动终端110和服务器120之间采用有线或无线网络连接。每个移动终端110通过运行软件APP向服务器120请求进行用户账号注册。服务器120可以采用本发明提供的方案进行非法用户(包括虚假注册的用户)的识别。
应当说明的是,本发明提供的基于大数据分析的非法用户识别方法,不限于在服务器120中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑。例如,在具备计算能力的终端设备中部署本发明非法用户识别方法的处理逻辑等。
参见图2,图2是本发明实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器200中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作***241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。下述图3-图7、图9所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。
本领域普通技术人员可以理解实现下述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
图3是根据一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图。该基于大数据分析的非法用户识别方法的适用范围和执行主体可以是服务器,该服务器可以是图1所示实施环境的服务器120。如图3所示,该方法可以包括以下步骤。
在步骤310中,获取待识别用户集以及合法用户集的有效特征数据。
其中,非法用户是指非正常使用APP(如金管家APP)的用户,与合法用户相对。非法用户可以是黑色产业批量虚假注册产生的用户。待识别用户集包括多个用户但其合法性未知,即尚不确定是否属于虚假注册的用户。合法用户集是指确定属于正常注册和使用APP的多个用户。合法用户集可以是正式业务员、寿险内勤人员、保单用户、基金用户等白名单用户集合。有效特征数据用于表征用户的基本信息,例如位置信息、设备信息、注册手机号码、注册时间等。
在步骤330中,将所述合法用户集的有效特征数据进行聚类,确定聚类簇数。
其中,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类簇数是指由类似对象组成的多个类的数量,也就是分类的类别数。具体的,可以采用k-means聚类算法对合法用户集的有效特征数据进行聚类,通过遍历聚类簇数即尝试聚成2类、3类、4类等,分别计算出不同簇数时,合法用户集的总簇内变差和。其中,计算总簇内变差和公式如下所示:
其中,S表示总簇内变差和;m表示簇个数;p表示合法用户集中样本实例;ci是簇i的中心;d(x,y)表示两点x和y的欧几里得距离。
取上述S值最小时的簇数,作为最合适的聚类簇数。总簇内变差和用于表征所有簇内的相似度之和,当总簇内变差和最小时,则表示此时所有簇内的相似度之和达到最高,也就是相似的用户被聚类到同一个簇中,不相似的用户在另一个簇中,此时达到的聚类簇数可以认为是最合适的聚类簇数。
在步骤350中,按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇。
具体的,可以采用k-means聚类算法将待识别用户集和合法用户集的有效特征数据按照步骤330确定的最合适的聚类簇数进行聚类。例如,聚类簇数是4类时,总簇内变差和最小,由此根据待识别用户集的有效特征数据和合法用户集的有效特征数据,可以将所有用户分成4个聚类簇。需要说明的是,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
在步骤370中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
需要解释的是,由于簇内用户具有较高相似性,不同簇间用户之间具有较高差异性。所有没有合法用户或者合法用户数非常少(小于某一预设阈值)的簇即为异常簇。也就是说,没有合法用户为这类簇的合法性做担保,认为是异常簇。进而,对于被分类至异常簇中的待识别用户集中用户,可以认为是非法用户。
本发明上述示例性实施例提供的技术方案,通过对合法用户集的有效特征数据进行聚类,进而可以确定合适的聚类簇数,按照该聚类簇数将待识别用户集和合法用户集的有效特征数据进行聚类,对于合法用户数量较少的聚类类可以认为是异常簇,进而对于分类至异常簇中的待识别用户集中用户,可以认为是非法用户。本发明提供的技术方案,采用聚类的方式可以批量识别虚假注册的用户,提高识别效率,由于不再采用行为特征匹配的方式进行虚假注册用户的识别,提高了识别准确性。
在一种示例性实施例中,如图4所示,在上述步骤310之前,本发明提供的基于大数据分析的非法用户识别方法还包括以下步骤:
在步骤301中,获取待识别用户集和合法用户集的业务数据;
其中,业务数据包括注册手机号码、注册时间、sdk(注册使用的设备信息)数据等。Sdk数据包括:接入App的包名、接入App的版本号、操作***版本号、经纬度信息、SIM(客户识别模块)卡串号、IMSI(国际移动用户识别码)、IMEI(国际移动设备识别码)、设备Mac地址等。进一步,业务数据还可以包括从上述数据中衍生出的数据,例如GPS数据经纬度信息、手机号运营商号段(手机号码前三位),手机号码第4到第7位数字,运营商归属地是否一致,网络类型为wifi但连接的wifi名称是否为空,ip前半部分数据,电池电量位等。根据需要,可以过滤掉异常数据和缺失数据,并将合法用户账号标记为1,否则标记为0。
在步骤302中,对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
需要说明的是,业务数据包含的数据类别较多,如上所述业务数据包括注册手机号码、注册时间、sdk(注册使用的设备信息)数据等。但是并非所有业务数据都能用于表征用户是否合法,由此需要从业务数据中提取出可以用于表征用户是否合法的数据类别,作为有效特征数据。
在一种实施例中,所述业务数据包括多个特征变量,步骤302具体包括:从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
其中,特征变量也就是数据类别,接入App的包名可以看成一个特征变量,接入App的版本号可以看成另一特征变量,操作***版本号也可以看成一个特征变量。服务器可以统计出每个特征变量的类别个数,将类别个数大于1的特征变量标记出来,进而过滤掉变量值相同的特征变量。例如,如果所有用户的接入app的版本号都是相同的,则“接入app版本号”这个特征变量可以去除,因为接入app版本号对于所有用户都是相同的,并不能用于表征用户是否合法。在一种实施例中,剩余的特征变量可以认为是有效特征数据。
在一种实施例中,如图5所示,上述步骤302还可以包括以下步骤:
在步骤501中,统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
需要说明的是,如果某个特征变量可以用于表征用户是否合法,那么该特征变量的某个变量值在合法用户集中的出现频率和在待识别用户集中的出现频率应当存在较大差异。其中,第一出现频率是指某一变量值在合法用户集中的出现频数除以其总的数据条数。第二出现频率是指某一变量值在待识别用户集中的出现频数除以其总的数据条数。
在步骤502中,若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
举例来说,如果注册时间“aaaa”在合法用户集中的第一出现频率与在待识别用户集中的第二出现频率差异较大,则可以认为注册时间这个特征变量属于有效特征数据。其中,第一出现频率与第二出现频率的差值大于预设范围,可以认为出现频率在合法用户集中和待识别用户集中的差异较大,该特征变量属于有效特征变量。
在另一实施例中,如图6所示,上述步骤302可以包括:
在步骤601中,根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
具体的,统计特征变量的每一变量值在合法用户集中的出现频数,利用以下公式预测该变量值在待识别用户集中的出现频数(即预测频数):
其中,x表示某一变量值在合法用户集中出现的频数,N表示总体数据条数(待识别用户集和合法用户集的数据条数总和),n表示合法用户集的数据条数,y表示该变量值在待识别用户集中的预测频数。
也就是说,先假设该变量值在合法用户集中的出现频率和在待识别用户集中的出现频率相同,由此根据该变量值在合法用户集中的出现频数,可以预测出该变量值在待识别用户集中的出现频数。
在步骤602中,统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;第一预设值大于第二预设值。
其中,真实频数是指在待识别用户集中统计得到的某变量值的出现次数。可以用z表示。在一个实施例中,第一预设值可以是100,第二预设值可以是10。其中,数值10、100可以根据经验进行调整。定义有效特征的条件是:且z>100且x<10。其中,如上所述x表示某一变量值在合法用户集中的出现频数,y表示该变量值在待识别用户集中的预测频数,z表示该变量值在待识别用户集中的真实频数。表示真实频数大于预测频数。
也就是说,根据某变量值在合法用户集中的占比,可以预测出该变量值在待识别用户集中的预测频数,如果待识别用户集中该变量值真实的频数与预测频数的比值大于1,且真实频数大于100且该变量值在合法用户集中的频数小于10时,可以认为该变量值所属的特征变量属于有效特征。由此筛选出业务数据中的有效特征数据。
在一种示例性实施例中,如图7所示,上述步骤370具体包括:
在步骤371中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇。
在步骤372中,验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系。
在步骤373中,若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
需要说明的是,正常情况下,一天内设备剩余存储空间是平均分布的,并不会随着时间从早到晚的变化,剩余存储空间逐渐减少。如果存在剩余存储空间逐渐减少的情况,只能说明几个设备在批量虚假注册,因为随着注册账号数量的增加,生成某些文件存储在设备中,所以导致设备剩余存储空间在逐渐减小。
其中,负相关关系是指注册时间和设备剩余存储空间呈现递减和接近递减的关系。即随着注册时间的增长,设备剩余存储空间不断减少。如图8所示,横轴标识一天内账号注册时间,纵轴标识设备剩余存储空间。如果黑产使用几个设备批量注册虚假用户,则可以得到图8所示随着注册时间的增长,设备剩余存储空间逐渐减少的斜线段。由此,本发明在筛选出异常簇之后,通过进一步验证异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系,可以确定异常簇中用户是否属于批量注册的虚假用户,进而可以确定待识别用户集中的虚假注册用户。
在一种实施例中,如图9所示,上述步骤373具体包括:
在步骤901中,根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
其中,设备总存储空间是异常簇中用户所使用的设备的总存储空间。设备启动时间是异常簇中用户所使用的设备的开启时间。对于注册时间和设备剩余存储空间呈负相关关系的异常簇,按照设备总存储空间和设备启动时间对异常簇内用户进行分类。将设备总存储空间和设备启动时间均相同的用户归为一类。如图10所示,可以分成4类,代表不法分子可能采用了4个设备进行用户账号的批量注册。
在步骤902中,分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
参照图10所示的斜线段,在经过步骤901的分类后,分别计算每类用户的注册时间和设备剩余存储空间的pearson(皮尔逊)或spearman(斯皮尔曼)相关系数,是否是属于[-1,-0.9]闭区间。如果属于该指定范围,则该类用户属于非法用户。每日生产环境上ios版本设备新注册账号量大约6-8万个,采用本发明提供的方法,可以识别出虚假账号大约2-3万个。
下述为本公开装置实施例,可以用于执行本公开上述服务器120执行的基于大数据分析的非法用户识别方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开基于大数据分析的非法用户识别方法实施例。
图11是根据一示例性实施例示出的一种基于大数据分析的非法用户识别装置的框图,该基于大数据分析的非法用户识别装置可以用于图1所示实施环境的服务器120中,执行图3-图7、图9任一所示的基于大数据分析的非法用户识别方法的全部或者部分步骤。如图11所示,该装置包括但不限于:数据获取模块1110、簇数确定模块1130、用户聚类模块1150以及异常簇筛选模块1170。
数据获取模块1110,用于获取待识别用户集以及合法用户集的有效特征数据;
簇数确定模块1130,用于将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
用户聚类模块1150,用于按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
异常簇筛选模块1170,用于从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于大数据分析的非法用户识别方法中对应步骤的实现过程,在此不再赘述。
数据获取模块1110比如可以是图2中的某一个物理结构有线或无线网络接口250。
簇数确定模块1130、用户聚类模块1150以及异常簇筛选模块1170也可以是功能模块,用于执行上述基于大数据分析的非法用户识别方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的中央处理器222所执行的存储在存储器232中的程序。
可选的,本公开还提供一种电子设备,该电子设备可以用于图1所示实施环境的服务器120中,执行图3-图7、图9任一所示的基于大数据分析的非法用户识别方法的全部或者部分步骤。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述示例性实施例所述的基于大数据分析的非法用户识别方法。
该实施例中电子设备的处理器执行操作的具体方式已经在有关该基于大数据分析的非法用户识别方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序可由服务器200的中央处理器222执行以完成上述基于大数据分析的非法用户识别方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种基于大数据分析的非法用户识别方法,其特征在于,包括:
获取待识别用户集以及合法用户集的有效特征数据;
将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
2.根据权利要求1所述的方法,其特征在于,在所述获取待识别用户集以及合法用户集的有效特征数据之前,所述方法还包括:
获取待识别用户集和合法用户集的业务数据;
对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
3.根据权利要求2所述的方法,其特征在于,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,包括:
从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
4.根据权利要求2所述的方法,其特征在于,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
5.根据权利要求2所述的方法,其特征在于,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述异常簇中用户,确定所述待识别用户集中的非法用户,包括:
根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
7.一种基于大数据分析的非法用户识别装置,其特征在于,包括:
数据获取模块,用于获取待识别用户集以及合法用户集的有效特征数据;
簇数确定模块,用于将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
用户聚类模块,用于按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
异常簇筛选模块,用于从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户;
所述异常簇筛选模块包括:
验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-6任意一项所述的基于大数据分析的非法用户识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成权利要求1-6任意一项所述的基于大数据分析的非法用户识别方法。
CN201811120248.6A 2018-09-25 2018-09-25 基于大数据分析的非法用户识别方法及装置、电子设备 Active CN109284380B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811120248.6A CN109284380B (zh) 2018-09-25 2018-09-25 基于大数据分析的非法用户识别方法及装置、电子设备
PCT/CN2018/125248 WO2020062690A1 (zh) 2018-09-25 2018-12-29 基于大数据分析的非法用户识别方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811120248.6A CN109284380B (zh) 2018-09-25 2018-09-25 基于大数据分析的非法用户识别方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN109284380A CN109284380A (zh) 2019-01-29
CN109284380B true CN109284380B (zh) 2023-04-25

Family

ID=65182106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811120248.6A Active CN109284380B (zh) 2018-09-25 2018-09-25 基于大数据分析的非法用户识别方法及装置、电子设备

Country Status (2)

Country Link
CN (1) CN109284380B (zh)
WO (1) WO2020062690A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613049B (zh) * 2019-02-26 2022-07-12 北京嘀嘀无限科技发展有限公司 一种道路状态监测方法以及装置
CN109831454B (zh) * 2019-03-13 2022-02-25 北京深演智能科技股份有限公司 虚假流量的识别方法和装置
CN110348526B (zh) * 2019-07-15 2021-05-07 武汉绿色网络信息服务有限责任公司 一种基于半监督聚类算法的设备类型识别方法和装置
CN111046388B (zh) * 2019-12-16 2022-09-13 北京智游网安科技有限公司 识别应用中第三方sdk的方法、智能终端及储存介质
CN113190646B (zh) * 2020-01-14 2024-05-07 北京达佳互联信息技术有限公司 一种用户名样本的标注方法、装置、电子设备及存储介质
CN111260220B (zh) * 2020-01-16 2021-05-14 北京房江湖科技有限公司 群控设备识别方法、装置、电子设备和存储介质
CN113472627B (zh) * 2020-03-31 2023-04-25 阿里巴巴集团控股有限公司 电子邮件处理方法、装置及设备
CN111506615A (zh) * 2020-04-22 2020-08-07 深圳前海微众银行股份有限公司 一种无效用户的占有程度确定方法及装置
CN111626754B (zh) * 2020-05-28 2023-07-07 中国联合网络通信集团有限公司 养卡用户识别方法及装置
CN111814064A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于Neo4j的异常用户处理方法、装置、计算机设备和介质
CN112529051B (zh) * 2020-11-25 2024-04-09 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN113114770B (zh) * 2021-04-14 2022-08-09 每日互动股份有限公司 用户识别方法、电子设备和计算机可读存储介质
CN113222736A (zh) * 2021-05-24 2021-08-06 北京城市网邻信息技术有限公司 一种异常用户的检测方法、装置、电子设备及存储介质
CN113779568A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 异常行为用户识别方法、装置、设备及存储介质
CN115408586B (zh) * 2022-08-25 2024-01-23 广东博成网络科技有限公司 一种智能渠道运营数据分析方法、***、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和***
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
CN105630885A (zh) * 2015-12-18 2016-06-01 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及***
US9367872B1 (en) * 2014-12-22 2016-06-14 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
CN106254153A (zh) * 2016-09-19 2016-12-21 腾讯科技(深圳)有限公司 一种网络异常监控方法和装置
CN106294508A (zh) * 2015-06-10 2017-01-04 深圳市腾讯计算机***有限公司 一种刷量工具检测方法及装置
CN106469276A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN107465648A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 异常设备的识别方法及装置
CN107517394A (zh) * 2017-09-01 2017-12-26 北京小米移动软件有限公司 识别非法用户的方法、装置及计算机可读存储介质
CN108197958A (zh) * 2018-01-23 2018-06-22 北京小米移动软件有限公司 统计线下黄牛的方法、装置及存储介质
CN108269012A (zh) * 2018-01-12 2018-07-10 中国平安人寿保险股份有限公司 风险评分模型的构建方法、装置、存储介质及终端
CN108540431A (zh) * 2017-03-03 2018-09-14 阿里巴巴集团控股有限公司 账号类型的识别方法、装置和***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9595006B2 (en) * 2013-06-04 2017-03-14 International Business Machines Corporation Detecting electricity theft via meter tampering using statistical methods
JP7057913B2 (ja) * 2016-06-09 2022-04-21 株式会社島津製作所 ビッグデータ解析方法及び該解析方法を利用した質量分析システム
CN108229963B (zh) * 2016-12-12 2021-07-30 创新先进技术有限公司 用户操作行为的风险识别方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和***
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
US9367872B1 (en) * 2014-12-22 2016-06-14 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
CN106294508A (zh) * 2015-06-10 2017-01-04 深圳市腾讯计算机***有限公司 一种刷量工具检测方法及装置
CN106469276A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN105630885A (zh) * 2015-12-18 2016-06-01 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及***
CN107465648A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 异常设备的识别方法及装置
CN106254153A (zh) * 2016-09-19 2016-12-21 腾讯科技(深圳)有限公司 一种网络异常监控方法和装置
CN108540431A (zh) * 2017-03-03 2018-09-14 阿里巴巴集团控股有限公司 账号类型的识别方法、装置和***
CN107517394A (zh) * 2017-09-01 2017-12-26 北京小米移动软件有限公司 识别非法用户的方法、装置及计算机可读存储介质
CN108269012A (zh) * 2018-01-12 2018-07-10 中国平安人寿保险股份有限公司 风险评分模型的构建方法、装置、存储介质及终端
CN108197958A (zh) * 2018-01-23 2018-06-22 北京小米移动软件有限公司 统计线下黄牛的方法、装置及存储介质

Also Published As

Publication number Publication date
CN109284380A (zh) 2019-01-29
WO2020062690A1 (zh) 2020-04-02

Similar Documents

Publication Publication Date Title
CN109284380B (zh) 基于大数据分析的非法用户识别方法及装置、电子设备
CN111159243B (zh) 用户类型识别方法、装置、设备及存储介质
CN106960153B (zh) 病毒的类型识别方法及装置
CN107222511B (zh) 恶意软件的检测方法及装置、计算机装置及可读存储介质
CN110995745B (zh) 一种物联网非法机卡分离识别的方法及装置
JP2022518469A (ja) 情報処理方法および装置、記憶媒体
CN109325548B (zh) 图像处理方法、装置、电子设备及存储介质
CN103297267A (zh) 一种网络行为的风险评估方法和***
CN111542043B (zh) 变更手机号码的业务请求的识别方法及装置
CN111064719B (zh) 文件异常下载行为的检测方法及装置
CN111353138A (zh) 一种异常用户识别的方法、装置、电子设备及存储介质
CN111651755B (zh) 入侵检测方法和装置
CN109905524B (zh) 电话号码识别方法、装置、计算机设备及计算机存储介质
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN113727348B (zh) 用户设备ue用户数据的检测方法、设备、***及存储介质
CN111371581A (zh) 物联网卡业务异常检测的方法、装置、设备和介质
CN111178347B (zh) 证件图像的模糊度检测方法、装置、设备及存储介质
CN109447177B (zh) 账号聚类方法、装置和服务器
CN109951609B (zh) 一种恶意电话号码处理方法和装置
CN114492623A (zh) 一种针对Android恶意软件分类的方法及装置
Di Domenico et al. Classification of heterogenous M2M/IoT traffic based on C-plane and U-plane data
CN114048344A (zh) 一种相似人脸搜索方法、装置、设备和可读存储介质
CN113901417A (zh) 一种移动设备指纹生成方法及可读存储介质
CN109561406B (zh) 一种sim卡的选择方法、装置、***、电子设备和介质
CN112751813A (zh) 一种网络入侵检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant