CN109977992B - 电子装置、批量注册行为的识别方法和存储介质 - Google Patents
电子装置、批量注册行为的识别方法和存储介质 Download PDFInfo
- Publication number
- CN109977992B CN109977992B CN201910067104.7A CN201910067104A CN109977992B CN 109977992 B CN109977992 B CN 109977992B CN 201910067104 A CN201910067104 A CN 201910067104A CN 109977992 B CN109977992 B CN 109977992B
- Authority
- CN
- China
- Prior art keywords
- feature
- processed
- characteristic
- information
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种电子装置、批量注册行为的识别方法和计算机可读存储介质。本发明从各个待处理账户中获取特征信息,获取的特征信息中包括记为关键字段的特征信息;生成各个待处理账户的特征向量;将所有特征向量进行聚类分析,得到多个特征矩阵;判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。相较于现有技术,本发明可识别多种批量注册行为,且识别准确率高。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种电子装置、批量注册行为的识别方法和计算机可读存储介质。
背景技术
随着互联网科技的发展,互联网的应用广泛存在于人们的生产生活中。通常,人们在利用互联网从事交易或接受服务之前,往往需要先在提供该交易或服务的服务供应平台注册账号。对于同一个服务供应平台,注册一个或几个账号足以满足一位用户的需求。相较于正常注册行为,各服务供应平台中也存在一些以牟利为目的的批量注册行为,对于批量注册行为往往是各服务供应平台严厉打击的对象。
现有的批量注册行为的识别方法是:从用户的注册信息中查找出利用同一互联网协议地址(Internet Protocol Address,IP地址)注册的账户数量,当一IP地址注册的账户数量超过预设阈值时,确定该IP地址注册的账户为批量注册账户。这一方法的缺陷在于,只能识别同一IP地址批量注册的行为,识别准确率低。
因此,如何提高批量注册行为的识别准确率成为一个亟待解决的问题。
发明内容
本发明的主要目的是提供一种电子装置、批量注册行为的识别方法和计算机可读存储介质,旨在提高批量注册行为的识别准确率。
为实现上述目的,本发明提出一种电子装置,所述电子装置包括存储器和处理器,所述存储器上存储有批量注册行为的识别程序,所述批量注册行为的识别程序被所述处理器执行时实现如下步骤:
获取步骤:从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息;
生成步骤:将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;
聚类步骤:将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;
提取步骤:分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;
判断步骤:根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;
识别步骤:查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
优选地,所述判断步骤包括:
分别计算出各个所述特征矩阵中各个关键字段的特征值组对应的离散度;
判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵,所述第一预设条件为一特征矩阵中所有关键字段的特征值组对应的离散度均小于第一预设阈值。
优选地,所述处理器执行所述批量注册行为的识别程序,在所述识别步骤之前,还实现以下步骤:
根据所有所述待处理矩阵中所有关键字段对应的特征值,确定各个所述关键字段对应的特征值分布数据;
所述识别步骤包括:
根据各个所述关键字段对应的特征值分布数据,确定各个所述待处理矩阵中各个关键字段的特征值组对应的分布概率值;
查询所有分布概率值小于第三预设阈值的特征值组,当查询到时,将查询到的所有特征值组所属的待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
优选地,所述生成步骤包括:
根据预先确定的特征信息与预处理规则之间的映射关系,确定各个所述特征信息对应的预处理规则;
按照各个所述特征信息对应的预处理规则,将各个所述特征信息进行预处理,得到各个所述特征信息对应的特征值;
根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
优选地,所述关键字段包括手机号码、网络地址、设备标识信息中的一种或多种;
当一特征信息为手机号码、网络地址、设备标识信息中任一种时,所述特征信息对应的预处理规则包括:
将所述特征信息作为待处理特征信息,分别从各个待处理账户的一待处理特征信息中提取至少一个特征字段;
将所有所述待处理账户中该待处理特征信息的所有特征字段加入至该待处理特征信息的特征字段集合中,在所述待处理特征信息的特征字段集合中统计各个特征字段的出现频次;
根据各个所述待处理账户中该待处理特征信息的各个特征字段的出现频次,确定所述待处理特征信息的特征值。
此外,为实现上述目的,本发明还提出一种批量注册行为的识别方法,该方法包括步骤:
获取步骤:从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息;
生成步骤:将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;
聚类步骤:将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;
提取步骤:分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;
判断步骤:根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;
识别步骤:查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
优选地,所述判断步骤包括:
分别计算出各个所述特征矩阵中各个关键字段的特征值组对应的离散度;
判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵,所述第一预设条件为一特征矩阵中所有关键字段的特征值组对应的离散度均小于第一预设阈值。
优选地,在所述识别步骤之前,该方法还包括:
根据所有所述待处理矩阵中所有关键字段对应的特征值,确定各个所述关键字段对应的特征值分布数据;
所述识别步骤包括:
根据各个所述关键字段对应的特征值分布数据,确定各个所述待处理矩阵中各个关键字段的特征值组对应的分布概率值;
查询所有分布概率值小于第三预设阈值的特征值组,当查询到时,将查询到的所有特征值组所属的待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
优选地,所述生成步骤包括:
根据预先确定的特征信息与预处理规则之间的映射关系,确定各个所述特征信息对应的预处理规则;
按照各个所述特征信息对应的预处理规则,将各个所述特征信息进行预处理,得到各个所述特征信息对应的特征值;
根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有批量注册行为的识别程序,所述批量注册行为的识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述任一项所述的批量注册行为的识别方法的步骤。
本发明从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息;将各个所述待处理账户中第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。相较于现有技术,本发明采用了包括与批量注册行为关联度较高的关键字段在内的多种特征信息作为分析标的,且通过多种分析手段进行分析后最终识别出批量注册账户,因此,本发明可识别多种批量注册行为,且识别准确率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明批量注册行为的识别程序第一实施例的运行环境示意图;
图2为本发明批量注册行为的识别程序第一实施例的程序模块图;
图3为本发明批量注册行为的识别方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提出一种批量注册行为的识别程序。
请参阅图1,是本发明批量注册行为的识别程序10第一实施例的运行环境示意图。
在本实施例中,批量注册行为的识别程序10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如批量注册行为的识别程序10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行批量注册行为的识别程序10等。
显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。电子装置1的部件11-13通过程序总线相互通信。
请参阅图2,是本发明批量注册行为的识别程序10第一实施例的程序模块图。在本实施例中,批量注册行为的识别程序10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图2中,批量注册行为的识别程序10可以被分割成获取模块101、生成模块102、聚类模块103、提取模块104、判断模块105及识别模块106。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述批量注册行为的识别程序10在电子装置1中的执行过程,其中:
获取模块101,用于从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息。
获取模块101从各个待处理账户中获取第一预设数量的特征信息,上述特征信息包括手机号码、网络地址(例如,IP地址)、设备标识信息中的一种或多种,在一些应用场景中,上述特征信息还包括地理位置信息、学历信息、信息缺失量中的一种或多种。在各个待处理账户的第一预设数量的特征信息中,存在第二预设数量的记为关键字段的特征信息,例如,可将手机号码、网络地址、设备标识信息等特征信息标记为关键字段。其中,上述第一预设数量大于或等于第二预设数量。
本实施例中,获取模块101还用于设置特征信息及关键字段,上述特征信息与关键字段的设置方法包括:
从各个待处理账户中获取多种类别的账户项目信息,分别确定各个类别的账户项目信息与批量注册行为之间的相关度,并按照相关度的大小顺序,对各个类别的账户项目信息进行排序。按照相关度从大到小的顺序选取第一预设数量的账户项目信息作为特征信息,再按照相关度从大到小的顺序从特征信息中选取第二预设数量的特征信息作为关键字段。
生成模块102,用于将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
本实施例中,所述生成模块102还用于:
首先,根据预先确定的特征信息与预处理规则之间的映射关系,确定各个所述特征信息对应的预处理规则。
然后,按照各个所述特征信息对应的预处理规则,将各个所述特征信息进行预处理,得到各个所述特征信息对应的特征值。
最后,根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
其中,上述预处理规则可根据具体的应用场景设置,例如,可参照以下实例设置预设处理规则:
例一,当一特征信息为手机号码、网络地址、设备标识信息中任一种时,所述特征信息对应的预处理规则包括:分别从各个待处理账户的一待处理特征信息中提取至少一个特征字段,如,从手机号码12345678912中截取前七位1234567作为该手机号码的特征字段,又如,从IP地址10.11.12.13中截取前两组号码10.11作为该IP地址的特征字段,或者截取前三组号码10.11.12作为该IP地址的特征字段,又如,从设备标识信息中提取设备号作为该设备标识信息的特征字段。然后,将所有所述待处理账户中该待处理特征信息的所有特征字段加入至该待处理特征信息的特征字段集合,在所述待处理特征信息的特征字段集合中统计各个特征字段的出现频次。根据各个所述待处理账户中该待处理特征信息的各个特征字段的出现频次,确定所述待处理特征信息的特征值。
例二,当一特征信息为地理位置信息、学历信息中任一种时,所述特征信息对应的预处理规则包括:采用独热编码方式,将各个待处理账户的待处理特征信息转换成编码,并将该转换得到的编码作为该待处理特征信息的特征值,例如,学历信息存在三种字段值,分别为高中、本科、硕士,则用三个比特长度的编码作为学历信息对应的特征值,其中,每一个比特代表一种学历的状态,当一待处理账户的学历信息的字段值为高中时,则将代表高中学历的比特设为1,其他两位比特设为0。
或者,将所有所述待处理账户中该待处理特征信息的字段值加入至该待处理特征信息的字段值集合,在所述待处理特征信息的字段值集合中统计各个字段值的出现频次。根据各个所述待处理账户中该待处理特征信息的字段值的出现频次,确定所述待处理特征信息的特征值。
聚类模块103,用于将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成。
聚类模块103将所有特征向量输入至预先建立的聚类模型(例如,基于最大期望算法建立的聚类模型)中,该聚类模型通过K-means算法(K-means算法是一种硬聚类算法)、高斯混合模型(Gaussian Mixed Model,GMM)等对特征向量进行聚类分析,得到多个特征向量分组,各个特征向量分组以特征矩阵的形式输出,例如,将一个特征向量分组中的特征向量作为行向量或列向量组成对应的一个特征矩阵。
提取模块104,用于分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组。
例如,若一特征矩阵由一特征向量分组中各个特征向量作为行向量组成,且该特征矩阵每一列元素代表一特征信息对应的所有特征值,则可直接查找到各个关键字段对应的一列元素作为该关键字段的特征值组。
判断模块105,用于根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵。
所述判断模块105还用于:
首先,分别计算出各个所述特征矩阵中各个关键字段的特征值组对应的离散度。一特征值组对应的离散度是指该组特征值中各个特征值之间的差异程度或分散程度,例如,可通过根据一特征值组中各个特征值计算该特征值组对应的标准差、方差、平均差等指标作为该特征值组对应的离散度。
接着,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵,当不存在时,输出未识别到批量注册账户,所述第一预设条件为一特征矩阵中所有关键字段的特征值组对应的离散度均小于第一预设阈值。
识别模块106,用于查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
进一步地,本实施例中,该程序还包括:
确定模块(图中未示出),用于根据所有所述待处理矩阵中所有关键字段对应的特征值,确定各个所述关键字段对应的特征值分布数据。
例如,确定模块将所有待处理账户的特征向量作为行向量或作为列向量组成一个全量矩阵,从该全量矩阵中提取出各个关键字段对应的所有特征值,对各个关键字段对应的所有特征值进行统计,得到各个关键字段对应的特征值分布数据(例如,累积分布曲线、累积分布表等)。
进一步地,本实施例中,所述识别模块106还用于:
根据各个所述关键字段对应的特征值分布数据,确定各个所述待处理矩阵中各个关键字段的特征值组对应的分布概率值。例如,确定一待处理矩阵中一关键字段的特征值组中数值最大的特征值记为M及数值最小的特征值记为N,将该特征值组对应的数值区间记为[N,M],根据该关键字段的特征值分布数据,确定数值区间[N,M]对应的分布概率值,例如,分别查询N和M对应的累积分布概率值,将M对应的累积分布概率值减去N对应的累积分布概率值,得到数值区间[N,M]对应的分布概率值。
查询所有分布概率值小于第三预设阈值的特征值组,当查询到时,将查询到的所有特征值组所属的待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
本发明从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息;将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。相较于现有技术,本发明采用了包括与批量注册行为关联度较高的关键字段在内的多种特征信息作为分析标的,且通过多种分析手段进行分析后最终识别出批量注册账户,因此,本发明可识别多种批量注册行为,且识别准确率高。
此外,本发明提出一种批量注册行为的识别方法。
如图3所示,图3为本发明批量注册行为的识别方法第一实施例的流程示意图。
本实施例中,该方法包括:
步骤S10,从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息。
从各个待处理账户中获取第一预设数量的特征信息,上述特征信息包括手机号码、网络地址(例如,IP地址)、设备标识信息中的一种或多种,在一些应用场景中,上述特征信息还包括地理位置信息、学历信息、信息缺失量中的一种或多种。在各个待处理账户的第一预设数量的特征信息中,存在第二预设数量的记为关键字段的特征信息,例如,可将手机号码、网络地址、设备标识信息等特征信息标记为关键字段。其中,上述第一预设数量大于或等于第二预设数量。
本实施例中,上述特征信息与关键字段的设置方法包括:
从各个待处理账户中获取多种类别的账户项目信息,分别确定各个类别的账户项目信息与批量注册行为之间的相关度,并按照相关度的大小顺序,对各个类别的账户项目信息进行排序。按照相关度从大到小的顺序选取第一预设数量的账户项目信息作为特征信息,再按照相关度从大到小的顺序从特征信息中选取第二预设数量的特征信息作为关键字段。
步骤S20,将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
本实施例中,步骤S20包括:
首先,根据预先确定的特征信息与预处理规则之间的映射关系,确定各个所述特征信息对应的预处理规则。
然后,按照各个所述特征信息对应的预处理规则,将各个所述特征信息进行预处理,得到各个所述特征信息对应的特征值。
最后,根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
其中,上述预处理规则可根据具体的应用场景设置,例如,可参照以下实例设置预设处理规则:
例一,当一特征信息为手机号码、网络地址、设备标识信息中任一种时,所述特征信息对应的预处理规则包括:分别从各个待处理账户的一待处理特征信息中提取至少一个特征字段,如,从手机号码12345678912中截取前七位1234567作为该手机号码的特征字段,又如,从IP地址10.11.12.13中截取前两组号码10.11作为该IP地址的特征字段,或者截取前三组号码10.11.12作为该IP地址的特征字段,又如,从设备标识信息中提取设备号作为该设备标识信息的特征字段。然后,将所有所述待处理账户中该待处理特征信息的所有特征字段加入至该待处理特征信息的特征字段集合,在所述待处理特征信息的特征字段集合中统计各个特征字段的出现频次。根据各个所述待处理账户中该待处理特征信息的各个特征字段的出现频次,确定所述待处理特征信息的特征值。
例二,当一特征信息为地理位置信息、学历信息中任一种时,所述特征信息对应的预处理规则包括:采用独热编码方式,将各个待处理账户的待处理特征信息转换成编码,并将该转换得到的编码作为该待处理特征信息的特征值,例如,学历信息存在三种字段值,分别为高中、本科、硕士,则用三个比特长度的编码作为学历信息对应的特征值,其中,每一个比特代表一种学历的状态,当一待处理账户的学历信息的字段值为高中时,则将代表高中学历的比特设为1,其他两位比特设为0。
或者,将所有所述待处理账户中该待处理特征信息的字段值加入至该待处理特征信息的字段值集合,在所述待处理特征信息的字段值集合中统计各个字段值的出现频次。根据各个所述待处理账户中该待处理特征信息的字段值的出现频次,确定所述待处理特征信息的特征值。
步骤S30,将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成。
将所有特征向量输入至预先建立的聚类模型(例如,基于最大期望算法建立的聚类模型)中,该聚类模型通过K-means算法(K-means算法是一种硬聚类算法)、高斯混合模型(Gaussian Mixed Model,GMM)等对特征向量进行聚类分析,得到多个特征向量分组,各个特征向量分组以特征矩阵的形式输出,例如,将一个特征向量分组中的特征向量作为行向量或列向量组成对应的一个特征矩阵。
步骤S40,分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组。
例如,若一特征矩阵由一特征向量分组中各个特征向量作为行向量组成,且该特征矩阵每一列元素代表一特征信息对应的所有特征值,则可直接查找到各个关键字段对应的一列元素作为该关键字段的特征值组。
步骤S50,根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵。
所述步骤S50包括:
首先,分别计算出各个所述特征矩阵中各个关键字段的特征值组对应的离散度。一特征值组对应的离散度是指该组特征值中各个特征值之间的差异程度或分散程度,例如,可通过根据一特征值组中各个特征值计算该特征值组对应的标准差、方差、平均差等指标作为该特征值组对应的离散度。
接着,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵,当不存在时,输出未识别到批量注册账户,所述第一预设条件为一特征矩阵中所有关键字段的特征值组对应的离散度均小于第一预设阈值。
步骤S60,查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
进一步地,本实施例中,在步骤S60之前,该方法还包括:
根据所有所述待处理矩阵中所有关键字段对应的特征值,确定各个所述关键字段对应的特征值分布数据。
例如,将所有待处理账户的特征向量作为行向量或作为列向量组成一个全量矩阵,从该全量矩阵中提取出各个关键字段对应的所有特征值,对各个关键字段对应的所有特征值进行统计,得到各个关键字段对应的特征值分布数据(例如,累积分布曲线、累积分布表等)。
进一步地,本实施例中,所述步骤S60包括:
根据各个所述关键字段对应的特征值分布数据,确定各个所述待处理矩阵中各个关键字段的特征值组对应的分布概率值。例如,确定一待处理矩阵中一关键字段的特征值组中数值最大的特征值记为M及数值最小的特征值记为N,将该特征值组对应的数值区间记为[N,M],根据该关键字段的特征值分布数据,确定数值区间[N,M]对应的分布概率值,例如,分别查询N和M对应的累积分布概率值,将M对应的累积分布概率值减去N对应的累积分布概率值,得到数值区间[N,M]对应的分布概率值。
查询所有分布概率值小于第三预设阈值的特征值组,当查询到时,将查询到的所有特征值组所属的待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
本发明从各个待处理账户中获取第一预设数量的特征信息,所述第一预设数量的特征信息中包括第二预设数量的记为关键字段的特征信息;将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。相较于现有技术,本发明采用了包括与批量注册行为关联度较高的关键字段在内的多种特征信息作为分析标的,且通过多种分析手段进行分析后最终识别出批量注册账户,因此,本发明可识别多种批量注册行为,且识别准确率高。
进一步地,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有批量注册行为的识别程序,所述批量注册行为的识别程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任一实施例中的批量注册行为的识别方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (8)
1.一种电子装置,所述电子装置包括存储器和处理器,其特征在于,所述存储器上存储有批量注册行为的识别程序,所述批量注册行为的识别程序被所述处理器执行时实现如下步骤:
获取步骤:从各个待处理账户中提取多类别账户项目信息,确定所述多类别账户项目信息和批量注册行为之间的相关度,并根据相关度由大到小对所述多类别账户项目信息进行排序,根据排序结果筛选第一预设数量的所述账户项目信息设为特征信息,根据排序结果从所述特征信息中筛选第二预设数量的所述账户项目信息设为关键字段的特征信息;
生成步骤:将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;
聚类步骤:将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;
提取步骤:分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;
判断步骤:根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;
识别步骤:查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户;
所述生成步骤包括:
根据预先确定的特征信息与预处理规则之间的映射关系,确定各个所述特征信息对应的预处理规则;
按照各个所述特征信息对应的预处理规则,将各个所述特征信息进行预处理,得到各个所述特征信息对应的特征值;
根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
2.如权利要求1所述的电子装置,其特征在于,所述判断步骤包括:
分别计算出各个所述特征矩阵中各个关键字段的特征值组对应的离散度;
判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵,所述第一预设条件为一特征矩阵中所有关键字段的特征值组对应的离散度均小于第一预设阈值。
3.如权利要求1或2所述的电子装置,其特征在于,所述处理器执行所述批量注册行为的识别程序,在所述识别步骤之前,还实现以下步骤:
根据所有所述待处理矩阵中所有关键字段对应的特征值,确定各个所述关键字段对应的特征值分布数据;
所述识别步骤包括:
根据各个所述关键字段对应的特征值分布数据,确定各个所述待处理矩阵中各个关键字段的特征值组对应的分布概率值;
查询所有分布概率值小于第三预设阈值的特征值组,当查询到时,将查询到的所有特征值组所属的待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
4.如权利要求1所述的电子装置,其特征在于,所述关键字段包括手机号码、网络地址、设备标识信息中的一种或多种;
当一特征信息为手机号码、网络地址、设备标识信息中任一种时,所述特征信息对应的预处理规则包括:
将所述特征信息作为待处理特征信息,分别从各个待处理账户的一待处理特征信息中提取至少一个特征字段;
将所有所述待处理账户中该待处理特征信息的所有特征字段加入至该待处理特征信息的特征字段集合中,在所述待处理特征信息的特征字段集合中统计各个特征字段的出现频次;
根据各个所述待处理账户中该待处理特征信息的各个特征字段的出现频次,确定所述待处理特征信息的特征值。
5.一种批量注册行为的识别方法,其特征在于,该方法包括步骤:
获取步骤:从各个待处理账户中提取多类别账户项目信息,确定所述多类别账户项目信息和批量注册行为之间的相关度,并根据相关度由大到小对所述多类别账户项目信息进行排序,根据排序结果筛选第一预设数量的所述账户项目信息设为特征信息,根据排序结果从所述特征信息中筛选第二预设数量的所述账户项目信息设为关键字段的特征信息;
生成步骤:将各个所述待处理账户的第一预设数量的特征信息分别转换成对应的特征值,并根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量;
聚类步骤:将所有所述特征向量进行聚类分析,得到多个特征矩阵,各个所述特征矩阵分别由若干个特征向量组成;
提取步骤:分别从各个所述特征矩阵中获取各个所述关键字段对应的特征值,将同一特征矩阵中一关键字段对应的所有特征值作为该关键字段的一个特征值组;
判断步骤:根据各个所述特征矩阵中各个关键字段的特征值组,判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵;
识别步骤:查询所有满足第二预设条件的待处理矩阵,当查询到时,将查询到的所有待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户;
所述生成步骤包括:
根据预先确定的特征信息与预处理规则之间的映射关系,确定各个所述特征信息对应的预处理规则;
按照各个所述特征信息对应的预处理规则,将各个所述特征信息进行预处理,得到各个所述特征信息对应的特征值;
根据各个所述待处理账户中各个所述特征信息对应的特征值,生成各个所述待处理账户的特征向量。
6.如权利要求5所述的批量注册行为的识别方法,其特征在于,所述判断步骤包括:
分别计算出各个所述特征矩阵中各个关键字段的特征值组对应的离散度;
判断是否存在满足第一预设条件的特征矩阵,当存在时,将满足第一预设条件的特征矩阵作为待处理矩阵,所述第一预设条件为一特征矩阵中所有关键字段的特征值组对应的离散度均小于第一预设阈值。
7.如权利要求5或6所述的批量注册行为的识别方法,其特征在于,在所述识别步骤之前,该方法还包括:
根据所有所述待处理矩阵中所有关键字段对应的特征值,确定各个所述关键字段对应的特征值分布数据;
所述识别步骤包括:
根据各个所述关键字段对应的特征值分布数据,确定各个所述待处理矩阵中各个关键字段的特征值组对应的分布概率值;
查询所有分布概率值小于第三预设阈值的特征值组,当查询到时,将查询到的所有特征值组所属的待处理矩阵标记为异常矩阵,且分别将各个所述异常矩阵中各个特征向量对应的待处理账户识别为批量注册账户。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有批量注册行为的识别程序,所述批量注册行为的识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求5-7中的任一项所述的批量注册行为的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910067104.7A CN109977992B (zh) | 2019-01-24 | 2019-01-24 | 电子装置、批量注册行为的识别方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910067104.7A CN109977992B (zh) | 2019-01-24 | 2019-01-24 | 电子装置、批量注册行为的识别方法和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977992A CN109977992A (zh) | 2019-07-05 |
CN109977992B true CN109977992B (zh) | 2023-01-17 |
Family
ID=67076625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910067104.7A Active CN109977992B (zh) | 2019-01-24 | 2019-01-24 | 电子装置、批量注册行为的识别方法和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977992B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324352B (zh) * | 2019-07-11 | 2021-10-15 | 武汉斗鱼网络科技有限公司 | 识别批量注册账号群的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105634855A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 网络地址的异常识别方法及装置 |
CN105791255A (zh) * | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其*** |
CN105808988A (zh) * | 2014-12-31 | 2016-07-27 | 阿里巴巴集团控股有限公司 | 一种识别异常账户的方法及装置 |
-
2019
- 2019-01-24 CN CN201910067104.7A patent/CN109977992B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105634855A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 网络地址的异常识别方法及装置 |
CN105791255A (zh) * | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其*** |
CN105808988A (zh) * | 2014-12-31 | 2016-07-27 | 阿里巴巴集团控股有限公司 | 一种识别异常账户的方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于层次聚类的虚假用户检测;方勇 等;《清华大学学报(自然科学版)》;20170630;第57卷(第6期);第620-624页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977992A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507936B (zh) | 图像信息审核方法、装置、电子设备及可读存储介质 | |
CN109933502B (zh) | 电子装置、用户操作记录的处理方法和存储介质 | |
CN112418798A (zh) | 信息审核方法、装置、电子设备及存储介质 | |
CN114398557B (zh) | 基于双画像的信息推荐方法、装置、电子设备及存储介质 | |
CN113688923A (zh) | 订单异常智能检测方法、装置、电子设备及存储介质 | |
CN114491047A (zh) | 多标签文本分类方法、装置、电子设备及存储介质 | |
CN113961764A (zh) | 诈骗电话的识别方法、装置、设备及存储介质 | |
CN113868528A (zh) | 资讯推荐方法、装置、电子设备及可读存储介质 | |
CN112560465A (zh) | 批量异常事件的监控方法、装置、电子设备及存储介质 | |
CN117155771B (zh) | 一种基于工业物联网的设备集群故障溯源方法及装置 | |
CN109977992B (zh) | 电子装置、批量注册行为的识别方法和存储介质 | |
CN111950623B (zh) | 数据稳定性监控方法、装置、计算机设备及介质 | |
CN113157853A (zh) | 问题挖掘方法、装置、电子设备及存储介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN115146653B (zh) | 对话剧本构建方法、装置、设备及存储介质 | |
CN115203364A (zh) | 软件故障反馈处理方法、装置、设备及可读存储介质 | |
CN115168509A (zh) | 风控数据的处理方法及装置、存储介质、计算机设备 | |
CN111553133B (zh) | 报表生成方法、装置、电子设备及存储介质 | |
CN114329164A (zh) | 用于处理数据的方法、装置、设备、介质和产品 | |
CN113706019A (zh) | 基于多维数据的业务能力分析方法、装置、设备及介质 | |
CN113486646A (zh) | 产品报告发布方法、装置、电子设备及可读存储介质 | |
CN115617790A (zh) | 数据仓库创建方法、电子设备及存储介质 | |
CN115225489B (zh) | 队列业务流量阈值动态控制方法、电子设备及存储介质 | |
CN113704405B (zh) | 基于录音内容的质检评分方法、装置、设备及存储介质 | |
CN116028481B (zh) | 一种数据质量检测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |