CN110175438A - 分享账号检测方法及相关设备 - Google Patents
分享账号检测方法及相关设备 Download PDFInfo
- Publication number
- CN110175438A CN110175438A CN201910445651.4A CN201910445651A CN110175438A CN 110175438 A CN110175438 A CN 110175438A CN 201910445651 A CN201910445651 A CN 201910445651A CN 110175438 A CN110175438 A CN 110175438A
- Authority
- CN
- China
- Prior art keywords
- account
- value
- characteristic
- sample
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/316—User authentication by observing the pattern of computer usage, e.g. typical user behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种分享账号检测方法,该方法获得待检测账号在若干预设的行为特征项的特征值;获得预先训练的账号评分模型;其中账号评分模型的参数包含各个行为特征项及每个行为特征项各自对应的权重值,且权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;将待检测账号的特征值输入至账号评分模型中,以得到待检测账号的目标评分值;根据目标评分值是否满足预设分享条件,来确定待检测账号是否为分享账号。通过本发明提供的方法,可以判断出待检测账号为分享账号还是非分享账号。本发明还提供了分享账号检测的相关设备,用以保证所述方法在实际中的应用及实现。
Description
技术领域
本发明涉及账号检测技术领域,更具体的是分享账号检测方法及相关设备。
背景技术
目前,很多网站平台为不同类型的访问用户提供不同的访问权限。例如访问用户的类型包括会员用户和普通用户两种,相比普通用户而言会员用户可以从网站平台中访问到更多的资源、使用网站平台提供的更多服务功能等等。
访问用户的类型一般是通过登录账号的类型区分的。不同类型的访问用户具有不同类型的注册账号,网站平台根据访问用户登录所使用的注册账号的类型来确定该访问用户是何种类型的访问用户,进而为该访问用户提供与其类型对应的访问权限。
对于网站平台而言,为了方便管理需要保证访问用户与注册账号是一一对应的,但是目前由于种种原因,某个用户会使用其他用户的注册账号来访问网站平台,尤其是普通用户可能会使用会员用户的注册账号以图享有更多的访问权限。这种情况称为账号分享,换句话说,账号分享指的是一个注册账号供多个用户使用来访问网站平台的情况,同时该注册账号被称为分享账号。
因此,如何检测访问网站平台的账号是否为分享账号,是业界亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种分享账号检测方法,用以实现分享账号的检测。另外,本发明还提供了一种分享账号检测的相关设备,用以保证所述方法在实际中的应用及实现。
为实现所述目的,本发明提供的技术方案如下:
第一方面,本发明提供了一种分享账号检测方法,包括:
获得待检测账号在预设的行为特征项的特征值;
获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
第二方面,本发明提供了一种分享账号检测装置,包括:
特征值获取模块,用于获得待检测账号在预设的行为特征项的特征值;
评分模型获取模块,用于获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
特征值评分模块,用于将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
分享账号检测模块,用于根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
第三方面,本发明提供了一种分享账号检测设备,包括处理器和存储器,所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:
获得待检测账号在预设的行为特征项的特征值;
获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的分享账号检测方法。
基于以上技术方案可以看出,本发明提供了一种分享账号检测方法,该方法获取待检测账号在行为特征项的特征值及获取预先训练的账号评分模型,将待检测账号在行为特征项的特征值输入至账号评分模型中,以得到待检测账号的评分值,进而根据评分值是否满足预设的分享条件,来确定待检测账号是否为分享账号。可见,本发明提供的分享账号检测方法可以用来一个未知访问账号是否为分享账号。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种分享账号检测方法的流程图;
图2为本发明提供的一种分享账号检测装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种分享账号检测的方法,该方法可以应用在网络平台一侧,用于对访问网络平台的账号进行检测,具体检测访问账号是否为分享账号。具体地,参见图1,该分享账号检测方法具体包括以下步骤S101~S104。
S101、获得待检测账号在若干预设的行为特征项的特征值。
具体地,可以获得对网络平台进行访问的账号,将该账号作为待检测账号。另外预先设置一个或一些行为特征项,这些行为特征项可以用来刻画一个访问账号的特点,这些特点可以用于判定访问账号是否为分享账号。也就是说,预设的行为特征项是能够反映分享特点的行为特征项。
在实际应用中,网站平台可以具体为提供视频服务的平台,则预设的行为特征项可以具体包括:注册行为特征、登录行为特征、观影行为特征、支付行为特征中的任何一种或多种的组合。更具体地:
注册行为特征可以包括如下特征中的一种或多种的组合:同一时间(范围)注册的账号数、同一时间(范围)注册的ip数、同一天相同ip注册的账号数、同一天相同user_agent的注册账号数,同一天同一ip同一user_agent的注册账号数、同一地点同一时间(范围)注册的账号数、注册地点、注册ip、注册时间、注册账号已经使用的时长(天数)、注册行为的风险等级(来自风控***的判断)、注册邮箱、注册邮箱后缀的占比、注册user_agent、注册user_agent的占比、注册地点和最近一次登录地点是否一致、账号在注册地点的使用次数、账号在注册地点的使用时长、注册地点是否是用户的常用地点、注册的手机号、注册手机号的归属地、注册手机号归属地是否与注册ip地点一致等;
登录行为特征可以包括如下特征中的一种或多种的组合:用户尝试登录的次数、用户成功登录的次数、用户登录的方式数(密码登录、短信登录、邮箱登录等等)、用户成功登录的概率、用户登录的设备数、用户登录的地点数、用户登录行为的风险等级(来自风控***的判定)、用户登录的app版本数、用户使用的user_agent(用户代理)数量等、登录ip、登录时间、登录ip、登录user_agent;
观影行为特征可以包括如下特征中的一种或多种的组合:用户请求vip视频的次数、用户请求vip视频的时间分布(如每个小时发起vip视频请求的数量)、用户请求的vip视频的数量、用户请求vip视频使用的ip数量、用户请求vip视频使用的user_agent数量、用户请求vip视频的设备数、用户请求vip视频的地点数、用户同时在线的设备数、用户被检测到多设备同时在线的次数等、观影时间、观影地点、观影ip、观影user_agent;
支付行为特征可以包括如下特征中的一种或多种的组合:用户会员权益的来源(正价购买、激活码、活动奖励等)、用户的会员等级、用户注册至今的支付行为次数、用户注册至今的支付金额数、用户购买过的会员类型数、用户支付地点和登录地点是否一致、用户支付地点和观影地点是否一致、同一时间(范围)支付的账号数、同一ip同一user_agent支付的账号数、同一地点支付的账号数、支付地点、支付ip、支付时间、支付user_agent。
当然,若网络平台为其他类型的网络平台,行为特征项可以是其他类型,本发明并不做具体限定。
本步骤确定待检测账号后,需要获得待检测账号在以上行为特征项的特征值。需要说明的是,在后续对特征值进行处理时,可能对特征值的数据格式有要求,因此如果所获得的特征值符合该处理要求,则可以直接对特征值进行后续步骤,如果所获得的特征值并不符合该处理要求,则需要对特征值进行预处理。具体的预处理步骤如下所示。
将待检测账号中的若干个行为特征项转换为后续处理过程可识别的格式。例如,预设的行为特征项包括日期,日期的取值中,可能存在“20180901”,或者“2018年9月1日”,或者“2018年9月1日星期五”,或者不准确的日期值等多种格式,后续处理过程要求的日期格式为第一种格式,则将存在其他格式的特征值进行转换,转换后的特征值是统一的可识别的第一种日期格式。
另外需要说明的是,某些行为特征项的特征值是文本格式,为了后续计算处理需要转化为具体数值,如行为特征项包括观影地点,预先设置各个观影地点对应的数值,如在北京观影数值为1,在上海观影数值为2,在深圳观影数值为3,以此等方法将行为特征项的文本类型的特征值转换为数值类型的特征值。
需要说明的是,行为特征项的特征值可以是对原始特征值进行处理后的特征值。具体来讲,待检测账号的行为特征数据中包含有行为特征项的特征值,该特征值为原始特征值,需要确定该原始特征值所对应的离散特征值。
离散特征值的确定方式是,获得由大量的账号样本的行为特征数据所生成的离散特征值,这些离散特征值与原始特征值之间具有对应关系,根据该对应关系可以将待检测账号的原始特征值转换为离散特征值。该离散特征值作为后续步骤S103中输入至账号评分模型中的特征值。
需要说明的是,账号样本的行为特征数据所生成的离散特征值,可以是证据权重值(weight of evidence,简称WOE),证据权重值的生成方式可以参见下述说明,此次并不赘述。
S102、获得预先训练的账号评分模型;其中账号评分模型的参数包含各个行为特征项及每个行为特征项各自对应的权重值,且权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的。
其中,账号评分模型使用行为特征项的特征值及该行为特征项的权重来对待检测账号进行评分。需要说明的是,账号评分模型中,行为特征项的特征值是未知值,对哪个待检测账号进行检测则输入哪个待检测账号的行为特征项的特征值。但是,账号评分模型中,行为特征项的权重值是已知值,权重值是由神经网络模型对具有标记的账号样本训练得到的,标记为黑账号样本或白账号样本,黑账号样本即被认定为分享账号的样本,白账号样本即未被认定为分享账号的样本。
每一个行为特征项对应的权重值是评分的依据。账号在行为特征项的特征值与该行为特征项对应的权重的乘积,即是该账号在该行为特征项的得分。累加该账号的所有行为特征项的得分情况,便可得到该账号的最终评分值。基于该评分思想,可以构建出账号评分模型。
S103、将待检测账号的特征值输入至账号评分模型中,以得到待检测账号的目标评分值。
具体地,步骤S102可以得到账号评分模型,步骤S101可以得到待检测账号在多个行为特征项的特征值,将待检测账号在行为特征项的特征值输入账号评分模型中。
账号评分模型中每个待检测账号的行为特征项具有对应的证据权重值,将行为特征项的特征值与行为特征项的证据权重值相乘,得到各个行为特征项的分数,将所有行为特征项的分数相加,便可以得到待检测账号在所有行为特征项的总分。为了便于描述,可以将该总分数称为目标评分值。
例如,账号评分模型的一个具体示例为:score=w0+w1x1+w2x2+w3x3,其中score为目标评分值,3个x表示的是三个行为特征项,4个w值表示的是行为特征项的权重值。需要说明的是,每个行为特征项具有对应的行为特征值,w0是神经网络模型训练算法可以训练得到的特殊的权重值,即不对应任何一个行为特征项的一个权重值。
S104、根据目标评分值是否满足预设分享条件,来确定待检测账号是否为分享账号。
具体地,可以预先设置分享条件,分享条件用于通过对目标评分值的评定,来确定待检测账号是否为分享账号。分享条件是根据对已知的分享账号及非分享账号的评分值的统计情况设置出来的,即统计分享账号的评分值是什么情况,非分享账号的评分值是什么情况,根据这些情况来设置分享条件的具体内容。如此设置的分享条件,可以对未知的待检测账号的评分值进行评定。
在一种具体实现方式中,分享条件包括评分值阈值,通过判定待检测账号的目标评分值与评分值阈值的关系,来确定待检测账号是否为分享账号。
例如,预先设置分享账号的评分值阈值是500,目标评分值大于或等于该评分值阈值的待检测账号为分享账号,否则为非分享账号。如果账号评分模型输出某个待检测账号的目标评分值为200,此时输出值小于预设值,该待检测账号不属于分享账号;若账号评分模型输出的目标评分值为1000,此时输出值大于预设值,则该待检测账号属于分享账号。
在另一种具体实现方式中,可以设置分享等级,通过对分享等级的判定来实现对待检测账号的分享情况的判定。
具体地,预设分享条件具体用于对评分值对应的账号分享等级进行判定,则本步骤可以具体包括:获得预先设置的多个账号分享等级,其中不同的账号分享等级对应不同的评分值区间;确定目标评分值归属的目标评分值区间以及目标评分值区间对应的目标账号分享等级;根据目标账号分享等级是否满足预设分享条件,来确定待检测账号是否为分享账号。
例如,预先设置高、中、低三个账号分享等级,其中高分享等级对应的评分值区间是评分值大于2000,中分享等级对应的评分值区间是[1000,2000],低分享等级对应的评分值区间是[0,1000)。假设,账号评分模型输出某待检测账号的目标评分值为200,可以确定该待检测账号属于[0,1000)这个评分值区间,并且根据上述设置条件可以确定该评分值区间对应的是低分享等级。进一步,假设归属于低分享等级的待检测账号并非分享账号,归属于中及高分享等级的待检测账号为分享账号,则可以判定上述检测账号非分享账号。
由以上技术方案可知,本发明提供了一种分享账号检测方法,该方法获取待检测账号在行为特征项的特征值及获取预先训练的账号评分模型,将待检账号在行为特征项的特征值输入至账号评分模型中,以得到待检测账号的评分值,进而根据评分值是否满足预设的分享条件,来确定待检测账号是否为分享账号。可见,通过本发明提供的分享账号检测方法可以实现对分享账号的检测。
需要说明的是,目前的账号检测方法可以由人工分析数据,并根据不同的分享行为特征定制相应的检测规则,当访问账号的行为特征改变后,又需要又人工重新分析访问账号的相关数据重新制定检测规则。显而易见,这种方式需要耗费人工成本,且灵活性较低。然而,本发明可以获得账号评分模型,账号评分模型中的权重值是通过神经网络模型训练出的,只要发现新的分享行为特征,使用神经网络模型训练方法继续对这些分享行为特征进行训练即可,从而可以减少人工成本,且可以检测的灵活性。
以上说明的是账号评分模型的应用过程,即:使用账号评分模型对未知的待检测账号进行检测的过程。以下具体说明账号评分模型的训练过程,具体是账号评分模型中的权重值的训练过程。
具体地,步骤S102所获得的账号评分模型中的权重值的一种具体训练方式包括如下步骤A1~A3。
A1、获得多条账号样本的行为特征数据;其中所有账号样本的行为特征数据均包括若干相同的行为特征项,且每条账号样本在每个行为特征项均具有特征值。
具体地,获得多条账号样本的行为特征数据,每个账号样本中都存在若干个行为特征项,并且所有账号样本的行为特征项是相同的。
需要说明的是,本步骤得到的特征值是账号样本的行为特征项的原始值,因此可以称为原始特征值,后续可以对原始特征值进行处理,以得到可以使用神经网络算法进行训练的特征值。
A2、根据每条账号样本在行为特征项的特征值,确定每条账号样本的行为特征向量;其中行为特征向量用于表示账号样本的行为特征。
具体地,本步骤是为了确定每条账号样本各自所对应的行为特征向量,行为特征向量包括的是每个行为特征项经过处理后的特征值。行为特征向量可以认为是一个特征值组合,有多少个行为特征项,则该特征值组合中就包括多少个特征值。需要说明的是,特征值组合中的每个特征值是对原始特征值进行处理后得到的特征值。
处理的一种方式是,将原始特征值进行离散化处理,具体的离散化处理过程包括:针对每条账号样本,根据账号样本在行为特征项的特征值计算每个特征值对应的证据权重WOE值,将每条账号样本的每个特征值对应的证据权重值组合为账号样本的行为特征向量。
后续的处理步骤是将行为特征项分为离散行为特征项及连续行为特征项两类分别处理,即:使用不同的计算法方法计算不同类型行为特征项的证据权重值。
若账号样本在行为特征项的特征值是连续的,需要将特征值的分布情况以区间的形式划分,再为每个区间计算对应的证据权重值,每个区间对应一个证据权重值,根据账号样本的特征值所归属的区间确定证据权重值,行为特征向量就是确定的这些证据权重值的组合。若账号样本在行为特征项的特征值是离散的,直接取该特征值用于计算证据权重值,再将该行为特征项的所有证据权重值组合,即得到离散行为特征项的行为特征向量。
因此,首先根据特征值的数量情况,将行为特征项划分为离散行为特征项及连续行为特征项。
具体地,行为特征项在账号样本中可能出现各种的特征值,根据可能出现的特征值的数量情况,来确定行为特征项为离散行为特征项还是连续行为特征项。需要说明的是,此处所指的可能出现的特征值是行为特征项可以出现的所有特征值。例如,观影次数这个行为特征项,用户可以观影一次、观影两次、观影三次、观影四次、观影五次……观影几十次、观影几百次、观影成千上万次等等。
如果行为特征项的可以出现的特征值的数量达到一定的数量要求,则确定该行为特征项为连续行为特征项,相反则确定为离散行为特征项。此处的数量要求可以根据实际需求而设置。基于该划分标准,可以将行为特征项划分为离散行为特征项及连续行为特征项。
根据上述划分标准可以理解出的是,若可以出现的特征值的数量较多,则该行为特征项可能会被划分为连续行为特性项,相反若可以出现的特征值的数量较少,则该行为特征项可能会被划分为离散行为特征项。例如观影次数这个行为特征项,用户可以观影成千上万次,则该行为特征项可能会被划分为连续行为特征项;又如观影地点这个行为特征项,用户的观影地点在一个区域内是有限的,如北京、上海、广州等预先设置的观影地点,因此该行为特征项可能会被确定为离散行为特征项。
需要说明的是,观影地点等行为特征项的原始特征值并非数值,因此在获得将非数值类型的原始特征值后,需要处理为数值类型的特征值,进而再进行后续处理。例如,对于观影地点这个行为特征项,可以按照区域设置具体数值,具体如可以设置北京地点为1、上海地点为2、上海地点为3等等。
以下分别对离散行为特征项及连续行为特征项,说明如何计算各自对应的证据权重值。
针对离散行为特征项,计算离散行为特征项的每个特征值对应的证据权重值。具体地、根据离散行为特征项的特征值分布情况,获取其中的特征值,统计每个特征值所对应的黑账号样本与白账号样本的数量并算出它们的占比;再根据证据权重值计算公式:
得到每个特征值所对应的证据权重值。其中黑账号样本为被标记为分享账号的账号样本,白账号样本为未被标记为分享账号的账号样本。
例如离散行为特征项包括观影地点,以北京观影地点这一特征值为例,统计北京观影地点所对应的黑账号样本与白账号样本的数量,根据黑账号样本与白账号样本的数量得到各自对应的占比,再根据占比及证据权重值计算公式得到北京观影地点这一特征值对应的证据权重值。
针对连续行为特征项,需要从连续的特征值中选取特征值区间,并计算特征值区间对应的证据权重值。以下分别具体说明如何从连续的特征值中选取特征值区间,以及如何计算特征值区间对应的证据权重值。
其中,从连续的特征值中选取特征值区间的一种具体实施方式包括步骤1.1~1.3。
1.1、统计连续行为特征项的每一特征值对应的账号样本的条数,以得到每一连续行为特征项的特征值分布情况。
具体地、每一个账号样本中的任意一个行为特征项都存在特征值,针对连续的行为特征项,该行为特征项对应的特征值也是连续的,通过统计每个账号样本中该行为特征项的特征值,得到一个关于该行为特征项的一个分布图。
例如,针对观影数量这个行为特征项,先统计每一个账号样本中的观影数量这一行为特征项,从而得到观影数量与账号样本的一个映射关系;假设观影数量为1时,所对应的账号样本有100条,观影数量为2时,所对应的账号有200条,进而得到关于观影数量这一行为特征项的特征值分布曲线。
1.2、根据连续行为特征项的特征值分布情况,在连续行为特征项的特征值中,确定账号样本条数的变化满足预设条件的目标特征值;其中目标特征值的个数为N。
具体地、得到行为特征项的特征值分布情况后,确定变化明显的特征值,将该特征值从分布情况中单独提取出来作为目标特征值。例如,假设根据观影数量的特征值分布曲线可以得出,观影数量的特征值分布曲线中,账号样本条数在特征值2及3这两个特征值处发生了明显变化,则2和3即是观影数量的目标特征值。
其中,明显变化可以通过账号样本条数的变化是否满足预设条件进行判断。具体的判断方式可以是,变化的绝对值超过预设的绝对值阈值;或者可以是,变化率超过预设的变化率阈值;或者还可以指本领域技术人员能够理解的判定两个数值明显发生变化的其他方式。
1.3、根据目标特征值,将连续行为特征项的特征值划分为N+1个特征值区间。
具体地、根据步骤1.2确定的目标特征值,将行为特征项的特征值分布情况划分为不同区间。如,以步骤1.2例子为前提,在得到目标特征值2、3两个目标特征值后,根据这两个特征值划分观影数量的特征值分布曲线,可将特征值划分为小于2的区间、大于2小于3的区间、大于3的区间。
以上可以将连续行为特征项的特征值划分为多个特征值区间。以下具体说明如何计算特征值区间对应的证据权重值,在实际应用中,一种的具体实施方式包括步骤2.1~2.2。
2.1、确定特征值区间对应的黑账号样本的数量以及对应的白账号样本的数量;其中黑账号样本为被标记为分享账号的账号样本,白账号样本为未被标记为分享账号的账号样本。
具体地,与上述离散行为特征项计算对应的黑白账号样本数量的方式相同,只不过此处是确定的整个区间而非一个特征值对应的黑白账号样本数量。
例如,针对观影数量这个行为特征项,在观影数量的特征值在小于2的区间内,统计带有黑账号标记的账号样本和带有白账号标记的账号样本;在观影数量的特征值2与特征值3区间内,统计带有黑账号标记的账号样本和带有白账号标记的账号样本;在观影数量的特征值在大于3区间内,统计带有黑账号标记的账号样本和带有白账号标记的账号样本;从而得到在不同区间内的黑账号样本与白账号样本的数量。
2.2、根据特征值区间对应的黑账号样本的数量以及白账号样本的数量的比值,计算每个特征值区间的证据权重值。
具体地,根据所统计的某一区间内黑账号样本与白账号样本的数量,计算出黑账号样本所占的比值与白账号样本所占的比值,并根据证据权重值计算公式(1)得到该区间的证据权重值。
例如,针对观影数量这个行为特征项中的大于3的区间来说,在该区间中统计所得的黑账号样本数为8,白样本数为12;因此,黑账号样本的占比为8/20,白账号样本的占比为12/20,再进而根据证据权重值计算公式(1)计算出大于3的区间所对应的证据权重值。
综上所述,通过以上步骤1.1-1.3以及步骤2.1-2.2,可以得到连续行为特征项中每个特征值区间对应的证据权重值。另外,本发明以上也说明了如何得到离散行为特征项的每个特征值对应的证据权重值。因此,对于每个账号样本而言,可以将账号样本的原始特征值,转化为对应的证据权重值。
具体地,针对每个账号样本,获得账号样本在离散行为特征项的特征值所对应的证据权重值,以及确定账号样本在连续行为特征项的特征值所归属(归属也可以称为对应)的目标特征值区间,并获得目标特征值区间对应的证据权重值。这些证据权重值用于组成账号样本的行为特征向量。需要说明的是,证据权重值也可以称为离散特征值,步骤S101中待检测账号的特征值也可以按照上述两种对应关系,将待检测账号的原始特征值转换为离散特征值。
更具体来讲,每个账号样本中的特征值,有的是连续行为特征项的特征值,有的是离散行为特征项的特征值。如果是离散行为特征项的特征值,则直接将该特征值转化为该特征值对应的证据权重值;如果是连续行为特征项的特征值,则需要确定该特征值归属于哪个特征值区间,获得所归属的该特征值区间对应的证据权重值,再将该特征值转化为该特征值区间对应的证据权重值。
证据权重值用于组成账号样本的特征向量,如特征向量的一个具体示例为[0.00651,2.29272,1.99425,8.04397,1.60549,1.74118,2.73867],该组合内的每个数值均为证据特征值。
需要说明的是,基于证据权重值得到行为特征向量的这种处理方式,使神经网络模型可以处理非数值型特征,并且减少了神经网络模型训练时需要搜索的特征空间的规模,降低了神经网络模型训练所需要的计算量,提高了训练效率。
A3、使用神经网络模型训练算法,对所有账号样本的行为特征向量进行训练,以得到每个行为特征项各自对应的权重值。
具体地,将账号样本的特征值转换为特征向量后,便可以使用神经网络模型训练算法对这些特征向量进行训练。
需要说明的是,神经网络是一种运算模型,由大量的节点(或称神经元)之间相互连接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则以网络的连接方式,权重值因激励函数的不同会随之变化。而网络自身通常都是对自然界某种算法或函数的逼近,也可能是对一种逻辑策略的表达。
对于本发明来说,是通过输入账户样本中每个行为特征项的特征向量,对这些特征向量进行训练,神经网络模型训练完成就表示神经网络模型中的权重值固定下来了,这些权重即行为特征项对应的权重值,同时这些权重值也是账号评分模型中的权重值。
需要说明的是,本申请使用的神经网络模型训练算法可以具体为逻辑回归模型训练算法。基于该逻辑回归模型可以得到对应的账号评分模型,以下通过一个示例进行说明。
例如,逻辑回归模型的公式为:其中e是自然常数,p是一个介于0到1之间的概率。
假设逻辑回归模型包含3个行为特征项,分别为x1,x2,x3,令z=w0+w1x1+w2x2+w3x3,将z进行代数变换后可得到下式:
令从而可以得到如下账号评分模型:score=w0+w1x1+w2x2+w3x3。
其中上式中x1,x2,x3为转化后的行为特征向量,写成向量的形式为[x1,x2,x3],w0,w1,w2,w3是逻辑回归模型的参数,使用账号样本训练该模型,就是为了对参数进行估计,得到w0,w1,w2,w3的固定取值。
见图2,其示出了本申请提供的一种分享账号检测装置的结构,具体可以包括:特征值获取模块201、评分模型获取模块202、特征值评分模块203以及分享账号检测模块204。
特征值获取模块201,用于获得待检测账号在若干预设的行为特征项的特征值;
评分模型获取模块202,用于获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
特征值评分模块203,用于将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
分享账号检测模块204,用于根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
在一个示例中,所述预设分享条件具体用于对评分值对应的账号分享等级进行判定;则所述分享账号检测模块204可以具体包括:分享等级划分子模块、分享等级确定子模块以及分享账号检测子模块。
分享等级划分子模块,用于获得预先设置的多个账号分享等级,其中不同的账号分享等级对应不同的评分值区间;
分享等级确定子模块,用于确定所述目标评分值归属的目标评分值区间以及所述目标评分值区间对应的目标账号分享等级;
分享账号检测子模块,用于根据所述目标账号分享等级是否满足所述预设分享条件,来确定所述待检测账号是否为分享账号。
在一个示例中,分享账号检测装置还可以包括:权重值训练模块,用于训练权重值;其中所述权重值训练模块可以具体包括:特征数据获取子模块、特征向量确定子模块、权重值训练子模块。
特征数据获取子模块,用于获得多条账号样本的行为特征数据;其中所有账号样本的行为特征数据均包括若干相同的行为特征项,且每条账号样本在每个行为特征项均具有特征值;
特征向量确定子模块,用于根据每条账号样本在行为特征项的特征值,确定每条账号样本的行为特征向量;其中行为特征向量用于表示账号样本的行为特征;
权重值训练子模块,用于使用神经网络模型训练算法,对所有账号样本的行为特征向量进行训练,以得到每个行为特征项各自对应的权重值。
在一个示例中,所述特征向量确定子模块可以具体包括:证据权重计算单元以及证据权重组合单元。
证据权重计算单元,用于针对每条账号样本,根据所述账号样本在行为特征项的特征值计算每个特征值对应的证据权重值;
证据权重组合单元,用于将每条账号样本的每个特征值对应的证据权重值组合为所述账号样本的行为特征向量。
在一个示例中,所述证据权重计算单元可以具体包括:行为特征项划分子单元、离散特征计算子单元、连续特征计算子单元以及证据权重获得子单元。
行为特征划分子单元,用于根据特征值的数量情况,将行为特征项划分为离散行为特征项及连续行为特征项;
离散特征计算子单元,用于针对离散行为特征项,计算离散行为特征项的每个特征值对应的证据权重值;
连续特征计算子单元,用于针对连续行为特征项,从连续的特征值中选取特征值区间,并计算特征值区间对应的证据权重值;
证据权重获得子单元,用于针对每个账号样本,获得所述账号样本在离散行为特征项的特征值所对应的证据权重值,以及确定所述账号样本在连续行为特征项的特征值所归属的目标特征值区间,并获得所述目标特征值区间对应的证据权重值。
在一个示例中,所述连续特征计算子单元包括:区间选取子单元以及权重计算子单元。
区间选取子单元,用于针对连续行为特征项,从连续的特征值中选取特征值区间;权重计算子单元,用于计算特征值区间对应的证据权重值。
在一个示例中,所述区间选取子单元可以具体包括:统计子单元、取值子单元以及划分子单元。
统计子单元,用于统计所述连续行为特征项的每一特征值对应的账号样本的条数,以得到每一连续行为特征项的特征值分布情况;
取值子单元,根据所述连续行为特征项的特征值分布情况,在所述连续行为特征项的特征值中,确定账号样本条数的变化满足预设条件的目标特征值;其中所述目标特征值的个数为N;
划分子单元,用于根据所述目标特征值,将所述连续行为特征项的特征值划分为N+1个特征值区间。
在一个示例中,所述权重计算子单元可以具体包括:黑白样本确定子单元、以及证据权重计算子单元。
黑白样本确定子单元,用于确定特征值区间对应的黑账号样本的数量以及对应的白账号样本的数量;其中黑账号样本为被标记为分享账号的账号样本,白账号样本为未被标记为分享账号的账号样本;
证据权重计算子单元,用于根据特征值区间对应的黑账号样本的数量以及白账号样本的数量的比值,计算每个特征值区间的证据权重值。
本申请还提供了一种分享账号检测设备,该设备可以包括处理器和存储器,所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:
获得待检测账号在若干预设的行为特征项的特征值;
获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任意一个实施例提供的分享账号检测方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种分享账号检测方法,其特征在于,包括:
获得待检测账号在预设的行为特征项的特征值;
获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
2.根据权利要求1所述的分享账号检测方法,其特征在于,所述预设分享条件具体用于对评分值对应的账号分享等级进行判定;
则所述根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号包括:
获得预先设置的多个账号分享等级,其中不同的账号分享等级对应不同的评分值区间;
确定所述目标评分值归属的目标评分值区间以及所述目标评分值区间对应的目标账号分享等级;
根据所述目标账号分享等级是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
3.根据权利要求1所述的分享账号检测方法,其特征在于,所述权重值的训练过程包括:
获得多条账号样本的行为特征数据;其中所有账号样本的行为特征数据均包括相同的行为特征项,且每条账号样本在每个行为特征项上均具有特征值;
根据每条账号样本在行为特征项的特征值,确定每条账号样本的行为特征向量;其中行为特征向量用于表示账号样本的行为特征;
使用神经网络模型训练算法,对所有账号样本的行为特征向量进行训练,以得到每个行为特征项各自对应的权重值。
4.根据权利要求3所述的分享账号检测方法,其特征在于,所述根据每条账号样本在行为特征项的特征值,确定每条账号样本的行为特征向量,包括:
针对每条账号样本,根据所述账号样本在行为特征项的特征值计算每个特征值对应的证据权重值;
将每条账号样本的每个特征值对应的证据权重值组合为所述账号样本的行为特征向量。
5.根据权利要求4所述的分享账号检测方法,其特征在于,所述针对每条账号样本,根据所述账号样本在行为特征项的特征值计算每个特征值对应的证据权重值,包括:
根据特征值的数量情况,将行为特征项划分为离散行为特征项及连续行为特征项;
针对离散行为特征项,计算离散行为特征项的每个特征值对应的证据权重值;
针对连续行为特征项,从连续的特征值中选取特征值区间,并计算特征值区间对应的证据权重值;
针对每个账号样本,获得所述账号样本在离散行为特征项的特征值所对应的证据权重值,以及确定所述账号样本在连续行为特征项的特征值所归属的目标特征值区间,并获得所述目标特征值区间对应的证据权重值。
6.根据权利要求5所述的分享账号检测方法,其特征在于,所述从连续的特征值中选取特征值区间,包括:
统计所述连续行为特征项的每一特征值对应的账号样本的条数,以得到每一连续行为特征项的特征值分布情况;
根据所述连续行为特征项的特征值分布情况,在所述连续行为特征项的特征值中,确定账号样本条数的变化满足预设条件的目标特征值;其中所述目标特征值的个数为N;
根据所述目标特征值,将所述连续行为特征项的特征值划分为N+1个特征值区间。
7.根据权利要求5所述的分享账号检测方法,其特征在于,所述计算特征值区间对应的证据权重值,包括:
确定特征值区间对应的黑账号样本的数量以及对应的白账号样本的数量;其中黑账号样本为被标记为分享账号的账号样本,白账号样本为未被标记为分享账号的账号样本;
根据特征值区间对应的黑账号样本的数量以及白账号样本的数量的比值,计算每个特征值区间的证据权重值。
8.一种分享账号检测装置,其特征在于,包括:
特征值获取模块,用于获得待检测账号在预设的行为特征项的特征值;
评分模型获取模块,用于获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
特征值评分模块,用于将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
分享账号检测模块,用于根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
9.一种分享账号检测设备,其特征在于,包括处理器和存储器,所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:
获得待检测账号在预设的行为特征项的特征值;
获得预先训练的账号评分模型;其中所述账号评分模型的参数包含各个所述行为特征项及每个所述行为特征项各自对应的权重值,且所述权重值是由神经网络模型训练算法对具有标记的账号样本进行训练得到的;
将所述待检测账号的特征值输入至所述账号评分模型中,以得到所述待检测账号的目标评分值;
根据所述目标评分值是否满足预设分享条件,来确定所述待检测账号是否为分享账号。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-7任意一项所述的分享账号检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910445651.4A CN110175438A (zh) | 2019-05-27 | 2019-05-27 | 分享账号检测方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910445651.4A CN110175438A (zh) | 2019-05-27 | 2019-05-27 | 分享账号检测方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110175438A true CN110175438A (zh) | 2019-08-27 |
Family
ID=67695873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910445651.4A Pending CN110175438A (zh) | 2019-05-27 | 2019-05-27 | 分享账号检测方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175438A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104979A (zh) * | 2019-12-18 | 2020-05-05 | 北京思维造物信息科技股份有限公司 | 一种用户行为价值评估模型的生成方法、装置及设备 |
CN111582448A (zh) * | 2020-04-30 | 2020-08-25 | 广州市百果园信息技术有限公司 | 一种权重训练方法、装置、计算机设备和存储介质 |
CN111970250A (zh) * | 2020-07-27 | 2020-11-20 | 深信服科技股份有限公司 | 一种识别账号共享的方法及电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258039A (zh) * | 2013-05-20 | 2013-08-21 | 中国地质大学(武汉) | 一种微博伪造信息的检测方法 |
CN103607419A (zh) * | 2013-08-23 | 2014-02-26 | 合一网络技术(北京)有限公司 | 优质用户账号防分享方法及*** |
CN104954350A (zh) * | 2014-03-31 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 账号信息保护方法和*** |
CN105915364A (zh) * | 2015-12-08 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 一种防止用户身份被恶意分享的方法及其装置 |
CN107185243A (zh) * | 2017-04-26 | 2017-09-22 | 厦门吉比特网络技术股份有限公司 | 一种网络游戏外挂的识别方法 |
CN109635529A (zh) * | 2018-11-13 | 2019-04-16 | 平安科技(深圳)有限公司 | 账号共用检测方法、装置、介质及电子设备 |
-
2019
- 2019-05-27 CN CN201910445651.4A patent/CN110175438A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258039A (zh) * | 2013-05-20 | 2013-08-21 | 中国地质大学(武汉) | 一种微博伪造信息的检测方法 |
CN103607419A (zh) * | 2013-08-23 | 2014-02-26 | 合一网络技术(北京)有限公司 | 优质用户账号防分享方法及*** |
CN104954350A (zh) * | 2014-03-31 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 账号信息保护方法和*** |
CN105915364A (zh) * | 2015-12-08 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 一种防止用户身份被恶意分享的方法及其装置 |
CN107185243A (zh) * | 2017-04-26 | 2017-09-22 | 厦门吉比特网络技术股份有限公司 | 一种网络游戏外挂的识别方法 |
CN109635529A (zh) * | 2018-11-13 | 2019-04-16 | 平安科技(深圳)有限公司 | 账号共用检测方法、装置、介质及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104979A (zh) * | 2019-12-18 | 2020-05-05 | 北京思维造物信息科技股份有限公司 | 一种用户行为价值评估模型的生成方法、装置及设备 |
CN111582448A (zh) * | 2020-04-30 | 2020-08-25 | 广州市百果园信息技术有限公司 | 一种权重训练方法、装置、计算机设备和存储介质 |
CN111970250A (zh) * | 2020-07-27 | 2020-11-20 | 深信服科技股份有限公司 | 一种识别账号共享的方法及电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174A (zh) | 风险识别模型训练方法、装置及服务器 | |
CN103412918B (zh) | 一种基于服务质量和声誉的服务信任度评估方法 | |
CN108269087B (zh) | 位置信息的处理方法及装置 | |
CN110175438A (zh) | 分享账号检测方法及相关设备 | |
CN106875110A (zh) | 业务指标分层计算方法及装置、分布式计算方法及*** | |
CN108805391A (zh) | 确定高风险用户的方法及装置 | |
CN112016788A (zh) | 风险控制策略生成及风险控制方法、装置和电子设备 | |
CN106878316B (zh) | 一种风险量化方法及装置 | |
CN107657357B (zh) | 数据的处理方法及装置 | |
US20110119173A1 (en) | System and Method for Providing Intelligent Market Data Snapshots | |
CN109785167A (zh) | 风险信息展示方法、装置、终端和计算机可读存储介质 | |
CN113222326A (zh) | 一种科技资源服务平台成熟度评估方法及装置 | |
Wang et al. | The truthful evolution and incentive for large-scale mobile crowd sensing networks | |
CN108470312A (zh) | 理赔案件的分析方法、装置、存储介质及终端 | |
CN112579910A (zh) | 信息处理方法、信息处理装置、存储介质和电子设备 | |
Li et al. | Capitalize your data: Optimal selling mechanisms for IoT data exchange | |
CN109075987A (zh) | 优化数字组件分析*** | |
CN106897198A (zh) | 一种日志数据的处理方法及装置 | |
CN112598132A (zh) | 模型训练方法及装置、存储介质、电子装置 | |
CN103729369B (zh) | 自动处理撞单的方法及装置 | |
CN110263551A (zh) | 一种测试方法及装置 | |
CN113205391B (zh) | 基于历史订单匹配度的派单方法、电子设备和计算机可读介质 | |
Oglethorpe et al. | Modelling the transfer of the socio-economic benefits of environmental management | |
CN115345663A (zh) | 营销策略评估方法、装置、电子设备及存储介质 | |
Tanton et al. | Urban and rural estimates of poverty: Recent advances in spatial microsimulation in Australia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |