CN112905987B - 账号识别方法、装置、服务器及存储介质 - Google Patents

账号识别方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN112905987B
CN112905987B CN201911136455.5A CN201911136455A CN112905987B CN 112905987 B CN112905987 B CN 112905987B CN 201911136455 A CN201911136455 A CN 201911136455A CN 112905987 B CN112905987 B CN 112905987B
Authority
CN
China
Prior art keywords
account
sample
feature
category
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911136455.5A
Other languages
English (en)
Other versions
CN112905987A (zh
Inventor
郗剑亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201911136455.5A priority Critical patent/CN112905987B/zh
Publication of CN112905987A publication Critical patent/CN112905987A/zh
Application granted granted Critical
Publication of CN112905987B publication Critical patent/CN112905987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种账号识别方法、装置、服务器及存储介质。本公开通过对账号进行类别的划分,以确定账号的整体上的一些特征,再结合类别划分时所产生的类别特征以及一些具有较高重要性的特征,进行特征融合,以得到能够更全面的表示账号的特征,再基于这类特征进行分类,以通过学习到的恶意账号所具有的一些特性,来实现对账号的识别,能够大大提高对恶意账号识别的准确性。上述过程,结合了有监督与无监督的方式,创造了一种级联的处理方法,先充分利用无监督的特性以得到账号的类别上的特征,再通过有监督的方式来进一步对无监督方式所得到的类别进行再一次分类,达到了准确划分的目的。

Description

账号识别方法、装置、服务器及存储介质
技术领域
本公开涉及网络技术领域,尤其涉及一种账号识别方法、装置、服务器及存储介质。
背景技术
在很多的互联网应用场景中,比如电子商务场景、虚拟社交场景、金融服务场景、视频网站等,一些人为了获得不正当的利益,会基于虚假信息来恶意注册很多账号,通过这些账号去执行恶意刷单、欺诈等违法行为,因此,需要对这些账号进行识别,以维护用户、商家以及运营商的利益。
目前的账号识别一般可以通过设置识别规则来实现,将账号信息不符合识别规则的账号识别为恶意注册的账号。但是上述识别方法虽然具有易于配置等优点,但是极易被绕过,导致识别的准确率较低。
发明内容
本公开提供一种账号识别方法、装置、服务器及存储介质,以至少解决相关技术中识别准确率低的问题。本公开的技术方案如下:
第一方面,提供了一种账号识别方法,包括:
获取待识别的账号的第一账号特征;基于该第一账号特征,确定该账号的第一类别以及该账号的类别特征,该账号的类别特征用于表示该账号与该第一类别之间的关系;将该类别特征和该第一账号特征进行特征融合,得到该账号的第二账号特征;将该账号的第二账号特征输入目标分类模型,通过该目标分类模型对该账号是否为目标类型账号进行预测,得到该账号的识别结果。
在一种可能实现方式中,所述获取待识别的账号的第一账号特征包括:将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征包括:对各个特征分别进行编码,得到编码后的特征,将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,该方法还包括:在对目标特征进行编码时,对该目标特征进行切分,得到该目标特征的多段子特征,对该多段子特征分别进行编码,将编码结果进行拼接,得到编码后的该目标特征。
在一种可能实现方式中,该基于该第一账号特征,确定该账号的第一类别以及该账号的类别特征包括:将该第一账号特征输入聚类模型,通过该聚类模型根据该第一账号特征与多个团簇之间的距离关系,得到该账号的第一类别以及该账号的类别特征。
在一种可能实现方式中,该方法包括:在基于该第一账号特征确定类别时,通过GPU进行并行计算。
在一种可能实现方式中,该将该账号的第二账号特征输入目标分类模型之前,该方法还包括:获取多个样本账号的第一样本账号特征;基于多个该第一样本账号特征,确定多个该样本账号的类别以及多个该样本账号的类别特征,该样本账号的类别特征用于表示该样本账号与该类别之间的关系;将多个该样本账号的类别特征分别和多个该第一样本账号特征以及多个该样本账号的标签信息进行特征融合,得到多个该样本账号的第二样本账号特征;采用多个该样本账号的第二样本账号特征进行训练,得到该目标分类模型。
在一种可能实现方式中,该方法还包括:通过树模型计算该多个样本账号的输入样本特征的权重,将权重小于目标权重的特征删除,将剩余的特征获取为该多个样本账号的第一样本账号特征。
第二方面,提供了一种账号识别装置,包括:
获取单元,被配置为执行获取待识别的账号的第一账号特征;
确定单元,被配置为执行基于该第一账号特征,确定该账号的第一类别以及该账号的类别特征,该账号的类别特征用于表示该账号与该第一类别之间的关系;
特征融合单元,被配置为执行将该类别特征和该第一账号特征进行特征融合,得到该账号的第二账号特征;
识别单元,被配置为执行将该账号的第二账号特征输入目标分类模型,通过该目标分类模型对该账号是否为目标类型账号进行预测,得到该账号的识别结果。
在一种可能实现方式中,所述获取单元被配置为执行将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述获取单元被配置为对各个特征分别进行编码,得到编码后的特征,将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述获取单元被配置为在对目标特征进行编码时,对所述目标特征进行切分,得到所述目标特征的多段子特征,对所述多段子特征分别进行编码,将编码结果进行拼接,得到编码后的所述目标特征。
在一种可能实现方式中,所述确定单元,被配置为执行将所述第一账号特征输入聚类模型,通过所述聚类模型根据所述第一账号特征与多个团簇之间的距离关系,得到所述账号的第一类别以及所述账号的类别特征。
在一种可能实现方式中,所述确定单元在基于所述第一账号特征确定类别时,通过GPU进行并行计算。
在一种可能实现方式中,所述装置还包括:模型训练单元,被配置为执行:
获取多个样本账号的第一样本账号特征;基于多个所述第一样本账号特征中的第一目标样本特征,确定多个所述样本账号的类别以及多个所述样本账号的类别特征,所述样本账号的类别特征用于表示所述样本账号与所述类别之间的关系;将多个所述样本账号的类别特征分别和多个所述第一样本账号特征中的第二目标样本特征以及多个所述样本账号的标签信息进行特征融合,得到多个所述样本账号的第二样本账号特征,所述第二目标样本特征的权重大于或等于所述目标权重;采用多个所述样本账号的第二样本账号特征进行训练,得到所述目标分类模型。
在一种可能实现方式中,所述装置还包括:
特征处理单元,被配置为执行通过树模型计算所述多个样本账号的输入样本特征的权重;将权重小于目标权重的特征删除,将剩余的特征获取为所述多个样本账号的第一样本账号特征。
根据本公开实施例的第三方面,提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如上述任一项的账号识别方法。
根据本公开实施例的第四方面,提供一种存储介质,当存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上述任一项的账号识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括可执行指令,当计算机程序产品中的指令由服务器的处理器执行时,使得服务器能够执行如上述任一项的账号识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过对账号进行类别的划分,以确定账号的整体上的一些特征,再结合类别划分时所产生的类别特征以及一些具有较高重要性的特征,进行特征融合,以得到能够更全面的表示账号的特征,再基于这类特征进行分类,以通过学习到的恶意账号所具有的一些特性,来实现对账号的识别,能够大大提高对恶意账号识别的准确性以及召回率。上述过程,结合了有监督与无监督的方式,创造了一种级联的处理方法,先充分利用无监督的特性以得到账号的类别上的特征,再通过有监督的方式来进一步对无监督方式所得到的类别进行再一次分类,达到了准确划分的目的。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种账号识别方法的流程图。
图2是根据一示例性实施例示出的一种账号识别方法的流程图。
图3是根据一示例性实施例示出的一种账号识别过程中所涉及的多个不同技术过程的示意图。
图4是根据一示例性实施例示出的一种账号识别装置的框图。
图5是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。
图1是根据一示例性实施例示出的一种账号识别方法的流程图,如图1所示,该账号识别方法用于服务器中,包括以下步骤。
在步骤101中,获取待识别的账号的第一账号特征。
在步骤102中,基于该第一账号特征,确定该账号的第一类别以及该账号的类别特征,该账号的类别特征用于表示该账号与该第一类别之间的关系。
在步骤103中,将该账号的类别特征和该第一账号特征进行特征融合,得到该账号的第二账号特征。
在步骤104中,将该账号的第二账号特征输入目标分类模型,通过该目标分类模型对该账号是否为目标类型账号进行预测,得到该账号的识别结果。
本公开实施例提供的方法,通过对账号进行类别的划分,以确定账号的整体上的一些特征,再结合类别划分时所产生的类别特征以及一些具有较高重要性的特征,进行特征融合,以得到能够更全面的表示账号的特征,再基于这类特征进行分类,以通过学习到的恶意账号所具有的一些特性,来实现对账号的识别,能够大大提高对恶意账号识别的准确性。上述过程,结合了有监督与无监督的方式,创造了一种级联的处理方法,先充分利用无监督的特性以得到账号的类别上的特征,再通过有监督的方式来进一步对无监督方式所得到的类别进行再一次分类,达到了准确划分的目的。
在一种可能实现方式中,所述获取待识别的账号的第一账号特征包括:将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征包括:对各个特征分别进行编码,得到编码后的特征,将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述方法还包括:
在对目标特征进行编码时,对所述目标特征进行切分,得到所述目标特征的多段子特征,对所述多段子特征分别进行编码,将编码结果进行拼接,得到编码后的所述目标特征。
在一种可能实现方式中,所述基于所述第一账号特征,确定所述账号的第一类别以及所述账号的类别特征包括:
将所述第一账号特征输入聚类模型,通过所述聚类模型根据所述第一账号特征与多个团簇之间的距离关系,得到所述账号的第一类别以及所述账号的类别特征。
在一种可能实现方式中,所述方法包括:在基于所述第一账号特征确定类别时,通过GPU进行并行计算。
在一种可能实现方式中,所述将所述账号的第二账号特征输入目标分类模型之前,所述方法还包括:
获取多个样本账号的第一样本账号特征;
基于多个所述第一样本账号特征,确定多个所述样本账号的类别以及多个所述样本账号的类别特征,所述样本账号的类别特征用于表示所述样本账号与所述类别之间的关系;
将多个所述样本账号的类别特征分别和多个所述第一样本账号特征以及多个所述样本账号的标签信息进行特征融合,得到多个所述样本账号的第二样本账号特征;
采用多个所述样本账号的第二样本账号特征进行训练,得到所述目标分类模型。
在一种可能实现方式中,所述方法还包括:通过树模型计算所述多个样本账号的输入样本特征的权重,将权重小于目标权重的特征删除,将剩余的特征拼接为所述多个样本账号的第一样本账号特征。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种账号识别方法的流程图,如图2所示,该账号识别方法用于服务器中,包括以下步骤。
在步骤201中,服务器获取待识别的账号的用户资料特征、登录特征以及用户行为特征。
在进行账号识别时,服务器可以获取待识别的账号的基础数据,该基础数据可以为用户资料特征,该用户资料特征可以从用户资料数据库中获取,可以为用户注册时所填写的资料信息还可以为用户对资料信息进行更新后所得到的信息,例如用户性别、用户年龄、用户所在地区等信息,本公开实施例不做限定。该基础数据还可以包括用户的一些前端后端特征,例如,用户使用的登录设备型号、登录***版本、登录IP地址等,这类数据可以统称为登录特征,另外,基础数据还可以包括用户行为特征,用以表示用户在登录过程中所进行的点击、观看、关注等行为,上述特征可以覆盖账号的几乎全部特征,可以达到对用户一个更深层次的描述。
在一种可能实现方式中,服务器还可以获取账号的用户画像,该用户画像可以基于账号的用户资料特征以及历史行为特征等生成,结合用户画像以及上述特征,则可以获取到涵盖了账号全面的特征信息,避免了信息的遗漏。
在步骤202中,服务器各个特征分别进行编码,得到编码后的特征。
对于上述获取到的各个特征来说,还可以对特征进行编码,以用统一的形式来对特征进行表示,对于不同类别的特征来说,可以按照特征对应的编码方式分别进行编码,例如,对于性别,可以将其编码为固定长度的向量,对于性别为女,则编码为(0,0),对于性别为男,则编码为(0,1)。当然,对于不同类别的特征,其向量表示的长度可以不相等,本公开实施例对此不做限定。
在上述特征中,有一些特征是连续特征,还有一些特征是离散特征,对于离散特征在编码时,可以进行一些简化处理,以达到降低计算量、提高计算效率的目的,例如,对于目标特征,可以对其进行折叠编码,也即是,对该目标特征进行切分,得到该目标特征的多段子特征,对该多段子特征分别进行编码,将编码结果进行拼接,得到编码后的该目标特征。
以目标特征为登录IP为例,可以将登录IP地址切分为4段,每段单独进行编码,也即是,将编码位数由255^4缩短为255*4,压缩比为400万左右,这种编码方式,不会对后续模型训练引入过多误差,避免了直接进行哑编码而导致编码位数过长的问题,也就不会影响整个模型计算效率,对内存的占用量大大减小,以达到降低计算量、提高计算效率的目的。
在一些可能实现方式中,上述编码过程可以使用one-hot编码,该编码方式可以适用于特征维度不过高的情况下,其编码方式简单,能够大大降低编码耗时。
在步骤203中,服务器将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
为了对一个账号的特征进行表示,则可以通过上述拼接方式来将各个特征拼接在一起,作为对账号的描述,基于上述向量表示来说,则可以将各个特征编码后得到的特征向量按照预定顺序进行拼接。
需要说明的是,对于一些账号来说,其可能缺失某方面的特征,则对于这类账号,可以将所缺失特征补齐,例如,将该所缺失特征映射为该特征对应的预设向量,在拼接时将该预设向量作为所缺失特征的特征向量来执行拼接步骤。
例如,对于类别特征(例如用户性别、手机***版本等)与数值特征(例如用户注册时间戳、使用时长等),进行编码后拼接为特征向量,可以得到特征向量如下:(1000,[2,3,9,100,999],[3.0,1.0,0.0,101.25,0.1])。
在步骤204中,服务器将该第一账号特征输入聚类模型,通过该聚类模型根据该第一账号特征与多个团簇之间的距离关系,得到该账号的第一类别以及该账号的类别特征。
该聚类模型在进行聚类时,可以基于该第一账号特征与各个团簇的团簇中心之间的距离关系,将该第一账号特征聚类至与其距离最近的团簇中心所属的团簇中,并输出该团簇的编号、第一账号特征与团簇中心之间的距离,用以表示该账号和其所属类别之间的关系,当然,该聚类模型还可以输出该团簇的紧密程度,用以表示该聚类的准确性,一个团簇的紧密程度越高,则说明这个团簇内的各个特征之间的相似程度越高,而紧密程度越低,说明这个团簇内的各个特征之间的相似程度越低。
上述步骤204是基于该第一账号特征,确定该账号的第一类别以及该账号的类别特征的过程,本公开实施例可以采用KMeans++算法来实现上述聚类模型,该算法实现简单,收敛速度快,当然,该聚类模型还可以基于KMeans、DBSCAN、GMM等任一种聚类算法构建,可以根据业务场景的需求以及聚类算法的特性进行灵活的选择,本公开实施例对此不做限定。在一些可能实现方式中,服务器在进行聚类时,还可以利用GPU进行并行计算,从而能够保证在近线情况下按时完成数据产出。
在步骤205中,服务器将该账号的类别特征和该第一账号特征进行特征融合,得到该账号的第二账号特征。
需要说明的是,在进行特征融合之前,还可以对上述聚类所得到的类别特征进行编码,在进行特征融合时所使用的是编码后的类别特征。例如,编码后的类别特征可以为[2001,105,100],则基于上述示例中的第一账号特征(1000,[2,3,9,100,999],[3.0,1.0,0.0,101.25,0.1])和该类别特征的特征向量,可以拼接得到下述特征:
(1000,[2,3,9,100,999],[3.0,1.0,0.0,101.25,0.1],[2001,105,100])。
在步骤206中,服务器将该账号的第二账号特征输入目标分类模型,通过该目标分类模型对该账号是否为目标类型账号进行预测,得到该账号的识别结果。
该目标分类模型可以是已经学习到恶意账号特性的模型,其所采用的训练数据可以包括上述同理的特征,并增加标签信息,以实现有监督的学习,从而达到能够识别账号是否为恶意账号的目的。对于具体如何训练模型的过程,本公开实施例将在下述内容中进行详述。
其中,该目标分类模型可以用于对账号是否为目标类型账号进行预测,其预测结果可以为二分类结果,也即是,可以输出是或否的结果,当然,还可以采用多分类结果,以提高模型的场景适用性,使之可以应用于多种不同的识别场景。当然,上述分类模型所应用的分类算法也可以有多种选择,例如RF、GBDT、LR、NN等,可以结合业务场景进行选择,本公开实施例对具体采用哪种算法不做限定。
本公开实施例提供的方法,通过对账号进行类别的划分,以确定账号的整体上的一些特征,再结合类别划分时所产生的类别特征以及一些具有较高重要性的特征,进行特征融合,以得到能够更全面的表示账号的特征,再基于这类特征进行分类,以通过学习到的恶意账号所具有的一些特性,来实现对账号的识别,能够大大提高对恶意账号识别的准确性。上述过程,结合了有监督与无监督的方式,创造了一种级联的处理方法,先充分利用无监督的特性以得到账号的类别上的特征,再通过有监督的方式来进一步对无监督方式所得到的类别进行再一次分类,达到了准确划分的目的。进一步地,在编码时对于一些较离散的高维特征的处理上,采用了缩短特征编码位数的编码方式,能够在尽量低的维度上尽可能保留更多更为有效的信息,大大降低了计算量,节约了计算资源,同时能够更快的给出响应结果。进一步地,在选取特征时,还会基于特征的重要性来选取有效特征进行聚类,避免了无效特征对识别过程的干扰。
进一步地,上述的识别结果的不同,还可以触发服务器后续做出相应的校验或处罚。例如,识别结果在第一目标数值区间,则该识别结果可能准确率较低,则可以触发管理员进行人工校验,而识别结果在第二目标数值区间,则确定其确实为恶意账号,可以触发服务器自动进行封号处理等,大大提升了恶意账号的处理效率。
通过线上数据观察,应用了本公开实施例后,在准确率与召回率等评估指标上都有明显增长,以日平均来计算,本公开实施例的识别准确率在96.3%以上,召回率在97%以上。
在一种可能实现方式中,上述目标分类模型的训练过程,参见图3,大致分为基础数据处理、特征选取、数据聚合、团簇划分以及等过程,在基础数据处理过程中,可以进行样本账号的数据收集,例如获取账号的基本特征、用户行为特征以及用户画像等,其具体实现可以通过与数据库交互来实现,该数据库可以采用HDFS(Hadoop Distributed FileSystem,Hadoop分布式文件***)或HIVE(基于Hadoop的一个数据仓库工具)等架构,本公开实施例对此不做限定,而在特征选取过程中,则可以对特征进行提取、编码、缺失处理、离散化以及无量纲化等处理,该过程的实现可以通过Spark算法进行,再将处理后的特征在数据聚合阶段通过聚类等手段来进行团簇划分,该聚类算法具体可以采用Kmeans来进行,团簇划分时还可以应用到特征的权重,权重可以通过XGBoost算法得到,最后可以将最终得到的模型提供为中台服务,使之能够适应于实际的应用场景,来实现账号识别,例如,团伙识别或是账号异常检测等。下面,对具体训练过程具体描述如下:
步骤一、获取多个样本账号的第一样本账号特征。
在进行目标分类模型训练之前,服务器可以获取样本账号的基础数据,该基础数据可以为用户资料特征,该用户资料特征可以从用户资料数据库中获取,可以为用户注册时所填写的资料信息还可以为用户对资料信息进行更新后所得到的信息,例如用户性别、用户年龄、用户所在地区等信息,本公开实施例不做限定。该基础数据还可以包括用户的一些前端后端特征,例如,用户使用的登录设备型号、登录***版本、登录IP地址等,这类数据可以统称为登录特征,另外,基础数据还可以包括用户行为特征,用以表示用户在登录过程中所进行的点击、观看、关注等行为,上述特征可以覆盖账号的几乎全部特征,可以达到对用户一个更深层次的描述。
在一种可能实现方式中,服务器还可以获取样本账号的用户画像,该用户画像可以基于账号的用户资料特征以及历史行为特征等生成,结合用户画像以及上述特征,则可以获取到涵盖了账号全面的特征信息,避免了信息的遗漏。
需要说明的是,该样本账号包括了正样本和负样本,正样本是被标注为非恶意账号的样本账号,而负样本是指已经被标注为恶意账号的样本账号。
在选取了大量特征后,其中部分特征并不具有区分性,直接使用会给模型引入噪声,因此,可以将权重小于目标权重的特征从上述特征中删除。需要说明的是,各个特征的权重可以是预设的权重,还可以是基于各个特征通过树模型进行计算所得到的权重,本公开实施例对此不做限定。在一种可能实现方式中,该方法还包括:通过树模型计算该多个样本账号的输入样本特征的权重,将权重小于目标权重的特征删除,将剩余的特征拼接为该多个样本账号的第一样本账号特征。需要说明的是,目标权重对于不同训练过程或识别过程可以不同,可以基于训练所使用样本的实际情况确定,例如,可以选取权重大小位于前预设位的特征,从而将所选取的特征对应的权重中的最小值作为该目标权重。其中,上述权重计算过程还可以采用XGBoost实现,权重可以是指该XGBoost模型计算过程中所产生的特征重要度(feature importance)。由于权重可以表示该特征对后续识别的重要性,因此,将一些重要性较低的特征进行删除,可以避免这些特征对识别的干扰,从而提高识别的准确率。在一种可能实现方式中,权重的数值越大则表示重要性越高,则权重小于目标权重,说明该特征的重要性较低,将这类特征删除,还可以降低后续编码以及具体计算过程的计算量,达到节约资源的目的。
在对特征进行拼接时,其拼接过程与账号识别过程中的拼接过程同理,可以参见步骤202,在此不做赘述。
步骤二、基于多个所述第一样本账号特征,确定多个所述样本账号的类别以及多个所述样本账号的类别特征,所述样本账号的类别特征用于表示所述样本账号与所述类别之间的关系。
该步骤二的过程可以为聚类过程,例如,可以通过聚类模型实现,服务器可以将该多个第一样本账号特征输入至聚类模型,以通过聚类算法,来对该多个第一样本账号特征进行聚类,其具体聚类方式可以示例如下,根据给定的数值,选取该数值个第一样本账号特征作为初始划分的团簇中心;计算所有第一样本账号特征到每一个团簇中心的距离,并将所有第一样本账号特征划分到距离最近的团簇中心;计算每个团簇中第一样本账号特征的平均值,将其作为新的团簇中心;循环进行2~3步直至达到最大迭代次数,或团簇中心的变化小于某一预定义阈值,则结束上述循环迭代过程,得到聚类结果。在聚类完成后,可以输出其聚类产物,例如多个团簇、各个团簇内的第一样本账号特征以及多个团簇的紧密程度等。
需要说明的是,本公开实施例中的聚类过程的每轮迭代之前,对一些权重小于目标权重的特征进行随机删除,经过多轮迭代后,选择集合内误差平方和(Within Set Sumof Squared Error,WSSSE)值最小的一组特征,作为聚类过程中所采用的特征,也即是在删除了权重小于目标权重的特征时,还可以删除其他特征,以得到上述通过迭代过程所最终确定的特征。当然,对于上述账号识别过程,可以直接在获取账号特征时,仅获取这部分特征,以避免数据和计算资源的浪费。
步骤三、将多个所述样本账号的类别特征分别和多个所述第一样本账号特征以及多个所述样本账号的标签信息进行特征融合,得到多个所述样本账号的第二样本账号特征。
上述标签信息用于表示该样本账号是否为恶意账号,该特征融合与上述步骤205的特征融合同理,在此不做赘述。需要说明的是,该特征融合还可以包括特征交叉,例如,当任一样本特征具有多个类别特征时,则可以获取该多个类别特征之间的与或组合,来作为其该样本账号的综合类别特征,以提高模型的鲁棒性。
步骤四、采用多个该样本账号的第二样本账号特征进行训练,得到该目标分类模型。
在训练过程中,可以在每次迭代过程中,将第二样本账号特征输入模型,通过模型当前的模型参数对个第二样本账号特征进行计算,以输出识别结果,基于识别结果与标签信息之间的异同,来对模型参数进行调整,基于调整后的模型参数再进行迭代计算过程,直到符合迭代停止条件,例如识别准确率达到目标准确率等,则输出本次的模型参数作为分类模型的参数,得到该目标分类模型。
在上述训练过程中,可以通过多轮聚类迭代来确定训练所采用的特征,再使用聚类迭代的结果叠加一些高权重的特征,再加之以标签信息来不断的迭代模型,从而使得目标分类模型能够做到对恶意账号的识别。
在一种可能实现方式中,可以将特征选取、编码与模型预测的流程封装为流水线(pipline),采用黑匣子的方式将整个账号识别方法的代码打包提供给业务方,由业务方提供基础数据,而通过上述对数据的自行特征提取以及训练过程,来得到符合业务需求的模型参数,也即是,本公开实施例可以提供中台服务,不同业务方接入只需按规则提供基础数据即可,符合小前台大中台的设计模式,能够高效支持多个业务线。
图4是根据一示例性实施例示出的一种账号识别装置的框图。参照图4,该装置包括获取单元401、确定单元402、特征融合单元403以及识别单元404。
获取单元401,被配置为执行获取待识别的账号的第一账号特征;
确定单元402,被配置为执行基于所述第一账号特征,确定所述账号的第一类别以及所述账号的类别特征,所述账号的类别特征用于表示所述账号与所述第一类别之间的关系;
特征融合单元403,被配置为执行将所述类别特征和所述第一账号特征进行特征融合,得到所述账号的第二账号特征;
识别单元404,被配置为执行将所述账号的第二账号特征输入目标分类模型,通过所述目标分类模型对所述账号是否为目标类型账号进行预测,得到所述账号的识别结果。
在一种可能实现方式中,所述获取单元用于获取待识别的账号的用户资料特征、登录特征以及用户行为特征;将权重小于目标权重的特征删除,将剩余的特征获取为所述账号的第一账号特征,其中,所述目标权重小于所述目标权重。
在一种可能实现方式中,所述获取单元被配置为执行将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述获取单元被配置为对各个特征分别进行编码,得到编码后的特征,将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
在一种可能实现方式中,所述获取单元被配置为在对目标特征进行编码时,对所述目标特征进行切分,得到所述目标特征的多段子特征,对所述多段子特征分别进行编码,将编码结果进行拼接,得到编码后的所述目标特征。
在一种可能实现方式中,所述确定单元,被配置为执行将所述第一账号特征输入聚类模型,通过所述聚类模型根据所述第一账号特征与多个团簇之间的距离关系,得到所述账号的第一类别以及所述账号的类别特征。
在一种可能实现方式中,所述确定单元在基于所述第一账号特征确定类别时,通过GPU进行并行计算。
在一种可能实现方式中,所述装置还包括:模型训练单元,被配置为执行:
获取多个样本账号的第一样本账号特征;基于多个所述第一样本账号特征,确定多个所述样本账号的类别以及多个所述样本账号的类别特征,所述样本账号的类别特征用于表示所述样本账号与所述类别之间的关系;将多个所述样本账号的类别特征分别和多个所述第一样本账号特征以及多个所述样本账号的标签信息进行特征融合,得到多个所述样本账号的第二样本账号特征;采用多个所述样本账号的第二样本账号特征进行训练,得到所述目标分类模型。
在一种可能实现方式中,所述装置还包括:
特征处理单元,被配置为执行通过树模型计算所述多个样本账号的输入样本特征的权重;将权重小于目标权重的特征删除,将剩余的特征获取为所述多个样本账号的第一样本账号特征。
在一种可能实现方式中,所述账号的类别特征包括:所述第一账号特征与所述第一类别的团簇中心之间的距离。
图5是根据一示例性实施例示出的一种服务器的框图。该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条指令,至少一条指令由处理器501加载并执行以实现上述各个方法实施例提供的账号识别方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种账号识别方法,其特征在于,包括:
获取待识别的账号的第一账号特征;
基于所述第一账号特征,确定所述账号的第一类别以及所述账号的类别特征,所述账号的类别特征用于表示所述账号与所述第一类别之间的关系;
将所述账号的类别特征和所述第一账号特征进行特征融合,得到所述账号的第二账号特征;
将所述账号的第二账号特征输入目标分类模型,通过所述目标分类模型对所述账号是否为目标类型账号进行预测,得到所述账号的识别结果,其中,所述目标分类模型的训练过程包括:获取多个样本账号的第一样本账号特征;基于多个所述第一样本账号特征,确定多个所述样本账号的类别以及多个所述样本账号的类别特征,所述样本账号的类别特征用于表示所述样本账号与所述类别之间的关系;将多个所述样本账号的类别特征分别和多个所述第一样本账号特征以及多个所述样本账号的标签信息进行特征融合,得到多个所述样本账号的第二样本账号特征;采用多个所述样本账号的第二样本账号特征进行训练,得到所述目标分类模型。
2.根据权利要求1所述的账号识别方法,其特征在于,所述获取待识别的账号的第一账号特征包括:
将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征。
3.根据权利要求2所述的账号识别方法,其特征在于,所述将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征包括:
对各个特征分别进行编码,得到编码后的特征,将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
4.根据权利要求3所述的账号识别方法,其特征在于,所述方法还包括:
在对目标特征进行编码时,对所述目标特征进行切分,得到所述目标特征的多段子特征,对所述多段子特征分别进行编码,将编码结果进行拼接,得到编码后的所述目标特征。
5.根据权利要求1所述的账号识别方法,其特征在于,所述基于所述第一账号特征,确定所述账号的第一类别以及所述账号的类别特征包括:
将所述第一账号特征输入聚类模型,通过所述聚类模型根据所述第一账号特征与多个团簇之间的距离关系,得到所述账号的第一类别以及所述账号的类别特征。
6.根据权利要求1所述的账号识别方法,其特征在于,所述方法包括:在基于所述第一账号特征确定类别时,通过GPU进行并行计算。
7.根据权利要求1所述的账号识别方法,其特征在于,所述方法还包括:通过树模型计算所述多个样本账号的输入样本特征的权重,将权重小于目标权重的特征删除,将剩余的特征拼接为所述多个样本账号的第一样本账号特征。
8.一种账号识别装置,其特征在于,包括:
获取单元,被配置为执行获取待识别的账号的第一账号特征;
确定单元,被配置为执行基于所述第一账号特征,确定所述账号的第一类别以及所述账号的类别特征,所述账号的类别特征用于表示所述账号与所述第一类别之间的关系;
特征融合单元,被配置为执行将所述类别特征和所述第一账号特征进行特征融合,得到所述账号的第二账号特征;
模型训练单元,被配置为执行:获取多个样本账号的第一样本账号特征;基于多个所述第一样本账号特征中的第一目标样本特征,确定多个所述样本账号的类别以及多个所述样本账号的类别特征,所述样本账号的类别特征用于表示所述样本账号与所述类别之间的关系;将多个所述样本账号的类别特征分别和多个所述第一样本账号特征中的第二目标样本特征以及多个所述样本账号的标签信息进行特征融合,得到多个所述样本账号的第二样本账号特征;采用多个所述样本账号的第二样本账号特征进行训练,得到目标分类模型;
识别单元,被配置为执行将所述账号的第二账号特征输入目标分类模型,通过所述目标分类模型对所述账号是否为目标类型账号进行预测,得到所述账号的识别结果。
9.根据权利要求8所述的账号识别装置,其特征在于,所述获取单元被配置为执行将所述账号的用户资料特征、登录特征以及用户行为特征拼接,得到所述账号的第一账号特征。
10.根据权利要求9所述的账号识别装置,其特征在于,所述获取单元被配置为对各个特征分别进行编码,得到编码后的特征,将所述编码后的特征进行拼接,得到所述账号的第一账号特征。
11.根据权利要求10所述的账号识别装置,其特征在于,所述获取单元被配置为在对目标特征进行编码时,对所述目标特征进行切分,得到所述目标特征的多段子特征,对所述多段子特征分别进行编码,将编码结果进行拼接,得到编码后的所述目标特征。
12.根据权利要求8所述的账号识别装置,其特征在于,所述确定单元,被配置为执行将所述第一账号特征输入聚类模型,通过所述聚类模型根据所述第一账号特征与多个团簇之间的距离关系,得到所述账号的第一类别以及所述账号的类别特征。
13.根据权利要求8所述的账号识别装置,其特征在于,所述确定单元在基于所述第一账号特征确定类别时,通过GPU进行并行计算。
14.根据权利要求8所述的账号识别装置,其特征在于,所述装置还包括:
特征处理单元,被配置为执行通过树模型计算所述多个样本账号的输入样本特征的权重;将权重小于目标权重的特征删除,将剩余的特征拼接为所述多个样本账号的第一样本账号特征。
15.一种服务器,其特征在于,包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的账号识别方法。
16.一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得所述服务器能够执行如权利要求1至7中任一项所述的账号识别方法。
CN201911136455.5A 2019-11-19 2019-11-19 账号识别方法、装置、服务器及存储介质 Active CN112905987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911136455.5A CN112905987B (zh) 2019-11-19 2019-11-19 账号识别方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911136455.5A CN112905987B (zh) 2019-11-19 2019-11-19 账号识别方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN112905987A CN112905987A (zh) 2021-06-04
CN112905987B true CN112905987B (zh) 2024-02-27

Family

ID=76104647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911136455.5A Active CN112905987B (zh) 2019-11-19 2019-11-19 账号识别方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112905987B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407800A (zh) * 2023-09-11 2024-01-16 北京工商大学 一种基于随机森林和XGBoost模型的社交媒体机器人检测方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN108418825A (zh) * 2018-03-16 2018-08-17 阿里巴巴集团控股有限公司 风险模型训练、垃圾账号检测方法、装置以及设备
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN110119860A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 一种垃圾账号检测方法、装置以及设备
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110225036A (zh) * 2019-06-12 2019-09-10 北京奇艺世纪科技有限公司 一种账号检测方法、装置、服务器及存储介质
CN110232630A (zh) * 2019-05-29 2019-09-13 腾讯科技(深圳)有限公司 恶意账户识别方法、装置及存储介质
CN110399925A (zh) * 2019-07-26 2019-11-01 腾讯科技(武汉)有限公司 账号的风险识别方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN110119860A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 一种垃圾账号检测方法、装置以及设备
CN108418825A (zh) * 2018-03-16 2018-08-17 阿里巴巴集团控股有限公司 风险模型训练、垃圾账号检测方法、装置以及设备
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110232630A (zh) * 2019-05-29 2019-09-13 腾讯科技(深圳)有限公司 恶意账户识别方法、装置及存储介质
CN110225036A (zh) * 2019-06-12 2019-09-10 北京奇艺世纪科技有限公司 一种账号检测方法、装置、服务器及存储介质
CN110399925A (zh) * 2019-07-26 2019-11-01 腾讯科技(武汉)有限公司 账号的风险识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN112905987A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN113011889B (zh) 账号异常识别方法、***、装置、设备及介质
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
WO2023169274A1 (zh) 数据处理方法、装置、存储介质以及处理器
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN110414335A (zh) 视频识别方法、装置及计算机可读存储介质
CN113298263A (zh) 计算图处理、模型运行方法及装置、电子设备、服务器及边缘终端
CN113592593A (zh) 序列推荐模型的训练及应用方法、装置、设备及存储介质
CN111970400A (zh) 骚扰电话识别方法及装置
CN115687732A (zh) 基于ai和流式计算的用户分析方法及***
CN110969261B (zh) 基于加密算法的模型构建方法及相关设备
CN115860836A (zh) 一种基于用户行为大数据分析的电商服务推送方法及***
CN114647790A (zh) 应用于行为意图分析的大数据挖掘方法及云端ai服务***
CN112905987B (zh) 账号识别方法、装置、服务器及存储介质
CN114092162B (zh) 推荐质量确定方法、推荐质量确定模型的训练方法及装置
CN111401675A (zh) 基于相似性的风险识别方法、装置、设备及存储介质
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN111737319B (zh) 用户集群的预测方法、装置、计算机设备和存储介质
CN111931035B (zh) 业务推荐方法、装置及设备
CN113469816A (zh) 基于多组学技术的数字货币识别方法、***和存储介质
US20230377004A1 (en) Systems and methods for request validation
CN117932455A (zh) 一种基于神经网络的物联网资产识别方法和***
CN113313587A (zh) 基于人工智能的信用风险分析方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant