CN110162939B - 人机识别方法、设备和介质 - Google Patents

人机识别方法、设备和介质 Download PDF

Info

Publication number
CN110162939B
CN110162939B CN201811248586.8A CN201811248586A CN110162939B CN 110162939 B CN110162939 B CN 110162939B CN 201811248586 A CN201811248586 A CN 201811248586A CN 110162939 B CN110162939 B CN 110162939B
Authority
CN
China
Prior art keywords
machine
man
terminal device
human
prediction probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811248586.8A
Other languages
English (en)
Other versions
CN110162939A (zh
Inventor
范小龙
张西文
陈良文
曾键
钟子檀
张谋辉
杨正朋
沈维杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811248586.8A priority Critical patent/CN110162939B/zh
Publication of CN110162939A publication Critical patent/CN110162939A/zh
Application granted granted Critical
Publication of CN110162939B publication Critical patent/CN110162939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了人机识别方法、设备和介质。所述人机识别方法包括:响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据;从所述原始数据中提取第一数量的多个维度的特征;将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率;基于所述多个人机预测子概率,确定人机预测概率;以及基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。

Description

人机识别方法、设备和介质
技术领域
本公开涉及人机识别领域。更具体地说,涉及人机识别方法、设备和介质。
背景技术
人机识别是一种用于执行身份验证的安全措施。人机识别***通常会要求用户完成一个简单的测试,以证明执行操作的是正常用户,而不是一台试图攻入受密码保护的帐户的计算机。
当前的人机识别方式主要采用的是验证码方式,包括输入字符、理解题意、图像点击、窗口滑动等等。这些人机识别方式属于有感知的人机识别方式。这种有感知的人机识别方式需要在用户能够意识到的情况下由用户额外地进行输入验证。因此,这样的问题在于,如果出于降低用户操作复杂度的考虑而将验证码设置得简单,那么该验证码将易于突破。但是,如果出于不易突破该验证码的考虑而将验证码设置得复杂,例如让用户去计算数学题,或者看图点击指定状态的图片等,那么用户操作复杂度将大幅提高而不利于实际应用。
另外,传统的恶意机器识别方案,主要是基于IP资源、频繁操作等策略生成。但是现在的黑色产业资源越来越丰富,非常容易突破这些策略限制。
发明内容
鉴于以上情形,期望提供一种无感知的、基于行为类的人机识别方法、设备和介质,其能够实现高准确度的人机识别并有效地防止黑色产业的突破。
根据本公开的一个方面,提供了一种人机识别方法,包括:响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据;从所述原始数据中提取第一数量的多个维度的特征;将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率;基于所述多个人机预测子概率,确定人机预测概率;以及基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。
另外,在根据本公开实施例的人机识别方法中,所述第二数量的多个用户行为模型是关于同一样本库分别基于不同的监督分类算法来训练而得到的。
另外,在根据本公开实施例的人机识别方法中,在确定人机预测概率的步骤之后,进一步包括:将所述人机预测概率与所述终端设备相关联地存储在一数据库中。
另外,在根据本公开实施例的人机识别方法中,在确定人机预测概率的步骤之后,进一步包括:从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率;以及将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率。
另外,根据本公开实施例的人机识别方法进一步包括:基于所述数据库更新所述样本库;以及以更新后的样本库重新训练所述多个用户行为模型。
另外,在根据本公开实施例的人机识别方法中,在从所述原始数据中提取第一数量的多个维度的特征的步骤之后,进一步包括:对提取出的特征执行增强处理,以得到第三数量的多个维度的特征。
另外,根据本公开实施例的人机识别方法进一步包括:响应于来自终端设备的人机识别请求,向所述终端设备发送一令牌,其中所述令牌与所述终端设备的人机预测概率相关联。
根据本公开的另一方面,提供了一种人机识别设备,包括:通信单元,用于响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据;提取单元,用于所述原始数据中提取第一数量的多个维度的特征;以及处理单元,用于将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率,基于所述多个人机预测子概率,确定人机预测概率,并基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。
另外,在根据本公开实施例的人机识别设备中,所述处理单元进一步包括:建模单元,用于关于同一样本库分别基于不同的监督分类算法来训练而得到所述第二数量的多个用户行为模型。
另外,根据本公开实施例的人机识别设备进一步包括:存储单元,用于存储一数据库,并且其中,将所述人机预测概率与所述终端设备相关联地存储在所述数据库中。
另外,根据本公开实施例的人机识别设备进一步包括:历史查询单元,用于从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率,并且其中所述处理进一步被配置为:将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率。
另外,根据本公开实施例的人机识别设备进一步包括:更新单元,用于基于所述数据库更新所述样本库;并且其中所述建模单元进一步被配置为:以更新后的样本库重新训练所述多个用户行为模型。
另外,根据本公开实施例的人机识别设备进一步包括:特征增强单元,用于对提取出的特征执行增强处理,以得到第三数量的多个维度的特征。
另外,在根据本公开实施例的人机识别方法中,所述通信单元进一步被配置为:响应于来自终端设备的人机识别请求,向所述终端设备发送一令牌,其中所述令牌与所述终端设备的人机预测概率相关联。
根据本公开的另一方面,提供了一种人机识别设备,包括:通信单元,用于响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据;存储单元,用于在其上存储计算机程序;处理单元,用于当执行所述计算机程序时,实现以下步骤:从所述原始数据中提取第一数量的多个维度的特征;将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率;基于所述第二数量的多个人机预测子概率,确定人机预测概率;以及基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。
根据本公开的另一方面,提供了一种计算机可读记录介质,其上存储计算机程序,用于当由处理单元执行所述计算机程序时,实现以下步骤:响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据;从所述原始数据中提取第一数量的多个维度的特征;将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率;基于所述第二数量的多个人机预测子概率,确定人机预测概率;以及基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。
在根据本公开的实施例的人机识别方法和设备中,采用非感知的方式来执行人机识别。即,在用户不知晓的情况下,通过采集的终端设备处的特征,来判断终端设备处的操作是否为正常用户的操作。因此,与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。此外,在根据本公开的实施例的人机识别方法和设备中,基于多种类别的原始数据采集多个维度的特征,并且向用户行为模型输入的也是多个维度的特征。换言之,本公开中的用户行为模型是针对基于多种类别的原始数据而采集的多个维度的特征而建立的模型。与现有技术中仅使用单一类别的行为数据(例如,键盘、鼠标操作数据)来预测的方案相比,根据本公开的实施例的人机识别方法由于考虑了更多类别的数据和更多维度的特征从而准确度更高。此外,在根据本公开的实施例的人机识别方法中,采用了基于不同监督分类算法的多种用户行为模型分别执行预测,并综合这多个不同模型的结果来得到最终的人机预测结果。与现有技术中仅使用单个模型来预测的方案相比,能够进一步提高预测的精度。并且,在根据本公开的实施例的人机识别方法和设备中,能够基于该数据库来不断地更新迭代用户行为模型,因此用户行为模型能够更有效地应对黑色产业的快速变化,从而即使在黑色产业快速变化的情况下也能够获得准确的人机识别结果。并且,在根据本公开的实施例的人机识别方法和设备中,可以将本次的人机预测概率进一步结合历史的人机预测概率以得到最终的人机预测概率,能够进一步提高预测的准确度。
附图说明
图1是示出了本公开的实施例的应用环境的示意图;
图2是示出了根据本公开的实施例的人机识别方法的流程图;
图3是示出了根据本公开的另一实施例的人机识别方法的流程图;
图4是示出了根据本公开的再一实施例的人机识别方法的流程图;
图5是示出了根据本公开的实施例的人机识别设备的功能性框图;
图6是示出了根据本公开的另一实施例的人机识别设备的功能性框图;
图7是示出了根据本公开的再一实施例的人机识别设备的功能性框图;
图8是示出了根据本公开的服务器与终端设备之间的数据流的示意图;
图9示出了根据本公开的用于计算设备的综合信用分的装置作为硬件实体的一个示例;以及
图10示出了根据本公开的实施例的计算机可读记录介质的示意图。
具体实施方式
下面将参照附图对本公开的各个优选的实施方式进行描述。提供以下参照附图的描述,以帮助对由权利要求及其等价物所限定的本公开的示例实施方式的理解。其包括帮助理解的各种具体细节,但它们只能被看作是示例性的。因此,本领域技术人员将认识到,可对这里描述的实施方式进行各种改变和修改,而不脱离本公开的范围和精神。而且,为了使说明书更加清楚简洁,将省略对本领域熟知功能和构造的详细描述。
首先,简要描述本公开的实施例的应用环境。如图1所示,服务器10、服务器20通过网络40连接到多个终端设备30。所述多个终端设备30可以是实际地执行各种业务的设备。尽管图1中将终端设备30统一地示为了手机,但本公开并不仅限于此。本领域的技术人员可以理解,终端设备30还可以是任何其他类型的设备,如PDA(个人数字助理)、平板计算机、台式计算机等。服务器10可以是下文所述的用于人机识别的设备。服务器20可以是与所述服务器10交互的其他服务器。例如,服务器20可以是下文中所述的向服务器10查询人机识别结果的业务风控后台服务器。所述网络40可以是任何类型的有线或无线网络,例如因特网。应当认识到,图1所示的服务器10、服务器20和终端设备30的数量是示意性的,而不是限制性的。
接下来,将参照图2描述根据本公开的一种实施例的人机识别方法。所述人机识别方法可以应用于图1中所示的服务器10。如图2所示,所述人机识别方法包括以下步骤。
首先,在步骤S201,响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据。原始数据是在所述终端设备上实时地收集的数据。具体来说,当在终端设备侧执行需要进行人机识别的操作,如登录某个银行账号时,需要对终端设备侧的操作进行人机识别,即判断该操作是由正常用户执行的操作,还是由恶意机器(即,异常用户)执行的操作。此时,终端设备会向服务器发出人机识别请求,并将发出人机识别请求前后预定时段内在终端设备采集的数据上报给服务器。所述原始数据包括多种类别的数据。例如,所述原始数据不仅可以包括由终端设备在前端采集的多种行为数据,而且还可以进一步包括关于所述终端设备的本地属性数据和基础环境数据。例如,行为数据可以包括终端设备的键盘数据、鼠标数据等,本地属性数据可以包括关于终端设备自身的属性数据,例如终端设备型号数据、***版本数据、基础硬件数据、软件数据、设备使用天数等,基础环境数据可以包括终端设备接入因特网的IP地址、所接入的WIFI数据等。
接下来,在步骤S202,从所述原始数据中提取第一数量的多个维度的特征。如上文中所述,原始数据可以包括多种类别的数据。所述多种类别的数量可以为第四数量。第一数量与第四数量是彼此独立的自然数。例如,第一数量为大于等于1的自然数。第一数量的具体数值将取决于不同的应用场景和终端设备处的操作而定。第四数量为大于等于2的自然数。第四数量的具体数值将取决于不同的应用场景而预先设置。对于每一种类别的数据,都可以从其中提取出多个维度的特征。
首先对原始数据进行预处理。具体来说,所述预处理可以包括数据等长填充和异常数据清洗等。然后,对于经过预处理后的数据执行特征提取处理。例如,提取特征的处理可以包括对非数值的特征进行数值化以及对多种数据进行归一化等操作。执行归一化处理。例如,可以通过以下公式(1)或(2)来执行归一化处理。
F(x)=(a+x)/(b+x)(1)
Figure BDA0001841118910000061
其中,F(x)表示归一化处理后得到的特征,x表示原始数据。a和b分别表示归一化的参数,其能够根据不同的数据区分度进行调节。
例如,通过将作为设备使用天数的原始数据x输入至以上公式,以输出0~1之间的值,作为输入到后续用户行为模型的特征。当然,对于不同的原始数据可以采用不同的函数来进行归一化,并且归一化方法也不限于以上所列举的两种。
此外,存在在所述预定时段内采集的数据少,进而可提取的特征少的情况。然而,少量的特征对于后续的人机识别的处理是不利的。因此,在这种情况下,在从所述原始数据中提取第一数量的多个维度的特征的步骤之后,所述方法可以进一步包括:对提取出的特征执行增强处理,以得到第三数量的多个维度的特征(图中未示出)。也就是说,在提取出的第一数量的多个维度的特征的基础上,额外地获得第三数量的多个维度的特征。第三数量是大于等于1的自然数。因此,通过增强处理,共计能够获得第一数量加第三数量的多个维度的特征,从而能够扩展所获得的特征的维度的数量。另外,需要指出的是,分别对于从同一种类别的原始数据中提取出的特征执行增强处理。
例如,对于所述原始数据中的行为数据而言,数据增强的方式可以包括对行为数据进行统计,以获得各种统计特征。另外,数据增强的方式还可以包括对行为数据进行差分操作。再者,数据增强的方式也可以包括时空多维扩充。例如,在终端设备采集的行为数据包括鼠标数据。该鼠标数据为多次采样得到的中终端设备的显示屏上显示的光标位置的x、y坐标。通过分析多个x、y坐标可以进一步得到诸如鼠标移动的速度、角速度等其他维度的特征。例如,通过特征增强处理,可以将原始的20维基础特征增加到70维特征。
接下来,在步骤S203,将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率。所述第二数量与所述第一数量是彼此独立的。所述第二数量为大于等于2的自然数。所述第二数量的具体数值将取决于不同的应用场景而预先设置。
这里,需要指出的是,所述第二数量的多个用户行为模型是关于同一样本库分别基于不同的监督分类算法来训练而得到的。监督分类算法包括一个目标变量(因变量,即人机预测子概率)和用来预测目标变量的预测变量(自变量,即提取出的多维特征)。这里,人机预测子概率是从每一个用户行为模型输出的预测结果。通过这些变量可以搭建一个模型,从而对于一个已知的预测变量值,可以得到对应的目标变量值。重复训练这个模型,直到它能在训练数据集上达到预定的准确度。具体来说,在本公开的实施例中,样本库包括已知的、作为输入自变量的多维特征和已知的、作为输出因变量的预测概率。例如,用户行为模型包括与多维特征对应的函数以及参数等。训练是基于已知的自变量和因变量训练那些函数和参数。通过算法的训练学习过程,不断地调整函数和参数,最终能找到一组实现正确的预测结果的函数和参数。一旦函数和参数确定,也就确定了模型。然后将模型用于样本库以外的特征变量,进而得到对应的预测结果。例如,监督分类算法的具体示例包括:梯度提升树(Gradient Boosting Decision Tree,GBDT)、卷积神经网络(Convolutional NeuralNetwork,CNN)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)等。
举例而言,在根据本公开的人机识别方法中,第二数量可以设置为3。即,可以使用三个用户行为模型来执行人机行为预测。这三个用户行为模型分别采用梯度提升树、卷积神经网络和随机森林的方法来基于样本库进行训练。由于这三个用户行为模型分别基于不同的方法来训练,因此即使输入相同或大致相同的特征变量,也将输出不同的人机预测子概率。
当然,用户行为模型的数量,即第二数量,并不仅限于三个。本领域的技术人员应该理解,任何其他数量的用户行为模型也可以类似地应用于本公开,且应该包括在本公开的范围内。
接下来,在步骤S204,基于所述第二数量的多个人机预测子概率,确定人机预测概率。也就是说,需要对分别由第二数量的多个用户行为模型输出的第二数量的多个人机预测子概率进行综合以得到最后的人机识别结果。例如,作为一种可能的实施方式,可以对第二数量的多个人机预测子概率进行平均,并以计算出的平均值作为用以确定人机识别结果的人机预测概率。
然后,在步骤S205,基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。例如,可以通过判断所述人机预测概率的数值范围,来确定所述终端设备处的操作是否为正常用户的操作。具体来说,当人机预测概率大于一特定阈值时,认为终端设备处的操作为异常用户的操作。当人机预测概率小于一特定阈值时,认为终端设备处的操作为正常用户的操作。
可以看出,在根据本公开的实施例的人机识别方法中,采用非感知的方式来执行人机识别。即,在用户不知晓的情况下,通过采集的终端设备处的特征,来判断终端设备处的操作是否为正常用户的操作。因此,与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。此外,在根据本公开的实施例的人机识别方法和设备中,基于多种类别的原始数据采集多个维度的特征,并且向用户行为模型输入的也是多个维度的特征。换言之,本公开中的用户行为模型是针对基于多种类别的原始数据而采集的多个维度的特征而建立的模型。与现有技术中仅使用单一类别的行为数据(例如,键盘、鼠标操作)来预测的方案相比,根据本公开的实施例的人机识别方法由于考虑了更多类别的数据和更多维度的特征从而准确度更高。此外,在根据本公开的实施例的人机识别方法中,采用了基于不同监督分类算法的多种用户行为模型分别执行预测,并综合这多个不同模型的结果来得到最终的人机预测结果。与现有技术中仅使用单个模型来预测的方案相比,能够进一步提高预测的精度。
另外,作为另一种可能的实施方式,还可以存储针对所述终端设备的每次计算出的人机预测概率,作为所述终端设备的人机预测历史数据。具体来说,图3示出了根据本公开的另一实施例的人机识别方法。所述人机识别方法包括参照图2在上文中描述的步骤S201~S205。除此之外,如图3所示,根据公开的另一实施例的人机识别方法还进一步包括步骤S301。在步骤S301,将所述人机预测概率与所述终端设备相关联地存储在一数据库中。例如,该数据库可以为人机行为及异常环境黑库。出于降低存储量的考虑,可以仅将指示异常用户的人机预测概率存储在所述人机行为及异常环境黑库中。也就是说,仅当所述人机预测概率指示所述终端设备处的操作不是正常用户的操作时,才执行步骤S301的处理。
通过将每次计算出的人机识别结果都存储在所述数据库中,可以使得数据库中保持所有历史识别数据。当然,除此之外,数据库还可以接收其他来源的黑数据记录,包括异常行为、异常设备、异常IP等。也就是说,数据库进一步汇总了历史人机识别结果以及各种黑色产业资源,因此可以提供更多的有效行为特征,以及提供更多的恶意机器资源黑库,防止黑色产业突破单点的行为模型。
因此,如果能够基于该数据库来不断地更新迭代用户行为模型,那么用户行为模型将能够更有效地应对黑色产业的快速变化,从而即使在黑色产业快速变化的情况下也能够获得准确的人机识别结果。
出于这种考虑,在步骤S301之后,所述人机识别方法还可以进一步包括以下步骤。
在步骤S302,基于所述数据库更新所述样本库。可以将所述数据库中的一部分数据,例如最近更新的数据,同步到所述样本库中。
然后,在步骤S303,以更新后的样本库重新训练所述第二数量的多个用户行为模型。
此外,在参照图2所述的人机识别方法中,仅采用单次的人机预测概率作为最终的人机预测概率。然而,本公开并不仅限于此。例如,在根据公开的再一实施例中,可以将本次的人机预测概率进一步结合历史的人机预测概率以得到最终的人机预测概率。
图4示出了根据本公开的再一实施例的人机识别方法。参照图4,根据本公开的再一实施例的人机识别方法包括在上文中参照图2描述的步骤S201~S205以及参照图3描述的步骤S301。除此之外,根据本公开的再一实施例的人机识别方法进一步包括以下步骤。
在步骤S401,从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率。
然后,在步骤S402,将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率。
理论上来讲,与当前的人机预测概率对应的权重最大,与时间越早的历史人机预测概率对应的权重越小。但是,例如,该加权模型的权重的具体数值可以通过监督分类算法来学习得到。此外,使用多少个历史结果也是需要监督分类算法分析得出的。
具体来说,基于当前的人机预测概率和多个历史人机预测概率而计算出最终人机预测概率f为:
Figure BDA0001841118910000101
其中:
ki:待学习的权重;
ti:时间衰减系数,取识别时间到当前时间点的差值,再做归一化处理;
Pi:单次预测的人机预测概率值;
N:默认取10次,可根据场景自动调节。
从而,在根据本公开的再一实施例的人机识别方法中,由于综合了历史预测数据,因此能够进一步提高预测的准确性。
此外,根据本公开的人机识别方法还可以进一步包括:响应于来自终端设备的人机识别请求,向所述终端设备发送一令牌(token),其中所述令牌与所述终端设备的人机识别结果相关联。具体来说,当在终端设备侧执行需要进行人机识别的操作,如登录某个银行账号时,需要对终端设备侧的操作进行人机识别,即判断该操作是由正常用户执行的操作,还是由恶意机器(即,异常用户)执行的操作。并且,这里需要指出的是,希望得到关于终端设备的人机识别结果的是业务风控后台服务器。例如,当登录某个银行账号时,该银行的业务风控后台服务器希望得到关于终端设备的人机识别结果以决定是否允许用户在终端设备处的操作。此时,终端设备将得到的令牌发送给业务风控后台服务器,并且业务风控后台服务器基于该令牌向用于人机识别的服务器查询关于终端设备的人机识别结果。
接下来,将参照图5描述根据本公开的实施例的人机识别设备。所述人机识别设备可以是在上文中参照图1描述的服务器10。如图5所示,人机识别设备500包括:通信单元501、提取单元502和处理单元503。
通信单元501用于响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据。
提取单元502用于所述原始数据中提取第一数量的多个维度的特征。
处理单元503用于将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的用户行为模型输出第二数量的多个人机预测子概率,并基于所述第二数量的多个人机预测子概率,确定人机预测概率。然后,基于所述人机预测概率,得到关于所述终端设备处的操作的人机识别结果。
并且,所述处理单元503进一步包括:建模单元5031,用于关于同一样本库分别基于不同的监督分类算法来训练而得到所述第二数量的多个用户行为模型。
可以看出,在根据本公开的实施例的人机识别设备中,采用非感知的方式来执行人机识别。即,在用户不知晓的情况下,通过采集的终端设备处的特征,来判断终端设备处的操作是否为正常用户的操作。因此,与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。此外,在根据本公开的实施例的人机识别方法和设备中,基于多种类别的原始数据采集多个维度的特征,并且向用户行为模型输入的也是多个维度的特征。换言之,本公开中的用户行为模型是针对基于多种类别的原始数据而采集的多个维度的特征而建立的模型。与现有技术中仅使用单一类别的行为数据(例如,键盘、鼠标操作)来预测的方案相比,根据本公开的实施例的人机识别设备由于考虑了更多类别的数据和更多维度的特征从而准确度更高。此外,在根据本公开的实施例的人机识别设备中,采用了基于不同监督分类算法的多种用户行为模型分别执行预测,并综合这多个不同模型的结果来得到最终的人机预测结果。与现有技术中仅使用单个模型来预测的方案相比,能够进一步提高预测的精度。
另外,作为另一种可能的实施方式,还可以存储针对所述终端设备的每次计算出的人机预测概率,作为所述终端设备的人机预测历史数据。具体来说,图6示出了根据本公开的另一实施例的人机识别设备。如图6所示,除了通信单元501、提取单元502和处理单元503之外,人机识别设备600进一步包括:存储单元601,用于存储一数据库。并且,将所述处理单元确定出的所述人机预测概率与所述终端设备相关联地存储在所述数据库中。
通过将每次计算出的人机识别结果都存储在所述数据库中,可以使得数据库中保持所有历史识别数据。当然,除此之外,数据库还可以接收其他来源的黑数据记录,包括异常行为、异常设备、异常IP等。也就是说,数据库进一步汇总了历史人机识别结果以及各种黑色产业资源,因此可以提供更多的有效行为特征,以及提供更多的恶意机器资源黑库,防止黑色产业突破单点的行为模型。
因此,如果能够基于该数据库来不断地更新迭代用户行为模型,那么用户行为模型将能够更有效地应对黑色产业的快速变化,从而即使在黑色产业快速变化的情况下也能够获得准确的人机识别结果。
出于这种考虑,人机识别设备600可以进一步包括:更新单元602,用于基于所述数据库更新所述样本库。并且其中所述建模单元5031进一步被配置为:以更新后的样本库重新训练所述第二数量的多个用户行为模型。
此外,在参照图5所述的人机识别设备中,处理单元503仅采用单次的人机预测概率作为最终的人机预测概率。然而,本公开并不仅限于此。例如,在根据公开的再一实施例中,可以将本次的人机预测概率进一步结合历史的人机预测概率以得到最终的人机预测概率。
图7示出了根据本公开的再一实施例的人机识别设备。如图7所示,除了通信单元501、提取单元502、处理单元503和存储单元601之外,人机识别设备700进一步包括:历史查询单元701,用于从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率。并且,所述处理503进一步被配置为:将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率。
此外,在根据本公开的人机识别设备中,所述通信单元501进一步被配置为:响应于来自终端设备的人机识别请求,向所述终端设备发送一令牌,其中所述令牌与所述终端设备的人机识别结果相关联。
图8示出了用于执行人机识别的服务器10、终端设备30以及用于查询人机识别结果的服务器30之间的数据流。具体来说,当在终端设备侧执行需要进行人机识别的操作,如登录某个银行账号时,需要对终端设备侧的操作进行人机识别,即判断该操作是由正常用户执行的操作,还是由恶意机器(即,异常用户)执行的操作。如图8所示,此时终端设备30向服务器10发送人机识别请求。响应于该人机识别请求,服务器10向终端设备发送令牌。并且,如上文中所述,希望得到关于终端设备的人机识别结果的是业务风控后台服务器。例如,当登录某个银行账号时,该银行的业务风控后台服务器希望得到关于终端设备的人机识别结果以决定是否允许用户在终端设备处的操作。此时,终端设备30将得到的令牌发送给业务风控后台服务器20,并且业务风控后台服务器20基于该令牌向用于人机识别的服务器10查询关于终端设备的人机识别结果。
根据本公开的用于计算设备的综合信用分的装置作为硬件实体的一个示例如图9所示。所述装置包括处理器901、存储器902以及至少一个外部通信接口903。所述处理器901、存储器902以及外部通信接口903均通过总线804连接。
对于用于数据处理的处理器901而言,在执行处理时,可以采用微处理器、中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital SingnalProcessor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现;对于存储器902来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本公开的各个实施例的方法流程中的各个步骤。
图10示出了根据本发明的实施例的计算机可读记录介质的示意图。如图10所示,根据本发明实施例的计算机可读记录介质1000其上存储有计算机程序指令1001。当所述计算机程序指令1001由处理器运行时,执行参照以上附图描述的根据本发明实施例的人机识别方法。
迄今为止,已经参照图1到图10详细描述了根据本公开的实施例的人机识别方法和设备。在根据本公开的实施例的人机识别方法和设备中,采用非感知的方式来执行人机识别。即,在用户不知晓的情况下,通过采集的终端设备处的特征,来判断终端设备处的操作是否为正常用户的操作。因此,与现有技术中用户需要计算验证码来执行人机识别的方式相比,不再需要用户执行任何额外的操作,从而最大程度地降低了用户操作复杂度。此外,在根据本公开的实施例的人机识别方法和设备中,基于多种类别的原始数据采集多个维度的特征,并且向用户行为模型输入的也是多个维度的特征。换言之,本公开中的用户行为模型是针对基于多种类别的原始数据而采集的多个维度的特征而建立的模型。与现有技术中仅使用单一类别的行为数据(例如,键盘、鼠标操作)来预测的方案相比,根据本公开的实施例的人机识别方法由于考虑了更多类别的数据和更多维度的特征从而准确度更高。此外,在根据本公开的实施例的人机识别方法中,采用了基于不同监督分类算法的多种用户行为模型分别执行预测,并综合这多个不同模型的结果来得到最终的人机预测结果。与现有技术中仅使用单个模型来预测的方案相比,能够进一步提高预测的精度。并且,在根据本公开的实施例的人机识别方法和设备中,能够基于该数据库来不断地更新迭代用户行为模型,因此用户行为模型能够更有效地应对黑色产业的快速变化,从而即使在黑色产业快速变化的情况下也能够获得准确的人机识别结果。并且,在根据本公开的实施例的人机识别方法和设备中,可以将本次的人机预测概率进一步结合历史的人机预测概率以得到最终的人机预测概率,能够进一步提高预测的准确度。
需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本公开可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过软件来实施。基于这样的理解,本公开的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例或者实施例的某些部分所述的方法。
以上对本公开进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (11)

1.一种非感知方式的人机识别方法,包括:
响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据,其中,所述原始数据是在所述终端设备上实时地收集的多种类别的数据,并且包括由终端设备在前端采集的多种行为数据、以及关于所述终端设备的本地属性数据和基础环境数据,其中所述多种行为数据包括针对所述终端设备处的操作行为的行为数据,所述本地属性数据包括关于所述终端设备自身的属性数据,所述操作行为与基于有感知的验证码方式的用户操作行为不同;
从所述原始数据中提取第一数量的多个维度的特征,其中,所述第一数量与所述原始数据的类别数量彼此独立;
将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率,其中,所述第一数量与所述第二数量彼此独立,并且所述第二数量的多个用户行为模型是关于同一样本库分别基于不同的监督分类算法来训练而得到的;
基于所述第二数量的多个人机预测子概率的平均值来确定人机预测概率;
将所述人机预测概率与所述终端设备相关联地存储在一数据库中;
从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率;以及
将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率,其中,与所述当前的人机预测概率对应的权重最大,与时间越早的所述历史人机预测概率对应的权重越小;以及
基于更新的所述人机预测概率,得到关于所述终端设备处的操作行为的人机识别结果。
2.根据权利要求1所述的方法,其中所述第二数量的多个用户行为模型是关于同一样本库分别基于不同的监督分类算法来训练而得到的。
3.根据权利要求1所述的方法,进一步包括:
基于所述数据库更新所述样本库;以及
以更新后的样本库重新训练所述第二数量的多个用户行为模型。
4.根据权利要求1所述的方法,其中在从所述原始数据中提取第一数量的多个维度的特征的步骤之后,进一步包括:
对提取出的特征执行增强处理,以得到第三数量的多个维度的特征。
5.根据权利要求1所述的方法,进一步包括:
响应于来自终端设备的人机识别请求,向所述终端设备发送一令牌,其中所述令牌与所述终端设备的人机预测概率相关联。
6.一种非感知方式的人机识别设备,包括:
通信单元,用于响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据,其中,所述原始数据是在所述终端设备上实时地收集的多种类别的数据,并且包括由终端设备在前端采集的多种行为数据、以及关于所述终端设备的本地属性数据和基础环境数据,其中所述多种行为数据包括针对所述终端设备处的操作行为的行为数据,所述本地属性数据包括关于所述终端设备自身的属性数据,所述操作行为与基于有感知的验证码方式的用户操作行为不同;
提取单元,用于所述原始数据中提取第一数量的多个维度的特征,其中,所述第一数量与所述原始数据的类别数量彼此独立;以及
处理单元,用于将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率;基于所述第二数量的多个人机预测子概率的平均值来确定人机预测概率,其中,所述第一数量与所述第二数量彼此独立,并且所述第二数量的多个用户行为模型是关于同一样本库分别基于不同的监督分类算法来训练而得到的;。
存储单元,用于存储一数据库,并且,其中,将所述人机预测概率与所述终端设备相关联地存储在所述数据库中;
历史查询单元,用于从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率,并且
其中所述处理单元进一步被配置为:将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率,并基于更新的所述人机预测概率,得到关于所述终端设备处的操作行为的人机识别结果,其中,与所述当前的人机预测概率对应的权重最大,与时间越早的所述历史人机预测概率对应的权重越小。
7.根据权利要求6所述的设备,其中所述处理单元进一步包括:
建模单元,用于关于同一样本库分别基于不同的监督分类算法来训练而得到所述第二数量的多个用户行为模型。
8.根据权利要求7所述的设备,进一步包括:
更新单元,用于基于所述数据库更新所述样本库;并且
其中所述建模单元进一步被配置为:以更新后的样本库重新训练所述第二数量的多个用户行为模型。
9.根据权利要求6所述的设备,进一步包括:
特征增强单元,用于对提取出的特征执行增强处理,以得到第三数量的多个维度的特征。
10.根据权利要求6所述的设备,其中所述通信单元进一步被配置为:
响应于来自终端设备的人机识别请求,向所述终端设备发送一令牌,其中所述令牌与所述终端设备的人机预测概率相关联。
11.一种计算机可读记录介质,其上存储计算机程序,用于当由处理单元执行所述计算机程序时,实现以下步骤:
响应于来自终端设备的人机识别请求,接收由所述终端设备采集的原始数据,其中,所述原始数据是在所述终端设备上实时地收集的多种类别的数据,并且包括由终端设备在前端采集的多种行为数据、以及关于所述终端设备的本地属性数据和基础环境数据,其中所述多种行为数据包括针对所述终端设备处的操作行为的行为数据,所述本地属性数据包括关于所述终端设备自身的属性数据,所述操作行为与基于有感知的验证码方式的用户操作行为不同;
从所述原始数据中提取第一数量的多个维度的特征,其中,所述第一数量与所述原始数据的类别数量彼此独立;
将所述第一数量的多个维度的特征分别输入至第二数量的多个用户行为模型,并且从所述第二数量的多个用户行为模型输出第二数量的多个人机预测子概率,其中,所述第一数量与所述第二数量彼此独立,并且所述第二数量的多个用户行为模型是关于同一样本库分别基于不同的监督分类算法来训练而得到的;
基于所述第二数量的多个人机预测子概率的平均值来确定人机预测概率;以及
将所述人机预测概率与所述终端设备相关联地存储在一数据库中;
从所述数据库中搜索并获取所述终端设备的多个历史人机预测概率;
将当前的人机预测概率和所述多个历史人机预测概率输入到一加权模型,并以所述加权模型的输出来更新所述人机预测概率,其中,与所述当前的人机预测概率对应的权重最大,与时间越早的所述历史人机预测概率对应的权重越小;以及
基于更新的所述人机预测概率,得到关于所述终端设备处的操作行为的人机识别结果。
CN201811248586.8A 2018-10-25 2018-10-25 人机识别方法、设备和介质 Active CN110162939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811248586.8A CN110162939B (zh) 2018-10-25 2018-10-25 人机识别方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811248586.8A CN110162939B (zh) 2018-10-25 2018-10-25 人机识别方法、设备和介质

Publications (2)

Publication Number Publication Date
CN110162939A CN110162939A (zh) 2019-08-23
CN110162939B true CN110162939B (zh) 2023-05-02

Family

ID=67645259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811248586.8A Active CN110162939B (zh) 2018-10-25 2018-10-25 人机识别方法、设备和介质

Country Status (1)

Country Link
CN (1) CN110162939B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784015B (zh) * 2018-12-27 2023-05-12 腾讯科技(深圳)有限公司 一种身份鉴别方法及装置
CN111177668A (zh) * 2019-11-21 2020-05-19 武汉极意网络科技有限公司 一种基于移动设备传感器的人机交互验证方法
CN113124636B (zh) * 2019-12-31 2022-05-24 海信集团有限公司 冰箱
CN111428881B (zh) * 2020-03-20 2021-12-07 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104980421A (zh) * 2014-10-15 2015-10-14 腾讯科技(深圳)有限公司 一种批量请求处理方法及***
CN106155298A (zh) * 2015-04-21 2016-11-23 阿里巴巴集团控股有限公司 人机识别方法及装置、行为特征数据的采集方法及装置
CN106997493A (zh) * 2017-02-14 2017-08-01 云数信息科技(深圳)有限公司 基于多维度数据的彩票用户流失预测方法及其***
CN108416198A (zh) * 2018-02-06 2018-08-17 平安科技(深圳)有限公司 人机识别模型的建立装置、方法及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104980421A (zh) * 2014-10-15 2015-10-14 腾讯科技(深圳)有限公司 一种批量请求处理方法及***
CN106155298A (zh) * 2015-04-21 2016-11-23 阿里巴巴集团控股有限公司 人机识别方法及装置、行为特征数据的采集方法及装置
CN106997493A (zh) * 2017-02-14 2017-08-01 云数信息科技(深圳)有限公司 基于多维度数据的彩票用户流失预测方法及其***
CN108416198A (zh) * 2018-02-06 2018-08-17 平安科技(深圳)有限公司 人机识别模型的建立装置、方法及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于梯度提升决策树的鼠标轨迹识别方法与研究;张志腾等;《信息通信》;20180915(第09期);22-24页 *

Also Published As

Publication number Publication date
CN110162939A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110162939B (zh) 人机识别方法、设备和介质
US10938927B2 (en) Machine learning techniques for processing tag-based representations of sequential interaction events
US20200304550A1 (en) Generic Event Stream Processing for Machine Learning
KR102257053B1 (ko) 개인화된 트렌딩 이미지 검색 제시 기법
CN114207648A (zh) 在计算环境中自动更新支付信息的技术
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN110730164B (zh) 安全预警方法及相关设备、计算机可读存储介质
CN110162958B (zh) 用于计算设备的综合信用分的方法、装置和记录介质
WO2021168617A1 (zh) 业务风控处理方法、装置、电子设备以及存储介质
CN109391620B (zh) 异常行为判定模型的建立方法、***、服务器及存储介质
Wei et al. Toward identifying APT malware through API system calls
CN113919361B (zh) 一种文本分类方法和装置
US20170302516A1 (en) Entity embedding-based anomaly detection for heterogeneous categorical events
WO2023142408A1 (zh) 数据处理方法和用于训练预测模型的方法
US11868768B2 (en) Detecting secrets in source code
CN113409014A (zh) 基于人工智能的大数据业务处理方法及人工智能服务器
CN113191527A (zh) 一种基于预测模型进行人口预测的预测方法及装置
US11997137B2 (en) Webpage phishing detection using deep reinforcement learning
KR102465307B1 (ko) 화이트 리스트 생성 방법 및 이를 수행하는 사용자 단말, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
CN116956356B (zh) 一种基于数据脱敏处理的信息传输方法及设备
CN117527444B (zh) 用于训练检测登录数据风险值的模型的方法、设备和介质
CN114205164B (zh) 流量分类方法及装置、训练方法及装置、设备和介质
CN115987689B (zh) 一种网络入侵检测方法及装置
EP4113398A2 (en) Data labeling processing method and apparatus, electronic device and medium
CN117708325A (zh) 一种文本分析方法、装置、及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant