CN114783007A

CN114783007A - 设备指纹识别方法、装置和电子设备

Info

Publication number: CN114783007A
Application number: CN202210708179.0A
Authority: CN
Inventors: 吴枭; 吕文勇; 周智杰; 王渊; 金秋
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-07-22
Anticipated expiration: 2042-06-22
Also published as: CN114783007B

Abstract

本申请提供一种设备指纹识别方法、装置和电子设备，通过采集设备信息，对设备信息进行标签分类并以相邻事件的特征的相似度值作为原始特征。再筛选出有效特征，对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征，利用加工后的有效特征及标签分类建立逻辑回归模型，并进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征。针对待识别的设备信息，获得对应的识别特征，并根据逻辑回归模型得到设备的相异分数，进而判断设备指纹是否发生变更。本方案，可以提取特征的变化作为原始特征，并且经过有效特征的筛选以及逻辑回归模型的迭代，可以在复杂生产环境下建立可靠地设备指纹识别方案，从而加强业务场景的风控能力。

Description

设备指纹识别方法、装置和电子设备

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种设备指纹识别方法、装置和电子设备。

背景技术

随着计算机技术和移动互联网的高速发展，金融、医疗、电商等各行业的业务中心逐渐由线下转移至线上，与此同时，寄生于移动互联网的黑产交易也逐渐兴起甚至达到泛滥的地步。黑色产业链通过虚假注册、伪造信息、账户盗用等方式对线上业务进行欺诈攻击，并以此实现诈骗和获利。

设备指纹技术原指可以用于唯一标识出该设备的设备特征或者独特的设备标识，在上述场景中拥有完善的设备指纹技术可以实现用户的唯一性认证，防止黑产通过修改设备参数伪装成新用户来实施欺诈，也可以防范用户账户盗用风险。传统的设备指纹技术一是采用显性标识符即显性设备ID进行设备跟踪（如IMEI、IDFA等），二是采集设备的隐式属性信息并通过特定的算法生成唯一设备ID来进行识别。随着各类设备底层安全协议的不断完善，以及移动生态（各类小程序环境）的不断发展，用户的各类显性设备ID作为用户私密信息的关键部分，通常不再允许被采集和传递。与此同时，随着黑产技术的不断发展，设备ID存在被篡改的可能，此时过度依赖设备ID 就会影响风控策略的有效性。在此背景下，通过加强设备隐形特征采集，并利用各类分析建模和机器学习方法构建设备指纹，成为移动互联网环境下更可行和更可靠的设备指纹识别方案。

然而，设备采集信息存在复杂多样性问题，并且还存在随着时间而出现自然变化的特征，如何量化这些特征，并且从多样化的特征中选择出对于设备指纹变更识别有益的特征依据，这些问题在目前尚缺乏研究。

并且，在现有技术中，用户的设备指纹标签通常处于黑箱状态，即从业务场景触发即使采集到了大量的用户设备信息，也无法准确判定其中哪些发生了真实设备变更，即缺乏有效标签作为验证以及建模。在此场景下，如何解决建模冷启动问题以及有效特征筛选问题尚缺乏研究。

发明内容

本发明的目的包括，例如，提供了一种设备指纹识别方法、装置和电子设备，其能够实现可靠的设备指纹识别，加强业务场景的风控能力。

本发明的实施例可以这样实现：

第一方面，本发明提供一种设备指纹识别方法，所述方法包括：

采集用户在操作设备的事件过程中的多份设备信息，每份设备信息包括多个特征信息；

将采集到的各个设备信息进行标签分类，并对同一用户的相邻事件的对应特征进行相似度计算，将相似度值作为原始特征；

根据建立的分类模型从原始特征中筛选出有效特征，并对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征；

利用加工后的有效特征以及标签分类建立逻辑回归模型，通过对所述逻辑回归模型进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征；

针对待识别的设备信息，获得所述待识别的设备信息对应的识别特征，并根据满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数，根据所述相异分数识别设备指纹是否发生变更，并对设备指纹进行更新。

在可选的实施方式中，所述特征信息包括数值型特征、类别型特征、向量型特征、序列型特征、时间型特征和速率型特征，不同类型的特征采用不同的相似度计算方式计算相似度值。

在可选的实施方式中，所述根据建立的分类型从原始特征中筛选出有效特征的步骤，包括：

利用集成学习树模型建立分类模型；

针对各所述原始特征，基于所述分类模型的树结构各层节点中采用所述原始特征进行***后减少的MSE平方损失的累加值，以及原始特征的数量，计算得到所述原始特征的全局重要度；

将全局重要度大于或等于预设阈值的原始特征确定为有效特征。

在可选的实施方式中，所述对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征的步骤，包括：

将多个有效特征按数值大小进行排序，并将排序后的各个有效特征单独作为一组；

对于每两个相邻的组，计算两个组的有效特征的卡方值，将其中最小卡方值的相邻两组合并为一组，按此方式直至计算出的卡方值均大于或等于预设卡方值；

在得到的分组的组数大于或等于2时，将数值最大的一组单独作为一个分箱，其余各组合并为一个分箱，以得到两个分箱；

计算各个分箱中的有效特征的坏样本率作为分箱增益，以对有效特征进行加工处理。

在可选的实施方式中，所述利用加工后的有效特征以及标签分类建立逻辑回归模型，通过对所述逻辑回归模型进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征的步骤，包括：

依次遍历加工后的各个有效特征，并采用前进法逐步加入以建立逻辑回归模型，记录每次加入各个有效特征后逻辑回归模型的系数矩阵中各个系数值以及KS差值；

若KS差值在设定范围内且所有系数值均为正值，则判定加入的有效特征为识别特征；

经过多轮迭代后，在满足迭代终止条件时确定出有效特征中的所有识别特征。

在可选的实施方式中，所述根据满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数，根据所述相异分数识别设备指纹是否发生变更的步骤，包括：

根据所述待识别的设备信息对应的识别特征，以及满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数；

获得预先根据设置的分箱坏样本率下计算得到的分数阈值；

根据所述分数阈值以及计算得到的相异分数，识别设备指纹是否发生变更。

在可选的实施方式中，所述根据相异分数识别设备指纹是否发生变更，并对设备指纹进行更新的步骤，包括：

若待识别的设备信息的当前事件设备指纹较上一事件的设备指纹未发生变更，则更新上一事件的设备指纹为最新设备指纹；

若待识别的设备信息的当前事件设备指纹较上一事件的设备指纹发生变更，再判断当前事件设备指纹是否与任一历史事件中的设备指纹重复；

若当前事件设备指纹未与任一历史事件中的设备指纹重复，则将当前事件设备指纹更新到日志中；

若当前事件设备指纹与其中一个历史事件中的设备指纹重复，则更新该历史事件中的设备指纹为最新设备指纹。

在可选的实施方式中，所述采集用户在操作设备的事件过程中的多份设备信息的步骤，包括：

对用户在操作设备的事件过程的全流程操作中进行多事件埋点，以采集用户不同事件过程中的设备信息，所述设备信息包括基本信息、环境信息、适配信息、功能支持及授权信息、其他信息。

第二方面，本发明提供一种设备指纹识别装置，所述装置包括：

采集模块，用于采集用户在操作设备的事件过程中的多份设备信息，每份设备信息包括多个特征信息；

计算模块，用于将采集到的各个设备信息进行标签分类，并对同一用户的相邻事件的对应特征进行相似度计算，将相似度值作为原始特征；

筛选模块，用于根据建立的分类模型从原始特征中筛选出有效特征，并对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征；

迭代模块，用于利用加工后的有效特征以及标签分类建立逻辑回归模型，通过对所述逻辑回归模型进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征；

识别模块，用于针对待识别的设备信息，获得所述待识别的设备信息对应的识别特征，并根据满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数，根据所述相异分数识别设备指纹是否发生变更，并对设备指纹进行更新。

第三方面，本发明提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

本发明实施例的有益效果包括，例如：

本申请提供一种设备指纹识别方法、装置和电子设备，通过采集用户在操作设备的事件过程中的设备信息，对设备信息进行标签分类并对相邻事件的特征进行相似度计算，以相似度值作为原始特征。再根据分类模型从原始特征中筛选出有效特征，对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征，利用加工后的有效特征及标签分类建立逻辑回归模型，并进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征。针对待识别的设备信息，获得对应的识别特征，并根据上述的逻辑回归模型得到设备的相异分数，进而判断设备指纹是否发生变更。本方案，通过相似度计算的方式可以提取特征的变化作为原始特征，并且经过有效特征的筛选以及逻辑回归模型的迭代，可以在复杂生产环境下建立可靠地设备指纹识别方案，从而加强业务场景的风控能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的设备指纹识别方法的流程图；

图2为本申请实施例提供的设备信息的示意图；

图3为图1中步骤S103包含的子步骤的流程图；

图4为本申请实施例提供的集成学习树模型的特征重要性示意图；

图5为图1中步骤S103包含的子步骤的另一流程图；

图6为图1中步骤S104包含的子步骤的流程图；

图7为本申请实施例提供的模型训练结果数据的示意图；

图8为本申请实施例提供的逻辑回归模型的效果图；

图9为图1中步骤S105包含的子步骤的流程图；

图10为本申请实施例提供的设备指纹变更示例图；

图11为本申请实施例提供的电子设备的结构框图；

图12为本申请实施例提供的设备指纹识别装置的功能模块框图。

图标：110-存储介质；120-处理器；130-设备指纹识别装置；131-采集模块；132-计算模块；133-筛选模块；134-迭代模块；135-识别模块；140-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的设备指纹识别方法的流程图，该设备指纹识别方法有关的流程所定义的方法步骤可以由电子设备所实现，例如，个人计算机、笔记本电脑、智能手机、服务器等设备。下面将对图1所示的具体流程进行详细阐述。

S101，采集用户在操作设备的事件过程中的多份设备信息，每份设备信息包括多个特征信息。

S102，将采集到的各个设备信息进行标签分类，并对同一用户的相邻事件的对应特征进行相似度计算，将相似度值作为原始特征。

S103，根据建立的分类模型从原始特征中筛选出有效特征，并对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征。

S104，利用加工后的有效特征以及标签分类建立逻辑回归模型，通过对所述逻辑回归模型进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征。

S105，针对待识别的设备信息，获得所述待识别的设备信息对应的识别特征，并根据满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数，根据所述相异分数识别设备指纹是否发生变更，并对设备指纹进行更新。

本实施例提供的设备指纹识别方法，主要是通过采用对用户操作事件流中的设备信息进行设备指纹验证，来识别用户在新操作事件下是否采用了新设备或可疑设备，因此，需要对用户在操作设备的事件过程中进行设备信息的采集。

本实施例中，基于特定网络开发环境（APP端、WEB端、移动小程序端等），对用户不同事件进行页面埋点，实现对用户不同事件下的设备信息采集。在采集设备信息时，可以对用户在操作设备的事件过程的全流程操作中进行多事件埋点，以采集用户不同事件过程中的设备信息。其中，参与埋点的事件集合可定义为

。

不同的***环境采集的设备信息各不相同，采集的设备信息可以是多份，也即，设备信息可以是多种不同类型的设备信息。设备信息可以包括基本信息、环境信息、适配信息、功能支持及授权信息、其他信息。

例如，以基于微信小程序环境的设备信息方案，采集的设备信息均为小程序允许采集和传递的字段，如图2中所示。

其中，基本信息主要包括如设备品牌、设备型号、操作***、版本等字段。环境信息主要包括如环境版本号、用户字体大小、平台语言等字段。适配信息主要包括如像素密度、屏幕宽度、平台语言等字段。功能支持及授权信息主要包括如是否支持定位、是否支持WIFI、是否支持蓝牙、是否允许通知等字段。其他信息主要包括如电量水平、设备性能等级、当前设备网络类型等字段。

图2中所示的字段为部分字段示意，当采集的字段越全面则设备指纹的精度越高。此外，若同时允许用户通过多***环境交换，例如，APP端、小程序端等，也可以定义一套通用字段来识别用户设备指纹变化。本实施例中，设备信息中包括的特征信息，也即上述的设备信息下的字段，可定义为

。

将采集到的用户在事件流中的设备信息进行已知标签和未知标签分类，用户后续模型训练。本实施例中，将具备明确设备变更意义的设备信息标记已知标签，例如发生用户设备品牌由A变为B的设备信息样本，则可以明确知道该样本发生了设备变更并作为已知样本，而其余的设备信息标记未知标签，作为未知样本。

考虑到实际业务场景中的设备欺诈样本较真实样本较少，可以初步定义已知样本为1类（如发生过设备变更），未知样品为0类（如未发生过设备变更）。

其中，

代表m个1类样本的集合，

代表n-m个0类样本的集合。

代表第k个设备信息样本由事件

变化为事件

时的相似度值序列，由特征信息

计算而来。

在实际应用场景中，1类样本的数量往往较少，因此，当1类样本不足或者占比过小时，可以采用人工打标的方式确定一部分1类样本，例如，可以在已有的1类样本的基础上进行扩展、变形等产生新的1类样本。如此，以确保模型具备冷启动建模基础。

其中，相似度值是针对同一用户，利用其相邻事件的对应特征进行计算得到。而特征信息可以划分为多种不同类型，如包括数值型特征、类别型特征、向量型特征、时间型特征和速率型特征。而不同类型的特征采用不同的相似度计算方式计算相似度值。

本实施例中，将计算得到的相邻事件的对应特征信息之间的相似度值作为原始特征，可以体现出操作事件之间特征信息的变化情况，进而为设备指纹变更的判断提供有效的依据。

考虑到在获得的多个原始特征中，其中有些原始特征可能并不能很好体现出设备指纹的变更，因此，本实施例中，采用分类模型从原始特征中筛选出有效特征。此外，在设备指纹场景下，部分特征仅在某些突变分段具备有效性，例如，设备信息中的“电量水平”可能仅在变化速率较大时能够反映设备指纹变更，但在其他数值波段并不能作为有效特征。

因此，本实施例中，考虑到采用如信息方差法、KS方法等特征筛选法筛选出的有效特征可能因为有效分段的占比过小而导致对该特征整体的有效性衡量判定失败。因此，本实施例中，采用集成学习树模型来进行有效特征的筛选，集成学习树模型因为采用特征节点切分的方式，能够自动筛选出有效分段，并通过在树节点中的反复调用来提升特征有效性评级。

在筛选得到有效特征的基础上，再对有效特征的数值分布进行分箱校验和分箱增益，以得到加工后的有效特征。

在上述基础上，可利用靠逻辑回归模型并基于有效特征，从而通过对逻辑回归模型进行优化的过程，根据最终迭代终止时的模型确定出可以用于设备指纹变更识别的识别特征。

通过以上预先基于设备信息样本进行处理的方式，从而得到优化的逻辑回归模型以及确定出的用于设备指纹变更识别的识别特征。如此，在针对待识别的设备信息时，则可以按照上述相同的方式，得到待识别的设备信息对应的识别特征，再结合优化得到的逻辑回归模型得到相异分数，其中，相异分数表征的是两次相邻事件中特征信息不相似的程度。也即，相异分数越大则特征信息越不相似。

进而，可以基于相异分数来判断设备指纹是否发生变更，并根据判断的结果来对设备指纹进行更新。

由上述可知，本实施例中的特征信息可以划分为多种不同类型，而针对不同类型的特征信息，在计算相似度值时采用不同的计算方式。

针对数值型特征，计算相邻事件对应特征的相似度值时，可以采用绝对值或平方差的方式，如下式所示：

其中，x _i表示相似度值，

表示事件p _j的特征信息，

表示事件p _j-1的特征信息。

针对类别型特征，相似度值为当类别不变时记为0，否则记为1，如下式：

针对序列型特征，其相似度值计算时考虑两个序列中重合的元素占分别占两个序列中所有元素的比例，如下式：

针对向量型特征，相似度值通过计算两个向量之间的欧式距离得到：

针对时间型特征，相似度值按以下公式计算得到：

其中，

为原始特征变化幅度为

时所需时间（即相邻事件的时间差），

为0类集合中，对所有0类样本用户该特征变化幅度进行统计时，变化幅度为

时所需时间的中位数。

针对速率型特征，相似度值计算公式如下：

本实施例中，通过事件流中的设备采集设备信息来计算设备指纹，因此需要考虑特征是否会随时间自然变化，以及随时间变化的特征有效性和特征合理性。以图2所示环境信息中的“环境版本号”为例，若用户长时间静默后登陆，则环境版本号存在自然升级的可能，此时若直接用数值型或类别型特征的相似度计算方式来计算，会认为用户信息变更过大从而易被错识别为新设备登陆。

因此引入时间型特征的方式，从统计意义的角度来衡量该变化所反映的实际变化量。例如用户环境版本号从(3.2.1)变更为(3.4.4)，则变化幅度为(0.2.3)，此时统计0类用户中发生变化幅度为(0.2.3)所需时间，以中位数（也可采用均值、众数、分位数等其他统计指标）作为基准值，求取该用户发生此幅度变更与基准值的偏差，此种方式更能反映特征的实际变化量。

速率型特征以其他信息中的“电量水平”为例，正常电量水平会发生自然浮动，若间隔时间太长则电量水平的变化不再具备实际意义（用户会自然发生主动充放电动作从而导致特征失效），但是若短时发生变化则表明设备极可能发生了变化，因此引入速率型特征进行相似度计算。

此外，在本实施例中，针对具备方向意义的特征，可采用分组编码方式进行特征扩展，其中，可依据如下方式进行扩展：

如上式，当x _i具备方向意义时，可将原始1维特征扩展为

和

两维特征。

本实施例通过以上方式，可精确量化特征变化，避免特征信息损失。

在计算出相似度值以作为原始特征的基础上，可采用集成树学习模型筛选出其中的有效特征。请参阅图3，本实施例中，上述步骤S103中筛选有效特征的步骤可通过以下方式实现：

S1031，利用集成学习树模型建立分类模型。

S1032，针对各所述原始特征，基于所述分类模型的树结构各层节点中采用所述原始特征进行***后减少的MSE平方损失的累加值，以及原始特征的数量，计算得到所述原始特征的全局重要度。

S1033，将全局重要度大于或等于预设阈值的原始特征确定为有效特征。

本实施例中，利用集成学习树模型建立分类模型，根据树模型的特征重要性（feature importance）来进行特征初筛。通过计算各个原始特征的全局重要度，再将全局重要度与预设阈值进行比较，从而筛选出有效特征。

本实施例中，原始特征的全局重要度通过以下公式计算得到：

其中，

表示原始特征j的全局重要度，通过原始特征j在单颗树中的重要度的平均值来衡量。L代表构建的树的叶子节点层，L−1即为树的叶子节点上一层（非叶子节点），以此类推；

为第t层节点所关联的原始特征；

为第t层节点中通过采用原始特征j来***后减少的MSE平方损失。如图4所示为集成学习树模型的特征重要性示意图，其中，图4的横坐标为特征重要性（feature importance），纵坐标为各个特征。

本实施例中，将全局重要度大于或等于预设阈值的原始特征确定为有效特征，以用于后续训练。而全局重要度小于预设阈值的原始特征则不为有效特征。

在筛选出的有效特征的基础上，请参阅图5，本实施例中，在上述步骤S103中对有效特征进行分箱校验和分箱增益时，可通过以下方式实现：

S1034，将多个有效特征按数值大小进行排序，并将排序后的各个有效特征单独作为一组。

S1035，对于每两个相邻的组，计算两个组的有效特征的卡方值，将其中最小卡方值的相邻两组合并为一组，按此方式直至计算出的卡方值均大于或等于预设卡方值。

S1036，在得到的分组的组数大于或等于2时，将数值最大的一组单独作为一个分箱，其余各组合并为一个分箱，以得到两个分箱。

S1037，计算各个分箱中的有效特征的坏样本率作为分箱增益，以对有效特征进行加工处理。

本实施例中，在进行特征初筛后，可利用ChiMerge方法来对有效特征进行分箱的校验，ChiMerge基于卡方校验理论。首先，可进行特征分箱初始化，也即将多个有效特征按大小进行排序。其中，所述的多个有效特征是指多个样本中的同一类型的多个有效特征。

然后，进行特征合并，其中，预设卡方值可为0.05。若最终得到的分组的组数大于或等于2时，则认为特征具有分段有效性，并保留数值最大的一组可记为分箱2，其余各组合并为分箱1。本实施例中，当具备多个分组时仅保留两个分箱是为了避免特征稀疏度过高。

本实施例中，计算上述得到的分箱的坏样本率作为分箱增益，并采用如下方式对有效特征进行加工处理：

其中，

表示分箱2的坏样本率，

表示分箱1的坏样本率。

在上述基础上，本实施例中，再通过上述步骤S104利用逻辑回归模型实现可最终用于设备指纹识别的识别特征的确定。

请参阅图6，本实施例中，上述步骤S104可通过以下方式实现：

S1041，依次遍历加工后的各个有效特征，并采用前进法逐步加入以建立逻辑回归模型，记录每次加入各个有效特征后逻辑回归模型的系数矩阵中各个系数值以及KS差值。

S1042，若KS差值在设定范围内且所有系数值均为正值，则判定加入的有效特征为识别特征。

S1043，经过多轮迭代后，在满足迭代终止条件时确定出有效特征中的所有识别特征。

本实施例中，利用上述加工后的有效特征以及样本分类建立逻辑回归模型：

其中，

为上述进行设备信息标签分类时的样本分类标签；

为样本下加工后的有效特征矩阵；

为线性回归系数矩阵，同时也是特征权重矩阵，系数越大，反映该特征在识别用户设备指纹变更的重要性越强。

本实施例中，为了确保系数矩阵中各个系数值均为正值，同时为了去除特征之间的多重共线性，本实施例中，采用前进法（Forward selection）逐步引入有效特征并迭代建立逻辑回归模型。并且，以k折交叉验证方式判断新引入的有效特征是否有效。此外，也可以采用测试集验证的方式判断新引入的有效特征是否有效。

具体地，本实施例中，可根据上述计算得到的全局重要度依次遍历各个有效特征，并加入到逻辑回归模型的训练中。记录每次新加入有效特征后的逻辑回归模型效果，包括平均KS值（训练集和测试集的平均KS值）以及系数矩阵中各个系数值。

根据训练集和测试集的平均KS值计算得到KS差值，若KS差值的绝对值在设定范围内，例如0.5范围以内，并且，所有系数值均为正值，则可以判定新引入的有效特征是有效且稳健的特征。

在有效且稳健的特征中，选取测试集平均KS值最大的新引入有效特征加入到识别特征中，若存在测试集平均KS值相同的情况，则选择全局重要度最大的有效特征加入到识别特征中。重复上述过程，直至模型效果不再提升或者无法再寻找到有效且稳健特征时，停止训练并得到最终的逻辑回归模型。

结合参阅图7和图8所示的示例，当迭代到13轮后，无法再找到一个有效且稳健特征，因此终止迭代，最终可采用寻找到的12维识别特征作为设备指纹变更识别的特征。其中，图8的横坐标为迭代轮次数，左侧纵坐标为训练集平均ks/测试集平均ks，右侧纵坐标为ks差。

以上过程为对设备信息进行处理得到原始特征、对原始特征进行初筛得到有效特征、对有效特征进行分箱和加工、以及基于有效特征对逻辑回归模型进行训练并得到用于进行设备指纹变更识别的识别特征的过程。

而在实际进行设备指纹变更识别时，则可以按照上述相同的方式得到待识别的设备信息对应的识别特征，并利用上述得到的逻辑回归模型得到相异分数。请参阅图9，本实施例中，上述步骤S105中获得相异分数的步骤可以通过以下方式实现：

S1051，根据所述待识别的设备信息对应的识别特征，以及满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数。

S1052，获得预先根据设置的分箱坏样本率下计算得到的分数阈值。

S1053，根据所述分数阈值以及计算得到的相异分数，识别设备指纹是否发生变更。

本实施例中，通过上述方式建立逻辑回归模型后，根据模型效果可确定合理的分数阈值，在相异分数超过该分数阈值时，则可以判定设备指纹发生了变更。

相异分数可以通过以下公式计算得到：

其中，f(x)表示相异分数，相异分数越大则表明相邻事件之间发生设备指纹变更的可能性越大。而分数阈值可预先在样本的分箱坏样本率满足一定条件时确定得到，其中，分箱坏样本率可以基于样本中的1类样本和0类样本的比例得到。本实施例中，分数阈值可以设置为0.7。也即，在相异分数超过0.7时，可以判定设备指纹发生变更，否则，设备指纹未发生变更。

本实施例中，在上述步骤S105中，基于设备指纹是否发生变更的判断结果以对设备指纹进行更新时，可以通过以下方式实现：

若待识别的设备信息的当前事件设备指纹较上一事件的设备指纹未发生变更，则更新上一事件的设备指纹为最新设备指纹。

若待识别的设备信息的当前事件设备指纹较上一事件的设备指纹发生变更，再判断当前事件设备指纹是否与任一历史事件中的设备指纹重复。

本实施例中，在这种情形下，则按事件相邻度依次判断当前事件设备指纹与各个历史事件的设备指纹是否重复。

若当前事件设备指纹未与任一历史事件中的设备指纹重复，则将当前事件设备指纹更新到日志中。

如图10中所示，用户在序列5的申请事件中，识别到较上一次的加载事件发生了设备变更，则在指纹1的基础上新增指纹2；在序列7的修改密码事件中，识别到较上一次的加载事件发生了设备变更，但与序列4的加载事件同属指纹1，因此进行指纹1的更新操作而不新增设备指纹。

通过以上方式，可以明确用户事件流中的设备变更状态，一旦发现用户出现了设备新增，则可以采用主动验证或人工核实的方式发起用户验证，避免出现账户盗用的情况。

请参阅图11，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可以是上述的如个人计算机、笔记本电脑、智能手机、服务器等。该电子设备可包括存储介质110、处理器120、设备指纹识别装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

设备指纹识别装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述设备指纹识别方法的软件功能模块。

如图12所示，上述设备指纹识别装置130可以包括采集模块131、计算模块132、筛选模块133、迭代模块134、识别模块135。下面分别对该设备指纹识别装置130的各个功能模块的功能进行详细阐述。

采集模块131，用于采集用户在操作设备的事件过程中的多份设备信息，每份设备信息包括多个特征信息；

可以理解，该采集模块131可以用于执行上述步骤S101，关于该采集模块131的详细实现方式可以参照上述对步骤S101有关的内容。

计算模块132，用于将采集到的各个设备信息进行标签分类，并对同一用户的相邻事件的对应特征进行相似度计算，将相似度值作为原始特征；

可以理解，该计算模块132可以用于执行上述步骤S102，关于该计算模块132的详细实现方式可以参照上述对步骤S102有关的内容。

筛选模块133，用于根据建立的分类模型从原始特征中筛选出有效特征，并对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征；

可以理解，该筛选模块133可以用于执行上述步骤S103，关于该筛选模块133的详细实现方式可以参照上述对步骤S103有关的内容。

迭代模块134，用于利用加工后的有效特征以及标签分类建立逻辑回归模型，通过对所述逻辑回归模型进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征；

可以理解，该迭代模块134可以用于执行上述步骤S104，关于该迭代模块134的详细实现方式可以参照上述对步骤S104有关的内容。

识别模块135，用于针对待识别的设备信息，获得所述待识别的设备信息对应的识别特征，并根据满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数，根据所述相异分数识别设备指纹是否发生变更，并对设备指纹进行更新。

可以理解，该识别模块135可以用于执行上述步骤S105，关于该识别模块135的详细实现方式可以参照上述对步骤S105有关的内容。

在一种可能的实施方式中，所述特征信息包括数值型特征、类别型特征、序列型特征、向量型特征、时间型特征和速率型特征，不同类型的特征采用不同的相似度计算方式计算相似度值。

在一种可能的实施方式中，所述筛选模块133可以用于：

利用集成学习树模型建立分类模型；

在一种可能的实施方式中，所述筛选模块133还可以用于：

在一种可能的实施方式中，所述迭代模块134可以用于：

在一种可能的实施方式中，所述识别模块135可以用于：

获得预先根据设置的分箱坏样本率下计算得到的分数阈值；

在一种可能的实施方式中，所述识别模块135还可以用于：

在一种可能的实施方式中，所述采集模块131可以用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的设备指纹识别方法。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上的计算机程序被运行时，能够执行上述设备指纹识别方法。关于计算机可读存储介质中的及其可执行指令被运行时，所涉及的过程，可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请实施例提供的设备指纹识别方法、装置和电子设备，通过采集用户在操作设备的事件过程中的设备信息，对设备信息进行标签分类并对相邻事件的特征进行相似度计算，以相似度值作为原始特征。再根据分类模型从原始特征中筛选出有效特征，对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征，利用加工后的有效特征及标签分类建立逻辑回归模型，并进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征。针对待识别的设备信息，获得对应的识别特征，并根据上述的逻辑回归模型得到设备的相异分数，进而判断设备指纹是否发生变更。本方案，通过相似度计算的方式可以提取特征的变化作为原始特征，并且经过有效特征的筛选以及逻辑回归模型的迭代，可以在复杂生产环境下建立可靠地设备指纹识别方案，从而加强业务场景的风控能力。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种设备指纹识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的设备指纹识别方法，其特征在于，所述特征信息包括数值型特征、类别型特征、序列型特征、向量型特征、时间型特征和速率型特征，不同类型的特征采用不同的相似度计算方式计算相似度值。

3.根据权利要求1所述的设备指纹识别方法，其特征在于，所述根据建立的分类模型从原始特征中筛选出有效特征的步骤，包括：

利用集成学习树模型建立分类模型；

4.根据权利要求1所述的设备指纹识别方法，其特征在于，所述对有效特征的数值分布进行分箱校验和分箱增益，得到加工后的有效特征的步骤，包括：

5.根据权利要求1所述的设备指纹识别方法，其特征在于，所述利用加工后的有效特征以及标签分类建立逻辑回归模型，通过对所述逻辑回归模型进行迭代，直至满足迭代终止条件时得到有效特征中的识别特征的步骤，包括：

6.根据权利要求1所述的设备指纹识别方法，其特征在于，所述根据满足迭代终止条件时逻辑回归模型的系数矩阵计算得到设备的相异分数，根据所述相异分数识别设备指纹是否发生变更的步骤，包括：

获得预先根据设置的分箱坏样本率下计算得到的分数阈值；

7.根据权利要求1所述的设备指纹识别方法，其特征在于，所述根据相异分数识别设备指纹是否发生变更，并对设备指纹进行更新的步骤，包括：

8.根据权利要求1-7任意一项所述的设备指纹识别方法，其特征在于，所述采集用户在操作设备的事件过程中的多份设备信息的步骤，包括：

9.一种设备指纹识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-8中任意一项所述的方法步骤。