CN107392121B - 一种基于指纹识别的自适应设备识别方法及*** - Google Patents

一种基于指纹识别的自适应设备识别方法及*** Download PDF

Info

Publication number
CN107392121B
CN107392121B CN201710548621.7A CN201710548621A CN107392121B CN 107392121 B CN107392121 B CN 107392121B CN 201710548621 A CN201710548621 A CN 201710548621A CN 107392121 B CN107392121 B CN 107392121B
Authority
CN
China
Prior art keywords
module
information
equipment
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710548621.7A
Other languages
English (en)
Other versions
CN107392121A (zh
Inventor
蒋昌俊
闫春钢
丁志军
张亚英
周婉
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710548621.7A priority Critical patent/CN107392121B/zh
Publication of CN107392121A publication Critical patent/CN107392121A/zh
Application granted granted Critical
Publication of CN107392121B publication Critical patent/CN107392121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1365Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Collating Specific Patterns (AREA)
  • Storage Device Security (AREA)

Abstract

一种基于设备指纹识别的自适应设备识别方法及***,包括:获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的的用户设备数据并保存为设备记录信息;筛选指纹登录数据,提取出登录特征信息为样本特征信息;数值化样本特征信息得散列特征数值,归一化散列特征数值为样本特征数值,将样本特征数值转化为多维特征向量;以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值;根据聚类算法确定簇中心并保存;对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备。

Description

一种基于指纹识别的自适应设备识别方法及***
技术领域
本发明涉及一种基于指纹识别的识别***,特别是涉及一种基于指纹识别的自适应设备识别方法及***。
背景技术
随着互联网的快速发展,网络逐渐成为人类的第二空间,网民无法识别身份、无法自证信誉极大地阻碍了互联网业务的拓展,身份的不确定性,滋生了种种线上欺诈行为。设备指纹技术是一种在网络中辨识设备的技术,被广泛应用于反欺诈风控、安全认证、用户行为追踪和访问控制等领域中。设备指纹是指可以用于唯一标识出该设备的设备特征或者独特的设备标识,通过设备指纹,可以更加精准的分析互联网欺诈者的行为轨迹,从蛛丝马迹中识别风险、预警风险,准确追踪定位风险产生的用户主体以及关联的所有用户。‘’
现有的设备指纹识别技术大部分是完全依赖显性标识符的,例如CPU串号、MAC地址、IMEI等,但是这些显性标识符存在以下3方面的问题:一是CPU串号等显性标识符可以被硬件制造商设置,不完全可靠;二是同一台设备的MAC地址等显性标识符可能有多个取值,不能代表设备;三是部分显性标识符(如IMEI)的采集依赖于敏感权限,会导致权限滥用和用户隐私泄露等问题。近年来有研究者为解决上述问题尝试引入隐性标识符,如设备的浏览器类型、浏览器语言等信息,并将隐性标识符组合形成设备指纹,从而标识设备终端。这些研究工作从一定程度上克服了显性标识符不可靠时设备指纹识别的局限性,从一定程度上提高了设备识别准确率。但是,这些方案在建立可信指纹库时均是选取了某一个显性标识符作为唯一标识用户设备的设备ID,在设备识别的建模过程中仍然没有摆脱对显性标识符的依赖。而随着用户隐私保护意识的增强,越来越难获取到完整的显性标识符信息,当设备的显性标识符重复、缺失或者被伪造时,以上的方案便无法准确地建立设备的可信指纹库。过度依赖显性标识符,将使得***的可靠性较差,因此,如何解决显性标识符不可靠造成的设备识别瓶颈问题在电子商务盛行的互联网时代是一个极具理论意义和应用价值的研究课题。
综上,传统技术的识别信息来源可靠性低、易导致权限滥用和对显性标识符的过度依赖,现有技术存在识别精度较低,识别安全性低及可靠性低的技术问题。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种基于指纹识别的自适应设备识别方法及***,用于解决现有技术的识别精度较低,识别安全性低及可靠性低的技术问题。为实现上述目的及其他相关目的,本发明提供一种基于设备指纹识别的自适应设备识别方法,包括:获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息;筛选指纹登录数据,提取出登录特征信息为样本特征信息;数值化样本特征信息得散列特征数值,归一化散列特征数值为样本特征数值,将样本特征数值转化为多维特征向量;以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值;根据聚类算法确定簇中心并保存;对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备。
于本发明的一实施方式中,获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息,包括:获取当前用户的指纹数据,采集与指纹数据对应的设备记录信息;根据指纹数据获取标识符;根据标识符获取原始样本;保存标识符,将标识符序列化成标识符字符串;根据标识符字符串解析出样本特征,保存样本特征;根据用户的指纹数据获取设备记录信息;根据样本特征,将用户的所有设备记录信息汇总为原始训练数据集。
于本发明的一实施方式中,筛选指纹登录数据,提取出设备登录特征信息为样本特征信息,包括:获取标识符字符串中的隐性标识符;根据信息增益原理筛选隐性标识符得相关标识符;根据相关标识符选择样本特征信息。
于本发明的一实施方式中,数值化样本特征信息得散列特征数值,归一化散列特征数值为属性数据,将样本特征数值转化为多维特征向量,包括:采用哈希散列方法将样本特征信息中的字符串型属性值映射到特定位数的整数区间内得到散列特征值;归一化散列特征值为预设特点区间中的属性数据;根据属性数据将样本特征信息转化为多维特征向量。
于本发明的一实施方式中,以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值,包括:根据多维特征信息获取用户对应的全部设备记录信息;以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图;输入多维特征向量和预设阈值;随机设置带权无向图中任一设备记录信息作为初始簇中心;遍历设备记录信息,判断初始簇中心及非中心设备信息间的汉明距离是否小于预设阈值;若是,则将当前设备记录信息放入近距离集中,簇中心计数加1;若否,则将当前设备记录信息放回原集合供遍历;根据簇中心计数得K值;用自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值。
于本发明的一实施方式中,并根据聚类算法确定簇中心并保存,包括:获取K值,初始化簇中心;以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图;根据样本点与每一中心点的汉明距离将数据集中的对象聚类;计算每一簇中两样本点之间的汉明距离,取和其他记录的距离之和最小的样本点作为新的簇中心。
于本发明的一实施方式中,对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备,包括:对设备记录信息进行数据预处理和特征提取;提取出用户对应的簇中心和可信阈值;计算设备记录信息与每个簇中心的汉明距离,判断设备记录信息所有汉明距离是否都大于可信阈值;若是,则判断设备记录信息对应的设备不可信;若否,则判定设备记录信息对应是设备为可信设备,更新用户的簇中心。
于本发明的一实施方式中,一种基于设备指纹识别的自适应设备识别***,包括:登录信息获取模块、特征提取模块、向量获取模块、K值计算模块、簇中心确定模块和设备认证模块;登录信息获取模块,用于获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息;特征提取模块,用于筛选指纹登录数据,提取出设备登录特征信息为样本特征信息,特征提取模块与登录信息获取模块连接;向量获取模块,用于数值化样本特征信息得散列特征数值,归一化散列特征数值为样本特征数值,将样本特征数值转化为多维特征向量,向量获取模块与特征提取模块连接;K值计算模块,用于以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值,K值提取模块与向量获取模块连接;簇中心确定模块,用于根据聚类算法确定簇中心并保存,簇中心确定模块与K值计算模块连接;设备认证模块,用于对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备,设备认证模块与簇中心确定模块连接。
于本发明的一实施方式中,登录信息获取模块,包括:指纹设备信息模块、指纹标识符获取模块、原始样本模块、字符串模块、样本特征解析模块、述设备信息提取模块和原始数据集模块;指纹设备信息模块,用于获取当前用户的指纹数据,采集与指纹数据对应的设备记录信息;指纹标识符获取模块,用于根据指纹数据获取标识符,指纹标识符获取模块与指纹设备信息模块连接;原始样本模块,用于根据标识符获取原始样本,原始样本模块与指纹标识符获取模块连接;字符串模块,用于保存标识符,将标识符序列化成标识符字符串,字符串模块与指纹标识符获取模块连接;样本特征解析模块,用于根据标识符字符串解析出样本特征,保存样本特征,样本特征解析模块与原始样本模块连接;设备信息提取模块,用于根据用户的指纹数据获取设备记录信息,设备信息提取模块与指纹设备信息模块连接;原始数据集模块,用于根据样本特征,将用户的所有设备记录信息汇总为原始训练数据集,原始数据集模块与样本特征解析模块连接。
于本发明的一实施方式中,特征提取模块,包括:隐性标识符获取模块、相关标识符获取模块和样本特征获取模块;隐性标识符获取模块,用于获取标识符字符串中的隐性标识符;相关标识符获取模块,用于根据信息增益原理筛选隐性标识符得相关标识符,相关标识符获取模块与隐性标识符获取模块连接;样本特征获取模块,用于据相关标识符选择样本特征信息,样本特征获取模块与相关标识符获取模块连接。
于本发明的一实施方式中,向量获取模块,包括:散列特征值模块、特征值归一化模块和向量转换模块;散列特征值模块,用于采用哈希散列方法将样本特征信息中的字符串型属性值映射到特定位数的整数区间内得到散列特征值;特征值归一化模块,用于归一化散列特征值为预设特点区间中的属性数据,特征值归一化模块与散列特征值模块连接;向量转换模块,用于根据属性数据将样本特征信息转化为多维特征向量,向量转换模块与特征值归一化模块连接。
于本发明的一实施方式中,K值计算模块,包括:设备记录信息提取模块、无向图构建模块、数据输入模块、簇中心初始化模块、距离判断模块、K值累加模块、循环遍历模块、K值获取模块和簇中心更新模块;设备记录信息提取模块,用于根据多维特征信息获取用户对应的全部设备记录信息;无向图构建模块,用于以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图,无向图构建模块与设备记录信息提取模块连接;数据输入模块,用于输入多维特征向量和预设阈值,数据输入模块与设备记录信息提取模块连接;簇中心初始化模块,用于随机设置带权无向图中任一设备记录信息作为初始簇中心,簇中心初始化模块与无向图构建模块连接;距离判断模块,用于遍历设备记录信息,判断初始簇中心及非中心设备信息间的汉明距离是否小于预设阈值,距离判断模块与簇中心初始化模块连接;K值累加模块,用于在初始簇中心及非中心设备信息间的汉明距离小于预设阈值时,将当前设备记录信息放入近距离集中,簇中心计数加1,K值累加模块与距离判断模块连接;循环遍历模块,用于在初始簇中心及非中心设备信息间的汉明距离不小于预设阈值时,将当前设备记录信息放回原集合供遍历,循环遍历模块与距离判断模块连接;K值获取模块,用于根据簇中心计数得K值,K值获取模块与K值累加模块连接;簇中心更新模块,用于以自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值,簇中心更新模块与K值获取模块连接。
于本发明的一实施方式中,簇中心确定模块,包括:聚类初始模块、无向图模块、对象聚类模块和簇中心模块;聚类初始模块,用于获取K值,初始化簇中心;无向图模块,用于以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图,无向图模块与聚类初始模块连接;对象聚类模块,用于根据样本点与每一中心点的汉明距离将数据集中的对象聚类,对象聚类模块与无向图模块连接;簇中心模块,中心计算每一簇中两样本点之间的汉明距离,取和其他记录的距离之和最小的样本点作为新的簇中心,簇中心模块与对象聚类模块连接。
于本发明的一实施方式中,设备认证模块,包括:设备信息提取模块、用户信息提取模块、设备判断模块、非法设备判定模块和合法设备判定模块;设备信息提取模块,用于对设备记录信息进行数据预处理和特征提取;用户信息提取模块,用于提取出用户对应的簇中心和可信阈值;设备判断模块,用于计算设备记录信息与每个簇中心的汉明距离,判断设备记录信息所有汉明距离是否都大于可信阈值,设备判断模块与设备信息提取模块连接;非法设备判定模块,用于在设备记录信息所有汉明距离都大于可信阈值,判断设备记录信息对应的设备不可信,非法设备判定模块与设备判断模块连接;合法设备判定模块,用于在设备记录信息所有汉明距离不全大于可信阈值时,判定设备记录信息对应是设备为可信设备,更新用户的簇中心,合法设备判定模块与设备判断模块连接。
如上所述,本发明提供的一种基于指纹识别的自适应设备识别方法及***,具有以下有益效果:
本发明旨在提供一种基于指纹识别的自适应设备识别方法及***,以经验阈值作为可信距离的参考值,根据用户设备的历史登录信息进行数据分析,对每个用户的设备数据训练出相应的自适应聚类模型。从而对新的登录数据进行识别,判断其是否为可信设备,解决了现有技术中的识别精度较低,识别安全性低及可靠性低的技术问题。
附图说明
图1显示本发明的一种基于设备指纹识别的自适应设备识别方法步骤示意图。
图2显示为本发明的设备记录信息获取步骤示意图。
图3显示为样本特征信息获取步骤示意图。
图4显示为本发明的特种信息数值化步骤示意图。
图5显示为本发明的K值确定步骤示意图。
图6显示为本发明的簇中心确定步骤示意图。
图7显示为本发明的新登录设备识别步骤示意图。
图8显示为本发明的一种基于设备指纹识别的自适应设备识别***模块示意图。
图9显示为本发明的登陆信息获取模块示意图。
图10显示为本发明的特征提取模块示意图。
图11显示为本发明的向量获取模块示意图。
图12显示为本发明的K值计算模块示意图。
图13显示为本发明的簇中心确定模块示意图。
图14显示为本发明的设备认证模块示意图
元件标号说明
1基于设备指纹识别的自适应设备识别***
11登录信息获取模块
12特征提取模块
13向量获取模块
14K值计算模块
15簇中心确定模块
16设备认证模块
111指纹设备信息模块
112指纹标识符获取模块
113原始样本模块
114字符串模块
115样本特征解析模块
116述设备信息提取模块
117原始数据集模块
121隐性标识符获取模块
122相关标识符获取模块
123样本特征获取模块
131散列特征值模块
132特征值归一化模块
133向量转换模块
141设备记录信息提取模块
142无向图构建模块
143数据输入模块
144簇中心初始化模块
145距离判断模块
146K值累加模块
147循环遍历模块
148K值获取模块
149簇中心更新模块
151聚类初始模块
152无向图模块
153对象聚类模块
154簇中心模块
161设备信息提取模块
162用户信息提取模块
163设备判断模块
164非法设备判定模块
165合法设备判定模块
步骤标号说明
图1 S1~S6
图2 S11~S17
图3 S21~S23
图4 S31~S33
图5 S41~S49
图6 S51~S54
图7 S61~S65
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图11,须知,本说明书所附图式所绘示的结构,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如”上”、”下”、”左”、”右”、”中间”及”一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,显示本发明的一种基于设备指纹识别的自适应设备识别方法步骤示意图,如图1所示,一种基于设备指纹识别的自适应设备识别方法,包括:
S1、获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息,首先根据用户设备的历史登录信息进行数据,获取历史数据和实时采集设备登录数据;
S2、筛选指纹登录数据,提取出登录特征信息为样本特征信息;
S3、数值化样本特征信息得散列特征数值,归一化散列特征数值为样本特征数值,将样本特征数值转化为多维特征向量,提取出能够反映终端设备特性的信息作为样本特征,对提取后的样本特征进行预处理,将文本类型的特征数据转化为数值型,对特征数值进行向量化,使其能够适用于聚类算法;
S4、以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值,根据用户的设备指纹数据的特征选择对应的聚类算法对数据进行划分;
S5、根据聚类算法确定簇中心并保存,将聚类后的若干簇的簇中心保存在可信指纹数据库中,从而识别新登录的设备,以经验阈值作为可信距离的参考值,根据用户设备的历史登录信息进行数据分析,对每个用户的设备数据训练出相应的自适应聚类模型;
S6、对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备,如识别新登录设备如便携式计算机或者手机等为合法设备,则继续允许登录访问操作,如果识别登陆设备非法,则强行弹出认证界面,组织设备登陆。
请参阅图2,显示为本发明的设备记录信息获取步骤示意图,如图2所示,S1、获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息,包括:
S11、获取当前用户的指纹数据,采集与指纹数据对应的设备记录信息,设备登录时,通过设备指纹数据采集模块可以采集移动端和浏览器端的数据;
S12、根据指纹数据获取标识符,所有标识符的<key,value>键值对数据都保存在HashMap对象中,获取完成后,将HashMap对象中的内容序列化成JSON格式字符串,并从中解析出能够反映终端设备特性的信息作为样本特征,使用HTTPPOST方式将数据上传至服务器;
S13、根据标识符获取原始样本,根据登录设备的用户ID从历史指纹数据库中获取该用户的所有设备记录,作为原始训练数据集;
S14、保存标识符,将标识符序列化成标识符字符串,当用户发送设备登录请求时,根据以上步骤采集新登录的设备数据,并存储到历史指纹数据库中;
S15、根据标识符字符串解析出样本特征,保存样本特征,由于设备指纹包含较多的隐性标识符,所以需要对已经采集到的隐性标识符进行筛选,即进行特征选择。有效的特征选择算法不仅可以有效的剔除不相关或冗余的特征,同时也可以降低计算复杂度,提高识别效率;
S16、根据用户的指纹数据获取设备记录信息,浏览器端通过浏览器插件获取设备硬件信息;
S17、根据样本特征,将用户的所有设备记录信息汇总为原始训练数据集,通过发送HTTP-GET请求以获取完整的HTTP返回包头部作为原始样本,用户发送设备登录请求时,根据以上步骤采集新登录的设备数据,并存储到历史指纹数据库中。最后,根据登录设备的用户ID从历史指纹数据库中获取该用户的所有设备记录,作为原始训练数据集。
请参阅图3,显示为样本特征信息获取步骤示意图,如图3所示,S2、筛选指纹登录数据,提取出设备登录特征信息为样本特征信息,包括:
S21、获取标识符字符串中的隐性标识符,移动端通过调用***API以及执行LinuxShell命令两种方式获取所有显性标识符和隐性标识符,由于设备指纹包含较多的隐性标识符,所以需要对已经采集到的隐性标识符进行筛选,即进行特征选择。有效的特征选择算法不仅可以有效的剔除不相关或冗余的特征,同时也可以降低计算复杂度,提高识别效率;
S22、根据信息增益原理筛选隐性标识符得相关标识符,我们认为信息熵值高且变化次数少的隐性标识符有利于标识设备和进行设备识别;
S23、根据相关标识符选择样本特征信息,因本发明所采取的特征选择算法主要基于信息增益原理,并结合了统计方法,对原始数据集和新登录的设备指纹做特征选择,特征选取的基本原则是在不丢失重要特征的基础上,选择“相关特征”,去除“无用特征”、减少“冗余特征”。
请参阅图4,显示为本发明的特种信息数值化步骤示意图,如图4所示,S3、数值化样本特征信息得散列特征数值,归一化散列特征数值为属性数据,将样本特征数值转化为多维特征向量,包括:
S31、采用哈希散列方法将样本特征信息中的字符串型属性值映射到特定位数的整数区间内得到散列特征值,数据预处理模块主要是对提取后的样本特征数值化和归一化处理。由于设备指纹属性值之间不存在“序”关系,因此需要将属性值数值化为一一对应的离散值,而不能数值化为基于空间模型的连续值,本发明采用哈希散列方法将属性值数值化,将字符串型属性值映射到8-10位的整数区间内,在对实时检测要求较高的设备指纹识别领域中,随着用户数量的急剧增加,数值化方案从一定程度上提高了计算效率;
S32、归一化散列特征值为预设特点区间中的属性数据,,归一化处理的目的是将每个属性值都限制在[0,1]之间,从而进一步加快算法执行效率,提高算法精度;
S33、根据属性数据将样本特征信息转化为多维特征向量,将数据预处理之后的样本数据存储在数据库中,作为自适应聚类模块的输入。
请参阅图5,显示为本发明的K值确定步骤示意图,如图5所示,S4、以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值,包括:
S41、根据多维特征信息获取用户对应的全部设备记录信息,聚类算法中,2个样本间的相似性计算非常重要,相似性度量函数的优劣决定最终的聚类效果。在向量空间模型下,可以借助向量之间的某种距离表示样本间的相似度,如欧式距离、马氏距离等;而设备指纹属性的取值均为离散值,且属性值之间不存在“序”关系,用以上距离无法准确反映设备指纹相似度,而汉明距离可用于衡量离散值的距离。因此,本发明选取汉明距离函数作为相似性度量函数,两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。由于在设备指纹应用案例中,我们借鉴汉明距离的思想,将特征向量xi与聚类中心cj的汉明距离定义为:xi与cj相对应的特征中不匹配的特征数目;
S42、以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图,簇中心的求解问题也就是构造以各条记录为顶点、记录之间的连线为边,以汉明距离为边的权重的带权无向图,并求解该带权无向图的中心点问题。为了简化中心点的计算过程,本发明将每一簇中和其他记录汉明距离总和最小的那条记录作为簇中心;
S43、输入多维特征向量和预设阈值,自适应聚类算法的输入为从数据库中读取的经数据预处理后的历史登录数据。首先以经验阈值Z作为参考值,显性标识符为空的某一用户的N条历史登录数据记作Set0,可信距离经验阈值Z;
S44、随机设置带权无向图中任一设备记录信息作为初始簇中心,用于在后续的对带权无向图的遍历过程中不断更新的簇中心的初始化;
S45、遍历设备记录信息,判断初始簇中心及非中心设备信息间的汉明距离是否小于预设阈值,用自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值。最后将聚类后的若干簇的簇中心和可信阈值保存在可信指纹数据库中,用于识别新登录的设备,K值确定算法:
输入:显性标识符为空的某一用户的N条历史登录数据记作Set0,可信距离经验阈值Z输出:该用户的设备数目K和每一类的初始簇中心R1
i的值即为K值,每次选取的R1即为每一类的初始簇中心;
S46、若是,则将当前设备记录信息放入近距离集S1中,簇中心计数加1,即代表K值的变量值加1;
S47、若否,则将当前设备记录信息Ri放回原集合S2中供遍历;
S48、根据簇中心计数得K值,其中K值为该用户的设备数目K;
S49、用自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值,本发明所有的自适应聚类K-center算法和设备指纹识别的判定算法,均是针对某一用户的数据进行处理的,且对所有用户的处理方式相同。
请参阅图6,显示为本发明的簇中心确定步骤示意图,如图6所示,S5、并根据聚类算法确定簇中心并保存,包括:
S51、获取K值,初始化簇中心,显性标识符为空的某一用户的N条历史登录数据,假设共有K类,根据K值确定算法确定K值,并初始化簇中心;
S52、以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图;
S53、根据样本点与每一中心点的汉明距离将数据集中的对象聚类,分别计算每个样本点Xi与k个中心点的汉明距离,将Xi归为距离最近的一簇,记Xi的簇标记为Ci,若记录的簇标记发生改变,置changed=1;若都没有改变,置标志位changed=0;
S54、计算每一簇中两样本点之间的汉明距离,取和其他记录的距离之和最小的样本点作为新的簇中心。
请参阅图7,显示为本发明的新登录设备识别步骤示意图,如图7所示,S6、对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备,包括:
S61、对设备记录信息进行数据预处理和特征提取,当用户发出登录请求时,将本次用户请求的设备指纹与数据库中存储的可信指纹做匹配即可判断认证的可信度,输入用户实时登录的设备信息device_fp,将输入的设备信息device_fp存储到历史指纹数据库Login_DB中;
S62、提取出用户对应的簇中心和可信阈值,对新登录的设备信息device_fp进行数据预处理和特征提取,得到自适应聚类算法的输入向量X,从可信指纹数据库Cred_DB中读取出该用户对应的簇中心C和可信阈值Z;
S63、计算设备记录信息与每个簇中心的汉明距离,判断设备记录信息所有汉明距离是否都大于可信阈值,计算设备信息X与每个簇中心的汉明距离dist(X,C),计算获得结果后,大于可信距离阈值的设备指纹被认为是可信的,反之则被认为是不可信的;
S64、若是,则判断设备记录信息对应的设备不可信,如果对于每一个簇中心,都有dist(X,C)>Z,则设备不可信,输出0;
S65、若否,则判定设备记录信息对应是设备为可信设备,更新用户的簇中心,将X归为距离值最小的类中,设备可信,更新该用户的簇中心,并输出1将X归为距离值最小的类中,设备可信,更新该用户的簇中心,并输出1。
请参阅图8,显示为本发明的一种基于设备指纹识别的自适应设备识别***模块示意图,如图8所示,一种基于设备指纹识别的自适应设备识别***1,包括:登录信息获取模块11、特征提取模块12、向量获取模块13、K值计算模块14、簇中心确定模块15和设备认证模块16;登录信息获取模块11,用于获取用户登录信息,实时采集用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息,首先根据用户设备的历史登录信息进行数据,获取历史数据和实时采集设备登录数据;特征提取模块12,用于筛选指纹登录数据,提取出登录特征信息为样本特征信息,特征提取模块12与登录信息获取模块11连接;向量获取模块13,用于数值化样本特征信息得散列特征数值,归一化散列特征数值为样本特征数值,将样本特征数值转化为多维特征向量,提取出能够反映终端设备特性的信息作为样本特征,对提取后的样本特征进行预处理,将文本类型的特征数据转化为数值型,对特征数值进行向量化,使其能够适用于聚类算法,向量获取模块13与特征提取模块12连接;K值计算模块14,用于以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值,根据用户的设备指纹数据的特征选择对应的聚类算法对数据进行划分,K值提取模块14与向量获取模块13连接;簇中心确定模块15,用于根据聚类算法确定簇中心并保存,将聚类后的若干簇的簇中心保存在可信指纹数据库中,从而识别新登录的设备,以经验阈值作为可信距离的参考值,根据用户设备的历史登录信息进行数据分析,对每个用户的设备数据训练出相应的自适应聚类模型,簇中心确定模块15与K值计算模块14连接;设备认证模块16,用于对比设备信息与簇中心的汉明距离与可信阈值,根据汉明距离和可信阈值的比较结果来识别新登录设备,如识别新登录设备如便携式计算机或者手机等为合法设备,则继续允许登录访问操作,如果识别登陆设备非法,则强行弹出认证界面,组织设备登陆,设备认证模块16与簇中心确定模块15连接。
请参阅图9,显示为本发明的登陆信息获取模块示意图,如图9所示,登录信息获取模块11,包括:指纹设备信息模块111、指纹标识符获取模块112、原始样本模块113、字符串模块114、样本特征解析模块115、述设备信息提取模块116和原始数据集模块117;指纹设备信息模块111,用于获取当前用户的指纹数据,采集与指纹数据对应的设备记录信息,设备登录时,通过设备指纹数据采集模块可以采集移动端和浏览器端的数据;指纹标识符获取模块112,用于根据指纹数据获取标识符,所有标识符的<key,value>键值对数据都保存在HashMap对象中,获取完成后,将HashMap对象中的内容序列化成JSON格式字符串,并从中解析出能够反映终端设备特性的信息作为样本特征,使用HTTPPOST方式将数据上传至服务器,指纹标识符获取模块112与指纹设备信息模块111连接;原始样本模块113,用于根据标识符获取原始样本,根据登录设备的用户ID从历史指纹数据库中获取该用户的所有设备记录,作为原始训练数据集,原始样本模块113与指纹标识符获取模块112连接;字符串模块114,用于保存标识符,将标识符序列化成标识符字符串,当用户发送设备登录请求时,根据以上步骤采集新登录的设备数据,并存储到历史指纹数据库中,字符串模块114与指纹标识符获取模块112连接;样本特征解析模块115,用于根据标识符字符串解析出样本特征,保存样本特征,由于设备指纹包含较多的隐性标识符,所以需要对已经采集到的隐性标识符进行筛选,即进行特征选择。有效的特征选择算法不仅可以有效的剔除不相关或冗余的特征,同时也可以降低计算复杂度,提高识别效率,样本特征解析模块115与原始样本模块113连接;设备信息提取模块116,用于根据用户的指纹数据获取设备记录信息,浏览器端通过浏览器插件获取设备硬件信息,设备信息提取模块116与指纹设备信息模块111连接;原始数据集模块117,用于根据样本特征,将用户的所有设备记录信息汇总为原始训练数据集,通过发送HTTP-GET请求以获取完整的HTTP返回包头部作为原始样本,用户发送设备登录请求时,根据以上步骤采集新登录的设备数据,并存储到历史指纹数据库中。最后,根据登录设备的用户ID从历史指纹数据库中获取该用户的所有设备记录,作为原始训练数据集,原始数据集模块117与样本特征解析模块115连接。
请参阅图10,显示为本发明的特征提取模块示意图,如图10所示,特征提取模块12,包括:隐性标识符获取模块121、相关标识符获取模块122和样本特征获取模块123;隐性标识符获取模块121,用于获取标识符字符串中的隐性标识符,移动端通过调用***API以及执行Linux Shell命令两种方式获取所有显性标识符和隐性标识符,由于设备指纹包含较多的隐性标识符,所以需要对已经采集到的隐性标识符进行筛选,即进行特征选择。有效的特征选择算法不仅可以有效的剔除不相关或冗余的特征,同时也可以降低计算复杂度,提高识别效率;相关标识符获取模块122,用于根据信息增益原理筛选隐性标识符得相关标识符,我们认为信息熵值高且变化次数少的隐性标识符有利于标识设备和进行设备识别,相关标识符获取模块122与隐性标识符获取模块121连接;样本特征获取模块123,用于根据相关标识符选择样本特征信息,因本发明所采取的特征选择算法主要基于信息增益原理,并结合了统计方法,对原始数据集和新登录的设备指纹做特征选择,特征选取的基本原则是在不丢失重要特征的基础上,选择“相关特征”,去除“无用特征”、减少“冗余特征”,样本特征获取模块123与相关标识符获取模块122连接。
请参阅图11,显示为本发明的向量获取模块示意图,如图11所示,向量获取模块13,包括:散列特征值模块131、特征值归一化模块132和向量转换模块133;散列特征值模块131,用于采用哈希散列方法将样本特征信息中的字符串型属性值映射到特定位数的整数区间内得到散列特征值,数据预处理模块主要是对提取后的样本特征数值化和归一化处理。由于设备指纹属性值之间不存在“序”关系,因此需要将属性值数值化为一一对应的离散值,而不能数值化为基于空间模型的连续值,本发明采用哈希散列方法将属性值数值化,将字符串型属性值映射到8-10位的整数区间内,在对实时检测要求较高的设备指纹识别领域中,随着用户数量的急剧增加,数值化方案从一定程度上提高了计算效率;特征值归一化模块132,用于归一化散列特征值为预设特点区间中的属性数据,,归一化处理的目的是将每个属性值都限制在[0,1]之间,从而进一步加快算法执行效率,提高算法精度,特征值归一化模块132与散列特征值模块131连接;向量转换模块133,用于根据属性数据将样本特征信息转化为多维特征向量,将数据预处理之后的样本数据存储在数据库中,作为自适应聚类模块的输入,向量转换模块133与特征值归一化模块132连接。
请参阅图12,显示为本发明的K值计算模块示意图,如图12所示,K值计算模块14,包括:设备记录信息提取模块141、无向图构建模块142、数据输入模块143、簇中心初始化模块144、距离判断模块145、K值累加模块146、循环遍历模块147、K值获取模块148和簇中心更新模块149;设备记录信息提取模块141,用于根据多维特征信息获取用户对应的全部设备记录信息,聚类算法中,2个样本间的相似性计算非常重要,相似性度量函数的优劣决定最终的聚类效果。在向量空间模型下,可以借助向量之间的某种距离表示样本间的相似度,如欧式距离、马氏距离等;而设备指纹属性的取值均为离散值,且属性值之间不存在“序”关系,用以上距离无法准确反映设备指纹相似度,而汉明距离可用于衡量离散值的距离。因此,本发明选取汉明距离函数作为相似性度量函数,两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。由于在设备指纹应用案例中,我们借鉴汉明距离的思想,将特征向量xi与聚类中心cj的汉明距离定义为:xi与cj相对应的特征中不匹配的特征数目;无向图构建模块142,用于以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图,簇中心的求解问题也就是构造以各条记录为顶点、记录之间的连线为边,以汉明距离为边的权重的带权无向图,并求解该带权无向图的中心点问题。为了简化中心点的计算过程,本发明将每一簇中和其他记录汉明距离总和最小的那条记录作为簇中心,无向图构建模块142与设备记录信息提取模块141连接;数据输入模块143,用于输入多维特征向量和预设阈值,自适应聚类算法的输入为从数据库中读取的经数据预处理后的历史登录数据。首先以经验阈值Z作为参考值,显性标识符为空的某一用户的N条历史登录数据记作Set0,可信距离经验阈值Z,数据输入模块143与设备记录信息提取模块141连接;簇中心初始化模块144,用于随机设置带权无向图中任一设备记录信息作为初始簇中心,用于在后续的对带权无向图的遍历过程中不断更新的簇中心的初始化,簇中心初始化模块144与无向图构建模块142连接;距离判断模块145,用于遍历设备记录信息,判断初始簇中心及非中心设备信息间的汉明距离是否小于预设阈值,用自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值。最后将聚类后的若干簇的簇中心和可信阈值保存在可信指纹数据库中,用于识别新登录的设备,距离判断模块145与簇中心初始化模块144连接;K值累加模块146,用于若是,则将当前设备记录信息放入近距离集S1中,簇中心计数加1,即代表K值的变量值加1,K值累加模块146与距离判断模块145连接;循环遍历模块147,用于若否,则将当前设备记录信息Ri放回原集合S2中供遍历,循环遍历模块147与距离判断模块145连接;K值获取模块148,用于根据簇中心计数得K值,其中K值为该用户的设备数目K,K值获取模块148与K值累加模块146连接;簇中心更新模块149,用于用自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值,本发明所有的自适应聚类K-center算法和设备指纹识别的判定算法,均是针对某一用户的数据进行处理的,且对所有用户的处理方式相同,簇中心更新模块149与K值获取模块148连接。
请参阅图13,显示为本发明的簇中心确定模块示意图,如图13所示,簇中心确定模块15,包括:聚类初始模块151、无向图模块152、对象聚类模块153和簇中心模块154;聚类初始模块151,用于获取K值,初始化簇中心,显性标识符为空的某一用户的N条历史登录数据,假设共有K类,根据K值确定算法确定K值,并初始化簇中心,初始化簇中心;无向图模块152,用于以各条设备记录信息为顶点相连线为边,以汉明距离为边权重,构建用户的带权无向图,无向图模块152与聚类初始模块151连接;对象聚类模块153,用于根据样本点与每一中心点的汉明距离将数据集中的对象聚类,分别计算每个样本点Xi与k个中心点的汉明距离,将Xi归为距离最近的一簇,记Xi的簇标记为Ci,若记录的簇标记发生改变,置changed=1;若都没有改变,置标志位changed=0,对象聚类模块153与无向图模块152连接;簇中心模块154,计算每一簇中两样本点之间的汉明距离,取和其他记录的距离之和最小的样本点作为新的簇中心,簇中心模块154与对象聚类模块153连接。
请参阅图14,显示为本发明的设备认证模块示意图,如图14所示,设备认证模块16,包括:;设备信息提取模块161,用于对设备记录信息进行数据预处理和特征提取,当用户发出登录请求时,将本次用户请求的设备指纹与数据库中存储的可信指纹做匹配即可判断认证的可信度,输入用户实时登录的设备信息device_fp,将输入的设备信息device_fp存储到历史指纹数据库Login_DB中;用户信息提取模块162,用于提取出用户对应的簇中心和可信阈值,对新登录的设备信息device_fp进行数据预处理和特征提取,得到自适应聚类算法的输入向量X,从可信指纹数据库Cred_DB中读取出该用户对应的簇中心C和可信阈值Z;设备判断模块163,用于计算设备记录信息与每个簇中心的汉明距离,判断设备记录信息所有汉明距离是否都大于可信阈值,计算设备信息X与每个簇中心的汉明距离dist(X,C),计算获得结果后,大于可信距离阈值的设备指纹被认为是可信的,反之则被认为是不可信的,设备判断模块163与设备信息提取模块161连接;非法设备判定模块164,用于在设备记录信息所有汉明距离都大于可信阈值,判断设备记录信息对应的设备不可信,如果对于每一个簇中心,都有dist(X,C)>Z,则设备不可信,输出0,非法设备判定模块164与设备判断模块163连接;合法设备判定模块165,用于判定设备记录信息对应是设备为可信设备,更新用户的簇中心,将X归为距离值最小的类中,设备可信,更新该用户的簇中心,并输出1将X归为距离值最小的类中,设备可信,更新该用户的簇中心,并输出1,合法设备判定模块165与设备判断模块163连接。
综上所述,本发明提供一种基于指纹识别的自适应设备识别方法及***,针对显性标识符缺失的情况,提出了自适应聚类K-center算法,可以在显性标识符缺失、重复甚至被伪造的情况下有效地区分同一用户的不同设备。针对设备指纹的特征值“无序”的特点,提出了在聚类算法中以汉明距离代替常用的欧式距离、马氏距离等基于坐标的距离度量方式来计算样本间的相似性。本发明打破了求均值等传统的簇中心确定方案,选取了设备指纹登录数据中最具代表性的数据作为簇中心,保留了数据的原始特征,符合设备指纹识别的实际应用场景,以经验阈值作为可信距离的参考值,根据用户设备的历史登录信息进行数据分析,对每个用户的设备数据训练出相应的自适应聚类模型。从而对新的登录数据进行识别,判断其是否为可信设备,首先获取历史数据和实时采集设备登录数据,提取出能够反映终端设备特性的信息作为样本特征,对提取后的样本特征进行预处理,将文本类型的特征数据转化为数值型,对特征数值进行向量化,使其能够适用于聚类算法。以样本的多维特征向量作为输入,根据用户的设备指纹数据的特征选择对应的聚类算法对数据进行划分,并将聚类后的若干簇的簇中心保存在可信指纹数据库中,从而识别新登录的设备解决了传统技术中的识别精度较低,识别安全性低及可靠性低的技术问题,具有很高的商业价值和实用性。

Claims (10)

1.一种基于设备指纹识别的自适应设备识别方法,其特征在于,包括:
获取用户登录信息,实时采集所述用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息;
筛选所述指纹登录数据,提取出登录特征信息为样本特征信息;数值化所述样本特征信息得散列特征数值,归一化所述散列特征数值为样本特征数值,将所述样本特征数值转化为多维特征向量;所述数值化所述样本特征信息得散列特征数值,归一化所述散列特征数值为属性数据,将所述样本特征数值转化为多维特征向量,包括:采用哈希散列方法将所述样本特征信息中的字符串型属性值映射到特定位数的整数区间内得到散列特征值;归一化所述散列特征值为预设特点区间中的所述属性数据;根据所述属性数据将所述样本特征信息转化为所述多维特征向量;
以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值;所述以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值,包括:根据多维特征信息获取所述用户对应的全部所述设备记录信息;以各条所述设备记录信息为顶点相连线为边,以汉明距离为所述边权重,构建所述用户的带权无向图;输入所述多维特征向量和预设阈值;随机设置所述带权无向图中任一所述设备记录信息作为初始簇中心;遍历所述设备记录信息,判断所述初始簇中心及非中心设备信息间的汉明距离是否小于所述预设阈值;若是,则将当前所述设备记录信息放入近距离集中,簇中心计数加1;若否,则将当前所述设备记录信息放回原集合供遍历;根据所述簇中心计数得所述K值;用自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值;
根据所述聚类算法确定簇中心并保存;
对比设备信息与所述簇中心的汉明距离与可信阈值,根据所述汉明距离和所述可信阈值的比较结果来识别新登录设备。
2.根据权利要求1所述的方法,其特征在于,所述获取用户登录信息,实时采集所述用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息,包括:
获取当前用户的指纹数据,采集与所述指纹数据对应的所述设备记录信息;
根据所述指纹数据获取标识符;
根据所述标识符获取原始样本;
保存所述标识符,将所述标识符序列化成标识符字符串;
根据所述标识符字符串解析出样本特征,保存所述样本特征;
根据用户的所述指纹数据获取所述设备记录信息;
根据所述样本特征,将所述用户的所有所述设备记录信息汇总为原始训练数据集。
3.根据权利要求2所述的方法,其特征在于,所述筛选所述指纹登录数据,提取出设备登特征信息为样本特征信息,包括:
获取所述标识符字符串中的隐性标识符;
根据信息增益原理筛选所述隐性标识符得相关标识符;
根据所述相关标识符选择样本特征信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述聚类算法确定簇中心并保存,包括:
获取所述K值,初始化簇中心;
以各条所述设备记录信息为顶点相连线为边,以汉明距离为所述边权重,构建所述用户的带权无向图;
根据样本点与每一中心点的汉明距离将数据集中的对象聚类;
计算每一簇中两样本点之间的汉明距离,取和其他记录的距离之和最小的样本点作为新的簇中心。
5.根据权利要求4所述的方法,其特征在于,所述对比所述设备信息与所述簇中心的汉明距离与可信阈值,根据所述汉明距离和所述可信阈值的比较结果来识别新登录设备,包括:
对所述设备记录信息进行数据预处理和特征提取;
提取出所述用户对应的所述簇中心和所述可信阈值;
计算所述设备记录信息与每个所述簇中心的汉明距离,判断所述设备记录信息所有所述汉明距离是否都大于所述可信阈值;
若是,则判断所述设备记录信息对应的设备不可信;
若否,则判定所述设备记录信息对应是设备为可信设备,更新所述用户的簇中心。
6.一种基于设备指纹识别的自适应设备识别***,其特征在于,包括:登录信息获取模块、特征提取模块、向量获取模块、K值计算模块、簇中心确定模块和设备认证模块;
所述登录信息获取模块,用于获取用户登录信息,实时采集所述用户的指纹登录数据和移动端及浏览器端的用户设备数据并保存为设备记录信息;
所述特征提取模块,用于筛选所述指纹登录数据,提取出设备登录特征信息为样本特征信息;
所述向量获取模块,用于数值化所述样本特征信息得散列特征数值,归一化所述散列特征数值为样本特征数值,将所述样本特征数值转化为多维特征向量;
所述K值计算模块,用于以样本的多维特征向量作为输入,根据预设的相似性度量函数确定聚类算法的K值;
所述簇中心确定模块,用于根据所述聚类算法确定簇中心并保存;
所述设备认证模块,用于对比设备信息与所述簇中心的汉明距离与可信阈值,根据所述汉明距离和所述可信阈值的比较结果来识别新登录设备;
所述向量获取模块,包括:散列特征值模块、特征值归一化模块和向量转换模块;所述散列特征值模块,用于采用哈希散列方法将所述样本特征信息中的字符串型属性值映射到特定位数的整数区间内得到散列特征值;
所述特征值归一化模块,用于归一化所述散列特征值为预设特点区间中的属性数据;所述向量转换模块,用于根据所述属性数据将所述样本特征信息转化为所述多维特征向量;
所述K值计算模块,包括:设备记录信息提取模块、无向图构建模块、数据输入模块、簇中心初始化模块、距离判断模块、K值累加模块、循环遍历模块、K值获取模块和簇中心更新模块;
所述设备记录信息提取模块,用于根据多维特征信息获取所述用户对应的全部所述设备记录信息;
所述无向图构建模块,用于以各条所述设备记录信息为顶点相连线为边,以汉明距离为所述边权重,构建所述用户的带权无向图;
所述数据输入模块,用于输入所述多维特征向量和预设阈值;
所述簇中心初始化模块,用于随机设置所述带权无向图中任一所述设备记录信息作为初始簇中心;
所述距离判断模块,用于遍历所述设备记录信息,判断所述初始簇中心及非中心设备信息间的汉明距离是否小于所述预设阈值;
所述K值累加模块,用于在所述初始簇中心及所述非中心设备信息间的汉明距离小于所述预设阈值时,将当前所述设备记录信息放入近距离集中,簇中心计数加1;
所述循环遍历模块,用于在所述初始簇中心及所述非中心设备信息间的汉明距离不小于所述预设阈值时,将当前所述设备记录信息放回原集合供遍历;
所述K值获取模块,用于根据所述簇中心计数得所述K值;
所述簇中心更新模块,用于以自适应聚类算法对每个用户的设备数据重新聚类,确定新的聚类中心,直至收敛,并计算可信阈值。
7.根据权利要求6所述的***,其特征在于,所述登录信息获取模块,包括:指纹设备信息模块、指纹标识符获取模块、原始样本模块、字符串模块、样本特征解析模块、设备信息提取模块和原始数据集模块;
所述指纹设备信息模块,用于获取当前用户的指纹数据,采集与所述指纹数据对应的所述设备记录信息;
所述指纹标识符获取模块,用于根据所述指纹数据获取标识符;
所述原始样本模块,用于根据所述标识符获取原始样本;
所述字符串模块,用于保存所述标识符,将所述标识符序列化成标识符字符串;
所述样本特征解析模块,用于根据所述标识符字符串解析出样本特征,保存所述样本特征;
所述设备信息提取模块,用于根据用户的所述指纹数据获取所述设备记录信息;
所述原始数据集模块,用于根据所述样本特征,将所述用户的所有所述设备记录信息汇总为原始训练数据集。
8.根据权利要求7所述的***,其特征在于,所述特征提取模块,包括:隐性标识符获取模块、相关标识符获取模块和样本特征获取模块;
所述隐性标识符获取模块,用于获取所述标识符字符串中的隐性标识符;
所述相关标识符获取模块,用于根据信息增益原理筛选所述隐性标识符得相关标识符;
所述样本特征获取模块,用于据所述相关标识符选择样本特征信息。
9.根据权利要求6所述的***,其特征在于,所述簇中心确定模块,包括:聚类初始模块、无向图模块、对象聚类模块和簇中心模块;
所述聚类初始模块,用于获取所述K值,初始化簇中心;
所述无向图模块,用于以各条所述设备记录信息为顶点相连线为边,以汉明距离为所述边权重,构建所述用户的带权无向图;
所述对象聚类模块,用于根据样本点与每一中心点的汉明距离将数据集中的对象聚类;
所述簇中心模块,中心计算每一簇中两样本点之间的汉明距离,取和其他记录的距离之和最小的样本点作为新的簇中心。
10.根据权利要求6或9所述的***,其特征在于,所述设备认证模块,包括:设备信息提取模块、用户信息提取模块、设备判断模块、非法设备判定模块和合法设备判定模块;
所述设备信息提取模块,用于对所述设备记录信息进行数据预处理和特征提取;
所述用户信息提取模块,用于提取出所述用户对应的所述簇中心和所述可信阈值;
所述设备判断模块,用于计算所述设备记录信息与每个所述簇中心的汉明距离,判断所述设备记录信息所有所述汉明距离是否都大于所述可信阈值;
所述非法设备判定模块,用于在所述设备记录信息所有所述汉明距离都大于所述可信阈值,判断所述设备记录信息对应的设备不可信;
所述合法设备判定模块,用于在所述设备记录信息所有所述汉明距离不全大于所述可信阈值时,判定所述设备记录信息对应是设备为可信设备,更新所述用户的簇中心。
CN201710548621.7A 2017-07-06 2017-07-06 一种基于指纹识别的自适应设备识别方法及*** Active CN107392121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710548621.7A CN107392121B (zh) 2017-07-06 2017-07-06 一种基于指纹识别的自适应设备识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710548621.7A CN107392121B (zh) 2017-07-06 2017-07-06 一种基于指纹识别的自适应设备识别方法及***

Publications (2)

Publication Number Publication Date
CN107392121A CN107392121A (zh) 2017-11-24
CN107392121B true CN107392121B (zh) 2023-05-09

Family

ID=60335631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710548621.7A Active CN107392121B (zh) 2017-07-06 2017-07-06 一种基于指纹识别的自适应设备识别方法及***

Country Status (1)

Country Link
CN (1) CN107392121B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019192197A (ja) * 2018-03-02 2019-10-31 エーオー カスペルスキー ラボAO Kaspersky Lab ユーザとバンキングサービスとのインタラクション中に新規デバイスを識別するシステムおよび方法
CN108600414B (zh) * 2018-05-09 2022-04-26 中国平安人寿保险股份有限公司 设备指纹的构建方法、装置、存储介质及终端
CN108596271B (zh) * 2018-05-09 2023-05-26 中国平安人寿保险股份有限公司 指纹构建算法的评估方法、装置、存储介质及终端
CN109657107B (zh) * 2018-11-02 2021-01-01 同盾控股有限公司 一种基于第三方应用的终端匹配方法和装置
CN109766678B (zh) * 2018-12-12 2020-11-03 同济大学 面向移动端设备指纹识别认证方法、***、介质及设备
CN109995751B (zh) * 2019-02-13 2022-09-09 平安科技(深圳)有限公司 上网设备标记方法、装置及存储介质、计算机设备
CN110072183B (zh) * 2019-03-14 2020-09-04 天津大学 基于群智感知的被动式定位指纹库构建方法
CN110189049A (zh) * 2019-06-05 2019-08-30 重庆两江新区管理委员会 一种基于预警机制的监管***
CN110300027A (zh) * 2019-06-29 2019-10-01 西安交通大学 一种异常登录检测方法
CN110458094B (zh) * 2019-08-09 2020-12-18 国家计算机网络与信息安全管理中心 基于指纹相似度的设备分类方法
CN110738396B (zh) * 2019-09-18 2024-06-14 创新先进技术有限公司 一种针对设备的特征提取方法、装置及设备
CN110942536B (zh) * 2019-11-15 2021-03-30 西安电子科技大学 一种指纹识别开锁***
CN110956468B (zh) * 2019-11-15 2023-05-23 西安电子科技大学 一种指纹支付***
CN113495710A (zh) * 2020-03-18 2021-10-12 中国电信股份有限公司 声音唤醒处理方法、装置、声音分析平台以及存储介质
CN111400695B (zh) * 2020-04-09 2024-05-10 中国建设银行股份有限公司 一种设备指纹生成方法、装置、设备和介质
CN111770080A (zh) * 2020-06-28 2020-10-13 深圳前海微众银行股份有限公司 一种设备指纹的恢复方法及装置
CN112152997B (zh) * 2020-08-20 2021-10-22 同济大学 面向设备识别的双因子认证方法、***、介质及服务端
CN112650528B (zh) * 2020-12-31 2024-05-14 新奥数能科技有限公司 个性化算法生成方法、装置、电子设备和计算机可读介质
CN113139082A (zh) * 2021-05-14 2021-07-20 北京字节跳动网络技术有限公司 多媒体内容处理方法、装置、设备及介质
CN113612781A (zh) * 2021-08-06 2021-11-05 公安部第三研究所 基于设备指纹的银行业网络攻击预警方法、***及相关产品
CN117390708B (zh) * 2023-12-11 2024-02-23 南京向日葵大数据有限公司 一种隐私数据安全保护方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674184A (zh) * 2009-10-19 2010-03-17 北京微通新成网络科技有限公司 一种基于用户击键特征的身份识别方法
CN105279405A (zh) * 2015-10-28 2016-01-27 同济大学 触屏用户按键行为模式构建与分析***及其身份识别方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135320B2 (en) * 2012-06-13 2015-09-15 Opera Solutions, Llc System and method for data anonymization using hierarchical data clustering and perturbation
CN104602183A (zh) * 2014-04-22 2015-05-06 腾讯科技(深圳)有限公司 群组定位方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674184A (zh) * 2009-10-19 2010-03-17 北京微通新成网络科技有限公司 一种基于用户击键特征的身份识别方法
CN105279405A (zh) * 2015-10-28 2016-01-27 同济大学 触屏用户按键行为模式构建与分析***及其身份识别方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用服务聚类优化面向过程模型的语义Web服务发现;孙萍等;计算机学报(第08期);52-65 *

Also Published As

Publication number Publication date
CN107392121A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107392121B (zh) 一种基于指纹识别的自适应设备识别方法及***
CN111866196B (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
US20230353585A1 (en) Malicious traffic identification method and related apparatus
CN111460441A (zh) 一种基于批归一化卷积神经网络的网络入侵检测方法
CN109766678B (zh) 面向移动端设备指纹识别认证方法、***、介质及设备
CN112839014A (zh) 建立识别异常访问者模型的方法、***、设备及介质
CN111326236A (zh) 一种医疗图像自动处理***
CN116437355A (zh) 基于射频指纹的无线设备身份认证方法及其装置
CN113315851A (zh) 域名检测方法、装置及存储介质
CN113438239B (zh) 一种基于深度k近邻的网络攻击检测方法及装置
CN117675387B (zh) 基于用户行为分析的网络安全风险预测方法及***
CN110225009A (zh) 一种基于通信行为画像的代理使用者检测方法
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
Zou et al. Browser fingerprinting identification using incremental clustering algorithm based on autoencoder
CN108830217B (zh) 一种基于模糊均值哈希学习的签名自动判别方法
CN116319033A (zh) 网络入侵攻击检测方法、装置、设备及存储介质
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质
CN111475380B (zh) 一种日志分析方法和装置
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN112312590A (zh) 一种设备通信协议识别方法和装置
CN113657443A (zh) 一种基于soinn网络的在线物联网设备识别方法
CN116189706A (zh) 数据传输方法、装置、电子设备和计算机可读存储介质
Malach et al. Optimal face templates: the next step in surveillance face recognition
CN111597549A (zh) 一种基于大数据的网络安全行为识别方法及***
CN112613871A (zh) 基于大数据和区块链的支付方式推荐方法及云计算服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant