CN103530540B - 基于人机交互行为特征的用户身份属性检测方法 - Google Patents

基于人机交互行为特征的用户身份属性检测方法 Download PDF

Info

Publication number
CN103530540B
CN103530540B CN201310454565.2A CN201310454565A CN103530540B CN 103530540 B CN103530540 B CN 103530540B CN 201310454565 A CN201310454565 A CN 201310454565A CN 103530540 B CN103530540 B CN 103530540B
Authority
CN
China
Prior art keywords
man
identity attribute
user
machine interaction
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310454565.2A
Other languages
English (en)
Other versions
CN103530540A (zh
Inventor
蔡忠闽
沈超
罗伊·麦克斯
管晓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201310454565.2A priority Critical patent/CN103530540B/zh
Publication of CN103530540A publication Critical patent/CN103530540A/zh
Application granted granted Critical
Publication of CN103530540B publication Critical patent/CN103530540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2133Verifying human interaction, e.g., Captcha

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于人机交互行为特征的用户身份属性检测方法,通过分析用户与智能计算***交互过程中操作人机交互设备(例如鼠标、键盘、触摸屏等)所产生的人机交互行为,提取人机交互行为特征,并基于人机交互特征建立用户的身份属性模板,对用户的身份属性(性别、年龄、种族等)进行检测和判别。本发明方法的优点在于:人机交互行为填补了在智能计算***中对操作者身份属性进行分析的空白,为计算机及移动网络用户信息感知分析提供了一种全新的思路。此外,本发明可以在用户与智能计算***交互过程中对用户进行持续的分析,且不会对用户的正常行为产生干扰。

Description

基于人机交互行为特征的用户身份属性检测方法
技术领域
本发明涉及一种计算机及移动网络用户信息感知分析技术,特别涉及一种基于计算机及智能手机用户人机交互行为特征的身份属性检测方法。
背景技术
随着社会信息化、网络化大潮的推进,在计算机及移动网络中对用户信息的感知分析变得越来越重要。一方面,在电子商务、网络银行等网络虚拟化经济活动中,商家迫切希望能够尽量充分的了解客户,以提供针对性的商品或服务从而提高商业活动的成功率;另一方面,计算机网络和移动网络信息犯罪活动也越来越严重,提取和分析存在于计算网络***中的电子证据进而确定操作者的性别、年龄、种族、语言等身份属性能够为网络犯罪活动的发现和遏制提供重要的帮助。
近年来,有研究人员提出基于生物特征检测用户的信息或身份属性,他们根据人脸、指纹、虹膜、掌纹等生理特征对用户的性别、年龄、种族等信息进行检测,但是此类方法需要使用特定的生物信息采集设备,如摄像头、指纹传感器等,不适用于现有的计算网络环境。目前还没有可以在现有的计算网络环境中大规模应用的分析检测用户身份属性的技术或方法。
针对上述需求,本发明提出一种基于人机交互行为特征来分析检测用户身份属性的技术或方法。
发明内容
本发明的目的是提供一种基于人机交互行为特征的计算机及智能手机用户身份属性检测技术,特别是利用用户操作人机交互设备过程中所产生的交互行为特征作为依据来检测操作者的身份属性的方法。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于人机交互行为特征的用户身份属性检测方法,其特征在于,包括建立身份属性模型和检测身份属性两个部分:
(1)建立身份属性模型,包括下述步骤:
第一步,在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据;
第二步,针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
第三步,以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
第四步,针对每个标记的数据块,提取并标记人机交互行为特征向量,将不同数据块中的人机交互行为特征向量组合形成用户的身份属性特征向量训练集;
第五步,针对每种身份属性,根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建身份属性模型。
(2)检测身份属性,包括下述步骤:
第一步,用户登入计算机或智能手机后,捕获当前用户的人机交互行为,以长度T为周期,获取T内用户人机交互行为数据并提取对应的人机交互行为特征向量,进而生成对应每个身份属性的特征向量;
第二步,对当前用户的身份属性进行检测:将生成的身份属性特征向量作为已建立的身份属性推测模型的输入,得到用户身份属性的检测值,对用户的身份属性进行判断。
上述方法中,所述建立身份属性模型部分第四步中形成用户的身份属性特征向量训练集的具体步骤如下:
(1)在观测时间长度为T的人机交互行为数据块中,遍历人机交互事件序列,依次分离出不同类型的交互行为事件,包括鼠标交互行为事件、击键交互行为事件、触摸交互行为事件;
(2)针对不同类型的交互行为事件,提取交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量;
(3)将不同数据块中的人机交互行为特征向量组合在一起,形成身份属性特征向量训练集。
所述计算机或智能手机用户产生的人机交互行为数据为基本人机交互事件组成的序列,基本人机交互事件的格式为:{交互时间戳,交互屏幕位置,包括鼠标、键盘、或触摸板的交互设备类型,交互事件类型}。
所述身份属性是指计算机及智能手机用户所固有的生理或行为特性,包括用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况。
所述建立身份属性模型由一种或多种分类器联合实现,所述分类器包括加权随机森林分类器、人工神经网络分类器、支持向量机分类器。其中,由加权随机森林分类器建立身份属性模型的具体步骤为:
1)初始化训练样本集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m,m远小于M;
2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[0,1]之间;
3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析,对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝;
6)重复步骤3)、4)、5)直到建立了全部P棵决策树;
7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到加权随机森林分类器的分类结果。
本发明以人机交互事件序列的形式描述用户在人机交互过程中体现出的行为特性,以此来检测操作者的身份属性,为计算机及移动网络用户信息感知分析提供了一种全新的思路。其优点是:首先,身份属性分析所需数据可从人机交互过程中直接获得,无需配备额外的仪器以及设备;其次,身份属性分析是基于人机交互行为特征,无需记忆或携带,很难进行模仿和伪造;另外,在计算机用户和智能手机用户操作设备的过程中可以持续捕获用户操作所产生的人机交互信息,因此可以基于人机交互行为特征持续对用户身份属性进行判断分析,而且不会干扰用户的正常行为,具有广泛的安全性和适用性。
附图说明
下面结合附图和具体实施方式对本发明做进一步的详细描述。
图1是本发明方法的步骤框图。
图2是本发明方法中人机交互行为的身份属性特征生成步骤框图。
图3是本发明方法中基于加权随机森林的身份属性模型建立方法步骤框图。
图4是采用本发明方法检测计算机用户身份属性的实验结果图。图中黑色的错误条表示在20次随机数据采样后的身份属性准确率的标准差。
具体实施方式
***结构
参见图1,本发明基于人机交互行为特征的计算机及智能手机用户身份属性检测方法,可用于电子商城、网络银行等电子商务活动中用户身份属性感知,以提供针对性的商品或服务;也可用于企业信息***中的信息取证分析,对重要信息***进行安全保护。本发明包含建立身份属性模型和身份属性检测两个部分,具体的实施步骤如下:
1)建立身份属性模型部分包括下述步骤:
(1)在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据,进而形成身份属性模型建立所需的交互行为数据集;基本人机交互数据的格式为:{交互时间戳,交互屏幕位置,交互类型,交互事件类型},交互类型包括鼠标交互、键盘交互和触摸屏交互,交互事件类型包括鼠标点击和移动事件、键盘击键事件、手指在触摸屏上的按压和触摸移动事件;
(2)针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
(3)以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
(4)针对每个标记的数据块,提取并标记人机交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量。其中鼠标行为特征向量是指由鼠标移动产生的时空轨迹曲线及鼠标点击等操作所衍生出的一系列行为测量量,可以使用一次移动的轨迹曲线,速度曲线、加速度曲线、平均移动速度与距离的关系,平均移动速度与方向的关系,平均移动加速度与距离的关系,平均移动加速度与方向的关系,移动轨迹距离与位移的比值作为特征;击键行为特征向量是指由键盘各键按下和弹起事件所组成的时间序列衍生得到的一系列行为测量量,可以使用单键按键的持续时间和相邻按键的间隔时间作为特征;触摸行为特征向量是指手指在触摸屏上移动产生的时空轨迹曲线及按压等操作所衍生出的一系列行为测量量,可以使用屏幕触摸压力、触摸点击时间、触摸移动轨迹、触摸移动速度曲线、触摸移动时间作为特征。将不同数据块中的人机交互行为特征向量组合在一起,形成用户的身份属性特征向量训练集;
(5)针对每个身份属性(用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况等属性),根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建基于加权随机森林的身份属性检测模型。以用户的性别属性检测模型为例,将带有性别标记的特征向量训练集作为模型的训练数据,将性别属性的检测视为一个二分类问题(男或女),从而构建基于人机交互行为的性别属性检测模型。
2)身份属性检测部分包括下述步骤:
(1)在用户使用计算机或智能手机等智能***的过程中,捕获当前用户的人机交互行为,以长度T(T一般可以设为30秒或更长时间)为周期,获取T内用户人机交互数据并提取行为特征,生成身份属性特征向量;
(2)将生成的身份属性特征向量作为身份属性检测模型的输入,得到用户身份属性的检测值,将该检测值与对应的身份属性模型的阈值ε(ε根据模型训练的精度进行选取,一般可设定为50%)进行比较,判别用户相应的身份属性。以用户的性别属性检测为例,将从T时间周期内提取的对应性别的身份属性向量作为已建立的性别属性检测模型的输入,得到该模型的检测值,将检测值与对应的阈值进行比较,若检测值大于阈值,则判定当前用户的性别为男性;若检测值小于阈值,则判定当前用户的性别为女性。
基于加权随机森林的身份属性检测模型
上述1)建立身份属性模型部分的第(5)步中基于加权随机森林的身份属性检测模型建立过程参见图3,具体步骤如下:
(1)初始化训练特征集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m(m远小于M);
(2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[0,1]之间;
(3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
(4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析。对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
(5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤(4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝;
(6)重复步骤(3)、(4)、(5)直到建立了全部P棵决策树;
(7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到了加权随机森林分类器的分类结果。
决策特征变量个数的选择方法、最佳的分割方式的描述
“基于加权随机森林的身份属性检测模型”的第(1)步中决策特征变量个数m的选择是指在构造每棵决策树是需从特征样本中随机选取m维特征,并在这m维特征中选取分类效果最好的特征节点。在整个随机森林的构造过程中m是一个常数,我们选取m=int(log2m+1),其中int是取整函数。
第(4)步中最佳的分割方式是指使每个节点上的分类数据尽可能来自同一类别,从而使每个节点的不纯度达到最小的分割方式(当某节点i上的分类数据全部来自于同一类别,则该节点的不纯度为0)。在每棵决策树构造的过程中,其生成遵循自顶向下的递归***原则,即从根节点开始依次对训练集进行划分。对于每个节点,按照节点不纯度最小原则,***为左节点和有节点,它们分别包含训练数据的一个子集,按照同样的规则使节点继续***,直到分支停止生长。若节点i上的分类数据均来自于同一类别,则该节点的不纯度I(i)=0。不纯度的度量方法是基于Gini不纯度准则的,即假设P(wj)是节点i上属于wj类样本个数占训练样本总数的频率,则Gini不纯度准则表示为:
基于加权多数投票的决策方法
“基于加权随机森林的身份属性检测模型”的第(7)步中基于加权的多数投票的方法是指对特征样本数目少的类别赋予更大的权值。在身份属性检测过程中,以性别信息的检测为例(2类分类问题:男或女),一个样本x经过每个决策树分类器Ti后,就会产生2个输出结果,为2个置信度值,c∈{1,2},每个置信度p(f(x)=j)表示了该样本x属于第j类的概率值,最终的判决基于所有决策树结果的加权值,如下式所示。
其中权值αi的具体计算方法为该类别的投票数乘以针对该类别的重复采样的次数,并对其进行归一化。
最后,将得到的决策值与决策阈值ε进行比较,对用户的身份属性进行判别。若F≥ε,则当前用户的性别为男性;若F<ε,则当前用户的性别为女性。其中,ε的选取可在模型训练时采用交叉验证,通过不断变化ε的取值进行调整和优化,以取得较好的模型训练结果。
根据本发明检测性别属性的步骤
第一步,定义性别属性的类别,在本实施例中将性别属性划分为2类:第一类为男性用户;第二类为女性用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的性别属性对这些行为数据块进行标记。
第三步,生成性别属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有性别属性标记的性别属性特征向量训练集;该性别属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立性别属性检测模型。将性别属性的检测问题视为2分类的问题,以性别属性对应的特征向量训练集作为训练样本,同时以每个特征向量的性别标记作为训练样本的标记,对性别属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取性别属性对应的特征向量。
第六步,生成性别属性的检测结果。将生成的性别属性对应的特征向量作为已建立的性别属性检测模型的输入,得到用户性别属性的检测值;将该检测值与决策阈值进行比较,对用户的性别属性进行判断。
根据本发明检测年龄属性的步骤
第一步,定义年龄属性的类别,在本实施例中将年龄属性划分为3类:第一类为年龄小于30岁的用户;第二类为年龄在30岁到60岁之间的用户;第三类为大于60岁的用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的年龄属性对这些行为数据块进行标记。
第三步,生成年龄属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有年龄属性标记的年龄属性特征向量训练集;该年龄属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立年龄属性检测模型。将年龄属性的检测问题视为3分类的问题,以年龄属性对应的特征向量训练集作为训练样本,同时以每个特征向量的年龄标记作为训练样本的标记,对年龄属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取年龄属性对应的特征向量。
第六步,生成年龄属性的检测结果。将生成的年龄属性对应的特征向量作为已建立的年龄属性检测模型的输入,得到用户年龄属性的检测值;将该检测值与决策阈值进行比较,对用户的年龄属性进行判断。
根据本发明检测语言属性的步骤
第一步,定义语言属性的类别,在本实施例中将语言属性划分为2类:第一类为英语为母语的用户;第二类为非英语为母语的用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的语言属性对这些行为数据块进行标记。
第三步,生成语言属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有语言属性标记的语言属性特征向量训练集;该语言属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立语言属性检测模型。将语言属性的检测问题视为2分类的问题,以语言属性对应的特征向量训练集作为训练样本,同时以每个特征向量的语言标记作为训练样本的标记,对语言属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取语言属性对应的特征向量。
第六步,生成语言属性的检测结果。将生成的语言属性对应的特征向量作为已建立的语言属性检测模型的输入,得到用户语言属性的检测值;将该检测值与决策阈值进行比较,对用户的语言属性进行判断。
根据本发明检测左右手使用习惯属性的步骤
第一步,定义左右手使用习惯属性的类别,在本实施例中将左右手使用习惯属性划分为2类:第一类为以左手为习惯操作人机交互设备的用户;第二类为以右手为习惯操作人机交互设别的用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的左右手使用习惯属性对这些行为数据块进行标记。
第三步,生成左右手使用习惯属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有左右手使用习惯属性标记的左右手使用习惯属性特征向量训练集;该左右手使用习惯属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立左右手使用习惯属性检测模型。将左右手使用习惯属性的检测问题视为2分类的问题,以左右手使用习惯属性对应的特征向量训练集作为训练样本,同时以每个特征向量的左右手使用习惯标记作为训练样本的标记,对左右手使用习惯属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取左右手使用习惯属性对应的特征向量。
第六步,生成左右手使用习惯属性的检测结果。将生成的左右手使用习惯属性对应的特征向量作为已建立的左右手使用习惯属性检测模型的输入,得到用户左右手使用习惯属性的检测值;将该检测值与决策阈值进行比较,对用户的左右手使用习惯属性进行判断。
根据本发明检测文化程度属性的步骤
第一步,定义文化程度属性的类别,在本实施例中将文化程度属性划分为3类:第一类为文化程度在小学及以下的用户;第二类为文化程度在初中到高中的用户;第三类为文化程度在大学及以上的用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的文化程度属性对这些行为数据块进行标记。
第三步,生成文化程度属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有文化程度属性标记的文化程度属性特征向量训练集;该文化程度属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立文化程度属性检测模型。将文化程度属性的检测问题视为3分类的问题,以文化程度属性对应的特征向量训练集作为训练样本,同时以每个特征向量的文化程度标记作为训练样本的标记,对文化程度属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取文化程度属性对应的特征向量。
第六步,生成文化程度属性的检测结果。将生成的文化程度属性对应的特征向量作为已建立的文化程度属性检测模型的输入,得到用户文化程度属性的检测值;将该检测值与决策阈值进行比较,对用户的文化程度属性进行判断。
根据本发明检测计算机使用熟练程度属性的步骤
第一步,定义计算机使用熟练程度属性的类别,在本实施例中将计算机使用熟练程度属性划分为3类:第一类为非常不熟练的用户(没有相应人机交互设备使用经历);第二类为一般熟练的用户(使用相应人机交互设备在1个月到3个月之间);第三类为非常熟练的用户(使用相应人机交互设备超过3个月)。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的计算机使用熟练程度属性对这些行为数据块进行标记。
第三步,生成计算机使用熟练程度属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有计算机使用熟练程度属性标记的计算机使用熟练程度属性特征向量训练集;该计算机使用熟练程度属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立计算机使用熟练程度属性检测模型。将计算机使用熟练程度属性的检测问题视为3分类的问题,以计算机使用熟练程度属性对应的特征向量训练集作为训练样本,同时以每个特征向量的计算机使用熟练程度标记作为训练样本的标记,对计算机使用熟练程度属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取计算机使用熟练程度属性对应的特征向量。
第六步,生成计算机使用熟练程度属性的检测结果。将生成的计算机使用熟练程度属性对应的特征向量作为已建立的计算机使用熟练程度属性检测模型的输入,得到用户计算机使用熟练程度属性的检测值;将该检测值与决策阈值进行比较,对用户的计算机使用熟练程度属性进行判断。
根据本发明检测职业属性的步骤
第一步,定义职业属性的类别,在本实施例中将职业属性划分为2类:第一类为计算机从业的用户;第二类为非计算机从业的用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的职业属性对这些行为数据块进行标记。
第三步,生成职业属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有职业属性标记的职业属性特征向量训练集;该职业属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立职业属性检测模型。将职业属性的检测问题视为2分类的问题,以职业属性对应的特征向量训练集作为训练样本,同时以每个特征向量的标记作为训练样本的标记,对职业属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取职业属性对应的特征向量。
第六步,生成职业属性的检测结果。将生成的职业属性对应的特征向量作为已建立的职业属性检测模型的输入,得到用户职业属性的检测值;将该检测值与决策阈值进行比较,对用户的职业属性进行判断。
根据本发明检测手指健康属性的步骤
第一步,定义手指健康属性的类别,在本实施例中将手指健康属性划分为2类:第一类为手指健康的用户;第二类为手指非健康的用户。
第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的手指健康属性对这些行为数据块进行标记。
第三步,生成手指健康属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有手指健康属性标记的手指健康属性特征向量训练集;该手指健康属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
第四步,建立手指健康属性检测模型。将手指健康属性的检测问题视为2分类的问题,以手指健康属性对应的特征向量训练集作为训练样本,同时以每个特征向量的标记作为训练样本的标记,对手指健康属性构建基于加权随机森林的身份属性检测模型。
第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取手指健康属性对应的特征向量。
第六步,生成手指健康属性的检测结果。将生成的手指健康属性对应的特征向量作为已建立的手指健康属性检测模型的输入,得到用户手指健康属性的检测值;将该检测值与决策阈值进行比较,对用户的手指健康属性进行判断。
关于实施例中身份属性类别设定的说明
在实施例中的身份属性类别设定,仅作为本发明内容的一种实施方案。实际应用中可以有其他的身份属性类别设定方案。如年龄属性也可以根据需要划分为4类:第一类为年龄小于15岁的用户;第二类为年龄在15-30岁之间的用户;第三类为大于30-50岁的用户,第四类为大于50岁的用户。此时只需要在建立身份属性检测模型过程中使用相同的类别设定,即可使用本发明所述的方法。
根据本发明检测部分身份属性的实验结果
通过收集58名用户的鼠标行为数据及51名用户的击键行为数据建立人机交互行为数据集。通过实验对本发明提出的方法与技术进行验证。表1列出了身份属性信息的检测结果。
表1.身份属性信息检测的统计结果。
*:上栏表示使用键盘行为进行性别检测的结果,下栏表示使用鼠标行为进行性别检测的结果。
如表1及图4的实验结果所示,本发明提出的方法能够准确地对用户的身份属性信息进行检测。当利用人机交互信息对用户身份属性信息进行检测时,准确率均高于85%。当利用键盘交互数据对用户的种族信息进行检测时,相关的准确率为87.32%。该结果验证了本发明所提出方法的可行性,表明该方法可为计算机及移动网络用户信息感知分析提供一种有效的技术手段。

Claims (4)

1.一种基于人机交互行为特征的用户身份属性检测方法,其特征在于,包括建立身份属性模型和检测身份属性两个部分:
(1)建立身份属性模型,包括下述步骤:
第一步,在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据;
第二步,针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
第三步,以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
第四步,针对每个标记的数据块,提取并标记人机交互行为特征向量,将不同数据块中的人机交互行为特征向量组合形成用户的身份属性特征向量训练集;
第五步,针对每种身份属性,根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建身份属性模型;
(2)检测身份属性,包括下述步骤:
第一步,用户登入计算机或智能手机后,捕获当前用户的人机交互行为,以长度T为周期,获取T内用户人机交互行为数据并提取对应的人机交互行为特征向量,进而生成对应每个身份属性的特征向量;
第二步,对当前用户的身份属性进行检测:将生成的身份属性特征向量作为已建立的身份属性推测模型的输入,得到用户身份属性的检测值,对用户的身份属性进行判断;
所述建立身份属性模型由一种或多种分类器联合实现,所述分类器包括加权随机森林分类器、人工神经网络分类器、支持向量机分类器;
由加权随机森林分类器建立身份属性模型的具体步骤为:
1)初始化训练样本集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m,m远小于M;
2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[0,1]之间;
3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析,对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝;
6)重复步骤3)、4)、5)直到建立了全部P棵决策树;
7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到加权随机森林分类器的分类结果。
2.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述建立身份属性模型部分第四步中形成用户的身份属性特征向量训练集的具体步骤如下:
第一步,在观测时间长度为T的人机交互行为数据块中,遍历人机交互事件序列,依次分离出不同类型的交互行为事件,包括鼠标交互行为事件、击键交互行为事件、触摸交互行为事件;
第二步,针对不同类型的交互行为事件,提取交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量;
第三步,将不同数据块中的人机交互行为特征向量组合在一起,形成身份属性特征向量训练集。
3.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述计算机或智能手机用户产生的人机交互行为数据为基本人机交互事件组成的序列,基本人机交互事件的格式为:{交互时间戳,交互屏幕位置,包括鼠标、键盘、或触摸板的交互设备类型,交互事件类型}。
4.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述身份属性是指计算机及智能手机用户所固有的生理或行为特性,包括用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况。
CN201310454565.2A 2013-09-27 2013-09-27 基于人机交互行为特征的用户身份属性检测方法 Active CN103530540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310454565.2A CN103530540B (zh) 2013-09-27 2013-09-27 基于人机交互行为特征的用户身份属性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310454565.2A CN103530540B (zh) 2013-09-27 2013-09-27 基于人机交互行为特征的用户身份属性检测方法

Publications (2)

Publication Number Publication Date
CN103530540A CN103530540A (zh) 2014-01-22
CN103530540B true CN103530540B (zh) 2017-02-22

Family

ID=49932544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310454565.2A Active CN103530540B (zh) 2013-09-27 2013-09-27 基于人机交互行为特征的用户身份属性检测方法

Country Status (1)

Country Link
CN (1) CN103530540B (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870547A (zh) * 2014-02-26 2014-06-18 华为技术有限公司 联系人的分组处理方法及装置
CN103942489A (zh) * 2014-03-31 2014-07-23 中国科学院信息工程研究所 一种基于光标隐藏场景的攻击检测方法及***
CN103927467A (zh) * 2014-04-25 2014-07-16 武汉大学 一种基于触屏行为的智能手机认证***及方法
CN105279691A (zh) * 2014-07-25 2016-01-27 ***股份有限公司 基于随机森林模型的金融交易检测方法和设备
CN104239761B (zh) * 2014-09-15 2017-06-27 西安交通大学 基于触屏滑动行为特征的身份持续认证方法
CN104537252B (zh) * 2015-01-05 2019-09-17 深圳市腾讯计算机***有限公司 用户状态单分类模型训练方法和装置
CN104778387B (zh) * 2015-04-23 2017-12-08 西安交通大学 基于人机交互行为的跨平台身份认证***及方法
CN104809377B (zh) * 2015-04-29 2018-01-05 西安交通大学 基于网页输入行为特征的网络用户身份监控方法
CN104951544A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 用户数据处理方法、用户数据的提供方法和***
CN105306496B (zh) * 2015-12-02 2020-04-14 中国科学院软件研究所 用户身份检测方法和***
CN105607741B (zh) * 2015-12-31 2019-01-15 联想(北京)有限公司 一种控制方法及电子设备
RU2626337C1 (ru) * 2016-02-18 2017-07-26 Акционерное общество "Лаборатория Касперского" Способ обнаружения мошеннической активности на устройстве пользователя
CN105760516A (zh) * 2016-02-25 2016-07-13 广州视源电子科技股份有限公司 区分用户的方法及区分用户的装置
EP3449435A4 (en) 2016-04-27 2019-03-06 Beijing Didi Infinity Technology and Development Co., Ltd. SYSTEM AND METHOD FOR DETERMINING ROUTES OF A TRANSPORT SERVICE
CN107798446A (zh) * 2016-09-07 2018-03-13 北京嘀嘀无限科技发展有限公司 富矿路线的评测处理方法及装置
CN107451437B (zh) * 2016-05-31 2021-04-16 百度在线网络技术(北京)有限公司 一种移动终端的锁定方法及装置
CN106095915A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 用户身份的处理方法及装置
CN106156591A (zh) * 2016-07-12 2016-11-23 中国科学技术大学苏州研究院 一种云环境下的智能手机用户透明认证方法
CN106371750A (zh) * 2016-08-30 2017-02-01 北京奇艺世纪科技有限公司 一种用户性别的确定方法及装置
CN106503499A (zh) * 2016-09-22 2017-03-15 天津大学 基于机器学习的智能手机触摸屏输入识别方法
CN106572097B (zh) * 2016-11-01 2019-07-09 南京邮电大学 一种基于移动设备的混合式身份认证方法
CN106856015B (zh) * 2016-12-20 2019-08-16 国网山东省电力公司东明县供电公司 一种考勤方法及装置
CN106503722B (zh) * 2016-12-21 2019-09-24 湖南文理学院 基于触控轨迹图像处理的操作者年龄判定方法
CN107194216A (zh) * 2017-05-05 2017-09-22 中南大学 一种基于用户划屏习惯的移动身份认证方法及***
CN107026928A (zh) * 2017-05-24 2017-08-08 武汉大学 一种基于手机传感器的行为特征识别认证方法及装置
CN107623715B (zh) * 2017-08-08 2020-06-09 阿里巴巴集团控股有限公司 一种身份信息获取方法和装置
CN107688827A (zh) * 2017-08-24 2018-02-13 西安交通大学 一种基于用户日常行为特征的用户身份属性预测方法
CN107644106B (zh) * 2017-10-17 2020-10-09 厦门市美亚柏科信息股份有限公司 自动挖掘业务中间人的方法、终端设备及存储介质
CN110020155A (zh) 2017-12-06 2019-07-16 广东欧珀移动通信有限公司 用户性别识别方法及装置
CN109948633A (zh) * 2017-12-20 2019-06-28 广东欧珀移动通信有限公司 用户性别预测方法、装置、存储介质及电子设备
CN109961077A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN108090216B (zh) * 2017-12-29 2021-02-05 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质
CN108600258A (zh) * 2018-05-09 2018-09-28 华东师范大学 一种面向综合电子***自生成白名单的安全审计方法
CN109067970A (zh) * 2018-06-27 2018-12-21 上海擎感智能科技有限公司 基于车载仪表屏的智能手机显示方法及***、车载终端
CN109145544A (zh) * 2018-09-05 2019-01-04 郑州云海信息技术有限公司 一种人机行为检测***及方法
CN111147431B (zh) * 2018-11-06 2022-06-07 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN109583161B (zh) * 2018-11-27 2021-08-06 咪咕文化科技有限公司 一种信息处理方法及装置、存储介质
CN110110766B (zh) * 2019-04-23 2021-08-13 西安交通大学 一种基于运动规划控制特征的在线性格分析方法及装置
CN110363283B (zh) * 2019-06-06 2021-06-22 哈尔滨工业大学(深圳) 基于深度学习的用户属性预测方法及相关装置
CN110347928A (zh) * 2019-07-16 2019-10-18 韶关市启之信息技术有限公司 一种个性化信息推荐方法与***
CN111047332B (zh) * 2019-11-13 2021-05-07 支付宝(杭州)信息技术有限公司 模型训练和风险识别方法、装置及设备
CN111046374A (zh) * 2019-11-26 2020-04-21 山东浪潮人工智能研究院有限公司 一种基于机器学习的提高用户密码安全性的方法及***
CN111104301B (zh) * 2019-12-03 2021-08-20 深圳市联谛信息无障碍有限责任公司 一种在网页中判断障碍用户的方法和***
CN111488519A (zh) * 2020-03-02 2020-08-04 深圳壹账通智能科技有限公司 用户性别识别的方法、装置、电子设备及存储介质
WO2021243534A1 (zh) * 2020-06-02 2021-12-09 深圳市欢太科技有限公司 一种行为控制方法及装置、存储介质
KR102658823B1 (ko) * 2020-06-25 2024-04-19 구글 엘엘씨 비정상적인 사용자 인터페이스 입력 겸출
CN115035590A (zh) * 2022-04-26 2022-09-09 北京市农林科学院信息技术研究中心 种牛状态的检测方法、装置及***
CN115081334A (zh) * 2022-06-30 2022-09-20 支付宝(杭州)信息技术有限公司 用于预测用户的年龄段或性别的方法、***、装置和介质
CN116418587B (zh) * 2023-04-19 2024-04-30 中国电子科技集团公司第三十研究所 一种数据跨域交换行为审计追踪方法和数据跨域交换***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于击键特征的手机用户身份认证***;张明烁 等;《软件开发与设计》;20091130;第2009年卷(第22期);第39-40、58页 *
基于击键特征的用户身份认证新方法;朱明 等;《计算机工程》;20021031;第28卷(第10期);第138-139、142页 *
基于鼠标动力学模型的用户身份认证与监控;房超 等;《西安交通大学学报》;20081031;第42卷(第10期);第1235-1239页 *
基于鼠标行为特征的用户身份认证与监控;沈超 等;《通信学报》;20100731;第31卷(第7期);第68-75页 *

Also Published As

Publication number Publication date
CN103530540A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103530540B (zh) 基于人机交互行为特征的用户身份属性检测方法
Shi et al. Detecting malicious social bots based on clickstream sequences
CN104809377B (zh) 基于网页输入行为特征的网络用户身份监控方法
Feng et al. Comparison of advanced imputation algorithms for detection of transportation mode and activity episode using GPS data
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别***
CN104504404B (zh) 一种基于视觉行为的网上用户类型识别方法及***
CN110413707A (zh) 互联网中欺诈团伙关系的挖掘与排查方法及其***
CN107577682A (zh) 基于社交图片的用户兴趣挖掘和用户推荐方法及***
CN110110663A (zh) 一种基于人脸属性的年龄识别方法及***
CN109376613A (zh) 基于大数据和深度学习技术的视频智能监控***
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN113706251B (zh) 基于模型的商品推荐方法、装置、计算机设备和存储介质
CN105337987A (zh) 一种网络用户身份认证方法及***
CN109726747A (zh) 基于社交网络推荐平台的数据融合排序方法
Zou et al. A novel network security algorithm based on improved support vector machine from smart city perspective
CN107885857B (zh) 一种搜索结果页用户行为模式挖掘方法、装置及***
CN107220745A (zh) 一种意图行为数据的识别方法、***及设备
Wang et al. Data acquisition model for online learning activity in distance English teaching based on xAPI
CN103440328A (zh) 一种基于鼠标行为的用户分类方法
CN107247656A (zh) 一种机考中记录并统计考生鼠标行为的方法及***
CN106780258A (zh) 一种未成年人犯罪决策树的建立方法及装置
CN116401311B (zh) 一种基于gis的三维可视化数据管理***及方法
KR20150083165A (ko) 시간의 흐름에 따른 오피니언 분석 시스템 및 방법
CN106066993A (zh) 一种人群语义分割方法及***
CN109446394A (zh) 针对网络舆情事件的基于模块化的舆情监测方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant