CN109933741A

CN109933741A - 用户网络行为特征提取方法、装置及存储介质

Info

Publication number: CN109933741A
Application number: CN201910144110.8A
Authority: CN
Inventors: 李娴; 程建波; 彭南博; 黄志翔
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-25
Anticipated expiration: 2039-02-27
Also published as: CN109933741B

Abstract

本发明提出用户网络行为特征提取方法。方法包括：采集各用户的网络点击序列；对于每个用户，进行如下迭代计算过程，直至满足迭代终止条件：根据该用户的网络点击序列，计算本次迭代过程中该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率；计算本次迭代过程中该用户的初始状态为每个状态的概率以及该用户从第一状态跳转到第二状态的统计概率，计算本次迭代过程中每个用户在每个状态为每个行为表现的统计概率；对于每个用户，将迭代终止时的该用户从第一状态跳转到第二状态的统计概率作为该用户的网络行为特征。本发明实现了用户级的网络行为特征提取。

Description

用户网络行为特征提取方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及用户网络行为特征提取方法、装置及存储介质和电子设备。

背景技术

随着互联网计算的快速发展，人们的日常生活中所产生的数据不仅越来越多，而且数据类型越来越丰富。其中，以时间序列数据为代表的数据形式覆盖率最为广泛，比如用户在手机上浏览APP(应用)的点击序列数据等等。在广泛的人工智能和机器学习的应用场景中，如何有效地结合时间序列数据以提高模型效果，具有很大的应用需求和研究意义。不同于传统的独立同分布数据，时间序列数据刻画了用户随时间变化的行为习惯的特征，为了捕捉该特征，现有的技术包括基于序列相似性的方法和基于局部特征提取的方法两大类：

一、基于局部特征提取的方法直接刻画时序数据的特征，以反映数据的局部结构特性。其中，N-gram模型以数据中有序的N个实体为一个局部结构单元，然后通过统计一条数据中不同单元的出现次数为该数据的特征向量；而基于RNN(Recurrent NeuralNetwork，循环神经网络)模型的深度学习方法(比如LSTM(Long Short Term MemoryNetwork，长短时记忆网络)， GRU(Gated Recurrent Unit，门循环单元)等等)通过刻画序列中每一个实体的前后关系，从而在隐空间下找到序列数据的特征表示。

二、基于序列相似性的方法并不直接刻画时序数据的特征。它旨在刻画任意两条时序数据之间的相似性关系，并将其融入到建模过程中，其中以字符串核(Stringkernel)，编辑距离和动态时间规整算法(DTW)为代表。

上述两类方法的缺点如下：

一、基于局部特征提取的方法直接刻画时序数据的特征，以反映数据的局部结构特性，尽管N-gram模型实现简单，但是它所提取的特征并不具备连续空间中的语义性，同时也难以处理全局序列信息。而基于RNN的方法由于模型复杂，从而计算开销巨大；其中，RNN模型由于梯度消失的问题难以学习到时序数据中的长距离信息，而其改进模型LSTM和GRU训练难度大，最后，对于序列长短差异大的数据，更是加大了基于RNN的模型的训练难度。

另外，基于对用户一段时间内的浏览日志记录进行观测，分析用户点击序列长度的分布，如图1和图2所示，图1为基于对用户一段时间内的浏览日志记录进行观测得到的用户点击序列长度分布图，其中，横轴表示点击序列长度，纵轴左边的0.00％～2.00％表示横轴上各不同长度的点击序列的数目分别占总点击序列数目的百分比，纵轴右边的0％～100％表示对于横轴上各不同的点击序列长度，长度大于或等于横轴上该长度的点击序列的数目占总点击序列数目的百分比，例如：对于横轴上的点击序列长度5，观测到的所有点击序列的长度都等于或大于5了，因此，其纵轴对应的百分比就为100％；图2为基于对用户一段时间内的浏览日志记录进行观测得到的长度小于200 的用户点击序列长度分布图，其中，横轴表示点击序列长度，纵轴左边的 0.00％～2.00％表示横轴上各不同长度的点击序列的数目分别占总点击序列数目的百分比，纵轴右边的0％～100％表示对于横轴上各不同的点击序列长度，长度大于或等于横轴上该长度的点击序列的数目占总点击序列数目的百分比，例如：对于横轴上的点击序列长度5，所有点击序列的长度都等于或大于5了，因此，其纵轴对应的百分比就为100％。可以看出，用户的点击序列长度通常成长尾分布，点击序列长的人数占比非常的小，大多数的用户不会具有过大的点击序列。序列长度大于47的比例覆盖了约总人数的60％。另外，对于该长尾分布的训练数据，基于RNN的模型难以训练：它的常用方法有两种，一种是用最大序列长度为RNN单元个数，对未达到最大序列长度的序列添加终止序列标志，如“0”，以补齐序列长度(比如，最大序列长度为1000，则需要为长度为10的序列加上990个“0”)。由于长尾数据的效果，长度大的数据量很少，这意味着模型不能很好的学习到过长的序列信息；另一种方法将则采用截断的方式，将长序列截断成等长序列(比如，将长度为1000的序列分成100个长度为10的序列，对长度不足10的短序列进行补齐)，然后用等长序列进行模型训练，但是序列数据的整体信息已经遭到了损坏。可以看出，基于RNN的模型并不能很好的处理长尾序列数据。

二、基于序列相似性的方法旨在刻画任意两条时序数据之间的相似性关系。但是这类方法并不能刻画出每条序列数据的特征，并且其使用场景也具有较大的局限性。

三、最后，以上两大类方法皆着眼于整体数据，将所有的用户数据作为一个统计的整体来建模，并没有刻画和提取用户级特定的特征，忽略了数据个体的特性；另一方面，现有的方法都难以刻画全局的序列信息，往往限制在局部结构特征，或者局部的统计性特征，不能反映数据全序列的信息。因此，现有的方法难以针对丰富的用户时序行为进行建模，从而限制了时序数据模型的最终效果。

发明内容

本发明实施例提出用户网络行为特征提取方法、装置及存储介质和电子设备，以实现用户级的网络行为特征提取。

本发明的技术方案是这样实现的：

一种用户网络行为特征提取方法，该方法包括：

采集并记录各用户的网络点击序列，每个用户的网络点击序列中的每个要素对应该用户访问网络时的一次点击行为，每个要素包括两个参数：状态和行为表现，其中，状态以该用户访问的网页标识表示，行为表现以该用户点击的按钮标签表示；

对于每个用户，进行如下迭代计算过程，直至满足迭代终止条件：

根据该用户的网络点击序列，该用户在上一次迭代过程中得到的该用户的初始状态为每个状态的概率、该用户从第一状态跳转到第二状态的统计概率以及每个用户在每个状态为每个行为表现的统计概率，计算本次迭代过程中该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，其中，第一状态和第二状态为任一状态；

根据本次迭代过程中得到的该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，计算本次迭代过程中该用户的初始状态为每个状态的概率以及该用户从第一状态跳转到第二状态的统计概率，根据本次迭代过程中得到的所有用户在每个行为表现下处于每个状态的概率，计算本次迭代过程中每个用户在每个状态为每个行为表现的统计概率；

对于每个用户，将迭代终止时的该用户从第一状态跳转到第二状态的统计概率作为该用户的网络行为特征。

所述计算该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率之前进一步包括：

初始化迭代次数g＝0，初始化共享观测状态概率矩阵B，对于任一用户i，初始化该用户的初始状态概率向量α⁽ⁱ⁾和状态跳转概率矩阵A⁽ⁱ⁾，其中，B描述每个用户在每个状态为每个行为表现的统计概率，α⁽ⁱ⁾描述用户i的初始状态为每个状态的概率，A⁽ⁱ⁾描述用户i从第一状态跳转到第二状态的统计概率。

所述初始化共享观测状态概率矩阵B为：

采用随机数产生器初始化B中的每个元素，随机数的取值范围为[0,1]；

初始化该用户的初始状态概率向量α⁽ⁱ⁾和状态跳转概率矩阵A⁽ⁱ⁾为：

采用随机数产生器初始化α⁽ⁱ⁾和A⁽ⁱ⁾中的每个元素，随机数的取值范围为 [0,1]。

所述计算该用户的初始状态为每个状态的概率包括：

其中，g+1为本次迭代过程的序号；N为状态的总数，zn表示第n个状态；表示本次迭代过程中用户i的初始状态为zn的概率；表示在由前一次迭代过程计算出的得到 Y(i)的前提下，本次迭代过程中用户i的初始状态为zn的概率。

所述计算该用户从第一状态跳转到第二状态的统计概率包括：

其中，g+1为本次迭代过程的序号；N为状态的总数，zp、zq分别表示第p、q个状态；T_i为该用户的网络点击序列Y(i)的长度；A^(g+1)(i)(zp,zq)表示本次迭代过程中，用户i从状态p跳转到状态q的统计概率；表示在由前一次迭代过程计算出的得到Y(i)的前提下，本次迭代过程中用户在时刻t的状态为zp的概率；表示在由前一次迭代过程计算出的得到Y(i)的前提下，本次迭代过程中用户在时刻t从状态zp跳转到zq的概率。

所述计算每个用户在每个状态为每个行为表现的统计概率包括：

其中，g+1为本次迭代过程的序号；T_i为该用户的网络点击序列Y(i)的长度；I为用户的总数；N为状态的总数，zn表示第n个状态；M为行为表现的类型总数，xm表示第m类行为表现；表示本次迭代过程中，每个用户在任一状态zn下行为表现为xm的概率；表示在由前一次迭代过程计算出的得到Y(i)的前提下，本次迭代过程中用户i在时刻t的状态为zn的概率；当用户i在时刻t的行为表现为xm时，否则，

所述采集并记录各用户的网络点击序列Y(i)包括：

根据预先设定的多个用户网络行为类别，分别针对每个类别采集该类别下多个用户的网络点击序列Y(i)；

所述对于每个用户，将迭代终止时的该用户从第一状态跳转到第二状态的统计概率作为该用户的网络行为特征之后进一步包括：

根据所有类别下的所有用户的网络行为特征，学习得到用户网络行为判定模型，该模型的输入为用户的网络行为特征，该模型的输出为用户网络行为类别。

一种用户网络行为特征提取装置，该装置包括：

网络点击序列采集模块，采集并记录各用户的网络点击序列，每个用户的网络点击序列中的每个要素对应该用户访问网络时的一次点击行为，每个要素包括两个参数：状态和行为表现，其中，状态以该用户访问的网页标识表示，行为表现以该用户点击的按钮标签表示；

特征提取模块，对于每个用户，进行如下迭代计算过程，直至满足迭代终止条件：根据该用户的网络点击序列，该用户在上一次迭代过程中得到的该用户的初始状态为每个状态的概率、该用户从第一状态跳转到第二状态的统计概率以及每个用户在每个状态为每个行为表现的统计概率，计算本次迭代过程中该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，其中，第一状态和第二状态为任一状态；根据本次迭代过程中得到的该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，计算本次迭代过程中该用户的初始状态为每个状态的概率以及该用户从第一状态跳转到第二状态的统计概率，根据本次迭代过程中得到的所有用户在每个行为表现下处于每个状态的概率，计算本次迭代过程中每个用户在每个状态为每个行为表现的统计概率；对于每个用户，将迭代终止时的该用户从第一状态跳转到第二状态的统计概率作为该用户的网络行为特征。

所述特征提取模块计算该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率之前进一步包括：

所述特征提取模块初始化共享观测状态概率矩阵B为：

所述特征提取模块计算该用户的初始状态为每个状态的概率包括：

所述特征提取模块计算该用户从第一状态跳转到第二状态的统计概率包括：

所述特征提取模块计算每个用户在每个状态为每个行为表现的统计概率包括：

所述网络点击序列采集模块采集并记录各用户的网络点击序列包括：

根据预先设定的多个用户网络行为类别，分别针对每个类别采集该类别下多个用户的网络点击序列；

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的用户网络行为特征提取方法的步骤。

一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

本发明实施例实现了用户级的网络行为特征提取。

附图说明

图1为基于对用户一段时间内的浏览日志记录进行观测得到的用户点击序列长度分布图；

图2为基于对用户一段时间内的浏览日志记录进行观测得到的用户点击序列长度小于200的分布图；

图3为本发明一实施例提供的用户网络行为特征提取方法流程图；

图4为本发明另一实施例提供的用户网络行为特征提取方法流程图；

图5为隐马尔可夫状态转移示例图；

图6为本发明实施例提供的特征整合示例图；

图7为本发明应用示例中提取的用户网络行为特征区分效果示意图；

图8为本发明实施例提供的用户网络行为特征提取装置的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图3为本发明一实施例提供的用户网络行为特征提取方法流程图，其具体步骤如下：

步骤301：采集并记录各用户的网络点击序列，每个用户的网络点击序列中的每个要素对应该用户访问网络时的一次点击行为，每个要素包括两个参数：状态和行为表现，其中，状态以该用户访问的网页标识表示，行为表现以该用户点击的按钮标签表示。

步骤302：对于每个用户，进行如步骤303-304的迭代计算过程，直至满足迭代终止条件。

步骤303：根据该用户的网络点击序列，该用户在上一次迭代过程中得到的该用户的初始状态为每个状态的概率、该用户从第一状态跳转到第二状态的统计概率以及每个用户在每个状态为每个行为表现的统计概率，计算本次迭代过程中该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，其中，第一状态和第二状态为任一状态。

步骤304：根据本次迭代过程中得到的该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，计算本次迭代过程中该用户的初始状态为每个状态的概率以及该用户从第一状态跳转到第二状态的统计概率，根据本次迭代过程中得到的所有用户在每个行为表现下处于每个状态的概率，计算本次迭代过程中每个用户在每个状态为每个行为表现的统计概率。

步骤305：对于每个用户，将迭代终止时的该用户从第一状态跳转到第二状态的统计概率作为该用户的网络行为特征。

在实际应用中，步骤302和303之间可包括：

在实际应用中，初始化共享观测状态概率矩阵B可为：采用随机数产生器初始化B中的每个元素，随机数的取值范围为[0,1]；

初始化该用户的初始状态概率向量α⁽ⁱ⁾和状态跳转概率矩阵A⁽ⁱ⁾可为：采用随机数产生器初始化α⁽ⁱ⁾和A⁽ⁱ⁾中的每个元素，随机数的取值范围为[0,1]。

在实际应用中，步骤304中，计算该用户的初始状态为每个状态的概率包括：

其中，g+1为本次迭代过程的序号；N为状态的总数，zn表示第n个状态；表示本次迭代过程中用户i的初始状态为zn的概率；表示在由前一次迭代过程计算出的得到Y(i)的前提下，本次迭代过程中用户i的初始状态为zn的概率。

在实际应用中，步骤304中，计算该用户从第一状态跳转到第二状态的统计概率可包括：

其中，g+1为本次迭代过程的序号；N为状态的总数，zp、zq分别表示第p、q个状态；T_i为该用户的网络点击序列Y(i)的长度，i为该用户的序号； A^(g+1)(i)(zp,zq)表示本次迭代过程中，用户i从状态p跳转到状态q的统计概率；表示在由前一次迭代过程计算出的得到 Y(i)的前提下，本次迭代过程中用户在时刻t的状态为zp的概率；表示在由前一次迭代过程计算出的得到Y(i)的前提下，本次迭代过程中用户在时刻t从状态zp跳转到zq的概率。

在实际应用中，步骤304中，计算每个用户在每个状态为每个行为表现的统计概率包括：

其中，g+1为本次迭代过程的序号；T_i为Y(i)的长度；I为用户的总数； N为状态的总数，zn表示第n个状态；M为行为表现的类型总数，xm表示第m类行为表现；表示本次迭代过程中，每个用户在任一状态zn 下行为表现为xm的概率；表示在由前一次迭代过程计算出的得到Y(i)的前提下，本次迭代过程中用户i在时刻t的状态为zn的概率；当用户i在时刻t的行为表现为xm时，否则，

在实际应用中，步骤301中，采集并记录各用户的网络点击序列Y(i)包括：

步骤305之后进一步包括：根据所有类别下的所有用户的网络行为特征，学习得到用户网络行为判定模型，该模型的输入为用户的网络行为特征，该模型的输出为用户网络行为类别。

图4为本发明另一实施例提供的用户网络行为特征提取方法流程图，其具体步骤如下：

步骤401：在预设时长内采集并记录每个用户i的网络点击序列Y(i)，该点击序列Y(i)中的每个要素对应一次点击行为，每个要素包括两个参数：状态和行为表现，其中，状态以用户访问的网页标识(如：网页地址)表示，行为表现以用户点击的按钮标签表示，如：若用户点击了“收藏”按钮，则行为表现就是收藏，若用户点击了“下一页”，则行为表现就是下一页。其中，i为用户序号，i＝1、2、3、4、5、...、I，I为用户的总数。

随着互联网的普及，大量的电商数据不断产生。这些随时间不断变化的数据包含了用户的浏览偏好和点击习惯等等极具价值的信息。考虑到这种流式数据的不断演化的特点(即概念漂移现象)，当用户申请一项新业务时，在决定是否给予该用户的业务授权时，该用户最近一段时间如：半年内的浏览记录和点击序列信息最具有研究价值，最能体现用户当前状态下的行为习惯偏好。由于每个用户的行为习惯是不一样的，这体现在用户在同一个网址页面的停留时间，点击偏好是不一样的，从而用户的点击序列也就不一样。此外，用户在不同页面内也会产生不同的行为表现，包括购买，收藏，加入购物车等等。如果两个用户的浏览序列相似，那么可以认为这两个用户的习惯偏好是相似的。因此，从海量的用户浏览日志中提取信息是具有价值的。

在采集到用户的网络点击序列Y(i)后，可对Y(i)进行预处理，例如：去除无效的要素如：点击内容为空的要素。另外，对可能由于程序导致的无效跳转行为也要进行过滤。

步骤402：初始化所有用户的共享观测状态概率矩阵B，初始化迭代次数g＝0，设定迭代终止条件。

共享观测状态概率矩阵B描述每个用户在每一状态下为每一行为表现的概率。共享观测状态概率矩阵B对于所有用户来说是相同的，即B为所有用户共享。例如：

设对于某个APP，该APP的网页共有N页，则每个用户在访问该APP 时对应的状态共N个，设该APP上的点击按钮的类型共有M种，即每个用户在每一状态zn下的行为表现最多为M个，则B可表示为：

其中，p_zp,xr(1≤p≤N,1≤r≤M)为用户在状态p时行为表现为r的概率，即用户在访问网页p时点击按钮r的概率。

可采用生成随机数的方式初始化B中的每个元素，随机数的取值范围为 [0,1]。

迭代终止条件可以包括：

一、迭代次数达到最大迭代次数；

二、最近两次迭代过程中的B、α⁽ⁱ⁾和A⁽ⁱ⁾的差值的二范数分别小于对应的预设阈值。

满足如上两个条件中的一个，迭代就终止。

这里的迭代终止条件是适用于所有用户的。

步骤403：对于每个用户i，并行执行如下步骤404-408：

步骤404：初始化该用户的初始状态概率向量α⁽ⁱ⁾和状态跳转概率矩阵 A⁽ⁱ⁾。

其中，初始状态概率向量α⁽ⁱ⁾描述用户i的初始状态为各个状态的概率。例如：

设对于某个应用(APP)，该APP的网页共有n页，则对于用户i，该用户i在访问该APP时对应的状态共N个，则α⁽ⁱ⁾可表示为：

α⁽ⁱ⁾＝[p_z1,p_z2,...,p_zN]，其中，p_zn(1≤n≤N)为用户在访问该APP时初始状态为zn的概率，即用户在访问该APP时初始访问网页为网页n的概率。

状态跳转概率矩阵A⁽ⁱ⁾描述用户i在任一时刻t从一个状态跳转到另一个状态的概率。例如：

设对于某个APP，该APP的网页共有N页，则用户在访问该APP时对应的状态共N个，则该用户在任一时刻t的A⁽ⁱ⁾可表示为：

其中，p_zp,zq(1≤p≤N,1≤q≤N)为用户在时刻t从状态p跳转到状态q 的概率，即用户在时刻t从网页p跳转到网页q的概率。其中，本发明实施例中，时刻t指的是用户的第t个点击动作，时刻t对应点击序列Y(i)中的第 t个要素。

可采用生成随机数的方式初始化α⁽ⁱ⁾和A⁽ⁱ⁾中的每个元素，随机数的取值范围为[0,1]。

图5是隐马尔可夫状态转移示例图。用虚线来表示状态之间的相互转化，这一状态转换图来源于对用户的浏览点击日志分析所得。假设某用户的浏览点击序列如图5(下)所示，其序列不断在三个状态(或者说三个页面)之间跳转，则可以得到如图5(上)所示的状态转移图。

步骤405：采用前向后向算法，根据该用户i的网络点击序列Y(i)以及前一次迭代过程得到的α^g(i)、A^g(i)和B^g，计算本次迭代过程中的和t＝1,2,…,T_i，n,p,q＝1,2,…,N。

其中，g表示上一次迭代过程的序号(g＝1,2,3,…)，g+1表示本次迭代过程的序号；

T_i表示Y(i)的长度，即Y(i)中包含的要素的总数；

α^g(i)、A^g(i)和B^g分别表示上一次迭代过程得到的α⁽ⁱ⁾、A⁽ⁱ⁾和B；

表示α^g(i)、A^g(i)和B^g的集合；

表示在由得到Y(i)的前提下，用户i在时刻t的状态为zn的概率；

表示在由得到Y(i)的前提下，用户i在时刻 t的状态为zp且在时刻t+1的状态为zq的概率；

由于t＝1,2,…,T_i，n,p,q＝1,2,…,N，因此，本步骤中，针对每个t、每个n,p,q 要分别计算一次和即最终得到的的取值有T_i*N个，最终得到的的取值有T_i*N*N个。

前向后向算法属于成熟算法，对于其具体实现本实施例不再赘述。

步骤406：根据步骤405计算得到的和计算 A^(g+1)(i)(zp,zq)和

其中：

其中，表示本次迭代过程中，用户i的初始状态为zn的概率，由于n＝1,2,…,N，因此，本步骤最终得到的的取值有N个，即最终会得到本次迭代过程对应的用户i的初始状态概率向量α⁽ⁱ⁾。

其中，A^(g+1)(i)(zp,zq)表示本次迭代过程中，用户i从状态p跳转到状态q 的统计概率，由于p＝1,2,…,N，q＝1,2,…,N，因此，本步骤最终得到的A^(g+1)(i)(zp,zq)的取值有N*N个，即最终会得到本次迭代过程对应的用户i的状态跳转概率矩阵A⁽ⁱ⁾。

其中，表示本次迭代过程中，用户i在任一状态zn下行为表现为xm的概率，由于n＝1,2,…,N，m＝1,2,…,M，因此，本步骤最终得到的的取值有N*M个，即最终会得到本次迭代过程对应的共享观测状态概率矩阵B。

步骤407：判断是否满足迭代终止条件，若是，执行步骤408；否则，返回步骤405。

步骤408：将本次迭代过程得到的A⁽ⁱ⁾作为用户i的网络行为特征。

步骤409：根据所有用户的网络行为特征以及预先设定的每个用户所属的网络行为类别，建立用户网络行为判定模型，该模型的输入为一用户的网络行为特征，该模型的输出为该用户所属的网络行为类别。

建立用户网络行为判定模型时，可采用逻辑斯蒂回归或者XGBoost分类方法进行训练，得到最后的网络行为判定模型。

本实施例中的迭代过程的目标是使得似然函数最大化。

在实际应用中，在得到用户i的A⁽ⁱ⁾后，可通过按行拼接的方式，将A⁽ⁱ⁾整合成一个向量，该向量用来表征用户i的网络行为特征。例如：若状态总数为5，则网络行为特征向量为一个25维的特征向量。该特征向量的每一维度都表示了用户i处于某个特定状态下，转向另一种特定状态的概率，该概率可以刻画用户的点击习惯。图6为本发明实施例提供的特征整合示例图。

为了验证本发明实施例的特征提取效果，随机选取了400个用户，采用本发明实施例提供的方法提取了该400个用户的网络行为特征向量，并使用 TSNE(t-分布邻域嵌入算法)算法对该400个用户的网络行为特征向量进行降维，降低至2维向量，以便于可视化操作。图7展现了400个用户在二维空间下的特征点。图中小圆点表示网络行为正常的用户的特征向量，而大圆点表示网络行为差的用户的特征向量。实验结果表明，本发明实施例提供的网络行为特征提取方法在用户分布上具有很高的可区分性，网络行为差的用户的特征分布聚合，且与网络行为正常的用户的分布有明显间隔。

图8为本发明实施例提供的用户网络行为特征提取装置的结构示意图，该装置主要包括：网络点击序列采集模块81和特征提取模块82，其中：

网络点击序列采集模块81，采集并记录各用户的网络点击序列，每个用户的网络点击序列中的每个要素对应该用户访问网络时的一次点击行为，每个要素包括两个参数：状态和行为表现，其中，状态以该用户访问的网页标识表示，行为表现以该用户点击的按钮标签表示。

特征提取模块82，对于每个用户，进行如下迭代计算过程，直至满足迭代终止条件：根据网络点击序列采集模块81记录的该用户的网络点击序列，该用户在上一次迭代过程中得到的该用户的初始状态为每个状态的概率、该用户从第一状态跳转到第二状态的统计概率以及每个用户在每个状态为每个行为表现的统计概率，计算本次迭代过程中该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，其中，第一状态和第二状态为任一状态；根据本次迭代过程中得到的该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率，计算本次迭代过程中该用户的初始状态为每个状态的概率以及该用户从第一状态跳转到第二状态的统计概率，根据本次迭代过程中得到的所有用户在每个行为表现下处于每个状态的概率，计算本次迭代过程中每个用户在每个状态为每个行为表现的统计概率；对于每个用户，将迭代终止时的该用户从第一状态跳转到第二状态的统计概率作为该用户的网络行为特征。

一较佳实施例中，特征提取模块82计算该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率之前进一步包括：

一较佳实施例中，特征提取模块82初始化共享观测状态概率矩阵B为：

一较佳实施例中，特征提取模块82计算该用户的初始状态为每个状态的概率包括：

一较佳实施例中，特征提取模块82计算该用户从第一状态跳转到第二状态的统计概率包括：

一较佳实施例中，特征提取模块82计算每个用户在每个状态为每个行为表现的统计概率包括：

一较佳实施例中，网络点击序列采集模块81采集并记录各用户的网络点击序列包括：

本发明实施例还提供一种非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质存储指令，该指令在由处理器执行时使得处理器执行如步骤 301-305，或者步骤401-409所述的用户网络行为特征提取方法的步骤。

本发明实施例还提供一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的上述处理器。

本发明实施例的有益技术效果如下：

本发明实施例中，在设定不同用户在同一行为表现下处于某个状态的概率是相同的前提下，迭代计算出每个用户从第一状态跳转到第二状态的统计概率作为对应用户的网络行为特征，从而实现了用户级的网络行为特征提取，从而为用户的网络行为分类提供了基础。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用户网络行为特征提取方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述计算该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率之前进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述初始化共享观测状态概率矩阵B为：

采用随机数产生器初始化α⁽ⁱ⁾和A⁽ⁱ⁾中的每个元素，随机数的取值范围为[0,1]。

4.根据权利要求2所述的方法，其特征在于，所述计算该用户的初始状态为每个状态的概率包括：

5.根据权利要求1所述的方法，其特征在于，所述计算该用户从第一状态跳转到第二状态的统计概率包括：

6.根据权利要求1所述的方法，其特征在于，所述计算每个用户在每个状态为每个行为表现的统计概率包括：

7.根据权利要求1所述的方法，其特征在于，所述采集并记录各用户的网络点击序列Y(i)包括：

8.一种用户网络行为特征提取装置，其特征在于，该装置包括：

9.根据权利要求8所述的装置，其特征在于，所述特征提取模块计算该用户在每个时刻为每个状态的概率以及该用户在每个时刻从第一状态跳转到第二状态的概率之前进一步包括：

10.根据权利要求9所述的装置，其特征在于，所述特征提取模块初始化共享观测状态概率矩阵B为：

11.根据权利要求9所述的装置，其特征在于，所述特征提取模块计算该用户的初始状态为每个状态的概率包括：

12.根据权利要求8所述的装置，其特征在于，所述特征提取模块计算该用户从第一状态跳转到第二状态的统计概率包括：

13.根据权利要求8所述的装置，其特征在于，所述特征提取模块计算每个用户在每个状态为每个行为表现的统计概率包括：

14.根据权利要求8所述的装置，其特征在于，所述网络点击序列采集模块采集并记录各用户的网络点击序列包括：

15.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至7中任一项所述的用户网络行为特征提取方法的步骤。

16.一种电子设备，其特征在于，包括如权利要求15所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。