CN111383063A

CN111383063A - 一种互联网用户行为评估方法、***、存储介质及装置

Info

Publication number: CN111383063A
Application number: CN202010471758.9A
Authority: CN
Inventors: 兰林; 陈功文; 蔡莎秀
Original assignee: Shenzhen Chace Network Information Technology Co ltd
Current assignee: Shenzhen Chace Network Information Technology Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-07-07
Anticipated expiration: 2040-05-29
Also published as: CN111383063B

Abstract

本发明涉及用户行为评估技术领域，具体涉及一种互联网用户行为评估方法、***、存储介质及装置。将某目标用户特征由n维向量构成，记为

，

，已知数据库样本中的用户特征向量记为

，

，在数据库中筛选出相似用户群的步骤如下：步骤1）预设角度范围

值，采用夹角过滤；步骤2）x与y的闵可夫斯基距离过滤；步骤3）求均值，得出行动因子即为得出行为评估的概率。本发明通过采用夹角和闵可夫斯基距离过滤能够精准的将不符合对标的样本过滤掉，在剩余的相似用户群体中计算出目标用户的行为因子，对目标用户的行为进行评估和预测。

Description

一种互联网用户行为评估方法、***、存储介质及装置

技术领域

本发明涉及用户行为评估技术领域，具体涉及一种互联网用户行为评估方法、***、存储介质及装置。

背景技术

在知晓某个互联网用户的特征或者基本画像时，如果能在数据库或者样本中筛选出与该用户最为相似的用户，那么无论是对于聚类、评价，或是行为预测，都有了最准确的依据和显著的参照物。这种方法在对用户行为进行预测方面，具有方便、直观和准确的特点。

现有的聚类算法一般仅采用其中的一种，这样聚类的结果往往比较粗糙，尤其是在对用户行为预测时，由于同时聚类的用户数量较多，难以找到最相似用户，从而难以对用户的行为进行准确评估。

发明内容

本发明的目的是克服现有技术的不足和缺陷，提供一种精准的互联网用户行为评估方法、***、存储介质及装置。

本发明的目的是通过以下技术方案来实现的：

一种互联网用户行为评估方法，将某目标用户特征由n维向量构成，记为

，

，已知数据库样本中的用户特征向量记为

，

，

在数据库中筛选出相似用户群的步骤如下：

步骤1）预设角度范围

值，采用夹角过滤：

，

，如果

，则

被过滤；如此循环迭代计算，未被过滤的样本用户组成用户组A；

步骤2）x与y的闵可夫斯基距离

，p=1、2、…、t，t为p的最大取值，t 取用户组A中的用户数量，当p为一个确定数值时，取所有闵可夫斯基距离中数值最小的一个

，其余数值则被过滤，在有限样本中，通过有限迭代保留唯一样本；

当p=1时，最相似样本为d1；

当p=2时，最相似样本为d2；

……

当p=t时，最相似样本为dt；

d1, d2…dt组成用户组B；

步骤3）设用户组A中有m个用户，则用户组B中也有m个用户，设A与B中用户对应的行为因子分别为

和

（i=1，2，…m）；

当A用户组和B用户组具有

个相同的用户时，提取出

个相同的样本用户，目标用户

的行动因子为

，则：

；

当A用户组和B用户组没有相同的用户时，目标用户

的行动因子为

，则：

；

行动因子

即为得出行为评估的概率。

具体的，所述预设角度范围

，

。

具体的，步骤1中未被过滤的样本用户组成用户组A的数量m进行判断是否

，当

时，z在原来的基础上加一再进行计算即z=z+1，使得最终

；当m=0时，z 在原来的基础上减一再进行计算即z=z-1，使得最终

，当z=1时m仍等于0时，停止进行评估，得出未能评估结果的结论，等待***扩容数据库时再进行重新评估。

一种互联网用户行为评估***，包括：

行为与特征采集模块：针对用户的行为进行采集，并对行为进行向量化；

数据库调取模块：对数据库中已经向量化的标本数据进行调取；

协同过滤模块：运用一种互联网用户行为评估方法对数据库中的标本数据进行过滤；

行为预测模块：得出评估结论。

具体的，还包括用户标签***，用户标签***用以对行为与特征采集模块向量化的数据进行整理制定标签，便于下一步与数据库进行匹配。

具体的，所述行为预测模块包括参照组数据包提取模块和用户行动计划报表模块，参照组数据包提取模块是针对协调过滤模块过滤后的标本数据进行集合处理，并且提取标本数据中的行为因子，最终综合行为因子做出行为预测。

具体的，还包括行为验证/反馈模块，行为验证/反馈模块用以验证用户行为是否与预测结果一致，如果用户行为与预测结果一致，则将用户数据存入数据库增加数据库的标本数据，如果用户行为与预测结果不一致，则等下一次数据库扩充数据后再对用户行为进行验证；在对于评分值***中当“预测评分*99%

现实评分

预测评分*101%”时则认为预测准确。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行一种互联网用户行为评估方法。

一种基于行为特征预测用户属性值的装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现一种互联网用户行为评估方法。

本发明相比现有技术包括以下优点及有益效果：

本发明通过采用夹角和闵可夫斯基距离过滤能够精准的将不符合对标的样本过滤掉，在剩余的相似用户群体中计算出目标用户的行为因子，对目标用户的行为进行评估和预测。

附图说明

图1为本发明一种互联网用户行为评估***的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，一种互联网用户行为评估方法，将某目标用户特征由n维向量构成，上述的用户特征为必须为能够反映用户对评估结果有影响的特征和行为，对于每个需要评估的用户特征和行必要预先检查特征和行为的完整性，剔除特征和行为的异常数据，异常数据包括：输入值超过特征输入的最大值，将标本用户特征每个向量值的最高值和最低值，当输入特征向量值超出最高向量值的120%或者输入特征向量值低于最低值的80%则标记为该输入特征为异常数据，进行剔除，用户特征记为

，

，已知数据库样本中的用户特征向量记为

，

，其中y的数量为数据库中样本的数量；在得出需评估的用户特征向量后预先对用户数据库中样本数据进行查重，如果用户数据库中的样本数据具有和需评估的用户特征向量相同的数据，直接调取相同的样本数据并提取出评估结果，将评估结果作为预测结果，不进行后续的数据筛选，当需评估用户特征向量在数据库中没有相同的特征向量，则进行后续步骤的数据筛选，在数据库中筛选出相似用户群的步骤如下：

步骤1）预设角度范围

值，采用夹角过滤：

，

，如果

，则

被过滤；将数据库中所有样本如此循环迭代计算，未被过滤的样本用户组成用户组A；夹角过滤能够过滤筛选出目标用户处于同一夹角内的数据库中的样本用户，将数据库中提取出的样本用户组成用户组A，夹角过滤方式能够筛选出与目标用户相近的样本用户，但是该种过滤方法由于夹角的局限性，单独使用会对部分筛选数据产生偏差，

步骤2）x与y的闵可夫斯基距离

，p=1、2、…、t，t为p的最大取值，t 取用户组A中的用户数量，p的数量为用户组A中的用户数量，当P为一个确定数值时，取所有闵可夫斯基距离中数值最小的一个

当p=1时，最相似样本为d1；

当p=2时，最相似样本为d2；

……

当p=t时，最相似样本为dt；

d1, d2…dt组成用户组B；闵可夫斯基距离过滤能够筛选过滤出与目标用户向量距离最近的m个样本用户，该种筛选方式存在着未考虑每个用户行为特征在行动因子中所占比重的大小，也是具有一定的局限性，

步骤3）考虑两种环境因素的样本用户都有其不同的取样范围，将两个样本取平均值，设用户组A中有m个用户，则用户组B中也有m个用户，设A与B中用户对应的行为因子分别为

和

（i=1，2，…m），当A用户组和B用户组具有

个相同的用户时，提取出

个相同的样本用户，目标用户

的行动因子为

，则：

；当A用户组和B用户组没有相同的用户时，目标用户

的行动因子为

，则：

行动因子

即为得出行为评估的概率。

具体的，所述预设角度范围

，

。预设角度

为人为限定值，根据筛选后留下的样本数量m的多少进行调整，研究表明预设角度

不宜超过20°，超过20°筛选出的样本会导致预测结果不准确，不具有参考价值，角度预设范围最大值

，转换为角度值则为20°，预设角度范围决定了夹角过滤的范围，通过调节z的数值，能够决定夹角过滤后留下的样本数量m。

对于上述方法中，对于数量不同的向量标记n留取的样本数量并未加以区分，只是通过人工限定加以筛选设定，存在着当样本数量m多时预测的准确性要差一些；由于

角度值变化为阶梯式变化，当限定样本数量m少时存在着

角度值变化使得m数量直接变为0，没有根据向量标记n的数量定义m的数量，但是实际情况中对于用户特征多的目标客户其不确定因数多，因此还需针对用户具有不同数量的向量标记n进行区别限定，例如对于向量标记 n少的目标用户需限定的样本数量m也相应较少，对于向量标记n多的目标用户需限定的样本数量m也应相应增多，因此增加以下步骤，步骤1中未被过滤的样本用户组成用户组A的数量m进行判断是否处于

范围内，当

时，z在原来的基础上加一再进行计算即z=z+1，使得最终

；当m=0时，z在原来的基础上减一再进行计算即z=z-1，使得最终

，当z=1时m仍等于0时，停止进行评估，得出未能评估结果的结论，等待***扩容数据库时再进行重新评估，初始值z设定为2。通过上述步骤能够根据向量标记n的数量限定m的数量，使得得出m的数量较为合理，得出的行动因子

也较为准确。

一种互联网用户行为评估***，包括：

协同过滤模块：一种互联网用户行为评估方法对数据库中的标本数据进行过滤；

行为预测模块：得出评估结论。

具体的，还包括用户标签***，用户标签***用以对行为与特征采集模块向量化的数据进行整理制定标签，便于归类，也便于下一步与数据库进行匹配。

具体的，所述行为预测模块包括参照组数据包提取模块和用户行动计划报表模块，设置用户行动计划报表某块能够方便进行人工核检及溯源，便于人工分析，参照组数据包提取模块是针对协调过滤模块过滤后的标本数据进行集合处理，并且提取标本数据中的行为因子，最终综合行为因子做出行为预测。

现实评分

预测评分*101%”时则认为预测准确。

数据库理论上是增加新数据就进行更新，但是为了避免造成部分用户在短时间内多次测试结果不同，对实时更新的数据库进行静态化处理，通过人为设定一个时间间隔进行更新，避免造成部分用户短时间内多次测试结果不同。

本发明的具体实施过程如下：

实施例1：在对于技术企业认定评分体系中判定通过的可能性会对企业的一些硬性条件进行打分，硬性指标如下：I类知识产权数量、II类知识产权数量、职工人数、科技人员数、本科学历以上人员数、近一年企业总收入、研发活动数，通过上述七类硬性指标进行打分，最终根据分值决定是否授予资质认可，将七类硬性指标记为

，数据库采用北京市1120个和深圳市2316个样本数据进行聚类，同进加入了内测用户1000个数据，

表1：目标用户指标。

步骤1）预设角度

，设初始类样本特征向量为

，采用夹角过滤：

，

，如果

，则

被过滤；如此循环迭代计算，未被过滤的样本用户具有6组，组成用户组A；

表2：夹角过滤筛选后的样本用户数。

步骤2）x与y的闵可夫斯基距离

，p=1、2、3、4、5、6，当P为一个确定数值时，取所有闵可夫斯基距离中数值最小的一个

当p=1时，最相似样本为d1；

当p=2时，最相似样本为d2；

……

当p=6时，最相似样本为d6；

d1, d2…d6组成用户组B；

表2：闵可夫斯基距离过滤筛选后的样本用户数。

步骤3）用户组A中有6个用户，则用户组B中也有6个用户，设A与B中用户对应的行为因子分别为

和

（i=1，2，…6），A用户组和B用户组没有相同的用户，目标用户

的行动因子为

，则：

=83.245分

行动因子

即为得出行为评估的概率，最终专家评分为84分，83.245*99%<84< 83.245*101%,预测准确。

实施例2：对于某件产品顾客购物下单的概率通常由商品浏览时间、是否加入购物车、是否关注/收藏商品、浏览相似商品时间等四个维度进行综合考虑，将四个维度标记为

，数据库采用平台的所有历史用户购物记录，步骤1）预设角度范围

，设初始类样本特征向量为

，采用夹角过滤：

，

，如果

，则

被过滤；如此循环迭代计算，未被过滤的样本用户具有5组，组成用户组A；

步骤2）x与y的闵可夫斯基距离

，p=1、2、3、4、5，当P为一个确定数值时，取所有闵可夫斯基距离中数值最小的一个

当p=1时，最相似样本为d1；

当p=2时，最相似样本为d2；

……

当p=5时，最相似样本为d5；

d1, d2…d5组成用户组B；

步骤3）用户组A中有6个用户，则用户组B中也有5个用户，设A与B中用户对应的行为因子分别为

和

（i=1，2，…5），目标用户

的行动因子为

，则：

行动因子

即为得出行为评估的概率。

本发明使用范围广泛，具有很高的使用价值，在符合条件的情况，该算法会优于机器学习法。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种互联网用户行为评估方法，其特征在于：将某目标用户特征由n维向量构成，记为

，

，已知数据库样本中的用户特征向量记为

，

，在数据库中筛选出相似用户群的步骤如下：

步骤1）预设角度范围

值，采用夹角过滤：

，

，如果

，则

步骤2）x与y的闵可夫斯基距离

，p=1、2、…、t，t为p的最大取值，t取用户组A中的用户数量，当p为一个确定数值时，取所有闵可夫斯基距离中数值最小的一个

当p=1时，最相似样本为d1；

当p=2时，最相似样本为d2；

……

当p=t时，最相似样本为dt；

d1, d2…dt组成用户组B；

和

（i=1，2，…m）；当A用户组和B用户组具有

个相同的用户时，提取出

个相同的样本用户，目标用户

的行动因子为

，则：

；

当A用户组和B用户组没有相同的用户时，目标用户

的行动因子为

，则：

；

行动因子

即为得出行为评估的概率。

2.根据权利要求1所述的一种互联网用户行为评估方法，其特征在于：所述预设角度范围

，

。

3.根据权利要求2所述的一种互联网用户行为评估方法，其特征在于：步骤1中未被过滤的样本用户组成用户组A的数量m进行判断是否

，当

时，z在原来的基础上加一再进行计算即z=z+1，使得最终

；当m=0时，z在原来的基础上减一再进行计算即z= z-1，使得最终

4.一种互联网用户行为评估***，其特征在于，包括：

协同过滤模块：运用权利要求1～3任一项所述的一种互联网用户行为评估方法对数据库中的标本数据进行过滤；

行为预测模块：得出评估结论。

5.根据权利要求4所述的一种互联网用户行为评估***，其特征在于，还包括用户标签***，用户标签***用以对行为与特征采集模块向量化的数据进行整理制定标签，便于下一步与数据库进行匹配。

6.根据权利要求4所述的一种互联网用户行为评估***，其特征在于，所述行为预测模块包括参照组数据包提取模块和用户行动计划报表模块，参照组数据包提取模块是针对协调过滤模块过滤后的标本数据进行集合处理，并且提取标本数据中的行为因子，最终综合行为因子做出行为预测。

7.根据权利要求4所述的一种互联网用户行为评估***，其特征在于，还包括行为验证/反馈模块，行为验证/反馈模块用以验证用户行为是否与预测结果一致，如果用户行为与预测结果一致，则将用户数据存入数据库增加数据库的标本数据，如果用户行为与预测结果不一致，则等下一次数据库扩充数据后再对用户行为进行验证。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～3任一项所述的一种互联网用户行为评估方法。

9.一种基于行为特征预测用户属性值的装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～3任一项所述的一种互联网用户行为评估方法。