CN111383063A - 一种互联网用户行为评估方法、***、存储介质及装置 - Google Patents
一种互联网用户行为评估方法、***、存储介质及装置 Download PDFInfo
- Publication number
- CN111383063A CN111383063A CN202010471758.9A CN202010471758A CN111383063A CN 111383063 A CN111383063 A CN 111383063A CN 202010471758 A CN202010471758 A CN 202010471758A CN 111383063 A CN111383063 A CN 111383063A
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- database
- sample
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及用户行为评估技术领域,具体涉及一种互联网用户行为评估方法、***、存储介质及装置。
背景技术
在知晓某个互联网用户的特征或者基本画像时,如果能在数据库或者样本中筛选出与该用户最为相似的用户,那么无论是对于聚类、评价,或是行为预测,都有了最准确的依据和显著的参照物。这种方法在对用户行为进行预测方面,具有方便、直观和准确的特点。
现有的聚类算法一般仅采用其中的一种,这样聚类的结果往往比较粗糙,尤其是在对用户行为预测时,由于同时聚类的用户数量较多,难以找到最相似用户,从而难以对用户的行为进行准确评估。
发明内容
本发明的目的是克服现有技术的不足和缺陷,提供一种精准的互联网用户行为评估方法、***、存储介质及装置。
本发明的目的是通过以下技术方案来实现的:
在数据库中筛选出相似用户群的步骤如下:
步骤2)x与y的闵可夫斯基距离,p=1、2、…、t,t为p的最大取值,t
取用户组A中的用户数量,当p为一个确定数值时,取所有闵可夫斯基距离中数值最小的一
个,其余数值则被过滤,在有限样本中,通过有限迭代保留唯一样本;
当p=1时,最相似样本为d1;
当p=2时,最相似样本为d2;
……
当p=t时,最相似样本为dt;
d1, d2…dt组成用户组B;
具体的,步骤1中未被过滤的样本用户组成用户组A的数量m进行判断是否,当时,z在原来的基
础上加一再进行计算即z=z+1,使得最终;当m=0时,z
在原来的基础上减一再进行计算即z=z-1,使得最终,
当z=1时m仍等于0时,停止进行评估,得出未能评估结果的结论,等待***扩容数据库时再
进行重新评估。
一种互联网用户行为评估***,包括:
行为与特征采集模块:针对用户的行为进行采集,并对行为进行向量化;
数据库调取模块:对数据库中已经向量化的标本数据进行调取;
协同过滤模块:运用一种互联网用户行为评估方法对数据库中的标本数据进行过滤;
行为预测模块:得出评估结论。
具体的,还包括用户标签***,用户标签***用以对行为与特征采集模块向量化的数据进行整理制定标签,便于下一步与数据库进行匹配。
具体的,所述行为预测模块包括参照组数据包提取模块和用户行动计划报表模块,参照组数据包提取模块是针对协调过滤模块过滤后的标本数据进行集合处理,并且提取标本数据中的行为因子,最终综合行为因子做出行为预测。
具体的,还包括行为验证/反馈模块,行为验证/反馈模块用以验证用户行为是否
与预测结果一致,如果用户行为与预测结果一致,则将用户数据存入数据库增加数据库的
标本数据,如果用户行为与预测结果不一致,则等下一次数据库扩充数据后再对用户行为
进行验证;在对于评分值***中当“预测评分*99%现实评分预测评分*101%”时则认为
预测准确。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行一种互联网用户行为评估方法。
一种基于行为特征预测用户属性值的装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现一种互联网用户行为评估方法。
本发明相比现有技术包括以下优点及有益效果:
本发明通过采用夹角和闵可夫斯基距离过滤能够精准的将不符合对标的样本过滤掉,在剩余的相似用户群体中计算出目标用户的行为因子,对目标用户的行为进行评估和预测。
附图说明
图1为本发明一种互联网用户行为评估***的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种互联网用户行为评估方法,将某目标用户特征由n维向量构成,上
述的用户特征为必须为能够反映用户对评估结果有影响的特征和行为,对于每个需要评估
的用户特征和行必要预先检查特征和行为的完整性,剔除特征和行为的异常数据,异常数
据包括:输入值超过特征输入的最大值,将标本用户特征每个向量值的最高值和最低值,当
输入特征向量值超出最高向量值的120%或者输入特征向量值低于最低值的80%则标记为该
输入特征为异常数据,进行剔除,用户特征记为,,已知数据库样
本中的用户特征向量记为,,其中y的数量为数据库中样本的数
量;在得出需评估的用户特征向量后预先对用户数据库中样本数据进行查重,如果用户数
据库中的样本数据具有和需评估的用户特征向量相同的数据,直接调取相同的样本数据并
提取出评估结果,将评估结果作为预测结果,不进行后续的数据筛选,当需评估用户特征向
量在数据库中没有相同的特征向量,则进行后续步骤的数据筛选,在数据库中筛选出相似
用户群的步骤如下:
步骤1)预设角度范围值,采用夹角过滤:,,如果,则被过滤;将数据库中所有样本如此循环
迭代计算,未被过滤的样本用户组成用户组A;夹角过滤能够过滤筛选出目标用户处于同一
夹角内的数据库中的样本用户,将数据库中提取出的样本用户组成用户组A,夹角过滤方式
能够筛选出与目标用户相近的样本用户,但是该种过滤方法由于夹角的局限性,单独使用
会对部分筛选数据产生偏差,
步骤2)x与y的闵可夫斯基距离,p=1、2、…、t,t为p的最大取值,t
取用户组A中的用户数量,p的数量为用户组A中的用户数量,当P为一个确定数值时,取所有
闵可夫斯基距离中数值最小的一个,其余数值则被过滤,在有限样本中,通过有限迭代
保留唯一样本;
当p=1时,最相似样本为d1;
当p=2时,最相似样本为d2;
……
当p=t时,最相似样本为dt;
d1, d2…dt组成用户组B;闵可夫斯基距离过滤能够筛选过滤出与目标用户向量距离最近的m个样本用户,该种筛选方式存在着未考虑每个用户行为特征在行动因子中所占比重的大小,也是具有一定的局限性,
步骤3)考虑两种环境因素的样本用户都有其不同的取样范围,将两个样本取平均值,
设用户组A中有m个用户,则用户组B中也有m个用户,设A与B中用户对应的行为因子分别为和(i=1,2,…m),当A用户组和B用户组具有个相同的用户时,提取出个相同的
样本用户,目标用户的行动因子为,则:
具体的,所述预设角度范围, 。预设角度为人为限定值,根据筛
选后留下的样本数量m的多少进行调整,研究表明预设角度不宜超过20°,超过20°筛选出
的样本会导致预测结果不准确,不具有参考价值,角度预设范围最大值,转换为角度
值则为20°,预设角度范围决定了夹角过滤的范围,通过调节z的数值,能够决定夹角过滤后
留下的样本数量m。
对于上述方法中,对于数量不同的向量标记n留取的样本数量并未加以区分,只是
通过人工限定加以筛选设定,存在着当样本数量m多时预测的准确性要差一些;由于角度
值变化为阶梯式变化,当限定样本数量m少时存在着角度值变化使得m数量直接变为0,没
有根据向量标记n的数量定义m的数量,但是实际情况中对于用户特征多的目标客户其不确
定因数多,因此还需针对用户具有不同数量的向量标记n进行区别限定,例如对于向量标记
n少的目标用户需限定的样本数量m也相应较少,对于向量标记n多的目标用户需限定的样
本数量m也应相应增多,因此增加以下步骤,步骤1中未被过滤的样本用户组成用户组A的数
量m进行判断是否处于范围内,当时,z在原来的基础上加一再进行计算即z=z+1,使得最终;当m=0时,z在原来的基础上减一再进行计算即z=z-1,
使得最终,当z=1时m仍等于0时,停止进行评估,得出
未能评估结果的结论,等待***扩容数据库时再进行重新评估,初始值z设定为2。通过上述
步骤能够根据向量标记n的数量限定m的数量,使得得出m的数量较为合理,得出的行动因子也较为准确。
一种互联网用户行为评估***,包括:
行为与特征采集模块:针对用户的行为进行采集,并对行为进行向量化;
数据库调取模块:对数据库中已经向量化的标本数据进行调取;
协同过滤模块:一种互联网用户行为评估方法对数据库中的标本数据进行过滤;
行为预测模块:得出评估结论。
具体的,还包括用户标签***,用户标签***用以对行为与特征采集模块向量化的数据进行整理制定标签,便于归类,也便于下一步与数据库进行匹配。
具体的,所述行为预测模块包括参照组数据包提取模块和用户行动计划报表模块,设置用户行动计划报表某块能够方便进行人工核检及溯源,便于人工分析,参照组数据包提取模块是针对协调过滤模块过滤后的标本数据进行集合处理,并且提取标本数据中的行为因子,最终综合行为因子做出行为预测。
具体的,还包括行为验证/反馈模块,行为验证/反馈模块用以验证用户行为是否
与预测结果一致,如果用户行为与预测结果一致,则将用户数据存入数据库增加数据库的
标本数据,如果用户行为与预测结果不一致,则等下一次数据库扩充数据后再对用户行为
进行验证;在对于评分值***中当“预测评分*99%现实评分预测评分*101%”时则认为
预测准确。
数据库理论上是增加新数据就进行更新,但是为了避免造成部分用户在短时间内多次测试结果不同,对实时更新的数据库进行静态化处理,通过人为设定一个时间间隔进行更新,避免造成部分用户短时间内多次测试结果不同。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行一种互联网用户行为评估方法。
一种基于行为特征预测用户属性值的装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现一种互联网用户行为评估方法。
本发明的具体实施过程如下:
实施例1:在对于技术企业认定评分体系中判定通过的可能性会对企业的一些硬性条
件进行打分,硬性指标如下:I类知识产权数量、II类知识产权数量、职工人数、科技人员数、
本科学历以上人员数、近一年企业总收入、研发活动数,通过上述七类硬性指标进行打分,
最终根据分值决定是否授予资质认可,将七类硬性指标记为,数据库采用北京市1120个和深圳市2316个样本数据进行
聚类,同进加入了内测用户1000个数据,
表1:目标用户指标。
表2:夹角过滤筛选后的样本用户数。
当p=1时,最相似样本为d1;
当p=2时,最相似样本为d2;
……
当p=6时,最相似样本为d6;
d1, d2…d6组成用户组B;
表2:闵可夫斯基距离过滤筛选后的样本用户数。
实施例2:对于某件产品顾客购物下单的概率通常由商品浏览时间、是否加入购物
车、是否关注/收藏商品、浏览相似商品时间等四个维度进行综合考虑,将四个维度标记为,数据库采用平台的所有历史用户购物记录,步骤1)预设角度范围,设初始类样本特征向量为,采用夹角过滤:,,如果,则被
过滤;如此循环迭代计算,未被过滤的样本用户具有5组,组成用户组A;
当p=1时,最相似样本为d1;
当p=2时,最相似样本为d2;
……
当p=5时,最相似样本为d5;
d1, d2…d5组成用户组B;
本发明使用范围广泛,具有很高的使用价值,在符合条件的情况,该算法会优于机器学习法。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种互联网用户行为评估方法,其特征在于:将某目标用户特征由n维向量构成,记为
步骤2)x与y的闵可夫斯基距离,p=1、2、…、t,t为p的最大取值,t取
用户组A中的用户数量,当p为一个确定数值时,取所有闵可夫斯基距离中数值最小的一个,其余数值则被过滤,在有限样本中,通过有限迭代保留唯一样本;
当p=1时,最相似样本为d1;
当p=2时,最相似样本为d2;
……
当p=t时,最相似样本为dt;
d1, d2…dt组成用户组B;
步骤3)设用户组A中有m个用户,则用户组B中也有m个用户,设A与B中用户对应的行为
因子分别为和(i=1,2,…m);当A用户组和B用户组具有个相同的用户时,提取出个相同的样本用户,目标用户的行动因子为,则:
4.一种互联网用户行为评估***,其特征在于,包括:
行为与特征采集模块:针对用户的行为进行采集,并对行为进行向量化;
数据库调取模块:对数据库中已经向量化的标本数据进行调取;
协同过滤模块:运用权利要求1~3任一项所述的一种互联网用户行为评估方法对数据库中的标本数据进行过滤;
行为预测模块:得出评估结论。
5.根据权利要求4所述的一种互联网用户行为评估***,其特征在于,还包括用户标签***,用户标签***用以对行为与特征采集模块向量化的数据进行整理制定标签,便于下一步与数据库进行匹配。
6.根据权利要求4所述的一种互联网用户行为评估***,其特征在于,所述行为预测模块包括参照组数据包提取模块和用户行动计划报表模块,参照组数据包提取模块是针对协调过滤模块过滤后的标本数据进行集合处理,并且提取标本数据中的行为因子,最终综合行为因子做出行为预测。
7.根据权利要求4所述的一种互联网用户行为评估***,其特征在于,还包括行为验证/反馈模块,行为验证/反馈模块用以验证用户行为是否与预测结果一致,如果用户行为与预测结果一致,则将用户数据存入数据库增加数据库的标本数据,如果用户行为与预测结果不一致,则等下一次数据库扩充数据后再对用户行为进行验证。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~3任一项所述的一种互联网用户行为评估方法。
9.一种基于行为特征预测用户属性值的装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~3任一项所述的一种互联网用户行为评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471758.9A CN111383063B (zh) | 2020-05-29 | 2020-05-29 | 一种互联网用户行为评估方法、***、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471758.9A CN111383063B (zh) | 2020-05-29 | 2020-05-29 | 一种互联网用户行为评估方法、***、存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111383063A true CN111383063A (zh) | 2020-07-07 |
CN111383063B CN111383063B (zh) | 2020-09-04 |
Family
ID=71222930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010471758.9A Active CN111383063B (zh) | 2020-05-29 | 2020-05-29 | 一种互联网用户行为评估方法、***、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111383063B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246465A1 (en) * | 2010-03-31 | 2011-10-06 | Salesforce.Com, Inc. | Methods and sysems for performing real-time recommendation processing |
CN102332064A (zh) * | 2011-10-07 | 2012-01-25 | 吉林大学 | 基于基因条形码的生物物种识别方法 |
CN105095909A (zh) * | 2015-07-13 | 2015-11-25 | 中国联合网络通信集团有限公司 | 一种应用于移动网络的用户相似性评估方法及装置 |
CN106485521A (zh) * | 2015-08-26 | 2017-03-08 | 中国联合网络通信集团有限公司 | 用户信用度评估方法及装置 |
CN108696377A (zh) * | 2017-04-11 | 2018-10-23 | 西安邮电大学 | 一种实现移动用户行为识别的方法 |
CN110427560A (zh) * | 2019-08-08 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 一种应用于推荐***的模型训练方法以及相关装置 |
-
2020
- 2020-05-29 CN CN202010471758.9A patent/CN111383063B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246465A1 (en) * | 2010-03-31 | 2011-10-06 | Salesforce.Com, Inc. | Methods and sysems for performing real-time recommendation processing |
CN102332064A (zh) * | 2011-10-07 | 2012-01-25 | 吉林大学 | 基于基因条形码的生物物种识别方法 |
CN105095909A (zh) * | 2015-07-13 | 2015-11-25 | 中国联合网络通信集团有限公司 | 一种应用于移动网络的用户相似性评估方法及装置 |
CN106485521A (zh) * | 2015-08-26 | 2017-03-08 | 中国联合网络通信集团有限公司 | 用户信用度评估方法及装置 |
CN108696377A (zh) * | 2017-04-11 | 2018-10-23 | 西安邮电大学 | 一种实现移动用户行为识别的方法 |
CN110427560A (zh) * | 2019-08-08 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 一种应用于推荐***的模型训练方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
徐志明 等: "微博用户的相似性度量及其应用", 《计算机学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111383063B (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102026304B1 (ko) | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 | |
CN110381079B (zh) | 结合gru和svdd进行网络日志异常检测方法 | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN111861786B (zh) | 一种基于特征选择和孤立随机森林的专变窃电识别方法 | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、*** | |
CN115343676B (zh) | 密封电子设备内部多余物定位技术的特征优化方法 | |
KR20190110084A (ko) | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 | |
CN115719283A (zh) | 一种智能化会计管理*** | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、***及装置 | |
CN116205355A (zh) | 电力负荷的预测方法、装置以及存储介质 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN114519519A (zh) | 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质 | |
CN113283673A (zh) | 一种模型性能衰减评价方法、模型训练方法及装置 | |
CN111383063B (zh) | 一种互联网用户行为评估方法、***、存储介质及装置 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
CN113987240B (zh) | 一种基于知识图谱的海关检样溯源方法及*** | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察*** | |
Klindee et al. | Test cases prioritization for software regression testing using analytic hierarchy process | |
CN112732773A (zh) | 一种继电保护缺陷数据的唯一性校核方法及*** | |
CN113962565A (zh) | 一种基于大数据的项目评分方法、***和可读存储介质 | |
CN114077663A (zh) | 应用日志的分析方法及装置 | |
CN116881335B (zh) | 多模态数据智能分析***与方法 | |
CN115187387B (zh) | 一种风险商家的识别方法及设备 | |
CN110032596A (zh) | 流量异常用户识别方法及*** | |
CN117654907B (zh) | 用于带料检测机的自动剔除方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |