CN112001742A - 网站访客行为习惯评估方法及*** - Google Patents

网站访客行为习惯评估方法及*** Download PDF

Info

Publication number
CN112001742A
CN112001742A CN202010692341.5A CN202010692341A CN112001742A CN 112001742 A CN112001742 A CN 112001742A CN 202010692341 A CN202010692341 A CN 202010692341A CN 112001742 A CN112001742 A CN 112001742A
Authority
CN
China
Prior art keywords
visitor
website
data
behavior
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010692341.5A
Other languages
English (en)
Inventor
刘军武
王俊杰
罗贤
谢振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Katie Engineering Technology Co ltd
Original Assignee
Hunan Katie Engineering Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Katie Engineering Technology Co ltd filed Critical Hunan Katie Engineering Technology Co ltd
Priority to CN202010692341.5A priority Critical patent/CN112001742A/zh
Publication of CN112001742A publication Critical patent/CN112001742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种网站访客行为习惯评估方法及***,网站访客行为习惯评估方法包括如下步骤:访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;存储所述标准集;根据所述标准集,构建网站访客行为习惯的计算模型;通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;向网站主返回新访客的行为习惯数据。通过该方法,可以有效提升对访客行为习惯评估的准确性。

Description

网站访客行为习惯评估方法及***
技术领域
本发明涉及访客行为评估技术领域,尤其涉及一种网站访客行为习惯评估方法及***。
背景技术
目前,很多企业都通过网站来进行信息展示和产品营销。随着网络技术的发展,网站和访客之间也可以实现更多的互动。例如,网站主可以通过网络管理***看到访客的一些行为习惯信息,根据这些行为习惯信息来判断访客的行为习惯,然后进一步对具有一定行为习惯的访客做特定的业务行为,例如与其联系、向其提供更详细的信息等。
可以想象,对于具有大量访客的网站而言,如果以人工方式来判断每个访客的行为习惯,工作量大且效率难以保证。为了实现对网站访客行为习惯的自动判断,现有技术中,是通过把各类“访客信息”中的单个或组合设置为条件,一旦满足条件,就认为该访客具有一定行为习惯并通知网站主。这些条件可以包括:喜欢访问哪些模块、访问页面超过几个、是否访问过某些特定页面、访客是否来自某些特定的省市等。
通过对现有技术的研究,申请人发现上述方法只适用于处理简单的条件组合,然而在实际需求中,访客信息和访客行为习惯之间往往存在着更为复杂的对应关系,例如:如果访客来自北京,则其访问页面A的行为习惯大;如果访客来自上海,则其访问页面B的行为习惯大;男性访客访问页面C的行为习惯大;女性访客访问页面D的行为习惯大等。类似或更为复杂的情况还有很多,这些对应关系往往是非线性的,甚至是不确知的。如果使用条件组合的方法,难以把这些复杂的对应关系全部纳入考虑,且条件组合的方式会很复杂,容易漏掉一些有行为习惯的访客,或者造成对一些访客行为习惯的估算错误。
例如假设***设定的判断条件是:来访次数超过2次,且浏览网站页面超过5个的访客为有行为习惯的访客。但在实际情况中,如果来自北京的访客E是有行为习惯的访客,但是该访客仅访问了其感兴趣的特定页面A和特定页面B,如果按照人工制定的规则的判断,会将访客E判断为无行为习惯的访客,从而网站主不会对访客E作进一步的业务行为,便会造成网站利益受损。
综上所述,现有的自动判断访客行为习惯的方法容易出现漏判错判的情况,并且判断结果往往会与人工判断的结果有很大差异,容易使网站的利益受损。
发明内容
本发明的主要目的在于提供一种网站访客行为习惯评估方法,旨在解决现有的自动判断访客行为习惯的方法的准确度不足的问题。
为实现上述目的,本发明提供的网站访客行为习惯评估方法包括如下步骤:
采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;
存储所述标准集;
根据所述标准集,构建网站访客行为习惯的计算模型;
通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;
从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;
向网站主返回新访客的行为习惯数据。
优选地,所述采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据的步骤,包括如下步骤:
监控网站并采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据;
将所采集的所述访客数据量化为布尔型,并形成所述标准集。
优选地,所述监控网站并采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据的步骤,包括如下步骤:
监控网站,将网站的日志文件导入数据预处理程序,得到包含时间、ip地址、用户浏览页面、用户请求动作和状态的用户事务集对象,形成访客数据。
优选地,所述通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值的步骤,包括如下步骤:
对用户事务集挖掘出频繁项集,从而生成每个用户对应的频繁访问路径;
通过FCC路径聚类方法,确定用户行为聚类,形成所述标准集;
其中FCC路径聚类方法中,用户之间的CM系数Sij采用如下公式确定:
Figure BDA0002589749300000031
Ui表示用户i频繁的访问路径,Ui={V1,V2,…,Vn},Uj表示用户j频繁的访问路径,Uj={V1,V2,…,Vn},Vn代表访客i或访客j频繁访问过的页面n;comm(Ui,Uj)表示访客i和访客j的频繁访问路径中最长公共路径长度;max(Ui,Uj)表示访客i、访客j的频繁访问路径中包含的最长节点数。
优选地,所述网站访客行为习惯评估方法还包括如下步骤:
储存有行为习惯的新访客数据并进行标记。
优选地,所述网站访客行为习惯评估方法还包括如下步骤:
建立有行为习惯的新访客与网站主之间的实时通信通道。
此外,为实现上述目的,本发明还提供一种网站访客行为习惯评估***,所述网站访客行为习惯评估***应用上述任一项所述的一种网站访客行为习惯评估方法;所述网站访客行为习惯评估***包括监控单元、存储单元、模型训练单元、计算单元、评估单元及数据返回单元;
所述存储单元与所述监控单元相连,所述模型训练单元与所述存储单元相连,所述计算单元分别与所述存储单元及模型训练单元相连,所述评估单元与所述计算单元相连,所述数据返回单元与所述评估单元相连;
所述监控单元用于采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;
所述存储单元用于存储所述标准集;
所述模型训练单元用于根据所述标准集,构建网站访客行为习惯的计算模型;
所述计算单元用于通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;
所述评估单元用于从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;
所述数据返回单元用于向网站主返回新访客的行为习惯数据。
优选地,所述监控单元包括数据采集子单元及量化子单元,所述量化子单元与所述数据采集子单元相连;
所述数据采集子单元用于采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据;
所述量化子单元用于将所采集的所述访客数据量化为布尔型,并形成所述标准集。
优选地,所述模型训练单元包括赋值子单元,所述赋值子单元与所述存储单元相连;
所述赋值子单元用于为所述标准集中所有的所述访客数据赋予权重值。
优选地,所述网站访客行为习惯评估***还包括潜在访客管理单元,所述访客管理单元与所述评估单元相连;
所述访客管理单元用于储存有行为习惯的新访客数据并进行标记。
在本发明的技术方案中,利用邻近算法,并依据新访客与历史访客之间的相似性,对网站访客的行为习惯进行准确评估。由于本方案是将历史访客的行为习惯进行收集、整理形成标准集,然后通过该标准集与新访客的行为习惯进行计算、比较,并依据相似值确定出与新访客的行为习惯最为接近的样本集,由样本集的行为习惯对新访客进行评估。整套方案所使用到的数据均为访客所产生,因此更加贴近真实情况,能把容易被忽略的一些隐含信息包含在算法之中。利用此方案得出的结果,使网站主可以准确地针对有行为习惯的访客进行后续的跟踪业务行为,省去了网站主亲自评估访客行为习惯所花去的大量时间,同时也可以提高网站创造利益的效率。同时,本申请可对访客的行为习惯评估结果进行柔性处理,给出新访客是否有行为习惯的概率,以供网站主进行判断,使评估结果更接近于人类的判断。
附图说明
图1为本发明网站访客行为习惯评估方法第一实施例的流程示意图;
图2为本发明网站访客行为习惯评估方法第二实施例的流程示意图;
图3为本发明网站访客行为习惯评估***第一实施例的功能模块示意图;
图4为评估***的流程示意图;
图5为评估效果分析示意图;
图6为本发明网站访客行为习惯评估***第二实施例的功能模块示意图;
图7为本发明网站访客行为习惯评估***第四实施例的功能模块示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明的第一实施例提供一种网站访客行为习惯评估方法,所述网站访客行为习惯评估方法包括如下步骤:
步骤S10,采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;
步骤S20,存储所述标准集;
步骤S30,根据所述标准集,构建网站访客行为习惯价值的计算模型;
步骤S40,通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;
步骤S50,从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;
步骤S60,向网站主返回新访客的行为习惯数据。
在本发明的技术方案中,利用邻近算法,并依据新访客与历史访客之间的相似性,对网站访客的行为习惯进行准确评估。由于本方案是将历史访客的行为习惯进行收集、整理形成标准集,然后通过该标准集与新访客的行为习惯进行计算、比较,并依据相似值确定出与新访客的行为习惯最为接近的样本集,由样本集的行为习惯对新访客进行评估。整套方案所使用到的数据均为访客所产生,因此更加贴近真实情况,能把容易被忽略的一些隐含信息包含在算法之中。利用此方案得出的结果,使网站主可以准确地针对有行为习惯的访客进行后续的跟踪业务行为,省去了网站主亲自评估访客行为习惯所花去的大量时间,同时也可以提高网站创造利益的效率。同时,本申请可对访客的行为习惯评估结果进行柔性处理,给出新访客是否有行为习惯的概率,以供网站主进行判断,使评估结果更接近于人类的判断。
在本实施例中,从网站历史记录中的访客数据里提取出历史访客的行为习惯,依据此信息采集访客信息以建立标准集,并进行存储。由于此处的全部信息均来自于网站的历史访客,因此获取的信息最为贴近访客的真实行为习惯。
根据所述标准集,构建网站访客行为习惯的计算模型,并通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值。此步骤所得到的相似值数据是作为形成样本集的判断依据,此数据的准确程度直接影响到整个评估方法的有效性。
从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯。该相似值代表新访客的行为习惯与历史访客的行为习惯之间的相似程度,当相似程度越高时,越具有参考价值。同时,当样本集的访客的预设数量不同时,将会影响样本集中历史访客的行为习惯与新访客的行为习惯之间的整体的相似度。当预设数量越大时,整体相似度越低,但历史访客的行为数据越多;当预设数量越小时,整体相似度越高,但历史访客的行为数据越少。
当评估完成后,向网站主返回新访客的行为习惯数据,以供网站主依此做出判断,决定是否向新访客做进一步的特定业务行为。
请参阅图2,基于本发明网站访客行为习惯评估方法的第一实施例,本发明的网站访客行为习惯评估方法的第二实施例中,所述步骤S10包括:
步骤S11,监控网站并采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据;
步骤S12,将所采集的所述访客数据量化为布尔型,并形成所述标准集。
具体地,所述步骤S11包括:
步骤S11a,监控网站,将网站的日志文件导入数据预处理程序,得到包含时间、ip地址、用户浏览页面、用户请求动作和状态的用户事务集对象,形成访客数据。
对网站进行监控,由于网络服务器日志并非是专门用于做数据挖掘的,因此必须对其进行数据预处理以获得“纯净”数据。数据预处理的流程通过线下进行,将日志文件导入数据预处理程序,得到包含时间(time)、ip地址(ip)、访客浏览页面(u-stem)、访客请求动作(u-query)、状态(status)等的访客事务集对象。再将其进行数据化处理,从而获取可用的信息,为形成所述标准集奠定基础。
所述访客数据包含有属性数据和业务行为数据,可以帮助网站主从不同方向对访客进行分析,从而可以更加全面地对访客做出判断,提高评估的准确度。
基于本发明网站访客行为习惯评估方法的第一实施例,本发明的网站访客行为习惯评估方法的第三实施例中,所述步骤S40包括:
步骤S41,对访客事务集挖掘出频繁项集,从而生成每个访客对应的频繁访问路径;
步骤S42,通过FCC路径聚类方法,确定访客行为聚类,形成所述标准集。
其中FCC路径聚类方法中,访客之间的CM系数Sij采用如下公式确定:
Figure BDA0002589749300000071
Ui表示访客i频繁的访问路径,Ui={V1,V2,…,Vn},Uj表示访客j频繁的访问路径,Uj={V1,V2,…,Vn},Vn代表访客i或访客j频繁访问过的页面n;comm(Ui,Uj)表示访客i和访客j的频繁访问路径中最长公共路径长度;max(Ui,Uj)表示访客i、访客j的频繁访问路径中包含的最长节点数。
对访客事务集利用改进的Apriori算法挖掘出频繁项集,从而可生成每个访客对应的频繁访问路径,该频繁访问路径作为后续聚类的基础。
访客行为聚类采用FCC路径聚类方法,设访客频繁的访问路径为Ui={V1,V2,…,Vn},Vn代表访客i频繁访问过的页面n,通过计算访客之间的CM系数Sij,将Sij值相近的访客归为一类。根据实验,我们发现CM系数Sij=0.3时聚类效果最佳。对移动手机单元的日志数据进行聚类,聚类结果以二维数据表的形式存储,其中user_id属性列记录的是访客编号,class属性中记录了访客所属类别,每个聚类簇中包含了大量具有相似行为的访客。
基于本发明网站访客行为习惯评估方法的第一实施例至第三实施例中的任一项,本发明的网站访客行为习惯评估方法的第四实施例中,所述网站访客行为习惯评估方法还包括如下步骤:
步骤S70,储存有行为习惯的新访客数据并进行标记。
对于有行为习惯的新访客,我们对其数据进行标记并储存,以便后期根据该标记查找对应的访客数据信息,为后续评估、服务提供参考。如此可以更加有效地提升信息处理效率,提高判断准确度。
基于本发明网站访客行为习惯评估方法的第一实施例至第三实施例中的任一项,本发明的网站访客行为习惯评估方法的第五实施例中,所述网站访客行为习惯评估方法还包括如下步骤:
步骤S80,建立有行为习惯的新访客与网站主之间的实时通信通道。
为了进一步提升网站主与新访客尤其是有行为***台。
此外,为实现上述目的,请参阅图3,本发明提供一种网站访客行为习惯评估***,所述网站访客行为习惯评估***的第一实施例中,所述网站访客行为习惯评估***应用如所述网站访客行为习惯评估方法的第一实施例至第五实施例中的任一项所述的方法的步骤。
所述网站访客行为习惯评估***包括监控单元、存储单元、模型训练单元、计算单元、评估单元及数据返回单元;
所述存储单元与所述监控单元相连,所述模型训练单元与所述存储单元相连,所述计算单元分别与所述存储单元及模型训练单元相连,所述评估单元与所述计算单元相连,所述数据返回单元与所述评估单元相连;
所述存储单元与所述监控单元相连,所述模型训练单元与所述存储单元相连,所述计算单元分别与所述存储单元及模型训练单元相连,所述评估单元与所述计算单元相连,所述数据返回单元与所述评估单元相连;
所述监控单元用于采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;
所述存储单元用于存储所述标准集;
所述模型训练单元用于根据所述标准集,构建网站访客行为习惯的计算模型;
所述计算单元用于通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;
所述评估单元用于从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;
所述数据返回单元用于向网站主返回新访客的行为习惯数据。
该***应用所述网站访客行为习惯评估方法所述的步骤,分别设立有监控单元、存储单元、模型训练单元、计算单元、评估单元和数据返回单元,各单元分分别执行不同的任务,共同协作对新访客的行为习惯进行评估。
访客浏览网站时经常带有明确目的性,访客很多浏览行为都能很好地反映访客的兴趣爱好。通过评估***,从服务器日志中挖掘出代表访客兴趣的模型,利用路经聚类方法进行聚类,将大规模访客集合转变为具有近似爱好的访客簇。访客行为聚类后,在每个聚类访客簇中应用改进的协同过滤技术进行处理,将评分矩阵中没有任何关系的访客转变为具有一定相似性的访客集合,提高了相似性度量结果的准确性。改进的协同过滤技术是将访客对某个商品的评分转变为对某类商品的评分,减小了访客评分横向的宽度,并通过公式计算出访客的评分值,避免了访客显示评分难获得和真实性的问题,从而进一度降低了数据稀疏性,提高了评估精度。如图4所示,所述评估***包括三个子***:访客聚类子***、评估子***和评估反馈子***。
所述访客聚类子***主要从Web服务器日志中提取出访客频繁访问路径序列,利用聚类技术进行聚类,生成访客行为聚类模型库。
所述评估子***利用改进的访客-商品类协同过滤评估算法,进行个性化评估。访客-商品类协同过滤评估是根据访客-商品类评分矩阵计算出访客的最近邻,并根据最近邻居信息对目标访客生成评估。
所述评估反馈子***通过动态调整访客的评分值,实现最大限度的为访客提供个性化的服务。
以中国零售网站为试验对象,考虑到该公司规模以及为避免因各类促销而引起销售量的变化等因素,选取2009年6月到2009年9月促销较少月份日志文件作为试验对象。前3个月的日志数据和访客的购买记录作为训练集9月份的数据作为测试集。随机抽取了2000个访客进行跟踪调查,以邮件的形式采集到1207个访客显示评分。选取基于余弦和基于项目评分预测的协同过滤评估算法与本文进行对比。通过平均绝对偏差MAE的计算,评估效果分析如图5所示,可知,在这种实验条件下,基于访客行为的个性化评估***均具有最小的MAE。由此可知,与传统的协同过滤***相比,基于访客行为的个性化的***可以提高评估准确度。
请参阅图6,基于本发明网站访客行为习惯评估***的第一实施例,本发明的网站访客行为习惯评估***的第二实施例中,所述监控单元包括数据采集子单元及量化子单元,所述量化子单元与所述数据采集子单元相连。
所述数据采集子单元用于采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据;
所述量化子单元用于将所采集的所述访客数据量化为布尔型,并形成所述标准集。
基于本发明网站访客行为习惯评估***的第一实施例,本发明的网站访客行为习惯评估***的第三实施例中,所述模型训练单元包括赋值子单元,所述赋值子单元与所述存储单元相连。
所述赋值子单元用于为所述标准集中所有的所述访客数据赋予权重值。
由于各类访客具有不同的特性,而各种特性将对访客的行为***衡各种特性对访客的行为习惯的影响以保证评估的准确度,我们将为所述访客数据赋予权重值。
请参阅图7,基于本发明网站访客行为习惯评估***的第一实施例至第三实施例中的任一项,本发明的网站访客行为习惯评估***的第四实施例中,所述网站访客行为习惯评估***还包括潜在访客管理单元和访客追踪单元;所述访客管理单元与所述评估单元相连,所述访客追踪单元与所述评估单元相连。
所述访客管理单元用于储存有行为习惯的新访客数据并进行标记;
所述访客追踪单元用于建立有行为习惯的新访客与网站主之间的实时通信通道。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种网站访客行为习惯评估方法,其特征在于,所述网站访客行为习惯评估方法包括如下步骤:
采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;
存储所述标准集;
根据所述标准集,构建网站访客行为习惯的计算模型;
通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;
从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;
向网站主返回新访客的行为习惯数据。
2.根据权利要求1所述的一种网站访客行为习惯评估方法,其特征在于,所述采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据的步骤,包括如下步骤:
监控网站并采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据;
将所采集的所述访客数据量化为布尔型,并形成所述标准集。
3.根据权利要求2所述的一种网站访客行为习惯评估方法,其特征在于,所述监控网站并采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据的步骤,包括如下步骤:
监控网站,将网站的日志文件导入数据预处理程序,得到包含时间、ip地址、访客浏览页面、访客请求动作和状态的访客事务集对象,形成访客数据。
4.根据权利要求3所述的一种网站访客行为习惯评估方法,其特征在于,所述通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值的步骤,包括如下步骤:
对访客事务集挖掘出频繁项集,从而生成每个访客对应的频繁访问路径;
通过FCC路径聚类方法,确定访客行为聚类,形成所述标准集;
其中FCC路径聚类方法中,访客之间的CM系数Sij采用如下公式确定:
Figure FDA0002589749290000021
Ui表示访客i频繁的访问路径,Ui={V1,V2,…,Vn},Uj表示访客j频繁的访问路径,Uj={V1,V2,…,Vn},Vn代表访客i或访客j频繁访问过的页面n;comm(Ui,Uj)表示访客i和访客j的频繁访问路径中最长公共路径长度;max(Ui,Uj)表示访客i、访客j的频繁访问路径中包含的最长节点数。
5.根据权利要求1-4中任一项所述的一种网站访客行为习惯评估方法,其特征在于,所述网站访客行为习惯评估方法还包括如下步骤:
储存有行为习惯的新访客数据并进行标记。
6.根据权利要求1-4中任一项所述的一种网站访客行为习惯评估方法,其特征在于,所述网站访客行为习惯评估方法还包括如下步骤:
建立有行为习惯的新访客与网站主之间的实时通信通道。
7.一种网站访客行为习惯评估***,其特征在于,应用如权利要求1-6中任一项所述的网站访客行为习惯评估方法;所述网站访客行为习惯评估***包括监控单元、存储单元、模型训练单元、计算单元、评估单元及数据返回单元;
所述存储单元与所述监控单元相连,所述模型训练单元与所述存储单元相连,所述计算单元分别与所述存储单元及模型训练单元相连,所述评估单元与所述计算单元相连,所述数据返回单元与所述评估单元相连;
所述监控单元用于采集访客信息以建立标准集,所述标准集包括网站历史记录中一定量的访客数据;
所述存储单元用于存储所述标准集;
所述模型训练单元用于根据所述标准集,构建网站访客行为习惯的计算模型;
所述计算单元用于通过所述计算模型分别计算出新访客与所述标准集中所有访客的相似值;
所述评估单元用于从所述标准集中选出与新访客的所述相似值最高的预设数量的访客,组成样本集,并根据所述样本集中的访客的行为习惯,评估新访客的行为习惯;
所述数据返回单元用于向网站主返回新访客的行为习惯数据。
8.根据权利要求7所述的一种网站访客行为习惯评估***,其特征在于,所述监控单元包括数据采集子单元及量化子单元,所述量化子单元与所述数据采集子单元相连;
所述数据采集子单元用于采集一段时间内的所述访客数据,所述访客数据包括属性数据和业务行为数据;
所述量化子单元用于将所采集的所述访客数据量化为布尔型,并形成所述标准集。
9.根据权利要求7所述的一种网站访客行为习惯评估***,其特征在于,所述模型训练单元包括赋值子单元,所述赋值子单元与所述存储单元相连;
所述赋值子单元用于为所述标准集中所有的所述访客数据赋予权重值。
10.根据权利要求7-9中任一项所述的一种网站访客行为习惯评估***,其特征在于,所述网站访客行为习惯评估***还包括潜在访客管理单元,所述访客管理单元与所述评估单元相连;
所述访客管理单元用于储存有行为习惯的新访客数据并进行标记。
CN202010692341.5A 2020-07-17 2020-07-17 网站访客行为习惯评估方法及*** Pending CN112001742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010692341.5A CN112001742A (zh) 2020-07-17 2020-07-17 网站访客行为习惯评估方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010692341.5A CN112001742A (zh) 2020-07-17 2020-07-17 网站访客行为习惯评估方法及***

Publications (1)

Publication Number Publication Date
CN112001742A true CN112001742A (zh) 2020-11-27

Family

ID=73467025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010692341.5A Pending CN112001742A (zh) 2020-07-17 2020-07-17 网站访客行为习惯评估方法及***

Country Status (1)

Country Link
CN (1) CN112001742A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114389901A (zh) * 2022-03-24 2022-04-22 湖南三湘银行股份有限公司 一种基于在线化的客户认证***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012902A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 网站访客价值评估***及方法
CN102096692A (zh) * 2009-12-11 2011-06-15 阿里巴巴集团控股有限公司 网站访客价值评估***及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012902A (zh) * 2009-09-04 2011-04-13 阿里巴巴集团控股有限公司 网站访客价值评估***及方法
CN102096692A (zh) * 2009-12-11 2011-06-15 阿里巴巴集团控股有限公司 网站访客价值评估***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王义等: "基于用户行为的个性化推荐***的设计与应用", 《计算机***应用》, no. 08, 15 August 2010 (2010-08-15), pages 3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114389901A (zh) * 2022-03-24 2022-04-22 湖南三湘银行股份有限公司 一种基于在线化的客户认证***

Similar Documents

Publication Publication Date Title
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析***
CN103714139B (zh) 一种移动海量客户群识别的并行数据挖掘方法
CN111191122A (zh) 一种基于用户画像的学习资源推荐***
CN108021651B (zh) 一种网络舆情风险评估方法及装置
Heymann et al. Turkalytics: analytics for human computation
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN107291755B (zh) 一种终端推送方法及装置
US9411917B2 (en) Methods and systems for modeling crowdsourcing platform
CN103970752A (zh) 独立访问者数量估算方法和***
WO2011147800A1 (en) Method of identifying remote users of websites
CN113342976A (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN103854206A (zh) 一种分析人群特征的方法和设备
CN112435078A (zh) 一种用户忠诚度分类的方法
CN111310032A (zh) 资源推荐方法、装置、计算机设备及可读存储介质
Yuan et al. Exploring the effectiveness of location‐based social media in modeling user activity space: A case study of Weibo
Lansley et al. Challenges to representing the population from new forms of consumer data
Sumathi et al. Automatic Recommendation of Web Pages in Web Usage Mining C
CN103605746A (zh) 获取访客质量的方法、装置及***
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN112001742A (zh) 网站访客行为习惯评估方法及***
Chakraborty et al. Clustering of web sessions by FOGSAA
Bhushan et al. Automatic recommendation of web pages for online users using web usage mining
CN105447148B (zh) 一种Cookie标识关联方法及装置
CN111882224A (zh) 对消费场景进行分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201127

RJ01 Rejection of invention patent application after publication