CN114417197A - 一种访问记录处理方法、装置及存储介质 - Google Patents

一种访问记录处理方法、装置及存储介质 Download PDF

Info

Publication number
CN114417197A
CN114417197A CN202111582729.0A CN202111582729A CN114417197A CN 114417197 A CN114417197 A CN 114417197A CN 202111582729 A CN202111582729 A CN 202111582729A CN 114417197 A CN114417197 A CN 114417197A
Authority
CN
China
Prior art keywords
page
access
node
record
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111582729.0A
Other languages
English (en)
Inventor
贾亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202111582729.0A priority Critical patent/CN114417197A/zh
Publication of CN114417197A publication Critical patent/CN114417197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施方式公开了一种访问记录处理方法、装置及存储介质,所述访问记录处理方法包括:获取用户的历史访问记录;所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息;生成对应于所述访问页面和/或引用信息的页面节点;基于所述访问页面的引用信息确定页面节点之间的连接关系;根据所述页面节点和页面节点之间的连接关系构建页面访问路径树。本申请提供的一种访问记录处理方法、装置及存储介质,能够快速有效地对用户的访问记录进行分析,达到页面访问次数统计以及异常页面判断等技术效果,提高了数据分析效率,改善了数据处理方法。

Description

一种访问记录处理方法、装置及存储介质
本申请是申请日为2017年01月13日,申请号为:201710024279.0,名称为“一种异常访问页面的检测方法、装置及数据分析方法”的专利申请的分案申请。
技术领域
本申请涉及网络数据通信技术领域,特别涉及一种访问记录处理方法、装置及存储介质。
背景技术
随着网络数据通信技术的不断发展,用户在访问网站时,网站的服务器通常可以采集用户的访问记录。通过对用户的访问记录进行分析,从而可以获知用户在进行网站访问时的行为。例如,购物网站通过对用户浏览商品的访问记录进行分析,从而可以获知用户对哪些商品感兴趣,从而可以向用户推送其感兴趣的商品信息。
目前,在用户通过客户端访问网站时,网站的服务器与用户的客户端之间通常可以进行自动地数据交互。例如,网站的服务器可以向用户的客户端发送信息获取请求,用户的客户端接收到该信息获取请求后,可以模拟用户的访问行为,向网站的服务器反馈用户信息。在这个过程中,用户的客户端向网站的服务器反馈用户信息的访问记录并不是用户真实的访问记录,这一类的访问记录中包含的页面通常不能正常显示。为了对用户的行为进行精确分析,通常需要检测出异常访问页面,并将异常访问页面从用户的访问记录中去除。
现有技术中在检测异常访问页面时,可以通过人工筛选的方式,将每个访问记录中包含的网址输入浏览器中,如果浏览器不能够正常显示页面,则表明输入的网址为异常网址,这样,该异常网址对应的页面也就是异常访问页面。
现有技术中这种通过人工检测异常访问页面的方式,在面对海量的访问记录时,需要花费相当长的时间来检测异常访问页面,这样会导致检测异常访问页面的效率较低,进而也会降低对用户行为进行分析的效率。
发明内容
本申请实施方式的目的是提供一种访问记录处理方法、装置及存储介质,能够提高访问记录处理及分析的效率。
为实现上述目的,本申请实施方式一方面提供一种访问记录处理方法,所述方法包括:获取用户的历史访问记录;所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息;生成对应于所述访问页面和/或引用信息的页面节点;基于所述访问页面的引用信息确定页面节点之间的连接关系;根据所述页面节点和页面节点之间的连接关系构建页面访问路径树。
为实现上述目的,本申请实施方式另一方面还提供一种访问记录处理装置,所述装置包括:历史访问记录获取模块,用于获取用户的历史访问记录;所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息;页面节点生成模块,用于生成对应于所述访问页面和/或引用信息的页面节点;连接关系确定模块,用于基于所述访问页面的引用信息确定页面节点之间的连接关系;页面访问路径树构建模块,用于根据所述页面节点和页面节点之间的连接关系构建页面访问路径树。
为实现上述目的,本申请实施方式另一方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令,所述指令被执行时实现上述访问记录处理方法。
由上可见,本申请实施方式提供的一种访问记录处理方法、装置及存储介质,在获取到用户的历史访问记录后,根据访问记录的访问页面和访问页面的引用信息构建页面节点,并基于引用信息确定页面节点之间的连接关系,进而生成对应于历史访问记录的页面访问路径树,从而能够有效快速地对用户的访问记录进行分析,达到页面访问次数统计以及异常页面判断等技术效果,提高了数据分析效率,改善了数据处理方法。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式提供的一种异常访问页面的检测方法流程图;
图2为本申请实施方式中页面访问路径树的示意图;
图3为本申请实施方式中异常访问页面的检测装置的结构示意图;
图4为本申请实施方式中数据分析方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
本申请实施方式提供一种异常访问页面的检测方法,请参阅图1,所述方法包括以下步骤。
S1:获取用户的历史访问记录,所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息。
在本实施方式中,当用户通过客户端访问预设网站时,可以向所述预设网站的服务器发送访问请求。所述访问请求中可以包括用于指向所述预设网站的标识。例如,所述标识可以是所述预设网站的域名,也可以是所述预设网站的服务器的IP地址。当所述标识为所述预设网站的域名时,用户的客户端可以通过域名***(Domain Name System,DNS)服务器对所述域名进行解析,以得到与所述域名对应的IP地址。这样,用户的客户端便可以将所述访问请求发送至解析得到的IP地址指向的服务器处。
在本实施方式中,所述访问请求中还可以包括所述用户的客户端的IP地址,这样,当预设网站的服务器接收到用户的客户端发来的访问请求后,可以向所述用户的客户端的IP地址处反馈针对所述访问请求的页面信息。这样,所述用户的客户端便可以接收所述预设网站的服务器发来的页面信息,并在当前页面中展示所述页面信息。
在本实施方式中,在用户访问预设网站的过程中,所述预设网站的服务器可以采集用户的访问记录。具体地,采集用户的访问记录的方式可以包括保存用户的每一条访问请求或者在向用户的客户端反馈页面信息时,在反馈的页面信息中添加用于获取用户信息的脚本。这样,在用户的客户端接收到服务器反馈的页面信息时,可以执行所述页面信息中添加的脚本,从而可以将所述用户的客户端中的用户信息发送给所述预设网站的服务器。在本实施方式中,所述用户信息可以包括客户端中浏览器的信息、访问时间、cookie信息等。
在本实施方式中,所述预设网站的服务器采集了用户的访问记录后,可以将用户的访问记录存储于预设存储器内。所述预设存储器可以位于所述预设网站的服务器中,也可以作为一个独立的存储服务器,该存储服务器能够被所述预设网站的服务器访问。
在本实施方式中,所述预设存储器中存储的用户的访问记录可以作为用户的历史访问记录。在所述预设存储器中,属于同一个用户的历史访问记录可以具备相同的用户标识。其中,所述用户标识可以是用户在所述预设网站中注册的账号,也可以是用户的客户端的IP地址。这样,根据不同的用户标识,便可以从所述预设存储器中查询不同的历史访问记录。
在本实施方式中,获取用户的历史访问记录的方式可以包括从所述预设存储器中读取与用户标识相对应的历史访问记录。具体地,用于异常访问页面的检测装置可以向所述预设网站的服务器提供包含用户标识的数据获取请求。这样,所述预设网站的服务器可以从所述数据获取请求中提取所述用户标识,从而可以向所述检测装置反馈所述用户标识对应的历史访问数据。在本实施方式中,所述检测装置可以是独立的处理数据处理功能的电子设备,还可以是运行于所述电子设备或者所述预设网站的服务器中的程序。
在本实施方式中,所述用户的历史访问记录中通常可以包括访问页面的页面标识和所述访问页面的引用信息。其中,所述访问页面的页面标识可以是用于指向所述访问页面的字符串。例如,所述页面标识可以是统一资源定位符(Uniform Resource Locator,URL)。所述引用信息可以表明所述访问页面是从哪个页面链接来的。所述引用信息中可以包括所述访问页面的上一级页面的页面标识。例如,所述访问页面的页面标识可以为www.jd.com,所述访问页面的引用信息中包括www.***.com的页面标识。这就表明www.jd.com的访问页面是从www.***.com处链接来的。
在本实施方式中,所述历史访问记录中的每条访问记录均可以按照固定格式进行编写。所述固定格式可以限定访问记录中的各个组成部分以及各个组成部分的排列顺序。例如,所述访问记录中可以包括访问页面字段和引用页面字段,每个字段的开头均可以为预先设定的头标识。例如,对于访问页面字段而言,其头标识可以是“Request:”,对于引用页面字段而言,其头标识可以是“Referer:”。在头标识之后,可以分别填充访问页面的页面标识或者引用页面的页面标识。
S3:根据所述页面标识和所述引用信息,统计所述历史访问记录中各个页面被访问的次数并记录各个页面对应的引用数据。
在本实施方式中,所述历史访问记录中包含的页面标识可以指向被访问的页面,所述历史访问记录中包含的引用信息则可以指向被引用的页面。
在本实施方式中,所述各个页面对应的引用数据可以包括各个页面被引用的次数。具体地,可以遍历所述历史访问记录中的每条记录,并统计所述历史访问记录中各个页面被访问的次数以及各个页面被引用的次数。具体地,在所述历史访问记录中,当预设页面的页面标识出现在一条记录中的访问页面字段时,可以将该预设页面对应的被访问次数加1;当预设页面的页面标识出现在一条记录中的引用页面字段时,可以将该预设页面对应的被引用次数加1。这样,在逐一统计每条访问记录后,便可以得到所述用户的历史访问记录中中各个页面被访问的次数以及各个页面被引用的次数。
需要说明的是,在某些访问记录中,访问页面可能不存在对应的引用页面,那么在这些访问记录中的引用页面字段便可以为空。例如,在一条访问记录中,访问页面为www.jd.com,用户在访问该页面时,是直接在浏览器中输入www.jd.com的网址,那么在该访问记录中便不存在引用页面字段。
在本实施方式中,所述各个页面对应的引用数据还可以包括各个页面对应的引用页面。具体地,可以遍历所述历史访问记录中的每条记录,统计所述历史访问记录中各个页面被访问的次数并记录各个页面对应的引用页面。具体地,在所述历史访问记录中,当预设页面的页面标识出现在一条记录中的访问页面字段时,可以将该预设页面对应的被访问次数加1。当预设页面的页面标识出现在一条记录中的引用页面字段时,则表明该预设页面可以作为该记录中当前访问页面的引用页面。这样,在逐一统计每条访问记录后,便可以得到所述用户的历史访问记录中各个页面被访问的次数以及各个页面对应的引用页面。
同样需要说明的是,在某些访问记录中,访问页面可能不存在对应的引用页面,那么在这些访问记录中的引用页面字段便可以为空。例如,在一条访问记录中,访问页面为www.jd.com,用户在访问该页面时,是直接在浏览器中输入www.jd.com的网址,那么在该访问记录中便不存在引用页面字段。也就是说,并不是所有的页面都具备引用页面。
S5:根据各个页面被访问的次数以及各个页面对应的引用数据,从所述历史访问记录中检测异常访问页面。
在本实施方式中,由于异常访问页面通常不能正常显示,那么异常访问页面通常无法作为其它页面的引用页面。也就是说,当预设页面为不能正常显示的页面时,其对应的被引用的次数应当为零。基于此,可以根据各个页面被引用的次数来判断哪些页面为异常访问页面。
在本实施方式中,如果仅根据页面被引用的次数来检测异常访问页面,会错误地将正常页面判定为异常访问页面。原因在于:用户在访问某些正常的页面时,可能并没有通过这些正常的页面进一步地访问其它页面,那么这些正常的页面也没有被其它页面引用过。如果仅根据页面被引用的次数来检测异常访问页面,那么会错误地将这些正常的页面判定为异常访问页面。
在本实施方式中,为了减少页面误判的情况,可以在根据页面被引用的次数检测异常访问页面时,同时参考页面被访问的次数。具体地,当预设页面被访问的次数大于或者等于预设阈值,并且所述预设页面没有被其它页面引用时,可以判定所述预设页面为异常访问页面。
在本实施方式中,所述预设阈值可以根据用户的历史访问记录的数量来决定。具体地,可以预先设定判定的比例系数,将用户的历史访问记录的数量乘以所述比例系数则可以得到所述预设阈值。这样,当预设页面被访问的次数大于或者等于预设阈值时,表明所述预设页面存在大量的访问记录。此时,如果该预设页面没有被其它页面引用,则可以判定所述预设页面为异常访问页面。
在本实施方式中,异常访问页面还可以是基于网站的服务器和用户的客户端之间自动进行数据交互产生的,那么异常访问页面通常不具备对应的引用页面。也就是说,当预设页面为异常访问页面时,其不具备对应的引用页面。基于此,可以根据各个页面对应的引用页面来判断哪些页面为异常访问页面。
在本实施方式中,如果仅根据各个页面对应的引用页面来检测异常访问页面,会错误地将正常页面判定为异常访问页面。原因在于:用户在访问某些正常的页面时,可能是直接在浏览器中输入这些正常页面的网址进行访问的。如果仅根据各个页面对应的引用页面来检测异常访问页面,那么会错误地将这些正常的页面判定为异常访问页面。
在本实施方式中,为了减少页面误判的情况,可以在根据各个页面对应的引用页面检测异常访问页面时,同时参考页面被访问的次数。具体地,当预设页面被访问的次数大于或者等于预设阈值,并且所述预设页面不具备引用页面时,可以判定所述预设页面为异常访问页面。
在本实施方式中,所述预设阈值可以根据用户的历史访问记录的数量来决定。具体地,可以预先设定判定的比例系数,将用户的历史访问记录的数量乘以所述比例系数则可以得到所述预设阈值。这样,当预设页面被访问的次数大于或者等于预设阈值时,表明所述预设页面存在大量的访问记录。此时,如果该预设页面不具备引用页面,则可以判定所述预设页面为异常访问页面。
在本实施方式中,在检测出异常访问页面后,可以将包含所述异常访问页面的页面标识的访问记录从所述用户的历史访问记录中删除,这样便可以对用户的行为进行正确的分析。
在一个具体应用场景中,可以获取用户在访问京东商城网站时产生的历史访问记录。其中,每条访问记录中均可以包括访问页面的URL和该访问页面对应的引用页面的URL。具体地,所述引用页面的URL可以在访问记录的头文件(header)中。在头文件中可以存在referer字段,在所述referer字段中便可以填写所述访问页面对应的引用页面的URL。在该应用场景中,可以逐一对用户的历史访问记录进行识别,当预设页面的页面标识出现在一条记录中的访问页面字段时,可以将该预设页面对应的被访问次数加1;当预设页面的页面标识出现在一条记录中的referer字段时,可以将该预设页面对应的被引用次数加1。这样,在逐一统计每条访问记录后,便可以得到所述用户的历史访问记录中各个页面被访问的次数以及各个页面被引用的次数。具体的统计结果可以如表1所示。
表1历史访问记录中各个页面的被访问次数和被引用次数
Figure BDA0003426759420000061
Figure BDA0003426759420000071
从表1中可以看出,www.jd.com/b在被大量访问时,却没有被任何其它页面引用,由此可见,该页面可以为异常页面。
在本申请一个实施方式中,所述历史访问记录中访问页面的引用信息可以通过脚本从用户的客户端处获取。具体地,当用户通过客户端访问当前页面时,可以向当前页面的服务器发送页面访问请求。同时,所述客户端还可以在本地存储所述当前页面的引用页面的页面标识,所述引用页面的页面标识则可以作为所述当前页面对应的引用信息。
在本实施方式中,网站的服务器响应于用户的客户端发来的页面访问请求,可以向所述用户的客户端反馈页面信息,其中,所述页面信息中可以包括用于获取引用信息的脚本。所述脚本可以是通过预设编程语言进行编辑,并且能够被用户的客户端执行的代码段。例如,所述脚本可以是JS脚本或者PHP脚本。
在本实施方式中,当用户的客户端接收到服务器发来的添加了脚本的页面信息时,可以自动执行所述脚本。所述脚本在执行时,可以获取客户端的信息。获取的信息例如可以包括浏览器的版本信息、cookie信息、当前页面的引用信息、访问时间信息等。这样,客户端便可以向网站的服务器发送所述页面访问请求指向的当前页面的引用信息。服务器在接收到所述用户的客户端执行所述脚本后发来的引用信息后,可以将接收的所述引用信息以及所述页面访问请求中的当前页面信息一同写入用户的历史访问记录中。
请参阅图2,在本申请一个实施方式中,可以通过构建页面访问路径树的方式对用户的历史访问记录进行处理。所述页面访问路径树可以包括各个页面的页面节点以及各个页面之间的连接关系。具体地,在本实施方式中,可以根据所述历史访问记录,生成所述用户的页面访问路径树,所述页面访问路径树中包括至少一个页面节点,其中,具备引用关系的页面节点之间存在路径连线,所述路径连线从被引用的页面节点指向被访问的页面节点。
在本实施方式中,历史访问记录中的每个页面均可以对应一个页面节点,其中,每个页面节点代表的页面可以是被访问的页面,同样,还可以是被引用的页面。例如,如图2所示,在一条访问记录中,www.jd.com可以作为被访问的页面,其对应的被引用的页面可以是www.***.com,这表明在该访问记录中,www.jd.com是从www.***.com处链接而来的。在另一条访问记录中,www.jd.com/a可以作为被访问的页面,其对应的被引用的页面可以是www.jd.com,这表明在该访问记录中,www.jd.com/a是从www.jd.com处链接而来的。在另一条访问记录中,www.jd.com/b可以作为被访问的页面,其对应的被引用的页面可以是www.jd.com,这表明在该访问记录中,www.jd.com/b是从www.jd.com处链接而来的。
由上可见,对于同一个页面地址,在不同的访问记录中,其既可以作为被访问的页面,也可以作为被引用的页面。在本实施方式中,具备引用关系的页面节点可以指其中一个页面节点对应着当前被访问的页面,另一个页面节点对应着所述当前被访问的页面的引用页面。这样,页面节点之间的路径连线便可以代表这种引用关系,其中,所述路径连线可以是一个具备方向的连线,其可以从被引用的页面节点指向被访问的页面节点。
在本申请一个实施方式中,在构建页面访问路径树时,可以将所述历史访问记录中的每条记录按照访问时间进行排序。其中,所述访问时间可以是用户的客户端向网站的服务器发送页面访问请求的时间点。根据所述访问时间对每条记录进行排序,从而可以遵循用户在访问网站时的浏览顺序。
在本实施方式中,对历史访问记录中的每条记录进行排序后,可以遍历所述历史访问记录中的每条记录,并为每条记录中的访问页面/引用页面创建对应的页面节点。为了避免重复创建页面节点,可以判断当前记录中的访问页面/引用页面是否存在页面节点。若访问页面/引用页面存在页面节点,则无须重复创建。
在本实施方式中,可以为所述当前记录中不存在页面节点的访问页面/引用页面创建对应的页面节点,并在引用页面的页面节点和访问页面的页面节点之间建立路径连线。例如,当前的访问记录中,访问页面为www.jd.com,该访问页面的引用页面为www.***.com,其中,www.***.com已经存在页面节点,则可以不用重复创建。而www.jd.com不具备页面节点,此时则可以创建www.jd.com对应的页面节点。在该访问记录中,www.jd.com是从www.***.com链接来的,那么则可以在www.jd.com的页面节点和www.***.com的页面节点之间建立路径连线,该路径连线的方向可以是从www.***.com的页面节点指向www.jd.com的页面节点。这样,对历史访问记录中的每条访问记录均进行上述创建页面节点和路径连线的过程,从而可以生成所述用户的历史访问记录对应的页面访问路径树。
在本申请一个实施方式中,所述页面访问路径树中的每个页面节点均可以对应被访问次数和被引用次数。其中,若当前记录中的访问页面/引用页面已经存在页面节点,则可以将页面节点对应的被访问次数/被引用次数增加一次。这样,在创建完页面访问路径树之后,每个页面节点便可以对应总共的被访问次数和被引用次数。这样,在统计所述历史访问记录中各个页面被访问的次数时,可以统计所述页面访问路径树中各个页面节点对应的被访问次数。同样地,在统计各个页面被引用的次数时,可以统计所述页面访问路径树中各个页面节点对应的被引用次数。
在本申请一个实施方式中,在记录各个页面对应的引用页面时,可以遍历所述页面访问路径树中的每个页面节点,并记录被当前页面节点引用的各个页面节点,这样,可以将记录的页面节点对应的页面作为所述当前页面对应的引用页面。在对页面访问路径树中的每个页面节点进行统计后,便可以得到各个页面对应的引用页面。
请参阅图3,本申请实施方式还提供一种异常访问页面的检测装置,所述装置包括网络通信端口110和处理器210。
其中,所述网络通信端口110,用于进行网络数据通信。
所述处理器210,用于通过所述网络通信端口获取用户的历史访问记录,所述历史访问记录中包括当前访问页面的页面标识和所述当前访问页面的引用信息;根据所述页面标识和所述引用信息,统计所述历史访问记录中各个页面被访问的次数并记录各个页面对应的引用数据;根据各个页面被访问的次数以及各个页面对应的引用数据,从所述历史访问记录中检测异常访问页面。
在本实施方式中,所述网络通信端口110可以指硬件端口或者软件端口。其中,硬件端口可以是USB端口、串行端口等。软件端口可以是网络中面向连接服务和无连接服务的通信协议端口。所述通信协议例如可以包括TCP/IP协议或UDP协议。
所述处理器210可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
上述实施方式公开的检测装置,其网络通信端口110和处理器210实现的具体功能,可以与本申请中异常访问页面的检测方法实施方式相对照解释,可以实现本申请的异常访问页面的检测方法实施方式并达到方法实施方式的技术效果。
请参阅图4,本申请还提供一种数据分析方法,所述方法可以包括以下步骤。
S61:获取用户的历史访问记录,所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息。
S63:根据所述页面标识和所述引用信息,统计所述历史访问记录中各个页面被访问的次数并记录各个页面对应的引用数据。
S65:根据各个页面被访问的次数以及各个页面对应的引用数据,从所述历史访问记录中检测异常访问页面。
S67:在所述历史访问记录中去除与所述异常访问页面相关的数据,得到目标业务数据。
S69:基于所述目标业务数据进行数据分析。
在本实施方式中,所述各个页面对应的引用数据可以包括:各个页面被引用的次数或者各个页面对应的引用页面。其中,步骤S61至S65的具体实现方式可以参见上述步骤S1至S5的描述,这里便不再赘述。
在本实施方式中,在检测出异常访问页面之后,可以在所述历史访问记录中去除与所述异常访问页面相关的数据。具体地,与所述异常访问页面相关的数据可以包括所述异常访问页面的页面标识和/或所述异常访问页面的引用信息。其中,所述异常访问页面的页面标识可以是用于指向所述异常访问页面的字符串。例如,所述页面标识可以是统一资源定位符(Uniform Resource Locator,URL)。所述引用信息可以表明所述异常访问页面是从哪个页面链接来的。所述引用信息中可以包括所述异常访问页面的上一级页面的页面标识。例如,所述异常访问页面的页面标识可以为www.jd-404.com,所述异常访问页面的引用信息中包括www.***.com的页面标识。这就表明www.jd-404.com的访问页面是从www.***.com处链接来的。
在本实施方式中,在从所述历史访问记录中去除与所述异常访问页面相关的数据后,便可以得到目标业务数据。所述目标业务数据中可以包含能够正常显示的访问页面的信息。其中,所述正常显示的访问页面的信息可以包括访问页面的标识、访问页面的时间、在页面中停留的时间以及该访问页面的引用页面等信息。通过对所述目标业务数据进行分析,从而能够得到用户进行网页浏览的行为特征。
在本实施方式中,对所述目标业务数据进行分析的方式可以包括从目标业务数据中分析用户的搜索关键字。目前,搜索引擎通常会将用户使用的搜索关键字存放于URL中,这样,可以从目标业务数据中包含的URL中截取用户的搜索关键字。具体地,URL可以通过预设搜索关键字变量来存放用户使用的搜索关键字。在实际应用场景中,不同的搜索引擎对应的预设搜索关键字变量也可能不同。例如,所述预设搜索关键字变量可以包括/word/、/keyword/、/wordlist/等。在这些预设搜索关键字变量之后,便可以填写用户使用的搜索关键字。预设搜索关键字变量和用户使用的搜索关键字的组合可以存放于URL的query字段中。这样,通过对目标业务数据中包含的URL的query字段进行提取,并从提取的query字段中识别出预设搜索关键字变量,从而可以获取该目标业务数据中包含的搜索关键字。在分析得到用户的搜索关键字之后,网站的服务器可以统计出搜索频率较高的搜索关键词,从而在网站首页的搜索栏中自动将搜索频率较高的搜索关键词推送给用户。
在本实施方式中,对所述目标业务数据进行分析的方式还可以包括统计用户比较感兴趣的访问页面。具体地,可以在所述目标业务数据内,统计各个访问页面被访问的次数以及各个访问页面被访问的时长。在统计之后,可以按照访问次数和访问时长分别对目标业务数据中的访问页面进行排序。这样,所述目标业务数据中包含的访问页面便可以通过访问次数或者访问时长进行排序,从而可以将访问次数较高以及访问时长较长的页面向用户推荐。当然,在实际应用场景中,还可以根据其它标准对访问页面进行排序。例如,还可以根据用户在各个访问页面中的点击次数来对各个访问页面进行排序,本申请对排序方式不进行限定。
由上可见,本申请实施方式提供的一种异常访问页面的检测方法、装置及数据分析方法,通过对用户的历史访问记录中的被访问页面和被引用页面进行分析,从而可以针对各个页面被访问的次数以及各个页面被引用的次数,从所述历史访问记录中检测出异常访问页面。本申请实施方式提供的异常访问页面的检测方法、装置及数据分析方法能够自动对历史访问记录进行分析,避免了人工检测的方式,从而提高了异常访问页面的检测效率,进而提高了数据分析的效率。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,针对检测装置的实施方式来说,均可以参照前述方法的实施方式的介绍对照解释。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (11)

1.一种访问记录处理方法,其特征在于,所述方法包括:
获取用户的历史访问记录;所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息;
生成对应于所述访问页面和/或引用信息的页面节点;
基于所述访问页面的引用信息确定页面节点之间的连接关系;
根据所述页面节点和页面节点之间的连接关系构建页面访问路径树。
2.如权利要求1所述的方法,其特征在于,所述引用信息包括所述访问页面的应用页面的页面标识。
3.如权利要求1所述的方法,其特征在于,所述生成对应于所述访问页面和/或引用信息的页面节点之前,还包括:
基于各个历史访问记录的访问时间对所有历史访问记录进行排序;
相应的,所述生成对应于所述访问页面和/或引用信息的页面节点,包括:
基于历史访问记录的排序依次遍历各个历史访问记录,生成对应于所述访问页面和/或引用信息的页面节点。
4.如权利要求1所述的方法,其特征在于,所述生成对应于所述访问页面和/或引用信息的页面节点,包括:
在不存在对应于当前的历史访问记录中的访问页面和引用信息的页面节点时,生成对应于所述访问页面和/或引用信息的页面节点。
5.如权利要求1所述的方法,其特征在于,所述页面访问路径树包括页面节点和路径连线;所述根据所述页面节点和页面节点之间的连接关系构建页面访问路径树,包括:
根据所述连接关系在页面节点之间建立路径连线,所述路径连线从被引用的页面节点指向被访问的页面节点。
6.如权利要求1所述的方法,其特征在于,所述页面节点对应有被访问次数和被引用次数,所述生成对应于所述访问页面和/或引用信息的页面节点,包括:
在存在对应于当前的历史访问记录中的访问页面的页面节点的情况下,将所述页面节点的被访问次数增加一次,和/或,
在存在对应于当前的历史访问记录中的引用信息的页面节点的情况下,将所述页面节点的被引用次数增加一次。
7.如权利要求6所述的方法,其特征在于,所述根据所述页面节点和页面节点之间的连接关系构建页面访问路径树之后,还包括:
统计所述页面访问路径树中各个页面节点对应的被访问次数和被引用次数;所述被访问次数和被引用次数用于检测异常访问页面。
8.如权利要求7所述的方法,其特征在于,在所述页面节点的被访问次数大于或者等于预设阈值,且所述被引用次数为零时,所述页面节点对应的页面为异常访问页面。
9.如权利要求1所述的方法,其特征在于,所述根据所述页面节点和页面节点之间的连接关系构建页面访问路径树之后,还包括:
遍历所述页面访问路径树中的各个页面节点以根据页面节点所引用的页面节点,获取各个页面对应的引用页面。
10.一种访问记录处理装置,其特征在于,所述装置包括:
历史访问记录获取模块,用于获取用户的历史访问记录;所述历史访问记录中包括访问页面的页面标识和所述访问页面的引用信息;
页面节点生成模块,用于生成对应于所述访问页面和/或引用信息的页面节点;
连接关系确定模块,用于基于所述访问页面的引用信息确定页面节点之间的连接关系;
页面访问路径树构建模块,用于根据所述页面节点和页面节点之间的连接关系构建页面访问路径树。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至9中任一项所述方法的步骤。
CN202111582729.0A 2017-01-13 2017-01-13 一种访问记录处理方法、装置及存储介质 Pending CN114417197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111582729.0A CN114417197A (zh) 2017-01-13 2017-01-13 一种访问记录处理方法、装置及存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710024279.0A CN108304410B (zh) 2017-01-13 2017-01-13 一种异常访问页面的检测方法、装置及数据分析方法
CN202111582729.0A CN114417197A (zh) 2017-01-13 2017-01-13 一种访问记录处理方法、装置及存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710024279.0A Division CN108304410B (zh) 2017-01-13 2017-01-13 一种异常访问页面的检测方法、装置及数据分析方法

Publications (1)

Publication Number Publication Date
CN114417197A true CN114417197A (zh) 2022-04-29

Family

ID=62872348

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111582729.0A Pending CN114417197A (zh) 2017-01-13 2017-01-13 一种访问记录处理方法、装置及存储介质
CN201710024279.0A Active CN108304410B (zh) 2017-01-13 2017-01-13 一种异常访问页面的检测方法、装置及数据分析方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710024279.0A Active CN108304410B (zh) 2017-01-13 2017-01-13 一种异常访问页面的检测方法、装置及数据分析方法

Country Status (1)

Country Link
CN (2) CN114417197A (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109167773B (zh) * 2018-08-22 2021-01-26 杭州安恒信息技术股份有限公司 一种基于马尔科夫模型的访问异常检测方法和***
CN109948025B (zh) * 2019-03-20 2023-10-20 上海古鳌电子科技股份有限公司 一种数据引用记录方法
CN110381151B (zh) * 2019-07-24 2021-12-28 秒针信息技术有限公司 一种异常设备检测方法及装置
CN110740074B (zh) * 2019-08-22 2023-04-18 创新先进技术有限公司 网络地址的检测方法、装置及电子设备
CN110704779A (zh) * 2019-09-27 2020-01-17 杭州迪普科技股份有限公司 一种网站页面访问合规性检测方法、装置及设备
CN110781372B (zh) * 2019-10-28 2022-04-08 珠海格力电器股份有限公司 一种优化网站的方法、装置、计算机设备及存储介质
CN111079138A (zh) * 2019-12-19 2020-04-28 北京天融信网络安全技术有限公司 异常访问检测方法、装置、电子设备及可读存储介质
CN111447228A (zh) * 2020-03-27 2020-07-24 四川虹美智能科技有限公司 智能家电访问请求处理方法及***、云服务器及智能空调
CN112084439B (zh) * 2020-09-02 2023-12-19 上海谋乐网络科技有限公司 一种识别url中变量的方法、装置、设备及存储介质
CN112506582B (zh) * 2020-12-18 2024-04-09 北京百度网讯科技有限公司 小程序数据包处理方法、装置、设备及介质
CN113271322B (zh) * 2021-07-20 2021-11-23 北京明略软件***有限公司 异常流量的检测方法和装置、电子设备和存储介质
CN113535823B (zh) * 2021-07-26 2023-11-10 北京天融信网络安全技术有限公司 异常访问行为检测方法、装置及电子设备
CN116743501B (zh) * 2023-08-10 2023-10-20 杭银消费金融股份有限公司 一种异常流量控制方法及***
CN117407204A (zh) * 2023-11-01 2024-01-16 北京优特捷信息技术有限公司 一种应用程序故障定位方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175611A (ja) * 2010-01-29 2011-09-08 Fujitsu Toshiba Mobile Communications Ltd 携帯端末装置
US20130030875A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation System and method for site abnormality recording and notification
CN102281298A (zh) * 2011-08-10 2011-12-14 深信服网络科技(深圳)有限公司 检测和防御cc攻击的方法及装置
US20140208385A1 (en) * 2013-01-24 2014-07-24 Tencent Technology (Shenzhen) Company Limited Method, apparatus and system for webpage access control
CN103401849B (zh) * 2013-07-18 2017-02-15 盘石软件(上海)有限公司 一种网站日志异常会话分析方法
CN103823883B (zh) * 2014-03-06 2015-06-10 焦点科技股份有限公司 一种网站用户访问路径的分析方法及***
CN105302811B (zh) * 2014-06-13 2020-01-10 腾讯科技(深圳)有限公司 浏览器页面跳转方法及装置
CN104601558A (zh) * 2014-12-31 2015-05-06 微梦创科网络科技(中国)有限公司 防御跨站请求伪造攻击的方法及装置
CN106027577B (zh) * 2016-08-04 2019-04-30 四川无声信息技术有限公司 一种异常访问行为检测方法及装置

Also Published As

Publication number Publication date
CN108304410A (zh) 2018-07-20
CN108304410B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
CN101079768B (zh) 一种统计网页链接点击数据的方法
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
CN103237094B (zh) 一种识别用户的方法及装置
CN104850546B (zh) 移动媒介信息的展示方法和***
CN107644100B (zh) 信息处理方法、装置以及***和计算机可读存储介质
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN112486708B (zh) 页面操作数据的处理方法和处理***
WO2014180130A1 (en) Method and system for recommending contents
CN106021583B (zh) 页面流量数据的统计方法及其***
CN106570013B (zh) 页面访问数据的处理方法和装置
CN110781372B (zh) 一种优化网站的方法、装置、计算机设备及存储介质
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
US20140331142A1 (en) Method and system for recommending contents
CN102831218A (zh) 热力图中的数据确定方法及装置
CN103617266A (zh) 个性化扩展搜索方法及装置、***
CN103246713A (zh) 一种网页浏览方法及装置
CN111859076B (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
CN105224691A (zh) 一种信息处理方法及装置
EP3289487A1 (en) Computer-implemented methods of website analysis
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
CN107526748B (zh) 一种识别用户点击行为的方法和设备
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
CN111221711A (zh) 用户行为数据处理方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination