CN112632446A - 页面访问路径的构建方法及*** - Google Patents

页面访问路径的构建方法及*** Download PDF

Info

Publication number
CN112632446A
CN112632446A CN202011610978.1A CN202011610978A CN112632446A CN 112632446 A CN112632446 A CN 112632446A CN 202011610978 A CN202011610978 A CN 202011610978A CN 112632446 A CN112632446 A CN 112632446A
Authority
CN
China
Prior art keywords
access
path
page
pages
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011610978.1A
Other languages
English (en)
Inventor
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Suning Cloud Computing Co ltd
Original Assignee
Jiangsu Suning Cloud Computing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Suning Cloud Computing Co ltd filed Critical Jiangsu Suning Cloud Computing Co ltd
Priority to CN202011610978.1A priority Critical patent/CN112632446A/zh
Publication of CN112632446A publication Critical patent/CN112632446A/zh
Priority to CA3144126A priority patent/CA3144126A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种页面访问路径的构建方法及***,通过优化页面访问路径树,在提升构建效率的同时降低计算资源的消耗。该方法包括:获取用户的访问会话,访问会话包括多个不同的访问页面;针对访问会话中的访问页面进行页面清洗并按照采集时间顺序编号;从多个访问页面中顺序识别出每条路径的入口访问页面,将每个入口访问页面作为对应路径的首节点;根据相邻入口访问页面的编号区间将处于区间内的访问页面划分入对应的路径分区;将属于各路径分区的访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;基于首节点与路径节点的路径信息,构建出页面访问路径树。

Description

页面访问路径的构建方法及***
技术领域
本发明涉及互联网技术领域,尤其涉及一种页面访问路径的构建方法及***。
背景技术
在网站运营及网站分析的业务中,需要了解用户从进入网站到离开网站的行为是什么,如用户是否是按照网站设计的导航的路径在进行浏览访问、每个浏览步骤上用户的流失情况、用户在离开对应页面后实际的访问是什么等等,需要总结出用户访问对网站关键路径的链路分析,统计各个页面的来源/跳转及退出指标,用来识别及优化网站的结构,提高网站访问及订单转化率,提升用户体验。
现有技术在分析用户的路径行为轨迹时,需要遍历用户的所有的行为轨迹数据,并对所有的行为进行多次关联遍历运算,才能获取用户的路径信息。当网站的访问量很大的时候,这种遍历就会非常的耗费时间以及消耗大量的计算资源。
发明内容
本发明的目的在于提供一种页面访问路径的构建方法及***,通过优化页面访问路径树的构建,在提升构建效率的同时降低对计算资源的消耗。
为了实现上述目的,本发明的第一方面提供一种页面访问路径的构建方法,包括:
获取用户的访问会话,所述访问会话包括多个不同的访问页面;
针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号;
从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息;
若路径数量为多个,根据相邻所述入口访问页面的编号区间将处于区间内的所述访问页面划分入对应的路径分区;或者,若路径数量为一个将全部所述访问页面划分为一个路径分区;
将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;
基于首节点与路径节点的路径信息,构建出页面访问路径树。
优选地,获取用户的访问会话,所述访问会话包括多个不同的访问页面的方法包括:
获取预设时间内用户通过终端访问网站时浏览的多个访问页面,按照时间的先后顺序汇总后构成访问会话。
较佳地,针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号的方法包括:
从所述访问页面中识别出爬虫和/或作弊产生的噪音访问页面,对所述噪音访问页面进行初步清洗剔除;
将保留下的所述访问页面在同一访问会话中,按照采集时间顺序编号。
进一步地,对所述噪音访问页面进行初步的清洗剔除之后还包括:
在同一访问会话中,若比对出两个连续的所述访问页面为同一访问页面,则对其中靠后的所述访问页面进行二次清洗剔除。
优选地,在步骤从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息之前还包括:
构建页面断点维度表,所述页面断点维度表中包括至少一个访问页面断点页。
较佳地,从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息的方法包括:
将访问会话中的所述访问页面按照编号顺序一一对应的与所述页面断点维度表比对,并将比对上的访问页面定义为新路径的入口访问页面;
将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息为空;
所述路径的数量即为所述入口访问页面的数量。
进一步地,将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息的方法包括:
按照由小到大的编号顺序,依次寻找路径分区内每个所述访问页面的转入页面;
基于每个所述访问页面与对应转入页面的匹配关系,绘制路径分区内各访问页面之间的路径匹配关系,在路径关系中将所述访问页面以路径节点的形式表示,并通过路径信息记载每个路径节点的路径匹配关系,所述路径信息还包括转入页面的坑位点击信息;
根据所述路径匹配关系,将首节点与路径节点串联形成路径。
进一步地,构建页面访问路径树的方法包括:
汇总访问会话中各的条路径,构建出页面访问路径树。
与现有技术相比,本发明提供的页面访问路径的构建方法具有以下有益效果:
本发明提供的页面访问路径的构建方法中,获取预设时间内用户通过终端访问网站时浏览的多个访问页面,按照时间的先后顺序汇总后构成访问会话,然后针对访问会话中的每个访问页面进行页面清洗并按照采集时间的顺序对每个访问页面进行顺序编号,接着从多个访问页面中顺序识别出每条路径的入口访问页面,将入口访问页面作为对应路径的首节点,同时记录各首节点的路径信息,如果识别出的路径数量为多个,可根据相邻入口访问页面的编号区间将处于区间内的访问页面划分入对应的路径分区;或者,如果路径数量为一个将全部访问页面划分为一个路径分区,之后将属于各路径分区的访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息,最终基于首节点与路径节点的路径信息,构建出页面访问路径树。
可见,本发明通过对访问会话进行页面清洗,能够对连续重复的访问页面做降噪处理,排除了重复访问页面对路径分析的干扰。另外,相比较于现有技术中采用访问页面明细的方式进行表自身多次关联取下个、下下个访问页面的信息构建路径的方案,本发明通过对访问页面的路径优化,在提升路径树构建效率的同时降低了对***计算资源的消耗。
本发明的第二方面提供一种页面访问路径的构建***,应用于上述技术方案所述的页面访问路径的构建方法中,所述***包括:
获取单元,用于获取用户的访问会话,所述访问会话包括多个不同的访问页面;
清洗单元,用于针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号;
识别单元,用于从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息;
判断单元,用于若路径数量为多个,根据相邻所述入口访问页面的编号区间将处于区间内的所述访问页面划分入对应的路径分区;或者,若路径数量为一个将全部所述访问页面划分为一个路径分区;
路径匹配单元,用于将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;
路径树构建单元,用于基于首节点与路径节点的路径信息,构建出页面访问路径树。
与现有技术相比,本发明提供的页面访问路径的构建***的有益效果与上述技术方案提供的页面访问路径的构建方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述页面访问路径的构建方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的页面访问路径的构建方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中页面访问路径的构建方法的流程示意图;
图2为本发明实施例中页面访问路径树的示例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种页面访问路径的构建方法,包括:
获取用户的访问会话,访问会话包括多个不同的访问页面;针对访问会话中的访问页面进行页面清洗并按照采集时间顺序编号;从多个访问页面中顺序识别出每条路径的入口访问页面,将每个入口访问页面作为对应路径的首节点,并记录各首节点的路径信息;若路径数量为多个,根据相邻入口访问页面的编号区间将处于区间内的访问页面划分入对应的路径分区;或者,若路径数量为一个将全部访问页面划分为一个路径分区;将属于各路径分区的访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;基于首节点与路径节点的路径信息,构建出页面访问路径树。
本实施例提供的页面访问路径的构建方法中,获取预设时间内用户通过终端访问网站时浏览的多个访问页面,按照时间的先后顺序汇总后构成访问会话,然后针对访问会话中的每个访问页面进行页面清洗并按照采集时间的顺序对每个访问页面进行顺序编号,接着从多个访问页面中顺序识别出每条路径的入口访问页面,将入口访问页面作为对应路径的首节点,同时记录各首节点的路径信息,如果识别出的路径数量为多个,可根据相邻入口访问页面的编号区间将处于区间内的访问页面划分入对应的路径分区;或者,如果路径数量为一个将全部访问页面划分为一个路径分区,之后将属于各路径分区的访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息,最终基于首节点与路径节点的路径信息,构建出页面访问路径树。
可见,本实施例通过对访问会话进行页面清洗,能够对连续重复的访问页面做降噪处理,排除了重复访问页面对路径分析的干扰。另外,相比较于现有技术中采用访问页面明细的方式进行表自身多次关联取下个、下下个访问页面的信息构建路径的方案,本实施例通过对访问页面的路径优化,在提升路径树构建效率的同时降低了对***计算资源的消耗。
上述实施例中,获取用户的访问会话,所述访问会话包括多个不同的访问页面的方法包括:
获取预设时间内用户通过终端访问网站时浏览的多个访问页面,按照时间的先后顺序汇总后构成访问会话。
具体实施时,本实施例方案适用于多端,如APP端、PC端、小程序端等应用均适用,一个访问会话是在一定时间内用户通过任一端访问网站时浏览多个访问页面产生的,在汇总时需按照用户的访问时间先后顺序整理成访问会话。
上述实施例中,针对访问会话中的访问页面进行页面清洗并按照采集时间顺序编号的方法包括:
从访问页面中识别出爬虫和/或作弊产生的噪音访问页面,对噪音访问页面进行初步清洗剔除;将保留下的访问页面在同一访问会话中,按照采集时间顺序编号。
具体实施时,利用现有的算法程序识别出爬虫和/或作弊的访客表,识别出访问页面中的噪音访问页面,并对这些噪音访问页面进行清洗剔除,仅对访问会话中保留下的访问页面,按照采集时间顺序编号。
上述实施例中,对噪音访问页面进行初步的清洗剔除之后还包括:
在同一访问会话中,若比对出两个连续的访问页面为同一访问页面,则对其中靠后的访问页面进行二次清洗剔除。
具体实施时,对于同一访问会话中两个连续的访问页面,如果判定两个页面属于同一个访问页面,说明用户可能对该访问页面进行了连续刷新,或者后者的访问页面是在一些翻页场景产生的,由于此类重复的访问页面对路径分析来说没有意义,因此需要做去重处理,也即对后者重复的访问页面进行过滤剔除。可以理解的是,在实际操作过程中也可先对访问会话中的访问页面进行顺序编号,然后再对访问页面进行初步清洗和二次清洗,最后再次更新编号,这两种编号方案不会影响方案的具体实现,故对其不做限制。
另外,判断两个连续访问页面是否重复的方法为:通过页面信息比对、url信息比对、页面名称信息比对中的一种或多种进行判断,如果两个连续访问页面的页面信息比对、url信息比对或者页面名称信息比对中任一个信息的比对结果完全相等,则说明这两个连续访问页面存在重复,此时需要对后者重复的访问页面进行剔除。
上述实施例中,在步骤从多个访问页面中顺序识别出每条路径的入口访问页面,将每个入口访问页面作为对应路径的首节点,并记录各首节点的路径信息之前还包括:
构建页面断点维度表,页面断点维度表中包括至少一个访问页面断点页。
上述实施例中,从多个访问页面中顺序识别出每条路径的入口访问页面,将每个入口访问页面作为对应路径的首节点,并记录各首节点的路径信息的方法包括:
将访问会话中的访问页面按照编号顺序一一对应的与页面断点维度表比对,并将比对上的访问页面定义为新路径的入口访问页面;将每个入口访问页面作为对应路径的首节点,并记录各首节点的路径信息为空;路径的数量即为入口访问页面的数量。
具体实施时,页面断点维度表中记载有断点页,如网站页面的首页、tab切页面等,通常来讲断点页即为一次新路径的入口访问页面(首个访问页面),也即将其作为新路径的首节点,通过将访问会话中保留下的访问页面一一对应的与断点维度表中的断点页比对,当比对成功时即说明对应的访问页面为入口访问页面,此时将其作为新路径的首节点,最终通过统计入口访问页面的数量即可知道对应路径的数量。可以理解的是,由于首节点之前不会再出现路径节点,故首节点的路径信息记录的路径关系为空。
上述实施例中,将属于各路径分区的访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息的方法包括:
按照由小到大的编号顺序,依次寻找路径分区内每个访问页面的转入页面;基于每个访问页面与对应转入页面的匹配关系,绘制路径分区内各访问页面之间的路径匹配关系,在路径关系中将访问页面以路径节点的形式表示,并通过路径信息记载每个路径节点的路径匹配关系,路径信息还包括转入页面的坑位点击信息;根据路径匹配关系,将首节点与路径节点串联形成路径。
具体实施时,将路径分区内的访问页面,按照编号顺序依次对每个访问页面与其转入页面进行关系匹配,获取路径分区内首节点及路径节点的路径匹配关系,并记载每个路径节点的路径信息,该路径信息不仅包括访问页面路径节点与转入页面路径节点的关系匹配,还记录有通过转入页面进入访问页面时的坑位点击信息。用户的访问路径字段采用动态数组的设计,用户路径从第一个访问页面作为路径开始,同时打上转入页面对应点击的坑位信息,用以进行坑位的价值转化分析,以实现能更准确更详细的分析用户的网站浏览习惯,提升价值分析效果。需要强调的是,后者路径节点中的路径信息包括了前者与之匹配关联路径节点的路径信息,也即通过后者路径节点的路径信息可以还原出与之有直接或间接关系路径节点的路径。
为便于理解,现做上述实施例做示例性说明:
步骤1,获取访问会话,关联作弊算法和爬虫算法识别出噪音访问页面,进行初步的清洗剔除,同时对重复的访问页面进行二次清洗剔除;
步骤2,识别访问会话中的全部路径,现以一条路径为例说明,取编号为1的首页访问页面A作为首节点,并将首节点的路径信息标记为空,其他访问页面作为路径节点;
取编号为2的搜索访问页面B,通过与页面断点维度表比对,当比对成功时则说明搜索访问页面B为断点页,此时记载其路径信息为空,当比对失败时则说明搜索访问页面B为路径节点,此时需匹配它的转入页面是否为首页访问页面A,如果不是则在搜索访问页面B的路径信息中记载搜索访问页面B与首页访问页面A的路径关系,同时记载首页访问页面A的坑位点击信息,也即通过点击首页访问页面A的哪个坑位才能跳转入搜索访问页面B。
取编号为3的苹果5S四级访问页面C,通过与页面断点维度表比对,当比对成功时则说明搜索访问页面C为断点页,此时记载其路径信息为空,当比对失败时则说明搜索访问页面C为路径节点,此时需匹配它的转入页面是否为搜索访问页面B,若是则搜索访问页面C的路径信息为:搜索访问页面B的路径信息+搜索访问页面B的名称及坑位点击信息;若否则继续判断搜索访问页面C的转入页面是否为首页访问页面A,若是则搜索访问页面C的路径信息为:首页访问页面A的路径信息+首页访问页面A的名称及坑位点击信息,若否则搜索访问页面C的路径信息为空;
取编号为4的苹果11四级访问页面D,通过与页面断点维度表比对,当比对成功时则说明四级访问页面D为断点页,此时记载其路径信息为空,当比对失败时则说明四级访问页面D为路径节点,此时需依次匹配其与搜索访问页面C、搜索访问页面B和首页访问页面A的路径匹配关系,具体匹配过程可参考上述逻辑,最终得到四级访问页面D的路径信息。
举例说明,以一次用户的访问行为记录来看,包括如下操作:用户打开网站首页-搜索页(手机)-苹果5S四级页-苹果11四级页-搜索页(手机)-华为mate30四级页-提交订单-支付页面。采集到的访问会话数据如下:
Figure BDA0002872910380000101
如图2所示,用户的网站浏览行为依次为打开网站首页、搜索页(手机)、苹果5S四级页、苹果11四级页,搜索页(手机)、华为P20四级页、网站首页、购物车页、提交订单页和支付成功页。
上面访问会话按照本实施例方法处理后可以得出以下的路径信息数据,通过这些路径信息数据能够绘制出访问会话va的页面访问路径树。
Figure BDA0002872910380000102
综上,本实施例具有如下有益效果:
1、本实施例方案具有计算快、节省算力的优势,同时适用于多端;
2、本实施例方案只需要配置好用户需要分析的页面类型,就能够实现用户自定义路径的转化分析,可以监控出关键节点的流量流失及转化;
3、本实施例方案能够实现网站页面访问路径及页面坑位的鱼骨图、流量漏斗图等路径的分析,通过路径分析可以发现用户是否按产品设计的导航路径来浏览网站,这样产品就有调整的方向和改进点;
4、本实施例方案能够更准确的实现网站页面及页面上坑位的商品或者活动的价值计算,可引导运营对站内广告的投放及售卖。
实施例二
本实施例提供一种页面访问路径的构建***,包括:
获取单元,用于获取用户的访问会话,所述访问会话包括多个不同的访问页面;
清洗单元,用于针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号;
识别单元,用于从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息;
判断单元,用于若路径数量为多个,根据相邻所述入口访问页面的编号区间将处于区间内的所述访问页面划分入对应的路径分区;或者,若路径数量为一个将全部所述访问页面划分为一个路径分区;
路径匹配单元,用于将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;
路径树构建单元,用于基于首节点与路径节点的路径信息,构建出页面访问路径树。
与现有技术相比,本发明实施例提供的页面访问路径的构建***的有益效果与上述实施例一提供的页面访问路径的构建方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述页面访问路径的构建方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的页面访问路径的构建方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种页面访问路径的构建方法,其特征在于,包括:
获取用户的访问会话,所述访问会话包括多个不同的访问页面;
针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号;
从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息;
若路径数量为多个,根据相邻所述入口访问页面的编号区间将处于区间内的所述访问页面划分入对应的路径分区;或者,若路径数量为一个将全部所述访问页面划分为一个路径分区;
将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;
基于首节点与路径节点的路径信息,构建出页面访问路径树。
2.根据权利要求1所述的方法,其特征在于,获取用户的访问会话,所述访问会话包括多个不同的访问页面的方法包括:
获取预设时间内用户通过终端访问网站时浏览的多个访问页面,按照时间的先后顺序汇总后构成访问会话。
3.根据权利要求2所述的方法,其特征在于,针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号的方法包括:
从所述访问页面中识别出爬虫和/或作弊产生的噪音访问页面,对所述噪音访问页面进行初步清洗剔除;
将保留下的所述访问页面在同一访问会话中,按照采集时间顺序编号。
4.根据权利要求3所述的方法,其特征在于,对所述噪音访问页面进行初步的清洗剔除之后还包括:
在同一访问会话中,若比对出两个连续的所述访问页面为同一访问页面,则对其中靠后的所述访问页面进行二次清洗剔除。
5.根据权利要求1-4任一项所述的方法,其特征在于,在步骤从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息之前还包括:
构建页面断点维度表,所述页面断点维度表中包括至少一个访问页面断点页。
6.根据权利要求5所述的方法,其特征在于,从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息的方法包括:
将访问会话中的所述访问页面按照编号顺序一一对应的与所述页面断点维度表比对,并将比对上的访问页面定义为新路径的入口访问页面;
将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息为空;
所述路径的数量即为所述入口访问页面的数量。
7.根据权利要求6所述的方法,其特征在于,将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息的方法包括:
按照由小到大的编号顺序,依次寻找路径分区内每个所述访问页面的转入页面;
基于每个所述访问页面与对应转入页面的匹配关系,绘制路径分区内各访问页面之间的路径匹配关系,在路径关系中将所述访问页面以路径节点的形式表示,并通过路径信息记载每个路径节点的路径匹配关系,所述路径信息还包括转入页面的坑位点击信息;
根据所述路径匹配关系,将首节点与路径节点串联形成路径。
8.根据权利要求7所述的方法,其特征在于,构建页面访问路径树的方法包括:
汇总访问会话中各的条路径,构建出页面访问路径树。
9.一种页面访问路径的构建***,其特征在于,包括:
获取单元,用于获取用户的访问会话,所述访问会话包括多个不同的访问页面;
清洗单元,用于针对访问会话中的所述访问页面进行页面清洗并按照采集时间顺序编号;
识别单元,用于从多个所述访问页面中顺序识别出每条路径的入口访问页面,将每个所述入口访问页面作为对应路径的首节点,并记录各首节点的路径信息;
判断单元,用于若路径数量为多个,根据相邻所述入口访问页面的编号区间将处于区间内的所述访问页面划分入对应的路径分区;或者,若路径数量为一个将全部所述访问页面划分为一个路径分区;
路径匹配单元,用于将属于各路径分区的所述访问页面按照由小到大的编号顺序一一进行转入页面的匹配,获取每个访问页面的匹配关系并构建路径节点,同时记录各路径节点的路径信息;
路径树构建单元,用于基于首节点与路径节点的路径信息,构建出页面访问路径树。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至8任一项所述方法的步骤。
CN202011610978.1A 2020-12-30 2020-12-30 页面访问路径的构建方法及*** Pending CN112632446A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011610978.1A CN112632446A (zh) 2020-12-30 2020-12-30 页面访问路径的构建方法及***
CA3144126A CA3144126A1 (en) 2020-12-30 2021-12-29 Method of and system for constructing page access path

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011610978.1A CN112632446A (zh) 2020-12-30 2020-12-30 页面访问路径的构建方法及***

Publications (1)

Publication Number Publication Date
CN112632446A true CN112632446A (zh) 2021-04-09

Family

ID=75286696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011610978.1A Pending CN112632446A (zh) 2020-12-30 2020-12-30 页面访问路径的构建方法及***

Country Status (2)

Country Link
CN (1) CN112632446A (zh)
CA (1) CA3144126A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127742A (zh) * 2021-04-30 2021-07-16 康键信息技术(深圳)有限公司 用户行为路径提取方法、装置、设备及存储介质
CN113242159A (zh) * 2021-05-24 2021-08-10 中国工商银行股份有限公司 应用访问关系确定方法及装置
CN113791837A (zh) * 2021-08-12 2021-12-14 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质
CN113934616A (zh) * 2021-12-16 2022-01-14 深圳市活力天汇科技股份有限公司 一种基于用户操作时序判断异常用户的方法
CN114374595A (zh) * 2022-01-13 2022-04-19 平安普惠企业管理有限公司 事件节点归因分析方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101652A1 (zh) * 2015-12-17 2017-06-22 北京国双科技有限公司 网站页面间访问路径的确定方法及装置
CN107644100A (zh) * 2017-10-09 2018-01-30 北京京东尚科信息技术有限公司 信息处理方法、装置以及***和计算机可读存储介质
CN107943679A (zh) * 2017-11-24 2018-04-20 广州优视网络科技有限公司 路径漏斗的生成方法、装置和服务器
CN108874909A (zh) * 2018-05-28 2018-11-23 深圳壹账通智能科技有限公司 用户访问路径获取方法、服务器及计算机存储介质
CN109284450A (zh) * 2018-08-22 2019-01-29 中国平安人寿保险股份有限公司 订单成单路径的确定方法及装置、存储介质、电子设备
CN111552905A (zh) * 2020-04-22 2020-08-18 苏宁云计算有限公司 一种用户访问关键路径的获取方法及***
CN111737630A (zh) * 2020-08-25 2020-10-02 智者四海(北京)技术有限公司 用于记录用户访问路径的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101652A1 (zh) * 2015-12-17 2017-06-22 北京国双科技有限公司 网站页面间访问路径的确定方法及装置
CN107644100A (zh) * 2017-10-09 2018-01-30 北京京东尚科信息技术有限公司 信息处理方法、装置以及***和计算机可读存储介质
CN107943679A (zh) * 2017-11-24 2018-04-20 广州优视网络科技有限公司 路径漏斗的生成方法、装置和服务器
CN108874909A (zh) * 2018-05-28 2018-11-23 深圳壹账通智能科技有限公司 用户访问路径获取方法、服务器及计算机存储介质
CN109284450A (zh) * 2018-08-22 2019-01-29 中国平安人寿保险股份有限公司 订单成单路径的确定方法及装置、存储介质、电子设备
CN111552905A (zh) * 2020-04-22 2020-08-18 苏宁云计算有限公司 一种用户访问关键路径的获取方法及***
CN111737630A (zh) * 2020-08-25 2020-10-02 智者四海(北京)技术有限公司 用于记录用户访问路径的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127742A (zh) * 2021-04-30 2021-07-16 康键信息技术(深圳)有限公司 用户行为路径提取方法、装置、设备及存储介质
CN113127742B (zh) * 2021-04-30 2023-10-20 康键信息技术(深圳)有限公司 用户行为路径提取方法、装置、设备及存储介质
CN113242159A (zh) * 2021-05-24 2021-08-10 中国工商银行股份有限公司 应用访问关系确定方法及装置
CN113242159B (zh) * 2021-05-24 2022-12-09 中国工商银行股份有限公司 应用访问关系确定方法及装置
CN113791837A (zh) * 2021-08-12 2021-12-14 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质
CN113791837B (zh) * 2021-08-12 2023-08-11 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质
CN113934616A (zh) * 2021-12-16 2022-01-14 深圳市活力天汇科技股份有限公司 一种基于用户操作时序判断异常用户的方法
CN113934616B (zh) * 2021-12-16 2022-03-18 深圳市活力天汇科技股份有限公司 一种基于用户操作时序判断异常用户的方法
CN114374595A (zh) * 2022-01-13 2022-04-19 平安普惠企业管理有限公司 事件节点归因分析方法、装置、电子设备及存储介质
CN114374595B (zh) * 2022-01-13 2024-03-15 平安普惠企业管理有限公司 事件节点归因分析方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CA3144126A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
CN112632446A (zh) 页面访问路径的构建方法及***
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
Liao et al. Evaluating the effectiveness of search task trails
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
WO2018028099A1 (zh) 搜索质量评估方法及装置
CN110543603B (zh) 基于用户行为的协同过滤推荐方法、装置、设备和介质
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
CN105260414A (zh) 用户行为相似性计算方法及装置
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及***
CN111461815B (zh) 订单识别模型生成方法、识别方法、***、设备和介质
CN110717092A (zh) 为文章匹配对象的方法、***、设备及存储介质
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
Li et al. ε-matching: Event processing over noisy sequences in real time
CN110717089A (zh) 一种基于网络日志的用户行为分析***及方法
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN106250456A (zh) 一种中标公告的抽取方法及装置
CN112949778A (zh) 基于局部敏感哈希的智能合约分类方法、***及电子设备
CN112084390A (zh) 一种电商平台中利用自动结构化爬虫搜索的方法
CN110138720A (zh) 网络流量的异常分类检测方法、装置、存储介质和处理器
CN106055572B (zh) 页面转化参数的处理方法及装置
CN110489627B (zh) 一种互联网爬虫路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination