CN110020364B - 确定页面访问的流量来源的方法和装置 - Google Patents

确定页面访问的流量来源的方法和装置 Download PDF

Info

Publication number
CN110020364B
CN110020364B CN201711205737.7A CN201711205737A CN110020364B CN 110020364 B CN110020364 B CN 110020364B CN 201711205737 A CN201711205737 A CN 201711205737A CN 110020364 B CN110020364 B CN 110020364B
Authority
CN
China
Prior art keywords
record
page access
feature data
advertisement click
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711205737.7A
Other languages
English (en)
Other versions
CN110020364A (zh
Inventor
赵鹏程
钟雨
崔波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711205737.7A priority Critical patent/CN110020364B/zh
Publication of CN110020364A publication Critical patent/CN110020364A/zh
Application granted granted Critical
Publication of CN110020364B publication Critical patent/CN110020364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了确定页面访问的流量来源的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录;提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合;在所述特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型。该实施方式高效快速,且能够准确对流量日志进行去重。

Description

确定页面访问的流量来源的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种确定页面访问的流量来源的方法和装置。
背景技术
网站流量是指网站的访问量,用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标。为了提高网站流量,电子商务平台通常利用多种渠道进行引流,例如依靠展示广告和搜索广告等付费引流方式,或者利用电商平台的展示楼层和营销活动等免费引流方式。为了在提升网站流量的同时保证流量良好的转化,供应商需要对各渠道的流量对总体的贡献以及各渠道的流量的质量进行评价,这就需要建立全面、统一的流量渠道体系,对每个渠道带来的流量和转化进行合理的划分和统计,而其前提就是对网站页面访问流量的来源进行分析。
现有的对页面访问流量的来源进行分析的方法是通过数据仓库对流量日志和广告点击日志进行联合查询,然后通过查询结果进行后续的流量来源的确定。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术的方法在处理数十亿的流量日志和数亿的广告点击日志时,速度较慢,效率较低。
因此,亟需一种高效快速的确定网站页面访问的流量来源的方法和装置。
发明内容
有鉴于此,本发明实施例提供一种确定网站页面访问的流量来源的方法和装置,能够高效快速的处理大量的日志数据。
为实现上述目的,根据本发明实施例的一个方面,提供了一种确定页面访问的流量来源的方法,包括:
获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录;
提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合;
在所述特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型。
进一步的,所述页面访问记录的特征包括:访问时间和访问设备号;广告点击记录的特征包括:点击时间和点击设备号;
在所述判断页面访问记录的流量来源类型的步骤之前,对所述特征数据集合进行排序,以得到该集合的一个或多个分区,其中,所述分区中包括:相同设备号的一个或多个特征数据,在所述分区中所述特征数据按照时间由远至近排序;
所述页面访问记录的特征数据对应的最近一次广告点击记录的特征数据为在所述特征数据集合中排序在该页面访问记录的特征数据之前且距离最近的广告点击记录的特征数据。
进一步的,所述判断页面访问记录的流量来源类型的步骤包括:
对所述特征数据集合中的每个特征数据执行下述流量来源判断过程:
免费流量判断步骤:若当前特征数据为页面访问记录的特征数据,则判断该特征数据与其最近一次广告点击记录的特征数据的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量;
付费流量判断步骤:若当前页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,则判断该最近一次广告点击记录的特征数据的点击时间是否在当前页面访问记录的特征数据的访问时间之前的预设时长内,若在,则确定该页面访问记录的流量来源类型为付费流量。
进一步的,所述付费流量判断步骤中还包括:
判断当前页面访问记录是否是其会话中的第一个记录,若是,则所述预设时长为第一时长,否则,所述预设时长为第二时长,所述第二时长大于所述第一时长。
本发明实施例提供的确定页面访问的流量来源的方法,在所述提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征的步骤之前,还包括:根据页面访问记录的访问时间和访问设备号为所述第一时间段内的每个页面访问记录添加会话标识,以使得页面访问记录的特征还包括所述会话标识,其中,具有相同访问设备号且访问时间在预设的第三时长内所有页面访问记录的会话标识相同;
对于页面访问记录是否是其会话中的第一个记录的判断是根据页面访问记录的特征数据中的会话标识进行的。
进一步的,所述流量来源判断过程是顺序的对所述特征数据集合中的每个特征数据执行的,所述流量来源判断过程还包括:
在所述免费流量判断步骤之前定义第一变量和第二变量,第一变量和第二变量的初始状态为空;
在所述免费流量判断步骤之前执行选定步骤:若当前特征数据是广告点击记录的特征数据,则把第一变量替换为该特征数据,并清空第二变量;
在所述免费流量判断步骤中和所述付费流量判断步骤中,使用第一变量来表示当前特征数据的最近一次广告点击记录的特征数据,
在所述付费流量判断步骤中,判断页面访问记录是否是其会话中的第一个记录包括:判断当前特征数据的会话标识是否等于第二变量以及第二变量是否为空,若当前特征数据的会话标识不等于第二变量或者第二变量为空则表示该特征数据对应的页面访问记录是其会话中的第一个记录,
并且当该特征数据对应的页面访问记录是其会话中的第一个记录且其对应的最近一次广告点击记录的特征数据的点击时间在其特征数据的访问时间之前的第一时长内,则把第二变量替换为该特征数据的会话标识。
可选的,所述特征数据为四元组,所述页面访问记录的四元组为<访问设备号,访问时间,页面访问记录,空>,所述广告点击记录的四元组为<点击设备号,点击时间,空,广告点击记录>,
所述方法还包括:在确定页面访问记录的流量来源类型为免费流量后,输出二元组<流量日志,空>,在确定页面访问记录的流量来源类型为付费流量后,输出二元组<流量日志,最近一次广告点击记录>。
进一步的,所述判断页面访问记录的流量来源类型的步骤包括:
把所述特征数据集合分块,其中,每个分块包括一个或多个所述分区,
所述对特征数据集合中的每个特征数据执行流量来源判断过程包括对所述分块中的每个特征数据执行所述流量来源判断过程。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种确定页面访问的流量来源的装置,包括:
记录获取模块,用于获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录;
特征提取模块,用于提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合;
判断模块,用于在所述特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型。
进一步的,所述特征提取模块提取的所述页面访问记录的特征包括:访问时间和访问设备号,所述特征提取模块提取的广告点击记录的特征包括:点击时间和点击设备号;
所述装置还包括:排序模块,用于在所述特征数据集合中判断页面访问记录的流量来源类型的步骤之前,对所述特征数据集合进行排序,以得到该集合的一个或多个分区,其中,所述分区中包括:相同设备号的一个或多个特征数据,在所述分区中所述特征数据按照时间由远至近排序;
所述页面访问记录的特征数据对应的最近一次广告点击记录的特征数据为在所述特征数据集合中排序在该页面访问记录的特征数据之前且距离最近的广告点击记录的特征数据。
进一步的,所述判断模块进一步用于对所述特征数据集合中的每个特征数据执行下述流量来源判断过程:
免费流量判断步骤:若当前特征数据为页面访问记录的特征数据,则判断该特征数据与其最近一次广告点击记录的特征数据的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量;
付费流量判断步骤:若当前页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,则判断该最近一次广告点击记录的特征数据的点击时间是否在当前页面访问记录的特征数据的访问时间之前的预设时长内,若在,则确定该页面访问记录的流量来源类型为付费流量。
进一步的,所述判断模块进一步用于判断当前页面访问记录是否是其会话中的第一个记录,若是,则所述预设时长为第一时长,否则,所述预设时长为第二时长,所述第二时长大于所述第一时长。
本发明实施例提供的确定页面访问的流量来源的装置,还包括:会话划分模块,用于在所述提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征的步骤之前,根据页面访问记录的访问时间和访问设备号为所述第一时间段内的每个页面访问记录添加会话标识,以使得页面访问记录的特征还包括:所述会话标识,其中,具有相同访问设备号且访问时间在预设的第三时长内所有页面访问记录的会话标识相同;
所述判断模块进一步用于根据页面访问记录的特征数据中的会话标识判断该页面访问记录是否是其会话中的第一个记录。
进一步的,所述判断模块进一步用于顺序的对所述特征数据集合中的每个特征数据执行所述流量来源判断过程;
所述判断模块执行的流量来源判断过程还包括:在所述免费流量判断步骤之前定义第一变量和第二变量,第一变量和第二变量的初始状态为空;在所述免费流量判断步骤之前执行选定步骤:若当前特征数据是广告点击记录的特征数据,则把第一变量替换为该特征数据,并清空第二变量;
所述判断模块进一步用于使用第一变量来表示当前特征数据的最近一次广告点击记录的特征数据;
所述判断模块进一步用于判断当前特征数据的会话标识是否等于第二变量以及第二变量是否为空,若当前特征数据的会话标识不等于第二变量或者第二变量为空则表示该特征数据对应的页面访问记录是其会话中的第一个记录,并且当该特征数据对应的页面访问记录是其会话中的第一个记录且其对应的最近一次广告点击记录的特征数据的点击时间在其特征数据的访问时间之前的第一时长内,则把第二变量替换为该特征数据的会话标识。
进一步的,所述特征数据为四元组,所述页面访问记录的四元组为<访问设备号,访问时间,页面访问记录,空>,所述广告点击记录的四元组为<点击设备号,点击时间,空,广告点击记录>,
本发明实施例提供的确定页面访问的流量来源的装置,还包括:输出模块,用于在确定页面访问记录的流量来源类型为免费流量后,输出二元组<流量日志,空>,在确定页面访问记录的流量来源类型为付费流量后,输出二元组<流量日志,最近一次广告点击记录>。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种确定页面访问的流量来源的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的确定页面访问的流量来源的方法。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的确定页面访问的流量来源的方法。
本发明提供的确定页面访问的流量来源的方法和装置,将页面访问记录和广告点击记录转换为特征数据,然后对由两者组成的特征数据集合进行排序,在排序后的特征数据集合中,根据页面访问记录的特征找到其对应的最近一次广告点击记录的特征,基于该最近一次广告点击记录与页面访问记录的关系判断出页面访问的流量来源类型。相对于现有技术通过对流量日志和广告点击日志进行联合查询,然后基于查询结果进行流量来源分析,本发明的分析方法高效快速,且能够准确对流量日志进行去重。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例提供的确定页面访问的流量来源的方法流程图;
图2是本发明实施例提供的确定页面访问的流量来源的方法的应用流程示意图;
图3是本发明实施例提供的确定页面访问的流量来源的装置示意图;
图4是适于用来实现本发明实施例的电子设备的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例提供一种确定页面访问的流量来源的方法,在本发明中,来自客户端浏览器的一次html网页内容请求被看作为一个页面访问PV(page view),页面访问的流量来源是指该次页面访问是用户通过什么类型的访问渠道访问到的,其间可能经过多次跳转。
在本发明中,页面访问的流量来源有两种类型,一种是免费流量,是指页面的访问是通过对于网站的运营方或者利用网站平台进行具体业务的一方来说无需产生费用的访问渠道产生的,例如,在电商网站中,用户通过网站的主页或者站内搜索引擎访问到具体的商品详情页面,则该次对商品详情页的访问的流量来源类型即为免费流量。另一种是付费流量,与免费流量相反,即页面的访问是通过需要产生费用的访问渠道产生的,例如,若用户通过点击付费广告最终链接到商品详情页,则该次对商品详情页的访问的流量来源类型即为付费流量。
本发明实施例提供的确定页面访问的流量来源的方法,如图1所示,包括:步骤S101、步骤S102和步骤S103,该方法通过上述步骤确定页面访问的流量来源类型是免费流量还是付费流量。
在步骤S101中,获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录。其中,页面访问记录可以从流量日志中得到,广告点击记录可以从广告点击日志中得到。由于在后续的步骤中确定页面访问的流量来源类型时,页面访问记录需要关联到时间在其之前的广告点击记录,因此在本发明中,第二时间段不仅包括第一时间段,还可以包括第一时间段之前的一段时间。例如,在本步骤中,获取某一日的全量流量日志,并同时获取该日和该日之前一日的全量的广告点击日志。
在步骤S102中,提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合。然后在步骤S103中,在特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型。
本发明提供的确定页面访问的流量来源的方法,通过在第一时间段内的页面访问记录的特征数据和第二时间段内的广告点击记录的特征数据组成的特征数据集合中,利用页面访问记录和广告点击记录的特征获知页面访问记录和广告点击记录的对应关系,从而对页面访问记录的流量来源类型进行判断。相对于现有技术通过对流量日志和广告点击日志进行联合查询,然后基于查询结果进行流量来源分析,本发明的分析方法高效快速。
在本发明步骤S102中,提取页面访问记录和广告点击记录的特征时,页面访问记录的特征包括:访问时间和访问设备号,即对该页面进行访问的用户访问该页面的时间和设备号。广告点击记录的特征包括:点击时间和点击设备号,即对该广告进行点击的用户点击该广告的时间和设备号。
本发明提供的确定页面访问的流量来源的方法还包括:在特征数据集合中判断页面访问记录的流量来源类型的步骤之前,即在步骤S102之后,在步骤S103之前,对特征数据集合进行排序,以得到该集合的一个或多个分区,其中,分区中包括:相同设备号的一个或多个特征数据,在分区中特征数据按照时间由远至近排序,也就是说,排序的依据是设备号和时间,先按设备号分区,具有同一设备号的特征数据位于同一个分区中,每个分区中再按时间由远到近排序,时间早的特征数据排在前面。
在步骤S103中,页面访问记录的特征数据对应的最近一次广告点击记录的特征数据为在特征数据集合中排序在该页面访问记录的特征数据之前且距离最近的广告点击记录的特征数据。由于特征数据集合已经进行了排序,根据页面访问记录的特征即可找到其对应的最近一次广告点击记录的特征,由于该广告点击记录在排序中是在页面访问记录之前的且距离最近的,因此基于该广告点击记录与页面访问记录的关系即可判断出页面访问的流量来源类型。
在本发明中,步骤S103,在特征数据集合中,判断一个页面访问记录的流量来源类型包括:对特征数据集合中的每个特征数据执行下述流量来源判断过程:
免费流量判断步骤:若当前特征数据为页面访问记录的特征数据,则判断该特征数据与其最近一次广告点击记录的特征数据的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量。
付费流量判断步骤:若当前页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,则判断该最近一次广告点击记录的特征数据的点击时间是否在当前页面访问记录的特征数据的访问时间之前的预设时长内,若在,则确定该页面访问记录的流量来源类型为付费流量。
也就是说,对于页面访问记录的流量来源类型为付费流量的判定,首先要满足的条件是页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,即表明同一用户在进行页面访问之前进行了广告点击。当满足上述条件时,还需确认该最近一次广告点击记录的时间是否在页面访问记录之前的预设时长内,用户的页面访问的时间距离其最近一次点击广告的时间若相隔太久,则不将该页面访问的流量来源类型视为付费流量。
在本发明中,付费流量判断步骤中还包括:判断当前页面访问记录是否是其会话中的第一个记录(即同一会话中时间最早的页面访问记录),若是,则预设时长为第一时长,否则,预设时长为第二时长,第二时长大于第一时长。即对于位于同一会话中不同位置的页面访问记录,在判断其与对应最近一次广告点击相隔的时间是否满足要求时,采用不同的判断标准。由于位于一个会话中的不同位置的页面访问,可能都源自于同一个广告点击,该广告点击可以视为能够影响到该会话中的所有页面访问,并对所有页面访问具有同样的效力,但是同一会话内的页面访问记录之间可能相隔的时间较久,因此,对于会话中的第一个页面访问记录和位于其后的其他页面访问记录与最近一次广告点击记录的相隔时间是否满足要求的判断,分别采用第一时长和第二时长来作为判断标准。第一时长和第二时长可以根据具体的需求进行设定。
本发明提供的确定页面访问的流量来源的方法还包括:在提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征之前,即在步骤S101之后在步骤S102之前,还包括:
根据页面访问记录的访问时间和访问设备号为第一时间段内的每个页面访问记录添加会话标识,以使得页面访问记录的特征还包括:会话标识,其中,具有相同访问设备号且访问时间在预设的第五时长内所有页面访问记录的会话标识相同,第五时长即用来切分会话的时长,可根据具体需求进行设定,将该时长内,相同访问设备号的页面访问记录划分为一个会话。
在步骤S103中的付费流量判断步骤中,对于页面访问记录是否是其会话中的第一个记录是根据该页面访问记录的特征数据中的会话标识来判断的。
下面结合一具体的实施方式对本发明提供的确定页面访问的流量来源的方法进行进一步的说明。
在本实施方式中,在步骤S101中,获取某一日的全量流量日志,并同时获取该日和该日之前一日的全量的广告点击日志。由于在本实施方式后续的判断过程中,将页面访问记录是否能关联到在其之前15分钟或24小时内的广告点击记录作为判断该页面访问记录是否为付费流量的条件。因此,在本步骤中获取的广告点击日志要比对应的流量日志多一日。
提取流量日志中的所有页面访问记录的设备号和访问时间作为页面访问记录的特征,提取广告点击日志中的所有广告点击记录的设备号和点击时间作为广告点击记录的特征,在本实施方式中,特征数据为四元组,在步骤S102中,将所有页面访问记录和广告点击记录分别转化为<设备号,日志时间,页面访问记录,广告点击记录>联合四元组的形式。
页面访问记录的四元组为<访问设备号,访问时间,页面访问记录,空>,其中,页面访问记录本身也作为一特征元素,其中具有会话标识,四元组的第四个元素为空。例如,若获取的所有页面访问记录的四元组为:
<name1,2016-06-18 10:10,visitlog1,NULL>;
<name1,2016-06-18 10:20,visitlog2,NULL>;
<name2,2016-06-19 11:00,visitlog3,NULL>;
<name3,2016-06-19 12:00,visitlog4,NULL>。
其中,name表示访问设备号,其后为访问时间,visitlog表示页面访问记录,NULL表示为空。
广告点击记录的四元组为<点击设备号,点击时间,空,广告点击记录>。其中,广告点击记录本身也作为一特征元素,与页面访问记录的四元组相对应的,广告点击记录的四元组的第三个元素为空,使得页面访问记录的四元组和广告点击记录的四元组的格式统一,可以将两者数据合并为统一的结构。
对应上例,若获取的所有广告点击记录的四元组为:
<name1,2016-06-18 10:00,NULL,adlog1>;
<name3,2016-06-19 10:00,NULL,adlog2>;
<name4,2016-06-20 10:00,NULL,adlog3>;
<name5,2016-06-21 10:00,NULL,adlog4>。
其中,name表示点击设备号,其后为点击时间,NULL表示为空,adlog表示广告点击记录。
如图2所示,将上述所有页面访问记录的四元组和广告点击记录的四元组进行合并得到四元组集合:
<name1,2016-06-18 10:10,visitlog1,NULL>;
<name1,2016-06-18 10:20,visitlog2,NULL>;
<name2,2016-06-19 11:00,visitlog3,NULL>;
<name3,2016-06-19 12:00,visitlog4,NULL>;
<name1,2016-06-18 10:00,NULL,adlog1>;
<name3,2016-06-19 10:00,NULL,adlog2>;
<name4,2016-06-20 10:00,NULL,adlog3>;
<name5,2016-06-21 10:00,NULL,adlog4>。
对四元组集合进行分区和排序,使得分区中包括:相同设备号的一个或多个特征数据,在分区中特征数据按照时间由远至近排序。同上例,得到上述四元组集合的5个分区:
分区1:
<name1,2016-06-18 10:00,NULL,adlog1>;
<name1,2016-06-18 10:10,visitlog1,NULL>;
<name1,2016-06-18 10:20,visitlog2,NULL>。
分区2:
<name2,2016-06-19 11:00,visitlog3,NULL>。
分区3:
<name3,2016-06-19 10:00,NULL,adlog2>;
<name3,2016-06-19 12:00,visitlog4,NULL>。
分区4:
<name4,2016-06-20 10:00,NULL,adlog3>。
分区5:
<name5,2016-06-21 10:00,NULL,adlog4>。
在本实施方式中,把上述四元组集合分块,其中,每个分块包括一个或多个分区,得到:
分块1:
<name1,2016-06-18 10:00,NULL,adlog1>;
<name1,2016-06-18 10:10,visitlog1,NULL>;
<name1,2016-06-18 10:20,visitlog2,NULL>。
分块2:
<name2,2016-06-19 11:00,visitlog3,NULL>。
分块3:
<name3,2016-06-19 10:00,NULL,adlog2>;
<name3,2016-06-19 12:00,visitlog4,NULL>。
分块4:
<name4,2016-06-20 10:00,NULL,adlog3>;
<name5,2016-06-21 10:00,NULL,adlog4>。
一个分块内可以包含多个分区,分块的方法可以根据具体的需求来确定,例如可以根据首字母进行分块,那么一共有26个分块。由于在实际应用过程中,特征数据集合中的特征数据往往非常多,在本实施方式中对特征数据集合进行分块后,后续的流量来源判断过程可以并行的在每个分块内进行,从而加快本发明分析方法的处理速度。
当然,对于进行了分区和排序后的四元组集合,也可以不进行分块,直接对四元组集合进行后续的流量来源判断过程,对四元组集合进行流量来源判断过程与对分块进行流量来源判断过程的原理是一致的,在本实施方式的下述内容中,以对分块进行流量来源判断过程来对流量来源判断过程进行详细的说明。
在本实施方式中,对分块中的每个四元组执行流量来源判断过程,定义第一变量和第二变量,第一变量和第二变量的初始状态为空,顺序的对分块中的每个四元组执行流量来源判断过程,即按照顺序进行遍历分快内的所有四元组。
以分块1为例:
分块1:
<name1,2016-06-18 10:00,NULL,adlog1>;
<name1,2016-06-18 10:10,visitlog1,NULL>;
<name1,2016-06-18 10:30,visitlog2,NULL>。
首先,执行最近一次广告点击记录的特征数据选定步骤:
若当前四元组中的广告点击记录adlog不为空,表明当前四元组为是广告点击记录的特征数据,则把第一变量替换为该四元组,并清空第二变量。
分块1中的第一个四元组<name1,2016-06-18 10:00,NULL,adlog1>满足上述条件,此时将把第一变量替换为四元组<name1,2016-06-18 10:00,NULL,adlog1>,并清空第二变量,结束对该四元组的流量来源判断过程。然后顺序的将分块1中的下一个四元组<name1,2016-06-18 10:10,visitlog1,NULL>作为当前四元组,重复执行流量来源判断过程。
在后续的免费流量判断步骤中和付费流量判断步骤中,通过第一变量来表示当前特征数据的最近一次广告点击记录的特征数据。
对当前四元组<name1,2016-06-18 10:10,visitlog1,NULL>执行最近一次广告点击记录的特征数据选定步骤,判断得知该四元组不满足条件,然后对其执行免费流量判断步骤:若当前四元组页面访问记录visitlog不为空,表明该四元组为是页面访问记录的特征数据,则判断该四元组与其最近一次广告点击记录的四元组的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量。在确定页面访问记录的流量来源类型为免费流量后,输出二元组<流量日志,空>。
当前四元组<name1,2016-06-18 10:10,visitlog1,NULL>的设备号与其最近一次广告点击记录的四元组(即第一变量)的设备号相同,不满足免费流量判断步骤的判断条件,继续对其进行下述付费流量判断步骤。
在付费流量判断步骤中,判断当前四元组对应的页面访问记录是否是其会话中的第一个记录,具体为:判断当前四元组的会话标识是否等于第二变量以及第二变量是否为空,若当前四元组的会话标识不等于第二变量或者第二变量为空则表示该四元组对应的页面访问记录是其会话中的时间最早的记录,否则表示该四元组对应的页面访问记录不是其会话中的时间最早的记录。
若当前页面访问记录是其会话中的第一个记录,则判断最近一次广告点击记录的特征数据(第一变量)的点击时间是否在当前四元组的访问时间之前的第一时长内,在本实施方式中,第一时长选为15分钟,若在,则确定该页面访问记录的流量来源类型为付费流量,输出二元组<流量日志,最近一次广告点击记录>,并把第二变量替换为该特征数据的会话标识。
若当前页面访问记录不是其会话中的第一个记录,则判断该最近一次广告点击记录的特征数据(第一变量)的点击时间是否在当前四元组的访问时间之前的第二时长内,在本实施方式中,第二时长选为24小时,若在,则确定该页面访问记录的流量来源类型为付费流量,输出二元组<流量日志,最近一次广告点击记录>。
对于当前四元组<name1,2016-06-18 10:10,visitlog1,NULL>的付费流量判断步骤中,第二变量为空,确定该四元组对应的页面访问记录是其会话中的时间最早的记录,且最近一次广告点击记录的特征数据(第一变量)的点击时间在当前四元组的访问时间之前的15分钟内,确定该四元组对应的页面访问记录的流量来源类型为付费流量,输出二元组<visitlog1,adlog1>,结束对于该当前四元组的流量来源判断过程。
然后顺序的将分块1中的下一个四元组<name1,2016-06-18 10:20,visitlog2,NULL>作为当前四元组,重复执行流量来源判断过程。该当前四元组不满足最近一次广告点击记录的特征数据选定步骤和免费流量判断步骤的条件,对其执行付费流量判断步骤。此时,第二变量为四元组<name1,2016-06-18 10:10,visitlog1,NULL>,判断当前四元组的会话标识是否等于第二变量的会话标识,假定两者相等,则表示当前四元组对应的页面访问记录不是其会话中的时间最早的记录。且最近一次广告点击记录的特征数据(第一变量)的点击时间在当前四元组的访问时间之前的24小时内,确定当前四元组对应的页面访问记录的流量来源类型为付费流量,输出二元组<visitlog2,adlog1>。从而完成对于分块1的流量来源判断过程。
通过本发明方法输出的二元组数据,即可对流量日志中的每个页面访问的流量来源类型进行区分,并且由于每秒每个用户最多有一个访问日志,因此,通过二元组中记录的访问时间和访问设备号能够准确对流量日志中的页面访问进行去重。
本发明提供的确定页面访问的流量来源的方法还包括下述入口判定步骤:
当确定当前四元组对应的页面访问记录的流量来源类型为免费流量,且该页面访问的是通过一级入口或二级入口发起的,则确定该页面访问的流量入口为对应一级入口或二级入口的名称,其中一级入口为网站首页的栏目名称,二级入口为首页的栏目经一次跳转可到的落地页。对于同时可被归为一级与二级入口的流量,优先划归至一级入口。在本发明中,通过对各种客户端的(PC、APP、移动端浏览器等)自有主页进行埋点,以对用户点击的栏目进行识别,从而确定用户的页面访问是否是通过一级入口或二级入口发起的。
在本发明中,每一个会话是由按顺序跳转的页面组成的,当一个会话是由用户通过一级入口或二级入口发起的,这个会话中的所有页面访问(PV)的流量入口即为入口名称。
当确定当前四元组对应的页面访问记录的流量来源类型为付费流量,则确定该页面访问的流量入口为对应广告类型的名称,即输出的二元组中的最近一次广告点击记录的广告类型的名称。
本发明提供的确定页面访问的流量来源的方法实现了下述对付费流量来源类型的判断逻辑:某一会话内的页面访问的前第一时间段(例如15分钟)内有任何广告点击,该会话内广告点击之后页面访问划归用户点击的广告渠道。每一个页面访问拥有唯一的广告渠道,如果可关联到多次广告点击,以相距最近的为准。发生在会话内的广告点击只影响广告所在的会话,发生在会话外的广告点击只影响随后的一个会话。对于同时可被归为付费渠道与免费渠道的页面访问,优先划归为付费流量。
在实际应用中,在确定页面访问的流量来源类型后,可以相应进行不同流量来源类型的流量统计,并结合对应的订单量,计算流量的转换率,从而对付费流量与免费流量的效果进行合理的评估。
通过订单来源的判定可以统计获得对应来源的订单量,从而进行上述流量的转化率计算,以下对订单来源的判定方式进行简要介绍。订单来源分为付费与免费来源。当一个订单同时可被归为付费来源与免费来源时,优先划归付费来源。
付费订单来源的判定通过广告跟单实现,如用户购买商品前一段时间(例如15天)内点击过落地页为该商品所属三级类目+品牌商品的某一产品线广告,该订单记为该广告产品线所属订单。如该段时间内点击过多次不同产品线的广告,按距下单最近的一次广告点击将订单划分至某一广告产品线。
免费订单来源的判定通过关联商详页访问与订单行得到。将某一SKU(最小品类单元)商品详情页的页面访问PV与其后一段时间(例如24小时)内同SPU(标准产品单位,指同款式商品,例如某一款手机同容量的金色版和银色版为一个SPU,两个SKU),同SPU所在店铺、同SPU所在三级类目商品订单行相关联,利用PV的入口将订单划归至某一流量入口。
站外流量来源判定:通过识别站外流量带来的会话中第一个PV的上一跳链接,判断会话中的PV来源于哪一家网站,将会话中的所有PV的流量来源划归这一渠道。
本发明提供的确定页面访问的流量来源的方法,将页面访问记录和广告点击记录转换为特征数据,然后对由两者组成的特征数据集合进行排序,在排序后的特征数据集合中,根据页面访问记录的特征找到其对应的最近一次广告点击记录的特征,基于该最近一次广告点击记录与页面访问记录的关系判断出页面访问的流量来源类型。相对于现有技术通过对流量日志和广告点击日志进行联合查询,然后基于查询结果进行流量来源分析,本发明的分析方法高效快速,且能够准确对流量日志进行去重。
本发明实施例还提供一种确定页面访问的流量来源的装置,如图3所示,该装置300包括:记录获取模块301、特征提取模块302和判断模块303。
记录获取模块301用于获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录。
特征提取模块302用于提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合。
判断模块303用于在特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型。
特征提取模块302提取的页面访问记录的特征包括:访问时间和访问设备号,特征提取模块提取的广告点击记录的特征包括:点击时间和点击设备号。
本发明实施例提供的确定页面访问的流量来源的装置还包括:排序模块,排序模块用于在特征数据集合中判断页面访问记录的流量来源类型的步骤之前,对特征数据集合进行排序,以得到该集合的一个或多个分区,其中,分区中包括:相同设备号的一个或多个特征数据,在分区中特征数据按照时间由远至近排序。
页面访问记录的特征数据对应的最近一次广告点击记录的特征数据为在特征数据集合中排序在该页面访问记录的特征数据之前且距离最近的广告点击记录的特征数据。
判断模块303进一步用于对特征数据集合中的每个特征数据执行下述流量来源判断过程:
免费流量判断步骤:若当前特征数据为页面访问记录的特征数据,则判断该特征数据与其最近一次广告点击记录的特征数据的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量。
付费流量判断步骤:若当前页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,则判断该最近一次广告点击记录的特征数据的点击时间是否在当前页面访问记录的特征数据的访问时间之前的预设时长内,若在,则确定该页面访问记录的流量来源类型为付费流量。
判断模块303进一步用于判断当前页面访问记录是否是其会话中的第一个记录,若是,则预设时长为第一时长,否则,预设时长为第二时长,第二时长大于第一时长。
本发明实施例提供的确定页面访问的流量来源的装置还包括:会话划分模块,会话划分模块用于在提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征之前,根据页面访问记录的访问时间和访问设备号为第一时间段内的每个页面访问记录添加会话标识,以使得页面访问记录的特征还包括:会话标识,其中,具有相同访问设备号且访问时间在预设的第三时长内所有页面访问记录的会话标识相同。
判断模块303进一步用于根据页面访问记录的特征数据中的会话标识判断该页面访问记录是否是其会话中的第一个记录。
判断模块303进一步用于定义第一变量和第二变量,第一变量和第二变量的初始状态为空。
所述判断模块进一步用于顺序的对所述特征数据集合中的每个特征数据执行所述流量来源判断过程,所述流量来源判断过程还包括:在所述免费流量判断步骤之前执行的最近一次广告点击记录的特征数据选定步骤:若当前特征数据是广告点击记录的特征数据,则把第一变量替换为该特征数据,并清空第二变量,在所述免费流量判断步骤中和所述付费流量判断步骤中,通过第一变量来表示当前特征数据的最近一次广告点击记录的特征数据。
判断模块303进一步用于在所述付费流量判断步骤中,判断当前特征数据的会话标识是否等于第二变量以及第二变量是否为空,若当前特征数据的会话标识不等于第二变量或者第二变量为空则表示该特征数据对应的页面访问记录是其会话中的时间最早的记录,否则表示该特征数据对应的页面访问记录不是其会话中的时间最早的记录,并且当该特征数据对应的页面访问记录是其会话中的时间最早的记录且其对应的最近一次广告点击记录的特征数据的点击时间在其特征数据的访问时间之前的第一时长内,则把第二变量替换为该特征数据的会话标识。
在本发明中,特征数据为四元组,页面访问记录的四元组为<访问设备号,访问时间,页面访问记录,空>,广告点击记录的四元组为<点击设备号,点击时间,空,广告点击记录>。
本发明实施例提供的确定页面访问的流量来源的装置还包括:输出模块,用于在确定页面访问记录的流量来源类型为免费流量后,输出二元组<流量日志,空>,在确定页面访问记录的流量来源类型为付费流量后,输出二元组<流量日志,最近一次广告点击记录>。
判断模块303进一步用于把特征数据集合分块,其中,每个分块包括一个或多个分区,对特征数据集合中的每个特征数据执行流量来源判断过程是指对分块中的每个特征数据执行流量来源判断过程。
本发明提供的确定页面访问的流量来源的装置,将页面访问记录和广告点击记录转换为特征数据,然后对由两者组成的特征数据集合进行排序,在排序后的特征数据集合中,根据页面访问记录的特征找到其对应的最近一次广告点击记录的特征,基于该最近一次广告点击记录与页面访问记录的关系判断出页面访问的流量来源类型。相对于现有技术通过对流量日志和广告点击日志进行联合查询,然后基于查询结果进行流量来源分析,本发明的分析方法高效快速,且能够准确对流量日志进行去重。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机***400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机***400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括记录获取模块、特征提取模块和判断模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,特征提取模块还可以被描述为“用于把所述特征数据集合分块的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录;
提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合;
在所述特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (15)

1.一种确定页面访问的流量来源的方法,其特征在于,包括:
获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录;
提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合;
在所述特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型;
所述判断页面访问记录的流量来源类型的步骤包括:
对所述特征数据集合中的每个特征数据执行下述流量来源判断过程:
免费流量判断步骤:若当前特征数据为页面访问记录的特征数据,则判断该特征数据与其最近一次广告点击记录的特征数据的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量;
付费流量判断步骤:若当前页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,则判断该最近一次广告点击记录的特征数据的点击时间是否在当前页面访问记录的特征数据的访问时间之前的预设时长内,若在,则确定该页面访问记录的流量来源类型为付费流量。
2.根据权利要求1所述的方法,其特征在于,
所述页面访问记录的特征包括:访问时间和访问设备号;广告点击记录的特征包括:点击时间和点击设备号;
在所述判断页面访问记录的流量来源类型的步骤之前,对所述特征数据集合进行排序,以得到该集合的一个或多个分区,其中,所述分区中包括:相同设备号的一个或多个特征数据,在所述分区中所述特征数据按照时间由远至近排序;
所述页面访问记录的特征数据对应的最近一次广告点击记录的特征数据为在所述特征数据集合中排序在该页面访问记录的特征数据之前且距离最近的广告点击记录的特征数据。
3.根据权利要求2所述的方法,其特征在于,所述付费流量判断步骤中还包括:
判断当前页面访问记录是否是其会话中的第一个记录,若是,则所述预设时长为第一时长,否则,所述预设时长为第二时长,所述第二时长大于所述第一时长。
4.根据权利要求3所述的方法,其特征在于,
在所述提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征的步骤之前,还包括:根据页面访问记录的访问时间和访问设备号为所述第一时间段内的每个页面访问记录添加会话标识,以使得页面访问记录的特征还包括所述会话标识,其中,具有相同访问设备号且访问时间在预设的第三时长内所有页面访问记录的会话标识相同;
对于页面访问记录是否是其会话中的第一个记录的判断是根据页面访问记录的特征数据中的会话标识进行的。
5.根据权利要求4所述的方法,其特征在于,
所述流量来源判断过程是顺序的对所述特征数据集合中的每个特征数据执行的,所述流量来源判断过程还包括:
在所述免费流量判断步骤之前定义第一变量和第二变量,第一变量和第二变量的初始状态为空;
在所述免费流量判断步骤之前执行选定步骤:若当前特征数据是广告点击记录的特征数据,则把第一变量替换为该特征数据,并清空第二变量;
在所述免费流量判断步骤中和所述付费流量判断步骤中,使用第一变量来表示当前特征数据的最近一次广告点击记录的特征数据,
在所述付费流量判断步骤中,判断页面访问记录是否是其会话中的第一个记录包括:判断当前特征数据的会话标识是否等于第二变量以及第二变量是否为空,若当前特征数据的会话标识不等于第二变量或者第二变量为空则表示该特征数据对应的页面访问记录是其会话中的第一个记录,
并且当该特征数据对应的页面访问记录是其会话中的第一个记录且其对应的最近一次广告点击记录的特征数据的点击时间在其特征数据的访问时间之前的第一时长内,则把第二变量替换为该特征数据的会话标识。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述特征数据为四元组,所述页面访问记录的四元组为<访问设备号,访问时间,页面访问记录,空>,所述广告点击记录的四元组为<点击设备号,点击时间,空,广告点击记录>,
所述方法还包括:在确定页面访问记录的流量来源类型为免费流量后,输出二元组<流量日志,空>,在确定页面访问记录的流量来源类型为付费流量后,输出二元组<流量日志,最近一次广告点击记录>。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述判断页面访问记录的流量来源类型的步骤包括:
把所述特征数据集合分块,其中,每个分块包括一个或多个分区,
所述对特征数据集合中的每个特征数据执行流量来源判断过程包括对所述分块中的每个特征数据执行所述流量来源判断过程。
8.一种确定页面访问的流量来源的装置,其特征在于,包括:
记录获取模块,用于获取第一时间段内的一个或多个页面访问记录,和第二时间段内的一个或多个广告点击记录;
特征提取模块,用于提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征,以获得页面访问记录的特征数据和广告点击记录的特征数据,并得到由所有特征数据组成的特征数据集合;
判断模块,用于在所述特征数据集合中,根据每一个页面访问记录的特征数据对应的最近一次广告点击记录的特征数据判断该页面访问记录的流量来源类型;
所述判断模块进一步用于对所述特征数据集合中的每个特征数据执行下述流量来源判断过程:
免费流量判断步骤:若当前特征数据为页面访问记录的特征数据,则判断该特征数据与其最近一次广告点击记录的特征数据的设备号是否相同,若不同,则确定该页面访问记录的流量来源类型为免费流量;
付费流量判断步骤:若当前页面访问记录的特征数据与其最近一次广告点击记录的特征数据的设备号相同,则判断该最近一次广告点击记录的特征数据的点击时间是否在当前页面访问记录的特征数据的访问时间之前的预设时长内,若在,则确定该页面访问记录的流量来源类型为付费流量。
9.根据权利要求8所述的装置,其特征在于,所述特征提取模块提取的所述页面访问记录的特征包括:访问时间和访问设备号,所述特征提取模块提取的广告点击记录的特征包括:点击时间和点击设备号;
所述装置还包括:排序模块,用于在所述特征数据集合中判断页面访问记录的流量来源类型的步骤之前,对所述特征数据集合进行排序,以得到该集合的一个或多个分区,其中,所述分区中包括:相同设备号的一个或多个特征数据,在所述分区中所述特征数据按照时间由远至近排序;
所述页面访问记录的特征数据对应的最近一次广告点击记录的特征数据为在所述特征数据集合中排序在该页面访问记录的特征数据之前且距离最近的广告点击记录的特征数据。
10.根据权利要求8所述的装置,其特征在于,所述判断模块进一步用于判断当前页面访问记录是否是其会话中的第一个记录,若是,则所述预设时长为第一时长,否则,所述预设时长为第二时长,所述第二时长大于所述第一时长。
11.根据权利要求10所述的装置,其特征在于,还包括:会话划分模块,用于在所述提取第一时间段内的每一个页面访问记录和第二时间段内的每一个广告点击记录的特征的步骤之前,根据页面访问记录的访问时间和访问设备号为所述第一时间段内的每个页面访问记录添加会话标识,以使得页面访问记录的特征还包括:所述会话标识,其中,具有相同访问设备号且访问时间在预设的第三时长内所有页面访问记录的会话标识相同;
所述判断模块进一步用于根据页面访问记录的特征数据中的会话标识判断该页面访问记录是否是其会话中的第一个记录。
12.根据权利要求11所述的装置,其特征在于,所述判断模块进一步用于顺序的对所述特征数据集合中的每个特征数据执行所述流量来源判断过程;
所述判断模块执行的流量来源判断过程还包括:在所述免费流量判断步骤之前定义第一变量和第二变量,第一变量和第二变量的初始状态为空;在所述免费流量判断步骤之前执行选定步骤:若当前特征数据是广告点击记录的特征数据,则把第一变量替换为该特征数据,并清空第二变量;
所述判断模块进一步用于使用第一变量来表示当前特征数据的最近一次广告点击记录的特征数据;
所述判断模块进一步用于判断当前特征数据的会话标识是否等于第二变量以及第二变量是否为空,若当前特征数据的会话标识不等于第二变量或者第二变量为空则表示该特征数据对应的页面访问记录是其会话中的第一个记录,并且当该特征数据对应的页面访问记录是其会话中的第一个记录且其对应的最近一次广告点击记录的特征数据的点击时间在其特征数据的访问时间之前的第一时长内,则把第二变量替换为该特征数据的会话标识。
13.根据权利要求8或12所述的装置,其特征在于,其特征在于,所述特征数据为四元组,所述页面访问记录的四元组为<访问设备号,访问时间,页面访问记录,空>,所述广告点击记录的四元组为<点击设备号,点击时间,空,广告点击记录>,
所述装置还包括:输出模块,用于在确定页面访问记录的流量来源类型为免费流量后,输出二元组<流量日志,空>,在确定页面访问记录的流量来源类型为付费流量后,输出二元组<流量日志,最近一次广告点击记录>。
14.一种确定页面访问的流量来源的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201711205737.7A 2017-11-27 2017-11-27 确定页面访问的流量来源的方法和装置 Active CN110020364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711205737.7A CN110020364B (zh) 2017-11-27 2017-11-27 确定页面访问的流量来源的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711205737.7A CN110020364B (zh) 2017-11-27 2017-11-27 确定页面访问的流量来源的方法和装置

Publications (2)

Publication Number Publication Date
CN110020364A CN110020364A (zh) 2019-07-16
CN110020364B true CN110020364B (zh) 2021-11-30

Family

ID=67186617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711205737.7A Active CN110020364B (zh) 2017-11-27 2017-11-27 确定页面访问的流量来源的方法和装置

Country Status (1)

Country Link
CN (1) CN110020364B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307370A (zh) * 2020-10-26 2021-02-02 银盛通信有限公司 一种订单来源跟踪方法及***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799830A (zh) * 2010-03-25 2010-08-11 北京国双科技有限公司 可实现多维度自由剖析的流量数据处理方法
CN102411573A (zh) * 2010-09-20 2012-04-11 百度在线网络技术(北京)有限公司 一种基于网页中的网页访问者行为的信息获取方法和***
CN102684925A (zh) * 2012-05-24 2012-09-19 北京国双科技有限公司 互联网访问来源信息的获取方法和装置
CN102999572A (zh) * 2012-11-09 2013-03-27 同济大学 用户行为模式挖掘***及其方法
CN104346374A (zh) * 2013-07-31 2015-02-11 阿里巴巴集团控股有限公司 一种数据处理方法及***
CN104426713A (zh) * 2013-08-28 2015-03-18 腾讯科技(北京)有限公司 网络站点访问效果数据的监测方法和装置
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN105450460A (zh) * 2014-06-03 2016-03-30 北京奇虎科技有限公司 网络操作记录方法及***
CN105677866A (zh) * 2016-01-08 2016-06-15 车智互联(北京)科技有限公司 一种内容转化追踪方法、装置、***和转化服务器
CN105718184A (zh) * 2014-12-05 2016-06-29 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN105989002A (zh) * 2015-01-27 2016-10-05 阿里巴巴集团控股有限公司 网页数据查询、建立网页跳转路径数据库的方法及装置
CN106897196A (zh) * 2015-12-17 2017-06-27 北京国双科技有限公司 网站页面间访问路径的确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740672B2 (en) * 2014-10-24 2017-08-22 POWr Inc. Systems and methods for dynamic, real time management of cross-domain web plugin content

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799830A (zh) * 2010-03-25 2010-08-11 北京国双科技有限公司 可实现多维度自由剖析的流量数据处理方法
CN102411573A (zh) * 2010-09-20 2012-04-11 百度在线网络技术(北京)有限公司 一种基于网页中的网页访问者行为的信息获取方法和***
CN102684925A (zh) * 2012-05-24 2012-09-19 北京国双科技有限公司 互联网访问来源信息的获取方法和装置
CN102999572A (zh) * 2012-11-09 2013-03-27 同济大学 用户行为模式挖掘***及其方法
CN104346374A (zh) * 2013-07-31 2015-02-11 阿里巴巴集团控股有限公司 一种数据处理方法及***
CN104426713A (zh) * 2013-08-28 2015-03-18 腾讯科技(北京)有限公司 网络站点访问效果数据的监测方法和装置
CN105450460A (zh) * 2014-06-03 2016-03-30 北京奇虎科技有限公司 网络操作记录方法及***
CN105718184A (zh) * 2014-12-05 2016-06-29 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN105989002A (zh) * 2015-01-27 2016-10-05 阿里巴巴集团控股有限公司 网页数据查询、建立网页跳转路径数据库的方法及装置
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN106897196A (zh) * 2015-12-17 2017-06-27 北京国双科技有限公司 网站页面间访问路径的确定方法及装置
CN105677866A (zh) * 2016-01-08 2016-06-15 车智互联(北京)科技有限公司 一种内容转化追踪方法、装置、***和转化服务器

Also Published As

Publication number Publication date
CN110020364A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN107229730A (zh) 数据查询方法及装置
WO2016161976A1 (zh) 选择数据内容向终端推送的方法和装置
CN109933514B (zh) 一种数据测试方法和装置
CN104850546B (zh) 移动媒介信息的展示方法和***
CN107908662B (zh) 搜索***的实现方法和实现装置
JP2023533475A (ja) キーワード推薦のための人工知能
CN111242661A (zh) 优惠券发放方法和装置以及计算机***和介质
US11423096B2 (en) Method and apparatus for outputting information
CN109284450B (zh) 订单成单路径的确定方法及装置、存储介质、电子设备
US20190149344A1 (en) Intelligent search system for service cost and method thereof
CN110019367B (zh) 一种统计数据特征的方法和装置
CN111311294A (zh) 数据处理方法、装置、介质及电子设备
US20170270572A1 (en) System and method for autonomous internet searching and display of product data and sending alerts
CN112528148B (zh) 资源信息展示、配置方法及装置
US11308044B2 (en) Rule based decisioning on metadata layers
CN112749863A (zh) 关键词的调价方法及装置、电子设备
CN108932640B (zh) 用于处理订单的方法和装置
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN113327146A (zh) 一种信息追踪方法和装置
CN107291835B (zh) 一种搜索词的推荐方法和装置
CN107886382A (zh) 分析网站站内渠道引流效果的方法、装置及***
CN107562941A (zh) 数据处理方法及其***
US10331713B1 (en) User activity analysis using word clouds
US20230230081A1 (en) Account identification method, apparatus, electronic device and computer readable medium
CN110020364B (zh) 确定页面访问的流量来源的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant