CN112650743A

CN112650743A - 一种漏斗数据分析方法、***、电子设备及存储介质

Info

Publication number: CN112650743A
Application number: CN202011614804.2A
Authority: CN
Inventors: 许银; 李琳; 周冰; 吴耀华; 李小海
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-13

Abstract

本发明实施例涉及数据分析技术领域，特别涉及一种漏斗数据分析方法、***、电子设备及存储介质，通过按时间将所述用户行为日志数据分为多个时间段，支持弹性可变机制，只需要在数据处理时调整时间粒度，使在同一时间粒度值内的用户行为是无序的，不同时间粒度值的用户行为是有序的，增强了分析的灵活性；统计每个时间段内的行为集合，同一时间段内一个用户只对应一条数据，大大减少了所要处理的数据量，数据处理和查询的过程中，数据只遍历一次，即可得到用户在每个时间段内的行为集合，将各时间段所述行为集合分别与漏斗步骤集合进行匹配后合并，即可得到所有用户的漏斗步骤匹配总集合，避免繁琐的Map/Reduce机制，加快了查询速度。

Description

一种漏斗数据分析方法、***、电子设备及存储介质

技术领域

本申请实施例涉及数据分析技术领域，特别涉及一种漏斗数据分析方法、***、电子设备及存储介质。

背景技术

随着互联网技术的发展，特别是移动互联网的普及，互联网企业面对***式增长的海量数据，快速高效的数据分析对于快速调整产品定位，提高产品嗅觉显得尤为重要。在互联网产品的数据分析工作中，漏斗模型分析是用户行为分析的一种常用手段。一个有效的漏斗模型一般可分为多个漏斗步骤，转化周期，时间窗口，过滤条件，用户群体等几个部分。分析的结果为：在一定的时间窗口内，特定群体的用户中满足过滤条件的用户在转化周期内完成每一步漏斗步骤的用户数以及每一步的转化率。

漏斗模型主要可以分为有序和无序两种，有序的漏斗模型要求用户在一定转化周期内依次完成指定行为；无序的漏斗模型对多个行为的时间顺序没有要求，只要用户在一定转化周期内完成指定行为。现有的技术方案通常采用基于Hadoop的Map/Reduce批处理机制查询，针对每一漏斗步骤，需要对所有用户行为数据进行查询统计，然后根据需要对查询的结果进行过滤，合成，汇总等。其在建立漏斗模型对用户行为进行分析时，一次建模的过程需要发起多次查询，加上繁琐的Map/Reduce机制，在海量数据集的情况下，生成漏斗模型的过程相当缓慢，无法做到灵活分析。

发明内容

本发明实施方式的目的在于提供一种漏斗数据分析方法、***、电子设备及存储介质，解决了现有技术中用户行为进行分析时，一次建模的过程需要发起多次查询，在海量数据集的情况下，生成漏斗模型的过程相当缓慢，无法做到灵活分析的问题。

为解决上述技术问题，第一方面，本发明的实施例提供了一种漏斗数据分析方法，包括：

确定用户在不同时间段的用户行为，以组成用户在每个时间段对应的行为集合；

以时间段为单位，分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，以得到每个时间段的行为匹配结果；

对每个用户在不同时间段的行为匹配结果进行合并，得到每个用户的漏斗步骤匹配总集合，根据所有用户的漏斗步骤匹配总集合确定所述漏斗步骤集合中任一漏斗步骤匹配到的用户数量。

第二方面，本发明实施例提供了一种漏斗数据分析***，包括：

行为提取模块，确定用户在不同时间段的用户行为，以组成用户在每个时间段对应的行为集合；

漏斗步骤匹配模块，以时间段为单位，分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，以得到每个时间段的行为匹配结果；

漏斗步骤分析模块，对每个用户在不同时间段的行为匹配结果进行合并，得到每个用户的漏斗步骤匹配总集合，根据所有用户的漏斗步骤匹配总集合确定所述漏斗步骤集合中任一漏斗步骤匹配到的用户数量。

第三方面，本发明实施例提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明第一方面实施例所述漏斗数据分析方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述漏斗数据分析方法的步骤。

本发明实施例相对于相关技术而言，通过按时间将所述用户行为日志数据分为多个时间段，支持弹性可变机制，只需要在数据处理时调整时间粒度，使在同一时间粒度值内的用户行为是无序的，不同时间粒度值的用户行为是有序的，增强了分析的灵活性；统计每个时间段内的行为集合，同一时间段内一个用户只对应一条数据，大大减少了所要处理的数据量，数据处理和查询的过程中，数据只遍历一次，即可得到用户在每个时间段内的行为集合，将各时间段所述行为集合分别与漏斗步骤集合进行匹配后合并，即可得到每个用户的漏斗步骤匹配总集合，进一步可以根据的得到漏斗步骤集合中任一漏斗步骤匹配到的用户数量，避免繁琐的Map/Reduce机制，加快了查询速度。

另外，所述确定用户在不同时间段的用户行为，以组成用户在每个时间段对应的行为集合，具体包括：

接收不同埋点上报的用户行为日志数据，所述用户行为日志数据包括用户行为路径信息；

按预设时间段对所述用户行为日志数据进行分区，得到每个时间段的用户行为日志数据，提取每个时间段的用户行为日志数据中的用户行为，以组成用户在每个时间段对应的行为集合。

按时间将所述用户行为日志数据分为多个时间段，支持弹性可变机制，只需要在数据处理时调整时间粒度，使在同一时间粒度值内的用户行为是无序的，不同时间粒度值的用户行为是有序的，增强了分析的灵活性。

另外，所述接收不同埋点上报的用户行为日志数据后，还包括：

对所述用户行为路径信息进行清洗，去除重复数据和非法数据；

提取所述用户行为路径信息中每个用户行为的唯一标识，按照预设的编码规则对所述唯一标识进行统一编码，并将编码后的所述唯一标识转换成预定的数据格式。

通过将海量的用户行为的数据内容格式统一，减少占用的存储空间。

另外，所述以时间段为单位，分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，以得到每个时间段的行为匹配结果，具体包括：

分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，得到行为匹配结果，所述行为匹配结果为用于有序记录所述漏斗步骤集合中每个漏斗步骤在对应时间段内是否有匹配项的漏斗步骤匹配子集合，所述漏斗步骤匹配子集合中的元素与漏斗步骤集合中的漏斗步骤一一对应，其中，

对所述漏斗步骤集合中的任一漏斗步骤，若判断在所述行为集合中有匹配项，则根据预设规则将所述漏斗步骤匹配子集合中对应位置处的元素值记为第一表达式；

对所述漏斗步骤集合中的任一漏斗步骤，若判断在所述行为集合中无匹配项，则根据预设规则将所述漏斗步骤匹配子集合中对应位置处的元素值记为第二表达式。

按照漏斗步骤集合中的漏斗步骤顺序，通过统一的表达式对漏斗步骤是否有匹配项进行记录，方便后续统计。

另外，所述第一表达式和所述第二表达式为二进制表达式，其中，

若判断在所述行为集合中有匹配项，则将所述漏斗步骤匹配子集合中对应位置处的元素值记为1；

若判断在所述行为集合中无匹配项，则将所述漏斗步骤匹配子集合中对应位置处的元素值记为0。

另外，所述对每个用户在不同时间段的行为匹配结果进行合并，得到每个用户的漏斗步骤匹配总集合，具体包括：

对所有所述漏斗步骤匹配子集合按时间段的先后顺序进行排序；

删除无用的所述漏斗步骤匹配子集合：

若判断排在首位的所述漏斗步骤匹配子集合中，所述漏斗步骤集合的第一个漏斗步骤对应位置处的元素值记为第二表达式，则舍弃排在首位的所述漏斗步骤匹配子集合；

相邻的两个所述漏斗步骤匹配子集合中，若判断前一所述漏斗步骤匹配子集合中记为第一表达式的所有漏斗步骤，均在后一所述漏斗步骤匹配子集合中记为第一表达式，则删除前一所述漏斗步骤匹配子集合；

对剩余所有所述漏斗步骤匹配子集合进行有序合并，得到用于有序记录所述漏斗步骤集合中每个漏斗步骤是否有匹配项的漏斗步骤匹配总集合，所述漏斗步骤匹配总集合中的元素与漏斗步骤集合中的漏斗步骤一一对应，其中，

若判断漏斗步骤匹配子集合中某一漏斗步骤在任一所述漏斗步骤匹配子集合中记为第一表达式，则在漏斗步骤匹配总集合中将对应漏斗步骤记为第一表达式；

若判断漏斗步骤匹配子集合中某一漏斗步骤在所有所述漏斗步骤匹配子集合中均记为第二表达式，则在漏斗步骤匹配总集合中将对应漏斗步骤记为第二表达式。

另外，所述对每个用户在不同时间段的行为匹配结果进行合并，具体包括：

对每个用户在不同时间段内的漏斗步骤匹配子集合中对应的元素值按位或运算；

所述根据所有用户的漏斗步骤匹配总集合确定所述漏斗步骤集合中任一漏斗步骤匹配到的用户数量，具体包括：

对所有用户的所述漏斗步骤匹配总集合中对应的元素值分别做算数相加运算，得到所述漏斗步骤集合中任一漏斗步骤匹配到的用户数量。

通过二进制表达式，在漏斗步骤匹配子集合合并以及所有用户的漏斗步骤匹配总集合进行聚合统计时，只需经过简单的按位或、算数相加运算即可实现进准的合并、聚合统计，提高了计算效率。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明实施例的一种漏斗数据分析方法流程图；

图2是根据本发明实施例的预处理步骤示意图；

图3是根据本发明第二实施一种漏斗数据分析***结构框图；

图4是根据本发明第三实施例的一种服务器结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的***、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

目前，通常采用漏斗分析方法对用户行为数据进行分析，以监控用户是否按照预定义的行为进行转化，寻找每个转化过程中的可优化行为。一般来讲，用户行为都是按照预设的行为顺序执行的，例如：按照顺序执行：第一行为A，第二行为B，第三行为C，第四行为D······，第M行为X，M大于或等于5。比如，若应用场景为用户操作购物网页，则A是选购商品， B是添加购物车，C是去购物车结算，D是核对订单信息······，X是完成支付。操作购物网页的用户一般数量众多，每个用户执行行为都不尽相同，例如：用户可能是按照所定义的行为顺序，多次只执行其部分行为或者全部行为。利用这些用户所执行行为，通过如下步骤对用户行为数据进行分析，确定前一行为向后一行为转化的转化率。

首先，获取用户操作购物网页的用户总数量及每个用户行为执行数据；然后，获取每个用户所执行多个行为中一组最长执行行为；再然后，针对所有用户的最长执行行为，统计执行第一行为的用户总数，第二行为的用户总数、·····，以及第M行为X的用户总数；最后，将后一行为的用户总数，与上一行为的用户总数之比，作为前一行为向后一行为转化的转化率，流失率为1减去转化率的差。例如，执行A行为的用户总数为1000，执行B行为的用户总数为600，执行C行为的用户总数为450，A行为向B行为的转化率为60％，B行为向C行为的转化率为75％，C行为向D行为的转化率为50％。

现有的技术方案通常采用基于Hadoop的Map/Reduce批处理机制查询，针对每一漏斗步骤，需要对所有用户行为数据进行查询统计，然后根据需要对查询的结果进行过滤，合成，汇总等，在海量数据集的情况下，生成漏斗模型的过程相当缓慢，无法做到灵活分析。

因此，本发明实施例通过按时间将所述用户行为日志数据分为多个时间段，对每个时间段内的行为集合，同一时间段内一个用户只对应一条数据，大大减少了所要处理的数据量，数据处理和查询的过程中，数据只遍历一次，即可得到用户在每个时间段内的行为集合，将各时间段所述行为集合分别与预设漏斗步骤集合进行匹配后合并，即可得到所有用户的漏斗步骤匹配总集合，避免繁琐的Map/Reduce机制，加快了查询速度。以下将通过多个实施例进行展开说明和介绍。

本发明的第一实施例涉及一种漏斗数据分析方法，具体流程如图1中所示，包括：

步骤S1、确定用户在不同时间段的用户行为，以组成用户在每个时间段对应的行为集合；

具体地，对埋点采集的用户行为日志数据导入Hive数据仓库进行预处理，生成适合漏斗分析、建模的数据；如图2中所示，预处理步骤主要包括：

S11、对原始的用户行为日志数据进行清洗，去除重复数据，非法数据，过滤非法用户数据；用户行为日志数据中包括用户行为路径信息，该用户行为路径信息记录有用户的所有用户行为；

S12、提取所述用户行为路径信息中每个用户行为的唯一标识，按照预设的编码规则对所述用户行为日志数据中的用户行为路径信息进行统一编码，以进一步将编码后的用户行为路径信息转换成预定的数据格式；既避免了因格式不同带来的差错，又可以减小开销，节省存储空间；

S13、去除与漏斗建模无关的字段以降低数据表的宽度；

S14、设定时间段，每个时间段ΔT为一个有序度，该有序度用于将同一时间段ΔT内的用户行为汇总，形成一个行为集合，同一时间段ΔT内一个用户只对应一条数据，从而大大减少了所要处理的数据量；按照漏斗的有序度要求，有序性精度要求越高，时间粒度(有序度)ΔT越小，有序性精度要求越低，时间粒度ΔT越大，在同一时间粒度内用户行为视作无序；具体地，在同一有序度内用户行为视作无序，有序度越小，则漏斗对用户行为的顺序精度要求越高，漏斗建模所需的内存以及时间越多，分析人员可以根据需求和计算资源自定义漏斗的有序程度；有序性与有序度是反比的关系，有序性是漏斗对用户行为顺序的精度要求，即漏斗的有序性越高，则有序度越小。

相比于传统方法中单纯的有序漏斗或者无序漏斗分析，本实施例的漏斗有序性支持弹性可变机制，只需要在数据处理时调整时间粒度ΔT，在同一时间粒度值内的用户行为是无序的，不同时间粒度值的用户行为是有序的，增强了分析的灵活性。

按预设时间段将所述用户行为日志数据分为多个时间段，提取每个用户在各所述时间段内的行为集合；

具体地，以时间段为分区依据，对每个用户在不同时间段内的用户行为进行分区统计，如此，用一条数据即可代表一个用户在一个时间粒度内的所有行为，大大减少了数据量；

步骤S2、以时间段为单位，分别对每个用户在不同时间段的所述行为集合与漏斗步骤集合进行匹配，得到每个用户在不同时间段的漏斗步骤匹配子集合；所述漏斗步骤匹配子集合用于有序记录所述预设漏斗步骤集合中每个漏斗步骤在对应时间段内的行为集合中是否有匹配项；

具体地，上述有序记录是指按照所述漏斗步骤集合中漏斗步骤的先后顺序记录。

步骤S3、对每个用户在不同时间段内的漏斗步骤匹配子集合进行合并，得到每个用户的漏斗步骤匹配集合；

具体地，在合并用户行为时，用户在不同时间段内完成同一漏斗步骤时，其完成有重叠，在漏斗分析过程中，最终的结果只需要记载预设漏斗步骤集合中所有漏斗步骤是否有匹配项，因此，只需要取同一用户完成漏斗步骤一次的数据即可。

对所有用户的所述漏斗步骤匹配集合进行聚合统计，得到完成所述漏斗步骤集合中任一漏斗步骤的用户数。

具体地，数据处理和查询的过程中，数据只遍历一次，即可得到用户在每个时间段内的行为集合，将各时间段所述行为集合分别与预设漏斗步骤集合进行匹配后合并，即可得到所有用户的漏斗步骤匹配集合，避免繁琐的Map/Reduce机制，加快了查询速度。

本发明实施例可以应用于计算机***/服务器，其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***/服务器一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

在上述实施例的基础上，作为一种优选的实施方式，在上述步骤S1中，按预设时间段将所述用户行为日志数据分为多个时间段，具体包括：

将所述用户行为日志数据分为时间、用户维度信息和用户行为路径信息三个部分，以时间为分区依据设定多个时间段，根据多个所述时间段将所述用户行为日志数据分为多个时间段，将用户维度信息和用户行为路径信息导入分布式关系数据库进行分区存储，如导入OLAP (Online Analytical Processing，联机分析处理)数据库；其中，所述用户维度信息对应用户属性字段，比如：年龄段，性别，手机品牌等，所述用户行为路径信息对应用户行为标识，用于漏斗聚合统计。如表1中所示，为数据库中存储的数据示例。

ΔT1	ΔT2	ΔT3
			User1女18岁a-b-d	User1女18岁c-f	User2男25岁c-a-b-e-f
User2男25岁a-c-d-e-b	User2男25岁c-a-b-e-f	User3女26岁b-e
			User3女26岁d-c-f	User3女26岁a-c-f	User4女30岁b-e-c
User4女30岁b-a-e-a	User5女20岁c-f-e-g	User5女20岁c-b

表1.用户行为分析漏斗建模数据

表1中，ΔT1、ΔT2、ΔT3分别表示3个时间段，User1～User5表示不同用户的用户标识， a-b-d、c-f等字符串表示用户行为路径信息。

如一条记录为：User1女18岁a-b-d；

其中“User1女18岁”三个字段为用户维度信息，User1为用户标识，可以唯一确定一个用户，“女18岁”为用户的属性，a-b-d为该用户的用户行为路径信息。

基于上述数据存储方式，在生成漏斗模型时，只需要发起一次查询，每条数据仅扫描一次，具体过程为：假设需要建立一个3步的漏斗模型，过滤条件为18-30岁女性，3个漏斗步骤所对应的编码为a-c-f；在用户行为采集的过程中，会对每一种用户行为有一个唯一标识，这个唯一标识按照一定的编码规则(如MD5)编码后，即可得到此处的编码，此处的字母只是一种示例。

在上述各实施例的基础上，作为一种优选的实施方式，上述步骤S2中，所述以时间段为单位，分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，以得到每个时间段的行为匹配结果，具体包括：

分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，得到每个时间段的行为匹配结果，所述行为匹配结果为用于有序记录所述漏斗步骤集合中每个漏斗步骤在对应时间段的行为集合中是否有匹配项的漏斗步骤匹配子集合，所述漏斗步骤匹配子集合中的元素与漏斗步骤集合中的漏斗步骤一一对应，其中，

具体地，在本实施例中，将每个用户在各所述时间段内的行为集合视为无序，将所述行为集合与预设漏斗步骤集合中所有漏斗步骤进行匹配；

具体地，所述第一表达式和所述第二表达式为二进制表达式，其中，

如以二进制码表示所述时间段内的行为集合与漏斗步骤集合的匹配结果(即漏斗步骤匹配子集合)，所述二进制码的位数等于所述漏斗步骤集合中的漏斗步骤个数；所述二进制码中任一位的二进制值表示所述预设漏斗步骤集合中一个漏斗步骤的匹配结果，若漏斗步骤集合中任一漏斗步骤在所述行为集合中匹配成功，则将在所述二进制码中对应位的二进制值记为 1，若漏斗步骤集合中任一漏斗步骤在所述行为集合中匹配失败，则将所述二进制码中对应位的二进制值记为0。

具体地，在本实施例中，针对每一个时间段ΔT，扫描每一条数据，匹配用户维度信息符合漏斗过滤条件的用户，并将每个用户在该时间段ΔT内的行为集合合并与漏斗步骤集合做匹配，每个用户得到一个二进制码，二进制码中任一位(二进制码的位数由漏斗步数确定，如漏斗步骤为5个，则此处就为5位二进制码)分别对应一个漏斗步骤是否在该行为集合中发生，如若预设漏斗步骤集合中包括三个漏斗步骤，只有第一个漏斗步骤发生，二进制码为 100，如只有第二个漏斗步骤发生，二进制码为010，如只有第一个漏斗步骤和第二个漏斗步骤均发生，二进制码为110，以此类推，表1中的数据按上述规则匹配完成后数据可以简化为如表2中所示。

ΔT1	ΔT2	ΔT3
			User1 100	User1 011	User3 000
User3 011	User3 111	User4 010
			User4 100	User5 011	User5 010

表2.单位时间内用户的行为集合与漏斗步骤集合匹配结果

具体地，设定漏斗步骤集合的顺序为a-c-f，若行为集合为c-a-b-e-f，此时匹配的结果如何，是只要行为集合存在如从c、f、a，就将漏斗步骤对应路径位赋值1，即得到的二进制码为111；或是说，匹配时要考虑行为集合中路径编码的先后顺序，若顺序与漏斗步骤中的顺序不一致，则不统计；在本实施例中，由于设定在同一时间粒度值内的用户行为是无序的，不同时间粒度值的用户行为是有序的，因此对于设定的漏斗步骤集合的顺序为a-c-f，若行为集合的顺序为c-a-b-e-f，此时匹配的结果值应该是111，因为c-a-b-e-f是在同一时间段ΔT内的行为，视为无序，也就是说在同一ΔT内c-a-b-e-f等同于a-b-c-e-f。

本实施例中，选用二进制码作为记载每个用户在各所述时间段内已完成的漏斗步骤和未完成的漏斗步骤，在除本实施例外的其他实施例中，也可以采用其他方式，如队列，只需要保证漏斗步骤集合中任一漏斗步骤均有唯一的标识对其是否完成进行记载即可，且该标识的数量与漏斗步骤集合中漏斗步骤数量相等。

具体地，若用户在某一时间段内无用户行为，则默认对应时间段内的行为集合与预设漏斗步骤集合匹配得到的二进制码中各位的二进制值记为0。

在上述各实施例的基础上，作为一种优选的实施方式，步骤S3中，所述对每个用户在不同时间段内的漏斗步骤匹配子集合进行合并，得到每个用户的漏斗步骤匹配总集合，具体包括：

在上述各实施例的基础上，作为一种优选的实施方式，所述对每个用户在不同时间段的行为匹配结果进行合并，得到每个用户的漏斗步骤匹配总集合，具体包括：

删除无用的所述漏斗步骤匹配子集合：

若判断漏斗步骤匹配子集合中某一漏斗步骤在任一所述漏斗步骤匹配子集合中记为第一表达式，则在漏斗步骤匹配总集合中将对应漏斗步骤记为第一表达式，若判断漏斗步骤匹配子集合中某一漏斗步骤在所有所述漏斗步骤匹配子集合中均记为第二表达式，则在漏斗步骤匹配总集合中将对应漏斗步骤记为第二表达式。

具体地，在本实施例中，需要对同一用户在不同时间段内的用户行为信息进行初步合并，并且去掉无用数据，若采用二进制表达式，初步合并完成后每个用户得到一个二进制码集合，该二进制码集合大小等于时间段的数量，二进制码集合中每个二进制码的位数等于预设漏斗步骤集合中漏斗步骤的个数，具体合并规则为：

a)针对某一个用户，假设用户在时间段ΔT1，时间段ΔT2，时间段ΔT3中对应的二进制码分别为x₁x₂x₃，y₁y₂y₃，z₁z₂z₃(如在某一时间段ΔT中无数据则默认为000)，首先，如某一ΔT2的二进制值与在前ΔT1的二进制值做按位或操作后的结果小于在后ΔT3的值，则舍弃时间段ΔT2对应的二进制码。例如：User3的时间段ΔT1，时间段ΔT2，时间段ΔT3 的值分别为，011，111，000，则时间段ΔT1为第一个时间段，其在前的时间段无数据，默认为000，则按位或计算：0∣0＝1，0∣1＝1，0∣1＝1，由于时间段ΔT1对应的值011<ΔT2 对应的值111，则舍弃ΔT1对应的值011；时间段ΔT1和时间段ΔT2的二进制码按位或运算： 0∣1＝1，1∣1＝1，1∣1＝1，ΔT2对应的值111＞ΔT3对应的值，保留ΔT2对应的二进制码，只处理111，000，以此类推。

然后，如二进制码集合中第一个二进制码中第一位的值第一位为0，则舍弃该用户数据 (即第一个二进制码)，例如：User5的时间段ΔT1，时间段ΔT2，时间段ΔT3的值分别为， 000，011，010，按照第一规则处理后二进制码集合为011，010，此时二进制码集合为中第一个元素011的第一位为0，表示User5没有完成第一步漏斗步骤，可以舍弃该用户的数据；按照以上规则合并完成后数据可以简化为如表3中所示数据。

User1	100，011，000
		User3	111，000
User4	100，010

表3.二进制码合并I

b)对步骤a)中的用户行为二进制匹配结果进行再次合并，每个用户得到一个二进制码，该二进制码的位数等于漏斗步骤集合中漏斗步骤的个数，二进制码中各位的值分别对应一个漏斗步骤是否发生。具体合并规则为：针对某一个用户，假设在步骤a)中得到的二进制码集合为x₁x₂x₃，y₁y₂y₃，z₁z₂z₃(x₁＝1)，将二进制码集合中的二进制码的值做按位或操作，例如： User1的二进制集合为：100，111，000，(按位或：1∣1＝1，1∣0＝1，0∣0＝0，110∣111＝111， 111∣000＝111)三个值做按位或操作后结果为111，以此类推，则合并完成后数据可以简化为如表4中所示。

表4.二进制码合并II

在上述各实施例的基础上，作为一种优选的实施方式，根据所有用户的漏斗步骤匹配总集合确定所述漏斗步骤集合中任一漏斗步骤匹配到的用户数量，具体包括：

所述对所有用户的所述漏斗步骤匹配总集合进行聚合统计，得到完成任一漏斗步骤的用户数；

具体地，采用二进制表达式时，仅需要对所有用户的所述漏斗步骤匹配集合中各二进制位分别做算数相加运算，得到每个二进制位对应漏斗步骤匹配到的用户数。

具体地，在本实施例中，对步骤b)中的用户行为二进制匹配结果进行聚合统计：具体统计方法为：假设在步骤b)中得到的3位二进制为x₁x₂x₃，针对3个二进制位分别做算术相加，分别得到∑x₁，∑x₂，∑x₃，分别对应了三个漏斗步骤的用户数量，例如：对图4中的结果进行聚合统计，得到∑x₁＝3，∑x₂＝3，∑x₃＝2，表明，在统计范围内，有3个用户完成了漏斗步骤1，其中又有3个用户完成了漏斗步骤2，其中又有2个用户完成了漏斗步骤3，至此，整个漏斗分析完成，该数据可以用于构建漏斗模型。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第二方面实施例提供了一种漏斗数据分析***，基于上述各实施例中的漏斗数据分析方法，如图3中所示，包括数据接收模块10、行为提取模块20、漏斗步骤匹配模块30、漏斗步骤合并模块40和漏斗步骤分析模块50，其中：

数据接收模块10，用于接收不同埋点上报的用户行为日志数据；

行为提取模块20，按预设时间段将所述用户行为日志数据分为多个时间段，提取每个用户在各所述时间段内的行为集合，其中每个时间对应有一个行为集合；

漏斗步骤匹配模块30，分别对每个用户在不同时间段内的所述行为集合与漏斗步骤集合进行匹配，得到每个用户在不同时间段内的漏斗步骤匹配子集合；所述漏斗步骤匹配子集合用于有序记录所述漏斗步骤集合中每个漏斗步骤在对应时间段的行为集合中是否有匹配项；

漏斗步骤合并模块40，对每个用户在不同时间段内的漏斗步骤匹配子集合进行合并，得到每个用户的漏斗步骤匹配总集合；

漏斗步骤分析模块50，对所有用户的所述漏斗步骤匹配集合进行聚合统计，得到完成所述预设漏斗步骤集合中任一漏斗步骤匹配的用户数。

本发明第三实施例涉及一种服务器，如图4所示，包括处理器(processor)810、通信接口 (Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器 830中的逻辑指令，以执行如上述各实施例所述漏斗数据分析方法的步骤。例如包括：

步骤S2、以时间段为单位，分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，以得到每个时间段的行为匹配结果；

步骤S3、对每个用户在不同时间段的行为匹配结果进行合并，得到每个用户的漏斗步骤匹配总集合，根据所有用户的漏斗步骤匹配总集合确定所述漏斗步骤集合中任一漏斗步骤匹配到的用户数量。

其中，存储器和处理器采用通信总线方式连接，通信总线可以包括任意数量的互联的总线和桥，通信总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在通信总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现如上述各实施例所述漏斗数据分析方法的步骤。例如包括：

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种漏斗数据分析方法，其特征在于，包括：

2.根据权利要求1所述的漏斗数据分析方法，其特征在于，所述确定用户在不同时间段的用户行为，以组成用户在每个时间段对应的行为集合，具体包括：

3.根据权利要求2所述的漏斗数据分析方法，其特征在于，所述接收不同埋点上报的用户行为日志数据后，还包括：

4.根据权利要求1所述的漏斗数据分析方法，其特征在于，所述以时间段为单位，分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，以得到每个时间段的行为匹配结果，具体包括：

分别将用户在每个时间段对应的行为集合与漏斗步骤集合进行匹配，得到每个时间段的行为匹配结果；

所述行为匹配结果为用于有序记录所述漏斗步骤集合中每个漏斗步骤在对应时间段的行为集合中是否有匹配项的漏斗步骤匹配子集合，所述漏斗步骤匹配子集合中的元素与漏斗步骤集合中的漏斗步骤一一对应，其中，

5.根据权利要求4所述的漏斗数据分析方法，其特征在于，所述第一表达式和所述第二表达式为二进制表达式，其中，

6.根据权利要求4所述的漏斗数据分析方法，其特征在于，所述对每个用户在不同时间段的行为匹配结果进行合并，得到每个用户的漏斗步骤匹配总集合，具体包括：

删除无用的所述漏斗步骤匹配子集合：

7.根据权利要求5所述的漏斗数据分析方法，其特征在于，所述对每个用户在不同时间段的行为匹配结果进行合并，具体包括：

8.一种漏斗数据分析***，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7任一项所述漏斗数据分析方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述漏斗数据分析方法的步骤。