CN111523921B - 漏斗分析方法、分析设备、电子设备及可读存储介质 - Google Patents
漏斗分析方法、分析设备、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111523921B CN111523921B CN201911419372.7A CN201911419372A CN111523921B CN 111523921 B CN111523921 B CN 111523921B CN 201911419372 A CN201911419372 A CN 201911419372A CN 111523921 B CN111523921 B CN 111523921B
- Authority
- CN
- China
- Prior art keywords
- funnel
- behavior
- logs
- group
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 67
- 238000003860 storage Methods 0.000 title claims description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 104
- 238000004140 cleaning Methods 0.000 claims abstract description 16
- 230000006399 behavior Effects 0.000 claims description 213
- 238000012216 screening Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本说明书实施例公开了一种漏斗分析方法,包括:对目标业务的原始日志进行清洗,得到原始行为日志;根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;根据获取的漏斗配置数据,生成漏斗模型;针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据。
Description
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种漏斗分析方法、分析设备、电子设备及可读存储介质。
背景技术
随着越来越多的业务应用于电子设备,需要对访问业务的用户进行用户行为分析,以分析用户使用产品的规律,为产品的后续发展、优化或营销提供有力的数据支撑。
而现有的漏斗分析方法在对业务进行分析时,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在。反映营销的各个环节的转化,从展现、点击、访问等直到生成订单过程中的客户数量及流失。但是针对任何一个业务进行漏斗分析时,均需要建立一个与业务对应的漏斗分析模型,通过建立的漏斗分析模型再对该业务进行漏斗分析。
发明内容
本说明书实施例提供了一种漏斗分析方法、分析设备、电子设备及可读存储介质,能够有效提高漏斗分析效率。
本说明书实施例第一方面提供了一种漏斗分析方法,包括:
对目标业务的原始日志进行清洗,得到原始行为日志;
根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;
根据获取的漏斗配置数据,生成漏斗模型;
针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;
根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据。
本说明书实施例第二方面提供了一种漏斗分析设备,包括:
数据清洗单元,用于对目标业务的原始日志进行清洗,得到原始行为日志;
日志分组单元,用于根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;
漏斗模型生成单元,用于根据获取的漏斗配置数据,生成漏斗模型;
漏斗计算单元,用于针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;
漏斗分析单元,用于根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据。
本说明书实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述漏斗分析方法的步骤。
本说明书实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时上述漏斗分析方法的步骤。
本说明书实施例的有益效果如下:
基于上述技术方案,由于是以接口调用方式调用与每组行为日志对应的计算算子对该组行为日志进行计算,使得在当需要不同的算法来实现漏斗计算时,只需要重新定义上述接口的实现类,就可以直接对原有的算法实现类进行替换,或者直接用新类来创建计算实例,即可完成算法的替换;如此,在N组行为日志需要进行多个漏斗分析时,可以通过不同的接口调用不同的计算算子来完成漏斗分析,而不需针对每个漏斗分析均创建一个新的漏斗分析流程,能够有效提高计算算子的复用率,提高漏斗分析效率。
附图说明
图1为本说明书实施例中漏斗分析方法的方法流程图;
图2为本说明书实施例中漏斗分析设备的结构示意图;
图3为本说明书实施例中电子设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,如图1所示,本说明书实施例提供一种流量分析方法,包括:
步骤S102、对目标业务的原始日志进行清洗,得到原始行为日志;
步骤S104、根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;
步骤S106、根据获取的漏斗配置数据,生成漏斗模型;
步骤S108、针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;
步骤S110、根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据。
其中,在步骤S102中,首先确定所述目标业务,然后根据所述目标业务,确定出所述原始日志的存储路径;再根据所述存储路径,从对应的日志存储设备中读取所述原始日志,进而获取到所述原始日志;以及在获取到所述原始日志之后,根据设定清洗规则对所述原始日志进行清洗,进而得到所述原始行为日志。
本说明书实施例中,所述日志存储设备例如可以是台式电脑、笔记本电脑、智能手机和平板电脑等电子设备。
具体来讲,所述原始日志的生成步骤具体如下:日志网关接受客户端访问日志、写入本地文件,通过Apache Flume将大量日志数据上报到分布式件***,并基于Spark创建外部表,进而形成所述原始日志然后进行存储;如此,在存储所述原始日志之后,可以根据所述原始日志的存储路径,从对应的日志存储设备中读取所述原始日志。
具体地,在获取所述原始日志之后,在根据设定清洗规则对所述原始日志进行清洗过程中,首先可以对所述原始日志进行数据筛选,从所述原始日志中筛选出与用户行为相关的日志,得到筛选日志,其中,所述用户行为包括曝光、点击和页面访问;再对所述筛选日志进行排序处理,得到所述原始行为日志。
具体地,在获取所述原始日志之后,对所述原始日志进行数据清洗,通过约定的数据上报类型,筛选出与曝光相关的数据组成曝光明细表,与点击相关的数据组成点击明细表,以及与页面访问相关的数据组成页面访问明细表,所述曝光明细表、所述点击明细表和所述页面访问明细表中的每张表按照设定时长进行增量存储,其中,所述筛选日志包括增量存储后的所述曝光明细表、所述点击明细表和所述页面访问明细表。
本说明书实施例中,所述设定时长可以由用户或电子设备自行设定,也可以根据实际需求进行设定,所述设定时长例如可以是每隔一天、每隔4小时、每隔12小时和每隔2天等,本说明书不作具体限制。
具体来讲,在对所述筛选日志进行排序处理过程中,可以根据用户行为发生时间,对所述筛选日志中的用户行为数据进行排序,得到所述原始行为日志,其中,若所述用户行为发生时间存储在客户端中,则从客户端中获取所述用户行为发生时间;若所述用户行为发生时间存储在服务器端中,则从服务器端中获取所述用户行为发生时间,然后将所述用户行为发生时间转换为时间戳写入到所述原始日志中并与对应的用户行为数据相关联。
具体地,在根据用户行为发生时间对所述筛选日志中的用户行为数据进行排序之前,还可以从所述筛选日志中剔除与所述漏斗模型中的步骤无关的噪音数据,然后再进行排序处理;也可以在排序处理之后,从所述筛选日志中剔除与所述漏斗模型中的步骤无关的噪音数据,本说明书不作具体限制。
具体地,若所述日志包括所述曝光明细表、所述点击明细表和所述页面访问明细表,则对所述曝光明细表、所述点击明细表和所述页面访问明细表进行清洗,剔除与所述漏斗模型中的步骤无关的噪音数据;再根据所述用户行为发生时间,对所述曝光明细表、所述点击明细表和所述页面访问明细表中的用户行为数据进行次排序,得到所述原始行为日志。
例如,以客户端为a1和服务器端为b1为例,服务器b1中存储有多个业务的日志,若所述目标业务为电子钱包业务,则从所述多个业务的日志中获取到电子钱包业务的日志c1作为所述原始日志,在获取到c1之后,首先对c1中的数据进行筛选,筛选出与曝光相关的数据组成曝光明细表c11,与点击相关的数据组成点击明细表c12,以及与页面访问相关的数据组成页面访问明细表c13,当c1更新时,在c11、c12和c13的每张表中填入增量数据,使得c11、c12和c13中数据能够实时更新;在获取到c11、c12和c13之后,可以从c11、c12和c13中剔除与所述漏斗模型中的步骤无关的噪音数据,然后分别对剔除数据后的c11、c12和c13中数据按照用户行为发生时间进行排序,得到所述原始行为数据。
本说明书实施例中,在对所述筛选日志中的用户行为数据进行排序时使用的是所述用户行为发生时间,由于所述用户行为发生时间与所述用户行为数据之间的关联性更强,在使用所述用户行为发生时间对所述用户行为数据信息排序时,使得所述用户行为数据的排序与用户的真实行为顺序的匹配度更高,使得所述用户行为数据的排序的准确度更高,在准确度更高的基础上进行后续漏斗计算的精确度也会随之提高。
接下来执行步骤S104,可以首先从预设计算维度中选取一个计算维度作为所述原始行为日志的计算维度,然后再根据选取的计算维度,对所述原始行为日志进行分组,得到所述N组行为日志。
具体来讲,所述预设计算维度例如可以是用户维度和设备维度等维度中的一个或多个维度,若所述原始行为日志的计算维度为用户维度时,将所述原始行为日志按照应用与用户进行分组,得到所述N组行为日志;若所述原始行为日志的计算维度为设备维度时,将所述原始行为日志按照应用与设备进行分组,得到所述N组行为日志。
具体地,在所述预设计算维度具体为用户维度和设备维度时,判断所述原始行为日志的计算维度是否使用设备维度,若是,则确定所述原始行为日志的计算维度为设备维度;否则,则所述原始行为日志的计算维度为用户维度。
接下来执行步骤S106,在该步骤中,首先根据用户输入的漏斗配置参数,获取到所述漏斗配置数据;若所述漏斗配置数据已存储时,可以根据所述漏斗配置数据的存储路径,读取所述漏斗配置数据;以及在获取到所述漏斗配置数据之后,根据所述漏斗配置数据,确定所述漏斗模型。
本说明书实施例中,由于存在N组行为日志,且N为大于1的整数,此时N组行为日志可以对应一个漏斗模型,也可以对应多个漏斗模型,且N组行为日志对应的漏斗模型的数量不大于N,如此,使得所述漏斗模型可以包括1个或多个,通常来讲,所述漏斗模型为多个。
本说明书实施例中,步骤S106可以在步骤S102之前或之后执行,也可以步骤S102-S104之间执行,也可以与步骤S102或步骤S104同时执行,本说明书不作具体限制。
具体地,所述漏斗配置数据包括产品标识、漏斗标识、计算维度和漏斗步骤等参数,还可以包括设定步长、漏斗数据时间窗口、漏斗步骤名称、埋点和漏斗总步数等参数,当然,还可以包括过滤条件和时间属性等参数。
本说明书实施例中,所述漏斗配置参数中的计算维度与所述原始行为日志的计算维度相同,产品标识可以为产品名称或产品ID等,漏斗标识可以为漏斗名称或漏斗ID等;所述漏斗数据时间窗口表征漏斗模型中的所取数据的时间窗口,例如取最近一天或多天的数据;埋点用于采集目标业务的原始日志;过滤条件包括漏斗步骤中的两个步骤之间的距离;时间属性可以包括采集所述原始日志的设定时间段,例如可以是6:00-22:00。
本说明书实施例中,所述目标业务可以是应用程序APP和APP中某个应用等,所述目标业务例如可以是钱包应用和某个APP的用户注册等,本说明书不作具体限制。
具体地,所述漏斗配置参数可以由用户在前端配置输入再写入对应的关系数据库中,也可以直接初始化到对应的关系数据库中;在所述漏斗模型在进行计算开始之前执行同步任务将数据从所述关系数据库同步到数据仓库,计算开始后从所述数据仓库以读取资源的方式导入内存参与计算。
具体地,由于流量日志的数据量非常大,所述数据仓库会将流量日志中的数据拆分成多个分区的多个文件来存储,此时,可以将流量日志中的数据按照日期来分区,此时,通过获取所述原始日志的分区日期来读取所述原始日志中的数据。
例如,所述漏斗配置参数的主体内容如下:
漏斗ID:由于多个漏斗的计算通常是在一次流程中完成,通过漏斗ID用于区分每个漏斗;
漏斗名称:用于概述漏斗计算内容;
计算维度:用户维度和设备维度等可选计算维度;
漏斗步骤:一般有多个步骤,每个步骤包含该步骤对应的事件、预期到下一个事件的步长和定制化的过滤条件等。
接下来执行步骤S108,在该步骤中,针对每组行为日志,以接口调用方式调用与每组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果,从而能够得到每组行为日志对应的漏斗计算结果。
本说明书实施例中,所述漏斗步骤通常会有多个步骤,每个步骤包含该步骤对应的事件、预期到下一个事件的步长和定制化的过滤条件等。
具体来讲,针对每组行为日志,若所述漏斗步骤包括多个步骤,则根据所述多个步骤的排序,将该组行为日志中的用户行为数据依次与所述多个步骤进行匹配,得到该组行为日志对应的漏斗计算结果,其中,与所述多个步骤的相邻两个步骤匹配的两个用户行为数据之间的距离满足步长。
具体来讲,所述接口调用方式中的接口实现类具体如下表1所示:
表1
在表1中,calculate是函数名称,Iterabel<BehaviorRamDateEntity>用于表征经过排序的行为日志数据列表,Map<Sting表征漏斗和对应的步骤之间的映射配置,List<FunnelConfigEntity>表征分区日期字符串;以及List<FunnelRsultDataEntity>用于是计算流程完成后返回的结果数据列表。
进一步地,在获取某组行为日志之后,通过接口调用表1中的函数,并将该组行为日志中的数据输入到表1中的函数中,得到返回的结果数据列表作为该组行为日志的漏斗计算结果。
由于本说明书的技术方案是以接口调用方式调用与每组行为日志对应的计算算子对该组行为日志进行计算,使得在当需要不同的算法来实现漏斗计算时,只需要重新定义上述接口的实现类,就可以直接对原有的算法实现类进行替换,或者直接用新类来创建计算实例,即可完成算法的替换;如此,在N组行为日志需要进行多个漏斗分析时,可以通过不同的接口调用不同的计算算子来完成漏斗分析,而不需针对每个漏斗分析均创建一个新的漏斗分析流程,能够有效提高计算算子的复用率,提高漏斗分析效率。
例如,在表1中将注入的类替换成新实现的类,或者直接用新类来创建计算实例,都可以完成算法的替换;由此可知,以接口的方式调用计算算子,进而通过扩展接口可以非常方便的实现算子的替换。
例如,以N=3为例,若3组行为日志包括d1组行为日志、d2组行为日志和d3组行为日志,以及获取d1和d2对应的计算算子均为表1中的函数,获取d3对应的计算算子为另一个表中的函数,则通过接口调用表1中的函数,分别对d1和d2进行漏斗计算,依次得到返回结果数据为d1-1和d2-1;以及通过接口调用另一个表中的函数,对d3进行漏斗计算,得到返回结果数据为d3-1。
另外,由于主流程依赖于大数据平台运行环境,漏斗分析任务提交以后不便于调试,本说明书实施例中将每个计算算子作为子流程并抽象成一个单独的函数入口,函数的单元测试不依赖于大数据运行环境,只要构造函数的输入数据,就可以单步调试每个步骤;从而实现了完整的构造输入数据、在本地完成算法的试跑和对输出进行校验的测试流程,这样在后续实现新的算法时可以通过回归测试的方法保证新算法的稳定性和可靠性。
具体地,所述计算算子的计算主体包括两层循环:外层循环处理所有漏斗配置;内层循环遍历行为日志、对每个漏斗的步骤进行顺序匹配,找出最长路径。
本说明书实施例中,在所述目标业务不同时,其对应的漏斗步骤也会随之变化,相应地,由于计算算子包括漏斗步骤,在所述漏斗步骤发生变化的情况下,其对应的计算算子也会发生变化。
本说明书实施例中,所述计算算子可以与所述漏斗模型对应,具体地,所述计算算子可以是根据所述漏斗模型而创建的;另外,由于现有的较多业务漏斗的计算流程是统一的,线上业务模型非常非常多,以枚举的方式来对每个业务模型都实现一个漏斗算子来计算该业务模型的漏斗是存在难度的,因此,本申请说明书实施例中的计算算子可以是一个比较通用的计算方法,能够应用于具有同一计算流程的多个业务中,以提高计算算子的通用性,而且还可以对所述计算算子进行迭代,以使得所述计算算子更优化。
具体地,在匹配当前事件的下一个事件时,引入了步长的概念来加强两个事件的关联关系,步长可以是设定行为个数,也可以是设定时长,所述设定时长例如可以为1秒、2秒和3秒等。
其中,从当前事件匹配下一个事件的过程中,若所述步长为所述设定时长,则判断当前事件和与当前事件匹配的下一个事件之间的时间间隔是否不大于所述设定时长,若不大于所述设定时长,则继续进行下一次事件匹配;若大于所述设定时长,则重新开始匹配漏斗步骤;若所述步长为所述设定行为个数,则判断当前事件和与当前事件匹配的下一个事件之间的行为次数是否不大于所述设定行为次数,若不大于所述设定行为次数,则继续进行下一次事件匹配;若大于所述设定行为次数,则重新开始匹配漏斗步骤。
本说明书实施例中,以匹配两个相邻漏斗步骤的两个用户行为事件为一组匹配用户行为事件,任意两组匹配用户行为事件,其对应的步长可以相同或不同。
例如,以漏斗步骤为A1,A2,A3,A4;某组行为日志中的行为序列为b1,c1,a1,b2,a1,b3,a2,a3为例,若b1和a1分别与A1和A2匹配,而a1和a2分别与A2和A3匹配,此时,b1和a1对应的步长可以为e1,相应地,a1和a2对应的步长也可以为e1,还可以为与e1不同的e2和e3等。
现有技术中,在两个相邻用户行为事件之间没有串联关系时,两个相邻用户行为事件之间的距离通常不会满足所述步长,而在两个相邻用户行为事件之间存在串联关系时,两个相邻用户行为事件之间的距离通常会满足所述步长,进而可以通过步长限制,能够有效降低最长匹配过程中上下游没有串联关系的用户行为事件被误匹配的概率,使得漏斗分析得到的所述漏斗计算结果更准确。
本说明书实施例中,以某组行为日志R1对应的计算算子为例,该计算算子的具体实现步骤依次包括:步骤21、初始化计算变量并从漏斗第一个步骤开始匹配R1中的第一用户行为事件;步骤22、从R1中确定与漏斗第一个步骤匹配的用户行为事件;步骤23、根据用户行为事件的排序,使用所述第一用户行为事件之后的用户行为事件对漏斗第二个步骤进行事件匹配,得到与漏斗第二个步骤匹配的第二用户行为事件;并判断所述第一用户行为数据和所述第二用户行为事件之间的距离是否超过第一设定步长,若超过所述第一设定步长,则重新从所述第一用户行为事件之后的用户行为事件进行漏斗步骤匹配;若未超过所述第一设定步长,则根据用户行为事件的排序,使用所述第二用户行为事件之后的用户行为事件对漏斗第三个步骤进行事件匹配,得到与漏斗第三个步骤匹配的第三用户行为事件;并判断所述第二用户行为数据和所述第三用户行为事件之间的距离是否超过第二设定步长,若超过所述第二设定步长,则重新从所述第二用户行为事件之后的用户行为事件进行漏斗步骤匹配,直至完成该组行为日志中的所有用户行为事件,得到R1的漏斗计算结果。
其中,针对每组行为日志均执行上述操作,得到每组行为日志的漏斗计算结果。
例如,以某个计算算子的计算流程举例,比如漏斗步骤为A1,A2,A3,A4;某组行为日志中的行为序列为b1,c1,a1,b2,a1,b3,a2,a3,按照排序将该组行为序列依次与漏斗步骤进行匹配,其匹配过程简述如下:
对b1:匹配事件A1,不命中;
对c1:匹配事件A1,不命中;
对a1:匹配事件A1,命中,接下来开始匹配A2,A1到A2的距离要求小于D12;
对b2:匹配事件A2,不命中;
对a1:匹配事件A2,不命中;
对b3:匹配事件A2,不命中;
对a2:匹配事件A2,事件一致,判断上一次匹配命中的a1到当前a2的距离是否小于D12(第一设定步长),有两种情况:
其一、如果距离小于D12,命中,接下来开始匹配A3,A2到A3的距离要求小于D23(第二设定步长);
其二、如果距离大于D12,不命中,接下来从上一次命中到的a1后一条记录b2开始重新依次匹配A1到A4;
对a3,用上述同样的逻辑判断事件是否一致、距离是否满足要求。以此类推匹配所有剩余记录。
其中,每次重新开始匹配时需要记录当前找到的路径,结果返回曾经匹配到的最长路径。
接下来执行步骤S110,在该步骤中,在通过步骤S108获取到每组行为日志对应的漏斗计算结果之后,对每组行为日志对应的漏斗计算结果进行统计分析,得到所述目标业务的漏斗分析数据。
本说明书实施例中,在获取到每组行为日志对应的漏斗计算结果之后,将每组行为日志对应的漏斗计算结果进行汇总,产生按产品分析维度要求的汇总数据,其中,所述汇总数据作为所述漏斗分析数据;对所述汇总数据添加数据版本,导入到Hbase(开源数据库)存储供服务端查询;以使得服务端通过Hbase client对所述汇总数据进行查询和最后的拼装,返回给前端组件展示。
本说明书实施例中,由于是以接口调用方式调用对应的计算算子对该组行为日志进行计算,使得在当需要不同的算法来实现漏斗计算流程时,只需要重新定义上述接口的实现类,就可以直接对原有的算法实现类进行替换,或者直接用新类来创建计算实例,即可完成算法的替换;如此,在需要进行多个漏斗分析时,可以通过不同的接口调用不同的计算算子来完成漏斗分析,而不需针对每个漏斗分析均创建一个新的漏斗分析流程,能够有效提高计算算子的复用率,提高漏斗分析效率。
第二方面,基于与第一方面的同一发明构思,一种漏斗分析设备,如图2所示,包括:
数据清洗单元201,用于对目标业务的原始日志进行清洗,得到原始行为日志;
日志分组单元202,用于根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;
漏斗模型生成单元203,用于根据获取的漏斗配置数据,生成漏斗模型;
漏斗计算单元204,用于针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;
漏斗分析单元205,用于根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据。
在一种可选的实施方式中,数据清洗单元201,用于从所述原始日志中筛选出与用户行为相关的日志,得到筛选日志,其中,所述用户行为包括曝光、点击和页面访问;对所述筛选日志进行排序处理,得到所述原始行为日志。
在一种可选的实施方式中,数据清洗单元201,用于根据用户行为发生时间,对所述筛选日志中的用户行为数据进行排序,得到所述原始行为日志。
在一种可选的实施方式中,所述漏斗配置数据包括漏斗标识、计算维度和漏斗步骤等参数,还可以包括产品标识、设定步长、漏斗数据时间窗口、漏斗步骤名称、埋点和漏斗总步数等参数,当然,还可以包括过滤条件和时间属性等参数。
在一种可选的实施方式中,漏斗计算单元204,用于针对每组行为日志,若所述漏斗步骤包括多个步骤,则根据所述多个步骤的排序,将该组行为日志中的用户行为数据依次与所述多个步骤进行匹配,得到该组行为日志对应的漏斗计算结果,其中,与所述多个步骤的相邻两个步骤匹配的两个用户行为数据之间的距离满足步长。
第三方面,基于与前述实施例中漏斗分析方法同样的发明构思,本说明书实施例还提供一种电子设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文所述漏斗分析方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或N个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
第四方面,基于与前述实施例中漏斗分析方法的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述漏斗分析方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。
Claims (12)
1.一种漏斗分析方法,包括:
对目标业务的原始日志进行清洗,得到原始行为日志;
根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;
根据获取的漏斗配置数据,生成漏斗模型;
针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;
根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据;
其中,所述N组行为日志与一个或多个所述漏斗模型对应;所述计算算子与所述漏斗模型对应。
2.如权利要求1所述的分析方法,所述对目标业务的原始日志进行清洗,得到原始行为日志,包括:
从所述原始日志中筛选出与用户行为相关的日志,得到筛选日志,其中,所述用户行为包括曝光、点击和页面访问;
对所述筛选日志进行排序处理,得到所述原始行为日志。
3.如权利要求2所述的分析方法,所述对所述筛选日志进行排序处理,得到所述原始行为日志,包括:
根据用户行为发生时间,对所述筛选日志中的用户行为数据进行排序,得到所述原始行为日志。
4.如权利要求3所述的分析方法,所述漏斗配置数据包括漏斗标识、计算维度和漏斗步骤。
5.如权利要求4所述的分析方法,所述针对所述N组行为日志中的每组行为日志,以接口调用方式调用所述计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果,包括:
针对每组行为日志,若所述漏斗步骤包括多个步骤,则根据所述多个步骤的排序,将该组行为日志中的用户行为数据依次与所述多个步骤进行匹配,得到该组行为日志对应的漏斗计算结果,其中,与所述多个步骤的相邻两个步骤匹配的两个用户行为数据之间的距离满足步长。
6.一种漏斗分析设备,包括:
数据清洗单元,用于对目标业务的原始日志进行清洗,得到原始行为日志;
日志分组单元,用于根据所述原始行为日志的计算维度,对所述原始行为日志进行分组,得到N组行为日志,其中,N为不小于2的整数;
漏斗模型生成单元,用于根据获取的漏斗配置数据,生成漏斗模型;
漏斗计算单元,用于针对所述N组行为日志中的每组行为日志,以接口调用方式调用与该组行为日志对应的计算算子对该组行为日志进行计算,得到该组行为日志对应的漏斗计算结果;
漏斗分析单元,用于根据每组行为日志对应的漏斗计算结果,得到所述目标业务的漏斗分析数据;
其中,所述N组行为日志与一个或多个所述漏斗模型对应;所述计算算子与所述漏斗模型对应。
7.如权利要求6所述的分析设备,所述数据清洗单元,用于从所述原始日志中筛选出与用户行为相关的日志,得到筛选日志,其中,所述用户行为包括曝光、点击和页面访问;对所述筛选日志进行排序处理,得到所述原始行为日志。
8.如权利要求7所述的分析设备,所述数据清洗单元,用于根据用户行为发生时间,对所述筛选日志中的用户行为数据进行排序,得到所述原始行为日志。
9.如权利要求8所述的分析设备,所述漏斗配置数据包括漏斗标识、计算维度和漏斗步骤。
10.如权利要求9所述的分析设备,所述漏斗计算单元,用于针对每组行为日志,若所述漏斗步骤包括多个步骤,则根据所述多个步骤的排序,将该组行为日志中的用户行为数据依次与所述多个步骤进行匹配,得到该组行为日志对应的漏斗计算结果,其中,与所述多个步骤的相邻两个步骤匹配的两个用户行为数据之间的距离满足步长。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419372.7A CN111523921B (zh) | 2019-12-31 | 2019-12-31 | 漏斗分析方法、分析设备、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419372.7A CN111523921B (zh) | 2019-12-31 | 2019-12-31 | 漏斗分析方法、分析设备、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523921A CN111523921A (zh) | 2020-08-11 |
CN111523921B true CN111523921B (zh) | 2023-10-20 |
Family
ID=71900355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911419372.7A Active CN111523921B (zh) | 2019-12-31 | 2019-12-31 | 漏斗分析方法、分析设备、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523921B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650743A (zh) * | 2020-12-30 | 2021-04-13 | 咪咕文化科技有限公司 | 一种漏斗数据分析方法、***、电子设备及存储介质 |
CN114925099A (zh) * | 2022-06-08 | 2022-08-19 | 北京自如信息科技有限公司 | 漏斗数据的查询方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294559A (zh) * | 2016-07-26 | 2017-01-04 | 北京三快在线科技有限公司 | 一种应用流量分析方法及装置 |
CN107563621A (zh) * | 2017-08-22 | 2018-01-09 | 北京金堤科技有限公司 | 一种网站用户流失情况分析方法及装置 |
CN107797894A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | App用户行为分析方法和装置 |
CN108664550A (zh) * | 2018-03-29 | 2018-10-16 | 北京邮电大学 | 一种对用户行为数据进行漏斗分析方法及装置 |
CN109471846A (zh) * | 2018-11-02 | 2019-03-15 | 中国电子科技网络信息安全有限公司 | 一种基于云日志分析的云上用户行为审计***及方法 |
CN109542741A (zh) * | 2018-10-11 | 2019-03-29 | 平安科技(深圳)有限公司 | 日志自动分组存储方法、装置、计算机设备和存储介质 |
WO2019120241A1 (zh) * | 2017-12-22 | 2019-06-27 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784035B (zh) * | 2016-08-31 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 漏斗模型的节点的评估***、方法和装置 |
-
2019
- 2019-12-31 CN CN201911419372.7A patent/CN111523921B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294559A (zh) * | 2016-07-26 | 2017-01-04 | 北京三快在线科技有限公司 | 一种应用流量分析方法及装置 |
CN107797894A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | App用户行为分析方法和装置 |
CN107563621A (zh) * | 2017-08-22 | 2018-01-09 | 北京金堤科技有限公司 | 一种网站用户流失情况分析方法及装置 |
WO2019120241A1 (zh) * | 2017-12-22 | 2019-06-27 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN108664550A (zh) * | 2018-03-29 | 2018-10-16 | 北京邮电大学 | 一种对用户行为数据进行漏斗分析方法及装置 |
CN109542741A (zh) * | 2018-10-11 | 2019-03-29 | 平安科技(深圳)有限公司 | 日志自动分组存储方法、装置、计算机设备和存储介质 |
CN109471846A (zh) * | 2018-11-02 | 2019-03-15 | 中国电子科技网络信息安全有限公司 | 一种基于云日志分析的云上用户行为审计***及方法 |
Non-Patent Citations (2)
Title |
---|
孙惟皓 ; 凌宗南 ; 陈炜忻 ; .日志智能分析在银行业IT安全运维管理中的应用.信息技术与网络安全.2018,(07),全文. * |
徐杨 ; 袁峰 ; 林琪 ; 汤德佑 ; 李东 ; .基于混合人工免疫算法的流程挖掘事件日志融合方法.软件学报.2017,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111523921A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956422B2 (en) | Integrating event processing with map-reduce | |
CN111221726A (zh) | 一种测试数据生成方法、装置、存储介质和智能设备 | |
CN101957832B (zh) | 对于事件流数据管理的统一的窗口支持 | |
US20180004781A1 (en) | Data lineage analysis | |
CN108647357B (zh) | 数据查询的方法及装置 | |
EP3418910A1 (en) | Big data-based method and device for calculating relationship between development objects | |
US9842134B2 (en) | Data query interface system in an event historian | |
US20210056073A1 (en) | Block data storage system in an event historian | |
CN110795455A (zh) | 依赖关系解析方法、电子装置、计算机设备及可读存储介质 | |
CN102460076A (zh) | 生成测试数据 | |
KR20170052668A (ko) | 데이터 구동 테스트 프레임워크 | |
CN111522728A (zh) | 自动化测试用例的生成方法、电子设备及可读存储介质 | |
CN111523921B (zh) | 漏斗分析方法、分析设备、电子设备及可读存储介质 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
CN109284331A (zh) | 基于业务数据资源的制证信息获取方法、终端设备及介质 | |
CN114168565B (zh) | 业务规则模型的回溯测试方法、装置、***及决策引擎 | |
CN111737148A (zh) | 自动回归测试方法、装置、计算机设备及存储介质 | |
CN107871055B (zh) | 一种数据分析方法和装置 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN107330031B (zh) | 一种数据存储的方法、装置及电子设备 | |
CN111190817B (zh) | 软件缺陷的处理方法及装置 | |
CN115774707B (zh) | 基于对象属性数据处理方法和装置、电子设备和存储介质 | |
CN112835779A (zh) | 测试用例确定方法、装置、计算机设备 | |
WO2016100737A1 (en) | Method and system to search logs that contain a massive number of entries | |
CN108614838B (zh) | 一种用户群索引处理方法、装置及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240223 Address after: Guohao Times City # 20-01, 128 Meizhi Road, Singapore Patentee after: Advanced Nova Technology (Singapore) Holdings Ltd. Country or region after: Singapore Address before: 45-01 Anson Building, 8 Shanton Avenue, Singapore Patentee before: Alipay laboratories (Singapore) Ltd. Country or region before: Singapore |