CN115759250A - 归因分析方法、装置、电子设备以及存储介质 - Google Patents
归因分析方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN115759250A CN115759250A CN202211488180.3A CN202211488180A CN115759250A CN 115759250 A CN115759250 A CN 115759250A CN 202211488180 A CN202211488180 A CN 202211488180A CN 115759250 A CN115759250 A CN 115759250A
- Authority
- CN
- China
- Prior art keywords
- node
- target
- data
- contribution degree
- dictionary tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005553 drilling Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种归因分析方法、装置、电子设备以及存储介质,其中,该方法包括:获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;基于所述节点贡献度对所述待分析对象进行异常归因分析。
Description
技术领域
本公开涉及数据处理的技术领域,具体而言,涉及一种归因分析方法、装置、电子设备以及存储介质。
背景技术
归因分析是解释某个现象或效果的构成因素的分析方法。目前,归因分析方法在电商、广告和咨询等各种类型的应用中得到了广泛应用。通过对业务数据进行正确的归因,可以实现业务的优化。
在现有技术中,通常通过相关人员指定数据的下钻维度,并计算出每个下钻维度的贡献度。然而,现有人工指定下钻维度的技术方案,自动化程度低,需要投入较大的人力物力,且通过人工指定下钻维度的方式计算贡献度的计算效率较低,因此,无法满足现有应用的实时性要求。
发明内容
本公开实施例至少提供一种归因分析方法、装置、电子设备以及存储介质。
第一方面,本公开实施例提供了一种归因分析方法,包括:获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;基于所述节点贡献度对所述待分析对象进行异常归因分析。
一种可选的实施方式中,所述基于所述数据维度和所述目标业务数据确定目标字典树,包括:按照所述数据维度的层级关系,确定所述目标业务数据中与每个所述数据维度相匹配的属性数据,得到目标数据序列;根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树。
一种可选的实施方式中,所述根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树,包括:在所述初始字典树中确定与所述目标数据序列相匹配的目标路径;其中,所述目标路径包含与所述目标数据序列中的每个属性数据相匹配的第一节点;基于各所述属性数据将对应的目标业务数据关联至所述目标路径的对应第一节点,得到所述目标字典树。
一种可选的实施方式中,所述基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度,包括:基于所述目标业务数据确定所述待分析对象的待分析指标的指标值,得到第一指标值;基于与每个所述节点关联的目标业务数据确定所述待分析对象的待分析指标的指标值,得到第二指标值;基于所述第一指标值和所述第二指标值确定该节点的节点贡献度。
一种可选的实施方式中,所述基于所述节点贡献度对所述待分析对象进行异常归因分析,包括:基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径;其中,所述第一节点路径中包含多个连续的节点,且每个节点的节点贡献度大于或者等于贡献度阈值;基于所述第一节点路径对所述待分析对象进行异常归因分析。
一种可选的实施方式中,所述基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径,包括:从所述目标字典树的根节点开始,遍历所述目标字典树的各节点路径中每个节点的节点贡献度,直至遍历到小于贡献度阈值的第二节点;基于所遍历的节点路径中位于所述第二节点之前的节点确定所述第一节点路径。
一种可选的实施方式中,所述基于所述节点贡献度对所述待分析对象进行异常归因分析,包括:在所述第一节点路径的路径数量为多个的情况下,基于每个所述第一节点路径中各节点的节点贡献度对所述待分析对象进行异常归因分析,得到各所述第一节点路径所对应的归因分析结果。
第二方面,本公开实施例还提供一种归因分析装置,包括:获取单元,用于获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;第一确定单元,用于基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;第二确定单元,用于基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;分析单元,用于基于所述节点贡献度对所述待分析对象进行异常归因分析。
第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
在本公开实施例中,首先,获取待分析对象的目标业务数据,之后,就可以确定目标业务数据的多层级的数据维度,进而基于该数据维度和目标业务数据确定目标字典树,其中,该目标字典树中包含多个层级的节点,每个层级对应一个层级的数据维度,且各层级中的每个节点对应相应数据维度的一种目标业务数据。之后,就可以基于目标业务数据确定目标字典树中每个节点的节点贡献度,从而基于该节点贡献度对待分析对象进行异常归因分析。上述实施方式中,通过基于多层级的数据维度和目标业务数据构造目标字典树,可以一次性列举数据维度下的多个下钻路径,从而一次性计算出多个下钻路径的贡献度。通过该处理方式,可以省却人工复杂的分析过程,优化了计算效率,同时具备较高灵活度,避免了现有数据维度的下钻路径不全面的问题。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种归因分析方法的流程图;
图2示出了本公开实施例所提供的一种目标字典树的结构示意图;
图3示出了本公开实施例所提供的归因分析方法中,基于所述数据维度和所述目标业务数据确定目标字典树的具体方法的流程图;
图4示出了本公开实施例所提供的归因分析方法中,基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度的具体方法的流程图;
图5示出了本公开实施例所提供的归因分析方法中,基于所述节点贡献度对所述待分析对象进行异常归因分析的具体方法的流程图;
图6示出了本公开实施例所提供的一种归因分析装置的示意图;
图7示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在现有的归因分析技术中,通常需要确定业务数据的下钻维度。之后,可以确定在下钻维度中每个环节/节点的贡献程度,从而持续优化推荐和业务路径。然而,现有技术中,通常通过相关人员指定数据的下钻维度,并计算出每个下钻维度的贡献度。然而,在现有人工指定下钻维度的技术方案中,需要人为设置下钻维度,以及下钻维度的深度,还需要手工记录下钻过程中的中间结果,因此,该技术方案自动化程度低,需要投入较大的人力物力。现有人工指定下钻维度的技术方案,需要工作人员和机器之间的交互,因此,针对每次下钻维度的选择,均需要触发一次贡献度的实时计算,因此通过人工指定下钻维度的方式计算贡献度的计算效率较低,且交互时体验也不友好,因此,无法满足现有应用的实时性要求。
基于上述研究,本公开提供了一种归因分析方法、装置、电子设备以及存储介质。在本公开实施例中,首先,获取待分析对象的目标业务数据,之后,就可以确定目标业务数据的多层级的数据维度,进而基于该数据维度和目标业务数据确定目标字典树,其中,该目标字典树中包含多个层级的节点,每个层级对应一个层级的数据维度,且各层级中的每个节点对应相应数据维度的一种目标业务数据。之后,就可以基于目标业务数据确定目标字典树中每个节点的节点贡献度,从而基于该节点贡献度对待分析对象进行异常归因分析。上述实施方式中,通过基于数据维度和目标业务数据构造目标字典树,可以一次性列举数据维度下的多个下钻路径,从而一次性计算出多个下钻路径的贡献度。通过该处理方式,可以省却人工复杂的分析过程,优化了计算效率,同时具备较高灵活度,避免了现有数据维度的下钻路径不全面的问题。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种归因分析方法进行详细介绍,本公开实施例所提供的归因分析方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备。在一些可能的实现方式中,该归因分析方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的一种归因分析方法的流程图,所述方法包括步骤S101~S107,其中:
S101:获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联。
在本公开实施例中,待分析对象可以理解为待分析的广告业务,保险业务,XXX福利发放业务等各种需要进行归因分析的业务。
这里,目标业务数据可以理解为对该待分析对象的业务观测数据,其中,该目标业务数据中的业务数据所属于多种数据类型,且该数据类型与数据维度相关联,即数据类型与数据维度相同或者相应。
这里,目标业务数据的数据维度的层级关系可以用于指示目标业务数据中至少部分数据维度的层级关系,例如,数据维度包含A,B和C,此时,该数据维度的层级关系为A-B-C。
也就是说,多个数据维度可以理解为多个下钻维度,多个数据维度的层级关系可以理解为多个下钻维度的下钻顺序。
S103:基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联。
在本公开实施例中,目标字典树包含多个层级,每个层级包含至少一个节点,其中,该目标字典树的最高层级为根节点,根节点为空节点。这里,每个数据维度可能包含多种目标业务数据,例如,在数据维度为操作***的情况下,该目标业务数据可以为ios***或者安卓***。在本公开实施例中,针对任意层级的每个节点,可以设置该节点对应该层级所对应数据维度下的一种目标业务数据,且相同层级下对应不同父节点的节点对应的目标业务数据可以相同。
如图2所示的即为一种可选的目标字典树。如图2所示,该目标字典树包含4个层级,其中,最高层级为根节点所在层级。该目标字典树的节点11和节点12位于第二层级,该目标字典树的节点21至节点24位于第三层级,该目标字典树的节点31至34位于第四层级。
假设,多层级的数据维度为:深度目标-操作***-二级渠道。此时,深度目标对应第一层级的节点,操作***对应第二层级的节点,二级渠道对应第三层级的节点。如果深度目标包括深度目标1和深度目标2,操作***包括操作***1和操作***,以及二级渠道包括二级渠道1和二级渠道2。那么节点11可以为深度目标1,节点12可以为深度目标2;节点21和节点23可以为操作***1,节点22和节点23可以为操作***4;节点31和节点33可以为二级渠道1,节点32和节点34可以为二级渠道2。
由于获取到的目标业务数据的数据维度为多个,因此,可以将多个数据维度记为数据维度序列。
在本公开实施例中,可以选择不同的数据维度按照不同的层级关系进行排序,从而得到不同的数据维度序列。此时,可以基于每种数据维度序列确定一个目标字典树,并对该目标字典树执行上述步骤S105和步骤S107所描述的过程,从而基于每个目标字典树确定待分析对象的异常归因分析的分析结果。
这里,包含多种不同的数据维度序列可以理解为:每种数据维度序列中的数据维度(或者数据维度)不相同和/或数据维度(或者数据维度)的层级关系不相同。
S105:基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响。
在本公开实施例中,针对每个目标字典树均设置了对应的待分析指标,其中,不同目标字典树的待分析指标可以相同或者不同,本公开对此不作具体限定。
针对不同的待分析指标,可以基于目标业务数据确定出不同的指标值。此时,就可以基于每个节点所对应的指标值确定该节点的节点贡献度,从而得到目标字典树中每个节点的节点贡献度。
S107:基于所述节点贡献度对所述待分析对象进行异常归因分析。
具体实施时,可以预先设置贡献度要求,其中,该贡献度要求基于贡献度阈值确定。然后,将节点贡献度与贡献度阈值进行比较,从而根据比较结果筛选出大于或者等于贡献度阈值的节点,并将该目标字典树中节点贡献度连续大于或者等于贡献度阈值的节点所节点的节点路径对该待分析对象进行异常归因分析。
在本公开实施例中,首先,获取待分析对象的目标业务数据,之后,就可以确定目标业务数据的多层级的数据维度,进而基于该数据维度和目标业务数据确定目标字典树,其中,该目标字典树中包含多个层级的节点,每个层级对应一个层级的数据维度,且各层级中的每个节点对应相应数据维度的一种目标业务数据。之后,就可以基于目标业务数据确定目标字典树中每个节点的节点贡献度,从而基于该节点贡献度对待分析对象进行异常归因分析。上述实施方式中,通过基于数据维度和目标业务数据构造目标字典树,可以一次性列举数据维度下的多个下钻路径,从而一次性计算出多个下钻路径的贡献度。通过该处理方式,可以省却人工复杂的分析过程,优化了计算效率,同时具备较高灵活度,避免了现有数据维度的下钻路径不全面的问题。
下面将结合具体实施方式对上述步骤进行详细介绍。
通过上述描述可知,在本公开实施例中,首先获取待分析对象的目标业务数据,并获取目标业务数据的数据维度。
具体实施时,业务方可以预先设置待分析对象的至少一种数据维度序列。在对待分析对象进行异常归因分析时,可以获取业务方预先设置的至少一种数据维度序列。除此之外,归因分析***还可以预先基于待分析对象的待分析指标为该待分析对象设置至少一种数据维度序列。
在本公开实施例中,可以基于数据维度的权重确定每个数据维度序列中各数据维度的层级关系。其中,该权重用于指示数据维度对待分析指标(或者待分析对象)的重要程度或者影响程度。
在获取到目标业务数据和数据维度序列(或者,多个数据维度)之后,就可以执行步骤S103:基于所述数据维度和所述目标业务数据确定目标字典树,其中,如图3所示,该步骤S103具体包括如下步骤:
步骤S11:按照所述数据维度的层级关系,确定所述目标业务数据中与每个所述数据维度相匹配的属性数据,得到目标数据序列;
步骤S12:根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树。
在本公开实施例中,首先建立一个空树和根节点,其中,根节点用于指示待分析对象。通过上述描述可知,每个数据维度序列可以包含多个数据维度和所述数据维度的层级关系。基于此,在获取到数据维度之后,可以基于数据维度的层级关系确定每个目标业务数据中与各数据维度相匹配的属性数据,从而得到目标数据序列。
具体实施时,首先获取包含多行目标业务数据的数据集,然后,遍历该数据集的每一行目标业务数据。针对每一行目标业务数据,按照配置的层级关系(也即,下钻顺序),生成该行目标业务数据的索引数据。比如上面配置的层级关系为:「深度目标-操作平台-二级渠道」,那么该行目标业务数据生成的索引数据可能为:「深度次留-ios-内部互推」。其中,该索引数据即为上述所描述的目标数据序列。
针对每个数据维度,可以在目标业务数据中确定与该数据维度相匹配的属性字段,并提取该属性字段的字段内容,例如,属性字段为“深度目标”,字段内容为“深度次留”,此时,就可以将该字段内容作为目标业务数据中与数据维度“深度目标”相匹配的属性数据。在依次得到与每个数据维度相匹配的属性数据之后,就可以将多个属性顺序按照层级关系进行组合,从而得到目标数据序列。
在确定出目标数据序列之后,就可以根据该目标数据序列将目标业务数据关联至初始字典树,从而得到目标字典树。
这里,可以根据索引数据(即,目标数据序列)和每一行目标业务数据,对初始字典树进行遍历。经过遍历,如果确定出索引数据对应的节点存在,则在该节点累加这行目标业务数据;如果不存在,则根据索引数据创建一个新节点,再累加这行目标业务数据。然后再继续处理下一层级的索引数据,在初始字典树中对当前层级节点的子节点进行遍历,直到每个索引数据均在初始字典树中确定出对应的节点,则结束流程,得到目标字典树。
在一个可选的实施方式中,上述步骤S12根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树,具体包括如下步骤:
步骤S121:在所述初始字典树中确定与所述目标数据序列相匹配的目标路径;其中,所述目标路径包含与所述目标数据序列中的每个属性数据相匹配的第一节点;
步骤S122:基于各所述属性数据将对应的目标业务数据关联至所述目标路径的对应第一节点,得到所述目标字典树。
在本公开实施例中,首先,在目标数据序列中确定待索引的属性数据,记为属性数据A;然后,在初始字典树中确定与该属性数据A相对应层级,记为层级B,并确定该层级B中所包含的节点,记为节点C。接下来,在节点C中查找与属性数据A相匹配节点。其中,如果查找到该相匹配的节点,则将该属性数据A所对应的目标业务数据累加至该节点;如果未查找到该相匹配的节点,则在初始字典树的层级B中创建一个与该属性数据A相匹配的节点,并将该属性数据A所对应的目标业务数据累加至该节点。
这里,针对每个目标数据序列来说,初始字典树的每个层级中与该目标数据序列的各属性数据相匹配的节点所组成的路径即为该目标数据序列的目标路径。通过将目标业务数据累加至该目标路径所对应的第一节点的方式,可以实现将各目标业务数据关联至初始字典树,从而得到目标字典树。
通过上述描述可知,在本公开实施例中,通过上述遍历过程,可以完整构建出每个目标业务数据的所有有效的下钻路径,以及各个路径的中间业务数据。因此,可以省却人工复杂的分析过程,优化了计算效率。
在一个可选的实施方式中,如图4所示,上述步骤S105基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度,具体包括如下步骤:
步骤S21:基于所述目标业务数据确定所述待分析对象的待分析指标的指标值,得到第一指标值;
步骤S22:基于与每个所述节点关联的目标业务数据确定所述待分析对象的待分析指标的指标值,得到第二指标值;
步骤S23:基于所述第一指标值和所述第二指标值确定该节点的节点贡献度。
在归因下钻字典树(即,目标字典树)构建成功以后,需要分析该目标字典树中对待分析对象或者上一层级的节点影响最大的节点。此时,可以对一个节点进行节点贡献度计算。比如,可以用排除法、加权占比法等方法计算节点的贡献度。下面,以排除法为例来进行说明。
具体实施时,可以利用目标业务数据确定待分析对象的待分析指标的指标值,从而得到第一指标值M。之后,针对当前待计算的节点,可以去除该节点所对应的目标业务数据,得到剩余的目标业务数据,并基于该剩余的目标业务数据确定去掉该节点所对应的目标业务数据后待分析对象的待分析指标的指标值,从而得到第二指标值Pi Ci。
接下来,就可以基于第一指标值和第二指标值确定该节点的节点贡献度,例如,可以通过以下方式计算该节点的节点贡献度:其中,Ci表示为该节点的节点贡献度,Ci为有符号数,Ci的绝对值表示影响的大小,Ci的符号标识是正向影响还是负向影响。
在本公开实施例中,在确定出每个节点的节点贡献度之后,就可以基于所述节点贡献度对所述待分析对象进行异常归因分析,如图5所示,具体包括如下步骤:
步骤S31:基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径;其中,所述第一节点路径中包含多个连续的节点,且每个节点的节点贡献度大于或者等于贡献度阈值;
步骤S32:基于所述第一节点路径对所述待分析对象进行异常归因分析。
在本公开实施例中,在确定出节点贡献度之后,可以根据该节点贡献度对目标字典树中的节点进行遍历,从而在目标字典树的多个节点路径(又称为展开路径)中遍历得到第一节点路径。
这里,第一节点路径的数量可以为多个,且第一节点路径中所包含节点的数量小于或者等于目标字典树的深度(或者层级数量),也就是说,第一节点路径可以为一条完整节点路径中的部分节点路径。且上述第一节点路径中的每个节点为连续层级的节点。
例如,如图2所示包含4个节点路径,分别为:节点路径1(根节点-节点11-节点21-节点31),节点路径2(根节点-节点11-节点22-节点32),节点路径3(根节点-节点12-节点23-节点33),节点路径4(根节点-节点12-节点24-节点34)。此时,可以在4个节点路径中确定第一节点路径。如果节点路径1中的每个节点的节点贡献度满足贡献度要求(即,节点贡献度大于或者等于贡献度阈值),则该节点路径1即为第一节点路径。又例如,节点路径1中节点11和节点21的节点贡献度满足贡献度要求,那么该第一节点路径即为:根节点-节点11-节点21。
在按照上述所描述的方式得到第一节点路径之后,就可以基于节点路径对待分析对象进行异常归因分析。
在所述第一节点路径的路径数量为多个的情况下,基于每个所述第一节点路径中各节点的节点贡献度对所述待分析对象进行异常归因分析,得到各所述第一节点路径所对应的归因分析结果。
在一个可选的实施方式中,上述步骤S31基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径,具体包括如下步骤:
步骤S311:从所述目标字典树的根节点开始,遍历所述目标字典树的各节点路径中每个节点的节点贡献度,直至遍历到小于贡献度阈值的第二节点;
步骤S312:基于所遍历的节点路径中位于所述第二节点之前的节点确定所述第一节点路径。
在本公开实施例中,首先,从目标字典树的根节点开始,确定根节点的子节点,即为子节点1,并确定子节点1的节点贡献度,即为节点贡献度1。然后,将节点贡献度1和贡献度阈值1进行比较;其中,如果比较出节点贡献度1大于或者等于贡献度阈值1,则确定该子节点1满足贡献度要求,则继续遍历该子节点1的子节点,即为子节点2。如果比较出节点贡献度1小于贡献度阈值1,则确定该子节点1不满足贡献度要求,此时,舍弃该子节点1,并在目标字典树中剪掉将该子节点1之后的节点路径。
针对子节点2,可以确定子节点2的节点贡献度,即为节点贡献度2。然后,将节点贡献度2和贡献度阈值2进行比较;其中,如果比较出节点贡献度2大于或者等于贡献度阈值2,则确定该子节点2满足贡献度要求,则继续遍历该子节点2的子节点。
在本公开实施例中,可以通过上述所描述的方式对每个节点路径中每个节点的节点贡献度进行遍历,直至遍历到不满足贡献度要求的节点,即小于对应贡献度阈值的节点。最后,将所遍历的节点路径中位于不满足贡献度要求的节点之前节点确定为第一节点路径。
这里,针对每个层级的节点,可以设置相同或者不同的贡献度阈值,即子节点1所对应的贡献度阈值1,与子节点2所对应的贡献度阈值2可以相同,还可以不同,本公开对此不作具体限定,以能够实现为准。
上述实施方式中,通过上述处理方式,可以一次性列举数据维度下多个下钻路径,从而在多个展开路径中一次性计算出满足贡献度要求的第一节点路径。通过该处理方式,可以省却人工复杂的分析过程,优化了计算效率,同时具备较高灵活度,避免了现有数据维度的下钻路径不全面的问题。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与归因分析方法对应的归因分析装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述归因分析方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图6所示,为本公开实施例提供的一种归因分析装置的示意图,所述装置包括:获取单元61、第一确定单元62、第二确定单元63和分析单元64;其中,
获取单元61,用于获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;
第一确定单元62,用于基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;
第二确定单元63,用于基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;
分析单元64,用于基于所述节点贡献度对所述待分析对象进行异常归因分析。
在本公开实施例中,首先,获取待分析对象的目标业务数据,之后,就可以确定目标业务数据的多层级的数据维度,进而基于该数据维度和目标业务数据确定目标字典树,其中,该目标字典树中包含多个层级的节点,每个层级对应一个层级的数据维度,且各层级中的每个节点对应相应数据维度的一种目标业务数据。之后,就可以基于目标业务数据确定目标字典树中每个节点的节点贡献度,从而基于该节点贡献度对待分析对象进行异常归因分析。上述实施方式中,通过基于数据维度和目标业务数据构造目标字典树,可以一次性列举数据维度下的多个下钻路径,从而一次性计算出多个下钻路径的贡献度。通过该处理方式,可以省却人工复杂的分析过程,优化了计算效率,同时具备较高灵活度,避免了现有数据维度的下钻路径不全面的问题。
一种可能的实施方式中,第一确定单元,还用于:按照所述数据维度的层级关系,确定所述目标业务数据中与每个所述数据维度相匹配的属性数据,得到目标数据序列;根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树。
一种可能的实施方式中,第一确定单元,还用于:在所述初始字典树中确定与所述目标数据序列相匹配的目标路径;其中,所述目标路径包含与所述目标数据序列中的每个属性数据相匹配的第一节点;基于各所述属性数据将对应的目标业务数据关联至所述目标路径的对应第一节点,得到所述目标字典树。
一种可能的实施方式中,第二确定单元,还用于:基于所述目标业务数据确定所述待分析对象的待分析指标的指标值,得到第一指标值;基于与每个所述节点关联的目标业务数据确定所述待分析对象的待分析指标的指标值,得到第二指标值;基于所述第一指标值和所述第二指标值确定该节点的节点贡献度。
一种可能的实施方式中,分析单元,还用于:基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径;其中,所述第一节点路径中包含多个连续的节点,且每个节点的节点贡献度大于或者等于贡献度阈值;基于所述第一节点路径对所述待分析对象进行异常归因分析。
一种可能的实施方式中,分析单元,还用于:从所述目标字典树的根节点开始,遍历所述目标字典树的各节点路径中每个节点的节点贡献度,直至遍历到小于贡献度阈值的第二节点;基于所遍历的节点路径中位于所述第二节点之前节点确定所述第一节点路径。
一种可能的实施方式中,分析单元,还用于:在所述第一节点路径的路径数量为多个的情况下,基于每个所述第一节点路径中各节点的节点贡献度对所述待分析对象进行异常归因分析,得到各所述第一节点路径所对应的归因分析结果。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的归因分析方法,本公开实施例还提供了一种电子设备700,如图7所示,为本公开实施例提供的电子设备700结构示意图,包括:
处理器71、存储器72、和总线73;存储器72用于存储执行指令,包括内存721和外部存储器722;这里的内存721也称内存储器,用于暂时存放处理器71中的运算数据,以及与硬盘等外部存储器722交换的数据,处理器71通过内存721与外部存储器722进行数据交换,当所述电子设备700运行时,所述处理器71与所述存储器72之间通过总线73通信,使得所述处理器71执行以下指令:
获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;
基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;
基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;
基于所述节点贡献度对所述待分析对象进行异常归因分析。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的归因分析方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的归因分析方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种归因分析方法,其特征在于,包括:
获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;
基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;
基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;
基于所述节点贡献度对所述待分析对象进行异常归因分析。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数据维度和所述目标业务数据确定目标字典树,包括:
按照所述数据维度的层级关系,确定所述目标业务数据中与每个所述数据维度相匹配的属性数据,得到目标数据序列;
根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据序列将所述目标业务数据关联至初始字典树,得到所述目标字典树,包括:
在所述初始字典树中确定与所述目标数据序列相匹配的目标路径;其中,所述目标路径包含与所述目标数据序列中的每个属性数据相匹配的第一节点;
基于各所述属性数据将对应的目标业务数据关联至所述目标路径的对应第一节点,得到所述目标字典树。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度,包括:
基于所述目标业务数据确定所述待分析对象的待分析指标的指标值,得到第一指标值;
基于与每个所述节点关联的目标业务数据确定所述待分析对象的待分析指标的指标值,得到第二指标值;
基于所述第一指标值和所述第二指标值确定该节点的节点贡献度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述节点贡献度对所述待分析对象进行异常归因分析,包括:
基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径;其中,所述第一节点路径中包含多个连续的节点,且每个节点的节点贡献度大于或者等于贡献度阈值;
基于所述第一节点路径对所述待分析对象进行异常归因分析。
6.根据权利要求5所述的方法,其特征在于,所述基于所述节点贡献度,在所述目标字典树的多个节点路径中确定第一节点路径,包括:
从所述目标字典树的根节点开始,遍历所述目标字典树的各节点路径中每个节点的节点贡献度,直至遍历到小于贡献度阈值的第二节点;
基于所遍历的节点路径中位于所述第二节点之前的节点确定所述第一节点路径。
7.根据权利要求6所述的方法,其特征在于,所述基于所述节点贡献度对所述待分析对象进行异常归因分析,包括:
在所述第一节点路径的路径数量为多个的情况下,基于每个所述第一节点路径中各节点的节点贡献度对所述待分析对象进行异常归因分析,得到各所述第一节点路径所对应的归因分析结果。
8.一种归因分析装置,其特征在于,包括:
获取单元,用于获取待分析对象的目标业务数据,并获取所述目标业务数据的多层级的数据维度;其中,所述数据维度与所述目标业务数据的数据类型相关联;
第一确定单元,用于基于所述数据维度和所述目标业务数据确定目标字典树;其中,所述目标字典树中每个层级的节点对应一个层级的数据维度,各层级中每个节点与所属于对应数据维度的目标业务数据关联;
第二确定单元,用于基于所述目标业务数据确定所述目标字典树中每个节点的节点贡献度;其中,所述节点贡献度用于指示每个所述节点对所述待分析对象的业务指标的影响;
分析单元,用于基于所述节点贡献度对所述待分析对象进行异常归因分析。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的归因分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的归因分析方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488180.3A CN115759250A (zh) | 2022-11-25 | 2022-11-25 | 归因分析方法、装置、电子设备以及存储介质 |
US18/511,298 US20240177077A1 (en) | 2022-11-25 | 2023-11-16 | Attribution analysis method, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488180.3A CN115759250A (zh) | 2022-11-25 | 2022-11-25 | 归因分析方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115759250A true CN115759250A (zh) | 2023-03-07 |
Family
ID=85337737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211488180.3A Pending CN115759250A (zh) | 2022-11-25 | 2022-11-25 | 归因分析方法、装置、电子设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240177077A1 (zh) |
CN (1) | CN115759250A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128571A (zh) * | 2023-04-12 | 2023-05-16 | 花瓣云科技有限公司 | 广告曝光量分析方法及相关装置 |
-
2022
- 2022-11-25 CN CN202211488180.3A patent/CN115759250A/zh active Pending
-
2023
- 2023-11-16 US US18/511,298 patent/US20240177077A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128571A (zh) * | 2023-04-12 | 2023-05-16 | 花瓣云科技有限公司 | 广告曝光量分析方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
US20240177077A1 (en) | 2024-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210326885A1 (en) | Method and Apparatus of Identifying a Transaction Risk | |
JP6574904B2 (ja) | ターゲットオブジェクトのソーシャルアカウントをマイニングするための方法、サーバ、および記憶媒体 | |
US10324989B2 (en) | Microblog-based event context acquiring method and system | |
US20160203179A1 (en) | Systems and methods for rapid data analysis | |
CN113612749B (zh) | 一种面向入侵行为的溯源数据聚类方法及装置 | |
CN105279397A (zh) | 一种识别蛋白质相互作用网络中关键蛋白质的方法 | |
CN106202280B (zh) | 一种信息处理方法及服务器 | |
CN106227765B (zh) | 时间窗口累计的实现方法 | |
US10255300B1 (en) | Automatically extracting profile feature attribute data from event data | |
CN109981326B (zh) | 家庭宽带感知故障定位的方法及装置 | |
CN109857714A (zh) | 日志获取方法、装置、电子设备及计算机可读存储介质 | |
CN115759250A (zh) | 归因分析方法、装置、电子设备以及存储介质 | |
CN113361954A (zh) | 归因分析方法、装置、设备及存储介质 | |
US11321359B2 (en) | Review and curation of record clustering changes at large scale | |
CN110535686B (zh) | 异常事件处理方法和装置 | |
CN111708921B (zh) | 一种号码选择的方法、装置、设备和存储介质 | |
KR101761177B1 (ko) | 상위 k 중요 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체 | |
US20160335300A1 (en) | Searching Large Data Space for Statistically Significant Patterns | |
CN111552842A (zh) | 一种数据处理的方法、装置和存储介质 | |
CN116821916A (zh) | 一种实现漏洞处理的方法、计算机存储介质及终端 | |
CN112131288A (zh) | 数据源接入处理方法和装置 | |
CN111221864B (zh) | 一种基于mysql慢查询日志词频分析的索引智能推荐方法 | |
CN112526440B (zh) | 基于互感器准确度等级的电能表运行误差监测方法及*** | |
CN115208938A (zh) | 用户行为管控方法及装置、计算机可读存储介质 | |
CN105471846B (zh) | 事件的检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |