CN111325254A - 构建条件关系网络、进行条件业务处理的方法及装置 - Google Patents

构建条件关系网络、进行条件业务处理的方法及装置 Download PDF

Info

Publication number
CN111325254A
CN111325254A CN202010089190.4A CN202010089190A CN111325254A CN 111325254 A CN111325254 A CN 111325254A CN 202010089190 A CN202010089190 A CN 202010089190A CN 111325254 A CN111325254 A CN 111325254A
Authority
CN
China
Prior art keywords
network
node
conditional
relationship
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010089190.4A
Other languages
English (en)
Other versions
CN111325254B (zh
Inventor
吴歈
何建杉
王太峰
褚崴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010089190.4A priority Critical patent/CN111325254B/zh
Publication of CN111325254A publication Critical patent/CN111325254A/zh
Application granted granted Critical
Publication of CN111325254B publication Critical patent/CN111325254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本说明书实施例提供的构建条件关系网络、利用所构建的条件关系网络进行条件业务处理的方法及装置,将分布式架构引入条件关系网络的数据处理过程。在构建条件关系网络时,以各个业务状态的属性类别的联合概率分布为基础,在更新初始关系网络中的连接边时,拆分出多个局部网络进行分布式数据处理,使得单个任务处理的数据仅包括联合概率分布数据及以一个节点为基准的局部网络数据。进一步地,在利用条件关系网络进行业务数据处理过程中,也基于分布式数据处理的构思,针对待预测节点进行属性类别采样的多个子任务,将各个子任务分发给多个分布式设备进行处理。这种构思可以减少单任务的数据处理量,解决条件关系网络应用实践中的数据量瓶颈问题。

Description

构建条件关系网络、进行条件业务处理的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及利用样本业务数据构建条件关系网络的方法及装置,以及利用所构建的条件关系网络预测业务状态的属性类别的业务处理方法及装置。
背景技术
随着计算机技术的发展,人工智能的应用越来越广泛。越来越多的场景可以通过机器学习模型实现。关系网络是一种图结构,其通常由节点和连接边构成,节点可以对应诸如实体、对象等,连接边用于表示节点之间的关联关系。关系网络可以通过机器学习模型进行处理,以对相应节点的属性进行预测。条件关系网络(如贝叶斯网络)是一种概率图模型,可以用于描述节点之间的跳转概率,例如描述不同页面之间的跳转概率的图模型等。因此,条件关系网络可以被广泛地用于网络的因果关系挖掘和推断。
发明内容
本说明书一个或多个实施例描述的方法及装置,可以解决背景技术中提到的一个或多个问题。
根据第一方面,提供了一种构建条件关系网络的方法,所述条件关系网络用于描述预定的多个业务状态之间的条件关系,包括与业务数据中的各个业务状态分别对应的各个节点,以及指示节点之间的条件关系的有向连接边,单个业务状态对应至少一个属性类别;所述方法包括:按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布,各个样本分别对应各条样本业务数据;基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备,从而使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于所述联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益;依据从所述多个分布式设备获取的各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络;基于所述当前关系网络,以及所述联合概率分布,为所述当前关系网络确定各个节点分别对应的各个条件概率分布,从而得到所述多个业务状态对应的各个节点形成的条件关系网络,使得所述条件关系网络用于在给定的若干节点的当前属性类别情况下,预测其他节点的属性类别的业务处理,所述条件概率分布用于描述相应节点在其各个父节点对应的业务状态条件下,该相应节点的业务状态处于各个属性类别的概率。
在一个实施例中,所述联合概率分布包括分别对应于所述多个业务状态上的各种属性类别组合的各个概率,单个属性类别组合是在所述多个业务状态上各取一个属性类别构成的组合;所述按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布包括:针对各种属性类别组合中的第一属性类别组合,生成第一统计任务;将所述第一统计任务分发给第一分布式设备,以供所述第一分布式设备统计对应于所述第一属性类别组合的第一样本的数量,并进行反馈;将所述第一样本的数量或所述第一样本的数量与全体样本数量的比值,作为所述第一属性类别组合对应的概率。
在一个实施例中,单个业务状态下的各个属性类别分别通过与所述单个业务状态对应的单个节点上的各个状态值描述。
在一个实施例中,所述预定方式包括,在各个节点间随机添加预定数量的有向连接边,所述多个业务状态包括第一业务状态,所述第一业务状态对应第一节点,所述基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络包括:从所述初始关系网络中确定出所述第一节点及其父节点构成的局部网络,作为以所述第一节点为基准拆分出的第一局部网络。
在一个实施例中,所述依据各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,包括:将最大网络分数增益对应的局部网络的条件关系变化项,更新到所述初始关系网络,得到中间关系网络;针对中间关系网络确定各个候选条件变更项,以及各个候选条件变更项分别对应的各个网络分数增益,其中,在单个候选条件变更项与所述多个分布式设备反馈的局部网络的条件关系变化项一致的情况下,将相应的局部网络的条件关系变化项的网络分数增益,作为该单个候选条件变更项的网络分数增益,在单个候选条件变更项与所述多个分布式设备反馈的局部网络的条件关系变化项不一致的情况下,通过在中间关系网络添加该单个候选条件变更项后的关系网络与当前的中间关系网络相比确定相应的网络分数增益;利用使得网络分数增益最大的候选条件变更项更新该中间关系网络。
在一个实施例中,所述预定增益条件为,网络分数增益为正。
在一个实施例中,所述依据各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络包括:将针对迭代更新所述初始关系网络中的条件关系后得到的中间关系网络,与基于通过其他预定方式初始化各个节点间的条件关系得到的若干其他初始关系网络,经迭代更新条件关系后得到的若干其他中间关系网络进行比较;选择网络分数最高的中间关系网络作为当前关系网络。
在一个实施例中,所述多个业务状态包括第二业务状态,所述第二业务状态对应第二节点,所述第二节点的各个父节点对应有第二属性类别组合,所述第二节点对应的条件概率分布包括,在所述第二属性类别组合下,所述第二节点分别对应到所述第二业务状态的各个属性类别的各个概率。
根据第二方面,提供了一种通过条件关系网络预测业务状态的属性类别的条件业务处理方法,所述条件关系网络通过第一方面所述的方式确定,所述方法包括:从待处理的业务数据中获取若干个业务状态分别对应的各个属性类别;将所述条件关系网络中,与所述若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务;将各个子任务分发给多个分布式设备,以供各个分布式设备依据所述条件关系网络及与所述若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样;基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
在一个实施例中,所述待预测节点包括第一待预测节点,所述第一待预测节点的采样结果为,按照所述第一待预测节点的各个父节点的属性类别,在其对应的条件概率分布下的采样结果。
在一个实施例中,所述第一待预测节点的采样结果包括第一采样结果,所述第一采样结果对应有第一置信度,所述第一置信度为所述第一预测节点在各个父节点的给定属性类别下的条件概率与预定权重的乘积,所述预定权重是所述第一采样结果的初始权重。
在一个实施例中,所述第一待预测节点对应的属性类别包括第一属性类别,所述基于各个采样结果,确定各个待预测节点分别对应的各个属性类别包括:基于各个采样结果,确定所述第一预测节点在各个候选属性类别上的概率分布,其中,所述概率分布包括所述第一待预测节点的预测属性类别为所述第一属性类别的第一概率,所述第一概率为:所述第一待预测节点的属性类别为所述第一属性类别的采样结果的置信度之和,与各个采样结果的置信度之和的比值;在所述第一概率满足预定概率条件的情况下,确定所述第一预测节点的当前属性类别为所述第一属性类别。
根据第三方面,提供了一种构建条件关系网络的装置,所述条件关系网络用于描述预定的多个业务状态之间的条件关系,包括与业务数据中的各个业务状态分别对应的各个节点,以及指示节点之间的条件关系的有向连接边,单个业务状态对应至少一个属性类别;
所述装置包括:
统计单元,配置为按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布,各个样本分别对应各条样本业务数据;
拆分单元,配置为基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备,从而使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于所述联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益;
网络结构确定单元,配置为依据从所述多个分布式设备获取的各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络;
概率分布确定单元,配置为基于所述当前关系网络,以及所述联合概率分布,为所述当前关系网络确定各个节点分别对应的各个条件概率分布,从而得到所述多个业务状态对应的各个节点形成的条件关系网络,使得所述条件关系网络用于在给定的若干节点的当前属性类别情况下,预测其他节点的属性类别的业务处理,所述条件概率分布用于描述相应节点在其各个父节点对应的业务状态条件下,该相应节点的业务状态处于各个属性类别的概率。
根据第四方面,提供了一种通过条件关系网络预测业务状态的属性类别的条件业务处理装置,所述条件关系网络通过第三方面所述的装置确定,所述业务处理装置包括:
获取单元,配置为从待处理的业务数据中获取若干个业务状态分别对应的各个属性类别;
生成单元,配置为将所述条件关系网络中,与所述若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务;
分发单元,配置为将各个子任务分发给多个分布式设备,以供各个分布式设备依据所述条件关系网络及与所述若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样;
确定单元,配置为基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的构建条件关系网络、利用所构建的条件关系网络进行条件业务处理的方法及装置,将分布式架构引入条件关系网络的数据处理过程。在构建条件关系网络时,以各个业务状态的属性类别的联合概率分布为基础,在更新初始关系网络中的连接边时,拆分出多个局部网络进行分布式数据处理,使得单个任务处理的数据仅包括联合概率分布数据及以一个节点为基准的局部网络数据。进一步地,在利用条件关系网络进行业务数据处理过程中,也基于分布式数据处理的构思,针对待预测节点进行属性类别采样的多个子任务,将各个子任务分发给多个分布式设备进行处理。这种构思可以减少单任务的数据处理量,解决条件关系网络应用实践中的数据量较大的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的构建条件关系网络的方法流程图;
图3示出根据一个实施例的通过条件关系网络预测业务状态的属性类别的条件业务处理的方法流程图;
图4示出根据一个实施例的构建条件关系网络的装置示意性框图;
图5示出根据一个实施例的通过条件关系网络预测业务状态的属性类别的条件业务处理的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
为了便于说明,结合图1示出的本说明书实施例的一个具体适用场景进行描述。图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中,通过对降雨的观测样本数据进行预处理,建立条件关系网络。一个观测样本在各个业务状态的状态值可以用于描述观测样本在相应业务状态下的属性类别的真实观测结果。业务状态可以是满足的条件或处于的状态,例如满足地面湿的条件、处于下雨的状态,等等。如图1所示,一条观测样本可以包含以下业务状态:1、打雷;2、下雨;3、地上湿。业务状态可以有多个属性类别,例如,“下雨”的业务状态可以具有的属性类别为:未下雨、小雨、中雨、大雨、暴雨等等。
在可选的方案中,每个业务状态可以对应至少一个状态值,用于描述该业务状态的属性类别。例如图1示例中,业务状态的状态值均为2个,业务状态的属性类别为发生时,观测样本对应于该业务状态的状态值为第一预设值,图1中取1,否则,观测样本对应于该业务状态的状态值为第二预设值,图1中取0。图1中以天为单位进行样本记录,实践中还可以以小时等为单位进行记录。在样本1中,打雷这个业务状态取值为1,表明1月1日这天发生了打雷的事件,下雨和地面湿取值都为0,表明1月1日这天没有下雨,地面也不湿。以此类推,各个观测样本都对应有状态值表示的属性类别。
在本说明书实施例的架构下,通过对各个观测样本进行统计,可以确定各个业务状态的属性类别的联合概率分布,该联合概率分布可以描述各个业务状态的不同属性类别组合在样本中的概率分布。例如,打雷的属性类别为发生时下雨和/或地面湿的属性类别为发生的概率、下雨的属性类别为发生时,打雷和/或地面湿的属性类别为发生的概率、地面湿的属性类别为发生时打雷和/或下雨的属性类别为发生的概率,等等。更进一步地,将各个业务状态的不同属性类别通过状态值表示,对于三个各自具有2个属性类别的业务状态而言,不同属性类别的组合例如可以表示为:(1,0,0)、(1,1,0)、(1,0,1)、(1,1,1)、(0,1,1)、(0,0,0)、(0,1,0)、(0,0,1)等等。这些组合在全部观测样本中的各个出现概率构成联合概率分布。之后,基于该联合概率分布,可以建立条件关系网络。
条件关系网络可以是表示节点之间的因果逻辑的关系网络。如图1所示的实施场景中,条件关系网络可以包括各个业务状态对应的各个节点,以及通过有向连接边表示的节点之间的条件关系。各个节点对应有父节点到当前节点的条件概率分布。
图1示出的情形下,下雨和地面湿对应的节点存在父节点,分别对应有条件概率分布。假如打雷和下雨具有因果关系,连接边箭头方向表示因果顺序,打雷可能引起下雨,打雷事件发生时,下雨事件发生的概率为60%,下雨事件不发生的概率为40%,打雷事件不发生时,下雨的概率为70%,不下雨的概率为30%。同理,下雨可能引起地面湿,在下雨事件发生时,地面湿的概率为90%,地面不湿的概率为10%(如雨量非常小),不下雨地面湿的概率为1%,地面不湿的概率为99%。图1仅示出的存在一个父节点的情形,在实际实现中,一个节点可以存在多个父节点,构成多个父节点到当前节点的联合概率分布。
值得说明的是,观测样本和业务状态可以根据实际场景进行设定,例如,在页面点击场景中,业务状态还可以是对各个包含超链接页面的浏览情况、点击相应超链接跳转到其他页面的情况等等,在此不再赘述。这里的观测样本、业务状态数量(对应条件关系网络中的节点数量)、各个业务状态的取值数量仅为示例,实践中,可以根据需要设置为任意数量,在此不作限定。尽管条件关系网络具有一定的理论基础,但其构建或使用过程中的计算却相当复杂和耗时。尤其当网络规模或样本数量非常庞大时,条件关系网络的计算面临着巨大瓶颈,常规技术的计算方式已经无法满足需求。例如图1示出的场景中,当观测样本、业务状态数量、取值数量都较大时,计算量非常庞大。
下面详细介绍在以上条件关系网络构建过程中,通过样本业务数据进行条件关系网络构建的方法。
图2示出根据一个实施例的构建条件关系网络的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的***、设备、装置、平台或服务器。条件关系网络可以用于描述多个业务状态之间的逻辑条件关系。基于贝叶斯原理描述的条件关系的条件关系网络也叫贝叶斯网络。条件关系网络中的各个节点分别对应各个业务状态,并通过节点之间的有向连接边指示业务状态之间的条件逻辑。其中,业务状态可以是任何与当前业务相关的条件、事件、性质等等,例如图1场景中的“打雷”、“下雨”,商业场景中的“销售量”、“营业额”,页面转化场景中的“浏览”、“点击”等等。
作为示例,一条有向连接边从节点A指向节点B,则节点A对应的业务状态可以是引起节点B对应的业务状态的起因/条件,节点B对应的业务状态可以是节点A对应的业务状态导致的结果。一个样本可以对应一条样本业务数据。一条样本业务数据描述出先验的一个实际情形下,各个业务状态分别对应的属性类别。例如,一个节点对应的业务状态为“下雨”,该业务状态对应的属性类别可以是“发生”、“未发生”,也可以在发生的轻轻下具有发生程度属性,例如“小雨”、“中雨”、“大雨”、“暴雨”等等。
如图2所示,该构建条件关系网络的方法可以包括以下步骤:步骤201,按照各个样本分别在多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布,各个样本分别对应各条样本业务数据;步骤202,基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备,从而使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益;步骤203,依据各个网络分数增益,迭代更新初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络;步骤204,基于当前关系网络,以及联合概率分布,为当前关系网络确定各个节点分别对应的各个条件概率分布,从而得到多个业务状态对应的各个节点形成的条件关系网络,使得条件关系网络用于在给定的若干节点的当前属性类别情况下,预测其他节点的属性类别的业务处理,条件概率分布用于描述相应节点在其各个父节点对应的业务状态条件下,该相应节点的业务状态处于各个属性类别的概率。
首先,在步骤201中,按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布。可以理解,一个样本可以对应一条样本业务数据,每个样本在预定的各个业务状态上,可以有基于样本业务数据明确确定的属性类别。
为了挖掘各个业务状态之间的关联关系,可以各个状态的不同属性类别组合在全体样本中的出现频次。这些出现频次构成各个节点之间的联合概率分布。容易理解,各个业务状态可以对应有两种或两种以上的属性类别,例如,对于图1示出的业务状态“打雷”,可以对应打雷和不打雷两种属性类别,也可以根据一天中打雷频次、响度等给出多个属性类别。可选地,可以通过不同数值来描述这些属性类别,例如用0表示没有打雷的属性类别,1-4表示出现打雷的属性类别,其中1表示打雷频次较低,响度较小的属性类别,2表示打雷频次较高响度较小的属性类别,3表示打雷频次较低响度较大的属性类别,4表示打雷频次较高响度较大的属性类别,等等。各个业务状态的属性类别组合通过数值表示例如是(1,0,0……)、(1,1,0……)等。
理论上,样本中可能的属性类别组合的数量可以通过各个业务状态对应的属性类别数量的乘积来描述。假设业务状态数量为m,各个业务状态的属性类别数量为ni,其中i为1到m的自然数,一个样本中,第i个业务状态可能取到的属性类别为
Figure BDA0002383140080000112
个,各个业务状态的属性类别组合的数量可以记为
Figure BDA0002383140080000111
即n1·n2·n3…nm。这样,当各个业务状态对应2种情形时,3个业务状态对应的属性类别组合的数量为2×2×2=8。以业务状态数量为2,一个业务状态有2个属性类别,分别通过数值0、1表示,另一个业务状态有3个属性类别,分别通过数值0,1,2表示为例,属性类别组合可以表示为:(0,0)、(0,1)、(0,2)、(1,0)、(1,1)、(1,2),共2×3=6种。
针对每种属性类别组合,可以根据各个样本确定相应的概率,这些概率构成描述各个业务状态的联合概率分布。根据一个实施例,每种属性类别组合对应的概率可以通过统计确定。如图1示出的实施场景中,打雷、下雨、地上湿都发生的情形对应的概率为:P(1,1,1)=n(1,1,1)/N,其中,N为总的样本数,n(1,1,1)为打雷、下雨、地上湿都发生的情形对应的样本数。
可以理解,理论上的属性类别组合数量在业务状态数、各个业务状态的属性类别中的至少一个足够大时,其计算量剧增。例如,业务状态数为10,每个业务状态有4个属性类别,可能的属性类别组合数为410(大概为百万级别),当业务状态数增大到100时,可能的属性类别组合数增大到4100(大概为10的60次方级别)。而实际上,样本不一定穷举这些属性类别组合。因此,实际产生的属性类别组合数可能远小于属性类别组合的理论数值。最差的情况是,每个样本对应一个属性类别组合,可能的属性类别组合数与样本数量(如10万例)相等。这样,即使业务状态数、每个业务状态的属性类别中的至少一个较大,真实发生的属性类别组合远小于可能的属性类别组合数。在一个实施例中,可以统计实际样本产生的属性类别组合下的联合概率分布。可选地,真实样本产生的属性类别组合的联合概率分布可以以直方图的形式进行描述。每个真实属性类别组合作为直方图中的类别,该真实属性类别组合对应的样本数或该真实属性类别组合对应的样本数与总的样本数的比值作为相应类别的取值。
根据一个可能的设计,在本说明书的实施架构下,在统计不同的属性类别组合下的联合概率分布时,可以通过分布式计算方式进行。例如,针对各种属性类别组合中的第一属性类别组合,生成第一统计任务,将第一统计任务分发给第一分布式设备,以供第一分布式设备统计对应于第一属性类别组合的第一样本的数量,并进行反馈,然后将第一样本的数量或第一样本的数量与全体样本数量的比值,作为第一属性类别组合对应的概率。其中第一属性类别组合是样本中真实产生的任一属性类别组合。如此,可以将每种属性类别组合对应的样本数量统计作为一个任务,生成多个分布式任务。对所生成的多个任务向分布式***中的计算设备(也可以称为分布式设备)进行分发,由各个计算设备分别统计相应的样本数量并反馈。这样,对于大量样本的概率分布统计可以快速高效地得到相应结果。同时,可以较好地实现数据扩容,例如,增加一个新的属性类别组合时,可以是生成一个新的任务。可选地,可以通过map reduce的方式进行分布式的次数统计计算。例如可以通过map网格结构映射各种组合状态,通过分布式的reduce调用得到各种组合状态对应的样本数量的统计结果。
接着,在步骤202,基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备。
其中,初始关系网络可以是通过预定方式初始化各个节点间的条件关系得到的关系网络。该预定方式例如是按照对应于各个业务状态的多个节点构成无连接边的空的网络结构,也可以是随机在各个节点之间添加若干个有向连接边构成随机的关系网络。在初始关系网络为空的网络结构的情况下,各个节点相互独立,此时,可以将任意的两两节点拆分为局部网络,也可以在空的网络结构中随机添加一条连接边,由该连接边展开确定出各种可能的局部网络。
具体地,可以将各个节点依次作为基准节点生成局部网络,遍历初始关系网络,生成相应的多个局部网络。将当前作为基准的节点称为当前节点,当前节点对应的局部网络可以为任意自然数个。例如,在当前节点在初始关系网络中存在父节点的情况下,可以将当前节点及其父节点构成的网络作为与当前节点对应的局部网络,在当前节点在初始关系网络中不存在父节点的情况下,可以确定当前节点对应的局部网络为0个或多个,例如将当前节点与所有其他节点分别构成条件关系网络。如图1示出的关系网络作为初始关系网络时,其中的“打雷-下雨”、“下雨-地面湿”等可以作为局部网络。
进一步地,可以将各个局部网络分发给多个分布式设备。如此,可以使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于步骤201确定的联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益。这里的分布式设备可以是具有一定计算能力的各种设备,例如平板电脑、台式计算机、智能手机等等。可以理解,改变相应的局部网络的条件关系可以对两个节点之间的连接边的连接状态进行一次可能的修改。作为示例,节点A和B之间的连接边的可能连接状态例如可以包括A指向B、B指向A、无连接等等。一次可能的修改可以包括添加、删除、改变连接边的方向等,如从A指向B修改为B指向A或无连接边。
根据一个实施方式,针对每个局部网络生成的条件关系改变任务,可以包括确定相应局部网络的各种可能的条件关系改变项,并确定按照各个可能的条件关系改变项改变相应局部网络后,得到的各个网络分数增益。分布式设备接收到相应的连接结构修改任务后,可以对相应局部网络的连接结构进行更改和评分,得到相应局部网络的在进行一次可能的修改的情况下,得到的网络评分增益。每进行一次可能的修改,可以记录相应的网络分数增益并进行反馈。可选地,分布式设备可以反馈网络分数增益大于0的修改,并记录修改内容,如删除从节点A与节点B之间的连接线,网络分数增益为0.3等。这种方式可以记录各个局部网络中各种可能的修改及其网络分数增益,以便更好地进行全局网络的条件关系的统筹修改。可选地,分布式设备还可以记录被淘汰的改变,例如,当前修改为在节点A和B之间删除连接边,得到网络分数更高的局部网络,则节点A和B之间的连接边为被淘汰的改变,后续不再考虑该情形,以免重复计算。
根据另一个实施方式,针对每个局部网络生成的条件关系改变任务可以包括,针对相应局部网络生成相应的局部最优连接结构的任务。分布式设备接收到相应的条件关系改变任务后,可以针对局部网络尝试两两节点之间的连接边的连接状态修改,并在针对两两节点之间的连接边进行遍历,完成当前所有可能的修改后,选择网络分数增益最大的修改,改变局部网络结构,再进行下一次对两两节点之间的连接边的遍历,对局部网络进行网络分数增益最大的修改,直至不存在评分增益大于0的修改。这种情况下,分布式设备可以反馈局部最优的关系网络,及相应的网络分数增益。可以理解的是,在局部网络包含的节点数量大于2时,局部最优的连接结构可能进行了多次修改。此时,局部网络的网络分数增益可以是多次修改导致的网络分数增益之和。
其中,网络分数可以基于诸如Heckerman、BIC score(Bayesian InformationCriterion,贝叶斯信息准则)之类的网络评分模型得到。以Heckerman为例,假设节点数量为N,则Heckerman可以描述为:
Figure BDA0002383140080000151
Figure BDA0002383140080000152
Figure BDA0002383140080000153
其中,ri是节点i的状态值(对应属性类别)个数,qi是节点i父节点的状态值组合(对应的属性类别组合)的总数,Nijk是节点i的状态值取值为k且其父节点的状态值组合为第j个的样本计数,Nij是节点i父节点的状态值组合为第j个的样本计数,Γ为伽马函数(欧拉第二积分),C为常数。
如此,可以结合步骤201得到的联合概率分布,对每次变化后的局部网络进行打分,分值就是PH的计算结果(下文中记为S)。
网络评分增益用于描述网络评分量化的增加程度。将修改前的局部网络得分记为S1,修改后的局部网络得分记为S2,则网络评分增益可以表示为,网络分数的变化值S2-S1或者网络分数的变化率(S2-S1)/S1,等等。网络评分增益越大,表明网络向好的方向改变的趋势越强,如果网络评分增益为负,表明打分降低,此次改变没有使得关系网络向好的方向发展。
在本步骤中,通过根据网络结构拆分出局部网络的分布式布局,实现对初始关系网络中的条件关系改变项的分布式检测,可以大大降低单个设备的计算量,为条件关系网络中关于计算量过大的瓶颈问题提供解决方案。
接着,在步骤203,依据从多个分布式设备获取的各个网络分数增益,迭代更新初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络。可以理解,本步骤的目的在于使得网络结构向网络分数较高的方向调整。因此,每进行一次网络修改,都可以选择网络分数增益尽可能高的条件关系改变项。
根据一个可能的设计,可以先根据多个分布式设备反馈的各个条件关系改变项,以及各个网络分数增益,选择网络分数增益最大的条件关系变化项,更新初始关系网络,得到中间关系网络,再进一步迭代更新中间关系网络。其中,单次迭代更新中间关系网络的过程可以是:针对中间关系网络确定各个候选条件变更项,以及各个候选条件变更项分别对应的各个网络分数增益,利用使得网络分数增益最大的候选条件变更项更新该中间关系网络。
其中,针对中间关系网络确定的各个候选条件变更项可以是当前的中间关系网络中所有可能的条件关系改变,例如局部网络内的条件关系改变、局部网络之间的条件关系改变,等等。值得说明的是,候选条件变更项至少不包括已经完成的条件关系修改。例如,前一步将节点A指向节点B的连接边修改为由节点B指向节点A的连接边,则后续过程中不再将节点B指向节点A的连接边改为节点A指向节点B的连接边。这是因为,如果选择了删除节点A指向节点B的连接线,是由于删除该连接线与存在该连接线的网络结构性相比获得了正的增益,再添加上连接线必然得到负增益。因此可以排除这种改回原始状态的变化状态。
在单个候选条件变更项与多个分布式设备反馈的局部网络的条件关系变化项一致的情况下,可以将相应的局部网络的条件关系变化项的网络分数增益,作为该单个候选条件变更项的网络分数增益。这样,有利于实现条件关系网络的局部优化。例如前述的针对每个局部网络生成的条件关系改变任务包括确定相应局部网络的各种可能的条件关系改变项,并确定按照各个可能的条件关系改变项改变相应局部网络后,得到各个网络分数增益的情况下,可以对涉及某个局部网络内部的条件关系变化项,查询其针对相应局部网络的网络分数增益。
在单个候选条件变更项与多个分布式设备反馈的任一局部网络的条件关系变化项不一致的情况下,可以分别确定当前的中间关系网络的第一网络分数,以及在中间关系网络添加该单个候选条件变更项后的关系网络的第二网络分数,基于第二网络分数与第一网络分数的对比,确定相应的网络分数增益。通常,对于涉及分别属于两个局部网络间的两个节点的候选条件变更项,可以通过该方式确定网络分数增益。
可以理解,当得到的关系网络较接近真实关系网络时,网络分数增益将不会大幅度增加,此时继续修改网络结构可能增加计算量,并影响关系网络的准确度。因此,在一个实施例中,决定是否停止迭代更新初始关系网络的预定增益条件可以是当前候选条件变更项对应的网络分数增益小于预定阈值。预定阈值可以是根据人工经验设置的数值(如0或者如0.0001等接近0的正数),也可以是通过机器学习方式确定的数值,在此不再赘述。
依据各个网络分数增益,迭代更新初始关系网络中的条件关系的过程中,可以每次都利用当前最大的网络分数增益的候选条件变更项进行更新,有利于基于当前的初始关系网络得到一个相对较优的结果关系网络。值得说明的是,该结果关系网络仅包括节点之间是否存在条件关系,而不是具体量化的条件关系。该结果关系网络可以直接作为当前关系网络,用于后续确定量化条件关系,也可以与其他的结果关系网络相比较,取一个较优的结果关系网络(如网络分数最高的关系网络、对两两节点之间的连接边投票等),作为当前关系网络,用于后续确定量化条件关系。其中,其他的结果关系网络可以采用步骤202和步骤203的方法分别确定。可选地,得到其他的结果关系网络所依据的各个初始关系网络,可以采用各不相同的初始化方式,以减少初始关系网络的初始化方式对结果关系网络的影响。
然后,在步骤204中,根据最终确定的当前网络结构,以及上述联合概率分布,为当前网络结构确定各个节点分别对应的各个条件概率分布,从而得到上述多个业务状态对应的多个节点形成的条件关系网络。
可以理解,最终更新后的当前网络结构是经过网络评分优化的关系网络,其通过有向连接边描述了节点之间的条件关系,相当于是对网络结构的确定,对于用于业务处理的关系网络而言,还需要进一步确定网络结构的参数。对于条件关系网络而言,其网络结构的参数可以是条件概率分布。
常规技术中,图模型的网络参数通常通过连接边的权重等进行描述,对于条件关系网络,网络参数可以描述当前节点在至少一个父节点的条件下的条件概率。由于每个节点的取值至少为2个,因此条件概率包括多种情形,构成条件概率分布。对于每个存在父节点的节点而言,都可以确定其对应的条件概率分布。可以理解,在步骤203所确定的当前网络结构中,必然存在具有父节点(上级节点)的节点。下面以任一存在父节点的节点(以下称为第二节点)为例,说明条件概率分布的具体情形。
其中,第二节点对应第二业务状态。有连接边指向第二节点的父节点,和第二节点具有一定的因果关系。或者说,其属性类别可能影响着第二节点的属性类别。假设第二节点对应的概率分布为第二概率分布。可以理解,第二概率分布可以用于描述第二节点的父节点对应的属性类别条件下,第二节点分别对应的第二业务状态的各个属性类别的各个概率。
对于两两节点,贝叶斯原理可以描述为,对于随机事件A和B,其中条件概率P(A|B)是在B发生的情况下A发生的可能性,假设事件B发生的先验概率为P(B),则事件A发生的概率可以为:P(A)=P(B)P(A|B)。当事件B有多个状态时,用i表示任一个状态,可以记为:P(A)=∑iP(Bi)P(A|Bi)。
作为示例,结合图1所示,将打雷看作事件B,下雨看作事件A,在所有样本中,有:打雷发生的次数为nd=n(1,1,1)+n(1,0,1)+n(1,1,0)+n(1,0,0);在打雷发生的情况下,下雨发生的次数为ndx=n(1,1,1)+n(1,1,0)。则打雷的先验概率为Pd=nd/N,在打雷事件发生的情况下,下雨的条件概率为P(x|d)=ndx/nd。例如,当P(x|d)=1时,表示打雷必然导致下雨,当P(x|d)=0时,表示打雷不会导致下雨。同理,可以确定打雷不发生的情况下,下雨分别发生或不发生的条件概率。不打雷发生的次数为n~d=n(0,1,1)+n(0,0,1)+n(0,1,0)+n(0,0,0);在不打雷的情况下,下雨发生的次数为n~dx=n(0,1,1)+n(0,1,0)。则在打雷事件不发生的情况下,下雨的条件概率为P(x|~d)=n~dx/n~d。如此,可以确定节点下雨对应的条件概率分布包括:P(下雨=1|打雷=1)=a=P(x|d),P(下雨=0|打雷=1)=1-a,P(下雨=1|打雷=0)=b=P(x|~d),P(地面湿=0|下雨=0)=1-b。其中,a、b可以通过上述计算获取。容易得知,n(1,1,1)、n(1,0,1)、n(1,1,0)、n(1,0,0)等是可以通过步骤201中统计的联合概率分布获取的。
当第二节点的父节点有多个时,条件概率分布为,各个父节点的各种可能属性类别组合条件下,第二节点分别对应的第二业务状态的各个属性类别的各个概率。例如,节点A、B、C,节点A的可能取值为0、1,节点B的可能取值为0、1,节点C的取值分别为0、1、2,则,节点C对应的概率分布可以包括:{P(A=0,B=0|C=0)、P(A=0,B=0|C=1)、P(A=0,B=0|C=2)}、{P(A=0,B=1|C=0)、P(A=0,B=1|C=1)、P(A=0,B=1|C=2)}、{P(A=1,B=1|C=0)、P(A=1,B=1|C=1)、P(A=1,B=1|C=2)}、{P(A=1,B=0|C=0)、P(A=1,B=0|C=1)、P(A=1,B=0|C=2)}等等。计算方法同上。
可选地,确定先验概率时还可以添加一定的扰动,以在样本量过少或者符合某个状态过少的情况下,为先验概率赋值。例如,打雷的先验概率为Pd=(nd+s)/(N+t),其中s和t是预设的扰动数值,例如都是接近0的整数,且t大于s。
在一个可能的设计中,条件关系网络不仅可以用于从因到果的预测业务,还可能用于从果究因的预测业务。例如,天气情况、服装商户每天的营业流水额度、雨具商户每天的营业流水额度等作为相应状态,对应到不同的节点,通常,根据天气情况可以预测服装商户每天的营业流水额度、雨具商户每天的营业流水额度,反之,基于服装商户每天的营业流水额度、雨具商户每天的营业流水额度也可以反向预测天气情况等。此时,将因记为A,果记为B,根据贝叶斯原理,有:
Figure BDA0002383140080000201
其中,~A表示非A,即A不发生,在以上例子中即打雷不发生。P(B|A)、(A)、P(B|~A)、P(~A)可以基于联合概率分布表确定,在此不再赘述。
也就是说,对于存在子节点的第三节点,还可以通过第三节点及其子节点确定反向条件概率分布。
根据一种实施方式,在确定各个节点分别对应的各个条件概率分布时,可以通过分布式任务进行,例如将确定第一节点的条件概率分布生成一个任务,分发给第一分布式设备,以供第一分布式设备基于步骤201确定的联合概率分布确定第一节点的第一条件概率分布,并进行反馈。
如此,可以得到包含连接关系及条件概率分布(相当于网络参数)的条件关系网络。该条件关系网络可以用于在给定的若干节点的当前状态下,预测其他节点的属性类别的业务处理。
下面参考图3所示,描述通过图2示出的实施例得到的条件关系网络预测节点状态的方法流程。由图2可知,条件关系网络中,包括与预定的多个业务状态分别对应的各个节点,并通过节点之间的有向连接边描述条件关系。其中,父节点是子节点的条件,子节点对应有在与其父节点对应的业务状态的各种属性类别组合条件下的条件概率分布。
如图3所示,根据一个实施例的通过条件关系网络预测业务状态的属性类别的业务处理方法包括以下步骤:步骤301,从待处理的业务数据中获取若干个业务状态的属性类别;步骤302,将条件关系网络中,与上述若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务;步骤303,将各个子任务分发给多个分布式设备,以供各个分布式设备依据条件关系网络及与上述若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样;步骤304,基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
首先,在步骤301,从待处理的业务数据中获取若干个业务状态分别对应的各个属性类别。其中,这里的业务数据可以是相应场景下,对至少一个业务状态进行描述的数据,例如图1示出的场景中,业务数据可以是“大雨了”,可以对应“下雨”的业务状态的属性类别为“发生”。可选地,对应到条件关系网络中,“下雨”的业务状态对应的节点可以具有状态值为1。
接着,通过步骤302,将条件关系网络中,与上述若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务。可以理解,条件关系网络中,除了已知属性类别的节点,其他节点的属性类别为待确定,都可以作为待预测节点。
一个子任务可以是针对一个待预测节点多次采样的任务,也可以是对所有待预测节点完成一次采样的任务。其中,子任务可以依据条件关系网络及通过业务数据确定的上述若干节点的属性类别,对至少一个待预测节点的属性类别进行采样。可选地,待预测节点的采样结果可以基于其各个父节点的属性类别,在其对应的条件概率分布下确定。
作为示例,假设一个条件关系网络包括A、B、C、D四个节点,对应四个状态,如果业务数据中包含了A、C对应的业务状态的描述信息,则可以确定节点A、C的属性类别。节点B、D为待预测节点。节点A、C的属性类别可以用状态值表示,如A=1,C=0。一个子任务可以是基于条件关系网络中各个节点的条件概率分布,对节点B、D的属性类别进行一次采样任务。由于按照条件概率分布进行采样,因此,节点B、D的大量采样结果满足相应的条件概率分布。假设节点B的父节点为A,节点B的候选属性类别对应状态值0、1,则节点B的采样结果满足以下概率分布:取0对应的属性类别的概率为P(B=0|A=1)、取1对应的属性类别的概率为P(B=1|A=1)。假设节点D的父节点为节点A、C,节点D的候选属性类别通过状态值0、1表示,则节点D的采样结果满足的概率分布为:取0对应的属性类别的概率为P(D=0|A=1,C=0)、取1对应的属性类别的概率为P(D=1|A=1,C=0)。
然后,通过步骤303,将各个子任务分发给多个分布式设备,以供各个分布式设备依据条件关系网络及与若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样。一个分布式设备可以处理一个或多个采样任务。
分布式设备对待预测节点的一次采样,可以得到相应的一个采样结果。由于大量采样结果下,待预测节点的概率分布满足其对应的条件概率分布,如果仅仅记录采样结果,结果不够准确。在可选的实现方式中,还可以同时记录采样结果的置信度。置信度可以是相应待预测节点在其各个父节点的给定属性类别下的条件概率与预定权重的乘积。其中,业务数据中给定状态取值的父节点对应的权重为相应取值对应的条件概率。预定权重是针对待预测节点的采样结果设置的初始权重,例如为1。
仍以步骤302中包含节点A、B、C、D的条件关系网络为例,假设D节点的当前采样结果为0对应的属性类别,则其对应的置信度为:P(D=0|A=1,C=0)×预定权重。若该条件关系网络还包括节点E,节点D是节点E的唯一父节点,则节点E的当前采样结果为0时,其置信度可以为:P(D=0|A=1,C=0)×P(E=0|D=0)×预定权重。值得说明的是,在采样过程中,可以按照条件关系网络中的连接边方向以从上到下的顺序进行,则针对各个待预测节点,其各个父节点都已经确定。对于对应到可以从待处理的业务数据中获取属性类别的各个节点,可以直接将相应属性类别作为输入。
在可选的实现方式中,可以对各个待预测节点的全部取值确定一个置信度,该置信度例如是由上而下遍历所有节点后,各个最后一级节点对应的置信度的乘积。例如上述的B、D、E为待预测节点的例子中,得到各个待预测节点的多个完整采样结果为:
Figure BDA0002383140080000231
其中,前三列分别对应待预测节点B、D、E的采样结果,每行对应一次采样,最后一列对应的是采样结果的置信度。
通过步骤302和步骤303,可以通过分布式方式实现针对待预测节点的采样,使得数据处理量较大的通过条件关系网络预测业务状态的属性类别的业务处理可以实现,克服条件关系网络的数据量瓶颈问题。
进一步地,可以在步骤304,基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
在一个实施例中,对于一个待预测节点,可以将在各个采样结果中出现频次最高的属性类别确定为其对应的属性类别。例如步骤303中的示例中,待预测节点B的属性类别为状态值1对应的属性类别。
在另一个实施例中,可以将对应的置信度最大的采样结果对应的属性类别确定为相应待预测节点的当前属性类别。
在另一个实施例中,对于一个待预测节点,可以基于各个采样结果,确定该预测节点在各个候选属性类别上的概率分布,之后选择该概率分布中满足预定概率条件的属性类别作为该预测节点的当前属性类别。预定概率条件例如是在该概率分布对应最大概率值和/或对应的概率值大于预定阈值,等等。
例如步骤303中的示例中,节点B在各个候选属性类别上的概率分布可以为:
P(B=1)=(0.1+0.4+0.3)/(0.1+0.2+0.3+0.4)=0.8
P(B=0)=(0.2)/(0.1+0.2+0.3+0.4)=0.2;
节点D在各个候选属性类别上的概率分布可以为:
P(D=1)=0.2/(0.1+0.2+0.3+0.4)=0.2
P(D=0)=(0.1+0.3+0.4)/(0.1+0.2+0.3+0.4)=0.8;
节点E在各个候选属性类别上的概率分布可以为:
P(E=1)=(0.1+0.3)/(0.1+0.2+0.3+0.4)=0.4
P(E=0)=(0.2+0.4)/(0.1+0.2+0.3+0.4)=0.6。
假设预定概率条件为对应概率分布中的最大概率值,则针对节点D和节点E预测的状态值分别取0,他们的属性类别分别为各自的状态值0对应的属性类别,针对节点B预测的状态值取1,其属性类别为状态值1对应的属性类别。
在更多实施例中,还可以采用其他方式基于各个采样结果,确定各个待预测节点分别对应的各个属性类别,在此不再赘述。
回顾以上过程,在构建条件关系网络过程中,以各个业务状态的属性类别的联合概率分布为基础,在更新初始关系网络中的连接边时,拆分出多个局部网络进行分布式数据处理,使得单个任务处理的数据仅包括联合概率分布数据及以一个节点为基准的局部网络数据,这种构思大大减小了单任务的数据处理量,同时,增强条件关系网络的数据扩容能力。进一步地,在利用条件关系网络进行业务数据处理过程中,也基于分布式数据处理的构思,针对待预测节点进行属性类别采样的多个子任务,将各个子任务分发给多个分布式设备进行处理,大大减少单个子任务的数据处理量。总之,本说明书提供的实施例可以解决条件关系网络应用实践中的数据量瓶颈问题。
根据另一方面的实施例,还提供一种构建条件关系网络的装置。其中的条件关系网络用于描述预定的多个业务状态之间的条件关系,包括与业务数据中的各个业务状态分别对应的各个节点,以及指示节点之间的条件关系的有向连接边,单个业务状态对应至少一个属性类别。图4示出根据一个实施例的构建条件关系网络的装置的示意性框图。如图4所示,用于构建条件关系网络的装置400包括:
统计单元41,配置为按照各个样本分别在多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布,各个样本分别对应各条样本业务数据;
拆分单元42,配置为基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备,从而使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益;
网络结构确定单元43,配置为依据从多个分布式设备获取的各个网络分数增益,迭代更新初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络;
概率分布确定单元44,配置为基于当前关系网络,以及联合概率分布,为当前关系网络确定各个节点分别对应的各个条件概率分布,从而得到多个业务状态对应的各个节点形成的条件关系网络,使得条件关系网络用于在给定的若干节点的当前属性类别情况下,预测其他节点的属性类别的业务处理,条件概率分布用于描述相应节点在其各个父节点对应的业务状态条件下,该相应节点的业务状态处于各个属性类别的概率。
根据一个实施方式,上述联合概率分布包括分别对应于多个业务状态上的各种属性类别组合的各个概率,单个属性类别组合是在多个业务状态上各取一个属性类别构成的组合;
统计单元41还可以配置为:
针对各种属性类别组合中的第一属性类别组合,生成第一统计任务;
将第一统计任务分发给第一分布式设备,以供第一分布式设备统计对应于第一属性类别组合的第一样本的数量,并进行反馈;
将第一样本的数量或第一样本的数量与全体样本数量的比值,作为第一属性类别组合对应的概率。
在一个实施例中,单个业务状态下的各个属性类别分别通过与单个业务状态对应的单个节点上的各个状态值描述。
在一个实施例中,预定方式包括,在各个节点间随机添加预定数量的有向连接边,多个业务状态包括第一业务状态,第一业务状态对应第一节点,拆分单元42进一步配置为:
从初始关系网络中确定出第一节点及其父节点构成的局部网络,作为以第一节点为基准拆分出的第一局部网络。
根据一个实施方式,网络结构确定单元43还可以配置为:
将最大网络分数增益对应的局部网络的条件关系变化项,更新到初始关系网络,得到中间关系网络;
针对中间关系网络确定各个候选条件变更项,以及各个候选条件变更项分别对应的各个网络分数增益,其中,在单个候选条件变更项与多个分布式设备反馈的局部网络的条件关系变化项一致的情况下,将相应的局部网络的条件关系变化项的网络分数增益,作为该单个候选条件变更项的网络分数增益,在单个候选条件变更项与多个分布式设备反馈的局部网络的条件关系变化项不一致的情况下,通过在中间关系网络添加该单个候选条件变更项后的关系网络与当前的中间关系网络相比确定相应的网络分数增益;
利用使得网络分数增益最大的候选条件变更项更新该中间关系网络。
在一个实施例中,预定增益条件为,网络分数增益为正。
在一个进一步的实施例中,网络结构确定单元43还可以配置为:
将针对迭代更新初始关系网络中的条件关系后得到的中间关系网络,与基于通过其他预定方式初始化各个节点间的条件关系得到的若干其他初始关系网络,经迭代更新条件关系后得到的若干其他中间关系网络进行比较;
选择网络分数最高的中间关系网络作为当前关系网络。
根据一个可能的设计,多个业务状态包括第二业务状态,第二业务状态对应第二节点,第二节点的各个父节点对应有第二属性类别组合,第二节点对应的条件概率分布包括,在第二属性类别组合下,第二节点分别对应到第二业务状态的各个属性类别的各个概率。
值得说明的是,图4所示的装置400是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置400,在此不再赘述。
根据另一方面的实施例,还提供一种通过条件关系网络预测业务状态的属性类别的条件业务处理的装置。其中的条件关系网络可以通过图4示出的装置400确定。图5示出根据一个实施例的通过条件关系网络预测业务状态的属性类别的条件业务处理装置的示意性框图。如图5所示,装置500包括:
获取单元51,配置为从待处理的业务数据中获取若干个业务状态分别对应的各个属性类别;
生成单元52,配置为将条件关系网络中,与若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务;
分发单元53,配置为将各个子任务分发给多个分布式设备,以供各个分布式设备依据条件关系网络及与若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样;
确定单元54,配置为基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
在一个实施例中,待预测节点包括第一待预测节点,第一待预测节点的采样结果为,按照第一待预测节点的各个父节点的属性类别,在其对应的条件概率分布下的采样结果。
在一个进一步的实施例中,第一待预测节点的采样结果包括第一采样结果,第一采样结果对应有第一置信度,第一置信度为第一预测节点在各个父节点的给定属性类别下的条件概率与预定权重的乘积,预定权重是第一采样结果的初始权重。
根据一个可能的设计,确定单元54进一步可以配置为:
基于各个采样结果,确定第一预测节点在各个候选属性类别上的概率分布,其中,概率分布包括第一待预测节点的预测属性类别为第一属性类别的第一概率,第一概率为:第一待预测节点的属性类别为第一属性类别的采样结果的置信度之和,与各个采样结果的置信度之和的比值;
在第一概率满足预定概率条件的情况下,确定第一预测节点的当前属性类别为第一属性类别。
值得说明的是,图5所示的装置500是与图3示出的方法实施例相对应的装置实施例,图3示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

Claims (16)

1.一种构建条件关系网络的方法,所述条件关系网络用于描述预定的多个业务状态之间的条件关系,包括与业务数据中的各个业务状态分别对应的各个节点,以及指示节点之间的条件关系的有向连接边,单个业务状态对应至少一个属性类别;
所述方法包括:
按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布,各个样本分别对应各条样本业务数据;
基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备,从而使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于所述联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益;
依据从所述多个分布式设备获取的各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络;
基于所述当前关系网络,以及所述联合概率分布,为所述当前关系网络确定各个节点分别对应的各个条件概率分布,从而得到所述多个业务状态对应的各个节点形成的条件关系网络,使得所述条件关系网络用于在给定的若干节点的当前属性类别情况下,预测其他节点的属性类别的业务处理,所述条件概率分布用于描述相应节点在其各个父节点对应的业务状态条件下,该相应节点的业务状态为各个属性类别的概率。
2.根据权利要求1所述的方法,其中,所述联合概率分布包括分别对应于所述多个业务状态上的各种属性类别组合的各个概率,单个属性类别组合是在所述多个业务状态上各取一个属性类别构成的组合;
所述按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布包括:
针对各种属性类别组合中的第一属性类别组合,生成第一统计任务;
将所述第一统计任务分发给第一分布式设备,以供所述第一分布式设备统计对应于所述第一属性类别组合的第一样本的数量,并进行反馈;
将所述第一样本的数量或所述第一样本的数量与全体样本数量的比值,作为所述第一属性类别组合对应的概率。
3.根据权利要求1所述的方法,单个业务状态下的各个属性类别分别通过与所述单个业务状态对应的单个节点上的各个状态值描述。
4.根据权利要求1所述的方法,其中,所述预定方式包括,在各个节点间随机添加预定数量的有向连接边,所述多个业务状态包括第一业务状态,所述第一业务状态对应第一节点,所述基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络包括:
从所述初始关系网络中确定出所述第一节点及其父节点构成的局部网络,作为以所述第一节点为基准拆分出的第一局部网络。
5.根据权利要求1所述的方法,其中,所述依据各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,包括:
将最大网络分数增益对应的局部网络的条件关系变化项,更新到所述初始关系网络,得到中间关系网络;
针对中间关系网络确定各个候选条件变更项,以及各个候选条件变更项分别对应的各个网络分数增益,其中,在单个候选条件变更项与所述多个分布式设备反馈的局部网络的条件关系变化项一致的情况下,将相应的局部网络的条件关系变化项的网络分数增益,作为该单个候选条件变更项的网络分数增益,在单个候选条件变更项与所述多个分布式设备反馈的局部网络的条件关系变化项不一致的情况下,通过在中间关系网络添加该单个候选条件变更项后的关系网络与当前的中间关系网络相比确定相应的网络分数增益;
利用使得网络分数增益最大的候选条件变更项更新该中间关系网络。
6.根据权利要求1或5所述的方法,所述预定增益条件为,网络分数增益为正。
7.根据权利要求5所述的方法,其中,所述依据各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络包括:
将针对迭代更新所述初始关系网络中的条件关系后得到的中间关系网络,与基于通过其他预定方式初始化各个节点间的条件关系得到的若干其他初始关系网络,经迭代更新条件关系后得到的若干其他中间关系网络进行比较;
选择网络分数最高的中间关系网络作为当前关系网络。
8.根据权利要求1所述的方法,其中,所述多个业务状态包括第二业务状态,所述第二业务状态对应第二节点,所述第二节点的各个父节点对应有第二属性类别组合,所述第二节点对应的条件概率分布包括,在所述第二属性类别组合下,所述第二节点分别对应到所述第二业务状态的各个属性类别的各个概率。
9.一种通过条件关系网络预测业务状态的属性类别的条件业务处理方法,所述条件关系网络通过权利要求1所述的方式确定,所述方法包括:
从待处理的业务数据中获取若干个业务状态分别对应的各个属性类别;
将所述条件关系网络中,与所述若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务;
将各个子任务分发给多个分布式设备,以供各个分布式设备依据所述条件关系网络及与所述若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样;
基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
10.根据权利要求9所述的方法,其中,所述待预测节点包括第一待预测节点,所述第一待预测节点的采样结果为,按照所述第一待预测节点的各个父节点的属性类别,在其对应的条件概率分布下的采样结果。
11.根据权利要求10所述的方法,其中,所述第一待预测节点的采样结果包括第一采样结果,所述第一采样结果对应有第一置信度,所述第一置信度为所述第一预测节点在各个父节点的给定属性类别下的条件概率与预定权重的乘积,所述预定权重是所述第一采样结果的初始权重。
12.根据权利要求10所述的方法,所述第一待预测节点对应的属性类别包括第一属性类别,所述基于各个采样结果,确定各个待预测节点分别对应的各个属性类别包括:
基于各个采样结果,确定所述第一预测节点在各个候选属性类别上的概率分布,其中,所述概率分布包括所述第一待预测节点的预测属性类别为所述第一属性类别的第一概率,所述第一概率为:所述第一待预测节点的属性类别为所述第一属性类别的采样结果的置信度之和,与各个采样结果的置信度之和的比值;
在所述第一概率满足预定概率条件的情况下,确定所述第一预测节点的当前属性类别为所述第一属性类别。
13.一种构建条件关系网络的装置,所述条件关系网络用于描述预定的多个业务状态之间的条件关系,包括与业务数据中的各个业务状态分别对应的各个节点,以及指示节点之间的条件关系的有向连接边,单个业务状态对应至少一个属性类别;
所述装置包括:
统计单元,配置为按照各个样本分别在所述多个业务状态上的属性类别,确定各个业务状态的属性类别的联合概率分布,各个样本分别对应各条样本业务数据;
拆分单元,配置为基于通过预定方式初始化各个节点间的条件关系得到的初始关系网络,分别以各个节点为基准拆分出各个局部网络,并针对各个局部网络分别生成各个条件关系改变任务,以分发给多个分布式设备,从而使得单个分布式设备在接收到相应局部网络的条件改变任务后,基于所述联合概率分布,在改变该相应局部网络的条件关系的情况下,得到改变条件关系后的局部网络与初始的局部网络相比的网络分数增益;
网络结构确定单元,配置为依据从所述多个分布式设备获取的各个网络分数增益,迭代更新所述初始关系网络中的条件关系,直至不存在满足预定增益条件的网络分数增益,得到当前关系网络;
概率分布确定单元,配置为基于所述当前关系网络,以及所述联合概率分布,为所述当前关系网络确定各个节点分别对应的各个条件概率分布,从而得到所述多个业务状态对应的各个节点形成的条件关系网络,使得所述条件关系网络用于在给定的若干节点的当前属性类别情况下,预测其他节点的属性类别的业务处理,所述条件概率分布用于描述相应节点在其各个父节点对应的业务状态条件下,该相应节点的业务状态处于各个属性类别的概率。
14.一种通过条件关系网络预测业务状态的属性类别的条件业务处理装置,所述条件关系网络通过权利要求13所述的装置确定,所述业务处理装置包括:
获取单元,配置为从待处理的业务数据中获取若干个业务状态分别对应的各个属性类别;
生成单元,配置为将所述条件关系网络中,与所述若干个业务状态对应的各个节点以外的其他节点作为待预测节点,并生成针对待预测节点进行属性类别采样的多个子任务;
分发单元,配置为将各个子任务分发给多个分布式设备,以供各个分布式设备依据所述条件关系网络及与所述若干个业务状态分别对应的各个属性类别,对至少一个待预测节点进行属性类别采样;
确定单元,配置为基于各个采样结果,确定各个待预测节点分别对应的各个属性类别。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项的所述的方法。
16.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。
CN202010089190.4A 2020-02-12 2020-02-12 构建条件关系网络、进行条件业务处理的方法及装置 Active CN111325254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089190.4A CN111325254B (zh) 2020-02-12 2020-02-12 构建条件关系网络、进行条件业务处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089190.4A CN111325254B (zh) 2020-02-12 2020-02-12 构建条件关系网络、进行条件业务处理的方法及装置

Publications (2)

Publication Number Publication Date
CN111325254A true CN111325254A (zh) 2020-06-23
CN111325254B CN111325254B (zh) 2022-06-28

Family

ID=71172726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089190.4A Active CN111325254B (zh) 2020-02-12 2020-02-12 构建条件关系网络、进行条件业务处理的方法及装置

Country Status (1)

Country Link
CN (1) CN111325254B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723872A (zh) * 2020-06-24 2020-09-29 浙江大华技术股份有限公司 行人属性识别方法及装置、存储介质、电子装置
CN113256275A (zh) * 2021-07-14 2021-08-13 支付宝(杭州)信息技术有限公司 专家***的更新方法、业务处理方法及装置
WO2023054112A1 (ja) * 2021-10-01 2023-04-06 株式会社日立製作所 走行パターン生成装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071846A (zh) * 2017-04-01 2017-08-18 西安邮电大学 Ad Hoc单向链路网络无中心分布式快速共识方法
CN107103000A (zh) * 2016-02-23 2017-08-29 广州启法信息科技有限公司 一种基于关联规则与贝叶斯网络集成的推荐技术
US20170372212A1 (en) * 2016-06-28 2017-12-28 Ca, Inc. Model based root cause analysis
CN108512765A (zh) * 2017-02-28 2018-09-07 中国科学院声学研究所 一种基于网络节点分布式Pagerank的网络内容扩散方法
US10445170B1 (en) * 2018-11-21 2019-10-15 Fmr Llc Data lineage identification and change impact prediction in a distributed computing environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103000A (zh) * 2016-02-23 2017-08-29 广州启法信息科技有限公司 一种基于关联规则与贝叶斯网络集成的推荐技术
US20170372212A1 (en) * 2016-06-28 2017-12-28 Ca, Inc. Model based root cause analysis
CN108512765A (zh) * 2017-02-28 2018-09-07 中国科学院声学研究所 一种基于网络节点分布式Pagerank的网络内容扩散方法
CN107071846A (zh) * 2017-04-01 2017-08-18 西安邮电大学 Ad Hoc单向链路网络无中心分布式快速共识方法
US10445170B1 (en) * 2018-11-21 2019-10-15 Fmr Llc Data lineage identification and change impact prediction in a distributed computing environment

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAO, XF,ET.AL: "U-2-Tree: A Universal Two-Layer Distributed Indexing Scheme for Cloud Storage System", 《IEEE-ACM TRANSACTIONS ON NETWORKING》 *
曾诗钦: "区块链技术研究综述:原理、进展与应用", 《区块链技术研究综述:原理、进展与应用 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723872A (zh) * 2020-06-24 2020-09-29 浙江大华技术股份有限公司 行人属性识别方法及装置、存储介质、电子装置
CN111723872B (zh) * 2020-06-24 2023-04-07 浙江大华技术股份有限公司 行人属性识别方法及装置、存储介质、电子装置
CN113256275A (zh) * 2021-07-14 2021-08-13 支付宝(杭州)信息技术有限公司 专家***的更新方法、业务处理方法及装置
CN113256275B (zh) * 2021-07-14 2021-11-02 支付宝(杭州)信息技术有限公司 专家***的更新方法、业务处理方法及装置
WO2023054112A1 (ja) * 2021-10-01 2023-04-06 株式会社日立製作所 走行パターン生成装置

Also Published As

Publication number Publication date
CN111325254B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
CN111325254B (zh) 构建条件关系网络、进行条件业务处理的方法及装置
US20220076150A1 (en) Method, apparatus and system for estimating causality among observed variables
US10218808B2 (en) Scripting distributed, parallel programs
JP7392668B2 (ja) データ処理方法および電子機器
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
CN112765477B (zh) 信息处理、信息推荐的方法和装置、电子设备和存储介质
US11797885B2 (en) Optimizations for machine learning data processing pipeline
CN113010547B (zh) 一种基于图神经网络的数据库查询优化方法及***
CN103513983A (zh) 用于预测性警报阈值确定工具的方法和***
US11334758B2 (en) Method and apparatus of data processing using multiple types of non-linear combination processing
US10963802B1 (en) Distributed decision variable tuning system for machine learning
CN111538766B (zh) 一种文本分类方法、装置、处理设备和票据分类***
CN112181659B (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
Ahmad 40 Algorithms Every Programmer Should Know: Hone your problem-solving skills by learning different algorithms and their implementation in Python
CN113268485B (zh) 数据表关联分析方法、装置、设备及存储介质
US20200175022A1 (en) Data retrieval
US11977993B2 (en) Data source correlation techniques for machine learning and convolutional neural models
JP6375210B2 (ja) モデル構築装置及びプログラム
CN115794586A (zh) 云服务器软件老化预测方法、装置、设备和介质
CN116304518A (zh) 用于信息推荐的异质图卷积神经网络模型构建方法及***
CN116089886A (zh) 信息处理方法、装置、设备及存储介质
US20230162518A1 (en) Systems for Generating Indications of Relationships between Electronic Documents
CN111897832B (zh) 模型部署方法、设备及可读存储介质
CN114329231A (zh) 对象特征处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant