CN105373894A - 基于稽查数据的电力营销业务诊断模型的建立方法及*** - Google Patents

基于稽查数据的电力营销业务诊断模型的建立方法及*** Download PDF

Info

Publication number
CN105373894A
CN105373894A CN201510817672.6A CN201510817672A CN105373894A CN 105373894 A CN105373894 A CN 105373894A CN 201510817672 A CN201510817672 A CN 201510817672A CN 105373894 A CN105373894 A CN 105373894A
Authority
CN
China
Prior art keywords
abnormal
information
diagnostic model
power marketing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510817672.6A
Other languages
English (en)
Inventor
吴峰
武华
余飞鸥
吕浩晖
刘飞
潘炜
伍笑颜
陈碧仪
陈敬红
吴疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201510817672.6A priority Critical patent/CN105373894A/zh
Publication of CN105373894A publication Critical patent/CN105373894A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于稽查数据的电力营销业务诊断模型的建立方法及***,根据采集条件采集异常数据信息;对所述异常数据信息进行体检分析确定关联规则;根据所述关联规则建立专家样本库;根据所述专家样本库,建立稽查异常的诊断模型。上述基于稽查数据的电力营销业务诊断模型的建立方法及***,首先根据采集条件采集异常数据信息,然后对所述异常数据信息进行体检分析确定关联规则,进而根据所述关联规则建立专家样本库,最后根据所述专家样本库,建立稽查异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持。

Description

基于稽查数据的电力营销业务诊断模型的建立方法及***
技术领域
本发明涉及电力营销监控***领域,尤其涉及一种基于稽查数据的电力营销业务诊断模型的建立方法及***。
背景技术
电力营销稽查是供电企业按照国家法律法规和企业规章制度,对电力营销工作质量和服务质量的全过程核查、管理和监督。营销稽查监控是依据国家有关政策、法律、法规和供电企业营销相关的规章制度和管理规定,对供电企业从事电力营销工作的单位和人员,在电力营销过程中的行为进行监督和检查。
为了进行电力营销稽查工作,全面提升电力营销***信息化建设的水平和应用效能,需要结合监控与稽查的异常信息,开展多维分析和深度挖掘;搭建一套完善的电力营销稽查诊断模型,把“死数据”变成支持营销决策的有用信息。从而,提高对营销稽查历史数据的管理水平,为营销稽查提供有力的决策支持;对历史稽查数据中稽查对象之间的关联关系进行数据挖掘,得到合理的规则,为营销管理决策提供依据,全面防范营销风险,提升营销运作能力、客户服务能力及管理控制能力,对稽查人员开展稽查工作有一定的指导意义。
发明内容
基于此,有必要提供一种建立为电力营销稽查工作提供支持的诊断模型的方法及***。
一种基于稽查数据的电力营销业务诊断模型的建立方法,包括步骤:
根据采集条件采集异常数据信息;
对所述异常数据信息进行体检分析确定关联规则;
根据所述关联规则建立专家样本库;
根据所述专家样本库,建立稽查异常的诊断模型。
上述基于稽查数据的电力营销业务诊断模型的建立方法,首先根据采集条件采集异常数据信息,然后对所述异常数据信息进行体检分析确定关联规则,进而根据所述关联规则建立专家样本库,最后根据所述专家样本库,建立稽查异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持。
一种基于稽查数据的电力营销业务诊断模型的建立***,包括:
异常采集模块,用于根据采集条件采集异常数据信息;
规则确定模块,用于对所述异常数据信息进行体检分析确定关联规则;
样本确定模块,用于根据所述关联规则建立专家样本库;
模型建立模块,用于根据所述专家样本库,建立稽查异常的诊断模型。
上述基于稽查数据的电力营销业务诊断模型的建立***,异常采集模块首先根据采集条件采集异常数据信息,然后规则确定模块对所述异常数据信息进行体检分析确定关联规则,进而样本确定模块根据所述关联规则建立专家样本库,最后模型建立模块根据所述专家样本库,建立稽查异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持。
附图说明
图1为一种实施方式的基于稽查数据的电力营销业务诊断模型的建立方法的流程图;
图2为另一种实施方式的基于稽查数据的电力营销业务诊断模型的建立方法的流程图;
图3为图1的一个步骤的具体流程图;
图4为图1的另一个步骤的具体流程图;
图5为一种实施方式的基于稽查数据的电力营销业务诊断模型的建立***的结构图;
图6为另一种实施方式的基于稽查数据的电力营销业务诊断模型的建立***的结构图;
图7为图5的一个模块的单元结构图;
图8为图5的另一个模块的单元结构图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,一种基于稽查数据的电力营销业务诊断模型的建立方法,包括步骤:
S100:根据采集条件采集异常数据信息。
采集条件可以为用户自定义的查询条件,也可以为实现该基于稽查数据的电力营销业务诊断模型的建立方法的***预设好的查询条件。异常数据信息为现有监查平台中对电力营销数据进行稽查时,发现的历史电力营销异常数据。
在其中一个实施例中,所述根据采集条件采集异常数据信息的步骤之前,还包括步骤:获取用户自定义的采集条件。
S200:对所述异常数据信息进行体检分析确定关联规则。
S300:根据所述关联规则建立专家样本库。
S400:根据所述专家样本库,建立稽查异常的诊断模型。
如此,可以充分利用历史的异常数据信息,将其变成支持营销决策的有用信息,建立可以稽查异常的诊断模型。通过诊断模型,诊断监控的实时或历史电力营销数据,对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持;对诊断到的容易出现异常的业务以及疑难客户进行进重点跟踪。
上述基于稽查数据的电力营销业务诊断模型的建立方法,首先根据采集条件采集异常数据信息,然后对所述异常数据信息进行体检分析确定关联规则,进而根据所述关联规则建立专家样本库,最后根据所述专家样本库,建立稽查异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持。
为了进一步提高诊断模型的准确性,在其中一个实施例中,如图2所示,步骤S400之后,还包括步骤:
S500:通过所述诊断模型对实时监控的实时异常信息进行诊断,确定诊断异常类型及诊断异常程度。
诊断异常类型及诊断异常程度组成诊断结果,通过诊断模型诊断得到的诊断异常类型及诊断异常程度为模型诊断结果。
S600:接收所述诊断异常类型及所述诊断异常程度是否准确的诊断结果判定信息。
诊断结果判定信息通常可以由人工判定,并输入到实现该基于稽查数据的电力营销业务诊断模型的建立方法的***中。具体地,诊断结果判定信息具体根据人工诊断结果与模型诊断结果是否一致进行判定。在本实施例中,认定其人工诊断结果为准确的判定。
通过人工诊断得到的诊断异常类型及诊断异常程度为人工诊断结果。
可以通过多人次判定的方式,提高人工诊断的准确性,从而提高诊断结果判定信息的准确性,最终提高诊断模型的准确性。
S700:根据所述诊断结果判定信息更新异常数据信息,并更新关联规则、专家样本库及诊断模型。
当诊断结果判定信息为人工判定结果与模型判定结果一致时,说明诊断模型判定准确,不需要重新建立,保持诊断模型不变。
当诊断结果判定信息为人工判定结果与模型判定结果不一致时,说明诊断模型判定不够准确,需要重新建立,因此,重新更新关联规则、专家样本库及诊断模型。
如图3所示,在其中一个实施例中,步骤S200,具体包括:
S210:根据所述异常数据信息确定异常数据信息项集间的支持度和置信度。
记具有n列不同属性的的异常数据信息为n异常信息项集,即n异常信息项集包括异常数据信息中的n个不同属性的属性值。原异常数据信息具有的属性不少于n列。n异常信息项集的表达形式为:{A1,A2,…,An-1,An},即异常数据信息项集的第一列属性值为A1,第二列属性值为A2,…….,第n-1项属性值为An-1,第n项属性值为An,n异常信息项集支持度为:
S u p p o r t ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n )
其中,
n异常信息项集{A1,A2,…,An-1,An}的置信度为:
C o n f i d e n c e ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 )
P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n ) P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) .
S220:根据所述支持度和所述置信度确定最小支持度和最小置信度。
将最小的支持度和最小的置信度作为一个衡量所有支持度和所有置信度的一个阈值,分别表示异常数据信息项集在统计意义上的最低重要性和最低可靠性。
S230:根据所述最小支持度确定最大异常信息频繁项集。
通过最小支持度,找出所有异常信息频繁项集,即支持度必须大于等于最小支持度阈值的异常信息项集为异常信息频繁项集。
在本实施例中,根据计算所得的最小支持度阈值,对异常数据信息进行连接操作,即分别对1项候选异常信息项集C1,剔除小于该阈值的异常信息项集得到1项异常信息频繁项集L1;下一步由L1自身连接产生2项候选异常信息项集C2,保留C2中满足约束条件的异常信息项集得到2项异常信息频繁项集,记为L2;再下一步由L2与L1连接产生3项候选异常信息项集C3,保留C2中满足约束条件的异常信息项集得到3项异常信息频繁项集,记为L3,这样循环下去,得到最大异常信息频繁项集Lk
在其中一个实施例中,在对异常数据信息进行连接操作时,还进行剪枝操作,在产生候选异常信息项集Ck的过程中起到减小搜索空间的目的。由于候选异常信息项集Ck是异常信息频繁项集Lk-1与L1连接产生的,根据Apriori的性质异常信息频繁项集的所有非空异常信息项集也必须是异常信息频繁项集,所以不满足该性质的项集将不会存在于候选异常信息项集Ck中,该过程就是剪枝。
S240:根据所述最大频繁异常信息项集确定待定关联规则。
最大异常信息频繁项集Lk满足最小支持度阈值,因此可以通过最大异常信息频繁项集Lk,确定待定关联规则。
S250:根据所述待定关联规则及所述最小置信度确定所述关联规则。
在步骤S230中,未超过最小支持度阈值的异常信息项集已被剔除,将待定关联规则中能够满足最小置信度阈值的规则,确定为关联规则,即是同时满足最小支持度阈值和最小置信度阈值的规则。
在其中一个实施例中,采用ID3算法,以专家样本库中每列异常属性的信息熵的下降速度作为构造决策树模型选取节点顺序的标准,直到生成的决策树模型能完美分类训练样例。所述专家样本库中的异常属性为根据所述关联规则确定的异常数据信息项集所分别包含的属性值所对应的属性。
具体地,如图4所示,步骤S400包括:
S410:获取所述专家样本库的每列异常属性,分别根据每列所述异常属性的异常属性值进行异常分类,并进行统计,根据统计结果确定每列异常属性的信息增益值。
在其中一个实施例中,所述专家样本库的异常属性为根据所述关联规则确定的满足最小支持度阈值的最大异常信息频繁项集所包含的属性值所对应的属性。
专家样本库包括多条异常数据信息记录,每条异常数据信息记录包括若干列异常属性。
(一)假设一列异常属性A中有t个不相关的异常属性值A1,A2,…,At,即t个不相关的异常类别信息A1,A2,…,At,则他们的平均信息量,即异常属性A的平均信息量,为:
I ( A 1 , A 2 , ... , A t ) = Σ j = 1 t I ( A j ) = Σ j = 1 t p ( A j ) log 2 1 p ( A j ) ,
其中,p(Aj)是异常属性A的取值为Aj发生的概率。
(二)假设S是专家样本库,即所有根据关联规则确定的异常数据信息的样本集合,|S|是异常数据信息样本集合的样本数。根据每列异常属性的异常属性值将异常数据信息样本划分为m个不同的异常信息类别C1,C2,…,Cm,这些信息类别的大小,即属性值分别为C1,C2,…,Cm的异常数据信息记录的条数,分别标记为|C1|,|C2|,…,|Cm|,那么专家样本库S是Cj类的概率为:
p ( S j ) = | C j | | S | .
异常属性A具有若干个异常属性值,分别取其中一个异常属性值为v的样本子集,记做Sv。在选择异常属性A后的分支节点上,确定该节点的样本子集Sv的熵为E(Sv)。为了得到异常属性A导致的期望熵值,计算每个样本子集Sv的熵的加权和,其权值是属于样本子集Sv在专家样本库S中所占有的比例p(Sv),即|Sv|/|S|。因此异常属性A的平均信息期望熵为:
E(S,A)=Σp(Sv)·E(Sv);即,E(S,A)=Σ(|Sv|/|S|)·E(Sv)。
那么,异常属性A对于专家样本库S的信息增益值G(S,A)为:
G(S,A)=E(S)-E(S,A);
E(S)等于异常属性A的平均信息量I(A1,A2,…,At)。
如此,确定每一个异常属性对于专家样本库S的信息增益值。
S430:根据所述信息增益值确定所述每列异常属性在所述决策树模型中的节点位置。
信息增益值G(S,A)越大,说明异常属性A对分类提供的信息越多,故选择信息增益值G(S,A)最大的属性作为决策树模型的根节点,以此将信息增益值递减而往下分级,最终至异常类别为叶节点,形成完整的决策树模型。
如图5所示,一种基于稽查数据的电力营销业务诊断模型的建立***,包括:
异常采集模块100,用于根据采集条件采集异常数据信息。
采集条件可以为用户自定义的查询条件,也可以为基于稽查数据的电力营销业务诊断模型的建立***预设好的查询条件。异常数据信息为现有监查平台中对电力营销数据进行稽查时,发现的历史电力营销异常数据。
在其中一个实施例中,所述***,还包括:
条件获取模块(图未示),用于获取用户自定义的采集条件。
规则确定模块200,用于对所述异常数据信息进行体检分析确定关联规则。
样本确定模块300,用于根据所述关联规则建立专家样本库。
模型建立模块400,用于根据所述专家样本库,建立稽查异常的诊断模型。
如此,可以充分利用历史的异常数据信息,将其变成支持营销决策的有用信息,建立可以稽查异常的诊断模型。通过诊断模型,诊断监控的实时或历史电力营销数据,对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持;对诊断到的容易出现异常的业务以及疑难客户进行进重点跟踪。
上述基于稽查数据的电力营销业务诊断模型的建立***,异常采集模块100首先根据采集条件采集异常数据信息,然后规则确定模块200对所述异常数据信息进行体检分析确定关联规则,进而样本确定模块300根据所述关联规则建立专家样本库,最后模型建立模块400根据所述专家样本库,建立稽查异常的诊断模型。从而可以对电力营销数据中的异常进行异常类型及异常程度的诊断,为电力营销稽查工作提供支持。
为了进一步提高诊断模型的准确性,在其中一个实施例中,如图6所示,基于稽查数据的电力营销业务诊断模型的建立***,还可以包括:
模型诊断模块500,用于通过所述诊断模型对实时监控的实时异常信息进行诊断,确定诊断异常类型及诊断异常程度。
诊断异常类型及诊断异常程度组成诊断结果,通过模型诊断得到的诊断异常类型及诊断异常程度为模型诊断结果。
结果接收模块600,用于接收所述诊断异常类型及所述诊断异常程度是否准确的诊断结果判定信息。
诊断结果判定信息通常可以由人工判定,并输入到基于稽查数据的电力营销业务诊断模型的建立***中。具体地,诊断结果判定信息具体根据人工诊断结果与模型诊断结果是否一致进行判定。在本实施例中,认定其人工诊断结果为准确的判定。
通过人工诊断得到的诊断异常类型及诊断异常程度为人工诊断结果。
可以通过多人次判定的方式,提高人工诊断的准确性,从而提高诊断结果判定信息的准确性,最终提高诊断模型的准确性。
模型更新模块700,用于根据所述诊断结果判定信息更新异常数据信息,并更新关联规则、专家样本库及诊断模型。
当诊断结果判定信息为人工判定结果与模型判定结果一致时,说明诊断模型判定准确,不需要重新建立,保持诊断模型不变。
当诊断结果判定信息为人工判定结果与模型判定结果不一致时,说明诊断模型判定不够准确,需要重新建立,因此,重新更新关联规则、专家样本库及诊断模型。
如图7所示,在其中一个实施例中,规则确定模块200,具体包括:
特征确定单元210,用于根据所述异常数据信息确定异常数据信息项集间的支持度和置信度。
记具有n列属性的异常数据信息为n异常信息项集,即n异常信息项集包括异常数据信息的中的n个不同属性的属性值。原异常数据信息具有的属性不少于n列。n异常信息项集的表达形式为:{A1,A2,…,An-1,An},即异常数据信息项集的第一列属性值为A1,第二列属性值为A2,…….,第n-1项属性值为An-1,第n项属性值为An,n异常信息项集的支持度为:
S u p p o r t ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n )
其中,
n异常信息项集{A1,A2,…,An-1,An}的置信度为:
C o n f i d e n c e ( A 1 , A 2 , ... , A n - 1 ⇒ A n ) = P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 )
P ( A n | A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) = P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ∪ A n ) P ( A 1 ∪ A 2 ∪ ... ∪ A n - 1 ) .
最小特征确定单元220,用于根据所述支持度和所述置信度确定最小支持度和最小置信度。
将最小的支持度和最小的置信度作为一个衡量所有支持度和所有置信度的一个阈值,分别表示异常数据信息项集在统计意义上的最低重要性和最低可靠性。
频繁项集确定单元230,用于根据所述最小支持度确定最大异常信息频繁项集。
通过最小支持度,找出所有异常信息频繁项集,即支持度必须大于等于最小支持度阈值的异常信息项集为异常信息频繁项集。
在本实施例中,根据计算所得的最小支持度阈值,对异常数据信息进行连接操作,即分别对1项候选异常信息项集C1,剔除小于该阈值的异常信息项集得到1项异常信息频繁项集L1;下一步由L1自身连接产生2项候选异常信息项集C2,保留C2中满足约束条件的异常信息项集得到2项异常信息频繁项集,记为L2;再下一步由L2与L1连接产生3项候选异常信息项集C3,保留C2中满足约束条件的异常信息项集得到3项异常信息频繁项集,记为L3,这样循环下去,得到最大异常信息频繁项集Lk
在其中一个实施例中,在对异常数据信息进行连接操作时,还进行剪枝操作,在产生候选异常信息项集Ck的过程中起到减小搜索空间的目的。由于候选异常信息项集Ck是异常信息频繁项集Lk-1与L1连接产生的,根据Apriori的性质异常信息频繁项集的所有非空异常信息项集也必须是异常信息频繁项集,所以不满足该性质的项集将不会存在于候选异常信息项集Ck中,该过程就是剪枝。
待定规则确定单元240,用于根据所述最大频繁异常信息项集确定待定关联规则。
最大异常信息频繁项集Lk满足最小支持度阈值,因此可以通过最大异常信息频繁项集Lk,确定待定关联规则。
关联规则确定单元250,用于根据所述待定关联规则及所述最小置信度确定所述关联规则。
在频繁项集确定单元230中,未超过最小支持度阈值的异常信息项集已被剔除。关联规则确定单元250将待定关联规则中能够满足最小置信度阈值的规则,确定为关联规则。即关联规则,是同时满足最小支持度阈值和最小置信度阈值的规则。
在其中一个实施例中,采用ID3算法,以专家样本库中每列异常属性的信息熵的下降速度作为构造决策树模型选取节点顺序的标准,直到生成的决策树模型能完美分类训练样例。所述专家样本库中的异常属性为根据所述关联规则确定的异常数据信息项集所分别包含的属性值所对应的属性。
具体地,如图8所示,模型建立模块400包括:
增益确定单元410,用于获取所述专家样本库的每列所述异常属性,分别根据每列异常属性的异常属性值进行异常分类,并进行统计,根据统计结果确定每列异常属性的信息增益值。
在其中一个实施例中,所述专家样本库的异常属性为根据所述关联规则确定的满足最小支持度阈值的最大异常信息频繁项集所包含的属性值所对应的属性。
专家样本库包括多条异常数据信息记录,每条异常数据信息记录包括若干列异常属性。
(一)假设一列异常属性A中有t个不相关的异常属性值A1,A2,…,At,即t个不相关的异常类别信息A1,A2,…,At,则他们的平均信息量,即异常属性A的平均信息量,为:
I ( A 1 , A 2 , ... , A t ) = Σ j = 1 t I ( A j ) = Σ j = 1 t p ( A j ) log 2 1 p ( A j ) ,
其中,p(Aj)是异常属性A的取值为Aj发生的概率。
(二)假设S是专家样本库,即所有根据关联规则确定的异常数据信息的样本集合,|S|是异常数据信息样本集合的样本数。根据每列异常属性的异常属性值将异常数据信息样本划分为m个不同的异常信息类别C1,C2,…,Cm,这些信息类别的大小,即属性值分别为C1,C2,…,Cm的异常数据信息记录的条数,分别标记为|C1|,|C2|,…,|Cm|,那么专家样本库S是Cj类的概率为:
p ( S j ) = | C j | | S | .
异常属性A具有若干个异常属性值,分别取其中一个异常数属性值为v的样本子集,记做Sv。在选择异常属性A后的分支节点上,确定该节点的样本子集Sv的熵为E(Sv)。为了得到异常属性A导致的期望熵值,计算每个样本子集Sv的熵的加权和,其权值是属于样本子集Sv在专家样本库S中所占有的比例p(Sv),即|Sv|/|S|。因此异常属性A的平均信息期望熵为:
E(S,A)=Σp(Sv)·E(Sv);即,E(S,A)=Σ(|Sv|/|S|)·E(Sv)。
那么,异常属性A对于专家样本库S的信息增益值G(S,A)为:
G(S,A)=E(S)-E(S,A);
E(S)等于异常属性A的平均信息量I(A1,A2,…,At)。
如此,确定每一个异常属性对于专家样本库S的信息增益值。
节点确定单元430,用于根据所述信息增益值确定所述每列异常属性在所述决策树模型中的节点位置。
信息增益值G(S,A)越大,说明异常属性A对分类提供的信息越多,故选择信息增益值G(S,A)最大的属性作为决策树模型的根节点,以此将信息增益值递减而往下分级,最终至异常类别为叶节点,形成完整的决策树模型。
下面以广州白云区大用户用电异常的分类识别为例进行说明。
从自定义查询中采集异常情况相关数据信息如表1:
表1原始异常数据信息列表
由于抽样专业和抽样业务分别已确定是抄核收、当月抄表(核、收)业务,故对各异常数据信息项集进行关联度计算时不考虑这两项,而用户编号与总户号基本一致,故只计算用户编号。可以得到异常数据信息项集的支持度和置信度如下表2、表3:
表2各异常数据信息项集的支持度
表3各异常数据信息项集的置信度
由于没有研究意义,首先对支持度置信度都为0的异常数据信息项去除,然后从剩下的异常信息项中确定最小支持度和最小置信度分别为0.00008和0.00013,则由这最小支持度和最小置信度产生的具有关联规则的最大异常信息频繁项集后根据其关联规则构造出专家样本库部分数据如表4所示:
表4专家样本库
为了使实例计算简单易懂,现只以用电类别、抽样业务以及异常类别中的3705990和3705979为例来计算决策树模型的异常属性中异常类别的平均信息量:
分别统计各异常属性样本数如下表5:
表5异常属性样本数统计表
最终的异常属性中异常类别有两类结果:3705990和3705979,其样本数统计结果分别为A1,A2,则:
A1=641,A2=383;A=A1+A2=1024
计算分别属于每一类的概率为:
P 1 = 641 1024 = 0.626 ; P 2 = 383 1024 = 0.374
平均信息量为:
I(A1,A2)=I(641,383)=-P1·log2P1-P2·log2P2=0.9537
抽样业务大工业中,异常类别为3705990和3705979分别为A1=256,A2=0,则分别属于每一类的概率为:
P 1 = 256 256 = 1 ; P 2 = 0 256 = 0
平均信息量为:
I(S1,S2)=I(256,0)=-P1·log2P1-P2·log2P2=0
抽样业务住宅中,异常类别为3705990和3705979分别为A1=257,A2=127,则分别属于每一类的概率为:
P 1 = 257 384 ; P 2 = 127 384
平均信息量为:
I(S1,S2)=I(257,127)=-P1·log2P1-P2·log2P2=0.9157
抽样业务商业中,异常类别为3705990和3705979分别为A1=128,A2=256,则分别属于每一类的概率为:
P 1 = 128 384 ; P 2 = 256 384
平均信息量为:
I(S1,S2)=I(128,256)=-P1·log2P1-P2·log2P2=0.9183
抽样业务中各组所占比例分别:
大工业:256/1024=0.25;
住宅:384/1024=0.375;
商业:384/1024=0.375。
则用电类别的平均信息期望为:
E(用电类别)=0.375×0.9183+0.25×0+0.375×0.9157=0.6877
因此用电类别的信息增益值为:
G(用电类别)=0.9537-0.6877=0.266
如上计算得到每个异常属性的信息增益值,其中用电类别的增益值最大,故选择用电类别为根节点,内部节点为抽样业务,最后叶节点为异常类别。
抽取1000组样本数据做验证数据,由决策树模型诊断异常类别结果如下:
表6模型的自动诊断
这1000组数据中,异常类别被准确的预测的有782组,即该诊断模型的预测准确率达到了78.2%。具有较高精准性和实用性,根据该诊断模型识别出容易出现异常的业务以及疑难客户,进行重点的跟踪,从而及时发现异常并改进,可以节省人力、物力、财力,提高工作效率,为营销稽查工作提供坚实的技术支持。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出多个变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于稽查数据的电力营销业务诊断模型的建立方法,其特征在于,包括步骤:
根据采集条件采集异常数据信息;
对所述异常数据信息进行体检分析确定关联规则;
根据所述关联规则建立专家样本库;
根据所述专家样本库,建立稽查异常的诊断模型。
2.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方法,其特征在于,所述根据所述专家样本库,建立稽查异常的诊断模型的步骤之后,还包括步骤:
通过所述诊断模型对实时监控的实时异常信息进行诊断,确定诊断异常类型及诊断异常程度;
接收所述诊断异常类型及所述诊断异常程度是否准确的诊断结果判定信息;
根据所述诊断结果判定信息更新异常数据信息,并更新关联规则、专家样本库及诊断模型。
3.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方法,其特征在于,所述对所述异常数据信息进行体检分析确定关联规则的步骤,具体包括:
根据所述异常数据信息确定异常数据信息项集间的支持度和置信度;
根据所述支持度和所述置信度确定最小支持度和最小置信度;
根据所述最小支持度确定最大异常信息频繁项集;
根据所述最大异常信息频繁项集确定待定关联规则;
根据所述待定关联规则及所述最小置信度确定所述关联规则。
4.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方法,其特征在于,
所述诊断模型为决策树模型,所述根据所述专家样本库,建立稽查异常的诊断模型的步骤,具体包括:
获取所述专家样本库的每列异常属性,分别根据每列异常属性的异常属性值进行异常分类,并进行统计,根据统计结果确定每列异常属性的信息增益值;
根据所述信息增益值确定所述每列异常属性在所述决策树模型中的节点位置。
5.根据权利要求1所述的基于稽查数据的电力营销业务诊断模型的建立方法,其特征在于,所述根据采集条件采集异常数据信息的步骤之前,还包括步骤:获取用户自定义的采集条件。
6.一种基于稽查数据的电力营销业务诊断模型的建立***,其特征在于,包括:
异常采集模块,用于根据采集条件采集异常数据信息;
规则确定模块,用于对所述异常数据信息进行体检分析确定关联规则;
样本确定模块,用于根据所述关联规则建立专家样本库;
模型建立模块,用于根据所述专家样本库,建立稽查异常的诊断模型。
7.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立***,其特征在于,还包括:
模型诊断模块,用于通过所述诊断模型对实时监控的实时异常信息进行诊断,确定诊断异常类型及诊断异常程度;
结果接收模块,用于接收所述诊断异常类型及所述诊断异常程度是否准确的诊断结果判定信息;
模型更新模块,用于根据所述诊断结果判定信息更新异常数据信息,并更新关联规则、专家样本库及诊断模型。
8.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立***,其特征在于,所述规则确定模块,具体包括:
特征确定单元,用于根据所述异常数据信息确定异常数据间的支持度和置信度;
最小特征确定单元,用于根据所述支持度和所述置信度确定最小支持度和最小置信度;
频繁项集确定单元,用于根据所述最小支持度确定最大异常信息频繁项集;
待定规则确定单元,用于根据所述最大异常信息频繁项集确定待定关联规则;
关联规则确定单元,用于根据所述待定关联规则及所述最小置信度确定所述关联规则。
9.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立***,其特征在于,所述诊断模型为决策树模型,所述模型建立模块,具体包括:
增益确定单元,用于获取所述专家样本库的每列异常属性,分别根据每列异常属性的异常属性值进行异常分类,并进行统计,根据统计结果确定每列异常属性的信息增益值;
节点确定单元,用于根据所述信息增益值确定所述每列异常属性在所述决策树模型中的节点位置。
10.根据权利要求6所述的基于稽查数据的电力营销业务诊断模型的建立***,其特征在于,所述基于稽查数据的电力营销业务诊断模型的建立***,还包括:
条件获取模块,用于获取用户自定义的采集条件。
CN201510817672.6A 2015-11-20 2015-11-20 基于稽查数据的电力营销业务诊断模型的建立方法及*** Pending CN105373894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510817672.6A CN105373894A (zh) 2015-11-20 2015-11-20 基于稽查数据的电力营销业务诊断模型的建立方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510817672.6A CN105373894A (zh) 2015-11-20 2015-11-20 基于稽查数据的电力营销业务诊断模型的建立方法及***

Publications (1)

Publication Number Publication Date
CN105373894A true CN105373894A (zh) 2016-03-02

Family

ID=55376073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510817672.6A Pending CN105373894A (zh) 2015-11-20 2015-11-20 基于稽查数据的电力营销业务诊断模型的建立方法及***

Country Status (1)

Country Link
CN (1) CN105373894A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802916A (zh) * 2016-12-09 2017-06-06 国网北京市电力公司 电动汽车的交易记录数据的校验方法、装置及***
CN108268988A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种粮食收购业务管理方法及***
CN109189827A (zh) * 2018-08-16 2019-01-11 阿里巴巴集团控股有限公司 时间序列处理方法和装置、电子设备
CN109886016A (zh) * 2018-12-27 2019-06-14 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN110413658A (zh) * 2019-07-23 2019-11-05 中经柏诚科技(北京)有限责任公司 一种基于关联规则的事实证据链构建方法
CN110737685A (zh) * 2019-10-24 2020-01-31 南方电网科学研究院有限责任公司 一种电力大数据的数据异常判别方法
CN110929036A (zh) * 2019-11-29 2020-03-27 南方电网数字电网研究院有限公司 电力营销稽查管理方法、装置、计算机设备和存储介质
CN111178672A (zh) * 2019-12-02 2020-05-19 广东电网有限责任公司 一种基于平衡性的智能稽查方法
CN112183990A (zh) * 2020-09-22 2021-01-05 国网冀北电力有限公司计量中心 基于大数据机器学***台及方法
CN113191688A (zh) * 2021-05-26 2021-07-30 重庆高新技术产业研究院有限责任公司 一种基于物联网和大数据的商用数据诊断分析方法
CN113420069A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 一种基于异常样本的关联规则挖掘方法、***、终端及存储介质
CN113591813A (zh) * 2021-09-29 2021-11-02 国网江苏省电力有限公司营销服务中心 基于关联规则算法的异常研判方法、模型构建方法及装置
CN113628024A (zh) * 2021-08-25 2021-11-09 国网河北省电力有限公司沧州供电分公司 基于大数据平台***的财务数据智能稽核***及方法
CN115759236A (zh) * 2022-12-30 2023-03-07 北京德风新征程科技有限公司 模型训练方法、信息发送方法、装置、设备和介质
CN115840922A (zh) * 2022-09-15 2023-03-24 杭州齐智科技有限公司 一种基于深度学习算法的充电异常行为分析方法
CN116361059A (zh) * 2023-05-19 2023-06-30 湖南三湘银行股份有限公司 一种银行业务异常根因诊断方法及诊断***

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802916A (zh) * 2016-12-09 2017-06-06 国网北京市电力公司 电动汽车的交易记录数据的校验方法、装置及***
CN106802916B (zh) * 2016-12-09 2020-02-07 国网北京市电力公司 电动汽车的交易记录数据的校验方法、装置及***
CN108268988A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种粮食收购业务管理方法及***
CN108268988B (zh) * 2016-12-30 2022-06-10 航天信息股份有限公司 一种粮食收购业务管理方法及***
CN109189827A (zh) * 2018-08-16 2019-01-11 阿里巴巴集团控股有限公司 时间序列处理方法和装置、电子设备
CN109189827B (zh) * 2018-08-16 2022-04-15 创新先进技术有限公司 时间序列处理方法和装置、电子设备
CN109886016A (zh) * 2018-12-27 2019-06-14 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN110413658A (zh) * 2019-07-23 2019-11-05 中经柏诚科技(北京)有限责任公司 一种基于关联规则的事实证据链构建方法
CN110737685A (zh) * 2019-10-24 2020-01-31 南方电网科学研究院有限责任公司 一种电力大数据的数据异常判别方法
CN110929036A (zh) * 2019-11-29 2020-03-27 南方电网数字电网研究院有限公司 电力营销稽查管理方法、装置、计算机设备和存储介质
CN110929036B (zh) * 2019-11-29 2023-05-05 南方电网数字电网研究院有限公司 电力营销稽查管理方法、装置、计算机设备和存储介质
CN111178672A (zh) * 2019-12-02 2020-05-19 广东电网有限责任公司 一种基于平衡性的智能稽查方法
CN111178672B (zh) * 2019-12-02 2022-07-19 广东电网有限责任公司 一种基于平衡性的智能稽查方法
CN112183990A (zh) * 2020-09-22 2021-01-05 国网冀北电力有限公司计量中心 基于大数据机器学***台及方法
CN113191688A (zh) * 2021-05-26 2021-07-30 重庆高新技术产业研究院有限责任公司 一种基于物联网和大数据的商用数据诊断分析方法
CN113420069A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 一种基于异常样本的关联规则挖掘方法、***、终端及存储介质
CN113420069B (zh) * 2021-06-24 2023-08-11 平安科技(深圳)有限公司 一种基于异常样本的关联规则挖掘方法、***、终端及存储介质
CN113628024A (zh) * 2021-08-25 2021-11-09 国网河北省电力有限公司沧州供电分公司 基于大数据平台***的财务数据智能稽核***及方法
CN113591813A (zh) * 2021-09-29 2021-11-02 国网江苏省电力有限公司营销服务中心 基于关联规则算法的异常研判方法、模型构建方法及装置
CN113591813B (zh) * 2021-09-29 2022-02-08 国网江苏省电力有限公司营销服务中心 基于关联规则算法的异常研判方法、模型构建方法及装置
CN115840922A (zh) * 2022-09-15 2023-03-24 杭州齐智科技有限公司 一种基于深度学习算法的充电异常行为分析方法
CN115840922B (zh) * 2022-09-15 2023-08-18 杭州齐智能源科技股份有限公司 一种基于深度学习算法的充电异常行为分析方法
CN115759236A (zh) * 2022-12-30 2023-03-07 北京德风新征程科技有限公司 模型训练方法、信息发送方法、装置、设备和介质
CN115759236B (zh) * 2022-12-30 2024-01-12 北京德风新征程科技股份有限公司 模型训练方法、信息发送方法、装置、设备和介质
CN116361059A (zh) * 2023-05-19 2023-06-30 湖南三湘银行股份有限公司 一种银行业务异常根因诊断方法及诊断***
CN116361059B (zh) * 2023-05-19 2023-08-08 湖南三湘银行股份有限公司 一种银行业务异常根因诊断方法及诊断***

Similar Documents

Publication Publication Date Title
CN105373894A (zh) 基于稽查数据的电力营销业务诊断模型的建立方法及***
CN110097297B (zh) 一种多维度窃电态势智能感知方法、***、设备及介质
EP3678065A1 (en) Chinese medicine production process knowledge system
US20170300546A1 (en) Method and Apparatus for Data Processing in Data Modeling
CN111738462B (zh) 电力计量装置故障抢修主动服务预警方法
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及***
CN110703057A (zh) 基于数据增强和神经网络的电力设备局部放电诊断方法
CN110222991B (zh) 基于rf-gbdt的计量装置故障诊断方法
US20200241518A1 (en) Systems and methods for determining relationships between defects
CN110827169A (zh) 一种基于分级指标的分布式电网业务监控方法
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN114429245A (zh) 一种工程造价数据的分析展示方法
CN116452154B (zh) 一种适用于通信运营商的项目管理***
CN116401601B (zh) 基于逻辑回归模型的停电敏感用户处置方法
CN117251814A (zh) 一种高速公路充电桩电量损耗异常的分析方法
CN116681556A (zh) 一种基于教育大数据的智慧远程教学云平台***及方法
CN112256735B (zh) 一种用电监测方法、装置、计算机设备和存储介质
CN115146715A (zh) 用电安全隐患诊断方法、装置、设备及存储介质
CN114331175A (zh) 一种城市安全绩效数据集中统计评估方法及***
CN113947309A (zh) 基于建造大数据的盾构隧道施工标准工时测算及评分方法
CN117149551B (zh) 一种车载无线通信芯片的测试方法
CN117688503B (zh) 一种基于移动端的用电安全检查***
Feng et al. A new rough set based Bayesian classifier prior assumption
Hairuman et al. Evaluation of machine learning techniques for anomaly detection on hourly basis kpi
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160302