CN112330095A - 一种基于决策树算法的质量管理方法 - Google Patents

一种基于决策树算法的质量管理方法 Download PDF

Info

Publication number
CN112330095A
CN112330095A CN202011074050.6A CN202011074050A CN112330095A CN 112330095 A CN112330095 A CN 112330095A CN 202011074050 A CN202011074050 A CN 202011074050A CN 112330095 A CN112330095 A CN 112330095A
Authority
CN
China
Prior art keywords
quality improvement
quality
improvement opportunity
decision tree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011074050.6A
Other languages
English (en)
Inventor
李亮亮
李彦林
王西山
董绪琪
李艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRRC Qingdao Sifang Co Ltd
Original Assignee
CRRC Qingdao Sifang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRRC Qingdao Sifang Co Ltd filed Critical CRRC Qingdao Sifang Co Ltd
Priority to CN202011074050.6A priority Critical patent/CN112330095A/zh
Publication of CN112330095A publication Critical patent/CN112330095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于决策树算法的质量管理方法,包括以下步骤:第一步,建立训练样本数据库S,第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。本发明基于ID3决策树算法建识别引起质量改进机会原因的识别模型,一定程度提高智能自主识别模型的准确率,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。

Description

一种基于决策树算法的质量管理方法
技术领域
本发明属于质量管理技术领域,具体地说,涉及一种基于决策树算法的质量管理方法。
背景技术
传统的轨道交通质量管理方法致力于质量的控制和诊断,主要是事后处理。另一方面,随着制造业信息化的深入,企业从日常的生产活动中,收集到大量的、杂乱的数据未能得到充分利用,大多只停留在对数据的简单统计与图表的显示,缺少进一步的挖掘及利用隐藏在数据背后的有用信息,不能利用科学的数据计算模型自动给出改进机会,无法对公司质量改进活动提供支撑。
有鉴于此,特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于决策树算法的质量管理方法,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
为解决上述技术问题,本发明采用技术方案的基本构思是:
一种基于决策树算法的质量管理方法,包括以下步骤:
第一步,建立训练样本数据库S,
第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;
第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;
第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。
进一步的,第三步中包括
步骤S31,所述训练样本数据库S中的数据按照“是质量改进机会”和“不是质量改进机会”的目标属性被分为“是质量改进机会”或“不是质量改进机会”两个类别标签,其中“是质量改进机会”为S1,“不是质量改进机会”为S2,
步骤S32,计算对所述训练样本数据库S按照目标属性分类所需的信息熵、每个类别的信息熵,获取每个类别的信息增益,
步骤S33,选取所有类别中最大的信息增益作为决策树的根节点,建立从根节点到叶节点的决策树,直到节点特征中的数据在类别上取值都相同或没有类别可再供划分使用,以此构建识别模型。
进一步的,步骤S32中包括
①计算所述训练样本数据库S按照目标属性分类所需的信息熵;
②根据数据类型的不同,所述训练样本数据库包括n个不同的类别,分别为类别C1、类别C2、类别Ci、...,类别Cn,1<i<n,
假设类别Ci具有k个不同的特征,分别为特征a1,特征a2,特征aj...,特征ak,1<j<k,
分别获取类别Ci中特征a1,特征a2,特征aj...,特征ak的信息熵,再计算类别Ci的平均信息期望;
③计算类别Ci的信息增益Gain(Ci)。
进一步的,第三步中还包括步骤S34,
步骤S34,对所述识别模型进行评价及验证,采用决策准确率来表示识别模型的可正确分类概率,其中,正确决策样本数为正确得预测出是否是质量改进机会得样本数,测试样本总数为测试所用的总的样本数,即包括正确与不正确得预测出是否是质量改进机会得样本总数,计算公式为:
Figure BDA0002716084650000031
根据计算公式获得如下表格:
Figure BDA0002716084650000032
表中,TP为:将正例预测为正例(的数目),真实为0,预测也为0;
FP为:将负例预测为正例(的数目),真实为1,预测为0;
FN为:将正例预测为负例(的数目),真实为0,预测为1;
TN为:将负例预测为负例(的数目),真实为1,预测也为1。
进一步的,第二步中包括
从产品缺陷维度构建规则模型,通过数据池字段,构建当月不良占当月总累计不良比率、当月不良占季度累计不良比率、累计季度不良占当年总不良比率、同比增长率及环比增长率来评价产品缺陷的比率;
从时间维度构建规则模型,将历史年份发生缺陷的数量,对比当年各月的缺陷数量,对质量改进机会进行评价,构建标准总月均不良数量、标准各环节月均总不良数量、当月总不良数量、各环节当月总不良数量、当月不良数量、累计季度总不良数量一系列评价指标;
获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性。
进一步的,获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性包括
①假设所述训练样本数据库S有n’行记录,m’个变量,训练样本数据库可以用一个n’×m’的矩阵A表示:A=[x1...xm’]
②将矩阵A中的数据归一化处理;
③计算第j’个变量下第i’行记录所占比重,1<j’<m’,1<i’<n’;
④计算第j’个变量的熵值、差异系数和权重,获取每一行记录的质量改进机会综合指标的数据分布;
⑤判断所述质量改进机会综合指标的数据分布是否满足正态分布,若是,依据3sigma原则,将质量改进机会综合指标偏离均值3个标准差以外的数据判定为质量改进机会动态阈值,若否,依据切比雪夫不等式原理将分布概率低于10%区间内的数据判定为质量改进机会动态阈值;
⑥判断每一行记录的质量改进机会综合指标是否大于质量改进机会动态阈值,若是,则“是质量改进机会”,若否,则“不是质量改进机会”。
采用上述技术方案后,本发明与现有技术相比具有以下有益效果。
1.本发明利用分类决策树数据挖掘算法,构建智能识别轨道交通中自动识别质量改进机会,具有独创性;
2.本发明构建动态阈值,动态评价指标,模型结果更具有实时性和准确性;
3.本发明实现了面向质量管理改进模型构建过程的封装,具有***化思维和高度可迁移性;
4.本发明提出的智能识别质量改进机会的模型,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
5.本发明具有较强的可借鉴性,对于其他质量管理改进和提高产品质量具有较强的指导意义,可复制性强。
下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1是本发明基于决策树算法的质量管理方法的流程图;
图2是本发明基于决策树算法的质量管理方法的另一流程图;
图3是本发明一个实施例中决策树的示意图。
需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,需要说明的是,术语“上”“下”“前”“后”“左”“右”“竖直”“水平”“内”“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1至图3所示,本发明提供一种基于决策树算法的质量管理方法,包括以下步骤,如图1所示,
第一步,建立训练样本数据库S,
第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;
第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;
第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。
具体的,如图2所示,第一步中,由于实际生产、来料、售后运营各个质量周期内的环节,数据多样,各个环节间又相互影响,导致质量管理***采集的数据无法直接使用。为后面模型的数据质量做准备,将质量管理***的不同数据库的表字段进行数据质量分析,分析空值占比,确定出有用的字段。将不同环节有用的字段进行清洗标准化,将不同数据库中的表进行整合,建立数据挖掘有用字段的一张表,形成数据池。
在数据表规整后,进行研究对象取数,对数据中的缺失值,不完整,不一致等脏数据进行预处理和清洗。根据质量分析的人、机、料、法、环等维度分析抽取相应的特征属性,获得训练样本数据库S,包括的特征属性有生产区域,产品,责任单位,缺陷等级,缺陷描述等影响因素。
第二步中,对数据进行预处理以后,可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度。通过数据特征分析确定数据分布类型,数量占比最多的一些缺陷等,为模型的构建提供思路。
从大量的数据探索中,分析可利用指标,依据数据特征分析后,对现有的字段结合业务,选取对业务有关联的业务字段,构建潜在质量改进机会、评价指标体系,动态阈值等。
由于质量问题的数据为业务人员记录数据,多为非数值型数据,对数据进行数值化处理,由于产品只记录不良的缺陷数量,故采用占比来评价潜在质量改进机会:
从产品缺陷维度构建规则模型,通过数据池字段,构建当月不良占当月总累计不良比率、当月不良占季度累计不良比率、累计季度不良占当年总不良比率、同比增长率及环比增长率等等,来评价产品缺陷的比率。
从时间维度构建规则模型,将历史年份发生缺陷的数量,对比当年各月的缺陷数量,对质量改进机会进行评价,构建标准总月均不良数量、标准各环节月均总不良数量、当月总不良数量、各环节当月总不良数量、当月不良数量、累计季度总不良数量等一系列评价指标。
评价指标构建完后,构建质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性。
本发明的一些实施例中通过熵值法确定权重系数,质量改进机会综合指标通过各自评价指标与对应得权重系数相乘后求和求得。
熵值法用来判断某个指标的离散程度的数学方法。离散程度越大,即信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。根据熵的特性,我们可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。
具体的步骤如下,
①假设所述训练样本数据库S有n’行记录,m’个变量,数据可以用一个n’×m’的矩阵A表示:
A=[x1...xm’]
②数据的归一化处理
其中,xi’j’表示矩阵A的第i’行j’列元素,公式为:
Figure BDA0002716084650000081
③计算第j’个变量下第i’行记录所占比重
Figure BDA0002716084650000082
④计算第j’个变量的熵值
Figure BDA0002716084650000083
⑤计算第j’个变量的差异系数
gj'=1-ej'
⑥计算第j’个变量的权重
Figure BDA0002716084650000091
通过熵值法求出权重系数,质量改进机会综合指标通过各自指标与对应得权重系数相乘后求和求得。
探索质量改进机会综合指标得数据分布,若为正态分布,质量改进机会动态阈值,依据3sigma原则,把质量改进机会综合指标偏离均值3个标准差以为的数据判定为质量改进机会动态阈值。若不符合正态分布,采用切比雪夫不等式原理,将分布概率低于10%区间内的数据判定为质量改进机会动态阈值。有了质量改进机会综合指标及质量改进机会动态阈值,就可判断是否是质量改进机会。若质量改进机会综合指标>质量改进机会动态阈值,则是质量改进机会,反之,则不是质量改进机会。质量改进机会的迫切程度为质量改进机会综合指标与质量改进机会动态阈值的差值。
进一步的,由于质量数据为离散数据,故本发明提出一种基于ID3决策树的质量改进分析模型,找出那些频繁引起质量问题的因素,对造成产品质量缺陷进行责任分析和诊断,企业可针对性的采取措施,进而提高产品质量。
决策树模型建立过程如第三步所述,第三步具体包括:
步骤S31,所述训练样本数据库S中的数据按照“是质量改进机会”和“不是质量改进机会”的目标属性被分为“是质量改进机会”或“不是质量改进机会”两个类别标签,其中“是质量改进机会”为S1,“不是质量改进机会”为S2;
步骤S32,计算对所述训练样本数据库S按照目标属性分类所需的信息熵、每个类别的信息熵,获取每个类别的信息增益;
步骤S33,选取所有类别中最大的信息增益作为决策树的根节点,建立从根节点到叶节点的决策树,直到节点特征中的数据在类别上取值都相同或没有类别可再供划分使用,以此构建识别模型。
具体的,步骤S32中包括
①计算所述训练样本数据库S按照目标属性分类所需的信息熵;
I(S)=I(S1,S2)=-P1log2(P1)-P2log2(P2),其中P1是S1的概率,P2是S2的概率,P1+P2=1。
②根据数据类型的不同,所述训练样本数据库包括n个不同的类别,分别为类别C1、类别C2、类别Ci、...,类别Cn,1<i<n,
假设类别Ci具有k个不同的特征,分别为特征a1,特征a2,...,特征ak,分别获取类别Ci中特征a1,特征a2,特征aj...,特征ak的信息熵,再计算类别Ci的平均信息期望E(Ci);
例如,对于类别C1而言,具有3个不同的特征,分别为特征a1,特征a2,特征a3,则
特征a1的信息熵I(a1)=I(S1,S2)=-Pa1log2(Pa1)-(1-Pa1)log2(1-Pa1),其中,Pa1表示特征a1的样本数中“是质量改进机会”的样本数占特征a1总样本数的比例,1-Pa1表示特征a1的样本数中“不是质量改进机会”的样本数占特征a1总样本数的比例;
特征a2的信息熵I(a2)=I(S1,S2)=-Pa2log2(Pa2)-(1-Pa2)log2(1-Pa2),其中,Pa2表示特征a2的样本数中“是质量改进机会”的样本数占特征a2总样本数的比例,1-Pa2表示特征a2的样本数中“不是质量改进机会”的样本数占特征a2总样本数的比例;
特征a3的信息熵I(a3)=I(S1,S2)=-Pa3log2(Pa3)-(1-Pa3)log2(1-Pa3),其中,Pa3表示特征a3的样本数中“是质量改进机会”的样本数占特征a3总样本数的比例,1-Pa3表示特征a3的样本数中“不是质量改进机会”的样本数占特征a3总样本数的比例;
那么,类别C1的平均信息期望E(C1)可由下式获得
Figure BDA0002716084650000111
其中,sa1、sa1、sa1表示特征a1,特征a2,特征a3分别占训练样本数据库S中样本总数的比例。
依次类推,可以计算获得全部类别的平均信息期望。
③计算类别Ci的信息增益Gain(Ci)
同样以C1而言为例说明,Gain(C1)=I(S)-E(C1);
依次类推,可以计算获得全部类别的信息增益。
显然,平均信息期望越小,信息增益的值越大,说明选择测试类别对于分类提供的信息越大,选择类别之后对分类的不确定程度越小。求出所有类别里面最大的信息增益来作决策树的根节点,从该类别每一个特征引出一个分枝,并划分样本,确定信息较多,预测结果更准确。
通过计算信息增益,比较并选取最大的信息增益对树进行扩展,建立从根节点到叶节点的决策树,直到节点子集中的数据在属性上取值都相同或没有属性可再供划分使用。
另外在统计过程中,是质量改进机会表示为质量改进机会综合指标>质量改进机会阈值,判断为是,反之,则不是质量改进机会。是质量改进机会概率为是质量改进机会数量/总数量,不是质量改进机会的概率为不是质量改进机会/总数量的比值。
在本发明的一些实施例中,对于轨道交通行业,训练样本数据库包括四个类别:产品、生产区域,缺陷和责任单位,产品包括产品A、产品B、产品C三个特征,生产区域包括生产区域a、生产区域b两个特征,缺陷包括缺陷I、缺陷II两个特征,责任单位包括责任单位1、责任单位2两个特征。依据以上的公式进行计算,生成的决策树模型如图3所示。
进一步的,由于噪声等因素的影响,会使得样本某些特征的取值与样本自身的类别不相匹配的情况,基于这些数据生成的决策树的某些枝叶会产生一些错误;尤其是在决策树靠近枝叶的末端,由于样本变少,这种无关因素的干扰就会突显出来;由此产生的决策树可能存在过拟合的现象。树枝修剪就是通过统计学的方法删除不可靠的分支,使得整个决策树的分类速度和分类精度得到提高。
生成的完整决策树对数据集进行分类时会产生的“过度拟合”问题,因此需要对它进行化简,本发明通过采用后剪枝策略,从树的叶子开始剪枝,逐步向根的方向剪。
为了对决策模型有效性进行检验,从数据库随机抽取整理好的数据来测试训练后的模型,得出的混淆矩阵。为了让模型有效性更直观,用决策准确率来表示模型的可正确分类概率,其中,正确决策样本数为正确得预测出是否是质量改进机会得样本数,测试样本总数为测试所用的总的样本数,即包括正确与不正确得预测出是否是质量改进机会得样本总数,计算公式为:
Figure BDA0002716084650000121
根据计算公式获得如下表格:
Figure BDA0002716084650000131
表中,TP为:将正例预测为正例(的数目),真实为0,预测也为0;
FP为:将负例预测为正例(的数目),真实为1,预测为0;
FN为:将正例预测为负例(的数目),真实为0,预测为1;
TN为:将负例预测为负例(的数目),真实为1,预测也为1。
通过决策准确率,可知道模型得预测效果。进一步通过决策树图提取出规则,可为质量管理和相关决策人员提供一定的质量改进预测和问题解决得参考依据,帮助管理人员发现产品质量问题得潜在原因,帮助企业持续改善产品质量。对质量问题进行整改后,将模型运行一个周期,对比整改前的评价指标与整改后的评价指标,判断质量整改的效果。
本发明是基于质量历史数据,进行挖掘算法识别异常改进机会,发出预警信息。根据目前动车组现有大量历史质量数据,确定业务对象,定义出业务挖掘目标。寻找所有与业务对象有关的数据,并从中选择出适用于数据挖掘应用的原始数据。原始数据中可能会有一些错误的或者缺陷的脏数据,对有问题的数据进行预处理,为进一步的分析建模做准备。为了便于挖掘,格式不统一要转换为统一格式,非数值型数据要转化为数值型,以便找出真正有用的特征变量。通过已有的字段,构造质量评价指标体系,以及潜在质量改进机会体系的特征。通过对现有字段指标的特征构建,选择分类的决策树挖掘算法,建立预警规则模型。对建立的预警规则模型利用未参与建模的测试集数据进行验证评价,并将结果与实际情况进行比较。若在此过程发现模型不够优化,可回到前面的步骤进行调整。
本发明建立了基于决策树算法的质量管理方法,相较于传统的质量管理改进方法具有以下几点优势:
1.本发明利用分类决策树数据挖掘算法,构建智能识别轨道交通中自动识别质量改进机会,具有独创性;
2.本发明构建动态阈值,动态评价指标,模型结果更具有实时性和准确性;
3.本发明实现了面向质量管理改进模型构建过程的封装,具有***化思维和高度可迁移性;
4.本发明提出的智能识别质量改进机会的模型,可帮助企业对造成产品质量缺陷进行责任分析和自动诊断,降低生产中的不合格率。
5.本发明具有较强的可借鉴性,对于其他质量管理改进和提高产品质量具有较强的指导意义,可复制性强。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。

Claims (6)

1.一种基于决策树算法的质量管理方法,其特征在于:包括以下步骤:
第一步,建立训练样本数据库S,
第二步,判断所述训练样本数据库S中样本是否是质量改进机会,构建“是质量改进机会”和“不是质量改进机会”的目标属性;
第三步,基于ID3决策树算法构建识别引起质量改进机会原因的识别模型;
第四步,将所述识别模型识别的引起质量改进机会的原因推送相应的责任部门。
2.根据权利要求1所述的一种基于决策树算法的质量管理方法,其特征在于:第三步中包括
步骤S31,所述训练样本数据库S中的数据按照“是质量改进机会”和“不是质量改进机会”的目标属性被分为“是质量改进机会”或“不是质量改进机会”两个类别标签,其中“是质量改进机会”为S1,“不是质量改进机会”为S2,
步骤S32,计算对所述训练样本数据库S按照目标属性分类所需的信息熵、每个类别的信息熵,获取每个类别的信息增益,
步骤S33,选取所有类别中最大的信息增益作为决策树的根节点,建立从根节点到叶节点的决策树,直到节点特征中的数据在类别上取值都相同或没有类别可再供划分使用,以此构建识别模型。
3.根据权利要求2所述的一种基于决策树算法的质量管理方法,其特征在于:步骤S32中包括
①计算所述训练样本数据库S按照目标属性分类所需的信息熵;
②根据数据类型的不同,所述训练样本数据库包括n个不同的类别,分别为类别C1、类别C2、类别Ci、...,类别Cn,1<i<n,
假设类别Ci具有k个不同的特征,分别为特征a1,特征a2,特征aj...,特征ak,1<j<k,
分别获取类别Ci中特征a1,特征a2,特征aj...,特征ak的信息熵,再计算类别Ci的平均信息期望;
③计算类别Ci的信息增益Gain(Ci)。
4.根据权利要求3所述的一种基于决策树算法的质量管理方法,其特征在于:第三步中还包括步骤S34,
步骤S34,对所述识别模型进行评价及验证,采用决策准确率来表示识别模型的可正确分类概率,其中,正确决策样本数为正确得预测出是否是质量改进机会得样本数,测试样本总数为测试所用的总的样本数,即包括正确与不正确得预测出是否是质量改进机会得样本总数,计算公式为:
Figure FDA0002716084640000021
根据计算公式获得如下表格:
Figure FDA0002716084640000022
表中,TP为将正例预测为正例的数目,真实为0,预测也为0;
FP为将负例预测为正例的数目,真实为1,预测为0;
FN为将正例预测为负例的数目,真实为0,预测为1;
TN为将负例预测为负例的数目,真实为1,预测也为1。
5.根据权利要求3所述的一种基于决策树算法的质量管理方法,其特征在于:第二步中包括
从产品缺陷维度构建规则模型,通过数据池字段,构建当月不良占当月总累计不良比率、当月不良占季度累计不良比率、累计季度不良占当年总不良比率、同比增长率及环比增长率来评价产品缺陷的比率;
从时间维度构建规则模型,将历史年份发生缺陷的数量,对比当年各月的缺陷数量,对质量改进机会进行评价,构建标准总月均不良数量、标准各环节月均总不良数量、当月总不良数量、各环节当月总不良数量、当月不良数量、累计季度总不良数量一系列评价指标;
获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性。
6.根据权利要求5所述的一种基于决策树算法的质量管理方法,其特征在于:获取质量改进机会综合指标,构建“是质量改进机会”和“不是质量改进机会”的目标属性包括
①假设所述训练样本数据库S有n’行记录,m’个变量,训练样本数据库可以用一个n’×m’的矩阵A表示:A=[x1...xm’]
②将矩阵A中的数据归一化处理;
③计算第j’个变量下第i’行记录所占比重,1<j’<m’,1<i’<n’;
④计算第j’个变量的熵值、差异系数和权重,获取n’行记录中每一行记录的质量改进机会综合指标的数据分布;
⑤判断所述质量改进机会综合指标的数据分布是否满足正态分布,若是,依据3sigma原则,将质量改进机会综合指标偏离均值3个标准差以外的数据判定为质量改进机会动态阈值,若否,依据切比雪夫不等式原理将分布概率低于10%区间内的数据判定为质量改进机会动态阈值;
⑥判断每一行记录的质量改进机会综合指标是否大于质量改进机会动态阈值,若是,则“是质量改进机会”,若否,则“不是质量改进机会”。
CN202011074050.6A 2020-10-09 2020-10-09 一种基于决策树算法的质量管理方法 Pending CN112330095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011074050.6A CN112330095A (zh) 2020-10-09 2020-10-09 一种基于决策树算法的质量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011074050.6A CN112330095A (zh) 2020-10-09 2020-10-09 一种基于决策树算法的质量管理方法

Publications (1)

Publication Number Publication Date
CN112330095A true CN112330095A (zh) 2021-02-05

Family

ID=74313408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011074050.6A Pending CN112330095A (zh) 2020-10-09 2020-10-09 一种基于决策树算法的质量管理方法

Country Status (1)

Country Link
CN (1) CN112330095A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113578972A (zh) * 2021-04-08 2021-11-02 华院计算技术(上海)股份有限公司 一种热轧产品质量追溯方法及装置
CN113689036A (zh) * 2021-08-24 2021-11-23 成都电科智联科技有限公司 一种基于决策树c4.5算法的热像仪质量问题原因预测方法
CN114565578A (zh) * 2022-03-01 2022-05-31 人民百业科技有限公司 一种高色域显示屏质量智能检测***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120071A1 (en) * 2012-06-29 2015-04-30 Abb Technology Ltd Method for optimization of control and fault analysis in a thermal power plant
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN110569867A (zh) * 2019-07-15 2019-12-13 山东电工电气集团有限公司 基于决策树算法的输电线路故障原因判别方法、介质及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120071A1 (en) * 2012-06-29 2015-04-30 Abb Technology Ltd Method for optimization of control and fault analysis in a thermal power plant
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN110569867A (zh) * 2019-07-15 2019-12-13 山东电工电气集团有限公司 基于决策树算法的输电线路故障原因判别方法、介质及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113578972A (zh) * 2021-04-08 2021-11-02 华院计算技术(上海)股份有限公司 一种热轧产品质量追溯方法及装置
CN113689036A (zh) * 2021-08-24 2021-11-23 成都电科智联科技有限公司 一种基于决策树c4.5算法的热像仪质量问题原因预测方法
CN114565578A (zh) * 2022-03-01 2022-05-31 人民百业科技有限公司 一种高色域显示屏质量智能检测***及方法

Similar Documents

Publication Publication Date Title
CN112330095A (zh) 一种基于决策树算法的质量管理方法
CN110263827B (zh) 基于交易规律识别的异常交易检测方法及装置
CN115276006A (zh) 一种用于电力集成***的负荷预测的方法及***
CN110634080A (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN115630839B (zh) 一种基于数据挖掘的生产智能反馈调控***
CN111242484A (zh) 基于转移概率的车辆风险综合评价方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN105426441B (zh) 一种时间序列自动预处理方法
CN117828539B (zh) 数据智能融合分析***及方法
CN104156403A (zh) 一种基于聚类的大数据常态模式提取方法及***
CN113177729A (zh) 基于企业关联风险传导的风险预警方法、***及设备
CN115860579B (zh) 一种用于面粉加工的生产质量监测***
CN110334767B (zh) 一种用于空气质量分类的改进随机森林方法
CN114021808A (zh) 一种基于突发事件影响等级识别的电力资源配置方法
CN113628024A (zh) 基于大数据平台***的财务数据智能稽核***及方法
CN111143616B (zh) 一种视频图像数据治理方法
CN113393169B (zh) 基于大数据技术的金融行业交易***性能指标分析方法
CN115935073A (zh) 基于人工智能交叉验证的舆情分析方法及***
CN112765553B (zh) 一种基于大数据的工程项目管理***
CN114996371A (zh) 基于图论算法的关联企业反欺诈模型构建方法及***
CN114595945A (zh) 一种面向制造过程的航空产品mbom健康度评价方法
CN117273549B (zh) 一种基于绩效考核指标体系的绩效考核方法及***
CN110956340A (zh) 工程试验检测数据管理预警决策方法
CN117131251B (zh) 一种基于云计算的多维数据分析处理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication