CN116049157A - 一种质量数据分析方法及*** - Google Patents

一种质量数据分析方法及*** Download PDF

Info

Publication number
CN116049157A
CN116049157A CN202310007166.5A CN202310007166A CN116049157A CN 116049157 A CN116049157 A CN 116049157A CN 202310007166 A CN202310007166 A CN 202310007166A CN 116049157 A CN116049157 A CN 116049157A
Authority
CN
China
Prior art keywords
data
analyzed
ppm
quality data
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310007166.5A
Other languages
English (en)
Other versions
CN116049157B (zh
Inventor
邓大伟
张彤
洪保成
胡彦
薛铸鑫
王亚
姚帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN202310007166.5A priority Critical patent/CN116049157B/zh
Publication of CN116049157A publication Critical patent/CN116049157A/zh
Application granted granted Critical
Publication of CN116049157B publication Critical patent/CN116049157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Factory Administration (AREA)

Abstract

本发明涉及一种质量数据分析方法及***,属于数据分析技术领域,解决了现有技术中因校验特性指标冗余且存在异常数据导致质量分析不准确的问题。包括:获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标;根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据;根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。实现了准确的质量数据分析。

Description

一种质量数据分析方法及***
技术领域
本发明涉及数据分析技术领域,尤其涉及一种质量数据分析方法及***。
背景技术
随着信息化水平的不断提升,武器装备在设计、工艺、检验、生产、试验、使用等研制生产过程中产生了庞大且复杂的质量数据,这些数据由存在于业务***中的结构化数据、存在于检测工具中的半结构化数据和以纸质文件或电子文件等为载体的非结构化数据组成。质量管理业务与产品设计、生产、经营管理等过程具有紧密耦合性,装备质量问题与审查质量数据的发生以及传递过程具有高度离散性与异构性,与不同信息***具有较多数据关联,并且这些数据存在大量冗余、缺失和异常等情况,加上由于噪声信号的存在,导致无法有效挖掘数据中的有用信息。此外,质量数据较为分散,造成了质量数据资源的采集和共享的困难。
质量数据大多分散在各个管理人员、研发人员、技术人员的电脑中或生产测试设备中。难以实现质量数据资源的采集和共享。数据资源的融合共享困难,数据采集和分析工具手段缺乏,造成数据利用率不高以及量化分析不到位等问题,缺乏准确的数据分析和统计作为依据。迫切需要对这些数据进行挖掘和处理,找出其背后的规律,把握装备研制过程质量情况,从而辅助质量管理、设计和技术人员进行科学决策,支撑全面线上质量管控。
在装备研制过程中会形成大量的试验数据,但是目前缺乏针对采集的装备质量中试验数据资源的定量分析和问题挖掘应用。同时装备质量分析涉及的各种特性所涵盖的指标千差万别,而各个指标参数相互交互,难以分析。需要在保证选择足以表达目标分析特性的指标数目同时,还要使得这些参数不会相互影响,实现精准的质量分析。如何通过找出试验问题和异常数据并进行分析,达到装备研制的事前预测和预警并支撑改进质量薄弱点,是实现质量管理控制精细化、智能化的需要解决的关键问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种质量数据分析方法及***,用以解决现有因校验特性指标冗余且存在异常数据导致质量分析不准确的问题。
一方面,本发明实施例提供了一种质量数据分析方法,包括以下步骤:
获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标;
根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据;
根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。
基于上述方法的进一步改进,分别与对应的PPM阈值范围进行比较之前,还包括:如果待分析数据的数据量小于等于数量阈值,则通过构建t分布的置信度获取波动阈值,评估各个PPM值与理想PPM值的差距是否小于波动阈值,如果小于,则保留计算该PPM值的待分析数据。
基于上述方法的进一步改进,根据相关系数矩阵,去除冗余的检验特性指标,得到待分析的检验特性指标,包括:通过遍历和递归方法,将所有的N个检验特性指标分成多个成对组合,每个成对组合中第一组有i个指标,第二组是剩余的N-i个指标;从符合以下条件的成对组合中,取任一个数量最小的第二组的指标作为待分析的检验特性指标:第一组中每个指标与第二组所有指标的相关系数均大于相关性阈值,作为基本条件,且从第二组中取出任一个指标加入第一组后都不再满足基本条件。
基于上述方法的进一步改进,第一组中每个指标与第二组所有指标的相关系数是通过获取两组指标对应的质量数据的线性组合,使两组线性组合的皮尔逊相关系数最大而得到。
基于上述方法的进一步改进,根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据,包括:
基于统计分析,对每个待分析的检验特性指标的质量数据,通过z-score标准化处理后,将大于异常阈值的质量数据作为异常数据去除;
将各个待分析的检验特性指标标准化处理后的质量数据,分别传入训练好的变分自编码器,将得到的输出与输入进行差异比较,将差异值大于差异阈值的质量数据作为异常数据去除;
剩下的质量数据作为待分析数据。
基于上述方法的进一步改进,变分自编码器的损失函数包括一个重构项和一个KL散度正则项,且在KL散度正则项前增加了权重参数,用于减小KL散度正则项的权重。
基于上述方法的进一步改进,根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,包括:
采集各工序的缺陷数和严酷度系数,获取各工序缺陷总数;根据待分析的检验特性指标和待分析数据,获取各工序的检验特性指标对应的待分析数据的数量,作为各工序检验特性总数;根据各工序缺陷总数与对应的工序检验特性总数,获取各工序的PPM值;
根据生成过程中各产品所涉及工序的工序缺陷总数和工序检验特性总数,汇总得到各产品缺陷总数和各产品检验特性总数;根据各产品缺陷总数和对应的产品检验特性总数,获取各产品的PPM值;
根据各型号所属产品的产品缺陷总数和产品检验特性总数,汇总得到各型号缺陷总数和各型号检验特性总数,根据各型号缺陷总数和对应的型号检验特性总数,获取每个型号的PPM值。
基于上述方法的进一步改进,对不在PPM阈值范围内的待分析数据,进行数据包络分析包括:将不在PPM阈值范围内的待分析数据作为样本数据;获取成功数据,计算成功数据的置信区间,根据置信区间的范围表示样本数据是否在置信区间;根据预置的置信度获取成功数据的包络上限和包络下限,用于表示样本数据是否包络;根据预置的公差值获取合格上限和合格下限,用于表示样本数据是否合格;基于是否包络、是否合格和是否在置信区间,生成样本数据分析结果。
基于上述方法的进一步改进,获取成功数据,计算成功数据的置信区间,包括:根据样本数据对应的待分析的检验特性指标,分别统计各指标的成功数据,如果成功数据的数量大于数量阈值,则通过高斯混合密度函数GMM算法,构建置信区间;否则,通过t分布构建置信区间。
另一方面,本发明实施例提供了一种质量数据分析***,包括:检验特性指标获取模块,用于获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标;
待分析数据获取模块,用于根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据;
质量数据分析模块,用于根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。
与现有技术相比,本发明至少可实现如下有益效果之一:基于采集的装备质量数据,运用数据相关性分析、数据异常性分析、小样本数据分析等技术,对试验质量数据进行冗余检测和剔除,并对小样本条件下的试验数据置信度进行评估,智能分析产品数据是否落在包络范围内,提前发现质量隐患或生产过程中存在的薄弱环节,实现质量管理控制精细化和智能化。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例1中一种质量数据分析方法流程图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明的一个具体实施例,公开了一种质量数据分析方法,如图1所示,包括以下步骤:
S11:获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标。
需要说明的是,本实施例中生产过程中的质量数据是产品试验数据中影响质量的数据,比如:对惯导陀螺来说,获取温度、重量、压力和重力数据作为质量数据。
通过结构化和非结构化的数据采集和处理方式获取质量数据,并进行初步的数据清洗和数据预处理,包括:检测缺失值并通过牛顿插值法填充数据项的缺失值,基于数据挖掘的方法和基于状态估计的方法检测并剔除离群值,以及根据相似度检测并删除重复值。
需要说明的是,检验特性指标是指量化后的检验特性指标。通常皮尔逊双变量相关性分析方法只关注两个指标间的相关系数,无法充分挖掘多个检验特性指标内在的关联关系。因此,本实施例通过挖掘冗余检验特性指标与其余多个检验特性指标的潜在相关性,逐步筛选出冗余检验特性指标,提升指标对产品质量的评估能力。
具体来说,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标,包括:通过遍历和递归方法,将所有的N个检验特性指标分成多个成对组合,每个成对组合中第一组有i个指标,第二组是剩余的N-i个指标;从符合以下条件的成对组合中,取任一个数量最小的第二组的指标作为待分析的检验特性指标:第一组中每个指标与第二组所有指标的相关系数均大于相关性阈值,作为基本条件,且从第二组中取出任一个指标加入第一组后都不再满足基本条件。
需要说明的是,在对检验特性指标分解时,i可以从1开始遍历获取成对组合,也可以从小于N的任一个数字开始,只要能获取到符合上述条件的成对组合即可。
需要说明的是,第一组中每个指标与第二组所有指标的相关系数是通过获取两组指标对应的质量数据的线性组合,使两组线性组合的皮尔逊相关系数最大而得到,用以下公式表示:
Figure BDA0004037091900000071
其中,w1和w2分别是第一组质量数据的线性组合和第二组质量数据的线性组合,Σ12是第一组和第二组的协方差矩阵,Σ11是第一组的协方差矩阵,Σ22是第二组的协方差矩阵。
示例性地,以麻花针生产检验为例,根据麻花针质量数据对针体长度、收后胖度偏大、收后胖度偏小、同轴度、空针、反向、散丝共计7个检验特性指标的关联性进行计算,分别用1,2,3,4,5,6和7作为检验特性指标编号。设置相关性阈值为0.7,即相关系数大于0.7就表示具有较高的关联度,设定为冗余的检验特性指标。
以B表示第一组,A表示第二组,从i=1初始遍历时,分解为:t1={A=[2,3,4,5,6,7],B=[1]}、t2={A=[1,3,4,5,6,7],B=[2]}、t3={A=[1,2,4,5,6,7],B=[3]}、t4={A=[1,2,3,5,6,7],B=[4]}、t5={A=[1,2,3,4,6,7],B=[5]}、t6={A=[1,2,3,4,5,7],B=[6]}、t7={A=[1,2,3,4,5,6,],B=[7]},分别计算B中的指标与A中所有指标的相关系数,其中t1、t2、t3、t5和t6的相关性大于0.7,则继续对这5个成对组合中A进行分解,并且可以得到指标4和7不是冗余指标,在后续分解时可以不考虑这两个指标,从而加快计算速度。
第二次遍历时,以t1为例,可以分解为:t1_1={A=[3,4,5,6,7],B=[1,2]}、t1_2={A=[2,4,5,6,7],B=[1,3]}、t1_3={A=[2,3,4,6,7],B=[1,5]}、t1_4={A=[2,3,4,5,7],B=[1,6]},再分别计算B中每一个指标相对与A中所有指标的相关系数,如果t1_1和t1_2符合均大于0.7的条件,则继续对t1_1和t1_2中的A组进行分解。
第三次遍历时,对t1_1和t1_2分解的各个成对组合中,A有4个指标,B有3个指标,但是B中每个指标相对于A中所有指标的相关系数均不满足大于0.7的条件,即:从第二组中取出任一个指标加入第一组后都不再满足基本条件,则说明有效的检验特性指标至少5个,t1_1和t1_2中的A组都可作为待分析的检验特性指标,任选一个即可。
与现有技术相比,本实施例扩展了传统面向两个检验特性的相关性计算方法,筛选相关性高的检验特性指标,获取满足相关性条件且最小的检验特性指标集合,使得在这个集合外的冗余检验特性指标的检测结果可以通过集合中的检验特性指标的检测结果进行预测。
S12:根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据。
需要说明的是,本实施例质量数据包括由局部差异性和整体差异性导致生的异常数据。局部差异性主要由于局部检测环境突变造成,可以通过单个试验问题质量数据的数值比较来挖掘。整体差异性由于工序检测环境、检测方法等因素出现整体变化,无法通过单个试验问题质量数据数值异常进行识别。因此,本实施例通过统计分析和变分自编码器分别计算具有单个试验问题质量数据和质量数据整体分布差异性的异常质量数据。
具体来说,根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据,包括:
基于统计分析,对每个待分析的检验特征的质量数据,通过z-score标准化处理后,将大于异常阈值的质量数据作为异常数据去除;
将各个待分析的检验特性指标的剩余的标准化处理后的质量数据,分别传入训练好的变分自编码器,将得到的输出与输入进行差异比较,将差异值大于差异阈值的质量数据作为异常数据去除;
剩下的质量数据作为待分析数据。
需要说明的是,z-score标准化方法是通过与平均值的归一化距离来度量质量数据在单个检验特性指标的异常性,归一化距离越大,则质量数据在该检验特性的异常性越大。
通过变分自编码器拟合质量数据分布,从而学习检验特性的数据分布特征,识别具有整体差异性的异常质量数据。变分自编码器包括编码器E(x)和解码器D(z)两个网络结构。编码器E(x)对特征进行特征提取,将检验特性映射到结构化特征空间中,解码器对结构化特征空间中的特征分布进行解码,利用变分原理,通过KL散度正则化来提取质量数据的有效特征,输出原始质量数据的数据分布。
具体来说,通过近似后验q(z|x,φ)得到编码器,通过极大似然p(x|z,θ)得到解码器,其中φ和θ分别为编码器和解码器的参数,并构建了一个神经网络来学习编码器和解码器的参数。变分自编码器的损失函数包括一个重构项和一个KL散度正则项,且在KL散度正则项前增加了权重参数,用于减小KL散度正则项的权重。即:本实施例中的变分自编码器通过求解下面的优化问题得到:
Figure BDA0004037091900000091
其中,α是预先设置的权重参数,在训练过程中进行参数优化;DKL(·)表示Kullback-Leibler散度。
在本实施例KL散度正则化的变分自编码器中,通过自编码器拟合质量数据的分布,通过计算自编码器输出与原始质量数据的距离来度量数据的异常值。对给定的质量数据,异常值越高,则该质量数据与其他质量数据的整体差异性越大,则作为异常数据去除。
S13:根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。
需要说明的是,装备产品的生成过程中涉及典型型号以及主要产品,本实施例从工序、产品和型号三个维度计算PPM(Parts Per Million,百万分之一的缩写,表示每一百万个中的不良率)值。根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,包括:
采集各工序的缺陷数量和严酷度系数,获取各工序缺陷总数;根据待分析的检验特性指标和待分析数据,获取各工序的检验特性指标对应的待分析数据的数量,作为各工序检验特性总数;根据各工序缺陷总数与对应的工序检验特性总数,获取各工序的PPM值,用以下公式表示:
Figure BDA0004037091900000101
其中,Pi表示工序i的缺陷数量,Ki表示工序i的严酷度系数,Gi表示工序i的待分析的检验特性指标的数量,nr表示工序i的第r个检验特性指标对应的待分析数据的数量。
根据生成过程中各产品所涉及工序的工序缺陷总数和工序检验特性总数,汇总得到各产品缺陷总数和各产品检验特性总数;根据各产品缺陷总数和对应的产品检验特性总数,获取各产品的PPM值;
根据各型号所属产品的产品缺陷总数和产品检验特性总数,汇总得到各型号缺陷总数和各型号检验特性总数,根据各型号缺陷总数和对应的型号检验特性总数,获取每个型号的PPM值。
优选地,当待分析数据即用于计算PPM的质量数据的数量比较小,无法满足传统PPM计算方法需要的百万量级数据时,需要评估质量数据通过归一化到百万量级所计算的PPM值与经过采集百万量级PPM质量数据所计算的PPM真实值的差距。如果差距较小,则说明质量数据通过归一化到百万量级所计算的PPM值的可靠性较高,可以直接代表百万量级质量数据条件下的PPM值。否则,说明质量数据通过归一化到百万量级所计算的PPM值可能与百万量级质量数据条件下的PPM值具有较大偏差,需要进一步优化。
因此,在计算出PPM值,与PPM阈值范围比较之前,还包括:如果待分析数据的数据量小于等于数量阈值,则通过构建t分布的置信度获取波动阈值,评估各个PPM值与理想PPM值的差距是否小于波动阈值,如果小于,则保留计算该PPM值的待分析数据。即:通过待分析数据的平均值和方差,构建待分析数据的t分布,通过t分布的置信度来估计与经过采集百万量级PPM质量数据所计算的PPM真实值的差距。
具体来说,t分布是近似满足自由度为n-1的t分布,并且基于百万量级质量数据的理想PPM计算结果逼近于106μ,μ是概率分布平均值。
根据t分布得到的质量数据百万量级下的PPM值的波动区间如下所示:
Figure BDA0004037091900000111
其中,
Figure BDA0004037091900000112
为数据均值,S为数据标准差,n为数据数量,a为置信度,
Figure BDA0004037091900000113
为基于置信度确定的阈值。
因此,当各个PPM值与理想PPM值的差距小于
Figure BDA0004037091900000114
时,说明将待分析数据归一化到百万量级所计算的各个PPM值可以有效评估百万量级质量数据采集条件下的PPM真实值,否则,需要采集更多的质量数据,进一步优化现有装备数据的PPM值。
当确定计算的各个PPM值可以用于评估时,将各个PPM值与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析包括:将不在PPM阈值范围内的待分析数据作为样本数据;获取成功数据,计算成功数据的置信区间,根据置信区间的范围判断样本数据是否在置信区间;根据预置的置信度获取成功数据的包络上限和包络下限,用于表示样本数据是否包络;根据预置的公差值获取合格上限和合格下限,用于表示样本数据是否合格;基于是否包络、是否合格和是否在置信区间,生成样本数据的分析结果。
需要说明的是,成功数据是指实验中或者历史中已经验证为成功或未发生故障的产品数据。根据成功数据计算成功数据的置信区间,包括:根据样本数据对应的待分析的检验特性指标,分别统计各指标的成功数据,如果成功数据的数量大于数量阈值,则通过高斯混合密度函数GMM算法,构建置信区间;否则,通过t分布构建置信区间。
具体来说,通过高斯混合密度函数GMM算法,构建置信区间,是通过EM算法估计出高斯密度函数中的参数,再根据贝叶斯公式,计算出被估计参数的后验概率分布,从而得到置信区间。
将EM算法与高斯混合密度函数中的参数估计对应起来,表示如下:
Figure BDA0004037091900000121
其中,μk、∑k和πk为第k个检验特性指标的质量数据对应的高斯密度函数均值、方差以及该第k个检验特性指标所占比例,n为样本数量。
通过t分布构建置信区间的方法与上述评估PPM值一样,将公式(4)中的106去掉,就是置信区间的表现形式。
进一步地,本实施例针对装备生产数据定义99.73%(对应3σ)的置信度生成包络上限和包络下限。根据预置的公差值获取合格上限和合格下限,形成的区间即为公差带。当设计的公差作为产品合格判据标准的上下线且与包络线趋向重合,说明单个质量数据对于任务的影响关系被完全掌握,此时决策带来的风险极小。然而却经常会出现公差带与包络线不重合的情况,因此,本实施例同时考虑包络区间、公差带区间和置信区间,对样本数据生成分析结果,便于对进行更精确的风险分析与评估。
需要说明的是,分析结果包括:合格且包络(是否在置信区间),合格但不包络(是否在置信区间),不合格但包络(是否在置信区间)及不合格且不包络(是否在置信区间)。
与现有技术相比,本实施例提供的一种质量数据分析方法及***,基于采集的装备质量数据,运用数据相关性分析、数据异常性分析、小样本数据分析等技术,对试验质量数据进行冗余检测和剔除,并对小样本条件下的试验数据置信度进行评估,智能分析产品数据是否落在包络范围内,提前发现质量隐患或生产过程中存在的薄弱环节,实现质量管理控制精细化和智能化。
实施例2
本发明的另一个实施例,公开了一种质量数据分析***,从而实现实施例1中的质量数据分析方法。各模块的具体实现方式参照实施例1中的相应描述。该***包括:
检验特性指标获取模块,用于获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标;
待分析数据获取模块,用于根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据;
质量数据分析模块,用于根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。
由于本实施例质量数据分析***与前述质量数据分析方法相关之处可相互借鉴,此处为重复描述,故这里不再赘述。由于本***实施例与上述方法实施例原理相同,所以本***实施例也具有上述方法实施例相应的技术效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种质量数据分析方法,其特征在于,包括以下步骤:
获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标;
根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据;
根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。
2.根据权利要求1所述的质量数据分析方法,其特征在于,所述分别与对应的PPM阈值范围进行比较之前,还包括:如果待分析数据的数据量小于等于数量阈值,则通过构建t分布的置信度获取波动阈值,评估各个PPM值与理想PPM值的差距是否小于波动阈值,如果小于,则保留计算该PPM值的待分析数据。
3.根据权利要求1所述的质量数据分析方法,其特征在于,所述根据相关系数矩阵,去除冗余的检验特性指标,得到待分析的检验特性指标,包括:通过遍历和递归方法,将所有的N个检验特性指标分成多个成对组合,每个成对组合中第一组有i个指标,第二组是剩余的N-i个指标;从符合以下条件的成对组合中,取任一个数量最小的第二组的指标作为待分析的检验特性指标:第一组中每个指标与第二组所有指标的相关系数均大于相关性阈值,作为基本条件,且从第二组中取出任一个指标加入第一组后都不再满足基本条件。
4.根据权利要求3所述的质量数据分析方法,其特征在于,所述第一组中每个指标与第二组所有指标的相关系数是通过获取两组指标对应的质量数据的线性组合,使两组线性组合的皮尔逊相关系数最大而得到。
5.根据权利要求1所述的质量数据分析方法,其特征在于,所述根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据,包括:
基于统计分析,对每个待分析的检验特性指标的质量数据,通过z-score标准化处理后,将大于异常阈值的质量数据作为异常数据去除;
将各个待分析的检验特性指标标准化处理后的质量数据,分别传入训练好的变分自编码器,将得到的输出与输入进行差异比较,将差异值大于差异阈值的质量数据作为异常数据去除;
剩下的质量数据作为待分析数据。
6.根据权利要求5所述的质量数据分析方法,其特征在于,所述变分自编码器的损失函数包括一个重构项和一个KL散度正则项,且在KL散度正则项前增加了权重参数,用于减小KL散度正则项的权重。
7.根据权利要求1所述的质量数据分析方法,其特征在于,所述根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,包括:
采集各工序的缺陷数和严酷度系数,获取各工序缺陷总数;根据待分析的检验特性指标和待分析数据,获取各工序的检验特性指标对应的待分析数据的数量,作为各工序检验特性总数;根据各工序缺陷总数与对应的工序检验特性总数,获取各工序的PPM值;
根据生成过程中各产品所涉及工序的工序缺陷总数和工序检验特性总数,汇总得到各产品缺陷总数和各产品检验特性总数;根据各产品缺陷总数和对应的产品检验特性总数,获取各产品的PPM值;
根据各型号所属产品的产品缺陷总数和产品检验特性总数,汇总得到各型号缺陷总数和各型号检验特性总数,根据各型号缺陷总数和对应的型号检验特性总数,获取每个型号的PPM值。
8.根据权利要求1所述的质量数据分析方法,其特征在于,所述对不在PPM阈值范围内的待分析数据,进行数据包络分析包括:将不在PPM阈值范围内的待分析数据作为样本数据;获取成功数据,计算成功数据的置信区间,根据置信区间的范围表示样本数据是否在置信区间;根据预置的置信度获取成功数据的包络上限和包络下限,用于表示样本数据是否包络;根据预置的公差值获取合格上限和合格下限,用于表示样本数据是否合格;基于是否包络、是否合格和是否在置信区间,生成样本数据分析结果。
9.根据权利要求8所述的质量数据分析方法,其特征在于,所述获取成功数据,计算成功数据的置信区间,包括:根据样本数据对应的待分析的检验特性指标,分别统计各指标的成功数据,如果成功数据的数量大于数量阈值,则通过高斯混合密度函数GMM算法,构建置信区间;否则,通过t分布构建置信区间。
10.一种质量数据分析***,其特征在于,包括:
检验特性指标获取模块,用于获取生产过程中的质量数据和校验特性指标,根据质量数据和相关系数,去除冗余的检验特性指标,得到待分析的检验特性指标;
待分析数据获取模块,用于根据统计分析和变分自编码器,去除各个待分析的检验特性指标的质量数据的异常数据,得到待分析数据;
质量数据分析模块,用于根据待分析的检验特性指标和待分析数据,计算生产过程中的各个PPM值,并分别与对应的PPM阈值范围进行比较,对不在PPM阈值范围内的待分析数据,进行数据包络分析。
CN202310007166.5A 2023-01-04 2023-01-04 一种质量数据分析方法及*** Active CN116049157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310007166.5A CN116049157B (zh) 2023-01-04 2023-01-04 一种质量数据分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310007166.5A CN116049157B (zh) 2023-01-04 2023-01-04 一种质量数据分析方法及***

Publications (2)

Publication Number Publication Date
CN116049157A true CN116049157A (zh) 2023-05-02
CN116049157B CN116049157B (zh) 2024-05-07

Family

ID=86128997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310007166.5A Active CN116049157B (zh) 2023-01-04 2023-01-04 一种质量数据分析方法及***

Country Status (1)

Country Link
CN (1) CN116049157B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777292A (zh) * 2023-06-30 2023-09-19 北京京航计算通讯研究所 基于多批次小样本航天产品的缺陷率指标修正方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303311A (zh) * 2015-10-21 2016-02-03 中国人民解放军装甲兵工程学院 基于数据包络分析的评估指标选取方法及装置
US20180173733A1 (en) * 2016-12-19 2018-06-21 Capital One Services, Llc Systems and methods for providing data quality management
CN108304350A (zh) * 2017-12-25 2018-07-20 明阳智慧能源集团股份公司 基于大数据集近邻策略的风机指标预测与故障预警方法
US20180357205A1 (en) * 2015-11-26 2018-12-13 Human Metabolome Technologies Inc. Data analysis apparatus, method, and program
CN109101632A (zh) * 2018-08-15 2018-12-28 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法
CN110807605A (zh) * 2019-11-14 2020-02-18 北京京航计算通讯研究所 关键检验特性缺陷率统计方法
CN112149860A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种自动异常检测方法和***
CN112258689A (zh) * 2020-10-26 2021-01-22 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 船舶数据处理方法、装置和船舶数据质量管理平台
WO2021189904A1 (zh) * 2020-10-09 2021-09-30 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN113609698A (zh) * 2021-08-17 2021-11-05 北京无线电测量研究所 一种基于工艺故障数据库的工艺可靠性分析方法及***
US20210365421A1 (en) * 2020-05-20 2021-11-25 Hon Hai Precision Industry Co., Ltd. Data analysis method, computer device and storage medium
CN114036724A (zh) * 2021-10-19 2022-02-11 北京轩宇信息技术有限公司 一种航天产品技术指标成功包络线的分析方法及装置
US20220328332A1 (en) * 2021-04-13 2022-10-13 Accenture Global Solutions Limited Anomaly detection method and system for manufacturing processes
WO2022243764A1 (en) * 2021-05-18 2022-11-24 LEONARDO S.p.A Method and system for detecting anomalies relating to components of a transmission system of an aircraft, in particular a helicopter

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303311A (zh) * 2015-10-21 2016-02-03 中国人民解放军装甲兵工程学院 基于数据包络分析的评估指标选取方法及装置
US20180357205A1 (en) * 2015-11-26 2018-12-13 Human Metabolome Technologies Inc. Data analysis apparatus, method, and program
US20180173733A1 (en) * 2016-12-19 2018-06-21 Capital One Services, Llc Systems and methods for providing data quality management
CN108304350A (zh) * 2017-12-25 2018-07-20 明阳智慧能源集团股份公司 基于大数据集近邻策略的风机指标预测与故障预警方法
CN109101632A (zh) * 2018-08-15 2018-12-28 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法
CN112149860A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种自动异常检测方法和***
CN110807605A (zh) * 2019-11-14 2020-02-18 北京京航计算通讯研究所 关键检验特性缺陷率统计方法
US20210365421A1 (en) * 2020-05-20 2021-11-25 Hon Hai Precision Industry Co., Ltd. Data analysis method, computer device and storage medium
WO2021189904A1 (zh) * 2020-10-09 2021-09-30 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN112258689A (zh) * 2020-10-26 2021-01-22 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 船舶数据处理方法、装置和船舶数据质量管理平台
US20220328332A1 (en) * 2021-04-13 2022-10-13 Accenture Global Solutions Limited Anomaly detection method and system for manufacturing processes
WO2022243764A1 (en) * 2021-05-18 2022-11-24 LEONARDO S.p.A Method and system for detecting anomalies relating to components of a transmission system of an aircraft, in particular a helicopter
CN113609698A (zh) * 2021-08-17 2021-11-05 北京无线电测量研究所 一种基于工艺故障数据库的工艺可靠性分析方法及***
CN114036724A (zh) * 2021-10-19 2022-02-11 北京轩宇信息技术有限公司 一种航天产品技术指标成功包络线的分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. WANG, T. ZHANG, C. WANG AND X. SHI,: "Optimizing the Uncertainty of PPM on Small Batch of Quality Data", 2021 IEEE 6TH INTERNATIONAL CONFERENCE ON SMART CLOUD, 31 December 2021 (2021-12-31), pages 107 - 110 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777292A (zh) * 2023-06-30 2023-09-19 北京京航计算通讯研究所 基于多批次小样本航天产品的缺陷率指标修正方法
CN116777292B (zh) * 2023-06-30 2024-04-16 北京京航计算通讯研究所 基于多批次小样本航天产品的缺陷率指标修正方法

Also Published As

Publication number Publication date
CN116049157B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Scott et al. Bayes and empirical-Bayes multiplicity adjustment in the variable-selection problem
CN111027615B (zh) 基于机器学习的中间件故障预警方法和***
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN112685324B (zh) 一种生成测试方案的方法及***
Deming et al. Exploratory Data Analysis and Visualization for Business Analytics
CN111338972A (zh) 基于机器学习的软件缺陷与复杂度关联关系分析方法
CN116049157B (zh) 一种质量数据分析方法及***
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及***
Amazal et al. Estimating software development effort using fuzzy clustering‐based analogy
Ishii et al. Classification of time series generation processes using experimental tools: a survey and proposal of an automatic and systematic approach
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测***及介质
CN113920366A (zh) 一种基于机器学习的综合加权主数据识别方法
EP3109771A1 (en) Method, distributed system and device for efficiently quantifying a similarity of large data sets
Pauwels et al. Detecting and explaining drifts in yearly grant applications
Neela et al. Modeling Software Defects as Anomalies: A Case Study on Promise Repository.
Khoshgoftaar et al. Detecting noisy instances with the rule-based classification model
Sumargo Comparing better environmental knowledge based on education and income using the odds ratio
CN114756397B (zh) 一种回收设备的兼容处理方法及***
CN114722081A (zh) 一种基于中转库模式的流式数据时间序列传输方法及***
Nurunnabi et al. Robust-diagnostic regression: a prelude for inducing reliable knowledge from regression
Kahraman et al. Fuzzy estimations of process incapability index
CN115410718B (zh) 一种评估大型面对面调查中调查员误差的方法
CN113377746B (zh) 一种试验报告数据库构建和智能诊断分析***
Uddin et al. Actor-level dynamicity: Its distribution analysis eases anomaly detection in longitudinal networks
CN113378560B (zh) 一种基于自然语言处理的试验报告智能诊断分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant