CN116910526A - 模型训练方法、装置、通信设备及可读存储介质 - Google Patents

模型训练方法、装置、通信设备及可读存储介质 Download PDF

Info

Publication number
CN116910526A
CN116910526A CN202310075185.1A CN202310075185A CN116910526A CN 116910526 A CN116910526 A CN 116910526A CN 202310075185 A CN202310075185 A CN 202310075185A CN 116910526 A CN116910526 A CN 116910526A
Authority
CN
China
Prior art keywords
sample
sample data
abnormal
detection
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310075185.1A
Other languages
English (en)
Inventor
纪春芳
郭曦煜
邱婉
王础
刘遥遥
吴鹏
陈澜涛
赵学峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310075185.1A priority Critical patent/CN116910526A/zh
Publication of CN116910526A publication Critical patent/CN116910526A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供一种模型训练方法、装置、通信设备及可读存储介质,该方法包括:对样本数据进行单维度异常检测和多维度异常检测,确定异常样本;基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;通过处理后的样本数据对所述目标模型进行训练。

Description

模型训练方法、装置、通信设备及可读存储介质
技术领域
本申请实施例涉及模型训练技术领域,具体涉及一种模型训练方法、装置、通信设备及可读存储介质。
背景技术
对于机器学习来说,没有高质量的数据集作为前提,模型就学习不到有用的知识。所有的机器学习/深度学习任务,必须要有大量的可信样本输入,模型才能兼顾效率和准确度。我们收集到的数据可能包括噪声、测量偏差或者产生机制所不能解释的例外情况。这些异常数据如果将来用在训练模型中就是异常样本,异常样本虽然是小概率事件,但是如果不对异常样本进行处理,可能会降低模型的准确率和可解释性。
发明内容
本申请实施例在于提供一种模型训练方法、装置、通信设备及可读存储介质,解决如何提高模型的准确率和可解释性的问题。
第一方面,提供一种模型训练方法,包括:
对样本数据进行单维度异常检测和多维度异常检测,确定异常样本;
基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;
通过处理后的样本数据对所述目标模型进行训练。
可选的,对所述样本数据进行单维度异常检测和多维度异常检测,确定异常样本,包括:
对所述样本数据进行单维度异常检测;
如果所述样本数据中包括数值型特征和/或布尔型特征,则对所述样本数据进行相关性检测,否则,对所述样本数据中的离散特征进行编码,再对所述样本数据进行相关性检测;
根据所述样本数据中的相关性检测结果,构造相关关系的特征簇;
通过构造的相关关系的特征簇,对所述样本数据进行多维度异常检测;
根据单维度异常检测和多维度异常检测的结果,确定异常样本。
可选的,对离散特征进行编码,包括:
计算离散特征组合在连续两个采集周期的取值个数;
计算离散特征取值个数的变化率;
将所述样本数据按照变化率排序;
采用所述变化率作为离散特征编码或对排序后的离散特征按照顺序依次编码。
可选的,所述方法还包括:
通过异常样本中正样本占比和基准评估指标的对比,构建样本数据的特征取值异常的分类规则;
根据所述分类规则,对数据集中的样本数据进行分类。
第二方面,提供一种模型训练装置,包括:
确定模块,用于对样本数据进行单维度异常检测和多维度异常检测,确定异常样本;
处理模块,用于基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;
第一训练模块,用于通过处理后的样本数据对所述目标模型进行训练。
可选的,装置还包括:
第二训练模块,用于通过样本数据对目标模型进行预训练。
可选的,所述确定模块进一步用于:
对所述样本数据进行单维度异常检测;
如果所述样本数据中包括数值型特征和/或布尔型特征,则对所述样本数据进行相关性检测,否则,对所述样本数据中的离散特征进行编码,再对所述样本数据进行相关性检测;
根据所述样本数据中的相关性检测结果,构造相关关系的特征簇;
通过构造的相关关系的特征簇,对所述样本数据进行多维度异常检测;
根据单维度异常检测和多维度异常检测的结果,确定异常样本。
可选的,对离散特征进行编码,包括:
计算离散特征组合在连续两个采集周期的取值个数;
计算离散特征取值个数的变化率;
将所述样本数据按照变化率排序;
采用所述变化率作为离散特征编码或对排序后的离散特征按照顺序依次编码。
可选的,所述装置还包括:
分类模块,通过异常样本中正样本占比和基准评估指标的对比,构建样本数据的特征取值异常的分类规则;根据所述分类规则,对数据集中的样本数据进行分类。
第七方面,提供一种通信设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面,第二方面或第三方面所述的方法的步骤。
第八方面,提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面,第二方面或第三方面所述的方法的步骤。
在本申请实施例中,可以先进行单维异常检测,再进行多维异常检测,确保既可发现单维数据异常问题,又可发现关联异常问题,然后基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,选择合适的样本处理方法对所述样本数据中的异常样本进行处理,最后通过处理后的样本数据对所述目标模型进行训练,提高训练得到的模型的准确率和可解释性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是异常数据诊断示意图之一;
图2是异常数据诊断示意图之二;
图3是本申请实施例提供的模型训练方法的流程图之一;
图4是本申请实施例提供的模型训练方法的流程图之二;
图5是本申请实施例提供的编码方案的示意图;
图6是本申请实施例提供的编码示例;
图7是本申请实施例提供的模型训练装置的示意图;
图8是本申请实施例提供的通信设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“包括”以及它的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,说明书以及权利要求中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B,表示包含单独A,单独B,以及A和B都存在三种情况。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
样本异常检测只是第一步,实际应用时需根据数据表现制定合理的处理手段。现有的异常检测往往只能检测,后续的数据处理和异常解释只能依靠业务知识。现有方案针对单个属性特征,往往采用基于假设检验的统计方法、基于度量空间的距离和密度方法;针对多个属性特征有基于建模(聚类分析、分割森林)的方法。现有对异常样本的处理大致分为两类:一类是对异常样本中的异常值设为缺失值、填充、不处理;其次是直接剔除样本。
现有传统方法存在如下缺点:
1、现有技术方案往往是针对单列特征属性的异常数据诊断,难以很好地处理多列特征关联异常问题,如图1所示的异常问题。
2、异常数据诊断后,现有方案往往采用空值/均值/众数/零值填充方法。而基于模型填充方法,如回归模型,通过属性间的回归模型拟合填充值,但需要对每个不完备属性建立一个模型,训练量较大。
3、现有异常检测方案,没有考虑离散特征的编码方式,导致基于统计和基于距离的方法无法较好的发挥,检测结果不够准确,且无法指导后续的数据处理。
4、现有方案对异常数据处理后没有检验对模型效果的影响,实际生产数据是复杂多变的,单纯从数据层面看数据异常并直接处理有时过于武断,可能会降低模型准确率。比如如图2所示的数据,特征“套餐内包含短信数”有部分样本值异常,但是这些异常样本中正样本占比高于模型的查准率,那么对这些样本剔除或者填充均不合适。
参见图3,本申请实施例提供一种模型训练方法,具体步骤包括:步骤301、步骤302、步骤303。
步骤301:对样本数据进行单维度异常检测和多维度异常检测,确定异常样本;
上述样本数据是数据集(或者称为训练集)中的样本数据,该数据集包括用于对目标模型进行训练的数据。
上述异常样本是指特征取值异常的样本。上述单维度异常检测是检测单个特征取值异常,多维度异常检测是检测具有关联关系的至少两个特征取值异常。在步骤301中,先进行单维异常检测,再进行多维异常检测,确保既可发现单维数据异常问题,又可发现关联异常问题。
可选的,在步骤301之前,通过样本数据对目标模型进行预训练。
步骤302:基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;
在本实施例中,基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,可以确定异常样本的异常原因,再根据异常样本的异常原因选择对应的处理方式对异常样本进行更新处理,提高异常样本处理的准确率和泛化能力。
在本实施例中,为了兼顾异常检测的效率,通过步骤302对所有单个特征取值异常的样本统一更新处理后再进行模型训练和评估,如果在步骤301之前通过样本数据对目标模型进行预训练,则单维异常检测只需重训练一次。
异常样本检测可帮助找到数据中一些具有代表性或者不具代表性的样本。剔除异常样本后的样本空间更可信,可信样本在模型训练中可保证模型的准确性、稳定性和可靠性,可信样本能够准确反映母体样本的情况,因而可以推断剩余对象的规律,避免不具有代表性样本使模型过度泛化;剔除异常样本后的样本空间更具代表性,这些代表性的样本可以更好的来解释聚类/分类结果。
步骤303:通过处理后的样本数据对所述目标模型进行训练。
本实施例中的目标模型可以是分类和/或回归等有监督模型。
在本申请的一种实施方式中,对所述样本数据进行单维度异常检测和多维度异常检测,确定异常样本,包括:
对所述样本数据进行单维度异常检测;
如果所述样本数据中包括数值型特征和/或布尔型特征,则对所述样本数据进行相关性检测,否则,对所述样本数据中的离散特征进行编码,再对所述样本数据进行相关性检测;
根据所述样本数据中的相关性检测结果,构造相关关系的特征簇;
通过构造的相关关系的特征簇,对所述样本数据进行多维度异常检测;
根据单维度异常检测和多维度异常检测的结果,确定异常样本。
在本实施例中,在单维异常检测基础上,通过相关性分析构造特征簇,并按簇并行进行多维度异常检测,确保既可发现单维数据异常问题,又可发现关联异常问题,同时提高检测精度,利于后续数据填充和替换。
在本申请的一种实施方式中,参见图5,对离散特征进行编码,包括:
步骤1:计算离散特征组合在连续两个采集周期的取值个数;
比如,当前终端型号为苹果-A1223,上一个周期样本数为18,下一个周期样本数为10;当前终端型号为苹果-A2634,上一个周期样本数为83,下一个周期样本数为85;当前终端型号为OPPO-PFJM10G,上一个周期样本数为27,下一个周期样本数为37;当前终端型号为小米-M2007J22CG,上一个周期样本数为16,下一个周期样本数为24,如图6所述。
步骤2:计算离散特征在连续两个采集周期上取值个数的变化率;
比如,(下一个周期样本数-上一个周期样本数)/上一个周期样本数=变化率,苹果-A1223对应的变化率为-0.444444,如图6所述。
步骤3:将所述样本数据按照变化率排序;
步骤4:采用所述变化率作为离散特征编码或对排序后的离散特征按照顺序依次编码。
如图6所示,苹果-A1223对应的编码_1是变化率-0.444444,或者对应的编码_2为0。
在本实施例中,为了更好的表征离散特征,使得异常检测和相关性检测更准确,提出基于所述变化率的编码方式。
在本申请的一种实施方式中,在单维异常检测用于分类任务时,所述方法还包括:
通过异常样本中正样本占比和基准评估指标的对比,构建样本数据的特征取值异常的分类规则;
根据所述分类规则,对数据集中的样本数据进行分类。
可以先进行单维异常检测,再进行多维异常检测,确保既可发现单维数据异常问题,又可发现关联异常问题,然后基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,选择合适的样本处理方法对所述样本数据中的异常样本进行处理,最后通过处理后的样本数据对所述目标模型进行训练,提高训练得到的模型的准确率和可解释性。
为了便于理解本申请的实施方式,下面结合图4~图6进行介绍。
步骤1:模型训练。
首先基于常规的数据预处理方法(数据清洗、填充等),直接训练数据,快速构建一个基础(baseline)的模型,并根据具体场景选择合适的评估指标,如在测试集上top n的命中率(也可以是最高f1值、均方误差(Mean Square Error,mse)、准确率等其他指标),记为base_indicator。
步骤2:异常样本检测;
样本主要是用于模型训练的,本实施例适用于分类和回归等有监督模型训练任务。其次对样本的检测主要是对样本数据中特征的检测,因为离散变量和连续变量不同,可能不是数值,无法进行距离计算,需要考虑合适的编码方式。
步骤21、单维度异常检测。
对连续特征,采用基于假设检验的统计方法检测异常值,该方法假设数据集服从正态分布,用N(μ,σ)表示,其中μ是均值,σ是标准差。数据落在(μ-3σ,μ+3σ)之外的概率仅有0.27%,落在(μ-4σ,μ+4σ)之外的区域的概率仅有0.01%,使用时可根据需求设置一定的阈值,不在置信区间内的样本判定为异常样本s_normal。
对离散特征,如果特征取值中包括空值,含空值的样本标记为异常样本,标记为s_anormal。
假设当前训练集为s,且后续模型任务是分类任务,那么对基于其中一个特征检测到的s_anormal的处理步骤如下:
步骤1a:如果s_anormal占比不足0.0001,则更新训练集s_update=s-s_anormal为训练集(相当于删除s_anormal),执行步骤3a;否则执行步骤2a;
步骤2a:计算s_anormal中正样本占比,假设为pos_pro。
如果pos_pro==0,相关样本直接判定为负样本即可,并且待预测数据集中该特征取值和训练集相同时,相关样本直接分为负样本;
再次判断(Elif)pos_pro>base_indicator,相关样本直接判定为正样本,并且待预测数据集中该特征取值和训练集相同时,相关样本直接分为正样本;
否则(Else),
如果(if)该特征为离散或布尔特征,
如果(if)“空值”和“0/1”或其他某一个枚举值代表的业务含义相同,则“空值”用0/1/其他枚举值填充,
否则(Else)“空值”用现有取值之外的其他数值填充,
否则(else),
如果(if)s_anormal中该特征取值>置信区间中的最大值,则s_anormal中该特征取值用置信区间最大值填充,
否则(Else)s_anormal中该特征取值用置信区间最小值填充。
更新训练集s_update。
步骤3a:该特征处理完毕
对所有特征,并行执行步骤1a~3a,待所有特征执行结束后,进入下面步骤4a~5a。
步骤4a:使用baseline模型中的模型架构和参数对训练集进行训练,假设测试集上的评估指标为tmp_indicator。
步骤5a:如果base_indicator>tmp_indicator,训练集=s,否则,训练集=s_update。
假设当前训练集为s,且后续模型任务是回归任务,那么对s_anormal的处理步骤如下:
步骤1b:如果s_anormal占比不足0.0001,则s_update=s-s_anormal为训练集(相当于删除s_anormal),执行步骤3b;否则执行步骤2b;
步骤2b:如果该特征为离散或布尔特征,
如果“空值”和“0/1”或其他某一个枚举值代表的业务含义相同,则“空值”用“0/1”/其他枚举值填充,
否则,“空值”用现有取值之外的其他数值填充,
否则,
如果,s_anormal中该特征取值>置信区间中的最大值,则s_anormal中该特征取值用置信区间最大值填充,
否则,s_anormal中该特征取值用置信区间最小值填充,
更新训练集s_update。
步骤3b:该特征处理完毕。
对所有特征,并行执行步骤1b~3b,待所有特征执行结束后,进入下面步骤4b~5b。
步骤4b:使用baseline模型中的模型架构和参数对训练集进行训练,假设测试集上的评估指标为tmp_indicator,
步骤5b:如果base_indicator>tmp_indicator,训练集=s,否则,训练集=s_update。
步骤22、多维度异常检测和处理。
(1)相关性检验。
如果样本数据只包括数值型和布尔型特征,可以直接用相关性分析方法计算特征间的相关性,否则需要先对离散特征进行编码。
考虑到phi_k方法基于对皮尔逊两个变量独立性假设检验的若干改进,可有效的对分类变量、序数变量和连续变量进行相关性检验。本实施例中的相关性检验可以采用phi_k方法。
(2)离散特征编码。
因为相关性分析和异常检测时均要计算距离,对于取值个数较多的离散特征(如终端型号)直接标签编码(labelencode)会影响准确率,采用独热(onehot)编码又会出现维度***,本实施例采用如下编码方案有效解决离散特征编码后仍可表征特征间距离的问题。具体编码方案和以终端型号的编码示例分别如下图5和图6。
(3)构造相关关系的特征簇。
对于相关性大于一定阈值(比如,一般设置为0.5)的特征(标签(label)除外),需构造进行联合分析的特征簇;也可以根据业务经验指定需进行联合分析的特征簇。其中特征簇的构造过程如下:
假设阈值设置为α且corr(A,B)表示样本中两个特征A、B的相关性,有相关关系的特征簇用{}表示。
找到所有相关性大于α的特征对:
对其中一对特征(A,B),
如果A,B不在已有的特征簇集合中:
新特征簇={A,B},
样本中其他任意一个不在特征簇中的特征other_feature:
如果corr(A,other_feature)>=αor corr(B,other_feature)>=α,
新特征簇={A,B,other_feature}。
(4)多维度异常检测和处理。
基于编码后样本s_code筛选出的多个特征簇,对其中一个特征簇s_code_partFeature,假设单维异常检测处理和模型重训后,测试集上的评估指标为new_indicator,异常样本检测和处理的过程如下:
步骤1c:使用孤立森林、自编码器等多维异常检测的方法检测s_code_partFeature中是否包括异常样本,对检测到的异常样本,标记为s_anormal
步骤2c:如果s_anormal占比不足0.0001,则s_code_update=s_code-s_anormal为训练集(相当于删除s_anormal),执行步骤4c;否则执行步骤3c。
步骤3c:对s_anormal中的连续特征,如果有空值或者数据预处理阶段的填充值,用异常样本前后正常样本(前后各取一个样本)取值的平均值进行填充,更新s_code为s_code_update作为训练集,执行步骤4c。
步骤4c:使用baseline模型中的模型架构和参数对训练集进行训练,假设测试集上的评估指标为tmp_indicator。
步骤5c:根据tmp_indicator和new_indicator的比较结果,更新训练集。
如果new_indicator>tmp_indicator,训练集=s_code,否则,训练集=s_code_update。
步骤6c:对其他特征簇,并行执行步骤1c~5c,直到所有需联合分析的特征簇分析完毕。
参见图7,本申请实施例提供一种模型训练装置,该装置700包括:
确定模块701,用于对所述样本数据进行单维度异常检测和多维度异常检测,确定异常样本;
处理模块702,用于基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;
第一训练模块703,用于通过处理后的样本数据对所述目标模型进行训练。
在本申请的一种实施方式中,装置还包括:第二训练模块,用于通过样本数据对目标模型进行预训练。
在本申请的一种实施方式中,所述确定模块701进一步用于:
对所述样本数据进行单维度异常检测;
如果所述样本数据中包括数值型特征和/或布尔型特征,则对所述样本数据进行相关性检测,否则,对所述样本数据中的离散特征进行编码,再对所述样本数据进行相关性检测;
根据所述样本数据中的相关性检测结果,构造相关关系的特征簇;
通过构造的相关关系的特征簇,对所述样本数据进行多维度异常检测;
根据单维度异常检测和多维度异常检测的结果,确定异常样本。
在本申请的一种实施方式中,对离散特征进行编码,包括:
计算离散特征组合在连续两个采集周期的取值个数;
计算离散特征取值个数的变化率;
将所述样本数据按照变化率排序;
采用所述变化率作为离散特征编码或对排序后的离散特征按照顺序依次编码。
在本申请的一种实施方式中,所述装置还包括:
分类模块,通过异常样本中正样本占比和基准评估指标的对比,构建样本数据的特征取值异常的分类规则;根据所述分类规则,对测试集中的样本数据进行分类。
本申请实施例提供的装置能够实现图3所示的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
如图8所示,本申请实施例还提供一种通信设备800,包括处理器801,存储器802,存储在存储器802上并可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述图3方法实施例的各个过程,且能达到相同的技术效果。为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图3所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的终端中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以由在处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、移动硬盘、只读光盘或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以携带在ASIC中。另外,该ASIC可以携带在核心网接口设备中。当然,处理器和存储介质也可以作为分立组件存在于核心网接口设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。
本领域内的技术人员应明白,本申请实施例可提供为方法、***、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
对样本数据进行单维度异常检测和多维度异常检测,确定异常样本;
基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;
通过处理后的样本数据对所述目标模型进行训练。
2.根据权利要求1所述的方法,其特征在于,对所述样本数据进行单维度异常检测和多维度异常检测,确定异常样本,包括:
对所述样本数据进行单维度异常检测;
如果所述样本数据中包括数值型特征和/或布尔型特征,则对所述样本数据进行相关性检测,否则,对所述样本数据中的离散特征进行编码,再对所述样本数据进行相关性检测;
根据所述样本数据中的相关性检测结果,构造相关关系的特征簇;
通过构造的相关关系的特征簇,对所述样本数据进行多维度异常检测;
根据单维度异常检测和多维度异常检测的结果,确定异常样本。
3.根据权利要求2所述的方法,其特征在于,对离散特征进行编码,包括:
计算离散特征组合在连续两个采集周期的取值个数;
计算离散特征取值个数的变化率;
将所述样本数据按照变化率排序;
采用所述变化率作为离散特征编码或对排序后的离散特征按照顺序依次编码。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过异常样本中正样本占比和基准评估指标的对比,构建基于异常数据取值的分类规则;
根据所述分类规则,对数据集中的样本数据进行分类。
5.一种模型训练装置,其特征在于,包括:
确定模块,用于对样本数据进行单维度异常检测和多维度异常检测,确定异常样本;
处理模块,用于基于异常样本占比、异常样本中正样本占比和预训练过程中目标模型的表现中的至少一项,对所述样本数据中的异常样本进行处理;
第一训练模块,用于通过处理后的样本数据对所述目标模型进行训练。
6.根据权利要求5所述的装置,其特征在于,所述确定模块进一步用于:
对所述样本数据进行单维度异常检测;
如果所述样本数据中包括数值型特征和/或布尔型特征,则对所述样本数据进行相关性检测,否则,对所述样本数据中的离散特征进行编码,再对所述样本数据进行相关性检测;
根据所述样本数据中的相关性检测结果,构造相关关系的特征簇;
通过构造的相关关系的特征簇,对所述样本数据进行多维度异常检测;
根据单维度异常检测和多维度异常检测的结果,确定异常样本。
7.根据权利要求5所述的装置,其特征在于,对离散特征进行编码,包括:
计算离散特征组合在连续两个采集周期的取值个数;
计算离散特征取值个数的变化率;
将所述样本数据按照变化率排序;
采用所述变化率作为离散特征编码或对排序后的离散特征按照顺序依次编码。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
分类模块,通过异常样本中正样本占比和基准评估指标的对比,构建样本数据的特征取值异常的分类规则;根据所述分类规则,对数据集中的样本数据进行分类。
9.一种通信设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至4中任一项所述的方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至4中任一项所述的方法的步骤。
CN202310075185.1A 2023-01-16 2023-01-16 模型训练方法、装置、通信设备及可读存储介质 Pending CN116910526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310075185.1A CN116910526A (zh) 2023-01-16 2023-01-16 模型训练方法、装置、通信设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310075185.1A CN116910526A (zh) 2023-01-16 2023-01-16 模型训练方法、装置、通信设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116910526A true CN116910526A (zh) 2023-10-20

Family

ID=88365516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310075185.1A Pending CN116910526A (zh) 2023-01-16 2023-01-16 模型训练方法、装置、通信设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116910526A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313900A (zh) * 2023-11-23 2023-12-29 全芯智造技术有限公司 用于数据处理的方法、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313900A (zh) * 2023-11-23 2023-12-29 全芯智造技术有限公司 用于数据处理的方法、设备和介质
CN117313900B (zh) * 2023-11-23 2024-03-08 全芯智造技术有限公司 用于数据处理的方法、设备和介质

Similar Documents

Publication Publication Date Title
CN102112933B (zh) 异常检测方法及***
CN111367961A (zh) 基于图卷积神经网络的时序数据事件预测方法、***及其应用
CN114509266B (zh) 一种基于故障特征融合的轴承健康监测方法
CN114936158B (zh) 一种基于图卷积神经网络的软件缺陷定位方法
CN116881832B (zh) 旋转机械设备故障诊断模型的构建方法及装置
CN117034143B (zh) 一种基于机器学习的分布式***故障诊断方法及装置
Son et al. Deep learning-based anomaly detection to classify inaccurate data and damaged condition of a cable-stayed bridge
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN113919540A (zh) 一种生产过程运行状态的监测方法及相关设备
CN110717602B (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
Chou et al. SHM data anomaly classification using machine learning strategies: A comparative study
Yousefpour et al. Unsupervised anomaly detection via nonlinear manifold learning
Li et al. Structural health monitoring data anomaly detection by transformer enhanced densely connected neural networks
CN112164428B (zh) 基于深度学习的药物小分子性质预测方法和装置
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模***
CN111290953B (zh) 分析测试日志的方法与装置
CN116720079A (zh) 基于多特征融合的风力发电机故障模式识别方法及***
CN115184054B (zh) 机械设备半监督故障检测分析方法、装置、终端及介质
CN114443506B (zh) 一种用于测试人工智能模型的方法及装置
CN116151107A (zh) 一种岩浆型镍钴成矿潜力的识别方法、***及电子设备
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
CN111881040A (zh) 一种基于循环神经网络的抽象状态模型的测试数据生成方法
Bashar et al. Algan: Time series anomaly detection with adjusted-lstm gan
US20220027779A1 (en) Value over replacement feature (vorf) based determination of feature importance in machine learning
CN118211171A (zh) 一种基于知识图谱的目标路径挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination