CN117150232B

CN117150232B - 一种大模型非时序训练数据质量评价方法

Info

Publication number: CN117150232B
Application number: CN202311405741.3A
Authority: CN
Inventors: 王攀; 刘沣汉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-06
Anticipated expiration: 2043-10-27
Also published as: CN117150232A

Abstract

本发明公开了一种大模型非时序训练数据质量评价方法，从宏观与微观两个角度出发对大模型预训练数据集的质量做出评价。宏观层面：对数据集总量、数据类分布情况进行检查，考虑到数据的特殊性，还对数据集时效性进行检查，对数据集质量进行初步评价。微观层面：将数据集特征与标签的关联强度作为数据集质量评价标准，对数据集进行评价时为了降低大规模数据集背景下的工作量，预先采用分层抽样的方法对原始数据集进行样本抽取；评价过程包括特征重排列测试、标签重排列测试，并通过置换检测进行辅助，对数据集的质量作出评价。该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估，降低数据集质量对模型训练结果的影响，减少模型迭代成本。

Description

一种大模型非时序训练数据质量评价方法

技术领域

本发明属于数据集的质量评价领域，主要涉及一种大模型非时序训练数据质量评价方法。

背景技术

随着人工智能技术的发展，大模型（如GPT、BERT等）在各个领域都展现出了强大的能力和潜力。这些大模型的训练依赖于大量的数据，数据的质量直接影响了模型的性能和效果。然而，大模型预训练数据集的来源多样，包括网页、社交媒体、新闻、百科等，这些数据往往存在噪声、偏差、重复、错误等问题，导致数据集的质量难以保证。目前，对于大模型训练数据集的质量评价还缺乏足够的关注和研究，很多数据集没有公开或者没有经过充分的验证。这对于大模型训练带来了很大的挑战，因为大模型训练难度大，训练周期长，低质量的数据集会影响大模型的性能进而造成时间和金钱的浪费。因此，开展大模型训练数据集评价是很有必要的，它可以筛选出高质量的数据集，提高大模型训练的效率和效果，促进人工智能技术的发展和应用。

现有技术中，主流的数据质量评价的方法可分为两大类:1)定量方法;2)定性方法。常用的定量方法有统计分析、实验研究和实证评价，大多仅仅聚焦于数据的完整性和准确性，以确定它们是否达到质量标准，缺乏对数据集内部结构的深刻评价。定性方法常见的有审查数据源头，采访主要采集者和考察数据采集环境等，然而机器学习所需的数据集相当庞大，使用定性方法评估质量通常是不现实的。故而目前仍然缺少一种全面且实用的流量数据集评价方法。

发明内容

本发明所要解决的问题是：提供一种大模型非时序训练数据质量评价方法，用于解决大模型预训练数据规模大、来源多样，数据质量难以评价的问题。

本发明采用如下技术方案：一种大模型非时序训练数据质量评价方法，包括以下步骤：

步骤1、收集原始数据集，根据原始数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价；

步骤2、对原始数据集进行进行标签重排列，形成实验数据集：将原始数据集按照标签进行分组，并将分组后各组的数据样本标签进行随机交换，与其他组的样本特征组合得到新的实验数据集，所述标签为需要进行分类的具体类别；

步骤3、进行相关系数测试：计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数，对特征与标签的关联强度进行评价，并观察随着标签重排列比例的上升，斯皮尔曼相关系数的变化趋势；

步骤4、采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取，形成所需的训练集与测试集；

步骤5、进行性能表现测试：通过上述分层抽样所形成的训练集与测试集在由K近邻、支持向量机、决策树、随机森林四种ML分类算法分类器池上的性能表现，对特征与标签之间的关联性进行验证；

步骤6、若观察到随着标签重排列比例的上升，性能指标随之下降后，计算各个特征对模型性能下降贡献度，得出数据集质量评价结果。

具体的，步骤1中，宏观评价包括：

S1.1、对数据集的数据总量进行统计，确保数据集包含的样本总数达到需要的规模；

S1.2、对数据集的类分布情况进行检查，确保数据类别分布平衡，使样本数据量最少的类的数据量和样本数据量最多的类的数据量相比，数据量差值不高于预设；

S1.3、对数据进行实时性进行分析，基于数据的时效性，数据集上传时间与数据集采集时间的间隔在预设时间内。

步骤2中，标签重排列方法包括：通过标签重排列打乱原始数据集，将各个组别的标签与其他组别的特征值进行组合，按照标签的具体类别，将得到的数据集分为Group 1、Group 2、Group3 ......Group n，设定评估过程中的排列比例，从各组数据样本中依次抽取所述排列比例的标签进行随机交换，与其他组的样本特征组合得到新的实验数据集。

步骤3在相关系数测试时，使用斯皮尔曼相关系数作为相关系数测试的评价指标，计算过程如下：

假设待评估数据集包含n个样本，特征变量X和标签变量Y的观测值分别为：

;

在特征变量X和标签变量Y的观测值中，x_i为样本i的特征变量，y_i为样本i的标签变量，i=1,2...n；

则对应的秩为:

;

在特征变量X和标签变量Y对应秩中，和/>表示样本x_i和y_i的秩；

特征与标签之间的斯皮尔曼相关系数的计算公式为:

;

其中，n表示的是样本量，表示第i个样本特征变量X的秩与标签变量Y的秩之间的差值，/>表示每个样本的秩差的平方和。

步骤3相关系数测试，方法包括如下子步骤：

S3.1、假设数据集由m个特征，计算原数据集各特征与标签的斯皮尔曼相关系数P_j；

S3.2、按照标签重排列过程，对待评价数据集进行标签打乱；

S3.3、对于每个标签重排列比例下特征与标签的相关系数进行多次计算，每次计算所使用的数据集的标签重排列百分比相同，但排列次序各不相同，在该排列比例下形成了t个排列次序不同的数据集即进行了t次计算，得到对应的斯皮尔曼相关系数；

S3.4、对得到的斯皮尔曼相关系数取平均值作为该排列比例最终的相关系数，表示特征j和标签Y之间的斯皮尔曼相关系数，公式如下：

。

步骤4通过分层抽样的方法形成微观评价时所需要的测试集和训练集，分层抽样的过程包括如下子步骤：

S4.1、通过步骤1得到数据集总量为Q，通过数据集的标签即需要进行分类的具体类别对原数据集进行分组；

S4.2、确定测试集的样本数量为Q1，训练集的样本数量为Q2，且Q2>>Q1；

S4.3、确定测试集的抽样比例为k1，训练集的抽样比例为k2，抽样比例的计算公式为：

;

S4.4、按照上述测试集抽样比例k1从各组独立地抽取数据样本将其组合作为测试集，按照训练集抽样比例k2从各组独立地抽取数据样本将其组合作为训练集。

步骤5在性能表现测试时，基于宏观评价中已经排除了数据集出现类别不均衡的情况，将准确率作为此处性能表现评价的统一性能指标，仅将整体分类任务的准确率作为评判标准，不比较具体各个类别的准确率：

；

其中，TP为所有类别将正类预测为正类的样本总数，TN为所有类别将负类预测为负类的样本总数，FP为所有类别将负类预测为正类的样本总数，FN为所有类别将正类预测为负类的样本总数。

进一步的，步骤5性能表现测试包括如下子步骤：

S5.1、在进行标签重排列测试前，使用原始数据集在KNN、SVM、DT、RF四个经典分类器上得出准确率记为M，作为性能系数；

S5.2、使用在每个标签重排列比例下形成的t个排列次序不同的数据集进行准确率测试，得到对应的性能系数；

S5.3、对得到的性能系数取平均值作为该排列比例最终的性能系数M_f，公式如下:

。

步骤6中计算模型性能下降贡献度时，方法包括：在观察到性能指标下降后，计算各个特征对模型性能下降贡献度，模型性能下降可以近似看成每个特征的权重与其相关度下降的乘积之和，反推得出各个特征对模型性能下降贡献度D的计算公式：

；

其中，W_j为各个特征在分类器池中各个分类器上的权重;

为原始数据集各个特征的相关系数与标签重排列后特征相关系数之差;

D_j为各个特征j对模型性能下降贡献度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明公开的大模型非时序训练数据质量评价方法，从宏观与微观两个角度出发对数据集的质量做出评价，通过该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估，降低数据集质量对模型训练结果的影响，减少模型迭代成本。

附图说明

图1 是本发明训练数据质量评价方法流程图；

图2 是本发明的分层抽样示意图；

图3 是本发明的数据集标签重排列示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对申请的技术方案做进一步地详尽阐述，所描述的实施例，也只是本发明所涉及实施例的一部分。本领域其他研究人员在该实施例上的所有非创新型实施例，都属于本发明的保护范围。同时对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明一种大模型非时序训练数据质量评价方法，如图1所示，包括以下步骤：

步骤1、在收集到数据集后，先从数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价。

具体的评价方法如下：1.对数据集的数据总量进行统计，需要确保数据集包含的样本总数必须达到一定规模。2.对数据集的类分布情况进行检查，数据集各类别所包含的样本数量应该大致相同，确保数据类别分布平衡。3.由于大部分数据具有时效性，间隔时间过长的历史数据可能导致模型在现实场景中失效，所以对数据集进行时效性分析。

通常，样本数量最大的类别与最小的类别之比超过10:1时认定为严重的类别不平衡，当类别比例超过4:1时,则已存在类别不均衡问题。

本实施例中，为了更好的应对不同的机器学***衡的数据集的应该满足条件：

；

实时性的具体量化为数据集上传时间Ts与数据集的采集时间Tc的间隔应该在31天内，通过计算两者时间戳之差来实现：

；

步骤2、在对数据集进行微观评价前，先通过标签重排列打乱原始数据集即将各个组别的标签与其他组别的特征值进行组合，将待评估数据集按照标签即需要进行分类的具体类别将数据集分为Group 1、Group 2、Group3 ......Group n，数据集标签重排列过程如图3所示。

标签为需要进行分类的具体类别，本实施例中，设定评估过程中要排列的标签百分比为1%，5%，10%，25%，50%。

各组的数据样本依次抽取上述排列比例的标签进行随机交换，与其他组的样本特征组合得到新的数据集。

步骤3、进行相关系数测试，以斯皮尔曼相关系数作为评价指标，斯皮尔曼相关系数完整的计算过程如下：

；

则对应的秩为:

；

特征与标签之间的斯皮尔曼相关系数的计算公式为:

；

其中，n表示的是样本量，表示第i个样本,特征变量X的秩与标签变量Y的秩之间的差值，/> 表示每个样本的秩差的平方和。

假设数据集由m个特征，在进行标签重排列测试前，先计算原数据集各特征与标签的斯皮尔曼相关系数P_j。

对于每个标签重排列比例下特征与标签的相关系数进行多次计算，保证每次计算所使用的数据集的标签重排列百分比相同，但排列次序各不相同。在该排列比例下形成了10个排列次序不同的数据集即进行了10次计算，得到对应的斯皮尔曼相关系数，对得到的斯皮尔曼相关系数取平均值作为该排列比例最终的相关系数。

表示特征j和标签Y之间的斯皮尔曼相关系数：

；

本实施例中，依次得到标签排列百分比为1%，5%，10%，25%，50%的数据集各个特征与标签的相关系数，若是高质量数据集，原始标签与特征之间应该存在正确的对应关系，那么随着标签打乱比例的不断增加，再次计算特征与被交换后的标签的相关系数,可以发现大多数特征的相关度应该随着打乱比例的上升而持续下降或直接不再相关，具体量化应为：

。

步骤4、通过分层抽样的方法来形成微观评价时所需要的测试集和训练集。

分层抽样的具体过程如图2所示：通过步骤1可以得到数据集总量为Q通过数据集的标签即需要进行分类的具体类别对原数据集进行分组，确定测试集的样本数量为Q1，训练集的样本数量为Q2，并确保Q2>>Q1。确定测试集的抽样比例为k1，训练集的抽样比例为k2，抽样比例的计算公式如下：

；

按照测试集抽样比例k1从各组独立地抽取数据样本将其组合作为测试集，按照训练集抽样比例k2从各组独立地抽取数据样本将其组合作为训练集。

步骤5、性能表现测试：为了体现性能表现测试的客观性，本实施例中选取了实践中常用四种ML分类算法，即:K近邻(KNN)、支持向量机(SVM)、决策树(DT)、随机森林(RF)构成了分类器池来进行性能表现测试。

在宏观评价中已经排除了数据集可能会出现类别不均衡的情况，所以将准确率作为接下来评价的统一性能指标，本实施例中仅将整体分类任务的准确率作为评判标准，不去比较具体各个类别的准确率：

；

在进行标签重排列测试前，先使用原始数据集在KNN、SVM、DT、RF三个经典分类器上得出准确率记为M，作为性能系数。

本实施例中，使用在每个标签重排列比例下形成的10个排列次序不同的数据集进行准确率测试，得到对应的性能系数，对得到的性能系数取平均值作为该排列比例最终的性能系数M_f:

；

依次得到标签排列百分比为1%，5%，10%，25%，50%的性能指标，若是高质量的数据集即特征与标签之间存在不错的关联性，随着标签打乱比例的不断增加，数据集特征与标签的关联度也会持续下降，性能指标也会随之下降，具体量化应为：

。

步骤6、在观察到性能指标下降后，计算各个特征对模型性能下降贡献度，模型性能下降可以近似看成每个特征的权重与其相关度下降的乘积之和，反推得出各个特征对模型性能下降贡献度D的计算公式：

；

其中，W为各个特征在分类器池中各个分类器上的权重，对于支持向量机(SVM)、决策树(DT)、随机森林(RF)直接使用权重系数或feature importance作为权重，由于KNN算法是一个非参数模型,它不会显式地学习特征权重，采用Permutation Importance法计算特征权重。

其中，为原始数据集各个特征的相关系数与标签重排列后特征相关系数之差，倘若发现相关度下降幅度H越大的特征,其对模型性能下降的贡献度D也越大，则证明了特征与标签相关性下降即数据集质量变差的根本原因是由于特征与随机标签失去了对应关系，反推出原始数据集标签特征之间存在强关联性，即为高质量数据集。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种大模型非时序训练数据质量评价方法，其特征在于，包括以下步骤：

步骤1、收集原始大模型预训练流量数据集，根据原始数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价；所述原始大模型预训练流量数据集，包括网页、社交媒体、新闻、百科数据集；

步骤2、对数据集进行微观评价前，对原始数据集进行标签重排列，形成实验数据集：将原始数据集按照标签进行分组，并将分组后各组的数据样本标签进行随机交换，与其他组的样本特征组合得到新的实验数据集，所述标签为需要进行分类的具体类别；

步骤4、性能表现测试前，采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取，形成所需的训练集与测试集；

步骤S6、若观察到随着标签重排列比例的上升，性能指标随之下降后，计算各个特征对模型性能下降贡献度，得出数据集质量评价结果，获取原始大模型预训练流量数据集中标签特征之间存在强关联性的高质量数据集。

2.根据权利要求1所述的大模型非时序训练数据质量评价方法，其特征在于，步骤1中，所述宏观评价包括：

S1.3、对数据进行实时性进行分析，基于数据的时效性，使数据集上传时间与数据集采集时间的间隔在预设时间内。

3.根据权利要求2所述的大模型非时序训练数据质量评价方法，其特征在于，步骤2中标签重排列方法包括：通过标签重排列打乱原始数据集，将各个组别的标签与其他组别的特征值进行组合，按照标签的具体类别将得到的数据集分为Group 1、Group 2、Group 3......Group n，设定评估过程中的排列比例，从各组数据样本中依次抽取所述排列比例的标签进行随机交换，与其他组的样本特征组合得到新的实验数据集。

4.根据权利要求3所述的大模型非时序训练数据质量评价方法，其特征在于，步骤3在相关系数测试时，使用斯皮尔曼相关系数作为相关系数测试的评价指标，计算过程如下：

假设待评估实验数据集包含n个样本，特征变量X和标签变量Y的观测值分别为：

;

则对应的秩为:

;

特征与标签之间的斯皮尔曼相关系数的计算公式为:

;

5.根据权利要求4所述的大模型非时序训练数据质量评价方法，其特征在于，步骤3所述相关系数测试，方法包括如下子步骤：

S3.1、假设实验数据集特征数量为有m个，计算实验数据集各特征与标签的斯皮尔曼相关系数P_j；

S3.2、按照标签重排列过程，对待评价实验数据集进行标签打乱；

。

6.根据权利要求5所述的大模型非时序训练数据质量评价方法，其特征在于，步骤4通过分层抽样的方法形成微观评价时所需要的测试集和训练集，分层抽样的过程包括如下子步骤：

S4.2、确定测试集的样本数量为Q1，训练集的样本数量为Q2，且Q2 >>Q1；

;

7.根据权利要求6所述的大模型非时序训练数据质量评价方法，其特征在于，步骤5在性能表现测试时，仅将整体分类任务的准确率Accuracy作为评判标准，公式如下：

;

8.根据权利要求7所述的大模型非时序训练数据质量评价方法，其特征在于，步骤5性能表现测试包括如下子步骤：

S5.1、在进行标签重排列测试前，使用原始数据集在KNN、SVM、DT、RF四个分类器上得出准确率M，作为性能系数；

。

9.根据权利要求7或8所述的大模型非时序训练数据质量评价方法，其特征在于，步骤6中计算模型性能下降贡献度时，方法包括：在观察到性能指标下降后，计算各个特征对模型性能下降贡献度，模型性能下降是每个特征的权重与其相关度下降的乘积之和，反推得出各个特征对模型性能下降贡献度D的计算公式：

;

其中，W_j为特征j在分类器池中分类器上的权重，为原始数据集特征j的相关系数与标签重排列后特征相关系数之差，D_j为特征j对模型性能下降贡献度。