CN115859099A

CN115859099A - 样本生成方法、装置、电子设备和存储介质

Info

Publication number: CN115859099A
Application number: CN202211469478.XA
Authority: CN
Inventors: 刘琦; 杨博; 张天文; 郑忠斌; 陈彩莲; 何大清; 陈璐; 芦清
Original assignee: Chint Group R & D Center Shanghai Co ltd; Zhejiang Zhengtai Zhiwei Energy Service Co ltd; Shanghai Jiaotong University
Current assignee: Chint Group R & D Center Shanghai Co ltd; Zhejiang Zhengtai Zhiwei Energy Service Co ltd; Shanghai Jiaotong University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-28

Abstract

本发明公开了一种样本生成方法、装置、电子设备和存储介质，通过采集至少一个光伏组件的样本运行数据；根据标签样本数据对初始模型进行训练，得到初始故障诊断模型；将无标签样本数据输入至初始故障诊断模型进行故障检测，得到无标签样本数据对应的预测结果；根据无标签样本数据对应的预测结果，对无标签样本数据进行筛选处理，得到目标无标签数据；基于目标无标签数据以及标签样本数据，得到样本训练集；通过结合小样本技术，解决光伏电站实际运维中面临的训练集数据质量问题，大幅提升光伏电站的训练集数据质量，通过样本扩充，提高后续诊断模型的准确率。

Description

样本生成方法、装置、电子设备和存储介质

技术领域

本发明涉及故障诊断技术领域，具体涉及一种样本生成方法、装置、电子设备和存储介质。

背景技术

环境污染、能源短缺和可持续发展等日益严重的问题引起人们的广泛关注。对于世界上大多数国家来说，发电站所消耗的化石燃料是碳排放的主要原因之一。根据对温室气体排放(主要是二氧化碳)的研究，超过40％的碳排放是由发电过程中的化石燃料燃烧产生的。作为一种清洁的可再生能源，太阳能被认为是一个具有广阔市场前景的低碳发展方向，其中光伏发电是利用太阳能的主要途径之一。光伏组件是光伏***的核心组成部分，而且大多运行在较为恶劣的户外条件。光伏***在日常运行中面临诸多潜在的常见故障。由于不同故障类型对光伏***的发电效率、运行安全以及经济效益的影响程度不同，因此，在光伏组件发生故障后快速准确地诊断故障类型对维护光伏***的可靠性、可持续发电以及减少发电经济损失是至关重要的。

当前光伏电站在日常运行过程中，只是时刻将***监测的电气数据记录下来，这其中既包括正常样本也包括故障样本。为了节省运维成本，这些样本中只有很小一部分会被相应的技术人员和专家进行标注，剩余绝大多数样本都是无标签的。这会严重影响现有联邦学习方法获得的每一轮的本地模型和最终全局的准确率。因此，一旦实际光伏电站的样本库只采集到少量标签样本(其余大多数为无标签数据)，会导致现有的光伏故障诊断方法无法完全准确地提取不同故障的特征和区分它们，进而使得最终诊断模型的准确率大幅降低。

发明内容

本发明实施例提供一种样本生成方法、装置、电子设备和存储介质，以解决现有光伏故障诊断的样本受限问题。

一方面，本发明实施例提供一种样本生成方法，所述方法包括：

采集至少一个光伏组件的样本运行数据，所述样本运行数据中包括带有标签的标签样本数据和未带有标签的无标签样本数据；

根据所述标签样本数据对初始模型进行训练，得到初始故障诊断模型；

将所述无标签样本数据输入至所述初始故障诊断模型进行故障检测，得到所述无标签样本数据对应的预测结果；

根据所述无标签样本数据对应的预测结果，对所述无标签样本数据进行筛选处理，得到目标无标签数据；

基于所述目标无标签数据以及所述标签样本数据，得到样本训练集。

另一方面，本发明实施例提供一种样本生成装置，所述装置包括：

采集模块，用于采集至少一个光伏组件的样本运行数据，所述样本运行数据中包括带有标签的标签样本数据和未带有标签的无标签样本数据；

训练模块，用于根据所述标签样本数据对初始模型进行训练，得到初始故障诊断模型；

预测模块，用于将所述无标签样本数据输入至所述初始故障诊断模型进行故障检测，得到所述无标签样本数据对应的预测结果；

筛选模块，用于根据所述无标签样本数据对应的预测结果，对所述无标签样本数据进行筛选处理，得到目标无标签数据；

样本模块，用于基于所述目标无标签数据以及所述标签样本数据，得到样本训练集。

另一方面，本发明实施例提供一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的样本生成方法。

另一方面，本发明实施例提供一种存储介质，所述存储介质存储有多条指令，所述指令用于使计算机执行所述的样本生成方法。

本发明实施例采集至少一个光伏组件的样本运行数据，样本运行数据中包括带有标签的标签样本数据和未带有标签的无标签样本数据；根据标签样本数据对初始模型进行训练，得到初始故障诊断模型；将无标签样本数据输入至初始故障诊断模型进行故障检测，得到无标签样本数据对应的预测结果；根据无标签样本数据对应的预测结果，对无标签样本数据进行筛选处理，得到目标无标签数据；基于目标无标签数据以及标签样本数据，得到样本训练集；通过结合小样本技术，解决光伏电站实际运维中面临的训练集数据质量问题，大幅提升光伏电站的训练集数据质量，通过样本扩充，提高后续诊断模型的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的样本生成方法的一个流程示意图；

图2是本发明实施例提供的光伏组件的运行数据采集场景的示意图；

图3是本发明实施例提供的初始模型的结构示意图；

图4是本发明实施例提供的基于联邦学习得到联合诊断模型的方法的流程示意图；

图5是本发明实施例提供的样本生成装置的一个结构示意图；

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术所述，在光伏故障诊断领域，现有的基于人工智能方法主要可以分为三大类：第一类是在故障样本类型和数量都充足的理想状况下，基于一系列深度神经网络方法来改善故障诊断的准确率；第二类是研究故障标签样本数量较少或者样本类型受限情况下的故障诊断技术，主要是基于半监督学习、联邦学习等方法扩充样本数量或者联合建模，从而充分利用剩余未标记的数据或提升模型的泛化能力，从而提高模型的故障诊断精度；第三类是从算法的执行效率角度出发，基于迁移学习等方法减少光伏故障诊断模型搭建过程中的模型训练成本，从而提高建模效率。

其中，对于上述第一类和第三类故障诊断方法，都是在较为理想的训练数据条件下建立故障诊断模型的。然而，由于人为采集和标注光伏组件故障数据需要耗费大量的人力和物力，实际单个光伏电站的运维***往往难以建立完备的光伏故障数据库。因此，第二类故障诊断方法更加符合本领域技术人员实际应用。

现有的基于光伏故障诊断方法中的半监督学***衡的问题。其中，标签样本类型受限意味着光伏电站的故障数据库仅包含少部分故障类型。由于光伏电站所处地理位置的差异、***设备的新旧程度以及气象条件等多方面差异，单个光伏电站只能收集到一部分故障类型的样本，这种低质量数据情况会导致模型所能识别的故障类型受限，模型泛化性和准确性大幅降低。标签样本不平衡意味着不同故障类型的样本数量存在显著差异。事实上，对于本领域技术人员而言，这种情况更符合光伏电站的实际运行情况。光伏电站大部分时间都在正常运行，这就导致正常状态的样本远远多于故障状态的样本。由于环境和***本身的原因，各种常见故障的发生频率也不同，不同故障类型的样本数量存在较大差异。这会导致现有模型对正常状态的过度拟合，对故障状态的样本欠拟合，从而大幅降低模型的准确率。此外，现有方法没有考虑标签数据集和无标签数据集的分布差异，当两者的分布存在较大差异(甚至相反)时，现有方法得到的故障诊断模型的精度会大大降低。

基于此，为了解决现有光伏故障诊断的样本受限问题，本发明实施例提供一种样本生成方法，以解决光伏电站样本库标签样本数量不足以及标签数据集和无标签数据集存在显著分布差异的问题，该方法通过初始故障诊断模型得到的无标签样本数据对应的预测结果，通过预测结果从无标签样本数据中筛选出的目标无标签数据扩充标签样本数据，解决光伏电站样本库标签样本数量不足的问题，大幅提升光伏电站的训练集数据质量，进而确保基于样本训练集训练得到的故障诊断模型的准确度。

如图1所示，图1是本发明实施例提供的样本生成方法的一个流程示意图，所示的样本生成方法应用于电子设备，电子设备部署在光伏电站。

需要说明的是，本发明实施例存在至少一个光伏电站，每个光伏电站部署有电子设备，每个光伏电站部署的电子设备都可以按照步骤101～105获取到该光伏电站的样本训练集，为便于描述，在图1所示的样本生成方法中仅示出了一个光伏电站的样本生成方法，可以理解的，当存在多个光伏电站时，对于每一个光伏电站都可以按照图1示出的样本生成方法得到样本训练集。在本发明一些实施例中，电子设备可以是计算机、工业计算机等。具体的，图1所示的样本生成方法包括步骤101～105：

101，采集至少一个光伏组件的样本运行数据。

其中，样本运行数据中包括带有标签的标签样本数据和未带有标签的无标签样本数据。标签表征样本运行数据的真实结果，其中，真实结果包括样本运行数据是否存在故障以及在存在故障时对应的故障类型。其中，故障类型包括但不限于老化、短路、开路、遮挡等。

在本发明一些实施例中，样本运行数据可以是当前光伏电站在过去一段时间内的历史运行数据，历史运行数据包括光伏组件在过去一段时间内的伏安特征曲线以及对应的温度和辐照度。在本发明一些实施例中，对过去一段时间不做具体限定，例如过去一段时间可以是过去一周，也可以是过去一个月，还可以是过去一年。

在本发明一些实施例中，每个光伏电站部署的电子设备都可以通过伏安测试仪以及配备有蓝牙通讯功能的环境测试仪分别采集每个光伏组件在运行数据，并保存在电子设备的数据库中，访问数据库获取过去一段时间内的历史运行数据得到样本运行数据。示例性的，如图2所示，图2是本发明实施例提供的光伏组件的运行数据采集场景的示意图，每个光伏电站包括多个光伏组件，采用伏安测试仪以及配备有蓝牙通讯功能的环境测试仪分别采集光伏阵列的伏安特性曲线以及对应的温度和辐照度。

在本发明一些实施例中，在光伏组件的运行数据采集中，光伏电站为了解决运维成本，采集的运行数据中仅有部分运行数据会被标记上真实结果，而运行数据中的剩余运行数据都是无标记的无标签数据，这就使得样本运行数据中包括两种类型的运行数据：带有标签的标签样本数据和未带有标签的无标签样本数据。

102，根据标签样本数据对初始模型进行训练，得到初始故障诊断模型。

在本发明一些实施例中，初始模型可以是机器学习模型，例如基于逻辑回归算法，决策树、支持向量机、k最近邻、朴素贝叶斯、随机森林的模型；初始模型也可以是神经网络模型，例如基于卷积神经网络(Convolutional Neural Networks，CNN)、基于反卷积神经网络(De-Convolutional Networks，DN)、深度神经网络(Deep Neural Networks，DNN)、基于深度卷积逆向图网络(Deep Convolutional Inverse Graphics Networks，DCIGN)、基于区域的卷积网络(Region-based Convolutional Networks，RCNN)、基于区域的快速卷积网络(Faster Region-based Convolutional Networks，Faster RCNN)和基于双向编解码(Bidirectional Encoder Representations from Transformers，BERT)模型；可理解的，初始故障诊断模型也可以是机器学习模型，也可以是神经网络模型。

在本发明一些实施例中，步骤102包括：可以获取初始模型，将标签样本数据输入至初始模型，得到标签样本数据对应的训练识别结果，通过预设的损失函数根据标签样本数据对应的训练识别结果和标签样本数据对应的真实结果，确定得到训练损失值，根据训练损失值调整初始模型的模型参数，直至初始模型满足预设收敛条件，得到初始故障诊断模型。其中，预设收敛条件可以是训练损失值小于或等于预设损失阈值，还可以是初始模型的训练次数大于或等于预设次数阈值。

在本发明一些实施例中，考虑到样本运行数据中标签样本数据的数量较少，这就使得利用标签样本数据训练得到的初始故障诊断模型的泛化能力不好，进而使得后续的光伏组件故障诊断结果的准确率不高，基于此，本发明实施例在得到初始故障诊断模型之后，利用初始故障诊断模型对无标签样本数据进行故障检测，得到无标签样本数据对应的预测结果，基于无标签样本数据对应的预测结果进行样本筛选，基于样本筛选结果扩充标签样本数据，通过扩充后的标签样本数据对初始故障诊断模型进行训练，如此提高训练得到的故障诊断模型的模型准确率和泛化能力。

103，将无标签样本数据输入至初始故障诊断模型进行故障检测，得到无标签样本数据对应的预测结果。

预测结果包括无标签样本数据是否存在故障、以及存在故障时的故障类型。

104，根据无标签样本数据对应的预测结果，对无标签样本数据进行筛选处理，得到目标无标签数据。

在本发明一些实施例中，步骤104包括：根据无标签样本数据对应的预测结果，选取无标签样本数据中存在故障的第一伪标签样本数据，以及从存在故障的第一伪标签样本数据中选取出每种故障类型对应的第二伪标签样本数据，根据从无标签样本数据中选取出的每种故障类型对应的第二伪标签样本数据得到目标无标签数据。

在本发明一些实施例中，可以将无标签样本数据中选取出的每种故障类型对应的第二伪标签样本数据设置为目标无标签数据。在本发明一些实施例中，可以将从预设数量的无标签样本数据中选取出的每种故障类型对应的第二伪标签样本数据设置为目标无标签数据。

105，基于目标无标签数据以及标签样本数据，得到样本训练集。

在本发明一些实施例中，步骤105包括：将目标无标签数据设置为预测标签数据，将预测标签数据和标签样本数据集合，得到样本训练集。

在本发明一些实施例中，步骤105包括：将目标无标签数据设置为预测标签数据，根据预测标签数据和标签样本数据的集合，得到初始样本训练集，根据初始样本训练集对初始故障诊断模型进行训练，得到故障诊断模型，根据故障诊断模型对无标签样本数据进行故障预测，得到无标签样本数据对应的新的预测结果，基于无标签样本数据对应的新的预测结果按照步骤104得到新目标无标签数据，根据新目标无标签数据和标签样本数据组成的集合，得到样本训练集。

本发明实施例提供的样本生成方法通过初始故障诊断模型得到的无标签样本数据对应的预测结果，通过预测结果从无标签样本数据中筛选出的目标无标签数据扩充标签样本数据，解决光伏电站样本库标签样本数量不足的问题，大幅提升光伏电站的训练集数据质量，进而确保基于样本训练集训练得到的故障诊断模型的准确度。

在本发明一些实施例中，可以按照图2所示的采集方法采集光伏电站的伏安特性曲线和对应的温度和辐照度，得到光伏组件的样本运行数据。

在本发明一些实施例中，考虑到采集的光伏电站的伏安特性曲线和对应的温度和辐照度存在数据维度不一致、伏安特性曲线数据缺失、电流和电压采样点分布不均匀以及存在数据冗余的情况，分类后的数据还需要进一步经过数据预处理才能分别被构建为样本运行数据，进而保证基于样本训练集训练得到的识别模型的故障识别准确率，具体地，样本运行数据的获取方法包括步骤a1～a6：

步骤a1，获取光伏电站的伏安特性曲线和对应的温度和辐照度，得到初始运行数据。

在本发明一些实施例中，可以每间隔预设时长采集光伏电站的伏安特性曲线和对应的温度和辐照度。

在本发明一些实施例中，可以从运行数据库中获取光伏电站在历史时间段内的伏安特性曲线和对应的温度和辐照度。

步骤a2，根据初始运行数据进行缺失值检测，得到缺失程度；若缺失程度大于预设程度阈值，则进行数据填充，数据填充后执行步骤a3；若缺失程度小于或等于预设程度阈值，则执行步骤a3。

在本发明一些实施例中，可通过比对伏安特性曲线与预存的基准伏安特性曲线进行缺失值检测。

在本发明一些实施例中，可以通过插值进行数据填充；也可以通过统计伏安特征曲线的均值、中位数或者众数进行数据填充。还可以基于平均值填充、热卡填充、K近邻均值等常用数据填补方法。

步骤a3，对伏安特性曲线进行重采样得到预设数量的伏安数据点。

在本发明一些实施例中，可以根据伏安特性曲线记录开路电压Vo和短路电流Isc，对数据进行降采样，在[0,Vo]范围内等距重新采样20个电压VRx，在[0,Isc]范围内等距重新采样20个电流IRx；对数据进行补全，计算出20个重采样电流IRx处对应的电压值，以及20个重采样电压VRx处对应的电流值；获取重采样后的伏安特性曲线，将得到的40个重采样点按电压降序进行排列，得到40*2的数组，将得到的40*2的数组设置为伏安数据点。重采样后得到的伏安数据点仅包含40个采样点，但仍能够很好地反映出曲线隐含的故障特征信息，同时避免了数据冗余节省了计算成本。

步骤a4，基于伏安数据点、伏安特性曲线对应的温度和辐照度进行数据重构，得到运行数组。

在本发明一些实施例中，由于温度和辐照度对光伏组件运行状况的影响很大，因此分析具体故障类型时需要进一步结合这两种环境信息。为此，采用数据重构的方法，将对应的温度和辐照度作为40*2的环境向量***到40*2的伏安数据对中，重构得到40*4的运行数组作为光伏故障诊断的一个样本数据。

步骤a5，确定初始运行数据中的存在真实识别结果的初始运行数据，将真实识别结果设置为标签，将标签添加给存在真实识别结果的初始运行数据对应的运行数组。

步骤a6，根据添加标签后的运行数据，将添加标签的运行数组设置为标签样本数据，将未添加标签的运行数组设置为无标签样本数据，得到样本运行数据。

在本发明一些实施例中，在获取到样本运行数据后，可以按照步骤102可将标签样本数据输入至初始模型进行训练，得到初始故障诊断模型。

在本发明一些实施例中，样本运行数据中标签样本数据是40*4的二维数组，考虑到实际光伏电站的算力有限，可能不能使用复杂的深度神经网络，基于此，本发明实施例基于卷积神经网络搭建初始模型，示例性的，如图3所示，图3是本发明实施例提供的初始模型的结构示意图，所示的初始模型包括二维卷积层、降维层、一维卷积层、最大池化层、全连接层和线性分类层。

具体地，将标签样本数据输入至初始模型的二维卷积层进行卷积运算，进行初步特征提取；将二维卷积层的输出输入至降维层进行数据维度压缩；将降维层的输出输入至一维卷积层以挖掘数据中隐含的故障特征信息；一维卷积层的输出输入至最大池化层；将最大池化层的输出输入至全连接层得到样本故障类型预测的概率向量；将全连接层的输出输入至线性分类层进行故障预测，输出标签样本数据的训练识别结果。

其中，一维卷积层包括依次连接的第一卷积单元、第二卷积单元、第一池化单元、第三卷积单元、第二池化单元和第四卷积单元；线性分类层包括全连接分类器和Softmax函数。

在本发明一些实施例中，预设损失函数可以是交叉熵损失函数。

在本发明一些实施例中，考虑样本运行数据存在类型不平衡的问题，因此，本发明实施例通过对不同类型的样本数据分配不同的权重，建立预设损失函数

其中，N表征光伏组件运算状态的类型数量，/>

表征预测类型的概率向量，γ_n是调节因子，α_n用于控制不同类型的样本数据的权重。在本发明一些实施例中，可以根据标签样本数据中每种故障类型的样本数量设置相应的调节因子。

在本发明一些实施例中，由于分类准确的样本类型具有较高的y_n值，因此设置其对应的γ_n趋近于0。反之，对于分类不准确的样本类型，设置其对应的γ_n趋近于1。α_n是一个预先定义的介于0到1之间的常数值，用于平衡不同类型的样本数据。本发明实施例提供的预设损失函数增加了难分类样本类型(标签样本数据中标签样本数量少的类型)在预设损失函数中的权重，这意味着预设损失函数能够更加关注难分类的样本类型，可以一定程度上避免神经网络模型在训练过程中由于样本运行数据不平衡而偏移最优参数，有利于提高模型的准确度。

在本发明一些实施例中，在基于标签样本数据训练初始模型，得到初始故障诊断模型之后，考虑到初始故障诊断模型是基于标签样本数据训练得到的，其泛化性较差，如果将初始故障诊断模型作为诊断模型进行故障诊断，可能会造成故障诊断结果不准确，为了克服模型过拟合和欠拟合问题的同时，充分扩充初始有限的标签样本数据，因此本发明实施例在得到初始故障诊断模型之后，将无标签样本数据输入至初始故障诊断模型进行故障检测，得到无标签样本数据的预测结果，将预测结果作为对无标签样本数据的标签，得到伪标签样本数据，将伪标签样本数据加入标签样本数据，对标签样本数据进行扩充，在利用扩充后的标签样本数据对初始故障模型进行训练，从而解决光伏电站样本库中标签样本数据的数量不足的问题，在克服模型过拟合和欠拟合问题的同时，充分扩充初始有限的标签样本数据。在本发明一些实施例中，预测结果表征无标签样本数据是否存在故障以及存在故障时对应的故障类型。

考虑到光伏电站大部分时间都在正常运行，这就导致正常状态的样本远远多于故障状态的样本。此外，由于环境和***本身的原因，各种常见故障的发生频率也不同，不同故障类型的样本数量存在较大差异，因此初始不同类型的标签样本数据存在明显的不平衡性，且标签样本数据和无标签样本数据可能存在显著的分布差异。现有方法对初始标签训练集的数据质量要求较高，在这种低质量数据情况下无法准确预测地为无标签样本数据添加伪标签，导致扩充后的样本训练集中存在大量错误标记样本。同时，由于现有技术都没有考虑错误伪标签样本的剔除机制，这些错误样本会大幅降低最终故障诊断模型的准确率。为了克服现有方法的不足，保证最终的样本训练集中的数据准确性，在得到无标签样本数据对应的预测结果后，可以根据无标签样本数据对应的预测结果进行筛选，从无标签样本数据中选取出预测结果符合要求得到目标无标签数据。具体地，目标无标签数据的选取方法包括步骤b1～b2：

步骤b1，根据标签样本数据中的标签，确定每种故障类型对应的置信度阈值；标签样本数据中的标签为标签样本数据的故障类型标签。

在本发明一些实施例中，可以根据标签样本数据中的标签，确定标签样本数据的故障类型，查询预设的阈值数据，获取每种故障类型对应的置信度阈值，其中，阈值数据包括多种故障类型以及每种故障类型对应的置信度阈值。

在本发明一些实施例中，可以根据标签样本数据中的标签，统计标签样本数据中每一种故障类型对应的标签样本数据量，根据每一种故障类型对应的标签样本数据量在标签样本数据的总数据量中占比，查询预存的占比与阈值之间的映射数据，得到每一种故障类型对应的置信度阈值。其中，占比与阈值之间的映射数据包括多种占比的数值区间以及每一个数值区间对应的置信度阈值。

考虑到，基于统一的置信度阈值筛选伪标签时，当初始标签训练集存在显著的样本不平衡时，如果这个统一的阈值设定过高则无法从无标签数据中筛选出有效的故障样本，如果设定的过低又会将部分故障样本错误地识别为正常样本。这意味着数量较少的类型在初始阶段很难被预测到，导致在半监督学***衡数据时出现的网络训练过拟合的问题，确保无标签样本数据中各种故障类型的样本都能被准确识别出来。具体地，置信度阈值的确定方法包括：

(1)根据标签样本数据中的标签，确定得到标签样本数据所包括的故障类型的类型数量，以及每一种故障类型对应的标签样本数据量。

(2)根据故障类型的类型数量、每一种故障类型对应的标签样本数据量以及每一种故障类型对应的理论样本数据量，确定每种故障类型对应的置信度阈值。

在本发明一些实施例中，根据故障类型的类型数量N、每一种故障类型对应的标签样本数据量

以及每一种故障类型对应的理论样本数据量θ，按照/>

计算得到每种故障类型对应的置信度阈值。其中，/>

表示第t轮半监督学习中伪标签类型i的置信度阈值。需要说明的是，上述置信度阈值的计算公式中半监督学习的轮数为20仅为示例性说明，可以根据实际应用场景设置半监督学习的训练轮数。

步骤b2，根据每种故障类型对应的置信度阈值以及无标签样本数据对应的预测结果，对无标签样本数据进行数据筛选，确定得到目标无标签数据。其中，预测结果表征无标签样本数据属于每种故障类型的置信度。

在本发明一些实施例中，步骤b2包括：将无标签样本数据对应的预测结果，确定无标签样本数据对应每种故障类型对应的置信度，将无标签样本数据对应每种故障类型对应的置信度与该故障类型对应的置信度阈值进行比较；如果每种故障类型对应的置信度都小于该故障类型对应的置信度阈值，则确定无标签样本数据为正常样本；若存在置信度大于或等于该故障类型对应的置信度阈值的故障类型，则确定无标签样本数据为故障样本，并将该故障类型设置为伪标签；剔除无标签样本数据中的正常样本，将故障样本设置为目标无标签数据，并确定目标无标签数据对应的伪标签。

在本发明一些实施例中，在得到目标无标签数据之后，可以根据目标无标签数据的伪标签添加到标签样本数据中，对标签样本数据进行扩充，通过扩充后的标签样本数据对初始故障诊断模型进行训练，得到新初始故障诊断模型，根据新初始故障诊断模型对无标签样本数据中除目标无标签数据之外的剩余无标签样本数据进行故障检测，得到剩余无标签样本数据对应的预测结果，并按照步骤b1～b2从剩余无标签样本数据中筛选出新目标无标签数据，将新目标无标签数据添加到扩充后的标签样本数据中得到新扩充后的标签样本数据，根据新扩充后的标签样本数据对新初始故障诊断模型进行训练，以此重复，进行多轮样本扩充，在每一轮样本扩充时，都将历史训练轮数与预设轮数阈值进行比较，在历史训练轮数大于或等于预设轮数阈值时，则将上一轮扩充后的标签样本数据设置为样本训练集，并将上一轮训练得到的初始故障诊断模型设置为故障诊断模型；在历史训练轮数小于预设轮数阈值时，根据上一轮扩充后的标签样本数据对上一轮训练得到的初始故障诊断模型进行训练，得到当前轮初始故障诊断模型，根据当前轮的初始故障诊断模型对上一轮无标签样本数据筛选后的剩余无标签样本数据进行故障检测，得到当前轮目标无标签样本数据，基于当前轮的目标无标签样本数据对前一轮扩充后的标签样本数据再次进行样本扩充，得到当前轮扩充后的标签样本数据，获取历史训练轮数，通过历史训练轮数+1得到当前轮的轮数，轮数大于或等于预设轮数阈值时，将当前轮扩充后的标签样本数据设置为样本训练集，并将当前轮初始故障诊断模型设置为故障诊断模型；轮数小于预设轮数阈值时，按照上述样本扩充方法继续进行样本扩充。例如，当轮数阈值为20、历史训练轮数为19时，由于历史训练轮数小于预设轮数阈值，则根据上一轮扩充后的标签样本数据对上一轮训练得到的初始故障诊断模型进行训练，得到当前轮初始故障诊断模型，根据当前轮初始故障诊断模型对上一轮无标签样本数据筛选后的剩余无标签样本数据进行故障检测，得到当前轮目标无标签样本数据，基于当前轮目标无标签样本数据对前一轮扩充后的标签样本数据再次进行样本扩充，得到当前轮扩充后的标签样本数据，并获取历史训练轮数，通过历史训练轮数，得到当前轮的轮数20，由于轮数等于预设轮数阈值，则将当前轮扩充后的标签样本数据设置为样本训练集，并将当前轮初始故障诊断模型设置为故障诊断模型。

在本发明一些实施例中，考虑到用于训练初始故障诊断模型的标签样本数据存在数据不平衡性，会导致模型对各种故障类型的识别准确率参差不齐，为了解决这个问题，本发明实施例根据标签样本数据中每一种故障类型对应的标签样本数据量，得到每一种故障类型对应的需要从目标无标签样本数据中选取的数量，得到样本训练集，具体地，样本训练集的确定方法包括步骤c1～c5：

步骤c1，根据标签样本数据中的标签，确定标签样本数据中每种故障类型对应的标签样本数据量，以及标签样本数据的样本总数据量。其中，标签样本数据中的标签为标签样本数据的故障类型标签。

步骤c2，根据每种故障类型对应的标签样本数据量、标签样本数据的样本总数量以及预设的比例因子，确定得到每种故障类型对应的样本扩充率。

样本扩充率表征标签样本数据中每一种故障类型需要增加的样本数据量。

在本发明一些实施例中，步骤c2包括：根据每种故障类型对应的标签样本数据量、标签样本数据的样本总数量确定每一种故障类型的标签样本数据量在样本总数量中的占比，根据占比和预设的比例因子进行指数运算，得到每一中故障类型的样本扩充率。例如，根据每种故障类型对应的标签样本数据量、标签样本数据的样本总数量以及预设的比例因子，通过

计算得到每种故障类型对应的样本扩充率。其中，t表示半监督学习轮数，/>

表示第t轮半监督学习时训练集中标签类型为i的样本数量，/>

表示训练集中所有类型样本的总量，β表示扩充比例调节因子，/>

表示第t轮半监督学习时类型i的样本扩充率。

在本发明一些实施例中，还可以根据每种故障类型对应的标签样本数据量、标签样本数据的样本总数量确定每一种故障类型的标签样本数据量在样本总数量中的占比，查询预存的样本扩充数据，得到每一种故障类型的标签样本数据量在样本总数量中的占比对应的样本扩充率，其中，样本扩充数据中包括多种占比的数值以及每一种占比的数值对应的样本扩充率。

在本发明一些实施例中，还可以每种故障类型对应的标签样本数据量、标签样本数据的样本总数量以及预设的比例因子输入至预设扩充率计算模型中，得到每种故障类型对应的样本扩充率。其中，预设扩充率计算模型可以是机器学习模型，也可以是神经网络模型，还可以是概率计算模型。

步骤c3，根据目标无标签数据的预测结果，确定得到目标无标签数据的伪标签。其中，伪标签为目标无标签数据预测的故障类型标签。

在本发明一些实施例中，根据目标无标签数据的预测结果确定目标无标签数据的故障类型，将目标无标签数据的故障类型设置为目标无标签数据的伪标签。

步骤c4，根据每种故障类型对应的样本扩充率以及目标无标签数据的伪标签，从目标无标签数据中选取出每种故障类型对应的预测标签数据。

在本发明一些实施例中，根据目标无标签数据的伪标签，统计目标无标签数据中存在的故障类型以及每一种故障类型对应的样本数量，根据目标无标签数据中每一种故障类型对应的样本数量以及每种故障类型对应的样本扩充率，计算得到目标无标签数据中每一种故障类型需要提取的目标样本数据量，从目标无标签数据选取出每一种故障类型需要提取的目标样本数据量的伪标签样本，将选取出的每一种故障类型需要提取的目标样本数据量的伪标签样本设置为该种故障类型对应的预测标签数据。

步骤c5，根据预测标签数据以及预测标签数据的伪标签、以及标签样本数据得到样本训练集。

在本发明一些实施例中，可以根据预测标签数据的伪标签对预测标签数据进行标记，将标记后的预测标签数据添加到标签样本数据中，得到样本训练集。

在本发明一些实施例中，为了提高样本训练集中样本标签的准确性，可以进行多轮样本扩充，在每一轮样本扩充时，都根据上一轮扩充后的标签样本数据对上一轮训练得到的初始故障诊断模型进行训练，得到当前轮初始故障诊断模型，根据当前轮的初始故障诊断模型对上一轮无标签样本数据筛选后的剩余无标签样本数据进行故障检测，得到当前轮目标无标签样本数据，基于上一轮扩充后的标签样本数据的样本数据总量、故障类型以及每一种故障类型对应的标签样本数据量确定每一种故障类型的当前轮样本扩充率，根据每一种故障类型的当前轮样本扩充率、当前轮目标无标签样本数据的预测结果从当前轮目标无标签样本数据中选取出当前轮预测标签数据，将当前轮预测标签数据添加到上一轮扩充后的标签样本数据中进行样本扩充，得到当前轮扩充后的标签样本数据，通过当前轮扩充后的标签样本数据对当前轮初始故障诊断模型进行训练，得到下一轮初始故障诊断模型，以此重复，直至轮数大于或等于预设轮数阈值时，将轮数大于或等于预设轮数阈值时该轮扩充后的标签样本数据设置为样本训练集，并将轮数大于或等于预设轮数阈值时该轮初始故障诊断模型设置为故障诊断模型。其中，轮数指的是样本扩充中的样本扩充次数。例如，当预设轮数阈值为20时，在每一轮样本扩充时，将历史轮数与预设轮数阈值进行比较，如果历史轮数大于或等于预设轮数阈值，则将上一轮扩充后的标签样本数据设置为样本训练集，将上一轮训练得到的初始故障诊断模型设置为故障诊断模型；如果历史轮数小于预设轮数阈值，则按照上述样本扩充方法进行样本扩充，得到当前轮扩充后的标签样本数据以及当前轮初始故障诊断模型；在每一轮样本扩充后，将当前轮的轮数与预设轮数阈值进行比较，如果当前轮的轮数大于或等于预设轮数阈值时，停止样本扩充，将当前轮扩充后的标签样本数据设置为样本训练集，并将当前轮初始故障诊断模型设置为故障诊断模型；如果，当前轮的轮数小于预设轮数阈值，则继续进行下一轮样本扩充。具体地，样本扩充方法包括：

(1)基于目标无标签数据以及标签样本数据，得到初始样本训练集。

在本发明一些实施例中，可以基于目标无标签数据以及标签样本数据，按照步骤c1～c5得到初始样本训练集。

(2)根据初始样本训练集对初始故障诊断模型进行训练，得到中间故障诊断模型。

(3)将无标签样本数据中除目标无标签数据之外的剩余无标签样本数据输入至中间故障诊断模型，得到剩余无标签样本数据对应的预测结果。

(4)根据剩余无标签样本数据对应的预测结果，对剩余无标签样本数据进行筛选，得到剩余目标无标签数据。

在本发明一些实施例中，可以按照步骤b1～b2从剩余无标签样本数据中筛选出剩余目标无标签数据。

(5)基于剩余目标无标签数据和初始样本训练集，得到样本训练集。

在本发明一些实施例中，可以基于剩余目标无标签数据和初始样本训练集，重复按照步骤c1～c5得到新的初始样本训练集，并基于新的初始样本训练集按照上述样本扩充方法进行新一轮样本扩充，并记录样本扩充轮数，待样本扩充轮数大于或等于预设轮数阈值时，将当前得到的新的初始样本训练集设置为样本训练集，并停止样本扩充。

在本发明一些实施例中，考虑到样本扩充过程中，由于初始故障诊断模型的识别准确度，可能会将错误的预测标签数据添加到标签样本数据中，影响模型训练后的精度，因此在样本扩充中需要对预测标签数据进行再一次的筛选，进而保证最终得到的样本训练集中的标签的准确性，具体地，包括步骤d1～d3：

步骤d1，获取中间故障诊断模型的训练轮数。

步骤d2，若中间故障诊断模型的训练轮数满足预设轮数阈值，则根据剩余目标无标签数据和初始样本训练集得到样本训练集。

在本发明一些实施例中，若训练轮数大于或等于预设轮数阈值，则确定中间故障诊断模型的训练轮数满足预设轮数阈值，并根据剩余目标无标签数据和初始样本训练集按照步骤c1～c5进行样本扩充，得到样本训练集。

步骤d3，若中间故障诊断模型的训练轮数未满足预设轮数阈值，则确定中间故障诊断模型的训练轮数是否满足预设轮数间隔，根据中间故障诊断模型的训练轮数是否满足预设轮数间隔的确定结果，确定样本训练集。

在本发明一些实施例中，若训练轮数小于预设轮数阈值，则确定中间故障诊断模型的训练轮数未满足预设轮数阈值。

在本发明一些实施例中，为了及时剔除错误样本，在中间故障诊断模型的训练轮数未满足预设轮数阈值时，可以每间隔预设轮数间隔就根据当前轮训练得到的初始故障诊断模型对无标签样本数据进行故障检测，基于无标签样本数据的测试结果重新筛选出预测标签数据，剔除无标签样本数据中的错误样本，通过识别精度更好的初始故障诊断模型来提高训练样本集中的标签准确度。其中，预设轮数间隔可以是与首次样本扩充的训练轮数之间的间隔，还可以是当前训练轮数与前一次对无标签样本数据进行故障检测的历史轮数之间的间隔，例如，以预设轮数间隔是当前训练轮数与前一次对无标签样本数据进行故障检测的历史轮数之间的间隔为例，当预设轮数阈值为20、预设轮数间隔为4，则从首轮训练开始，每间隔4轮，则根据当前轮训练得到的初始故障诊断模型对无标签样本数据进行故障检测，基于无标签样本数据的测试结果重新筛选出预测标签数据，即每间隔4轮，将经过4轮扩充得到的初始样本训练集删除，并根据当前轮训练得到的初始故障诊断模型对无标签样本数据进行故障检测，得到新的初始样本训练集，从而通过识别精度更好的初始故障诊断模型来剔除无标签样本数据中的错误样本，提高最终得到的样本训练集中的标签准确度。具体地，样本二次筛选方法包括：

(1)若中间故障诊断模型的训练轮数满足预设轮数间隔，则将无标签样本数据输入中间故障诊断模型，以得到第二目标无标签数据，基于第二目标无标签数据以及标签样本数据，得到新的初始样本训练集；并根据新的初始样本训练集对中间故障诊断模型进行训练，直至中间故障诊断模型的训练轮数大于或等于预设轮数阈值时，得到样本训练集。

(2)若中间故障诊断模型的训练轮数未满足预设轮数间隔，则基于剩余目标无标签数据，更新初始样本训练集，得到新的初始样本训练集，并根据新的初始样本训练集对中间故障诊断模型进行训练，并在中间故障诊断模型的训练轮数满足预设轮数间隔时，将无标签样本数据输入至满足预设轮数间隔时的中间故障诊断模型中，直至中间故障诊断模型的训练轮数大于或等于预设轮数阈值时，得到样本训练集。

在本发明一些实施例中，可以计算中间故障诊断模型的训练轮数与首次样本扩充的训练轮数之间的轮数间隔，将该轮数间隔与预设轮数间隔进行比较，若该轮数间隔等于预设轮数间隔，则确定中间故障诊断模型的训练轮数满足预设轮数间隔；若该轮数间隔大于或小于预设轮数间隔，则确定中间故障诊断模型的训练轮数未满足预设轮数间隔。

在本发明一些实施例中，计算中间故障诊断模型的训练轮数与首次样本扩充的训练轮数之间的轮数差值，确定该轮数差值与预设轮数差值之间的余数，若余数为0，则确定中间故障诊断模型的训练轮数满足预设轮数间隔；若余数不为0，则确定中间故障诊断模型的训练轮数未满足预设轮数间隔。例如当预设轮数差值为4时，若中间故障诊断模型的训练轮数是4或者4的倍数，则确定中间故障诊断模型的训练轮数满足预设轮数间隔，即每完成3轮样本扩充，则进行一次错误样本剔除；当预设轮数差值为5时，若中间故障诊断模型的训练轮数是5或者5的倍数，则确定中间故障诊断模型的训练轮数满足预设轮数间隔，即每完成4轮样本扩充，则进行一次错误样本剔除。

在本发明一些实施例中，若中间故障诊断模型的训练轮数满足预设轮数间隔，则将无标签样本数据输入中间故障诊断模型，以得到第二目标无标签数据，基于第二目标无标签数据以及标签样本数据按照步骤c1～c5，得到新的初始样本训练集；并根据新的初始样本训练集对中间故障诊断模型进行训练，直至中间故障诊断模型的训练轮数大于或等于预设轮数阈值时，得到样本训练集。

在本发明一些实施例中，若中间故障诊断模型的训练轮数未满足预设轮数间隔，则基于剩余目标无标签数据按照上述样本扩充方法，更新初始样本训练集，得到新的初始样本训练集，并根据新的初始样本训练集对中间故障诊断模型进行训练，并在中间故障诊断模型的训练轮数满足预设轮数间隔时，将无标签样本数据输入至满足预设轮数间隔时的中间故障诊断模型中，直至中间故障诊断模型的训练轮数大于或等于预设轮数阈值时，得到样本训练集。

在本发明一些实施例中，在中间故障诊断模型的训练轮数大于或等于预设轮数阈值，得到样本训练集，将测试样本输入至此时的中间故障诊断模型中进行测试，若测试结果的识别精度大于或等于预设精度阈值，则停止样本扩充，得到样本训练集，并将此时的中间故障诊断模型设置为故障诊断模型；若测试结果的识别精度小于预设精度阈值，则将样本训练集输入至此时的中间故障诊断模型进行训练，得到故障诊断模型。

在本发明一些实施例中，若测试结果的识别精度小于预设精度阈值，则将此时的中间故障诊断模型设置为初始模型，并按照上述步骤样本生成方法，将标签样本数据输入至初始模型进行训练，得到初始故障诊断模型，基于初始故障诊断模型对无标签样本数据进行故障检测，得到无标签样本数据的预测结果，根据无标签样本数据的预测结果对无标签样本数据进行筛选处理，得到目标无标签数据，基于目标无标签数据以及标签样本数据，得到样本训练集，以此重复，直至此时的中间故障诊断模型的测试精度识别精度大于或等于预设精度阈值时，得到故障诊断模型。

本发明实施例基于置信度阈值选取目标无标签数据，并通过计算样本扩充率以及样本二次筛选方法，确保无标签样本数据被准确地添加伪标签，以实现标签样本数据的扩充，大幅提升了光伏电站的数据质量，同时逐步改善了不同类型样本数量的不平衡，克服了现有方法处理不平衡数据时出现的网络训练过拟合和欠拟合问题，进而保障了后续故障诊断准确率。

在本发明一些实施例中，在得到样本训练集后，可以基于样本训练集对故障诊断模型进行训练，得到每个光伏电站对应的已训练故障诊断模型，基于每个光伏电站对应的已训练故障诊断模型对该光伏电站的光伏组件的运行数据进行识别，确定该光伏电站的运行是否存在故障以及在存在故障时对应的故障类型。

在本发明一些实施例中，考虑到每一个光伏电站只能收集到一部分故障类型的样本，这意味着依靠单个光伏电站的样本训练集建立的故障诊断模型只能识别一部分故障，对于样本训练集中不涉及的故障类型则无法诊断。基于此，本发明实施例基于多个光伏电站的建立的故障诊断模型进行联邦学习，得到联合诊断模型，每个光伏电站基于该联合诊断模型对该光伏电站的光伏组件的运行数据进行识别，确定该光伏电站的运行是否存在故障以及在存在故障时对应的故障类型。具体地，如图4所示，图4是本发明实施例提供的基于联邦学习得到联合诊断模型的方法的流程示意图，所示的基于联邦学习得到联合诊断模型的方法应用于服务器，具体地，包括步骤401～403：

401，获取各电子设备发送的故障诊断模型参数。其中，故障诊断模型参数包括但不限于故障诊断模型的权重、网络层数量、网络层尺寸，例如，当故障诊断模型是基于卷积网络的模型时，故障诊断模型参数包括但不限于故障诊断模型的权重、卷积层数量、卷积核大小、卷积的步长、池化核大小、池化步长、池化方式等。故障诊断模型是通过上述样本生成方法得到的样本训练集训练得到的；每个光伏电站部署一个电子设备，每个电子设备对应有至少一组故障诊断模型参数。

402，对各故障诊断模型参数进行聚合，得到初始联合模型参数。

在本发明一些实施例中，可以将每个故障诊断模型参数进行累加，得到初始联合模型参数。

在本发明一些实施例中，可以确定每一个故障诊断模型的权重，基于每一个故障诊断模型的权重以及该故障诊断模型的故障诊断模型参数进行累加，得到初始联合模型参数。在本发明一些实施例中，可以根据每一个故障诊断模型对应的样本训练集的样本数据量确定该故障诊断模型的权重，例如可以将每一个故障诊断模型对应的样本训练集的样本数据量与所有故障诊断模型对应的样本训练集的样本总数据量之间的比值设置为该故障诊断模型的权重。

403，根据初始联合模型参数，得到联合诊断模型。

在本发明一些实施例中，可以根据初始联合模型参数进行模型建立，得到联合诊断模型。

在本发明一些实施例中，在得到联合诊断模型之后，将联合诊断模型发送至每个光伏电站部署的电子设备，电子设备在接收到联合诊断模型后，根据样本训练集对联合诊断模型进行训练，并将测试样本输入值联合诊断模型进行模型测试，得到测试精度，在测试精度大于或等于预设精度阈值时，得到已训练的联合诊断模型。

在本发明一些实施例中，由于每一个光伏电站的生成的样本训练集的数量是不同的，因此在参数聚合时可以根据每个光伏电站的生成的样本训练集的数量确定每个故障诊断模型参数的权重，并每一个光伏电站部署的电子设备的样本训练集的数量不同、计算能力不同，这就使得，每一个光伏电站部署的电子设备得到样本训练集和发送故障诊断模型参数的时间是不同的，如果等待所有的电子设备对应的故障诊断模型参数都接收到后，才进行参数聚合，这就会导致数据传输效率低下、以及模型参数聚合时间长的问题，为解决上述问题，本发明实施例记录接收到故障诊断模型的数量，在数量达到所有电子设备的数量的预设比例阈值时，进行模型参数聚合，具体地，初始联合模型参数确定方法包括步骤e1～e3：

步骤e1，确定接收到的故障诊断模型参数的第一数量。

步骤e2，若第一数量大于预设数量阈值，则分别确定各电子设备对应的故障诊断模型的训练样本量的样本占比。

在本发明一些实施例中，若第一数量小于或等于预设数量阈值，则继续等待。

在本发明一些实施例中，可以根据参与联邦学习的故障诊断模型参数的理论数量和预测比例阈值得到预设数量阈值。其中，参与联邦学习的故障诊断模型参数的理论数量指的是参与联合建模的光伏电站的数量。本发明实施例对预设比例阈值的具体数值不做限定，例如可以是60％，也可以是70％。

在本发明一些实施例中，步骤e2包括：

(1)确定各电子设备对应的故障诊断模型的样本训练集的数据量。

(2)汇总各电子设备对应的故障诊断模型的样本训练集的数据量，得到各电子设备对应的故障诊断模型的样本训练集的数据总量。

(3)通过确定各电子设备对应的故障诊断模型的样本训练集在数据总量中的占比，得到各电子设备对应的故障诊断模型的训练样本量的样本占比。

步骤e3，根据各电子设备对应的故障诊断模型的训练样本量的样本占比以及各电子设备对应的故障诊断模型参数，得到初始联合模型参数。

在本发明一些实施例中，可以根据各电子设备对应的故障诊断模型的训练样本量的样本占比以及各电子设备对应的故障诊断模型参数，通过

计算得到初始联合模型参数。其中，d_x表示光伏电站x的样本训练集的数据量，K和D分别表示接收到的故障诊断模型参数的第一数量和样本训练集的数据总量，G^t表示聚合后得到的初始联合模型参数。

在本发明一些实施例中，考虑到每一个光伏电站部署的电子设备的样本训练集的数量不同、计算能力不同，这就使得，每一个光伏电站部署的电子设备得到样本训练集和发送故障诊断模型参数的时间是不同的，如果等待所有的电子设备对应的故障诊断模型参数都接收到后，才进行参数聚合，这就会导致数据传输效率低下、以及模型参数聚合时间长的问题，因此可以将预设时间段内接收到的各故障诊断模型参数按照上述初始联合模型参数确定方法进行聚合，得到初始联合模型参数。

在本发明一些实施例中，可以确定预设时间段内接收到的故障诊断模型参数的第一数量，在第一数量大于预设数量阈值时，按照步骤e2～e3进行聚合，得到初始联合模型参数。

在本发明一些实施例中，在得到初始联合模型参数之后，可以基于初始联合模型参数进行模型建立，得到初始联合诊断模型，将初始联合诊断模型发送至在预设时间段内发送故障诊断模型的电子设备，电子设备对接收到的初始联合诊断模型进行测试，在测试精度大于或等于预设精度阈值时，将初始联合诊断模型设置为联合诊断模型，在测试精度小于预设精度阈值时，发送反馈信息至服务器，以使服务器基于接收到的反馈信息调整初始联合模型参数，得到调整后的初始联合诊断模型，并将调整后的初始联合诊断模型发送至电站设备，以此重复，直至调整后的初始联合诊断模型的测试精度大于或等于预设精度阈值时，得到联合诊断模型。具体地，联合诊断模型的建立方法包括步骤f1～f3：

步骤f1，根据初始联合模型参数，建立得到初始联合诊断模型。

步骤f2，发送初始联合诊断模型至各电子设备，接收各电子设备返回的第一目标反馈信息。其中，第一目标反馈信息是电子设备将测试样本数据输入至初始联合诊断模型，得到第一测试精度，在第一测试精度小于预设精度阈值时，根据第一测试精度生成的。

在本发明一些实施例中，电子设备在接收到初始联合诊断模型后，通过上述样本生成方法得到样本训练集对初始联合诊断模型进行训练，得到已训练的初始联合诊断模型；将测试样本数据输入值已训练的初始联合诊断模型进行模型测试，得到测试样本数据对应的测试结果，基于测试样本数据对应的测试结果和测试样本数据对应的真实识别结果，得到第一测试精度；将第一测试精度与预设精度阈值进行比较；若第一测试精度小于预设精度阈值，则根据第一测试精度与预设精度阈值之间的差值生成第一目标反馈信息，发送第一目标反馈信息至服务器；若第一测试精度大于或等于预设精度阈值，则发送确认信息至服务器，并将已训练的初始联合诊断模型设置为联合诊断模型。

步骤f3，根据各电子设备返回的第一目标反馈信息，调整初始联合模型参数，得到联合诊断模型。

在本发明一些实施例中，服务器在接收到各电子设备返回的第一目标反馈信息时，根据各电子设备返回的第一目标反馈信息，调整初始联合模型参数，得到调整后的初始联合模型参数，基于调整后的初始联合模型参数得到中间联合诊断模型，发送中间联合诊断模型至电子设备，执行步骤f2，得到各电子设备返回的第二目标反馈信息，基于第二目标反馈信息对调整后的初始联合模型参数进行再次调整，得到新中间联合诊断模型，发送新中间联合诊断模型至电子设备，以此重复，直至达到预设停止条件，将此时的新中间联合诊断模型设置为联合诊断模型。其中，预设停止条件可以是调整初始联合模型参数的次数大于或等于预设次数阈值，也可以是接收到确认信息的数量大于或等于预设阈值。

在本发明一些实施例中，为了节省服务器的缓存以及存储资源，在联合诊断模型的建立中，在每一次将基于聚合得到的初始联合模型参数建立的初始故障诊断模型发送至电子设备之后，将接收到故障诊断模型参数清空，并等待电子设备的反馈，具体地包括：根据初始联合模型参数，建立得到初始联合诊断模型，发送初始联合诊断模型至各电子设备，电子设备通过上述样本生成方法得到样本训练集对初始联合诊断模型进行训练，得到已训练的初始联合诊断模型，将测试样本数据输入值已训练的初始联合诊断模型进行模型测试，得到测试样本数据对应的测试结果，基于测试样本数据对应的测试结果和测试样本数据对应的真实识别结果，得到第一测试精度；将第一测试精度与预设精度阈值进行比较；若第一测试精度小于预设精度阈值，则将已训练的初始联合诊断模型设置为该电子设备的新故障诊断模型参数，发送新故障诊断模型参数至服务器；服务器在接收到预设数量阈值的新故障诊断模型参数，按照上述初始联合模型参数确定方法再次进行聚合，得到新初始诊断联合模型，发送新初始诊断联合模型至电子设备，以此重复直至当前得到新初始联合诊断模型的测试精度大于或等于预设精度阈值时，将当前得到的新初始联合诊断模型设置为联合诊断模型。

在本发明一些实施例中，在聚合过程中对于超过预设时间段内接收到故障诊断模型参数，可以将超过预设时间段内接收到故障诊断模型参数进行缓存，作为下一次参数聚合的故障诊断模型参数。如此，避免计算资源的浪费同时加快聚合频率，尤其是对于电子设备的模型更新速度较慢的那部分光伏电站，这种异步更新和缓存机制使得它们能够后续轮次中参与参数聚合。

本发明实施例同时考虑了实际现场光伏电站标签样本数量不足、类型受限、类型不平衡以及标签样本数据和无标签样本数据存在显著分布差异的低数据质量问题，通过结合小样本技术，解决光伏电站实际运维中面临的训练集数据质量问题，大幅提升光伏电站的训练集数据质量，通过样本扩充，提高后续诊断模型的准确率；并通过联邦学习机制实现了多个光伏电站联合建模并对模型缓存进行的优化，从而在保障隐私和通信效率的前提下充分利用多个光伏电站的故障类型，大幅提升了模型的泛化性。

在本发明一些实施例中，在得到联合诊断模型之后，对于每一个光伏电站上部署的电子设备，都可以通过该联合诊断模型进行故障诊断，得到故障诊断结果。具体地，基于联合诊断模型的故障诊断方法包括：

(1)采集待检测光伏组件的运行数据。

(2)将运行数据输入至联合诊断模型进行故障诊断，得到待检测光伏组件的故障诊断结果。

本发明实施例提供的样本生成方法，通过合小样本技术，解决光伏电站实际运维中面临的训练集数据质量问题，大幅提升光伏电站的训练集数据质量，通过样本扩充，提高后续诊断模型的准确率。

为了更好实施本发明实施例提供的样本生成方法，在样本生成方法基础上，本发明实施例提供一种样本生成装置，如图5所示，图5是本发明实施例提供的样本生成装置的一个结构示意图，所示的样本生成装置包括：

采集模块，用于采集至少一个光伏组件的样本运行数据；样本运行数据中包括带有标签的标签样本数据和未带有标签的无标签样本数据；

训练模块，用于根据标签样本数据对初始模型进行训练，得到初始故障诊断模型；

预测模块，用于将无标签样本数据输入至初始故障诊断模型进行故障检测，得到无标签样本数据对应的预测结果；

筛选模块，用于根据无标签样本数据对应的预测结果，对无标签样本数据进行筛选处理，得到目标无标签数据；

样本模块，用于基于目标无标签数据以及标签样本数据，得到样本训练集。

在本发明一些实施例中，筛选模块，用于：根据标签样本数据中的标签，确定每种故障类型对应的置信度阈值；标签样本数据中的标签为标签样本数据的故障类型标签；根据每种故障类型对应的置信度阈值以及无标签样本数据对应的预测结果，对无标签样本数据进行数据筛选，确定得到目标无标签数据；预测结果表征无标签样本数据属于每种故障类型的置信度。

在本发明一些实施例中，筛选模块，用于：根据标签样本数据中的标签，确定得到标签样本数据所包括的故障类型的类型数量，以及每一种故障类型对应的标签样本数据量；根据故障类型的类型数量、每一种故障类型对应的标签样本数据量以及每一种故障类型对应的理论样本数据量，确定每种故障类型对应的置信度阈值。

在本发明一些实施例中，样本模块，用于：根据标签样本数据中的标签，确定标签样本数据中每种故障类型对应的标签样本数据量，以及标签样本数据的样本总数据量；标签样本数据中的标签为标签样本数据的故障类型标签；根据每种故障类型对应的标签样本数据量、标签样本数据的样本总数量以及预设的比例因子，确定得到每种故障类型对应的样本扩充率；根据目标无标签数据的预测结果，确定得到目标无标签数据的伪标签；伪标签为目标无标签数据预测的故障类型标签；根据每种故障类型对应的样本扩充率以及目标无标签数据的伪标签，从目标无标签数据中选取出每种故障类型对应的预测标签数据；根据预测标签数据以及预测标签数据的伪标签、以及标签样本数据得到样本训练集。

在本发明一些实施例中，样本模块，用于：基于目标无标签数据以及标签样本数据，得到初始样本训练集；根据初始样本训练集对初始故障诊断模型进行训练，得到中间故障诊断模型；将无标签样本数据中除目标无标签数据之外的剩余无标签样本数据输入至中间故障诊断模型，得到剩余无标签样本数据对应的预测结果；根据剩余无标签样本数据对应的预测结果，对剩余无标签样本数据进行筛选，得到剩余目标无标签数据；基于剩余目标无标签数据和初始样本训练集，得到样本训练集。

在本发明一些实施例中，样本模块，用于：获取中间故障诊断模型的训练轮数；

若中间故障诊断模型的训练轮数满足预设轮数阈值，则根据剩余目标无标签数据和初始样本训练集得到样本训练集；若中间故障诊断模型的训练轮数未满足预设轮数阈值，则确定中间故障诊断模型的训练轮数是否满足预设轮数间隔，根据中间故障诊断模型的训练轮数是否满足预设轮数间隔的确定结果，确定样本训练集。

在本发明一些实施例中，样本模块，用于；若中间故障诊断模型的训练轮数满足预设轮数间隔，则将无标签样本数据输入中间故障诊断模型，以得到第二目标无标签数据，基于第二目标无标签数据以及标签样本数据，得到新的初始样本训练集；并根据新的初始样本训练集对中间故障诊断模型进行训练，直至中间故障诊断模型的训练轮数大于或等于预设轮数阈值时，得到样本训练集；若中间故障诊断模型的训练轮数未满足预设轮数间隔，则基于剩余目标无标签数据，更新初始样本训练集，得到新的初始样本训练集，并根据新的初始样本训练集对中间故障诊断模型进行训练，并在中间故障诊断模型的训练轮数满足预设轮数间隔时，将无标签样本数据输入至满足预设轮数间隔时的中间故障诊断模型中，直至中间故障诊断模型的训练轮数大于或等于预设轮数阈值时，得到样本训练集。

本发明实施例提供的样本生成装置通过合小样本技术，解决光伏电站实际运维中面临的训练集数据质量问题，大幅提升光伏电站的训练集数据质量，通过样本扩充，提高后续诊断模型的准确率。

本发明实施例还提供一种电子设备，如图6所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

电子设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理***与处理器601逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

采集至少一个光伏组件的样本运行数据；样本运行数据中包括带有标签的标签样本数据和未带有标签的无标签样本数据；

根据标签样本数据对初始模型进行训练，得到初始故障诊断模型；

将无标签样本数据输入至初始故障诊断模型进行故障检测，得到无标签样本数据对应的预测结果；

根据无标签样本数据对应的预测结果，对无标签样本数据进行筛选处理，得到目标无标签数据；

基于目标无标签数据以及标签样本数据，得到样本训练集。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种样本生成方法中的步骤。例如，该指令可以执行如下步骤：

基于目标无标签数据以及标签样本数据，得到样本训练集。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种样本生成方法中的步骤，因此，可以实现本发明实施例所提供的任一种样本生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种样本生成方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种样本生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的样本生成方法，其特征在于，所述根据所述无标签样本数据对应的预测结果，对所述无标签样本数据进行筛选处理，得到目标无标签数据，包括：

根据所述标签样本数据中的标签，确定每种故障类型对应的置信度阈值；所述标签样本数据中的标签为所述标签样本数据的故障类型标签；

根据每种所述故障类型对应的置信度阈值以及所述无标签样本数据对应的预测结果，对所述无标签样本数据进行数据筛选，确定得到目标无标签数据；所述预测结果表征所述无标签样本数据属于每种所述故障类型的置信度。

3.如权利要求2所述的样本生成方法，其特征在于，所述根据所述标签样本数据中的标签，确定每种故障类型对应的置信度阈值包括：

根据所述标签样本数据中的标签，确定得到所述标签样本数据所包括的故障类型的类型数量，以及每一种所述故障类型对应的标签样本数据量；

根据所述故障类型的类型数量、每一种所述故障类型对应的标签样本数据量以及每一种所述故障类型对应的理论样本数据量，确定每种所述故障类型对应的置信度阈值。

4.如权利要求1-3任一项所述的样本生成方法，其特征在于，所述基于所述目标无标签数据以及所述标签样本数据，得到样本训练集，包括：

根据所述标签样本数据中的标签，确定所述标签样本数据中每种故障类型对应的标签样本数据量，以及所述标签样本数据的样本总数据量；所述标签样本数据中的标签为所述标签样本数据的故障类型标签；

根据每种所述故障类型对应的标签样本数据量、所述标签样本数据的样本总数量以及预设的比例因子，确定得到每种所述故障类型对应的样本扩充率；

根据所述目标无标签数据的预测结果，确定得到所述目标无标签数据的伪标签；所述伪标签为所述目标无标签数据预测的故障类型标签；

根据每种所述故障类型对应的样本扩充率以及所述目标无标签数据的伪标签，从所述目标无标签数据中选取出每种所述故障类型对应的预测标签数据；

根据所述预测标签数据以及所述预测标签数据的伪标签、以及所述标签样本数据得到样本训练集。

5.如权利要求1所述的样本生成方法，其特征在于，所述基于所述目标无标签数据以及所述标签样本数据，得到样本训练集，包括：

基于所述目标无标签数据以及所述标签样本数据，得到初始样本训练集；

根据所述初始样本训练集对所述初始故障诊断模型进行训练，得到中间故障诊断模型；

将所述无标签样本数据中除所述目标无标签数据之外的剩余无标签样本数据输入至所述中间故障诊断模型，得到所述剩余无标签样本数据对应的预测结果；

根据所述剩余无标签样本数据对应的预测结果，对所述剩余无标签样本数据进行筛选，得到剩余目标无标签数据；

基于所述剩余目标无标签数据和所述初始样本训练集，得到样本训练集。

6.如权利要求5所述的样本生成方法，其特征在于，所述基于所述剩余目标无标签数据和所述初始样本训练集，得到样本训练集，包括：

获取所述中间故障诊断模型的训练轮数；

若所述中间故障诊断模型的训练轮数满足预设轮数阈值，则根据所述剩余目标无标签数据和所述初始样本训练集得到样本训练集；

若所述中间故障诊断模型的训练轮数未满足预设轮数阈值，则确定所述中间故障诊断模型的训练轮数是否满足预设轮数间隔，根据所述中间故障诊断模型的训练轮数是否满足预设轮数间隔的确定结果，确定样本训练集。

7.如权利要求6所述的样本生成方法，其特征在于，所述根据所述中间故障诊断模型的训练轮数是否满足预设轮数间隔的确定结果，确定样本训练集包括：

若所述中间故障诊断模型的训练轮数满足所述预设轮数间隔，则将所述无标签样本数据输入所述中间故障诊断模型，以得到第二目标无标签数据，基于所述第二目标无标签数据以及所述标签样本数据，得到新的初始样本训练集；并根据所述新的初始样本训练集对所述中间故障诊断模型进行训练，直至所述中间故障诊断模型的训练轮数大于或等于所述预设轮数阈值时，得到样本训练集；

若所述中间故障诊断模型的训练轮数未满足所述预设轮数间隔，则基于所述剩余目标无标签数据，更新所述初始样本训练集，得到新的初始样本训练集，并根据新的初始样本训练集对所述中间故障诊断模型进行训练，并在所述中间故障诊断模型的训练轮数满足所述预设轮数间隔时，将所述无标签样本数据输入至满足预设轮数间隔时的中间故障诊断模型中，直至所述中间故障诊断模型的训练轮数大于或等于所述预设轮数阈值时，得到样本训练集。

8.一种样本生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述的样本生成方法。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令用于使计算机执行根据权利要求1-7任一项所述的样本生成方法。