CN112766296B

CN112766296B - 输电线路安全隐患目标检测模型训练方法及装置

Info

Publication number: CN112766296B
Application number: CN201911077359.8A
Authority: CN
Inventors: 吕昌峰; 陈兆文; 刘洪源; 韩晶
Original assignee: Jinan Xinxinda Electric Technology Co ltd
Current assignee: Jinan Xinxinda Electric Technology Co ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-04-07
Anticipated expiration: 2039-11-06
Also published as: CN112766296A

Abstract

本申请公开了一种输电线路安全隐患目标检测模型训练方法及装置，用以解决现有的输电线路安全隐患目标检测模型在训练时，对训练数据进行标注的时间过长、训练数据利用率低的问题。该方法根据已标注的训练数据，训练目标检测模型；采用目标检测模型，对未标注的训练数据进行检测，得到检测结果；根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，得到安全隐患目标分类结果，并对符合预设条件的未标注训练数据进行标注；对不符合所述预设条件的未标注训练数据进行聚类，并根据聚类结果，对不符合所述预设条件的未标注训练数据进行标注；根据标注完成的所有未标注训练数据，对经过训练的所述目标检测模型再进行训练。

Description

输电线路安全隐患目标检测模型训练方法及装置

技术领域

本申请涉及输电线路安全隐患检测技术领域，尤其涉及一种输电线路安全隐患目标检测模型训练方法及装置。

背景技术

随着工业的发展，输电线路的分布范围越来越广泛。作为输送电流的介质，输电线路的安全性与完整性，不仅关乎人们的日常生活用电，还关乎人们的生命健康安全。

在输电线路的使用过程中，为了保护输电线路的安全性，通常需要注意输电线路附近是否存在推土机、挖掘机等工程机械，以及风筝等意外因素，以免这些因素造成输电线路的安全隐患，导致危害后果。

为了对输电线路的安全隐患问题进行检测，往往通过安装在输电线路上的摄像头来获取输电线路附近的图像，并通过对这些图像的目标检测与识别，来检测输电线路附近是否存在安全隐患问题。

目前，在对输电线路进行安全隐患目标检测时，是通过训练目标检测模型，来检测从输电线路附近获取到的图像中是否存在安全隐患目标以及安全隐患问题。并且，用于训练目标检测模型的训练数据，往往需要由人工进行手动标注。

但是，由于输电线路附近的图像，往往是从较高的视角获得的。例如，通过设置在电线杆上的摄像头获得，等。因此，在高度与距离的影响下，出现在这些图像中的目标，通常在整幅图像中的占比是很小的。例如，在整幅图像的几万像素中，目标所占的像素仅为几十像素。在这种情况下，通过人工对所有训练数据进行标注，需要耗费大量的精力以及标注时间，但未标注的训练数据又无法参与目标检测模型的训练，这会导致训练数据的利用率较低，不利于目标检测模型的训练。

发明内容

本申请实施例提供一种输电线路安全隐患目标检测模型训练方法及装置，用以解决现有的输电线路安全隐患目标检测模型在训练时，对训练数据进行标注的标注时间过长、训练数据利用率低的问题。

本申请实施例提供的一种输电线路安全隐患目标检测模型训练方法，包括：

根据已标注的输电线路训练数据，训练输电线路的安全隐患目标检测模型；

采用所述安全隐患目标检测模型，对未标注的输电线路训练数据进行检测，得到安全隐患目标检测结果；其中，所述检测结果包括安全隐患目标位置信息；

根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，得到安全隐患目标分类结果，并对符合预设条件的未标注训练数据进行标注；其中，所述分类结果包括安全隐患目标类别信息；

对不符合所述预设条件的未标注训练数据进行聚类，并根据聚类结果，对不符合所述预设条件的未标注训练数据进行标注；

根据标注完成的所有未标注训练数据，对经过训练的所述安全隐患目标检测模型再进行训练。

本申请实施例提供的一种输电线路安全隐患目标检测模型训练装置，包括：

第一训练模块，根据已标注的输电线路训练数据，训练输电线路的安全隐患目标检测模型；

检测模块，采用所述安全隐患目标检测模型，对未标注的输电线路训练数据进行检测，得到安全隐患目标检测结果；其中，所述检测结果包括安全隐患目标位置信息；

分类模块，根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，得到安全隐患目标分类结果，并对符合预设条件的未标注训练数据进行标注；其中，所述分类结果包括安全隐患目标类别信息；

聚类模块，对不符合所述预设条件的未标注训练数据进行聚类，并根据聚类结果，对不符合所述预设条件的未标注训练数据进行标注；

第二训练模块，根据标注完成的所有未标注训练数据，对经过训练的所述安全隐患目标检测模型再进行训练。

本申请实施例提供一种输电线路安全隐患目标检测模型训练方法及装置，服务器通过已标注的训练数据，训练检测模型后，通过该检测模型检测未标注的训练数据，并得到检测结果。之后，服务器根据训练好的分类模型，对这些检测结果进行分类，筛选出部分符合预设条件的未标注训练数据，进行标注。并对剩余未标注的训练数据进行聚类，根据聚类结果，对这些剩余未标注的训练数据进行标注，以此完成对所有未标注训练数据的标注过程。最终，服务器可采用经过标注的所有训练数据，对检测模型进行再次训练。这种训练方法，在一定程度的保证了标注的准确性的基础上，可实现对未标注训练数据的自动标注，能够节省对训练数据的标注时间，提高训练数据的利用率。并且，经过标注后的训练数据可进一步对检测模型进行训练，以实现对检测模型的优化，提高检测模型的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的输电线路安全隐患目标检测模型训练方法流程图；

图2为本申请实施例提供的聚类方法示意图；

图3为本申请实施例提供的聚类结果示意图；

图4为本申请实施例提供的输电线路安全隐患目标检测模型训练装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的输电线路安全隐患目标检测模型训练方法流程图，具体包括以下步骤：

S101：根据已标注的输电线路训练数据，训练输电线路的安全隐患目标检测模型。

S102：采用所述安全隐患目标检测模型，对未标注的输电线路训练数据进行检测，得到安全隐患目标检测结果。

在本申请实施例中，服务器首先可获取数据库中存储的大量训练数据，即输电线路附近的若干图像。具体的，服务器可通过输电线路附近的摄像头或工作人员实地手动拍摄并上传等方式获取训练数据。

训练数据可包括已标注的训练数据与未标注的训练数据。已标注的训练数据的标注信息可包括安全隐患目标位置信息，安全隐患目标位置信息表示安全隐患目标在训练数据的图像中所处的位置，具体可通过标注框来框选出待检测的目标在图像中所在的位置。

服务器可通过已标注的训练数据，训练安全隐患目标检测模型(下称检测模型)。于是，经过初步训练，检测模型可具有一定的检测能力。

之后，服务器可将各未标注的训练数据输入到已训练的检测模型中，通过检测模型对未标注的训练数据进行检测，获得检测结果。针对每个输入的未标注的训练数据，检测模型通过检测获得的检测结果可包括“检测出目标”、“未检测出目标”(即漏检)。其中，“检测出目标”还可进一步划分为“正确检测出目标”以及“错误检测出目标”。

具体的，各已标注的训练数据中可存在标注框，标注框可将训练数据中的目标框选出来，是人工确定出的目标在图像中所在的位置以及范围大小。而检测模型在对输入的训练数据进行检测时，可在训练数据中确定出检测框，检测框表示检测模型确定出的目标在图像中所在的位置以及范围大小。当标注框与检测框的重叠率大于0.5时，可认为检测模型对训练数据的检测结果为“正确检测出目标”，当标注框与检测框的重叠率不大于0.5时，可认为检测模型对训练数据的检测结果为“错误检测出目标”，当检测模型无法确定出检测框时，可认为检测模型“未检测出目标”。

S103：根据训练好的分类模型，对检测结果进行分类，并对符合预设条件的未标注训练数据进行标注。

在本申请实施例中，针对检测模型对未标注的训练数据进行检测后的检测结果，服务器可通过预先训练好的分类模型，对各检测结果进行分类。之后，服务器可根据分类模型输出的分类结果，确定符合预设条件的未标注训练数据，对这些未标注训练数据进行标注。

具体的，服务器可根据预存的若干类别，对检测模型检测出的各安全隐患目标(即检测结果)进行分类。其中，预存的若干类别可包括导线异物、挖掘机、反光膜等等。

针对各检测结果，服务器可确定分类模型对该检测结果进行分类后的分类结果，以及相应的分类结果的置信度。服务器可根据分类模型的预设置信度，以及各检测结果对应的分类结果的置信度，确定分类结果对应的置信度高于分类模型的预设置信度时，判断该分类结果对应的未标注训练数据为符合预设条件的未标注训练数据。其中，分类模型的置信度表示分类模型对检测结果进行分类，所获得的分类结果的可信任的程度，分类结果的置信度可作为判断分类结果的准确性的参考依据。

于是，服务器可根据符合预设条件的未标注训练数据对应的检测结果以及分类结果，对未标注训练数据进行标注。其中，对未标注训练数据进行标注后的标注信息可包括类别信息、位置信息，位置信息是通过检测模型的检测结果获得的，类别信息是通过分类模型对检测结果进行分类获得的。

通过将分类结果的置信度高于分类模型的预设置信度的未标注训练数据，作为符合预设条件的未标注训练数据进行标注，可将分类结果的置信度较高的未标注训练数据筛选出来。由于这些分类结果的置信度较高，因此可认为分类模型对这些未标注训练数据的检测结果以及分类结果的信任程度较高，也就是说，通过分类模型进行分类后，这些未标注训练数据得到的分类结果是相对可信的，分类的正确性也较高。于是，服务器可根据相应的检测结果以及分类结果，对这些未标注的训练数据进行标注，并且，进行标注的标注信息的准确率是较高的。

进一步地，在预先训练分类模型时，服务器可根据已标注的训练数据，对分类模型进行训练。其中，已标注的训练数据的标注信息可包括类别信息。

更进一步地，服务器在预先训练分类模型的过程中，可根据各未标注训练数据的检测得分，来训练分类模型。具体的，可采用损失函数

对分类模型进行训练。其中，R_cls[h]表示可采用的任意一种现有的损失函数，s表示检测得分。检测得分表示检测模型确定出的各检测结果对应的置信度，可在一定程度上作为检测结果的准确性的判断依据。通过将损失函数与检测得分相结合，使损失函数与检测得分成正相关关系，也可以说是损失函数与检测结果的准确性成正相关关系。于是，分类模型在进行学习的过程中，可增加对准确性较高的检测结果的重视程度，为准确性较高的检测结果赋予较大的权重，从而优化分类模型的学习率，增强分类模型的准确性。

S104：对不符合预设条件的未标注训练数据进行聚类，并根据聚类结果，对不符合预设条件的未标注训练数据进行标注。

在本申请实施例中，服务器在步骤103中，对未标注训练数据中的部分训练数据(即符合预设条件的训练数据)进行了标注。之后，为了对剩余的未标注训练数据(即不符合预设条件的训练数据)进行标注，服务器可通过对这些未标注训练数据进行聚类，来完成对这些未标注训练数据的标注。

具体的，服务器可获取部分已标注训练数据，将这些已标注训练数据与不符合预设条件的未标注训练数据一起，采用聚类方法进行聚类，形成若干簇。在每个簇中，所有的训练数据均具有相近的特征，于是，服务器可根据该簇中的已标注训练数据的标注信息，对未标注训练数据进行标注。通过这种方法，可有效利用已标注训练数据的标注信息，对剩余的不符合预设条件的未标注训练数据进行自动标注，提高标注效率，节省标注时间。

进一步地，服务器可在训练检测模型时，从各已标注的训练数据中，确定检测模型检测错误的训练数据，作为聚类样本，与不符合预设条件的未标注训练数据一起进行聚类。其中，检测错误的训练数据，即为步骤102中所指的检测结果为“未检测出目标”与“错误检测出目标”的训练数据。

由于检测模型对部分已标注训练数据检测错误，说明检测模型对这部分已标注训练数据的安全隐患目标的特征不能充分把握，这部分已标注训练数据较难检测。因此，通过将较难检测的已标注训练数据作为聚类样本，可在聚类过程中，对这些已标注训练数据的特征进行充分学习，使这些已标注训练数据的特征能够得到充分表达，从而加强对未标注训练数据进行标注的准确性。

进一步地，服务器可采用有噪声的基于密度的聚类方法(Density Based SpatialClustering of Application with Noise，DBSCAN)，对不符合预设条件的未标注训练数据进行聚类。

在DBSCAN聚类方法中，存在密度空间参数与邻域最小点数两个参数。经过聚类，可将所有聚类数据划分为核心点、边界点与噪音点。核心点表示以单个数据点为中心，以密度空间参数为半径，在这一范围内包括的聚类数据点的数量超过邻域最小点数的数据点。边界点表示，以单个数据点为中心，以密度空间参数为半径，在这一范围内包括的聚类数据点的数量小于邻域最小点数，但落在核心点的邻域内的数据点。噪音点表示既不是核心点也不是边界点的数据点。

DBSCAN聚类方法的具体流程如下：

(1)设置密度空间参数和邻域最小点数。这两个参数的设置可通过采用DBSCAN对聚类数据集进行聚类，根据较好的聚类效果以及较高的聚类精度，来确定出密度空间参数和邻域最小点数。

(2)对于聚类数据集中的任意数据点，如果该数据点已经被包含在某个簇中或者被标记为噪音点，则继续寻找下一个数据点。

(3)在标记每个数据点时，检测该数据点的邻域，如果邻域包含的数据点的数量小于邻域最小点数，则标记该数据点为噪声点或者边界点。

(4)如果邻域包含的数据点数量大于邻域最小点数，建立新的簇，并将该数据点添加到该簇中。

图2为本申请实施例提供的聚类方法示意图，在图2中，聚类方法所设置的邻域最小点数为3，方点表示核心点，实心圆点表示边界点，圆圈表示噪音点。图2中三个虚线圈表示分别以三个核心点为圆心，所划分出的以密度空间参数E为半径的圆。

图3为本申请实施例提供的聚类结果示意图，在图3中，各个小圆点表示各个聚类数据点，外侧的圆圈区域、以及圆圈区域中的三个点状区域，均表示聚类所形成的簇。图3中通过圆圈圈出的聚类数据点，表示未被归入任何一个簇中的部分噪音点。

进一步地，在采用聚类方法完成聚类后，针对噪音点所对应的聚类数据点，可认为这部分聚类数据点经过检测模型检测后产生的检测结果为不可靠的。于是，服务器可将这些聚类数据点在原图像中对应的目标去除掉，从而避免这些目标对检测模型的训练造成干扰，影响检测模型的准确性。

S105：根据标注完成的所有未标注训练数据，对安全隐患目标检测模型再进行训练。

经过步骤101～104，服务器可对所有未标注训练数据完成标注，即确定出各未标注训练数据的目标的位置信息。之后，服务器可采用这些经过标注后的训练数据，对已经训练过的安全隐患目标检测模型再次进行训练，以完善检测模型的性能，实现对检测模型的优化，扩大检测模型的训练数据量，并提高检测模型的准确性。

进一步地，服务器在采用已标注的训练数据训练检测模型时，可从预设的两种安全隐患目标检测模型中，确定用户选择的一种安全隐患目标检测模型进行训练。其中，一种是一阶段检测模型，其骨干网络可以是轻量级网络，例如，Yolov3，Tiny-Yolov3，等等。一阶段检测模型可称为高速模型，其精度较低但速度更快，适用于边缘设备、移动终端等算力较低的平台。另一种是二阶段检测模型，其骨干网络为ResNet101，例如，CascadeRCNN，等等。二阶段检测模型可称为高精模型，其精度较高但速度较慢，适用于大型服务器等应用场景。于是，用户可根据需要与不同的应用场景，选择适合的安全隐患目标检测模型进行训练。

更进一步地，服务器还可确定用户未选择的检测模型，根据该检测模型对未标注训练数据的检测结果，对用户选择的检测模型进行训练。采用高精模型的检测结果训练高速模型，可提高高速模型的检测精度。采用高速模型的检测结果训练高精模型，可增强高精模型的泛化能力。通过两种检测模型的互训，可实现对检测模型的优化，提高检测模型的性能。

在本申请实施例中，服务器通过已标注的训练数据，训练检测模型后，通过该检测模型检测未标注的训练数据，并得到检测结果。之后，服务器根据训练好的分类模型，对这些检测结果进行分类，筛选出置信度高的分类结果对应的未标注训练数据，进行标注。并将剩余未标注的训练数据，与预先筛选出的已标注的训练数据一起进行聚类，根据聚类结果，对这些剩余未标注的训练数据进行标注，以此完成了对所有未标注训练数据的标注过程。最终，服务器可采用经过标注的所有训练数据，对检测模型进行再次训练。

通过这种方法，可基于半监督学习的基础上，根据已标注训练数据的标注信息，并且根据检测模型的检测结果、分类模型的分类结果以及聚类方法的聚类结果，对所有未标注训练数据进行自动标注。这样可扩大用来训练模型的训练数据的规模，充分提高训练数据的利用率，使未标注训练数据也能在经过自动标注后参与模型训练，无需耗费较多的人力物力以及标注时间，减少了标注时间，有效提高了训练模型的效率。

并且，在对未标注训练数据进行标注时，为了保证对未标注训练数据的标注准确性，本方法通过分类模型的分类筛选出部分置信度较高的分类结果对应的未标注训练数据，再通过聚类方法的聚类对剩余未标注训练数据进行标注，并且对可能造成噪音影响的噪音点进行去除。通过这些步骤，可充分提高对未标注训练数据的标注准确率，使该自动标注过程具有较高的可靠性与准确性。

这样，经过自动标注过后，再采用新标注出的训练数据对检测模型进行训练，可增大检测模型的训练数据量，进一步深化各个类别的目标的特征的表达，使检测模型能够对各个类别的训练数据进行充分的学习，从而对检测模型实现优化，提高检测模型的检测准确率。

以上为本申请实施例提供的输电线路安全隐患目标检测模型训练方法，基于同样的发明思路，本申请实施例还提供了相应的输电线路安全隐患目标检测模型训练装置，如图4所示。

图4为本申请实施例提供的输电线路安全隐患目标检测模型训练装置结构示意图，具体包括：

第一训练模块401，根据已标注的输电线路训练数据，训练输电线路的安全隐患目标检测模型；

检测模块402，采用所述安全隐患目标检测模型，对未标注的输电线路训练数据进行检测，得到安全隐患目标检测结果；其中，所述检测结果包括安全隐患目标位置信息；

分类模块403，根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，得到安全隐患目标分类结果，并对符合预设条件的未标注训练数据进行标注；其中，所述分类结果包括安全隐患目标类别信息；

聚类模块404，对不符合所述预设条件的未标注训练数据进行聚类，并根据聚类结果，对不符合所述预设条件的未标注训练数据进行标注；

第二训练模块405，根据标注完成的所有未标注训练数据，对经过训练的所述安全隐患目标检测模型再进行训练。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种输电线路安全隐患目标的检测方法，其特征在于，包括：

根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，得到安全隐患目标分类结果，并对符合预设条件的未标注训练数据进行标注；其中，所述分类结果包括安全隐患目标类别信息；其中，所述预设条件为各检测结果对应的分类结果的置信度高于预设置信度；

根据标注完成的所有未标注训练数据，对经过训练的所述安全隐患目标检测模型再进行训练；所述对不符合所述预设条件的未标注训练数据进行聚类，具体包括：

采用有噪声的基于密度的聚类方法，对不符合所述预设条件的未标注训练数据进行聚类；

确定所述聚类产生的噪声对应的未标注训练数据中的目标；

将所述目标从相应的未标注训练数据的原图像中去除；

其中，所述采用有噪声的基于密度的聚类方法，对不符合所述预设条件的未标注训练数据进行聚类，具体包括：

基于预设聚类精度与预设聚类效果，确定所述有噪声的基于密度的聚类方法的密度空间参数和邻域最小点数，以基于所述密度空间参数与所述邻域最小点数对所述不符合所述预设条件的未标注训练数据进行聚类，获得多个聚类簇；

若所述不符合所述预设条件的未标注训练数据已经被包含在聚类簇中，或者被标记为噪音点，则继续寻找下一个未标注训练数据；

检测所述未标注训练数据的邻域，若邻域包含的未标注训练数据的数量小于邻域最小点数，则标记该未标注训练数据为噪声点或者边界点；

若邻域包含的未标注训练数据数量大于邻域最小点数，则建立新的聚类簇，并将该未标注训练数据添加到该新的聚类簇中，实现对不符合所述预设条件的未标注训练数据进行聚类；其中，所述对不符合所述预设条件的未标注训练数据进行聚类，具体还包括：

根据所述检测结果，从已标注的输电线路训练数据中，确定所述安全隐患目标检测模型检测错误的训练数据，作为聚类样本；

对所述聚类样本与不符合所述预设条件的未标注训练数据一起进行聚类；

其中，所述根据聚类结果，对不符合所述预设条件的未标注训练数据进行标注，具体包括：

针对各不符合所述预设条件的未标注训练数据，确定该未标注训练数据所属的簇，根据该簇中包括的已标注训练数据，对未标注训练数据进行标注。

2.根据权利要求1所述的方法，其特征在于，所述检测结果包括检测得分；

根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，具体包括：

在训练所述分类模型的过程中，基于各未标注训练数据的检测得分确定各标注训练数据的损失函数。

3.根据权利要求1所述的方法，其特征在于，对符合预设条件的未标注训练数据进行标注，具体包括：

根据所述分类模型，确定各检测结果对应的分类结果的置信度；

针对各分类结果，根据所述分类模型的预设置信度，确定该分类结果的置信度高于所述预设置信度时，判断该分类结果对应的未标注训练数据符合预设条件；

根据符合预设条件的未标注训练数据对应的检测结果以及分类结果，对未标注训练数据进行标注。

4.根据权利要求1所述的方法，其特征在于，根据已标注的训练数据，训练安全隐患目标检测模型之前，所述方法还包括：

从预设的若干安全隐患目标检测模型中，确定用户选择训练的安全隐患目标检测模型；其中，所述预设的若干安全隐患目标检测模型包括一阶段检测模型与二阶段检测模型，所述一阶段检测模型的收敛速度大于所述二阶段检测模型的收敛速度，所述一阶段检测模型的安全隐患目标检测准确率小于所述二阶段检测模型的安全隐患目标检测准确率。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据用户未选择的安全隐患目标检测模型对未标注训练数据的检测结果，对用户选择的安全隐患目标检测模型进行训练。

6.一种输电线路安全隐患目标的检测装置，其特征在于，包括：

分类模块，根据训练好的输电线路安全隐患目标分类模型，对所述检测结果进行分类，得到安全隐患目标分类结果，并对符合预设条件的未标注训练数据进行标注；其中，所述分类结果包括安全隐患目标类别信息；其中，所述预设条件为各检测结果对应的分类结果的置信度高于预设置信度；

第二训练模块，根据标注完成的所有未标注训练数据，对经过训练的所述安全隐患目标检测模型再进行训练；其中，所述聚类模块，具体用于：

确定所述聚类产生的噪声对应的未标注训练数据中的目标；

将所述目标从相应的未标注训练数据的原图像中去除；

若邻域包含的未标注训练数据数量大于邻域最小点数，则建立新的聚类簇，并将该未标注训练数据添加到该新的聚类簇中，实现对不符合所述预设条件的未标注训练数据进行聚类；其中，所述聚类模块，还用于：

对所述聚类样本与不符合所述预设条件的未标注训练数据一起进行聚类；其中，所述根据聚类结果，对不符合所述预设条件的未标注训练数据进行标注，具体包括：