CN115240015A

CN115240015A - 目标检测模型的训练方法、装置、设备和存储介质

Info

Publication number: CN115240015A
Application number: CN202211161185.5A
Authority: CN
Inventors: 朱向雷; 郁淑聪; 王镭; 鹿宁宁; 孟健; 郝斌
Original assignee: Automotive Data of China Tianjin Co Ltd
Current assignee: Automotive Data of China Tianjin Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-10-25
Anticipated expiration: 2042-09-23
Also published as: CN115240015B

Abstract

本发明涉及模型训练领域，公开了一种目标检测模型的训练方法、装置、设备和存储介质。该方法包括：基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型，其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息；根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配；基于训练数据集对所述第二网络模型进行训练，获得目标检测模型。本实施例提高了模型训练效率以及经过训练所获得的目标检测模型的检测精度。

Description

目标检测模型的训练方法、装置、设备和存储介质

技术领域

本发明涉及模型训练领域，尤其涉及一种目标检测模型的训练方法、装置、设备和存储介质。

背景技术

目标检测包括目标识别与目标提取两方面内容，是一种图像理解算法，用于确定目标对象在图像中的位置和目标对象的类别。

目前通常基于训练数据集对神经网络模型进行训练获得目标检测模型，而后通过目标检测模型对待检测图像中的目标对象进行识别与提取。

然而，目前的处理方法存在至少两方面缺陷，一方面是基于训练数据集对神经网络模型进行训练获得目标检测模型的过程中训练效率较低，导致需要较长的训练时间；另一方面基于目前的训练方法所获得的目标检测模型的检测精度不高。

有鉴于此，特提出本发明。

发明内容

为了解决上述技术问题，本发明提供了一种目标检测模型的训练方法、装置、设备和存储介质，提高了模型训练效率以及经过训练所获得的目标检测模型的检测精度。

本发明实施例提供了一种目标检测模型的训练方法，该方法包括：

基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型，其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息，所述类别信息用于表征所述单元格中所显示的检测目标的类别，所述第一网络模型的输入是所述样本图像以及所述样本图像中各所述单元格的类别信息，所述第一网络模型的输出是S1×S1×C1的第一矩阵，所述第一矩阵的行数和列数均为S1，每个矩阵元素为一个长度为C1的类别向量，用于表示对应单元格中所显示的检测目标的类别；

根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配；

基于训练数据集对所述第二网络模型进行训练，获得目标检测模型。

本发明实施例提供了一种目标检测模型的训练装置，该装置包括：

预训练模块，用于基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型，其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息，所述类别信息用于表征所述单元格中所显示的检测目标的类别，所述第一网络模型的输入是所述样本图像以及所述样本图像中各所述单元格的类别信息，所述第一网络模型的输出是S1×S1×C1的第一矩阵，所述第一矩阵的行数和列数均为S1，每个矩阵元素为一个长度为C1的类别向量，用于表示对应单元格中所显示的检测目标的类别；

调整模块，用于根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配；

训练模块，用于基于训练数据集对所述第二网络模型进行训练，获得目标检测模型。

本发明实施例提供了一种电子设备，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行任一实施例所述的目标检测模型的训练方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行任一实施例所述的目标检测模型的训练方法的步骤。

本发明实施例具有以下技术效果：

基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型，其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息，所述类别信息用于表征所述单元格中所显示的检测目标的类别，换言之，预训练的目的在于训练模型对检测目标的类别和位置的感知能力；而后根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型；基于训练数据集对所述第二网络模型进行训练，获得目标检测模型，此次训练的目的在于训练模型对检测目标的类别的识别能力；通过上述技术手段可提高目标检测模型的训练效率和检测精度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标检测模型的训练方法的流程图；

图2是本发明实施例提供的一种样本图像的示意图；

图3是本发明实施例提供的一种目标检测模型的训练装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本发明实施例提供的目标检测模型的训练方法可以由电子设备执行。图1是本发明实施例提供的一种目标检测模型的训练方法的流程图。参见图1所示，该目标检测模型的训练方法具体包括如下步骤：

S110、基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型。

其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息，所述类别信息用于表征所述单元格中所显示的检测目标的类别，所述第一网络模型的输入是所述样本图像以及所述样本图像中各所述单元格的类别信息，所述第一网络模型的输出是S1×S1×C1的第一矩阵，所述第一矩阵的行数和列数均为S1，每个矩阵元素为一个长度为C1的类别向量，用于表示对应单元格中所显示的检测目标的类别。

检测目标的类别例如是桌子、椅子、猫、狗等具体对象。参考如图2所示的一种样本图像的示意图，样本图像被平均划分为8×8个单元格（共64个），利用第一边框210将检测目标-“狗”占据的区域圈出来，与第一边框210重合的单元格的类别信息均标记为“狗”，即第二边框220圈住的所有单元格的类别信息均标记为“狗”。

若多个检测目标重合显示于样本图像中的一个单元格内，则将该单元格对应的检测目标的类别的数量标记为多个；针对不存在检测目标的单元格将对应的检测目标的类别的数量标记为0，以引导模型将该单元格预测为各个类别的概率为0。

通过对预训练数据集进行针对性处理，可使得基于预训练数据集进行训练过的第一网络模型初步具备目标定位的能力，即能够辨别出图像中哪些区域存在检测目标。

进一步的，预训练数据集可以是基于目标检测领域的公知数据集生成，如OpenImages、MS COCO、PASCAL VOC和ExDARK等，这些数据集内都对感兴趣目标的类别的位置信息进行标注，在此基础上，进一步对感兴趣目标的类别进行标注。本发明将这些数据集融合成一个大数据集，通过利用这个大数据集对第一网络模型进行预训练，达到提升目标检测模型在某个具体数据集上的检测精度的目的。并且，通过利用较大的数据集对第一网络模型进行预训练，可以增强第一网络模型的鲁棒性。

示例性的，第一网络模型可以是神经网络模型，更具体的第一网络模型包括但不限于YOLO模型。

综上，对第一网络模型进行预训练的目的在于训练模型对检测目标的类别和位置的感知能力，但不具备区分同类别的不同个体的能力。

S120、根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配。

示例性的，所述根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配，包括：

根据所述预设检测任务确定卷积层的数量和结构；

利用所述数量和结构的卷积层替代所述第一网络模型的输出层，获得调整后的第二网络模型。

其中，对第一网络模型的输出层进行调整的目的是获得符合预设检测任务的输出。例如第一网络模型的输出为S1×S1×C1的第一矩阵，所述第一矩阵的行数和列数均为S1，每个矩阵元素为一个长度为C1的类别向量，用于表示对应单元格中所显示的检测目标的类别。

而期望的符合预设检测任务的输出是S2×S2×N×（C2+5）的第二矩阵，其中，S2表示所述待检测图像（即输出第二网络模型的图像）中单元格的行数和列数，N表示各单元格中预测锚框的数量，C2表示各单元格中所显示的检测目标的类别向量的长度，所述第二矩阵的行数和列数均为S2，每个矩阵元素为N个长度为（C2+5）的向量，用于表示对应单元格中各预测锚框的关联信息，所述各预测锚框的关联信息包括对应单元格的坐标、对应预测锚框的尺寸以及对应预测锚框的置信度，其中，置信度最大的预测锚框的位置为检测目标的位置。若想获得符合预期的输出，则需要通过对第一网络模型的输出层进行调整实现。具体的，可以将第一网络模型的输出层删除，然后利用一个或者多个卷积层代替，卷积层的结构（例如卷积核的大小）和数量，根据预设检测任务确定。

S130、基于训练数据集对所述第二网络模型进行训练，获得目标检测模型。

其中，所述训练数据集为所述预训练数据集中的部分或全部，或者与所述预训练数据集没有交集的其它数据集。通过对第二网络模型进行正式训练，可以获得目标检测模型，目标检测模型具备识别各检测目标的类别以及各检测目标的位置的能力。

进一步的，所述方法还包括：

将待检测图像输入至所述目标检测模型，获得S2×S2×N×（C2+5）的第二矩阵，其中，S2表示所述待检测图像中单元格的行数和列数，N表示各单元格中预测锚框的数量，C2表示各单元格中所显示的检测目标的类别向量的长度，所述第二矩阵的行数和列数均为S2，每个矩阵元素为N个长度为（C2+5）的向量，用于表示对应单元格中各预测锚框的关联信息，所述各预测锚框的关联信息包括对应单元格的坐标、对应预测锚框的尺寸以及对应预测锚框的置信度，其中，置信度最大的预测锚框的位置为检测目标的位置。每个单元格中可以包括一个或多个预测锚框，预测锚框用于圈住在单个单元格中的检测目标的显示区域。

本发明实施例的技术方案：基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型，其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息，所述类别信息用于表征所述单元格中所显示的检测目标的类别，换言之，预训练的目的在于训练模型对检测目标的类别和位置的感知能力；而后根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型；基于训练数据集对所述第二网络模型进行训练，获得目标检测模型，此次训练的目的在于训练模型对检测目标的类别的识别能力；通过上述技术手段可提高目标检测模型的训练效率和检测精度。

图3是本发明实施例提供的一种目标检测模型的训练装置的结构示意图，该装置包括：预训练模块310、调整模块320和训练模块330，其中，预训练模块310，用于基于预训练数据集对第一网络模型进行预训练，获得预训练过的第一网络模型，其中，所述预训练数据集包括多张样本图像，各样本图像被平均划分为S1×S1个单元格，所述预训练数据集还包括各所述单元格的类别信息，所述类别信息用于表征所述单元格中所显示的检测目标的类别，所述第一网络模型的输入是所述样本图像以及所述样本图像中各所述单元格的类别信息，所述第一网络模型的输出是S1×S1×C1的第一矩阵，所述第一矩阵的行数和列数均为S1，每个矩阵元素为一个长度为C1的类别向量，用于表示对应单元格中所显示的检测目标的类别；调整模块320，用于根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配；训练模块330，用于基于训练数据集对所述第二网络模型进行训练，获得目标检测模型。

图4为本发明实施例提供的一种电子设备的结构示意图。如图4所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所说明的本发明任意实施例的目标检测模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线***和/或其他形式的连接机构（未示出）互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息，包括预警提示信息、制动力度等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备400中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的目标检测模型的训练方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的目标检测模型的训练方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

还需说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述训练数据集为所述预训练数据集中的部分或全部。

3.根据权利要求1所述的方法，其特征在于，还包括：

将待检测图像输入至所述目标检测模型，获得S2×S2×N×（C2+5）的第二矩阵，其中，S2表示所述待检测图像中单元格的行数和列数，N表示各单元格中预测锚框的数量，C2表示各单元格中所显示的检测目标的类别向量的长度，所述第二矩阵的行数和列数均为S2，每个矩阵元素为N个长度为（C2+5）的向量，用于表示对应单元格中各预测锚框的关联信息，所述各预测锚框的关联信息包括对应单元格的坐标、对应预测锚框的尺寸以及对应预测锚框的置信度，其中，置信度最大的预测锚框的位置为检测目标的位置。

4.根据权利要求1所述的方法，其特征在于，所述根据预设检测任务对所述第一网络模型的输出层进行调整，获得调整后的第二网络模型，以使所述第二网络模型的输出层与所述预设检测任务相适配，包括：

根据所述预设检测任务确定卷积层的数量和结构；

5.根据权利要求1所述的方法，其特征在于，在所述预训练数据集中，若多个检测目标重合显示于样本图像中的一个单元格内，则将所述一个单元格对应的检测目标的类别的数量标记为多个；针对不存在检测目标的单元格将对应的检测目标的类别的数量标记为0。

6.一种目标检测模型的训练装置，其特征在于，包括：

7.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至5任一项所述的目标检测模型的训练方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至5任一项所述的目标检测模型的训练方法的步骤。