CN113326796A

CN113326796A - 物体检测方法、模型训练方法、装置及电子设备

Info

Publication number: CN113326796A
Application number: CN202110672301.9A
Authority: CN
Inventors: 钱正宇; 袁正雄; 李金麒; 褚振方; 黄悦; 李润青; 胡鸣人; 施恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-31
Anticipated expiration: 2041-06-17
Also published as: CN113326796B

Abstract

本公开提供了一种物体检测方法、模型训练方法、装置及电子设备，涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取待检测图像；对所述待检测图像进行物体检测，得到所述待检测图像的第一物体检测信息；对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，所述目标场景检测信息包括所述待检测图像对应的目标场景类别；获取所述目标场景类别对应的场景识别模型；基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息。根据本公开的技术，解决了物体检测技术中存在的物体检测效果比较差的问题，提高了物体检测的效果。

Description

物体检测方法、模型训练方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、深度学习技术领域，具体涉及一种物体检测方法、模型训练方法、装置及电子设备。

背景技术

随着人工智能的高速发展，越来越多的应用场景可以基于深度学习的物体检测技术来解决实际问题，比如针对零售行业巡检的应用场景、农作物无人机巡检的应用场景和工业标准零件流水线检测的应用场景等。

在这些应用场景中，待检测图像中通常包括多个检测场景，使得一个物体检测应用往往需要同时处理多个检测场景的数据。

目前，物体检测应用通常仅集成单一的深度学习模型，通过集成的深度学习模型来对存在多个检测场景的物体进行检测。

发明内容

本公开提供了一种物体检测方法、模型训练方法、装置及电子设备。

根据本公开的第一方面，提供了一种物体检测方法，包括：

获取待检测图像；

对所述待检测图像进行物体检测，得到所述待检测图像的第一物体检测信息；

对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，所述目标场景检测信息包括所述待检测图像对应的目标场景类别；

获取所述目标场景类别对应的场景识别模型；

基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息。

根据本公开的第二方面，提供了一种模型训练方法，包括：

获取目标数据，所述目标数据包括行业场景库中目标场景类别下的场景图像样本数据，和/或，输入的所述目标场景类别下的物体图像样本数据，所述目标场景类别为对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别；

基于所述目标数据对所述目标场景类别对应的场景识别模型进行训练；

其中，所述场景识别模型用于结合第一物体检测信息确定所述待检测图像的第二物体检测信息，所述第一物体检测信息为对所述待检测图像进行物体检测得到的物体检测信息。

根据本公开的第三方面，提供了一种物体检测装置，包括：

第一获取模块，用于获取待检测图像；

物体检测模块，用于对所述待检测图像进行物体检测，得到所述待检测图像的第一物体检测信息；

场景检测模块，用于对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，所述目标场景检测信息包括所述待检测图像对应的目标场景类别；

第二获取模块，用于获取所述目标场景类别对应的场景识别模型；

确定模块，用于基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息。

根据本公开的第四方面，提供了一种模型训练装置，包括：

第五获取模块，用于获取目标数据，所述目标数据包括目标场景类别下的场景图像样本数据，所述目标场景类别为对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别；

第一训练模块，用于基于所述目标数据对所述目标场景类别对应的场景识别模型进行训练；

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法，或者执行第二方面中的任一项方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法，或者执行第二方面中的任一项方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面中的任一项方法，或者实现第二方面中的任一项方法。

根据本公开的技术解决了物体检测技术中存在的物体检测效果比较差的问题，提高了物体检测的效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的物体检测方法的流程示意图；

图2是待检测图像中物体框的标识示意图；

图3是物体检测平台中的模型结构示意图；

图4是待检测图像中场景框的标识示意图；

图5是货架场景的标识示意图；

图6是物体检测平台中物体检测的整体流程示意图；

图7是根据本公开第二实施例的模型训练方法的流程示意图；

图8是根据本公开第三实施例的物体检测装置的结构示意图；

图9是根据本公开第四实施例的模型训练装置的结构示意图；

图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本公开提供一种物体检测方法，包括如下步骤：

步骤S101：获取待检测图像。

本实施例中，物体检测方法涉及人工智能技术，具体涉及计算机视觉、深度学习技术领域，其可以广泛应用于针对零售行业巡检、农作物无人机巡检和工业标准零件流水线检测等应用场景中。该方法可以由本公开实施例的物体检测装置执行。而物体检测装置可以配置在任意电子设备中，以执行本公开实施例的物体检测方法，该电子设备可以为服务器，也可以为终端，这里不做具体限定。

所述待检测图像可以为包括物体图像内容和物体场景图像内容的图像，所述物体图像内容所涉及的物体包括至少一个，所述物体场景图像内容所涉及的场景也可以包括至少一种。

比如，针对零售行业巡检的应用场景，待检测图像中图像内容所涉及的场景可以包括货架场景和地堆场景等。

又比如，针对农作物无人机巡检的应用场景，待检测图像中图像内容所涉及的场景可以包括梯田场景、水田场景、玉米农作物场景和水稻农作物场景等。

本实施例的目的即是对待检测图像进行物体检测，以确定待检测图像中的物体在实际场景中的相关信息，从而可以基于检测出的相关信息进行相应的应用。

比如，针对零售行业巡检的应用场景，可以检测商品在货架上的层数、该商品在该层中的排面占比以及该商品在货架上排放的饱满度等，这样可以根据商品在货架上的层数对该商品进行自动售卖，根据售卖情况调整其排面占比，以及根据饱满度进行商品排放。又比如，可以检测地堆场景的商品实际堆放的数量以及商品摆放纵深，这样可以减少清点商品的人工成本。

所述待检测图像的获取方式可以包括多种，比如，可以采用摄像头实时采集图像，将其作为待检测图像，也可以获取预先存储的待检测图像，还可以从网络下载待检测图像，亦或是接收其他电子设备发送的图像，将其作为待检测图像。

步骤S102：对所述待检测图像进行物体检测，得到所述待检测图像的第一物体检测信息。

该步骤中，所述第一物体检测信息可以为待检测图像中物体的列表，包括但不限于待检测图像中各物体的物体类别、置信度和物***置信息等，该物***置信息指的是物体在待检测图像中的像素位置，其可以用框形标识标定，可以称之为物体框。如图2所示，方形实体标识201表征物体，而物体之外的粗体方框202即表征该物体的物体框。

可以基于物体检测模型对所述待检测图像进行物体检测，该物体检测模型可以为定制化训练的物体检测模型，定制化训练指的是基于实际数据训练，即定制化训练物体检测模型的输入为用户输入的实际数据，输出为物体检测模型。可以采用现有的或新的训练方式对物体检测模型进行训练，这里不进行具体限定。

实际应用中，参见图3，图3是物体检测平台中的模型结构示意图，如图3所示，物体检测模型可以为物体检测平台中的一个模型，该物体检测平台可以接入不同行业的物体检测应用，而不同行业的物体检测应用可以复用一个物体检测模型，也可以针对每个物体检测应用，训练得到一个与其对应的物体检测模型，这里不进行具体限定。

另外，物体检测模型的定制化训练环节可在深度学***台上运行，可以支持深度学***台的所有流程与优化功能，如数据增强、数据特征提取、预训练模型选择、参数调优、模型评估以及归因分析等。

步骤S103：对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，所述目标场景检测信息包括所述待检测图像对应的目标场景类别。

该步骤中，所述目标场景检测信息可以用于表征所述待检测图像对应的全部或部分检测场景的环境，其可以为待检测图像中场景的列表，包括但不限于待检测图像中各检测场景的场景类别、置信度和场景位置信息等，该场景位置信息指的是检测场景在待检测图像中的像素位置，其也可以用框形标识标定，可以称之为场景框。如图4所示，方形网格标识401表征货架，该货架包括多层，其上面放置了物体402，而货架之外的粗体方框403即表征该货架场景的场景框。

所述待检测图像中图像内容涉及的行业不同，所述目标场景检测信息也可以不同，比如，针对零售行业巡检的应用场景，待检测图像中图像内容所涉及的场景可以包括货架场景和地堆场景等。又比如，针对农作物无人机巡检的应用场景，待检测图像中图像内容所涉及的场景可以包括梯田场景、水田场景、玉米农作物场景和水稻农作物场景等。这两种行业的场景类别完全不同，相应的，目标场景检测信息也不同。

可以对待检测图像进行场景检测，得到目标场景检测信息，所述目标场景检测信息中包括的目标场景类别可以为待检测图像中涉及的所有检测场景的场景类别。

也可以对待检测图像进行场景检测，得到场景检测信息，该场景检测信息用于表征所述待检测图像对应的所有检测场景的环境，之后可以基于该场景检测信息对应的场景类别对场景检测信息进行过滤，最终得到目标场景检测信息。

基于该场景检测信息对应的场景类别对场景检测信息进行过滤，得到目标场景检测信息可以包括：可以基于该场景检测信息对应的场景类别，按照过滤信息(该过滤信息可以表征需要过滤掉哪些场景类别)，过滤掉场景检测信息中对应场景类别的场景检测信息，最终得到目标场景检测信息。如此，可以避免一些不必要的场景识别操作，从而可以降低场景识别的难度以及减少场景识别的时间，进而可以提高物体检测的效果。

比如，针对零售行业巡检的应用场景，对所述待检测图像进行场景检测，得到场景检测信息，该场景检测信息包括货架场景的场景检测信息和地堆场景的场景检测信息，基于该场景检测信息对应的场景类别按照过滤信息(该过滤信息表征需要过滤掉地堆场景)，过滤掉该场景检测信息中地堆场景的场景检测信息，最终得到货架场景的目标场景检测信息。

可以基于场景检测模型对所述待检测图像进行场景检测，该场景检测模型可以为定制化训练的场景检测模型，也可以为行业通用的场景检测模型，该行业通用的场景检测模型可以称之为预制场景检测模型，这里不进行具体限定。

其中，行业通用指的是：虽然每个物体检测应用涉及到的场景不同，但是放大到行业维度，场景通常是相似的，因此，针对一个行业，即使是不同的物体检测应用，均可以使用一个通用的场景检测模型来对待检测图像进行场景检测，即一个行业的不同物体检测应用可以复用一个场景检测模型，这样可以解决行业维度上大部分应用多场景适配的问题。

针对每个行业类别，可以基于行业场景库中该行业类别下的场景图像样本数据训练得到一个行业通用的场景检测模型，其输入为行业场景库中该行业类别下的大规模的场景图像样本数据，输出为一个场景检测模型。行业场景库的数据可以通过人工采集或者网络爬取来获得，在物体检测平台中，随着接入的物体检测应用的数量增加，场景数据的丰富度会越来越完善。

实际应用中，如图3所示，物体检测平台中可以包括场景检测模型，且可以包括很多行业类别对应的场景检测模型，比如包括零售行业巡检应用场景下的场景检测模型、农作物无人机巡检应用场景下的场景检测模型，以及工业标准零件流水线检测应用场景下的场景检测模型。在基于场景检测模型对所述待检测图像进行场景检测之前，可以获取所述待检测图像对应的目标行业类别；并从物体检测平台的预制场景检测模型中获取所述目标行业类别对应的场景检测模型，之后基于该场景检测模型对所述待检测图像进行场景检测，如此可以提高待检测图像的场景检测的准确性。

步骤S104：获取所述目标场景类别对应的场景识别模型。

所述场景识别模型可以为可处理多种检测场景的场景识别的模型，该多种检测场景可以包括目标场景类别下的检测场景；所述场景识别模型也可以为仅针对一个具体的检测场景即目标场景类别下的检测场景进行场景识别的模型，这里不进行具体限定。

以下以所述场景识别模型为仅针对一个具体的检测场景进行场景识别的模型为例进行说明，其输入可以为待检测图像或针对目标场景类别对待检测图像进行裁剪得到的图像以及场景检测模型中检测出的目标场景框，该目标场景框为所述目标场景类别对应的场景框，输出为场景识别信息。

该场景识别信息用于表征所述目标场景类别对应的场景框中物体的场景环境，且目标场景类别不同，场景识别信息也不同。比如，针对货架场景，场景识别信息可以包括货架层数、置信度和层数位置信息等。又比如，针对地堆场景，场景识别信息可以包括堆箱高度、置信度和堆箱位置信息等。

所述目标场景类别的数量可以包括一个或多个，在其数量包括多个的情况下，可以分别获取每个目标场景类别对应的场景识别模型，并针对每个目标场景类别，分别基于该目标场景类别对应的场景识别模型对待检测图像进行场景识别。

比如，针对货架场景，基于货架场景对应的场景识别模型对待检测图像中货架场景的场景框的图像内容进行场景识别。又比如，针对地堆场景，基于地堆场景对应的场景识别模型对待检测图像中地堆场景的场景框的图像内容进行场景识别。

所述场景识别模型可以称之为场景专用模型，即是一个特定场景下专用的模型，其可以为定制化训练的场景专用模型，也可以为预制场景专用模型，这里不进行具体限定。

预制场景专用模型可以为基于行业场景库中场景类别下的场景图像样本数据所训练得到的模型，其输入是行业场景库中场景类别下的场景图像样本数据，输出为场景专用模型。

定制化训练的场景专用模型可以引入用户输入的某一场景类别下的实际数据，并可以融合行业场景库中该场景类别下的场景图像样本数据，进行定制化训练。这样可以解决实际数据与行业场景库中的场景图像样本数据的图像特征偏差，实际训练时可以通过生成对抗网络将行业场景库中的场景图像样本数据进行风格转换，生成适合训练的数据集。

实际应用中，如图3所示，物体检测平台中可以包括很多场景类别对应的场景识别模型，且可以包括定制化训练的场景专用模型，如场景A专用模型，也可以包括预制场景专用模型，如场景B专用模型，可以从这些场景识别模型中获取目标场景类别对应的场景识别模型。

步骤S105：基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息。

该步骤中，所述第二物体检测信息可以用于表征物体在特定场景下的相关信息，如摆放位置和摆放情况等，且场景类别不同，第二物体检测信息也不同。

比如，针对货架场景，第二物体检测信息包括但不限于商品在货架上的层数、该商品在该层中的排面占比以及该商品在货架上排放的饱满度等。又比如，针对地堆场景，第二物体检测信息包括但不限于商品实际堆放的数量以及商品摆放纵深等。

在一可选实施方式中，该步骤具体包括：

基于所述场景识别模型对所述待检测图像进行场景识别，得到所述目标场景类别下的场景识别信息，所述场景识别信息用于表征所述目标场景类别对应的场景框中物体的场景环境；

对所述第一物体检测信息和所述场景识别信息进行融合处理，得到所述第二物体检测信息。

针对该实施方式，其具体介绍将在后续进行具体阐述。

在另一可选实施方式中，可以将所述第一物体检测信息和待检测图像输入至所述场景识别模型执行场景识别和信息匹配的操作，得到所述待检测图像的第二物体检测信息。

本实施例中，通过获取待检测图像；对所述待检测图像进行物体检测，得到所述待检测图像的第一物体检测信息；对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，所述目标场景检测信息包括所述待检测图像对应的目标场景类别；获取所述目标场景类别对应的场景识别模型；基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息。如此，可以结合物体检测模型、场景检测模型和场景识别模型对待检测图像进行物体检测，使得在待检测图像包括多个检测场景的情况下，也可以准确检测出物体在特定场景下的相关信息，从而可以提高物体检测的效果。

可选的，所述步骤S105具体包括：

本实施方式中，可以将标记有所述目标场景类别对应的场景框的待检测图像输入至场景识别模型进行场景识别，得到所述目标场景类别下的场景识别信息。

该场景识别信息用于表征所述目标场景类别对应的场景框中物体的场景环境，且目标场景类别不同，场景识别信息也不同。比如，针对货架场景，场景识别信息可以包括货架层数、置信度和层数位置信息等。如图5所示，方形网格标识501表征货架层，包括两个货架层，上面放置了物体502，而货架层之外的粗体方框503即表征该货架层的标识框。又比如，针对地堆场景，场景识别信息可以包括堆箱高度、置信度和堆箱位置信息等。

之后，可以对所述第一物体检测信息和所述场景识别信息进行融合处理，得到所述第二物体检测信息，其融合方式可以有多种，比如，可以基于物体在待检测图像中的像素位置与场景框中场景划分的像素位置关系，融合第一物体检测信息和场景识别信息。举个例子来说，针对货架场景，可以基于物体在待检测图像中的像素位置与货架层数在待检测图像中的像素位置的关系，确定物体处于货架的哪一层。又比如，可以设定相应的融合函数来融合第一物体检测信息和场景识别信息。

本实施方式中，通过基于所述场景识别模型对所述待检测图像进行场景识别，得到所述目标场景类别下的场景识别信息，所述场景识别信息用于表征所述目标场景类别对应的场景框中物体的场景环境；对所述第一物体检测信息和所述场景识别信息进行融合处理，得到所述第二物体检测信息。如此，通过信息融合的方式得到最终的第二物体检测信息，可以避免新增场景或场景发生变化时，需要重新训练场景识别模型的情况发生，从而可以降低物体检测平台中场景识别模型的训练难度。

可选的，所述对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，包括：

基于场景检测模型对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息；所述场景检测模型为基于行业场景库中行业类别下的场景图像样本数据训练得到的模型，所述行业场景库包括M个行业类别下的场景图像样本数据，M为正整数。

本实施方式中，所述场景检测模型可以为行业通用的场景检测模型，即为基于行业场景库中行业类别下的场景图像样本数据训练得到的模型，所述行业场景库包括M个行业类别下的场景图像样本数据，该行业通用的场景检测模型可以称之为预制场景检测模型。

可选的，所述基于场景检测模型对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息之前，所述方法还包括：

获取所述待检测图像对应的目标行业类别；

从预设场景检测模型中获取所述目标行业类别对应的所述场景检测模型。

本实施方式中，所述预设场景检测模型为预制场景检测模型，其数量包括至少一个，且每个预制场景检测模型可以对应一个行业类别。

在物体检测平台可应用于多个行业的情况下，为了保证场景检测的准确性，需要获取待检测图像对应的行业类别匹配的场景检测模型。具体的，可以获取所述待检测图像对应的目标行业类别，其获取方式可以有多种，比如，可以对所述待检测图像对应的行业类别进行识别，得到目标行业类别，也可以获取预先存储的所述目标行业类别，还可以接收其他电子设备发送的所述目标行业类别。之后，从预制场景检测模型中获取所述目标行业类别对应的所述场景检测模型，基于该场景检测模型对所述待检测图像进行场景检测。

如此，可以使物体检测平台可以应用于多个行业的物体检测，且可以从行业维度上高度复用场景检测模型，解决行业维度上大部分应用多场景适配的问题。

可选的，所述行业场景库包括每个行业类别对应的N个场景类别下的场景图像样本数据，N为正整数，所述场景识别模型为基于目标数据训练得到的模型，所述目标数据包括所述行业场景库中所述目标行业类别的所述目标场景类别下的场景图像样本数据，和/或，输入的所述目标场景类别下的物体图像样本数据。

本实施方式中，所述场景识别模型可以称之为场景专用模型，即是一个特定场景下专用的模型，当所述场景识别模型基于所述行业场景库中所述目标行业类别的所述目标场景类别下的场景图像样本数据训练时，其是预制场景专用模型。

而当所述场景识别模型基于用户输入的所述目标场景类别下的物体图像样本数据(该物体图像样本数据为实际数据)训练时，其是定制化训练的场景专用模型，定制化训练的场景专用模型也可以基于用户输入的所述目标场景类别下的物体图像样本数据和所述行业场景库中所述目标行业类别的所述目标场景类别下的场景图像样本数据共同训练得到。

如此，物体检测平台中可以包括预制场景专用模型和定制化训练的场景专用模型，使得物体检测平台的场景识别模型比较丰富，提高场景识别的灵活性。

为了更加详细地阐述本公开的方案，参见图6，图6是物体检测平台中物体检测的整体流程示意图，如图6所示，物体检测流程如下：

获取待检测图像；

对待检测图像进行物体检测，得到第一物体检测信息；同时对待检测图像进行场景检测，得到场景检测信息；

在物体检测平台开启场景选择开关的情况下，获取过滤信息；

基于过滤信息对场景检测信息进行场景过滤，得到目标场景检测信息；

获取目标场景检测信息中包括的目标场景类别对应的场景专用模型，包括场景A专用模型和场景B专用模型；

基于场景A专用模型和场景B专用模型分别对待检测图像进行场景识别，得到场景A信息和场景B信息；

将第一物体检测信息、场景A信息和场景B信息进行融合，得到第二物体检测信息。

第二实施例

如图7所示，本公开提供一种模型训练方法，包括如下步骤：

步骤S701：获取目标数据，所述目标数据包括目标场景类别下的场景图像样本数据，所述目标场景类别为对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别；

步骤S702：基于所述目标数据对所述目标场景类别对应的场景识别模型进行训练；

本实施例中，场景识别模型可以采用目标场景类别下的场景图像样本数据进行训练，该目标场景类别下的场景图像样本数据可以为行业场景库中该目标场景类别下的场景图像样本数据，也可以为输入的该目标场景类别下的场景图像样本数据，输入的目标场景类别下的场景图像样本数据也可以称之为目标场景类别下的物体图像样本数据，如货架场景，可以输入包括货架物体内容的图像作为场景图像样本数据。该目标场景类别下的场景图像样本数据还可以同时包括行业场景库中该目标场景类别下的场景图像样本数据和输入的目标场景类别下的场景图像样本数据。

在一可选实施方式中，可以采用行业场景库中目标场景类别下的场景图像样本数据进行训练。所述行业场景库包括多个场景类别下的场景图像样本数据，这多个场景类别包括目标场景类别，这样可以从行业场景库中获取目标场景类别下的场景图像样本数据，基于目标场景类别下的场景图像样本数据对目标场景类别对应的场景识别模型进行训练，得到一个预制场景识别模型。

在另一可选实施方式中，可以采用目标场景类别下的实际数据进行训练。可以采集目标场景类别下的场景图像样本数据，输入至物体检测平台中，基于输入的目标场景类别下的场景图像样本数据对目标场景类别对应的场景识别模型进行训练，得到一个定制化训练的场景识别模型。

在又一可选实施方式中，可以结合输入的目标场景类别下的场景图像样本数据和行业场景库中目标场景类别下的场景图像样本数据，对目标场景类别对应的场景识别模型进行训练，得到一个定制化训练的场景识别模型。

该场景识别模型可用于结合第一物体检测信息确定待检测图像的第二物体检测信息，第一物体检测信息为对待检测图像进行物体检测得到的物体检测信息。

其中，待检测图像、第一物体检测信息和第二物体检测信息等相关概念已经在第一实施例中进行详细阐述，这里不进行赘述。其可以通过物体检测模型对待检测图像进行物体检测，得到第一物体检测信息，可以通过场景检测模型对待检测图像进行场景检测，以获取目标场景检测信息。

本实施例中，通过训练一个目标场景类别对应的场景识别模型，使之能够结合物体检测模型和场景检测模型对待检测图像进行物体检测，这样在待检测图像包括多个检测场景的情况下，也可以准确检测出物体在特定场景下的相关信息，从而可以提高物体检测的效果。

可选的，所述目标场景类别为基于场景检测模型对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别，所述目标场景类别为目标行业类别下的场景类别，所述目标行业类别为所述待检测图像对应的行业类别；

所述方法还包括：

从行业场景库中获取所述目标行业类别下的场景图像样本数据；

基于所述目标行业类别下的场景图像样本数据对所述场景检测模型进行训练，其中，所述行业场景库包括M个行业类别下的场景图像样本数据，所述M个行业类别包括所述目标行业类别，M为正整数。

本实施方式中，目标场景类别为目标行业类别下的场景类别，行业场景库包括M个行业类别下的场景图像样本数据，M个行业类别包括目标行业类别，这样可以从行业场景库中获取目标行业类别下的场景图像样本数据，基于所述目标行业类别下的场景图像样本数据对所述场景检测模型进行训练，得到一个预制场景检测模型。

该预制场景检测模型可以为目标行业类别对应的行业所通用的场景检测模型。这样针对一个行业，即使是不同的物体检测应用，均可以使用一个通用的场景检测模型来对待检测图像进行场景检测，即一个行业的不同物体检测应用可以复用一个场景检测模型，从而可以解决行业维度上大部分应用多场景适配的问题。

第三实施例

如图8所示，本公开提供一种物体检测装置800，包括：

第一获取模块801，用于获取待检测图像；

物体检测模块802，用于对所述待检测图像进行物体检测，得到所述待检测图像的第一物体检测信息；

场景检测模块803，用于对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，所述目标场景检测信息包括所述待检测图像对应的目标场景类别；

第二获取模块804，用于获取所述目标场景类别对应的场景识别模型；

确定模块805，用于基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息。

可选的，所述确定模块805包括：

场景识别单元，用于基于所述场景识别模型对所述待检测图像进行场景识别，得到所述目标场景类别下的场景识别信息，所述场景识别信息用于表征所述目标场景类别对应的场景框中物体的场景环境；

融合处理单元，用于对所述第一物体检测信息和所述场景识别信息进行融合处理，得到所述第二物体检测信息。

可选的，所述场景检测模块803，具体用于基于场景检测模型对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息；所述场景检测模型为基于行业场景库中行业类别下的场景图像样本数据训练得到的模型，所述行业场景库包括M个行业类别下的场景图像样本数据，M为正整数。

可选的，所述装置还包括：

第三获取模块，用于获取所述待检测图像对应的目标行业类别；

第四获取模块，用于从预设场景检测模型中获取所述目标行业类别对应的所述场景检测模型。

本公开提供的物体检测装置800能够实现上述物体检测方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

第四实施例

如图9所示，本公开提供一种模型训练装置900，包括：

第五获取模块901，用于获取目标数据，所述目标数据包括目标场景类别下的场景图像样本数据，所述目标场景类别为对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别；

第一训练模块902，用于基于所述目标数据对所述目标场景类别对应的场景识别模型进行训练；

所述装置还包括：

第六获取模块，用于从行业场景库中获取所述目标行业类别下的场景图像样本数据；

第二训练模块，用于基于所述目标行业类别下的场景图像样本数据对所述场景检测模型进行训练，其中，所述行业场景库包括M个行业类别下的场景图像样本数据，所述M个行业类别包括所述目标行业类别，M为正整数。

本公开提供的模型训练装置900能够实现上述模型训练方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM1003中，还可以存储设备1000操作所需的各种程序和数据。计算单元1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调整解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如物体检测方法或模型训练方法。例如，在一些实施例中，物体检测方法或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的物体检测方法或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行物体检测方法或模型训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种物体检测方法，包括：

获取待检测图像；

获取所述目标场景类别对应的场景识别模型；

2.根据权利要求1所述的方法，其中，所述基于所述场景识别模型和所述第一物体检测信息，确定所述待检测图像的第二物体检测信息，包括：

3.根据权利要求1所述的方法，其中，所述对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息，包括：

4.根据权利要求3所述的方法，其中，所述基于场景检测模型对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息之前，所述方法还包括：

获取所述待检测图像对应的目标行业类别；

5.根据权利要求3所述的方法，其中，所述行业场景库包括每个行业类别对应的N个场景类别下的场景图像样本数据，N为正整数，所述场景识别模型为基于目标数据训练得到的模型，所述目标数据包括所述行业场景库中所述目标行业类别的所述目标场景类别下的场景图像样本数据，和/或，输入的所述目标场景类别下的物体图像样本数据。

6.一种模型训练方法，包括：

获取目标数据，所述目标数据包括目标场景类别下的场景图像样本数据，所述目标场景类别为对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别；

7.根据权利要求6所述的方法，其中，所述目标场景类别为基于场景检测模型对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别，所述目标场景类别为目标行业类别下的场景类别，所述目标行业类别为所述待检测图像对应的行业类别；

所述方法还包括：

8.一种物体检测装置，包括：

第一获取模块，用于获取待检测图像；

9.根据权利要求8所述的装置，其中，所述确定模块包括：

10.根据权利要求8所述的装置，其中，所述场景检测模块，具体用于基于场景检测模型对所述待检测图像进行场景检测，以获取所述待检测图像的目标场景检测信息；所述场景检测模型为基于行业场景库中行业类别下的场景图像样本数据训练得到的模型，所述行业场景库包括M个行业类别下的场景图像样本数据，M为正整数。

11.根据权利要求10所述的装置，其中，所述装置还包括：

12.根据权利要求10所述的装置，其中，所述行业场景库包括每个行业类别对应的N个场景类别下的场景图像样本数据，N为正整数，所述场景识别模型为基于目标数据训练得到的模型，所述目标数据包括所述行业场景库中所述目标行业类别的所述目标场景类别下的场景图像样本数据，和/或，输入的所述目标场景类别下的物体图像样本数据。

13.一种模型训练装置，包括：

14.根据权利要求13所述的装置，其中，所述目标场景类别为基于场景检测模型对待检测图像进行场景检测所获取的目标场景检测信息中的场景类别，所述目标场景类别为目标行业类别下的场景类别，所述目标行业类别为所述待检测图像对应的行业类别；

所述装置还包括：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法，或者执行权利要求6-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法，或者执行权利要求6-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法，或者实现根据权利要求6-7中任一项所述的方法。