WO2024031736A1

WO2024031736A1 - 图像分类方法及***、存储介质及终端

Info

Publication number: WO2024031736A1
Application number: PCT/CN2022/112630
Authority: WO
Inventors: 孔欧; 刘益东; 王君
Original assignee: 上海蜜度科技股份有限公司
Priority date: 2022-08-10
Filing date: 2022-08-16
Publication date: 2024-02-15
Also published as: CN117633264A

Abstract

本发明提供一种图像分类方法及***、存储介质及终端，包括以下步骤：构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称；对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像；对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。本发明的图像分类方法及***、存储介质及终端通过目标检测、图像识别和特征向量检索，实现图像的准确检索，且易于扩展分类类别。

Description

图像分类方法及***、存储介质及终端

技术领域

本发明涉及图像分类的技术领域，特别是涉及一种图像分类方法及***、存储介质及终端。

背景技术

图像分类就是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法，其利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

现有技术中，图像分类任务通常需要利用分类数据集来训练图像分类模型，进而通过训练好的图像分类模型进行图像分类。其中，对于一个包含1000个类别的数据集，其训练出来的模型只能支持分类1000个类别。如果需要分类不在这1000个类别里的图像，则需要重新训练图像分类模型。因此，现有的图像分类模型具有以下不足：

(1)当增加新图像分类类别时，需要重新训练图像分类模型；若图像分类类别数量过大，例如1亿个类别，图像分类模型则无法训练；

(2)无法识别图像中的多个物体，仅会输出一个类别；

(3)对于图像中出现的小物体，识别效果差。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种图像分类方法及***、存储介质及终端，通过目标检测、图像识别和特征向量检索，实现图像的准确检索，且易于扩展分类类别。

为实现上述目的及其他相关目的，本发明提供一种图像分类方法，包括以下步骤：构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称；对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像；对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。

于本发明一实施例中，构建物体向量检索库包括以下步骤：

获取物体图像；

对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；

获取所述物体图像对应的物体名称；

将所述物体名称和所述物体特征向量按照一一对应的方式进行存储，完成物体向量检索库的构建。

于本发明一实施例中，还包括当出现新的物体图像时，对所述物体向量检索库进行更新；

对所述物体向量检索库进行更新包括以下步骤：

获取所述新的物体图像进行图像识别，获取所述新的物体图像的物体特征向量和物体名称；

将所述物体名称和所述物体特征向量更新至所述物体向量检索库。

于本发明一实施例中，对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像包括以下步骤：

基于目标检测模型对所述待分类图像进行目标检测，获取所述待分类图像所包含的物体的物***置；

基于所述物***置在所述待分类图像中截取所述物体的物体图像。

于本发明一实施例中，对所述物体图像进行图像识别，获取所述物体图像的物体特征向量包括以下步骤：

基于PP-LCNet图像识别模型对所述物体图像进行图像识别；

输出所述物体图像的物体特征向量。

于本发明一实施例中，在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称包括以下步骤：

计算所述物体图像的物体特征向量与所述物体向量检索库中每个物体特征向量的相似度；

判定所述物体向量检索库中相似度最大的物体特征向量与所述物体图像的物体特征向量相匹配；

在所述物体向量检索库中获取相匹配的物体特征向量对应的物体名称。

于本发明一实施例中，所述相似度采用余弦相似度。

本发明提供一种图像分类***，包括构建模块、目标检测模块、图像识别模块和分类模块；

所述构建模块用于构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称；

所述目标检测模块用于对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像；

所述图像识别模块用于对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；

所述分类模块用于在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。

本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的图像分类方法。

本发明提供一种图像分类终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述图像分类终端执行上述的图像分类方法。

如上所述，本发明所述的图像分类方法及***、存储介质及终端，具有以下有益效果：

(1)通过目标检测、图像识别和特征向量检索，实现图像的准确检索；

(2)易于扩展分类类别，不限制图像分类类别的数量；

(3)进行分类类别扩展时，目标检测模型只需要训练识别一个物体即可，图像识别模型不需要重新训练，只需要更新物体的特征向量检索库，从而简化了流程，降低了***负荷。

附图说明

图1显示为本发明的图像分类方法于一实施例中的流程图；

图2显示为本发明的图像分类***于一实施例中的结构示意图；

图3显示为本发明的图像分类终端于一实施例中的结构示意图。

元件标号说明

21 构建模块

22 目标检测模块

23 图像识别模块

24 分类模块

31 处理器

32 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的图像分类方法及***、存储介质及终端通过目标检测、图像识别和特征向量检索，不仅能够实现图像的准确检索，而且易于扩展分类类别，不受限于物体的个数和大小，满足实际应用场景的需求，极具实用性。

如图1所示，于一实施例中，本发明的图像分类方法包括以下步骤：

步骤S1、构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称。

具体地，构建物体向量检索库包括以下步骤：

11)获取物体图像。

具体地，采集一定数量的物体图像。所述物体图像中包含有单个物体。

12)对所述物体图像进行图像识别，获取所述物体图像的物体特征向量。

具体地，基于图像识别模型对所述物体图像进行图像识别，从而获取所述物体的物体特征向量。例如，物体图像通过图像识别模型能够获取512个值的特征向量。假设物体图像有5000张，那么每一张物体图像均通过图像识别模型后可获取5000*512的特征矩阵。优选地，采用Numpy和PP-LCNet保存所述物体特征向量。

优选地，所述图像识别模型采用PaddlePaddle开源的PP-LCNet图像识别模型。

13)获取所述物体图像对应的物体名称。

具体地，针对每个物体图像，还需获取对应的物体名称，如车辆、人、电脑等等。

14)将所述物体名称和所述物体特征向量按照一一对应的方式进行存储，完成物体向量检索库的构建。

具体地，基于所述物体名称和所述物体特征向量构建所述物体向量检索库，并能够实现物体名称和物体特征向量的一一对应存储。

步骤S2、对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像。

具体地，对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像包括以下步骤：

21)基于目标检测模型对所述待分类图像进行目标检测，获取所述待分类图像所包含的物体的物***置。

具体地，对于所述待分类图像，将其输入目标检测模型，即可获取所述待分类图像所包含的物体的物***置，如物体坐标等。其中，所述目标检测模型检测到的物体可以为一个或多个。优选地，所述目标检测模型采用PaddlePaddle开源的picodet目标检测网络。

22)基于所述物***置在所述待分类图像中截取所述物体的物体图像。

具体地，通过所述物***置，在所述待分类图像中截取所述物体的物体图像。当所述物体的个数为一个时，截取该物体的物体图像；当所述物体的个数为多个时，截取每个物体对应的物体图像。

步骤S3、对所述物体图像进行图像识别，获取所述物体图像的物体特征向量。

具体地，将所述物体图像输入PP-LCNet图像识别模型，即可输出所述物体图像的物体特征向量。

步骤S4、在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。

具体地，在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称包括以下步骤：

41)计算所述物体图像的物体特征向量与所述物体向量检索库中每个物体特征向量的相似度。

具体地，针对获取的每个物体图像的物体特征向量，与所述物体向量检索库中每个物体特征向量逐一进行相似度的计算。优选地，所述相似度采用余弦相似度。

42)判定所述物体向量检索库中相似度最大的物体特征向量与所述物体图像的物体特征向量相匹配。

具体地，将计算得到的相似度最大值对应的所述物体向量检索库中的物体特征向量判定为匹配物体特征向量。

43)在所述物体向量检索库中获取相匹配的物体特征向量对应的物体名称。

具体地，在所述物体向量检索库中查找所述匹配物体特征向量对应的物体名称，该物体名称即作为所述待分类图像的一个类别。当所述待分类图像中包含多个物体图像时，则可获得多个对应的类别。

于本发明一实施例中，本发明的图像分类方法中，当出现新的物体图像时，图像的分类类别就会增加，此时需要对所述物体向量检索库进行更新。具体地，对所述物体向量检索库进行更新包括以下步骤：

a)获取所述新的物体图像进行图像识别，获取所述新的物体图像的物体特征向量和物体名称。

具体地，基于图像识别模型对所述新的物体图像进行图像识别，获取对应的物体特征向量和物体名称。

b)将所述物体名称和所述物体特征向量更新至所述物体向量检索库。

在进行图像分类时，目标检测模型只需训练该新的物体的目标检测，图像识别模型无需重新训练，从而能够快速实现图像分类的扩展，无需从根本上进行算法更新。

如图2所示，于一实施例中，本发明的图像分类***包括构建模块21、目标检测模块22、图像识别模块23和分类模块24。

所述构建模块21用于构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称。

所述目标检测模块22用于对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像。

所述图像识别模块23与所述目标检测模块22相连，用于对所述物体图像进行图像识别，获取所述物体图像的物体特征向量。

所述分类模块24与所述构建模块21和所述图像识别模块23相连，用于在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。

其中，构建模块21、目标检测模块22、图像识别模块23和分类模块24的结构和原理与上述图像分类方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现。此外，x模块也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，一个或多个微处理器(Digital Signal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上***(System-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该程序被处理器执行时实现上述的图像分类方法。优选地，所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图3所示，于一实施例中，本发明的图像分类终端包括：处理器31和存储器32。

所述存储器32用于存储计算机程序。

所述存储器32包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器31与所述存储器32相连，用于执行所述存储器存储的计算机程序，以使所述图像分类终端执行上述的图像分类方法。

优选地，所述处理器31可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的图像分类方法及***、存储介质及终端通过目标检测、图像识别和特征向量检索，实现图像的准确检索；易于扩展分类类别，不限制图像分类类别的数量；进行分类类别扩展时，目标检测模型只需要训练识别一个物体即可，图像识别模型不需要重新训练，只需要更新物体的特征向量检索库，从而简化了流程，降低了***负荷。因此，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

一种图像分类方法，其特征在于，包括以下步骤：

构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称；

对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像；

对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；

在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。
根据权利要求1所述的图像分类方法，其特征在于，构建物体向量检索库包括以下步骤：

获取物体图像；

对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；

获取所述物体图像对应的物体名称；

将所述物体名称和所述物体特征向量按照一一对应的方式进行存储，完成物体向量检索库的构建。
根据权利要求1所述的图像分类方法，其特征在于，还包括当出现新的物体图像时，对所述物体向量检索库进行更新；

对所述物体向量检索库进行更新包括以下步骤：

获取所述新的物体图像进行图像识别，获取所述新的物体图像的物体特征向量和物体名称；

将所述物体名称和所述物体特征向量更新至所述物体向量检索库。
根据权利要求1所述的图像分类方法，其特征在于，对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像包括以下步骤：

基于目标检测模型对所述待分类图像进行目标检测，获取所述待分类图像所包含的物体的物***置；

基于所述物***置在所述待分类图像中截取所述物体的物体图像。
根据权利要求1所述的图像分类方法，其特征在于，对所述物体图像进行图像识别，获取所述物体图像的物体特征向量包括以下步骤：

基于PP-LCNet图像识别模型对所述物体图像进行图像识别；

输出所述物体图像的物体特征向量。
根据权利要求1所述的图像分类方法，其特征在于，在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称包括以下步骤：

计算所述物体图像的物体特征向量与所述物体向量检索库中每个物体特征向量的相似度；

判定所述物体向量检索库中相似度最大的物体特征向量与所述物体图像的物体特征向量相匹配；

在所述物体向量检索库中获取相匹配的物体特征向量对应的物体名称。
根据权利要求6所述的图像分类方法，其特征在于，所述相似度采用余弦相似度。
一种图像分类***，其特征在于，包括构建模块、目标检测模块、图像识别模块和分类模块；

所述构建模块用于构建物体向量检索库，所述物体向量检索库用于存储物体的物体特征向量和物体名称；

所述目标检测模块用于对待分类图像进行目标检测，获取所述待分类图像所包含的每个物体的物体图像；

所述图像识别模块用于对所述物体图像进行图像识别，获取所述物体图像的物体特征向量；

所述分类模块用于在所述物体向量检索库中查询与所述物体图像的物体特征向量匹配的物体特征向量对应的物体名称，并以所述物体名称作为所述待分类图像的一个类别。
一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述的图像分类方法。
一种图像分类终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述图像分类终端执行权利要求1至7中任一项所述的图像分类方法。