CN111444364B

CN111444364B - 一种图像检测方法和装置

Info

Publication number: CN111444364B
Application number: CN202010143457.3A
Authority: CN
Inventors: 苏晨; 张晓东; 李晓敦; 闫立志; 李江东; 周鑫磊; 周利华
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2024-01-30
Anticipated expiration: 2040-03-04
Also published as: CN111444364A

Abstract

本发明公开了一种图像检测方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：提取第一目标图像的嵌入特征；分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息；根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果。其检测模型训练速度快，具备快速迭代优化的能力，对线上图像误检测情况能够快速响应，检测效率高，泛化能力强，可迁移性高，在新业务场景下也能达到很好的检测效果，充分满足多业务场景的检测需求。

Description

一种图像检测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像检测方法和装置。

背景技术

目前很多网站和App(应用程序)都提供了UGC(用户生产并发布的内容)的功能，使得每个用户都可以发布自己生产、编辑的多媒体信息，平台对线上多媒体内容的监管难度陡增，现有的人工审核方式面临巨大挑战，同时多媒体内容形式多样，包含文本、图像、音频、视频等，对审核人员也提出了更高的要求。

现有内容审核主要包括两种方案：一种是以图像分类卷积网络作为检测模型，应用较多的有Inception(GoogLeNet(一种深度网络结构)的核心结构，用于增加网络深度和宽度)、Resnet(残差网络)两类网络结构，图像经过图像分类卷积网络输出各个类别的概率值，如果违规类别的概率值过高，则说明该图像是有问题的；另一种是采用pHash(感知哈希)算法进行图像相似检测，拦截和违规名单中相似的图像。

目前内容审核存在诸多难点，一是内容安全***必然不能对业务场景下所有可能出现的违规内容实现全部召回，不法分子总是试图绕过审核***去传播违规内容，这对内容安全***的快速优化迭代提出了要求；二是业务场景多样性，直播、短视频、社交网络、电商平台等，每时每分都会在线上产生大量的、多样的图像信息，需要对各种业务场景都有很好的拦截效果，这对内容安全***的可迁移性提出了要求；三是无论是违规内容的传播，还是线上信息的阻塞，都会对用户体验造成负面影响，因此对违规风险内容的拦截要尽可能是实时的，这对内容安全***的高效性提出了要求。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

第一种方案检测模型训练时间长，当线上出现误检测(例如漏杀或误杀)的违规内容时，迭代优化模型的速度较慢，从而在出现误检测图像之后无法快速响应，影响检测效率，第二种方案虽能通过扩充违规图像库实现快速迭代优化，但是其不具有泛化能力，对图像库以外的图像无法拦截，且上述两种方案可迁移性均不高，难以满足多业务场景的检测需求。

发明内容

有鉴于此，本发明实施例提供一种图像检测方法和装置，检测模型训练速度快，具备快速迭代优化的能力，对线上图像误检测情况能够快速响应，检测效率高，泛化能力强，可迁移性高，在新业务场景下也能达到很好的检测效果，充分满足多业务场景的检测需求。

为实现上述目的，根据本发明实施例的一个方面，提供了一种图像检测方法。

一种图像检测方法，包括：提取第一目标图像的嵌入特征；分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息；根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果。

可选地，所述提取第一目标图像的嵌入特征之前，包括：利用第一图像训练数据集训练图像分类网络，所述图像分类网络包括所述归一化层和用于提取所述第一目标图像的嵌入特征的图像嵌入特征提取器。

可选地，所述分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息之前，包括：通过训练后的所述图像嵌入特征提取器，提取所述第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；利用所述第一图像特征训练集训练所述图像分类器。

可选地，所述输出所述第一目标图像是否为特定类别图像的检测结果之后，还包括：将误检测图像加入所述第一图像训练数据集，得到第二图像训练数据集，所述误检测图像包括所述第一目标图像中的检测结果有误的图像；通过所述图像嵌入特征提取器，提取所述第二图像训练数据集的嵌入特征，以得到第二图像特征训练集；利用所述第二图像特征训练集重新训练所述图像分类器。

可选地，所述利用所述第二图像特征训练集重新训练所述图像分类器之后，包括：提取第二目标图像的嵌入特征；通过所述归一化层得到所述第二目标图像的嵌入特征对应的第一类别输出值，以及通过利用所述第二图像特征训练集训练后的所述图像分类器，得到所述第二目标图像的嵌入特征对应的第二类别输出值；根据所述第一类别输出值和第一权重，以及所述第二类别输出值和第二权重，输出所述第二目标图像是否为所述特定类别图像的检测结果，其中，所述第一权重和所述第二权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到。

可选地，所述利用所述第一图像特征训练集训练所述图像分类器之后，包括：收集第二业务场景中的图像样本，所述第二业务场景不同于所述第一图像训练数据集和所述第一目标图像所在的第一业务场景；通过训练后的所述图像嵌入特征提取器，提取所述第二业务场景中的图像样本的嵌入特征，以得到第三图像特征训练集；利用所述第三图像特征训练集重新训练所述图像分类器。

可选地，所述利用所述第三图像特征训练集重新训练所述图像分类器之后，包括：提取第三目标图像的嵌入特征；通过所述归一化层得到所述第三目标图像的嵌入特征对应的第三类别输出值，以及通过利用所述第三图像特征训练集训练后的所述图像分类器，得到所述第三目标图像的嵌入特征对应的第四类别输出值；根据所述第三类别输出值和第三权重，以及所述第四类别输出值和第四权重，输出所述第三目标图像是否为所述特定类别图像的检测结果，所述第三权重和所述第四权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到，且所述第三权重和所述第四权重与业务场景相关。

可选地，所述图像嵌入特征提取器为深度卷积网络。

可选地，所述根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果，包括：判断所述归一化层输出的类别输出值和所述图像分类器输出的类别输出值二者之中，是否至少一者所指示的类别与特定类别相同，若是，则输出所述第一目标图像为所述特定类别图像的检测结果，否则输出所述第一目标图像不为所述特定类别图像的检测结果。

可选地，所述图像分类器为轻量级图像分类器。

根据本发明实施例的另一方面，提供了一种图像检测装置。

一种图像检测装置，包括：特征提取模块，用于提取第一目标图像的嵌入特征；类别信息确定模块，用于分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息；图像检测模块，用于根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果。

可选地，还包括第一训练模块，用于：利用第一图像训练数据集训练图像分类网络，所述图像分类网络包括所述归一化层和用于提取所述第一目标图像的嵌入特征的图像嵌入特征提取器。

可选地，所述特征提取模块还用于：通过训练后的所述图像嵌入特征提取器，提取所述第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；所述第一训练模块还用于：利用所述第一图像特征训练集训练所述图像分类器。

可选地，还包括第二训练模块，用于：将误检测图像加入所述第一图像训练数据集，得到第二图像训练数据集，所述误检测图像包括所述第一目标图像中的检测结果有误的图像；所述特征提取模块还用于：通过所述图像嵌入特征提取器，提取所述第二图像训练数据集的嵌入特征，以得到第二图像特征训练集；第二训练模块还用于利用所述第二图像特征训练集重新训练所述图像分类器。

可选地，所述特征提取模块还用于提取第二目标图像的嵌入特征；所述类别信息确定模块还用于通过所述归一化层得到所述第二目标图像的嵌入特征对应的第一类别输出值，以及通过利用所述第二图像特征训练集训练后的所述图像分类器，得到所述第二目标图像的嵌入特征对应的第二类别输出值；所述图像检测模块还用于根据所述第一类别输出值和第一权重，以及所述第二类别输出值和第二权重，输出所述第二目标图像是否为所述特定类别图像的检测结果，其中，所述第一权重和所述第二权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到。

可选地，还包括第三训练模块，用于：收集第二业务场景中的图像样本，所述第二业务场景不同于所述第一图像训练数据集和所述第一目标图像所在的第一业务场景；所述特征提取模块还用于：通过训练后的所述图像嵌入特征提取器，提取所述第二业务场景中的图像样本的嵌入特征，以得到第三图像特征训练集；所述第三训练模块还用于利用所述第三图像特征训练集重新训练所述图像分类器。

可选地，所述特征提取模块还用于提取第三目标图像的嵌入特征；所述类别信息确定模块还用于通过所述归一化层得到所述第三目标图像的嵌入特征对应的第三类别输出值，以及通过利用所述第三图像特征训练集训练后的所述图像分类器，得到所述第三目标图像的嵌入特征对应的第四类别输出值；所述图像检测模块还用于根据所述第三类别输出值和第三权重，以及所述第四类别输出值和第四权重，输出所述第三目标图像是否为所述特定类别图像的检测结果，所述第三权重和所述第四权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到，且所述第三权重和所述第四权重与业务场景相关。

可选地，所述图像嵌入特征提取器为深度卷积网络。

可选地，所述图像检测模块还用于：判断所述归一化层输出的类别输出值和所述图像分类器输出的类别输出值二者之中，是否至少一者所指示的类别与特定类别相同，若是，则输出所述第一目标图像为所述特定类别图像的检测结果，否则输出所述第一目标图像不为所述特定类别图像的检测结果。

可选地，所述图像分类器为轻量级图像分类器。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所提供的图像检测方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的图像检测方法。

上述发明中的一个实施例具有如下优点或有益效果：提取第一目标图像的嵌入特征；分别通过归一化层和图像分类器，确定第一目标图像的嵌入特征对应的类别信息；根据归一化层确定的类别信息和图像分类器确定的类别信息，输出第一目标图像是否为特定类别图像的检测结果。本发明实施例检测模型训练速度快，具备快速迭代优化的能力，对线上图像误检测情况能够快速响应，检测效率高，泛化能力强，可迁移性高，在新业务场景下也能达到很好的检测效果，充分满足多业务场景的检测需求。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明第一实施例的图像检测方法的主要步骤示意图；

图2是根据本发明第二实施例的图像检测流程示意图；

图3是根据本发明第三实施例的图像检测流程示意图；

图4是根据本发明第四实施例的图像检测框架示意图；、

图5是根据本发明第五实施例的图像检测装置的主要模块示意图；

图6是本发明实施例可以应用于其中的示例性***架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明第一实施例的图像检测方法的主要步骤示意图。

如图1所示，本发明一个实施例的图像检测方法主要包括如下的步骤S101至步骤S103。

步骤S101：提取第一目标图像的嵌入特征。

步骤S102：分别通过归一化层和图像分类器，确定第一目标图像的嵌入特征对应的类别信息。

步骤S103：根据归一化层确定的类别信息和图像分类器确定的类别信息，输出第一目标图像是否为特定类别图像的检测结果。

在提取第一目标图像的嵌入特征之前，可以利用第一图像训练数据集训练图像分类网络，该图像分类网络包括上述的归一化层和用于提取第一目标图像的嵌入特征的图像嵌入特征提取器。

嵌入特征是图像经过图像嵌入特征提取器输出的浮点数值组成的高维向量，也称为Embedding。

在分别通过归一化层和图像分类器，确定第一目标图像的嵌入特征对应的类别信息之前，可以通过训练后的图像嵌入特征提取器，提取第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；利用第一图像特征训练集训练上述图像分类器。

在一个实施例中，归一化层确定的类别信息和图像分类器确定的类别信息分别是归一化层输出的类别输出值和图像分类器输出的类别输出值。

根据归一化层确定的类别信息和图像分类器确定的类别信息，输出第一目标图像是否为特定类别图像的检测结果，具体可以包括：判断归一化层输出的类别输出值和图像分类器输出的类别输出值二者之中，是否至少一者所指示的类别与特定类别相同，若是，则输出第一目标图像为特定类别图像的检测结果，否则输出第一目标图像不为特定类别图像的检测结果。

归一化层输出的类别输出值是归一化层输出的第一目标图像属于各类别的概率值中的最大概率值。图像分类器输出的类别输出值是图像分类器输出的第一目标图像属于各类别的概率值中的最大概率值。上述最大概率值指示了第一目标图像最可能属于的类别。

在一个实施例中，特定类别可以是预先确定的违规类别，例如在图像审核的应用场景中，如果第一目标图像是违规类别图像，则可以根据业务需要对第一目标图像不通过审核或过滤掉。

在一个实施例中，图像分类器可以为轻量级图像分类器，例如SVM(支持向量机)分类器，需要说明的是，本发明实施例的轻量级图像分类器不仅限于SVM分类器。

在一个实施例中，图像分类网络可以为CNN(卷积神经网络)图像分类网络。

在一个实施例中，图像嵌入特征提取器可以为深度卷积网络。

在一个实施例中，输出第一目标图像是否为特定类别图像的检测结果之后，可以将将误检测图像加入第一图像训练数据集，得到第二图像训练数据集，其中误检测图像包括第一目标图像中的检测结果有误的图像，还可以包括在对第一目标图像之前进行图像检测时所得到的其他检测结果有误的图像；通过图像嵌入特征提取器，提取第二图像训练数据集的嵌入特征，以得到第二图像特征训练集；利用第二图像特征训练集重新训练图像分类器。从而当线上挖掘出漏杀/误杀(漏杀即图像应属于违规类别图像但未检测出，误杀即图像不属于违规类别图像但被检测为违规类别图像)的图像，需要快速迭代优化时，重新训练图像分类器，耗时只需数小时，训练速度快，并可在后续图像检测中得到准确的检测结果，实现高效准确地图像检测。快速迭代优化的图像检测流程参见图2所示的实施例。

在另一个实施例中，利用第一图像特征训练集训练图像分类器之后，可以收集第二业务场景中的图像样本，该第二业务场景不同于第一图像训练数据集和第一目标图像所在的第一业务场景；通过训练后的图像嵌入特征提取器，提取第二业务场景中的图像样本的嵌入特征，以得到第三图像特征训练集；利用第三图像特征训练集重新训练图像分类器。从而当需要迁移至新业务场景时，将新业务场景下收集的数据量较少的图像作为样本输入图像嵌入特征提取器，以得到的Embedding作为新业务场景的图像特征训练集去训练图像分类器，使得训练后的图像分类器配合原有的图像分类网络，可以在新业务场景下达到比较满意的检测效果。业务场景迁移的图像检测流程参见图3所示的实施例。

本发明实施例的图像检测方法基于深度卷积神经网络等作为图像嵌入特征提取器所输出的嵌入特征(Embedding)，训练两种类型的输出，一是图像分类网络的归一化层的输出，二是轻量级图像分类器的输出，综合二者的结果对图像内容进行检测，使得具备快速迭代优化的能力，对线上图像误检测情况能够快速响应，检测效率高，泛化能力强，可迁移性高，在新业务场景下也能达到很好的检测效果，充分满足多业务场景的检测需求。

在内容安全审核应用场景中，直播、聊天之类的场景对实时性要求高，因此要求响应速度足够快，而现有技术中起决定性作用的是卷积网络的尺度(或称深度)，越深的网络识别效果越好，同时其响应速度也会越慢。而本申请根据归一化层和图像分类器综合确定图像的检测结果，具有较好的检测效果又有较快的响应速度。

图2是根据本发明第二实施例的图像检测流程示意图。

如图2所示，本发明一个实施例的图像检测流程可以包括如下的步骤S201至步骤S206。

步骤S201：将误检测图像加入第一图像训练数据集，得到第二图像训练数据集。

其中，将误检测图像加入第一图像训练数据集之前，预先已经利用第一图像训练数据集训练图像分类网络，该图像分类网络包括上述的归一化层和图像嵌入特征提取器。将误检测图像加入第一图像训练数据集之前，还可以通过训练后的图像嵌入特征提取器，提取第一图像训练数据集的嵌入特征，以得到第一图像特征训练集，再利用第一图像特征训练集训练上述图像分类器。从而利用训练后的图像分类网络和图像分类器得到对第一目标图像进行图像检测，第一目标图像是在第二目标图像之前检测的图像，对第一目标图像进行图像检测流程参见图1实施例。

误检测图像是在第二目标图像之前进行图像检测时所得到的检测结果有误的图像，其中包括第一目标图像中的检测结果有误的图像。第二目标图像与第一目标图像的业务场景相同。

步骤S202：通过图像嵌入特征提取器，提取第二图像训练数据集的嵌入特征，以得到第二图像特征训练集。

步骤S203：利用第二图像特征训练集训练图像分类器。

步骤S204：提取第二目标图像的嵌入特征。

步骤S205：通过归一化层得到第二目标图像的嵌入特征对应的第一类别输出值，以及通过利用第二图像特征训练集训练后的图像分类器，得到第二目标图像的嵌入特征对应的第二类别输出值。

第一类别输出值是归一化层输出的第二目标图像属于各类别的概率值中的最大概率值，其指示某个类别，即表示第二目标图像属于该类别的概率最大。第二类别输出值是图像分类器输出的第二目标图像属于各类别的概率值中的最大概率值。

步骤S206：根据第一类别输出值和第一权重，以及第二类别输出值和第二权重，输出第二目标图像是否为特定类别图像的检测结果，其中，第一权重和第二权重通过对包括图像分类网络和图像分类器的图像检测模型训练得到。

在一个实施例中，可以根据第一类别输出值和第一权重计算第一加权值，根据第二类别输出值和第二权重计算第二加权值，根据第二加权值对应的类别，即第二目标图像的嵌入特征对应的第二类别输出值指示的类别，作为第二目标图像的类别。

本发明实施例的图像检测模型(简称检查模型)包括图像分类网络和图像分类器，在训练阶段，训练出的第一权重和第二权重，应使得图像检测模型最终输出的检测结果侧重于图像分类器的输出结果，从而使得在预测阶段计算出的第二加权值大于第一加权值。

本发明实施例可快速迭代优化，重新训练图像分类器训练速度快，从而能对误检测进行快速响应，并高效准确地进行图像检测。

图3是根据本发明第三实施例的图像检测流程示意图。

本发明实施例是在业务场景发生迁移后，在新业务场景下的图像检测流程。其中迁移前的业务场景为第一业务场景，迁移后的新业务场景为第二业务场景。在业务场景迁移之前，利用第一业务场景中的第一图像训练数据集训练图像分类网络，该图像分类网络包括归一化层和图像嵌入特征提取器，并且通过训练后的图像嵌入特征提取器，提取第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；利用第一图像特征训练集训练图像分类器。在迁移到第二业务场景之后，如图3所示，图像检测流程包括如下的步骤S301至步骤S306。

步骤S301：收集第二业务场景中的图像样本。

步骤S302：通过训练后的图像嵌入特征提取器，提取第二业务场景中的图像样本的嵌入特征，以得到第三图像特征训练集。

步骤S303：利用第三图像特征重新训练集训练图像分类器。

步骤S304：提取第三目标图像的嵌入特征。

步骤S305：通过归一化层得到第三目标图像的嵌入特征对应的第三类别输出值，以及通过利用第三图像特征训练集训练后的图像分类器，得到第三目标图像的嵌入特征对应的第四类别输出值。

第三类别输出值是归一化层输出的第三目标图像属于各类别的概率值中的最大概率值，其指示某个类别，即表示第三目标图像属于该类别的概率最大。同理，第四类别输出值是图像分类器输出的第三目标图像属于各类别的概率值中的最大概率值。

步骤S306：根据第三类别输出值和第三权重，以及第四类别输出值和第四权重，输出第三目标图像是否为特定类别图像的检测结果，其中，第三权重和第四权重通过对包括图像分类网络和图像分类器的图像检测模型训练得到，且第三权重和第四权重与业务场景相关。

本发明实施例的第三目标图像是在第二业务场景下的图像，但是第一业务场景和第二业务场景可能存在交集，交集中的对象既属于第一业务场景又属于第二业务场景。因此，当第三目标图像为该交集中的对象的图像时，其所在的业务场景类别既为第一业务场景又为第二业务场景。

在一个实施例中，可以根据第三类别输出值和第三权重计算第三加权值，根据第四类别输出值和第四权重计算第四加权值，根据第三加权值和第四加权值二者之中较大者对应的类别，作为第三目标图像的类别。第三权重和第四权重与业务场景(具体指业务场景类别)相关，因此第三加权值和第四加权值的大小也与第三目标图像所在的业务场景类别相关。

例如，假设第三加权值大于第四加权值，则以第三加权值对应的类别，即第三类别输出值所指示的类别，作为第三目标图像的类别。

在训练阶段，训练出的第三权重和第四权重，应使得在业务场景类别既为第一业务场景又为第二业务场景时，图像检测模型最终输出的检测结果侧重于归一化层的输出结果，而在业务场景类别只为第二业务场景时，图像检测模型最终输出的检测结果侧重于图像分类器的输出结果。从而使得在预测阶段，如果第三目标图像所在的业务场景类别既为第一业务场景又为第二业务场景时，则计算出的第三加权值大于第四加权值；若第三目标图像所在的业务场景类别只为第二业务场景，则计算出的第三加权值小于第四加权值。

本发明实施例迁移至新的业务场景时，利用新业务场景中的图像特征训练SVM，训练后的SVM配合原有的图像分类网络，可以在新业务场景下达到比较满意的效果。而现有技术的检测模型由于迁移到新的业务场景样本数量不足，训练效果不好，缺乏可迁移性，本发明实施例克服了现有技术的这个缺陷。

图4是根据本发明第四实施例的图像检测框架示意图。

如图4所示，本发明一个实施例在图像分类网络的基础上，增加一个轻量级分类器。利用输入图像在Softmax(归一化层，能够将高维向量压缩到类别数维度的实向量中)之前的嵌入特征(Embedding)输出，将该输出通过轻量级的SVM分类器，实现快速分类的效果，综合图像分类网络输出与轻量级分类器的输出，得到最终的图像检测结果。

图像分类网络可以为CNN图像分类网络，其中包括深度卷积网络和Softmax，本发明实施例复用图像分类网络的深度卷积网络，作为图像嵌入特征提取器(EmbeddingFeature Extractor)，得到输入图像的Embedding(嵌入特征)，然后通过SVM分类器与Softmax两路并行的分支，实现对Embedding的分类。

首先需要预先训练CNN图像分类网络，可以构建当前业务场景下的图像训练数据集，来训练包括深度卷积网络与Softmax的图像分类网络达到收敛。

在训练SVM分类器时，将原有的图像训练数据集通过训练后的深度卷积网络提取嵌入特征，将输出的嵌入特征作为图像特征训练集，用于训练SVM分类器。根据机器配置不同，这一步的训练速度量级在几小时左右，大约是图像分类网络训练耗时的1/30。

进行图像检测时，将图像分类网络与SVM分类器两种模型集成，得到本发明实施例的图像检测模型(简称检测模型)，并完成线上服务部署，其中，图像分类网络与SVM分类器复用图像分类网络的深度卷积网络作为图像嵌入特征提取器，当输入图像输入到该检测模型时，首先会经过深度卷积网络得到2048维的Embedding，该Embedding通过Softmax得到各个类别的概率值，同时该Embedding也会经由SVM处理，得到同样各类别的概率值，综合Softmax和SVM分类器两个分支网络的输出，得到对图像的最终检测结果。

在快速迭代优化时，当线上挖掘出漏杀/误杀的图像时，可以将检测模型目前识别错误的图像与原有的图像训练数据集一起输入深度卷积网络，得到新的图像特征训练集(其中包含根据漏杀/误杀的图像提取的嵌入特征)，利用该新的图像特征训练集重新训练SVM分类器，过程耗时只需数小时，从而在收敛后的SVM分类器分支上可以实现对图像的正确识别。

当图像分类网络在一个相当大的图像训练集上完成收敛后，其图像嵌入特征提取器输出的嵌入特征，对大部分场景的图像已经有比较好的表征，当直接迁移至不同的业务场景，可能效果不佳。因此，本发明实施例在迁移至新的业务场景时，可以将新业务场景下收集的数据量较少的图像作为样本，输入到深度卷积网络，以得到的Embedding作为新业务场景的图像特征训练集去训练SVM分类器，从而训练后的SVM分类器配合原有的图像分类网络，可以在新业务场景下达到比较满意的图像检测效果。

本发明实施例的SVM分类器隶属于轻量级分类器，与图像分类网络相比，其耗时微乎其微，且SVM分类器与Softmax两者计算并行，整体检测模型的计算耗时也不大，实时性好，检测效率高。

最终的检测结果输出可以优先考虑提升违规内容的召回率，即Softmax或SVM分类器中任一分支输出的最大概率值对应的类别为违规类别，则将该图像判别为违规类别图像。具体可以视业务需要和应用场景制定最优的结果输出策略。

作为优选实施方式，本发明实施例在快速迭代优化和业务场景迁移时，还可以进一步提高图像结果的准确性，具体地，可以对Softmax和SVM分类器两个分支网络的输出分配各自的权重，该权重通过对检测模型训练得到。

例如，在快速迭代优化时，由于SVM分类器是经过新的图像特征训练集重新训练的，在综合Softmax和SVM分类器两个分支网络的输出，得到对图像的最终检测结果时，会更加侧重SVM分类器分支网络的输出，即训练Softmax和SVM分类器两个分支的输出对应的权重时，SVM分类器的输出对应的权重更大，且足以使SVM分类器的输出与其权重计算得到的加权值大于Softmax的输出与其权重计算得到的加权值。

在迁移到新的业务场景时，图像检测的对象已经发生改变，因此可以主要依赖SVM分类器的输出来得到最终检测结果，例如，当输入图像为新的业务场景中对象的图像，而不是原来业务场景中对象的图像时，则SVM分类器的输出对应的权重应大于Softmax的输出对应的权重，其足以使SVM分类器的输出与其权重计算得到的加权值大于Softmax的输出与其权重计算得到的加权值。而如果新的业务场景与原来业务场景中对象存在交集，则交集中对象的图像通过Softmax分支的结果往往更优，那么在Softmax识别出输入图像对应交集中的对象时，Softmax的输出对应的权重大于SVM分类器的输出所对应的权重，且足以使Softmax的输出与其权重计算得到的加权重大于SVM分类器的输出与其权重计算得到的加权值。上述SVM分类器的输出和Softmax的输出是指输出的最大概率值，该最大概率值指示了最大概率的类别。按照Softmax和SVM分类器两个分支的输出对应的权重需要满足的上述条件为训练目标来训练两个分支的输出对应的权重的具体值。

例如，将SVM分类器输出的概率最大值与其权重计算加权值α1，将Softmax输出的概率最大值与其权重计算加权值α2，根据α1和α2二者之中较大者对应的类别作为输入图像的类别。假设Softmax输出的概率最大值对应的类别为违规类别，而SVM分类器输出的概率最大值对应的类别是不违规类别，且α1＞α2，那么以α1对应的类别，即SVM分类器输出的概率最大值对应的类别作为输入图像的类别，则输入图像的类别是不违规类别。

本发明实施例的检测模型中各网络结构的具体功能如表1所示。

表1

其中，深度卷积网络可以综合考虑效果与性能，选取合适的网络结构，如Inception-v3(一种深度卷积神经网络)、Resnet-50(深度残差网络50)、Inception-Resnet-v2等。

本发明实施例将Softmax层之前的网络输出作为图像的唯一2048维嵌入特征(Embedding)，使用2048维的图像嵌入特征训练SVM分类器，在特征层面上完成对图像分类，将SVM分类器嵌入图像分类网络，将深度卷积网络输出的2048维特征同时作为SVM分类器和Softmax层的输入，从***层面来看，SVM分类器与Softmax网络层严格并行，两者分别输出各自的多类别概率，综合二者来输出最终判别结果。将线上识别错误的图片加入训练集后，新训练集通过深度卷积网络输出的嵌入特征，其作为图像特征训练集用来快速优化训练SVM分类器，解决误分类图像的快速迭代优化问题。因此，本发明实施例的图像检测框架具备快速迭代优化的能力，对线上识别错误的图像可进行快速响应，能够在数小时内优化检测模型，且可迁移性高，针对多样的业务场景，只需在新业务场景的样本下训练SVM分类器，配合原有的图像分类网络就可以在新业务场景下达到准确高效的检测效果，新增的SVM分类器计算量级轻，对图像分类网络的响应速度影响微乎其微，仍具备高效性，本发明实施例的检测模型结构简单，实施方便，易用性和泛化能力强。

图5是根据本发明第五实施例的图像检测装置的主要模块示意图。

如图5所示，本发明一个实施例的图像检测装置500主要包括：特征提取模块501、类别信息确定模块502、图像检测模块503。

特征提取模块501，用于提取第一目标图像的嵌入特征。

类别信息确定模块502，用于分别通过归一化层和图像分类器，确定第一目标图像的嵌入特征对应的类别信息。

图像检测模块503，用于根据归一化层确定的类别信息和图像分类器确定的类别信息，输出第一目标图像是否为特定类别图像的检测结果。

图像检测装置500还可以包括第一训练模块，用于：利用第一图像训练数据集训练图像分类网络，图像分类网络包括归一化层和用于提取第一目标图像的嵌入特征的图像嵌入特征提取器。

在一个实施例中，特征提取模块501还可以用于：通过训练后的图像嵌入特征提取器，提取第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；第一训练模块还可以用于：利用第一图像特征训练集训练图像分类器。

在一个实施例中，图像检测装置500还包括第二训练模块，用于：将误检测图像加入第一图像训练数据集，得到第二图像训练数据集，误检测图像包括第一目标图像中的检测结果有误的图像。特征提取模块501还可以用于：通过图像嵌入特征提取器，提取第二图像训练数据集的嵌入特征，以得到第二图像特征训练集。第二训练模块还可以用于利用第二图像特征训练集重新训练图像分类器。

在一个实施例中，特征提取模块501还可以用于提取第二目标图像的嵌入特征。类别信息确定模块502还可以用于通过归一化层得到第二目标图像的嵌入特征对应的第一类别输出值，以及通过利用第二图像特征训练集训练后的图像分类器，得到第二目标图像的嵌入特征对应的第二类别输出值。图像检测模块503还可以用于根据第一类别输出值和第一权重，以及第二类别输出值和第二权重，输出第二目标图像是否为特定类别图像的检测结果，其中，第一权重和第二权重通过对包括图像分类网络和图像分类器的图像检测模型训练得到。

在一个实施例中，图像检测装置500还可以包括第三训练模块，用于：收集第二业务场景中的图像样本，第二业务场景不同于第一图像训练数据集和第一目标图像所在的第一业务场景。特征提取模块501还可以用于：通过训练后的图像嵌入特征提取器，提取第二业务场景中的图像样本的嵌入特征，以得到第三图像特征训练集。第三训练模块还可以用于利用第三图像特征训练集重新训练图像分类器。

在一个实施例中，特征提取模块501还用于提取第三目标图像的嵌入特征；类别信息确定模块502还用于通过归一化层得到第三目标图像的嵌入特征对应的第三类别输出值，以及通过利用第三图像特征训练集训练后的图像分类器，得到第三目标图像的嵌入特征对应的第四类别输出值；图像检测模块503还用于根据第三类别输出值和第三权重，以及第四类别输出值和第四权重，输出第三目标图像是否为特定类别图像的检测结果，第三权重和第四权重通过对包括图像分类网络和图像分类器的图像检测模型训练得到，且第三权重和第四权重与业务场景相关。

在一个实施例中，图像嵌入特征提取器为深度卷积网络。

在一个实施例中，图像检测模块503具体可以用于：判断归一化层输出的类别输出值和图像分类器输出的类别输出值二者之中，是否至少一者所指示的类别与特定类别相同，若是，则输出第一目标图像为特定类别图像的检测结果，否则输出第一目标图像不为特定类别图像的检测结果。

在一个实施例中，图像分类器为轻量级图像分类器，例如SVM分类器。

本发明实施例的图像检测装置可以用于内容安全审核***中，实现***的快速调优，以召回线上层出不穷的违规内容，在迁移至新业务场景下同样有很好的检测效果，适应多样性业务场景的内容审核要求，在有限资源内让***效率更高，实时拦截线上所有出现的违规内容，兼顾召回率和响应速度。

另外，在本发明实施例中所述图像检测装置的具体实施内容，在上面所述图像检测方法中已经详细说明了，故在此重复内容不再说明。

图6示出了可以应用本发明实施例的图像检测方法或图像检测装置的示例性***架构600。

如图6所示，***架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的图像检测方法一般由服务器605执行，相应地，图像检测装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***700的结构示意图。图7示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征提取模块、类别信息确定模块、图像检测模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征提取模块还可以被描述为“用于提取第一目标图像的嵌入特征的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：提取第一目标图像的嵌入特征；分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息；根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果。

根据本发明实施例的技术方案，提取第一目标图像的嵌入特征；分别通过归一化层和图像分类器，确定第一目标图像的嵌入特征对应的类别信息；根据归一化层确定的类别信息和图像分类器确定的类别信息，输出第一目标图像是否为特定类别图像的检测结果。本发明实施例检测模型训练速度快，具备快速迭代优化的能力，对线上图像误检测情况能够快速响应，检测效率高，泛化能力强，可迁移性高，在新业务场景下也能达到很好的检测效果，充分满足多业务场景的检测需求。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种图像检测方法，其特征在于，包括：

提取第一目标图像的嵌入特征；基于深度卷积神经网络作为图像嵌入特征提取器，所述嵌入特征是图像经过所述图像嵌入特征提取器输出的浮点数值组成的高维向量；

分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息；

根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果；

所述提取第一目标图像的嵌入特征之前，包括：

利用第一图像训练数据集训练图像分类网络，所述图像分类网络包括所述归一化层和用于提取所述第一目标图像的嵌入特征的图像嵌入特征提取器；

所述利用所述第一图像特征训练集训练所述图像分类器之后，包括：

收集第二业务场景中的图像样本，所述第二业务场景不同于所述第一图像训练数据集和所述第一目标图像所在的第一业务场景；

通过训练后的所述图像嵌入特征提取器，提取所述第二业务场景中的图像样本的嵌入特征，以得到第三图像特征训练集；

利用所述第三图像特征训练集重新训练所述图像分类器；

所述分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息之前，包括：

通过训练后的所述图像嵌入特征提取器，提取所述第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；

利用所述第一图像特征训练集训练所述图像分类器；

所述利用所述第三图像特征训练集重新训练所述图像分类器之后，包括：

提取第三目标图像的嵌入特征；

通过所述归一化层得到所述第三目标图像的嵌入特征对应的第三类别输出值，以及通过利用所述第三图像特征训练集训练后的所述图像分类器，得到所述第三目标图像的嵌入特征对应的第四类别输出值；

根据所述第三类别输出值和第三权重，以及所述第四类别输出值和第四权重，输出所述第三目标图像是否为所述特定类别图像的检测结果，所述第三权重和所述第四权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到，且所述第三权重和所述第四权重与业务场景相关。

2.根据权利要求1所述的方法，其特征在于，所述输出所述第一目标图像是否为特定类别图像的检测结果之后，还包括：

将误检测图像加入所述第一图像训练数据集，得到第二图像训练数据集，所述误检测图像包括所述第一目标图像中的检测结果有误的图像；

通过所述图像嵌入特征提取器，提取所述第二图像训练数据集的嵌入特征，以得到第二图像特征训练集；

利用所述第二图像特征训练集重新训练所述图像分类器。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第二图像特征训练集重新训练所述图像分类器之后，包括：

提取第二目标图像的嵌入特征；

通过所述归一化层得到所述第二目标图像的嵌入特征对应的第一类别输出值，以及通过利用所述第二图像特征训练集训练后的所述图像分类器，得到所述第二目标图像的嵌入特征对应的第二类别输出值；

根据所述第一类别输出值和第一权重，以及所述第二类别输出值和第二权重，输出所述第二目标图像是否为所述特定类别图像的检测结果，其中，所述第一权重和所述第二权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到。

4.根据权利要求1所述的方法，其特征在于，所述根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果，包括：

判断所述归一化层输出的类别输出值和所述图像分类器输出的类别输出值二者之中，是否至少一者所指示的类别与特定类别相同，若是，则输出所述第一目标图像为所述特定类别图像的检测结果，否则输出所述第一目标图像不为所述特定类别图像的检测结果。

5.根据权利要求1所述的方法，其特征在于，所述图像分类器为轻量级图像分类器。

6.一种图像检测装置，其特征在于，包括：

特征提取模块，用于提取第一目标图像的嵌入特征；基于深度卷积神经网络作为图像嵌入特征提取器，所述嵌入特征是图像经过所述图像嵌入特征提取器输出的浮点数值组成的高维向量；

类别信息确定模块，用于分别通过归一化层和图像分类器，确定所述第一目标图像的嵌入特征对应的类别信息；

图像检测模块，用于根据所述归一化层确定的所述类别信息和所述图像分类器确定的所述类别信息，输出所述第一目标图像是否为特定类别图像的检测结果；

所述装置还包括：

第一训练模块，用于利用第一图像训练数据集训练图像分类网络，所述图像分类网络包括所述归一化层和用于提取所述第一目标图像的嵌入特征的图像嵌入特征提取器；

所述装置还包括：

第三训练模块，用于收集第二业务场景中的图像样本，所述第二业务场景不同于所述第一图像训练数据集和所述第一目标图像所在的第一业务场景；

所述特征提取模块，还用于通过训练后的所述图像嵌入特征提取器，提取所述第二业务场景中的图像样本的嵌入特征，已得到第三图像特征的训练集；

所述第三训练模块，还用于利用所述第三图像特征训练集重新训练所述图像分类器；

所述特征提取模块还用于：通过训练后的所述图像嵌入特征提取器，提取所述第一图像训练数据集的嵌入特征，以得到第一图像特征训练集；第一训练模块还可以用于：利用所述第一图像特征训练集训练所述图像分类器；

所述特征提取模块还用于：提取第三目标图像的嵌入特征；

所述类别信息确定模块还用于通过所述归一化层得到所述第三目标图像的嵌入特征对应的第三类别输出值，以及通过利用所述第三图像特征训练集训练后的所述图像分类器，得到所述第三目标图像的嵌入特征对应的第四类别输出值；

所述图像检测模块还用于根据所述第三类别输出值和第三权重，以及所述第四类别输出值和第四权重，输出所述第三目标图像是否为所述特定类别图像的检测结果，所述第三权重和所述第四权重通过对包括所述图像分类网络和所述图像分类器的图像检测模型训练得到，且所述第三权重和所述第四权重与业务场景相关。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。