CN115019336A

CN115019336A - 基于人工智能的低俗图像识别方法、装置及电子设备

Info

Publication number: CN115019336A
Application number: CN202110239540.5A
Authority: CN
Inventors: 侯昊迪; 余亭浩; 张绍明; 陈少华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-09-06

Abstract

本申请提供了一种基于人工智能的低俗图像识别方法、装置、电子设备及计算机可读存储介质；方法包括：对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别；对所述图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个所述部位预测区域对应的部位类别；将所述人体预测区域与所述至少一个部位预测区域进行位置匹配处理，得到与所述人体预测区域匹配成功的部位预测区域；根据所述人体预测区域对应的人体类别、以及所述匹配成功的部位预测区域对应的部位类别，确定所述图像的低俗图像识别结果。通过本申请，能够提升低俗图像识别精度，同时提升电子设备在低俗图像识别过程中所耗费的计算资源的实际利用率。

Description

基于人工智能的低俗图像识别方法、装置及电子设备

技术领域

本申请涉及人工智能和图像技术，尤其涉及一种基于人工智能的低俗图像识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息流和短视频等内容产业的发展，互联网中的图像越来越多，不可避免地会出现一些低俗图像，如色情图像。例如，某些恶意用户可能会在互联网中发布低俗图像以吸引眼球，从而实现非法盈利的目的。因此，为了营造健康、安全的互联网环境，需要对这些低俗图像进行识别。

在相关技术提供的方案中，通常是对图像进行目标检测，以确定图像中是否存在敏感部位裸露或突出的情况，从而得到低俗图像识别结果。但是，目标检测的结果可能会不准确，敏感部位裸露或突出也并不一定代表图像为低俗图像，即相关技术提供的方案的低俗图像识别精度低，电子设备在低俗图像识别过程中所耗费的计算资源也会被白白浪费。

发明内容

本申请实施例提供一种基于人工智能的低俗图像识别方法、装置、电子设备及计算机可读存储介质，能够提升低俗图像识别的精度，同时提升电子设备所耗费的计算资源的实际利用率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的低俗图像识别方法，包括：

对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别；

对所述图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个所述部位预测区域对应的部位类别；

将所述人体预测区域与所述至少一个部位预测区域进行位置匹配处理，得到与所述人体预测区域匹配成功的部位预测区域；

根据所述人体预测区域对应的人体类别、以及所述匹配成功的部位预测区域对应的部位类别，确定所述图像的低俗图像识别结果。

本申请实施例提供一种基于人工智能的低俗图像识别装置，包括：

分类模块，用于对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别；

所述分类模块，还用于对所述图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个所述部位预测区域对应的部位类别；

匹配模块，用于将所述人体预测区域与所述至少一个部位预测区域进行位置匹配处理，得到与所述人体预测区域匹配成功的部位预测区域；

结果确定模块，用于根据所述人体预测区域对应的人体类别、以及所述匹配成功的部位预测区域对应的部位类别，确定所述图像的低俗图像识别结果。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的低俗图像识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的低俗图像识别方法。

本申请实施例具有以下有益效果：

分别对图像进行人体层级和部位层级的分类处理，能够同时关注到图像的全局(对应人体层级)和局部(对应部位层级)；通过确定与人体预测区域匹配成功的部位预测区域，并根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别确定图像的低俗图像识别结果，能够准确捕捉到图像的全局与局部之间的联系，提升低俗图像识别的精度，同时，也可以提升电子设备在低俗图像识别过程中所耗费的计算资源的实际利用率。

附图说明

图1A是相关技术提供的方案中存在的类人体敏感部位误判的示意图；

图1B是相关技术提供的方案中存在的非敏感人体敏感部位误判的示意图；

图2是本申请实施例提供的基于人工智能的低俗图像识别***的架构示意图；

图3是本申请实施例提供的终端设备的架构示意图；

图4A是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图；

图4B是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图；

图4C是本申请实施例提供的训练低俗图像识别模型的流程示意图；

图4D是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图；

图5是本申请实施例提供的分类处理的示意图；

图6是本申请实施例提供的前向传播处理及反向传播处理的示意图；

图7是本申请实施例提供的推荐多媒体内容的流程示意图；

图8是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中，所涉及的术语“多个”是指至少两个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。机器学习(Machine Learning，ML)是人工智能的核心，是使计算机具有智能的根本途径，主要研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

2)计算机视觉技术(Computer Vision，CV)：是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。在本申请实施例中，可以结合机器学习和计算机视觉技术实现对图像的低俗图像识别，例如，可以基于机器学习原理构建模型，可以基于计算机视觉技术获取图像，并调用模型对图像进行低俗图像识别。

3)人体层级的分类处理：是指预测图像中人体所在的区域(即人体预测区域)及对应的人体类别，这里的人体类别可以是多种候选人体类别中的一种。候选人体类别可以根据实际应用场景预先设定，例如包括真实成年男性、真实成年女性、婴儿及虚拟人体等，涉及年龄、性别以及是否真实等多个方面。

4)部位层级的分类处理：是指预测图像中人体部位所在的区域(即部位预测区域)及对应的部位类别，这里的部位类别可以是多种候选部位类别中的一种。候选部位类别同样可以根据实际应用场景预先设定，例如可以针对人体中的多个部位(如胸部、背部、腰腹部、臀部、腿部及足部等)，分别设定对应的多种候选部位类别，如胸部对应的候选部位类别包括胸部正常、胸部裸露及胸部突出等。

5)前向传播(Forward Propagation)：也称正向传播，指机器学习模型对输入数据进行处理，得到输出数据的过程。以机器学习模型是包括输入层、隐藏层及输出层的神经网络模型为例，前向传播处理是指依次通过输入层、隐藏层及输出层进行处理，最终得到输出层所输出的输出数据的过程。

6)反向传播(Back Propagation)：指根据输出数据计算出损失值，并根据损失值训练机器学习模型的过程。以机器学习模型是包括输入层、隐藏层及输出层的神经网络模型为例，反向传播处理是指根据损失值依次对输出层、隐藏层及输入层进行更新，这里的更新是指更新对应网络层的权重参数。

7)模型指标：用于表示模型性能的指标。在本申请实施例中，模型指标与模型性能正相关，即当模型指标越大时，模型性能越好。本申请实施例对模型指标的类型不做限定，例如可以包括精确率(Precision)、召回率(Recall)和F1分数中的任意一种。

8)交并比(Intersection over Union，IoU)：对于任意两个区域来说，交并比可以是指这两个区域的交集区域的面积与这两个区域的并集区域的面积之间的比值。

面临对图像的低俗图像识别需求，相关技术主要提供了以下两种方案：

1)基于图像分类的方案。该方案是通过图像二分类模型对图像进行分类处理，得到图像是否为低俗图像的二分类结果。在该方案中，是根据图像的全局特征来判断图像是否为低俗图像，但是图像中的内容往往比较丰富，低俗的部分可能只出现在图像的局部区域(例如面积仅占图像总面积的10％)，该方案难以处理这种情况，容易导致误判，如将实际的低俗图像误判为非低俗图像。

2)基于目标检测的方案。该方案是通过检测图像中是否存在敏感部位裸露(如胸部裸露、臀部裸露、三角区裸露等)或突出的情况，来得到图像是否为低俗图像的低俗图像识别结果。该方案虽然能够关注到图像的局部特征，但是图像中可能会存在一些局部特征与敏感部位十分相似，或者出现非敏感人体的敏感部位裸露或突出的情况，导致该方案得到的低俗图像识别结果不准确。

作为示例，图1A示出了类人体敏感部位误判的多种情况，其中，图像101和图像104示出的是圆球形状的水果(如葡萄或橘子等)；图像102示出的是横截面为圆形的木材；图像103示出的是胡萝卜。针对图1A中示出的图像，其局部特征与人体的敏感部位较为相似，若根据基于目标检测的方案进行低俗图像识别，则很容易被误判为低俗图像。

作为示例，图1B示出了非敏感人体敏感部位误判的多种情况，其中，图像105和图像108示出的人体是真实成年男性，属于非敏感人体；图像106示出的人体是婴儿，属于非敏感人体；图像107示出的人体是虚拟人体(如游戏虚拟场景中的虚拟人体形象)，同样属于非敏感人体。对于包括非敏感人体的图像来说，就算存在敏感部位裸露或突出的情况，该图像实际上也可能是非低俗图像。例如，在图像中的人体是真实成年男性的基础上，虽然该图像中存在臀部突出(对应图像105)或胸部裸露(对应图像108)的情况，但是该图像实际上是非低俗图像；在图像中的人体是婴儿的基础上，虽然该图像中存在胸部裸露(对应图像106)的情况，但是该图像实际上也是非低俗图像；在图像中的人体是虚拟人体的基础上，虽然该图像中存在腹部裸露(对应图像107)的情况，但是该图像实际上也是非低俗图像。若根据基于目标检测的方案进行低俗图像识别，则很容易将图1B中示出的各个图像误判为低俗图像。

综上，在根据相关技术提供的方案进行低俗图像识别时，低俗图像识别的精度较低，容易得到错误的低俗图像识别结果；同时，电子设备在低俗图像识别过程中所耗费的计算资源也会被白白浪费。

本申请实施例提供一种基于人工智能的低俗图像识别方法、装置、电子设备和计算机可读存储介质，能够提升低俗图像识别精度，同时提升电子设备的计算资源的实际利用率。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器。

参见图2，图2是本申请实施例提供的基于人工智能的低俗图像识别***100的架构示意图，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备是终端设备为例，本申请实施例提供的基于人工智能的低俗图像识别方法可以由终端设备实现。例如，终端设备400运行客户端410，客户端410首先获取待进行低俗图像识别的图像，其中，该图像可以是预先存储于客户端410本地的，可以是实时拍摄得到的，也可以是从外界(如服务器200)获取的；客户端410如图像类应用程序，该图像类应用程序泛指处理的数据包括图像的应用程序，例如可以是资讯应用程序或短视频应用程序等。客户端410对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别，同时对图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个部位预测区域对应的部位类别。然后，客户端410将人体预测区域与至少一个部位预测区域进行位置匹配处理，得到与人体预测区域匹配成功的部位预测区域，并根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别，确定图像的低俗图像识别结果。客户端410可以在用户界面中呈现得到的低俗图像识别结果，例如在图2中，示例性地示出了非低俗图像。

如此，可以在客户端410本地实现对图像的低俗图像识别，客户端410根据得到的低俗图像识别结果，可以进行进一步处理。例如，当图像的低俗图像识别结果为非低俗图像时，客户端410在本地继续存储该图像；当图像的低俗图像识别结果为低俗图像时，客户端410在本地删除该图像。又例如，当图像的低俗图像识别结果为非低俗图像时，客户端410允许将该图像上传(即发送)至服务器200；当图像的低俗图像识别结果为低俗图像时，客户端410禁止将该图像上传至服务器200。

值得说明的是，客户端410可以通过低俗图像识别模型来实现人体层级的分类处理以及部位层级的分类处理，该低俗图像识别模型可以预先存储于客户端410本地，并在需要时调用。

在一些实施例中，以电子设备是服务器为例，本申请实施例提供的基于人工智能的低俗图像识别方法也可以由服务器实现。例如，服务器200可以是图像类应用程序的后台服务器，数据库500可以是图像类应用程序的后台数据库，数据库500中存储有多个用户账号上传的图像(或指上传的多媒体内容中的图像)。服务器200可以从数据库500中获取图像，并对该图像进行一系列处理，得到该图像的低俗图像识别结果。

服务器200根据得到的低俗图像识别结果，可以进行进一步处理。例如，当图像的低俗图像识别结果为非低俗图像时，服务器200在数据库500中继续存储该图像；当图像的低俗图像识别结果为低俗图像时，服务器200在数据库500中删除该图像。

同样地，服务器200也可以通过低俗图像识别模型来实现对图像的人体层级的分类处理以及部位层级的分类处理，该低俗图像识别模型可以预先存储于服务器200，例如存储于服务器200的分布式文件***中，并在需要时调用。服务器200也可以将低俗图像识别模型发送至客户端410，以使客户端410具有低俗图像识别能力。

在一些实施例中，本申请实施例提供的基于人工智能的低俗图像识别方法也可以由终端设备和服务器协同实现。例如，服务器200在接收到客户端410发送的图像时，对该图像进行一系列处理，得到该图像的低俗图像识别结果。当图像的低俗图像识别结果为非低俗图像时，服务器200将该图像存储至数据库500中；当图像的低俗图像识别结果为低俗图像时，服务器200删除该图像。

当然，基于低俗图像识别结果进行的处理并不限于上述示例，例如在内容推荐的场景中，当图像的低俗图像识别结果为非低俗图像时，服务器200根据第一推荐概率执行针对该图像的推荐操作；当图像的低俗图像识别结果为低俗图像时，服务器200根据第二推荐概率执行针对该图像的推荐操作。其中，第一推荐概率大于第二推荐概率，推荐操作可以是指将图像推荐给图像类应用程序的特定用户账号。

在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的低俗图像识别方法，例如，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序，如图像类应用程序(具体如短视频应用程序)；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是低俗图像识别服务，供终端设备400进行调用。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

以本申请实施例提供的电子设备是终端设备为例说明，可以理解的，对于电子设备是服务器的情况，图3中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以缺省。参见图3，图3是本申请实施例提供的终端设备400的结构示意图，图3所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器450中的基于人工智能的低俗图像识别装置455，其可以是程序和插件等形式的软件，包括以下软件模块：分类模块4551、匹配模块4552以及结果确定模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的低俗图像识别方法。

参见图4A，图4A是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图，将结合图4A示出的步骤进行说明。

在步骤101中，对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别。

这里，对图像进行人体层级的分类处理，得到人体层级的分类结果，该人体层级的分类结果包括人体预测区域以及该人体预测区域对应的人体类别。其中，对人体预测区域的形状不做限定，例如可以是人体预测框，也可以是不规则的形状。

值得说明的是，在对图像进行人体层级的分类处理后，得到的可以是人体预测区域、以及人体预测区域对应多种候选人体类别的概率(即每种候选人体类别均会得到一个相应的概率)，然后可以将最大的概率对应的候选人体类别作为人体预测区域对应的人体类别。例如，设定的候选人体类别共有真实成年男性和真实成年女性两种，对某图像进行人体层级的分类处理后，得到一个人体预测区域，该人体预测区域对应真实成年男性的概率为0.7，该人体预测区域对应真实成年女性的概率为0.3，由于0.7大于0.3，故确定该人体预测区域对应的人体类别为真实成年男性。

本申请实施例对人体层级的分类处理的实现方式不做限定，例如可以通过特定的人体层级的分类策略来实现，或者通过训练后的机器学习模型来实现。另外，本申请实施例对图像中人体预测区域的数量不做限定，即可以是一个或多个。

作为示例，本申请实施例提供了如图5所示的分类处理的示意图，在图5中，对图像51进行人体层级的分类处理后，可以得到人体预测框52，该人体预测框52对应的人体类别为婴儿。

在步骤102中，对图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个部位预测区域对应的部位类别。

在执行步骤101的同时，可以对图像进行部位层级的分类处理，得到部位层级的分类结果，该部位层级的分类结果包括部位预测区域以及该部位预测区域对应的部位类别，其中，部位是指人体中的部位。同样地，这里对部位预测区域的形状及数量不做限定。

值得说明的是，在对图像进行部位层级的分类处理后，得到的可以是部位预测区域、以及部位预测区域对应多种候选部位类别的概率(即每种候选部位类别均会得到一个相应的概率)，然后可以将最大的概率对应的候选部位类别作为部位预测区域对应的部位类别。例如，设定的候选部位类别共有胸部正常、胸部裸露及胸部突出三种，对某图像进行部位层级的分类处理后，得到一个部位预测区域，该部位预测区域对应胸部正常、胸部裸露及胸部突出的概率分别为0.7、0.2和0.1，由于0.7的数值最大，故确定该部位预测区域对应的部位类别为胸部正常。

本申请实施例对部位层级的分类处理的实现方式不做限定，例如可以通过特定的部位层级的分类策略来实现，或者通过训练后的机器学习模型来实现。其中，用于进行人体层级的分类处理的机器学习模型与用于进行部位层级的分类处理的机器学习模型不同。

作为示例，在图5中，对图像51进行部位层级的分类处理后，可以得到部位预测框53，该部位预测框53对应的部位类别为胸部裸露。

在步骤103中，将人体预测区域与至少一个部位预测区域进行位置匹配处理，得到与人体预测区域匹配成功的部位预测区域。

这里，针对步骤101得到的每个人体预测区域，将人体预测区域与步骤102得到的所有部位预测区域分别进行位置匹配处理，以确定与该人体预测区域匹配成功的部位预测区域。本申请实施例对位置匹配处理的方式不做限定，例如，当某人体预测区域与某部位预测区域不存在交集区域(即交集区域的面积为零)时，确定该人体预测区域与该部位预测区域匹配失败；当某人体预测区域与某部位预测区域存在交集区域(即交集区域的面积不为零)时，确定该人体预测区域与该部位预测区域匹配成功。

部位预测区域与人体预测区域匹配成功，证明部位预测区域与人体预测区域存在关联，因此，可以综合部位预测区域与人体预测区域来确定图像的低俗图像识别结果。

在一些实施例中，可以通过这样的方式来实现上述的将人体预测区域与至少一个部位预测区域进行位置匹配处理，得到与人体预测区域匹配成功的部位预测区域：根据人体预测区域的位置以及部位预测区域的位置，确定人体预测区域与部位预测区域之间的交并比；根据交并比对至少一个部位预测区域进行筛选处理，得到与人体预测区域匹配成功的部位预测区域。

例如，针对步骤101得到的每个人体预测区域，可以根据人体预测区域的位置以及步骤102得到的所有部位预测区域的位置，确定该人体预测区域与每个部位预测区域之间的交并比。以人体预测区域R1和部位预测区域R2为例，则首先根据这两个区域的位置，确定这两个区域之间的交集区域，同时确定这两个区域之间的并集区域，再将交集区域的面积除以并集区域的面积，得到R1与R2之间的交并比。

如此，对于每个部位预测区域，均可以得到一个对应的交并比。根据得到的交并比，可以对所有部位预测区域进行筛选处理，得到与该人体预测区域匹配成功的部位预测区域。其中，若某部位预测区域对应的交并比越大，则该部位预测区域越有可能是与该人体预测区域匹配成功的部位预测区域。上述方式基于交并比对部位预测区域进行筛选处理，能够提升位置匹配处理的精度。

在一些实施例中，可以通过这样的方式来实现上述的根据交并比对至少一个部位预测区域进行筛选处理，得到与人体预测区域匹配成功的部位预测区域：执行以下任意一种处理：将对应的交并比大于交并比阈值的部位预测区域，作为与人体预测区域匹配成功的部位预测区域；在对应相同部位类别的至少一个部位预测区域中，将对应的交并比最大的部位预测区域作为与人体预测区域匹配成功的部位预测区域。

本申请实施例提供了两种筛选处理的方式，将进行分别说明。

1)当某部位预测区域与某人体预测区域之间的交并比大于交并比阈值时，确定该部位预测区域与该人体预测区域匹配成功；当某部位预测区域与某人体预测区域之间的交并比小于或等于交并比阈值时，确定该部位预测区域与该人体预测区域匹配失败。其中，交并比阈值可以根据实际应用场景进行设定，如设定为0.5。

2)针对步骤102得到的每一种部位类别，确定出该部位类别对应的所有部位预测区域、以及每个部位预测区域与某人体预测区域之间的交并比，然后，将对应的交并比最大的部位预测区域作为与该人体预测区域匹配成功的部位预测区域。

例如，部位预测区域R1、R2和R3对应的部位类别均为胸部正常，且与人体预测区域R4之间的交并比分别为0.7、0.3和0.2，则将对应的交并比最大的部位预测区域R1，作为与人体预测区域R4匹配成功的部位预测区域。

上述方式提升了筛选处理的有效性和灵活性，可以根据实际应用场景选用任意一种筛选处理的方式。

在一些实施例中，人体层级的分类处理得到的分类结果还包括人体预测区域对应多种候选部位类别的概率；可以通过这样的方式来实现上述的将人体预测区域与至少一个部位预测区域进行位置匹配处理：在人体预测区域对应的多种候选部位类别中，筛选出概率大于概率阈值的候选部位类别；将人体预测区域与筛选出的部位预测区域进行位置匹配处理；其中，筛选出的部位预测区域对应的部位类别为筛选出的候选部位类别。

在本申请实施例中，人体层级的分类结果还可能包括人体预测区域对应多种候选部位类别的概率，在该情况下，可以在人体预测区域对应的多种候选部位类别中，筛选出概率(这里指人体预测区域对应候选部位类别的概率)大于概率阈值的候选部位类别，其中，概率阈值可以根据实际应用场景进行设定，如为0.5。

然后，在得到的所有部位预测区域中，将对应的部位类别为筛选出的候选部位类别的部位预测区域，作为筛选出的部位预测区域。值得说明的是，当筛选出的候选部位类别包括多种时，“对应的部位类别为筛选出的候选部位类别”可以是指对应的部位类别为筛选出的任意一种候选部位类别。最后，将该人体预测区域与筛选出的部位预测区域进行位置匹配处理。如此，基于筛选出的候选部位类别对部位预测区域进行初步筛选，可以减少位置匹配处理的计算量，同时可以提升位置匹配处理的精度。

在步骤104中，根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别，确定图像的低俗图像识别结果。

这里，根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别，确定图像的低俗图像识别结果，如此，能够同时关注到图像的全局和局部，提升得到的低俗图像识别结果的精度。其中，低俗图像识别结果可以为低俗图像和非低俗图像中的任意一种。

根据得到的图像的低俗图像识别结果，可以对图像进行进一步处理。例如，当图像的低俗图像识别结果为低俗图像时，可以对该图像中的人体预测区域和/或匹配成功的部位预测区域进行脱敏处理，以更新该图像。其中，脱敏处理可以包括涂黑处理、删除处理以及模糊处理(如添加马赛克)中的任意一种。对于更新后的图像来说，其低俗图像识别结果也会更新为非低俗图像。

在一些实施例中，可以通过这样的方式来实现上述的根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别，确定图像的低俗图像识别结果：当人体预测区域对应的人体类别为敏感人体类别、且匹配成功的部位预测区域对应的部位类别为敏感部位类别时，确定图像的低俗图像识别结果为低俗图像；当人体预测区域对应的人体类别为非敏感人体类别、或匹配成功的部位预测区域对应的部位类别为非敏感部位类别时，确定图像的低俗图像识别结果为非低俗图像。

例如，针对步骤101得到的每个人体预测区域，当人体预测区域对应的人体类别为敏感人体类别、且匹配成功的部位预测区域对应的部位类别为敏感部位类别时，确定该人体预测区域的低俗图像识别结果为低俗图像；当人体预测区域对应的人体类别为非敏感人体类别、或匹配成功的部位预测区域对应的部位类别为非敏感部位类别时，确定该人体预测区域的低俗图像识别结果为非低俗图像。

值得说明的是，当人体预测区域不存在匹配成功的部位预测区域时，可以确定该人体预测区域的低俗图像识别结果为默认低俗图像识别结果，该默认低俗图像识别结果可以是低俗图像或非低俗图像。

在人体预测区域的数量仅为一个的情况下，可以直接将人体预测区域的低俗图像识别结果作为图像的低俗图像识别结果。在人体预测区域的数量包括多个的情况下，当所有人体预测区域的低俗图像识别结果均为非低俗图像时，确定图像的低俗图像识别结果为非低俗图像；当任意一个人体预测区域的低俗图像识别结果为低俗图像时，确定图像的低俗图像识别结果为低俗图像。通过上述方式，能够进一步提升图像的低俗图像识别结果的准确性。

值得说明的是，敏感人体类别、非敏感人体类别、敏感部位类别以及非敏感部位类别均可以根据实际应用场景进行设定，例如可以设定真实成年女性为敏感人体类别，真实成年男性、婴儿及虚拟人体均为非敏感人体类别；可以设定胸部裸露、胸部突出、臀部裸露及臀部突出均为敏感部位类别，胸部正常和臀部正常均为非敏感部位类别。

如图4A所示，本申请实施例分别对图像进行人体层级和部位层级的分类处理，能够同时关注到图像的全局和局部；通过确定与人体预测区域匹配成功的部位预测区域，并根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别确定图像的低俗图像识别结果，能够准确捕捉到图像的全局与局部之间的联系，提升低俗图像识别的精度，有效解决“类人体敏感部位误判”及“非敏感人体敏感部位误判”的问题。同时，也可以提升电子设备在低俗图像识别过程中所耗费的计算资源的实际利用率。

在一些实施例中，参见图4B，图4B是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图，基于图4A，在步骤101之前，还可以在步骤201中，通过特征提取模型对图像进行特征提取处理，得到多个尺度的特征图。

在本申请实施例中，可以基于机器学习的原理实现对图像的低俗图像识别，首先，可以通过特征提取模型对图像进行特征提取处理，得到多个尺度(或称尺寸)的特征图，该特征图相当于初始的图像特征。其中，特征提取模型包括多个网络层，多个尺度的特征图可以是不同网络层输出的，具体采用哪些网络层输出的特征图可以根据实际应用场景进行设定。

在步骤202中，通过特征融合模型对多个尺度的特征图进行融合处理，得到图像的图像特征。

这里，通过特征融合模型对多个尺度的特征图进行融合处理，得到图像的图像特征。其中，对融合处理的方式不做限定，例如可以包括加权处理、上采样处理、下采样处理以及拼接处理中的至少一种，根据特征融合模型的类型而定。

本申请实施例对特征提取模型及特征融合模型的类型不做限定，例如特征提取模型可以是EfficientDet模型中的EfficientNet网络，特征融合模型可以是EfficientDet模型中的加权双向特征网络(Bidirectional Feature Parymid Network，BiFPN)。又例如，本申请实施例中的特征提取模型可以是视觉几何组(Visual Geometry Group，VGG)模型、ResNet模型或Inception模型等模型中的特征提取网络，同理，特征融合模型可以是VGG模型、ResNet模型或Inception模型等模型中的特征融合网络。

在图4B中，图4A示出的步骤101可以通过步骤203至步骤204实现，将结合各步骤进行说明。

在步骤203中，通过人体分类模型对图像的图像特征进行分类处理，得到人体预测区域以及人体预测区域对应多种候选人体类别的概率。

这里，通过人体分类模型对图像的图像特征进行分类处理，即对图像进行人体层级的分类处理，得到人体预测区域、以及人体预测区域对应多种候选人体类别的概率。

值得说明的是，这里可以先生成候选区域，并通过人体分类模型对候选区域进行预测处理得到偏移量，再根据偏移量对候选区域进行位置偏移处理，得到人体预测区域，其中，对生成候选区域的方式不做限定，例如可以通过滑动窗口法或通过区域生成网络(Region Proposal Network，RPN)生成；对候选区域的形状及数量同样不做限定。当然，也可以不生成候选区域，即通过人体分类模型直接得到人体预测区域。

在步骤204中，将概率最大的候选人体类别作为人体预测区域对应的人体类别。

在得到人体预测区域对应多种候选人体类别的概率后，将其中概率最大的候选人体类别，作为人体预测区域对应的人体类别。即可以得到人体层级的分类结果包括人体预测区域以及对应的人体类别。

值得说明的是，通过人体分类模型得到的人体层级的分类结果还可以包括人体预测区域对应多种候选部位类别的概率。

在图4B中，图4A示出的步骤102可以通过步骤205至步骤206实现，将结合各步骤进行说明。

在步骤205中，通过部位分类模型对图像的图像特征进行分类处理，得到至少一个部位预测区域、以及每个部位预测区域对应多种候选部位类别的概率。

这里，通过部位分类模型对图像的图像特征进行分类处理，即对图像进行部位层级的分类处理，得到部位预测区域、以及部位预测区域对应多种候选部位类别的概率。其中，部位预测区域的数量为至少一个。

同样地，这里也可以先生成候选区域，并通过部位分类模型对候选区域进行预测处理得到偏移量，再根据偏移量对候选区域进行位置偏移处理，得到部位预测区域。当然，也可以不生成候选区域，即通过部位分类模型直接得到部位预测区域。

值得说明的是，本申请实施例对人体分类模型和部位分类模型的类型不做限定，例如均可以是区域神经网络(Regions with Convolutional Neural Network feature，R-CNN)模型或一次检测(You Only Look Once，YOLO)模型等目标检测模型的头部检测网络，其中，头部检测网络的输入数据是图像特征，输出数据是检测结果(或称分类结果)。此外，人体分类模型和部位分类模型不同，这里的不同可以是指模型结构(如网络层数量和/或神经元数量)不同，也可以是指模型结构相同，但是权重参数不同。

在步骤206中，针对每个部位预测区域，将概率最大的候选部位类别作为部位预测区域对应的部位类别。

这里，对于步骤205得到的每个部位预测区域，将部位预测区域对应的概率最大的候选部位类别，作为该部位预测区域对应的部位类别。即可以得到部位层级的分类结果包括部位预测区域、以及部位预测区域对应的部位类别。

如图4B所示，本申请实施例基于机器学习原理来实现人体层级的分类处理和部位层级的分类处理，能够关注到图像的不同尺度，进而进一步提升分类处理的精度。

参见图4C，图4C是本申请实施例提供的训练低俗图像识别模型的流程示意图，将结合图4C示出的步骤进行说明。

在步骤301中，获取样本图像、样本图像在人体层级的样本分类结果、以及样本图像在部位层级的样本分类结果。

这里，在通过特征提取模型对图像进行特征提取处理之前，可以对低俗图像识别模型进行训练，该低俗图像识别模型包括特征提取模型、特征融合模型、人体分类模型及部位分类模型。

首先，获取用于训练低俗图像识别模型的数据样本，该数据样本包括样本图像、样本图像在人体层级的样本分类结果、以及样本图像在部位层级的样本分类结果。其中，样本图像在人体层级的样本分类结果可以包括样本人体区域以及对应的样本人体类别；样本图像在部位层级的样本分类结果可以包括样本部位区域以及对应的样本部位类别。这里，可以获取多个数据样本，为了便于理解，后文以根据一个数据样本对低俗图像识别模型进行训练为例进行说明。

在步骤302中，通过低俗图像识别模型对样本图像进行前向传播处理，得到样本图像在人体层级的待对比分类结果、以及样本图像在部位层级的待对比分类结果；其中，低俗图像识别模型包括特征提取模型、特征融合模型、人体分类模型及部位分类模型。

如图6所示，对样本图像进行前向传播处理，即是指根据低俗图像识别模型中的特征提取模型、特征融合模型、人体分类模型及部位分类模型依次进行处理，类似于步骤201至步骤206，其中，人体分类模型及部位分类模型的处理时机(或称前向传播时机)可以相同。最终，可以得到样本图像在人体层级的分类结果(为了便于区分，命名为待对比分类结果)、以及样本图像在部位层级的待对比分类结果。

在步骤303中，根据人体层级的样本分类结果以及人体层级的待对比分类结果，确定人体层级的损失值，并根据部位层级的样本分类结果以及部位层级的待对比分类结果，确定部位层级的损失值。

这里，针对人体层级，根据人体层级的样本分类结果以及人体层级的待对比分类结果，确定人体层级的损失值；针对部位层级，根据部位层级的样本分类结果以及部位层级的待对比分类结果，确定部位层级的损失值。本申请实施例对人体层级及部位层级中用于计算损失值的损失函数不做限定，例如可以均为交叉熵损失函数。

值得说明的是，本申请实施例中的损失值可以包括位置损失值和类别损失值两部分。以人体层级为例，可以确定出人体层级的样本分类结果中的样本人体区域与人体层级的待对比分类结果中的人体预测区域之间的位置损失值，同时确定出人体层级的样本分类结果中的样本人体类别与人体层级的待对比分类结果中的人体类别之间的类别损失值，再对位置损失值及类别损失值进行加权处理(如加权求和)，得到人体层级的损失值，在加权处理的过程中，位置损失值的权重及类别损失值的权重可以根据实际应用场景进行设定。另外，在人体层级的待对比分类结果包括的是人体预测区域对应多种候选人体类别的概率(还可以包括人体预测区域对应多种候选部位类别的概率)的情况下，也可以根据人体层级的样本分类结果中的样本人体类别、以及人体层级的待对比分类结果中的多种候选人体类别的概率(还可以包括人体预测区域对应多种候选部位类别的概率)，确定出类别损失值。部位层级的损失值的确定过程同理。

在步骤304中，对人体层级的损失值及部位层级的损失值进行加权处理，并根据得到的加权损失值在低俗图像识别模型中进行反向传播处理，以训练低俗图像识别模型。

这里，对人体层级的损失值及部位层级的损失值进行加权处理，为了便于区分，将这里加权处理得到的损失值命名为加权损失值，在这里的加权处理过程中，人体层级的损失值的权重及部位层级的损失值的权重可以根据实际应用场景进行设定。然后，如图6所示，根据加权损失值在低俗图像识别模型中进行反向传播(即依次传播至部位分类模型、人体分类模型、特征融合模型及特征提取模型，其中可以同时传播到部位分类模型及人体分类模型)，并在反向传播的过程中，沿梯度方向(如梯度下降方向)更新低俗图像识别模型的权重参数，即实现对低俗图像识别模型的训练。

值得说明的是，在本申请实施例中，可以对低俗图像识别模型中的至少一个子模型(或称子模块、子网络)进行训练，例如可以仅训练部位分类模型及人体分类模型，当然也可以对低俗图像识别模型中的所有子模型进行训练，例如训练部位分类模型、人体分类模型、特征融合模型及特征提取模型。

在一些实施例中，步骤301之后，还包括：将包括多个数据样本的样本集划分为训练集和验证集；其中，数据样本包括一个样本图像、样本图像在人体层级的样本分类结果、以及样本图像在部位层级的样本分类结果；其中，训练集用于训练低俗图像识别模型；步骤304之后，还包括：根据验证集确定训练后的低俗图像识别模型的验证模型指标；当验证模型指标小于或等于指标阈值时，根据训练集对训练后的低俗图像识别模型再次进行训练；当验证模型指标大于指标阈值时，确定训练后的低俗图像识别模型训练完成。

这里，在获取到多个数据样本后，可以根据多个数据样本构建样本集，并将样本集划分为训练集和验证集。其中，划分比例可以根据实际应用场景进行设定，例如训练集包括的数据样本的数量：验证集包括的数据样本的数量＝7：3。在根据划分出的训练集训练低俗图像识别模型后，根据验证集确定训练后的低俗图像识别模型的模型指标，为了便于区分，将这里的模型指标命名为验证模型指标。

当验证模型指标小于或等于指标阈值时，证明训练后的低俗图像识别模型的性能未达到预期，根据训练集对训练后的低俗图像识别模型再次进行训练，直至新的验证模型指标大于指标阈值；当验证模型指标大于指标阈值时，证明训练后的低俗图像识别模型的性能已达到预期，确定训练后的低俗图像识别模型训练完成。其中，验证模型指标与模型性能正相关，例如可以是精确率、召回率或F1分数等。通过上述方式，能够提升对低俗图像识别模型的训练效果。

在一些实施例中，低俗图像识别模型的数量包括多个，且不同低俗图像识别模型的模型结构不同；可以通过这样的方式来实现上述的将包括多个数据样本的样本集划分为训练集和验证集：将包括多个数据样本的样本集划分为训练集、验证集和测试集；确定训练后的低俗图像识别模型训练完成之后，还包括：根据测试集确定训练完成的低俗图像识别模型的测试模型指标；在训练完成的多个低俗图像识别模型中，确定出测试模型指标最大的训练完成的低俗图像识别模型，以对图像进行前向传播处理。

在本申请实施例中，可以通过神经架构搜索(Neural Architecture Search，NAS)的方式，来确定效果最好的低俗图像识别模型。举例来说，可以设定多个低俗图像识别模型，且不同低俗图像识别模型的模型结构不同，其中，模型结构不同可以是指网络层数量和/或神经元数量不同。

在得到样本集后，可以将样本集划分为训练集、验证集和测试集，其中，划分比例可以根据实际应用场景进行设定，例如训练集包括的数据样本的数量：验证集包括的数据样本的数量：测试集包括的数据样本的数量＝7：2：1。针对每个低俗图像识别模型，可以根据划分出的训练集进行训练，直至训练完成。针对训练完成的每个低俗图像识别模型，根据测试集确定出模型指标，为了便于区分，将这里得到的模型指标命名为测试模型指标。然后，在训练完成的多个低俗图像识别模型中，确定出测试模型指标最大的训练完成的低俗图像识别模型，以作为最终应用的低俗图像识别模型，即用于对图像进行前向传播处理。通过上述方式，能够确定出模型结构最优的低俗图像识别模型，进一步提升模型训练的效果。当然，上述方式并不构成对本申请实施例的限定，即可以采用其他的NAS方式来确定最优的模型结构。

如图4C所示，本申请实施例基于反向传播的机制实现模型训练，能够有效提升模型训练的效果。

在一些实施例中，参见图4D，图4D是本申请实施例提供的基于人工智能的低俗图像识别方法的流程示意图，基于图4A，在步骤101之前，还可以在步骤401中，对多媒体内容进行图像抽取处理，得到待进行人体层级的分类处理的图像。

这里，多媒体内容至少包括图像，例如多媒体内容可以是包括图像和文字的资讯内容，可以是视频(包括多帧图像)，还可以是包括多个静态图像的动态图像，如图像互换格式(Graphics Interchange Format，GIF)的动态表情。在获取到多媒体内容(例如获取到某个用户账号上传的多媒体内容)后，对多媒体内容进行图像抽取处理，得到待进行人体层级的分类处理的图像(即待进行低俗图像识别的图像)。其中，图像抽取处理可以是抽取出多媒体内容中的所有图像，也可以是抽取出多媒体内容中的部分图像，例如按照设定的抽帧频率(如1秒1次)对视频进行抽帧处理，得到待进行人体层级的分类处理的图像。

值得说明的是，当多媒体内容仅包括一个图像时，图像抽取处理可以是指直接将该图像作为待进行人体层级的分类处理的图像。

在图4D中，基于4A，在步骤104之后，还可以在步骤402中，当图像抽取处理得到的所有图像的低俗图像识别结果均为非低俗图像时，根据第一推荐概率执行针对多媒体内容的推荐操作。

这里，当图像抽取处理得到的所有图像的低俗图像识别结果均为非低俗图像时，确定多媒体内容为非低俗内容，根据第一推荐概率执行针对多媒体内容的推荐操作。其中，推荐操作可以是指向特定的用户账号推荐多媒体内容。

在步骤104之后，还可以在步骤403中，当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，根据第二推荐概率执行针对多媒体内容的推荐操作；其中，第一推荐概率大于第二推荐概率。

这里，当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，确定多媒体内容为低俗内容，根据第二推荐概率执行针对多媒体内容的推荐操作。其中，第一推荐概率大于第二推荐概率，例如第一推荐概率可以是大于零的数，第二推荐概率可以为零，即禁止执行针对低俗内容的推荐操作；又例如第一推荐概率和第二推荐概率可以均为大于零的数，即相较于非低俗内容，对低俗内容进行降权推荐。

在一些实施例中，在步骤104之后，还包括：当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，对任意一个图像中的人体预测区域和/或匹配成功的部位预测区域进行脱敏处理，以更新多媒体内容；根据第一推荐概率执行针对更新后的多媒体内容的推荐操作。

在本申请实施例中，当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，可以对该图像中的人体预测区域和/或匹配成功的部位预测区域进行脱敏处理，其中，脱敏处理可以包括涂黑处理、删除处理以及模糊处理(如添加马赛克)中的任意一种。

这里，可以对多媒体内容中经过图像抽取处理得到的所有低俗图像进行脱敏处理，以实现对多媒体内容的更新。如此，对于更新后的多媒体内容来说，图像抽取处理得到的所有图像的低俗图像识别结果均为非低俗图像，即更新后的多媒体内容会成为非低俗内容，故可以根据第一推荐概率执行针对更新后的多媒体内容的推荐操作。通过上述方式，能够对低俗图像进行有效应对，在保证内容推荐的安全性的基础上，提升内容推荐的成功率。

如图4D所示，本申请实施例通过对非低俗内容和低俗内容进行差异推荐，能够提升内容推荐的安全性，维护内容推荐的良好生态，适用于各种各样的内容推荐场景。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。本申请实施例可以用于图像类应用程序(如资讯应用程序)中，以对应用程序中的多媒体内容进行审核处理。本申请实施例提供了如图7所示的在应用程序中进行内容推荐的流程示意图，举例来说，当检测到用户账号在应用程序中上传多媒体内容时，可以对多媒体内容进行图像抽取处理，并对得到的图像进行低俗图像识别。当图像抽取处理得到的所有图像的低俗图像识别结果均为非低俗图像(即正常图像)时，可以将多媒体内容添加至推荐池中，即根据第一推荐概率执行针对多媒体内容的推荐操作；当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，可以根据第二推荐概率执行针对多媒体内容的推荐操作。其中，第一推荐概率大于第二推荐概率。

例如，第二推荐概率可以是零，第一推荐概率可以是大于零的数，则根据第二推荐概率执行针对多媒体内容的推荐操作，是指禁止推荐多媒体内容，即不启用多媒体内容。又例如，第一推荐概率和第二推荐概率可以均为大于零的数，则根据第二推荐概率执行针对多媒体内容的推荐操作，是指对多媒体内容进行降权推荐。

作为示例，本申请实施例还提供了如图8所示的基于人工智能的低俗图像识别方法的示意图，为了便于理解，将以步骤形式进行说明。

1)特征提取处理及融合处理。首先，对图像81进行特征提取处理得到多个尺度的特征图，再对多个尺度的特征图进行融合处理，得到图像特征，如此，能够保证得到的图像特征的全面性，即能够关注到不同的尺度。

值得说明的是，在本申请实施例中，可以通过低俗图像识别模型来实现低俗图像识别，其中，低俗图像识别模型可以包括特征提取模型、特征融合模型、人体分类模型以及部位分类模型四个部分。特征提取模型用于进行特征提取处理，特征提取模型中的不同网络层用于输出不同尺度的特征图，特征融合模型用于对多个尺度的特征图进行融合处理，其中，可以根据实际应用场景调整对特征提取模型中哪些网络层输出的特征图进行融合处理。举例来说，特征提取模型可以是EfficientNet模型中的主干(Backbone)网络，其模型结构可以通过NAS得到，特征融合模型可以是BiFPN模型，当然这并不构成对本申请实施例的限定。

2)人体预测分支。这里，将步骤1)得到的图像特征输入至人体预测分支，在该人体预测分支中，通过人体分类模型对图像特征进行分类处理(即人体层级的分类处理)，得到人体预测区域、人体预测区域对应多种候选人体类别的概率、以及人体预测区域对应多种候选部位类别的概率。然后，将概率最大的候选人体类别，作为人体预测区域对应的人体类别。其中，人体分类模型可以是目标检测模型的头部预测网络。

值得说明的是，可以先生成候选框(如Anchor框)，并通过人体分类模型对候选框进行预测处理得到偏移量，再根据偏移量对候选框进行位置偏移处理，得到人体预测区域，其中，对生成候选框的方式不做限定，例如可以通过滑动窗口法或通过RPN模型生成候选框。当然，人体分类模型也可以直接输出人体预测区域。另外，对候选人体类别不做限定，例如可以包括真实成年男性、真实成年女性、婴儿、虚拟人体等，即涉及年龄、性别以及是否真实等多个方面；对候选部位类别同样不做限定，例如可以针对人体中的多个部位(如胸部、背部、腰腹部、臀部、腿部及足部等)，分别设定对应的多种候选部位类别，如胸部对应的候选部位类别包括胸部正常、胸部裸露及胸部突出等。对于设定的每一种候选部位类别，进行人体层级的分类处理后均会得到相应的概率。

作为示例，在图8中示出了人体预测框82和人体预测框83，其中，人体预测框82对应的人体类别为婴儿，人体预测框83对应的人体类别为真实成年女性。

3)部位预测分支。这里，将步骤1)得到的图像特征输入至部位预测分支，在该部位预测分支中，通过部位分类模型对图像特征进行分类处理(即部位层级的分类处理)，得到部位预测区域、以及部位预测区域对应多种候选部位类别的概率。然后，将概率最大的候选部位类别，作为部位预测区域对应的部位类别。其中，部位分类模型同样可以是目标检测模型的头部预测网络，且部位分类模型与人体分类模型不同。

作为示例，在图8中示出了部位预测框84，其中，部位预测框84对应的部位类别为胸部裸露。

4)位置匹配处理。这里，针对步骤2)得到的每个人体预测区域，在人体预测区域对应的多种候选部位类别中，筛选出概率大于概率阈值的候选部位类别，其中，概率阈值为大于零的数，可以根据实际应用场景进行设定。然后，针对每个人体预测区域，确定人体预测区域与筛选出的每个部位预测区域之间的交并比，并将最大的交并比对应的部位预测区域作为与人体预测区域匹配成功的部位预测区域，其中，筛选出的部位预测区域的部位类别为上述的筛选出的候选部位类别。

作为示例，在图8中，以与人体预测框82匹配成功的部位预测区域为部位预测框84，且不存在与人体预测框83匹配成功的部位预测区域为例。

5)确定低俗图像识别结果。这里，当人体预测区域对应的人体类别为敏感人体类别、且匹配成功的部位预测区域对应的部位类别为敏感部位类别时，确定该人体预测区域的低俗图像识别结果为低俗图像；当人体预测区域对应的人体类别为非敏感人体类别、或匹配成功的部位预测区域对应的部位类别为非敏感部位类别时，确定该人体预测区域的低俗图像识别结果为非低俗图像。此外，当人体预测区域不存在匹配成功的部位预测区域时，可以确定该人体预测区域的低俗图像识别结果为默认低俗图像识别结果，该默认低俗图像识别结果可以是非低俗图像。

当图像中所有人体预测区域的低俗图像识别结果均为非低俗图像时，确定图像的低俗图像识别结果为非低俗图像；当图像中任意一个人体预测区域的低俗图像识别结果为低俗图像时，确定图像的低俗图像识别结果为低俗图像。

其中，敏感人体类别、非敏感人体类别、敏感部位类别以及非敏感部位类别均可以根据实际应用场景进行设定。例如，在一些业务标准中，可以设定真实成年女性为敏感人体类别，婴儿及虚拟人体均为非敏感人体类别；可以设定胸部裸露、胸部突出、臀部裸露及臀部突出均为敏感部位类别，胸部正常和臀部正常均为非敏感部位类别。作为示例，在图8中，人体预测框82和人体预测框83的低俗图像识别结果均为非低俗图像，因此，确定出图像81的低俗图像识别结果为非低俗图像。

通过本申请实施例，能够有效解决“类人体敏感部位误判”及“非敏感人体敏感部位误判”的问题，显著提升低俗图像识别的精确率和召回率。经发明人实验验证，在同样的精确率下，相较于相关技术提供的方案，本申请实施例在对视频内容进行低俗图像识别时，召回率提升了34％；本申请实施例在对图文内容进行低俗图像识别时，召回率提升了23.1％。进一步地，本申请实施例能够有效提升多媒体内容的审核效率和审核精度，有助于净化互联网环境，可以广泛地应用于涉及图像的各类应用程序中。

下面继续说明本申请实施例提供的基于人工智能的低俗图像识别装置455实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器450的基于人工智能的低俗图像识别装置455中的软件模块可以包括：分类模块4551，用于对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别；分类模块4551，还用于对图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个部位预测区域对应的部位类别；匹配模块4552，用于将人体预测区域与至少一个部位预测区域进行位置匹配处理，得到与人体预测区域匹配成功的部位预测区域；结果确定模块4553，用于根据人体预测区域对应的人体类别、以及匹配成功的部位预测区域对应的部位类别，确定图像的低俗图像识别结果。

在一些实施例中，分类模块4551，还用于：通过人体分类模型对图像的图像特征进行分类处理，得到人体预测区域以及人体预测区域对应多种候选人体类别的概率；将概率最大的候选人体类别作为人体预测区域对应的人体类别；通过部位分类模型对图像的图像特征进行分类处理，得到至少一个部位预测区域、以及每个部位预测区域对应多种候选部位类别的概率；针对每个部位预测区域，将概率最大的候选部位类别作为部位预测区域对应的部位类别。

在一些实施例中，分类模块4551，还用于：通过特征提取模型对图像进行特征提取处理，得到多个尺度的特征图；通过特征融合模型对多个尺度的特征图进行融合处理，得到图像的图像特征。

在一些实施例中，基于人工智能的低俗图像识别装置455还包括训练模块，训练模块用于：获取样本图像、样本图像在人体层级的样本分类结果、以及样本图像在部位层级的样本分类结果；通过低俗图像识别模型对样本图像进行前向传播处理，得到样本图像在人体层级的待对比分类结果、以及样本图像在部位层级的待对比分类结果；根据人体层级的样本分类结果以及人体层级的待对比分类结果，确定人体层级的损失值，并根据部位层级的样本分类结果以及部位层级的待对比分类结果，确定部位层级的损失值；对人体层级的损失值及部位层级的损失值进行加权处理，并根据得到的加权损失值在低俗图像识别模型中进行反向传播处理，以训练低俗图像识别模型；其中，低俗图像识别模型包括特征提取模型、特征融合模型、人体分类模型及部位分类模型。

在一些实施例中，训练模块还用于：将包括多个数据样本的样本集划分为训练集和验证集；其中，数据样本包括一个样本图像、样本图像在人体层级的样本分类结果、以及样本图像在部位层级的样本分类结果；其中，训练集用于训练低俗图像识别模型；根据验证集确定训练后的低俗图像识别模型的验证模型指标；当验证模型指标小于或等于指标阈值时，根据训练集对训练后的低俗图像识别模型再次进行训练；当验证模型指标大于指标阈值时，确定训练后的低俗图像识别模型训练完成。

在一些实施例中，低俗图像识别模型的数量包括多个，且不同低俗图像识别模型的模型结构不同；训练模块还用于：将包括多个数据样本的样本集划分为训练集、验证集和测试集；根据测试集确定训练完成的低俗图像识别模型的测试模型指标；在训练完成的多个低俗图像识别模型中，确定出测试模型指标最大的训练完成的低俗图像识别模型，以对图像进行前向传播处理。

在一些实施例中，匹配模块4552，还用于：根据人体预测区域的位置以及部位预测区域的位置，确定人体预测区域与部位预测区域之间的交并比；根据交并比对至少一个部位预测区域进行筛选处理，得到与人体预测区域匹配成功的部位预测区域。

在一些实施例中，匹配模块4552，还用于：执行以下任意一种处理：将对应的交并比大于交并比阈值的部位预测区域，作为与人体预测区域匹配成功的部位预测区域；在对应相同部位类别的至少一个部位预测区域中，将对应的交并比最大的部位预测区域作为与人体预测区域匹配成功的部位预测区域。

在一些实施例中，结果确定模块4553，还用于：当人体预测区域对应的人体类别为敏感人体类别、且匹配成功的部位预测区域对应的部位类别为敏感部位类别时，确定图像的低俗图像识别结果为低俗图像；当人体预测区域对应的人体类别为非敏感人体类别、或匹配成功的部位预测区域对应的部位类别为非敏感部位类别时，确定图像的低俗图像识别结果为非低俗图像。

在一些实施例中，人体层级的分类处理得到的分类结果还包括人体预测区域对应多种候选部位类别的概率；匹配模块4552，还用于：在人体预测区域对应的多种候选部位类别中，筛选出概率大于概率阈值的候选部位类别；将人体预测区域与筛选出的部位预测区域进行位置匹配处理；其中，筛选出的部位预测区域对应的部位类别为筛选出的候选部位类别。

在一些实施例中，基于人工智能的低俗图像识别装置455还包括抽取模块，抽取模块用于对多媒体内容进行图像抽取处理，得到待进行人体层级的分类处理的图像；基于人工智能的低俗图像识别装置455还包括推荐模块，推荐模块用于：当图像抽取处理得到的所有图像的低俗图像识别结果均为非低俗图像时，根据第一推荐概率执行针对多媒体内容的推荐操作；当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，根据第二推荐概率执行针对多媒体内容的推荐操作；其中，第一推荐概率大于第二推荐概率。

在一些实施例中，推荐模块还用于：当图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，对任意一个图像中的人体预测区域和/或匹配成功的部位预测区域进行脱敏处理，以更新多媒体内容；根据第一推荐概率，执行针对更新后的多媒体内容的推荐操作。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的低俗图像识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4A、图4B及图4D示出的基于人工智能的低俗图像识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的低俗图像识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对图像进行人体层级的分类处理，得到人体预测区域以及对应的人体类别，包括：

通过人体分类模型对所述图像的图像特征进行分类处理，得到人体预测区域以及所述人体预测区域对应多种候选人体类别的概率；

将概率最大的候选人体类别作为所述人体预测区域对应的人体类别；

所述对所述图像进行部位层级的分类处理，得到至少一个部位预测区域、以及每个所述部位预测区域对应的部位类别，包括：

通过部位分类模型对所述图像的图像特征进行分类处理，得到至少一个部位预测区域、以及每个所述部位预测区域对应多种候选部位类别的概率；

针对每个所述部位预测区域，将概率最大的候选部位类别作为所述部位预测区域对应的部位类别。

3.根据权利要求2所述的方法，其特征在于，所述通过人体分类模型对所述图像的图像特征进行分类处理之前，所述方法还包括：

通过特征提取模型对所述图像进行特征提取处理，得到多个尺度的特征图；

通过特征融合模型对所述多个尺度的特征图进行融合处理，得到所述图像的图像特征。

4.根据权利要求3所述的方法，其特征在于，所述通过特征提取模型对所述图像进行特征提取处理之前，所述方法还包括：

获取样本图像、所述样本图像在所述人体层级的样本分类结果、以及所述样本图像在所述部位层级的样本分类结果；

通过低俗图像识别模型对所述样本图像进行前向传播处理，得到所述样本图像在所述人体层级的待对比分类结果、以及所述样本图像在所述部位层级的待对比分类结果；

根据所述人体层级的样本分类结果以及所述人体层级的待对比分类结果，确定所述人体层级的损失值，并根据所述部位层级的样本分类结果以及所述部位层级的待对比分类结果，确定所述部位层级的损失值；

对所述人体层级的损失值及所述部位层级的损失值进行加权处理，并根据得到的加权损失值在所述低俗图像识别模型中进行反向传播处理，以训练所述低俗图像识别模型；

其中，所述低俗图像识别模型包括所述特征提取模型、所述特征融合模型、所述人体分类模型及所述部位分类模型。

5.根据权利要求4所述的方法，其特征在于，所述获取样本图像、所述样本图像在所述人体层级的样本分类结果、以及所述样本图像在所述部位层级的样本分类结果之后，所述方法还包括：

将包括多个数据样本的样本集划分为训练集和验证集；

其中，所述数据样本包括一个样本图像、所述样本图像在所述人体层级的样本分类结果、以及所述样本图像在所述部位层级的样本分类结果；

其中，所述训练集用于训练所述低俗图像识别模型；

所述方法还包括：

根据所述验证集确定训练后的所述低俗图像识别模型的验证模型指标；

当所述验证模型指标小于或等于指标阈值时，根据所述训练集对训练后的所述低俗图像识别模型再次进行训练；

当所述验证模型指标大于所述指标阈值时，确定训练后的所述低俗图像识别模型训练完成。

6.根据权利要求5所述的方法，其特征在于，所述低俗图像识别模型的数量包括多个，且不同所述低俗图像识别模型的模型结构不同；

所述将包括多个数据样本的样本集划分为训练集和验证集，包括：

将包括多个数据样本的样本集划分为训练集、验证集和测试集；

所述方法还包括：

根据所述测试集确定训练完成的所述低俗图像识别模型的测试模型指标；

在训练完成的多个所述低俗图像识别模型中，确定出测试模型指标最大的训练完成的低俗图像识别模型，以对所述图像进行前向传播处理。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述将所述人体预测区域与所述至少一个部位预测区域进行位置匹配处理，得到与所述人体预测区域匹配成功的部位预测区域，包括：

根据所述人体预测区域的位置以及所述部位预测区域的位置，确定所述人体预测区域与所述部位预测区域之间的交并比；

根据所述交并比对所述至少一个部位预测区域进行筛选处理，得到与所述人体预测区域匹配成功的部位预测区域。

8.根据权利要求7所述的方法，其特征在于，所述根据所述交并比对所述至少一个部位预测区域进行筛选处理，得到与所述人体预测区域匹配成功的部位预测区域，包括：

执行以下任意一种处理：

将对应的交并比大于交并比阈值的部位预测区域，作为与所述人体预测区域匹配成功的部位预测区域；

在对应相同部位类别的至少一个部位预测区域中，将对应的交并比最大的部位预测区域作为与所述人体预测区域匹配成功的部位预测区域。

9.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述人体预测区域对应的人体类别、以及所述匹配成功的部位预测区域对应的部位类别，确定所述图像的低俗图像识别结果，包括：

当所述人体预测区域对应的人体类别为敏感人体类别、且所述匹配成功的部位预测区域对应的部位类别为敏感部位类别时，确定所述图像的低俗图像识别结果为低俗图像；

当所述人体预测区域对应的人体类别为非敏感人体类别、或所述匹配成功的部位预测区域对应的部位类别为非敏感部位类别时，确定所述图像的低俗图像识别结果为非低俗图像。

10.根据权利要求1至6任一项所述的方法，其特征在于，所述人体层级的分类处理得到的分类结果还包括所述人体预测区域对应多种候选部位类别的概率；

所述将所述人体预测区域与所述至少一个部位预测区域进行位置匹配处理，包括：

在所述人体预测区域对应的多种候选部位类别中，筛选出概率大于概率阈值的候选部位类别；

将所述人体预测区域与筛选出的部位预测区域进行位置匹配处理；

其中，所述筛选出的部位预测区域对应的部位类别为筛选出的候选部位类别。

11.根据权利要求1至6任一项所述的方法，其特征在于，所述对图像进行人体层级的分类处理之前，所述方法还包括：

对多媒体内容进行图像抽取处理，得到待进行所述人体层级的分类处理的图像；

所述根据所述人体预测区域对应的人体类别、以及所述匹配成功的部位预测区域对应的部位类别，确定所述图像的低俗图像识别结果之后，所述方法还包括：

当所述图像抽取处理得到的所有图像的低俗图像识别结果均为非低俗图像时，根据第一推荐概率执行针对所述多媒体内容的推荐操作；

当所述图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，根据第二推荐概率执行针对所述多媒体内容的推荐操作；

其中，所述第一推荐概率大于所述第二推荐概率。

12.根据权利要求11所述的方法，其特征在于，当所述图像抽取处理得到的任意一个图像的低俗图像识别结果为低俗图像时，所述方法还包括：

对所述任意一个图像中的所述人体预测区域和/或所述匹配成功的部位预测区域进行脱敏处理，以更新所述多媒体内容；

根据所述第一推荐概率，执行针对更新后的所述多媒体内容的推荐操作。

13.一种基于人工智能的低俗图像识别装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的低俗图像识别方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的低俗图像识别方法。