CN115834935A

CN115834935A - 多媒体信息审核方法、广告审核方法、设备及存储介质

Info

Publication number: CN115834935A
Application number: CN202211652489.1A
Authority: CN
Inventors: 陈佳榕; 牛也
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-03-21

Abstract

本申请提供一种多媒体信息审核方法、广告审核方法、设备及存储介质，该多媒体信息审核方法包括：获取多媒体信息；基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果；其中，当所述多媒体信息的类型为多模态类型，所述审核结果表示审核未通过时，所述审核结果包括多模态审核结果，所述多模态类型用于指示所述多媒体信息包括至少两种多媒体类型，所述多模态审核结果用于指示所述多媒体信息中不合规的多模态元素，所述多模态元素为包括至少两种多媒体类型的元素。基于多模态模型有效识别了多模态下违规的元素，提高了多媒体信息审核的全面性和准确度。

Description

多媒体信息审核方法、广告审核方法、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种多媒体信息审核方法、广告审核方法、设备及存储介质。

背景技术

随着计算机技术和互联网技术的飞速发展，互联网上的各种多媒体信息，如图文信息、视频、语音等，层出不穷。

为了规范互联网上发布的多媒体信息，如各平台投放的广告、发布的短视频等，需要在发布之前，对多媒体信息进行审核。现有的审核方式大多依赖于人工方式进行审核，耗时费力，审核效率较差。

为了提高审核的效率，在相关技术中，提出了基于模型的多媒体审核方法，然而所提供的模型通常仅可以审核一种模态的多媒体信息，如图像、文字或视频，从而无法有效识别出多模态联合违规的情况，审核不够全面。

因此，亟需一种全面的多媒体信息的审核方法，以有效识别多媒体中的违规元素，尤其是多模态违规元素。

发明内容

本申请提供一种多媒体信息审核方法、广告审核方法、设备及存储介质，基于多模态模型，有效检测多媒体信息中的多媒体违规元素，提高了多媒体审核的全面性。

第一方面，本申请提供一种多媒体信息审核方法，包括：

获取多媒体信息；

基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果；

其中，当所述多媒体信息的类型为多模态类型，所述审核结果表示审核未通过时，所述审核结果包括多模态审核结果，所述多模态类型用于指示所述多媒体信息包括至少两种多媒体类型，所述多模态审核结果用于指示所述多媒体信息中不合规的多模态元素，所述多模态元素为包括至少两种多媒体类型的元素。

当多媒体信息的类型为单模态类型，所述审核结果表示审核未通过时，所述审核结果包括单模态审核结果，以指示所述多媒体信息中不合规的单模态元素。

可选的，所述多模态模型包括多模态特征提取模型和目标审核模型；基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果，包括：

根据所述多媒体信息的类型，将所述多媒体信息转换为多媒体输入向量；

将所述多媒体输入向量，输入预先训练的多模态特征提取模型；

基于预先训练的多模态特征提取模型，提取所述多媒体输入向量的单模态特征向量和多模态特征向量，其中，所述单模态特征向量为所述多媒体信息中单一媒体类型的信息对应的特征向量，所述多模态特征向量所述多媒体信息中多个媒体类型的信息对应的特征向量；

将审核规则库、所述单模态特征向量以及所述多模态特征向量输入预先训练的目标审核模型，得到所述多媒体信息的审核结果。

可选的，所述多模态特征提取模型包括编码器、单模态特征提取层和多模态融合层；

基于预先训练的多模态特征提取模型，提取所述多媒体输入向量的单模态特征向量和多模态特征向量，包括：

经由所述编码器，对所述多媒体输入向量中各多媒体类型对应的输入向量进行编码，得到各单模态编码向量；

基于单模态特征提取层，基于自注意力机制对各单模态编码向量进行特征处理，得到各单模态特征向量；

经由所述多模态融合层，采用自注意力机制以及交叉注意力机制，对各单模态特征向量进行特征融合，得到所述多模态特征向量。

可选的，所述方法还包括：

若检测到所述多媒体信息对应的人工不合规标注，则基于所述人工不合规标注，提取所述多媒体信息中的目标部分；

将所述目标部分输入预先训练的多模态模型，得到所述目标部分中不合规的元素；

根据所述目标部分中不合规元素不合规的元素，更新所述多媒体信息的审核结果。

可选的，所述方法还包括：

根据所述目标部分中不合规的元素，更新所述审核规则库或审核特征向量。

可选的，所述方法还包括：

获取自然语言描述的审核规则；

将所述审核规则输入意图理解模型，得到审核特征向量；

基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果，包括：

将所述审核特征向量以及所述多媒体信息对应的向量，输入预先训练的多模态模型，得到所述多媒体信息的审核结果。

可选的，所述方法还包括：

当审核结果表示审核不通过时，修改所述多媒体信息中不合规的元素，得到修改后的多媒体信息，以发布所述修改后的多媒体信息。

可选的，修改所述多媒体信息中不合规的元素，得到修改后的多媒体信息，包括：

基于生成对抗网络模型或扩散生成模型，生成所述多媒体信息中不合规的元素对应的修改元素，基于所述修改元素替换对应的不合规的元素，得到修改后的多媒体信息。

第二方面，本申请提供一种广告审核方法，包括：

获取自然语言描述的审核规则；

将所述审核规则输入意图理解模型，得到审核特征向量；

获取待审核的多媒体广告；

基于预先训练的多模态模型以及审核特征向量，对所述多媒体广告中的元素进行审核，得到所述多媒体广告的审核结果；

其中，当所述多媒体广告的类型为多模态类型，所述审核结果表示审核未通过时，所述多模态类型用于指示所述多媒体广告包括至少两种多媒体类型，所述多模态审核结果用于指示所述多媒体广告中不合规的多模态元素，所述多模态元素为包括至少两种多媒体类型的元素。

第三方面，本申请提供一种多媒体信息审核装置，包括：

多媒体获取模块，用于获取多媒体信息；

审核模块，用于基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果；

第四方面，本申请提供一种审核设备，包括：

处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现本申请第一方面或第二方法提供的审核方法。

第五方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现本申请第一方面或第二方面提供的审核方法。

第六方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请第一方面或第二方面提供的审核方法。

本申请提供的多媒体信息审核方法、广告审核方法、设备及存储介质，针对多媒体的审核，如视频、语音、图文等的审核，为了有效识别不合规的多模态元素，如在单模态下为合规元素，而在多模态下不合规的元素，通过预先训练的多模态模型，对多媒体信息中的元素在单模态以及多模态状态下进行审核，得到审核结果，以甄别多媒体信息中不合规的单模态以及多模态元素，提高了多媒体信息审核的全面性和准确度，有效防止了不合规元素在互联网中传播。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种应用场景的示意图；

图2为本申请实施例提供的一种多媒体信息审核方法的流程示意图；

图3为本申请实施例提供的另一种多媒体信息审核方法的流程示意图；

图4为本申请实施例提供的一种多模态模型的结构示意图；

图5为本申请图3所示实施例中审核规则库更新过程的示意图；

图6为本申请实施例提供的又一种多媒体信息审核方法的流程示意图；

图7为本申请实施例提供的一种广告审核方法的流程示意图；

图8为本申请实施例提供的一种多媒体信息审核装置的结构示意图；

图9为本申请实施例提供的一种审核设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先，对本申请涉及的名称进行解释：

多模态：不同存在形式或信息来源可以被称之为一种模态，由两种或两种以上模态组成的数据称为多模态数据，针对多媒体信息，其多模态可以为文本、图片、音频和视频中至少两种的组合等。

图1为本申请实施例提供的一种应用场景的示意图，如图1所示，上传者将多媒体信息，如视频、图文、音频数据、文本等，在平台发布之前，平台需要对多媒体信息进行审核，审核通过后方可发布该多媒体信息。

上传者待上传的多媒体信息发送至平台服务器之后，平台服务器可以对该多媒体信息进行审核，或者由其他设备对该多媒体信息进行审核，如由平台设备的专门的审核设备，或者由第三方提供的审核设备进行审核，并反馈审核结果至平台服务器，以进行审核通过的多媒体信息的发布。

示例性的，多媒体信息可以为多媒体广告、短视频、会议音频等。

常见的审核方式为人工审核方式，由平台的审核员浏览多媒体信息，以判断其中是否存在违规词，如出现“世界第一”、脏字等信息。

由于平台上每天发布的多媒体信息数量庞大，采用人工审核的方式耗时费力，效率低下，无法满足需求。为了提高审核效率，在相关技术中，提出了机器审核，机器审核时，需要提前给出各类违规词，从而机器审核时，从待审核的多媒体信息中查找是否有违规词。

现有的机器审核模型通常是单模态模型，仅可以识别多媒体信息中单模态下违规的元素，即单模态违规元素，如文本中的违规词、画面中违规图像等，当存在单模态下不违规，而在多模态下违规的元素时，单模态模型则无法识别，导致审核不够全面、准确度低。

为了提高审核的全面性和准确度，有效识别多模态违规的情况，本申请提供一种多媒体信息审核方法，基于设计和预先训练的多模态模型，对多媒体信息中的元素在单模态和多模态状态下进行审核，从而识别多媒体信息中不合规的单模态和多模态的元素，以免多媒体信息中单模态不违规多模态违规的元素被发布，提高互联网环境的洁净度。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的一种多媒体信息审核方法的流程示意图，该多媒体信息审核方法可以由具备相应数据处理能力的审核设备执行，如多媒体信息审核设备、审核设备等，其形式可以为服务器、计算器或者其他设备，该服务器可以为云服务器或者物理服务器。

如图2所示，该多媒体信息审核方法包括以下步骤：

步骤S201，获取多媒体信息。

其中，多媒体信息可以为视频、文本、音频、图片等中的一项或多项的组合，如可以为多媒体广告、短视频、博客或者其他多媒体信息。

可以从多媒体发布平台的服务器中获取待审核的一个或多个多媒体信息，或者从上传者终端获取待审核的多媒体信息。

多媒体信息的类型可以为多模态类型，即为多模态多媒体信息，多模态类型指的是多媒体信息中包括的多媒体类型至少为两种，多媒体类型包括图像、文字、视频和语音中的至少一种类型，如可以包括图像和文字，或者包括视频和语音，还可以包括图像、文字和语音，或者其他组合方式。

在获取多媒体信息之后，还可以基于多媒体信息的后缀、格式等，识别多媒体信息的类型。多媒体信息的类型可以基于多媒体信息包括的多媒体类型进行划分。

在确定多媒体信息的类型之后，可以基于多媒体信息的类型，对多媒体信息进行预处理，得到输入后续多模态模型的特征向量。

示例性的，针对多媒体信息中的文字，则可以对文字进行光学字符识别、分词处理，得到多媒体信息对应的词向量。针对多媒体信息中的语音，则可以对语音进行识别，将语音转换为文本，进而对转换的文本进行分词处理，得到多媒体信息对应的词向量。针对多媒体信息中的图像，则可以对图像进行切块或分割处理，得到多媒体信息对应的输入矩阵。针对多媒体信息中视频，则可以参照图像处理的方式，以每个视频帧为一张图像，在对视频帧进行切块或分割处理之后，得到每个视频帧对应的特征矩阵。

步骤S202，基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果。

多模态模型用于识别多媒体信息中不合规的单模态以及多模态的元素。审核结果可以包括审核结论，如审核通过或审核不通过，当审核结论为审核不通过时，还可以包括不合规的元素。如文字中不合规的关键词，语音中不合规的语音片段以及位置，图像中不合规的子图像及其坐标，视频中不合规的视频帧及其对应的时间，不合规的视频帧中不合规的子图像及其坐标。

多媒体信息的类型可以包括单模态类型和多模态类型，单模态类型的多媒体信息仅包括一种多媒体类型，如文本、图像、语音或视频，多模态的多媒体信息则包括至少两种多媒体类型。

当所述多媒体信息的类型为多模态类型，所述审核结果表示审核未通过时，所述审核结果包括多模态审核结果，所述多模态类型用于指示所述多媒体信息包括至少两种多媒体类型，所述多模态审核结果用于指示所述多媒体信息中不合规的多模态元素，所述多模态元素为包括至少两种多媒体类型的元素。审核结构还包括单模态审核结果，用于指示多媒体信息中不合规的单模态元素。

当多媒体信息的类型为单模态类型时，如为纯文本、纯语音、图像或视频时，审核结果仅包括单模态审核结果。

可以将多媒体信息对应的输入向量输入多模态模型，基于多模态模型对多媒体信息中单模态元素和多模态元素进行审核，确定不合规的元素，并输出审核结果。

多模态模型可以先对多媒体信息中单模态的各输入向量进行编码，通过对编码后的单模态输入向量进行特征表达与交叉处理，得到多模态下的融合特征，基于多模态下的融合特征，识别多媒体信息中不合规的多模态元素。

在一些实施例中，在审核结果标识审核通过时，还可以包括：在相关平台上，发布该多媒体信息。

在得到多媒体信息的审核结果之后，还可以将审核结果下发至多媒体发布平台的服务器，以在审核结果表示审核通过时，由该服务器进行多媒体信息发布的相关操作，或者在审核结果表示审核不通过时，以由该服务器生成提示信息并下发至上传者终端。

本申请提供的多媒体信息审核方法，针对多媒体的审核，如视频、语音、图文等的审核，为了有效识别不合规的多模态元素，如在单模态下为合规元素，而在多模态下不合规的元素，通过预先训练的多模态模型，对多媒体信息中的元素在单模态以及多模态状态下进行审核，得到审核结果，以甄别多媒体信息中不合规的单模态以及多模态元素，提高了多媒体信息审核的全面性和准确度，有效防止了不合规元素在互联网中传播。

图3为本申请实施例提供的另一种多媒体信息审核方法的流程示意图，本实施例是在图2所示实施例的基础上，对步骤S202的进一步细化，以及在步骤S202之后增加基于未能识别的不合规元素进行审核规则库更新的步骤。在本实施例中，多模态模型包括多模态特征提取模型和目标审核模型，如图3所示，本实施例提供的多媒体信息审核方法可以包括以下步骤：

步骤S301，获取多媒体信息。

步骤S302，根据所述多媒体信息的类型，将所述多媒体信息转换为多媒体输入向量。

多媒体信息的类型用于指示多媒体信息中包含的多媒体类型，如文本、图像、语音和视频。

可以预先建立各种类型的多媒体信息与预处理算法之间的对应关系，进而基于该对应关系以及多媒体信息的类型，确定该多媒体信息的预处理算法，基于确定的预处理算法对多媒体信息进行预处理，得到对应的多媒体输入向量。

预处理算法可以包括分词算法、图像分块算法、语音识别算法、视频帧提取算法等中的至少一项。还可以包括降噪算法、数据转换算法、归一化算法等算法。

步骤S303，将所述多媒体输入向量，输入预先训练的多模态特征提取模型。

步骤S304，基于预先训练的多模态特征提取模型，提取所述多媒体输入向量的单模态特征向量和多模态特征向量。

其中，单模态特征向量为多媒体信息中单一媒体类型的信息对应的特征向量，多模态特征向量所述多媒体信息中多个媒体类型的信息对应的特征向量。

多模态特征提取模型用于提取多媒体信息或多媒体输入向量中单模态元素以及多模态元素对应的特征，得到单模态特征向量以及多模态特征向量。单模态特征向量中包括多媒体信息中各单模态元素的特征值，多模态特征向量中包括多媒体信息中各多模态元素的特征值。

多模态特征向量可以通过跨模态注意力机制对不同模态元素进行特征处理与交叉的方式得到。

当多媒体信息的类型为多模态类型时，多媒体输入向量包括多媒体信息对应的各模态或各中多媒体类型的输入向量，多模态特征向量可以先对各模态的输入向量进行编码、融合(merge)，得到融合特征，进而基于自注意力机制对融合特征进行处理，得到多模态特征向量。对于单模态特征向量，则可以在对各模态的输入向量进行编码之后，通过自注意力机制对编码后的各模态的输入向量进行处理，得到各个单模态特征向量。

在一些实施例中，可以基于交叉注意力机制，对各个单模态特征向量进行特征处理与交叉处理后得到多模态特征向量。

针对多模态的多媒体信息，通过多模态特征提取模型得以将各种模态元素的特征对齐，融合各种模态之间的特征，从而提高多媒体信息特征表达的完备性和维度，为后续的审核提供可靠的数据基础。

可选的，图4为本申请实施例提供的一种多模态模型的结构示意图，如图4所示，该多模态模型包括多模态特征提取模型和目标审核模型，其中，多模态特征提取模型包括编码器、单模态特征提取层和多模态融合层。编码器用于对多媒体输入向量进行编码，具体可以对各多媒体类型对应的输入向量进行编码，得到各单模态编码向量，一个单模态对应一种多媒体类型。单模态特征提取层的输入为各单模态编码向量，输出为对应的各单模态特征向量。多模态融合层的输入为各单模态特征向量或各单模态编码向量，图4中以输入为单模态编码向量为例，输出为一个或多个多模态特征向量。将提取单模态特征向量和多模态特征向量输入目标审核模型中，得到审核结果。

在一些实施例中，目标审核模型的输入还包括审核特征向量，以基于审核特征向量，识别单模态特征向量和多模态特征向量中的不合规元素(审核结果)。审核特征向量可以手动输入，或者基于意图理解模型得到。

可选的，基于预先训练的多模态特征提取模型，提取所述多媒体输入向量的单模态特征向量和多模态特征向量，包括：经由所述编码器，对所述多媒体输入向量中各多媒体类型对应的输入向量进行编码，得到各单模态编码向量；基于单模态特征提取层，基于自注意力机制对单模态编码向量进行特征处理，得到各单模态特征向量；经由所述多模态融合层，采用自注意力机制以及交叉注意力机制，对各单模态特征向量进行特征融合，得到所述多模态特征向量。

继续参见图4，编码器包括各模态对应的编码器，即语音编码器、文本编码器、视频编码器和图像编码器。各模态对应的编码器的输入为各模态输入向量(包括语音模态输入向量、文本模态输入向量、视频模态输入向量和图像模态输入向量)，以对对应模态的输入向量进行编码，得到各单模态编码向量，如语音编码向量、文本编码向量、视频编码向量和图像编码向量。多模态特征提取层可以包括多个多模态融合层，图4中以3层为例。各编码向量或各单模态特征向量经过多模态融合层后，先进行融合，可以融合两个或两个以上的单模态编码向量或单模态特征向量，进而基于自注意力机制以及交叉注意力机制，对融合后的单模态编码向量或单模态特征向量进行处理，得到一个或多个多模态特征向量。多模态特征向量的数量可以基于多媒体信息中包括的模态的数量确定，多媒体信息中包括2个模态时，多模态特征向量的数量为1个，多媒体信息中包括3个模态时，多模态特征向量的数量为3个。

多模态融合层还可以包括前馈层、归一化层等。

在一些实施例中，可以基于Transformer模型实现多模态融合层。

通过注意力机制，实现单模态特征和多模态特征的提取，实现了不同模态特征的对齐，充分融合多个模态之间的特征，提高特征表达的感受视野，进而提高特征表达的完备性和维度，为后续的目标检测提供了可靠的数据基础。

步骤S305，将审核规则库、所述单模态特征向量以及所述多模态特征向量输入预先训练的目标审核模型，得到所述多媒体信息的审核结果。

目标审核模型可以采用任意一种目标检测模型。

示例性的，目标审核模型可以为基于Transformer模型的目标检测模型，如DETR模型。

审核规则库可以为预先设置的，用于描述不合规的元素符合，或不合规的元素满足的条件。在一些实施例中，审核规则库可以包括各违规词。

在一些实施例中，为了提高审核规则库设置的效率，审核人员可以提供自然语言描述的审核规则，由意图理解模型对该自然语言描述的审核规则进行意图理解，得到审核特征向量，即上述审核规则库。

意图理解模型可以为任意一种自然语言处理(NLP，Natural LanguageProcessing)模型，如BERT模型。

目标审核模型用于在审核规则库的监督下，对单模态特征向量和多模态特征向量进行审核，从而识别出单模态和不同模态组合下违规的元素，并输出识别结果。

目标审核模型可以定位不合规的元素，包括不合规的单模态元素以及不合规的多模态元素，并保存各不合规的元素及其位置。

示例性的，以图文为例，图像中存在一个耶的手势，在耶的手势后面有一个文字“B”，在单模态下，耶的手势和B均不违规，然而在多模态下则违规，通过上述模型可以有效识别出该情况，避免存在违规创意的多媒体信息发布至互联网。

步骤S306，若检测到所述多媒体信息对应的人工不合规标注，则基于所述人工不合规标注，提取所述多媒体信息中的目标部分。

在基于多模态模型检测完毕之后，将多媒体信息及其审核结果发送至审核人员对应的审核设备，若多媒体信息中存在未被多模态模型识别出的其他违规的元素或不合规的元素，则审核人员为多媒体信息添加人工不合规标注。

人工不合规标注可以用于标注多媒体信息中未被多模态模型识别的不合规的元素，记为新违规元素，或者用于标注新违规元素的大致位置，如所在帧，所在图像中的区域，所对应的时间片段等。

人工不合规标注还可以用于指示未被多模态模型识别的不合规元素对应的审核规则，记为新增审核规则，则可以基于该新增审核规则进行审核规则库的更新，从而使得多模态模型基于新的审核规则库，重新审核该多媒体信息，以有效识别上一次未被识别的违规元素。

当审核结果为审核通过时，审核人员在审核时，发现多媒体信息存在的违规元素，可以对该元素所在大致位置进行标注，从而为多媒体信息添加人工不合规标注。

当审核结果为审核不通过时，可以基于审核结果，对多媒体信息中不合规的元素进行标注，还可以生成不合规描述信息，如文字中存在敏感词A，图像中存在违规标识B等。审核人员可以基于不合规描述信息和/或多模态模型对多媒体信息的标注，对多媒体信息进行复核，若发现多媒体信息中仍存在新违规元素，则为多媒体信息添加人工不合规标注，并将该人工不合规标注返回审核设备。

具体的，可以提取多媒体信息中人工不合规标注对应范围的部分，即目标部分，如人工不合规标注对应的一个或多个视频帧，一段音频或一段文字等，以基于多模态模型进行目标部分的审核。

步骤S307，将所述目标部分输入预先训练的多模态模型，得到所述目标部分中不合规的元素。

多模态模型以多媒体信息的目标部分为输入，采用审核多媒体信息中元素的方式，重新对多媒体信息的目标部分进行审核，得到目标部分中不合规的元素，如单模态元素、多模态元素。

步骤S308，根据所述目标部分中不合规的元素，更新所述多媒体信息的审核结果。

在一些实施例中，为了提高多媒体信息的发布效率，还可以基于审核结果，对多媒体信息中不合规的元素进行修改，得到修改后的不包括不合规元素的多媒体信息，以发布该修改后的多媒体信息。

步骤S309，根据所述目标部分中不合规的元素，更新所述审核规则库。

具体的，可以将目标部分中不合规的元素对应的特征添加至审核规则库。

可以使用强化学习自动学习目标部分中不合规的元素，得到新的审核规则，将该新的审核规则添加至审核规则库，或者基于该新的审核规则更新审核规则库中关联的审核规则，从而形成闭环的审核流程，无需审核人员手动进行审核规则库的更新，减少了审核人员的工作量，提高了整个流程的自动化程度。

步骤S308和步骤S309可以串行执行，也可以并行执行，图3中以并行执行为例，还可以先执行步骤S309再执行步骤S308，或者先执行步骤S308再执行步骤S309，本申请对步骤S308和步骤S309的执行顺序不进行限定。

图5为本申请图3所示实施例中审核规则库更新过程的示意图，如图5所示，在审核设备基于其实设备的多模态模型输出多媒体信息的审核结果之后，将审核结果以及多媒体信息发送至审核人员处，如发送至审核人员的设备，由审核人员对审核结果以及多媒体信息进行复核，若审核人员发现多媒体信息中存在未被多模态模型识别的不合规的元素(记为新违规元素)，则为多媒体信息添加人工不合规标注，以指示新违规元素的位置或大致位置。进而将人工不合规标注或含有人工不合规标注的多媒体信息返回审核设备，审核设备基于该人工不合规标注，提取多媒体信息新违规元素所在的目标部分，将该目标部分输入多模态模型，以重新审核目标部分，得到目标部分在第一次审核时未被识别的不合规的元素，基于目标部分中不合规的元素进行多媒体信息的审核结果的更新，以及审核规则库的更新。将新的审核结果发送至多媒体发布平台的服务器或者上传者终端。

在本实施例中，通过多模态模型对多媒体信息进行单模态和多模态特征的提取，在审核规则库的监督下识别多媒体信息中单模态和多模态下不合规元素的识别，提高了审核的全面性和准确度；同时，当存在未被多模态模型识别的不合规元素时，通过人工复核和标注的形式，将多媒体信息中未被识别的不合规元素所在的目标部分重新输入多模态模型，以通过二次审核确定该目标部分中的不合规元素，并进行审核结果的更新，进一步提高了审核结果的准确度；同时，基于目标部分中不合规元素进行审核规则库的更新，降低了审核规则库维护的成本，减少了审核人员的工作量，实现了闭环的审核流程。

图6为本申请实施例提供的又一种多媒体信息审核方法的流程示意图，本实施例是在图2所示实施例的基础上，对步骤S202的进一步细化，在步骤S202之前，增加审核规则意图理解相关的步骤，以及在步骤S202之后，增加基于审核结果对多媒体信息进行修改的相关步骤。

如图6所示，本实施例提供的多媒体信息审核方法可以包括以下步骤：

步骤S601，获取多媒体信息。

步骤S602，获取自然语言描述的审核规则。

可以由审核人员输入自然语音描述的审核规则。

步骤S603，将所述审核规则输入意图理解模型，得到审核特征向量。

意图理解模型为预训练的NLP模型，可以将自然语言描述的审核规则，处理为后续多模态模型可以直接处理的审核特征向量。审核特征向量中可以包括各个违规词的特征值，该特征值可以包括语义特征、语法特征、词向量等，违规词可以由意图理解模型基于自然语言描述的审核规则确定。

多模态模型可以基于元素的特征值(包括单模态以及多模态下的特征值)与审核特征向量中各违规词对应的特征值的编辑距离、相似度等，从多媒体信息的各元素中，确定不合规的元素，元素单模态以及多模态下特征值可以分别存储于上述单模态特征向量和多模态特征向量中。

步骤S602和步骤S603，与步骤S601可以串行执行，也可以并行执行，图6中以并行执行为例，还可以在步骤S601之前串行执行步骤S602和步骤S603，或者步骤S601和步骤S602或步骤S603可以并行执行，本申请对执行顺序不进行限定，仅需在步骤S604之前串行执行步骤S602和步骤S603即可。

步骤S604，将所述审核特征向量以及所述多媒体信息对应的向量，输入预先训练的多模态模型，得到所述多媒体信息的审核结果。

本步骤可以参照前述实施例中的步骤S305进行，仅将“审核规则库”替换为“审核特征向量”即可，在此不再赘述。

步骤S605，当审核结果表示审核不通过时，修改所述多媒体信息中不合规的元素，得到修改后的多媒体信息，以发布所述修改后的多媒体信息。

针对语音中不合规的元素，修改方式可以为剪掉该不合规的元素对应的音频片段，或者采用“哔”声代替不合规的元素对应的音频频段。

针对文本中不合规的元素，如违规词，若存在合规的近义词，则采用近义词替换该违规词；若不存在，则可以删掉该违规词，若该违规词为图像中的配字，则可以抠除该违规词，如基于该违规词所在位置处背景，生成替换该违规词的图像块，从而采用该图像块遮挡该违规词，从而不影响图像的视觉效果。还可以采用马赛克遮挡该违规词，或者对该违规词进行模糊处理等。

针对视频或图像中不合规的元素，可以采用马赛克、背景或合规元素遮挡或替换画面中不合规的部分。

可选的，修改所述多媒体信息中不合规的元素，得到修改后的多媒体信息，以发布所述修改后的多媒体信息，包括：

基于生成对抗网络模型或扩散生成模型，生成所述多媒体信息中不合规的元素对应的修改元素，基于所述修改元素替换对应的不合规的元素，得到修改后的多媒体信息，以发布所述修改后的多媒体信息。

生成对抗网络(GAN，Generative Adversarial Networks)模型，是一种深度学习模型，包括生成器和判别器，生成器和判别器均为神经网络模型，两者在训练阶段通过互相竞争进行优化。

扩散生成模型为基于扩散的生成模型，无需如GAM模型进行额外的判别器的训练，主要通过连续添加高斯噪声来破坏训练数据，通过学习噪声生成过程，生成新的数据。

基于GAN模型或扩散生成模型生成不合规元素的修改元素，提高了修改元素的质量和准确度，在通过审核的前提下，减少了修改元素对多媒体信息的影响，提高了多媒体信息的修改质量。

在本实施例中，为了实现平台上传的多媒体信息的审核，审核人员仅需提供自然语言描述的审核规则，由意图理解模型自动将该自然语言描述的审核规则转换为多模态模型可直接处理的审核特征向量，提高了审核规则库获取的效率，简化了审核人员的操作；在基于多模态模型得到多媒体信息的审核结果之后，若审核结果中包括不合规的元素，如单模态元素、多模态元素，则自动对该不合规的元素进行修改，以发布修改后的多媒体信息，提高了多媒体信息修改的效率和准确度，同时提高了多媒体信息发布的效率。

图7为本申请实施例提供的一种广告审核方法的流程示意图，本实施例以上述多媒体信息为广告为例，如图7所示，本实施例提供的广告审核方法可以包括以下步骤：

步骤S701，获取自然语言描述的审核规则。

步骤S702，将所述审核规则输入意图理解模型，得到审核特征向量。

步骤S703，获取待审核的多媒体广告。

步骤S704，基于预先训练的多模态模型以及审核特征向量，对所述多媒体广告中的元素进行审核，得到所述多媒体广告的审核结果。

本实施例提供的广告审核方法的相关步骤，可以参照前述实施例提供的相关步骤进行，仅将对象由多媒体信息替换为多媒体广告即可，在此不再赘述。

图8为本申请实施例提供的一种多媒体信息审核装置的结构示意图，如图8所示，该多媒体信息审核装置包括：多媒体获取模块810和审核模块820。

其中，多媒体获取模块820用于获取多媒体信息；审核模块820用于基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果；当所述多媒体信息的类型为多模态类型，所述审核结果表示审核未通过时，所述审核结果包括多模态审核结果，所述多模态类型用于指示所述多媒体信息包括至少两种多媒体类型，所述多模态审核结果用于指示所述多媒体信息中不合规的多模态元素，所述多模态元素为包括至少两种多媒体类型的元素。

可选的，所述多模态模型包括多模态特征提取模型和目标审核模型；审核模块820，包括：

预处理单元，用于根据所述多媒体信息的类型，将所述多媒体信息转换为多媒体输入向量；向量输入单元，用于将所述多媒体输入向量，输入预先训练的多模态特征提取模型；特征表达单元，用于基于预先训练的多模态特征提取模型，提取所述多媒体输入向量的单模态特征向量和多模态特征向量，其中，所述单模态特征向量为所述多媒体信息中单一媒体类型的信息对应的特征向量，所述多模态特征向量所述多媒体信息中多个媒体类型的信息对应的特征向量；审核单元，用于将审核规则库、所述单模态特征向量以及所述多模态特征向量输入预先训练的目标审核模型，得到所述多媒体信息的审核结果。

可选的，所述多模态特征提取模型包括编码器、单模态特征提取层和多模态融合层；特征表达单元，具体用于：

由所述编码器，对所述多媒体输入向量中各多媒体类型对应的输入向量进行编码，得到各单模态编码向量；基于单模态特征提取层，基于自注意力机制对各单模态编码向量进行特征处理，得到各单模态特征向量；经由所述多模态融合层，采用自注意力机制以及交叉注意力机制，对各单模态特征向量进行特征融合，得到所述多模态特征向量。

可选的，所述装置还包括：

重新审核模块，用于若检测到所述多媒体信息对应的人工不合规标注，则基于所述人工不合规标注，提取所述多媒体信息中的目标部分；将所述目标部分输入预先训练的多模态特征提取模型，得到所述目标部分中不合规的元素；审核结果更新模块，用于根据所述目标部分中不合规元素，更新所述多媒体信息的审核结果

可选的，所述装置还包括：

审核规则库更新模块，用于根据所述目标部分中不合规的元素，更新所述审核规则库或审核特征向量。

可选的，所述装置还包括：

规则理解模块，用于获取自然语言描述的审核规则；将所述审核规则输入意图理解模型，得到审核特征向量。

相应的，审核单元，具体用于：

可选的，所述装置还包括：

多媒体修改模块，用于当审核结果表示审核不通过时，修改所述多媒体信息中不合规的元素，得到修改后的多媒体信息，以发布所述修改后的多媒体信息。

可选的，多媒体修改模块，具体用于：

本申请实施例提供的多媒体信息审核装置，可用于执行上述任意实施例提供的多媒体信息审核方法的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图9为本申请实施例提供的一种审核设备的结构示意图，如图9所示，本实施例的提供的审核设备900包括：

至少一个处理器910；以及与所述至少一个处理器通信连接的存储器920；其中，所述存储器920存储有计算机执行指令；所述至少一个处理器910执行所述存储器存储的计算机执行指令，以使审核设备900执行如前述任一实施例提供的方法。

可选的，存储器920既可以是独立的，也可以跟处理器910集成在一起。

本实施例提供的审核设备900的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本申请实施例还提供一种多媒体平台，包括平台服务器以及审核设备900，该平台服务器用于接收各上传者终端上传的多媒体信息，并发布通过审核设备900审核的多媒体信息，或者审核设备900发送的修改后的多媒体信息。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时，可以实现前述任一实施例提供的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例提供的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器，电可擦除可编程只读存储器，可擦除可编程只读存储器，可编程只读存储器，只读存储器，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。当然，处理器和存储介质也可以作为分立组件存在于审核设备或多媒体信息审核设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种多媒体信息审核方法，其特征在于，包括：

获取多媒体信息；

2.根据权利要求1所述的方法，其特征在于，所述多模态模型包括多模态特征提取模型和目标审核模型；基于预先训练的多模态模型，对所述多媒体信息中的元素进行审核，得到所述多媒体信息的审核结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述多模态特征提取模型包括编码器、单模态特征提取层和多模态融合层；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述目标部分中不合规元素，更新所述多媒体信息的审核结果；

根据所述目标部分中不合规的元素，更新所述审核规则库。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取自然语言描述的审核规则；

将所述审核规则输入意图理解模型，得到审核特征向量；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，修改所述多媒体信息中不合规的元素，得到修改后的多媒体信息，包括：

8.一种广告审核方法，其特征在于，包括：

获取自然语言描述的审核规则；

将所述审核规则输入意图理解模型，得到审核特征向量；

获取待审核的多媒体广告；

9.一种审核设备，其特征在于，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的方法。

11.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。