CN114611637B

CN114611637B - 一种数据处理方法、装置、设备以及可读存储介质

Info

Publication number: CN114611637B
Application number: CN202210509663.0A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-05
Anticipated expiration: 2042-05-11
Also published as: CN114611637A

Abstract

本申请公开了一种数据处理方法、装置、设备以及可读存储介质，方法包括：获取目标媒体数据对应的目标数据帧，识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别；在参数映射表中，获取目标媒体类别以及目标图像类别共同指示的目标匹配参数；根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征；候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据。采用本申请，可以在媒体数据的检索业务中，提高检索准确率。

Description

一种数据处理方法、装置、设备以及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备以及可读存储介质。

背景技术

随着多媒体技术的快速发展，海量多媒体数据（如音乐、视频等等）进入人们视野，对于多媒体数据的检索，也变得越来越重要。其中，多媒体数据的检索是基于某个多媒体数据包含的媒体内容，从各个候选多媒体数据中检索出与该多媒体数据存在一定相似媒体内容的多媒体数据。

现有技术中对多媒体数据的的检索，通常为人工操作。然而，由于媒体业务平台的多样性，包含有各种类型（如比赛类型、影视综艺类型、演唱会类型、日常生活类型、音乐类型等等）的多媒体数据，且每个类型的多媒体数据又包含有不同内容，则在多媒体数据具备多样性、丰富性、海量性的情况下，基于人工操作来进行多媒体数据检索的方式，无疑需要投入大量的人力与时间，成本极大；同时，由于人工操作的局限性，覆盖面不全，所检索到的媒体数据也不够准确，准确率非常低下。

发明内容

本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质，可以在媒体数据的检索业务中，提高检索准确率。

本申请实施例一方面提供了一种数据处理方法，包括：

获取目标媒体数据对应的目标数据帧，识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别；

在参数映射表中，获取目标媒体类别以及目标图像类别共同指示的目标匹配参数；参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，配置媒体类别集合中的一个配置媒体类别、配置图像类别集合中的一个配置图像类别与匹配参数集合中的一个配置匹配参数之间存在映射关系；一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件；

根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征；候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；

根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据。

本申请实施例一方面提供了一种数据处理装置，包括：

帧获取模块，用于获取目标媒体数据对应的目标数据帧；

识别模块，用于识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别；

阈值获取模块，用于在参数映射表中，获取目标媒体类别以及目标图像类别共同指示的目标匹配参数；参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，配置媒体类别集合中的一个配置媒体类别、配置图像类别集合中的一个配置图像类别与匹配参数集合中的一个配置匹配参数之间存在映射关系；一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件；

特征匹配模块，用于根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征；候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；

有效媒体确定模块，用于根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据。

在一个实施例中，识别模块包括：

特征提取单元，用于将目标数据帧输入至多任务识别模型中，通过多任务识别模型中的基础特征提取层，提取目标数据帧对应的图像基础特征；

特征输入单元，用于将图像基础特征输入至多任务识别模型中的卷积网络层，通过卷积网络层与图像基础特征，确定目标数据帧对应的图像嵌入特征，将图像嵌入特征确定为目标图像特征；

特征输入单元，还用于将图像基础特征输入至多任务识别模型中的图像类别预测层，通过图像类别预测层与图像基础特征，确定目标数据帧对应的目标图像类别；

特征输入单元，还用于将图像基础特征输入至多任务识别模型中的媒体类别预测层，通过媒体类别预测层与图像基础特征，确定目标媒体数据所属的目标媒体类别。

在一个实施例中，目标数据帧的数量为N个，N个目标数据帧中包括目标数据帧S_i，图像基础特征包括目标数据帧S_i对应的图像基础特征T_i，N、i均为正整数；

特征输入单元，包括：

类别确定子单元，用于通过媒体类别预测层与目标数据帧S_i对应的图像基础特征T_i，确定目标数据帧S_i对应的帧媒体类别；

帧归类子单元，用于当确定出N个目标数据帧分别对应的帧媒体类别时，按照N个帧媒体类别对N个目标数据帧进行归类处理，得到M个数据帧集合；每个数据帧集合中包含的目标数据帧所属的帧媒体类别为相同类别；M为正整数；

数量统计子单元，用于统计M个数据帧集合中，每个数据帧集合所分别包含的目标数据帧的数量，得到M个帧数量；

数量统计子单元，还用于在M个帧数量中获取最大帧数量，将最大帧数量对应的数据帧集合，确定为目标数据帧集合；

类别预测子单元，用于将目标数据帧集合中包含的目标数据帧所属的帧媒体类别，确定为目标媒体数据所属的目标媒体类别。

在一个实施例中，匹配参数集合中的每个配置匹配参数包括配置相似度阈值，目标匹配参数包括目标相似度阈值；

特征匹配模块包括：

相似度确定单元，用于确定目标图像特征分别与候选图像特征集合中，每个候选图像特征之间的特征相似度，得到特征相似度集合；

特征确定单元，用于将特征相似度集合中，大于目标相似度阈值的特征相似度，确定为目标特征相似度；

特征确定单元，还用于将目标特征相似度对应的候选图像特征，确定为与目标图像特征相匹配的匹配图像特征。

在一个实施例中，目标数据帧的数量为N个，目标数据帧对应的目标图像特征包括N个目标数据帧分别对应的目标图像特征，N为正整数；匹配图像特征的数量为Q个，Q个匹配图像特征由与N个目标图像特征分别相匹配的匹配图像特征组成，Q为正整数；

有效媒体确定模块包括：

特征分类单元，用于在待召回媒体数据集合中，获取Q个匹配图像特征分别所属的待召回媒体数据；

特征分类单元，还用于按照Q个匹配图像特征分别所属的待召回媒体数据，对Q个匹配图像特征进行特征分类，得到W个匹配特征集合；每个匹配特征集合中包含的匹配图像特征所属的待召回媒体数据为相同媒体数据；W个匹配特征集合中包括匹配特征集合R_j，W、j均为正整数；

特征数量统计单元，用于统计匹配特征集合R_j中包含的匹配图像特征的第一特征数量；

属性确定单元，用于根据第一特征数量以及N个目标图像特征，确定匹配特征集合R_j所指示的待召回媒体数据的召回属性；

有效媒体确定单元，用于在确定出W个匹配特征集合分别所指示的待召回媒体数据的召回属性时，将W个匹配特征集合分别所指示的待召回媒体数据中的召回属性为有效属性的待召回媒体数据，确定为有效召回媒体数据。

在一个实施例中，匹配特征集合R_j中包含的匹配图像特征包括第一匹配图像特征与第二匹配图像特征；

属性确定单元，还具体用于在N个目标图像特征中，获取与第一匹配图像特征相匹配的第一目标图像特征，以及与第二匹配图像相匹配的第二目标图像特征；

属性确定单元，还具体用于将第一目标图像特征与第二目标图像特征所包含的特征总数量，确定为第二特征数量；

属性确定单元，还具体用于根据第一特征数量、第二特征数量以及目标媒体数据，确定匹配特征集合R_j所指示的待召回媒体数据的召回属性。

在一个实施例中，属性确定单元包括：

时长获取子单元，用于获取匹配特征集合R_j所指示的待召回媒体数据所对应的第一媒体时长，以及目标媒体数据对应的第二媒体时长；

比值确定子单元，用于确定第一特征数量与第一媒体时长之间的第一比值，以及第二特征数量与第二媒体时长之间的第二比值；

属性确定子单元，用于若第一比值与第二比值中存在至少一个比值大于比值阈值，则将匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为有效属性；

属性确定子单元，还用于若述第一比值与第二比值均小于比值阈值，则将匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为无效属性。

在一个实施例中，有效召回媒体数据包括有效召回媒体数据K_a；a为正整数；匹配图像特征中包括有效召回媒体数据K_a对应的有效匹配图像特征集合；目标图像特征中包括有效目标图像特征集合，有效目标图像特征集合中包括与有效匹配图像特征集合中每个有效匹配图像特征相匹配的有效目标图像特征；目标数据帧中包括有效目标图像特征集合对应的有效目标数据帧集合；

数据处理装置还包括：

时间戳获取模块，用于获取有效目标数据帧集合中每个有效目标数据帧分别对应的帧时间戳；

帧排序模块，用于按照每个有效目标数据帧分别对应的帧时间戳的时间顺序，将有效目标数据帧集合进行排序，得到有效帧序列；

业务处理模块，用于将目标媒体数据中有效帧序列所指示的媒体片段确定为待比对片段；

业务处理模块，还用于根据待比对片段以及有效召回媒体数据K_a所属的媒体类别，对目标媒体数据以及有效召回媒体数据K_a进行媒体业务处理。

在一个实施例中，业务处理模块包括：

召回类别确定单元，用于将有效召回媒体数据K_a所属的媒体类别确定为召回媒体类别；

第一处理单元，用于若召回媒体类别的类别属性为私有资源属性，则在有效召回媒体数据K_a中获取有效匹配图像特征集合对应的有效媒体片段，将待比对片段与有效媒体片段进行比对分析处理，基于比对分析处理得到的分析结果生成异常警示信息，将异常警示信息发送至目标终端设备；目标终端设备为生成目标媒体数据的目标对象所对应的终端设备；异常警示信息用于提示目标对象基于分析结果对目标媒体数据进行修正；

第一处理单元，还用于若召回媒体类别的类别属性为共享资源属性，则在有效召回媒体数据K_a中获取有效匹配图像特征集合对应的有效媒体片段，确定有效媒体片段和待比对片段均匹配的媒体主题，向目标终端设备推送包含媒体主题的相似媒体数据。

在一个实施例中，数据处理装置还包括：

样本获取模块，用于获取样本图像三元组；样本图像三元组中包括目标样本图像、目标样本图像对应的第一相似样本图像以及目标样本图像对应的第二相似样本图像；

模型处理模块，用于将样本图像三元组输入至初始多任务识别模型中；

模型处理模块，还用于通过初始多任务识别模型，确定目标样本图像对应的第一样本图像嵌入特征、第一样本图像类别与第一样本目标媒体类别、第一相似样本图像对应的第二样本图像嵌入特征、第二样本图像类别与第二样本目标媒体类别、第二相似样本图像对应的第三样本图像嵌入特征、第三样本图像类别与第三样本目标媒体类别；

损失值确定模块，用于根据第一样本图像嵌入特征、第二样本图像嵌入特征、第三样本图像嵌入特征确定第一损失值；

损失值确定模块，还用于根据第一样本图像类别、第二样本图像类别以及第三样本图像类别确定第二损失值；

损失值确定模块，还用于根据第一样本目标媒体类别、第二样本目标媒体类别以及第三样本目标媒体类别确定第三损失值；

损失值确定模块，还用于根据第一损失值、第二损失值以及第三损失值生成目标损失值；

模型调整模块，还用于根据目标损失值对初始多任务识别模型进行调整，得到多任务识别模型。

在一个实施例中，样本获取模块包括：

样本集合获取单元，用于获取样本图像集合；样本图像集合中包括至少两个相似样本图像对，一个相似样本图像对中包含两个具有相似关系的样本图像；

图像组合单元，用于在至少两个相似样本图像对中，获取目标相似样本图像对；

图像组合单元，还用于在剩余相似样本图像对包含的样本图像中选择待运算样本图像；剩余相似样本图像对是指至少两个相似样本图像对中，除目标相似样本图像对以外的相似样本图像对；

图像组合单元，还用于根据待运算样本图像以及目标相似样本图像对，确定样本图像三元组。

在一个实施例中，图像组合单元包括：

图像相似度确定子单元，用于在目标相似样本图像对包含的样本图像中选择目标样本图像；

图像相似度确定子单元，还用于获取待运算样本图像对应的样本图像表示特征，以及目标样本图像对应的目标图像表示特征；

图像相似度确定子单元，还用于确定样本图像表示特征与目标图像表示特征之间的表示特征相似度；

三元组确定子单元，用于若表示特征相似度大于特征相似度阈值，则将剩余样本图像确定为目标样本图像对应的第一相似样本图像，将待运算样本图像确定为目标样本图像对应的第二相似样本图像，将目标样本图像、第一相似样本图像以及第二相似样本图像确定为样本图像三元组；剩余样本图像为目标相似样本图像对中除目标样本图像以外的样本图像。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的方法。

本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行本申请实施例中一方面提供的方法。

在本申请实施例中，为不同媒体类别与图像类别，配置了不同的匹配参数，从而配置得到一个参数映射表，该参数映射表中包含有一个配置媒体类别、一个配置图像类别与一个配置匹配参数之间的映射关系；其中，一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件。那么当在获取到目标媒体数据时，在针对该目标媒体数据的检索业务中，可以先识别该目标媒体数据的目标媒体类别、目标数据帧所对应的目标图像特征以及目标图像类别，随后即可在参数映射表中获取到该目标媒体类别与该目标图像类别共同指示的目标匹配参数，根据该目标匹配参数，即可在候选图像特征集合中查找与该目标图像特征相匹配的匹配图像特征，而该匹配图像特征与该目标图像特征之间是满足于该目标匹配参数所反映的匹配条件的；由于候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合，那么通过该匹配图像特征以及该目标图像特征，即可在待召回媒体数据集合中确定出有效召回媒体数据，该有效召回媒体数据即为检索到的针对该目标媒体数据的召回媒体数据。应当理解，本申请在媒体检索召回业务中，同时利用到媒体数据的媒体类别信息、媒体数据的数据帧的图像类别信息以及图像特征信息，通过为不同媒体类别以及不同图像类别配置不同的匹配参数，按照匹配参数可以查找到符合该图像类别下的匹配条件的匹配图像特征，进而可以找到符合匹配条件的召回媒体数据，也就是说可以实现针对不同媒体类别以及不同图像类别的针对性检索，可以很好地根据媒体数据的数据帧中所呈现的图像信息，进行更为精准的媒体检索召回，由此提升召回结果的准确性。综上，本申请可以在媒体数据的检索业务中，基于不同媒体类别、图像类别进行针对性检索，提高检索准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2a是本申请实施例提供的一种进行媒体排重处理的场景示意图；

图2b是本申请实施例提供的一种进行媒体排重处理的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种模型训练的流程示意图；

图5是本申请实施例提供的一种确定目标损失值的架构图；

图6是本申请实施例提供的一种***架构图；

图7是本申请实施例提供的一种数据处理装置的结构示意图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及人工智能等相关技术，为便于理解，以下将优先对人工智能等相关概念进行阐述说明。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision, CV)和机器学习((Machine Learning, ML)。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请的方案具体涉及计算机视觉技术中的图像识别技术，可以实现对图像进行图像识别处理，以基于图像识别结果进行后续处理；本申请的方案还具体涉及机器学习，可以实现对模型进行训练，使得训练后的模型能够更为准确的进行图像识别处理。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器1000和终端设备集群。该终端设备集群可以包括一个或者多个终端设备。如图1所示，该终端设备集群具体可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n。如图1所示，终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与上述服务器1000进行网络连接，以便于每个终端设备可以通过该网络连接与服务器1000进行数据交互。其中，这里的网络连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本申请在此不做限制。

其中，该终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视、智能车载等具有图像识别以及媒体检索功能的智能终端。应当理解，如图1所示的终端设备集群中的每个终端设备均可以安装有目标应用(即应用客户端)，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的服务器1000之间进行数据交互。其中，该应用客户端可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、教育客户端、直播客户端等应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。

如图1所示，本申请实施例中的服务器1000可以为该应用客户端对应的服务器。该服务器1000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中，本申请实施例将不对终端设备和服务器的数量进行限制。

为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如，本申请实施例可以将图1所示的终端设备100a作为目标终端设备，该目标终端设备中可以集成有目标应用(即应用客户端)。此时，该目标终端设备可以通过该应用客户端对应的业务数据平台与服务器1000之间实现数据交互。其中，这里的目标应用可以运行有已经训练完成的多任务识别模型，该多任务识别模型可以为用于对目标数据帧进行图像识别的神经网络模型，通过该多任务识别模型可以预测某个媒体数据（可称之为目标媒体数据，如某个视频）所属的媒体类别（如生活类别、影视综艺类别、演唱会类别等等）、该媒体数据的数据帧对应的图像类别（即该数据帧包含的图像内容对应的图像类别，如动物类别、人物类别、文本类别等等）、该数据帧对应的图像特征（即用于表征该数据帧的图像内容的表示特征），基于多任务识别模型所识别的目标媒体数据的媒体类别、该目标媒体数据的某个数据帧（可称之为目标数据帧）的图像类别（可称之为目标图像类别）以及图像特征（可称之为目标图像特征），可以进行媒体数据检索处理，以检索该目标媒体数据中是否存在足够时长的媒体片段，与已有的媒体数据中的媒体片段相同（也可以理解为，对媒体数据进行媒体排重处理）。

可以理解的是，在进行媒体数据检索处理时，本申请可以采用比对两个媒体数据的数据帧的方式，来进行检索处理。以目标媒体数据为例，若要比对目标媒体数据与某个媒体数据（可称之为待比对媒体数据或待召回媒体数据）是否存在足够长的相同媒体片段（即，确定这两个媒体数据是否为雷同媒体数据），则可以分别获取到这两个媒体数据的数据帧，再将这两个媒体数据的数据帧进行比对。其中，在比对两个数据帧时，本申请可以识别得到两个数据帧分别对应的图像特征（如embedding特征），再计算两个图像特征之间的距离（如欧式距离），若两个图像特征之间的距离足够小（如小于距离阈值），则可以表明这两个数据帧是相似数据帧。应当理解，在两个媒体数据有足够多的数据帧（如大于数量阈值的数据帧）为相似数据帧时，则可以表明这两个媒体数据为有一定长的媒体片段为相似片段（或重复片段）。而由于各个数据帧所包含的图像内容具备多样性，单一的图像特征（如embedding特征）在不同的数据帧上所能表征的能力存在差异，如针对包含文本内容、细粒度对象（如脸部）等图像，单一的图像特征无法很好地表征这些图像内容，从而影响比对准确性，进而影响媒体检索的准确性。

为了提高比对准确性从而提高媒体排重（或称之为媒体检索）的准确性，本申请涉及一种数据处理方法（即媒体排重方法，也可称之为媒体检索方法或媒体比对方法），可以为不同的媒体类别与不同的图像类别配置不同的匹配参数，一个匹配参数用于反映具有对应媒体类别和对应图像类别的数据帧的图像特征的匹配条件，也就是说，对于两个数据帧，其图像特征只有在满足该匹配参数所指示的匹配条件时，才会确定为其为相似的。具体的，以目标媒体数据为例，在识别得到目标媒体数据的目标媒体类别、目标数据帧所属的目标图像类别以及目标图像特征时，可以获取到目标媒体类别与该目标图像类别共同指示的目标匹配参数，基于该目标匹配参数，即可在候选图像特征集合（由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合）中查找到与该目标图像特征相匹配的匹配图像特征；根据该匹配图像特征与该目标图像特征，可以进一步地在待召回媒体数据集合中确定出有效召回媒体数据。该有效召回媒体数据即为通过本申请的方法所检索到的，与该目标媒体数据存在大量雷同内容（相同媒体片段或相似媒体片段）的媒体数据。可以理解的是，本申请实施例通过为不同媒体类别与不同图像类别配置匹配参数，可以为不同媒体类别与不同图像类别提供定制化的检索，充分考虑到不同数据帧上的图像内容，实现针对不同图像保证效果的检索准确率提升，同时满足不同的媒体类别的检索需求，在兼顾图像特征的表征能力的同时，可以充分考虑媒体类别的检索需求，能够很好地提升媒体比对准确率。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端设备或服务器。其中，终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，可以理解的是，上述计算机设备（如上述服务器1000、终端设备100a、终端设备100b等等）可以是一个分布式***中的一个节点，其中，该分布式***可以为区块链***，该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中，节点之间可以组成的点对点（P2P，Peer To Peer）网络，P2P 协议是一个运行在传输控制协议（TCP，Transmission Control Protocol ）协议之上的应用层协议。在分布式***中，任意形式的计算机设备，比如服务器、终端设备等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。为便于理解，以下将对区块链的概念进行说明：区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式，主要用于对数据按时间顺序进行整理，并加密成账本，使其不可被篡改和伪造，同时可进行数据的验证、存储和更新。当计算机设备为区块链节点时，由于区块链的不可被篡改特性与防伪造特性，可以使得本申请中的数据（如上传的目标媒体数据、识别到的目标媒体数据的目标媒体类别、目标数据帧的目标图像特征以及目标图像类别等等）具备真实性与安全性，从而可以使得基于这些数据进行相关数据处理后，得到的结果更为可靠。

需要说明的是，在本申请的具体实施方式中，涉及到用户信息、用户数据（如上传的图像、媒体数据等）等相关的数据，需要经过用户授权许可才能进行获取。也就是说，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例可应用于各种场景，包括但不限于音视频、云技术、人工智能、智慧交通、辅助驾驶等。为便于理解，请参见图2a，图2a是本申请实施例提供的一种进行媒体排重处理的场景示意图。如图2a所示的场景是以媒体数据为视频数据、媒体数据的数据帧为视频帧、媒体数据所属的媒体类别为视频类别为例进行说明，其中，如图2a所示的服务器200可以为上述服务器1000，且如图2a所示的终端设备100a可以为在上述图1所对应实施例的终端设备集群中所选取的任意一个终端设备，比如，该终端设备可以为上述终端设备100a。

如图2a所示，对象a（比如用户a）在使用终端设备中的目标应用（如视频客户端）时，对象a通过该视频客户端上传了一个视频数据（如图2a所示的视频数据1，该视频数据1即可作为目标视频数据），服务器200可以获取到该对象a上传的视频数据1。进一步地，服务器200可以按照预设的抽帧参数（抽帧参数可以是指每隔一段时间的抽帧数量，例如，抽帧参数可为每秒均匀抽取1帧、每秒均匀抽取2帧、每0.5秒均匀抽取1帧等等，这里将不再一一进行举例描述），对该视频数据1进行抽帧处理（抽帧后所得到的视频帧即可称之为该视频数据1的目标视频帧）。这里假设视频数据1的视频帧按照时间早晚顺序的排列序列为{视频帧1，视频帧2，视频帧3，…，视频帧n}，假设抽帧参数为每秒均匀抽取1帧，按照抽帧参数对视频数据1进行抽帧后，得到的视频帧为视频帧1、视频帧3、视频帧5、…、视频帧n（这里是以抽取出的视频帧1、视频帧3、视频帧5、…、视频帧n为例进行说明，仅是为便于理解所进行的举例说明，其并不具备实际参考意义）。

进一步地，服务器200可以将抽帧得到的各个视频帧，分别输入至多任务识别模型，通过该多任务识别模型可以识别得到每个视频帧分别对应的视频类别、图像类别以及图像特征（这里的图像特征可以是指embedding特征），对于通过多任务识别模型识别每个视频帧分别对应的视频类别、图像类别以及图像特征的具体实现方式，可以参见后续图3所对应实施例中的描述。如图2a所示，识别的视频帧1对应的视频类别为视频类别1、图像类别为图像类别2；视频帧3对应的视频类别为视频类别2、图像类别为图像类别3；…；视频帧n对应的视频类别为视频类别1、图像类别为图像类别1。进一步地，服务器200可以按照各个视频帧对应的视频类别，确定出该视频数据1所属的视频类别。例如，可以在这些视频帧中，统计每个视频类别下，包含的视频帧的总数量，再选择出具有最大总数量的视频类别作为该视频数据1所属的视频类别。例如，视频帧1、视频帧3、…、视频帧n中存在10个视频帧的视频类别都为视频类别1、存在3个视频帧的视频类别都为视频类别2、存在4个视频帧的视频类别都为视频类别3，那么最大总数量即为10，则可以将该视频数据1所属的视频类别确定为视频类别1。

进一步地，服务器200根据视频数据1的视频类别1以及每一个视频帧的图像类别，在数据库中查找到与每个视频帧相似的视频帧。其具体为：服务器200可以获取到参数映射表20，其中，该参数映射表20中包含有视频类别集合、图像类别集合与匹配参数集合之间的映射关系，应当理解，本申请可以为不同视频类别下的不同图像类别，配置一个匹配参数，作为某个视频帧的图像特征的匹配条件，对于该视频帧，当要确定另一个视频帧是否与该视频帧为相似视频帧时，可以获取到两个视频帧的图像特征，在两个图像特征满足该匹配条件时，即可确定这两个视频帧为相似视频帧。

为便于理解，以视频帧1为例，服务器200可以提取得到视频帧1对应的图像特征（该图像特征可为embedding特征，假设为图像特征1）；由于该视频帧1对应的图像类别为图像类别2，那么服务器200可在参数映射表20中，获取到视频类别1（视频数据1所属的视频类别）下的图像类别2所对应的匹配参数（该匹配参数为匹配参数2），服务器200可以按照该匹配参数2所指示的匹配条件，将视频帧1对应的图像特征1，与数据库中已有的图像特征（可称之为库存图像特征，每个库存图像特征为已有的各个视频的各个视频帧所对应的图像特征，其中，已有的各个视频可称之为待召回视频数据，也可称之为库存视频数据），逐一进行特征匹配，从而可以查找到与图像特征1之间，是满足匹配条件的库存图像特征，而这些满足匹配条件的库存图像特征所对应的库存视频帧，即为与该视频帧1相似的视频帧。

为便于理解，请一并参见图2b，图2b是本申请实施例提供的一种进行媒体排重处理的场景示意图。如图2b所示，以视频帧1的图像特征为图像特征1、视频帧3的图像特征为图像特征3、…、视频帧n的图像特征为图像特征n为例，通过上述可知，可以按照视频类别1下不同图像类别所对应的匹配参数，确定出每个视频帧对应的相似视频帧，这里以与图像特征1匹配上（即满足其匹配参数对应的匹配条件）的库存图像特征包括库存图像特征1与库存图像特征3、与图像特征3匹配上的库存图像特征包括库存图像特征3、…、与图像特征n匹配上的库存图像特征包括库存图像特征2为例，可以获取到每个匹配上的库存图像特征分别对应的视频数据（可称之为库存视频数据），如图2b所示，具体可以包括库存视频数据1、…、库存视频数据2。进一步地，本申请可以根据各个匹配上的库存图像特征以及视频数据1的各个视频帧（视频帧1、视频帧3、…、视频帧n）的图像特征，在库存视频数据1、…、库存视频数据2中确定出针对于视频数据1的有效召回视频数据，该有效召回视频数据即为与视频数据1存在一定长的重复视频片段（或相似视频片段）的视频数据。其中，对于匹配上的库存图像特征与图像特征，确定出有效召回视频数据的具体实现方式，可以参见后续图3所对应实施例中的描述。

进一步地，服务器200可以根据这些有效召回视频数据所属的不同视频类别，来进行相应的视频业务处理。例如，在有效召回视频数据中，包括有视频类别为影视综艺类别的视频数据，该视频类别是禁止抄袭、受版权保护的类别，那么服务器200可以生成一个异常警示信息并将之发送至终端设备100a，其中，该异常警示信息可以用于提示对象a，该视频数据1中存在部分视频内容与该影视综艺类别的有效召回视频数据相似，该视频数据1为异常视频，对象a应及时对该视频数据1进行相应处理。而对象a可以在该终端设备100a的显示界面中查看到该异常警示信息，且可以根据该异常警示信息进行相应处理（如删除该视频数据1，或将该视频数据1中与有效召回视频数据相似的视频片段进行删除）。

应当理解，本申请实施例在对视频进行检索排重时，可以配置不同视频类别、不同图像类别的定制化检索，在检索时可以同时利用到不通视频的视频类别信息、不同视频帧的不同图像类别信息，即使各个视频帧包含的图像内容呈多样性，也能通过不同图像类别的匹配参数来针对性的检索，由此可以很好地提升视频检索排重的准确性。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示，该方法可以由终端设备（例如，上述图1的终端设备）执行，也可以由服务器（例如，上述图1的服务器）执行，还可以由终端设备和服务器共同执行。为便于理解，本实施例以该方法由上述服务器执行为例进行说明，以阐述在服务器中进行媒体数据处理的具体过程。其中，该方法至少可以包括以下步骤S101-步骤S104：

步骤S101，获取目标媒体数据对应的目标数据帧，识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别。

本申请中，媒体数据可以包括视频数据、音乐数据、文本数据等等，该目标媒体数据可以是指待比对媒体数据，其可以为某个对象通过终端设备中的目标应用所上传的某个媒体数据（如某个视频），在媒体检索业务（或称之为媒体排重业务）中，为保护媒体数据的原创者的权益，对于各个上传的媒体数据，需要判定其是否存在与其他媒体数据相似甚至相同的媒体片段，若其存在一定时长的媒体片段与其他已有的媒体数据相似甚至相同，那么该媒体数据即为雷同媒体数据，需要对该媒体数据进行相应处理（如将该媒体数据进行隐藏显示或删除处理）。

可以理解的是，对于某个媒体数据，当在判定其是否为雷同媒体数据时，可以将其作为待判定媒体数据，该待判定媒体数据即为本申请中的目标媒体数据。对于目标媒体数据，本申请需要从数据库中，查找是否存在与之存在相似媒体数据（是否存在与之具有相似媒体片段或相同媒体片段的媒体数据），若存在，则该数据库中的相似媒体数据即可作为该目标媒体数据的召回媒体数据。

本申请中，对于媒体数据的检索排重，主要基于媒体数据的数据帧来进行，那么获取到目标媒体数据后，本申请可以获取到目标媒体数据的目标数据帧，再基于目标数据帧来对目标媒体数据进行检索排重处理。其中，本申请可以将目标媒体数据的每个数据帧均确定为目标数据帧；也可以按照预设的抽帧参数对目标媒体数据的数据帧进行抽帧处理以提高检索效率，抽取得到的数据帧即可作为目标媒体数据的目标数据帧。其中，抽帧参数可以包括按照一定时间的抽帧数量，例如，抽帧参数可以为每秒抽取3帧、每秒抽取1帧、每0.5秒抽取1帧等等，这里将不再进行一一举例说明。

本申请中，在获取到目标媒体数据的目标数据帧后，可以识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别，其中，媒体类别可以是指该某个媒体数据所属的媒体类型、媒体种类等，其可以包括日常生活类别、影视综艺类别、竞技类别、演唱会类别、比赛类别、游戏类别、直播类别等等；图像类别可以是指某个数据帧包含的图像内容所属的图像类型，其可以包括人物类别、动物类别、建筑物类别、文本类别、音乐类别等等，图像特征可以是指图像嵌入特征（embedding特征）。应当理解，本申请中的媒体类别与图像类别是两种不同角度的类别，媒体类别可以由媒体数据中的各个对象所呈现的行为来确定（例如，媒体数据为某个对象的演唱会现场，该对象呈现唱歌行为，观众这些对象呈现挥舞荧光棒行为以及嘶喊跟唱行为，则该媒体数据的媒体类别即可为演唱会类别），在一定程度上，该媒体类别能够反映该媒体数据所呈现的事件（如比赛事件、演唱会事件等等），而图像类别可以由媒体数据的某个数据帧上所包含的对象的对象类别来确定，如某个数据帧的图像内容为某只小狗在奔跑，该小狗这个对象的对象类别为动物类别，则该数据帧的图像类别即可为动物类别，实际上，某个数据帧的图像类别一定程度上能够反映该数据帧的属性。当然，以上仅是为便于理解举例描述了媒体类别与图像类别的差异，并不代表媒体类别与图像类别仅受限于此。

在本申请中，对于目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别的识别，可以通过多任务识别模型进行识别，其具体实现方式可为：可以将目标数据帧输入至多任务识别模型中，通过多任务识别模型中的基础特征提取层，可以提取目标数据帧对应的图像基础特征；随后，可以将图像基础特征输入至多任务识别模型中的卷积网络层，通过卷积网络层与图像基础特征，可以确定目标数据帧对应的图像嵌入特征，可以将图像嵌入特征确定为目标图像特征；同时，可以将图像基础特征输入至多任务识别模型中的图像类别预测层，通过图像类别预测层与图像基础特征，可以确定目标数据帧对应的目标图像类别；将图像基础特征输入至多任务识别模型中的媒体类别预测层，通过媒体类别预测层与图像基础特征，可以确定目标媒体数据所属的目标媒体类别。

其中，以目标数据帧的数量为N个，N个目标数据帧中包括目标数据帧S_i，上述图像基础特征包括该目标数据帧S_i对应的图像基础特征T_i（N、i均为正整数）为例，对于通过媒体类别预测层与图像基础特征，确定目标媒体数据所属的目标媒体类别的具体实现方式可为：通过媒体类别预测层与目标数据帧S_i对应的图像基础特征T_i，可以确定目标数据帧S_i对应的帧媒体类别；按照确定目标数据帧S_i对应的帧媒体类别的方式，也可以确定出N个目标数据帧中除目标数据帧S_i以外的其他目标数据帧的帧媒体类别，当确定出N个目标数据帧分别对应的帧媒体类别时，可以按照N个帧媒体类别对N个目标数据帧进行归类处理，得到M个数据帧集合；其中，每个数据帧集合中包含的目标数据帧所属的帧媒体类别为相同类别；M为正整数；随后，可以统计M个数据帧集合中，每个数据帧集合所分别包含的目标数据帧的数量，得到M个帧数量；可以在M个帧数量中获取最大帧数量，随后即可将最大帧数量对应的数据帧集合，确定为目标数据帧集合；进一步地，可以将目标数据帧集合中包含的目标数据帧所属的帧媒体类别，确定为目标媒体数据所属的目标媒体类别。

可以理解的是，对于目标媒体数据所属的目标媒体类别的识别，通过本申请中的多任务识别模型，可以识别每个目标数据帧的媒体类别（可称之为帧媒体类别），随后，可以将N个目标数据帧中属于同一帧媒体类别的目标数据帧，划分到一个集合中（即数据帧集合），可以统计每个数据帧集合中包含的目标数据帧的数量，得到帧数量，可将最大帧数量对应的数据帧集合，确定为目标数据帧集合，而该目标数据帧集合包含的目标数据帧所属的帧媒体类别，即可为该目标媒体数据所属的目标媒体类别。

可以理解的是，本申请中的多任务识别模型可以是基于样本图像数据库所训练得到的模型，该样本图像数据库可以为一个用于视觉对象识别软件研究的大型可视化数据库。可选的，该多任务识别模型还可以为开源的模型，例如，该多任务识别模型可以为Imagenet预训练模型，该Imagenet预训练模型是一种基于大型通用物体识别开源数据集(例如，imagenet数据集)所训练的深度学习网络模型。可以理解的是，本申请中的多任务识别模型可以包括多个识别网络，其分别可以包括基础特征识别网络（即对应于基础特征提取层，具体可以为一个卷积网络）、embedding特征识别网络（即对应于卷积网络层）、媒体类别识别网络（对应于媒体类别预测层）以及图像类别识别网络（即对应于图像类别预测层），这四个识别网络均可以为卷积神经网络（Convolutional Neural Network，CNN），但四个CNN的网络结构均不同。对于embedding特征识别网络、媒体类别识别网络以及图像类别识别网络，三个识别网络可以共享同一个底层特征（也可称之为基础特征，即通过基础特征识别网络所提取得到的图像基础特征），通过三个识别网络共享同一个底层特征，再由不同的三个分支识别网络分别输出不同的识别结果输出的方式，可以很好地降低模型推理资源。其中，本申请可以采用开源的Imagenet预训练初始多任务识别模型中的残差网络(例如，ResNet-101)，该预训练得到的残差网络即可作为初始多任务识别模型中的基础特征提取网络。随后，在基于样本图像对初始多任务识别模型进行训练后，即可得到用于执行图像识别任务的多任务识别模型。

进一步地，为便于理解，请一并参见表1，表1是本申请实施例提供的一种残差网络结构示意表。其中，该残差网络结构示意表为ResNet-101的网络结构，该表1中可以包括卷积层(Layer name)、输出图像尺寸(Output size)以及每一个卷积层中的卷积信息。如表1所示，残差网络结构示意表中可以包括7个卷积网络层，具体可以包括卷积网络层1(例如，Conv1)、卷积网络层2(例如，Conv2_x)、卷积网络层3(例如，Conv3_x)、卷积网络层4(例如，Conv4_x)、卷积网络层5(例如，Conv5_x)、卷积网络层6(例如，Pool_cr1，也可称之为Maxpool，即池化层)。其中，残差网络中的101层网络是指各个卷积网络层的层数，而并未计算激活层或者池化层。

如表1所示，卷积网络层1中具有64个7x7的卷积，且步幅为2。而卷积网络层2、卷积网络层3、卷积网络层4以及卷积网络层5均为一种残差块(blocks)，例如，卷积网络层2中包括一个最大池化层(步幅为2的3x3的池化层)以及3个残差块，且每个残差块均包括3层，具体可以包括64个1x1的卷积、64个3x3的卷积、256个1x1的卷积。如表1所示：

表1

为便于理解，请一并参见表2，表2是本申请实施例提供的一种embedding特征识别网络的结构示意表。其中，该表2中可以包括卷积层(Layer name)、输出图像尺寸(Outputsize)以及每一个卷积层的具体含义（即卷积含义，Layer）。如表2所示，embedding特征识别网络结构示意表中可以包括1个嵌入特征层（Embedding层），其具体可以为卷积网络层（例如，full connection，即全连接层）。如表2所示：

表2

为便于理解，请一并参见表3，表3是本申请实施例提供的一种媒体类别识别网络的结构示意表。其中，该表3中可以包括卷积层(Layer name)、输出图像尺寸(Output size)以及每一个卷积层的具体含义（即卷积含义，Layer）。如表3所示，媒体类别识别网络结构示意表中可以包括1个Fc1层，其具体可以为卷积网络层（例如，full connection，即全连接层）。该Fc1层具体可以输出媒体分类类别，Nclass1为媒体类别分类数量（如表3所示的数量1）。如表3所示：

表3

为便于理解，请一并参见表4，表4是本申请实施例提供的一种图像类别识别网络的结构示意表。其中，该表4中可以包括卷积层 (Layer name)、输出图像尺寸(Outputsize)以及每一个卷积层的具体含义（即卷积含义，Layer）。如表4所示，媒体类别识别网络结构示意表中可以包括1个Fc2层，其具体可以为卷积网络层（例如，full connection，即全连接层）。该Fc2层具体可以输出图像分类类别，Nclass2为图像类别分类数量（如表4所示的数量2）。如表4所示：

表4

需要说明的是，上述如表1-表4所示的网络结构，仅是举例描述了一种可行的网络结构，各个识别网络结构当然也可以采用其他结构，如对于表2-表4的结构，也可以采用在最终输出前采用多个Relu激活的全连层堆叠的结构等，对于网络结构，本申请将不对其进行具体限制。

步骤S102，在参数映射表中，获取目标媒体类别以及目标图像类别共同指示的目标匹配参数；参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，配置媒体类别集合中的一个配置媒体类别、配置图像类别集合中的一个配置图像类别与匹配参数集合中的一个配置匹配参数之间存在映射关系；一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件。

本申请中，可以为不同的媒体类别与不同的图像类别，配置不同的匹配参数，由此可以得到参数映射表。其中，为某个媒体类别与某个图像类别配置匹配参数时，每个匹配参数用于反映一个匹配条件，当为某个媒体类别与某个图像配置匹配参数时，该媒体类别即可称之为配置媒体类别，该图像类别可称之为配置图像类别，所配置的匹配参数可称之为配置匹配参数。通过配置后，即可得到一个参数映射表，该参数映射表中包括有为各个媒体类别与各个图像类别所配置的匹配参数，本申请可以在为某个媒体类别与某个图像类别配置匹配参数后，可以确定该匹配参数与该媒体类别与该图像类别具有映射关系，那么该参数映射表即可包括配置媒体类别集合、图像类别集合与匹配参数集合之间的映射关系，且一个配置媒体类别、一个图像类别与一个匹配参数之间存在映射关系。

可以理解的是，通过上述可知，本申请在比对两个媒体数据是否为相似媒体数据时，可以基于媒体数据的数据帧来进行比对，而具体的，本申请可以基于数据帧的图像特征来进行比对。具体的，若要比对两个数据帧是否相似，可以确定两个数据帧之间的图像特征的相似度，若相似度大于相似度阈值，则可以将这两个数据帧确定为相似数据帧。那么相应的，本申请中的每个配置匹配参数可以包括配置相似度阈值，该配置相似度阈值即可用于反映具有其对应的媒体类别与图像类别的视频帧的图像特征的匹配条件（如大于该配置相似度阈值），只有两个图像特征之间的相似度大于该配置相似度阈值时，才可以确定两个图像特征匹配上了（为相似图像特征），其对应的两个数据帧为相似数据帧。其中，本申请可以确定两个图像特征之间的欧式距离，根据该欧式距离即可确定两个图像特征之间的相似度，欧式距离越大，表示两个图像特征之间越不相似；那么相应的，该配置匹配参数可以包括距离阈值，该配置匹配参数反映的匹配条件可为（两个图像特征之间的欧式距离小于该距离阈值时，确定两个图像可以匹配上）。

需要说明的是，通过上述可知，多任务识别模型可以识别每一个目标数据帧对应的帧媒体类别，但是当根据每个目标数据帧的帧媒体类别确定出目标媒体数据所属的目标媒体类别时，本申请可以将所有目标数据帧所属的帧媒体类别，均调整为该目标媒体类别（即每个目标数据帧所对应的帧媒体类别均为该目标媒体类别，在使用匹配参数时，也是该目标媒体类别来确定某个目标数据帧的匹配参数）。

步骤S103，根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征；候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合。

本申请中，以匹配参数集合中的每个配置匹配参数包括配置相似度阈值，目标匹配参数包括目标相似度阈值为例，对于根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征的具体实现方式可为：可以确定目标图像特征分别与候选图像特征集合中，每个候选图像特征之间的特征相似度，由此可以得到特征相似度集合；随后，可以将特征相似度集合中，大于目标相似度阈值的特征相似度，确定为目标特征相似度；可以将目标特征相似度对应的候选图像特征，确定为与目标图像特征相匹配的匹配图像特征。

其中，对于特征相似度，可以基于目标图像特征与候选图像特征之间的欧式距离所确定，一个欧式距离可以指示一个特征相似度，欧式距离越大，特征相似度越小；特征相似度还可以基于目标图像特征与候选图像特征之间的余弦相似度所确定，可以余弦相似度可以基于目标图像特征与候选图像特征的表示向量所确定。对于特征相似度的具体确定方式，本申请不进行限制。

需要说明的是，本申请可以预先构建一个媒体数据检索库（也可称之为数据库），对于当前已经获取到的媒体数据（可由对象上传，该媒体数据可包括版权受保护的媒体数据，也可包括版权公开的媒体数据），可以将之存放至媒体数据检索库中作为库存媒体数据（也可称之为待召回媒体数据），而对于每个待召回媒体数据，可以获取到其对应的数据帧的图像特征（embedding特征）、每个数据帧的图像类别以及待召回媒体数据所属的媒体类别，可以一并将每个待召回媒体数据的多个图像特征、每个数据帧对应的图像类别（实际上也可理解为每个图像特征对应的图像类别）、以及待召回媒体数据所属的媒体类别均存放至媒体数据检索库中，并将每个待召回媒体数据的多个图像特征、每个数据帧对应的图像类别待召回媒体数据所属的媒体类别分别与该待召回媒体数据之间建立一个索引关系，由此，获取到某个信息时，即可根据该索引关系索引到其他信息。同时，对于每个待召回媒体数据，也可以将其每个图像特征所对应的数据帧的时间戳（如在媒体数据的第几秒）、以及该待召回媒体数据的总媒体时长一并存放至媒体数据检索库中，以便于后续处理。需要说明的是，当某个待召回媒体数据的多个图像特征、每个数据帧对应的图像类别（实际上也可理解为每个图像特征对应的图像类别）、以及待召回媒体数据所属的媒体类别均存放至媒体数据检索库中后，其图像特征可以称之为库存图像特征或候选图像特征，其图像类别可称之为库存图像类别，其媒体类别可称之为库存媒体类别。而本申请中的候选图像特征集合即可为各个待召回媒体数据分别对应的候选图像特征所组成的集合。

步骤S104，根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据。

本申请中，通过上述可知，一个目标数据帧对应的目标图像特征，可以匹配上一个或多个库存图像特征，即一个目标图像特征可以与一个或多个匹配图像特征相匹配上，那么这里将以目标数据帧的数量为N个，目标数据帧对应的目标图像特征包括N（N为正整数）个目标数据帧分别对应的目标图像特征（即包括N个目标图像特征），匹配图像特征的数量为Q（Q为正整数）个，Q个匹配图像特征由与N个目标图像特征分别相匹配的匹配图像特征组成为例，对确定有效召回媒体数据的具体方式进行说明。对于根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据的具体实现方式可为，可以在待召回媒体数据集合中，获取Q个匹配图像特征分别所属的待召回媒体数据；随后，可以按照Q个匹配图像特征分别所属的待召回媒体数据，对Q个匹配图像特征进行特征分类，由此可以得到W个匹配特征集合；其中，每个匹配特征集合中包含的匹配图像特征所属的待召回媒体数据为相同媒体数据；这里以W个匹配特征集合中包括匹配特征集合R_j（W、j均为正整数）为例；可以统计匹配特征集合R_j中包含的匹配图像特征的特征数量（可称之为第一特征数量），根据第一特征数量以及N个目标图像特征，即可确定匹配特征集合R_j所指示的待召回媒体数据的召回属性（其中，匹配特征集合R_j所指示的待召回媒体数据，即为匹配特征集合R_j中包含的匹配图像特征所属的待召回媒体数据）；同理，按照确定匹配特征集合R_j所指示的待召回媒体数据的召回属性的方式，可以确定出W个匹配特征集合中，除匹配特征集合R_j以外的其他各个匹配特征集合分别所指示的待召回媒体数据的召回属性，在确定出W个匹配特征集合分别所指示的待召回媒体数据的召回属性时，可以将W个匹配特征集合分别所指示的待召回媒体数据中的召回属性为有效属性的待召回媒体数据，确定为有效召回媒体数据。

其中，以匹配特征集合R_j中包含的匹配图像特征包括第一匹配图像特征与第二匹配图像特征为例，对于根据第一特征数量以及N个目标图像特征，确定匹配特征集合R_j所指示的待召回媒体数据的召回属性的具体实现方式可为：可以在N个目标图像特征中，获取与第一匹配图像特征相匹配的第一目标图像特征，以及与第二匹配图像相匹配的第二目标图像特征；随后，可以将第一目标图像特征与第二目标图像特征所包含的特征总数量，确定为第二特征数量；根据第一特征数量、第二特征数量以及目标媒体数据，可以确定匹配特征集合R_j所指示的待召回媒体数据的召回属性。

其中，对于根据第一特征数量、第二特征数量以及目标媒体数据，确定匹配特征集合R_j所指示的待召回媒体数据的召回属性的具体实现方式可为：可以获取匹配特征集合R_j所指示的待召回媒体数据所对应的第一媒体时长，以及目标媒体数据对应的第二媒体时长；随后，可以确定第一特征数量与第一媒体时长之间的第一比值，以及第二特征数量与第二媒体时长之间的第二比值；若第一比值与第二比值中存在至少一个比值大于比值阈值，则可以将匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为有效属性；而若述第一比值与第二比值均小于比值阈值，则可以将匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为无效属性。

可以理解的是，当确定出Q个匹配图像特征时，可以在上述媒体数据检索库中，按照索引关系获取到Q个匹配图像特征分别所属的待召回媒体数据（可称之为初始召回媒体数据），而根据各个匹配图像特征所属的待召回媒体数据，可以统计出每个初始召回媒体数据被匹配上了多少个图像特征（embedding特征）。其具体统计方式即可为，可以按照Q个匹配图像特征分别所属的待召回媒体数据，对所述Q个匹配图像特征进行特征分类，即将属于同一个待召回媒体数据的匹配图像特征划分到一个匹配特征集合中，由此可以得到W个匹配特征集合，而一个匹配特征集合中包含的匹配图像特征的特征总数量，即为某个初始召回媒体数据被匹配上的图像特征的数量。对于某个初始召回媒体数据（如匹配特征集合R_j所指示的待召回媒体数据），可以根据其被匹配上的匹配图像特征的特征总数量（可称之为第一特征数量），以及N个目标图像特征来进一步确定其是否为有效召回媒体数据。

具体的，这里为便于阐述，将匹配特征集合R_j所指示的待召回媒体数据称之为初始媒体数据U，本申请可以在N个目标图像特征中，获取到与该初始媒体数据U的各个匹配图像特征所匹配上的目标图像特征（如上述第一目标图像特征与第二目标图像特征）。例如，初始媒体数据U的匹配图像特征包括匹配图像特征1、匹配图像特征5、匹配图像特征9，而在N个目标图像特征中，与匹配图像特征1匹配上的目标图像特征为目标图像特征1、与匹配图像特征5匹配上的目标图像特征也为目标图像特征1、与匹配图像特征9匹配上的目标图像特征为目标图像特征3，那么获取到的与该初始媒体数据U的各个匹配图像特征所匹配上的目标图像特征即可包括目标图像特征1与目标图像特征3。可以统计出所匹配上的目标图像特征的特征总数量为2，该特征总数量即可为第二特征数量。可以在媒体数据检索库中获取到初始媒体数据U的总媒体时长（该总媒体时长可称之为第一媒体时长），也可以获取到目标媒体数据的总媒体时长（该总媒体时长可称之为第二媒体时长），可以根据上述第一特征数量与初始媒体数据U的总媒体时长，确定初始媒体数据U的召回帧数比例（即第一比值，第一特征数量/第一媒体时长），还可以根据上述第二特征数量与目标媒体数据的总媒体时长，确定目标媒体数据的召回帧数比例（即第二比值，第二特征数量/第二媒体时长）。若第一比值大于比值阈值（可为认为预设值）且第二比值大于比值阈值，则可以表示该初始媒体数据U的召回属性为有效属性，即初始媒体数据U为有效召回媒体数据。若第一比值大于比值阈值（可为认为预设值）且第二比值小于比值阈值，也可以表示该初始媒体数据U的召回属性为有效属性，即初始媒体数据U为有效召回媒体数据；若第一比值小于比值阈值（可为认为预设值）且第二比值大于比值阈值，也可以表示该初始媒体数据U的召回属性为有效属性，即初始媒体数据U为有效召回媒体数据。

应当理解，通过上述不同媒体类别、不同图像类别的定制化匹配参数，可以实现为不同图像类别进行针对性地媒体检索排重，可以很好地提高检索召回结果的准确性；同时，即使存在新型的媒体类别或图像类别，也能快速的为该媒体类别以及该图像类别进行匹配参数的配置并快速更新参数映射表，也就是说，对于，可以快速地扩展新媒体类别。

需要说明的是，本申请可以在参数映射表中为其他媒体类别（当前未考虑到的媒体类别，可称之为额外媒体类别）或其他图像类别（当前未考虑到的图像类别，可称之为额外图像类别）的匹配参数，对于某个目标数据帧，当确定出对应的目标媒体类别与目标图像类别时，假设参数映射表中不存在该目标媒体类别与该目标图像类别对应的目标匹配参数，若该参数映射表中存在该目标媒体类别，但不存在该目标媒体类别下的目标图像类别对应的目标匹配参数，则可以在参数映射表中获取到该目标媒体类别下的额外图像类别的匹配参数，可以将该匹配参数作为目标匹配参数；若该参数映射表中不存在该目标媒体类别，则可以将额外媒体类别下的额外图像类别的配置匹配参数，作为目标匹配参数。

可选的，可以理解的是，在确定出有效召回媒体数据后，本申请可以根据有效召回媒体数据所属的不同媒体类别，进行相应的召回反馈（即进行媒体业务处理）。如对于需要版权保护的影视综艺、演唱会等媒体数据，可以进行异常告警（比如，该异常告警用于提示目标媒体数据对应的创作者，该目标媒体数据与有效召回媒体数据雷同，且该有效召回媒体数据受版权保护，应及时修正或删除该目标媒体数据）处理；而对于生活类小视频等媒体数据，则可以为媒体数据的创作者推送相似的生活场景，以促进创作者的创作欲望等。以有效召回媒体数据包括有效召回媒体数据K_a（a为正整数），匹配图像特征中包括有效召回媒体数据K_a对应的有效匹配图像特征集合，目标图像特征中包括有效目标图像特征集合，有效目标图像特征集合中包括与有效匹配图像特征集合中每个有效匹配图像特征相匹配的有效目标图像特征，目标数据帧中包括有效目标图像特征集合对应的有效目标数据帧集合为例，对于媒体业务处理具体可为：可以获取有效目标数据帧集合中每个有效目标数据帧分别对应的帧时间戳；随后，可以按照每个有效目标数据帧分别对应的帧时间戳的时间顺序，将有效目标数据帧集合进行排序，得到有效帧序列；随后，可以将目标媒体数据中有效帧序列所指示的媒体片段确定为待比对片段，根据待比对片段以及有效召回媒体数据K_a所属的媒体类别，即可对目标媒体数据以及有效召回媒体数据K_a进行媒体业务处理。

其中，根据待比对片段以及有效召回媒体数据K_a所属的媒体类别，对目标媒体数据以及有效召回媒体数据K_a进行媒体业务处理的具体实现方式可为：可以将有效召回媒体数据K_a所属的媒体类别确定为召回媒体类别；若召回媒体类别的类别属性为私有资源属性，则可以在有效召回媒体数据K_a中获取有效匹配图像特征集合对应的有效媒体片段，可以将待比对片段与有效媒体片段进行比对分析处理，基于比对分析处理得到的分析结果可以生成异常警示信息，可以将异常警示信息发送至目标终端设备；目标终端设备为生成目标媒体数据的目标对象所对应的终端设备；异常警示信息用于提示目标对象基于分析结果对目标媒体数据进行修正；若召回媒体类别的类别属性为共享资源属性，则在有效召回媒体数据K_a中获取有效匹配图像特征集合对应的有效媒体片段，确定有效媒体片段和待比对片段均匹配的媒体主题，向目标终端设备推送包含媒体主题的相似媒体数据。

可以理解的是，对于某个有效召回媒体数据，可以在目标数据帧中获取到与其匹配图像特征所匹配上的目标数据帧（可称之为有效目标数据帧），由于本申请中的目标数据帧为按照抽帧参数进行的连续抽帧，那么可以按照有效目标数据帧的帧时间戳的时间顺序（如时间从早到晚的顺序），将这些有效目标数据帧进行排序，得到有效帧序列，可以将有效帧序列所指示的媒体片段确定为待比对片段（例如，可以获取到该有效帧序列中具有最大帧时间戳的有效目标数据帧，以及具有最小帧时间戳的有效目标数据帧，随后，可以在目标媒体数据的所有数据帧中，获取到帧时间戳大于该最小帧时间戳且小于该最大帧时间戳的数据帧，由这些数据帧以及上述两个具有最大帧时间戳、最小帧时间戳的有效目标数据帧，即可组成一个媒体片段）。若该有效召回媒体数据的类别属性为私有资源属性（例如，受版权保护的属性，如影视综艺、演唱会等媒体类别），那么根据该有效召回媒体数据的匹配图像特征，按照同样的方式，在该有效召回媒体数据中确定出一个待比对片段（为便于区别，将之称为有效媒体片段），可以基于待比对片段与有效媒体片段进行比对分析处理，并基于比对分析结果（如包含人物相同等结果）生成异常警示信息（比如对目标媒体数据的修正或删除的提示信息），用于提示目标媒体数据与有效召回媒体数据雷同，且该有效召回媒体数据受版权保护，目标媒体数据的创作者需要立即基于比对分析结果修正或删除该目标媒体数据。

而若该有效召回媒体数据的类别属性为共享资源属性（例如，不受版权保护的属性，即版权开放属性，如日常生活类等媒体类别），则可以确定有效媒体片段和待比对片段均匹配的媒体主题（可以为媒体数据中的发生事件来确定，如媒体数据包括野外做饭事件，则该媒体主题即可包括野外与做饭；如媒体数据包括的发生事件为室内跳舞事件，则该媒体主题即可包括室内与跳舞；如媒体数据包括的发生事件为学校上课事件，则该媒体主题即可包括学校与教育。对于媒体主题的确定，这里将不再进行一一举例说明）。在确定媒体主题后，可以向目标媒体数据的创作者推送更高包含该媒体主题的相似媒体数据，以促使该创作者创作更多相似的媒体数据。

可选的，可以理解的是，在确定出有效召回媒体数据时，本申请还可以按照目标媒体数据的召回时长比例，来对这些有效召回媒体数据进行排序，得到有效媒体数据序列。例如，对于某个有效召回媒体数据，在确定出与其匹配图像特征相匹配的有效目标图像特征后，可以获取到有效目标图像特征的有效目标数据帧，再获取到各个有效目标数据帧的帧时间戳；随后，可以将最大帧时间戳减去最小帧时间戳，得到差值结果即可作为目标媒体数据中与该有效召回媒体数据的雷同片段的时长（可称之为重复时长），该重复时长与该目标媒体数据的总媒体时长之间的比值，即可为该目标媒体数据针对该有效召回媒体数据的召回时长比例。当确定出目标媒体数据针对各个有效召回媒体数据的召回时长比例时，可以按照该比例的从大到小的顺序进行排序，由此即可快速明了的反映出，目标媒体数据与哪个有效召回媒体数据的重复时长最多，与哪个有效召回媒体数据的重复时长最少。

在本申请实施例中，在媒体检索召回业务中，可以同时利用到媒体数据的媒体类别信息、媒体数据的数据帧的图像类别信息以及图像特征信息，通过为不同媒体类别以及不同图像类别配置不同的匹配参数，按照匹配参数可以查找到符合该图像类别下的匹配条件的匹配图像特征，进而可以找到符合匹配条件的召回媒体数据，也就是说可以实现针对不同媒体类别以及不同图像类别的针对性检索，可以很好地根据媒体数据的数据帧中所呈现的图像信息，进行更为精准的媒体检索召回，由此提升召回结果的准确性。综上，本申请可以在媒体数据的检索业务中，基于不同媒体类别、图像类别进行针对性检索，提高检索准确率。

可以理解的是，通过上述可知，可以基于多任务识别模型进行图像识别处理，而为了提高图像识别的准确率，可以对多任务识别模型进行训练，使得训练调整后的多任务识别模型达到最优，基于该训练后的多任务识别模型，可以对目标数据帧进行图像识别处理（如识别目标数据帧的目标图像特征、目标图像类别以及帧媒体类别）。为便于理解，请参见图4，图4是本申请实施例提供的一种模型训练的流程示意图。如图4所示，该模型训练的方法可以由终端设备（例如，上述图1的终端设备）执行，也可以由服务器（例如，上述图1的服务器）执行，还可以由终端设备和服务器共同执行。为便于理解，本实施例以该模型训练的方法由上述服务器执行为例进行说明，以阐述在服务器中进行模型训练的具体过程。其中，该模型训练的流程至少可以包括以下步骤S201-步骤S206：

步骤S201，获取样本图像三元组，将样本图像三元组输入至初始多任务识别模型中；样本图像三元组中包括目标样本图像、目标样本图像对应的第一相似样本图像以及目标样本图像对应的第二相似样本图像。

具体的，本申请可以从全量样本图像中，筛选出三张样本图像组成三元组，其中，该三张样本图像可以包括锚定样本图像（anchor）、与该锚定样本图像相似的样本图像（positive，可称之为正样本图像）以及与该锚定样本图像不相似的样本图像（negative，可称之为负样本图像）。可以理解的是，为了提高模型训练后的识别能力，本申请可以提高三元组的对抗性与干扰性，使得模型更难对三元组进行识别，从而通过具备更高对抗性与干扰性的三元组所训练得到的模型，能够具备更好的识别能力。那么对于获取样本图像三元组的具体实现方式可为：可以获取样本图像集合；其中，样本图像集合中包括至少两个相似样本图像对，一个相似样本图像对中包含两个具有相似关系的样本图像；可以在至少两个相似样本图像对中，获取目标相似样本图像对；随后，可以在剩余相似样本图像对包含的样本图像中选择待运算样本图像；其中，剩余相似样本图像对是指至少两个相似样本图像对中，除目标相似样本图像对以外的相似样本图像对；根据待运算样本图像以及目标相似样本图像对，即可确定样本图像三元组。

其中，对于根据待运算样本图像以及目标相似样本图像对，确定样本图像三元组的具体实现方式可为：可以在目标相似样本图像对包含的样本图像中选择目标样本图像；随后，可以获取待运算样本图像对应的样本图像表示特征，以及目标样本图像对应的目标图像表示特征；可以确定样本图像表示特征与目标图像表示特征之间的表示特征相似度；若表示特征相似度大于特征相似度阈值，则可以将剩余样本图像确定为目标样本图像对应的第一相似样本图像，将待运算样本图像确定为目标样本图像对应的第二相似样本图像，可以将目标样本图像、第一相似样本图像以及第二相似样本图像确定为样本图像三元组；剩余样本图像为目标相似样本图像对中除目标样本图像以外的样本图像。

可以理解的是，样本图像集合可以是指全量样本图像，也可以是指按照一定数量（如100个）进行图像划分后，所得到的某个集合（该集合中包含100个样本图像）。在样本图像集合中，可以将两个相似的样本图像，组成一个样本对（称之为相似样本图像对，也可称之为正样本对）；随后，可以将这些相似样本图像对中的某个相似样本图像对，确定为目标相似样本图像对；对该目标相似样本图像对，可以随机选择一个样本图像作为锚定样本图像（即目标样本图像），在剩余的相似样本图像对（称之为剩余相似样本图像对）中，可以在每个剩余相似样本图像对中随机选择一个图像，作为待运算样本图像。随后，对于这些待运算样本图像，可以计算每个待运算样本图像分别与该目标样本图像之间的图像距离，例如，可以计算运算样本图像对应的样本图像表示特征（如embedding特征），以及目标样本图像对应的目标图像表示特征（如embedding特征）之间的表示特征相似度，表示特征相似度越大，证明两个图像的图像距离越小，当表示特征相似度大于特征相似度阈值时，即可表征该待运算样本图像与该目标样本图像为相似图像。换言之，本申请最终确定的样本图像三元组，可以包括一个锚定样本图像，一个正样本图像（与锚定样本图像相似的样本图像），一个负样本图像（另一个与锚定样本图像相似的样本图像）。应当理解，在媒体检索排重业务中，若目标媒体数据与某个待召回媒体数据为雷同媒体数据，那么该目标媒体数据与该待召回媒体数据是极为相似的，如目标媒体数据的数据帧是对某个待召回媒体数据的数据帧经过一定的图像变换（加噪、裁剪、加边框等）得到的，那么此时两个数据帧的内容几乎一样，而实际上从海量样本图像中随机抽取的图像，常常为与目标样本图像不相同的图像，那么此时我们可以选择出表示特征相似度大于相似度阈值的样本图像作为正样本对的负样本图像，虽然该负样本图像与目标样本图像依然不相同，但是是海量样本图像中与目标样本图像较为相似的样本图像，那么仍然可以将其确定为目标样本图像的相似样本图像。

可选的，在一种可行的实施例中，本申请可以计算每个待运算样本图像与目标样本图像之间的图像距离，再按照各个图像距离的距离大小顺序将各个待运算样本图像进行排序（如由小到大的顺序），然后我们可以在排序得到的图像序列中，选取前E个作为正样本对的负样本图像，由此即可得到E个样本图像三元组。

步骤S202，通过初始多任务识别模型，确定目标样本图像对应的第一样本图像嵌入特征、第一样本图像类别与第一样本目标媒体类别、第一相似样本图像对应的第二样本图像嵌入特征、第二样本图像类别与第二样本目标媒体类别、第二相似样本图像对应的第三样本图像嵌入特征、第三样本图像类别与第三样本目标媒体类别。

具体的，通过该初始多任务识别模型中的基础特征提取层，可以提取样本图像三元组中每个样本图像分别对应的样本图像基础特征；而通过多任务识别模型中的卷积网络层，与其对应的样本图像基础特征，可以输出其对应的样本图像特征；通过多任务识别模型中的图像类别预测层，与其对应的样本图像基础特征，可以输出其对应的样本图像类别；通过多任务识别模型中的媒体类别预测层，与其对应的样本图像基础特征，可以输出其对应的样本媒体类别。

步骤S203，根据第一样本图像嵌入特征、第二样本图像嵌入特征、第三样本图像嵌入特征确定第一损失值。

具体的，对于某个样本图像三元组，可以根据第一样本图像嵌入特征、第二样本图像嵌入特征、第三样本图像嵌入特征确定一个特征损失值（即第一损失值）。为便于理解，对于确定第一损失值的具体实现方式可如公式（1）所示：

公式（1）

其中，如公式（1）所示的

可用于表征某个三元组的第一损失值；

可用于表征锚定样本图像对应的样本图像特征（如第一样本图像嵌入特征）；

可用于表征正样本图像对应的样本图像特征（如第二样本图像嵌入特征）；

可用于表征负样本图像对应的样本图像特征（如第三样本图像嵌入特征）；

与

均可用于表征两个特征之间的L2距离（欧式距离）；可为边缘参数，可将其设值为0.6；公式（1）所示的损失值的目的在于锚定样本图像（anchor）与负样本图像（nagative）之间的距离，比锚定样本图像（anchor）与正样本图像（positive）之间的距离大于预设值（如0.6）。

步骤S204，根据第一样本图像类别、第二样本图像类别以及第三样本图像类别确定第二损失值。

具体的，对于某个样本图像三元组中的每个样本图像，可以分别标注其对应的真实图像类别（本申请中，由于正样本对中的两张样本图像的内容极度相似，则可以将两个样本图像的真实图像类别设置为同一图像类别），根据第一样本图像类别与目标样本图像对应的真实图像类别，可以确定出一个图像类别子损失值；根据第二样本图像类别与第一相似样本图像对应的真实图像类别，可以确定出一个图像类别子损失值；根据第三样本图像类别与第二相似样本图像对应的真实图像类别，可以确定出一个图像类别子损失值。将这三个图像类别子损失值进行相加再求取平均值，即可得到该样本图像三元组对应的总的图像类别损失值（即第二损失值）。

为便于理解，对于确定第二损失值的具体实现方式可如公式（2）所示：

公式（2）

其中，如公式（2）所示的

可用于表征三元组的图像类别损失值，对于某个样本图像i，图像内容分类层Fc2可以输出分类概率向量，可以计算其与真实图像类别的交叉熵损失值（cross entropy loss）；可用于表征该样本图像i的真实图像类别对应的向量（具体可为1*5的0、1向量，向量中只有为真的那个类别取1，其他取0）；可用于表征模型输出的针对该样本图像i的预测值（具体可为1*5个候选图像类别分别对应的预测概率，其中i表示第i个样本图像，c表示第c个分类位置对应的值，此处M可为c的总数量，可为5）。

步骤S205，根据第一样本目标媒体类别、第二样本目标媒体类别以及第三样本目标媒体类别确定第三损失值。

具体的，对于某个样本图像三元组中的每个样本图像，可以分别标注其对应的真实媒体类别（本申请中，由于正样本对中的两张样本图像的内容极度相似，则可以将两个样本图像的真实媒体类别设置为同一媒体类别），根据第一样本目标媒体类别与目标样本图像对应的真实媒体类别，可以确定出一个媒体类别子损失值；根据第二样本目标媒体类别与第一相似样本图像对应的真实媒体类别，可以确定出一个媒体类别子损失值；根据第三样本目标媒体类别与第二相似样本图像对应的真实媒体类别，可以确定出一个媒体类别子损失值。将这三个媒体类别子损失值进行相加再求取平均值，即可得到该样本图像三元组对应的总的媒体类别损失值（即第二损失值）。

为便于理解，对于确定第二损失值的具体实现方式可如公式（3）所示：

公式（3）

其中，如公式（3）所示的

可用于表征三元组的媒体类别损失值，对于某个样本图像i，媒体内容分类层Fc1可以输出分类概率向量，可以计算其与真实媒体类别的交叉熵损失值；

可用于表征该样本图像i的真实媒体类别对应的向量（具体可为1*10的0、1向量，向量中只有为真的那个类别取1，其他取0）；

可用于表征模型输出的针对该样本图像 i的预测值（具体可为1*10个候选媒体类别分别对应的预测概率，其中i表示第i个样本图像，c表示第c个分类位置对应的值，此处M可为c的总数量，可为10）。

步骤S206，根据第一损失值、第二损失值以及第三损失值生成目标损失值，根据目标损失值对初始多任务识别模型进行调整，得到多任务识别模型。

具体的，根据第一损失值、第二损失值以及第三损失值生成目标损失值的具体实现方式可如公式（4）所示：

公式（4）

其中，如公式（4）所示的

可用于表征目标损失值，

可用于表征第一损失值；

可用于表征第二损失值；

可用于表征第三损失值。w₁、w₂以及w₃可分别用于表征权重系数，具体可将w₁设置为1，将w₂设置为0.5，将w₃设置为0.5。

为便于理解生成目标损失值的具体方式，请一并参见图5，图5是本申请实施例提供的一种确定目标损失值的架构图。如图5所示，将三元组样本输入至基础特征提取网络后，通过该基础特征提取网络所输出的图像基础特征，可以分别输入至embedding特征识别网络、媒体类别识别网络以及图像类别识别网络中，通过embedding特征识别网络、媒体类别识别网络以及图像类别识别网络分别输出的预测值，可以确定出哈希损失值（即对应于第一损失值）、媒体分类损失值（对应于第三损失值）以及图像分类损失值（对应于第二损失值），根据第一损失值、第二损失值以及第三损失值，即可确定出总损失值（即目标损失值）。

进一步地，即可根据该目标损失值对该初始多任务模型中的模型参数进行多轮调整训练，直至该初始多任务识别模型的调整迭代次数达到次数阈值时，可以将此时的模型确定为用于执行图像识别任务的多任务识别模型。

在本申请实施例中，可以对用于训练样本图像的样本图像三元组进行标注调整，使得样本图像三元组更具备干扰性，使用该更具备干扰性的样本对模型进行训练，可以很好地提高模型的抗干扰能力，以此提升训练后的模型的识别准确率。

进一步地，为便于理解，请一并参见图6，图6是本申请实施例提供的一种***架构图。如图6所示的***架构是以媒体数据为视频为例，该***架构可以包括多任务识别模型、匹配参数获取模块、帧级别定制召回模块、召回结果排序模块、反馈模块。其中，查询视频可以是指某个待比对视频，将该查询视频输入至多任务识别模型中，通过该多任务识别模型可以获取到该查询视频的各个视频帧的图像特征（embedding特征）、图像类别以及该查询视频的视频类别。而在匹配参数获取模块中，可以根据各个视频帧的视频类别与图像类别，获取到对应的匹配参数，其中，这里以视频类别包括生活类小视频、影视综艺类视频以及演唱会视频为例，匹配参数获取模块中可以包括参数映射表，对于生活类小视频，其图像类别包括文本、非文本以及其他，其分别对应的匹配参数为0.1、0.5以及0.3；对于影视综艺类视频，其图像类别包括人物、非人物以及其他，其分别对应的匹配参数为0.3、0以及0.3；对于演唱会视频，其图像类别包括人物、文字以及其他，其分别对应的匹配参数为0.2、0.1以及0.2。那么通过该参数映射表，即可获取到某个视频帧对应的匹配参数。

进一步地，在帧级别定制召回模块中，可以根据每个视频帧的匹配参数，找到与其图像特征相匹配的匹配图像特征，进而基于匹配图像特征与视频帧的图像特征，确定出有效召回视频数据；随后，在召回结果排序模块中，可对这些有效召回视频数据进行排序，得到有效视频序列。在反馈模块中，可以对有效视频序列中的各个有效召回视频数据作出反馈，例如，对于生活类小视频的有效召回视频数据，可以进行相似视频推荐处理；对于影视综艺类视频或演唱会视频的有效召回视频数据，可以进行异常警示处理。

进一步地，请参见图7，图7是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该数据处理装置为一个应用软件；该数据处理装置可以用于执行图3所示的方法。如图7所示，该数据处理装置1可以包括：帧获取模块100、识别模块200、阈值获取模块300、特征匹配模块400以及有效媒体确定模块500。

帧获取模块100，用于获取目标媒体数据对应的目标数据帧；

识别模块200，用于识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别；

阈值获取模块300，用于在参数映射表中，获取目标媒体类别以及目标图像类别共同指示的目标匹配参数；参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，配置媒体类别集合中的一个配置媒体类别、配置图像类别集合中的一个配置图像类别与匹配参数集合中的一个配置匹配参数之间存在映射关系；一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件；

特征匹配模块400，用于根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征；候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；

有效媒体确定模块500，用于根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据。

其中，帧获取模块100、识别模块200、阈值获取模块300、特征匹配模块400以及有效媒体确定模块500的具体实现方式，可以参见上述图3所对应实施例中步骤S101-步骤S104的描述，这里将不再进行赘述。

可以理解的是，本申请实施例中的数据处理装置1可执行前文图3所对应实施例中对多媒体数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示，该数据处理装置2可以包括：帧获取模块11、识别模块12、阈值获取模块13、特征匹配模块14以及有效媒体确定模块15。

帧获取模块11，用于获取目标媒体数据对应的目标数据帧；

识别模块12，用于识别目标媒体数据所属的目标媒体类别、目标数据帧对应的目标图像特征以及目标图像类别；

阈值获取模块13，用于在参数映射表中，获取目标媒体类别以及目标图像类别共同指示的目标匹配参数；参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，配置媒体类别集合中的一个配置媒体类别、配置图像类别集合中的一个配置图像类别与匹配参数集合中的一个配置匹配参数之间存在映射关系；一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件；

特征匹配模块14，用于根据目标图像特征与目标匹配参数，在候选图像特征集合中查找与目标图像特征相匹配的匹配图像特征；候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；

有效媒体确定模块15，用于根据匹配图像特征以及目标图像特征，在待召回媒体数据集合中确定有效召回媒体数据。

其中，帧获取模块11、识别模块12、阈值获取模块13、特征匹配模块14以及有效媒体确定模块15的具体实现方式，分别与图7中的帧获取模块100、识别模块200、阈值获取模块300、特征匹配模块400以及有效媒体确定模块500一致，这里将不再进行赘述。

在一个实施例中，识别模块12可以包括：特征提取单元121以及特征输入单元122。

特征提取单元121，用于将目标数据帧输入至多任务识别模型中，通过多任务识别模型中的基础特征提取层，提取目标数据帧对应的图像基础特征；

特征输入单元122，用于将图像基础特征输入至多任务识别模型中的卷积网络层，通过卷积网络层与图像基础特征，确定目标数据帧对应的图像嵌入特征，将图像嵌入特征确定为目标图像特征；

特征输入单元122，还用于将图像基础特征输入至多任务识别模型中的图像类别预测层，通过图像类别预测层与图像基础特征，确定目标数据帧对应的目标图像类别；

特征输入单元122，还用于将图像基础特征输入至多任务识别模型中的媒体类别预测层，通过媒体类别预测层与图像基础特征，确定目标媒体数据所属的目标媒体类别。

其中，特征提取单元121以及特征输入单元122的具体实现方式，可以参见上述图3所对应实施例中步骤S101的描述，这里将不再进行赘述。

特征输入单元122可以包括：类别确定子单元1221、帧归类子单元1222、数量统计子单元1223以及类别预测子单元1224。

类别确定子单元1221，用于通过媒体类别预测层与目标数据帧S_i对应的图像基础特征T_i，确定目标数据帧S_i对应的帧媒体类别；

帧归类子单元1222，用于当确定出N个目标数据帧分别对应的帧媒体类别时，按照N个帧媒体类别对N个目标数据帧进行归类处理，得到M个数据帧集合；每个数据帧集合中包含的目标数据帧所属的帧媒体类别为相同类别；M为正整数；

数量统计子单元1223，用于统计M个数据帧集合中，每个数据帧集合所分别包含的目标数据帧的数量，得到M个帧数量；

数量统计子单元1223，还用于在M个帧数量中获取最大帧数量，将最大帧数量对应的数据帧集合，确定为目标数据帧集合；

类别预测子单元1224，用于将目标数据帧集合中包含的目标数据帧所属的帧媒体类别，确定为目标媒体数据所属的目标媒体类别。

其中，类别确定子单元1221、帧归类子单元1222、数量统计子单元1223以及类别预测子单元1224的具体实现方式，可以参见上述图3所对应实施例中步骤S101的描述，这里将不再进行赘述。

特征匹配模块14可以包括：相似度确定单元141以及特征确定单元142。

相似度确定单元141，用于确定目标图像特征分别与候选图像特征集合中，每个候选图像特征之间的特征相似度，得到特征相似度集合；

特征确定单元142，用于将特征相似度集合中，大于目标相似度阈值的特征相似度，确定为目标特征相似度；

特征确定单元142，还用于将目标特征相似度对应的候选图像特征，确定为与目标图像特征相匹配的匹配图像特征。

其中，相似度确定单元141以及特征确定单元142的具体实现方式，可以参见上述图3所对应实施例中步骤S103的描述，这里将不再进行赘述。

有效媒体确定模块15可以包括：特征分类单元151、特征数量统计单元152、属性确定单元153以及有效媒体确定单元154。

特征分类单元151，用于在待召回媒体数据集合中，获取Q个匹配图像特征分别所属的待召回媒体数据；

特征分类单元151，还用于按照Q个匹配图像特征分别所属的待召回媒体数据，对Q个匹配图像特征进行特征分类，得到W个匹配特征集合；每个匹配特征集合中包含的匹配图像特征所属的待召回媒体数据为相同媒体数据；W个匹配特征集合中包括匹配特征集合R_j，W、j均为正整数；

特征数量统计单元152，用于统计匹配特征集合R_j中包含的匹配图像特征的第一特征数量；

属性确定单元153，用于根据第一特征数量以及N个目标图像特征，确定匹配特征集合R_j所指示的待召回媒体数据的召回属性；

有效媒体确定单元154，用于在确定出W个匹配特征集合分别所指示的待召回媒体数据的召回属性时，将W个匹配特征集合分别所指示的待召回媒体数据中的召回属性为有效属性的待召回媒体数据，确定为有效召回媒体数据。

其中，特征分类单元151、特征数量统计单元152、属性确定单元153以及有效媒体确定单元154的具体实现方式，可以参见上述图3所对应实施例中步骤S104的描述，这里将不再进行赘述。

属性确定单元153，还具体用于在N个目标图像特征中，获取与第一匹配图像特征相匹配的第一目标图像特征，以及与第二匹配图像相匹配的第二目标图像特征；

属性确定单元153，还具体用于将第一目标图像特征与第二目标图像特征所包含的特征总数量，确定为第二特征数量；

属性确定单元153，还具体用于根据第一特征数量、第二特征数量以及目标媒体数据，确定匹配特征集合R_j所指示的待召回媒体数据的召回属性。

在一个实施例中，属性确定单元153可以包括：时长获取子单元1531、比值确定子单元1532以及属性确定子单元1533。

时长获取子单元1531，用于获取匹配特征集合R_j所指示的待召回媒体数据所对应的第一媒体时长，以及目标媒体数据对应的第二媒体时长；

比值确定子单元1532，用于确定第一特征数量与第一媒体时长之间的第一比值，以及第二特征数量与第二媒体时长之间的第二比值；

属性确定子单元1533，用于若第一比值与第二比值中存在至少一个比值大于比值阈值，则将匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为有效属性；

属性确定子单元1533，还用于若述第一比值与第二比值均小于比值阈值，则将匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为无效属性。

其中，时长获取子单元1531、比值确定子单元1532以及属性确定子单元1533的具体实现方式，可以参见上述图3所对应实施例中步骤S104的描述，这里将不再进行赘述。

数据处理装置2可以包括：时间戳获取模块16、帧排序模块17以及业务处理模块18。

时间戳获取模块16，用于获取有效目标数据帧集合中每个有效目标数据帧分别对应的帧时间戳；

帧排序模块17，用于按照每个有效目标数据帧分别对应的帧时间戳的时间顺序，将有效目标数据帧集合进行排序，得到有效帧序列；

业务处理模块18，用于将目标媒体数据中有效帧序列所指示的媒体片段确定为待比对片段；

业务处理模块18，还用于根据待比对片段以及有效召回媒体数据K_a所属的媒体类别，对目标媒体数据以及有效召回媒体数据K_a进行媒体业务处理。

其中，时间戳获取模块16、帧排序模块17以及业务处理模块18的具体实现方式，可以参见上述图3所对应实施例中步骤S104的描述，这里将不再进行赘述。

在一个实施例中，业务处理模块18可以包括：召回类别确定单元181、第一处理单元182以及第二处理单元183。

召回类别确定单元181，用于将有效召回媒体数据K_a所属的媒体类别确定为召回媒体类别；

第一处理单元182，用于若召回媒体类别的类别属性为私有资源属性，则在有效召回媒体数据K_a中获取有效匹配图像特征集合对应的有效媒体片段，将待比对片段与有效媒体片段进行比对分析处理，基于比对分析处理得到的分析结果生成异常警示信息，将异常警示信息发送至目标终端设备；目标终端设备为生成目标媒体数据的目标对象所对应的终端设备；异常警示信息用于提示目标对象基于分析结果对目标媒体数据进行修正；

第二处理单元183，用于若召回媒体类别的类别属性为共享资源属性，则在有效召回媒体数据K_a中获取有效匹配图像特征集合对应的有效媒体片段，确定有效媒体片段和待比对片段均匹配的媒体主题，向目标终端设备推送包含媒体主题的相似媒体数据。

其中，召回类别确定单元181、第一处理单元182以及第二处理单元183的具体实现方式，可以参见上述图3所对应实施例中步骤S104的描述，这里将不再进行赘述。

在一个实施例中，数据处理装置2可以包括：样本获取模块19、模型处理模块21、损失值确定模块22以及模型调整模块23。

样本获取模块19，用于获取样本图像三元组；样本图像三元组中包括目标样本图像、目标样本图像对应的第一相似样本图像以及目标样本图像对应的第二相似样本图像；

模型处理模块21，用于将样本图像三元组输入至初始多任务识别模型中；

模型处理模块21，还用于通过初始多任务识别模型，确定目标样本图像对应的第一样本图像嵌入特征、第一样本图像类别与第一样本目标媒体类别、第一相似样本图像对应的第二样本图像嵌入特征、第二样本图像类别与第二样本目标媒体类别、第二相似样本图像对应的第三样本图像嵌入特征、第三样本图像类别与第三样本目标媒体类别；

损失值确定模块22，用于根据第一样本图像嵌入特征、第二样本图像嵌入特征、第三样本图像嵌入特征确定第一损失值；

损失值确定模块22，还用于根据第一样本图像类别、第二样本图像类别以及第三样本图像类别确定第二损失值；

损失值确定模块22，还用于根据第一样本目标媒体类别、第二样本目标媒体类别以及第三样本目标媒体类别确定第三损失值；

损失值确定模块22，还用于根据第一损失值、第二损失值以及第三损失值生成目标损失值；

模型调整模块23，用于根据目标损失值对初始多任务识别模型进行调整，得到多任务识别模型。

其中，样本获取模块19、模型处理模块21、损失值确定模块22以及模型调整模块23的具体实现方式，可以参见上述图4所对应实施例中步骤S201-步骤S206的描述，这里将不再进行赘述。

在一个实施例中，样本获取模块19可以包括：样本集合获取单元191以及图像组合单元192。

样本集合获取单元191，用于获取样本图像集合；样本图像集合中包括至少两个相似样本图像对，一个相似样本图像对中包含两个具有相似关系的样本图像；

图像组合单元192，用于在至少两个相似样本图像对中，获取目标相似样本图像对；

图像组合单元192，还用于在剩余相似样本图像对包含的样本图像中选择待运算样本图像；剩余相似样本图像对是指至少两个相似样本图像对中，除目标相似样本图像对以外的相似样本图像对；

图像组合单元192，还用于根据待运算样本图像以及目标相似样本图像对，确定样本图像三元组。

其中，样本集合获取单元191以及图像组合单元192的具体实现方式，可以参见上述图4所对应实施例中步骤S201的描述，这里将不再进行赘述。

在一个实施例中，图像组合单元192可以包括：图像相似度确定子单元1921以及三元组确定子单元1922。

图像相似度确定子单元1921，用于在目标相似样本图像对包含的样本图像中选择目标样本图像；

图像相似度确定子单元1921，还用于获取待运算样本图像对应的样本图像表示特征，以及目标样本图像对应的目标图像表示特征；

图像相似度确定子单元1921，还用于确定样本图像表示特征与目标图像表示特征之间的表示特征相似度；

三元组确定子单元1922，用于若表示特征相似度大于特征相似度阈值，则将剩余样本图像确定为目标样本图像对应的第一相似样本图像，将待运算样本图像确定为目标样本图像对应的第二相似样本图像，将目标样本图像、第一相似样本图像以及第二相似样本图像确定为样本图像三元组；剩余样本图像为目标相似样本图像对中除目标样本图像以外的样本图像。

其中，图像相似度确定子单元1921以及三元组确定子单元1922的具体实现方式，可以参见上述图4所对应实施例中步骤S201的描述，这里将不再进行赘述。

可以理解的是，本申请实施例中的数据处理装置2可执行前文图3-图4所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示，计算机设备8000可以为图1所对应实施例中的终端设备或服务器，上述计算机设备8000可以包括：处理器8001，网络接口8004和存储器8005，此外，上述计算机设备8000还包括：用户接口8003，和至少一个通信总线8002。其中，通信总线8002用于实现这些组件之间的连接通信。其中，在一些实施例中，用户接口8003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口8003还可以包括标准的有线接口、无线接口。网络接口8004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器8005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器8005可选的还可以是至少一个位于远离前述处理器8001的存储装置。如图9所示，作为一种计算机可读存储介质的存储器8005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备8000中，网络接口8004可提供网络通讯功能；而用户接口8003主要用于为用户提供输入的接口；而处理器8001可以用于调用存储器8005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备8000可执行前文图3-图4所对应实施例中对该数据处理方法的描述，也可执行前文图7所对应实施例中对该数据处理装置1的描述，还可执行前文图8所对应实施例中对数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备8000所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3-图4所对应实施例中对上述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital， SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标媒体数据对应的目标数据帧，识别所述目标媒体数据所属的目标媒体类别、所述目标数据帧对应的目标图像特征以及目标图像类别；

在参数映射表中，获取所述目标媒体类别以及所述目标图像类别共同指示的目标匹配参数；所述参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，所述配置媒体类别集合中的一个配置媒体类别和所述配置图像类别集合中的一个配置图像类别，与所述匹配参数集合中的一个配置匹配参数之间存在映射关系；所述一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件；

根据所述目标图像特征与所述目标匹配参数，在候选图像特征集合中查找与所述目标图像特征相匹配的匹配图像特征；所述候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；

根据所述匹配图像特征以及所述目标图像特征，在所述待召回媒体数据集合中确定有效召回媒体数据。

2.根据权利要求1所述的方法，其特征在于，所述识别所述目标媒体数据所属的目标媒体类别、所述目标数据帧对应的目标图像特征以及目标图像类别，包括：

将所述目标数据帧输入至多任务识别模型中，通过所述多任务识别模型中的基础特征提取层，提取所述目标数据帧对应的图像基础特征；

将所述图像基础特征输入至所述多任务识别模型中的卷积网络层，通过所述卷积网络层与所述图像基础特征，确定所述目标数据帧对应的图像嵌入特征，将所述图像嵌入特征确定为所述目标图像特征；

将所述图像基础特征输入至所述多任务识别模型中的图像类别预测层，通过所述图像类别预测层与所述图像基础特征，确定所述目标数据帧对应的目标图像类别；

将所述图像基础特征输入至所述多任务识别模型中的媒体类别预测层，通过所述媒体类别预测层与所述图像基础特征，确定所述目标媒体数据所属的目标媒体类别。

3.根据权利要求2所述的方法，其特征在于，所述目标数据帧的数量为N个，N个目标数据帧中包括目标数据帧S_i，所述图像基础特征包括所述目标数据帧S_i对应的图像基础特征T_i，N、i均为正整数；

所述通过所述媒体类别预测层与所述图像基础特征，确定所述目标媒体数据所属的目标媒体类别，包括：

通过所述媒体类别预测层与所述目标数据帧S_i对应的图像基础特征T_i，确定所述目标数据帧S_i对应的帧媒体类别；

当确定出所述N个目标数据帧分别对应的帧媒体类别时，按照N个帧媒体类别对所述N个目标数据帧进行归类处理，得到M个数据帧集合；每个数据帧集合中包含的目标数据帧所属的帧媒体类别为相同类别；M为正整数；

统计所述M个数据帧集合中，每个数据帧集合所分别包含的目标数据帧的数量，得到M个帧数量；

在所述M个帧数量中获取最大帧数量，将所述最大帧数量对应的数据帧集合，确定为目标数据帧集合；

将所述目标数据帧集合中包含的目标数据帧所属的帧媒体类别，确定为所述目标媒体数据所属的目标媒体类别。

4.根据权利要求1所述的方法，其特征在于，所述匹配参数集合中的每个配置匹配参数包括配置相似度阈值，所述目标匹配参数包括目标相似度阈值；

所述根据所述目标图像特征与所述目标匹配参数，在候选图像特征集合中查找与所述目标图像特征相匹配的匹配图像特征，包括：

确定所述目标图像特征分别与所述候选图像特征集合中，每个候选图像特征之间的特征相似度，得到特征相似度集合；

将所述特征相似度集合中，大于所述目标相似度阈值的特征相似度，确定为目标特征相似度；

将所述目标特征相似度对应的候选图像特征，确定为与所述目标图像特征相匹配的匹配图像特征。

5.根据权利要求1所述的方法，其特征在于，所述目标数据帧的数量为N个，所述目标数据帧对应的目标图像特征包括N个目标数据帧分别对应的目标图像特征，N为正整数；所述匹配图像特征的数量为Q个，Q个匹配图像特征由与N个目标图像特征分别相匹配的匹配图像特征组成，Q为正整数；

所述根据所述匹配图像特征以及所述目标图像特征，在所述待召回媒体数据集合中确定有效召回媒体数据，包括：

在所述待召回媒体数据集合中，获取所述Q个匹配图像特征分别所属的待召回媒体数据；

按照所述Q个匹配图像特征分别所属的待召回媒体数据，对所述Q个匹配图像特征进行特征分类，得到W个匹配特征集合；每个匹配特征集合中包含的匹配图像特征所属的待召回媒体数据为相同媒体数据；所述W个匹配特征集合中包括匹配特征集合R_j，W、j均为正整数；

统计所述匹配特征集合R_j中包含的匹配图像特征的第一特征数量，根据所述第一特征数量以及所述N个目标图像特征，确定所述匹配特征集合R_j所指示的待召回媒体数据的召回属性；

在确定出所述W个匹配特征集合分别所指示的待召回媒体数据的召回属性时，将所述W个匹配特征集合分别所指示的待召回媒体数据中的召回属性为有效属性的待召回媒体数据，确定为所述有效召回媒体数据。

6.根据权利要求5所述的方法，其特征在于，所述匹配特征集合R_j中包含的匹配图像特征包括第一匹配图像特征与第二匹配图像特征；

所述根据所述第一特征数量以及所述N个目标图像特征，确定所述匹配特征集合R_j所指示的待召回媒体数据的召回属性，包括：

在所述N个目标图像特征中，获取与所述第一匹配图像特征相匹配的第一目标图像特征，以及与所述第二匹配图像相匹配的第二目标图像特征；

将所述第一目标图像特征与所述第二目标图像特征所包含的特征总数量，确定为第二特征数量；

根据所述第一特征数量、所述第二特征数量以及所述目标媒体数据，确定所述匹配特征集合R_j所指示的待召回媒体数据的召回属性。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一特征数量、所述第二特征数量以及所述目标媒体数据，确定所述匹配特征集合R_j所指示的待召回媒体数据的召回属性，包括：

获取所述匹配特征集合R_j所指示的待召回媒体数据所对应的第一媒体时长，以及所述目标媒体数据对应的第二媒体时长；

确定所述第一特征数量与所述第一媒体时长之间的第一比值，以及所述第二特征数量与所述第二媒体时长之间的第二比值；

若所述第一比值与所述第二比值中存在至少一个比值大于比值阈值，则将所述匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为有效属性；

若所述第一比值与所述第二比值均小于所述比值阈值，则将所述匹配特征集合R_j所指示的待召回媒体数据的召回属性，确定为无效属性。

8.根据权利要求1所述的方法，其特征在于，所述有效召回媒体数据包括有效召回媒体数据K_a；a为正整数；所述匹配图像特征中包括所述有效召回媒体数据K_a对应的有效匹配图像特征集合；所述目标图像特征中包括有效目标图像特征集合，所述有效目标图像特征集合中包括与所述有效匹配图像特征集合中每个有效匹配图像特征相匹配的有效目标图像特征；所述目标数据帧中包括所述有效目标图像特征集合对应的有效目标数据帧集合；

所述方法还包括：

获取所述有效目标数据帧集合中每个有效目标数据帧分别对应的帧时间戳；

按照所述每个有效目标数据帧分别对应的帧时间戳的时间顺序，将所述有效目标数据帧集合进行排序，得到有效帧序列；

将所述目标媒体数据中所述有效帧序列所指示的媒体片段确定为待比对片段，根据所述待比对片段以及所述有效召回媒体数据K_a所属的媒体类别，对所述目标媒体数据以及所述有效召回媒体数据K_a进行媒体业务处理。

9.根据权利要求8所述的方法，其特征在于，所述根据所述待比对片段以及所述有效召回媒体数据K_a所属的媒体类别，对所述目标媒体数据以及所述有效召回媒体数据K_a进行媒体业务处理，包括：

将所述有效召回媒体数据K_a所属的媒体类别确定为召回媒体类别；

若所述召回媒体类别的类别属性为私有资源属性，则在所述有效召回媒体数据K_a中获取所述有效匹配图像特征集合对应的有效媒体片段，将所述待比对片段与所述有效媒体片段进行比对分析处理，基于比对分析处理得到的分析结果生成异常警示信息，将所述异常警示信息发送至目标终端设备；所述目标终端设备为生成所述目标媒体数据的目标对象所对应的终端设备；所述异常警示信息用于提示所述目标对象基于所述分析结果对所述目标媒体数据进行修正；

若所述召回媒体类别的类别属性为共享资源属性，则在所述有效召回媒体数据K_a中获取所述有效匹配图像特征集合对应的有效媒体片段，确定所述有效媒体片段和所述待比对片段均匹配的媒体主题，向所述目标终端设备推送包含所述媒体主题的相似媒体数据。

10.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取样本图像三元组，将所述样本图像三元组输入至初始多任务识别模型中；所述样本图像三元组中包括目标样本图像、所述目标样本图像对应的第一相似样本图像以及所述目标样本图像对应的第二相似样本图像；

通过所述初始多任务识别模型，确定所述目标样本图像对应的第一样本图像嵌入特征、第一样本图像类别与第一样本目标媒体类别、所述第一相似样本图像对应的第二样本图像嵌入特征、第二样本图像类别与第二样本目标媒体类别、所述第二相似样本图像对应的第三样本图像嵌入特征、第三样本图像类别与第三样本目标媒体类别；

根据所述第一样本图像嵌入特征、所述第二样本图像嵌入特征、所述第三样本图像嵌入特征确定第一损失值；

根据所述第一样本图像类别、所述第二样本图像类别以及所述第三样本图像类别确定第二损失值；

根据所述第一样本目标媒体类别、所述第二样本目标媒体类别以及所述第三样本目标媒体类别确定第三损失值；

根据所述第一损失值、所述第二损失值以及所述第三损失值生成目标损失值，根据所述目标损失值对所述初始多任务识别模型进行调整，得到所述多任务识别模型。

11.根据权利要求10所述的方法，其特征在于，所述获取样本图像三元组，包括：

获取样本图像集合；所述样本图像集合中包括至少两个相似样本图像对，一个相似样本图像对中包含两个具有相似关系的样本图像；

在所述至少两个相似样本图像对中，获取目标相似样本图像对；

在剩余相似样本图像对包含的样本图像中选择待运算样本图像；所述剩余相似样本图像对是指所述至少两个相似样本图像对中，除所述目标相似样本图像对以外的相似样本图像对；

根据所述待运算样本图像以及所述目标相似样本图像对，确定所述样本图像三元组。

12.根据权利要求11所述的方法，其特征在于，所述根据所述待运算样本图像以及所述目标相似样本图像对，确定所述样本图像三元组，包括：

在所述目标相似样本图像对包含的样本图像中选择所述目标样本图像；

获取所述待运算样本图像对应的样本图像表示特征，以及所述目标样本图像对应的目标图像表示特征；

确定所述样本图像表示特征与所述目标图像表示特征之间的表示特征相似度；

若所述表示特征相似度大于特征相似度阈值，则将剩余样本图像确定为所述目标样本图像对应的所述第一相似样本图像，将所述待运算样本图像确定为所述目标样本图像对应的所述第二相似样本图像，将所述目标样本图像、所述第一相似样本图像以及所述第二相似样本图像确定为所述样本图像三元组；所述剩余样本图像为所述目标相似样本图像对中除所述目标样本图像以外的样本图像。

13.一种数据处理装置，其特征在于，包括：

帧获取模块，用于获取目标媒体数据对应的目标数据帧；

识别模块，用于识别所述目标媒体数据所属的目标媒体类别、所述目标数据帧对应的目标图像特征以及目标图像类别；

阈值获取模块，用于在参数映射表中，获取所述目标媒体类别以及所述目标图像类别共同指示的目标匹配参数；所述参数映射表包括配置媒体类别集合、配置图像类别集合以及匹配参数集合之间的映射关系，所述配置媒体类别集合中的一个配置媒体类别和所述配置图像类别集合中的一个配置图像类别，与所述匹配参数集合中的一个配置匹配参数之间存在映射关系；所述一个配置匹配参数用于反映具有对应的配置媒体类别和对应的配置图像类别的数据帧的图像特征的匹配条件；所述目标匹配参数包括目标相似度阈值；

特征匹配模块，用于根据所述目标图像特征与所述目标匹配参数，在候选图像特征集合中查找与所述目标图像特征相匹配的匹配图像特征；所述候选图像特征集合是由待召回媒体数据集合中，每个待召回媒体数据所分别对应的图像特征所组成的集合；

有效媒体确定模块，用于根据所述匹配图像特征以及所述目标图像特征，在所述待召回媒体数据集合中确定有效召回媒体数据。

14.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使所述计算机设备执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-12任一项所述的方法。