CN113704506A

CN113704506A - 一种媒体内容排重方法和相关装置

Info

Publication number: CN113704506A
Application number: CN202110368996.1A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-11-26

Abstract

本申请公开一种媒体内容排重方法和相关装置，基于人工智能实现，获取第一媒体内容对应的第一图像集和第二媒体内容对应的第二图像集，对第一图像集中的第一图像和第二图像集中的第二图像分别进行特征提取得到第一特征向量和第二特征向量。对第一图像集中的第一图像和第二图像集中的第二图像分别进行主体识别得到第一主体特征和第二主体特征。对属于同一第一图像的第一主体特征和第一特征向量进行拼接，第一目标特征向量，对属于同一第二图像的第二主体特征和第二特征向量进行拼接，得到第二目标特征向量。根据第一目标特征向量和第二目标特征向量确定第一媒体内容与第二媒体内容是否相似，在二者相似时进行去重处理，从而有效地减少误去重的量。

Description

一种媒体内容排重方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种媒体内容排重方法和相关装置。

背景技术

在互联网快速发展的时代，随着媒体内容生产的门槛降低，媒体内容的上传量发布量以指数级的速度增长。作为内容生产者的用户可以在新媒体平台中上传媒体内容，以吸引其他用户的注意力，为平台带来巨大的流量，尤其是优质的内容生产者包括其背后优质的内容成为这些平台相互追逐的对象，作为内容生产者的用户也可以通过流量分成或奖励等获得收益。

内容创作者为了提升自己的收益，会上传大量类似的媒体内容，以媒体内容是视频为例，内容创作者对视频进行简单的编辑修改或者直接拷贝抄袭其他号主的重复的内容。从而导致搬运的内容阻止了正常号主内容的启用，同时挤占大量的流量，不利于整个内容生态的健康发展。为此媒体内容排重是个重要环节。

相关技术中，主要通过直接对不同媒体内容的图像提取特征向量，然后根据特征向量确定不同媒体内容是否相似，进而进行去重。

然而，这种排重方式中，由于提取的特征向量信息损失较多，对于背景相似但实质内容不同的不同媒体内容，二者之间的差异难以得到较好的体现，进而出现误去重的情况，降低了媒体内容推荐池中的内容供给量。

发明内容

为了解决上述技术问题，本申请提供了一种媒体内容排重方法和相关装置，可以有效减少误去重的量，增加媒体内容推荐池当中的内容启用量，丰富媒体内容的供给量。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种媒体内容排重方法，所述方法包括：

获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集；

对所述第一图像集中的第一图像进行特征提取得到第一特征向量，以及对所述第二图像集中的第二图像进行特征提取得到第二特征向量；

对所述第一图像集中的第一图像进行主体识别得到第一主体特征，以及对所述第二图像集中的第二图像进行主体识别得到第二主体特征；

对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一图像对应的第一目标特征向量，以及对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二图像对应的第二目标特征向量；

若根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似，执行去重处理。

另一方面，本申请实施例提供了一种媒体内容排重装置，所述装置包括获取单元、提取单元、识别单元、拼接单元和去重单元：

所述获取单元，用于获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集；

所述提取单元，用于对所述第一图像集中的第一图像进行特征提取得到第一特征向量，以及对所述第二图像集中的第二图像进行特征提取得到第二特征向量；

所述识别单元，用于对所述第一图像集中的第一图像进行主体识别得到第一主体特征，以及对所述第二图像集中的第二图像进行主体识别得到第二主体特征；

所述拼接单元，用于对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一图像对应的第一目标特征向量，以及对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二图像对应的第二目标特征向量；

所述去重单元，用于若根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似，执行去重处理。

另一方面，本申请实施例提供了一种用于媒体内容排重的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，当用户上传媒体内容后，为了确定已上传的媒体内容之间是否存在内容重复，即是否存在拷贝、抄袭等行为，以已上传媒体内容中的第一媒体内容和第二媒体内容为例，可以获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集，对第一图像集中的第一图像进行特征提取得到第一特征向量，以及对第二图像集中的第二图像进行特征提取得到第二特征向量。由于一些媒体内容之间可能存在比较大面积的背景相似但是主体存在差别，为了更准确的体现这些媒体内容之间的差异，可以进一步对第一图像集中的第一图像进行主体识别得到第一主体特征，以及对第二图像集中的第二图像进行主体识别得到第二主体特征，然后对属于同一第一图像的第一主体特征和第一特征向量进行拼接，得到第一图像对应的第一目标特征向量，以及对属于同一第二图像的第二主体特征和第二特征向量进行拼接，得到第二图像对应的第二目标特征向量，从而将主体特征嵌入到图像的特征向量中，相当于增强了主体在最终图像特征向量中的权重，会使得不同主体的媒体内容差异性更大，更准确的体现这些媒体内容之间的差异。根据这样得到的第一目标特征向量和第二目标特征向量确定第一媒体内容与第二媒体内容是否相似，进而在二者相似时进行去重处理，可以有效减少误去重的量，增加媒体内容推荐池当中的内容启用量，丰富媒体内容的供给量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术提供的一种媒体内容排重方法的实现流程；

图2为本申请实施例提供的一种媒体内容的示例图；

图3为本申请实施例提供的一种媒体内容排重方法的应用场景示意图；

图4为本申请实施例提供的一种媒体内容排重方法的流程示意图；

图5为本申请实施例提供的一种利用特征匹配模型将主体特征嵌入特征向量的示意图；

图6为本申请实施例提供的一种特征匹配模型训练方法的流程示意图；

图7为本申请实施例提供的不同视频的相邻视频帧示例图；

图8为本申请实施例提供的回归模型的训练和特征匹配模型的训练交替进行的训练过程示意图；

图9a为本申请实施例提供的一种编码方式示例图；

图9b为本申请实施例提供的一种tanh激活函数示例图；

图10为本申请实施例提供的一种符号函数示例图；

图11为本申请实施例提供的一种媒体内容排重***的结构示意图；

图12为本申请实施例提供的一种媒体内容排重装置的结构示意图；

图13为本申请实施例提供的终端设备的结构示意图；

图14为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

相关技术中，主要通过直接对不同媒体内容的图像提取特征向量，然后根据特征向量确定不同媒体内容是否相似，进而进行去重。参见图1所示，以媒体内容包括视频101为例，针对视频提取视频帧，得到每个视频帧对应的图像特征102，然后将该图像特征与视频指纹库103中其他视频的视频指纹进行比对，确定相似视频帧104，进而确定该视频与其他视频是否相似，从而得到所有相似视频105。

然而，在一些媒体内容中，例如大量的类似于讲座、天气预报、新闻联播等对应的媒体内容，往往是不同的人物处于相似的背景下，此时对应的一个视频帧例如图2所示。图2左侧的图片(媒体内容包括视频时，抽取的一个视频帧)和图2右侧的图片(媒体内容包括视频时，抽取的一个视频帧)。

由于大面积背景相似，虽然人物不同，但是相关技术中提取的特征向量难以体现这种差异，进而将图2左侧的图片和图2右侧的图片识别为相似图片，从而导致出现误去重的情况，降低了媒体内容推荐池中的内容供给量。

为此，本申请提供一种媒体内容排重方法和相关装置，在提取媒体内容的特征向量时，可以将媒体内容中的主体特征嵌入原始的特征向量中，得到最终的特征向量即目标特征向量。通过这种方法确定的目标特征向量相当于增加了主体在最终的特征向量中的权重，会使得不同主体的媒体内容差异性更大，更准确的体现这些媒体内容之间的差异。对于大面积背景相似但是主体存在差别的媒体内容来说，例如图2左侧的图片和图2右侧的图片，由于增加了主体特征，由于图2左侧的图片和图2右侧的图片中人物不同，那么通过本申请实施例提供的方法确定出的目标特征向量将会明显体现出这种差异，避免由于大面积背景相似而将二者确定为相似图片，从而有效减少误去重的量，增加媒体内容推荐池当中的内容启用量，丰富媒体内容的供给量。

本申请实施例提供的媒体内容排重方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉、机器学习/深度学习等方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例例如可以涉及计算机视觉(Computer Vision)中的图像识别(Imagerecognition，IR)、图像语义理解(Image Semantic Understanding，ISU)、视频处理(videoprocessing)等。其中，图像识别主要是可以用于进行相似图像检测/去重；图像语义理解主要用于进行图像特征提取，包括第一特征向量、第二特征向量、第一主体特征和第二主体特征提取；视频处理主要用于对视频进行分帧处理，抽取视频帧等。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。通过机器学习和深度学习可以训练各种神经网络模型，从而根据神经网络模型预测第一媒体内容与第二媒体内容是否相似，进而实现媒体内容排重。

本申请提供的媒体内容排重方法可以应用于具有数据处理能力的媒体内容排重设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，本申请实施例提供的方法可以应用到新媒体平台，当用户上传媒体内容到新媒体平台后，可以将用户上传的媒体内容进行检索匹配，确认媒体内容之间是否存在内容相似，从而确认用户是否存在拷贝、抄袭等行为，例如对自己或其他用户的媒体内容进行简单的编辑修改，比如视频标题，水印或者编辑裁剪，加入广告的片头和片尾，修改音频等等或者直接拷贝、抄袭其他用户的重复的内容，以便进行媒体内容排重。

为了便于理解本申请的技术方案，下面结合实际应用场景，以服务器作为媒体内容排重设备对本申请实施例提供的媒体内容排重方法进行介绍。

参见图3，图3为本申请实施例提供的媒体内容排重方法的应用场景示意图。在图3所示的应用场景中，包括服务器301和用户使用的终端设备302。其中，服务器301作为前述媒体内容排重设备。

在实际应用中，用户可以利用终端设备302使用已注册的自媒体账号，在新媒体平台内发布媒体内容，服务器301可以通过网络，获取用户发布的媒体内容，媒体内容例如为图片或视频的文章、视频、图片等。

为了确定已上传的媒体内容之间是否存在内容重复，以已上传媒体内容中的第一媒体内容和第二媒体内容为例，服务器301可以获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集。

其中，第一图像集是根据第一媒体内容中包括的视频或图像确定出的图像集合，包括至少一个第一图像；第二图像集是根据第二媒体内容中包括的视频或图像确定出的图像集合，包括至少一个第二图像。通常情况下，第二媒体内容是用户A已上传或与第一媒体内容同时上传的或其他用户已上传的媒体内容，若第一媒体内容中包括的是视频，则第二媒体内容是包括视频的媒体内容；若第一媒体内容中包括的是图片，则第二媒体内容是包括图片的媒体内容。

服务器301对第一图像集中的第一图像进行特征提取得到第一特征向量，以及对第二图像集中的第二图像进行特征提取得到第二特征向量。由于一些媒体内容之间可能存在比较大面积的背景相似但是主体存在差别，为了更准确的体现这些媒体内容之间的差异，服务器301可以进一步对第一图像集中的第一图像进行主体识别得到第一主体特征，以及对第二图像集中的第二图像进行主体识别得到第二主体特征，然后对属于同一第一图像的第一主体特征和第一特征向量进行拼接，得到第一图像对应的第一目标特征向量，以及对属于同一第二图像的第二主体特征和第二特征向量进行拼接，得到第二图像对应的第二目标特征向量，从而将主体特征嵌入到图像的特征向量中，相当于增强了主体在最终图像特征向量中的权重，会使得不同主体的媒体内容差异性更大，更准确的体现这些媒体内容之间的差异。

服务器301根据这样得到的第一目标特征向量和第二目标特征向量确定第一媒体内容与第二媒体内容是否相似，若相似则进行去重处理，若不相似则可以将第一媒体内容和第二媒体内容保存在媒体内容推荐池。

在图3中，以第一媒体内容和第二媒体内容是图片为例，303所示的第一媒体内容与304所示的第二媒体内容背景相似但人物不同，本申请实施例提供的方法与相关技术相比，由于将主体特征嵌入到图像的特征向量中，增强了主体在最终图像特征向量中的权重，从而可以将大面积背景相似但主体不同的两个图片区分开来，判定二者不相似，进而允许将第一媒体内容放入媒体推荐池中，而不会像相关技术一样判定二者相似，避免了误去重的量，增加媒体内容推荐池当中的内容启用量，丰富媒体内容的供给量。

下面以服务器作为媒体内容排重设备对本申请实施例提供的媒体内容排重方法进行具体介绍。

参见图4，图4为本申请实施例提供的一种媒体内容排重方法的流程图。如图4所示，该媒体内容排重方法包括以下步骤：

S401、获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集。

在新媒体时代，能够让用户自己发声、分享、吐槽和传播的平台被称为“自媒体”。用户可以利用终端程序和/或服务器端程序，通过自媒体账号在自媒体平台上发布媒体内容。针对上传到自媒体平台的第一媒体内容和第二媒体内容，可以对该第一媒体内容和第二媒体内容进行排重。

第一媒体内容和第二媒体内容是指用户通过自媒体账号在自媒体平台中所发布的媒体内容，自媒体平台中所发布的媒体内容可以提供给其他用户观看，其展示形式包括但不限于文章、图片和视频。其中，文章可能包括图片和视频中的任意一种或多种组合，视频包括竖版的视频和横版的视频，用户可以通过自媒体账号在自媒体平台上发布，以Feeds流的形式提供给平台上的其他用户观看。

需要说明的是，Feeds，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文：web feed、news feed、syndicated feed)是一种资料格式，网站透过它将最新资讯传播给用户，通常以时间轴(Timeline)方式排列，时间轴是Feeds最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将Feeds汇流于一处称为聚合(aggregation)，而用于聚合的软体称为聚合器(aggregator)。对最终用户而言，聚合器是专门用来订阅网站的软件，一般亦称为RSS阅读器(Rich Site Summary Reader)、feed阅读器、新闻阅读器等。

可以理解的是，第一图像集是根据第一媒体内容中包括的视频或图像确定出的图像集合，包括至少一个第一图像；第二图像集是根据第二媒体内容中包括的视频或图像确定出的图像集合，包括至少一个第二图像。若第一媒体内容和第二媒体内容包括图片，第一图像集中的第一图像和第二图像集中的第二图像为图片本身。若第一媒体内容和第二媒体内容包括视频，则第一图像集中的第一图像和第二图像集中的第二图像为从视频中抽取的视频帧。

在第一媒体内容和第二媒体内容包括视频的情况下，可以从第一媒体内容中抽取多个第一视频帧，得到第一图像集，利用该多个第一视频帧代表第一媒体内容，第一图像集中的第一图像按照多个第一视频帧在第一媒体内容中的时序排列。从第二媒体内容中抽取多个第二视频帧，得到第二图像集，利用该多个第二视频帧代表第二媒体内容，第二图像集中的第二图像按照多个第二视频帧在第二媒体内容中的时序排列。其中，第一图像集中第一视频帧的数量与第二图像集中第二视频帧的数量可以相同，也可以不相同，本实施例对此不做限定。

需要说明的是，从第一媒体内容中抽取多个第一视频帧，以及从第二媒体内容中抽取多个第二视频帧的方式可以是随机抽取、每隔预设时间间隔(例如0.1s)抽取一帧。当然，若综合考虑计算量和成本，可以限定抽取的视频帧的数量不超过预设阈值(包括第一预设阈值和第二预设阈值)，预设阈值例如为30帧。对于时间较长的视频例如超过30秒的视频，可以优先抽取视频的关键帧，不足30帧，在关键帧前后均匀抽帧补齐。

在这种情况下，抽取视频帧的一种可能的实现方式是从第一媒体内容中抽取第一关键视频帧，若第一关键视频帧的数量小于第一预设阈值，对第一媒体内容中位于第一关键视频帧前后的视频帧进行均匀抽取，直到抽取的视频帧总数量达到第一预设阈值，得到第一图像集。从第二媒体内容中抽取第二关键视频帧，若第二关键视频帧的数量小于第二预设阈值，对第二媒体内容中位于第二关键视频帧前后的视频帧进行均匀抽取，直到抽取的视频帧总数量达到第二预设阈值，得到第二图像集。其中，第一预设阈值与第二预设阈值的大小可以相同，也可以不同，本实施例对此不做限定。

S402、对所述第一图像集中的第一图像进行特征提取得到第一特征向量，以及对所述第二图像集中的第二图像进行特征提取得到第二特征向量。

为了比较第一媒体内容和第二媒体内容是否相似，进而实现媒体内容排重，可以对第一图像集中的第一图像进行特征提取得到第一特征向量，以及对第二图像集中的第二图像进行特征提取得到第二特征向量。

需要说明的是，在本实施例中可以通过特征匹配模型提取第一特征向量和第二特征向量，例如将第一图像集中的第一图像和第二图像集中的第二图像输入到特征匹配模型，以任一个第一图像或第二图像为例，参见图5所示，具体可以通过特征匹配模型中的一支例如特征提取子模型，确定第一特征向量或第二特征向量。此处，特征提取子模型可以是任意提取图像特征向量的神经网络模型，例如可以是残差网络(Residual Network，resnet)，例如resnet50、resnet101等等。

S403、对所述第一图像集中的第一图像进行主体识别得到第一主体特征，以及对所述第二图像集中的第二图像进行主体识别得到第二主体特征。

S404、对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一图像对应的第一目标特征向量，以及对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二图像对应的第二目标特征向量。

对于大面积背景相似但是主体存在差别的媒体内容来说，主体特征更能够体现媒体内容之间的差别，因此，可以引入主体目标检测，以提取主体特征，进而将主体特征嵌入到前述提取的特征向量中，共同代表媒体内容。

基于此，在本实施例中，可以对第一图像集中的第一图像进行主体识别得到第一主体特征，以及对第二图像集中的第二图像进行主体识别得到第二主体特征，对属于同一第一图像的第一主体特征和第一特征向量进行拼接，得到第一图像对应的第一目标特征向量，以及对属于同一第二图像的第二主体特征和第二特征向量进行拼接，得到第二图像对应的第二目标特征向量。

需要说明的是，在本实施例中可以通过特征匹配模型提取第一主体特征和第二主体特征，例如将第一图像集中的第一图像和第二图像集中的第二图像输入到特征匹配模型，利用特征匹配模型中的主体检测子模型提取第一主体特征和第二主体特征。然后通过特征匹配模型中的拼接层对属于同一第一图像的第一主体特征和第一特征向量进行拼接，得到第一目标特征向量，以及通过特征匹配模型中的拼接层对属于同一第二图像的第二主体特征和第二特征向量进行拼接，得到第二目标特征向量。这相当于增强了主体在最终图像的embedding中的权重，会使得包括不同主体的图像的embedding差异性更大。

以任一个第一图像或第二图像为例，参见图5所示，具体可以通过特征匹配模型中的另一支例如主体检测子模型，确定第一主体特征或第二主体特征。然后，将主体特征嵌入到特征向量中。以图5所示的图像为任一个第一图像为例，则在得到第一特征向量和第一主体特征后，可以通过拼接层将第一特征向量和第一主体特征进行拼接得到第一目标特征向量。最终使用的第一目标特征向量可以是编码后得到的，例如采用哈希编码，从而作为该第一图像的指纹。

可以理解的是，主体检测子模型可以是各种检测主体目标的模型，例如YOLO模型或者单点多核探测器(Single Shot MultiBox Detector，SSD)模型等等，在本实施例采用的是YOLO模型来检测出图像(包括第一图像和第二图像)中主体的坐标，确定主体特征。其中，检测出的主体可以是图像中的全部或部分主体，部分主体可以是最大主体等，本实施例对此不做限定。

YOLO(You Only Look Once)模型是一种基于深度神经网络的对象识别和定位算法，其最大的特点是运行速度很快，可以用于实时***,对于大量图像的主体检测效率很高，综合机器成本更低。现在YOLO模型已经发展到v5版本，不过新版本也是在原有版本基础上不断改进演化的。SSD是一种目标检测算法，截至目前是主要的检测框架之一，主要用于解决主体检测的问题(定位+分类)，即输入一张图像，输出多个盒的位置信息和类别信息。SSD/YOLO区别：YOLO在卷积层后接全连接层，即检测时只利用了最高层的特征图(Featuremaps)，SSD采用金字塔结构，即利用了conv4-3/conv-7/conv6-2/conv7-2/conv8_2/conv9_2这些大小不同的feature maps，在多个feature maps上同时进行softmax分类和位置回归。SSD还加入了Prior box，SSD网络中的Prior Box层用于部署特征图中每个位置(像素点)处的默认框。

S405、若根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似，执行去重处理。

在得到可以准确代表第一媒体内容的第一目标特征向量，以及准确代表第二媒体内容的第二目标特征向量，则根据第一目标特征向量和第二目标特征向量确定第一媒体内容与第二媒体内容是否相似，从而根据相似性确定结果进行去重处理。

需要说明的是，本实施例仅以第一媒体内容和第二媒体内容为例，实际上可以通过上述方法检索到所有相似的媒体内容，进而对相似的媒体内容进行去重。

在本实施例中，若特征匹配模型中包括匹配子模型，则可以将通过特征匹配模型中的匹配子模型，根据第一目标特征向量和第二目标特征向量确定第一媒体内容与第二媒体内容是否相似。

需要说明的是，在本实施例中，可以通过Faiss向量检索的方式确定第一媒体内容与第二媒体内容是否相似。Faiss是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法，以及用于算法评估和参数调整的支持代码。Faiss库包含相似性搜索的多种方法，核心模块包括高性能聚类、主成分分析(Principal Component Analysis，PCA)、乘积量化(Product Quantization，PQ)。它假设实例被表示为向量，并用整数标识，同时向量可以与特征距离或点积进行比较。与查询向量类似的向量是那些与查询向量具有最低特征距离(例如L2距离)或具有最高点积的向量。它还支持余弦相似性，也就是说Faiss中采用的相似度计算方法主要是两种：欧式距离和点积，本申请实施例主要以欧式距离为例进行介绍。一旦这些向量被学习机提取出来(从图像、视频、文本文件或其他渠道)，就已经可以被输入进相似性搜索库进行检索匹配。在本实施例中，提取第一媒体内容对应的第一目标特征向量，输入进相似性搜索库进行检索匹配，在检索匹配的过程中，还需确定第二媒体内容(相似性搜索库中的媒体内容)对应的第二目标特征向量，从而根据第一目标特征向量和第二目标特征向量，确定第一媒体内容与第二媒体内容之间的相似度，若相似度满足预设条件，确定第一媒体内容与第二媒体内容相似。

可以理解的是，本申请实施例中第一媒体内容和第二媒体内容可以包括图片或视频，当第一媒体内容和第二媒体内容包括不同类型的内容时，计算相似度的方法也可能有所不同。

若第一媒体内容和第二媒体内容包括图片，确定第一媒体内容与第二媒体内容之间的相似度的方式可以是根据第一目标特征向量和第二目标特征向量，确定第一媒体内容与第二媒体内容之间的第二特征距离，第二特征距离用于表示第一媒体内容与第二媒体内容之间的相似度。在这种情况下，若相似度满足预设条件，确定第一媒体内容与第二媒体内容相似的方式可以是若第二特征距离小于或等于第一距离阈值，确定第一媒体内容与第二媒体内容相似，此时预设条件为第二特征距离小于或等于第一距离阈值。

其中，第一距离阈值可以是根据实际需求预先设置的，例如通常情况下可以将第一距离阈值设置为150。

若第一媒体内容和第二媒体内容包括视频，确定第一媒体内容与第二媒体内容之间的相似度的方式可以是对第一图像集中的第一图像与第二图像集中的第二图像进行对齐，建立第一图像与第二图像的对应关系。然后，针对每对具有对应关系的第一图像和第二图像，根据第一目标特征向量和第二目标特征向量，确定第一图像和第二图像之间的第三特征距离。若第三特征距离小于或等于第二距离阈值，确定第一图像和第二图像相似，获取相似的第一图像和第二图像的对数，相似的第一图像和第二图像的对数用于表示第一媒体内容与第二媒体内容之间的相似度。第二距离阈值可以是根据实际需求预先设置的，例如通常情况下可以将第二距离阈值设置为150。

例如，第一图像集中第一图像的数量是30帧，按照时序排列依次是a1、a2、a3、……、a30，第二图像集中第二图像的数量是25帧，按照时序排列依次是b1、b2、b3、……、b25。则对第一图像集中的第一图像与第二图像集中的第二图像进行对齐，建立第一图像与第二图像的对应关系时，即a1与b1具有对应关系，a2与b2具有对应关系，a3与b3具有对应关系，……，a25与b25具有对应关系，从而比较具有对应关系的第一图像和第二图像是否相似，进而确定第一媒体内容与第二媒体内容之间的相似度。

利用相似的第一图像和第二图像的对数表示第一媒体内容与第二媒体内容之间的相似度可以包括多种方式。具体地，一种方式可以是将相似的第一图像和第二图像的对数直接作为相似度，这样，若相似的第一图像和第二图像的对数达到预设数量，确定第一媒体内容与第二媒体内容相似。另一种方式可以是获取第一图像和第二图像的总对数，将相似的第一图像和第二图像的对数与总对数的比值作为第一媒体内容与第二媒体内容之间的相似度，这样，若比值达到预设比值，确定第一媒体内容与第二媒体内容相似。预设比值可以是根据实际需要预先设定的，例如可以是80％。

其中，第一图像和第二图像的总对数可以是第一图像的数量与第二图像的数量中的最小值。例如上述对第一图像集中的第一图像与第二图像集中的第二图像进行对齐后，得到的对应关系为a1与b1具有对应关系，a2与b2具有对应关系，a3与b3具有对应关系，……，a25与b25具有对应关系，则第一图像和第二图像的总对数为25，25是第二图像的数量。

另外，通过主体特征嵌入特征向量，图片和视频去重的效果改善明显，能够有效减少信息流分发过程当中不必要的人工审核和处理数量，节省大量的资源。

接下来，将对上述方法中使用到的特征匹配模型的训练方式进行介绍。参见图6，所述方法包括：

S601、获取训练样本中第一历史媒体内容对应的第三图像集，以及所述训练样本中第二历史媒体内容对应的第四图像集。

其中，第一历史媒体内容和第二历史媒体内容作为训练特征匹配模型的训练样本，已知二者是否相似。第一历史媒体内容和第二历史媒体内容是否相似可以通过目标标签标识。

S602、通过特征匹配模型中的特征提取子模型，确定所述第三图像集中的图像对应的第三特征向量和所述第四图像集中的图像对应的第四特征向量。

S603、通过所述特征匹配模型中的主体检测子模型，确定所述第三图像集中的图像对应的第三主体特征和所述第四图像集中的图像对应的第四主体特征。

S604、通过所述特征匹配模型中的拼接层对属于同一图像的所述第三主体特征和所述第三特征向量进行拼接，得到所述第三目标特征向量，以及通过所述特征匹配模型中的拼接层对属于同一图像的所述第四主体特征和所述第四特征向量进行拼接，得到所述第四目标特征向量。

在本实施例中，在训练的过程中便将主体特征嵌入到特征向量中，S602-S604的过程与使用特征匹配模型进行排重的过程类似，此处不再赘述。

S605、根据所述第三目标特征向量、所述第四目标特征向量以及目标标签对所述特征匹配模型进行训练。

特征匹配模型根据第三目标特征向量和第四目标特征向量预测第一历史媒体内容与第二历史媒体内容是否相似，并根据预测结果与目标标签调整特征匹配模型的参数，完成对特征匹配模型的训练。

在一些情况下，若第一历史媒体内容和第二历史媒体内容为视频，此时第三图像集中图像为从第一历史媒体内容中抽取的多个视频帧，第三图像集中的图像按照视频帧在第一历史媒体内容中的时序排列；第四图像集中图像为从第二历史媒体内容中抽取的多个视频帧，第四图像集中的图像按照视频帧在第二历史媒体内容中的时序排列。也就是说，本实施例通过抽取多个视频帧来代表一个视频，如果多个视频帧都是类似的，将无法代表整个视频。

如图7所示，以视频A和视频B中的第三帧和第四帧为例，图7中左下图像本来应该和右下图像匹配相似，即不同视频对应的视频帧保持相似，但是图7中左下图像和右上图像也匹配相似，即从同一视频中抽取的多个视频帧相似，进而无法代表整个视频，导致两个视频是否相似的确定结果可能不准确。

为此，为了避免由于主体特征的引入而导致同一视频的相邻视频帧相似，进而影响两个视频是否相似的确定结果，训练过程中引入相邻视频帧距离保持策略。在训练的过程中，设置了两支输入的通道(pipeline)，一支就是正常的正负样本对对比学习的pipeline，一支就是额外准备的取自同一视频的相邻视频帧进行距离保持。距离保持策略可以是通过回归模型实现，通过回归模型确定第三图像集或第四图像集中相邻视频帧之间的第一特征距离，根据第一特征距离和基准距离对回归模型进行训练，回归模型的训练和特征匹配模型的训练交替进行。其中，基准距离可以是引入主体特征前所采用模型对相邻视频帧间距离的判断。

具体的训练过程如图8所示，通过特征匹配模型的主干网络(backbone)读取原始数据做对比学习，每一次迭代可以预测第三图像集中的图像与第四图像集中的图像是否相似，得到预测结果。其中相似可以用1表示，不相似可以用0表示。回归模型的训练和特征匹配模型的训练进行交替的周期可以用T表示，代表的含义是每T次迭代中有一次是使用相邻视频帧的数据做回归的，其余T-1次都是在做对比学习，在图8中相当于T＝4。

在本实施例中，回归模型训练的损失函数可以用L1范数损失函数(loss)，是回归相邻视频帧的特征距离，使得二者进行距离保持。L1范数损失函数，也被称为最小绝对值偏差(Least Absolute Deviations，LAD)、最小绝对值误差(least absolute error，LAE)。总的说来，它是把目标值Y_i与估计值f(x_i)的绝对差值的总和S最小化，其中，S表示如下：

二分类相似的分支(HashNet Binary Loss)就是常用的对数损失函数，二分类的逻辑回归对于逻辑回归，有：

θ表示参数向量，x为输入，T为周期，hθ(x)是二分类分支，表示输出结果，预测是否相似。它的输入范围是-∞→+∞，而之于刚好为(0，1)，正好满足概率分布为(0，1)的要求。可以用概率去描述分类器，自然比单纯的某个阈值要方便很多；它是一个单调上升的函数，具有良好的连续性，不存在不连续点。

对数损失函数(logarithmic loss function)：L(Y,P(Y|X))＝-logP(Y|X),其中，X为输入，Y表示输入为X的情况下得到的预测结果，L(Y，P(Y|X))表示输入为X的情况下得到的预测结果Y的概率。

在本实施例中，采用的是对数损失函数。根据前述内容，可以得到逻辑回归的对数似然损失函数(cost function)：

将以上两个表达式合并为一个，则单个样本的损失函数可以描述为：

cost(h_θ(x)，y)＝－y_ilog(h_θ(x))-(1-y_i)log(１－h_θ(x))这就是逻辑回归最终的损失函数表达式，其中，y_i是输入为目标预测结果。

需要说明的是，目前backbone的算法是基于resnet50的孪生网络，对输入图像通过相同的孪生网络提取特征向量，进行编码成01向量降维，具体如图9a所示，主要目的是为了降低维度，减少存储空间，同时不损失进度，有利于大规模的工程实现。图9a所示编码的方式为：尺度变换+tanh激活函数+符号函数。

tanh函数的输出已经比较接近01了(参见图9b)，tanh的输出进行loss约束。tanh是双曲函数中的一个，tanh()为双曲正切。在数学中，双曲正切“tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来，推导公式如下所示：

再将tanh输出进行sign化，也没有损失太多精度。sign又叫sgn，意思是符号。符号函数(一般用sign(x)表示)是很有用的一类函数，能够帮助我们在几何画板中实现一些直接实现有困难的构造。符号函数能够把函数的符号析离出来。在数学和计算机运算中，其功能是取某个数的符号(正或负)：当x>0，sign(x)＝1；当x＝0，sign(x)＝0；当x<0，sign(x)＝-1，参见图10所示。在通信中，sign(t)表示这样一种信号：当t≥0，sign(t)＝1；即从t＝0时刻开始，信号的幅度均为1；当t<0，sign(t)＝-1；在t＝0时刻之前，信号幅度均为-1。

这里衡量两个特征向量的距离是使用特征向量的内积，结果的范围是-1024～1024(1024维度)，Loss约束是对比损失函数(contrastive loss)，当y＝1时，二者相似，尽量最小化d，y＝0时，最小化Max(0，m-d)，m是设置的不相似向量应保持的距离，d>＝m时，loss最小，比如这里如果01向量距离是使用汉明距离，m参数设置的是15。公式描述如下：

模型：f将输入数据x转换为一组特征向量，这里x就是拼接后得到的目标特征向量，目标特征向量包括第三目标特征向量x₁和第四目标特征向量x₂，或者包括第一目标特征向量x₁和第一目标特征向量x₂。

距离：d(x₁,x₂)＝f(x₁)^T*f(x₂)两个01向量之间的内积。

损失函数：L＝y(d)²+(1-y)(max(0,m-d))²。

为了更好的理解本申请实施例提供的媒体内容排重方法，本申请实施例还提供了一种媒体内容排重***。下面对本申请实施例提供的媒体内容排重***进行介绍。

参见图11，图11为本申请实施例提供的一种媒体内容排重***的结构示意图。如图11所示，该媒体内容排重***包括内容生产端1101、内容消费端1102、上下行内容接口服务器1103、内容数据库1104、调度中心1105、人工审核***1106、内容存储服务器1107、下载文件***1108、抽帧服务1109、主体嵌入向量生成服务1110、分布式向量检索服务1111、排重关系链计算服务1112和内容出口分发服务1113：

所述内容生产端1101，用于：

(1)专业生产内容(Professional Generated Content，PGC)、用户原创内容(UserGenerated Content，UGC)、专业用户原创内容(Professional User Generated Content，PUGC)或者多频道网络(Multi-Channel Network，MCN)的内容生产者，通过应用程序接口(Application Programming Interface，API)提供媒体内容，包括图文内容或者视频内容，这些都是分发内容的主要内容来源；

(2)通过和上下行内容接口服务器1103的通讯，上传媒体内容。若媒体内容包括图文内容，图文内容来源通常是一个轻量级发布端和编辑内容入口；若媒体内容包括视频内容，视频内容发布通常是一个拍摄摄影端，拍摄过程当中本地视频内容可以选择搭配的音乐，滤镜模板和视频的美化功能等等。

所述内容消费端1102，用于：

(1)作为消费者，和上下行内容接口服务器1103通讯，通过推荐获取访问内容的索引信息，然后和内容存储服务器1107通讯，获取对应的内容包括推荐得到内容、专题订阅的内容，内容存储服务器1107存储的是内容实体比如视频源文件、图片源文件，而内容的元信息比如标题、作者、封面图、分类、标签(Tag)信息等等存储在内容数据库1104；

(2)同时将上传和下载过程当中用户播放的行为数据，卡顿，加载时间，播放等上报给后端用于统计分析；

(3)通常通过Feeds流方式浏览内容数据。

所述上下行内容接口服务器1103

(1)上下行内容接口服务器1103和内容生产端1101直接通讯，从前端提交的媒体内容，通常是媒体内容的标题、发布者、摘要、封面图、发布时间，把文件存入内容数据库1104；

(2)将媒体内容的元信息，比如文件大小、封面图链接、标题、发布时间、作者、分辨率、码率等信息写入内容数据库1104；

(3)将提交的媒体内容同步给调度中心1105，进行后续的内容处理和流转。

所述内容数据库1104，用于：

(1)内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息比如文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、是否原创的标记或者首发，还包括人工审核过程中对媒体内容的分类(包括一、二、三级别分类和标签信息，比如一篇讲解华为手机的文章，一级分科是科技，二级分类是智能手机，三级分类是国内手机，标签信息是华为，mate30)；

(2)人工审核过程当中会读取内容数据库1104当中的信息，同时人工审核的结果和状态也会回传进入内容数据库1104；

(3)调度中心1105对内容处理主要包括机器处理和人工审核处理，这里机器处理核心各种质量判断比如低质过滤，内容标签比如分类、标签信息，还有就是内容排重，他们的结果会写入内容数据库1104，完全重复一样的内容不会给人工进行重复的二次处理，可以有效降低人工处理的成本；

(4)后续抽取标签的时候会从内容数据库1104读取内容的元信息。

所述调度中心1105，用于：

(1)负责内容流转的整个调度过程，通过上下行内容接口服务器1103接收入库的媒体内容，然后从内容数据库1104中获取媒体内容的元信息；

(2)调度人工审核***1106和机器处理***，控制调度的顺序和优先级。

所述人工审核***1106，用于：

(1)通过人工审核***1106内容被启用，然后通过内容出口分发服务1113(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给内容消费端1102，也就是内容消费端1102获得的内容索引信息，通常是内容访问的入口统一资源***(UniformResource Locator，URL)地址；

(2)人工审核***1106是人工服务能力的载体，主要用于审核过滤政治敏感、色情、法律不允许等机器无法确定判断的内容，同时还进行媒体内容的标签标注。

所述内容存储服务器1107，用于：

(1)存储媒体内容的元信息之外的内容实体信息，比如视频源文件和图文内容的图片源文件；

(2)在媒体内容标签抽取的时，为标签服务提供视频源文件包括源文件中间的抽帧内容。

所述下载文件***1108，用于：

(1)从内容存储服务器1107下载和获取原始的媒体内容，控制下载的速度和进度，通常是一组并行的服务器，有相关的任务调度和分发集群构成；

(2)下载完成的文件调用抽帧服务1109从源文件当中获取必要的图像集(例如第一图像集和第二图像集)，作为后续构造特征向量的数据源。

所述抽帧服务1109，用于：

(1)按照上面提到的算法和策略，对下载文件***1108从内容存储服务器1107上下载到的文件进行初级处理；

(2)在媒体内容包括视频的情况下，综合考虑计算量和成本，最多抽取30帧。对于超过30秒的视频内容，优先抽取视频的关键帧，不足30帧，在关键帧前后均匀抽帧补齐。

所述主体嵌入向量生成服务1110，用于：

(1)按照上面的详细描述算法模型，构建的主体嵌入的向量生成方法，训练得到对应的特征匹配模型，然后通过该特征匹配模型来构建嵌入主体特征的目标特征向量；

(2)和分布式向量检索服务1111提供主体嵌入向量的数据源。

所述分布式向量检索服务1111，用于：

(1)如上所述，在构建的主体嵌入向量基础上，对向量的索引进行分布式管理和检索匹配，这里具体实现采用的是Faiss来管理所有的主体嵌入向量。

所述排重关系链计算服务1112，用于：

(1)如上面详细描述，得到主体特征嵌入的目标特征向量后，然后通过分布式向量检索服务1111和图4对应实施例中提供的排重方法，来检索第一媒体内容是否与第二媒体内容重复；

(2)将检索得到满足条件的所有重复媒体内容就得到了排重计算的结果，此时依据产品策略比如原创号主或者质量清晰度最高的一个启用即可。

为了更好的理解本申请实施例提供的媒体内容排重方法，下面结合具体的应用场景对上述异常账号确定过程进行介绍。

自媒体平台通过调用媒体内容排重***，对用户上传的媒体内容进行排重。以媒体内容是视频为例，针对一个视频(即第一媒体内容)和其他视频(即第二媒体内容)进行抽帧，得到第一图像集和第一图像集；然后通过主体嵌入向量生成服务将主体嵌入特征向量，得到第一图像集中每个视频帧对应的第一目标特征向量，以及第二图像集中每个视频帧对应的第二目标特征向量。进而通过分布式向量检索服务根据第一目标特征向量和第二目标特征向量确定两个视频是否相似，从而检索到所有重复的视频。最后，依据产品策略比如原创号主或者质量清晰度最高的一个启用即可。

针对上述实施例提供的媒体内容排重方法，本申请实施例还提供了一种媒体内容排重装置。参见图12，图12为本申请实施例提供的一种媒体内容排重装置的结构图，该装置1200，包括所述装置包括获取单元1201、提取单元1202、识别单元1203、拼接单元1204和去重单元1205：

所述获取单元1201，用于获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集；

所述提取单元1202，用于对所述第一图像集中的第一图像进行特征提取得到第一特征向量，以及对所述第二图像集中的第二图像进行特征提取得到第二特征向量；

所述识别单元1203，用于对所述第一图像集中的第一图像进行主体识别得到第一主体特征，以及对所述第二图像集中的第二图像进行主体识别得到第二主体特征；

所述拼接单元1204，用于对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一图像对应的第一目标特征向量，以及对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二图像对应的第二目标特征向量；

所述去重单元1205，用于若根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似，执行去重处理。

在一种可能的实现方式中，所述第一媒体内容和所述第二媒体内容包括图片，所述第一图像集中的第一图像和所述第二图像集中的第二图像为所述图片本身。

在一种可能的实现方式中，所述第一媒体内容和所述第二媒体内容包括视频，所述获取单元1201，用于：

从所述第一媒体内容中抽取多个第一视频帧，得到所述第一图像集，所述第一图像集中的第一图像按照所述多个第一视频帧在所述第一媒体内容中的时序排列；

从所述第二媒体内容中抽取多个第二视频帧，得到所述第二图像集，所述第二图像集中的第二图像按照所述多个第二视频帧在所述第二媒体内容中的时序排列；所述第一图像集中第一视频帧的数量与所述第二图像集中第二视频帧的数量相同。

在一种可能的实现方式中，所述获取单元1201，用于：

从所述第一媒体内容中抽取第一关键视频帧；

若所述第一关键视频帧的数量小于第一预设阈值，对所述第一媒体内容中位于所述第一关键视频帧前后的视频帧进行均匀抽取，直到抽取的视频帧总数量达到所述第一预设阈值，得到所述第一图像集；

从所述第二媒体内容中抽取第二关键视频帧；

若所述第二关键视频帧的数量小于第二预设阈值，对所述第二媒体内容中位于所述第二关键视频帧前后的视频帧进行均匀抽取，直到抽取的视频帧总数量达到所述第二预设阈值，得到所述第二图像集。

在一种可能的实现方式中，所述提取单元1202，用于通过特征匹配模型中的特征提取子模型，确定所述第一特征向量和所述第二特征向量；

所述识别单元1203，用于通过所述特征匹配模型中的主体检测子模型，确定所述第一主体特征和所述第二主体特征；

所述拼接单元1204，用于通过所述特征匹配模型中的拼接层对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一目标特征向量，以及通过所述特征匹配模型中的拼接层对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二目标特征向量；

所述去重单元1205，用于通过所述特征匹配模型中的匹配子模型，根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似。

在一种可能的实现方式中，所述装置还包括训练单元：

所述训练单元，用于获取训练样本中第一历史媒体内容对应的第三图像集，以及所述训练样本中第二历史媒体内容对应的第四图像集，所述第一历史媒体内容和所述第二历史媒体内容是否相似通过目标标签标识；

通过特征匹配模型中的特征提取子模型，确定所述第三图像集中的图像对应的第三特征向量和所述第四图像集中的图像对应的第四特征向量；

通过所述特征匹配模型中的主体检测子模型，确定所述第三图像集中的图像对应的第三主体特征和所述第四图像集中的图像对应的第四主体特征；

通过所述特征匹配模型中的拼接层对属于同一图像的所述第三主体特征和所述第三特征向量进行拼接，得到所述第三目标特征向量，以及通过所述特征匹配模型中的拼接层对属于同一图像的所述第四主体特征和所述第四特征向量进行拼接，得到所述第四目标特征向量；

根据所述第三目标特征向量、所述第四目标特征向量以及目标标签对所述特征匹配模型进行训练。

在一种可能的实现方式中，所述第一历史媒体内容和所述第二历史媒体内容为视频，所述第三图像集中图像为从所述第一历史媒体内容中抽取的多个视频帧，所述第三图像集中的图像按照视频帧在所述第一历史媒体内容中的时序排列；所述第四图像集中图像为从所述第二历史媒体内容中抽取的多个视频帧，所述第四图像集中的图像按照视频帧在所述第二历史媒体内容中的时序排列，所述训练单元还用于：

通过回归模型确定所述第三图像集或第四图像集中相邻视频帧之间的第一特征距离；

根据所述第一特征距离和基准距离对所述回归模型进行训练，所述回归模型的训练和所述特征匹配模型的训练交替进行。

在一种可能的实现方式中，所述去重单元1205，用于根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容之间的相似度；

若所述相似度满足预设条件，确定所述第一媒体内容与所述第二媒体内容相似。

在一种可能的实现方式中，若所述第一媒体内容和所述第二媒体内容包括图片，所述去重单元1205，用于根据所述第一目标特征向量和所述第二目标特征向量，确定所述第一媒体内容与所述第二媒体内容之间的第二特征距离，所述第二特征距离用于表示所述第一媒体内容与所述第二媒体内容之间的相似度；

若所述第二特征距离小于或等于第一距离阈值，确定所述第一媒体内容与所述第二媒体内容相似，所述预设条件为所述第二特征距离小于或等于所述第一距离阈值。

在一种可能的实现方式中，若所述第一媒体内容和所述第二媒体内容包括视频，所述去重单元1205，用于对所述第一图像集中的第一图像与所述第二图像集中的第二图像进行对齐，建立所述第一图像与所述第二图像的对应关系；

针对每对具有对应关系的第一图像和第二图像，根据所述第一目标特征向量和所述第二目标特征向量，确定所述第一图像和所述第二图像之间的第三特征距离；

若所述第三特征距离小于或等于第二距离阈值，确定所述第一图像和所述第二图像相似；

获取相似的第一图像和第二图像的对数，所述相似的第一图像和第二图像的对数用于表示所述第一媒体内容与所述第二媒体内容之间的相似度。

本申请实施例还提供了一种用于媒体内容排重的设备，该设备可以是终端设备，以终端设备为智能手机为例：

图13示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图13，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1370、处理器1380、以及电源1390等部件。输入单元1330可包括触控面板1331以及其他输入设备1332，显示单元1340可包括显示面板1341，音频电路1360可以包括扬声器1361和传声器1362。本领域技术人员可以理解，图13中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1380是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

在本实施例中，由所述设备中的处理器1380所执行的步骤可以基于图13所示的结构实现。

该设备还可以包括服务器，请参见图14所示，图14为本申请实施例提供的服务器1400的结构图，服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本实施例中，所述服务器1400中的中央处理器1422可以执行以下步骤：

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的媒体内容排重方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种媒体内容排重方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一媒体内容和所述第二媒体内容包括图片，所述第一图像集中的第一图像和所述第二图像集中的第二图像为所述图片本身。

3.根据权利要求1所述的方法，其特征在于，所述第一媒体内容和所述第二媒体内容包括视频，所述获取第一媒体内容对应的第一图像集以及第二媒体内容对应的第二图像集，包括：

从所述第二媒体内容中抽取多个第二视频帧，得到所述第二图像集，所述第二图像集中的第二图像按照所述多个第二视频帧在所述第二媒体内容中的时序排列。

4.根据权利要求3所述的方法，其特征在于，从所述第一媒体内容中抽取多个第一视频帧，得到所述第一图像集，包括：

从所述第一媒体内容中抽取第一关键视频帧；

从所述第二媒体内容中抽取多个第二视频帧，得到所述第二图像集，包括：

从所述第二媒体内容中抽取第二关键视频帧；

5.根据权利要求1所述的方法，其特征在于，所述对所述第一图像集中的第一图像进行特征提取得到第一特征向量，以及对所述第二图像集中的第二图像进行特征提取得到第二特征向量，包括：

通过特征匹配模型中的特征提取子模型，确定所述第一特征向量和所述第二特征向量；

对所述第一图像集中的第一图像进行主体识别得到第一主体特征，以及对所述第二图像集中的第二图像进行主体识别得到第二主体特征，包括：

通过所述特征匹配模型中的主体检测子模型，确定所述第一主体特征和所述第二主体特征；

对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一图像对应的第一目标特征向量，以及对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二图像对应的第二目标特征向量，包括：

通过所述特征匹配模型中的拼接层对属于同一第一图像的所述第一主体特征和所述第一特征向量进行拼接，得到所述第一目标特征向量，以及通过所述特征匹配模型中的拼接层对属于同一第二图像的所述第二主体特征和所述第二特征向量进行拼接，得到所述第二目标特征向量；

所述根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似，包括：

通过所述特征匹配模型中的匹配子模型，根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似。

6.根据权利要求5所述的方法，其特征在于，所述特征匹配模型的训练方式为：

获取训练样本中第一历史媒体内容对应的第三图像集，以及所述训练样本中第二历史媒体内容对应的第四图像集，所述第一历史媒体内容和所述第二历史媒体内容是否相似通过目标标签标识；

7.根据权利要求6所述的方法，其特征在于，若所述第一历史媒体内容和所述第二历史媒体内容为视频，所述第三图像集中图像为从所述第一历史媒体内容中抽取的多个视频帧，所述第三图像集中的图像按照视频帧在所述第一历史媒体内容中的时序排列；所述第四图像集中图像为从所述第二历史媒体内容中抽取的多个视频帧，所述第四图像集中的图像按照视频帧在所述第二历史媒体内容中的时序排列，所述方法还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容相似，包括：

根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容之间的相似度；

9.根据权利要求8所述的方法，其特征在于，若所述第一媒体内容和所述第二媒体内容包括图片，所述根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容之间的相似度，包括：

根据所述第一目标特征向量和所述第二目标特征向量，确定所述第一媒体内容与所述第二媒体内容之间的第二特征距离，所述第二特征距离用于表示所述第一媒体内容与所述第二媒体内容之间的相似度；

若所述相似度满足预设条件，确定所述第一媒体内容与所述第二媒体内容相似，包括：

10.根据权利要求8所述的方法，其特征在于，若所述第一媒体内容和所述第二媒体内容包括视频，所述根据所述第一目标特征向量和所述第二目标特征向量确定所述第一媒体内容与所述第二媒体内容之间的相似度，包括：

对所述第一图像集中的第一图像与所述第二图像集中的第二图像进行对齐，建立所述第一图像与所述第二图像的对应关系；

11.一种媒体内容排重装置，其特征在于，所述装置包括获取单元、提取单元、识别单元、拼接单元和去重单元：

12.根据权利要求11所述的装置，其特征在于，所述第一媒体内容和所述第二媒体内容包括图片，所述第一图像集中的第一图像和所述第二图像集中的第二图像为所述图片本身。

13.根据权利要求11所述的装置，其特征在于，所述第一媒体内容和所述第二媒体内容包括视频，所述获取单元，用于：

14.一种用于媒体内容排重的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-10任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-10任意一项所述的方法。