WO2022052630A1

WO2022052630A1 - 一种多媒体信息处理方法、装置、电子设备及存储介质

Info

Publication number: WO2022052630A1
Application number: PCT/CN2021/107117
Authority: WO
Inventors: 杨喻茸; 徐叙远; 龚国平; 方杨
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-09-11
Filing date: 2021-07-19
Publication date: 2022-03-17
Also published as: EP4114012A4; EP4114012A1; US20230031846A1; CN112104892A; CN112104892B; US11887619B2

Abstract

本申请提供了一种多媒体信息处理方法、装置、电子设备以及存储介质，方法包括：对多媒体信息进行解析以分离出多媒体信息中的音频；对音频进行转换处理，得到与音频相对应的梅尔频谱图；根据音频相对应的梅尔频谱图，确定音频对应的音频特征向量；基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定目标多媒体信息与源多媒体信息的相似度。

Description

一种多媒体信息处理方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请基于申请号为202010956391.X、申请日为2020年09月11日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及多媒体信息处理技术，尤其涉及多媒体信息处理方法、装置、电子设备及存储介质。

背景技术

相关技术中，多媒体信息的形式多种多样，多媒体信息的需求量呈现爆发式增长，多媒体信息的数量和种类也越来越多。

以视频为例，随着视频编辑工具的普及和发展，视频画面攻击种类变得更加复杂，通过视频过度裁剪，视频的相似辨别愈加困难。在这种经过裁剪的视频中，单纯的依赖视频图像指纹难以识别部分对画面改变较多的视频重复和侵权内容，导致相似识别的精度低。

发明内容

本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种多媒体信息处理方法，由电子设备执行，所述方法包括：

对多媒体信息进行解析以分离出所述多媒体信息中的音频；

对所述音频进行转换处理，得到与所述音频相对应的梅尔频谱图；

根据所述音频相对应的梅尔频谱图，确定所述音频对应的音频特征向量；

基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定所述目标多媒体信息与所述源多媒体信息的相似度。

本申请实施例还提供了一种多媒体信息处理装置，所述装置包括：

信息传输模块，配置为对多媒体信息进行解析以分离出所述多媒体信息中的音频；

信息处理模块，配置为：

本申请实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现本申请实施例提供的多媒体信息处理方法。

本申请实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现本申请实施例提供的多媒体信息处理方法。

附图说明

图1是本申请实施例提供的一种多媒体信息处理方法的使用环境示意图；

图2为本申请实施例提供的电子设备的组成结构示意图；

图3为本申请实施例提供的视频过度裁剪的示意图；

图4为本申请实施例提供的多媒体信息处理方法的流程示意图；

图5为本申请实施例中的多媒体信息处理模型的处理过程示意图；

图6为本申请实施例提供的相似识别的流程示意图；

图7为本申请实施例提供的训练多媒体信息处理模型的流程示意图；

图8为本申请实施中迭代处理的效果示意图；

图9是本申请实施例提供的区块链网络的架构示意图；

图10是本申请实施例提供的区块链网络中区块链的结构示意图；

图11是本申请实施例提供的区块链网络的功能架构示意图；

图12为本申请实施例提供的多媒体信息处理方法的使用场景示意图；

图13为本申请实施例中多媒体信息处理方法的使用过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)多媒体信息：泛指互联网中可获取的各种形式的多媒体信息。多媒体信息可以包括文本、声音以及图像中的至少之一，当然并不限于此。例如，多媒体信息可以是长视频(如用户上传的视频时长大于或等于1分钟的视频)，可以是短视频(如用户上传的视频时长小于1分钟的视频)，也可以是音频，如带固定画面的音乐短片(Music Video，MV)或者唱片等。

3)客户端：终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，功能如执行线上直播(视频推流)的功能或者是在线视频的播放功能。

4)短时傅里叶变换(STFT，Short-Time Fourier Transform)：是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

5)梅尔频谱(MBF，Mel Bank Features)：由于对音频进行处理(如STFT处理)得到的声谱图较大，故为了得到合适大小的声音特征，可以将声谱图通过梅尔尺度滤波器组(Mel-scale filter banks)，以将声谱图变为梅尔频谱。其中，声谱图是由频谱图在时间上堆叠起来得到的。

6)信息流：按照特定规格样式的上下排布的一种内容组织形态。从展示排序角度而言，可以应用时间排序、热度排序或算法排序等方式。

7)音频特征向量：即音频01向量，是基于音频生成的二值化的特征向量。

图1为本申请实施例提供的多媒体信息处理方法的使用环境示意图，参见图1，终端(如终端10-1和终端10-2)上设置有能够执行不同功能的客户端，其中，终端(如终端10-1和终端10-2)可以利用客户端中的业务进程，通过网络300从相应的服务器200中获取不同的多媒体信息进行浏览，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。其中，对终端(如终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的多媒体信息的类型并不限定，例如包括但不限于：长视频(例如用户上传的视频时长大于或等于1分钟的视频，或者用户需要进行版权验证的已有视频)、短视频(例如用户上传的视频时长小于1分钟的视频)、音频(例如带固定画面的MV或者唱片)。例如：终端(如终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取长视频(即视频中携带视频信息或相应的视频链接)，也可以通过同一视频客户端或者微信小程序利用网络300从相应的服务器400中获取短视频进行浏览。服务器200和服务器400中可以保存有不同类型的多媒体信息。其中，本申请中不对不同类型的多媒体信息的播放环境进行区分。在这一过程中向用户的客户端推送的多媒体信息应当是版权合规的多媒体信息，因此对于数量众多的多媒体信息，需要判断哪些多媒体信息是相似的，并进一步地对相似的多媒体信息的版权信息进行合规检测，避免推送重复或者侵权的多媒体信息。

以短视频为例，本申请实施例可以应用于短视频播放，在短视频播放中通常会对不同数据来源的不同短视频进行处理，最终在用户界面(UI，User Interface)上呈现出与相应的用户相对应的待推荐视频，如果推荐的视频是版权不合规的盗播视频，则会对用户体验造成不良影响。用于视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到的向目标用户进行多媒体信息推荐的不同视频还可以供其他应用程序调用(例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标用户相匹配的多媒体信息处理模型也可以迁移至不同的多媒体信息推荐进程(例如网页多媒体信息推荐进程、小程序多媒体信息推荐进程或者长视频客户端的多媒体信息推荐进程)。

在一些实施例中，本申请实施例提供的多媒体信息处理方法可以由终端实现。例如，终端(如终端10-1和终端10-2)可以在本地实现多媒体信息处理的方案。

在一些实施例中，本申请实施例提供的多媒体信息处理方法可以由服务器实现。例如，服务器200可以实现多媒体信息处理的方案。

在一些实施例中，本申请实施例提供的多媒体信息处理方法可以由终端及服务器协同实现。例如，终端(如终端10-1和终端10-2)可以向服务器200发送请求，以请求服务器200实现多媒体信息处理的方案。服务器200可以将最终得到的待推荐多媒体信息发送至终端，以进行多媒体信息推荐。

下面对本申请实施例的电子设备的结构做详细说明，电子设备可以各种形式来实施，如带有多媒体信息处理功能的终端例如运行视频客户端的手机，其中经过训练的多媒体信息处理模型可以封装在终端的存储介质中，也可以为带有多媒体信息处理功能的服务器或者服务器群组，其中经过训练的多媒体信息处理模型可以部署在服务器中，例如前述图1中的服务器200。图2为本申请实施例提供的电子设备的组成结构示意图，可以理解，图2仅仅示出了电子设备的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本申请实施例提供的电子设备可以包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线***205耦合在一起。可以理解，总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本申请实施例中的存储器202能够存储数据以支持终端(如终端10-1和终端10-2)的操作。这些数据的示例包括：用于在终端(如终端10-1和终端10-2)上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本申请实施例提供的多媒体信息处理装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的多媒体信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的多媒体信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital Signal Processor)、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本申请实施例提供的多媒体信息处理装置采用软硬件结合实施的示例，本申请实施例所提供的多媒体信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线***205的其他组件)完成本申请实施例提供的多媒体信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本申请实施例提供的多媒体信息处理装置采用硬件实施的示例，本申请实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个ASIC、DSP、PLD、CPLD、FPGA或其他电子元件执行实现本申请实施例提供的多媒体信息处理方法。

本申请实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括：用于在电子设备20上操作的任何可执行指令，如可执行指令，实现本申请实施例的多媒体信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本申请实施例提供的多媒体信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的多媒体信息处理装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括多媒体信息处理装置2020，多媒体信息处理装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当多媒体信息处理装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本申请实施例提供的多媒体信息处理方法。

根据图2所示的电子设备，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令(可执行指令)，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述多媒体信息处理方法的各种可选实现方式中所提供的不同实施例及实施例的组合。

在介绍本申请提供的多媒体信息处理方法之前，首先介绍相关技术的缺陷，虽然现有的视频服务器通过相应的匹配算法可以粗略识别视频间的相似关系，但是随着视频编辑工具的普及和发展，视频画面攻击种类变得更加复杂，参考图3，图3为本申请实施例提供的视频过度裁剪的示意图，在图3所示的经过裁剪的视频中，单纯的依赖视频图像指纹难以识别部分对画面改变较多的视频重复/侵权内容。且随着视频互动玩法的升级，越来越多的视频画面基于同一固定背景，只有较小的画面比例是用户自定义的内容，这就造成了两个画面之间整体高度相似，但实际是不同内容，且均属于原创内容。现有技术中，可以通过音频指纹算法对视频中的音频信息进行比较，以判定视频是否相似。具体来说，以landmark的音频指纹算法为例，首先对音频进行傅里叶变换，生成音频谱图；之后在音频谱图的基础上，根据频率峰值点计算出相应的星状图(Constellation Map)；最后对星状图进行处理，生成组合哈希landmark(t1，f1，f2，t2-t1)，其中，t1和t2分别代表两个时间点，f1表示对应t1时间点的最大频率值，f2表示对应t2时间点的最大频率值。但是，这一过程对于攻击信息较多的使用环境无法实现准确识别，例如：对于变音攻击的使用环境，由于landmark依赖频率峰值点，而变音视频中改变了音频的频率，会导致生成的hash不同，最终导致相似识别失败(即错误地识别为不相似)；同样的，对于倍速/慢速攻击的使用环境来说，由于landmark中的组合hash依赖于dt(t2-t1)，而倍速/慢速音频的dt改变，会导致生成的hash不同，最终导致相似识别失败。

为了克服上述缺陷，参见图4，图4为本申请实施例提供的多媒体信息处理方法的流程示意图，可以理解地，图4所示的步骤可以由运行多媒体信息处理装置的各种电子设备执行，例如可以是带有多媒体信息处理功能的终端、服务器或者服务器集群，举例来说，当多媒体信息处理装置运行在终端中时，可以触发终端中的小程序进行多媒体信息的相似性检测(相似识别)；当多媒体信息处理装置运行在长视频版权检测服务器、音乐播放软件服务器中时，可以对相应的长视频或者音频信息进行版权检测。下面针对图4示出的步骤进行说明。

步骤401：多媒体信息处理装置对多媒体信息进行解析以分离出多媒体信息中的音频。

这里，获取多媒体信息，并对多媒体信息进行解析，得到多媒体信息中的音频。

在本申请的一些实施例中，对多媒体信息进行解析以分离出多媒体信息中的音频，可以通过以下方式实现：

对多媒体信息进行解析，得到多媒体信息的时序信息；根据多媒体信息的时序信息，对多媒体信息所对应的视频参数进行解析，得到与多媒体信息对应的播放时长参数与音轨信息参数；基于多媒体信息对应的播放时长参数与音轨信息参数，对多媒体信息进行抽取得到多媒体信息中的音频。

以多媒体信息为视频的情况为例，可以首先获取视频中的音频同步包，该音频同步包用于体现时序信息。然后，解析音频同步包中的音频头解码数据AACDecoderSpecificInfo和音频数据配置信息AudioSpecificConfig，得到视频对应的播放时长参数与音轨信息参数。其中，音频数据配置信息AudioSpecificConfig用于生成ADST(包括音频中的采样率、声道数、帧长度数据)。基于音轨信息参数获取视频中的其他音频包，并解析出原始音频数据，最后通过音频数据头高级音频编码(Advanced Audio Coding，AAC)解码器把AAC的基本码流(Elementary Stream，ES)打包成ADTS的格式，例如，可以在AAC ES流前添加7个字节的头文件ADTSheader，实现抽取得到多媒体信息(如视频)中的音频。

步骤402：多媒体信息处理装置对音频进行转换处理，得到与音频相对应的梅尔频谱图。

这里，对音频进行转换处理，以将音频转换为梅尔频谱图。由于频率的单位是赫兹(Hz)，人耳能听到的频率范围是20-20000Hz，但人耳对Hz这种标度单位并不是线性感知关系，例如，如果人类适应了1000Hz的音调，如果把音调频率提高到2000Hz，那人类的耳朵只能觉察到频率提高了一点点，根本察觉不到频率提高了一倍。如果将音频转换为梅尔频谱图中的数据(即是将频率标度转化为梅尔频率标度)，则人耳对频率的感知度就变成了线性关系。也就是说，在梅尔频率标度下，如果两段音频的梅尔频率相差两倍，则人耳可以感知到的音调大概也相差两倍，由此，可以实现提升对音频的感知度，将音频进行具象化的有益技术效果。

在本申请的一些实施例中，对音频进行转换处理，得到与音频相对应的梅尔频谱图，可以通过以下方式实现：

对音频进行声道转换处理，得到单声道音频数据；基于加窗函数对单声道音频数据进行短时傅里叶变换，得到相应的频谱图；根据时长参数对频谱图进行处理，得到与音频相对应的梅尔频谱图。

例如，可以首先将音频重采样(即声道转换处理)为16KHz单声道音频数据；之后使用25ms的Hann时窗，以10ms的帧移，周期性Hann窗口对单声道音频数据进行短时傅里叶变换得到相应的频谱图；通过将频谱图映射到64阶的mel滤波器组中，从而计算mel声谱，其中，mel bins的范围为125-7500Hz；计算log(mel-spectrum+0.01)，得到稳定的mel声谱，所加的0.01的偏置是为了避免对0取对数；将获得的这些特征以0.96s的时长参数进行组帧，其中没有帧的重叠，每一帧都包含64个mel频带，时长10ms(共96帧)，由此实现提取音频相应的梅尔频谱图。其中，加窗函数及时长参数可以视为是与多媒体信息处理模型对应的。

步骤403：多媒体信息处理装置根据音频相对应的梅尔频谱图，确定音频对应的音频特征向量。

这里，根据音频相对应的梅尔频谱图，确定音频对应的音频特征向量，该音频特征向量能够准确、有效地体现音频的特点。

在本申请的一些实施例中，根据音频相对应的梅尔频谱图，确定音频对应的音频特征向量，可以通过以下方式实现：

基于梅尔频谱图确定相应的输入三元组样本；通过多媒体信息处理模型的卷积层和最大值池化层对输入三元组样本交叉进行处理，得到不同输入三元组样本的降采样结果；通过多媒体信息处理模型的全连接层对降采样结果进行归一化处理，得到归一化结果；通过多媒体信息处理模型对归一化结果进行深度分解处理，得到与不同输入三元组样本相匹配的音频特征向量。

作为示例，参考图5，图5为本申请实施例中的多媒体信息处理模型的处理过程示意图，其中，多媒体信息处理模型的特征提取可以通过视觉几何组(VGGish，Visual Geometry Group)网络实现，例如通过Vggish网络对梅尔频谱图进行音频特征的抽取，并对抽取得到的向量通过空间局部聚合向量(NetVLAD，Net Vector of Locally Aggregated Descriptors)聚类编码，得到音频特征向量。其中，NetVLAD可以保存每个特征点与离它最近的聚类中心的距离，并将其作为新的特征。

以VGGish网络为例继续说明，VGGish网络支持从相应的音频中提取具有语义的128维embedding特征向量，即音频特征向量。在特征提取的过程中，首先将音频转换成梅尔频谱图的输入三元组样本，以作为VGGish网络的输入，转换过程示例如下：利用信号幅值计算音频的声谱图，将声谱图映射到64阶梅尔滤波器组中计算梅尔频谱图，得到N个从Hz映射到梅尔频谱图的输入三元组样本，特征维度为N*96*64。这里，可以将基于Tensorflow的VGGish网络作为音频特征提取器，即是将输入三元组样本作为VGGish网络的输入，利用VGGish网络进行特征提取，得到N*128的音频特征向量。

步骤404：多媒体信息处理装置基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定目标多媒体信息与源多媒体信息的相似度。

在本申请实施例中，可以根据音频特征向量来确定两个多媒体信息之间的相似度，为了便于区分，分别命名为源多媒体信息和目标多媒体信息，并将源多媒体信息中的音频命名为源音频，将目标多媒体信息中的音频命名为目标音频，则通过步骤401至步骤403，可以确定源音频对应的音频特征向量以及目标音频对应的音频特征向量。

这里，基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，可以确定目标多媒体信息与源多媒体信息之间的相似度，即实现对多媒体信息的相似识别。

继续参考图6，图6为本申请实施例提供的相似识别的流程示意图，可以理解地，图6所示的步骤可以由运行多媒体信息处理装置的各种电子设备执行，例如可以是多媒体信息处理功能的终端、服务器或者服务器集群，当多媒体信息处理装置运行在终端中时，可以触发终端中的小程序进行多媒体信息的相似识别；当多媒体信息处理装置运行在短视频版权检测服务器、音乐播放软件服务器中时，可以对相应的短视频或者音频进行版权检测。下面针对图6示出的步骤进行说明。

步骤601：基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定对应的帧间相似度参数集合。

例如，可以将源音频划分为多个音频帧，同时将目标音频划分为多个音频帧，其中，源音频和目标音频可以对应相同的划分标准(如每个音频帧的时长)。然后，对由源音频划分出的多个音频帧以及由目标音频划分出的多个音频帧进行两两组合处理(如穷举式的两两组合处理)，得到多个音频帧对，其中每个音频帧对包括由源音频划分出的一个音频帧、以及由目标音频划分出的一个音频帧。

对于每个音频帧对，根据音频帧对中的两个音频帧分别对应的音频特征向量，确定这两个音频帧之间的帧间相似度。然后，根据所有的帧间相似度构建帧间相似度参数集合。

步骤602：确定帧间相似度参数集合中达到相似度阈值的音频帧数量。

这里，在帧间相似度参数集合中，确定帧间相似度达到相似度阈值的音频帧数量(这里的音频帧数量可以是指音频帧对的数量)。

步骤603：当达到相似度阈值的音频帧数量超过数量阈值时，执行步骤604，否则执行步骤605。

这里，将达到相似度阈值的音频帧数量与数量阈值进行比对。当达到相似度阈值的音频帧数量超过数量阈值时，确定目标多媒体信息与源多媒体信息相似；当达到相似度阈值的音频帧数量未超过数量阈值时，确定目标多媒体信息与源多媒体信息不相似。

步骤604：确定目标多媒体信息与源多媒体信息相似，提示提供版权信息。

这里，当目标多媒体信息与源多媒体信息相似时，证明可能存在版权侵权的风险，因此可以提示提供版权信息，这里所提示提供的可以是目标多媒体信息及源多媒体信息中的至少之一的版权信息。

步骤605：确定目标多媒体信息与源多媒体信息不相似，进入相应的推荐进程。

这里，当目标多媒体信息与源多媒体信息不相似时，证明不存在版权侵权的风险，因此可以直接进入相应的推荐进程，这里的推荐进程可以用于推荐目标多媒体信息及源多媒体信息中的至少之一。

在本申请的一些实施例中，当确定目标多媒体信息与源多媒体信息相似时，获取目标多媒体信息的版权信息和源多媒体信息的版权信息；通过目标多媒体信息的版权信息和源多媒体信息的版权信息，确定目标多媒体信息的合法性；当目标多媒体信息的版权信息和源多媒体信息的版权信息不一致时，发出警示信息。

这里，当确定目标多媒体信息与源多媒体信息相似时，证明可能存在版权侵权的风险，因此，可以获取目标多媒体信息的版权信息和源多媒体信息的版权信息，并通过目标多媒体信息的版权信息和源多媒体信息的版权信息确定目标多媒体信息的合法性。

以源多媒体信息默认合法为例，当目标多媒体信息的版权信息和源多媒体信息的版权信息一致时，确定目标多媒体信息合法；当目标多媒体信息的版权信息和源多媒体信息的版权信息不一致时，确定目标多媒体信息不合法。此外，当目标多媒体信息的版权信息和源多媒体信息的版权信息不一致时，还可以发出警示信息。

当然，本申请实施例也可以在默认目标多媒体信息合法的前提下，确定源多媒体信息的合法性。

在本申请的一些实施例中，当确定目标多媒体信息与源多媒体信息不相似时，将目标多媒体信息添加至多媒体信息源；对多媒体信息源中的待推荐多媒体信息的召回顺序进行排序；基于待推荐多媒体信息的召回顺序的排序结果，向目标用户进行多媒体信息推荐。

这里，当确定目标多媒体信息与源多媒体信息不相似时，证明不存在版权侵权的风险，故可以将目标多媒体信息添加至多媒体信息源，以作为多媒体信息源中的待推荐多媒体信息，当然，这里也可以将源多媒体信息添加至多媒体信息源。在需要进行多媒体信息推荐时，对多媒体信息源中的待推荐多媒体信息的召回顺序进行排序，并基于待推荐多媒体信息的召回顺序的排序结果，向目标用户进行多媒体信息推荐。

参见图7，图7为本申请实施例提供的训练多媒体信息处理模型的流程示意图，可以理解地，图7所示的步骤可以由运行多媒体信息处理装置的各种电子设备执行，例如可以是多媒体信息处理功能的终端、服务器或者服务器集群。在部署多媒体信息处理模型之前，可以对多媒体信息处理模型进行训练，将结合图7示出的步骤进行说明。

步骤701：获取第一训练样本集合，其中第一训练样本集合包括采集的多媒体信息中的音频样本。

这里，获取第一训练样本集合，该第一训练样本集合包括采集(如通过终端进行采集)的视频信息中的音频样本，第一训练样本集合可以包括至少一个音频样本。

步骤702：对第一训练样本集合进行噪声添加，得到相应的第二训练样本集合。

在本申请的一些实施例中，对第一训练样本集合进行噪声添加，得到相应的第二训练样本集合，可以通过以下方式实现：

确定与多媒体信息处理模型的使用环境相匹配的动态噪声类型；根据动态噪声类型对第一训练样本集合进行噪声添加，以改变第一训练样本集合中音频样本的背景噪音、音量、采样率以及音质中的至少之一，得到相应的第二训练样本集合。

在本申请实施例中，音频信息攻击包括但不限于：音频频率改变进行攻击、视频倍速改变进行攻击。因此，在第二训练样本集合的构造过程中，可以根据这些音频攻击类型来制作音频增强数据集，其中，音频增强形式(即动态噪声类型)包括但不限于：变音、增加背景噪音、音量改变、采样率改变、音质改变。通过设定不同的音频增强形式可得到不同的增强音频。需要说明的是，在本申请的一些实施例中，第二训练样本集合的构造不使用视频时长改变或者有帧移导致帧对不整齐的情况。

根据音频增强数据集制作第二训练样本集合，例如一个原始音频对应音频增强数据集中的20个攻击音频，此处每个攻击音频和原始音频的时长相同并且没有帧移(即对应时间点音频相同)，音频时长为dur，以0.96s为step，则每一组音频(原始音频+对应攻击音频)会产生dur/0.96个标签，相同时间点的标签相同。根据攻击音频以及相应的标签，可以构建第二训练样本集合。

步骤703：通过多媒体信息处理模型对第二训练样本集合进行处理，以确定多媒体信息处理模型的初始参数。

步骤704：响应于多媒体信息处理模型的初始参数，通过多媒体信息处理模型对第二训练样本集合进行处理，以确定多媒体信息处理模型的更新参数。

在本申请的一些实施例中，响应于多媒体信息处理模型的初始参数，通过多媒体信息处理模型对第二训练样本集合进行处理，以确定多媒体信息处理模型的更新参数，可以通过以下方式实现：

将第二训练样本集合中不同音频样本，代入多媒体信息处理模型的三元损失函数层网络所对应的损失函数；确定损失函数满足相应的收敛条件时对应三元损失函数层网络的参数；将三元损失函数层网络的参数作为多媒体信息处理模型的更新参数。

步骤705：根据多媒体信息处理模型的更新参数，通过第二训练样本集合对多媒体信息处理模型的网络参数进行迭代更新。

例如，可以确定与多媒体信息处理模型中三元损失函数层网络相匹配的收敛条件；对三元损失函数层网络的网络参数进行迭代更新，直至三元损失函数层网络对应的损失函数满足对应的收敛条件。以多媒体信息处理模型包括VGGish网络为例，训练阶段将VGGish网络得到的128维向量输入多媒体信息处理模型中的三元损失函数网络(triplet-loss层)，以进行训练，最终实现相似的音频得到相似的embedding输出结果(即音频特征向量)。Triplet loss的公式参考公式1：

L＝max(d(a,p)-d(a,n)+margin,0)公式1

其中L表征三元损失函数，a是样本，p代表与a相似的样本，n代表与a属于不同类别(即与a不相似)的样本，d(a，p)是a和p在向量空间的距离，d(a，n)同理，通过最小化上述损失函数，可以学习到相似样本和不相似样本的区分度。

作为示例，参考图8，图8为本申请实施中迭代处理的效果示意图，图8所示的迭代处理的最终优化目标是拉近a与p之间的距离，拉远a与n之间的距离，可以包括以下三种情况：

1)easy triplets:L＝0即d(a，p)+margin&lt；d(a，n)d(a，p)+margin<d(a，n)，这种情况不需要优化，即在天然上a与p之间的距离很近，a与n之间的距离很远。

2)hard triplets:d(a，n)&lt；d(a，p)d(a，n)<d(a，p)，即a和p之间的距离远。

3)semi-hard triplets:d(a，p)&lt；d(a，n)&lt；d(a，p)+margind(a，p)&lt；d(a，n)&lt；d(a，p)+margind(a，p)<d(a，n)<d(a，p)+margin，即a与n之间的距离很近，但是存在一个margin。

在实际应用场景中，考虑到多媒体信息的数量不断增加，因此，可以将多媒体信息的相关信息保存在区块链网络或者云服务器中，从而实现对多媒体信息相似性的准确判断。

在本申请的一些实施例中，还可以将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息发送至区块链网络，以使

区块链网络的节点将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息填充至新区块，且当对新区块共识一致时，将新区块追加至区块链的尾部。

在一些实施例中，还包括：

接收区块链网络中的其他节点的数据同步请求；响应于数据同步请求，对其他节点的权限进行验证；当其他节点的权限通过验证时，控制当前节点与其他节点之间进行数据同步，以使其他节点获取多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息。

在一些实施例中，还包括：响应于查询请求，解析查询请求以得到对应的对象标识；根据对象标识获取区块链网络中的目标区块内的权限信息；对权限信息与对象标识的匹配性进行校验；当权限信息与对象标识相匹配时，在区块链网络中获取相应的多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息；将所获取的多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息向相应的客户端进行发送，以使客户端获取多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息。

继续参见图9，图9是本申请实施例提供的区块链网络的架构示意图，包括区块链网络200(包括多个共识节点，图9中示例性示出了共识节点210)、认证中心300、业务主体400和业务主体500，下面分别进行说明。

区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200，此时，成为区块链网络200中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络200的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程的可信和可追溯。

区块链网络200中的共识节点接收来自不同业务主体(例如前序实施中示出的业务主体400和业务主体500)的客户端节点(例如，前序实施例中示出的归属于业务主体400的客户端节点410、以及归属于数据库运营商***的客户端节点510)提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现对多媒体信息的相关信息的管理为例，说明区块链网络的示例性应用。

参见图9，管理环节涉及的多个业务主体，如业务主体400可以是多媒体信息处理装置，业务主体500可以是带有多媒体信息处理功能的显示***，从认证中心300进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。

业务主体400的客户端节点410用于将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息发送至区块链网络，以使区块链网络的节点将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息填充至新区块，且当对新区块共识一致时，将新区块追加至区块链的尾部。

其中，将相应的多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，例如，当确定目标多媒体信息与源多媒体信息不相似时，客户端节点410将目标多媒体信息的标识、目标多媒体信息中的音频对应的音频特征向量和目标多媒体信息的版权信息自动发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包目标多媒体信息的标识、目标多媒体信息中的音频对应的音频特征向量和目标多媒体信息的版权信息，并将其发送至区块链网络200。在发送时，客户端节点410根据多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点210自己的数字签名(例如，使用共识节点210的私钥对交易的摘要进行加密得到)，并继续在区块链网络200中广播。

区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新待处理的多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息的交易，在状态数据库中添加包括多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息的键值对。

业务主体500的业务人员在客户端节点510中登录，输入针对多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息的查询请求，客户端节点510根据该查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名(例如，使用客户端节点510的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新某一多媒体信息的版权信息的交易，更新状态数据库中该多媒体信息的版权信息对应的键值对；对于提交的查询某个多媒体信息的版权信息的交易，从状态数据库中查询该多媒体信息的标识、该多媒体信息中的音频对应的音频特征向量和该多媒体信息的版权信息对应的键值对，并返回交易结果。

值得说明的是，在图9中示例性地示出了将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息直接上链的过程，但在另一些实施例中，对于多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息所占的数据量较大的情况，客户端节点410可将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息的哈希进行成对上链，同时将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息存储于分布式文件***或数据库。客户端节点510从分布式文件***或数据库获取到多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息后，可结合区块链网络200中对应的哈希进行校验，从而减少上链操作的工作量。

作为区块链的示例，参见图10，图10是本申请实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本申请实施例提供的区块链网络的示例性的功能架构，参见图11，图11是本申请实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网络200中的各个共识节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件***中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络200中共识节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现共识节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层202封装了区块链网络200中的共识节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证共识节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

由此，经过相似性识别的多媒体信息的版权信息可以保存在区块链网络中，当新的用户上传多媒体信息至多媒体信息服务器中时，多媒体信息服务器可以调用区块链网络中的版权信息，对用户上传的多媒体信息的版权合规性进行验证。

图12为本申请实施例提供的多媒体信息处理方法的使用场景示意图，其中，以多媒体信息是短视频的情况进行举例说明，终端(如图1示出的终端10-1和终端10-2)上设置有能够显示相应短视频的软件的客户端，例如短视频播放的客户端或插件，用户通过相应的客户端可以获得短视频并进行展示；终端通过网络300连接短视频服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。当然，用户也可以通过终端中的小程序上传短视频以供网络中的其他用户观看，这一过程中运营商的视频服务器需要对用户上传的短视频进行检测，对不同的视频信息进行比对和分析，例如确定用户上传的短视频版权是否合规，并对合规视频向不同的用户进行推荐，从而避免用户的短视频被盗播。

下面对本申请所提供的多媒体信息处理方法的使用过程进行说明，其中，参考图13，图13为本申请实施例中多媒体信息处理方法的使用过程示意图，将结合图13示出的步骤进行说明。

步骤1301：获取视频中的音频。

这里，可以对获取的视频进行解析以分离出视频中的音频，还可以通过预处理进程对音频进行预处理，例如确定与音频相对应的梅尔频谱图。

步骤1302：获取视频信息处理模型(对应上文的多媒体信息处理模型)的训练样本集合。

步骤1303：对视频信息处理模型进行训练，确定相应的模型参数(网络参数)。

这里，根据训练样本集合(如上文的第二训练样本集合)对视频信息处理模型进行训练，确定相应的模型参数。

步骤1304：将经过训练的视频信息处理模型部署在相应的视频检测服务器中。

这里，对于部署有经过训练的视频信息处理模型的视频检测服务器来说，可以通过经过训练的视频信息处理模型进行相关检测。

步骤1305：通过视频信息处理模型对不同的视频中的音频进行检测，以确定不同的视频是否相似。

以视频为短视频的情况为例，当确定目标短视频与源视频相似时，获取目标短视频的版权信息，例如获取用户通过终端10-1所运行的小程序上传的相应版权信息，或者根据版权信息在云服务器网络中的存储位置获取该版权信息。通过目标短视频的版权信息和源视频的版权信息，确定目标短视频的合法性。当目标短视频的版权信息和源视频的版权信息不一致时，发出警示信息。

当确定目标短视频与源视频不相似时，将目标短视频添加至视频源(对应上文的多媒体信息源)，以作为视频源中的待推荐视频。对视频源中的所有待推荐视频的召回顺序进行排序，并基于待推荐视频的召回顺序的排序结果向目标用户进行视频推荐，如此，更加有利于原创视频的推送。

下面继续说明本申请实施例提供的多媒体信息处理装置2020实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器202的多媒体信息处理装置2020中的软件模块可以包括：信息传输模块2081，配置为对多媒体信息进行解析以分离出多媒体信息中的音频；信息处理模块2082，配置为对音频进行转换处理，得到与音频相对应的梅尔频谱图；根据音频相对应的梅尔频谱图，确定音频对应的音频特征向量；基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定目标多媒体信息与源多媒体信息的相似度。

在一些实施例中，信息传输模块2081，还配置为：对多媒体信息进行解析，得到多媒体信息的时序信息；根据多媒体信息的时序信息，对多媒体信息所对应的视频参数进行解析，得到与多媒体信息对应的播放时长参数与音轨信息参数；基于多媒体信息对应的播放时长参数与音轨信息参数，对多媒体信息进行抽取得到多媒体信息中的音频。

在一些实施例中，信息处理模块2082，还配置为：对音频进行声道转换处理，得到单声道音频数据；基于加窗函数对单声道音频数据进行短时傅里叶变换，得到相应的频谱图；根据时长参数对频谱图进行处理，得到与音频相对应的梅尔频谱图。

在一些实施例中，信息处理模块2082，还配置为：基于梅尔频谱图确定相应的输入三元组样本；通过多媒体信息处理模型的卷积层和最大值池化层对输入三元组样本交叉进行处理，得到不同输入三元组样本的降采样结果；通过多媒体信息处理模型的全连接层对降采样结果进行归一化处理，得到归一化结果；通过多媒体信息处理模型对归一化结果进行深度分解处理，得到与不同输入三元组样本相匹配的音频特征向量。

在一些实施例中，信息处理模块2082，还配置为：获取第一训练样本集合，其中第一训练样本集合包括采集的视频信息中的音频样本；对第一训练样本集合进行噪声添加，得到相应的第二训练样本集合；通过多媒体信息处理模型对第二训练样本集合进行处理，以确定多媒体信息处理模型的初始参数；响应于多媒体信息处理模型的初始参数，通过多媒体信息处理模型对第二训练样本集合进行处理，以确定多媒体信息处理模型的更新参数；根据多媒体信息处理模型的更新参数，通过第二训练样本集合对多媒体信息处理模型的网络参数进行迭代更新。

在一些实施例中，信息处理模块2082，还配置为：确定与多媒体信息处理模型的使用环境相匹配的动态噪声类型；根据动态噪声类型对第一训练样本集合进行噪声添加，以改变第一训练样本集合中音频样本的背景噪音、音量、采样率以及音质中的至少之一，得到相应的第二训练样本集合。

在一些实施例中，信息处理模块2082，还配置为：将第二训练样本集合中不同音频样本，代入多媒体信息处理模型的三元损失函数层网络所对应的损失函数；确定损失函数满足相应的收敛条件时对应三元损失函数层网络的参数；将三元损失函数层网络的参数作为多媒体信息处理模型的更新参数。

在一些实施例中，信息处理模块2082，还配置为：确定与多媒体信息处理模型中三元损失函数层网络相匹配的收敛条件；对三元损失函数层网络的网络参数进行迭代更新，直至三元损失函数层网络对应的损失函数满足收敛条件。

在一些实施例中，信息处理模块2082，还配置为：基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定对应的帧间相似度参数集合；确定帧间相似度参数集合中达到相似度阈值的音频帧数量；基于达到相似度阈值的音频帧数量，确定目标多媒体信息与源多媒体信息的相似度。

在一些实施例中，信息处理模块2082，还配置为：当确定目标多媒体信息与源多媒体信息相似时，获取目标多媒体信息的版权信息和源多媒体信息的版权信息；通过目标多媒体信息的版权信息和源多媒体信息的版权信息，确定目标多媒体信息的合法性；当目标多媒体信息的版权信息和源多媒体信息的版权信息不一致时，发出警示信息。

在一些实施例中，信息处理模块2082，还配置为：当确定目标多媒体信息与源多媒体信息不相似时，将目标多媒体信息添加至多媒体信息源；对多媒体信息源中的待推荐多媒体信息的召回顺序进行排序；基于待推荐多媒体信息的召回顺序的排序结果，向目标用户进行多媒体信息推荐。

在一些实施例中，信息处理模块2082，还配置为：将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息发送至区块链网络，以使区块链网络的节点将多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息填充至新区块，且当对新区块共识一致时，将新区块追加至区块链的尾部。

在一些实施例中，信息处理模块2082，还配置为：接收区块链网络中的其他节点的数据同步请求；响应于数据同步请求，对其他节点的权限进行验证；当其他节点的权限通过验证时，控制当前节点与其他节点之间进行数据同步，以使其他节点获取多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息。

在一些实施例中，信息处理模块2082，还配置为：响应于查询请求，解析查询请求以得到对应的对象标识；根据对象标识获取区块链网络中的目标区块内的权限信息；对权限信息与对象标识的匹配性进行校验；当权限信息与对象标识相匹配时，在区块链网络中获取相应的多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息；将所获取的多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息向相应的客户端进行发送，以使客户端获取多媒体信息的标识、多媒体信息中的音频对应的音频特征向量和多媒体信息的版权信息。

本申请实施例至少具有以下技术效果：本申请实施例通过确定与音频相对应的梅尔频谱图，并根据梅尔频谱图确定音频对应的音频特征向量，由此，可以根据音频特征向量准确、有效地确定多媒体信息之间的相似度，提升了多媒体信息相似度判断的准确性。在多媒体信息为视频的情况下，减少了由于单一依靠视频图像的判断，在视频图像过度处理(如过度裁剪)时所导致的对视频相似度的误判。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

一种多媒体信息处理方法，由电子设备执行，所述方法包括：

对多媒体信息进行解析以分离出所述多媒体信息中的音频；

对所述音频进行转换处理，得到与所述音频相对应的梅尔频谱图；

根据所述音频相对应的梅尔频谱图，确定所述音频对应的音频特征向量；

基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定所述目标多媒体信息与所述源多媒体信息的相似度。
根据权利要求1所述的方法，其中，所述对多媒体信息进行解析以分离出所述多媒体信息中的音频，包括：

对多媒体信息进行解析，得到所述多媒体信息的时序信息；

根据所述多媒体信息的时序信息，对所述多媒体信息所对应的视频参数进行解析，得到与所述多媒体信息对应的播放时长参数与音轨信息参数；

基于所述多媒体信息对应的播放时长参数与音轨信息参数，对所述多媒体信息进行抽取得到所述多媒体信息中的音频。
根据权利要求1所述的方法，其中，所述对所述音频进行转换处理，得到与所述音频相对应的梅尔频谱图，包括：

对所述音频进行声道转换处理，得到单声道音频数据；

基于加窗函数对所述单声道音频数据进行短时傅里叶变换，得到相应的频谱图；

根据时长参数对所述频谱图进行处理，得到与所述音频相对应的梅尔频谱图。
根据权利要求1所述的方法，其中，所述根据所述音频相对应的梅尔频谱图，确定所述音频对应的音频特征向量，包括：

基于所述梅尔频谱图确定相应的输入三元组样本；

通过多媒体信息处理模型的卷积层和最大值池化层对所述输入三元组样本交叉进行处理，得到不同所述输入三元组样本的降采样结果；

通过所述多媒体信息处理模型的全连接层对所述降采样结果进行归一化处理，得到归一化结果；

通过所述多媒体信息处理模型对所述归一化结果进行深度分解处理，得到与不同所述输入三元组样本相匹配的音频特征向量。
根据权利要求4所述的方法，其中，所述方法还包括：

获取第一训练样本集合，其中所述第一训练样本集合包括采集的视频信息中的音频样本；

对所述第一训练样本集合进行噪声添加，得到相应的第二训练样本集合；

通过所述多媒体信息处理模型对所述第二训练样本集合进行处理，以确定所述多媒体信息处理模型的初始参数；

响应于所述多媒体信息处理模型的初始参数，通过所述多媒体信息处理模型对所述第二训练样本集合进行处理，以确定所述多媒体信息处理模型的更新参数；

根据所述多媒体信息处理模型的更新参数，通过所述第二训练样本集合对所述多媒体信息处理模型的网络参数进行迭代更新。
根据权利要求5所述的方法，其中，所述对所述第一训练样本集合进行噪声添加，得到相应的第二训练样本集合，包括：

确定与所述多媒体信息处理模型的使用环境相匹配的动态噪声类型；

根据所述动态噪声类型对所述第一训练样本集合进行噪声添加，以改变所述第一训练样本集合中音频样本的背景噪音、音量、采样率以及音质中的至少之一，得到相应的第二训练样本集合。
根据权利要求5所述的方法，其中，所述响应于所述多媒体信息处理模型的初始参数，通过所述多媒体信息处理模型对所述第二训练样本集合进行处理，以确定所述多媒体信息处理模型的更新参数，包括：

将所述第二训练样本集合中不同音频样本，代入所述多媒体信息处理模型的三元损失函数层网络所对应的损失函数；

确定所述损失函数满足相应的收敛条件时对应所述三元损失函数层网络的参数；

将所述三元损失函数层网络的参数作为所述多媒体信息处理模型的更新参数。
根据权利要求5所述的方法，其中，所述根据所述多媒体信息处理模型的更新参数，通过所述第二训练样本集合对所述多媒体信息处理模型的网络参数进行迭代更新，包括：

确定与所述多媒体信息处理模型中三元损失函数层网络相匹配的收敛条件；

对所述三元损失函数层网络的网络参数进行迭代更新，直至所述三元损失函数层网络对应的损失函数满足所述收敛条件。
根据权利要求1所述的方法，其中，所述基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定所述目标多媒体信息与所述源多媒体信息的相似度，包括：

基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定对应的帧间相似度参数集合；

确定所述帧间相似度参数集合中达到相似度阈值的音频帧数量；

基于所述达到相似度阈值的音频帧数量，确定所述目标多媒体信息与所述源多媒体信息的相似度。
根据权利要求1所述的方法，其中，所述方法还包括：

当确定所述目标多媒体信息与所述源多媒体信息相似时，获取所述目标多媒体信息的版权信息和所述源多媒体信息的版权信息；

通过所述目标多媒体信息的版权信息和所述源多媒体信息的版权信息，确定所述目标多媒体信息的合法性；

当所述目标多媒体信息的版权信息和所述源多媒体信息的版权信息不一致时，发出警示信息。
根据权利要求1所述的方法，其中，所述方法还包括：

当确定所述目标多媒体信息与所述源多媒体信息不相似时，将所述目标多媒体信息添加至多媒体信息源；

对所述多媒体信息源中的待推荐多媒体信息的召回顺序进行排序；

基于所述待推荐多媒体信息的召回顺序的排序结果，向目标用户进行多媒体信息推荐。
根据权利要求1-11任一项所述的方法，其中，所述方法还包括：

将所述多媒体信息的标识、所述多媒体信息中的音频对应的音频特征向量和所述多媒体信息的版权信息发送至区块链网络，以使

所述区块链网络的节点将所述多媒体信息的标识、所述多媒体信息中的音频对应的音频特征向量和所述多媒体信息的版权信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。
根据权利要求12所述的方法，其中，所述方法还包括：

接收所述区块链网络中的其他节点的数据同步请求；

响应于所述数据同步请求，对所述其他节点的权限进行验证；

当所述其他节点的权限通过验证时，控制当前节点与所述其他节点之间进行数据同步，以使所述其他节点获取所述多媒体信息的标识、所述多媒体信息中的音频对应的音频特征向量和所述多媒体信息的版权信息。
根据权利要求12所述的方法，其中，所述方法还包括：

响应于查询请求，解析所述查询请求以得到对应的对象标识；

根据所述对象标识获取所述区块链网络中的目标区块内的权限信息；

对所述权限信息与所述对象标识的匹配性进行校验；

当所述权限信息与所述对象标识相匹配时，在所述区块链网络中获取相应的所述多媒体信息的标识、所述多媒体信息中的音频对应的音频特征向量和所述多媒体信息的版权信息；

将所获取的所述多媒体信息的标识、所述多媒体信息中的音频对应的音频特征向量和所述多媒体信息的版权信息向相应的客户端进行发送，以使所述客户端获取所述多媒体信息的标识、所述多媒体信息中的音频对应的音频特征向量和所述多媒体信息的版权信息。
一种多媒体信息处理装置，所述装置包括：

信息传输模块，配置为对多媒体信息进行解析以分离出所述多媒体信息中的音频；

信息处理模块，配置为：

对所述音频进行转换处理，得到与所述音频相对应的梅尔频谱图；

根据所述音频相对应的梅尔频谱图，确定所述音频对应的音频特征向量；

基于源多媒体信息中的源音频对应的音频特征向量、以及目标多媒体信息中的目标音频对应的音频特征向量，确定所述目标多媒体信息与所述源多媒体信息的相似度。
一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至14任一项所述的多媒体信息处理方法。
一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现权利要求1至14任一项所述的多媒体信息处理方法。