CN107705805B

CN107705805B - 音频查重的方法及装置

Info

Publication number: CN107705805B
Application number: CN201711009825.XA
Authority: CN
Inventors: 黄君实; 林敏�; 李东亮; 陈强
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2021-01-29
Anticipated expiration: 2037-10-25
Also published as: CN107705805A

Abstract

本发明实施例提供了音频查重的方法，应用于多媒体技术领域，该方法包括：每隔预设时间从待查重音频中抽取音频帧，然后确定各个音频帧分别对应的语谱图，然后将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征，然后对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征，然后通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息，然后根据待查重音频的特征信息，进行音频查重。本发明实施例提供的音频查重的方法及装置用于对多个音频信息进行音频查重。

Description

音频查重的方法及装置

技术领域

本发明涉及多媒体技术领域，具体而言，本发明涉及一种音频查重的方法及装置。

背景技术

随着信息技术的发展，多媒体技术也随之发展，各种类型的音频网站应运而生，一些用户或者网站管理者将经常上传一些音频至该网站，以供其它用户下载以及查看。

因此，网站会接收到大量的上传音频，但是这些上传音频中有很多音频为重复音频或者为相似度很高的音频，当网站根据音频观看量对音频进行排名，以推荐给用户时，由于这些音频中存在大量重复音频或者相似度很高的音频，将导致网站对音频排名的准确度较低，并且推荐给用户的音频的准确度也较低，并且由于这些音频中存在大量重复音频或者相似度很高的音频，也不利于用户查找收听这些音频，从而导致用户的体验度较低。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的实施例根据一个方面，提供了一种音频查重的方法，包括：

每隔预设时间从待查重音频中抽取音频帧；

确定各个音频帧分别对应的语谱图；

将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征；

对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征；

通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息；

根据待查重音频的特征信息，进行音频查重。

具体地，预设的特征提取模型是通过对深度卷积神经网络训练得到的。

将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征的步骤之前，还包括：

将各个音频帧分别对应的语谱图进行音频预处理，音频预处理包括以下至少一项：规整尺寸处理以及音频去噪处理；

其中，将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征的步骤，包括：

将音频预处理后的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

进一步地，通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息的步骤之后，还包括：

将待查重音频的特征信息通过以下至少一种处理方式进行后处理，得到处理后的待查重音频的特征信息，处理方式包括：特征降维处理；去相关处理。

具体地，根据待查重音频的特征信息，进行音频查重的步骤，包括：

根据处理后的待查重音频的特征信息，并通过乘积量化ProductQuantization，确定待查重音频的音频特征索引；

根据待查重音频的音频特征索引，进行音频查重。

具体地，音频查重的方式，包括：

判断各个音频分别对应的音频特征索引是否存在相同；

若存在相同的音频特征索引，则确定相同的音频特征索引对应的各个音频重复。

进一步地，从重复的各个音频中，确定待删除的音频，并删除该待删除的音频。

本发明的实施例根据另一个方面，还提供了一种音频查重的装置，包括：

抽取模块，用于每隔预设时间从待查重音频中抽取音频帧；

确定模块，用于确定抽取模块抽取的各个音频帧分别对应的语谱图；

输入模块，用于将确定模块确定的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征；

特征池化处理模块，用于对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征；

整合编码模块，用于通过对特征池化处理模块池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息；

音频查重模块，用于根据整合编码模块整合得到的待查重音频的特征信息，进行音频查重。

进一步地，装置还包括：音频预处理模块；

音频预处理模块，用于将确定模块确定的各个音频帧分别对应的语谱图进行音频预处理，音频预处理包括以下至少一项：规整尺寸处理以及音频去噪处理；

输入模块，具体用于将音频预处理模块音频预处理后的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

进一步地，装置还包括：后处理模块；

后处理模块，用于将待查重音频的特征信息通过以下至少一种处理方式进行后处理，得到处理后的待查重音频的特征信息，处理方式包括：特征降维处理；去相关处理。

具体地，音频查重模块包括：确定单元、音频查重单元；

确定单元，用于根据处理后的待查重音频的特征信息，并通过乘积量化ProductQuantization，确定待查重音频的音频特征索引；

音频查重单元，用于根据确定单元确定的待查重音频的音频特征索引，进行音频查重。

具体地，音频查重模块，具体用于判断各个音频分别对应的音频特征索引是否存在相同；

音频查重模块，具体用于当存在相同的音频特征索引时，确定相同的音频特征索引对应的各个音频重复。

进一步地，装置还包括：删除模块；

确定模块，还用于从重复的各个音频中，确定待删除的音频；

删除模块，用于删除确定模块确定的待删除的音频。

本发明的实施例根据又一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述音频查重的方法。

本发明的实施例根据又一个方面，还提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如上述音频查重的方法对应的操作。

本发明提供了一种音频查重的方法及装置，本发明中每隔预设时间从待查重音频中抽取音频帧，然后确定各个音频帧分别对应的语谱图，然后将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征，然后对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征，然后通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息，然后根据待查重音频的特征信息，进行音频查重。即本发明通过对音频信息进行查重，例如对已上传的音频信息进行查重，能够确定已上传的音频信息中的重复音频信息或者相似度很高的音频信息，从而可以提高网站对音频信息排名的准确度，并且由于对已上传的音频信息进行查重，因此降低了重复音频以及相似度较高的音频的概率，当用户查找音频信息时，能够更加准确地查找到所需音频，进而可以提升用户的体验度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的一种音频查重的方法流程图；

图2为本发明实施例的三种进行池化的方式示意图；

图3为本发明实施例中的一种音频查重的装置结构示意图；

图4为本发明实施例中的另一种音频查重的装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

实施例一

本发明实施例提供了一种音频查重的方法，如图1所示，包括：

步骤101、每隔预设时间从待查重音频中抽取音频帧。

对于本发明实施例，将待查重音频进行切割，切割为多个音频帧，并每隔预设时间抽取一个音频帧，每个音频帧的时间长度为预设时间段。

例如，每隔5毫秒(ms)从待查重音频中抽取一个音频帧。

例如，每个音频帧的时间长度为5秒(s)、8s或者10s。在本发明实施例中不做限定。

步骤102、确定各个音频帧分别对应的语谱图。

其中，将待查重的音频帧转化为语谱图的方式包括：为了体现信号随时间的频谱情况，采用短时傅里叶变换处理；短时傅里叶变换又称为滑动窗傅里叶变换，就是用一个短的窗函数和信号滑动相乘，对每一个窗函数截取区间的数据进行傅里叶变换：

其中，ω(k,τ)为一个长度为N的窗函数，X(ω，τ)为一个二维函数，标识中心点位于τ的加窗声音的傅里叶变化，通过上述公式将声信号转化为对应的某种灰度级的点来表征，这就是信号处理中的语谱图。

步骤103、将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

其中，预设的特征提取模型是通过对深度卷积神经网络训练得到的。

例如，通过2千万的素材音频，共21000类别对该深度卷积神经进行训练，得到该预设的特征提取模型。其中可以按照音色不同、节奏不同和/或内容不同，对素材音频进行分类。

对于本发明实施例，将各个音频帧输入训练后的深度卷积神经网络，得到该各个音频帧中每个音频帧所属21000类别中每类中的概率；或者输出该音频帧对应的预设维数的表征，该表征可以用于表征该帧图像对应的应用场景。

步骤104、对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征。

对于本发明实施例，池化是在卷积特征提取的基础上，对每个卷积特征进行取平均等，继续缩小隐藏节点对于的卷积特征维数。

对于本发明实施例，一个区域有用的特征极有可能在另一个区域同样适用。因此，为了描述时间较长的音频，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(pooling)。

对于本发明实施例，池化可以包括：1)mean-pooling，即对邻域内特征点只求平均，对背景保留更好；max-pooling，即对邻域内特征点取最大，对纹理提取更好；3)Stochastic-pooling，介于两者之间，通过对像素点按照数值大小赋予概率，再按照概率进行亚采样。

其中，特征提取的误差主要来自两个方面：(1)邻域大小受限造成的估计值方差增大；(2)卷积层参数误差造成估计均值的偏移。一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。在平均意义上，与mean-pooling近似，在局部意义上，则服从max-pooling的准则。其中上述三种池化的方式如图2所示。

例如，提取到M个音频帧，分别为x₁、x₂…x_M，当通过最小池化算法进行池化计算时，minx＝min[x₁、x₂…x_M]，其中min[.]表示M个音频帧中的每一维求最小值；当通过最大池化算法进行池化计算时，maxx＝max[x₁、x₂…x_M]，其中max[.]表示M个音频帧中的每一维求最大值；当通过平均池化算法进行池化计算时，avexx＝avex[x₁、x₂…x_M]，其中avex[.]表示M个音频帧中的每一维求平均值。

步骤105、通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息。

例如，步骤101中从待查重音频中抽取三个音频帧，分别为音频帧1、音频帧2以及音频帧3，则根据音频帧1、音频帧2以及音频帧3分别对应的特征信息，确定待查重视频的视频信息。

步骤106、根据待查重音频的特征信息，进行音频查重。

对于本发明实施例，通过待查重音频的特征信息，确定已上线的音频中是否存在与该待查重音频的特征信息关联度较高的音频，以实现音频查重。

本发明实施例提供了一种音频查重的方法，本发明实施例中每隔预设时间从待查重音频中抽取音频帧，然后确定各个音频帧分别对应的语谱图，然后将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征，然后对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征，然后通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息，然后根据待查重音频的特征信息，进行音频查重。即本发明实施例通过对音频信息进行查重，例如对已上传的音频信息进行查重，能够确定已上传的音频信息中的重复音频信息或者相似度很高的音频信息，从而可以提高网站对音频信息排名的准确度，并且由于对已上传的音频信息进行查重，因此降低了重复音频以及相似度较高的音频的概率，当用户查找音频信息时，能够更加准确地查找到所需音频，进而可以提升用户的体验度。

实施例二

本发明实施例的另一种可能的实现方式，在实施例一所示的基础上，还包括实施例二所示的操作，其中，

步骤103之前还包括：将各个音频帧分别对应的语谱图进行音频预处理。

其中，音频预处理包括以下至少一项：规整尺寸处理以及音频去噪处理。

对于本发明实施例，对音频的频谱图进行规整尺寸处理为通过采样的方式对音频进行规整尺寸处理。

其中，对各个音频帧分别进行音频去噪处理的方式包括：计算音频数据中所有帧的Mel频域参数；计算所有频域帧的幅值及相角；设置当前音频有效数据待判定帧为第T帧，设置当前去噪帧为第一帧；进行Mel频率参数音频有效数据检测，获取音频有效数据的起始帧和结束帧；计算信噪比参数；进行音频去噪处理获取所述去噪帧幅值的修正值；利用所述幅值的修正值及所述相角进行快速傅里叶反变换。

对于本发明实施例，所述“计算音频数据中所有帧的Mel频域参数”包括以下步骤进行快速傅里叶变换，获取第t帧音频x_t(n)经过傅里叶变换后的频域帧X_t(k)；将频域帧X_t(k)用一组三角滤波器进行滤波；求出每个滤波器的输出对数能量；获取Mel频域参数MFCCt。

其中，1≤n≤N，N为帧长，1≤k≤N；x_t(n)表示第t帧音频的第n个分量；X_t(k)表示第t帧音频对应频域帧的第k个分量。

步骤103具体包括：将音频预处理后的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

实施例三

本发明实施例的另一种可能的实现方式，在实施例一或者实施例二所示的基础上，还包括实施例三所示的操作，其中，

步骤105之后还包括：将待查重音频的特征信息通过以下至少一种处理方式进行后处理，得到处理后的待查重音频的特征信息。

其中，处理方式包括：特征降维处理；去相关处理。

对于本发明实施例，将待查重音频的特征信息通过预设的降维算法进行特征降维处理。其中，该特征算法包括：成分分析(principal component analysis，PCA)、因子分析(Factor Analysis)以及独立成分分析(Independent Component Analysis，ICA)。在本发明实施例中，通过PCA为例，对该待查重音频的特征信息进行降维处理。其中，PCA是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法，PCA的思想是将n维特征映射到k维上(k<n)，这k维特征称为主元，是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的k个特征互不相关。

例如，可以通过特征降维处理，将10000维的特征信息矩阵降维400维。

对于本发明实施例，将待查重音频的特征信息空间R^N映射到特征空间F，以实现降维处理，其中，将待查重音频的特征信息空间R^N映射到特征空间F后其协方差矩阵为：

其中，M表示特征空间的维度，

表示第j个特征映射表，T表示转置运算符号。

C的特征值和特征向量满足：λ(φ(x_k)·V)＝(φ(x_k)·CV)，1≤k≤M，其中，λ表示特征值，V表示特征向量。输入特征在映射空间向量上的投影为：

其中V^k表示特征向量，

表示标准化系数，

表示输入特征映射值。

对于本发明实施例，相邻维的音频特征之间存在关联性，当不需要相邻维的音频特征之间的关联性时，对待查重音频的特征信息进行去相关处理。在本发明实施例中，通过将待查重音频的特征信息通过特征降维处理以及去相关处理，从而得到待查重音频的特征信息的维度较低，干扰较低。

实施例四

本发明实施例的另一种可能的实现方式，在实施例三所示的基础上，还包括实施例四所示的操作，其中，

步骤106包括：根据处理后的待查重音频的特征信息，并通过乘积量化ProductQuantization，确定待查重音频的音频特征索引；根据待查重音频的音频特征索引，进行音频查重。

其中，音频查重的方式，包括：判断各个音频分别对应的音频特征索引是否存在相同；若存在相同的音频特征索引，则确定相同的音频特征索引对应的各个音频重复。

对于本发明实施例，乘积量化Product Quantization包括两个过程特征的分组量化过程和类别的笛卡尔积过程。假设有一个数据集，那么K-means为将给定类别数目K，目标函数是所有样本到类中心的距离和最小值，迭代计算优化目标函数，得到K个类中心和每个样本所属的类别。目标函数不变，乘积量化的做法为：

(1)数据集为K个类别，每个样本以一个vector的形式表示，维数为d，将vector的各个分量分成m组。

(2)将所有vector的某组分量作为数据集，采用k-means算法得到

个类中心，运行m次k-means算法，则每组都有

个类中心，记这

个类中心为一个集合。

(3)将上述得到的m个集合做笛卡尔积，就得到整个数据集的类中心了。

对于本发明实施例，将处理后的待查重音频的特征信息，通过乘积量化ProductQuantization，得到待查重音频的音频特征索引，其中该待查重音频的音频特征索引为待查重音频与特征索引之间的对应关系。

例如，待查重音频包括音频1、音频2以及音频3，分别对应的索引值为001、002、003，音频1、音频2以及音频3分别对应的音频特征的索引值为1、2、1。

对于本发明实施例，若两个音频分别对应的音频特征索引相同，则表征这两个音频为重复音频。

例如，待查重音频包括音频1、音频2以及音频3，分别对应的索引值为001、002、003，音频1、音频2以及音频3分别对应的音频特征的索引值为1、2、1，由于音频1以及音频2对应的音频特征的索引值均为1(两个不同的音频对应的音频特征的索引值相同)因此音频1以及音频2为重复音频。

对于本发明实施例，若已上线的音频中存在多个重复音频，则从该多个重复音频中选择待删除的音频，并删除。

对于本发明实施例，按照预设原则，从重复的各个音频中，确定待删除的音频，其中预设原则包括以下至少一项：音频的清晰度、音频的发布时间、音频的点击量以及音频的下载量。

例如，已上线的音频中包括两个重复的音频，包括：音频1以及音频3，其中音频1的下载量为100，音频2的下载量为1200，则待删除的音频为音频1。

对于本发明实施例，通过从重复的各个音频中，确定待删除的音频，并删除该待删除的音频，当用户从已上线的音频中下载对应的音频时，能够准确的确定并下载待下载的音频，从而可以降低已上线音频中音频的重复率，进而可以提高查找待下载音频的准确度，提升用户的体验度。

对于本发明实施例，当未对音频进行查重时，若用户通过搜索关键字的方式搜索所需音频时，网站可能会将一些重复的音频或者相似度较高的音频推荐给用户，或者将这些未查重的音频进行排名之后推荐给用户，例如，用户通过搜索一个歌曲名称XXX，搜索该歌曲名称对应的歌曲，网站可能将该歌曲不同场合(包括：演唱会、专辑、商演)的演唱音频均推荐给用户，推荐重复，从而导致网站给用户推荐音频以及对音频进行排名的准确度均较低，进而导致用户的体验度较差。在本发明实施例中，通过从重复的各个音频中，确定待删除的音频，并删除该待删除的音频，当用户通过搜索关键字的方式搜索所需音频时，能够更为准确地将用户所需的音频推荐给用户，或者将相关音频的排名推荐给用户，例如，仅保留专辑中该歌曲的音频，则可以仅将该专辑中歌曲的音频推荐给用户，从而可以提升用户的体验度。

对于本发明实施例，通过从重复的各个音频中，确定待删除的音频，并删除该待删除的音频，即将重复的音频从数据库中删除，能够降低数据库中的存储量，节省存储空间。

本发明实施例提供了一种音频查重的装置，如图3所示，该装置包括：抽取模块31、确定模块32、输入模块33、特征池化处理模块34、整合编码模块35、音频查重模块36，其中，

抽取模块31，用于每隔预设时间从待查重音频中抽取音频帧。

确定模块32，用于确定抽取模块31抽取的各个音频帧分别对应的语谱图。

输入模块33，用于将确定模块32确定的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

特征池化处理模块34，用于对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征。

整合编码模块35，用于通过对特征池化处理模块34池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息。

音频查重模块36，用于根据整合编码模块35整合得到的待查重音频的特征信息，进行音频查重。

进一步地，如图4所示，该装置还包括：音频预处理模块41。

音频预处理模块41，用于将确定模块32确定的各个音频帧分别对应的语谱图进行音频预处理。

输入模块33，具体用于将音频预处理模块41音频预处理后的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

进一步地，如图4所示，该装置还包括：后处理模块42。

所述后处理模块42，用于将所述待查重音频的特征信息通过以下至少一种处理方式进行后处理，得到处理后的待查重音频的特征信息。

其中，所述处理方式包括：特征降维处理；去相关处理。

进一步地，如图4所示，音频查重模块36包括：确定单元361、音频查重单元362。

确定单元361，用于根据处理后的待查重音频的特征信息，并通过乘积量化Product Quantization，确定待查重音频的音频特征索引；

音频查重单元362，用于根据确定单元361确定的待查重音频的音频特征索引，进行音频查重。

具体地，音频查重模块36，具体用于判断各个音频分别对应的音频特征索引是否存在相同。

音频查重模块36，具体用于当存在相同的音频特征索引时，确定相同的音频特征索引对应的各个音频重复。

进一步地，如图4所示，该装置还包括：删除模块43。

确定模块32，还用于从重复的各个音频中，确定待删除的音频。

删除模块43，用于删除确定模块31确定的待删除的音频。

本发明实施例提供了一种音频查重的装置，本发明实施例中每隔预设时间从待查重音频中抽取音频帧，然后确定各个音频帧分别对应的语谱图，然后将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征，然后对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征，然后通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息，然后根据待查重音频的特征信息，进行音频查重。即本发明实施例通过对音频信息进行查重，例如对已上传的音频信息进行查重，能够确定已上传的音频信息中的重复音频信息或者相似度很高的音频信息，从而可以提高网站对音频信息排名的准确度，并且由于对已上传的音频信息进行查重，因此降低了重复音频以及相似度较高的音频的概率，当用户查找音频信息时，能够更加准确地查找到所需音频，进而可以提升用户的体验度。

本发明实施例提供的音频查重的装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述音频查重的方法。

本发明实施例提供了一种计算机可读存储介质，本发明实施例中每隔预设时间从待查重音频中抽取音频帧，然后确定各个音频帧分别对应的语谱图，然后将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征，然后对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征，然后通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息，然后根据待查重音频的特征信息，进行音频查重。即本发明实施例通过对音频信息进行查重，例如对已上传的音频信息进行查重，能够确定已上传的音频信息中的重复音频信息或者相似度很高的音频信息，从而可以提高网站对音频信息排名的准确度，并且由于对已上传的音频信息进行查重，因此降低了重复音频以及相似度较高的音频的概率，当用户查找音频信息时，能够更加准确地查找到所需音频，进而可以提升用户的体验度。

本发明实施例提供的计算机可读存储介质可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明实施例提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

本发明实施例提供了一种计算设备，本发明实施例中每隔预设时间从待查重音频中抽取音频帧，然后确定各个音频帧分别对应的语谱图，然后将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征，然后对各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征，然后通过对池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到待查重音频的特征信息，然后根据待查重音频的特征信息，进行音频查重。即本发明实施例通过对音频信息进行查重，例如对已上传的音频信息进行查重，能够确定已上传的音频信息中的重复音频信息或者相似度很高的音频信息，从而可以提高网站对音频信息排名的准确度，并且由于对已上传的音频信息进行查重，因此降低了重复音频以及相似度较高的音频的概率，当用户查找音频信息时，能够更加准确地查找到所需音频，进而可以提升用户的体验度。

本发明实施例提供的计算设备可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频查重的方法，其特征在于，包括：

每隔预设时间从待查重音频中抽取音频帧；

确定各个音频帧分别对应的语谱图；

对所述各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征；

通过对所述池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到所述待查重音频的特征信息；

根据所述待查重音频的特征信息，进行音频查重。

2.根据权利要求1所述的方法，其特征在于，所述预设的特征提取模型是通过对深度卷积神经网络训练得到的。

3.根据权利要求1或2所述的方法，其特征在于，所述将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征的步骤之前，还包括：

将所述各个音频帧分别对应的语谱图进行音频预处理，所述音频预处理包括以下至少一项：规整尺寸处理以及音频去噪处理；

其中，所述将各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征的步骤，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述通过对所述池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到所述待查重音频的特征信息的步骤之后，还包括：

将所述待查重音频的特征信息通过以下至少一种处理方式进行后处理，得到处理后的待查重音频的特征信息，所述处理方式包括：特征降维处理；去相关处理。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待查重音频的特征信息，进行音频查重的步骤，包括：

根据所述处理后的待查重音频的特征信息，并通过乘积量化Product Quantization，确定所述待查重音频的音频特征索引；

根据所述待查重音频的音频特征索引，进行音频查重。

6.根据权利要求5所述的方法，其特征在于，所述音频查重的方式，包括：

判断各个音频分别对应的音频特征索引是否存在相同；

7.根据权利要求6所述的方法，其特征在于，还包括：

从重复的各个音频中，确定待删除的音频，并删除该待删除的音频。

8.一种音频查重的装置，其特征在于，包括：

抽取模块，用于每隔预设时间从待查重音频中抽取音频帧；

确定模块，用于确定所述抽取模块抽取的各个音频帧分别对应的语谱图；

输入模块，用于将所述确定模块确定的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征；

特征池化处理模块，用于对所述各个音频帧分别对应的深度特征进行特征池化处理，得到池化处理后的各个音频帧分别对应的深度特征；

整合编码模块，用于通过对所述特征池化处理模块池化处理后的各个音频帧分别对应的深度特征进行整合和编码，得到所述待查重音频的特征信息；

音频查重模块，用于根据所述整合编码模块整合得到的待查重音频的特征信息，进行音频查重。

9.根据权利要求8所述的装置，其特征在于，所述预设的特征提取模型是通过对深度卷积神经网络训练得到的。

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：音频预处理模块；

所述音频预处理模块，用于将所述确定模块确定的各个音频帧分别对应的语谱图进行音频预处理，所述音频预处理包括以下至少一项：规整尺寸处理以及音频去噪处理；

所述输入模块，具体用于将所述音频预处理模块音频预处理后的各个音频帧分别对应的语谱图输入预设的特征提取模型，得到各个音频帧分别对应的深度特征。

11.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：后处理模块；

所述后处理模块，用于将所述待查重音频的特征信息通过以下至少一种处理方式进行后处理，得到处理后的待查重音频的特征信息，所述处理方式包括：特征降维处理；去相关处理。

12.根据权利要求11所述的装置，其特征在于，所述音频查重模块包括：确定单元、音频查重单元；

确定单元，用于根据所述处理后的待查重音频的特征信息，并通过乘积量化ProductQuantization，确定所述待查重音频的音频特征索引；

音频查重单元，用于根据所述确定单元确定的待查重音频的音频特征索引，进行音频查重。

13.根据权利要求12所述的装置，其特征在于，

所述音频查重模块，具体用于判断各个音频分别对应的音频特征索引是否存在相同；

所述音频查重模块，具体用于当存在相同的音频特征索引时，确定相同的音频特征索引对应的各个音频重复。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：删除模块；

所述确定模块，还用于从重复的各个音频中，确定待删除的音频；

所述删除模块，用于删除所述确定模块确定的待删除的音频。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述的方法。

16.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的音频查重的方法对应的操作。