CN107204183A - 一种音频文件检测方法及装置 - Google Patents

一种音频文件检测方法及装置 Download PDF

Info

Publication number
CN107204183A
CN107204183A CN201610158801.XA CN201610158801A CN107204183A CN 107204183 A CN107204183 A CN 107204183A CN 201610158801 A CN201610158801 A CN 201610158801A CN 107204183 A CN107204183 A CN 107204183A
Authority
CN
China
Prior art keywords
audio file
detected
similarity
file
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610158801.XA
Other languages
English (en)
Other versions
CN107204183B (zh
Inventor
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610158801.XA priority Critical patent/CN107204183B/zh
Publication of CN107204183A publication Critical patent/CN107204183A/zh
Application granted granted Critical
Publication of CN107204183B publication Critical patent/CN107204183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频文件检测方法及装置,其中,该方法包括:对待检测音频文件的音频信号的设定维度参数进行归一化处理;对归一化处理后的音频信号进行分片处理;对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量;根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。本发明能够从多维度对待测音频文件进行检测,提升了检测的精度,降低了侵权误判的概率。

Description

一种音频文件检测方法及装置
技术领域
本发明涉及音频信息处理技术领域,尤其涉及一种音频文件检测方法及装置。
背景技术
当前互联网上存在着大量未授权的音频文件,这些音频文件涉及教育、娱乐、新闻、广告等多个领域。由于未授权音频文件的存在严重损害了版权音频文件内容提供商和有关各方的利益,阻碍了网络音频产业的健康有序的发展。由于互联网音频文件的数量巨大,格式多样以及各种压缩,水印技术的使用,使的快速检测未授权音频非常困难。
现有技术中,传统的音频文件版权的检测方法只能给出待检测音频文件与版权文件相同或不同的结论,对于部分内容侵权的情形不能进行检测,导致误判率高、准确性降低。
发明内容
有鉴于此,本发明实施例提供一种音频文件检测方法及装置,以优化音频文件的检测技术,有效识别不同程度的音频文件相似情况。
第一方面,本发明实施例提供了一种音频文件检测方法,包括:
对待检测音频文件的音频信号的设定维度参数进行归一化处理;
对归一化处理后的音频信号进行分片处理;
对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量;
根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。
第二方面,本发明实施例还提供了一种音频文件检测装置,包括:
归一化处理模块,用于对待检测音频文件的音频信号的设定维度参数进行归一化处理;
分片处理模块,用于对归一化处理后的音频信号进行分片处理;
特征向量构建模块,用于对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量;
相似度获取模块,用于根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。
本发明实施例提供的一种音频文件的检测方法及装置,通过构建的特征向量获取音频文件的相似度,能够从多维度快速对待测音频文件进行检测,有效识别不同程度的相似情况,提升了检测的精度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1a是本发明实施例一提供的一种音频文件检测方法流程图;
图1b是本发明实施例一提供的特征库中第二区域内版权音频文件的频率特征向量二叉排序原理图;
图2是本发明实施例二提供的一种音频文件检测方法流程图;
图3是本发明实施例三提供的一种音频文件检测装置结构框图。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1a是本发明实施例一提供的一种音频文件检测方法流程图;本实施例的方案可由音频文件检测装置来执行,该装置可以采用硬件和/或软件的方法来实现,如图1a所示,所述的方法包括:
S110:对待检测音频文件的音频信号的设定维度参数进行归一化处理。
在本实施例中,不同的待检测音频文件,其音频信号的参数往往是不同的。例如,不同的待检测音频文件如果是在不同的音量下录制的,音频信号的最大振幅是不同的。由于录制不同待检测音频文件的条件不同,导致不同的待检测音频文件的音频信号的参数不同。但是,对于两个待检测的音频文件,如果录制的均是一首歌曲,但在不同的环境条件下进行录制,音频信号的参数的数值往往会不同,因此为了实现对不同待检测音频文件的检测,需要对待检测音频文件的音频信号的各个参数需分别以一个标准进行归一化处理。
示例性的,对待检测音频文件的音频信号的设定维度参数进行归一化处理优选包括:对待检测音频文件的音频信号的采样频率、比特率和/或最大振幅进行归一化处理。
S120:对归一化处理后的音频信号进行分片处理。
在本实施例中,对音频信号可以按照预定的规则进行分片处理,其中分片处理的规则可以由本领域的技术人员进行确定。本发明对分片处理的规则不进行限定。示例性的,对归一化处理后的音频信号进行分片处理包括:将归一化处理后的音频信号进行等间隔的时间区间的划分,获取待检测音频文件的音频信号在各个时间区间的音频数据。其中时间区间的大小可以为10ms、20ms或30ms等,在本实施例中时间区间的大小为30ms。
S130:对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量。
示例性的,对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量优选包括:将待检测音频文件的音频信号在各个区间内的音频数据进行傅里叶变换,获取待检测音频文件在各个区间内的音频信号的频率特征;根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相对频率特征,所述相对频率特征表征相邻音频信号的频率之间的差值信息;根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相干频率特征,所述相干频率特征表征相邻音频信号的频率之间倍数信息;根据获取的待检测音频文件在各个时间区间内音频数据中的最大振幅,获取待检测音频文件在各个区间内音频信号的能量特征;分别采用获取的待检测音频文件在各个时间区间内的音频信号的频率特征、相对频率特征、相关频率特征和能量特征构建待检测音频文件的特征向量。
具体的,在本实施例中,每一个时间区间对应音频信号的频率特征、相对频率特征、相干频率特征和能量特征。将各个时间区间内的音频信号的频率特征数据作为元素组成待检测音频文件的频率特征向量。其中,频率特征向量中元素的数量与时间区间的数量是相同的。同理,相对频率特征向量、相干频率特征向量和能量特征向量的构建过程与频率特征向量的构建过程是相同的。
例如,表1为提取的待检测音频文件的特征与时间区间的对应图表,如表1所示,如果一个待检测音频文件的音频信号被划分为5个时间区间,在5个时间区间内,获取的频率特征的数据分别为a1、a2、a3、a4和a5,将5个时间区间内的频率特征数据作为元素组成待检测音频文件频率特征向量,即为(a1,a2,a3,a4,a5)。同理,相对频率特征向量、相干频率特征向量以及能量特征向量与频率特征向量构建的过程是相同的,因此,构建的相对频率特征向量、相干频率特征向量和能量特征向量分别为(b1,b2,b3,b4,b5)、(c1,c2,c3,c4,c5)和(d1,d2,d3,d4,d5)。其中,各个元素按照先后的顺序组成特征向量,待检测音频文件被划分为5个时间区间,所以待检测音频文件的频率特征向量、相对频率特征向量、相干频率特征向量以及能量特征向量中的元素分别有5个。
表1
S140:根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。
在本实施例中,音频文件特征库中包含版权音频文件的特征向量,其中版权音频文件特征向量的构建过程与待检测音频文件特征向量的构建过程相同。即将版权音频文件的音频信号进行归一化、分片处理,并将分片处理的版权音频文件的音频信号进行特征提取,根据提取的特征构建版权音频文件的特征向量。
示例性的,根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度优选包括:将构建的待检测音频文件的特征向量,分别先后与特征库的第一区域和第二区域内版权音频文件的特征向量进行比对;根据比对结果获取待检测音频文件与特征库中音频文件的相似度。
其中,第一区域内版权音频文件特征向量按照热度进行排序,第二区域内版权音频文件的特征向量进行二叉排序。具体的,第一区域内版权音频文件特征向量按照热度进行顺序排列。当第二区域内的版权音频文件的特征向量进行二叉排序时,首先将版权音频文件的特征向量分别通过公式或函数计算得到一关联值,其中关联值与版权音频文件的特征向量是一一对应的,关联值可以是特征向量中的各个元素的平均值;将关联值处于中间值的版权音频文件的特征向量作为二叉树的根节点,左子树上特征向量的关联值小于中间值,右子树上特征向量的关联值大于中间值。例如,特征库中第二区内包含7个版权音频文件的特征向量,如果7个版权音频文件的频率特征向量通过计算得到的关联值分别为1000,、2000、3000、4000、5000、6000和7000,如图1b所示,将关联值为4000的版权音频文件的频率特征向量作为二叉树的根节点,则关联值为2000和6000的版权音频文件的频率特征向量分别作为左子树和右子树。当关联值为2000的版权音频文件的频率特征向量作为根节点时,关联值为1000和3000的版权音频文件的频率特征向量分别作为左子树和右子树。当关联值为6000的版权音频文件的频率特征向量作为根节点时,关联值为5000和7000的版权音频文件的频率特征向量分别作为左子树和右子树。当将待检测音频文件的特征向量与特征库中第二区域内的特征向量进行比对时,先将待检测音频文件的特征向量转换成关联值,然后根据关联值查找特征库中的特征向量。如果待检测音频文件频率特征向量转换成的关联值为3000时,如图1b所示,直接将待检测音频文件的频率特征向量与关联值为3000的版权音频文件的频率特征向量进行比对,获取待检测音频文件频率特征向量的相似度。如果待检测音频文件频率特征向量转换成的关联值为2500时,为了节省比对的时间,将待检测音频文件的频率特征向量与关联值分别2000和3000的版权音频文件的频率特征向量进行比对(因2000、3000与2500之间的差值最小),分别获取待检测音频文件的相似度,不需要将待检测音频文件的频率特征向量与特征库中第二区域内的所有频率特征向量一一进行比对。同理,版权音频文件的其他特征向量的二叉排序的原理以及进行对比的原理与频率特征向量是相同的。
在本实施例中,第一区域为特征库的缓存区域,缓存区域的数据量较少,第二区域为特征库的持久区域,第二区域中存储的版权音频文件的特征向量的数据较多,但热度较高的版权音频文件的特征向量存储在第一区域内,当构建的待检测音频文件的特征向量与特征库中第一区域内的版权音频文件的特征向量进行比对时,如果获取的待检测音频文件特征向量的相似度超过阈值,为了节省比对的时间,不再需要将待检测音频文件的特征向量与特征库中第二区域内版权音频文件的特征向量进行比对。否则,将待检测音频文件的特征向量与特征库中第二区域内的版权音频文件的特征向量进行比对。由于音频文件的热度随着时间会发生变化,故特征库中第一区域和第二区域内的特征向量在经过一段时间以后也会发生变化。
具体的,在获取待检测音频文件与版权音频文件的相似度时,先将待检测音频文件的频率特征向量、相对频率特征向量、相干频率特征向量、能量特征向量分别与特征库中版权音频文件的频率特征向量、相对频率特征向量、相干频率特征向量、能量特征向量分别进行比对,通过余弦相似度算法分别获取待检测音频文件频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度和能量特征向量的相似度。然后,将待检测音频文件频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度和能量特征向量的相似度,通过预设的公式或函数计算待检测音频文件与版权音频文件的相似度。
本实施例提供了一种音频文件检测方法,通过构建的特征向量获取音频文件的相似度能够从多维度对待测音频文件进行检测,有效识别不同程度的相似情况,提升了检测的精度。
实施例二
图2是本发明实施例二提供的一种音频文件检测方法的流程图,在上述实施例的基础上,在根据提取的特征量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度之后,还执行如下操作:
根据获取的待检测音频文件与特征库中音频文件的相似度,判断待检测音频文件是否侵权。
由此,通过待检测音频文件和特征库中音频文件的相似度,进行判断待检测音频文件是否侵权,能够降低侵权误判的概率。
进一步的,所述根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度优选包括:
选取与待检测音频文件的应用场景相对应的目标特征向量,将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对,获取目标特征向量的相似度;
确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件,将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对,分别获取待检测音频文件非目标特征向量的相似度;
根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度。
由此,通过选取待检测音频文件的目标特征向量,将目标特征向量与特征库中与目标特征向量相对应的特征向量进行比对获取目标特征向量的相似度;通过确定特征库中与目标特征向量的相似度最大的目标音频文件,将目标音频文件的未比对特征向量与待检测音频文件的非目标特征向量进行比对获取非目标特征向量的相似度;可以节省特征向量比对的时间,更快速的获取待检测音频文件与特征库中音频文件的相似度。
基于上述的优化,如图2所示,本实施例提供的技术方案具体如下:
S210:对待检测音频文件的音频信号的设定维度参数进行归一化处理。
S220:对归一化处理后的音频信号进行分片处理。
S230:对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量。
S240:选取与待检测音频文件的应用场景相对应的目标特征向量,将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对,获取目标特征向量的相似度。
在本实施例中,不同的待检测音频文件均有各自的应用场景,并且在不同的应用场景下,不同的待检测音频文件的音调、节奏等特性均存在不同。例如,有些应用场景下待检测音频文件的音调较为突出,而另一些应用场景下待检测音频文件的节奏较为突出。
举例说明,当待检测音频文件的音调较为突出时,选取频率特征向量作为待检测音频文件的目标特征向量,将频率特征向量与特征库中多个版权音频文件的频率特征向量进行比对,计算待检测音频文件与多个版权音频文件的频率特征向量的相似度。
当待检测音频文件的节奏较为突出时,选取能量特征向量作为待检测音频文件的目标特征向量,将能量特征向量与特征库中多个版权音频文件的能量特征向量进行比对,计算待检测音频文件与多个版权音频文件的能量特征向量的相似度。
S250:确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件,将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对,分别获取待检测音频文件非目标特征向量的相似度。
在本实施例中,当待检测音频文件的音调较为突出时,根据计算的待检测音频文件与多个版权音频文件频率特征向量的相似度,确定特征库中与待检测音频文件的频率特征向量相似度最大的目标音频文件,将目标音频文件的未比对的相对频率特征向量、相干频率特征向量、能量特征向量与待检测音频文件的相对频率特征向量、相干频率特征向量、能量特征向量进行比对,分别获取待检测音频文件相对频率特征向量、相干频率特征向量、能量特征向量的相似度。
在上述实施例的基础上,当待检测音频文件的频率特征向量与特征库中第一区域内版权音频文件的频率特征向量进行比对时,如果获取的频率特征向量与第一区域内某一版权音频文件的频率特征向量的相似度达到预设值,则不需要将待检测音频文件的频率特征向量与特征库中第二区域内版权音频文件的频率特征向量进行比对,而将该版权音频文件未比对的特征向量与待检测音频文件的相对频率特征向量、相干频率特征向量、能量特征向量分别进行比对,从而获取待检测音频文件各个特征向量的相似度。
S260:根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度。
示例性的,所述根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度,包括:根据获取的待检测音频文件特征向量的相似度及预设特征向量相似度的权重,获取待检测音频文件与特征库中音频文件的相似度。
举例说明,如果频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度以及能量特征向量的相似度的预设权重分别为0.6,0.1,0.1和0.1,则待检测音频文件与特征库中音频文件的相似度通过如下的公式进行计算,S=S1×0.6+S2×0.1+S3×0.1+S4×0.1,其中,S为待检测音频文件与特征库中音频文件的相似度,S1为频率特征向量的相似度,S2为相对频率特征向量的相似度,S3为相干频率特征向量的相似度,S4为能量特征向量的相似度。
S270:根据获取的待检测音频文件与特征库中音频文件的相似度,判断待检测音频文件是否侵权。
在本实施例中,如果获取的待检测音频文件与特征库中音频文件的相似度达到预设的阈值,则判断待检测音频文件侵权,否则,判断待检测音频文件不侵权。
在上述实施例的基础上,获取待检测音频文件与版权音频文件相似度的方法还可以通过如下的方式:将样本音频文件特征向量的相似度输入到训练模型,以对预设的特征向量相似度的权重进行调整;根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重,获取待检测音频文件与版权音频文件的相似度。其中,样本音频文件的特征向量与版权音频文件特征向量的相似度是预先获取的,且样本音频文件与版权音频文件相似度也预先获取。例如,样本音频文件的频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度以及能量特征向量的相似度分别为80,70,20,和10,样本音频文件与版权音频文件的相似度为50,则将80,70,20,和10分别输入到训练模型进行训练,根据样本音频文件与版权音频文件的相似度50,对预设的样本音频文件各个特征向量相似度的权重进行调整。为了得到较精确的各个特征向量相似度的权重,需要将多个样本音频文件各个特征向量的相似度输入到训练模型,对各个特征向量相似度的权重进行多次调整。然后,根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重,获取待检测音频文件与版权音频文件的相似度。
本实施例提供了一种音频文件检测的方法,通过选取待检测音频文件的目标特征向量,将目标特征向量与特征库中与目标特征向量相对应的特征向量进行比对获取目标特征向量的相似度;通过确定特征库中与目标特征向量的相似度最大的目标音频文件,将目标音频文件的未比对特征向量与待检测音频文件的非目标特征向量进行比对获取非目标特征向量的相似度,能够节省特征向量比对的时间,更快速的获取待检测音频文件与特征库中音频文件的相似度;通过获取的待检测音频文件与特征库中音频文件的相似度,判断待检测音频文件是否侵权,能够从多维度对待检测音频文件进行检测,提升了检测的精度,降低了侵权误判的概率。
实施例三
图3是本发明实施例三提供的一种音频文件检测装置的结构框图;通过所述的装置来实现音频文件的检测,如图3所示,所述的装置包括:归一化处理模块310、分片处理模块320、特征向量构建模块330和相似度获取模块340。
其中,归一化处理模块310,用于对待检测音频文件的音频信号的设定维度参数进行归一化处理;
分片处理模块320,用于对归一化处理后的音频信号进行分片处理;
特征向量构建模块330,用于对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量;
相似度获取模块340,用于根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。
进一步的,上述的装置还包括:侵权判断模块350,用于在所述获取待检测音频文件与特征库中音频文件的相似度之后,根据获取的待检测音频文件与特征库中音频文件的相似度,判断待检测音频文件是否侵权。
进一步的,归一化处理模块310,具体用于:
对待检测音频文件的音频信号的采样频率、比特率和/或最大振幅进行归一化处理。
进一步的,分片处理模块320,具体用于:
将归一化处理后的音频信号进行等间隔的时间区间的划分,获取待检测音频文件的音频信号在各个时间区间的音频数据。
进一步的,特征向量构建模块330,具体用于:
将待检测音频文件的音频信号在各个区间内的音频数据进行傅里叶变换,获取待检测音频文件在各个区间内的音频信号的频率特征;
根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相对频率特征,所述相对频率特征表征相邻音频信号的频率之间的差值信息;
根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相干频率特征,所述相干频率特征表征相邻音频信号的频率之间倍数信息;
根据获取的待检测音频文件在各个时间区间内音频数据中的最大振幅,获取待检测音频文件在各个区间内音频信号的能量特征;
分别采用获取的待检测音频文件在各个时间区间内的音频信号的频率特征、相对频率特征、相关频率特征和能量特征构建待检测音频文件的特征向量。
进一步的,所述相似度获取模块340包括:第一相似度获取单元341和第二相似度获取单元342;
所述第一相似度获取单元341,用于将构建的待检测音频文件的特征向量,分别先后与特征库的第一区域和第二区域内版权音频文件的特征向量进行比对;
所述第二相似度获取单元342,用于根据比对结果获取待检测音频文件与特征库中音频文件的相似度;
其中,第一区域内版权音频文件特征向量按照热度进行排序,第二区域内版权音频文件的特征向量进行二叉排序。
进一步的,所述第一相似度获取单元341,具体用于:选取与待检测音频文件的应用场景相对应的目标特征向量,将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对,获取目标特征向量的相似度;
确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件,将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对,分别获取待检测音频文件非目标特征向量的相似度;
所述第二相似度获取单元342包括第一相似度获取子单元3421和第二相似度获取子单元3422,所述第二相似度获取单元342具体用于:
根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度。
进一步的,所述第一相似度获取子单元3421,用于根据获取的待检测音频文件特征向量的相似度及预设特征向量相似度的权重,获取待检测音频文件与特征库中音频文件的相似度。
所述第二相似度获取子单元3422,用于将样本音频文件特征向量的相似度输入到训练模型,以对预设的特征向量相似度的权重进行调整;
根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重,获取待检测音频文件与版权音频文件的相似度。
上述的装置可以用于执行本发明实现音频文件检测方法,具备相应的功能和有益效果。
本发明实施例提供的一种音频文件检测装置,通过构建的特征向量获取相似度能够从多维度对待测音频文件进行检测,提升了检测的精度,降低了侵权误判的概率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种音频文件检测方法,其特征在于,包括:
对待检测音频文件的音频信号的设定维度参数进行归一化处理;
对归一化处理后的音频信号进行分片处理;
对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量;
根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测音频文件与特征库中音频文件的相似度之后,还包括:
根据获取的待检测音频文件与特征库中音频文件的相似度,判断待检测音频文件是否侵权。
3.根据权利要求1所述的方法,其特征在于,所述对待检测音频文件的音频信号的设定维度参数进行归一化处理包括:
对待检测音频文件的音频信号的采样频率、比特率和/或最大振幅进行归一化处理。
4.根据权利要求1所述的方法,其特征在于,对归一化处理后的音频信号进行分片处理包括:
将归一化处理后的音频信号进行等间隔的时间区间的划分,获取待检测音频文件的音频信号在各个时间区间的音频数据。
5.根据权利要求4所述的方法,其特征在于,对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量包括:
将待检测音频文件的音频信号在各个区间内的音频数据进行傅里叶变换,获取待检测音频文件在各个区间内的音频信号的频率特征;
根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相对频率特征,所述相对频率特征表征相邻音频信号的频率之间的差值信息;
根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相干频率特征,所述相干频率特征表征相邻音频信号的频率之间倍数信息;
根据获取的待检测音频文件在各个时间区间内音频数据中的最大振幅,获取待检测音频文件在各个区间内音频信号的能量特征;
分别采用获取的待检测音频文件在各个时间区间内的音频信号的频率特征、相对频率特征、相关频率特征和能量特征构建待检测音频文件的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述根据提取的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度,包括:
将构建的待检测音频文件的特征向量,分别先后与特征库的第一区域和第二区域内版权音频文件的特征向量进行比对;
根据比对结果获取待检测音频文件与特征库中音频文件的相似度;
其中,第一区域内版权音频文件特征向量按热度进行排序,第二区域内版权音频文件的特征向量进行二叉排序。
7.根据权利要求1所述的方法,其特征在于,所述根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度,包括:
选取与待检测音频文件的应用场景相对应的目标特征向量,将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对,获取目标特征向量的相似度;
确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件,将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对,分别获取待检测音频文件非目标特征向量的相似度;
根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度。
8.根据权利要求7所述的方法,其特征在于,所述根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度,包括:
根据获取的待检测音频文件特征向量的相似度及预设特征向量相似度的权重,获取待检测音频文件与特征库中音频文件的相似度。
9.根据权利要求7所述的方法,其特征在于,所述根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度,包括:
将样本音频文件特征向量的相似度输入到训练模型,以对预设的特征向量相似度的权重进行调整;
根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重,获取待检测音频文件与版权音频文件的相似度。
10.一种音频文件检测装置,其特征在于,包括:
归一化处理模块,用于对待检测音频文件的音频信号的设定维度参数进行归一化处理;
分片处理模块,用于对归一化处理后的音频信号进行分片处理;
特征向量构建模块,用于对分片处理后的音频信号进行特征提取,根据提取的特征构建待检测音频文件的特征向量;
相似度获取模块,用于根据构建的特征向量,查询预建立的音频文件特征库,获取待检测音频文件与特征库中音频文件的相似度。
11.根据权利要求10所述的装置,其特征在于,还包括:侵权判断模块,用于在所述获取待检测音频文件与特征库中音频文件的相似度之后,根据获取的待检测音频文件与特征库中音频文件的相似度,判断待检测音频文件是否侵权。
12.根据权利要求10所述的装置,其特征在于,归一化处理模块,具体用于:
对待检测音频文件的音频信号的采样频率、比特率和/或最大振幅进行归一化处理。
13.根据权利要求10所述的装置,其特征在于,分片处理模块,具体用于:
将归一化处理后的音频信号进行等间隔的时间区间的划分,获取待检测音频文件的音频信号在各个时间区间的音频数据。
14.根据权利要求13所述的装置,其特征在于,特征向量构建模块,具体用于:
将待检测音频文件的音频信号在各个区间内的音频数据进行傅里叶变换,获取待检测音频文件在各个区间内的音频信号的频率特征;
根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相对频率特征,所述相对频率特征表征相邻音频信号的频率之间的差值信息;
根据获取的音频信号的频率特征,获取待检测音频文件在各个区间内相干频率特征,所述相干频率特征表征相邻音频信号的频率之间倍数信息;
根据获取的待检测音频文件在各个时间区间内音频数据中的最大振幅,获取待检测音频文件在各个区间内音频信号的能量特征;
分别采用获取的待检测音频文件在各个时间区间内的音频信号的频率特征、相对频率特征、相关频率特征和能量特征构建待检测音频文件的特征向量。
15.根据权利要求10所述的装置,其特征在于,所述相似度获取模块包括:第一相似度获取单元和第二相似度获取单元;
所述第一相似度获取单元,用于将构建的待检测音频文件的特征向量,分别先后与特征库的第一区域和第二区域内版权音频文件的特征向量进行比对;
所述第二相似度获取单元,用于根据比对结果获取待检测音频文件与特征库中音频文件的相似度;
其中,第一区域内版权音频文件特征向量按热度进行排序,第二区域内版权音频文件的特征向量进行二叉排序。
16.根据权利要求15所述的装置,其特征在于,所述第一相似度获取单元,具体用于:选取与待检测音频文件的应用场景相对应的目标特征向量,将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对,获取目标特征向量的相似度;
确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件,将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对,分别获取待检测音频文件非目标特征向量的相似度;
所述第二相似度获取单元包括第一相似度获取子单元和第二相似度获取子单元,所述第二相似度获取单元具体用于:
根据获取的待检测音频文件特征向量的相似度,获取待检测音频文件与特征库中音频文件的相似度。
17.根据权利要求16所述的装置,其特征在于,所述第一相似度获取子单元,用于根据获取的待检测音频文件特征向量的相似度及预设特征向量相似度的权重,获取待检测音频文件与特征库中音频文件的相似度。
18.根据权利要求16所述的装置,其特征在于,所述第二相似度获取子单元,用于将样本音频文件特征向量的相似度输入到训练模型,以对预设的特征向量相似度的权重进行调整;
根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重,获取待检测音频文件与版权音频文件的相似度。
CN201610158801.XA 2016-03-18 2016-03-18 一种音频文件检测方法及装置 Active CN107204183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610158801.XA CN107204183B (zh) 2016-03-18 2016-03-18 一种音频文件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610158801.XA CN107204183B (zh) 2016-03-18 2016-03-18 一种音频文件检测方法及装置

Publications (2)

Publication Number Publication Date
CN107204183A true CN107204183A (zh) 2017-09-26
CN107204183B CN107204183B (zh) 2020-07-24

Family

ID=59904435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610158801.XA Active CN107204183B (zh) 2016-03-18 2016-03-18 一种音频文件检测方法及装置

Country Status (1)

Country Link
CN (1) CN107204183B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832384A (zh) * 2017-10-28 2018-03-23 北京安妮全版权科技发展有限公司 侵权检测方法、装置、存储介质和电子设备
CN109523990A (zh) * 2019-01-21 2019-03-26 未来电视有限公司 语音检测方法和装置
CN110704690A (zh) * 2019-09-02 2020-01-17 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法、设备及存储介质
CN112002322A (zh) * 2020-08-21 2020-11-27 腾讯音乐娱乐科技(深圳)有限公司 作品识别方法、装置、设备及存储介质
CN112241467A (zh) * 2020-12-18 2021-01-19 北京爱数智慧科技有限公司 一种音频查重的方法和装置
CN112434263A (zh) * 2020-10-15 2021-03-02 杭州安存网络科技有限公司 提取音频文件的相似片段的方法及装置
CN114359590A (zh) * 2021-12-06 2022-04-15 支付宝(杭州)信息技术有限公司 Nft图像作品侵权检测方法、装置、及计算机存储介质
CN112002322B (zh) * 2020-08-21 2024-07-26 腾讯音乐娱乐科技(深圳)有限公司 作品识别方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030072491A1 (en) * 2001-10-17 2003-04-17 Sudheer Sirivara Identifying image content
US20070113724A1 (en) * 2005-11-24 2007-05-24 Samsung Electronics Co., Ltd. Method, medium, and system summarizing music content
US20070250716A1 (en) * 2000-05-02 2007-10-25 Brunk Hugh L Fingerprinting of Media Signals
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN101552000A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 音乐相似性处理方法
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
KR20100078038A (ko) * 2008-12-30 2010-07-08 (주)코인미디어 랩 오디오 복제 탐지 방법
KR20110013646A (ko) * 2009-08-03 2011-02-10 성균관대학교산학협력단 음악 장르 분류 방법 및 장치
CN102314562A (zh) * 2010-07-01 2012-01-11 盛乐信息技术(上海)有限公司 音视频分享网站的视频版权检测***及方法
CN102436806A (zh) * 2011-09-29 2012-05-02 复旦大学 一种基于相似度的音频拷贝检测的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070250716A1 (en) * 2000-05-02 2007-10-25 Brunk Hugh L Fingerprinting of Media Signals
US20030072491A1 (en) * 2001-10-17 2003-04-17 Sudheer Sirivara Identifying image content
US20070113724A1 (en) * 2005-11-24 2007-05-24 Samsung Electronics Co., Ltd. Method, medium, and system summarizing music content
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
KR20100078038A (ko) * 2008-12-30 2010-07-08 (주)코인미디어 랩 오디오 복제 탐지 방법
CN101552000A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 音乐相似性处理方法
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
KR20110013646A (ko) * 2009-08-03 2011-02-10 성균관대학교산학협력단 음악 장르 분류 방법 및 장치
CN102314562A (zh) * 2010-07-01 2012-01-11 盛乐信息技术(上海)有限公司 音视频分享网站的视频版权检测***及方法
CN102436806A (zh) * 2011-09-29 2012-05-02 复旦大学 一种基于相似度的音频拷贝检测的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832384A (zh) * 2017-10-28 2018-03-23 北京安妮全版权科技发展有限公司 侵权检测方法、装置、存储介质和电子设备
CN109523990A (zh) * 2019-01-21 2019-03-26 未来电视有限公司 语音检测方法和装置
CN109523990B (zh) * 2019-01-21 2021-11-05 未来电视有限公司 语音检测方法和装置
CN110704690A (zh) * 2019-09-02 2020-01-17 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法、设备及存储介质
CN112002322A (zh) * 2020-08-21 2020-11-27 腾讯音乐娱乐科技(深圳)有限公司 作品识别方法、装置、设备及存储介质
CN112002322B (zh) * 2020-08-21 2024-07-26 腾讯音乐娱乐科技(深圳)有限公司 作品识别方法、装置、设备及存储介质
CN112434263A (zh) * 2020-10-15 2021-03-02 杭州安存网络科技有限公司 提取音频文件的相似片段的方法及装置
CN112241467A (zh) * 2020-12-18 2021-01-19 北京爱数智慧科技有限公司 一种音频查重的方法和装置
CN114359590A (zh) * 2021-12-06 2022-04-15 支付宝(杭州)信息技术有限公司 Nft图像作品侵权检测方法、装置、及计算机存储介质

Also Published As

Publication number Publication date
CN107204183B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN107204183A (zh) 一种音频文件检测方法及装置
Trstenjak et al. KNN with TF-IDF based framework for text categorization
CN100383812C (zh) 信息处理装置和方法
CN106484777B (zh) 一种多媒体数据处理方法以及装置
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及***
CN105488023B (zh) 一种文本相似度评估方法及装置
CN106528508A (zh) 一种重复文本的判定方法和装置
CN106649273B (zh) 一种文本处理方法及装置
CN110472067B (zh) 知识图谱表示学习方法、装置、计算机设备及存储介质
JP2010123000A (ja) Webページグループ抽出方法及び装置及びプログラム
CN114037219A (zh) 一种数据评估方法、装置及电子设备
CN110768929A (zh) 域名检测方法和装置、计算机可读存储介质
CN104992146A (zh) 一种用于人脸识别的方法和装置
CN105224954A (zh) 一种基于Single-pass去除小话题影响的话题发现方法
JP6722565B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
CN112669910A (zh) 扩增曲线基线确定方法、装置以及电子设备
CN104615681B (zh) 文本选取方法及装置
CN104008333B (zh) 一种安装包的检测方法和设备
CN103955449B (zh) 定位目标样本的方法和装置
CN106776531B (zh) 语料处理方法及装置
CN112769540A (zh) 一种侧信道信息泄露的诊断方法、***、设备及存储介质
CN116681023B (zh) 一种基于格林函数的波形筛选方法及装置
JP2020008916A5 (zh)
US20240104119A1 (en) Information processing apparatus, classification method, and storage medium
JP7286056B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant