CN108806718B - 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 - Google Patents

基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 Download PDF

Info

Publication number
CN108806718B
CN108806718B CN201810585686.3A CN201810585686A CN108806718B CN 108806718 B CN108806718 B CN 108806718B CN 201810585686 A CN201810585686 A CN 201810585686A CN 108806718 B CN108806718 B CN 108806718B
Authority
CN
China
Prior art keywords
enf
signal
spectrum
phase
enfc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810585686.3A
Other languages
English (en)
Other versions
CN108806718A (zh
Inventor
王志锋
王静
左明章
叶俊民
闵秋莎
田元
夏丹
陈迪
罗恒
宁国勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201810585686.3A priority Critical patent/CN108806718B/zh
Publication of CN108806718A publication Critical patent/CN108806718A/zh
Application granted granted Critical
Publication of CN108806718B publication Critical patent/CN108806718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

本发明属于数字音频信号处理技术领域,公开了一种基于对ENF相位谱和瞬时频率谱分析的音频鉴定方法,对待测信号进行预处理,接着对ENF信号进行特征提取,分析ENF信号的相位谱和瞬时频率谱,提取ENF信号的相位谱波动特征,相位谱和频率谱拟合参数特征;通过判别相关分析DCA方法进行特征融合,最大化不同的特征集之间的相关性;最后应用深度随机森林对融合后的特征进行模型建构,训练好的模型进行迁移学习。本发明使用的特征级融合技术进行特征数据处理,降低了特征维数的同时提高识别差距,应用深度学习方法进行模型训练,大大提高了数字音频被动篡改检测的准确率。

Description

基于对ENF相位谱和瞬时频率谱分析的音频鉴定方法
技术领域
本发明属于数字音频信号处理技术领域,尤其涉及一种基于对ENF相位谱和瞬时频率谱分析的音频鉴定方法。
背景技术
目前,业内常用的现有技术是这样的:
随着计算机及互联网相关技术的发展,人们更加依赖于使用数字多媒体数据。数字多媒体数据易于保存、编辑和传播的优点给人们日常生活带来诸多便利和乐趣。比如人们不需要任何专业知识就可以简单快捷地使用音频编辑软件对数字音频文件进行拼接、加入噪声和变换等操作,这是互联网时代盛行的娱乐方式。但是技术的发展是一把双刃剑,同时让一些不法分子有机可乘。不法分子可以对数字音频进行恶意地篡改并进行广泛传播,且仅凭感官难以察觉出来。若将这样的数字音频文件应用在法庭录音举证、虚假新闻传播等场合下,可能会导致严重的后果,损害法律公正和社会信任秩序。因此,保证数字音频的真实性和完整性,对数字音频进行篡改检测是十分重要的。数字音频篡改检测是数字音频取证的一个重要分支,在司法取证、新闻公正和科学发现等领域有着广泛应用。
在目前的数字音频篡改检测方法中,最有效的方法是基于电网频率一致性的检测方法,在过去十年中几乎成为数字音频鉴定的公用标准,得到世界范围内学术研究人员和执法机构的关注。其原理在于,如果录音设备在接入电网的情况向下录制音频,那么音频信号中必然会带有电网频率(Electirc Network Frequency,ENF)信息。这不仅令ENF成为一种天然嵌入到音频信号中的水印信号,而且可以作为时间戳来使用。音频文件中嵌入的ENF成分(ENF component,ENFC),可以经过带通滤波提取出来。利用ENFC的稳定性和唯一性进行数字音频篡改检测一般有两个研究思路,第一是将提取出的ENFC与供电部门的电网频率数据库中的数据进行比对,确定音频录制时间与所宣称的是否一致,建立和保存大范围的ENF信号数据库难度高、代价高,目前还没有实用价值比较高的ENF数据库。Grigoras最早在罗马尼亚局部建立了ENF参考数据库。刘育明等对北美电网检测***进行分析,提出建立标准电网频率的方法;第二是提取ENF信号中的某些特征,进行一致性或者规律性分析。Grigoras最早提出基于ENF的音频篡改检测算法,主要通过待检测音频中ENF的波动和参考年份的数据进行比对,从而判断音频是否被篡改过。接着Grigoras验证对音频信号加短时窗进行分析,可以与数据库进行更细致、精确的对比。Rodríguez等在Grigoras的研究基础上,提出不需要使用ENF标准数据库的方法,将ENF相位变化的一致性作为特征来检测音频篡改,选取边界值对该特征进行分类决策。胡永健等在Rodríguez的基础上,将一个理想的正弦信号作为参考信号,构造新的特征量来检测ENF相位的不连续性。胡永健等接着对上述方法进行改进,提出不需要额外参考信号而直接计算ENF最大偏移量的方法,另外利用多特征联合精确定位篡改区域。Esquef等根据篡改操作会引起篡改点ENF瞬时频率突变,提出TPSW(Two-Pass Split-Window)方法估计ENF背景变化水平,将实际瞬时频率变化超过背景变化水平的峰值点称为篡改点。
综上所述,现有技术存在的问题是:
目前基于ENF进行数字音频被动篡改检测的研究存在一些问题:
1)没有权威的ENF对比数据库。使用待测信号中的ENF成分与ENF数据库中进行对比来判断语音信号是否经过篡改没有可靠的结果;
2)大多数的方法没有提取到语音信号中关键的特征数据,可以直接对语音信号是否被篡改进行决策;
3)忽略特征集之间的相关性,没有对提取到的原始特征数据做进一步的处理;
4)现有大多数方法自动化程度不高、效果不佳,且对不同数据库信号的自适应性差。
解决上述技术问题的难度和意义:
建立权威的ENF对比数据库,代价昂贵且管理困难,实际操作的意义不大;提取语音信号中关键特征数据来直接对是否被篡改作出决策是研究人员一直以来想要攻克的问题。
本发明选用信号的ENF成分中对信号截断敏感的相位谱和瞬时频率谱作为特征,进行篡改检测;本发明使用三个数据库的语音信号进行实验,并使用深度学习方法深度随机森林进行模型建构,保证了该方案的自适应性和自动化程度能够应用于实际情况。
发明内容
针对现有技术存在的问题,本发明提供了一种基于对ENF相位谱和瞬时频率谱分析的音频鉴定方法。本发明通过提取语音信号中的ENFC,并分析ENFC的相位谱和频率谱,提取相位和频率特征。使用DCA方法对相位谱特征和频率谱特征进行特征融合,应用深度随机森林对融合特征进行模型建构,得到的模型可以对任意待测信号是否经过篡改进行决策,实现了语音信号***、删除操作的自动检测。该方法通过融合ENF成分中具有代表性的相位和瞬时频率特征,并使用深度学习方法训练模型,得到可以进行自动检测模型,提高了检测效率,实现了数字音频篡改检测的自动化。
本发明是这样实现的,一种基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,包括:首先对待测信号进行预处理,包括下采样和窄带滤波,得到以电网频率(Electirc Network Frequency,ENF)标准频率为中心的窄带信号;接着对ENF信号进行特征提取,分析ENF信号的相位谱和瞬时频率谱,提取ENF信号的相位谱波动特征,相位谱和频率谱拟合参数特征;通过判别相关分析(discriminant correlation analysis,DCA)方法进行特征融合,最大化不同的特征集之间的相关性,同时消除类间相关性,并限制类内的相关性;最后应用深度随机森林对融合后的特征进行模型建构,训练好的模型进行迁移学习,即模型保存后,可以对任意待测信号是否被篡改进行决策。本发明基于待测信号中的ENF标记信号进行篡改检测,提取ENF信号因篡改而受到影响的相位和频率特征,并且本方法对提取的特征集进行DCA特征融合,应用深度随机森林方法对融合之后的特征进行训练分类,得到分类模型,该模型对于信号的***和删除情况均可得到很好的检测效果,降低了计算复杂度,大大提高了分类准确率,能够实现自动分类机制。
具体包括以下步骤:
步骤1:对待测信号进行预处理;
步骤2:对信号中的ENF成分进行相位谱和频率谱的特征提取;
步骤3:使用DCA方法对提取的多个特征集进行特征融合;
步骤4:应用深度随机森林对融合后的特征进行模型建构,可以对待测信号进行决策。
进一步,步骤1,具体包括以下步骤:
步骤1.1:对待测信号x[n]进行预处理,预处理包括下采样、去直流分量,得到xd[n];
步骤1.2:将步骤1.1中经过下采样的信号xd[n],通过中心频率在ENF标准频率处的带通滤波器,得到信号中的ENF成分xENFC[n]。
进一步,步骤2,具体包括以下步骤:
步骤A1:对xENFC[n]进行基于DFT1的相位谱估计,提取相位谱波动特征F;
步骤A2:对xENFC[n]进行基于Hilbert的瞬时频率谱估计;
步骤A3:分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征
Figure BDA0001686169760000042
和瞬时频率谱拟合特征
Figure BDA0001686169760000041
进一步,步骤A1中,对xENFC[n]进行基于DFT1的相位谱估计,首先对xENFC[n]信号进行常规的N点离散傅里叶变换DFT,为基于DFT0的相位估计,得到估计相位
Figure BDA0001686169760000057
基于DFT1相位估计在DFT0基础上相位估计,计算xENFC[n]在点n处的近似一阶导数:
x′ENFC[n]=fd(xENFC[n]-xENFC[n-1])
结合近似一阶导数和
Figure BDA0001686169760000051
进行更高阶的相位估计,并对估计结果进行线性插值,得到相位谱估计结果,提取相位谱波动特征F;
步骤A2中,对xENFC[n]进行基于Hilbert变换的瞬时频率估计,首先得到xENFC[n]的解析函数:
x(a) ENFC[x]=xENFC[x]+i*Η{xENFC[x]},
其中
Figure BDA0001686169760000052
Η代表Hilbert变换;瞬时频率为Η{xENFC[n]}相角的变化率,估计ENF信号的瞬时频率f[n],对f[n]去除振荡和边界效应,构建xENFC[n]瞬时频率谱;
步骤A3中,据xENFC[n]的相位谱和频率谱的特点,分别使用Sum of Sines和Gaussian来拟合相位谱和频率谱曲线;
Sum of Sines表达式形式:
Figure BDA0001686169760000053
Gaussian表达式形式:
Figure BDA0001686169760000054
其中表达式参数即为拟合特征,
Figure BDA0001686169760000055
Figure BDA0001686169760000056
进一步,步骤3,具体包括:
特征融合的目标是将两个或多个特征向量中的相关信息组合成一个比任何单一输入特征向量更具辨别力的信息,或者在特征维数过多的情况下,通过特征融合降低了特征维数但是可以达到和高维特征近似的准确度。应用判别相关分析DCA将步骤2中得到的相位特征集和频率特征集进行特征融合,DCA通过最大化两个特征集之间的两两相关性进行特征融合,并限制类内的相关性。通过最大化特征集间的协方差矩阵来计算特征集的转化矩阵,同时保证类内散布矩阵的对角化。
进一步,步骤4,具体包括:
步骤4.1:应用深度随机森林对融合后的特征进行模型建构;
深度随机森林是一种深度神经网络模型,可用于分类。将融合特征部分用于训练深度随机森林,深度随机森林的训练过程和传统随机森林不同,它能根据精度的变化和层数限制而自动决定层数等模型参数,当训练精度没有提升或者层数达到最大值后就会停止训练,将此时的分类结果作为最终分类精度。
步骤4.2:保存模型后对任意待测信号是否遭到篡改进行决策。
深度随机森林的训练过程完成后所得到的深度随机森林的层数和结构参数,构成本发明所得的融合特征分类模型,可以对任意的待测信号融合特征进行分类和决策。
本发明的另一目的在于提供一种实现所述基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法的信数字音频信号处理***。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法。
综上所述,本发明的优点及积极效果为
本发明分析了ENF信号中对信号截断敏感的相位谱和瞬时频率谱,分别提取有效特征集,并对提取出的特征集进行处理;
本发明使用的特征级融合技术进行特征数据处理,降低了特征维数的同时提高识别差距,应用深度学习方法进行模型训练,大大提高了数字音频被动篡改检测的准确率;
本发明针对复杂环境录音和含噪语音稳定性高,具有很强的鲁棒性。
本发明为数字音频被动篡改检测的准确性和自动化提出了一种广泛性的算法。
本发明使用的实验数据来自于三个不同的数据库共500条语音(其中包括原始语音和篡改语音),使用MATLAB导入这些语音信号,经过发明步骤1提取ENF成分一致性波动特征。根据步骤2,使用5个sin核和5个高斯核对相位波动和瞬时频率波动进行拟合;根据步骤3,将相位波动特征和频率波动特征分别作为一个特征集,进行DCA特征融合,得到二维融合特征,为特征添加标签,应用深度随机森林对融合特征使用十折交叉验证,最后得到分类正确率达到99.8%。
附图说明
图1是本发明实施例提供的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法流程图。
图2是本发明实施例提供的基于DFT1相位谱特征提取流程图;
图3是本发明实施例的基于Hilbert变换瞬时频率谱特征提取流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,包括以下步骤:
步骤1:对待测信号进行预处理;
具体实施包括以下子步骤:
步骤1.1:对待测信号x[n]进行预处理,包括下采样、去直流分量,得到xd[n];
本实施例中考虑到频率混叠效应、信号信息损失和信号的信噪比(过采样可以提高信号的信噪比)的平衡,将信号的重采样频率fd定为1000HZ或者1200HZ(将标准的ENF频率放在ω0=π/10rad/sample)。
步骤1.2:将步骤1.1中经过下采样的信号xd[n],通过中心频率在ENF标准频率处的带通滤波器,得到信号中的ENF成分xENFC[n]。
本实施例使用10000阶的线性零相位FIR滤波器进行窄带滤波防止相位延时。中心频率在ENF标准频率处,带宽为0.6HZ,通带波纹为0.5dB,阻带衰减为100dB。使用高阶滤波器是为了得到理想的窄带信号。零填充(zero padding)是指在时域信号的末端加上零点以增加信号长度的做法,在DFT之前使用零填充可以提高频率分辨率,帮助更加准确地找到频谱上的峰值点。
步骤2:对信号中的ENF成分进行相位谱和频率谱的特征提取;
具体实现包括以下子步骤:
步骤A1:对xENFC[n]进行基于DFT1的相位谱估计,提取相位谱波动特征F;
如图2,首先对xENFC[n]信号进行常规的N点离散傅里叶变换(DFT),得到X(k),令kpeak作为每帧|X(k)|最大值的整数索引,称为基于DFT0的相位估计:
Figure BDA0001686169760000081
计算ENF信号xENFC[n]在点n处的近似一阶导数:
x′ENFC[n]=fd(xENFC[n]-xENFC[n-1]) (2)
对x′ENFC[n]进行DFT0相位估计,得到|X′(k)|,将|X′(k)|乘以一个尺度系数F(k)。
Figure BDA0001686169760000082
这样可以得到DFT0[k]=X(k)和DFT1[k]=F(k)|X′(k)|。xENFC[n估计频率值为
Figure BDA0001686169760000083
ENFC是一个窄带信号可以写成:xENFC[n]=acos(ω0n+φ0),其中ω0=2πfENFC/fd,φ0代表xENFC的初始相位,而fENFC是ENF是实际频率。依据数学推算可以得到:
Figure BDA0001686169760000091
其中
Figure BDA0001686169760000092
θ代表x′ENFC的估计相位,对X′(k)进行线性插值以得到更加精确的值。基于DFT1方法的估计相位谱即为:
Figure BDA0001686169760000093
计算特征量F对ENFC的相位波动特征进行描述。令
Figure BDA0001686169760000094
为相应第nb帧的估计相位,
Figure BDA0001686169760000095
其中2≤nb≤NBlock
Figure BDA0001686169760000096
表示
Figure BDA0001686169760000097
从nb=2到NBlock的平均值。
Figure BDA0001686169760000098
步骤A2:对xENFC[n]进行基于Hilbert的瞬时频率谱估计;
如图3,对信号xENFC[n]进行离散Hilbert变换。首先得到xENFC[n]的解析函数:x(a) ENFC[x]=xENFC[x]+i*Η{xENFC[x]},其中
Figure BDA0001686169760000099
Η代表Hilbert变换。瞬时振幅是Η{xENFC[n]}的振幅,瞬时频率是Η{xENFC[n]}相角的变化率。估计ENF信号的瞬时频率f[n]。在使用Hilbert变换的过程中由于有数值逼近,所以得到的f[n]存在一定的寄生振荡,需要进一步对f[n]进行低通滤波,去除振荡。由于频率估计的边界效应,去掉f[n]头尾各2000采样点,最后所得f[n]即为ENFC的瞬时频率谱估计。
步骤A3:分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征
Figure BDA00016861697600000910
和瞬时频率谱拟合特征
Figure BDA00016861697600000911
本实施例针对ENF相位分布和瞬时频率分布的特点,分别使用不同的解析表达式对离散数据点组进行拟合。为相位或者频率曲线选择选择解析表达式的标准是:该表达式不仅可以对原始信号曲线和编辑信号曲线分别进行拟合,且可以将二者的差异体现在参数上。基于这个标准,本实施例选择了Sum of Sines和Gaussian两个拟合表达式分别进行拟合相位曲线和频率曲线,其中表达式参数即为拟合参数特征。
解析表达式Sum of Sines适合用来拟合相位谱,其形式为:
Figure BDA0001686169760000101
其中a是振幅,b是频率,c是每个正弦波项的相位常量,n是指这个序列的数量,取值范围是1≤n≤9。令
Figure BDA0001686169760000102
为相位谱拟合特征,即:
Figure BDA0001686169760000103
解析表达式Gaussian适合用来拟合峰值,其形式为:
Figure BDA0001686169760000104
其中a是峰值的幅度,b是峰值所在的位置,c与峰的旁瓣有关,n是指拟合了多少个峰值,取值范围是1≤n≤8。令
Figure BDA0001686169760000105
为频率谱拟合特征,即:
Figure BDA0001686169760000106
步骤3:使用DCA方法对提取的多个特征集进行特征融合;
应用判别相关分析(DCA)将步骤2中得到的相位特征集和频率特征集进行特征融合。DCA通过最大化两个特征集之间的两两相关性进行有效的特征融合,同时消除类间相关性,并限制类内的相关性。同时还可以降低特征维数,减少识别结果上的差距。DCA是应用求和方法的特征级融合,具有降低特征维数,同时减小识别结果上的差距的优点。
假设X∈Rp×n和Y∈Rq×n表示两个矩阵,每个矩阵包含n个来自不同模式的训练特征向量。若数据矩阵中的样本是从c个独立的类中收集的。这样数据矩阵中的n列可以被划分为c个独立组,其中ni列属于ith
Figure BDA0001686169760000107
令xij∈X表示与ith类中的第jth样本相对应的特征向量。
Figure BDA0001686169760000108
Figure BDA0001686169760000109
分别表示xij在ith类中和整个特征集上的均值,即
Figure BDA00016861697600001010
类间散布矩阵定义为
Figure BDA00016861697600001011
其中
Figure BDA0001686169760000111
如果特征数大于分类数(p>>c),计算协方差矩阵
Figure BDA0001686169760000112
将会比计算
Figure BDA0001686169760000113
更加容易。通过对
Figure BDA0001686169760000114
的映射可以有效地获得
Figure BDA0001686169760000115
上有意义的特征向量。因此只需要找到c×c维的协方差矩阵
Figure BDA0001686169760000116
的特征向量。如果类间可以很好地区分,那么
Figure BDA0001686169760000117
将会是一个对角矩阵,因为
Figure BDA0001686169760000118
是对称半正定矩阵,本发明可以通过变换将其对角化:
Figure BDA0001686169760000119
P是正交特征向量矩阵,
Figure BDA00016861697600001110
是非负实数特征值按递减顺序排序的对角矩阵。Q(c×r)为r个来自矩阵P的特征向量组成的矩阵,对应于前r个最大非零特征值。有:
Figure BDA00016861697600001111
通过这样的映射可以得到Sbx中r个重要的特征向量:Q→ΦbxQ
bxQ)TSbxbxQ)=Λ(r×r), (13)
Wbx=Φbx-1/2是一种可以统一Sbx同时降低数据矩阵维数X的变换,从p维到r维。即:
Figure BDA00016861697600001112
Figure BDA00016861697600001113
X′是X在空间中的投影,其类间散布矩阵是I,且类均可分离。注意这里最多有c-1个广义特征值,因此r的上限是c-1,r的其他上限由数据矩阵的秩组成,即r≤min(c-1,rank(X),rank(Y))。
类似上述的方法处理第二特征集Y,并找到变换矩阵Wby,统一第二模态的类间散布矩阵Sby同时降低数据矩阵Y的维数,从q维到r维。
Figure BDA00016861697600001114
Figure BDA0001686169760000121
Φ′bx和Φ′by的更新都是r×c的非平方正交矩阵。尽管有Sbx=Sby=I,矩阵
Figure BDA0001686169760000122
Figure BDA0001686169760000123
都是严格对角矩阵
Figure BDA0001686169760000124
其中对角线上的元素接近于1,非对角线上的元素接近于0。这使得类的中心之前具有最小相关,因此可以很好地将类进行分离。接下来需要令同一特征集中的特征仅与另一特征集中的对应特征具有非零相关。为了实现这一目标,本发明需要对变换矩阵的类间散布矩阵进行对角化,即S′xy=X′Y′T。使用奇异值分解(SVD)对角化Sxy
Figure BDA0001686169760000125
其中的X′和Y′秩都为r,S′xy(r×r)是非简化的。是一个对角矩阵且主对角线上的元素都是非零值。令Wcx=UΣ-1/2,Wcy=VΣ-1/2,有:
(UΣ-1/2)TS′xy(VΣ-1/2)=I, (19)
其连接了特征集间的协方差矩阵S′xy。接下来对特征集进行转化:
Figure BDA0001686169760000126
Figure BDA0001686169760000127
其中
Figure BDA0001686169760000128
分别是X和Y的最终转化矩阵。很容易证明,变换后的特征集的类间散布矩阵仍然是对角的,因此,类之间是可以分开的。
Figure BDA0001686169760000129
的类间散布矩阵为:
Figure BDA00016861697600001210
在式(14)中已知
Figure BDA00016861697600001211
且U是一个正交矩阵,有:
Figure BDA00016861697600001212
这里同样可以证明
Figure BDA00016861697600001213
是对角阵。得到转换特征集
Figure BDA00016861697600001214
代表特征之间的协方差,是一个主对角线严格对称矩阵,表明单个特征集中不同特征之间的相关性最小。变换特征集
Figure BDA0001686169760000131
代表样本之间的协方差,是块对角矩阵,表明样本与同一类中的样本具有更高的相关性。
步骤4:应用深度随机森林对融合后的特征进行模型建构,可以对待测信号进行决策。
步骤4.1:应用深度随机森林对融合后的特征进行模型建构;
首先本发明需要对数据进行多粒度的扫描扩大样本的数据量,通过滑动窗口进行采样。窗口大小为100,步长为1,则采样后会得到301组特征数为100的样本,但这些样本全部来源原始的一个样本,所以对样本的数量进行了扩充。随后使用一个随机森林和一个完全随机森林进行训练。完全随机森林里的决策树的生成是不需要计算基尼指数或者熵增益,随机选取一个属性作为划分属性来逐步生成完成的。假设本发明需要做三分类,则通过一个随机森林和一个完全随机森林后分别生成301组维度为三的特征信息,组合后就生成了1806维数据。在这两个随机森林和完全随机森林的生成和测试过程中,使用k折交叉验证的方式来预测的,首先使用k-1组再此也就相当于300组数据来训练随机森林,用另外的一组数据分布区k-1颗数里进行测试,然后将测试集做平均也就得到了随机森林的输出,每组数据做一次测试,循环k次也就依然会得到k组输出。当然在使用滑动窗口进行特征提取的时候也可以设定不同的串口大小和不同的步长,然后通过随机森林和完全随机森林之后再组合再一起。
在级联森林中,将两个完全随机森林和两个普通随机森林的输出(3*4=12维数据)和原始数据(指的是多粒度扫描后输出的3618维数据)串联后作为下一层的输入(12+3618=3630维数据),因为每一次都是把上一层的输出串联进来了所以每一层的输入都有3630维数据,也因此相当于对随机森林的参数进行了修正,所以,深度随机森林的层数不是本发明自己设定的,它会根据精度的变化和层数限制而定,当训练精度没有提升或者层数达到最大值后就会停止训练,将此时的分类结果作为最终分类精度。
步骤4.2:保存模型后可对任意待测信号是否遭到篡改进行决策。
深度随机森林的训练过程完成后所得到的深度随机森林的层数和结构参数,构成本发明所得的融合特征分类模型,可以对任意的待测信号融合特征进行分类和决策。
下面结合具体实施例/实验/仿真学分析对本发明作进一步描述。
本发明使用的实验数据来自于三个不同的数据库共500条语音(其中包括原始语音和篡改语音),使用MATLAB导入这些语音信号,经过发明步骤1提取ENF成分一致性波动特征。根据步骤2,使用5个sin核和5个高斯核对相位波动和瞬时频率波动进行拟合;根据步骤3,将相位波动特征和频率波动特征分别作为一个特征集,进行DCA特征融合,得到二维融合特征,为特征添加标签,应用深度随机森林对融合特征使用十折交叉验证,最后得到分类正确率达到99.8%。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,其特征在于,所述基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法包括:
首先对待测信号进行预处理,包括下采样和窄带滤波,得到以电网频率ENF标准频率为中心的窄带信号;接着对ENF信号进行特征提取,分析ENF信号的相位谱和瞬时频率谱,提取ENF信号的相位谱波动特征,相位谱和频率谱拟合参数特征;
通过判别相关分析DCA方法进行特征融合,最大化不同的特征集之间的相关性,同时消除类间相关性,并限制类内的相关性;
最后应用深度随机森林对融合后的特征进行模型建构,训练好的模型进行迁移学习;模型保存后,对任意待测信号是否被篡改进行决策;
所述基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法具体包括:
步骤1:对待测信号进行预处理;
步骤2:对信号中的ENF成分进行相位谱和频率谱的特征提取;
步骤3:使用DCA方法对提取的多个特征集进行特征融合;
步骤4:应用深度随机森林对融合后的特征进行模型建构,对待测信号进行决策。
2.如权利要求1所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,其特征在于,
步骤1,具体包括以下步骤:
步骤1.1:对待测信号x[n]进行预处理,预处理包括下采样、去直流分量,得到xd[n];
步骤1.2:将步骤1.1中经过下采样的信号xd[n],通过中心频率在ENF标准频率处的带通滤波器,得到信号中的ENF成分xENFC[n]。
3.如权利要求1所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,步骤2,具体包括以下步骤:
步骤A1:对xENFC[n]进行基于DFT1的相位谱估计,提取相位谱波动特征F;
步骤A2:对xENFC[n]进行基于Hilbert的瞬时频率谱估计;
步骤A3:分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征
Figure FDA0002490111650000021
和瞬时频率谱拟合特征
Figure FDA0002490111650000022
4.如权利要求2所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,步骤A1中,对xENFC[n]进行基于DFT1的相位谱估计,首先对xENFC[n]信号进行常规的N点离散傅里叶变换DFT,为基于DFT0的相位估计,得到估计相位
Figure FDA0002490111650000023
基于DFT1相位估计在DFT0基础上相位估计,计算xENFC[n]在点n处的近似一阶导数:
x′ENFC[n]=fd(xENFC[n]-xENFC[n-1])
结合近似一阶导数和
Figure FDA0002490111650000024
进行更高阶的相位估计,并对估计结果进行线性插值,得到相位谱估计结果,提取相位谱波动特征F;
步骤A2中,对xENFC[n]进行基于Hilbert变换的瞬时频率估计,首先得到xENFC[n]的解析函数:
x(a) ENFC[x]=xENFC[x]+i*H{xENFC[x]},
其中
Figure FDA0002490111650000025
H代表Hilbert变换;瞬时频率为H{xENFC[n]}相角的变化率,估计ENF信号的瞬时频率f[n],对f[n]去除振荡和边界效应,构建xENFC[n]瞬时频率谱;
步骤A3中,据xENFC[n]的相位谱和频率谱的特点,分别使用Sum of Sines和Gaussian来拟合相位谱和频率谱曲线;
Sum of Sines表达式形式:
Figure FDA0002490111650000026
Gaussian表达式形式:
Figure FDA0002490111650000027
其中表达式参数即为拟合特征,
Figure FDA0002490111650000028
Figure FDA0002490111650000031
5.如权利要求1所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,步骤3,具体包括:
应用判别相关分析DCA将步骤2中得到的相位特征集和频率特征集进行特征融合,DCA通过最大化两个特征集之间的两两相关性进行特征融合,并限制类内的相关性;通过最大化特征集间的协方差矩阵计算特征集的转化矩阵,同时进行类内散布矩阵的对角化。
6.如权利要求1所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,步骤4,具体包括:
步骤4.1:应用深度随机森林对融合后的特征进行模型建构:将融合特征部分用于训练深度随机森林,深度随机森林训练过程中,根据精度的变化和层数限制自动决定层数模型参数,训练精度没有提升或者层数达到最大值后停止训练,将分类结果作为最终分类精度;
步骤4.2:保存模型后对任意待测信号是否遭到篡改进行决策:深度随机森林的训练过程完成后得到的深度随机森林的层数和结构参数,构融合特征分类模型,对任意的待测信号融合特征进行分类和决策。
7.一种实现权利要求1~6任意一项所述基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法的计算机程序。
8.一种实现权利要求1~6任意一项所述基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法的信数字音频信号处理***。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~6任意一项所述的基于对ENF相位谱和瞬时频率谱分析的数字音频真伪鉴定方法。
CN201810585686.3A 2018-06-06 2018-06-06 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 Active CN108806718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810585686.3A CN108806718B (zh) 2018-06-06 2018-06-06 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810585686.3A CN108806718B (zh) 2018-06-06 2018-06-06 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法

Publications (2)

Publication Number Publication Date
CN108806718A CN108806718A (zh) 2018-11-13
CN108806718B true CN108806718B (zh) 2020-07-21

Family

ID=64087865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810585686.3A Active CN108806718B (zh) 2018-06-06 2018-06-06 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法

Country Status (1)

Country Link
CN (1) CN108806718B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11039205B2 (en) * 2019-10-09 2021-06-15 Sony Interactive Entertainment Inc. Fake video detection using block chain
CN110808070B (zh) * 2019-11-14 2022-05-06 福州大学 音频监控中基于深度随机森林的声音事件分类方法
CN111998936B (zh) * 2020-08-25 2022-04-15 四川长虹电器股份有限公司 一种基于迁移学习的设备异音检测方法及***
CN112151067B (zh) * 2020-09-27 2023-05-02 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法
CN112365901A (zh) * 2020-11-03 2021-02-12 武汉工程大学 一种机械音频故障检测方法及装置
CN113453225B (zh) * 2021-06-23 2022-05-20 华中科技大学 一种面向lte***的物理层水印认证方法和***
CN113704409B (zh) * 2021-08-31 2023-08-04 上海师范大学 一种基于级联森林的虚假招聘信息检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105223475A (zh) * 2015-08-25 2016-01-06 国家电网公司 基于高斯参数拟合的局部放电谱图特征模式识别算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11069370B2 (en) * 2016-01-11 2021-07-20 University Of Tennessee Research Foundation Tampering detection and location identification of digital audio recordings
CN107274915B (zh) * 2017-07-31 2020-08-07 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105223475A (zh) * 2015-08-25 2016-01-06 国家电网公司 基于高斯参数拟合的局部放电谱图特征模式识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于局部Gabor相位特征融合的人脸识别;江艳霞;《光电工程》;20100703;全文 *
音频取证若干关键技术研究进展;包永强;《数据采集与处理》;20160315;全文 *

Also Published As

Publication number Publication date
CN108806718A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108806718B (zh) 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN108766464B (zh) 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
Wang et al. Digital audio tampering detection based on ENF consistency
CN107274915A (zh) 一种基于特征融合的数字音频篡改自动检测方法
US11533373B2 (en) Global iterative clustering algorithm to model entities' behaviors and detect anomalies
CN109086830B (zh) 基于样本惩罚的典型关联分析近重复视频检测方法
Wang et al. Multi-task Joint Sparse Representation Classification Based on Fisher Discrimination Dictionary Learning.
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
Khalaf et al. Robust partitioning and indexing for iris biometric database based on local features
CN112509601B (zh) 一种音符起始点检测方法及***
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN108766465B (zh) 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN114168788A (zh) 音频审核的处理方法、装置、设备及存储介质
CN116599743A (zh) 4a异常绕行检测方法、装置、电子设备及存储介质
CN109598216B (zh) 一种基于卷积的射频指纹特征提取方法
CN114710344B (zh) 一种基于溯源图的入侵检测方法
CN115472179A (zh) 面向数字音频删除和***篡改操作自动检测方法及***
CN114048770A (zh) 面向数字音频删除和***篡改操作自动检测方法及***
Tamtama et al. Increasing Accuracy of The Random Forest Algorithm Using PCA and Resampling Techniques with Data Augmentation for Fraud Detection of Credit Card Transaction
CN100363943C (zh) 基于色彩内容及分布的彩色图像匹配分析方法
CN113722607B (zh) 一种基于改进聚类的托攻击检测方法
CN114968351B (zh) 分级多特征的代码同源分析方法及***
CN112529035B (zh) 识别不同电台个体种类的智能识别方法
CN116738259B (zh) 基于多谐波的电磁泄漏辐射源指纹提取与识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181113

Assignee: Hubei ZHENGBO Xusheng Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001275

Denomination of invention: Audio identification method based on analysis of ENF phase spectrum and instantaneous frequency spectrum

Granted publication date: 20200721

License type: Common License

Record date: 20240124

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181113

Assignee: Hubei Rongzhi Youan Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001548

Denomination of invention: Audio identification method based on analysis of ENF phase spectrum and instantaneous frequency spectrum

Granted publication date: 20200721

License type: Common License

Record date: 20240126