CN117059131B

CN117059131B - 基于情绪识别的伪造音频检测方法

Info

Publication number: CN117059131B
Application number: CN202311324794.2A
Authority: CN
Inventors: 陈卓越; 丁卓
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-03-29
Anticipated expiration: 2043-10-13
Also published as: CN117059131A

Abstract

本发明涉及音频分析技术领域，具体涉及一种基于情绪识别的伪造音频检测方法；建立语音情绪识别***，建立合成语音检测***，使用语音情绪识别***和合成语音检测***对伪造音频进行检测，在建立语音情绪识别***的步骤中：选择情感语音语料库，进行语音输入的预处理和转换，从语音中提取情感特定特征，使用分类模型来识别情感，在建立合成语音检测***的步骤中：合成语音检测***由二值分类器组成，以特征向量Fx作为输入，估计输入信号所属的类别，使用标准的34层残差网络，使用多头注意力池来学习假音频和欺骗检测的判别嵌入，利用神经拼接来提高模型的泛化能力，通过上述方式，实现更加全面地检测伪造音频。

Description

基于情绪识别的伪造音频检测方法

技术领域

本发明涉及音频分析技术领域，尤其涉及一种基于情绪识别的伪造音频检测方法。

背景技术

伪造音频检测是一种用于识别伪造合成音频的技术，已经在市场上得到广泛应用。当前的伪造音频检测技术主要基于机器学习和深度学习算法，可以有效地检测出一些常见的合成，在过去的几年里，深度学习技术为许多语音应用程序提供了支持，伪造音频技术得到了广泛的应用。伪造音频技术可以生成接近真实人声的语音，现有的方法几乎不可能将其与真实语音区分开来。与此同时，用户只需输入几句简单的话语，用手机就可以轻松地定制text to speech在线文本转语音，这给反欺骗研究人员带来了巨大的挑战。如在检测伪造音频时，现有的检测过程中仅关注声纹信息，而忽视语义信息和语言情感信息，深度学习算法中主要基于说话人的声音频率、响度和共振来识别说话人身份，但却不考虑措辞、表达方式以及文本所传达的情感色彩等方面的内容，在这种情况下，即使相同的话语被不同的人说出，模型也可能会将它们识别为相同的声纹，从而无法区分不同的人或情境。因此，在基于情绪识别下，能够更加全面地检测伪造音频是非常有必要的。

发明内容

本发明的目的在于提供一种基于情绪识别的伪造音频检测方法，实现更加全面地检测伪造音频。

为实现上述目的，本发明采用的一种基于情绪识别的伪造音频检测方法，包括如下步骤：

建立语音情绪识别***；

建立合成语音检测***；

使用语音情绪识别***和合成语音检测***对伪造音频进行检测。

其中，在建立语音情绪识别***的步骤中：

选择情感语音语料库；

进行语音输入的预处理和转换；

从语音中提取情感特定特征；

使用分类模型来识别情感。

其中，在进行语音输入的预处理和转换的步骤中：

将所有轨道转换为单声道，并将采样至标准采样频率Fs=16kHz，使用阶数为6的带通数字滤波器滤波所有语音信号，使用无穷范数对每个音频进行归一化。

其中，在使用分类模型来识别情感的步骤中：

给定语音x，网络的输出为Ex∈{e1,e2，…，eN}，其中ei是第i类情绪，包括高兴、悲伤、生气等，从语音信号中提取各种声学和韵律特征，并将提取的特征与类标签相关联，将带有情感类标签的数据分割成两部分，其中60%的数据用于训练，40%的数据用于测试；

训练时使用IEMOCAP数据集，并考虑愤怒、快乐、悲伤和中性四种情绪类别，选择会话1到4用于培训，会话5用于开发和测试，使用学习率lr=10−5的Adam优化器，分类交叉熵作为损失函数。

其中，在建立合成语音检测***的步骤中：

合成语音检测***由二值分类器组成，以特征向量Fx作为输入，估计输入信号所属的类别，使用标准的34层残差网络，使用多头注意力池来学习假音频和欺骗检测的判别嵌入，利用神经拼接来提高模型的泛化能力。

其中，在建立合成语音检测***的步骤中：

二值分类器分为嵌入模型和分类模型，嵌入模型输出的一阶和二阶矩被计算并汇集在一起，以获得最终的话语级表示，然后将话语级表示输入到分类模型中，该模型由两个全连接层和一个二维softmax层组成，其中每个节点分别表示真实和虚假的音频类。

本发明的一种基于情绪识别的伪造音频检测方法，通过建立语音情绪识别***；建立合成语音检测***；使用语音情绪识别***和合成语音检测***对伪造音频进行检测，实现了在基于情绪识别下，能够更加全面地检测伪造音频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于情绪识别的伪造音频检测方法的步骤流程图。

具体实施方式

请参阅图1，本发明提供了一种基于情绪识别的伪造音频检测方法，包括如下步骤：

S1：建立语音情绪识别***；

S2：建立合成语音检测***；

S3：使用语音情绪识别***和合成语音检测***对伪造音频进行检测。

在本实施方式中，通过建立语音情绪识别***；建立合成语音检测***；使用语音情绪识别***和合成语音检测***对伪造音频进行检测，实现了在基于情绪识别下，能够更加全面地检测伪造音频。

进一步地，在建立语音情绪识别***的步骤中：

选择情感语音语料库；

进行语音输入的预处理和转换；

从语音中提取情感特定特征；

使用分类模型来识别情感。

进一步地，在进行语音输入的预处理和转换的步骤中：

进一步地，在使用分类模型来识别情感的步骤中：

在本实施方式中，首先选择情感语音语料库，可以使用多个数据集，包括LJSpeech（LJS）：其中包含单个演讲者背诵非小说类书籍片段的音频片段；交互式情绪二元动作捕捉：包含带有说话者情绪注释的视频和语音记录，语音音轨是由演员表演的剧本或即兴对话片段，强调某种特定的情感；ASVspoof2019：一个用于开发自动说话人验证的反欺骗技术语音音频数据集，包含真实和深度伪造的语音数据，这里考虑ASVspoof2019的LA（LogicalAccess）数据，只选择使用TTS或TTS/VC混合方法生成的样本；Cloud2019：包括来自不同TTS云服务的曲目，亚马逊AWSPolly（PO）、谷歌云标准（GS）、谷歌云WaveNet（GW）、微软Azure（AZ）和IBM沃森（WA）；librisspeech（LS）：一个包含大约1000小时真实语音的开源数据集。从这个语料库中，只考虑train-clean-100；进行语音输入的预处理和转换，将所有轨道转换为单声道，并将采样至标准采样频率Fs=16kHz，使用阶数为6的带通数字滤波器滤波所有语音信号，使用无穷范数对每个音频进行归一化；从语音中提取情感特定特征，使用分类模型来识别情感，给定语音x，网络的输出为Ex∈{e1,e2，…，eN}，其中ei是第i类情绪，包括高兴、悲伤、生气等，从语音信号中提取各种声学和韵律特征，并将提取的特征与类标签相关联，将带有情感类标签的数据分割成两部分，其中60%的数据用于训练，40%的数据用于测试，训练时使用IEMOCAP数据集，并考虑愤怒、快乐、悲伤和中性四种情绪类别，选择会话1到4用于培训，会话5用于开发和测试，使用学习率lr=10−5的Adam优化器，分类交叉熵作为损失函数。

进一步地，在建立合成语音检测***的步骤中：

对数据进行增强处理，为了进一步提高合成语音检测***的泛化能力，使用数据增强来实现这一目标，对每个音频添加一个单一的干扰，对列车数据集应用了两种不同类型的数据增强，混合数据来自开源数据集房间脉冲响应和MUSAN，其中包括噪声、音乐和口头语等；噪声以随机的信噪比混合在0dB到20dB之间；模拟音频压缩效果，所有干净的音频样本都通过音频压缩算法来生成模拟，压缩算法包括MP3、OGG、AAC和OPUS；合成语音检测***进行频率转换模拟电话传输损耗，音频样本先下采样到8kHz，然后上采样到16kHz。

在本实施方式中，合成语音检测***由二值分类器组成，以特征向量Fx作为输入，估计输入信号所属的类别，使用标准的34层残差网络，使用多头注意力池来学习假音频和欺骗检测的判别嵌入，利用神经拼接来提高模型的泛化能力；其中二值分类器分为嵌入模型和分类模型，嵌入模型输出的一阶和二阶矩被计算并汇集在一起，以获得最终的话语级表示，然后将话语级表示输入到分类模型中，该模型由两个全连接层和一个二维softmax层组成，其中每个节点分别表示真实和虚假的音频类；为了进一步提高合成语音检测***的泛化能力，使用数据增强来实现这一目标，对每个音频添加一个单一的干扰，对列车数据集应用了两种不同类型的数据增强，混合数据来自开源数据集房间脉冲响应和MUSAN，其中包括噪声、音乐和口头语等；噪声以随机的信噪比混合在0dB到20dB之间；模拟音频压缩效果，所有干净的音频样本都通过音频压缩算法来生成模拟，压缩算法包括MP3、OGG、AAC和OPUS；合成语音检测***进行频率转换模拟电话传输损耗，音频样本先下采样到8kHz，然后上采样到16kHz。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于情绪识别的伪造音频检测方法，其特征在于，包括如下步骤：

建立语音情绪识别***的步骤中：选择情感语音语料库；进行语音输入的预处理和转换；从语音中提取情感特定特征；使用分类模型来识别情感；

在进行语音输入的预处理和转换的步骤中：

将所有轨道转换为单声道，并将采样至标准采样频率Fs=16kHz，使用阶数为6的带通数字滤波器滤波所有语音信号，使用无穷范数对每个音频进行归一化；

在使用分类模型来识别情感的步骤中：给定语音x，网络的输出为Ex∈{e1,e2，…，eN}，从语音信号中提取各种声学和韵律特征，并将提取的特征与类标签相关联，将带有情感类标签的数据分割成两部分，其中60%的数据用于训练，40%的数据用于测试；训练时使用IEMOCAP数据集，并考虑愤怒、快乐、悲伤和中性四种情绪类别，选择会话1到4用于培训，会话5用于开发和测试，使用学习率lr=10−5的Adam优化器，分类交叉熵作为损失函数；

建立合成语音检测***；

使用语音情绪识别***和合成语音检测***对伪造音频进行检测；

在建立合成语音检测***的步骤中：

对数据进行增强处理，对每个音频添加一个单一的干扰，对列车数据集应用两种不同类型的数据增强，混合数据来自开源数据集房间脉冲响应和MUSAN，其中包括噪声、音乐和口头语；噪声以随机的信噪比混合在0dB到20dB之间；模拟音频压缩效果，所有干净的音频样本都通过音频压缩算法来生成模拟，压缩算法包括MP3、OGG、AAC和OPUS；合成语音检测***进行频率转换模拟电话传输损耗，音频样本先下采样到8kHz，然后上采样到16kHz。

2.如权利要求1所述的基于情绪识别的伪造音频检测方法，其特征在于，在建立合成语音检测***的步骤中：

3.如权利要求2所述的基于情绪识别的伪造音频检测方法，其特征在于，在建立合成语音检测***的步骤中：