CN117059131B - 基于情绪识别的伪造音频检测方法 - Google Patents
基于情绪识别的伪造音频检测方法 Download PDFInfo
- Publication number
- CN117059131B CN117059131B CN202311324794.2A CN202311324794A CN117059131B CN 117059131 B CN117059131 B CN 117059131B CN 202311324794 A CN202311324794 A CN 202311324794A CN 117059131 B CN117059131 B CN 117059131B
- Authority
- CN
- China
- Prior art keywords
- audio
- emotion
- voice
- speech
- detection system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 30
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 210000005036 nerve Anatomy 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及音频分析技术领域,具体涉及一种基于情绪识别的伪造音频检测方法;建立语音情绪识别***,建立合成语音检测***,使用语音情绪识别***和合成语音检测***对伪造音频进行检测,在建立语音情绪识别***的步骤中:选择情感语音语料库,进行语音输入的预处理和转换,从语音中提取情感特定特征,使用分类模型来识别情感,在建立合成语音检测***的步骤中:合成语音检测***由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力,通过上述方式,实现更加全面地检测伪造音频。
Description
技术领域
本发明涉及音频分析技术领域,尤其涉及一种基于情绪识别的伪造音频检测方法。
背景技术
伪造音频检测是一种用于识别伪造合成音频的技术,已经在市场上得到广泛应用。当前的伪造音频检测技术主要基于机器学习和深度学习算法,可以有效地检测出一些常见的合成,在过去的几年里,深度学习技术为许多语音应用程序提供了支持,伪造音频技术得到了广泛的应用。伪造音频技术可以生成接近真实人声的语音,现有的方法几乎不可能将其与真实语音区分开来。与此同时,用户只需输入几句简单的话语,用手机就可以轻松地定制text to speech在线文本转语音,这给反欺骗研究人员带来了巨大的挑战。如在检测伪造音频时,现有的检测过程中仅关注声纹信息,而忽视语义信息和语言情感信息,深度学习算法中主要基于说话人的声音频率、响度和共振来识别说话人身份,但却不考虑措辞、表达方式以及文本所传达的情感色彩等方面的内容,在这种情况下,即使相同的话语被不同的人说出,模型也可能会将它们识别为相同的声纹,从而无法区分不同的人或情境。因此,在基于情绪识别下,能够更加全面地检测伪造音频是非常有必要的。
发明内容
本发明的目的在于提供一种基于情绪识别的伪造音频检测方法,实现更加全面地检测伪造音频。
为实现上述目的,本发明采用的一种基于情绪识别的伪造音频检测方法,包括如下步骤:
建立语音情绪识别***;
建立合成语音检测***;
使用语音情绪识别***和合成语音检测***对伪造音频进行检测。
其中,在建立语音情绪识别***的步骤中:
选择情感语音语料库;
进行语音输入的预处理和转换;
从语音中提取情感特定特征;
使用分类模型来识别情感。
其中,在进行语音输入的预处理和转换的步骤中:
将所有轨道转换为单声道,并将采样至标准采样频率Fs=16kHz,使用阶数为6的带通数字滤波器滤波所有语音信号,使用无穷范数对每个音频进行归一化。
其中,在使用分类模型来识别情感的步骤中:
给定语音x,网络的输出为Ex∈{e1,e2,…,eN},其中ei是第i类情绪,包括高兴、悲伤、生气等,从语音信号中提取各种声学和韵律特征,并将提取的特征与类标签相关联,将带有情感类标签的数据分割成两部分,其中60%的数据用于训练,40%的数据用于测试;
训练时使用IEMOCAP数据集,并考虑愤怒、快乐、悲伤和中性四种情绪类别,选择会话1到4用于培训,会话5用于开发和测试,使用学习率lr=10−5的Adam优化器,分类交叉熵作为损失函数。
其中,在建立合成语音检测***的步骤中:
合成语音检测***由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力。
其中,在建立合成语音检测***的步骤中:
二值分类器分为嵌入模型和分类模型,嵌入模型输出的一阶和二阶矩被计算并汇集在一起,以获得最终的话语级表示,然后将话语级表示输入到分类模型中,该模型由两个全连接层和一个二维softmax层组成,其中每个节点分别表示真实和虚假的音频类。
本发明的一种基于情绪识别的伪造音频检测方法,通过建立语音情绪识别***;建立合成语音检测***;使用语音情绪识别***和合成语音检测***对伪造音频进行检测,实现了在基于情绪识别下,能够更加全面地检测伪造音频。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于情绪识别的伪造音频检测方法的步骤流程图。
具体实施方式
请参阅图1,本发明提供了一种基于情绪识别的伪造音频检测方法,包括如下步骤:
S1:建立语音情绪识别***;
S2:建立合成语音检测***;
S3:使用语音情绪识别***和合成语音检测***对伪造音频进行检测。
在本实施方式中,通过建立语音情绪识别***;建立合成语音检测***;使用语音情绪识别***和合成语音检测***对伪造音频进行检测,实现了在基于情绪识别下,能够更加全面地检测伪造音频。
进一步地,在建立语音情绪识别***的步骤中:
选择情感语音语料库;
进行语音输入的预处理和转换;
从语音中提取情感特定特征;
使用分类模型来识别情感。
进一步地,在进行语音输入的预处理和转换的步骤中:
将所有轨道转换为单声道,并将采样至标准采样频率Fs=16kHz,使用阶数为6的带通数字滤波器滤波所有语音信号,使用无穷范数对每个音频进行归一化。
进一步地,在使用分类模型来识别情感的步骤中:
给定语音x,网络的输出为Ex∈{e1,e2,…,eN},其中ei是第i类情绪,包括高兴、悲伤、生气等,从语音信号中提取各种声学和韵律特征,并将提取的特征与类标签相关联,将带有情感类标签的数据分割成两部分,其中60%的数据用于训练,40%的数据用于测试;
训练时使用IEMOCAP数据集,并考虑愤怒、快乐、悲伤和中性四种情绪类别,选择会话1到4用于培训,会话5用于开发和测试,使用学习率lr=10−5的Adam优化器,分类交叉熵作为损失函数。
在本实施方式中,首先选择情感语音语料库,可以使用多个数据集,包括LJSpeech(LJS):其中包含单个演讲者背诵非小说类书籍片段的音频片段;交互式情绪二元动作捕捉:包含带有说话者情绪注释的视频和语音记录,语音音轨是由演员表演的剧本或即兴对话片段,强调某种特定的情感;ASVspoof2019:一个用于开发自动说话人验证的反欺骗技术语音音频数据集,包含真实和深度伪造的语音数据,这里考虑ASVspoof2019的LA(LogicalAccess)数据,只选择使用TTS或TTS/VC混合方法生成的样本;Cloud2019:包括来自不同TTS云服务的曲目,亚马逊AWSPolly(PO)、谷歌云标准(GS)、谷歌云WaveNet(GW)、微软Azure(AZ)和IBM沃森(WA);librisspeech(LS):一个包含大约1000小时真实语音的开源数据集。从这个语料库中,只考虑train-clean-100;进行语音输入的预处理和转换,将所有轨道转换为单声道,并将采样至标准采样频率Fs=16kHz,使用阶数为6的带通数字滤波器滤波所有语音信号,使用无穷范数对每个音频进行归一化;从语音中提取情感特定特征,使用分类模型来识别情感,给定语音x,网络的输出为Ex∈{e1,e2,…,eN},其中ei是第i类情绪,包括高兴、悲伤、生气等,从语音信号中提取各种声学和韵律特征,并将提取的特征与类标签相关联,将带有情感类标签的数据分割成两部分,其中60%的数据用于训练,40%的数据用于测试,训练时使用IEMOCAP数据集,并考虑愤怒、快乐、悲伤和中性四种情绪类别,选择会话1到4用于培训,会话5用于开发和测试,使用学习率lr=10−5的Adam优化器,分类交叉熵作为损失函数。
进一步地,在建立合成语音检测***的步骤中:
合成语音检测***由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力。
进一步地,在建立合成语音检测***的步骤中:
二值分类器分为嵌入模型和分类模型,嵌入模型输出的一阶和二阶矩被计算并汇集在一起,以获得最终的话语级表示,然后将话语级表示输入到分类模型中,该模型由两个全连接层和一个二维softmax层组成,其中每个节点分别表示真实和虚假的音频类。
进一步地,在建立合成语音检测***的步骤中:
对数据进行增强处理,为了进一步提高合成语音检测***的泛化能力,使用数据增强来实现这一目标,对每个音频添加一个单一的干扰,对列车数据集应用了两种不同类型的数据增强,混合数据来自开源数据集房间脉冲响应和MUSAN,其中包括噪声、音乐和口头语等;噪声以随机的信噪比混合在0dB到20dB之间;模拟音频压缩效果,所有干净的音频样本都通过音频压缩算法来生成模拟,压缩算法包括MP3、OGG、AAC和OPUS;合成语音检测***进行频率转换模拟电话传输损耗,音频样本先下采样到8kHz,然后上采样到16kHz。
在本实施方式中,合成语音检测***由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力;其中二值分类器分为嵌入模型和分类模型,嵌入模型输出的一阶和二阶矩被计算并汇集在一起,以获得最终的话语级表示,然后将话语级表示输入到分类模型中,该模型由两个全连接层和一个二维softmax层组成,其中每个节点分别表示真实和虚假的音频类;为了进一步提高合成语音检测***的泛化能力,使用数据增强来实现这一目标,对每个音频添加一个单一的干扰,对列车数据集应用了两种不同类型的数据增强,混合数据来自开源数据集房间脉冲响应和MUSAN,其中包括噪声、音乐和口头语等;噪声以随机的信噪比混合在0dB到20dB之间;模拟音频压缩效果,所有干净的音频样本都通过音频压缩算法来生成模拟,压缩算法包括MP3、OGG、AAC和OPUS;合成语音检测***进行频率转换模拟电话传输损耗,音频样本先下采样到8kHz,然后上采样到16kHz。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (3)
1.一种基于情绪识别的伪造音频检测方法,其特征在于,包括如下步骤:
建立语音情绪识别***的步骤中:选择情感语音语料库;进行语音输入的预处理和转换;从语音中提取情感特定特征;使用分类模型来识别情感;
在进行语音输入的预处理和转换的步骤中:
将所有轨道转换为单声道,并将采样至标准采样频率Fs=16kHz,使用阶数为6的带通数字滤波器滤波所有语音信号,使用无穷范数对每个音频进行归一化;
在使用分类模型来识别情感的步骤中:给定语音x,网络的输出为Ex∈{e1,e2,…,eN},从语音信号中提取各种声学和韵律特征,并将提取的特征与类标签相关联,将带有情感类标签的数据分割成两部分,其中60%的数据用于训练,40%的数据用于测试;训练时使用IEMOCAP数据集,并考虑愤怒、快乐、悲伤和中性四种情绪类别,选择会话1到4用于培训,会话5用于开发和测试,使用学习率lr=10−5的Adam优化器,分类交叉熵作为损失函数;
建立合成语音检测***;
使用语音情绪识别***和合成语音检测***对伪造音频进行检测;
在建立合成语音检测***的步骤中:
对数据进行增强处理,对每个音频添加一个单一的干扰,对列车数据集应用两种不同类型的数据增强,混合数据来自开源数据集房间脉冲响应和MUSAN,其中包括噪声、音乐和口头语;噪声以随机的信噪比混合在0dB到20dB之间;模拟音频压缩效果,所有干净的音频样本都通过音频压缩算法来生成模拟,压缩算法包括MP3、OGG、AAC和OPUS;合成语音检测***进行频率转换模拟电话传输损耗,音频样本先下采样到8kHz,然后上采样到16kHz。
2.如权利要求1所述的基于情绪识别的伪造音频检测方法,其特征在于,在建立合成语音检测***的步骤中:
合成语音检测***由二值分类器组成,以特征向量Fx作为输入,估计输入信号所属的类别,使用标准的34层残差网络,使用多头注意力池来学习假音频和欺骗检测的判别嵌入,利用神经拼接来提高模型的泛化能力。
3.如权利要求2所述的基于情绪识别的伪造音频检测方法,其特征在于,在建立合成语音检测***的步骤中:
二值分类器分为嵌入模型和分类模型,嵌入模型输出的一阶和二阶矩被计算并汇集在一起,以获得最终的话语级表示,然后将话语级表示输入到分类模型中,该模型由两个全连接层和一个二维softmax层组成,其中每个节点分别表示真实和虚假的音频类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311324794.2A CN117059131B (zh) | 2023-10-13 | 2023-10-13 | 基于情绪识别的伪造音频检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311324794.2A CN117059131B (zh) | 2023-10-13 | 2023-10-13 | 基于情绪识别的伪造音频检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117059131A CN117059131A (zh) | 2023-11-14 |
CN117059131B true CN117059131B (zh) | 2024-03-29 |
Family
ID=88667840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311324794.2A Active CN117059131B (zh) | 2023-10-13 | 2023-10-13 | 基于情绪识别的伪造音频检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117059131B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699236A (zh) * | 2020-12-22 | 2021-04-23 | 浙江工业大学 | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 |
CN113488073A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
CN113921012A (zh) * | 2021-10-18 | 2022-01-11 | 山东沣品信息网络科技有限公司 | 一种合成语音的识别方法、***、智能设备和存储介质 |
CN116310937A (zh) * | 2022-12-26 | 2023-06-23 | 中国科学院信息工程研究所 | 一种深度伪造视频检测方法、装置、设备及介质 |
CN116416997A (zh) * | 2023-03-10 | 2023-07-11 | 华中科技大学 | 基于注意力机制的智能语音伪造攻击检测方法 |
CN116665649A (zh) * | 2023-06-07 | 2023-08-29 | 中科极限元(杭州)智能科技股份有限公司 | 基于韵律特征的合成语音检测方法 |
CN116805485A (zh) * | 2023-07-07 | 2023-09-26 | 中国信息通信研究院 | 一种信息化合成语音的识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220138472A1 (en) * | 2020-10-30 | 2022-05-05 | University Of Maryland, College Park | System and Method for Detecting Fabricated Videos |
-
2023
- 2023-10-13 CN CN202311324794.2A patent/CN117059131B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699236A (zh) * | 2020-12-22 | 2021-04-23 | 浙江工业大学 | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 |
CN113488073A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
CN113921012A (zh) * | 2021-10-18 | 2022-01-11 | 山东沣品信息网络科技有限公司 | 一种合成语音的识别方法、***、智能设备和存储介质 |
CN116310937A (zh) * | 2022-12-26 | 2023-06-23 | 中国科学院信息工程研究所 | 一种深度伪造视频检测方法、装置、设备及介质 |
CN116416997A (zh) * | 2023-03-10 | 2023-07-11 | 华中科技大学 | 基于注意力机制的智能语音伪造攻击检测方法 |
CN116665649A (zh) * | 2023-06-07 | 2023-08-29 | 中科极限元(杭州)智能科技股份有限公司 | 基于韵律特征的合成语音检测方法 |
CN116805485A (zh) * | 2023-07-07 | 2023-09-26 | 中国信息通信研究院 | 一种信息化合成语音的识别方法 |
Non-Patent Citations (2)
Title |
---|
基于声学特性的伪造语音识别方法研究;周峻林;中国优秀硕士学位论文全文数据库 信息科技辑(月刊)(第02期);正文10-64页 * |
语音伪造及检测技术研究综述;任延珍 等;信号处理;第37卷(第12期);正文2412-2439页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117059131A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN110136749A (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
Prasad et al. | Intelligent chatbot for lab security and automation | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
Muhammad et al. | Voice content matching system for quran readers | |
CN112581963B (zh) | 一种语音意图识别方法及*** | |
Salau et al. | Accent classification of the three major nigerian indigenous languages using 1d cnn lstm network model | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
Kalia et al. | Comparative analysis of speaker recognition system based on voice activity detection technique, MFCC and PLP features | |
Reimao | Synthetic speech detection using deep neural networks | |
CN117059131B (zh) | 基于情绪识别的伪造音频检测方法 | |
Raghib et al. | Emotion analysis and speech signal processing | |
Ismail | Emirati speaker verification based on HMMls, HMM2s, and HMM3s | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
Chauhan et al. | Text-independent speaker recognition system using feature-level fusion for audio databases of various sizes | |
Rupasinghe et al. | Robust Speech Analysis Framework Using CNN | |
Lynn et al. | Efficient feature extraction for emotion recognition system | |
Khazaleh et al. | An investigation into the reliability of speaker recognition schemes: analysing the impact of environmental factors utilising deep learning techniques | |
CN110910904A (zh) | 一种建立语音情感识别模型的方法及语音情感识别方法 | |
Putra | Voice Verification System Based on Bark-Frequency Cepstral Coefficient | |
Nair et al. | Transfer learning for speech based emotion recognition | |
Semary et al. | Using voice technologies to support disabled people | |
Gul et al. | Single channel speech enhancement by colored spectrograms | |
Chitra et al. | Acoustic Intelligence In Conversational Solutions Emotion Detection From Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Chen Zhuoyue Inventor after: Ding Zhuo Inventor before: Chen Zhuoyue Inventor before: Ding Zhuo Inventor before: Lu Ning |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |