CN110335616A - 语音数据降噪方法、装置、计算机设备和存储介质 - Google Patents

语音数据降噪方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110335616A
CN110335616A CN201910650447.6A CN201910650447A CN110335616A CN 110335616 A CN110335616 A CN 110335616A CN 201910650447 A CN201910650447 A CN 201910650447A CN 110335616 A CN110335616 A CN 110335616A
Authority
CN
China
Prior art keywords
feature
audio data
combination
noise reduction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910650447.6A
Other languages
English (en)
Inventor
欧阳碧云
王晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910650447.6A priority Critical patent/CN110335616A/zh
Publication of CN110335616A publication Critical patent/CN110335616A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请涉及一种基于人工智能的语音数据降噪方法、装置、计算机设备和存储介质,包括:接收终端发送的降噪请求,并获取待处理音频数据对应特征组合,以及特征组合内各特征之间的关联关系。根据各特征和各特征之间的关联关系,计算各特征组合的区分度。根据预设的区分度阈值对各特征组合进行筛选,获得初始特征组合,利用预设评价指标对初始特征组合进行筛选,获得可用特征组合,并获取可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据,基于深度学习降噪模型,对第一初始音频数据进行降噪处理,生成降噪后的语音数据。本方法利用深度学习降噪模型对基于区分度的语音数据进行降噪,提高了语音数据降噪效果。

Description

语音数据降噪方法、装置、计算机设备和存储介质
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音数据降噪方法、装置、计算机设备和存储介质。
背景技术
随着语音处理技术的日益发展,日常生活中语音数据的普遍使用,针对不同用户的需求,对于语音数据的语音质量要求也不同,而在日常使用的各种情况下,存在多种噪声数据和设备信号的干扰,语音质量会收到一定的影响,并不能满足用户的需求,因此出现了语音降噪技术。
目前常用的一种语音降噪方法是通过确定语音信号的信噪比曲线,并根据语音信号的信噪比曲线确定语音信号中的语音帧和噪声帧,仅对所获得的噪声帧进行降噪处理,但采用的方法较为简单,且针对语音帧和噪声帧的区分和确定的准确度有待提高,如出现确定不准确的问题,会影响语音质量,降低语音数据降噪的效果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语音降噪效果的语音数据降噪方法、装置、计算机设备和存储介质。
一种语音数据降噪方法,所述方法包括:
接收终端发送的对待处理音频数据的降噪请求,并获取所述待处理音频数据;
获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度;
根据所述的区分度阈值对各所述特征组合进行筛选,获得初始特征组合;
利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标可用特征组合;
获取所述可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据。
在其中一个实施例中,获得所述深度学习降噪模型的方式,包括:
从训练样本中获取未超出所述区分度阈值的特征组合对应的有效音频数据及其对应的第二初始音频数据;
按照预定长度分别对所述有效音频数据和所述第二初始音频数据进行切片处理;
根据切片后的所述有效音频数据,生成所述有效音频数据的第一声纹图谱,从所述第一声纹图谱中提取所述有效音频数据的第一声纹参数;
根据切片后的所述第二初始音频数据,生成所述第二初始音频数据的第二声纹图谱,从所述第二声纹图谱中提取所述第二初始音频数据的第二声纹参数;
将所述第二初始音频数据的第二声纹参数作为深度学习模型的输入,对应时刻的有效音频数据的第一声纹参数作为深度学习模型的输出,对深度学习模型进行训练,获得深度学习降噪模型。
在其中一个实施例中,获取所述待处理音频数据对应的特征组合,并计算各所述特征组合的区分度,包括:
获取所述待处理音频数据对应的特征,及各特征之间的关联关系;
根据所述特征和各特征之间的关联关系,生成与所述待处理音频数据对应的特征组合;
根据各所述特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。
在其中一个实施例中,所述根据所述预设的区分度阈值对各所述特征组合进行筛选,获得初始特征组合,包括:
将各所述特征组合的区分度分别与所述区分度阈值进行比对;
获取超出所述区分度阈值的区分度对应的特征组合,生成初始特征组合。
在其中一个实施例中,所述利用预设评价指标对所述初始特征组合进行筛选,获得可用特征组合,包括:
获取预设评价指标;所述预设评价指标包括AUC值、准确率以及召回率;
根据所述AUC值、准确率以及召回率,对所述初始特征组合进行筛选;
获取符合要求的初始特征组合,生成可用特征组合。
在其中一个实施例中,所述基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据,包括:
按照预定长度对所述第一初始音频数据进行切片处理;
根据切片后的所述第一初始音频数据,生成所述第一初始音频数据的待处理声纹图谱,从所述待处理声纹图谱中提取所述第一初始音频数据的待处理声纹参数;
将所述待处理声纹参数输入所述深度学习降噪模型中,得到降噪后的语音数据。
在其中一个实施例中,在计算各所述特征组合的区分度的步骤之前,还包括:
根据各所述特征组合和数据类型之间的对应关系,分别获取与各所述特征组合对应的数据类型;所述数据类型包括数字型、字节型以及文本型;
根据所述数据类型和数据处理方式之间的对应关系,获取与所述数据类型对应的数据处理方式;所述数据处理方式包括判断处理、赋值处理以及声明处理;
根据各所述数据处理方式,分别对各特征组合对应的待处理音频数据进行数据处理。
一种语音数据降噪装置,所述装置包括:
接收模块,用于接收终端发送的对待处理音频数据的降噪请求,并获取所述待处理音频数据;
区分度计算模块,用于获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度;
初始特征组合获取模块,用于根据预设的区分度阈值对各所述特征组合进行筛选,获得初始特征组合;
可用特征组合获取模块,用于利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标的可用特征组合;
初始音频数据生成模块,用于获取所述可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
降噪模块,用于基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收终端发送的对待处理音频数据的降噪请求,并获取所述待处理音频数据;
获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度;
根据所述的区分度阈值对各所述特征组合进行筛选,获得初始特征组合;
利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标可用特征组合;
获取所述可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收终端发送的对待处理音频数据的降噪请求,并获取所述待处理音频数据;
获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度;
根据所述的区分度阈值对各所述特征组合进行筛选,获得初始特征组合;
利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标可用特征组合;
获取所述可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据。
上述语音数据降噪方法、装置、计算机设备和存储介质,通过利用预设的区分度阈值,对与待处理音频数据对应的特征组合进行遍历,获得符合区分度阈值的特征组合,并利用预设的评价指标对符合区分度阈值的特征组合进行筛选,得到可用特征组合,加强了对语音数据和噪声数据进行区分的可靠性。利用深度学习降噪模型,对基于区分度的第一初始音频数据进行降噪处理,获得降噪后的语音数据。且在提高了语音数据和噪声数据区分度的基础上,利用了训练好的深度学习降噪模型,快速而高效的实现了语音数据的降噪处理,进一步提高了语音数据降噪效果。
附图说明
图1为一个实施例中语音数据降噪方法的应用场景图;
图2为一个实施例中语音数据降噪方法的流程示意图;
图3为一个实施例中获得深度学习降噪模型的步骤的流程示意图;
图4为一个实施例中语音数据降噪装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音数据降噪方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102发送的对待处理音频数据的降噪请求,获取待处理音频数据,获取待处理音频数据对应的特征组合,并获取特征组合内各特征之间的关联关系,根据特征组合对应的特征和各特征之间的关联关系,计算各特征组合的区分度。服务器104根据预设的区分度阈值对各特征组合进行筛选,获得初始特征组合。利用预设评价指标对初始特征组合进行筛选,获得符合预设评价指标的可用特征组合,获取可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据,并基于深度学***板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种语音数据降噪方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,接收终端发送的对待处理音频数据的降噪请求,并获取待处理音频数据。
S204,获取待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各特征组合的区分度。
具体地,与降噪处理请求对应的待处理音频数据,对应多个特征,可通过获取多个特征之间的关联关系,根据多个特征和各关联关系,生成对应的特征组合。服务器可通过获取待处理音频数据对应的特征,及各特征之间的关联关系,根据特征和各特征之间的关联关系,生成与待处理音频数据对应的特征组合。从而可根据各特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。
在本方案中,音频数据的特征包括采样频率、比特率、通道数、帧率、过零率以及短时能量,其中,采样频率表示在单位时间内,在模拟信号上进行取点采样的次数,对取的模拟信号上的点赋予一个数字,可转变成数字信号。比特率表示将模拟信号的轻响(影响声音响度的振幅)所划分的不同等级。通道数表示音频的通道数量,帧率表示单位时间内声音帧的个数,一帧可包含多个声音样本。过零率表示每帧信号内信号过零的次数,用于体现音频的频率特征。短时能量用于体现音频信号在不同时刻的强弱程度。因此,由于不同音频数据对应的特征的取值不同,因此根据不同音频数据对应的各特征生成的特征组合,也不相同。
进一步地,在进行区分度计算之前,还包括对待处理音频数据进行相应的数据处理,以提高计算得到的各特征组合对应的区分度的精确度,具体包括:
针对不同数据类型的初始音频数据,执行不同的降噪处理方式,数据类型包括数字型、字节型和文本型等,对应的降噪处理方式为判断处理、赋值处理和声明处理。针对数字型初始音频数据,执行判断处理,获取预设的取值范围,将预设的取值范围和数字型初始音频数据的取值进行比对,判断数字型初始音频数据的取值是否符合预设的取值范围,提取符合预设取值范围的数字型初始音频数据,删除数字型初始音频数据中的噪音数据,生成数字型可用数据。
针对字节型初始音频数据,执行赋值处理,判断字节型初始音频数据的取值是否符合预设取值,当字节型初始音频数据的取值不符合预设取值时,将预设取值赋给对应的字节型初始音频数据,并删除被赋值后的字节型初始音频数据中的噪音数据,生成字节型可用数据。
针对文本型初始音频数据,执行声明处理,获取文本型初始音频数据的组成成分,根据组成成分和预设组成成分进行比对,当文本型初始音频数据的组成成分与预设组成成分不一致时,将文本型初始音频数据声明为预设组成成分,删除文本型初始音频数据中的噪音数据,生成文本型可用数据。
S206,根据预设的区分度阈值对各特征组合进行筛选,获得初始特征组合。具体地,服务器通过将各特征组合的区分度分别与区分度阈值进行比对,获取超出区分度阈值的区分度对应的特征组合,即为初始特征组合。其中,区分度阈值用于对待处理音频数据对应的特征组合进行遍历和筛选,进而获得符合区分度阈值的特征组合对应的待处理音频数据。也就是说,服务器通过获取预设的区分度阈值,并根据区分度阈值遍历各特征组合对应的区分度,以获得超出区分度阈值的区分度对应的特征组合,生成初始特征组合。
进一步地,还可删除初始音频数据中突破阈值的噪音数据。其中,突破阈值的噪音数据为区分度低于初始区分度阈值对应的数据,即无效音频数据,初始特征组合对应的数据为超出区分度阈值的区分度对应的数据,即初始音频数据。在本方案中,可将区分度阈值范围设置为0.8至1,低于区分度阈值0.8的无效音频数据,为无法进行降噪操作的噪音数据,也不属于有效音频数据,执行删除处理。超出区分度阈值1的初始音频数据为需要进行降噪处理,以生成有效音频数据。
S208,利用预设评价指标对初始特征组合进行筛选,获得符合预设评价指标的可用特征组合。
具体地,服务器获取的预设评价指标,包括AUC值、准确率以及召回率,,服务器根据获取到的AUC值、准确率以及召回率,对初始特征组合进行筛选,获取符合要求的初始特征组合,生成可用特征组合。
其中,AUC值为感受性曲线下方的面积大小,全称Area Under Curve,被定义为ROC曲线下的面积,其取值范围在0.5和1之间。ROC曲线为感受性曲线,曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,在两种不同的判定标准下所得的结果,受试者工作特征曲线就是以假阳性概率为横轴,真阳性为纵轴所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。
准确率(Precision)表示对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是损失函数是0-1损失时测试数据集上的准确率。用公式表达可以是:准确率=***检索到的相关文件/***所有检索到的文件总数。
召回率(Recall)是覆盖面的度量,度量有多个正例被分为正例。用公式可以表达为:召回率=***检索到的相关文件/***所有相关的文件总数。
进一步地,服务器获取AUC值和初始特征组合之间的对应关系,并根据预设的AUC值对初始特征组合进行筛选,获取符合预设的AUC值的初始特征组合。
其中,服务器根据AUC值的取值范围,可将AUC值设置为0.8,利用AUC值0.8对初始特征组合进行筛选,获取符合AUC值的初始特征组合。服务器获取准确率和初始特征组合之间的对应关系,根据预设的准确率对初始特征组合进行筛选,获得符合预设的准确率的初始特征组合。服务器获取召回率和初始特征组合之间的对应关系,根据预设的召回率对初始特征组合进行筛选,获得符合预设的召回率的初始特征组合。最终,服务器根据符合预设的评价指标AUC值、准确率以及召回率的初始特征组合,生成可用特征组合。
S210,获取可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据。
S212,基于深度学习降噪模型,对第一初始音频数据进行降噪处理,生成降噪后的语音数据。
具体地,服务器按照预定长度对第一初始音频数据进行切片处理,并根据切片后的第一初始音频数据,生成第一初始音频数据的待处理声纹图谱,从待处理声纹图谱中提取第一初始音频数据的待处理声纹参数。从而可将待处理声纹参数输入深度学习降噪模型中,得到降噪后的语音数据。
进一步地,服务器通过获取待进行降噪处理的第一初始音频数据的待处理声纹参数,并将待处理参数输入深度学习降噪模型中,将第二声纹参数和待处理声纹参数进行匹配,获取符合第二声纹参数的待处理声纹参数对应的第一初始音频数据,利用第一声纹参数,对符合第二声纹参数的待处理声纹参数对应的第一初始音频数据,进行降噪处理,获得降噪后的语音数据。
上述语音数据降噪方法中,通过利用预设的区分度阈值,对与待处理音频数据对应的特征组合进行遍历,获得符合区分度阈值的特征组合,并利用预设的评价指标对符合区分度阈值的特征组合进行筛选,得到可用特征组合,加强了对语音数据和噪声数据进行区分的可靠性。利用深度学习降噪模型,对基于区分度的第一初始音频数据进行降噪处理,获得降噪后的语音数据。且在提高了语音数据和噪声数据区分度的基础上,利用了训练好的深度学习降噪模型,快速而高效的实现了语音数据的降噪处理,进一步提高了语音数据降噪效果。
在一个实施例中,如图3所示,提供了一种获得深度学习降噪模型的步骤,包括:
S302,从训练样本中获取未超出区分度阈值的特征组合对应的有效音频数据及其对应的第二初始音频数据。
具体地,训练样本中包括未超出区分度阈值的特征组合对应的有效音频数据、与有效音频数据对应的第二初始音频数据以及突破阈值的无效音频数据。服务器根据训练深度学习降噪模型的要求,从训练样本中获取有效音频数据以及与有效音频数据对应的第二初始音频数据。
S304,按照预定长度分别对有效音频数据和第二初始音频数据进行切片处理。
具体地,服务器在对有效音频数据和第二初始音频数据进行切片处理之前,还需要对有效音频数据和第二初始音频数据进行预处理,获取预定格式的有效音频数据和第二初始音频数据。进一步获取预设的切片长度,并根据该预定长度对一对预定格式的有效音频数据及第二初始音频数据,进行切片处理。
S306,根据切片后的有效音频数据,生成有效音频数据的第一声纹图谱,从第一声纹图谱中提取有效音频数据的第一声纹参数。
S308,根据切片后的第二初始音频数据,生成第二初始音频数据的第二声纹图谱,从第二声纹图谱中提取第二初始音频数据的第二声纹参数。
具体地,服务器根据切片后的有效音频数据和第二初始音频数据,分别生成有效音频数据的第一声纹图谱和第而初始音频数据对应的第二声纹图谱,并分别从第一声纹图谱中提取有效音频数据的第一声纹参数,及从第二声纹图谱中提取第二初始音频数据的第二声纹参数。
其中,目前可知的声纹图谱主要包括:宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹以及断面声纹(又分宽带、窄带二种)。其中,前二种显示语声的频率与强度随时间推移的变化特征,中间三种显示语音强度或声压随时间变化的特征;断面声纹只是显示某一时间点上声波强度和频率特征的声纹图。
声纹参数,是一个音频数据专属的特征,是指可以代表一段音频数据的重要声学特征的基于内容的数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量,可以包括但不限于与人类的发音机制的解剖学结构有关的声学特征,比如频谱、倒频谱、共振峰、基音以及反射系数等。
S310,将第二初始音频数据的第二声纹参数作为深度学习模型的输入,对应时刻的有效音频数据的第一声纹参数作为深度学习模型的输出,对深度学习模型进行训练,获得深度学习降噪模型。
具体地,第二初始音频数据的第二声纹参数,作为深度学习模型的输入,对应需要进行降噪处理的音频数据,与第二初始音频数据对应的有效音频数据的第一声纹参数,作为深度学习模型的输出,对应经过降噪处理后的音频数据。通过多次从样本中获取有效音频数据和第二初始音频数据,并提取对应的第二声纹参数和第一声纹参数,对深度学习模型进行训练,可得到深度学习降噪模型。
上述步骤中,服务器从训练样本中获取未超出区分度阈值的特征组合对应的有效音频数据及其对应的第二初始音频数据,并按照预定长度分别对有效音频数据和第二初始音频数据进行切片处理,根据切片后的有效音频数据,生成有效音频数据的第一声纹图谱,从第一声纹图谱中提取有效音频数据的第一声纹参数,根据切片后的第二初始音频数据,生成第二初始音频数据的第二声纹图谱,从第二声纹图谱中提取第二初始音频数据的第二声纹参数。从而可将第二初始音频数据的第二声纹参数作为深度学习模型的输入,对应时刻的有效音频数据的第一声纹参数作为深度学习模型的输出,实现了对深度学习模型的训练,获得可用于语音数据的深度学习降噪模型,提高了对于语音数据的降噪效果。
在一个实施例中,提供了一种获取待处理音频数据对应的特征组合,并计算各特征组合的区分度的步骤,包括:
服务器获取待处理音频数据对应的特征,及各特征之间的关联关系;根据特征和各特征之间的关联关系,生成与待处理音频数据对应的特征组合;根据各特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。
具体地,与降噪处理请求对应的待处理音频数据,对应多个特征,可通过获取多个特征之间的关联关系,根据多个特征和各关联关系,生成对应的特征组合。服务器可通过获取待处理音频数据对应的特征,及各特征之间的关联关系,根据特征和各特征之间的关联关系,生成与待处理音频数据对应的特征组合。从而可根据各特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。
在本方案中,音频数据的特征包括采样频率、比特率、通道数、帧率、过零率以及短时能量,其中,采样频率表示在单位时间内,在模拟信号上进行取点采样的次数,对取的模拟信号上的点赋予一个数字,可转变成数字信号。比特率表示将模拟信号的轻响(影响声音响度的振幅)所划分的不同等级。通道数表示音频的通道数量,帧率表示单位时间内声音帧的个数,一帧可包含多个声音样本。过零率表示每帧信号内信号过零的次数,用于体现音频的频率特征。短时能量用于体现音频信号在不同时刻的强弱程度。因此,由于不同音频数据对应的特征的取值不同,因此根据不同音频数据对应的各特征生成的特征组合,也不相同。
进一步地,音频数据包括对应的各特征取值不同,即采样频率、比特率、通道数、帧率以及短时能量的取值各不相同,对应特征之间的关联关系也不一致,因此服务器通过各特征的不同取值和关联关系,可分别计算得到不同音频数据的特征组合之间的区分度。
上述步骤中,服务器根据特征和各特征之间的关联关系,生成与待处理音频数据对应的特征组合,并根据各特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。实现了针对不同特征组合,分别计算相应的区分度,将语音数据中有效音频数据和待进行降噪处理的噪声数据,更快地区分开,提高了工作效率。
在一个实施例中,提供了一种根据预设的区分度阈值对各特征组合进行筛选,获得初始特征组合的步骤,包括:
服务器将各特征组合的区分度分别与区分度阈值进行比对;获取超出区分度阈值的区分度对应的特征组合,生成初始特征组合。
具体地,服务器通过将各特征组合的区分度分别与区分度阈值进行比对,获取超出区分度阈值的区分度对应的特征组合,即为初始特征组合。也就是说,服务器通过获取预设的区分度阈值,并根据区分度阈值遍历各特征组合对应的区分度,以获得超出区分度阈值的区分度对应的特征组合,生成初始特征组合。
进一步地,还可删除初始音频数据中突破阈值的噪音数据。其中,突破阈值的噪音数据为区分度低于初始区分度阈值对应的数据,即无效音频数据,初始特征组合对应的数据为超出区分度阈值的区分度对应的数据,即初始音频数据。在本方案中,可将区分度阈值范围设置为0.8至1,低于区分度阈值0.8的无效音频数据,为无法进行降噪操作的噪音数据,也不属于有效音频数据,执行删除处理。超出区分度阈值1的初始音频数据为需要进行降噪处理,以生成有效音频数据。
上述步骤中,服务器将各特征组合的区分度分别与区分度阈值进行比对,并获取超出区分度阈值的区分度对应的特征组合,生成初始特征组合。由于考虑到各特征组合对应的区分度和区分度阈值的比对,可将待处理音频数据中的无效数据删除,在获取需要进行降噪处理的初始音频数据时,降低筛选工作量,提高了工作效率。
在一个实施例中,提供了一种利用预设评价指标对初始特征组合进行筛选,获得可用特征组合的步骤,包括:
服务器获取预设评价指标;预设评价指标包括AUC值、准确率以及召回率;根据AUC值、准确率以及召回率,对初始特征组合进行筛选;获取符合要求的初始特征组合,生成可用特征组合。
具体地,AUC值为感受性曲线下方的面积大小,全称Area Under Curve,被定义为ROC曲线下的面积,其取值范围在0.5和1之间。准确率(Precision)表示对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是损失函数是0-1损失时测试数据集上的准确率。用公式表达可以是:准确率=***检索到的相关文件/***所有检索到的文件总数。召回率(Recall)是覆盖面的度量,度量有多个正例被分为正例。用公式可以表达为:召回率=***检索到的相关文件/***所有相关的文件总数。
进一步地,服务器获取AUC值和初始特征组合之间的对应关系,并根据预设的AUC值对初始特征组合进行筛选,获取符合预设的AUC值的初始特征组合。
其中,服务器根据AUC值的取值范围,可将AUC值设置为0.8,利用AUC值0.8对初始特征组合进行筛选,获取符合AUC值的初始特征组合。服务器获取准确率和初始特征组合之间的对应关系,根据预设的准确率对初始特征组合进行筛选,获得符合预设的准确率的初始特征组合。服务器获取召回率和初始特征组合之间的对应关系,根据预设的召回率对初始特征组合进行筛选,获得符合预设的召回率的初始特征组合。最终,服务器根据符合预设的评价指标AUC值、准确率以及召回率的初始特征组合,生成可用特征组合。
上述步骤中,服务器根据预设评价指标AUC值、准确率以及召回率,对初始特征组合进行筛选,生成可用特征组合,再次对特征组合进行筛选,进一步提高了初始音频数据的获取效率。
在一个实施例中,提供了一种基于深度学习降噪模型,对第一初始音频数据进行降噪处理,生成降噪后的语音数据的步骤,包括:
服务器按照预定长度对第一初始音频数据进行切片处理;根据切片后的第一初始音频数据,生成第一初始音频数据的待处理声纹图谱,从待处理声纹图谱中提取第一初始音频数据的待处理声纹参数;将待处理声纹参数输入深度学习降噪模型中,得到降噪后的语音数据。
具体地,服务器通过获取待进行降噪处理的第一初始音频数据的待处理声纹参数,并将待处理参数输入深度学习降噪模型中,将第二声纹参数和待处理声纹参数进行匹配,获取符合第二声纹参数的待处理声纹参数对应的第一初始音频数据,利用第一声纹参数,对符合第二声纹参数的待处理声纹参数对应的第一初始音频数据,进行降噪处理,获得降噪后的语音数据。
上述步骤中,服务器按照预定长度对第一初始音频数据进行切片处理,根据切片后的第一初始音频数据,生成第一初始音频数据的待处理声纹图谱,从待处理声纹图谱中提取第一初始音频数据的待处理声纹参数,将待处理声纹参数输入深度学习降噪模型中,得到降噪后的语音数据。通过利用深度学习降噪模型,对基于区分度的第一初始音频数据进行降噪处理,提高了语音数据降噪效果。
在一个实施例中,提供了一种语音数据降噪方法,还包括:
服务器根据各特征组合和数据类型之间的对应关系,分别获取与各特征组合对应的数据类型;数据类型包括数字型、字节型以及文本型;根据数据类型和数据处理方式之间的对应关系,获取与数据类型对应的数据处理方式;数据处理方式包括判断处理、赋值处理以及声明处理;根据各数据处理方式,分别对各特征组合对应的待处理音频数据进行数据处理。
具体地,针对数字型初始数据,执行判断处理,获取预设的取值范围,将预设的取值范围和数字型初始数据的取值进行比对,判断数字型初始数据的取值是否符合预设的取值范围,提取符合预设取值范围的数字型初始数据,删除数字型初始数据中的噪音数据,生成数字型可用数据。
针对字节型初始数据,执行赋值处理,判断字节型初始数据的取值是否符合预设取值,当字节型初始数据的取值不符合预设取值时,将预设取值赋给对应的字节型初始数据,并删除被赋值后的字节型初始数据中的噪音数据,生成字节型可用数据。
针对文本型初始数据,执行声明处理,获取文本型初始数据的组成成分,根据组成成分和预设组成成分进行比对,当文本型初始数据的组成成分与预设组成成分不一致时,将文本型初始数据声明为预设组成成分,删除文本型初始数据中的噪音数据,生成文本型可用数据。
上述步骤中,服务器在进行各特征组合的区分度计算之前,根据待处理音频数据的不同类型,分别执行了相应的数据预处理,提高了后续各特征组合相应的区分度计算的准确度。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种语音数据降噪装置,包括:接收模块402、区分度计算模块404、初始特征组合获取模块406、可用特征组合获取模块408、初始音频数据生成模块410以及降噪模块412,其中:
接收模块402,用于接收终端发送的对待处理音频数据的降噪请求,并获取待处理音频数据;
区分度计算模块404,用于获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度。
初始特征组合获取模块406,用于根据预设的区分度阈值对各特征组合进行筛选,获得初始特征组合;
可用特征组合获取模块408,用于利用预设评价指标对初始特征组合进行筛选,获得符合预设评价指标的可用特征组合;
初始音频数据生成模块410,用于获取可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
降噪模块412,用于基于深度学习降噪模型,对第一初始音频数据进行降噪处理,生成降噪后的语音数据。
上述语音数据降噪装置,通过利用预设的区分度阈值,对与待处理音频数据对应的特征组合进行遍历,获得符合区分度阈值的特征组合,并利用预设的评价指标对符合区分度阈值的特征组合进行筛选,得到可用特征组合,加强了对语音数据和噪声数据进行区分的可靠性。利用深度学习降噪模型,对基于区分度的第一初始音频数据进行降噪处理,获得降噪后的语音数据。且在提高了语音数据和噪声数据区分度的基础上,利用了训练好的深度学习降噪模型,快速而高效的实现了语音数据的降噪处理,进一步提高了语音数据降噪效果。
在一个实施例中,提供了一种深度学习降噪模型训练模块,还用于:
从训练样本中获取未超出区分度阈值的特征组合对应的有效音频数据及其对应的第二初始音频数据;按照预定长度分别对有效音频数据和第二初始音频数据进行切片处理;根据切片后的有效音频数据,生成有效音频数据的第一声纹图谱,从第一声纹图谱中提取有效音频数据的第一声纹参数;根据切片后的第二初始音频数据,生成第二初始音频数据的第二声纹图谱,从第二声纹图谱中提取第二初始音频数据的第二声纹参数;将第二初始音频数据的第二声纹参数作为深度学习模型的输入,对应时刻的有效音频数据的第一声纹参数作为深度学习模型的输出,对深度学习模型进行训练,获得深度学习降噪模型。
上述深度学习降噪模型训练模块,通过将第二初始音频数据的第二声纹参数作为深度学习模型的输入,对应时刻的有效音频数据的第一声纹参数作为深度学习模型的输出,实现了对深度学习模型的训练,获得可用于语音数据的深度学习降噪模型,提高了对于语音数据的降噪效果。
在一个实施例中,提供了一种区分度计算模块,还用于:
获取待处理音频数据对应的特征,及各特征之间的关联关系;根据特征和各特征之间的关联关系,生成与待处理音频数据对应的特征组合;根据各特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。
上述区分度计算模块,实现了针对不同特征组合,分别计算相应的区分度,将语音数据中有效音频数据和待进行降噪处理的噪声数据,更快地区分开,提高了工作效率。
在一个实施例中,提供了一种初始特征组合获取模块,还用于:
将各特征组合的区分度分别与区分度阈值进行比对;获取超出区分度阈值的区分度对应的特征组合,生成初始特征组合。
上述初始特征组合获取模块,考虑到各特征组合对应的区分度和区分度阈值的比对,可将待处理音频数据中的无效数据删除,在获取需要进行降噪处理的初始音频数据时,降低筛选工作量,提高了工作效率。
在一个实施例中,提供了一种可用特征获取模块,还用于:
获取预设评价指标;预设评价指标包括AUC值、准确率以及召回率;根据AUC值、准确率以及召回率,对初始特征组合进行筛选;获取符合要求的初始特征组合,生成可用特征组合。
上述可用特征获取模块,服务器根据预设评价指标AUC值、准确率以及召回率,对初始特征组合进行筛选,生成可用特征组合,再次对特征组合进行筛选,进一步提高了初始音频数据的获取效率。
在一个实施例中,提供了一种降噪模块,还用于:
按照预定长度对第一初始音频数据进行切片处理;根据切片后的第一初始音频数据,生成第一初始音频数据的待处理声纹图谱,从待处理声纹图谱中提取第一初始音频数据的待处理声纹参数;将待处理声纹参数输入深度学习降噪模型中,得到降噪后的语音数据。
上述降噪模块,通过利用深度学习降噪模型,对基于区分度的第一初始音频数据进行降噪处理,提高了语音数据降噪效果。
在一个实施例中,提供了一种数据处理模块,还用于:
根据各特征组合和数据类型之间的对应关系,分别获取与各特征组合对应的数据类型;数据类型包括数字型、字节型以及文本型;根据数据类型和数据处理方式之间的对应关系,获取与数据类型对应的数据处理方式;数据处理方式包括判断处理、赋值处理以及声明处理;根据各数据处理方式,分别对各特征组合对应的待处理音频数据进行数据处理。
上述数据处理模块,服务器在进行各特征组合的区分度计算之前,根据待处理音频数据的不同类型,分别执行了相应的数据预处理,提高了后续各特征组合相应的区分度计算的准确度。
关于语音数据降噪装置的具体限定可以参见上文中对于语音数据降噪方法的限定,在此不再赘述。上述语音数据降噪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据降噪数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据降噪方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音数据降噪方法,所述方法包括:
接收终端发送的对待处理音频数据的降噪请求,并获取所述待处理音频数据;
获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度;
根据预设的区分度阈值对各所述特征组合进行筛选,获得初始特征组合;
利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标的可用特征组合;
获取所述可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据。
2.根据权利要求1所述的方法,其特征在于,获得所述深度学习降噪模型的方式,包括:
从训练样本中获取未超出所述区分度阈值的特征组合对应的有效音频数据及其对应的第二初始音频数据;
按照预定长度分别对所述有效音频数据和所述第二初始音频数据进行切片处理;
根据切片后的所述有效音频数据,生成所述有效音频数据的第一声纹图谱,从所述第一声纹图谱中提取所述有效音频数据的第一声纹参数;
根据切片后的所述第二初始音频数据,生成所述第二初始音频数据的第二声纹图谱,从所述第二声纹图谱中提取所述第二初始音频数据的第二声纹参数;
将所述第二初始音频数据的第二声纹参数作为深度学习模型的输入,对应时刻的有效音频数据的第一声纹参数作为深度学习模型的输出,对深度学习模型进行训练,获得深度学习降噪模型。
3.根据权利要求1所述的方法,其特征在于,获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度,包括:
获取所述待处理音频数据对应的特征,及各特征之间的关联关系;
根据所述特征和各特征之间的关联关系,生成与所述待处理音频数据对应的特征组合;
根据各所述特征组合对应的特征和各特征之间的关联关系,分别计算各特征组合的区分度。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据预设的区分度阈值对各所述特征组合进行筛选,获得初始特征组合,包括:
将各所述特征组合的区分度分别与所述区分度阈值进行比对;
获取超出所述区分度阈值的区分度对应的特征组合,生成初始特征组合。
5.根据权利要求1至3任意一项所述的方法,其特征在于,所述利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标的可用特征组合,包括:
获取预设评价指标;所述预设评价指标包括AUC值、准确率以及召回率;
根据所述AUC值、准确率以及召回率,对所述初始特征组合进行筛选;
获取符合要求的初始特征组合,生成可用特征组合。
6.根据权利要求2所述的方法,其特征在于,所述基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据,包括:
按照预定长度对所述第一初始音频数据进行切片处理;
根据切片后的所述第一初始音频数据,生成所述第一初始音频数据的待处理声纹图谱,从所述待处理声纹图谱中提取所述第一初始音频数据的待处理声纹参数;
将所述待处理声纹参数输入所述深度学习降噪模型中,得到降噪后的语音数据。
7.根据权利要求1所述的方法,其特征在于,在计算各所述特征组合的区分度的步骤之前,还包括:
根据各所述特征组合和数据类型之间的对应关系,分别获取与各所述特征组合对应的数据类型;所述数据类型包括数字型、字节型以及文本型;
根据所述数据类型和数据处理方式之间的对应关系,获取与所述数据类型对应的数据处理方式;所述数据处理方式包括判断处理、赋值处理以及声明处理;
根据各所述数据处理方式,分别对各特征组合对应的待处理音频数据进行数据处理。
8.一种语音数据降噪装置,其特征在于,所述装置包括:
接收模块,用于接收终端发送的对待处理音频数据的降噪请求,并获取所述待处理音频数据;
区分度计算模块,用于获取所述待处理音频数据对应的特征组合,并获取所述特征组合内各特征之间的关联关系,根据所述特征组合对应的特征和各特征之间的关联关系,计算各所述特征组合的区分度;
初始特征组合获取模块,用于根据预设的区分度阈值对各所述特征组合进行筛选,获得初始特征组合;
可用特征组合获取模块,用于利用预设评价指标对所述初始特征组合进行筛选,获得符合所述预设评价指标的可用特征组合;
初始音频数据生成模块,用于获取所述可用特征组合对应的待处理音频数据,生成基于区分度的第一初始音频数据;
降噪模块,用于基于深度学习降噪模型,对所述第一初始音频数据进行降噪处理,生成降噪后的语音数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910650447.6A 2019-07-18 2019-07-18 语音数据降噪方法、装置、计算机设备和存储介质 Pending CN110335616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650447.6A CN110335616A (zh) 2019-07-18 2019-07-18 语音数据降噪方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650447.6A CN110335616A (zh) 2019-07-18 2019-07-18 语音数据降噪方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110335616A true CN110335616A (zh) 2019-10-15

Family

ID=68146065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650447.6A Pending CN110335616A (zh) 2019-07-18 2019-07-18 语音数据降噪方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110335616A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068161A (zh) * 2017-04-14 2017-08-18 百度在线网络技术(北京)有限公司 基于人工智能的语音降噪方法、装置和计算机设备
CN109471853A (zh) * 2018-09-18 2019-03-15 平安科技(深圳)有限公司 数据降噪方法、装置、计算机设备和存储介质
WO2019112468A1 (en) * 2017-12-08 2019-06-13 Huawei Technologies Co., Ltd. Multi-microphone noise reduction method, apparatus and terminal device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068161A (zh) * 2017-04-14 2017-08-18 百度在线网络技术(北京)有限公司 基于人工智能的语音降噪方法、装置和计算机设备
WO2019112468A1 (en) * 2017-12-08 2019-06-13 Huawei Technologies Co., Ltd. Multi-microphone noise reduction method, apparatus and terminal device
CN109471853A (zh) * 2018-09-18 2019-03-15 平安科技(深圳)有限公司 数据降噪方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2020177380A1 (zh) 基于短文本的声纹检测方法、装置、设备及存储介质
US11004461B2 (en) Real-time vocal features extraction for automated emotional or mental state assessment
CN112818892B (zh) 基于时间卷积神经网络的多模态抑郁症检测方法及***
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
CN110120224B (zh) 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
WO2021179717A1 (zh) 一种语音识别的前端处理方法、装置及终端设备
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN108022587A (zh) 语音识别方法、装置、计算机设备和存储介质
CN111433847A (zh) 语音转换的方法及训练方法、智能装置和存储介质
Faundez-Zanuy et al. Nonlinear speech processing: overview and applications
CN108922561A (zh) 语音区分方法、装置、计算机设备及存储介质
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
EP3729419A1 (en) Method and apparatus for emotion recognition from speech
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
KR102204975B1 (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
WO2021134591A1 (zh) 语音合成方法、装置、终端及存储介质
CN117542373A (zh) 一种非空气传导语音的恢复***及方法
CN110619886B (zh) 一种针对低资源土家语的端到端语音增强方法
CN110335616A (zh) 语音数据降噪方法、装置、计算机设备和存储介质
CN113869212A (zh) 多模态活体检测方法、装置、计算机设备及存储介质
CN113889073A (zh) 语音处理方法、装置、电子设备和存储介质
CN113012680A (zh) 一种语音机器人用话术合成方法及装置
CN116959421B (zh) 处理音频数据的方法及装置、音频数据处理设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination