CN112151052A - 语音增强方法、装置、计算机设备及存储介质 - Google Patents

语音增强方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112151052A
CN112151052A CN202011153521.2A CN202011153521A CN112151052A CN 112151052 A CN112151052 A CN 112151052A CN 202011153521 A CN202011153521 A CN 202011153521A CN 112151052 A CN112151052 A CN 112151052A
Authority
CN
China
Prior art keywords
voice
enhancement
data
voice data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011153521.2A
Other languages
English (en)
Other versions
CN112151052B (zh
Inventor
罗剑
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011153521.2A priority Critical patent/CN112151052B/zh
Priority to PCT/CN2020/136364 priority patent/WO2021189979A1/zh
Publication of CN112151052A publication Critical patent/CN112151052A/zh
Application granted granted Critical
Publication of CN112151052B publication Critical patent/CN112151052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种语音增强方法、装置、计算机设备及存储介质,涉及人工智能技术领域,主要在于能够自动从预先构建的语音增强参数集中选择与周围环境相匹配的语音增强参数,利用该语音增强参数对待识别语音数据进行语音增强处理后,能够使语音识别准确率达到最高。其中方法包括:获取待处理的语音数据;提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数;根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。本发明主要适用于语音数据的语音增强处理。

Description

语音增强方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种语音增强方法、装置、计算机设备及存储介质。
背景技术
近年来,随着智能型穿戴设备的快速发展和崛起,通过语音控制的消费类电子产品已成为最新潮流,语音智能需要可靠性强、准确率高的自动语音识别智能***作为支撑,而前端语音增强技术就是最关键的一环。
目前,在利用前端语音增强技术对噪声进行处理时,通常根据周围环境,依据专家经验对语音增强模块的参数进行调整,以期达到较好的语音识别效果。然而,这种依据专家经验对语音增强参数进行调整的方式,只能一定程度地适应周围环境,改善高语音识别的效果,但是无法保证语音识别的正确率均达到最高。
发明内容
本发明提供了一种语音增强方法、装置、计算机设备及存储介质,主要在于能够自动从预先构建的语音增强参数集中选择与周围环境相匹配的语音增强参数,利用该语音增强参数对待识别语音数据进行语音增强处理后,能够使语音识别准确率达到最高,从而能够在任何环境中达到最优的语音识别效果。
根据本发明的第一个方面,提供一种语音增强方法,包括:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
根据本发明的第二个方面,提供一种语音增强装置,包括:
获取单元,用于获取待处理的语音数据;
选取单元,用于提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
处理单元,用于根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
本发明提供的一种语音增强方法、装置、计算机设备及存储介质,与目前依据专家经验对语音增强模块的参数进行调整的方式相比,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语音增强方法流程图;
图2示出了本发明实施例提供的另一种语音增强方法流程图;
图3示出了本发明实施例提供的一种语音增强装置的结构示意图;
图4示出了本发明实施例提供的另一种语音增强装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,在利用前端语音增强技术对噪声进行处理时,通常根据周围环境,依据专家经验对语音增强模块的参数进行调整,以期达到较好的语音识别效果。然而,这种依据专家经验对语音增强参数进行调整的方式,只能一定程度地适应周围环境,改善高语音识别的效果,但是无法保证语音识别的正确率均达到最高。
为了解决上述问题,本发明实施例提供了一种信贷风险评估方法,如图1所示,所述方法包括:
101、获取待处理的语音数据。
其中,待处理的语音数据可以为在不同环境中采集到语音序列,例如,在街道旁采集到某用户的一段语音序列,或者在工厂中采集到某用户的一段语音序列,对于本发明实施例,为了克服现有技术中依据专家经验对语音增强参数进行调整的缺陷,本发明实施例通过预先构建语音增强参数集,并根据待处理的语音数据所处的目标环境,自动从语音增强参数集中选取相匹配的语音增强参数,由此在任何环境中不仅能够改善语音数据的语音增强效果,同时还能够使语音识别准确率达到最高。本发明实施例适用于语音数据的语音增强处理,本发明实施例的执行主体为能够对语音数据进行语音增强处理的装置或者设备,具体可以设置于客户端或者服务器一侧。
具体地,获取用户在某场景下的一段语音数据,在对该语音数据进行语音增强处理之前,需要对该语音数据进行预处理,具体包括预加重处理、分帧处理和加窗函数处理,由此得到预处理后的语音数据,进一步地,需要确定预处理后的语音数据所处的目标环境,基于语音数据所处的目标环境对其进行语音增强处理。
102、提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数。
其中,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率。对于本发明实施例,预设样本库中存储有在不同环境下采集的样本语音数据,为了确定不同样本语音数据所处的环境,需要对样本语音数据进行聚类处理,得到不同环境下的样本语音数据,并利用不同环境下的样本语音数据对语音增强模型进行训练,即对语音增强模型中的初始语音增强参数进行优化调整,直至经过语音增强处理后的样本语音数据输入至预先构建的语音识别模型中进行语音识别时,能够使语音数据的语音识别准确率达到最高,由此能够得到不同环境下的语音增强参数,并构建语音增强参数集,当语音数据处于某一环境时,利用与该环境对应的语音增强参数对语音数据进行语音增强处理,并将语音增强处理后的语音数据输入至预先构建的语音增强模型,能够使语音数据的语音识别准确率达到最高。
对于本发明实施例,在对语音数据进行语音增强处理之前,需要确定待处理的语音数据所处的目标环境,具体地,提取待处理的语音数据对应的第一语音特征,同时分别提取不同聚类类别(不同环境)下的样本语音数据对应的第二语音特征,之后根据不同聚类类别下样本语音数据对应的第二语音特征,计算不同聚类类别下样本语音数据对应的特征中心,由于相同环境下采集的语音数据对应的语音特征较为相近,因此通过计算第一语音特征与不同特征中心之间的距离,确定待处理的语音数据应归类至哪一聚类类别下的样本语音数据,进而能够确定待处理语音数据所处的目标环境。
进一步地,从预先构建的语音增强参数集中选择目标环境对应的目标增强参数,以便利用该目标语音增强参数对语音数据进行语音增强处理,并将语音增强处理后的语音数据输入至预先构建的语音识别模型中进行语音识别,能够使语音数据的语音识别效率达到最高,由此能够根据待处理的语音数据的语音特征,确定语音数据所处的目标环境,进而自动从语音增强参数集中选择目标环境对应的语音增强参数,对语音数据进行语音增强处理,改善了语音增强效果,同时能够保证经过语音增强处理后的语音数据的语音识别准确率达到最高。
103、根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
对于本发明实施例,语音增强处理主要是指对待处理的语音数据中的语音噪声进行降噪处理,在语音增强处理的过程中可以采用LMS自适应滤波器降噪处理算法对语音数据进行语音增强处理,具体利用该算法进行语音增强处理时,首先通过语音端点检测算法(VAD)对语音信号进行静音剔除处理,得到合适的声音频谱特征序列X=(x1,x2,…,xn),然后再经过多通道的维纳滤波操作,具体包括波束成形处理得到Y=(y1,y2,…,yn),并利用功率谱密度(PSD)估计减少残余噪声分量,得到维纳滤波输入分量
Figure BDA0002741985030000061
和φV(ω,τ),然后经过维纳滤波计算得到后置滤波器输入参数向量GWiener(ω,τ),经过后置滤波器处理得到滤波输出信号Z(ω,τ)=GWiener(ω,τ)*Y,再经过信号压缩或膨胀处理后,得到语音增强处理后的语音数据,由此经过语音增强处理后的语音数据能够适配语音识别模型的输入形式。
本发明实施例提供的一种语音增强方法,与目前依据专家经验对语音增强模块的参数进行调整的方式相比,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
进一步的,为了更好的说明上述对语音数据进行语音增强处理的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种语音增强方法方法,如图2所示,所述方法包括:
201、获取待处理的语音数据。
对于本发明实施例,为了能够根据待处理的语音数据所处的环境,自动选择与该环境相匹配的语音增强参数,而使语音数据的语音识别准确率达到最高,需要预先构建不同环境下的语音增强参数,基于此,所述方法包括:利用初始语音增强参数对所述不同环境下的样本语音数据进行语音增强处理,得到不同环境下语音增强处理后的样本语音数据;根据所述样本语音数据,构建不同环境下的语音识别准确率函数;根据所述准确率函数,对所述初始语音增强参数进行优化调整,得到不同环境下的语音增强参数,并基于所述不同环境下的语音增强参数,构建所述语音增强参数集。进一步地,所述根据所述样本语音数据,构建不同环境下的语音识别准确率函数,包括:利用预先构建的语音识别模型对所述语音增强处理后的样本语音数据进行语音识别,得到不同环境下的语音识别结果;根据所述不同环境下的语音识别结果,构建不同环境下的语音识别准确率函数。其中,预先构建的语音识别模型具体可以为神经网络语音识别模型。
例如,首先给定初始语音增强,之后利用该初始语音增强参数对工厂环境中的样本语音数据进行语音增强处理,得到在工厂环境下语音增强处理后的样本语音数据,并将该语音增强处理后的样本语音数据输入至预先构建的语音识别模型进行语音识别处理,得到工厂环境中样本语音数据对应的语音识别结果,接着根据该工厂环境中的语音识别结果,构建工厂环境下的语音识别准确率函数,在语音识别准确率最高的条件下求解该函数,具体搜寻最优解时可以利用遗传算法搜寻不同环境的语音增强参数,具体公式为:
θi=argmaxT(θ)
其中,T(θ)为工厂环境下的语音识别准确率,θi为在工厂环境下的语音增强参数,通过不断对初始语音增强参数优化调整,能够得到语音增强参数θi,语音增强参数θi能够使工厂环境下的语音识别准确率达到最高,由此按照上述方式能够得到不同环境下的语音增强参数,并构建语音增强参数集{θi},进而使不同环境下的语音识别准确率达到最高。
对于本发明实施例,在构建完成语音增强参数集后,可以获取待处理的语音数据,并通过确定待处理的语音数据所处的目标环境,从语音增强参数集中选择相应的语音增强参数对其进行语音增强处理。
202、提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数。
其中,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于最大化不同环境下的语音识别准确率。对于本发明实施例,为了确定待处理的语音数据所处的目标环境,步骤202具体包括:获取不同环境下样本语音数据,并提取所述样本语音数据对应的第二语音特征;根据所述第二语音特征,计算所述不同环境下样本语音数据对应的特征中心;根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境。进一步地,所述根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境,包括:利用预设的欧式距离算法计算所述第一语音特征与不同特征中心之间的欧式距离;从计算的欧式距离中筛选出最小欧式距离,并将所述最小欧式距离对应的样本语音数据所处环境确定为所述目标环境。其中,提取待处理的语音数据和样本语音数据对应的语音特征时,可以采用预设的梅尔倒谱算法计算待处理的样本数据和样本语音数据分别对应的梅尔倒谱系数,并将计算的梅尔倒谱系数确定为待处理的语音数据和样本语音数据分别对应的语音特征。
例如,计算得到街道旁的样本语音数据对应的特征中心为A,工厂环境下的样本语音数据对应的特征中心为B,机场环境下样本语音数据对应的特征中心为C,由于相同环境中语音数据对应的语音特征较为相似,之后分别计算待处理的语音数据对应的第一语音特征与特征中心A,特征中心B和特征中心C之间的欧式距离,并从计算的各个欧式距离中筛选最小欧式距离,如确定特征中心B与第一语音特征之间的欧式距离最小,则确定待处理的语音数据与工厂环境中的样本语音数据较为相近,因此确定待处理的语音数据处于工厂环境中,由此按照上述方式能够确定待处理的语音数据所处的目标环境。
203、根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
对于本发明实施例,为了对语音数据进行语音增强处理,步骤203具体包括:根据所述目标滤波降噪参数,对所述语音数据进行滤波降噪处理,得到降噪处理后的语音数据。具体利用目标滤波降噪参数对语音数据进行降噪处理的方式与步骤103完全相同,在此不再赘述。
204、对所述语音增强处理后的语音数据进行特征提取,得到所述语音数据对应的第三语音特征,并根据所述第三语音特征,确定所述语音数据对应的语音识别结果。
对于本方实施例,在对语音数据进行语音增强处理后,需要进一步对语音增强处理后的语音数据进行语音识别,具体对语音数据进行语音识别时,可以利用预先构建的语音识别模型进行语音识别,该语音识别模型具体可以为神经网络语音识别模型,具体地,将语音增强处理后的语音数据输入至语音识别模型,该语音识别模型中的隐藏层能够提取语音数据对应的第三语音特征,并根据该第三语音特征进行语音识别,从而得到语音数据对应的语音识别结果,此时该语音识别结果的准确率能够达到最高。
本发明实施例提供的另一种语音增强方法,与目前依据专家经验对语音增强模块的参数进行调整的方式相比,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
进一步地,作为图1的具体实现,本发明实施例提供了一种语音增强装置,如图3所示,所述装置包括:获取单元31、选取单元32和处理单元33。
所述获取单元31,可以用于获取待处理的语音数据。所述获取单元31是本装置中获取待处理的语音数据的主要功能模块。
所述选取单元32,可以用于提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于最大化不同环境下的语音识别准确率。所述选取单元32是本装置中提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数的主要功能模块,也是核心模块。
所述处理单元33,可以用于根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。所述处理单元33是本装置中根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据的主要功能模块。
进一步地,为了确定所述语音数据所处的目标环境,如图4所示,所述选取单元32,包括提取模块321、计算模块322和确定模块323。
所述提取模块321,可以用于获取不同环境下样本语音数据,并提取所述样本语音数据对应的第二语音特征。
所述计算模块322,可以用于根据所述第二语音特征,计算所述不同环境下样本语音数据对应的特征中心。
所述确定模块323,可以用于根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境。
进一步地,为了确定所述语音数据所处的目标环境,所述确定模块323,包括:计算子模块和确定子模块。
所述计算子模块,可以用于利用预设的欧式距离算法计算所述第一语音特征与不同特征中心之间的欧式距离。
所述确定子模块,可以用于从计算的欧式距离中筛选出最小欧式距离,并将所述最小欧式距离对应的样本语音数据所处环境确定为所述目标环境。
进一步地,为了构建语音增强参数集,所述装置还包括:构建单元34。
所述处理单元33,还可以用于利用初始语音增强参数对所述不同环境下的样本语音数据进行语音增强处理,得到不同环境下语音增强处理后的样本语音数据。
所述构建单元34,可以用于根据所述样本语音数据,构建不同环境下的语音识别准确率函数。
所述构建单元34,还可以用于根据所述准确率函数,对所述初始语音增强参数进行优化调整,得到不同环境下的语音增强参数,并基于所述不同环境下的语音增强参数,构建所述语音增强参数集。
进一步地,为了构建不同环境下的语音识别准确率函数,所述构建单元34,包括:识别模块341和构建模块342。
所述识别模块341,可以用于利用预先构建的语音识别模型对所述语音增强处理后的样本语音数据进行语音识别,得到不同环境下的语音识别结果。
所述构建模块342,可以用于根据所述不同环境下的语音识别结果,构建不同环境下的语音识别准确率函数。
进一步地,为了对语音数据进行语音识别,所述装置还包括:提取单元35和确定单元36。
所述提取单元35,可以用于对所述语音增强处理后的语音数据进行特征提取,得到所述语音数据对应的第三语音特征。
所述确定单元36,可以用于根据所述第三语音特征,确定所述语音数据对应的语音识别结果。
进一步地,为了对语音数据进行语音增强处理,所述处理单元33,具体可以用于根据所述目标滤波降噪参数,对所述语音数据进行滤波降噪处理,得到降噪处理后的语音数据。
需要说明的是,本发明实施例提供的一种语音增强装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待处理的语音数据;提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待处理的语音数据;提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
通过本发明的技术方案,本发明能够获取待处理的语音数据;同时提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;之后根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,由此通过确定待处理的语音数据所处的目标环境,能够自动从语音增强参数集中选取与其对应的目标语音增强参数,利用该目标语音增强参数对语音数据进行语音增强处理,不仅能够改善目标环境下的语音增强效果,同时还能够保证目标环境下语音识别的准确率达到最高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种语音增强方法,其特征在于,包括:
获取待处理的语音数据;
提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音特征确定所述语音数据所处的目标环境,包括:
获取不同环境下样本语音数据,并提取所述样本语音数据对应的第二语音特征;
根据所述第二语音特征,计算所述不同环境下样本语音数据对应的特征中心;
根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境。
3.根据权利要求2所述的方法,其特征在于,所述根据所述特征中心和所述第一语音特征,确定所述语音数据所处的目标环境,包括:
利用预设的欧式距离算法计算所述第一语音特征与不同特征中心之间的欧式距离;
从计算的欧式距离中筛选出最小欧式距离,并将所述最小欧式距离对应的样本语音数据所处环境确定为所述目标环境。
4.根据权利要求1所述的方法,其特征在于,在所述获取待处理的语音数据之前,所述方法包括:
利用初始语音增强参数对所述不同环境下的样本语音数据进行语音增强处理,得到不同环境下语音增强处理后的样本语音数据;
根据所述样本语音数据,构建不同环境下的语音识别准确率函数;
根据所述准确率函数,对所述初始语音增强参数进行优化调整,得到不同环境下的语音增强参数,并基于所述不同环境下的语音增强参数,构建所述语音增强参数集。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样本语音数据,构建不同环境下的语音识别准确率函数,包括:
利用预先构建的语音识别模型对所述语音增强处理后的样本语音数据进行语音识别,得到不同环境下的语音识别结果;
根据所述不同环境下的语音识别结果,构建不同环境下的语音识别准确率函数。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据之后,所述方法还包括:
对所述语音增强处理后的语音数据进行特征提取,得到所述语音数据对应的第三语音特征;
根据所述第三语音特征,确定所述语音数据对应的语音识别结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,目标语音增强参数为目标滤波降噪参数,所述根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据,包括:
根据所述目标滤波降噪参数,对所述语音数据进行滤波降噪处理,得到降噪处理后的语音数据。
8.一种语音增强装置,其特征在于,包括:
获取单元,用于获取待处理的语音数据;
选取单元,用于提取所述语音数据对应的第一语音特征,根据所述第一语音特征确定所述语音数据所处的目标环境,并从预先构建的语音增强参数集中选取所述目标环境对应的目标语音增强参数,所述语音增强参数集中包含有不同环境下的语音增强参数,所述语音增强参数用于增强不同环境下的语音识别准确率;
处理单元,用于根据所述目标语音增强参数,对所述语音数据进行语音增强处理,得到语音增强处理后的语音数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011153521.2A 2020-10-26 2020-10-26 语音增强方法、装置、计算机设备及存储介质 Active CN112151052B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011153521.2A CN112151052B (zh) 2020-10-26 2020-10-26 语音增强方法、装置、计算机设备及存储介质
PCT/CN2020/136364 WO2021189979A1 (zh) 2020-10-26 2020-12-15 语音增强方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011153521.2A CN112151052B (zh) 2020-10-26 2020-10-26 语音增强方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112151052A true CN112151052A (zh) 2020-12-29
CN112151052B CN112151052B (zh) 2024-06-25

Family

ID=73955013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011153521.2A Active CN112151052B (zh) 2020-10-26 2020-10-26 语音增强方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112151052B (zh)
WO (1) WO2021189979A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539262A (zh) * 2021-07-09 2021-10-22 广东金鸿星智能科技有限公司 一种用于电动门语音控制的声音增强及收录方法和***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114512136B (zh) * 2022-03-18 2023-09-26 北京百度网讯科技有限公司 模型训练、音频处理方法、装置、设备、存储介质及程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037177A (ja) * 2011-08-08 2013-02-21 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置とその方法とプログラム
CN103456305A (zh) * 2013-09-16 2013-12-18 东莞宇龙通信科技有限公司 终端和基于多个声音采集单元的语音处理方法
CN104575509A (zh) * 2014-12-29 2015-04-29 乐视致新电子科技(天津)有限公司 语音增强处理方法及装置
KR20190037867A (ko) * 2017-09-29 2019-04-08 주식회사 케이티 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램
CN110503974A (zh) * 2019-08-29 2019-11-26 泰康保险集团股份有限公司 对抗语音识别方法、装置、设备及计算机可读存储介质
CN111698629A (zh) * 2019-03-15 2020-09-22 北京小鸟听听科技有限公司 音频重放设备的校准方法、装置及计算机存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
CN101593522B (zh) * 2009-07-08 2011-09-14 清华大学 一种全频域数字助听方法和设备
CN101710490B (zh) * 2009-11-20 2012-01-04 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN110473568B (zh) * 2019-08-08 2022-01-07 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN110648680B (zh) * 2019-09-23 2024-05-14 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037177A (ja) * 2011-08-08 2013-02-21 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置とその方法とプログラム
CN103456305A (zh) * 2013-09-16 2013-12-18 东莞宇龙通信科技有限公司 终端和基于多个声音采集单元的语音处理方法
CN104575509A (zh) * 2014-12-29 2015-04-29 乐视致新电子科技(天津)有限公司 语音增强处理方法及装置
KR20190037867A (ko) * 2017-09-29 2019-04-08 주식회사 케이티 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램
CN111698629A (zh) * 2019-03-15 2020-09-22 北京小鸟听听科技有限公司 音频重放设备的校准方法、装置及计算机存储介质
CN110503974A (zh) * 2019-08-29 2019-11-26 泰康保险集团股份有限公司 对抗语音识别方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539262A (zh) * 2021-07-09 2021-10-22 广东金鸿星智能科技有限公司 一种用于电动门语音控制的声音增强及收录方法和***
CN113539262B (zh) * 2021-07-09 2023-08-22 广东金鸿星智能科技有限公司 一种用于电动门语音控制的声音增强及收录方法和***

Also Published As

Publication number Publication date
WO2021189979A1 (zh) 2021-09-30
CN112151052B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
CN110556103B (zh) 音频信号处理方法、装置、***、设备和存储介质
CN108281146B (zh) 一种短语音说话人识别方法和装置
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、***及装置
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
WO2018005858A1 (en) Speech recognition
CN108597505B (zh) 语音识别方法、装置及终端设备
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN109509465A (zh) 语音信号的处理方法、组件、设备及介质
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN111242005B (zh) 一种基于改进狼群算法优化支持向量机的心音分类方法
CN112151052B (zh) 语音增强方法、装置、计算机设备及存储介质
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
KR20170101500A (ko) 노이즈 제거를 통한 오디오 신호 식별 방법 및 장치
CN113077779A (zh) 一种降噪方法、装置、电子设备以及存储介质
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN114023336A (zh) 模型训练方法、装置、设备以及存储介质
CN114495903A (zh) 一种语言类别识别方法、装置、电子设备和存储介质
CN112201270B (zh) 语音噪声的处理方法、装置、计算机设备及存储介质
CN112530453A (zh) 一种适用于噪声环境下的语音识别方法及装置
CN116705013B (zh) 语音唤醒词的检测方法、装置、存储介质和电子设备
CN108922557A (zh) 一种聊天机器人的多人语音分离方法及***
CN113393858B (zh) 语音分离方法和***、电子设备及可读存储介质
CN115331673B (zh) 一种复杂声音场景下的声纹识别家电控制方法和装置
CN118135999A (zh) 基于边缘设备的离线语音关键词识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant