CN112652324A - 语音增强优化方法及语音增强优化***、可读存储介质 - Google Patents

语音增强优化方法及语音增强优化***、可读存储介质 Download PDF

Info

Publication number
CN112652324A
CN112652324A CN202011581295.8A CN202011581295A CN112652324A CN 112652324 A CN112652324 A CN 112652324A CN 202011581295 A CN202011581295 A CN 202011581295A CN 112652324 A CN112652324 A CN 112652324A
Authority
CN
China
Prior art keywords
processing
audio
tag
data information
voice detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011581295.8A
Other languages
English (en)
Inventor
萧博耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wondershare Software Co Ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN202011581295.8A priority Critical patent/CN112652324A/zh
Publication of CN112652324A publication Critical patent/CN112652324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种语音增强优化方法及语音增强优化***、可读存储介质。本申请的语音增强优化方法,包括:获取音频数据信息;对所述音频数据信息进行音频分离处理,以得到背景噪音段数据;对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;根据所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。本申请所提供的语音增强优化方法通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。

Description

语音增强优化方法及语音增强优化***、可读存储介质
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音增强优化方法及语音增强优化***、计算机可读存储介质。
背景技术
在相关技术中,由于录音环境、录音设备的影响导致语音录音中背景噪音,而背景噪音的存在容易影响使用者对语音录音的整体感知、理解程度。
例如,通过手动降噪的方式对语音录音中没有语音的背景噪音部份进行框选,并通过对背景噪音部份进行噪音特性估计以对语音录音进行手动降噪。然而,一般的噪音特性估计方式需要通过使用者手动对背景噪音提取,以对语音录音进行降噪处理。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种语音增强优化方法及语音增强优化***、可读存储介质,本申请所提供的语音增强优化方法通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。
本申请实施例第一方面提供一种语音增强优化方法,包括:
获取音频数据信息;
对所述音频数据信息进行音频分离处理,以得到背景噪音段数据;
对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;
根据所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。
本申请实施例中语音增强优化方法包括如下技术效果:通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。根据噪音频谱对整个音频数据信息进行降噪处理,以使得目标音频更加接近于纯净的无噪音录音,从而简化背景噪音段数据的提取步骤。
在一些实施例中,所述对所述音频数据信息进行音频分离处理,以得到所述背景噪音段数据,包括:
对所述音频数据信息进行初步检测处理,生成语音检测原始标签;
对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签;
对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;
对所述语音检测扩展标签进行反向侦测处理,生成背景音标签;
根据所述背景音标签对所述音频数据信息进行音频分离处理得到所述背景噪音段数据。在一些实施例中,所述对所述音频数据信息进行初步检测处理,生成语音检测原始标签,还包括:
对所述音频数据信息进行分帧处理、加窗处理,得到音频子数据信息;对所述音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜;根据预设阈值、所述音频对数倒頻譜,生成所述语音检测原始标签。
在一些实施例中,所述对所述音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜,还包括:
对所述音频子数据信息进行傅里叶变换处理、平方处理,并得到第一变换数据;对所述第一变换数据进行对数处理、逆傅里叶变换处理,并得到第二变换数据;对所述第二变换数据进行平方处理、倒数处理得到所述音频对数倒頻譜。
在一些实施例中,所述对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签,还包括:
根据预设时间间隔阈值对所述语音检测原始标签进行保持时间处理,以生成至少一个连续的所述语音检测处理标签。
在一些实施例中,所述对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签,还包括:
根据预设的宽容时间长度对所述语音检测处理标签进行侦测确保处理,以延长所述对所述语音检测处理标签的范围,并生成所述语音检测扩展标签。
在一些实施例中,所述对所述语音检测扩展标签进行反向侦测处理,生成背景音标签,包括:
对所述语音检测扩展标签进行反向转换处理,以生成所述背景音标签。
本申请实施例第二方面提供一种语音增强优化***,包括:
语音获取模块,用于获取音频数据信息;
噪音分离模块,用于对所述音频数据信息进行音频分离处理,以得到所述背景噪音段数据;
频谱估计模块,用于对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;
降噪模块,用于对所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。
在一些实施例中,所述噪音分离模块,还包括:
初步检测模块,用于对所述音频数据信息进行初步检测处理,生成语音检测原始标签;
保持时间模块,用于对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签;
侦测确保模块,用于对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;
反向侦测模块,对所述语音检测扩展标签进行反向侦测处理,生成背景音标签;
音频分离模块,用于根据所述背景音标签对所述音频数据信息进行音频分离处理得到所述背景噪音段数据。
本申请实施例第三方面提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于:执行上述任一实施例中的语音增强优化方法。
计算机可读存储介质通过自动执行上述任一实施例中的语音增强优化方法,以简化背景噪音段数据的提取步骤,使得使用者可以简便地提取音频数据信息中的背景噪音段数据。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显。
附图说明
下面结合附图和实施例对本申请做进一步的说明,其中:
图1为本申请一实施例一种语音增强优化方法的流程图;
图2为本申请又一实施例一种语音增强优化方法的流程图;
图3A至图3E为本申请再一实施例的语音增强优化方法的时序波形图;
图4为本申请又一实施例一种语音增强优化方法的流程图;
图5A至图5B为本申请还一实施例一种音频数据信息的波形图;
图6为本申请还一实施例一种语音增强优化方法的流程图;
图7A至图7D为本申请还一实施例一种噪音估计频谱的比较示意图;
图8为本申请提供的一种语音增强优化***的框架示意图;
图9为本申请提供的一种音频分离模块的框架示意图。
附图标记:100、语音获取模块;200、噪音分离模块;300、频谱估计模块;400、降噪模块;210、初步检测模块;220、保持时间模块;230、侦测确保模块;240、反向侦测模块;250、音频分离模块。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本申请的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请中的具体含义。
本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在相关技术中,由于录音环境、录音设备的影响导致语音录音中存在背景噪音,而背景噪音造成使用者无法正确理解、感知语音录音。
例如,通过手动降噪调试程序的方式对语音录音中没有语音的背景噪音部份进行框选,并通过对背景噪音部份进行噪音特性估计,以对语音录音进行手动降噪。然而,一般的噪音特性估计方式对背景噪音的估计精度较低,导致无法对语音录音进行降噪处理。
且一般的噪音特性估计方式为通过手动逐步操作,以完成整个噪音特性估计流程。
基于上述技术问题,本申请提供一种语音增强优化方法,通过自动获取背景噪音段数据并进行频谱特性估计处理以得到噪音频谱,从而对音频数据信息进行降噪处理。
请参照图1,本申请实施例提供一种语音增强优化方法,包括:步骤S100、获取音频数据信息;步骤S200、对音频数据信息进行音频分离处理,以得到背景噪音段数据;步骤S300、对背景噪音段数据进行频谱特性估计处理,得到噪音频谱;步骤S400、根据噪音频谱对音频数据信息进行降噪处理,得到目标音频。
音频数据信息包括背景噪音段数据、语音段数据(语音段数据由目标录音、背景噪音的叠加得到)。通过获取音频数据信息并对音频数据信息进行音频分离,以得到背景噪音段数据。通过对背景噪音段数据进行频谱特性估计处理,以得到噪音频谱。根据预设降噪算法、噪音频谱对音频数据信息进行降噪处理,以得到目标音频,从而使得降噪后得到的目标音频中的噪音成分减少。
可以理解的是,通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。根据噪音频谱对整个音频数据信息进行降噪处理,以使得目标音频更加接近于纯净的无噪音录音。
请参照图2、图3A至图3E,在一些实施例,步骤S200、对音频数据信息进行音频分离处理,以得到背景噪音段数据,包括:步骤S210、对音频数据信息(wave form)进行初步检测处理,生成语音检测原始标签speech detection raw tag;步骤S220、对语音检测原始标签进行保持时间处理,生成语音检测处理标签speech detection processed tag;步骤S230、对语音检测处理标签进行侦测确保处理,生成语音检测扩展标签speech detectionextended tag;步骤S240、对语音检测扩展标签进行反向侦测处理,生成背景音标签non-speech(background noise)tag;步骤S250、根据背景音标签对音频数据信息进行音频分离处理得到背景噪音段数据。
图3A为音频数据信息(wave form)的波形图;图3B为语音检测原始标签speechdetection raw tag的示意图;图3C为语音检测处理标签speech detection processedtag的示意图;图3D为语音检测扩展标签speech detection extended tag的示意图;图3E为背景音标签non-speech(background noise)tag的示意图。
如图3A、图3B所示,通过对音频数据信息进行初步检测处理,以得到与语音段数据对应的语音检测原始标签speech detection raw tag。其中,语音检测原始标签包括多个语音检测原始子标签,且每一个语音检测原始子标签与语音段数据中子帧数据相对应。可以理解的是,语音段数据中目标录音包括多个波峰,每一个语音检测原始子标签与一个波峰相对应,且相邻两个语音检测原始子标签之间可能存在时间较短的噪音段。
如图3C所示,通过对语音检测原始标签进行保持时间处理,以根据语音检测原始标签speech detection raw tag的位置对音频数据信息进行区域性标记,并生成对应的语音检测处理标签speech detection processed tag。
如图3D所示,进一步地,为了保证语音检测处理标签speech detectionprocessed tag的标记区域内已包括所语音段数据,通过对语音检测处理标签speechdetection processed tag进行侦测确保处理,以增大标记范围。可以理解的是,通过增加语音检测处理标签speech detection processed tag的宽容度,并生成对应的语音检测扩展标签speech detection extended tag。
如图3E所示,进一步地,通过对语音检测扩展标签speech detection extendedtag进行反向侦测处理,以得到用于框选背景噪音段数据的背景标签non-speech(background noise)tag。通过对语音检测扩展标签speech detection extended tag进行反向侦测处理得到的背景标签speech detection extended tag可以精确地框选出音频数据信息中的背景噪音段数据。
请参照图4、在一些实施例,步骤S210、对音频数据信息进行初步检测处理,生成语音检测原始标签,还包括:步骤S211、对音频数据信息进行分帧处理、加窗处理,得到音频子数据信息;步骤S212、对音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜;步骤S213、根据预设阈值、音频对数倒頻譜,生成语音检测原始标签。
通过对音频数据信息进行分帧处理以分割成多个音频数据子片段,并对多个音频数据子片段进行加窗处理,从而使得多个音频数据子片段相对连续,避免出现吉布斯效应。且加窗处理后得到的音频子数据信息呈现出周期函数的部分特征。
通过对音频子数据信息进行对数倒頻譜处理,以得到音频对数倒頻譜。根据预设阈值、音频对数倒頻譜中峰值对音频数据信息进行标注,并得到对应语音检测原始标签。
请一并参照图5A、图5B,在音频对数倒頻譜中,语音段数据倒谱具有至少一个峰值大于预设阈值的波峰peak,而背景噪音段数据对应的倒谱波峰均小于预设阈值。横坐标为频率区bins,单位为Hz;纵坐标为量级magnitude,单位为dB。
图5A为背景噪音段数据所对应的音频对数倒頻譜,图5B为语音段数据所对应的音频对数倒頻譜。如图5A、图5B所示,音频对数倒頻譜中存在有大于预设阈值的波峰peak,而背景噪音段数据所对应的音频对数倒頻譜中的峰值均小于预设阈值。
请参照图6、在一些实施例,步骤S300、对音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜,还包括:步骤S310、对音频子数据信息进行傅里叶变换处理、平方处理,并得到第一变换数据;步骤S320、对第一变换数据进行对数处理、逆傅里叶变换处理,并得到第二变换数据;步骤S330、对第二变换数据进行平方处理、倒数处理得到音频对数倒頻譜。
通过对音频数据信息中的音频子数据信息进行对数倒頻譜处理,以计算得到音频对数倒頻譜。其中,具体计算公式如下:
logcepstrum=log(|F-1{log(|F{x(n)}|2)}|2)
其中,x(n)是音频子数据信息或音频数据信息;F是傅里叶变换;F-1是傅里叶变换。
通过对音频子数据信息x(n)进行傅里叶变换处理、平方处理,并得到第一变换数据|F{x(n)}|2;通过对第一变换数据|F{x(n)}|2进行对数处理、逆傅里叶变换处理,并得到第二变换数据F-1{log(|F{x(n)}|2)}|。通过对第二变换数据F-1{log(|F{x(n)}|2)}|进行平方处理、倒数处理得到音频对数倒頻譜logcepstrum。具体地,通过对第二变换数据F-1{log(|F{x(n)}|2)}|进行平方处理得到音频倒频谱cepstrum,,并通过对音频倒频谱cepstrum进行倒数处理(对音频倒频谱cepstrum进行对数取值)得到音频对数倒頻譜logcepstrum。可以理解的是,通过音频子数据信息进行倒頻譜处理,以得到音频倒頻譜cepstrum,,并对音频倒頻譜cepstrum进行对数处理得到音频对数倒頻譜logcepstrum。
通过音频对数倒頻譜logcepstrum、预设阈值threshold对音频数据信息进行标注,并得到对应语音检测原始标签。
在一些变更实施例中,通过short-term power、teager energy operator、zerocrossing rate等方法对音频子数据信息进行初步检测处理,生成语音检测原始标签。
可以理解的是,根据具体的应用场景,可选择地使用不同的语音识别方式,以对音频子数据信息进行音频检测,并生成对应的语音检测原始标签。
在一些实施例,对语音检测原始标签进行保持时间处理,生成语音检测处理标签,还包括:根据预设时间间隔阈值对语音检测原始标签进行保持时间处理,以生成至少一个连续的语音检测处理标签。
根据保持时间值对语音检测原始标签进行保持时间处理,以使得离散化的语音检测原始标签转换为连续化的语音检测处理标签。
进一步地,预设时间间隔阈值holding time,当相邻两个语音检测原始标签的时间间隔小于时间间隔阈值holding time,则将相邻两个语音检测原始标签进行连接处理以得到连续的语音检测处理标签。
例如,将时间间隔阈值holding time设定为1.6秒,当相邻两个语音检测原始标签的时间间隔小于1.6秒时,则将相邻两个语音检测原始标签进行联立,并得到对应的语音检测处理标签。
在一些实施例,对语音检测处理标签进行侦测确保处理,生成语音检测扩展标签,还包括:根据预设的宽容时间长度对语音检测处理标签进行侦测确保处理,以延长对语音检测处理标签的范围,并生成语音检测扩展标签。
通过设置宽容时间对语音检测处理标签进行侦测确保处理,以对语音检测处理标签的标注范围进行延伸,从而确保语音检测处理标签的标注范围可包含所有语音段数据(非背景噪音段数据)。
例如,宽容时间被设置为0.8秒,则对语音检测处理标签的前边界、后边界分别进行延伸,并对延伸后的范围进行标记,得到对应的语音检测扩展标签。
可以理解的是,通过对语音检测处理标签的标注范围进行延伸,以提高标签的标注范围精度。
在一些实施例,对语音检测扩展标签进行反向侦测处理,生成背景音标签,包括:对语音检测扩展标签进行反向转换,以生成背景音标签。
通过语音检测扩展标签进行反向转换,以获得用于标注背景噪音段数据的背景标签。通过背景标签对音频数据信息的背景噪音段数据进行范围标注,从而准确地提取音频数据信息中的背景噪音段数据。
通过以下公式对语音检测扩展标签反向转换,以得到背景音标签,具体如下:
non-speech(background noise)tag=1-speech detection extended tag
其中,non-speech(background noise)tag为背景音标签;speech detectionextended tag为语音检测扩展标签。
请参照图7A至图7D,图7A至图7D的横坐标为频率(单位为Hz),纵坐标为噪音等级(单位为dB)。
图7A、图7B为在不同信噪比下的粉红噪音的噪音频谱估计对比图,如图所示,在不同信噪比下,通过本实施例提供的音频分离处理方法均可获得与实际噪音频谱高度接近的噪音估计频谱。
图7C、图7D为在不同信噪比下的公共噪音的噪音频谱估计对比图,如图所示,在不同信噪比下,通过本实施例提供的音频分离处理方法均可获得与实际噪音频谱高度接近的噪音估计频谱。
结合图7A至图7D,对于不同的信噪比、噪音类型,通过本申请提供音频分离处理步骤均可获得与实际噪音频谱高度接近的噪音估计频谱,从而实现较优的降噪处理。
请参照图8,本申请还提供了一种语音增强优化***用于执行上述语音增强优化方法,包括:语音获取模块100,用于获取音频数据信息;噪音分离模块200,用于对音频数据信息进行音频分离处理,以得到背景噪音段数据;频谱估计模块300,用于对背景噪音段数据进行频谱特性估计处理,得到噪音频谱;降噪模块400,用于对噪音频谱对音频数据信息进行降噪处理,得到目标音频。
噪音分离模块200通过对音频数据信息进行音频分离处理得到背景噪音段数据;通过频谱估计模块300对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。降噪模块400根据噪音频谱对整个音频数据信息进行降噪处理,以得到接近于没有背景噪音的目标语音音频。
本申请实施例提供的语音增强优化***通过侦测带有语音的语音段数据,并根据语音段数据从音频数据信息中分离出背景噪音段数据。通过分离得到的背景噪音段数据进行最佳化背景噪音预估,从而得到精准的噪音频谱,并通过噪音频谱对整个音频数据信息进行降噪处理。相对于使用者通过手动匡选背景噪音部份以噪音预估,本申请提供的语音增强优化***通过自主执行预设算法,以简化使用者的操作流程。
请参照图9,在一些实施例,噪音分离模块200,还包括:初步检测模块210,用于对音频数据信息进行初步检测处理,生成语音检测原始标签;保持时间模块220,用于对语音检测原始标签进行保持时间处理,生成语音检测处理标签;侦测确保模块230,用于对语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;反向侦测模块240,对语音检测扩展标签进行反向侦测处理,生成背景音标签;音频分离模块250,用于根据背景音标签对音频数据信息进行音频分离处理得到背景噪音段数据。
通过初步检测模块210对音频数据信息进行初步检测处理,以得到与语音段数据对应的语音检测原始标签。其中,语音检测原始标签包括多个语音检测原始子标签,且每一个语音检测原始子标签与语音段数据中子帧数据相对应。
通过保持时间模块220对语音检测原始标签进行保持时间处理,以根据语音检测原始标签的位置对音频数据信息进行区域性标记,并生成对应的语音检测处理标签。
进一步地,为了避免语音检测处理标签的标记区域内未对所有非背景噪音段数据进行标记,通过侦测确保模块230对语音检测处理标签进行侦测确保处理,以增大标记范围。可以理解的是,通过增加语音检测处理标签的宽容度,并生成对应的语音检测扩展标签。
进一步地,通过反向侦测模块240对语音检测扩展标签进行反向侦测处理,以得到用于框选背景噪音段数据的背景标签。通过音频分离模块250对语音检测扩展标签进行反向侦测处理得到的背景标签可以精确地框选出音频数据信息中的背景噪音段数据。
在一些实施例,计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于:执行权利要求上述任一实施例中的语音增强优化方法。
通过快速执行实施例中的语音增强优化方法,以对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,并得到用于表征噪音分布特征的噪音频谱,从而对整个音频数据信息进行降噪处理,使得目标音频更加接近于纯净的无噪音录音。
通过计算机可读存储介质快速执行计算机可读存储介质。以有效地简化用户的操作步骤,并达到快速增强/降噪语音的技术效果。
上面结合附图对本申请实施例作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。此外,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

Claims (10)

1.语音增强优化方法,其特征在于,包括:
获取音频数据信息;
对所述音频数据信息进行音频分离处理,以得到背景噪音段数据;
对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;
根据所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。
2.根据权利要求1所述的语音增强优化方法,其特征在于,所述对所述音频数据信息进行音频分离处理,以得到所述背景噪音段数据,包括:
对所述音频数据信息进行初步检测处理,生成语音检测原始标签;
对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签;
对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;
对所述语音检测扩展标签进行反向侦测处理,生成背景音标签;
根据所述背景音标签对所述音频数据信息进行音频分离处理得到所述背景噪音段数据。
3.根据权利要求2所述的语音增强优化方法,其特征在于,所述对所述音频数据信息进行初步检测处理,生成语音检测原始标签,还包括:
对所述音频数据信息进行分帧处理、加窗处理,得到音频子数据信息;
对所述音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜;
根据预设阈值、所述音频对数倒頻譜,生成所述语音检测原始标签。
4.根据权利要求3所述的语音增强优化方法,其特征在于,所述对所述音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜,还包括:
对所述音频子数据信息进行傅里叶变换处理、平方处理,并得到第一变换数据;
对所述第一变换数据进行对数处理、逆傅里叶变换处理,并得到第二变换数据;
对所述第二变换数据进行平方处理、倒数处理得到所述音频对数倒頻譜。
5.根据权利要求2所述的语音增强优化方法,其特征在于,所述对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签,还包括:
根据预设时间间隔阈值对所述语音检测原始标签进行保持时间处理,以生成至少一个连续的所述语音检测处理标签。
6.根据权利要求2所述的语音增强优化方法,其特征在于,所述对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签,还包括:
根据预设的宽容时间长度对所述语音检测处理标签进行侦测确保处理,以延长所述对所述语音检测处理标签的范围,并生成所述语音检测扩展标签。
7.根据权利要求2所述的语音增强优化方法,其特征在于,所述对所述语音检测扩展标签进行反向侦测处理,生成背景音标签,包括:
对所述语音检测扩展标签进行反向转换处理,以生成所述背景音标签。
8.语音增强优化***,其特征在于,包括:
语音获取模块,用于获取音频数据信息;
噪音分离模块,用于对所述音频数据信息进行音频分离处理,以得到背景噪音段数据;
频谱估计模块,用于对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;
降噪模块,用于对所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。
9.根据权利要求8所述的语音增强优化***,其特征在于,所述噪音分离模块,还包括:
初步检测模块,用于对所述音频数据信息进行初步检测处理,生成语音检测原始标签;
保持时间模块,用于对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签;
侦测确保模块,用于对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;
反向侦测模块,对所述语音检测扩展标签进行反向侦测处理,生成背景音标签;
音频分离模块,用于根据所述背景音标签对所述音频数据信息进行音频分离处理得到所述背景噪音段数据。
10.计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于:执行权利要求1至7中任一项所述的语音增强优化方法。
CN202011581295.8A 2020-12-28 2020-12-28 语音增强优化方法及语音增强优化***、可读存储介质 Pending CN112652324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581295.8A CN112652324A (zh) 2020-12-28 2020-12-28 语音增强优化方法及语音增强优化***、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581295.8A CN112652324A (zh) 2020-12-28 2020-12-28 语音增强优化方法及语音增强优化***、可读存储介质

Publications (1)

Publication Number Publication Date
CN112652324A true CN112652324A (zh) 2021-04-13

Family

ID=75363547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581295.8A Pending CN112652324A (zh) 2020-12-28 2020-12-28 语音增强优化方法及语音增强优化***、可读存储介质

Country Status (1)

Country Link
CN (1) CN112652324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550595A (zh) * 2021-06-30 2022-12-30 Oppo广东移动通信有限公司 线上会议实现方法、装置、设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750124A (zh) * 2004-09-17 2006-03-22 哈曼贝克自动***股份有限公司 带限音频信号的带宽扩展
CN101645265A (zh) * 2008-08-05 2010-02-10 中兴通讯股份有限公司 一种音频类别的实时识别方法及装置
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108806725A (zh) * 2018-06-04 2018-11-13 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108877778A (zh) * 2018-06-13 2018-11-23 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN110364168A (zh) * 2019-07-22 2019-10-22 南京拓灵智能科技有限公司 一种基于环境感知的声纹识别方法及***
CN110706694A (zh) * 2019-09-26 2020-01-17 成都数之联科技有限公司 一种基于深度学习的语音端点检测方法及***
CN111627457A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音分离方法、***及计算机可读存储介质
CN112002339A (zh) * 2020-07-22 2020-11-27 海尔优家智能科技(北京)有限公司 语音降噪方法和装置、计算机可读的存储介质及电子装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750124A (zh) * 2004-09-17 2006-03-22 哈曼贝克自动***股份有限公司 带限音频信号的带宽扩展
CN101645265A (zh) * 2008-08-05 2010-02-10 中兴通讯股份有限公司 一种音频类别的实时识别方法及装置
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108806725A (zh) * 2018-06-04 2018-11-13 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108877778A (zh) * 2018-06-13 2018-11-23 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN109036471A (zh) * 2018-08-20 2018-12-18 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN110364168A (zh) * 2019-07-22 2019-10-22 南京拓灵智能科技有限公司 一种基于环境感知的声纹识别方法及***
CN110706694A (zh) * 2019-09-26 2020-01-17 成都数之联科技有限公司 一种基于深度学习的语音端点检测方法及***
CN111627457A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音分离方法、***及计算机可读存储介质
CN112002339A (zh) * 2020-07-22 2020-11-27 海尔优家智能科技(北京)有限公司 语音降噪方法和装置、计算机可读的存储介质及电子装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何伟俊 贺前华 刘杨: "基于子带保留似然比的鲁邦语音激活检测算法", 华中科技大学学报(自然科学版), vol. 43, no. 11, 30 November 2015 (2015-11-30), pages 79 *
姜囡: "语音信号识别技术与实践", 31 December 2019, 东北大学出版社, pages: 24 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550595A (zh) * 2021-06-30 2022-12-30 Oppo广东移动通信有限公司 线上会议实现方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110197670B (zh) 音频降噪方法、装置及电子设备
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
US20160284344A1 (en) Speech data recognition method, apparatus, and server for distinguishing regional accent
EP3696814A1 (en) Speech enhancement method and apparatus, device and storage medium
EP2407960B1 (en) Audio signal detection method and apparatus
US20070192088A1 (en) Formant frequency estimation method, apparatus, and medium in speech recognition
JP5530812B2 (ja) 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム
JP2009251134A (ja) 音声/非音声を判定する装置、方法およびプログラム
US20140064558A1 (en) Object tracking apparatus and method and camera
US20100138220A1 (en) Computer-readable medium for recording audio signal processing estimating program and audio signal processing estimating device
CN112652324A (zh) 语音增强优化方法及语音增强优化***、可读存储介质
US20190057705A1 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
US7792669B2 (en) Voicing estimation method and apparatus for speech recognition by using local spectral information
US20140111701A1 (en) Audio Data Spread Spectrum Embedding and Detection
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
US11308970B2 (en) Voice correction apparatus and voice correction method
CN112016387A (zh) 适用于毫米波安检仪的违禁品识别方法和装置
CN116796130A (zh) 桥梁振动低频重构去噪方法、***、计算机及存储介质
US9742554B2 (en) Systems and methods for detecting a synchronization code word
CN111259926A (zh) 肉品新鲜度检测方法、装置、计算设备和存储介质
CN112562647B (zh) 一种音频起始点的标注方法及装置
CN111898531B (zh) 卫星通信信号识别方法、装置及电子设备
CN111681671B (zh) 异常音识别方法、装置及计算机存储介质
CN111613250B (zh) 长语音端点检测方法与装置、存储介质、电子设备
KR101490636B1 (ko) 유도전동기의 결함 분류 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination