CN113409802B - 语音信号的增强处理方法、装置、设备及存储介质 - Google Patents

语音信号的增强处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113409802B
CN113409802B CN202011180004.4A CN202011180004A CN113409802B CN 113409802 B CN113409802 B CN 113409802B CN 202011180004 A CN202011180004 A CN 202011180004A CN 113409802 B CN113409802 B CN 113409802B
Authority
CN
China
Prior art keywords
signal
enhancement
speech
voice
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011180004.4A
Other languages
English (en)
Other versions
CN113409802A (zh
Inventor
鲍枫
李岳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011180004.4A priority Critical patent/CN113409802B/zh
Publication of CN113409802A publication Critical patent/CN113409802A/zh
Application granted granted Critical
Publication of CN113409802B publication Critical patent/CN113409802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种语音信号的增强处理方法、装置、设备及存储介质,属于音视频技术领域。所述方法包括:获取目标语音信号;采用参考语音增强方式对目标语音信号进行增强处理,得到参考增强信号;根据参考增强信号,确定目标语音增强方式;采用目标语音增强方式对目标语音信号进行增强处理。本申请实施例提供的技术方案实现了结合语音信号的信号特点有针对性地确定实际采用的语音增强方式,相比于相关技术采用固定的语音增强方式无法做到针对语音信号的不同情况做出区别处理,本申请实施例在语音信号增强的过程中,充分考虑语音信号的信号特点,有助于准确有效地增强语音信号,提升语音信号的增强效果。

Description

语音信号的增强处理方法、装置、设备及存储介质
技术领域
本申请实施例涉及音视频技术领域,特别涉及一种语音信号的增强处理方法、装置、设备及存储介质。
背景技术
人们在工作、生活、娱乐等情景中,常常会获取到大量的语音信号。例如,在远程会议、视频电话、演唱会直播等情景中均涉及语音信号。
虽然语音信号呈现爆发式增长,成为人们工作生活中不可小觑的一个组成部分,但是来源各异、种类繁多的语音信号的质量却参差不齐,绝大部分语音信号中均包含噪声。为了抑制语音信号中的噪声、增强语音信号中的有用信号,可以对语音信号进行增强。相关技术中,针对语音信号的增强方式包括宽带增强方式和超宽带增强方式,其中,宽带增强方式可以较好地增强低频信号,一般用于增强带宽为0至8KHz(Kilo Hertz,千赫兹)的语音信号;超宽带增强方式可以较好地增强高频信号,一般用于增强带宽为8至16KHz的语音信号。因此,在某一语音信号既包括低频信号部分也包括高频信号部分,即语音信号的带宽为0至16KHz的情况下,相关技术针对该语音信号采用的增强方式为:带宽为0至8KHz的低频信号部分采用宽带增强方式,带宽为8至16KHz的高频信号部分采用超宽带增强方式。
然而,假设某一语音信号的低频信号部分中的有用信号几乎淹没在噪声中,此时将难以准确有效地识别有用信号和噪声。若采用相关技术中的语音增强方式,即直接对该低频信号部分采用宽带增强方式,很可能导致将噪声误作为有用信号而对噪声进行了增强,从而将违背抑制噪声、增强有用信号的目的,不利于准确有效地增强语音信号。
发明内容
本申请实施例提供了一种语音信号的增强处理方法、装置、设备及存储介质,能够准确有效地增强语音信号,提升语音信号的增强效果。所述技术方案如下:
一方面,本申请实施例提供一种语音信号的增强处理方法,所述方法包括:
获取目标语音信号;
采用参考语音增强方式对所述目标语音信号进行增强处理,得到参考增强信号;
根据所述参考增强信号,确定目标语音增强方式;
采用所述目标语音增强方式对所述目标语音信号进行增强处理。
另一方面,本申请实施例提供一种语音信号的增强处理装置,所述装置包括:
语音信号获取模块,用于获取目标语音信号;
参考信号确定模块,用于采用参考语音增强方式对所述目标语音信号进行增强处理,得到参考增强信号;
增强方式确定模块,用于根据所述参考增强信号,确定目标语音增强方式;
语音信号增强模块,用于采用所述目标语音增强方式对所述目标语音信号进行增强处理。
再一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述语音信号的增强处理方法。
又一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述语音信号的增强处理方法。
还一方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语音信号的增强处理方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过在获取到语音信号后,采用参考的语音增强方式对该语音信号进行增强处理,得到参考增强信号,再基于参考增强信号进一步确定实际增强处理时采用的语音增强方式,之后再采用确定出的实际采用的语音增强方式对该语音信号进行增强处理。由于参考增强信号可以反映初始获取的语音信号的信号特点,如反映该语音信号是否为明显的噪声居多的信号等,从而根据参考增强信号可以实现结合语音信号的信号特点有针对性地确定实际采用的语音增强方式。相比于相关技术采用固定的语音增强方式无法做到针对语音信号的不同情况做出区别处理,本申请实施例在语音信号增强的过程中,充分考虑语音信号的信号特点,有助于准确有效地增强语音信号,提升语音信号的增强效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用场景的示意图;
图2是本申请一个实施例提供的语音信号的增强处理方法的流程图;
图3是本申请一个实施例提供的语音信号的增强处理方法的示意图;
图4是本申请一个实施例提供的语音增强效果的示意图;
图5是本申请一个实施例提供的语音信号的增强处理装置的框图;
图6是本申请另一个实施例提供的语音信号的增强处理装置的框图;
图7是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的技术方案,适用于任何具有增强语音信号需求的业务场景中,如语音会议、视频会议、语音录制、视频录制等业务场景。
请参考图1,其示出了本申请一个实施例提供的应用场景的示意图。该应用场景可以实现成为云视频会议***,该云视频会议***是基于云技术的视频会议平台。
云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是指基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
如图1所示,该云视频会议***可以包括:终端10和服务器20。
终端10的数量可以是一个或多个。终端10可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端10与服务器20之间可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不做限定。
在一个示例中,终端10中安装运行有目标应用程序的客户端,如该目标应用程序可以是提供视频会议功能的应用程序。服务器20可以是该目标应用程序的后台服务器,用于为该目标应用程序的客户端提供后台服务。
本申请实施例提供的语音信号的增强处理方法,各步骤的执行主体可以是终端10,如终端10中安装运行的目标应用程序的客户端,也可以是服务器20,或者由终端10和服务器20交互配合执行,即将方法的一部分步骤交由终端10执行而另一部分步骤则交由服务器20执行。
为了便于说明,在下文介绍的语音信号的增强处理方法的实施例中,仅以各步骤的执行主体为计算机设备进行介绍说明,该计算机设备是指具备数据计算、处理和存储能力的电子设备,如终端10或服务器20等设备,本申请实施例对此不做限定。
请参考图2,其示出了本申请一个实施例提供的语音信号的增强处理方法的流程图。该方法可应用于计算机设备中,如上述终端10或服务器20等设备中。该方法可以包括如下几个步骤(步骤210~240):
步骤210,获取目标语音信号。
目标语音信号是指需要进行噪声抑制或有用信号增强的语音信号,其可以是由音频采集设备(如麦克风)在真实环境中采集的语音信号,本申请实施例中,计算机设备可以获取音频采集设备采集的语音信号。通常,目标语音信号中包含噪声,可选地,该噪声可以是环境噪声、啸叫等噪声,本申请实施例对噪声的种类不作限定。例如,在云视频会议场景中,麦克风采集参会者在发言时产生的语音信号,同时,麦克风还可能由于环境、设备等原因采集到噪声信号,在这种情况下,麦克风采集的噪声信号和参会者发言时产生的语音信号共同构成了目标语音信号。
在一个示例中,目标语音信号包括超宽带语音信号。例如,在云视频会议场景中,麦克风以32KHz的采样频率进行采集得到的目标语音信号,该目标语音信号的带宽为0至16KHz。需要说明的一点是,随着技术的演进,超宽带语音信号可能具有更大的带宽,或者,更大带宽的语音信号对应的名称可能会有所变化,应理解,这些均应属于本申请的保护范围之内。
步骤220,采用参考语音增强方式对目标语音信号进行增强处理,得到参考增强信号。
由上述背景技术的介绍说明可知,针对某一语音信号,相关技术采用固定的语音增强方式对该语音信号进行增强,例如,在语音信号为超宽带语音信号的情况下,相关技术对该语音信号的增强方式包括:对该语音信号的低频信号部分采用宽带增强方式,以及对该语音信号的高频信号部分采用超宽带增强方式。然而,这种固定的语音增强方式无法做到针对语音信号的不同情况做出区别处理,从而不利于准确有效地增强语音信号。
基于此,本申请实施例中,计算机设备在获取到目标语音信号之后,并非直接对该目标语音信号进行增强并输出增强后的语音信号,而是先采用参考语音增强方式对该目标语音信号进行增强处理,得到参考增强信号,再基于参考增强信号进一步确定实际增强处理时采用的语音增强方式,即目标语音增强方式,之后再采用目标语音增强方式对目标语音信号进行增强处理。由于参考增强信号可以反映目标语音信号的信号特点,从而根据参考增强信号可以有针对性地确定目标语音增强方式,在目标语音信号增强的过程中,充分考虑目标语音信号的信号特点,有助于准确有效地增强目标语音信号,提升目标语音信号的增强效果。
本申请实施例对参考语音增强方式的种类不作限定,可选地,参考语音方式包括宽带增强方式,如采样率为16KHz的语音增强方式;或者,参考语音增强方式包括超宽带增强方式,如采样率为32KHz的语音增强方式;或者,参考语音增强方式包括宽带增强方式和超宽带增强方式。本申请实施例对参考语音增强方式的具体内容不作限定,可选地,参考语音增强方式包括以下至少一项:采样率为16KHz的LSTM(Long Short-Term Memory,长短期记忆网络)、采样率为32KHz的LSTM、采样率为16KHz的GRU(Gated Recurrent Unit,门控循环单元)、采样率为32KHz的GRU。有关参考增强方式、通过参考增强方式对目标语音信号进行增强处理得到参考增强信号等的其它介绍说明,请参见下述方法实施例,此处不多赘述。
步骤230,根据参考增强信号,确定目标语音增强方式。
计算机设备根据获取到的参考增强信号,可以进一步确定目标语音信号的信号特点,并根据目标语音信号的信号特点确定目标语音增强方式。例如,在参考增强方式包括宽带增强方式的情况下,计算机设备通过宽带增强方式对目标语音信号进行增强处理得到参考增强信号,然后通过对参考增强信号进一步处理确定参考增强信号的音高较小,则确定目标语音信号的低频部分中有用信号淹没在噪声中,计算机设备应当避免采用宽带增强方式对目标语音信号的低频部分进行增强处理,以避免对低频部分中的噪声进行增强而违背噪声抑制的目的,此时,计算机设备可以采用超宽带增强方式对低频部分进行增强。有关计算机设备如何根据参考增强信号确定目标语音增强方式的其它介绍说明,请参见下述方法实施例,此处不多赘述。
步骤240,采用目标语音增强方式对目标语音信号进行增强处理。
目标语音增强方式即为针对目标语音信号进行增强处理时实际采用的增强方式。可选地,目标语音增强方式既可以为单个增强方式,如超宽带增强方式;也可以为多种增强方式的融合,如针对目标语音信号中的低频信号部分采用宽带增强方式、针对目标语音信号中的高频信号部分采用超宽带增强方式,本申请实施例对目标语音增强方式的具体内容不作限定。计算机设备确定目标语音增强方式之后,按照目标语音增强方式对目标语音信号进行增强处理,即可得到增强处理后的语音信号。可选地,计算机设备可以将增强处理后的语音信号发送至音频输出设备(如扬声器)以便于音频输出设备输出增强处理后的语音信号,提升语音信号的信号质量。
综上所述,本申请实施例提供的技术方案,通过在获取到语音信号后,采用参考的语音增强方式对该语音信号进行增强处理,得到参考增强信号,再基于参考增强信号进一步确定实际增强处理时采用的语音增强方式,之后再采用确定出的实际采用的语音增强方式对该语音信号进行增强处理。由于参考增强信号可以反映初始获取的语音信号的信号特点,如反映该语音信号是否为明显的噪声居多的信号等,从而根据参考增强信号可以实现结合语音信号的信号特点有针对性地确定实际采用的语音增强方式。相比于相关技术采用固定的语音增强方式无法做到针对语音信号的不同情况做出区别处理,本申请实施例在语音信号增强的过程中,充分考虑语音信号的信号特点,有助于准确有效地增强语音信号,提升语音信号的增强效果。
在一个示例中,上述参考语音增强方式包括第一语音增强方式和第二语音增强方式。
由于语音增强方式的种类多种多样,计算机设备可以分别基于多种语音增强方式对目标语音信号进行处理以得到参考增强信号,然后基于得到的参考增强信号进行处理来确定实际采用的语音增强方式,即目标语音增强方式。为了能够使得参考增强信号之间形成有效的对比,本申请实施例中,计算机设备可以基于不同采样率的语音增强方式对目标语音信号进行增强处理,得到参考增强信号。基于此,参考语音增强方式可以包括第一语音增强方式和第二语音增强方式,其中,第二语音增强方式的采样率小于第一语音增强方式的采样率。可选地,第二语音增强方式的采样率为第一语音增强信号的采样率的二分之一。示例性地,第二语音增强方式为宽带语音增强方式,采样率为16KHz,例如,第二语音增强方式包括基于采样率为16KHz的LSTM进行语音增强;第一语音增强方式为超宽带语音增强方式,采样率为32KHz,例如,第一语音增强方式包括基于采样率为32KHz的GRU进行语音增强。
基于此,上述步骤220,包括如下几个步骤:
步骤221,采用第一语音增强方式对目标语音信号进行增强处理,得到第一增强信号。
第一语音增强方式的采样率大于第二语音增强方式的采样率,可选地,为了便于快速确定参考语音增强方式,第一语音增强方式的采样率与目标语音信号的采样率相同。从而,计算机设备可以直接采用第一语音增强方式对目标语音信号进行增强处理,以得到第一增强信号。
步骤223,对目标语音信号进行降采样处理,得到降采样后的语音信号。
正是由于第一语音增强方式的采样率与目标语音信号的采样率相同,且第一语音增强方式的采样率大于第二语音增强方式的采样率,因而第二语音增强方式的采样率小于目标语音信号的采样率。从而,计算机设备在采用第二语音增强方式对目标语音信号进行增强处理之前,需要先对目标语音信号进行降采样处理,以降低目标语音信号的采样率,实现降采样后的语音信号的采样率与第二语音增强方式的采样率相同。
步骤225,采用第二语音增强方式对降采样后的语音信号进行增强处理,得到第二增强信号。
在得到降采样后的语音信号之后,计算机设备即可采用第二语音增强方式对降采样后的语音信号进行增强处理,得到第二增强信号。因此,参考增强信号包括上述第一增强信号和第二增强信号。
例如,目标语音信号包括带宽为0至16KHz、采样率为32KHz的语音信号,第一语音增强方式包括基于32KHz的GRU进行语音增强,第二语音增强方式包括基于16KHz的LSTM进行语音增强。计算机设备采用第一语音增强方式直接对目标语音信号进行增强处理,得到第一增强信号;并且,计算机设备对目标语音信号进行降采样处理,将目标语音信号的采样率降低至16KHz,得到降采样后的语音信号,然后采样第二增强方式对降采样后的语音信号进行增强处理,得到第二增强信号。
需要说明的一点是,本申请实施例对步骤221与步骤223和步骤225之间的执行先后顺序不作限定,可选地,步骤221在步骤223和步骤225之前执行;或者,步骤221与步骤223和步骤225同时执行;或者,步骤221在步骤223和步骤225之后执行。应理解,这些均应属于本申请的保护范围之内。
基于上述步骤221至步骤225,在一个示例中,上述步骤230,包括如下几个步骤:
步骤232,按照第二增强信号的频率范围,从第一增强信号中提取第三增强信号,第三增强信号的频率范围与第二增强信号的频率范围相同。
由于第二语音增强方式的采样率小于第一语音增强方式的采样率,通过第二语音增强方式得到的第二增强信号的频率范围,也将小于通过第一语音增强方式得到的第一增强信号的频率范围。若基于第一增强信号和第二增强信号进行比较和计算等处理,则需要比较频率范围相同的增强信号部分,以提升处理结果的准确性等。
因此,计算机设备需要先按照第二增强信号的频率范围,从第一增强信号中提取出与第二增强信号的频率范围相同的频率范围对应的增强信号部分,也即,第三增强信号。例如,第一增强信号的频率范围为0至16KHz,第二增强信号的频率范围为0至8KHz,那么,计算机设备需要从第一增强信号中提取频率范围为0至8KHz的增强信号部分,作为第三增强信号。
步骤234,根据第三增强信号和第二增强信号,确定目标语音增强方式。
本申请实施例中,计算机设备基于两个频率范围相同的增强信号,即第三增强信号和第二增强信号,来确定实际采用的语音增强方式。
可选地,目标语音信号包括第一信号部分和第二信号部分,第二信号部分的频率范围与第二增强信号的频率范围相同,第一信号部分的频率范围为目标语音信号的频率范围中除第二信号部分的频率范围之外的频率范围;上述步骤234,包括如下几个步骤:
(1)计算第三增强信号和第二增强信号的相关系数。
通过两个信号的相关系数,可以反映两个信号之间的关联程度。本申请实施例中,计算机设备可以计算第三增强信号和第二增强信号的相关系数,以确定第三增强信号和第二增强信号之间的关联程度。示例性地,假设第三增强信号对应的增益为g1,第二增强信号对应的增益为g2,那么第三增强信号和第二增强信号的相关系数corr的计算过程如下:
(2)在相关系数大于第一阈值的情况下,确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。
通常情况下,相关系数越大,说明两个信号之间的关联程度越高。本申请实施例中,设置了第一阈值,在相关系数大于第一阈值的情况下,确定第三增强信号与第二增强信号具有较强的相关性;在相关系数小于第一阈值的情况下,确定第三增强信号与第二增强信号之间的相关性较弱。可选地,第一阈值为0.05,或者为0.06,或者为0.04,在应用过程中,第一阈值的取值可以根据计算准确性的需求等来实际确定,本申请实施例对第一阈值的取值不作限定。
在相关系数大于第一阈值的情况下,计算机设备确定第三增强信号与第二增强信号具有较强的相关性,因此,可以采用两种语音增强方式相融合的方式对目标语音信号进行增强处理。本申请实施例中,在相关系数大于第一阈值的情况下,计算机设备对目标语音信号中的高频信号部分(即第一信号部分)采用第一语音增强方式进行增强处理,对目标语音信号中的低频信号部分(即第二信号部分)采用第二语音增强方式进行增强处理。
(3)在相关系数小于第一阈值的情况下,确定目标语音增强方式包括对目标语音信号采用第一语音增强方式。
在相关系数小于第一阈值的情况下,计算机设备确定第三增强信号与第二增强信号之间的相关性较弱,这种原因可能是由于目标语音信号的低频信号部分存在较多的噪声。为了避免对噪声进行增强而违背噪声抑制的目的,本申请实施例中,在相关系数小于第一阈值的情况下,计算机设备可以对目标语音信号采用第一语音增强方式进行增强处理。
需要说明的一点是,在相关系数等于第一阈值的情况下,计算机设备可以执行如相关系数小于第一阈值的情况下的处理方式,即确定目标语音增强方式包括对目标语音信号采用第一语音增强方式;也可以执行如相关系数大于第一阈值的情况下的处理方式,即确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。应理解,这两种方式均应属于本申请的保护范围之内。
基于上述步骤221至步骤225,在另一个示例中,目标语音信号包括第一信号部分和第二信号部分,第二信号部分的频率范围与第二增强信号的频率范围相同,第一信号部分的频率范围为目标语音信号的频率范围中除第二信号部分的频率范围之外的频率范围;上述步骤230,包括如下几个步骤:
步骤231,获取目标频率范围,目标频率范围包括至少一个频率。
针对语音信号的增强处理而言,增强处理后的语音信号的增益越大,表示该增强处理的噪声抑制效果越差。因此,本申请实施例中,计算机设备可以比较第一增强信号的增益和第二增强信号的增益,以确定实际采用的语音增强方式。出于处理开销与准确性等多种因素的考虑,本申请实施例中,计算机设备比较第一增强信号和第二增强信号在一定频率范围内的至少一个频率上分别对应的增益,然而根据最终的增益计数来确定目标语音增强方式。
因此,计算机设备首先需要确定增益比较的频率范围。由上述介绍说明可知,由于第二语音增强方式的采样率小于第一语音增强方式的采样率,第二增强信号的频率范围也将小于第一增强信号的频率范围。而在增益比较的过程中,为了提升准确性,需要基于相同的频率范围来进行增益比较,因此,本申请实施例中以第二增强信号的频率范围为基础确定目标频率范围。
可选地,计算机设备可以将第二增强信号的频率范围直接作为目标频率范围;或者,计算机设备从第二增强信号的频率范围中截取部分频率范围作为目标频率范围,本申请实施例对目标频率范围的大小不作限定,在应用过程中,可以结合计算准确性和计算机设备的处理开销等因素来实际确定目标频率范围的大小。例如,第二增强信号的频率范围为0至8KHz,则目标频率范围可以为0至8KHz,也可以为0.6至1.5KHz。
步骤233,针对至少一个频率中的第一频率,确定第一增强信号在第一频率处的增益,以及第二增强信号在第一频率处的增益。
目标频率范围中包括至少一个频率。本申请实施例对目标频率范围中的至少一个频率的划分方式不作限定,可选地,至少一个频率与采样点数相关联,也即,在目标频率范围内一个采样点数对应一个频率;或者,至少一个频率在目标频率范围内随机选取。
计算机设备将比较第一增强信号和第二增强信号在至少一个频率中的各个频率上的增益。因此,计算机设备需要先确定第一增强信号和第二增强信号在至少一个频率中的各个频率上的增益。以至少一个频率中的第一频率为例,计算机设备需要分别确定第一增强信号在第一频率处的增益,以及第二增强信号在第一频率处的增益。
步骤235,根据第一增强信号在第一频率处的增益与第二增强信号在第一频率处的增益之间的大小关系,调整增益计数的取值。
在至少一个频率中的每一个频率上,计算机设备均比较第一增强信号的增益和第二增强信号的增益,并根据比较的结果调整增益计数的取值。本申请实施例中,增益计数的调整方式包括加一处理和减一处理,可选地,在第一增强信号的增益大于第二增强信号的增益的情况下,对增益计数进行加一处理;或者,在第一增强信号的增益小于第二增强信号的增益的情况下,对增益计数进行减一处理。以至少一个频率中的第一频率为例,若第一增强信号在第一频率处的增益大于第二增强信号在第一频率处的增益,则对增益计数进行加一处理;若第一增强信号在第一频率处的增益小于第二增强信号在第一频率处的增益,则对增益计数进行减一处理。
需要说明的一点是,以下步骤237和步骤239以在第一增强信号的增益大于第二增强信号的增益时对增益计数进行加一处理为例进行介绍说明。需要说明的另一点是,本申请实施例中,在第一增强信号的增益等于第二增强信号的增益的情况下,既可以对增益计数进行加一处理,也可以对增益计数进行减一处理,还可以不对增益计数进行调整。应理解,这些均应属于本申请的保护范围之内。
例如,假设目标频率范围为0.6至1.5KHz,i表示目标频率范围内的频率,且i为0.6至1.5KHz中的采样点对应的频率,第一增强信号的增益为g1,第二增强信号的增益为g2,则增益计数count的调整过程如下所示。
count=0
if g1[i]>g2[i],0.6KHz≤i≤1.5KHz
count+1
else
count-1
步骤237,在完成调整过程的增益计数的取值大于零的情况下,确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。
计算机设备在完成增益计数的调整过程之后,根据完成调整过程的增益计数的取值来确定目标语音增强方式。由上述介绍说明可知,增强处理后的信号增益越大,噪声抑制的效果越差。在本申请实施例中,是以在第一增强信号的增益大于第二增强信号的增益时对增益计数进行加一处理为例进行介绍说明,因此,若完成调整过程的增益计数的取值大于零,则表示第一增强信号的增益大于第二增强信号的增益,从而可以明确,在第二语音增强方式的采样率对应的频率范围内,第一语音增强方式的噪声抑制效果比第二语音增强方式的噪声抑制效果更差。因此,在完成调整过程的增益计数的取值大于零的情况下,计算机设备对目标语音信号中的高频信号部分(即第一信号部分)采用第一语音增强方式进行增强处理,对目标语音信号中的低频信号部分(即第二信号部分)采用第二语音增强方式进行增强处理。
步骤239,在完成调整过程的增益计数的取值小于零的情况下,确定目标语音增强方式包括对目标语音信号采用第一语音增强方式。
若完成调整过程的增益计数的取值小于零,则表示第一增强信号的增益小于第二增强信号的增益,从而可以明确,在第二语音增强方式的采样率对应的频率范围内,第一语音增强方式的噪声抑制效果比第二语音增强方式的噪声抑制效果更优。因此,在完成调整过程的增益计数的取值小于零的情况下,计算机设备对目标语音信号采用第一语音增强方式进行增强处理。
需要说明的一点是,在完成调整过程的增益计数的取值等于零的情况下,计算机设备可以执行如完成调整过程的增益计数的取值小于零的情况下的处理方式,即确定目标语音增强方式包括对目标语音信号采用第一语音增强方式;也可以执行如完成调整过程的增益计数的取值大于零的情况下的处理方式,即确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。应理解,这两种方式均应属于本申请的保护范围之内。
综上所述,本申请实施例提供的技术方案,通过在得到参考增强信号之后,进一步确定参考增强信号的相关系数,然后根据参考增强信号的相关系数的大小区别确定实际增强处理时采用的语音增强方式。由于参考增强信号的相关系数可以反映参考增强信号之间的关联程度,通过参考增强信号之间的关联程度,可以进一步明确语音信号的信号特点,如语音信号的低频信号部分是否噪声过多等。本申请实施例根据参考增强信号的相关系数确定实际采用的语音增强方式,充分考虑了语音信号的信号特点,提升了语音信号的增强效果。
另外,本申请实施例提供的技术方案,通过在得到参考增强信号之后,比较在特定频率范围内的至少一个频率上,参考增强信号的增益大小,并根据增益之间的大小关系调整增益计数的取值,再进一步根据增益计数的取值确定实际增强处理时采用的语音增强方式。由于增强处理后的信号增益越大,噪声抑制的效果越差,通过比较参考增强信号的增益大小,可以明确各个参考增强方式的噪声抑制效果,从而为计算机设备确定实际采用的语音增强方式提供参考,有助于计算机设备选择噪声抑制效果更优的语音增强方式。
在另一个示例中,上述步骤220,包括如下几个步骤:
步骤22A,对目标语音信号进行降采样处理,得到降采样后的语音信号。
通常情况下,对于低频信号采用宽带增强方式可以达到较好的语音增强效果,因此,可以先采用宽带增强方式对低频信号进行增强处理,得到增强处理后的语音信号,然后对增强处理后的语音信号进行分析,以确定低频信号是否噪声过多,以及宽带增强方式是否对噪声进行了明显增强等。
本申请实施例中,为了实现了先采用采样率较低的参考语音增强方式对目标语音信号进行增强处理,计算机设备在采用参考语音增强方式对目标语音信号进行增强处理之前,需要先对目标语音信号进行降采样处理,以降低目标语音信号的采样率,实现降采样后的语音信号的采样率与参考语音增强方式的采样率相同。例如,目标语音信号的采样率为32KHz,而参考语音增强方式的采样率为16KHz,则需要将目标语音信号的采样率降低至16KHz。
步骤22B,采用参考语音增强方式对降采样后的语音信号进行增强,得到参考增强信号。
在得到降采样后的语音信号之后,计算机设备即可采用参考语音增强方式对降采样后的语音信号进行增强处理,得到参考增强信号。
基于上述步骤22A和步骤22B,上述步骤230,包括如下几个步骤:
步骤23A,对参考增强信号进行基音周期估计,得到参考增强信号的基音周期。
通过信号的基音周期,可以确定信号是否携带过多的噪声。因此,计算机设备可以先对参考增强信号进行基音周期估计,以得到参考增强信号的基音周期。本申请实施例对基音周期估计的方式不作限定,可选地,基音周期估计包括以下任意一种方式:时域自相关法、频域变换法。
步骤23B,根据参考增强信号的基音周期,确定目标语音增强方式。
在得到参考增强信号的基音周期之后,计算机设备既可以直接根据参考增强信号的基音周期来确定目标语音增强方式,例如,将参考增强信号的基音周期与周期阈值进行比较,根据比较结果来确定目标语音增强方式;也可以根据参考增强信号的基音周期进一步处理,根据处理结果来确定目标语音增强方式,例如,根据参考增强信号的基音周期进一步得到参考增强信号的音高或参考增强信号的基音频率,然后根据参考增强信号的音高或参考增强信号的基音频率进一步确定目标语音增强方式。
下面,以计算机设备对参考增强信号的基音周期进行进一步的处理,然后根据处理结果来确定目标语音增强方式进行介绍说明。
可选地,目标语音信号包括第一信号部分和第二信号部分,第二信号部分的频率范围与参考增强信号的频率范围相同,第一信号部分的频率范围为目标语音信号的频率范围中除参考信号部分的频率范围之外的频率范围。上述步骤23B,包括:根据参考增强信号的基音周期,确定参考增强信号的音高;在参考增强信号的音高大于第二阈值的情况下,确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式;在参考增强信号的音高小于第二阈值的情况下,确定目标语音增强方式包括对目标语音信号采用第一语音增强方式。
通过参考增强信号的基音周期,计算机设备可以进一步确定参考增强信号的音高。通常情况下,某一信号的音高越高,说明该信号中有用信号成分越大;某一信号的音高越低,说明该信号中噪声成分越大。因此,本申请实施例中设置第二阈值,若参考增强信号的音高大于第二阈值,则说明参考增强信号的有用信号成分越大;若参考增强信号的音高小于第二阈值,则说明参考增强信号的噪声成分越大。本申请实施例对第二阈值的具体取值不作限定,可选地,第二阈值的取值为50,或者为60,或者为80,在应用过程中,第二阈值的取值可以结合计算准确性等因素来实际确定。
由于参考语音增强方式的采样率小于目标语音信号的采样率,若通过参考语音增强方式得到的参考增强信号的音高较高,表明参考语音增强方式对目标语音信号达到了较好的语音增强效果,因此,可以采用参考语音增强方式对目标语音信号的低频信号部分进行增强。基于此,本申请实施例中,在参考增强信号的音高大于第二阈值的情况下,计算机设备确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式,其中,第二语音增强方式即为上述参考语音增强方式,且第二语音增强方式的采样率小于第一语音增强方式的采样率;在参考增强信号的音高小于第二阈值的情况下,计算机设备确定目标语音增强方式包括对目标语音信号采用第一语音增强方式。
需要说明的一点是,在参考增强信号的音高等于第二阈值的情况下,计算机设备可以执行如参考增强信号的音高小于第二阈值的情况下的处理方式,即确定目标语音增强方式包括对目标语音信号采用第一语音增强方式;也可以执行如参考增强信号的音高大于第二阈值的情况下的处理方式,即确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。应理解,这两种方式均应属于本申请的保护范围之内。
综上所述,本申请实施例提供的技术方案,通过在得到参考增强信号之后,估计参考增强信号的基音周期,然后根据估计出的基音周期确定实际增强处理时采用的语音增强方式。由于通过基音周期可以明确参考增强信号的信号特点,如参考增强信号的噪声成分和有用信号成分之间的大小关系,进而计算机设备可以确定参考增强方式的噪声抑制效果,从而为确定实际采用的语音增强方式提供参考,有助于计算机设备有效准确地选择语音增强方式。
上述实施例中具体介绍说明了三种根据参考增强信号确定目标语音增强方式的方案,应理解,在实际应用中可以结合上述三种方案来确定目标语音增强方式。本申请实施例对上述三种方案的组合方式和组合顺序不作限定,下面,介绍说明一种可能的组合方式和组合顺序。
在一个示例中,参考语音增强方式包括第一语音增强方式和第二语音增强方式,第二语音增强方式的采样率小于第一语音增强方式的采样率。
基于此,上述步骤220,包括:采用第一语音增强方式对目标语音信号进行增强处理,得到第一增强信号;对目标语音信号进行降采样处理,得到降采样后的语音信号;采用第二语音增强方式对降采样后的语音信号进行增强处理,得到第二增强信号;其中,参考增强信号包括第一增强信号和第二增强信号。
基于此,在一个示例中,目标语音信号包括第一信号部分和第二信号部分,第二信号部分的频率范围与第二增强信号的频率范围相同,第一信号部分的频率范围为目标语音信号的频率范围中除第二信号部分的频率范围之外的频率范围;上述步骤230,包括:
(1)按照第二增强信号的频率范围,从第一增强信号中提取第三增强信号,第三增强信号的频率范围与第二增强信号的频率范围相同;计算第三增强信号和第二增强信号的相关系数;在相关系数大于第一阈值的情况下,确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。
(2)在相关系数小于第一阈值的情况下,对第二增强信号进行基音周期估计,得到第二增强信号的基音周期;根据第二增强信号的基音周期,确定第二增强信号的音高;在第二增强信号的音高大于第二阈值的情况下,确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式。
(3)在第二增强信号的音高小于第二阈值的情况下,获取目标频率范围,目标频率范围包括至少一个频率;针对至少一个频率中的第一频率,确定第三增强信号在第一频率处的增益,以及第二增强信号在第一频率处的增益;根据第三增强信号在第一频率处的增益与第二增强信号在第一频率处的增益之间的大小关系,调整增益计数的取值;其中,若第三增强信号在第一频率处的增益大于第二增强信号在第一频率处的增益,则对增益计数进行加一处理;若第三增强信号在第一频率处的增益小于第二增强信号在第一频率处的增益,则对增益计数进行减一处理;在完成调整过程的增益计数的取值大于零的情况下,确定目标语音增强方式包括对第一信号部分采用第一语音增强方式,以及对第二信号部分采用第二语音增强方式;在完成调整过程的增益计数的取值小于零的情况下,确定目标语音增强方式包括对目标语音信号采用第一语音增强方式。
本示例中未介绍说明的步骤及名词,可以参见上述实施例的介绍说明,此处不多赘述。
综上所述,本申请实施例提供的技术方案,通过在获取到语音信号后,采用参考语音增强方式对该语音信号进行增强处理,得到参考增强信号,再基于参考增强信号,组合多种方式进一步确定实际增强处理时采用的语音增强方式,从而实现从多种维度确定实际采用的语音增强方式,进一步提升实际采用的语音增强方式确定的准确性。
下面,以参考增强方式包括采样率为32KHz的GRU(以下简称为“32KHz的GRU”)和采样率为16KHz的LSTM(以下简称为“16KHz的LSTM”)、目标语音信号为采样率为32KHz的语音信号(以下简称为“32KHz的语音信号”)为例,对本申请的技术方案进行介绍说明。请参考图3,其示出了本申请一个实施例提供的语音信号的增强处理方法的示意图,该方法包括如下流程:
计算机设备获取32KHz的语音信号之后,一方面,采用32KHz的GRU对32KHz的语音信号进行增强处理,得到32KHz的增强信号;另一方面,对32KHz的语音信号进行降采样处理,得到降采样后的语音信号,然后采用16KHz的LSTM对降采样后的语音信号进行增强处理,得到16KHz的增强信号。
其中,32KHz的增强信号的带宽为0至16KHz,16KHz的增强信号的带宽为0至8KHz。计算机设备计算32KHz的增强信号中带宽为0至8KHz的信号部分与16KHz的增强信号的相关系数corr,也即,进行信号互相关计算。
如图3所示,在计算出的相关系数corr大于或等于0.05的情况下,计算机设备确定对32KHz的语音信号实际采用的语音增强方式包括:对32KHz的语音信号中带宽为0至8KHz的信号部分采用16KHz的LSTM,以及对32KHz的语音信号中带宽为8至16KHz的信号部分采用32KHz的GRU。
在计算出的相关系数corr小于0.05的情况下,计算机设备进一步对16KHz的增强信号进行基音周期估计,并对估计出的基因周期进行进一步的处理,得到16KHz的增强信号的音高。如图3所示,在音高大于50的情况下,计算机设备确定对32KHz的语音信号实际采用的语音增强方式包括:对32KHz的语音信号中带宽为0至8KHz的信号部分采用16KHz的LSTM,以及对32KHz的语音信号中带宽为8至16KHz的信号部分采用32KHz的GRU。
如图3所示,在音高小于或等于50的情况下,计算机设备进一步比较32KHz的增强信号的增益与16KHz的增强信号的增益,并调整增益技术count的取值,也即,计算机设备进行增益比较计数处理。有关增益比较计数处理的具体过程,请参见上述实施例的介绍说明,此处不多赘述。如图3所示,在完成调整过程的增益计数count的取值大于0的情况下,计算机设备确定对32KHz的语音信号实际采用的语音增强方式包括:对32KHz的语音信号中带宽为0至8KHz的信号部分采用16KHz的LSTM,以及对32KHz的语音信号中带宽为8至16KHz的信号部分采用32KHz的GRU。如图3所示,在完成调整过程的增益计数count的取值小于或等于0的情况下,计算机设备确定对32KHz的语音信号实际采用的语音增强方式包括:对32KHz的语音信号采用32KHz的GRU。
请参考图4,其示出了本申请一个实施例提供的语音增强效果的示意图。其中,图4(a)是采用16KHz的LSTM对语音信号进行增强处理得到的增强信号,图4(b)是采用32KHz的GRU对语音信号进行增强处理得到的增强信号,从图4(a)和图4(b)可见,采用16KHz的LSTM无法有效增强语音信号的高频信号部分,采用32KHz的GRU则无法准确有效地增强语音信号的低频信号部分。图4(c)是采用本申请实施例提供的技术方案对语音信号进行增强处理得到的增强信号,将图4(c)与图4(a)和图4(b)对比,可以得出采用本申请实施例提供的技术方案将实现准确有效地对语音信号进行增强。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图5,其示出了本申请一个实施例提供的语音信号的增强处理装置的框图。该装置具有实现上述语音信号的增强处理方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。该装置500可以包括:语音信号获取模块510、参考信号确定模块520、增强方式确定模块530和语音信号增强模块540。
语音信号获取模块510,用于获取目标语音信号。
参考信号确定模块520,用于采用参考语音增强方式对所述目标语音信号进行增强处理,得到参考增强信号。
增强方式确定模块530,用于根据所述参考增强信号,确定目标语音增强方式。
语音信号增强模块540,用于采用所述目标语音增强方式对所述目标语音信号进行增强处理。
在一个示例中,所述参考语音增强方式包括第一语音增强方式和第二语音增强方式,所述第二语音增强方式的采样率小于所述第一语音增强方式的采样率;所述参考信号确定模块520,用于:采用所述第一语音增强方式对所述目标语音信号进行增强处理,得到第一增强信号;对所述目标语音信号进行降采样处理,得到降采样后的语音信号;采用所述第二语音增强方式对所述降采样后的语音信号进行增强处理,得到第二增强信号;其中,所述参考增强信号包括所述第一增强信号和所述第二增强信号。
在一个示例中,如图6所示,所述增强方式确定模块530,包括:参考信号提取单元532,用于按照所述第二增强信号的频率范围,从所述第一增强信号中提取第三增强信号,所述第三增强信号的频率范围与所述第二增强信号的频率范围相同;增强方式确定单元534,用于根据所述第三增强信号和所述第二增强信号,确定所述目标语音增强方式。
在一个示例中,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述第二增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述第二信号部分的频率范围之外的频率范围;如图6所示,所述增强方式确定单元534,用于:计算所述第三增强信号和所述第二增强信号的相关系数;在所述相关系数大于第一阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;在所述相关系数小于第一阈值的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用所述第一语音增强方式。
在一个示例中,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述第二增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述第二信号部分的频率范围之外的频率范围;如图6所示,所述增强方式确定模块530,包括:频率范围模块单元531,用于获取目标频率范围,所述目标频率范围包括至少一个频率;信号增益确定单元533,用于针对所述至少一个频率中的第一频率,确定所述第一增强信号在所述第一频率处的增益,以及所述第二增强信号在所述第一频率处的增益;增益计数调整单元535,用于根据所述第一增强信号在所述第一频率处的增益与所述第二增强信号在所述第一频率处的增益之间的大小关系,调整增益计数的取值;其中,若所述第一增强信号在所述第一频率处的增益大于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行加一处理;若所述第一增强信号在所述第一频率处的增益小于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行减一处理;增强方式确定单元537,用于在完成调整过程的增益计数的取值大于零的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;增强方式确定单元537,还用于在完成调整过程的增益计数的取值小于零的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用所述第一语音增强方式。
在一个示例中,所述第二语音增强方式的采样率为所述第一语音增强信号的采样率的二分之一。
在一个示例中,所述第一语音增强方式包括基于GRU进行语音增强;所述第二语音增强方式包括基于LSTM进行语音增强。
在一个示例中,所述参考信号确定模块520,用于:对所述目标语音信号进行降采样处理,得到降采样后的语音信号;采用所述参考语音增强方式对所述降采样后的语音信号进行增强,得到所述参考增强信号。
在一个示例中,如图6所示,所述增强方式确定模块530,包括:基音周期确定单元53A,用于对所述参考增强信号进行基音周期估计,得到所述参考增强信号的基音周期;增强方式确定单元53B,用于根据所述参考增强信号的基音周期,确定所述目标语音增强方式。
在一个示例中,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述参考增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述参考信号部分的频率范围之外的频率范围;如图6所示,所述增强方式确定单元53B,用于:根据所述参考增强信号的基音周期,确定所述参考增强信号的音高;在所述参考增强信号的音高大于第二阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用第一语音增强方式,以及对所述第二信号部分采用第二语音增强方式;其中,所述第二语音增强方式的采样率小于所述第一语音增强方式的采样率;在所述参考增强信号的音高小于第二阈值的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用第一语音增强方式。
在一个示例中,所述参考语音增强方式包括第一语音增强方式和第二语音增强方式,所述第二语音增强方式的采样率小于所述第一语音增强方式的采样率;所述参考信号确定模块520,用于:采用第一语音增强方式对所述目标语音信号进行增强处理,得到第一增强信号;对所述目标语音信号进行降采样处理,得到降采样后的语音信号;采用第二语音增强方式对所述降采样后的语音信号进行增强处理,得到第二增强信号;其中,所述参考增强信号包括所述第一增强信号和所述第二增强信号。所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述第二增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述第二信号部分的频率范围之外的频率范围;所述增强方式确定模块530,用于:按照所述第二增强信号的频率范围,从所述第一增强信号中提取第三增强信号,所述第三增强信号的频率范围与所述第二增强信号的频率范围相同;计算所述第三增强信号和所述第二增强信号的相关系数;在所述相关系数大于第一阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;在所述相关系数小于第一阈值的情况下,对所述第二增强信号进行基音周期估计,得到所述第二增强信号的基音周期;根据所述第二增强信号的基音周期,确定所述第二增强信号的音高;在所述第二增强信号的音高大于第二阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;在所述第二增强信号的音高小于第二阈值的情况下,获取目标频率范围,所述目标频率范围包括至少一个频率;针对所述至少一个频率中的第一频率,确定所述第三增强信号在所述第一频率处的增益,以及所述第二增强信号在所述第一频率处的增益;根据所述第三增强信号在所述第一频率处的增益与所述第二增强信号在所述第一频率处的增益之间的大小关系,调整增益计数的取值;其中,若所述第三增强信号在所述第一频率处的增益大于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行加一处理;若所述第三增强信号在所述第一频率处的增益小于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行减一处理;在完成调整过程的增益计数的取值大于零的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;在完成调整过程的增益计数的取值小于零的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用所述第一语音增强方式。
在一个示例中,所述目标语音信号包括超宽带语音信号。
综上所述,本申请实施例提供的技术方案,通过在获取到语音信号后,采用参考的语音增强方式对该语音信号进行增强处理,得到参考增强信号,再基于参考增强信号进一步确定实际增强处理时采用的语音增强方式,之后再采用确定出的实际采用的语音增强方式对该语音信号进行增强处理。由于参考增强信号可以反映初始获取的语音信号的信号特点,如反映该语音信号是否为明显的噪声居多的信号等,从而根据参考增强信号可以实现结合语音信号的信号特点有针对性地确定实际采用的语音增强方式。相比于相关技术采用固定的语音增强方式无法做到针对语音信号的不同情况做出区别处理,本申请实施例在语音信号增强的过程中,充分考虑语音信号的信号特点,有助于准确有效地增强语音信号,提升语音信号的增强效果。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图7,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是终端或服务器。具体来讲:
计算机设备700包括中央处理单元(Central Processing Unit,CPU)701、包括随机存取存储器(Random Access Memory,RAM)702和只读存储器(Read Only Memory,ROM)703的***存储器704,以及连接***存储器704和中央处理单元701的***总线705。计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O(Input/Output)***)706,和用于存储操作***713、应用程序714和其他程序模块715的大容量存储设备707。
基本输入/输出***706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到***总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出***706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备707通过连接到***总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说,大容量存储设备707可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器704和大容量存储设备707可以统称为存储器。
根据本申请的各种实施例,计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在***总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述语音信号的增强处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述语音信号的增强处理方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
在示例性实施例中,还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语音信号的增强处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种语音信号的增强处理方法,其特征在于,所述方法包括:
获取目标语音信号;
采用第一语音增强方式对所述目标语音信号进行增强处理,得到第一增强信号;
对所述目标语音信号进行降采样处理,得到降采样后的语音信号;
采用第二语音增强方式对所述降采样后的语音信号进行增强处理,得到第二增强信号,所述第二语音增强方式的采样率小于所述第一语音增强方式的采样率;
根据参考增强信号,确定目标语音增强方式,所述参考增强信号包括所述第一增强信号和所述第二增强信号;
采用所述目标语音增强方式对所述目标语音信号进行增强处理。
2.根据权利要求1所述的方法,其特征在于,所述根据参考增强信号,确定目标语音增强方式,包括:
按照所述第二增强信号的频率范围,从所述第一增强信号中提取第三增强信号,所述第三增强信号的频率范围与所述第二增强信号的频率范围相同;
根据所述第三增强信号和所述第二增强信号,确定所述目标语音增强方式。
3.根据权利要求2所述的方法,其特征在于,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述第二增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述第二信号部分的频率范围之外的频率范围;
所述根据所述第三增强信号和所述第二增强信号,确定所述目标语音增强方式,包括:
计算所述第三增强信号和所述第二增强信号的相关系数;
在所述相关系数大于第一阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;
在所述相关系数小于第一阈值的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用所述第一语音增强方式。
4.根据权利要求1所述的方法,其特征在于,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述第二增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述第二信号部分的频率范围之外的频率范围;
所述根据参考增强信号,确定目标语音增强方式,包括:
获取目标频率范围,所述目标频率范围包括至少一个频率;
针对所述至少一个频率中的第一频率,确定所述第一增强信号在所述第一频率处的增益,以及所述第二增强信号在所述第一频率处的增益;
根据所述第一增强信号在所述第一频率处的增益与所述第二增强信号在所述第一频率处的增益之间的大小关系,调整增益计数的取值;其中,若所述第一增强信号在所述第一频率处的增益大于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行加一处理;若所述第一增强信号在所述第一频率处的增益小于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行减一处理;
在完成调整过程的增益计数的取值大于零的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;
在完成调整过程的增益计数的取值小于零的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用所述第一语音增强方式。
5.根据权利要求1所述的方法,其特征在于,所述第二语音增强方式的采样率为所述第一语音增强方式的采样率的二分之一。
6.根据权利要求1所述的方法,其特征在于,所述第一语音增强方式包括基于门控循环单元GRU进行语音增强;所述第二语音增强方式包括基于长短期记忆网络LSTM进行语音增强。
7.根据权利要求1所述的方法,其特征在于,所述根据参考增强信号,确定目标语音增强方式,包括:
对所述参考增强信号进行基音周期估计,得到所述参考增强信号的基音周期;
根据所述参考增强信号的基音周期,确定所述目标语音增强方式。
8.根据权利要求7所述的方法,其特征在于,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述参考增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述参考信号部分的频率范围之外的频率范围;
所述根据所述参考增强信号的基音周期,确定所述目标语音增强方式,包括:
根据所述参考增强信号的基音周期,确定所述参考增强信号的音高;
在所述参考增强信号的音高大于第二阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用第一语音增强方式,以及对所述第二信号部分采用第二语音增强方式;其中,所述第二语音增强方式的采样率小于所述第一语音增强方式的采样率;
在所述参考增强信号的音高小于第二阈值的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用第一语音增强方式。
9.根据权利要求1所述的方法,其特征在于,所述目标语音信号包括第一信号部分和第二信号部分,所述第二信号部分的频率范围与所述第二增强信号的频率范围相同,所述第一信号部分的频率范围为所述目标语音信号的频率范围中除所述第二信号部分的频率范围之外的频率范围;
所述根据参考增强信号,确定目标语音增强方式,包括:
按照所述第二增强信号的频率范围,从所述第一增强信号中提取第三增强信号,所述第三增强信号的频率范围与所述第二增强信号的频率范围相同;
计算所述第三增强信号和所述第二增强信号的相关系数;
在所述相关系数大于第一阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;
在所述相关系数小于第一阈值的情况下,对所述第二增强信号进行基音周期估计,得到所述第二增强信号的基音周期;
根据所述第二增强信号的基音周期,确定所述第二增强信号的音高;
在所述第二增强信号的音高大于第二阈值的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;
在所述第二增强信号的音高小于第二阈值的情况下,获取目标频率范围,所述目标频率范围包括至少一个频率;
针对所述至少一个频率中的第一频率,确定所述第三增强信号在所述第一频率处的增益,以及所述第二增强信号在所述第一频率处的增益;
根据所述第三增强信号在所述第一频率处的增益与所述第二增强信号在所述第一频率处的增益之间的大小关系,调整增益计数的取值;其中,若所述第三增强信号在所述第一频率处的增益大于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行加一处理;若所述第三增强信号在所述第一频率处的增益小于所述第二增强信号在所述第一频率处的增益,则对所述增益计数进行减一处理;
在完成调整过程的增益计数的取值大于零的情况下,确定所述目标语音增强方式包括对所述第一信号部分采用所述第一语音增强方式,以及对所述第二信号部分采用所述第二语音增强方式;
在完成调整过程的增益计数的取值小于零的情况下,确定所述目标语音增强方式包括对所述目标语音信号采用所述第一语音增强方式。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述目标语音信号包括超宽带语音信号。
11.一种语音信号的增强处理装置,其特征在于,所述装置包括:
语音信号获取模块,用于获取目标语音信号;
参考信号确定模块,用于采用第一语音增强方式对所述目标语音信号进行增强处理,得到第一增强信号;对所述目标语音信号进行降采样处理,得到降采样后的语音信号;采用第二语音增强方式对所述降采样后的语音信号进行增强处理,得到第二增强信号,所述第二语音增强方式的采样率小于所述第一语音增强方式的采样率;
增强方式确定模块,用于根据参考增强信号,确定目标语音增强方式;其中,所述参考增强信号包括所述第一增强信号和所述第二增强信号;
语音信号增强模块,用于采用所述目标语音增强方式对所述目标语音信号进行增强处理。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的语音信号的增强处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至10任一项所述的语音信号的增强处理方法。
CN202011180004.4A 2020-10-29 2020-10-29 语音信号的增强处理方法、装置、设备及存储介质 Active CN113409802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011180004.4A CN113409802B (zh) 2020-10-29 2020-10-29 语音信号的增强处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011180004.4A CN113409802B (zh) 2020-10-29 2020-10-29 语音信号的增强处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113409802A CN113409802A (zh) 2021-09-17
CN113409802B true CN113409802B (zh) 2023-09-15

Family

ID=77677413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011180004.4A Active CN113409802B (zh) 2020-10-29 2020-10-29 语音信号的增强处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113409802B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139894A (ja) * 2007-12-11 2009-06-25 Advanced Telecommunication Research Institute International 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
WO2011029484A1 (en) * 2009-09-14 2011-03-17 Nokia Corporation Signal enhancement processing
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN103299548A (zh) * 2010-11-30 2013-09-11 高通股份有限公司 执行增强的σ-δ调制
EP2849181A1 (en) * 2013-09-12 2015-03-18 Sony Corporation Voice filtering method, apparatus and electronic equipment
CN109346109A (zh) * 2018-12-05 2019-02-15 百度在线网络技术(北京)有限公司 基频提取方法和装置
CN109801642A (zh) * 2018-12-18 2019-05-24 百度在线网络技术(北京)有限公司 降采样方法及装置
CN110503940A (zh) * 2019-07-12 2019-11-26 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN111696532A (zh) * 2020-06-17 2020-09-22 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质
CN111768795A (zh) * 2020-07-09 2020-10-13 腾讯科技(深圳)有限公司 语音信号的噪声抑制方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
TWI351683B (en) * 2008-01-16 2011-11-01 Mstar Semiconductor Inc Speech enhancement device and method for the same

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139894A (ja) * 2007-12-11 2009-06-25 Advanced Telecommunication Research Institute International 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
WO2011029484A1 (en) * 2009-09-14 2011-03-17 Nokia Corporation Signal enhancement processing
CN103299548A (zh) * 2010-11-30 2013-09-11 高通股份有限公司 执行增强的σ-δ调制
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
EP2849181A1 (en) * 2013-09-12 2015-03-18 Sony Corporation Voice filtering method, apparatus and electronic equipment
CN109346109A (zh) * 2018-12-05 2019-02-15 百度在线网络技术(北京)有限公司 基频提取方法和装置
CN109801642A (zh) * 2018-12-18 2019-05-24 百度在线网络技术(北京)有限公司 降采样方法及装置
CN110503940A (zh) * 2019-07-12 2019-11-26 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN111696532A (zh) * 2020-06-17 2020-09-22 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质
CN111768795A (zh) * 2020-07-09 2020-10-13 腾讯科技(深圳)有限公司 语音信号的噪声抑制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113409802A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
US10045140B2 (en) Utilizing digital microphones for low power keyword detection and noise suppression
AU2015240992C1 (en) Situation dependent transient suppression
US9813833B1 (en) Method and apparatus for output signal equalization between microphones
US20200396329A1 (en) Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
CN111883182B (zh) 人声检测方法、装置、设备及存储介质
CN112309414B (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN110931035B (zh) 音频处理方法、装置、设备及存储介质
US20090316929A1 (en) Sound capture system for devices with two microphones
CN111415653B (zh) 用于识别语音的方法和装置
CN112786066B (zh) 音频信号筛选方法、装置及电子设备
US11996114B2 (en) End-to-end time-domain multitask learning for ML-based speech enhancement
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
CN111986694B (zh) 基于瞬态噪声抑制的音频处理方法、装置、设备及介质
CN106847299B (zh) 延时的估计方法及装置
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN111383629B (zh) 语音处理方法和装置、电子设备以及存储介质
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
CN113674752A (zh) 音频信号的降噪方法、装置、可读介质和电子设备
CN115083440A (zh) 音频信号降噪方法、电子设备和存储介质
CN111145770B (zh) 音频处理方法和装置
US11528556B2 (en) Method and apparatus for output signal equalization between microphones
CN111951791A (zh) 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN111048096A (zh) 一种语音信号处理方法、装置及终端
CN111145776B (zh) 音频处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051791

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant