CN112634921B - 一种语音处理方法、装置和存储介质 - Google Patents
一种语音处理方法、装置和存储介质 Download PDFInfo
- Publication number
- CN112634921B CN112634921B CN201910955242.9A CN201910955242A CN112634921B CN 112634921 B CN112634921 B CN 112634921B CN 201910955242 A CN201910955242 A CN 201910955242A CN 112634921 B CN112634921 B CN 112634921B
- Authority
- CN
- China
- Prior art keywords
- voice data
- noise
- data
- voice
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 71
- 239000012634 fragment Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000001629 suppression Effects 0.000 claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种语音处理方法、装置和存储介质,其中应用于语音处理***,方法包括:获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。通过本实施例,可以提高语音识别的质量。
Description
技术领域
本申请涉及通信领域,特别是涉及一种语音处理方法、装置和存储介质。
背景技术
随着移动通信技术的快速发展,语音识别技术在各个行业的得到了快速的推广,比如,在银行或者金融机构等行业中,语音识别技术能够实现后台客服的质检,还可以将采集的客服语音转换为文字,从中提取客户信息,针对客户信息定制对应的服务等。
在语音识别技术过程中,在获取目标语音数据时通常会夹杂着实际应用场景中的环境噪声,环境噪声一般包括平稳噪声(比如白噪声)和非平稳噪声(周围人的说话声,窗外的汽车鸣笛声),所以首先会对获取的语音数据进行降噪调整处理,使得处理后的目标语音数据与语音识别库里的数据尽可能一致。在目前的语音识别技术中,对于非平稳噪声的抑制效果很有限,对平稳噪声的去除效果较为明显,但是容易出现语音失真,噪声残留不自然,从而导致语音识别的质量不高。
针对上述的现有技术中存在的语音识别的质量不高的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种语音处理方法、装置和存储介质,可以提高语音识别的质量。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本公开实施例提供了一种语音处理方法,包括:
获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及
对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
第二方面,本公开实施例还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行如上述第一方面所述的方法。
第三方面,根据本公开实施例还提供了一种语音处理装置,应用于语音处理***,包括:
数据获取模块,用于获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
噪声去除模块,用于在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及
噪声抑制模块,用于对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
第四方面,本公开实施例还提供了一种语音处理装置,应用于语音处理***,包括处理器;以及
存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的指令:
获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及
对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
本发明实施例中,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。在本实施例中,通过去除第一语音数据中只包含背景噪声的噪声音频片段,同时对去除噪声音频片段后的第一语音数据进行噪声抑制,从而提高了语音识别的质量。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
图2为本公开一实施例提供的语音处理方法的流程示意图;
图3为本公开一实施例提供的语音处理方法装置示意图;
图4为本公开另一实施例提供的语音处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,还提供了一种语音处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现一种语音处理方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的语音处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的语音处理方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,本实施例提供了一种语音处理方法,该方法由语音处理***实现。图2为本公开一实施例提供的语音处理方法的流程示意图,参考图2所示,该方法包括:
S202:获取第一语音数据,第一语音数据包括目标语音数据和背景噪声数据;
S204:在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及
S206:对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
本发明实施例中,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。在本实施例中,通过去除第一语音数据中只包含背景噪声的噪声音频片段,同时对去除噪声音频片段后的第一语音数据进行噪声抑制,从而提高了语音识别的质量。
上述步骤S202中,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据。该语音处理***可以应用在客服处理场景中,获取客服人员的第一语音数据用来检验客服人员的服务质量,或者获取客户的第一语音数据,对客户的第一语音数据进行语音识别得到客户的基本信息,从而根据客户的信息进行定制化服务;也可以应用在智能语言翻译场景中,通过获取用户的第一语音数据进行语音翻译处理,这里不做特殊限定。
第一语音数据包括目标语音数据和背景语音数据,获取的第一语音数据是多种语音混合在一起的语音数据,在语音识别目标语音数据场景中,比如在客服场景中获取客服人员说话的语音为目标语音数据,背景语音数据为在获取目标语音的同时接收到的非目标语音,包括平稳噪声(包括白噪声、空调、冰箱等机器发出的噪声),和非平稳噪声(周围人的说话声、窗外的汽车鸣笛声等),比如,在检验客服人员的服务质量场景中,在获取客服人员说话的语音同时获取了风扇转动的环境音的非目标语音,即风扇转动的环境音为背景语音数据。
上述步骤S204中,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据。第一语音数据为在一段时间内获取的音频片段,该音频片段在每个时刻对应的数据都是变化的,比如在获取了10s的第一语音数据中,目标语音数据只存在于前1s-5s内,则剩下时间段内第6s-10s对应的第一语音数据只包含了背景噪声,确定只包含背景噪声的噪声音频片段,并将噪声音频片段去除,剩下的语音数据为第二语音数据。
上述步骤S206中,对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
可选地,在第一语音数据中确定只包含背景噪声的噪声音频片段,包括:
(a1),将第一语音数据按照预设时间周期分割成多个音频片段;以及
(a2),根据预设语音参数的阈值,在多个音频片段中确定噪声音频片段。
上述动作(a1)中,语音处理***将第一语音数据按照预设时间周期分割成多个音频片段,预设时间周期可以是2s,也可以是5s,这里不做特殊限制,比如,将一段1分钟的第一语音数据按照5s的时间周期分为30段音频片段。
上述动作(a2)中,根据预设语音参数阈值,在多个音频片段中确定噪声音频片段,语音参数包括语音数据中信号的平均能量、预设频率能量和频谱平坦度,其中预设频率能量为当所述第一语音数据的频率小于预设值时对应的能量。语言处理***根据一段时间内的音频片段对应的能量计算该段时间内的平均能量;根据噪声的低频率特征设定预设频率,可以设定预设频率范围为100Hz-600Hz,也可以设定为其他数值的频率,这里不做特殊限制,预设频率能量即在预设频率对应的能量值,且该预设频率能量为归一化处理后的能量值;频谱平坦度是根据噪声的频谱相对于语音的频谱比较平坦的特性,从而将噪声和语音区分开。根据噪声的频谱特性设置,一个优选预设频谱平坦度设定范围为0.01-0.5,也可以设定为其他数值,这里不做特殊限制。预设频率能量为当所述第一语音数据的频率小于预设值时对应的能量。一个优选的实施例中,将上述的平均能量、预设频率能量和频谱平坦度进行归一化处理,使用归一化处理后的数值设定相对应的参数阈值。
可选地,根据预设语音参数的阈值,在多个音频片段中确定噪声音频片段,包括:
(b1),分别获取每个音频片段中的平均能量、预设频率能量和频谱平坦度;
(b2),将音频片段中的平均能量小于第一阈值、预设频率能量小于第二阈值且频谱平坦度大于第三阈值对应的音频片段确定为噪声音频片段。
上述动作(b1)和(b2)中,语音处理***分别获取每个音频片段中的平均能量、预设频率能量和频谱平坦度,将音频片段中的平均能量小于第一阈值、预设频率能量小于第二阈值且频谱平坦度大于第三阈值对应的音频片段确定为噪声音频片段。其中第一阈值的根据噪声音频的能量特性设置,一个优选的第一阈值的设置范围为400-600,也可以设置为其他数值,这里不做特殊限定;第二阈值根据噪声音频的能量特性设定,一个优选的第二阈值的设置范围为100-300,也可以是其他设置范围,这里不做特殊设定,另外,基于上述预设频率能量为当第一语音数据的频率小于预设值时对应的能量,若当音频片段中不含有小于预设频率时,则判断该音频片段不满足第二阈值的条件;第三阈值根据噪声频谱平坦度设定,一个优选的第三阈值的设定范围为0.01-0.04,也可以设定为其他数值,这里不做特殊限定。将同时满足平均能量小于第一阈值、预设频率能量小于第二阈值且频谱平坦度大于第三阈值对应的音频片段确定为噪声音频片段。
一个具体的实施例中,语音处理***分别获取十段音频片段中的平均能量、频率对应的能量和频谱平坦度,按照时间顺序将第一至第十段音频片段排序,排序后第一至第十段音频片段的平均能量值依次为120、150、80、70、200、90、110、180,第一阈值为100,则满足第一阈值条件的分别是第三、第四、第六段音频片段;第一至第十段音频片段的符合预设频率以及对应的频率能量依次为(550Hz,410)、(580Hz,450)、(400Hz,300)、(350Hz,480)、(590Hz,500)、(500Hz,350)、(510Hz,550)、(300Hz,520),预设频率600Hz,第二阈值为400,则满足第二阈值条件的分别是第三、第六段音频片段;第一至第十段的频谱平坦度依次为0.01、0.07、0.05、0.01、0.03、0.06、0.02、0.02,第三阈值为0.04,则满足第三阈值条件的分别是第二、第三、第六段音频片段,由上述结果判断可知,同时满足平均能量小于第一阈值、预设频率能量小于第二阈值且频谱平坦度大于第三阈值对应的音频片段为第三段音频片段和第六段音频片段,则将该第三段音频片段和第六段音频片段确定为噪声音频片段。
可选地,对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,包括:将第二语音数据的特征值调整至预设范围内,使得能够相对于背景噪声数据识别目标语音数据。
本实施例中,将第二语音数据的特征值调整至预设范围内,使得能够相对于背景噪声数据识别目标语音数据,该预设范围内的设置可以是根据预先利用语音识别技术对第二语音数据的应用场景中相关的语音数据进行数据训练,得到语音数据模型,根据该数据模型的特征值将第二语音数据的特征值调整至预设范围内,使得第二语音数据的特征值与语音数据模型中的特征值更接近,以提高语音识别的质量。
可选地,将第二语音数据的特征值调整至预设范围内,包括:
(c1),根据预设语音识别数据库将第二语音数据的时域幅度增益第一比例阈值,得到增益后的第二语音数据;
(c2),根据预设语音识别数据库向增益后的第二语音数据叠加预设白噪声数据;
上述动作(c1)中,根据预设语音识别数据库将第二语音数据的时域幅度增益第一比例阈值,得到增益后的第二语音数据,语音识别数据库可以是预先根据对第二语音数据的应用场景通过语音识别技术进行数据训练得到的语音数据库,也可以是其他方式设定的语音数据库,这里不做特殊限制。第一比例阈值可以设定为0.01,也可以设定为0.1,这里不做特殊限制,一个优选的实施例中,第一比例阈值的设定范围为0.01-0.5,将第二语音数据的时域幅度增益第一比例阈值,得到增益后的第二语音数据,通过调整第二语音数据的时域幅度避免了语音数据在某个时刻的时域幅度过大或者过小而影响语音识别,从而提高了语音识别的质量。
上述动作(c2)中,根据预设语音识别数据库向增益后的第二语音数据叠加预设白噪声数据,预设语音识别库根据语音训练数据得到的,语音训练数据中包含环境中的白噪声,即预设语音识别库中也包含有白噪声数据,则根据预设语音识别数据库向增益后的第二语音数据叠加预设白噪声数据,预设白噪声数据可以设定为白噪声的时域幅度为0.03,也可以设定白噪声的时域幅度为其他数值,或者白噪声的其他特征数据,这里不做特殊限定,叠加白噪声后的第二语音数据为第三语音数据,更接近预设语音识别库中的语音数据,根据预设语音识别模块对第三语音数据进行语音识别,从而提高语音识别的质量。
可选地,语音处理***包括双麦克风耳麦,包括:
(d1),通过双麦克风耳麦对第一语音数据进行降噪处理。
上述动作(d1)中,语音处理***包括双麦克风耳麦,通过双麦克风耳麦对第一语音数据进行噪声抑制,将双麦克风的主麦克风近距离接收目标语音数据的发生源,双麦克风中的副麦克风距离目标语音数据相对主麦克风距离较远,根据两个麦克风接收到第一语音数据的相位差进行主动降噪,提高了语音识别的质量。
进一步地,在双麦克风耳麦进行语音降噪时,可以是在接收到第一语音时进行双麦克风的噪声抑制,也可以是经过上述的降噪过程中得到第三语音数据后进行双麦克风的噪声抑制,这里不做特殊限制。
本发明实施例中,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。在本实施例中,通过去除第一语音数据中只包含背景噪声的噪声音频片段,同时对去除噪声音频片段后的第一语音数据进行噪声抑制,从而提高了语音识别的质量。
此外,参考图1所示,根据本实施例的第二方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的语音处理方法。
从而根据本实施例,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。在本实施例中,通过去除第一语音数据中只包含背景噪声的噪声音频片段,同时对去除噪声音频片段后的第一语音数据进行噪声抑制,从而提高了语音识别的质量。
本申请实施例提供的一种存储介质能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图3为本公开一实施例提供的一种语音处理方法装置示意图,该装置300与根据实施例1的一种语音处理方法相对应。参考图3所示,该装置300包括:
数据获取模块301,用于获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
噪声去除模块302,用于在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及
噪声抑制模块303,用于对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
可选地,所述噪声去除模块302具体用于:
将所述第一语音数据按照预设时间周期分割成多个音频片段;以及
根据预设语音参数的阈值,在多个所述音频片段中确定所述噪声音频片段。
可选地,所述预设语音参数包括平均能量、预设频率能量和频谱平坦度,其中预设频率能量为当所述第一语音数据的频率小于预设值时对应的能量。
可选地,所述噪声去除模块302还具体用于:
分别获取每个所述音频片段中的平均能量、预设频率能量和频谱平坦度;
将所述音频片段中的所述平均能量小于第一阈值、所述预设频率能量小于第二阈值且所述频谱平坦度大于第三阈值对应的所述音频片段确定为噪声音频片段。
可选地,所述噪声抑制模块303用于:
将所述第二语音数据的特征值调整至预设范围内,使得能够相对于所述背景噪声数据识别所述目标语音数据。
可选地,所述噪声抑制模块303具体用于:
根据预设语音识别数据库将所述第二语音数据的时域幅度增益第一比例阈值,得到增益后的所述第二语音数据;
根据所述预设语音识别数据库向所述增益后的第二语音数据叠加预设白噪声数据。
可选地,还包括语音识别模块:
根据预设语音识别模块对所述第三语音数据进行语音识别。
可选地,所述语音处理***包括双麦克风耳麦,包括:
降噪处理模块,用于通过所述双麦克风耳麦对所述第一语音数据进行降噪处理。
从而根据本实施例,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。在本实施例中,通过去除第一语音数据中只包含背景噪声的噪声音频片段,同时对去除噪声音频片段后的第一语音数据进行噪声抑制,从而提高了语音识别的质量。
本申请实施例提供的语音处理方法装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
实施例3
图4为本公开另一实施例提供的语音处理装置的示意图,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:处理器410;以及存储器420,与处理器410连接,用于为处理器410提供处理以下处理步骤的指令:获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。
可选地,在所述第一语音数据中确定只包含背景噪声的噪声音频片段,包括:将所述第一语音数据按照预设时间周期分割成多个音频片段;以及根据预设语音参数的阈值,在多个所述音频片段中确定所述噪声音频片段。
可选地,所述预设语音参数包括平均能量、预设频率能量和频谱平坦度,其中预设频率能量为当所述第一语音数据的频率小于预设值时对应的能量。
可选地,根据预设语音参数的阈值,在多个所述音频片段中确定所述噪声音频片段,包括:分别获取每个所述音频片段中的平均能量、预设频率能量和频谱平坦度;将所述音频片段中的所述平均能量小于第一阈值、所述预设频率能量小于第二阈值且所述频谱平坦度大于第三阈值对应的所述音频片段确定为噪声音频片段。
可选地,对所述第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,包括:将所述第二语音数据的特征值调整至预设范围内,使得能够相对于所述背景噪声数据识别所述目标语音数据。
可选地,将所述第二语音数据的特征值调整至预设范围内,包括:根据预设语音识别数据库将所述第二语音数据的时域幅度增益第一比例阈值,得到增益后的所述第二语音数据;根据所述预设语音识别数据库向所述增益后的第二语音数据叠加预设白噪声数据。
可选地,存储器420还用于为处理器410提供处理以下处理步骤的指令:根据预设语音识别模块对所述第三语音数据进行语音识别。
可选地,所述语音处理***包括双麦克风耳麦,包括:通过所述双麦克风耳麦对所述第一语音数据进行降噪处理。
从而根据本实施例,语音处理***获取第一语音数据,第一语音数据包括语音数据和背景噪声数据,在第一语音数据中确定只包含背景噪声的噪声音频片段,并从第一语音数据中去除噪声音频片段,生成第二语音数据;以及对第二语音数据进行用于抑制背景噪声数据的噪声抑制处理,生成第三语音数据。在本实施例中,通过去除第一语音数据中只包含背景噪声的噪声音频片段,同时对去除噪声音频片段后的第一语音数据进行噪声抑制,从而提高了语音识别的质量。
本申请实施例提供的语音处理装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种语音处理方法,应用于语音处理***,其特征在于,包括:
获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及根据预设语音识别数据库将所述第二语音数据的时域幅度增益第一比例阈值,得到增益后的所述第二语音数据;
根据所述预设语音识别数据库向所述增益后的第二语音数据叠加预设白噪声数据,生成第三语音数据。
2.根据权利要求1所述的方法,其特征在于,在所述第一语音数据中确定只包含背景噪声的噪声音频片段,包括:
将所述第一语音数据按照预设时间周期分割成多个音频片段;以及
根据预设语音参数的阈值,在多个所述音频片段中确定所述噪声音频片段。
3.根据权利要求2所述的方法,其特征在于,所述预设语音参数包括平均能量、预设频率能量和频谱平坦度,其中预设频率能量为当所述第一语音数据的频率小于预设值时对应的能量。
4.根据权利要求2-3之一所述的方法,其特征在于,根据预设语音参数的阈值,在多个所述音频片段中确定所述噪声音频片段,包括:
分别获取每个所述音频片段中的平均能量、预设频率能量和频谱平坦度;
将所述音频片段中的所述平均能量小于第一阈值、所述预设频率能量小于第二阈值且所述频谱平坦度大于第三阈值对应的所述音频片段确定为噪声音频片段。
5.根据权利要求1所述的方法,其特征在于,所述语音处理***包括双麦克风耳麦,包括:
通过所述双麦克风耳麦对所述第一语音数据进行降噪处理。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。
7.一种语音处理装置,应用于语音处理***,其特征在于,包括:
数据获取模块,用于获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
噪声去除模块,用于在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及根据预设语音识别数据库将所述第二语音数据的时域幅度增益第一比例阈值,得到增益后的所述第二语音数据;
噪声抑制模块,用于对根据所述预设语音识别数据库向所述增益后的第二语音数据叠加预设白噪声数据,生成第三语音数据。
8.一种语音处理装置,应用于语音处理***,其特征在于,包括:
第一处理器;以及
存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的指令:
获取第一语音数据,所述第一语音数据包括目标语音数据和背景噪声数据;
在所述第一语音数据中确定只包含背景噪声的噪声音频片段,并从所述第一语音数据中去除所述噪声音频片段,生成第二语音数据;以及根据预设语音识别数据库将所述第二语音数据的时域幅度增益第一比例阈值,得到增益后的所述第二语音数据;
根据所述预设语音识别数据库向所述增益后的第二语音数据叠加预设白噪声数据,生成第三语音数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955242.9A CN112634921B (zh) | 2019-10-09 | 2019-10-09 | 一种语音处理方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955242.9A CN112634921B (zh) | 2019-10-09 | 2019-10-09 | 一种语音处理方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634921A CN112634921A (zh) | 2021-04-09 |
CN112634921B true CN112634921B (zh) | 2024-02-13 |
Family
ID=75283321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910955242.9A Active CN112634921B (zh) | 2019-10-09 | 2019-10-09 | 一种语音处理方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634921B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的*** |
CN103117067A (zh) * | 2013-01-19 | 2013-05-22 | 渤海大学 | 一种低信噪比下语音端点检测方法 |
CN103903634A (zh) * | 2012-12-25 | 2014-07-02 | 中兴通讯股份有限公司 | 激活音检测及用于激活音检测的方法和装置 |
CN104464722A (zh) * | 2014-11-13 | 2015-03-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
CN105118502A (zh) * | 2015-07-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音识别***的端点检测方法及*** |
CN109256137A (zh) * | 2018-10-09 | 2019-01-22 | 深圳市声扬科技有限公司 | 语音采集方法、装置、计算机设备和存储介质 |
CN109817241A (zh) * | 2019-02-18 | 2019-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150081287A1 (en) * | 2013-09-13 | 2015-03-19 | Advanced Simulation Technology, inc. ("ASTi") | Adaptive noise reduction for high noise environments |
US9842608B2 (en) * | 2014-10-03 | 2017-12-12 | Google Inc. | Automatic selective gain control of audio data for speech recognition |
-
2019
- 2019-10-09 CN CN201910955242.9A patent/CN112634921B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的*** |
CN103903634A (zh) * | 2012-12-25 | 2014-07-02 | 中兴通讯股份有限公司 | 激活音检测及用于激活音检测的方法和装置 |
CN103117067A (zh) * | 2013-01-19 | 2013-05-22 | 渤海大学 | 一种低信噪比下语音端点检测方法 |
CN104464722A (zh) * | 2014-11-13 | 2015-03-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
CN105118502A (zh) * | 2015-07-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音识别***的端点检测方法及*** |
CN109256137A (zh) * | 2018-10-09 | 2019-01-22 | 深圳市声扬科技有限公司 | 语音采集方法、装置、计算机设备和存储介质 |
CN109817241A (zh) * | 2019-02-18 | 2019-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112634921A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190057713A1 (en) | Methods and apparatus for decoding based on speech enhancement metadata | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
CN110827843B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN110706693B (zh) | 语音端点的确定方法及装置、存储介质、电子装置 | |
CN106558314B (zh) | 一种混音处理方法和装置及设备 | |
CN108234793B (zh) | 一种通讯方法、装置、电子设备和存储介质 | |
CN112565981B (zh) | 啸叫抑制方法、装置、助听器及存储介质 | |
CN110428835B (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN111796790A (zh) | 一种音效调节方法、装置、可读存储介质及终端设备 | |
CN113362839A (zh) | 音频数据处理方法、装置、计算机设备及存储介质 | |
CN110931019B (zh) | 公安语音数据采集方法、装置、设备和计算机存储介质 | |
US8949116B2 (en) | Signal processing method and apparatus for amplifying speech signals | |
CN104851423B (zh) | 一种声音信息处理方法及装置 | |
EP2908312A1 (en) | Self-adaptive intelligent voice device and method | |
CN112634921B (zh) | 一种语音处理方法、装置和存储介质 | |
US20210191685A1 (en) | Spatial characteristics of multi-channel source audio | |
CN104464746A (zh) | 语音滤波方法、装置以及电子设备 | |
CN112992167A (zh) | 音频信号的处理方法、装置及电子设备 | |
CN109065066B (zh) | 一种通话控制方法、装置及设备 | |
CN110996205A (zh) | 耳机的控制方法、耳机及可读存储介质 | |
CN115376501B (zh) | 语音增强方法及装置、存储介质、电子设备 | |
CN110366068B (zh) | 音频调节方法、电子设备以及装置 | |
CN111354341A (zh) | 语音唤醒方法及装置、处理器、音箱和电视机 | |
CN110503975A (zh) | 基于多麦克风降噪的智能电视语音增强控制方法及*** | |
CN113409793B (zh) | 语音识别方法及智能家居***、会议设备、计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |