CN109087632A - 语音处理方法、装置、计算机设备及存储介质 - Google Patents
语音处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109087632A CN109087632A CN201810939767.9A CN201810939767A CN109087632A CN 109087632 A CN109087632 A CN 109087632A CN 201810939767 A CN201810939767 A CN 201810939767A CN 109087632 A CN109087632 A CN 109087632A
- Authority
- CN
- China
- Prior art keywords
- frame
- speech
- frequency
- voice
- initial frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 54
- 238000005520 cutting process Methods 0.000 claims abstract description 27
- 230000009977 dual effect Effects 0.000 claims abstract description 16
- 238000009432 framing Methods 0.000 claims abstract description 16
- 238000012790 confirmation Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 101000911390 Homo sapiens Coagulation factor VIII Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 102000057593 human F8 Human genes 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 229940047431 recombinate Drugs 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音处理方法、装置、计算机设备及存储介质,所述方法包括:读取音频,将音频转化为第一语音数据数组,并获取第一语音数据数组分帧之后的多个初始帧;遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;在初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;根据预设的裁剪规则对非语音段进行裁剪,裁剪规则包括根据有效语音段的位置,确认需要裁剪的非语音段的位置。本发明可以精确地区分音频中的语音段和非语音段并对其中的非语音段进行裁剪,使得裁剪之后的音频对齐效果更好。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种语音处理方法、装置、计算机设备及存储介质。
背景技术
传统的语音端点检测采用双阈值(包括第一参数阈值与大于第一参数阈值的第二参数阈值)参数端点检测方法,只要大于第二参数阈值的音频都会被确认为是语音,该方法在环境噪声较高,并伴随有瞬间冲击噪声的环境下,会将噪声,非人声等误认为是语音;并且,若仅仅采用参数阈值的比较,就会将某些主频的频率较高,属于非人声的音频也确认为语音段。
发明内容
基于此,有必要针对上述技术问题,提供一种语音处理方法、装置、计算机设备及存储介质,用于更加精确地区分音频中的语音段和非语音段,并有效裁剪掉静音或非人声的杂音等非语音段,使得裁剪之后的音频对齐效果更好。
一种语音处理方法,包括:
读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
根据预设的裁剪规则对各所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
一种语音处理装置,包括:
读取模块,用于读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
检测模块,用于遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
标记模块,用于在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
裁剪模块,用于根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音处理方法的步骤。
上述语音处理方法、装置、计算机设备及存储介质,将连续性要求引入语音处理过程中,更加精确地区分音频中的语音段和非语音段,并有效裁剪掉静音或非人声的杂音等非语音段,可以更好地对齐音频,有利于利用裁剪之后的音频进行语音识别模型训练的训练过程。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音处理方法的应用环境示意图;
图2是本发明一实施例中语音处理方法的流程图;
图3是本发明一实施例中语音处理方法的步骤S40的流程图;
图4是本发明一实施例中语音处理方法的步骤S50的流程图;
图5是本发明一实施例中语音处理装置的示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的语音处理方法,可应用在如图1的应用环境中,其中,客户端(计算机设备/终端设备)通过网络与服务器(服务端)进行通信。服务器从客户端中读取需要裁剪的音频,将音频转化为第一语音数据数组,并进行幅值归一化、加窗和分帧处理,获取多个初始帧,然后根据初始帧的频谱主频、频谱主频的幅值、能熵比和连续性要求将初始帧标记为有效语音段和非语音段,最后根据预设的裁剪规则对非语音段进行裁剪。其中,客户端(计算机设备/终端设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音处理方法,以该方法应用在图1中的服务器(服务端)为例进行说明,包括如下步骤:
S10,读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧。
所述音频可以为预先存储在数据库中的音频,也可以为用户通过移动终端传送至客户端或服务器的音频,还可以为通过客户端录入的音频。
S20,遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
在该步骤中,首先遍历所述第一语音数据数组中的每一帧,并检测每一所述初始帧的频谱主频的频率是否超出预设频率范围,在所述初始帧的频谱主频的频率未超出预设频率范围时,检测所述初始帧的频谱主频是否大于预设幅值阈值。在所述频谱主频的频率超出预设范围时,确认所述初始帧属于非语音帧。
其中,所述频率范围根据需求预先设定,优选地,所述预设频率范围为20Hz-3200Hz,由于正常人说话的频率基本包含在上述频率范围内,因此,频率超出所述频率范围之外的,可以认为是噪声。
在该步骤中,检测所述初始帧的频谱主频的幅值是否大于预设幅值阈值,并在所述初始帧的频谱主频的幅值大于预设幅值阈值时,进入步骤S30,判断所述初始帧属于有效语音帧还是非语音帧。当所述频谱主频的幅值小于或等于所述幅值阈值时,确认所述初始帧属于非语音帧。由上述可知,频谱主频的幅值小于或等于所述幅值阈值时,可以认为该初始帧属于噪音。其中,所述幅值阈值根据需求预先设定,优选地,所述预设幅值阈值为4,由于正常人说话的频谱主频的幅值基本大于4,因此,当所述频谱主频的幅值小于4时,则可以认为为是噪声。
S30,在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记所述初始帧属于有效语音段或非语音段。
所述能熵比为所述初始帧能量和谱熵的比值,在本实施例中,首选设定所述能熵比的双阈值为第一阈值T2和第二阈值T1,所述第一阈值T2大于所述第二阈值T1(也即T2>T1),所述第一阈值T2与第二阈值T1可用于初步区分初始帧是否属于非语音帧,比如,在所述初始帧的能熵比小于或等于第二阈值T1时,确认所述初始帧属于非语音帧;所述第一阈值T2与第二阈值T1的大小可以根据需求预先设定,优选地,所述第二阈值T1为1.085,所述第一阈值T2为1.12。
作为优选,所述连续性要求包括下文中所述的第一连续性要求、第二连续性要求、第三连续性要求、第四连续性要求。
S40:根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
所述裁剪规则可以根据用户需求进行设定,比如,在第一语音数据数组中序列最先的有效语音段之前的非语音段的第一裁剪位置进行裁剪;在序列最后的有效语音段之后的非语音段的第二裁剪位置进行裁剪。
本实施例的语音处理方法将连续性要求引入语音处理过程中,更加精确地区分音频中的语音段和非语音段,并有效裁剪掉静音或非人声的杂音等非语音段,可以更好地对齐音频,有利于利用裁剪之后的音频进行语音识别模型训练的训练过程。
在一实施例中,所述步骤S10包括:
首先,读取音频,将所述音频转换为第一语音数据数组,并选取所述音频的时间比例在(1/8,7/8)范围中的波形的最大幅值对所述第一语音数据数组进行幅值归一化处理。
也即,在该步骤中,首先采集并读取音频,并将读取到的所述音频转换为第一语音数据数组,以便于对所述音频进行后续的幅值归一化处理。
可理解地,在采集音频时,音频的开始和结束位置,长伴随着点击等操作(如在移动终端上点击开始或结束录音),上述操作可能会导致采集到的音频波形在开始和结束时出现异常大的幅值,此时,在进行幅值归一化的过程中,如果用该异常大的幅值作为最大幅值进行幅值归一化,会对后续区分语音段和非语音段产生负面影响,比如,导致语音段遗漏。在本实施例中,选取所述音频的时间比例在(1/8,7/8)范围中的波形的最大幅值来进行幅值归一化,可以使后续区分有效语音段和非语音段的时候更加精确,避免出现有效语音段遗漏。
在该步骤中读取音频并将其转换为第一语音数据数组时,还可以存储该音频的采样率,以便于在后续对所述第一语音数据数组中非语音段进行裁剪之后,重组音频。
其次,对幅值归一化之后的所述第一语音数据数组进行加窗和分帧,获取所述第一语音数据数组中的多个初始帧。可理解地,该步骤中的加窗和分帧是指通过加载预设帧长的窗函数,将初始输入的第一语音数据数组分为多帧。所述窗函数包括矩形窗,比如,所述窗函数可以为hamming窗函数;上述加窗和分帧的处理过程能使原始的不平稳、不连续的音频信号变为平稳的、连续的帧。优选地,分帧过程中的预设帧长为20ms,在本实施例中,第一语音数据数组进行分帧之后的每一帧称之为初始帧。
在一实施例中,如图3所示,所述步骤S30包括以下步骤:
S301,在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比及所述能熵比双阈值将所述初始帧标记为第一语音帧或第二语音帧。
在一实施例中,所述能熵比双阈值包括第一阈值和小于所述第一阈值的第二阈值,所述步骤S301包括以下内容:当所述频谱主频的幅值大于预设幅值阈值时,检测所述初始帧的能熵比是否大于所述第一阈值;以便于确认所述初始帧是否为第一语音帧。
在所述能熵比大于所述第一阈值时,标记所述初始帧为第一语音帧。且在所述第一语音帧满足有效语音帧的第一连续性要求(也即,在判断连续的第一语音帧超过预设的第一帧数时,即满足有效语音帧的第一连续性要求)时,其属于有效语音段。
在所述能熵比小于或等于所述第一阈值时,检测所述能熵比是否大于所述第二阈值;其中,所述第一阈值大于第二阈值。由上述可知,所述第二阈值T1小于所述第一阈值T2;在本实施例中,在判定所述初始帧的能熵比小于或等于所述第一阈值的基础上,确认所述初始帧的能熵比是否大于第二阈值T1,进而判定该初始帧是否为第二语音帧。
在所述能熵比大于第二阈值时,标记所述初始帧为第二语音帧。本实施例中,所述初始帧的能熵比属于大于第二阈值T1且小于或等于T2的范围内,此时,所述初始帧可以被标记为第二语音帧,在所述第二语音帧满足有效语音帧的第二连续性要求(也即,在判断连续的所述第二语音帧超过预设的第二帧数时,即满足有效语音帧的第二连续性要求)时,其属于有效语音段。
S302,当所述初始帧标记为所述第一语音帧时,检测所述第一语音帧是否满足第一连续性要求,并将满足所述第一连续性要求的所述第一语音帧标记为有效语音帧。
所述第一连续性要求是指,连续的所述第一语音帧的帧数是否超过预设的第一帧数,也即,检测连续的所述第一语音帧的帧数是否超过预设的第一帧数,在在连续的所述第一语音帧的帧数超过第一帧数时,代表所述第一语音帧满足第一连续性要求,其属于有效语音帧,此时将所述第一语音帧标记为有效语音帧;其中,所述第一帧数根据需求预先进行设定;优选地,所述第一帧数为2。
在连续的所述第一语音帧的帧数未超过所述第一帧数时,代表所述第一语音帧不满足第一连续性要求,此时,可以在后续步骤中标记该第一语音帧属于非效语音段,或对其进行进一步判定(此时可以将所述第二语音帧标记为需要进一步判定的第三语音帧)。
S303,当所述初始帧标记为所述第二语音帧时,检测所述第二语音帧是否满足第二连续性要求,并将满足所述第二连续性要求的所述第二语音帧标记为有效语音帧。
所述第二连续性要求是指,连续的所述第二语音帧的帧数是否超过预设的第一帧数,也即,检测连续的所述第一语音帧的帧数是否超过预设的第二帧数,在连续的所述第一语音帧的帧数超过第二帧数时,代表所述第二语音帧满足第二连续性要求,其属于有效语音帧,此时将所述第二语音帧标记为有效语音帧。所述第二帧数根据需求预先进行设定;优选地,所述第二帧数设定为8。
在连续的所述第二语音帧的帧数未超过所述第二帧数时,代表所述第二语音帧不满足第二连续性要求,此时,可以在后续步骤中标记该第二语音帧属于非语音段,或对其进行进一步判定(此时可以将所述第一语音帧标记为需要进行进一步判定的第三语音帧)。
可理解地,所述步骤S402与S403之间的顺序并不限定于为本实施例中所述,而是可以相互调换。
S304,获取各所述有效语音帧,检测所述有效语音帧是否满足第三连续性要求,并将满足第三连续性要求的所述有效语音帧添加有效语音段标记,确认所述有效语音帧属于有效语音段。
所述第三连续性要求是指,连续的有效语音帧的帧数是否超过预设的最低帧数阈值。
在一实施例中,所述步骤S304包括以下内容:
获取各所述有效语音帧,并检测连续的所述有效语音帧的帧数是否超过预设的最低帧数阈值;所述最低帧数阈值根据需求预先进行设定,作为优选,所述最低帧数阈值设定为4。在超过最低帧数阈值时,代表所述有效语音帧满足有效语音段的第三连续性要求,此时可以将所述有效语音帧标记为属于有效语音段,以供后续转化为新的音频。
S305,获取所述第一语音数据数组中所有不包含所述有效语音段标记的帧,并为各所述帧添加非语音段标记,确认各所述帧属于非语音段。
在该步骤中,将上述所有连续的不带有所述有效语音段标记的帧合并为非语音段,以供后续进行裁剪。其中,不带有所述有效语音段标记的帧包括以下列举的一种或多种:超出所述频谱主频的预设频率范围的初始帧、频谱主频的幅值小于或等于预设幅值阈值的初始帧、小于或等于所述第二阈值的初始帧、不满足第一连续性要求的第一语音帧、不满足第二连续性要求的第二语音帧、不满足第三连续性要求的有效语音帧、不满足第四连续性要求的第三语音帧(参照下述实施例)。
在一实施例中,所述步骤S303之前,还包括:
获取第三语音帧,并检测所述第三语音帧是否满足第四连续性要求。
其中,所述第四连续性要求是指,连续的所述第三语音帧的帧数是否超过预设的第二帧数,也即,检测连续的所述第一语音帧的帧数是否超过预设的第二帧数,在连续的所述第一语音帧的帧数超过第二帧数时,所述第三语音帧即满足第四连续性要求。在本实施例中,上述步骤S302和S303中,所述第一语音帧与所述第二语音帧在不满足连续性要求时,均被标记为第三语音帧,并在步骤中进行进一步判定,以进一步确定其是否属于非语音段。此时,可检测连续的所述第三语音帧的帧数是否超过所述第二帧数。
在连续的所述第三语音帧的帧数超过第二帧数时,将所述第三语音帧标记为有效语音帧;也即,在连续的第三语音帧的帧数超过第二帧数时,代表所述第三语音帧满足第四连续性要求,其属于有效语音段,可供在所述步骤S304中被获取。在连续的第三语音帧的帧数未超过第二帧数时,所述第三语音帧不满足第四连续性要求,此时,所述第三语音帧会在所述步骤S305中被标记为属于非语音段。
在一实施例中,如图4所示,所述步骤S40包括:
S401,在所有所述有效语音段和所述非语音段中,查询序列最先的有效语音段,并获取序列最先的所述有效语音段之前的所述非语音段,自第一裁剪位置对所述非语音段进行裁剪。
其中,所述第一裁剪位置为所述非语音段中,靠近所述有效语音段的第一个帧开始前移第一裁剪帧数;作为优选,所述第一裁剪帧数为2帧。
S402,在所有所述有效语音段和所述非语音段中,查询序列最后的有效语音段,并获取序列最后的所述有效语音段之后的所述非语音段,自第二裁剪位置对所述非语音段进行裁剪。
其中,所述第二裁剪位置为所述非语音段中,靠近所述有效语音段的第一个帧开始后移第二裁剪帧数;作为优选,所述第二裁剪帧数为8帧。
也即,在上述实施例中,对排序最先和最后所述有效语音段之前与之后的非语音段分别进行裁剪,所述第一裁剪位置之前以及所述第二裁剪位置之后被裁剪掉的非语音段均将被丢弃,如此,可以对音频首尾的非语音段的长度进行控制,且仅保留少量非语音帧,可以更好地对齐音频,有利于对音频裁剪之后进行语音识别模型训练。可理解地,所述步骤S401与所述步骤S402的执行顺序并不限定与上述顺序,而是可以根据需求进行调换。
在一实施例中,所述步骤S40还包括:
遍历所有所述非语音段,并检测各所述非语音段的帧数是否超过预设的保留帧数阈值。
即遍历所有经步骤S401和步骤S402裁剪后的非语音段(即不包括经上述步骤裁剪后被丢弃的非语音段),并检测各所述非语音段的帧数是否超过预设的保留帧数阈值。
作为优选,所述保留帧数阈值大于所述第一裁剪帧数与所述第二裁剪帧数。比如,所述保留帧数阈值为10帧。以便于后续步骤中判断是否需要对所述非语音段进行裁剪以及若需要裁剪,需要裁剪的帧数。
在所述非语音段的帧数超过所述保留帧数阈值时,根据所述保留帧数阈值对所述非语音段进行裁剪。
也即,在所述非语音段的帧数超过保留帧数阈值时,将该非语音段裁剪为帧数为保留帧数阈值的数组,比如,将帧数超过10帧的非语音段裁剪为10,被裁减掉的帧将被丢弃。通过将所述非语音段的帧数裁剪至保留帧数阈值,更有利于对齐音频,以及有利于利用裁剪之后的音频进行语音识别模型训练的训练过程。
在各所述非语音段的帧数均未超过所述保留帧数阈值时,说明已根据预设的裁剪规则对第一语音数据数组中的非语音段进行裁剪(也即上述的裁剪过程完成),并获得第二语音数据数组(由被裁剪之后剩余的所有所述非语音段与所述有效语音段组成)。
获取音频采样率和所述第二语音数据数组,并根据所述音频采样率将所述第二语音数据数组转化为新的音频。所述音频可以用于所述音频采样率为所述步骤中S10中存储的音频的采样率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音处理装置,该语音处理装置与上述实施例中语音处理方法一一对应。如图5所示,该语音处理装置包括读取模块11、检测模块12、标记模块13和裁剪模块14。各功能模块详细说明如下:
读取模块11,用于读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
检测模块12,用于遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
标记模块13,用于在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
裁剪模块14,用于根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
在一实施例中,所述裁剪模块14包括第一裁剪单元和第二裁剪单元。
第一裁剪单元,用于在所有所述有效语音段和所述非语音段中,查询序列最先的有效语音段,并获取序列最先的所述有效语音段之前的所述非语音段,并自第一裁剪位置对所述非语音段进行裁剪;
第二裁剪单元,用于在所有所述有效语音段和所述非语音段中,查询序列最后的有效语音段,并获取序列最后的所述有效语音段之后的所述非语音段,并自第二裁剪位置对所述非语音段进行裁剪。
关于语音处理装置的具体限定可以参见上文中对于语音处理方法的限定,在此不再赘述。上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
频谱主频本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音处理方法,其特征在于,包括:
读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
2.如权利要求1所述的语音处理方法,其特征在于,所述在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段,包括:
在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比及所述能熵比双阈值将所述初始帧标记为第一语音帧或第二语音帧;
当所述初始帧标记为所述第一语音帧时,检测所述第一语音帧是否满足第一连续性要求,并将满足所述第一连续性要求的所述第一语音帧标记为有效语音帧;
当所述初始帧标记为所述第二语音帧时,检测所述第二语音帧是否满足第二连续性要求,并将满足所述第二连续性要求的所述第二语音帧标记为有效语音帧;
获取各所述有效语音帧,检测所述有效语音帧是否满足第三连续性要求,并将满足第三连续性要求的所述有效语音帧添加有效语音段标记,确认所述有效语音帧属于有效语音段;
获取所述第一语音数据数组中所有不包含所述有效语音段标记的帧,并为各所述帧添加非语音段标记,确认各所述帧属于非语音段。
3.如权利要求2所述的语音处理方法,其特征在于,所述双阈值包括第一阈值和小于所述第一阈值的第二阈值;
所述在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比及所述能熵比双阈值将所述初始帧标记为第一语音帧或第二语音帧,包括:
在所述初始帧的频谱主频的幅值大于预设幅值阈值时,检测所述初始帧的能熵比是否大于所述第一阈值;
在所述能熵比大于所述第一阈值时,标记所述初始帧为第一语音帧;
在所述能熵比小于或等于所述第一阈值时,检测所述能熵比是否大于所述第二阈值;其中,所述第一阈值大于第二阈值;
在所述能熵比大于第二阈值时,标记所述初始帧为第二语音帧。
4.如权利要求1所述的语音处理方法,其特征在于,所述根据预设的裁剪规则对所述非语音段进行裁剪,包括:
在所有所述有效语音段和所述非语音段中,查询序列最先的所述有效语音段,获取序列最先的所述有效语音段之前的所述非语音段,并自第一裁剪位置对所述非语音段进行裁剪;
在所有所述有效语音段和所述非语音段中,查询序列最后的所述有效语音段,并获取序列最后的所述有效语音段之后的所述非语音段,并自第二裁剪位置对所述非语音段进行裁剪。
5.如权利要求4所述的语音处理方法,其特征在于,所述根据预设的裁剪规则对所述非语音段进行裁剪,还包括:
遍历所有所述非语音段,并检测各所述非语音段的帧数是否超过预设的保留帧数阈值;
在所述非语音段的帧数超过所述保留帧数阈值时,根据所述保留帧数阈值对所述非语音段进行裁剪。
6.如权利要求1所述的语音处理方法,其特征在于,所述读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧,包括:
读取音频,将所述音频转换为第一语音数据数组,并选取所述音频的时间比例在(1/8,7/8)范围中的波形的最大幅值对所述第一语音数据数组进行幅值归一化处理;
对幅值归一化之后的所述第一语音数据数组进行加窗和分帧,获取所述第一语音数据数组中的多个初始帧。
7.一种语音处理装置,其特征在于,包括:
读取模块,用于读取音频,将所述音频转化为第一语音数据数组,并获取所述第一语音数据数组分帧之后的多个初始帧;
检测模块,用于遍历每个初始帧并获取每个初始帧的频谱主频的频率和幅值;
标记模块,用于在所述初始帧的频谱主频的频率未超出预设频率范围且该初始帧的频谱主频的幅值均大于预设幅值阈值时,根据所述初始帧的能熵比、预设的能熵比双阈值和连续性要求标记该初始帧属于有效语音段或非语音段;
裁剪模块,用于根据预设的裁剪规则对所述非语音段进行裁剪,其中,所述裁剪规则包括根据所述有效语音段的位置,确认需要裁剪的所述非语音段的位置。
8.如权利要求7所述的语音处理装置,其特征在于,所述裁剪模块包括:
第一裁剪单元,用于在所有所述有效语音段和所述非语音段中,查询序列最先的有效语音段,并获取序列最先的所述有效语音段之前的所述非语音段,并自第一裁剪位置对所述非语音段进行裁剪频谱主频;
第二裁剪单元,用于在所有所述有效语音段和所述非语音段中,查询序列最后的有效语音段,并获取序列最后的所述有效语音段之后的所述非语音段,并自第二裁剪位置对所述非语音段进行裁剪。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939767.9A CN109087632B (zh) | 2018-08-17 | 2018-08-17 | 语音处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939767.9A CN109087632B (zh) | 2018-08-17 | 2018-08-17 | 语音处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109087632A true CN109087632A (zh) | 2018-12-25 |
CN109087632B CN109087632B (zh) | 2023-06-06 |
Family
ID=64793774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810939767.9A Active CN109087632B (zh) | 2018-08-17 | 2018-08-17 | 语音处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109087632B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887526A (zh) * | 2019-01-04 | 2019-06-14 | 平安科技(深圳)有限公司 | 对母羊的生理状态检测方法、装置、设备及存储介质 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN110992989A (zh) * | 2019-12-06 | 2020-04-10 | 广州国音智能科技有限公司 | 语音采集方法、装置及计算机可读存储介质 |
CN111640422A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音人声分离方法、装置、终端及存储介质 |
CN111953727A (zh) * | 2020-05-06 | 2020-11-17 | 上海明略人工智能(集团)有限公司 | 音频传输方法和装置 |
WO2020228107A1 (zh) * | 2019-05-13 | 2020-11-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频修复方法、设备及可读存储介质 |
WO2021000389A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 一种多媒体文件处理方法、装置及计算机可读存储介质 |
CN112509609A (zh) * | 2020-12-16 | 2021-03-16 | 北京乐学帮网络技术有限公司 | 音频处理方法、装置、电子设备以及存储介质 |
CN113192488A (zh) * | 2021-04-06 | 2021-07-30 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
WO2021159635A1 (zh) * | 2020-02-14 | 2021-08-19 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
WO2022105570A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 语音端点检测方法、装置、设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100191524A1 (en) * | 2007-12-18 | 2010-07-29 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
US20120253813A1 (en) * | 2011-03-31 | 2012-10-04 | Oki Electric Industry Co., Ltd. | Speech segment determination device, and storage medium |
CN103871416A (zh) * | 2012-12-12 | 2014-06-18 | 富士通株式会社 | 语音处理设备及语音处理方法 |
CN103886871A (zh) * | 2014-01-28 | 2014-06-25 | 华为技术有限公司 | 语音端点的检测方法和装置 |
US20150066487A1 (en) * | 2013-08-30 | 2015-03-05 | Fujitsu Limited | Voice processing apparatus and voice processing method |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
CN106991998A (zh) * | 2017-04-19 | 2017-07-28 | 重庆邮电大学 | 噪声环境下语音端点的检测方法 |
CN107680584A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
-
2018
- 2018-08-17 CN CN201810939767.9A patent/CN109087632B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100191524A1 (en) * | 2007-12-18 | 2010-07-29 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
US20120253813A1 (en) * | 2011-03-31 | 2012-10-04 | Oki Electric Industry Co., Ltd. | Speech segment determination device, and storage medium |
CN103871416A (zh) * | 2012-12-12 | 2014-06-18 | 富士通株式会社 | 语音处理设备及语音处理方法 |
US20150066487A1 (en) * | 2013-08-30 | 2015-03-05 | Fujitsu Limited | Voice processing apparatus and voice processing method |
CN103886871A (zh) * | 2014-01-28 | 2014-06-25 | 华为技术有限公司 | 语音端点的检测方法和装置 |
CN106782508A (zh) * | 2016-12-20 | 2017-05-31 | 美的集团股份有限公司 | 语音音频的切分方法和语音音频的切分装置 |
CN106991998A (zh) * | 2017-04-19 | 2017-07-28 | 重庆邮电大学 | 噪声环境下语音端点的检测方法 |
CN107680584A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887526A (zh) * | 2019-01-04 | 2019-06-14 | 平安科技(深圳)有限公司 | 对母羊的生理状态检测方法、装置、设备及存储介质 |
CN109887526B (zh) * | 2019-01-04 | 2023-10-17 | 平安科技(深圳)有限公司 | 对母羊的生理状态检测方法、装置、设备及存储介质 |
US11990150B2 (en) | 2019-05-13 | 2024-05-21 | Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. | Method and device for audio repair and readable storage medium |
WO2020228107A1 (zh) * | 2019-05-13 | 2020-11-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频修复方法、设备及可读存储介质 |
WO2021000389A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 一种多媒体文件处理方法、装置及计算机可读存储介质 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN110992989A (zh) * | 2019-12-06 | 2020-04-10 | 广州国音智能科技有限公司 | 语音采集方法、装置及计算机可读存储介质 |
CN110992989B (zh) * | 2019-12-06 | 2022-05-27 | 广州国音智能科技有限公司 | 语音采集方法、装置及计算机可读存储介质 |
WO2021159635A1 (zh) * | 2020-02-14 | 2021-08-19 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
CN111953727A (zh) * | 2020-05-06 | 2020-11-17 | 上海明略人工智能(集团)有限公司 | 音频传输方法和装置 |
CN111640422A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音人声分离方法、装置、终端及存储介质 |
WO2022105570A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 语音端点检测方法、装置、设备及计算机可读存储介质 |
CN112509609A (zh) * | 2020-12-16 | 2021-03-16 | 北京乐学帮网络技术有限公司 | 音频处理方法、装置、电子设备以及存储介质 |
CN112509609B (zh) * | 2020-12-16 | 2022-06-10 | 北京乐学帮网络技术有限公司 | 音频处理方法、装置、电子设备以及存储介质 |
CN113192488A (zh) * | 2021-04-06 | 2021-07-30 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109087632B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087632A (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
CN110473518B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN104992704B (zh) | 语音合成方法和装置 | |
CN108510990A (zh) | 语音识别方法、装置、用户设备及存储介质 | |
CN109885365A (zh) | 操作引导方法、装置、计算机设备和存储介质 | |
CN109102797A (zh) | 语音识别测试方法、装置、计算机设备及存储介质 | |
CN110047469B (zh) | 语音数据情感标注方法、装置、计算机设备及存储介质 | |
CN109871326A (zh) | 一种脚本录制的方法和装置 | |
CN110177182A (zh) | 敏感数据处理方法、装置、计算机设备及存储介质 | |
CN110335592B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN106843737A (zh) | 文本输入方法、装置及终端设备 | |
CN109634501B (zh) | 电子书批注添加方法、电子设备及计算机存储介质 | |
US10891945B2 (en) | Method and apparatus for judging termination of sound reception and terminal device | |
CN111768760B (zh) | 一种多模态语音端点检测方法及装置 | |
CN111081257A (zh) | 一种语音采集方法、装置、设备及存储介质 | |
CN109241334A (zh) | 音频关键字质检方法、装置、计算机设备及存储介质 | |
CN106601254A (zh) | 信息输入方法和装置及计算设备 | |
CN108847222B (zh) | 语音识别模型生成方法、装置、存储介质及电子设备 | |
CN110532522A (zh) | 音频标注的检错方法、装置、计算机设备和存储介质 | |
CN110890088A (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN107895572A (zh) | 一种语音识别训练方法及*** | |
CN103246648A (zh) | 语音输入控制方法及装置 | |
CN114766093A (zh) | 一种录屏方法、装置及计算机可读存储介质 | |
CN109378001A (zh) | 一种语音交互方法、装置、电子设备及可读存储介质 | |
CN113571096B (zh) | 语音情绪分类模型训练方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |