CN106205635A

CN106205635A - 语音处理方法及***

Info

Publication number: CN106205635A
Application number: CN201610546522.0A
Authority: CN
Inventors: 蒋直平; 于健昕; 胡幽; 滕晓雯; 邓英捷; 李帅; 俞永斌
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-07-13
Filing date: 2016-07-13
Publication date: 2016-12-07

Abstract

本发明公开了一种语音处理方法及***，以实现语音的在线测试。执行于手机客户端的语音处理方法包括：获取用户的语音测试请求；根据所述语音测试请求输出一段文字显示在屏幕上，供用户朗读，并记录该段文字的***编号；采集用户朗读该段文字的音频信息；对所述采集的音频信息进行模数转换及降噪处理；提取降噪处理后测试语音特征值，并将该测试语音特征值连同***编号发送给远程服务器端。

Description

语音处理方法及***

技术领域

本发明涉及通信技术领域，尤其涉及一种语音处理方法及***。

背景技术

语言是最重要的交际工具和信息载体，民族共同语的普及是国家统一、民族团结、社会进步的重要基础，我国是一个多民族、多语言的国家，母语环境较为宽松，人们最初所***台，人们可以尝试通过智能移动终端来进行普通话测试。例如，基于Android设备的普通话评价与指导***来进行普通话测试，耗时短，成本低，使用方便，客观公正。

发明内容

本发明的主要目的在于公开一种语音处理方法及***，以实现语音的在线测试。

为实现上述目的，本发明公开了一种语音处理方法，执行于手机客户端，包括：

获取用户的语音测试请求；

根据所述语音测试请求输出一段文字显示在屏幕上，供用户朗读，并记录该段文字的***编号；

采集用户朗读该段文字的音频信息；

对所述采集的音频信息进行模数转换及降噪处理；

提取降噪处理后测试语音特征值，并将该测试语音特征值连同***编号发送给远程服务器端。

为实现上述目的，本发明还公开了一种语音处理方法，执行于服务器端，包括：

接收手机客户端所发送的测试语音特征值和***编号；

根据所述***编号搜索对应的标准语音特征值；

将所述测试语音特征值与相应的标准语音特征值进行相关性比较；

将相关性比较的结果返回所述手机客户端。

为实现上述目的，本发明还公开了一种语音处理***，包括：

手机客户端，用于获取用户的语音测试请求；根据所述语音测试请求输出一段文字显示在屏幕上，供用户朗读，并记录该段文字的***编号；采集用户朗读该段文字的音频信息；对所述采集的音频信息进行模数转换及降噪处理；提取降噪处理后测试语音特征值，并将该测试语音特征值连同***编号发送给远程服务器端；

服务器端，用于接收手机客户端所发送的测试语音特征值和***编号；根据所述***编号搜索对应的标准语音特征值；将所述测试语音特征值与相应的标准语音特征值进行相关性比较；将相关性比较的结果返回所述手机客户端。

本发明具有以下有益效果：

采用B/S网络架构来实现在线测试，极大提高了监测的便捷性。同时，由客户端提取测试语音特征值，减少了数据的传输量，缓解了服务器端的数据处理压力，而且将降噪处理也放在客户端，该降噪处理可利用手机通话过程中固有的降噪模块进行处理，易于实现且精度高，可有效消除客户端本身及其数据传输过程中引入新的噪音，进一步提高了语音测试的准确性。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例公开的语音处理方法执行于手机客户端的流程图；

图2是本发明优选实施例公开的语音处理方法执行于服务器端的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本发明实施例首先公开一种语音处理方法，该方法可运行于基于Android平台或IOS等平台的手机客户端上，其具体表现形式包括但不限于基于相应平台所开发及加载的应用APP及其配套硬件的组合，该手机客户端与远程的服务器端可通过socket通信。如图1所示，该方法执行于手机客户端的流程包括：

步骤S1、获取用户的语音测试请求。该语音测试请求可通过点击相应APP中的触控按键或菜单发出。

步骤S2、根据该语音测试请求输出一段文字显示在屏幕上，供用户朗读，并记录该段文字的***编号。通常，服务器端存储多段测试文字，客户端可以视资源情况在本地存储并同步各测试段文字。其中，输出供用户朗读的测试段文字可以是随机方式，也可以按顺序循环等方式。

步骤S3、采集用户朗读该段文字的音频信息。该步骤可通过麦克风协助采集。可选的，采样率设置在最高每秒44100，保证了最高质量的音频样本；声道设置为STEREO立体声模式；采样大小为16bit，以能够得到最多的信息量，保证最高的音质效果。

步骤S4、对所采集的音频信息进行模数转换及降噪处理。

该步骤中，所采集的音频信息为有效语音段的音频信息，即在采集用户朗读该段文字的音频信息时，根据峰值剔除朗读前后的空白段环境语音。

该步骤中，降噪处理包括预先采集一段环境音频(可以是上段所描述的空白段语音)，获得该环境音频的频率信息，然后与测试语音的频率信息相减，得到去除环境噪声的测试语音的音频信息。

步骤S5、提取降噪处理后测试语音特征值，并将该测试语音特征值连同***编号发送给远程服务器端。可选的，编码制式可使用PCM编码(Pulse Code Modularion，脉冲代码调制编码)，其通过抽样、量化、编码三个步骤将连续变化的模拟信号转化为数字编码。

该步骤中，优选的，通过梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)提取语音特征值。

MFCC的分析基于人类听觉机理，具有较高的识别率和较好的鲁棒性，Mel频率表达了一种常用的从语音频率到感知频率的对应关系；通常包括下述的预加重、加窗、FFT(快速傅里叶变换)、Mel滤波、DCT(离散余弦变换)变换及归一化等处理。在实际应用中，一般对Mel频率进行如下近似：

\{\begin{matrix} F_{M e l} (f) = α * f & f < 1 k H z \\ F_{M e l} (f) = 2595 \cdot \lg (1 + f / 700) & f &GreaterEqual; 1 k H z \end{matrix}

其中频率f的单位是Hz，梅尔频率F_Mel的单位是Mel，α为线性变换系数；

因为当数据在低频处的强度高于高频处，不利于处理，所以需要通过高通滤波器滤去低频部分，突出高频部分，同时消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音***所抑制的高频部分，也为了突出高频的共振峰。即预加重处理：

S[n]＝S[n]-0.95*S[n-1]

其中，S[n]为第n帧的频率。

由于分帧的下一步是FFT处理，为了保证FFT在每帧的端点处不会发生突变，需要对每帧加窗处理：

w[n]＝0.54-0.46*cos(2πb/M)

M为帧长，w[n]为第n帧的加窗处理结果。

计算各帧信号的FFT。

三角带通Mel滤波器响应输出：

H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)} & f (m - 1) \leq k \leq f (m) \\ \frac{f (m + 1) - k}{f (m + 1) - f (m)} & f (m) \leq k \leq f (m + 1) \\ 0 & k > f (m + 1) \end{matrix}

其中k为待变换频率，f(m)为当前滤波器组的分布，H_m(k)为梅尔滤波器组的响应。

DCT变换：

c [i] = Σ_{i = 0}^{L - 1} I n (S [i]) c o s (\frac{π n}{2 L} (2 i + 1))

c[i]表示MFCC的第n维特征参数，S[i]为滤波器系数，L为滤波器阶数。

归一化：

M_{r e c o r d i n g} = \frac{1}{L} \underset{i}{Σ} c (i)

c_normalized(i)＝c(i)-M_recording

其中，M_recording为MFCC所有特征参数的均值，c_normalized(i)为MFCC归一化后的结果。

在客户端执行于上述步骤之后，服务器端相对应执行的语音处理如图2所示，包括：

步骤S6、接收手机客户端所发送的测试语音特征值和***编号。

步骤S7、根据该***编号搜索对应的标准语音特征值。其中，该标准语音特征值事先经过样本训练已存储在服务器相对应的数据库中。

步骤S8、将测试语音特征值与相应的标准语音特征值进行相关性比较。该步骤中，可基于皮尔森相关系数进行相关性比较，主要的计算公式如下：

其中，ρ_x，y为计算所得出的皮尔逊相关系数，x和y为两组需要计算相关性的长度为n的数组，x_i和y_i分别为x和y数组中的第i个数据，和分别为x和y数组中数据的平均值。

步骤S9、将相关性比较的结果返回手机客户端。该结果包括但不限于：具体测试的分值，并标注出发音不标准的字词及句等，较佳的，还可以将标准的语音发送给用户供其比较参考。

综上，本发明公开的语音处理方法，可采用B/S网络架构来实现在线测试，极大提高了监测的便捷性。同时，由客户端提取测试语音特征值，减少了数据的传输量，缓解了服务器端的数据处理压力，而且将降噪处理也放在客户端，该降噪处理可利用手机通话过程中固有的降噪模块进行处理，易于实现且精度高，可有效消除客户端本身及其数据传输过程中引入新的噪音，进一步提高了语音测试的准确性。

本实施例中，上述语音测试可以用于普通话测试，也可以与求职招聘***进行关联，用于对普通话要求比较高的如客服、前台、售前和售后以及公务员等岗位的求职招聘。

与上述方法实施例相对应的，下述实施例还公开一种用于执行上述方法的配套***。

该***包括于机客户端和服务器端，其中：

手机客户端，用于获取用户的语音测试请求；根据语音测试请求输出一段文字显示在屏幕上，供用户朗读，并记录该段文字的***编号；采集用户朗读该段文字的音频信息；对采集的音频信息进行模数转换及降噪处理；提取降噪处理后测试语音特征值，并将该测试语音特征值连同***编号发送给远程服务器端。

服务器端，用于接收手机客户端所发送的测试语音特征值和***编号；根据***编号搜索对应的标准语音特征值；将测试语音特征值与相应的标准语音特征值进行相关性比较；将相关性比较的结果返回手机客户端。

可选的，该***可通过梅尔倒谱系数提取语音特征值，并基于皮尔森相关系数将测试语音特征值与相应的标准语音特征值进行相关性比较。

较佳的，上述手机客户端还用于：预先采集一段环境音频，获得该环境音频的频率信息，然后与测试语音的频率信息相减，得到去除环境噪声的测试语音的音频信息，实现降噪处理。进一步的，该手机客户端还用于：在采集用户朗读该段文字的音频信息时，根据峰值剔除朗读前后的空白段环境语音。

本实施例公开的上述***，可采用B/S网络架构来实现在线测试，极大提高了监测的便捷性。同时，由客户端提取测试语音特征值，减少了数据的传输量，缓解了服务器端的数据处理压力，而且将降噪处理也放在客户端，该降噪处理可利用手机通话过程中固有的降噪模块进行处理，易于实现且精度高，可有效消除客户端本身及其数据传输过程中引入新的噪音，进一步提高了语音测试的准确性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，执行于手机客户端，其特征在于，包括：

获取用户的语音测试请求；

采集用户朗读该段文字的音频信息；

对所述采集的音频信息进行模数转换及降噪处理；

2.根据权利要求1所述的语音处理方法，其特征在于，通过梅尔倒谱系数提取语音特征值。

3.根据权利要求1或2所述的语音处理方法，其特征在于，所述降噪处理包括：

预先采集一段环境音频，获得该环境音频的频率信息，然后与测试语音的频率信息相减，得到去除环境噪声的测试语音的音频信息。

4.根据权利要求1或2所述的语音处理方法，其特征在于，还包括：

在采集用户朗读该段文字的音频信息时，根据峰值剔除朗读前后的空白段环境语音。

5.一种语音处理方法，执行于服务器端，其特征在于，包括：

接收手机客户端所发送的测试语音特征值和***编号；

根据所述***编号搜索对应的标准语音特征值；

将相关性比较的结果返回所述手机客户端。

6.根据权利要求5所述的语音处理方法，其特征在于，所述将所述测试语音特征值与相应的标准语音特征值进行相关性比较是基于皮尔森相关系数进行相关性比较。

7.一种语音处理***，其特征在于，包括：

8.根据权利要求7所述的语音处理***，其特征在于，通过梅尔倒谱系数提取语音特征值，并基于皮尔森相关系数将所述测试语音特征值与相应的标准语音特征值进行相关性比较。

9.根据权利要求7或8所述的语音处理***，其特征在于，所述手机客户端还用于：

预先采集一段环境音频，获得该环境音频的频率信息，然后与测试语音的频率信息相减，得到去除环境噪声的测试语音的音频信息，以实现降噪处理。

10.根据权利要求7或8所述的语音处理***，其特征在于，所述手机客户端还用于：在采集用户朗读该段文字的音频信息时，根据峰值剔除朗读前后的空白段环境语音。