CN106205635A - 语音处理方法及*** - Google Patents

语音处理方法及*** Download PDF

Info

Publication number
CN106205635A
CN106205635A CN201610546522.0A CN201610546522A CN106205635A CN 106205635 A CN106205635 A CN 106205635A CN 201610546522 A CN201610546522 A CN 201610546522A CN 106205635 A CN106205635 A CN 106205635A
Authority
CN
China
Prior art keywords
eigenvalue
speech
audio
frequency information
tested speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610546522.0A
Other languages
English (en)
Inventor
蒋直平
于健昕
胡幽
滕晓雯
邓英捷
李帅
俞永斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610546522.0A priority Critical patent/CN106205635A/zh
Publication of CN106205635A publication Critical patent/CN106205635A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音处理方法及***,以实现语音的在线测试。执行于手机客户端的语音处理方法包括:获取用户的语音测试请求;根据所述语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号;采集用户朗读该段文字的音频信息;对所述采集的音频信息进行模数转换及降噪处理;提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端。

Description

语音处理方法及***
技术领域
本发明涉及通信技术领域,尤其涉及一种语音处理方法及***。
背景技术
语言是最重要的交际工具和信息载体,民族共同语的普及是国家统一、民族团结、社会进步的重要基础,我国是一个多民族、多语言的国家,母语环境较为宽松,人们最初所***台,人们可以尝试通过智能移动终端来进行普通话测试。例如,基于Android设备的普通话评价与指导***来进行普通话测试,耗时短,成本低,使用方便,客观公正。
发明内容
本发明的主要目的在于公开一种语音处理方法及***,以实现语音的在线测试。
为实现上述目的,本发明公开了一种语音处理方法,执行于手机客户端,包括:
获取用户的语音测试请求;
根据所述语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号;
采集用户朗读该段文字的音频信息;
对所述采集的音频信息进行模数转换及降噪处理;
提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端。
为实现上述目的,本发明还公开了一种语音处理方法,执行于服务器端,包括:
接收手机客户端所发送的测试语音特征值和***编号;
根据所述***编号搜索对应的标准语音特征值;
将所述测试语音特征值与相应的标准语音特征值进行相关性比较;
将相关性比较的结果返回所述手机客户端。
为实现上述目的,本发明还公开了一种语音处理***,包括:
手机客户端,用于获取用户的语音测试请求;根据所述语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号;采集用户朗读该段文字的音频信息;对所述采集的音频信息进行模数转换及降噪处理;提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端;
服务器端,用于接收手机客户端所发送的测试语音特征值和***编号;根据所述***编号搜索对应的标准语音特征值;将所述测试语音特征值与相应的标准语音特征值进行相关性比较;将相关性比较的结果返回所述手机客户端。
本发明具有以下有益效果:
采用B/S网络架构来实现在线测试,极大提高了监测的便捷性。同时,由客户端提取测试语音特征值,减少了数据的传输量,缓解了服务器端的数据处理压力,而且将降噪处理也放在客户端,该降噪处理可利用手机通话过程中固有的降噪模块进行处理,易于实现且精度高,可有效消除客户端本身及其数据传输过程中引入新的噪音,进一步提高了语音测试的准确性。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例公开的语音处理方法执行于手机客户端的流程图;
图2是本发明优选实施例公开的语音处理方法执行于服务器端的流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明实施例首先公开一种语音处理方法,该方法可运行于基于Android平台或IOS等平台的手机客户端上,其具体表现形式包括但不限于基于相应平台所开发及加载的应用APP及其配套硬件的组合,该手机客户端与远程的服务器端可通过socket通信。如图1所示,该方法执行于手机客户端的流程包括:
步骤S1、获取用户的语音测试请求。该语音测试请求可通过点击相应APP中的触控按键或菜单发出。
步骤S2、根据该语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号。通常,服务器端存储多段测试文字,客户端可以视资源情况在本地存储并同步各测试段文字。其中,输出供用户朗读的测试段文字可以是随机方式,也可以按顺序循环等方式。
步骤S3、采集用户朗读该段文字的音频信息。该步骤可通过麦克风协助采集。可选的,采样率设置在最高每秒44100,保证了最高质量的音频样本;声道设置为STEREO立体声模式;采样大小为16bit,以能够得到最多的信息量,保证最高的音质效果。
步骤S4、对所采集的音频信息进行模数转换及降噪处理。
该步骤中,所采集的音频信息为有效语音段的音频信息,即在采集用户朗读该段文字的音频信息时,根据峰值剔除朗读前后的空白段环境语音。
该步骤中,降噪处理包括预先采集一段环境音频(可以是上段所描述的空白段语音),获得该环境音频的频率信息,然后与测试语音的频率信息相减,得到去除环境噪声的测试语音的音频信息。
步骤S5、提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端。可选的,编码制式可使用PCM编码(Pulse Code Modularion,脉冲代码调制编码),其通过抽样、量化、编码三个步骤将连续变化的模拟信号转化为数字编码。
该步骤中,优选的,通过梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)提取语音特征值。
MFCC的分析基于人类听觉机理,具有较高的识别率和较好的鲁棒性,Mel频率表达了一种常用的从语音频率到感知频率的对应关系;通常包括下述的预加重、加窗、FFT(快速傅里叶变换)、Mel滤波、DCT(离散余弦变换)变换及归一化等处理。在实际应用中,一般对Mel频率进行如下近似:
F M e l ( f ) = &alpha; * f f < 1 k H z F M e l ( f ) = 2595 &CenterDot; lg ( 1 + f / 700 ) f &GreaterEqual; 1 k H z
其中频率f的单位是Hz,梅尔频率FMel的单位是Mel,α为线性变换系数;
因为当数据在低频处的强度高于高频处,不利于处理,所以需要通过高通滤波器滤去低频部分,突出高频部分,同时消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音***所抑制的高频部分,也为了突出高频的共振峰。即预加重处理:
S[n]=S[n]-0.95*S[n-1]
其中,S[n]为第n帧的频率。
由于分帧的下一步是FFT处理,为了保证FFT在每帧的端点处不会发生突变,需要对每帧加窗处理:
w[n]=0.54-0.46*cos(2πb/M)
M为帧长,w[n]为第n帧的加窗处理结果。
计算各帧信号的FFT。
三角带通Mel滤波器响应输出:
H m ( k ) = 0 k < f ( m - 1 ) k - f ( m - 1 ) f ( m ) - f ( m - 1 ) f ( m - 1 ) &le; k &le; f ( m ) f ( m + 1 ) - k f ( m + 1 ) - f ( m ) f ( m ) &le; k &le; f ( m + 1 ) 0 k > f ( m + 1 )
其中k为待变换频率,f(m)为当前滤波器组的分布,Hm(k)为梅尔滤波器组的响应。
DCT变换:
c &lsqb; i &rsqb; = &Sigma; i = 0 L - 1 I n ( S &lsqb; i &rsqb; ) c o s ( &pi; n 2 L ( 2 i + 1 ) )
c[i]表示MFCC的第n维特征参数,S[i]为滤波器系数,L为滤波器阶数。
归一化:
M r e c o r d i n g = 1 L &Sigma; i c ( i )
cnormalized(i)=c(i)-Mrecording
其中,Mrecording为MFCC所有特征参数的均值,cnormalized(i)为MFCC归一化后的结果。
在客户端执行于上述步骤之后,服务器端相对应执行的语音处理如图2所示,包括:
步骤S6、接收手机客户端所发送的测试语音特征值和***编号。
步骤S7、根据该***编号搜索对应的标准语音特征值。其中,该标准语音特征值事先经过样本训练已存储在服务器相对应的数据库中。
步骤S8、将测试语音特征值与相应的标准语音特征值进行相关性比较。该步骤中,可基于皮尔森相关系数进行相关性比较,主要的计算公式如下:
其中,ρx,y为计算所得出的皮尔逊相关系数,x和y为两组需要计算相关性的长度为n的数组,xi和yi分别为x和y数组中的第i个数据,分别为x和y数组中数据的平均值。
步骤S9、将相关性比较的结果返回手机客户端。该结果包括但不限于:具体测试的分值,并标注出发音不标准的字词及句等,较佳的,还可以将标准的语音发送给用户供其比较参考。
综上,本发明公开的语音处理方法,可采用B/S网络架构来实现在线测试,极大提高了监测的便捷性。同时,由客户端提取测试语音特征值,减少了数据的传输量,缓解了服务器端的数据处理压力,而且将降噪处理也放在客户端,该降噪处理可利用手机通话过程中固有的降噪模块进行处理,易于实现且精度高,可有效消除客户端本身及其数据传输过程中引入新的噪音,进一步提高了语音测试的准确性。
本实施例中,上述语音测试可以用于普通话测试,也可以与求职招聘***进行关联,用于对普通话要求比较高的如客服、前台、售前和售后以及公务员等岗位的求职招聘。
与上述方法实施例相对应的,下述实施例还公开一种用于执行上述方法的配套***。
该***包括于机客户端和服务器端,其中:
手机客户端,用于获取用户的语音测试请求;根据语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号;采集用户朗读该段文字的音频信息;对采集的音频信息进行模数转换及降噪处理;提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端。
服务器端,用于接收手机客户端所发送的测试语音特征值和***编号;根据***编号搜索对应的标准语音特征值;将测试语音特征值与相应的标准语音特征值进行相关性比较;将相关性比较的结果返回手机客户端。
可选的,该***可通过梅尔倒谱系数提取语音特征值,并基于皮尔森相关系数将测试语音特征值与相应的标准语音特征值进行相关性比较。
较佳的,上述手机客户端还用于:预先采集一段环境音频,获得该环境音频的频率信息,然后与测试语音的频率信息相减,得到去除环境噪声的测试语音的音频信息,实现降噪处理。进一步的,该手机客户端还用于:在采集用户朗读该段文字的音频信息时,根据峰值剔除朗读前后的空白段环境语音。
本实施例公开的上述***,可采用B/S网络架构来实现在线测试,极大提高了监测的便捷性。同时,由客户端提取测试语音特征值,减少了数据的传输量,缓解了服务器端的数据处理压力,而且将降噪处理也放在客户端,该降噪处理可利用手机通话过程中固有的降噪模块进行处理,易于实现且精度高,可有效消除客户端本身及其数据传输过程中引入新的噪音,进一步提高了语音测试的准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音处理方法,执行于手机客户端,其特征在于,包括:
获取用户的语音测试请求;
根据所述语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号;
采集用户朗读该段文字的音频信息;
对所述采集的音频信息进行模数转换及降噪处理;
提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端。
2.根据权利要求1所述的语音处理方法,其特征在于,通过梅尔倒谱系数提取语音特征值。
3.根据权利要求1或2所述的语音处理方法,其特征在于,所述降噪处理包括:
预先采集一段环境音频,获得该环境音频的频率信息,然后与测试语音的频率信息相减,得到去除环境噪声的测试语音的音频信息。
4.根据权利要求1或2所述的语音处理方法,其特征在于,还包括:
在采集用户朗读该段文字的音频信息时,根据峰值剔除朗读前后的空白段环境语音。
5.一种语音处理方法,执行于服务器端,其特征在于,包括:
接收手机客户端所发送的测试语音特征值和***编号;
根据所述***编号搜索对应的标准语音特征值;
将所述测试语音特征值与相应的标准语音特征值进行相关性比较;
将相关性比较的结果返回所述手机客户端。
6.根据权利要求5所述的语音处理方法,其特征在于,所述将所述测试语音特征值与相应的标准语音特征值进行相关性比较是基于皮尔森相关系数进行相关性比较。
7.一种语音处理***,其特征在于,包括:
手机客户端,用于获取用户的语音测试请求;根据所述语音测试请求输出一段文字显示在屏幕上,供用户朗读,并记录该段文字的***编号;采集用户朗读该段文字的音频信息;对所述采集的音频信息进行模数转换及降噪处理;提取降噪处理后测试语音特征值,并将该测试语音特征值连同***编号发送给远程服务器端;
服务器端,用于接收手机客户端所发送的测试语音特征值和***编号;根据所述***编号搜索对应的标准语音特征值;将所述测试语音特征值与相应的标准语音特征值进行相关性比较;将相关性比较的结果返回所述手机客户端。
8.根据权利要求7所述的语音处理***,其特征在于,通过梅尔倒谱系数提取语音特征值,并基于皮尔森相关系数将所述测试语音特征值与相应的标准语音特征值进行相关性比较。
9.根据权利要求7或8所述的语音处理***,其特征在于,所述手机客户端还用于:
预先采集一段环境音频,获得该环境音频的频率信息,然后与测试语音的频率信息相减,得到去除环境噪声的测试语音的音频信息,以实现降噪处理。
10.根据权利要求7或8所述的语音处理***,其特征在于,所述手机客户端还用于:在采集用户朗读该段文字的音频信息时,根据峰值剔除朗读前后的空白段环境语音。
CN201610546522.0A 2016-07-13 2016-07-13 语音处理方法及*** Pending CN106205635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610546522.0A CN106205635A (zh) 2016-07-13 2016-07-13 语音处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610546522.0A CN106205635A (zh) 2016-07-13 2016-07-13 语音处理方法及***

Publications (1)

Publication Number Publication Date
CN106205635A true CN106205635A (zh) 2016-12-07

Family

ID=57477558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610546522.0A Pending CN106205635A (zh) 2016-07-13 2016-07-13 语音处理方法及***

Country Status (1)

Country Link
CN (1) CN106205635A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952656A (zh) * 2017-03-13 2017-07-14 中南大学 语言感染力远程测评方法及***
CN107068145A (zh) * 2016-12-30 2017-08-18 中南大学 语音评测方法及***
CN109961802A (zh) * 2019-03-26 2019-07-02 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质
CN112509609A (zh) * 2020-12-16 2021-03-16 北京乐学帮网络技术有限公司 音频处理方法、装置、电子设备以及存储介质
CN114221943A (zh) * 2021-12-22 2022-03-22 广州市保伦电子有限公司 一种基于rabbitmq的广播对讲***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009089922A1 (en) * 2008-01-14 2009-07-23 Telefonaktiebolaget Lm Ericsson (Publ) Objective measurement of audio quality
CN102509483A (zh) * 2011-10-31 2012-06-20 苏州思必驰信息科技有限公司 一种口语考试的分布式自动评分***及其方法
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和***
CN105260745A (zh) * 2015-09-30 2016-01-20 西安沧海网络科技有限公司 一种基于大数据进行情感识别及预测的信息推送服务***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009089922A1 (en) * 2008-01-14 2009-07-23 Telefonaktiebolaget Lm Ericsson (Publ) Objective measurement of audio quality
CN102509483A (zh) * 2011-10-31 2012-06-20 苏州思必驰信息科技有限公司 一种口语考试的分布式自动评分***及其方法
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和***
CN105260745A (zh) * 2015-09-30 2016-01-20 西安沧海网络科技有限公司 一种基于大数据进行情感识别及预测的信息推送服务***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068145A (zh) * 2016-12-30 2017-08-18 中南大学 语音评测方法及***
CN107068145B (zh) * 2016-12-30 2019-02-15 中南大学 语音评测方法及***
CN106952656A (zh) * 2017-03-13 2017-07-14 中南大学 语言感染力远程测评方法及***
CN109961802A (zh) * 2019-03-26 2019-07-02 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质
CN109961802B (zh) * 2019-03-26 2021-05-18 北京达佳互联信息技术有限公司 音质比较方法、装置、电子设备及存储介质
CN112509609A (zh) * 2020-12-16 2021-03-16 北京乐学帮网络技术有限公司 音频处理方法、装置、电子设备以及存储介质
CN112509609B (zh) * 2020-12-16 2022-06-10 北京乐学帮网络技术有限公司 音频处理方法、装置、电子设备以及存储介质
CN114221943A (zh) * 2021-12-22 2022-03-22 广州市保伦电子有限公司 一种基于rabbitmq的广播对讲***

Similar Documents

Publication Publication Date Title
CN106205635A (zh) 语音处理方法及***
CN103151042B (zh) 全自动口语评测管理与评分***及其评分方法
CN102339606B (zh) 一种抑郁情绪电话自动语音识别筛查***
Räsänen et al. ALICE: An open-source tool for automatic measurement of phoneme, syllable, and word counts from child-centered daylong recordings
CN110457432A (zh) 面试评分方法、装置、设备及存储介质
CN101923855A (zh) 文本无关的声纹识别***
CN108833722A (zh) 语音识别方法、装置、计算机设备及存储介质
CN105593936A (zh) 用于文本转语音性能评价的***和方法
Zhang et al. Effects of telephone transmission on the performance of formant-trajectory-based forensic voice comparison–female voices
CN110232932A (zh) 基于残差时延网络的说话人确认方法、装置、设备及介质
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN107086040A (zh) 语音识别能力测试方法和装置
CN112802484A (zh) 一种混合音频下的大熊猫声音事件检测方法及***
CN101751919A (zh) 一种汉语口语重音自动检测方法
Schuppler et al. GRASS: the Graz corpus of Read And Spontaneous Speech.
CN112581964B (zh) 一种面向多领域的智能语音交互方法
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和***
CN106776832A (zh) 用于问答交互日志的处理方法、装置及***
CN107808674A (zh) 一种测评语音的方法、介质、装置及电子设备
CN103730112A (zh) 语音多信道模拟与采集方法
CN107240394A (zh) 一种动态自适应语音分析技术以用于人机口语考试的方法及***
CN109741752A (zh) 一种基于语音识别的人事考评方法与***
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
Godambe et al. Speech data acquisition for voice based agricultural information retrieval
CN110390937B (zh) 一种基于ArcFace loss算法的跨信道声纹识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication