CN102237083A - 一种基于WinCE平台的便携式口语翻译***及其语言识别方法 - Google Patents

一种基于WinCE平台的便携式口语翻译***及其语言识别方法 Download PDF

Info

Publication number
CN102237083A
CN102237083A CN2010101605215A CN201010160521A CN102237083A CN 102237083 A CN102237083 A CN 102237083A CN 2010101605215 A CN2010101605215 A CN 2010101605215A CN 201010160521 A CN201010160521 A CN 201010160521A CN 102237083 A CN102237083 A CN 102237083A
Authority
CN
China
Prior art keywords
module
voice
algorithm
model
system based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010101605215A
Other languages
English (en)
Inventor
李心广
阳爱民
姚敏锋
张晶
马文华
陈永煊
林江豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN2010101605215A priority Critical patent/CN102237083A/zh
Publication of CN102237083A publication Critical patent/CN102237083A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明为一种基于WinCE平台的便携式口语翻译***,包括语音采集器、语音预处理模块、语音特征提取与建模模块、模型库、识别模块、语料库和翻译与语音合成模块,所有模块均建立在嵌入式平台上;语音采集模块与语音预处理模块连接;语音预处理模块与语音特征提取与建模模块连接;语音特征提取与建模模块分别与模型库或识别模块连接;所述语音特征提取与建模模块通过选择为训练状态与模型库连接,通过选择识别状态,与识别模块连接;识别模块与翻译与语音合成模块连接;翻译与语音合成模块与语料库连接。本发明具有语音识别时效率更高,识别准确率高,设备便携性强,双向口语翻译的特点。

Description

一种基于WinCE平台的便携式口语翻译***及其语言识别方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于将人发出的语音信号识别后转变为相应的翻译结果的基于WinCE平台的便携式口语翻译***。本发明还涉及该翻译***的语音识别方法。
背景技术
语音识别技术就是让机器通过识别和理解,把人发出的语音信号转变为相应的文本或作出设定命令的技术,它正逐步成为信息技术中人机接口的关键技术。近年来,随着嵌入式设备的快速发展,消费类电子产品深入到我们生活的各个领域,其便携,成本低等特点得到了广泛的应用,因此,基于嵌入式的语音识别***具有很大的消费市场。而传统的语音识别***,如微软的SPEECHSDK 5.1,剑桥的HTK都只是基于PC机操作***的语音识别引擎,不能被应用在嵌入式操作***中。
发明内容
本发明的目的在于设计基于WinCE平台的便携式口语翻译***,能在嵌入式***资源有限的情况下,实现大词汇的识别功能,且具有较高识别率,并实现从中文到英文或英文到中文的口语双向翻译。。
本发明的另外一个目的在于提供该翻译***的语音识别方法。
为了实现上述发明目的,本发明包括如下技术特征:一种基于WinCE平台的便携式口语翻译***,其特征在于:包括语音采集器、语音预处理模块、语音特征提取与建模模块、模型库、识别模块、语料库和翻译与语音合成模块,所有模块均建立在嵌入式平台上;语音采集模块与语音预处理模块连接;语音预处理模块与语音特征提取与建模模块连接;语音特征提取与建模模块分别与模型库或识别模块连接;所述语音特征提取与建模模块通过选择为训练状态与模型库连接,通过选择识别状态,与识别模块连接;识别模块与翻译与语音合成模块连接;翻译与语音合成模块与语料库连接;所述识别模块经过决策判断得到最优结果后通过翻译与语音合成模块翻译成文本,并以语音形式输出;经过语言选择,实现从中文到英文或英文到中文的口语双向翻译。
所述语音预处理模块包括依次连接的预加重单元、分帧处理单元、加窗单元和端点检测单元;预加重单元与语音采集器连接,端点检测单元与语音特征提取与建模模块连接;
所述预加重单元为高频提升预加重数字滤波器;
所述分帧处理单元采取半帧交叠分帧方式来进行分帧处理;
所述加窗单元采用汉明窗函数来进行窗化;
所述端点检测单元采用以短时能量E和短时平均过零率Z作为特征的双门限比较,并根据静音段计算过零率阀值ZcT及高低能量阀值作为门限,进行端点的检测。
所述语音特征提取与建模模块通过提取MFCC语音特征作为识别特征;采用隐马尔可夫模型作为训练及识别模型;该隐马尔可夫模型由马尔可夫链和一般随机过程组成;
所述隐马尔可夫模型利用前向后向概率算法解决估值问题;利用Viterbi算法解决解码问题;利用Baum-Welch迭代算法解决学习问题。
具体为:利用前向后向概率算法,解决对于给定的隐马尔可夫模型***λ=(π,A,B),根据***产生的观察序列O=O1,O2,...,OT计算似然概率P(O/λ)的问题。
利用Viterbi算法,解决对于给定的隐马尔可夫模型***λ=(π,A,B),以及由***产生的观察序列O=O1,O2,...,OT,搜索使该***产生此观察序列最有可能经历的状态序列S=q1,q2...qt的问题。
对于未知的隐马尔可夫模型***,利用Baum-Welch迭代算法来估计模型参数。
本发明还包括一种基于WinCE平台的便携式口语翻译***的语言识别方法,其特征在于包括如下步骤:
(1)对隐马尔可夫模型进行训练获得模型参数;
(2)将特征提取模块得到的语音特征作为隐马尔可夫模型的观察序列;训练得到的语音单元为状态序列,通过Viterbi算法解出状态转移序列;
(3)采用决策判决,得到最大概率的状态转移序列;
(4)根据最佳状态序列对应出候选音素或音节,最后通过语言模型形成词和句子。
所述步骤(1)先初始化隐马尔可夫模型参数,然后利用Baum-Welch迭代算法来估计模型参数。
所述步骤(1)利用训练算法进行多次迭代得到结果,同时还应该给出一个结束迭代的条件,当此概率的相对变化小于ε,结束迭代过程,另外,设定最大迭代次数N,当迭代次数大于N时,也停止迭代,并且对Baum-Welch算法采用增加比例因子的方法,修正算法的数据下溢问题。
本发明为一种基于WinCE平台的便携式口语翻译***及其语言识别方法,其硬件核心为嵌入式处理器,嵌入式***具有低成本,低功耗,高性能,便携性强等优良品质。在语音预处理模块中包括预加重单元、分帧处理单元、加窗单元和端点检测单元,通过对采集到的声音信号进行预先处理,使得嵌入式***在后期语音识别时效率更高,识别准确率也更高。采用隐马尔可夫模型,训练模型库,再用其进行模型识别,使识别过程更加准确高效。本发明与现有技术相比,具有双向翻译,低成本、低功耗,高性能,便携性强等优点,并在语音识别***领域具有很大消费市场。
附图说明
图1为隐马尔可夫模型的组成示意图
图2前向后向算法示意图
图3隐马尔可夫模型参数训练流程图
图4无跨越的从左向右的隐马尔可夫模型结构
图5隐马尔可夫模型识别过程;
图6为本发明的模块原理图;
图7为本发明识别模块的转移概率处理过程;
图8为本发明翻译与语音合成模块的语料库结构图。
具体实施方式
本发明为一种基于WinCE平台的便携式口语翻译***,设计实现了一个基于wince的语音识别***,嵌入式***具有低成本,低功耗,高性能等优良品质,其核心部分为其嵌入式处理器,目前,ARM微处理主要包括ARM7系列、ARM9系列、ARM9E系列、ARM10E系列、ARM11系列,其功能越来越强大。本发明使用嵌入式***科研平台UP-CPU 6410,采用Samsung公司最新的S3C6410X(ARM11)嵌入式微处理器,其频率达到633M,是一款基于ARM1176JZF-S核心,采用ARM v6构架的处理器。
本发明的模块原理图如图6所示,通过语音采集器1麦克风采集输入的语音信号,通过语音预处理模块2对语音信号进行预加重,分帧,加窗,端点检测等处理,实现上述处理功能的是预加重单元21、分帧处理单元22、加窗单元23和端点检测单元24。然后通过语音特征提取与建模模块3对语音信息进行特征提和训练语音模型,语音特征提取与建模模块3与模型库4或识别模块5连接,通过翻译与语音合成模块7读取语料库6,翻译成文本并合成语音输出。
下面分别对涉及到的各个模块单元进行说明:
一、预加重单元21
语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/oct(倍频程)衰减,频率越高相应的成分越小,为此要在对语音信号进行分析之前对其高频部分加以提升。因此在对语音信号进行分析之前通常采用一个6dB/oct的高频提升预加重数字滤波器处理语音信号,实现对其高频部分加以提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪求频谱。滤波响应函数为:
H(z)=1-αz-1,0.9≤α≤1.0
其中α为预加重系数,通常取0.9375,这样,预加重网络的输出
Figure GSA00000109878500051
和输入的语音信号s(n)的关系可用差分方程表示。
二、分帧处理单元22
语音信号具有时变特性,但是在一个短时间范围内,其特性基本保持不变即相对稳定,语音信号的这种特性称为“短时性”,这一短段时间一般为10~30ms。所以语音信号的分析和处理一般建立在“短时性”的基础上,即进行“短时分析”,对语音信号流采用分帧处理。一般每秒的帧数有
Frames per sec ond = 1 t ( 0.01 < t < 0.03 )
视实际情况而定。分帧既可以采用连续方式,也可采用交叠分帧的方式,由于语音信号之间存在相关性,本发明中采用半帧交叠分帧的方式。
这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。
三、加窗单元23
语音信号具有短时平稳性,可以对信号进行分帧处理。而为实现对语音信号中抽样n附近的语音波形加以强调而对波形的其余部分加以减弱,紧接着还要对其加窗处理。对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或施以某种运算,其一般式为:
Q n = &Sigma; m = - &infin; &infin; T [ s ( n ) ] &omega; ( n - m )
其中T[]表示某种变换,它可以是线性的也可以是非线性的,s(n)为输入语音信号系列。Qn是所有各段经过处理后得到的一个时间序列。
发明中选用汉明窗
Figure GSA00000109878500062
四、端点检测单元24
语音信号处理中的端点检测主要是为了自动检测出语音的起始点及结束点。本发明采用了双门限比较法来进行端点检测。双门限比较法以短时能量E和短时平均过零率Z作为特征,结合Z和E的优点,使检测更为准确,有效降低***的处理时间,提高***处理的实时性,而且能排除无声段的噪声干扰,从而提高的识别性能。
双门限比较法中,短时能量E和短时平均过零率Z特征计算分别如下:
(1)短时能量E
语音信号s(n)的短时能量的定义为:
E n = &Sigma; m - &infin; &infin; [ s ( n ) &omega; ( n - m ) ] 2
其中ω(n)为汉明窗的窗函数。
对于上式,若令h(n)=ω2(n),则有:
E n = &Sigma; m = - &infin; &infin; s 2 ( n ) h ( n - m ) = s 2 ( n ) * h ( n )
上式表示可知,窗口变换的短时能量相当于将“语音平方”的信号通过一个线性滤波器输出,该滤波器的单位取样响应为h(n)。其实现框图如下:
Figure GSA00000109878500073
                 短时能量的实现框图
对于以n为标志的某帧语音信号的短时平均能量En为:
E n = &Sigma; m = n - N + 1 n [ s ( m ) &omega; ( n - m ) ] 2
(2)短时平均过零率Z
短时平均过零率定义
Z n = &Sigma; m = - &infin; &infin; Sgn [ s ( m ) ] - Sgn [ s ( m - 1 ) ]
其中Sgn[·]为符号函数,即
Figure GSA00000109878500076
s(n)为语音信号。
Z n = &Sigma; m = - &infin; &infin; | Sgn [ s ( m ) ] - Sgn [ s ( m - 1 ) ] | &omega; ( n - m )
= | Sgn [ s ( n ) ] - Sgn [ s ( n - 1 ) ] | * &omega; ( n )
其中ω(n)为窗函数。
其实现框图如下:
Figure GSA00000109878500081
声音信号开始的短时段为均匀分布的背景噪声信号。在采用双门限比较法进行端点检测时,需要根据开始的“静音”段计算过零率阀值ZcT及高低能量阀值ETL(低能量阀)和ETU(高能量阀)来作为门限,才可实现端点的准确检测。
过零率阀值ZcT=min(IF,Zc+2*σzc),其中IF为经验值,本发明取IF=25;Zc、σzc分别为最初“静音”段的过零率的均值和标准差。
对于ETL(低能量阀)和ETU(高能量阀),需先算出“静音”段的短时平均能量,最大能量值记为Emax,最小能量值记为Emin。令:
I1=0.03*(Emax-Emin)+Emin
I2=4*Emin
则有:
ETL=min(I1,I2)
ETU=5*ETL
利用ZcT及ETL和ETU作为门限进行检测时,设起始帧为N1,则N1帧处的能量EN1及过零率ZN1同时满足ETU>EN1>ETL,EN1+1>ETU,ZN1>ZcT;在结束帧N2处的能量EN2及过零率ZN2同时满足(调整系数k=4),ZN1<ZcT。
采用双门限比较法,结合了旁帧的情况,可有效避免噪声的影响,提高检测度,使语音特征提取具有高效性,利于识别率的提高。
五、语音特征提取与建模模块3
本发明采用的提取基于听觉特性的MFCC语音特征作为识别的特征。Mel倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)是根据人类听觉***的特性提出的,模拟人耳对不同频率语音的感知。人耳分辨声音频率的过程就像一种取对数的操作。例如:在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。
其中特征提取模块3的MFCC算法过程为:
1.快速傅里叶变换(FFT):
X [ k ] = &Sigma; n = 0 N - 1 x [ n ] e - j 2 &pi; N nk , k = 0,1,2 , . . . , N - 1
x[n](n=0,1,2,...,N-1)为经过采样得到的一帧离散语音序列,N为帧长。X[k]为N点的复数系列,再对X[k]取模得信号幅度谱|X[k]|。
2.将实际频率尺度转换为Mel频率尺度:
Mel ( f ) = 2597 lg ( 1 + f 700 )
Mel(f)为Mel频率,f为实际频率,单位是Hz。
3.配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱|X[k]|滤波后的输出:
F ( l ) = &Sigma; k = f o ( l ) f h ( l ) w l ( k ) | X [ k ] | , l = 1,2 , . . . , L
其中
w l ( k ) = k - f o ( l ) f c ( l ) - f o ( l ) , f o ( l ) &le; k &le; f c ( l ) f h ( l ) - k f h ( l ) - f c ( l ) , f c ( l ) &le; k &le; f h ( l )
f o ( l ) = o ( l ) [ f s N ] , f h ( l ) = h ( l ) [ f s N ] , f c ( l ) = c ( l ) [ f s N ]
wl(k)为对应滤波器的滤波系数,o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的的下限频率、中心频率和上限频率,fs为采样率,L为滤波器个数,F(l)即为滤波输出。
4.对所有滤波器输出作对数运算,再进一步做离散余弦变换(DTC),即可得到MFCC:
M ( i ) = 2 N &Sigma; l = 1 L log F ( l ) cos [ ( l - 1 2 ) i&pi; L ] , i = 1,2 , . . . , Q
Q为MFCC参数的阶数,一般取12,M(i)即为所得MFCC参数。
本发明的语音模型采用隐马尔可夫模型,隐马尔可夫模型(HMM,HiddenMarkov Model)是一种统计信号处理模型,用参数表示的、用于描述随机过程统计特性的概率模型,由马尔可夫链演变而来。HMM的两个组成部分:马尔可夫链:描述状态的转移,用转移概率描述。一般随机过程:描述状态与观察序列间的关系,用观察值概率描述,其组成如图1。
HMM模型可表示为:λ=(N,M,π,A,B),其中
N:模型中马尔可夫链状态数目。记N个状态为θ1,...,θN,记t时刻马尔可夫链所处状态为qt,显然qt∈(θ1,...,θN)。
M:每个状态对应的可能的观察值数目。记M个观察值为V1,...,VM,记t时刻观察到的观察矢量为Ot,其中Ot∈(V1,...,VM)。
π:初始状态概率矢量,π=(π1,...,πN),其中πi=P(q1=θi),1≤i≤N。
A:状态转移概率矩阵,A=(aij)N×N,aij=P(qi+1=θj/qt=θi),1≤i,j ≤N是从状态i变化到状态j的转移概率。
B:输出概率矩阵,B=(bik)N×M
bik=P(Ot=Vk/qt=θi),1≤i≤N,1≤k≤M表示进入状态i时产生输出Vk的概率。由于aij,bik,πi都是概率,因此需要满足归一化条件:aij≥0,bik≥0,πi≥0
Figure GSA00000109878500111
并且 &Sigma; j = 1 N a ij = 1,1 &le; i &le; N , &Sigma; k = 1 M b ik = 1,1 &le; i &le; N , &Sigma; i = 1 N &pi; i = 1
HMM的涉及到三个问题:
1、估值问题
给定一个HMM***λ=(π,A,B),根据***产生的观察序列O=O1,O2,...,OT,计算似然概率P(O/λ)。对一个固定的状态序列S=q1,q2...qt,最基本的理论计算方法是将所有可能的状态序列的概率相加,即
Figure GSA00000109878500115
但是这种方法复杂度为cTT,计算量很大,因此采用前向-后向算法可有效地解决识别中的这一估计问题,计算量为c2T。
定义前向变量:at i=P(o1o2...ot,qt=i|λ)表示模型λ下,在时刻t,观测事件为Ot,状态为i的概率。下一时刻的前向变量计算公式为:
Figure GSA00000109878500116
前向后向算法的示意图如图2所示。
定义后向变量:βt(i)=P(ot+1ot+2...oT|qt=i,λ)表示从终止时刻T向后到时刻t+1的观测事件序列是(ot+1ot+2...oT),并且时刻t的状态是i的概率。前一时刻的后向变量的计算公式为:
Figure GSA00000109878500117
后向算法的示意图与前向方法类似,只是方向相反。
利用前向概率和后向概率计算估值问题时,具体计算公式如下
P ( O / &lambda; ) = &Sigma; i = 1 N &alpha; T ( i ) , P ( O / &lambda; ) = &Sigma; i = 1 N &beta; I ( i )
2、解码问题
给定一个HMM***λ=(π,A,B),以及由***产生的观察序列O=O1,O2,...,OT,搜索使该***产生此观察序列最有可能经历的状态序列S=q1,q2...qt,即求解使P(S/O,λ)最大的状态序列S。由于
Figure GSA00000109878500121
而P(O/λ)对于所有的S均相同,因此解码问题等价于求解使P(S,O/λ)最大的状态序列S。解码问题采用Viterbi算法来解决。
Figure GSA00000109878500122
表示找一个状态序列,这个状态序列在t时状态为i,并且状态i与前面t-1个状态构成的状态序列的概率值最大,算法的递推公式为:
3、学习问题
对于一个未知的HMM***,根据***产生的观测序列O=O1,O2,...,OT,如何确定模型λ=(π,A,B),即求解使***联合概率
Figure GSA00000109878500124
最大的模型参数π,A,B。学习问题对应于HMM的参数训练过程,只有观察数据,缺少对状态的描述,通常选择最大似然概率作为最优化目标,建立在期望最大化(EM)基础上,采用Baum-Welch迭代算法来估计模型参数。ξt(i,j)表示t时状态为i以及t+1时状态为j的概率
ξt(i,j)=P(qt=i,qt+1=j|O,λ)
&xi; t ( i , j ) = P ( q t = i , q t + 1 = j , O | &lambda; ) P ( O | &lambda; ) = &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) P ( O | &lambda; )
= &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) &Sigma; i = 1 N &Sigma; j = 1 N &alpha; t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j )
Figure GSA00000109878500127
表示t时状态为i的概率
Figure GSA00000109878500128
表示时刻1经过状态i次数;
所以状态转移矩阵的计算公式为:
Figure GSA00000109878500131
输出概率矩阵的计算公式为: b &OverBar; j ( k ) = &Sigma; t = 1 o t = v k T &gamma; t ( j ) &Sigma; t = 1 T &gamma; t ( j )
本发明的HMM语音识别的过程具体如下:
在语音识别中,由特征提取模块得到的MFCC语音特征即为HMM模型的观察序列;而状态则是由训练得到的语音单元。因此,在建HMM模型进行语音识别的时候,需要对模型进行训练,得到HMM模型参数,本发明训练过程如图3所示,得到了很好的训练效果。
训练过程中,首先初始化HMM参数,然后利用Baum-Welch迭代算法来估计模型参数。在实际应用中,应该利用训练算法进行多次迭代才能得到结果,同时还应该给出一个结束迭代的条件。当此概率的相对变化小于ε,结束迭代过程,另外,设定最大迭代次数N,当迭代次数大于N时,也停止迭代,并且对Baum-Welch算法采用增加比例因子的方法,修正算法的数据下溢问题。如图4所示,本发明采用的无跨越的从左向右的HMM结构。
如图5所示,当训练好HMM模型后,利用MFCC特征,结合Viterbi算法解出状态转移序列P(O|λn)(n=1...M),最终,采用决策判决,得到最大概率的状态转移序列,如图5所示。然后根据最佳状态序列对应的λ给出候选音节或声韵母,最后通过语言模型形成词和句子。
具体的模块实现说明如下:
六、识别模块5:
如图7所示,识别模块采用HMM模型,调用模型库中已训练的语音模型,同输入语音模型进行匹配。经HMM模板输出为转移概率值Pi(i=0,1...i,i为模板数),对转移概率Pi进行比较,获得最大的转移概率P值,输出相对应的文本信息,便能得到识别结果。
由于在大词汇量语音识别***中,存在大量的近音词、同音词,导致***识别率降低。为克服近音词、同音词的影响,***对匹配后产生的转移概率进行处理,其处理过程如图1所示。设定转移概率的门限值
Figure GSA00000109878500141
当Pi>PT时,输出对应文本,否则舍弃结果。
通过转移概率门限处理,有效提高了***的识别率。
七、翻译与语音合成模块:
翻译与语音合成模块主要是对由识别模块输出的隐状态与语料库进行查询匹配,将其翻译成文本,采用TTS技术,以语音形式输出。
图8是语料库的结构图。语料库采用复杂特征向量来建立。定义音素特征向量Vphoneme,有
Vphoneme=(No.,Phoneme)
其中,No.为音素编号,Phoneme为音素内容。
定义音节特征向量Vsyllable,有
Vsyllable=(No.,Syllable,No.Word,GP)
其中,No.为音节编号,Syllable为音节内容,No.Word为单词编号,GP为音素序列集。
定义单词特征向量VWord,有
VWord=(No.,Word,VectorW,NumPhrase,No.Phrase)
其中,No.为单词编号,Word为单词内容,VectorW为词性特征向量,且词性特征向量VectorW=(n,v,num,pron,adj,adv),NumPharse为以该单词为主的短语数,No.Pharse为短语编号。
定义注释向量VTran
VTran=(No.,Trann,Tranv,Trannum,Tranpron,Tranadj,Tranadv)
其中,No.为注释编号,Trann,Tranv,Trannum,Tranpron,Tranadj,Tranadv分别为词性为n,v,num,pron,adj,adv的注释。
语料库中,向量之间的某些特征存在的一定的关联关系,可通过关联特征来对向量进行跨级查询,提高查询效率。
在翻译过程中,首先根据音素特征向量Vphoneme获得音节特征向量Vsyllable的相关联信息,进而对单词特征向量VWord进行查询,最后以注释向量VTran为结果。
语音合成的主要目的是将有翻译得到的文本以语音形式输出。三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。由其合成过程如下所示:
文本分析→韵律生成→声学模块
结合上述的说明,本发明与现有技术相比,具有双向翻译,低成本、低功耗,高性能,便携性强等优点,在语音识别***领域具有很大消费市场。

Claims (9)

1.一种基于WinCE平台的便携式口语翻译***,其特征在于:包括语音采集器、语音预处理模块、语音特征提取与建模模块、模型库、识别模块、语料库和翻译与语音合成模块,所有模块均建立在嵌入式平台上;语音采集模块与语音预处理模块连接;语音预处理模块与语音特征提取与建模模块连接;语音特征提取与建模模块分别与模型库或识别模块连接;所述语音特征提取与建模模块通过选择为训练状态与模型库连接,通过选择识别状态,与识别模块连接;识别模块与翻译与语音合成模块连接;翻译与语音合成模块与语料库连接;所述识别模块经过决策判断得到最优结果后通过翻译与语音合成模块翻译成文本,并以语音形式输出;经过语言选择,实现从中文到英文或英文到中文的口语双向翻译。
2.根据权利要求1所述的基于WinCE平台的便携式口语翻译***,其特征在于:所述语音预处理模块包括依次连接的预加重单元、分帧处理单元、加窗单元和端点检测单元;预加重单元与语音采集器连接,端点检测单元与语音特征提取与建模模块连接;
所述预加重单元为高频提升预加重数字滤波器;
所述分帧处理单元采取半帧交叠分帧方式来进行分帧处理;
所述加窗单元采用汉明窗函数来进行窗化;
所述端点检测单元采用短时能量E和短时平均过零率Z作为特征的双门限比较,并根据静音段计算过零率阀值ZcT及高低能量阀值作为门限,进行端点的检测。
3.根据权利要求2所述的基于WinCE平台的便携式口语翻译***,其特征在于:所述语音特征提取与建模模块通过提取MFCC语音特征作为识别特征;建立隐马尔可夫模型为训练及识别模型,该隐马尔可夫模型由马尔可夫链和一般随机过程组成;
所述隐马尔可夫模型利用前向后向概率算法解决估值问题,利用Viterbi算法解决解码问题;利用Baum-Welch迭代算法解决学习问题。
4.根据权利要求3所述的基于WinCE平台的便携式口语翻译***,其特征在于:
利用前向后向概率算法,解决对于给定的隐马尔可夫模型***λ=(π,A,B),根据***产生的观察序列O=O1,O2,…,OT计算似然概率P(O/λ)的问题。
5.根据权利要求3所述的基于WinCE平台的便携式口语翻译***,其特征在于:利用Viterbi算法,解决对于给定的隐马尔可夫模型***λ=(π,A,B),以及由***产生的观察序列O=O1,O2,…,OT,搜索使该***产生此观察序列最有可能经历的状态序列S=q1,q2...qt的问题。
6.根据权利要求3所述的基于WinCE平台的便携式口语翻译***,其特征在于:对于未知的隐马尔可夫模型***,利用Baum-Welch迭代算法来估计模型参数。
7.根据权利要求3所述的基于WinCE平台的便携式口语翻译***的语言识别方法,其特征在于包括如下步骤:
(1)对隐马尔可夫模型进行训练获得模型参数;
(2)将特征提取模块得到的语音特征作为隐马尔可夫模型的观察序列;训练得到的语音单元为状态序列,通过Viterbi算法解出状态转移序列;
(3)采用决策判决,得到最大概率的状态转移序列;
(4)根据最佳状态序列对应出候选音节或声韵母,最后通过语言模型形成词和句子。
8.根据权利要求7所述的基于WinCE平台的便携式口语翻译***的语言识别方法,其特征在于:所述步骤(1)先初始化隐马尔可夫模型参数,然后利用Baum-Welch迭代算法来估计模型参数。
9.根据权利要求8所述的基于WinCE平台的便携式口语翻译***的语言识别方法,其特征在于:所述步骤(1)利用训练算法进行多次迭代得到结果,同时还应该给出一个结束迭代的条件,当此概率的相对变化小于ε,结束迭代过程,另外,设定最大迭代次数N,当迭代次数大于N时,也停止迭代,并且对Baum-Welch算法采用增加比例因子的方法,修正算法的数据下溢问题。
CN2010101605215A 2010-04-23 2010-04-23 一种基于WinCE平台的便携式口语翻译***及其语言识别方法 Pending CN102237083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101605215A CN102237083A (zh) 2010-04-23 2010-04-23 一种基于WinCE平台的便携式口语翻译***及其语言识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101605215A CN102237083A (zh) 2010-04-23 2010-04-23 一种基于WinCE平台的便携式口语翻译***及其语言识别方法

Publications (1)

Publication Number Publication Date
CN102237083A true CN102237083A (zh) 2011-11-09

Family

ID=44887672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101605215A Pending CN102237083A (zh) 2010-04-23 2010-04-23 一种基于WinCE平台的便携式口语翻译***及其语言识别方法

Country Status (1)

Country Link
CN (1) CN102237083A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663143A (zh) * 2012-05-18 2012-09-12 徐信 一种音视频语音处理与检索的***和方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别***及其识别方法
CN103811008A (zh) * 2012-11-08 2014-05-21 ***通信集团上海有限公司 一种音频内容识别方法和装置
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其***
CN104834393A (zh) * 2015-06-04 2015-08-12 携程计算机技术(上海)有限公司 自动化测试装置及***
CN107170453A (zh) * 2017-05-18 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
CN108460027A (zh) * 2018-02-14 2018-08-28 广东外语外贸大学 一种口语即时翻译方法及***
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN112329484A (zh) * 2020-11-06 2021-02-05 中国联合网络通信集团有限公司 自然语言的翻译方法及装置
CN114398468A (zh) * 2021-12-09 2022-04-26 广东外语外贸大学 一种多语种识别方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131709A1 (en) * 2003-12-15 2005-06-16 International Business Machines Corporation Providing translations encoded within embedded digital information
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131709A1 (en) * 2003-12-15 2005-06-16 International Business Machines Corporation Providing translations encoded within embedded digital information
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
苏牧 等: "一种基于电话的中英双向翻译***", 《第七届全国人机语音通讯学术会议(NCMMSC7)论文集》 *
魏力: "嵌入式语音识别***的研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663143A (zh) * 2012-05-18 2012-09-12 徐信 一种音视频语音处理与检索的***和方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别***及其识别方法
CN103811008A (zh) * 2012-11-08 2014-05-21 ***通信集团上海有限公司 一种音频内容识别方法和装置
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其***
CN104834393A (zh) * 2015-06-04 2015-08-12 携程计算机技术(上海)有限公司 自动化测试装置及***
CN107170453A (zh) * 2017-05-18 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
US10796700B2 (en) 2017-05-18 2020-10-06 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based cross-language speech transcription method and apparatus, device and readable medium using Fbank40 acoustic feature format
CN108460027A (zh) * 2018-02-14 2018-08-28 广东外语外贸大学 一种口语即时翻译方法及***
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN112329484A (zh) * 2020-11-06 2021-02-05 中国联合网络通信集团有限公司 自然语言的翻译方法及装置
CN114398468A (zh) * 2021-12-09 2022-04-26 广东外语外贸大学 一种多语种识别方法和***

Similar Documents

Publication Publication Date Title
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN101944359B (zh) 一种面向特定人群的语音识别方法
CN103928023B (zh) 一种语音评分方法及***
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译***及其语言识别方法
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及***
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
Dua et al. GFCC based discriminatively trained noise robust continuous ASR system for Hindi language
CN103065629A (zh) 一种仿人机器人的语音识别***
CN109192200B (zh) 一种语音识别方法
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
CN112750446B (zh) 语音转换方法、装置和***及存储介质
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及***
Garg et al. Survey on acoustic modeling and feature extraction for speech recognition
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Barman et al. State of the art review of speech recognition using genetic algorithm
CN104240699A (zh) 一种简单有效的短语语音识别方法
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
Hu et al. Speaker Recognition Based on 3DCNN-LSTM.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111109