CN102237083A

CN102237083A - 一种基于WinCE平台的便携式口语翻译***及其语言识别方法

Info

Publication number: CN102237083A
Application number: CN2010101605215A
Authority: CN
Inventors: 李心广; 阳爱民; 姚敏锋; 张晶; 马文华; 陈永煊; 林江豪
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2010-04-23
Filing date: 2010-04-23
Publication date: 2011-11-09

Abstract

本发明为一种基于WinCE平台的便携式口语翻译***，包括语音采集器、语音预处理模块、语音特征提取与建模模块、模型库、识别模块、语料库和翻译与语音合成模块，所有模块均建立在嵌入式平台上；语音采集模块与语音预处理模块连接；语音预处理模块与语音特征提取与建模模块连接；语音特征提取与建模模块分别与模型库或识别模块连接；所述语音特征提取与建模模块通过选择为训练状态与模型库连接，通过选择识别状态，与识别模块连接；识别模块与翻译与语音合成模块连接；翻译与语音合成模块与语料库连接。本发明具有语音识别时效率更高，识别准确率高，设备便携性强，双向口语翻译的特点。

Description

一种基于WinCE平台的便携式口语翻译***及其语言识别方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种用于将人发出的语音信号识别后转变为相应的翻译结果的基于WinCE平台的便携式口语翻译***。本发明还涉及该翻译***的语音识别方法。

背景技术

语音识别技术就是让机器通过识别和理解，把人发出的语音信号转变为相应的文本或作出设定命令的技术，它正逐步成为信息技术中人机接口的关键技术。近年来，随着嵌入式设备的快速发展，消费类电子产品深入到我们生活的各个领域，其便携，成本低等特点得到了广泛的应用，因此，基于嵌入式的语音识别***具有很大的消费市场。而传统的语音识别***，如微软的SPEECHSDK 5.1，剑桥的HTK都只是基于PC机操作***的语音识别引擎，不能被应用在嵌入式操作***中。

发明内容

本发明的目的在于设计基于WinCE平台的便携式口语翻译***，能在嵌入式***资源有限的情况下，实现大词汇的识别功能，且具有较高识别率，并实现从中文到英文或英文到中文的口语双向翻译。。

本发明的另外一个目的在于提供该翻译***的语音识别方法。

为了实现上述发明目的，本发明包括如下技术特征：一种基于WinCE平台的便携式口语翻译***，其特征在于：包括语音采集器、语音预处理模块、语音特征提取与建模模块、模型库、识别模块、语料库和翻译与语音合成模块，所有模块均建立在嵌入式平台上；语音采集模块与语音预处理模块连接；语音预处理模块与语音特征提取与建模模块连接；语音特征提取与建模模块分别与模型库或识别模块连接；所述语音特征提取与建模模块通过选择为训练状态与模型库连接，通过选择识别状态，与识别模块连接；识别模块与翻译与语音合成模块连接；翻译与语音合成模块与语料库连接；所述识别模块经过决策判断得到最优结果后通过翻译与语音合成模块翻译成文本，并以语音形式输出；经过语言选择，实现从中文到英文或英文到中文的口语双向翻译。

所述语音预处理模块包括依次连接的预加重单元、分帧处理单元、加窗单元和端点检测单元；预加重单元与语音采集器连接，端点检测单元与语音特征提取与建模模块连接；

所述预加重单元为高频提升预加重数字滤波器；

所述分帧处理单元采取半帧交叠分帧方式来进行分帧处理；

所述加窗单元采用汉明窗函数来进行窗化；

所述端点检测单元采用以短时能量E和短时平均过零率Z作为特征的双门限比较，并根据静音段计算过零率阀值Z_cT及高低能量阀值作为门限，进行端点的检测。

所述语音特征提取与建模模块通过提取MFCC语音特征作为识别特征；采用隐马尔可夫模型作为训练及识别模型；该隐马尔可夫模型由马尔可夫链和一般随机过程组成；

所述隐马尔可夫模型利用前向后向概率算法解决估值问题；利用Viterbi算法解决解码问题；利用Baum-Welch迭代算法解决学习问题。

具体为：利用前向后向概率算法，解决对于给定的隐马尔可夫模型***λ＝(π，A，B)，根据***产生的观察序列O＝O₁，O₂，...，O_T计算似然概率P(O/λ)的问题。

利用Viterbi算法，解决对于给定的隐马尔可夫模型***λ＝(π，A，B)，以及由***产生的观察序列O＝O₁，O₂，...，O_T，搜索使该***产生此观察序列最有可能经历的状态序列S＝q₁，q₂...q_t的问题。

对于未知的隐马尔可夫模型***，利用Baum-Welch迭代算法来估计模型参数。

本发明还包括一种基于WinCE平台的便携式口语翻译***的语言识别方法，其特征在于包括如下步骤：

(1)对隐马尔可夫模型进行训练获得模型参数；

(2)将特征提取模块得到的语音特征作为隐马尔可夫模型的观察序列；训练得到的语音单元为状态序列，通过Viterbi算法解出状态转移序列；

(3)采用决策判决，得到最大概率的状态转移序列；

(4)根据最佳状态序列对应出候选音素或音节，最后通过语言模型形成词和句子。

所述步骤(1)先初始化隐马尔可夫模型参数，然后利用Baum-Welch迭代算法来估计模型参数。

所述步骤(1)利用训练算法进行多次迭代得到结果，同时还应该给出一个结束迭代的条件，当此概率的相对变化小于ε，结束迭代过程，另外，设定最大迭代次数N，当迭代次数大于N时，也停止迭代，并且对Baum-Welch算法采用增加比例因子的方法，修正算法的数据下溢问题。

本发明为一种基于WinCE平台的便携式口语翻译***及其语言识别方法，其硬件核心为嵌入式处理器，嵌入式***具有低成本，低功耗，高性能，便携性强等优良品质。在语音预处理模块中包括预加重单元、分帧处理单元、加窗单元和端点检测单元，通过对采集到的声音信号进行预先处理，使得嵌入式***在后期语音识别时效率更高，识别准确率也更高。采用隐马尔可夫模型，训练模型库，再用其进行模型识别，使识别过程更加准确高效。本发明与现有技术相比，具有双向翻译，低成本、低功耗，高性能，便携性强等优点，并在语音识别***领域具有很大消费市场。

附图说明

图1为隐马尔可夫模型的组成示意图

图2前向后向算法示意图

图3隐马尔可夫模型参数训练流程图

图4无跨越的从左向右的隐马尔可夫模型结构

图5隐马尔可夫模型识别过程；

图6为本发明的模块原理图；

图7为本发明识别模块的转移概率处理过程；

图8为本发明翻译与语音合成模块的语料库结构图。

具体实施方式

本发明为一种基于WinCE平台的便携式口语翻译***，设计实现了一个基于wince的语音识别***，嵌入式***具有低成本，低功耗，高性能等优良品质，其核心部分为其嵌入式处理器，目前，ARM微处理主要包括ARM7系列、ARM9系列、ARM9E系列、ARM10E系列、ARM11系列，其功能越来越强大。本发明使用嵌入式***科研平台UP-CPU 6410，采用Samsung公司最新的S3C6410X(ARM11)嵌入式微处理器，其频率达到633M，是一款基于ARM1176JZF-S核心，采用ARM v6构架的处理器。

本发明的模块原理图如图6所示，通过语音采集器1麦克风采集输入的语音信号，通过语音预处理模块2对语音信号进行预加重，分帧，加窗，端点检测等处理，实现上述处理功能的是预加重单元21、分帧处理单元22、加窗单元23和端点检测单元24。然后通过语音特征提取与建模模块3对语音信息进行特征提和训练语音模型，语音特征提取与建模模块3与模型库4或识别模块5连接，通过翻译与语音合成模块7读取语料库6，翻译成文本并合成语音输出。

下面分别对涉及到的各个模块单元进行说明：

一、预加重单元21

语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/oct(倍频程)衰减，频率越高相应的成分越小，为此要在对语音信号进行分析之前对其高频部分加以提升。因此在对语音信号进行分析之前通常采用一个6dB/oct的高频提升预加重数字滤波器处理语音信号，实现对其高频部分加以提升，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪求频谱。滤波响应函数为：

H(z)＝1-αz^-1，0.9≤α≤1.0

其中α为预加重系数，通常取0.9375，这样，预加重网络的输出

和输入的语音信号s(n)的关系可用差分方程表示。

二、分帧处理单元22

语音信号具有时变特性，但是在一个短时间范围内，其特性基本保持不变即相对稳定，语音信号的这种特性称为“短时性”，这一短段时间一般为10～30ms。所以语音信号的分析和处理一般建立在“短时性”的基础上，即进行“短时分析”，对语音信号流采用分帧处理。一般每秒的帧数有

Frames per \sec ond = \frac{1}{t} (0.01 < t < 0.03)

视实际情况而定。分帧既可以采用连续方式，也可采用交叠分帧的方式，由于语音信号之间存在相关性，本发明中采用半帧交叠分帧的方式。

这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

三、加窗单元23

语音信号具有短时平稳性，可以对信号进行分帧处理。而为实现对语音信号中抽样n附近的语音波形加以强调而对波形的其余部分加以减弱，紧接着还要对其加窗处理。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其一般式为：

Q_{n} = Σ_{m = - \infty}^{\infty} T [s (n)] ω (n - m)

其中T[]表示某种变换，它可以是线性的也可以是非线性的，s(n)为输入语音信号系列。Q_n是所有各段经过处理后得到的一个时间序列。

发明中选用汉明窗

四、端点检测单元24

语音信号处理中的端点检测主要是为了自动检测出语音的起始点及结束点。本发明采用了双门限比较法来进行端点检测。双门限比较法以短时能量E和短时平均过零率Z作为特征，结合Z和E的优点，使检测更为准确，有效降低***的处理时间，提高***处理的实时性，而且能排除无声段的噪声干扰，从而提高的识别性能。

双门限比较法中，短时能量E和短时平均过零率Z特征计算分别如下：

(1)短时能量E

语音信号s(n)的短时能量的定义为：

E_{n} = Σ_{m - \infty}^{\infty} {[s (n) ω (n - m)]}^{2}

其中ω(n)为汉明窗的窗函数。

对于上式，若令h(n)＝ω²(n)，则有：

E_{n} = Σ_{m = - \infty}^{\infty} s^{2} (n) h (n - m) = s^{2} (n) * h (n)

上式表示可知，窗口变换的短时能量相当于将“语音平方”的信号通过一个线性滤波器输出，该滤波器的单位取样响应为h(n)。其实现框图如下：

短时能量的实现框图

对于以n为标志的某帧语音信号的短时平均能量E_n为：

E_{n} = Σ_{m = n - N + 1}^{n} {[s (m) ω (n - m)]}^{2}

(2)短时平均过零率Z

短时平均过零率定义

Z_{n} = Σ_{m = - \infty}^{\infty} Sgn [s (m)] - Sgn [s (m - 1)]

其中Sgn[·]为符号函数，即

s(n)为语音信号。

Z_{n} = Σ_{m = - \infty}^{\infty} | Sgn [s (m)] - Sgn [s (m - 1)] | ω (n - m)

= | Sgn [s (n)] - Sgn [s (n - 1)] | * ω (n)

其中ω(n)为窗函数。

其实现框图如下：

声音信号开始的短时段为均匀分布的背景噪声信号。在采用双门限比较法进行端点检测时，需要根据开始的“静音”段计算过零率阀值Z_cT及高低能量阀值ETL(低能量阀)和ETU(高能量阀)来作为门限，才可实现端点的准确检测。

过零率阀值Z_cT＝min(IF，Z_c+2*σ_zc)，其中IF为经验值，本发明取IF＝25；Z_c、σ_zc分别为最初“静音”段的过零率的均值和标准差。

对于ETL(低能量阀)和ETU(高能量阀)，需先算出“静音”段的短时平均能量，最大能量值记为E_max，最小能量值记为E_min。令：

I1＝0.03*(E_max-E_min)+E_min

I2＝4*E_min

则有：

ETL＝min(I1，I2)

ETU＝5*ETL

利用Z_cT及ETL和ETU作为门限进行检测时，设起始帧为N1，则N1帧处的能量E_N1及过零率Z_N1同时满足ETU＞E_N1＞ETL，E_N1+1＞ETU，Z_N1＞Z_cT；在结束帧N2处的能量E_N2及过零率Z_N2同时满足(调整系数k＝4)，Z_N1＜Z_cT。

采用双门限比较法，结合了旁帧的情况，可有效避免噪声的影响，提高检测度，使语音特征提取具有高效性，利于识别率的提高。

五、语音特征提取与建模模块3

本发明采用的提取基于听觉特性的MFCC语音特征作为识别的特征。Mel倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)是根据人类听觉***的特性提出的，模拟人耳对不同频率语音的感知。人耳分辨声音频率的过程就像一种取对数的操作。例如：在Mel频域内，人对音调的感知能力为线性关系，如果两段语音的Mel频率差两倍，则人在感知上也差两倍。

其中特征提取模块3的MFCC算法过程为：

1.快速傅里叶变换(FFT)：

X [k] = Σ_{n = 0}^{N - 1} x [n] e^{- j \frac{2 π}{N} nk}, k = 0,1,2, . . ., N - 1

x[n](n＝0，1，2，...，N-1)为经过采样得到的一帧离散语音序列，N为帧长。X[k]为N点的复数系列，再对X[k]取模得信号幅度谱|X[k]|。

2.将实际频率尺度转换为Mel频率尺度：

Mel (f) = 2597 \lg (1 + \frac{f}{700})

Mel(f)为Mel频率，f为实际频率，单位是Hz。

3.配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱|X[k]|滤波后的输出：

F (l) = Σ_{k = f_{o} (l)}^{f_{h} (l)} w_{l} (k) | X [k] |, l = 1,2, . . ., L

其中

w_{l} (k) = \{\begin{matrix} \frac{k - f_{o} (l)}{f_{c} (l) - f_{o} (l)}, & f_{o} (l) \leq k \leq f_{c} (l) \\ \frac{f_{h} (l) - k}{f_{h} (l) - f_{c} (l)}, & f_{c} (l) \leq k \leq f_{h} (l) \end{matrix}

f_{o} (l) = \frac{o (l)}{[\frac{f_{s}}{N}]},

f_{h} (l) = \frac{h (l)}{[\frac{f_{s}}{N}]},

f_{c} (l) = \frac{c (l)}{[\frac{f_{s}}{N}]}

w_l(k)为对应滤波器的滤波系数，o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的的下限频率、中心频率和上限频率，f_s为采样率，L为滤波器个数，F(l)即为滤波输出。

4.对所有滤波器输出作对数运算，再进一步做离散余弦变换(DTC)，即可得到MFCC：

M (i) = \sqrt{\frac{2}{N}} Σ_{l = 1}^{L} \log F (l) \cos [(l - \frac{1}{2}) \frac{iπ}{L}], i = 1,2, . . ., Q

Q为MFCC参数的阶数，一般取12，M(i)即为所得MFCC参数。

本发明的语音模型采用隐马尔可夫模型，隐马尔可夫模型(HMM，HiddenMarkov Model)是一种统计信号处理模型，用参数表示的、用于描述随机过程统计特性的概率模型，由马尔可夫链演变而来。HMM的两个组成部分：马尔可夫链：描述状态的转移，用转移概率描述。一般随机过程：描述状态与观察序列间的关系，用观察值概率描述，其组成如图1。

HMM模型可表示为：λ＝(N，M，π，A，B)，其中

N：模型中马尔可夫链状态数目。记N个状态为θ₁，...，θ_N，记t时刻马尔可夫链所处状态为q_t，显然q_t∈(θ₁，...，θ_N)。

M：每个状态对应的可能的观察值数目。记M个观察值为V₁，...，V_M，记t时刻观察到的观察矢量为O_t，其中O_t∈(V₁，...，V_M)。

π：初始状态概率矢量，π＝(π₁，...，π_N)，其中π_i＝P(q₁＝θ_i)，1≤i≤N。

A：状态转移概率矩阵，A＝(a_ij)_N×N，a_ij＝P(q_i+1＝θ_j/q_t＝θ_i)，1≤i，j ≤N是从状态i变化到状态j的转移概率。

B：输出概率矩阵，B＝(b_ik)_N×M，

b_ik＝P(O_t＝V_k/q_t＝θ_i)，1≤i≤N，1≤k≤M表示进入状态i时产生输出V_k的概率。由于a_ij，b_ik，π_i都是概率，因此需要满足归一化条件：a_ij≥0，b_ik≥0，π_i≥0

并且

Σ_{j = 1}^{N} a_{ij} = 1,1 \leq i \leq N,

Σ_{k = 1}^{M} b_{ik} = 1,1 \leq i \leq N,

Σ_{i = 1}^{N} π_{i} = 1

HMM的涉及到三个问题：

1、估值问题

给定一个HMM***λ＝(π，A，B)，根据***产生的观察序列O＝O₁，O₂，...，O_T，计算似然概率P(O/λ)。对一个固定的状态序列S＝q₁，q₂...q_t，最基本的理论计算方法是将所有可能的状态序列的概率相加，即

但是这种方法复杂度为c^TT，计算量很大，因此采用前向-后向算法可有效地解决识别中的这一估计问题，计算量为c²T。

定义前向变量：a_t ⁱ＝P(o₁o₂...o_t，q_t＝i|λ)表示模型λ下，在时刻t，观测事件为O_t，状态为i的概率。下一时刻的前向变量计算公式为：

前向后向算法的示意图如图2所示。

定义后向变量：β_t(i)＝P(o_t+1o_t+2...o_T|q_t＝i，λ)表示从终止时刻T向后到时刻t+1的观测事件序列是(o_t+1o_t+2...o_T)，并且时刻t的状态是i的概率。前一时刻的后向变量的计算公式为：

后向算法的示意图与前向方法类似，只是方向相反。

利用前向概率和后向概率计算估值问题时，具体计算公式如下

P (O / λ) = Σ_{i = 1}^{N} α_{T} (i), P (O / λ) = Σ_{i = 1}^{N} β_{I} (i)

2、解码问题

给定一个HMM***λ＝(π，A，B)，以及由***产生的观察序列O＝O₁，O₂，...，O_T，搜索使该***产生此观察序列最有可能经历的状态序列S＝q₁，q₂...q_t，即求解使P(S/O，λ)最大的状态序列S。由于

而P(O/λ)对于所有的S均相同，因此解码问题等价于求解使P(S，O/λ)最大的状态序列S。解码问题采用Viterbi算法来解决。

表示找一个状态序列，这个状态序列在t时状态为i，并且状态i与前面t-1个状态构成的状态序列的概率值最大，算法的递推公式为：

3、学习问题

对于一个未知的HMM***，根据***产生的观测序列O＝O₁，O₂，...，O_T，如何确定模型λ＝(π，A，B)，即求解使***联合概率

最大的模型参数π，A，B。学习问题对应于HMM的参数训练过程，只有观察数据，缺少对状态的描述，通常选择最大似然概率作为最优化目标，建立在期望最大化(EM)基础上，采用Baum-Welch迭代算法来估计模型参数。ξ_t(i，j)表示t时状态为i以及t+1时状态为j的概率

ξ_t(i，j)＝P(q_t＝i，q_t+1＝j|O，λ)

ξ_{t} (i, j) = \frac{P (q_{t} = i, q_{t + 1} = j, O | λ)}{P (O | λ)} = \frac{α_{t} (i) a_{ij} b_{j} (o_{t + 1}) β_{t + 1} (j)}{P (O | λ)}

= \frac{α_{t} (i) a_{ij} b_{j} (o_{t + 1}) β_{t + 1} (j)}{Σ_{i = 1}^{N} Σ_{j = 1}^{N} α_{t} (i) a_{ij} b_{j} (o_{t + 1}) β_{t + 1} (j)}

表示t时状态为i的概率

表示时刻1经过状态i次数；

所以状态转移矩阵的计算公式为：

输出概率矩阵的计算公式为：

{\overset{&OverBar;}{b}}_{j} (k) = \frac{{\underset{t = 1}{Σ}}_{o_{t} = v_{k}}^{T} γ_{t} (j)}{Σ_{t = 1}^{T} γ_{t} (j)}

本发明的HMM语音识别的过程具体如下：

在语音识别中，由特征提取模块得到的MFCC语音特征即为HMM模型的观察序列；而状态则是由训练得到的语音单元。因此，在建HMM模型进行语音识别的时候，需要对模型进行训练，得到HMM模型参数，本发明训练过程如图3所示，得到了很好的训练效果。

训练过程中，首先初始化HMM参数，然后利用Baum-Welch迭代算法来估计模型参数。在实际应用中，应该利用训练算法进行多次迭代才能得到结果，同时还应该给出一个结束迭代的条件。当此概率的相对变化小于ε，结束迭代过程，另外，设定最大迭代次数N，当迭代次数大于N时，也停止迭代，并且对Baum-Welch算法采用增加比例因子的方法，修正算法的数据下溢问题。如图4所示，本发明采用的无跨越的从左向右的HMM结构。

如图5所示，当训练好HMM模型后，利用MFCC特征，结合Viterbi算法解出状态转移序列P(O|λ_n)(n＝1...M)，最终，采用决策判决，得到最大概率的状态转移序列，如图5所示。然后根据最佳状态序列对应的λ给出候选音节或声韵母，最后通过语言模型形成词和句子。

具体的模块实现说明如下：

六、识别模块5：

如图7所示，识别模块采用HMM模型，调用模型库中已训练的语音模型，同输入语音模型进行匹配。经HMM模板输出为转移概率值P_i(i＝0，1...i，i为模板数)，对转移概率P_i进行比较，获得最大的转移概率P值，输出相对应的文本信息，便能得到识别结果。

由于在大词汇量语音识别***中，存在大量的近音词、同音词，导致***识别率降低。为克服近音词、同音词的影响，***对匹配后产生的转移概率进行处理，其处理过程如图1所示。设定转移概率的门限值

当P_i＞P_T时，输出对应文本，否则舍弃结果。

通过转移概率门限处理，有效提高了***的识别率。

七、翻译与语音合成模块：

翻译与语音合成模块主要是对由识别模块输出的隐状态与语料库进行查询匹配，将其翻译成文本，采用TTS技术，以语音形式输出。

图8是语料库的结构图。语料库采用复杂特征向量来建立。定义音素特征向量V_phoneme，有

V_phoneme＝(No.，Phoneme)

其中，No.为音素编号，Phoneme为音素内容。

定义音节特征向量V_syllable，有

V_syllable＝(No.，Syllable，No._Word，G_P)

其中，No.为音节编号，Syllable为音节内容，No._Word为单词编号，G_P为音素序列集。

定义单词特征向量V_Word，有

V_Word＝(No.，Word，Vector_W，Num_Phrase，No._Phrase)

其中，No.为单词编号，Word为单词内容，Vector_W为词性特征向量，且词性特征向量Vector_W＝(n，v，num，pron，adj，adv)，Num_Pharse为以该单词为主的短语数，No._Pharse为短语编号。

定义注释向量V_Tran有

V_Tran＝(No.，Tran_n，Tran_v，Tran_num，Tran_pron，Tran_adj，Tran_adv)

其中，No.为注释编号，Tran_n，Tran_v，Tran_num，Tran_pron，Tran_adj，Tran_adv分别为词性为n，v，num，pron，adj，adv的注释。

语料库中，向量之间的某些特征存在的一定的关联关系，可通过关联特征来对向量进行跨级查询，提高查询效率。

在翻译过程中，首先根据音素特征向量V_phoneme获得音节特征向量V_syllable的相关联信息，进而对单词特征向量V_Word进行查询，最后以注释向量V_Tran为结果。

语音合成的主要目的是将有翻译得到的文本以语音形式输出。三个主要的组成部分：文本分析模块、韵律生成模块和声学模块。由其合成过程如下所示：

文本分析→韵律生成→声学模块

结合上述的说明，本发明与现有技术相比，具有双向翻译，低成本、低功耗，高性能，便携性强等优点，在语音识别***领域具有很大消费市场。

Claims

1.一种基于WinCE平台的便携式口语翻译***，其特征在于：包括语音采集器、语音预处理模块、语音特征提取与建模模块、模型库、识别模块、语料库和翻译与语音合成模块，所有模块均建立在嵌入式平台上；语音采集模块与语音预处理模块连接；语音预处理模块与语音特征提取与建模模块连接；语音特征提取与建模模块分别与模型库或识别模块连接；所述语音特征提取与建模模块通过选择为训练状态与模型库连接，通过选择识别状态，与识别模块连接；识别模块与翻译与语音合成模块连接；翻译与语音合成模块与语料库连接；所述识别模块经过决策判断得到最优结果后通过翻译与语音合成模块翻译成文本，并以语音形式输出；经过语言选择，实现从中文到英文或英文到中文的口语双向翻译。

2.根据权利要求1所述的基于WinCE平台的便携式口语翻译***，其特征在于：所述语音预处理模块包括依次连接的预加重单元、分帧处理单元、加窗单元和端点检测单元；预加重单元与语音采集器连接，端点检测单元与语音特征提取与建模模块连接；

所述预加重单元为高频提升预加重数字滤波器；

所述分帧处理单元采取半帧交叠分帧方式来进行分帧处理；

所述加窗单元采用汉明窗函数来进行窗化；

所述端点检测单元采用短时能量E和短时平均过零率Z作为特征的双门限比较，并根据静音段计算过零率阀值ZcT及高低能量阀值作为门限，进行端点的检测。

3.根据权利要求2所述的基于WinCE平台的便携式口语翻译***，其特征在于：所述语音特征提取与建模模块通过提取MFCC语音特征作为识别特征；建立隐马尔可夫模型为训练及识别模型，该隐马尔可夫模型由马尔可夫链和一般随机过程组成；

所述隐马尔可夫模型利用前向后向概率算法解决估值问题，利用Viterbi算法解决解码问题；利用Baum-Welch迭代算法解决学习问题。

4.根据权利要求3所述的基于WinCE平台的便携式口语翻译***，其特征在于：

利用前向后向概率算法，解决对于给定的隐马尔可夫模型***λ＝(π，A，B)，根据***产生的观察序列O＝O₁，O₂，…，O_T计算似然概率P(O/λ)的问题。

5.根据权利要求3所述的基于WinCE平台的便携式口语翻译***，其特征在于：利用Viterbi算法，解决对于给定的隐马尔可夫模型***λ＝(π，A，B)，以及由***产生的观察序列O＝O₁，O₂，…，O_T，搜索使该***产生此观察序列最有可能经历的状态序列S＝q₁，q₂...q_t的问题。

6.根据权利要求3所述的基于WinCE平台的便携式口语翻译***，其特征在于：对于未知的隐马尔可夫模型***，利用Baum-Welch迭代算法来估计模型参数。

7.根据权利要求3所述的基于WinCE平台的便携式口语翻译***的语言识别方法，其特征在于包括如下步骤：

(1)对隐马尔可夫模型进行训练获得模型参数；

(3)采用决策判决，得到最大概率的状态转移序列；

(4)根据最佳状态序列对应出候选音节或声韵母，最后通过语言模型形成词和句子。

8.根据权利要求7所述的基于WinCE平台的便携式口语翻译***的语言识别方法，其特征在于：所述步骤(1)先初始化隐马尔可夫模型参数，然后利用Baum-Welch迭代算法来估计模型参数。

9.根据权利要求8所述的基于WinCE平台的便携式口语翻译***的语言识别方法，其特征在于：所述步骤(1)利用训练算法进行多次迭代得到结果，同时还应该给出一个结束迭代的条件，当此概率的相对变化小于ε，结束迭代过程，另外，设定最大迭代次数N，当迭代次数大于N时，也停止迭代，并且对Baum-Welch算法采用增加比例因子的方法，修正算法的数据下溢问题。