CN101727901B

CN101727901B - 嵌入式***的汉英双语语音识别方法

Info

Publication number: CN101727901B
Application number: CN200910242406XA
Authority: CN
Inventors: 刘加; 钱彦旻
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2011-11-09
Anticipated expiration: 2029-12-10
Also published as: CN101727901A

Abstract

本发明属于语音识别技术领域，尤其涉及一种嵌入式***的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重，提高高频信号的能量，加窗分帧处理以及语音特征参数的提取，并根据预先建立的声学模型，进行语音命令的匹配识别；其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整；语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别***只能识别单语言的缺陷。

Description

嵌入式***的汉英双语语音识别方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种嵌入式***的汉英双语语音识别方法。

背景技术

近年来，国外语音识别专用芯片发展很快。国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片，并对自己国家语言的语音识别算法进行专利保护。这些专用(***)芯片的语音识别性能也各不相同。通常的语音识别的过程如图1所示，输入的语音信号首先经过A/D进行采样，频谱整形加窗预加重处理，提高高频成分，进行实时特征参数提取，提取的参数为Mel频标倒谱系数(MFCC)，同时进行语音识别模板训练和语音识别模板匹配，为了提高噪声环境下的芯片识别性能鲁棒性，还会进行语音增强的处理。专用芯片一般包括8位或16位MCU控制器或16位DSP微处理器及与其相连的自动增益控制(AGC)、音频前置放大器、低通滤波器、数/模(A/D)转换器、模/数(D/A)转换器、音频功率放大器、只读存储器(ROM)。这些语音识别专用(***)芯片已经开始被应用于在智能语音玩具、移动通信终端上。

但是现有的中等词表的高性能语音识别专用芯片只能识别单语种语言，也就是说识别任务只能由汉语或者英语或者日语等单一语种的语言命令构成，并不支持两种语言(比如汉英双语混合)命令的识别。

然而，随着国际化趋势的不断深入，无论是经济、政治，还是文化、学术，人们在日常生活中所出现的双语现象已经越来越普遍，比如中英双名等。因而，仅仅构建基于中文或者英文等单语言的语音识别***越来越不能顺应时代发展的要求。特别是作为世界上使用人数最多以及使用最广泛的中文和英文，构建一个能够进行中英文混合识别的***，并将他在专用芯片***等便携设备上实现，显得非常重要。

发明内容

本发明的目的是，为克服已有芯片***只能识别单语言的不足，提出一种嵌入式***的汉英双语语音识别方法。该方法是基于音素融合建模的汉英双语嵌入式语音识别、嵌入式语音增强方法。

技术方案是，一种嵌入式***的汉英双语语音识别方法，包括A/D采样及采样后语音的预加重，提高高频信号的能量，加窗分帧处理以及语音特征参数的提取，并根据预先建立的声学模型，进行语音命令的匹配识别，其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整；所述语音命令的匹配识别具体是汉英双语语音命令的识别；

其中，所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型；

所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合，并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练，得到汉英双语语音识别模型；

所述汉英双语语音命令的识别通过提取输入的语音信号的识别特征，计算汉英双语语音识别模型的高斯分数，根据汉英双语词条进行模板匹配，将匹配分数最大的词条作为识别结果。

所述方法还包括语音增强步骤。

所述合并修订后的汉语语音识别模型和英语语音识别模型具体是，采用基于状态时间对准的模型距离计算方法，计算汉语和英语两两音素之间的距离，然后将距离最小的一对音素进行合并。

所述训练合并后的汉语语音和英语语音识别模型，采用最大似然估计准则和期望最大化的估值迭代算法，得到汉英双语语音识别初始模型。

所述训练合并后的汉语语音和英语语音识别模型在PC机上完成。

所述采用可选择的模型归并方法对母语模型和非母语模型进行融合，包括下列步骤：

(11)通过纯母语的数据库训练得到一个母语模型M1；

(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应，得到模型M2；

(13)通过可选择的模型归并策略，将汉英双语语音识别初始模型中的对应某个母语音素λ_i的模型S^b，与模型M1中的音素λ_i的对应母语模型S^ne和模型M2中λ_i对应的自适应模型S^a，以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λ_i的易混淆音素γ_j的自适应模型γ^m进行线性的插值融合，得到融合后的音素λ_i的调整模型S^f；模型插值公式如下：

p(S^f)＝λ₁p(S^b)+λ₂p(S^ne)+λ₃p(S^a)+λ₄p(γ^m)

其中λ₁、λ₂、λ₃和λ₄分别表示对应模型的插值因子。

所述融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练包括：使用语音识别器来得到训练语音的词格信息；通过语音训练库的原始词级标注信息来训练得到汉语和英语的语言模型；在得到的词格信息上做前后项算法来更新模型参数。

所述语音增强步骤采用改进的维纳滤波算法，包括下列步骤：

(21)使用一段典型的背景噪声作为噪声估计的初始值；

(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测，对于不同输入信噪比的含噪语音信号，将滤波器的输出与预先设定的阈值进行比较，根据判定条件决定当前帧信号是否处于背景噪声；如果是，则执行步骤(23)；

(23)采用Decision-Directed算法进行当前帧先验信噪比的估计，并利用历史帧信息进行噪声信号的更新；

(24)采用两级帧间平滑处理，提高增强语音信号频谱的连续性，减小语音信号的失真。

所述当前帧先验信噪比的估计，由前一帧先验信噪比与当前帧后验信噪比的估计γ_k(n)加权得到，计算公式为：

其中，

为当前帧先验信噪比的估计；p为反馈因子，用于控制上一帧与当前帧对当前帧先验信噪比估计的贡献；a为控制收敛因子。

本发明提供的方法克服了已有芯片***只能识别单语言的不足，具有算法复杂度低，识别精度高和噪声环境下识别稳健性能好的特点。

附图说明

图1是目前常用的语音识别示意图；

图2是本发明提供的汉英双语语音识别方法过程示意图；

图3是中国人说英语时的混淆音素变化表；

图4是基于状态时间对准的音素合并方法得到的时间分段信息示意图。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

图2是本发明提供的汉英双语语音识别方法过程示意图。图2中，本发明提供的嵌入式***的汉英双语语音识别方法，包括如下步骤：A/D采样及采样后语音的预加重，提高高频信号的能量，加窗分帧处理以及语音特征参数的提取，确立汉英双语语音识别初始模型，汉英双语语音识别初始模型的非母语模型融合调整和汉英双语语音命令的识别。其中，A/D采样及采样后语音的预加重，提高高频信号的能量，加窗分帧处理以及语音特征参数的提取是已有的技术，确立汉英双语语音识别初始模型，汉英双语语音识别初始模型的非母语模型融合调整和汉英双语语音命令的识别是本发明提出的新技术。

确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型。

修订汉语语音识别模型和英语语音识别模型，首先根据中国人说英文或者外国人说中文所产生的发音差异修整发音字典(即汉语和英语语音识别模型)。主要有基于专家知识和基于数据驱动两种方法。在本发明中，同时结合两种策略，这样既能在专家知识指导下得到通用性强，依赖非母语语音数据量小的发音变化规律，又能兼有数据驱动。从而实现与实际数据匹配性好，人工干预少，可推广的优点。在使用数据驱动的方法时，将结合训练数据的原始音素标注和识别器的识别标注得到易混淆的音素矩阵，然后结合专家知识的指导确定最终的发音变化规律。以中国人说英文为例，图3是中国人说英语时的混淆音素变化表，图3中，根据这个最后确定的音素变化规律，来重新修订英文的发音字典。

在修订汉语语音识别模型和英语语音识别模型后，将修订的两个模型进行合并，得到统一并且规模较小的模型集。要得到一个规模较小的识别模型就必需要进行中英文识别模型的合并，同时为了保证较高的识别率，在合并时将一些在声学模型空间上距离足够近的模型进行合并。本发明采用基于状态时间对准的方法模型距离计算方法来衡量两个模型间的距离。以两个音素模型中文音素λ_i和英文音素γ_j为例说明两个模型间的距离计算方法，先从人工标注的语音中为两个音素准备若干段语音，然后将λ_i各段语音分别用本音素λ_i和对方音素γ_j进行viterbi(维特比)状态时间对准，得到如图4所示的分段信息。其中λ_i和γ_j分别表示未合并前的两个模型。从图中可知，可以得到5段分割信息，然后根据对应的时间段，计算各段上两个模型的Bhattacharyya距离，记为D_mn，最后用时间段的长度作为权重进行加权得到一个距离为：

D (λ_{i}, γ_{j}) = Σ_{q = 1}^{5} {Δt}_{q} D_{mn} .

反过来，将γ_j各段语音分别用本音素γ_j和对方音素λ_i进行viterbi(维特比)状态时间对准，同样的方法得到D(γ_j，λ_i)，最终模型λ_i和γ_j之间的距离为

D = \frac{1}{2} (D (λ_{i}, γ_{j}) + D (γ_{j}, λ_{i})) .

按照以上的计算方法，得到中英文两两音素之间的距离，然后将距离最小的一对音素进行合并。按照此过程进行音素合并的循环，直到音素个数降到需要的数量为止。按照上面介绍的基于状态时间对准的距离计算方法，将中文音素和英文音素合并了一共15对，大幅度的减小了音素集的规模，适合嵌入式***的资源要求。

接下来通过大量的汉语以及英语语音数据库，对合并后的汉语语音和英语语音识别模型进行训练，这里采用MLE(Maximum likelylood estimation，最大似然估计)准则和EM(Expectation Maximum，期望最大化)的估值迭代算法进行，得到汉英双语语音识别初始模型。整个训练过程在PC上完成。

汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合，并对融合后的汉英双语识别初始模型进行最小音子错误区分性训练，得到汉英双语语音识别模型。

非母语说话人往往带有母语口音或者发音不规范，从而识别***会造成误判，必须采用模型融合技术来对识别的初始模型进行调整。本发明采用可选择的模型归并方法对母语模型和非母语模型进行融合，修正识别模板的参数，其过程是：

(11)通过纯母语的数据库训练得到一个母语模型M1；

(13)通过可选择的模型归并策略，将汉英双语语音识别初始模型中的对应某个母语音素λ_i的模型S^b，与模型M1中的音素λ_i的对应母语模型S^ne和模型M2中λ_i对应的自适应模型S^a，以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λ_i的易混淆音素γ_j的自适应模型γ^m进行线性的插值融合，得到融合后的音素λ_i的调整模型S^f。模型插值公式如下所示：

p(S^f)＝λ1p(S^b)+λ₂p(S^ne)+λ₃p(S^a)+λ₄p(γ^m)

其中λ₁、λ₂、λ₃和λ₄分别表示对应模型的插值因子。

为了得到更加精细的模型，特别是进一步提高非母语汉英双语的识别率，本发明首次将区分性训练技术应用到双语的环境下。根据MPE(MinimumPhone Error，最小音素错误)准则，对已经得到的汉英双语识别模型进行MPE区分性训练：首先使用语音识别器来得到训练语音的词格信息，同时通过语音训练库的原始词级标注信息，训练得到中英文的语言模型；最后通过在得到的词格信息上做Forward-Backward前后项算法来更新模型参数。在经过多次参数迭代估值后，模型参数得到了进一步的调整，模型之间保持更大的鉴别性和区分性；根据非母语调整后的汉英双语识别模型，既能保证语音是母语时的双语识别率不降低，同时大幅度地提高了非母语双语的识别率。最终对母语以及非母语中英文的识别率都达到了98％以上。

汉英双语语音命令的识别，是通过提取输入的语音信号的识别特征，计算汉英双语语音识别模型的高斯分数，并根据汉英双语词条进行模板匹配，将匹配分数最大的词条作为识别结果。提取输入的语音信号的识别特征，可以采用常用的语音特征参数的提取方法。根据特征计算汉英双语模型的高斯分数，根据汉英双语词条进行模板匹配，找出匹配分数最大的为识别结果。为提高识别速度和识别精度，识别判决过程还分为粗略识别和精细识别两个过程。粗略识别的模型参数较少，模型参数不到200个，粗略识别速度快。对一些发音不标准或者易混的语音再进行精细识别，精细识别模型的参数较多，大概在1000个左右。但由于经过粗略识别以后得到的候选已经很少，尽管精细识别模型数较多，但是识别速度同样很快。两级识别不仅提高识别的平均速度，而且提高了识别精度。

为了提高噪声环境下语音识别的性能，本发明还可以包括语音增强步骤。语音增强步骤具体是：

(21)使用一段典型的背景噪声作为噪声估计的初始值。

(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测，对于不同输入信噪比的含噪语音信号，将滤波器的输出与预先设定的阈值进行比较，根据判定条件决定当前帧信号是否处于背景噪声；如果是，则执行步骤(23)；否则，结束。

(23)采用Decision-Directed算法进行当前帧先验信噪比的估计，并利用历史帧信息进行噪声信号的更新。当前帧先验信噪比的估计，由前一帧先验信噪比

与当前帧后验信噪比的估计γ_k(n)加权得到，计算公式为：

其中，

为当前帧先验信噪比的估计，p a。

(24)同时采用两级帧间平滑处理，提高了增强语音信号频谱的连续性，减小语音信号的失真。

本发明提供的汉英双语语音识别方法，实现了汉英双语的识别功能，***的模型规模相比单语言的识别***并没有扩大，所占存储资源较小；同时在兼顾非母语的条件下，保证母语高识别率的同时，得到了非母语识别的高性能，此外还采用语音增强技术提高了噪声环境下的识别精度，适用于汉英双语识别的嵌入式实现。

本发明以一个实际的便携式移动电话中英文双语人名拨号***为平台为例进行实验。其中识别任务是中包括500个英文人名和500个中文人名。实验表明，在存储量方面，本发明的双语识别方法需要的存储量资源与单语言的识别体系相近。能够同时处理中英文人名的识别，同时在兼顾非母语的条件下，保证母语高识别率的同时，得到了非母语识别的高性能，最终***汉英双语的母语与非母语识别率都到达了98％以上。此外还采用语音增强技术提高了噪声环境下的识别精度，适用于汉英双语识别的嵌入式实现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种嵌入式***的汉英双语语音识别方法，包括A/D采样及采样后语音的预加重，提高高频信号的能量，加窗分帧处理以及语音特征参数的提取，并根据预先建立的声学模型，进行语音命令的匹配识别，其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整；所述语音命令的匹配识别具体是汉英双语语音命令的识别；

其中，采用可选择的模型归并方法对母语模型和非母语模型进行融合，包括下列步骤：

(11)通过纯母语的数据库训练得到一个母语模型M1；

(13)通过可选择的模型归并策略，将汉英双语语音识别初始模型中的对应某个母语音素λ_i的模型S^b，与模型M1中的音素λ_i的对应母语模型S^ne和模型M2中λ_i对应的自适应模型S^a，以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λ_i的易混淆音素γ_j的自适应模型γ^m进行线性的插值融合，得到融合后的音素λ_i的调整模型S^f；插值公式如下：

p(S^f)＝λ₁p(S^b)+λ₂p(S^ne)+λ₃p(S^a)+λ₄p(γ^m)

其中λ₁、λ₂、λ₃和λ₄分别表示对应模型的插值因子；

2.根据权利要求1所述的一种嵌入式***的汉英双语语音识别方法，其特征是所述嵌入式***的汉英双语语音识别方法还包括语音增强步骤。

3.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法，其特征是所述合并修订后的汉语语音识别模型和英语语音识别模型具体是，采用基于状态时间对准的模型距离计算方法，计算汉语和英语两两音素之间的距离，然后将距离最小的一对音素进行合并。

4.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法，其特征是所述训练合并后的汉语语音和英语语音识别模型，采用最大似然估计准则和期望最大化的估值迭代算法，得到汉英双语语音识别初始模型。

5.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法，其特征是所述训练合并后的汉语语音和英语语音识别模型在PC机上完成。

6.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法，其特征是所述融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练包括：使用语音识别器来得到训练语音的词格信息；通过语音训练库的原始词级标注信息来训练得到汉语和英语的语言模型；在得到的词格信息上做前后项算法来更新模型参数。

7.根据权利要求2所述的一种嵌入式***的汉英双语语音识别方法，其特征是所述语音增强步骤采用改进的维纳滤波算法，包括下列步骤：

(21)使用一段典型的背景噪声作为噪声估计的初始值；

(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测，对于不同输入信噪比的含噪语音信号，将滤波器的输出与预先设定的阈值进行比较，根据判定条件决定当前帧信号是否处于背景噪声；如果是，则执行步骤(23)；否则，结束；