CN106340297A

CN106340297A - 一种基于云计算与置信度计算的语音识别方法与***

Info

Publication number: CN106340297A
Application number: CN201610840519.XA
Authority: CN
Inventors: 李志�; 田宗贵
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-01-18

Abstract

本发明公开了一种基于云计算与置信度计算的语音识别方法，涉及语音识别的技术领域，包含以下步骤：S1、本地语音识别***和云端语音识别***分别接收语音信号；S2、本地语音识别***得出本地语音识别结果，云端语音识别***得出云端语音识别结果；S31、对本地语音识别结果进行置信度评测，得出本地语音识别结果的置信度；S32、对云端语音识别结果进行置信度评测，得出云端语音识别结果的置信度；S4、将本地语音识别结果的置信度与云端语音识别结果的置信度进行比较，输出置信度较高的语音识别结果。本发明还公开了一种基于云计算与置信度计算的语音识别***。本发明采用云端与本地语音识别相结合的方法，可提高语音识别的质量。

Description

一种基于云计算与置信度计算的语音识别方法与***

技术领域

本发明涉及语音识别的技术领域，具体涉及一种基于云计算与置信度计算的语音识别方法与***。

背景技术

随着科学的进步和技术的发展，语音识别技术已经日趋成熟，正逐步成为信息技术中人机接口的关键技术。多种语音识别算法使得语音识别无论是识别率还是识别效率上都有较大提升。近年来，语音识别技术也逐渐被普遍使用于各个领域。然而，传统的语音识别技术大多采用本地语音识别软件进行语音识别，这样就导致软件内的语音识别算法是无法改变的。而不同的语音识别算法对于不同的语音输入环境的语音识别效果势必会有差异。例如在复杂噪声环境中，具有各种来源的噪声。这样的噪声环境下，原来运行良好的语音识别***的识别率可能会受到较大影响。若软件采用模板训练的方法，由于训练样本和样本库特征的失配，则软件的识别性能将会急剧下降，现有语音识别***的缺点在于随着环境的改变其语音识别性能也会急剧下降，其适应性和适用性不高，无法满足多种情况下的语音识别需求。因此，如何让语音识别***具有广泛的应用性与适用性就显得尤为重要。

中国专利申请CN201310163915.X公开了一种语音识别设备的更新方法、装置及***，包括：接收语音输入信号；利用本地语音识别设备对语音输入信号进行语音识别，获得本地语音识别结果；从本地语音识别结果和云端语音识别结果中获取最优识别结果作为最终语音识别结果，其中云端语音识别结果是在本地语音设备对语音输入信号进行语音识别的同时，利用云端语音识别设备对语音输入信号进行语音识别获得的；结合获取的用户反馈信息以及最终语音识别结果确定本地语音识别结果的可靠性是否满足要求；当确定本地语音识别结果的可靠性不满足要求时，利用云端语音识别设备对本地语音识别设备进行更新。该专利申请公开的技术方案中应用了云端语音识别设备进行语音识别，然而对语音识别效果的提升不明显，并且需结合用户的反馈信息确定语音识别结果的可靠性，需要用户进行结果选择，使用户的操作步骤更加繁琐，不利于提升使用体验。

发明内容

针对现有技术的不足，本发明的目的旨在提供一种基于云计算与置信度计算的语音识别方法与***，采用云计算方式进行语音识别与本地语音识别相结合的方法，使得语音识别设备或***能够有效地适应多种语音输入环境，提高语音识别的质量。

为实现上述目的，本发明采用如下技术方案：

一种基于云计算与置信度计算的语音识别方法，包含有以下步骤：

S1、本地语音识别***和云端语音识别***分别接收语音信号；

S2、本地语音识别***得出本地语音识别结果，云端语音识别***得出云端语音识别结果；

S31、对本地语音识别结果进行置信度评测，得出本地语音识别结果的置信度；

S32、对云端语音识别结果进行置信度评测，得出云端语音识别结果的置信度；

S4、将本地语音识别结果的置信度与云端语音识别结果的置信度进行比较，将置信度较高的语音识别结果进行输出。

进一步地，云端语音识别***中设置有不同的语音识别模型，步骤S2中云端语音识别***基于不同的语音识别模型得出不同的拟云端语音识别结果，步骤S32的内容包含有：

S321、对不同的拟云端语音识别结果进行置信度评测，得出对应于不同拟云端语音识别结果的置信度；

S322、将对应于不同拟云端语音识别结果的置信度进行比较，将置信度最高的拟云端语音识别结果作为云端语音识别结果进行输出。

进一步地，不同的语音识别模型包括基于不同的语音识别算法而建立的语音识别模型、也包括基于不同的语音识别算法组合而建立的语音识别模型，不同的语音识别模型对应于不同的语音输入环境。

进一步地，在进行步骤S2之前、先进行步骤S20：

S20、本地语音识别***和云端语音识别***分别对接收的语音信号进行降噪处理。

进一步地，步骤S20中，云端语音识别***使用不同的语音降噪模型对语音信号进行降噪处理，该不同的语音降噪模型基于不同的语音输入环境建立，该不同的语音降噪模型和不同的语音识别模型一一对应，云端语音识别***将完成降噪处理的语音信号传送至对应于同一语音输入环境的语音识别模型。

一种基于云计算与置信度计算的语音识别***，包含有：

本地语音识别***，用于接收语音信号、并得出本地语音识别结果；

云端语音识别***，用于接收语音信号、并得出云端语音识别结果；

置信度评测模块，使用置信度算法对本地语音识别结果和云端语音识别结果进行置信度评测；

数据处理模块，将本地语音识别结果的置信度与云端语音识别结果的置信度进行比较，并输出置信度较高的语音识别结果。

进一步地，云端语音识别***中包含有不同的云端语音识别子模块：

云端语音识别***中，不同的云端语音识别子模块中包含有不同的语音识别模型，云端语音识别子模块用于接收语音信号并得出拟云端语音识别结果；

置信度评测模块，使用置信度算法对本地语音识别结果和拟云端语音识别结果进行置信度评测；

数据处理模块，将不同的云端语音识别子模块输出的拟云端语音识别结果的置信度进行比较，将置信度最高的拟云端语音识别结果作为云端语音识别结果；将本地语音识别结果的置信度与云端语音识别结果的置信度进行比较，并输出置信度较高的语音识别结果。

进一步地，还包括有本地语音降噪模块和云端语音降噪模块，本地语音降噪模块用于对语音信号进行降噪处理、再将完成降噪处理的语音信号传送至本地语音识别***，云端语音降噪模块用于对语音信号进行降噪处理、再将完成降噪处理的语音信号传送至云端语音识别***。

进一步地，云端语音降噪模块中包含有不同的云端语音降噪子模块，不同的云端语音降噪子模块中包含有不同的语音降噪模型，该不同的语音降噪模型基于不同的语音输入环境而建立，该不同的语音降噪模型与不同的语音识别模型一一对应。

本发明的有益效果在于：采用云端语音识别***与本地语音识别***同步识别语音，其中云端语音识别***是包含有多种对应于不同输入环境的语音识别模型，从各种语音识别结果中择优输出，从而使得语音识别设备或***能够有效地适应多种语音输入环境，有效提高语音识别的质量；采用置信度算法对各种语音识别结果进行评价，提高语音识别结果的可靠性；置信度估值中综合了传统语音识别***中未被充分利用的信息，从而减小语音识别***的熵值，更准确地判断识别结果的正误，从而提高语音识别的***性能。

附图说明

图1是本发明中基于云计算与置信度计算的语音识别方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

实施例1

如图1所示，一种基于云计算与置信度计算的语音识别方法，包含有以下步骤：

S1、本地语音识别***和云端语音识别***分别接收语音信号；

S20、本地语音识别***和云端语音识别***分别对接收的语音信号进行降噪处理，其中云端语音识别***使用不同的语音降噪模型对语音信号进行降噪处理，该不同的语音降噪模型基于不同的语音输入环境建立；

S2、本地语音识别***得出本地语音识别结果，云端语音识别***基于不同的语音识别模型得出不同的云端语音识别结果，该不同的语音识别模型包括基于不同的语音识别算法而建立的语音识别模型、也包括基于不同的语音识别算法组合而建立的语音识别模型，不同的语音识别模型对应于不同的语音输入环境，不同的语音降噪模型和不同的语音识别模型一一对应，不同的语音降噪模型将完成降噪处理的语音信号传送至对应的语音识别模型；

S322、将对应于不同拟云端语音识别结果的置信度进行比较，将置信度最高的拟云端语音识别结果作为云端语音识别结果进行输出；

S4、当本地语音识别结果的置信度低于设定值则直接输出云端语音识别结果；若本地语音识别结果的置信度达到设定值，将本地语音识别结果的置信度与云端语音识别结果的置信度进行比较，将置信度较高的语音识别结果进行输出。

实施例2

一种基于云计算与置信度计算的语音识别***，包含有：

本地语音降噪模块，用于对语音信号进行降噪处理、再将完成降噪处理的语音信号传送至本地语音识别***；

云端语音降噪模块，包含有不同的云端语音降噪子模块，不同的云端语音降噪子模块中包含有不同的语音降噪模型，该不同的语音降噪模型基于不同的语音输入环境而建立，该不同的语音降噪模型与不同的语音识别模型一一对应，用于对语音信号进行降噪处理、再将完成降噪处理的语音信号传送至云端语音识别***；

本地语音识别***，用于接收来自本地语音降噪模块的语音信号、并得出本地语音识别结果；

云端语音识别***，包含有不同的云端语音识别子模块，不同的云端语音识别子模块中包含有不同的语音识别模型，该不同的语音识别模型包括基于不同的语音识别算法而建立的语音识别模型、也包括基于不同的语音识别算法组合而建立的语音识别模型，不同的语音识别模型对应于不同的语音输入环境，不同的语音降噪模型和不同的语音识别模型一一对应，不同的语音识别模块接收来自对应语音降噪模型的语音信息并得出拟云端语音识别结果；

实施例3

基于实施例1中基于云计算与置信度计算的语音识别方法、或基于实施例2中基于云计算与置信度计算的语音识别***，本实施例中不同的语音识别算法包括模板匹配算法、概率模型算法和人工神经网络算法，其中：

模板匹配算法，在训练阶段中提取出能充分描述语音信号特征的特征矢量并形成特征矢量序列，并进行优化，得出一个特征矢量集合来表述特征矢量序列，以该特征矢量集合作为模板；在应用时，提取出待识别语音的特征矢量，并形成待识别语音的特征矢量序列，将待识别语音的特征矢量序列与模板的特征矢量序列进行对比，并将匹配程度最高的模板对应的语音信号作为基于模板匹配算法的语音识别结果；

概率模型算法，在训练阶段中提取出能充分描述语音信号特征的特征矢量，根据该特征矢量在特征空间中的分布规律形成数学模型；在应用时，提取出待识别语音的特征矢量，将待识别语音特征矢量在特征空间的分布规律与数学模型进行对比，计算出相似度，并将相似度最高对应的数学模型对应的语音信号作为基于概率模型算法的语音识别结果。

实施例4

基于实施例1中基于云计算与置信度计算的语音识别方法、或基于实施例2中基于云计算与置信度计算的语音识别***，本实施例中用于建立置信度估值模型的信息包括：1)Viterbi译码信息和隐含马尔可夫模型(HMM)的迹(trace)：状态对准信息，状态驻留时间(段长)，似然度；2)对备选假设H₁和反词模型的建模；3)竞争候选结果所构成的在线垃圾模型；4)对误识和词表外发音建立的明确垃圾模型或补白模型；5)词格密度。置信度估值模型对语音信息的综合可以分成基于规则的综合和基于统计模型的综合，其中基于规则的综合即在不同的识别阶段应用不同的信息源对置信度进行分别估计，其着重点在于经验的总结、规则的形成和调整；统计模型包括有线性模型和广义线性模型：

定义事件A发生的偶然性为所有信息的集合为X，

q(C_i＝1/X)是对真实概率p(C_i＝1/X)的估计，则置信度的线性模型为：

\log [o o d s (C_{i} = 1 / X)] = \log \frac{q (C_{i} = 1 / X)}{1 - q (C_{i} = 1 / X)} = Σ_{i} T_{i} x_{i},

其中，x_i为X的组成部分，即x_i∈X；C_i为置信度标签：C_i＝0(识别错误)；C_i＝1(识别正确)。置信度的广义线性模型为：

\log [o o d s (C_{i} = 1 / X)] = \log \frac{q (C_{i} = 1 / X)}{1 - q (C_{i} = 1 / X)} = Σ_{i} g_{i} (x_{i}),

另，定义W_j(t)为搜索过程中到达状态j的前t观测量(第t帧)的最佳得分，Γ_i(O_t)为第t帧状态i的置信度得分：

W_{j} (t) = \max_{i} {W_{i} (t - 1) Γ_{i} (O_{t})},

{logΓ}_{i} (O_{t}) = Σ_{k = 1}^{3} {logV}_{i k} (O_{t}),

其中，logV_ik(k＝1，2，3)分别代表似然度、段长和似然比3类信息：

logV_i2(O_t)＝k₂logW(d)，

logV_i3(O_t)＝k₃logW(CM)，

其中，a_ij和b_j(O_t)分别为语音识别模型的转移概率和输出概率，k_i表示对不同特征信息的加权系数，W(CM)为似然比信息，W(CM)的计算方法：

设对数似然比为角标c和a分别代表该语音识别模型和某种相反语音识别模型，则有：

\log W (C M) = l o g \frac{1}{1 + \exp {- T (L L R + U)}},

其中，T为正常数，U为常数，W(CM)的值必然在0～1之间。若当前语音识别模型的似然度比相反模型的似然度高时，LLR>0，接近1；反之接近于0。T和U用来控制函数的衰减和位置，其值通过实验进行确定。

通过上面方法可以分别计算出不同层次上(如音素、音节、整字和整词)的置信度估值。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于云计算与置信度计算的语音识别方法，其特征在于，包含有以下步骤：

S1、本地语音识别***和云端语音识别***分别接收语音信号；

2.如权利要求1所述的基于云计算与置信度计算的语音识别方法，其特征在于，云端语音识别***中设置有不同的语音识别模型，步骤S2中云端语音识别***基于不同的语音识别模型得出不同的拟云端语音识别结果，步骤S32的内容包含有：

3.如权利要求2所述的基于云计算与置信度计算的语音识别方法，其特征在于，不同的语音识别模型包括基于不同的语音识别算法而建立的语音识别模型、也包括基于不同的语音识别算法组合而建立的语音识别模型，不同的语音识别模型对应于不同的语音输入环境。

4.如权利要求3所述的基于云计算与置信度计算的语音识别方法，其特征在于，在进行步骤S2之前、先进行步骤S20：

5.如权利要求4所述的基于云计算与置信度计算的语音识别方法，其特征在于，步骤S20中，云端语音识别***使用不同的语音降噪模型对语音信号进行降噪处理，该不同的语音降噪模型基于不同的语音输入环境建立，该不同的语音降噪模型和不同的语音识别模型一一对应，云端语音识别***将完成降噪处理的语音信号传送至对应于同一语音输入环境的语音识别模型。

6.一种基于云计算与置信度计算的语音识别***，其特征在于，包含有：

7.如权利要求6所述的基于云计算与置信度计算的语音识别***，其特征在于，云端语音识别***中包含有不同的云端语音识别子模块：

8.如权利要求7所述的基于云计算与置信度计算的语音识别***，其特征在于，不同的语音识别模型包括基于不同的语音识别算法而建立的语音识别模型、也包括基于不同的语音识别算法组合而建立的语音识别模型，不同的语音识别模型对应于不同的语音输入环境。

9.如权利要求8所述的基于云计算与置信度计算的语音识别***，其特征在于，还包括有本地语音降噪模块和云端语音降噪模块，本地语音降噪模块用于对语音信号进行降噪处理、再将完成降噪处理的语音信号传送至本地语音识别***，云端语音降噪模块用于对语音信号进行降噪处理、再将完成降噪处理的语音信号传送至云端语音识别***。

10.如权利要求9所述的基于云计算与置信度计算的语音识别***，其特征在于，云端语音降噪模块中包含有不同的云端语音降噪子模块，不同的云端语音降噪子模块中包含有不同的语音降噪模型，该不同的语音降噪模型基于不同的语音输入环境而建立，该不同的语音降噪模型与不同的语音识别模型一一对应。