CN112599114B

CN112599114B - 一种语音识别方法及装置

Info

Publication number: CN112599114B
Application number: CN202011250788.3A
Authority: CN
Inventors: 郭莉莉; 汪俊杰; 王旭阳; 杨琳
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2024-06-18
Anticipated expiration: 2040-11-11
Also published as: CN112599114A

Abstract

本发明公开了一种语音识别方法及装置，在对包括第一对象与第二对象之间至少两组交互的待处理语音中的每一交互语音数据进行特征提取后，利用第一声学模型对特征提取结果进行解码，得到第一识别结果，并根据第一识别结果，确定交互语音数据中的关键词；然后利用第二声学模型对关键词进行识别，得到第二识别结果；根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词，构建关键词与语义词的映射；并根据映射，对第二识别结果进行修正，输出待处理语音的识别结果。避免了在语音识别装置应用前准备大量的语音和文本数据进行模型训练，有效提高模型的通用性，并在应用过程中快速提高语音识别的精确度。

Description

一种语音识别方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音识别方法及装置。

背景技术

基于语音识别的设备会部署在不同地域进行使用，因为不同地域有不同的方言，某些关键词在不同方言中的发音也会发生改变，所以一套基于普通话的语音识别引擎已经无法满足部署至不同地域进行使用的要求。此外，随着互联网的飞速发展，热词层出不穷，这些热词通常都是关键词，原有的基于普通话的语音引擎对热词的识别准确率也比较低。

目前主要采用以下两种方式来解决：1、针对方言场景，采集大量的方言的语音和文本，训练包含方言的声学模型；针对热词场景，采集大量包含热词的语音和文本，训练声学模型和语言模型。需要预先准备设备所部署的地区的方言数据，包括语音和文本，由此改进声学模型的性能。但是，大量采集设备需要部署的地域的大量方言消耗较大的人力物力，并且有些方言搜集并不完整。此外，设备出厂前通常不能预知设备将要部署的地域。无法事先准备当地的方言语音并训练模型。对于热词，其更新速度非常快，频繁更新引擎的可操作性较差。此外，利用方言或热词训练的声学模型和语言模型，在一定程度上影响基准的普通话声学模型和语言模型。2、在基于普通话训练的基准声学模型上，采用说话人自适应技术，对基准声学模型进行修正，但是该方法会影响普通话的识别准确率。

发明内容

本发明实施例为了解决语音识别过程中存在的上述问题，创造性地提供一种语音识别方法及装置。

根据本发明第一方面，提供了一种语音识别方法，该方法包括：接收待处理语音，所述待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且所述第一对象发出的交互语音数据中包括特定种类语音；对所述待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；利用第一声学模型对所述特征提取结果进行解码，得到第一识别结果；根据所述第一识别结果，确定所述交互语音数据中的关键词；利用第二声学模型对所述关键词进行识别，得到第二识别结果；根据所述关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，构建所述关键词与所述语义词的映射；根据所述映射，对所述第二识别结果进行修正，输出所述待处理语音的识别结果。

根据本发明一实施方式，所述对所述待处理语音中的每一交互语音数据进行特征提取包括：对所述待处理语音进行以下预处理中至少之一：分帧、加窗和预加重；对预处理后的交互语音数据进行语音特征提取。

根据本发明一实施方式，所述方法还包括：在所述第二识别结果示出所述第二声学模型无法识别所述关键词时，根据所述关键词、所述特征提取结果，更新所述第二声学模型。

根据本发明一实施方式，所述根据所述关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，包括：根据所述第二识别结果，对所述待处理语音进行分割，得到多个交互语音数据；确定所述关键词所对应的第一交互语音数据；确定所述关键词所对应的第一交互语音数据的相邻语音数据；对所述前一交互语音数据、所述后一交互语音中和所述第一交互语音数据进行语义挖掘，以确定所述前一交互语音数据和所述后一交互语音中所述关键词对应的语义词。

根据本发明一实施方式，所述根据所述第一识别结果，确定所述交互语音数据中的关键词，包括：确定所述第一识别结果中置信度低于第一设定阈值的语音特征；将所确定的语音特征对应的语音信息片段确定为关键词。

根据本发明一实施方式，所述根据所述映射，对所述第二识别结果进行修正，输出所述待处理语音的识别结果，包括：确定所述关键词对应的语音特征在所述第二识别结果中的关键词置信度；对于所述关键词置信度低于第二设定阈值的语音特征，根据所述映射，确定所述关键词对应的语义词；将所述关键词对应的语义词作为相应的语音特征的最终识别结果。

根据本发明第二方面，还提供了一种语音识别装置，所述装置包括：接收模块，用于接收待处理语音，所述待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且所述第一对象发出的交互语音数据中包括特定种类语音；特征提取模块，用于对所述待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；第一解码模块，用于利用第一声学模型对所述特征提取结果进行解码，得到第一识别结果；关键词确定模块，用于根据所述第一识别结果，确定所述交互语音数据中的关键词；第二解码模块，用于利用第二声学模型对所述关键词进行识别，得到第二识别结果；关键词映射模块，用于根据所述关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，构建所述关键词与所述语义词的映射；修正模块，用于根据所述映射，对所述第二识别结果进行修正，输出所述待处理语音的识别结果。

根据本发明一实施方式，所述装置还包括：第二模型更新模块，用于在所述第二识别结果示出所述第二声学模型无法识别所述关键词时，根据所述关键词、所述特征提取结果，更新所述第二声学模型。

根据本发明一实施方式，所述关键词确定模块包括：分割子模块，用于根据所述第二识别结果，对所述待处理语音进行分割，得到多个交互语音数据；关键词交互语音确定子模块，用于确定所述关键词所对应的第一交互语音数据；相邻数据确定子模块，用于确定所述关键词所对应的第一交互语音数据的相邻语音数据；语义词确定子模块，用于对所述前一交互语音数据、所述后一交互语音中和所述第一交互语音数据进行语义挖掘，以确定所述前一交互语音数据和所述后一交互语音中所述关键词对应的语义词。

根据本发明一实施方式，所述修正模块包括：关键词置信度确定子模块，用于确定所述关键词对应的语音特征在所述第二识别结果中的关键词置信度；语义词对应子模块，用于对于所述关键词置信度低于第二设定阈值的语音特征，根据所述映射，确定所述关键词对应的语义词；修正子模块，用于将所述关键词对应的语义词作为相应的语音特征的最终识别结果。

根据本发明第三方面，又提供了一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述语音识别方法。

根据本发明第四方面，又提供了一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任意所述语音识别方法。

本发明实施例语音识别方法、装置及设备，在对包括第一对象与第二对象之间至少两组交互的待处理语音中的每一交互语音数据进行特征提取后，利用第一声学模型对所述特征提取结果进行解码，得到第一识别结果，并根据所述第一识别结果，确定所述交互语音数据中的关键词；然后利用第二声学模型对所述关键词进行识别，得到第二识别结果；根据所述关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，构建所述关键词与所述语义词的映射；并根据所述映射，对所述第二识别结果进行修正，输出所述待处理语音的识别结果。利用待处理信息的上下文信息进行语义挖掘即可得到关键词对应的语义词，其中关键词可以是某地方言中特有的词或者当前的网红词等，语义词可以是普通话中的字或者词，由此，可以根据与关键词对应的语义词对利用声学模型解码得到的识别结果进行修正，并在识别到关键词时，进行第二声学模型的更新。因此，第二声学模型的初始模型可以仅包括模型结构和初始参数的模型，避免在语音识别装置应用前准备大量的语音和文本数据进行模型训练，有效提高模型的通用性，并在应用过程中快速提高语音识别的精确度。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例语音识别方法的实现流程示意图；

图2示出了本发明实施例语音识别方法应用示例的实现流程示意图；

图3示出了本发明实施例语音识别装置的组成结构示意图；

图4示出了本发明实施例设备的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例语音识别方法的实现流程示意图。

参考图1，本发明实施例语音识别方法，至少包括如下操作流程：操作101，接收待处理语音，待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且第一对象发出的交互语音数据中包括特定种类语音；操作102，对待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；操作103，利用第一声学模型对特征提取结果进行解码，得到第一识别结果；操作104，根据第一识别结果，确定交互语音数据中的关键词；操作105，利用第二声学模型对关键词进行识别，得到第二识别结果；操作106，根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词，构建关键词与语义词的映射；操作107，根据映射，对第二识别结果进行修正，输出待处理语音的识别结果。

在操作101，接收待处理语音，待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且第一对象发出的交互语音数据中包括特定种类语音。

在本发明一实施方式中，特定种类语音可以是某一个地域特有的语言表达形式，例如：方言等，也可以是某一个时段内或在某些特定人群中流行的字或词语，例如：网红热词等。

待处理语音可以是两个或两个以上的用户之间的交互信息。例如：

进行语音表达时具有方言口音的A：“我们昨天去叶阳楼玩了”；

利用较为标准的普通话B(不带口音)：“岳阳楼好玩吗？”。

其中，“叶阳楼”为某地方言中“岳阳楼”的语音输入形式。这里利用简单的文字表达形式来表示语音内容，实际应用中是指接收到的语音信息，可以用音素来表示。

在本发明一实施方式中，可以利用麦克风等设备进行语音信息的采集，并获取所采集的语音信息，作为待处理语音。

操作102，对待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果。

在本发明一实施方式中，对待处理语音中的每一交互语音数据进行特征提取包括：对待处理语音进行以下预处理中至少之一：分帧、加窗和预加重；对预处理后的交互语音数据进行语音特征提取。

在对语音信号进行分析和处理之前，对其进行预加重、分帧、加窗等预处理操作目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响，以保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/oct(倍频程)衰减，频率越高相应的成分越小，为此要在对语音信号s(n)进行分析之前对其高频部分加以提升，可以用数字滤波器实现预加重。而分帧是指将语音信号分段来分析其特征参数，其中每一段称为一“帧”，帧长可以取10～30ms。例如：对语音信息进行特征提取时，可以“25ms一帧，帧移为10ms”进行分帧。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。对语音信号进行加窗处理时可以采用以下三种窗函数中的一者：矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。

对交互语音数据进行预处理后，可以利用MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)、PLP(Perceptual Linear Prediction，感知线性预测)等技术进行语音特征提取。特征提取后得到的特征提取结果为特征向量，例如，利用MFCC技术进行语音特征提取得到的特征提取结果可以是13维特征向量，具有较有高分辨率的语音特征提取结果还可以是40维特征向量。

举例说明，可以包括以下操作步骤利用MFCC技术对待处理语音进行语音特征提取：1)先对语音进行预加重、分帧和加窗；2)对每一个短时分析窗，通过FFT得到对应的频谱；3)将上面的频谱通过Mel滤波器组得到Mel频谱；4)在Mel频谱上面进行倒谱分析，例如：可以Mel频谱取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数)，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

操作103，利用第一声学模型对特征提取结果进行解码，得到第一识别结果。

在本发明一实施方式中，第一声学模型为通用解码模型，即预先利用大量的语音数据进行声学模型训练得到的通用解码模型，例如：利用大量的汉语普通话进行训练得到的通用声学模型，还可以是利用某种特定的其他语言进行训练得到的通用声学模型，例如：英文、法文等。

利用通用解码模型对特征提取结果进行解码得到的第一识别结果中可以包括特征提取结果中的特征向量与语音内容的对应关系，以及某一特征向量为相应地语音内容的置信度，例如：特征向量W1对应的语义内容为Y1的置信度为60％。

操作104，根据第一识别结果，确定交互语音数据中的关键词。

在本发明一实施方式中，采用以下操作步骤确定交互语音数据中的关键词：根据第一识别结果，确定第一识别结果中置信度低于第一设定阈值的语音特征；将所确定的语音特征对应的语音信息片段确定为关键词。

举例说明，特征向量W2对应的语义内容为Y2的置信度为30％。第一设定阈值为55％，则说明特征向量W2识别结果的可信度比较低，利用通用解码模型不能精确识别特征向量W2对应的语音内容，由此，特征向量W2对应的语音信息片段为方言或网红词等关键词。

操作105，利用第二声学模型对关键词进行识别，得到第二识别结果。

在本发明一实施方式中，关键词声学模型可以为方言解码模型，第一次应用该语音识别方法时，关键词声学模型可以是仅定义了模型结构和模型初始参数的关键词声学模型，无需获取大量数据进行训练，在应用过程中进行自学习。

例如：在本发明一实施方式中，还在第二识别结果示出第二声学模型无法识别关键词时，根据关键词、特征提取结果，更新第二声学模型。

第二识别结果示出第二声学模型无法识别关键词是指，经过第二声学模型对关键词对应的特征向量进行解码后，得到特征向量、相对应的语音内容以及该特征向量为相应的语音内容的置信度，若此时置信度仍然较低，则认定为第二识别结果示出第二声学模型无法识别关键词。此时，判定当前的第二声学模型无法对该关键词进行精确解码。因此，将该关键词以及对应的特征向量作为训练数据，进行模型训练，更新第二声学模型。

由此，应用语音识别方法的设备无需在出厂前即进行大量的数据搜集和模型训练，有效避免发生以下问题：在设备不确定销售至何地时无法进行模型训练，而在确定设备销售至何地时，模型训练的时间不充分，数据搜集途径和数量有限等。

操作106，根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词，构建关键词与语义词的映射。

在本发明一实施方式中，采用以下操作步骤实现根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词：根据第二识别结果，对待处理语音进行分割，得到多个交互语音数据；确定关键词所对应的第一交互语音数据；确定关键词所对应的第一交互语音数据的相邻语音数据；对前一交互语音数据、后一交互语音中和第一交互语音数据进行语义挖掘，以确定前一交互语音数据和后一交互语音中关键词对应的语义词。

对待处理语音进行分割的过程是将待处理语音按照语音的发出者不同进行分割。例如：待处理信息为A和B的对话语音，具体内容如下：

A(发出语音信息时具有方言口音)：“我们昨天去叶阳楼玩了”；

B(发出语音信息时采用普通话发音，不带口音)：“岳阳楼好玩吗？”。

则对待处理语音进行分割后，得到两个交互语音数据：1、“我们昨天去叶阳楼玩了”；2、“岳阳楼好玩吗？”。第二识别结果中“叶阳楼”这个词的语音对应的特征向量为识别结果中的语音内容“叶阳楼”的置信度是低于第一设定阈值的，因此，根据第二识别结果可以确定关键词对应的第一交互数据为“我们昨天去叶阳楼玩了”。

关键词所对应的第一交互语音数据的相邻语音数据可以是第一交互语音数据的前一交互语音数据或后一交互语音数据，也可以同时包括关键词所对应的第一交互语音数据的的前一交互语音数据或后一交互语音数据。

举例说明，上述A和B的对话语音中关键词“叶阳楼”所对应的第一交互语音数据“我们昨天去叶阳楼玩了”的相邻语音数据为“岳阳楼好玩吗？”。

对前一交互语音数据、后一交互语音中和第一交互语音数据进行语义挖掘，可以确定上下文中具有相对应关系的字或词语。例如：再次参考上述A和B的对话语音。通过语义挖掘，可以确定“叶阳楼”和“岳阳楼”具有对应关系。“岳阳楼”为通用语言的语音输出方式，可以为作为关键词“叶阳楼”对应的语义词。由此，得到关键词和语义词的映射<叶阳楼，岳阳楼>。

操作107，根据映射，对第二识别结果进行修正，输出待处理语音的识别结果。

在本发明一实施方式中，采用以下操作步骤实现根据映射，对第二识别结果进行修正，输出待处理语音的识别结果：确定关键词对应的语音特征在第二识别结果中的关键词置信度；对于关键词置信度低于第二设定阈值的语音特征，根据映射，确定关键词对应的语义词；将关键词对应的语义词作为相应的语音特征的最终识别结果。

举例说明，如果第二声学模型中此前没有搜集到某个关键词，则第二声学模型不能对包含相应关键词的交互语音数据进行较为精确的解码，第二识别结果中关键词的语音特征向量为相应地语音内容的置信度仍然较低。此时，可以根据操作106中包含关键词的交互语音数据的相邻数据进行语义挖掘得到的关键词与语义词的映射，将第二识别结果中所识别的关键词语音特征向量对应的语音内容替换为映射中的语义词。

在本发明一实施方式中，还将利用第二声学模型对关键词进行解码的结果和利用第一声学模型对交互语音数据进行解码的结果中所包括的关键词的解码结果进行比较，选择关键词对应的语音内容的置信度比较高的结果，如果利用第二声学模型的解码结果替换利用第一声学模型对交互语音数据进行解码的结果中所包括的关键词的解码结果，还需要对利用第一声学模型进行解码的解码网络进行重新打分。

如此，在第二声学模型中未搜集包含待处理信息中的关键词的语音数据和文本数据进行训练时，也能准确对待处理信息进行语音识别，得到精确的语音识别结果，使得本发明语音识别方法具有非常高的通用性。

图2示出了本发明实施例语音识别方法应用示例的具体实现流程示意图。

参考图2，本发明实施例语音识别方法应用示例，至少包括如下操作流程：

操作201，语音输入，例如：利用麦克风等设备采集语音数据。具体实现流程可参考操作101，此处不再赘述。

操作202，语音特征提取。具体实现流程参考操作102，此处不再赘述。

操作203，利用通用解码模型进行解码。具体实现流程参考操作103，此处不再赘述。

操作204，关键词语音获取。具体实现流程可参考操作104，此处不再赘述。

操作205，关键词声学模型更新。具体实现流程可参考操作105，此处不再赘述。

操作206，利用关键词声学模型进行解码。具体实现流程可参考操作105，此处不再赘述。

操作207，修正识别结果。具体实现流程可参考操作107，此处不再赘述。

操作208，语音分割。

操作209，包含关键词的语音的相邻语音。

操作210，语义挖掘。

操作211，关键词与普通话的映射。

其中，操作208～211中未具体说明的实现过程与图1所示实施例中操作105的具体实现过程相类似，这里不再赘述。

本发明实施例语音识别方法、装置及设备，在对包括第一对象与第二对象之间至少两组交互的待处理语音中的每一交互语音数据进行特征提取后，利用第一声学模型对特征提取结果进行解码，得到第一识别结果，并根据第一识别结果，确定交互语音数据中的关键词；然后利用第二声学模型对关键词进行识别，得到第二识别结果；根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词，构建关键词与语义词的映射；并根据映射，对第二识别结果进行修正，输出待处理语音的识别结果。利用待处理信息的上下文信息进行语义挖掘即可得到关键词对应的语义词，其中关键词可以是某地方言中特有的词或者当前的网红词等，语义词可以是普通话中的字或者词，由此，可以根据与关键词对应的语义词对利用声学模型解码得到的识别结果进行修正，并在识别到关键词时，进行第二声学模型的更新。因此，第二声学模型的初始模型可以仅包括模型结构和初始参数的模型，避免在语音识别装置应用前准备大量的语音和文本数据进行模型训练，有效提高模型的通用性，并在应用过程中快速提高语音识别的精确度。

同理，基于上文语音识别方法，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序，当程序被处理器执行时，使得处理器至少执行如下的操作步骤：操作101，接收待处理语音，待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且第一对象发出的交互语音数据中包括特定种类语音；操作102，对待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；操作103，利用第一声学模型对特征提取结果进行解码，得到第一识别结果；操作104，根据第一识别结果，确定交互语音数据中的关键词；操作105，利用第二声学模型对关键词进行识别，得到第二识别结果；操作106，根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词，构建关键词与语义词的映射；操作107，根据映射，对第二识别结果进行修正，输出待处理语音的识别结果。

进一步，基于如上文语音识别方法，本发明实施例还提供一种语音识别装置，如图3所示，该装置30包括：接收模块301，用于接收待处理语音，待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且第一对象发出的交互语音数据中包括特定种类语音；特征提取模块302，用于对待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；第一解码模块303，用于利用第一声学模型对特征提取结果进行解码，得到第一识别结果；关键词确定模块304，用于根据第一识别结果，确定交互语音数据中的关键词；第二解码模块305，用于利用第二声学模型对关键词进行识别，得到第二识别结果；关键词映射模块306，用于根据关键词和第二识别结果，确定待处理语音中与关键词对应的语义词，构建关键词与语义词的映射；修正模块307，用于根据映射，对第二识别结果进行修正，输出待处理语音的识别结果。

在本发明一实施方式中，装置30还包括：第二模型更新模块，用于在第二识别结果示出第二声学模型无法识别关键词时，根据关键词、特征提取结果，更新第二声学模型。

在本发明一实施方式中，关键词确定模块304包括：分割子模块，用于根据第二识别结果，对待处理语音进行分割，得到多个交互语音数据；关键词交互语音确定子模块，用于确定关键词所对应的第一交互语音数据；相邻数据确定子模块，用于确定关键词所对应的第一交互语音数据的相邻语音数据；语义词确定子模块，用于对前一交互语音数据、后一交互语音中和第一交互语音数据进行语义挖掘，以确定前一交互语音数据和后一交互语音中关键词对应的语义词。

在本发明一实施方式中，修正模块307包括：关键词置信度确定子模块，用于确定关键词对应的语音特征在第二识别结果中的关键词置信度；语义词对应子模块，用于对于关键词置信度低于第二设定阈值的语音特征，根据映射，确定关键词对应的语义词；修正子模块，用于将关键词对应的语义词作为相应的语音特征的最终识别结果。

进一步，基于如上文语音识别方法，本发明实施例又提供了一种设备，参考图4，该设备40包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403；其中，处理器401、存储器402通过总线403完成相互间的通信；处理器401用于调用存储器402中的程序指令，以执行上述语音识别方法。

这里需要指出的是：以上对针对语音识别装置及设备实施例的描述，与前述图1至2所示的方法实施例的描述是类似的，具有同前述图1至2所示的方法实施例相似的有益效果，因此不做赘述。对于本发明语音识别装置的实施例中未披露的技术细节，请参照本发明前述图1至2所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，所述方法包括：

接收待处理语音，所述待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且所述第一对象发出的交互语音数据中包括特定种类语音；

对所述待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；

利用第一声学模型对所述特征提取结果进行解码，得到第一识别结果；

根据所述第一识别结果，确定所述交互语音数据中的关键词；

利用第二声学模型对所述关键词进行识别，得到第二识别结果；其中，所述第二声学模型是包括模型结构和初始参数的模型；

确定所述关键词对应的语音特征在所述第二识别结果中的关键词置信度；对于所述关键词置信度低于第二设定阈值的语音特征，根据所述关键词置信度低于第二设定阈值的语音特征对应的关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，构建所述关键词与所述语义词的映射；

根据所述映射，对所述第二识别结果进行修正，输出所述待处理语音的识别结果；

其中，所述根据所述关键词置信度低于第二设定阈值的语音特征对应的关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，还包括：

根据所述第二识别结果，对所述待处理语音进行分割，得到多个交互语音数据；

确定所述关键词所对应的第一交互语音数据；

确定所述关键词所对应的第一交互语音数据的相邻语音数据；

对前一交互语音数据、后一交互语音数据和所述第一交互语音数据进行语义挖掘，以确定所述前一交互语音数据和所述后一交互语音数据中所述关键词对应的语义词。

2.根据权利要求1所述的方法，所述对所述待处理语音中的每一交互语音数据进行特征提取包括：

对所述待处理语音进行以下预处理中至少之一：分帧、加窗和预加重；

对预处理后的交互语音数据进行语音特征提取。

3.根据权利要求1所述的方法，所述方法还包括：

在所述第二识别结果示出所述第二声学模型无法识别所述关键词时，根据所述关键词、所述特征提取结果，更新所述第二声学模型。

4.根据权利要求1所述的方法，所述根据所述第一识别结果，确定所述交互语音数据中的关键词，包括：

确定所述第一识别结果中置信度低于第一设定阈值的语音特征；

将所确定的语音特征对应的语音信息片段确定为关键词。

5.一种语音识别装置，所述装置包括：

接收模块，用于接收待处理语音，所述待处理语音包括第一对象与第二对象之间至少两组交互的交互语音数据，并且所述第一对象发出的交互语音数据中包括特定种类语音；

特征提取模块，用于对所述待处理语音中的每一交互语音数据进行特征提取，得到特征提取结果；

第一解码模块，用于利用第一声学模型对所述特征提取结果进行解码，得到第一识别结果；

关键词确定模块，用于根据所述第一识别结果，确定所述交互语音数据中的关键词；

第二解码模块，用于利用第二声学模型对所述关键词进行识别，得到第二识别结果；其中，所述第二声学模型是包括模型结构和初始参数的模型；

修正模块，用于确定所述关键词对应的语音特征在所述第二识别结果中的关键词置信度；对于所述关键词置信度低于第二设定阈值的语音特征，根据所述关键词置信度低于第二设定阈值的语音特征对应的关键词和所述第二识别结果，确定所述待处理语音中与所述关键词对应的语义词，构建所述关键词与所述语义词的映射；根据所述映射，对所述第二识别结果进行修正，输出所述待处理语音的识别结果；

其中，所述关键词确定模块还包括：

分割子模块，用于根据所述第二识别结果，对所述待处理语音进行分割，得到多个交互语音数据；

关键词交互语音确定子模块，用于确定所述关键词所对应的第一交互语音数据；

相邻数据确定子模块，用于确定所述关键词所对应的第一交互语音数据的相邻语音数据；

语义词确定子模块，用于对前一交互语音数据、后一交互语音数据和所述第一交互语音数据进行语义挖掘，以确定所述前一交互语音数据和所述后一交互语音数据中所述关键词对应的语义词。

6.根据权利要求5所述的装置，所述装置还包括：

第二模型更新模块，用于在所述第二识别结果示出所述第二声学模型无法识别所述关键词时，根据所述关键词、所述特征提取结果，更新所述第二声学模型。