CN108831439B

CN108831439B - 语音识别方法、装置、设备和***

Info

Publication number: CN108831439B
Application number: CN201810677565.1A
Authority: CN
Inventors: 李忠杰
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2023-04-18
Anticipated expiration: 2038-06-27
Also published as: CN108831439A

Abstract

本发明公开一种语音识别方法，包括步骤：获取语音信号；对语音信号进行解码处理，获得多个最佳路径；根据预先训练的用户模型，对多个最佳路径进行评价；根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。还公开一种语音识别装置、语音识别设备和语音识别***。通过语音信号进行解码得到多个最佳路径，并对多个最佳路径调用用户模型进行评价，根据评价结果最终得到语音识别结果，解决了传统语音识别技术中识别结果准确率较低的问题，大大提高识别结果的准确率。上述语音识别***的识别准确率较高外，可有效提高用户个人信息的安全度。

Description

语音识别方法、装置、设备和***

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法、装置、设备和***。

背景技术

随着智能交互技术的快速发展和市场需求的不断扩展，语音识别技术在近年来取得长足发展，至今已经在多个领域中得到广泛的应用。语音识别技术，顾名思义，就是对输入的语音信号进行识别，从而转换成计算机可处理的文本信息。利用语音识别技术可以实现众多应用场景中的智能语音交互，例如语音助手，基于语音识别的智能控制等。

传统的语音识别技术方案一般是***接收到语音信号后进行特征提取，并基于提取的特征对语音信号进行分类计算，而后结合加权有限状态机(WFST)进行解码输出语音识别结果。然而，传统的语音识别技术的识别结果准确率仍然不高。

发明内容

基于此，本发明提供一种语音识别方法，一种语音识别装置，一种语音识别设备以及一种语音识别***。

为实现上述目的，一方面，本发明实施例提供一种语音识别方法，包括步骤：

获取语音信号；

对所述语音信号进行解码处理，获得多个最佳路径；

根据预先训练的用户模型，对多个所述最佳路径进行评价；

根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果。

在其中一个实施例中，对所述语音信号进行解码处理，获得多个最佳路径的过程包括以下步骤：

对所述语音信号进行特征提取，得到对应的声学特征信息；

根据所述声学特征信息，通过预先构建的声学模型将所述语音信号分类为各个类别并确定对应的分类概率；

根据各个类别的所述语音信号及对应的所述分类概率，基于预先构建的WFST模块进行前向搜索，获得多个所述最佳路径。

在其中一个实施例中，根据各个类别的所述语音信号及对应的所述分类概率，基于预先构建的WFST模块进行前向搜索，获得多个最佳路径的步骤，包括：

基于预先构建的多个所述WFST模块分别进行独立前向搜索，获得与多个所述WFST模块分别对应的多个所述最佳路径。

在其中一个实施例中，根据各个类别的所述语音信号及对应的所述分类概率，基于预先构建的WFST模块进行前向搜索，获得多个最佳路径的步骤，还包括：

基于预先构建的多个所述WFST模块及对应的权重，进行同步前向搜索，获得与多个所述WFST模块对应的多个所述最佳路径。语音识别的准确率较高同时，大大提升识别速度。

在其中一个实施例中，在在根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果的步骤后，还包括：

若检测到所述语音识别结果包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据所述新增的联系人信息、所述新增的自创词组和/或所述新增的特征语言信息，更新所述用户模型。

在其中一个实施例中，多个所述WFST模块包含定制WFST模块，所述定制WFST模块通过以下步骤获取：

采集设定的词句及语法信息；

通过词典对所述设定的词句进行分词处理；

对所述语法信息进行统计训练，得到对应的语言模型；

根据所述分词处理的结果和所述语言模型，编译得到所述定制WFST模块。可以通过结合定制WFST模块，进一步提高语音识别的准确率。

另一方面，本发明实施例还提供一种语音识别方法，包括步骤：

向服务器发送语音信号；

获取服务器对所述语音信号进行解码处理后反馈的多个最佳路径；

根据预先训练的用户模型，对多个所述最佳路径进行评价；

再一方面，本发明实施例提供一种语音识别装置，包括：

语音获取模块，用于获取语音信号；

解码处理模块，用于对所述语音信号进行解码处理，获得多个最佳路径；

第一评价模块，用于根据预先训练的用户模型，对多个所述最佳路径进行评价；

第一结果获取模块，用于根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果。

再一方面，本发明实施例还提供一种语音识别装置，包括：

语音发送模块，用于向服务器发送语音信号；

词序列获取模块，用于获取服务器对所述语音信号进行解码处理后反馈的最佳路径；

第二评价模块，用于根据预先训练的用户模型，对多个所述最佳路径进行评价；

第二结果获取模块，用于根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种的语音识别方法的步骤。

再一方面，本发明实施例提供一种语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现上述任一种的语音识别方法。

再一方面，本发明实施例还提供一种语音识别***，包括服务器和终端；

所述终端用于发送语音信号至所述服务器；

所述服务器用于对所述语音信号进行解码处理，获得多个最佳路径；

所述终端还用于根据预先训练的用户模型，对多个所述最佳路径进行评价；根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果。

在其中一个实施例中，所述终端还用于：若检测到所述语音识别结果包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据所述新增的联系人信息、所述新增的自创词组和/或所述新增的特征语言信息，更新所述用户模型。

上述技术方案中的一个技术方案具有如下优点和有益效果：

通过对WFST模块输出的多个最佳路径，调用预先训练的用户模型对多个所述最佳路径进行评价，并根据评价结果从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据目标最佳路径确定所述语音信号的语音识别结果。所得语音识别结果可有效覆盖尽多的语音交互应用场景和领域，并有效结合了用户的语音特征，达到了所得语音识别结果更贴近用户的实际应用场景，识别结果准确率得到较大提高的效果。

附图说明

图1为一个实施例的语音识别方法的流程示意图；

图2为一个实施例的最佳路径获取流程示意图；

图3为一个实施例的定制解码器构建的简要流程示意图；

图4为一个实施例的第一种示意性语音识别过程示意图；

图5为一个实施例的第二种示意性语音识别过程示意图；

图6为一个实施例的另一种语音识别方法的流程示意图；

图7为一个实施例的第一种语音识别装置的模块结构示意图；

图8为一个实施例的解码处理模块的结构示意图；

图9为一个实施例的第二种语音识别装置的模块结构示意图；

图10为一个实施例的语音识别***结构示意图；

图11为一个实施例的语音识别过程的第一种时序示意图；

图12为一个实施例的语音识别过程的第二种时序示意图。

具体实施方式

下面将结合较佳实施例及附图对本发明的内容作进一步详细描述。显然，下文所描述的实施例仅用于解释本发明，而非对本发明的限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音识别技术，也可以称为自动语音识别(Automatic Speech Recognition，ASR)，其任务是把人所发出的语音中的词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术，涉及多个学科领域，如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等。目前，主流的大词汇量语音识别***中通常采用基于统计模型的识别技术。语音识别技术的应用载体一般是语音识别***，主体通常可以包含有服务器及终端，语音信号一般由终端输入后发送到服务器，由服务器对语音信号进行语音识别处理并返回相应的结果。终端例如可以是智能手机，例如用户可以通过手机讲一段话，手机会将输入的这段语音送到服务器进行语音识别后，接收服务器返回的语音识别结果，最终用户在手机上看到的是一段与输入的语音对应的文字或者手机显示对应文字后执行对应的控制操作，例如开启对应的应用等。除此之外，上述的终端还可以是各种智能设备，例如智能电视、平板甚至是其他各种智能家电、智能办公设备等。

然而，发明人在实现本发明实施例的技术方案过程中发现，在随着日益提高的应用要求，传统的语音识别技术中的识别方法仍然存在着语音识别准确率不高的问题。为此，请参阅图1，提供一种语音识别方法，包括如下步骤：

S10，获取语音信号。

其中，语音信号可以是服务器从终端上获得的用户输入的语音信号，终端可以是但不限于智能手机、平板电脑、智能电视机、智能机器人、智能交互平板、智能穿戴设备、智能医疗设备等，还可以是其他类型的智能家电、汽车等。

S12，对语音信号进行解码处理，获得多个最佳路径；

其中，解码处理可以是通过预先构建的搜索模块对语音信号进行的解码处理，最佳路径可以是解码处理输出的搜索路径中满足要求的路径，例如权重最高的一个解码结果所对应的搜索路径。

在一些实施例中，预先构建的搜索模块可以是WFST模块，WFST模块是解码器中的搜索功能模块，其中，解码器是指将输入的音频信号解码输出对应文字结果的软件程序(如手机应用程序、服务器程序等等)或装置(如独立的语音翻译机)。通常可以通过多个WFST模块直接获得多个最佳路径，或者通过解码处理输出的词格信息获得多个最佳路径，其中，词格信息也即词网格信息(word lattice)，词格信息是解码处理结果的一种表示形式，词格信息中包含多个最佳路径。

在本实施例中预先构建的WFST模块可以是根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的对应各预定领域、各预定场景和各设定语言模式的各个WFST模块，也可以是组合各个WFST模块后成的一个通用WFST模块。其中，各预定领域可以是各种学科领域、各类商品领域或其他具体领域，通常每一个预定领域都会有该领域对应的常用词句、专业词句等具有区别性的词句，相应的发音习惯也会有所不同或侧重。各预定场景例如可以是用户常处在的各种生活场景和工作场景等，同样也会具有对应各种场景下的语音特点。各设定语言模式可以是用户自身的语言习惯或语音发音习惯，产生的能够代表该用户个人特征的语言模式，例如用户的口音以及习惯用语等。

具体的，可以通过服务器调用预先构建的各个WFST模块或者各个WFST模块组合而成的一个通用WFST模块对语音信号进行解码处理，输出多个最佳路径。至此，服务器即可以完成通过WFST模块进行搜索后，得到多个具有不同概率的初步的语音识别结果的过程。各个WFST模块或通用WFST模块的构建方法或组合方法，可以利用本领域的常用方法，在本说明书中不做限定。

在另一些实施例中，可以通过现有技术中其他类型的搜索模块进行处理以获得最佳路径，此处不予赘述。

S14，根据预先训练的用户模型，对多个最佳路径进行评价；

S16根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

其中，用户模型可以是反映用户个人特征的数据统计形态的模型，一般可以通过预先采集需要的用户数据来进行训练获得。用户模型可以通过本领域的各种常用技术手段，对需要的用户数据进行预先训练得到，本说明书对用户模型的训练方法不做限定。

可以理解，可以通过服务器或者终端调用预先训练的用户模型，对前述得到的多个最佳路径进行评价，如此评价后的多个最佳路径，可以分别赋予一个对应的评价指标，例如接近用户个人特征的程度得分，或者例如接近用户个人特征的程度与最佳路径对应的权重两方面的综合得分。服务器或者终端可以但不限于从多个最佳路径中提取与用户模型匹配度最高的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定对应的语音信号的语音识别结果。

上述实施例的语音识别方法，通过调用预先训练的用户模型对多个最佳路径进行评价，从多个最佳路径中得到与用户模型匹配度，也即最符合用户实际情况的语音识别结果。

此外，结合WFST模块的构建及运用预先训练的用户模型进行评价，可有效适应复杂多变的语音交流场景，并可以兼顾用户语音交流的内容所覆盖的各种领域及说话习惯，更贴近用户的实际应用情景，识别结果准确率得到大大提高，有效避免传统的语音识别技术的识别结果准确率较低的问题。

在其中一个实施例中，语音识别结果可以是词序列，也可以是词序列对应控制指令。其中，词序列可以是目标最佳路径对应的具有相应概率、且具有网格结构的字符串，具体可以是语音信息解码搜索后得到的文本信息。如此，语音识别结果被终端接收后，可以是进行文字显示，也可以是执行相应的控制操作。例如，终端是手机时，用户可以对着手机说一段语音，后台的服务器可以快速、准确的将用户说的语音转换成文字，并且显示出来。或者例如终端是电视机时，用户可以对着电视机说出一个语音指令，后台的服务器可以快速、准确的将用户的语音指令识别，得到对应的控制指令并返回到电视机上，使电视机执行相应控制操作，如切换节目等。

在其中一个实施例中，上述实施例中的用户模型可以根据与用户关联的联系人信息、自创词组和/或特征语言信息进行训练获得。关联的联系人信息可以预先从用户的终端上调取得到，也可以在终端自动同步联系人信息到服务器上时进行获取。自创词组可以是从用户在日常使用终端的过程中通过各种方式创建的词组，例如通过输入文字的方式创建的词组，或者对输入到终端上的语音信息进行提取所得到的自创词组。自创词组一般不存在于现有词典中，而是用户首次创建的。特征语言信息可以包含有表征用户的语言***均语速、口头禅或者其他表征用户的语音特性的信息。如此，通过定期或在线收集用户的语音特性信息用于用户模型的训练，得到尽可能符合用户真实情况的用户模型，从而确保语音识别结果的准确度提高效果。

需要说明的是，本说明书中的语音识别方法的各个步骤，可以部分步骤在终端上执行，其余部分步骤可以在服务器上执行，也可以在终端上执行各个步骤，例如离线的语音识别，因此所述的通过服务器执行各个步骤是示例性的执行方式，而非全部的执行方式。

请参阅图2，在其中一个实施例中，对于步骤S12，可以具体包含如下步骤：

S122，对语音信号进行特征提取，得到对应的声学特征信息。

可以理解，服务器可以获取语音信号后，对获得的语音信号进行特征提取以得到该语音信号的声学特征信息。服务器对执行特征提取的过程中可以采用本领域常规技术手段来完成，本说明书实施例不对服务器执行声学特征信息提取过程所采用的方法进行限定，例如可以采用线性预测倒谱系数法(LPCC：LinearPrediction CepstrumCoefficient)、美尔频率倒谱系数法(MFCC：Mel Frequency Cepstrum Coefficient)、感知线性预测参数法(PLP：Perceptual Linear Predict ive)和梅尔标度滤波法(FBANK：Mel-scale Filter Bank)中的任意一种均可。

S124，根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别并确定对应的分类概率。

其中，声学模型可以通过本领域常规方法进行预先构建，本说明书不对构建声学模型的方法进行限定，例如可以基于卷积神经网络、循环神经网络、深度神经网络、高斯混合模型和长短期记忆网络中的任一种方法进行声学模型的构建。

可以理解，服务器可以通过预先构建好的声学模型，根据前述获得的声学特征信息对语音信号进行分类计算，结合设定的分类数量和类别等指标，将语音信号分成一定数量的类别并且给出每个类别的对应分类概率。一般的，声学模型中的各条分类搜索路径包含有对应的权重(概率)，通过对各条分类路径的相应权重进行合并，就可以在输出的类别结果同时得到该类别的分类概率。例如该语音信号中的某帧被分类到A类的概率为0.8，被分到B类的概率为0.4等。一定数量的类别例如可以是3000到10000个类别，其可以根据语音识别技术所需要应用到的常见场景的各种细分类别来进行确定，例如可以是A类为手机类，B类为电视机类，C类为电子体温计类。

S126，根据各个类别的语音信号及对应的分类概率，基于预先构建的WFST模块进行前向搜索，获得多个最佳路径。

具体的，服务器可以基于预先构建的多个WFST模块或者一个通用的WFST模块进行前向搜索，得到对应于各预定领域、各预定场景和各设定语言模式的多个最佳路径。如此，通过上述的解码处理步骤，可以快速得到有效覆盖尽多的语音交互应用场景和领域的多个最佳路径输出，适用性更强。

在其中一个实施例中，对于步骤S126，可以具体包含如下步骤：

基于预先构建的多个WFST模块分别进行独立前向搜索，获得与多个WFST模块分别对应的多个最佳路径。

可以理解，服务器在执行解码搜索的过程中，可以通过各个领域的各WFST模块、各个场景的各WFST模块和/或各个设定语言模式中的各WFST模块，分别依据各个类别的语音信号及对应的分类概率进行独立的前向搜索，得到多个WFST模块输出的各个最佳路径。一个WFST模块可以对应一个最佳路径，且各个最佳路径一般包含有各自的权重。如此，可以通过对多个WFST模块分别进行独立前向搜索获得的多个最佳路径，可以确保在各个领域、各个场景和/或设定语言模式中得到较准确的识别结果。

在其中一个实施例中，对于步骤S126，具体还可以是：基于预先构建的多个WFST模块及对应的权重，进行同步前向搜索，获得与多个WFST模块对应的多个最佳路径。

可以理解，服务器可以将各个类别的语音信号及对应的分类概率，同时输入到多个WFST模块，结合维特比算法，将各个WFST模块各自的权重带入搜索过程，例如根据维特比算法和各个WFST各自的权重，多个WFST模块进行同步前向搜索，将搜索中所得的路径进行统一的阈值剪枝管理，如低于设定概率阈值的路径剪枝去除，保留有限数量的较佳路径继续进行前向搜索，从而最终得到多个最佳路径输出。各个WFST模块可以在生成时即获得各自的相应权重，例如该语音信号在该WFST模块所对应的领域内的权重。如此，各个WFST模块在同步前向搜索过程中就可以基于自身的权重的大小，输出带有相应权重值的各个最佳路径，有效降低搜索过程的时间消耗。在后续的用户模型评价中，服务器或者终端可以结合前述的权重进行综合评价，实现提高识别速度的同时，也能够提高识别准确度。

在其中一个实施例中，对于步骤S16之后，还可以包括步骤：若检测到语音识别结果中包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据新增的联系人信息、新增的自创词组和/或新增的特征语言信息，更新用户模型。

其中，新增的联系人信息可以是用户的联系人信息中新添加的联系人信息，或者可以是联系人信息中，被用户进行过更改之后产生的新名称、新号码或新地址等更新的部分信息。新增的自创词组可以是指用户在终端的日常使用过程中首创的词组，例如用户对识别结果进行修改时，出现的自创词组。新增的特征语言信息可以是用户在终端的日常使用过程中最新形成的语言习惯信息，例如用户长期在一个不同语言环境中生活，形成新的口音或者新的用语习惯等，用语习惯也可以通过用户对识别结果所进行的修改获得，如口头禅、高频词语等。

可以理解，服务器或者终端在检测到语音识别结果中包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息等情况时，将会自动获取新增的联系人信息、新增的自创词组和/或新增的特征语言信息，以及时训练更新用户模型，从而确保用户模型在日常使用过程中可以保持与用户的特性一致，能够准确反映用户实际情况。如此，通过上述的用户模型的训练更新可以确保利用用户模型的评价结果的准确度。

请参阅图3，在其中一个实施例中，上述各实施例中的多个WFST模块可以包含有定制的WFST模块，也即是说，各个WFST模块中可以包含至少两类WFST模块，其中一类为根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建对应前述各预定领域、各预定场景和各设定语言模式的各个常规WFST模块(相对于定制解码器而言的)。另一类为基于日常使用较少的特殊的语法、生僻词句以及最新出现的新词句或者网络热点词等构建的定制WFST模块，其中新词句或者热点词，例如可以是网络上每年流行的新词或热词，如“我要打、我要看、我要听、我要买、OMG(Oh My God)”等。定制WFST模块构建时所需的上述词句可以通过从网上爬取相关语料的方式获取，关于爬取语料的具体方法此处不做限定，可以采用本领域常用的方法。

定制WFST模块的构建的主要步骤可以如下S20～S26：

S20，采集设定的词句及语法信息；

S22，通过词典对设定的词句进行分词处理；

S24，对语法信息进行统计训练，得到对应的语言模型；

S26，根据分词处理的结果和语言模型，编译得到定制WFST模块。

其中，前述的词典可以是常规WFST模块生成过程中所使用的传统的发音词典。语言模型的统计训练也可以采用本领域的常规方法，例如N-Gram语言模型。

可以理解，可以通过服务器在利用传统的WFST生成方法生成各个领域的WFST模块时，通过采集设定的词句及语法信息，并对分别进行分词处理和语言模型的统计训练，从而根据分词处理的结果和训练得到的语言模型，将设定的词句与语法信息通过传统的常用解码器构建方法，编译得到定制WFST模块，定制WFST模块例如可以是口语、书面语、化学或者数学等各个细分领域的各个定制WFST模块。如此，通过常规WFST模块和定制WFST模块分别进行前向搜索，可以实现获取到的语音信号包含生僻词句、网络流行的新词句、热点词句及其存在的语法时，同样能够输出准确度较高的语音识别结果。

在其中一个实施例中，上述的提及的终端是语音信号来源的终端，例如手机、平板设备或PDA或者智能交互设备；也可以是语音信号所对应的需要控制的其他设备，例如电视、智能平板或者其他智能交互设备。语音信号可以在被服务器处理成对应的语音识别结果(例如词序列对应的文本信息)后，由服务器根据语音识别结果中包含的指令信息，确定该语音信号指向的终端。也即是说，服务器在获取用户的语音信号并进行语音识别，获得对应的语音识别结果后，可以将语音识别结果发送到语音信号对应的终端，从而可以实现语音信号的语音识别响应的全过程，方便相应的终端及时执行对应的显示、交互或操作控制等，服务器的集成度较高。

请参阅图4至5，给出的是语音识别过程的简要示意图，以更易于理解上述一些实施例中的各个步骤。需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序。

请参阅图6，还提供另一种语音识别方法，包括如下步骤S11～S17：

S11，向服务器发送语音信号；

S13，获取服务器对语音信号进行解码处理后反馈的多个最佳路径；

S15根据预先训练的用户模型，对多个最佳路径进行评价；

S17，根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

可以理解，实现上述各个步骤涉及的各种解码处理和评价所采用的方式，可以参见前述各实施例中相应的解码处理过程和评价方式，此处不再赘述。

具体的，可以由终端在接收到用户输入的语音信号后，向负责执行语音信号解码处理的服务器发送该语音信号。该服务器接收到该语音信号后，对该语音信号进行解码处理，得到多个最佳路径并反馈到终端上。从而，终端可以在接收到服务器返回的多个最佳路径后，根据预先训练的用户模型，对返回的多个最佳路径进行评价，进而根据评价结果，从该多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。如此，通过在终端上利用用户模型对多个最佳路径进行评价，以得到最终的语音识别结果，可以防止用户模型涉及的用户个人信息泄露，提高用户个人信息的安全度。

请参阅图7，提供一种语音识别装置100，包括语音获取模块12、解码处理模块14、第一评价模块16、第一结果获取模块18。语音获取模块12用于获取语音信号。第一评价模块16用于根据预先训练的用户模型，对多个最佳路径进行评价。第一结果获取模块18用于根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

如此，上述实施例的技术方案，通过各模块，结合预先训练的用户模型对解码处理得到的多个最佳路径进行评价，根据评价结果得到目标最佳路径以得到最终的语音识别结果，可有效适应复杂多变的语音交流场景，兼顾用户语音交流的内容所覆盖的各种领域及说话习惯，更贴近用户的实际应用情景，识别结果准确率得到大大提高，有效避免传统的语音识别技术的识别结果准确率较低的问题。

请参阅图8，在其中一个实施例中，解码处理模块14可以包含特征提取模块142、分类计算模块144和解码搜索模块146。特征提取模块142用于对语音信号进行特征提取，得到对应的声学特征信息。分类计算模块144用于根据声学特征信息，通过预先构建的声学模型将语音信号分类为各个类别并确定对应的分类概率。解码搜索模块146用于根据各个类别的语音信号及对应的分类概率，基于预先构建的WFST模块进行前向搜索，获得多个最佳路径。本实施例中的特征提取、分类以及前向搜索的方法可以参见前述语音识别方法各实施例中的特征提取、分类以及前向搜索方法，此处不再赘述。

在其中一个实施例中，解码搜索模块146可以包含第一搜索模块，第一搜索模块用于基于预先构建的多个WFST模块分别进行独立前向搜索，获得与多个WFST模块分别对应的多个最佳路径。

在其中一个实施例中，解码搜索模块146可以包含第二搜索模块，第二搜索模块用于基于预先构建的多个WFST模块及对应的权重，进行同步前向搜索，获得与多个WFST模块分别对应的多个最佳路径。

在其中一个实施例中，语音识别装置100还可以包括用户模型更新模块。用户模型更新模块用于若检测到语音识别结果包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据新增的联系人信息、新增的自创词组和/或新增的特征语言信息，更新用户模型。

在其中一个实施例中，上述的语音识别装置100，还可以包括预设信息采集模块、分词处理模块和定制解码器构建模块。预设信息采集模块用于采集设定的词句及语法信息。分词处理模块用于通过词典对设定的词句进行分词处理，对语法信息进行统计训练，得到对应的语言模型。定制解码器构建模块用于根据分词处理的结果和得到的语言模型，编译得到定制WFST模块。如此，通过常规WFST模块和定制WFST模块分别进行前向搜索，可以实现获取到的语音信号在包含生僻词句、网络流行的新词句、热点词句及其包含的语法时，同样能够输出准确度较高的语音识别结果。

请参阅图9，在其中一个实施例中，还提供一个语音识别装置200，语音识别装置200包括语音发送模块22、路径获取模块24、第二评价模块26和第二结果获取模块28。语音发送模块22用于向服务器发送语音信号。路径获取模块24用于获取服务器对语音信号进行解码处理后反馈的多个最佳路径。第二评价模块26用于根据预先训练的用户模型，对多个最佳路径进行评价。第二结果获取模块28用于根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

如此，上述实施例的技术方案，通过各模块，结合预先训练的用户模型对服务器返回的多个最佳路径进行评价，根据评价结果得到目标最佳路径以得到最终的语音识别结果，可有效适应复杂多变的语音交流场景，兼顾用户语音交流的内容所覆盖的各种领域及说话习惯，更贴近用户的实际应用情景，识别结果准确率得到大大提高，有效避免传统的语音识别技术的识别结果准确率较低的问题，此外还能够提高用户个人信息的安全度。

上述语音识别装置100中的第一评价模块16，与语音识别装置200中的第二评价模块26可以理解为具有相同功能的相同模块，加以名称区别可以仅是因其属于不同的装置，而非具有本质的不同。同理的，可以理解语音识别装置100中的第一结果获取模块18、与语音识别装置200中的第二结果获取模块28的关系。

上述语音识别装置100和语音识别装置200中的各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供一种语音识别设备，该语音识别设备可以是计算机设备；例如普通电脑或者可以是服务器。该语音识别设备包括存储器和处理器。存储器上存储有可在处理器上运行的计算机程序。该语音识别设备的处理器用于提供计算和控制能力。该语音识别设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该语音识别设备可以包含网络接口，用于与外部的交互终端通过网络连接通信。处理器执行存储器上的计算机程序时，可以执行如下步骤：获取语音信号；对语音信号进行解码处理，获得多个最佳路径；根据预先训练的用户模型，对多个最佳路径进行评价；根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

在其中一个实施例中，还提供另一种语音识别设备，该语音识别设备可以是智能终端设备；例如移动终端或者可以是智能电视、智能平板等各类智能交互设备。该语音识别设备包括存储器和处理器。存储器上存储有可在处理器上运行的计算机程序。该语音识别设备的处理器用于提供计算和控制能力。该语音识别设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该语音识别设备可以包含网络接口，用于与外部的其他交互终端通过网络连接通信。处理器执行存储器上的计算机程序时，可以执行如下步骤：向服务器发送语音信号；获取服务器对语音信号进行解码处理后反馈的多个最佳路径；根据预先训练的用户模型，对多个最佳路径进行评价；根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

在其中一个实施例中，上述各实施例的语音识别设备中的处理器执行其存储器上的计算机程序时，还可以实现本发明上述语音识别方法的各种相应部分的实施例。

通常存储在一个存储介质中的程序，可通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。因此本发明还公开了一种计算机可读存储介质，其中存储有计算机程序，该计算机程序被运行时用于执行如下步骤：获取语音信号；对语音信号进行解码处理，获得多个最佳路径；根据预先训练的用户模型，对多个最佳路径进行评价；根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

在其中一个实施例中，本发明还公开了另一种计算机可读存储介质，其中存储有计算机程序，该计算机程序被运行时用于执行如下步骤：向服务器发送语音信号；获取服务器对语音信号进行解码处理后反馈的多个最佳路径；根据预先训练的用户模型，对多个最佳路径进行评价；根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

在其中一个实施例中，前述各实施例的计算机可读存储介质上的计算机程序被运行时还用于执行本发明上述语音识别方法的相应各实施例。

根据上述本发明各实施例的语音识别方法，请参阅图10，本发明实施例还提供一种语音识别***300，下面结合图11、图12所示时序及可选实施例对本发明的语音识别***300进行详细说明。

语音识别***300可以包含服务器32和终端34。终端34可以用于发送语音信号至服务器32。服务器32可以用于语音信号进行解码处理，获得多个最佳路径；终端34还可以用于根据预先训练的用户模型，对多个所述最佳路径进行评价；根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定语音信号的语音识别结果。

其中，服务器32可以是语音信号的后台处理设备，例如实体服务器或云计算服务器，或者实体服务器与云计算服务器组合而成的语音信号的识别处理平台。终端34可以是各种智能设备，例如智能手机、智能电视、平板电脑或者是其他各种智能家电、智能办公设备和智能交通工具。

具体的，上述的终端34可以在获得用户直接口头输入，或者通过其他设备间接输入的语音信号后，将得到的语音信号发送到服务器32。服务器32从而可以对接收到语音信号进行解码处理，得到多个最佳路径输出后，将该多个最佳路径返回到终端34上。此时，终端34可以调用预先训练的用户模型，对返回的多个最佳路径进行评价，根据评价结果，从多个最佳路径中提取与用户模型匹配的一个最佳路径作为目标最佳路径，并根据目标最佳路径确定用户输入的语音信号的语音识别结果。可以理解，服务器32所进行的解码处理可以根据上述语音识别方法的各实施例中的解码处理理解，终端34根据用户模型对多个最佳路径的评价也可以参见上述语音识别方法的各实施例中的用户模型评价的处理，本实施例中不再赘述。

如此，通过服务器32利用各个WFST模块或者一个通用WFST模块，对语音信号进行解码处理后放回多个最佳路径至终端34上，再由终端34根据预先训练的用户模型对该多个最佳路径进行评价，从而最终确定输入的语音信号的语音识别结果。综上，上述的语音识别***300可以有效覆盖尽多的语音应用场景和领域，并可以兼顾用户习惯，更贴近用户的实际应用情景，识别结果准确率得到较大的提高；此外，还能够避免用户模型涉及的用户个人信息因共享至服务器32所在的公共环境而造成个人信息外泄的问题，用户个人信息安全度高，用户体验可得到较大的改善。

在其中一个实施例中，服务器32可以包含一台，可以包含有多台，例如多台互联的服务器32中，每一台服务器32上可以存储有一个或者多个领域、场景或者预设语言模式中的WFST模块，通过多台服务器32构成分布式服务器解码网络进行联动工作，可以较快地对语音信号在不同领域、场景或者预设语言模式中进行解码搜索，从而可以更快速、准确地完成上述语音信号的语音解码过程，还可以同时容纳较多数量的终端34在同时段发送的待识别语音信号的解码处理，处理效率较高。

前述的多台服务器32可配置一台主控制服务器32，以实现与各终端34的对接和结果返回时的寻址配对，提高多个最佳路径或包含该多个最佳路径的词格(lattice)信息返回到各终端34的速度。如此，可以通过分布式的服务器32网络来协作完成用户通过终端34输入的语音信号的语音解码处理过程，提高整个语音识别***300的语音识别处理效率和容量。

在其中一个实施例中，终端34还可以用于：若检测到语音识别结果中包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据新增的联系人信息、新增的自创词组和/或新增的特征语言信息，更新用户模型。如此，终端34可通过定期检测、收集用户的前述联系人信息、自创词组和/或特征语言信息等的新增特性信息，用于用户模型的训练更新，得到尽可能符合用户真实情况的用户模型，从而确保不同时间内，均可达到有效提高语音识别结果的准确度的效果。

在其中一个实施例中，语音识别***300的上述实施例中的服务器32，其执行解码过程中所使用的各个WFST模块中或者组成通用解码器的各个WFST模块中，包含有定制WFST模块。定制WFST模块可以通过服务器32采集设定的词句及语法信息，并通过词典对设定的词句进行分词处理，对语法信息进行统计训练，得到对应的语言模型后，根据分词处理的结果和得到的语言模型编译得到。如此，结合常规WFST模块和定制WFST模块，可以实现获取到的语音信号包含生僻词句、网络流行的新词句、热点词句及其存在的语法时，仍能够输出准确度较高的多个最佳路径，以便终端34最终得到准确度较高的语音识别结果。

在其中一个实施例中，上述实施例中的终端34上可以安装有客户端。客户端可以用于执行终端34与服务器32之间的通信，以及执行终端34的上述语音识别的步骤。

在其中一个实施例中，终端34或服务器32在获得语音信号输入后，根据预存的音色特征对该语音信号进行音色匹配，若音色匹配的结果一致，则对该语音信息继续执行后续的语音识别处理步骤；否则拦截该语音信号并报警或者删除该语音信号，使该语音信号的后续识别步骤终止。其中，预存的音色特征可以是终端34的第一用户(例如终端34的机主)录入的语音的频谱特征，音色匹配的过程即是将预存的频谱特征与输入的语音信号的频谱特征进行匹配分析的过程。如此，通过对语音信号进行识别前期，可以避免终端34被盗用的问题，提高语音识别的安全性。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，包括步骤：

获取语音信号；

通过预先构建的WFST模块对所述语音信号进行解码处理，获得多个最佳路径，所述预先构建的WFST模块包括根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的对应各预定领域、各预定场景和各设定语言模式的各个WFST模块，或组合所述各个WFST模块后的通用WFST模块；

根据预先训练的用户模型，对多个所述最佳路径进行评价，所述用户模型是反映用户个人特征的数据统计形态的模型；

2.根据权利要求1所述的语音识别方法，其特征在于，对所述语音信号进行解码处理，获得多个最佳路径的过程包括以下步骤：

对所述语音信号进行特征提取，得到对应的声学特征信息；

3.根据权利要求2所述的语音识别方法，其特征在于，根据各个类别的所述语音信号及对应的所述分类概率，基于预先构建的WFST模块进行前向搜索，获得多个所述最佳路径的步骤，包括：

4.根据权利要求2所述的语音识别方法，其特征在于，根据各个类别的所述语音信号及对应的所述分类概率，基于预先构建的WFST模块进行前向搜索，获得多个所述最佳路径的步骤，还包括：

基于预先构建的多个所述WFST模块及对应的权重，进行同步前向搜索，获得与多个所述WFST模块对应的多个所述最佳路径。

5.根据权利要求1至4中任意一项所述的语音识别方法，其特征在于，在根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果的步骤后，还包括：

6.根据权利要求3或4所述的语音识别方法，其特征在于，多个所述WFST模块包含定制WFST模块，所述定制WFST模块通过以下步骤获取：

采集设定的词句及语法信息；

通过词典对所述设定的词句进行分词处理；

对所述语法信息进行统计训练，得到对应的语言模型；

根据所述分词处理的结果和所述语言模型，编译得到所述定制WFST模块。

7.一种语音识别方法，其特征在于，包括步骤：

向服务器发送语音信号；

获取服务器对所述语音信号进行解码处理后反馈的多个最佳路径，所述服务器对所述语音信号进行解码处理包括：通过预先构建的WFST模块对所述语音信号进行解码处理，获得多个最佳路径，所述预先构建的WFST模块包括根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的对应各预定领域、各预定场景和各设定语言模式的各个WFST模块，或组合所述各个WFST模块后的通用WFST模块；

8.一种语音识别装置，其特征在于，包括：

语音获取模块，用于获取语音信号；

解码处理模块，用于通过预先构建的WFST模块对所述语音信号进行解码处理，获得多个最佳路径，所述预先构建的WFST模块包括根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的对应各预定领域、各预定场景和各设定语言模式的各个WFST模块，或组合所述各个WFST模块后的通用WFST模块；

第一评价模块，用于根据预先训练的用户模型，对多个所述最佳路径进行评价，所述用户模型是反映用户个人特征的数据统计形态的模型；

9.一种语音识别装置，其特征在于，包括：

语音发送模块，用于向服务器发送语音信号；

词序列获取模块，用于获取服务器对所述语音信号进行解码处理后反馈的多个最佳路径，所述服务器对所述语音信号进行解码处理包括：通过预先构建的WFST模块对所述语音信号进行解码处理，获得多个最佳路径，所述预先构建的WFST模块包括根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的对应各预定领域、各预定场景和各设定语言模式的各个WFST模块，或组合所述各个WFST模块后的通用WFST模块；

第二评价模块，用于根据预先训练的用户模型，对多个所述最佳路径进行评价，所述用户模型是反映用户个人特征的数据统计形态的模型；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音识别方法的步骤。

11.一种语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现权利要求1至7任意一项所述的语音识别方法的步骤。

12.一种语音识别***，其特征在于，包括服务器和终端；

所述终端用于发送语音信号至所述服务器；

所述服务器用于通过预先构建的WFST模块对所述语音信号进行解码处理，获得多个最佳路径，所述预先构建的WFST模块包括根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型，分别构建得到的对应各预定领域、各预定场景和各设定语言模式的各个WFST模块，或组合所述各个WFST模块后的通用WFST模块；

所述终端还用于根据预先训练的用户模型，对多个所述最佳路径进行评价，所述用户模型是反映用户个人特征的数据统计形态的模型；根据评价结果，从多个所述最佳路径中提取与所述用户模型匹配的一个所述最佳路径作为目标最佳路径，并根据所述目标最佳路径确定所述语音信号的语音识别结果。

13.根据权利要求12所述的语音识别***，其特征在于，所述终端还用于：若检测到所述语音识别结果包含新增的联系人信息、新增的自创词组和/或新增的特征语言信息，则根据所述新增的联系人信息、所述新增的自创词组和/或所述新增的特征语言信息，更新所述用户模型。