CN114974249A

CN114974249A - 一种语音识别方法、装置及存储介质

Info

Publication number: CN114974249A
Application number: CN202110193727.6A
Authority: CN
Inventors: 张民; 沈欣蔚; 冯璟艳
Original assignee: Shanghai Datang Mobile Communications Equipment Co ltd
Current assignee: Shanghai Datang Mobile Communications Equipment Co ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2022-08-30

Abstract

本申请实施例提供一种语音识别方法、装置及存储介质，所述方法包括：边缘端获取云端识别结果，所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列；基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果。本申请通过边缘端获取云端对目标识别对象的识别结果，并基于目标识别对象对应的本地参考文本，对云端识别结果进行修正，实现对云端的识别结果的优化，提高了语音识别的准确性。

Description

一种语音识别方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音识别方法及装置。

背景技术

随着互联网的发展，语音识别发挥了越来越重要的作用。自动语音识别技术(Automatic Speech Recognition，ASR)是使得机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。其中大词汇量连续语音识别(Large Vocabulary ContinuousSpeech Recognition，LVCSR)技术近年来发展迅速，并在许多领域得到了广泛的应用。

现有技术中，通常采用云端部署的语音识别引擎，训练语言模型的语料一般采用通用领域的语料。但是，因为数据量有限，不可能覆盖到全部领域。在进行特定领域的语音识别任务时，例如进行医学、建筑学、人工智能等领域的语音识别任务时，因为语言模型在这些领域中覆盖不充分，或者出现很多没有出现在词典中的词汇(Out Of Vocabulary，OOV)，这样会导致ASR识别性能下降，识别准确率降低。

发明内容

本申请实施例提供一种语音识别方法、装置及存储介质，用以解决现有技术中无法准确地对语音进行识别的缺陷，提高语音识别的准确率。

第一方面，本申请实施例提供一种语音识别方法，包括：

边缘端获取云端识别结果，所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列；基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果。

可选地，根据本申请一个实施例的一种语音识别方法，所述基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果，包括：

基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换；其中，所述目标序列对应的语言模型是基于所述本地参考文本训练获得的；

和/或，

基于命名实体识别NER，对所述目标序列中的一个所述备选序列进行词汇替换。

可选地，根据本申请一个实施例的一种语音识别方法，所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高；

其中，对于每一个所述目标序列，所述词汇匹配概率是基于所述目标序列对应的语言模型以及所述目标序列计算获得的；

所述目标序列的词汇匹配概率用于描述所述目标序列中的词汇在所述本地参考文本中出现的频率。

可选地，根据本申请一个实施例的一种语音识别方法，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

基于所述目标序列对应的语言模型，获得所述备选序列中的连续词汇组合对应的连续匹配概率，其中，所述连续匹配概率用于表示所述连续匹配概率对应的连续词汇组合在所述本地参考文本中出现的频率；

若所述备选序列中的任一个连续词汇组合对应的所述连续匹配概率低于第一预设阈值，则通过所述本地参考文本中的替换文本，替换所述连续匹配概率低于第一预设阈值的第一连续词汇组合；

其中，所述替换文本对应的音素序列与所述第一连续词汇组合的音素序列的音素匹配度大于第二预设阈值，且所述替换文本比所述第一连续词汇组合在所述本地参考文本中的出现频率更高。

可选地，根据本申请一个实施例的一种语音识别方法，所述目标序列包括：音素序列，和/或，词序列；

相应地，所述音素序列对应的语言模型包括音素序列语言模型；所述词序列对应的语言模型包括词序列语言模型。

可选地，根据本申请一个实施例的一种语音识别方法，若所述目标序列包括音素序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

基于所述音素序列语言模型，对所述音素序列中的一个备选序列进行词汇替换，获得第一音素序列；

基于所述词序列语言模型，对所述第一音素序列对应的至少一个词序列中的一个备选序列，进行词汇替换。

可选地，根据本申请一个实施例的一种语音识别方法，若所述目标序列还包括词序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，还包括：

若第一词序列对应的第四匹配概率大于第二词序列对应的第四匹配概率，则确定所述第一词序列为所述边缘端识别结果；

若第二词序列对应的第四匹配概率大于第一词序列对应的第四匹配概率，则确定所述第二词序列为所述边缘端识别结果；

其中，所述第一词序列是，对所述第一音素序列对应的至少一个词序列中的一个备选序列进行词汇替换之后获得的；

所述第二词序列是，基于所述词序列语言模型，对所述目标序列中的词序列中的一个备选序列进行词汇替换之后获得的；

所述第一词序列对应的第四匹配概率用于描述所述第一词序列与所述本地参考文本的匹配程度；

所述第二词序列对应的第四匹配概率用于描述所述第二词序列与所述本地参考文本的匹配程度。

可选地，根据本申请一个实施例的一种语音识别方法，所述基于命名实体识别NER，对所述目标序列中的一个备选序列进行词汇替换，获得所述边缘端识别结果，包括：

基于所述NER词表，通过所述NER词表中的第一替换词汇替换所述目标序列中的一个备选序列中的词汇，获得所述边缘端识别结果；

其中，所述替换词汇对应的音素序列与所述备选序列中的词汇的音素序列的音素匹配概率大于第三预设阈值。

可选地，根据本申请一个实施例的一种语音识别方法，所述方法还包括：

基于所述NER对所述本地参考文本进行识别，生成NER词表；

基于词典和/或字符转音素G2P技术，获得所述NER词表对应的音素。

可选地，根据本申请一个实施例的一种语音识别方法，所述本地参考文本包括：本地参考文本所属活动的专业信息、参与者信息、活动背景信息、和活动内容。

可选地，根据本申请一个实施例的一种语音识别方法，所述获得边缘端识别结果之后，所述方法还包括：

基于本地参考文本所属活动的专业信息，将所述本地参考文本的相关信息保存至服务器中。

第二方面，本申请实施例提供一种语音识别方法，包括：

设备端获取云端识别结果或边缘端识别结果，其中，所述云端识别结果包括云端对目标识别对象识别获得的一个目标序列；

基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果。

可选地，根据本申请一个实施例的一种语音识别方法，所述基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果，包括：

基于所述本地词表中的第二替换词汇，替换所述目标序列中与所述第二替换词汇相对应的词汇，获得所述设备端识别结果；

其中，与所述第二替换词汇相对应的词汇的音素序列，与所述第二替换词汇的音素序列的音素匹配概率大于第四预设阈值。

可选地，根据本申请一个实施例的一种语音识别方法，所述词表包括：预先设置的易错词表和/或实时NER词汇。

可选地，根据本申请一个实施例的一种语音识别方法，所述方法还包括：基于NER技术实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

第三方面，本申请实施例提供一种语音识别装置，包括存储器、包括存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

边缘端获取云端识别结果，所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列；

基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果。

可选地，根据本申请一个实施例的一种语音识别装置，所述基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果，包括：

和/或，

可选地，根据本申请一个实施例的一种语音识别装置，所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高；

可选地，根据本申请一个实施例的一种语音识别装置，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

可选地，根据本申请一个实施例的一种语音识别装置，所述目标序列包括：

音素序列，和/或，词序列；

相应地，所述音素序列对应的语言模型包括音素序列语言模型；

所述词序列对应的语言模型包括词序列语言模型。

可选地，根据本申请一个实施例的一种语音识别装置，若所述目标序列包括音素序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

可选地，根据本申请一个实施例的一种语音识别装置，若所述目标序列还包括词序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，还包括：

可选地，根据本申请一个实施例的一种语音识别装置，所述基于命名实体识别NER，对所述目标序列中的一个备选序列进行词汇替换，获得所述边缘端识别结果，包括：

可选地，根据本申请一个实施例的一种语音识别装置，所述操作还包括：

基于所述NER对所述本地参考文本进行识别，生成NER词表；

可选地，根据本申请一个实施例的一种语音识别装置，所述本地参考文本包括：

本地参考文本所属活动的专业信息、参与者信息、活动背景信息、和活动内容。

可选地，根据本申请一个实施例的一种语音识别装置，所述获得边缘端识别结果之后，所述操作还包括：

第四方面，本申请实施例还提供一种装置，包括存储器、包括存储器，收发机，处理器：

可选地，根据本申请一个实施例的一种语音识别装置，所述基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果，包括：

可选地，根据本申请一个实施例的一种语音识别装置，所述词表包括：预先设置的易错词表和/或实时NER词汇。

可选地，根据本申请一个实施例的一种语音识别装置，所述操作还包括：基于NER技术实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

第五方面，本申请实施例还提供一种语音识别装置，包括：

第一获取单元，用于边缘端获取云端识别结果，所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列；

第一修正单元，用于基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果。

第六方面，本申请实施例还提供一种语音识别装置，包括：

第二获取单元，用于设备端获取云端识别结果或边缘端识别结果，其中，所述云端识别结果包括云端对目标识别对象识别获得的一个目标序列；

第二修正单元，用于基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果。

第七方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行如上所述初选方面所述的第一方面方法的步骤。

本申请实施例提供的一种语音识别方法、装置及存储介质，通过边缘端获取云端对目标识别对象的识别结果，并基于目标识别对象对应的本地参考文本，对云端识别结果进行修正，实现对云端的识别结果的优化，提高了语音识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的语音识别的流程示意图；

图2是本申请实施例提供的语音识别的流程示意图之一；

图3是本申请实施例提供的语音识别的流程示意图之二；

图4是本申请实施例提供的语音识别的流程示意图之三；

图5是本申请实施例提供的语音识别装置的结构示意图之一；

图6是本申请实施例提供的语音识别装置的结构示意图之二；

图7是本申请实施例提供的语音识别装置的结构示意图之三；

图8是本申请实施例提供的语音识别装置的结构示意图之四。

具体实施方式

本申请实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种语音识别方法及装置，用以提高语音识别的准确率。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

本申请实施例提供的技术方案可以适用于多种***，尤其是5G***。例如适用的***可以是全球移动通讯(global system of mobile communication，GSM)***、码分多址(code division multiple access，CDMA)***、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)通用分组无线业务(general packet radio service，GPRS)***、长期演进(long term evolution，LTE)***、LTE频分双工(frequencydivision duplex，FDD)***、LTE时分双工(time division duplex，TDD)***、高级长期演进(long term evolution advanced，LTE-A)***、通用移动***(universal mobiletelecommunication system，UMTS)、全球互联微波接入(worldwide interoperabilityfor microwave access，WiMAX)***、5G新空口(New Radio,NR)***等。这多种***中均包括终端设备和网络设备。***中还可以包括核心网部分，例如演进的分组***(EvlovedPacket System,EPS)、5G***(5GS)等。

下面结合附图对本发明实施例进行详细说明。

现有技术中，图1是现有技术提供的语音识别的流程示意图，如图1所示，语音识别是将语音转换为文字的过程。

考虑到人耳的听觉特性，Mel倒谱系数或感知线性预测系数已经成为目前主流的语音特征向量提取方法之一，加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后，在大词汇量连续语音识别问题上取得了不错的结果。

声学模型是语音识别***的底层模型，是语音识别***中最为关键的一部分。连续的语音信号是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节、子音节(Sub-syllable)或者音素，选择什么样的语音单元作为声学模型的建模单元由具体的应用(如词汇量的大小、语音库的多少、要求的性能等客观因素)来定。一般来讲，应该保证所选择的建模单元满足如下条件：1)鲁棒性：每一个模型都有足够的样本来估算模型参数；2)一致性：建模单元应该稳定，在不同的条件下声学特征变化比较小。在连续语音中，由于协同发音的影响，建模单元在不同上下文中的实现有时会有很大不同。为提高模型的准确性，就需要考虑上下文对建模单元的影响。在声学模型的研究中，上下文相关的建模单元(如双音子、三音子)逐渐受到重视，成为目前声学模型建模单元的主流。

随着语音识别技术的不断发展，语言模型在语音识别中的作用也显得越来越重要。由于声学信号的动态时变、瞬时和随机性，单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。一些较高层次的语言知识的利用可以在声学识别的层次上减少模式匹配的模糊性，从而提高识别的准确性。并且一个大词汇量连续语音识别***必须在每一时刻检测是否遇到语音发音边界，这样许多不同的字或词将会从不同的语音流中识别出来。为了消除这些字或词之间的模糊性，语言模型是必不可少的。语言模型可以提供字或词之间的上下文信息和语义信息。语言模型不仅用在语音识别***中，而且可以用在机器翻译、信息检索等研究领域。随着统计语言处理方法的发展，统计语言模型成为语音识别中语言处理的主流技术。

搜索就是在由语句构成的空间当中，按照一定的优化准则，寻找最优句子的过程，也就是利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识以及语法语义知识等)，在状态(指的是词组、词、建模单元或HMM的状态)空间中找到最优的状态序列。将声学模型、发音词典及语言模型等通过有穷状态转换器(Finite State Transducer，FST)紧密结合，并在FST上进行搜索。

云端语音识别引擎的语言模型在训练时，需要大量的文本语料。这些文本语料以通用领域的语料为主，同时也会添加一些其它领域的语料，但不可能覆盖所有领域的说法。在进行特定领域的语音识别任务时，例如进行医学、建筑学、人工智能等领域的语音识别任务时，因为语言模型在这些领域覆盖的不充分，导致自动语音识别技术(Automatic SpeechRecognition，ASR)性能下降明显。

因此，针对特定的识别任务，如果能够增加该领域的一些文本语料对识别结果进行优化，则可以显著提升当前识别任务的识别准确率。此外，将互联网上的云、边缘的计算、设备端的计算三体联动起来，构建一个物联网(Internet of Things，IoT)核心计算能力成为一种趋势。对物联网而言，边缘计算技术取得突破，意味着许多控制(计算)将通过本地设备实现而无需交由云端，处理过程将在本地边缘计算层完成。这无疑将大大提升处理效率，减轻云端的负荷。由于更加靠近用户，还可为用户提供更快的响应，将需求在边缘端解决。边缘计算作为5G时代的一项关键技术，未来将成为不可或缺的基础设施之一。因此，我们可以在得到云端的基础ASR识别结果后，进一步在边缘端和设备端提高ASR的识别准确率。本申请采用云边端相结合的方法来改善识别准确率。

图2是本申请实施例提供的语音识别方法的流程示意图之一，如图2所述，该方法包括如下步骤：

步骤201，边缘端获取云端识别结果，云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列；

可选地，目标识别对象包括但不限于可以被云端获取或者发送给云端的音频或视频文件，云端针对目标音频或视频文件进行识别，得到包含至少一个目标序列的云端识别结果，边缘端获得所述云端识别结果。

比如，目标识别对象可以来自一场专业会议中一位或多位发言人的实时演讲，可以将实时演讲的语音以句为单位或以段为单位作为目标识别对象进行识别。

步骤202，基于目标识别对象对应的本地参考文本，对至少一个目标序列进行修正，获得边缘端识别结果。

通过本实施例的云边端语音识别方法，对云端识别结果进行修正，提高语音识别的准确率。

可选地，所述本地参考文本包括：本地参考文本所属活动的专业信息、参与者信息、活动背景信息、和活动内容。

可选地，所述识别对象的应用场景，即本地参考文本所属活动，可以为会议、演讲、授课等活动。

可选地，边缘端可以获取云端识别结果，包括云端针对目标识别对象识别获得的至少一个目标序列，然后可以基于本地参考文本，对至少一个目标序列进行修正，获得边缘端识别结果。

可选地，本申请中，利用云端和边缘端相结合的方式，提高语音识别的准确性，且本地参考文本可以不用上传至云端，在边缘端通过本地参考文本比如会议讲稿、投屏ppt等资料对从云端返回的ASR识别结果进行优化，能够保护会议资料隐私。不需要把会议相关资料传到云端，而只是在边缘端和设备端进行处理。通过在组织内部进行更高级别的网络安全控制，可以提高活动的安全性。

可选地，云端使用通用的ASR，不需要根据具体的应用场景进行更改。

可选地，在边缘端，利用与本次识别任务相关的资料即本地参考文本，优化识别结果。

可选地，本申请实施例可以提高能够提高语音识别在特定场景下的识别准确率，特定场景可以是有参考资料，且有待识别语音的场景，本申请各实施例对此不作限定，即可以基于参考资料对语音进行识别。

本申请实施例提供的一种语音识别方法，通过边缘端获取云端对目标识别对象的识别结果，并基于目标识别对象对应的本地参考文本，对云端识别结果进行修正，实现对云端的识别结果的优化，提高了语音识别的准确性。

可选地，所述基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果，包括：

和/或，

可选地，可以基于目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换；

可选地，所述目标序列对应的语言模型是基于所述本地参考文本训练获得的。

可选地，语言模型可以获得一个单词序列上的概率分布，对于一个给定长度为m的序列，它可以为整个序列产生一个概率P(w_1,w_2,…,w_m)。其实就是想办法找到一个概率分布，它可以表示任意一个句子或序列出现的概率。

可选地，可以首先将本地参考文本作为样本，训练获得相应的语言模型。

可选地，对于文字内容，可以直接进行训练，获得针对文字序列(即词序列)的语言模型，即词序列语言模型。

可选地，对于语音内容，可以将参考文本的文字内容转化成音素后进行训练，获得针对音素序列的语言模型，即音素序列语言模型。

可选地，可以通过词序列语言模型，对目标序列中的一个词序列进行概率计算，确定与参考文本的匹配程度，并将其中匹配度低的词汇或词汇组合进行替换，其中，可以将其替换为本地参考文本中发音相似但出现概率更高的字词或词组。

可选地，可以通过音素序列语言模型，对目标序列中的一个音素序列进行概率计算，确定与参考文本的匹配程度(在本地参考文本已知的情况下，本地参考文本的音素序列是已知且唯一的)，并将其中匹配度低的部分音素进行替换，其中，可以将其替换为本地参考文本中发音相似但出现概率更高的音素。

可选地，可以基于命名实体识别NER，对所述目标序列中的一个所述备选序列进行词汇替换。

可选地，命名实体识别(Named Entity Recognition，NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。通常包括两部分：(1)实体边界识别；(2)确定实体类别(人名、地名、机构名或其他)。

可选地，为了解决语音识别中对专有名词，机构或组织或人的名称等类似词汇识别不准确的问题，可以基于命名实体识别NER，对所述目标序列中的一个所述备选序列进行词汇替换,具体可以替换其中识别不准确的人名、地名、机构名或其他专有名词。

可选地，音素可以理解为汉字的拼音，也可以理解为单词中发音的字母，比如单词“name”对应的音素为“nam”。

可选地，所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高；

可选地，备选序列可以是其词汇匹配概率在所有所述目标序列的词汇匹配概率中最高；即备选序列所包括的词汇在本地参考文本中出现的频率在所有目标序列中是最高的。

可选地，在确定目标序列中的备选序列时，可以相应的语言模型(LanguageModel，LM)对从云端获得的识别结果进行概率计算，得到概率最高的识别结果作为备选序列，其中，概率为词汇匹配概率，对于词序列来说，可以是其中的词汇分别在本地参考文本中出现的频率，对于音素序列来说，可以是其中的音素分别在本地参考文本对应的音素序列中出现的频率，也可以是其中的音素对应的词汇分别在本地参考文本中出现的频率。

可选地，一组音素对应的词汇可以是一个最有可能的词汇，也可以是多个词汇，比如一组音素“shan feng”对应的词汇可以是“山峰”，也可以是“山风”。

可选地，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

可选地，可以基于目标序列对应的语言模型，获得所述备选序列中的连续词汇组合对应的连续匹配概率；

可选地，连续匹配概率可以用于表示所述连续匹配概率对应的连续词汇组合在所述本地参考文本中出现的频率；即连续匹配概率越高，即表示其对应的连续词汇组合在本地参考文本中出现的频率越高。

可选地，目标序列可以包括音素序列和/或词序列；

以目标序列包括音素序列为例，其对应的语言模型可以是音素序列语言模型，因此边缘端可以利用音素序列语言模型计算获得音素序列中的一个备选序列的连续匹配概率。

以词序列包括词序列为例，其对应的语言模型可以是词序列语言模型，因此边缘端可以利用词序列语言模型计算获得词序列中的一个备选序列的连续匹配概率。

可选地，备选序列所包括的词汇在本地参考文本中出现的频率在所有目标序列中是最高的。

可选地，在计算获得备选序列中的所有或部分连续词汇组合的连续匹配概率后，可以确定其中包括部分连续词汇组合对应的连续匹配概率低于第一预设阈值，则可以认为该部分连续词汇组合在本地参考文本中出现的频率很低，甚至未出现，且本地参考文本中有与其发音相似的词汇或连续词汇，并且在本地参考文本中出现频率更高，则可以认为该发音相似且出现频率更高的词或词组为替换文本，将连续匹配概率低于第一预设阈值的部分连续词汇组合进行替换。

可选地，替换文本对应的音素序列与所述第一连续词汇组合的音素序列的音素匹配度大于第二预设阈值(即发音相似)，且所述替换文本比所述第一连续词汇组合在所述本地参考文本中的出现频率更高。如替换文本为“张三”，所述第一连续词汇组合为“章三”，两者发音相似，但是“张三”在本地参考文本中的出现频率更高，则可以将备选序列中的第一连续词汇组合“章三”替换为“张三”。

可选地，第一预设阈值可以是预先设置的小于1的正数，第二预设阈值可以是一个小于1的正数，替换文本对应的音素序列与第一连续词汇组合的音素序列的音素匹配度大于第二预设阈值，表示在参考文本中，所述替换文本的发音与所述第一连续词汇组合的发音相似。通过发音相似并且在参考文本中出现的概率更高的替换文本替换备选序列中的连续词汇组合，可以提高语音识别的准确率。

可选地，所述目标序列包括：

音素序列，和/或，词序列；

所述词序列对应的语言模型包括词序列语言模型。

可选地，所述目标序列可以为音素序列，可以为词序列，也可以同时存在音素序列和词序列。

可选地，所述音素序列语言模型和词序列语言模型是基于所述本地参考文本训练获得的。

可选地，音素序列语言模型或词序列语言模型可以获得一个音素序列或者单词序列上的概率分布，对于一个给定长度为m的序列，它可以为整个序列产生一个概率P(w_1,w_2,…,w_m)。其实就是想办法找到一个概率分布，它可以表示任意一个句子或序列出现的概率。

具体地，从云端获取的识别结果可以是n-best(前N个最佳)音素序列识别结果，可以是n-best(前N个最佳)词序列识别结果，也可以是n-best(前N个最佳)音素序列识别结果和n-best(前N个最佳)词序列识别结果。其中，所述音素序列为最小的语音单位组成的序列，词序列可以为字或者词组成的序列，N可以是大于0的自然数。

可选地，若所述目标序列包括词序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

基于所述词序列语言模型，对所述词序列中的一个备选序列进行词汇替换，获得第一词序列。

可选地，所述词序列包括N个词序列，如语音发音为“shanfeng”包含“山峰、山风、扇风”三个词序列，将上述三个词序列通过词序列语言模型进行概率计算，若“山峰”在本地参考文本中的出现概率最高，则得到“山峰”为备选序列。

可选地，若所述目标序列包括音素序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

可选地，基于所述音素序列语言模型，对所述音素序列中的一个备选序列进行词汇替换，获得第一音素序列。

例如，目标识别结果中发音为“zhangsan”，从云端获取的音素序列可以为“zhangsan、zhangshan、zhangsang”，将上述音素序列通过音素语言模型进行概率计算，得到音素zhang、音素san分别在所述本地参考文本的概率最高，则选择音素序列“zhangsan”为备选序列，若备选序列“zhangsan”中在本地参考文本中发音相似的“zhuangsan”比备选序列“zhangsan”在本地参考文本的出现概率更高，则将“zhuangsan”作为第一音素序列。

又如，目标识别结果中发音为“wo de ming zi shi zhangsan”，从云端获取的音素序列可以为“wo de ming zi shi zhangsan”、“wo de ming zi shi zhangshan”、“wo deming zi shi zhangsang”，将上述音素序列通过音素语言模型进行概率计算，得到音素序列“wo de ming zi shi zhangsan”在所述本地参考文本的概率最高，则选择音素序列“wode ming zi shi zhangsan”为备选序列，若备选序列“wo de ming zi shi zhangsan”中“zhangsan”在本地参考文本中发音相似的“zhuangsan”比备选序列“zhangsan”在本地参考文本的出现概率更高，则将“zhuangsan”替换音素“zhangsan”，获得第一音素序列“wo deming zi shi zhuangsan”。

可选地，基于所述词序列语言模型，对所述第一音素序列对应的至少一个词序列中的一个备选序列，进行词汇替换。第一音素序列可以对应多个词序列，如音素序列“wo demingzi shi zhangsan”可以对应“我的名字是张三”、“我的名字是章三”、“我的名字是张叁”等多个词序列。其中，“我的名字是张三”在本地参考文本中的出现频率最高，则选取“我的名字是张三”为所述第一音素序列对应的至少一个词序列中的一个备选序列。

可选地，若所述目标序列包括音素序列和词序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，还包括：

可选地，所述第一音素序列可以对应多个词序列，选择其中的一个词序列作为备选序列，所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高。如一组音素“shan feng”对应的词汇可以是“山峰”，也可以是“山风”，若“山峰”在本地参考文本中的出现概率最高，则选择“山峰”为音素“shan feng”的备选序列。

可选地，若目标识别对象的语音发音为“wo de ming zi shi zhang san”，所述词序列包含“我的名字是张三、我得名字是张叁、我的名字是璋三”，在上述三个词序列中，“我的名字是张三”在本地参考文本中的出现概率最高，选取“我的名字是张三”为备选序列。所述备选序列中“是”的下一个词“张三”，通过语言模型中的计算的出现概率低，则可以选择参考文本中发音相似并且出现概率更高的字或者词进行替换，如“张山”在参考文本中多次出现，则将“张山”替换“张三”，得到“我的名字是张山”的第一词序列。

可选地，所述基于命名实体识别NER，对所述目标序列中的一个备选序列进行词汇替换，获得所述边缘端识别结果，包括：

可选地，通过本地参考文本生成NER词表，边缘端通过所述NER词表中的第一替换词汇替换所述目标序列中的一个备选序列中的词汇，获得所述边缘端识别结果，所述第一替换词汇为其对应的音素序列与所述备选序列中的词汇的音素序列的音素匹配概率大于第三预设阈值的词汇，也即第一替换词汇与所述备选序列中的对应词汇发音相似。第三预设阈值为一个小于1的正数，所述替换词汇对应的音素序列与所述备选序列中的词汇的音素序列的音素匹配概率大于第三预设阈值，表示在NER词表中所述替换词汇与所述备选序列中的词汇发音相似。

可选地，所述方法还包括：

基于所述NER对所述本地参考文本进行识别，生成NER词表；

基于词典和/或字符转音素(Grapheme-to-Phoneme,G2P)技术，获得所述NER词表对应的音素。

可选地，基于所述NER词表，通过所述NER词表中的第一替换词汇替换所述目标序列中的一个备选序列中的词汇，获得所述边缘端识别结果，如所述目标序列中的一个备选序列中的词汇为“open ai”，在所述NER词表中“open ai”发音所对应的词汇“OpenAI”的匹配概率更大，则将备选序列中的词汇“open ai”替换为“OpenAI”，其中，“OpenAI”为由诸多硅谷大亨联合建立的人工智能非营利组织。

具体地，从云端请求词典，将词典下载到边缘端。

利用命名实体识别(NER，Named Entity Recognition)技术，对文字内容中的人名、地名、组织机构名、专有名词等进行识别，生成NER词表。

可选地，所述本地参考文本包括：

可选地，本地参考文本可以包括会议讲稿，会议的投屏ppt，参会者的姓名、职务、背景身份，本次会议的背景信息等。

可选地，参会者的名字、职务、名称等加入至NER词表中，以此提高NER的准确率。

具体地，若参会者的姓名、职务等信息中可能存在生僻字时，针对生僻字云端识别的结果可能会不准确。本申请将参会者的名字、职务、名称等加入至NER词表中，可以通过NER词表中的生僻字将云端对生僻字的识别结果进行替换，得到更准确的识别结果。

可选地，若所述本地参考文本包括会议讲稿、投屏ppt等资料时，利用文字识别技术，自动进行文字识别，识别图像中的文字内容。如果所述本地参考文本是电子版资料，则不需要进行文字识别。

可选地，所述本地参考文本还包括参会者的名字、职务介绍等会议相关背景信息。

在边缘端，通过会议讲稿、投屏ppt等资料对云端返回的语音识别结果进行优化。

可选地，可以利用下载的词典得到NER词表中的词汇对应的发音，也可以利用字符转音素G2P技术得到NER词表中的词汇对应的发音，也可以基于下载的词典，利用字符转音素G2P技术得到NER词表中的词汇对应的发音。

可选地，当NER词表中的词汇在下载的词典中没有对应的发音时，可以利用G2P技术，以下载的词典为参考模型，对NER词表中的词汇进行转换得到NER词表中的词汇对应的发音。

通过本实施例中的使用云边端协同的方式，充分利用云边端的计算资源，使得云端处理的任务减少，降低了云端网络时延，提高了语音识别的相应速度。

可选地，所述获得边缘端识别结果之后，所述方法还包括：

具体地，以参考文本所属活动的主题内容为分类，分别将本地参考文本的相关信息保存至服务器中，如一次会议的主题是人工智能，可以以人工智能为一类，将以后的会议主题是人工智能的本地参考文本的相关信息都保存至服务器的人工智能这一类中。这样，组织内部可以不断累积相关文本资料，不断提升本领域的识别准确率。

通过本申请实施例提供的一种语音识别方位，边缘端对识别结果进行优化，可以不需要把会议相关资料传到云端，而只是在边缘端进行处理，能够保护会议资料隐私，通过在组织内部进行更高级别的网络安全控制，可以提高会议安全性。在本申请的应用场景不限于会议，还可以是演讲，授课等活动。云端使用通用的语音识别技术，不需要根据具体的应用场景进行更改。

图3是本申请实施例提出的语音识别方法的流程示意图之二，如图3所述，该方法包括如下步骤：

步骤301，设备端获取云端识别结果或边缘端识别结果，其中，所述云端识别结果包括云端对目标识别对象识别获得的一个目标序列；

可选地，边缘端识别结果是边缘端对云端识别结果进行词汇替换即优化之后获得的识别结果。

步骤302，基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果。

可选地，若设备端获取的是边缘端识别结果，则，在设备端可以对边缘端返回的语音识别结果继续进行优化。

可选地，所述基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果，包括：

可选地，所述第二替换词汇为与所述目标序列中的词汇发音相似且出现概率更高的所述本地词表中的词汇。

例如，所述目标序列为“我的名字是张叁”，其中，词汇“张叁”在所述本地词表中发音相似的词汇有“张三”、“章三”，其中词汇“张三”比所述目标序列中的词汇“张叁”的出现概率更高，则“张三”为所述本地词表中的第二替换词汇。

具体地，第四预设阈值为一个小于1的正数，所述第二替换词汇相对应的词汇的音素序列，与所述第二替换词汇的音素序列的音素匹配概率大于第四预设阈值表示本地词表中的词汇的发音与本地词表中的词汇对应的目标序列中的词汇发音相似。

可选地，所述词表包括：预先设置的易错词表和/或实时NER词汇。

其中，预先设置的易错词表包括易识别错的词以及在本次会议中会频繁出现但又不常见的词语。

可选地，所述方法还包括：基于NER技术实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

可选地，实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

具体地，基于NER技术实时抓取屏幕上的信息，得到的当前屏幕上的NER词汇。但是，在本申请中，并不限于屏幕上的信息，也可以是实时抓取的实体文本的信息。

可选地，使用语法分析技术对设备端获得的云端或者边缘端的识别结果进行分析，对其中的主语、宾语等词汇，所述词表中发音相似的词语进行替代，从而进一步提高识别准确率。

本申请实施例提供的一种语音识别方位，通过设备端对识别结果进行优化，可以不需要把会议相关资料传到云端，而只是在设备端进行处理，能够保护会议资料隐私，通过在组织内部进行更高级别的网络安全控制，可以提高会议安全性。在本申请中，不限于会议，还可以是演讲，授课等活动。

可选地，通过边缘端获取云端对目标识别对象的识别结果，并基于目标识别对象对应的本地参考文本，对云端识别结果进行修正，实现对云端的识别结果的优化，提高了语音识别的准确性。

图4是本申请实施例提供的语音识别方法的流程示意图之三，如图4所述，该流程具体为：

步骤401，从云端获取音素序列的n-best识别结果和词序列的n-best识别结果；

步骤402，从云端请求词典，将词典下载到边缘端；

步骤403，生成边缘端的LM、生成NER词表、得到NER词表中的词汇对应的发音，用LM选择从云端返回的识别结果，用LM和NER词表对识别结果进行优化；

步骤404，构造设备端词表、得到当前屏幕上的NER词汇，进一步优化识别结果。

图5是本申请实施例提供的语音识别装置的结构示意图之一，如图5所述，该语音识别装置，包括存储器，收发机，处理器：

收发机502，用于在处理器503的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器503代表的一个或多个处理器和存储器501代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机502可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。针对不同的用户设备，用户接口504还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器503负责管理总线架构和通常的处理，存储器501可以存储处理器503在执行操作时所使用的数据。

可选的，处理器503可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)，处理器也可以采用多核架构。

可选地，在一个实施例中，所述基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果，包括：

基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换；其中，所述目标序列对应的语言模型是基于所述本地参考文本训练获得的；和/或，基于命名实体识别NER，对所述目标序列中的一个所述备选序列进行词汇替换。

可选地，在一个实施例中，所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高；

可选地，在一个实施例中，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

可选地，在一个实施例中，所述目标序列包括：

音素序列，和/或，词序列；相应地，所述音素序列对应的语言模型包括音素序列语言模型；所述词序列对应的语言模型包括词序列语言模型。

可选地，在一个实施例中，若所述目标序列包括音素序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

可选地，在一个实施例中，若所述目标序列还包括词序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，还包括：

可选地，在一个实施例中，所述基于命名实体识别NER，对所述目标序列中的一个备选序列进行词汇替换，获得所述边缘端识别结果，包括：

可选地，在一个实施例中，所述操作还包括：

基于所述NER对所述本地参考文本进行识别，生成NER词表；

基于词典和/或字符转音素G2P技术，获得所述NER词表对应的音素。可选地，在一个实施例中，所述本地参考文本包括：本地参考文本所属活动的专业信息、参与者信息、活动背景信息、和活动内容。

可选地，在一个实施例中，所述获得边缘端识别结果之后，所述操作还包括：基于本地参考文本所属活动的专业信息，将所述本地参考文本的相关信息保存至服务器中。

本申请实施例提供的一种语音识别装置，通过边缘端获取云端对目标识别对象的识别结果，并基于目标识别对象对应的本地参考文本，对云端识别结果进行修正，实现对云端的识别结果的优化，提高了语音识别的准确性。

处理器通过调用存储器存储的计算机程序，用于按照获得的可执行指令执行本申请实施例提供的任一所述方法。处理器与存储器也可以物理上分开布置。

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图6是本申请实施例提供的语音识别装置的结构示意图之二，如图6所述，该语音识别装置，包括存储器，收发机，处理器：

收发机602，用于在处理器603的控制下接收和发送数据。

其中，在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器603代表的一个或多个处理器和存储器601代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机602可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括，这些传输介质包括无线信道、有线信道、光缆等传输介质。针对不同的用户设备，用户接口604还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器603负责管理总线架构和通常的处理，存储器601可以存储处理器603在执行操作时所使用的数据。

可选的，处理器603可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)，处理器也可以采用多核架构。

可选地，所述操作还包括：基于NER技术实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

图7是本申请实施例提供的语音识别装置的结构示意图之三，如图7所述，该语音识别装置，包括第一获取单元710，和第一修正单元720，其中：

第一获取单元710用于边缘端获取云端识别结果，所述云端识别结果包括云端针对目标识别对象识别获得的至少一个目标序列；

第一修正单元720用于基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果。

可选地，语音识别装置通过第一获取单元710获取云端识别结果，然后可以基于所述目标识别对象对应的本地参考文本，通过第一修正单元720对所述至少一个目标序列进行修正，获得边缘端识别结果。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，第一修正单元720用于：

和/或，

可选地，第一修正单元720用于：基于所述目标序列对应的语言模型，获得所述备选序列中的连续词汇组合对应的连续匹配概率，其中，所述连续匹配概率用于表示所述连续匹配概率对应的连续词汇组合在所述本地参考文本中出现的频率；

可选地，所述目标序列包括：

音素序列，和/或，词序列；

所述词序列对应的语言模型包括词序列语言模型。

可选地，若所述目标序列包括音素序列，第一修正单元720用于：基于所述音素序列语言模型，对所述音素序列中的一个备选序列进行词汇替换，获得第一音素序列；

可选地，若所述目标序列还包括词序列，第一修正单元720用于：若第一词序列对应的第四匹配概率大于第二词序列对应的第四匹配概率，则确定所述第一词序列为所述边缘端识别结果；

可选地，第一修正单元720用于：基于所述NER词表，通过所述NER词表中的第一替换词汇替换所述目标序列中的一个备选序列中的词汇，获得所述边缘端识别结果；

可选地，还包括：

第一生成单元，用于基于所述NER对所述本地参考文本进行识别，生成NER词表；

第三获取单元，用于基于词典和/或字符转音素G2P技术，获得所述NER词表对应的音素。

可选地，所述本地参考文本包括：

可选地，还包括：

所述获得边缘端识别结果之后，基于本地参考文本所属活动的专业信息，将所述本地参考文本的相关信息保存至服务器中。

图8是本申请实施例提供的语音识别装置的结构示意图之四，如图8所述，该语音识别装置，包括第二获取单元810，和第二修正单元820，其中：

第二获取单元810，用于设备端获取云端识别结果或边缘端识别结果，其中，所述云端识别结果包括云端对目标识别对象识别获得的一个目标序列；

第二修正单元820用于基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果。

可选地，语音识别装置通过第二获取单元810获取云端识别结果或边缘端识别结果，然后可以基于设备端的本地词表，通过第二修正单元820对所述一个目标序列进行修正，获得设备端识别结果。

可选地，第二修正单元820用于：

可选地，还包括：

第四获取模块，用于基于NER技术实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述各实施例提供的方法，包括：

或

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述目标识别对象对应的本地参考文本，对所述至少一个目标序列进行修正，获得边缘端识别结果，包括：

和/或，

3.根据权利要求2所述的语音识别方法，其特征在于，所述备选序列的词汇匹配概率在所有所述目标序列的词汇匹配概率中最高；

4.根据权利要求2所述的语音识别方法，其特征在于,所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

5.根据权利要求2至4任一项所述的语音识别方法，其特征在于，所述目标序列包括：

音素序列，和/或，词序列；

所述词序列对应的语言模型包括词序列语言模型。

6.根据权利要求5所述的语音识别方法，其特征在于，若所述目标序列包括音素序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，若所述目标序列还包括词序列，所述基于所述目标序列对应的语言模型和所述本地参考文本，对所述目标序列中的一个备选序列进行词汇替换，还包括：

8.根据权利要求2所述的语音识别方法，其特征在于，所述基于命名实体识别NER，对所述目标序列中的一个备选序列进行词汇替换，获得所述边缘端识别结果，包括：

9.根据权利要求8所述的语音识别方法，其特征在于，所述方法还包括：

基于所述NER对所述本地参考文本进行识别，生成NER词表；

10.根据权利要求1至4任一项或6至9任一项所述的语音识别方法，其特征在于，所述本地参考文本包括：

11.根据权利要求1至4任一项或6至9任一项所述的语音识别方法，其特征在于，所述获得边缘端识别结果之后，所述方法还包括：

12.一种语音识别方法，其特征在于，包括：

13.根据权利要求12所述的语音识别方法，其特征在于，所述基于设备端的本地词表，对所述一个目标序列进行修正，获得设备端识别结果，包括：

14.根据权利要求12所述的语音识别方法，其特征在于，所述词表包括：预先设置的易错词表和/或实时NER词汇。

15.根据权利要求14所述的语音识别方法，其特征在于，所述方法还包括：基于NER技术实时获取所述目标识别对象对应的显示信息中的实时NER词汇。

16.一种语音识别装置，包括存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行如权利要求1-11任一项所述的语音识别方法的步骤。

17.一种语音识别装置，包括存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行如权利要求12-15任一项所述的语音识别方法的步骤。

18.一种语音识别装置，其特征在于，包括：

19.一种语音识别装置，其特征在于，包括：

20.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至15任一项所述的方法。