CN112542162B

CN112542162B - 语音识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN112542162B
Application number: CN202011402934.XA
Authority: CN
Inventors: 赖勇铨
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2023-07-21
Anticipated expiration: 2040-12-04
Also published as: CN112542162A

Abstract

本申请提供了一种语音识别方法、装置、电子设备及可读存储介质，应用于语音识别技术领域，其中该方法包括：通过预训练的基于掩码的神经网络模型，突破n‑gram模型的限制，能够利用整句的上下文信息，从而更准确的得到候选语句中各个位置对应的文字的类别与概率，进而确定集束搜索确定的各候选语句的概率并进行候选语句的重排序，使得语音识别的结果更准确。

Description

语音识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语音识别技术领域，具体而言，本申请涉及一种语音识别方法、装置、电子设备及可读存储介质。

背景技术

集束搜索是一种宽度优先的启发式搜索算法，用在路径搜索中。假设有三个节点，每个节点的可能取值为abc，那么所有可能的路径包括aaa，aab，aac，...ccc一共有3*3*＝27种。出于效率和存储空间的考虑，集束搜索算法先从宽度进行扩展，建立一个候选列表，列表的容量最大为w，通常又称w为beamwidth，即束的宽度。

对于上述问题，假设w＝2，即每一步搜索后当前列表只保留两个最可能的路径。那么一个完整的集束搜索过程如下：第一步先考虑a，b，c的排序，选择最大概率对应的两个组合假设为b，c，从中选择最大概率的两个组合并从高到低排列，更新到列表中；第二步考虑以下6种情况，ba，bb，bc，ca，cb，cc，从中选择最大概率的两个组合并从高到低排列，假设为bc，ca，更新在列表中；第三步考虑以下6种情况，bca，bcb，bcc，caa，cab，cac，从中选择最大概率的两个组合并从高到低排列，假设为caa，cac；结束搜索，并输出caa，cac作为最终的集束搜索搜索结果。

以上计算过程中涉及的组合之间的概率可以通过n-gram语言模型得到。以2-gram为例，通常会从大量语料中计算出小于等于2阶的文字的组合频率用于表示该组合的概率。假设一共有三个字，a，b，c，那么2-gram会通过统计大量文本语料得到如下组合的概率值：

a，b，c，aa，ab，ac，ba，bb，bc，ca，cb，cc。于是上述搜索过程中的概率计算就通过查表的方式得到，例如计算abc组合的概率则分解为ab，bc的模率值相乘得到。

集束搜索通过n-gram的语言模型增强语音识别的效果，ngram通过查表实现。在实际的应用中，对于一个音频输入，集束搜索输出一个语句列表，列表中每一条语句代表一种可能的转写结果。列表的语句按照概率从高到低进行排序，概率的值是通过声学模型和ngram语言模型各自的概率加权得到。n-gram语言模型属于局部模型，优点在于效率非常高，缺点便是无法实现较长的上下文的理解。其不足之处在n-gram模型难以对长句进行建模，无法利用整句的上下文信息，对于上下文的理解通常不够精确。

发明内容

本申请提供了一种语音识别方法、装置、电子设备及可读存储介质，用于突破n-gram模型的限制，能够利用整句的上下文信息，从而更准确的得到候选语句中各个位置对应的文字的类别与概率，进而确定集束搜索确定的各候选语句的概率并进行候选语句的重排序，使得语音识别的结果更准确。

本申请采用的技术方案如下：

第一方面，提供了一种语音识别方法，其特征在于，包括：

获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；

确定候选语句列表中各候选语句的概率；确定候选语句列表中各候选语句的概率，包括：基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；

基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。

可选地，基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，包括：

基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率；

基于各个位置的文字类别及概率确定任一候选语句中各文字出现的概率；

基于任一候选语句中各文字出现的概率确定任一候选语句的概率，包括：

将候选语句中所有位置的文字的概率值乘积作为任一候选语句的概率。

可选地，基于预训练的基于掩码的神经网络模型计算各个位置的文字类别及概率，包括：

将任一位置的文字通过掩码的方式抹去，得到该任一位置的文字抹去的任一候选语句；

将任一位置的文字抹去的任一候选语句输入至预训练的基于掩码的神经网络模型，得到任一位置的文字类别及概率。

可选地，预训练的基于掩码的神经网络模型的最后一层为softmax激活函数，用于对掩码抹去的位置对应的文本进行分类。

可选地，预训练的基于掩码的神经网络模型为基于时序序列的神经网络模型。

可选地，该方法还包括：

将重排序后的目标候选语句列表中概率值最高的目标候选语句作为目标音频的语音识别结果。

第二方面，提供了一种语音识别装置，包括：

获取模块，用于获取基于集束搜索模型对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；

确定模块，用于确定候选语句列表中各候选语句的概率；确定模块，具体用于基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；

重排序模块，用于基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。

可选地，确定模块包括：

第一确定单元，用于基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率；

第二确定单元，用于基于各个位置的文字类别及概率确定任一候选语句中各文字出现的概率；

作为单元，用于将候选语句中所有位置的文字的概率值乘积作为任一候选语句的概率。

可选地，第一确定单元，具体用于将任一位置的文字通过掩码的方式抹去，得到该任一位置的文字抹去的任一候选语句；以及用于将任一位置的文字抹去的任一候选语句输入至预训练的基于掩码的神经网络模型，得到任一位置的文字类别及概率。

可选地，该装置还包括：作为模块，用于将重排序后的目标候选语句列表中概率值最高的目标候选语句作为目标音频的语音识别结果。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的语音识别方法。

第四方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的语音识别方法。

本申请提供了一种语音识别方法、装置、电子设备及可读存储介质，与现有技术集束搜索通过n-gram语言模型进行语音识别难以对长句进行建模，无法利用整句的上下文信息，对于上下文的理解通常不够精确相比，本申请通过获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；确定候选语句列表中各候选语句的概率；确定候选语句列表中各候选语句的概率，包括：基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。即通过预训练的基于掩码的神经网络模型，突破n-gram模型的限制，能够利用整句的上下文信息，从而更准确的得到候选语句中各个位置对应的文字的类别与概率，进而确定各候选语句的概率并进行候选语句的重排序，使得语音识别的结果更准确。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种语音识别方法的流程示意图；

图2为本申请实施例的一种语音识别装置的结构示意图；

图3为本申请实施例的一种概率识别确定示例图；

图4为本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种语音识别方法，如图1所示，该方法可以包括以下步骤：

步骤S101，获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；

具体地，在实际的应用中，对于一个目标音频输入，集束搜索输出一个语句列表，列表中每一条语句代表一种可能的转写结果。列表的语句按照概率从高到低进行排序，概率的值是通过声学模型和n-gram语言模型各自的概率加权得到。n-gram语言模型属于局部模型，优点在于效率非常高，缺点便是无法实现较长的上下文的理解。其不足之处在n-gram模型难以对长句进行建模，无法利用整句的上下文信息，对于上下文的理解通常不够精确。

比如对于一个语音文本：“今天突然下雨了，可是我出门忘了带伞”，假设由于噪音或其它原因导致最后两个字录音不够清晰，那么集束搜索算法可能会得到下面的输出列表：

“今天突然下雨了，可是我没有带三”

“今天突然下雨了，可是我没有待散”

“今天突然下雨了，可是我没有带伞”

…

列表中输出语句的差异点在于最后两个字，由于带伞和下雨相差了6个字符，如果需要在ngram语言模型利用上下文的关系，则需要上下文的长度至少为10(包括带伞和下雨这4个字)，也就是说需要10阶的语言模型，显然是不现实的(通常的n-gram语言模型最大能到5阶),如何能突破n-gram模型的限制成为了一个问题。本申请正是利用预训练的基于掩码的神经网络语言模型对上述集束搜索输出的列表进行重排序和必要的校正。

步骤S102，确定候选语句列表中各候选语句的概率；确定候选语句列表中各候选语句的概率，包括：基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；

即本申请通过预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，突破n-gram模型无法利用整句的上下文信息，对于上下文的理解通常不够精确的限制。

具体地，本申请的预训练的基于掩码的神经网络模型可以是采用带掩码的语方模型(Mask LM)，也可以是实现本申请功能的其他模型。Mask LM的训练过程类似文本的填空题，把带空白的输入语句I通过深度网络处理后输出语P，目标是使得P和真实语句T越接近越好。举例如下所示，

I:如果有[]你只要右键[]击各个盘符，选择“[]式化[]即[]

P:如果有，你只要右键点击各个盘符，选择“格式化”即可

T:如果有，你只要右键单击各个盘符，选择“格式化”即可

通过训练，mask LM可以预测任位置的文字。Mask LM网络的实现不限于RNN/GRU/LSTM等时序模型或其注意力机的改进版本，还包括transformer(BERT,gpt)等网络结构。

步骤S103，基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。

示例性地，分别得到语句“今天突然下雨了，可是我没有带三”、“今天突然下雨了，可是我没有待散”、“今天突然下雨了，可是我没有带伞”的概率，然后可以根据概率值的大小进行语句的重排序，从而使得到的的目标候选语句结果更准确。

本申请实施例提供了一种可能的实现方式，具体地，基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，包括：

基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率；具体地，将任一位置的文字通过掩码的方式抹去，得到该任一位置的文字抹去的任一候选语句；将任一位置的文字抹去的任一候选语句输入至预训练的基于掩码的神经网络模型，得到任一位置的文字类别及概率。具体地，预训练的基于掩码的神经网络模型的最后一层为softmax激活函数，用于对掩码抹去的位置对应的文本进行分类。示例性地，如图3中的我爱-国，“-”位置对应文字可能为“中、美、大.......你”等，即对应的文字类别。

本申请实施例提供了一种可能的实现方式，具体地，预训练的基于掩码的神经网络模型为基于时序序列的神经网络模型。

具体地，对于语句中的每一个字符，通过掩码的方式抹去，即以“-”(或其它非可见符号)进行代替。然后通过MaskLM预测该位置的所有可能字符(包括实际文字)及其概率值，最后把该位置的实际文本对应的概率作为语句中该位置对应的评分。最后的总评分即为所有位置的评分值(概率值)的乘积。

示例性地，为了计算语句“穿起还是很洋气的”的概率，进行如下的分解：

穿起还是很洋气的：0.1

穿起还是很洋气的：0.2

穿起还是很洋气的：0.3

穿起还是很洋气的：0.6

穿起还是很洋气的：0.7

穿起还是很洋气的：0.2

穿起还是很洋气的：0.3

穿起还是很洋气的：0.5

对于上述的语句的每个位置，计算该字的概率值(如冒号后面的数值所示)，最后把所有值相乘得到最终该语句的概率值。用P(s)表示句子的概率值，则

其中n为句子的长度，i为位置，位置i对应的文字的概率值为Pi,其中Pi的值由语言模型基于其它位置的文字进行预测得到。

图3展示了如何计算语句“我爱中国”的Pi，则“中”字在句中的概率则是0.99,即最后一层softmax输出的概率值。如果句子为“我爱你国”，则“你”的概率值为0.0001。

语句重排序，对于集束搜索得到的语句列表，假设为S1,S2,S3,…Sm,分别计算其概率P(S1)，P(S2),…P(Sm)。

最后根据概率值从大到小对语句进行排序，得到重排序后的语句。

本申请实施例提供了一种可能的实现方式，具体地，该方法还包括：

本申请提供了一种语音识别方法，与现有技术集束搜索通过n-gram语言模型进行语音识别难以对长句进行建模，无法利用整句的上下文信息，对于上下文的理解通常不够精确相比，本申请通过获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；确定候选语句列表中各候选语句的概率；确定候选语句列表中各候选语句的概率，包括：基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。即通过预训练的基于掩码的神经网络模型，突破n-gram模型的限制，能够利用整句的上下文信息，从而更准确的得到候选语句中各个位置对应的文字的类别与概率，进而确定各候选语句的概率并进行候选语句的重排序，使得语音识别的结果更准确。

实施例二

图2为本申请实施例提供的一种语音识别装置，该装置20包括：获取模块201、确定模块202、重排序模块203，其中，

获取模块201，用于获取基于集束搜索模型对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；

确定模块202，用于确定候选语句列表中各候选语句的概率；确定模块，具体用于基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；

重排序模块203，用于基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。

可选地，确定模块包括：

可选地你，预训练的基于掩码的神经网络模型为基于时序序列的神经网络模型。

可选地，该装置20还包括作为模块，用于将重排序后的目标候选语句列表中概率值最高的目标候选语句作为目标音频的语音识别结果。

本申请提供了一种语音识别装置，与现有技术集束搜索通过n-gram语言模型进行语音识别难以对长句进行建模，无法利用整句的上下文信息，对于上下文的理解通常不够精确相比，本申请通过获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表，候选语句列表包括多个候选语句；确定候选语句列表中各候选语句的概率；确定候选语句列表中各候选语句的概率，包括：基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于任一候选语句中各文字出现的概率确定任一候选语句的概率；基于确定的候选语句列表中各候选语句的概率，对候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。即通过预训练的基于掩码的神经网络模型，突破n-gram模型的限制，能够利用整句的上下文信息，从而更准确的得到候选语句中各个位置对应的文字的类别与概率，进而确定各候选语句的概率并进行候选语句的重排序，使得语音识别的结果更准确。

本申请实施例的装置可以执行本申请实施例一所示的方法，其实现的效果类似，在此不再赘述。

实施例三

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。其中，处理器401应用于本申请实施例中，用于实现图2所示的模块的功能。收发器404包括接收机和发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图2所示实施例提供的装置的功能。

本申请实施例提供了一种电子设备适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

实施例四

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的语音识别方法。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取基于集束搜索方法对目标音频进行语音识别得到的候选语句列表，所述候选语句列表包括多个候选语句；

确定所述候选语句列表中各候选语句的概率；所述确定所述候选语句列表中各候选语句的概率，包括：基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于所述任一候选语句中各文字出现的概率确定所述任一候选语句的概率；

基于确定的所述候选语句列表中各候选语句的概率，对所述候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表；

所述基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，包括：

基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率，包括：将任一位置的文字通过掩码的方式抹去，得到该任一位置的文字抹去的任一候选语句；将所述任一位置的文字抹去的任一候选语句输入至所述预训练的基于掩码的神经网络模型，得到所述任一位置的文字类别及概率；

基于所述各个位置的文字类别及概率确定所述任一候选语句中各文字出现的概率；

所述基于所述任一候选语句中各文字出现的概率确定所述任一候选语句的概率，包括：

将候选语句中所有位置的文字的概率值乘积作为所述任一候选语句的概率。

2.根据权利要求1所述的方法，其特征在于，所述预训练的基于掩码的神经网络模型的最后一层为softmax激活函数，用于对掩码抹去的位置对应的文本进行分类。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述预训练的基于掩码的神经网络模型为基于时序序列的神经网络模型。

4.根据权利要求3所述的方法，其特征在于，该方法还包括：

将所述重排序后的目标候选语句列表中概率值最高的目标候选语句作为所述目标音频的语音识别结果。

5.一种语音识别模型，其特征在于，包括：

获取模块，用于获取基于集束搜索模型对目标音频进行语音识别得到的候选语句列表，所述候选语句列表包括多个候选语句；

确定模块，用于确定所述候选语句列表中各候选语句的概率；所述确定模块，具体用于基于预训练的基于掩码的神经网络模型确定任一候选语句中各文字出现的概率，并基于所述任一候选语句中各文字出现的概率确定所述任一候选语句的概率；所述确定模块包括：第一确定单元，用于基于预训练的基于掩码的神经网络模型确定各个位置的文字类别及概率；第二确定单元，用于基于所述各个位置的文字类别及概率确定所述任一候选语句中各文字出现的概率；作为单元，用于将候选语句中所有位置的文字的概率值乘积作为所述任一候选语句的概率；

重排序模块，用于基于确定的所述候选语句列表中各候选语句的概率，对所述候选语句列表中的各候选语句进行重排序，得到重排序后的目标候选语句列表。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至4任一项所述的语音识别方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至4中任一项所述的语音识别方法。