CN114360528A

CN114360528A - 语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN114360528A
Application number: CN202210006614.5A
Authority: CN
Inventors: 田晋川; 余剑威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-15
Anticipated expiration: 2042-01-05
Also published as: CN114360528B

Abstract

本申请实施例公开了一种语音识别方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对语音数据进行识别，得到目标文本数据，将所述目标文本数据中的每个字符和对所述目标文本数据进行词语划分得到的每个词语确定为所述目标文本数据的第一元素；获取每个第一元素的权重；基于所述目标文本数据中的多个第一元素以及每个第一元素的权重，确定所述目标文本数据的置信度，将所述目标文本数据和所述目标文本数据的置信度，确定为所述语音数据的识别结果。该方法在确定该文本数据是否能够作为该语音数据匹配的文本数据时，考虑第一元素与该第一元素的前序元素之间是否符合语言逻辑，考虑了更多的信息，提高了语音识别的准确率。

Description

语音识别方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术

语音识别技术是指对语音数据进行识别得到该语音数据匹配的文本数据的技术，近年来，语音识别技术的应用越来越广泛。相关技术中，在对语音数据进行识别时，通常是直接对语音数据本身进行识别，将识别结果作为该语音数据对应的文本数据，由于在识别过程中所依据的信息较少，导致识别准确率较低。

发明内容

本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质，提高了语音信号的识别准确率。所述技术方案如下：

一方面，提供了一种语音识别方法，所述方法包括：

对语音数据进行识别，得到目标文本数据，将所述目标文本数据中的每个字符和对所述目标文本数据进行词语划分得到的每个词语确定为所述目标文本数据的第一元素，所述词语包括至少两个字符；

获取每个第一元素的权重，所述权重表示所述第一元素与所述第一元素的前序元素之间的相关程度，所述第一元素的前序元素包含所述目标文本数据中位于所述第一元素之前且与所述第一元素相邻的至少一个元素；

基于所述目标文本数据中的多个第一元素以及每个所述第一元素的权重，确定所述目标文本数据的置信度，所述置信度表示所述目标文本数据为所述语音数据匹配的目标文本数据的可信程度；

将所述目标文本数据和所述目标文本数据的置信度，确定为所述语音数据的识别结果。

可选地，所述获取第二架构图，包括：

按照不同的字符数目对所述目标文本数据进行划分，得到多个元素集合，属于同一元素集合的第二元素构成所述目标文本数据，且属于同一元素集合的第二元素包含的字符数据相同，属于不同的元素集合的第二元素包含的字符数目不同；

基于所述目标文本数据的多个元素集合，获取所述目标文本数据的第二架构图，所述第二架构图中的每条路径对应的第二元素构成所述目标文本数据，每个第二元素的权重表示所述第二元素与所述第二元素的前序元素之间的相关程度，所述第二元素的前序元素包含与所述第二元素属于同一元素集合的、位于所述第二元素之前且与所述第二元素相邻的至少一个第二元素。

可选地，所述基于所述目标文本数据的多个元素集合，获取所述目标文本数据的第二架构图，包括：

创建一个第一节点和M₁个第二节点，M₁为多个第二元素中的第一目标元素的数目，所述第一目标元素包含所述目标文本数据中的第一个字符；基于M₁个所述第一目标元素，分别创建从所述第一节点指向M₁个所述第二节点的连接线，M₁条连接线分别对应于一个第一目标元素以及所述第一目标元素的权重，不同的连接线对应的第一目标元素不同；

对于每个所述第二节点，创建M₂个第三节点，M₂为所述多个第二元素中的第二目标元素的数目，所述第二目标元素包含所述第二节点对应的第一目标元素之后的第一个字符；基于M₂个所述第二目标元素，分别创建从所述第二节点指向M₂个所述第三节点的连接线，M₂条连接线分别对应于一个第二目标元素以及所述第二目标元素的权重，不同的连接线对应的第二目标元素不同，直至从所述第一节点开始的每条路径对应的第二元素构成所述目标文本数据，得到所述目标文本数据的第二架构图。

可选地，所述基于所述目标文本数据的多个元素集合，获取所述目标文本数据的第二架构图，还包括：

创建一个第一空节点，建立从所述第一节点指向所述第一空节点的连接线；

创建M₁个第四节点，基于M₁个所述第一目标元素，分别创建从所述第一空节点指向M₁个所述第四节点的连接线，M₁条连接线分别对应于一个第一目标元素以及所述第一目标元素的权重，不同的连接线对应的第一目标元素不同。

可选地，所述基于所述目标文本数据的多个第一元素以及每个所述第一元素的权重，获取所述目标文本数据的目标架构图，包括：

基于所述目标文本数据的多个第一元素，获取所述目标文本数据的第一架构图，所述第一架构图包括多个节点和多条连接线，每个第一元素对应于一条连接线，每条连接线从一个起始节点指向一个终止节点，其中，所述词语对应的连接线从所述词语的起始字符对应的连接线的起始节点指向所述词语的终止字符对应的连接线的终止节点，指向任一节点的连接线对应的第一元素与以所述节点为起始节点的连接线对应的第一元素相邻、且位于以所述节点为起始节点的连接线对应的第一元素之前；

在所述第一架构图中添加每个所述第一元素的权重，获取所述目标架构图。

可选地，所述获取每个第一元素的权重，包括：

将与所述第一架构图中的每条连接线对应的第一元素相同的第二元素的权重，确定为所述第一元素的权重，每个第二元素的权重表示所述第二元素与所述第二元素的前序元素之间的相关程度，所述第二元素的前序元素包含与所述第二元素属于同一元素集合的、位于所述第二元素之前且与所述第二元素相邻的至少一个第二元素。

可选地，所述将与所述第一架构图中的每条连接线对应的第一元素相同的第二元素的权重，确定为所述第一元素的权重之前，所述方法还包括：

对于每个元素集合中的每个第二元素：

获取所述第二元素在语料数据中的第三数量；

获取第二目标片段在所述语料数据中第四数量，所述第二目标片段包含所述第二元素以及所述第二元素的前序元素；

基于所述第三数量和所述第三数量之间的比值，确定所述第二元素的权重。

可选地，所述基于所述第一文本数据中的多个第一元素以及每个所述第一元素的权重，确定所述第一文本数据的置信度，包括：

基于所述第一文本数据的多个第一元素以及每个第一元素的权重，获取所述第一文本数据的目标架构图；

基于所述第一文本数据的目标架构图，确定所述第一文本数据的置信度。

另一方面，提供了一种语音识别装置，所述装置包括：

语音识别模块，用于对语音数据进行识别，得到目标文本数据；

元素获取模块，用于将所述目标文本数据中的每个字符和对所述目标文本数据进行词语划分得到的每个词语确定为所述目标文本数据的第一元素，所述词语包括至少两个字符；

权重获取模块，用于获取每个第一元素的权重，所述权重表示所述第一元素与所述第一元素的前序元素之间的相关程度，所述第一元素的前序元素包含所述目标文本数据中位于所述第一元素之前且与所述第一元素相邻的至少一个元素；

置信度确定模块，用于基于所述目标文本数据中的多个第一元素以及每个所述第一元素的权重，确定所述目标文本数据的置信度，所述置信度表示所述目标文本数据为所述语音数据匹配的目标文本数据的可信程度；

识别结果确定模块，用于将所述目标文本数据和所述目标文本数据的置信度，确定为所述语音数据的识别结果。

可选地，置信度确定模块，包括：

架构图获取单元，用于基于所述目标文本数据中的多个第一元素以及每个所述第一元素的权重，获取所述目标文本数据的目标架构图，所述目标架构图包括多个节点和多条连接线；

置信度确定单元，用于基于所述目标架构图，确定所述目标文本数据的置信度。

其中，每条连接线对应于一个第一元素和所述第一元素的权重，每条连接线从一个起始节点指向一个终止节点，所述词语对应的连接线从所述词语的起始字符对应的连接线的起始节点指向所述词语的终止字符对应的连接线的终止节点，指向任一节点的连接线对应的第一元素与以所述节点为起始节点的连接线对应的第一元素相邻、且位于以所述节点为起始节点的连接线对应的第一元素之前。

可选地，所述架构图获取单元，用于：

获取第二架构图，所述第二架构图包括多个节点和多条连接线，每条连接线对应一个第二元素和所述第二元素对应的权重，每条连接线从一个起始节点指向一个终止节点；

按照所述第一架构图，选取所述第二架构图中，与所述第一架构图中的每个第一元素相同的第二元素对应的连接线，以及所述连接线所连接的节点；

从选取的节点和连接线中，去除不属于所述目标文本数据对应的任一路径的节点或连接线，得到所述目标架构图。

可选地，所述架构图获取单元，用于：

创建U+1个节点，U为所述目标文本数据中的字符的数量，第x个节点与所述目标文本数据中的第x个字符对应，U为大于1的正整数，x为不大于U的任一正整数；

创建从每个第一元素中的起始字符对应的节点指向每个第一元素中的终止字符对应的节点的下一个节点的连接线，得到所述第一架构图。

可选地，所述架构图获取单元，用于：

在所述第一架构图中添加每个第一元素的权重，获取所述目标架构图。

可选地，所述置信度确定模块，包括：

节点特征获取单元，用于基于所述目标架构图中指向目标节点的连接线对应的权重，以及所述连接线连接的另一个节点的节点特征，确定所述目标节点的节点特征，所述目标节点为所述目标架构图中除第一个节点之外的任一节点，所述节点特征包含位于所述目标节点之前的连接线上的第一元素构成的文本片段以及所述文本片段对应的文本置信度；

文本置信度获取单元，用于在所述目标节点为所述目标架构图中的最后一个节点的情况下，将所述目标节点的节点特征包含的文本置信度，确定为所述目标文本数据的文本置信度，所述文本置信度表示所述目标文本数据符合语言逻辑的概率；

置信度获取单元，用于调整所述文本置信度，得到所述目标文本数据的置信度。

可选地，所述节点特征获取单元，用于：

在所述目标架构图中有n条连接线指向所述目标节点的情况下，对于所述n条连接线中的每条连接线，基于所述连接线对应的权重，以及所述连接线连接的另一个节点的节点特征，得到所述连接线对应的节点特征；

基于所述n条连接线对应的节点特征，确定所述目标节点的节点特征。

可选地，所述节点特征获取单元，用于：

将所述n条连接线对应的节点特征中最大的文本置信度对应的节点特征，确定为所述目标节点的节点特征；或者，

将所述n条连接线对应的节点特征的均值，确定为所述目标节点的节点特征。

可选地，所述语音识别模块，用于：

对所述语音数据进行识别，得到所述目标文本数据和所述目标文本数据的识别置信度，所述识别置信度表示所述目标文本数据与所述语音数据的匹配程度；

所述置信度获取单元，用于：

对所述识别置信度和所述文本置信度进行加权处理，得到所述目标文本数据的置信度。

可选地，所述权重获取模块，用于：

对于每个第一元素：

获取所述第一元素在语料数据中的第一数量；

获取第一目标片段在所述语料数据中第二数量，所述第一目标片段包含所述第一元素以及所述第一元素的前序元素；

基于所述第二数量和所述第一数量之间的比值，确定所述第一元素的权重。

可选地，所述权重获取模块，用于：

可选地，所述权重获取模块，还用于：

对于每个元素集合中的每个第二元素：

获取所述第二元素在语料数据中的第三数量；

可选地，所述语音识别模块，用于对所述语音数据进行识别，得到第一个字符和第二个字符之后，对所述第一个字符和所述第二个字符进行组合，得到第一文本数据，并获取所述第一文本数据的置信度，直至对所述语音数据进行识别，得到最后一个字符，将所述最后一个字符与之前识别得到的字符进行组合，得到所述目标文本数据。

可选地，所述元素获取模块，还用于将所述第一文本数据中的每个字符和对所述第一文本数据进行词语划分得到的每个词语确定为所述第一文本数据的第一元素，所述词语包括至少两个字符；

所述权重获取模块，还用于获取所述第一文本数据中的每个第一元素的权重，所述权重表示所述第一元素与所述第一元素的前序元素之间的相关程度，所述第一元素的前序元素包含所述第一文本数据中位于所述第一元素之前且与所述第一元素相邻的至少一个元素；

所述置信度确定模块，还用于基于所述第一文本数据中的多个第一元素以及每个第一元素的权重，确定所述第一文本数据的置信度。

可选地，所述置信度确定模块，还用于：

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如上述方面所述的语音识别方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如上述方面所述的语音识别方法所执行的操作。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述方面所述的语音识别方法所执行的操作。

本申请实施例提供的技术方案，在对语音数据进行识别得到文本数据之后，没有直接确定该文本数据是否为该语音数据匹配的文本数据，而是获取该文本数据中每个第一元素的权重，由于每个第一元素的权重能够表示该第一元素与该第一元素的前序元素之间的关联程度，即表示该文本数据中该第一元素与该第一元素的前序元素之间是否符合语言逻辑，因此，在确定该文本数据是否能够作为该语音数据匹配的文本数据时，考虑第一元素与该第一元素的前序元素之间是否符合语言逻辑，考虑了更多的信息，提高了语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种语音识别方法的流程图；

图3是本申请实施例提供的一种语音识别方法的流程图；

图4是本申请实施例提供的一种架构图的示意图；

图5是本申请实施例提供的一种创建第一架构图的流程图；

图6是本申请实施例提供的一种第一架构图的示意图；

图7是本申请实施例提供的一种第一架构图的示意图；

图8是本申请实施例提供的一种创建第二架构图的流程图；

图9是本申请实施例提供的一种目标架构图的示意图；

图10是本申请实施例提供的一种语音识别方法的流程图；

图11是本申请实施例提供的一种语音识别装置的结构示意图；

图12是本申请实施例提供的一种语音识别装置的结构示意图；

图13是本申请实施例提供的一种终端的结构示意图；

图14是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一排列顺序称为第二排列顺序，将第二排列顺序称为第一排列顺序。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个元素包括3个元素，而每个元素是指这3个元素中的每一个元素，任一是指这3个元素中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

为了便于理解本申请实施例，先对本申请实施例涉及到的关键词进行解释：

FST(Finite-State Transducer，有限状态转录机)：一种具有严格代数基础的抽象模型。FST包括FSA(Finite-State Acceptor，有限状态接收机)、FST、WFSA(WeightedFinite-State Acceptor，加权有限状态接收机)、WFST(Weighted Finite-StateTransducer，加权有限状态转录机)。其中，任一种类型的FST均包括节点和连接线，FSA中的连接线仅对应于输入标签，WFSA中的连接线对应于输入标签和权重，WFST中的连接线对应于输入标签、输出标签和权重，FST中的连接线对应于输入标签和输出标签。

语言模型：一种基于概率统计的数学模型，用于衡量文本数据是否符合语言逻辑。语言模型主要分为N-gram语言模型和神经网络语言模型。其中，N-gram语言模型能够表示为一个WFSA，神经网络语言模型能够表示为一个神经网络。相较于神经网络语言模型，N-gram语言模型的优势主要是可定制化。由于N-gram语言模型常被表示为一个WFSA，因此允许以较小的代价对其进行修改和定制化。对于以中文为代表的部分语言来讲，使用词级别N-gram语言模型在语音识别***中面临切实困难。不似那些具有显式的词边界(如空格)的语言(如英语)，中文、日语、韩语等语言并不存在明确的词边界。如需使用词级别语言模型，则需要将文本首先分割成词后再使用(即分词过程)。然而，将此类文本分割成词本身具有歧义性和模糊性，不同的分割方式也会导致不同的结果，而本申请实施例提供的方法采用另一WFSA与该N-gram语言模型共同处理，避免了分割的词语具有歧义性和模糊性的问题。

语音识别***：用以将语音数据转换为对应文本数据的***。主要分为Hybrid(混合)***和端到端***。Hybrid***由FST和神经网络协同工作；端到端***由一个神经网络完成所有工作。

本申请实施例中，基于N-gram语言模型和FST协助该端到端***进行语音识别。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术，通过语音识别***、语言模型，对语音数据进行识别，以得到与该语言数据匹配的文本数据。

本申请实施例提供的语音识别方法由计算机设备执行，该计算机设备为终端，该终端为手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端或者其他类型的终端，或者，该计算机设备为服务器。可选地，该服务器是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

或者，本申请实施例提供的语音识别方法由终端和服务器交互执行。图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如信息搜索、数据传输、语音识别等功能。可选地，目标应用为终端101操作***中的目标应用，或者为第三方提供的目标应用。例如，目标应用为语音识别应用，该语音识别应用具有语音识别功能，当然，该语音识别应用还能够具有其他功能，例如，点评功能、购物功能、导航功能、游戏功能等。

终端101基于用户标识登录目标应用，基于该目标应用获取语音数据，通过目标应用向服务器102发送该语音数据，服务器102接收终端101发送的语音数据，对该语音数据进行识别，得到文本数据，然后基于该文本数据，确定该文本数据是否符合语言逻辑，以确定是否能够将该文本数据作为与该语音数据匹配的文本数据。可选地，服务器102还能够将识别结果发送给终端101，服务器在确定该文本数据为语音数据匹配的文本数据的情况下，将文本数据发送给终端101。

图2是本申请实施例提供的一种语音识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图2，该方法包括以下步骤：

201、计算机设备对语音数据进行识别，得到目标文本数据。

本申请实施例中，语音数据是任一待识别的语音数据，通过对该语音数据进行识别，得到目标文本数据，该目标文本数据是直接对语音数据进行识别得到的，还不能够确定是否能够作为与该语音数据匹配的文本数据。其中，采用端到端语音识别***对语音数据进行识别，或者采用其他模型对语音数据进行识别。

202、将该目标文本数据中的每个字符和对目标文本数据进行划分得到的每个词语确定为该目标文本数据的第一元素。

其中，该目标文本数据包括多个字符。在识别得到目标文本数据之后，采用不同的划分方式对该目标文本数据进行划分，得到多个第一元素，该第一元素为字符或词语。其中，对目标文本数据划分得到的词语包括至少两个字符。

203、计算机设备获取每个第一元素的权重，该权重表示第一元素与该第一元素的前序元素之间的相关程度。

其中，第一元素的前序元素包含目标文本数据中位于第一元素之前且与该第一元素相邻的至少一个元素。第一元素的权重越大，即第一元素与该第一元素的前序元素之间的相关程度越大，则表示该第一元素与该第一元素的前序元素之间越符合语言逻辑；第一元素的权重越小，即第一元素与该第一元素的前序元素之间的相关程度越小，则表示该第一元素与该第一元素的前序元素之间越不符合语言逻辑。

204、计算机设备基于目标文本数据中的多个第一元素以及每个第一元素的权重，确定目标文本数据的置信度，该置信度表示目标文本数据为该语音数据匹配的目标文本数据的可信程度。

本申请实施例中，对于目标文本数据中的每个第一元素，由于该第一元素的权重，即可表示该第一元素与对应的前序元素之间是否符合语言逻辑，因此综合考虑多个第一元素的权重，即可确定该目标文本数据整体是否符合语言逻辑，从而确定该目标文本数据是否为语音数据匹配的目标文本数据。

205、计算机设备将目标文本数据和目标文本数据的置信度，确定为语音数据的识别结果。

本申请实施例提供的方法，在对语音数据进行识别得到文本数据之后，没有直接确定该文本数据是否为该语音数据匹配的文本数据，而是获取该文本数据中每个第一元素的权重，由于每个第一元素的权重能够表示该第一元素与该第一元素的前序元素之间的关联程度，即表示该文本数据中该第一元素与该第一元素的前序元素之间是否符合语言逻辑，因此，在确定该文本数据是否能够作为该语音数据匹配的文本数据时，考虑第一元素与该第一元素的前序元素之间是否符合语言逻辑，考虑了更多的信息，提高了语音识别的准确率。

上述图2所示的实施例中，简单介绍了在确定目标文本数据是否为语音数据匹配的目标文本数据时，考虑该目标文本数据是否符合语言逻辑，在一种可能实现方式中，能够通过构建目标文本数据对应的目标架构图，基于该目标架构图确定该目标文本数据是否为语音数据匹配的目标文本数据。

图3是本申请实施例提供的一种语音识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图3，该方法包括以下步骤：

301、计算机设备对语音数据进行识别，得到目标文本数据和该目标文本数据的识别置信度。

其中，语音数据为任一语音数据，本申请实施例对语音数据的时长、内容不做限制。该识别置信度表示该目标文本数据与该语音数据的匹配程度，可选地，该识别置信度采用概率表示或者采用分数表示，或者采用其他方式表示，本申请实施例对识别置信度的表示方式不做限制。

在一种可能实现方式中，计算机设备调用语音识别***，对语音数据进行识别，得到该目标文本数据和该识别置信度。例如，该语音识别***为端到端***或其他能够进行语音数据识别的***，本申请实施例对语音识别***的结构不做限制。当然，计算机设备还能够采用其他方式识别语音数据，本申请实施例对语音数据的识别方式不做限制。

302、计算机设备将目标文本数据中的每个字符和对目标文本数据进行词语划分得到的每个词语确定为目标文本数据的第一元素。

对于该目标文本数据来说，采用不同的划分方式，能够对该目标文本数据划分得到不同的第一元素。在一种可能实现方式中，按照字符对目标文本数据进行划分，得到该目标文本数据中的每个字符，然后将该每个字符均确定为目标文本数据的第一元素；按照词语对该目标文本数据进行划分，得到该目标文本数据中的每个词语，然后将得到的每个词语均确定为目标文本数据的第一元素。

可选地，计算机设备存储有词语语料库，该词语语料库中包括多个词语，计算机设备基于该词语语料库，对该目标文本数据进行划分，从该目标文本数据中的词语位于该词语语料库中；或者，计算机设备对该目标文本数据进行语义识别，确定该目标文本数据的语义信息，然后基于该语义信息对该目标文本数据进行划分，得到该目标文本数据中的每个词语。或者，能够采用其他分词方式，本申请实施例对划分目标文本数据中的词语的方式不做限制。

303、计算机设备基于目标文本数据的多个第一元素，获取目标文本数据的第一架构图。

本申请实施例中，为了能够准确、简单地表示目标文本数据的划分方式以及该目标文本数据是否符合语言逻辑，采用架构图(lattice)的方式进行表示。例如，参见图4所示的架构图，该架构图中包括7个节点和8条连接线，其中，由两个圆构成的节点表示该架构图中的结束节点，连接线上第一个字符表示输入字符，第二个字符表示输出字符，第三个字符表示权重。以节点0和节点1之间的连接线为例，输入字符为d，输出字符为data，权重为1，其他节点之间的连接线上的表示与节点0和节点1之间的连接线上的表示类似。

对于本申请实施例中的第一架构图来说，该第一架构图包括多个节点和多条连接线，每个第一元素对应于一条连接线，每条连接线从一个起始节点指向一个终止节点。即该第一架构图中的连接线上具有输入字符，不包含输出字符和权重。

其中，对于任一字符来说，该字符对应的连接线从起始节点指向终止节点，对于任一词语来说，该词语对应的连接线从该词语的起始字符对应的连接线的起始节点指向该词语的终止字符对应的连接线的终止节点，指向任一节点的连接线对应的第一元素与以该节点为起始节点的连接线对应的第一元素相邻、且位于以该节点为起始节点的连接线对应的第一元素之前。

本申请实施例中，第一架构图的创建过程，参见图5所示的实施例，在此不再赘述。

304、计算机设备获取第二架构图。

其中，该第二架构图包括多个节点和多条连接线，每条连接线对应一个第二元素和该第二元素对应的权重，每条连接线从一个起始节点指向一个终止节点。

在一种可能实现方式中，该第二架构图为N-gram语言模型，在进行语音识别之前，计算机设备基于预设的多个第二元素以及包含该多个第二元素的语料数据，创建该N-gram语言模型。其中，预设的多个第二元素包括多个字符和多个词语。或者，N-gram语言模型是由其他计算机设备发送给该计算机设备的，本申请实施例对N-gram语言模型的构建方式不做限制。

在另一种可能实现方式中，计算机设备基于识别得到的目标文本数据，创建该目标文本数据对应的第二架构图，第二架构图的创建过程参见图8所示的实施例，在此不再赘述。

需要说明的是，本申请实施例仅是以先创建第一架构图，再获取第二架构图为例进行说明，在另一实施例中，计算机设备能够先执行步骤304，再执行步骤302-步骤303，或者同时执行步骤304和步骤302-步骤303。

305、计算机设备对第一架构图和第二架构图进行交集操作，得到目标架构图。

本申请实施例中，通过对第一架构图和第二架构图进行交集(intersection)操作，能够得到该目标架构图。

在一种可能实现方式中，按照该第一架构图，选取该第二架构图中，与该第一架构图中的每个第一元素相同的第二元素对应的连接线，以及该连接线所连接的节点；从选取的节点和连接线中，去除不属于该目标文本数据对应的任一路径的节点或连接线，得到该目标架构图，该目标架构图中从第一个节点开始的每一条路径均包括完整的目标文本数据，且该目标架构图包括多条路径，能够表示该目标文本数据的多种划分情况。

306、计算机设备基于目标架构图，获取目标文本数据的文本置信度。

计算机设备基于该目标架构图中指向目标节点的连接线对应的权重，以及该连接线连接的另一个节点的节点特征，确定该目标节点的节点特征，在该目标节点为该目标架构图中的最后一个节点的情况下，将该目标节点的节点特征包含的文本置信度，确定为该目标文本数据的文本置信度。其中，该目标节点为该目标架构图中除第一个节点之外的任一节点，该节点特征包含位于该目标节点之前的连接线上的第一元素构成的文本片段以及该文本片段对应的文本置信度；该文本置信度表示该目标文本数据符合语言逻辑的概率。

也即是，由于目标架构图中的连接线具有指向性，首先确定该目标架构图中没有任一连接线指向的节点，将该节点确定为第一个节点，从该第一个节点开始，确定该第一个节点与下一个节点之间的连接线对应的第一元素和权重，该下一个节点是指某个连接线以该第一个节点为起始节点指向的终止节点，将该第一元素和权重确定为该下一个节点的节点特征；然后再针对该下一个节点，确定该下一个节点的下一个节点的节点特征，直至确定到最后一个节点的节点特征。其中，第一元素的权重越大，表示该第一元素与该第一元素的前序元素之间越相关，即越符合语言逻辑；第一元素的权重越小，表示该第一元素与该第一元素的前序元素之间越不相关，即越不符合语言逻辑。

在一种可能实现方式中，在该目标架构图中有n条连接线指向该目标节点的情况下，对于该n条连接线中的每条连接线，基于该连接线对应的权重，以及该连接线连接的另一个节点的节点特征，得到该连接线对应的节点特征；基于该n条连接线对应的节点特征，确定该目标节点的节点特征。

可选地，采用semiring(半环)规则确定节点特征。将该n条连接线对应的节点特征中最大的文本置信度对应的节点特征，确定为该目标节点的节点特征；或者，将该n条连接线对应的节点特征的均值，确定为该目标节点的节点特征。其中，由于对于同一目标节点来说，该节点之前的多个路径对应的文本片段是相同的，因此n条连接线对应的节点特征的均值是指将该n个节点特征中的文本置信度求均值，得到平均置信度，将该平均置信度和任一路径对应的文本片段确定为该目标节点的节点特征。

例如，采用下述公式，确定文本置信度：

其中，P(W)表示目标文本数据的文本置信度，W表示目标文本数据，w_u表示目标文本数据中的第u个第一元素，

是w_u的前序元素，

表示在

的基础上，该

的下一个第一元素为w_u的概率，U表示目标文本数据中的第一元素的数量。

可选地，将

近似为

即：

其中，

根据C

和C

确定，其中C(W)表示W在语料数据中的数目，

表示第u个第一元素的一种前序元素，C

表示该第u个第一元素和该种前序元素组成的目标片段的数量，

表示第u个第一元素的另一种前序元素，C

表示该第u个第一元素和该另一种前序元素组成的目标片段的数量，

和

包含的第一元素的数量不同。其中，N-gram语言模型的阶数N取3、4或5中的任一数值。

在一种可能实现方式中，采用上述公式得到文本置信度P(W)之后，对该P(W)取对数，得到logP(W)，将该logP(W)作为目标文本数据的文本置信度。

本申请实施例中，由于端到端语音识别***的工作是分步的，每一步迭代，都基于已经得到的解码局部假设W_u-1＝[w₁,…,W_u-1]，最多产生一个新的字符w_u。例如，已经得到局部假设“今天”，在新的一步迭代中预测新的字符“我”。为了在新的一次迭代的末尾验证所提出的字符“我”是否正确，需要计算对数概率

即表示字符“我”正确的概率。

307、计算机设备对识别置信度和文本置信度进行加权处理，得到目标文本数据的置信度。

本申请实施例中，为了确定目标文本数据最终的置信度，综合考虑识别语音数据时的识别置信度和目标文本数据本身的文本置信度，来确定目标文本数据的置信度，即确定是否能够将该目标文本数据作为语音数据匹配的目标文本数据。

在一种可能实现方式中，根据识别置信度和文本置信度的重要程度，分别设置识别置信度对应的权重和文本置信度对应的权重。基于识别置信度对应的权重和文本置信度对应的权重，对该识别置信度和文本置信度进行加权求和，得到目标文本数据的置信度。

需要说明的是，上述实施例中是以获取第一架构图和第二架构图，对该第一架构图和第二架构图求交集操作，得到目标架构图为例进行说明。在另一实施例中，计算机设备得到第一架构图和第一元素的权重之后，在该第一架构图中添加每个第一元素的权重，获取该目标架构图，与上述实施方式得到的架构图相比，采用这种方式得到的目标架构图表示的目标文本数据的构成情况较少。

对于第一元素的权重，在一种可能实现方式中，对于每个第一元素，获取该第一元素在语料数据中的第一数量，获取第一目标片段在该语料数据中第二数量，该第一目标片段包含第一元素以及第一元素的前序元素；基于第二数量和第一数量之间的比值，确定第一元素的权重。其中，语料数据是预先设置的、包含多个文本数据，例如，该语料数据是从网络上下载的文章、语段等。其中，语料数据中包含的目标片段越多，表示在实际的语言使用中，这种多个第一元素的搭配使用越多，越符合语言逻辑。

在另一种可能实现方式中，计算机设备按照不同的字符数目对目标文本数据进行划分，得到多个元素集合，属于同一元素集合的第二元素构成目标文本数据，且属于同一元素集合的第二元素包含的字符数据相同，属于不同的元素集合的第二元素包含的字符数目不同；将与第一架构图中的每条连接线对应的第一元素相同的第二元素的权重，确定为第一元素的权重，每个第二元素的权重表示第二元素与第二元素的前序元素之间的相关程度，第二元素的前序元素包含与第二元素属于同一元素集合的、位于第二元素之前且与第二元素相邻的至少一个第二元素。

可选地，对于每个元素集合中的每个第二元素，获取该第二元素在语料数据中的第三数量，获取第二目标片段在该语料数据中第四数量，该目标片段包含第二元素以及第二元素的前序元素，基于第四数量和第三数量之间的比值，确定第二元素的权重。

需要说明的是，本申请实施例仅是以通过目标架构图获取目标文本数据的文本置信度为例进行说明，在另一实施例中，计算机设备能够基于目标文本数据的多个第一元素以及每个第一元素的权重，采用其他方式获取文本置信度，本申请实施例对此不做限制。

308、计算机设备将目标文本数据和目标文本数据的置信度，确定为语音数据的识别结果。

本申请实施例中，计算机设备得到目标文本数据的置信度之后，将识别得到的目标文本数据和该置信度作为语音数据的识别结果。

可选地，计算机设备能够存储该目标文本数据和置信度；或者，计算机设备能够将该目标文本数据和置信度与语音数据对应存储；或者，计算机设备还能够将目标文本数据和置信度发送给其他设备；或者，还能够对该识别结果执行其他操作，本申请实施例对此不做限制。

并且，通过确定该文本数据的目标架构图，该目标架构图中的每条连接线具有对应的第一元素和该第一元素的权重，因此该目标架构图能够反映该文本数据是否符合语言逻辑，从而基于该目标架构图，在确定该文本数据是否能够作为该语音数据匹配的文本数据时，考虑第一元素与该第一元素的前序元素之间是否符合语言逻辑，提高了语音识别的准确率。并且，该目标架构图能够直观、准确地表示该文本数据在语言逻辑方面的信息，在获取置信度时，能够基于该目标架构图中各个节点及连接线的连接顺序，依次确定该置信度，能够提高获取置信度的效率。

图5是本申请实施例提供的一种创建第一架构图的流程图。参见图5，该方法的执行主体为计算机设备，该方法包括：

501、计算机设备创建U+1个节点。

本申请实施例以目标文本数据中的字符的数量为U为例进行说明，计算机设备需要创建的节点比字符的数量多1个，即创建U+1个节点，其中第x个节点与该目标文本数据中的第x个字符对应，U为大于1的正整数，x为不大于U的任一正整数。例如，参见图6，对于目标文本数据“向人们展示”，创建6个节点。

502、计算机设备创建从每个第一元素中的起始字符对应的节点指向每个第一元素中的终止字符对应的节点的下一个节点的连接线，得到第一架构图。

在第一元素为目标文本数据中的字符的情况下，对于目标文本数据中的每个字符，创建从该字符对应的节点指向目标文本数据中该字符的下一个字符对应的节点，即该字符对应的节点为起始节点，该字符的下一个字符对应的节点为终止节点，从而创建每个字符对应的连接线。对于该字符来说，该字符中的起始字符和终止字符是一样的，都是该字符本身。在第一元素为目标文本数据中的词语的情况下，对于目标文本数据中的每个词语，创建从该词语中的第一个字符对应的节点指向该词语中的最后一个字符的下一个字符对应的节点，即第一个字符对应的节点为起始节点，该最后一个字符的下一个字符对应的节点为终止节点，从而创建每个词语对应的连接线。例如，参见图6，多个第一元素“向”、“人”、“们”、“展”、“示”、“人们”和“展示”均有对应的一条连接线。

在另一实施例中，参见图7，计算机设备创建U+2个节点，将最后一个节点作为结束节点，最后一个节点与其他节点的连接线不对应任一第一元素，且为了便于后续对该第一架构图和第二架构图求交集操作，在每条连接线上设置权重0，并在除结束节点之外的每个节点上设置一个自环，该自环不对应与任一第一元素。其中，ε不表示任一第一元素，也即是ε表示自环没有对应的第一元素。

需要说明的是，本申请实施例仅是以上述方式创建第一架构图为例进行说明，在另一实施例中，能够采用其他方式创建第一架构图，本申请实施例对第一架构图的创建方式不做限制。

本申请实施例提供的方法，能够考虑目标文本数据的实际可划分情况，创建第一架构图，便于后续基于该架构图确定目标文本数据的划分方式。

图8是本申请实施例提供的一种创建第二架构图的流程图。参见图8，该方法的执行主体为计算机设备，该方法包括：

801、计算机设备按照不同的字符数目对目标文本数据进行划分，得到多个元素集合。

其中，属于同一元素集合的第二元素构成该目标文本数据，且属于同一元素集合的第二元素包含的字符数目相同，属于不同的元素集合的第二元素包含的字符数目不同。其中，字符数目为1、2、3、4或其他数目。

可选地，该字符数据根据目标文本数据包含的字符数目确定，例如，目标文本数据包含的字符数据为10，则计算机设备能够分别按照1-9的字符数目，对该目标文本数据进行划分，得到9个元素集合。

例如，目标文本数据为“向人民展示”，在字符数目为1时，得到元素集合{向，人，们，展，示}，在字符数据为2时，得到元素集合{向人，人们，们展，展示}。

在一种可能实现方式中，计算机设备获取多个元素集合之后，获取每个第二元素的权重，或者在创建第二架构图的过程中，在创建每条连接线之前，获取该连接线对应的第二元素的权重，本申请实施例对获取每个第二元素的权重的时机不做限制。其中，获取第二元素的权重的方式与上述图3所示的实施例中获取第二元素的权重的方式同理，在此不再赘述。

802、计算机设备创建一个第一节点和M₁个第二节点。

M₁为多个第二元素中的第一目标元素的数目，该第一目标元素包含该目标文本数据中的第一个字符。例如，对于目标文本数据“向人们展示”，则第一目标元素为“向”、“向人”。

803、计算机设备基于M₁个该第一目标元素，分别创建从该第一节点指向M₁个该第二节点的连接线。

其中，M₁条连接线分别对应于一个第一目标元素以及该第一目标元素的权重，不同的连接线对应的第一目标元素不同。例如，有两个第一目标元素“向”和“向人”，则从第一节点以起始节点，以两个第二节点为终止节点，创建两条连接线，这两条连接线分别对应“向”和“向人”，且每条连接线上设置有对应的权重。

804、计算机设备对于每个该第二节点，创建M₂个第三节点，基于M₂个该第二目标元素，分别创建从该第二节点指向M₂个该第三节点的连接线，直至从该第一节点开始的每条路径对应的第二元素构成该目标文本数据，得到该目标文本数据的第二架构图。

其中，M₂为该多个第二元素中的第二目标元素的数目，该第二目标元素包含该第二节点对应的第一目标元素之后的第一个字符；M₂条连接线分别对应于一个第二目标元素以及该第二目标元素的权重，不同的连接线对应的第二目标元素不同。

在一种可能实现方式中，计算机设备创建一个第一节点和M₁个第二节点之后，还会创建一个第一空节点，建立从该第一节点指向该第一空节点的连接线；创建M₁个第四节点，基于M₁个该第一目标元素，分别创建从该第一空节点指向M₁个该第四节点的连接线，M₁条连接线分别对应于一个第一目标元素以及该第一目标元素的权重，不同的连接线对应的第一目标元素不同。

本申请实施例中，该目标架构图中的第一个节点是起始节点，不能够作为终止节点，该目标架构图中的最后一个节点是终止节点，不能够作为起始节点，该目标架构图中除第一个节点和最后一个节点之外的其他节点，既能够作为起始节点，也能够作为终止节点。

本申请实施例中，创建得到的该第二架构图中的每条路径对应的第二元素构成该目标文本数据，每个第二元素的权重表示该第二元素与该第二元素的前序元素之间的相关程度，该第二元素的前序元素包含与该第二元素属于同一元素集合的、位于该第二元素之前且与该第二元素相邻的至少一个第二元素。该第二架构图与第一架构图的主要区别在于，在创建过程中所依据的元素不同，以及第二架构图中的连接线具有对应的权重，而第一架构图中的连接线不具有对应的权重。

采用上述方式创建第二架构图之后，能够对第一架构图和第二架构图进行交际操作，得到目标架构图。例如，参见图9所示的目标架构图，该目标架构图中包括各个第一元素对应的至少一条连接线，还有不对应于任一第一元素的连接线。其中，ε不表示任一第一元素，也即是ε表示连接线没有对应的第一元素，且由于在计算置信度时，需要对计算得到的P(W)求对数，因此该目标架构图中是权重采用负数表示。

需要说明的是，本申请实施例中的任一架构图中的节点上标记的数字用于标识对应的节点，不表示节点的顺序。

需要说明的是，上述图3所示的实施例仅是以对语音数据进行识别得到目标文本数据，获取该目标文本数据的置信度为例进行说明，在另一实施例中，在语音数据的识别过程中，计算机设备依次识别得到多个字符，每识别得到一个字符，都会执行一次上述获取置信度的过程，具体实施方式参见下述图10。

图10是本申请实施例提供的一种语音识别方法的流程图。参见图10，该方法的执行主体为计算机设备，该方法包括：

1001、计算机设备对语音数据进行识别，得到第一个字符和第二个字符。

本申请实施例中，计算机设备基于端到端语音识别***，对语音数据进行识别，在识别过程中，该端到端语音识别***依次输出识别得到的第一个字符和第二个字符。

1002、计算机设备将第一个字符和第二个字符进行组合，得到第一文本数据。

也即是，计算机设备获取当前对语音数据识别得到的第一文本数据，之后继续对该语音数据进行识别还能够再得到第三个字符、第四个字符等字符。

1003、计算机设备将该第一文本数据中的每个字符和对第一文本数据进行词语划分得到的每个词语确定为该第一文本数据的第一元素。

1004、计算机设备基于该第一文本数据的多个第一元素，获取该第一文本数据对应的目标架构图。

1005、计算机设备基于该第一文本数据对应的目标架构图，确定该第一文本数据的置信度。

其中，该置信度表示该第一文本数据为语音数据中当前已识别的语音片段匹配的文本数据的可信程度。例如，对语音数据进行识别，依次得到第一个字符“向”和第二个字符“人”，则组合得到第一文本数据“向人”，针对该第一文本数据确定对应的置信度。

本申请实施例中，步骤1003-步骤1005的实施方式与上述步骤302-步骤307的实施方式同理，在此不再赘述。

需要说明的是，计算机设备识别得到第二个字符之后，继续对该语音数据进行识别，得到第三个字符，然后将第一文本数据和该第三个字符进行组合，得到第二文本数据，或者，将第一个字符、第二个字符和第三个字符进行组合，得到该第二文本数据，然后继续执行与上述步骤1003-步骤1005类似的操作，直至对语音数据进行识别，识别得到最后一个字符，将该最后一个字符与之前识别得到的字符进行组合，得到目标文本数据，针对该目标文本数据，执行上述图3所示的实施方式。

需要说明的是，本申请实施例中，计算机设备得到第一文本数据的多个第一元素之后，能够获取第一文本数据中的每个第一元素的权重，该权重表示该第一文本数据中的第一元素与该第一元素的前序元素之间的相关程度，该第一元素的前序元素包含该第一文本数据中位于该第一元素之前且与该第一元素相邻的至少一个元素，然后基于该第一文本数据中的多个第一元素以及每个第一元素的权重，确定该第一文本数据的置信度。上述实施例中仅是以基于第一文本数据对应的目标架构图，确定该第一文本数据的置信度为例进行说明，在另一实施例中，计算机设备还能够采用除第一文本数据的目标架构图之外的其他方式，确定第一文本数据的置信度。

本申请实施例提供的方法，在语音识别过程中，依次识别得到语音数据对应的每个字符，每识别得到一个字符，都会基于对应的目标架构图，获取当前已识别得到的文本数据的置信度，通过迭代预测文本数据中的每个字符，提高每个字符的识别准确性，从而提高对语音数据的识别准确性。

在一些实施例中，对于上述语音识别方式，使用中文语音识别数据集Aishell-1和Aishell-2进行测试。对于neural transducer(神经传感器)，采用neural transducer+mmitraining+ctc training+mmi decoding(一种语音识别框架)的框架；对于Hybrid CTC/Attention框架，采用对应的标准模型，其中，neural transducer+mmi training+ctctraining+mmi decoding表示为NT，Hybrid CTC/Attention表示为HCA。在下述表1中展示了上述两种框架采用本申请实施例提供的方法(在表中称为本方案)时的词错误率(CER)和不采用本申请实施例提供的方法时的词错误率。

表1

模型	使用本方案	dev(％)	test(％)	ios(％)	android(％)	mic(％)
							NT	否	4.2	4.5	5.4	6.6	6.5
NT	是	3.8	4.2	5.1	6.1	6.0
							HCA	否	4.6	5.0	5.9	7.0	6.8
HCA	是	4.2	4.6	5.3	6.2	6.0

上述表1中，dev、test表示在Aishell-1测试集上进行测试得到的的词错误率，ios、android、mic表示在Aishell-2测试集上进行测试得到的词错误率。从表1中可以看出，采用了本申请实施例提供的方法的语音识别***的词错误率低于不采用本申请实施例提供的方法的语音识别***的词错误率。

在另一实施例中，采用其他测试数据，对本申请实施例提供的方法的识别准确率进行测试，在下述表2中展示了对于NT，不采用本申请实施例提供的方法(在表中称为本方案)时的词错误率(CER)和采用本申请实施例提供的方法时的词错误率。

表2

上述表2中，re表示朗读测试集；tr表示民汉翻译测试集；gu表示车载导航测试集；tv表示电视点播数据集；mu表示音乐点播数据集；ed表示在线教育测试集；mean表示前述几种测试集或数据集的测试结果的均值。其中，“NT”对应的结果为在NT的基础上不使用本申请的方案时的测试得到的CER，“NT+本申请的方案”对应的结果为在NT的基础上使用本申请的方案时的CER。从表2中可以看出，采用了本申请实施例提供的方法的语音识别***的词错误率低于比采用本申请实施例提供的方法的语音识别***的词错误率。

图11是本申请实施例提供的一种语音识别装置的结构示意图。参见图11，该装置包括：

语音识别模块1101，用于对语音数据进行识别，得到目标文本数据；

元素获取模块1102，用于将该目标文本数据中的每个字符和对该目标文本数据进行词语划分得到的每个词语确定为该目标文本数据的第一元素，该词语包括至少两个字符；

权重获取模块1103，用于获取每个第一元素的权重，该权重表示该第一元素与该第一元素的前序元素之间的相关程度，该第一元素的前序元素包含该目标文本数据中位于该第一元素之前且与该第一元素相邻的至少一个元素；

置信度确定模块1104，用于基于该目标文本数据中的多个第一元素以及每个该第一元素的权重，确定该目标文本数据的置信度，该置信度表示该目标文本数据为该语音数据匹配的目标文本数据的可信程度；

识别结果确定模块1105，用于将该述目标文本数据和该目标文本数据的置信度，确定为该语音数据的识别结果。

本申请实施例提供的装置，在对语音数据进行识别得到文本数据之后，没有直接确定该文本数据是否为该语音数据匹配的文本数据，而是获取该文本数据中每个第一元素的权重，由于每个第一元素的权重能够表示该第一元素与该第一元素的前序元素之间的关联程度，即表示该文本数据中该第一元素与该第一元素的前序元素之间是否符合语言逻辑，因此，在确定该文本数据是否能够作为该语音数据匹配的文本数据时，考虑第一元素与该第一元素的前序元素之间是否符合语言逻辑，考虑了更多的信息，提高了语音识别的准确率。

可选地，参见图12，置信度确定模块1104，包括：

架构图获取单元1114，用于基于该目标文本数据中的多个第一元素以及每个该第一元素的权重，获取该目标文本数据的目标架构图，该目标架构图包括多个节点和多条连接线；

置信度确定单元1124，用于基于该目标架构图，确定该目标文本数据的置信度。

其中，每条连接线对应于一个第一元素和该第一元素的权重，每条连接线从一个起始节点指向一个终止节点，该词语对应的连接线从该词语的起始字符对应的连接线的起始节点指向该词语的终止字符对应的连接线的终止节点，指向任一节点的连接线对应的第一元素与以该节点为起始节点的连接线对应的第一元素相邻、且位于以该节点为起始节点的连接线对应的第一元素之前。

可选地，参见图12，该架构图获取单元1114，包括：

基于该目标文本数据的多个第一元素，获取该目标文本数据的第一架构图，该第一架构图包括多个节点和多条连接线，每个第一元素对应于一条连接线，每条连接线从一个起始节点指向一个终止节点，其中，该词语对应的连接线从该词语的起始字符对应的连接线的起始节点指向该词语的终止字符对应的连接线的终止节点，指向任一节点的连接线对应的第一元素与以该节点为起始节点的连接线对应的第一元素相邻、且位于以该节点为起始节点的连接线对应的第一元素之前；

获取第二架构图，该第二架构图包括多个节点和多条连接线，每条连接线对应一个第二元素和该第二元素对应的权重，每条连接线从一个起始节点指向一个终止节点；

按照该第一架构图，选取该第二架构图中，与该第一架构图中的每个第一元素相同的第二元素对应的连接线，以及该连接线所连接的节点；

从选取的节点和连接线中，去除不属于该目标文本数据对应的任一路径的节点或连接线，得到该目标架构图。

可选地，参见图12，该架构图获取单元1114，用于：

创建U+1个节点，U为该目标文本数据中的字符的数量，第x个节点与该目标文本数据中的第x个字符对应，U为大于1的正整数，x为不大于U的任一正整数；

创建从每个第一元素中的起始字符对应的节点指向每个第一元素中的终止字符对应的节点的下一个节点的连接线，得到该第一架构图。

可选地，参见图12，该架构图获取单元1114，用于：

按照不同的字符数目对该目标文本数据进行划分，得到多个元素集合，属于同一元素集合的第二元素构成该目标文本数据，且属于同一元素集合的第二元素包含的字符数据相同，属于不同的元素集合的第二元素包含的字符数目不同；

基于该目标文本数据的多个元素集合，获取该目标文本数据的第二架构图，该第二架构图中的每条路径对应的第二元素构成该目标文本数据，每个第二元素的权重表示该第二元素与该第二元素的前序元素之间的相关程度，该第二元素的前序元素包含与该第二元素属于同一元素集合的、位于该第二元素之前且与该第二元素相邻的至少一个第二元素。

可选地，参见图12，该架构图获取单元1114，用于：

创建一个第一节点和M₁个第二节点，M₁为多个第二元素中的第一目标元素的数目，该第一目标元素包含该目标文本数据中的第一个字符；基于M₁个该第一目标元素，分别创建从该第一节点指向M₁个该第二节点的连接线，M₁条连接线分别对应于一个第一目标元素以及该第一目标元素的权重，不同的连接线对应的第一目标元素不同；

对于每个该第二节点，创建M₂个第三节点，M₂为该多个第二元素中的第二目标元素的数目，该第二目标元素包含该第二节点对应的第一目标元素之后的第一个字符；基于M₂个该第二目标元素，分别创建从该第二节点指向M₂个该第三节点的连接线，M₂条连接线分别对应于一个第二目标元素以及该第二目标元素的权重，不同的连接线对应的第二目标元素不同，直至从该第一节点开始的每条路径对应的第二元素构成该目标文本数据，得到该目标文本数据的第二架构图。

可选地，参见图12，该架构图获取单元1114，用于：

创建一个第一空节点，建立从该第一节点指向该第一空节点的连接线；

创建M₁个第四节点，基于M₁个该第一目标元素，分别创建从该第一空节点指向M₁个该第四节点的连接线，M₁条连接线分别对应于一个第一目标元素以及该第一目标元素的权重，不同的连接线对应的第一目标元素不同。

可选地，参见图12，该架构图获取单元1114，用于：

在该第一架构图中添加每个第一元素的权重，获取该目标架构图。

可选地，参见图12，该置信度确定模块1104，包括：

节点特征获取单元1134，用于基于该目标架构图中指向目标节点的连接线对应的权重，以及该连接线连接的另一个节点的节点特征，确定该目标节点的节点特征，该目标节点为该目标架构图中除第一个节点之外的任一节点，该节点特征包含位于该目标节点之前的连接线上的第一元素构成的文本片段以及该文本片段对应的文本置信度；

文本置信度获取单元1144，用于在该目标节点为该目标架构图中的最后一个节点的情况下，将该目标节点的节点特征包含的文本置信度，确定为该目标文本数据的文本置信度，该文本置信度表示该目标文本数据符合语言逻辑的概率；

置信度获取单元1124，用于调整该文本置信度，得到该目标文本数据的置信度。

可选地，参见图12，该节点特征获取单元1134，用于：

在该目标架构图中有n条连接线指向该目标节点的情况下，对于该n条连接线中的每条连接线，基于该连接线对应的权重，以及该连接线连接的另一个节点的节点特征，得到该连接线对应的节点特征；

基于该n条连接线对应的节点特征，确定该目标节点的节点特征。

可选地，参见图12，该节点特征获取单元1134，用于：

将该n条连接线对应的节点特征中最大的文本置信度对应的节点特征，确定为该目标节点的节点特征；或者，

将该n条连接线对应的节点特征的均值，确定为该目标节点的节点特征。

可选地，该语音识别模块1101，用于：

对该语音数据进行识别，得到该目标文本数据和该目标文本数据的识别置信度，该识别置信度表示该目标文本数据与该语音数据的匹配程度；

该置信度获取单元1124，用于：

对该识别置信度和该文本置信度进行加权处理，得到该文本数据的置信度。

可选地，该权重获取模块1103，用于：

对于每个第一元素：

获取该第一元素在语料数据中的第一数量；

获取第一目标片段在该语料数据中第二数量，该第一目标片段包含该第一元素以及该第一元素的前序元素；

基于该第二数量和该第一数量之间的比值，确定该第一元素的权重。

可选地，该权重获取模块1103，用于：

将与该第一架构图中的每条连接线对应的第一元素相同的第二元素的权重，确定为该第一元素的权重，每个第二元素的权重表示该第二元素与该第二元素的前序元素之间的相关程度，该第二元素的前序元素包含与该第二元素属于同一元素集合的、位于该第二元素之前且与该第二元素相邻的至少一个第二元素。

可选地，该权重获取模块1103，还用于：

对于每个元素集合中的每个第二元素：

获取该第二元素在语料数据中的第三数量；

获取第二目标片段在该语料数据中第四数量，该第二目标片段包含该第二元素以及该第二元素的前序元素；

基于该第三数量和该第三数量之间的比值，确定该第二元素的权重。

可选地，该语音识别模块1101，用于：

对该语音数据进行识别，得到第一个字符和第二个字符之后，对该第一个字符和该第二个字符进行组合，得到第一文本数据，并获取该第一文本数据的置信度，直至对该语音数据进行识别，得到最后一个字符，将该最后一个字符与之前识别得到的字符进行组合，得到该目标文本数据。

可选地，该元素获取模块1102，还用于将该第一文本数据中的每个字符和对该第一文本数据进行词语划分得到的每个词语确定为该第一文本数据的第一元素，该词语包括至少两个字符；

该权重获取模块1103，还用于获取该第一文本数据中的每个第一元素的权重，该权重表示该第一元素与该第一元素的前序元素之间的相关程度，该第一元素的前序元素包含该第一文本数据中位于该第一元素之前且与该第一元素相邻的至少一个元素；

该置信度确定模块1104，还用于基于该第一文本数据中的多个第一元素以及每个第一元素的权重，确定该第一文本数据的置信度。

可选地，该置信度确定模块1104，还用于：

基于该第一文本数据的多个第一元素以及每个第一元素的权重，获取该第一文本数据的目标架构图；

基于该第一文本数据的目标架构图，确定该第一文本数据的置信度。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的语音识别装置在识别语音时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音识别方法所执行的操作。

可选地，该计算机设备提供为终端。图13是本申请实施例提供的一种终端1300的结构示意图。终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的语音识别方法。

在一些实施例中，终端1300还可选包括有：***设备接口1303和至少一个***设备。处理器1301、存储器1302和***设备接口1303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1303相连。具体地，***设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307和电源1308中的至少一种。

***设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和***设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和***设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置在终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

电源1308用于为终端1300中的各个组件进行供电。电源1308可以是交流电、直流电、一次性电池或可充电电池。当电源1308包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图14是本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1401和一个或一个以上的存储器1402，其中，存储器1402中存储有至少一条计算机程序，该至少一条计算机程序由处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音识别方法所执行的操作。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述实施例的语音识别方法所执行的操作。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

可以理解的是，在本申请的具体实施方式中，涉及到语音数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

对语音数据进行识别，得到目标文本数据；

将所述目标文本数据中的每个字符和对所述目标文本数据进行词语划分得到的每个词语确定为所述目标文本数据的第一元素，所述词语包括至少两个字符；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本数据中的多个第一元素以及每个所述第一元素的权重，确定所述目标文本数据的置信度，包括：

基于所述目标文本数据中的多个第一元素以及每个所述第一元素的权重，获取所述目标文本数据的目标架构图，所述目标架构图包括多个节点和多条连接线；

基于所述目标架构图，确定所述目标文本数据的置信度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标文本数据的多个第一元素以及每个所述第一元素的权重，获取所述目标文本数据的目标架构图，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标文本数据的多个第一元素，获取所述目标文本数据的第一架构图，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述基于所述目标架构图，确定所述目标文本数据的置信度，包括：

基于所述目标架构图中指向目标节点的连接线对应的权重，以及所述连接线连接的另一个节点的节点特征，确定所述目标节点的节点特征，所述目标节点为所述目标架构图中除第一个节点之外的任一节点，所述节点特征包含位于所述目标节点之前的连接线上的第一元素构成的文本片段以及所述文本片段对应的文本置信度；

在所述目标节点为所述目标架构图中的最后一个节点的情况下，将所述目标节点的节点特征包含的文本置信度，确定为所述目标文本数据的文本置信度，所述文本置信度表示所述目标文本数据符合语言逻辑的概率；

调整所述文本置信度，得到所述目标文本数据的置信度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标架构图中指向目标节点的连接线对应的权重，以及所述连接线连接的另一个节点的节点特征，确定所述目标节点的节点特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述n条连接线对应的节点特征，确定所述目标节点的节点特征，包括：

8.根据权利要求5所述的方法，其特征在于，所述对语音数据进行识别，得到目标文本数据，包括：

所述调整所述文本置信度，得到所述目标文本数据的置信度，包括：

9.根据权利要求1所述的方法，其特征在于，所述获取每个第一元素的权重，包括：

对于每个第一元素：

获取所述第一元素在语料数据中的第一数量；

10.根据权利要求1-5任一项所述的方法，其特征在于，所述对语音数据进行识别，得到目标文本数据，包括：

对所述语音数据进行识别，得到第一个字符和第二个字符之后，对所述第一个字符和所述第二个字符进行组合，得到第一文本数据，并获取所述第一文本数据的置信度，直至对所述语音数据进行识别，得到最后一个字符，将所述最后一个字符与之前识别得到的字符进行组合，得到所述目标文本数据。

11.根据权利要求10所述的方法，其特征在于，所述获取所述第一文本数据的置信度，包括：

将所述第一文本数据中的每个字符和对所述第一文本数据进行词语划分得到的每个词语确定为所述第一文本数据的第一元素，所述词语包括至少两个字符；

获取所述第一文本数据中的每个第一元素的权重，所述权重表示所述第一元素与所述第一元素的前序元素之间的相关程度，所述第一元素的前序元素包含所述第一文本数据中位于所述第一元素之前且与所述第一元素相邻的至少一个元素；

基于所述第一文本数据中的多个第一元素以及每个第一元素的权重，确定所述第一文本数据的置信度。

12.一种语音识别装置，其特征在于，所述装置包括：

语音识别模块，用于对语音数据进行识别，得到文本数据；

元素获取模块，用于将所述文本数据中的每个字符和对所述文本数据进行词语划分得到的每个词语确定为所述文本数据的第一元素，所述词语包括至少两个字符；

置信度确定模块，用于基于所述目标文本数据中的多个第一元素以及每个所述第一元素的权重，确定所述文本数据的置信度，所述置信度表示所述文本数据为所述语音数据匹配的文本数据的可信程度；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至11任一权利要求所述的语音识别方法所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至11任一权利要求所述的语音识别方法所执行的操作。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任一权利要求所述的语音识别方法所执行的操作。