CN112836522A

CN112836522A - 语音识别结果的确定方法及装置、存储介质及电子装置

Info

Publication number: CN112836522A
Application number: CN202110129021.3A
Authority: CN
Inventors: 张卓博; 苏腾荣; 赵培; 孙雨新
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-25
Anticipated expiration: 2041-01-29
Also published as: CN112836522B

Abstract

本发明提供了一种语音识别结果的确定方法及装置、存储介质及电子装置，其中，上述语音识别结果的确定方法包括：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

Description

语音识别结果的确定方法及装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别结果的确定方法及装置、存储介质及电子装置。

背景技术

在人机语音交互中，用户通过语音下达指令，设备通过理解用户的语义完成相应的指令，并对用户做出语音交互应答。这其中就包括，语音转成文本的过程，以及文本的解析和文本语义的理解。在理解用户的意图，下达相应的指令完成相应动作中，需要每个过程都准确才可以完成交互。单从语音转文本的过程看，经常会出现文本被翻译成近音词的情况。这就导致后面的流程都会出现问题，严重影响用户的体验。现有技术为了解决文本中出现近音词的情况，一种方法是利用预设模板匹配矫正，利用情景推断用户的意图规则进行矫正等，把文本中可疑的词进行矫正，从而理解文本的意图，进而执行相应动作。另一种方法是通过传统的机器学习方式。但是两种上述方法都存在需要人员参与，且工作复杂，语音识别误差较大，效率低下的问题。

针对相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音识别结果的确定方法及装置、存储介质及电子装置，以解决相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题。

根据本发明的一个实施例，提供了一种语音识别结果的确定方法，包括：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

可选的，将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，包括：获取所述编码解码模型中保存的所述时序关系；根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

可选的，根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息，包括：通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作，得到编码结果，其中，所述编码解码模型包括：所述多个长短期记忆网络，且所述多个长短期记忆网络模型保存有所述时序关系；通过束搜索的方式对所述编码结果进行解码操作，得到所述第二文本信息。

可选的，通过束搜索的方式对所述编码结果进行解码操作，得到第二文本，包括：通过束搜索的方式对所述编码结果进行解码操作，得到多个解码结果；通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。

可选的，将所述第一文本信息转换为第一音素串信息，包括：获取所述第一文本信息；通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。

可选的，确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，包括：将所述第一文本信息划分为字或词语连接的第三文本信息，以及将所述第二文本信息划分为字或者词连接的第四文本信息；通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分，得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。

根据本发明的又一个实施例，提供了一种编码解码模型的训练方法，包括：获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。

可选的，通过所述多个音素串信息和所述多个音素串信息对应的文本信息对所述编码解码模型进行训练之前，所述方法还包括：将所述不同领域的音频数据中的每一个音频数据均增加开头标志和结尾标志；使用目标标识替代不同领域的音频数据中的目标词语，其中，所述目标词语的使用频率低于预设阈值。

根据本发明的又一个实施例，还提供了一种语音识别结果的确定装置，包括：转换模块，用于将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；输入模块，用于将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；确定模块，用于所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

可选的，所述输入模块还用于获取所述编码解码模型中保存的所述时序关系；根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

根据本发明的又一个实施例，还提供了一种编码解码模型的训练装置，包括：获取模块，用于获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；训练模块，用于通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行以上任一项中所述的方法。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行以上任一项中所述的方法。

通过本发明，将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。也就是说，将目标设备接收到的语音指令转换为第一文本信息，并获取所述第一文本信息对应的第一音素串信息，将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。采用上述技术方案，解决了相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题，从而实现提高设备识别用户语音指令的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种语音识别结果的确定方法的智能设备的硬件结构框图；

图2是根据本发明实施例的一种语音识别结果的确定方法的流程示意图；

图3是根据本发明实施例的一种编码解码模型的训练方法的流程示意图；

图4是根据本发明实施例的一种语音识别结果的确定方法的流程示意图；

图5是根据本发明实施例的一种语音识别结果的确定装置的结构框图；

图6是根据本发明实施例的一种编码解码模型的训练装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在智能设备，或者类似的运算装置中执行。以运行在智能设备上为例，图1是本发明实施例的一种语音识别结果的确定方法的智能设备的硬件结构框图。如图1所示，智能设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Microprocessor Unit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD))和用于存储数据的存储器104，在一个示例性实施例中，上述智能设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述智能设备的结构造成限定。例如，智能设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音识别结果的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至智能设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括智能设备的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音识别结果的确定方法，应用于上述智能设备，图2是根据本发明实施例的一种语音识别结果的确定方法的流程示意图，该流程包括如下步骤：

步骤S202：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；

步骤S204：将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；

步骤S206：确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

在步骤S204中，将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，包括：获取所述编码解码模型中保存的所述时序关系；根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

需要说明的是，所述时序关系可以是字与字或者字与词的逻辑关系，也可以是，词与字或者词与词的逻辑关系，其中，所述逻辑关系是一个字或者词后面接各种字或者词语的概率大小。所述时序关系可以用来判断一个字或者词语后面接什么字或者词语的可能性是最大的。比如检测到一个“今”字，今字后面跟哪个字或者词语的概率最大，就可以确定今字后面跟的字或者词语；又比如检测到一个“今天”的词语，今天后面跟哪个字或者词语的概率最大，就可以确定今天后面跟的字或者词语。所述编码解码模型中保存的所述时序关系，所述编码解码模型就可以根据所述时序关系对输入的所述第一音素串信息进行推理，进而得到推理的结果，其中，上述得到推理的结果就是第二文本信息。也就是说，第二文本信息是第一文本信息的一种逻辑推理结果。

在一个可选实施例中，根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息，包括：通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作，得到编码结果，其中，所述编码解码模型包括：所述多个长短期记忆网络，且所述多个长短期记忆网络模型保存有所述时序关系；通过束搜索的方式对所述编码结果进行解码操作，得到所述第二文本信息。

需要说明的是，所述编码解码模型中保存的所述时序关系，具体来说，是保存在所述编码解码模型内部的所述多个长短期记忆网络之中。多个长短期记忆网络保存有所有字与字或者字与词的逻辑关系，词与字或者词与词的逻辑关系，所述编码解码模型就可以通过上述逻辑关系对第一文本信息进行推理，进而得到第二文本信息。上述推理过程可以看做是多次对第一文本信息进行映射的过程。通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作，得到编码结果，实际上就是对多个长短期记忆网络模型对第一文本信息的一种映射，最终得到一个矩阵的编码结果，其中，上述得打的矩阵包括对第一文本信息进行推理得到的所有推理结果。

在得到编码结果之后，通过束搜索的方式对所述编码结果进行解码操作，得到所述第二文本信息。束搜索的方式实际上是对上述推理结果的可能性的加权计算，本发明通过多次束搜索的方式最终得到上述推理结果中可能性最大的推理结果作为所述第二文本信息。每一次束搜索会得到五个可能性最大的推理结果，前一次束搜索是后一次束搜索的输入，通过多次束搜索，最终得到可能性最大的推理结果作为第二文本信息。需要说明的是，除去最后一次束搜索，之前的每一次束搜索得到的推理结果是第一文本信息中部分的推理结果。举例说明：对第一文本信息中的第一个词进行推断，第一个词是“今天”，对“今天”进行第一次束搜索，得到“今天天气”等五个可能性最大的推理结果，对“今天天气”进行第二次束搜索，得到“今天天气怎么样”等五个可能性最大的推理结果，判断搜索完毕，那么根据可能性的加权计算，输出可能性最大的推理结果“今天天气怎么样”。通过上述技术手段，最终编码解码模型输出的是最大可能的推理，最后和第一文本比较，就可以解决相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题，从而实现提高设备识别用户语音指令的准确率。

在一个可选实施例中，通过束搜索的方式对所述编码结果进行解码操作，得到第二文本，包括：通过束搜索的方式对所述编码结果进行解码操作，得到多个解码结果；通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。

需要说明的是，所述编码解码模型通过上述逻辑关系对第一文本信息进行推理，进而得到第二文本信息，并不仅是对第一文本信息进行推理，最终输出可能性最大的推理结果，而是第一文本信息会作用与对第一文本信息推理的过程中。本发明通过束搜索的方式对所述编码结果进行解码操作，得到多个解码结果，本发明又通过基于向量点积的注意力机制实现了第一文本信息作用与对第一文本信息推理的过程中，引导推理的进行。基于向量点积的注意力机制是一种神经网络，基于向量点积的注意力机制会在对第一文本信息进行推理的过程中，携带上一次对第一文本信息进行推理得到的结果，可以避免信息丢失，基于向量点积的注意力机制还会在对第一文本信息进行推理的过程中输入关于第一文本信息的相关信息，进而引导推理不会偏离第一文本信息。上述相关信息可以用于对推理结果的选择，也可以说，基于向量点积的注意力机制最终可以从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。

需要说明的是，现有技术在解决语音指令识别出现近音词的问题，一种方法是通过预设模板，正则表达式等规则矫正语音转录的文本，由于这些方法需要针对问题本身进行有针对性的去解决，这种方式很难泛化，并且随着规则的增多，可能会出现冲突，并且由于规则太多，管理和迭代都会出现问题。另一种是基于贝叶斯体系的机器学习方式做相应的矫正，例如n-gram；或者非参数机器学习，如：语音矩阵距离等机器学习方式，但是这些传统的机器学习方式存在一定的缺陷，比如：基于贝叶斯体系的n-gram语言模型方式，有语料必须独立同分布的假设，这就对模型的精度上限做了限制，因为大部分语料都是有序列关系的，同时n的假设需要人来界定，并且不可太大，太大会严重影响效率。非参数机器学习方式要人为确定“距离”的概念，即：如果定义读音是相似还是非相似，所以在泛化上要非常依赖设计者对语言学的理解。所以本发明针对这些问题，采用了深度学习的方式，根据语料自动学习文本和音素的映射关系以及词之间上下文关系，摆脱了人为干预的音素，更可以潜在学习用户的用语习惯，通过这种方式来矫正近音词，表述性更强。可见通过本发明就可以很好解决上述现有技术出现的问题。

在步骤S202中，将所述第一文本信息转换为第一音素串信息，包括：获取所述第一文本信息；通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。

需要说明的是，本发明将将待识别的语音指令转换为第一文本信息，需要将第一文本信息转换为第一音素串信息，在将第一文本信息转换为第一音素串信息的情况下，将第一音素串信息输入所述编码解码模型，所述编码解码模型输出第二文本信息，其中，本发明通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。在得到第二文本信息的情况下，分别计算第一文本信息与第二文本信息的置信度，将置信度高的文本信息解析得到语音识别结果。

在步骤S206中，确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，包括：将所述第一文本信息划分为字或词语连接的第三文本信息，以及将所述第二文本信息划分为字或者词连接的第四文本信息；通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分，得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。

需要说明的是，在获取到第一文本信息与第二文本信息的情况下，分别计算所述第一文本信息的第一置信度和所述第二文本信息的第二置信度：本发明将所述第一文本信息划分为多个字或词语连接的第三文本信息，以及将所述第二文本信息划分为多个字或者词连接的第四文本信息，最后通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分，其中，打分的结果就是第一置信度和第二置信度。

根据本发明的又一个实施例，提供了一种编码解码模型的训练方法，应用于上述智能设备，图3是根据本发明实施例的一种编码解码模型的训练方法的流程示意图，该流程包括如下步骤：

步骤S302：获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；

步骤S304：通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。

通过本发明，获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。也就是说，获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息，通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系。采用上述技术方案，解决了相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题，从而实现提高设备识别用户语音指令的准确率。

需要说明的是，获取不同领域的音频数据的多个音素串信息和所述多个音素串信息对应的文本信息，其中，不同领域的音频数据的多个音素串信息实际上包括：生活领域的音频数据的多个音素串信息，以及设备领域的音频数据的多个音素串信息。生活领域的音频数据的多个音素串信息是关于生活中常用语句的音频数据的多个音素串信息，比如本发明使用了新闻联播音频数据的多个音素串信息作为生活领域的音频数据的多个音素串信息。比如常见的生活中常用语句可以是“今天天气怎么样”等语句。设备领域的音频数据的多个音素串信息是关于设备信息、设备指令、以及和设备相关知识的音频数据的多个音素串信息。比如设备领域的音频数据，对于空调可以是“调节室内温度”的音频数据。通过所述多个音素串信息和所述多个音素串信息对应的文本信息对所述编码解码模型进行训练，就可以使得所述编码解码模型获取到所述时序关系。

在一个可选实施例中，通过所述多个音素串信息和所述多个音素串信息对应的文本信息对所述编码解码模型进行训练之前，所述方法还包括：将所述不同领域的音频数据中的每一个音频数据均增加开头标志和结尾标志；使用目标标识替代不同领域的音频数据中的目标词语，其中，所述目标词语的使用频率低于预设阈值。

需要说明的是，通过所述多个音素串信息和所述多个音素串信息对应的文本信息对所述编码解码模型进行训练之前，还需要对所述多个音素串信息进行数据处理。为了避免在对所述编码解码模型进行训练时，多个音素串信息想回干扰，本发明对每一个音频数据均增加开头标志和结尾标志。本发明还需要将使用频率低于预设阈值的词语替换为目标标识，后续可以根据相应的指令将目标标识替换为使用频率低于预设阈值的词语真正代表的词语。上述操作，可以纠正设备采集的音频信息出错的问题(设备检测到使用频率低于预设阈值的词语，很大可能是采集错误)，也可以方便设备响应采集到的语音音频(设备对使用频率低于预设阈值的词语的解析有困难)。

为了更好的理解上述技术方案，使用以下可选流程图用于解释说明语音识别的整个流程。

图4是根据本发明实施例的一种语音识别结果的确定方法的流程是以图，如图4所示：

S402：设备获取语音指令；

S404：设备通过ASR技术将语音指令转换为第一文本信息；

S406：设备通过NLP技术将第一文本信息转换为音素信息；

S408：设备将上述音素信息输入编码解码模型，获得第二文本信息；

S410：设备选择置信度高的文本进行推断，得到用户意图；

S412：设备根据用户意图，响应语音指令，完成相应动作。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种语音识别结果的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种语音识别结果的确定装置的结构框图；如图5所示，包括：

转换模块50，用于将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；

输入模块52，用于将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；

确定模块54，用于所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

可选的，输入模块52还用于获取所述编码解码模型中保存的所述时序关系；根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

可选的，输入模块52还用于通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作，得到编码结果，其中，所述编码解码模型包括：所述多个长短期记忆网络，且所述多个长短期记忆网络模型保存有所述时序关系；通过束搜索的方式对所述编码结果进行解码操作，得到所述第二文本信息。

可选的，输入模块52还用于通过束搜索的方式对所述编码结果进行解码操作，得到多个解码结果；通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。

可选的，输入模块52还用于获取所述第一文本信息；通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。

可选的，确定模块54还用于将所述第一文本信息划分为字或词语连接的第三文本信息，以及将所述第二文本信息划分为字或者词连接的第四文本信息；通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分，得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。

获取模块60，用于获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；

训练模块62，用于通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。

可选的，获取模块60还用于将所述不同领域的音频数据中的每一个音频数据均增加开头标志和结尾标志；使用目标标识替代不同领域的音频数据中的目标词语，其中，所述目标词语的使用频率低于预设阈值。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；

S2，将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；

S3，确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别结果的确定方法，其特征在于，包括：

将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；

将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；

确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，包括：

获取所述编码解码模型中保存的所述时序关系；

根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

3.根据权利要求2所述的方法，其特征在于，根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息，包括：

通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作，得到编码结果，其中，所述编码解码模型包括：所述多个长短期记忆网络，且所述多个长短期记忆网络模型保存有所述时序关系；

通过束搜索的方式对所述编码结果进行解码操作，得到所述第二文本信息。

4.根据权利要求3所述的方法，其特征在于，通过束搜索的方式对所述编码结果进行解码操作，得到第二文本，包括：

通过束搜索的方式对所述编码结果进行解码操作，得到多个解码结果；

通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。

5.根据权利要求1所述的方法，其特征在于，将所述第一文本信息转换为第一音素串信息，包括：

获取所述第一文本信息；

通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。

6.根据权利要求1所述的方法，其特征在于，确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，包括：

将所述第一文本信息划分为字或词语连接的第三文本信息，以及将所述第二文本信息划分为字或者词连接的第四文本信息；

通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分，得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。

7.一种编码解码模型的训练方法，其特征在于，包括：

获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；

通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。

8.根据权利要求7所述的方法，其特征在于，通过所述多个音素串信息和所述多个音素串信息对应的文本信息对所述编码解码模型进行训练之前，所述方法还包括：

将所述不同领域的音频数据中的每一个音频数据均增加开头标志和结尾标志；

使用目标标识替代不同领域的音频数据中的目标词语，其中，所述目标词语的使用频率低于预设阈值。

9.一种语音识别结果的确定装置，其特征在于，包括：

转换模块，用于将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；

输入模块，用于将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；

确定模块，用于所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

10.根据权利要求9所述的方法，其特征在于，所述输入模块还用于获取所述编码解码模型中保存的所述时序关系；根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

11.一种编码解码模型的训练装置，其特征在于，包括：

获取模块，用于获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；

训练模块，用于通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序关系，其中，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语，所述编码解码模型用于输出第一音素串信息对应的第二文本信息，所述第一音素串信息通过以下方式得到：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息。

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法，或权利要求7至8任一项所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法，或权利要求7至8任一项所述的方法。