CN110544470B

CN110544470B - 语音识别方法、装置、可读存储介质和电子设备

Info

Publication number: CN110544470B
Application number: CN201910860793.7A
Authority: CN
Inventors: 叶俊杰; 王乾; 赵扬
Original assignee: Lazas Network Technology Shanghai Co Ltd
Current assignee: Lazas Network Technology Shanghai Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2022-03-29
Anticipated expiration: 2039-09-11
Also published as: CN110544470A

Abstract

本发明实施例公开了一种语音识别方法、装置、可读存储介质和电子设备，所述方法根据用户输入语音信息获取文本序列和特征因子集合，所述特征因子集合中至少包括词向量序列和语音序列集合，并通过将所述文本序列和所述特征因子集合中的至少一个特征因子输入预先训练好的模型中以确定用户意图。所述方法通过增加语音识别模型的输入因子提高所述语音识别过程的准确率。

Description

语音识别方法、装置、可读存储介质和电子设备

技术领域

本发明涉及语音识别领域，尤其涉及一种语音识别方法、装置、可读存储介质和电子设备。

背景技术

随着科技的发展，人在与终端之间的沟通可以不通过输入文字，仅仅通过语音的方法进行，在所述沟通过程中，终端需要对用户说的话进行解析和识别，以确定用户的意图。目前在进行语音识别的过程中，往往会因为输入的语音不清楚或内容较为复杂使语音识别的准确率不高，导致终端根据输入的语音信息误判用户的意图。

发明内容

有鉴于此,本发明实施例提供一种语音识别方法、装置、可读存储介质和电子设备，旨在提高语音识别过程中的准确度，避免对用户意图的误判。

第一方面，本发明实施例提供一种语音识别方法，所述方法包括：

获取目标语音信息；

根据所述目标语音信息确定对应的文本序列；

根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列和拼音序列集合，所述拼音序列集合包括至少一个拼音序列；根据所述目标语音信息

将所述特征因子集合中的至少一个元素和所述文本序列输入预测模型中以确定目标语音信息表征的意图信息，所述预测模型根据预先标注的语音库预先训练得到。

进一步地，所述根据所述目标语音信息确定特征因子集合包括；

根据所述文本序列确定词向量序列；

根据所述文本序列确定拼音序列；

根据所述词向量序列和拼音序列集合确定特征因子集合。

进一步地，所述根据所述文本序列确定拼音序列具体为：

根据所述文本序列确定包括音调的第一拼音序列和/或不包括音调的第二拼音序列。

进一步地，所述特征因子集合还包括语音片段集合；

所述根据所述目标语音信息确定特征因子集合还包括：

根据所述目标语音信息确定语音片段集合，所述语音片段集合中包括至少一个语音片段；

根据所述语音片段集合、词向量序列和拼音序列集合确定特征因子集合。

进一步地，所述特征因子集合还包括语音向量；

所述根据所述目标语音信息确定特征因子集合还包括：

根据所述目标语音信息确定语音向量，所述语音向量用于表征语音文件中的停顿状态；

根据所述语音片段集合、语音向量、词向量序列和拼音序列集合确定特征因子集合。

第二方面，本发明实施例提供了一种语音识别装置，所述装置包括：

语音获取模块，用于获取目标语音信息。

文本确定模块，用于根据所述目标语音信息确定对应的文本序列。

特征提取模块，用于根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列和拼音序列集合，所述拼音序列集合包括至少一个拼音序列。根据所述目标语音信息

意图预测模块，用于将所述特征因子集合中的至少一个元素和所述文本序列输入预测模型中以确定目标语音信息表征的意图信息，所述预测模型根据预先标注的语音库预先训练得到。

第三方面，本发明实施例提供了一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如下所述步骤：

获取目标语音信息；

根据所述目标语音信息确定对应的文本序列；

根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列和拼音序列集合，所述拼音序列集合包括至少一个拼音序列；

根据所述文本序列确定词向量序列；

根据所述文本序列确定拼音序列；

根据所述词向量序列和拼音序列集合确定特征因子集合。

进一步地，所述根据所述文本序列确定拼音序列具体为：

进一步地，所述特征因子集合还包括语音片段集合；

所述根据所述目标语音信息确定特征因子集合还包括：

进一步地，所述特征因子集合还包括语音向量；

所述根据所述目标语音信息确定特征因子集合还包括：

所述方法根据用户输入语音信息获取文本序列和特征因子集合，所述特征因子集合中至少包括词向量序列和语音序列集合，并通过将所述文本序列和所述特征因子集合中的至少一个特征因子输入预先训练好的模型中以确定用户意图，起到通过增加语音识别模型的输入因子提高所述语音识别过程的准确率的效果。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明实施例的语音识别方法的流程图；

图2为本发明实施例的向预测模型输入文本序列和词向量序列的语音识别方法的示意图；

图3为本发明实施例的向预测模型输入文本序列和拼音序列集合的语音识别方法的示意图；

图4为本发明实施例的向预测模型输入文本序列、拼音序列集合和词向量序列的语音识别方法的示意图；

图5为本发明实施例的向预测模型输入文本序列、拼音序列集合、词向量序列和语音片段集合的语音识别方法的示意图；

图6为本发明实施例的向预测模型输入文本序列、拼音序列集合、词向量序列、语音片段集合和语音向量的语音识别方法的示意图；

图7为本发明实施例的语音识别装置的示意图；

图8为本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包括”等类似词语应当解释为包括的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1为本发明实施例的语音识别方法的流程图，如图1所示，所述语音识别方法包括：

步骤S100：获取目标语音信息。

具体地，所述目标语音信息为包括用户意图信息的声音数据。用户将所述目标语音信息发送至客户端，通过客户端对所述语音信息中包含的特征数据进行提取，进一步根据所述特征数据判断用户的意图信息。所述客户端为可进行语音识别的终端，例如智能手机、智能穿戴、智能家居等。

步骤S200：根据所述目标语音信息确定对应的文本序列。

具体地，所述确定文本序列的方式例如可以通过将所述目标语音信息输入预先训练的文本模型中，以输出对应的文本序列。所述文本模型根据已知的语音信息和对应的文本序列训练得到。可选的，还可以对所述目标语音信息进行降噪和特征提取等预处理，提取所述目标语音信息中的特征片段，将所述各特征片段输入训练好的文字模型中确定对应的文字，最后通过所述各特征片段对应的文字确定文本序列。

步骤S300：根据所述目标语音信息确定特征因子集合。

具体地，所述目标语音信息为包括用户意图的声音数据，根据所述目标语音信息可以确定除所述文本序列外的其他包括所述语音序列特征的特征因子，所述特征因子例如可以包括词向量序列和拼音序列集合。所述根据所述目标语音信息确定文本序列和特征因子集合过程例如可以直接通过将所述目标语音信息分别输入预先训练好的各预测模型中以确定各特征因子；或通过对所述目标语音信息转换的文本序列进行处理得到其他特征因子，所述方法具体包括：

步骤S310：根据所述文本序列确定词向量序列。

具体地，所述词向量为单词或短语被映射到实数的向量，所述词向量序列中包含多个词向量，所述各词向量与所述文本序列中包含的文字存在对应关系。所述步骤S310可以通过直接将所述文本序列输入预先训练的词向量模型中以确定所述词向量序列，或先将所述文本序列进行分词处理，再将所述分词得到的关键词集合依次输入一个预先训练的词向量模型中以确定所述词向量序列。所述词向量模型例如可以是Word2vec模型或BERT模型等神经网络模型。

步骤S320：根据所述文本序列确定拼音序列。

具体地，所述拼音序列集合进一步还可以包括第一拼音序列和第二拼音序列。其中所述第一拼音序列为包括音调的拼音序列，所述第二拼音序列为不包括音调的拼音序列。所述第一拼音序列和第二拼音序列可以通过将所述文本序列分别输入预先训练的第一拼音模型和第二拼音模型中确定。例如，当所述输入的文本序列为“给张三打电话”时，所述第一拼音模型和所述第二拼音模型分别输出的所述第一拼音序列为{“gei3”,“zhang1”,“san1”,“da3”，“dian4”,“hua4”}，所述第二拼音序列为{“gei”,“zhang”,“san”,“da”,“dian”,“hua”}。

其中，所述第一拼音模型和第二拼音模型的训练过程包括，获取大量的文本序列以及所述文本序列对应的包括音调的拼音标注和不包括音调的拼音标注，分别构建第一训练集合和第二训练集合，通过所述第一训练集合训练所述第一拼音模型，通过所述第二训练集合训练所述第二拼音模型，所述第一拼音模型和第二拼音模型分别用于确定包含不同特征信息的特征因子，即包括音调的第一拼音序列和不包括音调的第二拼音序列。在训练模型时将所述文本序列作为输入，所述包括音调的拼音标注作为输出训练所述第一拼音模型；将所述文本序列作为输入，所述不包括音调的拼音标注作为输出训练所述第二拼音模型。当确定文本序列特征时，将所述文本序列输入所述第一拼音模型即可输出用于表征文本序列特征且包括音调的第一拼音序列；将所述文本序列输入所述第二拼音模型即可输出用于表征文本序列特征且不包括音调的第二拼音序列。

步骤S330：根据所述词向量序列和拼音序列集合确定特征因子集合。

具体地，根据所述步骤S310和S320中确定的词向量序列和拼音序列集合确定特征因子集合。当所述拼音序列集合中仅包括第一拼音序列时，所述特征因子集合包括所述词向量序列和第一拼音序列；当所述拼音序列集合中仅包括第二拼音序列时，所述特征因子集合包括所述词向量序列和第二拼音序列；当所述拼音序列集合包括第一拼音序列和第二拼音序列时，所述特征因子集合中包括所述词向量序列、第一拼音序列和第二拼音序列。

作为本发明实施例的一种可选的实施方式，所述特征因子集合中还包括语音片段集合，所述语音片段集合中包括至少一个语音片段。所述语音片段集合根据所述目标语音信息确定，例如可以直接通过对输入的目标语音信息的波形按照预定规则进行裁剪，以确定多个语音片段组成语音片段集合；或先对目标语音信息进行预处理，再从所述预处理后的目标语音信息中提取包含所述目标语音信息特征的语音片段，根据所述语音片段确定语音片段集合。再将得到的语音片段集合加入所述特征因子集合中。

进一步地，所述特征因子集合中还可以包括语音向量，所述语音向量用于表征语音文件中的停顿状态。所述语音向量可以通过所述目标语音文件确定，例如确定所述目标语音文件从开始播放到每一次发生停顿的时间，根据所述各停顿时间确定所述语音向量。以一个全部时长为13秒的目标语音文件为例进行说明，所述目标语音文件分别在1秒，3秒和10秒的位置产生停顿，因此确定所述语音向量为{“1”,“3”,“10”}。所述语音向量还可以通过所述文本序列确定，例如在所述文本序列中确定每次停顿的位置，根据所述各停顿位置确定所述语音向量。以文本序列“请给通讯录中的张三打电话”为例进行说明，若所述序列中停顿的位置分别在“给”、“的”和“三”后停顿，则确定所述语音向量为{“2”,“7”,“9”}。再将通过上述方法得到的语音向量加入所述特征因子集合中。

步骤S400：将所述特征因子集合中的至少一个元素和所述文本序列输入预测模型中以确定目标语音信息表征的意图信息。

具体地，所述预测模型根据预先标注的语音库预先训练得到。所述语音库中包含根据所述目标语音信息确定的文本序列、特征因子集合和预先标注的与所述目标语音信息对应的用户意图，所述用户意图即用户想要通过所述目标语音信息对接收客户端进行的操作，例如可以是查询指令、关机指令、拨号指令等。所述训练过程为将所述语音库中的文本序列和特征因子集合中的至少一个元素作为所述预测模型的输入，将所述目标语音信息对应的用户意图作为输出对所述预测模型进行训练，所述预测模型例如可以为textcnn、textrnn、self-attention、lstm模型或胶囊网络模型等。将所述文本序列和通过步骤S300确定的所述特征因子集合中至少一个元素输入所述训练好的预测模型中，输出所述目标语音信息表征的意图信息，即用户意图。所述具体的确定目标语音信息表征的意图信息的方式如图2-图6所示。

图2为本发明实施例的向预测模型输入文本序列和词向量序列的语音识别方法的示意图，如图2所示，通过向所述预测模型20中输入文本序列和词向量序列，输出用户意图。其中训练所述预测模型20的过程为根据所述语音库中各目标语音信息对应的文本序列、词向量序列和标注的用户意图信息构建训练集，将所述训练集中的各目标语音信息对应的文本序列、词向量序列作为所述预测模型20的输入，所述标注的用户意图信息作为所述预测模型20的输出。

图3为本发明实施例的向预测模型输入文本序列和拼音序列集合的语音识别方法的示意图，如图3所示，通过向所述预测模型30中输入文本序列、第一拼音序列和/或第二拼音序列，输出用户意图。其中训练所述预测模型30的过程为根据所述语音库中各目标语音信息对应的文本序列、拼音序列集合和标注的用户意图信息构建训练集，将所述训练集中的各目标语音信息对应的文本序列、第一拼音序列和/或第二拼音序列作为所述预测模型30的输入，所述标注的用户意图信息作为所述预测模型30的输出。

图4为本发明实施例的向预测模型输入文本序列、拼音序列集合和词向量序列的语音识别方法的示意图，如图4所示，通过向所述预测模型40中输入文本序列、词向量序列、第一拼音序列和/或第二拼音序列，输出用户意图。其中训练所述预测模型40的过程为根据所述语音库中各目标语音信息对应的文本序列、词向量序列、拼音序列集合和标注的用户意图信息构建训练集，将所述训练集中的各目标语音信息对应的文本序列、词向量序列、第一拼音序列和/或第二拼音序列作为所述预测模型40的输入，所述标注的用户意图信息作为所述预测模型40的输出。

图5为本发明实施例的向预测模型输入文本序列、拼音序列集合、词向量序列和语音片段集合的语音识别方法的示意图，如图5所示，通过向所述预测模型50中输入文本序列、词向量序列、语音片段集合、第一拼音序列和/或第二拼音序列，输出用户意图。其中训练所述预测模型50的过程为根据所述语音库中各目标语音信息对应的文本序列、语音片段集合、词向量序列、拼音序列集合和标注的用户意图信息构建训练集，将所述训练集中的各目标语音信息对应的文本序列、语音片段集合、词向量序列、第一拼音序列和/或第二拼音序列作为所述预测模型50的输入，所述标注的用户意图信息作为所述预测模型50的输出。

图6为本发明实施例的向预测模型输入文本序列、拼音序列集合、词向量序列、语音片段集合和语音向量的语音识别方法的示意图，如图6所示，通过向所述预测模型60中输入文本序列、词向量序列、语音片段集合、语音向量、第一拼音序列和/或第二拼音序列，输出用户意图。其中训练所述预测模型60的过程为根据所述语音库中各目标语音信息对应的文本序列、语音片段集合、词向量序列、拼音序列集合、语音向量和标注的用户意图信息构建训练集，将所述训练集中的各目标语音信息对应的文本序列、语音片段集合、词向量序列、语音向量、第一拼音序列和/或第二拼音序列作为所述预测模型60的输入，所述标注的用户意图信息作为所述预测模型60的输出。

所述方法根据用户输入语音信息获取文本序列和特征因子集合，所述特征因子集合中至少包括词向量序列和语音序列集合，并通过将所述文本序列和所述特征因子集合中的至少一个特征因子输入预先训练好的模型中以确定用户意图。所述方法通过增加语音识别模型的输入参数实现提高所述语音识别过程的准确率。

图7为本发明实施例的语音识别装置的示意图，如图7所示，所述语音识别装置包括语音获取模块70、文本确定模块71、特征提取模块72和意图预测模块73。

具体地，所述语音获取模块70用于获取目标语音信息。所述文本确定模块71用于根据所述目标语音信息确定对应的文本序列。所述特征提取模块72用于根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列和拼音序列集合，所述拼音序列集合包括至少一个拼音序列。根据所述目标语音信息所述意图预测模块73用于将所述特征因子集合中的至少一个元素和所述文本序列输入预测模型中以确定目标语音信息表征的意图信息，所述预测模型根据预先标注的语音库预先训练得到。

所述装置根据用户输入语音信息获取文本序列和特征因子集合，所述特征因子集合中至少包括词向量序列和语音序列集合，并通过将所述文本序列和所述特征因子集合中的至少一个特征因子输入预先训练好的模型中以确定用户意图，起到通过增加语音识别模型的输入因子提高所述语音识别过程的准确率的效果。

图8为本发明实施例的电子设备的示意图，如图8所示，在本实施例中，所述电子设备包括服务器、终端等。如图所示，所述电子设备包括：至少一个处理器82；与至少一个处理器通信连接的存储器81；以及与存储介质通信连接的通信组件83，所述通信组件83在处理器的控制下接收和发送数据；其中，存储器81存储有可被至少一个处理器82执行的指令，指令被至少一个处理器82执行以实现如下所述的步骤：

获取目标语音信息；

根据所述目标语音信息确定对应的文本序列；

根据所述文本序列确定词向量序列；

根据所述文本序列确定拼音序列；

根据所述词向量序列和拼音序列集合确定特征因子集合。

进一步地，所述根据所述文本序列确定拼音序列具体为：

进一步地，所述特征因子集合还包括语音片段集合；

所述根据所述目标语音信息确定特征因子集合还包括：

进一步地，所述特征因子集合还包括语音向量；

所述根据所述目标语音信息确定特征因子集合还包括：

具体地，所述存储器81作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器82通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语音识别方法。

存储器81可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器81可选包括相对于处理器82远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器81中，当被一个或者多个处理器82执行时，执行上述任意方法实施例中的语音识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明还涉及一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（proceSSor）执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random AcceSS Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取目标语音信息；

根据所述目标语音信息确定对应的文本序列；

根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列、拼音序列集合和语音文件中的停顿状态，所述拼音序列集合包括至少一个具有音调的拼音序列和至少一个不具有音调的拼音序列；

将所述特征因子集合中的至少一个元素和所述文本序列输入预测模型中以确定所述目标语音信息表征的意图信息，所述预测模型根据预先标注的语音库预先训练得到。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音信息确定特征因子集合包括；

根据所述文本序列确定词向量序列；

根据所述文本序列确定拼音序列；

根据所述词向量序列和拼音序列集合确定特征因子集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本序列确定拼音序列具体为：

根据所述文本序列确定包括音调的第一拼音序列和不包括音调的第二拼音序列。

4.根据权利要求2所述的方法，其特征在于，所述特征因子集合还包括语音片段集合；

所述根据所述目标语音信息确定特征因子集合还包括：

5.根据权利要求4所述的方法，其特征在于，所述特征因子集合还包括语音向量；

所述根据所述目标语音信息确定特征因子集合还包括：

根据所述目标语音信息确定语音向量，所述语音向量用于表征所述语音文件中的停顿状态；

6.一种语音识别装置，其特征在于，所述装置包括：

语音获取模块，用于获取目标语音信息；

文本确定模块，用于根据所述目标语音信息确定对应的文本序列；

特征提取模块，用于根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列、拼音序列集合和语音文件中的停顿状态，所述拼音序列集合包括至少一个具有音调的拼音序列和至少一个不具有音调的拼音序列；

7.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如下所述步骤：

获取目标语音信息；

根据所述目标语音信息确定对应的文本序列；

根据所述目标语音信息确定特征因子集合，所述特征因子集合中至少包括词向量序列、拼音序列集合和语音文件中的停顿状态，所述拼音序列集合包括至少一个具有音调的拼音序列和至少一个不具有音调的拼音序列；根据所述目标语音信息

9.根据权利要求8所述的电子设备，其特征在于，所述根据所述目标语音信息确定特征因子集合包括；

根据所述文本序列确定词向量序列；

根据所述文本序列确定拼音序列；

根据所述词向量序列和拼音序列集合确定特征因子集合。

10.根据权利要求9所述的电子设备，其特征在于，所述根据所述文本序列确定拼音序列具体为：

11.根据权利要求9所述的电子设备，其特征在于，所述特征因子集合还包括语音片段集合；

所述根据所述目标语音信息确定特征因子集合还包括：

12.根据权利要求11所述的电子设备，其特征在于，所述特征因子集合还包括语音向量；

所述根据所述目标语音信息确定特征因子集合还包括：