CN113436612B

CN113436612B - 基于语音数据的意图识别方法、装置、设备及存储介质

Info

Publication number: CN113436612B
Application number: CN202110697759.XA
Authority: CN
Inventors: 孙金辉; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2024-02-27
Anticipated expiration: 2041-06-23
Also published as: CN113436612A

Abstract

本发明涉及人工智能领域，公开了一种基于语音数据的意图识别方法、装置、设备及存储介质，用于提升用户意图识别的准确率。基于语音数据的意图识别方法包括：接收初始语音数据，对初始语音数据进行预处理，得到预处理语音数据；获取模型训练数据，对模型训练数据进行特征提取和解码处理，得到初始词图，对初始词图进行剪枝处理，得到目标词图；基于目标词图，进行模型训练和优化，得到优化后的语言模型；对预处理语音数据进行基于文本的识别和转换，得到目标文本数据；调用预置的意图识别模型，对目标文本数据进行相似度计算，根据相似度计算结果确定目标用户意图。此外，本发明还涉及区块链技术，目标用户意图可存储于区块链节点中。

Description

基于语音数据的意图识别方法、装置、设备及存储介质

技术领域

本发明涉及相似度匹配领域，尤其涉及一种基于语音数据的意图识别方法、装置、设备及存储介质。

背景技术

智能语音客服***已经广泛应用于各个行业中，如保险、银行、电信、电商等，智能语音客服通过语音与用户进行交流，它采用包括语音识别、自然语言理解、文本语音转换等多项智能人机交互技术，能够识别用户以语音形式提出的问题，通过语义分析理解用户意图，并以拟人化的方式与用户沟通，向用户提供信息咨询等相关服务，目前的智能语音客服会话的核心是进行用户意图识别，明确用户意图后给出针对性的回答。

在现有技术中，对用户意图识别的主要方式为先通过语音识别模块将用户语音转换为文本，再将转译文本输入自然语言理解模块识别用户意图，自然语言理解模块普遍的做法是用业务标注数据在预训练语言模型上进行微调，但是，通常业务标注数据和预训练语言模型的数据都是文本数据，而线上数据为语音识别转译文本，两者的数据分布存在一定差异，导致用户意图识别的准确率低下。

发明内容

本发明提供了一种基于语音数据的意图识别方法、装置、设备及存储介质，用于通过对预置的语言模型进行训练和优化，调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，并调用预置的意图识别模型，对目标文本数据进行相似度计算，从而确定目标用户意图，提升了用户意图识别的准确率。

本发明第一方面提供了一种基于语音数据的意图识别方法，包括：接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据；获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图；基于所述目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型；调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据；调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图。

可选的，在本发明第一方面的第一种实现方式中，所述接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据包括：接收用户端发送的初始语音数据，调用预置的语音端点检测算法对所述初始语音数据进行切分，得到语音切分片段；过滤所述语音切分片段中的无效片段，得到过滤后的语音数据，所述无效片段为包含噪音信号的语音片段和静音片段；对所述过滤后的语音数据依次进行预加重、分帧和加窗处理，得到预处理语音数据。

可选的，在本发明第一方面的第二种实现方式中，所述获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图包括：获取模型训练数据，对所述模型训练数据进行特征提取，得到多个模型训练特征，所述多个模型训练特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征；调用预置的声学模型，计算所述多个模型训练特征对应的声学模型得分，得到目标分数，调用预置的解码网络对所述多个模型训练特征和所述目标分数进行解码处理，得到初始词图，所述初始词图包括多个节点和多条路径，每一个节点通过一条路径连接；计算所述初始词图中每一条路径对应的后验概率，对所述后验概率小于预设阈值的路径进行剪枝处理，得到目标词图，所述目标词图包括多个候选文本序列。

可选的，在本发明第一方面的第三种实现方式中，所述获取模型训练数据，对所述模型训练数据进行特征提取，得到多个目标特征，所述多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征包括：获取模型训练数据，采用预置的窗型和短时能量计算公式计算所述模型训练数据中每一帧数据的语音短时能量，得到能量特征；调用预置的自相关函数算法提取所述模型训练数据中每一帧数据的基频特征，得到基频特征；通过预置的线性预测分析算法提取所述模型训练数据中每一帧数据的共振峰参数，得到共振特征，所述共振峰参数包括共振峰频率和共振峰带宽；获取所述模型训练数据中每一帧数据对应的频谱数据，通过预置的梅尔滤波器对所述频谱数据进行离散余弦变换，得到梅尔倒谱系数特征；将所述能量特征、所述基频特征、所述共振特征和所述梅尔倒谱系数特征确定为多个目标特征。

可选的，在本发明第一方面的第四种实现方式中，所述基于所述目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型包括：将所述目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列；基于预置的编码模型，对所述模型输入序列进行编码处理，得到多个初始词向量，所述多个初始词向量中包含多个相似词向量，所述多个相似词向量为多个相似度高于预设相似度阈值的词向量；将所述多个相似词向量进行连接，得到词向量连接图，调用预置的图注意力网络对所述词向量连接图进行建模，得到多个目标词向量；通过所述多个目标词向量对预置的语言模型进行优化，得到优化后的语言模型。

可选的，在本发明第一方面的第五种实现方式中，所述调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据包括：对所述预处理语音数据进行特征提取，得到多个目标特征，调用预置的声学模型对所述多个目标特征进行编码处理，得到音素信息；将所述音素信息与预置的音素字典进行匹配，得到特征匹配结果；调用优化后的语言模型，对所述特征匹配结果进行关联概率的预测，得到关联概率值，将所述关联概率值大于预设概率阈值对应的特征匹配结果确定为目标文本数据。

可选的，在本发明第一方面的第六种实现方式中，所述调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图包括：调用预置的意图识别模型，计算所述目标文本数据和预置文本意图语料库中的语料文本之间的相似度，得到相似度计算结果，所述预置文本意图语料库包括语料文本和所述语料文本对应的用户意图；将所述相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

本发明第二方面提供了一种基于语音数据的意图识别装置，包括：接收模块，用于接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据；特征提取模块，用于获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图；训练模块，用于基于所述目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型；识别模块，用于调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据；确定模块，用于调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图。

可选的，在本发明第二方面的第一种实现方式中，所述接收模块包括：接收单元，用于接收用户端发送的初始语音数据，调用预置的语音端点检测算法对所述初始语音数据进行切分，得到语音切分片段；过滤单元，用于过滤所述语音切分片段中的无效片段，得到过滤后的语音数据，所述无效片段为包含噪音信号的语音片段和静音片段；预处理单元，用于对所述过滤后的语音数据依次进行预加重、分帧和加窗处理，得到预处理语音数据。

可选的，在本发明第二方面的第二种实现方式中，所述特征提取模块包括：特征提取单元，用于获取模型训练数据，对所述模型训练数据进行特征提取，得到多个模型训练特征，所述多个模型训练特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征；解码单元，用于调用预置的声学模型，计算所述多个模型训练特征对应的声学模型得分，得到目标分数，调用预置的解码网络对所述多个模型训练特征和所述目标分数进行解码处理，得到初始词图，所述初始词图包括多个节点和多条路径，每一个节点通过一条路径连接；剪枝单元，用于计算所述初始词图中每一条路径对应的后验概率，对所述后验概率小于预设阈值的路径进行剪枝处理，得到目标词图，所述目标词图包括多个候选文本序列。

可选的，在本发明第二方面的第三种实现方式中，所述特征提取单元可以具体用于：获取模型训练数据，采用预置的窗型和短时能量计算公式计算所述模型训练数据中每一帧数据的语音短时能量，得到能量特征；调用预置的自相关函数算法提取所述模型训练数据中每一帧数据的基频特征，得到基频特征；通过预置的线性预测分析算法提取所述模型训练数据中每一帧数据的共振峰参数，得到共振特征，所述共振峰参数包括共振峰频率和共振峰带宽；获取所述模型训练数据中每一帧数据对应的频谱数据，通过预置的梅尔滤波器对所述频谱数据进行离散余弦变换，得到梅尔倒谱系数特征；将所述能量特征、所述基频特征、所述共振特征和所述梅尔倒谱系数特征确定为多个目标特征。

可选的，在本发明第二方面的第四种实现方式中，所述训练模块包括：排序单元，用于将所述目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列；编码单元，用于基于预置的编码模型，对所述模型输入序列进行编码处理，得到多个初始词向量，所述多个初始词向量中包含多个相似词向量，所述多个相似词向量为多个相似度高于预设相似度阈值的词向量；连接单元，用于将所述多个相似词向量进行连接，得到词向量连接图，调用预置的图注意力网络对所述词向量连接图进行建模，得到多个目标词向量；优化单元，用于通过所述多个目标词向量对预置的语言模型进行优化，得到优化后的语言模型。

可选的，在本发明第二方面的第五种实现方式中，所述识别模块包括：提取单元，用于对所述预处理语音数据进行特征提取，得到多个目标特征，调用预置的声学模型对所述多个目标特征进行编码处理，得到音素信息；匹配单元，用于将所述音素信息与预置的音素字典进行匹配，得到特征匹配结果；预测单元，用于调用优化后的语言模型，对所述特征匹配结果进行关联概率的预测，得到关联概率值，将所述关联概率值大于预设概率阈值对应的特征匹配结果确定为目标文本数据。

可选的，在本发明第二方面的第六种实现方式中，所述确定模块包括：计算单元，用于调用预置的意图识别模型，计算所述目标文本数据和预置文本意图语料库中的语料文本之间的相似度，得到相似度计算结果，所述预置文本意图语料库包括语料文本和所述语料文本对应的用户意图；确定单元，用于将所述相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

本发明第三方面提供了一种基于语音数据的意图识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音数据的意图识别设备执行上述的基于语音数据的意图识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于语音数据的意图识别方法。

本发明提供的技术方案中，接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据；获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图；基于所述目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型；调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据；调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图。本发明实施例中，通过对预置的语言模型进行训练和优化，调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，并调用预置的意图识别模型，对目标文本数据进行相似度计算，从而确定目标用户意图，提升了用户意图识别的准确率。

附图说明

图1为本发明实施例中基于语音数据的意图识别方法的一个实施例示意图；

图2为本发明实施例中基于语音数据的意图识别方法的另一个实施例示意图；

图3为本发明实施例中基于语音数据的意图识别装置的一个实施例示意图；

图4为本发明实施例中基于语音数据的意图识别装置的另一个实施例示意图；

图5为本发明实施例中基于语音数据的意图识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于语音数据的意图识别方法、装置、设备及存储介质，用于通过对预置的语言模型进行训练和优化，调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，并调用预置的意图识别模型，对目标文本数据进行相似度计算，从而确定目标用户意图，提升了用户意图识别的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于语音数据的意图识别方法的一个实施例包括：

101、接收用户端发送的初始语音数据，对初始语音数据进行预处理，得到预处理语音数据。

可以理解的是，本发明的执行主体可以为基于语音数据的意图识别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器接收用户端发送的初始语音数据，对初始语音数据进行预处理，得到预处理语音数据。服务器获取初始语音数据，对初始语音数据进行预处理，得到预处理语音数据。服务器通过调用预置的语音端点检测算法(voice activity detection，VAD)对初始语音数据进行切分和检测，得到语音切分片段，初始语音数据通过爬虫获取，本实施例中运用到的初始语音数据都经过用户授权，初始语音数据可以为用户和智能语音客服***语音交流过程中产生的语音数据。得到语音切分片段后，服务器将语音切分片段中的无效片段过滤掉，得到过滤后的语音数据，无效片段为包含噪音信号的语音片段和静音片段，对过滤后的语音数据分别进行预加重、分帧和加窗处理，得到预处理语音数据。

102、获取模型训练数据，调用预置的声学模型对模型训练数据进行特征提取和解码处理，得到初始词图，对初始词图进行剪枝处理，得到目标词图。

服务器获取模型训练数据，调用预置的声学模型对模型训练数据进行特征提取和解码处理，得到初始词图，对初始词图进行剪枝处理，得到目标词图。本实施例中采用词图(又叫lattice)来保存识别的候选序列，lattice本质上是一个有向无环(directedacyclic graph)图，在实际的语音识别***中，最优路径不一定与实际字序列匹配，一般希望能够得到得分最靠前的多条候选路径，即N-best，为了紧凑地保存候选路径，防止占用过多内存空间，故引入词图来保存候选序列，图上的每个节点代表一个词的结束时间点，每条边(即多条路径)代表一个可能的词，以及该词发生的声学得分和语言模型得分。服务器通过对模型训练数据进行特征提取，基于维特比算法(viterbi)进行解码处理，得到初始词图，初始词图中的混淆信息较多，因此通过剪枝处理得到最终的目标词图。

103、基于目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型。

服务器基于目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型。本实施例中，目标词图对预置的语言模型进行训练的流程中，通过将目标词图中的候选文本序列进行拓扑排序和编码处理，得到多个初始词向量，将多个初始词向量中的相似词向量进行连接，经过图计算层输出微调后的词向量(即目标词向量)同时包含了语义及语音信息，使得下游任务模型(即意图识别模型)对自动语音识别转译错误的鲁棒性更强。

104、调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，得到目标文本数据。

服务器调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，得到目标文本数据。服务器通过对预处理数据进行特征提取，主要算法有线性预测倒谱系数(linear predictive cepstral coefficient，LPCC)和梅尔倒谱系数(mel-scalefrequency cepstral coefficients，MFCC)，目的是把预处理语音数据的每一帧波形变成一个包含声音信息的多维向量，从而得到多个目标特征，通过调用预置的声学模型对多个目标特征进行编码，输出音素信息，将音素信息与预置的音素词典进行匹配，得到特征匹配结果，优化后的语言模型对特征匹配结果进行关联概率的预测，最终将关联预测值大于预设概率阈值的特征匹配结果确定为目标文本数据。

105、调用预置的意图识别模型，对目标文本数据进行相似度计算，得到相似度计算结果，根据相似度计算结果确定目标用户意图。

服务器调用预置的意图识别模型，对目标文本数据进行相似度计算，得到相似度计算结果，根据相似度计算结果确定目标用户意图。预置的意图识别模型可以为基于转换器的双向编码模型(bidirectional encoder representations from transformers，BERT)，服务器基于预置的意图识别模型，将目标文本数据和预置的文本意图语料库中的语料文本进行相似度计算，将相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

本发明实施例中，通过对预置的语言模型进行训练和优化，调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，并调用预置的意图识别模型，对目标文本数据进行相似度计算，从而确定目标用户意图，提升了用户意图识别的准确率。

请参阅图2，本发明实施例中基于语音数据的意图识别方法的另一个实施例包括：

201、接收用户端发送的初始语音数据，对初始语音数据进行预处理，得到预处理语音数据。

服务器接收用户端发送的初始语音数据，对初始语音数据进行预处理，得到预处理语音数据。具体的，服务器接收用户端发送的初始语音数据，调用预置的语音端点检测算法对初始语音数据进行切分，得到语音切分片段；服务器过滤语音切分片段中的无效片段，得到过滤后的语音数据，无效片段为包含噪音信号的语音片段和静音片段；服务器对过滤后的语音数据依次进行预加重、分帧和加窗处理，得到预处理语音数据。

语音端点检测算法就是将有效的语音信号和无用的语音信号或者噪音信号进行分离，需要从输入信号中找到语音部分的起止点和终止点，从中抽取语音情感识别所需的信号特征，本实施例中通过调用VAD算法对初始语音数据进行切分，分离并过滤掉无效片段，得到过滤后的语音数据，服务器对过滤后的语音数据依次进行预加重、分帧和加窗处理，得到预处理语音数据，预加重处理是将过滤后的语音数据通过一个高通滤波器，从而抵消声门脉冲及唇边辐射引起的高端频谱幅度下降，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，同时，也是为了突出高频的共振峰。将N个采样点集合成一个观测单位，称为帧，通常情况下N的值为256或512，涵盖的时间约为20～30ms，最终得到预处理语音数据。

202、获取模型训练数据，对模型训练数据进行特征提取，得到多个模型训练特征，多个模型训练特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征。

服务器获取模型训练数据，对模型训练数据进行特征提取，得到多个模型训练特征，多个模型训练特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征。具体的，服务器获取模型训练数据，采用预置的窗型和短时能量计算公式计算模型训练数据中每一帧数据的语音短时能量，得到能量特征；服务器调用预置的自相关函数算法提取模型训练数据中每一帧数据的基频特征，得到基频特征；服务器通过预置的线性预测分析算法提取模型训练数据中每一帧数据的共振峰参数，得到共振特征，共振峰参数包括共振峰频率和共振峰带宽；服务器获取模型训练数据中每一帧数据对应的频谱数据，通过预置的梅尔滤波器对频谱数据进行离散余弦变换，得到梅尔倒谱系数特征；服务器将能量特征、基频特征、共振特征和梅尔倒谱系数特征确定为多个目标特征。

服务器采用预置的窗型和短时能量计算公式计算语音短时能量，得到能量特征，预置的窗型包括矩形窗，本实施例中提取基频特征的算法包括但不限于自相关函数算法，还可以包括平均幅度差算法。服务器采用线性预测分析算法提取模型训练数据中每一帧数据的共振峰参数，得到共振特征，共振峰是指在声音的频谱中能量相对集中的一些区域，语音通常包含4到5个稳定的共振峰，一般只需要研究前三个共振峰，该算法对任意频率求得其功率谱幅值响应，并从幅值响应中找到共振峰，相应的求解算法有抛物线内插法和线性预测系数求复数根法，共振特征的获取包括但不限于线性预测分析算法，还可以包括谱包络法、倒谱法、希尔伯特变换法等。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，所以每帧数据还必须再经过快速傅里叶变换以得到在频谱上的能量分布，即每一帧数据对应的频谱数据，通过一组梅尔尺度的三角形滤波器组，计算滤波器输出的对数能量，将对数能量代入离散余弦变换，最终得到梅尔倒谱系数特征，服务器将能量特征、基频特征、共振特征和梅尔倒谱系数特征确定为多个目标特征。

203、调用预置的声学模型，计算多个模型训练特征对应的声学模型得分，得到目标分数，调用预置的解码网络对多个模型训练特征和目标分数进行解码处理，得到初始词图，初始词图包括多个节点和多条路径，每一个节点通过一条路径连接。

服务器调用预置的声学模型，计算多个模型训练特征对应的声学模型得分，得到目标分数，调用预置的解码网络对多个模型训练特征和目标分数进行解码处理，得到初始词图，初始词图包括多个节点和多条路径，每一个节点通过一条路径连接。服务器将所提取的模型训练特征输入预置的声学模型，计算模型训练特征对应的声学模型得分。其中，声学模型可以包括神经网络模型和隐马尔可夫模型，采用解码网络对多个模型训练特征和目标分数进行解码处理，得到初始词图lattice，在初始词图lattice上从左向右的任何一条路径，就构成一个识别结果，路径上每条边的声学得分相加，再加上路径对应的语言得分，就是整条路径的得分，通常取得分最大的前N条路径对应的词串作为识别的N-Best结果输出。

204、计算初始词图中每一条路径对应的后验概率，对后验概率小于预设阈值的路径进行剪枝处理，得到目标词图，目标词图包括多个候选文本序列。

服务器计算初始词图中每一条路径对应的后验概率，对后验概率小于预设阈值的路径进行剪枝处理，得到目标词图，目标词图包括多个候选文本序列。由于初始词图包含较多的冗余信息，因此，需要对初始词图进行剪枝处理，但是不影响最终的准确率，本实施例中运用的剪枝方法可以是对初始词图进行前后向打分，计算每一条路径对应的后验概率，删除后验概率很低(即小于预设阈值)的边，得到目标词图，相比初始词图，目标词图简化了不少，但是最重要的信息并没有丢失，通过计算后验概率，还可以确定每条路径在整个目标词图中的重要性。

205、基于目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型。

服务器基于目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型。具体的，服务器将目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列；服务器基于预置的编码模型，对模型输入序列进行编码处理，得到多个初始词向量，多个初始词向量中包含多个相似词向量，多个相似词向量为多个相似度高于预设相似度阈值的词向量；服务器将多个相似词向量进行连接，得到词向量连接图，调用预置的图注意力网络对词向量连接图进行建模，得到多个目标词向量；服务器通过多个目标词向量对预置的语言模型进行优化，得到优化后的语言模型。

拓扑排序是对有向无环图的顶点的一种排序，它使得如果存在一条从顶点A到顶点B的路径，那么在排序中B出现在A的后面，服务器对目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列，例如：模型输入序列为“I want what to two sit seat”，基于预置的编码模型，对模型输入序列进行编码处理，得到多个词向量，多个词向量中包含多个相似词向量以及其余单一词向量(即不存在相似的词向量)，“want”和“what”，“to”和“two”，“sit”和“seat”，服务器将多个相似词向量进行连接，得到词向量连接图，通过图注意力网络(graph attention networks，GAT)对词向量连接图进行建模，得到多个目标词向量，通过多个目标词向量对预置的语言模型进行超参数的更新，最终得到优化后的语言模型，超参数可以为模型学习率。

206、调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，得到目标文本数据。

服务器调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，得到目标文本数据。具体的，服务器对预处理语音数据进行特征提取，得到多个目标特征，调用预置的声学模型对多个目标特征进行编码处理，得到音素信息；服务器将音素信息与预置的音素字典进行匹配，得到特征匹配结果；服务器调用优化后的语言模型，对特征匹配结果进行关联概率的预测，得到关联概率值，将关联概率值大于预设概率阈值对应的特征匹配结果确定为目标文本数据。

服务器通过对预处理数据进行特征提取，主要算法有线性预测倒谱系数(linearpredictive cepstral coefficient，LPCC)和梅尔倒谱系数(mel-scale frequencycepstral coefficients，MFCC)，目的是把每一帧波形变成一个包含声音信息的多维向量，得到多个目标特征，通过调用预置的声学模型对多个目标特征进行编码，输出音素信息，将音素信息与预置的音素词典进行匹配，得到特征匹配结果，优化后的语言模型对特征匹配结果进行关联概率的预测，最终将关联预测值大于预设概率阈值的特征匹配结果确定为目标文本数据。例如：初始语音数据为“我是机器人”，通过预置的声学模型输出因素信息“wo/shi/ji/qi/ren”，将音素信息与预置的音素词典进行匹配，得到特征匹配结果“窝：wo，我：wo，是：shi，机：ji，级：ji；器：qi，人：ren；忍：ren”，优化后的语言模型对特征匹配结果进行关联概率的预测，得到关联概率值“我：0.07，是：0.05，我是：0.08，机器：0.09，机器人：0.6785”，最终将关联概率值大于预设概率阈值对应的特征匹配结果确定为目标文本数据。

207、调用预置的意图识别模型，对目标文本数据进行相似度计算，得到相似度计算结果，根据相似度计算结果确定目标用户意图。

服务器调用预置的意图识别模型，对目标文本数据进行相似度计算，得到相似度计算结果，根据相似度计算结果确定目标用户意图。具体的，服务器调用预置的意图识别模型，计算目标文本数据和预置文本意图语料库中的语料文本之间的相似度，得到相似度计算结果，预置文本意图语料库包括语料文本和语料文本对应的用户意图；服务器将相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

服务器将目标文本数据和预置的文本意图语料库中的语料数据进行相似度计算，得到相似度计算结果，本实施例中可以采用孪生神经网络(siamese network)进行相似度计算，将相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

上面对本发明实施例中基于语音数据的意图识别方法进行了描述，下面对本发明实施例中基于语音数据的意图识别装置进行描述，请参阅图3，本发明实施例中基于语音数据的意图识别装置的一个实施例包括：

接收模块301，用于接收用户端发送的初始语音数据，对初始语音数据进行预处理，得到预处理语音数据；

特征提取模块302，用于获取模型训练数据，调用预置的声学模型对模型训练数据进行特征提取和解码处理，得到初始词图，对初始词图进行剪枝处理，得到目标词图；

训练模块303，用于基于目标词图，对预置的语言模型进行训练和优化，得到优化后的语言模型；

识别模块304，用于调用优化后的语言模型，对预处理语音数据进行基于文本的识别和转换，得到目标文本数据；

确定模块305，用于调用预置的意图识别模型，对目标文本数据进行相似度计算，得到相似度计算结果，根据相似度计算结果确定目标用户意图。

请参阅图4，本发明实施例中基于语音数据的意图识别装置的另一个实施例包括：

其中，特征提取模块302具体包括：

特征提取单元3021，用于获取模型训练数据，对模型训练数据进行特征提取，得到多个模型训练特征，多个模型训练特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征；

解码单元3022，用于调用预置的声学模型，计算多个模型训练特征对应的声学模型得分，得到目标分数，调用预置的解码网络对多个模型训练特征和目标分数进行解码处理，得到初始词图，初始词图包括多个节点和多条路径，每一个节点通过一条路径连接；

剪枝单元3023，用于计算初始词图中每一条路径对应的后验概率，对后验概率小于预设阈值的路径进行剪枝处理，得到目标词图，目标词图包括多个候选文本序列；

可选的，接收模块301包括：

接收单元3011，用于接收用户端发送的初始语音数据，调用预置的语音端点检测算法对初始语音数据进行切分，得到语音切分片段；

过滤单元3012，用于过滤语音切分片段中的无效片段，得到过滤后的语音数据，无效片段为包含噪音信号的语音片段和静音片段；

预处理单元3013，用于对过滤后的语音数据依次进行预加重、分帧和加窗处理，得到预处理语音数据。

可选的，特征提取单元模块3021还可以具体用于：

获取模型训练数据，采用预置的窗型和短时能量计算公式计算模型训练数据中每一帧数据的语音短时能量，得到能量特征；调用预置的自相关函数算法提取模型训练数据中每一帧数据的基频特征，得到基频特征；通过预置的线性预测分析算法提取模型训练数据中每一帧数据的共振峰参数，得到共振特征，共振峰参数包括共振峰频率和共振峰带宽；获取模型训练数据中每一帧数据对应的频谱数据，通过预置的梅尔滤波器对频谱数据进行离散余弦变换，得到梅尔倒谱系数特征；将能量特征、基频特征、共振特征和梅尔倒谱系数特征确定为多个目标特征。

可选的，训练模块303包括：

排序单元3031，用于将目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列；

编码单元3032，用于基于预置的编码模型，对模型输入序列进行编码处理，得到多个初始词向量，多个初始词向量中包含多个相似词向量，多个相似词向量为多个相似度高于预设相似度阈值的词向量；

连接单元3033，用于将多个相似词向量进行连接，得到词向量连接图，调用预置的图注意力网络对词向量连接图进行建模，得到多个目标词向量；

优化单元3034，用于通过多个目标词向量对预置的语言模型进行优化，得到优化后的语言模型。

可选的，识别模块304包括：

提取单元3041，用于对预处理语音数据进行特征提取，得到多个目标特征，调用预置的声学模型对多个目标特征进行编码处理，得到音素信息；

匹配单元3042，用于将音素信息与预置的音素字典进行匹配，得到特征匹配结果；

预测单元3043，用于调用优化后的语言模型，对特征匹配结果进行关联概率的预测，得到关联概率值，将关联概率值大于预设概率阈值对应的特征匹配结果确定为目标文本数据。

可选的，确定模块305包括：

计算单元3051，用于调用预置的意图识别模型，计算目标文本数据和预置文本意图语料库中的语料文本之间的相似度，得到相似度计算结果，预置文本意图语料库包括语料文本和语料文本对应的用户意图；

确定单元3052，用于将相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于语音数据的意图识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于语音数据的意图识别设备进行详细描述。

图5是本发明实施例提供的一种基于语音数据的意图识别设备的结构示意图，该基于语音数据的意图识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于语音数据的意图识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于语音数据的意图识别设备500上执行存储介质530中的一系列指令操作。

基于语音数据的意图识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于语音数据的意图识别设备结构并不构成对基于语音数据的意图识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于语音数据的意图识别设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于语音数据的意图识别方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于语音数据的意图识别方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音数据的意图识别方法，其特征在于，所述基于语音数据的意图识别方法包括：

接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据；

获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图；

将所述目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列；

基于预置的编码模型，对所述模型输入序列进行编码处理，得到多个初始词向量，所述多个初始词向量中包含多个相似词向量，所述多个相似词向量为多个相似度高于预设相似度阈值的词向量；

将所述多个相似词向量进行连接，得到词向量连接图，调用预置的图注意力网络对所述词向量连接图进行建模，得到多个目标词向量；

通过所述多个目标词向量对预置的语言模型进行优化，得到优化后的语言模型；

调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据；

调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图。

2.根据权利要求1所述的基于语音数据的意图识别方法，其特征在于，所述接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据包括：

接收用户端发送的初始语音数据，调用预置的语音端点检测算法对所述初始语音数据进行切分，得到语音切分片段；

过滤所述语音切分片段中的无效片段，得到过滤后的语音数据，所述无效片段为包含噪音信号的语音片段和静音片段；

对所述过滤后的语音数据依次进行预加重、分帧和加窗处理，得到预处理语音数据。

3.根据权利要求1所述的基于语音数据的意图识别方法，其特征在于，所述获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图包括：

获取模型训练数据，对所述模型训练数据进行特征提取，得到多个模型训练特征，所述多个模型训练特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征；

调用预置的声学模型，计算所述多个模型训练特征对应的声学模型得分，得到目标分数，调用预置的解码网络对所述多个模型训练特征和所述目标分数进行解码处理，得到初始词图，所述初始词图包括多个节点和多条路径，每一个节点通过一条路径连接；

计算所述初始词图中每一条路径对应的后验概率，对所述后验概率小于预设阈值的路径进行剪枝处理，得到目标词图，所述目标词图包括多个候选文本序列。

4.根据权利要求3所述的基于语音数据的意图识别方法，其特征在于，所述获取模型训练数据，对所述模型训练数据进行特征提取，得到多个目标特征，所述多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数特征包括：

获取模型训练数据，采用预置的窗型和短时能量计算公式计算所述模型训练数据中每一帧数据的语音短时能量，得到能量特征；

调用预置的自相关函数算法提取所述模型训练数据中每一帧数据的基频特征，得到基频特征；

通过预置的线性预测分析算法提取所述模型训练数据中每一帧数据的共振峰参数，得到共振特征，所述共振峰参数包括共振峰频率和共振峰带宽；

获取所述模型训练数据中每一帧数据对应的频谱数据，通过预置的梅尔滤波器对所述频谱数据进行离散余弦变换，得到梅尔倒谱系数特征；

将所述能量特征、所述基频特征、所述共振特征和所述梅尔倒谱系数特征确定为多个目标特征。

5.根据权利要求1所述的基于语音数据的意图识别方法，其特征在于，所述调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据包括：

对所述预处理语音数据进行特征提取，得到多个目标特征，调用预置的声学模型对所述多个目标特征进行编码处理，得到音素信息；

将所述音素信息与预置的音素字典进行匹配，得到特征匹配结果；

调用优化后的语言模型，对所述特征匹配结果进行关联概率的预测，得到关联概率值，将所述关联概率值大于预设概率阈值对应的特征匹配结果确定为目标文本数据。

6.根据权利要求1-5中任一项所述的基于语音数据的意图识别方法，其特征在于，所述调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图包括：

调用预置的意图识别模型，计算所述目标文本数据和预置文本意图语料库中的语料文本之间的相似度，得到相似度计算结果，所述预置文本意图语料库包括语料文本和所述语料文本对应的用户意图；

将所述相似度计算结果大于预设匹配值的语料文本对应的用户意图确定为目标用户意图。

7.一种基于语音数据的意图识别装置，其特征在于，所述基于语音数据的意图识别装置包括：

接收模块，用于接收用户端发送的初始语音数据，对所述初始语音数据进行预处理，得到预处理语音数据；

特征提取模块，用于获取模型训练数据，调用预置的声学模型对所述模型训练数据进行特征提取和解码处理，得到初始词图，对所述初始词图进行剪枝处理，得到目标词图；

训练模块，用于将所述目标词图中的多个候选文本序列进行拓扑排序，得到模型输入序列；基于预置的编码模型，对所述模型输入序列进行编码处理，得到多个初始词向量，所述多个初始词向量中包含多个相似词向量，所述多个相似词向量为多个相似度高于预设相似度阈值的词向量；将所述多个相似词向量进行连接，得到词向量连接图，调用预置的图注意力网络对所述词向量连接图进行建模，得到多个目标词向量；通过所述多个目标词向量对预置的语言模型进行优化，得到优化后的语言模型；

识别模块，用于调用所述优化后的语言模型，对所述预处理语音数据进行基于文本的识别和转换，得到目标文本数据；

确定模块，用于调用预置的意图识别模型，对所述目标文本数据进行相似度计算，得到相似度计算结果，根据所述相似度计算结果确定目标用户意图。

8.一种基于语音数据的意图识别设备，其特征在于，所述基于语音数据的意图识别设备包括：

存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音数据的意图识别设备执行如权利要求1-6中任意一项所述的基于语音数据的意图识别方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述基于语音数据的意图识别方法。