CN115273849B

CN115273849B - 一种关于音频数据的意图识别方法及装置

Info

Publication number: CN115273849B
Application number: CN202211178066.0A
Authority: CN
Inventors: 蒋宇; 徐敏; 李鑫豪; 任纪良
Original assignee: Beijing Baolande Software Co ltd
Current assignee: Beijing Baolande Software Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-12-27
Anticipated expiration: 2042-09-27
Also published as: CN115273849A

Abstract

本发明提供一种关于音频数据的意图识别方法及装置，方法包括：获取包含目标语音的音频数据；将包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图；其中，联合模型是基于样本音频数据训练得到的，包括语义槽填充层、意图预测层和指令意图获取层；其中，语义槽填充层用于根据包含目标语音的音频数据，获取语义文字向量；意图预测层用于根据包含目标语音的音频数据，获取语义预测向量；指令意图获取层用于根据语义文字向量和语义预测向量，获取联合目标函数，并基于联合目标函数得到目标语音的指令意图。本发明通过联合模型深层次的理解用户意图，对目标语音的多种意图进行精确高效识别，得到目标语音的指令意图。

Description

一种关于音频数据的意图识别方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种关于音频数据的意图识别方法及装置。

背景技术

近些年随着自然语言处理、知识图谱等相关技术的发展，问答***已经扩展到了众多领域。通过与运维机器人进行人机交互，以一问一答的方式轻松完成运维动作，可以大幅度提高运维人员工作效率，而意图识别(Intent Detection)是人机对话***构成的关键。

现有的运维机器人更多的是某一独立功能的问答***，用户在不同的场合下可能会有不同意图，因而会涉及人机对话***中的多个领域，其中包括任务型垂直领域和闲聊等。任务型垂直领域的意图文本具有主题鲜明，易于检索的特点，比如，查询内存使用率、CPU使用率等。而聊天类意图文本一般具有主题不明确，语义宽泛、语句简短等特点，注重在开放域上与人类进行交流。在对话***中只有明确了用户的话题领域，才能正确分析用户的具体需求，否则会造成后面意图的错误识别。

现有的技术是基于规则模板的单意图识别方法，基于规则模板的意图识别方法一般需要人为构建规则模板以及类别信息对用户意图文本进行分类。现有技术针对消费意图识别，基于规则和图的方法来获取意图模板，在单一领域取得了较好的分类效果。后来发现在同一领域下，不同的表达方式会导致规则模板数量的增加,需要耗费大量的人力物力。所以，基于规则模板匹配的方法虽然不需要大量的训练数据，就可以保证识别的准确性，但是却无法解决意图文本更换类别时带来重新构造模板的高成本问题，也就是说，现有技术在意图识别时的缺陷在于：适用于单意图识别的基于规则模版的方法并不适用于多意图识别，现有意图识别技术急需一种适用于多意图识别的方法。

发明内容

本发明提供一种关于音频数据的意图识别方法及装置，用以解决现有技术中的意图识别方法不适用多意图识别的问题，通过联合模型深层次的理解用户意图，对目标语音的多种意图进行精确高效识别。

本发明提供一种关于音频数据的意图识别方法，包括：

获取包含目标语音的音频数据；

将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图；

其中，所述联合模型是基于样本音频数据训练得到的，包括语义槽填充层、意图预测层和指令意图获取层；其中，

所述语义槽填充层用于根据所述包含目标语音的音频数据，获取语义文字向量；

所述意图预测层用于根据所述包含目标语音的音频数据，获取语义预测向量；

所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量，获取联合目标函数，并基于所述联合目标函数得到目标语音的指令意图。

根据本发明提供的关于音频数据的意图识别方法，所述根据所述包含目标语音的音频数据，获取语义文字向量，包括：

将所述包含目标语音的音频数据转化为初始向量；

将所述初始向量映射成语义文字向量。

根据本发明提供的关于音频数据的意图识别方法，所述将所述初始向量映射成语义文字向量，包括：

基于所述初始向量，求得隐层向量和槽上下文向量；

基于所述隐层向量和所述槽上下文向量，通过softmax函数，求得所述语义文字向量。

根据本发明提供的关于音频数据的意图识别方法，所述槽上下文向量包括注意得分参数，所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率。

根据本发明提供的关于音频数据的意图识别方法，所述根据所述包含目标语音的音频数据，获取语义预测向量，包括：

根据所述包含目标语音的音频数据，获取意图上下文向量；

基于所述意图上下文向量，获取语义预测向量。

根据本发明提供的关于音频数据的意图识别方法，还包括：

基于所述槽上下文向量和所述意图上下文向量，获取加权特征参数；其中，所述加权特征参数用于提高所述语义槽填充层的性能。

根据本发明提供的关于音频数据的意图识别方法，方法还包括：

获取样本音频数据，其中，样本音频数据包括非目标用户音频数据和目标用户音频数据；

基于所述非目标用户音频数据，对混合高斯-通用背景模型GMM-UBM进行训练，得到先验模型；

基于所述目标用户音频数据，对所述先验模型进行训练，得到联合模型。

本发明还提供一种关于音频数据的意图识别装置，包括：

音频数据获取模块，用于获取包含目标语音的音频数据；

音频数据处理模块，用于将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图；

所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量，获取联合目标函数，并由所述联合目标函数得到目标语音的指令意图。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如所述关于音频数据的意图识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如所述关于音频数据的意图识别方法的步骤。

本发明提供的关于音频数据的意图识别方法及装置，通过获取包含目标语音的音频数据；将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图；其中，所述联合模型是基于样本音频数据训练得到的，包括语义槽填充层、意图预测层和指令意图获取层；其中，所述语义槽填充层用于根据所述包含目标语音的音频数据，获取语义文字向量；所述意图预测层用于根据所述包含目标语音的音频数据，获取语义预测向量；所述指令意图获取层用于根据所述语义文字向量和所述语义预测向量，获取联合目标函数，并基于所述联合目标函数得到目标语音的指令意图；本发明通过联合模型深层次的理解用户意图，对目标语音的多种意图进行精确高效识别，得到目标语音的指令意图，取得了显著的进步。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的关于音频数据的意图识别方法的流程示意图；

图2是本发明提供的关于音频数据的意图识别装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3，用实施例具体描述本发明的关于音频数据的意图识别方法、装置、电子设备与存储介质。

图1为本发明提供的关于音频数据的意图识别方法的流程示意图，如图1所示，本发明提供的关于音频数据的意图识别方法包括：

步骤S110、获取包含目标语音的音频数据；

在本实施例中，目标语音是指用户发出的包含指令信息的口语声音。也就是说，一定的采集距离范围内的所有声音包括用户发出的包含指令信息的口语声音都会被视为需要采集的音频数据。本发明采用了用户发出的包含指令信息的口语声音清晰度远远超过用户所在位置背景音的强假设，基于采集到的音频数据中的目标语音可以被唯一清晰读取的强假设，最后会求得目标语音对应的指令意图。

在本实施例中，假设用户在采集范围内发出一句包含指令信息的口语声音，则获取包含目标语音的音频数据。

步骤S120、将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图；

在本实施例中，联合模型是具有深度学习能力的网络模型，采用可以更好的捕捉双向语义依赖的BiLSTM（directional Long Short-Term Memory）结构，其中，BiLSTM模型由前向LSTM和后向LSTM组合而成。

在本实施例中，基于包含目标语音的音频数据生成输入向量，由语义槽填充层将输入向量映射成语义文字向量

，由意图预测层将输入向量映射成语义预测向量

，最后由指令意图获取层基于语义文字向量

和语义预测向量

，获取联合目标函数，并由联合目标函数得到目标语音的指令意图。

本发明提供的关于音频数据的意图识别方法，通过获取包含目标语音的音频数据；将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图，由联合模型深层次的理解用户意图，对目标语音的多种意图进行精确高效识别，得到目标语音的指令意图。

根据本发明提供的一种关于音频数据的意图识别方法，所述根据所述包含目标语音的音频数据，获取语义文字向量，包括：

将所述包含目标语音的音频数据转化为初始向量；

将所述初始向量映射成语义文字向量。

在本实施例中，将包含目标语音的音频数据转化成初始向量

，初始向量

即为联合模型的输入向量，初始向量

本质是一个词序列，与目标语音中的单个字词一一对应；然后由语义槽填充层将初始向量

映射生成语义文字向量

。

将初始向量代入联合目标函数公式，可以得到：

本发明提供的关于音频数据的意图识别方法，通过由包含目标语音的音频数据转化成初始向量，再由初始向量映射成语义文字向量，进一步阐明语义文字向量的生成路径，有力地支持了联合模型对用户意图的深层次的理解和对目标语音多种意图的精确高效识别。

基于所述初始向量，求得隐层向量和槽上下文向量；

在本实施例中，softmax函数，又称归一化指数函数，是一个单层的神经网络。隐层向量

是指目标语音中单个字词对应的向量，也与初始向量

的数字序列中的第

个数字对应，用于表示单个字词的含义；槽上下文向量（slot context vector）

是指目标语音中单个字词对应的上下文向量，也与初始向量

的数字序列中的第i个数字对应，用于表示单个字词的多个具体含义结合上下文语境进行具体评估单个字词真实含义的向量；其中，i的取值范围为

。

在本实施例中，使用BILSTM结构，基于输入的初始向量

，求得隐层向量

和槽上下文向量

；由隐层向量

和槽上下文向量

，通过softmax函数，求得词序列中第i个单个字词对应的槽填充标签（slot label）

，也就是语义文字向量

，用公式表示为：

其中，

是权重矩阵，

为隐层向量，

为槽上下文向量。

本发明提供的关于音频数据的意图识别方法，由初始向量求得隐层向量和槽上下文向量；再由隐层向量和槽上下文向量，通过softmax函数，求得语义文字向量，进一步阐明语义文字向量的具体生成路径，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

在本实施例中，槽上下文向量

中包括一个注意得分参数

, 用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率，用公式表示为：

其中，

表示

和

之间的关系，

是激活函数，

是权重矩阵，

表示权重矩阵，k表示多个具体含义，j表示单个字词本身具有的j个具体含义，

表示隐层状态，

表示当前输入向量；

使用卷积实现，

使用线性映射实现。

本发明提供的关于音频数据的意图识别方法，通过进一步阐明槽上下文向量中注意得分参数的求取过程，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

根据所述包含目标语音的音频数据，获取意图上下文向量；

基于所述意图上下文向量，获取语义预测向量。

在本实施例中，将包含目标语音的音频数据转化成初始向量

，初始向量

即为联合模型的输入向量，初始向量

本质是一个词序列，与目标语音中的单个字词一一对应；然后由意图预测层将初始向量

映射生成意图上下文向量（intent context vector）

，再由意图上下文向量

生成语义预测向量

，其中，意图上下文向量

的计算类似于槽上下文向量

，用于表示槽上下文向量；预测隐层向量

表示在预测意图时只使用BILSTM最后一个隐层状态求得的向量。语义预测向量

用公式表示为：

其中，

表示权重矩阵，

表示意图上下文向量，

表示预测隐层向量。

本发明提供的关于音频数据的意图识别方法，根据包含目标语音的音频数据获取意图上下文向量，再由意图上下文向量获取语义预测向量，进一步阐明了语义预测向量的具体求取路径，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

根据本发明提供的关于音频数据的意图识别方法，还包括：

在本实施例中，加权特征参数

可以看作联合槽上下文向量

和意图上下文向量

的加权特征，主要目的是使用意图上下文向量（intent context vector）

来改善语义槽填充层（slot-filling）的表现。加权特征参数

用公式表示为：

其中，

表示可训练的向量，

表示可训练的矩阵，

表示双曲正切函数，

为槽上下文向量，

为意图上下文向量。

相应的，将加权特征参数

加入语义文字向量，用公式表示为：

本发明提供的关于音频数据的意图识别方法，通过进一步公开用于提高语义槽填充层性能的加权特征参数的具体求取路径，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

在本实施例中，混合高斯-通用背景模型GMM-UBM是一种对高斯混合模型GMM的改进模型。通用背景模型UBM (Universal Background Model)是由DA Reynolds团队提出的模型。

在本实施例中，将大量的非目标用户音频数据输入混合高斯-通用背景模型GMM-UBM，训练得到一个具体说话人模型的先验模型；将少量目标用户音频数据输入先验模型，对先验模型进行参数微调就可以得到最终的联合模型。

本发明提供的关于音频数据的意图识别方法，通过进一步公开基于非目标用户音频数据和目标用户音频数据，对混合高斯-通用背景模型GMM-UBM进行训练得到联合模型，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

图2是本发明提供的关于音频数据的意图识别装置的结构示意图，如图2所示，本发明提供的关于音频数据的意图识别装置，包括：

音频数据获取模块210，用于获取包含目标语音的音频数据；

音频数据处理模块220，用于将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图；

本发明提供的关于音频数据的意图识别装置，通过设置音频数据获取模块和音频数据处理模块，获取包含目标语音的音频数据；将所述包含目标语音的音频数据输入预先训练的联合模型，得到目标语音的指令意图，使联合模型深层次的理解用户意图，对目标语音的多种意图进行精确高效识别，得到目标语音的指令意图。

基于上述任一实施例，在本实施例中，根据本发明提供的关于音频数据的意图识别装置，还包括：

槽填充加权参数层，用于基于所述槽上下文向量和所述意图上下文向量，获取加权特征参数；其中，所述加权特征参数用于提高所述语义槽填充层的性能。

本发明提供的关于音频数据的意图识别装置，通过设置槽填充加权参数层，进一步公开用于提高语义槽填充层性能的加权特征参数的具体求取路径，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

样本音频数据获取单元，用于获取样本音频数据，其中，样本音频数据包括非目标用户音频数据和目标用户音频数据；

先验模型单元，用于基于所述非目标用户音频数据，对混合高斯-通用背景模型GMM-UBM进行训练，得到先验模型；

联合模型单元，用于基于所述目标用户音频数据，对所述先验模型进行训练，得到联合模型。

本发明提供的关于音频数据的意图识别装置，通过设置样本音频数据获取单元、先验模型单元和联合模型单元，进一步公开基于非目标用户音频数据和目标用户音频数据，对混合高斯-通用背景模型GMM-UBM进行训练得到联合模型，有力地支持了联合模型对用户意图的深层次的理解，对目标语音多种意图的精确高效识别。

另一方面，本发明还提供一种电子设备，图3示例了一种电子设备的结构示意图，如图3所示，该电子设备可以包括处理器310、通信总线320、存储器330、通信接口340以及存储在所述存储器330上并可在所述处理器310上运行的计算机程序，其中，处理器310、通信接口310、存储器330通过通信总线340完成相互间的通信，处理器310可以调用存储器330中的逻辑指令，以执行关于音频数据的意图识别方法，该方法包括：

获取包含目标语音的音频数据；

最后，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，可以实现关于音频数据的意图识别方法，该方法包括：

获取包含目标语音的音频数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种关于音频数据的意图识别方法，其特征在于，包括：

获取包含目标语音的音频数据；

所述语义槽填充层用于将所述包含目标语音的音频数据转化为初始向量；基于所述初始向量，求得隐层向量和槽上下文向量；基于所述隐层向量和所述槽上下文向量，通过softmax函数，求得语义文字向量；其中，所述槽上下文向量包括注意得分参数，所述注意得分参数用于表示音频数据中的单个字词本身对应的多个具体含义中每个具体含义符合单个字词在上下文中实际含义的概率；

所述意图预测层用于根据所述包含目标语音的音频数据，获取意图上下文向量；基于所述意图上下文向量，获取语义预测向量；

2.根据权利要求1所述的关于音频数据的意图识别方法，其特征在于，还包括：

3.根据权利要求1所述的关于音频数据的意图识别方法，其特征在于，方法还包括：

4.一种关于音频数据的意图识别装置，其特征在于，包括：

音频数据获取模块，用于获取包含目标语音的音频数据；

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述关于音频数据的意图识别方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述关于音频数据的意图识别方法的步骤。