CN110992943B

CN110992943B - 基于词混淆网络的语义理解方法及***

Info

Publication number: CN110992943B
Application number: CN201911339054.XA
Authority: CN
Inventors: 俞凯; 刘辰; 朱苏; 赵子健; 曹瑞升
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-05-24
Anticipated expiration: 2039-12-23
Also published as: CN110992943A

Abstract

本发明实施例提供一种基于词混淆网络的语义理解方法。该方法包括：接收用户输入的语音对话，确定语音对话的词混淆网络，将词混淆网络转化为单词序列、后验概率序列和分段位置序列；通过Transformer编码器进行编码，得到词级别向量特征；将词级别向量特征输入至序列表示模型进行分段级别聚合，得到聚合后的分段级别向量特征；将分段级别向量特征输入至自注意力模型，将自注意力模型的输出进行拼接，得到序列级别的向量特征；将序列级别的向量特征输入至语义元组分类器，确定语音对话的语义。本发明实施例还提供一种基于词混淆网络的语义理解***。本发明实施例通过分段级别特征包含了上下文信息，减轻了语义理解受语音识别错误的影响，提高了运算速度。

Description

基于词混淆网络的语义理解方法及***

技术领域

本发明涉及智能语音领域，尤其涉及一种基于词混淆网络的语义理解方法及***。

背景技术

SLU(Spoken Language Understanding，口语理解)模块是SDS(Spoken DialogueSystem，口语对话***)的关键组件，可将用户话语解析为结构化的语义表示，因此语义理解对于语音识别错误非常敏感。口语理解***通常会采用语音识别的最佳假设文本作为输入。为了避免语义理解对于语音识别错误的过度敏感，提升***对语音识别错误的鲁棒性，会使用包含更多信息的语音识别输出也被用来作为口语理解的输入，比如N-最佳假设列表、词格和词混淆网络。相较于词格，词混淆网络结构更为紧凑，计算更为高效。

现有技术中，LSTM(Long Short-Term Memory Network，长短时记忆网络)可以直接将最佳假设文本进行编码，从而得到每句话的向量表示；对于N-最佳假设列表，一般根据N句话的语音识别分数对每句话的向量表示进行加权，从而得到整体的向量表示。词混淆网络可以看做一个分段(bin)序列，每个分段都包含该时间步内所有候选词以及对应的后验概率，因此比N-最佳列表包含更丰富的信息。最新研究将每个分段中的词嵌入向量进行加权，得到分段(bin)级别的词嵌入表示，再输入到LSTM中进行编码。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

传统技术采用最佳假设文本或N-最佳假设列表作为输入，结果受语音识别错误影响较大。使用LSTM编码词混淆网络的技术中，对每个分段的所有候选词嵌入借助词的后验概率进行简单加权而得到一种局部的分段(bin)级别特征表示，因此在特征表示层面没有考虑上下文信息。此外，由于LSTM并行能力差，导致模型的训练和推理过程较慢。

发明内容

为了至少解决现有技术中语义理解受语音识别错误影响较大，速度较慢，没有考虑上下文信息的问题。

第一方面，本发明实施例提供一种基于词混淆网络的语义理解方法，包括：

接收用户输入的语音对话，确定所述语音对话的词混淆网络，将所述词混淆网络转化为单词序列、后验概率序列以及分段位置序列，对所述单词序列的开头进行标记，确定为初始位置的向量特征；

通过所述Transformer编码器对所述单词序列、后验概率序列以及分段位置序列编码，得到词级别的向量特征；

将所述词级别的向量特征输入至序列表示模型进行分段级别聚合，得到聚合后的分段级别的向量特征；

将所述分段级别的向量特征输入至自注意力模型，将所述自注意力模型的输出与所述初始位置的向量特征进行拼接，得到序列级别的向量特征；

将所述序列级别的向量特征输入至语义元组分类器，确定所述语音对话的语义。

第二方面，本发明实施例提供一种基于词混淆网络的语义理解***，包括：

序列确定程序模块，用于接收用户输入的语音对话，确定所述语音对话的词混淆网络，将所述词混淆网络转化为单词序列、后验概率序列以及分段位置序列，对所述单词序列的开头进行标记，确定为初始位置的向量特征；

序列编码程序模块，用于通过所述Transformer编码器对所述单词序列、后验概率序列以及分段位置序列编码，得到词级别的向量特征；

聚合程序模块，用于将所述词级别的向量特征输入至序列表示模型进行分段级别聚合，得到聚合后的分段级别的向量特征；

序列拼接程序模块，用于将所述分段级别的向量特征输入至自注意力模型，将所述自注意力模型的输出与所述初始位置的向量特征进行拼接，得到序列级别的向量特征；

语义理解程序模块，用于将所述序列级别的向量特征输入至语义元组分类器，确定所述语音对话的语义。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于词混淆网络的语义理解方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于词混淆网络的语义理解方法的步骤。

本发明实施例的有益效果在于：基于词混淆网络的Transformer模型，以用于口语理解中的语义元组分类任务。编码过程中，首先将词混淆网络进行序列化，对每个词来说，Transformer的自注意力机制可以使其“注意”到序列中的所有词，因此每个词的向量表示都包含了整个序列的信息。然后分段(bin)内的词向量表示通过后验概率进行加权，而得到分段级别的特征，此分段级别特征也就包含了上下文信息，减轻了语义理解受语音识别错误的影响。又由于Transformer中自注意力矩阵的计算是高度可并行化的，有着更快的运算速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于词混淆网络的语义理解方法的流程图；

图2是本发明一实施例提供的一种基于词混淆网络的语义理解方法的词混淆网络示意图；

图3是本发明一实施例提供的一种基于词混淆网络的语义理解方法的模型总体架构示意图；

图4是本发明一实施例提供的一种基于词混淆网络的语义理解方法的本方法模型与基线模型的测试结果示意图；

图5是本发明一实施例提供的一种基于词混淆网络的语义理解方法的本方法模型与现有技术模型的测试结果示意图；

图6是本发明一实施例提供的一种基于词混淆网络的语义理解方法的模型变化的结果数据示意图；

图7是本发明一实施例提供的一种基于词混淆网络的语义理解方法的数据源变化示意图；

图8是本发明一实施例提供的一种基于词混淆网络的语义理解***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于词混淆网络的语义理解方法的流程图，包括如下步骤：

S11：接收用户输入的语音对话，确定所述语音对话的词混淆网络，将所述词混淆网络转化为单词序列、后验概率序列以及分段位置序列，对所述单词序列的开头进行标记，确定为初始位置的向量特征；

S12：通过所述Transformer编码器对所述单词序列、后验概率序列以及分段位置序列编码，得到词级别的向量特征；

S13：将所述词级别的向量特征输入至序列表示模型进行分段级别聚合，得到聚合后的分段级别的向量特征；

S14：将所述分段级别的向量特征输入至自注意力模型，将所述自注意力模型的输出与所述初始位置的向量特征进行拼接，得到序列级别的向量特征；

S15：将所述序列级别的向量特征输入至分类器，确定所述语音对话的语义。

在本实施方式中，口语语义理解将语音识别的结果作为输入，如果语音识别只返回一句话，可能存在很大的误差，因此很多语音识别***可以产生包含更多信息的输出。

对于步骤S11，接收用户输入的语音对话，确定语音对话对应的词混淆网络，其中，在所述词混淆网络中，如图2所示，每个字对应一个后验概率，表示识别结果为该字的置信度；在同一个位置，会有多个可能的字。将同一位置的结构(即两个节点之间有多条边连接，每条边代表一个字及其对应后验概率的结构)称为一个“分段”(bin)。“词混淆网络”中的“词”，在本方法中指的是中文的字，而不是词语。在序列开始的位置添加特殊词“CLS”以标记序列起始位置。

例如，用户输入的语音对话对应的真实文本为“来个同桌的你”。此时设备对其进行识别，得到一个词混淆网络。再由词混淆网络得到对应的序列化的输入(三者必须对应)：

单词序列	[CLS]	来	个	同	桐	龙	桌	卓	说	的	你	里
													后验概率序列	1.0	1.0	1.0	0.9	0.08	0.02	0.7	0.2	0.1	1.0	0.9	0.1
分段位置序列	1	2	3	4	4	4	5	5	5	6	7	7

对于步骤S12，将上述步骤中的单词序列、后验概率序列以及分段位置序列输入到Transformer编码器中。其中，所述Transformer编码器包括：基于注意力机制的Transformer编码器。单词序列和分段位置序列可以直接输入到Transformer中，而后验概率序列则由两种方式输入，包括，引入分数嵌入层，在输入阶段将后验概率转化为嵌入表示。二是对注意力矩阵进行重加权，注意力权重可以表示为：

其中s_j为第j个单词的后验概率，

和

为参数矩阵，d_x为模型中嵌入向量的维度，h表示多头注意力机制中的第h个头。通过重加权，后验概率更高的词会得到更多的注意。

对于步骤S13，然后需要将词级别的特征转化为分段级别的向量特征，即每个位置都有一个对应的向量表示。

例如“同”、“桐”、“龙”三个字的词级别特征分别为o₁、o₂、o₃，那个该分段的特征应计算为0.9o₁+0.08o₂+0.02o₃。传统方法获得分段级别向量特征时，是将该分段内所有词的词嵌入直接进行加权，这样只包含该分段内的信息。由于本方法是先通过Transformer进行编码，这样就使特征包含整句话的上下文信息。

对于步骤S14，需要得到序列级别向量特征，以进行分类。假设分段级别的向量特征为u₁,u₂,…,u_M，通过自注意力机制进行计算：

这样得到的u’可以代表一句话的信息。为了包含更丰富的信息，我们将[CLS]的特征(即初始位置的向量特征u1)与之进行拼接，得到r＝[u1；u’]，即为序列级别的特征。

对于步骤S15，将序列级别向量特征输入分类器中进行分类，其中，所述分类器包括：语义元组分类器，从而得到对应的标签，即“来个同桌的你”→“播放同桌的你”。

通过该实施方式可以看出，基于词混淆网络的Transformer模型，以用于口语理解中的语义元组分类任务。编码过程中，首先将词混淆网络进行序列化，对每个词来说，Transformer的自注意力机制可以使其“注意”到序列中的所有词，因此每个词的向量表示都包含了整个序列的信息。然后分段(bin)内的词向量表示通过后验概率进行加权，而得到分段级别的特征，此分段级别特征也就包含了上下文信息，减轻了语义理解受语音识别错误的影响。又由于Transformer中自注意力矩阵的计算是高度可并行化的，有着更快的运算速度。

作为一种实施方式，在本实施例中，所述接收用户输入的语音对话，确定所述语音对话的词混淆网络包括：

通过语音活性检测获取所述语音对话中的人声语音；

确定所述人声语音的词混淆网络。

在本实施方式中，为了获取用户输入的有效语音，只提取用户输入语音中的人声对话，减少了***处理的压力，提高了语义理解的处理效率。

对本方法进行具体说明，WCN(word confusion networks，词混淆网络)是一个紧凑的格结构，其中候选单词及其关联的后验概率在每个位置对齐。也可以将其视为单词分段(b₁，...，b_M)的序列，M是发声的长度。第m个分段表示为：

其中I_m表示b_m中的候选数，

和

分别是ASR(Automatic SpeechRecognition，自动语音识别)***给出的第i个候选数及其后验概率(分数)。

本方法提出的模型集成了三个模块：用于对WCN进行编码的Transformer编码器，用于表示序列的中间层以及语义元组分类器。总体架构如图3所示。

为了与Transformer编码器兼容，将WCN序列化为一个单词序列：

为简洁起见，将WCN重新定义为输入单词序列w＝(w₁，...，w_T)及其对应的位置序列p＝(p₁，...，p_T)和后验概率得分序列s＝(s₁，...，s_T)，其中

I_m是总序列长度。

在本方法的模型中，输入表示包含三个关键要素：单词嵌入，位置编码和分数嵌入。

WE(Word Embedding，词嵌入)传统上，每个词w_t通过词嵌入函数映射到以WE_t表示的d_x维连续向量。

PE(Positional Encoding，位置编码)位置嵌入旨在捕获序列中单词的位置信息。使用正弦和余弦函数计算d_x维位置编码，如下所示：

其中p_t是第t个时间步的位置索引(t∈{1，...，T})，k是维度。

SE(Score Embedding，分数嵌入)为了利用后验概率，将概率区间[0,1]均分为N(例如100)个部分。然后，根据后验概率的值s_t属于哪个部分，返回索引c_t。进一步生成dx维分数嵌入，通过SE_t＝ScoreEmb(c_t)，其中ScoreEmb(·)是词表大小为N的嵌入函数。因此，最终输入表示形式的总和为：

x_t＝WE_t+PE_t+SE_t

本方法的Transformer编码器包含两个子层：(a)自注意模块和(b)前馈网络。在每个子层之后应用残差连接和层归一化。建立在缩放点乘注意力基础上的多头自注意模块可以形式化为：

其中

和

是参数，H是头数，dx是词嵌入维度。

RWA(Re-Weighted Attention，重加权注意力)通过整合后验概率来改进原有注意力机制，为：

其中s_j是第j个时间步的得分。因此，具有较高分数的单词可以得到更多关注。

前馈层，残差连接和后处理归一化层的方式与传统Transformer相同。最终在多个编码器层之后产生词级表示，表示为o＝(o₁，...，o_T)。

序列表示模型，将上述编码器提取的词级特征向量汇总为分段级特征，并通过以下方式对每个字的分数加权：

然后，以一种自注意力的方式计算序列表示向量，如下所示：

其中W_u，b_u和

是可训练的参数。

在Transformer中，[CLS](标注序列起始位置)表示即u₁通常被馈送到输出层中进行分类。为了包含更丰富的信息，可以最终用r＝[u₁；u′]表示该序列，其中[·；·]是一个级联运算。

语义元组分类器：使用获得的序列级表示向量r，可以通过以下方式计算标签的概率：

q＝Sigmoid(W_rr+b_r)

其中W_r是权重矩阵，b_r是偏差矢量，q是输出概率矢量。最后，通过最小化二进制交叉熵(BCE)损失来优化模型：

其中

和

分别是训练数据集D中W的参考概率和标签l的估计概率。在推断阶段，选择概率大于0.5的标签。

对本方法进行具体实验，在第二届对话状态跟踪挑战(DSTC2)的数据集上进行了实验，用于训练、验证和测试的语句数量分别为11677、3934和9890句。整个实验中用到的都是batch ASR***提供的假设。由于WCN的扁平化序列平均程度较长，因此通过删除分数低于某个阈值的候选者来修剪WCN(在建议的基础实验中将其设置为0.001)。评估指标是类标签的F1分数和句子级别的准确性。

在实验中，嵌入大小d_x为100。单词嵌入使用Glove6B初始化。词表外的单词被替换单词<UNK>。使用4头的单层Transformer。每个前馈子层包含128个隐藏单元。在训练期间，选择具有预热机制的优化器Adam(预热步骤数设置为2000)。Dropout设置为0.3，梯度裁剪的最大范数设置为5。模型训练了50轮，并根据验证集上的最佳性能保存最佳模型。

将图4中具有不同输入类型的模型进行比较，包括真实文本，ASR最佳假设，10-最佳假设列表和WCN。前三种类型的基线模型是具有自注意能力的BLSTM。BLSTM对序列进行编码。为了测试使用最佳假设训练且使用10-最佳假设列表测试的***，将列表中的每个假设输入到***中，并平均由后验概率加权的结果。为了直接训练和评估10-最佳假设列表，将表示向量r计算为

其中ri是假设i的表示向量，而γi是相应的概率。WCN通过“神经ConfNet分类”方法进行建模，此方法中，单词向量通过后验概率进行加权求和，然后输入模型。BLSTM的结果表明，使用更大的ASR假设空间，性能会更好。通过将WCN作为输入，“神经ConfNet分类”方法带来了进一步的改进。还可以看到，修剪WCN有益于整体性能，因为修剪过程中，不重要的信息会被过滤掉。模型在F1得分和句级别准确率方面的表现优于基线，提升分别为0.51％和1.15％，而在训练过程中的运行速度则快了12倍，显示了Transformer强大的建模能力。

如图5所示，大多数以前的工作使用live ASR***提供的假设，WER比batch低5％。本模型仅使用batch***提供的WCN，并且比大多数模型具有更好的性能。此外，在仅使用batch***的情况下，模型比HIERARCHICAL模型高出1.8％。

为了更好地评估模型的每个组成部分，本工作通过消融研究来以不同的方式改变模型，包括位置信息和后验概率的使用方法，以及不同种类的序列表示方法。图6显示了结果。标有“PE”的列指示是否使用位置编码。“SU”和“SR”分别表示使用不同的分数信息和序列表示方法。

通过比较行(a)，(b)和(c)，可以看到，在序列表示层面，将[CLS]和分段级表示形式(即[u₁；u′])组合在一起可获得最佳性能，而删除其中一个都会使性能下降。考虑得分(行(c)，(e)和(f))的***比不考虑得分(行(d))的***要好得多。通过将SE与RWA结合使用，结果将下降。这表明最好直接使用后验概率分数的值，而不是将其映射到嵌入层中。与(c)行相比，(g)行显示F1分数和句级别准确率均下降，这反映了位置信息的重要性。

修剪阈值变化：由于修剪后的WCN在主要结果中的性能要优于未修剪的WCN，我们改变了修剪阈值，以探索修剪对性能的影响，如图7所示。较高的修剪阈值会产生较短的序列，并且达到0.5时，平均长度非常接近最佳假设文本。随着阈值变大，测试集中的F1分数先上升，然后明显下降。这是因为较小的阈值会产生多余的信息，但是过度的修剪会导致丢失有价值的单词。

如图8所示为本发明一实施例提供的一种基于词混淆网络的语义理解***的结构示意图，该***可执行上述任意实施例所述的基于词混淆网络的语义理解方法，并配置在终端中。

本实施例提供的一种基于词混淆网络的语义理解***包括：序列确定程序模块11，序列编码程序模块12，聚合程序模块13，序列拼接程序模块14和语义理解程序模块15。

其中，序列确定程序模块11接收用户输入的语音对话，确定所述语音对话的词混淆网络，将所述词混淆网络转化为单词序列、后验概率序列以及分段位置序列，对所述单词序列的开头进行标记，确定为初始位置的向量特征；序列编码程序模块12用于通过所述Transformer编码器对所述单词序列、后验概率序列以及分段位置序列编码，得到词级别的向量特征；聚合程序模块13用于将所述词级别的向量特征输入至序列表示模型进行分段级别聚合，得到聚合后的分段级别的向量特征；序列拼接程序模块14用于将所述分段级别的向量特征输入至自注意力模型，将所述自注意力模型的输出与所述初始位置的向量特征进行拼接，得到序列级别的向量特征；语义理解程序模块15用于将所述序列级别的向量特征输入至语义元组分类器，确定所述语音对话的语义。

进一步地，所述序列确定程序模块用于：

通过语音活性检测获取所述语音对话中的人声语音；

确定所述人声语音的词混淆网络。

进一步地，所述序列确定程序模块用于：

在所述单词序列的开头添加特殊词标记；

将所述特殊词确定为所述单词序列的初始位置的向量特征。

进一步地，所述Transformer编码器包括：基于注意力机制的Transformer编码器。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于词混淆网络的语义理解方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于词混淆网络的语义理解方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于词混淆网络的语义理解方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于词混淆网络的语义理解方法，包括：

通过Transformer编码器对所述单词序列、后验概率序列以及分段位置序列编码，得到词级别的向量特征；

2.根据权利要求1所述的方法，其中，所述接收用户输入的语音对话，确定所述语音对话的词混淆网络包括：

通过语音活性检测获取所述语音对话中的人声语音；

确定所述人声语音的词混淆网络。

3.根据权利要求1所述的方法，其中，所述对所述单词序列开头进行标记，确定为初始位置的向量特征包括：

在所述单词序列的开头添加特殊词标记；

将所述特殊词确定为所述单词序列的初始位置的向量特征；

通过所述序列表示模型将所述词级别的向量特征聚合为多个分段级别的向量特征；

分别对所述多个分段级别的向量特征进行后验概率加权，将权值最大的向量特征作为词级别聚合后的分段级别的向量特征。

4.根据权利要求1所述的方法，其中，所述Transformer编码器包括：基于注意力机制的Transformer编码器。

5.一种基于词混淆网络的语义理解***，包括：

序列编码程序模块，用于通过Transformer编码器对所述单词序列、后验概率序列以及分段位置序列编码，得到词级别的向量特征；

6.根据权利要求5所述的***，其中，所述序列确定程序模块用于：

通过语音活性检测获取所述语音对话中的人声语音；

确定所述人声语音的词混淆网络。

7.根据权利要求5所述的***，其中，所述序列确定程序模块用于：

在所述单词序列的开头添加特殊词标记；

将所述特殊词确定为所述单词序列的初始位置的向量特征。

8.根据权利要求5所述的***，其中，所述Transformer编码器包括：基于注意力机制的Transformer编码器。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。