CN113128235A

CN113128235A - 一种语义理解方法

Info

Publication number: CN113128235A
Application number: CN201911411479.7A
Authority: CN
Inventors: 王永康; 李文禄; 杜倩云
Original assignee: Guangdong Aiyin Intelligent Digital Marketing Co ltd
Current assignee: Guangdong Aiyin Intelligent Digital Marketing Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16

Abstract

本发明公开了一种语义理解方法，涉及自然语言理解技术领域，尤其涉及一种语义理解方法，所述语义理解方法包括以下步骤：获取待语义理解的文本数据；预先构建语义理解模型，所述语义理解模型至少包括输入层、语义表示层以及输出层，所述语义理解模型用于理解所述待语义理解的文本数据；基于所获取的待语义理解的文本数据，训练所述语义理解模型，并对所述待语义理解的文本数据进行语义理解，获取语义理解结果。旨在解决局限在少量语料的情况下，提高语义理解的准确率。

Description

一种语义理解方法

技术领域

本发明涉及自然语言理解技术领域，尤其涉及一种语义理解方法。

背景技术

作为人工智能领域中重要方向之一的自然语言理解技术，一直是相关领域研究人员研究的热点。随着互联网的快速发展，信息化日益提高，人们尝试着让机器理解自然语言，从而减少人工的投入，提高社会的生产效率。

现有技术中，主流的方法基本上是采用卷积神经网络的文本语义理解方法，因为卷积核大小的限制，理解文本的过程退化为局部的句子理解，然后进行组合的方式，对语义复杂的句子容易产生错误的局部语义理解，另外一种基于循环神经网络的文本语义理解方法，相对于卷积神经网络，能够基于整句话的方式提炼语义，但通常由于语义理解的训练目标的问题，不带有语言模型性质的情况下，语义理解会退化为对词语之间的组合问题，而忽视了整体的语义理解。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语义理解方法，旨在解决局限在少量语料的情况下，提高语义理解的准确率。

为实现上述目的，本发明提供的一种语义理解方法，所述语义理解方法包括以下步骤：

获取待语义理解的文本数据；

预先构建语义理解模型，所述语义理解模型至少包括输入层、语义表示层以及输出层，所述语义理解模型用于理解所述待语义理解的文本数据；

基于所获取的待语义理解的文本数据，训练所述语义理解模型，并对所述待语义理解的文本数据进行语义理解，获取语义理解结果。

在本申请的一实施例中，在进行语义理解前对所述待语义理解的文本数据进行分词和/或分字处理，获得所述待语义理解的文本数据的词和/或字向量。

在本申请的一实施例中，所述语义理解模型基于多任务结合的深度学习机制进行。

在本申请的一实施例中，所述输入层获取词和/或字向量的向量维数，并对其通过卷积神经网络进行卷积，获取字和/或词组合向量，生成二维矩阵。

在本申请的一实施例中，所述输入层对词和/或字向量进行卷积后，通过自注意力机制对所述词和/或字向量进行变换，获得该词下一词和/或字的向量维数表示，并将其并入二维矩阵。

在本申请的一实施例中，所述语义表示层获取所述输入层生成的二维矩阵，并对所述二维矩阵进行隐层特征提取，计算所述隐层特征对所述文本数据的影响权重，生成隐层特征矩阵。

在本申请的一实施例中，所述隐层特征至少包括前向和后向特征，将所述前向特征与所述后向特征进行拼接，获取相应维数的文本数据的隐层特征。

在本申请的一实施例中，获取文本数据隐层特征后，获取文本数据隐层特征后，对所述文本数据隐层特征矩阵进行加权平均。

在本申请的一实施例中，选取待语义理解的文本数据中的整句，并提取所述整句中若干连续的词和/或字作为训练数据，其后连续的词和/或字作为目标，训练所述语义理解模型。

本发明通过获取构建语义理解模型实现对自然语言的理解，具体步骤为，首先获取需要进行语义理解的文本数据，为机器的理解提供训练文本。其次构建语义理解模型，语义理解模型分为三个层级，分别为输入层、语义表示层以及输出层。其中输入层的用途主要为将需要进行语义理解的文本预处理之后的词和/或字向量输入并进行卷积变换，同时设定词和/或字向量的维度；语义表示层通过对词和/或字向量的变换和计算获得二维矩阵，通过获得的二维矩阵构成语义理解的语义特征向量表示；通过输出层将计算和变换的结果进行输出。基于第一步获取的待语义理解的文本数据，训练语义理解模型，使得语义理解模型理解待语义理解的文本数据的性质以及通过获得的待语义理解的文本数据，训练语义理解模型，并对待语义理解的文本数据进行语义理解，获取语义理解结果。采用上述技术方案，在只有少量语料的情况下，通过结合语言模型、上下文关系等多种信息提高语义的丰富性。充分利用字、词、句、篇章之间的关系进行预训练，使得模型能够高度抽象语义信息，改善语义的理解的准确性。

附图说明

图1是本发明实施例一种语义理解方法的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解的是，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例要解决的主要问题是，在语料较少的情况下，提高语义理解的准确性。如图1所示，具体的技术方案如下：

S10：获取待语义理解的文本数据；

S20：预先构建语义理解模型，所述语义理解模型至少包括输入层、语义表示层以及输出层，所述语义理解模型用于理解所述待语义理解的文本数据；

S30：基于所获取的待语义理解的文本数据，训练所述语义理解模型，并对所述待语义理解的文本数据进行语义理解，获取语义理解结果。

具体的，获取待语义理解的文本数据，该文本数据可以为用户在客户端输入文本数据，然后通过网络将文本数据发送至服务端进行数据的理解，从而得到语义理解的结果。也可以是网络抓取的实时文本数据，将抓取的文本数据直接传输至语义理解模型进行语义理解。

文本数据可以分为两类，其中一类为通用领域中的语料，通用领域语料可以通过在网络上抓取的文档、文献、书本等。另外一类为坐席和客户之间的对话数据，得到坐席和客户之间的问答，整理为文本数据，对语义理解模型进行训练。通过两类数据同时对语义理解模型进行训练，极大的提高语义理解模型的理解精度。同时由于该类数据量较大，采集方便，减少了人工投入，同时在对训练文本进行标注时，提高了标注的效率。对训练文档进行标注即通过人工设定训练目标，用于对语义训练模型产生的结果进行比较，以判断语义训练模型的理解精度。

获取待语义理解的文本数据后，采用现有技术中常用的分词工具对文本数据进行分词和/或分字处理，完成上述步骤后通过word2vec对将自然语言中的字词转为计算机可以理解的稠密向量。word2vec即简化的神经网络，具体的使用方法和具体的步骤可以参见包括现有技术在内的各种技术，在此不再一一赘述。本申请中分词是指将文本划分为各个词语，向量化是指对分词后的每个词进行向量化，得到每个词的词向量；分字是指将文本划分为单个文字。

在对待语义理解的文本数据进行分词和向量化之后，即可得到待语义理解的文本数据的词向量，由这些词向量可以组成词向量矩阵。

预先构建的语义理解模型中的输入层获得词向量矩阵。现举例如下：假设待语义理解的文本数据中，每个句子的句长为30个词，每个词的维数为100，因此可以得出，每个词中的每个字的维数也为100。字向量经过不同尺度的卷积核进行卷积，如[(2*100),(3*100)]等，得到不同的字之间组合的向量，再经过一个self-attention，得到一个词下面的字向量构成的一个新的100维的表示，然后和词原来的100维向量进行相加，如此，该词可获得一个新100维向量的表示。那么整体句子的输入就是一个(30，100)的二维矩阵。

其中self-attention是指自注意力机制，在计算attention时主要分为三步，第一步是将问题和每个答案进行相似度计算得到权重，常用的相似度函数有点积，拼接等；然后第二步一般是使用一个soft-max函数对这些权重进行归一化；最后将权重和相应的键值数值进行加权求和得到最后的attention，其中soft-max函数是激活函数，具体参见现有技术中相关技术，在此不再一一赘述。

通过输入层将整个句子变成一个(30，100)的二维矩阵后，语义表示层对二维矩阵进行语义特征的提取，这里使用LSTM双向结构，其步长为30隐层神经元节点个数为100个，则对于前向和后向LSTM每个隐层分别输出(1，100)维的特征，这里分别记为H_f，H_b。将前向和后向特征进行拼接，获得(30，200)维的句子的隐层特征输出为H。对于输出的(30，200)维特征矩阵做一个self-attention的操作，计算每个隐层对于整个句子的一个影响权重，最终对整个隐层输出特征矩阵做一个加权平均，获得200维向量，构成该句的语义特征向量表示。

其中LSTM是指长短期记忆网络，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题，提高处理速度，具体的实施步骤以及相关代码参见现有技术。

输出层用于输出句子的语义向量表示，输出层中的非线性全连接变换层对输出结果进行线性变换，通过soft-max函数进行下一个词的预测。

当训练文本采用通用领域中的语料时，将待语义理解的文本数据中，输入每个句子的字词进行向量化，取每个句子的前n个词作为输入，第n+1个词作为训练目标。将输入句子进行向量化转换，通过LSTM，得到相应长度的输出，然后经过一个非线性全连接变换层后，利用soft-max预测句子的下一个词。其损失函数为L₁(U)＝∑logP(u_i|u_i+1，...，u_i+k，u_i-1，...，u₁；Θ)；通过双向的训练，使得语义理解模型学习通用领域的语言特性。

当训练文本采用坐席和客户之间的对话数时据，将待语义理解的文本数据中对话中的answer作为query的正例，并在对话中选择不同的answer作为query的反例，输入这三个句子的字词变换的向量作为输入，通过双向LSTM，获得句子的语义表示。反例的选择过程中，训练开始的时候采用随机选择策略，在模型训练到一定程度之后，开始利用模型选择反例。具体做法为选择反例的时候，先随机选择若干个answer，用它对应的对话问题与query进行语义度量，去除query高相似度的answer，减少错误样本。然后利用query分别和正例answer，反例answer进行度量，计算cosine值，其损失函数为

L＝max{0，M-cosine(q，a₊)+cosine(q，a_-)}+λ₁∑logP(u_i|u_i-k，…，u_i-1；Θ)

+λ₂∑logP(u_i|u_i+1，…，u_i+k；Θ)

Loss由两部分组成，一是query和answer的相似度度量，同时保持语言模型性质，其损失函数为L₁(U)＝∑logP(u_i|u_i+1，...，u_i+k，u_i-1，...，u₁；Θ)，通过参数平衡两个损失的权重。因此其中，通过损失函数对整个模型进行训练，参数更新，使得query的语义表示和它的answer更加相似，和其他的answer更加不同。

采用上述技术方案，采用现有技术中常用的分词和/或分字工具对待语义理解的文本数据进行分词和/或分字处理，从而提高语义理解模型的处理效率，完成分词和/或分字处理后通过word2vec对分词和/或分字进行向量化处理，把自然语言中的每一个词表示成一个统一意义统一维度的短向量，在序列局部数据间存在着很强的关联，提高模型学习的精度，减少错误数据的出现。

采用上述技术方案，在同时进行多任务时，为了提高语言模型并行的处理效率，采用对人物结合的深度学习机制，通过对整体损失函数进行最小化确定模型参数，因此可以同步获得多项任务的语义理解结果，大大的提高了语言模型处理的效率。减少错误数据的出现，提高模型的学习精度。

采用上述技术方案，输入层获取词和/或字向量的向量维数后，由于词和/或字向量的向量维数较为小，且数据单一，通过卷积神经网络进行卷积能够更加高效的被处理，完成卷积后，生成二维矩阵，这样既利用了词的信息，也利用到了字对于词的相对影响，提高了语义理解的精度。

采用上述技术方案，完成词和/或字向量卷积后，通过自注意机制完成对词和/或字向量的变换后，无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。提高了语义理解的精度。

采用上述技术方案，通过对二维矩阵隐层特征的提取，增加词向量和/或字向量之间的联系，通过计算调整影响权重，进一步提高语义理解的精度。

采用上述技术方案，通过将前向和后向特征的拼接，加深了前向和后向的连接，为分词和/或分字提供更加紧密的连接，同时为语义理解模型提供更全面的训练数据。

在本申请的一实施例中，获取文本数据隐层特征后，对所述文本数据隐层特征矩阵进行加权平均。

采用上述技术方案，通过加权平均，减少语义理解模型的计算量，进一步提高了语义理解模型的处理效率。

采用上述技术方案，通过双向训练，使得语义理解模型更加精确，进一步提升语义理解模型对待语义理解的文本数据形式理解，在语料较少时，提高语义理解的准确性。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语义理解方法，其特征在于，所述语义理解方法包括以下步骤：

获取待语义理解的文本数据；

2.如权利要求1所述的语义理解方法，其特征在于，在进行语义理解前对所述待语义理解的文本数据进行分词和/或分字处理，获得所述待语义理解的文本数据的词和/或字向量。

3.如权利要求2所述的语义理解方法，其特征在于，所述语义理解模型基于多任务结合的深度学习机制进行。

4.如权利要求3所述的语义理解方法，其特征在于，所述输入层获取词和/或字向量的向量维数，并对其通过卷积神经网络进行卷积，获取字和/或词组合向量，生成二维矩阵。

5.如权利要求4所述的语义理解方法，其特征在于，所述输入层对词和/或字向量进行卷积后，通过自注意力机制对所述词和/或字向量进行变换，获得该词下一词和/或字的向量维数表示，并将其并入二维矩阵。

6.如权利要求1至5中任意一项所述的语义理解方法，其特征在于，所述语义表示层获取所述输入层生成的二维矩阵，并对所述二维矩阵进行隐层特征提取，计算所述隐层特征对所述文本数据的影响权重，生成隐层特征矩阵。

7.如权利要求6所述的语义理解方法，其特征在于，所述隐层特征至少包括前向和后向特征，将所述前向特征与所述后向特征进行拼接，获取相应维数的文本数据的隐层特征。

8.如权利要求7所述的语义理解方法，其特征在于，获取文本数据隐层特征后，对所述文本数据隐层特征矩阵进行加权平均。

9.如权利要求1所述的语义理解方法，其特征在于，选取待语义理解的文本数据中的整句，并提取所述整句中若干连续的词和/或字作为训练数据，其后连续的词和/或字作为目标，训练所述语义理解模型。