CN107506350A

CN107506350A - 一种识别信息的方法和设备

Info

Publication number: CN107506350A
Application number: CN201710703355.0A
Authority: CN
Inventors: 王翔
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2017-12-22
Also published as: US10747961B2; US20190057084A1

Abstract

本发明公开了一种识别信息的方法和设备，用以解决现有存在的句意识别技术导致句子中的某些词容易产生歧义，使句意识别的准确率较低的问题。本发明实施例通过卷积神经网络的卷积核的多个宽度对应的卷积核与信息的字向量矩阵进行卷积，对得到每个卷积核对应的卷积向量进行最大池化操作得到所述宽度对应的识别特征，将每个宽度对应的识别特征进行组合得到所述信息的识别特征；根据不同信息的识别特征的相似度进行信息识别。由于本发明实施例分别根据卷积核的多个宽度对应的卷积核与信息的字向量矩阵进行卷积，并将得到的每个宽度对应的识别特征进行组合，从而降低了由于句子中容易产生歧义的词对句意识别的影响，提高了句意识别的准确率。

Description

一种识别信息的方法和设备

技术领域

本发明涉及计算机技术处理领域，尤其涉及一种识别信息的方法和设备。

背景技术

句意识别又称为问答句意识别，其主要是对用户给出的句子(一般为问句)进行分析、判断，最终确定用户意图。句意识别是回答用户问题的前提，其主要应用在客服机器人、问答***和人机交换***等。

例如在客服机器人工作***中，当用户发送自己的问题到***，客服机器人会对所发送语句进行分析、判断，确定所问句子的意思，进而来确定用户的意图，最终客服机器人会给出一系列其认为正确的答案。

现有的句意识别方法主要是对待识别句子通过字符匹配法、理解法、统计法等分词技术进行分词，然后基于词级别进行句意特征的提取。但是以上通用的分词方法会对待识别句子中的某些词容易产生歧义，无法达到较好的分词准确率，进而导致句意识别的准确率不高。

综上所述，现有的句意识别技术会导致句子中的某些词容易产生歧义至而使句意识别的准确率较低。

发明内容

本发明实施例提供了一种识别信息的方法和设备，用以解决现有存在的句意识别技术会导致句子中的某些词容易产生歧义至而使句意识别的准确率较低的问题。

本发明实施例提供一种识别信息的方法，该方法包括：

针对任意一个信息，确定该信息的字向量矩阵；

针对卷积神经网络的任意一个卷积核的宽度，分别将所述宽度对应的每个卷积核与所述信息的字向量矩阵进行卷积，得到每个卷积核对应的卷积向量，并对每个所述卷积向量进行最大池化操作得到所述宽度对应的识别特征；

将每个宽度对应的识别特征进行组合得到所述信息的识别特征；

根据不同信息的识别特征的相似度进行信息识别。

本发明实施例提供一种识别信息的设备，该设备包括：

至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行下列过程：

针对任意一个信息，确定该信息的字向量矩阵；

根据不同信息的识别特征的相似度进行信息识别。

本发明实施例提供另一种识别信息的设备，该设备包括：

矩阵确定模块，用于针对任意一个信息，来确定信息的字向量矩阵；

卷积操作模块，用于针对卷积神经网络的任意一个卷积核的宽度，分别将所述宽度对应的每个卷积核与所述信息的字向量矩阵进行卷积，得到每个卷积核对应的卷积向量，并对每个所述卷积向量进行最大池化操作得到所述宽度对应的识别特征；

组合特征模块，用于将每个宽度对应的识别特征进行组合得到所述信息的识别特征；

处理模块，用于不同信息的识别特征的相似度进行信息识别。

本发明实施例通过卷积神经网络的卷积核的多个宽度对应的卷积核与信息的字向量矩阵进行卷积，对得到每个卷积核对应的卷积向量进行最大池化操作得到所述宽度对应的识别特征，将每个宽度对应的识别特征进行组合得到所述信息的识别特征；根据不同信息的识别特征的相似度进行信息识别。由于本发明实施例分别根据卷积核的多个宽度对应的卷积核与信息的字向量矩阵进行卷积，并将得到的每个宽度对应的识别特征进行组合，可以有效地提取不同长度的句子关键词(即识别特征)，并将多个识别特征相互组合进行句意识别，从而降低了由于句子中容易产生歧义的词对句意识别的影响，提高了句意识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例识别信息的方法流程示意图；

图2为本发明实施例确定信息的识别特征流程示意图；

图3为本发明实施例第一种识别信息的设备结构示意图；

图4为本发明实施例第二种识别信息的设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所述，本发明实施例提供的一种识别信息的方法，包括：

步骤100、针对任意一个信息，确定该信息的字向量矩阵；

步骤101、针对卷积神经网络的任意一个不同宽度的卷积核与所述信息的字向量矩阵进行卷积，得到每个不同宽度的卷积核对应的卷积向量，并对每个卷积向量进行最大池化操作得到每个不同宽度的卷积核对应的识别特征；

步骤102、将每个卷积核对应的识别特征进行组合得到信息的识别特征；

步骤103、根据不同信息的识别特征的相似度进行信息识别。

其中，本发明实施例的信息可以是包含文字的任何信息，比如可以是获取到的用户说的一句话；也可以是样本数据库中包含的句子等。

通过本发明实施例的方案可以得到每个信息的识别特征。比如获取到用户说的一句话，需要将获取的话与样本数据库中的句子进行比对，从样本数据库中找到与获取的话对相似的句子。这时可以通过本发明实施例的方案确定获取的话的识别特征，以及确定样本数据库中每个句子的识别特征，将获取的话的识别特征分别于样本数据库中每个句子的识别特征进行比对，确定获取的话的识别特征与样本数据库中每个句子的识别特征相似度，通过相似度从样本数据库中找到与获取的话对相似的句子。

下面详细介绍下具体如何确定每个信息的识别特征。

在实施中，需要确定信息的字向量矩阵。

具体的，将一个信息通过嵌入(embedding)层将信息中的每个字转换成字向量，将所有字向量组成字向量矩阵。

其中，每个字的字向量长度相同。具体字向量长度可以通过经验、需求等方式设定。

比如待识别信息为“我爱中国”，信息长度为4，取字向量长度为5，则一种转换后可能的字向量为：

“我”：[0.8,0.3,-0.5,0.01,0.12]

“爱”：[-0.1,0.6,0.2,-0.13,0.3]

“中”：[-0.05,0.1,0.3,0.4,-0.3]

“国”：[0.03,0.08,0.6,0.3,-0.2]

将“我爱中国”对应的字向量组成的字向量矩阵为：

可选的，在得到一个信息的字向量矩阵后，可以根据卷积核的宽度对应的每个卷积核对字向量矩阵进行卷积。

本发明实施例在卷积神经网络中会设置多个不同的卷积核的宽度。这里需要根据每个卷积核的宽度对信息的字向量矩阵进行卷积。

卷积神经网络中卷积核的宽度可以根据经验、模型训练等方式设定。比如如果信息是中文，一般中文一字、两字、三字和四字的语义占绝大多数，所以可以将卷积核的宽度设置为[1，2，3，4]。

假设设定的卷积核的宽度为[1，2，3，4]，具体的做法是：

先确定卷积核的宽度为1对应的每个卷积核，之后将确定的每个卷积核分别与信息的字向量矩阵进行卷积。

比如卷积核的宽度为1对应卷积核A1、卷积核A2和卷积核A3，将卷积核A1与信息的字向量矩阵进行卷积得到卷积核A1对应的卷积向量；将卷积核A2与信息的字向量矩阵进行卷积得到卷积核A2对应的卷积向量；将卷积核A3与信息的字向量矩阵进行卷积得到卷积核A3对应的卷积向量。

由于卷积核的宽度为1对应3个卷积核，就会得到3个卷积向量。之后可以对每个卷积向量进行最大池化操作，即选取出每个卷积向量中最大的数值。

这里可以等到所有卷积核的宽度下的卷积核对应的卷积向量都确定出来后在进行最大池化操作，也可以确定出一个卷积向量就进行一次最大池化操作。

按照上述方式继续确定卷积核的宽度为2的每个卷积核对应的卷积向量，以此类推直到所有宽度的每个卷积核对应的卷积向量都确定出来。

其中，卷积核对应的卷积向量的长度(即卷积向量中包括的数值的数量)与信息中包括的字的数量和卷积核的宽度有关系。

比如卷积核的宽度为1，对应卷积核A1；句子为我爱中国，则对应的字向量矩阵列数为4。用卷积核A1与字向量矩阵列进行卷积时，由于宽度是1，则先与第1列进行卷积得到一个数值，再与第2列进行卷积得到一个数值，以此类推最后得到4个数值，就组成宽度1对应的卷积核A1的卷积向量。

比如卷积核的宽度为2，对应卷积核A1；句子为我爱中国，则对应的字向量矩阵列数为4。用卷积核A1与字向量矩阵列进行卷积时，由于宽度是2，先与第1列和第2列进行卷积得到一个数值，再与第2列和第3列进行卷积得到一个数值，再与第3列和第4列进行卷积得到一个数值，最后得到3个数值，，就组成宽度2对应的卷积核A1的卷积向量。

基于上面内容，卷积核对应的卷积向量的长度可以通过下列公式确定：

卷积向量的长度＝句子长度–卷积核宽+1。

其中，对卷积向量进行最大池化操作后，得到每个卷积向量中的最大值。比如为X的宽度对应N1个卷积核，可以得到每个卷积核对应的卷积向量，故可以得到N1个数值。得到N1个数值之后将其组合在一起即得到宽度为X的识别特征。

比如宽度为1对应的卷积核有3个，最大池化操作后得到的3个值是A1、A2和A3，将这3个数值组合在一起即得到宽度为1的识别特征，即(A1、A2、A3)。

可选的，本发明实施例不同宽度对应的卷积核的数量不同。

比如卷积神经网络中的卷积核的宽度为1对应的卷积核的数量为N，宽度为2对应的卷积核的数量为M，且N与M不同。

其中，卷积核的数量可以依据算法在数据库的训练集和测试集上的准确率确定。

由于不同宽度对应的卷积核的数量不同，从而能有效地提取目标领域的信息的识别特征，而且防止了由于卷积核数量太多引起的模型过拟合。

在实施中，任意两个宽度中，宽度小的对应的卷积核的数量多。

比如宽度为2的卷积核的数量为20，卷积神经网络中的卷积核的宽度为3的卷积核的数量为10。

因为宽度小的卷积核蕴含了宽度大的卷积核的部分识别特征，且宽度大的卷积核所需的参数较多，因此在实施中，设置宽度小的对应的卷积核数量多于宽度大的，这样能有效地提取目标领域的信息的识别特征，而且防止了由于卷积核数量太多引起的模型过拟合。

可选的，本发明实施例将每个卷积核对应的识别特征进行组合得到信息的识别特征时，将每个宽度对应的识别特征进行排列组合，得到一维的识别特征。

比如宽度为1的卷积核数量为30个，经过任一卷积核与信息的字向量进行卷积并进行最大池化操作后得到30个值(X1,X2……X30)即得到一个长度为30的识别特征；

宽度为2的卷积核数量为20个，经过任一卷积核与信息的字向量进行卷积后并进行最大池化操作后得到20个值(Y1，Y2……Y20)即得到一个长度为20的识别特征；

将宽度1对应的30个值与宽度2对应的20个值进行排列组合，其中排列方式可以先排宽度1的识别特征，也可以先排宽度2的识别特征，还可以进行穿插排列，排列后得到一组一维的识别特征。

比如先排宽度1的识别特征，则一组一维的识别特征为：(X1,X2……X30，Y1，Y2……Y20)；

比如先排宽度2的识别特征，则一组一维的识别特征为：(Y1，Y2，Y3……Y20，X1,X2……X30)。

由于得到一维的识别特征，从而降低了相似度计算时的难度系数。

在实施中，本发明实施例还可以在实际应用中不断进行训练，从而进一步提高识别的准确率。

可选的，所述不同信息的识别特征的相似度包括目标信息和正样本信息的第一相似度，以及目标信息和负样本信息的第二相似度；

所述根据不同信息的识别特征的相似度进行信息识别之后，包括：

根据所述第一相似度和所述第二相似度确定损失值；

根据所述损失值判断是否需要调整所述卷积神经网络中的卷积神经网络参数；

其中，所述正样本信息所属的领域与目标信息所属的领域相同，所述负样本信息所属的领域与目标信息所属的领域相同或不同。

在实施中，本发明实施例可以根据信息内容划分多个领域，比如可以划分为机械领域、化学领域、电子领域、通信领域等。

上面这几个领域只是举例说明，还可以更进一步对每个领域进行细化。上面的例子是学科领域进行划分，也可以按照其他方面进行划分，比如法律领域、金融领域等。

在实施中，可以建立一个意图库，里面包含了所有需要比对的信息，并按照信息所属的领域进行划分。

在进行比对时，可以将意图库中的信息划分为与目标信息(即获取到的信息)所属领域相同的信息，以及与目标信息所属领域不同的信息。

其中，与目标信息所属领域相同的信息还可以划分为带有其他标记问题的和未有其他标记问题的。这里的带有其他标记问题主要是指所属领域中带有歧义的问题。

与目标信息所属领域不同的信息是实际应用中收集到的与领域无关的信息。

本发明实施例的正样本信息中包括的是与目标信息所属领域相同，且未有其他标记的信息。

本发明实施例的负样本信息包括与目标信息所属领域相同，且带有其他标记的信息，以及与目标信息所属领域不同的信息。

可选的，损失值可以通过损失函数公式确定。损失函数公式：

Loss＝max{0，m-(s-s')}

其中，Loss为损失函数值，m为余量，s为对相似度，s’为第二相似度。

损失值是用来调整卷积神经网络中卷积参数的，卷积神经网络中的卷积神经网络参数与余量m、第一相似度与第二相似度的差值有关。

当所述差值大于余量m时，损失值为0，此种情况下不需要调整卷积神经网络参数；当所述差值小于余量m时，损失值为m-(s-s')，损失不为0，此种情况下需要调整卷积神经网络参数。

本发明实施例能够调整的卷积神经网络参数包括但不限于下列参数中的部分或全部：字向量参数和卷积核参数，其中卷积核参数包括卷积核权重参数和卷积核偏置。

下面对本发明确定信息的识别特征进行详细说明。

如图2所示，本发明实施例确定信息的识别特征包括：

步骤200、获取目标信息。

步骤201、通过卷积神经网络的嵌入层将目标信息中的每个字转换成字向量。

步骤202、通过嵌入层将得到的每个字的字向量组成目标信息对应的字向量矩阵。

步骤203、通过卷积神经网络的CNN层确定卷积神经网络每个卷积核的宽度对应的卷积核。

步骤204、针对任意一个宽度，通过卷积神经网络的CNN层将该宽度对应的每个卷积核分别与信息的字向量矩阵进行卷积，得到该宽度对应的每个卷积核的卷积向量。

步骤205、在通过CNN层得到每个宽度对应的每个卷积核的卷积向量后，通过卷积神经网络的最大池化层分别将每个卷积向量进行最大池化操作。

步骤206、将属于同一个宽度的卷积向量进行最大池化操作后的数值组成该宽度对应的一维的识别特征。

步骤207、将每个宽度对应的一维的识别特征进行排列组合，得到信息的一维识别特征。

基于同一发明构思，本发明实施例中还提供了一种识别信息的设备，由于该设备对应的方法是本发明实施例识别信息的方法对应的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图3所述，本发明实施例第一种识别信息的设备，包括：

至少一个处理单元300以及至少一个存储单元301，其中，所述存储单元301存储有程序代码，当所述程序代码被所述处理单元300执行时，使得所述处理单元300执行下列过程：

针对任意一个信息，确定该信息的字向量矩阵；

根据不同信息的识别特征的相似度进行信息识别。

可选的，所述卷积神经网络中包括多个不同的卷积核的宽度。

可选的，所述不同宽度对应的卷积核的数量不同。

可选的，任意两个宽度中，宽度小的对应的卷积核的数量多。

可选的，所述处理单元300具体用于：

将每个宽度对应的识别特征进行排列组合，得到一维的识别特征。

可选的，不同信息的识别特征的相似度包括目标信息和正样本信息的第一相似度，以及目标信息和负样本信息的第二相似度；

所述处理单元300还用于：

根据不同信息的识别特征的相似度进行信息识别之后，根据所述第一相似度和所述第二相似度确定损失值；

如图4所示，本发明实施例第二种识别信息的设备，包括：

矩阵确定模块400，用于针对任意一个信息，来确定信息的字向量矩阵；

卷积操作模块401，用于针对卷积神经网络的任意一个卷积核的宽度，分别将所述宽度对应的每个卷积核与所述信息的字向量矩阵进行卷积，得到每个卷积核对应的卷积向量，并对每个所述卷积向量进行最大池化操作得到所述宽度对应的识别特征；

组合特征模块402，用于将每个宽度对应的识别特征进行组合得到所述信息的识别特征；

处理模块403，用于不同信息的识别特征的相似度进行信息识别。

可选的，所述信息信息可以是包含文字的任何信息，比如可以是获取到的用户说的一句话；也可以是样本数据库中包含的句子等。

可选的，矩阵确定模块400具体用于：

将一个信息通过嵌入层将信息中的每个字转换成字向量，将所有字向量组成字向量矩阵。

可选的，所述卷积操作模块401具体用于：

在得到一个信息的字向量矩阵后，根据卷积核的宽度对应的每个卷积核对字向量矩阵进行卷积；

对每个卷积向量进行最大池化操作，即选取出每个卷积向量中最大的数值。

可选的，所述组合特征模块402具体用于：

将每个卷积核对应的识别特征进行组合得到信息的识别特征时，将每个宽度对应的识别特征进行排列组合，得到一维的识别特征。

可选的，所述处理模块403还用于：

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解，可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器，以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的方法。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别信息的方法，其特征在于，该方法包括：

针对任意一个信息，确定该信息的字向量矩阵；

根据不同信息的识别特征的相似度进行信息识别。

2.如权利要求1所述的方法，其特征在于，不同宽度对应的卷积核的数量不同。

3.如权利要求2所述的方法，其特征在于，任意两个宽度中，宽度小的对应的卷积核的数量多。

4.如权利要求1所述的方法，其特征在于，所述将每个宽度对应的识别特征进行组合得到所述信息的识别特征，包括：

5.如权利要求1～4任一所述的方法，其特征在于，所述不同信息的识别特征的相似度包括目标信息和正样本信息的第一相似度，以及目标信息和负样本信息的第二相似度；

根据所述第一相似度和所述第二相似度确定损失值；

6.一种识别信息的设备，其特征在于，该设备包括：

针对任意一个信息，确定该信息的字向量矩阵；

根据不同信息的识别特征的相似度进行信息识别。

7.如权利要求6所述的设备，其特征在于，所述不同宽度对应的卷积核的数量不同。

8.如权利要求7所述的设备，其特征在于，任意两个宽度中，宽度小的对应的卷积核的数量多。

9.如权利要求6所述的设备，其特征在于，所述处理单元具体用于：

10.如权利要求6～9任意所述的设备，其特征在于，不同信息的识别特征的相似度包括目标信息和正样本信息的第一相似度，以及目标信息和负样本信息的第二相似度；

所述处理单元还用于：

11.一种识别信息的设备，其特征在于，该设备包括：