CN112328784A

CN112328784A - 数据信息分类方法及装置

Info

Publication number: CN112328784A
Application number: CN201910717439.9A
Authority: CN
Inventors: 陈成才
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-05
Anticipated expiration: 2039-08-05
Also published as: CN112328784B

Abstract

本发明提供了一种数据信息分类方法及装置，所述方法包括：获取待分类的文本信息；对文本信息依次进行向量化处理、融合处理以及全局平均池化处理，得到每个特征向量对应的聚合信息；利用两个全连接网络对聚合信息进行筛选处理，得到每个特征向量对应的筛选参数；根据筛选参数判断特征向量是否为噪声特征，若是，则将特征向量屏蔽，并更新剩余的特征向量，得到更新后的特征向量；根据更新后的特征向量，更新多个方面的表示特征；对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；根据目标特征得到文本信息的分类信息。本发明可以更加全面、准确地实现分类目的，且方法简单高效，成本低廉。

Description

数据信息分类方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种数据信息分类方法、数据信息分类装置、存储介质及电子设备。

背景技术

随着信息时代的飞速发展，在互联网上拥有的信息资源越来越丰富，信息数据规模越来越巨大，表现形式也越来越多样。但是，对于海量的信息数据资源来说，其中的绝大部分都只能被人类所理解，机器对于这些信息的理解仍十分困难，特别是数量庞大的文本数据，自然语言理解也一直是非常热门的研究领域。

在自然语言处理过程中，文本分类作为内容分类、情感分析、主题识别等应用的基础，显得尤为重要。尤其是在数据分析领域，通常需要数据进行分类，然后对已分类的数据进行进一步处理。例如在智能交互中对交互日志的数据分析过程中，就需要对分类后的交互日志进行进一步的分析处理。

文本分类首先要根据文本内容分词，将分词转化为向量表示，现有技术包括SVM(支持向量机)，Logistics(逻辑)，RandomForest(随机森林)，Bayes(贝叶斯)，KNN(最临近)。SVM，Logistics，RandomForest是基于词向量方式的高维判别模型，对特征依赖比较强。Bayes，KNN基于统计方式的贝叶斯模型，高维判别模型主要问题就在于向量表达上无法表征完全文本的语义信息，而贝叶斯模型的决策边界确定是非常困难的。

因此，如何准确高效地实现数据信息的分类就成为本领域技术人员亟待解决的技术问题之一。

发明内容

为了解决上述问题，本发明提出一种数据信息分类方法、数据信息分类装置、存储介质及电子设备，以提高数据信息分类的准确率和效率。

根据上述目的，本发明实施例提供了一种数据信息分类方法，包括以下步骤：

获取待分类的文本信息；

对所述文本信息进行向量化处理，得到所述文本信息对应的文本向量；

对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征；

对所述表示特征中包括的特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

根据更新后的所述特征向量，更新所述多个方面的表示特征；

对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

根据所述目标特征得到所述文本信息的分类信息。

可选地，对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征采用以下公式处理：

其中，h_i为第i个方面的所述表示特征，i的取值范围为[1,l]，l为预设次数，v为所述文本向量，d_v为构成所述文本向量的单独词的数目，W_i ^Q、

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。

可选地，所述降维处理包括：

将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道；

对于每一所述单独通道，通过下述公式计算所述目标特征中的每个特征向量：

c_j＝f(w_f·h_(i：i+n-1)+b_f)

其中，j的取值范围为[1,m]，c_j表示所述融合特征中的第j项特征向量，m为卷积核的个数，f为非线性函数，w_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征；

根据计算得到的m个特征向量生成所述目标特征。

可选地，根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量采用以下公式处理：

其中，所述c_j表示第j项所述特征向量，所述x_j为所述c_j对应的所述更新后的特征向量，所述s_j为所述c_j对应的所述筛选参数。

可选地，根据所述目标特征得到所述文本信息的分类信息包括：

获取所述目标特征包括的每个特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

根据所述突出特征，获取高层特征集合；

根据所述高层特征集合，利用全连接网络预测所述文本信息的每个类别概率向量；

将所述类别概率向量中最大的元素对应的类别作为所述文本信息的分类信息。

可选地，所述根据所述高层特征集合，利用全连接网络预测所述文本信息的每个类别概率向量采用以下公式处理：

其中，y为类别概率向量，W_p为全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，q为所述高层特征集合，b_p为偏置参数。

可选地，所述待分类的文本信息为一个句子。

根据上述目的，本发明实施例还提供了一种数据信息分类装置，包括：

输入模块，用于获取待分类的文本信息；

向量化模块，用于对所述文本信息进行向量化处理，得到所述文本信息对应的文本向量；

融合模块，用于对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征；

池化模块，用于对所述表示特征中包括的特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

筛选模块，用于利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

去噪模块，用于根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

更新模块，用于根据更新后的所述特征向量，更新所述多个方面的表示特征；

降维模块，用于对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

输出模块，用于根据所述目标特征得到所述文本信息的分类信息。

根据上述目的，本发明实施例还提供了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述数据信息分类方法的步骤。

根据上述目的，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述数据信息分类方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理，得到一个目标特征，然后根据该目标特征得到待处理文本信息的分类信息，由于增加了筛选处理以及对特征向量的去噪更新步骤，从而去除了后续分类的噪声特征，最终可以更加全面、准确地实现分类目的，且方法简单高效，成本低廉。

附图说明

图1为本发明实施例一中数据信息分类方法的流程示意图；

图2为本发明实施例二中数据信息分类装置的结构示意图；

图3为本发明实施例三中电子设备的结构示意图。

具体实施方式

如背景技术中所述，现有分类技术的准确率比较差，且分类效率比较低。

为解决上述技术问题，本发明采用的技术方案对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理，得到一个目标特征，然后根据该目标特征得到待处理文本信息的分类信息，由于增加了筛选处理以及对特征向量的去噪更新步骤，从而去除了后续分类的噪声特征，最终可以更加全面、准确地实现分类目的，且方法简单高效，成本低廉。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

实施例一

如图1所示，本实施例提供了一种数据信息分类方法，包括以下步骤：

步骤S10，获取待分类的文本信息；

步骤S20，对所述文本信息进行向量化处理，得到所述文本信息对应的文本向量；

步骤S30，对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征；

步骤S40，对所述表示特征中包括的特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

步骤S50，利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

步骤S60，根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

步骤S70，根据更新后的所述特征向量，更新所述多个方面的表示特征；

步骤S80，对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

步骤S90，根据所述目标特征得到所述文本信息的分类信息。

首先执行步骤S10，获取待分类的文本信息。

所述待分类的文本信息既可以是长文本信息，也可以是短文本信息。

本实施例中可以通过语音识别获取用户的语音信息，再通过语音转文本技术获取对应的文本信息，该文本信息即为待分类的文本信息，其为一个句子(即短文本信息)。

需要说明的是，在本发明的其它实施例中，还可以采用其它方式获取待分类的文本信息，在此不再赘述。

接着执行步骤S20，对所述文本信息进行向量化处理，得到所述文本信息对应的文本向量。

本实施例中先对待处理的句子进行分词，得到多个单独词；再对每个单独词进行词性标注，获得词性标注结果，如：名词、动词等；还可以对每个单独词进行实体识别，获得实体识别结果，如：人名、地名、机构名、时间等；将分词结果输入预设词向量模型，以得到每个单独词的词向量；将词性标注结果输入预设词性向量模型，以得到每个单独词的词性向量；将实体识别结果输入预设实体向量模型，以得到每个单独词的实体结果向量，将每个单独词的词向量、词性向量和实体结果向量拼接在一起的向量集合作为句向量(即文本信息的文本向量)。

所述预设词向量模型、预设词性向量模型以及预设实体向量模型均可以采用Word2vec、FastText等工具训练得到，其对于本领域技术人员是熟知的，在此不再赘述。

需要说明的是，在本发明的其它实施例中，所述文本向量可以仅通过词向量拼接而成，即此时不考虑词性以及是否为实体信息；还可以仅通过词向量与词性向量拼接而成，即此时不考虑是否为实体信息；又可以仅通过词向量与实体结果向量拼接而成，即此时不考虑词性信息，其都在本发明的包含范围之内；又可以由词向量与词性向量、实体结果向量之外的其它一个或多个特征向量拼接而成，其都在本发明的保护范围内。

此外，本实施例在进行分词处理以及词性标注处理之后还可以将语气词、助词、停用词等无用词滤除，再进行句向量的计算，从而在不影响准确率的前提下，减少后续的数据处理量，提高分类效率。

接着执行步骤S30，对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征。

本实施例根据句向量提取所述句子多个方面的表示特征。传统的特征提取通常只关注句子或实体的一个方面，缺乏多角度、多方面的特征分析。而本实施例中将自注意力机制与多头机制相结合来实现对句子和实体的不同方面的表示，在多头机制中，每一“头”即表示一种方面，各“头”之间的运算参数相互独立，通过多头来自动学习句子不同方面的特征，从而使得到的句子特征更加充分和全面。

在一个具体例子中，对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征采用以下公式处理：

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得，T为转置，softmax为softmax激活函数。W_i ^Q、

和

的维度均相同，其具体的训练方法对本领域技术人员是熟知的，在此不再赘述。

其中，预设次数l的取值在5-12之间，比如：5、7、9、12等。若预设次数的取值过小，则不能很好地体现出多方面特征的效果，而预设次数的取值太大时，则会产生不必要的冗余，增加计算负担，因而发明人经过创造性的劳动发现：当选取5-12种不同角度的特征表示时，所能获得的分类效果比较理想。

上述方式的优势在于其能够将单个序列中不同位置的元素联系起来，可以很灵活地表现长距离依赖和本地依赖的情况，进而很好地描述词语间的关系，提高后续分类的准确性。

在另一个具体例子中，对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征采用以下公式处理：

其中，h_i为第i个方面的所述表示特征，i的取值范围为[1,l]，l为预设次数，v为所述文本向量，W_i ^Q、

和

和

接着执行步骤S40，对所述表示特征中包括的特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息。

由于所述表示特征中各特征向量对于分类的重要性具有差异，因而采用全局平均池化的方式，将全局的特征信息聚合到一层聚合信息中，具体可以采用下面的公式，

其中，Z_j为特征向量c_j对应的池化后的聚合信息，M×N为向量c_j的维度。

接着执行步骤S50，利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数。

为了限制模型的复杂度，同时将非线性矩阵引入计算，本实施例中采用了两个全连接网络来获取特征向量对应的筛选参数，以用来判断该特征向量是否为噪声特征。

为了充分利用聚合信息，并获得全局的特征依赖分布，在进行特征筛选时，需要选择一种灵活、非互斥的门限机制，以获取判断该特征向量是否为噪声的筛选参数。具体可以分别采用ReLu函数和softsign函数作为两个全连接网络的激活函数，如下述公式所示：

s_j＝softsign(w₂ReLu(W₁z_j))

其中，Z_j为特征向量c_j对应的筛选参数，W₁、W₂分别为两个全连接网络的参数矩阵。采用softsign函数作为激活函数不仅能够适合各种情况的特征分布，又允许强调足够多种类的类型特征，可以将特征的筛选参数映射到-1至+1之间。

接着执行步骤S60，根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

具体地，采用以下公式处理：

接着执行步骤S70，根据更新后的所述特征向量，更新所述多个方面的表示特征。

本实施例中筛选过程的最终输出是通过屏蔽转换的，将被softsign函数映射为负数的特征向量转换为0向量，以达到屏蔽噪声的目的。若筛选参数s_j＝0，则无论哪种情况，最终x_j均会被转换为0向量，从而在后续步骤中，用更新后的特征向量x_j更新原本的表示特征，得到新的表示特征

用于后续分类处理。这样一来，更新后的表示特征中，噪声特征已经被屏蔽，剩余的有价值的特征参数更加具有针对性，不仅降低了计算压力，也使得结果受到的干扰更少，提高了准确性。

接着执行步骤S80，对更新后的多个方面的表示特征进行降维处理，得到一个目标特征。

本实施例中所述降维处理可以包括：

c_j＝f(w_f·h_(i：i+n-1)+b_f)

根据计算得到的m个特征向量生成所述目标特征。

最后执行步骤S90，根据所述目标特征得到所述文本信息的分类信息。

具体地，本实施例根据所述目标特征得到所述文本信息的分类信息可以包括以下步骤：

获取所述目标特征包括的每个特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值，即突出特征

相当于取特征向量中各元素的最大值和平均值，连接组成突出特征向量；

根据所述突出特征，获取高层特征集合，即高层特征集合

根据所述高层特征集合，利用全连接网络预测所述文本信息的每个类别概率向量，即

其中，y为类别概率向量，w_p为全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，q为高层特征集合，b_p为偏置参数，符号

表示的是两个矩阵逐元素相乘的操作；

类别概率向量中每一个元素代表了该句子相对于某一类别结果可能性的概率，其中每一坐标确定的元素预设了一种分类结果。通过上述公式可以学习得到每种可能的分类结果具体的概率值。

这里在前向传播的过程中，采用了dropout算法代替普通的向前传播的计算方式，dropout不会对代价函数进行修改，而是对深度网络本身进行调整，通过遮蔽向量r随机屏蔽掉部分神经元，因而能够有效地提升算法的泛化能力。

本实施例预先建立好多个类别信息，进而通过步骤S90从预设的多个类别信息中计算得到与待处理文本信息对应的类别信息作为该文本信息的类别结果(即分类信息)。

综上，本实施例对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理，得到一个目标特征，然后根据该目标特征得到待处理文本信息的分类信息，由于增加了筛选处理以及对特征向量的去噪更新步骤，从而去除了后续分类的噪声特征，最终可以更加全面、准确地实现分类目的，且方法简单高效，成本低廉。

实施例二

如图2所示，本实施例提供了一种数据信息分类装置，包括：

输入模块100，用于获取待分类的文本信息；

向量化模块200，用于对所述文本信息进行向量化处理，得到所述文本信息对应的文本向量；

融合模块300，用于对所述文本向量进行融合处理，得到所述文本信息的多个方面的表示特征；

池化模块400，用于对所述表示特征中包括的特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

筛选模块500，用于利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

去噪模块600，用于根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

更新模块700，用于根据更新后的所述特征向量，更新所述多个方面的表示特征；

降维模块800，用于对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

输出模块900，用于根据所述目标特征得到所述文本信息的分类信息。

其中，所述融合模块300可以采用以下公式处理：

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得

其中，所述降维模块800可以通过下述公式计算所述目标特征中的每个特征向量：

c_j＝f(w_f·h_(i：i+n-1)+b_f)

根据计算得到的m个特征向量生成所述目标特征。

其中，所述去噪模块600可以采用以下公式处理：

其中，所述输出模块900可以包括：

突出特征计算单元，用于获取所述目标特征包括的每个特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

特征集合计算单元，用于根据所述突出特征，获取高层特征集合；

网络预测单元，用于根据所述高层特征集合，利用全连接网络预测所述文本信息的每个类别概率向量；

类别确定单元，用于将所述类别概率向量中最大的元素对应的类别作为所述文本信息的分类信息。

其中，所述网络预测单元可以采用以下公式处理：

其中，所述待分类的文本信息可以为一个句子。

本实施例中输入模块100、向量化模块200、融合模块300、池化模块400、筛选模块500、去噪模块600、更新模块700、降维模块800和输出模块900的具体工作过程可以分别参考实施例一中的步骤S10、步骤S20、步骤S30、步骤S40、步骤S50、步骤S60、步骤S70、步骤S80和步骤S90，在此不再赘述。

实施例三

如图3所示，本实施例提供一种电子设备90，包括：一个或多个处理器91和存储器92；以及存储在存储器92中的计算机程序指令，计算机程序指令在被处理器91运行时使得处理器91执行实施例一所述的数据信息分类方法的各步骤。

需要说明的是，根据本申请实施例的数据信息分类装置可以作为一个软件模块和/或硬件模块而集成到电子设备90中，换言之，该电子设备90可以包括该数据信息分类装置。例如，该数据信息分类装置可以是该电子设备90的操作***中的一个软件模块，或者可以是针对于其所开发的一个应用程序；当然，该数据信息分类装置同样可以是该电子设备90的众多硬件模块之一。

在其它例子中，该数据信息分类装置与该电子设备90也可以是分立的设备(例如，服务器)，并且该数据信息分类装置可以通过有线和/或无线网络连接到该电子设备90，并且按照约定的数据格式来传输交互信息。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本申请的各个实施例的数据信息分类装置中的步骤以及/或者其他期望的功能。

在一个示例中，电子设备90还可以包括：输入装置93和输出装置94，这些组件通过总线***和/或其他形式的连接机构(图3中未示出)互连。

该输出装置94可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备90中与本申请有关的组件中的一些，省略了诸如总线、输入装置/输出接口等组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的数据信息分类方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述数据信息分类装置部分中描述的根据本申请各种实施例的数据信息分类方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要指出的是，在本申请的装置和设备中，各部件是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。