CN114118085B

CN114118085B - 一种文本信息的处理方法、装置及设备

Info

Publication number: CN114118085B
Application number: CN202210088375.2A
Authority: CN
Inventors: 梁矗; 郑铁樵; 张博
Original assignee: Cloudwise Beijing Technology Co Ltd
Current assignee: Cloudwise Beijing Technology Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-19
Anticipated expiration: 2042-01-26
Also published as: CN114118085A

Abstract

本发明的实施例提供一种文本信息的处理方法、装置及设备，所述方法包括：获取文本信息的句向量模型和词向量；根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；对所述第一词表进行压缩处理，得到压缩词表；根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果；本发明的实施例大大降低了模型参数量，同时保持模型精度，准确率损失少。

Description

一种文本信息的处理方法、装置及设备

技术领域

本发明涉及信息处理技术领域，特别是指一种文本信息的处理方法、装置及设备。

背景技术

word2vec是一种词嵌入方式，可将不可计算且非结构化的词转化为可计算且结构化的向量，可将自然语言处理问题转化为数学问题的基础，是常见的自然语言处理任务如文本分类、语义相似度计算、机器翻译等的前提；

基于类似word2vec思路，对句子级别内容实现向量化，即sentence2vec，以便后期使用时可以高效运算，比如寻找相似句子，常见的有下列方法：

对句子中出现的词对应的词向量通过映射参数矩阵，映射到句向量空间，得到句向量。但是这种方法在词表很大情况下，word2vec数据占用空间会非常大，比如一段英文的词向量维数300，包含单词和子词总数量200万，仅词向量文件大小是7GB，这在常见的应用场景，内存和计算资源有限的情况下，是不可用的。

另外，对于模型压缩的方法通常有知识蒸馏，网络剪枝以及低秩近似等，其存在的问题是可能会得不到预期的效果，效率也不高。同时，压缩后通常对模型性能损失比较严重，比如用低秩近似的方法词向量由300维变化到50维后，准确率降低30-40%；而另一种常见的模型压缩的方法是乘积量化，乘积量化的核心思想是，对权重进行聚类，类别用索引来表示，在原权重矩阵中用索引替代，但是这种模型压缩的方法不适用于句向量模型的词表压缩，词表的每一维度数据的改变都会影响整个词向量的表达精度。

发明内容

本发明提供了一种文本信息的处理方法、装置及设备。大大降低了模型参数量，同时保持模型精度，准确率损失少。

为解决上述技术问题，本发明的实施例提供以下方案：

一种文本信息的处理方法，所述方法包括：

获取文本信息的句向量模型和词向量；

根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；

对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；

对所述第一词表进行压缩处理，得到压缩词表；

根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果。

可选的，根据所述句向量模型和词向量，确定第一参数矩阵和第一词表，包括：

根据所述句向量模型和词向量，得到所述句向量模型的损失函数；

通过所述损失函数，确定第一参数矩阵和第一词表。

可选的，所述损失函数为

；其中，loss为损失函数，x₁:t是句向量模型的句子中t个词向量，y_n为句子的标签，A为第一词表，B为第一参数矩阵，n为句子的数量。

可选的，对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵，包括：

获取第一参数矩阵的维度和压缩参数；

根据所述维度和压缩参数，对第一参数矩阵的维度进行划分，得到至少两个子空间；

对所述子空间进行聚类处理，得到所述子空间对应的类中心；

根据所述类中心，生成量化编码矩阵。

可选的，对所述第一词表进行压缩处理，得到压缩词表，包括：

从所述第一词表中筛选出满足预设条件的词表子集作为压缩词表。

可选的，所述预设条件为

；

其中，W_s为标号为s的单词，S为第一词表的子集，K为词表大小，P为单词文档频率矩阵，P_1s为选取的词表中第s个词，在第1个文档中出现的次数，s.t.表示使

满足

的条件。

可选的，根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果，包括：

根据所述量化编码矩阵和所述压缩词表，对文本信息的句向量模型进行重新训练，得到目标句向量模型；

基于所述目标句向量模型，对文本信息进行处理，得到处理结果。

本发明还提供一种文本信息的处理装置，所述装置包括：

获取模块，用于获取文本信息的句向量模型和词向量；

处理模块，用于根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；对所述第一词表进行压缩处理，得到压缩词表；根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果。

本发明提供一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述的方法对应的操作。

本发明还提供一种计算机可读存储介质，存储有指令，所述指令在计算机上运行时，使得计算机执行如上述的方法。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过获取文本信息的句向量模型和词向量；根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；对所述第一词表进行压缩处理，得到压缩词表；根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果；大大降低了模型参数量，同时保持模型精度，准确率损失少。

附图说明

图1为本发明实施例的文本信息的处理方法的流程示意图；

图2为本发明提供的具体的实施例1中对第一参数矩阵进行乘积量化处理的流程示意图；

图3为本发明提供的具体的实施例2中对文件信息M的处理的流程示意图；

图4为本发明提供的具体的实施例3中对第一参数矩阵B的处理流程示意图；

图5为本发明实施例的文本信息的处理装置的模块示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明提供一种文本信息的处理方法，包括：

步骤11，获取文本信息的句向量模型和词向量；

步骤12，根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；

步骤13，对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；

步骤14，对所述第一词表进行压缩处理，得到压缩词表；

步骤15，根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果。

该实施例中，句向量模型表示文本信息的词向量到句向量的映射关系；词向量用于决定词表数量和词向量维度，并存储每个词的向量值；根据获取的文本信息的句向量模型和词向量，确定待处理的第一参数矩阵和第一词表，对第一参数矩阵进行乘积量化处理，得到量化编码矩阵，对第一词表进行压缩处理，得到压缩词表，根据压缩词表和量化编码矩阵，对文本信息按照目标任务进行处理，得到处理结果，这里的目标任务优选为文本分类、句子的语义相似度计算、句子的机器翻译等；大大降低了模型参数量，同时保持模型精度，准确率损失少。其中，句向量模型和词向量的总大小，决定了模型占用的存储空间和运行时的内存。

本发明一可选的实施例中，步骤12包括：

步骤121，根据所述句向量模型和词向量，得到所述句向量模型的损失函数；

步骤122，通过所述损失函数，确定第一参数矩阵和第一词表。

本实施例中，句向量模型优选为线性的向量生成模型，根据句向量模型和词向量可得到损失函数，进而根据损失函数确定第一参数矩阵和第一词表。

本发明一可选的实施例中，步骤121中的所述损失函数为

本实施例中，根据损失函数

可知，当文本信息的词表很大且输出空间较大的情况下，用于存储第一词表A和第一参数矩阵B的内存空间也较大，通常需要千兆字节，因此，进一步地，可以根据该损失函数确定需要对第一参数矩阵和第一词表进行处理。

本发明一可选的实施例中，步骤13包括：

步骤131，获取第一参数矩阵的维度和压缩参数；

步骤132，根据所述维度和压缩参数，对第一参数矩阵的维度进行划分，得到至少两个子空间；

步骤133，对所述子空间进行聚类处理，得到所述子空间对应的类中心；

步骤134，根据所述类中心，生成量化编码矩阵。

本实施例中，获取第一参数矩阵的维度和压缩参数，对第一参数矩阵的维度进行划分，得到至少两个子空间，例如，若第一参数矩阵的维度为N*128，对第一参数矩阵的维度进行划分，可将其划分为4个子空间，每个子空间的维度为32维；这里的压缩参数是指对第一参数矩阵压缩后的目标压缩参数；

进而对每个子空间进行聚类处理，该聚类处理的算法优选为K-Means聚类算法，每个子空间得到一个码本，句向量模型的每个子段都可以用子空间的聚类中心（可简称为类中心）来近似，对应的编码为聚类中心的ID（标识号）；最终，根据类中心，生成量化编码矩阵，即将第一参数矩阵中每行的参数仅用较短的编码表示；

进一步地，对于其他待编码的样本也可以进行维度划分，然后在各个子空间里逐一找到与之距离最近的聚类中心，然后用聚类中心的ID来表示，即可完成对待编码的样本的编码；

需要说明的是，对于输入的向量，计算输入向量和量化编码矩阵中个参数的距离，距离的计算通过间接近似的方法得到。

上述对第一参数矩阵进行乘积量化的过程是将第一参数矩阵的整个参数空间，用子空间类中心近似表示。对特征进行编码后，可以用一个相对比较短的编码来表示第一参数矩阵的每一行，对于内存的消耗要大大减少。

如图2所示，一个具体的实施例1中，第一参数矩阵的维度为N*128维，对N*128维的第一参数矩阵进行切分处理，得到N*4个子段*32维，这里的子段即为第一参数矩阵的子空间，每一个子段为N*32维，对4个子段进行聚类处理，得到256个类中心，进而生成N*4维的量化编码矩阵；

当输入向量时，该输入向量在量化编码矩阵中可以得到4*256个距离，在计算第一参数矩阵中任意行的参数到输入向量的距离时，并直接将对应ID的子段对应的距离取出；将所有子段对应的距离取出，并将所有子段对应的距离求和，进行排序，即可得到目标结果；

如编码为(24, 56, 32, 223)的行到输入向量的距离时，获取子段24对应的距离，则在256各类中心对应的距离集合中，将编号为24的距离取出，将编码为(24, 56, 32,223)中编号为56、32以及223的距离取出后，将编号为24、56、32以及223的子段的距离求和，即得到该编码到查询样本间的非对称距离，将编号为24、56、32以及223的子段的距离进行排序，即可得到目标结果；

该实施例中的原本的计算距离的次数为第一参数矩阵行数N成线性增长，但是经过编码后，对于耗时的距离计算，只要计算4*256次，几乎可以忽略此时间的消耗，大大减少了内存的消耗。

本发明一可选的实施例中，步骤14包括：

步骤141，从所述第一词表中筛选出满足预设条件的词表子集作为压缩词表。

本实施例中，预设条件是指在第一词表中找到一个子集S，该子集中的单词Ws之和在约束条件下最大化。

具体的，所述预设条件为

；

满足

的条件。

本实施例中，

即为约束条件，

是指在子集S内的单词W_s之和的最大值，该子集S为第一词表中的一个子集，P是一个矩阵，如果第s个单词在第d个文档中，则Pds=1，表示出现过1次，否则Pds=0。

需要说明的是，对文档进行压缩处理，首先判断已选的词表中是否已经覆盖该文档，若已覆盖，则跳过；若没有覆盖，则从该文档中选择词表中没有且优先程度最高的词加入到词表中，当所有的文档都覆盖之后，再依次挑选词表中没有且优先程度最高的词，直至到达设置的候选词集中词的数量K，这里的优先程度可以根据单词的信息熵值进行度量。

本发明一可选的实施例中，步骤15包括：

步骤151，根据所述量化编码矩阵和所述压缩词表，对文本信息的句向量模型进行重新训练，得到目标句向量模型；

步骤152，基于所述目标句向量模型，对文本信息进行处理，得到处理结果。

本实施例中，基于量化好的第一参数矩阵（量化编码矩阵）和压缩处理后的压缩词表，对句向量模型进行重训练处理，使得该句向量模型能够适应对文本信息进行处理的处理规则，固定句向量模型的量化编码矩阵和压缩词表，得到目标句向量模型；基于目标句向量模型对文本信息进行处理，得到处理结果。

如图3所示，一个具体的实施例2中，对文本信息M的处理如下所示：

步骤21，输入文本信息M的句向量模型和词向量文件；

步骤22，确定压缩目标为第一参数矩阵B和词表A；

步骤23，对第一参数矩阵B进行量化压缩；

步骤24，对词表A进行筛选；

步骤25，根据量化压缩后的第一参数矩阵B和筛选后的词表A，重新训练句向量模型并固定目标；

步骤26，将量化压缩后的第一参数矩阵B和筛选后的词表A输出。

如图4所示，一个具体的实施例3中，使用英文数据集，该英文数据集包含34,686,770 条商品评论，包含 6,643,669 名用户对 2,441,053 款产品的评价，其中每个类别分别包含 600,000 个训练样本和 130,000 个测试样本。数据字段如下表所示：

表1

对英文数据集进行处理，包括：

步骤31，输入句向量模型和词向量文件；句向量模型通过Smooth InverseFrequecy（平滑逆词频，简称SIF）模型进行处理，词向量通过Glove预训练词嵌入，该预训练词嵌入根据Glove模型进行训练。

步骤32，SIF模型的处理过程如下所示：

Algorithm 1 Sentence Embedding（算法1，句子嵌入）

Input：Word embeddings {v_w:w∈V},a set of sentences S,parameter a andestimated probabilities {p(w):w∈V} of the words.（输入：句子集S内的单词嵌入为{v_w:w∈V}，单词由参数a和词语在句子中出现的频率{p(w):w∈V}得到）

Output: Sentence embeddings {v_s:s∈S}（输出：句子嵌入为{v_s:s∈S}）

步骤1:for all sentence s in S do（步骤1：对于句子集S中的所有句子s）

步骤2:

步骤3:end for（步骤3：结束）

步骤4:Form a matrix X whose columns are {v_s:s∈S},and let u be itsfirst singular vector（步骤4：设置矩阵X，其列为{v_s:s∈S}，并让u作为第一个奇异变量）

步骤5:for all sentence s in S do（步骤5：对于句子集S中的所有句子s）

步骤6:v_s←v_s-uu^Tv_s

步骤7:end for（步骤7：结束）

根据上述SIF模型的处理过程，SIF取句子集S中词嵌入的平均权重，每个单词嵌入都由公式

进行加权，其中，参数a为常数，优选设置为0.01，而p(w)是单词在语料中预计出现的频率，步骤6中的uu^T即为参数压缩的第一参数矩阵B；

进一步地，Glove词向量文件glove.6B.200d.txt包含6B tokens, 词表400K，词向量维度200；文件每一行有一个单词，后面是它的词向量数据，数字用空格分割。如下所示：

is -0.2205 0.1434 0.0380 -0.0103 0.0335 -0.0281 -0.0058 -0.1392 -0.0246 -0.0377...

a -0.1623 0.1050 -0.0656 -0.0576 -0.1011 0.0227 0.0443 0.1195 0.06570.0781 -0.0971 ...

the 0.0247 0.0096 -0.1331 0.0595 -0.0229 0.0246 0.0036 -0.0068 -0.1512 -0.1103 0.0036...

for -0.1703 -0.2735 0.0931 -0.0286 -0.0561 0.0162 0.1482 -0.03810.0159 -0.3913 0.0162 ...

上述文件涵盖的词表是第一词表A。

步骤33，如图4所示，对第一参数矩阵B进行量化压缩，原始的第一参数矩阵B的维度为100w*200，压缩参数为k=4，b=8，将第一参数矩阵B分为4组，对每一组进行聚类处理，产生向量子空间聚类中心个数为256个（如0.0031 0.2374…用于表示聚类中心向量）；

进一步地，将向量用最近距离的聚类中心向量的ID进行表示，生成码表，可根据该码表拼接生成向量。

步骤34，对第一词表A进行筛选，第一词表A的原始大小为400000，词向量维度200，筛选后词表大小K=10000，词向量维度不变；筛选先保证词表覆盖训练数据，再根据词的重要程度选词；其重要程度可依据归一化的信息熵值衡量，如下表所示：

表2

根据表2可知，word（单词）一列为单词，Entropy（信息熵）一列为按照顺序排序后的信息熵，通过公式

，计算得到信息熵，其中，Pi为单词i在训练数据中的频率统计，即单词i在语料中预计出现的频率，信息熵用于对单词i在语料中预计出现的这一不确定性事件的衡量，通常低频词对出现会给带来更多对信息量；

Norm（归一化）是过滤掉一部分信息量小的词后对信息熵做归一化后的归一化值；通过公式

，计算得到归一化值；其中，归一化是指数据映射到指定的范围，用于去除不同维度放入量纲以及量纲单位，常见的映射范围有 [ 0, -1 ] 和 [ -1,1]，归一化值Norm越大表示词越重要；

根据归一化值由大到小对第一词表A进行选词直到第一词表A中的词数量K=10000。

步骤35，重新训练该英文数据集的句向量模型，并固定参数；

步骤36，根据句向量模型压缩前后效果进行对比，可见句向量模型的压缩将GB级文件减小到KB级，单在相似度任务上得分未见明显下降。

本发明的方案通过获取文本信息的句向量模型和词向量；根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；对所述第一词表进行压缩处理，得到压缩词表；根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果；大大降低了模型参数量，同时保持模型精度，准确率损失少。

如图5所示，本发明还提供一种文本信息的处理装置50，所述装置50包括：

获取模块51，用于获取文本信息的句向量模型和词向量；

处理模块52，用于根据所述句向量模型和词向量，确定第一参数矩阵和第一词表；对所述第一参数矩阵进行乘积量化处理，得到量化编码矩阵；对所述第一词表进行压缩处理，得到压缩词表；根据所述量化编码矩阵和所述压缩词表，对所述文本信息进行处理，得到处理结果。

通过所述损失函数，确定第一参数矩阵和第一词表。

可选的，所述损失函数为

获取第一参数矩阵的维度和压缩参数；

根据所述类中心，生成量化编码矩阵。

可选的，所述预设条件为

；

满足

的条件。

需要说明的是，该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的方法对应的操作。

本发明的实施例还提供一种计算机可读存储介质，存储有指令，所述指令在计算机上运行时，使得计算机执行如上所述的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。