CN117639792A

CN117639792A - 一种基于码表聚类的深度学习模型压缩方法

Info

Publication number: CN117639792A
Application number: CN202311590503.4A
Authority: CN
Inventors: 黄科杰; 邓军灿; 沈海斌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-01

Abstract

本发明提供了一种基于码表聚类的深度学习模型压缩方法，属于深度学习中的模型压缩领域。方法包括对模型权重使用码表聚类算法获得码表和索引并重构出压缩后的权重。本发明利用深度学习模型权重向量的重复性，基于码表聚类算法，获得低内存占用的码表和索引，实现极高的模型压缩率，降低模型存储的内存占用并保持良好的模型性能。

Description

一种基于码表聚类的深度学习模型压缩方法

技术领域

本发明涉及深度学习中的模型压缩领域，具体涉及一种基于码表聚类的深度学习模型压缩方法。

背景技术

深度学习在过去几年取得了显著进展，已经成为计算机视觉、自然语言处理、语音识别等领域的核心技术。然而，深度学习模型通常具有大量的参数和复杂的结构，这导致了巨大的计算资源消耗和高内存占用。随着深度学习应用逐渐延伸至资源受限的移动设备和边缘计算设备，模型压缩技术因而变得尤为重要。随着物联网设备、智能移动终端的普及以及边缘计算的兴起，对于在低功耗、有限计算能力的硬件上运行复杂的深度学习模型的需求急剧增加。在这些场景中，模型需要在保持高性能的同时，极大地压缩其计算和存储需求。此外，在数据中心和云服务中，模型压缩可以显著降低存储和传输成本，减少能量消耗，并提高***的扩展性和成本效益。

当前深度学习模型压缩的技术路径主要包括以下两种：权重剪枝：通过识别和移除神经网络中的神经元或连接，从而减少模型的存储需求。权重剪枝可以是无结构的(按参数方向删除权重)，也可以是有结构的(按层或通道方向删除权重)。模型量化：通过降低网络权重和激活的精度(例如，从32位浮点数到更低位宽的定点数)，可以显著减少模型大小和计算复杂性。模型剪枝和模型量化都属于有损压缩方法，因此在较高压缩率下可能会因信息损失过多而导致预测性能下降。

发明内容

为了克服现有模型压缩方法在较高压缩率下模型性能损失严重的问题，本发明提出一种基于码表聚类的深度学习模型压缩方法，用低内存占用的码表和索引重构模型权重，来实现同等甚至更好的模型推理效果。

本发明解决其技术问题所采用的技术方案如下：

本发明首先提供了一种基于码表聚类的深度学习模型压缩方法，包括如下步骤：

步骤S1：提取深度学习模型中线性层和卷积层的权重，将这些权重按输入通道方向切分，从而获得一系列权重向量；切分得到的权重向量的长度定义为V；

步骤S2：针对各个权重分别设置码表，码表尺寸为K*V，K为码表中码字的数量，使用码表聚类算法进行权重向量聚类，得到最终更新后的码表，权重向量聚类过程中每个权重向量分配得到索引，分配的索引为与该权重向量距离最短的码字在码表中的位置；

步骤S3：保存聚类完成的码表和索引以及原始深度学习模型中其他没有被压缩的数据，作为压缩后的模型；当运行压缩后的模型时，针对各个权重，使用其权重向量对应的索引去检索对应的码字，利用这些码字重构出与原始的权重尺寸相同的压缩后权重。

作为本发明的优选方案，步骤S1的线性层的权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/V个权重向量；卷积层的权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]，先对卷积层的权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]的卷积层的权重，然后按照输入通道切分，得到输出通道数*输入通道数*卷积核高度*卷积核宽度/V个权重向量。

作为本发明的优选方案，步骤S2中所述使用码表聚类算法进行权重向量聚类，具体过程为：

(2.1)随机选择K个权重向量作为码表的初始码字；

(2.2)计算各权重向量到各码字的欧几里得距离；对每个权重向量找到与其距离最短的码字，分配给各权重向量该码字的索引，所述该码字的索引即该码字在码表的位置；

计算的欧几里得距离公式为：

其中，W^m为权重中第m个权重向量，C^k为权重对应的码表中第k个码字，d(W^m,C^k)为W^m和C^k的欧几里得距离，和/>分别为W^m和C^k的第i个值；

(2.3)对分配了相同码字的索引的所有权重向量求平均值，作为该索引对应的码字的更新值；所述对相同码字的索引分配到的所有权重向量求平均值的公式为：

其中W∈C^k为相同码字的索引分配到的权重向量，|W∈C^k|为相同码字的索引分配到的权重向量的个数，为该索引对应码字的更新值；

(2.4)重复步骤(2.2)-(2.3)，直到码表和索引不再更新，则码表聚类算法完成，得到最终更新后的码表。

作为本发明的优选方案，步骤S2中各个权重分别使用一个码表。

作为本发明的优选方案，步骤S3中使用权重向量索引对应的码字来重构与原始权重尺寸相同的压缩后权重，公式为：

W^′＝C[I]

其中W^′为压缩后的权重，C为码表，I为总的权重向量对应的索引矩阵。

作为本发明的优选方案，待压缩的深度学习模型为语言大模型LLaMA-7B；该模型的线性层权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/V个权重向量，该模型的卷积层权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]；先对卷积层权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]，然后按照输入通道切分，得到(输出通道数*输入通道数*卷积核高度*卷积核宽度/V)个权重向量。

本发明的有益效果是：

1)本发明提出的一种基于码表聚类的深度学***衡。这意味着可以根据特定的应用场景和性能要求，定制模型的压缩程度。本发明不仅适用于线性层的权重，还可以扩展到卷积层，使其能够压缩各种类型的深度学习模型。这一点对于压缩由多种类型层组成的复杂模型比较有用。

2)本发明提出的一种基于码表聚类的深度学习模型聚类方法，其所有的步骤，从权重的提取和聚类到权重的重建都是自动进行的，大大减少了人工干预的需要和可能的人为错误。

3)本发明提出的一种基于码表聚类的深度学习模型压缩方法，是指使用内存占用较低的码表和索引重建模型权重的方法。当前各类深度学习模型的权重向量具有一定的重复性，这些重复的向量可以使用同一个共享向量来表示，并且使用相同的索引指向该共享向量，多个共享向量构成一个码表。由于码表和索引的内存占用比权重的内存占用低，因此基于码表聚类的模型压缩方法可以实现较高的压缩率。得益于对权重向量重复性的利用，采用码表和索引重构权重的模型能够在大幅压缩的同时，避免严重的性能损失。

附图说明

图1为基于码表聚类的深度学习模型压缩方法的流程图。

图2为权重按输入通道切分成权重向量的示意图。

图3为码表聚类算法的示意图。

图4为利用码表和索引重构模型权重的示意图。

图5为原始模型与本发明的方法压缩的模型的文本生成结果。

图6为不同方法的性能比较。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。所述实施例仅是本公开内容的示范且不圈定限制范围。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示的一种基于码表聚类的深度学习模型压缩方法的流程图，包括以下步骤：

步骤S2：针对各个权重分别设置码表，码表尺寸为K*V，使用码表聚类算法进行权重向量聚类，权重向量聚类的具体过程为：

(2.1)随机选择K个权重向量作为码表的初始码字；

(2.3)对分配了相同码字的索引的所有权重向量求平均值，作为该索引对应码字的更新值；

(2.4)重复步骤(2.2)-(2.3)，直到码表和索引不再更新，则码表聚类算法完成；

步骤S3：保存聚类完成的码表和索引以及原始深度学习模型中其他没有被压缩的数据，作为压缩后的模型；当运行压缩后的模型时，针对各个权重，使用其权重向量对应的索引去检索对应的码字，利用这些码字重构出与原始权重尺寸相同的压缩后权重。

步骤S1的示意图如图2所示，详细描述如下：步骤S1使用预训练大语言模型LLaMA-7B作为待压缩模型，模型内存占用量为12.38GB。将wikitext2和ptb这两个数据集作为测试集，验证时的批量大小为4，验证集的单文本长度为128。该模型线性层权重尺寸一般为[输出通道数，输入通道数]，按照输入通道切分成多个长度为V的权重向量，得到(输出通道数*输入通道数/V)个权重向量。该模型卷积层权重尺寸一般为[输出通道数，输入通道数，卷积核高度，卷积核宽度]，先对卷积层权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]，然后按照输入通道切分，得到(输出通道数*输入通道数*卷积核高度*卷积核宽度/V)个权重向量。切分得到的权重向量长度V设置为4。

步骤S2的示意图如图3所示，详细说明如下：各个权重分别使用一个K*V大小的码表，其中K和V分别为码表中码字数量和码字长度，码字长度与权重向量长度相同，码字数量K设置为32768。各权重向量到各码字的欧几里得距离公式为：

其中，W^m为权重中第m个权重向量，C^k为权重对应的码表中第k个码字，d(W^m,C^k)为W^m和C^k的欧几里得距离，和/>分别为W^m和C^k的第i个值。

具有相同索引的所有权重向量求平均值的公式为：

其中，W∈C^k为相同码字的索引分配到的权重向量，|W∈C^k|为具有同一码字索引的权重向量的个数，为该索引的更新值。

步骤S3的示意图如图4所示，详细说明如下：使用权重向量索引对应的码字来替换原权重向量的值，得到压缩后的权重，压缩后的权重的内存占用为：

其中，对于线性层，C_in为输入通道数，对于卷积层，C_in为输入通道数*卷积核高度*卷积核宽度；C_out为输出通道数，K和V分别为码表中码字数量和码字长度，T为模型未压缩权重的数据存储格式，M_W′为压缩后的权重的内存占用，M_W′的单位为字节(B)。

最后对压缩后的模型进行性能测试，计算压缩率，验证模型压缩效果。权重压缩前后的压缩率公式为：

其中，对于线性层，C_in为输入通道数，对于卷积层，C_in为输入通道数*卷积核高度*卷积核宽度；C_out为输出通道数，T为模型未压缩权重的数据存储格式。

本发明实施例采用定性和定量两方面评价本发明的技术效果。其中，定性评价主要采用直观的视觉检查方法来评估模型生成文本的质量。这一过程涉及对生成的文本进行仔细审阅，以检测是否出现了逻辑不连贯或不合理的情况，例如文本中的论点是否自相矛盾，或是叙述是否存在明显的逻辑断层。同时还检查文本是否仅提供了表面信息而没有深入探讨问题的各个方面。此外，定性评价还检查生成文本的流畅性和自然性，比如是否使用了人类可轻易理解和接受的语言，句子结构是否合理，以及文本是否表达清晰、无歧义。还需要检查文本是否具有创造性和独到见解，例如能否提供新颖的观点或解决方案，而不是仅重复常见或陈词滥调的观点。

为了定量评价其性能，采用了困惑度PPL进行评估。困惑度PPL用来量化生成文本和真实文本的差异，PPL值越小表明语言模型的性能越好，即压缩性能越好。困惑度PPL是交叉熵损失函数的指数形式，大语言模型为一系列词w₁,w₂,…,w_N分配概率，则困惑度的计算公式:

其中，W是整个词序列，w_i是词序列中的第i个词，p(w_i∣w₁,w₂,…,w_i-1)是模型基于第i个词前面的所有词分配给第i个词的条件概率，N是词序列中的词总数，log是底为10的对数函数，exp(.)是底为e的指数函数。

本发明的定性评价结果如下：实施例使用尺寸为32768*4的码表分别压缩了预训练大语言模型LLaMA-7B的各个线性层权重和卷积层权重，原始模型的内存占用量为12.38GB，压缩后模型的内存占用量为2.98GB，压缩率为75.91％。原始模型的生成文本如图5上半部分所示，压缩后模型的生成文本如图5下半部分所示。由图5可知，实施例的压缩后模型可以在较高的压缩率下生成合理且有深度的文本，说明本发明提出的方法可以有效地压缩模型并保持性能。

本发明的定量评价结果如下：实施例使用尺寸为32768*4的码表分别压缩了预训练大语言模型LLaMA-7B的线性层权重和卷积层权重，原始模型的内存占用量为12.38GB，压缩后模型的内存占用量为2.98GB，压缩率为75.91％，其在wikitext2数据集上的困惑度PPL为14.4，在ptb数据集上的困惑度PPL为59.0。困惑度PPL与其他方法的对比如图6所示，本发明以相同甚至更高的压缩率取得了更低的困惑度PPL值，即获得了更像真实世界文本的文本生成效果，说明本发明压缩性能更好。

以上结合具体实例对本发明的具体实施方式作了进一步的详细说明，所述内容均为对本发明的解释，凡是属于本发明思路下的技术方案均属于本发明的保护范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于码表聚类的深度学习模型压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S1的线性层的权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/V个权重向量；卷积层的权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]，先对卷积层的权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]的卷积层的权重，然后按照输入通道切分，得到输出通道数*输入通道数*卷积核高度*卷积核宽度/V个权重向量。

3.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S2中所述使用码表聚类算法进行权重向量聚类，具体过程为：

(2.1)随机选择K个权重向量作为码表的初始码字；

(2.3)对分配了相同码字的索引的所有权重向量求平均值，作为该索引对应的码字的更新值；

4.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S2中各个权重分别使用一个码表。

5.根据权利要求3所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S2中计算的欧几里得距离公式为：

6.根据权利要求3所述的基于码表聚类的深度学***均值的公式为：

其中W∈C^k为相同码字的索引分配到的权重向量，|W∈C^k|为相同码字的索引分配到的权重向量的个数，为该索引对应码字的更新值。

7.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S3中使用权重向量索引对应的码字来重构与原始权重尺寸相同的压缩后权重，公式为：

W^′＝C[I]

8.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，待压缩的深度学习模型为语言大模型LLaMA-7B。