CN111382581A

CN111382581A - 一种机器翻译中的一次剪枝压缩方法

Info

Publication number: CN111382581A
Application number: CN202010068169.6A
Authority: CN
Inventors: 宁义明; 朱靖波; 肖桐; 张春良
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-07-07
Anticipated expiration: 2040-01-21
Also published as: CN111382581B

Abstract

本发明公开一种机器翻译中的一次剪枝压缩方法，包括以下步骤：1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c，矩阵c的值表示是否对其对应的模型连接进行剪枝操作；2)通过损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前κ个导数值的路径连接，其中κ是模型稀疏度；3)在一个批次的训练数据上进行一次前馈与反馈过程，从中学习到适应翻译模型的矩阵c；4)使用求得的矩阵c优化后续的模型计算，并达到更少的存储消耗。本发明剪枝方法在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，克服了以往剪枝方法需要多次迭代的弊端，只需要在一个批次的训练数据上使用一次前馈与反馈就可以得到最终的剪枝结构。

Description

一种机器翻译中的一次剪枝压缩方法

技术领域

本发明涉及一种神经机器翻译压缩技术，具体为一种机器翻译中的一次剪枝压缩方法。

背景技术

机器翻译(Machine Translation或MT)又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

纵观机器翻译的发展历程，机器翻译使用技术经历了几次变化，最早使用的是规则法(rule based machine translation,RBMT)通过制定大量的语法规则来进行双语翻译，这种方式虽然取得了一定的成果，但是其中的某些方法实现很困难，基于规则的翻译器在翻译结果上的表现也很单一，对于语言在多种语境下的处理不够灵活。同时此方法逐渐暴露出了一些其他的问题，比如，人工书写的规则覆盖度有限、规则数量增加导致的冲突、语种扩充困难等问题。虽然随后兴起的基于实例的方法可以一定程度上缓解以上问题，但是问题仍然没有得到根本解决。在上世纪九十年代初，统计法(statistical machinetranslation,SMT)的出现取代了传统的规则法。统计方法对大量平行句对分析，构建统计翻译模型，这种通过数学手段对翻译问题建模的方式改善了需要使用大量规则的弊端，所以***的鲁棒性和扩展性都大大增强了。但是基于统计的方法对建模方式以及数据都有很强的依赖，虽然相较于规则的方法来说基于统计的方法变得灵活了许多，但是一个好的模型仍然对许多先验的设置存在较高的要求。

相比传统的基于统计的机器翻译方法，神经机器翻译***只需要将模型与一部分超参数设置好就能取得较好的效果，如果模型的表示能力够强，并且由足够的设备，那么神经机器翻译***将会自动地把数据中的特征抽取出来。相较于基于规则的方法与基于统计的方法，神经机器翻译具有更好的鲁棒性，并且算法会自动学习数据中的知识，而不是通过预先的规则设定。但由于神经网络本身的特点，其内部存在着大量的矩阵运算，因此其在使用的过程中会更加耗时。并且对于资源受限的小型设备，计算与存储的优化更为关键，因此神经机器翻译***的解码优化也成为翻译***能否实用化的关键。

传统的机器翻译剪枝方法在实际使用中解码速度慢，模型存储消耗大，实用性差，不能满足翻译软件实时响应的需求。尽管大网络具有良好的性能，但是随着移动设备越来越普及，小设备移动性强，消耗低的有点渐渐显露，能否在资源受限设备上使用机器翻译方法变成了机器翻译技术应用的关键问题，在传统的剪枝方法中，剪枝需要在模型上进行反复的迭代才能取得最好的剪枝结果，这限制了机器翻译技术的应用，阻碍了机器翻译技术的发展。

发明内容

针对现有技术中机器翻译的方法在实际使用中解码速度慢，模型存储消耗大，不能满足翻译软件实时响应的需求等不足，本发明要将解决的技术问题是提供一种在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，能够在快速推理的最新实现基础上，且在模型性能几乎没有下降的前提下，降低存储消耗。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种机器翻译中的一次剪枝压缩方法，于包括以下步骤：

1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c，矩阵c的值表示是否对其对应的模型连接进行剪枝操作；

2)通过损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前κ个导数值更大的路径连接，其中κ是模型稀疏度；

3)在一个批次的训练数据上进行一次前馈与反馈过程，从中学习到适应翻译模型的矩阵c；

4)使用求得的矩阵c优化后续的模型计算，并达到更少的存储消耗。

矩阵c与机器翻译模型中自注意力部分的参数和损失函数的关系为：

c∈{0,1}^m,‖c‖₀≤κ

矩阵c与自注意力部分的参数ω维度相同，当矩阵c对应元素取值为1时表示该路径保留，当矩阵c对应元素取值为0时表示该路径被剪枝，D为机器翻译模型学习剪枝结构过程所需要的训练数据集，通常为一个批次大小的数据集，(x_i,y_i)为训练数据集D中的第i个数据对，n为训练数据集D的总数据对个数，i为训练数据集D的第i个数据对，

表示求出使得L最小的c和ω，l为第i个数据的损失函数，m表示参数ω是m维的，κ是模型稀疏度；

上述公式表示使用n个句对对损失函数训练，在训练过程中得到令损失函数最小的矩阵c。

步骤2)中通过损失函数对矩阵c求导，对导数值进行由大到小的排序，进而对通过自动微分学习模型最优矩阵c，具体为：

201)通过下述公式衡量第j个连接在模型中的有效程度，公式为：

ΔL_j(ω；D)＝L(1⊙ω；D)-L((1-e_j)⊙ω；D)

其中e_j表示一个除列索引号j为1以外元素全部为0的列向量，该公式中L(1⊙ω；D)计算了模型自注意力部分的损失函数值，L((1-e_j)⊙ω；D)计算了模型对连接j剪枝之后的损失函数值；

202)通过连接敏感度g_j(ω；D)代替ΔL_j(ω；D)的计算，通过下述公式，使得模型可以通过自动微分在一次前馈与反馈中学习得到矩阵c，公式为：

上述公式将不可微分的离散形式用可微分的连续形势近似代替，通过该公式可以使用自动微分，使用部分数据进行一次前馈与反馈得到矩阵c，δ为一个极小值；

203)选取所有连接的g_j(ω；D)中最大的κ个保留，公式为：

是向量s中第κ大的元素，1[·]是示性函数。

步骤3)中，使用一次前馈与反馈在部分数据上完成矩阵c的训练，只需要在一个批次的训练数据上使用一次前馈与反馈即可。

步骤4)中，训练得到矩阵c后，矩阵c使矩阵ω成为稀疏矩阵，在剪枝后的训练过程中使用稀疏矩阵进行训练与存储，使得模型更为高效。

本发明具有以下有益效果及优点：

1.本发明方法在机器翻译上凭借连接敏感度进行一次剪枝压缩，通过度量一个连接在未剪枝时损失函数的值与剪枝后损失函数的值的差值大小，来定义该连接对于模型整体结构的重要性，当剪枝前与剪枝后损失函数的差值较大时，说明该连接的表示能力更强，对于该模型来说更加重要。不同于以往的剪枝方法，该剪枝方法通过优化连接敏感度计算公式，可以一次剪枝模型，并且不需要多次迭代。

2.本发明提出的在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，克服了以往剪枝方法需要多次迭代的弊端，本方法只需要在一个批次的训练数据上使用一次前馈与反馈就可以得到最终的剪枝结构。

3.本发明提出的在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，学习到对于模型结构合适的矩阵c，该矩阵c对于不同的数据以及不同的任务均有较好的鲁棒性。

4.本发明提出在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，该算法预计取得50％的压缩效果，同时模型性能几乎没有下降。

附图说明

图1为本发明方法涉及的自注意力计算图示；

图2为本发明方法涉及的一次剪枝计算示意图；

图3为本发明方法涉及的训练网络的流程图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图3所示，本发明一种机器翻译中的一次剪枝压缩方法，包括以下步骤：

2)通过损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前k个导数值的路径连接，其中κ是模型稀疏度；

本发明中，矩阵c与机器翻译模型中自注意力部分的参数和损失函数的关系为：

c∈{0,1}^m,‖c‖₀≤κ

本发明从模型结构的角度度量模型中连接的重要性，通过连接敏感度g_j(ω；D)进行一次剪枝，旨在以较小性能损失为代价，大幅度降低模型存储消耗，同时减少剪枝过程的复杂度，达到性能和压缩大小上的平衡。

步骤1)中，使用经典的transformer多层神经机器翻译的模型，包括编码器和解码器，编码器的每一层由self-attention加一层全连接组成，解码器由一层自注意力加编码器到解码器的注意力，再加一层全连接组成。6层编码器与6层解码器堆叠成transformer模型。

其中自注意力的计算公式为

其中softmax()函数为归一化函数，Q为查询矩阵，K与V为键值对矩阵，为了简化描述接下来使用Z代替Attenstion(Q,K,V)函数。

模型自注意力的计算如图1所示，以编码器为例，模型的编码端输入为词嵌入，分别乘以三个不同的参数矩阵WQ、WK、WV后，词嵌入矩阵将会变为Q、K、V三个参数矩阵，并通过上述attention函数进行计算，经过attention函数计算过后，再经过一个含激活函数的两层全连接层进行非线性变换，得到的矩阵作为下一层的编码器的输入，并再次进行上述计算，循环6次，也就是经过6个编码器的计算得到编码数据。在一般使用的transformer模型中，通常使用多头的注意力来加速计算。对解码端的计算与编码端类似，其中与编码端不同的是，编码端到解码端的自注意力，它的计算方式是，使用解码端上一层attention输出的矩阵乘以WQ得到Q矩阵，使用对应层的编码端输出的矩阵乘以WK、WV得到K、V矩阵，此时Q、K、V矩阵分别来自于解码端、编码端、编码端，使用attention函数对上述新的三个矩阵进行计算，将得到计算结果输入该层解码端的全连接网络。在此次的剪枝方法中，通过学习额外的矩阵c对编码端与解码端中经过attention函数计算后的矩阵进行稀疏化，并通过学习矩阵c的具体数值，来决定如何对编码端与解码端中的自注意力层进行稀疏化。c是一个与自注意力层参数矩阵维度相同的矩阵，模型中对应的参数矩阵经过与矩阵c点乘后，参数矩阵的部分数值将会被置为0，这就得到了稀疏的参数矩阵，此时模型的存储需求都降低了，可以通过为稀疏矩阵设计的特殊存储方式优化稀疏矩阵的存储。参数矩阵最开始的值均由随机初始化确定，矩阵c初始时为全1矩阵，表示此时网络与原网络结构相同，不进行任何剪枝操作。对原网络的剪枝问题可以抽象成选择一个矩阵c，并在该矩阵c剪枝的网络中寻找最优的参数矩阵ω使得模型的损失函数函数取值最小，其公式化描述为：

c∈{0,1}^m,‖c‖₀≤κ

当c矩阵对应元素取值为1时表示该路径保留，当c矩阵对应元素取值为0时表示该路径被剪枝，

表示参数矩阵ω的值取自实数集

并且本方法在更新c的过程中参数ω保持不变，所以该过程会得到一个使得损失函数最小的矩阵c。

步骤2)中使用损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前k个导数值的路径连接，其中κ是模型稀疏度，具体步骤为：

首先通过有无该连接对损失函数的影响大小来定义出模型中比较重要的连接，再优化该公式使用其计算模型损失函数对矩阵c的导数，进而对通过自动微分学习模型最优矩阵c，具体为：

201)通过下述公式表示连接j在模型中的有效程度，公式为：

ΔL_j(ω；D)＝L(1⊙ω；D)-L((1-e_j)⊙ω；D)

e_j表示一个除j为1以外元素全部为0的列向量，该公式中等式右侧前半部分计算了模型自注意力时的损失函数值，后半部分计算了模型对连接j剪枝之后的损失函数值；

202)通过g_j(ω；D)代替ΔL_j(ω；D)的计算，通过下述公式，使得模型可以通过自动微分在一次前馈与反馈中学习得到矩阵c，公式为：

203)保留所有连接的g_j(ω；D)中最大的κ个，公式为：

是向量s中第κ大的元素，1[·]是示性函数。

本步骤中主要描述如何定义什么样的连接对网络结构更加重要，怎样通过矩阵c表示这种重要程度，如何计算c矩阵，并通过c矩阵的值保留前κ个导数更大的连接，怎样通过损失函数更新c矩阵，并说明如何一次得到矩阵c。

步骤201)说明了什么样的连接被认为是对模型结构重要的，怎样通过c矩阵表示这种重要性，以及c与损失函数的关系和不同值的c矩阵对损失函数的影响，这种影响的大小表明了对应连接对模型结构的重要性；

该步骤中通过公式

ΔL_j(ω；D)＝L(1⊙ω；D)-L((1-e_j)⊙ω；D)

定义了在参数矩阵点乘矩阵c前与点乘矩阵c之后损失函数的变化。该公式表示，ΔL_j(ω；D)更大的连接说明该连接对于模型的结构来说更重要，这样的连接可以给模型提供更多的表示能力，如果剪枝这样的连接会毫无疑问的伤害模型的表示能力。为了使得剪枝后的网络在参数数量下降的同时依然能有与原网络近似甚至相同的表示能力，ΔL_j(ω；D)较大的连接将会被保留，计算过程如图2所示。

步骤202)通过g_j(ω；D)代替ΔL_j(ω；D)的计算

该步骤中通过公式

将原本对离散的问题变成了一个连续的问题，公式中最右面的分式的分子部分就是在步骤201)中定义的ΔL_j(ω；D)，通过除以一个极小值并求极限，可以构造出一个在c＝1点处的导数，以此表示某连接对模型结构的重要性。经过转化，g_j(ω；D)实际上依然表示着ΔL_j(ω；D)所表示的意义，但此时g_j(ω；D)是ΔL_j(ω；D)的一个极小版本。当使用该公式使得原本不连续而导致无法求导进行反向传播的ΔL_j(ω；D)可以通过g_j(ω；D)进行近似的计算时，在训练模型时就可以通过矩阵计算以及自动微分对矩阵c进行快速的更新。

203)保留全部g_j(ω；D)中最大的κ个

该步骤中使用公式：

是向量s中第κ大的元素，1[·]是示性函数。

通过上述公式，可以求得所有连接经过单独剪枝计算g_j(ω；D)之后的最大的前κ个连接，这κ个最大的连接对应位置的c将会被置1，表示保留模型对应位置的连接，而c其余的位置将会被置0，表示将会剪枝该位置所对应的模型连接。

步骤3)通过对部分数据的一次前馈与反馈过程中学习到对于模型来说合适的矩阵c，步骤为：

首先设定一个阈值κ来规定期望中模型应该保留多少的连接，可以使用各种标准的初始化方法来初始化参数w，在确定合适的参数w之后，从训练数据集中选择一个批次大小的数据集D来训练矩阵c，通过步骤2)所规定的公式确定出全部连接的结构敏感度，对其排序后保留前κ个最重要的连接，得到矩阵c。因为此时步骤2)中的g_j(ω；D)是根据随机初始化得到的参数矩阵W计算得到的，所以此时通过g_j(ω；D)得到的矩阵c表示的剪枝策略是与模型结构相关的，虽然要从数据集中选择一定量的数据进行训练，但此时训练数据是仅学习矩阵c而不学习参数矩阵W的，这样的更新策略保证了，对于任何结构来说，更新时的参数均为随机初始化得到的参数，是具有随机性并且非最优的参数，此时学习得到的矩阵c更能体现模型结构上的连接的重要性，而不会因为结构中某些参数更加重要，而导致该参数所对应的连接更加重要。同时通过这样的方式得到的矩阵c，因为是结构相关而不是数据相关的，所以使用这样的矩阵c得到的剪枝网络也不会因为任务的改变而导致剪枝的模型效果变坏。

步骤4)使用求得的矩阵c优化后续的模型计算，步骤为：

在计算出矩阵c之后，使用全部训练数据对模型进行训练，此时训练的过程与正常的训练过程相似，因为已经确定了矩阵c的值，优化目标就是在这样的矩阵c下，学习最优的参数矩阵W使得模型的损失函数值最小。并使用得到的矩阵c剪枝机器翻译模型结构，并在此模型上进行参数机器翻译模型训练。这样使得模型中的大部分参数矩阵将变为稀疏矩阵，降低了模型训练时的计算与存储消耗。

在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，通过使用连接敏感度度量了模型结构中较为重要的连接，相对其他剪枝方式更有优势的是，这种剪枝方法只使用了部分数据进行了一次前馈与反馈便得到了可以使用的剪枝策略，相较于之前的剪枝方式，这种剪枝方式更为迅速，并且该剪枝方法是一种针对模型结构的剪枝，对于同一个模型使用不同数据时，该方法的适应性理论上更好。

例如，在机器翻译数据集WMT14_en_de上使用经典结构transformer进行翻译。使用本方法后可以将模型中全连接部分的参数剪枝50％，且不损失模型的性能。同时，用于生成剪枝结构的数据集D的大小也会影响剪枝后模型的损失函数值，当数据集D的数据量越大时，剪枝后模型的损失函数越小，所以建议可以根据自己的设备情况合理调整超参数，在设备可以接收的情况下尽量使用更大的批次大小。

本发明提出在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，该算法预计取得50％的压缩比例，同时模型性能没有下降。