CN112069810A

CN112069810A - 一种文本填充方法及装置

Info

Publication number: CN112069810A
Application number: CN202010801195.5A
Authority: CN
Inventors: 蔡晓东; 田文靖
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-11

Abstract

本发明提供一种文本填充方法及装置，方法包括：对输入样本进行预处理，得到带有多个空白位置的缺失样本；对所述缺失样本进行编码，得到编码层语义向量；基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充，得到预测层语义向量和多个用于填充所述空白位置的填充词，并分别对各个填充至所述空白位置的词进行标记，得到多个标记填充词；根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析，得到填充文本。本发明迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

Description

一种文本填充方法及装置

技术领域

本发明主要涉及语言处理技术领域，具体涉及一种文本填充方法及装置。

背景技术

文本填充，即自动填充文本缺失部分，文本填充的目的是利用缺失部分的上下文信息来填充句子或段落的缺失部分，可以用于许多现实世界中的自然语言生成场景，例如填充空白图像，词汇约束句子生成，古代文本恢复，藏头诗生成。目前的文本填充主要基于循环神经网络，但现有的方法存在填充后的文本缺乏语义连贯性和流畅性较差的问题。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种文本填充方法及装置。

本发明解决上述技术问题的技术方案如下：一种文本填充方法，包括如下步骤：

S1:对输入样本进行预处理，得到带有多个空白位置的缺失样本；

S2:对所述缺失样本进行编码，得到编码层语义向量；

S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充，得到预测层语义向量和多个用于填充所述空白位置的填充词，并分别对各个填充至所述空白位置的词进行标记，得到多个标记填充词；

S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析，得到填充文本。

本发明解决上述技术问题的另一技术方案如下：一种文本填充装置，包括：

样本处理模块，用于对输入样本进行预处理，得到带有多个空白位置的缺失样本；

缺失样本编码模块，用于对所述缺失样本进行编码，得到编码层语义向量；

向量处理模块，用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充，得到预测层语义向量和多个用于填充所述空白位置的填充词，并分别对各个填充至所述空白位置的词进行标记，得到多个标记填充词；

填充文本获得模块，用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析，得到填充文本。

本发明的有益效果是：通过对输入样本的预处理得到带有多个空白位置的缺失样本，对缺失样本的编码得到编码层语义向量，基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词，并分别对各个填充至空白位置词的标记得到多个标记填充词，根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本，迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

附图说明

图1为本发明一实施例提供的文本填充方法的流程示意图；

图2为本发明一实施例提供的文本填充装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明一实施例提供的文本填充方法的流程示意图。

如图1所示，一种文本填充方法，包括如下步骤：

S2:对所述缺失样本进行编码，得到编码层语义向量；

应理解地，所述填充词的数量与所述空白位置的数量相同。

具体地，解码端利用注意力机制算法捕获所述编码层语义向量并逐一填充缺失空白部分，在填充过程中，解码器会逐一填补空白；对于每个片段的填充，解码器自动回归地填充缺失的标记，对s_templete中已填充的内容进行调整更新。

上述实施例中，通过对输入样本的预处理得到带有多个空白位置的缺失样本，对缺失样本的编码得到编码层语义向量，基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词，并分别对各个填充至空白位置词的标记得到多个标记填充词，根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本，迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S1的过程包括：

利用随机屏蔽算法对所述输入样本进行预处理，得到缺失样本，具体为：

S11:通过预设第一占位符随机对所述输入样本中的词进行替换，得到第一缺失样本；

S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头，得到第二缺失样本；

S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾，得到第三缺失样本；

S14:将预设第四占位符添加至所述第三缺失样本的开头，得到第四缺失样本；

S15:将预设第五占位符添加至所述第四缺失样本的结尾，得到缺失样本。

优选地，所述预设第一占位符可以为_m_占位符，所述预设第二占位符可以为<boa>，所述预设第三占位符可以为<eoa>，所述预设第四占位符可以为<EOS>，所述预设第五占位符可以为<BOS>。

应理解地，所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。

具体地，采用随机屏蔽的方式，用_m_占位符表示空白，并随机替换所述输入样本中的词，其中每个空白缺失的词数是任意的，同时用<boa>和<eoa>分别表示每个空白的开头和结尾，用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾，从而得到所述缺失样本。

应理解地，所述随机指的是随机替换所述输入样本中的词。

上述实施例中，利用预设的占位符对输入样本进行预处理，为之后的处理提供素材，实现了捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S2的过程包括：

S21:利用词嵌入算法对所述缺失样本进行词向量化处理，得到词向量矩阵；

S22:将所述词向量矩阵输入至双向LSTM网络中，得到编码层语义向量。

上述实施例中，利用词嵌入算法对所述缺失样本的词向量化处理得到词向量矩阵；并将所述词向量矩阵输入至双向LSTM网络中得到编码层语义向量，为后续处理提供重要的参数，实现了捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S22的过程包括：

通过第一方程组对所述词向量矩阵进行计算，得到编码层语义向量，所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式；

其中，通过第一式得到遗忘门输出，所述第一式为：

f_t＝σ(W_fw_t+U_fh_t-1+b_f)，

通过第二式得到输入门输出，所述第二式为：

i_t＝σ(W_iw_t+U_ih_t-1+b_i)，

通过第三式得到输出门输出，所述第三式为：

o_t＝σ(W_ow_t+U_oh_t-1+b_o)，

通过第四式得到新的记忆信息，所述第四式为：

通过第五式得到更新的LSTM网络单元的记忆信息，所述第五式为：

c_t＝f_t⊙c_t-1+i_t⊙c_t，

通过第六式得到编码层语义向量，所述第六式为：

h_t＝o_ttanh(c_t)，

其中，f_t为遗忘门输出，i_t为输入门输出，o_t为输出门输出，W_f为遗忘门权重矩阵，W_i为输入门权重矩阵，W_o为输出门权重矩阵，W_c为选择门权重矩阵，b_f为遗忘门偏置向量，b_i为输入门偏置向量，b_o为输出门偏置向量，b_c为选择门偏置向量，U_f为遗忘门权重矩阵，U_i为输入门权重矩阵，U_o为输出门权重矩阵，U_c为选择门权重矩阵，

为新的记忆信息，c_t为更新的LSTM网络单元的记忆信息，c_t-1为上一时刻的LSTM网络单元的记忆信息，tanh()为双曲正切函数，σ为sigmoid激活函数，⊙为元素乘积，h_t-1为t-1时刻的隐藏层输出，w_t为t时刻的输入信息，h_t为编码层语义向量。

具体地，模型使用双向的LSTM网络作为编码器提取文本的语义特征，该网络能够捕获文本的长距离依赖关系。LSTM网络由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成，如下式：

f_t＝σ(W_fw_t+U_fh_t-1+b_f)

i_t＝σ(W_iw_t+U_ih_t-1+b_i)

o_t＝σ(W_ow_t+U_oh_t-1+b_o)

c_t＝f_t⊙c_t-1+i_t⊙c_t1

h_t＝o_ttanh(c_t)

上式中，f_t、i_t和o_t分别为遗忘门输出、输入门输出和输出门输出；W_f、W_i、W_o、W_c、b_f、b_i、b_o、b_c为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量；U_f为遗忘门权重矩阵，U_i为输入门权重矩阵，U_o为输出门权重矩阵，U_c为选择门权重矩阵，c_t-1为上一时刻的LSTM网络单元的记忆信息，

为新的记忆信息；c_t为更新的LSTM网络单元的记忆信息；σ为sigmoid激活函数；⊙为元素乘积；h_t-1为t-1时刻的隐藏层输出，w_t为t时刻的输入信息。

通过双向的LSTM网络编码处理，得到x语句上下文隐藏向量表达式矩阵

其中，

为前向LSTM网络的隐藏层向量，

为反向LSTM网络的隐藏层向量。

上述实施例中，通过第一方程组对所述词向量矩阵的计算得到编码层语义向量，为后续处理提供重要的参数，实现了捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S4过程包括：

S41:对多个所述标记填充词进行计算，得到交叉熵总损失；

S42:根据所述编码层语义向量对所述预测层语义向量进行计算，得到相似度损失；

S43:根据所述交叉熵总损失对所述相似度损失进行计算，得到网络总损失；

S44：判断所述网络总损失是否有变化，若有变化，则返回步骤S3；若无变化，则将对应的文本作为填充文本。

上述实施例中，对多个所述标记填充词的计算得到交叉熵总损失；根据所述编码层语义向量对所述预测层语义向量的计算得到相似度损失；根据所述交叉熵总损失对所述相似度损失的计算得到网络总损失；通过判断所述网络总损失是否有变化得到填充文本，迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S41的过程包括：

S411:通过第七式分别对多个所述标记填充词进行计算，得到多个交叉熵损失，所述第七式为：

其中，a∈m，m为标记填充词数目，x′_(i,0)为第一个标记填充词，x′_(i,oi)为最后一个标记填充词，s′_i为一句话缺失的部分；

S412：通过第八式对多个所述交叉熵损失进行计算，得到交叉熵总损失，所述第八式为：

L_e＝∑L_a，

其中，a∈m，L_a为交叉熵损失，L_e为交叉熵总损失。

上述实施例中，通过第七式分别对多个所述标记填充词的计算得到多个交叉熵损失，通过第八式对多个所述交叉熵损失的计算得到交叉熵总损失，迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S42的过程包括：

通过第九式对所述编码层语义向量对所述预测层语义向量进行计算，得到相似度损失，所述第九式为：

L_c＝λcos(V_s,V_t)，

其中，

其中，L_c为相似度损失，V_s为编码层语义向量，V_t为预测层语义向量，λ为相似度损失函数参数。

应理解地，计算所述编码层语义向量和所述预测层语义向量之间的距离，将其与交叉熵损失函数共同反馈调节预测网络，进而迭代减小语义损失。

上述实施例中，通过第九式对所述编码层语义向量对所述预测层语义向量的计算得到相似度损失，迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

可选地，作为本发明的一个实施例，所述步骤S43的过程包括：

通过第十式对所述交叉熵总损失和所述相似度损失进行计算，得到网络总损失，所述第十式为：

L＝L_e+λL_c，

其中，L为网络总损失，L_e为交叉熵总损失，L_c为相似度损失，λ为相似度损失函数参数。

上述实施例中，通过第十式对所述交叉熵总损失和所述相似度损失的计算得到网络总损失，迭代减小语义损失，能捕获文本长距离关系且网络结构简单，相对现有技术，能够提升填充后的文文本语义连贯性和流畅性。

图2为本发明一实施例提供的文本填充装置的模块框图。

可选地，作为本发明的另一个实施例，如图2所示，一种文本填充装置，包括：

可选地，作为本发明的一个实施例，所述样本处理模块具体用于：

通过预设第一占位符随机对所述输入样本中的词进行替换，得到第一缺失样本；

将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头，得到第二缺失样本；

将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾，得到第三缺失样本；

将预设第四占位符添加至所述第三缺失样本的开头，得到第四缺失样本；

将预设第五占位符添加至所述第四缺失样本的结尾，得到缺失样本。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。用于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本填充方法，其特征在于，包括如下步骤：

S2:对所述缺失样本进行编码，得到编码层语义向量；

2.根据权利要求1所述的文本填充方法，其特征在于，所述步骤S1的过程包括：

3.根据权利要求2所述的文本填充方法，其特征在于，所述步骤S2的过程包括：

4.根据权利要求3所述的文本填充方法，其特征在于，所述步骤S22的过程包括：

其中，通过第一式得到遗忘门输出，所述第一式为：

f_t＝σ(W_fw_t+U_fh_t-1+b_f)，

通过第二式得到输入门输出，所述第二式为：

i_t＝σ(W_iw_t+U_ih_t-1+b_i)，

通过第三式得到输出门输出，所述第三式为：

o_t＝σ(W_ow_t+U_oh_t-1+b_o)，

通过第四式得到新的记忆信息，所述第四式为：

c_t＝f_t⊙c_t-1+i_t⊙c_t，

通过第六式得到编码层语义向量，所述第六式为：

h_t＝o_ttanh(c_t)，

5.根据权利要求1至4任一项所述的文本填充方法，其特征在于，所述步骤S4过程包括：

S41:对多个所述标记填充词进行计算，得到交叉熵总损失；

6.根据权利要求5所述的文本填充方法，其特征在于，所述步骤S41的过程包括：

其中，a∈m，m为标记填充词数目，x′_(i,0)为第一个标记填充词，

为最后一个标记填充词，s′_i为一句话缺失的部分；

L_e＝∑L_a，

其中，a∈m，L_a为交叉熵损失，L_e为交叉熵总损失。

7.根据权利要求6所述的文本填充方法，其特征在于，所述步骤S42的过程包括：

L_c＝λcos(V_s,V_t)，

其中，

8.根据权利要求7所述的文本填充方法，其特征在于，所述步骤S43的过程包括：

L＝L_e+λL_c，

9.一种文本填充装置，其特征在于，包括：

10.根据权利要求9所述的文本填充装置，其特征在于，所述样本处理模块具体用于：