CN112446211A

CN112446211A - 文本处理装置、方法、设备和计算机可读存储介质

Info

Publication number: CN112446211A
Application number: CN201910757236.2A
Authority: CN
Inventors: 郭垿宏; 郭心语; 李安新; 陈岚
Original assignee: NTT Korea Co Ltd
Current assignee: NTT Docomo Inc; NTT Korea Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-03-05
Also published as: JP2021033995A

Abstract

本公开提供了一种文本处理装置、方法、设备和计算机可读存储介质。所述文本处理装置，包括：分词单元，配置成对于输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语；向量转换单元，配置成对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量；以及预测单元，配置成基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

Description

文本处理装置、方法、设备和计算机可读存储介质

技术领域

本公开涉及自然语言处理技术领域，更具体的，涉及一种文本处理装置、方法、设备和计算机可读存储介质。

背景技术

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要应用方向，涉及用于实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术可以应用于文本处理，涉及文本摘要、机器翻译等领域。在实现文本摘要处理的过程中，生成式神经网络可以利用文本数据集基于输入文本生成新的文本摘要词语，即，生成的文本摘要中包括输入文本之外的词语。生成的文本摘要词语可以看作是神经网络在“理解”输入文本的基础上总结出来的词语，使得生成的文本摘要更接近输入文本的语义本质，避免完全抽取输入文本中的信息。

然而，生成文本摘要词语的过程中，对于输入文本中包括的例如细节特征，诸如数字实体，生成的文本摘要词语可能造成错误，生成的文本摘要中的数字实体与输入文本中的对应数字实体不一致，导致文本摘要中包括错误信息，降低文本摘要的准确性，影响自动生成文本摘要在诸如新闻摘要等领域的应用。

发明内容

本公开提供一种文本处理装置、方法、设备和计算机可读存储介质，用于提高的文本处理的准确性，保证文本摘要中诸如数字实体的细节特征与输入文本相一致。

根据本公开的一方面，提供了一种文本处理装置，包括：分词单元，配置成对于输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语；向量转换单元，配置成对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量；以及预测单元，配置成基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

根据本公开的一些实施例，所述装置还包括词典单元，配置成：获取文本数据集；识别所述文本数据集中的文字实体；将所述文本数据集中的文字实体映射成文字实体向量，以获得所述文字实体词典，其中，所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。

根据本公开的一些实施例，所述向量转换单元确定文字实体词典中是否包括该文字实体词语；将所述文字实体词典中包括的文字实体词语转换成文字实体向量；以及将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。

根据本公开的一些实施例，所述预测单元基于所述文字实体向量和未知实体向量生成预测概率分布；基于所述预测概率分布确定文本摘要词语向量；以及基于所述文本摘要词语向量确定文本摘要中的词语，其中，在所述文本摘要词语向量为未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

根据本公开的一些实施例，所述预测单元利用生成式神经网络基于所述文字实体向量和未知实体向量生成预测概率分布，其中，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布；以及将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。

根据本公开的一些实施例，所述预测单元在所述文本摘要词语向量为所述未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语；以及在所述文本摘要词语向量为所述文字实体向量的情况下，所述预测单元基于所述文字实体词典将所述文字实体向量转换成文字实体词语，作为所述文本摘要中的词语。

根据本公开的一些实施例，所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络，在每一时间步，所述指针生成神经网络生成所述预测概率分布，所述预测单元：对于每一时间步，利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量；利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量；基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布，其中，所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布；基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。

根据本公开的一些实施例，所述装置还包括训练单元，配置成训练所述生成式神经网络，包括：从文本数据集获取训练样本作为所述输入文本；确定所述输入文本的文本摘要样本；基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。

根据本公开的另一方面，还提供了一种文本处理方法，包括：对输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语；对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量；以及基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

根据本公开的一些实施例，所述方法还包括：获取文本数据集；识别所述文本数据集中的文字实体；将所述文本数据集中的文字实体映射成文字实体向量，以获得所述文字实体词典，其中，所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。

根据本公开的一些实施例，对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量包括：确定文字实体词典中是否包括该实体词语，将所述文字实体词典中包括的文字实体词语转换成文字实体向量，将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。

根据本公开的一些实施例，基于所述文字实体向量和未知实体向量确定文本摘要包括：基于所述文字实体向量和未知实体向量生成预测概率分布；基于所述预测概率分布确定文本摘要词语向量；基于所述文本摘要词语向量确定文本摘要中的词语，其中，在所述文本摘要词语向量为未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

根据本公开的一些实施例，基于所述文字实体向量和未知实体向量生成预测概率分布包括：利用生成式神经网络基于所述文字实体向量和未知实体向量生成预测概率分布，其中，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布；以及基于所述预测概率分布确定文本摘要词语向量包括：将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。

根据本公开的一些实施例，基于所述文本摘要词语向量确定文本摘要中的词语包括：在所述文本摘要词语向量为所述未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语；以及在所述文本摘要词语向量为所述文字实体向量的情况下，基于所述文字实体词典将所述文字实体向量转换成文字实体词语，作为所述文本摘要中的词语。

根据本公开的一些实施例，所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络，在每一时间步，所述指针生成神经网络生成所述预测概率分布，所述基于文字实体向量和未知实体向量生成预测概率分布包括：对于每一时间步，利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量；利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量；基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布，其中，所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布；基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。

根据本公开的一些实施例，所述方法还包括训练所述生成式神经网络：从文本数据集获取训练样本作为所述输入文本；确定所述输入文本的文本摘要样本；基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。

根据本公开的又一方面，提供了一种文本处理设备，包括：处理器；和存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如上所述的文本处理方法。

根据本公开的又一方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如上所述的文本处理方法。

利用本公开提供的文本处理方法，可以利用文字实体词典基于输入文本文本处理，从输入文本中复制数字实体作为文本摘要词语，保证文本摘要中诸如数字实体的细节特征与输入文本相一致，提高生成的文本摘要的准确性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本公开实施例的文本处理方法的流程图；

图2示出了根据本公开实施例的生成式神经网络的整体示意图；

图3示出了利用图2中示出的生成式神经网络进行文本处理的流程示意图；

图4示出了训练生成式神经网络的示意图；

图5示出了根据本公开实施例的文本处理装置的示意性框图；

图6示出了根据本公开实施例的文本处理设备的示意性框图；

图7示出了根据本公开实施例的示例性计算设备的架构的示意图；

图8示出了根据本公开实施例的存储介质的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

本公开提供了一种文本处理方法，以保证文本摘要中诸如数字实体的细节特征与输入文本相一致，提高生成的文本摘要的准确性。所述输入文本中可以包括文字和数字，其中，所述文字可以表示为文字实体，所述数字可以表示为数字实体。

本文中以基于输入文本生成文本摘要作为示例来说明根据本公开的文本处理方法。需要注意的是，根据本公开的文本处理方法还可以应用于诸如文本改写、文本抽取、文义理解等自然语言处理相关应用领域，其中，所述文本摘要可以广义地理解为对于输入文本的语义总结。

图1示出了根据本公开实施例的文本处理方法的流程图。如图1所示，首先，在步骤S101，对输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语。例如，所述输入文本可以是由一个或多个句子组成的一段话，每个句子中包括一个或多个词语。举例来说，所述输入文本可以是“我是个00后，生于2005年”。

所述分词可以理解为将输入文本按照其含义分解成一个或多个实体词语的过程，例如，对于文本AABBCC，分词后得到多个实体词语可以是[AA，BB，CC]。作为一个示例，可以采用基于字典的分词算法来对所述输入文本进行分词。作为其他示例，还可以采用基于序列标注的分词方法来进行分词，诸如，基于隐马尔可夫模型(Hidden Markov Model，HMM)的分词算法，需要注意的是，本公开并不限制实现分词的具体算法。

举例来说，可以利用分词算法对上述输入文本“我是个00后，生于2005年”进行分词，得到诸如“我”、“是”、“个”、“00”、“后”、“生于”、“2005”以及“年”的多个实体词语，其中，“我”、“是”、“个”、“后”、“生于”以及“年”是文字实体词语，“00”以及“2005”是数字实体词语。

接着，在步骤S102，对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量。所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。根据本公开实施例，所述文字实体词典中包括文字实体，获取文字实体词典的过程将在下文详细描述。

在此步骤，可以将输入文本中的多个实体词语分别转换成与该实体词语相对应的向量，以作为诸如神经网络的处理对象。所述向量可以理解为对实体词语的数值表示，诸如，具有一维或者多维矩阵的数据形式。

作为一种实现方式，对于所述多个实体词语中的每一个实体词语，可以确定所述文字实体词典中是否包括该文字实体词语。进一步地，可以将所述文字实体词典中包括的文字实体词语转换成文字实体向量，将所述文字实体词典中不包括的文字实体词语转换成未知实体向量，诸如表示为UNK。

作为另一种实现方式，对于所述多个实体词语，可以基于实体识别算法来识别其中包括的数字实体词语，将所述数字实体词语转换成未知实体向量。接着，确定所述多个实体词语中除数字实体词语之外的实体词语是否包括在所述文字实体词典中，将所述文字实体词典中包括的文字实体词语转换成文字实体向量，将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。

所述实体识别算法可以称为命名实体识别(Named Entity Recognition，NER)，又称作“专名识别”，用于识别文本中具有特定实体意义的实体(诸如，上述文字实体、数字实体)。所述实体识别算法诸如可以是条件随机场算法(Conditional Random Field，CRF)、实体识别深度学习算法等，在此不做限制。

根据本公开实施例，所述文本处理方法还可以包括生成上述步骤S102中使用的所述文字实体词典。首先，可以获取文本数据集，其中包括诸如数字实体、文字实体等的文本。所述文本数据集例如可以是语料库，所述语料库中存储有语言实际使用过程中真实出现过的语言材料，换句话说，所述语料库可以是指经过科学取样和加工的大规模电子文本库。接着，可以识别所述文本数据集中的文字实体。例如，可以利用上述CRF算法来进行实体识别，以识别所述文本数据集中包括的所有文字实体。

接着，将所述文本数据集中所有的文字实体映射成文字实体向量，以获得所述文字实体词典。所述映射可以是将文本映射成与其唯一对应的数值向量的过程，换句话说，所述映射是将所述文本数据集中所有的文字实体分别映射成与该文字实体唯一对应的向量。作为一个示例，可以通过分词嵌入(word embedding)算法来实现所述映射，例如，可以将文字实体“我”映射成第一文字实体向量V1，将文字实体“北京”映射成第二文字实体向量V2，以此类推。

基于上述步骤，可以获得所述文字实体词典，在所述文字实体词典中仅包括文字实体以及与所述文字实体对应的文字实体向量。所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。换句话说，在所述文字实体词典中，文字实体及其向量是一一对应的。并且，正是由于生成的文字实体词典中仅包括文字实体而不包括数字实体，在将输入文本中的实体词语转换成向量的过程中，由于所有的数字实体词语均未被包括在所述文字实体向量中，从而使得输入文本中的数字实体词语将均被转换成未知实体向量。

例如，在上述步骤S102中，对于输入文本中的文字实体“我”，可以以诸如查找、索引等的方式来确定所述文字实体词典中是否包括该文字实体“我”，在确定包括的情况下，可以基于所述文字实体词典，将所述输入文本中的文字实体“我”转换成文字实体向量，即第一文字实体向量V1。对于输入文本中的数字实体“2005”，由于所述文字实体词典中不包括该数字实体“2005”，可以将该数字实体“2005”转换成未知实体向量UNK。所述未知可以理解为该数字实体“2005”相对于所述文字实体词典是未知的，即，未被包括在所述文字实体词典中。

接着，如图1所示，在步骤S103，基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。根据本公开实施例，可以利用生成式神经网络基于所述文字实体向量和未知实体向量确定所述文本摘要。作为一个示例，所述生成式神经网络可以是包括编码神经网络(Encoder)和解码神经网络(Decoder)的指针生成神经网络(Pointer to Generator)。关于基于所述文字实体向量和未知实体向量确定文本摘要的具体过程，将在下文详细描述。

根据本公开实施例，在上述步骤S103中进行的，基于所述文字实体向量和未知实体向量确定文本摘要包括：基于所述文字实体向量和未知实体向量生成预测概率分布；基于所述预测概率分布确定文本摘要词语向量；基于所述文本摘要词语向量确定文本摘要中的词语，其中，在所述文本摘要词语向量为未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。如上所述，经过向量转换后的实体词语与该实体词语的向量的一一对应的，则基于所述预测概率分布确定的文本摘要词语向量是与所述文字实体词典和输入文本中的某一词语唯一对应的，由此，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布。

举例来说，所述文字实体词典中包括有M个文字实体词语，上述输入文本中包括实体词语“我”、“是”、“个”、“00”、“后”、“生于”、“2005”以及“年”。其中，文字实体词语“我”、“是”、“个”、“后”、“生于”以及“年”均包括在所述文字实体词典中，即，对于所述文字实体词典是已知的，而数字实体词语“00”和“2005”对于所述文字实体词典未知。在此示例中，所述预测概率分布可以表示所述M个文字实体词语以及数字实体词语“00”和“2005”(即，M+2个实体词语)中的每一个实体词语作为文本摘要中的词语的概率。换句话说，生成的所述预测概率分布表示所述文字实体词典中的词语与输入文本中的词语的并集中的词语的预测概率值。

根据本公开实施例，基于所述预测概率分布确定文本摘要词语向量包括：将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。对于所述文字实体词典中的词语与输入文本中的词语的并集，所述预测概率分布表示例如生成式神经网络预测的上述并集中的每一个词语的向量作为当前文本摘要词语输出的概率值。接着，将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。如上所述的，所述词语向量与所述词语是一一对应的，则可以基于概率值最高的向量来确定所述文本摘要词语。

根据本公开实施例，基于所述文本摘要词语向量确定文本摘要中的词语包括：在所述文本摘要词语向量为所述未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。例如，在所述预测概率分布确定概率最高的向量为未知实体向量的情况下，可以从输入文本中直接复制该未知实体向量对应的实体词语，诸如数字实体词语，并将该数字实体词语确定为文本摘要词语。所述复制的过程可以称为复制机制，将在下文中进行详细描述。

基于所述文本摘要词语向量确定文本摘要中的词语还包括：在所述文本摘要词语向量为所述文字实体向量的情况下，基于所述文字实体词典将所述文字实体向量转换成文字实体词语，作为所述文本摘要中的词语。例如，在所述预测概率分布确定概率最高的向量为文字实体向量的情况下，可以基于上述文字实体词典确定与该文字实体向量对应的文字实体词语，并将该文字实体向量基于所述文字实体词典转换成该文字实体词语，并将该文字实体词语确定为所述文本摘要词语。所述将文字实体向量转换成文字实体词语的过程可以称为生成机制，将在下文中进行详细描述。

根据本公开实施例，所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络。在每一时间步(timestep)，所述指针生成神经网络生成所述预测概率分布，可以将基于当前时间步生成的所述预测概率分布确定的文本摘要中的词语表示为当前时间步输出的文本摘要词语。所述指针生成神经网络将按照时间步逐个生成更新的预测概率分布，当前时间步生成的预测概率分布用于确定当前时间步的文本摘要词语。换句话说，通过逐个确定文本摘要词语来得到文本摘要。

根据本公开实施例，所述基于所述文字实体向量和未知实体向量生成预测概率分布可以包括：对于每一时间步，利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量；利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量；基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布。所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布。接着，可以基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。

图2示出了根据本公开实施例的生成式神经网络的整体示意图，以下将结合图2来具体描述利用根据本公开实施例的文本处理方法，基于所述文字实体向量和未知实体向量确定文本摘要的具体过程。

如图2所示，对于包括多个实体词语的输入文本，可以基于文字实体词典将文字实体词典中包括的文字实体词语转换成文字实体向量，将所述文字实体词典中不包括的文字实体词语和数字实体词语(即，对于所述文字实体词典未知)转换成未知实体向量UNK。由于所述文字实体词典中仅包括文字实体词语以及与该文字实体词语对应的向量，使得对于输入文本中包括的数字实体词语相对于文字实体词典均是未知的，换句话说，所述输入文本中包括的数字实体词语将均被转换为未知实体向量UNK。

接着，将所述生成的文字实体向量和未知实体向量输入至生成式神经网络中。其中，如图2所示，所述生成式神经网络可以包括编码神经网络和解码神经网络，例如，可以将所述编码神经网络和解码神经网络表示为序列-序列模型(Sequence to Sequence,Seq2Seq)，其用于实现将一个输入序列，诸如“WXYZ”(例如，作为输入文本)转换成另一输出序列，诸如“ABC”(诸如，作为文本摘要)。具体的，所述编码神经网络可以接收所述输入序列的向量，并将其转换成编码隐藏状态向量，所述编码隐藏状态向量可以是所述编码神经网络对于所述输入序列的理解和表示形式。接着，解码神经网络可以将所述编码隐藏状态向量作为输入，并通过解码处理来生成解码隐藏状态向量，从而生成输出序列。具体的，所述编码神经网络和解码神经网络可以基于所述编码隐藏状态向量和解码隐藏状态向量来得到生成词语概率分布，其中，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布，基于所述生成词语概率分布可以实现上述生成机制。

举例来说，所述编码神经网络和解码神经网络均可以由长短期记忆网络(LongShort-Term Memory,LSTM)来实现，基于LSTM网络的***可以应用于诸如机器翻译、生成文本摘要等任务。

在此基础上，所述生成式神经网络还可以包括指针网络(Pointer Networks)，用于基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布。所述注意力概率分布用于表示所述输入文本中的词语作为文本摘要中的词语的概率分布，基于所述注意力概率分布可以实现上述复制机制。

此外，所述注意力概率分布还可以用于实现注意力机制。具体的，可以利用所述注意力概率分布对所述编码隐藏状态向量进行加权(例如，通过相乘)。然后可以将加权后的编码隐藏状态向量作为所述解码神经网络的输入。

基于所述注意力概率分布和生成概率分布，可以生成所述预测概率分布，并将所述预测概率概率分布中概率值最高的向量为确定当前输出的文本摘要词语向量，接着，可以基于所述文字实体词典将所述文本摘要词语向量转换成词语，作为所述文本摘要词语。图2中示出的输出文本可以是包括多个词语的文本摘要。

图3示出了利用图2中示出的生成式神经网络进行文本处理的流程示意图。其中，以输入文本“我是个00后，生于2005年”为具体示例进行描述。需要注意的是，所述输入文本还可以是其他文本。接着，可以将所述输入文本中的实体词语分别转换成向量以用于处理。

如图3中示出的，所述生成式神经网络可以以时间步为单位逐个生成文本摘要词语，例如，可以将生成文本摘要词语“我”的时间步表示为t1，将生成文本摘要词语“是”的时间步表示为t2，将生成文本摘要词语“2005”的时间步表示为t3，以此类推。

在下文中，将结合公式来具体描述在某一时间步，例如，时间步t，所述生成式神经网络的处理流程。

首先，所述生成式神经网络中的编码神经网络可以基于所述输入文本中的实体词语的向量生成编码隐藏状态向量，表示为h_i，其中，i表示输入文本中实体词语的顺序，例如，基于文字实体词语“我”生成的编码隐藏状态向量可以表示为h₁。利用所述解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量，表示为s_t，其中，t表示当前时间步timestep。

接着，可以基于注意力机制来生成所述编码隐藏状态向量的注意力概率分布。可以基于所述编码隐藏状态向量、所述解码神经网络输出的解码隐藏状态向量生成所述编码隐藏状态向量的注意力概率分布，具体的，所述注意力概率分布可以由以下公式(1)-(2)得到：

a^t＝softmax(e^t) (2)

其中，

表示中间向量，v^T、W_h、W_S、b_attn为可学习的网络参数，例如通过下文描述的训练步骤得到。h_i表示输入文本中第i个实体词语的编码隐藏状态向量s_t表示时间步t时的解码隐藏状态向量，a^t表示时间步t的注意力概率分布，公式(2)表示通过Softmax层将

向量中的各元素归一化为0到1之间的概率值。

例如，可以利用上述指针网络来得到上述注意力概率分布，所述注意力概率分布用于表示所述输入文本中的词语作为文本摘要中的词语的概率分布。

接着，可以基于编码隐藏状态向量和所述编码隐藏状态向量的注意力概率分布生成内容向量。其中，所述注意力概率分布表示所述输入文本中的多个实体词语的注意力程度。所述内容向量可以表示为以下公式(3)：

其中，

表示内容向量，求和函数

表示对i进行求和，

表示利用注意力概率分布对所述编码隐藏状态向量进行加权。

接着，可以基于所述内容向量以及所述解码神经网络在前一时间步输出的解码隐藏状态向量生成当前时间步的生成词语概率分布，表示为公式(4)

其中，P_vocab表示生成词语概率分布，V′、V、b、b′为可学习的网络参数，并利用Softmax层得到数值在0到1之间的概率值。其中，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布。

接着，可以基于所述生成词语概率分布和注意力概率分布生成当前时间步的预测概率分布。例如，可以利用激活函数，基于所述内容向量

所述解码神经网络输出的解码隐藏状态向量s_t以及所述生成式神经网络在前一时间步输出的文本摘要词语x_t生成选择系数P_gen。接着，可以利用所述选择系数P_gen，基于所述生成词语概率分布P_vocab和注意力概率分布a^t的并集生成当前时间步的预测概率分布P(w)。具体如以下公式(5)-(6)所示：

其中，σ表示激活函数，例如可以是sigmoid函数。

b_ptr表示可学习的网络参数，w表示当前时间步预测的文本摘要词语。

基于所述生成词语概率分布P_vocab和注意力概率分布a^t的并集生成的预测概率分布P(w)是如图3中所示出的，其中，对于文字实体词典和输入文本中均包括的文字实体词语“我”，其预测概率值为生成词语概率值和注意力概率值的和，对于仅在输入文本中包括的数字实体词语“2005”，其预测概率值仅为注意力概率值，即，基于所述生成词语概率分布P_vocab和注意力概率分布a^t的并集生成的预测概率分布P(w)。

如图3中所示出的，在当生成的预测概率分布中概率值最高的向量对应于文字实体词语“我”的情况下，其，概率值为生成词语概率值和注意力概率值的和，并且其被包括在文字实体词典中，则基于所述文字实体词典，将所述概率值最高的向量转换成文字实体词语“我”，作为文本摘要词语，即，所述生成式神经网络网络在文字实体词典的基础上生成了所述文本摘要词语“我”，以上过程即为上文所述的生成机制。在上述示例中，上述文本摘要词语“我”也被包括在输入文本中，需要注意的是，在其他示例中，根据上述生成机制还可以生成被包括在文字实体词典而未被包括在输入文本中的词语，诸如“出生”。

在已经预测出文本摘要词语“我”和“是”的情况下，所述生成式神经网络可以在下一时间步预测下一文本摘要词语，例如可以是数字实体词语“2005”。在此情况下，所述数字实体词语“2005”仅包括在输入文本中，如图3中所示出的，其预测概率值由注意力概率值确定。在图3中示出的预测概率分布中，数字实体词语“2005”的向量的概率值最高，其可以作为所述文本摘要词语向量。进一步地，由于所述文本摘要词语向量为未知实体向量UNK，则从所述输入文本中复制所述未知实体向量所对应的实体词语(即，“2005”)作为所述文本摘要中的词语，上述过程可以称为复制机制。

根据本公开实施例，所述文本处理方法还包括训练所述生成式神经网络。图4示出了训练生成式神经网络的示意图。具体的，从文本数据集获取训练样本作为所述输入文本，例如可以从上述语料库中获取一段文本作为所述输入文本，并确定所述输入文本的文本摘要样本，基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。其中，所述文本摘要样本作为真实样本来训练所述生成式神经网络的预测结果。

例如，生成式神经网络在当前时间步预测的词语为w，此时间步的真实样本词语为

接着，可以利用损失函数来训练所述生成式神经网络，使得所述预测的词语为w接近真实样本词语为

所述损失函数例如可以如下公式(7)-(8)所示：

本公开还提供了一种文本处理装置。图5示出了根据本公开实施例的文本处理装置的示意性框图。如图5所示，所述装置1000可以包括分词单元1010、向量转换单元1020以及预测单元1030。根据本公开的文本处理装置可以应用于诸如机器翻译、自然语言理解、人机对话、信息检索等与人工智能相关应用领域。

所述分词单元1010可以配置成对于输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语。例如，所述输入文本可以是由一个或多个句子组成的一段话，每个句子中包括一个或多个词语。举例来说，所述输入文本可以是“我是个00后，生于2005年”。

所述向量转换单元1020可以配置成对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量。

所述向量转换单元1020可以将输入文本中的多个实体词语分别转换成与该实体词语相对应的向量，以作为诸如神经网络的处理对象。所述向量可以理解为对实体词语的数值表示，诸如，具有一维或者多维矩阵的数据形式。

根据本公开的一些实施例，所述向量转换单元1020确定文字实体词典中是否包括该文字实体词语；将所述文字实体词典中包括的文字实体词语转换成文字实体向量；以及将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。

根据本公开的一些实施例，所述装置1000还可以包括词典单元1040。所述词典单元1040可以配置成获取文本数据集。所述文本数据集例如可以是语料库，所述语料库中存储有语言实际使用过程中真实出现过的语言材料，换句话说，所述语料库可以是指经过科学取样和加工的大规模电子文本库。

接着，所述词典单元1040可以识别所述文本数据集中的文字实体，例如，可以利用上述CRF算法来进行实体识别，以识别所述文本数据集中包括的所有文字实体。

接着，所述词典单元1040可以将所述文本数据集中的文字实体映射成文字实体向量，以获得所述文字实体词典，其中，所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。所述映射可以是将文本映射成与其唯一对应的数值向量的过程，换句话说，所述映射是将所述文本数据集中所有的文字实体分别映射成与该文字实体唯一对应的向量。作为一个示例，可以通过分词嵌入(word embedding)算法来实现所述映射，例如，可以将文字实体“我”映射成第一文字实体向量V1，将文字实体“北京”映射成第二文字实体向量V2，以此类推。

所述词典单元1040可以获得所述文字实体词典，在所述文字实体词典中仅包括文字实体以及与所述文字实体对应的文字实体向量。所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。换句话说，在所述文字实体词典中，文字实体及其向量是一一对应的。并且，正是由于生成的文字实体词典中仅包括文字实体而不包括数字实体，在将输入文本中的实体词语转换成向量的过程中，由于所有的数字实体词语均未被包括在所述文字实体向量中，从而使得输入文本中的数字实体词语将均被转换成未知实体向量。

接着，所述预测单元1030可以配置成基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。根据本公开实施例，可以利用生成式神经网络基于所述文字实体向量和未知实体向量确定所述文本摘要。

根据本公开的一些实施例，所述预测单元1030基于所述文字实体向量和未知实体向量生成预测概率分布；基于所述预测概率分布确定文本摘要词语向量；以及基于所述文本摘要词语向量确定文本摘要中的词语，其中，在所述文本摘要词语向量为未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。如上所述，经过向量转换后的实体词语与该实体词语的向量的一一对应的，则基于所述预测概率分布确定的文本摘要词语向量是与所述文字实体词典和输入文本中的某一词语唯一对应的，由此，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布。

根据本公开的一些实施例，所述预测单元1030利用生成式神经网络基于文字实体向量和未知实体向量生成预测概率分布，其中，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布；以及将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。如上所述，经过向量转换后的实体词语与该实体词语的向量的一一对应的，则基于所述预测概率分布确定的文本摘要词语向量是与所述文字实体词典和输入文本中的某一词语唯一对应的，由此，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布。

根据本公开的一些实施例，所述预测单元1030在所述文本摘要词语向量为所述未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。例如，在所述预测概率分布确定概率最高的向量为未知实体向量的情况下，可以从输入文本中直接复制该未知实体向量对应的实体词语，诸如数字实体词语，并将该数字实体词语确定为文本摘要词语。所述复制的过程可以称为复制机制。

在所述文本摘要词语向量为所述文字实体向量的情况下，所述预测单元1030基于所述文字实体词典将所述文字实体向量转换成文字实体词语，作为所述文本摘要中的词语。例如，在所述预测概率分布确定概率最高的向量为文字实体向量的情况下，可以基于上述文字实体词典确定与该文字实体向量对应的文字实体词语，并将该文字实体向量基于所述文字实体词典转换成该文字实体词语，并将该文字实体词语确定为所述文本摘要词语。所述将文字实体向量转换成文字实体词语的过程可以称为生成机制。

根据本公开的一些实施例，所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络，在每一时间步，所述指针生成神经网络生成所述预测概率分布。对于每一时间步，所述预测单元1030，利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量；利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量；基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布，其中，所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布；基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。所述预测单元1030生成预测概率分布的过程与结合上述图3描述的过程类似，在此不再赘述。

根据本公开的一些实施例，所述装置1000还可以包括训练单元1050。所述训练单元1050可以配置成训练所述生成式神经网络。具体的，所述训练单元1050从文本数据集获取训练样本作为所述输入文本；确定所述输入文本的文本摘要样本；基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。具体的，可以从文本数据集获取训练样本作为所述输入文本，例如可以从上述语料库中获取一段文本作为所述输入文本，并确定所述输入文本的文本摘要样本，基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。其中，所述文本摘要样本作为真实样本来训练所述生成式神经网络的预测结果。

根据本公开的又一方面，还提供了一种文本处理设备。图6示出了根据本公开实施例的文本处理设备2000的示意性框图。

如图6所示，所述设备2000可以包括处理器2010，和存储器2020。其中，所述存储器2020中存储有计算机可读代码，所述计算机可读代码当由所述处理器2010运行时，可以执行如上所述的文本处理方法。

根据本公开实施例的方法或装置也可以借助于图7所示的计算设备3000的架构来实现。如图7所示，计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的文本处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面3080。当然，图7所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图7示出的计算设备中的一个或多个组件。

根据本公开的又一方面，还提供了一种计算机可读存储介质。图8示出了根据本公开的存储介质的示意图4000。

如图8所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的文本处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，虽然本公开对根据本公开的实施例的***中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述***和方法的不同方面可以使用不同单元。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1.一种文本处理装置，包括：

分词单元，配置成对于输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语；

向量转换单元，配置成对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量；以及

预测单元，配置成基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

2.根据权利要求1所述的装置，还包括词典单元，配置成：

获取文本数据集；

识别所述文本数据集中的文字实体；

将所述文本数据集中的文字实体映射成文字实体向量，以获得所述文字实体词典，其中，所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。

3.根据权利要求1所述的装置，其中，所述向量转换单元确定文字实体词典中是否包括该文字实体词语；

将所述文字实体词典中包括的文字实体词语转换成文字实体向量；以及

将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。

4.根据权利要求1所述的装置，其中，所述预测单元基于所述文字实体向量和未知实体向量生成预测概率分布；基于所述预测概率分布确定文本摘要词语向量；以及基于所述文本摘要词语向量确定文本摘要中的词语，其中，在所述文本摘要词语向量为未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语，

其中，所述预测单元利用生成式神经网络基于所述文字实体向量和未知实体向量生成预测概率分布，其中，所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布；以及

将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。

5.根据权利要求4所述的装置，其中，所述预测单元在所述文本摘要词语向量为所述未知实体向量的情况下，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语；以及

在所述文本摘要词语向量为所述文字实体向量的情况下，所述预测单元基于所述文字实体词典将所述文字实体向量转换成文字实体词语，作为所述文本摘要中的词语。

6.根据权利要求5所述的装置，其中，所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络，在每一时间步，所述指针生成神经网络生成所述预测概率分布时间步时间步，所述预测单元：

对于每一时间步，利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量；

利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量；

基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布，其中，所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布，所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布；

基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。

7.根据权利要求4所述的装置，还包括训练单元，配置成训练所述生成式神经网络，包括：

从文本数据集获取训练样本作为所述输入文本；

确定所述输入文本的文本摘要样本；

基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。

8.一种文本处理方法，包括：

对输入文本进行分词获得多个实体词语，其中，所述多个实体词语包括文字实体词语和数字实体词语；

对于所述多个实体词语中的每一个实体词语，基于文字实体词典，将所述文字实体词语选择性地转换成文字实体向量，将所述数字实体词语转换成未知实体向量；以及

基于所述文字实体向量和未知实体向量确定文本摘要，其中，对于所述未知实体向量，从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

9.一种文本处理设备，包括：

处理器；和

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如权利要求8所述的文本处理方法。

10.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求8所述的文本处理方法。