CN112446211A - 文本处理装置、方法、设备和计算机可读存储介质 - Google Patents

文本处理装置、方法、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112446211A
CN112446211A CN201910757236.2A CN201910757236A CN112446211A CN 112446211 A CN112446211 A CN 112446211A CN 201910757236 A CN201910757236 A CN 201910757236A CN 112446211 A CN112446211 A CN 112446211A
Authority
CN
China
Prior art keywords
entity
word
text
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910757236.2A
Other languages
English (en)
Inventor
郭垿宏
郭心语
李安新
陈岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
NTT Korea Co Ltd
Original Assignee
NTT Korea Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Korea Co Ltd filed Critical NTT Korea Co Ltd
Priority to CN201910757236.2A priority Critical patent/CN112446211A/zh
Priority to JP2019209172A priority patent/JP2021033995A/ja
Publication of CN112446211A publication Critical patent/CN112446211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种文本处理装置、方法、设备和计算机可读存储介质。所述文本处理装置,包括:分词单元,配置成对于输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语;向量转换单元,配置成对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量;以及预测单元,配置成基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。

Description

文本处理装置、方法、设备和计算机可读存储介质
技术领域
本公开涉及自然语言处理技术领域,更具体的,涉及一种文本处理装置、方法、设备和计算机可读存储介质。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要应用方向,涉及用于实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术可以应用于文本处理,涉及文本摘要、机器翻译等领域。在实现文本摘要处理的过程中,生成式神经网络可以利用文本数据集基于输入文本生成新的文本摘要词语,即,生成的文本摘要中包括输入文本之外的词语。生成的文本摘要词语可以看作是神经网络在“理解”输入文本的基础上总结出来的词语,使得生成的文本摘要更接近输入文本的语义本质,避免完全抽取输入文本中的信息。
然而,生成文本摘要词语的过程中,对于输入文本中包括的例如细节特征,诸如数字实体,生成的文本摘要词语可能造成错误,生成的文本摘要中的数字实体与输入文本中的对应数字实体不一致,导致文本摘要中包括错误信息,降低文本摘要的准确性,影响自动生成文本摘要在诸如新闻摘要等领域的应用。
发明内容
本公开提供一种文本处理装置、方法、设备和计算机可读存储介质,用于提高的文本处理的准确性,保证文本摘要中诸如数字实体的细节特征与输入文本相一致。
根据本公开的一方面,提供了一种文本处理装置,包括:分词单元,配置成对于输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语;向量转换单元,配置成对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量;以及预测单元,配置成基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。
根据本公开的一些实施例,所述装置还包括词典单元,配置成:获取文本数据集;识别所述文本数据集中的文字实体;将所述文本数据集中的文字实体映射成文字实体向量,以获得所述文字实体词典,其中,所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。
根据本公开的一些实施例,所述向量转换单元确定文字实体词典中是否包括该文字实体词语;将所述文字实体词典中包括的文字实体词语转换成文字实体向量;以及将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。
根据本公开的一些实施例,所述预测单元基于所述文字实体向量和未知实体向量生成预测概率分布;基于所述预测概率分布确定文本摘要词语向量;以及基于所述文本摘要词语向量确定文本摘要中的词语,其中,在所述文本摘要词语向量为未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。
根据本公开的一些实施例,所述预测单元利用生成式神经网络基于所述文字实体向量和未知实体向量生成预测概率分布,其中,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布;以及将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。
根据本公开的一些实施例,所述预测单元在所述文本摘要词语向量为所述未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语;以及在所述文本摘要词语向量为所述文字实体向量的情况下,所述预测单元基于所述文字实体词典将所述文字实体向量转换成文字实体词语,作为所述文本摘要中的词语。
根据本公开的一些实施例,所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络,在每一时间步,所述指针生成神经网络生成所述预测概率分布,所述预测单元:对于每一时间步,利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量;利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量;基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布,其中,所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布;基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。
根据本公开的一些实施例,所述装置还包括训练单元,配置成训练所述生成式神经网络,包括:从文本数据集获取训练样本作为所述输入文本;确定所述输入文本的文本摘要样本;基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。
根据本公开的另一方面,还提供了一种文本处理方法,包括:对输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语;对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量;以及基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。
根据本公开的一些实施例,所述方法还包括:获取文本数据集;识别所述文本数据集中的文字实体;将所述文本数据集中的文字实体映射成文字实体向量,以获得所述文字实体词典,其中,所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。
根据本公开的一些实施例,对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量包括:确定文字实体词典中是否包括该实体词语,将所述文字实体词典中包括的文字实体词语转换成文字实体向量,将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。
根据本公开的一些实施例,基于所述文字实体向量和未知实体向量确定文本摘要包括:基于所述文字实体向量和未知实体向量生成预测概率分布;基于所述预测概率分布确定文本摘要词语向量;基于所述文本摘要词语向量确定文本摘要中的词语,其中,在所述文本摘要词语向量为未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。
根据本公开的一些实施例,基于所述文字实体向量和未知实体向量生成预测概率分布包括:利用生成式神经网络基于所述文字实体向量和未知实体向量生成预测概率分布,其中,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布;以及基于所述预测概率分布确定文本摘要词语向量包括:将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。
根据本公开的一些实施例,基于所述文本摘要词语向量确定文本摘要中的词语包括:在所述文本摘要词语向量为所述未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语;以及在所述文本摘要词语向量为所述文字实体向量的情况下,基于所述文字实体词典将所述文字实体向量转换成文字实体词语,作为所述文本摘要中的词语。
根据本公开的一些实施例,所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络,在每一时间步,所述指针生成神经网络生成所述预测概率分布,所述基于文字实体向量和未知实体向量生成预测概率分布包括:对于每一时间步,利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量;利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量;基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布,其中,所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布;基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。
根据本公开的一些实施例,所述方法还包括训练所述生成式神经网络:从文本数据集获取训练样本作为所述输入文本;确定所述输入文本的文本摘要样本;基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。
根据本公开的又一方面,提供了一种文本处理设备,包括:处理器;和存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如上所述的文本处理方法。
根据本公开的又一方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上所述的文本处理方法。
利用本公开提供的文本处理方法,可以利用文字实体词典基于输入文本文本处理,从输入文本中复制数字实体作为文本摘要词语,保证文本摘要中诸如数字实体的细节特征与输入文本相一致,提高生成的文本摘要的准确性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本公开实施例的文本处理方法的流程图;
图2示出了根据本公开实施例的生成式神经网络的整体示意图;
图3示出了利用图2中示出的生成式神经网络进行文本处理的流程示意图;
图4示出了训练生成式神经网络的示意图;
图5示出了根据本公开实施例的文本处理装置的示意性框图;
图6示出了根据本公开实施例的文本处理设备的示意性框图;
图7示出了根据本公开实施例的示例性计算设备的架构的示意图;
图8示出了根据本公开实施例的存储介质的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中。
本公开提供了一种文本处理方法,以保证文本摘要中诸如数字实体的细节特征与输入文本相一致,提高生成的文本摘要的准确性。所述输入文本中可以包括文字和数字,其中,所述文字可以表示为文字实体,所述数字可以表示为数字实体。
本文中以基于输入文本生成文本摘要作为示例来说明根据本公开的文本处理方法。需要注意的是,根据本公开的文本处理方法还可以应用于诸如文本改写、文本抽取、文义理解等自然语言处理相关应用领域,其中,所述文本摘要可以广义地理解为对于输入文本的语义总结。
图1示出了根据本公开实施例的文本处理方法的流程图。如图1所示,首先,在步骤S101,对输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语。例如,所述输入文本可以是由一个或多个句子组成的一段话,每个句子中包括一个或多个词语。举例来说,所述输入文本可以是“我是个00后,生于2005年”。
所述分词可以理解为将输入文本按照其含义分解成一个或多个实体词语的过程,例如,对于文本AABBCC,分词后得到多个实体词语可以是[AA,BB,CC]。作为一个示例,可以采用基于字典的分词算法来对所述输入文本进行分词。作为其他示例,还可以采用基于序列标注的分词方法来进行分词,诸如,基于隐马尔可夫模型(Hidden Markov Model,HMM)的分词算法,需要注意的是,本公开并不限制实现分词的具体算法。
举例来说,可以利用分词算法对上述输入文本“我是个00后,生于2005年”进行分词,得到诸如“我”、“是”、“个”、“00”、“后”、“生于”、“2005”以及“年”的多个实体词语,其中,“我”、“是”、“个”、“后”、“生于”以及“年”是文字实体词语,“00”以及“2005”是数字实体词语。
接着,在步骤S102,对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量。所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。根据本公开实施例,所述文字实体词典中包括文字实体,获取文字实体词典的过程将在下文详细描述。
在此步骤,可以将输入文本中的多个实体词语分别转换成与该实体词语相对应的向量,以作为诸如神经网络的处理对象。所述向量可以理解为对实体词语的数值表示,诸如,具有一维或者多维矩阵的数据形式。
作为一种实现方式,对于所述多个实体词语中的每一个实体词语,可以确定所述文字实体词典中是否包括该文字实体词语。进一步地,可以将所述文字实体词典中包括的文字实体词语转换成文字实体向量,将所述文字实体词典中不包括的文字实体词语转换成未知实体向量,诸如表示为UNK。
作为另一种实现方式,对于所述多个实体词语,可以基于实体识别算法来识别其中包括的数字实体词语,将所述数字实体词语转换成未知实体向量。接着,确定所述多个实体词语中除数字实体词语之外的实体词语是否包括在所述文字实体词典中,将所述文字实体词典中包括的文字实体词语转换成文字实体向量,将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。
所述实体识别算法可以称为命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,用于识别文本中具有特定实体意义的实体(诸如,上述文字实体、数字实体)。所述实体识别算法诸如可以是条件随机场算法(Conditional Random Field,CRF)、实体识别深度学习算法等,在此不做限制。
根据本公开实施例,所述文本处理方法还可以包括生成上述步骤S102中使用的所述文字实体词典。首先,可以获取文本数据集,其中包括诸如数字实体、文字实体等的文本。所述文本数据集例如可以是语料库,所述语料库中存储有语言实际使用过程中真实出现过的语言材料,换句话说,所述语料库可以是指经过科学取样和加工的大规模电子文本库。接着,可以识别所述文本数据集中的文字实体。例如,可以利用上述CRF算法来进行实体识别,以识别所述文本数据集中包括的所有文字实体。
接着,将所述文本数据集中所有的文字实体映射成文字实体向量,以获得所述文字实体词典。所述映射可以是将文本映射成与其唯一对应的数值向量的过程,换句话说,所述映射是将所述文本数据集中所有的文字实体分别映射成与该文字实体唯一对应的向量。作为一个示例,可以通过分词嵌入(word embedding)算法来实现所述映射,例如,可以将文字实体“我”映射成第一文字实体向量V1,将文字实体“北京”映射成第二文字实体向量V2,以此类推。
基于上述步骤,可以获得所述文字实体词典,在所述文字实体词典中仅包括文字实体以及与所述文字实体对应的文字实体向量。所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。换句话说,在所述文字实体词典中,文字实体及其向量是一一对应的。并且,正是由于生成的文字实体词典中仅包括文字实体而不包括数字实体,在将输入文本中的实体词语转换成向量的过程中,由于所有的数字实体词语均未被包括在所述文字实体向量中,从而使得输入文本中的数字实体词语将均被转换成未知实体向量。
例如,在上述步骤S102中,对于输入文本中的文字实体“我”,可以以诸如查找、索引等的方式来确定所述文字实体词典中是否包括该文字实体“我”,在确定包括的情况下,可以基于所述文字实体词典,将所述输入文本中的文字实体“我”转换成文字实体向量,即第一文字实体向量V1。对于输入文本中的数字实体“2005”,由于所述文字实体词典中不包括该数字实体“2005”,可以将该数字实体“2005”转换成未知实体向量UNK。所述未知可以理解为该数字实体“2005”相对于所述文字实体词典是未知的,即,未被包括在所述文字实体词典中。
接着,如图1所示,在步骤S103,基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。根据本公开实施例,可以利用生成式神经网络基于所述文字实体向量和未知实体向量确定所述文本摘要。作为一个示例,所述生成式神经网络可以是包括编码神经网络(Encoder)和解码神经网络(Decoder)的指针生成神经网络(Pointer to Generator)。关于基于所述文字实体向量和未知实体向量确定文本摘要的具体过程,将在下文详细描述。
根据本公开实施例,在上述步骤S103中进行的,基于所述文字实体向量和未知实体向量确定文本摘要包括:基于所述文字实体向量和未知实体向量生成预测概率分布;基于所述预测概率分布确定文本摘要词语向量;基于所述文本摘要词语向量确定文本摘要中的词语,其中,在所述文本摘要词语向量为未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。如上所述,经过向量转换后的实体词语与该实体词语的向量的一一对应的,则基于所述预测概率分布确定的文本摘要词语向量是与所述文字实体词典和输入文本中的某一词语唯一对应的,由此,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布。
举例来说,所述文字实体词典中包括有M个文字实体词语,上述输入文本中包括实体词语“我”、“是”、“个”、“00”、“后”、“生于”、“2005”以及“年”。其中,文字实体词语“我”、“是”、“个”、“后”、“生于”以及“年”均包括在所述文字实体词典中,即,对于所述文字实体词典是已知的,而数字实体词语“00”和“2005”对于所述文字实体词典未知。在此示例中,所述预测概率分布可以表示所述M个文字实体词语以及数字实体词语“00”和“2005”(即,M+2个实体词语)中的每一个实体词语作为文本摘要中的词语的概率。换句话说,生成的所述预测概率分布表示所述文字实体词典中的词语与输入文本中的词语的并集中的词语的预测概率值。
根据本公开实施例,基于所述预测概率分布确定文本摘要词语向量包括:将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。对于所述文字实体词典中的词语与输入文本中的词语的并集,所述预测概率分布表示例如生成式神经网络预测的上述并集中的每一个词语的向量作为当前文本摘要词语输出的概率值。接着,将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。如上所述的,所述词语向量与所述词语是一一对应的,则可以基于概率值最高的向量来确定所述文本摘要词语。
根据本公开实施例,基于所述文本摘要词语向量确定文本摘要中的词语包括:在所述文本摘要词语向量为所述未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。例如,在所述预测概率分布确定概率最高的向量为未知实体向量的情况下,可以从输入文本中直接复制该未知实体向量对应的实体词语,诸如数字实体词语,并将该数字实体词语确定为文本摘要词语。所述复制的过程可以称为复制机制,将在下文中进行详细描述。
基于所述文本摘要词语向量确定文本摘要中的词语还包括:在所述文本摘要词语向量为所述文字实体向量的情况下,基于所述文字实体词典将所述文字实体向量转换成文字实体词语,作为所述文本摘要中的词语。例如,在所述预测概率分布确定概率最高的向量为文字实体向量的情况下,可以基于上述文字实体词典确定与该文字实体向量对应的文字实体词语,并将该文字实体向量基于所述文字实体词典转换成该文字实体词语,并将该文字实体词语确定为所述文本摘要词语。所述将文字实体向量转换成文字实体词语的过程可以称为生成机制,将在下文中进行详细描述。
根据本公开实施例,所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络。在每一时间步(timestep),所述指针生成神经网络生成所述预测概率分布,可以将基于当前时间步生成的所述预测概率分布确定的文本摘要中的词语表示为当前时间步输出的文本摘要词语。所述指针生成神经网络将按照时间步逐个生成更新的预测概率分布,当前时间步生成的预测概率分布用于确定当前时间步的文本摘要词语。换句话说,通过逐个确定文本摘要词语来得到文本摘要。
根据本公开实施例,所述基于所述文字实体向量和未知实体向量生成预测概率分布可以包括:对于每一时间步,利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量;利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量;基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布。所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布。接着,可以基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。
图2示出了根据本公开实施例的生成式神经网络的整体示意图,以下将结合图2来具体描述利用根据本公开实施例的文本处理方法,基于所述文字实体向量和未知实体向量确定文本摘要的具体过程。
如图2所示,对于包括多个实体词语的输入文本,可以基于文字实体词典将文字实体词典中包括的文字实体词语转换成文字实体向量,将所述文字实体词典中不包括的文字实体词语和数字实体词语(即,对于所述文字实体词典未知)转换成未知实体向量UNK。由于所述文字实体词典中仅包括文字实体词语以及与该文字实体词语对应的向量,使得对于输入文本中包括的数字实体词语相对于文字实体词典均是未知的,换句话说,所述输入文本中包括的数字实体词语将均被转换为未知实体向量UNK。
接着,将所述生成的文字实体向量和未知实体向量输入至生成式神经网络中。其中,如图2所示,所述生成式神经网络可以包括编码神经网络和解码神经网络,例如,可以将所述编码神经网络和解码神经网络表示为序列-序列模型(Sequence to Sequence,Seq2Seq),其用于实现将一个输入序列,诸如“WXYZ”(例如,作为输入文本)转换成另一输出序列,诸如“ABC”(诸如,作为文本摘要)。具体的,所述编码神经网络可以接收所述输入序列的向量,并将其转换成编码隐藏状态向量,所述编码隐藏状态向量可以是所述编码神经网络对于所述输入序列的理解和表示形式。接着,解码神经网络可以将所述编码隐藏状态向量作为输入,并通过解码处理来生成解码隐藏状态向量,从而生成输出序列。具体的,所述编码神经网络和解码神经网络可以基于所述编码隐藏状态向量和解码隐藏状态向量来得到生成词语概率分布,其中,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布,基于所述生成词语概率分布可以实现上述生成机制。
举例来说,所述编码神经网络和解码神经网络均可以由长短期记忆网络(LongShort-Term Memory,LSTM)来实现,基于LSTM网络的***可以应用于诸如机器翻译、生成文本摘要等任务。
在此基础上,所述生成式神经网络还可以包括指针网络(Pointer Networks),用于基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布。所述注意力概率分布用于表示所述输入文本中的词语作为文本摘要中的词语的概率分布,基于所述注意力概率分布可以实现上述复制机制。
此外,所述注意力概率分布还可以用于实现注意力机制。具体的,可以利用所述注意力概率分布对所述编码隐藏状态向量进行加权(例如,通过相乘)。然后可以将加权后的编码隐藏状态向量作为所述解码神经网络的输入。
基于所述注意力概率分布和生成概率分布,可以生成所述预测概率分布,并将所述预测概率概率分布中概率值最高的向量为确定当前输出的文本摘要词语向量,接着,可以基于所述文字实体词典将所述文本摘要词语向量转换成词语,作为所述文本摘要词语。图2中示出的输出文本可以是包括多个词语的文本摘要。
图3示出了利用图2中示出的生成式神经网络进行文本处理的流程示意图。其中,以输入文本“我是个00后,生于2005年”为具体示例进行描述。需要注意的是,所述输入文本还可以是其他文本。接着,可以将所述输入文本中的实体词语分别转换成向量以用于处理。
如图3中示出的,所述生成式神经网络可以以时间步为单位逐个生成文本摘要词语,例如,可以将生成文本摘要词语“我”的时间步表示为t1,将生成文本摘要词语“是”的时间步表示为t2,将生成文本摘要词语“2005”的时间步表示为t3,以此类推。
在下文中,将结合公式来具体描述在某一时间步,例如,时间步t,所述生成式神经网络的处理流程。
首先,所述生成式神经网络中的编码神经网络可以基于所述输入文本中的实体词语的向量生成编码隐藏状态向量,表示为hi,其中,i表示输入文本中实体词语的顺序,例如,基于文字实体词语“我”生成的编码隐藏状态向量可以表示为h1。利用所述解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量,表示为st,其中,t表示当前时间步timestep。
接着,可以基于注意力机制来生成所述编码隐藏状态向量的注意力概率分布。可以基于所述编码隐藏状态向量、所述解码神经网络输出的解码隐藏状态向量生成所述编码隐藏状态向量的注意力概率分布,具体的,所述注意力概率分布可以由以下公式(1)-(2)得到:
Figure BDA0002169162910000121
at=softmax(et) (2)
其中,
Figure BDA0002169162910000122
表示中间向量,vT、Wh、WS、battn为可学习的网络参数,例如通过下文描述的训练步骤得到。hi表示输入文本中第i个实体词语的编码隐藏状态向量st表示时间步t时的解码隐藏状态向量,at表示时间步t的注意力概率分布,公式(2)表示通过Softmax层将
Figure BDA0002169162910000123
向量中的各元素归一化为0到1之间的概率值。
例如,可以利用上述指针网络来得到上述注意力概率分布,所述注意力概率分布用于表示所述输入文本中的词语作为文本摘要中的词语的概率分布。
接着,可以基于编码隐藏状态向量和所述编码隐藏状态向量的注意力概率分布生成内容向量。其中,所述注意力概率分布表示所述输入文本中的多个实体词语的注意力程度。所述内容向量可以表示为以下公式(3):
Figure BDA0002169162910000124
其中,
Figure BDA0002169162910000125
表示内容向量,求和函数
Figure BDA0002169162910000126
表示对i进行求和,
Figure BDA0002169162910000127
表示利用注意力概率分布对所述编码隐藏状态向量进行加权。
接着,可以基于所述内容向量以及所述解码神经网络在前一时间步输出的解码隐藏状态向量生成当前时间步的生成词语概率分布,表示为公式(4)
Figure BDA0002169162910000131
其中,Pvocab表示生成词语概率分布,V′、V、b、b′为可学习的网络参数,并利用Softmax层得到数值在0到1之间的概率值。其中,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布。
接着,可以基于所述生成词语概率分布和注意力概率分布生成当前时间步的预测概率分布。例如,可以利用激活函数,基于所述内容向量
Figure BDA0002169162910000132
所述解码神经网络输出的解码隐藏状态向量st以及所述生成式神经网络在前一时间步输出的文本摘要词语xt生成选择系数Pgen。接着,可以利用所述选择系数Pgen,基于所述生成词语概率分布Pvocab和注意力概率分布at的并集生成当前时间步的预测概率分布P(w)。具体如以下公式(5)-(6)所示:
Figure BDA0002169162910000133
Figure BDA0002169162910000134
其中,σ表示激活函数,例如可以是sigmoid函数。
Figure BDA0002169162910000135
bptr表示可学习的网络参数,w表示当前时间步预测的文本摘要词语。
基于所述生成词语概率分布Pvocab和注意力概率分布at的并集生成的预测概率分布P(w)是如图3中所示出的,其中,对于文字实体词典和输入文本中均包括的文字实体词语“我”,其预测概率值为生成词语概率值和注意力概率值的和,对于仅在输入文本中包括的数字实体词语“2005”,其预测概率值仅为注意力概率值,即,基于所述生成词语概率分布Pvocab和注意力概率分布at的并集生成的预测概率分布P(w)。
如图3中所示出的,在当生成的预测概率分布中概率值最高的向量对应于文字实体词语“我”的情况下,其,概率值为生成词语概率值和注意力概率值的和,并且其被包括在文字实体词典中,则基于所述文字实体词典,将所述概率值最高的向量转换成文字实体词语“我”,作为文本摘要词语,即,所述生成式神经网络网络在文字实体词典的基础上生成了所述文本摘要词语“我”,以上过程即为上文所述的生成机制。在上述示例中,上述文本摘要词语“我”也被包括在输入文本中,需要注意的是,在其他示例中,根据上述生成机制还可以生成被包括在文字实体词典而未被包括在输入文本中的词语,诸如“出生”。
在已经预测出文本摘要词语“我”和“是”的情况下,所述生成式神经网络可以在下一时间步预测下一文本摘要词语,例如可以是数字实体词语“2005”。在此情况下,所述数字实体词语“2005”仅包括在输入文本中,如图3中所示出的,其预测概率值由注意力概率值确定。在图3中示出的预测概率分布中,数字实体词语“2005”的向量的概率值最高,其可以作为所述文本摘要词语向量。进一步地,由于所述文本摘要词语向量为未知实体向量UNK,则从所述输入文本中复制所述未知实体向量所对应的实体词语(即,“2005”)作为所述文本摘要中的词语,上述过程可以称为复制机制。
根据本公开实施例,所述文本处理方法还包括训练所述生成式神经网络。图4示出了训练生成式神经网络的示意图。具体的,从文本数据集获取训练样本作为所述输入文本,例如可以从上述语料库中获取一段文本作为所述输入文本,并确定所述输入文本的文本摘要样本,基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。其中,所述文本摘要样本作为真实样本来训练所述生成式神经网络的预测结果。
例如,生成式神经网络在当前时间步预测的词语为w,此时间步的真实样本词语为
Figure BDA0002169162910000141
接着,可以利用损失函数来训练所述生成式神经网络,使得所述预测的词语为w接近真实样本词语为
Figure BDA0002169162910000142
所述损失函数例如可以如下公式(7)-(8)所示:
Figure BDA0002169162910000143
Figure BDA0002169162910000144
本公开还提供了一种文本处理装置。图5示出了根据本公开实施例的文本处理装置的示意性框图。如图5所示,所述装置1000可以包括分词单元1010、向量转换单元1020以及预测单元1030。根据本公开的文本处理装置可以应用于诸如机器翻译、自然语言理解、人机对话、信息检索等与人工智能相关应用领域。
所述分词单元1010可以配置成对于输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语。例如,所述输入文本可以是由一个或多个句子组成的一段话,每个句子中包括一个或多个词语。举例来说,所述输入文本可以是“我是个00后,生于2005年”。
所述分词可以理解为将输入文本按照其含义分解成一个或多个实体词语的过程,例如,对于文本AABBCC,分词后得到多个实体词语可以是[AA,BB,CC]。作为一个示例,可以采用基于字典的分词算法来对所述输入文本进行分词。作为其他示例,还可以采用基于序列标注的分词方法来进行分词,诸如,基于隐马尔可夫模型(Hidden Markov Model,HMM)的分词算法,需要注意的是,本公开并不限制实现分词的具体算法。
所述向量转换单元1020可以配置成对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量。
所述向量转换单元1020可以将输入文本中的多个实体词语分别转换成与该实体词语相对应的向量,以作为诸如神经网络的处理对象。所述向量可以理解为对实体词语的数值表示,诸如,具有一维或者多维矩阵的数据形式。
根据本公开的一些实施例,所述向量转换单元1020确定文字实体词典中是否包括该文字实体词语;将所述文字实体词典中包括的文字实体词语转换成文字实体向量;以及将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。
作为一种实现方式,对于所述多个实体词语中的每一个实体词语,可以确定所述文字实体词典中是否包括该文字实体词语。进一步地,可以将所述文字实体词典中包括的文字实体词语转换成文字实体向量,将所述文字实体词典中不包括的文字实体词语转换成未知实体向量,诸如表示为UNK。
作为另一种实现方式,对于所述多个实体词语,可以基于实体识别算法来识别其中包括的数字实体词语,将所述数字实体词语转换成未知实体向量。接着,确定所述多个实体词语中除数字实体词语之外的实体词语是否包括在所述文字实体词典中,将所述文字实体词典中包括的文字实体词语转换成文字实体向量,将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。
所述实体识别算法可以称为命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,用于识别文本中具有特定实体意义的实体(诸如,上述文字实体、数字实体)。所述实体识别算法诸如可以是条件随机场算法(Conditional Random Field,CRF)、实体识别深度学习算法等,在此不做限制。
根据本公开的一些实施例,所述装置1000还可以包括词典单元1040。所述词典单元1040可以配置成获取文本数据集。所述文本数据集例如可以是语料库,所述语料库中存储有语言实际使用过程中真实出现过的语言材料,换句话说,所述语料库可以是指经过科学取样和加工的大规模电子文本库。
接着,所述词典单元1040可以识别所述文本数据集中的文字实体,例如,可以利用上述CRF算法来进行实体识别,以识别所述文本数据集中包括的所有文字实体。
接着,所述词典单元1040可以将所述文本数据集中的文字实体映射成文字实体向量,以获得所述文字实体词典,其中,所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。所述映射可以是将文本映射成与其唯一对应的数值向量的过程,换句话说,所述映射是将所述文本数据集中所有的文字实体分别映射成与该文字实体唯一对应的向量。作为一个示例,可以通过分词嵌入(word embedding)算法来实现所述映射,例如,可以将文字实体“我”映射成第一文字实体向量V1,将文字实体“北京”映射成第二文字实体向量V2,以此类推。
所述词典单元1040可以获得所述文字实体词典,在所述文字实体词典中仅包括文字实体以及与所述文字实体对应的文字实体向量。所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。换句话说,在所述文字实体词典中,文字实体及其向量是一一对应的。并且,正是由于生成的文字实体词典中仅包括文字实体而不包括数字实体,在将输入文本中的实体词语转换成向量的过程中,由于所有的数字实体词语均未被包括在所述文字实体向量中,从而使得输入文本中的数字实体词语将均被转换成未知实体向量。
接着,所述预测单元1030可以配置成基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。根据本公开实施例,可以利用生成式神经网络基于所述文字实体向量和未知实体向量确定所述文本摘要。
根据本公开的一些实施例,所述预测单元1030基于所述文字实体向量和未知实体向量生成预测概率分布;基于所述预测概率分布确定文本摘要词语向量;以及基于所述文本摘要词语向量确定文本摘要中的词语,其中,在所述文本摘要词语向量为未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。如上所述,经过向量转换后的实体词语与该实体词语的向量的一一对应的,则基于所述预测概率分布确定的文本摘要词语向量是与所述文字实体词典和输入文本中的某一词语唯一对应的,由此,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布。
根据本公开的一些实施例,所述预测单元1030利用生成式神经网络基于文字实体向量和未知实体向量生成预测概率分布,其中,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布;以及将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。如上所述,经过向量转换后的实体词语与该实体词语的向量的一一对应的,则基于所述预测概率分布确定的文本摘要词语向量是与所述文字实体词典和输入文本中的某一词语唯一对应的,由此,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布。
根据本公开的一些实施例,所述预测单元1030在所述文本摘要词语向量为所述未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。例如,在所述预测概率分布确定概率最高的向量为未知实体向量的情况下,可以从输入文本中直接复制该未知实体向量对应的实体词语,诸如数字实体词语,并将该数字实体词语确定为文本摘要词语。所述复制的过程可以称为复制机制。
在所述文本摘要词语向量为所述文字实体向量的情况下,所述预测单元1030基于所述文字实体词典将所述文字实体向量转换成文字实体词语,作为所述文本摘要中的词语。例如,在所述预测概率分布确定概率最高的向量为文字实体向量的情况下,可以基于上述文字实体词典确定与该文字实体向量对应的文字实体词语,并将该文字实体向量基于所述文字实体词典转换成该文字实体词语,并将该文字实体词语确定为所述文本摘要词语。所述将文字实体向量转换成文字实体词语的过程可以称为生成机制。
根据本公开的一些实施例,所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络,在每一时间步,所述指针生成神经网络生成所述预测概率分布。对于每一时间步,所述预测单元1030,利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量;利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量;基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布,其中,所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布;基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。所述预测单元1030生成预测概率分布的过程与结合上述图3描述的过程类似,在此不再赘述。
根据本公开的一些实施例,所述装置1000还可以包括训练单元1050。所述训练单元1050可以配置成训练所述生成式神经网络。具体的,所述训练单元1050从文本数据集获取训练样本作为所述输入文本;确定所述输入文本的文本摘要样本;基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。具体的,可以从文本数据集获取训练样本作为所述输入文本,例如可以从上述语料库中获取一段文本作为所述输入文本,并确定所述输入文本的文本摘要样本,基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。其中,所述文本摘要样本作为真实样本来训练所述生成式神经网络的预测结果。
根据本公开的又一方面,还提供了一种文本处理设备。图6示出了根据本公开实施例的文本处理设备2000的示意性框图。
如图6所示,所述设备2000可以包括处理器2010,和存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述处理器2010运行时,可以执行如上所述的文本处理方法。
根据本公开实施例的方法或装置也可以借助于图7所示的计算设备3000的架构来实现。如图7所示,计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的文本处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面3080。当然,图7所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图7示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。图8示出了根据本公开的存储介质的示意图4000。
如图8所示,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的文本处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,虽然本公开对根据本公开的实施例的***中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述***和方法的不同方面可以使用不同单元。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims (10)

1.一种文本处理装置,包括:
分词单元,配置成对于输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语;
向量转换单元,配置成对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量;以及
预测单元,配置成基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。
2.根据权利要求1所述的装置,还包括词典单元,配置成:
获取文本数据集;
识别所述文本数据集中的文字实体;
将所述文本数据集中的文字实体映射成文字实体向量,以获得所述文字实体词典,其中,所述文字实体词典表示文字实体与该文字实体的文字实体向量之间的映射关系。
3.根据权利要求1所述的装置,其中,所述向量转换单元确定文字实体词典中是否包括该文字实体词语;
将所述文字实体词典中包括的文字实体词语转换成文字实体向量;以及
将所述文字实体词典中不包括的文字实体词语转换成未知实体向量。
4.根据权利要求1所述的装置,其中,所述预测单元基于所述文字实体向量和未知实体向量生成预测概率分布;基于所述预测概率分布确定文本摘要词语向量;以及基于所述文本摘要词语向量确定文本摘要中的词语,其中,在所述文本摘要词语向量为未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语,
其中,所述预测单元利用生成式神经网络基于所述文字实体向量和未知实体向量生成预测概率分布,其中,所述预测概率分布表示所述文字实体词典和输入文本中的词语作为文本摘要中的词语的概率分布;以及
将所述预测概率分布中概率值最高的向量确定为所述文本摘要词语向量。
5.根据权利要求4所述的装置,其中,所述预测单元在所述文本摘要词语向量为所述未知实体向量的情况下,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语;以及
在所述文本摘要词语向量为所述文字实体向量的情况下,所述预测单元基于所述文字实体词典将所述文字实体向量转换成文字实体词语,作为所述文本摘要中的词语。
6.根据权利要求5所述的装置,其中,所述生成式神经网络是包括编码神经网络和解码神经网络的指针生成神经网络,在每一时间步,所述指针生成神经网络生成所述预测概率分布时间步时间步,所述预测单元:
对于每一时间步,利用所述编码神经网络基于所述文字实体向量和未知实体向量生成编码隐藏状态向量;
利用解码神经网络基于所述编码隐藏状态向量生成解码隐藏状态向量;
基于所述编码隐藏状态向量和解码隐藏状态向量生成注意力概率分布和生成词语概率分布,其中,所述注意力概率分布表示所述输入文本中的词语作为文本摘要中的词语的概率分布,所述生成词语概率分布表示所述文字实体词典中的词语作为文本摘要中的词语的概率分布;
基于所述注意力概率分布和生成词语概率分布确定当前时间步的预测概率分布。
7.根据权利要求4所述的装置,还包括训练单元,配置成训练所述生成式神经网络,包括:
从文本数据集获取训练样本作为所述输入文本;
确定所述输入文本的文本摘要样本;
基于所述输入文本和所述文本摘要样本训练所述生成式神经网络。
8.一种文本处理方法,包括:
对输入文本进行分词获得多个实体词语,其中,所述多个实体词语包括文字实体词语和数字实体词语;
对于所述多个实体词语中的每一个实体词语,基于文字实体词典,将所述文字实体词语选择性地转换成文字实体向量,将所述数字实体词语转换成未知实体向量;以及
基于所述文字实体向量和未知实体向量确定文本摘要,其中,对于所述未知实体向量,从所述输入文本中复制所述未知实体向量所对应的实体词语作为所述文本摘要中的词语。
9.一种文本处理设备,包括:
处理器;和
存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如权利要求8所述的文本处理方法。
10.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求8所述的文本处理方法。
CN201910757236.2A 2019-08-16 2019-08-16 文本处理装置、方法、设备和计算机可读存储介质 Pending CN112446211A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910757236.2A CN112446211A (zh) 2019-08-16 2019-08-16 文本处理装置、方法、设备和计算机可读存储介质
JP2019209172A JP2021033995A (ja) 2019-08-16 2019-11-19 テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910757236.2A CN112446211A (zh) 2019-08-16 2019-08-16 文本处理装置、方法、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112446211A true CN112446211A (zh) 2021-03-05

Family

ID=74675981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910757236.2A Pending CN112446211A (zh) 2019-08-16 2019-08-16 文本处理装置、方法、设备和计算机可读存储介质

Country Status (2)

Country Link
JP (1) JP2021033995A (zh)
CN (1) CN112446211A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989807A (zh) * 2021-03-11 2021-06-18 重庆理工大学 一种基于连续数字压缩编码的长数字实体抽取方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032415B (zh) * 2021-03-03 2024-04-19 西北工业大学 一种基于用户偏好与知识图谱的个性化产品描述生成方法
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113010666B (zh) * 2021-03-18 2023-12-08 京东科技控股股份有限公司 摘要生成方法、装置、计算机***及可读存储介质
CN113449490B (zh) * 2021-06-22 2024-01-26 上海明略人工智能(集团)有限公司 一种文档信息汇总方法、***、电子设备及介质
CN113743121B (zh) * 2021-09-08 2023-11-21 平安科技(深圳)有限公司 长文本实体关系抽取方法、装置、计算机设备及存储介质
CN114547287B (zh) * 2021-11-18 2023-04-07 电子科技大学 一种生成式文本摘要方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989807A (zh) * 2021-03-11 2021-06-18 重庆理工大学 一种基于连续数字压缩编码的长数字实体抽取方法
CN112989807B (zh) * 2021-03-11 2021-11-23 重庆理工大学 一种基于连续数字压缩编码的长数字实体抽取方法

Also Published As

Publication number Publication date
JP2021033995A (ja) 2021-03-01

Similar Documents

Publication Publication Date Title
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
KR20180001889A (ko) 언어 처리 방법 및 장치
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
WO2022116445A1 (zh) 文本纠错模型建立方法、装置、介质及电子设备
CN114676234A (zh) 一种模型训练方法及相关设备
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113821616A (zh) 领域自适应的槽位填充方法、装置、设备及存储介质
CN112464642A (zh) 文本添加标点的方法、装置、介质及电子设备
Wang et al. Data augmentation for internet of things dialog system
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN113947091A (zh) 用于语言翻译的方法、设备、装置和介质
CN113761875A (zh) 事件抽取方法、装置、电子设备及存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN113761895A (zh) 文本摘要的生成方法、装置、电子设备及存储介质
CN115129826B (zh) 电力领域模型预训练方法、精调方法、装置及设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113836308B (zh) 网络大数据长文本多标签分类方法、***、设备及介质
CN115587184A (zh) 一种关键信息抽取模型的训练方法、装置及其存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination