CN112069813B

CN112069813B - 文本处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112069813B
Application number: CN202010944900.7A
Authority: CN
Inventors: 王兴光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2023-10-13
Anticipated expiration: 2040-09-10
Also published as: CN112069813A

Abstract

本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域，其中，方法包括：对待处理文本中的每一词的词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量；通过每一词的所述全局信息子向量，对对应词进行注意力计算，得到所述对应词的注意力值；对所述对应词的局部信息子向量和所述注意力值进行累加处理，得到所述对应词的加权词向量，并进一步形成合并向量；将所述合并向量确定为所述待处理文本的特征向量，并采用所述特征向量对所述待处理文本进行文本处理。通过本申请实施例，能够准确的得到待处理文本的特征向量，进而提高后续文本处理过程中处理结果的准确性。

Description

文本处理方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种文本处理方法、装置、设备及计算机可读存储介质。

背景技术

在人工智能领域，在对文本进行文本处理时，例如，对文本进行翻译、对文本进行问答匹配、对文本进行搜索等任意一种文本处理时，通常需要预先对文本对应的向量进行处理，得到处理后的特征向量，然后基于处理后的特征向量实现对文本的处理。

相关技术中，通常预先采用有序神经元(Ordered Neurons)或自注意力结构(Self-Attention)来实现对文本对应的向量进行处理。

但是，相关技术中的向量处理方法，均不能描述文本中的符号之间的语义层次关系，且Self-Attention默认当前符号对应的嵌入表示向量(Embedding)要与其他符号完全交互，因此会使得后续文本处理过程中得到的处理结果的准确性较低。

发明内容

本申请实施例提供一种文本处理方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域。由于对待处理文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量，并基于全局信息子向量和局部信息子向量进行注意力计算，因此能够准确的得到每一词的加权词向量，进而提高后续文本处理过程中处理结果的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种文本处理方法，包括：

对待处理文本中的每一词的词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量；

通过每一词的所述全局信息子向量，对对应词进行注意力计算，得到所述对应词的注意力值；

对所述对应词的局部信息子向量和所述注意力值进行累加处理，得到所述对应词的加权词向量；

对所述待处理文本中的至少一个词的所述加权词向量进行合并，形成合并向量；

将所述合并向量确定为所述待处理文本的特征向量，并采用所述特征向量对所述待处理文本进行文本处理。

本申请实施例提供一种文本处理装置，包括：

划分模块，用于对待处理文本中的每一词的词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量；

注意力计算模块，用于通过每一词的所述全局信息子向量，对对应词进行注意力计算，得到所述对应词的注意力值；

累加处理模块，用于对所述对应词的局部信息子向量和所述注意力值进行累加处理，得到所述对应词的加权词向量；

合并模块，用于对所述待处理文本中的至少一个词的所述加权词向量进行合并，形成合并向量；

处理模块，用于将所述合并向量确定为所述待处理文本的特征向量，并采用所述特征向量对所述待处理文本进行文本处理。

本申请实施例提供一种文本处理设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的文本处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的文本处理方法。

本申请实施例具有以下有益效果：由于对待处理文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量，并基于全局信息子向量对对应词进行注意力计算，得到对应词的注意力值，以及，对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量，从而根据加权词向量最终确定出待处理文本的特征向量。如此，通过全局信息子向量和局部信息子向量能够准确的得到每一词的加权词向量，从而能够准确的得到待处理文本的特征向量，进而提高后续文本处理过程中处理结果的准确性。

附图说明

图1是本申请实施例提供的文本处理***的一个可选的架构示意图；

图2是本申请实施例提供的Self-Attention模型结构示意图；

图3是本申请实施例提供的服务器的结构示意图；

图4是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图5是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图6是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图7是本申请实施例提供的文本处理方法的一个可选的流程示意图；

图8是本申请实施例提供的修改后的Self-Attention模型结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在解释本申请实施例的文本处理方法之前，首先对相关技术中的文本处理方法进行说明：

相关技术中，通常预先采用有序神经元或自注意力结构来实现对文本对应的向量进行处理。其中，有序神经元是将树结构集成到递归神经网络中，该方法提出一种基于长短期记忆网络(LSTM，Long Short-Term Memory)的序列化模型的，对隐状态向量进行加权，建模了向量不同位置状态的层次关系，从而得到文本的处理后的特征向量；在Slef-Attention的方法中，模型(例如，预训练的语言表征模型(BERT，Bidirectional EncoderRepresentation from Transformers))会通过引入位置嵌入(Position Embedding)的方式来建模符号(Token)之间的位置关系，这种位置关系在许多任务中表现出一些优异的效果。

但是，相关技术中的向量处理方法，均不能描述文本中的符号之间的语义层次关系，比如句法分析中的上下位关系等，且Self-Attention默认当前符号对应的嵌入表示向量要与其他符号完全交互，因此，并没有充分考虑符号本身的局部信息，所以会使得后续文本处理过程中得到的处理结果的准确性较低。

为了解决相关技术中的文本处理方法所存在的至少一个问题，本申请实施例提供一种文本处理方法，该方法是考虑待处理文本中的每一词的局部与全局信息的Self-Attention计算方法，该方法引入新的激活函数，将Slef-Attention的每个符号(包括单词和标点)对应的向量切分为局部和全局两部分。全局部分进行正常的Self-Attention计算，局部则以类似残差的方式，在Self-Attention计算后的输出时进行累加。

本申请实施例提供一种文本处理方法，首先，对待处理文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量；然后，通过每一词的所述全局信息子向量，对对应词进行注意力计算，得到对应词的注意力值；对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量；对待处理文本中的至少一个词的加权词向量进行合并，形成合并向量；最后，将合并向量确定为待处理文本的特征向量，并采用特征向量对待处理文本进行文本处理。如此，由于通过全局信息子向量和局部信息子向量能够准确的得到每一词的加权词向量，从而能够准确的得到待处理文本的特征向量，进而提高后续文本处理过程中处理结果的准确性。

下面说明本申请实施例的文本处理设备的示例性应用，在一种实现方式中，本申请实施例提供的文本处理设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人等任意的终端，在另一种实现方式中，本申请实施例提供的文本处理设备还可以实施为服务器。下面，将说明文本处理设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的文本处理***10的一个可选的架构示意图。为实现对待处理文件进行文本处理，本申请实施例提供的文本处理***10中包括终端100、网络200和服务器300，其中，终端100上运行有文本处理应用(例如，文本处理应用可以是翻译应用或文本搜索应用)，这里以文本处理应用是翻译软件，待处理文本是待翻译文本为例进行说明。用户可以在终端100的翻译软件的客户端上输入待翻译文本，终端100在获取到待翻译文本之后，将待翻译文本通过网络200发送给服务器300，服务器300对待翻译文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量；通过每一词的全局信息子向量，对对应词进行注意力计算，得到对应词的注意力值；对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量；对待翻译文本中的至少一个词的加权词向量进行合并，形成合并向量；将合并向量确定为待翻译文本的特征向量，并采用特征向量对待翻译文本进行翻译，得到翻译后的翻译文本。服务器300在得到翻译文本之后，通过网络200将翻译文本发送给终端100，终端100在当前界面100-1上显示翻译文本。

本申请实施例提供的文本处理方法还涉及人工智能技术领域，可以通过人工智能技术中的自然语言处理技术和机器学习技术来实现。其中，

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例中，通过人工智能技术中的自然语言处理技术和机器学习技术实现本申请实施例的文本处理方法。需要说明的是，本申请实施例的文本处理方法，得到待处理文本的特征向量的步骤可以通过Self-Attention来实现，Se lf-Attention利用了注意力机制(Attention)，计算待处理文本中每个词与其他词之间的关联，即计算每个词与其他词之间的注意力值(Attention Score)，利用每个词的注意力值就可以得到每个词加权的向量表示，然后再将加权的向量表示放到一个前馈神经网络中得到新的向量表示，这一新的向量表示能够很好的考虑到待处理文本中的上下文信息。

图2是本申请实施例提供的Self-Attention模型结构示意图，如图2所示，对于Self-Attention来讲，输入向量包括Q(Query)、K(Key)和V(Value)，Q、K和V三个向量均是来自同一文本的输入，首先通过矩阵乘计算(MatMul)201，计算Q和K之间的点乘，然后为了防止点乘结果过大，会通过缩放模块(Scale)202进行缩放处理，再进行Mask处理203，最后通过Softmax函数进行逻辑回归处理204，将结果归一化为概率分布，然后再通过矩阵乘计算205乘以向量V就得到权重求和的表示，即可以得到每个词加权的向量表示。

图3是本申请实施例提供的服务器300的结构示意图，图3所示的服务器300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线***340耦合在一起。可理解，总线***340用于实现这些组件之间的连接通信。总线***340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线***340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***351，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器350中的一种文本处理装置354，该文本处理装置354可以是服务器300中的文本处理装置，其可以是程序和插件等形式的软件，包括以下软件模块：划分模块3541、注意力计算模块3542、累加处理模块3543、合并模块3544和处理模块3545，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的文本处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本申请实施例提供的服务器300的示例性应用和实施，说明本申请实施例提供的文本处理方法。参见图4，图4是本申请实施例提供的文本处理方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤S401，对待处理文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量。

这里，待处理文本可以是任意一种类型的文本，例如可以是待翻译文本、待检索文本、待匹配答案的问题文本等。待处理文本中包括至少一个词，这里的词不仅包括能够表示文本语义信息的词汇，还包括语气词、语气助词等不用于表示文本语义信息的词汇。待处理文本可以是任意一种语言类型的文本，例如可以是中文文本，也可以是英文文本等。

本申请实施例中，在获取到待处理文本之后，对待处理文本进行划分，形成至少一个词，每个词可以是词汇，也可以是单个字。在获取到至少一个词之后，在预设词向量库中匹配出每一词的词向量。这里，词向量(Word embeddi ng)，又叫词嵌入式自然语言处理(NLP，Natural Language Processing)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量，从概念上讲，词向量涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。也就是说，预设词向量库中存储有每一词的词向量，在划分得到至少一个词之后，可以依次从预设词向量库中匹配出每一词的词向量。

本申请实施例中，针对于每个词的词向量还会进行词向量的划分，将词向量划分成至少两个部分，这两个部分分别是词向量的全局信息子向量和局部信息子向量，其中，全局信息子向量和局部信息子向量合并后即是这个词的词向量，也就是说，将每个词的词向量中一定维度的元素划分出来，形成全局信息子向量，将这个词的词向量中的剩余维度中的部分或全部元素划分出来，形成局部信息子向量。

步骤S402，通过每一词的全局信息子向量，对对应词进行注意力计算，得到对应词的注意力值。

这里，注意力计算可以采用注意力模型来实现，将每一词的全局信息子向量作为注意力模型的输入，输入至注意力模型中，得到这个词的注意力值，其中，注意力值是用于表征这个词在整个待处理文本中所占权重的值。如果注意力值越高，则这个词在整个待处理文本中所占的权重越高，表明这个词越重要，在整个文本处理模型的后续处理过程中，这个词需要被更多的关注；如果注意力值越低，则这个词在整个待处理文本中所占的权重越低，表明这个词越不重要，在整个文本处理模型的后续处理过程中可以不用作太多的关注。

步骤S403，对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量。

这里，对对应词的局部信息子向量和注意力值进行累加处理，相当于对对应词进行残差处理，将计算得到的注意力值累加至局部信息子向量中，得到对应词的加权词向量，加权词向量是附加了这个词的权重之后的向量。需要说明的是，通过对对应词的局部信息子向量和注意力值进行累加处理，能够使得待处理文本中的重要的词的向量相比于不重要的词的向量的权重更高。

步骤S404，对待处理文本中的至少一个词的加权词向量进行合并，形成合并向量。

这里，对待处理文本中的至少一个词的加权词向量进行合并，是指将每一词的加权词向量与下一词的加权词向量依次连接，形成一个更高维度的合并向量。举例来说，待处理文本中包括两个词A和B，其中A的加权词向量为n维向量，B的加权词向量为m维向量，因此，将A和B的加权词向量合并之后，即形成一个n+m维的合并向量，合并向量中的元素是A和B的加权词向量中的元素。简而言之，对A和B的加权词向量进行合并，就是将A和B的加权词向量中的元素进行拼接，形成一个具有更高维度的合并向量。

步骤S405，将合并向量确定为待处理文本的特征向量，并采用特征向量对待处理文本进行文本处理。

这里，合并向量是能够表征待处理文本的信息的向量，且合并向量中按照每个词的重要性，进行了关注度计算，即合并向量是为每个词的词向量赋予了权重后的向量。这样，如果通过合并向量进行文本处理的后续计算的话，则是按照每个词在整个待处理文本中的重要性来进行计算的，因此，后续的文本处理也将会考虑到待处理文本中的每个词的不同的重要性。

本申请实施例中，将合并向量确定为待处理文本的特征向量，该特征向量可以输入至任意一种文本处理模型中，作为文本处理模型的输入值进行文本处理的相关计算。

本申请实施例提供的文本处理方法，由于对待处理文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量，并基于全局信息子向量对对应词进行注意力计算，得到对应词的注意力值，以及，对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量，从而根据加权词向量最终确定出待处理文本的特征向量。如此，通过全局信息子向量和局部信息子向量能够准确的得到每一词的加权词向量，从而能够准确的得到待处理文本的特征向量，进而提高后续文本处理过程中处理结果的准确性。

在一些实施例中，文本处理***中包括终端和服务器，终端上运行有文本处理应用，文本处理应用例如可以是翻译软件、文本检索应用、问答匹配应用等，下面以文本处理应用是问答匹配应用为例进行说明。终端上运行有问答匹配应用，服务器为问答匹配应用的服务器，用户通过在终端上的问答匹配应用的客户端上输入问题，服务器根据用户输入的问题，在文本库中匹配到与问题对应的答复文本，并将匹配到的答复文本输出给用户。

图5是本申请实施例提供的文本处理方法的一个可选的流程示意图，如图5所示，方法包括以下步骤：

步骤S501，终端获取用户输入的待处理文本，待处理文本包括待匹配答案的问题。

这里，终端可以采用任意一种方式获取待处理文本，例如，用户可以通过终端上的文字输入模块输入待处理文本，其中文字输入模型可以是触摸屏输入模块，也可以是键盘或鼠标等物理输入模块；或者，用户还可以通过语音输入方式输入语音信息，终端对用户的语音信息进行解析，得到待处理文本；或者，用户还可以通过手势输入方式输入手势信息，终端对用户的手势信息进行解析，得到待处理文本。

步骤S502，终端将待处理文本封装于文本处理请求中。

这里，文本处理请求用于请求对待处理文本进行处理，即文本处理请求用于请求匹配出该问题的答案。

步骤S503，终端将文本处理请求发送给服务器。

步骤S504，服务器解析文本处理请求，得到待匹配答案的问题。

本申请实施例中，在解析到待匹配答案的问题之后，对问题的文本进行划分，得到至少一个词。

步骤S505，服务器在预设词向量库中获取问题中的每一词的词向量。

这里，预设词向量库中包括至少一个词的词向量，在划分得到至少一个词之后，可以依次在预设词向量库中匹配出每一词的词向量。

步骤S506，服务器对每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量。

步骤S507，服务器通过每一词的全局信息子向量，对对应词进行注意力计算，得到对应词的注意力值。

步骤S508，服务器对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量。

步骤S509，服务器对问题中的全部词的加权词向量进行合并，形成合并向量。

需要说明的是，步骤S506至步骤S509对应上述步骤S401至步骤S404，请参照上述步骤S401至步骤S404中的详细解释，本申请实施例对步骤S506至步骤S509的过程不再赘述。

步骤S510，服务器将合并向量确定为待处理文本的特征向量，并采用特征向量对问题进行问答匹配，以在文本库中匹配到与问题对应的答复文本。

这里，由于文本处理模型是问答匹配模型，因此，在得到待处理文本的合并向量之后，将合并向量作为待处理文本的特征向量输入至问答匹配模型中，通过问答匹配模型对待处理文本的特征向量进行处理，以实现在文本库中匹配到与问题对应的答复文本。

本申请实施例中，文本库中包括至少一个文本，每一文本对应特定的领域，且每一文本是对应于至少一个问题的解答结果。每一文本对应一文本向量，该文本向量是用于表示文本信息的向量。因此，通过计算待处理文本的特征向量与每一文本的文本向量之间的相似度，或者计算待处理文本的特征向量与每一文本的文本向量之间的匹配度，从而能够确定出与待处理文本最相关或最匹配的目标文本，目标文本即待处理文本对应的问题的答复文本。

步骤S511，服务器将答复文本作为问题的答案发送给终端。

步骤S512，终端在当前界面上显示问题的答案。

本申请实施例提供的文本处理方法，实现了对待处理文本对应的问题的问答匹配。通过终端与服务器之间进行交互，将终端获取的待处理文本发送给服务器，以请求服务器对待处理文本进行文本处理，且在文本处理之前，服务器是对文本中的每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量，并基于全局信息子向量对对应词进行注意力计算，得到对应词的注意力值，以及，对对应词的局部信息子向量和注意力值进行累加处理，得到对应词的加权词向量，从而能够根据加权词向量最终确定出待处理文本的特征向量。如此，通过全局信息子向量和局部信息子向量能够准确的得到每一词的加权词向量，从而能够准确的得到待处理文本的特征向量，进而提高后续文本匹配过程中匹配到的答复文本的准确性。

基于图4，图6是本申请实施例提供的文本处理方法的一个可选的流程示意图，如图6所示，步骤S401可以通过以下步骤实现：

步骤S601，确定门控向量，门控向量中至少包括非零区间。

这里，门控向量是在对词向量进行划分时，用于确定划分位置的向量，门控向量是预设设置或者通过预先设备的向量进行变换后得到的向量。

在一些实施例中，步骤S601中确定门控向量可以通过以下步骤实现：

步骤S6011，获取第一门控向量和第二门控向量。

这里，第一门控向量的所有元素之和为1，且第一门控向量中的元素按照依次递增的顺序排列；第二门控向量的所有元素之和为1，且第二门控向量中的元素按照依次递减的顺序排列；第一门控向量的维度与第二门控向量的维度相同。也就是说，第一门控向量与第二门控向量中的元素的排列顺序刚好是相反的，一个按照递增的顺序排列，一个按照递减的顺序排列。

步骤S6012，依次将第一门控向量中每一位置的元素与第二门控向量中对应位置的元素相乘，得到对应位置的乘积。步骤S6013，按照第一门控向量中的每一位置的顺序，依次将每一位置的乘积添加至一新的向量中，生成所述门控向量。

举例来说，第一门控向量可以是[0，……，s]的一个递增序列，第一门控向量的维度是N，其中，每个元素的值小于或等于1，N个元素之和为1。在设置第一门控向量时，可以是从第一个元素开始，将第一个元素的值和第二个元素的值赋值给第二个元素，将第二个元素的值和第三个元素的值赋值给第三个元素，这样的话，第一门控向量里面的第n个数就表示前n个数的和，最后一个元素的值就是1，也就是说，第一门控向量可以是一个递增到1的向量。相反的，第二门控向量可以是[t，……，0]的一个递增序列，第二门控向量的维度也是N，其中，每个元素的值小于或等于1，N个元素之和为1，第二门控向量可以是一个递减到0的向量。

这里，假设第一门控向量是前10个元素是0(可以是接近于0的极小的数，例如10的-5次方)，末尾的最后元素是1(可以是接近于1且小于1的数)，第二门控向量有可能是末尾的10个元素是0，就是整个向量的序列是逐渐缩减到0。然后可以将第一门控向量和第二门控向量按照对应的位置相乘，也就是将第一门控向量的第1个位置和第二门控向量的第1个位置的数相乘，将第一门控向量的第2个位置和第二门控向量的第2个位置的数相乘……以此类推，直至将将第一门控向量中的第N个位置和第二门控向量的第N个位置的数相乘。此时，由于第一门控向量的前10个位置和第二门控向量的后10个位置的元素都是0，所以相乘之后，所得到的门控向量的前10个位置和后10个位置都为0，然后中间位置非0。

步骤S602，将非零区间，确定为全局位置区间。

这里，将门控向量中间位置的非零区间确定为全局位置区间。举例来说，如果将第一门控向量中每一位置的元素与第二门控向量中对应位置的元素相乘之后，得到的门控向量的前10个位置为0，且后10个位置也为0，则将除了前10个位置和后10个位置之外的其他位置对应的区间，确定全局位置区间。

步骤S603，将门控向量中位于非零区间之后的子区间，确定为局部位置区间。这里，假设非零区间的开始位置为i，非零区间的结束位置为j，那么局部位置区间则是门控区间中从位置j到最后一个位置的区间。

步骤S604，按照全局位置区间和局部位置区间，对每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量。

在一些实施例中，步骤S604可以通过以下步骤实现：

步骤S6041，将全局位置区间中的第一个元素在门控向量中的位置，确定为初始位置。

步骤S6042，将全局位置区间中的最后一个元素在门控向量中的位置，确定为终止位置。

步骤S6043，根据初始位置和终止位置，对每一词的词向量进行划分，至少形成词向量的全局信息子向量和局部信息子向量。

在一些实施例中，方法还可以包括以下步骤：

步骤S61，获取门控向量的向量维度对应的第一数量。

步骤S62，按照每一词的所述词向量中元素的顺序，将词向量等分成第一数量的子区间；其中，第一数量的子区间中的每一子区间，依次对应门控向量中的一个位置。

对应地，步骤S6043可以通过以下步骤实现：

步骤S6043a，将初始位置在第一数量的子区间中对应的第一子区间、终止位置在第一数量的子区间中对应的第二子区间、和位于第一子区间与第二子区域之间的其他子区间，合并形成全局信息子向量。步骤S6043b，将第二子区间之后的剩余子区间合并形成局部信息子向量。

举例来说，假设输入的词的词向量X是128维的向量，但这里的第一门控向量和第二门控向量都是8维的向量，也就是说，第一门控向量和第二门控向量不是128维的，那么，第一门控向量和第二门控向量交互之后所得到的门控向量的维度也是8维。此时，可以把词向量X变成一个8乘16的向量，也就是说，每连续的16个元素为一个子区间，每一个子区间对应一个位置，整个词向量X对应8个位置，即，相当于词向量X的每16个元素对应门控向量里面的一个元素。最后，将门控区间的非零区间的第一个位置确定为初始位置、最后一个位置确定为终止位置，将初始位置在词向量X中对应的子区间、终止位置在词向量X中对应的子区间、和这两个子区间之间的元素，合并形成全局信息子向量。例如，非零区间是门控向量中的位置3到位置5，那么，将128维的词向量X等分成8个子区间，则第三个子区间到第5个子区间之间的元素形成全局信息子向量，第5个子区间之后的元素形成局部信息子向量。

基于图4，图7是本申请实施例提供的文本处理方法的一个可选的流程示意图，如图7所示，步骤S402可以通过以下步骤实现：

步骤S701，对于待处理文本中的每一词，将对应词的全局信息子向量和每一词的词向量作为输入值，输入至自注意力模型中。

步骤S702，通过自注意力模型计算对应词的注意力值。

自注意力模型即Self-Attention模型，这里的自注意力模型可以是上述图2中所示的模型，也可以是基于图2所示的模型进行变形之后所得到的自注意力模型。本申请实施例中，通过自注意力模型可以计算每一词在整个待处理文本中的注意力值，从而对每一词进行加权计算，使得更加重要的词在整个待处理文本中的中权重更高。

请继续参照图7，在一些实施例中，在步骤S405形成特征向量之后，方法还可以包括以下步骤：

步骤S703，将合并向量确定为待处理文本的特征向量。

步骤S704，对特征向量进行划分，至少形成特征向量的全局特征子向量和局部特征子向量。

步骤S705，通过全局特征子向量，对待处理文本进行注意力计算，得到待处理文本的文本注意力值。

步骤S706，对局部特征子向量和文本注意力值进行累加处理，得到待处理文本的加权文本向量。

需要说明的是，步骤S703至步骤S706是对采用本申请实施例的方法确定出的合并向量进行再一次自注意力计算的过程，其中自注意力计算就是本申请实施例中计算注意力值并得到加权词向量的过程。也就是说，本申请实施例提供的自注意力计算的模型可以在整个文本处理模型中的任意位置进行使用，可以在整个文本处理模型最开始输入的时候进行一次自注意力计算，还可以在文本处理模型的中间位置，对得到的中间向量进行一次或多次自注意力计算。

对应地，步骤S405中的采用特征向量对待处理文本进行文本处理，可以通过以下步骤实现：步骤S707，采用加权文本向量对待处理文本进行文本处理。

本申请实施例提供的文本处理方法，可以将所提供的自注意力计算方法应用于文本处理模型中的任意位置，即可以在文本处理模型中添加具有多层结构的自注意力计算模型，也可以在文本处理模型中隔层使用自注意力计算模型。如此，根据文本处理需求，可以实现对不同处理情况下的输出向量，进行基于全局和局部信息的自注意力计算，保证每一层所得到的加权词向量更加符合待处理文本的语义表示，进而提高整个文本处理模型的处理结果的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种文本处理方法，适用于所有可能用到Self-Attention的算法。

对于一个词来讲，这个词往往包含局部信息和全局信息两个部分。局部信息是指：不需要任何上下文，就可以明确表示语义，比如“冷”和“热”中描述的极性信息，人可以在没有任何上下文的前提下，获取对应冷温度低、性格高傲等信息，而热对应温度高、性格开朗等信息。全局信息是指：需要上下文，才能进一步明确的语义，比如，他人很冷，中的“冷”字，即指了性格高傲。本申请实施例基于上述的局部信息和全局信息的假设，提出一种局部和全局敏感的Self-Attention计算方法。

传统方法中，往往将词的语义直接编码到一个向量中，并不会区分这个词的局部信息和全局信息。近些年提出的Attention算法，包含Self-Attention在内，则忽略了词的局部信息，直接建模了词的全局信息，或者是针对于文本的整个句子来建模句子的全局信息。这种解决方法都没有很好的区分词本身的固有属性和词的上下文属性，也就是本申请实施例中提到的局部信息和全局信息。

本申请实施例的核心思想在于局部信息和全局信息的区分算法，算法流程可以通过以下代码实现：

def cumsum_active(X,n_chunks):

shape＝X.get_shape()

l＝tf.nn.softmax(tf.layers.dense(X,n_chunks))#N,T,NChunks

g＝tf.nn.softmax(tf.layers.dense(X,n_chunks))#N,T,NChunks

l＝tf.expand_dims(tf.math.cumsum(f,axis＝-1),axis＝-1)#N,T,NChunks,1

g＝tf.expand_dims(1.-tf.math.cumsum(i,axis＝-1),axis＝-1)#N,T,NChunks,1

w＝l*g

X＝tf.stack(tf.split(X,n_chunks,axis＝2),axis＝2)#N,T,NChunks,C/NChunksX_context＝tf.reshape(X*w,shape)

X_local＝tf.reshape(X*l,shape)

return X_context,X_local

通过上述代码可以看出，对于输入X，分别计算两个激活门结构l门和g门，其中，l门对应上述的第一门控向量，g门对应上述的第二门控向量。

l门通过累加和的方式，最终表现为一个[0，……，1]的一个递增序列，g门则与l门相反，表现为一个[1，……，0]的递减序列。在计算过程中，引入无意义表示区域。l门与g门进行交互，可以得到一个非零区间，假设区间的开始和结束位置分别是位置i和位置j；对于原向量X来讲，它的全局信息即向量X[i:j]，即将X向量中从位置i到位置j之间的元素确定为全局信息的向量表示；而局部信息则定义为X[j:]，即将X向量中从位置i到X向量最末尾位置的元素确定为局部信息的向量表示；对于向量的剩余部分X[0:i]，即X向量中从初始位置到位置i之间的元素，定义为无意义表示区域。需要说明的是，由于不同词的位置i和位置j不同，因此无意义区域则完全受外部词的向量计算得到。

本申请实施例中，通过cumsum-activate操作，可以得到两个向量：x_cont ext和x_local，其中，x_context[i:j]位置非0，x_local[j:]位置非0。

对于无意义部分的详细解释：对某些词来讲，可能并不需要一个D维向量表示，更少维度就可以描述全部信息，那么，将这个词的向量划分为三个部分，无意义部分则完全通过上下文计算得到，而且不影响Attention的权重计算；全局部分也通过上下文计算得到，但直接影响Attention的权重计算；局部部分，则不参与上下文计算，是每个符号固有的局部信息。

本申请实施例中，修改后的Self-Attention方法可以应用到TransformerJ结构中，相当于对模型的两个位置进行了修改：第一个位置是，Attention权重计算前，将向量通过cumsum-activate方法，提取出x_context，并基于x_context执行Attention的后续操作；第二个位置是，在得到新的词向量的Q(即Query)表示后，不再累加Query的原始表示而改成Query的局部表示。

修改后的Self-Attention计算方法参见图8所示的修改后的Self-Attention模型结构示意图，基于上述图2的Self-Attention模型结构示意图，图8中粗实线部分801即新增加的操作，分别对应cumsum-activate计算81和新的残差路径。虚线部分802表示原残差模块舍弃。需要说明的是，图8中的Q_l表示Q的局部表示，Q_g表示Q的全局表示，K_g表示K(即Key)的全局表示，V_g表示V(即Value)的全局表示，K和V的操作与Q相同，最终得到输出结果Q_a。

本申请实施例提供的方法，通过cumsum-activate，对输入向量进行切分，将输入向量表示为无意义、全局和局部三个区域，能够更好地保持输入向量本身所包含的全局信息和局部信息。全局信息参与计算Attention权重，并由这些权重重新为向量的无意义和全局两个部分重新赋值，局部区域则替代了原有的残差结构。本申请实施例提出的算法，可以直接修改应用到现有的Self-Attenti on计算中，从而会对一些任务起到比较好的提升效果。

需要说明的是，cumsum-activate在self-attention的计算中，可能有其他可尝试的位置，比如，在权重计算后，重新计算cumsum-activate，即多次叠加本申请实施例提供的cumsum-activate结构；也可以将cumsum-activate改成多层结构，或者cumsum-activate在整个文本处理模型中隔层使用等。

本申请实施例提出的基于Self-Attention的三段式的信息表示以及后续的使用方法，尤其局部表示替换残差计算中的原有表示，属于本申请实施例的核心保护范围。本申请实施例对Self-Attention的内部结果不做约束。

下面继续说明本申请实施例提供的文本处理装置354实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器350的文本处理装置354中的软件模块可以是服务器300中的文本处理装置，包括：

划分模块3541，用于对待处理文本中的每一词的词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量；

注意力计算模块3542，用于通过每一词的所述全局信息子向量，对对应词进行注意力计算，得到所述对应词的注意力值；

累加处理模块3543，用于对所述对应词的局部信息子向量和所述注意力值进行累加处理，得到所述对应词的加权词向量；

合并模块3544，用于对所述待处理文本中的至少一个词的所述加权词向量进行合并，形成合并向量；

处理模块3545，用于将所述合并向量确定为所述待处理文本的特征向量，并采用所述特征向量对所述待处理文本进行文本处理。

在一些实施例中，所述划分模块还用于：

确定门控向量，所述门控向量中至少包括非零区间；

将所述非零区间，确定为全局位置区间；

将所述门控向量中位于所述非零区间之后的子区间，确定为局部位置区间；

按照所述全局位置区间和所述局部位置区间，对每一词的所述词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量。

在一些实施例中，所述划分模块还用于：

获取第一门控向量和第二门控向量；其中，所述第一门控向量的所有元素之和为1，且所述第一门控向量中的元素按照依次递增的顺序排列；所述第二门控向量的所有元素之和为1，且所述第二门控向量中的元素按照依次递减的顺序排列；所述第一门控向量的维度与所述第二门控向量的维度相同；

依次将所述第一门控向量中每一位置的元素与所述第二门控向量中对应位置的元素相乘，得到所述对应位置的乘积；

按照所述第一门控向量中的每一位置的顺序，依次将每一位置的所述乘积添加至一新的向量中，生成所述门控向量。

在一些实施例中，所述划分模块还用于：

将所述全局位置区间中的第一个元素在所述门控向量中的位置，确定为初始位置；

将所述全局位置区间中的最后一个元素在所述门控向量中的位置，确定为终止位置；

根据所述初始位置和所述终止位置，对每一词的所述词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量。

在一些实施例中，所述装置还包括：

第一数量获取模块，用于获取所述门控向量的向量维度对应的第一数量；

等分模块，用于按照每一词的所述词向量中元素的顺序，将所述词向量等分成所述第一数量的子区间；其中，所述第一数量的子区间中的每一子区间，依次对应所述门控向量中的一个位置；

所述划分模块还用于：

将所述初始位置在所述第一数量的子区间中对应的第一子区间、所述终止位置在所述第一数量的子区间中对应的第二子区间、和位于所述第一子区间与所述第二子区域之间的其他子区间，合并形成所述全局信息子向量；

将所述第二子区间之后的剩余子区间合并形成所述局部信息子向量。

在一些实施例中，所述注意力计算模块还用于：

对于所述待处理文本中的每一词，将对应词的所述全局信息子向量和每一词的词向量作为输入值，输入至自注意力模型中；

通过所述自注意力模型计算所述对应词的注意力值。

在一些实施例中，所述装置还包括：

特征向量划分模块，用于对所述特征向量进行划分，至少形成所述特征向量的全局特征子向量和局部特征子向量；

第一注意力计算模块，用于通过所述全局特征子向量，对所述待处理文本进行注意力计算，得到所述待处理文本的文本注意力值；

第一累加处理模块，用于对所述局部特征子向量和所述文本注意力值进行累加处理，得到所述待处理文本的加权文本向量；

对应地，所述处理模块还用于：

采用所述加权文本向量对所述待处理文本进行文本处理。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，R ead Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理文本中的每一词的词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量，包括：

确定门控向量，所述门控向量中至少包括非零区间；

将所述非零区间，确定为全局位置区间；

3.根据权利要求2所述的方法，其特征在于，所述确定门控向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述按照所述全局位置区间和所述局部位置区间，对每一词的所述词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述门控向量的向量维度对应的第一数量；

按照每一词的所述词向量中元素的顺序，将所述词向量等分成所述第一数量的子区间；其中，所述第一数量的子区间中的每一子区间，依次对应所述门控向量中的一个位置；

所述根据所述初始位置和所述终止位置，对每一词的所述词向量进行划分，至少形成所述词向量的全局信息子向量和局部信息子向量，包括：

将所述初始位置在所述第一数量的子区间中对应的第一子区间、所述终止位置在所述第一数量的子区间中对应的第二子区间、和位于所述第一子区间与所述第二子区间之间的其他子区间，合并形成所述全局信息子向量；

6.根据权利要求1所述的方法，其特征在于，所述通过每一词的所述全局信息子向量，对对应词进行注意力计算，得到所述对应词的注意力值，包括：

通过所述自注意力模型计算所述对应词的注意力值。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

对所述特征向量进行划分，至少形成所述特征向量的全局特征子向量和局部特征子向量；

通过所述全局特征子向量，对所述待处理文本进行注意力计算，得到所述待处理文本的文本注意力值；

对所述局部特征子向量和所述文本注意力值进行累加处理，得到所述待处理文本的加权文本向量；

对应地，所述采用所述特征向量对所述待处理文本进行文本处理，包括：

采用所述加权文本向量对所述待处理文本进行文本处理。

8.一种文本处理装置，其特征在于，包括：

9.一种文本处理设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现权利要求1至7任一项所述的文本处理方法。