CN107451106A

CN107451106A - 文本纠正方法及装置、电子设备

Info

Publication number: CN107451106A
Application number: CN201710618374.3A
Authority: CN
Inventors: 陈永环
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2017-12-08

Abstract

本说明书一个或多个实施例提供了一种文本纠正方法及装置、电子设备。其中，在所述文本纠正方法中，首先，获得待纠正文本，随后，利用编码规则确定与所述待纠正文本对应的特征向量，最后，将所述特征向量输入文本纠正模型，输出与所述待纠正文本对应的标准文本。其中，所述文本纠正模型包括编码网络和解码网络，所述编码网络和解码网络为循环神经网络RNN。通过本文提供的文本纠正方法及装置、电子设备可提高文本识别率。

Description

文本纠正方法及装置、电子设备

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种文本纠正方法及装置、电子设备。

背景技术

对各类文本进行识别的技术被应用于诸多场景中，例如：识别黑名单用户。其中，待识别的文本可例如：人名、地名、公司名等。

目前，若待识别的文本并非预定义的标准形式(如拼写错误或非简写形式)，则可能导致该文本无法被成功识别。例如：某文本的标准形式为：“***”，但因拼写错误，实际输入的文本为：“baido”。可见，出现了对文本进行纠正的需求。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种文本纠正方法及装置、电子设备。

为实现上述目的，本说明书一个或多个实施例提供的技术方案如下：

一种文本纠正方法，包括：

获得待纠正文本；

利用编码规则确定与所述待纠正文本对应的特征向量；

将所述特征向量输入文本纠正模型，输出与所述待纠正文本对应的标准文本，所述文本纠正模型包括编码网络和解码网络，所述编码网络和解码网络为循环神经网络RNN。

一种文本纠正装置，包括：

文本获得模块，获得待纠正文本；

转换模块，利用编码规则确定与所述待纠正文本对应的特征向量；

文本纠正模块，将所述特征向量输入文本纠正模型，输出与所述待纠正文本对应的标准文本，所述文本纠正模型包括编码网络和解码网络，所述编码网络和解码网络为循环神经网络RNN。

一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

所述处理器被配置为：

获得待纠正文本；

利用编码规则确定与所述待纠正文本对应的特征向量；

通过以上技术方案可以看出，基于通过机器学习获得的包括编码网络和解码网络的文本纠正模型，在获得待纠正文本后，可将待纠正文本对应的特征向量输入上述文本纠正模型，以输出标准文本，实现了对文本进行纠正的功能，进而在文本识别场景中，可提高文本识别率。

附图说明

图1为根据一示例性实施例示出的文本纠正模型的结构；

图2为根据一示例性实施例示出的一种文本纠正方法的流程；

图3为根据一示例性实施例示出的一种文本纠正装置的框图；

图4为根据一示例性实施例示出的另一种文本纠正装置的框图。

具体实施方式

本说明书提出一种文本纠正方法，利用机器学习获得的文本纠正模型来对文本进行纠正，其中，文本纠正模型可采用seq2seq(Sequence-to-Sequence)模型。该seq2seq模型可以用于纠正的文本包括但不限于：各种对象(如地点、人、公司)的名称、用于查询的Query词条。其中，对于每一种标准文本，可以对应于多种非标准文本，标准文本可为预定义的一种标准表达，非标准文本可为在标准表达的基础所作的部分字符的改变，例如，某种标准文本为：“Luck did better than Huan”，与该标准文本对应的非标准文本可为：“Luck didbetter then Huan”或“Luck do better than Huan”等。在实际的文本识别场景中，期望将改写或拼写错误等造成的非标准文本识别成与之对应的标准文本，以达到较高的文本识别率。

图1为根据一示例性实施例示出的文本纠正模型的结构，如图1所示，该文本纠正模型包括编码(Encoder)网络和解码(Decoder)网络，编码网络和解码网络可为循环神经网络(recurrent neural network,RNN)，如：长短期记忆(Long short-term memory,LSTM)网络。其中，所述编码网络的输入可为与输入文本(待识别的文本)对应的特征向量(x1,x2,...,xn)，x1,x2,...,xn可以分别用以表示输入文本中的一个字符。所述编码网络可用于将输入文本编码为一个固定大小的向量(fixed-length vector)并作为解码网络的输入，所述解码网络可用于根据上述编码网络的输出来进行解码，输出一个向量(y1,y2,...,ym)，最终根据该向量(y1,y2,...,ym)可以确定出标准文本，其中，y1,y2,...,ym可分别用以表示标准文本中的一个字符。在RNN中，通常可包含若干个节点，每一个节点根据输入计算出与之对应的输出，并且，后一个节点的输出与前一个节点的输出有关(前一个节点的输出作为后一个节点的输入)。实际应用中，RNN能够对任意长度的文本进行处理(即，n，m的取值可不固定)。

LSTM的特点是在算法中加入了一个判断信息有用与否的“处理器”(称为cell)。一个cell中通常可被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。LSTM属于一种本领域技术人员所熟知的技术，本文对此不作详细介绍。

说起来无非就是一进二出的工作原理，却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明，LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本，这就让LSTM可以处理***的垂直问题。

接下来，首先将介绍通过机器学习获得以上文本纠正模型的过程。在一实施例中，训练文本纠正模型的过程可包括如下步骤10～步骤30，其中：

步骤10：获得包括若干样本对的样本集，其中，所述样本对包括一非标准文本和一标准文本。

举例而言，获得的样本集如下(其中，X表示非标准文本，Y表示标准文本)：

步骤20：对于每一样本对，利用编码规则将所述非标准文本转换为第一编码向量，将所述标准文本转换为第二编码向量。

在一实施例中，可以针对文本中的字符类型的不同，选择与字符类型相对应的编码规则来确定编码向量。在一实施例中，当检测到某个样本的字符类型为中文时，可以采用汉字编码规则对文本中的每个汉字字符进行编码，以获得编码序列并向量化；若检测到某个样本的字符类型为非中文(如英文)，则采用ASCII编码规则对文本中的非中文字符进行编码，以获得编码序列并向量化。其中，汉字编码指的是在计算机中表示汉字的字符编码，汉字编码规则例如为：one-hot编码规则、汉字机内码编码规则、汉字国标码编码规则、区位码编码规则等。通过采用汉字编码规则以及ASCII编码规则来分别对中文字符和非中文字符进行编码，可以实现对一些非常规词的纠正。其中，可定义非常规词为词库中未包含的词，如：daueoeo。在一些文本纠正场景中，通常需要对人名、地名等进行纠正，而人名以及地名经常是一些用户自定义的词(即非常规词)，这对文本纠正效果造成限制，通过上述编码规则可以有效提升文本纠错效果。

在对编码序列进行向量化时，可以针对不同的字符类型，采用与字符类型相对应的向量化规则进行向量化。具体地，可以按照先后顺序，逐一将字符序列中的每N(N≥1)位转换成特征向量中的一个数值。

步骤30：利用所述第一编码向量和所述第二编码向量训练编码网络以及解码网络，得到包含所述编码网络和所述解码网络的文本纠正模型。

具体地，用于训练模型的样本集包含若干样本对(X，Y)，若Xi表示非标准文本(即编码网络的输入)，Yi表示标准文本(即解码网络的输出)，其中，1≤i≤N(N为样本对的数量)。可以由编码网络和解码网络得到P(Yi|Xi)的值，那么借助最大期望算法(ExpectationMaximization Algorithm，EMA)，可以得到最大化条件似然函数，即：

其中，θ可表示seq2seq模型中的待训练参数。

在可选的实施例中，可以通过梯度下降(steepest descent)算法训练seq2seq模型。

图2为根据一示例性实施例示出的一种文本纠正方法的流程，该方法可以应用于各类电子设备(如：用户设备或服务器)中，该方法利用上述通过机器学习获得的seq2seq模型来实现，该方法可以包括：

步骤101，获得待纠正文本。

其中，获得待纠正文本的方式包括但不限于：接收用户输入的待纠正文本，或从用户输入的文本中提取特定文本片段作为待纠正文本，或服务端设备将客户端设备上所登录的账户信息作为待纠正文本，等等。

步骤103，利用编码规则确定与所述待纠正文本对应的特征向量。

在一实施例中，步骤103可以包括：

步骤131：利用编码规则逐一确定与所述待纠正文本中的每一字符对应的编码，获得与所述待纠正文本对应的编码序列。例如，对于待纠正文本：“baido”，编码序列为：“0110001001100001011010010110010001101111”。

步骤132：根据所述编码序列确定与所述待纠正文本对应的特征向量。例如，对于编码序列：0110001001100001011010010110010001101111，确定的特征向量为：(98，97，105，100，111)。

步骤105，将所述特征向量输入文本纠正模型(即seq2seq模型)，输出与所述待纠正文本对应的标准文本。

在另一种实施例中，文本纠正方法可以包括如下步骤：

步骤101，获得待纠正文本。

步骤102，根据所述待纠正文本中的字符所属的字符类型，从多个候选编码规则中选取与所述字符类型对应的编码规则。

在一可选的实施例中，若所述字符类型为中文，则选取汉字编码规则；否则，则选取ASCII编码规则。

步骤103，利用选取的编码规则确定与所述待纠正文本对应的特征向量。

基于通过机器学习获得的包括编码网络和解码网络的文本纠正模型，在获得待纠正文本后，可将待纠正文本对应的特征向量输入上述文本纠正模型，以输出标准文本，实现了对文本进行纠正的功能，进而在文本识别场景中，可提高文本识别率。基于seq2seq的文本纠正模型，可以大大避免人为干预(如人为制定规则算法)，可以使得文本识别过程更加智能，且准确性更高。

关于上述文本纠正方法的应用场景，列举几种：

①用于识别错误写或改写的人名、地名、公司名等文本信息，并匹配标准写法。

②用于在识别黑名单用户的场景中，对信息错误写或改写的黑名单用户的识别。

③在信息搜索场景中，识别错误写或改写的query，以提高搜索效率。

与上述方法相应，本说明书一个或多个实施例还提供一种文本纠正装置，该问题推荐装置可以应用于各类电子设备。

如图3所示，在一实施例中，一种文本纠正装置300可以包括：文本获得模块301、转换模块302以及文本纠正模块303；其中：

文本获得模块301被配置为：获得待纠正文本；

转换模块302被配置为：利用编码规则确定与所述待纠正文本对应的特征向量；

文本纠正模块303被配置为：将所述特征向量输入文本纠正模型，输出与所述待纠正文本对应的标准文本，所述文本纠正模型包括编码网络和解码网络，所述编码网络和解码网络为循环神经网络RNN。

如图4所示，在另一实施例中，基于图3所述的装置，该装置300还可以包括规则选取模块304，该规则选取模块304被配置为：根据所述待纠正文本中的字符所属的字符类型，从多个候选编码规则中选取与所述字符类型对应的编码规则。

在图4所示的实施例中，转换模块302可被配置为：利用选取的编码规则确定与所述待纠正文本对应的特征向量。

在一可选的实施例中，所述转换模块302可以具体包括：

编码序列确定模块，利用选取的编码规则逐一确定与所述待纠正文本中的每一字符对应的编码，获得与所述待纠正文本对应的编码序列；

向量化模块，根据所述编码序列确定与所述待纠正文本对应的特征向量。

在一可选的实施例中，所述规则选取模块304可以被配置为：若所述字符类型为中文，选取汉字编码规则；否则，选取ASCII编码规则。

在一实施例中，所述装置还可以包括：

样本获得模块，获得包括若干样本对的样本集，所述样本对包括一非标准文本和一标准文本；

编码向量确定模块，对于每一样本对，利用编码规则将所述非标准文本转换为第一编码向量，将所述标准文本转换为第二编码向量；

模型训练模块，利用所述第一编码向量和所述第二编码向量训练编码网络以及解码网络，得到文本纠正模型。

本说明书一个或多个实施例提供了一种电子设备(如：用户设备、服务器或其他计算设备)，可以包括处理器、内部总线、网络接口、存储器(包括内存以及非易失性存储器)，当然还可能包括其他业务所需要的硬件。处理器可为中央处理单元(CPU)、处理单元、处理电路、处理器、专用集成电路(ASIC)、微处理器或可执行指令的其他处理逻辑中的一个或多个实例。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在一实施例中，所述处理器可以被配置为：

获得待纠正文本；

利用编码规则确定与所述待纠正文本对应的特征向量；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例、装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例的实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims

1.一种文本纠正方法，包括：

获得待纠正文本；

利用编码规则确定与所述待纠正文本对应的特征向量；

2.根据权利要求1所述的方法，在所述利用编码规则确定与所述待纠正文本对应的特征向量之前，所述方法还包括：

根据所述待纠正文本中的字符所属的字符类型，从多个候选编码规则中选取与所述字符类型对应的编码规则；

所述利用编码规则确定与所述待纠正文本对应的特征向量包括：

利用选取的编码规则确定与所述待纠正文本对应的特征向量。

3.根据权利要求1或2所述的方法，所述利用编码规则确定与所述待纠正文本对应的特征向量包括：

利用编码规则逐一确定与所述待纠正文本中的每一字符对应的编码，获得与所述待纠正文本对应的编码序列；

根据所述编码序列确定与所述待纠正文本对应的特征向量。

4.根据权利要求2所述的方法，所述根据所述待纠正文本中的字符所属的字符类型，从多个候选编码规则中选取与所述字符类型对应的编码规则包括：

若所述字符类型为中文，选取汉字编码规则；否则，选取ASCII编码规则。

5.根据权利要求1所述的方法，所述文本纠正模型的训练方法包括：

获得包括若干样本对的样本集，所述样本对包括一非标准文本和一标准文本；

对于每一样本对，利用编码规则将所述非标准文本转换为第一编码向量，将所述标准文本转换为第二编码向量；

利用所述第一编码向量和所述第二编码向量训练编码网络以及解码网络，得到文本纠正模型。

6.一种文本纠正装置，包括：

文本获得模块，获得待纠正文本；

7.根据权利要求6所述的装置，所述装置还包括：

规则选取模块，根据所述待纠正文本中的字符所属的字符类型，从多个候选编码规则中选取与所述字符类型对应的编码规则；

所述转换模块利用选取的编码规则确定与所述待纠正文本对应的特征向量。

8.根据权利要求6或7所述的装置，所述转换模块包括：

9.根据权利要求7所述的装置，所述规则选取模块被配置为：若所述字符类型为中文，选取汉字编码规则；否则，选取ASCII编码规则。

10.根据权利要求6所述的装置，所述装置还包括：

11.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

所述处理器被配置为：

获得待纠正文本；

利用编码规则确定与所述待纠正文本对应的特征向量；

12.根据权利要求11所述的电子设备，在所述利用编码规则确定与所述待纠正文本对应的特征向量之前，还包括：

根据所述编码序列确定与所述待纠正文本对应的特征向量。