CN105550173A

CN105550173A - 文本校正方法和装置

Info

Publication number: CN105550173A
Application number: CN201610083955.7A
Authority: CN
Inventors: 刘佳; 俞晓光
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-02-06
Filing date: 2016-02-06
Publication date: 2016-05-04

Abstract

本申请公开了文本校正方法和装置。所述方法的一具体实施方式包括：接收用户输入的文本信息；通过第一语言模型确定出文本信息中的至少一个出错词；基于预定规则确定出与出错词对应的候选词；使用候选词替换出错词，得到校正后的文本信息。该实施方式可以进行准确的文本校正。

Description

文本校正方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及文本处理技术领域，尤其涉及文本校正方法和装置。

背景技术

随着人工智能技术的不断发展，越来越多的服务或商品提供商开始建立智能服务交互***，以便24小时不间断的为用户提供所需要的咨询或业务服务。通常用户可以通过输入文字信息与这类智能***进行交互。但是，用户所输入的文字信息经常会因为各种原因(例如，拼写错误或按键错误)出现词不达意的情况，而使得用户无法从智能***中获取有效的帮助信息。因此，对用户在智能交互***中输入的语句进行纠错，是所有智能交互***都必须解决的问题。

在现有技术中，主要通过预先配置的纠错规则，对用户输入的文本进行校正。具体可以将所有命中纠错规则的词，全都校正为纠错后的词，例如，只要用户输入“优惠卷”，就将其校正为“优惠券”。由于这种纠错规则中只能包括一定数量的固定词汇，因此只能对部分特定词汇进行校正。例如，只能将“ipone6”校正为“Iphone6”，而无法将“ipone6”校正为“Iphone”，也无法对“iphne6”、“iphon6”、“ipone6”等进行校正，因此导致文本校正的准确率和召回率都比较低。

发明内容

本申请的目的在于提出一种文本校正方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种文本校正方法，所述方法包括：接收用户输入的文本信息；通过第一语言模型确定出所述文本信息中的至少一个出错词；基于预定规则确定出与所述出错词对应的候选词；使用所述候选词替换所述出错词，得到校正后的文本信息。

在一些实施例中，所述通过第一语言模型确定出所述文本信息中的至少一个出错词，包括：通过所述第一语言模型计算所述文本信息中每个词的出现概率；根据所述每个词的出现概率，确定出所述文本信息中的至少一个出错词。

在一些实施例中，所述第一语言模型是通过以下方法得到的：获取历史文本信息；对所述历史文本信息进行预处理，得到训练样本；使用所述训练样本进行语言模型训练，得到所述第一语言模型；其中，所述预处理包括文本过滤、切词和泛化。

在一些实施例中，所述预处理还包括基于业务类型的分类；所述使用所述训练样本进行语言模型训练，得到所述第一语言模型，包括：通过循环神经网络算法，对分类后的训练样本分别进行语言模型训练，得到每个业务类型对应的第一语言模型；所述通过所述第一语言模型计算所述文本信息中每个词的出现概率，包括：确定所述文本信息对应的业务类型；通过与该业务类型对应的第一语言模型计算所述文本信息中每个词的出现概率。

在一些实施例中，所述预定规则包括拼音规则、字形规则、编辑距离规则中的至少一项；所述文本校正方法还包括：若所述出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数；根据所述每个候选词的出现次数，从所述多个候选词中选定至少一个待定候选词；其中，所述第二语言模型是使用所述训练样本对一元语言模型训练得到的。

在一些实施例中，所述使用所述候选词替换所述出错词，得到校正后的文本信息，包括：分别使用每个所述待定候选词替换所述出错词，得到至少一个待定文本信息；通过所述第一语言模型分别计算每个所述待定文本信息的出现概率；根据所述待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。

第二方面，本申请提供了一种文本校正装置，所述装置包括：接收模块，用于接收用户输入的文本信息；出错词确定模块，用于通过第一语言模型确定出所述文本信息中的至少一个出错词；候选词确定模块，用于基于预定规则确定出与所述出错词对应的候选词；校正模块，用于使用所述候选词替换所述出错词，得到校正后的文本信息。

在一些实施例中，所述出错词确定模块进一步用于：通过所述第一语言模型计算所述文本信息中每个词的出现概率；根据所述每个词的出现概率，确定出所述文本信息中的至少一个出错词。

在一些实施例中，所述预定规则包括拼音规则、字形规则、编辑距离规则中的至少一项；所述文本校正装置还包括：计算模块，用于若所述出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数；选定模块，用于根据所述每个候选词的出现次数，从所述多个候选词中选定至少一个待定候选词；其中，所述第二语言模型是使用所述训练样本对一元语言模型训练得到的。

在一些实施例中，所述校正模块进一步用于：分别使用每个所述待定候选词替换所述出错词，得到至少一个待定文本信息；通过所述第一语言模型分别计算每个所述待定文本信息的出现概率；根据所述待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。

本申请提供的文本校正方法和装置，可以首先通过预先训练的第一语言模型从用户输入的文本信息中确定出至少一个出错词，然后根据预定规则确定出与出错词对应的候选词，最后使用候选词替换出错词，以实现文本校正。通过预先训练的语言模型可以准确的确定出文本信息所要表达的用户意图，使得据此校正后的文本更加精准，从而提升了文本校正的准确率和召回率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性***架构图；

图2是本申请文本校正方法的一个实施例的流程图；

图3是本申请文本校正方法的另一个实施例的流程图；

图4是本申请文本校正装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的文本校正方法或文本校正装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如电子商务类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。用户可以在终端设备101、102、103上输入文本信息，服务器105可以通过网络104，接收由终端设备101、102、103发送的用户输入的文本信息。

终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上运行的应用提供支持的后台服务器。

需要说明的是，本申请实施例所提供的文本校正方法一般由服务器105执行，相应地，文本校正装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的文本校正方法的一个实施例的流程200。所述的文本校正方法，包括以下步骤：

步骤201，接收用户输入的文本信息。

在本实施例中，文本校正方法运行于其上的电子设备(例如图1所示的服务器)可以首先通过有线连接方式或者无线连接方式，接收由终端设备发送的、用户在该终端设备上输入的文本信息。

具体地，当用户想要向商品或服务的提供商进行商品或服务咨询时，可以使用自己的终端设备接入该提供商所运营的智能交互***，然后在该智能交互***中输入想要咨询的问题或相关商品信息。由于这些问题或商品信息都可以通过文字的形式进行表示，因此都可以作为本实施例中用户输入的文本信息。

需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202，通过第一语言模型确定出文本信息中的至少一个出错词。

在本实施例中，上述电子设备(例如图1所示的服务器)在获得用户输入的文本信息后，可以通过预先训练的第一语言模型来识别文本信息中可能存在的出错词。语言模型广泛应用于自然语言处理领域，其可以表示为：在词序列中，给定一个词和上下文中所有词，这个序列出现的概率。具体地，本实施例的第一语言模型可以是自然语言处理领域中常用的语言模型，例如，N-gram语言模型或基于循环神经网络(RecurrentNeuralNetwork，RNN)算法训练出的语言模型。训练好的第一语言模型可以预先存储在上述电子设备的存储空间内，当电子设备获得用户输入的文本信息后，可以直接调用已存的第一语言模型来进行出错词的识别，例如，第一语言模型可以将文本信息中那些出现概率较低的词确定为出错词。

步骤203，基于预定规则确定出与出错词对应的候选词。

在本实施例中，文本校正方法运行于其上的电子设备在确定出文本信息中的出错词后，可以进一步根据预定的规则确定出与出错词对应的候选词。可选地，上述预定规则可以包括拼音规则、字形规则、编辑距离规则中的至少一项。

具体地，当根据拼音规则确定与出错词对应的候选词时，可以将那些与出错词的拼音相同的词作为候选词，例如，“收获”对应的候选词可以包括“收货”。当根据字形规则确定与出错词对应的候选词时，可以将那些与出错词的字形相近的词作为候选词，例如，“卷”对应的候选词可以包括“券”。当根据编辑距离规则确定与出错词对应的候选词时，可以将那些与出错词的字母或拼音输入顺序相近的词作为候选词，例如，“iphoe6”对应的候选词可以包括“iphone6”，“动心”对应的候选词可以包括“东西”。在本实施例中，可以根据上述一项或多项规则来确定出错词的候选词。

步骤204，使用候选词替换出错词，得到校正后的文本信息。

在本实施例中，上述电子设备在得到出错词的候选词后，可以直接使用候选词来替换相应的出错词，从而得到校正后的文本信息。若在一个文本信息中确定出了多个出错词，则可以对每个出错词都进行替换，以得到校正后的文本信息。

在一些实现方式中，若出错词仅对应一个候选词，则可以直接使用该候选词替换出错词。在另一些实现方式中，若出错词对应有多个候选词，则可以首先从这多个候选词中选定一个候选词，然后使用选定的候选词替换出错词。

本申请的上述实施例提供的文本校正方法，可以首先通过预先训练的第一语言模型从用户输入的文本信息中确定出至少一个出错词，然后根据预定规则确定出与出错词对应的候选词，最后使用候选词替换出错词，以实现文本校正。通过预先训练的语言模型可以准确的确定出文本信息所要表达的用户意图，使得据此校正后的文本更加精准，从而提升了文本校正的准确率和召回率。

进一步继续参考图3，示出了根据本申请的文本校正方法的另一个实施例的流程300。所述的文本校正方法，包括以下步骤：

步骤301，接收用户输入的文本信息。

在本实施例中，文本校正方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式，接收由终端设备发送的、用户在该终端设备上输入的文本信息。

步骤302，通过第一语言模型计算文本信息中每个词的出现概率。

在本实施例中，上述电子设备(例如图1所示的服务器)在得到用户输入的文本信息后，可以通过预先训练的第一语言模型，来计算文本信息中每个词的出现概率。具体地，第一语言模型可以表示为在词序列中，给定一个词和上下文中所有词，这个序列出现的概率。由于词序列的出现概率，与构成该词序列的每个词的概率相关。因此，通过第一语言模型也可以计算出每个词的出现概率。

在本实施例的一些可选实现方式中，上述第一语言模型可以通过以下方法训练得到：获取历史文本信息；对历史文本信息进行预处理，得到训练样本；使用训练样本进行语言模型训练，得到上述第一语言模型。在本实施例中，历史文本信息可以是多个用户以前输入的文本信息，例如，可以是所有用户在智能交互***中的历史咨询记录。这些历史文本信息可以保存在上述电子设备上，也可以保存于能够与上述电子设备进行通信的其他的外部设备(例如，数据库或云端)上。上述电子设备在获得到这些历史文本信息后，可以首先对历史文本信息进行预处理。可选地，预处理的步骤可以包括文本过滤、切词和泛化。在对文本信息进行预处理时，可以首先进行文本过滤，也就是过滤掉文本信息中的无效信息，例如乱码符号、网页标签、机器人自动发送的问题、测试账号发送的问题等。然后对过滤后的文本信息进行切词，具体可以根据文本的语义将其切分为多个按一定顺序排列的词。例如，可以用分隔符如制表符’\t’将每个词分开。最后可以对切词的结果做进行泛化。例如，可以将输入的英文词统一泛化为小写英文词，将数字串(例如订单号或商品编号)均泛化为“xDIGIT”，将网页链接均泛化为“URL”，将邮箱地址均泛化为“EMAIL”。在对文本信息进行上述预处理之后，可以将预处理后的文本信息作为训练样本，对常用的基本语言模型进行训练，然后将训练后的模型作为第一语言模型。

在本实施例的一些可选实现方式中，上述预处理还可以包括基于业务类型的分类。具体地，上述电子设备还可以根据历史文本信息的内容，确定其所对应的业务类型。然后通过业务类型将获取的所有历史文本信息进行分类。其中，业务类型可以是服务商所提供的服务的类型，例如，对于电信类的运营商来说，业务类型可以包括通话服务类和上网服务类等；业务类型还可以是商品销售商所提供的商品的类型，例如，对于电子商务类平台来说，业务类型可以包括家电类和日用品类等。

在将历史文本信息基于业务类型进行分类后，可以得到多个类型的历史文本信息作为训练样本。这样，在使用训练样本进行语言模型训练，得到第一语言模型时，可以通过循环神经网络算法，对分类后的训练样本分别进行语言模型训练，得到每个业务类型对应的第一语言模型。具体地，在对历史文本信息进行上述预处理后，若得到了N个业务类型的训练样本，则可以针对每一份样本，分别使用循环神经网络算法训练一个第一语言模型。这样，就可以得到与各个业务类型分别对应的N个第一语言模型。可选地，还可以将N个业务类型的训练样本作为一个总的训练样本进行模型训练，从而得到一个总的第一训练模型。这样，通过上述训练，就可以得到N+1个基于循环神经网络算法的第一语言模型。由于循环神经网络算法可以充分地利用所有的上文信息来预测下一个词，而不像N-gram模型那样，只用利用前N个词来预测下一个词。因此，通过循环神经网络算法训练得到的第一语言模型训练，能够更加准确的计算出文本信息中每个词的出现概率。

相应的，步骤302还可以包括：确定文本信息对应的业务类型；通过与该业务类型对应的第一语言模型计算文本信息中每个词的出现概率。在本实施例中，在计算文本信息中每个词的出现概率时，可以首先根据文本信息的内容来确定其所对应的业务类型。具体地，可以将业务类型的关键词与文本内容进行匹配，然后将相匹配的业务类型作为文本信息的业务类型。例如，若文本信息中包括关键词“电视”，而作为一种业务类型的家电类的关键词也包括“电视”，则可以将该文本信息对应的业务类型确定为家电类。然后，可以通过与该业务类型对应的第一语言模型计算文本信息中每个词的出现概率。由于第一语言模型是针对每一个业务类型分别训练得到的，因此在通过其处理同一业务类型下的文本信息时，计算结果会更加准确可靠。

需要说明的是，在无法确定文本信息的业务类型时，还可以通过上述由全部训练样本训练出的总的第一训练模型，来计算文本信息中每个词的出现概率。

在本实施例的一些可选实现方式中，在通过第一语言模型计算文本信息中每个词的出现概率之前，还可以首先对文本信息进行预处理，通过第一语言模型计算预处理后的文本信息中每个词的出现概率。可选地，预处理可以包括文本过滤、切词和泛化。

步骤303，根据每个词的出现概率，确定出文本信息中的至少一个出错词。

在本实施例中，上述电子设备在计算出每个词的出现概率后，可以进一步根据每个词的具体概率值，确定出文本信息中可能输入错误的一个或多个出错词。在一种可能的实现方式中，如果文本信息中某一个词的出现概率低于预先设置的概率极小值，例如20％，则可以直接将该词确定为出错词。在另一种可能的实现方式中，如果文本信息中某一个词和该词的下一个词的出现概率都低于预先设置的概率阈值，例如50％，则可以将这个词确定为出错词。需要说明的是，上述概率极小值和概率阈值的具体取值，可以由用户根据实际需自行设定，本申请对此不作限制。

步骤304，基于预定规则确定出与出错词对应的候选词。

步骤305，若出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数。

在本实施例中，若在上述步骤304中确定出的与出错词对应的候选词不止一个，在可以进一步通过第二语言模型分别计算每个候选词的出现次数。第二语言模型是使用上述训练样本对一元语言模型训练得到的。一元语言模型又叫Unigram模型，是N-gram模型在N取1时的特例情况。Unigram模型只关心某个词在整体语料中出现的概率，而这个概率与其前面出现的词无关。因此，通过第二语言模型计算出的候选词的出现次数，就可以代表该候选词在文本信息中可能出现的概率。

步骤306，根据每个候选词的出现次数，从多个候选词中选定至少一个待定候选词。

在本实施例中，上述电子设备可以将每个候选词的出现次数，按照其取值从大到小进行排序，然后将排在前面的一个或多个候选词选定为待定候选词，也就是将那些在文本信息中出现概率较大的候选词作为待定候选词。

步骤307，分别使用每个待定候选词替换出错词，得到至少一个待定文本信息。

当上述电子设备在步骤306中选定至少一个待定候选词后，还可以进一步使用每个待定候选词分别替换原始文本信息中的出错词，得到至少一个待定文本信息。例如，若一个出错词对应三个待定候选词，则进行出错词替换后，可以得到三个待定文本信息。

步骤308，通过第一语言模型分别计算每个待定文本信息的出现概率。

在本实施例中，上述电子设备可以进一步通上述过第一语言模型，分别计算每个待定文本信息的出现概率。具体地，若待定文本信息中包括有N个词，则在第N个词后面可以增加一个结束符，并将这N个词和结束符共同作为第一语言模型的输入。通过第一语言模型，不但能计算出每个词的出现概率，还能计算出上述结束符的出现概率，也就是第N个词后面跟结束符的概率。这样，基于第一语言模型一共可以得到N+1个概率值，然后将这N+1个概率值相乘就可以得到待定文本信息的出现概率。

步骤309，根据待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。

在本实施例中，上述电子设备在计算出每个待定文本信息的出现概率后，可以首先按照具体的概率值从大到小进行排序，然后将排在最前面的那个待定文本信息确定为校正后的文本信息。

在本实施例的一个可选实现方式中，还可以将校正后的文本信息的出现概率与用户输入的文本信息的出现概率进行比较，若校正后的文本信息的出现概率大于用户输入的文本信息的出现概率，则可以对用户输入的文本信息进行校正，即使用校正后的文本信息来替换用户输入的文本信息。若校正后的文本信息的出现概率小于用户输入的文本信息的出现概率，则可以不对用户输入的文本信息进行校正，即保留用户输入的文本信息。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

从图3中可以看出，与图2对应的实施例相比，本实施例中具体描述了如何确定出错词，以及当出错词对应多个候选词时如何进行文本校正的方法。具体可以通过第二语言模型从多个候选词中确定出在整体语料中出现概率较高的待定候选词，然后再利用第一语言模型计算出待定文本信息的出现概率，最后基于出现概率确定校正后的文本信息。通过两个模型的计算，可以分别提高候选词的准确性和校正后的文本的可靠性，从而能够从整体上进一步提高文本校正的准确性。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种文本校正装置的一个实施例，该装置实施例与图2-3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的文本校正装置400包括：接收模块410、出错词确定模块420、候选词确定模块430和校正模块440。其中，接收模块410，用于接收用户输入的文本信息；出错词确定模块420，用于通过第一语言模型确定出所述文本信息中的至少一个出错词；候选词确定模块430，用于基于预定规则确定出与所述出错词对应的候选词；校正模块440，用于使用所述候选词替换所述出错词，得到校正后的文本信息。

在本实施例中，文本校正装置400的接收模块410可以通过有线连接方式或者无线连接方式，接收由终端设备发送的、用户在该终端设备上输入的文本信息。

在本实施例中，文本校正装置400的出错词确定模块420可以通过预先训练的第一语言模型来识别文本信息中可能存在的出错词。

在本实施例中，文本校正装置400的候选词确定模块430，可以根据预定的规则确定出与出错词对应的候选词，其中，预定规则可以包括拼音规则、字形规则、编辑距离规则中的至少一项。

在本实施例中，文本校正装置400的校正模块440，可以直接使用候选词确定模块430确定出的候选词来替换相应的出错词，从而得到校正后的文本信息。

在本实施例的一些可选的实现方式中，出错词确定模块420进一步用于：通过第一语言模型计算文本信息中每个词的出现概率；根据每个词的出现概率，确定出文本信息中的至少一个出错词。

在本实施例的一些可选的实现方式中，第一语言模型是通过以下方法得到的：获取历史文本信息；对历史文本信息进行预处理，得到训练样本；使用训练样本进行语言模型训练，得到第一语言模型；其中，预处理包括文本过滤、切词和泛化。

在本实施例的一些可选的实现方式中，上述预处理还包括基于业务类型的分类。上述使用训练样本进行语言模型训练，得到第一语言模型，包括：通过循环神经网络算法，对分类后的训练样本分别进行语言模型训练，得到每个业务类型对应的第一语言模型。相应的，上述通过第一语言模型计算文本信息中每个词的出现概率，包括：确定文本信息对应的业务类型；通过与该业务类型对应的第一语言模型计算文本信息中每个词的出现概率。

在本实施例的一些可选的实现方式中，上述预定规则包括拼音规则、字形规则、编辑距离规则中的至少一项。文本校正装置400还包括：计算模块，用于若出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数；选定模块，用于根据每个候选词的出现次数，从多个候选词中选定至少一个待定候选词；其中，第二语言模型是使用上述训练样本对一元语言模型训练得到的。

在本实施例的一些可选的实现方式中，校正模块440进一步用于：分别使用每个待定候选词替换出错词，得到至少一个待定文本信息；通过第一语言模型分别计算每个待定文本信息的出现概率；根据待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。

本领域技术人员可以理解，上述文本校正装置400还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图4中未示出。

本实施例所提供的文本校正装置，可以首先通过预先训练的第一语言模型从用户输入的文本信息中确定出至少一个出错词，然后根据预定规则确定出与出错词对应的候选词，最后使用候选词替换出错词，以实现文本校正。通过预先训练的语言模型可以准确的确定出文本信息所要表达的用户意图，使得据此校正后的文本更加精准，从而提升了文本校正的准确率和召回率。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***500的结构示意图。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有***500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接收模块、出错词确定模块、候选词确定模块和校正模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，接收模块还可以被描述为“用于接收用户输入的文本信息的模块”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：接收用户输入的文本信息；通过第一语言模型确定出所述文本信息中的至少一个出错词；基于预定规则确定出与所述出错词对应的候选词；使用所述候选词替换所述出错词，得到校正后的文本信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本校正方法，其特征在于，包括：

接收用户输入的文本信息；

通过第一语言模型确定出所述文本信息中的至少一个出错词；

基于预定规则确定出与所述出错词对应的候选词；

使用所述候选词替换所述出错词，得到校正后的文本信息。

2.根据权利要求1所述的文本校正方法，其特征在于，所述通过第一语言模型确定出所述文本信息中的至少一个出错词，包括：

通过所述第一语言模型计算所述文本信息中每个词的出现概率；

根据所述每个词的出现概率，确定出所述文本信息中的至少一个出错词。

3.根据权利要求2所述的文本校正方法，其特征在于，所述第一语言模型是通过以下方法得到的：

获取历史文本信息；

对所述历史文本信息进行预处理，得到训练样本；

使用所述训练样本进行语言模型训练，得到所述第一语言模型；

其中，所述预处理包括文本过滤、切词和泛化。

4.根据权利要求3所述的文本校正方法，其特征在于，

所述预处理还包括基于业务类型的分类；

所述使用所述训练样本进行语言模型训练，得到所述第一语言模型，包括：

通过循环神经网络算法，对分类后的训练样本分别进行语言模型训练，得到每个业务类型对应的第一语言模型；

所述通过所述第一语言模型计算所述文本信息中每个词的出现概率，包括：

确定所述文本信息对应的业务类型；

通过与该业务类型对应的第一语言模型计算所述文本信息中每个词的出现概率。

5.根据权利要求4所述的文本校正方法，其特征在于，

所述预定规则包括拼音规则、字形规则、编辑距离规则中的至少一项；

所述文本校正方法还包括：

若所述出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数；

根据所述每个候选词的出现次数，从所述多个候选词中选定至少一个待定候选词；

其中，所述第二语言模型是使用所述训练样本对一元语言模型训练得到的。

6.根据权利要求5所述的文本校正方法，其特征在于，所述使用所述候选词替换所述出错词，得到校正后的文本信息，包括：

分别使用每个所述待定候选词替换所述出错词，得到至少一个待定文本信息；

通过所述第一语言模型分别计算每个所述待定文本信息的出现概率；

根据所述待定文本信息的出现概率，将一个待定文本信息确定为校正后的文本信息。

7.一种文本校正装置，其特征在于，包括：

接收模块，用于接收用户输入的文本信息；

出错词确定模块，用于通过第一语言模型确定出所述文本信息中的至少一个出错词；

候选词确定模块，用于基于预定规则确定出与所述出错词对应的候选词；

校正模块，用于使用所述候选词替换所述出错词，得到校正后的文本信息。

8.根据权利要求7所述的文本校正装置，其特征在于，所述出错词确定模块进一步用于：

9.根据权利要求8所述的文本校正装置，其特征在于，所述第一语言模型是通过以下方法得到的：

获取历史文本信息；

对所述历史文本信息进行预处理，得到训练样本；

其中，所述预处理包括文本过滤、切词和泛化。

10.根据权利要求9所述的文本校正装置，其特征在于，

所述预处理还包括基于业务类型的分类；

确定所述文本信息对应的业务类型；

11.根据权利要求10所述的文本校正装置，其特征在于，

所述文本校正装置还包括：

计算模块，用于若所述出错词对应多个候选词，通过第二语言模型分别计算每个候选词的出现次数；

选定模块，用于根据所述每个候选词的出现次数，从所述多个候选词中选定至少一个待定候选词；

12.根据权利要求11所述的文本校正装置，其特征在于，所述校正模块进一步用于：