CN106959977A

CN106959977A - 文字输入中的候选集合计算方法及装置、文字纠错方法及装置

Info

Publication number: CN106959977A
Application number: CN201610020331.0A
Authority: CN
Inventors: 吴岳; 谢玄亮; 陈凯成
Original assignee: Guangzhou Dongjing Computer Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2016-01-12
Filing date: 2016-01-12
Publication date: 2017-07-18

Abstract

本发明公开了一种文字输入中的候选集合计算方法，包括如下步骤：抽取步骤，用于从用户日志中抽取纠错查询对，并为每个纠错查询对建立纠错字符串对，所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系，所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系；候选集合计算步骤，用于当输入的单个单词t_i中的字符串匹配纠错字符串对时，根据纠错字符串对对该单词生成单词的变体集合V＝{v₁,v₂,…,v_n}作为候选集合C＝{c₁,c₂,..,c_n}并计算相应的输出概率P＝{p₁,p₂,..,p_n}。同时还公开了一种候选集合计算装置、输入纠错方法及其装置。利用本发明能够提高纠错准确度，又可以覆盖大部分的纠错问题，对新词纠错也有表现了很好的适应性。

Description

文字输入中的候选集合计算方法及装置、文字纠错方法及装置

技术领域

本发明涉及自然语言处理的技术领域，具体来说，本发明涉及一种文字输入中的候选集合计算方法及装置、文字纠错方法及装置。

背景技术

纠错技术是搜索中一个重要环节。据文献统计，搜索引擎查询中，大约有10％-15％的查询是错误输入的。特别是在某些具有特定语言***衡候选集的精度和覆盖度。

举例来说，发明人发现在项目实践中，印度人在搜索时，查询输错的问题比普通英语、汉语用户要更为明显。一个很主要的原因是由他们的语言特性决定的。受历史因素影响，印度人在网络上最主要使用的语言是印度英语hinglish(https://en.wikipedia.org/wiki/Hinglish)，一种融合了英语和印度本土语言(hindi、Punjabi等)的混生语言。他们会将本土语言(hindi、punjabi)转化为拉丁字母拼写，在这一过程中并无统一严格的规则，只是根据语音上规律，造成一个hindi词往往有多种拉丁字母拼写方式，例如电影名“aashiqui 2”也会被拼写成“ashiqui 2”。因此，印度本土多语言混杂的特点带来了大量搜索输入错误。

现有的隐马尔科夫搜索纠错，对候选集的合理估计是一个重点问题。常见的方法有两种，1)计算单词之间的编辑距离，进一步获得转移概率，这种方式只简单的考虑了字符差异，准确度较差。2)基于日志挖掘纠错单词对之间的关系，进一步获得转移概率。这样的方式依赖于非常全面的用户日志，往往覆盖的纠错范围有限，且无法应对新词。发明人发现在实践中上述两种方法在具有特定语言习惯的输入中，例如印度英语hinglish中纠错都不够理想。

发明内容

本发明的一个目的是提供一种适于对具有特定语言习惯和特性的输入提供候选结合并进行纠错的新技术方案。

根据本发明的第一方面，提供了一种文字输入中的候选集合计算方法，包括如下步骤：

抽取步骤，用于从用户日志中抽取纠错查询对，并为每个纠错查询对建立纠错字符串对，所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系，所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系；

候选集合计算步骤，用于当输入的单个单词t_i中的字符串匹配纠错字符串对时，根据纠错字符串对对该单词生成单词的变体集合V＝{v₁,v₂,…,v_n}作为候选集合C＝{c₁,c₂,..,c_n}并计算相应的输出概率P＝{p₁,p₂,..,p_n}。

优选地，所述候选集合计算步骤中计算所述集合V的输出概率包括：

根据公式p_j＝r^(l-θ)(1-r)^θ计算单词v_j的输出概率；其中

l为输入单词t_i的字符串长度；r为单个字符正确输入的概率；θ为0～1之间的常数。

优选地，所述抽取步骤还包括选取纠错字符串对中错误输入字符串和正确输入字符串均小于预定编辑距离的纠错字符串对的步骤。

优选地，所述抽取步骤还包括对纠错字符串对计算出现次数的步骤，以及将出现次数大于预定阈值的纠错字符串对建立为最终纠错字符串对。

优选地，所述方法还包括：

改写概率计算步骤，用于根据用户日志挖掘结果，计算各类字符改写的概率P_h，所述字符改写为单个字符的错写、漏写、多写；以及

所述候选集合计算步骤，还用于获取所有和单词t_i之间小于预定编辑距离的单词集合U＝{u₁,u₂,…,u_m}并计算相应的输出概率P＝{p_n+1,p_n+2,..,p_n+m}，合并所述集合V和所述集合U，从而获得单词t_i的候选集合C＝{c₁,c₂,..,c_n,c_n+1,..,c_n+m}及相应的输出概率P＝{p₁,p₂,..,p_n,p_n+1,p_n+2,..,p_n+m}。

优选地，所述候选集合计算步骤中计算所述集合U的输出概率包括：

根据t_i与单词集合U中的单词u_j之间的编辑转化路径上的各字符操作所对应的字符改写概率p_h计算所述输出概率P＝{p_n+1,p_n+2,..,p_n+m}。

优选地，其中所述候选集合计算步骤中计算单词集合U的输出概率包括：

根据公式p_j＝r^(l-k)(1-r)^k*∏_m＝1 ^k p_hm计算单词u_j的输出概率；其中

l为单词t_i的字符串长度；k为t_i到u_j的编辑转化步长；p_h为相应的字符改写概率；r为单个字符正确输入的概率。

根据本发明的第二方面，提供一种输入纠错方法，包括如下步骤，

转移概率计算步骤，用于计算语料库中句子的状态转移概率P’；

输入步骤，用于输入句子；

分割步骤，用于将句子分割成单词t_i；

候选集合计算步骤，用于根据如前述候选集合计算方法计算分割的各所述单词t_i的候选集合C及其输出概率P；

纠错路径计算步骤，用于根据所述输出概率P以及转移概率P’计算最优纠错路径及其对应的概率pl，以及原始输入路径的概率p0；

判断步骤，用于判断所述最优纠错路径是否等于原输入路径，其中

如果判断步骤中判断所述最优纠错路径等于原输入路径，返回原输入的句子；以及其中

如果判断步骤中判断所述最优纠错路径不等于原输入路径，则计算所述最优纠错路径的概率pl与原始路径的概率p0之间的差值，若差值大于预定差值阈值，则返回最优纠错路径对应的纠错结果，否则，返回原输入的句子。

优选地，所述转移概率计算步骤包括：以句子为单位，计算语料库中全部单词两两之间的转移概率P’(ti|tj)。

优选地，所述转移概率计算步骤包括：

根据公式P’(t_i|t_j)＝(c(t_i,t_j)+θ)/(c(t_j)+v)计算语料库中全部单词两两之间的转移概率；其中

θ为0～1之间的常数；c(t_j)是单词t_j在语料库中出现次数，c(t_i,t_j)是t_i、t_j两单词前后相邻出现的次数，v是语料库中全部的相邻单词组合的个数。

根据本发明的第三方面，提供一种文字输入中的候选集合计算装置，包括：

抽取模块，用于从用户日志中抽取纠错查询对，并为每个纠错查询对建立纠错字符串对，所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系，所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系；

候选集合计算模块，用于当输入的单个单词t_i中的字符串匹配纠错字符串对时，根据纠错字符串对对该单词生成单词的变体集合V＝{v₁,v₂,…,v_n}作为候选集合C＝{c₁,c₂,..,c_n}并计算相应的输出概率P＝{p₁,p₂,..,p_n}。

优选地，所述候选集合计算模块中计算所述集合V的输出概率包括：

根据公式p_j＝r^(l-θ)(1-r)^θ计算单词v_j的输出概率；其中

优选地，所述抽取模块还用于选取纠错字符串对中错误输入字符串和正确输入字符串均小于预定编辑距离的纠错字符串对。

更优选地，所述抽取模块还用于对纠错字符串对计算出现次数，以及将出现次数大于预定阈值的纠错字符串对建立为最终纠错字符串对。

优选地，所述装置还包括：改写概率计算模块，用于根据用于日志挖掘结果，计算各类字符改写的概率P_h，所述字符改写为单个字符的错写、漏写、多写；以及

所述候选集合计算模块，还用于获取所有和单词t_i之间小于特定编辑距离的单词集合U＝{u₁,u₂,…,u_m}并计算相应的输出概率P＝{p_n+1,p_n+2,..,p_n+m}，合并所述集合V和所述集合U，从而获得单词t_i的候选集合C＝{c₁,c₂,..,c_n,c_n+1,..,c_n+m}及相应的输出概率P＝{p₁,p₂,..,p_n,p_n+1,p_n+2,..,p_n+m}。

优选地，其中所述候选集合计算模块中计算所述集合U的输出概率包括：

优选地，其中所述候选集合计算模块中计算单词集合U的输出概率包括：

根据本发明的第四方面，提供一种可编程设备，包括存储器和处理器，其中，所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行前述的候选集合计算方法。

根据本发明的第五方面，提供一种输入纠错装置，包括：

转移概率计算模块，用于计算语料库中句子的状态转移概率P’；

输入模块，用于输入句子；

分割模块，用于将句子分割成单词t_i；

前述的候选集合计算装置，用于计算分割的各所述单词t_i的候选集合C及其输出概率P；

纠错路径计算模块，用于根据所述输出概率P以及转移概率P’计算最优纠错路径及其对应的概率pl，以及原始输入路径的概率p0；

判断模块，用于判断所述最优纠错路径是否等于原输入路径，其中

如果判断模块判断所述最优纠错路径等于原输入路径，返回原输入的句子；以及其中

如果判断模块判断所述最优纠错路径不等于原输入路径，则计算所述最优纠错路径的概率pl与原始路径的概率p0之间的差值，若差值大于预定差值阈值，则返回最优纠错路径对应的纠错结果，否则，返回原输入的句子。

优选地，所述转移概率计算模块，用于以句子为单位，计算语料库中全部单词两两之间的转移概率P’(ti|tj)。

优选地，所述转移概率计算模块包括：

根据本发明的第六方面，提供一种可编程设备，包括存储器和处理器，其中，所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行前述的输入纠错方法。

本发明的发明人发现，在现有技术中，还没有提出一种针对特定的语言输入习惯和特性的情况提出候选集合计算方法和相应的纠错方法。因此，本发明所要实现的技术任务或者所要解决的技术问题是本领域技术人员从未想到的或者没有预期到的，故本发明是一种新的技术方案。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1示出了可以实现本发明的实施例的计算机***1000的硬件配置的框图。

图2示出了根据本发明实施例的文字输入中的候选集合计算方法的流程图；

图3示出了根据本发明实施例的候选集合计算装置的框图；

图4示出了示出了根据本发明实施例的转移概率计算方法的流程图；

图5根据本发明实施例的输入纠错方法的流程图；

图6示出了根据本发明实施例的输入纠错装置的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的计算机***1000的硬件配置的框图。

如图1所示，计算机***1000包括计算机1110。计算机1110包括经由***总线1121连接的处理单元1120、***存储器1130、固定非易失性存储器接口1140、移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出***接口1195。

***存储器1130包括ROM(只读存储器)和RAM(随机存取存储器)。BIOS(基本输入输出***)驻留在ROM内。操作***、应用程序、其它程序模块和某些程序数据驻留在RAM内。

诸如硬盘的固定非易失性存储器连接到固定非易失性存储器接口1140。固定非易失性存储器例如可以存储操作***、应用程序、其它程序模块和某些程序数据。

诸如软盘驱动器和CD-ROM驱动器的移动非易失性存储器连接到移动非易失性存储器接口1150。例如，软盘可以被***到软盘驱动器中，以及CD(光盘)可以被***到CD-ROM驱动器内。

诸如鼠标和键盘的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以通过局域网连接到远程计算机。或者，网络接口1170可以连接到调制解调器(调制器－解调器)，以及调制解调器经由广域网连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘的存储器，其可以存储远程应用程序。

视频接口1190连接到监视器。

输出***接口1195连接到打印机和扬声器。

图1所示的计算机***仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。

<第一实施例>

根据本发明的第一实施例，如图2所示，提供了一种文字输入中的候选集合计算方法，包括如下步骤：

首先在步骤S2100挖掘用户日志，用户日志可以为具有特定输入习惯的特定用户群体而选择，例如可以选择为小语种语言文字用户的用户日志，特别地，针对印度英语是多语言混杂的特点，用户通常会将其他印度本土语言的词汇转换成拉丁字母输入，此时往往会有多个拼写方式，而其表达的意思和读音都是一致的，基于这类文字拼写的语音学规律，可以针对此类情况特别选择针对印度英语的用户日志进行挖掘，从而获得能够对印度英语输入习惯进行匹配的候选集合。并且，用户日志可在线动态更新，因而相应的，可根据预定的统计周期，周期性地挖掘选择的具有特定输入习惯的特定用户群体的用户日志，例如，周期性地挖掘针对印度英语的用户日志，从而能够得到对印度英语输入习惯进行匹配的候选集合的更新。

在步骤S2200，抽取步骤，用于从用户日志中抽取纠错查询对，并为每个纠错查询对建立纠错字符串对，所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系，所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系。所述抽取步骤还包括选取纠错字符串对中错误输入字符串和正确输入字符串均小于预定编辑距离的纠错字符串对的步骤。其中，编辑距离是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。所述预定编辑距离可根据应用场景选取合适值，例如当期望字符串之间转换的编辑次数为2次以内时，可以选取预定编辑距离为2。随后，对纠错字符串对计算出现次数，将出现次数大于预定阈值的纠错字符串对建立为最终纠错字符串对。所述预定阈值为大于0的整数值，可根据应用场景以及应用经验选取合适值。

以针对印度英语的特性进行举例说明，根据印度英语文字拼写的语音学规律，我们可以获取到一些显见的纠错字符串对，举例来说，如下表1所示，

纠错查询对	纠错短字符串对
		ashiqui 2->aashiqui 2	a->aa
tere nam-->tere naam	a->aa
		Khoobsurat-->khubsurat	oo->u
zaruri tha-->zaroori tha	u->oo

表1

可以首先通过多种方式获得纠错查询对，例如，可以通过先对用户日志进行过滤，而后通过编辑距离等方法发现一些纠错查询对候选集，再通过人工核实进行确认，从而获得纠错查询对。所谓编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。随后抽取得到类似aa->a这样的纠错字符串对，可以采取的抽取步骤，举例如下：

首先，从用户日志中获取纠错查询对。假设p，q为一组纠错查询对，p为错误输入，q为对应的正确输入。p、q都由一组字符组成，p＝a₁a₂...a_n，q＝b₁b₂...b_m。

设x＝1，如果a_x＝＝b_x，则x+1。循环迭代，直至a_x！＝b_x。

设y＝0，p的字符串长度为n，q的字符串长度为m。如果a_n-y＝＝b_m-y,则y+1，循环迭代，直至a_n-y！＝b_m-y。

选取编辑距离上限为b(优选地b<＝2)，如果此时满足0<n-y-x<b，0<m-y-x<b，获得一组候选纠错字符串对[a_x-1,a_x,a_x+1,...,a_n-y+1]->[b_x-1,b_x,b_x+1,...,b_m-y+1]，将其加入候选结果集R.

扫描全部纠错查询对后，对于R中所有候选纠错字符串对，如果其出现次数大于预定阈值，则成为最终纠错字符串对。其中，预定阈值为大于0的整数值，可根据应用场景以及应用经验选取适合值。

优选地，所述方法还可以包括步骤S2300改写概率计算步骤，用于根据用户日志挖掘结果，计算各类字符改写的概率P_h，所述字符改写为单个字符的错写、漏写、多写。

在步骤S2200中已经针对非单个字符的纠错提出了抽取纠错字符串对的方式，而对于单个字符的纠错，具体来说，例如单个字符发生错写、漏写或者多写的情况，需要额外计算改写概率。

在S2300可以基于编辑距离，统计用户日志中各种字符改写发生的概率P_h，在本步骤中，许可的编辑操作仅包括将一个字符替换成另一个字符、***一个字符和删除一个字符。P_h可以通过如下公式进行计算：

P_h＝count(error_i)/∑count(error_i) (公式1)

count(error_i)是某种特定的字符改写错误在用户日志中发生的次数。∑count(error_i)是各种字符改写错误在用户日志中发生的次数之和。

以此，作为对步骤S2200的纠错字符串对的补充。示意如下表2。

删除字母o	发生10次	占比为0.001
			增加字母j	发生15次	占比为0.0015
字母a错写成b	发生20次	占比为0.002
			字母m错写成n	发生20次	占比为0.002
...	...	...

表2

随后，在步骤S2400候选集合计算步骤，在接收到输入的单个单词t_i后，对t_i检查其是否匹配纠错字符串对，如果匹配，则根据纠错字符串对对该单词生成单词的变体集合V＝{v₁,v₂,…,v_n}。

在一个实施例中，可以仅对单词t_i做纠错字符串匹配并以集合V作为候选集合C＝{c₁,c₂,..,c_n}并计算相应的输出概率P＝{p₁,p₂,..,p_n}。

举例来说，可以根据公式：

p_j＝r^(l-θ)(1-r)^θ (公式2)

计算单词v_j的输出概率；其中

l为输入单词t_i的字符串长度；

r为单个字符正确输入的概率；θ为0～1之间的常数。

r可以从用户日志中统计得到r＝1-(∑count(error_i)/总字符数)。θ是参数，可通过历史经验或实验选取。

在另一实施例中，可以同时对单词t_i做纠错字符串匹配和计算改写概率做所述候选集合计算步骤，还获取所有和单词t_i之间小于特定编辑距离(例如编辑距离<＝2)的单词集合U＝{u₁,u₂,…,u_m}并计算相应的输出概率P＝{p_n+1,p_n+2,..,p_n+m}，合并所述集合V和所述集合U，从而获得单词t_i的候选集合C＝{c₁,c₂,..,c_n,c_n+1,..,c_n+m}及相应的输出概率P＝{p₁,p₂,..,p_n,p_n+1,p_n+2,..,p_n+m}。

优选地，可以根据t_i与单词集合U中的单词u_j之间的编辑转化路径上的各类字符操作所对应的字符改写概率p_h计算所述输出概率P＝{p_n+1,p_n+2,..,p_n+m}。所述编辑转化路径是指，一个单词经过编辑距离转化为另一个单词所对应的编辑操作，例如，从laappy转化为happy，则编辑转化路径为：删除a，l替换为h。

更优选地，可以根据公式

p_j＝r^(l-k)(1-r)^k*∏_m＝1 ^k p_hm (公式3)

计算单词u_j的输出概率；其中

图3示出了根据本发明实施例的候选集合计算装置3000的框图。候选集合计算装置3000可以用来实现图2所示的方法，故重复部分不再详细描述。

候选集合计算装置3000，包括：抽取模块3010和候选集合计算模块3030，优选地还包括改写概率计算模块3020。

抽取模块3010，用于从用户日志中抽取纠错查询对，并为每个纠错查询对建立纠错字符串对，所述纠错查询对为错误输入的文字内容与正确输入的文字内容之间的对应关系，所述纠错字符串对为所述纠错查询对中错误输入字符串和正确输入字符串之间的对应关系；

候选集合计算模块3030，用于当输入的单个单词t_i中的字符串匹配纠错字符串对时，根据纠错字符串对对该单词生成单词的变体集合V＝{v₁,v₂,…,v_n}作为候选集合C＝{c₁,c₂,..,c_n}并计算相应的输出概率P＝{p₁,p₂,..,p_n}。

根据公式

p_j＝r^(l-θ)(1-r)^θ (公式2)

计算单词v_j的输出概率；其中

优选地，所述抽取模块3010还用于选取纠错字符串对中错误输入字符串和正确输入字符串均小于预定编辑距离的纠错字符串对，并对纠错字符串对计算出现次数，将出现次数大于预定阈值的纠错字符串对建立为最终纠错字符串对。其中，预定阈值为大于0的整数值，可根据应用场景以及应用经验选取适合值。

特别地，还包括改写概率计算模块3020，用于根据用于日志挖掘结果，计算各类字符改写的概率P_h，所述字符改写为单个字符的错写、漏写、多写；以及

在包含改写概率计算模块3020的情况下，所述候选集合计算模块3030，还用于获取所有和单词t_i之间小于特定编辑距离的单词集合U＝{u₁,u₂,…,u_m}并计算相应的输出概率P＝{p_n+1,p_n+2,..,p_n+m}，合并所述集合V和所述集合U，从而获得单词t_i的候选集合C＝{c₁,c₂,..,c_n,c_n+1,..,c_n+m}及相应的输出概率P＝{p₁,p₂,..,p_n,p_n+1,p_n+2,..,p_n+m}。

优选地，所述候选集合计算模块3030中计算所述集合U的输出概率包括：根据t_i与单词集合U中的单词u_j之间的编辑转化路径上的各字符操作所对应的字符改写概率p_h计算所述输出概率P＝{p_n+1,p_n+2,..,p_n+m}。

更优选地，所述候选集合计算模块3030中计算单词集合U的输出概率包括：根据公式

p_j＝r^(l-k)(1-r)^k*∏_m＝1 ^k p_hm (公式3)

计算单词u_j的输出概率；其中

根据本发明的再一实施例，还提供一种可编程设备，包括存储器和处理器，其中，所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行图2所述的方法。

以上已经结合附图描述了本发明的第一实施例，根据本实施例，有针对性地挖掘具有特定语言习惯的用户日志，并据此生成纠错字符串对并计算字符改写概率，在进行输入匹配和纠错过程中，将符合纠错字符串对的变体集合和字符改写纳入候选集合之中并计算相应的概率，从而提高了对具有某种文字输入习惯的特定群体的自然语言输入的纠错能力。特别是在印度英语hinglish上取得了良好效果，既保证了纠错准确度，又可以覆盖大部分的纠错问题，对新词纠错也有表现了很好的适应性。

<第二实施例>

根据本发明的第二实施例，如图4、5所示，提供了一种基于第一实施例所述的方法的输入纠错方法。故重复部分不再详细描述。

如图4所示，根据本实施例的输入纠错方法包括转移概率计算步骤。在传统的模式识别理论中，用户输入可以被看作一组状态序列。计算状态之间的转移概率，也就是从语料库中发现两个单词组成相邻上下文的概率。举例来说，例如现有英语语料库如下：

it is over

How Sweet It Is

it is time to say goodbye

则可计算得到从it到is的转移概率P(is|it)＝3/3＝1,从is到over的转移概率为P(over|it)＝1/3。

转移概率的计算可以通过如下步骤：

S4100，构建语料库Y＝{s₁,s₂,...,s_n}，其中s表示一个短句，n表示语料库的数据量。s_i＝{t₁,t₂,...,t_m}，t表示一个单词。并生成全局词典D＝{t₁,t2,...t_c}。

S4200，为每个短句的开头和结尾进行标记。举例来说，可以在每个s短句的开始和结尾标上<s></s>，用于标识句首句尾，以利于自动识别。

S4300，计算全部单词两两之间的转移概率P’(t_i|t_j)。

优选地根据公式：

P’(t_i|t_j)＝(c(t_i,t_j)+θ)/(c(t_j)+v) (公式4)

计算语料库中全部单词两两之间的转移概率；其中

举例来说，在如下语料库中“

hello world

world peace

say hello world in python”

由于world在语料库中总共出现了3次，因此c(world)＝3。

hello world在语料库中出现了2次，因此c(hello,world)＝2

而语料库中共有hello word、world peace、say hello、world in、in python五种相邻单词对，因此v＝5。

由此根据公式P’(t_i|t_j)＝(c(t_i,t_j)+θ)/(c(t_j)+v)计算单词t_i,t_j之间的转移概率P’(t_i|t_j)。

在进行过图4所示转移概率计算步骤和图2所示的纠错字符串抽取、字符改写概率计算步骤后，如图5所示，可以在线上为用户提供实时文字输入纠错。所述方法包括：

S5100输入步骤，用于输入句子；

S5200分割步骤，用于将句子分割成单词t_i；

S5300候选集合计算步骤，用于根据实施例一所述的方法计算分割的各所述单词t_i的候选集合C及其输出概率P；

S5400纠错路径计算步骤，用于根据所述输出概率P以及根据图4所示的方法获得的转移概率P’计算最优纠错路径及其对应的概率pl，以及原始输入路径的概率p0，所述最优纠错路径是指从候选集合C中得到的候选纠错路径中经过概率计算选取的最近纠错路径。

S5500判断步骤，用于判断所述最优纠错路径是否等于原输入路径，其中

如果判断步骤中判断所述最优纠错路径不等于原输入路径，则计算所述最优纠错路径的概率pl与原始路径的概率p0之间的差值，若差值大于预定差值阈值，则返回最优纠错路径对应的纠错结果，否则，返回原输入的句子。其中，预定差值阈值为大于或等于0的常数。这可以针对应用场景根据实施经验或惯用的优化方法选取适合值。

其中所述步骤S5400中，优选地，可以根据传统的隐马尔科夫模型(HMM)中的维特比(Viterbi)方法计算所述最优纠错路径l及其对应的概率pl。维特比方法是现有技术中公知的动态规划方法，在此不再赘述。

此外，如图6所示，还提供一种输入纠错装置6000，包括：

转移概率计算模块6060，用于计算语料库中句子的状态转移概率P’；

输入模块6040，用于输入句子；

分割模块6050，用于将句子分割成单词；

如图3所示的候选集合计算装置3000，用于计算分割的各所述单词t_i的候选集合C及其输出概率P；

纠错路径计算模块6070，用于根据所述输出概率P以及转移概率P’计算最优纠错路径及其对应的概率pl，以及原始输入路径的概率p0；

判断模块6080，用于判断所述纠错路径是否等于原输入路径，其中

如果判断模块判断所述纠错路径等于原输入路径，返回原输入的句子；以及其中

如果判断模块判断所述最优纠错路径不等于原输入路径，则计算所述纠错路径的概率pl与原始路径的概率p0之间的差值，若差值大于预定差值阈值，则返回最优纠错路径对应的纠错结果，否则，返回原输入的句子。其中，预定差值阈值为大于或等于0的常数。可以针对应用场景根据实施经验或惯用的优化方法选取适合值。

根据本发明的再一实施例，还提供一种可编程设备，包括存储器和处理器，其中，所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行图5所述的方法。

以上已经结合附图描述了本发明的第二实施例，根据本实施例，本实施例提供了完整的文字纠错方法和装置，在线下构建语料库并计算句子的状态转移概率、在线下针对性地挖掘具有特定语言习惯的用户日志，并据此生成纠错字符串对并计算字符改写概率。在线上接收到用户的查询输入后，将符合纠错字符串对的变体集合和字符改写纳入候选集合之中并计算相应的概率，继而根据线下计算的状态转移概率、候选集合及相应的概率来计算最优纠错路径。本方案提高了对具有某种文字输入习惯的特定群体的自然语言输入的纠错能力。特别是在印度英语hinglish上取得了良好效果，既保证了纠错准确度，又可以覆盖大部分的纠错问题，对新词纠错也有表现了很好的适应性。

本领域技术人员应当明白，可以通过各种方式来实现候选集合计算装置和文字纠错装置。例如，可以通过指令配置处理器来实现候选集合计算装置和文字纠错装置。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现候选集合计算装置和文字纠错装置。例如，可以将候选集合计算装置和文字纠错装置固化到专用器件(例如ASIC)中。可以将候选集合计算装置和文字纠错装置分成相互独立的单元，或者可以将它们合并在一起实现。候选集合计算装置和文字纠错装置可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种文字输入中的候选集合计算方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述候选集合计算步骤中计算所述集合V的输出概率包括：

根据公式p_j＝r^(l-θ)(1-r)^θ计算单词v_j的输出概率；其中

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种输入纠错方法，其特征在于，包括如下步骤，

输入步骤，用于输入句子；

分割步骤，用于将句子分割成单词t_i；

候选集合计算步骤，用于根据如权利要求1-3中任意一项所述的方法计算分割的各所述单词t_i的候选集合C及其输出概率P；

5.一种文字输入中的候选集合计算装置，包括：

6.根据权利要求5所述的装置，其特征在于，所述候选集合计算模块中计算所述集合V的输出概率包括：

根据公式p_j＝r^(l-θ)(1-r)^θ计算单词v_j的输出概率；其中

7.根据权利要求5所述的装置，其特征在于，还包括：

改写概率计算模块，用于根据用于日志挖掘结果，计算各类字符改写的概率P_h，所述字符改写为单个字符的错写、漏写、多写；以及

8.一种可编程设备，包括存储器和处理器，其中，所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行根据权利要求1-3中任意一项所述的方法。

9.一种输入纠错装置，其特征在于，包括：

输入模块，用于输入句子；

分割模块，用于将句子分割成单词t_i；

根据权利要求5-7中任意一项所述的候选集合计算装置，用于计算分割的各所述单词t_i的候选集合C及其输出概率P；

10.一种可编程设备，包括存储器和处理器，其中，所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行根据权利要求4所述的方法。