CN106777073A

CN106777073A - 一种搜索引擎中错别字自动更正方法和服务器

Info

Publication number: CN106777073A
Application number: CN201611142645.4A
Authority: CN
Inventors: 黄威威; 潘嵘; 张晋斌
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-31

Abstract

本发明提供了一种搜索引擎中错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练纠正模型，学习错别字的特征。本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正，它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字，大大提高了错别字的纠正效率。

Description

一种搜索引擎中错别字自动更正方法和服务器

技术领域

本发明涉及一种数据更正方法领域，更具体的，涉及一种搜索引擎中错别字自动更正方法和服务器。

背景技术

文本校对过程中主要技术就是纠正错别字。通常情况下，文本校对过程基本上采用２种方法（人工检查校对和基于错别字词典的校对），其中最主要的是错别字词典校对，通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此发明通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典，再利用评分模型对相应的词进行打分，最后根据打分从词典中选取正确的字。

当错别字与正确字的字音相同(同音字)时，中文搜索引擎可以利用同音字的词频对错别字进行纠正。原理就是当拼音相同时，给出的词是出现概率最大的那个词。但在某些情况下，错别字不是同音字，而是形近字或者是顺序颠倒的错别字，当这些情况出现时，搜索引擎一般无法识别错别字。另外，在实际应用中，当用户输入的检索条件很长时，经常会因为出现错别字而无法检测。因此当用户输入的检索条件比较长时，将会出现以下问题：

1.当错别字和正确字的字音不同时，即使在拼音字符匹配度较高的情况下，***也无法识别和纠正错别字。

２．当一个词语错误时，如“百度”和“摆渡”，拼音对比法将无法纠正。

３．当一个词有多个同音词时，如“手会”和“手绘、受贿、收汇、受惠”，搜索引擎会根据关键词的概率给出搜索结果，而不会依据检索条件的语义给出结果。例如，用户需要搜索有关“手绘”的信息，但输入的是“手会”，最终搜索到的可能是“受贿”信息。

４．当检索的内容有多个关键词，并且最重要关键词因为出现错误而变得不重要时，搜索引擎会根据关键词的重要性给出搜索结果。

５．当检索条件中出现“增字”和“漏字”的错误时，***不会进行纠正。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提供一种搜索引擎中错别字自动更正方法和服务器，通过设计一种搜索引擎中错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练语料，搭建一个错别字纠正模型，学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正***缺点。同时，本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。

为实现上述目的，本发明提供一种搜索引擎中错别字自动更正方法，其特征在于，包括：

步骤1，获取用户输入的搜索文本数据；

步骤2，对所述搜索文本数据进行预处理；

步骤3，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；

步骤4，采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；

步骤5，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；

步骤6，将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择作为最终的搜索文本结果；

步骤7，将搜索文本结果作为搜索词进行检索，并发送检索结果至用户端。

优选的，所述步骤6还包括：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

优选的，所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

优选的，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。

优选的，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。

优选的，所述字符特征信息为词性、语法、语义中的一种或几种。

本发明另一方面还提供一种搜索引擎中错别字自动更正服务器，包括：

预处理模块，用于对需要校对的文本进行预处理；

向量生成模块，用于将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；

识别模块，用于采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；

预测模块，用于针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；

发送模块，用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择和发送检索结果至用户端。

检索模块，根据所述最终更正结果进行检索，输出检索结果。

优选的，所述服务器还用于：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

优选的，所述预处理模块还用于去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

优选的，在所述服务器还包括：数据库，用于存储第二字符向量和语言模型规则；所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则。

通过本发明设计一种搜索引擎中错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练语料，搭建一个错别字纠正模型，学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正***缺点。同时，本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。

附图说明

图1示出了本发明一种搜索引擎中错别字自动更正方法的流程图；

图2示出了本发明一种搜索引擎中错别字自动更正服务器的结构框图；

图3示出了本发明一实施例的文本错别字更正方法的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种搜索引擎中错别字自动更正方法的流程图。

如图1所示，根据本发明一种搜索引擎中错别字自动更正方法，包括以下步骤：

步骤1，获取用户输入的搜索文本数据。

用户在浏览器或者其他搜索引擎输入搜索文本数据，则浏览器或者搜索引擎获取数据并发送至服务器。例如，用户在浏览器中输入“手绘”，则浏览器则发送此关键词的检索数据至服务器中。

步骤2，对需要校对的文本进行预处理。

所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤，并且转换成简体字以统一处理。

步骤3，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量。

优选的，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。将预处理后的数据进行编码后，再进行向量化的处理，将每个字符高维向量化，得到相应的字向量。

步骤4，采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果。

LSTM技术是比普通的RNN算法要更优的算法，更适合进行语义和错别字的识别，基于LSTM是现有技术，所以采用attention机制和双向LSTM进行识别的内容不再一一赘述。attention机制也是在深度学习和语言处理中的常用技术，属于现有技术，所以本说明书不再对此机制进行赘述。

步骤5，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较。

步骤6，将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择。

用户接收到服务器发送更正结果后，在结果选项中选择更适合的结果进行错别字更正。

优选的，所述步骤6还包括：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。例如，当采用上述的更正方法得到的大于概率阈值的结果只有一个时，那么说明此结果是最符合条件的结果，则自动进行错别字更正，不需要经过用户的确认。另外，还可以直接把概率最大的结果进行自动错别字更正，不需要经过用户的确认。

优选的，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。所述字符特征信息为词性、语法、语义中的一种或几种。

图2示出了本发明一种搜索引擎中错别字自动更正服务器的结构框图。

如图2所示，根据本发明提供的一种搜索引擎中错别字自动更正服务器，包括：

预处理模块，用于对需要校对的文本进行预处理。

向量生成模块，用于将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量。

识别模块，用于采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果。

预测模块，用于针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较。

输出检索结果至用户端，完成整个的检索错别字更正和检索的过程。

优选的，当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。例如，当采用上述的更正方法得到的大于概率阈值的结果只有一个时，那么说明此结果是最符合条件的结果，则自动进行错别字更正，不需要经过用户的确认。另外，还可以直接把概率最大的结果进行自动错别字更正，不需要经过用户的确认。

在所述服务器还包括：数据库，用于存储第二字符向量和语言模型规则；所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则。所述字符特征信息为词性、语法、语义中的一种或几种。

上述每个模块都可以互相连接或者单独与行使对应功能的模块进行连接。

图3示出了本发明一实施例的文本错别字更正方法的流程图。

如图3所示，首先用户进行文本的输入，其输入的文本数据会发送至服务器中，服务器中的数据清洗***将对文本数据进行数据清洗工作，数据清洗主要为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤，并且转换成简体字以统一处理。

然后对清洗后的文本数据进行字符向量化的处理。接着采用end to end模型对句子进行解码，在利用attention机制，对句子进行解码，判断此时的概率阈值，将大于此概率阈值的数据选取最大概率的字作为结果进行输出。如果数据不大于概率阈值，则直接输出最终结果。

服务器把最终结果作为检索的数据进行检索，最后输出检索结果，发送至用户端处。

在本说明书的描述中，术语“安装”、“相连”、“连接”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索引擎中错别字自动更正方法，其特征在于，包括：

步骤1，获取用户输入的搜索文本数据；

步骤2，对所述搜索文本数据进行预处理；

2.根据权利要求1所述的一种搜索引擎中错别字自动更正方法，其特征在于，所述步骤6还包括：

当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

3.根据权利要求1所述的一种搜索引擎中错别字自动更正方法，其特征在于，所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

4.根据权利要求1所述的一种搜索引擎中错别字自动更正方法，其特征在于，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。

5.根据权利要求1所述的一种搜索引擎中错别字自动更正方法，其特征在于，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。

6.根据权利要求5所述的一种搜索引擎中错别字自动更正方法，其特征在于，所述字符特征信息为词性、语法、语义中的一种或几种。

7.一种搜索引擎中错别字自动更正服务器，其特征在于，包括：

预处理模块，用于对需要校对的文本进行预处理；

发送模块，用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择和发送检索结果至用户端；

8.根据权利要求7所述的一种搜索引擎中错别字自动更正服务器，其特征在于，所述服务器还用于：

9.根据权利要求7所述的一种搜索引擎中错别字自动更正服务器，其特征在于，所述预处理模块还用于去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

10.根据权利要求7所述的一种搜索引擎中错别字自动更正服务器，其特征在于，在所述服务器还包括：数据库，用于存储第二字符向量和语言模型规则；所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则。