CN113887202A

CN113887202A - 文本纠错方法、装置、计算机设备及存储介质

Info

Publication number: CN113887202A
Application number: CN202111150351.7A
Authority: CN
Inventors: 莫琪
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04

Abstract

本申请属于人工智能领域，涉及一种文本纠错方法包括获取文本信息；采用前向最大匹配法处理文本信息，得到分词集合；通过N‑gram模型判断所述分词集合中各分词是否有错别字，其中N‑gram模型基于背景信息训练得到；当所述分词集合中的分词有错别字时，获取带有错别字的目标分词位置；通过自定义词典召回候选词集合；对所述候选词集合进行筛选处理，获取符合预设筛选条件的候选词作为正确候选词，在所述目标分词位置处将所述错别字替换为所述正确候选词。本申请还提供一种文本纠错装置、设备及存储介质。此外，本申请还涉及区块链技术，N‑gram模型和自定义词典可存储于区块链中。采用本发明有效提高中文本纠错响应速率。

Description

文本纠错方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及文本纠错方法、装置、计算机设备及存储介质。

背景技术

文本纠错是指对中文语句进行自动检查、自动纠错，其目的在于提高语言准确性的同时减少人工校验成本。现有技术中常用pycorrector方法实现文本纠错，虽然自定义词典(包括近音词典、近形词典和混淆词典)中词汇量越大，错误检索成功率就越高，但pycorrector方法采用全局遍历的方式进行错误检测，自定义词典词汇量越大，相应的检索所需也大大延长，线上文本纠错响应速率低。

发明内容

本申请实施例的目的在于提出一种文本纠错方法、装置、计算机设备及存储介质，以解决现有技术中文本纠错响应速率低的问题。

为了解决上述技术问题，本申请实施例提供一种文本纠错方法，采用了如下所述的技术方案：

获取文本信息；

采用前向最大匹配法处理所述文本信息，得到分词集合，其中所述分词集合包括多个分词；

通过N-gram模型判断所述分词集合中各分词是否有错别字，其中所述 N-gram模型基于背景信息训练得到，且N≧1，所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种；

当所述分词集合中的分词有错别字时，获取带有错别字的目标分词位置；

通过自定义词典召回候选词集合，其中所述自定义词典包括近音词典、近形词典、混淆词典中的至少一种，所述候选词集合包括至少一个候选词；

对所述候选词集合进行筛选处理，获取符合预设筛选条件的候选词作为正确候选词，在所述目标分词位置处将所述错别字替换为所述正确候选词。

进一步的，在获取文本信息的步骤之后、在采用前向最大匹配法处理所述文本信息的步骤之前还包括：

对所述文本信息进行分句处理。

进一步的，采用前向最大匹配法处理所述文本信息的步骤包括：

步骤A：根据预设的最大输入字符长度对所述文本信息进行切分处理，得到字符组和剩余文本信息，其中所述字符组包括至少一个字符；

步骤B：通过预设的分词词典对所述字符组进行匹配处理，判断所述字符组是否为所述分词词典中的词组；

步骤C：当所述字符组为所述分词词典中的词组时，将所述字符组作为分词，并将所述剩余文本信息替换所述文本信息，重复执行所述步骤A，直至所述文本信息中最末端字符已被切分处理；

步骤D：当所述字符组不为分词词典中的词组时，将所述字符组最末端的字符去除，将已去除最末端字符的字符组作为次字符组，并将去除的字符加入至所述剩余文本信息的最首端，得到次剩余文本信息，将所述次字符组替换所述字符组和将所述次剩余文本信息替换所述剩余文本信息后，重复执行所述步骤B，直至所述文本信息中最末端字符已被切分处理；

步骤E：当所述文本信息中最末端字符已被切分处理后，将得到的所有分词汇合形成所述分词集合。

进一步的，所述N-gram模型包括2-gram模型和3-gram模型，通过N-gram 模型判断分词集合中各分词是否有错别字的步骤包括：

通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理，得到所属所述2-gram模型的第一分值和所属所述3-gram 模型的第二分值；

判断所述第一分值和所述第二分值是否均低于预设阈值；

若所述第一分值和所述第二分值均低于所述预设阈值，则确定所述分词集合中有错别字；

若所述第一分值和所述第二分值均不低于所述预设阈值，则确定所述分词集合中无错别字。

进一步的，所述N-gram模型包括至少两个2-gram模型和至少两个3-gram 模型；通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理，得到所属所述2-gram模型的第一分值和所属所述 3-gram模型的第二分值的步骤包括：

每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第一子分值，所述第一分值包括多个第一子分值，其中每个所述2-gram模型的背景信息不同；

每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第二子分值，所述第二分值包括多个第二子分值，其中每个所述3-gram模型的背景信息不同。

进一步的，在每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第一子分值，；每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第二子分值，的步骤之前包括：

确定所述分词集合中相邻的分词所属行业领域信息是否为预设行业领域，得到判断结果；

基于所述判断结果确定是否对获得的所述第一子分值和所述第二子分值加权处理。

进一步的，对所述候选词集合进行筛选处理的步骤包括：

通过逻辑回归模型对所述候选词集合进行粗筛选处理；

通过Xgboost模型对经过粗筛选的所述候选词集合进行精筛选处理。

为了解决上述技术问题，本申请实施例还提供一种文本纠错装置，采用了如下所述的技术方案：

获取模块，用于获取文本信息；

分词模块，用于采用前向最大匹配法处理所述文本信息，得到分词集合，其中所述分词集合包括多个分词；

检测模块，用于通过N-gram模型判断所述分词集合中各分词是否有错别字，其中所述N-gram模型基于背景信息训练得到，且N≧1，所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种；

定位模块，用于当所述分词集合中的分词有错别字时，获取带有错别字的目标分词位置；

候选召回模块，用于通过自定义词典召回候选词集合，其中所述自定义词典包括近音词典、近形词典、混淆词典中的至少一种，所述候选词集合包括至少一个候选词；

替换模块，用于对所述候选词集合进行筛选处理，获取符合预设筛选条件的候选词作为正确候选词，在所述目标分词位置处将所述错别字替换为所述正确候选词。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的文本纠错方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的文本纠错方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过获取文本信息，采用前向最大匹配法处理所述文本信息，得到分词集合，其中所述分词集合包括多个分词，然后通过N-gram模型判断所述分词集合中各分词是否有错别字，其中所述N-gram模型基于背景信息训练得到，且N≧1，背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种，当所述分词集合中的分词有错别字时，获取带有错别字的目标分词位置，通过自定义词典召回候选词集合，其中所述候选词集合包括至少一个候选词，对所述候选词集合进行筛选处理，获取符合预设筛选条件的候选词作为正确候选词，在所述目标分词位置处将所述错别字替换为所述正确候选词；本申请采用前向最大匹配算法进行分词，并通过基于背景信息训练得到的N-gram模型对分词集合中的各分词进行错误检索，以实现对文本的针对性检索的目的，有利于减少错误词检索所需耗时的同时，保证了错误词检索准确率，提升文本线上错别字纠错的响应速率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2根据本申请的文本纠错方法的一个实施例的流程图；

图3是根据本申请的文本纠错装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面 3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、 103上显示的页面提供支持的后台服务器。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network， CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的文本纠错方法一般由服务器/终端设备执行，相应地，文本纠错装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的文本纠错方法的一个实施例的流程图。所述的文本纠错方法，包括以下步骤：

步骤201：获取文本信息。

具体地，用户通过输入设备向上述终端设备/服务器输入文本信息(如中文文本)。

其中，输入设备包括虚拟键盘、实体键盘、语音输入装置中的一种或多种。

步骤202：采用前向最大匹配法处理所述文本信息，得到分词集合，其中所述分词集合包括多个分词。

具体地，对文本信息采用前向最大匹配法处理之前，预先定义最大输入字符的长度(一般而言最大输入字符长度为词典中最长的词组长度，当然最大输入字符长度也可由用户自行定义)；在实际应用中，采用前向最大匹配法对文本进行分词处理，以预先定义的最大输入字符长度为基准对文本信息进行分切，得到多个分词，并由上述多个分词汇合形成所述分词集合。

步骤203：通过N-gram模型判断所述分词集合中各分词是否有错别字，其中所述N-gram模型基于背景信息训练得到，且N≧1，所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种。

具体地，行业领域信息：以金融领域为例，如在股票市场中，“蒸发”的词组含义指的是股票市值蒸发，一般是指某个时点(比如以年或月为计算单位)的股票市值与之前的股票市值对比，由于股价的下跌，导致市值也降低，此时市值的缩水就叫股票市值蒸发；但在日常生活中，“蒸发”的词组含义为用于形容液体转化为气体的现象，因此引入行业领域信息对N-gram模型进行训练，能够基于行业领域的差异进行更细致的分类，提升分词中错别字的检错准确率；当然行业领域信息还可为行业垂直领域信息，对主领域划分为多个分支领域，如金融领域，细致划分为证券、银行、保险等子领域，这样以进一步的提升分词中错别字的检错准确率。

通用语料信息：如“贷款”的词组含义是银行或其他金融机构按一定利率和必须归还等条件出借货币资金的一种信用活动形式，简单通俗的理解就是需要利息的借钱，此“贷款”词组在各行业领域中的意思相同或相近，因此引入通用语料信息对N-gram模型进行训练，以提升N-gram模型的适用性。

地区信息：以金融领域为例，如“押金”为A地区上的词组，“按金”为 B地区上的词组，但“押金”和“按金”二者的含义一致，均表示一方当事人将一定费用存放在对方处保证自己的行为不会对对方利益造成损害，如果造成损害的可以以此费用据实支付或另行赔偿，因此引入通用地区信息对 N-gram模型进行训练，以进一步N-gram模型的适用性。

进一步说明的是，背景信息包括行业领域信息、通用语料信息和地区信息中的一种或多种，即背景信息可为行业领域信息、通用语料信息和地区信息中的其中一个，或行业领域信息、通用语料信息和地区信息中的至少两个，以满足不同的场景使用需求，提升N-gram模型的适用性。

N-gram模型基于背景信息训练得到，可基于当前背景信息的差异性，选取符合需求的N-gram模型，以提高错别字检索的准确性，同时也减少错别字检索的耗时；如在金融领域内，可基于金融领域的垂直领域、通用预料、各地区上用词的差异训练N-gram模型。

步骤204：当所述分词集合中的分词有错别字时，获取带有错别字的目标分词位置。

具体地，带有错别字的目标分词位置可通过标记定位，如采用字体加粗、颜色修改(如字体颜色从黑色修改成红色)、划线标记(如添加下划线、波浪线、锯齿线等)、字体缩放(通过放大或缩小方式改变字体的字号)、字体主题修改(如原字体为宋体主题修改成楷体主题)中的一种或多种。

步骤205：通过自定义词典召回候选词集合，其中所述自定义词典包括近音词典、近形词典、混淆词典中的至少一种，所述候选词集合包括至少一个候选词。

具体地，混淆词典为编辑距离的1-gram模型、2-gram模型混淆词典，为了提高字典的索引效率及减少搜索时间，将1gram模型词及词频和1gram模型近音词词典使用双数组字典树存储，而2-gram模型词典采用CSR数据结构存储，同时2-gram模型的近音混淆词可以从以上词典里恢复出来。而为了进行编辑距离召回候选词集合，通过建立分层倒排索引词典从而提高搜索效率。

进一步的，近音词典如[凶、熊、兄、雄]，若检测出“凶”出现错误，则候选词为[熊、兄、雄]。近形词典如[验、检、捡、俭]，若检测出“验” 出现错误，则候选词为[检、捡、俭]。混淆字典如[正加、增加]，若检测出 “正加”出现错误，则候选词为[增加]。

步骤206：对所述候选词集合进行筛选处理，获取符合预设筛选条件的候选词作为正确候选词，在所述目标分词位置处将所述错别字替换为所述正确候选词。

具体地，筛选条件为比较各候选词的分数，选取分数最高且排名第一的候选词作为正确候选词，并用所述正确候选词替换目标分词中的错别字。

在本实施例的一些可选的实现方式中，在步骤201之后，步骤202之前，还包括：

对所述文本信息进行分句处理。

具体地，如基于标点符号对文本进行分句处理；进一步的，如在手持设备或便携式设备中，通过JAVA语言内置的函数完成句子的拆分。

在本实施例的一些可选的实现方式中，在步骤202中，采用前向最大匹配法处理所述文本信息的步骤包括：

根据预先定义的最大输入字符长度对所述文本信息进行切分处理，得到字符组和剩余文本信息，其中所述字符组包括至少一个字符；

具体地，以下以预设的最大输入字符长度(MAX_LENGTH)为3，并结合金融场景中身份证错误提示语句进行举例说明：如文本信息为“***提示身份证号码不正确”，通过预设的最大输入字符长度(MAX_LENGTH)将“***提示身份证号码不正确”进行切分，得到“***提”的字符组、和“示身份证号码不正确”的剩余文本信息；之后通过分词词典对“***提”的字符组进行匹配处理，经分词词典检索，“***提”的字符组与分词词典中的任一词组匹配不成功，则将“***提”字符组中的“提”字符去除，得到“***”次字符组和“提”字符，“提”字符则加入“示身份证号码不正确”的剩余文本信息的最首段，得到“提示身份证号码不正确”的次剩余文本信息，之后将“系统”次字符组替换字符组和将“提示身份证号码不正确”的次剩余文本信息体替换剩余文本信息后，再次通过分词词典对“***”的字符组进行匹配处理，直至所述文本信息中最末端字符已被切分处理，当“***”字符组与分词词典中的任一词组匹配成功时，则将“***”的字符组作为分词，之后通过预设的最大输入字符长度(MAX_LENGTH)对已被所述剩余文本信息替换的所述文本信息进行切分处理，重复上述分词词典的匹配步骤，如此类推，直至剩余文本信息中最末端字符已被切分处理，之后将得到的所有分词汇合形成所述分词集合。

具体地，分词词典包括多个词组，用于供字符组进行词组匹配，可理解为，若字符组为“***提”时，经与分词词典匹配，查无此字符组后，则去除“提”字，得到“***”的次字符组，后再与分词词典匹配，经与分词词典匹配成功后，则输出该次字符组，并记为分词。

在一些可选的实现方式中，在步骤203中，所述N-gram模型包括2-gram 模型和3-gram模型，通过N-gram模型判断分词集合中是否有错别字，包括：

判断所述第一分值和所述第二分值是否均低于预设阈值；

具体地，以金融领域为例，若语句为“个人证券帐户”，则经过步骤S2 的分词处理后，得到包括有“个人”、“证券”、“帐户”分词集合，对于2-gram 模型中，将[个人、证券]和[证券、帐户]分别导入2-gram模型中，得到第一分值A1和第一分值A2，同时对于3-gram模型中将[个人、证券、帐户]导入 3-gram模型中，得到第二分值，判断第一分值A1、第一分值A2和第二分值是否低于预设阈值，基本规律是，当第一分值和第二分值均低于预设阈值时，即判断分词中有错别字，并定位错别字的位置，即定位分词“帐户”中“帐” 的位置。

在一些可选的实现方式中，所述N-gram模型包括至少两个2-gram模型和至少两个3-gram模型；通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理，得到所属所述2-gram模型的第一分值和所属所述3-gram模型的第二分值的步骤包括：

具体地，以两个2-gram模型为例，该两个2-gram模型的背景信息可为行业领域信息、通用语料信息和地区信息中的任意一种，只需满足两个2-gram 模型的背景信息不同即可，即可理解为两个2-gram模型的背景信息分别为行业领域信息和通用语料信息，又或行业领域信息和地区信息，又或通用语料信息和地区信息；在实际应用中，如上述的[个人、证券]中，两个2-gram模型均加载相邻分词[个人、证券]并进行打分处理，获得所属背景信息的第一子分值，当第一分值与预设阈值比对时，具体是将第一分值中的各第一子分值与预设阈值进行一一比对，得到第一分值的比对结果，并结合第二分值与预设阈值的比对结果判断分词集合中是否有错别字，具体第一分值和第二分值与预设阈值的比对方法请参见上文描述。

同理，当基于所述背景信息分别训练至少两个3-gram模型时，各3-gram 模型的计算过程原理与2-gram模型相同。

在一些可选的实现方式中，在每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第一子分值；每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第二子分值的步骤之前包括：

具体地，以两个2-gram模型为例，该两个2-gram模型的背景信息可为行业领域信息、通用语料信息和地区信息中的任意一种，只需满足两个2-gram 模型的背景信息不同即可，即可理解为两个2-gram模型的背景信息分别为行业领域信息和通用语料信息，又或行业领域信息和地区信息，又或通用语料信息和地区信息；在对分词集合中相邻的分词进行打分处理之前，先确定分词集合中相邻的分词所属行业领域信息是否为预设行业领域，得到判断结果，而判断结果有两种，结果一：若预设行业领域为金融领域，当分词集合中相邻的分词所属行业领域信息不为金融领域时，则将各第一子分值与预设阈值一一比对判断，具体比对过程实则为第一分值与预设阈值的比对过程(具体请参见上文描述)，这样以减少由于行业差异、地区差异、词库适应性差的影响，进一步的提升错别字的检测错误率；结果二：当分词集合中相邻的分词所属行业领域信息为金融领域时，基于背景信息中行业领域信息、通用语料信息和地区信息各者所占比例，对获得各第一子分值进行预加权处理后，再一一与预设阈值进行比对判断，具体比对过程实则为第一分值与预设阈值的比对过程(具体请参见上文描述)，这样以进一步的减少背景信息中各项差异的影响，更进一步的提升错别字的检测错误率。对于分词集合中相邻的分词所属行业领域信息是否为预设行业领域的判断，可通过操作人员进行判断，也可为自动识别，当分词属于预设行业领域信息的词组时，则由结果一的处理方式切换至结果二的处理方式。

同理，当基于所述背景信息分别训练至少两个3-gram模型时，各3-gram 模型的背景信息确认和计算过程原理与2-gram模型相同。

在一些可选的实现方式中，在步骤206中，对所述候选词集合进行筛选处理的步骤包括：

通过逻辑回归模型对所述候选词集合进行粗筛选处理；

具体地，采用逻辑回归模型算法进行特征抽取，过滤候选词集合中明显错误的候选词，得出符合预设筛选条件的候选词集合，之后通过Xgboost模型对符合预设筛选条件的候选词集合进行打分，分数大于预设阈值且在符合预设筛选条件的候选词集合中分数排名最高的候选词作为正确候选词，并用所述正确候选词替换目标分词中的错别字；这样先经粗筛选处理过滤候选词集合中明显错误的候选词，以候选词集合中候选词的数量，进而有效提高后续的精筛选处理效率。

其中特征抽取包括词典统计特征(统计各个候选词在通用领域和行业领域语料中出现的频次)、编辑距离(计算原始词和候选词之间的编辑距离)、拼音jaccard距离(计算原始词和候选词之间拼音的jaccard距离)、统计语言模型计算得分(计算候选词2-gram模型和3-gram模型的分数)。

本申请采用前向最大匹配算法进行分词，并通过基于背景信息训练得到的N-gram模型对分词集合中的各分词进行错误检索，以实现对文本的针对性检索的目的，有利于减少错误词检索所需耗时的同时，保证了错误词检索准确率，提升文本线上错别字纠错的响应速率。

需要强调的是，为进一步保证信息的私密和安全性，上述实施例中N-gram 模型和自定义词典信息还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种文本纠错装置的一个实施例，该装置实施例与图所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的文本纠错装置300包括：获取模块301、分词模块302、检测模块303、定位模块304、候选召回模块305以及替换模块 306。其中：

获取模块301，用于获取文本信息；

分词模块302，用于采用前向最大匹配法处理所述文本信息，得到分词集合，其中所述分词集合包括多个分词；

检测模块303，用于通过N-gram模型判断所述分词集合中各分词是否有错别字，其中所述N-gram模型基于背景信息训练得到，且N≧1，所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种；

定位模块304，用于当所述分词集合中的分词有错别字时，获取带有错别字的目标分词位置；

候选召回模块305，用于通过自定义词典召回候选词集合，其中所述自定义词典包括近音词典、近形词典、混淆词典中的至少一种，所述候选词集合包括至少一个候选词；

替换模块306，用于对所述候选词集合进行筛选处理，获取符合预设筛选条件的候选词作为正确候选词，在所述目标分词位置处将所述错别字替换为所述正确候选词。

上述文本纠错装置，采用前向最大匹配算法进行分词，并通过基于背景信息训练得到的N-gram模型对分词集合中的各分词进行错误检索，以实现对文本的针对性检索的目的，有利于减少错误词检索所需耗时的同时，保证了错误词检索准确率，提升文本线上错别字纠错的响应速率。

在本实施例的一些可选的实现方式中，还包括：分句模块307，用于对所述文本信息进行分句处理。

在本实施例的一些可选的实现方式中，上述分词模块302包括：

切分单元，用于根据预设的最大输入字符长度对所述文本信息进行切分处理，得到字符组和剩余文本信息，其中所述字符组包括至少一个字符；

匹配单元，用于通过预设的分词词典对所述字符组进行匹配处理，判断所述字符组是否为所述分词词典中的词组；

第一判断单元，用于当所述字符组为所述分词词典中的词组时，将所述字符组作为分词，并将所述剩余文本信息替换所述文本信息，重复执行所述步骤A，直至所述文本信息中最末端字符已被切分处理。

第二判断单元，当所述字符组不为分词词典中的词组时，将所述字符组最末端的字符去除，将已去除最末端字符的字符组作为次字符组，并将去除的字符加入至所述剩余文本信息的最首端，得到次剩余文本信息，将所述次字符组替换所述字符组和将所述次剩余文本信息替换所述剩余文本信息后，重复执行所述步骤B，直至所述文本信息中最末端字符已被切分处理。

汇合单元，用于当所述文本信息中最末端字符已被切分处理后，将得到的所有分词汇合形成所述分词集合。

在本实施例的一些可选的实现方式中，上述检测模块303包括：

打分单元，用于通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理，得到所属所述2-gram模型的第一分值和所属所述3-gram模型的第二分值；

第三判断单元，用于判断所述第一分值和所述第二分值是否均低于预设阈值。

第一确定单元，用于若所述第一分值和所述第二分值均低于所述预设阈值，则确定所述分词集合中有错别字；

第二确定单元，用于若所述第一分值和所述第二分值均不低于所述预设阈值，则确定所述分词集合中无错别字。

在本实施例的一些可选的实现方式中，上述打分单元包括：

第一打分子单元，用于每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第一子分值，所述第一分值包括多个第一子分值，其中每个所述2-gram模型的背景信息不同；

第二打分子单元，用于每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第二子分值，所述第二分值包括多个第二子分值，其中每个所述3-gram模型的背景信息不同。

在本实施例的一些可选的实现方式中，上述检测模块303还包括：

第三确定单元，用于确定所述分词集合中相邻的分词所属行业领域信息是否为预设行业领域，得到判断结果；

第四确定单元，用于基于所述判断结果确定是否对获得的所述第一子分值和所述第二子分值加权处理。

在本实施例的一些可选的实现方式中，上述替换模块306包括：

粗筛选单元，用于通过逻辑回归模型对所述候选词集合进行粗筛选处理；

精筛选单元，用于通过Xgboost模型对经过粗筛选的所述候选词集合进行精筛选处理。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Program模型mable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D文本纠错存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如文本纠错方法的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器 42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行所述文本纠错方法的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43 通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

采用前向最大匹配算法进行分词，并通过基于背景信息训练得到的 N-gram模型对分词集合中的各分词进行错误检索，以实现对文本的针对性检索的目的，有利于减少错误词检索所需耗时的同时，保证了错误词检索准确率，提升文本线上错别字纠错的响应速率。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有文本纠错程序，所述文本纠错程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文本纠错方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种文本纠错方法，其特征在于，包括下述步骤：

获取文本信息；

通过N-gram模型判断所述分词集合中各分词是否有错别字，其中所述N-gram模型基于背景信息训练得到，且N≧1，所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种；

2.根据权利要求1所述的文本纠错方法，其特征在于，在获取文本信息的步骤之后、在采用前向最大匹配法处理所述文本信息的步骤之前，还包括：

对所述文本信息进行分句处理。

3.根据权利要求1所述的文本纠错方法，其特征在于，采用前向最大匹配法处理所述文本信息的步骤包括：

4.根据权利要求1至3中任一项所述的文本纠错方法，其特征在于，所述N-gram模型包括2-gram模型和3-gram模型，通过N-gram模型判断分词集合中各分词是否有错别字的步骤包括：

通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理，得到所属所述2-gram模型的第一分值和所属所述3-gram模型的第二分值；

判断所述第一分值和所述第二分值是否均低于预设阈值；

5.根据权利要求4所述的文本纠错方法，其特征在于，所述N-gram模型包括至少两个2-gram模型和至少两个3-gram模型；通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理，得到所属所述2-gram模型的第一分值和所属所述3-gram模型的第二分值的步骤包括：

6.根据权利要求5所述的文本纠错方法，其特征在于，在每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第一子分值；每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理，得到第二子分值的步骤之前包括：

7.根据权利要求1至3中任一项所述的文本纠错方法，其特征在于，对所述候选词集合进行筛选处理的步骤包括：

通过逻辑回归模型对所述候选词集合进行粗筛选处理；

8.一种文本纠错装置，其特征在于，包括：

获取模块，用于获取文本信息；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。