CN112380840A

CN112380840A - 文本纠错方法、装置、设备及介质

Info

Publication number: CN112380840A
Application number: CN202011302530.3A
Authority: CN
Inventors: 郑立颖; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-19
Anticipated expiration: 2040-11-19
Also published as: WO2022105083A1; CN112380840B

Abstract

本申请涉及人工智能技术领域，揭示了一种文本纠错方法、装置、设备及介质，其中方法包括：根据目标词典对引擎纠错后的文本进行分词及错误用词判断得到第一潜在错误用词数据；将引擎纠错后的文本输入预训练模型进行替换概率预测得到替换概率预测结果，根据替换概率预测结果确定第二潜在错误用词数据；根据引擎纠错后的文本、第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句得到多个待评分的候选替换句；分别将每一个待评分的候选替换句输入统计语言模型进行候选替换句评分得到多个候选替换句评分结果；根据多个候选替换句评分结果确定目标候选替换句。从而实现了对规则以内和规则以外的错误情况的识别，提高了文本纠错的准确性。

Description

文本纠错方法、装置、设备及介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种文本纠错方法、装置、设备及介质。

背景技术

文本纠错指的是对自然语言在使用过程中出现的问题自动进行识别和纠正，比如，用字错误(痛点写成通点)、语法错误(的地得混用)、用词搭配错误(辅助决策写成扶助决策)、多字、漏字等。

因为特定场景的相关术语、专业术语，比如，机构的缩写：广东分公司写成广分，公司内部的缩写用语：会议纪要写成会纪，导致采用通用语料(如***中文语料、***中文语料)训练出的文本纠错模型的纠错效果不会太好。

目前已有的纠错技术针对特定场景大都结合规则引擎，但是仅依赖规则引擎会造成文本纠错模型覆盖率有限，针对规则以外的错误情况无法处理，同时规则引擎也会容易引起误判。

发明内容

本申请的主要目的为提供一种文本纠错方法、装置、设备及介质，旨在解决现有技术的纠错技术仅依赖规则引擎会造成文本纠错模型覆盖率有限，针对规则以外的错误情况无法处理，同时规则引擎也会容易引起误判的技术问题。

为了实现上述发明目的，本申请提出一种文本纠错方法，所述方法包括：

获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；

获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；

将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；

根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句；

分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，得到多个候选替换句评分结果；

根据所述多个候选替换句评分结果，确定目标候选替换句。

进一步的，所述获取目标词典的步骤之前，包括：

获取多个业务场景文本样本；

对所述多个业务场景文本样本进行分词，得到待统计的词语集合；

对所述待统计的词语集合中每个词语进行词频统计，得到多个待分析词语词频；

获取词频阈值；

判断所述多个待分析词语词频是否大于所述词频阈值；

当所述待分析词语词频大于所述词频阈值时，将所述待分析词语词频对应的词语作为业务场景常用词数据；

采用点间互信息和左右熵的新词发现算法对所述多个业务场景文本样本进行新词挖掘，得到业务场景新词数据；

获取业务场景特定词数据和通用场景常用词数据；

根据所述业务场景常用词数据、所述业务场景新词数据、所述业务场景特定词数据和所述通用场景常用词数据，确定所述目标词典。

进一步的，所述根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据的步骤，包括：

对所述引擎纠错后的文本进行分词，得到多个待判定词语；

判断所述多个待判定词语在所述目标词典中是否存在；

当所述待判定词语在所述目标词典中不存在时，将多个所述待判定词作为所述第一潜在错误用词数据。

进一步的，所述将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果的步骤之前，包括：

获取多个训练样本，所述训练样本包括：训练文本样本数据、训练文本样本标定数据；

将所述训练文本样本数据输入待训练的生成器进行词语替换，得到替换样本句；

将所述替换样本句输入待训练的判别器进行替换概率预测，得到替换概率样本预测值，其中，所述待训练的判别器采用Electra的Discriminator；

根据所述替换概率样本预测值和所述训练文本样本标定数据对所述待训练的生成器和所述待训练的判别器进行训练，并将训练后的所述待训练的判别器作为所述预训练模型。

进一步的，所述根据所述替换概率预测结果，确定第二潜在错误用词数据的步骤，包括：

获取替换概率阈值；

从所述替换概率预测结果中提取大于所述替换概率阈值的值，得到目标替换概率预测数据；

将所述目标替换概率预测数据对应的词语作为所述第二潜在错误用词数据。

进一步的，所述根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句的步骤，包括：

获取同音字同形字字典；

在所述同音字同形字字典中选取与所述第一潜在错误用词数据和所述第二潜在错误用词数据匹配的词作为候选词，得到候选词集合；

对所述候选词集合中的候选词进行随机选择，得到多个候选词分组；

分别将每一个所述候选词分组对所述引擎纠错后的文本进行替换，得到所述多个待评分的候选替换句。

进一步的，所述根据所述多个候选替换句评分结果，确定目标候选替换句的步骤，包括：

从所述多个候选替换句评分结果中提取评分值最大的候选替换句评分结果作为目标候选替换句评分结果；

将所述目标候选替换句评分结果对应的候选替换句作为所述目标候选替换句。

本申请还提出了一种文本纠错装置，所述装置包括：

引擎纠错模块，用于获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；

第一潜在错误用词数据确定模块，用于获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；

第二潜在错误用词数据确定模块，用于将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；

待评分的候选替换句确定模块，用于根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句；

候选替换句评分结果确定模块，用于分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，得到多个候选替换句评分结果；

目标候选替换句确定模块，用于根据所述多个候选替换句评分结果，确定目标候选替换句。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的一种文本纠错方法、装置、设备及介质，通过在错误检测阶段使用规则引擎、目标词典及预训练模型提高错误位置识别的可能性，实现了对规则以内和规则以外的错误情况的识别，从而提高了覆盖率；在错误纠正阶段，根据引擎纠错后的文本、第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句得到多个待评分的候选替换句，然后再结合统计语言模型判断替换词在候选替换句中存在的合理程度，减少了错误检测阶段带来的误判，从而提高了文本纠错的准确性。

附图说明

图1为本申请一实施例的文本纠错方法的流程示意图；

图2为本申请一实施例的文本纠错装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的纠错技术仅依赖规则引擎会造成文本纠错模型覆盖率有限，针对规则以外的错误情况无法处理，同时规则引擎也会容易引起误判的技术问题，本申请提出了文本纠错方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的自然语言处理技术领域。所述文本纠错方法通过先进采用纠错规则引擎进行纠错，再用词典找出第一潜在错误用词数据和用预训练模型确定第二潜在错误用词数据，然后根据第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句，对候选替换句进行评分，根据评分确定文本纠错结果，实现了对规则以内和规则以外的错误情况的识别，从而提高了覆盖率，提高了文本纠错的准确性。

参照图1，本申请实施例中提供一种文本纠错方法，所述方法包括：

S1：获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；

S2：获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；

S3：将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；

S4：根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句；

S5：分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，得到多个候选替换句评分结果；

S6：根据所述多个候选替换句评分结果，确定目标候选替换句。

本实施例通过在错误检测阶段使用规则引擎、目标词典及预训练模型提高错误位置识别的可能性，实现了对规则以内和规则以外的错误情况的识别，从而提高了覆盖率；在错误纠正阶段，根据引擎纠错后的文本、第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句得到多个待评分的候选替换句，然后再结合统计语言模型判断替换词在候选替换句中存在的合理程度，减少了错误检测阶段带来的误判，从而提高了文本纠错的准确性。

对于S1，可以从数据库中获取待纠错文本，也可以是用户输入的待纠错文本，还可以是其他应用***发送的待纠错文本。

待纠错文本，是需要进行文本纠错的文本。

其中，将所述待纠错文本输入纠错规则引擎进行错误词识别和错误词替换，得到引擎纠错后的文本。

纠错规则引擎是采用通用语料对神经网络训练得到的模型，其中，通用语料包括但不限于：***中文语料、***中文语料。

可以理解的是，所述待纠错文本和训练纠错规则引擎的语料的语言类别相同。比如，采用中文预料对神经网络训练得到的纠错规则引擎，用于对中文的待纠错文本进行错误词识别和错误词替换，在此举例不做具体限定。

对于S2，可以从数据库中获取目标词典，也可以是用户输入的目标词典，还可以是其他应用***发送的目标词典。

目标词典包括至少一个词语。

其中，对所述引擎纠错后的文本进行分词，采用所述目标词典对分词结果进行错误用词判断，将判断为错误用词的词语放在集合中，得到第一潜在错误用词数据。也就是说，第一潜在错误用词数据是一个集合。

对于S3，将所述引擎纠错后的文本输入预训练模型进行每个字是否被替换的替换概率预测，得到替换概率预测结果。也就是说，替换概率预测结果中包含至少一个替换概率预测值。

根据所述替换概率预测结果中所有的替换概率预测值，确定第二潜在错误用词数据。

预训练模型可以从现有技术中选择，也可以是基于神经网络训练得到的模型。

可以理解的是，所述引擎纠错后的文本和训练预训练模型的文本的语言类别相同。比如，采用中文文本对神经网络训练得到的预训练模型，用于对中文的所述引擎纠错后的文本进行替换概率预测，在此举例不做具体限定。

可以理解的是，步骤S2和步骤S3还可以同步执行，还可以按步骤S3和步骤S2的顺序异步执行，在此不做具体限定。

对于S4，根据所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选词，然后根据所述候选词和所述引擎纠错后的文本确定候选替换句，得到多个待评分的候选替换句。多个待评分的候选替换句中包括了所有可能的替换句组合。

对于S5，分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，也就是说，每个所述待评分的候选替换句对应一个候选替换句评分结果。

统计语言模型可以从现有技术中选择，也可以是基于神经网络训练得到的模型。

可以理解的是，所述待评分的候选替换句和统计语言模型的文本的语言类别相同。比如，采用中文文本对神经网络训练得到的统计语言模型，用于对中文的所述待评分的候选替换句进行候选替换句评分，在此举例不做具体限定。

对于S6，从所述多个候选替换句评分结果中提取评分值最大的候选替换句评分结果对应的候选替换句作为目标候选替换句。比如，所述多个候选替换句评分结果为：候选替换句B的评分为80、候选替换句A的评分为70、候选替换句D的评分为60，候选替换句B的评分80分为最大值，则80分对应的候选替换句B作为目标候选替换句，在此举例不做具体限定。

在一个实施例中，上述获取目标词典的步骤之前，包括：

S021：获取多个业务场景文本样本；

S022：对所述多个业务场景文本样本进行分词，得到待统计的词语集合；

S023：对所述待统计的词语集合中每个词语进行词频统计，得到多个待分析词语词频；

S024：获取词频阈值；

S025：判断所述多个待分析词语词频是否大于所述词频阈值；

S026：当所述待分析词语词频大于所述词频阈值时，将所述待分析词语词频对应的词语作为业务场景常用词数据；

S027：采用点间互信息和左右熵的新词发现算法对所述多个业务场景文本样本进行新词挖掘，得到业务场景新词数据；

S028：获取业务场景特定词数据和通用场景常用词数据；

S029：根据所述业务场景常用词数据、所述业务场景新词数据、所述业务场景特定词数据和所述通用场景常用词数据，确定所述目标词典。

本实施例实现了根据所述业务场景常用词数据、所述业务场景新词数据、所述业务场景特定词数据和所述通用场景常用词数据确定所述目标词典，使目标词典覆盖了通用场景、业务场景的各种相关术语及专业术语，从而在错误检测阶段通过目标词典提高了错误位置识别的可能性，从而提高了覆盖率。

对于S021，可以从数据库中获取多个业务场景文本样本，也可以是用户输入的多个业务场景文本样本，还可以是其他应用***发送的多个业务场景文本样本。

业务场景文本样本，是业务场景使用的文本数据。

对于S022，对所述多个业务场景文本样本进行分词，将分词得到的词语放在一个集合中，得到待统计的词语集合。

对于S023，分别计算所述待统计的词语集合中每个词语出现的次数，得到多个目标出现次数；获取所述待统计的词语集合中词语的总数，得到目标词语总数；分别将每一个所述目标出现次数除以所述目标词语总数，得到多个待分析词语词频。也就是说，所述待统计的词语集合中每个词语对应一个待分析词语词频。

待分析词语词频，是需要进行分析的词语词频。

对于S024，可以从数据库中获取词频阈值，也可以是用户输入的词频阈值，还可以是其他应用***发送的词频阈值。

词频阈值，是一个0到1的具体数值。

对于S025，依次判断所述多个待分析词语词频中每个所述待分析词语词频是否大于所述词频阈值。

对于S026，当所述待分析词语词频大于所述词频阈值时，意味着所述待分析词语词频对应的词语是业务场景的常用词的概率比较大，此时将所述待分析词语词频对应的词语作为业务场景常用词数据，有利于提高业务场景常用词数据的准确性。

对于S027，所述采用点间互信息和左右熵的新词发现算法对所述多个业务场景文本样本进行新词挖掘，得到业务场景新词数据的步骤，包括：

S0271：根据所述多个业务场景文本样本，生成n_gram(基于概率的判别模型)词典；

其中，根据所述多个业务场景文本样本生成n_gram词典的方法可以从现有技术中选择，在此不做赘述。

S0272：采用点间互信息方法从所述n_gram词典中筛选出备选的新词，得到待选择的新词数据；

其中，采用点间互信息方法从所述n_gram词典中筛选出备选的新词方法可以从现有技术中选择，在此不做赘述。

S0273：采用左右熵方法从所述待选择的新词数据中进行新词选择，得到业务场景新词数据。

其中，采用左右熵方法从所述待选择的新词数据中进行新词选择方法可以从现有技术中选择，在此不做赘述。

对于S028，可以从数据库中获取业务场景特定词数据，也可以是用户输入的业务场景特定词数据，还可以是其他应用***发送的业务场景特定词数据。

可以从数据库中获取通用场景常用词数据，也可以是用户输入的通用场景常用词数据，还可以是其他应用***发送的和通用场景常用词数据。

业务场景特定词数据是业务场景的特性形成的词语。比如，组织内部的愿景“先知、先觉、先行”，可以将“先知、先觉、先行”作为业务场景特定词，在此举例不做具体限定。

通用场景常用词数据，是大部分场景经常用到的词语。

对于S029，将所述业务场景常用词数据、所述业务场景新词数据、所述业务场景特定词数据和所述通用场景常用词数据放到一个集合，将得到的集合作为所述目标词典。也就是说，目标词典覆盖了通用场景、业务场景的各种相关术语及专业术语。

在一个实施例中，上述根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据的步骤，包括：

S21：对所述引擎纠错后的文本进行分词，得到多个待判定词语；

S22：判断所述多个待判定词语在所述目标词典中是否存在；

S23：当所述待判定词语在所述目标词典中不存在时，将多个所述待判定词作为所述第一潜在错误用词数据。

本实施例实现了根据目标词典进行错误用词判断，因目标词典覆盖了通用场景、业务场景的各种相关术语及专业术语，从而提高了错误位置识别的可能性，从而提高了第一潜在错误用词数据的覆盖率。

对于S21，对所述引擎纠错后的文本进行分词，将分词得到的词语作为待判定词语。

待判定词语，是指需要判定是否错误用词的词语。

对于S22，分别将所述多个待判定词语中每一个待判定词语在所述目标词典中进行查找，当在所述目标词典中查找到相同词语时意味着该待判定词语是正确用词，当在所述目标词典中查找不到相同词语时意味着该待判定词语是错误用词，此时确定所述待判定词语在所述目标词典中不存在。

对于S23，当所述待判定词语在所述目标词典中不存在时，意味着该待判定词语是错误用词，将所有在所述目标词典中不存在的所述待判定词语作为所述第一潜在错误用词数据。

在一个实施例中，上述将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果的步骤之前，包括：

S031：获取多个训练样本，所述训练样本包括：训练文本样本数据、训练文本样本标定数据；

S032：将所述训练文本样本数据输入待训练的生成器进行词语替换，得到替换样本句；

S033：将所述替换样本句输入待训练的判别器进行替换概率预测，得到替换概率样本预测值，其中，所述待训练的判别器采用Electra的Discriminator；

S034：根据所述替换概率样本预测值和所述训练文本样本标定数据对所述待训练的生成器和所述待训练的判别器进行训练，并将训练后的所述待训练的判别器作为所述预训练模型。

本实施例待训练的判别器采用Electra(Efficiently Learning an Encoderthat Classifies Token Replacement Accurately)的Discriminator，Electra相对于Bert(Bidirectional Encoder Representations from Transformers，预训练语言表示模型)的去预测Mask的正确值，Electra则是去预测Token是不是被替换了，从而提升了训练效率；通过将训练后的所述待训练的判别器作为所述预训练模型，使预训练模型可以预测每个被替换的概率。

S031，可以从数据库中获取多个训练样本，也可以是用户输入的多个训练样本，还可以是其他应用***发送的多个训练样本。

每个所述训练样本包括一个训练文本样本数据和一个训练文本样本标定数据，训练文本样本标定数据是对训练文本样本数据中每个字被替换的标定值。

训练文本样本数据，是文本数据。

训练文本样本标定数据，是一个一维向量，每个向量元素代表训练文本样本数据中一个字被替换的标定值。

S032，将所述训练文本样本数据输入待训练的生成器进行词语替换，得到替换样本句，也就是说，每个所述训练文本样本数据对应一个替换样本句。

优选的，待训练的生成器采用Generator模型。

其中，将所述训练文本样本数据经过随机选择设置[MASK]，然后输入给Generator模型，Generator模型负责把[MASK]变成替换过的词。Generator模型并不像对抗神经网络那样需要等待训练的判别器中传回来的梯度，而是像Bert一样去尝试预测正确的词语。

S033，将所述替换样本句输入待训练的判别器进行替换概率预测，得到替换概率样本预测值，也就是说，每个所述替换样本句对应一个替换概率样本预测值。

Discriminator预测所述替换样本句中每个位置上的词语是不是被替换过。

S034，所述根据所述替换概率样本预测值和所述训练文本样本标定数据对所述待训练的生成器和所述待训练的判别器进行训练，并将训练后的所述待训练的判别器作为所述预训练模型的步骤，包括：

S0341：将所述替换概率样本预测值和所述训练文本样本标定数据输入损失函数进行计算，得到目标损失值，根据所述目标损失值更新所述待训练的生成器的参数和所述待训练的判别器的参数，更新后的所述待训练的生成器和所述待训练的判别器被用于下一次计算所述替换概率样本预测值；

S0342：重复执行上述方法步骤直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件，将所述目标损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的判别器，确定为所述预训练模型。

所述第一收敛条件是指相邻两次计算的目标损失值的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数是指所述待训练的生成器和所述待训练的判别器被用于计算所述替换概率样本预测值的次数，也就是说，计算一次，迭代次数增加1。第二收敛条件，是预设次数值。

所述损失函数可以从现有技术中选择，在此不做赘述。

在一个实施例中，上述根据所述替换概率预测结果，确定第二潜在错误用词数据的步骤，包括：

S31：获取替换概率阈值；

S32：从所述替换概率预测结果中提取大于所述替换概率阈值的值，得到目标替换概率预测数据；

S33：将所述目标替换概率预测数据对应的词语作为所述第二潜在错误用词数据。

本实施例通过将所述替换概率预测结果中大于所述替换概率阈值的值对应的词语作为所述第二潜在错误用词数据，从而减少了误判，提高了第二潜在错误用词数据的准确性。

对于S31，可以从数据库中获取替换概率阈值，也可以是用户输入的替换概率阈值，还可以是其他应用***发送的替换概率阈值。

替换概率阈值，是一个0到1的具体数值。

对于S32，从所述替换概率预测结果的所有替换概率预测值中提取大于所述替换概率阈值的替换概率预测值，将找到的替换概率预测值作为目标替换概率预测数据。也就是说目标替换概率预测数据可以有一个值，也可以有多个值，还可以有零个值。通过将大于所述替换概率阈值的替换概率预测值作为目标替换概率预测数据，删除了小于或等于所述替换概率阈值的替换概率预测值，有利于减少噪音数据，从而减少了误判，提高了第二潜在错误用词数据的准确性。

对于S33，将所述目标替换概率预测数据对应的词语放在一个集合中，得到所述第二潜在错误用词数据。

在一个实施例中，上述根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句的步骤，包括：

S41：获取同音字同形字字典；

S42：在所述同音字同形字字典中选取与所述第一潜在错误用词数据和所述第二潜在错误用词数据匹配的词作为候选词，得到候选词集合；

S43：对所述候选词集合中的候选词进行随机选择，得到多个候选词分组；

S44：分别将每一个所述候选词分组对所述引擎纠错后的文本进行替换，得到所述多个待评分的候选替换句。

本实施例通过所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，从而为候选替换句评分提供了数据基础。

对于S41，可以从数据库中获取同音字同形字字典，也可以是用户输入的同音字同形字字典，还可以是其他应用***发送的同音字同形字字典。

同音字同形字字典包括：同音字子字典、同形字子字典。同音字子字典包括：第一替换前的词语、第一替换后的词语，第一替换前的词语和第一替换后的词语的读音相同。同形字子字典包括：第二替换前的词语、第二替换后的词语，第二替换前的词语和第二替换后的词语的字形相似。

对于S42，将所述第一潜在错误用词数据中每个词语在所述同音字同形字字典中进行匹配，将在所述同音字同形字字典中匹配到的词语作为第一候选词；将所述第二潜在错误用词数据中每个词语在所述同音字同形字字典中进行匹配，将在所述同音字同形字字典中匹配到的词语作为第二候选词；将所有第一候选词和所有第二候选词放入集合，得到候选词集合。

对于S43，对所述候选词集合中的候选词进行随机组合，将每一个组合作为一个候选词分组。可以理解的是，多个候选词分组涵盖了对所述候选词集合中的候选词所有可能的分组。

对于S44，分别将每一个所述候选词分组对所述引擎纠错后的文本进行替换，得到待评分的候选替换句。也就是说，每个所述候选词分组对应一个待评分的候选替换句。

待评分的候选替换句，是指需要进行评分的候选替换句。

在另一个实施例中，可以采用同音字同形字字典和同音字同形字字典以外的字典进行候选词匹配确定候选词集合，在此不做具体限定。

在一个实施例中，上述根据所述多个候选替换句评分结果，确定目标候选替换句的步骤，包括：

S61：从所述多个候选替换句评分结果中提取评分值最大的候选替换句评分结果作为目标候选替换句评分结果；

S62：将所述目标候选替换句评分结果对应的候选替换句作为所述目标候选替换句。

本实施例实现了将所述多个候选替换句评分结果中最大值对应的所述候选替换句评分结果作为目标候选替换句评分结果，将所述目标候选替换句评分结果对应的候选替换句作为所述目标候选替换句，从而进一步提高了确定的目标候选替换句的准确性。

对于S61，从所述多个候选替换句评分结果提取最大的候选替换句评分结果，将提取的最大的候选替换句评分结果作为目标候选替换句评分结果。

参照图2，本申请还提出了一种文本纠错装置，所述装置包括：

引擎纠错模块100，用于获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；

第一潜在错误用词数据确定模块200，用于获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；

第二潜在错误用词数据确定模块300，用于将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；

待评分的候选替换句确定模块400，用于根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句；

候选替换句评分结果确定模块500，用于分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，得到多个候选替换句评分结果；

目标候选替换句确定模块600，用于根据所述多个候选替换句评分结果，确定目标候选替换句。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存文本纠错方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本纠错方法。所述文本纠错方法，包括：获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句；分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，得到多个候选替换句评分结果；根据所述多个候选替换句评分结果，确定目标候选替换句。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种文本纠错方法，包括步骤：获取待纠错文本，将所述待纠错文本输入纠错规则引擎进行纠错处理，得到引擎纠错后的文本；获取目标词典，根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据；将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果，根据所述替换概率预测结果，确定第二潜在错误用词数据；根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句；分别将每一个所述待评分的候选替换句输入统计语言模型进行候选替换句评分，得到多个候选替换句评分结果；根据所述多个候选替换句评分结果，确定目标候选替换句。

上述执行的文本纠错方法，通过在错误检测阶段使用规则引擎、目标词典及预训练模型提高错误位置识别的可能性，实现了对规则以内和规则以外的错误情况的识别，从而提高了覆盖率；在错误纠正阶段，根据引擎纠错后的文本、第一潜在错误用词数据和第二潜在错误用词数据确定候选替换句得到多个待评分的候选替换句，然后再结合统计语言模型判断替换词在候选替换句中存在的合理程度，减少了错误检测阶段带来的误判，从而提高了文本纠错的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本纠错方法，其特征在于，所述方法包括：

根据所述多个候选替换句评分结果，确定目标候选替换句。

2.根据权利要求1所述的文本纠错方法，其特征在于，所述获取目标词典的步骤之前，包括：

获取多个业务场景文本样本；

获取词频阈值；

判断所述多个待分析词语词频是否大于所述词频阈值；

获取业务场景特定词数据和通用场景常用词数据；

3.根据权利要求1所述的文本纠错方法，其特征在于，所述根据所述目标词典对所述引擎纠错后的文本进行分词及错误用词判断，得到第一潜在错误用词数据的步骤，包括：

对所述引擎纠错后的文本进行分词，得到多个待判定词语；

判断所述多个待判定词语在所述目标词典中是否存在；

4.根据权利要求1所述的文本纠错方法，其特征在于，所述将所述引擎纠错后的文本输入预训练模型进行替换概率预测，得到替换概率预测结果的步骤之前，包括：

5.根据权利要求1所述的文本纠错方法，其特征在于，所述根据所述替换概率预测结果，确定第二潜在错误用词数据的步骤，包括：

获取替换概率阈值；

6.根据权利要求1所述的文本纠错方法，其特征在于，所述根据所述引擎纠错后的文本、所述第一潜在错误用词数据和所述第二潜在错误用词数据确定候选替换句，得到多个待评分的候选替换句的步骤，包括：

获取同音字同形字字典；

7.根据权利要求1所述的文本纠错方法，其特征在于，所述根据所述多个候选替换句评分结果，确定目标候选替换句的步骤，包括：

8.一种文本纠错装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。