CN111209748B

CN111209748B - 错别词识别方法、相关设备及可读存储介质

Info

Publication number: CN111209748B
Application number: CN201911293645.8A
Authority: CN
Inventors: 王培养; 方昕; 李永超; 刘海波; 方磊
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-10-24
Anticipated expiration: 2039-12-16
Also published as: CN111209748A

Abstract

本申请公开了一种错别词识别方法、相关设备及可读存储介质，待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字，在本申请中，通过获取原始文本中的出现连续的字组合生成原始字子串，并根据原始字子串，获取与原始文本对应的新增多字词，通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字，该某几个连续的字则有可能是原始文本中的错别词。因此，基于本申请的方案，可以实现对文本中的错别词的识别。

Description

错别词识别方法、相关设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种错别词识别方法、相关设备及可读存储介质。

背景技术

随着信息处理技术和互联网的高速发展，传统的文本工作几乎全部被计算机所取代，电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分，然而文本错别字也越来越多，发现错别词是文本质检的一个重要应用方面。

因此，如何识别文本中的错别词，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提供一种错别词识别方法、相关设备及可读存储介质。具体方案如下：

一种错别词识别方法，包括：

获取待识别的原始文本中的原始字子串，所述原始字子串是由所述原始文本中连续的字组合生成的；

根据所述原始字子串，确定与所述原始文本对应的新增多字词；

基于所述新增多字词，识别所述原始文本中的错别词。

可选的，所述根据所述原始字子串，确定与所述原始文本对应的新增多字词，包括：

获取与所述原始字子串对应的新字子串，所述新字子串与所述原始字子串的长度和无调拼音相同；

采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子；

获取所述与原始文本对应的新句子的多字词；

从所述与原始文本对应的新句子的多字词中确定新增多字词。

可选的，所述采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子，包括：

采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的待选新句子；

从所述待选新句子中选取出与所述原始文本对应的新句子。

可选的，所述从所述与原始文本对应的新句子的多字词中确定新增多字词，包括：

获取所述与原始文本对应的新句子的多字词中每个多字词在所述原始文本中出现的词频；

按照词频对所述与原始文本对应的新句子的多字词进行降序排列，选取排序靠前的预设数量个多字词为所述新增多字词。

可选的，所述基于所述新增多字词，识别所述原始文本中的错别词，包括：

从所述与所述原始文本对应的新句子中选取出目标新句子，所述目标新句子为包含所述新增多字词的新句子；

基于所述目标新句子，获取与所述原始文本对应的替换词；

确定所述原始文本中与所述替换词对应的字子串为所述原始文本中的错别词。

可选的，所述基于所述目标新句子，获取与所述原始文本对应的替换词，包括：

采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，获取与所述原始文本对应的新文本；

获取所述与所述原始文本对应的新文本中的新增多字词；

根据所述与所述原始文本对应的新文本中的新增多字词，确定与所述原始文本对应的替换词。

可选的，所述采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，获取与所述原始文本对应的新文本，包括：

采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，生成待选新文本集合；

计算所述待选新文本集合中的每个新文本与所述原始文本的相似度；

根据所述每个新文本与所述原始文本的相似度，从所述待选新文本集合中选取出所述与所述原始文本对应的新文本。

可选的，所述计算所述待选新文本集合中的每个新文本与所述原始文本的相似度，包括：

获取所述每个新文本的文本信息特征向量以及所述每个新文本的特征表征向量；

获取所述原始文本的文本信息特征向量以及所述原始文本的特征表征向量；

根据所述每个新文本的文本信息特征向量、所述每个新文本的特征表征向量、所述原始文本的文本信息特征向量和所述原始文本的特征表征向量，计算所述每个新文本与所述原始文本的相似度。

可选的，获取特征表征向量包括：

获取文本信息特征向量、新词汇特征向量以及替换词特征向量；

根据所述文本信息特征向量、新词汇特征向量以及替换词特征向量，生成所述特征表征向量。

可选的，所述根据所述每个新文本与所述原始文本的相似度，从所述待选新文本集合中选取出所述与所述原始文本对应的新文本，包括：

按照相似度对所述待选新文本进行降序排列，选取排序靠前的预设数量个新文本，和/或，排序靠后的预设数量个新文本为与所述原始文本对应的新文本。

一种错别词识别装置，包括：

获取单元，用于获取待识别的原始文本中的原始字子串，所述原始字子串是由所述原始文本中连续的字组合生成的；

确定单元，用于根据所述原始字子串，确定与所述原始文本对应的新增多字词；

识别单元，用于基于所述新增多字词，识别所述原始文本中的错别词。

可选的，所述确定单元，包括：

新字子串获取单元，用于获取与所述原始字子串对应的新字子串，所述新字子串与所述原始字子串的长度和无调拼音相同；

新句子获取单元，用于采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子；

多字词获取单元，用于获取所述与原始文本对应的新句子的多字词；

新增多字词确定单元，用于从所述与原始文本对应的新句子的多字词中确定新增多字词。

可选的，所述新句子获取单元，包括：

待选新句子获取单元，用于采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的待选新句子；

新句子选取单元，用于从所述待选新句子中选取出所述与所述原始文本对应的新句子。

可选的，所述新增多字词确定单元，包括：

词频获取单元，用于获取所述与原始文本对应的新句子的多字词中每个多字词在所述原始文本中出现的词频；

新增多字词选取单元，用于按照词频对所述与原始文本对应的新句子的多字词进行降序排列，选取排序靠前的预设数量个多字词为所述新增多字词。

可选的，所述识别单元，包括：

目标新句子选取单元，用于从所述与所述原始文本对应的新句子中选取出目标新句子，所述目标新句子为包含所述新增多字词的新句子；

替换词获取单元，用于基于所述目标新句子，获取与所述原始文本对应的替换词；

错别词确定单元，用于确定所述原始文本中与所述替换词对应的字子串为所述原始文本中的错别词。

可选的，所述替换词获取单元，包括：

新文本获取单元，用于采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，获取与所述原始文本对应的新文本；

新文本新增多字词获取单元，用于获取所述与所述原始文本对应的新文本中的新增多字词；

替换词确定单元，用于根据所述与所述原始文本对应的新文本中的新增多字词，确定与所述原始文本对应的替换词。

可选的，所述新文本获取单元，包括：

待选新文本集合生成单元，用于采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，生成待选新文本集合；

相似度计算单元，用于计算所述待选新文本集合中的每个新文本与所述原始文本的相似度；

新文本选取单元，用于根据所述每个新文本与所述原始文本的相似度，从所述待选新文本集合中选取出所述与所述原始文本对应的新文本。

可选的，所述相似度计算单元，包括：

获取单元，用于获取所述每个新文本的文本信息特征向量以及所述每个新文本的特征表征向量；以及，获取所述原始文本的文本信息特征向量以及所述原始文本的特征表征向量；

计算单元，用于根据所述每个新文本的文本信息特征向量、所述每个新文本的特征表征向量、所述原始文本的文本信息特征向量和所述原始文本的特征表征向量，计算所述每个新文本与所述原始文本的相似度。

可选的，获取单元具体用于：

可选的，所述新文本选取单元，具体用于：

一种错别词识别***，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的错别词识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的错别词识别方法的各个步骤。

借由上述技术方案，本申请公开了一种错别词识别方法、相关设备及可读存储介质，待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字，在本申请中，通过获取原始文本中的出现连续的字组合生成原始字子串，并根据原始字子串，获取与原始文本对应的新增多字词，通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字，该某几个连续的字则有可能是原始文本中的错别词。因此，基于本申请的方案，可以实现对文本中的错别词的识别。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的一种错别词识别方法的流程示意图；

图2为本申请实施例公开的一种获取与原始字子串对应的新字子串的方法示意图；

图3为本申请实施例公开的一种得到每个原始句子对应的至少一个新句子的示意图；

图4为本申请实施例公开的一种错别词识别装置结构示意图；

图5为本申请实施例公开的一种错别词识别***的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了引用和清楚起见，首先对本申请实施例中使用的技术名词的说明、总结如下：

字：指单字和单字词；

多字词：指2字及2字以上的词；

字子串：连续不成词的字符串，可以是1个字、2个及以上的字组成；

拼音子串：字子串的单字对用的无调拼音形成的子串序列；

错别词：任意一个文本中出现的错别词或敏感词，特指2字及以上的连续字组成；

通用词汇词典：2字及以上的通用词汇形成的词典；

业务词汇词典：2字及以上的特定领域的词汇形成的词典；

停用词词典：2字及以上的通用词资源；

汉字-拼音资源：实现一个汉字查到对应的拼音或无调拼音；

拼音-汉字资源：实现一个拼音/无调拼音查到所有对应的汉字；

无调拼音：没有声调的拼音；

多字词词典：2字及以上的词汇形成的词典，如下表所示：

雪人战
	雪人堡垒
冰棍球
	…

错别词映射资源：指错别词和实际表达意思的词汇建立关系的资源。如下表所示：

错别词	正确词
		学人站	雪人战
学人包磊	雪人堡垒
		柄棍楸	冰棍球
…	…

接下来通过以下实施例对本申请公开的错别词识别方法进行详细介绍。

请参阅附图1，图1为本申请实施例公开的一种错别词识别方法的流程示意图，该方法包括如下步骤：

S101：获取待识别的原始文本中的原始字子串。

在本申请中，所述原始字子串是由所述原始文本中连续的字组合生成的。获取原始文本中的原始字子串的方式可以有多种，比如，对于待识别的原始文本的原始字子串已经预先生成的情况，可以直接获取其原始字子串，对于待识别的原始文本的原始字子串暂未生成的情况，可以通过生成其原始字子串的方式获取其原始字子串。

S102：根据所述原始字子串，确定与所述原始文本对应的新增多字词。

在本申请中，对于每一原始字子串而言，基于该原始字子串确定的新增多字词是该原始字子串在所述原始文本中相应位置的原始句子中没有的多字词。需要说明的是，本申请中可以根据所述原始字子串，确定出与原始字子串对应的所有多字词，并将这些多字词与原始文本中该原始字子串所处原始句子的多字词进行比较，确定这些多字词中有但是该原始句子中没有的多字词作为与原始文本对应的新增多字词。或者，也可以从这些多字词中有但是该原始句子中没有的多字词中进一步筛选出满足一定条件的多字词作为与原始文本对应的新增多字词，对此，本申请不进行任何限定。

S103：基于所述新增多字词，识别所述原始文本中的错别词。

在本申请中，可以确定所述原始文本中与所述新增多字词对应的字子串为原始文本中的错别词。也可以从所述原始文本中与所述新增多字词对应的字子串中进一步筛选出满足一定条件的字子串为原始文本中的错别词，对此，本申请不进行任何限定。

本实施例中公开了一种错别词识别方法，待识别的原始文本可能由于某个字或某几个字书写错误导致该原始文本中出现连续的字，在本申请中，通过获取原始文本中的出现连续的字组合生成原始字子串，并根据原始字子串，获取与原始文本对应的新增多字词，通过新增多字词可以确定出原始文本中对应新增多字词的某几个连续的字，该某几个连续的字则有可能是原始文本中的错别词。因此，基于本申请的方案，可以实现对文本中的错别词的识别。

作为一种可实施方式，在本申请中，公开了一种生成原始文本的原始字子串的方法，具体可以包括如下步骤：

S201：对所述原始文本中的每个原始句子进行分词，得到所述每个原始句子的字词序列。

在本申请中，可以采用预先训练好的分词模型对原始文本中的每个原始句子进行分词，得到每个原始句子的字词序列。

为便于理解，假设一个原始文本中一个原始段落的其中一个原始句子是：“小明和囡囡正在打学人站，影响小花的柄棍楸进程和阿郎的学人包磊建设。”针对此原始句子，对该原始句子进行分词处理，得到该原始句子的字词序列具体为“小明\和\囡囡\正\在\打\学\人\站\，\影响\小花\的\柄\棍\楸\进程 \和\阿郎\的\学\人\包\磊\建设\。\”。

需要说明的是，基于所有原始句子的字词序列，可以得到原始文本的字词序列。

为便于理解，预设一个原始文本，按照段落结构分为m个原始段落 P₁，P₂，...，P_i，...，P_m，对于一个原始段落P_i，通过分句符号“，；。！？”分句，可以得到n_i个原始句子对原始句子S_ij进行分词处理，得到字和多字词。这些字和多字词即为原始文本的字词序列/>在本申请中，i表示段落索引，取值为大于等于1小于等于m的整数，j表示句子索引，取值为大于等于1小于等于n_i的整数，t表示字词索引，取值为大于等于1小于等于P_ij的整数。

S202：将所述每个原始句子的字词序列与预设多字词词典进行匹配，确定所述每个原始句子的字词序列中的字。

在本申请中，预设多字词词典具体可以为通用词汇词典、业务词汇词典和停用词词典等中的任意一种和多种。通过将每个原始句子的字词序列与预设多字词词典进行匹配，确定匹配成功的为每个原始句子的多字词，未匹配成功的为每个原始句子的字词序列中的字。需要说明的是，所有原始句子的多字词构成原始文本的多字词。

为便于理解，将上述原始句子的字词序列“小明\和\囡囡\正\在\打\学\人\站\，\影响\小花\的\柄\棍\楸\进程\和\阿郎\的\学\人\包\磊\建设\。\”与预设多字词词典匹配之后，可以确定该原始句子的字词序列中的字为“和”、“正”、“在”、“打”、“学”、“人”、“站”、“的”、“柄”、“棍”、“楸”、“和”、“的”、“学”、“人”、“包”、“磊”。

S203：将所述每个原始句子的字词序列中连续的字进行合并，得到所述原始文本中的原始字子串。

在本申请中，通过将每个原始句子的字词序列中连续的字进行合并，可以得到每个原始句子中的原始字子串，为便于理解，将上述原始句子的字词序列中连续的字“正\在\打\学\人\站\”“的\柄\棍\楸\”“的\学\人\包\磊\”分别进行合并，可得到上述原始文本中的原始字子串：“和”、“正在打学人站”、“的柄棍楸”、“和”、“的学人包磊”、“。”。

需要说明的是，基于所有原始句子中的原始字子串，可以得到所述原始文本中的原始字子串。在本申请中，可以使用SC_ijk表示原始文本中的原始字子串，其中，k表示原始字子串索引，取值为大于等于1小于等于q_ij的整数。

作为一种可实施方式，在本申请中，公开了一种根据原始字子串，确定与原始文本对应的新增多字词的实现方式，该方式可以包括如下步骤：

S301：获取与所述原始字子串对应的新字子串。

在本申请中，所述新字子串与所述原始字子串的长度和无调拼音相同。作为一种可实施方式，本申请公开了一种获取与原始字子串对应的新字子串的实现方式，该方式可以包括如下步骤：

S401：获取与所述原始字子串对应的无调拼音序列。

在本申请中，可以对原始字子串以字为单位进行拆分，得到原始字子串的字序列，并对子序列中的每个字，通过查找汉字-拼音资源，得到每个字的无调拼音，进而得到与原始字子串对应的无调拼音序列。

S402：获取与所述无调拼音序列对应的字网络。

在本申请中，可以对无调拼音序列中的每个拼音，通过查找拼音-汉字资源，得到每个拼音对应的所有的字，并以拼音序列为时序将所有拼音对应的所有的字组成字网络。

S403：按照所述无调拼音序列的时序关系，从所述字网络的每个时刻提取一个字进行组合，得到与所述原始字子串对应的新字子串。

在本申请中，可以按照无调拼音序列的时序关系，从所述字网络的每个时刻提取一个字进行组合，得到与所述原始字子串对应的一个新字子串，经过多次组合，即可得到与原始字子串对应的全部新字子串。

为便于理解，请参阅附图2，图2为本申请实施例公开的一种获取与原始字子串对应的新字子串的方法示意图，图2中，以上述原始字子串“的柄棍楸”为例进行了说明，由图2中可以看出，可以将字子串“的柄棍楸”拆分为字序列“的-柄-棍-楸”；通过查找汉字-拼音资源，得到字序列的拼音序列“de/di-bing-gun-qiu”；查写拼音-汉字资源，得到每个拼音的所有字，生成字网络。通过将字网络每列任一字和下一时刻任一字连接，即可生成字子串“的柄棍楸”的新字子串，具体如图2所示的“的冰棍球、的饼辊裘、的丙滚邱…”。

基于以上，可以得到每个原始字子串对应的新字子串。

S302：采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子。

在本申请中，可以对每个原始句子中的至少一个原始字子串，采用该至少一个原始字子串对应的新字子串进行替换，得到每个原始句子对应的至少一个新句子。

为便于理解，请参阅附图3，图3为本申请实施例公开的一种得到每个原始句子对应的至少一个新句子的示意图，图3中，以原始字子串“和”、“正在打学人站，”、“的柄棍楸”、“和”、“学人包磊”、“。”为例进行了说明，由图3中可以看出，原始字子串“和”对应的新字子串为“和”、“喝”、“何”…，原始字子串“正在打学人站，”对应的新字子串为“正在打雪人战，”、“正在打学仁战，”、“整在打学人站”…，原始字子串“的柄棍楸”对应的新字子串为“的冰棍球”、“的病棍邱”、“的彬辊裘”…，原始字子串“和”对应的新字子串为“和”、“喝”、“何”…，原始字子串“的学人包磊”对应的新字子串为“的雪人堡垒”、“的学仁堡垒”、“的学人报累”……。

通过将原始字子串“正在打学人站，”对应的新字子串“正在打雪人战，”替换“正在打学人站，”，将原始字子串“的柄棍楸”对应的新字子串“的冰棍球”替换“的柄棍楸”，以及将原始字子串“的学人包磊”对应的新字子串“的雪人堡垒”替换“的学人包磊”，即可得到如图3中的新句子“小明和囡囡正在打雪人战，影响小花的冰棍球进程和阿郎的雪人堡垒建设。”同理，可以通过将不同的新字子串替换对应的原始字子串，即可生成其他新句子，比如图3中的新句子“小明喝囡囡正在打学仁战，影响小花的病棍邱进程和阿郎的学仁堡垒建设。”

需要说明的是，本申请中，可以基于每个原始句子对应的至少一个新句子得到与原始文本对应的新句子，作为一种可实施方式，本申请中公开了采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子的一种具体实现方式，即将所有原始句子对应的全部新句子作为与原始文本对应的新句子。

但是，每个原始句子可以有多个对应的新句子，如果将所有原始句子对应的全部新句子作为与原始文本对应的新句子，会有大量与原始文本对应的新句子，而对大量与原始文本对应的新句子进行处理，会影响错别词识别效率。

为了提升错别词识别效率，作为又一种可实施方式，本申请中公开了采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子的一种具体实现方式，即将采用所述新字子串替换所述原始字子串，得到的所有原始句子对应的全部新句子作为待选新句子，从待选新句子中选取出与原始文本对应的新句子。

需要说明的是，由图3可以看出，每个原始句子对应的多个新句子中，有一些新句子中的新字子串中都不包含多字词，这些新句子对错别词的纠错并没有帮助，而新句子中的新字子串中有包含多字词的，既能用于错别词的识别又能用于错别词的纠错并没有多字词。

因此，作为一种可实施方式，本申请中公开了从所述待选新句子中选取出与所述原始文本对应的新句子的实现方法，具体可以如下：从待选新句子中选取出新字子串中有包含多字词的新句子作为与原始文本对应的新句子。

作为又一种可实施方式，在本申请中，还给出了一种从待选新句子中选取出与原始文本对应的新句子的实现方法，具体可以如下：获取每个原始句子的置信度得分以及与该原始句子对应的每个新句子的置信度得分，与该原始句子对应的全部新句子中选取置信度得分大于该原始句子的置信度得分的新句子，作为与原始文本对应的新句子。需要说明的是，在本申请中，可以使用预先训练好的语言模型计算每个原始句子的置信度得分以及与该原始句子对应的每个新句子的置信度得分。

S303：获取所述与原始文本对应的新句子的多字词。

在本申请中，可以对每个与原始文本对应的新句子进行分词，得到所述每个与原始文本对应的新句子的字词序列，并将每个与原始文本对应的新句子的字词序列与预设多字词词典进行匹配，并确定每个与原始文本对应的新句子中与预设多字词词典匹配，且，与其对应的原始句子的多字词中没有的多字词，为每个与原始文本对应的新句子的多字词，所有与原始文本对应的新句子的多字词构成与原始文本对应的新句子的多字词。预设多字词词典可以为通用词汇词典、业务词汇词典和停用词词典等中的一种或多种。

S304：从所述与原始文本对应的新句子的多字词中确定所述新增多字词。

在本申请中，还给出了一种从与原始文本对应的新句子的多字词中选取出新增多字词的实现方法，该方法可以为：获取与原始文本对应的新句子的多字词中每个多字词在所述原始文本中出现的词频，按照词频对所述与原始文本对应的新句子的多字词进行降序排列，选取排序靠前的预设数量个多字词为所述新增多字词；

或者，获取所述与原始文本对应的新句子的多字词中每个多字词在所述与原始文本对应的新句子中出现的词频；按照词频对所述与原始文本对应的新句子的多字词进行降序排列，选取排序靠前的预设数量个多字词为所述新增多字词；

需要说明的是，在本申请中，预设数量可以视具体情况而定，比如K个， K的取值为大于等于1小于等于与原始文本对应的新句子的多字词的总数的整数。或者可以根据与原始文本对应的新句子的多字词的总数的百分比确定预设数量，比如，与原始文本对应的新句子的多字词的总数*20％的值为预设数量。

作为一种可实施方式，在本申请中，公开了一种基于新增多字词识别原始文本中的错别词的实现方式，该方式可包括如下步骤：

S501：从所述与所述原始文本对应的新句子中选取出目标新句子。

在本申请中，所述目标新句子为与所述原始文本对应的新句子中包含所述新增多字词的新句子。

S502：基于所述目标新句子，获取与所述原始文本对应的替换词。

在本申请中，与原始文本对应的替换词具体可以为全部新增多字词或部分新增多字词。具体实现方式将通过后续实施例详细说明，此处不再详述。

S503：确定所述原始文本中与所述替换词对应的字子串为所述原始文本中的错别词。

在本申请中，在确定所述原始文本中的错别词之后，还可以进一步将原始文本中的错别词替换为对应的替换词，以实现对错别词的纠正，另外，还可以进一步将错别词在原始文章中的位置信息及对应的纠正结果进行展示，以便辅助人工校验。

作为一种可实施方式，在本申请中，公开了一种基于目标新句子获取与原始文本对应的替换词的实现方式，该方式可以包括如下步骤：

S601：采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，获取与所述原始文本对应的新文本。

在本申请中，可以对原始文本中的至少一个原始句子，采用该至少一个原始句子对应的目标新句子进行替换，得到所有新文本。作为一种可实施方式，可以将上述所有新文本确定为与原始文本对应的新文本。但是，如果对上述所有新文本进行后续处理，会导致错别词识别效率较低，而且，上述新文本中可能有些新文本中包含新的错别词，对原始文本的错别词识别会造成不好的影响，因此，本申请中还可以从所有新文本选取出部分新文本，基于部分新文本对原始文本的错别词进行识别，能够提升错别词识别效率和准确率。

作为一种可实施方式，本申请提供了另一种能够提升错别词识别效率和准确率的获取与原始文本对应的新文本的实现方式，具体可以为：采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，生成待选新文本集合，计算所述待选新文本集合中的每个新文本与所述原始文本的相似度，根据所述每个新文本与所述原始文本的相似度，从所述待选新文本集合中选取出所述与所述原始文本对应的新文本。

需要说明的是，采用至少一个目标新句子替换对应的原始句子，即可得到新段落。采用至少一个新段落替换对应的原始段落，即可得到新文本。多次不同的替换即可得到待选新文本集合。

另外，在本申请中，可以按照相似度对所述待选新文本进行降序排列，选取排序靠前的预设数量个新文本，和/或，排序靠后的预设数量个新文本为与所述原始文本对应的新文本。

S602：获取所述与所述原始文本对应的新文本中的新增多字词。

在本申请中，所述与所述原始文本对应的新文本中的新增多字词即为与所述原始文本对应的新文本中的目标新句子包含的新增多字词。

S603：根据所述与所述原始文本对应的新文本中的新增多字词，确定与所述原始文本对应的替换词。

在本申请中，可以确定与所述原始文本对应的新文本中的全部新增多字词为与所述原始文本对应的替换词。也可从与所述原始文本对应的新文本中的全部新增多字词中选取出预设数量个新增多字词作为所述与所述原始文本对应的替换词。对此本申请不进行任何限定。

在本申请中，还给出了一种从与所述原始文本对应的新文本中的全部新增多字词中选取出与所述原始文本对应的替换词的实现方法，该方法可以为：获取与所述原始文本对应的新文本中的新增多字词中每个新增多字词在所述与所述原始文本对应的新文本或所述原始文本中出现的词频；按照词频对与所述原始文本对应的新文本中的新增多字词中每个新增多字词进行降序排列，选取排序靠前的预设数量个新增多字词为所述与所述原始文本对应的替换词；

需要说明的是，在本申请中，预设数量可以视具体情况而定，比如K个， K的取值为大于等于1小于等于与所述原始文本对应的新文本中的新增多字词的总数的整数。或者可以根据与所述原始文本对应的新文本中的新增多字词的总数的百分比确定预设数量，比如，与所述原始文本对应的新文本中的新增多字词的总数*20％的值为预设数量。

作为又一种可实施方式，在本申请中，公开了一种计算待选新文本集合中的每个新文本与原始文本的相似度的实现方式，该方式可以包括如下步骤：

S701：获取所述每个新文本的文本信息特征向量以及所述每个新文本的特征表征向量。

在本申请中，每个新文本的文本信息特征向量可以由每个新文本的词向量、每个新文本的段落向量和每个新文本的篇章向量组成。另外，可以先获取每个新文本的文本信息特征向量、每个新文本的新词汇特征向量和每个新文本的替换词特征向量，再根据每个新文本的文本信息特征向量、每个新文本的新词汇特征向量和每个新文本的替换词特征向量生成每个新文本的特征表征向量。

S702：获取所述原始文本的文本信息特征向量以及所述原始文本的特征表征向量。

在本申请中，在本申请中，原始文本的文本信息特征向量可以由原始文本的词向量、原始文本的段落向量和原始文本的篇章向量组成。另外，可以先获取原始文本的文本信息特征向量、原始文本的新词汇特征向量和原始文本的替换词特征向量，再根据原始文本的文本信息特征向量、原始文本的新词汇特征向量和原始文本的替换词特征向量生成原始文本的特征表征向量。

S703：根据所述每个新文本的文本信息特征向量、所述每个新文本的特征表征向量、所述原始文本的文本信息特征向量和所述原始文本的特征表征向量，计算所述每个新文本与所述原始文本的相似度。

作为一种可实施方式，可以计算所述每个新文本的文本信息特征向量与所述原始文本的文本信息特征向量的第一相似度，和，所述每个新文本的特征表征向量与所述原始文本的特征表征向量的第二相似度，然后根据所述第一相似度与所述第二相似度，计算所述每个新文本与所述原始文本的相似度。

作为一种可实施方式，可以累加第一相似度与第二相似度，计算得到每个新文本与原始文本的相似度。

为便于理解，在本申请中，假设每个新文本用“样本”表示，原始文本用“检材”表示，并且，用表示每个新文本的文本信息特征向量与所述原始文本的文本信息特征向量的第一相似度，用/>表示每个新文本的特征表征向量与所述原始文本的特征表征向量的第二相似度，则可以基于公式/>计算所述每个新文本与所述原始文本的相似度。

在本申请中，原始文本与新文本可统称为文本，基于此，本申请公开了一种文本的特征表征向量的生成方式，该方式可以包含如下步骤：

S801：获取文本的文本信息特征向量。

在本申请中，文本信息特征向量可以由文本的词向量、文本的段落向量和文本的篇章向量组成。

S802：获取文本的新词汇特征向量。

在本申请中，文本的新词汇特征向量的维度与新增多字词的个数相同，如果一个文本中包含一个新增多字词，则文本的新词汇特征向量中对应该新增多字词的维度取值为1，如果不包含该新增多字词，则其文本的新词汇特征向量中对应该新增多字词的维度取值为0，另外，也可通过反向法表示，即如果一个文本中包含一个新增多字词，则文本的新词汇特征向量中对应该新增多字词的维度取值为0，如果不包含该新增多字词，则文本的新词汇特征向量中对应该新增多字词的维度取值为1。

为便于理解，假设新增多字词的个数为2个，分别为“冰棍球、雪人堡垒”，假设采用反向法表示，一个文本中如果包含“冰棍球”，则其新词汇特征向量中对应“冰棍球”的维度取值为0，如果不包含“冰棍球”，则其新词汇特征向量中对应“冰棍球”的维度取值为1，如果包含“雪人堡垒”，则其新词汇特征向量中对应“雪人堡垒”的维度取值为0，如果不包含“雪人堡垒”，则其新词汇特征向量中对应“雪人堡垒”的维度取值为1。假设有一个文本中只包含“冰棍球”，则该篇新文本的新词汇特征向量为[0,1]，有一个文本中只包含“雪人堡垒”，则该篇新文本的新词汇特征向量为[1,0]，有一个文本中包含“冰棍球”和“雪人堡垒”，则该篇新文本的新词汇特征向量为[0,0]。

S803：获取文本的替换词特征向量。

该步骤的具体实现将通过后续实施例详细说明，此处不再详述。

S804：将文本的新词汇特征向量以及文本的替换词特征向量进行拼接，生成文本的生成式特征向量。

为便于理解，本申请中给出如下示例进行说明：

假设一个文本的新词汇特征向量为[0,1]，该文本的替换词特征向量为[2/5,7/10,24/25,1/10,2/5,0,0,3/10,2/5,1/20,1/7,3/20,3/7]，则该文本的生成式特征向量为[1,0,2/5,7/10,24/25,1/10,2/5,0,0,3/10,2/5,1/20,1/7,3/20,3/7]。

S805：将文本的文本信息特征向量与文本的生成式特征向量进行积成，生成文本的特征表征向量。

假设文本的文本信息特征向量表示为Vec_text，文本的生成式特征向量表示为Vec_k-hot+Vec_3+2*p，其中，Vec_k-hot表示为文本的新词汇特征向量，Vec_3+2*p表示为文本的替换词特征向量，则文本的特征表征向量为Vec_text ^T×(Vec_k-hot+Vec_3+2*p)。

作为一种可实施方式，在本申请中，公开了文本的文本信息特征向量生成方式，具体如下：

S901：获取文本的词向量、文本的段落向量和文本的篇章向量；

在本申请中，可通过预先训练好的词向量模型，提取文本中每个词汇的词向量，把文本中每个词汇的词向量合并(使用求平均或者求最大值等)，得到文本的词向量。可通过预先训练好的段落向量模型，提取文本中每个段落的段落向量，把文本中每个段落的段落向量合并(使用求平均或者求最大值等)，得到文本的段落向量。还可通过预先训练好的篇章向量模型，提取文本的篇章向量。

S902：把文本的词向量、文本的段落向量和文本的篇章向量拼接，形成文本的文本信息特征向量。

在本申请中，假设文本的词向量的维度为300，文本的段落向量为100，文本的篇章向量的维度为150，则文本的文本信息特征向量的维度为 300+100+150＝550。

作为一种可实施方式，在本申请中，还公开了文本的替换词特征向量的生成方式，具体如下：

S1001：确定文本中的替换词，替换词为新增多字词中的词汇。

在本申请中，可以文本中的每个词汇与新增多字词进行匹配，匹配成功的词汇即为替换词。

S1002：获取文本信息，文本信息包括文本包含的段落数量，每个段落包含的句子数量，每个句子包含的词汇数量。

S1003：根据文本中的替换词以及文本信息，生成文本的篇章级别替换词特征向量和文本的段落级别替换词特征向量。

在本步骤中，可以根据文本中的替换词以及文本信息，统计文本中有替换词的段落数量，文本中有替换词的句子数量，文本中替换词的数量，根据文本中有替换词的段落数量，文本中有替换词的句子数量，文本中替换词的数量，得到文本的篇章级别替换词特征向量。

作为一种可实施方式，文本的篇章级别替换词特征向量可以由文本中没有替换词的段落比例、文本中没有替换词的句子比例和文本中非替换词的词汇比例组成，其中；

文本中没有替换词的段落比例＝1-文本中有替换词的段落数量/文本包含的段落数量；

该文本中没有替换词的句子比例＝1-该文本中有替换词的句子数量/该文本包含的总句子数量，该文本中有替换词的句子数量为该文本中每个段落中有替换词的句子数量的和，该文本中包含的总句子数为该文本中每个段落包含的句子数量的和。

该文本中非替换词的词汇比例＝1-该文本中替换词的数量/该文本包含的总词汇数量，该文本中有替换词的词汇数量为该文本中每个段落的替换词的数量的和，每个段落的替换词的数量为该段落中每个句子的替换词的数量的和，该文本中包含的总词汇数量为该文本中每个段落包含的词汇数量的和，每个段落包含的词汇数量为该段落中每个句子的词汇数量的和。

在本申请中，可以将文本中没有替换词的段落比例、文本中没有替换词的句子比例和文本中非替换词的词汇比例组合，生成文本的篇章级别替换词特征向量。

在本步骤中，可以根据文本中的替换词以及文本信息，统计每个段落中有替换词的句子数量和每个段落中替换词的数量，根据每个段落中有替换词的句子数量和每个段落中替换词的数量，得到文本的段落级别替换词特征向量。

作为一种可实施方式，文本的段落级别替换词特征向量可以由该段落中没有替换词的句子比例、该段落中非替换词的比例组成，其中，

一个段落没有替换词的句子比例＝1-该段落中有替换词的句子数量/该段落中的句子总数量；

一个段落非替换词的比例＝1-该段落中替换词的数量/该段落中的词汇总数量，该段落中的词汇总数量为该段落中每个句子包含的词汇数量的和。

在本申请中，可以将一个段落没有替换词的句子比例和一个段落非替换词的比例组合，得到一个段落的替换词特征向量，并将所有段落的替换词特征向量进行拼接，得到文本的段落级别替换词特征向量。

为便于理解，本申请中给出如下示例进行说明：

假设一个文本有5个段落，每个段落有10句，总词汇数量为500个，假如有3个段落中有替换词，15个句子中有替换词，一共有20个替换词。

则，该文本中没有替换词的段落比例＝1-3/5＝2/5；

该文本中没有替换词的句子比例＝1-15/50＝7/10；

该文本中非替换词的词汇比例＝＝1-20/500＝24/25；

则该文本的篇章级别替换词特征向量为[2/5,7/10,24/25]。

假设该文本中5个段落的替换词特征向量分别为[1/10,2/5]，[0,0]， [3/10,2/5]，[1/20,1/7]，[3/20,3/7]，将上述5个段落的替换词特征向量进行拼接，即可得到该文本的段落级别替换词特征向量：[1/10,2/5,0,0,3/10,2/5,1/20,1/7,3/20,3/7]。

S1004：将文本的篇章级别替换词特征向量与文本的段落级别替换词特征向量进行拼接，得到文本的替换词特征向量。

为便于理解，本申请中给出如下示例进行说明：

将步S1003中文本的篇章级别替换词特征向量与文本的段落级别替换词特征向量进行拼接，即可得到文本的替换词特征向量：[2/5,7/10,24/25,1/10,2/5,0,0,3/10,2/5,1/20,1/7,3/20,3/7]。

下面对本申请实施例公开的错别词识别装置进行描述，下文描述的错别词识别装置与上文描述的错别词识别方法可相互对应参照。

参照图4，图4为本申请实施例公开的一种错别词识别装置结构示意图。如图4所示，该错别词识别装置可以包括：

获取单元11，用于获取待识别的原始文本中的原始字子串，所述原始字子串是由所述原始文本中连续的字组合生成的；

确定单元12，用于根据所述原始字子串，确定与所述原始文本对应的新增多字词；

识别单元13，用于基于所述新增多字词，识别所述原始文本中的错别词。

可选的，所述确定单元，包括：

多字词获取单元，用于获取所述与所述原始文本对应的新句子的多字词；

新增多字词确定单元，用于从所述与所述原始文本对应的新句子的多字词中确定新增多字词。

可选的，所述新句子获取单元，包括：

可选的，所述新增多字词确定单元，包括：

可选的，所述识别单元，包括：

可选的，所述替换词获取单元，包括：

可选的，所述新文本获取单元，包括：

可选的，所述相似度计算单元，包括：

可选的，获取单元具体用于：

可选的，所述新文本选取单元，具体用于：

图5为本申请实施例公开的一种错别词识别***的硬件结构框图，参照图5，错别词识别***的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器 (non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

基于所述新增多字词，识别所述原始文本中的错别词。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

基于所述新增多字词，识别所述原始文本中的错别词。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种错别词识别方法，其特征在于，包括：

基于所述新增多字词，识别所述原始文本中的错别词；

其中，所述根据所述原始字子串，确定与所述原始文本对应的新增多字词，包括：

获取所述与原始文本对应的新句子的多字词；

2.根据权利要求1所述的方法，其特征在于，所述采用所述新字子串替换所述原始字子串，得到与所述原始文本对应的新句子，包括：

从所述待选新句子中选取出与所述原始文本对应的新句子。

3.根据权利要求1所述的方法，其特征在于，所述从所述与原始文本对应的新句子的多字词中确定新增多字词，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述新增多字词，识别所述原始文本中的错别词，包括：

基于所述目标新句子，获取与所述原始文本对应的替换词；

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标新句子，获取与所述原始文本对应的替换词，包括：

获取所述与所述原始文本对应的新文本中的新增多字词；

6.根据权利要求5所述的方法，其特征在于，所述采用所述目标新句子替换所述原始文本中与所述目标新句子对应的原始句子，获取与所述原始文本对应的新文本，包括：

7.根据权利要求6所述的方法，其特征在于，所述计算所述待选新文本集合中的每个新文本与所述原始文本的相似度，包括：

8.根据权利要求7所述的方法，其特征在于，获取特征表征向量包括：

9.根据权利要求6所述的方法，其特征在于，所述根据所述每个新文本与所述原始文本的相似度，从所述待选新文本集合中选取出所述与所述原始文本对应的新文本，包括：

10.一种错别词识别装置，其特征在于，包括：

识别单元，用于基于所述新增多字词，识别所述原始文本中的错别词；

其中，所述确定单元，包括：

11.一种错别词识别***，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至9中任一项所述的错别词识别方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至9中任一项所述的错别词识别方法的各个步骤。