CN110457695B

CN110457695B - 一种在线文字纠错方法及***

Info

Publication number: CN110457695B
Application number: CN201910696146.7A
Authority: CN
Inventors: 张俊杰
Original assignee: Anhui Huolan Data Co ltd
Current assignee: Anhui Huolan Data Co ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2023-05-12
Anticipated expiration: 2039-07-30
Also published as: CN110457695A

Abstract

本发明公开了一种在线文字纠错方法及***，通过先将用户键入的字符识别为语句，根据语句中字符间的内聚性将字符串捆绑为语片，可以识别出语句中是否存在连续两个以上的字符无法捆绑为语片的情况，则出现错别字的可能性较高，由于在用户键入字符的过程中，常常会出现拼音输入选择错误导致的错别字，故本方法通过检索相同拼音的替代字符，对原字符中的错别字进行替换，由于用户键入字符的过程中，也常常会出现单个拼音键入错误导致的错别字，故本方法对各字符拼音中的任意一位进行模糊处理并进行模糊检索，寻找替代字符对错别字进行替换，可以有效地对用户键入的字符进行在线文字纠错。

Description

一种在线文字纠错方法及***

技术领域

本发明涉及文字处理领域，特别是指一种在线文字纠错方法及***。

背景技术

在用户输入文字的过程中，难免会出现错别字的情况，但用户自身往往难以发现输入错误，这就导致最终完成的文章存在错别字，影响其他人对文章的理解，或是出现影响个人和企业的形象问题；

现有的文字处理软件中，虽然存在疑似错别字提醒功能，但往往只是将用户键入的字符与常用字库进行比对，若用户键入的字符不属于常用字库，则对字符串进行标记，但这种方法既没有考虑到语句本身的结构和汉语的使用习惯，也不能进行自动纠错，其效果有限，因此需要一种在线文字纠错方法及***。

发明内容

有鉴于此，本发明的目的在于提出一种在线文字纠错方法及***，提高文字处理的准确性和效率。

基于上述目的本发明提供的一种在线文字纠错方法，本方法包括：

寻找用户键入的若干字符中的句末类标点符号，将相邻句末类标点符号之间的字符判断为语句；

对语句进行预处理，根据字符间的内聚性将字符串捆绑为语片；

若出现连续两个以上的字符无法捆绑为语片，结合内聚性和各字符的拼音在数据库中进行逐一检索，判断是否能找到相同拼音的替代字符，使连续字符能够捆绑为内聚性高的语片；

若能够找到，则使用数据库中替代字符对原字符进行替换，若不能找到，则对各字符拼音中的任意一位进行模糊处理，在数据库中进行逐一模糊检索，判断是否能找到相似拼音的替代字符，使连续字符能够捆绑为内聚性高的语片；

若能够找到，则使用数据库中替代字符对原字符进行替换，若不能找到，则对该连续字符进行标记。

优选地，出现连续两个以上的字符无法捆绑为语片时，提取该连续字符串的拼音，并在人名库中检索是否存在相同拼音的人名，若检索到相同拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名。

优选地，在人名库中检索是否存在相同拼音的人名时，若无法检索到相同拼音的人名，则对字符串拼音中的任意一位进行模糊处理，在人名库中进行模糊检索，若检索到相似拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名。

优选地，本方法还包括：

检索到语句中出现多个人名，且各人名间采用表示并列的字符时，根据姓名排序库中的排序对多个人名的顺序进行重新排序。

优选地，本方法还包括：

对原字符进行替换时，将原字符所在的字符串记录到错别字库中，作为错别字符串，若错别字库中已经存在该字符串，则记录重复次数；

当用户键入该错别字符串时，若该错别字符串在错别字库中的重复次数超过设定阈值，则自动对该错别字符串进行替换。

一种在线文字纠错***，包括：

数据库模块，存储有反应字词内聚性的常用句式集和常用词汇集；

语句判别模块，根据用户键入的若干字符中的句末类标点符号，对字符中的语句进行判别；

预处理模块，根据语句中字符间的内聚性将字符串捆绑为语片；

检索模块，在数据库中对连续两个以上的无法捆绑为语片的字符进行逐一检索和逐一模糊检索，判断是否能找到相同或相似拼音的替代字符，使连续字符能够捆绑为内聚性高的语片；

修正模块，可使用数据库中替代字符对原字符进行替换；

标记模块，可对字符和字符串进行标记。

优选地，数据库中还包括人名库，检索模块可根据人名库对字符串进行检索和模糊检索，检索相同拼音的人名；

修正模块可根据人名库对字符串进行修正。

优选地，***还包括排序模块，数据库中还包括姓名排序库，排序模块可根据姓名排序库中的排序对多个人名的顺序进行重新排序。

优选地，数据库中还包括错别字库，修正模块对原字符进行替换时，将原字符所在的字符串记录到错别字库中，作为错别字符串，若错别字库中已经存在该字符串，则记录重复次数；

当用户键入该错别字符串时，检索模块对错别字库进行检索，若该错别字符串在错别字库中的重复次数超过设定阈值，则修正模块自动对该错别字符串进行替换。

从上面所述可以看出，本发明提供的在线文字纠错方法及***，通过先将用户键入的字符识别为语句，根据语句中字符间的内聚性将字符串捆绑为语片，可以识别出语句中是否存在连续两个以上的字符无法捆绑为语片的情况，则出现错别字的可能性较高，由于在用户键入字符的过程中，常常会出现拼音输入选择错误导致的错别字，故本方法通过检索相同拼音的替代字符，对原字符中的错别字进行替换，由于用户键入字符的过程中，也常常会出现单个拼音键入错误导致的错别字，故本方法对各字符拼音中的任意一位进行模糊处理并进行模糊检索，寻找替代字符对错别字进行替换，可以有效地对用户键入的字符进行在线文字纠错。

附图说明

图1为本发明实施例的在线文字纠错方法流程示意图；

图2为本发明实施例的在线文字纠错***模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

一种在线文字纠错方法，包括以下步骤：

寻找用户键入的若干字符中的句末类标点符号，将相邻句末类标点符号之间的字符判断为语句，上述句末类标点符号，指句号、感叹号、问号等表示语句结束的标点符号。

对语句进行预处理，根据字符间的内聚性将字符串捆绑为语片，上述字符间的内聚性，指符号汉语使用习惯的常用句式和结构，如偏正短语、动补短语、介宾短语等；

若出现连续两个以上的字符无法捆绑为语片，结合内聚性和各字符的拼音在数据库中进行逐一检索，判断是否能找到相同拼音的替代字符，使连续字符能够捆绑为内聚性高的语片，一个语句中出现两个以上的字符无法捆绑为语片，则很有可能存在错别字的情况；

若能够找到，则使用数据库中替代字符对原字符进行替换，若不能找到，则对该连续字符进行标记，标记方式可采用下划线、标色等方式。

本方法通过先将用户键入的字符识别为语句，根据语句中字符间的内聚性将字符串捆绑为语片，可以识别出语句中是否存在连续两个以上的字符无法捆绑为语片的情况，则出现错别字的可能性较高，由于在用户键入字符的过程中，常常会出现拼音输入选择错误导致的错别字，故本方法通过检索相同拼音的替代字符，对原字符中的错别字进行替换，由于用户键入字符的过程中，也常常会出现单个拼音键入错误导致的错别字，故本方法对各字符拼音中的任意一位进行模糊处理并进行模糊检索，寻找替代字符对错别字进行替换，可以有效地对用户键入的字符进行在线文字纠错。

在本发明的实施例中，本方法进一步包括，出现连续两个以上的字符无法捆绑为语片时，提取该连续字符串的拼音，并在人名库中检索是否存在相同拼音的人名，若检索到相同拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名。

在输入字符的过程中，常常需要输入人名，而人名显然不属于汉语中的常用词汇，故出现连续字符无法绑定为语片的可能性较高，故本方法中通过在人名库中检索是否存在相同拼音的人名，判断该字符串是否属于人名。

在本发明的实施例中，本方法进一步包括，在人名库中检索是否存在相同拼音的人名时，若无法检索到相同拼音的人名，则对字符串拼音中的任意一位进行模糊处理，在人名库中进行模糊检索，若检索到相似拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名。

本方法在检索人名库时，同样采用模糊处理和模糊检索的方法，可以对拼音键入错误的人名进行在线修正。

在本发明的实施例中，本方法进一步包括，检索到语句中出现多个人名，且各人名间采用表示并列的字符时，根据姓名排序库中的排序对多个人名的顺序进行重新排序。

对于企业中的姓名键入来说，当出现多个姓名并列表示时，常常需要根据领导级别等顺序对姓名进行排序，则本方法可以自动修正错误的排序，上述表示并列的字符包括“顿号”、“和”“与”等字符。

在本发明的实施例中，本方法进一步包括，对原字符进行替换时，将原字符所在的字符串记录到错别字库中，作为错别字符串，若错别字库中已经存在该字符串，则记录重复次数；

由于个人的输入习惯，常常出现重复的错误，本方法通过记录错别字符串的重复次数，当再次键入超过设定阈值的错别字符串时，自动进行修正替换，提高本发明的处理效率，且通过关联用户的输入习惯，提高准确率。

本发明还提供一种在线文字纠错***，包括数据库模块，存储有反应字词内聚性的常用句式集和常用词汇集；

修正模块，可使用数据库中替代字符对原字符进行替换；

标记模块，可对字符和字符串进行标记。

在本发明的实施例中，数据库中还包括人名库，检索模块可根据人名库对字符串进行检索和模糊检索，检索相同拼音的人名；

修正模块可根据人名库对字符串进行修正。

在本发明的实施例中，***还包括排序模块，数据库中还包括姓名排序库，排序模块可根据姓名排序库中的排序对多个人名的顺序进行重新排序。

在本发明的实施例中，数据库中还包括错别字库，修正模块对原字符进行替换时，将原字符所在的字符串记录到错别字库中，作为错别字符串，若错别字库中已经存在该字符串，则记录重复次数；

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在线文字纠错方法，其特征在于，所述方法包括：

若能够找到，则使用数据库中替代字符对原字符进行替换，若不能找到，则对该连续字符进行标记；

出现连续两个以上的字符无法捆绑为语片时，提取该连续字符串的拼音，并在人名库中检索是否存在相同拼音的人名，若检索到相同拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名。

2.根据权利要求1所述的在线文字纠错方法，其特征在于，在人名库中检索是否存在相同拼音的人名时，若无法检索到相同拼音的人名，则对字符串拼音中的任意一位进行模糊处理，在人名库中进行模糊检索，若检索到相似拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名。

3.根据权利要求1或2所述的在线文字纠错方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的在线文字纠错方法，其特征在于，所述方法还包括：

5.一种在线文字纠错***，其特征在于，包括：

修正模块，可使用数据库中替代字符对原字符进行替换，出现连续两个以上的字符无法捆绑为语片时，提取该连续字符串的拼音，并在人名库中检索是否存在相同拼音的人名，若检索到相同拼音的人名，将该人名与连续字符串进行比对，若比对相同则不对该连续字符进行标记，若比对不同则将该连续字符串修正为人名；

标记模块，可对字符和字符串进行标记。

6.根据权利要求5所述的在线文字纠错***，其特征在于，所述数据库中还包括人名库，所述检索模块可根据人名库对字符串进行检索和模糊检索，检索相同拼音的人名；

所述修正模块可根据人名库对字符串进行修正。

7.根据权利要求6所述的在线文字纠错***，其特征在于，所述***还包括排序模块，所述数据库中还包括姓名排序库，所述排序模块可根据姓名排序库中的排序对多个人名的顺序进行重新排序。

8.根据权利要求5所述的在线文字纠错***，其特征在于，所述数据库中还包括错别字库，所述修正模块对原字符进行替换时，将原字符所在的字符串记录到错别字库中，作为错别字符串，若错别字库中已经存在该字符串，则记录重复次数；

当用户键入该错别字符串时，所述检索模块对错别字库进行检索，若该错别字符串在错别字库中的重复次数超过设定阈值，则修正模块自动对该错别字符串进行替换。