CN111651978A

CN111651978A - 基于实体的词法检查方法与装置和计算机设备及存储介质

Info

Publication number: CN111651978A
Application number: CN202010677539.6A
Authority: CN
Inventors: 李勇斌; 郑海涛; 冯勤宇; 赵从志; 卢炳干
Original assignee: Shenzhen Giiso Information Technology Co ltd
Current assignee: Shenzhen Giiso Information Technology Co ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-09-11

Abstract

本发明公开了一种基于实体的词法检查方法与装置和计算机设备及存储介质，方法包括：计算相邻三个词的词级N‑Gram得分，和相邻三个字的字级N‑Gram得分；通过计算词级N‑Gram得分与字级N‑Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文，替换之前的错别字词；对组合成的新文本进行分词、分字，使用词级N‑Gram计算词级的句子困惑度，使用字级N‑Gram计算字级的句子困惑度，计算句子的字词平均困惑度；对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

Description

基于实体的词法检查方法与装置和计算机设备及存储介质

技术领域

本发明涉及统计自然语言处理技术领域，尤其涉及一种基于实体的词法检查方法与装置和计算机设备及存储介质。

背景技术

在当前技术中，词法检测通常是基于编辑距离、语言模型、依存句法去校验同音错别字实现，限于语言模型和同音词库的质量的影响，当前的语法检测算法只限于查找同音错词，并且会出现大量误判的情况。因为当前的语法检测主要是基于单个字的识别，所以也会导致在连续两个字出错的情况下，使用编辑距离进行词替换时，往往是按照词序来进行纠错，这样就导致了纠错的成功率大大降低。

公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

基于上述原因，本发明提出了一种基于实体的词法检查方法与装置和计算机设备及存储介质。

发明内容

为了满足上述要求，本发明第一个目的在于提供一种基于实体的词法检查方法。

本发明的第二个目的在于提供一种基于实体的词法检查装置。

本发明的第三个目的在于提供一种基于实体的词法检查计算机设备。

本发明的第四个目的在于提供一种非临时性计算机可读存储介质，其上存储有计算机程序。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种基于实体的词法检查方法，包括以下步骤：

对待处理的文本分别进行分词、分字；

计算相邻三个词的词级N-Gram得分，和相邻三个字的字级N-Gram得分；

通过计算词级N-Gram得分与字级N-Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；

统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文，替换之前的错别字词；

对组合成的新文本进行分词、分字，使用词级N-Gram计算词级的句子困惑度，使用字级N-Gram计算字级的句子困惑度，计算句子的字词平均困惑度；

对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

在一个可能的实施方式中，所述对待处理的文本分别进行分词、分字的步骤之前还包括，训练一套N-Gram语言模型，分别训练基于海量数据的字级语言模型和词级语言模型。

在一个可能的实施方式中，所述将值大于阈值的字词初步识别为错误字词的步骤之前还包括，排除词库中的词和自定义的混淆词典中的词。

在一个可能的实施方式中，所述创建错误字词集的步骤之后还包括实体词筛选处理。

在一个可能的实施方式中，所述实体词筛选处理包括，判断错误字词集中的词是否有实体，如果有实体则将该词从错误字词集中剔除掉。

在一个可能的实施方式中，所述实体词筛选处理利用BILSTM+CRF的模型结构实现。

在一个可能的实施方式中，所述统计所述错误字词并创建候选集合的步骤包括，根据错误字词的同音同调、同音异调、混淆拼音、混淆词典、形近词进行候选集合的创建。

在另一方面，本发明提出了一种基于实体的词法检查装置，包括以下单元：

文本处理单元，用于对待处理的文本分别进行分词、分字；

得分计算单元，用于计算相邻三个词的词级N-Gram得分，和相邻三个字的字级N-Gram得分；

字词识别单元，用于通过计算词级N-Gram得分与字级N-Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；

统计字词单元，用于统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文中，替换之前的错别字词；

困惑度计算单元，用于对组合成的新文本进行分词、分字，使用词级N-Gram计算词级的句子困惑度，使用字级N-Gram计算字级的句子困惑度，计算句子的字词平均困惑度；

候选词获取单元，用于对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

在第三方面，本发明提出了一种基于实体的词法检查计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的词法检查程序，所述词法检查程序被所述处理器执行时实现如上述任一项所述的基于实体的词法检查方法。

在第四方面，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的基于实体的词法检查方法。

相比于现有技术，本发明的有益效果在于：采用本方案的词法检查方法，采用的N-Gram语言模型分别训练基于字、词的语言模型，这样在检错的时候，就会既考虑到字级的错误，也会识别到词级错误。在词库方面，另外添加了混淆拼音、同形字，使词库相对于当前技术的词库更为全面且丰富，可以使查错的覆盖率更广。

同时，本方案针对当前存在的连续连个单字的错误，使用当前的编辑距离的替换方法会出现歧义的情况(该情况下分别两两组合进行替换，时间复杂度又特别高)，添加了包括候选字词的候选词集，根据拼音来匹配候选词集里边的单词，直接进行词的替换。

本方案引入了实体识别和一些其他的判断，实现了在一个句子中有多个错别字并纠正第一个错别字的时候，不会使得后边的错别字会对语言模型的判断产生干扰，直接提高了识别准确率。

综上所述，基于上述原因，本方案在实际操作中，经过大量实验数据证明，可以识别出常见的字词错误，识别召回率达到0.608，准确率达到0.869，误判率在0.0024，与当前技术的数据对比获得了巨大的提升。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1是本发明一种基于实体的词法检查方法的实施例一流程示意图；

图2是BILSET+CRF模型结构图；

图3是本发明一种基于实体的词法检查方法的实施例二的检错步骤流程示意图；

图4是本发明一种基于实体的词法检查方法的实施例三的纠错步骤流程示意图；

图5是本发明一种基于实体的词法检查装置的具体实施例的框架示意图；

图6是本发明一种基于实体的词法检查计算机设备的具体实施例的框架示意图；

图7是本发明一种非临时性计算机可读存储介质的具体实施例的框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如图1所示的方法流程图，为本发明实施例一，一种基于实体的词法检查方法包括以下步骤：

步骤S1，对待处理的文本分别进行分词、分字；

步骤S2，计算相邻三个词的词级N-Gram得分，和相邻三个字的字级N-Gram得分；

步骤S3，通过计算词级N-Gram得分与字级N-Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；

步骤S4，统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文，替换之前的错别字词；

步骤S5,对组合成的新文本进行分词、分字，使用词级N-Gram计算词级的句子困惑度，使用字级N-Gram计算字级的句子困惑度，计算句子的字词平均困惑度；

步骤S6，对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

其中，语言困惑度为在自然语言处理中，对于一个语言模型，一般用困惑度来衡量他的好坏，困惑度越低，说明语言模型面对一句话干到困惑的程度越低，语言模型就越好。其基本思想是给测试集的句子富裕较高概率值的语言模型较好，当语言模型训练完之后，测试集中句子都是正常的，那么训练好的的模型就是在测试集上的效果越好。

作为较佳的实施方式，所述步骤S1之前还包括，训练一套N-Gram语言模型，分别训练基于海量数据的字级语言模型和词级语言模型，其中，本步骤旨在检错的时候，既考虑到字级的错误，也会识别到词级错误。

在其他可选的实施方式中，选用的语音模型还可以为除上述n元语法模型(N-Gram)之外的模型。其中，语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。语言模型是一个单纯的、统一的、抽象的形式***，语言客观事实经过语言模型的描述，比较适用于电子计算机进行自动处理，因为语言模型对于自然语言的信息处理具有重大的意义。

而本方案中的N-Gram是一种语言模型，该模型基于这样一种假设，第N个词的出现只与前面N+1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元Bi-Gram和三元Tri-Gram。

作为较佳的实施方式，步骤S3中所述将值大于阈值的字词初步识别为错误字词的处理之前还包括，排除词库中的词和自定义的混淆词典中的词。

作为较佳的实施方式，步骤S3中所述创建错误字词集的步骤之后还包括实体词筛选处理；

作为可选的实施方式，所述实体词筛选处理包括，判断错误字词集中的词是否有实体，如果有实体则将该词从错误字词集中剔除掉。

作为可选的实施方式，所述实体词筛选处理利用BILSTM+CRF的模型结构(如图2所示的BILSET+CRF模型结构图)实现。

具体地，训练的实体类型包含了人名、地名、机构名等，识别出文本中的实体后，判断错误词集合里边的词是否有实体，如果有实体则将该词从错别字词中剔除掉，这样进一步减小模型误判率。

其中，图2所示的，LSTM长短记忆循环神经网络：LSTM长短记忆循环神经网络是一种改进之后的循环神经网络，可以解决RNN循环神经网络无法处理长距离的依赖问题。

CRF条件随机场：是一种判别式概率模型，是随机场的一种。条件随机场是条件概率分布P(X|Y)，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔科夫随机场，也就是说CRF的特点是假设输出随机变量构成马尔科夫随机场。条件随机场可被看作是最大熵马尔科夫模型在标注问题上的推广。而马尔可夫模型是一种统计模型，广泛应用在语音识别，词性自动标注，音字转换，概率文法等各个自然语言处理等应用领域。经过长期发展，尤其是在语音识别中的成功应用，使它成为一种通用的统计工具。本方案中可使用该模型对错误字词进行统计。

作为较佳的实施方式，步骤S4中统计所述错误字词并创建候选集合的步骤包括，根据错误字词的同音同调、同音异调、混淆拼音、混淆词典、形近词进行候选集合的创建。由于在步骤S1-S3的检错中已经发现了一些错别字词的集合，纠错(可理解为步骤S4-S6)的第一步就是先要找出这些错别字词的候选集合，以便于后续操作识别。

作为本发明的实施例二，如图3所示，为本方案的检错步骤具体流程示意图；

本发明的词法检查方法主要分为两个模块，分别是检错和纠错，其中，检错包括上述步骤S1-S3。

步骤S1-S3的流程具体描述：进行词法检测，首先需要先找出文本中存在的错别字，分别使用词级和字级的n-gram对文本进行检错。对文本分别进行分词，分字(在分词、分字之前还可包括图示的分句)，然后分别计算相邻三个词的词级n-gram得分，和相邻三个字的字级n-gram得分，然后通过计算平均绝对离差，将值大于阈值的字词初步识别为错误字词，并排除词库里边的词和自定义的混淆词典词，从而获得一个筛选后的错误字词集合。

作为本方案的实施例三，如图4所示，本方案的纠错步骤：通过实施例二的检错已经发现了一些错别字词的集合，因此，纠错的第一步就是先要找出这些错别字词的候选集合，其中候选集合包括错别字词的同音同调、同音异调、混淆拼音、混淆词典、形近词等候选字词。

找出候选字词集合后，将这些候选字词分别按顺序带入到原文中，替换掉之前的错别字词，然后对组合成的新的文本进行分词、分字，再分别使用词级的n-gram计算词级的句子困惑度，用字级n-gram计算字级的句子困惑度，然后计算句子的字词平均困惑度。对每个候选词计算困惑度后，再与之前原句子的困惑度做对比，选取最小困惑度的候选词作为最佳候选字词(即纠正的词)。

作为本发明的实施例四，如图5所示，本发明还提出了一种基于实体的词法检查装置，包括以下单元；

文本处理单元100，用于对待处理的文本分别进行分词、分字；

得分计算单元200，用于计算相邻三个词的词级N-Gram得分，和相邻三个字的字级N-Gram得分；

字词识别单元300，用于通过计算词级N-Gram得分与字级N-Gram得分的平均绝对离差，将值大于阈值的字词初步识别为错误字词，创建错误字词集；

统计字词单元400，用于统计所述错误字词并创建候选集合，将所述候选集合中的候选字词分别按照顺序代入原文中，替换之前的错别字词；

困惑度计算单元500，用于对组合成的新文本进行分词、分字，使用词级N-Gram计算词级的句子困惑度，使用字级N-Gram计算字级的句子困惑度，计算句子的字词平均困惑度；

候选词获取单元600，用于对所述候选集合的候选字词计算困惑度之后，与原句子的困惑度进行比较，选取最小困惑度的候选字词作为最佳候选字词。

其中，文本处理单元100、得分计算单元200、字词识别单元300、统计字词单元400、困惑度计算单元500、候选词获取单元600分别与上述步骤S1、S2、S3、S4、S5、S6相对应，本装置旨在利用六个单元实施步骤S1-S6，以使本装置具有上述方法的有益效果。

上述单元可包括但不限于操作界面、提示界面、操作软件的实施方式。

作为本发明的实施例五，如图6所示，本发明提出了一种基于实体的词法检查计算机设备，包括存储器700、处理器800及存储在所述存储器700上并可在所述处理器800上运行的词法检查程序，所述词法检查程序被所述处理器800执行时实现如上述任一项所述的基于实体的词法检查方法。

其中，所述存储器700可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。

作为本发明的实施例六，如图7所示，本发明提出了一种非临时性计算机可读存储介质，其上存储有计算机程序900，该程序被处理器执行时实现如上述任一项所述的基于实体的词法检查方法。

所述存储介质可以是前述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于实体的词法检查装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如一个以上单元或组件可以结合或者可以集成到另一个计算机设备，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的计算机设备实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如一个以上单元或组件可以结合或者可以集成到另一个计算机设备，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例计算机设备中的单元可以根据实际需要进行合并、划分和删减。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于实体的词法检查方法，其特征在于，包括以下步骤：

对待处理的文本分别进行分词、分字；

2.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述对待处理的文本分别进行分词、分字的步骤之前还包括，训练一套N-Gram语言模型，分别训练基于海量数据的字级语言模型和词级语言模型。

3.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述将值大于阈值的字词初步识别为错误字词的步骤之前还包括，排除词库中的词和自定义的混淆词典中的词。

4.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述创建错误字词集的步骤之后还包括实体词筛选处理。

5.根据权利要求4所述的基于实体的词法检查方法，其特征在于，所述实体词筛选处理包括，判断错误字词集中的词是否有实体，如果有实体则将该词从错误字词集中剔除掉。

6.根据权利要求5所述的基于实体的词法检查方法，其特征在于，所述实体词筛选处理利用BILSTM+CRF的模型结构实现。

7.根据权利要求1所述的基于实体的词法检查方法，其特征在于，所述统计所述错误字词并创建候选集合的步骤包括，根据错误字词的同音同调、同音异调、混淆拼音、混淆词典、形近词进行候选集合的创建。

8.一种基于实体的词法检查装置，其特征在于，包括以下单元：

文本处理单元，用于对待处理的文本分别进行分词、分字；

9.一种基于实体的词法检查计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的词法检查程序，所述词法检查程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于实体的词法检查方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于实体的词法检查方法。