CN115759052A

CN115759052A - 一种文本纠错方法、装置、电子设备及存储介质

Info

Publication number: CN115759052A
Application number: CN202211480080.6A
Authority: CN
Inventors: 陈焕坤; 王伟; 张黔; 曾志贤
Original assignee: China Resources Digital Technology Co Ltd
Current assignee: China Resources Digital Technology Co Ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-03-07

Abstract

本申请实施例涉及文本纠错技术领域，提供一种文本纠错方法、装置、电子设备及存储介质,方法包括通过将获取的待处理原始文本序列输入文本纠错模型，在模型的编码模块得到原始文本向量序列，根据原始文本向量序列在模型的检测模块得到专有词汇预测信息，根据预测信息确定原始文本各个字符对应的长度向量，根据长度向量得到更新文本向量序列，根据更新文本向量序列在输出模块中得到多个候选输出文本，根据预设专有词汇集确定每个输出文本的得分，根据得分确定目标输出文本。通过对专有词汇检测得到专有词汇预测信息，根据预测信息以及根据专有词汇集评分得到纠正结果，提高在具有专有词汇的文本中的纠错准确率和文本纠错在专业场景中的适应能力。

Description

一种文本纠错方法、装置、电子设备及存储介质

技术领域

本申请涉及文本纠错技术领域，尤其涉及一种文本纠错方法、装置、电子设备及存储介质。

背景技术

目前，文本纠错技术发展迅速，在技术路线上实现了从统计学到深度学习的跨越。但大多的文本纠错技术使用的纠错模型面向通用文本进行设计，对于特定的专业场景，使用面同通用文本的纠错模型进行文本纠错，会出现较多的纠错结果错误的情况，对于含有专有名词的文本的纠错能力不足，会出现纠错失败或者矫枉过正的情况。

发明内容

本申请实施例的主要目的在于提出一种文本纠错方法、装置、电子设备及存储介质，旨在提高文本纠错能力。

为实现上述目的，本申请实施例的第一方面提出了一种文本纠错方法，所述方法包括以下步骤：

获取待处理的原始文本序列，和文本纠错模型，其中，所述文本纠错模型包括编码模块、检测模块和输出模块；

将所述原始文本序列输入所述编码模块，得到所述编码模块输出的原始文本向量序列；

将所述原始文本向量序列输入所述检测模块，得到所述检测模块输出的专有词汇预测信息，其中，所述专有词汇预测信息用于指示所述原始文本序列包括的专有词汇；

根据所述专有词汇预测信息确定所述原始文本序列中各个字符对应的长度向量；

根据各个字符对应的长度向量更新所述原始文本向量序列，得到更新文本向量序列；

将所述更新文本向量序列输入所述输出模块，得到所述输出模块输出的多个候选输出文本；

针对每个所述候选输出文本，根据预设的专有词汇集确定所述候选输出文本的得分；

将得分最高的所述候选输出文本确定为目标输出文本。

在本申请一些可能的实施例，所述将所述原始文本向量序列输入所述检测模块，得到所述检测模块输出的专有词汇预测信息，包括：

针对所述原始文本序列中的每个字符执行以下处理：确定所述字符对应的左联通向量和右联通向量，对所述左联通向量和所述右联通向量分别进行逻辑回归处理，得到所述字符对应的左联通分数和右联通分数，根据所述左联通分数和所述右联通分数，确定所述字符与后一个字符的联通分数和所述字符的独立分数，其中，所述联通分数表示所述字符与所述后一个字符属于同一专有词汇的概率，所述独立分数表示所述字符与所述后一个字符不属于同一专有词汇的概率：

根据所述原始文本序列中各个字符对应的所述联通分数和所述独立分数，确定专有词汇预测信息。

在本申请一些可能的实施例，所述根据所述原始文本向量序列中各个字符对应的所述联通分数和所述独立分数，确定专有词汇预测信息，通过以下公式计算得到：

其中，所述s‘_i表示所述原始文本序列中第i个字符的独立分数；

所述g_i，i+1表示所述原始文本序列中第i+1个字符和所述第i个字符的联通分数；

所述i+n表示所述原始文本序列中的第i+n个字符的位置，所述n大于或等于1。

在本申请一些可能的实施例，所述根据所述左联通分数和所述右联通分数确定所述联通分数，通过以下计算公式实现：

其中，所述g_i，i+1表示所述原始文本序列中第i个字符；

所述

表示所述原始文本序列中第i+1个字符的左联通分数；

所述

表示所述第i个字符的右联通分数。

在本申请一些可能的实施例，所述独立分数通过以下公式计算得到：

其中，所述s′_i表示所述原始文本序列中第i个字符的独立分数；

所述

表示所述原始文本序列中第i个字符的左联通分数；

所述

表示所述原始文本序列中第i个字符的右联通分数。

在本申请一些可能的实施例，所述将所述更新文本向量序列输入所述输出模块，得到所述输出模块输出的多个候选输出文本，包括：

针对所述原始文本序列中的每个字符，根据所述字符在所述更新文本向量序列中的文本向量进行候选字符概率计算，确定每个候选字符的候选概率，根据所有所述候选概率确定多个目标候选字符；

根据每个所述字符对应的所述多个目标候选字符得到所述多个候选输出文本；

所述针对每个所述候选输出文本，根据预设的专有词汇集合确定所述候选输出文本的得分，通过以下公式计算得到：

其中，所述score表示所述候选输出文本的得分；

所述

表示所述原始文本序列中第i个字符为所述多个候选字符中第k个候选字符的候选概率，所述k大于或等于1；

所述Q表示所述专有词汇集合；

所述P表示与所述专有词汇集合相反的集合；

所述α表示预设的专有词汇权重参数。

在本申请一些可能的实施例，所述根据所述专有词汇预测信息确定所述原始文本序列中各个字符对应的长度向量，包括：

根据所述专有词汇预测信息和所述原始文本序列得到字符联通序列；

根据所述字符联通序列确定所述专有词汇长度信息；

将所述专有词汇长度信息输入所述编码模块进行长度映射处理，得到各个字符对应的长度向量；

所述根据各个字符对应的长度向量更新所述原始文本向量序列，得到更新文本向量序列，包括：

将原始文本向量序列中的每个原始文本向量根据对应的所述长度向量进行编码向量更新，得到更新文本向量。

为实现上述目的，本申请实施例的第二方面提出了一种文本纠错装置，所述装置包括：

获取模块，用于获取待处理的原始文本序列和文本纠错模型，其中，所述文本纠错模型包括编码模块、检测模块和输出模块；

所述编码模块，用于接收所述原始文本序列，并根据所述原始文本序列输出原始文本向量序列；

所述检测模块，用于接收所述原始文本向量序列，并根据所述原始文本向量序列输出的专有词汇预测信息，其中，所述专有词汇预测信息用于指示所述原始文本序列包括的专有词汇；

长度向量获取模块，用于根据所述专有词汇预测信息确定所述原始文本序列中各个字符对应的长度向量；

文本向量序列更新模块，用于根据所述专有词汇预测信息确定所述原始文本序列中各个字符对应的长度向量；

所述输出模块，用于接收所述更新文本向量序列，并根据所述更新文本向量序列输出的多个候选输出文本；

输出得分确定模块，用于针对每个所述候选输出文本，根据预设的专有词汇集确定所述候选输出文本的得分；

目标输出文本确定模块，用于将得分最高的所述候选输出文本确定为目标输出文本。为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的一种文本纠错方法、装置、电子设备及存储介质,其通过将获取的待处理原始文本序列输入文本纠错模型，在模型的编码模块得到原始文本向量序列，根据原始文本向量序列在模型的检测模块得到专有词汇预测信息，根据预测信息确定原始文本各个字符对应的长度向量，根据长度向量得到更新文本向量序列，根据更新文本向量序列在输出模块中得到多个候选输出文本，根据预设专有词汇集确定每个输出文本的得分，根据得分确定目标输出文本。通过进行专有词汇检测得到专有词汇预测信息，根据专有词汇预测信息以及根据专有词汇集评分得到纠正结果，提高在具有专有词汇的文本中的纠错准确率，提高文本纠错在专业场景中的适应能力。

附图说明

图1是本申请实施例提供的一种文本纠错方法的步骤示意图；

图2是本申请实施例提供的获取专有词汇预测信息的步骤示意图；

图3是本申请实施例提供的获取更新文本向量序列的步骤示意图；

图4是本申请实施例提供的获取输出文本的步骤示意图；

图5是本申请实施例提供的一种文本纠错装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

信息抽取(Information Extraction)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。

目前，文本纠错技术发展迅速，在技术路线上实现了从统计学到深度学习的跨越。但大多的文本纠错技术使用的纠错模型面向通用文本进行设计，对于特定的专业场景，使用面同通用文本的纠错模型进行文本纠错，会出现较多的纠错结果错误的情况，对于含有专有名词的文本的纠错能力不足，会出现纠错失败或者矫枉过正的情况基于此，本申请实施例提供了一种文本纠错方法、装置、电子设备及存储介质，旨在提高文本纠错能力。

本申请实施例提供的文本纠错方法、装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的文本纠错方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的一种文本纠错方法，涉及人工智能技术领域。本申请实施例提供的一种文本纠错方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现一种文本纠错方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

请参见图1，图1为本申请实施例提供的一种文本纠错方法的步骤示意图，图1中的方法可以包括但不限于包括步骤S101至步骤S108。

步骤S101，获取待处理的原始文本序列和文本纠错模型。

应该理解的是，这里的文本纠错模型包括编码模块、检测模块和输出模块，编码模块可以将原始文本序列转换为特征向量，检测模块可以根据编码模块转换的特征向量检测原始文本序列中存在的特定文本，输出模块根据特征向量以及特定文本检测结果输出纠错后的文本序列。

应该理解的是，这里的文本纠错模型是指已训练完毕的文本纠错模型，其初始模型可以是多样的，示例性的，如bert模型、erine模型、transformer模型等其他相关模型，本领域技术人员可以根据实际情况选择具体的初始模型进行训练的得到本申请中的文本纠错模型，本申请对此不作限定。

应该理解的是，这里的获取文本的方式是多样的，示例性的，如获取实时输入的文本，再如调取已有文本并从已有文本中提取，本领域技术人员可以根据实际情况选择具体的获取待处理的原始文本序列，本申请对此不作限定。

应该理解的是，这里的原始文本序列是原始文本进行分字后得到的序列，并不是指多个完整文本组成的序列。

步骤S102，将原始文本序列输入编码模块，得到编码模块输出的原始文本向量序列。

具体地，将原始文本序列中的每个字符根据编码模块中预设的词表转换为对应的独热编码，根据这些独热编码将字符映射至特征空间，得到每个字符对应的文本向量，以此得到原始文本向量序列。

步骤S103，将原始文本向量序列输入检测模块，得到检测模块输出的专有词汇预测信息。

应该理解的是，这里的专有词汇预测信息用于指示原始文本序列包括的专有词汇，是一种指示信息的总称，其具体指示关于专有词汇的信息是多样的，示例性的，如指示原始文本序列中存在专有词汇的数量，再如，指示专有词汇在原始文本序列中的位置等，本申请对此不作限定。

应该理解的是，这里的专有词汇预测信息关于预测的专有词汇的数量和类型是多样的，取决于文本纠错模型中的专有词汇集，示例性的，如专有词汇集Q只收录了医疗方面的专有词汇，未收录物理方面的专有词汇，在“A和B这两种疾病都可以使用这个机器辅助治疗，这个机器利用C效应产生中和A和B在人体身上产生的代谢紊乱”，A、B为医疗方面的专有词汇，C为物理方面的专有词汇，而使用专有词汇集Q训练的文本纠错模型是无法得到C这个专有词汇的专有词汇预测信息。

在本申请一些可能的实施例，专有词汇预测信息包括原始文本序列中专有词汇的各个字符间的联通信息。

步骤S104，根据专有词汇预测信息确定原始文本序列中各个字符对应的长度向量。

应该理解的是，这里的长度向量指的是专有词汇长度信息对应的向量，这里的长度信息是根据步骤S103中得到的专有词汇的各个字符间的联通信息得到的专有词汇的长度信息。

具体地，根据专有词汇的各个字符间的联通信息获取专有词汇的长度信息，在文本纠错模型中将每个长度信息根据映射为专有词汇对应的长度向量。

步骤S105，根据各个字符对应的长度向量更新原始文本向量序列，得到更新文本向量序列。

应该理解的是，这里的更新文本向量序列指的是根据专有词汇的长度向量对每个字符的文本向量进行更新，得到每个字符的更新文本向量。

应该理解的是，这里的更新的方式是多样的，示例性的，如根据重要程度对每个长度向量进行加权，将加权的长度向量加至每个字符的文本向量，再如选择加入专有词汇重要性评分，将预测的专有词汇中最重要的专有词汇的长度信息向量更新至文本向量中，本申请对此不作限定。

步骤S106，将更新文本向量序列输入输出模块，得到输出模块输出的多个候选输出文本。

具体地，根据更新文本向量序列中的每一个更新文本向量确定每个更新文本向量对应的目标候选字符，将每个更新文本向量所有的候选字符进行结合，得到多个候选输出文本。

应该理解的是，这里确定目标候选字符的方式是多样的，示例性的，如计算字符与候选字符间的空间距离，取最小空间距离对应的候选字符，本领域技术人员可以根据实际需要选择具体的方式确定目标候选字符，本申请对此不作限定。

在本申请一些可能的实施例，根据每个字符的文本向量计算候选字符的概率分布，根据概率分布选择每个字符对应的目标候选字符。

下面举例对步骤S106中确定文本的过程说明。

比如对“量自救缠”(量子纠缠)这个文本进行纠正，“量”对应的候选字符有“量、亮”、“自”对应的候选字符有“子”、“字”，“救”对应候选字符有“纠”、“就”，“缠”对应的候选字符有“缠”、“禅”，每个字符的候选字符中的一个进行结合得到一个候选输出文本，示例性的，如“量子纠缠”、“亮子纠缠”、“量字纠缠”、“亮子就禅”等。

在本申请一些可能的实施例，根据更新文本向量序列中的每一个更新文本向量确定每个更新文本向量对应的K个目标候选字符，根据原始文本序列的字符数量m得到K^m个候选输出文本，这里的K大于或等于1。

步骤S107，针对每个候选输出文本，根据预设的专有词汇集确定候选输出文本的得分。

应该理解的是，这里的得分用于评价模型输出的候选文本的纠错水平，得分越高表示候选文本越接近正确文本，这里的专有词汇集对候选文本得分进行加权，提高专有词汇和普通字符的区分度。

应该理解的是，这里的得分计算根据是多样的，示例性的，如以字符的相似度数值作为计算根据，利用相似度具体数值计算得分，本领域技术人员可以根据实际情况选择具体的得分计算根据，本申请对此不作限定。

在本申请一些可能的实施例，根据每个候选字符的概率和专有词汇集对于具体概率数值进行加权得到每个候选输出文本的得分。

步骤S108，将得分最高的候选输出文本确定为目标输出文本。

本申请实施例所示意的步骤S101至步骤S106，通过将获取的待处理原始文本序列输入文本纠错模型，在模型的编码模块得到原始文本向量序列，根据原始文本向量序列在模型的检测模块得到专有词汇预测信息，根据预测信息确定原始文本各个字符对应的长度向量，根据长度向量得到更新文本向量序列，根据更新文本向量序列在输出模块中得到多个候选输出文本，根据预设专有词汇集确定每个输出文本的得分，根据得分确定目标输出文本。通过进行专有词汇检测得到专有词汇预测信息，根据专有词汇预测信息以及根据专有词汇集评分得到纠正结果，提高在具有专有词汇文本中的纠错准确率，提高文本纠错在专业场景中的适应能力。

请参见图2，图2为本申请实施例提供的获取专有词汇预测信息的步骤示意图，在本申请一些可能的实施例，步骤S103包括但不仅限于以下子步骤。

步骤S201，针对原始文本序列中的每个字符执行以下处理：确定字符对应的左联通向量和右联通向量，对左联通向量和右联通向量分别进行逻辑回归处理，得到字符对应的左联通分数和右联通分数，根据左联通分数和右联通分数，确定字符与后一个字符的联通分数和字符的独立分数。

应该理解的是，这里的左联通向量和右联通向量获取的方式是多样的，示例性的，如循环神经网络(RNN)进行语义编码获得左联通向量和右联通向量，再如卷积神经网络(CNN)左联通向量和右联通向量，本领域技术人员可以根据实际情况选择具体的方式获取左联通向量和右联通向量，本申请对此不作限定。

在本申请一些可能的实施例，采用LSTM网络对每个字符对应的文本向量分别进行向左语义编码和向右语义编码，得到每个字符对应的左联通向量和右联通向量，其公式如下：

H^L＝LSTM_L(H)

H^R＝LSTM_R(H)

应该理解的是，这里的LSTM_L()表示左语义编码的LSTM网络，这里的LSTM_R()表示右语义编码的LSTM网络，这里的H表示原始文本向量序列，这里的H^L表示左联通向量序列，这里的H^R表示右联通向量序列。

应该理解的是，这里的逻辑回归处理是分别对左联通向量与文本向量、右联通向量与不同的文本向量进行逻辑回归，得到左联通分数和右联通分数，其公式如下：

应该理解的是，这里的

表示原始文本序列的第i个字符的左联通分数，这里的

表示原始文本序列的第i个字符的右联通分数，这里的

表示原始文本序列的第i个字符的左联通向量，这里的

表示原始文本序列的第i个字符的右联通向量，这里的h_i-1表示原始文本序列中第i-1个字符的文本向量，这里的h_i+1表示原始文本序列中第i+1个字符的文本向量，这里的LR()表示逻辑回归网络。

应该理解的是，这里的左联通分数表示原始文本序列中第i个字符与第i-1个字符的联通程度，这里的右联通分数表示原始文本序列中第i个字符与第i+1个字符的联通程度。

应该理解的是，这里的联通分数和独立分数用于确定原始文本序列中是否存在专有词汇，这里的联通分数表示字符与后一个字符属于同一专有词汇的概率，独立分数表示字符与后一个字符不属于同一专有词汇的概率。

应该理解的是，这里的联通分数获取方式为根据原始文本序列中第i个字符的右联通分数和第i+1个字符的左联通分数确定联通分数，其公式如下：

应该理解的是，这里的g_i，i+1表示原始文本序列中第i个字符和第i+1个字符的联通分数，这里的

表示原始文本序列中第i+1个字符的左联通分数，这里的

表示原始文本序列中第i个字符的右联通分数。

应该理解的是，这里的独立分数根据每个字符的左联通分数和右联通分数获取，其公式如下：

应该理解的是，这里的s′_i表示原始文本序列中第i个字符的独立分数，这里的

表示原始文本序列中第i个字符的左联通分数，这里的

表示原始文本序列中第i个字符的右联通分数。

步骤S202，根据原始文本向量序列中各个字符对应的联通分数和独立分数，确定专有词汇预测信息。

应该理解的是，这里的根据联通分数和独立分数确定专有词汇方式是多样的，示例性的，如将第i个字符和第i+1个字符的联通分数与第i个字符的独立分数进行比较，确定第i个字符和第i+1个字符是否属于同一专有词汇的联通，再如将联通分数与独立分数的差值与预设阈值进行比较，当小于阈值，则表示第i个字符和第i+1个字符的联通可能性与独立可能性区别较小，则确定第i个字符和第i+1个字符不属于同一专有词汇的，本领域技术人员可以根据实际情况选择具体的判断标准确定专有词汇预测信息。

在本申请一些可能的实施例，对原始文本序列中的第i个字符和第i+n个字符进行字符组合，判断第i个字符到第i+n个字符是否可以组成专有词汇，并输出表示第i个字符到第i+n个字符是否联通的专有词汇预测信息，根据所有的专有词汇预测信息确定整个原始文本序列中专有词汇的联通情况，具体由以下公式计算得到：

应该理解的是，这里的s′_i表示原始文本序列中第i个字符的独立分数，这里的g_i，i+1表示原始文本序列中第i+1个字符和所述第i个字符的联通分数，这里的i+n表示所述原始文本序列中的第i+n个字符的位置，n大于或等于1。

当联通分数之和加权值大于独立分数之和加权值，表示第i个字符到第i+n个字符为一个专有词汇，示例性的，在“量自救缠是存在的”(量子纠缠是存在的)这个原始文本序列中，比如对所有字符组合中，“量”到“救”这三个字符的字符组合，得到表示这三个字符两两之间联通的专有词汇预测信息，这个专有词汇预测信息表示这三个字符属于同一专有词汇，按照上述描述确定所有字符组合的专有词汇预测信息。

本申请实施例通过加入独立分数、联通分数对字符是否联通进行判断，加强了模型对于原始文本序列中的专有词汇的判断能力，提高模型对于具有专有词汇的文本的纠错准确率和模型专业场景文本纠错的适应能力。

请参见图3，图3为本申请实施例提供的获取更新文本向量序列的步骤示意图。在本申请一些可能的实施例，步骤S104包括但不仅限于以下子步骤。

步骤S301，根据专有词汇预测信息和原始文本序列得到字符联通序列。

应该理解的是，这里的字符联通序列中每一项表示第i个字符到第i+n个字符是否联通，字符联通序列的项数少于原始文本序列的项数。

在本申请一些实施例中，基于步骤S202中所说的实施例，根据每个字符组合对应的专有词汇预测信息得到一个子联通序列，将所有的子联通序列与原始文本序列进行对应并合并，按照原始文本序列中的字符得到字符联通序列。

示例性的，在“量自救缠是存在的”这个原始文本序列中第i个字符到第i+n个字符组合有多个，“量”到“救”这三个字符的字符组合可以得到[1,1]这个子联通序列，“救”到“存”这四个字符的字符组合可以得到[1,0,0]这个子联通序列，最后将所有的子联通序列与原始文本序列进行对应并进行合并，得到字符联通序列[1,1,1,0,0,0,0]，表示原始文本序列中第1个字符到第4个字符之间两两相互连通。

步骤S302，根据字符联通序列确定专有词汇长度信息。

应该理解的是，这里的确定是根据字符联通序列中两个字之前的联通关系确定专有词汇的长度，示例性的，如字符联通序列[1,1,1,0,0,0,0]表示专有词汇的长度是4个字符，再如字符联通序列[1,1,1,0,1,1,0]表示第一个专有词汇的长度是4个字符，第二个专有词汇的长度是3个字符。

步骤S303，将专有词汇长度信息输入编码模块进行长度映射处理，得到各个字符对应的长度向量。

在本申请一些可能的实施例，这里的编码模块是集成多种编码、映射功能的模块，在这个编码模块中，不仅可以对原始文本序列进行编码映射，还可以对专有词汇长度信息进行映射，得到长度向量。

应该理解的是，这里的编码模块除了可以对原始文本序列进行编码映射和对专有词汇长度信息进行映射，本领域技术人员还可以根据实际情况加入实现其他功能的编码映射以是文本纠错模型实现其他效果，本申请对此不作限定。

在本申请一些可能的实施例，步骤S105包括但不仅限于以下子步骤。

步骤S304，将原始文本向量序列中的每个原始文本向量根据对应的长度向量进行编码向量更新，得到更新文本向量。

在本申请一些可能的实施例，将原始长度信息向量加入至每个字符的文本向量，得到更新文本向量，具体由以下公式计算得到：

h′_i＝h_i+E_length(m_i)

应该理解的是，这里的h_i表示原始文本序列中第i个字符的文本向量，m_i表示原始文本序列中第i个字符所属专有词汇的长度信息，E_length(m_i)表示长度信息向量，h′_i表示原始文本序列中第i个字符的更新文本向量。

步骤S305，根据更新文本向量得到更新文本向量序列。

本申请实施例通过对文本向量加入长度向量形成更新文本向量，加入专有词汇长度特征，使得模型后续得到文本纠错结果偏向带有专有词汇。并且通过生成联通序列可以更简约表达原始文本序列中专有词汇的情况，节省模型后续计算资源。

请参见图4，图4为本申请实施例提供的获取输出文本的步骤示意图，在本申请一些可能的实施例，步骤S106包括但不仅限于以下子步骤。

步骤S401，针对原始文本向量序列中的每个字符，根据字符在更新文本向量序列中的文本向量进行候选字符概率计算，确定每个候选字符的候选概率，根据所有候选概率确定多个候选字符。

应该理解的是，这里的根据所有候选概率确定多个候选字符是根据每个字符对应的所有候选字符的概率分布进行确定，根据概率分布，将概率分布中概率最大的K个候选字符确定为目标候选字符。

步骤S402，根据每个字符对应的多个目标候选字符得到多个候选输出文本。

应该理解的是，这里的输出文本根据目标候选字符的随机组合得到，以步骤S106中的确定文本的说明过程为例，原始文本序列中的每个字符都有k个目标候选字符，每个字符都从对应的k个目标候选字符中随机选一个目标候选字符，将每个字符随机选择的目标候选字符根据原始文本序列中的文本格式组合得到候选输出文本。

基于步骤S402，在本申请一些可能的实施例，步骤S107通过以下公式计算得到输出文本得分：

应该理解的是，这里的score表示所述候选输出文本的得分，这里的

表示原始文本序列中第i个字符为多个目标候选字符中第k个目标候选字符的候选概率，k大于或等于1，这里的Q表示专有词汇集合，这里的P表示与专有词汇集合相反的集合，这里的α表示预设的专有词汇权重参数。

应该理解的是，这里的Q获取的方式是多样的，示例性的，如可以根据步骤S103中获取的专有词汇预测信息获取，再如可以根据步骤S105的更新文本向量序列获取，本领域技术人员可以根据实际情况从上述步骤中使用合适的方式获取集合信息以得到Q，本申请对此不作限定。

应该理解的是，这里的预设的专有词汇权重参数用于增大组成专有词汇的目标候选字符与其他目标候选字符间的区分度，其具体数值输多样的，本领域技术人员可以根据实际情况设置具体数值以放大组成专有词汇的目标候选字概率之和，本申请对此不作限定。

本申请实施例通过以概率分布对输出文本进行评分，并根据专有词汇表对评分结果进行加权，提高输出文本之间的差异性，使输出文本带有专有词汇判别属性，提高文本纠错准确率。

请参见图5，图5为本申请实施例提供的一种文本纠错装置的结构示意图，可以实现上述文本纠错方法，该装置500包括：

获取模块501，用于获取待处理的原始文本序列和文本纠错模型。

应该理解的是，这里的文本纠错模型包括编码模块502、检测模块503和输出模块506。

编码模块502，用于接收原始文本序列，并根据所述原始文本序列输出原始文本向量序列。

检测模块503，用于接收原始文本向量序列，并根据原始文本向量序列输出的专有词汇预测信息。

应该理解的是，这里的专有词汇预测信息用于指示原始文本序列包括的专有词汇。

长度向量获取模块504，用于根据专有词汇预测信息确定原始文本序列中各个字符对应的长度向量。

文本向量序列更新模块505，用于根据专有词汇预测信息确定原始文本序列中各个字符对应的长度向量。

输出模块506，用于接收更新文本向量序列，并根据更新文本向量序列输出的多个候选输出文本。

输出得分确定模块507，用于针对每个候选输出文本，根据预设的专有词汇集确定候选输出文本的得分；

目标输出文本确定模块508，用于将得分最高的所述输出文本确定为目标输出文本。

该文本纠错装置的具体实施方式与上述文本纠错方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述文本纠错方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参见图6，图6为本申请实施例提供的一种电子设备的结构示意图，电子设备600包括：

处理器601，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器602，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器602可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器602中，并由处理器601来调用执行本申请实施例的文本纠错方法；

输入/输出接口603，用于实现信息输入及输出；

通信接口604，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线605，在设备的各个组件(例如处理器601、存储器602、输入/输出接口603和通信接口604)之间传输信息；

其中处理器601、存储器602、输入/输出接口603和通信接口604通过总线605实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述文本纠错方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的一种文本纠错方法、装置、电子设备及存储介质，其通过将获取的待处理原始文本序列输入文本纠错模型，在模型的编码模块得到原始文本向量序列，根据原始文本向量序列在模型的检测模块得到专有词汇预测信息，根据预测信息确定原始文本各个字符对应的长度向量，根据长度向量得到更新文本向量序列，根据更新文本向量序列在输出模块中得到多个候选输出文本，根据预设专有词汇集确定每个输出文本的得分，根据得分确定目标输出文本。通过对专有词汇检测得到专有词汇预测信息，根据预测信息以及根据专有词汇集评分得到纠正结果，提高在具有专有词汇的文本中的纠错准确率和文本纠错在专业场景中的适应能力。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种文本纠错方法，其特征在于，所述方法包括以下步骤：

获取待处理的原始文本序列和文本纠错模型，其中，所述文本纠错模型包括编码模块、检测模块和输出模块；

将得分最高的所述候选输出文本确定为目标输出文本。

2.根据权利要求1所述的文本纠错方法，其特征在于，所述将所述原始文本向量序列输入所述检测模块，得到所述检测模块输出的专有词汇预测信息，包括：

针对所述原始文本序列中的每个字符执行以下处理：确定所述字符对应的左联通向量和右联通向量，对所述左联通向量和所述右联通向量分别进行逻辑回归处理，得到所述字符对应的左联通分数和右联通分数，根据所述左联通分数和所述右联通分数，确定所述字符与后一个字符的联通分数和所述字符的独立分数，其中，所述联通分数表示所述字符与所述后一个字符属于同一专有词汇的概率，所述独立分数表示所述字符与所述后一个字符不属于同一专有词汇的概率；

3.根据权利要求2所述的文本纠错方法，其特征在于，所述根据所述原始文本序列中各个字符对应的所述联通分数和所述独立分数，确定专有词汇预测信息，通过以下公式计算得到：