WO2022267353A1

WO2022267353A1 - 文本纠错的方法、装置、电子设备及存储介质

Info

Publication number: WO2022267353A1
Application number: PCT/CN2021/134638
Authority: WO
Inventors: 詹明捷; 梁鼎
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2021-06-25
Filing date: 2021-11-30
Publication date: 2022-12-29
Also published as: CN113343678A

Abstract

一种文本纠错的方法、装置、电子设备及存储介质。根据该方法的一个示例，在获取待纠错文本内容（S101）后，基于经训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；其中，文本纠错网络为基于错误语句样本训练得到的，错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的（S102）。

Description

文本纠错的方法、装置、电子设备及存储介质

相关申请的交叉引用

本公开要求于2021年6月25日提交的、申请号为202110711749.7、发明名称为“一种文本纠错的方法、装置、电子设备及存储介质”的中国专利申请的优先权，该中国专利申请公开的全部内容以引用的方式并入本文中。

技术领域

本公开涉及信息处理技术领域，具体而言，涉及文本纠错的方法、装置、电子设备及存储介质。

背景技术

随着科技的不断发展，文字识别技术，尤其是光学字符识别(Optical Character Recognition，OCR)技术，得到了越来越广泛的应用。OCR识别技术可以从图像中识别出文本内容。然而，由于受到诸如书写字体、外界环境等各方面的影响，导致识别出来的文本内容会出现错字。

文本纠错即是对文本中的错字进行修正的过程。相关技术中可采用人工方式进行修正，这将耗费相关人员的大量时间，纠错效率较低。

发明内容

本公开实施例至少提供一种文本纠错的方法、装置、电子设备及存储介质，以提高纠错效率。

第一方面，本公开实施例提供了一种文本纠错的方法，所述方法包括：获取待纠错文本内容；基于经训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；其中，所述文本纠错网络为基于错误语句样本训练得到的，所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。

采用上述文本纠错的方法，在获取到待纠错文本内容的情况下，可以基于经训练的文本纠错网络对待纠错文本内容进行多维度文本纠错，以得到纠错后的文本内容。由于文本纠错网络是基于错误语句样本训练得到的，错误语句样本是基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的，这样，该文本纠错网络可以学习到错误语句与正确语句之间的转换关系，进而可以指导待纠错文本内容的快速纠错，且纠错效率较高。

在一种可能的实施方式中，按照如下步骤训练所述文本纠错网络：获取正确语句样本以及对所述正确语句样本进行文本破坏得到的错误语句样本；所述错误语句样本与所述正确语句样本之间至少存在一个不同的字符；通过将所述错误语句样本作为待训练的文本纠错网络的输入数据，并将所述错误语句样本对应的正确语句样本作为所述错误语句样本的标签，对所述文本纠错网络进行至少一轮训练。

通过标签与输出结果之间的对比结果实现对文本纠错网络的训练，直至输出结果指向的是正确语句样本，说明达到训练目的，也即，训练得到了错误语句与正确语句之间的转换关系，训练得到的文本纠错网络的纠错准确度也较高。

在一种可能的实施方式中，按照如下步骤获取所述错误语句样本：获取预设的候选字符表；所述候选字符表包括有多个候选字符、以及与每个所述候选字符对应的字音相似字符和字形相似字符；基于所述候选字符表对所述正确语句样本进行文本破坏，得到所述错误语句样本。

可以基于候选字符对应的字音相似字符以及字形相似字符实现对正确语句样本的文本破坏，从而能够在文本纠错阶段可以就字音维度以及字形维度等多个维度进行纠错，提升纠错的准确度。

在一种可能的实施方式中，所述基于所述候选字符表对所述正确语句样本进行文本破坏，得到所述错误语句样本，包括：对所述正确语句样本进行切分处理，得到多个分词；针对所述多个分词中的第一分词，从所述候选字符表中查找与所述第一分词匹配的候选字符，并利用查找到的所述候选字符对应的字音相似字符或字形相似字符对所述第一分词进行替换，得到替换结果；基于所述替换结果，确定所述正确语句样本对应的所述错误语句样本。

可以在切分处理的基础之上，基于字音相似字符或字形相似字符的替换操作实现文本破坏，这样所破坏得到的错误语句样本与正确语句样本存在一定程度上的相似性，基于这种相似性所训练出来的文本纠错网络可以很好的进行纠错。

在一种可能的实施方式中，所述获取待纠错文本内容，包括：接收到的客户端上传的待纠错的核验内容，所述核验内容的类型包括文本和图像中的至少一项，所述待纠错的核验内容包括待纠错文本内容。

在一种可能的实施方式中，在所述核验内容包括文本的情况下，所述待纠错文本内容包括所述文本中的字符或字符串；和/或，在所述核验内容包括图像的情况下，所述待纠错文本内容包括利用文字识别方式从所述图像中识别出的文本中的字符或字符串。

在一种可能的实施方式中，在所述得到纠错后的文本内容之后，所述方法还包括：向所述客户端返回纠错提示信息；所述纠错提示信息用于指示所述待纠错文本内容对应的待纠错位置。

在确定纠错后的文本内容的情况下，可以基于纠错提示信息的呈现，向用户提示待纠错位置，便于用户了解具体的纠错位置，以便及时修正。

在一种可能的实施方式中，所述纠错提示信息还用于提供与所述待纠错文本内容中错误文本内容对应的参考文本内容，所述方法还包括：响应针对所述待纠错位置的触发指令，展示参考文本内容。

可以进行相关参考文本内容的展示，用户则可以基于展示内容选取想要的参考文本内容，无需用户手动输入，省时省力。

在一种可能的实施方式中，所述展示参考文本内容，包括：在所述待纠错位置处，以预设显示特效展示所述参考文本内容；或者，利用所述参考文本内容替换所述待纠错位置处的文本内容，并在所述待纠错位置处展示所述参考文本内容；或者，分屏展示所述待纠错文本内容和所述参考文本内容。

在一种可能的实施方式中，所述文本包括多篇文章；所述方法还包括：基于预设时间段内，针对返给所述客户端的多篇文章中每篇文章产生的纠错提示信息，确定所述客户端的纠错历史信息；所述纠错历史信息包括单篇核验内容中的纠错次数、多篇核验内容中的纠错总次数、同一错误所对应的待纠错文本内容及对应同一错误的所述待纠错文本内容所属核验内容的文章类型中的至少一种；根据所述纠错历史信息，确定针对所述客户端的绩效考核结果。

第二方面，本公开实施例还提供了一种文本纠错的装置，所述装置包括：获取模块，用于获取待纠错文本内容；纠错模块，用于基于经训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；其中，所述文本纠错网络为基于错误语句样本训练得到的，所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。

第三方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时，执行如第一方面及其各种实施方式任一所述的文本纠错的方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时，执行如第一方面及其各种实施方式任一所述的文本纠错的方法的步骤。

第五方面，本公开实施例还提供了一种计算机程序，所述程序被处理器执行时，执行如第一方面及其各种实施方式任一所述的文本纠错的方法的步骤。

关于上述文本纠错的装置、电子设备、计算机可读存储介质、及计算机程序的效果描述参见下述文本纠错的方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种文本纠错的方法的流程图；

图2示出了本公开实施例所提供的一种文本纠错的装置的示意图；

图3示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，文本纠错即是对文本中的错字进行修正的过程。相关技术中可采用人工方式进行修正，这将耗费相关人员的大量时间，纠错效率较低。

基于上述研究，本公开提供了一种文本纠错的方法、装置、电子设备及存储介质，以提高纠错效率。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种文本纠错的方法进行详细介绍，本公开实施例所提供的文本纠错的方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该文本纠错的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的文本纠错的方法的流程图，方法包括步骤S101～S102，其中：

S101：获取待纠错文本内容；

S102：基于经训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；其中，文本纠错网络为基于错误语句样本训练得到的，错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。

为了便于理解本公开实施例提供的文本纠错的方法，接下来首先对该方法的应用场景进行简单介绍。上述文本纠错的方法可以应用于语音识别领域、光学字符识别(Optical Character Recognition,OCR)领域、新媒体领域、问答领域等各种需要进行文本纠错的领域中。考虑到OCR识别的广泛应用，接下来多以OCR识别中的文字纠错进行示例说明。

相关技术中的人工修正方式无法确保纠错的效率，这很大程度上会影响文字纠错技术在各个技术领域中的广泛应用。为了提升纠错效率，本公开实施例提供了一种利用训练好的文字纠错网络进行多维度文本纠错的方案。其中，由于文字纠错网络可以是预先训练的，这显著提升了纠错效率。与此同时，上述文字纠错网络可以从包括字音维度以及字形维度的多个维度进行纠错，这进一步提升了纠错的准确度。

其中，基于不同的应用场景，本公开实施例获取的待纠错文本内容也可以不同。例如，在纯文本识别领域，待纠错文本内容可以是基础文章上的内容，也可以是文学作品上的内容，例如，可以是小说上的某一个段落内容，具体可以是以字符或字符串的形式来呈现。再如，在OCR识别领域，待纠错文本内容可以是将图像中的文字内容智能识别成为可编辑的文本内容，具体也可以是以字符或字符串的形式来呈现。

在具体应用中，上述待纠错文本内容可以从接收到的客户端上传的待纠错的核验内容中获取的。待纠错的核验内容可以包括文本，也可以包括图像。其中，与文本对应的待纠错内容可以是文本的内容，例如，可以是文章、小说之类的内容；与图像对应的待纠错内容可以是利用文字识别方式从图像中识别出的文本内容，例如，可以是通过文字检测和文字识别的手段从海报等具备文本信息的图像中所确定的文本内容。

在获取到待纠错文本内容的情况下，可以基于经训练的文本纠错网络实现多维度文本纠错，进而可以直接得出纠错后的文本内容。

本公开实施例中的文本纠错网络训练的目的可以是学习错误语句样本与正确语句样本之间的转换关系。错误语句样本可以是基于字音相似字符和字形相似字符对正确语句样本进行破坏得到的。这样，在学习到上述转换关系的情况下，即可以利用文本纠错网络对待纠错文本内容进行纠错。

需要说明的是，由于文本破坏包括基于字音相似字符以及字形相似字符两个层面的破坏，进而可以对待纠错文本内容实现字音维度和字形维度等至少两个维度的纠错。也即，不管待纠错文本内容中是存在字音错误还是字形错误，本公开实施例均可以进行高效且准确的纠错。

仍以OCR识别领域为例。例如，在待纠错文本内容为“眼睛蛇”的情况下，可知存在有字音错误，并可以就“睛”和“镜”之间的字音相似来实现纠错。再如，在待纠错文本内容为“缺铁性盆血”的情况下，可知存在有字形错误，并可以就“盆”和“贫”之间的字形相似来实现纠错。

接下来对文本纠错网络的具体训练过程进行详细描述，主要包括如下步骤：获取正确语句样本以及对正确语句样本进行文本破坏得到的错误语句样本，错误语句样本与正确语句样本之间至少存在一个不同的字符；通过将错误语句样本作为待训练的文本纠错网络的输入数据、并将错误语句样本对应的正确语句样本作为错误语句样本的标签，对文本纠错网络进行至少一轮训练，得到训练好的文本纠错网络。

通过预先获取正确语句样本以及错误语句样本，可以将错误语句样本和对应的正确语句样本分别作为待训练的文本纠错网络的输入项和输出比对项，来实现文本纠错网络的训练。其中，正确语句样本作为输出比对项，可以作为对应的错误语句样本的监督信息来监督网络训练。

在训练文本纠错网络的过程中，可以将错误语句样本输入到待训练的文本纠错网络，而后将网络的输出结果与这一错误语句样本对应的正确语句样本(以下也可称为训练标签)进行比对。若对比结果表示输出结果与训练标签不一致，则可以调整文本纠错网络的网络参数值，并可以基于调整后的文本纠错网络进行下一轮训练，直至对比结果表示输出结果与训练标签高度匹配，得到训练好的文本纠错网络。

上述错误语句样本可以为基于对正确语句样本的文本破坏得到的，具体可以通过如下步骤来实现：获取预设的候选字符表，候选字符表包括有多个候选字符、以及与每个候选字符对应的字音相似字符和字形相似字符；基于候选字符表对正确语句样本进行文本破坏，得到错误语句样本。

候选字符表可以是预先设置的。候选字符表作为先验知识，可以存储有候选字符以及与该候选字符对应的字音相似字符和字形相似字符。这样，针对待破坏的正确语句样本，可以基于上述先验知识确定对应的错误语句样本。

上述候选字符表可以是以候选字符为基本存储单位进行存储的。候选字符可以是从已有字符集中获取的，也可以是基于不同的应用场景收集的高频字符、常用字符、易错易混淆字符等。例如，针对语音识别领域，候选字符可以包括出、发、地等字符；针对驾驶领域，候选字符可以是车、辆等字符。在此不再赘述。

在本公开实施例中，可以针对候选字符表中的候选字符，确定哪些字的字形与该候选字符容易混淆(对应字形相似字符)、哪些字的字音与该候选字符相同或相近(对应字音相似字符)，进而建立这些字音相似字符和字形相似字符与对应候选字符之间的对应关系。这样，在需要对正确语句样本进行文本破坏的情况下，即可以基于这一对应关系进行破坏。

为了满足对于待纠错文本内容的纠错，正确语句样本可以是具有上下文的一个短句，通常包含多个字符。本公开实施例中，在基于上述候选字符表中的候选字符进行文本破坏的情况下，可以先进行切分，再进行替换，以实现针对性的文本破坏操作。

具体可通过如下步骤来实现文本破坏：对正确语句样本进行切分处理，得到多个分词；针对多个分词中的第一分词，从候选字符表中查找与第一分词匹配的候选字符，并利用查找到的候选字符对应的字音相似字符或字形相似字符对第一分词进行替换，得到替换结果；基于替换结果，确定正确语句样本对应的错误语句样本。

第一分词可以是任选的一个或多个分词，或者是特定的一个或多个分词。替换结果则可以是对应的一个或多个分词中每个分词所对应的替换结果，从而使得所得到的错误语句样本更具多样性，以便于后续文本纠错网络进行纠错学习。

需要说明的是，可以基于哪些是易混淆易错的字符进行第一分词的选取，这样所生成的错误语句样本可以更具有针对性，从而可以更好的适应于特定场景。

本公开实施例中的切分处理可以是基于词典、统计、神经网络等方法实现的。例如，可以采用greedy匹配实现基于词典的切分。在实际应用中，可以从句子开头的第一个字开始查字典，找出字典中以该字开头的最长的单词，然后就得到了第一个切分好的词。再如，可以采用全局出发实现基于统计的切分。在实际应用中，可以在各种切词组合中找出最合理的组合，相当于在切分词图中找出一条概率最大的路径。再如，可以基于长短期记忆网络(Long Short-Term Memory，LSTM)这一时间循环神经网络实现切分处理，具体方法在此不再赘述。

不管是基于上述哪种方式实现的切分处理，在进行文本破坏的过程中，对于一个由多个字符所构成的第一分词而言，往往不会破坏整个分词，而是可以选取其中的一个字符来进行破坏，以更好的适应纠错需求。

除此之外，为了更好的适应纠错需求，也可以对多个第一分词进行文本破坏。考虑到若是对连续几个分词都进行破坏，将会增加后续进行纠错的难度，纠错的准确性有可能会降低，可以将多个第一分词间隔设置。多个第一分词之间的间隔可以相同或是不同，在此不予限定。这样就不会出现连续几个分词都出错的情况，既能满足错误样本的多样性，也能确保后续纠错的准确性。

本公开实施例提供的文本纠错的方法可以应用到待发表内容的审核。例如，可以是编辑管理者对编辑工作者已编辑好的文章进行管理审核。该文本纠错的方法也可以应用到对相关内容的对错进行检查。例如，可以是在作者上传自己文章的过程中，对文章中的文本进行校对审核。除此之外，该文本纠错的方法还可以应用到各种需要进行文本纠错的环节中，在此不做具体的限制。

在得到纠错后的文本内容之后，可以向客户端返回纠错提示信息以指示待纠错文本内容对应的待纠错位置。用户基于待纠错位置可以确认发生了文本错误。除此之外，还可以通过针对待纠错位置的触发指令，展示参考文本内容这一方式实现候选的纠错后文本内容的选择，这样，用户可以按参考文本内容进行主动性修改。

其中，有关参考文本内容的展示是多种多样的，可以结合特效来进行展示。

具体的，可以是在待纠错位置处，以预设显示特效展示参考文本内容。例如，可以是对于原有错误文本(即待纠错文本内容)增加删除线，在附近显示候选的正确文本(即参考文本内容)，再如通过弹窗、气泡框等特效方式显示正确文本。还可以是利用参考文本内容替换待纠错位置处的文本内容，并在待纠错位置处展示参考文本内容。例如，可以高亮显示替换了原有错误文本的候选的正确文本等。还可以是分屏展示原始的错误文本和候选的正确文本。除此之外，本公开实施例还可以采用其它展示方式，在此不做具体的限制。

本公开实施例提供的文本纠错的方法在帮助用户纠正文本错误的同时，还可以基于单次/单篇的错误情况，进行错误统计以实现绩效考核。

所得到的纠错历史信息可以包括单篇核验内容的纠错次数、多篇核验内容的纠错总次数、同一错误所对应的待纠错文本内容、对应同一错误的所述待纠错文本内容所属核验内容的文章类型、以及其它统计信息。例如，可以结合时间段实现纠错平均次数的统计，以便于对相关人员进行定量化的考核。

例如，对于编辑工作者，若编辑的单篇文章中出现的纠错次数越多，一定程度上说明其马虎；若其编辑的多篇文章中出现的纠错次数越多，一定程度上说明其工作态度不端正；若其产生同一错误的不同文章所对应的待纠错文本内容的文本类型为同一类型，一定程度上说明其对这一文章所对应领域了解不充分。在及时了解到这些统计信息的情况下，可以针对编辑工作者给予更针对性的管理对策。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与文本纠错的方法对应的文本纠错的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本纠错的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图2所示，为本公开实施例提供的一种文本纠错的装置的示意图，装置包括：获取模块201，用于获取待纠错文本内容；纠错模块202，用于基于经训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容。其中，文本纠错网络为基于错误语句样本训练得到的，错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。

采用上述文本纠错的装置，在获取到待纠错文本内容的情况下，可以基于经训练的文本纠错网络对待纠错文本内容进行多维度文本纠错，以得到纠错后的文本内容。由于文本纠错网络是基于经训练得到的，错误语句样本是基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的，这样，该文本纠错网络可以学习到错误语句与正确语句之间的转换关系，进而可以指导待纠错文本内容的快速纠错，且纠错效率较高。

在一种可能的实施方式中，上述装置包括训练模块203；训练模块203，用于按照如下步骤训练文本纠错网络：获取正确语句样本以及对正确语句样本进行文本破坏得到的错误语句样本；错误语句样本与正确语句样本之间至少存在一个不同的字符；通过将错误语句样本作为待训练的文本纠错网络的输入数据，并将错误语句样本对应的正确语句样本作为错误语句样本的标签，对文本纠错网络进行至少一轮训练，得到训练好的文本纠错网络。

在一种可能的实施方式中，训练模块203，用于按照如下步骤获取错误语句样本：获取预设的候选字符表；候选字符表包括有多个候选字符、以及与每个候选字符对应的字音相似字符和字形相似字符；基于候选字符表对正确语句样本进行文本破坏，得到错误语句样本。

在一种可能的实施方式中，训练模块203，用于按照以下步骤基于候选字符表对正确语句样本进行文本破坏，得到错误语句样本：对正确语句样本进行切分处理，得到多个分词；针对多个分词中的第一分词，从候选字符表中查找与第一分词匹配的候选字符，并利用查找到的候选字符对应的字音相似字符或字形相似字符对第一分词进行替换，得到替换结果；基于替换结果，确定正确语句样本对应的错误语句样本。

在一种可能的实施方式中，获取模块201，用于按照以下步骤获取待纠错文本内容：接收客户端上传的待纠错的核验内容，核验内容的类型包括文本和图像中的至少一项，待纠错的核验内容包括待纠错文本内容。

在一种可能的实施方式中，在核验内容包括文本的情况下，待纠错文本内容包括文本中的字符或字符串；和/或；在核验内容包括图像的情况下，待纠错文本内容包括利用文字识别方式从图像中识别出的文本中的字符或字符串。

在一种可能的实施方式中，上述装置还包括：提示模块204，用于在得到纠错后的文本内容之后，向客户端返回纠错提示信息；纠错提示信息用于指示待纠错文本内容对应的待纠错位置。

在一种可能的实施方式中，纠错提示信息还用于提供与待纠错文本内容中错误文本内容对应的参考文本内容，上述装置还包括：展示模块205，用于响应针对待纠错位置的触发指令，展示参考文本内容。

在一种可能的实施方式中，展示模块205，用于按照以下步骤展示参考文本内容：在待纠错位置处，以预设显示特效展示参考文本内容；或者，利用参考文本内容替换待纠错位置处的文本内容，并在待纠错位置处展示参考文本内容；或者，分屏展示待纠错文本内容和参考文本内容。

在一种可能的实施方式中，文本包括多篇文章；上述装置还包括：考核模块206，用于基于预设时间段内，针对返给客户端的多篇文章中每篇文章产生的纠错提示信息，确定客户端的纠错历史信息；纠错历史信息包括单篇核验内容中的纠错次数、多篇核验内容中的纠错总次数、同一错误所对应的待纠错文本内容及对应同一错误的待纠错文本内容所属核验内容的文章类型中的至少一种；根据纠错历史信息，确定针对客户端的绩效考核结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图3所示，为本公开实施例提供的电子设备结构示意图，包括：处理器301、存储器302、和总线303。存储器302存储有处理器301可执行的机器可读指令(比如，图2中的装置中获取模块201、纠错模块202对应的执行指令等)，当电子设备运行时，处理器301与存储器302之间通过总线303通信，机器可读指令被处理器301执行时执行如下处理：获取待纠错文本内容；基于经训练的文本纠错网络对待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；其中，文本纠错网络为基于错误语句样本训练得到的，错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的文本纠错的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的文本纠错的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例还提供一种计算机程序，所述程序被处理器执行时，执行上述方法实施例中所述的文本纠错的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

一种文本纠错的方法，其特征在于，所述方法包括：

获取待纠错文本内容；

基于经训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；

其中，所述文本纠错网络为基于错误语句样本训练得到的，所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
根据权利要求1所述的方法，其特征在于，按照如下步骤训练所述文本纠错网络：

获取正确语句样本以及对所述正确语句样本进行文本破坏得到的错误语句样本；所述错误语句样本与所述正确语句样本之间至少存在一个不同的字符；

通过将所述错误语句样本作为待训练的文本纠错网络的输入数据，并将所述错误语句样本对应的正确语句样本作为所述错误语句样本的标签，对所述文本纠错网络进行至少一轮训练。
根据权利要求1或2所述的方法，其特征在于，按照如下步骤获取所述错误语句样本：

获取预设的候选字符表；所述候选字符表包括有多个候选字符、以及与每个所述候选字符对应的字音相似字符和字形相似字符；

基于所述候选字符表对所述正确语句样本进行文本破坏，得到所述错误语句样本。
根据权利要求3所述的方法，其特征在于，所述基于所述候选字符表对所述正确语句样本进行文本破坏，得到所述错误语句样本，包括：

对所述正确语句样本进行切分处理，得到多个分词；

针对所述多个分词中的第一分词，从所述候选字符表中查找与所述第一分词匹配的候选字符，并利用查找到的所述候选字符对应的字音相似字符或字形相似字符对所述第一分词进行替换，得到替换结果；

基于所述替换结果，确定所述正确语句样本对应的所述错误语句样本。
根据权利要求1至4任一所述的方法，其特征在于，所述获取待纠错文本内容，包括：

接收客户端上传的待纠错的核验内容，

其中，所述核验内容的类型包括文本和图像中的至少一项，

所述待纠错文本内容包括所述文本和利用文字识别方式从所述图像识别出的文本中至少一项的字符或字符串。
根据权利要求5或6所述的方法，其特征在于，在所述得到纠错后的文本内容之后，所述方法还包括：

向所述客户端返回纠错提示信息；

其中，所述纠错提示信息用于指示所述核验内容中所述待纠错文本内容对应的待纠错位置。
根据权利要求6所述的方法，其特征在于，所述纠错提示信息还用于提供与所述待纠错文本内容中错误文本内容对应的参考文本内容，所述方法还包括：

响应针对所述待纠错位置的触发指令，展示所述参考文本内容。
根据权利要求7所述的方法，其特征在于，所述展示所述参考文本内容，包括以下任一：

在所述待纠错位置处，以预设显示特效展示所述参考文本内容；

利用所述参考文本内容替换所述待纠错位置处的文本内容，并在所述待纠错位置处展示所述参考文本内容；

分屏展示所述待纠错文本内容和所述参考文本内容。
根据权利要求6至8任一所述的方法，其特征在于，所述方法还包括：

基于预设时间段内，基于针对所述客户端上传的多篇核验内容中每篇核验内容产生的所述纠错提示信息，确定所述客户端的纠错历史信息；所述纠错历史信息包括单篇核验内容的纠错次数、多篇核验内容的纠错总次数、同一错误所对应的待纠错文本内容、及对应同一错误的所述待纠错文本内容所属核验内容的文章类型中的至少一种；

根据所述纠错历史信息，确定针对所述客户端的绩效考核结果。
一种文本纠错的装置，其特征在于，所述装置包括：

获取模块，用于获取待纠错文本内容；

纠错模块，用于基于经训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度的多维度文本纠错，得到纠错后的文本内容；

其中，所述文本纠错网络为基于错误语句样本训练得到的，所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时，执行如权利要求1至9任一所述的文本纠错的方法的步骤。
一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时，执行如权利要求1至9任一所述的文本纠错的方法的步骤。
一种计算机程序，其特征在于，所述程序被处理器执行时，执行如权利要求1至9任一所述的文本纠错的方法的步骤。