CN111832288A - 文本修正方法及装置、电子设备、存储介质 - Google Patents

文本修正方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111832288A
CN111832288A CN202010730260.XA CN202010730260A CN111832288A CN 111832288 A CN111832288 A CN 111832288A CN 202010730260 A CN202010730260 A CN 202010730260A CN 111832288 A CN111832288 A CN 111832288A
Authority
CN
China
Prior art keywords
text
correction
quality
texts
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010730260.XA
Other languages
English (en)
Other versions
CN111832288B (zh
Inventor
付凯
黄瑾
段亦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Youdao Information Technology Beijing Co Ltd
Original Assignee
Netease Youdao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Youdao Information Technology Beijing Co Ltd filed Critical Netease Youdao Information Technology Beijing Co Ltd
Priority to CN202010730260.XA priority Critical patent/CN111832288B/zh
Publication of CN111832288A publication Critical patent/CN111832288A/zh
Application granted granted Critical
Publication of CN111832288B publication Critical patent/CN111832288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例提供了一种文本修正方法、文本修正装置、电子设备及计算机可读存储介质,涉及自然语言处理技术领域。所述方法包括:获取第一文本,对第一文本进行修正处理,得到第二文本;将第一文本和第二文本输入预先建立的文本质量比较模型,得到第一文本和第二文本的文本质量比较结果;根据文本质量比较结果,确定第一文本的文本修正结果。本公开可以提高文本修正结果的质量。

Description

文本修正方法及装置、电子设备、存储介质
技术领域
本公开实施例涉及自然语言处理技术领域,更具体地,涉及一种文本修正方法、文本修正装置、电子设备及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在自然语言处理技术中,文本纠错可以纠正文本中存在的语法错误。文本纠错支持短文本、长文本、语音识别结果等多种文本内容,在搜索引擎、人机对话、语音识别、内容审核等方面有广泛的应用,能显著提高这些场景下的语义准确性和用户体验。
相关技术中,可以基于语法错误修正模型对文本进行修正。语法错误修正模型指的是一种能够将错误文本修正为正确文本的模型结构,模型的输入是带有语法错误的文本,模型输出是修正后的文本。然而,该方法可能将正确的文本修改为错误的文本,导致修正后的文本的质量比较低。
发明内容
本公开的目的在于提供一种文本修正方法、文本修正装置、电子设备及计算机可读存储介质,从而至少在一定程度上克服由于相关技术的缺陷和限制而导致的修正后的文本的质量比较低等问题。
根据本公开的第一方面,提供一种文本修正方法,包括:
获取第一文本,对所述第一文本进行修正处理,得到第二文本;
将所述第一文本和所述第二文本输入预先建立的文本质量比较模型,得到所述第一文本和所述第二文本的文本质量比较结果;
根据所述文本质量比较结果,确定所述第一文本的文本修正结果。
可选地,所述文本修正方法还包括:
训练所述文本质量比较模型;
训练所述文本质量比较模型,具体包括:
获取训练数据集;
利用所述训练数据集,对预训练模型中的网络参数进行调整,得到所述文本质量比较模型。
可选地,所述根据所述文本质量比较结果,确定所述第一文本的文本修正结果,包括:
在所述第一文本的文本质量等于所述第二文本的文本质量时,将所述第二文本作为所述第一文本的文本修正结果;或者,
将所述第一文本作为所述第一文本的文本修正结果;
在所述第一文本的文本质量低于所述第二文本的文本质量时,将所述第二文本作为所述第一文本的文本修正结果;
在所述第一文本的文本质量高于所述第二文本的文本质量时,确定所述第二文本基于所述第一文本的文本修正片段,并根据所述文本修正片段,确定所述第一文本的文本修正结果。
可选地,所述根据所述文本修正片段,确定所述第一文本的文本修正结果,包括:
在所述文本修正片段的数量为多个时,根据所述文本修正片段以及所述第一文本,建立多个第三文本;
根据所述多个第三文本,确定所述第一文本的文本修正结果。
可选地,所述根据所述多个第三文本,确定所述第一文本的文本修正结果,包括:
根据所述文本质量比较模型,从所述多个第三文本中选取文本质量最高、且高于所述第一文本的第三文本;或者,
根据所述文本质量比较模型,从所述多个第三文本中选取包含所述文本修正片段的数量最多、且文本质量高于所述第一文本的第三文本;或者,
从所述多个第三文本中选取包含所述文本修正片段的数量最多的第三文本,并根据所述文本质量比较模型,从所选取的第三文本中进一步选取文本质量最高、且高于所述第一文本的第三文本;
将最终选取的第三文本作为所述第一文本的文本修正结果。
可选地,所述根据所述文本修正片段以及所述第一文本,建立多个第三文本,包括:
在所述文本修正片段的数量为m个时,将m个文本修正片段中所有可能的n个文本修正片段替换至所述第一文本中,建立多个第三文本,其中,m为大于1的整数,n为1~m-1的整数。
可选地,所述根据所述文本质量比较结果,确定所述第一文本的文本修正结果,还包括:
在所述第一文本和所述第二文本不具有相关性时,将所述第一文本作为所述第一文本的文本修正结果。
可选地,在所述对所述第一文本进行修正处理之前,所述文本修正方法还包括:
对所述第一文本进行语法错误检测;
在检测到所述第一文本存在语法错误时,执行所述对所述第一文本进行修正处理的步骤。
根据本公开的第二方面,提供一种文本修正装置,包括:
文本修正模块,被配置为执行获取第一文本,对所述第一文本进行修正处理,得到第二文本;
文本质量比较模块,被配置为执行将所述第一文本和所述第二文本输入预先建立的文本质量比较模型,得到所述第一文本和所述第二文本的文本质量比较结果;
修正结果确定模块,被配置为执行根据所述文本质量比较结果,确定所述第一文本的文本修正结果。
可选地,本公开实施例的文本修正装置,还包括:
训练数据集获取模块,被配置为执行获取训练数据集;
网络参数调整模块,被配置为执行利用所述训练数据集,对预训练模型中的网络参数进行调整,得到所述文本质量比较模型。
可选地,所述修正结果确定模块,包括:
第一修正结果确定单元,被配置为执行在所述第一文本的文本质量等于所述第二文本的文本质量时,将所述第二文本作为所述第一文本的文本修正结果;或者,将所述第一文本作为所述第一文本的文本修正结果;
第二修正结果确定单元,被配置为执行在所述第一文本的文本质量低于所述第二文本的文本质量时,将所述第二文本作为所述第一文本的文本修正结果;
第三修正结果确定单元,被配置为执行在所述第一文本的文本质量高于所述第二文本的文本质量时,确定所述第二文本基于所述第一文本的文本修正片段,并根据所述文本修正片段,确定所述第一文本的文本修正结果。
可选地,所述第三修正结果确定单元,包括:
第三文本建立子单元,被配置为执行在所述文本修正片段的数量为多个时,根据所述文本修正片段以及所述第一文本,建立多个第三文本;
第三修正结果确定子单元,被配置为执行根据所述多个第三文本,确定所述第一文本的文本修正结果。
可选地,所述第三修正结果确定子单元,具体被配置为执行根据所述文本质量比较模型,从所述多个第三文本中选取文本质量最高、且高于所述第一文本的第三文本;或者,
根据所述文本质量比较模型,从所述多个第三文本中选取包含所述文本修正片段的数量最多、且文本质量高于所述第一文本的第三文本;或者,
从所述多个第三文本中选取包含所述文本修正片段的数量最多的第三文本,并根据所述文本质量比较模型,从所选取的第三文本中进一步选取文本质量最高、且高于所述第一文本的第三文本;
将最终选取的第三文本作为所述第一文本的文本修正结果。
可选地,所述第三文本建立子单元,具体被配置为执行在所述文本修正片段的数量为m个时,将m个文本修正片段中所有可能的n个文本修正片段替换至所述第一文本中,建立多个第三文本,其中,m为大于1的整数,n为1~m-1的整数。
可选地,所述修正结果确定模块,还包括:
第四修正结果确定单元,被配置为执行在所述第一文本和所述第二文本不具有相关性时,将所述第一文本作为所述第一文本的文本修正结果。
可选地,本公开实施例的文本修正装置,还包括:
语法错误检测模块,被配置为执行对所述第一文本进行语法错误检测;
所述文本修正模块,具体被配置为在检测到所述第一文本存在语法错误时,执行所述对所述第一文本进行修正处理。
根据本公开的第三方面,提供一种电子设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如以上各技术方案中的方法。
根据本公开的第四方面,提供一种存储介质,其上存储有程序,该程序被处理器执行时实现如以上各技术方案中的方法。
在本公开提供的技术方案中,在对第一文本修正之后,可以通过文本质量比较模型对得到的第二文本和第一文本的文本质量进行比较,根据文本质量比较结果,确定最终的文本修正结果。例如,在第二文本的文本质量低于第一文本的文本质量时,可以将第一文本作为最终的修正结果;在第二文本的文本质量高于第一文本的文本质量时,可以将第二文本作为最终的文本修正结果。这样,可以使最终的文本修正结果的文本质量不低于原始的第一文本的文本质量,从而可以整体提高文本修正结果的质量。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示出了应用本公开示例性实施方式的***架构示意图;
图2示出了本公开实施例中文本修正方法的一种流程图;
图3示出了本公开实施例中文本修正方法的又一种流程图;
图4示出了本公开实施例中通过语法错误修正模型对第一文本修正的一种示意图;
图5示出了本公开实施例中通过文本质量比较模型对第一文本和第二文本进行文本质量比较的一种示意图;
图6示出了本公开实施例中根据第一文本和第二文本确定最终的文本修正结果的一种流程图;
图7示出了本公开实施例中文本修正装置的一种结构示意图;
图8示出了本公开实施例中电子设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本公开中涉及的技术术语解释如下:
BERT(Bidirectional Encoder Representation from Transformers,双向Transformer的Encoder)模型:一种自然语言处理领域的预训练模型,它由Google在2018年提出,采用了多个任务和海量数据对其进行训练生成。
Seq2Seq模型:属于encoder-decoder结构的一种,基本思想就是利用两个RNN(Recurrent Neural Network,循环神经网络),通过一个RNN将输入的序列编码成一个向量,再利用另一个RNN解码成一个序列输出,且输出序列的长度是可变的。
此外,本公开中涉及的相关元素数量仅用于示例而非限制,以及相关元素的命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在本公开的一种相关技术中,为了避免语法错误修正模型改动正确的句子,可以在语法错误修正模型的前面放置一个错误检测模型。即文本在进行语法错误修正之前,可以先通过错误检测模型进行错误检测。如果错误检测模型认为该文本不存在语法错误,则不对该文本进行纠错;如果认为该文本存在语法错误,则对该文本进行相应的纠错操作。
然而,由于错误检测模型的准确率和召回率通常比较低,因此,一旦错误的文本被错误检测模型认为是正确的,则该文本将得不到修正的机会;或者,如果正确的文本被认为是错误的,则该文本经过语法错误修正模型依旧会有被改动的风险。另外,即使某个文本被错误检测模型认为是错误的,且事实上是错误的,这并不能保证语法错误修正模型修正后的结果一定优于原始的文本,因此,需要错误检测模型与语法错误修正模型紧密耦合。
在本公开的另一种相关技术中,可以对语法错误修正模型的修正结果进行后处理。例如,可以基于神经语言模型,或者句子修改的比例等信息进行诸如LR(LogisticRegression,逻辑回归)等机器学习模型的训练,然后判断是否接受语法错误修正模型的修正结果。虽然可以对文本进行长度归一化操作等,但神经语言模型的打分结果依旧与长度、词的生僻密切相关,在某些情况下偏差很大。而文本修改比例等信息往往依赖于一个很小的人工标注训练集中数据修改比例,准确性较低。
基于以上问题,本公开提出了一种文本修正方法。该方法首先可以对原始的第一文本进行修正,得到第二文本。之后,通过文本质量比较模型对第一文本和第二文本的文本质量进行比较,可以保证最终呈现给用户的文本修正结果的文本质量不低于第一文本的文本质量,从而可以提升用户体验。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
图1示出了应用本公开示例性实施方式的***架构示意图。如图1所示,***架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备,服务端130可以为客户端110提供网络资源和数据服务。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路等等。
根据实现需要,应用本公开示例性实施方式的***架构可以具有任意数目的客户端、网络和服务端。例如,服务端130可以是由多个服务器设备组成的服务器群组。本公开示例性实施方式提供的文本修正方法可以应用于客户端110,也可以应用于服务端130,本公开对此不做特殊限定。
例如,当本公开示例性实施方式提供的文本修正方法应用于服务端130时,客户端110可以通过网络120向服务端130发送文本,然后由服务端130对文本进行修正,最后再通过网络120将最终的文本修正结果返回给客户端110。
示例性方法
下面结合上述的应用场景,参考图2至图6来描述根据本公开示例性实施方式的文本修正方法。
参见图2,图2示出了本公开实施例中文本修正方法的一种流程图,可以包括以下步骤:
步骤S210,获取第一文本,对第一文本进行修正处理,得到第二文本。
步骤S220,将第一文本和第二文本输入预先建立的文本质量比较模型,得到第一文本和第二文本的文本质量比较结果。
步骤S230,根据文本质量比较结果,确定第一文本的文本修正结果。
本公开实施例的文本修正方法,在对第一文本修正之后,可以通过文本质量比较模型对得到的第二文本和第一文本的文本质量进行比较,根据文本质量比较结果,确定最终的文本修正结果。例如,在第二文本的文本质量低于第一文本的文本质量时,可以将第一文本作为最终的修正结果;在第二文本的文本质量高于第一文本的文本质量时,可以将第二文本作为最终的文本修正结果。这样,可以使最终的文本修正结果的文本质量不低于原始的第一文本的文本质量,从而可以整体提高文本修正结果的质量。
参见图3,图3示出了本公开实施例中文本修正方法的又一种流程图,可以包括以下步骤:
步骤S310,获取第一文本,对第一文本进行语法错误检测。
文本是书面语言的表现形式,第一文本可以是由书写所固定下来的任何语句。例如,可以是一个句子,也可以是多个句子的组合。第一文本可以是英文文本,也可以是中文文本等,本公开对第一文本的语言类型不做限定。在实际应用场景中,第一文本可以是语音识别结果、作文、论文等。
本公开实施例中,在对第一文本进行语法错误修正之前,可以先对第一文本进行语法错误检测,也就是,检测第一文本中是否存在语法错误。如果没有检测到语法错误,则可以不对该第一文本进行纠错处理;如果检测到语法错误,则执行步骤S320。
步骤S320,在检测到第一文本存在语法错误时,对第一文本进行修正处理,得到第二文本。
具体的,在对第一文本进行修正处理时,可以通过基于规则的方法或者基于语法错误修正模型的方法等。其中,语法错误修正模型可以是基于Seq-to-Seq框架的Transformer模型等,在此不做限定。参见图4,将第一文本通过语法错误修正模型修正之后,可以得到第二文本。
步骤S330,将第一文本和第二文本输入预先建立的文本质量比较模型,得到第一文本和第二文本的文本质量比较结果。
本公开实施例中,文本质量比较模型是预先训练的模型,将任意两个文本输入该模型,可以输出该两个文本的文本质量比较结果。为了提高训练效率,文本质量比较模型可以是在预训练模型的基础上,基于微调的方法生成的。基于微调的方法是使用特定任务的训练数据集来微调预训练模型中的网络参数,从而使得调整后的模型能够适应特定任务。
具体的,可以获取训练数据集,训练数据集中的每个训练数据可以包含两个训练文本,以及该两个训练文本对应的文本质量比较结果。不同的文本质量比较结果可以通过不同的标识进行区分,例如,可以通过0表示两个训练文本的文本质量相等,1表示前一个训练文本的文本质量高于后一个训练文本的文本质量,2表示后一个训练文本的文本质量高于前一个训练文本的文本质量。相应地,对于训练文本A和训练文本B,如果A的文本质量高于B的文本质量,可以将(A,B)作为一对训练文本,向量(0,1,0)为训练文本A和B对应的标签数据,该向量中的元素分别表示属于类别0、1、2的概率。
之后,利用训练数据集,对预训练模型中的网络参数进行调整,得到文本质量比较模型,文本质量比较模型最终的优化目标是每一对训练文本都能被正确的归类到对应类别(例如,上述0、1、2)上,从而使文本质量比较模型可以适应文本质量比较的任务。其中,预训练模型可以是BERT模型等。
需要说明的是,两个文本的文本质量相等指的是两个文本的文本质量相差较小,例如,在小于质量阈值的情况下,均可以认为两个文本的文本质量相等。另外,文本质量比较结果除了包括上述三种情况之外,还可以包括两个文本不相关,例如,可以通过3表示两个文本不相关。在此情况下,训练数据集中还可以包括两个训练文本不相关的训练数据。相应地,其他训练文本对应的标签数据也会相应发生变化。例如,对于上述训练文本对(A,B),其对应的标签数据即为向量(0,1,0,0),该向量中的元素分别表示属于类别0、1、2、3的概率。
参见图5,将第一文本和第二文本输入文本质量比较模型,可以得到分别属于类别0、1、2、3的概率,并将概率最大值对应的类别作为最终类别,从而得到两者的文本质量比较结果。
步骤S340,根据文本质量比较结果,确定第一文本的文本修正结果。
具体的,在第一文本的文本质量等于第二文本的文本质量时,可以将第二文本作为第一文本的文本修正结果;或者,也可以将第一文本作为第一文本的文本修正结果。在第一文本的文本质量低于第二文本的文本质量时,可以将第二文本作为第一文本的文本修正结果。在第一文本的文本质量高于第二文本的文本质量时,表示修正后的第二文本的文本质量降低了,此时可以直接将第一文本作为第一文本的文本修正结果。在第一文本和第二文本不具有相关性时,也可以将第一文本作为第一文本的文本修正结果。这样,可以保证最终的文本修正结果的文本质量不低于第一文本的文本质量。
需要说明的是,在第一文本的文本质量高于第二文本的文本质量时,还可以根据第一文本和第二文本,得到文本质量高于第一文本的文本,并将该文本作为最终的文本修正结果。具体过程可参见图6,可以包括以下步骤:
步骤S610,确定第二文本基于第一文本的文本修正片段。
由于第二文本是第一文本的修正文本,因此,将第二文本和第一文本进行对比,可以得到第二文本基于第一文本的文本修正片段。文本修正片段,即第二文本在第一文本的基础上所修改的文本片段。例如,第二文本相对于第一文本修改了5个词语,那么,第二文本基于第一文本的文本修正片段即为该5个词语。
步骤S620,根据文本修正片段,确定第一文本的文本修正结果。
本公开实施例中,在文本修正片段的数量为一个时,表明对第一文本进行了一处修改,得到第二文本。并且,第二文本的文本质量低于第一文本的文本质量,此时,可以直接将第一文本作为最终的文本修改结果。
而在文本修正片段的数量为多个时,可以根据文本修正片段以及第一文本,建立多个第三文本。在此可以通过组合的方式,将该多个文本修正片段中的部分文本修正片段替换至第一文本中,从而可以建立多个第三文本。
在本公开的一种实现方式中,在文本修正片段的数量为m个时,可以将m个文本修正片段中所有可能的n个文本修正片段替换至第一文本中,建立多个第三文本,其中,m为大于1的整数,n为1~m-1的整数。
举例而言,如果文本修正片段的数量为5个,可以选取其中的1个替换至第一文本中,可以得到5个第三文本。同时,还可以选取其中的2个、3个或4个替换至第一文本中,这样,通过该组合方式可以得到多个第三文本。之后,再从多个第三文本中选取文本质量最高的第三文本。
在本公开的又一种实现方式中,除了建立所有可能的第三文本之外,也可以随机建立多个第三文本。例如,如果文本修正片段的数量为5个,可以选取其中的任意3个或4个替换至第一文本中,得到多个第三文本。
之后,可以根据多个第三文本,确定第一文本的文本修正结果。在本公开的一种实现方式中,可以根据文本质量比较模型,从多个第三文本中选取文本质量最高、且高于第一文本的第三文本。具体的,可以将多个第三文本中的每一个分别和第一文本进行文本质量比较,具体可以通过文本质量比较模型进行比较,并从中选取所有文本质量高于第一文本的第三文本。之后,再将所选取的第三文本进行两两比较,最终得到文本质量最高的第三文本。
在本公开的又一种实现方式中,还可以根据文本质量比较模型,从多个第三文本中选取包含文本修正片段的数量最多、且文本质量高于第一文本的第三文本。具体的,可以通过文本质量比较模型将多个第三文本中的每一个分别和第一文本进行文本质量比较,并从中选取所有文本质量高于第一文本的第三文本。之后,再从所选取的第三文本中选取包含文本修正片段数量最多的第三文本。假设包含文本修正片段数量最多的第三文本的数量为多个,可以选取其中的任意一个。
在本公开的又一种实现方式中,还可以从多个第三文本中选取包含文本修正片段的数量最多的第三文本,并根据文本质量比较模型,从所选取的第三文本中进一步选取文本质量最高、且高于第一文本的第三文本。例如,在文本修正片段的数量为5个时,包含文本修正片段的数量最多的第三文本即为包含4个文本修正片段的第三文本,并且包含4个文本修正片段的第三文本的数量为5个。可以从该5个第三文本中选取文本质量最高、且高于第一文本的第三文本。如果不存在满足该条件的第三文本,还可以进一步选取包含3个文本修正片段的第三文本,并从中选取文本质量最高、且高于第一文本的第三文本,以此类推。
最后,将最终选取的第三文本作为第一文本的文本修正结果。
本公开实施例的文本修正方法,在对第一文本进行修正之后,如果得到文本质量低于第一文本的文本质量的第二文本,可以对第二文本进行片段级别的区分,得到包含文本修正片段数量较少的多个第三文本。并从中选取文本质量高于第一文本的第三文本作为最终的文本修正结果。这样,可以保证最终得到文本质量较高的文本修正结果。实验证明,在加入文本质量比较模型之后,纠错服务的召回率有略微下降,但精确率明显上升。并且,文本质量比较模型与现有技术没有冲突,通过现有技术对文本进行修正之后,通过文本质量比较模型再作进一步的处理即可,而不需要与现有技术紧密耦合。
示例性装置
在介绍了本公开示例性实施方式的方法之后,接下来,参考图7对本公开示例性实施方式的文本修正装置进行说明。
图7示出了本公开实施例中文本修正装置的一种结构示意图。如图7所示,文本修正装置700可以包括:
文本修正模块710,被配置为执行获取第一文本,对第一文本进行修正处理,得到第二文本;
文本质量比较模块720,被配置为执行将第一文本和第二文本输入预先建立的文本质量比较模型,得到第一文本和第二文本的文本质量比较结果;
修正结果确定模块730,被配置为执行根据文本质量比较结果,确定第一文本的文本修正结果。
在本公开的一种示例性实施例中,上述文本修正装置,还包括:
训练数据集获取模块,被配置为执行获取训练数据集;
网络参数调整模块,被配置为执行利用训练数据集,对预训练模型中的网络参数进行调整,得到文本质量比较模型。
在本公开的一种示例性实施例中,修正结果确定模块,包括:
第一修正结果确定单元,被配置为执行在第一文本的文本质量等于第二文本的文本质量时,将第二文本作为第一文本的文本修正结果;或者,将第一文本作为第一文本的文本修正结果;
第二修正结果确定单元,被配置为执行在第一文本的文本质量低于第二文本的文本质量时,将第二文本作为第一文本的文本修正结果;
第三修正结果确定单元,被配置为执行在第一文本的文本质量高于第二文本的文本质量时,确定第二文本基于第一文本的文本修正片段,并根据文本修正片段,确定第一文本的文本修正结果。
在本公开的一种示例性实施例中,第三修正结果确定单元,包括:
第三文本建立子单元,被配置为执行在文本修正片段的数量为多个时,根据文本修正片段以及第一文本,建立多个第三文本;
第三修正结果确定子单元,被配置为执行根据多个第三文本,确定第一文本的文本修正结果。
在本公开的一种示例性实施例中,第三修正结果确定子单元,具体被配置为执行根据文本质量比较模型,从多个第三文本中选取文本质量最高、且高于第一文本的第三文本;或者,
根据文本质量比较模型,从多个第三文本中选取包含文本修正片段的数量最多、且文本质量高于第一文本的第三文本;或者,
从多个第三文本中选取包含文本修正片段的数量最多的第三文本,并根据文本质量比较模型,从所选取的第三文本中进一步选取文本质量最高、且高于第一文本的第三文本;
将最终选取的第三文本作为第一文本的文本修正结果。
在本公开的一种示例性实施例中,第三文本建立子单元,具体被配置为执行在文本修正片段的数量为m个时,将m个文本修正片段中所有可能的n个文本修正片段替换至第一文本中,建立多个第三文本,其中,m为大于1的整数,n为1~m-1的整数。
在本公开的一种示例性实施例中,修正结果确定模块,还包括:
第四修正结果确定单元,被配置为执行在第一文本和第二文本不具有相关性时,将第一文本作为第一文本的文本修正结果。
在本公开的一种示例性实施例中,上述文本修正装置,还包括:
语法错误检测模块,被配置为执行对第一文本进行语法错误检测;
文本修正模块,具体被配置为在检测到第一文本存在语法错误时,执行对第一文本进行修正处理。
以上各示例性实施方式中装置的具体细节已在相应的示例性方法部分做出详细说明,因此此处不再赘述。
示例性电子设备
在介绍了本公开示例性实施方式的方法和装置之后,接下来,介绍根据本公开的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为***、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施方式中,根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“方法”部分中描述的文本修正方法中的步骤等。
参见图8,图8示出了本公开实施例中电子设备的结构示意图。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800包括中央处理器801,其可以根据存储在只读存储器802中的程序或者从存储部分808加载到随机访问存储器803中的程序而执行各种适当的动作和处理。在随机访问存储器803中,还存储有***操作所需的各种程序和数据。中央处理器801、只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805也连接至总线804。
以下部件连接至输入/输出接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时,执行本申请的装置中限定的各种功能。
示例性存储介质
在介绍了本公开示例性实施方式的方法、装置和电子设备之后,接下来,对本公开示例性实施方式的存储介质进行说明。
在一些可能的实施方式中,本公开的各个方面还可以实现为一种存储介质,其上存储有程序代码,当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的各个步骤。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频(RF)等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本修正方法,其特征在于,包括:
获取第一文本,对所述第一文本进行修正处理,得到第二文本;
将所述第一文本和所述第二文本输入预先建立的文本质量比较模型,得到所述第一文本和所述第二文本的文本质量比较结果;
根据所述文本质量比较结果,确定所述第一文本的文本修正结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
训练所述文本质量比较模型;
训练所述文本质量比较模型,具体包括:
获取训练数据集;
利用所述训练数据集,对预训练模型中的网络参数进行调整,得到所述文本质量比较模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文本质量比较结果,确定所述第一文本的文本修正结果,包括:
在所述第一文本的文本质量等于所述第二文本的文本质量时,将所述第二文本作为所述第一文本的文本修正结果,或者,将所述第一文本作为所述第一文本的文本修正结果;
在所述第一文本的文本质量低于所述第二文本的文本质量时,将所述第二文本作为所述第一文本的文本修正结果;
在所述第一文本的文本质量高于所述第二文本的文本质量时,确定所述第二文本基于所述第一文本的文本修正片段,并根据所述文本修正片段,确定所述第一文本的文本修正结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本修正片段,确定所述第一文本的文本修正结果,包括:
在所述文本修正片段的数量为多个时,根据所述文本修正片段以及所述第一文本,建立多个第三文本;
根据所述多个第三文本,确定所述第一文本的文本修正结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个第三文本,确定所述第一文本的文本修正结果,包括:
根据所述文本质量比较模型,从所述多个第三文本中选取文本质量最高、且高于所述第一文本的第三文本;或者,
根据所述文本质量比较模型,从所述多个第三文本中选取包含所述文本修正片段的数量最多、且文本质量高于所述第一文本的第三文本;或者,
从所述多个第三文本中选取包含所述文本修正片段的数量最多的第三文本,并根据所述文本质量比较模型,从所选取的第三文本中进一步选取文本质量最高、且高于所述第一文本的第三文本;
将最终选取的第三文本作为所述第一文本的文本修正结果。
6.根据权利要求4所述的方法,其特征在于,所述根据所述文本修正片段以及所述第一文本,建立多个第三文本,包括:
在所述文本修正片段的数量为m个时,将m个文本修正片段中所有可能的n个文本修正片段替换至所述第一文本中,建立多个第三文本,其中,m为大于1的整数,n为1~m-1的整数。
7.根据权利要求3所述的方法,其特征在于,所述根据所述文本质量比较结果,确定所述第一文本的文本修正结果,还包括:
在所述第一文本和所述第二文本不具有相关性时,将所述第一文本作为所述第一文本的文本修正结果。
8.一种文本修正装置,其特征在于,包括:
文本修正模块,被配置为执行获取第一文本,对所述第一文本进行修正处理,得到第二文本;
文本质量比较模块,被配置为执行将所述第一文本和所述第二文本输入预先建立的文本质量比较模型,得到所述第一文本和所述第二文本的文本质量比较结果;
修正结果确定模块,被配置为执行根据所述文本质量比较结果,确定所述第一文本的文本修正结果。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
CN202010730260.XA 2020-07-27 2020-07-27 文本修正方法及装置、电子设备、存储介质 Active CN111832288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010730260.XA CN111832288B (zh) 2020-07-27 2020-07-27 文本修正方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010730260.XA CN111832288B (zh) 2020-07-27 2020-07-27 文本修正方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111832288A true CN111832288A (zh) 2020-10-27
CN111832288B CN111832288B (zh) 2023-09-29

Family

ID=72925619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010730260.XA Active CN111832288B (zh) 2020-07-27 2020-07-27 文本修正方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111832288B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541342A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
EP3493081A1 (en) * 2017-11-27 2019-06-05 Tata Consultancy Services Limited Systems and methods for segmenting interactive session text
US10354203B1 (en) * 2018-01-31 2019-07-16 Sentio Software, Llc Systems and methods for continuous active machine learning with document review quality monitoring
CN110083807A (zh) * 2019-03-12 2019-08-02 平安科技(深圳)有限公司 合同的修改影响自动预测方法、装置、介质及电子设备
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN110991155A (zh) * 2018-09-28 2020-04-10 科沃斯商用机器人有限公司 文本修正方法、设备及介质
CN111177390A (zh) * 2019-12-30 2020-05-19 南京三百云信息科技有限公司 基于混合模型的事故车辆识别方法和装置
CN111178049A (zh) * 2019-12-09 2020-05-19 天津幸福生命科技有限公司 一种文本修正方法、装置、可读介质及电子设备
CN111221960A (zh) * 2019-10-28 2020-06-02 支付宝(杭州)信息技术有限公司 文本检测方法、相似度计算方法、模型训练方法及装置
US20200183928A1 (en) * 2018-12-11 2020-06-11 DeepAssist Inc. System and Method for Rule-Based Conversational User Interface

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
EP3493081A1 (en) * 2017-11-27 2019-06-05 Tata Consultancy Services Limited Systems and methods for segmenting interactive session text
US10354203B1 (en) * 2018-01-31 2019-07-16 Sentio Software, Llc Systems and methods for continuous active machine learning with document review quality monitoring
CN110991155A (zh) * 2018-09-28 2020-04-10 科沃斯商用机器人有限公司 文本修正方法、设备及介质
US20200183928A1 (en) * 2018-12-11 2020-06-11 DeepAssist Inc. System and Method for Rule-Based Conversational User Interface
CN110083807A (zh) * 2019-03-12 2019-08-02 平安科技(深圳)有限公司 合同的修改影响自动预测方法、装置、介质及电子设备
CN110738059A (zh) * 2019-10-21 2020-01-31 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN111221960A (zh) * 2019-10-28 2020-06-02 支付宝(杭州)信息技术有限公司 文本检测方法、相似度计算方法、模型训练方法及装置
CN111178049A (zh) * 2019-12-09 2020-05-19 天津幸福生命科技有限公司 一种文本修正方法、装置、可读介质及电子设备
CN111177390A (zh) * 2019-12-30 2020-05-19 南京三百云信息科技有限公司 基于混合模型的事故车辆识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAN ANGELA 等: "Using local knowledge graph construction to scale seq2seq models to multi-document inputs", 《网页在线公开: HTTPS://ARXIV.ORG/ABS/1910.08435》, pages 1 - 16 *
ROZOVSKAYA ALLA 等: "Generating confusion sets for context-sensitive error correction", 《PROCEEDINGS OF THE 2010 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》, pages 961 - 970 *
冯骁骋: "基于表示学习的信息抽取技术研究", 《中国博士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 269 *
李苑: "基于多粒度序列注意力机制的短文本分析", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 2207 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541342A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111832288B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US9779080B2 (en) Text auto-correction via N-grams
US11735184B2 (en) Translation and speech recognition method, apparatus, and device
US20150331854A1 (en) Domain specific natural language normalization
CN111339758B (zh) 基于深度学习模型的文本纠错方法及***
CN111563390B (zh) 文本生成方法、装置和电子设备
US20230419969A1 (en) Speech-to-text system
CN111326144A (zh) 语音数据处理方法、装置、介质和计算设备
CN109558600B (zh) 翻译处理方法及装置
CN111832288B (zh) 文本修正方法及装置、电子设备、存储介质
US20210343290A1 (en) Speech-to-text system
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN113792133B (zh) 判题方法、装置、电子设备和介质
CN111339790B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
CN110728137B (zh) 用于分词的方法和装置
CN111626059B (zh) 一种信息处理方法及装置
CN115101072A (zh) 一种语音识别处理方法和装置
CN113609157A (zh) 语言转换模型训练、语言转换方法、装置、设备及介质
CN112149417A (zh) 词性标注方法和装置、存储介质和电子设备
CN112905869B (zh) 语言模型的自适应训练方法、装置、存储介质及设备
CN118171655B (zh) 姓名生成方法及装置、电子设备、计算机程序产品
CN114492457B (zh) 语义识别方法、装置、电子设备及存储介质
CN113360705B (zh) 数据管理方法和数据管理装置
CN116822604A (zh) 模型训练方法、文本处理方法及翻译***
CN114254647A (zh) 意图识别方法、装置、电子设备和存储介质
CN116384360A (zh) 任务处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant