CN113177405A

CN113177405A - 基于bert的数据纠错方法、装置、设备及存储介质

Info

Publication number: CN113177405A
Application number: CN202110596473.2A
Authority: CN
Inventors: 马丹; 黄少波; 曾增烽
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-07-27

Abstract

本申请实施例涉及数据处理领域，公开了一种基于BERT的数据纠错方法、装置、设备及存储介质，该方法包括：获取待纠错源数据，识别所述待纠错源数据中的异常数据，并确定所述异常数据对应的候选数据集合，所述候选数据集合中包括一个或多个候选数据；调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果；根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据；根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标语句。可以有效的提高数据纠错准确性。本申请涉及区块链技术，如可将上述数据写入区块链中，以用于数据纠错等场景。

Description

基于BERT的数据纠错方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于BERT的数据纠错方法、装置、设备及存储介质。

背景技术

随着计算机技术的快速发展，问答机器人，对话***等技术越来越广泛地应用在人们的日常工作或生活中，这些技术的输入一般是文字或者语音，而文字输入或语音输入通常会出现输入错误。例如，针对问答机器人，用户在问答机器人进行语音输入时，问答机器人在识别用户的语音的过程中可能出现错误识别，即导致最终输入到问答机器人中的文字出现错字，或者用户在问答机器人进行文字输入时，用户可能输错了某个字。因此，在纠错领域中，如何提高纠错准确性成为了亟需解决的问题。

发明内容

本申请实施例提供了一种基于BERT的数据纠错方法、装置、设备及存储介质，通过实施上述方法，可以在得到异常数据对应的候选数据集合后，对候选数据集合中的各个候选数据进行排序，以根据排序结果来来确定最终可替换的数据，从而提高纠错准确性。

第一方面，本申请实施例公开了一种基于BERT的数据纠错方法，所述方法包括：

获取待纠错源数据，识别所述待纠错源数据中的异常数据，并确定所述异常数据对应的候选数据集合，所述候选数据集合中包括一个或多个候选数据；

调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果；

根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据；

根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标数据。

第二方面，本申请实施例公开了一种数据纠错装置，所述装置包括：

获取单元，用于获取待纠错源数据，识别所述待纠错源数据中的异常数据，并确定所述异常数据对应的候选数据集合，所述候选数据集合中包括一个或多个候选数据；

调用单元，用于调用基于BERT的掩码语言模型对所述候选数据集合中各个候选数据进行排序，得到所述异常数据对应的候选数据排序结果；

确定单元，用于根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据；

替换单元，用于根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标数据。

第三方面，本申请实施例公开了一种设备，包括处理器、存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本申请实施例公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例中，设备可以获取待纠错源数据，以识别待纠错源数据中的异常数据，并确定异常数据对应的候选数据集合，候选数据集合中包括一个或多个候选数据。然后，可以调用基于BERT的掩码语言模型对异常数据进行掩码处理，以得到异常数据对应的候选数据排序结果。从而可以根据异常数据对应的候选数据排序结果中排在第一位的候选数据，确定异常数据对应的替换数据。进一步的，可以根据替换数据对异常数据进行替换，以得到待纠错源数据的目标数据。通过实施上述方法，可以在得到异常数据对应的候选数据集合后，对候选数据集合中的各个候选数据进行排序，以根据排序结果来确定最终可替换的字，从而提高纠错准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于BERT的数据纠错方法的流程示意图；

图2是本申请实施例提供的另一种基于BERT的数据纠错方法的流程示意图；

图3是本申请实施例提供的又一种基于BERT的数据纠错方法的流程示意图；

图4是本申请实施例提供的又一种基于BERT的数据纠错方法的流程示意图；

图5是本申请实施例提供的一种数据纠错装置的结构示意图；

图6是本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请实施例提供的一种基于BERT的数据纠错方法的流程示意图。本实施例中所描述的数据纠错方法，应用于设备，可由设备执行，其中，该设备可以是服务器，也可以是终端。如图1所示，该数据纠错方法包括以下步骤：

S101：获取待纠错源数据，识别待纠错源数据中的异常数据，并确定异常数据对应的候选数据集合，候选数据集合中包括一个或多个候选数据。

在一种实现方式中，可以先获取待纠错源数据，例如，待纠错源数据可以是一个语句，比如，可以获取用户在问答机器人中输入的一个语句，该语句可以是以文本输入的语句或者是以语音输入并转化为文本的语句。在获取到待纠错源数据之后，可以识别该待纠错源数据中的异常数据，并得到异常数据对应的候选数据集合。而在得到候选数据即可之后，即可以执行后续的步骤，对候选数据集合中的每个候选数据进行排序，以便于根据候选数据排序结果确定异常数据的替换数据。例如，如果待纠错源数据是一个语句，则异常数据可以是指该语句中的错字，而异常数据对应的候选数据集合可以是候选字集合，该候选字集合可以包括一个或多个候选字。如图2所示为本申请实施的另一种基于BERT的数据纠错方法的流程，如图2流程中，假设待纠错源数据是一个待纠错语句，则可以先识别该待纠错语句中的错字，并而在识别出错字之后，可以确定该错字对应的候选字集合，从而可以对候选字集合中的每个候选字进行排序，以根据候选字排序结果确定错字的替换字。

在一种实现方式中，识别待纠错源数据中的异常数据，并得到异常数据对应的候选数据集合的具体实施方式在本申请不做限定，例如，可以利用深度神经网络模型识别待纠错源数据中的异常数据并确定异常数据对应的候选数据集合。其中，深度神经网络模型例如可以是循环神经网络(Recurrent Neural Network，RNN)模型、条件随机场(Conditional Random Fields，CRF)模型、seq2seq(序列对序列)模型等可用于异常数据识别的异常数据识别模型，还可以是其他模型，在本申请不做限定。可以理解的是，在利用异常数据识别模型进行识别时，可以先对异常数据识别模型进行训练，以得到训练后的异常数据识别模型，其中，对异常数据识别模型进行训练所采用的训练数据集的具体获取方式可以如下，可以收集针对目标领域的训练数据集，例如，该目标领域可以是教育领域、保险领域、学术研讨领域等等，从而使得训练后的异常数据识别模型是针对目标领域的数据纠错，那么，当将该异常数据识别模型应用到目标领域并实现数据纠错时，也可以提高异常数据识别的准确性。其中，在训练数据集可以是一批相对准确的训练数据，即训练数据中不包括异常数据，在获取到该训练数据集之后，还可以对该训练数据集进行异常数据处理，而经过异常数据处理的训练数据集即是训练异常数据识别模型所采用的训练数据集。具体地，训练数据集的异常数据处理具体可以是在收集到训练数据集之后，再以一个随机概率将训练数据集中正确数据替换为异常数据。例如，训练数据集中包括多个训练语句，假设随机概率为15％，即可以将训练数据集中15％的正确字替换为错字，其中，替换的错字可以由正确字对应的同音字和随机错别字组成，例如替换的错字中有80％为正确字对应的同音字，20％为随机的错别字。也可以根据其他方式获取集针对目标领域的训练数据集，在本申请不做限定。

S102：调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到异常数据对应的候选数据排序结果。

在一种实现方式中，如图2所示的数据纠错的流程中，在得到候选数据集合之后，可以对候选数据集合中各个候选数据进行排序，得到异常数据对应的候选数据排序结果。具体地，可以将待纠错源数据输入到基于BERT的掩码语言模型，以根据该掩码语言模型得到异常数据对应的候选数据排序结果。该基于BERT的掩码语言模型是根据目标领域的训练数据集对初始掩码语言模型进行微调处理得到的，目标领域可以是指某个特定的领域，例如目标领域可以是教育领域、保险领域、学术研讨领域等等。在得到基于BERT的掩码语言模型之后，即可以利用基于BERT的掩码语言模型对待纠错源数据中异常数据对应的异常数据位置进行掩码处理，以确定候选数据集合中每一个候选数据在异常数据位置的出现概率。那么，在确定每一个候选数据在异常数据位置的出现概率之后，则可以对候选数据集合中每一个候选数据在异常数据位置的出现概率进行降序排序，从而得到异常数据对应的候选数据排序结果。

S103：根据异常数据对应的候选数据排序结果中排在第一位的候选数据，确定异常数据对应的替换数据。

S104：根据替换数据对异常数据进行替换，得到待纠错源数据的目标数据。

在步骤S103和步骤S104中，可以将异常数据的候选数据排序结果中处于第一位的候选数据确定为该异常数据的替换数据，并利用该替换数据对待纠错源数据中的异常数据进行替换，以得到替换后的待纠错源数据，该替换后的待纠错源数据即是待纠错源数据的目标数据。

在一种实现方式中，在对待纠错源数据进行纠错时，可能出现将待纠错源数据中的正确数据识别为异常数据的情况，即后续可能存在将正确数据改错的情况。那么，可以考虑设置一些关于替换数据的选取规则，在满足该选取规则的情况下，则可以利用该替换数据对带纠错语句中的异常数据进行替换。具体地，可以先将异常数据对应的候选数据排序结果中排在第一位的候选数据确定为异常数据的候选替换数据。在确定候选替换数据之后，再检测该候选替换数据是否满足预设选取规则。而当检测到该候选替换数据满足预设选取规则时，则可以将候选替换数据确定为异常数据对应的替换数据。并利用该替换数据对待纠错源数据中的异常数据进行替换，以得到替换后的待纠错源数据，该替换后的待纠错源数据即是目标数据。

在一种实现方式中，确定检测到候选替换数据满足预设选取规则的具体实施方式可以为如下描述，检测候选替换数据的出现概率是否大于或等于预设概率阈值，如果检测到该出现概率大于或等于预设概率阈值，则可以确定检测到候选替换数据满足预设选取规则。其中，预设概率阈值可以预先设置。

在一种实现方式中，确定检测到候选替换数据满足预设选取规则的具体实施方式可以为如下描述，可以先根据置信度集合确定异常数据的置信度，其中，确定异常数据的置信度的方法可以参考上述描述，在此处不在赘述。在确定异常数据的置信度之后，可以检测候选替换数据的出现概率和异常数据的置信度之间的差值是否大于或等于预设阈值。当检测到候选替换数据的出现概率和异常数据的置信度之间的差值大于或等于预设阈值时，则可以确定检测到候选替换数据满足预设选取规则。其中，预设阈值可以预先设置，当该预设阈值越大时，候选替换数据作为替换数据的准确性越高，即利用该替换数据替换异常数据所得到的目标数据的准确性越高。

在一种实现方式中，确定检测到候选替换数据满足预设选取规则的具体实施方式还可以为如下描述，可以对置信度集合中的各个置信度进行降序排序，得到置信度排序结果，确定候选替换数据的置信度(出现概率)在置信度排序结果的第一位置，并确定异常数据的置信度在置信度排序结果的第二位置。其中，确定异常数据的置信度的方法可以参考上述描述，在此处不在赘述。在确定第一位置和第二位置之后，再检测第一位置和第二位置之间的差值是否大于或等于预设位置阈值，而当检测到第一位置和第二位置之间的差值大于或等于预设位置阈值时，则可以确定检测到候选替换数据满足预设选取规则。其中，预设位置阈值可以预先设置，当该预设位置阈值越大时，候选替换数据作为替换数据的准确性越高，即利用该替换数据替换异常数据所得到的目标数据的准确性越高。

可选的，确定检测到候选替换数据满足预设选取规则的具体实施方式还可以包括其他方式，在本申请不做限定。

本申请实施例中，设备可以获取待纠错源数据，识别待纠错源数据中的异常数据，并确定异常数据对应的候选数据集合，候选数据集合中可以包括一个或多个候选数据。接着，可以调用基于BERT的掩码语言模型对候选数据集合中各个候选数据进行排序，以得到异常数据对应的候选数据排序结果。并根据异常数据对应的候选数据排序结果中排在第一位的候选数据，确定异常数据对应的替换数据。进一步的，可以根据替换数据对异常数据进行替换，从而得到待纠错源数据的目标数据。通过实施上述方法，可以在得到异常数据对应的候选数据集合后，再确定每个候选数据为该异常数据所对应的异常数据位置的出现概率，以根据出现概率对候选数据集合中的各个候选数据进行排序，从而可以根据排序结果以及选取规则来确定最终可替换的数据，从而提高纠错准确性。

请参阅图3，图3是本申请实施例提供的又一种基于BERT的数据纠错方法的流程示意图。本实施例中所描述的数据纠错方法，应用于设备，可由设备执行，其中，该设备可以是服务器，也可以是终端。如图3所示，该数据纠错方法包括以下步骤：

S301：获取待纠错源数据，识别待纠错源数据中的异常数据，并确定异常数据对应的候选数据集合。

S302：将待纠错源数据输入到基于BERT的掩码语言模型，基于BERT的掩码语言模型是根据目标领域的训练数据集对初始掩码语言模型进行微调处理得到的。

在一种实现方式中，初始掩码语言模型可以是BERT模型，本申请中的BERT模型是已经采用大量训练样本，并完成了预训练的预训练语言模型，考虑到训练该预训练语言模型所采用的训练样本一般是新闻等领域的语料，如果将预训练语言模型作为上述的掩码语言模型，并将该掩码语言模型用于其他业务领域中，那么，掩码语言模型的模型效果可能比较差。例如，假设本申请的应用场景是某一对话***，且对话***是针对特定领域的，例如该特定领域可以是教育领域、保险领域、学术研讨领域等等。可以看出，预训练语言模型所用到的训练样本是新闻等领域的语句，而不是针对特定领域的语句，也就是训练样本中缺少很多特定领域的词汇。那么，在这种情况下，可以考虑利用与应用场景相关的训练样本对预训练语言模型进行微调，以得到不同应用场景下的BERT模型。在本申请中，可以获取目标领域的训练数据集，然后再利用该训练数据集对初始掩码语言模型进行微调，以得到基于BERT的掩码语言模型。其中，训练数据集中可以包括一个或多个训练数据，可以将训练数据集中的所有异常数据的数量控制在一个较少的范围内，以保证掩码语言模型的准确性。目标领域可以是上述描述的教育领域、保险领域、学术研讨领域等等，那么，目标领域的训练数据集也就是与目标领域相关的数据，即与目标领域相关的数据中也会存在目标领域的词汇。

S303：利用基于BERT的掩码语言模型对待纠错源数据中异常数据对应的异常数据位置进行掩码处理，确定候选数据集合中每一个候选数据在异常数据位置的出现概率。

在一种实现方式中，可以利用基于BERT的掩码语言模型对待纠错源数据中异常数据位置进行掩码处理，以得到针对参考字典中所有参考数据对应的置信度集合。其中，该置信度集合可以包括参考字典中每一个参考数据对应的置信度，那么，在得到置信度集合之后，可以从置信度集合中确定候选数据集合中每一个候选数据的置信度。参考字典中包含大量的参考数据，且所有参考数据存在一个固定顺序，即每个参考数据在参考字典中的位置是固定不变的，且通过基于BERT的掩码语言模型得到参考字典中每一个参考数据对应的置信度集合中的置信度的顺序也与上述固定顺序一致，即在通过掩码语言模型得到置信度集合之后，可以根据置信度集合中各个置信度对应的位置和参考字典中各个参考数据的位置确定每个参考数据对应的置信度。那么，利用掩码语言模型确定候选数据集合中每一个候选数据在异常数据位置的出现概率的具体实施方式可以为如下描述，针对候选数据集合中的任一候选数据，可以将参考字典中的各个参考数据与候选数据进行匹配，以确定匹配到的参考数据在参考字典中的指定位置，而在确定该指定位置之后，再从置信度集合中确定与该指定位置对应的目标位置，那么，在置信度集合中处于目标位置的置信度即可确定为该候选数据的置信度。通过上述方法，可以在置信度集合中确定每一个候选数据的置信度，而在确定每一个候选数据的置信度之后，即可以将每一个候选数据的置信度确定为每一个候选数据在异常数据位置的出现概率。

举例来说，以待纠错源数据为一个语句进行举例说明，则异常数据可以理解为错字，错字对应的候选数据可以理解为候选字，参考字典中的参考数据可以理解为参考字。假设参考字典A为[A₁、A₂、…、A_k、…、A_n]，置信度集合p为[p₁、p₂、…、p_k、…、p_n]，其中，A_n表示参考字典A中的各个参考字，下角标n表示参考字A_n在参考字典A的位置，即A_n在参考字典A的第n个位置，p_n表示置信度集合p中的各个置信度，下角标n表示置信度p_n在置信度集合p的位置，即p_n在置信度集合p的第n个位置。可以理解的是，参考字典中的各个参考字与置信度集合中的各个置信度是一一对应的，即在参考字典中的某个位置的参考字对应的置信度为置信度集合中位于该位置的置信度。例如，针对参考字典中的参考字A2，可知，该参考字在参考字典中的位置处于第二位，那么，在从置信度集合中确定该参考字的置信度时，只需要确定置信度集合中处于第二位置的置信度，而处于第二位置的置信度即为该参考字对应的置信度，即参考字A2的置信度为p2。那么，针对候选数据集合中的任一候选字，假设该候选字为A_k，可以先将该候选字为A_k与参考字典A中的各个参考字进行匹配，根据上述的参考字典A可以确定A_k在参考字典A中的指定位置为第k位。那么，在确定指定位置之后，再从置信度集合p中确定与该指定位置对应的目标位置，该目标位置也就是置信度集合p中的第k位。而位于置信度集合p中的第k位的置信度p_k即可确定为候选字A_k的置信度，则候选字A_k在错字位置的出现概率为p_k。

S304：对候选数据集合中每一个候选数据在异常数据位置的出现概率进行降序排序，得到异常数据对应的候选数据排序结果。

在一种实现方式中，可以对候选数据集合中每一个候选数据在异常数据位置的出现概率进行降序排序，以得到出现概率候选数据排序结果。而在确定出现概率候选数据排序结果之后，可以根据候选数据与出现概率的对应关系，确定异常数据对应的候选数据排序结果。

举例来说，假设候选数据集合中有7个候选数据，分别为候选数据1、候选数据2、候选数据3、候选数据4、候选数据5、候选数据6、候选数据7，每个候选数据在异常数据位置的出现概率分别为0.25、0.85、0.5、0.75、0.80、0.4、0.3，然后将上述出现概率进行降序排序，可以得到出现概率排序结果为0.85、0.80、0.75、0.5、0.4、0.3、0.25，将出现概率排序结果中的各个出现概率与其对应的候选数据进行匹配，即可以得到异常数据对应的候选数据排序结果为候选数据2(0.85)、候选数据5(0.80)、候选数据4(0.75)、候选数据3(0.5)、候选数据6(0.4)、候选数据7(0.3)、候选数据1(0.25)。

S305：根据异常数据对应的候选数据排序结果中排在第一位的候选数据，确定异常数据对应的替换数据。

S306：根据替换数据对异常数据进行替换，得到待纠错源数据的目标数据。

在一种实现方式中，考虑到如果待识别语句中存在多个异常数据，那么，在利用掩码语言模型对待纠错源数据中异常数据对应的异常数据位置进行掩码处理时，需要利用掩码语言模型对多个异常数据对应的异常数据位置进行掩码，即在利用掩码语言模型进行处理是会出现多个掩码，若同时对多个掩码进行处理，即同时根据掩码语言模型确定多个异常数据中每个异常数据的替换数据，可能会降低掩码语言模型的模型处理效率和模型准确性。那么，在异常数据的数量为至少两个的情况下，可以采用迭代方式对待识别语句中异常数据实现纠错，即一次迭代对一个掩码进行处理。如图4所示是本申请提供的又一种基于BERT的数据纠错方法的流程，图4主要显示的是利用迭代方式对待纠错源数据中异常数据实现纠错的流程，如图4所示的流程中，可以先收集目标领域的训练数据集，然后，利用该训练数据集对初始掩码语言模型进行微调处理，以得到基于BERT的掩码语言模型。进一步的，采用迭代方式，并利用该掩码语言模型对待识别语句中的多个异常数据实现纠错，具体地，可以根据至少两个异常数据在待纠错源数据中的异常数据位置，确定至少两个异常数据中每一个异常数据对应的纠错顺序，其中，异常数据位置在待纠错源数据中的先后顺序即可以是每一个异常数据对应的纠错顺序。那么，在每一个异常数据对应的纠错顺序之后，可以将待识别语句输入到掩码语言模型，以得到第一异常数据对应的替换数据，并根据第一异常数据对应的替换数据对第一异常数据进行替换，以得到待纠错源数据的第一纠错源数据，其中，第一异常数据为纠错顺序为第一位的异常数据。而在得到第一纠错源数据之后，可以将该第一纠错源数据输入到掩码语言模型，以得到第二异常数据对应的替换数据，并根据第二异常数据对应的替换数据对第二异常数据进行替换，得到待纠错源数据的第二纠错源数据，其中，第二异常数据为纠错顺序为第二位的异常数据。当第二纠错源数据不包括至少两个异常数据中的任意一个异常数据时，则可以将第二纠错源数据确定为目标数据。通过上述步骤可以看出，待纠错源数据中的掩码个数会越变越少，因为每进行一次迭代就对待纠错源数据中的一个异常数据进行了替换，直到待纠错源数据中不存在掩码，也就是不存在异常数据时，即可停止迭代的循环，那么，待纠错源数据中的每个异常数据进行了纠错。

其中，步骤S301、S305-S306的具体实施方式可以参见上述实施例步骤S101、S103-S104的具体描述，此处不再赘述。

本申请实施例中，设备可以获取待纠错源数据，以识别待纠错源数据中的异常数据，并确定异常数据对应的候选数据集合，候选数据集合中可以包括一个或多个候选数据，然后，将待纠错源数据输入到基于BERT的掩码语言模型，以利用掩码语言模型对待纠错源数据中异常数据对应的异常数据位置进行掩码处理，从而确定候选数据集合中每一个候选数据在异常数据位置的出现概率，接着，可以对候选数据集合中每一个候选数据在异常数据位置的出现概率进行降序排序，以得到异常数据对应的候选数据排序结果，再根据异常数据对应的候选数据排序结果中排在第一位的候选数据，确定异常数据对应的替换数据，进一步的，可以根据替换数据对异常数据进行替换，得到待纠错源数据的目标数据。通过实施上述方法，可以在得到异常数据对应的候选数据集合后，再次确定每个候选数据为该异常数据所对应的异常数据位置的出现概率，以根据出现概率对候选数据集合中的各个候选数据进行排序，从而可以根据排序结果以及选取规则来确定最终可替换的字，从而提高纠错准确性。

请参阅图5，图5是本申请实施例提供的一种数据纠错装置的结构示意图，该数据纠错装置包括：

获取单元501，用于获取待纠错源数据，识别所述待纠错源数据中的异常数据，并确定所述异常数据对应的候选数据集合，所述候选数据集合中包括一个或多个候选数据；

调用单元502，用于调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果；

确定单元503，用于根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据；

替换单元504，用于根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标数据。

在一种实现方式中，所述调用单元502，具体用于：

将所述待纠错源数据输入到基于BERT的掩码语言模型，所述基于BERT的掩码语言模型是根据目标领域的训练数据集初始掩码语言模型进行微调处理得到的；

利用所述基于BERT的掩码语言模型对所述待纠错源数据中异常数据对应的异常数据位置进行掩码处理，确定所述候选数据集合中每一个候选数据在所述异常数据位置的出现概率；

对所述候选数据集合中每一个候选数据在所述异常数据位置的出现概率进行降序排序，得到所述异常数据对应的候选数据排序结果。

在一种实现方式中，所述调用单元502，具体用于：

利用所述基于BERT的掩码语言模型对所述待纠错源数据中异常数据位置进行掩码处理，得到针对参考字典中所有参考数据对应的置信度集合，所述置信度集合包括所述参考字典中每一个参考数据对应的置信度；

从所述置信度集合中确定所述候选数据集合中每一个候选数据的置信度；

将所述每一个候选数据的置信度确定为所述每一个候选数据在所述异常数据位置的出现概率。

在一种实现方式中，所述调用单元502，具体用于：

针对所述候选数据集合中的任一候选数据，将所述参考字典中的各个参考数据与所述候选数据进行匹配；

确定匹配到的参考数据在所述参考字典中的指定位置；

确定所述指定位置在所述置信度集合中的目标位置，将所述置信度集合中处于所述目标位置的置信度确定为所述候选数据的置信度。

在一种实现方式中，所述确定单元503，具体用于：

将所述异常数据对应的候选数据排序结果中排在第一位的候选数据确定为所述异常数据的候选替换数据；

检测所述候选替换数据是否满足预设选取规则；

当检测到所述候选替换数据满足所述预设选取规则时，则将所述候选替换数据确定为所述异常数据对应的替换数据。

在一种实现方式中，所述确定单元503，还用于：

根据所述置信度集合确定所述异常数据的置信度；

检测所述候选替换数据的出现概率和所述异常数据的置信度之间的差值是否大于或等于预设阈值；

当检测到所述候选替换数据的出现概率和所述异常数据的置信度之间的差值大于或等于所述预设阈值时，则确定检测到所述候选替换数据满足所述预设选取规则。

在一种实现方式中，所述异常数据的数量为至少两个；所述调用单元502，还用于：

根据至少两个异常数据在所述待纠错源数据中的异常数据位置，确定所述至少两个异常数据中每一个异常数据对应的纠错顺序；

根据第一异常数据对应的替换数据对所述第一异常数据进行替换，得到所述待纠错源数据的第一纠错源数据，所述第一异常数据为所述纠错顺序为第一位的异常数据；

将所述第一纠错源数据输入到所述基于BERT的掩码语言模型，得到所述第二异常数据对应的替换数据，并根据所述第二异常数据对应的替换数据对所述第二异常数据进行替换，得到所述待纠错源数据的第二纠错源数据，所述第二异常数据为所述纠错顺序为第二位的异常数据；

当所述第二纠错源数据不包括所述至少两个异常数据中的任意一个异常数据时，将所述第二纠错源数据确定为目标数据。

可以理解的是，本申请实施例所描述的数据纠错装置的各功能单元的功能可根据图1或者图3所述的方法实施例中的方法具体实现，其具体实现过程可以参照图1或者图3的方法实施例的相关描述，此处不再赘述。

本申请实施例中，获取单元501获取待纠错源数据，识别所述待纠错源数据中的异常数据，并确定所述异常数据对应的候选数据集合，所述候选数据集合中包括一个或多个候选数据；调用单元502调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果；确定单元503根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据；替换单元504根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标数据。通过实施上述方法，可以提高数据纠错准确性。

请参阅图6，图6是本申请实施例提供的一种设备的结构示意图。该设备包括：处理器601、存储器602以及网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。

上述处理器601可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供程序指令和数据。存储器602的一部分还可以包括随机存取存储器。其中，所述处理器601调用所述程序指令时用于执行：

在一种实现方式中，所述处理器601，具体用于：

将所述待纠错源数据输入到基于BERT的掩码语言模型，所述基于BERT的掩码语言模型是根据目标领域的训练数据集对初始掩码语言模型进行微调处理得到的；

在一种实现方式中，所述处理器601，具体用于：

确定匹配到的参考数据在所述参考字典中的指定位置；

在一种实现方式中，所述处理器601，具体用于：

检测所述候选替换数据是否满足预设选取规则；

在一种实现方式中，所述处理器601，还用于：

根据所述置信度集合确定所述异常数据的置信度；

在一种实现方式中，所述异常数据的数量为至少两个；所述处理器601，还用于：

将所述第一纠错语句输入到所述基于BERT的掩码语言模型，得到所述第二异常数据对应的替换数据，并根据所述第二异常数据对应的替换数据对所述第二异常数据进行替换，得到所述待纠错源数据的第二纠错源数据，所述第二异常数据为所述纠错顺序为第二位的异常数据；

具体实现中，本申请实施例中所描述的处理器601和存储器602可执行本申请实施例图1或者图3提供的数据纠错方法中所描述的实现方式，也可执行本申请实施例图5所描述的数据纠错装置的实现方式，在此不再赘述。

本申请实施例中，处理器601可以获取待纠错源数据，识别所述待纠错源数据中的异常数据，并确定所述异常数据对应的候选数据集合，所述候选数据集合中包括一个或多个候选数据；调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果；根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据；根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标数据。通过实施上述方法，可以提高数据纠错准确性。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，所述程序执行时可包括如图1或者图3对应实施例中的数据纠错方法的部分或全部步骤。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

需要强调的是，为进一步保证上述数据的私密和安全性，上述数据还可以存储于一区块链的节点中。其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上对本申请实施例所提供的一种基于BERT的数据纠错方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于BERT的数据纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述基于BERT的掩码语言模型对所述待纠错源数据中的异常数据位置进行掩码处理，确定所述候选数据集合中每一个候选数据在所述异常数据位置的出现概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述置信度集合中确定所述候选数据集合中每一个候选数据的置信度，包括：

确定匹配到的参考数据在所述参考字典中的指定位置；

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据，确定所述异常数据对应的替换数据，包括：

检测所述候选替换数据是否满足预设选取规则；

6.根据权利要求5所述的方法，其特征在于，所述检测到所述候选替换数据满足所述预设选取规则之前，还包括：

根据所述置信度集合确定所述异常数据的置信度；

7.根据权利要求1所述的方法，其特征在于，所述异常数据的数量为至少两个；所述方法还包括：

所述根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标数据，包括：

8.一种数据纠错装置，其特征在于，包括：

调用单元，用于调用基于BERT的掩码语言模型对所述异常数据进行掩码处理，得到所述异常数据对应的候选数据排序结果；

替换单元，用于根据所述替换数据对所述异常数据进行替换，得到所述待纠错源数据的目标语句。

9.一种设备，其特征在于，包括处理器、存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。