CN113761880B

CN113761880B - 一种用于文本校验的数据处理方法、电子设备及存储介质

Info

Publication number: CN113761880B
Application number: CN202111310983.5A
Authority: CN
Inventors: 刘远; 陈旻晖
Original assignee: Clp Suzhou Shared Services Co ltd; Beijing Zhongdian Huizhi Technology Co ltd
Current assignee: Clp Suzhou Shared Services Co ltd; Beijing Zhongdian Huizhi Technology Co ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-03-04
Anticipated expiration: 2041-11-08
Also published as: CN113761880A

Abstract

本发明涉及一种用于文本校验的数据处理方法、电子设备及存储介质，所述方法包括如下步骤：从文本数据库获取样本文本列表并当任一样本文本中存在与预设关键词列表中任一预设关键词一致的关键词时，将样本文本的关键词位置标记为指定起始位置和将样本文本的结束位置标记为指定结束位置，且将指定起始位置和指定结束位置之间的语段作为的目标语段，以基于存在目标语段的样本文本作为训练集数据，构建成训练集；将训练集输入至预设的语言模型中进行训练，得到已训练的语言模型；通过已训练的语言模型，获取目标文本的知识图谱，以使得根据知识图谱与预设的校验数据进行比对。本发明能够提高结构化文本数据和半结构化文本数据比对的准确性格效率。

Description

一种用于文本校验的数据处理方法、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种用于文本校验的数据处理方法、电子设备及存储介质。

背景技术

现有技术中，将文本数据划分成三种类型分别为：结构化文本数据，随机文本数据和半结构化文本数据；其中，结构化文本数据中，特定位置的文本数据具有特定含义，易于被转化为关系型数据库中的表结构，例如cvs格式的文本数据、OCR处理后的***文本数据或电力***特定领域的结算单数据等；随机文本数据中，各文本位置处的文本数据具有随机含义，例如，互联网上传播的新闻、小说、散文等文学作品等文本数据；半结构化文本数据介于结构化文本数据和随机文本数据之间，特定位置的文本数据可具有特定含义，但难于被转化为关系型数据库中的表结构，例如，电力***等特定领域的合同中的结算条款等。

在一些应用场景中，尤其是电力***的结算审核场景中，需要对结构化文本数据和半结构化文本数据进行比对，即判断结算单据中的结构化数据是否符合合同中的半结构化的结算条款的要求，但是由于半结构化文本数据难于转换为关系型数据库的表结构，因此现有技术中通常采用人工方式进行比对，会导致数据比对的效率和准确率均较低，影响到数据的校验过程。

发明内容

针对上述技术问题，本申请采用的技术方案为一种用于文本校验的数据处理方法、电子设备及存储介质，所述方法包括如下步骤：

S100、从文本数据库的第一文本集中获取m个第一文本均作为样本文本，构建成样本文本列表A=（A₁，A₂，A₃，……，A_m），A_i是指第i个样本文本，i=1……m，并当A_i中存在与预设关键词列表中任一预设关键词一致的关键词时，将A_i的关键词位置标记为指定起始位置和将A_i的结束位置标记为指定结束位置，且将所述指定起始位置和所述指定结束位置之间的语段作为A_i的目标语段，以基于存在所述目标语段的A_i作为训练集数据，构建成训练集；

S200、将所述训练集输入至预设的语言模型中进行训练，得到已训练的语言模型；

S300、获取目标文本且将所述目标文本输入至已训练的语言模型中，获取目标文本对应的目标数据列表B=（B₁，B₂，B₃，……，B_n），B_j是指第j个目标数据，j=2……n，n为目标数据数量，并将B中每一B_j以若干个预设的三元组构架，获取所述目标文本对应的目标知识图谱；

S400、获取目标文本的文本ID，并根据目标文本的文本ID，从校验数据列表中获取所述目标文本的文本ID对应的所有校验数据，以每一所述校验数据作为第一中间数据构建成第一中间数据列表；

S500、遍历所述目标知识图谱且当所述目标知识图谱中任一目标数据与所述第一中间数据列表中对应的第一中间数据不一致时，将所述第一中间数据替换为对应的所述目标数据。

本发明还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种获取目标位置的数据处理***可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明获取样本文本列表且当样本文本中存在与预设关键词列表中任一预设关键词一致的关键词时，将样本文本的关键词位置标记为指定起始位置和将样本文本的结束位置标记为指定结束位置，且将所述指定起始位置和所述指定结束位置之间的语段作为样本文本的目标语段，以基于存在所述目标语段的样本文本作为训练集数据，构建成训练集；将所述训练集输入至预设的语言模型中进行训练，得到已训练的语言模型；

实现对语言模型进行优化，能够准确和高效率的确定出可以提取特定含义数据的目标语段，减少全文本数据的提取和其他数据的干扰，便于文本中数据的比对；

同时，将目标文本输入至已训练的语言模型中，获取目标文本对应的特征值列表且将每一特征值以若干个预设的三元组构架，获取目标文本对应的目标知识图谱；能够将半结构化的文本中数据以知识图谱的形式进行存储，优化了存储方式和便于文本中数据的比对，提高了结构化文本数据和半结构化文本数据校验的效率和准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的用于文本校验的数据处理方法的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种用于文本校验的数据处理方法、电子设备及存储介质的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种用于文本校验的数据处理方法，所述方法还包括如下步骤，如图1所示：

S100、从文本数据库的第一文本集中获取m个第一文本均作为样本文本，构建成样本文本列表A=（A₁，A₂，A₃，……，A_m），A_i是指第i个样本文本，i=1……m，并当A_i中存在与预设关键词列表中任一预设关键词一致的关键词时，将A_i的关键词位置标记为指定起始位置和将A_i的结束位置标记为指定结束位置，且将所述指定起始位置和所述指定结束位置之间的语段作为A_i的目标语段，以基于存在所述目标语段的A_i作为训练集数据，构建成训练集。

具体地，在S100步骤中之前还包括如下步骤：

获取所有第一文本的文本类型，并按照预设的文本划分规则，以将相同类型的第一文本进行归类处理，构建成若干个第一文本集，本实施例中可以采取现有的文本归类处理方法，在此不再赘述。

优先地，所述文本划分规则是指预先设置的第一文本的文本类型进行划分文本的规则，其中，第一文本的文本类型例如采购文本、统计文本或者订单文本等。

具体地，所述第一文本是指存储半结构化数据的文本，其中，基于第一文本集构建的A中所有的样本文本均为同一类型的文本，便于预设的语言模型能够进行训练，提高模型训练的准确性，进而提高了结构化文本数据和半结构化文本数据比对的准确性和效率。

具体地，在S100步骤中，A_i中的关键词通过自然语言处理方法进行确定，能够在样本文本中提取出关键词用于确定出能够获取关键数据的语段，提高结构化文本数据和半结构化文本数据比对的准确性和效率，本实施例中采取现有的自然语言处理方法，在此不再赘述。

优先地，预设关键词列表为预先设置的关键词列表且所述关键词列表字段中包括任一所述第一文本的文本类型对应的关键词，可以理解为：在S100步骤中，遍历A_i且根据A_i文本类型，从预设关键词列表中获取A_i文本类型对应的所有预设关键词作为目标关键词，以将A_i的关键词与所有的目标关键词进行对比，能够有利于样本文本中关键词的比对，确定出能够获取关键数据的语段，提高结构化文本数据和半结构化文本数据比对的准确性和效率。

具体地，所述关键数据是指样本文本中局域特殊含义的数据，所述特殊含义需要根据文本类型进行确定，在此不再赘述。

S200、将所述训练集输入至预设的语言模型中进行训练，得到已训练的语言模型。

具体地，在S200步骤中还包括如下步骤：

S201、将所述训练集中A_i输入至预设的语言模型中，获取A_i对应的关键数据，构建成关键数据列表S_i，本实施例中可以采取本领域中任一语言模型获取特征值的方法，在此不再赘述；

S203、获取A_i对应的文本ID，并根据A_i对应的文本ID，从校验数据列表中获取所述A_i对应的文本ID的所有校验数据，以每一所述校验数据作为第二中间数据构建成第二中间数据列表；

S205、遍历A_i对应的关键数据列表且根据所述A_i对应的关键数据列表和A_i对应的第二中间数据列表，确定出A的概率值F，F符合如下条件：

，其中，S_i为所述A_i对应的关键数据列表中关键数据的数量，

为所述A_i对应的关键数据列表中与所述第二中间数据列表中对应的第二中间数据不一致的数据数量；

S207、遍历A且当F≥预设的概率阈值时，得到已训练的语言模型；

S209、F＜预设的概率阈值时，重新获取样本文本列表

，以根据

进行迭代至 F≥预设的概率阈值时，得到已训练的语言模型，其中，迭代的过程为基于

执行S100步骤处理后，重新获取

对应的概率的过程，在此不再赘述。

进一步地，所述文本ID是指识别文本的唯一标识。

优先地，所述语言模型为Bert模型。

优先地，在S209步骤中，

与A可具有相同的样本文本，进一步可以理解为：当对所述语言模型进行重新训练时，需要重新获取的

与A为相同的文本类型，并

中包括A_i 对应的概率F_i＜预设的概率阈值的样本文本且不包括A_i对应的概率F_i≥预设的概率阈值的样本文本，其中，F_i符合如下条件：

。

进一步地，所述概率阈值范围为90~98%，优先地，所述概率阈值为90%。

在另一具体的实施例中，包括如下步骤：

获取相同的样本文本列表A，并将所述训练集中A_i输入至预设的语言模型中，获取A_i对应的关键数据，构建成关键数据列表；

获取A_i对应的文本ID，并根据A_i对应的文本ID，从校验数据列表中获取所述A_i对应的文本ID的所有校验数据，以每一所述校验数据作为第二中间数据构建成第二中间数据列表；

遍历A_i对应的关键数据列表且根据所述A_i对应的关键数据列表和A_i对应的第二中间数据列表，确定出A的概率值

。

采用上述实施例的方法获取的大量实验数据可知，在采用相同的样本文本列表的情况下，

相对于F至少减少了10%，即未对样本文本进行目标语段标记对应的F与对样本文本进行目标语段标记对应的F减少了10%，能够进一步说明本实施中通过核对目标语段的确定，减少全文本数据的提取和其他数据的干扰，有利于文本中数据的比对。

S300、获取目标文本且将所述目标文本输入至已训练的语言模型中，获取目标文本对应的目标数据列表B=（B₁，B₂，B₃，……，B_n），B_j是指第j个目标数据，j=2……n，n为目标数据数量，并将B中每一B_j以若干个预设的三元组构架，获取所述目标文本对应的目标知识图谱。

具体地，在S300步骤中还包括如下步骤：

将所有B_j均作为实体***至每一预设的三元组构架，构建成若干个所述目标文本的知识图谱，且将若干个所述目标文本的知识图谱中***最大数量B_j的知识图谱作为目标知识图谱，可以理解为：每一种第一文本的文本类型对应若干个预设的三元组构架，并将B_j作为实体***至每一预设的三元组构架，且满足B中最大目标数据***的预设的三元组构架，构建的知识图谱作为目标知识图谱，能够快速构建出适合的知识图谱，以存储数据，同时也有利于根据知识图谱与校验数据进行比对，即半结构化文本数据和结构化文本数据的比对；其中，所述目标数据是指目标文本中特殊含义的数据，所述特殊含义需要根据文本类型进行确定，在此不再赘述。

具体地，所述目标文本是指在文本数据库中除样本文本之外的任一第一文本，且所述目标文本与用于训练所述语言模型的训练集中样本文本的文本类型一致，可以理解为：所述目标文本与A中所有样本文本的文本类型一致，同时所述目标文本无需标记语段的起始位置。

S400、获取目标文本的文本ID，并根据目标文本的文本ID，从校验数据列表中获取所述目标文本的文本ID对应的所有校验数据，以每一所述校验数据作为第一中间数据构建成第一中间数据列表。

具体地，在S400步骤中还包括如下步骤：

根据第一文本的文本ID，从文本数据库中获取第一文本的文本ID对应的若干个第二文本，并将所有的第二文本进行预处理，从所述第二文本中获取指定数据作为第一文本的校验数据，以根据所有第一文本的校验数据和第一文本的文本ID，构建成校验数据列表，其中，所述第二文本是指记录了用于校验第一文本的数据对应的文本，所述第二文本为结构化的文本。

具体地，在S500步骤中还包括如下步骤：

S501、遍历所述目标知识图谱且从所述目标知识图谱中获取目标三元组架构中每一实体对应的目标数据，其中，S501步骤中的所述目标三元组架构是指所述目标知识图谱对应的三元组架构；

S502、根据所述目标三元组架构的实体，从所述第一中级数据列表中获取所述实体对应的第一中间数据，可以理解为：所述目标三元组架构中实体为校验数据列表中的字段名；

S503、将所述目标数据与对应的所述第一中间数据进行比对；

S505、当所述目标数据与对应的所述第一中间数据不一致时，将所述第一中间数据替换为对应的所述目标数据。

上述实施例中，能够实现结构化数据对半结构化数据的比对，高了结构化数据对半结构化数据校验的效率和准确率。

本实施例获取样本文本列表且当样本文本中存在与预设关键词列表中任一预设关键词一致的关键词时，将样本文本的关键词位置标记为指定起始位置和将样本文本的结束位置标记为指定结束位置，且将所述指定起始位置和所述指定结束位置之间的语段作为样本文本的目标语段，以基于存在所述目标语段的样本文本作为训练集数据，构建成训练集；将所述训练集输入至预设的语言模型中进行训练，得到已训练的语言模型，实现对语言模型进行优化，能够准确和高效率的确定出可以提取特定含义数据的目标语段，减少全文本数据的提取和其他数据的干扰，便于文本中数据的比对。

同时，将目标文本输入至已训练的语言模型中，获取目标文本对应的特征值列表且将每一特征值以若干个预设的三元组构架，获取目标文本对应的目标知识图谱，能够将半结构化的文本中数据以知识图谱的形式进行存储，优化了存储方式和便于文本中数据的比对，提高了数据校验的效率和准确率。

本申请的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本申请的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种用于文本校验的数据处理方法，其特征在于，所述方法还包括如下步骤：

S100、从文本数据库的第一文本集中获取m个第一文本均作为样本文本，构建成样本文本列表A=（A₁，A₂，A₃，……，A_m），A_i是指第i个样本文本，i=1……m，并当A_i中存在与预设关键词列表中任一预设关键词一致的关键词时，将A_i的关键词位置标记为指定起始位置和将A_i的结束位置标记为指定结束位置，且将所述指定起始位置和所述指定结束位置之间的语段作为A_i的目标语段，以基于存在所述目标语段的A_i作为训练集数据，构建成训练集，其中，所述第一文本是指存储半结构化数据的文本；

S200、将所述训练集输入至预设的语言模型中进行训练，得到已训练的语言模型，在S200步骤中还包括如下步骤：

S201、将所述训练集中A_i输入至预设的语言模型中，获取A_i对应的关键数据，构建成关键数据列表S_i；

S209、F＜预设的概率阈值时，重新获取样本文本列表

，以根据

进行迭代至F≥预设的概率阈值时，得到已训练的语言模型；

在S209步骤中包括：

与A可具有相同的样本文本，当对所述语言模型进行重新训练时，需要重新获取的

与A为相同的文本类型，并

中包括A_i对应的概率F_i＜预设的概率阈值的样本文本且不包括A_i对应的概率F_i≥预设的概率阈值的样本文本，其中，

F_i符合如下条件：

；

S400、获取目标文本的文本ID，并根据目标文本的文本ID，从校验数据列表中获取所述目标文本的文本ID对应的所有校验数据，以每一所述校验数据作为第一中间数据构建成第一中间数据列表，其中，所述目标文本是指在文本数据库中除样本文本之外的任一第一文本；

其中，在S400步骤中还包括如下步骤：根据第一文本的文本ID，从文本数据库中获取第一文本的文本ID对应的若干个第二文本，并将所有的第二文本进行预处理，从所述第二文本中获取指定数据作为第一文本的校验数据，以根据所有第一文本的校验数据和第一文本的文本ID，构建成校验数据列表，其中，所述第二文本是指记录了用于校验第一文本的数据对应的文本，所述第二文本为结构化的文本；

2.根据权利要求1所述的用于文本校验的数据处理方法，其特征在于，在S100步骤中，A_i中的关键词通过自然语言处理方法进行确定。

3.根据权利要求1所述的用于文本校验的数据处理方法，其特征在于，在S300步骤中还包括如下步骤：

将所有B_j均作为实体***至每一预设的三元组构架，构建成若干个所述目标文本的知识图谱，且将若干个所述目标文本的知识图谱中***最大数量B_j的知识图谱作为目标知识图谱。

4.根据权利要求1所述的用于文本校验的数据处理方法，其特征在于，所述目标文本是指在文本数据库中除样本文本之外的任一第一文本。

5.根据权利要求1所述的用于文本校验的数据处理方法，其特征在于，在S400步骤中还包括如下步骤：

根据第一文本的文本ID，从文本数据库中获取第一文本的文本ID对应的若干个第二文本，并将所有的第二文本进行预处理，提取出关键数据作为第一文本的校验数据，以根据所有第一文本的校验数据和第一文本的文本ID，构建成校验数据列表。

6.根据权利要求5所述的用于文本校验的数据处理方法，其特征在于，所述第二文本是指记录了用于校验第一文本的数据对应的文本。

7.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~6中任意一项的所述方法。

8.一种电子设备，其特征在于，包括处理器和权利要求7中的非瞬时性计算机可读存储介质。