CN114638302A

CN114638302A - 一种文本血缘确定方法、装置、设备及介质

Info

Publication number: CN114638302A
Application number: CN202210264707.8A
Authority: CN
Inventors: 王文举; 陈立力; 周明伟
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-17

Abstract

本申请公开了一种文本血缘确定方法、装置、设备及介质，由于本申请中，在接收到待确认血缘关系的第一文本后，先将该第一文本输入到预先训练完成的文本标准化模型中，获得标准化的第二文本，并确定该第二文本以及预先保存的每个源文本之间的相似度，进而根据每个相似度，确定与该第一文本存在血缘关系的目标源文本，有效的提高了文本血缘确定的准确性，保证了后续文本治理的准确性。

Description

一种文本血缘确定方法、装置、设备及介质

技术领域

本申请涉及智能数据血缘分析技术领域，尤其涉及一种文本血缘确定方法、装置、设备及介质。

背景技术

随着世界各个现代化城市的兴起与发展，城市规模逐步增大，城市人口逐步增多，因此也时时刻刻都在产生大量文本，非标准化的文本也会随之大规模出现，确定与非标准化的文本存在血缘关系的源文本的难度更大，因此，非标准化的文本血缘的确定作为文本治理很重要的部分，需要引起格外的重视。

文本血缘是指在完成某项业务过程中，业务涉及的文本落入到了目标数据库中，其中，该业务涉及的文本为之前存储在源数据库中的源文本，经过一系列处理后获得的处理后的文本，若该处理后的文本为非标准的文本，则可能导致无法确定该业务涉及的文本与源数据库中的哪个源文本之间存在血缘关系，影响后续的文本治理。

发明内容

本申请提供了一种文本血缘确定方法、设备及介质，用以解决现有技术中业务涉及的文本为非标准的文本，导致的无法确定该文本与源数据库中哪个源文本之间存在血缘关系，影响后续文本治理的问题。

本申请提供了一种文本血缘确定方法，所述方法包括：

接收待确认血缘关系的第一文本，将所述第一文本输入到预先训练完成的文本标准化模型中，输出所述第一文本对应的第二文本；

针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度；

将相似度最大值对应的源文本，确定为与所述第一文本存在血缘关系的目标源文本。

进一步地，所述接收待确认血缘关系的第一文本之后，将所述第一文本输入到预先训练完成的文本标准化模型中之前，所述方法还包括：

确定所述第一文本是否为异常文本；

若是，则对所述第一文本中的文本进行清洗。

进一步地，所述确定所述第一文本是否为异常文本包括：

确定所述第一文本中是否包含无效符号；或

确定所述第一文本中是否存在倒装句。

进一步地，所述针对预先保存的源数据库中每个源文本，确定所述第二文本与该源文本之间的相似度包括：

针对预先保存的源数据库中的每个源文本，将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中，获取所述第二文本对应的第一目标特征向量，以及该源文本对应的第二目标特征向量；根据所述第一目标特征向量以及所述第二目标特征向量，确定所述第二文本与该源文本之间的相似度。

进一步地，训练所述特征向量获取模型包括：

获取第一样本集中的任一第一样本文本对，其中，所述第一样本文本对包括：样本文本以及所述样本文本对应的源样本文本；

将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中，获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量；

根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值，并根据所述目标损失值，对所述原始特征向量获取模型进行训练。

进一步地，所述根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值包括：

根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重，确定目标特征向量；

根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数，确定目标损失值。

进一步地，所述根据所述目标特征向量、所述目标参数向量以及预设的函数，确定目标损失值包括：

根据

确定目标损失值；

其中，L为所述目标损失值，ω为所述目标特征向量，x为所述目标参数向量。

进一步地，训练所述文本标准化模型的过程包括：

获得第二样本集中的任一第二样本文本对，其中，所述第二样本文本对包括：非标准样本文本以及标准样本文本；

根据所述目标标准化文本以及所述标准样本文本，对所述原始文本标准化模型进行训练。

进一步地，所述针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度之前，所述方法还包括：

确定预先保存的源数据库中的每个源文本中创建时间早于所述第一文本的目标创建时间的源文本；

针对每个创建时间早于所述第一文本对应的目标创建时间的源文本，进行后续的针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度的过程。

本申请还提供了一种文本血缘确定装置，所述装置包括：

输出模块，用于接收待确认血缘关系的第一文本，将所述第一文本输入到预先训练完成的文本标准化模型中，输出所述第一文本对应的第二文本；

确定模块，用于针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度；将相似度最大值对应的源文本，确定为与所述第一文本存在血缘关系的目标源文本。

进一步地，所述确定模块，还用于确定所述第一文本是否为异常文本；若是，则对所述第一文本中的文本进行清洗。

进一步地，所述确定模块，具体用于确定所述第一文本中是否包含无效符号；或，确定所述第一文本中是否存在倒装句。

进一步地，所述确定模块，具体用于针对预先保存的源数据库中的每个源文本，将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中，获取所述第二文本对应的第一目标特征向量，以及该源文本对应的第二目标特征向量；根据所述第一目标特征向量以及所述第二目标特征向量，确定所述第二文本与该源文本之间的相似度。

进一步地，所述装置还包括：

训练模块，用于获取第一样本集中的任一第一样本文本对，其中，所述第一样本文本对包括：样本文本以及所述样本文本对应的源样本文本；将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中，获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量；根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值，并根据所述目标损失值，对所述原始特征向量获取模型进行训练。

进一步地，所述训练模块，具体用于根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重，确定目标特征向量；根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数，确定目标损失值。

进一步地，所述训练模块，具体用于根据

确定目标损失值；其中，L为所述目标损失值，ω为所述目标特征向量，x为所述目标参数向量。

进一步地，所述训练模块，还用于获得第二样本集中的任一第二样本文本对，其中，所述第二样本文本对包括：非标准样本文本以及标准样本文本；根据所述目标标准化文本以及所述标准样本文本，对所述原始文本标准化模型进行训练。

进一步地，所述确定模块，还用于确定预先保存的源数据库中的每个源文本中创建时间早于所述第一文本的目标创建时间的源文本；针对每个创建时间早于所述第一文本对应的目标创建时间的源文本，进行后续的针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度的过程。

本申请还提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述文本血缘确定方法的步骤。

本申请还提供了一种计算机可读存储介质，其存储有可由终端执行的计算机程序，当所述程序在所述终端上运行时，使得所述终端执行上述任一项所述文本血缘确定方法的步骤。

本申请中，接收待确认血缘关系的第一文本，将该第一文本输入到预先训练完成的文本标准化模型中，输出该第一文本对应的第二文本，针对预先保存的源数据库中的每个源文本，确定该第二文本与该源文本之间的相似度，将相似度最大值对应的源文本确定为与该第一文本存在血缘关系的目标源文本。由于本申请中，在接收到待确认血缘关系的第一文本后，先将该第一文本输入到预先训练完成的文本标准化模型中，获得标准化的第二文本，并确定该第二文本以及预先保存的每个源文本之间的相似度，进而根据每个相似度，确定与该第一文本存在血缘关系的目标源文本，有效的提高了文本血缘确定的准确性，保证了后续文本治理的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的一种文本血缘确定方法的过程示意图；

图2为本申请一些实施例提供的一种确定目标源数据的过程示意图；

图3为本申请一些实施例提供的一种文本血缘确定装置结构示意图；

图4为本申请一些实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请中，接收待确认血缘关系的第一文本，将该第一文本输入到预先训练完成的文本标准化模型中，输出该第一文本对应的第二文本，针对预先保存的源数据库中的每个源文本，确定该第二文本与该源文本之间的相似度，将相似度最大值对应的源文本确定为与该第一文本存在血缘关系的目标源文本。

为了准确的确定与业务涉及的文本存在血缘关系的目标源文本，便于后续文本的治理，本申请实施例提供了一种文本血缘确定方法、装置、设备及介质。

实施例1：

图1为本申请一些实施例提供的一种文本血缘确定方法的过程示意图，该过程包括以下步骤：

S101：接收待确认血缘关系的第一文本，将所述第一文本输入到预先训练完成的文本标准化模型中，输出所述第一文本对应的第二文本。

本申请实施例提供文本血缘确定方法应用于电子设备，该电子设备可以为智能终端、PC或者服务器等等。

在本申请中，电子设备接收待确认血缘关系的第一文本，其中，该第一文本是业务涉及的文本，也就是之前存储在源数据库中的源文本，经过一系列处理后获得的处理后的文本。该第一文本可能为标准化文本，也可能为非标准化文本。具体的，预先设置了标准化文本的格式，比如，将不包含特殊符号的文本确定为标准化文本，将只包含中文的文本确定为标准化文本等等，具体的，该标准化文本的格式根据需求进行设置。以只包含中文的文本确定为标准化文本为例，将除只包含中文的文本以外的文本都为非标准化的文本，比如，英文对应的文本、中文首字母缩写对应的文本、中文全拼对应的文本、英文简写对应的文本等等。

在接收到该第一文本后，为了避免该第一文本为非标准化的文本，导致后续无法确定与该第一文本存在血缘关系的目标源文本，先将该第一文本转换为标准化的文本。在本申请中，为了实现将非标准化的文本转换为标准化的文本，预先训练完成了文本标准化模型，在将该第一文本标准化时，将该第一文本输入到预先训练完成的文本标准化模型中，该文本标准化模型输出该第一文本对应的第二文本，其中，该第二文本为对该第一文本进行标准化后获得的文本。

S102：针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度。

在本申请中，在确定标准化的第二文本后，为了确定与该第二文本存在血缘关系的目标源文本，也就是说，为了确定与该第一文本存在血缘关系的目标源文本，将该第二文本与预先保存的源数据库中的每个源文本进行匹配。由于存储在两个不同的数据库中的两个文本之间才会存在血缘关系，存储在相同的数据库中的两个文本之间不存在血缘关系，因此，该源数据库为非第一文本所在的数据库。

具体的，为了确定第二文本与预先保存的源数据库中的每个源文本之间的相似度，可以针对预先保存的源数据库中的每个源文本，确定该第二文本与该源文本的匹配字段的长度，将该匹配字段的长度以及该第二文本中包含的所有字段的总长度的商值，确定为该第二文本与该源文本的相似度，其中，该匹配字段的长度越大，相似度越大，该第二文本与该源文本存在血缘关系的可能性越大。

S103：将相似度最大值对应的源文本，确定为与所述第一文本存在血缘关系的目标源文本。

在本申请中，为了确定与该第二文本存在血缘关系的目标源文本，可以将该第二文本与预先保存的源数据库中的每个源文本对应的相似度中，大于预先设定的相似度阈值的相似度对应的源文本确定为存在血缘关系的目标源文本。在本申请中，还可以将相似度最大值对应的源文本确定为存在血缘关系的目标源文本。

由于本申请中，在接收到待确认血缘关系的第一文本后，先将该第一文本输入到预先训练完成的文本标准化模型中，获得标准化的第二文本，并确定该第二文本以及预先保存的每个源文本之间的相似度，进而根据每个相似度，确定与该第一文本存在血缘关系的目标源文本，有效的提高了文本血缘确定的准确性，保证了后续文本治理的准确性。

实施例2：

为了提高确定的存在血缘关系的目标源文本的准确率，在上述实施例的基础上，在本申请实施例中，所述接收待确认血缘关系的第一文本之后，将所述第一文本输入到预先训练完成的文本标准化模型中之前，所述方法还包括：

确定所述第一文本是否为异常文本；

若是，则对所述第一文本进行清洗。

在本申请中，为了提高确定的与第一文本存在血缘关系的目标源文本的准确率，也为了减少电子设备标准化转换的负担，可以在接收待确认血缘关系的第一文本之后，将该第一文本输入到预先训练完成的文本标准化模型中之前，先确定该第一文本是否为异常文本，若是，则对该第一文本进行清洗。具体的，可以基于数据清洗技术，对该第一文本进行清洗，获得到正常的第一文本。

其中，基于数据清洗技术，对文本进行清洗的过程为现有技术，在此不做赘述。

为了准确该第一文本中是否为异常文本，在上述各实施例的基础上，在本申请实施例中，所述确定所述第一文本是否为异常文本包括：

确定所述第一文本中是否包含无效符号；或

确定所述第一文本中是否存在倒装句。

在本申请中，为了确定该第一文本中是否为异常文本，可以确定该第一文本是否包含无效符号，若包含，则确定该第一文本为异常文本，其中，该无效符号可以包括@、！、#、￥、％等等；或者确定该第一文本中是否存在倒装句，若存在，则确定该第一文本为异常文本，倒装句比如可以是：“没有吧我觉得”、“怎么了你”等等。

实施例3：

为了确定第二文本与预先保存的每个源文本的相似度，在上述各实施例的基础上，在本申请实施例中，所述针对预先保存的源数据库中每个源文本，确定所述第二文本与该源文本之间的相似度包括：

在本申请中，为了确定第二文本与预先保存的源数据库中的每个源文本的相似度，可以基于增强区域卷积神经网络模型(Enhanced-Region Convolutional NeuralNetworks，Enhanced-RCNN)，确定该第二文本与每个预先保存的源文本的相似度，具体的，该Enhanced-RCNN模型包括：输入编码层，交互信息表示层，相似度模型输出层等，还可以基于短文本匹配模型(Enhanced Sequential Inference Model)ESIM模型，确定该第二文本与每个预先保存的源文本的相似度。

其中，基于Enhanced-RCNN模型或ESIM模型，确定相似度的过程，为现有技术，在此不做赘述。

在本申请中，为了确定第二文本与预先保存的源数据库中的每个源文本的相似度，还可以针对预先保存的源数据库中的每个源文本，将该第二文本以及该源文本输入到预先训练完成的特征向量获取模型中，获得该第二文本对应的第一目标特征向量，以及该源文本对应的第二目标特征向量，其中，该第一目标特征向量的维度与该第二目标特征向量的维度相同。

在确定该第一目标特征向量以及第二目标特征向量之后，为了确定该第二文本与该源文本之间的相似度，可以将该第一目标特征向量以及第二目标特征向量之间的欧式距离，确定为该第二文本与该源文本之间的相似度，还可以将该第一目标特征向量以及第二目标特征向量之间的余弦相似度，确定为该第二文本与该源文本之间的相似度，还可以先确定该第一目标特征向量以及第二目标特征向量之间的差值向量，将该差值向量对应的模长，确定为该第二文本与该源文本之间的相似度。

实施例4：

为了获得精度高的特征向量获取模型，在上述各实施例的基础上，在本申请实施例中，训练所述特征向量获取模型包括：

在本申请中，为了获得精度高的特征向量获取模型，预先配置有第一样本集，并根据第一样本集中包含的每个第一样本文本对对该特征向量获取模型进行训练。其中，该第一样本文本对包括样本文本以及其对应的源样本文本，该源样本文本为源数据库中的文本，其中，该样本文本为只包含中文的标准化文本，其中，该源样本文本也为只包含中文的标准化文本。

为了对原始特征向量获取模型进行训练，在本申请中，在获得第一样本集后，将该第一样本集中的样本文本以及源样本文本输入到该原始特征向量获取模型中，获得该样本文本对应的第一样本特征向量以及源样本文本对应的第二样本特征向量，其中，该第一样本特征向量的维度和该第二样本特征向量的维度相同。

具体的，在本申请中，为了提高确定文本对应的特征向量的准确性，在对原始特征向量获取模型进行训练的过程中，可以以样本文本中的字段为单位进行训练，并依次进行迭代后，确定整个样本文本对应的样本特征向量。具体的，确定样本文本对应的第一样本特征向量以及源样本文本对应的第二样本特征向量时，针对样本文本以及源样本文本中的每个样本文本，基于该原始特征向量获取模型以及该样本文本中的当前字段对应的第一特征向量，获得预测的该当前字段对应的特征向量，其中，该预测的该当前字段对应的特征向量为该原始特征向量模型的隐藏层输出的当前字段对应的隐藏层特征向量。具体的，该第一特征向量的确定过程包括：采用长短期记忆网络(Long Short-Term Memory，LSTM)或门控循环单元(Gated Recurrent Unit，GRU)，根据预测的前一个字段对应的隐藏层特征向量和当前字段的嵌入向量做输入，与预设的权重矩阵加权求和，获得第一特征向量。其中，该嵌入向量中各个分量分别为该字段的语义信息以及语法结构信息等对应的特征值。其中，每个字段对应的嵌入向量为根据大量的语料样本训练出来的嵌入向量模型中输出的。

若当前字段为该样本文本的第一个字段，由于该当前字段之前没有上一个字段，则可以将根据随机初始化的一个隐藏层特征向量以及当前字段的嵌入向量作为输入，与预设的权重矩阵加权求和，确定该第一个字段对应的第一特征向量。

在确定预测的该当前字段对应的特征向量之后，根据原始特征向量获取模型的隐藏层输出的该当前字段的隐藏层特征向量和下一字段的嵌入向量，与预设的权重矩阵加权求和，可以获得第二特征向量，然后继续进行基于该原始特征向量获取模型以及该第二特征向量，确定预测的该下一字段对应的特征向量的过程，直至确定预测的该文本的最后一个字段对应的特征向量，该最后一个字段的特征向量也就是该整个样本文本输入到原始特征向量获取模型后，输出的样本特征向量。

在本申请中，可以在获得第一样本特征向量和第二样本特征向量后，对原始特征向量获取模型进行训练。具体的，可以根据第一样本特征向量和第二样本特征向量，对原始特征向量获取模型的参数进行不断地调整，以获得训练完成的特征向量获取模型。在本申请中，为了完成对该特征向量获取模型的训练，在获得第一样本特征向量和第二样本特征向量后，还可以根据该第一样本特征向量、该第二样本特征向量，以及预先保存的目标参数向量确定目标损失值。其中，该预先保存的目标参数向量为当前该原始特征向量获取模型的参数，该当前该原始特征向量获取模型的参数用于被调整来改变该原始特征向量的精度。

具体的，在根据目标损失值，对原始特征向量获取模型中的参数进行更新时，可以采用梯度下降算法，对原始特征向量获取模型的参数的梯度进行反向传播，从而对原始特征向量获取模型进行训练。

由于原始特征向量获取模型是否训练完成的标准为该原始特征向量获取模型当前的每个样本文本对应的损失值是否达到收敛条件，若是，则说明当前训练的特征向量获取模型拥有较高的识别能力，识别准确率较高，因此可以确定该特征向量获取模型训练完成。其中，满足预设的收敛条件可以为目标损失值小于设定的第二损失值阈值，或者对原始特征向量获取模型进行训练的迭代次数达到设置的最大迭代次数等。其中，该预设的收敛条件根据需求可以灵活进行设置，在此不做具体的限定。

为了准确的确定目标损失值，在上述各实施例的基础上，在本申请实施例中，所述根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值包括：

在本申请中，为了确定目标损失值，先根据该第一样本特征向量、第二样本特征向量以及对应的预设权重，确定目标特征向量，具体的，根据该第一样本特征向量以及预设的该第一样本特征向量对应的权重、该第二样本特征向量以及预设的该第二样本特征向量对应的第二权重，确定对应的权重和向量，将该权重和向量确定为目标特征向量。

在确定目标特征向量后，为了确定目标损失值，根据该目标特征向量、该预先保存的目标参数向量以及预设的函数，确定目标损失值。

为了确定目标损失值，在上述各实施例的基础上，在本申请实施例中，所述根据所述目标特征向量、所述目标参数向量以及预设的函数，确定目标损失值包括：

根据

确定目标损失值；

在本申请中，根据

确定目标损失值，其中，L为该目标损失值，ω为该目标特征向量，x为该目标参数向量，其中，该目标特征向量的维度与该目标参数向量的维度相同。

实施例5：

为了获得精度高的文本标准化模型，在上述各实施例的基础上，在本申请实施例中，训练所述文本标准化模型的过程包括：

在本申请中，为了获得精度高的文本标准化模型，预先配置有第二样本集，该第二样本集中包含多个第二样本文本对，根据第二样本集中包含的每个第二样本文本对，对该文本标准化模型进行训练。其中，每个第二样本文本对中均包括非标准样本文本以及标准样本文本，其中，该非标准样本文本为非只包含中文的样本文本，该标准样本文本为只包含中文的样本文本，其中，该第二样本文本对中的标准样本可以为“猫咪”，非标准样本可以为“Cat”或者“MM”或者“maomi”等等。

为了对原始文本标准化模型进行训练，在本申请中，在获得第二样本集后，将该第二样本集中的每个第二样本文本对输入到原始文本标准化模型中，即将每个非标准样本文本以及对应的标准样本文本输入到该原始文本标准化模型中，基于原始文本标准化模型确定非标准样本文本对应的目标标准化文本，其中，该目标标准化文本为该原始文本标准化模型根据输入的非标准样本文本，预测的非标准样本标准化后的文本。

在确定目标标准化文本后，根据每个第一样本文本对应的每个目标标准化文本以及每个标准样本文本，对原始文本标准化模型进行训练时，该过程具体包括：根据每个目标标准化文本以及对应的标准样本文本，对原始文本标准化模型的参数进行不断地调整，以获得训练完成的文本标准化模型。在本申请中，可以确定该目标标准化文本对应的第三特征向量以及标准化样本文本对应的第四特征向量，根据该第三特征向量与该第四特征向量，确定损失值，并基于该损失值对原始文本标准化模型中的参数进行更新。具体的，可以根据词频-逆向文件频率算法(term frequency–inverse document frequency，TF-IDF)，确定文本对应的特征向量，其中，基于TF-IDF算法，确定文本对应的特征向量的过程为现有技术，在此不作赘述。其中，可以确定第三特征向量和第四特征向量之间的差值向量，将该差值向量对应的模长确定为损失值。

具体的，在根据损失值，对原始文本标准化模型中的参数进行更新时，可以采用梯度下降算法，对原始文本标准化模型的参数的梯度进行反向传播，从而对原始文本标准化模型进行训练。

若在进行大量训练后，满足预设的收敛条件，则说明该原始文本标准化模型训练完成。其中，满足预设的收敛条件可以为损失值小于设定的第一损失值阈值，或者对原始文本标准化模型进行训练的迭代次数达到设置的最大迭代次数等。其中，该预设的收敛条件根据需求可以灵活进行设置，在此不做具体的限定。

实施例6：

为了准确的确定第二文本与预先保存的源数据库中的源文本之间的相似度，便于后续确定与第一我文本存在血缘关系的目标源文本，在上述各实施例的基础上，在本申请实施例中，所述针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度之前，所述方法还包括：

由于血缘关系伴随着时间存在一定的流向，也就是说，接收到的第一文本的创建时间肯定要比该第一文本对应的目标源数据的创建时间晚，因此，为了减少电子设备的工作负担，在本申请中，还可以先确定预先保存的源数据库中每个源文本对应的创建时间中创建时间比该第一文本的目标创建时间早的源文本，再针对每个创建时间早于该第一文本对应的目标创建时间的源文本，进行后续的针对预先保存的源数据库中的每个源文本，确定第二文本与该源文本之间的相似度的过程，也就是说，再针对每个创建时间早于该第一文本对应的目标创建时间的源文本，计算第二文本与该源文本之间的相似度。

图2为本申请一些实施例提供的一种确定目标源数据的过程示意图，现针对图2进行说明。

先获得目标数据库中的第一文本以及源数据中的源文本，基于预先训练完成的文本标准化模型，确定该第一文本对应的第二文本，并针对预先保存的源数据库中每个源文本，确定该第二文本与该源文本之间的相似，根据相似度，确定为第一文本存在血缘关系的目标源文本。

实施例7：

图3为本申请一些实施例提供的一种文本血缘确定装置结构示意图，该装置包括：

输出模块301，用于接收待确认血缘关系的第一文本，将所述第一文本输入到预先训练完成的文本标准化模型中，输出所述第一文本对应的第二文本；

确定模块302，用于针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度；将相似度最大值对应的源文本，确定为与所述第一文本存在血缘关系的目标源文本。

在一种可能的实施方式中，所述确定模块302，还用于确定所述第一文本是否为异常文本；若是，则对所述第一文本中的文本进行清洗。

在一种可能的实施方式中，所述确定模块302，具体用于确定所述第一文本中是否包含无效符号；或，确定所述第一文本中是否存在倒装句。

在一种可能的实施方式中，所述确定模块302，具体用于针对预先保存的源数据库中的每个源文本，将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中，获取所述第二文本对应的第一目标特征向量，以及该源文本对应的第二目标特征向量；根据所述第一目标特征向量以及所述第二目标特征向量，确定所述第二文本与该源文本之间的相似度。

在一种可能的实施方式中，所述装置还包括：

训练模块303，用于获取第一样本集中的任一第一样本文本对，其中，所述第一样本文本对包括：样本文本以及所述样本文本对应的源样本文本；将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中，获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量；根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值，并根据所述目标损失值，对所述原始特征向量获取模型进行训练。

在一种可能的实施方式中，所述训练模块303，具体用于根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重，确定目标特征向量；根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数，确定目标损失值。

在一种可能的实施方式中，所述训练模块303，具体用于根据

在一种可能的实施方式中，所述训练模块303，还用于获得第二样本集中的任一第二样本文本对，其中，所述第二样本文本对包括：非标准样本文本以及标准样本文本；根据所述目标标准化文本以及所述标准样本文本，对所述原始文本标准化模型进行训练。

在一种可能的实施方式中，所述确定模块302，还用于确定预先保存的源数据库中的每个源文本中创建时间早于所述第一文本的目标创建时间的源文本；针对每个创建时间早于所述第一文本对应的目标创建时间的源文本，进行后续的针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度的过程。

实施例8：

在上述各实施例的基础上，本申请一些实施例还提供了一种电子设备，如图4所示，包括：处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。

所述存储器403中存储有计算机程序，当所述程序被所述处理器401执行时，使得所述处理器401执行如下步骤：

进一步地，所述处理器401，还用于确定所述第一文本是否为异常文本；若是，则对所述第一文本中的文本进行清洗。

进一步地，所述处理器401，还用于确定所述第一文本中是否包含无效符号；或，确定所述第一文本中是否存在倒装句。

进一步地，所述处理器401，还用于针对预先保存的源数据库中的每个源文本，将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中，获取所述第二文本对应的第一目标特征向量，以及该源文本对应的第二目标特征向量；根据所述第一目标特征向量以及所述第二目标特征向量，确定所述第二文本与该源文本之间的相似度。

进一步地，所述处理器401，还用于获取第一样本集中的任一第一样本文本对，其中，所述第一样本文本对包括：样本文本以及所述样本文本对应的源样本文本；将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中，获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量；根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值，并根据所述目标损失值，对所述原始特征向量获取模型进行训练。

进一步地，所述处理器401，还用于根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重，确定目标特征向量；根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数，确定目标损失值。

进一步地，所述处理器401，还用于根据

进一步地，所述处理器401，还用于获得第二样本集中的任一第二样本文本对，其中，所述第二样本文本对包括：非标准样本文本以及标准样本文本；根据所述目标标准化文本以及所述标准样本文本，对所述原始文本标准化模型进行训练。

进一步地，所述处理器401，还用于确定预先保存的源数据库中的每个源文本中创建时间早于所述第一文本的目标创建时间的源文本；针对每个创建时间早于所述第一文本对应的目标创建时间的源文本，进行后续的针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度的过程。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例9：

在上述各实施例的基础上，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

确定所述第一文本是否为异常文本；

若是，则对所述第一文本中的文本进行清洗。

进一步地，所述确定所述第一文本是否为异常文本包括：

确定所述第一文本中是否包含无效符号；或

确定所述第一文本中是否存在倒装句。

进一步地，训练所述特征向量获取模型包括：

根据

确定目标损失值；

进一步地，训练所述文本标准化模型的过程包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本血缘确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述针对预先保存的源数据库中每个源文本，确定所述第二文本与该源文本之间的相似度包括：

3.根据权利要求2所述的方法，其特征在于，训练所述特征向量获取模型包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标特征向量、所述目标参数向量以及预设的函数，确定目标损失值包括：

根据

确定目标损失值；

6.根据权利要求1所述的方法，其特征在于，训练所述文本标准化模型的过程包括：

7.根据权利要求1所述的方法，其特征在于，所述针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度之前，所述方法还包括：

8.一种文本血缘确定装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述文本血缘确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述文本血缘确定方法的步骤。