CN113656393A

CN113656393A - 数据处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113656393A
Application number: CN202110978143.XA
Authority: CN
Inventors: 孙钰清; 邵世臣; 李永恒; 邹仁华; 詹俊峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-16
Anticipated expiration: 2041-08-24
Also published as: CN113656393B

Abstract

本公开公开了数据处理方法、装置、电子设备以及存储介质，涉及计算机技术领域，尤其涉及大数据技术领域。具体实现方案为：确定基准数据和待处理数据，其中，基准数据包括至少一个基准子数据，至少一个基准子数据为按照数据类型从基准数据中拆分得到的，其中，待处理数据包括至少一个待处理子数据，至少一个待处理子数据为按照数据类型从待处理数据中拆分得到；以及在确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定基准数据和待处理数据匹配。

Description

数据处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及大数据技术领域，具体涉及数据处理方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术

互联网时代，数据***式增长，数据管理日益受到重视与关注。数据管理主要分为数据收集、数据清理、数据挖掘、数据分析以及数据可视化。数据清理例如甄别并去除重复的内容，对数据分析起到重要影响作用。

发明内容

本公开提供了一种用于数据处理的方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种数据处理方法，包括：确定基准数据和待处理数据，其中，基准数据包括至少一个基准子数据，至少一个基准子数据为按照数据类型从基准数据中拆分得到的，其中，待处理数据包括至少一个待处理子数据，至少一个待处理子数据为按照数据类型从待处理数据中拆分得到；以及在确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定基准数据和待处理数据匹配。

根据本公开的另一方面，提供了一种数据处理装置，包括：第一确定模块，用于确定基准数据和待处理数据，其中，基准数据包括至少一个基准子数据，至少一个基准子数据为按照数据类型从基准数据中拆分得到的，其中，待处理数据包括至少一个待处理子数据，至少一个待处理子数据为按照数据类型从待处理数据中拆分得到；以及第一匹配模块，用于在确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定基准数据和待处理数据匹配。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如上上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上上述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用数据处理方法及装置的示例性***架构；

图2示意性示出了根据本公开实施例的数据处理方法的流程图；

图3示意性示出了根据本公开另一实施例的数据处理方法的流程图；

图4示意性示出了根据本公开实施例的确定候选数据的流程图；

图5示意性示出了根据本公开实施例的数据处理方法的应用场景示意图；

图6示意性示出了根据本公开另一实施例的数据处理方法的应用场景示意图；

图7示意性示出了根据本公开实施例的数据处理装置的框图；以及

图8示意性示出了根据本公开实施例的适于实现内容处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在大批量数据库中存在重复数据。重复数据不仅占用存储空间，而且干扰检索召回，存在检索结果全部为重复数据的可能，影响用户体验。相关技术中，可以采用切词判重法从数据库中对相同或相似数据进行筛选并去重，即，将数据内容按照实体词切分为多个，计算关键词的相似度。但是，采用相关技术的切词判重法，容易忽略占比小却关键的内容，进而导致发生误判的问题。

本公开提供了一种数据处理方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的实施例，数据处理方法可以包括：确定基准数据和待处理数据，其中，基准数据包括至少一个基准子数据，至少一个基准子数据为按照数据类型从基准数据中拆分得到的，其中，待处理数据包括至少一个待处理子数据，至少一个待处理子数据为按照数据类型从待处理数据中拆分得到；以及在确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定基准数据和待处理数据匹配。

利用本公开实施例提供的数据处理方法，能够筛选确定出重复数据。并且，在进行匹配分析之前，将数据按照数据类型拆分为子数据，利用子数据进行对比，避免了占比小却关键的内容被忽略的问题，提高匹配精度，降低误判率。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示意性示出了根据本公开实施例的可以应用数据处理方法及装置的示例性***架构。

需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如，在另一实施例中，可以应用数据处理方法及装置的示例性***架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的内容处理方法及装置。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的数据处理方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的数据处理装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的数据处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的数据处理方法的流程图。

如图2所示，该方法包括操作S210～S220。

在操作S210，确定基准数据和待处理数据，其中，基准数据包括至少一个基准子数据，至少一个基准子数据为按照数据类型从基准数据中拆分得到的。待处理数据包括至少一个待处理子数据，至少一个待处理子数据为按照数据类型从待处理数据中拆分得到。

在操作S220，在确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定基准数据和待处理数据匹配。

根据本公开的实施例，基准数据和待处理数据的来源可以相同也可以不同，并不做具体限定。例如，待处理数据可以是需要预处理的数据，基准数据可以是从多个待处理数据中筛选确定的数据，或者基准数据可以是为了处理待处理数据，而按照一定规则、方式设计形成的数据。

根据本公开的实施例，基准数据或待处理数据可以包括试题数据，但不仅限于此，还可以包括合同文档、程序代码、账单等其他类型的数据。

根据本公开的实施例，针对不同的应用场景，基准数据的数据量以及数据格式与待处理数据的数据量以及数据格式可以相同也可以不同。不做具体限定。但是基准数据作为待处理数据的评价标准，基准数据的数据格式可以与待处理数据的数据格式相同，以便于进行子数据的拆分和比较。此外，基准数据的数据完整性可以高于待处理数据的数据完整性。例如，基准数据包含的基准子数据的数据类型可以最全。以便于在进行匹配分析时，能够作为包含不同数据类型待处理子数据的待处理数据的基准数据。

根据本公开的实施例，对基准数据进行拆分得到至少一个基准子数据，或者对待处理数据进行拆分得到至少一个待处理子数据，其中拆分方式不做具体限定。可以利用神经网络模型进行拆分，例如可以利用卷积神经网络模型(CNN模型)，或者循环神经网络模型(RNN模型)进行拆分，但不仅限于此，还可以利用关键词匹配的方式进行拆分。只要是本领域技术人员可以实现的拆分方式即可。

根据本公开的实施例，数据类型可以是用于划分数据中各部分子数据之间的不同的信息。例如，数据类型可以是指格式类型，也可以是指内容类型。只要是用于划分数据中各部分子数据之间的不同的类型即可。例如，数据类型可以是指试题中的题干、选项、答案或者解析等数据内容类型，但不仅限于此，数据类型还可以是指数据中的文字、图像、表格等数据格式类型。

根据本公开的实施例，可以从基准数据中拆分得到N个基准子数据，其中，N大于或等于1。可以从待处理数据中拆分得到M个待处理子数据，其中，M大于或等于1。

在N与M相等的情况下，可以将N个基准子数据与M个待处理子数据，按照数据类型相同的方式，进行一一比对分析，确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据是否匹配。

在N与M不相等的情况下，例如，N大于M的情况下，可以将待处理数据中的相比基准数据缺少的子数据利用数据为空补齐。然后按照数据类型相同的方式，以基准数据中的各个基准子数据为基准进行一一比对分析。

在N与M不相等的情况下，例如，N大于M的情况下，还可以将基准数据中的相比待处理数据多的基准子数据剔除。然后以待处理数据中的各个待处理子数据为基准进行一一比对分析。

根据本公开的实施例，基准子数据和与基准子数据的数据类型对应的待处理子数据的匹配，可以是指基准子数据和待处理子数据的内容匹配，例如内容完全一致或者内容的相似程度超过一定内容阈值。也可以是指基准子数据和待处理子数据的语义匹配，例如表达的语义一致或者表达的语义的相似程度超过一定语义阈值。

根据本公开的实施例，基准数据和待处理数据匹配，可以是指至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配。例如，基准数据包括基准子数据1和基准子数据2，待处理数据包括待处理数据1和待处理数据2，在数据类型相同的基准子数据1和待处理数据1匹配，并且，数据类型相同的基准子数据2和待处理数据2匹配的情况下，确定基准数据和待处理数据匹配。

根据本公开的实施例，按照数据类型，将基准数据和待处理数据分别进行拆分，得到基准数据和待处理数据各自的至少一个基准子数据和至少一个待处理子数据。并按照数据类型，将基准子数据和待处理子数据进行一一匹配分析。基于基准子数据和与基准子数据的数据类型相对应的待处理子数据的匹配结果，来确定基准数据和待处理数据之间的匹配情况。将数据拆分为更细粒度，从多维度来确定匹配情况，达到更精准的效果。从而避免仅从整体分析而导致的误判问题。

下面结合具体实施例，并参考图3～图6，对例如图2所示的方法做进一步说明。

图3示意性示出了根据本公开另一实施例的数据处理方法的流程图。

如图3所示，该方法还可以包括操作S310～S340。

在操作S310，识别基准数据的类别信息和待处理数据的类别信息。

在操作S320，确定基准数据的类别信息和待处理数据的类别信息是否相同。

在确定基准数据的类别信息和待处理数据的类别信息相同的情况下，执行操作S330，按照数据类型，拆分基准数据，得到至少一个基准子数据；按照数据类型，拆分待处理数据，得到至少一个待处理子数据。

在确定基准数据的类别信息和待处理数据的类别信息不相同的情况下，执行操作S340，确定基准数据和待处理数据不匹配。

根据本公开的实施例，类别信息可以是用于划分数据之间的不同的信息。例如，类别信息可以是指合同、试题、论文、新闻等不同广泛类别的信息，但是并不局限于此，类别信息还可以是指试题中的细分类别信息，例如选择题、判断题、填空题、问答题等类别信息。或者，合同中的细分类别信息，例如劳动合同、贷款合同或房产抵押合同等类别信息。

根据本公开的实施例，在对基准数据与待处理数据进行拆分前，可以首先根据类别信息来确定基准数据与待处理数据是否匹配。在类别信息相同的情况下，则可以初步判断基准数据和待处理数据有可能匹配，可以进行后续的拆分待处理数据的操作。但是在类别信息不同的情况下，则可以直接判断基准数据和待处理数据不匹配，可以不再进行后续操作，直接得到处理结果。

利用本公开的实施例，在进行拆分数据操作之前，对基准数据和待处理数据进行类别信息的比较，可以有效地减少数据拆分的次数，提高数据处理的效率。

根据本公开的实施例，可以将本公开实施例提供的数据处理方法应用到去除重复数据的应用场景中。例如，对多个待处理数据进行分析，利用基准数据匹配出多个待处理数据中重复的待处理数据。

根据本公开的示例性实施例，还可以将数据处理方法应用到判断重复试题的应用场景中。例如，在确定基准数据试题A为选择题、待处理数据试题B为问答题的情况下，可以直接确定基准数据试题A与待处理数据试题B不匹配，从而可以在不对基准数据试题A与待处理数据试题B进行拆分的情况下，确定基准数据试题A与待处理数据试题B不匹配。

根据本公开的实施例，在确定基准数据试题A与待处理数据试题B均为选择题的情况下，确定基准数据试题A与待处理数据试题B的类别信息相同。在此情况下，可以执行按照数据类型，拆分基准数据，得到至少一个基准子数据；按照数据类型，拆分待处理数据，得到至少一个待处理子数据的操作。

根据本公开的实施例，拆分待处理数据或者拆分基准数据，可以利用网络模型，例如卷积神经网络模型(CNN模型)，或者循环神经网络模型(RNN模型)进行拆分。采用已知拆分结果的数据训练网络模型，得到能够按照数据类型，将数据拆分为子数据的拆分模型。进而利用拆分模型进行拆分。但是并不局限于此，还可以按照预设拆分规则进行拆分。例如按照序号、字段间换行、句结尾的括号或者问号、横线、选项字母等预设拆分规则进行拆分。在此不再赘述，只要是相关技术中能够实现的拆分方式即可。

根据本公开的示例性实施例，本公开的数据类型可以是题干、选项、答案、解析中的一种或多种。

例如试题A：

Family的中文含义是：

A.家庭；B.伙伴；C.朋友；D.敌人。

答案：A.家庭。

解析：Family是名词，中文含义为：家，家庭(包括父母子女)。

根据本公开的实施例，试题A包含的数据类型为题干、选项、答案和解析。可以根据数据类型，将试题A拆分得到数据类型为题干、选项、答案以及解析的子数据。其中，数据类型为题干的子数据为“Family的中文含义是：”；数据类型为选项的子数据为“A.家庭；B.伙伴；C.朋友；D.敌人。”；数据类型为答案的子数据为“A.家庭。”；数据类型为解析的子数据为“Family是名词，中文含义为：家，家庭(包括父母子女)。”

应该理解的是，数据类型不仅限于题干、选项、答案、解析，还可以包括附图等其他数据类型，本领域技术人员可以依据实际需求对数据类型进行设计。

根据本公开的实施例，在针对试题数据进行拆分比对操作时，可以针对数据类型缺失的子数据，省略该数据类型的子数据的相似度计算操作。

例如，针对至少一个基准子数据中的每个基准子数据，确定与基准子数据的数据类型相对应的待处理子数据；在确定存在与基准子数据的数据类型相对应的待处理子数据的情况下，执行确定基准子数据和与基准子数据的数据类型相对应的待处理子数据的相似度的操作；在确定不存在与基准子数据的数据类型相对应的待处理子数据的情况下，终止对基准子数据的处理操作。

例如，试题A包括题干A1与答案A_A，且试题B包含题干B1与答案B_A，由于可以确定试题A拆分得到的子数据与试题B拆分得到的子数据一一对应，则可以执行上述的确定基准子数据与待处理子数据相似度的操作。在另一示例中，在确定试题A包含题干A1、选项A2与答案A_A，但试题B包括题干B1与答案B_A的情况下，确定试题B中缺少选项，因此，可以终止对选项A2的相似度比对操作，从而在实现一一对比的效果的情况下，减少确定相似度的计算时间，提高数据处理的效率。

根据本公开的实施例，在确定好评价相似度的子数据后，可以执行以下操作来确定子数据之间的匹配性。

例如，针对至少一个基准子数据中的每个基准子数据，确定基准子数据和与基准子数据的数据类型相对应的待处理子数据的相似度；在确定至少一个基准子数据各自的相似度均大于或等于预设相似度阈值的情况下，确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配。

一种技术中，通过比较多个数据之间的整体相似度来确定多个数据之间是否匹配，这忽略了数据中包含的各个子数据，从而可能导致误判的问题。例如，试题本身具有对数字、关键词、提问方法、选项顺序、答案敏感的特点，更换这些关键因素，都会导致试题语义的变化。将试题整体切词后判重，容易忽略占比小但是关键的内容，进而导致误判。

根据本公开的实施例，相似度可以包括以下至少一项：语义相似度、关键词相似度、图像相似度。

例如，可以单独基于语义相似度来确定基准子数据和与基准子数据的数据类型相对应的待处理子数据之间的匹配关系，也可以单独基于关键词相似度或图像相似度来确定基准子数据和与基准子数据的数据类型相对应的待处理子数据之间的匹配关系。还可以为语义相似度、关键词相似度、图像相似度分别配置权重，基于语义相似度、关键词相似度、图像相似度的综合相似度来确定基准子数据和与基准子数据的数据类型相对应的待处理子数据之间的匹配关系。

例如，综合相似度＝w1*语义相似度+w2*关键词相似度+w3*图像相似度。其中，w1、w2、w3分别为针对语义相似度、关键词相似度、图像相似度的权重值。

根据本公开的实施例，相似度可以包括通过基于文字匹配的算法模型得到的关键词相似度，例如Simslash算法模型。还可以包括通过基于语义匹配的LSA(Latent SemanticAnalysis)模型得到的语义相似度。但不仅限于此。还可以包括相关技术中其他的技术手段确定的相似度，例如基于深度学习神经网络模型可以确定附图的图像相似度。本领域技术人员可以根据实际需要，结合应用场景选择适合的相似度计算方式。

根据本公开的实施例，预设相似度阈值的范围不做具体限定。例如，可以是80％，也可以是90％。可以根据具体实际情况设定。需要说明的是，预设相似度阈值设定的越高，则匹配性越高，筛选的精度越高。但是，预设相似度阈值设定的越高，有可能会导致漏选的问题。

根据本公开的实施例，利用相似度来确定基准子数据和与基准子数据的数据类型相对应的待处理子数据之间的匹配关系，计算简单、评判精准，而且更贴近对含有文字、图文并茂等数据的判重。

图4示意性示出了根据本公开实施例的确定候选数据的流程图。

如图4所示，该方法还可以包括操作S410～S430。

在操作S410，从数据库中筛选得到与基准数据相匹配的多个目标待处理数据。

在操作S420，识别多个目标待处理数据的置信度，得到置信度最高的目标待处理数据，作为候选数据。

在操作S430，从数据库中删除多个目标待处理数据中的除候选数据以外的其他目标待处理数据。

根据本公开的实施例，数据库可以是包含有多个待处理数据的数据库，例如包含有多个试题的试题库。

根据本公开的实施例，可以通过操作S210～S220得到与基准数据相匹配的多个目标待处理数据，也可以通过操作S310～S340得到与基准数据相匹配的多个目标待处理数据。

根据本公开的实施例，置信度可以是指来源置信度，也可以是指完整性置信度，还可以是指其他评判标准的置信度。

根据本公开的实施例，置信度的排序方式，可以是根据实际情况预先设定的。例如，来源置信度的排序方式可以是，通过人工编辑得到的目标待处理数据的置信度最高，通过购买得到的目标待处理数据的置信度以及通过其他方式获取的目标待处理数据的置信度依次降低。

需要说明的是，本公开实施例提供的数据库中的待处理数据均是在符合法律规定，并符合行业规定的情况下得到的。

根据本公开的实施例，目标待处理数据是与基准数据匹配的数据。在试题去重的示例应用场景中，基准数据可以为试题A，目标待处理数据为试题B与试题C。利用本公开实施例提供的数据处理方法，确定试题B、试题C是与试题A匹配的试题。由于试题B的来源是人工编辑来源，试题C的来源是购买来源。通过上述来源置信度排序可以确定人工编辑来源的来源置信度最高，因此可以确定试题B是候选数据，并删除试题C。

一种技术中，通常仅是将多个数据中的重复数据进行去重，而忽略了多个重复数据中的数据质量问题。

根据本公开的实施例，考虑对相同的多个目标待处理数据进行置信度的比较，保留最优的、质量好的目标待处理数据，即置信度最高的目标待处理数据。进而实现了优化去重的效果。

根据本公开的实施例，该数据处理方法还可以包括优化重组数据的操作。

例如，识别候选数据中的每个待处理子数据；在确定候选数据中缺少至少一个目标子数据的情况下，从多个目标待处理数据中除候选数据以外的其他目标待处理数据中，提取至少一个目标子数据；将至少一个目标子数据与候选数据组合，得到目标数据。

根据本公开的实施例，可以仅保留置信度最高的候选数据，删除多个目标待处理数据中除候选数据外的其他目标待处理数据，但是并不局限于此。还可以对候选数据进行完整性识别，对候选数据的缺少内容进行补充，得到优化后的目标数据。

利用本公开实施例提供的数据处理方法，不仅能够对待处理数据进行识别，确定与基准数据相匹配的待处理数据，还能对待处理数据进行去重、整合，得到优化后的目标数据。实现对数据库的数据的精简、提炼。

图5示意性示出了根据本公开实施例的数据处理方法的应用场景示意图。

如图5所示的示例中，候选数据可以是试题501，目标待处理数据可以是试题502。经过识别候选数据中的每个待处理子数据，确定试题501缺少目标子数据图像。因此可以提取试题502中的图像，将试题502中的图像与试题501组合，得到目标数据，即试题503。

根据本公开的实施例，可以对重复试题进行优化组合，提高数据质量。

图6示意性示出了根据本公开另一实施例的数据处理方法的应用场景示意图。

如图6所示的示例中，可以将数据库拆分为两个数据库，包括检索数据库610和全量数据库660。可以采用上述方法，从检索数据库610中确定多个目标待处理数据620，从检索数据库610中删除多个目标待处理数据620。将多个目标待处理数据620中置信度最高的确定为候选数据630，将除候选数据630之外的其他目标待处理数据确定为重复待处理数据640。对候选数据630进行优化重组操作，得到目标数据650，并将目标数据650存储至检索数据库610和全量数据库660中。对重复待处理数据640进行“打标”操作，即进行标注为重复数据的标识操作。经“打标”操作后的包含有重复标识的重复待处理数据640，存储至全量数据库660，以便于后续校验应用。

需要说明的是，本公开对候选数据与重复待处理数据的数量不做限定。

图7示意性示出了根据本公开实施例的数据处理装置700的框图。

如图7所示，数据处理装置700可以包括第一确定模块710与第一匹配模块720。

第一确定模块710，用于确定基准数据和待处理数据，其中，基准数据包括至少一个基准子数据，至少一个基准子数据为按照数据类型从基准数据中拆分得到的，其中，待处理数据包括至少一个待处理子数据，至少一个待处理子数据为按照数据类型从待处理数据中拆分得到。

第一匹配模块720，用于在确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定基准数据和待处理数据匹配。

根据本公开的实施例，数据处理装置还可以包括第一识别模块、拆分模块和第二匹配模块。

第一识别模块，用于识别基准数据的类别信息和待处理数据的类别信息。

拆分模块，用于在确定基准数据的类别信息和待处理数据的类别信息相同的情况下，按照数据类型，拆分基准数据，得到至少一个基准子数据；按照数据类型，拆分待处理数据，得到至少一个待处理子数据。

第二匹配模块，用于在确定基准数据的类别信息和待处理数据的类别信息不相同的情况下，确定基准数据和待处理数据不匹配。

根据本公开的实施例，数据处理装置还可以包括筛选模块、第二识别模块与删除模块。

筛选模块，用于从数据库中筛选得到与基准数据相匹配的多个目标待处理数据。

第二识别模块，用于识别多个目标待处理数据的置信度，得到置信度最高的目标待处理数据，作为候选数据。

删除模块，用于从数据库中删除多个目标待处理数据中的除候选数据以外的其他目标待处理数据。

根据本公开的实施例，数据处理装置还可以包括第三识别模块、提取模块与组合模块。

第三识别模块，用于识别候选数据中的每个待处理子数据。

提取模块，用于在确定候选数据中缺少至少一个目标子数据的情况下，从多个目标待处理数据中除候选数据以外的其他目标待处理数据中，提取至少一个目标子数据。

组合模块，用于将至少一个目标子数据与候选数据组合，得到目标数据。

根据本公开的实施例，第一确定模块可以包括第一确定单元与匹配单元。

第一确定单元，用于针对至少一个基准子数据中的每个基准子数据，确定基准子数据和与基准子数据的数据类型相对应的待处理子数据的相似度。

匹配单元，用于在确定至少一个基准子数据各自的相似度均大于或等于预设相似度阈值的情况下，确定至少一个基准子数据中的每个基准子数据均和与每个基准子数据的数据类型对应的待处理子数据匹配。

根据本公开的实施例，第一确定模块还可以包括第二确定单元、执行单元和停止单元。

第二确定单元，用于针对至少一个基准子数据中的每个基准子数据，确定与基准子数据的数据类型相对应的待处理子数据。

执行单元，用于在确定存在与基准子数据的数据类型相对应的待处理子数据的情况下，执行确定基准子数据和与基准子数据的数据类型相对应的待处理子数据的相似度的操作。

停止单元，用于在确定不存在与基准子数据的数据类型相对应的待处理子数据的情况下，停止对基准子数据的处理操作。

根据本公开的实施例，相似度包括以下至少一项：语义相似度、关键词相似度、图像相似度。

根据本公开的实施例，数据类型包括以下至少一项：题干、选项、答案、解析。

根据本公开的实施例，类别信息包括以下至少一项：选择题、判断题、填空题、问答题。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

确定基准数据和待处理数据，其中，所述基准数据包括至少一个基准子数据，所述至少一个基准子数据为按照数据类型从所述基准数据中拆分得到的，其中，所述待处理数据包括至少一个待处理子数据，所述至少一个待处理子数据为按照所述数据类型从所述待处理数据中拆分得到；以及

在确定所述至少一个基准子数据中的每个基准子数据均和与所述每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定所述基准数据和所述待处理数据匹配。

2.根据权利要求1所述的方法，还包括：

识别所述基准数据的类别信息和所述待处理数据的类别信息；

在确定所述基准数据的类别信息和所述待处理数据的类别信息相同的情况下，按照所述数据类型，拆分所述基准数据，得到至少一个基准子数据；按照所述数据类型，拆分所述待处理数据，得到至少一个待处理子数据；

在确定所述基准数据的类别信息和所述待处理数据的类别信息不相同的情况下，确定所述基准数据和所述待处理数据不匹配。

3.根据权利要求1所述的方法，还包括：

从数据库中筛选得到与所述基准数据相匹配的多个目标待处理数据；

识别所述多个目标待处理数据的置信度，得到置信度最高的目标待处理数据，作为候选数据；

从所述数据库中删除所述多个目标待处理数据中的除所述候选数据以外的其他目标待处理数据。

4.根据权利要求3所述的方法，还包括：

识别所述候选数据中的每个待处理子数据；

在确定所述候选数据中缺少至少一个目标子数据的情况下，从所述多个目标待处理数据中除所述候选数据以外的其他目标待处理数据中，提取所述至少一个目标子数据；以及

将所述至少一个目标子数据与所述候选数据组合，得到目标数据。

5.根据权利要求1所述的方法，其中，所述确定基准数据和待处理数据包括：

针对所述至少一个基准子数据中的每个基准子数据，确定所述基准子数据和与所述基准子数据的数据类型相对应的待处理子数据的相似度；

在确定所述至少一个基准子数据各自的相似度均大于或等于预设相似度阈值的情况下，确定所述至少一个基准子数据中的所述每个基准子数据均和与所述每个基准子数据的数据类型对应的待处理子数据匹配。

6.根据权利要求5所述的方法，其中，所述确定基准数据和待处理数据还包括：

针对所述至少一个基准子数据中的每个基准子数据，确定与所述基准子数据的数据类型相对应的待处理子数据；

在确定存在与所述基准子数据的数据类型相对应的待处理子数据的情况下，执行确定所述基准子数据和与所述基准子数据的数据类型相对应的待处理子数据的相似度的操作；以及

在确定不存在与所述基准子数据的数据类型相对应的待处理子数据的情况下，停止对所述基准子数据的处理操作。

7.根据权利要求5所述的方法，其中，所述相似度包括以下至少一项：

语义相似度、关键词相似度、图像相似度。

8.根据权利要求2所述的方法，其中，

所述数据类型包括以下至少一项：题干、选项、答案、解析；

所述类别信息包括以下至少一项：选择题、判断题、填空题、问答题。

9.一种数据处理装置，包括：

第一确定模块，用于确定基准数据和待处理数据，其中，所述基准数据包括至少一个基准子数据，所述至少一个基准子数据为按照数据类型从所述基准数据中拆分得到的，其中，所述待处理数据包括至少一个待处理子数据，所述至少一个待处理子数据为按照所述数据类型从所述待处理数据中拆分得到；以及

第一匹配模块，用于在确定所述至少一个基准子数据中的每个基准子数据均和与所述每个基准子数据的数据类型对应的待处理子数据匹配的情况下，确定所述基准数据和所述待处理数据匹配。

10.根据权利要求9所述的装置，还包括：

第一识别模块，用于识别所述基准数据的类别信息和所述待处理数据的类别信息；

拆分模块，用于在确定所述基准数据的类别信息和所述待处理数据的类别信息相同的情况下，按照所述数据类型，拆分所述基准数据，得到至少一个基准子数据；按照所述数据类型，拆分所述待处理数据，得到至少一个待处理子数据；

第二匹配模块，用于在确定所述基准数据的类别信息和所述待处理数据的类别信息不相同的情况下，确定所述基准数据和所述待处理数据不匹配。

11.根据权利要求9所述的装置，还包括：

筛选模块，用于从数据库中筛选得到与所述基准数据相匹配的多个目标待处理数据；

第二识别模块，用于识别所述多个目标待处理数据的置信度，得到置信度最高的目标待处理数据，作为候选数据；

删除模块，用于从所述数据库中删除所述多个目标待处理数据中的除所述候选数据以外的其他目标待处理数据。

12.根据权利要求11所述的装置，还包括：

第三识别模块，用于识别所述候选数据中的每个待处理子数据；

提取模块，用于在确定所述候选数据中缺少至少一个目标子数据的情况下，从所述多个目标待处理数据中除所述候选数据以外的其他目标待处理数据中，提取所述至少一个目标子数据；以及

组合模块，用于将所述至少一个目标子数据与所述候选数据组合，得到目标数据。

13.根据权利要求9所述的装置，其中，所述第一确定模块包括：

第一确定单元，用于针对所述至少一个基准子数据中的每个基准子数据，确定所述基准子数据和与所述基准子数据的数据类型相对应的待处理子数据的相似度；

匹配单元，用于在确定所述至少一个基准子数据各自的相似度均大于或等于预设相似度阈值的情况下，确定所述至少一个基准子数据中的所述每个基准子数据均和与所述每个基准子数据的数据类型对应的待处理子数据匹配。

14.根据权利要求13所述的装置，其中，所述第一确定模块还包括：

第二确定单元，用于针对所述至少一个基准子数据中的每个基准子数据，确定与所述基准子数据的数据类型相对应的待处理子数据；

执行单元，用于在确定存在与所述基准子数据的数据类型相对应的待处理子数据的情况下，执行确定所述基准子数据和与所述基准子数据的数据类型相对应的待处理子数据的相似度的操作；以及

停止单元，用于在确定不存在与所述基准子数据的数据类型相对应的待处理子数据的情况下，停止对所述基准子数据的处理操作。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。