CN111241106B

CN111241106B - 近似数据处理方法、装置、介质及电子设备

Info

Publication number: CN111241106B
Application number: CN202010044200.2A
Authority: CN
Inventors: 冯晨; 王健宗; 彭俊清
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-08-29
Anticipated expiration: 2040-01-15
Also published as: CN111241106A; WO2021143016A1

Abstract

本公开涉及数据处理领域，揭示了一种近似数据处理方法、装置、介质及电子设备。该方法包括：获取待处理数据；获取对应于待处理数据的向量；利用位置敏感哈希函数族中每一位置敏感哈希函数，对待处理数据的向量进行哈希运算，得到与待处理数据的向量对应的映射值；重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，构造覆盖组的步骤包括基于与待处理数据的向量对应的映射值和对待处理数据的向量进行哈希运算的位置敏感哈希函数，构造覆盖组；集成多个覆盖组，得到待处理数据所属的最终覆盖，属于同一最终覆盖的待处理数据为近似数据。此方法下，避免了处理大量近似数据耗时不稳定的情况，在整体上提高了数据处理效率。

Description

近似数据处理方法、装置、介质及电子设备

技术领域

本公开涉及数据处理技术领域，特别涉及一种近似数据处理方法、装置、介质及电子设备。

背景技术

目前，在进行数据处理时，对于任意一项数据，为了快速找到与该数据相似的数据，常使用的方案是位置敏感哈希(Locality sensitive Hashing，LSH)，它将高维数据映射到低维数据，将相似的数据映射到同一桶内，能够使在原始数据空间相邻的两个数据点在映射后的新的数据空间中相邻的概率依然很大，而不相邻的两个数据点在映射后的新的数据空间中相邻的概率很小。然而，LSH算法的使用涉及多个超参数的给定。其中包括Hash函数中的随机数，故映射不同堆的效果与这些随机数的给定有着很大的关系，当利用基于LSH算法的映射结果来进行后续的数据处理任务时，如果需要处理大量数据，就会对映射结果要求很高，这会造成一定的不稳定性。一方面，若桶内数据量过大，利用LSH算法来提升效率的作用就会大打折扣；另一方面，对于同一套数据，执行数据处理任务所花费的时间会不确定，受堆内数据量大小的影响。

发明内容

在数据处理技术领域，为了解决上述技术问题，本公开的目的在于提供一种近似数据处理方法、装置、介质及电子设备。

根据本公开的一方面，提供了一种近似数据处理方法，所述方法包括：

获取多个待处理数据；

获取对应于所述待处理数据的向量；

利用预设的位置敏感哈希函数族中的每一位置敏感哈希函数，对所述待处理数据的向量进行哈希运算，得到与所述待处理数据的向量对应的映射值，其中，所述预设的位置敏感哈希函数族包括多个位置敏感哈希函数；

重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述构造覆盖组的步骤包括基于所述与所述待处理数据的向量对应的映射值和对所述待处理数据的向量进行哈希运算的位置敏感哈希函数，构造覆盖组，所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据；

集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖，其中，属于同一最终覆盖的待处理数据为近似数据。

根据本公开的另一方面，提供了一种近似数据处理装置，所述装置包括：

第一获取模块，被配置为获取多个待处理数据；

第二获取模块，被配置为获取对应于所述待处理数据的向量；

哈希模块，被配置为利用预设的位置敏感哈希函数族中的每一位置敏感哈希函数，对所述待处理数据的向量进行哈希运算，得到与所述待处理数据的向量对应的映射值，其中，所述预设的位置敏感哈希函数族包括多个位置敏感哈希函数；

重复执行模块，被配置为重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述构造覆盖组的步骤包括基于所述与所述待处理数据的向量对应的映射值和对所述待处理数据的向量进行哈希运算的位置敏感哈希函数，构造覆盖组，所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据；

集成模块，被配置为集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖，其中，属于同一最终覆盖的待处理数据为近似数据。

根据本公开的另一方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行如前所述的方法。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开所提供的近似数据处理方法包括如下步骤：获取多个待处理数据；获取对应于所述待处理数据的向量；利用预设的位置敏感哈希函数族中的每一位置敏感哈希函数，对所述待处理数据的向量进行哈希运算，得到与所述待处理数据的向量对应的映射值，其中，所述预设的位置敏感哈希函数族包括多个位置敏感哈希函数；重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述构造覆盖组的步骤包括基于所述与所述待处理数据的向量对应的映射值和对所述待处理数据的向量进行哈希运算的位置敏感哈希函数，构造覆盖组，所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据；集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖，其中，属于同一最终覆盖的待处理数据为近似数据。

此方法下，通过多次构造覆盖组，并将多个覆盖组进行集成，可以在保持数据处理的准确性的同时，使近似数据处理耗时稳定在较小的范围内，避免了处理大量近似数据耗时不稳定、可能出现耗时过大的情况，从而在整体上提高了数据处理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种近似数据处理方法的***架构示意图；

图2是根据一示例性实施例示出的一种近似数据处理方法的流程图；

图3是根据图2对应实施例示出的一实施例的步骤220的细节流程图；

图4是根据一示例性实施例示出的一个覆盖组的示意图；

图5是根据图2对应实施例示出的一实施例的当所述待处理数据为声纹数据时，构造覆盖组的步骤的流程图；

图6是根据一示例性实施例示出的一种近似数据处理装置的框图；

图7是根据一示例性实施例示出的一种实现上述近似数据处理方法的电子设备示例框图；

图8是根据一示例性实施例示出的一种实现上述近似数据处理方法的计算机可读存储介质。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本公开首先提供了一种近似数据处理方法。这里的数据可以是任何可以转化为向量的数据，比如可以是音频、文本、图像等类型的数据。近似数据处理方法是指将多个数据中的尽可能多的较为相似的数据归为一类的方法，将可能近似的数据归为一类后，可以用于执行搜索、进一步地精准归类等任务。

本公开的实施终端可以是任何具有运算和处理功能的设备，该设备可以与外部设备相连，用于接收或者发送数据，具体可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如云计算的物理基础设施或者服务器集群。

优选地，本公开的实施终端可以为服务器或者云计算的物理基础设施。

图1是根据一示例性实施例示出的一种近似数据处理方法的***架构示意图。如图1所示，该***架构包括服务器110以及用户终端120，服务器110通过通信链路与用户终端120相连，可以接收用户终端120发来的数据并可以向用户终端120发送数据，在本实施例中，服务器110为本公开的实施终端。当用户使用用户终端120向服务器110发送多个数据后，服务器110可以通过执行本公开提供的近似数据处理方法对接收到的数据进行归类，使可能相似的数据归为一类，从而为执行搜索、精准归类等其他任务提供数据归类结果的支持。

值得一提的是，图1仅为本公开的一个实施例。虽然在本实施例中的实施终端为服务器，但在其他实施例中，实施终端可以为如前所述的各种终端或设备；虽然在本实施例中，用于进行数据处理的数据是仅从一个终端发来的，但在其他实施例或者具体应用中，用于进行数据处理的数据可以是从多个终端来获得的，比如，服务器与用户终端为C/S(Client/Server，客户机/服务器)架构或者B/S(Browser/Server，浏览器/服务器)架构，多个用户终端使用其上安装的客户端或者浏览器，来向服务器发送数据，用户终端上的数据来源也可以是多种多样的。本公开对此不作任何限定，本公开的保护范围也不应因此而受到任何限制。

图2是根据一示例性实施例示出的一种近似数据处理方法的流程图。本实施例的近似数据处理方法可以由服务器执行，如图2所示，包括以下步骤：

步骤210，获取多个待处理数据。

如前所述，待处理数据可以是各种类型的数据，比如可以是图像数据、语音数据、文本数据等。

步骤220，获取对应于所述待处理数据的向量。

在一个实施例中，所述待处理数据为图像数据，根据每一图像数据所包括的各像素点的像素值，将图像数据转换为向量。

在一个实施例中，每一所述待处理数据对应一个向量，所述待处理数据为声纹数据，步骤220的具体步骤可以如图3所示。图3是根据图2对应实施例示出的一实施例的步骤220的细节流程图，包括以下步骤：

步骤221，获取所述待处理数据的梅尔倒频谱系数特征值。

在一个实施例中，梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)特征值是对语音数据进行预加重、分帧、加窗、傅里叶变换、傅里叶反变换等一系列流程的处理后得到的语音特征值。

步骤222，将每一所述待处理数据的梅尔倒频谱系数特征值输入预先训练好的结合了联合因子分析模型的高斯混合-通用背景模型，得到与每一所述待处理数据对应的身份确认向量。

联合因子分析(Joint Factor Analysis，JFA)模型对信道差异以及不同说话人数据之间的差异进行建模，去除了信道的干扰成分，实现了对声纹数据中的声纹特征更为准确地提取。

高斯混合-通用背景模型(Gaussian mixture model-Universal BackgroundModel，GMM-UBM)是能够识别相似语音数据的模型，对GMM-UBM模型的训练是指确定该模型的参数的过程。

在一个实施例中，通过将预先标注好对应说话人的多个声纹数据输入至GMM-UBM模型，实现对GMM-UBM模型的训练。

身份确认向量即I-Vector(Identity-Vector)，是记录了特定于语音说话人的声纹特征信息的向量。

步骤230，利用预设的位置敏感哈希函数族中的每一位置敏感哈希函数，对所述待处理数据的向量进行哈希运算，得到与所述待处理数据的向量对应的映射值。

其中，所述预设的位置敏感哈希函数族包括多个位置敏感哈希函数。

位置敏感哈希(locality sensitive hashing，LSH)函数是能够将高维数据降低至低维空间的函数，LSH函数能够使原始数据空间中相邻的数据点经过映射后有较大的概率相邻，而在原始数据空间中不相邻的数据点经过映射后有很大的概率是不相邻的。

在一个实施例中，所述预设的位置敏感哈希函数族中的每一位置敏感哈希函数，是通过如下公式建立的：

其中，a为随机数列，b为(0，r)中的一个随机数，r是所述待处理数据的身份确认向量的各特征中的最大值与最小值之差，x为所述待处理数据的身份确认向量，通过调整a和b两个参数，实现了建立包含多个位置敏感哈希函数的预设的位置敏感哈希函数族。

h(x)＝sgn(v，r)，

其中，r为一个随机的超平面，v为所述待处理数据的身份确认向量，sgn为符号函数。

其中，E₈是格子解码函数，v8是从向量v中随机取出的8维数据，向量v为所述待处理数据的身份确认向量，b是一个8维的随机偏移向量，w是归一化因子。

步骤240，重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述构造覆盖组的步骤包括基于所述与所述待处理数据的向量对应的映射值和对所述待处理数据的向量进行哈希运算的位置敏感哈希函数，构造覆盖组。

所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据。

覆盖(canopy)本质上为待处理数据的集合，每一待处理数据可以属于至少一个覆盖，被分至同一覆盖的待处理数据被认为是近似的数据。覆盖组即为一组覆盖，为覆盖的集合，可以包括至少一个覆盖。若待处理数据用索引来唯一标识，由于索引与待处理数据是唯一对应的，那么覆盖可以为索引的集合。比如，若所有待处理数据的全部索引为{1，2，3，4}，可以得到的一个覆盖组为{[1,2]，[3]，[4]}，其中，[1,2]、[3]、[4]分别为一个覆盖，可以得到的另一覆盖组为{[1,2,3]，[3,4]，[4]}，其中，[1,2]、[3]、[4]分别为一个覆盖。

第一预定数目可以是根据人为经验设定的任意大于2的数目，比如，第一预定数目可以为10。由于多次构造覆盖组，每一次构造覆盖得到的覆盖组可以与其他已建立的覆盖组相同，也可以不同，因此可能存在两个及以上的覆盖组相同的情况，若将相同的多个覆盖组视为一个，那么重复执行第一预定数目次构造覆盖组的步骤所得到的覆盖组的数目小于或等于第一预定数目。

图4是根据一示例性实施例示出的一个覆盖组的示意图。如图4所示，该覆盖组包括第一覆盖410、第二覆盖420以及第三覆盖430，其中，每一覆盖中的黑点代表属于该覆盖的待处理数据，可以看到，每一覆盖均包括至少一个待处理数据，比如，第一待处理数据440即为属于第二覆盖420的待处理数据。第一覆盖410和第二覆盖420有交叉的部分，这代表属于该部分的第二待处理数据450属于超过一个覆盖，即同时属于第一覆盖410和第二覆盖420。

图5是根据图2对应实施例示出的一实施例的当所述待处理数据为声纹数据时，构造覆盖组的步骤的流程图。参见图5所示，包括以下步骤：

步骤510，构造包含1、所述身份确认向量的维度数以及两者之间所有整数的整数集。

身份确认向量即I-Vector，是根据声纹数据提取得到的向量，可以是同前述实施例相同的身份确认向量。

比如，若所述身份确认向量的维度数为8，那么，最终构造的整数集为{1,2,3,4,5,6,7,8}。

步骤520，建立初始覆盖组，并将计数器置为1。

其中，所述初始覆盖组为空集。

覆盖组可以用各种数据结构来记录，比如可以使用数组来记录，而当使用数组来记录初始覆盖组时，初始覆盖组对应的数组即为空数组。

计数器是嵌于本公开的实施终端内的具备计数功能的模块或组件。

步骤530，判断所述整数集是否为空集。

整数集为空集，即为所述整数集中不含任何元素。

在所述整数集为空集的情况下，会直接结束构造覆盖组的步骤。

在所述整数集不为空集的情况下，会重复执行步骤540以及之后的步骤，直至当所述整数集为空集时，结束构造覆盖组。

步骤540，从所述整数集中随机取出一个元素，作为目标元素。

构造的整数集包括多个整数，每一整数为一个元素。

步骤550，针对每一位置敏感哈希函数，获取利用该位置敏感哈希函数得到的输出结果等于该位置敏感哈希函数对索引为所述目标元素的身份确认向量输入得到的输出结果的身份确认向量的索引。

身份确认向量的索引即为身份确认向量的唯一标识，为所述整数集中的一个整数，每一身份确认向量与一个索引唯一对应。

在本步骤中，取出的目标元素是固定的，因此，索引为所述目标元素的身份确认向量也是固定的，本步骤是基于固定的身份确认向量来执行的。

将索引为所述目标元素的身份确认向量输入至每一位置敏感哈希函数，可以得到各位置敏感哈希函数对该身份确认向量对应的输出结果，当存在其他身份确认向量输入至位置敏感哈希函数得到的输出结果与索引为所述目标元素的身份确认向量输入至同样的位置敏感哈希函数得到的输出结果相同时，即认为这些身份确认向量与索引为所述目标元素的身份确认向量是相似的。

步骤560，将获取的所有身份确认向量索引的并集与所述整数集的交集作为索引为所述计数器的值的覆盖加入至所述初始覆盖组。

获取的所有身份确认向量索引的并集可以使重复的身份确认向量索引仅保留一个，避免了一个覆盖组中包括多个相同的身份确认向量。

索引、身份确认向量、待处理数据都是一一对应的，所以通过索引的方式来建立覆盖组即可实现对相应的身份确认向量和待处理数据的有效划分。

随着覆盖的构建，所述整数集中的元素可能会随之减少，获取的所有身份确认向量索引的并集中可能存在不应包含在本次建立的覆盖中的元素，需要把它们从本次建立的覆盖中去除，而通过交集的方式可以使已经不存在于所述整数集的元素从本次建立的覆盖中去除。

步骤570，确定所述索引为所述计数器的值的覆盖中每一身份确认向量的相似度分数，所述相似度分数等于为确定该身份确认向量的索引所使用的位置敏感哈希函数的索引的数目与所有位置敏感哈希函数的数目的比值。

由于哈希函数的索引是与哈希函数唯一对应的，所以哈希函数的数目等同于哈希函数的索引的数目。

索引为所述计数器的值的覆盖即为本轮要构建的覆盖。

如前所述，通过并集可以将覆盖中重复的元素仅保留一个，但重复的元素的数目同样有它的作用，对于同一身份确认向量，若有更多的位置敏感哈希函数对该身份确认向量的输出结果分别等于这些位置敏感哈希函数对索引为所述目标元素的身份确认向量的输出结果，那么这意味着这个身份确认向量与索引为所述目标元素的身份确认向量越相似，所以这个比值可以用来作为相似度分数。

步骤580，从所述整数集中移除所有相似度分数大于或等于预定相似度阈值的身份确认向量的索引。

当一个身份确认向量与索引为所述目标元素的身份确认向量的相似度分数足够大时，说明这个身份确认向量与索引为所述目标元素的身份确认向量是足够相似的，通过将这样的身份确认向量的索引从整数集中移除，可以避免本应仅在一个覆盖中存在的身份确认向量的索引成为其他覆盖中的元素，从而可以保证覆盖划分的准确性。

步骤590，令计数器加1。

如前所述，在步骤560中，构建的覆盖的索引等于计数器的值，所以计数器用于统计构建的覆盖的数目并为建立的覆盖设置索引，因此，需要将计数器加1，每当计数器加1，意味着本轮建立覆盖组的过程中本次构造的覆盖的这一环节结束，需要进行下一个覆盖的构造，通过将计数器加1，可以使得计数器的值可以用于构造下一个覆盖。

易于理解，无论是待处理数据，还是身份确认向量，都与索引这一唯一标识是一一对应的，所以覆盖组中可以包含待处理数据，也可以包含身份确认向量，还可以包含索引，无论包含这些中哪一个，都能实现对待处理数据进行分类的目的。

若两个身份确认向量被同样的位置敏感哈希函数映射为同样的结果时，即可认为这两个身份确认向量大概率是相似的，在本实施例中，通过利用这种机制来构造覆盖，保证了构造的覆盖中各元素的相似性，另外，通过基于相似度来从整数集中移除身份确认向量的索引，保证了覆盖划分的准确性。

步骤250，集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖。

其中，属于同一最终覆盖的待处理数据为近似数据。

集成多个覆盖组是综合多个覆盖组中的待处理数据的分布情况来形成一个覆盖组的过程，最终形成的覆盖组包括多个最终覆盖，每一所述待处理数据可以属于至少一个最终覆盖。

对于每一覆盖组，该覆盖组下的每一覆盖中的待处理数据可以认为是近似的，而最终覆盖即为相似的待处理数据的最终归类结果，最终覆盖从整体上反映了各个覆盖组中近似待处理数据的分布情况。

在一个实施例中，所述集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖，包括：

若所述待处理数据在超过第二预定数目个覆盖组中属于同一个覆盖，则将所述待处理数据归为一个覆盖，所述第二预定数目小于所述第一预定数目；

将没有在超过第二预定数目个覆盖组中属于同一个覆盖的待处理数据分别从覆盖中移除并将从覆盖中移除的所有待处理数据归为一个覆盖。

在一个实施例中，所述若所述待处理数据在超过第二预定数目个覆盖组中属于同一个覆盖，则将所述待处理数据归为一个覆盖，包括：

针对每一包含至少两个索引的覆盖中的每一种索引组合，确定包含的覆盖中存在该索引组合的覆盖组的数目；

当所述数目大于第二预定数目，则将索引属于所述索引组合的待处理数据归为一个覆盖。

当将待处理数据划归为最终覆盖后，便可以应用在各个最终覆盖中的近似待处理数据来执行其他的数据处理任务。

在一个实施例中，在集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖之后，所述方法还包括：

基于获得的包含待处理数据的最终覆盖，对所述待处理数据进行聚类，以将所述待处理数据分为多个类。

本实施例中主要执行待处理数据的进一步聚类任务，由于已经建立的最终覆盖中的待处理数据大多是相似的，已经近乎归为一类，所以在此基础上进行进一步的聚类，可以大大缩短聚类时间，提高聚类效率，同时由于大多相似的待处理数据已经被分至一个覆盖中，在此基础上进一步聚类后，聚类错误的可能性大大降低，还可以提高聚类的准确性；此外，由于最终覆盖是多个覆盖组集成得到的，可以使整个待处理数据的归类任务所消耗的时间更为稳定。

在一个实施例中，利用k-means算法对每一最终覆盖中的待处理数据进行聚类。

在一个实施例中，所述基于获得的包含待处理数据的最终覆盖，对所述待处理数据进行聚类，以将所述待处理数据分为多个类，包括：

以每一待处理数据作为一个类，基于各待处理数据所属的最终覆盖，确定各类之间的初始类间距；

重复执行归类过程，直至类间距最小的两类之间的类间距达到预定类间距阈值或者所有待处理数据被合并为一类，所述归类过程包括：

合并类间距最小的两类；

更新各类之间的类间距。

本实施例中通过根据类间距来迭代进行聚类，保证了聚类的可靠性。

在一个实施例中，所述合并类间距最小的两类，包括：

获取包含属于第一个最终覆盖的待处理数据的任意一对类之间的类间距，作为初始类对的类间距，并将所述初始类对的类间距标记为最小类间距；

判断步骤：从除所述初始类对之外的包含属于索引最小的最终覆盖的待处理数据的任意一对没有被标记为已判断的类之间的类间距开始，针对每一对类，判断该对类中两个类的类间距是否小于所述最小类间距并将该对类中的每一类标记为已判断；

取消与标记步骤：如果是，取消对最近一次最小类间距的标记并将该对类的类间距标记为最小类间距；

重复执行判断步骤以及取消与标记步骤，直至被标记为最小类间距的类对的类间距不再变化；

将被标记为最小类间距的一对类作为类间距最小的两类进行合并。

在一个实施例中，所述待处理数据为声纹数据，所述以每一待处理数据作为一个类，基于各待处理数据所属的最终覆盖，确定各类之间的初始类间距，包括：

根据基于概率的线性判别分析模型获取每一对待处理数据的相似度得分；

将各相似度得分标准化至[0,1]之间，得到标准化后的相似度得分；

对任意一对所述待处理数据，若对应的类属于同一覆盖，则将该对所述待处理数据对应的类的类间距置为1与对应于该对所述待处理数据的标准化后的相似度得分之差，若对应的类属于不同覆盖，则将该对所述待处理数据对应的类的类间距置为1；

所述更新各类之间的类间距，包括：

针对合并后的每一类对应的每一对类，获取该对类中所有属于第一类的每一待处理数据与属于第二类的每一待处理数据之间标准化后的相似度得分之和；

将所述和与该对类中所有属于第一类的待处理数据与所有属于第二类的待处理数据对应的数据对的数目的比值作为该对类中两类之间的类间距。

在本实施例中，实现了声纹数据的聚类，在很多场景下，同一用户会生成多个声纹数据，在大量用户都提供大量的声纹数据的情况下，就需要将混合在一起的声纹数据按照用户进行归类，而通过本实施例就能实现对声纹数据的高效、准确、稳定归类。

第一类和第二类是对一对类中两个不同的类的称呼。比如，第一类包括A、B、C三个待处理数据，而第二类包括D、E两个待处理数据，那么两个类可以对应AD、AE、BD、BE、CD、CE六种待处理数据的组合，每一组合都有一个标准化后的相似度得分，最终得到的标准化后的相似度得分之和即为六个组合对应的相似度得分之和，该相似度得分之和与6的比值即为两类之间的类间距。

在一个实施例中，所述根据基于概率的线性判别分析模型获取每一对待处理数据的相似度得分，包括：

利用基于概率的线性判别分析模型获取每一待处理数据代表说话人信息的向量；

针对每一对待处理数据，获取该对待处理数据中每一待处理数据对应的代表说话人信息的向量的对数似然比，得到该对待处理数据的相似度得分。

基于概率的线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)模型是一种信道补偿算法，利用该算法可以忽略信道噪声对记录说话人的语音信息的影响。

在本实施例中，通过利用基于概率的线性判别分析模型得到各待处理数据代表说话人信息的向量，将两个待处理数据对应的代表说话人信息的向量的对数似然比作为两个待处理数据之间的打分。利用计算的打分来得到类间距，并根据类间距来进行聚类，提高了聚类时的动态容错能力，避免了覆盖集成的方法产生错误，从而导致的错误归类的情况发生。

在一个实施例中，所述将各相似度得分标准化至[0,1]之间，得到标准化后的相似度得分，包括：

利用如下公式将各相似度得分标准化至[0,1]之间，得到标准化后的相似度得分：

其中，x为待标准化的相似度得分，X_max为各对待处理数据的相似度得分中的最大值，X_min为各对待处理数据的相似度得分中的最小值，为标准化后的相似度得分。

在一个实施例中，在基于获得的包含待处理数据的最终覆盖，对所述待处理数据进行聚类，以将所述待处理数据分为多个类之后，所述方法还包括：

当接收到获取与目标数据相似的数据的请求，基于各待处理数据被分为的类，获取与所述目标数据相似的数据。

本实施例中，由于在对待处理数据的覆盖集成和聚类后得到的每一类中的待处理数据往往是高度相似的，在此基础上，若确定所有数据中与目标数据相似的数据，便可以直接从相似的类中获取数据，提高了检索效率。

综上所述，根据图2实施例提供的近似数据处理方法，通过多次构造覆盖组，并将多个覆盖组进行集成，可以在保持数据处理的准确性的同时，使近似数据处理耗时稳定在较小的范围内，避免了处理大量近似数据耗时不稳定、可能出现耗时过大的情况，从而在整体上提高了数据处理效率。

本公开还提供了一种近似数据处理装置，以下是本公开的装置实施例。

图6是根据一示例性实施例示出的一种近似数据处理装置的框图。如图6所示，装置600包括：

第一获取模块610，被配置为获取多个待处理数据；

第二获取模块620，被配置为获取对应于所述待处理数据的向量；

哈希模块630，被配置为利用预设的位置敏感哈希函数族中的每一位置敏感哈希函数，对所述待处理数据的向量进行哈希运算，得到与所述待处理数据的向量对应的映射值，其中，所述预设的位置敏感哈希函数族包括多个位置敏感哈希函数；

重复执行模块640，被配置为重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述构造覆盖组的步骤包括基于所述与所述待处理数据的向量对应的映射值和对所述待处理数据的向量进行哈希运算的位置敏感哈希函数，构造覆盖组，所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据；

集成模块650，被配置为集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖，其中，属于同一最终覆盖的待处理数据为近似数据。

根据本公开的第三方面，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同***组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

根据本公开的第四方面，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种近似数据处理方法，其特征在于，所述方法包括：

获取多个待处理数据，所述待处理数据为声纹数据，每一所述待处理数据对应一个向量；

通过如下方式获取对应于所述待处理数据的向量：获取所述待处理数据的梅尔倒频谱系数特征值；将每一所述待处理数据的梅尔倒频谱系数特征值输入预先训练好的结合了联合因子分析模型的高斯混合-通用背景模型，得到与每一所述待处理数据对应的身份确认向量；

重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据，所述构造覆盖组的步骤包括：构造包含1、所述身份确认向量的维度数以及两者之间所有整数的整数集；建立初始覆盖组，并将计数器置为1，其中，所述初始覆盖组为空集；重复执行构造覆盖过程直至所述整数集为空集，所述构造覆盖过程包括：从所述整数集中随机取出一个元素，作为目标元素；针对每一位置敏感哈希函数，获取利用该位置敏感哈希函数得到的输出结果等于该位置敏感哈希函数对索引为所述目标元素的身份确认向量输入得到的输出结果的身份确认向量的索引；将获取的所有身份确认向量索引的并集与所述整数集的交集作为索引为所述计数器的值的覆盖加入至所述初始覆盖组；确定所述索引为所述计数器的值的覆盖中每一身份确认向量的相似度分数，所述相似度分数等于为确定该身份确认向量的索引所使用的位置敏感哈希函数的索引的数目与所有位置敏感哈希函数的数目的比值；从所述整数集中移除所有相似度分数大于或等于预定相似度阈值的身份确认向量的索引；令计数器加1；

2.根据权利要求1所述的方法，其特征在于，所述预设的位置敏感哈希函数族中的每一位置敏感哈希函数，是通过如下公式建立的：

3.根据权利要求1所述的方法，其特征在于，所述集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖，包括：

4.根据权利要求1所述的方法，其特征在于，在集成所述多个覆盖组，得到每一所述待处理数据所属的最终覆盖之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于获得的包含待处理数据的最终覆盖，对所述待处理数据进行聚类，以将所述待处理数据分为多个类，包括：

合并类间距最小的两类；

更新各类之间的类间距。

6.一种近似数据处理装置，其特征在于，所述装置包括：

第一获取模块，被配置为获取多个待处理数据，所述待处理数据为声纹数据，每一所述待处理数据对应一个向量；

第二获取模块，被配置为通过如下方式获取对应于所述待处理数据的向量：获取所述待处理数据的梅尔倒频谱系数特征值；将每一所述待处理数据的梅尔倒频谱系数特征值输入预先训练好的结合了联合因子分析模型的高斯混合-通用背景模型，得到与每一所述待处理数据对应的身份确认向量；

重复执行模块，被配置为重复执行第一预定数目次构造覆盖组的步骤，得到多个覆盖组，所述覆盖组包括至少一个覆盖，每一所述覆盖包括至少一个所述待处理数据，所述构造覆盖组的步骤包括：构造包含1、所述身份确认向量的维度数以及两者之间所有整数的整数集；建立初始覆盖组，并将计数器置为1，其中，所述初始覆盖组为空集；重复执行构造覆盖过程直至所述整数集为空集，所述构造覆盖过程包括：从所述整数集中随机取出一个元素，作为目标元素；针对每一位置敏感哈希函数，获取利用该位置敏感哈希函数得到的输出结果等于该位置敏感哈希函数对索引为所述目标元素的身份确认向量输入得到的输出结果的身份确认向量的索引；将获取的所有身份确认向量索引的并集与所述整数集的交集作为索引为所述计数器的值的覆盖加入至所述初始覆盖组；确定所述索引为所述计数器的值的覆盖中每一身份确认向量的相似度分数，所述相似度分数等于为确定该身份确认向量的索引所使用的位置敏感哈希函数的索引的数目与所有位置敏感哈希函数的数目的比值；从所述整数集中移除所有相似度分数大于或等于预定相似度阈值的身份确认向量的索引；令计数器加1；

7.一种计算机可读程序介质，其特征在于，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行根据权利要求1至5中任一项所述的方法。

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至5任一项所述的方法。