CN112699676B

CN112699676B - 一种地址相似关系生成方法及装置

Info

Publication number: CN112699676B
Application number: CN202011640350.6A
Authority: CN
Inventors: 许翠; 刘一阳; 秦雷
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-04-12
Anticipated expiration: 2040-12-31
Also published as: CN112699676A

Abstract

本申请公开了一种地址相似关系生成方法及装置，该方法包括：将地址集合中的地址的文本拆分成多个文本段；地址集合包括目标地址；根据多个文本段生成地址集合中每一个地址对应的地址向量；利用局部敏感哈希算法将地址向量分入多个哈希桶；在目标地址对应的哈希桶中搜索与目标地址相似的地址，得到目标地址的相似地址列表。可知，本申请实施例提供的方法，通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中，从而使得本申请实施例提供的方法在搜索目标地址的相似地址时，只需要搜索目标地址对应的哈希桶中的地址。如此，本申请提供的方法在搜索目标地址的相似地址时的搜索量较小，从而该方法消耗的计算资源也较少，搜索效率较高。

Description

一种地址相似关系生成方法及装置

技术领域

本申请涉及通信领域，尤其涉及一种地址相似关系生成方法及装置。

背景技术

用户的地址信息中，通常包含了多种隐藏的用户属性。若两个用户的地址信息相似，他们某些方面的用户属性可能也较为相似。目前，搜索目标地址的相似地址的方法通常是根据目标地址，对地址集合中的所有地址进行遍历查询，一一比对相似性从而得到目标地址的相似地址。

但如果地址集合中的地址数量较为庞大，这种通过一一比对的方法，比对的次数较多，消耗了大量的计算资源，效率较为低下。因此，本领域的技术人员急需一种效率较高的地址相似关系生成方法。

发明内容

为了解决上述技术问题，本申请提供了一种地址相似关系生成方法及装置，用于在庞大的地址集合中搜索目的地址的相似地址。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种地址相似关系生成方法，所述方法包括：

将地址集合中的地址的文本拆分成多个文本段；所述地址集合包括目标地址；

根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量；

利用局部敏感哈希算法将所述地址向量分入多个哈希桶；

在所述目标地址对应的哈希桶中搜索与目标地址相似的地址，得到所述目标地址的相似地址列表。

可选地，所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶，包括：

将所述地址向量分为多个区间；

计算所述多个区间中每一个区间的哈希值；

将所述多个区间中的哈希值相等的区间分入同一个哈希桶中；不同的哈希桶各自对应一个不同的哈希值。

可选地，所述根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量，包括：

构建文本段集合；所述文本集合包含所述地址集合中所有不重复的文本段；

根据所述文本段集合和所述地址集合，生成地址与文本段的映射矩阵；

根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量。

可选地，所述方法还包括：

根据最小哈希算法对所述地址向量进行压缩，得到压缩后的地址向量；

所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶，包括：

利用局部敏感哈希算法将所述压缩后的地址向量分入多个哈希桶。

可选地，所述方法还包括：

对地址原始数据进行预处理，得到所述地址集合；所述预处理包括文本清洗和/或地址标准化。

本申请实施例还提供了一种地址相似关系生成装置，所述装置包括：

拆分模块，用于将地址集合中的地址的文本拆分成多个文本段；所述地址集合包括目标地址；

生成模块，用于根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量；

分类模块，用于利用局部敏感哈希算法将所述地址向量分入多个哈希桶；

搜索模块，用于在所述目标地址对应的哈希桶中搜索与目标地址相似的地址，得到所述目标地址的相似地址列表。

可选地，分类模块具体用于：

将所述地址向量分为多个区间；

计算所述多个区间中每一个区间的哈希值；

可选地，所述生产模块，具体用于：

可选地，所述装置还包括：

压缩模块，用于根据最小哈希算法对所述地址向量进行压缩，得到压缩后的地址向量；

所述分类模块，具体用于：

可选地，所述装置还包括：

预处理模块，用于对地址原始数据进行预处理，得到所述地址集合；所述预处理包括文本清洗和/或地址标准化。

通过上述技术方案可知，本申请具有以下有益效果：

本申请实施例提供了一种地址相似关系生成方法及装置，该方法包括：将地址集合中的地址的文本拆分成多个文本段；地址集合包括目标地址；根据多个文本段生成地址集合中每一个地址对应的地址向量；利用局部敏感哈希算法将地址向量分入多个哈希桶；在目标地址对应的哈希桶中搜索与目标地址相似的地址，得到目标地址的相似地址列表。

由此可知，本申请实施例提供的方法，通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中，从而使得本申请实施例提供的方法在搜索目标地址的相似地址时，只需要搜索目标地址对应的哈希桶中的地址。如此，本申请提供的方法，在搜索目标地址的相似地址时的搜索量较小，从而该方法在实施时消耗的计算资源也较少，搜索效率较高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种地址相似关系生成方法流程示意图；

图2为本申请实施例提供的一种利用局部敏感算法进行哈希分桶的方法示意图；

图3为本申请实施例提供的一种包含地址标准化的地址拆分方法示意图；

图4为本申请实施例提供的一种地址相似关系生成装置结构示意图。

具体实施方式

为了帮助更好地理解本申请实施例提供的方案，在介绍本申请实施例提供的方法之前，先介绍本申请实施例方案的应用的场景。

用户的地址信息中，通常包含了多种隐藏的用户属性。若两个用户的地址信息相似，他们某些方面的用户属性可能也较为相似。目前，搜索目标地址的相似地址的方法通常是根据目标地址，对地址集合中的所有地址进行遍历查询，一一比对相似性从而得到目标地址的相似地址。但如果地址集合中的地址数量较为庞大，这种通过一一比对的方法，比对的次数较多，消耗了大量的计算资源。因此，本领域的技术人员急需一种较为节省计算资源的地址相似关系生成方法。

为了解决上述的问题，本申请实施例提供了一种地址相似关系生成方法及装置，该方法包括：将地址集合中的地址的文本拆分成多个文本段；地址集合包括目标地址；根据多个文本段生成地址集合中每一个地址对应的地址向量；利用局部敏感哈希算法将地址向量分入多个哈希桶；在目标地址对应的哈希桶中搜索与目标地址相似的地址，得到目标地址的相似地址列表。

由此可知，本申请实施例提供的方法，通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中，从而使得本申请实施例提供的方法在搜索目标地址的相似地址时，只需要搜索目标地址对应的哈希桶中的地址。如此，本申请提供的方法，在搜索目标地址的相似地址时的搜索量较小，从而该方法在实施时消耗的计算资源也较少。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

参见图1，该图为本申请实施例提供的一种地址相似关系生成方法流程示意图。如图1所示，本申请实施例中的地址相似关系生成方法，包括如下步骤101至步骤S104：

S101：将地址集合中的地址的文本拆分成多个文本段；地址集合包括目标地址。

S102：根据多个文本段生成地址集合中每一个地址对应的地址向量。

S103：利用局部敏感哈希算法将地址向量分入多个哈希桶。

S104：在目标地址对应的哈希桶中搜索与目标地址相似的地址，得到目标地址的相似地址列表。

需要说明的是，本申请实施例的哈希桶为利用局部敏感哈希算法将地址向量分类后，每个地址类别的容器。当然，该容器还可以为其他可容量统一个地址类别的地址的容器，本申请实施例在此不做限定。

在本申请实施例中，作为一种可能的实施方式，本申请实施例中的将地址集合中的地址的文本拆分成多个文本段中的文本段，可以为固定长度的文本段，也可以为非固定长度的文本段，本申请实施例在此不做限定。在本申请实施例中，为了更好的分类效果，还可以同时采用固定长度文本段的拆分方式和非固定长度文本段的拆分方式，并将这两种方法得到的结果进行拼合，组成文本段集合。可以理解的是，采用非固定长度文本段的拆分方式，拆分出来的文本段往往带有固定的语义，可以从地址中分离出完整的地名；而采用固定长度文本段的拆分方式，可以生产更多的文本段数量，且能在一定程度上保留上述方式分离出来的地名的先后位置信息。因此，本申请实施例结合这两种方法得到的文本段集合中，即包含了完整的地名信息，又在一定程度上包含了地名信息的顺序，从而能得到更好的分类效果。

在本申请实施例中，根据多个文本段生成地址集合中每一个地址对应的地址向量，可以为：构建文本段集合；文本集合包含地址集合中所有不重复的文本段；根据文本段集合和地址集合，生成地址与文本段的映射矩阵；根据映射矩阵生成地址集合中每一个地址对应的地址向量。

需要说明的是，本申请实施例中的映射矩阵为元素只取0或者1的布尔矩阵。作为一个示例，在地址1包含文本段1时，地址1与文本段1对应的矩阵元素为1；否则为0。本申请实施例中，目标地址对应的地址向量为在该映射矩阵中，目标地址对应的所有元素组成的有序数列。如下表所示，该表为本申请实施例提供的一种映射矩阵表，其中A₁至A_n分别代表n个地址，w₁至w_m分别代表m个文本段，当地址A₁包含文本段w_i，则地址A₁与文本段w₁对应的元素为1；不包含，则该元素为0。从而，在该示例中，地址A₁对应的地址向量为该映射矩阵的第一列元素。

在本申请实施例中，为了进一步减少本申请实施例提供的方法消耗的计算资源，当生成地址集合中每一个地址对应的地址向量后，方法还包括：根据最小哈希算法对地址向量进行压缩，得到压缩后的地址向量。利用局部敏感哈希算法将地址向量分入多个哈希桶，包括：利用局部敏感哈希算法将压缩后的地址向量分入多个哈希桶。可以理解的是，在本申请实施例中，利用最小哈希算法得到的压缩后的地址向量的长度，比原地址向量的长度将大幅减少。如此，在后续对地址向量进行处理时，将节省大量的技术资源。

在本申请实施例中，利用局部敏感哈希算法将地址向量分入多个哈希桶，包括：将地址向量分为多个区间；计算多个区间中每一个区间的哈希值；将多个区间中的哈希值相等的区间分入同一个哈希桶中；不同的哈希桶各自对应一个不同的哈希值。参见图2，该图为本申请实施例提供的一种利用局部敏感算法进行哈希分桶的方法示意图。如图2所示，本申请实施例提供的利用局部敏感算法进行哈希分桶的方法示意图，通过将地址分为B₁至B_n个分区，然后利用哈希函数(Hash函数)计算每一个区间的哈希值，并根据该区间的哈希值(Hash值)，将该区间对应的地址放入相应的哈希桶(Hash桶)中。

可以理解的是，本申请实施例中放入相同的哈希桶中的地址有较大概率是相似的，而放入不同桶的地址在通常情况下是不相似的。因此，本申请实施例提供的方法可以，仅通过搜索目标地址对应的哈希桶，就可以获得目标地址的相似地址。

在本申请实施例中，作为一种可能的实施方式，本申请实施例提供的地址相似关系生成方法，还包括：对地址原始数据进行预处理，得到地址集合；预处理包括文本清洗和/或地址标准化。

地址预处理分为两个步骤：一是按照城市划分地址集合，二是地址文本预处理。按照城市划分地址后，不同城市的地址可单独计算地址相似关系，初步降低地址相似关系生成过程的计算量，也有利于后面流程的并行处理。划分地址集合可采用匹配城市名词、开户机构号、邮政编码等各类信息进行处理。

在地址文本预处理中，又可以划分成两个子步骤：文本清洗和地址标准化。

原始的地址文本数据常常是高度非结构化的数据，包含很多噪声，因此需要先进行文本清洗。干净的文本数据有利于提升后续算法的效率和准确率。文本数据中常见的噪声包括特殊字符、数字、英文字符、错别字、标点符号等。由于地址文本的特殊性，本方法保留数字，避免丢失小区、街道、门牌号等重要信息。

(2)地址标准化

地址标准化是指将原始的非结构化地址数据，经过一系列的处理过程，转换成符合省、市、区(县)、乡镇(街道)结构的标准地址。地址标准化问题可抽象成公式：F_(a)＝s(a∈A,b∈S)。其中A表示原始地址集合，a为原始地址之一，S为标准地址集合，需要使用算法F从集合S中寻找a对应的标准地址s。其中包含两部分工作：一是获取标准地址集合S；二是设计算法F。

在构建标准地址集合时，需要考虑地址的全面性和权威性，因此本方法中的标准地址集合采用国家标准的四级地址库。该地址库在本方法中的地址标准化和分词中都起到了重要作用。在本申请实施例中，作为一种可能的实施方式，为了能匹配上地址的缩写，除了“北京市”、“河北省”等标准地址名称外，还对标准地址名称的后缀进行了处理，生成“北京”、“河北”等地址名词简称。

作为一种可能的实施方式，为提升本申请实施例中的文本段的有效性，本申请实施中的将地址集合中的地址的文本拆分成多个文本段后，可以进行地址标准化。参见图3，该图为本申请实施例提供的一种包含地址标准化的地址拆分方法示意图。如图3所示，在分词时加入标准地址词典。将标准地址库中的四级地址拆分为标准地址名词，生成标准地址词典。在匹配时，若能成功唯一匹配到标准化省、市、区信息，则使用标准地址替代相应级别的词语；若不能唯一匹配，则不替换相应级别的原地址。

由上可知，本申请实施例提供的方法，通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中，从而使得本申请实施例提供的方法在搜索目标地址的相似地址时，只需要搜索目标地址对应的哈希桶中的地址。如此，本申请提供的方法，在搜索目标地址的相似地址时的搜索量较小，从而该方法在实施时消耗的计算资源也较少。

根据上述实施例提供的地址相似关系生成方法，本申请实施例还提供了一种地址相似关系生成装置。

参见图4，该图为本申请实施例提供的一种地址相似关系生成装置结构示意图。如图4所示，本申请实施例提供的地址相似关系生成装置，包括：

拆分模块100，用于将地址集合中的地址的文本拆分成多个文本段；地址集合包括目标地址。生成模块200，用于根据多个文本段生成地址集合中每一个地址对应的地址向量。分类模块300，用于利用局部敏感哈希算法将地址向量分入多个哈希桶。搜索模块400，用于在目标地址对应的哈希桶中搜索与目标地址相似的地址，得到目标地址的相似地址列表。

在本申请实施例中，作为一种可能的实施方式，分类模块具体用于：将地址向量分为多个区间；计算多个区间中每一个区间的哈希值；将多个区间中的哈希值相等的区间分入同一个哈希桶中；不同的哈希桶各自对应一个不同的哈希值。

在本申请实施例中，作为一种可能的实施方式，生产模块，具体用于：构建文本段集合；文本集合包含地址集合中所有不重复的文本段；根据文本段集合和地址集合，生成地址与文本段的映射矩阵；根据映射矩阵生成地址集合中每一个地址对应的地址向量。

在本申请实施例中，作为一种可能的实施方式，装置还包括：压缩模块，用于根据最小哈希算法对地址向量进行压缩，得到压缩后的地址向量。分类模块，具体用于：利用局部敏感哈希算法将压缩后的地址向量分入多个哈希桶

在本申请实施例中，作为一种可能的实施方式，装置还包括：预处理模块，用于对地址原始数据进行预处理，得到地址集合；预处理包括文本清洗和/或地址标准化。

由上可知，本申请实施例提供的装置，通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中，从而使得本申请实施例提供的方法在搜索目标地址的相似地址时，只需要搜索目标地址对应的哈希桶中的地址。如此，本申请提供的方法，在搜索目标地址的相似地址时的搜索量较小，从而该方法在实施时消耗的计算资源也较少。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的***相对应，所以描述的比较简单，相关之处参见***部分说明即可。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种地址相似关系生成方法，其特征在于，所述方法包括：

将地址集合中的地址的文本拆分成多个文本段；所述地址集合包括目标地址，所述地址的文本具有地名；

其中，所述根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量，包括：构建文本段集合；所述文本段集合包含所述地址集合中所有不重复的文本段；根据所述文本段集合和所述地址集合，生成地址与文本段的映射矩阵，所述映射矩阵为元素取0或者1的布尔矩阵；根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量，所述目标地址对应的所有元素组成的有序数列；

利用局部敏感哈希算法将所述地址向量分入多个哈希桶；

其中，所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶，包括：将所述地址向量分为多个区间；计算所述多个区间中每一个区间的哈希值；将所述多个区间中的哈希值相等的区间分入同一个哈希桶中；不同的哈希桶各自对应一个不同的哈希值；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种地址相似关系生成装置，其特征在于，所述装置包括：

拆分模块，用于将地址集合中的地址的文本拆分成多个文本段；所述地址集合包括目标地址，所述地址的文本具有地名；

其中，所述生成模块具体用于：构建文本段集合；所述文本段集合包含所述地址集合中所有不重复的文本段；根据所述文本段集合和所述地址集合，生成地址与文本段的映射矩阵，所述映射矩阵为元素取0或者1的布尔矩阵；根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量，所述目标地址对应的所有元素组成的有序数列；

其中，所述分类模块具体用于：将所述地址向量分为多个区间；计算所述多个区间中每一个区间的哈希值；将所述多个区间中的哈希值相等的区间分入同一个哈希桶中；不同的哈希桶各自对应一个不同的哈希值；

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

所述分类模块，具体用于：

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：