CN117494711A

CN117494711A - 一种基于语义的用电地址相似度匹配的方法

Info

Publication number: CN117494711A
Application number: CN202311515908.1A
Authority: CN
Inventors: 张巍; 赖浩文; 刘娟; 高泽辉; 冉光文; 王卓珺; 何欣怡; 余晓荣; 顾亮; 黄紫菡; 钟强; 杨雪峰; 丁盛
Original assignee: Chuxiong Power Supply Bureau of Yunnan Power Grid Co Ltd
Current assignee: Chuxiong Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-02

Abstract

本发明涉及电力营销技术领域，具体地说，涉及一种基于语义的用电地址相似度匹配的方法，包括如下步骤：收集和整合各类标准化后的地址数据；处理采集的用电地址，构建历史地址库；构建词袋模型，按照标准化后的地址要素，对地址对象基于TF‑IDF模型进行地址向量化处理，构成数据集；利用Z‑Score方法分离出数据集中的离群点，检查离群点代表数据是否正确，改正错误的数据，再使用K‑Means分类算法将剩余数据点进行分类；基于文本TF‑IDF余弦相似度算法，比较输入地址与历史地址库中的地址相似度，为用户提供最相关的地址匹配结果。本发明增加理解地址要素的语义信息，通过地址要素语义向量化实现相似度检索，能在大规模地址数据集中快速进行相似地址搜索。

Description

一种基于语义的用电地址相似度匹配的方法

技术领域

本发明涉及电力营销技术领域，具体地说，涉及一种基于语义的用电地址相似度匹配的方法。

背景技术

在电力行业，准确管理和搜索客户用电地址是非常重要的。目前，已有的地址搜索方法主要基于字符串匹配或统计学方法，但这些方法往往无法准确地理解地址的语义信息。例如，“北京市海淀区中关村大街10号”与“北京市海淀区中关村大街10号院2号楼”在纯字符串匹配中可能无法被识别为相似地址。现有的地址搜索方法存在准确性不高和搜索效率低下的问题。鉴于此，我们提出了一种基于语义的用电地址相似度匹配的方法。

发明内容

本发明的目的在于提供一种基于语义的用电地址相似度匹配的方法，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了一种基于语义的用电地址相似度匹配的方法，包括如下步骤：

S1、提取和整理用电地址数据，收集和整合各类标准化后的地址数据；

S2、对采集的用电地址进行预处理、标准化和规范化，并构建历史地址库；

S3、利用历史地址库构建词袋模型，并按照标准化后的地址要素，对历史地址库中的地址对象基于TF-IDF模型进行地址向量化处理，构成数据集；

S4、利用Z-Score方法分离出数据集中的离群点，检查离群点代表数据是否正确，改正错误的数据，再使用K-Means分类算法将剩余数据点进行分类；

S5、基于文本TF-IDF余弦相似度算法，比较输入地址与历史地址库中的地址相似度，为用户提供最相关的地址匹配结果。

作为本技术方案的进一步改进，所述S2中对用电地址的标准化包括用电地址预处理、用电地址的标准化和用电地址的规范化。

作为本技术方案的进一步改进，所述S2中用电地址的规范化包括对输入文本中存在的拼写错误进行纠正、对行政区划的变迁、地址简称、地址别名进行归一化梳理和对原地址片段中缺失的行政区划、路名、路号信息进行补充。

作为本技术方案的进一步改进，所述S3中地址向量化处理具体流程如下；

S3.1、构建词汇表：根据地址要素和分词结果，构建一个词汇表，每个单词或短语都是词汇表中的一个词条，每个词条都有一个唯一的ID；

S3.2、计算词频TF：统计每个词条w在地址文本中出现的次数，词频其中N_w为用电地址文本中词条w出现的次数，N为用电地址文本总词条数；

S3.3、计算逆文档频率IDF：对于每个词条w，统计它在所有地址文本中出现的次数，然后计算其逆文档频率，逆文档频率其中Y为地址文本的文档总数，Y_w为包含词条w的文档数；

S3.4、计算TF-IDF值TF-IDF：对于每个词条w，使用词频TF乘以逆文档频率IDF，得到的结果就是该词条w在当前地址文本中的TF-IDF值，TF-IDF值TF-IDF＝TF×IDF；

S3.5、向量表示：每个地址文本都可以表示为一个TF-IDF向量，该向量由词汇表中所有词条的TF-IDF值组成，词向量作为数据点构成数据集。

作为本技术方案的进一步改进，所述S4中利用Z-Score方法分离出数据集中的离群点，标准分数其中X代表原始数据，σ代表数据的标准偏差，μ代表数据的平均值，符合公式∣Z∣＞3σ的数据点为离群点。

作为本技术方案的进一步改进，所述S4中，将去除离群点后的数据点使用K-means算法进行聚类，将n个数据点划分为k个聚类，其中每个数据点属于离其最近的均值对应的聚类，具体流程如下：

S4.1、随机选择k个数据点作为初始聚类中心；

S4.2、使用每个向量与各个聚类中心的距离，使用余弦相似度计算，余弦相似度其中A_i为数据集中的数据点，B_i为初始聚类中心；

S4.3、分配类别：根据相似度为每个文本分配类别，将各个数据点归入距离最近的聚类中心所代表的类别；

S4.4、更新聚类中心：对于每个类别，计算该类别下所有文本向量的平均值，作为新的聚类中心；

S4.5、如果聚类中心不再发生变化，或者达到最大迭代次数，则算法收敛，否则重复步骤S4.2、S4.3和S4.4继续迭代；

S4.6、输出每个类别及其对应的词汇列表。

作为本技术方案的进一步改进，所述S5中计算地址相似度具体流程如下：

S5.1、对输入地址进行结构化和标准化，得到标准化后的地址要素；

S5.2、对无法解析的剩余文本使用JieBa分析进行分词，得到所有地址要素；

S5.3、计算输入地址的TF-IDF值并转换为TF-IDF向量；

S5.4、计算输入地址文本和各个离群点的相似度，使用余弦相似度计算，返回最高值；

S5.5、计算输入地址文本和各个聚类中心的相似度，使用余弦相似度计算，再计算余弦相似度最大的聚类内各个地址与待匹配地址的余弦相似度，返回最高值；

S5.6、比较两个最高值并返回较大值，返回最匹配的地址供用户选择。

作为本技术方案的进一步改进，所述S5.4中，余弦相似度公式为：

其中C_i为离群点，p为离群点数量，D为输入地址；

返回值为max(cosα)。

作为本技术方案的进一步改进，所述S5.5中，输入地址文本和各个聚类中心的余弦相似度公式为：

其中B^′为最终聚类中心；

余弦相似度最大的聚类内各个地址与待匹配地址的余弦相似度公式为：

其中E_i为余弦相似度最大的聚类内的各个地址，q为余弦相似度最大的聚类内的地址数量；

返回值为max(cosγ)。

本发明的目的之二在于，提供了一种用电地址相似度匹配平台装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述的基于语义的用电地址相似度匹配的方法的步骤。

本发明的目的之三在于，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于语义的用电地址相似度匹配的方法的步骤。

与现有技术相比，本发明的有益效果：该基于语义的用电地址相似度匹配的方法中，首先建立历史地址库，再将历史地址库中的数据向量化，接着分离离群点，再将剩下的数据分类，在进行匹配时，依次计算输入地址与各个离群点之间的相似度、输入地址与相似度最大的聚类中的各个数据之间的相似度，返回最匹配的地址，增加理解地址要素的语义信息，通过地址要素语义向量化实现相似度检索，能在大规模地址数据集中快速进行相似地址搜索。

附图说明

图1为本发明优选实施例的方法流程图；

图2为本发明中示例性的电子计算机平台装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明优选实施例提供了一种基于语义的用电地址相似度匹配的方法，包括如下步骤：

S3、利用历史地址库构建词袋模型，并按照标准化后的省、市、区、县等地址要素，对历史地址库中的地址对象基于TF-IDF模型进行地址向量化处理，构成数据集；

本实施例中，S2中对用电地址的标准化包括用电地址预处理、用电地址的标准化和用电地址的规范化，地址预处理包括去除多余的空格、将所有文本转换为小写、删除不属于地址的元素等操作，用电地址的标准化需要基于地址引擎和地址解析模型，将用电地址文本信息自动分析并标准化为省、市、区市县、街镇、小区、楼栋、单元、楼层、房屋、房间等元素，保证地址信息的准确性和完整性地址。

进一步地，S2中用电地址的规范化包括对输入文本中存在的拼写错误进行纠正、对行政区划的变迁、地址简称、地址别名等进行归一化梳理和对原地址片段中缺失的行政区划、路名、路号等信息进行补充，拼写错误可使用基于统计的中文纠错技术，如使用BERT模型等非自回归模型纠正错误，信息补充可参考相似数据，还可参考地理编码。

具体地，用电地址数据的获取需要利用大数据技术，从现有客户用电地址库、企业注册信息等多种信息源中提取和整理地址信息，收集和整合各类标准化后的地址数据，并进行分类、索引等处理，构建一个全面、准确的用电地址库，该地址库可以定期更新和扩充，以满足日常业务需求。

本实施例中，S3中地址向量化处理具体流程如下；

其中，在进行地址向量化处理时，可为不同的地址要素可以赋予不同的权重，比如对省份、地级市、区县、乡镇、村庄、道路等要素设置权重高值，对门牌号设置权重中值，对街道等采用权重中值，对分词后的要素设置权重正常值，还可为地址与地理编码结合起来，进一步提高准确性。

本实施例中，S4中利用Z-Score方法分离出数据集中的离群点，标准分数其中X代表原始数据，σ代表数据的标准偏差，μ代表数据的平均值，符合公式∣Z∣＞3σ的数据点为离群点，离群点往往代表一些偏远地区的地址。

进一步地，S4中，将去除离群点后的数据点使用K-means算法进行聚类，将n个数据点划分为k个聚类，其中每个数据点属于离其最近的均值对应的聚类，具体流程如下：

S4.1、随机选择k个数据点作为初始聚类中心，初始聚类中心可使用随机选择法、K-means++算法、基于密度的方法和基于距离的方法选取；

S4.6、输出每个类别及其对应的词汇列表。

本实施例中，S5中计算地址相似度具体流程如下：

S5.3、计算输入地址的TF-IDF值并转换为TF-IDF向量；

本步骤中，余弦相似度其中C_i为离群点，p为离群点数量，D为输入地址；

返回值为max(cosα)；

本步骤中，输入地址文本和各个聚类中心的余弦相似度其中B′为最终聚类中心；

余弦相似度最大的聚类内各个地址与待匹配地址的余弦相似度其中E_i为余弦相似度最大的聚类内的各个地址，q为余弦相似度最大的聚类内的地址数量；

返回值为max(cosγ)；

S5.6、比较两个最高值并返回较大值，返回最匹配的地址供用户选择，还可使用排序算法将各个计算的数据排序，并选择最大值，最终返回数据为max(max(cosα)，max(cosγ))。

如图2所示，本实施例还提供了一种用电地址相似度匹配平台装置，该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心，处理器通过总线与存储器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的基于语义的用电地址相似度匹配的方法的步骤。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的基于语义的用电地址相似度匹配的方法的步骤。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面基于语义的用电地址相似度匹配的方法的步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于语义的用电地址相似度匹配的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S2中对用电地址的标准化包括用电地址预处理、用电地址的标准化和用电地址的规范化。

3.根据权利要求2所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S2中用电地址的规范化包括对输入文本中存在的拼写错误进行纠正、对行政区划的变迁、地址简称、地址别名进行归一化梳理和对原地址片段中缺失的行政区划、路名、路号信息进行补充。

4.根据权利要求1所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S3中地址向量化处理具体流程如下；

5.根据权利要求1所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S4中利用Z-Score方法分离出数据集中的离群点，标准分数其中X代表原始数据，σ代表数据的标准偏差，μ代表数据的平均值，符合公式∣Z∣＞3σ的数据点为离群点。

6.根据权利要求5所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S4中，将去除离群点后的数据点使用K-means算法进行聚类，将n个数据点划分为k个聚类，其中每个数据点属于离其最近的均值对应的聚类，具体流程如下：

S4.1、随机选择k个数据点作为初始聚类中心；

S4.6、输出每个类别及其对应的词汇列表。

7.根据权利要求1所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S5中计算地址相似度具体流程如下：

S5.3、计算输入地址的TF-IDF值并转换为TF-IDF向量；

8.根据权利要求7所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S5.4中，余弦相似度公式为：

其中C_i为离群点，p为离群点数量，D为输入地址；

返回值为max(cosα)。

9.根据权利要求7所述的基于语义的用电地址相似度匹配的方法，其特征在于：所述S5.5中，输入地址文本和各个聚类中心的余弦相似度公式为：

其中B′为最终聚类中心；

返回值为max(cosγ)。