CN110442603B

CN110442603B - 地址匹配方法、装置、计算机设备及存储介质

Info

Publication number: CN110442603B
Application number: CN201910601364.8A
Authority: CN
Inventors: 申超波; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2024-01-19
Anticipated expiration: 2039-07-03
Also published as: CN110442603A; WO2021000831A1

Abstract

本申请揭示了地址匹配方法、装置、计算机设备及存储介质，其中地址匹配方法第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，方法包括：调用预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到第一地址对应的第一分词组和第二地址对应的第二分词组，其中，预设匹配算法包括分词计算和匹配计算；根据第一分词组将第一地址划分为多个第一分段，根据第二分词组将第二地址划分为多个第二分段；根据第二预设规则获取第一分段与第二分段的匹配结果，并判断第一地址和第二地址是否相同。对于分段地址前四个行政级别地址，根据全国省市区县镇地址库(树型的)进行精确匹配，对于部分缺失进行有效补全。

Description

地址匹配方法、装置、计算机设备及存储介质

技术领域

本申请涉及到计算机领域，特别是涉及到地址匹配方法、装置、计算机设备及存储介质。

背景技术

传统的地址模糊匹配往往将地址作为一个完整的个体基于NLP进行模糊匹配，但这种方式存在以下几个缺陷：1)地址的结构是地址名称的树形结构，越接近树形结构的底层相似才更为接近，但作为整体匹配的地址名称是平行结构比较，比较不符合地址名称的实际分布结构；2)对于短地址比较效果会比较差，但大部分短地址是具有较好价值。3)同一个地址的地址名称作为词个体价值同等性，而实际中是不一致的，例如深圳市/南山区/腾讯大厦,其中地址名称腾讯大厦作为有效地址明显会更有价值。

发明内容

本申请的主要目的为提供地址匹配方法，旨在解决现有地址匹配存在缺陷的技术问题。

本申请提出一种地址匹配方法，第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，方法包括：

调用预设匹配算法，分别将所述第一地址和所述第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组，其中，所述预设匹配算法包括分词计算和匹配计算；

根据所述第一分词组将所述第一地址划分为多个第一分段，根据所述第二分词组将所述第二地址划分为多个第二分段；

根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果；

根据所述匹配结果判断所述第一地址和所述第二地址是否相同。

本申请还提供了一种地址匹配装置，第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，装置包括：

分词模块，用于调用预设匹配算法，分别将所述第一地址和所述第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组，其中，所述预设匹配算法包括分词计算和匹配计算；

划分模块，用于根据所述第一分词组将所述第一地址划分为多个第一分段，根据所述第二分词组将所述第二地址划分为多个第二分段；

第二获取模块，用于根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果；

判断模块，用于根据所述匹配结果判断所述第一地址和所述第二地址是否相同。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请对于分段地址前四个行政级别地址，根据全国省市区县镇地址库(树型的)进行精确匹配，此外，对于部分缺失进行有效补全。本申请的索引服务器中预存储的数据为非结构化数据，其存储方式是键值对的列存储形式，非结构化数据是指文本、图像、语音等基于NoSQL存储技术形成的列存储，数据量非常大，需要采用分布式架构的NoSQL技术进行存储与计算，索引服务器正是结合了NoSQL的分布式架构存储和索引结构实现了对海量数据的实时快速查询及计算，提出了基于地址多级划分的可配置权重地址匹配模型，先通过自然语言处理模型对地址名称进行分词形成分词组，将分词词组按照行政级别划分成分段，并将分段映射为树型结构中的节点，充分考虑了地址的树型结构，将地址按照行政级别进行分级划段，每一行政级别分段匹配不同权重，实际业务场景可微调权重。本申请通过对索引服务器中预存的海量数据建立索引结构，结合Elastic search组件自身的计算架构以及强大的分布式计算能力，实现对第一地址在预设索引结构中，进行实时快速查询。本申请的默认权重通过训练模型训练得到，通过在训练过程中不断调节训练参数，使模型训练输出的相似度与预先标注的相似度值一致，或在预设偏差范围内，上述训练参数包括各权重值，以确定各权重值，使权重设置更可靠。

附图说明

图1本申请一实施例的地址匹配方法流程示意图；

图2本申请一实施例的地址匹配装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的地址匹配方法，所述第一地址为用户输入的待检索地址，所述第二地址存储于索引服务器中，方法包括：

S1：调用预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组，其中，所述预设匹配算法包括分词计算和匹配计算。

本实施例中，以比较第一地址和第二地址的相似性为例，上述第一地址和第二地址为依据行政级别由高到低，由范围到具体的方式进行书写。本实施例的第一预设规则根据地址中所处的行政级别不同具有不同的分词规则，比如全国通用的省/市/区、县/乡、镇四个行政级别对应的分词，通常借用全国通用地址数据库进行分词。比如广东省佛山市南海区桂城镇，分词结果如下：广东省/佛山市/南海区/桂城镇。对于上述省/市/区、县/乡、镇四个行政级别之外的地址信息，通过语义分词的方式进行分词。

S2：根据所述第一分词组将所述第一地址划分为多个第一分段，根据所述第二分词组将所述第二地址划分为多个第二分段。

本实施例根据地址对应的分词词组对地址进行分段和/或划分行政等级，每个分段或每个行政等级对应一个或多个分词。为方便区分第一地址对应各第一分段，第二地址对应各第二分段，本实施例的“第一”、“第二”等仅用于区别，不用于限定，其他处的类似用语作用相同，不赘述。分词组为实际地址的分词排列，按照原地址的书写次序形成。比如名称比较长的“某市开发区”，对应两个分词“某市/开发区”，但分段是在分词的基础上依据行政等级进行的分段，比如“某市开发区”属于一个分段。

S3：根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果。

本实施例将第一分段与第二分段按照行政级别的对应关系，一一进行匹配后得到匹配结果。举例地，第一地址的省级别对应的第一分段与第二地址的省级别对应的第二分段进行对比，以便提高信息对比的对称性和可靠性。

S4：根据所述匹配结果判断所述第一地址和所述第二地址是否相同。

本实施例通过行政级别的对应关系，一一对应比较第一地址和第二地址，当第一地址和第二地址的匹配率达到预设范围，则判定第一地址和第二地址相同，否则不同。本申请其他实施例中，不仅要求匹配率达到预设范围，且要求指定行政级别对应的分段匹配度达到100％，方可判定第一地址和第二地址相同，否则不同，以便提高匹配准确度。

本实施例的第一地址为用户输入的待查询地址，第一地址的数据组成结构不作限定，均可实现对待查询地址的匹配计算，提高用户使用的灵活度和自由度。例如，第一地址包括根据省、市/区/县/镇、乡/路、小区、大厦/栋及门牌号六个行政级别依次排布的数据组成，或包括缺失某个或某几个行政级别的数据组成。本实施例的预设匹配条件包括匹配率达到预设阈值，或第一地址中的标志数据达到100％匹配等。上述标志数据指第一地址中能详细说明地理位置的数据信息，比如某个小区的名称、某栋大厦的名称。比如第一地址中包括的“江南名居小区荣苑”为标志数据。本申请另一实施例的第一地址的标志数据为“镇、乡”行政级别之后，“栋及门牌号”之前的数据信息为标志数据。

进一步地，所述第一地址和所述第二地址分别包括范围地址和标志地址，所述调用预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组的步骤S1，包括：

S11：将所述第一地址和所述第二地址分别对应的范围地址，根据自然语言处理模型中预关联地址词典进行分词，分别得到所述第一地址对应的第一分词部分和所述第二地址对应的第一分词部分。

本实施例的范围地址至少包括省/市/区、县/乡、镇四个行政级别中的一个行政级别。本实施例的范围地址通过预关联地址词典进行分词，上述地址词典为全国地址数据库中对应的词库，通过预先关联于自然语言处理模型对地址名称进行分词。本实施例的预设匹配算法包括分析计算和匹配计算，为了提高了地址匹配精度，通过在开源分词算法包jieba进行分词计算时，添加了爬虫地址库，与全国地址库相结合使用对待分词地址进行校正，然后根据行政级别进行分词，提高分词的准确率。通过判断当前地址所包含的行政级别是否为调用地址词典对应的行政级别，若是，则调用地址词典进行分词计算。举例地，地址：广东省佛山市南海区桂城镇江南名居小区荣苑1座306中，包括调用地址词典对应的四级行政级别，则将地址对应的四级行政级别根据地址词典进行分词，分词结果如下：广东省/佛山市/南海区/桂城镇/江南名居小区荣苑1座306。则第一分词部分对应为广东省/佛山市/南海区/桂城镇。

S12：将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分。

本实施例的标志地址包括能详细说明地理位置的信息，比如某个小区的名称、某栋大厦的名称。比如上述地址中的“江南名居小区荣苑”。本实施例根据自然语言处理模型中的第一语法模型对标志地址进行分词，上述第一语法模型包括但不限于“某某小区”、“某某大厦”等。比如“桂城镇江南名居小区荣苑1座306”，对应的第二分词部分为“桂城/江南名居小区/荣苑”。本申请另一实施例的第一语法模型为提取“镇、乡”之后，“栋及门牌号”之前的字符为标志地址。

S13：将所述第一地址对应的第一分词部分和所述第一地址对应的第二分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分和所述第二地址对应的第二分词部分组成所述第二地址对应的第二分词组。

本实施例的第一地址或第二地址均包括了范围地址和标志地址，且从左到右依次排布组成第一地址或第二地址。举例地，第一地址为“广东省佛山市南海区桂城镇江南名居小区荣苑”；第二地址为“广东省佛山市南海区桂城镇江南名居荣苑”；第一地址对应的第一分词组为“广东省/佛山市/南海区/桂城镇/江南名居小区/荣苑”和第二地址对应的第二分词组为“广东省/佛山市/南海区/桂城镇/江南名居/荣苑”。

进一步地，所述第一地址和所述第二地址还分别包括细节地址，所述将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分的步骤S12之后，包括：

S14：将所述第一地址和所述第二地址分别对应的细节地址，根据自然语言处理模型中的第二语法模型进行分词，分别得到所述第一地址对应的第三分词部分和所述第二地址对应的第三分词部分。

本实施例的细节地址为具体的“栋及门牌号”，对于匹配两个地址相似性具有微小作用及影响，甚至在其他实施例中可忽略此部分内容。但对于某些具体的应用场景需要精准到细节地址，以满足业务需求。本实施例的第二语法模型包括但不限于“某栋”、“某栋某楼层”、“某栋某楼层某室”等。

S15：将所述第一地址对应的第一分词部分、所述第一地址对应的第二分词部分以及所述第一地址对应的第三分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分、所述第二地址对应的第二分词部分以及所述第二地址对应的第三分词部分组成所述第二地址对应的第二分词组。

本实施例的第一地址或第二地址均包括了范围地址、标志地址和细节地址，且从左到右依次排布组成第一地址或第二地址。举例地，第一地址为“广东省佛山市南海区桂城镇江南名居小区荣苑1座306”；第二地址为“广东省佛山市南海区桂城镇江南名居荣苑1座502”；第一地址对应的第一分词组为“广东省/佛山市/南海区/桂城镇/江南名居小区/荣苑/1座/306”和第二地址对应的第二分词组为“广东省/佛山市/南海区/桂城镇/江南名居/荣苑/1座/502”，以便根据上述分词词组对第一地址或第二地址进行分段或划分行政级别。

进一步地，所述范围地址包括省/市/区、县/乡、镇四个行政级别，所述标志地址包括小区名称或大厦名称，所述根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果的步骤S3，包括：

S31：将所有所述第一分段与所有所述第二分段分别按照行政级别由高到低的顺序映射为两颗相同结构的结构树，其中,所述结构树包括多个节点，各节点分别与各所述第一分段或各所述第二分段一一对应。

本实施例通过将第一地址对应的所有第一分段，或第二地址对应的所有第二分段，按照行政级别由高到低的顺序映射为两颗相同结构的结构树，一个节点至少对应一个分段，或一个节点对应同一行政级别的多个分词。比如将第一地址中含有的最高行政级别“省”对应的分词“广东省”作为根节点，然后依次连接下一级子节点“市”对应的分词“佛山市”，然后依次类推连接至末端节点“1座502”等。根据具体地址信息的不同，根节点和末端节点分别对应的行政级别不同，可以是覆盖所有行政级别的全地址，也可以是覆盖部分行政级别的短地址。

S32：获取两颗所述结构树各节点分别对应的匹配值。

本实施例的匹配计算，是根据行政级别的对应关系，映射两颗结构树之间节点与节点之间的对应关系，并根据上述对应关系获取计算各节点分别对应的匹配值，匹配值包括匹配分段除以该节点对应的所有分段。举例地，第一地址对应的一个节点，且为“省”节点，赋值为“广东”，第二地址对应的“省”节点赋值也为“广东”则为匹配，否则不匹配。

S33：分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重。

本实施例根据各行政级别对应的分段对地址的影响不同，设置不同的权重，以提高满足业务需求的灵活度。例如标志地址对应的第二权重高于所述范围地址对应的第一权重等。

S34：根据匹配值乘以对应权重计算匹配率，分别得到所述范围地址对应的第一匹配率、所述标志地址对应的第二匹配率以及所述细节地址对应的第三匹配率。

本实施例匹配率的计算公式为：各分段匹配结果*各分段配置权重等于各分段的匹配率，将各分段的匹配率进行加和，得到第一地址与第二地址的匹配结果。

S35：将所述第一匹配率、所述第二匹配率和所述第三匹配率的加和，作为所述所有所述第一分段与所有所述第二分段的匹配结果。

进一步地，所述获取两颗所述结构树各节点分别对应的匹配值的步骤S32，包括：

S321：将所述第一地址中的范围地址对应的各第一分段，与将所述第二地址中的范围地址对应的各第二分段，根据节点对应关系一一对应进行精准全匹配，得到各第一匹配值。

本实施例的不同行政级别对应节点的匹配方法不同，省/市/区、县/乡、镇四个行政级别通过全匹配的精准对应方式进行匹配，即对应字符100％对应相同，则为匹配，否则不匹配。比如，第一地址对应的“省”节点赋值为“广东”，第一地址对应的“省”节点赋值也为“广东”则为匹配。

S322：将所述第一地址中的标志地址对应的各第一分段，与将所述第二地址中的标志地址对应的各第二分段，根据节点对应关系一一对应进行模型关键字匹配，得到各第二匹配值。

本实施例对标志地址对应分段，通过NLP(Natural Language Processing，自然语言处理)模型匹配的方式实现匹配，包括或包含即可实现匹配关系。比如“江南名居小区/荣苑”与“江南名居/荣苑”，虽然字符上不具有全匹配的对等关系，但“江南名居小区”中包含了字符“江南名居”，依然具有一一对应的匹配关系。

S323：将所述第一地址中的细节地址对应的各第一分段，与将所述第二地址中的细节地址对应的各第二分段，根据节点对应关系一一对应进行数字匹配，得到各第三匹配值。

本实施例的细节地址包括第一指定数量的分段，但符合匹配关系的分段数量为第二指定数量，则细节地址对应的匹配值为第二指定数量除以第一指定数量。

S324：汇总各所述第一匹配值、各所述第二匹配值以及各所述第三匹配值，得到两颗所述结构树各节点分别对应的匹配值。

比如，第一地址对应的分词词组为：广东/佛山市/南海/桂城/江南名居小区/荣苑/1/306；第二地址对应的分词词组为：广东/佛山市/南海/桂城/江南名居/荣苑/1/502；分段后将第一地址和第二地址划分为六个行政级别，包括省/市/区、县/镇、乡/路、小区、大厦/栋及门牌号，分别对应分成六个节点，各节点默认权重分别为“0.1/0.1/0.1/0.1/0.5/0.1”。前四行政等级为字符100％匹配：广东/佛山市/南海/桂城，匹配结果分别为0.1*1/0.1*1/0.1*1/0.1*1；第五行政等级匹配为字符包含关系的模型匹配：江南名居小区/荣苑和江南名居/荣苑的匹配结果为0.5*1；第六行政等级匹配为模糊匹配：1/306和1/502匹配中，对应的两个字段只有一个字段具有匹配关系，306和502不匹配，则对应的匹配值为0.5，则匹配结果为0.5*0.1，即0.05。则上述第一地址和第二地址的匹配率为：0.1+0.1+0.1+0.1+0.5+0.05＝0.95。

进一步地，所述分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重的步骤S33之前，包括：

S331：将预标注相似度值的指定数量的训练样本，输入至所述自然语言处理模型中进行训练。

S332：通过调整训练参数至第一参数，使所述自然语言处理模型输出的相似度值与所述预标注相似度值一致。

S333：将所述第一参数中对应的权重值，分别按照节点对应关系对应为所述第一权重、所述第二权重以及所述第三权重。

本实施例的默认权重通过训练模型训练得到，通过在训练过程中不断调节训练参数，使模型训练输出的相似度与预先标注的相似度值一致，或在预设偏差范围内，上述训练参数包括各权重值，以确定各权重值。本申请其他实施例也可根据具体的应用场景将调整默认权重中的一个或多个，使匹配模型更加符合当前应用场景。

进一步地，所述将所述第一地址和所述第二地址分别对应的范围地址，根据自然语言处理模型中预关联地址词典进行分词，分别得到所述第一地址对应的第一分词部分和所述第二地址对应的第一分词部分的步骤S11之前，包括：

S10：调用地址数据库按照第三预设规则，分别对所述第一地址和所述第二地址进行地址修正。

本实施例的第一地址或第二地址可以是不符合全国地址数据库中的地址数据，可通过调用地址数据库进行地址修正，包括地址补全，去除限定词等。本实施例地址补全时，依据子结点补全根结点，如南海区可以向上补全佛山市；或根据前后节点补全中间节点，如佛山市和桂城镇可以中间补全南海区等方式进行地址补全。

进一步地，调用预设匹配算法，分别将所述第一地址和所述第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组的步骤S1之前，包括：

S1a：将所述索引服务器中预存储的指定数量的非结构化的地址数据进行索引化，以得到所述预设索引结构。

本实施例的索引服务器中预存储的数据为非结构化数据，其存储方式是键值对的列存储形式，非结构化数据是指文本、图像、语音等基于NoSQL存储技术形成的列存储，数据量非常大，需要采用分布式架构的NoSQL技术进行存储与计算，索引服务器正是结合了NoSQL的分布式架构存储和索引结构实现了对海量数据的实时快速查询及计算。NOSQL即非关系型数据库，为开源技术。elasticsearch基于Key-value键值对和倒排索引的存储方式，计算则主要大量基于内存，实现快速实时计算。

S1b：接收上传至所述索引服务器的指定目录下的接口插件，其中所述接口插件通过将所述预设匹配算法进行打包封装后形成。

本实施例的索引服务器是开源组件，支持插件模式，可以将接口插件继承其rg.索引服务器.plugins.Plugin类，进行自定义扩展开发的地址匹配算法插件，重启索引服务器即可加载使用。

S1c：获取所述接口插件的配置参数。

S1d：通过运行所述配置参数将所述预设索引结构与所述接口插件建立计算关联关系。

本实施例将预设匹配算法开发完后，打包封装后上传到索引服务器指定目录并进行相关配置参数配置，以实现通过加载运行配置参数，将所述预设索引结构与所述接口插件建立计算关联关系，实现通过调用插件中地址匹配算法，将第一地址在预设索引结构中完成匹配计算，以实现地址数据查询。

本实施例的索引服务器为开源的Elastic search组件(Elastic search用于分布式全文检索)，基于RESTful web接口提供了分布式计算能力的全文搜索引擎，能够对海量数据进行实时快速查询。查询步骤包括：(1)将海量地址库的地址按照elasticsearch的数据导入接口以key-value键值对的形式导入elasticsearch的底层存储，并对key建立索引。(2)将(1)的地地匹配模型按照elasticsearch自定义扩展search模型改造，并添加到elasticsearch主节点扩展模块，并重启elasticsearch，使之成为可以基于利用elasticsearch的分布式存储与高并发计算的地址匹配模型。(3)利用该自定义模型，在elasticsearch上开发一对多海量地址匹配接口。(4)通过在elasticsearch上开发上层接口，使得可输入一个新的地址，并选择待匹配的海量地址库和自定义模型，即可以基于elasticsearch实现新地址与海量地址库中地址的快速实计算，并返回最相似的TOPN地址，其中N可程序设定传参。本实施例通过对索引服务器中预存的海量数据建立索引结构，结合Elasticsearch组件自身的计算架构以及强大的分布式计算能力，实现对第一地址在预设索引结构中，进行实时快速查询。

本实施例针对第一地址不同行政级别对应的不同分段的匹配方法不同，匹配模型不同，而且各分段对应的匹配权重也不同。本实施例的第一地址分成六个分段，分别对应六个行政级别，对应树结构中的六个节点，六个行政级别中前四个行政级别的匹配模型相同，为字符一一对应匹配；第五个行政级别通过包含或包括的模糊匹配模型；第六个行政级别通过数字匹配模型匹配。本实施例通过在匹配计算过程中设置过滤机制，首先对“省/市、区/县/镇、乡、路”四个行政级别对应的目标分段，通过字符一一匹配的方式，进行精准匹配计算，当对于上述四个行政级别对应的目标分段的匹配计算结果低于预设阈值时，判定所述预设索引结构中不存在与所述第一地址满足预设匹配条件的地址数据，直接输出匹配结论，以降低匹配计算量，提高响应速度。本实施例通过设置过滤机制，能过滤了至少90％以上的地址。这样使得一个地址最终只需要与剩余10％左右的地址进行全匹配，大大节省了计算资源。

参照图2，本申请一实施例的地址匹配装置，所述第一地址为用户输入的待检索地址，所述第二地址存储于索引服务器中，装置包括：

分词模块1，用于调用所述预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组，其中，所述预设匹配算法包括分词计算和匹配计算。

划分模块2，用于根据所述第一分词组将所述第一地址划分为多个第一分段，根据所述第二分词组将所述第二地址划分为多个第二分段。

第一获取模块3，用于根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果。

判断模块4，用于根据所述匹配结果判断所述第一地址和所述第二地址是否相同。

进一步地，所述分词模块1，包括：

第一分词单元，用于将所述第一地址和所述第二地址分别对应的范围地址，根据自然语言处理模型中预关联地址词典进行分词，分别得到所述第一地址对应的第一分词部分和所述第二地址对应的第一分词部分。

本实施例的范围地址至少包括省/市/区、县/乡、镇四个行政级别中的一个行政级别。本实施例的范围地址通过预关联地址词典进行分词，上述地址词典为全国地址数据库中对应的词库，通过预先关联于自然语言处理模型对地址名称进行分词。本实施例为了提高了地址匹配精度，通过在开源分词算法包jieba,进行分词计算时，添加了爬虫地址库，与全国地址库相结合使用对待分词地址进行校正，然后根据行政级别进行分词，提高分词的准确率。通过判断当前地址所包含的行政级别是否为调用地址词典对应的行政级别，若是，则调用地址词典进行分词。举例地，地址：广东省佛山市南海区桂城镇江南名居小区荣苑1座306中，包括调用地址词典对应的四级行政级别，则将地址对应的四级行政级别根据地址词典进行分词，分词结果如下：广东省/佛山市/南海区/桂城镇/江南名居小区荣苑1座306。则第一分词部分对应为广东省/佛山市/南海区/桂城镇。

第二分词单元，用于将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分。

第一组成单元，用于将所述第一地址对应的第一分词部分和所述第一地址对应的第二分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分和所述第二地址对应的第二分词部分组成所述第二地址对应的第二分词组。

进一步地，所述第一地址和所述第二地址还分别包括细节地址，所述分词模块1，包括：

第三分词单元，用于将所述第一地址和所述第二地址分别对应的细节地址，根据自然语言处理模型中的第二语法模型进行分词，分别得到所述第一地址对应的第三分词部分和所述第二地址对应的第三分词部分。

第二组成单元，用于将所述第一地址对应的第一分词部分、所述第一地址对应的第二分词部分以及所述第一地址对应的第三分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分、所述第二地址对应的第二分词部分以及所述第二地址对应的第三分词部分组成所述第二地址对应的第二分词组。

进一步地，所述范围地址包括省/市/区、县/乡、镇四个行政级别，所述第一获取模块3，包括：

映射单元，用于将所有所述第一分段与所有所述第二分段分别按照行政级别由高到低的顺序映射为两颗相同结构的结构树，其中,所述结构树包括多个节点，各节点分别与各所述第一分段或各所述第二分段一一对应。

第一获取单元，用于获取两颗所述结构树各节点分别对应的匹配值。

本实施例根据行政级别的对应关系，映射两颗结构树之间节点与节点之间的对应关系，并根据上述对应关系获取各节点分别对应的匹配值，匹配值包括匹配分段除以该节点对应的所有分段。举例地，第一地址对应的一个节点，且为“省”节点，赋值为“广东”，第二地址对应的“省”节点赋值也为“广东”则为匹配，否则不匹配。

第二获取单元，用于分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重。

计算单元，用于根据匹配值乘以对应权重计算匹配率，分别得到所述范围地址对应的第一匹配率、所述标志地址对应的第二匹配率以及所述细节地址对应的第三匹配率。

加和单元，用于将所述第一匹配率、所述第二匹配率和所述第三匹配率的加和，作为所述所有所述第一分段与所有所述第二分段的匹配结果。

进一步地，所述第一获取单元，包括：

第一匹配子单元，用于将所述第一地址中的范围地址对应的各第一分段，与将所述第二地址中的范围地址对应的各第二分段，根据节点对应关系一一对应进行精准全匹配，得到各第一匹配值。

第二匹配子单元，用于将所述第一地址中的标志地址对应的各第一分段，与将所述第二地址中的标志地址对应的各第二分段，根据节点对应关系一一对应进行模型关键字匹配，得到各第二匹配值。

第三匹配子单元，用于将所述第一地址中的细节地址对应的各第一分段，与将所述第二地址中的细节地址对应的各第二分段，根据节点对应关系一一对应进行数字匹配，得到各第三匹配值。

汇总子单元，用于汇总各所述第一匹配值、各所述第二匹配值以及各所述第三匹配值，得到两颗所述结构树各节点分别对应的匹配值。

进一步地，所述第一获取模块3，包括：

输入单元，用于将预标注相似度值的指定数量的训练样本，输入至所述自然语言处理模型中进行训练。

调整单元，用于通过调整训练参数至第一参数，使所述自然语言处理模型输出的相似度值与所述预标注相似度值一致。

对应单元，用于将所述第一参数中对应的权重值，分别按照节点对应关系对应为所述第一权重、所述第二权重以及所述第三权重。

进一步地，所述分词模块1，包括：

调用单元，用于调用地址数据库按照第三预设规则，分别对所述第一地址和所述第二地址进行地址修正。

进一步地，地址匹配装置，还包括：

索引模块，用于将所述索引服务器中预存储的指定数量的非结构化的地址数据进行索引化，以得到所述预设索引结构。

接收模块，用于接收上传至所述索引服务器的指定目录下的接口插件，其中所述接口插件通过将所述预设匹配算法进行打包封装后形成。

第二获取模块，用于获取所述接口插件的配置参数。

建立模块，用于通过运行所述配置参数将所述预设索引结构与所述接口插件建立计算关联关系。

本实施例将地址匹配算法开发完后，打包封装后上传到索引服务器指定目录并进行相关配置参数配置，以实现通过加载运行配置参数，将所述预设索引结构与所述接口插件建立计算关联关系，实现通过调用插件中地址匹配算法，将第一地址在预设索引结构中完成匹配计算，以实现地址数据查询。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址匹配过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现地址匹配方法。

上述处理器执行上述地址匹配方法，第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，方法包括：调用预设匹配算法，分别将所述第一地址和所述第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组；根据所述第一分词组将所述第一地址划分为多个第一分段，根据所述第二分词组将所述第二地址划分为多个第二分段；根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果；根据所述匹配结果判断所述第一地址和所述第二地址是否相同。

上述计算机设备，索引服务器中预存储的数据为非结构化数据，其存储方式是键值对的列存储形式，非结构化数据是指文本、图像、语音等基于NoSQL存储技术形成的列存储，数据量非常大，需要采用分布式架构的NoSQL技术进行存储与计算，索引服务器正是结合了NoSQL的分布式架构存储和索引结构实现了对海量数据的实时快速查询及计算，提出了基于地址多级划分的可配置权重地址匹配模型，先通过自然语言处理模型对地址名称进行分词形成分词组，将分词词组按照行政级别划分成分段，并将分段映射为树型结构中的节点，充分考虑了地址的树型结构，将地址按照行政级别进行分级划段，每一行政级别分段匹配不同权重，实际业务场景可微调权重。通过对索引服务器中预存的海量数据建立索引结构，结合Elastic search组件自身的计算架构以及强大的分布式计算能力，实现对第一地址在预设索引结构中，进行实时快速查询。对于分段地址前四个行政级别地址，根据全国省市区县镇地址库(树型的)进行精确匹配，此外，对于部分缺失进行有效补全。默认权重通过训练模型训练得到，通过在训练过程中不断调节训练参数，使模型训练输出的相似度与预先标注的相似度值一致，或在预设偏差范围内，上述训练参数包括各权重值，以确定各权重值，使权重设置更可靠。

在一个实施例中，所述第一地址和所述第二地址分别包括范围地址和标志地址，上述处理器调用所述预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组的步骤，包括：将所述第一地址和所述第二地址分别对应的范围地址，根据自然语言处理模型中预关联地址词典进行分词，分别得到所述第一地址对应的第一分词部分和所述第二地址对应的第一分词部分；将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分；将所述第一地址对应的第一分词部分和所述第一地址对应的第二分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分和所述第二地址对应的第二分词部分组成所述第二地址对应的第二分词组。

在一个实施例中，所述第一地址和所述第二地址还分别包括细节地址，上述处理器将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分的步骤之后，包括：将所述第一地址和所述第二地址分别对应的细节地址，根据自然语言处理模型中的第二语法模型进行分词，分别得到所述第一地址对应的第三分词部分和所述第二地址对应的第三分词部分；将所述第一地址对应的第一分词部分、所述第一地址对应的第二分词部分以及所述第一地址对应的第三分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分、所述第二地址对应的第二分词部分以及所述第二地址对应的第三分词部分组成所述第二地址对应的第二分词组。

在一个实施例中，所述范围地址包括省、市/区、县和乡/镇四个行政级别，所述标志地址包括小区名称或大厦名称，上述处理器根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果的步骤，包括：将所有所述第一分段与所有所述第二分段分别按照行政级别由高到低的顺序映射为两颗相同结构的结构树，其中,所述结构树包括多个节点，各节点分别与各所述第一分段或各所述第二分段一一对应；获取两颗所述结构树各节点分别对应的匹配值；分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重；根据匹配值乘以对应权重计算匹配率，分别得到所述范围地址对应的第一匹配率、所述标志地址对应的第二匹配率以及所述细节地址对应的第三匹配率；将所述第一匹配率、所述第二匹配率和所述第三匹配率的加和，作为所述所有所述第一分段与所有所述第二分段的匹配结果。

在一个实施例中，上述处理器获取两颗所述结构树各节点分别对应的匹配值的步骤，包括：将所述第一地址中的范围地址对应的各第一分段，与将所述第二地址中的范围地址对应的各第二分段，根据节点对应关系一一对应进行精准全匹配，得到各第一匹配值；将所述第一地址中的标志地址对应的各第一分段，与将所述第二地址中的标志地址对应的各第二分段，根据节点对应关系一一对应进行模型关键字匹配，得到各第二匹配值；将所述第一地址中的细节地址对应的各第一分段，与将所述第二地址中的细节地址对应的各第二分段，根据节点对应关系一一对应进行数字匹配，得到各第三匹配值；汇总各所述第一匹配值、各所述第二匹配值以及各所述第三匹配值，得到两颗所述结构树各节点分别对应的匹配值。

在一个实施例中，上述处理器分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重的步骤之前，包括：将预标注相似度值的指定数量的训练样本，输入至所述自然语言处理模型中进行训练；通过调整训练参数至第一参数，使所述自然语言处理模型输出的相似度值与所述预标注相似度值一致；将所述第一参数中对应的权重值，分别按照节点对应关系对应为所述第一权重、所述第二权重以及所述第三权重。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现地址匹配方法，第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，方法包括：调用预设匹配算法，分别将所述第一地址和所述第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组；根据所述第一分词组将所述第一地址划分为多个第一分段，根据所述第二分词组将所述第二地址划分为多个第二分段；根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果；根据所述匹配结果判断所述第一地址和所述第二地址是否相同。

上述计算机可读存储介质，索引服务器中预存储的数据为非结构化数据，其存储方式是键值对的列存储形式，非结构化数据是指文本、图像、语音等基于NoSQL存储技术形成的列存储，数据量非常大，需要采用分布式架构的NoSQL技术进行存储与计算，索引服务器正是结合了NoSQL的分布式架构存储和索引结构实现了对海量数据的实时快速查询及计算，提出了基于地址多级划分的可配置权重地址匹配模型，先通过自然语言处理模型对地址名称进行分词形成分词组，将分词词组按照行政级别划分成分段，并将分段映射为树型结构中的节点，充分考虑了地址的树型结构，将地址按照行政级别进行分级划段，每一行政级别分段匹配不同权重，实际业务场景可微调权重。通过对索引服务器中预存的海量数据建立索引结构，结合Elastic search组件自身的计算架构以及强大的分布式计算能力，实现对第一地址在预设索引结构中，进行实时快速查询。对于分段地址前四个行政级别地址，根据全国省市区县镇地址库(树型的)进行精确匹配，此外，对于部分缺失进行有效补全。默认权重通过训练模型训练得到，通过在训练过程中不断调节训练参数，使模型训练输出的相似度与预先标注的相似度值一致，或在预设偏差范围内，上述训练参数包括各权重值，以确定各权重值，使权重设置更可靠。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种地址匹配方法，其特征在于，第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，方法包括：

根据所述匹配结果判断所述第一地址和所述第二地址是否相同；

所述调用预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组的步骤之前，包括：

调用地址数据库按照第三预设规则，分别对所述第一地址和所述第二地址进行地址修正。

2.根据权利要求1所述的地址匹配方法，其特征在于，所述第一地址和所述第二地址分别包括范围地址和标志地址，所述调用预设匹配算法，分别将第一地址和第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组的步骤，包括：

将所述第一地址和所述第二地址分别对应的范围地址，根据自然语言处理模型中预关联地址词典进行分词，分别得到所述第一地址对应的第一分词部分和所述第二地址对应的第一分词部分；

将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分；

将所述第一地址对应的第一分词部分和所述第一地址对应的第二分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分和所述第二地址对应的第二分词部分组成所述第二地址对应的第二分词组。

3.根据权利要求2所述的地址匹配方法，其特征在于，所述第一地址和所述第二地址还分别包括细节地址，所述将所述第一地址和所述第二地址分别对应的标志地址，根据自然语言处理模型中的第一语法模型进行分词，分别得到所述第一地址对应的第二分词部分和所述第二地址对应的第二分词部分的步骤之后，包括：

将所述第一地址和所述第二地址分别对应的细节地址，根据自然语言处理模型中的第二语法模型进行分词，分别得到所述第一地址对应的第三分词部分和所述第二地址对应的第三分词部分；

将所述第一地址对应的第一分词部分、所述第一地址对应的第二分词部分以及所述第一地址对应的第三分词部分组成所述第一地址对应的第一分词组，将所述第二地址对应的第一分词部分、所述第二地址对应的第二分词部分以及所述第二地址对应的第三分词部分组成所述第二地址对应的第二分词组。

4.根据权利要求3所述的地址匹配方法，其特征在于，所述范围地址包括省、市/区、县和乡/镇四个行政级别，所述标志地址包括小区名称或大厦名称，所述根据第二预设规则获取所有所述第一分段与所有所述第二分段的匹配结果的步骤，包括：

将所有所述第一分段与所有所述第二分段分别按照行政级别由高到低的顺序映射为两颗相同结构的结构树，其中,所述结构树包括多个节点，各节点分别与各所述第一分段或各所述第二分段一一对应；

获取两颗所述结构树各节点分别对应的匹配值；

分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重；

根据匹配值乘以对应权重计算匹配率，分别得到所述范围地址对应的第一匹配率、所述标志地址对应的第二匹配率以及所述细节地址对应的第三匹配率；

将所述第一匹配率、所述第二匹配率和所述第三匹配率的加和，作为所述所有所述第一分段与所有所述第二分段的匹配结果。

5.根据权利要求4所述的地址匹配方法，其特征在于，所述获取两颗所述结构树各节点分别对应的匹配值的步骤，包括：

将所述第一地址中的范围地址对应的各第一分段，与将所述第二地址中的范围地址对应的各第二分段，根据节点对应关系一一对应进行精准全匹配，得到各第一匹配值；

将所述第一地址中的标志地址对应的各第一分段，与将所述第二地址中的标志地址对应的各第二分段，根据节点对应关系一一对应进行模型关键字匹配，得到各第二匹配值；

将所述第一地址中的细节地址对应的各第一分段，与将所述第二地址中的细节地址对应的各第二分段，根据节点对应关系一一对应进行数字匹配，得到各第三匹配值；

汇总各所述第一匹配值、各所述第二匹配值以及各所述第三匹配值，得到两颗所述结构树各节点分别对应的匹配值。

6.根据权利要求5所述的地址匹配方法，其特征在于，所述分别获取所述范围地址对应的第一权重、所述标志地址对应的第二权重以及所述细节地址对应的第三权重的步骤之前，包括：

将预标注相似度值的指定数量的训练样本，输入至所述自然语言处理模型中进行训练；

通过调整训练参数至第一参数，使所述自然语言处理模型输出的相似度值与所述预标注相似度值一致；

将所述第一参数中对应的权重值，分别按照节点对应关系对应为所述第一权重、所述第二权重以及所述第三权重。

7.根据权利要求2所述的地址匹配方法，其特征在于，所述调用预设匹配算法，分别将所述第一地址和所述第二地址根据第一预设规则进行分词，得到所述第一地址对应的第一分词组和所述第二地址对应的第二分词组的步骤之前，包括：

将所述索引服务器中预存储的指定数量的非结构化的地址数据进行索引化，以得到预设索引结构；

接收上传至所述索引服务器的指定目录下的接口插件，其中，所述接口插件通过将所述预设匹配算法进行打包封装后形成；

获取所述接口插件的配置参数；

通过运行所述配置参数将所述预设索引结构与所述接口插件建立计算关联关系。

8.一种地址匹配装置，其特征在于，第一地址为用户输入的待检索地址，第二地址存储于索引服务器中，装置包括：

判断模块，用于根据所述匹配结果判断所述第一地址和所述第二地址是否相同；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。