CN112528174A

CN112528174A - 基于知识图谱和多重匹配的地址修整补全方法及应用

Info

Publication number: CN112528174A
Application number: CN202011361104.7A
Authority: CN
Inventors: 温金明; 林佳铎; 黄斐然; 罗伟其
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-19

Abstract

本发明公开了一种基于知识图谱和多重匹配的地址修整补全方法及应用，该方法包括：采用分词工具对输入的地址文本数据进行分词操作，构建地址名词词典进行匹配分词，根据地名规则进行匹配重组；获取地址行政区划分数据，采用数据库管理工具构建地址知识图谱，获取地名的旧名或别名信息，将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联；根据地址构成的特点，构建多种匹配规则进行匹配，采用对应匹配规则对地址进行修正和补全，匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。本发明实现对信息缺省甚至有误的地址进行正确高效规范的修整和补全。

Description

基于知识图谱和多重匹配的地址修整补全方法及应用

技术领域

本发明涉及知识图谱技术领域，具体涉及一种基于知识图谱和多重匹配的地址修整补全方法及应用。

背景技术

随着近年来互联网信息量的巨大增长，用户信息也在***性的增长，尤其一些用户的数据都会涉及到地址数据(特别是电商)。这些地址数据由于还存在大量由用户手动输入文本的形式获得的，因此不可避免的会出现符合具备用户个人书写习惯的地址数据。因此，从用户获取的地址数据很可能并不是完整且规范的地址形式，对于后续要使用这些地址数据的人员(如快递员)查找该地址所处的地理位置造成了一定的困难。为此，对依赖用户习惯产生的，不完整不规则地址数据进行修整补全，得到一个完整准确规范的地址数据是一个迫切且具有重要实际应用的方向。

以往的地址补全方法大多都是基于简单查表来进行的，这类方法的痛点在于：1、每一对关联的信息都要在数据表中创建一行映射，对于地址名来说，一个地址名可能会和其他多个地址名相关联，每一对都创建占用表中一行数据的话会导致出现大量重复冗余的数据。如广州市下属有11个行政区，为其每一个行政区与广州市创建一个映射([天河区，属于，广州市])，该映射会在表中独立占用一行，这就导致一张表中至少会出现11次“广州市”。当地址数据量比较大的时候，产生的冗余数据是很大的；2、由于无法很好的去表示地址之间复杂的关联性，容易导致地址补全并不完整；3、现实中用户自己输入的地址数据具有强烈的用户习惯特性，容易导致出现地址信息缺省，旧名，别名的的情况，从而导致无法匹配补全的问题。

另外还有基于Trie树来构建的地址补全方法，这种方法的痛点在于：1、需要构建大量的Trie树，匹配采用的是深度遍历模式，匹配效率会比较慢；2、虽然也算是知识图谱领域的方法，但无法很好的利用知识图谱多知识语义的特点；3、也是无法处理地址的重名，别名，旧名等较为复杂的情况。

另外，地址数据存在分级的结构，主要体现在有一定的层级结构，我国的行政区划分主要表现为：1.全国分为省、自治区、直辖市；2.省、自治区分为自治州、县、自治县、市；3.直辖市和较大的市分为区、县；4.自治州分为县、自治县、市；5.县、自治县分为乡、民族乡、镇；6.县、区、乡、镇又可下设街道；7.街道可下设居委会。总体上主要分为五层省级、市级、区级、街道级和居委会级。这种五层的结构其实只是一般性的结构，并不具备一定性，如北京市本身就是省级单位，下属行政区单位跳过市级直接就到区级别。又比如有些市级单位下属行政区市只有区级单位，然后区级单位下属由镇；而有的市下属单位有区，也有镇；甚至有些市下属只有镇。因此，中国的地址行政划分上有一定的层级，但又相对复杂，不能简单的从一些关键字如市、区、镇、县等来直接确定其所在行政区级别。

再者，考虑历史变更原因，部分的地名由于合并，拆分以及升为高级的行政单位而发生变更。但是由于用户习惯导致的延迟性，很多用户还是习惯性的使用历史旧名，除此之外，也有别名甚至重名的现象，这些都会加大地名在查找匹配的难度。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提出了一种基于知识图谱和多重匹配的地址修整补全方法，不同于已有的同类方法，本发明首先结合jieba分词工具设计了一种能够有效分割地址数据的方法，使得分词出来的每一个地址数据都是有效正确的地名，然后利用Neo4j数据库管理工具构建的地址知识图谱库，利用知识图谱具有丰富的语义的特点，定义多种的匹配规则，与知识图谱库中的地名进行匹配，实现对信息缺省甚至有误的地址进行正确高效规范的修整和补全。

本发明的第二目的在提供一种基于知识图谱和多重匹配的地址修整补全***。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

一种基于知识图谱和多重匹配的地址修整补全方法，包括下述步骤：

地址文本分词与初步匹配：采用分词工具对输入的地址文本数据进行分词操作，构建地址名词词典进行匹配分词，根据地名规则进行匹配重组；

构建地址知识图谱：获取地址行政区划分数据，采用数据库管理工具构建地址知识图谱，获取地名的旧名或别名信息，将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联；

建立基于地址知识图谱的多种匹配模型：根据地址构成的特点，构建多种匹配规则进行匹配，采用对应的匹配规则对地址进行修正和补全，所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。

作为优选的技术方案，所述分词工具采用开源的分词工具jieba。

作为优选的技术方案，所述地址名词字典设有错误分词的字典集，在分词操作时读取字典集，依次匹配输入的地址文本数据是否存在字典集中的地名，若存在则将所述地名分割出来。

作为优选的技术方案，所述根据地名规则进行匹配重组的具体步骤包括：根据匹配分词的结果，判断匹配分词结果中的每一个词末尾是否与地名规则预设的名词匹配，若匹配则将地址文本数据的分词结果合并为完整的地名。

作为优选的技术方案，所述采用数据库管理工具构建地址知识图谱的具体步骤包括：

根据地址行政区划分数据，采用深度遍历的方式，将每一个地址实体与上一层的地址实体进行关联，将具有上下级从属关系的地名进行关联。

作为优选的技术方案，所述数据库管理工具采用Neo4j数据库。

作为优选的技术方案，所述采用对应的匹配规则对地址进行修正和补全，具体步骤包括：

前文缺失匹配：检测到地名上一级地名处于缺失状态，根据所述地名在构建的地址知识图谱中进行匹配，查找到上一级地名并进行补全；

重名情况下前文全缺失匹配：检测到地名重名且前级地名处于缺失状态，构建所述地名与下一级地名合并的关系对，在构建的地址知识图谱中进行匹配，查找到前级地名并进行补全；

重名情况下前文相邻缺失匹配：检测到地名重名且相邻的上一级地名处于缺失状态，构建所述地名与上上级地名合并的关系对，在构建的地址知识图谱库中进行匹配，查找到前级地名并进行补全；

旧名别名修正匹配：检测到地名为旧名或者别名，根据所述旧名或别名在构建的地址知识图谱中进行匹配，查找到对应的现有地名，并进行修正。

为了到达上述第二目的，本发明采用以下技术方案：

一种基于知识图谱和多重匹配的地址修整补全***，包括：地址文本分词与初步匹配模块、地址知识图谱构建模块和匹配模型构建模块；

所述地址文本分词与初步匹配模块用于对地址文本进行分词与初步匹配，采用分词工具对输入的地址文本数据进行分词操作，构建地址名词词典进行匹配分词，根据地名规则进行匹配重组；

所述地址知识图谱构建模块用于构建地址知识图谱，获取地址行政区划分数据，采用数据库管理工具构建地址知识图谱，获取地名的旧名或别名信息，将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联；

所述匹配模型构建模块用于建立基于地址知识图谱的多种匹配模型，根据地址构成的特点，构建多种匹配规则进行匹配，采用对应的匹配规则对地址进行修正和补全，所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。

为了到达上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现如上述基于知识图谱和多重匹配的地址修整补全方法。

为了到达上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述基于知识图谱和多重匹配的地址修整补全方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明基于知识图谱和多重匹配的地址修正补全，有效解决基于用户由于习惯的特点生成的地址文本容易出现部分地址信息缺失，甚至出现旧名，别名所带来的识别困难的问题，使得能够高效准确的修正补全的地址数据。

(2)本发明采用了jieba分词器以及根据行政划分特征对地址进行地址数据划分的方案，解决了地址数据的分词问题，达到了快速高效的将一串地址数据准确地分割成一个个地址数据。

附图说明

图1为本发明基于知识图谱和多重匹配的地址修整补全方法的总体框架；

图2为本发明地址文本初步分词与初步匹配流程；

图3为本发明构建的基础地址知识图谱的可视化示意图；

图4为本发明旧名和别名关联示意图；

图5为本发明多重匹配***的基础架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种基于知识图谱和多重匹配的地址修整补全方法，包括：地址文本初步分词与初步匹配、地址知识图谱构建、建立知识图谱的多种匹配模型，具体步骤如下所述：

S1：地址文本分词与初步匹配

利用jieba分词工具，对地址文本进行分词，为了解决分词错误，以及分词过于离散的问题，引入了自定义的地名字典实现地名全匹配，解决分词错误。根据中国地址命名规则，定义了一种匹配规则，使得地址文本能被分割为多个独立完整的地名；

如图2所示，地址文本分词与初步匹配的具体步骤为：

S11进行分词

给定地址文本数据，使用开源的分词工具jieba对输入的地址文本数据进行分词操作。比如将“大连市中山区青泥洼桥街道709号”这一条地址文本输入到jieba分词器中，可以得到结果[“大连市”，“中”，“山区”，“青泥”，“洼桥”，“街道”，“709”，“号”]；

S12自定义地址名词字典

由于jieba分词器是一种通用的中文分词功能，并非专门用于地址文本的分词，因此并不能完全正确的将地址文本中的地名分割出来，比如输入“宝鸡市陈仓区慕仪镇901号”，得到的结果是[“宝鸡市”，“陈仓”，“区慕”，“仪镇”，“901”，“号”]。很明显，分词器误将“区慕”当作一个词，而真正想要的结果是[“宝鸡市”，“陈仓区”，“慕仪镇”，“901号”]；

为此，需要自定义一个地址名词字典，该字典主要是一些常见的容易分词错误的词，如‘宝山城市工业园区’由于有‘市’，所以容易分词错误，分成[“宝山城市”，“工业园区”]。因此，本发明定义了一个dict.txt文件作为字典集，将这些容易分词错误的词写入该字典集，然后在进行分词的时候读取字典集，依次匹配该地址数据中是否存在字典集中的地名，如果存在就直接将该地名分割出来。

通过这样的方式对数据进行初步匹配，避免分词错误。比如在在自定义词典中加入“陈仓区”这个词，达到对地址文本中专有地址名词的全匹配；

S13根据地名规则进行再处理

在步骤S11和步骤S12中，分词的结果可能会很离散。比如步骤S11中的例子：[“大连市”，“中”，“山区”，“青泥”，“洼桥”，“街道”，“709”，“号”]；

根据观察可知，中国地址中独立的地名结尾有一定的特点，如以“省”、“市”’、“区”、“镇”、“乡”、“街道”等来结尾。所以本实施例根据中国这种地名的命名的规则，设计一种匹配规则对分词的结果进行匹配，合并，得到独立完整的一个地名数据；

该匹配规则首先匹配初步分词结果的中的每一个词末尾时候存在“省”，“市”，“区”，“镇”，“自治区”，“自治州”，“县”，“街道”等名词。如果该词经匹配，在末尾存在上述词汇，那么说明在上次匹配成功之后到目前匹配成功的所有的词都可以拼接成一个完整的地名，从而解决分词过于离散的问题；

S2：地址文本分词与初步匹配

获取地址数据，使用neo4j构建地址知识图谱，包括：获取行政区划分的数据，以此构建基础的地址知识图谱，如图3所示，根据行政划分的从属关系构建基础的地址知识图谱；获取地名的旧名、别名信息，如图4所示，将这些旧名和别名在构建好的基础地址知识图谱中的对应的地名构建起关联，具体步骤如下：

S21构建基础地址知识图谱

从国家***获取最新的中国行政区划分数据，根据***的数据，中国的行政区划分大概分为五个级别：省，市，区，街道，居委会。主要表现为：1、全国分为省、自治区、直辖市；2、省、自治区分为自治州、县、自治县、市；3、直辖市和较大的市分为区、县；4、自治州分为县、自治县、市；5、县、自治县分为乡、民族乡、镇；6、县、区、乡、镇又可下设街道；7、街道可下设居委会。总体上主要分为五层省级、市级、区级、街道级和居委会级。

这种五层的结构其实只是一般性的结构，并不具备一定性，如北京市本身就是省级单位，下属行政区单位跳过市级直接就到区级别。又比如有些市级单位下属行政区市只有区级单位，然后区级单位下属由镇；而有的市下属单位有区，也有镇；甚至有些市下属只有镇。

尽管地址层级结构相对复杂，但国家***获得的行政区划分数据有很强的上下级从属关系。对于本发明而言，只需要用到前面四级。

因此，本发明通过获取前面四级的行政区划分数据来构建地址知识图谱。

主要的构建方法就是利用四级的行政划分，编写程序的通过深度遍历方式，令每一个地址实体与上一层的地址实体关联起来，比如构建[‘广州市’,‘从属于’，‘广东省’]这种关系对，主要是通过Neo4j图数据库的cql语句构建，具体构建语句如下：

MATCH(a:级别1{name:'地址名1'}),(b:级别2{name:'地址名2'})MERGE(a)-[:BELONG TO]->(b)；

以上语句中级别表示地名的所属级别，如‘广东省’属于‘省级’；‘广州市’属于‘市级’。通过这种cql语句就能够将一对有上下级从属关系的地名关联起来，如图3所示，构建出有四级结构的地质知识图谱的部分示意图。

根据这种上下级从属关系，就可以获取前四级结构。

为了能够更好的构建并存储这些地址数据，选择Neo4j数据库。Neo4j是一个高性能的，NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。所以Neo4j很适合构建这类具有上下级从属关系的知识图谱。

S2.2关联旧名和别名

由于历史以及用户习惯的原因，部分用户在书写地址的时候并不是严格安装地址规范来书写地址的。尤其是因为短期内部分地名由于合并、升级等原因导致地名的变更，而用户在一段时间内由于习惯问题，依然使用旧的名称来表达。

比如黑龙江省伊春市的友好区，曾经的命名是上甘岭区。如果用户在书写的时候依然书写上甘岭区的话，会给查找该地址的人造成一定的麻烦。

同理，如果用户习惯使用一个地方的别名来命名也会给查找该地址的人造成一定的麻烦。比如广州市也被叫做“羊城”、“花城”；东莞的莞城街道被当地人习惯性叫做莞城区等等。

因此，可以利用将这些旧名和别名和基础地址知识图谱对应的地名关联起来，在匹配查找的时候，如果发现是旧名别名可以立马进行纠正。

具体的关联方法就是利用Neo4j图数据库的cql语句进行关联，cql语句如下：

别名关联语句：MATCH(a:别名{name:'地址名'}),(b:县级{name:'地址名'})MERGE(a)-[:ALIAS NAME]->(b)；

旧名关联语句：MATCH(a:旧名{name:'地址名'}),(b:县级{name:'地址名'})MERGE(a)-[:OLd NAME]->(b)；

S3.建立基于知识图谱的多种匹配模型

由于用户书写习惯等问题，导致大部分地址文本的并不是完整规范且地名信息正确的地址，因此需要根据前面生成的地址知识图谱以及地址正确的书写格式来构建多种匹配规则，对地址分词出来的每个地名进行有效的匹配，并进行补全或者修正。如图5所示，基于知识图谱的多种匹配模型的主要流程如下：

S31前文缺失匹配

对于某个地名检测到其上一级地名处于缺失状态，根据该地名在构建的地址知识图谱库中进行匹配，查找到上一级地名并进行补全。

以[“陈仓区”，“慕仪镇”，“901号”]这个分词结果作为输入为例，首先输入“陈仓区”，可以在地址知识图谱中匹配到“陈仓区”这个地名，属于第三级的地名，且只有一个，填入最终结果的第三级地名位置。

如果检查发现最终结果在第三级之前的省级或市级的地名都是缺失的，且根据匹配结果“陈仓区”在地址知识图谱中是唯一的，那么通过Neo4j的cql语句将“陈仓区”的前级找出来。即匹配得到“陈仓区”的前级是“宝鸡市”和“陕西省”，将这两个地名分别填入最终结果的省级和市级地名位置，实现缺省信息的补全。

S32重名情况下前文全缺失匹配

当使用某地名匹配地址知识图谱的时候，发现存在有多个结果，即有重名的情况，并且检查前级地名全处于缺失状态，以及存在下一级地名的情况下，可以根据该地名以及下一级地名合并的关系对，在构建的地址知识图谱库中进行匹配，查找到前级地名并进行补全。

具体匹配流程以[“和平区”，“长白街道”，“15号”]为例。天津市和沈阳市都有和平区，因此单独对“和平区”在地址知识图谱库匹配的时候是会有重复结果的，无法精确哪个是正确的。

而这个例子中的前级都是缺省的，但是其拥有下一级“长白街”，因此构建[“和平区”，“从属于”，“长白街道”]这样的三元组去地址知识图谱库中进行匹配。

通过这种结合，可以排除重名的部分，可以匹配到只有辽宁省沈阳市下才有和平区长白街道。因此可以将“辽宁省”和“沈阳市”填入最终结果的对应级别的位置，实现重名情况下前文全缺失匹配。

具体方式是通过构建匹配的cql语句，具体语句如下：

Match(n)<-[:`BELONG TO`]-(name:要匹配地名)<-[:`BELONG TO`]--(name:要匹配地名的下一级地名)return n；

通过以上的cql语句就能够在构建的地址知识图谱中匹配到具体的地名，且能够将上一级地名也匹配出来。

S33重名情况下前文只有相邻缺失匹配

结合图5所示，当使用某地名匹配地址知识图谱的时候，发现存在有多个结果，即有相邻的上一级地名缺失，而上上级地名存在，那么可以根据该地名以及上上级地名合并的关系对，在构建的地址知识图谱库中进行匹配，查找到前级地名并进行补全。

以[“吉林省”，“朝阳区”，“湖西街道”，“15号”]为例。北京市和吉林省的长春市都有朝阳区。如果单独去匹配“朝阳区”，会有重复结果，无法精确哪个是正确的。

而这个例子中，相隔的前级是存在的，因此构建“吉林省”和“朝阳区”的关系对，再到地址知识图谱库中进行匹配。最后得到的只有吉林省的长春市才有朝阳区，因此将“长春市”填入最终结果的市级单位中，以此实现补全。

具体方式是通过构建匹配的cql语句，具体语句如下：

Match(name:要匹配地名的相隔前级地名)<-[:`BELONG TO`]-(n)<-[:`BE LONGTO`]--(name:要匹配地名)return n；

通过以上的cql语句就能够在构建的地址知识图谱中匹配到具体的地名，且能够将上一级缺失的地名也匹配出来。

S34旧名别名匹配

同理，对于部分地名在查询地址知识图谱后，可以得知是旧名或者别名，根据该旧名或别名在构建的地址知识图谱库中进行匹配，查找到其现有真正的地名，并进行修正。

实施例2

本实施例提供一种基于知识图谱和多重匹配的地址修整补全***，包括：地址文本分词与初步匹配模块、地址知识图谱构建模块和匹配模型构建模块；

在本实施例中，地址文本分词与初步匹配模块用于对地址文本进行分词与初步匹配，采用分词工具对输入的地址文本数据进行分词操作，构建地址名词词典进行匹配分词，根据地名规则进行匹配重组；

在本实施例中，地址知识图谱构建模块用于构建地址知识图谱，获取地址行政区划分数据，采用数据库管理工具构建地址知识图谱，获取地名的旧名或别名信息，将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联；

在本实施例中，匹配模型构建模块用于建立基于地址知识图谱的多种匹配模型，根据地址构成的特点，构建多种匹配规则进行匹配，采用对应的匹配规则对地址进行修正和补全，所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的基于知识图谱和多重匹配的地址修整补全方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于知识图谱和多重匹配的地址修整补全方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱和多重匹配的地址修整补全方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法，其特征在于，所述分词工具采用开源的分词工具jieba。

3.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法，其特征在于，所述地址名词字典设有错误分词的字典集，在分词操作时读取字典集，依次匹配输入的地址文本数据是否存在字典集中的地名，若存在则将所述地名分割出来。

4.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法，其特征在于，所述根据地名规则进行匹配重组的具体步骤包括：根据匹配分词的结果，判断匹配分词结果中的每一个词末尾是否与地名规则预设的名词匹配，若匹配则将地址文本数据的分词结果合并为完整的地名。

5.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法，其特征在于，所述采用数据库管理工具构建地址知识图谱的具体步骤包括：

6.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法，其特征在于，所述数据库管理工具采用Neo4j数据库。

7.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法，其特征在于，所述采用对应的匹配规则对地址进行修正和补全，具体步骤包括：

8.一种基于知识图谱和多重匹配的地址修整补全***，其特征在于，包括：地址文本分词与初步匹配模块、地址知识图谱构建模块和匹配模型构建模块；

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7任一项所述的基于知识图谱和多重匹配的地址修整补全方法。

10.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-7任一项所述的基于知识图谱和多重匹配的地址修整补全方法。