CN112527933A

CN112527933A - 一种基于空间位置和文本训练的中文地址关联方法

Info

Publication number: CN112527933A
Application number: CN202011409893.7A
Authority: CN
Inventors: 董文杰; 何宗; 高翔; 袁超; 张红文; 贾亚辉; 刘建; 韩维喆; 叶胜; 瞿孟; 李胜; 王岚; 肖勇; 钱文进; 王俊; 曾攀; 彭婧
Original assignee: Chongqing Geographic Information And Remote Sensing Application Center
Current assignee: Chongqing Geographic Information And Remote Sensing Application Center
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-19

Abstract

本发明公开了一种基于空间位置和文本训练的中文地址关联方法，包括步骤：获取待关联地址数据，并对数据进行预处理；采用条件随机场模型，对预处理后的待关联地址数据进行分词，并对分词结果进行词性标注；基于十八级地址分级模型，对分词结果进行主体词识别提取；根据专题分类筛选半径和主体词搜索半径，在已有的标准地址库中筛选出候选地址集合；在候选地址集合中，确定目标地址；建立目标地址与待关联地址之间的关联关系表。其显著效果是：解决了不同行业部门数据与标准地址数据之间建立关联关系的问题，实现了各行业数据通过标准地址统一关联。

Description

一种基于空间位置和文本训练的中文地址关联方法

技术领域

本发明涉及到地理信息技术技术领域，具体涉及一种基于空间位置和文本训练的中文地址关联方法。

背景技术

随着科学技术的迅猛发展，自然资源、经济社会等行业部门积累了海量的数据资源，同时各行业部门也积极共享交换这些资源，以期最大化发挥数据的价值。但由于不同来源的数据内容、组织方式、精度各不相同，数据之间难以建立有效的关联关系，这给数据的综合应用、分析和管理带来了巨大的挑战，如何有效建立数据之间的关联关系、打破数据壁垒限制成了当前亟待解决的问题。据统计，人类活动中有80％以上的信息与地理空间位置有关，而地址则是地理空间位置的文本表现方式。因此，通过地址作为纽带来建立不同数据之间的关联关系是可行的重要方法。

通过地址来建立各数据之间的关联关系，现有的技术通常是采用基于地址词典或不依赖地址词典的手段来实现。基于地址词典即预先建立地址数据的要素词库、匹配规则和地理编码库，将待关联地址中的关键要素作为检索条件，在地址词典中遍历搜索匹配，进而找出判定相同的地址数据，建立不同来源数据之间的关联关系。这种方法对地址词典已包含的地址数据有较好的解析效果，但是在面对复杂中文地址场景时还存在一定的局限性。首先已有地址词典不可能包含所有地址数据的全部要素，对词典未覆盖的地址数据解析效果不好，而且随着地址词典内容不断丰富，构建新的内容工作量大耗时长、词典过大不易维护。不依赖词典方法一般通过采用自然语言处理技术等手段分析地址要素构成特征，然后进行相互匹配。这种方法对结构规范标准的地址数据处理效果非常好，但是针对描述文字语义模糊、结构不规范的中文地址情况处理效果不好，并且只能从文本这一维度进行解析。

总结起来，地址关联的难度主要体现在以下三个方面：

1)由于不同行业部门对地址的需求不同，各数据空间位置、地址描述与标准地址均存在偏差，单纯依靠空间位置或地址描述信息难以准确地建立各行业数据与标准地址的关联关系。

2)由于历史变迁和社会发展，很多地址的命名随时代发展变化较多，包含了大量的曾用名、别名等；另外，有些地址信息采集过程中导致缺项、错别字、大致的方向范围描述等不规范情况较多；

3)自然语言描述的地址存在语义上的连续性或者缩写、简称等情况，传统的分词方法和字符串匹配等手段难以有效精准识别。

基于此，目前需要一种综合考虑地理空间位置和文本两个维度并且不单纯依赖地址词典、能够适配地址描述文字语义模糊、结构不规范等情况的中文地址关联方法，能够适配复杂中文地址场景，将不同行业部门的数据和标准地址进行有效关联。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于空间位置和文本训练的中文地址关联方法，能够适配复杂中文地址场景，不单纯依赖地址词典、能够较好适配地址描述文字语义模糊、结构不规范等情况并且适配地理空间位置和文本两个维度，以解决当前不同行业部门数据与标准地址数据之间建立关联关系的技术问题。

为达到上述目的，本发明采用的技术方案如下：

一种基于空间位置和文本训练的中文地址关联方法，其关键在于包括如下步骤：

步骤1：获取待关联地址数据，并对数据进行预处理；

步骤2：采用条件随机场模型，对预处理后的待关联地址数据进行分词，并对分词结果进行词性标注；

步骤3：基于十八级地址分级模型，对分词结果进行主体词识别提取；

步骤4：根据专题分类筛选半径和主体词搜索半径，在已有的标准地址库中筛选出候选地址集合；

步骤5：在候选地址集合中，确定目标地址；

步骤6：建立目标地址与待关联地址之间的关联关系表。

进一步的，步骤1中对待关联地址数据进行预处理包括特殊字符清理过程、缺失行政区划补全过程以及用户自行填写的无意义数据清理过程。

进一步的，步骤2中采用条件随机场模型对预处理后的待关联地址数据进行分词的具体步骤为：

步骤2.1：基于初始样本词库中的词组库内容，采用条件随机场模型对预处理后的待关联地址数据中每个单字进行词位标注；

步骤2.2：通过条件随机场模型中的特征模板计算单字之间的连续性概率，并进行反复的迭代训练，最终计算出不同的分词组合概率；

步骤2.3：选择概率最高的分词组合形成分词结果。

进一步的，步骤2中对分词结果进行词性标注的步骤如下：

步骤S1：基于十八级地址分级模型，构建词组之间的词性依赖模板；

步骤S2：在条件随机场模型的训练过程中，将对应的词组的词性按照十八级进行初步划分，并按照词性依赖模板设置进行迭代，确定出最终的分级标注；

步骤S3：将最终的分级标注对应的分词结果反馈录入到初始样本词库中，丰富初始样本词库。

进一步的，所述条件随机场模型的训练过程为：

步骤A1：基于样本地址数据，根据十八级地址分级模型，得到地址标注数据；

步骤A2：根据地址标注数据，统计、总结归纳出各类特征模板并形成特征函数；

步骤A3：采用特征函数对中文地址进行训练，获得条件随机场模型。

进一步的，步骤3中对分词结果进行主体词识别提取的过程如下：

步骤3.1：根据分词结果，对于包含了主体词级别内容的情况，从十八级地址分级模型的第十三级起，如果有多个同级别主体词，则逐一提出；

步骤3.2：如果第十三级没有，则向上返回一级，直到全部识别提取出主体词为止；

步骤3.3：对于不包含主体词级别内容的情况，则该地址所描述空间范围太大，没有太大利用价值。

进一步的，步骤4中所述候选地址集合的筛选过程为：

步骤4.1：取专题分类筛选半径和主体词搜索半径中的较大值为筛选半径；

步骤4.2：以待关联地址坐标点为原点，以筛选半径为缓冲半径，通过缓冲区圈选出该范围内所有标准库地址数据；

步骤4.3：在圈选出的标准地址数据基础上，通过主体词索引筛选出候选地址集合。

进一步的，步骤5中目标地址的确定过程为：

步骤5.1：基于步骤4中筛选出的候选地址集合，按照十八级地址分级模型构建候选地址数据索引；

步骤5.2：将待关联地址的分词结果，在候选地址数据索引中进行检索，若完全匹配则在候选地址中找到与待关联地址完全相同的地址，直接确定为目标地址，否则进入步骤5.3；

步骤5.3：根据待关联地址的主体词信息，再次在候选地址数据索引中进行检索，得到待关联地址主体词与候选地址主体词存在交集的候选地址数据作为初始推荐候选地址；

步骤5.4：最后根据主体词同一级别的待关联地址与初始推荐候选地址，按空间位置距离由近到远进行排序，取若干个排序在前的部分，得到最终推荐候选地址；

步骤5.5：采用编辑距离算法计算待关联地址与最终推荐候选地址的文本相似度；

步骤5.6：取相似度值最高的候选地址为目标地址。

进一步的，所述编辑距离算法的计算公式为：

sim＝1-dis/max(len(s1)，len(s2))，

其中，sim表示待关联地址中的字符串len(s1)与候选地址中的字符串len(s2)的文本相似度，dis/max(len(s1)，len(s2))表示两个字符串中最长的字符长度。

进一步的，步骤6在建立关联关系表的过程中，还将标准地址的地址编码与待关联地址的唯一要素编码一一对应并写入关联关系表，并构建索引以保障关联关系表的检索效率。

本发明的显著效果是：

本方法良好地解决了不同行业部门数据与标准地址数据之间建立关联关系的问题，实现了各行业数据通过标准地址统一关联，且具备良好的准确度和稳定性，为后续各行业数据联动更新、交叉分析应用奠定了基础。对比现有的地址关联技术，本方法综合使用地理空间位置筛选和文本训练，在计算文本匹配相似度之前，根据空间位置进行缓冲区圈选，有效过滤了冗余干扰数据，降低后续计算数据量，为文本准确匹配保障前提；并且，采用深度学习与机器学习相结合的分词算法，通过词性标注和主体词识别提取，对不规范地址、关键要素表述模糊等复杂中文地址情况有效解决，同时，每一次关联过程同样也是模型的训练过程，可自动丰富样本分词库，相比较人工运维地址词典，节省了大量的人力物力。

附图说明

图1是本发明的方法流程图；

图2是条件随机场模型训练过程示意图；

图3是全局特征函数形成示意图；

图4是目标地址的确定流程图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示，一种基于空间位置和文本训练的中文地址关联方法，具体步骤如下：

步骤1：获取待关联地址数据，并对数据进行预处理；

待关联地址数据一般来源于各行业部门包含地址信息的专题数据，比如医疗、教育、建筑物等，在这些专题数据中，地址信息很多情况下并非其核心业务属性，导致地址信息质量层次不齐，因此需要首先对地址数据进行预处理，具体包括：

1)全角符号转半角符号、“￥、$、&、％、＝”等特殊字符清理；

2)省/市/区(县)/街道(乡、镇)等缺失行政区划补全；

3)用户自行填写的无意义数据(仅有省/市/区(县)等行政区的无效地址、其他不相关数据等)清理等。

条件随机场模型(Conditional Random Field，CRF)是一种判别式概率模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。可用来对预处理后的待关联地址数据进行分词，CRF模型把分词作为字的词位分类问题来解决，通常对字的词位定义采用B、M、E、S四种标签，其中，B表示词首、M表示词中、E表示词尾、S表示单字词。

采用CRF分词的具体过程：

步骤2.3：选择概率最高的分词组合形成分词结果。

第一步分词是根据样本词库内容对单字进行初步词性标注，然后根据概率计算组成各个词组，但是词组之间还没有依赖关系，无法确定先后，所以需要再次进行词组的词性标注，具体过程为：

步骤S1：基于十八级地址分级模型，构建词组之间的词性依赖模板(比如，市之后一般是区或县，区(县)之后才是街道，街道一般不会直接跟在市后面，也不会在市前面，基于此形成相应分级依赖模板)；

比如，分词实例为：重庆大学张三收。CRF模型初始化单字标注有多种情况，我们取其中一种为例进行说明，比如初步对该实例单字标注为“重|B庆|B大|B学|B张|B三|B收|B”,经过反复迭代训练，最终标注为“重|B庆|M大|M学|E张|B三|E收|S”，得到最后分词结果为：重庆大学|张三|收。

如图2所示，所述条件随机场模型(CRF模型)的训练过程为：

CRF特征模板表示一条语句中某个位置或者某几个位置与当前训练位置的信息之间的联系。由于条件随机场在同一特征的各个位置中都有定义，可以对同一个特征在各个位置进行求和，将局部特征函数转化为一个全局特征函数，如图3所示。

步骤A3：采用特征函数对中文地址进行训练，获得用于分词的条件随机场模型。

需要说明的是，第一次训练开始的时候，由于没有特征模板和特征函数，需要人工先统计一个值出来，也即是第一次训练时由根据十八级地址分级模型，得到地址标注数据；并根据地址标注数据直接形成特征函数。也即是，从初始数据到地址标注数据再到特征函数形成是第一次训练的过程，而后续的迭代训练过程则是在第一次结果的基础上，应用和丰富其样本词库、特征模板的过程。在进行分词时，中文地址进来，同样也是上述过程，先形成样本地址数据然后形成地址标注数据，形成特征模板与特征函数，基于特征函数训练模型并完成分词，也即训练过程就是分词过程。

基于上述描述，本实施例采用了深度学习与机器学习相结合的分词算法，通过词性标注和主体词识别提取，对不规范地址、关键要素表述模糊等复杂中文地址情况有效解决，同时，每一次关联过程同样也是模型的训练过程，可自动丰富样本分词库，相比较人工运维地址词典，节省了大量的人力物力。

本例中，所述的十八级地址分级模型是按照中文地址特征，将其细分为18个级别，包括省(直辖市/特别行政区)、地级市、区(县/县级市)、开发区(工业园等)、街道(乡/镇)、社区(村)、组(队)、商圈、主路、支路、门牌号、支门牌号、区片(兴趣点)、楼栋号、单元号、楼层号、房间号和地址描述信息，如表1所示。

地址分级过程以此为参考，根据词条本身特性和上下文关系进行组合，最终赋予相应级别。需要指出的是，虽然该模型细分了十八级分级等级，但一般一个具体地址不可能包含所有的分级，尤其是第九级以后，一般缺项比较多，这也是仅依赖地址词典和文本解析难以对地址数据进行准确匹配的原因所在。另外，十八级地址分级模型仅为一种可行的示例性模型，在其他可能的实际案例中，也可以采用其他的分级方式。

表1十八级地址分级内容

级别	内容	示例
			1	省、直辖市、特别行政区	湖北省、重庆市、香港特别行政区
2	地级市	孝感市
			3	区、县、县级市	渝北区、酉阳县
4	开发区、工业园区等	高新区、两江新区
			5	街道、镇、乡	龙山街道
6	社区、村	冉家坝社区、互助村
			7	组、队	互助村4组
8	商圈	龙湖时代天街
			9	主路	余松路
10	支路	余松路2支路
			11	门牌号	余松路123号
12	支门牌号	余松路123号附4号
			13	区片、兴趣点	两江春城
14	楼栋号	两江春城13栋
			15	单元号	两江春城13栋2单元
16	楼层号	两江春城13栋2单元3楼
			17	房间号	两江春城13栋2单元3楼301室
18	地址描述信息	人民大礼堂旁

待关联地址分词完成之后，基于十八级地址分级模型进行主体词识别提取，其中主体词主要对应十八级地址分级模型中的第九到十三级，即主路、支路、门牌号、支门牌号、区片(兴趣点)。

主体词识别提取的过程如下：

比如，对于“重庆市渝北区龙山街道龙山大道101号春风城市心筑”，其主体词为“龙山大道101号”和“春风城市心筑”；对于“重庆市渝北区龙山街道龙山大道101号”，其主体词为“龙山大道101号”；对于“重庆市渝北区龙山街道春风城市心筑”，其主体词为“春风城市心筑”。

具体实施时，考虑到一般标准地址库数据量过大，直接通过主体词索引检索的话，算法时间复杂度和空间复杂度都比较高，因此在计算文本匹配相似度之前，通过引入专题分类筛选半径和主体词搜索半径，从而根据空间位置进行缓冲区圈选，有效过滤掉冗余干扰数据，降低后续计算数据量，为文本准确匹配保障前提。

所述候选地址集合的筛选过程为：

通过上述步骤，极大地提升了检索效率，并且可以过滤掉大量冗余数据。比如，以教育专题数据为例，重庆大学虎溪校区地址为：“重庆市沙坪坝区虎溪街道大学城南路55号”，我们设定教育专题高校分类半径为5公里，该地址主体词为：“大学城南路55号”，设定搜索半径为3公里，最终选择以“重庆市沙坪坝区虎溪街道大学城南路55号”地址坐标点位原点，缓冲区半径5公里范围内地址数据作为候选地址集合。

需要强调的是，专题分类筛选半径和主体词搜索半径都并非固定参数，可在实际应用中根据数据情况进行调整。另外，专题分类半径和主体词搜索半径取较大值还是较小值也需要根据实际应用情况决定。

步骤5：在候选地址集合中，确定目标地址；

确定过程为：

步骤5.3：对于不完全匹配情况，根据待关联地址的主体词信息，再次在候选地址数据索引中进行检索，得到待关联地址主体词与候选地址主体词存在交集的候选地址数据作为初始推荐候选地址；

比如，待关联地址为“重庆市渝北区龙山街道龙山大道101号附1号”(主体词为“龙山大道101号附1号”)，候选地址有“重庆市渝北区龙山街道龙山大道101号”(主体词为“龙山大道101号”)、“重庆市渝北区龙山街道龙山大道101号附2号”(主体词为“龙山大道101号附2号”)、“重庆市渝北区龙山街道龙山大道101号附3号”(主体词为“龙山大道101号附3号”)，这三个候选地址主体词与待关联地址主体词均有交集，因此全部作为初始推荐候选地址。

根据待关联地址的分词信息，从主体词级别往后，匹配的级别越接近第十八级，匹配相似排序越靠前。

步骤5.4：根据主体词同一级别的待关联地址与初始推荐候选地址，按空间位置距离由近到远进行排序，得到最终的推荐候选地址结果，取其排序top10输出(输出推荐候选地址排名数量可根据需要设置)；

所述编辑距离算法是指将一个字符串转换为两个字符串之间的另一个字符串所需的最少编辑操作次数。允许的编辑操作包括:用另一个字符替换一个字符，***一个字符，删除一个字符。需要替换、增加、删除的字符的个数最后累加为两个字符串之间的编辑距离。其具体的计算公式为：

sim＝1-dis/max(len(s1)，len(s2))，

比如，重庆市渝北区龙山街道龙山大道101号，重庆市渝北区龙山街道龙山大道；两个地址相差字符“101号”，在同一个位置相差四个字符，dis＝4；max(len(s1),len(s2))＝18，sim＝1-4/18。

步骤5.6：取相似度值sim最高的候选地址为目标地址。

步骤6：建立目标地址与待关联地址之间的关联关系表，并将目标地址的地址编码与待关联地址的唯一要素编码一一对应并写入关联关系表，完成关联关系建立，并构建B—TREE索引或其他索引结构，保障关联关系表检索效率。

综上所述，本方法解决了不同行业部门数据与标准地址库中目标地址数据之间建立关联关系的问题，实现了各行业数据通过标准地址统一关联，为后续各行业数据联动更新、交叉分析应用奠定了基础。将本方法应用到上千万的真实标准地址与各专题数据建立关联关系，关联结果的准确度达到了90％以上，具备良好的准确度和稳定性。

以上对本发明所提供的技术方案进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于空间位置和文本训练的中文地址关联方法，其特征在于包括如下步骤：

步骤1：获取待关联地址数据，并对数据进行预处理；

步骤4：根据专题分类筛选半径和主体词搜索半径，在标准地址库中筛选出候选地址集合；

步骤5：在候选地址集合中，确定目标地址；

步骤6：建立目标地址与待关联地址之间的关联关系表。

2.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤1中对待关联地址数据进行预处理包括特殊字符清理过程、缺失行政区划补全过程以及用户自行填写的无意义数据清理过程。

3.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤2中采用条件随机场模型对预处理后的待关联地址数据进行分词的具体步骤为：

步骤2.3：选择概率最高的分词组合形成分词结果。

4.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤2中对分词结果进行词性标注的步骤如下：

5.根据权利要求1或3或4所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：所述条件随机场模型的训练过程为：

6.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤3中对分词结果进行主体词识别提取的过程如下：

7.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤4中所述候选地址集合的筛选过程为：

8.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤5中目标地址的确定过程为：

步骤5.4：根据主体词同一级别的待关联地址与初始推荐候选地址，按空间位置距离由近到远进行排序，取若干个排序在前的部分，得到最终推荐候选地址；

步骤5.6：取相似度值最高的候选地址为目标地址。

9.根据权利要求1或8所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：所述编辑距离算法的计算公式为：

sim＝1-dis/max(len(s1)，len(s2))，

10.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤6在建立关联关系表的过程中，还将标准地址的地址编码与待关联地址的唯一要素编码一一对应并写入关联关系表，并构建索引以保障关联关系表的检索效率。