CN111222345A

CN111222345A - 基于语义分词技术的地名地址可视化分析方法

Info

Publication number: CN111222345A
Application number: CN202010041836.1A
Authority: CN
Inventors: 卢广师
Original assignee: Hefei Huitu Software Co ltd
Current assignee: Hefei Huitu Software Co ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-02

Abstract

本发明公开了一种基于语义分词技术的地名地址可视化分析方法。包括步骤：获取初始地址数据，对所述初始地址数据进行地址清洗，生成清洗后的地址数据；对所述清洗后的地址数据进行拆分，生成拆分后的地址数据；获取并分析所述现有地址数据，生成地址模型；根据存储和收集的所述地址模型，生成标准地址库；根据所述标准地址库，对所述拆分后的地址数据进行地址库匹配，生成匹配结果。本发明能够解决现有技术的不足。

Description

基于语义分词技术的地名地址可视化分析方法

技术领域

本发明涉及地名地址可视化分析技术领域，具体涉及一种基于语义分词技术的地名地址可视化分析方法。

背景技术

根据地址词典，为数据库中每条记录的匹配结果添加地理坐标，由此可以快速准确的把包含地址信息的普通数据变成地理对象显示在地图上。除此之外还有批量处理模式，可以对数百万数据表记录进行匹配，甚至可以利用ODBC实现远程匹配等。具备实时更新的地址数据词典可以用于提高地址匹配的准确性和容错率。

各行各业都在自己的应用***基础上建立了一套编码***，有自己独特的地理单元划分标准，虽然国家标准给出了词和分词单位的非形式定义，但这些编码体系在空间单元上并没有统一的、标准的地理参考***，它们在数字城市的管理中，最小单元的边界都不相同，使得相互之间很难共享信息资源。同时，城市地理信息资源的分类没有标准，也没有统一的地理代码，限制了现代化手段的使用。

发明内容

针对现有技术的不足，本发明公开一种基于语义分词技术的地名地址可视化分析方法，能够解决现有技术的不足。

为实现以上目的，本发明通过以下技术方案予以实现：

基于语义分词技术的地名地址可视化分析方法，包括以下步骤：

S1：获取初始地址数据，对所述初始地址数据进行地址清洗，生成清洗后的地址数据；

S2：对所述清洗后的地址数据进行拆分，生成拆分后的地址数据；

S3：获取并分析所述现有地址数据，生成地址模型；

S4：根据存储和收集的所述地址模型，生成标准地址库；

S5：根据所述标准地址库，对所述拆分后的地址数据进行地址库匹配，生成匹配结果。

优选的技术方案，还包括步骤S21对所述清洗后的地址数据进行数据排错，生成错误数据结果。

进一步优选的技术方案，还包括步骤S22根据所述错误数据结果对初始地址数据进行批量预处理。

优选的技术方案，还包括步骤S6评价匹配结果的精度，生成精度结果。

本发明公开一种基于语义分词技术的地名地址可视化分析方法，具有以下优点：

中文语义地址模型：以普查数据为基础，分析现有地址数据结构，总结地址数据特点及现有模型的劣势，并提出基于语义的地址模型构建方法。

中文语义标准地址库建设：标准地址库作为地址匹配的本底数据在基于语义的地质模型构建基础之上，进行地址库结构设计，并利用建筑物普查数据构建标准地址库。

基于语义分析的地址匹配方法：在已有地址模型的基础上，利用自然语言处理的方法完成地址拆分、地址解析和地址库匹配，以及不确定性有限状态机进行地址解析，纠正常见的错误地址，通过隐含马尔可夫模型与信息论原理实现地址库匹配。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例所述地址匹配流程主要包括地址清洗、地址拆分、地址库匹配这几个过程。但是由于中文地址来源的不确定性，错误地址类型多种多样，地址清洗只能解决一些简单的错误地址，而一些复杂的歧义问题则无法解决；常用的基于字符串匹配的分词方法在地址库建设中应用的效果很好，这是因为作为地址库的地址数据来源比较统一，数据较为规范，而在对待匹配地址进行拆分时，单纯的字符串匹配己经不能满足其需求；传统的地址库匹配只是利用最大正向和逆向算法对地址要素进行查询，查询失败则认为匹配失败，而没有分析查询失败的原因，更没有针对其原因找出解决机制。

由于中文地址是采用非结构化的中文自然语言来描述的，具备一切自然语言的特点，所以研究自然语言处理的方式，并将其应用到地址匹配中是可行的。在自然语言处理的方式中，基于统计的方法通过得到能够反映语言特征的统计数据，并依此为评价参数，输出保持原有次序的语句，而在基于规则的处理方法中，输出的则是二维的句法分析树，相对而言其复杂度要高很多。

可以理解的，在本实施例中主要包括以下工作过程：

地名地址清洗

通过地址修改或去除地址、完善模糊地址等方法对地址数据进行处理，使其满足标准地址的要求，因此，无论是在标准地址库构建中还是地址匹配过程中，地址清洗都是必须完成的第一步。由于不同行业部门的需求不同，对地址采集传播的形式不同，以及在采集、整理、录入过程中难免发生疏漏与错误，采集的地址数据的格式和质量有很大区别，因此在对采集来的数据进行使用前，应对其进行一次统一的清洗，使其具有统一的格式。常见的地址错误类型主要有拼写错误、地址冗余或模糊、地址歧义、全半角混乱、格式不一致、表述不一致等。

地名地址拆分

地址清洗后，在与标准数据库进行匹配之前，需要对地址数据进行拆分处理。地址拆分是指通过一定的算法对标准化处理的地址进行拆分，使其生成多个地址要素的过程。支持向量机是在结构风险最小化理论下产生的，它是数据挖掘中的一项新技术，是借助于最优化方法来解决机器学***面，其中这种非线性映射就是核函数。将支持向量机运用于地址拆分时，地址数据中的每个字符都对应一个样本，而每个训练样本应该是由一系列特征构成的，包括三个部分:特征模板、句法分析和动态加权。

地名地址解析

错误地址类型有些可以进行简单的批处理，即进行地址清洗，但一些比较复杂的问题并不能通过简单的过滤规则进行清洗，有的包含了复杂的语义需要通过进一步分析。有限状态机可以很好的解决这个问题，构造一个抽象的信息转换器，它由输入带、输出带、辅助存储和控制信息流动的有限规则的集合。其中，有限控制对应着所有规则的集合，所谓规则指的是***中的地址串是如何随着当前输入信息和存储中当前存取信息而改变的，根据地址模型建立有限控制，通过有限控制可以识别并规范任何类型的待匹配地址。

地址库匹配

将所有汉字对应拼音的编码表作为索引存储在数据库中，当输入汉字时，找到对应的编码，再根据拼音编码表转换成相应的拼音。中文地址要素用拼音表示后，通过字符串的比较计算两地址要素的相似度，取相似度最大的地址要素为匹配结果。

基于字符串匹配的分词方法

这是一种机械分词算法，根据切取字符串的方向不同又分为正向匹配和逆向匹配；根据优先匹配的长度不同，又可分为最大匹配和最小匹配，由于地址数据从左往右存在不可逆的顺序，因此采用最大正向匹配效果最佳。

基于规则的分词方法

利用自然语言语法、句法的分析来进行分词，从自然语言理解的基础上进行分词，从而一定程度上消除歧义。语法规则、词性、构词方法等都是人类学习语言的工具，而恰恰这些规则又很容易用计算机的算法描述，收集所有地址中可能出现的歧义字段，形成一个歧义字段库，根据所建立的歧义字段信息消除歧义，确定分词结果，这是一种人工智能的分词方式。

基于统计的分词方法

通过计算相邻字之间组合成词的频度来判断其是否成词并进行分词处理。在概率学上，单字组合成词组的概率是比较大的，当相邻的字经常在语句中出现，那么这几个相邻字很有可能是一个词，因此字与字相邻出现的概率后频率能较好反映成词的置信度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于语义分词技术的地名地址可视化分析方法，其特征在于，包括以下步骤：

S3：获取并分析所述现有地址数据，生成地址模型；

S4：根据存储和收集的所述地址模型，生成标准地址库；

2.根据权利要求1所述基于语义分词技术的地名地址可视化分析方法，其特征在于：还包括步骤S21对所述清洗后的地址数据进行数据排错，生成错误数据结果。

3.根据权利要求2所述基于语义分词技术的地名地址可视化分析方法，其特征在于：还包括步骤S22根据所述错误数据结果对初始地址数据进行批量预处理。

4.根据权利要求1所述基于语义分词技术的地名地址可视化分析方法，其特征在于：还包括步骤S6评价匹配结果的精度，生成精度结果。