CN111209362A

CN111209362A - 基于深度学习的地址数据解析方法

Info

Publication number: CN111209362A
Application number: CN202010011871.9A
Authority: CN
Inventors: 张磊; 陶虹; 张旭方
Original assignee: Suzhou Chengfang Information Technology Co ltd
Current assignee: Suzhou Chengfang Information Technology Co ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-29

Abstract

本发明涉及一种基于深度学习的地址数据解析方法，将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注，标注后的关键地块信息数据具有不同类别的标签地址名称内容文本；将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据；构建BiLSTM‑CNN‑CRF模型进行训练。本发明从地名地址解析的实际业务中遇到的问题出发，构建相应的地址解析抽象建模和数据多维度标注，将该业务中繁琐的分词‑匹配‑识别的过程解放出来，实现了端到端的融合处理方式。

Description

基于深度学习的地址数据解析方法

技术领域

本发明属于地名地址解析技术领域，具体涉及基于深度学习的地址数据解析方法。

背景技术

在信息时代的今天，城市各部门都存有大量与地址有关的地理位置信息，这些数据大多是非空间信息，无法通过地理信息***来实现行业之间的数据共享。因此，城市地址信息空间化是数字城市建设的重要组成部分。

地理编码技术正是实现城市地址信息空间化的方法，它提供了一种将文本描述的地址信息转换为地理坐标的方式，通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实***置。通过地理编码技术，大量的社会经济数据将变成坐标化的空间信息，从而进行更快速有效的空间分析，为政府决策提供支持。

自然语言处理(Natural Language Processing，NLP)是一种让计算机能够理解人类语言的技术。其中，分词技术是一种基础任务。国际上常用的NLP算法，深层次的语法语义分析通常都是以词作为基本单位，分词通常是NLP的首要任务。当建立NLP领域的模型时，往往需要建模人员掌握一定的语言学知识才能够提取合适的特征。深度学习具有优秀的泛化能力，能够无监督地基于数据抽取特征，深度学习的优势就在于，从训练数据中学习到上下文信息特征，实验者需要做的部分是设计神经网络的结构，提供优质的训练数据。利用地理编码技术实现地址的快速查询匹配和社会经济数据的空间化，建立数据库统一管理，从而实现城市各部门、行业数据的共享。需要现有的地址分词模型，大幅度的提高了分词的准确率。本发明通过构建基于深度学习的地址解析算法，提高了地址残缺和歧义这两类模糊地址的解析成功率。

发明内容

技术问题：本发明针对传统的地名地址解析使用数据库全量检索匹配的方式(分词-匹配-识别)，出现解析的速度慢和成功率低的问题，提供了一种基于深度学习的地址数据解析方法。本发明从地名地址解析的实际业务中遇到的问题出发，构建相应的地址解析抽象建模和数据多维度标注，将该业务中繁琐的分词-匹配-识别的过程解放出来，实现了端到端的融合处理方式。

本发明将地址建模成为一个提取地址数据中关键地块信息的过程，进一步将该提取信息的过程抽象为对地块信息的多类别分类问题。在建立地址解析的深度学习模型时，将地址数据按照地址解析的需求继续多维度的数据标注，标注后的地址数据具有不同的标签内容，具体的是对地址数据中行政区划、道路、地块、门牌、楼栋、户室和干扰信息进行多类别的标注，其中重要的是对残缺和歧义的地址也按照相同的标注方式进行多维度标注。其中，训练出模型可以识别出地址中相应的地块信息，并能自动剔除掉地址数据中干扰和无用信息，大大提高了解析的准确度和速度。

技术方案：本发明公开了一种基于深度学习的地址数据解析方法，包括：

将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注，标注后的关键地块信息数据具有不同类别的标签地址名称内容文本；将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据。

其中地址信息进行拆分标注得到序列词段文本，该序列词段文本作为训练数据通过词嵌入给每一个词赋一个词向量做地址文本的表达，使计算机读入该训练数据；其中，对中文地址长度设定阈值，若有超过该地址长度阈值的地址数据则被删除过滤；该深度学习模型搭建的整体流程首先将地址信息进行标注，这也是在模型训练过程中最消耗时间的工作，并将标注好的训练数据通过词嵌入技术做地址文本的表达，使计算机可以读懂输入的数据。其次将表达后的数据经过BiLSTM+CNN+CRF层组成的模型进行学习。最后将模型学习的结果输出，根据标注的结果来提取地址中的关键信息。

如：′园区娄葑怡葑庭1幢109室′被标注成′OOA1A2C1C2C2F1F2E1E2E2E2′，其中O表示无用信息，C1到C2的结束是xx信息，F1到F2是xx信息，E1到E2是xx信息，根据标注的结果完成提取，用于地址解析。

构建BiLSTM-CNN-CRF模型进行训练；将所述训练数据按序排列，通过词向量以及词性特征，确定词段结构关联性，并输出由所述词向量和词性特征拼接而成的张量特征。这当中涉及词嵌入技术主要是为了克服文字长短不均和将词与词之间的联系纳入模型中的困难。简单来说，就是给每一个词赋一个词向量，向量代表空间里面的点，含义接近的词，其词向量也接近，这样对于词的操作就可以转化为对于向量的操作了，在深度学习中，这被叫作张量(Tensor)。文本的张量蕴含了多个词之间的组合含义，这可以被认为是文本的特征工程，进而为机器学习和深度学习文本分析通过基础。

将所述的地址训练数据按序排列，通过词嵌入确定词段结构关联性，并输出相应的词向量；这当中涉及词嵌入技术主要是为了克服文字长短不均和将词与词之间的联系纳入模型中的困难。简单来说，就是给每一个词选择合理的向量表达，向量代表空间里面的点，含义接近的词，其词向量也接近，这样对于词的操作就可以转化为对于向量的操作了，在深度学习中，这被叫作张量(Tensor)。文本的张量蕴含了多个词之间的组合含义，这可以被认为是文本的预处理过程，进而为机器学习和深度学习文本分析提供基础。

通过BiLSTM模型和CNN模型将所述词向量按正向序列和反向序列分别结合上下文的关联信息融合学习并得到状态向量，该状态向量再次提取到BiLSTM模型中训练后并输送到CRF模型中，所述CRF模型自动提取序列规则并完成修正后输出关键地址序列信息；在序列标注任务(中文分词CWS，词性标注POS，命名实体识别NER等)中，目前主流的深度学习框架是BiLSTM+CRF。其中BiLSTM融合两组学习方向相反(一个按句子顺序，一个按句子逆序)，理论上能够捕获当前地址信息中从前到后和从后到前的相互关系，简单的说就是了解了上下文后就可以更好的把握关键信息，所以使用BiLSTM模型更有利于对当前词进行标注。

在模型训练时，调整模型复杂度对损失函数的影响来防止模型过拟合；其中，在训练的过程中每隔5个轮次，将训练的学习率调整为原来的一半，使模型能够更好的训练下去，得到最优的地址关键信息提取模型。比如，用dropout代码层和keras.callback中的earlystopping函数防止模型过拟合，利用keras.callback中的LearningRateScheduler函数来调整学习率，训练时每隔5个epoch，使得学习率减小为原来的一半。

通过张量表示词可以克服文字长短不均的问题，因为如果每个词已经有对应的词向量，那么对于长度为N的文本，只要选取对应的N个词所代表的向量并按文本中词的先后顺序排在一起，就是输入张量了，其中每个词向量的维度都是一样的。另外，词本身无法形成特征，但是张量就是抽象的量化，它是通过多层神经网络的层层抽象计算出来的。还有文本是由词组成的，文本的特征可以由词的张量组合。

有益效果：本发明提供了一种基于深度学习的地址数据解析方法，通过地址解析抽象建模和数据多维度标注，词嵌入技术克服文字长短不均的问题，因为如果每个词已经有对应的词向量，那么对于长度为N的文本，只要选取对应的N个词所代表的向量并按文本中词的先后顺序排在一起，就是输入张量了，其中每个词向量的维度都是一样的。另外，词本身无法形成特征，但是张量就是抽象的量化，它是通过多层神经网络的层层抽象计算出来的。

实验数据证明，在训练样本充足的情况下，本发明方法在测试集上的准确率达到0.9997，是因为采用阈值筛选和重复训练提取实现地址分词数据的规律简单，准确率才会如此的高。由于输入的地址存在对残缺和歧义的情况，但该模型可以对残缺和歧义词进行有效的提取，例如：苏州业园区和苏州公业圆区在使用模型进行提取时，两者会被当成一个整体，保证在地址中提取信息的准确性。

本发明为了提高地址残缺和歧义这两类模糊地址的匹配成功率，构建了基于字嵌入的双向长短期记忆网络(BiLSTM)、一维卷积神经网络(CNN)和条件随机场(CRF)的中文分词模型。该模型首先对地址信息进行标注，设置阈值删除过滤地址数据；还采用张量表示词并对状态张量二次BiLSTM模型重复训练输送到CRF模型自动修正后输出关键地址序列信息，实现分词的准确率。

附图说明

图1是本发明整体流程框图。

具体实施方式

为了能够更清楚地理解本发明的上述技术目的和技术特征，下面结合具体实施例对本发明进行详细描述。

如图1所示，本发明公开了一种基于深度学习的地址数据解析方法，包括：

将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注，标注后的关键地块信息数据具有不同类别的标签地址名称内容文本；

将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据；将地址信息进行拆分标注得到序列词段文本，该序列词段文本作为训练数据通过词嵌入技术给每一个词赋一个词向量做地址文本的表达，使计算机能够识别该训练数据；其中，对中文地址长度进行设定阈值，若有超过该地址长度阈值的地址数据则被删除过滤。

构建BiLSTM-CNN-CRF模型进行训练；使得地址建模成为一个提取地址数据中关键地块信息的过程，进一步将该提取信息的过程抽象为对地块信息的多类别分类问题。在建立地址解析的深度学习模型时，将地址数据按照地址解析的需求继续多维度的数据标注，标注后的地址数据具有不同的标签内容，具体的是对地址数据中行政区划、道路、地块、门牌、楼栋、户室和干扰信息进行多类别的标注，其中重要的是对残缺和歧义的地址也按照相同的标注方式进行多维度标注。其中，训练出模型可以识别出地址中相应的地块信息，并能自动剔除掉地址数据中干扰和无用信息，大大提高了解析的准确度和速度。

通过BiLSTM模型和CNN模型将所述词向量按正向序列和反向序列分别结合上下文的关联信息融合学习并得到状态向量，该状态向量再次提取到BiLSTM模型中训练后并输送到CRF模型中，所述CRF模型自动提取序列规则并完成修正后输出关键地址序列信息。

在模型训练时，调整模型复杂度对损失函数的影响来防止模型过拟合；其中，在训练的过程中每隔5个轮次，将训练的学习率调整为原来的一半。使模型能够更好的训练下去，得到最优的地址关键信息提取模型。

若输入句子由32个词组成，每个词由128维的词向量表示，则模型对应的输入是(32，128)，经过BiLSTM后隐层向量变为T1(32，128)，其中128为模型中BiLSTM的输出维度。如果不使用CRF层，则可以在模型最后加上一个全连接层用于13分类，最后取概率大的标签作为预测label(标签)。通过大量的已标注数据和模型不断迭代优化，这种方式能够学习出不错的关键地址信息提取模型。

然而，虽然依赖于神经网络强大的非线性拟合能力，理论上已经能够学习出不错的模型。但是，上述模型只考虑了标签上的上下文信息。对于序列标注任务来说，当前位置的标签L_t与前一个位置L_t-1、后一个位置L_t+1都有潜在的关系。例如，“钟/B1 园/B2路/B2 1/D1 号/D2”被标注为“钟/B1 园/E2 路/B2 1/D1号/D2”，由信息提取的标注规则可知，B1标签后只能接B2，因此上述模型利用这种标签之间的上下文信息。因此，自然语言处理领域的学者们提出了在模型后接一层CRF层，用于在整个序列上学习最优的标签序列。CRF层的加入会减少标注时出现的一些不必要错误，比如：1、B1后面出现了非B2的标注；2、E2出现在最开始等一系列问题；总之这一类错误是数据标注中不可能出现的错误，脱离了实际，为了处理这一类问题在BiLSTM模型中加入了CRF层，可以避免一些不切实际的结果，有效的提高了模型的准确率。

至此，已经大致了解BiLSTM-CRF模型。对于地址关键信息提取任务，当前词的标签基本上只与前几个和和几个词有关联。BiLSTM在学习较长句子时，可能因为模型容量问题丢弃一些重要信息，因此我在模型中加了一个CNN层，用于提取当前词的局部特征。

设句子输入维度为(32，100)，经过等长卷积后得到T2(32，50)，其中50为卷积核个数。对于当前词对应的50维向量中，包含了其局部上下文信息。我们将T1与T2拼接，得到T3(32，178)，T3通过全连接层得到T4(32，13)，T4输入至CRF层，计算最终最优序列。

在机器学习和深度学习的过程中，花费在数据处理上的时间是必不可少的，因为数据的准备的结果会直接对模型的结果造成影响，而对数据的预处理过程常常被称为特征工程。针对本次模型的数据处理过程进行介绍。

考虑了中文地址的长度问题，每条地址的长度几乎的小于32，对数据超过32位的地址数据进行删除，在175W的数据中大于32位的只有8条，而小于32位的地址在后的位置上使用一个类别来标注，值得注意的是地址中的无用信息也使用相同的类别来表示。总之对地址信息总共进行了13个类别的标注，对这13个类别安装0-12的数字进行相应的标注，并将相应的类别数字进行One_Hot函数变换，这样就将标签数据处理成为满足模型输入的形式，同时对原始的地址数据使用词袋模型进行处理。考虑了在新的地址中没有出现过的字的处理，将词袋中未出现的统一标注成为一个词袋中未出现的数字，避免测试数据的做词袋表示的时候出现错误；这样整个数据预处理的过程全部结束。

在训练一个深度学习模型，最大的问题是过拟合问题，可以使网络在提供的数据上可以稳步的训练下去，在模型训练时，使用了多种方式来防止模型过拟合问题，并且在训练的过程中每隔5个轮次，将训练的学习率调整为原来的一半，使模型能够更好的训练下去，得到最优的地址关键信息提取模型。

对测试集上的数据作和训练集上相同的数据处理，处测量得到的模型准确率。在测试集上的准确率达到0.9997，可能是因为地址数据的规律简单，准确率才会如此的高。由于输入的地址存在对残缺和歧义的情况，但该模型可以对残缺和歧义词进行有效的提取，例如：苏州业园区和苏州公业圆区在使用模型进行提取时，两者会被当成一个整体，保证在地址中提取信息的准确性。

对于一个训练模型来说，在复杂的地址数据，地址模型预测的结果可能会出现错误，对于错误的分词结果可以采用重训练的方式来进行调整，提高了训练模型的实用性和准确率。

Claims

1.一种基于深度学习的地址数据解析方法，其特征在于，包括：

将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据；

构建BiLSTM-CNN-CRF模型进行训练；

将所述的地址训练数据按序排列，通过词嵌入确定词段结构关联性，并输出相应的词向量；

通过BiLSTM模型和CNN模型将所述词向量按正向序列和反向序列分别结合上下文的关联信息融合学习并得到状态向量，该状态向量再次提取到BiLSTM模型中训练后并输送到CRF模型中，所述CRF模型自动提取序列规则并完成修正后输出关键地址序列信息；

在模型训练时，调整模型复杂度对损失函数的影响来防止模型过拟合；其中，在训练的过程中每隔5个轮次，将训练的学习率调整为原来的一半。