CN112612940A

CN112612940A - 地址信息解析方法、装置、设备及存储介质

Info

Publication number: CN112612940A
Application number: CN202011544487.1A
Authority: CN
Inventors: 赵焕丽; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-06
Also published as: WO2022134592A1

Abstract

本发明涉及人工智能领域，公开了一种地址信息解析方法、装置、设备及存储介质，用于将用户上传的待识别地址文本转化为标准地址文本，该方法包括：利用网页爬虫工具从预设的数据源中爬取原始地址数据；从原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并进行标注，得到模型训练数据；根据模型训练数据和预设的神经网络，训练得到地址信息解析模型；获取用户上传的待识别地址文本，并将待识别地址文本输入至地址信息解析模型中，获得待识别地址文本中各字符的行政区划标注；根据待识别地址文本中各字符的行政区划标注，将待识别地址文本转化为标准地址文本。此外，本发明还涉及区块链技术，所述待识别地址文本可存储于区块链中。

Description

地址信息解析方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种地址信息解析方法、装置、设备及存储介质。

背景技术

基于位置信息的服务在人们的生活中应用越来越广泛，根据文本地址表达快速准确地查找其地理坐标的需求日益增长。一个规范的中文地址应包含完整的行政区划，并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室的次序来表达，特征字明显，利用中文地址切分算法可解析，从而可以准确地与该地址的地理位置对应。

然而，中文地址的非规范化表述造成位置语义信息模糊或歧义性,妨碍了计算机直接理解此地址信息所描述的地理位置,使得这样的中文地址信息不能够被计算机直接用于位置服务。现有的地址解析算法(中文地址要素切分方法、词库匹配法、特征字切分法等)依赖于地址规范性、特征字以及地址词典，无法很好地解决非规范的中文地址问题，使得这样的中文地址信息不能够被计算机直接用于位置服务。

发明内容

本发明的主要目的在于解决现有的地址解析算法依赖于地址规范性、特征字以及地址词典导致解析非规范的中文地址准确率低的技术问题。

本发明第一方面提供了一种地址信息解析方法，包括：

利用网页爬虫工具从预设的数据源中爬取原始地址数据；

从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对所述地址表述数据进行标注，得到模型训练数据；

根据所述模型训练数据和预设的神经网络，训练得到地址解析模型；

获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注；

根据所述待识别地址文本中各字符的行政区划标注，将所述待识别地址文本转化为标准地址文本。

可选的，在本发明第一方面的第一种实现方式中，所述根据所述模型训练数据和预设的神经网络，训练得到地址解析模型包括：

将所述模型训练数据输入至所述神经网络中的嵌入层中，将所述模型训练数据中的每个字符转化为字向量；

将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入，得到所述模型训练数据的隐输出序列；

将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中个字符的标注，并与所述模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型。

可选的，在本发明第一方面的第二种实现方式中，所述将所述模型训练数据输入至所述神经网络中的嵌入层中，将所述模型训练数据中的每个字符转化为字向量包括：

将所述模型训练数据中的每个字符转化独热码向量；

将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的字向量。

可选的，在本发明第一方面的第三种实现方式中，所述将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入，得到所述模型训练数据的隐输出序列包括：

将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入得到正向长短期记忆网络输出的隐状态序列和反向长短期记忆网络输出的隐状态序列；

将所述正向长短期记忆网络输出的隐状态序列和所述反向长短期记忆网络输出的隐状态序列进行拼接，得到完整的隐输出序列。

可选的，在本发明第一方面的第四种实现方式中，在所述将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注之后，还包括：

根据所述模型训练数据中各字符的标注，获得所述模型训练数据的行政区划序列；

判断所述行政区划序列中，是否出现标注类型相同的至少两段行政区划标注片段，其中，所述行政区划片段为连续相同的行政区划标注构成的片段；

若是，则对比较标注类型相同的行政区划标注片段在所述行政区划序列中的位置，并对标注类型相同的行政区划标注片段中位置靠后的行政区划标注片段中的行政区划标注进行重新预测。

可选的，在本发明第一方面的第五种实现方式中，在所述将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注之后，还包括：

根据所述行政区划序列中行政区划标注的排列顺序，判断所述行政区划序列是否存在错误；

若是，则对所述行政区划序列中字符的行政区划标注进行重新预测。

可选的，在本发明第一方面的第六种实现方式中，其特征在于，在所述获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注之后，还包括：

建立初始为空的字符缓存区，按照所述待识别地址文本的字符顺序处理所述待识别地址文本中的每个字符；

将所述待识别地址文本的第一字符存入所述字符缓存区，并确定所述第一字符的行政区划标注；

判断所述第一字符的行政区划标注与第二字符的行政区划标注是否相同；

若相同，则将所述第二字符存入所述字符缓存区；

若不相同，则将所述第一字符输出，并清空所述字符缓存区，并进行下一字符的处理；

将所述字符缓存区输出的相同行政区划标注的字符拼接。

本发明第二方面提供了一种地址信息解析装置，包括：

数据爬取模块，用于利用网页爬虫工具从预设的数据源中爬取原始地址数据；

筛选模块，用于从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对所述地址表述数据进行标注，得到模型训练数据；

模型训练模块，用于根据所述模型训练数据和预设的神经网络，训练得到地址解析模型；

模型输入模块，用于获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注；

标准转化模块，用于根据所述待识别地址文本中各字符的行政区划标注，将所述待识别地址文本转化为标准地址文本。

可选的，在本发明第二方面的第一种实现方式中，所述模型训练模块包括：

向量转化单元，用于将所述模型训练数据输入至所述神经网络中的嵌入层中，将所述模型训练数据中的每个字符转化为字向量；

序列单元，用于将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入，得到所述模型训练数据的隐输出序列；

标注预测单元，用于将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注，并与所述模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型。

可选的，在本发明第二方面的第二种实现方式中，所述向量转化单元具体用于：

将所述模型训练数据中的每个字符转化独热码向量；

可选的，在本发明第二方面的第三种实现方式中，所述序列单元具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述模型训练模块还包括第一重测单元，所述第一重测单元具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述模型训练模块还包括第二重测单元，所述第二重测单元具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述地址信息解析装置还包括字符连接模块，所述字符连接模块具体用于：

若相同，则将所述第二字符存入所述字符缓存区；

将所述字符缓存区输出的相同行政区划标注的字符拼接。

本发明第三方面提供了一种地址信息解析设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述地址信息解析设备执行上述的地址信息解析方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的地址信息解析方法的步骤。

本发明的技术方案中，通过利用网页爬虫工具从预设的数据源中爬取原始地址数据；从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对所述地址表述数据进行标注，得到模型训练数据；根据所述模型训练数据和预设的神经网络，训练得到地址解析模型；获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注；根据所述待识别地址文本中各字符的行政区划标注，将所述待识别地址文本转化为标准地址文本。通过本方法，可使计算机抽取整个地址的语义特征，并考虑前后字符行政区划的划分结果，实现非规范化地址的多级行政区划解析。相比现有的地址解析算法，此方案不依赖于地址规范性、特征字以及地址词典，因此可处理多样化的非规范表达。基于深度模型的方法还可学习到已有数据中的命名与切分规律，并应用于模型推断，可提升非规范的中文地址解析效果，使得这样的中文地址信息能够被计算机直接用于位置服务。此外，本发明还涉及区块链技术，原始地址数据可存储于区块链中。

附图说明

图1为本发明实施例中地址信息解析方法的第一个实施例示意图；

图2为本发明实施例中地址信息解析方法的第二个实施例示意图；

图3为本发明实施例中地址信息解析方法的第三个实施例示意图；

图4为本发明实施例中地址信息解析方法的第四个实施例示意图；

图5为本发明实施例中地址信息解析装置的一个实施例示意图；

图6为本发明实施例中地址信息解析装置的另一个实施例示意图；

图7为本发明实施例中地址信息解析设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中地址信息解析方法的第一个实施例包括：

101、利用网页爬虫工具从预设的数据源中爬取原始地址数据；

可以理解的是，本发明的执行主体可以为地址信息解析装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

需要强调的是，为保证数据的私密和安全性，上述原始地址数据可以存储于一区块链的节点中。

在本实施例中，所述预设的数据源可以是一些官方资讯网站或者已公开地址库，对数据源中的地址数据进行爬取，作为原始地址数据，这些原始地址数据中多为中文地址，这些中文地址可能存在不规范，与标准行政区域划分不相同，例如“徐汇凯宾路”中省略行政区划特征词“区”，“上海市凯滨路”中间省略部分行政划分“徐汇区”，行政区划信息层次杂乱、“区美幼儿园”的“区”字导致地址的非行政区划部分与行政区划同名等。

在本实施例中，通过数据源爬取出上百万条原始地址数据后，进行第一步筛除，主要通过判断原始地址数据中的字符是否为UTF-8编码的字符，将其中的非UTF-8编码的字符，例如表情符进行删除，得到标准的原始地址数据。

102、从原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对地址表述数据进行标注，得到模型训练数据；

在本实施例中，所述预设长度区间根据具体的应用场景有关，一般设置为7-20之间，对于地址要求较为详尽完整的应用场景，可以适当调整区间的范围，在技术层面上，字符长度是一个可以配置的参数，字符的长度对后续的模型训练流程无影响，因此只需要在不同的应用场景前，进行修改配置即可，一般模型要求最长不超过128个字符。

在本实施例中，所述标注主要是通过人工进行标注，标注的标签主要为行政区划，包括“省”、“市”、“区县”、“乡镇”、“街道”、“道路”、“门牌号”、“村”、“建筑名”、“其他”等10级，其中，“省”包括：省、直辖市、自治区、特别行政区；“市”包括地级市、地区、自治州、盟；“区县”包括市辖区、县级市、县、旗、特区、林区；“乡镇”包括镇、乡、民族乡、苏木、民族苏木、县辖区，区公所；“街道”与“乡镇”相同属于乡级行政区；“道路”：道路、街、巷，其他的标注标签和标准名相同。

在本实施例中，人工标注对地址表述数据中的每个字符均进行标注，例如，对于“广东省深圳市”可对每个字符分别标注“省省省市市市”，模型训练数据可以整理成以下格式，“广东省/省深圳市/市宝安区/区西乡街道/街道南昌第二新村/村X巷/道路X号/门牌号”，模型训练数据中的每个字符均有相对应的标注。

103、根据模型训练数据和预设的神经网络，训练得到地址解析模型；

在本实施例中，所述预设的神经网络为Bi-LSTM-CRF神经网络，所述Bi-LSTM-CRF包括三层神经网络，分别为Embedding层、Bi-LSTM层和CRF层，其中Embedding层为嵌入层，通过Embedding层能够将输入的模型训练数据中的每个字符映射成低维空间上的向量，字向量是对文本中各个字符的分布式表示，通过空间中的低维向量向计算机传达语义，Bi-LSTM层为双向长短期记忆网络层，双向长短期记忆网络包含前向LSTM与后向LSTM两组模块，可获取上下文长时间长范围的相关联依赖关系，捕获前后文实体特征，获取更多实体之间的时空相关性，并能从两个方向上排除干扰实体等噪声对神经网络模型的影响，极大助力对长期依赖关系的挖掘，条件随机场(conditional random fields)是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。条件随机场为具有无向的图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X。原则上，条件随机场的图模型布局是可以任意给定的，一般常用的布局是链结式的架构，链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上，都存在效率较高的算法可供演算。Bi-LSTM的优势是能够记住上下文信息，极大助力对长期依赖关系的挖掘，对语义理解有很大的帮助，但如果直接用它来进行标注任务，就会有一个问题，Bi-LSTM属于时序模型，所以它的输出只针对当前字符，属于局部最优解。而条件随机场则对模板的要求很高，覆盖全面的模板才能够让模型学到很多上下文的信息，但往往会有模板覆盖不全的情况出现。Bi-LSTM可以获取上下文的信息，但需要的是一个求解的模型，而条件随机场可以生成全局最优解，但它需要上下文的信息，因此，本发明结合Bi-LSTM和条件随机场这两个模型，来构建一个优势互补的完整模型。

104、获取用户上传的待识别地址文本，并将待识别地址文本输入至地址解析模型中，获得待识别地址文本中各字符的行政区划标注；

在本实施例中，在获得地址解析模型后，即可使用所述地址解析模型对用户输入的不同的待识别地址进行解析识别，例如用户输入“重庆巫溪塘坊镇塘坊村一社”，输入模型后，模型对其中的每个字符进行标注，分别为“省省区县区县乡镇乡镇乡镇村村村其他”。

105、根据待识别地址文本中各字符的行政区划标注，将待识别地址文本转化为标准地址文本；

在本实施例中，在相同标注的字符进行拼接，得到每类标注的行政区划的名称，例如将“重”“庆”两个字符的标注都是“省省”，则将两者进行拼接，得到重庆，后续字符以此类推，在确定“重庆”为“省”后，在34个省级行政区中进行匹配，确定重庆是省、自治区、直辖市、特别行政区中的哪一类，重庆为直辖市，则在重庆后添加字符“市”，并从重庆市下的40个行政区县进行匹配，以此类推，即可将待识别地址文本“重庆巫溪塘坊镇塘坊村一社”解析识别为标准地址文本“重庆市巫溪县塘坊镇塘坊村一社”。

在本实施例中，通过利用网页爬虫工具从预设的数据源中爬取原始地址数据；从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对所述地址表述数据进行标注，得到模型训练数据；根据所述模型训练数据和预设的神经网络，训练得到地址解析模型；获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注；根据所述待识别地址文本中各字符的行政区划标注，将所述待识别地址文本转化为标准地址文本。通过本方法，可使计算机抽取整个地址的语义特征，并考虑前后字符行政区划的划分结果，实现非规范化地址的多级行政区划解析。相比现有的地址解析算法，此方案不依赖于地址规范性、特征字以及地址词典，因此可处理多样化的非规范表达。基于深度模型的方法还可学习到已有数据中的命名与切分规律，并应用于模型推断，可提升非规范的中文地址解析效果，使得这样的中文地址信息能够被计算机直接用于位置服务。此外，本发明还涉及区块链技术，原始地址数据可存储于区块链中。

请参阅图2，本发明实施例中地址信息解析方法的第二个实施例包括：

201、利用网页爬虫工具从预设的数据源中爬取原始地址数据；

202、从原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对地址表述数据进行标注，得到模型训练数据；

本实施例中的步骤201-202与第一实施例中的步骤101-102相似，此处不再赘述。

203、将模型训练数据中的每个字符转化独热码向量；

204、将模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的字向量；

在本实施例中，所述独热码为one-hot，在将模型训练数据中的每个字符转化字向量的过程中需要先将模型训练数据中的每个字符转化one-hot向量，这是因为Embedding层是以one-hot为输入、中间层节点数为词向量维数的全连接层，独热码向量通过预训练好的向量矩阵的向量矩阵转化为低维稠密的字向量，解决了词汇鸿沟和维度灾难的问题。

205、将字向量输入作为神经网络中的双向长短期记忆网络层各个时间步的输入得到正向长短期记忆网络输出的隐状态序列和反向长短期记忆网络输出的隐状态序列；

206、将正向长短期记忆网络输出的隐状态序列和反向长短期记忆网络输出的隐状态序列进行拼接，得到完整的隐输出序列；

在本实施例中，所述经过Bi-LSTM层进行编码处理包括：Bi-LSTM层自动提取句子特征，将一个句子的各个字的char embedding序列(x1,x2,x3,…,xn)作为Bi-LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列

与反向LSTM的在各个位置输出的隐状态

进行按位置拼接得到完整的隐输出序列：Bi-LSTM层的输出为字的每一个标签分值，最后通过挑选标签分值最高的作为该字的标签。

207、将隐输出序列输入至神经网络中的条件随机场层，预测模型训练数据中各字符的标注；

208、根据模型训练数据中各字符的标注，获得模型训练数据的行政区划序列；

在本实施例中，条件随机场层预测所述模型训练数据中各字符的标注后，将模型训练数据中每个字符的行政区划标注连接，即可得到行政区划序列，例如条件随机场层预测模型训练数据“上海省上海市上海静安嘉里中心”中每个字符的行政区划标注后得到的行政区划序列“省省省市市市建筑建筑建筑建筑建筑建筑建筑建筑”。

209、判断行政区划序列中，是否出现标注类型相同的至少两段行政区划标注片段，其中，行政区划片段为连续相同的行政区划标注构成的片段；

210、若是，则对比较标注类型相同的行政区划标注片段在行政区划序列中的位置，并对标注类型相同的行政区划标注片段中位置靠后的行政区划标注片段中的行政区划标注进行重新预测；

在本实施例中，所述条件随机场层预测所述模型训练数据中各字符的标注可能会出现预测错误的情况，例如将预测模型训练数据“上海省上海市上海静安嘉里中心”中每个字符的行政区划标注得到的行政区划序列为“省省省市市市省省建筑建筑建筑建筑建筑建筑”，出现了两段相同的行政区划标注片段“省省省”和“省省”，显然，一段地址中不可能出现间隔为相同行政区划标注的片段，需要将位置靠后的行政区划标注片段中的字符进行重新预测。

211、将条件随机场层预测模型训练数据中各字符的标注与模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型；

212、获取用户上传的待识别地址文本，并将待识别地址文本输入至地址解析模型中，获得待识别地址文本中各字符的行政区划标注；

213、根据待识别地址文本中各字符的行政区划标注，将待识别地址文本转化为标准地址文本。

本实施例中的步骤212-213与第一实施例中的步骤104-105相似，此处不再赘述。

本实施例在上一实施例的基础上，详细描述了根据所述模型训练数据和预设的神经网络，训练得到地址解析模型的过程，通过将模型训练数据输入至神经网络中的嵌入层中，将模型训练数据中的每个字符转化为字向量；将字向量输入作为神经网络中的双向长短期记忆网络层各个时间步的输入，得到模型训练数据的隐输出序列；将隐输出序列输入至神经网络中的条件随机场层，预测模型训练数据中各字符的标注，并与模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型。同时增加了对隐输出序列输入至神经网络中的条件随机场层，预测模型训练数据中各字符的标注后对标注进行后处理的过程，通过根据模型训练数据中各字符的标注，获得模型训练数据的行政区划序列；判断行政区划序列中，是否出现标注类型相同的至少两段行政区划标注片段，其中，行政区划片段为连续相同的行政区划标注构成的片段；若是，则对比较标注类型相同的行政区划标注片段在行政区划序列中的位置，并对标注类型相同的行政区划标注片段中位置靠后的行政区划标注片段中的行政区划标注进行重新预测。

请参阅图3，本发明实施例中地址信息解析方法的第三个实施例包括：

301、利用网页爬虫工具从预设的数据源中爬取原始地址数据；

302、从原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对地址表述数据进行标注，得到模型训练数据；

303、将模型训练数据输入至神经网络中的嵌入层中，将模型训练数据中的每个字符转化为字向量；

304、将字向量输入作为神经网络中的双向长短期记忆网络层各个时间步的输入，得到模型训练数据的隐输出序列；

305、将隐输出序列输入至神经网络中的条件随机场层，预测模型训练数据中各字符的标注；

306、根据模型训练数据中各字符的标注，获得模型训练数据的行政区划序列；

307、根据行政区划序列中行政区划标注的排列顺序，判断行政区划序列是否存在错误；

308、若是，则对行政区划序列中字符的行政区划标注进行重新预测；

在本实施例中，对CRF层的输出需要进行后处理，包括将标注相邻的行政区划对应的字符进行拼接，可能出现错误的判定情况，例如对于对于“上海省上海市上海静安嘉里中心”可能会对每个字符标注成“省省省市市市省省建筑建筑建筑建筑建筑建筑”，根据正常地址中行政区划的排列顺序，“省”应该在“市”前，但在行政区划标注片段“省省省市市市省省建筑建筑建筑建筑建筑建筑”中出现了“省”在“市”后的情况，故条件随机场层预测模型训练数据中各字符的标注出现错误，需要重新进行预测。

309、将条件随机场层预测模型训练数据中各字符的标注与模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型；

在本实施例中需要先将所述模型训练数据中每个字符转化为one-hot向量，再将one-hot向量转换成字向量的形式，字向量是对文本中各个字符的分布式表示，通过空间中的低维向量向计算机传达语义。将模型训练数据输入至神经网络的Embedding层的到字向量形式的输出后，将字向量输入至Bi-LSTM层，Bi-LSTM神经网络适用于序列标注任务，它针对输入序列中的每个字向量执行相同的运算，此处的运算是矩阵相乘，将高维矩阵(例如300维)线性映射为低维矩阵(128维)，矩阵的每一维表示一个特征，因此此运算可删除无用特征。每步运算依赖于前一步的计算结果，同时编码进上下文的特征，此次的编码的具体实现是前一步的运算结果(此处为特征)作为下一步的输入。例如前一步对“上”字抽取出特征h_{t-1}，下一步对“海”字抽取特征的运算为f(x_t,h_{t-1})＝h_t，其中x_t为“海”字本身特征，f为运算使用的函数，h_t为“海”字最终抽取的特征。因此抽取当前步特征时，前一步的特征也参与运算，即所谓的“编码上文特征”。对下文特征进行类似操作。将编码进上下文的特征作为每个字符抽取的所有特征输出。将Bi-LSTM层的输入作为CRF层的输入，Bi-LSTM输出的特征没有考虑前一步标签对当前步标签的影响，比如当前字为“巫”，前面2个字“重庆”为市名，则“巫溪”大概率应为区县名或乡镇名。因此在Bi-LSTM的输出层拼接CRF层(条件随机场)，这样Bi-LSTM的输出序列就变成了CRF层的观测序列，然后CRF计算整个序列在概率上的最优解，考虑到了序列标签之间的相互影响。CRF的输出标签序列分别与输入地址的每个字符对应。

310、获取用户上传的待识别地址文本，并将待识别地址文本输入至地址解析模型中，获得待识别地址文本中各字符的行政区划标注；

311、根据待识别地址文本中各字符的行政区划标注，将待识别地址文本转化为标准地址文本。

本实施例在前实施例的基础上，增加了对条件随机场层，预测所述模型训练数据中各字符的标注进行错误判断的过程，通过根据所述模型训练数据中各字符的标注，获得所述模型训练数据的行政区划序列；根据所述行政区划序列中行政区划标注的排列顺序，判断所述行政区划序列是否存在错误；若是，则对所述行政区划序列中字符的行政区划标注进行重新预测。通过本方法，能够将对条件随机场层预测模型训练数据中各字符的标注出现的错误进行纠正，提高模型训练的效率。

请参阅图4，本发明实施例中地址信息解析方法的第四个实施例包括：

401、利用网页爬虫工具从预设的数据源中爬取原始地址数据；

402、从原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对地址表述数据进行标注，得到模型训练数据；

403、根据模型训练数据和预设的神经网络，训练得到地址解析模型；

404、获取用户上传的待识别地址文本，并将待识别地址文本输入至地址解析模型中，获得待识别地址文本中各字符的行政区划标注；

本实施例中的步骤401-404与第一实施例中的步骤101-104相似，此处不再赘述。

405、建立初始为空的字符缓存区，按照待识别地址文本的字符顺序处理待识别地址文本中的每个字符；

406、将待识别地址文本的第一字符存入字符缓存区，并确定第一字符的行政区划标注；

407、判断第一字符的行政区划标注与第二字符的行政区划标注是否相同；

408、若相同，则将第二字符存入字符缓存区；

409、若不相同，则将第一字符输出，并清空字符缓存区，并进行下一字符的处理；

410、将字符缓存区输出的相同行政区划标注的字符拼接；

在本实施例中，设置有初始为空的字符缓存区，将进行标注后的待识别地址文本中的字符按照文本本身的顺序存入字符缓存区中，例如上图中的“重庆巫溪塘坊镇塘坊村一社”，首先将“重”置入字符缓存区中，并判断“重”与“庆”是否为相同的行政区划标注，由于“重”与“庆”都是“省”的行政区划标注，所以将“庆”存入字符缓存区，并判断“庆”与“巫”是否为相同的行政区划标注，“巫”为“区县”的行政区划标注，与“庆”不同，所以将字符缓存区中的“重”和“庆”两个字符取出，拼接得到“重庆”，通过对每个字符的处理，将“重庆巫溪塘坊镇塘坊村一社”划分为“重庆”“巫溪”“塘坊镇”“塘坊村”“一社”，通过这样的划分，方便后续将待识别地址文本转化为标注地址文本。

411、根据待识别地址文本中各字符的行政区划标注，将待识别地址文本转化为标准地址文本。

本实施例在前实施例的基础上，增加了对待识别地址文本中连续相同行政区划标注的字符进行拼接的过程，通过建立初始为空的字符缓存区，按照所述待识别地址文本的字符顺序处理所述待识别地址文本中的每个字符；将所述待识别地址文本的第一字符存入所述字符缓存区，并确定所述第一字符的行政区划标注；判断所述第一字符的行政区划标注与第二字符的行政区划标注是否相同；若相同，则将所述第二字符存入所述字符缓存区；若不相同，则将所述第一字符输出，并清空所述字符缓存区，并进行下一字符的处理；将所述字符缓存区输出的相同行政区划标注的字符拼接。通过本方法中的连续相同行政区划标注的字符进行拼接，方便后续将待识别地址文本转化为标注地址文本。

上面对本发明实施例中地址信息解析方法进行了描述，下面对本发明实施例中地址信息解析装置进行描述，请参阅图5，本发明实施例中地址信息解析装置一个实施例包括：

数据爬取模块501，用于利用网页爬虫工具从预设的数据源中爬取原始地址数据；

筛选模块502，用于从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对所述地址表述数据进行标注，得到模型训练数据；

模型训练模块503，用于根据所述模型训练数据和预设的神经网络，训练得到地址解析模型；

模型输入模块504，用于获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注；

标准转化模块505，用于根据所述待识别地址文本中各字符的行政区划标注，将所述待识别地址文本转化为标准地址文本。

需要强调的是，为保证数据的私密和安全性，上述待识别地址文本可以存储于一区块链的节点中。

本发明实施例中，所述地址信息解析装置运行上述地址信息解析方法，所述地址信息解析方法包括：利用网页爬虫工具从预设的数据源中爬取原始地址数据；从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据，并对所述地址表述数据进行标注，得到模型训练数据；根据所述模型训练数据和预设的神经网络，训练得到地址解析模型；获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注；根据所述待识别地址文本中各字符的行政区划标注，将所述待识别地址文本转化为标准地址文本。通过本方法，可使计算机抽取整个地址的语义特征，并考虑前后字符行政区划的划分结果，实现非规范化地址的多级行政区划解析。相比现有的地址解析算法，此方案不依赖于地址规范性、特征字以及地址词典，因此可处理多样化的非规范表达。基于深度模型的方法还可学习到已有数据中的命名与切分规律，并应用于模型推断，可提升非规范的中文地址解析效果，使得这样的中文地址信息能够被计算机直接用于位置服务。此外，本发明还涉及区块链技术，原始地址数据可存储于区块链中。

请参阅图6，本发明实施例中地址信息解析装置的第二个实施例包括：

其中，所述模型训练模块503包括：

向量转化单元5031，用于将所述模型训练数据输入至所述神经网络中的嵌入层中，将所述模型训练数据中的每个字符转化为字向量；

序列单元5032，用于将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入，得到所述模型训练数据的隐输出序列；

标注预测单元5033，用于将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注，并与所述模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型。

可选的，所述向量转化单元5031具体用于：

将所述模型训练数据中的每个字符转化独热码向量；

可选的，所述序列单元5032具体用于：

可选的，所述模型训练模块还包括第一重测单元5034，所述第一重测单元5034具体用于：

可选的，所述模型训练模块还包括第二重测单元5035，所述第二重测单元5035具体用于：

其中，所述地址信息解析装置还包括字符连接模块506，所述字符连接模块506具体用于：

若相同，则将所述第二字符存入所述字符缓存区；

将所述字符缓存区输出的相同行政区划标注的字符拼接。

本实施例在上一实施例的基础上，详细描述了各个模块的具体功能以及部分模块的单元构成，通过本装置，可使计算机抽取整个地址的语义特征，并考虑前后字符行政区划的划分结果，实现非规范化地址的多级行政区划解析。相比现有的地址解析算法，不依赖于地址规范性、特征字以及地址词典，因此可处理多样化的非规范表达。基于深度模型的方法还可学习到已有数据中的命名与切分规律，并应用于模型推断，可提升非规范的中文地址解析效果，使得这样的中文地址信息能够被计算机直接用于位置服务。

上面图5和图6从模块化功能实体的角度对本发明实施例中的中地址信息解析装置进行详细描述，下面从硬件处理的角度对本发明实施例中地址信息解析设备进行详细描述。

图7是本发明实施例提供的一种地址信息解析设备的结构示意图，该地址信息解析设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对地址信息解析设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在地址信息解析设备700上执行存储介质730中的一系列指令操作，以实现上述地址信息解析方法的步骤。

地址信息解析设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作***731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的地址信息解析设备结构并不构成对本申请提供的地址信息解析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述地址信息解析方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种地址信息解析方法，其特征在于，所述地址信息解析方法包括：

利用网页爬虫工具从预设的数据源中爬取原始地址数据；

2.根据权利要求1所述的地址信息解析方法，其特征在于，所述根据所述模型训练数据和预设的神经网络，训练得到地址解析模型包括：

将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注，并与所述模型训练数据原有的标注进行比对和迭代，得到最终预训练的地址解析模型。

3.根据权利要求2所述的地址信息解析方法，其特征在于，所述将所述模型训练数据输入至所述神经网络中的嵌入层中，将所述模型训练数据中的每个字符转化为字向量包括：

将所述模型训练数据中的每个字符转化独热码向量；

4.根据权利要求3所述的地址信息解析方法，其特征在于，所述将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入，得到所述模型训练数据的隐输出序列包括：

5.根据权利要求4所述的地址信息解析方法，其特征在于，在所述将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注之后，还包括：

6.根据权利要求4所述的地址信息解析方法，其特征在于，在所述将所述隐输出序列输入至所述神经网络中的条件随机场层，预测所述模型训练数据中各字符的标注之后，还包括：

7.根据权利要求1-6中任一项所述的地址信息解析方法，其特征在于，在所述获取用户上传的待识别地址文本，并将所述待识别地址文本输入至所述地址解析模型中，获得所述待识别地址文本中各字符的行政区划标注之后，还包括：

若相同，则将所述第二字符存入所述字符缓存区；

将所述字符缓存区输出的相同行政区划标注的字符拼接。

8.一种地址信息解析装置，其特征在于，所述地址信息解析装置包括：

9.一种地址信息解析设备，其特征在于，所述地址信息解析设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述地址信息解析设备执行如权利要求1-7中任一项所述的地址信息解析方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的地址信息解析方法的步骤。