CN103914544A - 一种基于地址特征词的多层次快速中文地址匹配方法 - Google Patents

一种基于地址特征词的多层次快速中文地址匹配方法 Download PDF

Info

Publication number
CN103914544A
CN103914544A CN201410134887.3A CN201410134887A CN103914544A CN 103914544 A CN103914544 A CN 103914544A CN 201410134887 A CN201410134887 A CN 201410134887A CN 103914544 A CN103914544 A CN 103914544A
Authority
CN
China
Prior art keywords
address
chinese
matching
name
even numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410134887.3A
Other languages
English (en)
Inventor
杜震洪
张丰
刘仁义
徐聪
张逸然
郑晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410134887.3A priority Critical patent/CN103914544A/zh
Publication of CN103914544A publication Critical patent/CN103914544A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于地址特征词的多层次快速中文地址匹配方法,属于地理信息科学的数据空间化研究领域。本发明所述方法具体包括标准中文地址匹配词典构建和地址匹配两个环节,以地址特征词为分词依据对标准中文地址进行中文分词,并采用双数组trie树和哈希运算完成标准中文地址匹配词典的构建,采用双向扫描及哈希运算代替数据库检索的方式,获取待匹配中文地址的地理空间坐标,完成地址匹配。本发明的优点在于能够在计算机内存中完成整个地址匹配过程,并采用双向扫描和边分词边匹配的方式,提高了地址匹配的匹配速率。同时,根据中文地址的分类、分层及组合规则,解决了部分中文地址由于地址要素缺失无法完成地址匹配的问题,提高了地址匹配的准确度。

Description

一种基于地址特征词的多层次快速中文地址匹配方法
技术领域
本发明属于数据空间化研究领域。尤其涉及一种基于地址特征词的多层次快速中文地址匹配方法。
背景技术
数字城市是以空间信息为核心的城市信息***体系,在数字城市信息资源的集成和融合中,地址匹配技术作为核心技术,承担着将各个行业大量自然语言描述的空间位置信息转换成地理空间坐标的任务。因此,地址匹配速率及其准确度将对数字城市的建设产生重大而深远的影响。
目前,常用的中文地址匹配方法主要有全文索引、中文分词、地址分级别匹配、正则表达式匹配和模糊地址匹配。赵阳阳等提出基于地址要素识别机制的地址分词方法,在最大正向扫描匹配方法的基础上增加了基于地址要素的识别机制,提高了中文地址分词的准确度,但其匹配速率却出现很大程度的下降。唐静在中文地址编码的研究中利用中文地址的分段、组合和优先规则,对中文地址进行分段匹配,这些规则在一定程度上减少了地址要素的匹配次数,但由于该方法在地址匹配过程中需要与数据库不断进行交互,该方法总体匹配速率较慢。洪莹提出基于双数组trie树和地址要素编码查询的地址匹配方法。该方法先采用双数组trie树对中文地址进行中文分词,并根据其自定义的编码规则获取中文地址分词结果所对应的地址要素编码,然后根据地址要素编码在标准地址数据库中查询具体的地理空间坐标。与其它中文地址分词方法相比,该方法在分词速率方面较快,但还需要通过标准地址数据库查询地理空间坐标,因此,该方法总体速率受到很大的限制。姚心宇尝试运用主特征词及副特征词对地址进行标记,并通过汉字相似度和拼音相似度的计算方式提高地址的匹配率,但该学者并没有对地址匹配速率问题进行深入的研究。程昌秀等采用边分词边匹配的模糊中文分词方法,减少了地址字符串的比较次数,但由于其还是在数据库中查询地理空间坐标,其匹配速率明显慢于双数组trie树分词。张倩等提出基于有限状态机和trie树的分级地址模型,解决了部分地址命名不规范和地址跳跃问题,但对地址匹配速率问题并没有深入讨论。以上研究提出了许多提高地址匹配准确度的解决方法,但对地址匹配速率的研究并不深入。因此,面对当前大规模数量的地址匹配请求,如何快速批量完成地址匹配任务是数据空间化研究领域的一个亟待解决的科学问题。
发明内容
本发明的目的是克服现有技术的不足,提出一种基于地址特征词的多层次快速中文地址匹配方法。
基于地址特征词的多层次快速中文地址匹配方法包括如下步骤:
1)从标准中文地址数据库中读入所有标准中文地址的记录,包括每一个标准中文地址的地理空间坐标x值、y值;
2)根据中文地址的分类规则,以地址特征词为分词依据对标准中文地址进行正向扫描中文分词,将中文分词所获得的5类地址要素***到对应的5类双数组trie树中;
3)从5类双数组trie树中获取标准中文地址所对应的地址编码元素集合,按照最小代价原则,以中文地址的分层和组合规则为依据对地址编码元素进行组合和排列,获取唯一表示该标准中文地址的4个地址编码,对这4个地址编码进行哈希运算,将该标准中文地址的地理空间坐标存储在哈希表中其哈希函数值对应的位置上,对所有标准中文地址依次进行步骤2)~步骤3)的操作,完成标准中文地址匹配词典构建;
4)读取待匹配中文地址字符串,分别赋值S1和S2,同时进行正向扫描匹配和逆向扫描匹配;
5)判断正向扫描匹配和逆向扫描匹配是否成功,若正向扫描匹配或逆向扫描匹配失败,返回步骤4);若正向扫描匹配和逆向扫描匹配成功,获取对应匹配结果的地址编码组合T1和T2;
6)设地址编码T = T1 + T2,对T进行哈希运算,通过哈希函数值在哈希表中查找对应的地理空间坐标,若存在,获取对应地理空间坐标,地址匹配成功,若不存在,地址匹配失败,重复步骤4)~步骤6),完成所有待匹配中文地址的地址匹配。
所述的步骤2)为:
(1)中文地址的分类规则是指一个指意明确的标准中文地址由行政区划名、街巷名、小区名、门楼址名和兴趣点名这5类地址要素组成,其中地址要素是指地址字符串中一个相对独立的部分,具有明确的地址意义;
(2)正向扫描中文分词方法是一种从字符串序列起首位置开始,从左往右依次对字符串进行切分的方法;
(3)双数组trie树由base数组和check数组组成,其中base数组每一个元素表示trie树的一个节点状态,数组值为状态转移的基值,check数组表示一个状态的前驱状态,数组值为校验值,当base数组和check数组的值均为0时,该状态空闲,5类双数组trie树分别存储每一个标准地址所包含的5类地址要素,5类双数组trie树具体为行政区划双数组trie树、街巷名双数组trie树、住宅小区双数组trie树、门楼址双数组trie树和POI双数组trie树;
(4)双数组trie树的一次***操作为在构建双数组trie树时进行一次状态的转移,当状态m转移到状态n时,必须满足以下2个条件:
base[m] + c = n,
check[n] = m,
其中,m是当前状态的下标,n是转移状态的下标,c是输入字符的数值。
所述的步骤3)包括:
(1)从5类双数组trie树中获取一个标准中文地址所对应的5类地址编码元素,并按照最小代价原则,以中文地址的分层和组合规则对地址编码元素进行组合和排列,获取唯一表示标准中文地址的4个地址编码,其中地址编码元素是指每一个地址要素中最后一个字符在双数组trie树中的数组下标值,地址编码是由地址编码元素组合和排列而成;
(2)中文地址的分层规则是指按照中文地址5个地址要素的从属关系,可以将其分为三个层次,第一层次为行政区划名,包括省级、市级、县级、乡级、村级;第二层次为街巷名和小区名;第三层次为门楼址名和POI名;
(3)中文地址的组合规则是指按照中文地址的分层规则,一个标准的中文地址可以有16种指意明确的待匹配中文地址与其相匹配,其中按照最小代价原则,包含3类地址要素的4种地址表达形式为:
行政区划名/街巷名/门楼址
××省××市××区××街道××路××号;
行政区划名/街巷名/兴趣点名
××省××市××区××街道××路××小学;
行政区划名/小区名/门楼址
××省××市××区××街道××小区××号;
行政区划名/小区名/兴趣点名
××省××市××区××街道××小区××广场。
所述的步骤4)包括:
(1)正向扫描匹配首先以行政区划特征词为切分依据对S1进行正向扫描中文分词,若分词失败,正向扫描匹配失败,若分词成功,获取对应的行政区划地址编码元素,在行政区划双数组trie树中查询该地址编码元素的匹配分支,若查询成功,获取该匹配分支最后一个状态所对应的数组下标值T1,若查询失败,正向扫描匹配失败;
(2)逆向扫描匹配首先进行第三层次地址要素扫描匹配,若第三层次地址要素扫描匹配成功,再进行第二层次地址要素扫描匹配,若第二层次地址要素扫描匹配成功,逆向扫描匹配成功,若第三层次地址要素扫描匹配或第二层次地址要素扫描匹配失败,逆向扫描匹配失败;
(3)第三层次地址要素扫描匹配首先进行门楼址地址要素扫描匹配,若门楼址地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,直接进入第二层次地址要素查询匹配环节,若门楼址地址要素扫描匹配失败,进行POI地址要素扫描匹配,若POI地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,进入第二层次地址要素查询匹配环节,若POI地址要素扫描匹配失败,逆向扫描匹配失败;
(4)门楼址地址要素扫描匹配首先以门楼址特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的门楼址地址编码元素,在门楼址双数组trie树查询该地址编码元素匹配分支;
(5)POI地址要素扫描匹配首先以POI特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的POI地址编码元素,在POI双数组trie树查询该地址编码元素匹配分支;
(6)第二层次地址要素扫描匹配首先进行小区名地址要素扫描匹配,若小区名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,进行街巷名地址要素扫描匹配,若街巷名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,逆向扫描匹配失败;
(7)小区名地址要素扫描匹配首先以小区名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的小区名地址编码元素,在小区名双数组trie树查询该地址编码元素匹配分支;
(8)街巷名地址要素扫描匹配首先以街巷名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的街巷名地址编码元素,在街巷名双数组trie树查询该地址编码元素匹配分支;
(9)逆向扫描中文分词方法是一种从右往左对以地址特征词为分词依据对字符串进行切分的方法。
本发明与现有技术相比具有的有益效果:
1)本发明针对现有中文地址匹配词典构建时间过长,内存空间开销过大的不足,利用中文地址的分类、分层和组合规则,改进了标准中文地址匹配词典的构建方式,减少了标准中文地址匹配词典构建的时间和空间开销。
2)在地址匹配过程中,采用双向扫描及哈希运算代替传统与标准中文地址数据库不断交互的方式,提高了地址匹配的速率。
3)按照最小代价匹配原则,解决了现有方法对部分地址要素缺失中文地址无法进行匹配的问题,提高了地址匹配的准确度。
附图说明
图1 为本发明中一个含有行政区划信息的trie树结构示意图;
图2为本发明中地址匹配环节的流程图。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
本发明基于地址特征词的多层次快速中文地址匹配方法,地址匹配环节实现流程图如图2所示。现以“浙江省杭州市西溪街道天目山路148号”为例,对本发明的具体实施过程进行说明,其具体步骤如下:
1)从标准中文地址数据库中读入浙江省杭州市所有标准中文地址的记录,包括每一个标准中文地址的地理空间坐标x值、y值;
2)根据中文地址的分类规则,以地址特征词为分词依据对标准中文地址进行正向扫描中文分词,将中文分词所获得的5类地址要素***到对应的5类双数组trie树中;
3)从5类双数组trie树中获取标准中文地址所对应的地址编码元素集合,按照最小代价原则,以中文地址的分层和组合规则为依据对地址编码元素进行组合和排列,获取唯一表示标准中文地址的4个地址编码,对这4个地址编码进行哈希运算,将该标准中文地址的地理空间坐标存储在哈希表中其哈希函数值对应的位置上,对所有标准中文地址依次进行步骤2)~步骤3)的操作,完成标准中文地址匹配词典构建;
4)读取待匹配中文地址字符串“浙江省杭州市西溪街道天目山路148号”,分别赋值S1和S2,同时进行正向扫描匹配和逆向扫描匹配;
5)判断正向扫描匹配和逆向扫描匹配是否成功,若正向扫描匹配或逆向扫描匹配失败,返回步骤4);若正向扫描匹配和逆向扫描匹配成功,获取对应匹配结果的地址编码组合T1和T2;
6)设地址编码T = T1 + T2,对T进行哈希运算,通过哈希函数值在哈希表中查找对应的地理空间坐标,若存在,获取对应地理空间坐标,地址匹配成功,若不存在,地址匹配失败。
所述的步骤2)包括:
(1)中文地址的分类规则是指一个指意明确的标准中文地址由行政区划名、街巷名、小区名、门楼址名和兴趣点名这5类地址要素组成,其中地址要素是指地址字符串中一个相对独立的部分,具有明确的地址意义,例如:浙江省杭州市西溪街道天目山路148号就是由3类地址要素组成,分别“浙江省杭州市西溪街道”、“天目山路”、“148号”;
(2)地址特征词是指每一类地址要素所包含的相同字符串后缀,如行政区划名地址要素中的“省”、“市”、街巷名地址要素中的“路”、门楼址地址要素中的“号”等,具体每一类地址要素见表1;
表1
(3)正向扫描中文分词方法是一种从字符串序列起首位置开始,从左往右依次对字符串进行切分的方法,以获取行政区划地址要素为例,先以省级特征词为切分依据对中文地址进行切分,若切分成功,获得对应的省级地址要素,若切分失败,进入以市级特征词为切分依据的中文地址切分环节,重复上述分词环节,直到完成以村级特征词为切分依据的中文地址切分环节,对上述切分获得的地址要素依次进行连接,以获得行政区划地址要素;
(4)双数组trie树由base数组和check数组组成,其中base数组每一个元素表示trie树的一个节点状态,数组值为状态转移的基值,check数组表示一个状态的前驱状态,数组值为校验值,当base数组和check数组的值均为0时,该状态空闲,5类双数组trie树分别存储每一个标准地址所包含的5类地址要素,5类双数组trie树具体为行政区划双数组trie树、街巷名双数组trie树、住宅小区双数组trie树、门楼址双数组trie树和POI双数组trie树;
(5)双数组trie树的一次***操作其实质就在构建双数组trie树时进行一次状态的转移,当状态m转移到状态n时,其必须满足以下2个条件:
base[m] + c = n,
check[n] = m,
其中,m是当前状态的下标,n是转移状态的下标,c是输入字符的数值,
现以文二、文三这两个地址要素为例,说明如何确定每一个元素在双数组trie树中的位置。假设字符“文”对应的数组下标值为i,则base[i]的值必须满足以下条件:
base [base[i] + code[二]] = 0; 
check[base[i] + code[二]] = 0;
base [base[i] + code[三]] = 0; 
check[base[i] + code[三]] = 0;
根据上述公式计算出base[i]的值后,就可以确定字符“二”,“三”所对应的check值,其它分支节点的值可以此类推。
所述的步骤3)包括:
(1)从5类双数组trie树中获取一个标准中文地址所对应的5类地址编码元素,并按照最小代价原则,以中文地址的分层和组合规则对地址编码元素进行组合和排列,获取唯一表示标准中文地址的4个地址编码,其中地址编码元素是指每一个地址要素中最后一个字符在双数组trie树中的数组下标值,地址编码是由地址编码元素组合和排列而成;
(2)中文地址的分层规则是指按照中文地址5个地址要素的从属关系,可以将其分为三个层次,第一层次为行政区划名,包括省级、市级、县级、乡级、村级;第二层次为街巷名和小区名;第三层次为门楼址名和POI名;
(3)中文地址的组合规则是指按照中文地址的分层规则,一个标准的中文地址可以有16种指意明确的待匹配地址与其相匹配,其中按照最小代价原则,包含3类地址要素的4种地址表达形式为:
行政区划名/街巷名/门楼址
××省××市××区××街道××路××号;
行政区划名/街巷名/兴趣点名
××省××市××区××街道××路××小学;
行政区划名/小区名/门楼址
××省××市××区××街道××小区××号;
行政区划名/小区名/兴趣点名
××省××市××区××街道××小区××广场;
所述的步骤4)包括:
(1)正向扫描匹配首先以行政区划特征词为切分依据对S1进行正向扫描中文分词,获取行政区划地址要素“浙江省杭州市西溪街道”,在行政区划双数组trie树中查询该地址编码元素的匹配分支,若查询成功,获取该匹配分支最后一个状态“道”所对应的数组下标值T1,若查询失败,正向扫描匹配失败;
(2)逆向扫描匹配首先进行第三层次地址要素扫描匹配,若第三层次地址要素扫描匹配成功,再进行第二层次地址要素扫描匹配,若第二层次地址要素扫描匹配成功,逆向扫描匹配成功,若第三层次地址要素扫描匹配或第二层次地址要素扫描匹配失败,逆向扫描匹配失败;
(3)第三层次地址要素扫描匹配首先进行门楼址地址要素扫描匹配,若门楼址地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,直接进入第二层次地址要素查询匹配环节,若门楼址地址要素扫描匹配失败,进行POI地址要素扫描匹配,若POI地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,进入第二层次地址要素查询匹配环节,若POI地址要素扫描匹配失败,逆向扫描匹配失败;
(4)门楼址地址要素扫描匹配首先以门楼址特征词为切分依据对S2进行逆向扫描中文分词,获取门楼址地址编码元素“148号”,在门楼址双数组trie树查询该地址编码元素匹配分支;
(5)POI地址要素扫描匹配首先以POI特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的POI地址编码元素,在POI双数组trie树查询该地址编码元素匹配分支;
(6)第二层次地址要素扫描匹配首先进行小区名地址要素扫描匹配,若小区名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,进行街巷名地址要素扫描匹配,若街巷名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,逆向扫描匹配失败;
(7)小区名地址要素扫描匹配首先以小区名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的小区名地址编码元素,在小区名双数组trie树查询该地址编码元素匹配分支;
(8)街巷名地址要素扫描匹配首先以街巷名特征词为切分依据对S2进行逆向扫描中文分词,获取街巷名地址编码元素“天目山路”,在街巷名双数组trie树查询该地址编码元素匹配分支;
(9)逆向扫描中文分词方法是一种从右往左对字符串进行切分的方法,以获取门楼址地址要素为例,以门楼址特征词为检索依据在字符串中进行检索匹配,获取门楼址特征词所在的索引位置N,从该索引位置开始,从右往左依次对字符串中每一个字符进行特征词判断,直到检索到另一类地址要素的地址特征词为止,获取该地址特征词的索引位置M,获取M-1索引位置到N索引位置的字符串,该字符串即为门楼址地址要素。
实施例
为验证本发明的有效性,将本发明与基于双数组trie树地址匹配方法及基于双数组trie树和地址要素编码查询匹配方法进行对比分析,本发明采用温州市鹿城区和瓯海区总计37137条标准中文地址进行构建地址匹配词典测试,并抽取温州市鹿城区和瓯海区总计29792张公共卫生传染病报卡,对每一张报卡中的病人家庭住址信息进行地址匹配应用测试,方便起见,在下文中方法1表示基于双数组trie树地址匹配方法,方法2表示基于双数组trie树和地址要素编码查询匹配方法,方法3表示基于地址特征词的多层次快速中文地址匹配方法;
表2三种方法匹配词典构建时间比较            单位:ms
表2结果表明,方法2和方法3明显优于方法1,其原因在于方法1的分支深度和部分分支的子节点个数远远超过方法2和方法3,在方法1中,由于一个分支表示一条标准地址,其分支深度至少超过20,而在方法2和方法3中,每一个分支只表示一个地址要素,其平均深度就变为方法1的1/5,同时,由于按地址要素构建双数组trie树,部分分支的子节点个数也相应减少,因此,方法2和方法3明显优于方法1,而方法3将5个地址要素分别存储在5个双数组trie树中,相比方法2,减少了部分分支之间的冲突,因此,方法3在时间上略优于方法2;
表3三种方法匹配词典构建所占空间比较          单位:字节
从表2结果分析可知,方法1的分支深度和分支的子节点个数远远超过方法2和方法3,而方法3略少于方法2,根据构建双数组trie树时节点冲突越多,数组利用率越低的特点,三种方法中数组所占内存大小排序为:方法1>方法2>方法3;
表4三种方法匹配词典构建所占空间比较          单位: ms
表4结果表明,方法1和方法3明显优于方法2,由于三种匹配方法均采用双数组trie树进行匹配词典构建,因此,查询匹配地址的耗时基本相同,在最后获取地址空间坐标时,方法1只需要执行一次状态函数,方法3对获取的地址编码进行哈希函数运算,也可获取相应结果,因此,方法1和方法3总耗时基本相同,在方法2中,从匹配词典获取自定义地址编码之后,还要从地址编码数据库中查询空间坐标,因此,其总耗时远远超过其它两种方法。 

Claims (4)

1.一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于包括如下步骤:
1)从标准中文地址数据库中读入所有标准中文地址的记录,包括每一个标准中文地址的地理空间坐标x值、y值;
2)根据中文地址的分类规则,以地址特征词为分词依据对标准中文地址进行正向扫描中文分词,将中文分词所获得的5类地址要素***到对应的5类双数组trie树中;
3)从5类双数组trie树中获取标准中文地址所对应的地址编码元素集合,按照最小代价原则,以中文地址的分层和组合规则为依据对地址编码元素进行组合和排列,获取唯一表示该标准中文地址的4个地址编码,对这4个地址编码进行哈希运算,将该标准中文地址的地理空间坐标存储在哈希表中其哈希函数值对应的位置上,对所有标准中文地址依次进行步骤2)~步骤3)的操作,完成标准中文地址匹配词典构建;
4)读取待匹配中文地址字符串,分别赋值S1和S2,同时进行正向扫描匹配和逆向扫描匹配;
5)判断正向扫描匹配和逆向扫描匹配是否成功,若正向扫描匹配或逆向扫描匹配失败,返回步骤4);若正向扫描匹配和逆向扫描匹配成功,获取对应匹配结果的地址编码组合T1和T2;
6)设地址编码T = T1 + T2,对T进行哈希运算,通过哈希函数值在哈希表中查找对应的地理空间坐标,若存在,获取对应地理空间坐标,地址匹配成功,若不存在,地址匹配失败,重复步骤4)~步骤6),完成所有待匹配中文地址的地址匹配。
2.根据权利要求1所述的一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于所述的步骤2)为:
(1)中文地址的分类规则是指一个指意明确的标准中文地址由行政区划名、街巷名、小区名、门楼址名和兴趣点名这5类地址要素组成,其中地址要素是指地址字符串中一个相对独立的部分,具有明确的地址意义;
(2)正向扫描中文分词方法是一种从字符串序列起首位置开始,从左往右依次对字符串进行切分的方法;
(3)双数组trie树由base数组和check数组组成,其中base数组每一个元素表示trie树的一个节点状态,数组值为状态转移的基值,check数组表示一个状态的前驱状态,数组值为校验值,当base数组和check数组的值均为0时,该状态空闲,5类双数组trie树分别存储每一个标准地址所包含的5类地址要素,5类双数组trie树具体为行政区划双数组trie树、街巷名双数组trie树、住宅小区双数组trie树、门楼址双数组trie树和POI双数组trie树;
(4)双数组trie树的一次***操作为在构建双数组trie树时进行一次状态的转移,当状态m转移到状态n时,必须满足以下2个条件:
base[m] + c = n,
check[n] = m,
其中,m是当前状态的下标,n是转移状态的下标,c是输入字符的数值。
3.根据权利要求1所述的一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于所述的步骤3)包括:
(1)从5类双数组trie树中获取一个标准中文地址所对应的5类地址编码元素,并按照最小代价原则,以中文地址的分层和组合规则对地址编码元素进行组合和排列,获取唯一表示标准中文地址的4个地址编码,其中地址编码元素是指每一个地址要素中最后一个字符在双数组trie树中的数组下标值,地址编码是由地址编码元素组合和排列而成;
(2)中文地址的分层规则是指按照中文地址5个地址要素的从属关系,可以将其分为三个层次,第一层次为行政区划名,包括省级、市级、县级、乡级、村级;第二层次为街巷名和小区名;第三层次为门楼址名和POI名;
(3)中文地址的组合规则是指按照中文地址的分层规则,一个标准的中文地址可以有16种指意明确的待匹配中文地址与其相匹配,其中按照最小代价原则,包含3类地址要素的4种地址表达形式为:
行政区划名/街巷名/门楼址
××省××市××区××街道××路××号;
行政区划名/街巷名/兴趣点名
××省××市××区××街道××路××小学;
行政区划名/小区名/门楼址
××省××市××区××街道××小区××号;
行政区划名/小区名/兴趣点名
××省××市××区××街道××小区××广场。
4.根据权利要求1所述的一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于所述的步骤4)包括:
(1)正向扫描匹配首先以行政区划特征词为切分依据对S1进行正向扫描中文分词,若分词失败,正向扫描匹配失败,若分词成功,获取对应的行政区划地址编码元素,在行政区划双数组trie树中查询该地址编码元素的匹配分支,若查询成功,获取该匹配分支最后一个状态所对应的数组下标值T1,若查询失败,正向扫描匹配失败;
(2)逆向扫描匹配首先进行第三层次地址要素扫描匹配,若第三层次地址要素扫描匹配成功,再进行第二层次地址要素扫描匹配,若第二层次地址要素扫描匹配成功,逆向扫描匹配成功,若第三层次地址要素扫描匹配或第二层次地址要素扫描匹配失败,逆向扫描匹配失败;
(3)第三层次地址要素扫描匹配首先进行门楼址地址要素扫描匹配,若门楼址地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,直接进入第二层次地址要素查询匹配环节,若门楼址地址要素扫描匹配失败,进行POI地址要素扫描匹配,若POI地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,进入第二层次地址要素查询匹配环节,若POI地址要素扫描匹配失败,逆向扫描匹配失败;
(4)门楼址地址要素扫描匹配首先以门楼址特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的门楼址地址编码元素,在门楼址双数组trie树查询该地址编码元素匹配分支;
(5)POI地址要素扫描匹配首先以POI特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的POI地址编码元素,在POI双数组trie树查询该地址编码元素匹配分支;
(6)第二层次地址要素扫描匹配首先进行小区名地址要素扫描匹配,若小区名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,进行街巷名地址要素扫描匹配,若街巷名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,逆向扫描匹配失败;
(7)小区名地址要素扫描匹配首先以小区名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的小区名地址编码元素,在小区名双数组trie树查询该地址编码元素匹配分支;
(8)街巷名地址要素扫描匹配首先以街巷名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的街巷名地址编码元素,在街巷名双数组trie树查询该地址编码元素匹配分支;
(9)逆向扫描中文分词方法是一种从右往左对以地址特征词为分词依据对字符串进行切分的方法。
CN201410134887.3A 2014-04-03 2014-04-03 一种基于地址特征词的多层次快速中文地址匹配方法 Pending CN103914544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410134887.3A CN103914544A (zh) 2014-04-03 2014-04-03 一种基于地址特征词的多层次快速中文地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410134887.3A CN103914544A (zh) 2014-04-03 2014-04-03 一种基于地址特征词的多层次快速中文地址匹配方法

Publications (1)

Publication Number Publication Date
CN103914544A true CN103914544A (zh) 2014-07-09

Family

ID=51040224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410134887.3A Pending CN103914544A (zh) 2014-04-03 2014-04-03 一种基于地址特征词的多层次快速中文地址匹配方法

Country Status (1)

Country Link
CN (1) CN103914544A (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142993A (zh) * 2014-07-30 2014-11-12 东软集团股份有限公司 基于深度特征的复杂snort规则分类方法及***
CN104657486A (zh) * 2015-03-02 2015-05-27 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及***
CN105224610A (zh) * 2015-09-08 2016-01-06 方正国际软件有限公司 一种地址比较的方法及设备
CN105404686A (zh) * 2015-12-10 2016-03-16 湖南科技大学 一种基于地理特征层次分词的新闻事件地名地址匹配方法
CN105528372A (zh) * 2014-09-30 2016-04-27 华为技术有限公司 一种地址搜索方法和设备
CN105631627A (zh) * 2015-12-23 2016-06-01 拉扎斯网络科技(上海)有限公司 一种订单地址匹配方法及装置
CN105786922A (zh) * 2014-12-25 2016-07-20 高德软件有限公司 一种缺失电子地图数据的确定方法和设备
CN105786800A (zh) * 2016-03-23 2016-07-20 苏州数字地图信息科技股份有限公司 一种警用标准地址获取方法及***
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN106202028A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106502978A (zh) * 2016-09-19 2017-03-15 浪潮软件股份有限公司 一种中文地址分词方法及装置
CN106547770A (zh) * 2015-09-21 2017-03-29 阿里巴巴集团控股有限公司 一种基于用户地址信息的用户分类、用户识别方法及装置
CN106649286A (zh) * 2016-10-15 2017-05-10 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN107203522A (zh) * 2016-03-16 2017-09-26 北京京东尚科信息技术有限公司 一种恶意订单地址的判定方法和装置
CN107423295A (zh) * 2016-05-24 2017-12-01 张向利 一种海量地址数据智能快速匹配方法
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN108205625A (zh) * 2016-12-19 2018-06-26 北京京东尚科信息技术有限公司 信息处理方法及装置
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN108763215A (zh) * 2018-05-30 2018-11-06 中智诚征信有限公司 一种基于地址分词的地址存储方法、装置及计算机设备
CN108985672A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 信息输出方法和装置
CN109033327A (zh) * 2018-07-19 2018-12-18 浪潮软件集团有限公司 一种中文地址树的管理***和管理方法
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
WO2019072193A1 (zh) * 2017-10-10 2019-04-18 捷开通讯(深圳)有限公司 一种信息智能检索的方法、装置及存储介质
CN109978829A (zh) * 2019-02-26 2019-07-05 深圳市华汉伟业科技有限公司 一种待检测对象的检测方法及其***
CN110222238A (zh) * 2019-04-30 2019-09-10 上海交通大学 字符串与识别符双向映射的查询方法和***
CN110647832A (zh) * 2019-09-16 2020-01-03 贝壳技术有限公司 获取证件中信息的方法和装置、电子设备和存储介质
CN110990520A (zh) * 2019-11-28 2020-04-10 中国建设银行股份有限公司 一种地址编码方法、装置、电子设备和存储介质
CN111160827A (zh) * 2019-12-09 2020-05-15 上海东普信息科技有限公司 快递揽收方法、手持终端的快件揽收方法及存储介质
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111626052A (zh) * 2020-04-28 2020-09-04 北京明亿科技有限公司 基于哈希词典的接处警文本物品名称提取方法和装置
CN112069276A (zh) * 2020-08-31 2020-12-11 平安科技(深圳)有限公司 地址编码方法、装置、计算机设备及计算机可读存储介质
CN112115214A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112287671A (zh) * 2020-09-29 2021-01-29 深圳市跨越新科技有限公司 基于simhash的地址解析方法及***
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质
CN114168705A (zh) * 2021-12-03 2022-03-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐聪 等: ""基于哈希和双数组trie树的多层次地址匹配算法"", 《浙江大学学报(理学版)》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142993B (zh) * 2014-07-30 2017-08-29 东软集团股份有限公司 基于深度特征的复杂snort规则分类方法及***
CN104142993A (zh) * 2014-07-30 2014-11-12 东软集团股份有限公司 基于深度特征的复杂snort规则分类方法及***
CN105528372A (zh) * 2014-09-30 2016-04-27 华为技术有限公司 一种地址搜索方法和设备
US10783171B2 (en) 2014-09-30 2020-09-22 Huawei Technologies Co., Ltd. Address search method and device
CN105528372B (zh) * 2014-09-30 2019-05-24 华为技术有限公司 一种地址搜索方法和设备
CN105786922B (zh) * 2014-12-25 2020-02-14 高德软件有限公司 一种缺失电子地图数据的确定方法和设备
CN105786922A (zh) * 2014-12-25 2016-07-20 高德软件有限公司 一种缺失电子地图数据的确定方法和设备
CN104657486A (zh) * 2015-03-02 2015-05-27 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN104657486B (zh) * 2015-03-02 2018-01-19 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN106202028B (zh) * 2015-04-30 2019-10-11 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106202028A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及***
CN105224610A (zh) * 2015-09-08 2016-01-06 方正国际软件有限公司 一种地址比较的方法及设备
CN106547770A (zh) * 2015-09-21 2017-03-29 阿里巴巴集团控股有限公司 一种基于用户地址信息的用户分类、用户识别方法及装置
CN105404686B (zh) * 2015-12-10 2018-08-31 湖南科技大学 一种基于地理特征层次分词的新闻事件地名地址匹配方法
CN105404686A (zh) * 2015-12-10 2016-03-16 湖南科技大学 一种基于地理特征层次分词的新闻事件地名地址匹配方法
CN105631627A (zh) * 2015-12-23 2016-06-01 拉扎斯网络科技(上海)有限公司 一种订单地址匹配方法及装置
CN107203522A (zh) * 2016-03-16 2017-09-26 北京京东尚科信息技术有限公司 一种恶意订单地址的判定方法和装置
CN107203522B (zh) * 2016-03-16 2020-02-07 北京京东尚科信息技术有限公司 一种恶意订单地址的判定方法和装置
CN105786800A (zh) * 2016-03-23 2016-07-20 苏州数字地图信息科技股份有限公司 一种警用标准地址获取方法及***
CN107423295A (zh) * 2016-05-24 2017-12-01 张向利 一种海量地址数据智能快速匹配方法
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN106502978A (zh) * 2016-09-19 2017-03-15 浪潮软件股份有限公司 一种中文地址分词方法及装置
CN106649286B (zh) * 2016-10-15 2019-07-02 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN106649286A (zh) * 2016-10-15 2017-05-10 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN108205625A (zh) * 2016-12-19 2018-06-26 北京京东尚科信息技术有限公司 信息处理方法及装置
CN108205625B (zh) * 2016-12-19 2021-02-26 北京京东尚科信息技术有限公司 信息处理方法及装置、存储介质、电子设备
CN106709065B (zh) * 2017-01-19 2020-08-04 国家电网公司 一种地址信息标准化处理方法及装置
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN108985672A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 信息输出方法和装置
WO2019072193A1 (zh) * 2017-10-10 2019-04-18 捷开通讯(深圳)有限公司 一种信息智能检索的方法、装置及存储介质
CN107748745B (zh) * 2017-11-08 2021-08-03 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN108763215B (zh) * 2018-05-30 2022-04-29 中智诚征信有限公司 一种基于地址分词的地址存储方法、装置及计算机设备
CN108763215A (zh) * 2018-05-30 2018-11-06 中智诚征信有限公司 一种基于地址分词的地址存储方法、装置及计算机设备
CN109033327A (zh) * 2018-07-19 2018-12-18 浪潮软件集团有限公司 一种中文地址树的管理***和管理方法
CN109033327B (zh) * 2018-07-19 2021-09-28 浪潮软件股份有限公司 一种中文地址树的管理***和管理方法
CN109145169B (zh) * 2018-07-26 2021-03-26 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111427977B (zh) * 2019-01-10 2023-12-19 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN109978829A (zh) * 2019-02-26 2019-07-05 深圳市华汉伟业科技有限公司 一种待检测对象的检测方法及其***
CN110222238B (zh) * 2019-04-30 2022-02-25 上海交通大学 字符串与识别符双向映射的查询方法和***
CN110222238A (zh) * 2019-04-30 2019-09-10 上海交通大学 字符串与识别符双向映射的查询方法和***
CN112115214B (zh) * 2019-06-20 2024-04-02 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112115214A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN110647832A (zh) * 2019-09-16 2020-01-03 贝壳技术有限公司 获取证件中信息的方法和装置、电子设备和存储介质
CN110990520A (zh) * 2019-11-28 2020-04-10 中国建设银行股份有限公司 一种地址编码方法、装置、电子设备和存储介质
CN110990520B (zh) * 2019-11-28 2023-10-20 中国建设银行股份有限公司 一种地址编码方法、装置、电子设备和存储介质
CN111160827A (zh) * 2019-12-09 2020-05-15 上海东普信息科技有限公司 快递揽收方法、手持终端的快件揽收方法及存储介质
CN111626052A (zh) * 2020-04-28 2020-09-04 北京明亿科技有限公司 基于哈希词典的接处警文本物品名称提取方法和装置
CN112069276A (zh) * 2020-08-31 2020-12-11 平安科技(深圳)有限公司 地址编码方法、装置、计算机设备及计算机可读存储介质
CN112069276B (zh) * 2020-08-31 2024-03-08 平安科技(深圳)有限公司 地址编码方法、装置、计算机设备及计算机可读存储介质
CN112287671A (zh) * 2020-09-29 2021-01-29 深圳市跨越新科技有限公司 基于simhash的地址解析方法及***
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质
CN114168705B (zh) * 2021-12-03 2022-11-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法
CN114168705A (zh) * 2021-12-03 2022-03-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法

Similar Documents

Publication Publication Date Title
CN103914544A (zh) 一种基于地址特征词的多层次快速中文地址匹配方法
CN101719128B (zh) 一种基于模糊匹配的中文地理编码确定方法
CN105069056B (zh) 基于字符串匹配的身份证住址信息解析方法及***
CN102395965B (zh) 用于在数据库中搜索对象的方法
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
CN109684428A (zh) 空间数据建设方法、装置、设备及存储介质
CN103440311A (zh) 一种地名实体识别的方法及***
CN103246857B (zh) 一种使用形式化解码规则解析异构编码获得物品信息的方法
WO2019165644A1 (zh) 一种地址纠错方法及终端
CN107766433A (zh) 一种基于Geo‑BTree的范围查询方法及装置
CN109933797A (zh) 基于Jieba分词及地址词库的地理编码方法和***
CN102147795A (zh) 兴趣点检索方法、兴趣点检索装置和导航***
CN103488710B (zh) 大数据页中高效存储非定长数据方法
WO2021072874A1 (zh) 基于双数组的位置查询方法、装置、计算机设备及存储介质
CN101520801B (zh) 一种数据库空间几何对象存取方法
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
CN103473056A (zh) 一种遥测配置文件自动生成方法
CN106202111A (zh) 数据库数据的校验方法和装置
CN112256817A (zh) 一种地理编码方法、***、终端以及存储介质
CN104252507A (zh) 一种企业数据匹配方法和装置
CN104391908A (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
CN114048204A (zh) 基于数据库倒排索引的北斗网格空间索引方法和装置
CN115481212A (zh) 一种顾及逻辑幢的建筑物时空编码方法
CN109885638B (zh) 一种三维立体空间索引方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140709

WD01 Invention patent application deemed withdrawn after publication