CN112528174A - 基于知识图谱和多重匹配的地址修整补全方法及应用 - Google Patents
基于知识图谱和多重匹配的地址修整补全方法及应用 Download PDFInfo
- Publication number
- CN112528174A CN112528174A CN202011361104.7A CN202011361104A CN112528174A CN 112528174 A CN112528174 A CN 112528174A CN 202011361104 A CN202011361104 A CN 202011361104A CN 112528174 A CN112528174 A CN 112528174A
- Authority
- CN
- China
- Prior art keywords
- address
- matching
- place name
- word segmentation
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 68
- 238000009966 trimming Methods 0.000 claims abstract description 16
- 238000005215 recombination Methods 0.000 claims abstract description 7
- 230000006798 recombination Effects 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 6
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims description 11
- 238000013138 pruning Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 239000010242 baoji Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241001533085 Aquilaria sinensis Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001494479 Pecora Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱和多重匹配的地址修整补全方法及应用,该方法包括:采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;根据地址构成的特点,构建多种匹配规则进行匹配,采用对应匹配规则对地址进行修正和补全,匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。本发明实现对信息缺省甚至有误的地址进行正确高效规范的修整和补全。
Description
技术领域
本发明涉及知识图谱技术领域,具体涉及一种基于知识图谱和多重匹配的地址修整补全方法及应用。
背景技术
随着近年来互联网信息量的巨大增长,用户信息也在***性的增长,尤其一些用户的数据都会涉及到地址数据(特别是电商)。这些地址数据由于还存在大量由用户手动输入文本的形式获得的,因此不可避免的会出现符合具备用户个人书写习惯的地址数据。因此,从用户获取的地址数据很可能并不是完整且规范的地址形式,对于后续要使用这些地址数据的人员(如快递员)查找该地址所处的地理位置造成了一定的困难。为此,对依赖用户习惯产生的,不完整不规则地址数据进行修整补全,得到一个完整准确规范的地址数据是一个迫切且具有重要实际应用的方向。
以往的地址补全方法大多都是基于简单查表来进行的,这类方法的痛点在于:1、每一对关联的信息都要在数据表中创建一行映射,对于地址名来说,一个地址名可能会和其他多个地址名相关联,每一对都创建占用表中一行数据的话会导致出现大量重复冗余的数据。如广州市下属有11个行政区,为其每一个行政区与广州市创建一个映射([天河区,属于,广州市]),该映射会在表中独立占用一行,这就导致一张表中至少会出现11次“广州市”。当地址数据量比较大的时候,产生的冗余数据是很大的;2、由于无法很好的去表示地址之间复杂的关联性,容易导致地址补全并不完整;3、现实中用户自己输入的地址数据具有强烈的用户习惯特性,容易导致出现地址信息缺省,旧名,别名的的情况,从而导致无法匹配补全的问题。
另外还有基于Trie树来构建的地址补全方法,这种方法的痛点在于:1、需要构建大量的Trie树,匹配采用的是深度遍历模式,匹配效率会比较慢;2、虽然也算是知识图谱领域的方法,但无法很好的利用知识图谱多知识语义的特点;3、也是无法处理地址的重名,别名,旧名等较为复杂的情况。
另外,地址数据存在分级的结构,主要体现在有一定的层级结构,我国的行政区划分主要表现为:1.全国分为省、自治区、直辖市;2.省、自治区分为自治州、县、自治县、市;3.直辖市和较大的市分为区、县;4.自治州分为县、自治县、市;5.县、自治县分为乡、民族乡、镇;6.县、区、乡、镇又可下设街道;7.街道可下设居委会。总体上主要分为五层省级、市级、区级、街道级和居委会级。这种五层的结构其实只是一般性的结构,并不具备一定性,如北京市本身就是省级单位,下属行政区单位跳过市级直接就到区级别。又比如有些市级单位下属行政区市只有区级单位,然后区级单位下属由镇;而有的市下属单位有区,也有镇;甚至有些市下属只有镇。因此,中国的地址行政划分上有一定的层级,但又相对复杂,不能简单的从一些关键字如市、区、镇、县等来直接确定其所在行政区级别。
再者,考虑历史变更原因,部分的地名由于合并,拆分以及升为高级的行政单位而发生变更。但是由于用户习惯导致的延迟性,很多用户还是习惯性的使用历史旧名,除此之外,也有别名甚至重名的现象,这些都会加大地名在查找匹配的难度。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提出了一种基于知识图谱和多重匹配的地址修整补全方法,不同于已有的同类方法,本发明首先结合jieba分词工具设计了一种能够有效分割地址数据的方法,使得分词出来的每一个地址数据都是有效正确的地名,然后利用Neo4j数据库管理工具构建的地址知识图谱库,利用知识图谱具有丰富的语义的特点,定义多种的匹配规则,与知识图谱库中的地名进行匹配,实现对信息缺省甚至有误的地址进行正确高效规范的修整和补全。
本发明的第二目的在提供一种基于知识图谱和多重匹配的地址修整补全***。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
一种基于知识图谱和多重匹配的地址修整补全方法,包括下述步骤:
地址文本分词与初步匹配:采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;
构建地址知识图谱:获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;
建立基于地址知识图谱的多种匹配模型:根据地址构成的特点,构建多种匹配规则进行匹配,采用对应的匹配规则对地址进行修正和补全,所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。
作为优选的技术方案,所述分词工具采用开源的分词工具jieba。
作为优选的技术方案,所述地址名词字典设有错误分词的字典集,在分词操作时读取字典集,依次匹配输入的地址文本数据是否存在字典集中的地名,若存在则将所述地名分割出来。
作为优选的技术方案,所述根据地名规则进行匹配重组的具体步骤包括:根据匹配分词的结果,判断匹配分词结果中的每一个词末尾是否与地名规则预设的名词匹配,若匹配则将地址文本数据的分词结果合并为完整的地名。
作为优选的技术方案,所述采用数据库管理工具构建地址知识图谱的具体步骤包括:
根据地址行政区划分数据,采用深度遍历的方式,将每一个地址实体与上一层的地址实体进行关联,将具有上下级从属关系的地名进行关联。
作为优选的技术方案,所述数据库管理工具采用Neo4j数据库。
作为优选的技术方案,所述采用对应的匹配规则对地址进行修正和补全,具体步骤包括:
前文缺失匹配:检测到地名上一级地名处于缺失状态,根据所述地名在构建的地址知识图谱中进行匹配,查找到上一级地名并进行补全;
重名情况下前文全缺失匹配:检测到地名重名且前级地名处于缺失状态,构建所述地名与下一级地名合并的关系对,在构建的地址知识图谱中进行匹配,查找到前级地名并进行补全;
重名情况下前文相邻缺失匹配:检测到地名重名且相邻的上一级地名处于缺失状态,构建所述地名与上上级地名合并的关系对,在构建的地址知识图谱库中进行匹配,查找到前级地名并进行补全;
旧名别名修正匹配:检测到地名为旧名或者别名,根据所述旧名或别名在构建的地址知识图谱中进行匹配,查找到对应的现有地名,并进行修正。
为了到达上述第二目的,本发明采用以下技术方案:
一种基于知识图谱和多重匹配的地址修整补全***,包括:地址文本分词与初步匹配模块、地址知识图谱构建模块和匹配模型构建模块;
所述地址文本分词与初步匹配模块用于对地址文本进行分词与初步匹配,采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;
所述地址知识图谱构建模块用于构建地址知识图谱,获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;
所述匹配模型构建模块用于建立基于地址知识图谱的多种匹配模型,根据地址构成的特点,构建多种匹配规则进行匹配,采用对应的匹配规则对地址进行修正和补全,所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。
为了到达上述第三目的,本发明采用以下技术方案:
一种存储介质,存储有程序,所述程序被处理器执行时实现如上述基于知识图谱和多重匹配的地址修整补全方法。
为了到达上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于知识图谱和多重匹配的地址修整补全方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于知识图谱和多重匹配的地址修正补全,有效解决基于用户由于习惯的特点生成的地址文本容易出现部分地址信息缺失,甚至出现旧名,别名所带来的识别困难的问题,使得能够高效准确的修正补全的地址数据。
(2)本发明采用了jieba分词器以及根据行政划分特征对地址进行地址数据划分的方案,解决了地址数据的分词问题,达到了快速高效的将一串地址数据准确地分割成一个个地址数据。
附图说明
图1为本发明基于知识图谱和多重匹配的地址修整补全方法的总体框架;
图2为本发明地址文本初步分词与初步匹配流程;
图3为本发明构建的基础地址知识图谱的可视化示意图;
图4为本发明旧名和别名关联示意图;
图5为本发明多重匹配***的基础架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于知识图谱和多重匹配的地址修整补全方法,包括:地址文本初步分词与初步匹配、地址知识图谱构建、建立知识图谱的多种匹配模型,具体步骤如下所述:
S1:地址文本分词与初步匹配
利用jieba分词工具,对地址文本进行分词,为了解决分词错误,以及分词过于离散的问题,引入了自定义的地名字典实现地名全匹配,解决分词错误。根据中国地址命名规则,定义了一种匹配规则,使得地址文本能被分割为多个独立完整的地名;
如图2所示,地址文本分词与初步匹配的具体步骤为:
S11进行分词
给定地址文本数据,使用开源的分词工具jieba对输入的地址文本数据进行分词操作。比如将“大连市中山区青泥洼桥街道709号”这一条地址文本输入到jieba分词器中,可以得到结果[“大连市”,“中”,“山区”,“青泥”,“洼桥”,“街道”,“709”,“号”];
S12自定义地址名词字典
由于jieba分词器是一种通用的中文分词功能,并非专门用于地址文本的分词,因此并不能完全正确的将地址文本中的地名分割出来,比如输入“宝鸡市陈仓区慕仪镇901号”,得到的结果是[“宝鸡市”,“陈仓”,“区慕”,“仪镇”,“901”,“号”]。很明显,分词器误将“区慕”当作一个词,而真正想要的结果是[“宝鸡市”,“陈仓区”,“慕仪镇”,“901号”];
为此,需要自定义一个地址名词字典,该字典主要是一些常见的容易分词错误的词,如‘宝山城市工业园区’由于有‘市’,所以容易分词错误,分成[“宝山城市”,“工业园区”]。因此,本发明定义了一个dict.txt文件作为字典集,将这些容易分词错误的词写入该字典集,然后在进行分词的时候读取字典集,依次匹配该地址数据中是否存在字典集中的地名,如果存在就直接将该地名分割出来。
通过这样的方式对数据进行初步匹配,避免分词错误。比如在在自定义词典中加入“陈仓区”这个词,达到对地址文本中专有地址名词的全匹配;
S13根据地名规则进行再处理
在步骤S11和步骤S12中,分词的结果可能会很离散。比如步骤S11中的例子:[“大连市”,“中”,“山区”,“青泥”,“洼桥”,“街道”,“709”,“号”];
根据观察可知,中国地址中独立的地名结尾有一定的特点,如以“省”、“市”’、“区”、“镇”、“乡”、“街道”等来结尾。所以本实施例根据中国这种地名的命名的规则,设计一种匹配规则对分词的结果进行匹配,合并,得到独立完整的一个地名数据;
该匹配规则首先匹配初步分词结果的中的每一个词末尾时候存在“省”,“市”,“区”,“镇”,“自治区”,“自治州”,“县”,“街道”等名词。如果该词经匹配,在末尾存在上述词汇,那么说明在上次匹配成功之后到目前匹配成功的所有的词都可以拼接成一个完整的地名,从而解决分词过于离散的问题;
S2:地址文本分词与初步匹配
获取地址数据,使用neo4j构建地址知识图谱,包括:获取行政区划分的数据,以此构建基础的地址知识图谱,如图3所示,根据行政划分的从属关系构建基础的地址知识图谱;获取地名的旧名、别名信息,如图4所示,将这些旧名和别名在构建好的基础地址知识图谱中的对应的地名构建起关联,具体步骤如下:
S21构建基础地址知识图谱
从国家***获取最新的中国行政区划分数据,根据***的数据,中国的行政区划分大概分为五个级别:省,市,区,街道,居委会。主要表现为:1、全国分为省、自治区、直辖市;2、省、自治区分为自治州、县、自治县、市;3、直辖市和较大的市分为区、县;4、自治州分为县、自治县、市;5、县、自治县分为乡、民族乡、镇;6、县、区、乡、镇又可下设街道;7、街道可下设居委会。总体上主要分为五层省级、市级、区级、街道级和居委会级。
这种五层的结构其实只是一般性的结构,并不具备一定性,如北京市本身就是省级单位,下属行政区单位跳过市级直接就到区级别。又比如有些市级单位下属行政区市只有区级单位,然后区级单位下属由镇;而有的市下属单位有区,也有镇;甚至有些市下属只有镇。
尽管地址层级结构相对复杂,但国家***获得的行政区划分数据有很强的上下级从属关系。对于本发明而言,只需要用到前面四级。
因此,本发明通过获取前面四级的行政区划分数据来构建地址知识图谱。
主要的构建方法就是利用四级的行政划分,编写程序的通过深度遍历方式,令每一个地址实体与上一层的地址实体关联起来,比如构建[‘广州市’,‘从属于’,‘广东省’]这种关系对,主要是通过Neo4j图数据库的cql语句构建,具体构建语句如下:
MATCH(a:级别1{name:'地址名1'}),(b:级别2{name:'地址名2'})MERGE(a)-[:BELONG TO]->(b);
以上语句中级别表示地名的所属级别,如‘广东省’属于‘省级’;‘广州市’属于‘市级’。通过这种cql语句就能够将一对有上下级从属关系的地名关联起来,如图3所示,构建出有四级结构的地质知识图谱的部分示意图。
根据这种上下级从属关系,就可以获取前四级结构。
为了能够更好的构建并存储这些地址数据,选择Neo4j数据库。Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。所以Neo4j很适合构建这类具有上下级从属关系的知识图谱。
S2.2关联旧名和别名
由于历史以及用户习惯的原因,部分用户在书写地址的时候并不是严格安装地址规范来书写地址的。尤其是因为短期内部分地名由于合并、升级等原因导致地名的变更,而用户在一段时间内由于习惯问题,依然使用旧的名称来表达。
比如黑龙江省伊春市的友好区,曾经的命名是上甘岭区。如果用户在书写的时候依然书写上甘岭区的话,会给查找该地址的人造成一定的麻烦。
同理,如果用户习惯使用一个地方的别名来命名也会给查找该地址的人造成一定的麻烦。比如广州市也被叫做“羊城”、“花城”;东莞的莞城街道被当地人习惯性叫做莞城区等等。
因此,可以利用将这些旧名和别名和基础地址知识图谱对应的地名关联起来,在匹配查找的时候,如果发现是旧名别名可以立马进行纠正。
具体的关联方法就是利用Neo4j图数据库的cql语句进行关联,cql语句如下:
别名关联语句:MATCH(a:别名{name:'地址名'}),(b:县级{name:'地址名'})MERGE(a)-[:ALIAS NAME]->(b);
旧名关联语句:MATCH(a:旧名{name:'地址名'}),(b:县级{name:'地址名'})MERGE(a)-[:OLd NAME]->(b);
S3.建立基于知识图谱的多种匹配模型
由于用户书写习惯等问题,导致大部分地址文本的并不是完整规范且地名信息正确的地址,因此需要根据前面生成的地址知识图谱以及地址正确的书写格式来构建多种匹配规则,对地址分词出来的每个地名进行有效的匹配,并进行补全或者修正。如图5所示,基于知识图谱的多种匹配模型的主要流程如下:
S31前文缺失匹配
对于某个地名检测到其上一级地名处于缺失状态,根据该地名在构建的地址知识图谱库中进行匹配,查找到上一级地名并进行补全。
以[“陈仓区”,“慕仪镇”,“901号”]这个分词结果作为输入为例,首先输入“陈仓区”,可以在地址知识图谱中匹配到“陈仓区”这个地名,属于第三级的地名,且只有一个,填入最终结果的第三级地名位置。
如果检查发现最终结果在第三级之前的省级或市级的地名都是缺失的,且根据匹配结果“陈仓区”在地址知识图谱中是唯一的,那么通过Neo4j的cql语句将“陈仓区”的前级找出来。即匹配得到“陈仓区”的前级是“宝鸡市”和“陕西省”,将这两个地名分别填入最终结果的省级和市级地名位置,实现缺省信息的补全。
S32重名情况下前文全缺失匹配
当使用某地名匹配地址知识图谱的时候,发现存在有多个结果,即有重名的情况,并且检查前级地名全处于缺失状态,以及存在下一级地名的情况下,可以根据该地名以及下一级地名合并的关系对,在构建的地址知识图谱库中进行匹配,查找到前级地名并进行补全。
具体匹配流程以[“和平区”,“长白街道”,“15号”]为例。天津市和沈阳市都有和平区,因此单独对“和平区”在地址知识图谱库匹配的时候是会有重复结果的,无法精确哪个是正确的。
而这个例子中的前级都是缺省的,但是其拥有下一级“长白街”,因此构建[“和平区”,“从属于”,“长白街道”]这样的三元组去地址知识图谱库中进行匹配。
通过这种结合,可以排除重名的部分,可以匹配到只有辽宁省沈阳市下才有和平区长白街道。因此可以将“辽宁省”和“沈阳市”填入最终结果的对应级别的位置,实现重名情况下前文全缺失匹配。
具体方式是通过构建匹配的cql语句,具体语句如下:
Match(n)<-[:`BELONG TO`]-(name:要匹配地名)<-[:`BELONG TO`]--(name:要匹配地名的下一级地名)return n;
通过以上的cql语句就能够在构建的地址知识图谱中匹配到具体的地名,且能够将上一级地名也匹配出来。
S33重名情况下前文只有相邻缺失匹配
结合图5所示,当使用某地名匹配地址知识图谱的时候,发现存在有多个结果,即有相邻的上一级地名缺失,而上上级地名存在,那么可以根据该地名以及上上级地名合并的关系对,在构建的地址知识图谱库中进行匹配,查找到前级地名并进行补全。
以[“吉林省”,“朝阳区”,“湖西街道”,“15号”]为例。北京市和吉林省的长春市都有朝阳区。如果单独去匹配“朝阳区”,会有重复结果,无法精确哪个是正确的。
而这个例子中,相隔的前级是存在的,因此构建“吉林省”和“朝阳区”的关系对,再到地址知识图谱库中进行匹配。最后得到的只有吉林省的长春市才有朝阳区,因此将“长春市”填入最终结果的市级单位中,以此实现补全。
具体方式是通过构建匹配的cql语句,具体语句如下:
Match(name:要匹配地名的相隔前级地名)<-[:`BELONG TO`]-(n)<-[:`BE LONGTO`]--(name:要匹配地名)return n;
通过以上的cql语句就能够在构建的地址知识图谱中匹配到具体的地名,且能够将上一级缺失的地名也匹配出来。
S34旧名别名匹配
同理,对于部分地名在查询地址知识图谱后,可以得知是旧名或者别名,根据该旧名或别名在构建的地址知识图谱库中进行匹配,查找到其现有真正的地名,并进行修正。
实施例2
本实施例提供一种基于知识图谱和多重匹配的地址修整补全***,包括:地址文本分词与初步匹配模块、地址知识图谱构建模块和匹配模型构建模块;
在本实施例中,地址文本分词与初步匹配模块用于对地址文本进行分词与初步匹配,采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;
在本实施例中,地址知识图谱构建模块用于构建地址知识图谱,获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;
在本实施例中,匹配模型构建模块用于建立基于地址知识图谱的多种匹配模型,根据地址构成的特点,构建多种匹配规则进行匹配,采用对应的匹配规则对地址进行修正和补全,所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现实施例1的基于知识图谱和多重匹配的地址修整补全方法。
实施例4
本实施例提供一种计算设备,所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的基于知识图谱和多重匹配的地址修整补全方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于知识图谱和多重匹配的地址修整补全方法,其特征在于,包括下述步骤:
地址文本分词与初步匹配:采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;
构建地址知识图谱:获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;
建立基于地址知识图谱的多种匹配模型:根据地址构成的特点,构建多种匹配规则进行匹配,采用对应的匹配规则对地址进行修正和补全,所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。
2.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法,其特征在于,所述分词工具采用开源的分词工具jieba。
3.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法,其特征在于,所述地址名词字典设有错误分词的字典集,在分词操作时读取字典集,依次匹配输入的地址文本数据是否存在字典集中的地名,若存在则将所述地名分割出来。
4.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法,其特征在于,所述根据地名规则进行匹配重组的具体步骤包括:根据匹配分词的结果,判断匹配分词结果中的每一个词末尾是否与地名规则预设的名词匹配,若匹配则将地址文本数据的分词结果合并为完整的地名。
5.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法,其特征在于,所述采用数据库管理工具构建地址知识图谱的具体步骤包括:
根据地址行政区划分数据,采用深度遍历的方式,将每一个地址实体与上一层的地址实体进行关联,将具有上下级从属关系的地名进行关联。
6.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法,其特征在于,所述数据库管理工具采用Neo4j数据库。
7.根据权利要求1所述的基于知识图谱和多重匹配的地址修整补全方法,其特征在于,所述采用对应的匹配规则对地址进行修正和补全,具体步骤包括:
前文缺失匹配:检测到地名上一级地名处于缺失状态,根据所述地名在构建的地址知识图谱中进行匹配,查找到上一级地名并进行补全;
重名情况下前文全缺失匹配:检测到地名重名且前级地名处于缺失状态,构建所述地名与下一级地名合并的关系对,在构建的地址知识图谱中进行匹配,查找到前级地名并进行补全;
重名情况下前文相邻缺失匹配:检测到地名重名且相邻的上一级地名处于缺失状态,构建所述地名与上上级地名合并的关系对,在构建的地址知识图谱库中进行匹配,查找到前级地名并进行补全;
旧名别名修正匹配:检测到地名为旧名或者别名,根据所述旧名或别名在构建的地址知识图谱中进行匹配,查找到对应的现有地名,并进行修正。
8.一种基于知识图谱和多重匹配的地址修整补全***,其特征在于,包括:地址文本分词与初步匹配模块、地址知识图谱构建模块和匹配模型构建模块;
所述地址文本分词与初步匹配模块用于对地址文本进行分词与初步匹配,采用分词工具对输入的地址文本数据进行分词操作,构建地址名词词典进行匹配分词,根据地名规则进行匹配重组;
所述地址知识图谱构建模块用于构建地址知识图谱,获取地址行政区划分数据,采用数据库管理工具构建地址知识图谱,获取地名的旧名或别名信息,将地名的旧名或别名信息在构建好的地址知识图谱中的对应的地名构建起关联;
所述匹配模型构建模块用于建立基于地址知识图谱的多种匹配模型,根据地址构成的特点,构建多种匹配规则进行匹配,采用对应的匹配规则对地址进行修正和补全,所述匹配规则包括前文缺失匹配规则、重名情况下前文全缺失匹配规则、重名情况下前文相邻缺失匹配规则和旧名别名修正匹配规则。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述的基于知识图谱和多重匹配的地址修整补全方法。
10.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述的基于知识图谱和多重匹配的地址修整补全方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011361104.7A CN112528174A (zh) | 2020-11-27 | 2020-11-27 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011361104.7A CN112528174A (zh) | 2020-11-27 | 2020-11-27 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112528174A true CN112528174A (zh) | 2021-03-19 |
Family
ID=74994429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011361104.7A Pending CN112528174A (zh) | 2020-11-27 | 2020-11-27 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528174A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204613A (zh) * | 2021-04-26 | 2021-08-03 | 北京百度网讯科技有限公司 | 地址生成方法、装置、设备和存储介质 |
CN113515677A (zh) * | 2021-07-22 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113935293A (zh) * | 2021-12-16 | 2022-01-14 | 湖南四方天箭信息科技有限公司 | 地址拆分和补全方法、装置、计算机设备和存储介质 |
CN114491089A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 地址获取方法、装置、电子设备、介质 |
CN116501897A (zh) * | 2023-06-29 | 2023-07-28 | 中科聚信信息技术(北京)有限公司 | 基于模糊匹配构建知识图谱的方法 |
CN117874214A (zh) * | 2024-03-12 | 2024-04-12 | 长威信息科技发展股份有限公司 | 一种地址信息的标准化治理及动态匹配的方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440312A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种通信地址查询邮政编码的***及终端 |
US20140310255A1 (en) * | 2013-04-16 | 2014-10-16 | Google Inc. | Search suggestion and display environment |
CN104679867A (zh) * | 2015-03-05 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN107145577A (zh) * | 2017-05-08 | 2017-09-08 | 上海东方网络金融服务有限公司 | 地址标准化方法、装置、存储介质及计算机 |
CN110609902A (zh) * | 2018-05-28 | 2019-12-24 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
CN111144117A (zh) * | 2019-12-26 | 2020-05-12 | 同济大学 | 知识图谱中文地址消除歧义方法 |
-
2020
- 2020-11-27 CN CN202011361104.7A patent/CN112528174A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140310255A1 (en) * | 2013-04-16 | 2014-10-16 | Google Inc. | Search suggestion and display environment |
CN103440312A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种通信地址查询邮政编码的***及终端 |
CN104679867A (zh) * | 2015-03-05 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN107145577A (zh) * | 2017-05-08 | 2017-09-08 | 上海东方网络金融服务有限公司 | 地址标准化方法、装置、存储介质及计算机 |
CN110609902A (zh) * | 2018-05-28 | 2019-12-24 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
CN111144117A (zh) * | 2019-12-26 | 2020-05-12 | 同济大学 | 知识图谱中文地址消除歧义方法 |
Non-Patent Citations (2)
Title |
---|
CHRISTOPHER NITTA 等: "Addressing System-Level Trimming Issues in On-Chip Nanophotonic Networks", 《2011 IEEE 17TH INTERNATIONAL SYMPOSIUM ON HIGH PERFORMANCE COMPUTER ARCHITECTURE》, 15 April 2011 (2011-04-15) * |
高泽璞;赵云;余伊兰;罗永建;徐紫薇;张莲梅;: "基于知识图谱的低压配电网拓扑结构辨识方法", 电力***保护与控制, no. 02 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204613A (zh) * | 2021-04-26 | 2021-08-03 | 北京百度网讯科技有限公司 | 地址生成方法、装置、设备和存储介质 |
CN113204613B (zh) * | 2021-04-26 | 2022-05-03 | 北京百度网讯科技有限公司 | 地址生成方法、装置、设备和存储介质 |
CN113515677A (zh) * | 2021-07-22 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113515677B (zh) * | 2021-07-22 | 2023-10-27 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113935293A (zh) * | 2021-12-16 | 2022-01-14 | 湖南四方天箭信息科技有限公司 | 地址拆分和补全方法、装置、计算机设备和存储介质 |
CN113935293B (zh) * | 2021-12-16 | 2022-03-22 | 湖南四方天箭信息科技有限公司 | 地址拆分和补全方法、装置、计算机设备和存储介质 |
CN114491089A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 地址获取方法、装置、电子设备、介质 |
CN114491089B (zh) * | 2022-01-28 | 2023-08-29 | 北京百度网讯科技有限公司 | 地址获取方法、装置、电子设备、介质 |
CN116501897A (zh) * | 2023-06-29 | 2023-07-28 | 中科聚信信息技术(北京)有限公司 | 基于模糊匹配构建知识图谱的方法 |
CN116501897B (zh) * | 2023-06-29 | 2024-04-02 | 中科聚信信息技术(北京)有限公司 | 基于模糊匹配构建知识图谱的方法 |
CN117874214A (zh) * | 2024-03-12 | 2024-04-12 | 长威信息科技发展股份有限公司 | 一种地址信息的标准化治理及动态匹配的方法及设备 |
CN117874214B (zh) * | 2024-03-12 | 2024-06-11 | 长威信息科技发展股份有限公司 | 一种地址信息的标准化治理及动态匹配的方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN107656913B (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
US6816779B2 (en) | Programmatically computing street intersections using street geometry | |
CN107145577A (zh) | 地址标准化方法、装置、存储介质及计算机 | |
CN103186524B (zh) | 一种地名识别方法和装置 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
CN110909170B (zh) | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 | |
CN104657439A (zh) | 用于自然语言精准检索的结构化查询语句生成***及方法 | |
CN112612863B (zh) | 一种基于中文分词器的地址匹配方法及*** | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN104657440A (zh) | 结构化查询语句生成***及方法 | |
CN111291277A (zh) | 一种基于语义识别和高级语言搜索的地址标准化方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和*** | |
CN108228825A (zh) | 一种基于分词的用户地址数据清洗方法 | |
US10810258B1 (en) | Efficient graph tree based address autocomplete and autocorrection | |
US6658356B2 (en) | Programmatically deriving street geometry from address data | |
WO2022100154A1 (zh) | 基于人工智能的地址标准化方法、装置、设备和存储介质 | |
CN110990520A (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN113360789A (zh) | 兴趣点数据处理方法、装置、电子设备及存储介质 | |
CN112069824B (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN112307169A (zh) | 地址数据的匹配方法、装置、计算机设备及存储介质 | |
US10949465B1 (en) | Efficient graph tree based address autocomplete and autocorrection | |
CN116303854A (zh) | 一种基于地址知识图谱的定位方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |