CN113987093A - 基于种子地址修正错误地址的方法及*** - Google Patents
基于种子地址修正错误地址的方法及*** Download PDFInfo
- Publication number
- CN113987093A CN113987093A CN202111130623.7A CN202111130623A CN113987093A CN 113987093 A CN113987093 A CN 113987093A CN 202111130623 A CN202111130623 A CN 202111130623A CN 113987093 A CN113987093 A CN 113987093A
- Authority
- CN
- China
- Prior art keywords
- address
- seed
- administrative division
- addresses
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 240000006001 Thymus serpyllum Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Remote Sensing (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于种子地址修正错误地址的方法及***,该方法包括:将种子地址与地址库中地址进行匹配,得到至少一个目标地址;比较所述目标地址与所述种子地址之间的地理位置和经纬度,确定所述目标地址是否错误,并对错误地址按照所述种子地址进行修正。本发明以种子地址为参考基准,在地址库中进行地址搜索,搜索出地址库中与种子地址所表示位置相同的目标地址,然后根据目标地址和种子地址地理位置和经纬度之间的偏差,确定目标地址是否错误,如果错误,则对目标地址进行修正。本发明实施例可以对海量地址库中的错误地址进行快速并准确的识别,以及自动将错误地址进行修正,并且修正过程快速高效,即使针对海量数据的地址库,也十分适用。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于种子地址修正错误地址的方法及***。
背景技术
随着互联网的快速发展,地址经纬度解析的应用已经渗透到了军事、经济、生态、规划、交通、电力、水利、物流等各行各业,对地址解析经纬度的准确性要求也越来越高,目前的主要解析手段依托于庞大的地址库,但是由于各省市的地名和地址体系复杂、用户填写地址不规范等原因的存在,地址库针对同一地址会存放多条类似写法的地址数据,由此也引发了如果地址对应的兴趣点(POI)发生变化,或者地址本身对应的经纬度错误而会同时造成一批地址错误,如果都通过人工进行校正,需要处理的数据量太大,也很容易造成遗漏或者错误,从而造成由于部分错误数据引发地址解析错误的情况。
针对上述问题,传统方法是通过向地址库中不断增加新的正确地址,从而减少地址库中错误地址的比例,逐步提升地址解析的正确率,但是缺点是修复过程十分缓慢,当正确地址所占比例没有达到一定比例前,会继续造成解析错误,其次即使正确率足够高的情况下,依旧会出现小概率的解析错误的情况发生。
因此,亟需一种修正错误地址的方法。
发明内容
本发明提供一种基于种子地址修正错误地址的方法及***,其主要目的在于快速准确的识别地址库中的错误地址并对错误地址进行修正。
第一方面,本发明实施例提供一种基于种子地址修正错误地址的方法,包括:
将种子地址与地址库中地址进行匹配,得到至少一个目标地址;
比较所述目标地址与所述种子地址之间的地理位置和经纬度,确定所述目标地址是否错误,并对错误地址按照所述种子地址进行修正。
优选地,所述将种子地址与地址库中地址进行匹配,包括:
将所述种子地址根据预设分词结构进行拆分,得到行政区划字段和门址字段;
将所述地址库中地址与所述行政区划字段进行匹配,得到若干候选地址,继而,将所述候选地址与所述门址字段进行匹配。
优选地,所述将所述地址库中地址与所述行政区划字段进行匹配,得到若干候选地址,包括:
从所述地址库中匹配出与所述行政区划字段至少两个层级的字段相同的地址;
对匹配出的地址所含的行政区划字段进行评分,选取评分大于第一预设阈值的地址作为所述候选地址。
优选地,所述对匹配出的地址所含的行政区划字段进行评分,包括:
按照行政区划各层级的完整性、行政区划后缀的完整性、行政区划字段的唯一性、行政区划各层级之间的文本距离进行加权评分。
优选地,所述对匹配出的地址所含的行政区划字段进行评分之前,还包括:
判断匹配出的地址中,其行政区划的最末层级是否存在上一层级,若否,则删掉地址中该最末层级行政区划字段。
优选地,所述将所述候选地址与所述门址字段进行匹配之后,还包括:
匹配成功的候选地址,对其所含门址字段中的完整性进行加权评分,选取评分大于第二预设阈值的候选地址为目标地址。
优选地,所述比较所述目标地址与所述种子地址间的地理位置和经纬度,确定所述目标地址是否错误,包括:
比较所述种子地址与所述目标地址中对应层级的门址字段的地理位置之间的距离,其与两地址经纬度之间的距离是否匹配,若不匹配则判定为错误地址。
第二方面,本发明实施例提供一种基于种子地址修正错误地址的***,包括:
匹配模块,用于将种子地址与地址库中地址进行匹配,得到至少一个目标地址;
修正模块,用于比较所述目标地址与所述种子地址间的地理位置和经纬度,确定目标地址是否错误,并对错误地址按照所述种子地址进行修正。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于种子地址修正错误地址方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于种子地址修正错误地址方法的步骤。
本发明提出的基于种子地址修正错误地址的方法及***,以种子地址为参考基准,在地址库中进行地址搜索,搜索出地址库中与种子地址所表示位置相同的目标地址,然后根据目标地址与种子地址的地理位置和经纬度之间的偏差,确定目标地址是否错误,如果错误,则对目标地址进行修正。本发明实施例可以对海量地址库中的错误地址进行快速并准确的识别,以及自动将错误地址进行修正,相比传统方法,更容易保证地址库中地址数据的准确性,并且修正过程快速高效,即使针对海量数据的地址库,也十分适用。
附图说明
图1为本发明实施例提供的一种基于种子地址修正错误地址的方法应用场景图;
图2为本发明实施例提供的一种基于种子地址修正错误地址的方法的流程图;
图3为本发明实施例提供的一种基于种子地址修正错误地址的***结构示意图;
图4为本发明实施例中提供的一种计算机设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的一种基于种子地址修正错误地址的方法应用场景图,如图1所示,用户在客户端中输入种子地址,客户端将种子地址发送给服务端,服务端接收该种子地址后,执行该一种基于种子地址修正错误地址的方法,以对地址库中的错误地址进行修正。
需要说明的是,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。客户端和服务端可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
图2为本发明实施例提供的一种基于种子地址修正错误地址的方法的流程图,如图2所示,该方法包括:
S1,将种子地址与地址库中地址进行匹配,得到至少一个目标地址;
本发明实施例中,种子地址是一条经过人工矫正的地址,也就是各行政区划、门址信息以及经纬度信息均完善并正确的地址,本发明实施例中,以该种子地址为参考基准,在地址库中进行搜索匹配,找到与该种子地址的文本描述表示为相同目的地的目标地址。
地址库为存放大量地址的数据库,地址库中的地址有些是正确的,有些是错误的,本发明实施例中的目的是快速准确的找出地址库中的错误地址,并对错误地址进行修正。
具体的,将种子地址与地址库中地址进行匹配的过程具体包括,即步骤S1具体包括:
S11、将种子地址按照预设分词结构进行拆分,得到行政区划段字段和门址字段;
具体的,为了将种子地址与地址库中的地址进行快速匹配,需要对种子地址进行拆分,以得到行政区划字段后门址字段。
首先,对种子地址进行行政区划拆分解析。本实施例中,行政区划解析拆分采用的预设分词结构为,根据国家***标准构建的行政区划表,即包括全国范围内的省市区镇行政区划各层级结构。通过该预设分词结构拆分出地址中各层级行政区划全名和去除行政区划后缀的主名。所谓行政区划后缀,即“省”“市”“区”“县”“街道”“镇”这些字段。例如,一地址“北京市朝阳区酒仙桥街道宏源大厦”,对于“北京市”这个层级字段,会拆分出行政区划全名“北京市”,以及去除行政区划后缀的主名“北京”;“朝阳区”这个层级字段,会拆分出行政区划全名“朝阳区”,以及去除行政区划后缀的主名“朝阳”;“酒仙桥街道”这个层级字段,会拆分出行政区划全名“酒仙桥街道”,以及去除行政区划后缀的主名“酒仙桥”。本发明实施例,采用这样的拆分方式目的在于:用户地址撰写过程中会存在写的省市区镇名称的后缀名和国家标准的后缀名不一样,例如某县级市,用户会经常写XX县,对本方案来说就等同于XX市,或者XX街道,用户会写XX镇。所以,将地址各层级行政区划全名(主名+行政区划后缀)和主名(去除行政区划后缀)均拆分出来,用以识别用户的后缀是否误写,另外也可以避免遗漏信息。
另外,行政区划解析拆分采用上述预设分词结构,还会根据行政区划后缀过滤掉一些干扰因素,例如,若一种子地址中含有“朝阳花园”字段,在进行拆分过程中,由于其中的“朝阳”字段会与行政区划层级“朝阳区”中的主名部分相同,但是,通过判断“朝阳花园”中“朝阳”的后缀为“花园”,并非“区”这个行政区划后缀,所以该字段过滤,不作为行政区划字段使用。
其次,在将种子地址进行行政区划拆分解析后,种子地址的行政区划各层级字段之外余下的字段信息,即门址字段。其中,行政区划字段是指省市区镇四个部分对应的地址,门址字段则是指道路路号、门牌号或楼栋等详细地址。
S12、将地址库中地址与所述行政区划字段进行匹配,得到若干候选地址;
进行匹配时,将地址库中地址与所述行政区划字段进行匹配。本发明实施例中,采用KMP算法进行匹配,得到若干匹配地址。该匹配出的地址与种子地址的行政区划字段至少在两个层级的字段是相同的,也就是说,该匹配出的地址与种子地址的“省”“市”“区”“镇”所对应的层级地址中至少有两个层级是相同的,可以是同一个省同一个市,也可以是同一个省同一个区,还可以是同一个市同一个区,只要保证至少两个行政区划层级的字段是相同的,那么就可以作为匹配地址,例如,一种子地址“北京市朝阳区酒仙桥街道宏源大厦”,通过将其与地址库中地址进行匹配,会匹配出:a、北京市朝阳区酒仙桥街道宏源大厦A栋;b、北京市酒仙桥街道嘉林花园;c、北京市朝阳区酒仙桥街道四得公园,该a、b、c三个地址均有至少两个行政区划层级字段与种子地址相同。
本次匹配步骤中,仅会匹配省市区镇层级的部分,镇后面的地址内容即门址字段不会匹配,并且,并不一定要求省市区镇所有层级都匹配成功,但是要包含至少两个层级的内容。
在得到匹配地址之后,进一步的,对匹配出的候选地址进行修正,具体为,当匹配出的地址中,其行政区划的最末层级不存在上一层级,那么将该地址中最末层级行政区划字段删掉。
例如,如果从地址库中匹配出的一地址是“北京市朝阳区酒仙桥街道西乡街道”,该地址中最末层级行政区划字段为“西乡街道”,但是“西乡街道”与上一层级“酒仙桥街道”并非是上下层级关系,因此,在该地址中无法找到西乡街道的上级关系,则将该地址中“西乡街道”这个字段删除后仍保留该地址。
进一步地,从地址库中匹配出与种子地址行政区划字段至少两个层级字段相同的地址后,对匹配出的地址的行政区划字段进行评分,选取评分大于第一预设阈值的地址作为候选地址,评分依据具体为:逐步按照行政区划各层级的完整性、行政区划后缀的完整性、行政区划字段的唯一性和行政区划各层级之间的文本距离进行加权评分。
其中,按照行政区划各层级的完整性的评分规则具体为:省市区镇各层级字段的完整程度进行逐级增加权重分,如果匹配出的地址中省市区镇各层级字段越完整其对应的分值越高。本发明实施例中,省对应的权重为1000分,市对应的权重为1000分,区对应的权重为800分,镇对应的权重为500分,直辖市对应的权重为800分。例如,匹配出的一地址中所含行政区划字段为“北京市朝阳区酒仙桥街道”,由于该地址中省市区镇各层级字段均包含,则该地址对应的完整性权重评分为1000+1000+800+500。
另,按照行政区划后缀的完整性的评分规则具体为:省市区镇后缀的有无以及是否为别名进行加权,其中,省市区镇的行政区划后缀名完整,其加权系数为1;没有省市区镇的行政区划后缀名,其加权系数为0.6;存在省市区镇的行政区划后缀名的别名时,其加权系数为0.75。
例如,对于“北京市”,由于后缀名“市”完整,其加权系数就是1;对于“北京”,由于没有“市”对应的后缀名,其加权系数就是0.6;对于“酒仙桥街道”写成“酒仙桥镇”,“酒仙桥镇”是“酒仙桥街道”的别名,其对应的加权系数是0.75。
再者,行政区划字段唯一性的评分规则具体为:当行政区划主名的名称中存在全国唯一名称可以增加权重系数,因为是全国独一无二的名称,识别度较高。其中,对于该唯一的行政区划字段为“市”对应的字段,权重系数为3;,对于该唯一的行政区划字段为“区”对应的字段,权重系数为2;对于该唯一的行政区划字段为“镇”对应的字段,权重系数为2。
而当行政区划主名的名称在全国出现多个相同的行政区划名称,则会按照相应的重复数量进行设定权重分,即:对于“市”级行政区划,其权重系数计算公式为(10-市重名数量-区重名数据)/10;对于“区”级行政区划,其权重系数计算公式为(10-区重名数量)/10;对于“镇”级行政区划,其权重系数计算公式为(10-镇重名数量)/10。其重名次数越多,权重越低,直至最小0分。
例如,一地址包括“黑龙江省大庆市大同区”,其区级行政区划“大同区”,与“山西省大同市”中的“大同市”主名名称相同,那么,其市层级重名数量为1个,所以计算该地址区层级权重分为(10-1)/10。
最后,按照行政区划各层级之间的文本距离的评分规则具体为:计算当前层级的行政名称与上一层级的行政名称之间间隔的字数,来进行权重评分。距离为0,权重系数为1.2;距离大于等于1,权重系数为:-距离间隔字数数量*10。
举例地,一地址包括“北京市朝阳区”,“朝阳区”该层级与“北京市”层级之间间隔的字数为0,那么该地址的权重系数为1.2;一地址书写为“北京市啊啊啊啊朝阳区”,“朝阳区”该层级与“北京市”之间间隔字数为4,其对应的权重系数为-4*10。
按照上述几个方面对匹配出的地址进行加权评分,选取出评分大于第一预设阈值的地址作为候选地址,具体地,第一预设阈值可以根据实际情况进行确定,本发明实施例在此不做具体的限制。
S13、得到候选地址之后,将候选地址与种子地址中门址字段进行匹配;
具体的,首先使用布尔模型对候选地址与种子地址中门址字段进行相似度匹配计算。
其具体计算公式如下:
score(q,d)=coord(q,d)·queryNorm(q)·∑(tf(t in d)·idf(t)2·t.qetBoost().norm(t,d)),
其中,coord(q,d)表示评分因子,基于文档中出现查询项的个数计算文档的匹配程度,其中,查询项即为地址各层级关键词;
queryNorm(q)表示标准查询;
tf(tind)指项t在文档d中出现的次数,具体值为次数的开根号;
idf(t)表示反转文档频率,出现项t的文档数;
t.getBoost表示查询时候查询项加权;
norm(t,d)长度相关的加权因子。
通过该布尔模型进行计算后,可得到与种子地址中门址字段相似度较高的候选地址。
进一步地,为了使匹配成功的候选地址与种子地址的匹配程度更为精准,基于匹配成功的候选地址,对其所含门址字段中的完整性进行加权评分,选取评分大于第二阈值的候选地址为目标地址。
具体的,首先将候选地址中门址字段提取出具体的道路路号、门牌号、道路名称等特征词,然后根据特征词进行加权。本实施例中,其加权规则具体为:道路路号15分,道路名称6分,POI+门牌号8分,单纯POI名称7分,道路+道路15分。
在经过与种子地址的行政区划字段和门址字段进行匹配,筛选得到目标地址后,执行步骤S2,对目标地址是否存在错误进行判断和处理。
S2,比较所述目标地址与所述种子地址之间的地理位置和经纬度,确定所述目标地址是否错误,并对错误地址按照所述种子地址进行修正。
具体地,分别根据种子地址或目标地址的道路路号或门牌号等得出该种子地址或目标地址的实际地理位置,然后将该种子地址的实际地理位置与目标地址的实际地理位置差距,以及种子地址的经纬度与目标地址的经纬度之间的差距进行双重判断,判断目标地址是否错误,如果是,则参照种子地址,对目标地址进行校正。
举例地,种子地址中的门址字段的道路路号为“人民路15号”,经纬度为A,其中,目标地址的门址字段的道路路号为“人民路16号”,经纬度为B,二者的路号定位到的地理位置差距可以判断出为同一个区域,并二者的实际地理位置差距为30米,但是二者的经纬度距离却有500米,则说明目标地址的经纬度需要修正。具体间隔距离的判断是通过道路路号或门牌号等详细地址信息的平均间隔距离为标准进行计算的。
本发明提出的基于种子地址修正错误地址的方法,以种子地址为参考基准,在地址库中进行地址搜索,搜索出地址库中与种子地址所表示位置相同的目标地址,然后根据目标地址和种子地址地理位置和经纬度之间的偏差,确定目标地址是否错误,如果错误,则对目标地址进行修正。本发明实施例可以对海量地址库中的错误地址进行快速并准确的识别,以及自动将错误地址进行修正,相比传统方法,更容易保证地址库中地址数据的准确性,并且修正过程快速高效,即时针对海量数据的地址库,也十分适用。
图3为本发明实施例提供的一种基于种子地址修正错误地址的***结构示意图,如图3所示,该***包括匹配模块310和修正模块320,其中:
匹配模块310用于将种子地址与地址库中地址进行匹配,得到至少一个目标地址;
修正模块320用于比较所述目标地址与所述种子地址间的地理位置和经纬度,确定目标地址是否错误,并对错误地址按照所述种子地址进行修正。
在上述实施例的基础上,优选地,所述匹配模块包括拆分单元和匹配单元,其中:
所述拆分单元用于将所述种子地址根据预设分词结构进行拆分,得到行政区划字段和门址字段;
所述匹配单元用于将所述地址库中地址与所述行政区划字段进行匹配,得到若干候选地址,继而,将所述候选地址与所述门址字段进行匹配。
在上述实施例的基础上,优选地,所述匹配单元包括层级匹配子单元和评分子单元,其中:
所述层级匹配子单元用于从所述地址库中匹配出与所述行政区划字段至少两个层级的字段相同的地址;
所述评分子单元用于对匹配出的地址所含的行政区划字段进行评分,选取评分大于第一预设阈值的地址作为所述候选地址。
在上述实施例的基础上,优选地,所述评分子单元中,所述对匹配出的地址所含的行政区划字段进行评分,包括:
按照行政区划各层级的完整性、行政区划后缀的完整性、行政区划字段的唯一性、行政区划各层级之间的文本距离进行加权评分。
在上述实施例的基础上,优选地,所述匹配模块还包括预判单元,其中,所述预判单元还用于判断匹配出的地址中,其行政区划的最末层级是否存在上一层级,若否,则删掉地址中该最末层级行政区划字段。
在上述实施例的基础上,优选地,所述匹配单元还包括候选子单元,其中,所述候选子单元用于匹配成功的候选地址,对其所含门址字段中的完整性进行加权评分,选取评分大于第二预设阈值的候选地址为目标地址。
在上述实施例的基础上,优选地,所述修正模块中,所述比较所述目标地址与所述种子地址间的地理位置和经纬度,确定所述目标地址是否错误,包括:
比较所述种子地址与所述目标地址中对应层级的门址字段的地理位置之间的距离,其与两地址经纬度之间的距离是否匹配,若不匹配则判定为错误地址。
上述基于种子地址修正错误地址的***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本实施例为与上述方法实施例相对应的***实施例,其具体实施过程与上述方法实施例相同,详情请参考上述方法实施例,本***实施例在此不再赘述。
图4为本发明实施例中提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作***、计算机程序和数据库。该内存储器为计算机存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于种子地址修正错误地址的方法过程中生成或获取的数据,如种子地址、地址库、目标地址等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一基于种子地址修正错误地址的方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的基于种子地址修正错误地址的方法的步骤。或者,处理器执行计算机程序时实现基于种子地址修正错误地址的***这一实施例中的各模块/单元的功能。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中基于种子地址修正错误地址的方法的步骤。或者,该计算机程序被处理器执行时实现上述基于种子地址修正错误地址的***这一实施例中的各模块/单元的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于种子地址修正错误地址的方法,其特征在于,包括:
将种子地址与地址库中地址进行匹配,得到至少一个目标地址;
比较所述目标地址与所述种子地址之间的地理位置和经纬度,确定所述目标地址是否错误,并对错误地址按照所述种子地址进行修正。
2.根据权利要求1所述的基于种子地址修正错误地址的方法,其特征在于,所述将种子地址与地址库中地址进行匹配,包括:
将所述种子地址根据预设分词结构进行拆分,得到行政区划字段和门址字段;
将所述地址库中地址与所述行政区划字段进行匹配,得到若干候选地址,继而,将所述候选地址与所述门址字段进行匹配。
3.根据权利要求2所述的基于种子地址修正错误地址的方法,其特征在于,所述将所述地址库中地址与所述行政区划字段进行匹配,得到若干候选地址,包括:
从所述地址库中匹配出与所述行政区划字段至少两个层级的字段相同的地址;
对匹配出的地址所含的行政区划字段进行评分,选取评分大于第一预设阈值的地址作为所述候选地址。
4.根据权利要求3所述的基于种子地址修正错误地址的方法,其特征在于,所述对匹配出的地址所含的行政区划字段进行评分,包括:
按照行政区划各层级的完整性、行政区划后缀的完整性、行政区划字段的唯一性、行政区划各层级之间的文本距离进行加权评分。
5.根据权利要求3所述的基于种子地址修正错误地址的方法,其特征在于,所述对匹配出的地址所含的行政区划字段进行评分之前,还包括:
判断匹配出的地址中,其行政区划的最末层级是否存在上一层级,若否,则删掉地址中该最末层级行政区划字段。
6.根据权利要求2所述的基于种子地址修正错误地址的方法,其特征在于,所述将所述候选地址与所述门址字段进行匹配之后,还包括:
匹配成功的候选地址,对其所含门址字段中的完整性进行加权评分,选取评分大于第二预设阈值的候选地址为目标地址。
7.根据权利要求1所述的基于种子地址修正错误地址的方法,其特征在于,所述比较所述目标地址与所述种子地址间的地理位置和经纬度,确定所述目标地址是否错误,包括:
比较所述种子地址与所述目标地址中对应层级的门址字段的地理位置之间的距离,其与两地址经纬度之间的距离是否匹配,若不匹配则判定为错误地址。
8.一种基于种子地址修正错误地址的***,其特征在于,包括:
匹配模块,用于将种子地址与地址库中地址进行匹配,得到至少一个目标地址;
修正模块,用于比较所述目标地址与所述种子地址间的地理位置和经纬度,确定目标地址是否错误,并对错误地址按照所述种子地址进行修正。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述基于种子地址修正错误地址的方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于种子地址修正错误地址的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130623.7A CN113987093A (zh) | 2021-09-26 | 2021-09-26 | 基于种子地址修正错误地址的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130623.7A CN113987093A (zh) | 2021-09-26 | 2021-09-26 | 基于种子地址修正错误地址的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987093A true CN113987093A (zh) | 2022-01-28 |
Family
ID=79736757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130623.7A Pending CN113987093A (zh) | 2021-09-26 | 2021-09-26 | 基于种子地址修正错误地址的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987093A (zh) |
-
2021
- 2021-09-26 CN CN202111130623.7A patent/CN113987093A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN108628811B (zh) | 地址文本的匹配方法和装置 | |
CN104572645B (zh) | 兴趣点数据关联方法及装置 | |
US11681927B2 (en) | Analyzing geotemporal proximity of entities through a knowledge graph | |
CN106021336A (zh) | 一种对批量地址信息进行自动行政区划划分的方法 | |
CN111291277A (zh) | 一种基于语义识别和高级语言搜索的地址标准化方法 | |
CN111291099B (zh) | 一种地址模糊匹配方法、***及计算机设备 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN107463711B (zh) | 一种数据的标签匹配方法及装置 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和*** | |
CN110990520A (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN111896016A (zh) | 位置信息的处理方法及装置、存储介质、终端 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN113434708B (zh) | 地址信息检测方法、装置、电子设备和存储介质 | |
CN112307169B (zh) | 地址数据的匹配方法、装置、计算机设备及存储介质 | |
CN110688995B (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN113987093A (zh) | 基于种子地址修正错误地址的方法及*** | |
CN115292962B (zh) | 基于轨迹抽稀的路径相似度匹配方法、设备及存储介质 | |
CN116303870A (zh) | 一种用于燃气管网数据治理的气量值映射方法与*** | |
CN115062108A (zh) | 一种获取标准化房产地址的方法 | |
CN114722824A (zh) | 地址处理方法、装置、存储介质及电子设备 | |
CN114003812A (zh) | 地址匹配方法、***、设备及存储介质 | |
CN115204167A (zh) | 一种基于地址信息确定行政区域的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |