CN112069276B - 地址编码方法、装置、计算机设备及计算机可读存储介质 - Google Patents

地址编码方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112069276B
CN112069276B CN202010899558.3A CN202010899558A CN112069276B CN 112069276 B CN112069276 B CN 112069276B CN 202010899558 A CN202010899558 A CN 202010899558A CN 112069276 B CN112069276 B CN 112069276B
Authority
CN
China
Prior art keywords
address
region
regional
coding
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010899558.3A
Other languages
English (en)
Other versions
CN112069276A (zh
Inventor
李硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010899558.3A priority Critical patent/CN112069276B/zh
Publication of CN112069276A publication Critical patent/CN112069276A/zh
Priority to PCT/CN2020/136330 priority patent/WO2021189977A1/zh
Application granted granted Critical
Publication of CN112069276B publication Critical patent/CN112069276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请属于智能决策技术领域,提供了一种地址编码方法、装置、计算机设备及计算机可读存储介质,该方法包括:当接收到地址编码请求时,对地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;从地域词组序列中提取最低层级行政区域的地域词,将提取的地域词与预存地域编码字典进行匹配,以确定提取的地域词对应的地域编码;根据确定的地域编码,确定待编码地址文本对应的目标trie树;从目标trie树中确定待编码地址文本对应的POI信息,作为述待编码地址文本的编码结果;通过训练好的可信度检测模型,检测编码结果的可信度类型。本申请能够满足海量地址文本的编码需求,并且能够确保编码结果的可靠性。

Description

地址编码方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及智能决策技术领域,尤其涉及一种地址编码方法、装置、计算机设备及计算机可读存储介质。
背景技术
地址编码是指根据地址文本找到其在地球上对应的位置(经纬度)。地址编码技术应用于很多领域,比如物流、地图搜索等领域,以地图搜索领域为例,地图应用需对用户的搜索地址进行编码,以在地图上显示搜索结果。
然而,随着用户数量的增长,地址编码的需求量也越来越多,达到千万甚至过亿级,现有采用接口调用服务器进行编码的方式,编码速度过慢,难以满足需求,且难以保证可靠性。
发明内容
本申请的主要目的在于提供一种地址编码方法、装置、计算机设备及计算机可读存储介质,旨在解决现有的地址编码方式编码速度过慢,难以满足海量地址文本的编码需求且可靠性低的技术问题。
第一方面,本申请提供了一种地址编码方法,所述方法包括:
当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;
从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码;
根据确定的所述地域编码,确定所述待编码地址文本对应的目标trie树;
从所述目标trie树中确定所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;
通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
第二方面,本申请还提供了一种地址编码装置,所述装置包括:
分词模块,用于当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;
匹配模块,用于从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码;
第一确定模块,用于根据确定的所述地域编码,确定所述待编码地址文本对应的目标trie树;
第二确定模块,用于从所述目标trie树中确定所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;
检测模块,用于通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的地址编码方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的地址编码方法。
本申请公开了一种地址编码方法、装置、计算机设备及计算机可读存储介质,当接收到地址编码请求时,对地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;然后从地域词组序列中提取最低层级行政区域的地域词,将最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定最低层级行政区域的地域词对应的地域编码;再根据确定的地域编码,确定待编码地址文本对应的目标trie树;之后,从目标trie树中确定待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;最后通过训练好的可信度检测模型,检测该编码结果的可信度类型。由于上述方式的实现以分布式服务器集群为基础,且结合了trie树,因此在对地址文本进行编码时,能够显著提升编码速度,从而能够在短时间内完成海量地址文本的编码,满足地址编码需求,最后采用训练好的可信度检测模型对编码结果进行可信度评估,能够保证后续使用编码结果的可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种地址编码方法的流程示意图;
图2为本申请实施例提供的另一种地址编码方法的流程示意图;
图3为本申请实施例提供的又一种地址编码方法的流程示意图;
图4为本申请实施例提供的一种地址编码装置的示意性框图;
图5为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种地址编码方法、装置、设备及计算机可读存储介质。其中,该地址编码方法主要应用于地址编码设备,该地址编码设备是由多台服务器组成的分布式服务器集群。其中,地址编码设备配置Spark框架。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种地址编码方法的流程示意图。
如图1所示,该地址编码方法包括步骤S101至步骤S105。
步骤S101,当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列。
当地址编码设备接收到地址编码请求时,从该地址编码请求中提取待编码地址文本,然后采用NLP(自然语言处理)技术对待编码地址文本进行分词操作,即,将待编码地址文本中表示行政区域、道路和其他的字符进行切分,切分行政区域时以待编码地址文本中含有的最低层级行政区域的字符为分界,得到包含行政区域、道路和/或其他词组序列,例如对“xx市xx区xx街道xx路xx花园旁边70m”进行分词操作得到的分词结果为“xx市xx区xx街道/xx路/xx花园/旁边70m”。
步骤S102,从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码。
其中,地址编码设备中存储有预先构建的地域编码字典,该地域编码字典中收录有国家行政区划的地域名称、国家行政区划的地域编码,以及二者之间的映射关系。
在得到地域词组序列之后,从词组序列中提取最低层级行政区域的地域词,然后将最低层级行政区域的地域词与预先构建的地域编码字典进行匹配,以确定最低层级行政区域的地域词对应的地域编码。
在一实施例中,所述将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码,具体为:将所述最低层级行政区域的地域词与预存地域编码字典进行比对,以确定预存地域编码字典中与所述最低层级行政区域的地域词匹配的预存地域名称;基于预存地域编码字典中,预存地域名称与预存地域编码的映射关系,确定与所述最低层级行政区域的地域词匹配的预存地域名称对应的预存地域编码;将确定的预存地域编码作为所述最低层级行政区域的地域词对应的地域编码。
也即,在预先构建的地域编码字典中,查找到与最低层级行政区域的地域词匹配的预存地域名称,然后基于预先构建的地域编码字典中,预存地域名称与预存地域编码之间的映射关系,确定与最低层级行政区域的地域词匹配的预存地域名称所对应的预存地域编码,该确定的预存地域编码即为最低层级行政区域的地域词对应的地域编码。
可以理解的是,若待编码地址文本中的最低层级行政区域为街道(镇),则最低层级行政区域的地域词对应的地域编码为街道(镇)编码;若待编码地址文本中的最低层级行政区域为区,则最低层级行政区域的地域词对应的地域编码为区编码;若待编码地址文本中的最低层级行政区域为市,则最低层级行政区域的地域词对应的地域编码为市编码。
步骤S103,根据确定的所述地域编码,确定所述待编码地址文本对应的目标trie树;
其中,地址编码设备中存储有预先构建的全国每个街道(镇)对应的两颗Trie树,这两颗Trie树以对应街道(镇)的地域编码为索引信息,其中一颗Trie树包含对应街道(镇)下的所有道路信息(定义为第一trie树),道路信息包括路名,另一颗Trie树包含对应街道(镇)下的所有POI(Point of Interest,信息点)信息(定义为第二trie树),POI信息包括POI名、地址和经纬度。
若待编码地址文本中的最低层级行政区域为街道(镇),将该街道(镇)编码与预存Trie树的索引信息进行比对,即可查找到待编码地址文本中的街道(镇)对应的第一trie树和第二trie树,将查找到的对应第一trie树和第二trie树定义为目标trie树。
若待编码地址文本中的最低层级行政区域为区,则可以根据该区编码,从预存地域编码字典中查找到该区下所有街道(镇)的编码,进一步将该区下每个街道(镇)的编码与预存Trie树的索引信息进行比对,即可查找到待编码地址文本中的区下每个镇对应的目标trie树。
若待编码地址文本中的最低层级行政区域为市,则可以根据该市编码,从预存地域编码字典中查找到该市下所有区的编码,并进一步查找到该市下每个区下所有街道(镇)的编码,再将每个区下每个街道(镇)的编码与预存Trie树的索引信息进行比对,即可查找到待编码地址文本中的市下每个区的每个镇对应的目标trie树。
步骤S104,从所述目标trie树中确定所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果。
若待编码地址文本中的最低层级行政区域为街道(镇),按路进行匹配,即,将待编码地址文本中的路名,与该街道(镇)对应的目标trie树中的第一trie树进行匹配,采用最大正向匹配算法计算待编码地址文本中的路名在该第一trie树中能够匹配的文本长度,当待编码地址文本中的路名在该第一trie树中能够匹配的文本长度达到预设第一阈值,则认为二者一致,确认在该第一trie树中匹配到路名。
进一步地,依据在该第一trie树中匹配到的路名,在目标trie树中的第二trie树中,按号进行匹配,即,将待编码地址文本中的号与该第二trie树进行匹配,从而从该第二trie树中找到匹配到的路名下,与待编码地址文本中的号相匹配的号,如此,便可从该第二trie树中确定所述待编码地址文本对应的POI信息。
此外,按号进行匹配时,若该第二trie树不存在与待编码地址文本中的号完全一致的号,则选取与待编码地址文本中的号的匹配程度达到预设第二阈值的号,作为与待编码地址文本中的号相匹配的号。其中,预设第一阈值和预设第二阈值均可以根据实际需要进行灵活设置,此处不作限定。
若待编码地址文本中的最低层级行政区域为区或市,则将待编码地址文本中的路名与该区下每个镇对应的第一trie树进行匹配,或将待编码地址文本中的路名与该市下每个镇对应的第一trie树进行匹配。
在一实施例中,所述从所述目标trie树中确定所述待编码地址文本对应的POI信息之后,还包括;判断所述待编码地址文本中是否存在模糊词和/或数字;若所述待编码地址文本中存在模糊词,则在确定的所述POI信息后添加模糊词,作为编码结果;若所述待编码地址文本中存在数字,则对所述数字进行归一化,并在确定的所述POI信息后添加归一化后的数字,作为编码结果;若所述待编码地址文本中存在模糊词和数字,则对所述数字进行归一化,并在确定的所述POI信息后依次添加模糊词和归一化后的数字,作为编码结果。
即,在匹配到待编码地址文本对应的POI信息之后,还判断待编码地址文本中是否存在模糊词和/或数字,模糊词如旁边、对面、东南方向,数字如200m。如果待编码地址文本中存在模糊词,则在匹配到的POI信息后添加模糊词,作为编码结果;如果待编码地址文本中存在数字,则对数字进行归一化处理,按照1-100归一化,例如200m取值为100m,如果是70m则取值为70m,在匹配到的POI信息后添加归一化后的数字,作为编码结果。如果模糊词后还存在数字,则对数字进行归一化处理,将归一化后的数字添加至模糊词后,作为编码结果。
步骤S104,通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
得到编码结果之后,还对编码结果进行可信度评估,具体地,将编码结果输入至预先训练好的可信度检测模型,得到可信度检测模型输出的编码结果的可信度类型,可信度类型包括完全准确、比较准确、基本准备、不准确。
在一实施例中,如图2所示,步骤S101之前,包括步骤S106至步骤S107。
步骤S106,获取国家行政区划数据,根据所述国家行政区划数据构建地域编码字典。
即,在步骤S101之前,需预先构建地域编码字典。具体地,采集国家行政区划数据,国家行政区划数据中包含全国省-市-区-街道(镇)的8位编码,这8位编码,从左至右,前两位数字表示省编码,前四位数字表示市编码,前六位数字表示区编码,最后两位数字表示街道(镇)编码,例如:
从每一省-市-区-街道(镇)的8位编码中提取前两位数字加上6个0,得到省编码,将省编码与省名称关联;再提取前四位数字加上4个0,得到市编码,将市编码与市名称关联;再提取前六位数字加上2个0,得到区编码,将区编码与区名称关联;8位编码为街道(镇)编码,与街道(镇)名称关联;根据关联的省编码与省名称、市编码与市名称、区编码与区名称、街道(镇)编码与街道(镇)名称,即可得到地域编码字典。
步骤S107,获取全国POI数据,根据所述全国POI数据构建各个街道或镇对应的Trie树,并分布式存储构建的所述Trie树。
即,在步骤S101之前,还需预先构建各个街道(镇)对应的Trie树。具体地,从地理信息供应商或者城市开放数据平台采集全国POI数据,每个POI包含类别、名称、地址、经纬度等信息,然后根据全国POI数据构建各个街道或镇对应的Trie树,然后分布式存储构建的Trie树,可以避免单台服务器存储中文Trie树内存溢出的问题,大大加快文字匹配时的计算速度。
在一实施例中,所述根据所述全国POI数据构建各个街道或镇对应的Trie树,具体为:对所述全国POI数据进行清洗;基于预先配置的Hadoop框架,采用所述Hadoop框架的Hive组件,将清洗后的全国POI数据按照预设格式存储至Hive表中,得到标准POI库;基于预先配置的Spark框架,针对所述标准POI库创建组件任务;执行所述组件任务,得到各个街道或镇对应的Trie树。
考虑到全国POI数据不仅仅是为地址编码服务的,因此采集的全国POI信息点数据可能会包括了冗余数据,对此,先对全国POI信息点数据进行清洗,过滤掉不需要的冗余数据。之后,基于地址编码设备的Hadoop框架(地址编码设备配置有Hadoop框架),采用Hadoop的Hive组件,按照“省-市-区-街道(镇)-路-号-POI名”的格式,将清洗后的全国POI数据存储至Hive表中,得到标准POI库。
进一步地,基于地址编码设备的Spark框架,针对标准POI库创建组件任务,以根据标准POI库构建trie树。具体地,针对标准POI库创建组件任务时,在Spark组件页面配置相应的任务参数,该任务参数包括执行时间、Spark代码等。其中,Spark代码定义了根据标准POI库构建trie树时的处理过程,该处理过程包括:
a、初始化标准POI库中的地址和POI;
b、基于地域编码字典中的街道(镇)编码,对标准POI库进行拆分,具体地,以街道(镇)编码为拆分基准,针对标准POI库中每个街道(镇)及其下属所有道路的信息构建两颗trie树,其中一颗trie树包括对应街道(镇)下的所有道路信息,定义为第一trie树,另一颗Trie树包含对应街道(镇)下的所有POI信息(POI名和经纬度),定义为第二trie树。
执行该组件任务,即可对Hive表中的标准POI库进行上述处理过程,得到各个街道(镇)对应的两颗Trie树。对各个街道(镇)对应的两颗Trie树进行分布式存储,并将街道(镇)编码作为对应Trie树的索引信息。
由此,通过采用分布式服务器集群,结合分布式存储的Trie树,后续对地址文本进行编码时,能够显著提升编码速度。
在一实施例中,如图3所示,步骤S101之前,包括步骤S108。
步骤S108,训练可信度检测模型,得到训练好的可信度检测模型。
即,在步骤S101之前,还需预先训练用于检测编码结果可信度的可信度检测模型。
在一实施例中,所述步骤S108,具体为:采集带有准确经纬度的地址文本作为训练数据;对所述训练数据进行编码得到编码结果,并在编码过程中提取所述训练数据的特征;根据所述训练数据的所述编码结果和所述特征训练SVM模型,得到训练好的SVM模型,作为训练好的可信度检测模型。
可信度检测模型可以是支持向量机SVM模型。具体地,首先采集带有准确经纬度的地址文本作为训练数据,先对训练数据进行编码,在编码的过程中提取训练数据的特征,比如是否有行政区、行政区对应级别、道路匹配比例、门牌号相似率、POI相似率、是否有模糊值、模糊值距离比例,然后根据训练数据的编码结果和训练数据的特征训练SVM模型。
SVM模型需要区分的可信度类型分为四种情况:完全准确、比较准确、基本准备、不准确,SVM模型的任务即为总结训练数据编码结果的规律,将这四种情况划分为四类,逐步形成自主的判断逻辑曲线,将与训练数据实际经纬度之间的球面距离小于20m的训练数据编码结果划分为完全准确,将与训练数据实际经纬度之间的球面距离位于20-100m范围内的训练数据编码结果划分为比较准确,将与训练数据实际经纬度之间的球面距离位于100-1000m范围内的训练数据编码结果划分为基本准备,将与训练数据实际经纬度之间的球面距离大于1000m范围内的训练数据编码结果划分为不准确,由此得到其判断可信度类型的标准,得到训练好的SVM模型,作为训练好的可信度检测模型,为后续对编码结果进行可信度评估奠定基础。
上述实施例提供的地址编码方法,当接收到地址编码请求时,对地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;然后从地域词组序列中提取最低层级行政区域的地域词,将最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定最低层级行政区域的地域词对应的地域编码;再根据确定的地域编码,确定待编码地址文本对应的目标trie树;之后,从目标trie树中确定待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;最后通过训练好的可信度检测模型,检测该编码结果的可信度类型。由于上述方式的实现以分布式服务器集群为基础,且结合了trie树,因此在对地址文本进行编码时,能够显著提升编码速度,从而能够在短时间内完成海量地址文本的编码,满足地址编码需求,最后采用训练好的可信度检测模型对编码结果进行可信度评估,能够保证后续使用编码结果的可靠性。
请参照图4,图4为本申请实施例提供的一种地址编码装置的示意性框图。
如图4所示,该地址编码装置400,包括:分词模块401、匹配模块402、第一确定模块403、第二确定模块404和检测模块405。
分词模块401,用于当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;
匹配模块402,用于从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码;
第一确定模块403,用于根据确定的所述地域编码,确定所述待编码地址文本对应的目标trie树;
第二确定模块404,用于从所述目标trie树中确定所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;
检测模块405,用于通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述地址编码方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是个人计算机(personal computer,PC)、服务器等具有数据处理功能的设备。
如图5所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种地址编码方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种地址编码方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码;根据确定的所述地域编码,确定所述待编码地址文本对应的目标trie树;从所述目标trie树中确定所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
在一些实施例中,所述处理器实现所述将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码,包括:
将所述最低层级行政区域的地域词与预存地域编码字典进行比对,以确定预存地域编码字典中与所述最低层级行政区域的地域词匹配的预存地域名称;
基于预存地域编码字典中,预存地域名称与预存地域编码的映射关系,确定与所述最低层级行政区域的地域词匹配的预存地域名称对应的预存地域编码;
将确定的预存地域编码作为所述最低层级行政区域的地域词对应的地域编码。
在一些实施例中,所述处理器实现所述从所述目标trie树中确定所述待编码地址文本对应的POI信息之后,还包括:
判断所述待编码地址文本中是否存在模糊词和/或数字;
若所述待编码地址文本中存在模糊词,则在确定的所述POI信息后添加模糊词,作为编码结果;
若所述待编码地址文本中存在数字,则对所述数字进行归一化,并在确定的所述POI信息后添加归一化后的数字,作为编码结果;
若所述待编码地址文本中存在模糊词和数字,则对所述数字进行归一化,并在确定的所述POI信息后依次添加模糊词和归一化后的数字,作为编码结果。
在一些实施例中,所述处理器实现所述当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列之前,包括:
获取国家行政区划数据,根据所述国家行政区划数据构建地域编码字典;
获取全国POI数据,根据所述全国POI数据构建各个街道或镇对应的Trie树,并分布式存储构建的所述Trie树。
在一些实施例中,所述处理器实现所述根据所述全国POI数据构建各个街道或镇对应的Trie树,包括:
对所述全国POI数据进行清洗;
基于预先配置的Hadoop框架,采用所述Hadoop框架的Hive组件,将清洗后的全国POI数据按照预设格式存储至Hive表中,得到标准POI库;
基于预先配置的Spark框架,针对所述标准POI库创建组件任务;
执行所述组件任务,得到各个街道或镇对应的Trie树。
在一些实施例中,所述处理器实现所述当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列之前,包括:
训练可信度检测模型,得到训练好的可信度检测模型。
在一些实施例中,所述处理器实现所述训练可信度检测模型,得到训练好的可信度检测模型,包括:
采集带有准确经纬度的地址文本作为训练数据;
对所述训练数据进行编码得到编码结果,并在编码过程中提取所述训练数据的特征;
根据所述训练数据的所述编码结果和所述特征训练SVM模型,得到训练好的SVM模型,作为训练好的可信度检测模型。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请地址编码方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种地址编码方法,其特征在于,所述地址编码方法包括以下步骤:
当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;
从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码;
根据确定的所述地域编码,确定所述待编码地址文本对应的目标字典树trie树,其中,所述目标trie树包括第一目标trie树和第二目标trie树,所述第一目标trie树包括所述待编码地址文本的最低层级行政区域下的所有道路信息,所述第二目标trie树包括所述待编码地址文本的最低层级行政区域下的所有信息点POI信息;
从所述第一目标trie树中确定与所述待编码地址文本匹配的道路名称,并根据所述道路名称,从所述第二目标trie树中匹配所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;
通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
2.根据权利要求1所述的地址编码方法,其特征在于,所述当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列之前,包括:
获取国家行政区划数据,根据所述国家行政区划数据构建地域编码字典;
获取全国POI数据,根据所述全国POI数据构建各个街道或镇对应的Trie树,并分布式存储构建的所述Trie树。
3.根据权利要求2所述的地址编码方法,其特征在于,所述根据所述全国POI数据构建各个街道或镇对应的Trie树,包括:
对所述全国POI数据进行清洗;
基于预先配置的分布式***Hadoop框架,采用所述Hadoop框架的数据仓库工具Hive组件,将清洗后的全国POI数据按照预设格式存储至Hive表中,得到标准POI库;
基于预先配置的计算引擎Spark框架,针对所述标准POI库创建组件任务;
执行所述组件任务,得到各个街道或镇对应的Trie树。
4.根据权利要求1所述的地址编码方法,其特征在于,所述将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码,包括:
将所述最低层级行政区域的地域词与预存地域编码字典进行比对,以确定预存地域编码字典中与所述最低层级行政区域的地域词匹配的预存地域名称;
基于预存地域编码字典中,预存地域名称与预存地域编码的映射关系,确定与所述最低层级行政区域的地域词匹配的预存地域名称对应的预存地域编码;
将确定的预存地域编码作为所述最低层级行政区域的地域词对应的地域编码。
5.根据权利要求1所述的地址编码方法,其特征在于,所述从所述目标trie树中确定所述待编码地址文本对应的POI信息之后,还包括:
判断所述待编码地址文本中是否存在模糊词和/或数字;
若所述待编码地址文本中存在模糊词,则在确定的所述POI信息后添加模糊词,作为编码结果;
若所述待编码地址文本中存在数字,则对所述数字进行归一化,并在确定的所述POI信息后添加归一化后的数字,作为编码结果;
若所述待编码地址文本中存在模糊词和数字,则对所述数字进行归一化,并在确定的所述POI信息后依次添加模糊词和归一化后的数字,作为编码结果。
6.根据权利要求1所述的地址编码方法,其特征在于,所述当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列之前,包括:
训练可信度检测模型,得到训练好的可信度检测模型。
7.根据权利要求6所述的地址编码方法,其特征在于,所述训练可信度检测模型,得到训练好的可信度检测模型,包括:
采集带有准确经纬度的地址文本作为训练数据;
对所述训练数据进行编码得到编码结果,并在编码过程中提取所述训练数据的特征;
根据所述训练数据的所述编码结果和所述特征训练支持向量机SVM模型,得到训练好的SVM模型,作为训练好的可信度检测模型。
8.一种地址编码装置,其特征在于,所述地址编码装置包括:
分词模块,用于当接收到地址编码请求时,对所述地址编码请求携带的待编码地址文本进行分词操作,得到地域词组序列;
匹配模块,用于从所述地域词组序列中提取最低层级行政区域的地域词,将所述最低层级行政区域的地域词与预存地域编码字典进行匹配,以确定所述最低层级行政区域的地域词对应的地域编码;
第一确定模块,用于根据确定的所述地域编码,确定所述待编码地址文本对应的目标trie树,其中,所述目标trie树包括第一目标trie树和第二目标trie树,所述第一目标trie树包括所述待编码地址文本的最低层级行政区域下的所有道路信息,所述第二目标trie树包括所述待编码地址文本的最低层级行政区域下的所有信息点POI信息;
第二确定模块,用于从所述第一目标trie树中确定与所述待编码地址文本匹配的道路名称,并根据所述道路名称,从所述第二目标trie树中匹配所述待编码地址文本对应的POI信息,作为所述待编码地址文本的编码结果;
检测模块,用于通过训练好的可信度检测模型,检测所述编码结果的可信度类型。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的地址编码方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的地址编码方法的步骤。
CN202010899558.3A 2020-08-31 2020-08-31 地址编码方法、装置、计算机设备及计算机可读存储介质 Active CN112069276B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010899558.3A CN112069276B (zh) 2020-08-31 2020-08-31 地址编码方法、装置、计算机设备及计算机可读存储介质
PCT/CN2020/136330 WO2021189977A1 (zh) 2020-08-31 2020-12-15 地址编码方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899558.3A CN112069276B (zh) 2020-08-31 2020-08-31 地址编码方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112069276A CN112069276A (zh) 2020-12-11
CN112069276B true CN112069276B (zh) 2024-03-08

Family

ID=73666253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899558.3A Active CN112069276B (zh) 2020-08-31 2020-08-31 地址编码方法、装置、计算机设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112069276B (zh)
WO (1) WO2021189977A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111435360B (zh) * 2019-01-15 2023-08-29 菜鸟智能物流控股有限公司 地址类型识别方法和装置以及电子设备
CN112069276B (zh) * 2020-08-31 2024-03-08 平安科技(深圳)有限公司 地址编码方法、装置、计算机设备及计算机可读存储介质
CN112835897B (zh) * 2021-01-29 2024-03-15 上海寻梦信息技术有限公司 地理区域划分管理方法、数据转换方法及相关设备
CN113987108B (zh) * 2021-11-07 2024-05-14 国家电网有限公司客户服务中心 一种基于电力数据进行企业身份识别的方法及装置
CN114153851A (zh) * 2021-12-06 2022-03-08 智慧足迹数据科技有限公司 Geohash索引方法、装置、计算机设备及存储介质
CN114491089B (zh) * 2022-01-28 2023-08-29 北京百度网讯科技有限公司 地址获取方法、装置、电子设备、介质
CN115526147A (zh) * 2022-08-30 2022-12-27 江苏新流数字科技有限公司 一种可读取物理空间的编码及其编制方法和应用
CN116246288B (zh) * 2023-05-10 2023-08-04 浪潮电子信息产业股份有限公司 一种文本编码方法、模型训练方法、模型匹配方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN107798065A (zh) * 2017-09-21 2018-03-13 平安科技(深圳)有限公司 一种客户号编码方法、应用服务器、***及存储介质
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109145073A (zh) * 2018-08-28 2019-01-04 成都市映潮科技股份有限公司 一种基于分词算法的地址解析方法及装置
CN109408781A (zh) * 2018-10-09 2019-03-01 北京邮电大学 一种基于行政区划的寄递地址编码方法
CN110990520A (zh) * 2019-11-28 2020-04-10 中国建设银行股份有限公司 一种地址编码方法、装置、电子设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7046827B2 (en) * 2002-02-15 2006-05-16 International Business Machines Corporation Adapting point geometry for storing address density
CN103699623B (zh) * 2013-12-19 2017-07-04 百度在线网络技术(北京)有限公司 地理编码实现方法和装置
CN105468632B (zh) * 2014-09-05 2019-08-09 高德软件有限公司 一种地理编码方法及装置
CN106874287B (zh) * 2015-12-11 2020-06-30 北京四维图新科技股份有限公司 一种兴趣点 poi 地址编码的处理方法及装置
CN107291785A (zh) * 2016-04-12 2017-10-24 滴滴(中国)科技有限公司 一种数据查找方法及装置
CN109344213B (zh) * 2018-08-28 2021-06-18 浙江工业大学 一种基于字典树的中文地理编码方法
CN109933797A (zh) * 2019-03-21 2019-06-25 东南大学 基于Jieba分词及地址词库的地理编码方法和***
CN112069276B (zh) * 2020-08-31 2024-03-08 平安科技(深圳)有限公司 地址编码方法、装置、计算机设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN107798065A (zh) * 2017-09-21 2018-03-13 平安科技(深圳)有限公司 一种客户号编码方法、应用服务器、***及存储介质
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109145073A (zh) * 2018-08-28 2019-01-04 成都市映潮科技股份有限公司 一种基于分词算法的地址解析方法及装置
CN109408781A (zh) * 2018-10-09 2019-03-01 北京邮电大学 一种基于行政区划的寄递地址编码方法
CN110990520A (zh) * 2019-11-28 2020-04-10 中国建设银行股份有限公司 一种地址编码方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2021189977A1 (zh) 2021-09-30
CN112069276A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112069276B (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN108304423B (zh) 一种信息识别方法及装置
CN108628811B (zh) 地址文本的匹配方法和装置
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN110674419B (zh) 地理信息检索方法、装置、电子设备及可读存储介质
CN111382212B (zh) 关联地址获取方法、装置、电子设备及存储介质
CN112364238B (zh) 一种基于深度学习的用户兴趣点推荐方法与***
CN110990520A (zh) 一种地址编码方法、装置、电子设备和存储介质
CN108733810A (zh) 一种地址数据匹配方法及装置
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN111460054B (zh) 地址数据处理方法及装置、设备和存储介质
CN111831929A (zh) 一种获取poi信息的方法及装置
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN112507189B (zh) 基于BiLSTM-CRF模型的金融用户画像信息提取方法及***
US11821748B2 (en) Processing apparatus and method for determining road names
CN114443983A (zh) 模型训练、应用方法及计算机存储介质
CN114036414A (zh) 兴趣点的处理方法、装置、电子设备、介质及程序产品
CN111858787B (zh) 一种poi信息获取的方法及装置
CN113987333A (zh) 一种目的地区域的推荐方法和装置
CN116431625A (zh) 一种地理实体的定位分析方法、装置及计算机设备
CN112861532B (zh) 地址标准化处理方法、装置、设备及在线搜索***
CN114003812A (zh) 地址匹配方法、***、设备及存储介质
CN112579713B (zh) 地址识别方法、装置、计算设备及计算机存储介质
CN113515677A (zh) 地址匹配方法、装置及计算机可读存储介质
CN114742060B (zh) 实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant