CN109101474B - 一种地址聚合的方法、包裹聚合的方法以及设备 - Google Patents
一种地址聚合的方法、包裹聚合的方法以及设备 Download PDFInfo
- Publication number
- CN109101474B CN109101474B CN201710468203.7A CN201710468203A CN109101474B CN 109101474 B CN109101474 B CN 109101474B CN 201710468203 A CN201710468203 A CN 201710468203A CN 109101474 B CN109101474 B CN 109101474B
- Authority
- CN
- China
- Prior art keywords
- standard
- addresses
- address
- cluster
- package
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种地址聚合的方法、包裹聚合的方法以及设备,涉及数据处理技术领域。所述地址聚合的设备包括:门址获取装置,用于获取全国范围内的多个标准门址;地址转化装置,用于将多个标准门址转化为多个结构化地址;特征提取装置,用于对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合;相似度确定装置,用于根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;地址聚合装置,用于根据所述相似度将所述多个标准门址进行聚合,得到多个簇。利用本申请实施例,实现了将属于同一区域的标准门址聚合到同一簇下,以便后续提升包裹聚合的效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种地址聚合的方法、包裹聚合的方法、地址聚合的设置以及包裹聚合的设备。
背景技术
目前,在物流末端的揽派场景中,每个快递员的揽派范围一般包括多个小区或多个写字楼。现有技术中,一般按照各个包裹的收货地址首先人工手动将属于同一小区或同一写字楼的包裹进行分拣,然后按照不同的小区或写字楼一并处理,如将同一个小区的包裹批量通知用户,或者将同一个小区的包裹批量投入自提柜,将同一个小区的包裹一起派给某一个快递员逐个进行派送。
随着物流行业和地理信息技术的飞速发展,人们对于物流派送的时效性的需求越来越高,上述物流末端的派送方式无法满足高速派送的需求。现有技术中物流末端的揽派场景中通过人工手动对包裹进行分拣,存在派送效率低、降低了用户体验的缺陷,且存在一定的分拣误差,会进一步降低配送效率。
因此,如何研究和开发出一种新的方案,其能够对包裹进行聚合,识别出不同的包裹是否属于同一个小区、写字楼等区域,在物流末端的揽派场景通过聚合结果对包裹进行自动化分拣是本领域亟待解决的技术难题。
发明内容
本申请实施例的目的是提供一种地址聚合的方法、包裹聚合的方法以及设备,识别不同的标准门址是否属于同一区域,实现了将属于同一区域的标准门址聚合到同一簇下,以便后续提升包裹聚合的效率。
为解决上述技术问题,本申请实施例是这样实现的:
根据本申请的第一方面,提出了一种地址聚合的方法,包括:
获取多个标准门址;
将多个标准门址转化为多个结构化地址;
对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合,所述特征集合包括兴趣区域属性信息;
根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;
根据所述相似度将所述多个标准门址进行聚合,得到多个簇。
根据本申请的第二方面,提出了一种地址聚合的设备,包括:
门址获取装置,用于获取全国范围内的多个标准门址;
地址转化装置,用于将多个标准门址转化为多个结构化地址;
特征提取装置,用于对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合,所述特征集合至少包括兴趣区域的道路及路号信息和/或兴趣区域的名字;
相似度确定装置,用于根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;
地址聚合装置,用于根据所述相似度将所述多个标准门址进行聚合,得到多个簇。
根据本申请的第三方面,提出了一种包裹聚合的方法,包括:
获取多个标准门址;
确定所述多个标准门址中任意两个标准门址之间的相似度,根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
分别为所述多个簇创建包裹聚合模型;
获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。
根据本申请的第四方面,提出了一种包裹聚合的设备,包括:
门址获取装置,用于获取多个标准门址;
地址聚合装置,用于确定所述多个标准门址中任意两个标准门址之间的相似度,根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
包裹聚合模型建立装置,用于分别为所述多个簇创建包裹聚合模型;
模型匹配装置,用于获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。
由以上本申请实施例提供的技术方案可见,本申请实施例首先获取多个标准门址,将标准门址转化为结构化地址,对结构化地址进行基于兴趣区域的特征提取,得到特征集合,根据相似度将多个标准门址进行聚合,得到多个簇,实现了将属于同一区域的标准门址聚合到同一簇下,其次根据簇构造包裹聚合模型,最后将物流包裹上的通信地址和包裹聚合模型相匹配,得到最优的簇,从而使得同一个区域的包裹聚到同一个簇下,提升了包裹聚合的效率。
为让本申请的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种包裹聚合的设备的场景示意图;
图2为本申请一种地址聚合的设备的实施方式一的结构框图;
图3为本申请一种地址聚合的设备的实施方式二的结构框图;
图4为本申请一种地址聚合的方法的实施方式一的流程图;
图5为本申请一种地址聚合的方法的实施方式二的流程图。
具体实施方式
本申请实施例提供一种包裹聚合的方法、地址聚合的方法、包裹聚合的设备以及地址聚合的设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
下面首先介绍本申请涉及的术语。
特征(Feature):是一个客体或一组客体特性的抽象结果,是用来描述概念。
聚类(Clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
n-gram:若一个句子S由m个词构成(w1w2w3…wm),则n-gram定义为:{wiwi+1…wi+n-1|1≤i≤m-n+1}。
k-skip-n-gram:若一个句子S由m个词构成(w1w2w3…wm),则k-skip-n-gram定义为:{wi1wi2…win|∑ij-ij-1<k}。
gram:若干个词组合在一起构成一个gram,一般指通过ngram提取的特征实例。
通讯地址:一连串的字符,内含省市、区县、乡镇街道、门牌号码、屋邨、大厦等建筑物名称,或者再加楼层数目、房间编号等,一个有效的地址是独一无二。
收货地址:是人们接收包裹或信件的通讯地址。
结构化地址:是通讯地址通过分词之后产生的带有结构性标注的字串,如标注上:省、市、区县、街道、社区、道路、门牌号、POI标识、楼栋号,单元号、房间号等。
详细地址:通讯地址中除去行政区划之后的部分。
兴趣点(POI):地理信息***中的术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。兴趣点的主要用途是对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。
兴趣区域(Area of Interest,AOI):指带有一定地理区域的地理对象,如小区、村庄,写字楼、学校、医院、工业园、科技园区等,泛指大范围的POI。
tf-idf:TF词频(Term Frequency),IDF逆向文件频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。
图1为本申请一种包裹聚合的设备的场景示意图,在物流末端的揽派场景中,随着物流行业和地理信息技术的飞速发展,包裹的数量越来越多。如何判断不同的包裹是否属于同一个小区、写字楼等一个拥有自然边界的兴趣区域,成为制约行业效率的一个关键因素,如在物流场景中,将包裹按照兴趣区域分堆,可大大提升包裹自动化分拣、揽收、派送效率。图2为本申请一种地址聚合的设备的实施方式一的结构框图,请参阅图2,本申请提供的一种地址聚合的设备包括:
门址获取装置100,用于获取多个标准门址。在具体的实施方式中,可通过现有技术中的相关工具(诸如百度地图、高德地图等),得到标准门址,此处的标准门址为一定范围内的标准门址,一定范围诸如全国范围内、某省范围内等,标准门址一般包括标准地址和标准地址相关的经纬度。标准门址要求地址必须精确到四级(含省、市、区县、乡镇街道),门牌号和AOI对应,行政区划信息和详细地址对应,地址标准干净,无错误。
地址转化装置200,用于将多个标准门址转化为多个结构化地址。
在本申请的一种实施方式中,可通过分词工具将所述标准门址转化为结构化地址,具体的,对标准门址进行分词,目的是提取标准门址中的地名信息,然后为每个地名信息加上语义标注信息(标注的内容主要有:省级行政区prov、地级行政区city、县级行政区district、乡级行政区town、开发区devZone、社区/村委会community、主路road、子路subRoad、主路号roadNo、子路号subRoadNo、AOI、更小范围的AOI subAoi、楼栋号houseNo、单元号cellNo、楼层号floorNo、房间号roomNo、房间内部的实体entity等,至少包括兴趣区域的道路及路号信息和/或兴趣区域的名字),最后依据标注的语义信息将地名信息放入结构化模板中,则得到结构化地址。
以浙江省杭州市西湖区三墩街道余杭塘路866号浙江大学紫金港校区为例,转化得到的结构化地址为浙江省/省、杭州市/市、西湖区/区、三墩街道/街道、余杭塘路/路、866号/路号、浙江大学紫荆港校区/AOI的名称。
特征提取装置300,用于对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合。由于本申请是将地址按照兴趣区域AOI维度聚合在一起,因此特征提取装置要以AOI为中心做特征提取,通过将行政区划信息(省、市、区县、街道、社区等)和AOI的核心决定因素组合在一起,从而大大增加提取的特征量。因此所述特征集合包括兴趣区域属性信息,此处的兴趣区域属性信息包括区域的道路及路号信息和/或区域名字。一个标准门址转化为一个结构化地址,一个结构化地址经过特征提取得到一个特征集合。
在本申请的一种实施方式中,可直接对结构化地址进行特征提取,提取出结构化地址中的所有特征,组成特征集合。以标准门址中的标准地址浙江省杭州市西湖区三墩街道余杭塘路866号浙江大学紫金港校区为例,转化得到的结构化地址为浙江省/省、杭州市/市、西湖区/区、三墩街道/街道、余杭塘路/路、866号/路号、浙江大学紫荆港校区/AOI,则提取得到的特征集合为浙江省、杭州市、西湖区、三墩街道、余杭塘路、866号、浙江大学紫荆港校区。在实施例中,特征集合包括了道路及路号信息和区域名字。
标准地址通过结构化之后,转化成一个结构化对象,因此特征提取可以通过结构化对象中字段组合的方式来实现,即特征可模板化。在本申请的一种实施方式中,可通过预先定义特征模板的方式,将结构化地址中的特征抽取出来。举例而言,如果特征模板中的特征在结构化地址中都存在,那么该结构化地址可以转化成多个特征,如果有特征不存在,则该特征不输出到特征集中。特征模板中预先定义了多个特征。
特征模板是由地址结构化对象的成员字段构成,只有模板中含有的所有结构化对象成员字段都不为空的时候,才会有特征提取出来,否则提取出的结果为空。由于本申请的目标是将包裹按照AOI维度聚合在一起,所以一定要以AOI为中心做特征提取(具体的做法是每个特征里必须至少含有能决定AOI的信息),AOI的决定因素主要有:
1)AOI的名字,主要是小区、写字楼、学校、医院的名字,如:乐佳国际大厦、阿里巴巴西溪园区;
2)AOI的门牌号,如:良睦路999号、文一西路969号。
通过将行政区划信息(省、市、区县、街道、社区等)和AOI的核心决定因素组合在一起,从而大大增加提取的特征量。在本申请的一种实施方式中,特征模板的结构定义可如下表1所示:
表1
表1所示的实施例是基于模板的ngram(基于模板N元模型,template-basedngram)特征提取,预先定义了6个模板,以“浙江省杭州市余杭区仓前街道良睦路999号乐佳国际大厦”,其结构化的地址为“浙江省/prov杭州市/city余杭区/district仓前街道/town良睦路/road999号/roadNo乐佳国际大厦/AOI写字楼/AOI类别”,其中斜线后面的部分均为语义标注信息,标识当前词在地址中的结构信息,基于表1的特征模板提取的特征如表1右侧所示。
在本申请的另一种实施方式中,预先设定的模板中还可以设定特征模板中还可以包括其他信息,如歧义度等级,如表2所示:
表2
在表2所示的特征模板实例中,基于模板的N元模型包括6个,第一列为特征模板n-gram,第二列为歧义度等级,歧义度等级可以表示该n-gram所抽取的特征是否能唯一的确定具体的地址,以及歧义程度如何,0表示完全无歧义(若两个AOI地址包含此类特征,可直接判定为同义AOI地址),1表示稍有歧义,2表示歧义较大,可以依次定义歧义等级。基于表2的特征模板提取的特征如表2右侧所示。在表2所示的实施例中,提取得到的所述标准门址对应的特征集合中的多个特征对应的歧义度为所述N元模型的歧义度,如:表2中的Ngram特征模板road,roadNo,AOI的歧义度等级设置为1,则在实施例中提取的特征集合中的特征“良睦路”、“999号”、“乐佳国际大厦”的歧义度均为1,即稍有歧义。
请参阅图2,该设备还包括相似度确定装置400,用于根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度。在本申请的一种实施方式中,通过相似度公式依次确定两个标准门址之间的相似度。具体的,相似度公式可为jaccard相似度(公式1)、余弦相似度(公式2)、公式3或公式4,如下所示:
其中,基于杰卡德(jaccard)相似性计算两个标准门址对应的特征集合的相似度,假定两个特征集合的特征向量用A和B表示,杰卡德相似性计算方法见公式1。公式2为欧氏距离(余弦相识度),公式3是两个特征集合之间的特征交集的个数除以两个集合中个数较小的数,得到相似度得分。公式4是两个特征集合之间的特征交集的个数除以两个集合中个数较大的数,得到相似度得分。
请参阅图2,地址聚合的设备还包括地址聚合装置500,用于根据所述相似度将所述多个标准门址进行聚合,得到多个簇。
在本申请的一种实施方式中,所述地址聚合装置500包括:
相似门址确定模块,用于确定每个标准门址的相似标准门址,在本申请的一种实施方式中,当相似度确定装置400计算出两个标准门址之间的相似度大于或等于一预设阈值时,将所述两个标准门址作为相似标准门址。在实际的使用过程中,当相似度确定装置400根据公式1确定两个标准门址之间的相似度时,预设阈值可为0.33,当相似度大于或等于0.33时,这两个标准门址认为是相似标准门址。
在本申请的另一种实施方式中,当两个标准门址对应的特征集合中存在相同的特征且所述相同的特征的歧义度等级为无歧义时,将所述两个标准门址作为相似标准门址。也即,在表2所示的具体实施例中,若两个标准门址各自对应的特征集合中存在相同的特征,且该相同特征的歧义度等级为0即无歧义时,表示这两个标准门址可以合并。
在本申请的又一种实施方式中,当两个标准门址对应的特征集合中存在同义的兴趣区域时,将所述两个标准门址作为相似标准门址。也即,若在四级行政区划下两个AOI的名字是同义,则所在的特征集合可合并。
具体的,诸如图1所示的物流末端的揽派场景中,假设共有编号为1、2、……8的8个包裹,根据包裹地址可分别得到对应8个标准门址,通过相似地址确定模块可确定出每个标准门址对应的标准门址,如表3所示:
表3
判断模块,用于判断每个标准门址以及对应的相似标准门址是否在簇中,当判断为否时,执行第一加入模块,否则,执行第二加入模块;
所述第一加入模块,用于将所述标准门址以及对应的相似标准门址加入到一新建的簇中;
所述第二加入模块,用于将所述标准门址以及对应的相似标准门址加入所述簇中;
地址聚合模块,用于将所述标准门址以及对应的相似标准门址加入所述簇中。
在具体的实施方式中,可通过遍历所有的标准门址,依次判断每个标准门址以及对应的相似标准门址是否在簇中,当不存在时,说明该标准门址及其对应的相似标准门址尚无一个簇,因此需要加入一新建的簇中,否则,将该标准门址及其对应的相似标准门址加入该簇中。如表1所示的实施例中,从编号1遍历至编号8,则编号为1的标准门址及其对应的相似标准门址2、6并未加入簇中,因此新建一簇,设该簇的编号为1,则该簇中此时有1、2、6,其次遍历编号至编号8,最终聚合得到的簇为两个,如表4所示。
表4
簇ID | 该簇中的标准门址的编号 |
1 | 1、2、4、6、7、8 |
2 | 3、5 |
也即,若A、B、C代表3个不同的AOI地址,若A与B是同义AOI地址,B与C是同义AOI地址,则A、B、C互为同义AOI地址,可归并到同一个簇下,本申请是基于此原理实现的地址聚合方法。
在图1所示的实施例中,经过本申请的地址聚合设备处理之后,最终将8个包裹分为两个兴趣区域,其中一个兴趣区域中有6个包裹,另一个兴趣区域中有2个包裹,如此,如图1所示的物流场景中,将包裹按照兴趣区域分堆,可大大提升包裹自动化分拣、揽收、派送效率。
在本申请的另一种实施方式中,地址聚合装置500可通过双循环遍历,依次找到每个标准门址与之相似的标准门址,然后通过簇合并算法将相似的簇合并到一起。具体的,双循环遍历找到每个标准门址与之相似的标准门址的算法伪代码如下所示:
诸如图1所示的物流末端的揽派场景中,假设共有编号为1、2、……8的8个包裹,分别对应8个标准门址,通过双循环遍历输出的结果如表5所示:
表5
通过簇合并算法将簇合并到一起,具体算法是依次遍历每个标准门址的列表,查找每个标准门址的key是否已在簇列表中,如果是将此标准门址与簇列表中相对应的簇进行合并,最终得到聚合后的簇,具体算法伪代码如下所示:
输入:cluster_in=[],列表中包含形如{cluster_key_id,list(clusterid)}的dict,cluster_key_id为当前初始簇号,list(clusterid)为与当前簇相同或相近的初始簇号
输出:cluster_out=[],dict类型的列表
如表6所示,该算法主要通过索引的方式将相似的簇合并到一起,最终将8个标准门址合并为两个簇,即(1,2,4,6,7,8)为一个簇,(3,5)为一个簇。
表6
如上所述,本申请实施例首先将全国范围内的标准门址转化为结构化地址,对结构化地址进行特征提取,得到特征集合,所述特征集合至少包括区域的道路及路号信息和/或区域名字,其次通过特征集合确定标准门址之间的相似度,最后根据相似度将多个标准门址进行聚合,得到多个簇,实现了将属于同一区域的不同的标准门址聚合到同一簇下。
实施方式一中基于地址聚合算法将同一个区域的标准门址聚在一个簇下,在本发明的其他实施方式中还可以据此构造包裹聚合模型。图3为本申请一种地址聚合的设备的实施方式二的结构框图,请参阅图3,在实施方式二中该设备还包括:
簇命名装置600,用于对得到的多个簇进行命名,得到所述簇的名称。在本申请的一种实施方式中,簇命名装置600得到所述簇的名称可为簇ID,如表4所示,用簇ID作为簇的名称。
在本申请的一种实施方式中,当将簇ID命名为簇的名称时,本申请提供的设备还包括包裹聚合模型建立装置700,用于获取组成所述簇的多个标准门址对应的多个特征集合;将所述特征集合中的特征关联所述簇ID;根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型。在该实施方式中,以基于模板提取的特征gram为term,关联的簇ID为文档ID创建倒排索引,每个gram对簇ID的权重可用tf-idf来计算,可为后续检索过程提供基础的gram检索功能。文本模型解决的是直接通过文本相似度匹配最优的AOI:特征结合簇ID倒排索引。
在本申请的一种实施方式中,本申请提供的设备还包括模型匹配装置800,用于获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。
也即当文本模型建立成功后,后续到达物流末端揽派处的包裹,可将包裹的通信地址直接在文本模型中进行搜索,通过文本相似度匹配最优的AOI,得到该包裹地址对应的兴趣区域。用户的收货地址一般是标准地址省略部分地名的结果,即用户地址一般是标准地址的子串,在本实施方式中通过各种组合大大提升文本模型的匹配率。
在本申请的一种实施方式中,当将簇ID命名为簇的名称时,本申请提供的设备包括的包裹聚合模型建立装置还用于建立经纬度模型。本实施例中的将维度模型主要是将AOI周边商业点(在文本上与AOI不匹配)上包裹就近聚在附近AOI上,如小区、学校、写字楼等AOI周边商业性质的点,如便利店,各种类型的小店,餐馆等,其地址与AOI地址一般不匹配,但由于就在AOI周边,可聚在AOI包裹簇中。
在该实施方式中,包裹聚合模型建立装置用于获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度;将所述多个标准门址关联所述簇ID;根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;在所述多边形中建立网格;建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
具体的,将标准门址关联簇ID,即簇ID会圈住一个标准地址集,标准地址上会有经纬度信息,所以也会圈住一个个经纬度点集,这些点集的平均值即为AOI的中心点。AOI簇所圈住的经纬度点,这些经纬度点最***的点连接而来的边界即为AOI多边形。AOI多边形可以通过多种方式来表示,下面以网格为例进行说明:
i.100米*100米的网格,可用经度和纬度小数点保留3位来实现,网格ID用经纬度拼在一起的字符串来标识,如经度:116.379861,纬度:40.077701,网格ID为:116379_40077。
ii.50米*50米的网格,可用经度和纬度小数点保留4位来实现,网格ID用经纬度拼在一起的字符串来标识,如经度:116.379861,纬度:40.077701,网格ID为:1163798_400777。
iii.geohash前7位网格。
iv.通过上述方法建立网格ID和簇ID的映射关系。
v.多边形检索:可基于用户地址的经纬度计算出所在的网格ID,基于网格ID求出簇ID。
在本申请的一种实施方式中,本申请提供的设备包括的模型匹配装置800还用于获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。也即当经纬度模型建立成功后,后续到达物流末端揽派处的包裹,可将包裹地址直接在经纬度模型中进行搜索,最优的AOI,得到该包裹地址对应的兴趣区域。
在本申请的一种实施方式中,当将簇ID命名为簇的名称时,本申请提供的设备包括的包裹聚合模型建立装置还可建立包裹聚合模型,所述包裹聚合模型同时包括文本模型建立装置以及经纬度模型建立装置。如此,当文本模型以及经纬度模型建立成功后,后续新到达物流末端揽派处的包裹,由于包裹地址转经纬度会有一个误差,再加上用户的包裹地址一般不是标准门址,所以文本模型比经纬度模型要准一些。在该实施方式中对于用户包裹上的地址在检索时可以首先检索文本模型,若文本模型有结果则直接确定范围,否则再检索经纬度模型。
如此,本申请提供的设备能够识别同一个AOI地址的不同表达方式(同义AOI地址),从而将同一个AOI内的包裹聚在一起,于此同时将AOI周边商业地址上的包裹和AOI内部的包裹聚在一起,从而大大提升包裹聚合的效率。将包裹按照小区、学校校区、写字楼等AOI聚在一起,使得同AOI内的包裹在业务上一起处理,从而大大提升业务效能。包裹聚合技术相比其他技术的优势:
1.聚在一起的包裹在空间上相互可达。
2.不会把天然障碍物如:主干道、河流、小区围墙、山等两侧的包裹聚在一起。
3.聚在一起的包裹其经纬度之间的直线距离接近实际可行走距离。
4.同一个簇内部,从省级行政区到AOI级别,均为同义地址,因此本发明有利于实现地址的标准化。
在本申请的一种实施方式中,为了方便派件员进行派件,簇命名装置600还可为簇进行命名,且为了便于派件员进行识别,簇名不为簇ID。
在一种实施方式中,簇命名装置600包括:特征集合获取模块,用于获取组成所述簇的多个标准门址对应的特征集合;
频次确定模块,用于根据所述特征集合依次确定每个道路及路号信息的频次以及名称的频次;
名称选择模块,用于将频次最高的特征作为所述簇的名称。
在该实施方式中,统计簇下的所有标准门址的特征集合中道路及路号信息出现的频次以及名称出现的频次,将频次最高的特征作为簇的名称。
在本申请的又一种实施方式中,簇命名装置600包括:
特征集合获取模块,用于获取组成所述簇的多个标准门址对应的特征集合;
区域名称筛选模块,用于从所述特征集合中筛选出多个兴趣区域的名称;
名称选择模块,用于将实际使用频率最高的兴趣区域的名称作为所述簇的名称。
在该实施方式中,统计簇下的所有标准门址的特征集合中所有的名称,将实际使用频率最高的兴趣区域的名称作为所述簇的名称。
在本申请的其它实施方式中,簇名的选择标准还可为:必须含有AOI的决定因素:AOI的名字或门牌号,聚包裹能力要强即所辖范围要大,经常被用户使用的名字。在具体的实施例中,可通过下述步骤进行:统计每个从特征模板中提取的gram的词频,然后过滤掉不能为簇名字的特征,仅保留AOI,AOI类别、road,roadNo、road,roadNo,AOI三个模板提取的特征gram,取这3个模板中频率topN的gram特征,由于road,roadNo,AOI从模板上看含有road,roadNo和AOI,表达了门牌号和AOI的共现关系,因此需要将此共现关系加在road,roadNo和AOI提取的特征上,实现方式为遍历road,roadNo,AOI模板所有gram,按照road,roadNo和AOI分割成两个gram,并将基于模板road,roadNo,AOI提取的gram上的词频加权到road,roadNo和AOI的gram上。在对AOI为模板提取的gram按照AOI类型排序,分别取AOI和road,roadNo排名第一的gram,取他们频率的比值ratio,若大于设定的阈值threshold说明本簇以AOI名字命名更优,否则取门牌号road,roadNo。
如上所述,本申请实施例首先基于地址聚合算法识别同一个区域的标准门址,将同一个区域下的门址聚在一个簇下,其次构造包裹聚合模型,最后将物流包裹上的通信地址和包裹聚合模型相匹配,得到最优的簇,从而使得同一个区域的包裹聚到同一个簇下,此外还可对簇进行命名,实现了同一个AOI内的包裹在业务功能上能一并处理(如派件场景中,将同一个小区包裹,批量通知用户,或者批量投入自提柜等;在揽件场景中,将同一个小区的包裹一起派给某一个快递员),从而提升了包裹聚合的效率,提升业务效能。
本申请还提供了一种包裹聚合的设备,所述设备包括:
门址获取装置,用于获取多个标准门址;
地址聚合装置,用于确定所述多个标准门址中任意两个标准门址之间的相似度,根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
包裹聚合模型建立装置,用于分别为所述多个簇创建包裹聚合模型;
模型匹配装置,用于获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。
在本申请的一种实施方式中,所述设备还包括:
簇命名装置,用于对所述多个簇进行命名,得到所述簇的名称,所述簇的名称包括簇ID。
包裹聚合模型建立装置在一种实施方式中包括:
特征集合获取模块,用于获取组成所述簇的多个标准门址对应的多个特征集合;
特征关联模块,用于将所述特征集合中的特征关联所述簇ID;
索引创建模块,用于根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型
在该实施方式中,以基于模板提取的特征gram为term,关联的簇ID为文档ID创建倒排索引,每个gram对簇ID的权重可用tf-idf来计算,可为后续检索过程提供基础的gram检索功能。文本模型解决的是直接通过文本相似度匹配最优的AOI:特征结合簇ID倒排索引。当文本模型建立成功后,后续到达物流末端揽派处的包裹,可将包裹的通信地址直接在文本模型中进行搜索,通过文本相似度匹配最优的AOI,得到该包裹地址对应的兴趣区域。用户的收货地址一般是标准地址省略部分地名的结果,即用户地址一般是标准地址的子串,在本实施方式中通过各种组合大大提升文本模型的匹配率。
包裹聚合模型建立装置在一种实施方式中包括:
门址获取模块,用于获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度;
门址关联模块,用于将所述多个标准门址关联所述簇ID;
边界确定模块,用于根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;
多边形建立模块,用于根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;
网格建立模块,用于在所述多边形中建立网格;
映射关系建立模块,用于建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
在该实施方式中,当经纬度模型建立成功后,后续到达物流末端揽派处的包裹,可将包裹地址直接在经纬度模型中进行搜索,最优的AOI,得到该包裹地址对应的兴趣区域。
在介绍了本申请的设备之后,接下来,参考附图对本申请的一种包裹聚合的方法以及地址聚合方法进行介绍。该方法的实施可以参见上述设备的实施,重复之处不再赘述。
图4为本申请一种地址聚合的方法的实施方式一的流程图,请参阅图4,本申请提供的一种地址聚合的方法包括:
S101:获取多个标准门址。在具体的实施方式中,可通过现有技术中的相关工具(诸如百度地图、高德地图等),得到标准门址,标准门址一般包括标准地址和标准地址相关的经纬度。标准门址要求地址必须精确到四级(含省、市、区县、乡镇街道),门牌号和AOI对应,行政区划信息和详细地址对应,地址标准干净,无错误。
S102:将多个标准门址转化为多个结构化地址。
在本申请的一种实施方式中,可通过分词工具将所述标准门址转化为结构化地址,具体的,对标准门址进行分词,目的是提取标准门址中的地名信息,然后为每个地名信息加上语义标注信息(标注的内容主要有:省级行政区prov、地级行政区city、县级行政区district、乡级行政区town、开发区devZone、社区/村委会community、主路road、子路subRoad、主路号roadNo、子路号subRoadNo、AOI、更小范围的AOI subAoi、楼栋号houseNo、单元号cellNo、楼层号floorNo、房间号roomNo、房间内部的实体entity等,至少包括兴趣区域的道路及路号信息和/或兴趣区域的名字),最后依据标注的语义信息将地名信息放入结构化模板中,则得到结构化地址。
以浙江省杭州市西湖区三墩街道余杭塘路866号浙江大学紫金港校区为例,转化得到的结构化地址为浙江省/省、杭州市/市、西湖区/区、三墩街道/街道、余杭塘路/路、866号/路号、浙江大学紫荆港校区/AOI的名称。
S103:对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合。由于本申请是将地址按照兴趣区域AOI维度聚合在一起,因此特征提取装置要以AOI为中心做特征提取,通过将行政区划信息(省、市、区县、街道、社区等)和AOI的核心决定因素组合在一起,从而大大增加提取的特征量。因此所述特征集合包括兴趣区域属性信息,所述兴趣区域属性信息至少包括区域的道路及路号信息和/或区域名字。一个标准门址转化为一个结构化地址,一个结构化地址经过特征提取得到一个特征集合。
在本申请的一种实施方式中,可直接对结构化地址进行特征提取,提取出结构化地址中的所有特征,组成特征集合。以标准门址中的标准地址浙江省杭州市西湖区三墩街道余杭塘路866号浙江大学紫金港校区为例,转化得到的结构化地址为浙江省/省、杭州市/市、西湖区/区、三墩街道/街道、余杭塘路/路、866号/路号、浙江大学紫荆港校区/AOI,则提取得到的特征集合为浙江省、杭州市、西湖区、三墩街道、余杭塘路、866号、浙江大学紫荆港校区。在实施例中,特征集合包括了道路及路号信息和区域名字。
标准地址通过结构化之后,转化成一个结构化对象,因此特征提取可以通过结构化对象中字段组合的方式来实现,即特征可模板化。在本申请的一种实施方式中,可通过预先定义特征模板的方式,将结构化地址中的特征抽取出来。举例而言,如果特征模板中的特征在结构化地址中都存在,那么该结构化地址可以转化成多个特征,如果有特征不存在,则该特征不输出到特征集中。特征模板中预先定义了多个特征。
特征模板是由地址结构化对象的成员字段构成,只有模板中含有的所有结构化对象成员字段都不为空的时候,才会有特征提取出来,否则提取出的结果为空。由于本申请的目标是将包裹按照AOI维度聚合在一起,所以一定要以AOI为中心做特征提取(具体的做法是每个特征里必须至少含有能决定AOI的信息)。
通过将行政区划信息(省、市、区县、街道、社区等)和AOI的核心决定因素组合在一起,从而大大增加提取的特征量。在本申请的一种实施方式中,特征模板的结构定义可如下表1所示。表1所示的实施例是基于模板的ngram(基于模板N元模型,template-basedngram)特征提取,预先定义了6个模板,以“浙江省杭州市余杭区仓前街道良睦路999号乐佳国际大厦”,其结构化的地址为“浙江省/prov杭州市/city余杭区/district仓前街道/town良睦路/road 999号/roadNo乐佳国际大厦/AOI写字楼/AOI类别”,其中斜线后面的部分均为语义标注信息,标识当前词在地址中的结构信息,基于表1的特征模板提取的特征如表1右侧所示。
在本申请的另一种实施方式中,预先设定的模板中还可以设定特征模板中还可以包括其他信息,如歧义度等级,如表2所示。在表2所示的特征模板实例中,基于模板的N元模型包括6个,第一列为特征模板n-gram,第二列为歧义度等级,歧义度等级可以表示该n-gram所抽取的特征是否能唯一的确定具体的地址,以及歧义程度如何,0表示完全无歧义(若两个AOI地址包含此类特征,可直接判定为同义AOI地址),1表示稍有歧义,2表示歧义较大,可以依次定义歧义等级。基于表2的特征模板提取的特征如表2右侧所示。在表2所示的实施例中,提取得到的所述标准门址对应的特征集合中的多个特征对应的歧义度为所述N元模型的歧义度,如:表2中的Ngram特征模板road,roadNo,AOI的歧义度等级设置为1,则在实施例中提取的特征集合中的特征“良睦路”、“999号”、“乐佳国际大厦”的歧义度均为1,即稍有歧义。
请参阅图4,该方法还包括S104:根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度。在本申请的一种实施方式中,通过相似度公式依次确定两个标准门址之间的相似度。具体的,相似度公式可为jaccard相似度(公式1)、余弦相似度(公式2)、公式3或公式4。其中,基于杰卡德(jaccard)相似性计算两个标准门址对应的特征集合的相似度,假定两个特征集合的特征向量用A和B表示,杰卡德相似性计算方法见公式1。公式2为欧氏距离(余弦相识度),公式3是两个特征集合之间的特征交集的个数除以两个集合中个数较小的数,得到相似度得分。公式4是两个特征集合之间的特征交集的个数除以两个集合中个数较大的数,得到相似度得分。
S105:根据所述相似度将所述多个标准门址进行聚合,得到多个簇。
在本申请的一种实施方式中,步骤S105包括:
S201:确定每个标准门址的相似标准门址,在本申请的一种实施方式中,S104计算出两个标准门址之间的相似度大于或等于一预设阈值时,将所述两个标准门址作为相似标准门址。在实际的使用过程中,当S104根据公式1确定两个标准门址之间的相似度时,预设阈值可为0.33,当相似度大于或等于0.33时,这两个标准门址认为是相似标准门址。
在本申请的另一种实施方式中,当两个标准门址对应的特征集合中存在相同的特征且所述相同的特征的歧义度等级为无歧义时,将所述两个标准门址作为相似标准门址。也即,在表2所示的具体实施例中,若两个标准门址各自对应的特征集合中存在相同的特征,且该相同特征的歧义度等级为0即无歧义时,表示这两个标准门址可以合并。
在本申请的又一种实施方式中,当两个标准门址对应的特征集合中存在同义的兴趣区域时,将所述两个标准门址作为相似标准门址。也即,若在四级行政区划下两个AOI的名字是同义,则所在的特征集合可合并。
具体的,诸如图1所示的物流末端的揽派场景中,假设共有编号为1、2、……8的8个包裹,根据包裹地址可分别得到对应8个标准门址,通过相似地址确定模块可确定出每个标准门址对应的标准门址,如表3所示。
S202:判断每个标准门址以及对应的相似标准门址是否在簇中,当判断为否时,执行S203,否则,执行S204;
S203:将所述标准门址以及对应的相似标准门址加入到一新建的簇中;
S204:将所述标准门址以及对应的相似标准门址加入所述簇中;
S205:将所述标准门址以及对应的相似标准门址加入所述簇中。
在具体的实施方式中,可通过遍历所有的标准门址,依次判断每个标准门址以及对应的相似标准门址是否在簇中,当不存在时,说明该标准门址及其对应的相似标准门址尚无一个簇,因此需要加入一新建的簇中,否则,将该标准门址及其对应的相似标准门址加入该簇中。如表1所示的实施例中,从编号1遍历至编号8,则编号为1的标准门址及其对应的相似标准门址2、6并未加入簇中,因此新建一簇,设该簇的编号为1,则该簇中此时有1、2、6,其次遍历编号至编号8,最终聚合得到的簇为两个,如表4所示。
也即,若A、B、C代表3个不同的AOI地址,若A与B是同义AOI地址,B与C是同义AOI地址,则A、B、C互为同义AOI地址,可归并到同一个簇下,本申请是基于此原理实现的地址聚合方法。
在图1所示的实施例中,经过本申请的地址聚合设备处理之后,最终将8个包裹分为两个兴趣区域,其中一个兴趣区域中有6个包裹,另一个兴趣区域中有2个包裹,如此,如图1所示的物流场景中,将包裹按照兴趣区域分堆,可大大提升包裹自动化分拣、揽收、派送效率。
在本申请的另一种实施方式中,S105可通过双循环遍历,依次找到每个标准门址与之相似的标准门址,然后通过簇合并算法将相似的簇合并到一起。通过簇合并算法将簇合并到一起,具体算法是依次遍历每个标准门址的列表,查找每个标准门址的key是否已在簇列表中,如果是将此标准门址与簇列表中相对应的簇进行合并,最终得到聚合后的簇。
如上所述,本申请实施例首先将全国范围内的标准门址转化为结构化地址,对结构化地址进行特征提取,得到特征集合,所述特征集合至少包括区域的道路及路号信息和/或区域名字,其次通过特征集合确定标准门址之间的相似度,最后根据相似度将多个标准门址进行聚合,得到多个簇,实现了将属于同一区域的不同的标准门址聚合到同一簇下。
实施方式一中基于地址聚合算法将同一个区域的标准门址聚在一个簇下,在本发明的其他实施方式中还可以据此构造包裹聚合模型。图5为本申请一种地址聚合的方法的实施方式二的流程图,请参阅图5,在实施方式二中该方法还包括:
S106:对得到的多个簇进行命名,得到所述簇的名称。
在本申请的一种实施方式中,S106得到所述簇的名称可为簇ID,如表4所示,用簇ID作为簇的名称。
在本申请的一种实施方式中,该方法还包括:
S107:当将簇ID命名为簇的名称时,建立包裹聚合模型,所述包裹聚合模型为文本模型,包括:获取组成所述簇的多个标准门址对应的多个特征集合;将所述特征集合中的特征关联所述簇ID;根据所述簇ID创建倒排索引,形成文本模型。在该实施方式中,以基于模板提取的特征gram为term,关联的簇ID为文档ID创建倒排索引,每个gram对簇ID的权重可用tf-idf来计算,可为后续检索过程提供基础的gram检索功能。文本模型解决的是直接通过文本相似度匹配最优的AOI:特征结合簇ID倒排索引。
在本申请的一种实施方式中,本申请提供的方法还包括:
S108:包裹聚合模型匹配步骤,具体的,获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。也即当文本模型建立成功后,后续新到达物流末端揽派处的包裹,可将包裹地址直接在文本模型中进行搜索,通过文本相似度匹配最优的AOI,得到该包裹地址对应的兴趣区域。用户的收货地址一般是标准地址省略部分地名的结果,即用户地址一般是标准地址的子串,在本实施方式中通过各种组合大大提升文本模型的匹配率。
在本申请的一种实施方式中,当将簇ID命名为簇的名称时,本申请提供的方法还包括建立包裹聚合模型,所述包裹聚合模型为经纬度模型。本实施例中的将维度模型主要是将AOI周边商业点(在文本上与AOI不匹配)上包裹就近聚在附近AOI上,如小区、学校、写字楼等AOI周边商业性质的点,如便利店,各种类型的小店,餐馆等,其地址与AOI地址一般不匹配,但由于就在AOI周边,可聚在AOI包裹簇中。
在该实施方式中,建立经纬度模型包括:获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及经纬度;将所述多个标准门址关联所述簇ID;根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;在所述多边形中建立网格;建立所述网格与所述簇ID的映射关系,形成经纬度模型。
具体的,将标准门址关联簇ID,即簇ID会圈住一个标准地址集,标准地址上会有经纬度信息,所以也会圈住一个个经纬度点集,这些点集的平均值即为AOI的中心点。AOI簇所圈住的经纬度点,这些经纬度点最***的点连接而来的边界即为AOI多边形。AOI多边形可以通过多种方式来表示,诸如网格。
在本申请的一种实施方式中,本申请提供的方法还包括包裹模型匹配步骤,具体的,获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。也即当经纬度模型建立成功后,后续新到达物流末端揽派处的包裹,可将包裹地址直接在经纬度模型中进行搜索,最优的AOI,得到该包裹地址对应的兴趣区域。
在本申请的一种实施方式中,当将簇ID命名为簇的名称时,本申请提供的方法还可包括建立包裹聚合模型,所述包裹聚合模型包括建立文本模型以及经纬度模型。如此,当文本模型以及经纬度模型建立成功后,后续新到达物流末端揽派处的包裹,由于包裹地址转经纬度会有一个误差,再加上用户的包裹地址一般不是标准门址,所以文本模型比经纬度模型要准一些。在该实施方式中对于用户包裹上的地址在检索时可以首先检索文本模型,若文本模型有结果则直接确定范围,否则再检索经纬度模型。
如此,本申请提供的方法能够识别同一个AOI地址的不同表达方式(同义AOI地址),从而将同一个AOI内的包裹聚在一起,于此同时将AOI周边商业地址上的包裹和AOI内部的包裹聚在一起,从而大大提升包裹聚合的效率。将包裹按照小区、学校校区、写字楼等AOI聚在一起,使得同AOI内的包裹在业务上一起处理,从而大大提升业务效能。
在本申请的一种实施方式中,为了方便派件员进行派件,S106还可为簇进行命名,且为了便于派件员进行识别,簇名不为簇ID。
在一种实施方式中,S106包括:获取组成所述簇的多个标准门址对应的特征集合;
根据所述特征集合依次确定每个道路及路号信息的频次以及名称的频次;
将频次最高的特征作为所述簇的名称。
在该实施方式中,统计簇下的所有标准门址的特征集合中道路及路号信息出现的频次以及名称出现的频次,将频次最高的特征作为簇的名称。
在本申请的又一种实施方式中,S106包括:
获取组成所述簇的多个标准门址对应的特征集合;
从所述特征集合中筛选出多个兴趣区域的名称;
将实际使用频率最高的兴趣区域的名称作为所述簇的名称。
在该实施方式中,统计簇下的所有标准门址的特征集合中所有的名称,将实际使用频率最高的兴趣区域的名称作为所述簇的名称。
在本申请的其它实施方式中,簇名的选择标准还可为:必须含有AOI的决定因素:AOI的名字或门牌号,聚包裹能力要强即所辖范围要大,经常被用户使用的名字。在具体的实施例中,可通过下述步骤进行:统计每个从特征模板中提取的gram的词频,然后过滤掉不能为簇名字的特征,仅保留AOI,AOI类别、road,roadNo、road,roadNo,AOI三个模板提取的特征gram,取这3个模板中频率topN的gram特征,由于road,roadNo,AOI从模板上看含有road,roadNo和AOI,表达了门牌号和AOI的共现关系,因此需要将此共现关系加在road,roadNo和AOI提取的特征上,实现方式为遍历road,roadNo,AOI模板所有gram,按照road,roadNo和AOI分割成两个gram,并将基于模板road,roadNo,AOI提取的gram上的词频加权到road,roadNo和AOI的gram上。在对AOI为模板提取的gram按照AOI类型排序,分别取AOI和road,roadNo排名第一的gram,取他们频率的比值ratio,若大于设定的阈值threshold说明本簇以AOI名字命名更优,否则取门牌号road,roadNo。
如上所述,本申请以AOI为中心进行特征提取,基于相似度来决定不同AOI是否是同义,并将同义的AOI地址归并到同一个簇。首先基于地址聚合算法识别同一个区域的标准门址,将同一个区域下的门址聚在一个簇下,其次构造包裹聚合模型,最后将物流包裹上的通信地址和包裹聚合模型相匹配,得到最优的簇,从而使得同一个区域的包裹聚到同一个簇下,此外对簇进行命名,实现了同一个AOI内的包裹在业务功能上能一并处理(如派件场景中,将同一个小区包裹,批量通知用户,或者批量投入自提柜等;在揽件场景中,将同一个小区的包裹一起派给某一个快递员),从而提升了包裹聚合的效率,提升业务效能。
本申请还提供了一种包裹聚合的方法,所述方法包括:
获取多个标准门址;
确定所述多个标准门址中任意两个标准门址之间的相似度,根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
分别为所述多个簇创建包裹聚合模型;
获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。
在本申请的一种实施方式中,该方法还包括:
对所述多个簇进行命名,得到所述簇的名称,所述簇的名称包括簇ID。
分别为所述多个簇创建包裹聚合模型在一种实施方式中包括:
获取组成所述簇的多个标准门址对应的多个特征集合;
将所述特征集合中的特征关联所述簇ID;
根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型。
在该实施方式中,以基于模板提取的特征gram为term,关联的簇ID为文档ID创建倒排索引,每个gram对簇ID的权重可用tf-idf来计算,可为后续检索过程提供基础的gram检索功能。文本模型解决的是直接通过文本相似度匹配最优的AOI:特征结合簇ID倒排索引。当文本模型建立成功后,后续到达物流末端揽派处的包裹,可将包裹的通信地址直接在文本模型中进行搜索,通过文本相似度匹配最优的AOI,得到该包裹地址对应的兴趣区域。用户的收货地址一般是标准地址省略部分地名的结果,即用户地址一般是标准地址的子串,在本实施方式中通过各种组合大大提升文本模型的匹配率。
分别为所述多个簇创建包裹聚合模型在一种实施方式中包括:
获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度,将所述多个标准门址关联所述簇ID,根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界,根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形,在所述多边形中建立网格,建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
在该实施方式中,当经纬度模型建立成功后,后续到达物流末端揽派处的包裹,可将包裹地址直接在经纬度模型中进行搜索,最优的AOI,得到该包裹地址对应的兴趣区域。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来
说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (28)
1.一种地址聚合的方法,其特征在于,所述方法包括:
获取多个标准门址;
将所述多个标准门址转化为多个结构化地址;
对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合,所述特征集合包括兴趣区域属性信息;
根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;
根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
根据所述相似度将所述多个标准门址进行聚合,得到多个簇包括:
确定每个标准门址的相似标准门址;
判断每个标准门址以及对应的相似标准门址是否在簇中;
当判断为否时,将所述标准门址以及对应的相似标准门址加入到一新建的簇中;
否则,将所述标准门址以及对应的相似标准门址加入所述簇中;
将所述新建的簇以及所述簇作为聚合后得到的多个簇;
对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合包括:通过基于模板的N元模型对所述结构化地址进行特征提取,所述N元模型包括歧义度等级,提取得到的所述标准门址对应的特征集合中的多个特征对应的歧义度为所述N元模型的歧义度。
2.根据权利要求1所述的方法,其特征在于,将多个标准门址转化为多个结构化地址包括:
提取所述标准门址中的地名信息;
为每个所述地名信息加注语义标注信息,所述语义标注信息至少包括兴趣区域的道路及路号信息和/或兴趣区域的名字;
依据所述语义标注信息将所述地名信息放入结构化模板中,得到结构化地址。
3.根据权利要求1所述的方法,其特征在于,根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度包括:通过相似度公式确定所述多个标准门址中任意两个标准门址之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述确定每个标准门址的相似标准门址包括:当两个标准门址对应的特征集合中存在相同的特征且所述相同的特征的歧义度等级为无歧义;或当两个标准门址之间的相似度不小于一预设阈值;或当两个标准门址对应的特征集合中存在同义的兴趣区域时,将所述两个标准门址作为相似标准门址。
5.根据权利要求3至4任意一项所述的方法,其特征在于,所述兴趣区域属性信息包括兴趣区域的道路及路号信息和/或兴趣区域的名字,所述方法还包括对所述多个簇进行命名,得到所述簇的名称。
6.根据权利要求5所述的方法,其特征在于,所述簇的名称包括簇ID,所述方法还包括:
获取组成所述簇的多个标准门址对应的多个特征集合;
将所述特征集合中的特征关联所述簇ID;
根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型。
7.根据权利要求5所述的方法,其特征在于,所述簇的名称包括簇ID,所述方法还包括:
获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度;
将所述多个标准门址关联所述簇ID;
根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;
根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;
在所述多边形中建立网格;
建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
8.根据权利要求6或7任意一项所述的方法,其特征在于,所述方法还包括:获取包裹的通信地址;将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇;将所述包裹聚合在所述簇下。
9.根据权利要求8所述的方法,其特征在于,对所述多个簇进行命名包括:
获取组成所述簇的多个标准门址对应的特征集合;
根据所述特征集合依次确定每个道路及路号信息的频次以及区域名称的频次;
将频次最高的特征作为所述簇的名称。
10.根据权利要求8所述的方法,其特征在于,对所述多个簇进行命名包括:
获取组成所述簇的多个标准门址对应的特征集合;
从所述特征集合中筛选出多个区域名称;
将实际使用频率最高的区域名称作为所述簇的名称。
11.一种包裹聚合的方法,其特征在于,所述方法包括:
获取多个标准门址;
确定所述多个标准门址中任意两个标准门址之间的相似度,根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
分别为所述多个簇创建包裹聚合模型;
获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下;
确定所述多个标准门址中任意两个标准门址之间的相似度包括:
将所述多个标准门址转化为多个结构化地址;
对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合,所述特征集合中包括兴趣区域属性信息;
根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;
根据所述相似度将所述多个标准门址进行聚合,得到多个簇包括:
确定每个标准门址的相似标准门址;
判断每个标准门址以及对应的相似标准门址是否在簇中;
当判断为否时,将所述标准门址以及对应的相似标准门址加入到一新建的簇中;
否则,将所述标准门址以及对应的相似标准门址加入所述簇中;
将所述新建的簇以及所述簇作为聚合后得到的多个簇;
对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合包括:通过基于模板的N元模型对所述结构化地址进行特征提取,所述N元模型包括歧义度等级,提取得到的所述标准门址对应的特征集合中的多个特征对应的歧义度为所述N元模型的歧义度。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
对所述多个簇进行命名,得到所述簇的名称,所述簇的名称包括簇ID。
13.根据权利要求12所述的方法,其特征在于,分别为所述多个簇创建包裹聚合模型包括:
获取组成所述簇的多个标准门址对应的多个特征集合;
将所述特征集合中的特征关联所述簇ID;
根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型。
14.根据权利要求12所述的方法,其特征在于,分别为所述多个簇创建包裹聚合模型包括:
获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度;
将所述多个标准门址关联所述簇ID;
根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;
根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;
在所述多边形中建立网格;
建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
15.一种地址聚合的设备,其特征在于,所述设备包括:
门址获取装置,用于获取多个标准门址;
地址转化装置,用于将多个标准门址转化为多个结构化地址;
特征提取装置,用于对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合,所述特征集合包括兴趣区域属性信息;
相似度确定装置,用于根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;
地址聚合装置,用于根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
所述地址聚合装置包括:
相似门址确定模块,用于确定每个标准门址的相似标准门址;
判断模块,用于判断每个标准门址以及对应的相似标准门址是否在簇中,当判断为否时,执行第一加入模块,否则,执行第二加入模块;
所述第一加入模块,用于将所述标准门址以及对应的相似标准门址加入到一新建的簇中;
所述第二加入模块,用于将所述标准门址以及对应的相似标准门址加入所述簇中;
地址聚合模块,用于将所述标准门址以及对应的相似标准门址加入所述簇中;
所述特征提取装置包括:通过基于模板的N元模型对所述结构化地址进行特征提取,所述N元模型包括歧义度等级,提取得到的所述标准门址对应的特征集合中的多个特征对应的歧义度为所述N元模型的歧义度。
16.根据权利要求15所述的设备,其特征在于,所述地址转化装置用于:提取所述标准门址中的地名信息;为每个所述地名信息加注语义标注信息,所述语义标注信息至少包括兴趣区域的道路及路号信息和/或兴趣区域的名字;依据所述语义标注信息将所述地名信息放入结构化模板中,得到结构化地址。
17.根据权利要求16所述的设备,其特征在于,所述相似度确定装置包括:通过相似度公式确定所述多个标准门址中任意两个标准门址之间的相似度。
18.根据权利要求17所述的设备,其特征在于,所述相似门址确定模块用于:当两个标准门址对应的特征集合中存在相同的特征且所述相同的特征的歧义度等级为无歧义;或当两个标准门址之间的相似度不小于一预设阈值;或当两个标准门址对应的特征集合中存在同义的兴趣区域时,将所述两个标准门址作为相似标准门址。
19.根据权利要求15至18任意一项所述的设备,其特征在于,所述兴趣区域属性信息包括兴趣区域的道路及路号信息和/或兴趣区域的名字,所述设备还包括簇命名装置,用于对得到的多个簇进行命名,得到所述簇的名称。
20.根据权利要求19所述的设备,其特征在于,所述簇的名称包括簇ID,所述设备还包括包裹聚合模型建立装置,用于获取组成所述簇的多个标准门址对应的多个特征集合;将所述特征集合中的特征关联所述簇ID;根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型。
21.根据权利要求19所述的设备,其特征在于,所述簇的名称包括簇ID,所述设备还包括包裹聚合模型建立装置,用于获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度;将所述多个标准门址关联所述簇ID;根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;在所述多边形中建立网格;建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
22.根据权利要求20或21任意一项所述的设备,其特征在于,所述设备还包括模型匹配装置,用于获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下。
23.根据权利要求22所述的设备,其特征在于,所述簇命名装置包括:
特征集合获取模块,用于获取组成所述簇的多个标准门址对应的特征集合;
频次确定模块,用于根据所述特征集合依次确定每个道路及路号信息的频次以及名称的频次;
名称选择模块,用于将频次最高的特征作为所述簇的名称。
24.根据权利要求22所述的设备,其特征在于,所述簇命名装置包括:
特征集合获取模块,用于获取组成所述簇的多个标准门址对应的特征集合;
区域名称筛选模块,用于从所述特征集合中筛选出多个兴趣区域的名称;
名称选择模块,用于将实际使用频率最高的兴趣区域的名称作为所述簇的名称。
25.一种包裹聚合的设备,其特征在于,所述设备包括:
门址获取装置,用于获取多个标准门址;
地址聚合装置,用于确定所述多个标准门址中任意两个标准门址之间的相似度,根据所述相似度将所述多个标准门址进行聚合,得到多个簇;
包裹聚合模型建立装置,用于分别为所述多个簇创建包裹聚合模型;
模型匹配装置,用于获取包裹的通信地址,将所述通信地址与所述包裹聚合模型进行匹配,得到与所述包裹对应的簇,将所述包裹聚合在所述簇下;
所述地址聚合装置包括:
地址转化模块,用于将所述多个标准门址转化为多个结构化地址;
特征提取模块,用于对所述多个结构化地址进行特征提取,得到与所述多个标准门址对应的多个特征集合,所述特征集合中包括兴趣区域属性信息;
相似度确定模块,用于根据所述多个标准门址对应的多个特征集合确定所述多个标准门址中任意两个标准门址之间的相似度;
地址聚合装置,具体用于:
确定每个标准门址的相似标准门址;
判断每个标准门址以及对应的相似标准门址是否在簇中;
当判断为否时,将所述标准门址以及对应的相似标准门址加入到一新建的簇中;
否则,将所述标准门址以及对应的相似标准门址加入所述簇中;
将所述新建的簇以及所述簇作为聚合后得到的多个簇;
特征提取模块,具体用于:通过基于模板的N元模型对所述结构化地址进行特征提取,所述N元模型包括歧义度等级,提取得到的所述标准门址对应的特征集合中的多个特征对应的歧义度为所述N元模型的歧义度。
26.根据权利要求25所述的设备,其特征在于,所述设备还包括:
簇命名装置,用于对所述多个簇进行命名,得到所述簇的名称,所述簇的名称包括簇ID。
27.根据权利要求26所述的设备,其特征在于,所述包裹聚合模型建立装置包括:
特征集合获取模块,用于获取组成所述簇的多个标准门址对应的多个特征集合;
特征关联模块,用于将所述特征集合中的特征关联所述簇ID;
索引创建模块,用于根据所述簇ID创建倒排索引,形成包裹聚合模型,所述包裹聚合模型为文本模型。
28.根据权利要求26所述的设备,其特征在于,所述包裹聚合模型建立装置包括:
门址获取模块,用于获取组成所述簇的多个标准门址,所述标准门址包括标准地址以及与所述标准地址对应的经纬度;
门址关联模块,用于将所述多个标准门址关联所述簇ID;
边界确定模块,用于根据所述多个标准门址包括的多个经纬度确定兴趣区域的中心点以及边界;
多边形建立模块,用于根据所述兴趣区域的中心点以及边界建立兴趣区域的多边形;
网格建立模块,用于在所述多边形中建立网格;
映射关系建立模块,用于建立所述网格与所述簇ID的映射关系,形成包裹聚合模型,所述包裹聚合模型为经纬度模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710468203.7A CN109101474B (zh) | 2017-06-20 | 2017-06-20 | 一种地址聚合的方法、包裹聚合的方法以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710468203.7A CN109101474B (zh) | 2017-06-20 | 2017-06-20 | 一种地址聚合的方法、包裹聚合的方法以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109101474A CN109101474A (zh) | 2018-12-28 |
CN109101474B true CN109101474B (zh) | 2022-09-30 |
Family
ID=64795412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710468203.7A Active CN109101474B (zh) | 2017-06-20 | 2017-06-20 | 一种地址聚合的方法、包裹聚合的方法以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109101474B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460054B (zh) * | 2019-01-21 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 地址数据处理方法及装置、设备和存储介质 |
CN110427365A (zh) * | 2019-06-25 | 2019-11-08 | 深圳市跨越新科技有限公司 | 提高合单准确性的地址合并方法及*** |
CN112632992B (zh) * | 2019-09-24 | 2023-09-29 | 北京京东振世信息技术有限公司 | 测试方法、测试装置、计算机设备和介质 |
CN112693802B (zh) * | 2019-10-22 | 2022-12-27 | 北京京东振世信息技术有限公司 | 处理包裹的方法和装置 |
CN111325504B (zh) * | 2020-02-12 | 2023-07-11 | 上海东普信息科技有限公司 | 派件轨迹推荐方法、装置、***、设备及存储介质 |
CN111291099B (zh) * | 2020-05-13 | 2020-08-14 | 中邮消费金融有限公司 | 一种地址模糊匹配方法、***及计算机设备 |
CN113706065A (zh) * | 2020-05-22 | 2021-11-26 | 百度在线网络技术(北京)有限公司 | 货物分类方法、装置、设备以及存储介质 |
CN112001172A (zh) * | 2020-08-25 | 2020-11-27 | 杭州橙鹰数据技术有限公司 | 识别方法及装置 |
CN112507223B (zh) * | 2020-12-10 | 2023-06-23 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN112818684B (zh) * | 2021-01-29 | 2024-04-19 | 上海寻梦信息技术有限公司 | 地址元素排序方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
CN104182517A (zh) * | 2014-08-22 | 2014-12-03 | 北京羽乐创新科技有限公司 | 数据处理的方法及装置 |
CN104657361A (zh) * | 2013-11-18 | 2015-05-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN106649331A (zh) * | 2015-10-29 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 商圈识别方法及设备 |
CN106651247A (zh) * | 2016-11-16 | 2017-05-10 | 成都地图慧科技有限公司 | 基于gis拓扑分析的地址匹配区域块方法和*** |
-
2017
- 2017-06-20 CN CN201710468203.7A patent/CN109101474B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
CN104657361A (zh) * | 2013-11-18 | 2015-05-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN104182517A (zh) * | 2014-08-22 | 2014-12-03 | 北京羽乐创新科技有限公司 | 数据处理的方法及装置 |
CN106649331A (zh) * | 2015-10-29 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 商圈识别方法及设备 |
CN106651247A (zh) * | 2016-11-16 | 2017-05-10 | 成都地图慧科技有限公司 | 基于gis拓扑分析的地址匹配区域块方法和*** |
Non-Patent Citations (3)
Title |
---|
一种中文门楼址的自适应表达及成分解析方法;杨林等;《测绘科学》;20141231;第39卷(第12期);全文 * |
多元地址要素组合的地址匹配方法;吕欢欢等;《测绘科学》;20150331;第40卷(第3期);全文 * |
菜鸟双11"十亿级包裹"之战;许俊(兰博);《http://bj2016.archsummit.com/schedule/》;20161203;第25-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109101474A (zh) | 2018-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101474B (zh) | 一种地址聚合的方法、包裹聚合的方法以及设备 | |
WO2020228706A1 (zh) | 基于围栏地址的坐标数据处理方法、装置和计算机设备 | |
CN108460046A (zh) | 一种地址聚合的方法以及设备 | |
CN110069626B (zh) | 一种目标地址的识别方法、分类模型的训练方法以及设备 | |
US7046827B2 (en) | Adapting point geometry for storing address density | |
CN102147795A (zh) | 兴趣点检索方法、兴趣点检索装置和导航*** | |
CN109359200A (zh) | 地名地址数据智能解析*** | |
US20030158661A1 (en) | Programmatically computing street intersections using street geometry | |
CN111522838B (zh) | 地址相似度计算方法及装置 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN101882163A (zh) | 一种基于匹配规则的模糊中文地址地理赋值方法 | |
CN111522892B (zh) | 地理要素的检索方法及装置 | |
CN104657361A (zh) | 一种数据处理方法及装置 | |
CN103970842A (zh) | 一种面向防洪减灾领域的水利大数据存取***及方法 | |
CN111125086A (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN103345496A (zh) | 多媒体信息检索方法和*** | |
CN114638217A (zh) | 地址文本处理方法及装置 | |
CN115470307A (zh) | 一种地址匹配方法及装置 | |
Chatterjee et al. | SAGEL: smart address geocoding engine for supply-chain logistics | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
Li et al. | Geospatial data mining on the web: Discovering locations of emergency service facilities | |
CN114513550B (zh) | 一种地理位置信息的处理方法、装置及电子设备 | |
CN111460325B (zh) | Poi搜索方法、装置与设备 | |
CN115185986A (zh) | 省市区地址信息匹配方法、装置、计算机设备及存储介质 | |
CN110909114B (zh) | 一种非结构化航海书表与电子海图的关联方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40001276 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |