CN109992638B - 地理位置poi的生成方法、装置、电子设备和存储介质 - Google Patents
地理位置poi的生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN109992638B CN109992638B CN201910252386.8A CN201910252386A CN109992638B CN 109992638 B CN109992638 B CN 109992638B CN 201910252386 A CN201910252386 A CN 201910252386A CN 109992638 B CN109992638 B CN 109992638B
- Authority
- CN
- China
- Prior art keywords
- poi
- information
- address
- geographical position
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了地理位置POI的生成方法、装置、电子设备和存储介质。所述方法包括:根据地理位置打点数据确定一组或多组地址信息,其中,所述地址信息包括地址描述信息和地理位置信息;根据所述地址描述信息分别生成与各组地址信息对应的POI名称;将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息;根据POI名称及对应的POI地理位置信息生成相应的POI。该技术方案的有益效果在于,适用场景广泛,一般不需要针对不同的建筑设置不同的聚类参数;而选取的聚合对象也是针对同一POI名称,排除了很多干扰数据,最终生成的POI质量较高。
Description
技术领域
本申请涉及地图导航领域,具体涉及地理位置POI的生成方法、装置、电子设备和存储介质。
背景技术
兴趣点(POI)在地图导航领域有着重要的意义,POI通常包括名称、类型、地理位置信息(也称坐标),其中名称和地理位置信息是将一个POI与其他POI区分开来的重要因素。以往的POI生成往往离不开测绘人员的人工劳动,随着信息技术的发展,也产生了许多新的POI生成方式。
例如,许多应用都开放了地理位置打点功能,或是在使用过程中可以收集用户的地理位置打点数据。具体地,用户在使用社交软件发布内容时,通常可以进行定位并编辑地理位置描述信息。但是如果直接使用这类信息生成POI,POI质量是难以保证的,举例来说,不同的用户在相近的区域,可以上传各式各样的地理位置描述信息,如“家”、“XX小区”、“火星人居住地”等,通常情况下仅有“XX小区”一类的地理描述信息是具有广泛适用性的。又例如针对“XX小区”,不同的用户定位的坐标也可能不同。
即使认为用户填写的信息具有可信度,可以采用聚类方法来生成POI,但是,每栋建筑聚类参数不一样,大范围聚类无法保证精准性。建筑分为多种类型,比如小区,商业区,写字楼等等,但是这些不同的建筑物的地理位置打点数据量各有不同,要想得到质量较高的POI,需要的聚类参数也不一样,尤其在一个大的地理范围进行聚类时,无法保证与每一座建筑对应的POI都是精准的。
因此,如何生成质量较高的地理位置POI是需要解决的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的地理位置POI的生成方法、装置、电子设备和存储介质。
依据本申请的一个方面,提供了一种地理位置POI的生成方法,包括:
根据地理位置打点数据确定一组或多组地址信息,其中,所述地址信息包括地址描述信息和地理位置信息;
根据所述地址描述信息分别生成与各组地址信息对应的POI名称;
将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息;
根据POI名称及对应的POI地理位置信息生成相应的POI。
可选地,所述地理位置打点数据包括订单数据,所述根据地理位置打点数据确定一组或多组地址信息包括:
将所述订单数据中的各地址描述信息分别作为一组地址信息中的地址描述信息;
获取与各地址描述信息对应的服务阶段的签到数据,作为各组地址信息中的地理位置信息。
可选地,所述根据所述地址描述信息分别生成与各组地址信息对应的POI名称包括:
若所述地址描述信息是从第一类用户的订单数据得到的,则直接将所述地址描述信息作为POI名称;
若所述地址描述信息是从第二类用户的订单数据得到的,则对所述地址描述信息进行结构化解析,得到与若干个维度对应的解析结果,根据所述解析结果生成POI名称。
可选地,所述对所述地址描述信息进行结构化解析包括:
使用自然语言处理算法对所述地址描述信息进行结构化解析。
可选地,所述将相同POI名称对应的地理位置信息进行聚合包括:
对相同POI名称对应的地理位置信息进行去噪;
对去噪后的地理位置信息求几何平均值,将结果作为相应POI的地理位置信息。
可选地,所述对相同POI名称对应的地理位置信息进行去噪包括:
使用孤立森林算法对相同POI名称对应的地理位置信息进行去噪。
可选地,该方法进一步包括:
对各生成的POI,分别获取包含POI的地理位置打点数据;
根据POI的地理位置信息,以及包含POI的地理位置打点数据中与POI对应的地理位置信息计算得到第一距离,统计与各POI对应的第一距离落入各预设区间的数量,根据统计得到的数量计算各POI的质量得分;过滤掉质量得分小于第一阈值的POI;
和/或,
根据包含POI的地理位置打点数据中与POI对应的地理位置信息以及与POI对应的地址描述信息,计算得到第二距离,以及计算第二距离减去相应的第一距离得到的差值,若存在差值小于第二阈值的情况,则过滤掉相应的POI;若对一个POI计算得到的差值中,差值大于第三阈值的比例小于第四阈值,则过滤掉相应的POI。
依据本申请的另一方面,提供了一种地理位置POI的生成装置,包括:
地址信息单元,用于根据地理位置打点数据确定一组或多组地址信息,其中,所述地址信息包括地址描述信息和地理位置信息;
POI名称单元,用于根据所述地址描述信息分别生成与各组地址信息对应的POI名称;
POI地理位置信息单元,用于将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息;
POI生成单元,用于根据POI名称及对应的POI地理位置信息生成相应的POI。
可选地,所述地理位置打点数据包括订单数据;
所述地址信息单元,用于将所述订单数据中的各地址描述信息分别作为一组地址信息中的地址描述信息;获取与各地址描述信息对应的服务阶段的签到数据,作为各组地址信息中的地理位置信息。
可选地,所述POI名称单元,用于若所述地址描述信息是从第一类用户的订单数据得到的,则直接将所述地址描述信息作为POI名称;若所述地址描述信息是从第二类用户的订单数据得到的,则对所述地址描述信息进行结构化解析,得到与若干个维度对应的解析结果,根据所述解析结果生成POI名称。
可选地,所述POI名称单元,用于使用自然语言处理算法对所述地址描述信息进行结构化解析。
可选地,所述POI地理位置信息单元,用于对相同POI名称对应的地理位置信息进行去噪;对去噪后的地理位置信息求几何平均值,将结果作为相应POI的地理位置信息。
可选地,所述POI地理位置信息单元,用于使用孤立森林算法对相同POI名称对应的地理位置信息进行去噪。
可选地,该装置进一步包括:
POI过滤单元,用于对各生成的POI,分别获取包含POI的地理位置打点数据;根据POI的地理位置信息,以及包含POI的地理位置打点数据中与POI对应的地理位置信息计算得到第一距离,统计与各POI对应的第一距离落入各预设区间的数量,根据统计得到的数量计算各POI的质量得分;过滤掉质量得分小于第一阈值的POI;和/或,根据包含POI的地理位置打点数据中与POI对应的地理位置信息以及与POI对应的地址描述信息,计算得到第二距离,以及计算第二距离减去相应的第一距离得到的差值,若存在差值小于第二阈值的情况,则过滤掉相应的POI;若对一个POI计算得到的差值中,差值大于第三阈值的比例小于第四阈值,则过滤掉相应的POI。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,在根据地理位置打点数据确定一组或多组包括地址描述信息和地理位置信息的地址信息后,先根据地址描述信息分别生成与各组地址信息对应的POI名称,再将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息,从而根据POI名称及对应的POI地理位置信息生成相应的POI。该技术方案的有益效果在于,适用场景广泛,一般不需要针对不同的建筑设置不同的聚类参数;而选取的聚合对象也是针对同一POI名称,排除了很多干扰数据,最终生成的POI质量较高。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的一种地理位置POI的生成方法的流程示意图;
图2示出了根据本申请一个实施例的一种地理位置POI的生成装置的结构示意图;
图3示出了根据本申请一个实施例的电子设备的结构示意图;
图4示出了根据本申请一个实施例的计算机可读存储介质的结构示意图;
图5示出了根据本申请一个实施例生成的地理位置POI的示意图;
图6示出了根据本申请一个实施例的去噪效果示意图;
图7a示出了根据本申请一个实施例生成的地理位置POI(过滤前)的示意图;
图7b示出了根据本申请一个实施例生成的地理位置POI(过滤后)的示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
在外卖配送等货物配送过程中,最后的交付环节是直接影响用户体验的关键环节,另外,取货环节也是影响配送时间的一个重要因素。可见,能否将配送员准确地导航至实际地址,对配送质量有着很大的影响。类似地如打车场景,司机需要根据用户提供的地址描述信息确定行驶路线。
一种较为常用的做法是采用地址定位方法,这种方法思路比较简单,即通过用户填写的地址,直接调用地图搜索服务接口,返回地图搜索服务给出的坐标,作为导航终点。这种方式最大的缺点就是对地图搜索服务依赖过高,精度比较差,地图给出的终点经常落在楼顶或者建筑的中心点,而这些地点往往是配送员/司机不可达的地方,如果建筑群足够大,这些地图推荐的位置可能与实际可用的位置相差很远。
为此,一种解决思路是将取货点/交付点/上车位置作为一类POI,将配送员/司机导航至这些POI,但是如何生成这些POI是需要解决的问题。
正如背景技术中所介绍的,通过地理位置打点数据能够生成POI,但是如果不对地理位置打点数据进行一定的处理,不仅生成的POI有重复,而且效率也低。本申请的设计思路在于,先确定要生成的POI名称,从而选取与POI名称对应的地理位置信息进行聚合,排除了干扰数据,也能够适用绝大多数场景。下面以具体的实施例进行介绍。
图1示出了根据本申请一个实施例的一种地理位置POI的生成方法的流程示意图。如图1所示,该方法包括:
步骤S110,根据地理位置打点数据确定一组或多组地址信息,其中,地址信息包括地址描述信息和地理位置信息。
这里,地理位置打点数据可以是从业务数据中得到的。例如社交软件中的签到功能,使得用户可以对某一地理位置信息添加地址描述信息;又例如出行类软件,用户的订单中包含出行地址和目的地,在电子地图中没有相应POI时,用户同样可以对某一地理位置信息添加地址描述信息;再例如外卖类软件,用户的订单中包含自己的位置,以及选定的商家,那么这就可以对应于两组地址信息。类似的场景还有很多,在此就不一一介绍了。
步骤S120,根据地址描述信息分别生成与各组地址信息对应的POI名称。
POI名称一般地需要将一个POI与其他POI进行区分,这就要求POI名称具有独特性,例如连锁品牌的POI,往往不能仅将品牌名作为POI名称,如“XX快餐”,而是需要补充分店名称等,如“XX快餐(XX大街店)”。
步骤S130,将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息。
这里,实际上是根据生成相同POI的地址描述信息,确定相应的地理位置信息,一般是经纬度坐标或是地图坐标。这些坐标通常是存在差异,不完全相同的。而一个POI应该仅存在一个地理位置信息,因此需要进行聚合。
在一个具体例子中,第一组地址信息为:XX小区1号楼1单元,经度x,维度y;第二组地址信息为,XX小区1号楼2单元,经度a,维度b。当粒度达到单元维度时,则这两组地址信息对应生成的POI名称不同,那么在地理位置信息聚合时,经度x,维度y这组经纬度坐标就不会与经度a,维度b这组经纬度坐标进行聚合;而当粒度仅为楼维度时,那么这两组地址信息对应生成的POI名称相同,就需要将经度x,维度y这组经纬度坐标与经度a,维度b这组经纬度坐标进行聚合。
可见,根据业务需求,可以调整粒度来控制生成的POI的质量,一般而言,粒度越细,生成的POI的地理位置信息也就越精准。
步骤S140,根据POI名称及对应的POI地理位置信息生成相应的POI。
直接根据POI名称及对应的POI地理位置信息可以确定一个POI,也可以为其补充POI类别等信息。
可见,图1所示的方法,适用场景广泛,一般不需要针对不同的建筑设置不同的聚类参数;而选取的聚合对象也是针对同一POI名称,排除了很多干扰数据,最终生成的POI质量较高。
在本申请的一个实施例中,上述方法中,地理位置打点数据包括订单数据,根据地理位置打点数据确定一组或多组地址信息包括:将订单数据中的各地址描述信息分别作为一组地址信息中的地址描述信息;获取与各地址描述信息对应的服务阶段的签到数据,作为各组地址信息中的地理位置信息。
例如,在货物配送场景,分为两个阶段;配送员去商家取货阶段,以及取货后,将交付到用户手中的送货阶段。那么商家的地址就对应于服务方地址,配送员在取货后,会上报取货成功(例如,配送员点击“已到店”按钮进行上报),这样就可以获得一份签到数据,作为地理位置信息。而交付货物成功时,配送员会上报送货完成(例如,配送员点击“已送达”按钮进行上报),这样又可以获得一份签到数据,作为地理位置信息。
针对上述例子可以概括地说,将订单数据中的服务方地址作为一组地址信息中的地址描述信息,将服务过程中第一阶段的签到数据作为该组地址信息中的地理位置信息;将订单数据中的用户地址作为一组地址信息中的地址描述信息,将服务过程中第二阶段的签到数据作为该组地址信息中的地理位置信息。可以将其推广至多个阶段的服务过程。
上面以货物配送场景做了示例说明,容易理解能够推广至其他场景,如打车场景下。司机接单时上报当前位置,这样获取到了第一阶段的签到数据;接到乘客时,司机上报当前位置,这样获取到了第二阶段的签到数据;到达目的地时,司机上报当前位置,这样获取到了第三阶段的签到数据。
在本申请的一个实施例中,上述方法中,根据地址描述信息分别生成与各组地址信息对应的POI名称包括:若地址描述信息是从第一类用户的订单数据得到的,则直接将地址描述信息作为POI名称;若地址描述信息是从第二类用户的订单数据得到的,则对地址描述信息进行结构化解析,得到与若干个维度对应的解析结果,根据解析结果生成POI名称。
这里,第一类用户可以对应于信用分较好、高级会员等高质量用户。例如在外卖配送场景下,可以将半年内订单数量大于6单(订单数仅作示例,可以根据需求调整)的用户作为第一类用户,这是考虑到外卖配送地址通常不改变,如果订单数量较多,说明很多配送员都能够到达这类用户提供的地址,因此可以认为这类用户提供的地址描述信息很准确,可以直接作为POI名称。
另外,还存在一种可以普遍应用的方式,即对地址描述信息进行结构化解析,得到与若干个维度对应的解析结果,根据解析结果生成POI名称。具体地,在本申请的一个实施例中,上述方法中,对地址描述信息进行结构化解析包括:使用自然语言处理算法(NLP)对地址描述信息进行结构化解析。具体使用哪种模型的NLP算法可以根据需求来选择,在此不做限制。
在本申请的一个实施例中,维度包括如下的一种或多种:小区、楼号、单元号。表1即示出了根据两个地址描述信息进行结构化解析得到的结果示例。其中,“un”表示这一维度的解析内容不存在。可以看出,“小区”是一种概括性的说法,实际可以对应“X路X号”、“X街X号院”等。
表1
地址描述信息 | 小区 | 楼号 | 单元号 |
玉林西路6号院(2单元2号) | 玉林西路6号院 | 2 | 2 |
成白路78号1栋 | 成白路78号 | 1 | un |
在本申请的一个实施例中,上述方法中,将相同POI名称对应的地理位置信息进行聚合包括:对相同POI名称对应的地理位置信息进行去噪;对去噪后的地理位置信息求几何平均值,将结果作为相应POI的地理位置信息。
以外卖配送场景为例,配送员轨迹数据中有很多坐标点是漂移的,还有一些终点位置由于配送员的主观原因而产生偏差,比如提前点击交付或延迟点击交付,这都会导致签到数据和实际交付位置不一致,这些数据如果参与计算会进一步增加最终结果的不准确性。因此,对相同POI名称对应的地理位置信息进行去噪,能够进一步过滤掉影响POI生成质量的数据。
最后,去噪后的地理位置信息求几何平均值,是一种具体的聚合手段,在实际测试中效果也较好。当然在其他实施例中,也可以采用其他方式进行地理位置信息的聚合。
图5示出了根据本申请一个实施例生成的地理位置POI的示意图,该POI对应的POI名称为“河北软件职业技术学院东校区新五公寓”。具体地,可以是通过对“河北软件职业技术学院东校区新五公寓”这个地址解析得到的,解析结果为:小区=“河北软件职业技术学院东校区新五公寓”;楼号=“un”;单元=“un”。图6中,蓝色为地理位置打点数据中的地理位置信息,白色为该POI的地理位置信息。
在本申请的一个实施例中,上述方法中,对相同POI名称对应的地理位置信息进行去噪包括:使用孤立森林算法对相同POI名称对应的地理位置信息进行去噪。
在此给出了利用IF(Isolation Forest,孤立森林)算法对地理位置信息进行去噪的示例,同样是考虑到这种去噪算法的效果更好,在其他实施例中可以将其更换为其他的去噪算法。
图6示出了根据本申请一个实施例的去噪效果示意图。其中,灰色坐标为从业务数据中得到的,相同POI名称对应的地理位置信息(坐标点形式),白色则是去噪后保留的地理位置信息。可见,***的漂移坐标点被舍弃,保留的是集中在一定区域内坐标点。
在本申请的一个实施例中,上述方法进一步包括:对各生成的POI,分别获取包含POI的地理位置打点数据;根据POI的地理位置信息,以及包含POI的地理位置打点数据中与POI对应的地理位置信息计算得到第一距离,统计与各POI对应的第一距离落入各预设区间的数量,根据统计得到的数量计算各POI的质量得分;过滤掉质量得分小于第一阈值的POI;和/或,根据包含POI的地理位置打点数据中与POI对应的地理位置信息以及与POI对应的地址描述信息,计算得到第二距离,以及计算第二距离减去相应的第一距离得到的差值,若存在差值小于第二阈值的情况,则过滤掉相应的POI;若对一个POI计算得到的差值中,差值大于第三阈值的比例小于第四阈值,则过滤掉相应的POI。
无论如何对方案进行改进,总会出现一些生成的POI质量较低的情况,因此需要设计一套评估机制识别出不可靠的POI并过滤。
一个具体的评估机制为:计算地理位置打点数据中的地理位置信息(如签到数据)与相应POI的地理位置信息(POI坐标)的距离作为第一距离(例如记为distance_new),这一指标能够表现出新生成的POI与签到坐标的偏差。显然,一个新生成的POI的地理位置信息是唯一的,而与其相关,即包含POI的地理位置打点数据中的地理位置信息是很多的,则能够计算出多个distance_new值。则对计算出的distance_new值进行统计:
令a=count(distance_new<=30);
b=count(30<distance_new<=50);
c=count(distance_new>100);
即统计distance_new值落入不同区间的数量,根据实际情况,区间的端点值可以进行调整,不限于上述给出的示例。
一个具体的打分公式为score=3a+b-2c,score即为新生成POI的评估得分。这体现了用于生成POI的各地理位置打点数据的聚集程度。
另外,还可以考虑到新生成的POI的地理位置信息需要比根据地理位置打点数据直接确定的地理位置信息准确。则据包含POI的地理位置打点数据中与POI对应的地理位置信息以及与POI对应的地址描述信息,计算得到第二距离(例如记为distance_old)。这里,包含POI的地理位置打点数据中与POI对应的地理位置信息可以指的是,根据地址描述信息直接确定的地理位置信息。例如,地理位置打点数据中,地址描述信息为XX大厦,而XX大厦是一个现有POI,可以直接获取到该POI的地理位置信息。
那么用distance_old-distance_new,则能够考察出新生成的POI的地理位置信息是否优于根据地址描述信息直接确定的地理位置信息。将distance_old-distance_new记为bias,bias为正,说明生成的POI的地理位置信息更优,若为负则更劣。进行统计计算,若bias>0所占的比例过低(例如不到67%),则说明生成的POI质量不高。另外如果存在计算出的bias过低,如低于-1000的情况,同样说明生成的POI质量不高。
上述方法择一或者结合使用,可以对生成的地理位置POI进行过滤,保证质量。例如,过滤掉的POI可以包括几种情况:
1)小区维度解析结果错误。具体例子为:知春路17号院,区域名解析为知春院。
2)建筑群存在多个分区,但是小区维度解析结果相同。具体例子为:新龙城与新龙城二期都被解析为新龙城;天通苑西三区和天通苑西二区都被解析为天通苑西;明日星城1区、2区、3区都被解析为明日星城。
3)连锁店。如小区维度解析结果为***营业厅、华联超市、首开广场、华夏银行等位置信息不够精确的词汇。
4)小区维度解析结果过于宽泛。海淀南路2号楼,小区维度解析为海淀;当用户地址较为完整时,小区维度解析结果为朝阳区、海淀区。
5)方言等特殊词汇。具体例子为:XX弄,XX里,学生宿舍XX舍;甲乙丙丁楼号/单元号。
图7a示出了根据本申请一个实施例生成的地理位置POI(过滤前)的示意图,图7b示出了根据本申请一个实施例生成的地理位置POI(过滤后)的示意图,效果十分明显。
表2示出了在外卖配送场景下,根据订单数据,从交付距离和尾单比例两个大的方向对两种策略进行对比对比的效果示意。其中,一种策略即是通过本申请给出的策略,即新生成地理位置POI,表2中称为POI策略;另一种策略为根据订单中的地址描述信息,通过地图搜索服务接口直接确定对应的地理位置信息,在表2中称为地址定位策略。
表2
从表2中各项指标来看,POI策略的效果均明显好于地址定位策略。
图2示出了根据本申请一个实施例的一种地理位置POI的生成装置的结构示意图。如图2所示,地理位置POI的生成装置200包括:
地址信息单元210,用于根据地理位置打点数据确定一组或多组地址信息,其中,地址信息包括地址描述信息和地理位置信息。
POI名称单元220,用于根据地址描述信息分别生成与各组地址信息对应的POI名称。
POI地理位置信息单元230,用于将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息。
POI生成单元240,用于根据POI名称及对应的POI地理位置信息生成相应的POI。
可见,图2所示的装置,适用场景广泛,一般不需要针对不同的建筑设置不同的聚类参数;而选取的聚合对象也是针对同一POI名称,排除了很多干扰数据,最终生成的POI质量较高。
在本申请的一个实施例中,上述装置中,地理位置打点数据包括订单数据;地址信息单元230,用于将订单数据中的服务方地址作为一组地址信息中的地址描述信息,将服务过程中第一阶段的签到数据作为该组地址信息中的地理位置信息;和/或,将订单数据中的用户地址作为一组地址信息中的地址描述信息,将服务过程中第二阶段的签到数据作为该组地址信息中的地理位置信息。
在本申请的一个实施例中,上述装置中,POI名称单元220,用于若地址描述信息是从第一类用户的订单数据得到的,则直接将地址描述信息作为POI名称;若地址描述信息是从第二类用户的订单数据得到的,则对地址描述信息进行结构化解析,得到与若干个维度对应的解析结果,根据解析结果生成POI名称。
在本申请的一个实施例中,上述装置中,POI名称单元220,用于使用自然语言处理算法对地址描述信息进行结构化解析。
在本申请的一个实施例中,上述装置中,POI地理位置信息单元230,用于对相同POI名称对应的地理位置信息进行去噪;对去噪后的地理位置信息求几何平均值,将结果作为相应POI的地理位置信息。
在本申请的一个实施例中,上述装置中,POI地理位置信息单元230,用于使用孤立森林算法对相同POI名称对应的地理位置信息进行去噪。
在本申请的一个实施例中,上述装置进一步包括:POI过滤单元,用于对各生成的POI,分别获取包含POI的地理位置打点数据;根据POI的地理位置信息,以及包含POI的地理位置打点数据中与POI对应的地理位置信息计算得到第一距离,统计与各POI对应的第一距离落入各预设区间的数量,根据统计得到的数量计算各POI的质量得分;过滤掉质量得分小于第一阈值的POI;和/或,根据包含POI的地理位置打点数据中与POI对应的地理位置信息以及与POI对应的地址描述信息,计算得到第二距离,以及计算第二距离减去相应的第一距离得到的差值,若存在差值小于第二阈值的情况,则过滤掉相应的POI;若对一个POI计算得到的差值中,差值大于第三阈值的比例小于第四阈值,则过滤掉相应的POI。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,在根据地理位置打点数据确定一组或多组包括地址描述信息和地理位置信息的地址信息后,先根据地址描述信息分别生成与各组地址信息对应的POI名称,再将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息,从而根据POI名称及对应的POI地理位置信息生成相应的POI。
有益效果在于,适用场景广泛,一般不需要针对不同的建筑设置不同的聚类参数;而选取的聚合对象也是针对同一POI名称,排除了很多干扰数据,最终生成的POI质量较高。例如能够为全国的建筑提供一套统一的参数去计算POI坐标点,而基于密度聚类计算交付点的算法必须针对每个建筑单独调参,不适合大规模上线部署。另外,通过去噪可以得到了更准确的输入数据集,计算出的POI的地理位置信息更加准确;通过打分机制,可以过滤掉质量较低,不符合实际的地理位置POI,进一步确保质量。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的地理位置POI的生成装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如,用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本申请的方法步骤的计算机可读程序代码331,可以被电子设备300的处理器310读取,当计算机可读程序代码331由电子设备300运行时,导致该电子设备300执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (9)
1.一种地理位置POI的生成方法,包括:
根据地理位置打点数据确定一组或多组地址信息,其中,所述地址信息包括地址描述信息和地理位置信息;
根据所述地址描述信息分别生成与各组地址信息对应的POI名称;
将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息;
根据POI名称及对应的POI地理位置信息生成相应的POI;
所述地理位置打点数据包括订单数据,所述根据地理位置打点数据确定一组或多组地址信息包括:
将所述订单数据中的各地址描述信息分别作为一组地址信息中的地址描述信息;
获取与各地址描述信息对应的服务阶段的签到数据,作为各组地址信息中的地理位置信息。
2.如权利要求1所述的方法,其特征在于,所述根据所述地址描述信息分别生成与各组地址信息对应的POI名称包括:
若所述地址描述信息是从第一类用户的订单数据得到的,则直接将所述地址描述信息作为POI名称;
若所述地址描述信息是从第二类用户的订单数据得到的,则对所述地址描述信息进行结构化解析,得到与若干个维度对应的解析结果,根据所述解析结果生成POI名称。
3.如权利要求2所述的方法,其特征在于,所述对所述地址描述信息进行结构化解析包括:
使用自然语言处理算法对所述地址描述信息进行结构化解析。
4.如权利要求1所述的方法,其特征在于,所述将相同POI名称对应的地理位置信息进行聚合包括:
对相同POI名称对应的地理位置信息进行去噪;
对去噪后的地理位置信息求几何平均值,将结果作为相应POI的地理位置信息。
5.如权利要求4所述的方法,其特征在于,所述对相同POI名称对应的地理位置信息进行去噪包括:
使用孤立森林算法对相同POI名称对应的地理位置信息进行去噪。
6.如权利要求1所述的方法,其特征在于,该方法进一步包括:
对各生成的POI,分别获取包含POI的地理位置打点数据;
根据POI的地理位置信息,以及包含POI的地理位置打点数据中与POI对应的地理位置信息计算得到第一距离,统计与各POI对应的第一距离落入各预设区间的数量,根据统计得到的数量计算各POI的质量得分;过滤掉质量得分小于第一阈值的POI;
和/或,
根据包含POI的地理位置打点数据中与POI对应的地理位置信息以及与POI对应的地址描述信息,计算得到第二距离,以及计算第二距离减去相应的第一距离得到的差值,若存在差值小于第二阈值的情况,则过滤掉相应的POI;若对一个POI计算得到的差值中,差值大于第三阈值的比例小于第四阈值,则过滤掉相应的POI。
7.一种地理位置POI的生成装置,包括:
地址信息单元,用于根据地理位置打点数据确定一组或多组地址信息,其中,所述地址信息包括地址描述信息和地理位置信息;
POI名称单元,用于根据所述地址描述信息分别生成与各组地址信息对应的POI名称;
POI地理位置信息单元,用于将相同POI名称对应的地理位置信息进行聚合,得到与POI名称对应的POI地理位置信息;
POI生成单元,用于根据POI名称及对应的POI地理位置信息生成相应的POI;
所述地理位置打点数据包括订单数据;
所述地址信息单元,用于将所述订单数据中的各地址描述信息分别作为一组地址信息中的地址描述信息;获取与各地址描述信息对应的服务阶段的签到数据,作为各组地址信息中的地理位置信息。
8.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910252386.8A CN109992638B (zh) | 2019-03-29 | 2019-03-29 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910252386.8A CN109992638B (zh) | 2019-03-29 | 2019-03-29 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992638A CN109992638A (zh) | 2019-07-09 |
CN109992638B true CN109992638B (zh) | 2020-11-20 |
Family
ID=67131983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910252386.8A Active CN109992638B (zh) | 2019-03-29 | 2019-03-29 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992638B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648043A (zh) * | 2019-07-26 | 2020-01-03 | 深圳壹账通智能科技有限公司 | 基于地址信息的分析方法、装置、电子设备及存储介质 |
CN111026937B (zh) | 2019-11-13 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 提取poi名称的方法、装置、设备和计算机存储介质 |
CN110969387A (zh) * | 2019-11-28 | 2020-04-07 | 拉扎斯网络科技(上海)有限公司 | 订单配送方法、服务器、终端及*** |
CN111325013B (zh) * | 2020-02-06 | 2022-02-25 | 北京三快在线科技有限公司 | 自动生成信息卡的方法、装置、通信***和存储介质 |
CN111368170B (zh) * | 2020-02-11 | 2023-03-31 | 口碑(上海)信息技术有限公司 | 页面数据的巡检方法、装置及设备 |
CN111444442B (zh) * | 2020-03-25 | 2023-04-28 | 汉海信息技术(上海)有限公司 | 一种信息推荐方法及装置 |
CN112597755B (zh) * | 2020-12-29 | 2024-06-11 | 杭州拼便宜网络科技有限公司 | 一种地理位置信息生成方法、装置、电子设备及存储介质 |
CN115515143B (zh) * | 2021-06-22 | 2024-07-02 | ***通信集团重庆有限公司 | 一种基站覆盖场景确定方法、装置、设备及存储介质 |
CN113836252B (zh) * | 2021-09-17 | 2023-09-26 | 北京京东振世信息技术有限公司 | 用于确定地理坐标的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291888A (zh) * | 2017-06-21 | 2017-10-24 | 苏州发飚智能科技有限公司 | 基于机器学习统计模型的入住酒店附近生活推荐***方法 |
CN107491537A (zh) * | 2017-08-23 | 2017-12-19 | 北京百度网讯科技有限公司 | Poi数据挖掘、信息检索方法、装置、设备及介质 |
CN107622061A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种确定地址唯一性的方法、装置及*** |
CN108536695A (zh) * | 2017-03-02 | 2018-09-14 | 北京嘀嘀无限科技发展有限公司 | 一种地理位置信息点的聚合方法以及装置 |
CN109074396A (zh) * | 2016-05-10 | 2018-12-21 | 北京嘀嘀无限科技发展有限公司 | 推荐个性化内容的***和方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853740B (zh) * | 2012-11-29 | 2018-06-12 | 北京百度网讯科技有限公司 | 一种基于用户定位请求的poi数据更新方法和装置 |
CN104572955B (zh) * | 2014-12-29 | 2016-08-24 | 北京奇虎科技有限公司 | 一种基于聚类确定poi名称的***及方法 |
CN105243136B (zh) * | 2015-09-30 | 2019-02-19 | 北京奇虎科技有限公司 | 一种挖掘互联网中的兴趣点poi数据的方法和装置 |
US10002140B2 (en) * | 2016-09-26 | 2018-06-19 | Uber Technologies, Inc. | Geographical location search using multiple data sources |
CN107330466B (zh) * | 2017-06-30 | 2023-01-24 | 上海连尚网络科技有限公司 | 极速地理GeoHash聚类方法 |
CN108763538B (zh) * | 2018-05-31 | 2019-07-23 | 北京嘀嘀无限科技发展有限公司 | 一种确定兴趣点poi地理位置的方法及装置 |
CN109146457A (zh) * | 2018-08-01 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 信息录入辅助方法及装置 |
-
2019
- 2019-03-29 CN CN201910252386.8A patent/CN109992638B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074396A (zh) * | 2016-05-10 | 2018-12-21 | 北京嘀嘀无限科技发展有限公司 | 推荐个性化内容的***和方法 |
CN107622061A (zh) * | 2016-07-13 | 2018-01-23 | 阿里巴巴集团控股有限公司 | 一种确定地址唯一性的方法、装置及*** |
CN108536695A (zh) * | 2017-03-02 | 2018-09-14 | 北京嘀嘀无限科技发展有限公司 | 一种地理位置信息点的聚合方法以及装置 |
CN107291888A (zh) * | 2017-06-21 | 2017-10-24 | 苏州发飚智能科技有限公司 | 基于机器学习统计模型的入住酒店附近生活推荐***方法 |
CN107491537A (zh) * | 2017-08-23 | 2017-12-19 | 北京百度网讯科技有限公司 | Poi数据挖掘、信息检索方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
"An event-based POI service from microblogs";Chun-Shuo Lin et al.;《2011 13th Asia-Pacific Network Operations and Management Symposium》;20111115;第1-4页 * |
"地名地址检索技术在智能物流***中的应用研究";应毅 等;《物流工程与管理》;20181031;第40卷(第292期);第55-57,68页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109992638A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992638B (zh) | 地理位置poi的生成方法、装置、电子设备和存储介质 | |
CN108446281B (zh) | 确定用户亲密度的方法、装置及存储介质 | |
CN109376761B (zh) | 一种地址标识及其经纬度的挖掘方法及装置 | |
CN104077308B (zh) | 一种物流服务范围确定方法及装置 | |
CN104462155B (zh) | 一种兴趣点父子关系的建立方法及装置 | |
CN110110244B (zh) | 一种融合多源信息的兴趣点推荐方法 | |
CN107133289B (zh) | 一种确定商圈的方法和装置 | |
CN111881573B (zh) | 一种基于城市内涝风险评估的人口空间分布模拟方法及装置 | |
CN111811525B (zh) | 一种基于遥感图像和浮动车轨迹的路网生成方法及*** | |
CN111178179A (zh) | 一种基于像元尺度的城市功能区的识别方法及装置 | |
CN112669250B (zh) | 一种轨迹对齐方法及电子设备 | |
CN108154387B (zh) | 公交车身广告投放线路方案的评估方法及装置 | |
CN110555432B (zh) | 一种兴趣点处理方法、装置、设备和介质 | |
CN108228593A (zh) | 兴趣点重要度测量方法和装置 | |
WO2021143487A1 (zh) | 确定poi坐标 | |
CN106528559B (zh) | 一种位置信息的提供方法和设备 | |
CN105426387A (zh) | 一种基于K-means算法的地图聚合方法 | |
CN111369284B (zh) | 目标对象类型确定方法及装置 | |
CN113407906A (zh) | 一种基于手机信令数据的交通出行分布阻抗函数的确定方法 | |
CN108734393A (zh) | 房源信息的匹配方法、用户设备、存储介质及装置 | |
CN108171534B (zh) | 一种车载广告公交线路推荐方法及装置 | |
CN103218406B (zh) | 兴趣点的地址信息的处理方法及设备 | |
CN111121803A (zh) | 获取道路常用停靠点的方法及装置 | |
CN115983007A (zh) | 一种重合轨迹提取方法、装置、电子设备及存储介质 | |
CN113032514B (zh) | 兴趣点数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |