CN111931077B

CN111931077B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN111931077B
Application number: CN202010615622.0A
Authority: CN
Inventors: 张雷; 段航; 杨凯; 苏哲; 胡渭
Original assignee: Hanhai Information Technology Shanghai Co Ltd
Current assignee: Hanhai Information Technology Shanghai Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-12-12
Anticipated expiration: 2040-06-30
Also published as: CN111931077A

Abstract

本发明公开了一种数据处理方法和装置。该方法包括：基于多个历史订单中每个历史订单的订单信息，分别确定每个历史订单对应的兴趣点POI名称，以及每个历史订单所属的第三定位位置；其中，订单信息包括下单时的第一定位位置和订单交接时的第二定位位置；在多个历史订单中，识别POI名称相同、且第三定位位置满足预设条件的目标历史订单，其中，第三定位位置满足预设条件包括任意两个目标历史订单的第三定位位置之间的距离小于第一预设阈值；基于具有同一POI名称的目标历史订单的第一定位位置和第二定位位置，确定同一POI名称对应的POI坐标。本发明能够对挖掘的POI坐标提升准确率、覆盖率、以及降低挖掘局限性。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明的实施例涉及数据处理技术领域，特别是涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。

背景技术

POI(Point of Interest，兴趣点)是地理信息***发展到一定阶段后，随着用户的个性化服务需求而出现的。POI信息主要包括名称、类别、坐标、分类等信息。全面的POI讯息是丰富导航地图的条件，及时的POI能提醒用户路况的分支及周边建筑的详尽信息，也能方便导航中查到用户所需要的各个地方，从而选择最为便捷和通畅的道路来进行路径规划，因此，POI坐标显得尤为重要。

相关技术中，在挖掘POI的坐标时，主要是利用地图编码来获取POI坐标，其中，地图编码可以涉及地址/地名与坐标之间的对应关系，因此，可以通过POI的地址属性来从地图编码中获取POI坐标。

但是，地理编码需要有较完善的地图数据支持，目前自建的地理编码的准确率较低，因此，以此获取的POI坐标的准确率较低；此外，有些POI的地址信息质量较差，从而难以依据该POI地址来从地理编码中获取POI坐标，因此，该方案还存在着覆盖率低的问题；另外，对于地址相近的POI(例如同一条街的两个商铺)，则容易通过地理编码获取到同一POI坐标，因此，该方案还存在着局限性大的问题。

因此，相关技术中挖掘POI坐标的方案普遍存在着POI坐标准确率低、覆盖率低、以及局限性大的问题。

发明内容

本发明的实施例提供一种数据处理方法，以解决相关技术中相关技术中挖掘POI坐标的方案所存在的POI坐标准确率低、覆盖率低、以及局限性大的问题。

为了解决上述问题，第一方面，本发明实施例提供了一种数据处理方法，包括：

基于多个历史订单中每个历史订单的订单信息，分别确定所述每个历史订单对应的兴趣点POI名称，以及所述每个历史订单所属的第三定位位置；

其中，所述订单信息包括下单时的第一定位位置和订单交接时的第二定位位置；

在所述多个历史订单中，识别所述POI名称相同、且所述第三定位位置满足预设条件的目标历史订单，其中，所述第三定位位置满足预设条件包括任意两个所述目标历史订单的第三定位位置之间的距离小于第一预设阈值；

基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标。

第二方面，本发明实施例提供了一种数据处理装置，包括：

第一确定模块，用于基于多个历史订单中每个历史订单的订单信息，分别确定所述每个历史订单对应的兴趣点POI名称，以及所述每个历史订单所属的第三定位位置；

第一识别模块，用于在所述多个历史订单中，识别所述POI名称相同、且所述第三定位位置满足预设条件的目标历史订单，其中，所述第三定位位置满足预设条件包括任意两个所述目标历史订单的第三定位位置之间的距离小于第一预设阈值；

第二确定模块，用于基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标。

第三方面，本发明实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例所述的数据处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本发明实施例公开的数据处理方法的步骤。

在本发明实施例中，通过从历史订单中确定出对应的POI名称相同、且任意两个历史订单所属第三定位位置之间的距离较近的目标历史订单，使得所确定的目标历史订单指向同一POI，那么利用指向同一POI的多个目标历史订单的下单时的第一定位位置和订单交接时的第二定位位置，来确定该同一POI的POI坐标，由于该第一定位位置和第二定位位置更加准确、且所挖掘的POI坐标结合了多个目标历史订单的第一定位位置和第二定位位置，从而能够进一步提升对该POI名称所挖掘的POI坐标的准确率；此外，由于历史订单覆盖的地理位置较广，因此，只要存在历史订单的位置就可以借助于本发明实施例的技术方案来挖掘出该位置的POI坐标，进一步提升了POI坐标的挖掘覆盖率；另外，在挖掘POI坐标时，本发明实施例的方法通过结合具有同一POI名称的多个目标历史订单的第一定位位置和第二定位位置进行该POI名称的POI坐标挖掘，而即便距离较近的两个地理位置，由于其对应的POI名称存在区别，因此，本发明不会存在对距离相近的两个位置挖掘到同一POI坐标的局限问题，相反，针对即便地址相近的两个地理位置，也可以基于POI名称来挖掘出不同的POI坐标，降低了挖掘的POI坐标的局限性。此外，由于订单信息的时效性更强，因此，基于历史订单的订单信息能够更加及时地挖掘出POI坐标。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的数据处理方法的步骤流程图；

图2是本发明一个实施例的地图示意图；

图3是本发明一个实施例的数据处理装置的结构框图；

图4示意性地示出了用于执行根据本公开的方法的计算处理设备的框图；以及

图5示意性地示出了用于保持或者携带实现根据本公开的方法的程序代码的存储单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据处理方法，如图1所示，该方法可以包括如下步骤：

步骤101，基于多个历史订单中每个历史订单的订单信息，分别确定所述每个历史订单对应的POI名称，以及所述每个历史订单所属的第三定位位置；

可选地，所述订单信息还包括订单地址。

其中，历史订单的订单类型可以为任意一种包括订单地址、下单时的第一定位位置和订单交接时的第二定位位置等订单信息的文本订单，比如外卖订单、打车订单、快递订单，等等。

比如，对于一个外卖订单而言，订单地址可以为下单用户设置的收货地址，下单时的第一定位位置可以为下单用户在下单时的用户定位位置，订单交接时的第二定位位置可以为下单用户在接收配送员交付的商品时的用户定位位置。

再比如，对于一个打车订单来说，订单地址可以为下单用户设置的上车地址，下单时的第一定位位置可以为下单用户在下单时的用户定位位置，订单交接时的第二定位位置可以为下单用户在上车时的用户定位位置。

在一种可能的实施方式中，当历史订单的订单信息包括订单地址，而不包括上述第一定位位置和第二定位位置时，则可以通过将历史订单分别与该历史订单的用户在下单时的定位坐标和订单交接时的定位坐标进行挂接，从而生成历史订单与上述一组定位坐标之间的关联关系，这样，该关联关系也可以构成该历史订单的订单信息，使得经过此配置后的历史订单的订单信息不仅包括订单地址，还包括上述第一定位位置和第二定位位置。

在本步骤中，主要是基于历史订单的订单信息，来挖掘该历史订单的POI名称，以及该历史订单所属的定位位置。

对于历史订单所属的定位位置而言，虽然历史订单的订单信息可以包括至少一种定位位置，但是为了便于表达该历史订单的定位，这里还需要对每个历史订单挖掘一个第三定位位置。

步骤102，在所述多个历史订单中，识别所述POI名称相同、且所述第三定位位置满足预设条件的目标历史订单；

经过步骤101的处理，针对每个历史订单，都可以挖掘到一个POI名称以及一个第三定位位置。

而历史订单的数量为多个，因此，需要从多个历史订单中挖掘出对应有同一POI名称、且所述第三定位位置满足预设条件的目标历史订单。

这里挖掘到的目标历史订单的数量为多个。

其中，所述第三定位位置满足预设条件包括任意两个所述目标历史订单的第三定位位置之间的距离小于第一预设阈值。

也就是说，本步骤主要是从多个历史订单中挖掘出指向同一个POI(具体为历史订单所对应的POI名称相同、且任意两个历史订单所属的第三定位位置比较近)的多个目标历史订单，其中，任意两个历史订单所属的第三定位位置比较近具体指代：任意两个目标历史订单的第三定位位置之间的距离小于第一预设阈值。

步骤103，基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标。

其中，针对多个目标历史订单所分别提取的POI名称相同。且每个目标历史订单具有第一定位位置和第二定位位置，如果将一个订单的第一定位位置和第二定位位置看做一个定位位置组合，则具有同一POI名称的多个目标历史订单可以对应多组该定位位置组合，可以利用该多组定位位置组合，来挖掘该POI名称所对应的POI坐标。

其中，第一定位位置可以为经纬度坐标，第二定位位置可以为经纬度坐标，相应地，POI坐标也可以为经纬度坐标。

可选地，所述订单信息还包括订单地址，在执行步骤101时，可以通过S201和S202来实现：

S201，基于多个历史订单中每个历史订单的所述订单地址，分别确定所述每个历史订单对应的POI名称；

其中，可以通过对每个历史订单的订单地址做切词处理等方式，来从订单地址中提取出每个历史订单对应的POI名称。

S202，基于所述每个历史订单的所述第一定位位置和所述第二定位位置，确定所述每个历史订单所属的第三定位位置。

其中，在对一个历史订单确定其所属的第三定位位置时，可以将该历史订单的第一定位位置和第二定位位置中的任意一个定位位置作为该第三定位位置。也可以将历史订单的第一定位位置和第二定位位置之间的中间定位位置作为该历史订单所属的第三定位位置。

那么基于历史订单的下单定位和订单交接定位所确定出的该历史订单所属的定位位置可以更加准确。

其中，本发明对于S201和S202的执行顺序不做限制。

在本发明实施例中，可以基于多个历史订单中每个历史订单的所述订单地址，分别确定所述每个历史订单对应的POI名称，由于历史订单的订单地址比较准确，因此，可以提升挖掘的POI名称的准确度；此外，可以基于所述每个历史订单的所述第一定位位置和所述第二定位位置，确定所述每个历史订单所属的第三定位位置，由于历史订单的下单定位和交接定位都比较准确，因此，基于第一定位位置和第二定位位置所确定的该历史订单的所属定位比较客观、准确。

可选地，在执行上述S201时，可以针对多个历史订单中每个历史订单的所述订单地址，分别进行切词得到切词结果，从所述切词结果中提取所述每个历史订单对应的POI名称。

其中，获取每个历史订单的订单信息可以包括订单地址、下单时的第一定位位置和订单交接时的第二定位位置。当然，订单信息中还可以包括下单时间、支付方式、订单备注等信息。

针对每个历史订单的订单地址，分别对该订单地址进行切词，得到切词结果。经过切词后，可以将订单地址切分为多个分词，并获得各分词的属性标签。依据个分词的属性标签，可以从切分得到的分词中提取可能代表一个POI的POI名称。其中，一个POI可以是一个商铺、一个商场、一个公交站、一个写字楼、一个公园、一个小区，等等。

在一种可选实施方式中，可以预先训练用于对订单地址进行结构化切词的切词模型。在训练过程中，获取大量的第一样本数据，每个第一样本数据都包括样本分词和所述样本分词的标注属性标签。基于大量第一样本数据，采用机器学习算法对待训练切词模型进行训练，将样本分词作为待训练切词模型的输入，依据待训练切词模型的输出及样本分词的标注属性标签计算损失值，在损失值处于预设范围内时，确定训练完成，将训练完成的模型作为所述切词模型。在实现中，切词模型可以采用BiLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆)-CRF(Conditional Random Field，条件随机场)等模型结构。

可选地，在对订单地址进行切词得到切词结果时，可以将所述订单地址输入预先训练的切词模型，得到所述切词模型输出的，各分词及所述各分词的属性标签，将所述各分词及所述各分词的属性标签作为所述切词结果。其中，所述切词模型依据多个第一样本数据训练得到，所述第一样本数据包括样本分词和所述样本分词的标注属性标签。

比如，一个订单地址为北京市海淀区中关村路A大厦A座六层，对其进行结构化切词后，可以得到分词“北京市”，“海淀区”，“中关村路”，“A大厦”，“A座”，“六层”。其中，分词“北京市”的属性标签为“城市”，分词“海淀区”的属性标签为“区域”，分词“中关村路”的属性标签为“街道”，分词“A大厦”的属性标签为“POI”，分词“A座”的属性标签为“楼栋”，分词“六层”的属性标签为“楼层”。

在本发明实施例中，由于切词模型基于大量样本分词和样本分词的标注属性标签训练得到，因此利用切词模型，能够更加准确、更加快速地对订单地址进行切词。

可选地，所述订单信息还包括手选地址类型，那么在POI名称提取过程中，可以依据上述的手选地址类型进行POI名称提取。

在一种可选实施方式中，可以预设地址类型与属性标签的对应关系。

比如，当地址类型为写字楼时，对应的属性标签可以为“POI”和“楼栋”；当地址类型为小区时，对应的属性标签可以为“POI”和“楼号”；当地址类型为商铺时，对应的属性标签可以为“POI”；当地址类型为商场时，对应的属性标签可以为“POI”；当地址类型为公园时，对应的属性标签可以为“POI”；当地址类型为公交站时，对应的属性标签可以为“POI”，等等。

那么在从所述切词结果中提取所述每个历史订单对应的POI名称时，可以从预设的地址类型与属性标签的对应关系中，查询每个历史订单的所述手选地址类型对应的目标属性标签；从所述切词结果中提取属性标签为所述目标属性标签的分词，将提取出的分词作为每个历史订单对应的所述POI名称。

比如，在实际应用中，订单地址的形式可以包括：手选POI形式、手选POI+手写内容形式、手写内容形式。手选POI形式，是指用户只手选了地址。对于手选POI形式，该订单地址的组成可以包括以下三种：POI(也即提取的POI名称)，POI+单元/楼层/房间号，POI+补充信息(比如备注信息)。手选POI+手写内容形式，是指用户手选了一部分地址，并且手写了一部分内容。对于手选POI+手写内容形式，该订单地址的组成可以包括以下两种：POI+楼栋+其他，POI+子描述+其他。手写内容形式，是指用户只手写了地址。对于手写内容形式，该订单地址的组成可以包括以下两种：POI+真实诉求，POI+其他信息。

在本发明实施例中，考虑到不同地址类型对应的POI名称中可能包含不同属性标签对应的分词，因此基于实际情况设置地址类型与属性标签的对应关系，根据该对应关系提取POI名称，提取过程更加简便，提取结果更加准确。

可选地，在执行步骤103时，可以将所述同一POI名称对应的第一定位位置和第二定位位置中的异常定位位置进行过滤处理，然后，再基于所述同一POI名称对应的经过所述过滤处理后的第一定位位置和第二定位位置，确定所述同一POI名称对应的POI坐标，具体可以包括S301～S304来实现：

S301，将具有所述同一POI名称的每个所述目标历史订单的所述第一定位位置和所述第二定位位置，分别转换为地理位置索引，生成定位位置与地理位置索引之间的关联关系；

其中，由于第一定位位置和第二定位位置均可以是经纬度坐标，因此，可以将一个经纬度坐标转换为一个地理位置索引。

其中，在将任何一个经纬度的地理坐标转换为一个地理位置索引时，可以采用的地理索引计算方法包括但不限于GeoHash、H3、S2等算法。

其中，地理位置索引可以将经纬度坐标，编码为由字母和数字所构成的短字符串，可以用这个短字符串值来做索引，用于表达地图上的某个坐标点或区域。其中，在地图上点相近的点就可以转化成有相同前缀的地理位置索引(例如地图上相近的地点1和地点2，它们的地理位置索引分别为abc123,abc124，前缀均为abc12)。

而且，地理位置索引可以表示任意精度的地理位置坐标，只要该地理位置索引的字符串长度足够长，其中，地理位置索引的精度越高，其字符串长度越长，其所表达的地理位置的区域就越小、越精准；那么在使用地理位置索引的编码(即字符串)来确定两个地点之间的远近程度时，两组编码的前缀匹配的越长，说明两个地点的地理位置越邻近。

在一个示例中，可以采用GeoHash算法，来将具有同一POI名称的各目标历史订单的各第一定位位置和各第二定位位置，分别转换为哈希索引，即将空间位置编码为一个字符串。

这样，每个目标历史订单的每个第一定位位置都分别转换为一个哈希索引，同理每个目标历史订单的每个第二定位位置也都分别转换为一个哈希索引。

这样，针对该同一POI名称就生成了定位位置与地理位置索引之间的关联关系。

其中，由于不同目标历史订单的不同定位位置之间(例如第一定位位置之间，或第二定位位置之间，或第一定位位置和第二定位位置之间)可能距离较近，因此，存在不同定位位置关联同一个地理位置索引的情况，但是不存在同一定位位置关联不同地理位置索引的情况。

在一个示例中，例如针对具有同一POI名称(例如“XX大厦11号楼”)的5个目标历史订单(因此一共对应有10个待转换的定位位置，即坐标)经过上述索引转换，生成了以下关联关系：

索引1关联坐标1、坐标2、坐标3、坐标4、坐标5；

索引2关联坐标6、坐标7、坐标8；

索引3关联坐标9和坐标10。

S302，在所述同一POI名称对应的多个所述地理位置索引中，识别关联有最多数量的定位位置的目标地理位置索引；

在上述示例中，该POI名称“XX大厦11号楼”对应了上述三个索引，可以识别到关联最多数量坐标的目标索引，即索引1。

S303，在所述同一POI名称对应的所述第一定位位置和所述第二定位位置中，对未与所述目标地理位置索引关联的定位位置进行过滤处理；

在上述示例中，可以将未与索引1关联的坐标6、坐标7、坐标8、坐标9以及坐标10，从与POI名称“XX大厦11号楼”对应的10个坐标(即坐标1～坐标10)中过滤掉，使得POI名称“XX大厦11号楼”只对应有坐标1、坐标2、坐标3、坐标4、坐标5。

S304，基于所述同一POI名称对应的经过所述过滤处理后的第一定位位置和第二定位位置，确定所述同一POI名称对应的POI坐标。

在上述示例中，可以基于POI名称“XX大厦11号楼”所对应的过滤后得到的坐标1、坐标2、坐标3、坐标4、坐标5，来确定该POI名称的POI坐标。

上述坐标6～坐标10都是被过滤的异常定位位置。

在一些应用场景下，被过滤的异常定位位置可以包括以下任意一种类型的定位位置：异地下单的第一定位位置(即下单的第一定位位置和订单地址在两个完全不同的地理位置的情况，或下单的第一定位位置和交接的第二定位位置在两个完全不同的地理位置的情况。例如不同城市、同一城市的不同区县、同一城市的不同大厦等情况，此时被过滤的异常定位位置为下单的第一定位位置)、订单交接不规范的交接的第二定位位置(例如骑手交接订单的第二定位位置，与订单地址距离相差很远的情况，则此时被过滤的异常定位位置为交接的第二定位位置)。

在本发明实施例中，通过将第一定位位置和第二定位位置分别转换为地理位置索引，由于地理位置索引易于判断地理位置之间的远近，因此，能够基于地理位置索引准确地将异常的第一定位位置和/或第二定位位置进行过滤，那么采用同一POI名称对应的过滤后的第一定位位置和第二定位位置，来挖掘该POI名称对应的POI坐标，可以避免异常的第一定位位置和/或第二定位位置对挖掘的POI坐标的准确度所造成的误差影响，进而提升挖掘的POI坐标的准确度。

可选地，在执行步骤103或上述S304时，可以依次通过步骤A1、步骤A2以及步骤A3来实现：

步骤A1，将具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置进行密度聚类，得到至少一个第一聚类簇；

其中，这里的密级聚类对象可以是经过上述过滤处理前，或过滤处理后的所述同一POI名称对应的第一定位位置和第二定位位置。

一个历史订单具有一个订单地址，不同历史订单之间的订单地址可以相同或不同。一个历史订单的订单地址可以提取出一个POI名称，一个历史订单对应一个第一定位位置和一个第二定位位置。针对同一POI名称，其可以对应多个历史订单，因此，同一个POI名称可以对应多个第一定位位置和多个第二定位位置。

在实现中，可以采用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，具有噪声的基于密度的聚类方法)对具有同一POI名称的各所述目标历史订单中，每个目标历史订单对应的所述第一定位位置和所述第二定位位置(相当于多组第一定位位置和多组第二定位位置)进行密度聚类。

在一个示例中，如图2所示，本步骤中进行DBSCAN聚类的范围为范围11，范围11内的各个圆点(除圆点12)为经过上述过滤处理后(例如图2中的不在范围11内的三个圆点13是被过滤的异常定位位置)需要聚类的、具有同一POI名称(例如“XX大厦11号楼”)的第一定位位置和第二定位位置。

DBSCAN是一种基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

DBSCAN中的几个定义如下：

Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域。

核心对象：如果给定对象Ε邻域内的样本点数大于等于MinPts，则称该对象为核心对象。

直接密度可达：对于样本集合D，如果样本点q在p的Ε邻域内，并且p为核心对象，那么对象q从对象p直接密度可达。

密度可达：对于样本集合D，给定一串样本点p1，p2…pn，p＝p1，q＝pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。

密度相连：存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相联。

DBSCAN聚类过程大致描述如下：

对于给定的邻域距离E和邻域最小样本点数MinPts：

(1)遍历所有样本，找出所有满足邻域距离E的核心对象的集合；

(2)任意选择一个核心对象，找出其所有密度可达的样本生成聚类簇；

(3)从剩余的核心对象中移除(2)中找到的密度可达的样本；

(4)从更新后的核心对象集合重复执行(2)～(3)步，直到核心对象都被遍历或移除。

对应于本发明实施例，具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置组成一个样本集合，其中，一个第一定位位置为一个样本，一个第二定位位置也为一个样本，样本集合中可以不对第一定位位置和第二定位位置进行区分，它们都是样本。

步骤A2，选取量级最大的第一聚类簇，对选取的第一聚类簇进行K-Means聚类，得到至少一个第二聚类簇；

其中，可以从密度聚类后得到的第一聚类簇中，选取量级最大的第一聚类簇。量级级最大是指该聚类簇中的样本点数最大。对选取的量级最大的第一聚类簇进行K-Means聚类。

K-Means是一种基于距离的聚类算法。采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

K-Means聚类过程大致如下：

(1)从所有样本中随机选取K个样本作为质心。

(2)对剩余的每个样本测量其到每个质心的距离，并把它归到最近的质心的类。

(3)重新计算已经得到的各个类的质心。

(4)迭代(2)～(3)步，直至新的质心与原质心相等或距离小于指定阈值，算法结束。

对应于本发明实施例，选取的量级最大的第一聚类簇组成一个样本集合，其中，一个第一定位位置为一个样本，一个第二定位位置也为一个样本。

步骤A3，选取量级最大的第二聚类簇，将选取的第二聚类簇的质心作为所述同一POI名称对应的POI坐标。

从K-Means聚类后得到的第二聚类簇中，选取量级最大的第二聚类簇。量级级最大是指该聚类簇中的样本点数最大。将选取的量级最大的第二聚类簇的质心作为所述同一POI名称对应的POI坐标。

在一个示例中，如图2所示，该质心为范围11内的圆点12，即圆点12的坐标为POI名称(例如“XX大厦11号楼”)对应的POI坐标。

针对一个POI名称，如果仅根据其所属的一个历史订单对应的第一定位位置和第二定位位置确定该POI名称对应的POI位置，可能会由于该历史订单的第一定位位置或第二定位位置不准确等原因，导致得出的POI坐标准确度较低。因此，在本发明实施例中，可以将具有同一POI名称的各历史订单对应的第一定位位置和第二定位位置结合起来进行处理，对同一POI名称对应的多个第一定位位置和多个第二定位位置进行聚类，确定出一个置信度更高的POI坐标，从而弱化某些定位位置对得到的POI坐标造成不准确的影响。并且，通过密度聚类和K-Means聚类相结合的方式，能够弥补单种聚类方式的不足，进一步提高聚类结果的准确度。

可选地，步骤103之后，根据本发明实施例的方法还可以包括：

步骤104，获取待纠正POI坐标的候选POI信息，其中，所述候选POI信息包括候选POI名称、候选POI坐标、候选POI类别；

在一些应用场景中，现存有大量高价值的POI信息，在这些POI信息中有些POI信息存在着坐标问题(例如POI信息中不存在POI坐标，或POI信息中的POI坐标不准确)，从而导致这些存在坐标问题的现有POI信息无法上线使用。在本发明实施例中，可以对这些存在坐标问题的候选POI信息进行坐标更新，从而使得已有的POI信息可以被各种应用使用。

因此，这里的候选POI信息为至少一个存在坐标问题(即待纠正POI坐标)的POI信息。

对于现有POI信息中不存在POI坐标的POI信息，可以基于该POI信息的地址来生成初始的POI坐标，这里的初始的POI坐标即为该POI信息的待纠正的POI坐标。

步骤105，在所述候选POI信息中，识别所述候选POI名称与所述同一POI名称相同、且所述候选POI坐标与所述同一POI名称对应的POI坐标之间的距离大于第二预设阈值的目标POI信息，其中，所述第二预设阈值为与所述目标POI信息中的所述候选POI类别相匹配的阈值；

其中，候选POI信息是大量需要纠正POI坐标的现有POI信息。

通过上述步骤101～步骤103可以得到POI名称与POI坐标的对应关系，其中，POI名称是从历史订单挖掘出的，因此，不同历史订单可以挖掘不同的POI名称，所以步骤103得到的上述对应关系，可以是多组，例如POI名称1对应于POI坐标1；POI名称2对应于POI坐标2。

以POI名称1为例，本步骤需要确定采用POI坐标1，对候选POI信息中的哪些POI信息(即目标POI信息)中的POI坐标进行纠正。

具体方式为可以将候选POI信息的候选POI名称与POI名称1进行比对(例如文本逐个比对，或者语义相似度匹配)，从候选POI信息找到候选POI名称与POI名称1相同、且候选POI坐标与POI坐标1之间的距离大于第二预设阈值的目标POI信息。

其中，POI名称相同的评价标准可以为名称完全相同，比如A大厦和A大厦为相同的POI名称；POI名称相同也可以为名称归一化(大小写统一、数字文字统一等)后相同，比如A大厦A座和A大厦a座为相同的POI名称，等等。

因此，本步骤可以从候选POI信息中找到名称同为POI名称1、且坐标距离该POI坐标1较远的目标POI信息。

另外，在确定与POI坐标之间的距离进行比较的第二预设阈值时，可以根据预设的POI类别与阈值之间的对应关系，来确定目标POI信息中的候选POI类别所对应的阈值，将该阈值作为进行比较的第二预设阈值。

原因在于，不同类别的建筑其分布的密级程度存在区别，例如当地址类别为公交站时，则一般不同公交站之间的距离不超过1公里，因此，针对类别为公交站的地址，其对应的阈值为1公里(即公交站对应于1公里)；

再如，当地址类别为连锁超市、连锁快餐店等，则同一店名的不同分店之间的距离不超过2公里，则连锁超市、连锁快餐店对应于2公里的阈值；

又如，当地址类别为写字楼时，则同一名称的不同写字楼之间的距离至少10公里，因此，写字楼对应于10公里的阈值。

步骤106，将所述目标POI信息中的候选POI坐标更新为所述同一POI名称对应的POI坐标。

由于目标POI信息中的候选POI坐标距离新生成的高置信度的POI坐标1较远，则说明目标POI信息中的原有的POI坐标可能存在坐标错误，因此，本步骤可以对目标POI信息中的候选POI坐标进行纠正，具体更新为POI坐标1。

在本发明实施例中，在挖掘到某个POI名称对应的POI坐标之后，可以基于POI名称比对的方式从已有的候选POI信息中找到需要同名称的候选POI信息，并针对同名称的候选POI信息中候选POI坐标与挖掘到的最新的上述POI坐标作距离比对，如果距离较大，则说明同名称的候选POI信息中的原POI坐标可能错误，则可以采用本发明实施例确定的准确率更高POI坐标，来对原有POI坐标作更新，使得已有的POI信息不再存在坐标问题，使大量无坐标的高价值的POI信息可以上线是由以及对线上POI信息进行POI坐标的纠错；此外，在评价原有POI信息中的POI坐标是否存在错误时，可以依据目标POI信息中的POI类别所对应的第三预设阈值，来评价两个POI坐标之间的距离远近，使得评价POI坐标是否存在错误的标准更加合理，能够准确地定位到坐标错误的POI信息。

本实施例公开了一种数据处理装置，如图3所示，所述装置包括：

第一确定模块31，用于基于多个历史订单中每个历史订单的订单信息，分别确定所述每个历史订单对应的兴趣点POI名称，以及所述每个历史订单所属的第三定位位置；

第一识别模块32，用于在所述多个历史订单中，识别所述POI名称相同、且所述第三定位位置满足预设条件的目标历史订单，其中，所述第三定位位置满足预设条件包括任意两个所述目标历史订单的第三定位位置之间的距离小于第一预设阈值；

第二确定模块33，用于基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标。

可选地，所述订单信息还包括订单地址，所述第一确定模块31包括：

第一确定子模块，用于基于多个历史订单中每个历史订单的所述订单地址，分别确定所述每个历史订单对应的POI名称；

第二确定子模块，用于基于所述每个历史订单的所述第一定位位置和所述第二定位位置，确定所述每个历史订单所属的第三定位位置。

可选地，所述第二确定模块33包括：

转换子模块，用于将具有所述同一POI名称的每个所述目标历史订单的所述第一定位位置和所述第二定位位置，分别转换为地理位置索引，生成定位位置与地理位置索引之间的关联关系；

第一识别子模块，用于在所述同一POI名称对应的多个所述地理位置索引中，识别关联有最多数量的定位位置的目标地理位置索引；

过滤子模块，用于在所述同一POI名称对应的所述第一定位位置和所述第二定位位置中，对未与所述目标地理位置索引关联的定位位置进行过滤处理；

第三确定子模块，用于基于所述同一POI名称对应的经过所述过滤处理后的第一定位位置和第二定位位置，确定所述同一POI名称对应的POI坐标。

可选地，所述第二确定模块33包括：

第一聚类子模块，用于将具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置进行密度聚类，得到至少一个第一聚类簇；

第二聚类子模块，用于选取量级最大的第一聚类簇，对选取的第一聚类簇进行K-Means聚类，得到至少一个第二聚类簇；

第二识别子模块，用于选取量级最大的第二聚类簇，将选取的第二聚类簇的质心作为所述同一POI名称对应的POI坐标。

可选地，所述装置还包括：

获取模块，用于获取待纠正POI坐标的候选POI信息，其中，所述候选POI信息包括候选POI名称、候选POI坐标、候选POI类别；

第二识别模块，用于在所述候选POI信息中，识别所述候选POI名称与所述同一POI名称相同、且所述候选POI坐标与所述同一POI名称对应的POI坐标之间的距离大于第二预设阈值的目标POI信息，其中，所述第二预设阈值为与所述目标POI信息中的所述候选POI类别相匹配的阈值；

更新模块，用于将所述目标POI信息中的候选POI坐标更新为所述同一POI名称对应的POI坐标。

可选地，所述第一确定子模块，用于针对多个历史订单中每个历史订单的所述订单地址，分别进行切词得到切词结果，从所述切词结果中提取所述每个历史订单对应的POI名称。

可选地，所述第一确定子模块包括：

输入单元，用于将所述订单地址输入预先训练的切词模型，得到所述切词模型输出的各分词及所述各分词的属性标签，将所述各分词及所述各分词的属性标签作为所述切词结果；

其中，所述切词模型依据多个第一样本数据训练得到，所述第一样本数据包括样本分词和所述样本分词的标注属性标签。

可选地，所述第一确定子模块包括：

查询单元，用于从预设的地址类型与属性标签的对应关系中，查询每个历史订单的所述手选地址类型对应的目标属性标签；

确定单元，用于从所述切词结果中提取属性标签为所述目标属性标签的分词，将提取出的分词作为每个历史订单对应的所述POI名称。

本发明实施例公开的数据处理装置，用于实现本发明上述各个实施例所述的数据处理方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本发明实施例公开的数据处理装置，通过从历史订单中确定出对应的POI名称相同、且任意两个历史订单所属第三定位位置之间的距离较近的目标历史订单，使得所确定的目标历史订单指向同一POI，那么利用指向同一POI的多个目标历史订单的下单时的第一定位位置和订单交接时的第二定位位置，来确定该同一POI的POI坐标，由于该第一定位位置和第二定位位置更加准确、且所挖掘的POI坐标结合了多个目标历史订单的第一定位位置和第二定位位置，从而能够进一步提升对该POI名称所挖掘的POI坐标的准确率；此外，由于历史订单覆盖的地理位置较广，因此，只要存在历史订单的位置就可以借助于本发明实施例的技术方案来挖掘出该位置的POI坐标，进一步提升了POI坐标的挖掘覆盖率；另外，在挖掘POI坐标时，本发明实施例的方法通过结合具有同一POI名称的多个目标历史订单的第一定位位置和第二定位位置进行该POI名称的POI坐标挖掘，而即便距离较近的两个地理位置，由于其对应的POI名称存在区别，因此，本发明不会存在对距离相近的两个位置挖掘到同一POI坐标的局限问题，相反，针对即便地址相近的两个地理位置，也可以基于POI名称来挖掘出不同的POI坐标，降低了挖掘的POI坐标的局限性。此外，由于订单信息的时效性更强，因此，基于历史订单的订单信息能够更加及时地挖掘出POI坐标。

相应的，本发明还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明上述任意一个实施例所述的数据处理方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明上述任意一个实施例所述的数据处理方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明提供的一种数据处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了可以实现根据本公开的方法的计算处理设备。该计算处理设备传统上包括处理器1010和以存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如，用于程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图5所述的便携式或者固定存储单元。该存储单元可以具有与图4的计算处理设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码1031’，即可以由例如诸如1010之类的处理器读取的代码，这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本公开的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述订单信息还包括订单地址，所述基于多个历史订单中每个历史订单的订单信息，分别确定所述每个历史订单对应的兴趣点POI名称，以及所述每个历史订单所属的第三定位位置，包括：

基于多个历史订单中每个历史订单的所述订单地址，分别确定所述每个历史订单对应的POI名称；

基于所述每个历史订单的所述第一定位位置和所述第二定位位置，确定所述每个历史订单所属的第三定位位置。

3.根据权利要求1所述的方法，其特征在于，所述基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标，包括：

将具有所述同一POI名称的每个所述目标历史订单的所述第一定位位置和所述第二定位位置，分别转换为地理位置索引，生成定位位置与地理位置索引之间的关联关系；

在所述同一POI名称对应的多个所述地理位置索引中，识别关联有最多数量的定位位置的目标地理位置索引；

在所述同一POI名称对应的所述第一定位位置和所述第二定位位置中，对未与所述目标地理位置索引关联的定位位置进行过滤处理；

基于所述同一POI名称对应的经过所述过滤处理后的第一定位位置和第二定位位置，确定所述同一POI名称对应的POI坐标。

4.根据权利要求1所述的方法，其特征在于，所述基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标，包括：

将具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置进行密度聚类，得到至少一个第一聚类簇；

选取量级最大的第一聚类簇，对选取的第一聚类簇进行K-Means聚类，得到至少一个第二聚类簇；

选取量级最大的第二聚类簇，将选取的第二聚类簇的质心作为所述同一POI名称对应的POI坐标。

5.根据权利要求1所述的方法，其特征在于，所述基于具有同一POI名称的所述目标历史订单的所述第一定位位置和所述第二定位位置，确定所述同一POI名称对应的POI坐标之后，所述方法还包括：

获取待纠正POI坐标的候选POI信息，其中，所述候选POI信息包括候选POI名称、候选POI坐标、候选POI类别；

在所述候选POI信息中，识别所述候选POI名称与所述同一POI名称相同、且所述候选POI坐标与所述同一POI名称对应的POI坐标之间的距离大于第二预设阈值的目标POI信息，其中，所述第二预设阈值为与所述目标POI信息中的所述候选POI类别相匹配的阈值；

将所述目标POI信息中的候选POI坐标更新为所述同一POI名称对应的POI坐标。

6.一种数据处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述订单信息还包括订单地址，所述第一确定模块包括：

8.根据权利要求6所述的装置，其特征在于，所述第二确定模块包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任意一项所述的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意一项所述的数据处理方法的步骤。