CN115705511A - 取件区域的确定方法、装置、设备及存储介质 - Google Patents
取件区域的确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115705511A CN115705511A CN202110907006.7A CN202110907006A CN115705511A CN 115705511 A CN115705511 A CN 115705511A CN 202110907006 A CN202110907006 A CN 202110907006A CN 115705511 A CN115705511 A CN 115705511A
- Authority
- CN
- China
- Prior art keywords
- merchant
- target
- area
- merchants
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims description 53
- 238000013507 mapping Methods 0.000 claims description 28
- 230000004888 barrier function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 24
- 238000013136 deep learning model Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 abstract description 42
- 230000008569 process Effects 0.000 abstract description 37
- 238000004422 calculation algorithm Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 24
- 238000012384 transportation and delivery Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种取件区域的确定方法、装置、设备及存储介质,属于计算机技术领域。在根据待划分区域中目标用户的用户信息和每个商户的商户信息得到每个商户的商户特征之后,结合两两商户之间的导航距离以及每个商户的历史订单数量,来对待划分区域中的商户进行聚类,从而得到待划分区域的多个取件区域。在上述获取商户的商户特征的过程中利用了用户侧信息,从而确保了区域划分的准确性,而且,在聚类过程中利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种取件区域的确定方法、装置、设备及存储介质。
背景技术
随着计算机技术的不断发展,外卖、快递等业务逐渐兴起,为我们的生活带来很多便利。越来越多的商家开始提供线上下单—线下配送的服务,也即是,用户在线上购买商品并生成订单之后,需要配送员进行线下配送。为了提供更高质量的配送服务,需要将配送服务的业务范围按发货点(如,商家或者仓库等)划分成多个取件区域,从而以一个取件区域为单位提供配送服务,如,一组配送团队负责一个取件区域的配送服务,该组配送团队中的配送员取到货品后,将货品配送给用户。因此,取件区域的划分会直接影响到配送服务的效率以及运力资源的利用率。
目前来说,取件区域的划分通常是由人工来完成的,因此,区域划分的准确性难以得到保证,导致配送服务的效率和运力资源的利用率较低。
发明内容
本申请实施例提供了一种取件区域的确定方法、装置、设备及存储介质,能够确保区域划分的准确性,提高配送服务的效率和配送服务资源的利用率。该技术方案如下:
一方面,提供了一种取件区域的确定方法,该方法包括:
基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度;
基于每个商户的商户特征、每两个商户之间的导航距离以及该每个商户的历史订单数量,对该待划分区域中的商户进行聚类,得到目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户;
基于该目标聚类结果,将该待划分区域划分为多个第一取件区域。
在根据待划分区域中目标用户的用户信息和每个商户的商户信息得到每个商户的商户特征之后,结合两两商户之间的导航距离以及每个商户的历史订单数量,来对待划分区域中的商户进行聚类,从而得到待划分区域的多个取件区域。在上述获取商户的商户特征的过程中利用了用户侧信息,从而确保了区域划分的合理性,而且,在聚类过程中利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率。
另一方面,提供了一种取件区域的确定装置,该装置包括:
第一获取模块,用于基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度;
第一聚类模块,用于基于该每个商户的商户特征、每两个商户之间的导航距离以及该每个商户的历史订单数量,对该待划分区域中的商户进行聚类,得到目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户;
第一划分模块,用于基于该目标聚类结果,将该待划分区域划分为多个第一取件区域。
在一些实施例中,该第一获取模块用于:
基于深度语义匹配模型,对该目标用户的用户信息和该每个商户的商户信息进行特征提取,得到该每个商户的商户特征;
其中,该深度语义匹配模型基于多组训练样本对深度学习模型进行训练得到,该训练样本包括历史目标用户的用户信息、该历史目标用户对应的多个商户的商户信息以及标签信息,该标签信息指示该历史目标用户与该多个商户之间的标注相似度。
在一些实施例中,该装置还包括训练模块,该训练模块用于:
对于该多组训练样本中的任一组训练样本,将该任一组训练样本输入该深度学习模型,得到该历史目标用户的用户特征和该历史目标用户对应的多个商户的商户特征;
基于该历史目标用户的用户特征和该多个商户的商户特征,得到该历史目标用户与该多个商户之间的预测相似度;
基于该预测相似度和该标签信息,计算损失值;
基于该损失值,对该深度学习模型进行训练直至满足训练条件,得到该深度语义匹配模型。
在一些实施例中,该装置还包括样本构建模块,该样本构建模块用于:
基于该历史目标用户的用户信息,从样本区域中确定第一商户,该第一商户是指样本区域内向该历史目标用户提供过货品的商户;
基于该第一商户对应的目标范围,从该样本区域中确定第二商户,该第二商户是指该目标范围内未向该历史目标用户提供过货品的商户。
在一些实施例中,该第一聚类模块用于:
获取该待划分区域的区域屏障信息,该区域屏障信息指示该待划分区域的屏障情况;
基于该每个商户的商户特征、每两个商户之间的导航距离以及该每个商户的历史订单数量以及该区域屏障信息,对该待划分区域中的商户进行聚类,得到该目标聚类结果。
在一些实施例中,该第一聚类模块用于:
基于该每个商户的商户特征、每两个商户之间的导航距离、该每个商户的历史订单数量以及多个初始聚类中心,对该待划分区域中的商户进行聚类,得到第一聚类结果,该初始聚类中心为该待划分区域中的任一商户;
若该第一聚类结果符合聚类条件,将该第一聚类结果确定为该目标聚类结果;
若该第一聚类结果不符合该聚类条件,基于该第一聚类结果,对该待划分区域中的商户进行迭代聚类,直至得到的第二聚类结果符合该聚类条件,将该第二聚类结果确定为该目标聚类结果。
在一些实施例中,该装置还包括:
第二获取模块,用于获取目标簇数和该多个初始聚类中心;
该第一聚类模块用于:
基于该每个商户的商户特征、每两个商户之间的导航距离、该每个商户的历史订单数量、该目标簇数以及该多个初始聚类中心,对该待划分区域中的商户进行聚类,得到该第一聚类结果。
在一些实施例中,该第二获取模块用于:
获取该每个商户的位置信息和目标订单数量,该目标订单数量指示每个簇对应的订单建议总量;
基于该每个商户的历史订单数量、该每个商户的位置信息以及该目标订单数量,对该待划分区域中的商户进行聚类,得到该目标簇数和该多个初始聚类中心。
在一些实施例中,该第一划分模块包括:
获取单元,用于获取每个商户与该待划分区域的多个感兴趣区域之间的映射关系,该映射关系指示该商户与该感兴趣区域的位置所属情况;
调整单元,用于基于该映射关系,对该目标聚类结果进行调整,得到调整后的该目标聚类结果,在调整后的该目标聚类结果中,一个该感兴趣区域中的商户属于同一个簇;
划分单元,用于基于调整后的该目标聚类结果,将该待划分区域划分为该多个第一取件区域。
在一些实施例中,该调整单元用于:
基于该映射关系和该目标聚类结果,确定该感兴趣区域中的商户所属的簇;
若该感兴趣区域中的商户属于多个不同的簇,从该多个不同的簇中确定目标簇,该目标簇中属于该感兴趣区域的商户数量最多;
将该目标簇作为该感兴趣区域中的商户所属的簇,得到调整后的该目标聚类结果。
在一些实施例中,该装置还包括:
第三获取模块,用于基于该多个簇的簇数与目标参数之差和该簇数与该目标参数之和构成的区间,得到多个第一簇数,每个该第一簇数的取值不同;
第二聚类模块,用于基于该每个商户的商户特征、每两个商户之间的导航距离、该每个商户的历史订单数量以及每个该第一簇数,对该待划分区域中的商户进行多次聚类,得到每个该第一簇数对应的第三聚类结果;
确定模块,用于从该目标聚类结果和每个该第一簇数对应的第三聚类结果中,确定符合目标条件的第四聚类结果;
第二划分模块,用于基于该第四聚类结果,将该待划分区域划分为多个第二取件区域。
另一方面,提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器用于存储至少一条计算机程序,该至少一段计算机程序由该处理器加载并执行以实现本申请实施例中的取件区域的确定方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如本申请实施例中取件区域的确定方法中所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的取件区域的确定方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的一种取件区域的确定方法的实施环境示意图;
图2是根据本申请实施例提供的一种取件区域的确定方法的应用场景的示意图;
图3是根据本申请实施例提供的一种取件区域的确定方法的流程图;
图4是根据本申请实施例提供的一种取件区域的确定方法的流程图;
图5是根据本申请实施例提供的一种DSSM的结构示意图;
图6是根据本申请实施例提供的一种DBSCAN算法的示意图;
图7是根据本申请实施例提供的一种取件区域的确定方法的流程图;
图8是根据本申请实施例提供的一种取件区域的确定方法的流程图;
图9是根据本申请实施例提供的一种取件区域的确定装置的结构示意图;
图10是根据本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一商户能够被称为第二商户,并且类似地,第二商户也能够被称为第一商户。第一商户和第二商户都可以是商户,并且在某些情况下,可以是单独且不同的商户。
其中,至少一个是指一个或一个以上,例如,至少一个商户可以是一个商户、两个商户、三个商户等任意大于等于一的整数个商户。而多个是指两个或者两个以上,例如,多个商户可以是两个商户、三个商户等任意大于等于二的整数个商户。
下面对本申请实施例提供的取件区域的确定方案涉及的关键术语或缩略语进行介绍。
兴趣点(Point of Interest,POI),是互联网电子地图中的点类数据,包含名称、地址、坐标、类别等属性,主要用于在地图中表达点状的地理实体,如一个商铺、一个餐厅、一个小区门口或一个公交站等;
兴趣面(Area of Interest,AOI),也称为感兴趣区域,是指互联网电子地图中的区域类数据,同样包含名称、地址、坐标、类别等属性,主要用于在地图中表达区域状的地理实体,如一个居民小区、一所大学、一个写字楼、一个产业园区、一个综合商场、一个医院、一个景区或一个体育馆等等。
基于密度的噪声空间聚类算法(Density-Based Spatial Clustering Algorithmwith Noise,DBSCAN),是一种基于密度的聚类算法,该聚类算法将簇定义为密度相连的点的最大集合,把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
K均值聚类算法(K-Means Clustering Algorithm,K-MEANS),是一种迭代求解的聚类算法,该聚类算法预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。
下面对本申请实施例提供的取件区域的确定方法的实施环境进行介绍。
图1是根据本申请实施例提供的取件区域的确定方法的实施环境示意图。该实施环境包括:终端101和服务器102。
终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。可选地,终端101是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端101能够向服务器102提供取件区域的确定方法所需的信息,例如,用户的标识信息、用户的历史点单数量、商户的标识信息以及商户的历史订单数量等。可选地,终端101泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员能够知晓,上述终端101的数量能够更多。比如上述终端101为几十个或几百个,或者更多数量,此时上述取件区域的确定方法的实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
服务器102能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式***,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于执行本申请实施例提供的取件区域的确定方法,基于终端101提供的信息进行取件区域的划分。
可选地,在取件区域的划分过程中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102或终端101分别能够单独承担计算工作。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超级文本标记语言(Hyper Text Markup Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
示意性地,下面对本申请实施例提供的取件区域的确定方法的应用场景进行介绍。图2是根据本申请实施例提供的一种取件区域的确定方法的应用场景示意图。
如图2所示,以外卖配送(或专送)场景为例,为了便于更好的对配送服务的业务进行管理,需要将某个城市的配送服务的业务范围按发货点(如商户)划分成N个取件区域(N为正整数),从而以一个取件区域为单位进行配送服务的业务管理(如,一组配送团队负责一个取件区域的配送服务,该组配送团队中的配送员取到货品后,将货品配送给用户),N个取件区域能够覆盖该城市所有的具有配送服务的商户。例如,每个取件区域都有相应的站点(一个或者多个),一个或者多个站点属于一个加盟商,每位配送员在同一时间只属于一个站点,当配送平台给配送员下发配送订单时,根据划分好的取件区域,给配送员下发该配送员的所属站点所在的取件区域的订单。因此,在该场景下,需要确保取件区域的划分的合理性,从而提高配送服务的效率以及配送服务资源的利用率。
本申请提供了一种取件区域的确定方法,能够根据待划分区域中热点用户的标识信息和商户的标识信息,提取出商户的商户特征,然后利用商户的商户特征和两两商户之间的导航距离,来对待划分区域中的商户进行聚类,从而得到待划分区域的多个取件区域。该取件区域的确定方法利用了用户侧信息,从而确保了区域划分的准确性,也可以理解为确保了区域划分的合理性,而且,在聚类过程中利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率,更为具体的描述请参见下述实施例。
图3是根据本申请实施例提供的一种取件区域的确定方法的流程图,其中,该取件区域的确定方法的执行主体为计算机设备,示意性地,该计算机设备为图1中所示的服务器102为例进行说明,该方法包括如下几个步骤。
301、服务器基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度。
在本申请实施例中,待划分区域为任意形式的区域。在一些实施例中,待划分区域为行政区域,或者地理区域,或者大型商业区域,又或者大型社区等等,本申请实施例对于待划分区域的具体形式不作限定。
目标用户是指待划分区域中历史点单数量大于或等于阈值的用户。其中,该阈值为预先设置的,例如,该阈值为5,则目标用户是指待划分区域中历史点单数量大于或等于5的用户,本申请实施例对于阈值的设置不作限定。需要说明的是,在一些实施例中,目标用户为待划分区域中的指定用户,例如,对于待划分区域中历史点单数量大于或等于阈值的用户,从这些用户中按照预设规则指定部分用户作为目标用户,或者从这些用户中随机指定部分用户作为目标用户,等等,本申请实施例对于目标用户的具体确定方式不作限定。在一些实施例中,目标用户也可以理解为待划分区域的热点用户,以外卖场景为例,该目标用户为待划分区域中经常下单的用户,本申请实施例对此不作限定。
商户是指待划分区域中为用户提供货品的地点(或者说为配送服务提供货品)。例如,商户为XX餐厅,或者XX仓库,又或者XX服装店等等,本申请实施例对于商户的具体类型不作限定。
另外,待划分区域中的目标用户的数量为多个,对于每一个目标用户来说,该目标用户的用户信息包括但不限于下述几种:标识信息、历史下单信息以及位置信息等等,本申请实施例对于用户信息的具体内容不作限定。在一些实施例中,该用户信息中的标识信息用于唯一标识该目标用户,例如,目标用户的标识信息指示该目标用户的身份标识(Identification,ID)等。同理,待划分区域中的商户的数量为多个,对于每一个商户来说,该商户的商户信息包括但不限于下述几种:标识信息、历史订单信息以及位置信息等等,本申请实施例对于商户信息的具体内容不作限定。在一些实施例中,该商户信息中的标识信息用于唯一标识该目标用户,在此不再赘述。
在本步骤301中,服务器根据目标用户的用户信息和待划分区域中每个商户的商户信息,得到每个商户的商户特征,该商户特征指示商户与该目标用户之间的相似程度。其中,商户与该目标用户之间的相似程度是指商户与任一个目标用户之间的相似程度。在一些实施例中,该商户特征为向量形式的特征。
302、服务器基于每个商户的商户特征、每两个商户之间的导航距离以及每个商户的历史订单数量,对该待划分区域中的商户进行聚类,得到目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户。
在本申请实施例中,服务器根据每个商户的商户信息,获取每个商户的位置信息,并根据每个商户的位置信息,计算得到每两个商户之间的导航距离。
在一些实施例中,商户的商户信息携带商户的位置信息,服务器根据每个商户的商户信息,从该商户信息中获取商户的位置信息。在一些实施例中,服务器关联有待划分区域的商户信息数据库,该商户信息数据库存储有每个商户的位置信息,服务器根据每个商户的商户信息,从商户信息数据库中获取每个商户的位置信息,并计算得到每两个商户之间的导航距离。在一些实施例中,服务器存储有待划分区域的商家导航距离日志,该商机导航距离日志基于待划分区域中配送员的历史配送数据上报得到,服务器根据每个商户的商户信息,从商家导航距离日志中获取每两个商户之间的导航距离,本申请实施例对于服务器获取每两个商户之间的导航距离的具体方式不作限定。
对于每一个商户来说,该商户的历史订单数量是指该商户在目标时间段内的订单数量。例如,该目标时间段为最近一周内的订单数量,或者,该目标时间段为最近一个月内的订单数量,等等,本申请实施例对此不作限定。
303、服务器基于该目标聚类结果,将该待划分区域划分为多个第一取件区域。
在本申请实施例中,服务器根据该多个簇所指示的每个商户的商户信息,获取每个商户的位置信息,根据该多个簇,将待划分区域划分为多个第一取件区域。在一些实施例中,该多个第一取件区域的个数与该多个簇的簇数相同,例如,该多个簇的簇数为3,则多个第一取件区域的个数为3。在一些实施例中,该多个第一取件区域的个数与该多个簇的簇数不同,例如,该多个簇的簇数为3,服务器按照该目标聚类结果对待划分区域进行划分后存在某一取件区域的商户数量过少,则将该取件区域并入其他取件区域中,最终得到2个第一取件区域,本申请实施例对此不作限定。
本申请实施例提供了一种取件区域的确定方法,在根据待划分区域中目标用户的用户信息和每个商户的商户信息得到每个商户的商户特征之后,结合两两商户之间的导航距离以及每个商户的历史订单数量,来对待划分区域中的商户进行聚类,从而得到待划分区域的多个取件区域。在上述获取商户的商户特征的过程中利用了用户侧信息,从而确保了区域划分的准确性,而且,在聚类过程中利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率。
根据上述图3所示的实施例,对本申请提供的取件区域的确定方法进行了简要说明。下面基于以下几个实施例来对本申请提供的取件区域的确定方法进行详细介绍。
图4是根据本申请实施例提供的一种取件区域的确定方法的流程图,其中,该取件区域的确定方法的执行主体为计算机设备,示意性地,该计算机设备为图1中所示的服务器102为例进行说明,该方法包括如下几个步骤。
401、服务器基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度。
在本申请实施例中,服务器基于机器学习或者深度学习模型,对待划分区域中目标用户的用户信息和待划分区域中每个商户的商户信息进行特征提取,得到每个商户的商户特征。
在一些实施例中,服务器基于深度语义匹配模型,对该目标用户的用户信息和每个商户的商户信息进行特征提取,得到每个商户的商户特征;其中,该深度语义匹配模型基于多组训练样本对深度学习模型进行训练得到,该训练样本包括历史目标用户的用户信息、该历史目标用户对应的多个商户的商户信息以及标签信息,该标签信息指示该历史目标用户与该多个商户之间的标注相似度。需要说明的是,该深度语义匹配模型用于对目标用户的用户信息和每个商户的商户信息这两类语义信息进行特征提取,在得到每个商户的商户特征和目标用户的用户特征后,对每个商户的商户特征和目标用户的用户特征进行匹配,输出目标用户与每个商户之间的相似度。本申请实施例基于该深度语义匹配模型,利用用户侧信息,从而得到每个商户的商户特征,为后续聚类过程提供基础,以提高区域划分的准确性。
下面对本申请实施例涉及的深度语义匹配模型进行介绍,包括以下几个方面。
第一方面、深度语义匹配模型的网络结构。
其中,深度语义匹配模型是基于深度结构化语义模型(Deep StructuredSemantic Model,DSSM)得到的。下面参考图5对DSSM的结构进行介绍。图5是根据本申请实施例提供的一种DSSM的结构示意图。如图5所示,n为正整数,对于文本Q、D1、D2至Dn,通过词向量、字散列、多层非线性投影、语义特征等步骤将上述四个文本分别表示为一个128维度的向量,之后通过余弦距离来衡量相关性,得到文本Q和文本D1之间的余弦距离R(Q,D1)、文本Q和文本D2之间的余弦距离R(Q,D2)、文本Q和文本Dn之间的余弦距离R(Q,Dn)、最后通过softmax函数计算先验概率,得到文本Q和文本D1之间的相似概率P(Q1|D)、文本Q和文本D2之间的相似概率P(Q2|D)、文本Q和文本Dn之间的相似概率P(Qn|D)。
在本申请实施例中,深度语义匹配模型是在上述DSSM的结构的基础上构建的。示意性地,将目标用户的用户信息作为Q,将每个商户的商户信息作为D(也即是图5中所示的D1、D2至Dn),输入到该深度语义匹配模型中,从而得到目标用户的128维的向量(也即目标用户的用户特征)以及商户的128维的向量(也即商户的商户特征)。需要说明的是,图5所示的DSSM的结构仅为示意性地,在一些实施例中,深度语义匹配模型的结构根据实际需求进行调整,本申请实施例对于深度语义匹配模型的结构类型和向量维度等不作限定。
第二方面、深度语义匹配模型的多组训练样本的构建方式。
其中,对于深度语义匹配模型的多组训练样本中的一组训练样本,该训练样本的构建方式包括下述几个步骤。
步骤1、基于该历史目标用户的用户信息,从样本区域中确定第一商户,该第一商户是指该样本区域内向该历史目标用户提供过货品的商户。
其中,历史目标用户是指基于样本区域内的用户的历史行为确定出的目标用户,例如,历史目标用户是基于样本区域内的用户在一年内的历史行为确定的,本申请实施例对此不作限定。在一些实施例中,该样本区域为待划分区域,在另一些实施例中,该样本区域为其他任意区域,例如,该样本区域为已经划分好取件区域的区域,本申请实施例对此不作限定。需要说明的是,在一些实施例中,将样本区域内距离第一商户较远的用户作为候选历史目标用户,优先将样本区域内距离第一商户较近的用户确定为历史目标用户,这样能够确保训练样本的合理性,提高深度语义匹配模型的准确率。
另外,对于一个历史目标用户来说,将所有向该历史目标用户提供过货品的商户(也可以理解为该历史目标用户的来源商户)作为第一商户,将这类第一商户称为该历史目标用户的正样本。
步骤2、基于该第一商户对应的目标范围,从该样本区域中确定第二商户,该第二商户是指该目标范围内未向该历史目标用户提供过货品的商户。
其中,对于一个历史目标用户的每一个第一商户来说,以该第一商户为圆心,半径为r做圆(r>0),得到该第一商户对应的目标范围,将该目标范围内未向该历史目标用户提供过货品的商户作为第二商户,将这类第二商户称为该历史目标用户的负样本。在一些实施例中,将该目标范围内未向该历史目标用户提供过货品的部分商户作为第二商户,例如,目标范围内未向该历史目标用户提供过货品的商户有a个,选取其中b个商户作为第二商户(a>0,b>0,a>b),通过这种方式,提高了训练样本的随机性,也即提高了深度语义匹配模型的准确率。
在一些实施例中,目标范围为以第一商户为中心的矩形或者其他任意多边形等等,本申请实施例对于目标范围的确定方式不作限定。
根据上述步骤1得到的第一商户和步骤2得到的第二商户,构成历史目标用户对应的多个商户,从而得到该多个商户的商户信息。
需要说明的是,对于一个历史目标用户,该历史目标用户的用户信息和该历史目标用户对应的多个商户的商户信息共同构成一组训练样本。
第三方面、深度语义匹配模型的训练过程。
其中,以上述多组训练样本中的一组训练样本为例,该深度语义匹配模型的训练过程包括下述几个步骤。
步骤1、将该组训练样本输入深度学习模型,得到该历史目标用户的用户特征和该历史目标用户对应的多个商户的商户特征。
在一些实施例中,该深度学习模型包括但不限于:深度神经网络(Deep NeuralNetwork,DNN)模型、循环神经网络(Recurrent Neural Networks,RNN)模型、嵌入(Embedding)模型、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型、逻辑回归(Logistic Regression,LR)模型中的至少一种,本申请实施例对此不作限定。
步骤2、基于该历史目标用户的用户特征和该多个商户的商户特征,得到该历史目标用户与该多个商户之间的预测相似度。
其中,对于多个商户中的每一个商户,该深度学习模型根据历史目标用户的用户特征和该商户的商户特征,计算得到该历史目标用户与该商户之间的预测相似度。
步骤3、基于该预测相似度和该标签信息,计算损失值。
其中,训练样本包括标签信息,该标签信息指示该历史目标用户与该多个商户之间的标注相似度,也可以理解为标准相似度。上述损失值根据损失函数计算得到,在一些实施例中,该损失函数如下述公式(1)所示:
式中,W和b为深度学习模型的网络参数,其中,W表示深度学习模型的参数矩阵,b表示深度学习模型的偏置项;D+表示正样本(也即是前述第一商户),Q表示历史目标用户。需要说明的是,该公式(1)所示的损失函数是与图5所示的DSSM的损失函数同理的损失函数。
在一些实施例中,该损失函数如下述公式(2)所示:
L=min(1,1-(P(D+|Q)-∑P(D-|Q))) (2)
式中,D表示商户,Q表示历史目标用户。需要说明的是,该公式(2)是与铰链损失函数(Hinge Loss)同理的损失函数。
上述公式(1)和公式(2)所示的损失函数仅为示意性地,在一些实施例中,该损失函数可以是模型训练常用的各种损失函数,例如绝对值损失函数、余弦相似度损失函数、平方损失函数、交叉熵损失函数等,本申请实施例对此不作限定。
步骤4、基于该损失值,对该深度学习模型进行训练直至满足训练条件,得到该深度语义匹配模型。
其中,对深度学习模型进行训练是指,通过反向传播算法根据损失函数确定深度学习模型的梯度方向,从深度学习模型的输出层逐层向前更新模型参数。训练条件为损失值(也称误差值)小于预设阈值,该预设阈值根据实际需求进行设定,比如根据模型的相似度的精度进行设置等,本申请实施例对此不作限定。在一些实施例中,该训练条件为迭代次数达到预设次数,本申请实施例对此不作限定。
经过上述几个方面对深度语义匹配模型进行了介绍,在本申请实施例中,服务器调用该深度语义匹配模型,来对目标用户的用户信息和每个商户的商户信息进行特征提取,从而得到目标用户的用户特征和每个商户的商户特征。其中,将每个商户的商户特征用于后续对待划分区域的商户进行聚类的过程中。
由于该深度语义匹配模型是根据历史目标用户与商户之间的相似度训练得到的,因此,目标用户与商户越相似,目标用户的用户特征与商户的商户特征越相似,进一步地,两个相似商户的商户特征也就越相似,在后续聚类过程中也越容易被划分到同一个簇中,从而利用了用户侧的信息,确保了后续区域划分的准确性,也可以理解为利用了区域的热点用户分布与热点商户的分布相似这一监督信息。
同时,由于这种方式是将待划分区域中的所有商户的商户信息进行了特征提取,从而考虑到了待划分区域中的新商户,这些新商户虽然历史订单数量很少甚至没有,但是当待划分区域中存在与这些新商户相似的旧商户时,通过深度语义匹配模型得到的这些新商户的商户特征与旧商户的商户特征相似,从而在后续聚类过程中容易被划分到同一个簇中,有效解决了新商户的冷启动问题,提高了配送服务的效率和配送服务资源的利用率。
而且,经过深度语义匹配模型得到的目标用户的用户特征和每个商户的商户特征还能够为其他上层应用服务,从而有效提高了数据利用率,优化了配送服务资源的利用率。例如,基于目标用户的用户特征和每个商户的商户特征,为目标用户推荐符合目标用户个人喜好的商户,等等,本申请实施例对此不作限定。
402、服务器基于每个商户的商户特征、每两个商户之间的导航距离以及每个商户的历史订单数量,对该待划分区域中的商户进行聚类,得到目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户。
在本申请实施例中,每两个商户之间的导航距离、该待划分区域中每个商户的历史订单数量以及目标簇数的相关介绍与上述步骤302同理,此处不再赘述。在一些实施例中,服务器调用聚类算法对待划分区域中的商户进行聚类,例如,该聚类算法为K-MEANS聚类算法,本申请实施例对此不作限定。
在一些实施例中,服务器获取该待划分区域的区域屏障信息,该区域屏障信息指示该待划分区域的屏障情况;基于每个商户的商户特征、每两个商户之间的导航距离、每个商户的历史订单数量以及该区域屏障信息,对该待划分区域中的商户进行聚类,得到该目标聚类结果。其中,区域屏障信息指示山川、河流、沟壑、立交桥等障碍物的位置信息等,本申请实施例对此不作限定。服务器在对待划分区域中的商户进行聚类时,会考虑待划分区域的区域屏障信息,若两个商户之间存在无法跨域(或者跨越难度较高)的屏障,则避免将这两个商户划分到同一个簇中。例如,假设商户H和商户I之间间隔一条河流,但是没有桥梁可以通过,即使在聚类过程中聚类算法指示需要将商户H和商户I划分到同一个簇,服务器也不会将商户H和商户I划分到同一个簇。通过这种方式,利用了待划分区域的区域屏障信息,在聚类过程中规避了障碍物,从而确保了后续区域划分的准确性和合理性。
下面以服务器调用K-MEANS聚类算法为例,对本步骤402的可选实施步骤进行介绍,包括下述步骤4021至步骤4024。
4021、服务器基于每个商户的商户特征、每两个商户之间的导航距离、每个商户的历史订单数量以及多个初始聚类中心,对该待划分区域中的商户进行聚类,得到第一聚类结果,该初始聚类中心为该待划分区域中的任一商户。
其中,服务器获取目标簇数和该多个初始聚类中心,该多个初始聚类中心的个数与目标簇数的个数相同,这一过程也称为聚类的初始化过程,然后服务器基于每个商户的商户特征、每两个商户之间的导航距离、每个商户的历史订单数量以及该多个初始聚类中心,对该待划分区域中的商户进行聚类,得到第一聚类结果。
目标簇数是指对待划分区域中的商户进行聚类后所得到的簇的个数,该目标簇数为正整数。在一些实施例中,开发人员根据经验或者区域划分的应用场景自主确定该目标簇数,将该目标簇数上传至服务器。例如,目标簇数为3,则表明将待划分区域中的商户划分为3个簇。在另一些实施例中,该目标簇数基于DBSCAN算法对待划分区域中的商户进行聚类后确定(这一过程会在后续实施例中进行介绍,此处不再赘述),本申请实施例对于目标簇数的具体确定方式不作限定。
初始聚类中心是指对待划分区域中的商户进行首次聚类时的聚类中心,一个初始聚类中心代表一个商户。在一些实施例中,开发人员根据经验或者区域划分的应用场景自主确定该多个初始聚类中心,将该多个初始聚类中心上传至服务器。例如,开发人员根据待划分区域中每个商户的历史订单数量对这些商户进行排序,选择排序在前1%的商户作为多个初始聚类中心。在一些实施例中,服务器按照预设规则从待划分区域的商户中挑选出部分商户作为该多个初始聚类中心,例如,服务器将待划分区域随机划分为多个区域,将每个区域中历史订单数量最多的商户作为初始聚类中心。在另一些实施例中,服务器基于DBSCAN算法对待划分区域中的商户进行聚类,得到待划分区域的多个初始聚类中心,本申请实施例对于多个初始聚类中心的具体确定方式不作限定。
需要说明的是,在一些实施例中,目标簇数基于DBSCAN算法对待划分区域中的商户进行聚类后确定,因此,目标簇数和待划分区域的多个初始聚类中心都可以通过DBSCAN算法来确定。下面对这种基于DBSCAN算法获取目标簇数和多个初始类聚中心的可选实施方式进行介绍,包括如下两个步骤。
步骤1、获取每个商户的位置信息和目标订单数量,该目标订单数量指示每个簇对应的订单建议总量。
其中,每个商户的位置信息的获取方式与上述步骤302同理,此处不再赘述。在一些实施例中,目标订单数量根据经验或者商户的密集程度等确定。在另一些实施例中,目标订单数量根据待划分区域在目标时间段内的历史订单纵梁与目标簇数之比来确定,本申请实施例对于目标订单数量的具体确定方式不作限定。
步骤2、基于每个商户的历史订单数量、每个商户的位置信息以及该目标订单数量,对该待划分区域中的商户进行聚类,得到该目标簇数和该多个初始聚类中心。
其中,通过迭代聚类的方式,对待划分区域中的商户进行聚类。在一些实施例中,通过迭代执行聚类步骤,直至满足停止迭代的条件。当首次执行聚类步骤时,将预设的初始半径作为当前的聚类半径,将待划分区域中的全部商户作为当前的待聚类商户。在每次聚类步骤执行完毕时,接着确定该次执行聚类步骤所得到的聚类结果是否满足预设条件。具体来说,可以确定该聚类结果中是否存在一个或多个簇。如果该聚类结果中存在一个或多个簇,则该聚类结果满足预设条件,如果该聚类结果中不存在簇,则该聚类结果未满足预设条件。其中,每个簇中的商户的历史订单数量之和大于目标订单数量。
另外,当未满足停止迭代的条件时,迭代执行聚类步骤,当满足停止迭代的条件时,停止迭代。其中,停止迭代的条件可以包括以下任意一项:当前的聚类半径大于预设阈值;或者,当前选取的簇的凸包包含1个以上已确定聚类中心;或者,当前的待聚类商户对应的剩余历史订单数量之和小于或等于目标订单数量;或者,当前已选簇的个数等于预设个数,等等。应理解,停止迭代的条件还可以包括其它的条件,本申请实施例对停止迭代的条件的具体内容不作限定。
示意性地,下面结合图6对上述迭代聚类的过程进行介绍。图6是根据本申请实施例提供的一种DBSCAN算法的示意图。如图6所示,在执行首次聚类步骤之前,将预设的初始半径r=100作为当前的聚类半径r1,初始簇数k=0,初始订单数量M1=0,待划分区域中的全部商户作为当前的待聚类商户,该聚类过程包括下述3个部分。
(1)在执行首次聚类步骤之后,计算每个簇对应的商户的历史订单数量之和,并标记历史订单数量之和最大的簇的订单数量Mmax。若该Mmax>目标订单数量MSUG,则执行“判断M1是否等于0”的步骤,若该Mmax≤MSUG,则执行“M1=Mmax,r1=r”的步骤,并增大聚类半径r=r+10,再次执行聚类步骤,直至满足Mmax>MSUG之后,再执行“判断M1是否等于0”的步骤。这一过程也可以理解为,当聚类结果未满足预设条件时,将当前的聚类半径按照预设步长递增。例如,预设步长为L,第n次执行聚类步骤时,当前的聚类半径为r,并且第n次执行聚类步骤所得到的聚类结果未满足预设条件,则将当前的聚类半径r按照预设步长L递增,所以,第n+1次执行聚类步骤时,当前的聚类半径为r+L。
(2)在聚类结果满足Mmax>MSUG之后,执行“判断M1是否等于0”的步骤。若M1=0,则标记该簇,计算该标记的簇的类中心,并赋值k=k+1,执行“从待聚类商户中删除该标记的簇对应的商户”的步骤。若M1≠0,则从历史订单数量之和超过MSUG的簇中标记订单数量最小的簇,并记录该簇的订单数量M2,若M2-MSUG<MSUG-M1,则判断当前标记的簇的凸包是否包含1个以上已确定的类中心,若在M2-MSUG<MSUG-M1的情况下,当前标记的簇的凸包包含1个以上已确定的类中心,则输出k个聚类中心,结束聚类过程;若在M2-MSUG<MSUG-M1的情况下,当前标记的簇的凸包并未包含1个以上已确定的聚类中心,则计算该当前标记的簇的聚类中心,并赋值k=k+1,执行“从待聚类商户中删除该标记的簇对应的商户”的步骤。另外,若M2-MSUG≥MSUG-M1,则按照聚类半径为r1执行聚类步骤,从待聚类商户中删除已有标记,标记历史订单数量之和最大的簇,执行“判断当前标记的簇的凸包是否包含1个以上已确定的聚类中心”的步骤。这一过程也可以理解为当聚类结果满足预设条件时,从M1对应的簇和M2对应的簇中选取第一簇,并将选取的第一簇中的商户从当前的待聚类商户中删除。例如,第m次执行聚类步骤时,当前的待聚类商户包括A、B、C、D四个商户,并且第m次执行聚类步骤所得到的聚类结果满足预设条件,选取第一簇,该第一簇包括A、B两个商户,则将A、B从当前的待聚类商户中删除。所以,第m+1次执行聚类步骤时,当前的待聚类商户包括C、D两个商户。
(3)在执行从待聚类商户中删除标记的簇对应的商户之后,判断当前待聚类商户的历史订单数量之和是否大于MSUG,若是,则执行r=r1,迭代执行上述(1)和(2)所示的聚类步骤;若不是,则输出k个聚类中心,结束聚类过程。在一些实施例中,在判断当前待聚类商户的历史订单数量之和是否大于MSUG之前,该聚类过程还包括:通过双曲线模型,对当前待聚类商户的历史订单数量进行修正,以使最终得到的类中心对应的簇尽量覆盖整个待划分区域,可选地,该双曲线模型的超参数根据实际需求进行调整,本申请实施例对于双曲线模型的具体形式不作限定。示意性地,在删除标记的簇对应的商户时,存在某一商户E,该商户E左边的商户比较密集,右边的商户也比较密集,也可以理解为该商户E处于两个热门的商圈1和商圈2的交界处,该商户E与商圈1和商圈2的距离都差不多,则通过双曲线模型,对该商户E的历史订单数量进行修正,确定将该商户E划分到哪一个商圈中,也即是确定将该商户E划分到哪一个簇中。
需要说明的是,上述预设的初始半径以及上述预设步长均可以取任意合理的数值,均可以是基于经验而得到的数值,本申请实施例对于预设的初始半径以及预设步长的具体取值方面不限定。
根据上述有关DBSCAN聚类算法的介绍得知,DBSCAN聚类算法自身可以决定聚类簇数,因此,在一些实施例中,服务器调用DBSCAN聚类算法,对待划分区域中的商户进行聚类,从而得到目标簇数和多个初始聚类中心,作为本步骤4021中聚类过程的初始值,有效提高了聚类准确性,从而确保了区域划分的准确性。
4022、服务器确定该第一聚类结果是否符合聚类条件,若是,则服务器执行下述步骤4023,若不是,则服务器执行下述步骤4024。
其中,聚类条件是指该聚类算法的损失值(也称误差值)小于预设阈值,该预设阈值根据实际需求进行设定,比如根据聚类的精度进行设置等,本申请实施例对此不作限定。在一些实施例中,该聚类条件为聚类迭代的次数达到预设次数,本申请实施例对此不作限定。
在一些实施例中,该聚类算法的损失值通过如下述公式(3)所示的损失函数计算得到。
式中,k表示第k个簇,n表示商户数量,i和j分别表示第i个商户和第j个商户,Oi表示第i个商户的历史订单数量,Cik表示第i个商户是否选择第k个簇(例如,Cik的取值为1或0),xij表示第i个商户和第j个商户之间的导航距离,nk表示第k个簇中商户的数量,wi表示第i个商户的商户特征,μk表示第k个簇内商户的商户特征的历史订单数量加权的均值(例如,第k个簇内包括商户F和商户G,商户F的商户特征为f,商户G的商户特征为g,商户F的历史订单数量为100,商户G的历史订单数量为200,则μk=(f×100+g×200)/(100+300),即μk是与商户特征的维度相同的向量形式),α和β为常数。
4023、服务器将该第一聚类结果确定为目标聚类结果。
4024、服务器基于该第一聚类结果,对该待划分区域中的商户进行迭代聚类,直至得到的该待划分区域的第二聚类结果符合该聚类条件,将该第二聚类结果确定为目标聚类结果。
其中,服务器基于该第一聚类结果,对该待划分区域中的商户进行迭代聚类是指,服务器基于第一聚类结果指示的多个第一聚类中心,对待划分区域中的商户进行聚类,得到新的聚类结果,然后判断该新的聚类结果是否符合聚类条件,若符合,则该新的聚类结果为目标聚类结果,若不符合,则基于该新的聚类结果指示的多个新的聚类中心,对待划分区域中的商户再次进行聚类,以此类推,直到得到的聚类结果符合聚类条件,得到目标聚类结果。
经过上述步骤4021至步骤4024,服务器调用聚类算法,对待划分区域中的商户进行了聚类,从而得到目标聚类结果。该目标聚类结果包括多个簇,每个簇的聚类中心对应的商户为待划分区域中具有代表性的商户。在一些实施例中,每个聚类中心对应的商户也可以理解为待划分区域中的热点商户,本申请实施例对此不作限定。
另外,上述步骤4021至步骤4024所示的聚类算法是一种迭代聚类的算法,每次迭代聚类涉及到两个连续的步骤,分别对应类中心的优化和每个商户的所属类别的优化,也对应着最大期望算法(Expectation-Maximization Algorithm,EM)的E步(求期望)和M步(求极大)。示意性地,以上述公式(3)所示的损失函数为例,每次迭代聚类包括下述E步骤和M步骤:E步骤、在聚类中心μk已经确定的情况下,优化Cik。其中,越小,将商户归为哪一簇。例如,将第i个商户分配到第k个簇,则令Cik=1。在一些实施例中,在执行E步骤时会根据待划分区域的区域屏障信息,以确保后续区域划分的合理性。M步骤、在确定了待划分区域中的商户属于哪一个簇的情况下,优化μk。
经过上述步骤401和步骤402,服务器根据商户的商户特征、两两商户之间的导航距离以及商户的历史订单数量等,对待划分区域中的商户进行了聚类,聚类过程中对导航距离直接建模,避免了不合理的范围规划,同时,在聚类过程中不仅从运力的角度,考虑了订单数量大,密度高,那么配送效率高,还考虑了区域的热点用户分布与热点商户的分布相似这一监督信息,从而确保了后续区域划分的准确性。
403、服务器获取每个商户与该待划分区域的多个感兴趣区域之间的映射关系,该映射关系指示商户与感兴趣区域之间的位置所属情况。
在本申请实施例中,感兴趣区域是指待划分区域中商户集中的区域。例如,一个感兴趣区域为一座大厦,该大厦包括多个商户,又例如,一个感兴趣区域为一个地标(或者说一个商圈),该地标内有多个商户,等等,本申请实施例对此不作限定。商户与感兴趣区域之间的位置所属情况是指,对于每一个商户而言,该商户所在的地理位置属于一个感兴趣区域。示意性地,一个感兴趣区域中包括多个商户,或者,一个感兴趣区域中包括一个商户,本申请实施例对此不作限定。
在一些实施例中,服务器关联有待划分区域的商户信息数据库,该商户信息数据库存储有每个商户与多个感兴趣区域之间的映射关系,服务器根据待划区域的区域标识,从待划分区域的商户信息数据库中获取上述映射关系。在一些实施例中,服务器根据待划分区域中每个商户的位置信息和多个感兴趣区域的位置信息,计算得到上述映射关系,本申请实施例对于服务器获取映射关系的具体方式不作限定。
404、服务器基于该映射关系,对目标聚类结果进行调整,得到调整后的目标聚类结果,在调整后的目标聚类结果中,一个该感兴趣区域中的商户属于同一个簇。
在本申请实施例中,以一个感兴趣区域为例,本步骤404包括下述步骤4041至步骤4043。
4041、服务器基于该映射关系和目标聚类结果,确定该感兴趣区域中的商户所属的簇。
其中,服务器基于该映射关系指示的商户与该感兴趣区域之间的位置所属情况以及目标聚类结果指示的每个簇的商户情况,确定该感兴趣区域中各个商户所属的簇。
4042、若该感兴趣区域中的商户属于多个不同的簇,服务器从该多个不同的簇中确定目标簇,该目标簇中属于该感兴趣区域的商户数量最多。
示意性地,以该感兴趣区域中的商户属于两个不同的簇A和簇B为例,该感兴趣区域中的商户属于多个不同的簇是指,该感兴趣区域中存在一部分商户属于簇A,剩余的商户属于簇B,属于簇A的商户数量为a1,属于簇B的商户数量为b1,其中,a1>b1,则将簇A确定为目标簇。
在一些实施例中,若该多个不同的簇中,属于该感兴趣区域的商户数量相同,则服务器按照预设规则确定目标簇。例如,服务器从多个不同的簇中随机确定目标簇。又例如,服务器基于该感兴趣区域和该多个不同的簇的类中心之间的多个导航距离,将对应导航距离最小的簇确定为目标簇,本申请实施例对于确定目标簇的具体方式不作限定。
4043、服务器将该目标簇作为该感兴趣区域中的商户所属的簇,得到调整后的目标聚类结果。
示意性地,以该感兴趣区域中的商户属于两个不同的簇A和簇B,经过上述步骤4042确定簇A为目标簇为例,服务器将该目标簇作为该感兴趣区域中的商户所属的簇是指,该感兴趣区域所有的商户均属于簇A。
通过上述步骤404,利用了待划分区域中商户与感兴趣区域之间的映射关系,在得到目标聚类结果之后,及时对目标聚类结果进行调整,避免了对感兴趣区域的切割,从而确保了区域划分的合理性。
405、服务器基于调整后的目标聚类结果,将该待划分区域划分为多个第一取件区域。
在本申请实施例中,调整后的目标聚类结果中包括多个簇,每个簇包括至少一个商户,且,待划分区域中的每个感兴趣区域中的商户属于同一个簇,则服务器根据调整后的目标聚类结果所指示的待划分区域中每个商户所属的簇,对待划分区域进行划分,将属于同一个簇的商户划分到同一个取件区域中,从而得到多个第一取件区域。例如,以任意一个簇为例,根据该簇内每个商户所在的地理位置,将该簇内的商户划分到同一个取件区域内。
在一些实施例中,在将该划分区域划分为多个第一取件区域之后,通过地图块(Block)和区域编码来表示对应的取件区域和商户位置,生成划分好的地图区域。例如,将待划分区域的地图按照多个第一取件区域划分为多个地图块,每个地图块中的商户采用不同的区域编码来表示。例如,区域编码为geohash(一种地址编码),示意性地,该区域编码为8位的编码,例如,00101110等,本申请实施例对此不作限定。
经过上述步骤401至步骤405,服务器根据待划分区域中每个商户的商户特征、待划分区域中每两个商户之间的导航距离以及该待划分区域中每个商户的历史订单数量,采用聚类的方式,对该待划分区域中的商户进行聚类,并根据商户与感兴趣区域之间的映射关系对聚类结果进行调整,从而得到多个取件区域。
综上,在本申请实施例提供的取件区域的确定方法中,在根据待划分区域中目标用户的用户信息和每个商户的商户信息得到每个商户的商户特征之后,结合两两商户之间的导航距离以及每个商户的历史订单数量,来对待划分区域中的商户进行聚类,从而得到待划分区域的多个取件区域。在上述获取商户的商户特征的过程中利用了用户侧信息,从而确保了区域划分的合理性,而且,在聚类过程中利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率。
根据上述图4所示的实施例,对本申请提供的取件区域的确定方法进行了详细介绍。下面结合图7对本申请实施例提供的另一种取件区域的确定方法进行。
图7是根据本申请实施例提供的一种取件区域的确定方法的流程图,其中,该取件区域的确定方法的执行主体为计算机设备,示意性地,该计算机设备为图1中所示的服务器102为例进行说明,该方法包括如下几个步骤。
701、服务器基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度。
其中,本步骤701与上述步骤401同理,故在此不再赘述。
702、服务器基于每个商户的商户特征、每两个商户之间的导航距离以及每个商户的历史订单数量,对该待划分区域中的商户进行聚类,得到目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户。
其中,本步骤702与上述步骤402同理,故在此不再赘述。
703、服务器基于该多个簇的簇数与目标参数之差和该簇数与该目标参数之和构成的区间,得到多个第一簇数,每个第一簇数的取值不同。
其中,目标参数为超参数,根据实际需求来确定,本申请实施例对此不作限定。示意性地,该多个簇的簇数与目标参数之差和该簇数与该目标参数之和构成的区间表示为[k-step,k+step],其中,k为该多个簇的簇数,step为目标参数。例如,k为3,step为1,则上述区间表示为[2,4],相应地,多个第一簇数分别为2、3和4。
704、服务器基于每个商户的商户特征、每两个商户之间的导航距离、每个商户的历史订单数量以及每个第一簇数,对该待划分区域中的商户进行多次聚类,得到每个第一簇数对应的待划分区域的第三聚类结果。
其中,多次聚类的次数与多个第一簇数的个数相同。本步骤704也可以理解为服务器按照不同的第一簇数,重复执行上述步骤702,以得到多个第三聚类结果。
705、服务器从目标聚类结果和每个第一簇数对应的第三聚类结果中,确定符合目标条件的第四聚类结果。
其中,经过上述步骤701至步骤704,服务器得到了多个不同的聚类结果,从这些多个不同的聚类结果中,挑选出符合目标条件的第四聚类结果,该第四聚类结果可以是该目标聚类结果,也可以是多个第三聚类结果中的任一个聚类结果。
在一些实施例中,以服务器调用聚类算法对待划分区域中的商户进行聚类为例,该目标条件是指聚类结果对应的损失值最小,例如,参考上述公式(3)所示的损失函数,则目标条件是指根据上述公式(3)得到的聚类结果对应的损失值最小。在一些实施例中,目标条件是指聚类结果对应的各个簇的历史订单数量总量之间的差值最小,也可以理解为各个簇的历史订单数量总量的分布最平均,即对于每一个聚类结果,计算每个簇的历史订单数量总量,然后计算各个簇的历史订单数量总量之间的差值,从而确定哪一个聚类结果对应的每个簇的历史订单数量总量分布最平均。例如,以待划分区域包括500商户为例,目标聚类结果包括3个簇,各个簇的历史订单数量总量分别为160、170和170,即各个簇的历史订单数量总量之间的差值最大为10;某一第三聚类结果包括4个簇,各个簇的历史订单数量总量分别为100、200、150和50,即各个簇的历史订单数量总量之间的差值最大为150;因此,目标聚类结果中各个簇的历史订单数量总量的分布最平均。需要说明的是,上述关于目标条件的举例仅为示意性地,在一些实施例中,可以根据人工经验或者区域划分的具体应用场景设置其他形式的目标条件,本申请实施例对此不作限定。
通过这种方式,利用了目标聚类结果中多个簇的簇数,确定多个不同的第一簇数,从而得到多个不同的聚类结果,并从中挑选出符合目标条件的聚类结果,能够有效提高聚类的准确性,进一步保证区域划分的准确性,大大提高了配送服务的效率和配送服务资源的利用率。
706、服务器基于该第四聚类结果,将该待划分区域划分为多个第二取件区域。
其中,本步骤706与上述步骤405同理,故在此不再赘述。
需要说明的是,在一些实施例中,服务器在执行上述步骤702之后,采用与上述步骤403和步骤404同理的方式,对目标聚类结果进行调整,得到调整后的目标聚类结果,则上述步骤705可以理解为:服务器从调整后的目标聚类结果和每个第一簇数对应的第三聚类结果中,确定符合目标条件的第四聚类结果,本申请实施例对此不作限定。
综上,在本申请实施例提供的取件区域的确定方法中,在根据待划分区域中目标用户的用户信息和每个商户的商户信息得到每个商户的商户特征之后,结合两两商户之间的导航距离以及每个商户的历史订单数量,来对待划分区域中的商户进行聚类,进一步地,利用目标聚类结果中多个簇的簇数,确定多个不同的第一簇数,从而得到多个不同的聚类结果,并从中挑选出符合目标条件的聚类结果,得到待划分区域的多个取件区域。在上述获取商户的商户特征的过程中利用了用户侧信息,从而确保了区域划分的准确性,而且,在聚类过程中利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率,同时,聚类结果是从多个不同的聚类结果中挑选出来的,能够有效提高聚类的准确性,进一步保证区域划分的准确性,大大提高配送服务的效率和配送服务资源的利用率。
根据上述图4和图7所示的实施例,对本申请提供的取件区域的确定方法进行了详细介绍。下面结合图8对本申请实施例提供的另一种取件区域的确定方法进行。
图8是根据本申请实施例提供的一种取件区域的确定方法的流程图,其中,该取件区域的确定方法的执行主体为计算机设备,示意性地,该计算机设备为图1中所示的服务器102为例进行说明,该方法包括如下几个步骤。
801、服务器基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度。
其中,本步骤801与上述步骤401同理,故在此不再赘述。
802、服务器获取目标簇数和该待划分区域的多个初始聚类中心。
其中,本步骤802与上述步骤402中基于DBSCAN算法获取目标簇数和多个初始聚类中心的可选实施方式同理,故在此不再赘述。
803、服务器获取该待划分区域的区域屏障信息,该区域屏障信息指示该待划分区域的屏障情况。
其中,本步骤803与上述步骤402中获取区域屏障信息的可选实施方式同理,故在此不再赘述。
需要说明的是,在一些实施例中,服务器先执行上述步骤802和步骤803,再执行步骤801,或者,服务器先执行上述步骤803,再执行步骤801和步骤802,又或者,服务器同步执行上述步骤801至步骤803,等等,即本申请实施例对上述步骤801至步骤803的执行顺序不作限定。
804、服务器基于每个商户的商户特征、每两个商户之间的导航距离、每个商户的历史订单数量以及该区域屏障信息,对该待划分区域中的商户进行聚类,得到该目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户。
其中,本步骤804与上述步骤402同理,故在此不再赘述。
805、服务器获取该待划分区域中每个商户与该待划分区域的多个感兴趣区域之间的映射关系,该映射关系指示商户与感兴趣区域之间的位置所属情况。
其中,本步骤805与上述步骤403同理,故在此不再赘述。
806、服务器基于该映射关系,对该目标聚类结果进行调整,得到调整后的该目标聚类结果,在调整后的该目标聚类结果中,一个该感兴趣区域中的商户属于同一个簇。
其中,本步骤806与上述步骤404同理,故在此不再赘述。
807、服务器基于该多个簇的簇数与目标参数之差和该簇数与该目标参数之和构成的区间,得到多个第一簇数,每个第一簇数的取值不同。
其中,本步骤807与上述步骤703同理,故在此不再赘述。
808、服务器基于每个商户的商户特征、每两个商户之间的导航距离、每个商户的历史订单数量以及每个第一簇数,对该待划分区域中的商户进行多次聚类,得到每个第一簇数对应的待划分区域的第三聚类结果。
其中,本步骤808与上述步骤704同理,故在此不再赘述。
809、服务器从该调整后的目标聚类结果和每个该第一簇数对应的第三聚类结果中,确定符合目标条件的第四聚类结果。
其中,本步骤809与上述步骤705同理,故在此不再赘述。
810、服务器基于该第四聚类结果,将该待划分区域划分为多个第二取件区域。
其中,本步骤810与上述步骤706同理,故在此不再赘述。
综上,在本申请实施例提供的取件区域的确定方法中,在根据待划分区域中目标用户的用户信息和每个商户的商户信息得到每个商户的商户特征之后,结合两两商户之间的导航距离、每个商户的历史订单数量、区域屏障信息、映射关系、目标簇数以及多个初始聚类中心,来对待划分区域中的商户进行聚类,在聚类过程中利用了用户侧信息,规避了障碍物,还避免了对感兴趣区域的切割,从而确保了区域划分的合理性和准确性。同时,在聚类过程中还利用了两两商户之间的导航距离,进一步提高了区域划分的准确性,从而有效提高了配送服务的效率和配送服务资源的利用率。
进一步地,利用目标聚类结果中多个簇的簇数,确定多个不同的第一簇数,从而得到多个不同的聚类结果,并从中挑选出符合目标条件的聚类结果,从而得到待划分区域的多个取件区域,能够有效提高聚类的准确性,进一步保证区域划分的准确性,大大提高配送服务的效率和配送服务资源的利用率。
图9是根据本申请实施例提供的一种取件区域的确定装置的结构示意图。该装置用于执行上述取件区域的确定方法执行时的步骤,参见图9,该取件区域的确定装置包括第一获取模块901、第一聚类模块902以及第一划分模块903。
第一获取模块901,用于基于待划分区域中目标用户的用户信息和该待划分区域中每个商户的商户信息,获取该待划分区域中每个商户的商户特征,该目标用户为该待划分区域中历史点单数量大于或等于阈值的用户,该商户特征指示该商户与该目标用户之间的相似程度;
第一聚类模块902,用于基于该每个商户的商户特征、每两个商户之间的导航距离以及该每个商户的历史订单数量,对该待划分区域中的商户进行聚类,得到目标聚类结果,该目标聚类结果包括多个簇,每个簇包括至少一个商户;
第一划分模块903,用于基于该目标聚类结果,将该待划分区域划分为多个第一取件区域。
在一些实施例中,该第一获取模块901用于:
基于深度语义匹配模型,对该目标用户的用户信息和该每个商户的商户信息进行特征提取,得到该每个商户的商户特征;
其中,该深度语义匹配模型基于多组训练样本对深度学习模型进行训练得到,该训练样本包括历史目标用户的用户信息、该历史目标用户对应的多个商户的商户信息以及标签信息,该标签信息指示该历史目标用户与该多个商户之间的标注相似度。
在一些实施例中,该装置还包括训练模块,该训练模块用于:
对于该多组训练样本中的任一组训练样本,将该任一组训练样本输入该深度学习模型,得到该历史目标用户的用户特征和该历史目标用户对应的多个商户的商户特征;
基于该历史目标用户的用户特征和该多个商户的商户特征,得到该历史目标用户与该多个商户之间的预测相似度;
基于该预测相似度和该标签信息,计算损失值;
基于该损失值,对该深度学习模型进行训练直至满足训练条件,得到该深度语义匹配模型。
在一些实施例中,该装置还包括样本构建模块,该样本构建模块用于:
基于该历史目标用户的用户信息,从样本区域中确定第一商户,该第一商户是指样本区域内向该历史目标用户提供过货品的商户;
基于该第一商户对应的目标范围,从该样本区域中确定第二商户,该第二商户是指该目标范围内未向该历史目标用户提供过货品的商户。
在一些实施例中,该第一聚类模块902用于:
获取该待划分区域的区域屏障信息,该区域屏障信息指示该待划分区域的屏障情况;
基于该每个商户的商户特征、每两个商户之间的导航距离以及该每个商户的历史订单数量以及该区域屏障信息,对该待划分区域中的商户进行聚类,得到该目标聚类结果。
在一些实施例中,该第一聚类模块902用于:
基于该每个商户的商户特征、每两个商户之间的导航距离、该每个商户的历史订单数量以及多个初始聚类中心,对该待划分区域中的商户进行聚类,得到第一聚类结果,该初始聚类中心为该待划分区域中的任一商户;
若该第一聚类结果符合聚类条件,将该第一聚类结果确定为该目标聚类结果;
若该第一聚类结果不符合该聚类条件,基于该第一聚类结果,对该待划分区域中的商户进行迭代聚类,直至得到的第二聚类结果符合该聚类条件,将该第二聚类结果确定为该目标聚类结果。
在一些实施例中,该装置还包括:
第二获取模块,用于获取目标簇数和该多个初始聚类中心;
该第一聚类模块902用于:
基于该每个商户的商户特征、每两个商户之间的导航距离、该每个商户的历史订单数量、该目标簇数以及该多个初始聚类中心,对该待划分区域中的商户进行聚类,得到该第一聚类结果。
在一些实施例中,该第二获取模块用于:
获取该每个商户的位置信息和目标订单数量,该目标订单数量指示每个簇对应的订单建议总量;
基于该每个商户的历史订单数量、该每个商户的位置信息以及该目标订单数量,对该待划分区域中的商户进行聚类,得到该目标簇数和该多个初始聚类中心。
在一些实施例中,该第一划分模块903包括:
获取单元,用于获取每个商户与该待划分区域的多个感兴趣区域之间的映射关系,该映射关系指示该商户与该感兴趣区域的位置所属情况;
调整单元,用于基于该映射关系,对该目标聚类结果进行调整,得到调整后的该目标聚类结果,在调整后的该目标聚类结果中,一个该感兴趣区域中的商户属于同一个簇;
划分单元,用于基于调整后的该目标聚类结果,将该待划分区域划分为该多个第一取件区域。
在一些实施例中,该调整单元用于:
基于该映射关系和该目标聚类结果,确定该感兴趣区域中的商户所属的簇;
若该感兴趣区域中的商户属于多个不同的簇,从该多个不同的簇中确定目标簇,该目标簇中属于该感兴趣区域的商户数量最多;
将该目标簇作为该感兴趣区域中的商户所属的簇,得到调整后的该目标聚类结果。
在一些实施例中,该装置还包括:
第三获取模块,用于基于该多个簇的簇数与目标参数之差和该簇数与该目标参数之和构成的区间,得到多个第一簇数,每个该第一簇数的取值不同;
第二聚类模块,用于基于该每个商户的商户特征、每两个商户之间的导航距离、该每个商户的历史订单数量以及每个该第一簇数,对该待划分区域中的商户进行多次聚类,得到每个该第一簇数对应的第三聚类结果;
确定模块,用于从该目标聚类结果和每个该第一簇数对应的第三聚类结果中,确定符合目标条件的第四聚类结果;
第二划分模块,用于基于该第四聚类结果,将该待划分区域划分为多个第二取件区域。
需要说明的是:上述实施例提供的取件区域的确定装置在对取件区域进行划分时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的取件区域的确定装置与取件区域的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器用于存储至少一条计算机程序,该至少一段计算机程序由该处理器加载并执行以实现本申请实施例中的取件区域的确定方法中所执行的操作。
以计算机设备为服务器为例,图10是根据本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,该存储器1002中存储有至少一条计算机程序,该至少一条计算机程序由处理器1001加载并执行以实现上述各个方法实施例提供的取件区域的确定方法。当然,该服务器还能够具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的取件区域的确定方法中计算机设备所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的取件区域的确定方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种取件区域的确定方法,其特征在于,所述方法包括:
基于待划分区域中目标用户的用户信息和所述待划分区域中每个商户的商户信息,获取所述待划分区域中每个商户的商户特征,所述目标用户为所述待划分区域中历史点单数量大于或等于阈值的用户,所述商户特征指示所述商户与所述目标用户之间的相似程度;
基于所述每个商户的商户特征、每两个商户之间的导航距离以及所述每个商户的历史订单数量,对所述待划分区域中的商户进行聚类,得到目标聚类结果,所述目标聚类结果包括多个簇,每个簇包括至少一个商户;
基于所述目标聚类结果,将所述待划分区域划分为多个第一取件区域。
2.根据权利要求1所述的方法,其特征在于,所述基于待划分区域中目标用户的用户信息和所述待划分区域中每个商户的商户信息,获取所述待划分区域中每个商户的商户特征,包括:
基于深度语义匹配模型,对所述目标用户的用户信息和所述每个商户的商户信息进行特征提取,得到所述每个商户的商户特征;
其中,所述深度语义匹配模型基于多组训练样本对深度学习模型进行训练得到,所述训练样本包括历史目标用户的用户信息、所述历史目标用户对应的多个商户的商户信息以及标签信息,所述标签信息指示所述历史目标用户与所述多个商户之间的标注相似度。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对于所述多组训练样本中的任一组训练样本,将所述任一组训练样本输入所述深度学习模型,得到所述历史目标用户的用户特征和所述历史目标用户对应的多个商户的商户特征;
基于所述历史目标用户的用户特征和所述多个商户的商户特征,得到所述历史目标用户与所述多个商户之间的预测相似度;
基于所述预测相似度和所述标签信息,计算损失值;
基于所述损失值,对所述深度学习模型进行训练直至满足训练条件,得到所述深度语义匹配模型。
4.根据权利要求2所述的方法,其特征在于,对于所述多组训练样本中的任一组训练样本,所述任一组训练样本的构建方式包括:
基于所述历史目标用户的用户信息,从样本区域中确定第一商户,所述第一商户是指所述样本区域中向所述历史目标用户提供过货品的商户;
基于所述第一商户对应的目标范围,从所述样本区域中确定第二商户,所述第二商户是指所述目标范围内未向所述历史目标用户提供过货品的商户。
5.根据权利要求1所述的方法,其特征在于,所述基于所述每个商户的商户特征、每两个商户之间的导航距离以及所述每个商户的历史订单数量,对所述待划分区域中的商户进行聚类,得到目标聚类结果,包括:
获取所述待划分区域的区域屏障信息,所述区域屏障信息指示所述待划分区域的屏障情况;
基于所述每个商户的商户特征、每两个商户之间的导航距离以及所述每个商户的历史订单数量以及所述区域屏障信息,对所述待划分区域中的商户进行聚类,得到所述目标聚类结果。
6.根据权利要求1所述的方法,其特征在于,所述基于所述每个商户的商户特征、每两个商户之间的导航距离以及所述每个商户的历史订单数量,对所述待划分区域中的商户进行聚类,得到目标聚类结果,包括:
基于所述每个商户的商户特征、每两个商户之间的导航距离、所述每个商户的历史订单数量以及多个初始聚类中心,对所述待划分区域中的商户进行聚类,得到第一聚类结果,所述初始聚类中心为所述待划分区域中的任一商户;
若所述第一聚类结果符合聚类条件,将所述第一聚类结果确定为所述目标聚类结果;
若所述第一聚类结果不符合所述聚类条件,基于所述第一聚类结果,对所述待划分区域中的商户进行迭代聚类,直至得到的第二聚类结果符合所述聚类条件,将所述第二聚类结果确定为所述目标聚类结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取目标簇数和所述多个初始聚类中心;
所述基于所述每个商户的商户特征、每两个商户之间的导航距离、所述每个商户的历史订单数量以及多个初始聚类中心,对所述待划分区域中的商户进行聚类,得到所述待划分区域的第一聚类结果,包括:
基于所述每个商户的商户特征、每两个商户之间的导航距离、所述每个商户的历史订单数量、所述目标簇数以及所述多个初始聚类中心,对所述待划分区域中的商户进行聚类,得到所述第一聚类结果。
8.根据权利要求7所述的方法,其特征在于,所述获取目标簇数和所述多个初始聚类中心,包括:
获取所述每个商户的位置信息和目标订单数量,所述目标订单数量指示每个簇对应的订单建议总量;
基于所述每个商户的历史订单数量、所述每个商户的位置信息以及所述目标订单数量,对所述待划分区域中的商户进行聚类,得到所述目标簇数和所述多个初始聚类中心。
9.根据权利要求1所述的方法,其特征在于,所述基于所述目标聚类结果,将所述待划分区域划分为多个第一取件区域,包括:
获取所述待划分区域中每个商户与所述待划分区域的多个感兴趣区域之间的映射关系,所述映射关系指示所述商户与所述感兴趣区域的位置所属情况;
基于所述映射关系,对所述目标聚类结果进行调整,得到调整后的所述目标聚类结果,在调整后的所述目标聚类结果中,一个所述感兴趣区域中的商户属于同一个簇;
基于调整后的所述目标聚类结果,将所述待划分区域划分为所述多个第一取件区域。
10.根据权利要求9所述的方法,其特征在于,所述基于所述映射关系,对所述目标聚类结果进行调整,得到调整后的所述目标聚类结果,包括:
基于所述映射关系和所述目标聚类结果,确定所述感兴趣区域中的商户所属的簇;
若所述感兴趣区域中的商户属于多个不同的簇,从所述多个不同的簇中确定目标簇,所述目标簇中属于所述感兴趣区域的商户数量最多;
将所述目标簇作为所述感兴趣区域中的商户所属的簇,得到调整后的所述目标聚类结果。
11.根据权利要求1所述的方法,其特征在于,所述基于所述每个商户的商户特征、每两个商户之间的导航距离以及所述每个商户的历史订单数量,对所述待划分区域中的商户进行聚类,得到目标聚类结果之后,所述方法还包括:
基于所述多个簇的簇数与目标参数之差和所述簇数与所述目标参数之和构成的区间,得到多个第一簇数,每个所述第一簇数的取值不同;
基于所述每个商户的商户特征、每两个商户之间的导航距离、所述每个商户的历史订单数量以及每个所述第一簇数,对所述待划分区域中的商户进行多次聚类,得到每个所述第一簇数对应的第三聚类结果;
从所述目标聚类结果和每个所述第一簇数对应的第三聚类结果中,确定符合目标条件的第四聚类结果;
基于所述第四聚类结果,将所述待划分区域划分为多个第二取件区域。
12.一种取件区域的确定装置,其特征在于,所述装置包括:
第一获取模块,用于基于待划分区域中目标用户的用户信息和所述待划分区域中每个商户的商户信息,获取所述待划分区域中每个商户的商户特征,所述目标用户为所述待划分区域中历史点单数量大于或等于阈值的用户,所述商户特征指示所述商户与所述目标用户之间的相似程度;
第一聚类模块,用于基于所述每个商户的商户特征、每两个商户之间的导航距离以及所述每个商户的历史订单数量,对所述待划分区域中的商户进行聚类,得到目标聚类结果,所述目标聚类结果包括多个簇,每个簇包括至少一个商户;
第一划分模块,用于基于所述目标聚类结果,将所述待划分区域划分为多个第一取件区域。
13.根据权利要求12所述的装置,其特征在于,所述第一获取模块用于:
基于深度语义匹配模型,对所述待划分区域中目标用户的用户信息和所述每个商户的商户信息进行特征提取,得到所述每个商户的商户特征;
其中,所述深度语义匹配模型基于多组训练样本对深度学习模型进行训练得到,所述训练样本包括历史目标用户的用户信息、所述历史目标用户对应的多个商户的商户信息以及标签信息,所述标签信息指示所述历史目标用户与所述多个商户之间的标注相似度。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行如权利要求1至权利要求11中任一项所述的取件区域的确定方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求11中任一项所述的取件区域的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110907006.7A CN115705511A (zh) | 2021-08-09 | 2021-08-09 | 取件区域的确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110907006.7A CN115705511A (zh) | 2021-08-09 | 2021-08-09 | 取件区域的确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115705511A true CN115705511A (zh) | 2023-02-17 |
Family
ID=85179250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110907006.7A Pending CN115705511A (zh) | 2021-08-09 | 2021-08-09 | 取件区域的确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115705511A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304393A (zh) * | 2023-05-19 | 2023-06-23 | 北京阿帕科蓝科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
-
2021
- 2021-08-09 CN CN202110907006.7A patent/CN115705511A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304393A (zh) * | 2023-05-19 | 2023-06-23 | 北京阿帕科蓝科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN116304393B (zh) * | 2023-05-19 | 2023-10-24 | 北京阿帕科蓝科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119413B (zh) | 数据融合的方法和装置 | |
EP3928473B1 (en) | Systems and methods for communications node upgrade and selection | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及*** | |
CN113434623B (zh) | 一种基于多源异构空间规划数据的融合方法 | |
CN113763700B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
US20140253543A1 (en) | Performance prediction for generation of point clouds from passive imagery | |
CN112861972B (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN115605903A (zh) | 用于快速组成、启动和配置具有内置审计和监测结构的可定制的第二层级转移结构的***及其方法 | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
US20240151850A1 (en) | Apparatus and method for remote determination of architectural feature elevation and orientation | |
CN115705511A (zh) | 取件区域的确定方法、装置、设备及存储介质 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
Liu et al. | Automated image localization to support rapid building reconnaissance in a large‐scale area | |
US20180089774A1 (en) | Method for automatic property valuation | |
CN108647189B (zh) | 一种识别用户人群属性的方法及装置 | |
CN117236465A (zh) | 一种基于信息熵的联邦决策树信息量度量方法 | |
CN116485413A (zh) | 基于区块链的物流信息检索与风险度评测方法 | |
Kim et al. | A multi‐criteria decision‐making approach for geometric matching of areal objects | |
Aydın | Classification of the fire station requirement with using machine learning algorithms | |
CN113240306B (zh) | 基于人工智能和大数据的商场选址方法及*** | |
CN114820960A (zh) | 构建图谱的方法、装置、设备和介质 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察*** | |
CN114943407A (zh) | 区域规划方法、装置、设备、可读存储介质及程序产品 | |
Boochs et al. | Integration of knowledge to support automatic object reconstruction from images and 3D data | |
Liu et al. | Semi-automated processing and routing within indoor structures for emergency response applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |