WO2018219057A1

WO2018219057A1 - 选址方法及设备

Info

Publication number: WO2018219057A1
Application number: PCT/CN2018/083627
Authority: WO
Inventors: 张海滨; 蒋丰泽; 张旭
Original assignee: 华为技术有限公司
Priority date: 2017-06-01
Filing date: 2018-04-19
Publication date: 2018-12-06
Also published as: CN108984561B; EP3605365A4; CN108984561A; EP3605365A1

Abstract

一种选址方法及设备，涉及大数据分析技术领域。所述方法包括：获取多个用户的时空特征数据，时空特征数据用于指示用户在各个时刻的实际地理位置；对每个用户的时空特征数据进行栅格化处理，将时空特征数据转化为映射时空特征数据；根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹；根据多个用户的频繁轨迹，确定待选址主体的备选地址。本申请实施例提供一种以用户的时空特征数据为参考，通过提取频繁轨迹进行选址的方案，用户的频繁轨迹反映了用户经常出现的地理位置，据此进行选址能够反映出各个地理位置的人流量、周围用户的身份，且符合用户习惯于在其经常出现的地点进行各种日常行为活动的实际情况，有助于提高选址的准确性。

Description

选址方法及设备

本申请要求于2017年6月1日提交中国专利局、申请号为201710405595.2，发明名称为“选址方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及大数据分析技术领域，特别涉及一种选址方法及设备。

背景技术

选址是指在建筑之前对地址进行论证和决策的过程。例如，商店、酒店、医院、学校等建筑在开设或建造之间都需进行选址。选址需要考虑诸多因素。以商店选址为例，商店选址需要考虑区域人流量、商圈、用户购物习惯、商店自身性质以及周边地价等因素。

在现有技术中，提供了一种基于用户的搜索记录进行商店选址的方法。用户通常会在地图应用中搜索想去的商店，通过获取大量用户在地图应用中对商店的搜索记录，并对此进行分析，进而实现商店选址。以为一家新筹划开设的“xx咖啡店”进行选址为例，首先获取大量用户在地图应用中搜索“xx咖啡店”的搜索记录，根据搜索记录确定搜索“xx咖啡店”的用户在地图上的空间位置分布，选取搜索人数大于预设阈值的区域作为初步候选区域，然后从初步候选区域中剔除就近范围内已经开设“xx咖啡店”的区域，得到剩余候选区域。这些剩余候选区域可以看作是有开设“xx咖啡店”需求的区域。而后，进一步结合各个剩余候选区域的人流量、周边地价、所处商圈等因素，最终选取某个合适的剩余候选区域作为开设“xx咖啡店”的备选地址。

上述现有技术从用户需求的角度入手进行商店选址，有个先决条件是获取大量用户在地图应用中对筹划开设的商店的搜索记录。如果搜索记录因为某些原因缺失，例如当筹划开设的商店是一种新兴类型的商店或者知名度较低的商店时，地图应用中可能仅有少量甚至没有关于该筹划开设的商店的搜索记录，这种情况下会导致现有技术的方案很难有效实施。

发明内容

本申请实施例提供了一种选址方法及设备，用以解决现有技术提供的方案在搜索记录缺失的情况下很难有效实施的问题。

一方面，提供了一种选址方法，该方法包括：获取多个用户的时空特征数据，时空特征数据用于指示用户在各个时刻的实际地理位置；对每个用户的时空特征数据进行栅格化处理，将时空特征数据转化为映射时空特征数据；根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹；根据多个用户的频繁轨迹，确定待选址主体的备选地址。

本申请实施例提供的方案中，提供了一种以用户的时空特征数据为参考，通过提取用户的频繁轨迹进行选址的技术方案，克服了现有技术中依赖于用户的搜索记录进行选址所存在的问题。用户的时空特征数据可以从用户日常的活动行为中方便地采集得到，从而确保本申请实施例提供的方案能够有效实施。另外，用户的频繁轨迹反映了用户经常出现的地理位置，利用用户的频繁轨迹进行选址，能够准确反映出各个地理位置的人流量、周围用户的身份，且符合用户习惯于在其经常出现的地点进行各种日常行为活动(如购物)的实际情况，有助于提高选址的准确性。

在一个可能的设计中，对每个用户的时空特征数据进行栅格化处理，将时空特征数据转化为映射时空特征数据，包括：对于每一个用户，将该用户的时空特征数据按照周期进行划分，得到该用户在n个周期内的时空特征数据，n为大于1的整数；对于n个周期中的每一个周期，根据该用户在该周期内的时空特征数据，确定该用户在该周期所包括的k个时间段中的每一个时间段内所处的实际地理位置，k为大于1的整数；获取该用户在每一个时间段内所处的实际地理位置对应的代表性地理位置，该代表性地理位置所代表的空间区域中包括上述实际地理位置。其中，每个用户的映射时空特征数据包括每个用户在n个周期内的映射时空特征数据，在一个周期内的映射时空特征数据包括在该周期所包括的每一个时间段内的代表性地理位置。

在一个可能的设计中，根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹，包括：对于每一个用户，获取该用户在每一个周期内的映射时空特征数据对应的序列，序列中的每一个元素表示该用户在一个时间段内所处的代表性地理位置；根据该用户在n个周期对应的n个序列，获取每一个子序列在n个序列中的出现次数；选取符合第一预设条件的子序列作为频繁序列，并将频繁序列对应的映射时空特征数据确定为该用户的频繁轨迹。在一个可能的设计中，第一预设条件包括：出现次数大于第一阈值、子序列中包含的元素数量大于第二阈值中的第一项或全部两项。

本申请实施例提供的方案中，利用栅格化处理的结果可以得到用户的频繁轨迹，即识别在不同周期的相同时间段内用户是否经常出现在某个地理位置周围以助于提取该用户的频繁轨迹。如果不进行栅格化处理，根据时空特征数据直接提取用户的频繁轨迹的话，因为在实际情况下时间和空间数据很难重合，也就很难得到用户的频繁轨迹。

在一个可能的设计中，根据多个用户的频繁轨迹，确定待选址主体的备选地址，包括：根据多个用户的频繁轨迹，构建轨迹标签库，其中，轨迹标签库包括多个用户的轨迹标签数据，每一个用户的轨迹标签数据包括：用户标识和至少一个频繁轨迹；基于轨迹标签库，根据第二预设条件确定待选址主体的备选地址。

在一个可能的设计中，上述方法还包括：根据用户的频繁轨迹，获取用户在工作时段内的位置信息；获取与上述位置信息对应的信息点(Point of Information，POI)信息；根据POI信息确定用户的身份标签，其中，用户的轨迹标签数据中还包括用户的身份标签。

在本申请实施例提供的方案中，在选址时还结合考虑地理位置的周围区域内的用户身份，使得备选地址的推荐更加精细化、更具针对性。另外，采用用户的频繁轨迹推测用户的身份标签，能够避免因社交信息中填写的身份信息错误或者更新不及时而导致最终确定的身份标签不准确，有助于提高确定用户的身份标签的准确度。

另一方面，本申请实施例提供了一种选址设备，包括处理器和存储器，其中，所述存储器中存有计算机可读程序；所述处理器通过运行所述存储器中的程序，以用于完成上述方面所述的选址方法。

另一方面，本申请实施例提供一种计算机存储介质，用于储存为选址设备所用的计算机软件指令，其包含用于执行上述方面所设计的程序。

再一方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的选址方法。

相较于现有技术，本申请实施例提供的方案中，提供了一种以用户的时空特征数据为参考，通过提取用户的频繁轨迹进行选址的技术方案，用户的时空特征数据可以从用户日常的活动行为中方便地采集得到，从而确保本申请实施例提供的方案能够有效实施。另外，用户的频繁轨迹反映了用户经常出现的地理位置，利用用户的频繁轨迹进行选址，能够准确反映出各个地理位置的人流量、周围用户的身份，且符合用户习惯于在其经常出现的地点进行各种日常行为(如购物)的实际情况，有助于提高选址的准确性。

附图说明

图1是本申请一个实施例提供的选址方法的流程图；

图2是本申请一个实施例提供的空间栅格化的示意图；

图3是本申请一个实施例提供的频繁轨迹的示意图；

图4是本申请一个实施例提供的选址***的组成示意图；

图5是本申请一个实施例提供的选址***的交互示意图；

图6A是本申请一个实施例提供的选址设备的示意性框图；

图6B是本申请一个实施例提供的选址设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

请参考图1，其示出了本申请一个实施例提供的选址方法的流程图。该方法可以包括如下几个步骤。

步骤101，获取多个用户的时空特征数据。

时空特征数据用于指示用户在各个时刻的实际地理位置。时空特征数据包括如下两个维度的数据：时间维度和空间维度。空间维度的特征数据可以采用经纬度坐标表示。当然，在其它可能的实现方式中，空间维度的特征数据也可以采用道路、路口、标志性地点等表示，本申请实施例对此不做限定。总而言之，时空特征数据能够反映出用户什么时间在什么地点即可。

示例性地，多个用户的时空特征数据如下表-1所示：

表-1

另外，用户的时空特征数据可采用相关定位算法获取。例如，上述相关定位算法可以是基站定位算法、全球定位***(Global Positioning System，GPS)定位算法等。以基站定位算法为例，基站定位算法包括三基站定位算法、多基站定位算法等，其原理是终端测量不同基站的下行导频信号，得到不同基站下行导频的到达时刻(Time of Arrival，TOA)或到达时间差(Time Difference of Arrival，TDOA)，根据该测量结果并结合基站的坐标，一般采用三角公式估计算法，就能够计算出终端的位置。

步骤102，对每个用户的时空特征数据进行栅格化处理，将时空特征数据转化为映射时空特征数据。

栅格化处理是指将用户的时空特征数据栅格化，使用户的时空特征数据映射到对应的时间段和空间区域中。栅格化处理包括：时间维度的栅格化处理和空间维度的栅格化处理。时间维度的栅格化处理是指将用户时间维度的特征数据栅格化，使用户时间维度的特征数据映射到对应的时间段中。空间维度的栅格化处理是指将用户空间维度的特征数据栅格化，使用户空间维度的特征数据映射到对应的空间区域中。

时间维度的栅格化处理具体为：在时间维度沿着时间轴分段，将用户时间维度的特征数据映射到对应的时间段上。

例如，以天为单位，将一天的时间沿着时间轴分段。如将0点作为时间轴原点，30分钟作为一个时间段(或称为一个时隙slot)，每天划分为48个时间段。08:00:00至08:30:00之间的任意一个时刻都离散化为数字16。时间段的划分也可以根据需求采用其它方式，如10分钟作为一个时间段或者1小时作为一个时间段等。如果用户在一个时间段内出现在多个不同地点，则可以取出现次数最多的地点作为该时间段内该用户的实际地理位置。

表-1所示的多个用户的时空特征数据经过时间维度的栅格化处理后，得到的数据如下表-2所示：

用户ID	时间
ID1	16
ID1	20
ID1	22
ID1	30
ID2	16
ID2	18
ID2	20
ID2	22
ID3	17
...	...
IDn	47

表-2

空间维度的栅格化处理具体为：利用经纬度将二维位置空间(也即地理空间)按网格分块，将用户空间维度的特征数据映射到对应的网格上，一个网格代表一个空间区域。

例如，将二维位置空间划分为若干个长为X米、宽为Y米的网格。如X＝Y＝500，也即将二维位置空间划分为若干个边长为500米的正方形网格。用户在任何一个时刻的实际地理位置都可以定位在其中的一个网格内。如图2所示，在本实施例中的实现方式是将经纬度0:0 代表坐标原点，500米的距离对应在经度上步长(step1)的变化为0.0045度，同理500米的距离对应在纬度上步长(step2)的变化也为0.0045度。

空间维度的栅格化处理可采用如下公式进行计算：

(1)经度转换：Longi＝Math.floor(longitude/step1)

(2)纬度转换：Lati＝Math.floor(latitude/step2)

其中，Math.floor(x)表示求取小于或等于x的最大整数，longitude表示栅格化处理前的经度坐标，latitude表示栅格化处理前的纬度坐标，Longi表示栅格化处理后的经度坐标，Lati表示栅格化处理后的纬度坐标，step1表示经度上步长，step2表示纬度上步长。

根据图2，每向右延长500米，经度增加0.0045；每向上延长500米，纬度增加0.0045。对于网格中的某一点A，假设其原始的经纬度坐标为(0.0045，0.0045)，根据经纬度转换公式Longi＝Math.floor(0.0045/0.0045)，Lati＝Math.floor(0.0045/0.0045)，栅格化处理后的经纬度坐标为(1，1)。对于网格中的另一点B，其原始的经纬度坐标为(0.0055，0.0055)，根据经纬度转换公式Longi＝Math.floor(0.0055/0.0045)，Lati＝Math.floor(0.0055/0.0045)，栅格化处理后的经纬度坐标为(1，1)。通过栅格化处理得到点A和点B落在同一个以(1，1)为代表的网格中。

表-1所示的多个用户的时空特征数据经过时间维度的栅格化处理以及空间维度的栅格化处理后，得到的数据如下表-3所示：

用户ID	时间	空间(经度，纬度)
ID1	16	26745，7015
ID1	20	26746，7008
ID1	22	26746，7008
ID1	30	26746，7008
ID2	16	26747，7008
ID2	18	26734，7019
ID2	20	26733，7016
ID2	22	26733，7016
ID3	17	26745，7015
...	...	...
IDn	47	26743，7012

表-3

如下表-4所示，其示出了原始的时空特征数据的格式以及栅格化处理后得到的映射时空特征数据的格式。

表-4

在一个示例中，步骤102包括如下几个子步骤：

步骤102a，对于每一个用户，将用户的时空特征数据按照周期进行划分，得到用户在n个周期内的时空特征数据，n为大于1的整数；

可选地，上述周期通常为1天，这更符合用户的日常活动规律。当然，周期的划分也可以根据需求采用其它方式，如半天或者1个星期等。

步骤102b，对于n个周期中的每一个周期，根据用户在该周期内的时空特征数据，确定用户在该周期所包括的k个时间段中的每一个时间段内所处的实际地理位置，k为大于1的整数；

例如，以1天作为一个周期，30分钟作为一个时间段，则一个周期包括48个时间段。

可选地，对于每一个周期，获取用户在该周期所包括的k个时间段中的每一个时间段内的时空特征数据；对于每一个时间段，当用户在该时间段内的时空特征数据指示同一实际地理位置时，将该同一实际地理位置确定为用户在该时间段内所处的实际地理位置；当用户在该时间段内的时空特征数据指示多个不同的实际地理位置时，将被指示的数量最多的实际地理位置确定为用户在该时间段内所处的实际地理位置。

例如，如果某一用户在某一时间段内包括5条时空特征数据的记录，且这5条时空特征数据所指示的实际地理位置相同，均为经纬度坐标A，则该用户在该时间段内的实际地理位置即为经纬度坐标A。又例如，如果某一用户在某一时间段内包括5条时空特征数据的记录，其中3条时空特征数据所指示的实际地理位置为经纬度坐标B，另外2条时空特征数据所指示的实际地理位置分别为经纬度坐标A和经纬度坐标C，则该用户在该时间段内的实际地理位置即为经纬度坐标B。

步骤102c，获取用户在每一个时间段内所处的实际地理位置对应的代表性地理位置，该代表性地理位置所代表的空间区域中包括上述实际地理位置。

可选地，对于每一个时间段，将用户在该时间段内所处的实际地理位置的经度坐标与第一预设值相除并对商取整(如向下取整)，得到用户在该时间段内的代表性地理位置的经度坐标；将用户在该时间段内所处的实际地理位置的纬度坐标与第二预设值相除并对商取整(如向下取整)，得到用户在该时间段内的代表性地理位置的纬度坐标。其中，第一预设值和第二预设值可以相同，也可以不同。第一预设值和第二预设值的取值可根据网格的划分粒度进行设定，例如将二维位置空间划分为若干个边长为500米的正方形网格时，第一预设值和第二预设值相同，且取值为0.0045。在实际应用中，需要合理设定第一预设值和第二预设值的取值。如果第一预设值和第二预设值取值过大，则会导致网格的划分粒度过大，影响到后续选址的精准度；如果第一预设值和第二预设值取值过小，则会导致网格的划分粒度过小，不利于提取频繁轨迹。

这样，每个用户的映射时空特征数据包括每个用户在n个周期内的映射时空特征数据，在一个周期内的映射时空特征数据包括在该周期所包括的每一个时间段内的代表性地理位置。

步骤103，根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹。

对于每一个用户，将该用户在多个周期内的映射时空特征数据进行累计，用以确定该用户的频繁轨迹。频繁轨迹用于指示用户在多个周期的相同时间段内经常出现(如出现次数大于预设阈值)的地理位置。

在一个示例中，步骤103包括如下几个子步骤：

步骤103a，对于每一个用户，获取该用户在每一个周期内的映射时空特征数据对应的序列，序列中的每一个元素表示该用户在一个时间段内所处的代表性地理位置；

例如，序列中的每一个元素可以表示为“时间段:代表性地理位置”，其中，时间段即为栅格化处理后的时间段，代表性地理位置即为栅格化处理后的经纬度坐标。例如，“16：(26745，7015)”表示用户在16这一时间段出现在地点(26745，7015)。

可选地，对于每一个用户，获取该用户在每一个周期的目标时段内的映射时空特征数据对应的序列。目标时段中包括多个时间段，且该多个时间段可以是连续的，也可以是非连续的。可选地，目标时段是指非睡觉时段，例如每天上午7点至晚上10点。例如，以1天作为一个周期，30分钟作为一个时间段，某一用户在某一天的非睡觉时段内的映射时空特征数据对应的序列如下：14:A→15:B→16:B→17:B→18:C→19:C→20:C→21:C→22:C→23:C→24:C→25:D→26:C→27:C→28:C→29:C→30:C→31:C→32:C→33:C→34:C→35:C→36:C→37:B→38:B→39:A→40:A→41:E→42:A→43:A→44:A。

步骤103b，根据该用户在n个周期对应的n个序列，获取每一个子序列在n个序列中的出现次数；

子序列是指序列中的任意一个元素或者多个元素的组合形成的序列。

步骤103c，选取符合第一预设条件的子序列作为频繁序列，并将频繁序列对应的映射时空特征数据确定为用户的频繁轨迹。

第一预设条件包括：出现次数大于第一阈值、子序列中包含的元素数量大于第二阈值中的第一项或全部两项。其中，第一阈值和第二阈值是根据实际情况预先设定的经验值。

可选地，采用PrefixSpan(Prefix-Projected Pattern Growth，前缀投影的模式挖掘)算法提取频繁序列。假设存在如下3个序列：<a b c>、<a b>和<a c>，其可以看作是某一用户在3个不同周期对应的3个序列。上述3个序列中包括如下子序列：<a>、、<c>、<a b>、、<a c>、<a b c>；其中，<a>的出现次数为3、的出现次数为2、<c>的出现次数为2、<a b>的出现次数为2、的出现次数为1、<a c>的出现次数为2、<a b c>的出现次数为1。

PrefixSpan算法需要一个输入参数，称为支持度，其取值在0到1之间。支持度与序列总数的乘积，等于频繁序列的出现次数的最小阈值。比如上例中，序列总数为3，如果支持度为0.5，则意味着出现3×0.5＝1.5≈2次以及2次以上的子序列被认为是频繁序列。即频繁序列包括：<a>、、<c>、<a b>、<a c>。

当PrefixSpan算法应用于本申请实施例中，用于挖掘频繁轨迹时，上例中的序列元素a、b、c可以看作是用户在一个时间段内所处的代表性地理位置，比如a可以是“16：(26745，7015)”、b可以是“20：(26746，7008)”、c可以是“22：(26746，7008)”。以周期为1天为例，结果可以得到该用户有3天在16这一时间段出现在地点(26745，7015)，有2天在20这一时间段出现在地点(26746，7008)，有2天在22这一时间段出现在地点(26746，7008)，有2天在16这一时间段出现在地点(26745，7015)且在20这一时间段出现在地点(26746，7008)，等等。

在一个示例中，选取出现次数大于10，子序列中包含的元素数量大于15的子序列作为频繁序列。在本申请实施例中，通过对频繁序列中的元素数量的最小值进行限定，可以避免选取的频繁序列过于零散，更好地反映出用户较为完整的日常活动路径。

结合参考图3，其示出了一个频繁轨迹的简单示意图，某一用户在第一天经过的地点以圆圈示意(包括A、B、C、D四个地点)，该用户在第二天经过的地点以三角示意(包括A、C、D、E四个地点)，则该用户在这两天内的频繁轨迹可包括A、C、D三个地点。

在本申请实施例中，利用栅格化处理的结果可以得到用户的频繁轨迹，即识别在不同周期的相同时间段内用户是否经常出现在某个地理位置周围以助于提取该用户的频繁轨迹。如下表-5所示，用户1具有不同的时空特征数据，但栅格化处理后得到的映射时空特征数据相同。如果不进行栅格化处理，即根据表-5左侧的时空特征数据直接提取用户1的频繁轨迹的话，因为在实际情况下时间和空间数据很难重合，也就很难得到用户的频繁轨迹。

表-5

另外，在本申请实施例中，以采用PrefixSpan算法挖掘频繁轨迹为例，在其它可能的实现方式中，也可采用求解最长公共子串的算法或者其它算法挖掘频繁轨迹。

步骤104，根据多个用户的频繁轨迹，确定待选址主体的备选地址。

用户的频繁轨迹反映了用户经常出现的地理位置，大量用户的频繁轨迹则体现了各个地理位置的人流量，且该人流量是每天较为固定的人流量，而不是某一天突发的人流量。

待选址主体可以是商店、酒店、商场、游乐场、体育馆等建筑，本申请实施例对此不作限定。可选地，本申请实施例提供的技术方案，对诸如商店这类具有商业盈利性质的建筑的选址适用性更好。

在确定待选址主体的备选地址时，可以综合考虑各个地理位置的人流量、待选址主体所面向的用户身份、待选址主体自身的性质、周边地价等因素。

在一个示例中，步骤104包括如下几个子步骤：

步骤104a，根据多个用户的频繁轨迹，构建轨迹标签库；

轨迹标签库包括多个用户的轨迹标签数据。每一个用户的轨迹标签数据包括：用户标识、至少一个频繁轨迹。可选地，每一个用户的轨迹标签数据还包括：每一个频繁轨迹对应的出现次数。例如，以1天作为一个周期，则每一个频繁轨迹对应的出现次数即为具有该频繁轨迹的天数。

示例性地，轨迹标签库如下表-6所示：

表-6

可选地，每一个用户的轨迹标签数据中还包括：该用户的身份标签。

在一种可能的实现方式中，采用如下方式获取用户的身份标签：根据用户的频繁轨迹，获取用户在工作时段内的位置信息，获取与该位置信息对应的POI信息，根据POI信息确定用户的身份标签。工作时段是指工作日的上班时间段，例如每周一至周五的上午9点至下午5点。用户在工作时间段内的位置信息用于指示用户在工作时间段内所处的地理位置。在一个例子中，假设用户1在工作时间段内所处的地理位置为经纬度坐标A，该经纬度坐标A对应的POI信息为xx办公楼，则可确定用户1的身份标签为白领。在另一个例子中，假设用户2在工作时间段内所处的地理位置为经纬度坐标B，该经纬度坐标B对应的POI信息为xx医院，则可确定用户2的身份标签为医疗工作者。采用上述方式，能够结合用户的频繁轨迹对用户的身份标签进行推测。

在其它可能的实现方式中，也可以获取用户的社交信息，从用户的社交信息中提取用户的身份标签。采用用户的频繁轨迹推测用户的身份标签，能够避免因社交信息中填写的身份信息错误或者更新不及时而导致最终确定的身份标签不准确，有助于提高确定用户的身份标签的准确度。

步骤104b，基于轨迹标签库，根据第二预设条件确定待选址主体的备选地址。

第二预设条件可以综合考虑人流量、待选址主体所面向的用户身份、待选址主体自身的性质、周边地价等因素进行设定。例如，第二预设条件包括以下至少一项：地理位置的周围区域内某一时间段内的人流量大于预设门限值、地理位置的周围区域内身份标签为白领的用户占比大于预设比例、地理位置的周围区域内不存在大型商圈、地理位置的周围区域内地价小于预设价格，等等。在实际应用中，第二预设条件可根据实际选址需求进行灵活设定，本申请实施例对此不作限定。

另外，某一地理位置在某一时间段内的人流量可根据多个用户的频繁轨迹进行估计得到。例如，地理位置A在上午7点至9点的人流量可以采用如下方式估计得到：从所有用户的频繁轨迹中，查找在上午7点至9点经过地理位置A的目标频繁轨迹，将目标频繁轨迹的数量作为地理位置A在上午7点至9点的人流量。

本申请实施例提供的方案中，提供了一种以用户的时空特征数据为参考，通过提取用户的频繁轨迹进行选址的技术方案，克服了现有技术中依赖于用户的搜索记录进行选址所存在的问题。用户的时空特征数据可以从用户日常的活动行为中方便地采集得到，从而确保本申请实施例提供的方案能够有效实施。

另外，用户的频繁轨迹反映了用户经常出现的地理位置，利用用户的频繁轨迹进行选址，能够准确反映出各个地理位置的人流量、周围用户的身份，且符合用户习惯于在其经常出现的地点进行各种日常行为活动(如购物)的实际情况，有助于提高选址的准确性。

请参考图4，其示出了本申请一个实施例提供的选址***的组成示意图。该选址***可以包括：数据预处理平台10、数据挖掘与分析平台20和备选位置推荐平台30。结合参考图5，其示出了采用图4所示的选址***进行选址时，***各个组成部分之间的交互示意图。

数据预处理平台10用于对采集的基础元数据进行预处理，得到多个用户的时空特征数据。其中，基础元数据是指记录的能够反映出用户什么时间在什么地点的数据。

可选地，数据预处理平台10包括数据库11和数据ETL(Extract-Transform-Load，抽取-转换-加载)单元12。

数据库11中存储有基础元数据。可选地，基础元数据以表的形式存储。数据库11中可以存储多张基础元数据表。在一个例子中，采用基站的经纬度坐标来近似表示用户的实际地理位置。用户使用的终端(如手机)会向为其提供服务的基站发送信号，基站可以记录接收到终端信号的时间和终端的设备标识。例如，基站的基础元数据表中记录有至少一组终端的设备标识和时间之间的对应关系，其示例性如下表-7所示：

表-7

数据ETL单元12从数据库11中提取基础元数据，对基础元数据进行汇总、变换得到用户的时空特征数据，而后将用户的时空特征数据传输到数据挖掘与分析平台20。

结合上述例子，数据ETL单元12可以将每一个终端看作是一个用户，并为其分配相应的用户ID。对于每一个用户，数据ETL模块12从各个基站的基础元数据表中提取时间及相应的基站经纬度坐标，整合得到该用户的时空特征数据。用户的时空特征数据可以如上述表-1所示。

数据挖掘与分析平台20提供有特征变换、数据挖掘等功能单元。

可选地，在本申请实施例中，数据挖掘与分析平台20包括数据映射单元21和轨迹确定单元22。其中，数据映射单元21，用于对每个用户的时空特征数据进行栅格化处理，将时空特征数据转化为映射时空特征数据。轨迹确定单元22，用于根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹。上述有关特征数据映射和频繁轨迹挖掘的具体过程可参见图1实施例中的介绍说明，本实施例对此不再赘述。

数据挖掘与分析平台20得到多个用户的频繁轨迹之后，将其提供给备选位置推荐平台30。

备选位置推荐平台30用于根据多个用户的频繁轨迹，确定待选址主体的备选地址，而后将待选址主体的备选地址提供给请求方(例如商家)。可选地，备选位置推荐平台30向请求方提供限制条件(即上文介绍的第二预设条件)的设置和选择功能，请求方通过设置和选择适当的限制条件，以使得备选位置推荐平台30筛选出合适的备选地址。上述有关确定待选址主体的备选地址的具体过程可参见图1实施例中的介绍说明，本实施例对此不再赘述。

需要说明的一点是，上述图4所示的选址***中涉及的各个平台，每一个平台可以由一台或多台服务器实现，也可以将多个平台的功能集成于一台服务器中。

上述方法实施例中，从选址设备的角度对本申请提供的技术方案进行介绍说明。可以理解的是，选址设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块(或单元)。结合本申请中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的技术方案的范围。

本申请实施例可以根据上述方法示例对选址设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图6A示出了上述实施例中所涉及的选址设备的一种可能的结构示意图。选址设备600包括：处理单元602和通信单元603。处理单元602用于对选址设备600的动作进行控制管理。例如，处理单元602用于支持选址设备600执行图1中的步骤101至步骤104，和/或用于执行本文所描述的技术的其它步骤。通信单元603用于支持选址设备600与其它设备的通信。选址设备600还可以包括存储单元601，用于存储选址设备600的程序代码和数据。

其中，处理单元602可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元603可以是通信接口、收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口，例如选址设备与其它设备之间的接口。存储单元601可以是存储器。

当处理单元602为处理器，通信单元603为通信接口，存储单元601为存储器时，本申请实施例所涉及的选址设备可以为图6B所示的选址设备。

参阅图6B所示，该选址设备610包括：处理器612、通信接口613、存储器611。可选地，选址设备610还可以包括总线614。其中，通信接口613、处理器612以及存储器611可以通过总线614相互连接；总线614可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。所述总线614可以分为地址总线、数据总线、控制总线等。为便于表示，图6B中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块(或单元)组成，软件模块(或单元)可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于选址设备中。当然，处理器和存储介质也可以作为分立组件存在于选址设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。本申请实施例还提供了计算机程序产品，当该计算机程序产品被执行时，其用于实现上述功能。另外，可以将上述计算机程序存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

一种选址方法，其特征在于，所述方法包括：

获取多个用户的时空特征数据，所述时空特征数据用于指示用户在各个时刻的实际地理位置；

对每个用户的时空特征数据进行栅格化处理，将所述时空特征数据转化为映射时空特征数据；

根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹；

根据所述多个用户的频繁轨迹，确定待选址主体的备选地址。
根据权利要求1所述的方法，其特征在于，所述对每个用户的时空特征数据进行栅格化处理，将所述时空特征数据转化为映射时空特征数据，包括：

对于每一个用户，将所述用户的时空特征数据按照周期进行划分，得到所述用户在n个周期内的时空特征数据，所述n为大于1的整数；

对于所述n个周期中的每一个周期，根据所述用户在所述周期内的时空特征数据，确定所述用户在所述周期所包括的k个时间段中的每一个时间段内所处的实际地理位置，所述k为大于1的整数；

获取所述用户在每一个时间段内所处的实际地理位置对应的代表性地理位置，所述代表性地理位置所代表的空间区域中包括所述实际地理位置；

其中，每个用户的映射时空特征数据包括每个用户在n个周期内的映射时空特征数据，在一个周期内的映射时空特征数据包括在所述周期所包括的每一个时间段内的代表性地理位置。
根据权利要求2所述的方法，其特征在于，所述获取所述用户在每一个时间段内所处的实际地理位置对应的代表性地理位置，包括：

对于每一个时间段，将所述用户在所述时间段内所处的实际地理位置的经度坐标与第一预设值相除并对商取整，得到所述用户在所述时间段内的代表性地理位置的经度坐标；

将所述用户在所述时间段内所处的实际地理位置的纬度坐标与第二预设值相除并对商取整，得到所述用户在所述时间段内的代表性地理位置的纬度坐标。
根据权利要求2所述的方法，其特征在于，所述根据所述用户在所述周期内的时空特征数据，确定所述用户在所述周期所包括的k个时间段中的每一个时间段内所处的实际地理位置，包括：

获取所述用户在所述周期所包括的k个时间段中的每一个时间段内的时空特征数据；

对于每一个时间段，当所述用户在所述时间段内的时空特征数据指示同一实际地理位置时，将所述同一实际地理位置确定为所述用户在所述时间段内所处的实际地理位置；

当所述用户在所述时间段内的时空特征数据指示多个不同的实际地理位置时，将被指示的数量最多的实际地理位置确定为所述用户在所述时间段内所处的实际地理位置。
根据权利要求2所述的方法，其特征在于，所述根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹，包括：

对于每一个用户，获取所述用户在每一个周期内的映射时空特征数据对应的序列，所述序列中的每一个元素表示所述用户在一个时间段内所处的代表性地理位置；

根据所述用户在所述n个周期对应的n个序列，获取每一个子序列在所述n个序列中的出现次数；

选取符合第一预设条件的子序列作为频繁序列，并将所述频繁序列对应的映射时空特征数据确定为所述用户的频繁轨迹，其中，所述第一预设条件包括：出现次数大于第一阈值、子序列中包含的元素数量大于第二阈值中的第一项或全部两项。
根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述多个用户的频繁轨迹，确定待选址主体的备选地址，包括：

根据所述多个用户的频繁轨迹，构建轨迹标签库，其中，所述轨迹标签库包括所述多个用户的轨迹标签数据，每一个用户的轨迹标签数据包括：用户标识和至少一个频繁轨迹；

基于所述轨迹标签库，根据第二预设条件确定所述待选址主体的备选地址。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述用户的频繁轨迹，获取所述用户在工作时段内的位置信息；

获取与所述位置信息对应的信息点POI信息；

根据所述POI信息确定所述用户的身份标签，其中，所述用户的轨迹标签数据中还包括所述用户的身份标签。
一种选址设备，其特征在于，所述设备包括：

数据获取单元，用于获取多个用户的时空特征数据，所述时空特征数据用于指示用户在各个时刻的实际地理位置；

数据映射单元，用于对每个用户的时空特征数据进行栅格化处理，将所述时空特征数据转化为映射时空特征数据；

轨迹确定单元，用于根据每个用户的映射时空特征数据，确定每个用户的频繁轨迹；

地址确定单元，用于根据所述多个用户的频繁轨迹，确定待选址主体的备选地址。
根据权利要求8所述的设备，其特征在于，所述数据映射单元，用于：

对于每一个用户，将所述用户的时空特征数据按照周期进行划分，得到所述用户在n个周期内的时空特征数据，所述n为大于1的整数；

对于所述n个周期中的每一个周期，根据所述用户在所述周期内的时空特征数据，确定所述用户在所述周期所包括的k个时间段中的每一个时间段内所处的实际地理位置，所述k为大于1的整数；

获取所述用户在每一个时间段内所处的实际地理位置对应的代表性地理位置，所述代表性地理位置所代表的空间区域中包括所述实际地理位置；

其中，每个用户的映射时空特征数据包括每个用户在n个周期内的映射时空特征数据，在一个周期内的映射时空特征数据包括在所述周期所包括的每一个时间段内的代表性地理位置。
根据权利要求9所述的设备，其特征在于，所述数据映射单元，用于：

对于每一个时间段，将所述用户在所述时间段内所处的实际地理位置的经度坐标与第一预设值相除并对商取整，得到所述用户在所述时间段内的代表性地理位置的经度坐标；

将所述用户在所述时间段内所处的实际地理位置的纬度坐标与第二预设值相除并对商取整，得到所述用户在所述时间段内的代表性地理位置的纬度坐标。
根据权利要求9所述的设备，其特征在于，所述数据映射单元，用于：

获取所述用户在所述周期所包括的k个时间段中的每一个时间段内的时空特征数据；

对于每一个时间段，当所述用户在所述时间段内的时空特征数据指示同一实际地理位置时，将所述同一实际地理位置确定为所述用户在所述时间段内所处的实际地理位置；

当所述用户在所述时间段内的时空特征数据指示多个不同的实际地理位置时，将被指示的数量最多的实际地理位置确定为所述用户在所述时间段内所处的实际地理位置。
根据权利要求9所述的设备，其特征在于，所述轨迹确定单元，用于：

对于每一个用户，获取所述用户在每一个周期内的映射时空特征数据对应的序列，所述序列中的每一个元素表示所述用户在一个时间段内所处的代表性地理位置；

根据所述用户在所述n个周期对应的n个序列，获取每一个子序列在所述n个序列中的出现次数；

选取符合第一预设条件的子序列作为频繁序列，并将所述频繁序列对应的映射时空特征数据确定为所述用户的频繁轨迹，其中，所述第一预设条件包括：出现次数大于第一阈值、子序列中包含的元素数量大于第二阈值中的第一项或全部两项。
根据权利要求8至12任一项所述的设备，其特征在于，所述地址确定单元，用于：

根据所述多个用户的频繁轨迹，构建轨迹标签库，其中，所述轨迹标签库包括所述多个用户的轨迹标签数据，每一个用户的轨迹标签数据包括：用户标识和至少一个频繁轨迹；

基于所述轨迹标签库，根据第二预设条件确定所述待选址主体的备选地址。
根据权利要求13所述的设备，其特征在于，所述设备还包括：

位置获取单元，用于根据所述用户的频繁轨迹，获取所述用户在工作时段内的位置信息；

信息获取单元，用于获取与所述位置信息对应的信息点POI信息；

身份确定单元，用于根据所述POI信息确定所述用户的身份标签，其中，所述用户的轨迹标签数据中还包括所述用户的身份标签。
一种计算机存储介质，其特征在于，所述计算机存储介质中存储有可执行指令，所述可执行指令用于执行如权利要求1至7任一项所述的方法。
一种选址设备，其特征在于，所述设备包括处理器和存储器，其中，

所述存储器中存有计算机可读程序；

所述处理器通过运行所述存储器中的程序，以用于完成上述权利要求1至7任一项所述的方法。