CN110363591B - 一种归属站点识别方法、装置、设备及可读存储介质 - Google Patents

一种归属站点识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110363591B
CN110363591B CN201910655000.8A CN201910655000A CN110363591B CN 110363591 B CN110363591 B CN 110363591B CN 201910655000 A CN201910655000 A CN 201910655000A CN 110363591 B CN110363591 B CN 110363591B
Authority
CN
China
Prior art keywords
data
psam
card
subway
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910655000.8A
Other languages
English (en)
Other versions
CN110363591A (zh
Inventor
何仕晔
谢侃
张旭升
谢胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910655000.8A priority Critical patent/CN110363591B/zh
Publication of CN110363591A publication Critical patent/CN110363591A/zh
Application granted granted Critical
Publication of CN110363591B publication Critical patent/CN110363591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种归属站点识别方法,该方法包括:获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;利用第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据创建特征用户表;获取第二时段内的第二PSAM交易数据并对第二PSAM交易数据进行分割,获得每一条交易流水数据;利用特征用户表对交易流水数据进行投票,获得与各个交易流水数据匹配的第二地铁PSAM卡归属站点数据。该方法能够准确快速的推算PSAM卡归属站点。本发明还公开了一种归属站点识别装置、设备及可读存储介质,具有相应的技术效果。

Description

一种归属站点识别方法、装置、设备及可读存储介质
技术领域
本发明涉及智能交通技术领域,特别是涉及一种归属站点识别方法、装置、设备及可读存储介质。
背景技术
城市交通一卡通的普及,使得其相关的公司拥有了海量的电子支付数据,如今,数据显得尤为重要,对数据本身的挖掘与拓展让数据变得更有价值和意义。目前,很多基于一卡通数据的分析、研究,例如:公共交通搭乘质量效率的评估分析、客流时空特征分析、站点优化分析、用户出行特征分析、用户OD分析、用户画像等都十分需要用户刷卡站点数据。但是一卡通的数据并不包含该站点数据。而刷卡闸机终端信息有各分散的交通运营企业拥有维护,且地铁终端所属站点信息由地铁运营公司掌握。一般来说交通运营企业并不会无偿提供自己掌握的数据。因此,一卡通运营企业从交通运营企业获取地铁运营公司获取地铁终端所属站点数据需要较高的成本。
一卡通数据包含的进出站刷卡闸机终端编号,也即PSAM卡ID,是地铁闸机终端的终端安全控制模块的数据芯片的ID,用户验证用户卡的合法性同时也保护终端机的扣款行为。地铁运营公司拥有的地铁终端所属站点数据也即PSAM卡ID对应的站点数据。由于一张PSAM并不会一直固定在一个站点,偶尔会有位置的变动,因此导致了不同时间段内,同一个PSAM卡会对应不同的站点。也就是说,即便一卡通运营企业获得了一段时期内PSAM卡所属站点数据,也只具有短期的时效,而要想长期从地铁运营公司获取PSAM卡所属站点信息则需要十分高的成本。对于PSAM卡所属站点信息也可通过人工采集的方法获取,但是人工采集十分耗时耗力,而且由于PSAM卡位置的变动,使得采集需要长期不断的进行,其代价同样巨大。
对于地铁PSAM卡归属站点的问题,已有的解决方案有如下:
基于关键站点的PSAM卡归属站点识别:对每个站点寻找其关联的关键站点(可以为多个),该关键站点具有如下性质:关键站点到该站点的票价(或票价组合,由一卡通数据获取)与关键站点到别的站点的票价不同,具有唯一性,因此当一个PSAM卡到一个或一组关键站点的票价(或票价组合)等于该关键站点到某一站点的票价时,则该PSAM卡则归属于该站点。虽然这种方式在关键站点确定后,能很快确定PSAM卡所属站点,效率很高,运用十分灵活。但是仍然存在如下问题:
a.该方式依赖关键站点,但关键站点与待求取站点之间并不一定存在交易流水,可能导致无法关联。
b.该发明依赖关键站点,而分析求取一个站点对应的关键站点是一个十分复杂的计算过程,需要对所有站点之间的票价组合进行穷举求取,十分耗费计算资源与计算时间,若设备条件不足,甚至有可能会导致无法分析完成。
c.若当地新开通地铁站点时,所有关键站点需要重新求取,同样会耗费大量的计算资源。
d.若站点间票价发生变动,所有关键站点需要重新求取。
综上所述,如何有效地解决地铁PSAM卡归属站点等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种归属站点识别方法、装置、设备及可读存储介质,可在无需依赖关键站点的情况下,确定地铁PSAM卡的归属站点。
为解决上述技术问题,本发明提供如下技术方案:
一种归属站点识别方法,包括:
获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;
利用所述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据创建特征用户表;
获取第二时段内的第二PSAM交易数据并对所述第二PSAM交易数据进行分割,获得每一条交易流水数据;
利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据。
优选地,利用所述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据创建特征用户表,包括:
对所述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据的进站数据和出站数据分别进行统计,获得第一进站特征用户子表和第一出站特征用户子表。
优选地,利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据,包括:
在所述第一进站特征用户子表中查询所述交易流水数据对应的进站站点投票得分;
在所述第一出站特征用户子表中查询所述交易流水数据对应的出站站点投票得分;
对所述进站站点投票得分和所述出站站点投票得分进行统计,获得所述第二地铁PSAM卡归属站点数据。
优选地,利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据,包括:
结合所述特征用户表并利用站点得分模型对所述交易流水数据进行投票,获得PSAM卡对应的推导站点;
将所述推导站点确定为地铁PSAM卡归属站点;
其中,所述站点得分模型为:
Figure BDA0002136594770000031
为目标PID对应目标用户进站刷卡的时间段,n为所述目标PID当天交易数据的条数,F(x)为评分函数;tij为所述特征用户表中j时段目标用户在目标站点刷卡次数,α、β为参数值。
优选地,将所述推导站点确定为地铁PSAM卡归属站点,包括:
判断所述目标PID对应的推导站点是否为1个;其中,所述地铁PSAM卡具有一个对应的PID;
如果是,则将所述推导站点确定为所述地铁PSAM卡归属站点;
如果否,则选取特征用户刷卡次数最多站点作为所述地铁PSAM卡归属站点。
优选地,所述获取第二时段内的第二PSAM交易数据,包括:
获取所述第二时段内地铁一卡通交易数据,并将所述地铁一卡通交易数据作为所述第二PSAM交易数据;其中,所述地铁一卡通交易数据包括:***、进站刷卡时间、进站刷卡闸机终端对应的PID、出站刷卡时间、出站刷卡闸机终端对应的PID、交易金额、原始票价和余额。
优选地,还包括:
利用所述第二地铁PSAM卡归属站点数据和第二PSAM交易数据对所述特征用户表进行更新;
利用更新后的所述特征用户表进行公共交通搭乘质量效率的评估分析,客流时空特征分析,站点优化分析,用户出行特征分析,用户OD分析和用户画像中的至少一种分析处理,获得相应分析结果。
一种归属站点识别装置,包括:
数据获取模块,用于获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;
特征用户表获取模块,用于对利用述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据创建特征用户表;
PSAM交易数据处理模块,用于获取第二时段内的第二PSAM交易数据并对所述第二PSAM交易数据进行分割,获得每一条交易流水数据;
地铁站点匹配模块,用于利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据。
一种归属站点识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述归属站点识别方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述归属站点识别方法的步骤。
应用本发明实施例所提供的方法,获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;利用第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据创建特征用户表;获取第二时段内的第二PSAM交易数据并对第二PSAM交易数据进行分割,获得每一条交易流水数据;利用特征用户表对交易流水数据进行投票,获得与各个交易流水数据匹配的第二地铁PSAM卡归属站点数据。
获取一段时间内真实可靠的地铁PSAM卡归属站点数据以及对应匹配的PSAM交易数据,便可获得特征用户表。然后便可基于该特征用户表对第二时段内的第二PSAM交易数据进行处理,预估得到第二地铁PSAM卡归属站点数据,站点匹配过程中无需直接获取真实的PSAM交易数据即可完成站点匹配。即,该方法在拥有一段时期内正确的PSAM卡归属站点数据之后,能够准确快速的推算PSAM卡归属站点,为一卡通交易数据进行维度的扩展,让一卡通公司拥有更多数据储备,并为客流时空特征分析、站点优化分析、用户出行特征分析、用户OD分析、用户画像等之类的一卡通数据的挖掘研究提供数据支持与基础。
相应地,本发明实施例还提供了与上述归属站点识别方法相对应的归属站点识别装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种归属站点识别方法的实施流程图;
图2为本发明实施例中一种归属站点识别方法的具体流程示意图;
图3为本发明实施例中一种归属站点识别装置的结构示意图;
图4为本发明实施例中一种归属站点识别设备的结构示意图;
图5为本发明实施例中一种归属站点识别设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种归属站点识别方法的流程图,该方法包括以下步骤:
S101、获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据。
在本发明实施例中第一时段和第二时段指两个不同的时段,两个时段无先后时间限定,对于两个时段所对应的时长也不做限定(可优选设置为相同时长),例如当第一时段指2019年3月,第二时段可指2019年5月,即时段对应时长为1个月(当然也可设置为一周、一天等时长,考虑到用户乘坐公交在小于24小时时,重复行为较少,优选设置为一天及以上的时长)。
在实际应用中,为了保障站点匹配的可靠性,第一时段内的第一地铁PSAM卡归属站点真实数据可从地铁运营公司获得,以保障其真实可靠。对于第一PSAM交易数据则可直接将一卡通地铁交易数据作为第一PSAM交易数据。另外,在本申请中第一时段内对应的地铁PSAM卡归属站点数据则称之为第一地铁PSAM卡归属站点真实数据,第一时段内对应的PSAM交易数据则称之为第一PSAM交易数据。相应地,第二时段内所获取的地铁PSAM卡归属站点数据即为第二地铁PSAM卡归属站点数据,第二时段内对应的PSAM交易数据则称之为第二PSAM交易数据。需要说明的是,对于第一PSAM交易数据与第二PSAM交易数据其区别仅在于其对应的不同时段的刷卡数据;而对于第一地铁PSAM卡归属站点真实数据和第二地铁PSAM卡归属站点数据而言,其区别包括:1、对应时段不同;2,第一地铁PSAM卡归属站点真实数据为真实的地铁PSAM卡归属站点数据,而第二地铁PSAM卡归属站点数据为基于本发明实施例所提供的站点匹配方法所预测或估计确定得到的地铁PSAM卡归属站点数据。对于地铁PSAM卡归属站点数据即为具有站点归属信息的数据,而PSAM交易数据则可为包括地铁刷卡闸机终端(包括进站和出站地铁刷机闸机)的编号即PSAM卡的PID号,交易金额、进站或出站刷卡时间的数据。
S102、利用第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据创建特征用户表。
具体的,可通过对第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据进行统计,可得用户刷卡站点和时间的统计结果。在本发明实施例中将该统计表称之为特征用户表。
例如,以2019年1月的地铁PSAM卡归属站点信息,匹配一卡通交易数据,得到各个***刷卡站点的信息,由此构建特征用户表。
优选地,为提高分析速度可优选分为进站特征用户子表、出站特征用户子表。即,对第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据的进站数据和出站数据分别进行统计,获得第一进站特征用户子表和第一出站特征用户子表。其中,进站特征用户表如表1所示,出站特征用户表与进站特征用户表字段一样,分为两表可便于数据处理,提高分析速度,也便于对PSAM卡进行区别分析:
表1进站特征用户表
*** 月份 6点 7点 ... 17点
***1 201901 a站:8次 a站:16次 ... b站:22次
***2 201901 a站:1点 a站:20次 ... c站:21次
该特征用户表包含201901所有用户在各个小时内的进站站点名与刷卡次数。受限于学习、工作、生活等原因,通常人们地铁出行的路线和出行时间(进出站的时间和站点)会受到约束,体现在地铁PSAM交易数据上,可会发现同一个用户的每天或每周的交易记录会保持一定范围内。也就是说,特征用户表的理论依据为:大多数一卡通用户的在某一段时间内的刷卡站点为相对固定的,由此可以根据用户的刷卡站点可以推算识别其刷卡数据中PSAM卡ID(以下简称为PID,每个PSAM卡与PID一一对应)对应的站点,具体推算识别步骤由下文详细说明。
S103、获取第二时段内的第二PSAM交易数据并对第二PSAM交易数据进行分割,获得每一条交易流水数据。
在获取并需要对第二时段内的第二PSAM交易数据进行站点归属确定时,可先将第二PSAM交易数据进行分割,得到每一条交易流水数据。交易流水数据即包括进站时间、进站PID、出站时间、出站PID等信息是交易数据。具体的分割依据可基于一卡通***进行区别,并将进站数据与出站数据进行两两匹配。
具体的,可获取第二时段内地铁一卡通交易数据,并将地铁一卡通交易数据作为第二PSAM交易数据;其中,地铁一卡通交易数据包括:***、进站刷卡时间、进站刷卡闸机终端对应的PID、出站刷卡时间、出站刷卡闸机终端对应的PID、交易金额、原始票价和余额。当然,为了便于分析站点匹配,还可将地铁一卡通交易数据中与站点匹配无关的字段去除,如余额。
S104、利用特征用户表对交易流水数据进行投票,获得与各个交易流水数据匹配的第二地铁PSAM卡归属站点数据。
得到每一条交易流水数据之后,便可通过查询特征用户表的方式对可能归属的站点进行投票(即评分)。基于投票结果得到与各个交易数据匹配的第二地铁PSAM卡归属站点数据。
其中,站点匹配过程,包括:
步骤一、结合特征用户表并利用站点得分模型对交易流水数据进行投票,获得PSAM卡对应的推导站点;
步骤二、将推导站点确定为地铁PSAM卡归属站点;
其中,站点得分模型为:
Figure BDA0002136594770000081
为目标PID对应目标用户进站刷卡的时间段,n为目标PID当天交易数据的条数,F(x)为评分函数;tij为特征用户表中j时段目标用户在目标站点刷卡次数,α、β为参数值。
优选地,当特征用户表具体为两个表时,投票过程可具体包括:
步骤一、在第一进站特征用户子表中查询交易流水数据对应的进站站点投票得分;
步骤二、在第一出站特征用户子表中查询交易流水数据对应的出站站点投票得分;
步骤三、对进站站点投票得分和出站站点投票得分进行统计,获得第二地铁PSAM卡归属站点数据。
PSAM卡识别按时间段分析的,下面以按天为单位进行分析对投票进行站点匹配进行详细说明。
在对一卡通交易数据按天分割后,再对每一天的地铁交易数据按照进出站PID(每一条交易数据都包含PID字段)进行分割,在一天的一卡通交易数据中提取包含某PID的交易数据,对该PID进行归属站点识别。由于一条交易流水包含两个PID(进/出站),因此可对交易数据进行进/出站两种分析,交易流水可使用的字段表如下表2:
表2交易数据可使用字段
*** 进站刷卡时间 进站PID 出站刷卡时间 出站PID
***1 20190201072423 07864136 20190200801722 04864125
***2 20190201080232 07864136 20190201091005 00683692
... ... ... ... ...
对进站PID归属站点匹配需要使用的字段为:***、进站刷卡时间、进站PID;对出站PID归属站点匹配需要使用的字段为:***、出站刷卡时间、出站PID。
以进站PID为例。对于某PID一天内的交易数据,获取每一条交易数据的***,查询进站特征用户表,进行PSAM卡归属站点的投票,投票规则如下:
各个***根据刷卡数据以及其各个小时段内的刷卡站点的次数进行投票,即让每个***判定该PSAM卡属于哪个站点。不同的站点会有不同的得分,得分最高的站点则认为是刷卡进站站点。站点得分模型为:
Figure BDA0002136594770000091
Figure BDA0002136594770000092
其中,x表示该PID对应用户进站刷卡的小时,n表示该PID当天交易数据的条数,F(x)为评分函数,可根据实际数据需求自行定义或由算法推导。tij表示特征用户表中j小时用户在该站点刷卡次数,α、β需要使用算法训练得到最优参数值。
以下对公式进行举例说明:根据表二,***1的刷卡时间段为7点。结合表一,计算***1对进站刷卡站点的打分为:
a站点得分:
Figure BDA0002136594770000101
其中,省略号表示用户特征表中其他小时段内在a站点刷卡次数代入F(x)得到的式子。
b站点得分:
Figure BDA0002136594770000102
其中省略号表示用户特征表中其他小时段内在b站点刷卡次数代入F(x)得到的式子。
而***2对进站刷卡站点打分为:a站点得分:
Figure BDA0002136594770000103
c站点得分:
Figure BDA0002136594770000104
若表2中进站PID为07864136的交易数据仅如表2所示的两条,则最终站点得分为:
a站点:scorea=scorea1+scorea2
b站点:scoreb=scoreb1
c站点:scorec=scorec2
得分最高的即进站PID为07864136归属的推导站点。
其中,将推导站点确定为地铁PSAM卡归属站点,请参考图2,图2为本发明实施例中一种归属站点识别方法的具体流程示意图,包括:
判断目标PID对应的推导站点是否为1个;其中,地铁PSAM卡具有一个对应的PID;
如果是,则将推导站点确定为地铁PSAM卡归属站点;
如果否,则选取特征用户刷卡次数最多站点作为地铁PSAM卡归属站点。
图2中,推导站点即为得到最高的站点。
若有多个站点拥有相同得分,则计算交易数据中各个***在特征用户表中各个站点(得分相同的站点)当前小时段的刷卡次数的总和,和最大的站点即为PSAM卡归属站点。在实际应用时,当拥有足够的数据以及投票模型的特殊性,多个站点拥有相同得分的情况几乎不会发生。
应用本发明实施例所提供的方法,获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;第一地铁PSAM卡归属站点真实数据为真实数据;利用第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据创建特征用户表;获取第二时段内的第二PSAM交易数据并对第二PSAM交易数据进行分割,获得每一条交易流水数据;查询特征用户表对交易流水数据进行投票,获得与各个交易流水数据匹配的第二地铁PSAM卡归属站点数据。
获取一段时间内真实可靠的地铁PSAM卡归属站点数据以及对应匹配的PSAM交易数据,便可获得特征用户表。然后便可基于该特征用户表对第二时段内的第二PSAM交易数据进行处理,预估得到第二地铁PSAM卡归属站点数据,站点匹配过程中无需直接获取真实的PSAM交易数据即可完成站点匹配。即,该方法在拥有一段时期内正确的PSAM卡归属站点数据之后,能够准确快速的推算PSAM卡归属站点,为一卡通交易数据进行维度的扩展,让一卡通公司拥有更多数据储备,并为客流时空特征分析、站点优化分析、用户出行特征分析、用户OD分析、用户画像等之类的一卡通数据的挖掘研究提供数据支持与基础。
优选地,在完成PSAM卡归属站点匹配之后,可对特征用户表进行更新。即,利用第二地铁PSAM卡归属站点数据和第二PSAM交易数据对特征用户表进行更新。
在本发明实施例中在进行站点归属匹配之后,还可利用第二地铁PSAM卡归属站点数据和第二PSAM交易数据对特征用户表进行更新。更新后的特征用户表仍然可以用于进行站点归属匹配,具体实现过程可具体参见上述过程。
优选地,在利用第二地铁PSAM卡归属站点数据和第二PSAM交易数据对特征用户表进行更新之后,还可以利用特征用户表进行公共交通搭乘质量效率的评估分析,客流时空特征分析,站点优化分析,用户出行特征分析,用户OD分析和用户画像中的至少一种分析处理,获得相应分析结果。对于如何基于特征用户表进行数据分析,可具体参照现有的如何基于地铁PSAM卡归属站点数据和PSAM交易数据进行数据分析的具体实现过程,在此不再一一赘述。
实施例二:
相应于上面的方法实施例,本发明实施例还提供了一种归属站点识别装置,下文描述的归属站点识别装置与上文描述的归属站点识别方法可相互对应参照。
参见图3所示,该装置包括以下模块:
数据获取模块101,用于获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;
特征用户表获取模块102,用于利用第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据创建特征用户表;
PSAM交易数据处理模块103,用于获取第二时段内的第二PSAM交易数据并对第二PSAM交易数据进行分割,获得每一条交易流水数据;
地铁站点匹配模块104,用于利用特征用户表对交易流水数据进行投票,获得与各个交易流水数据匹配的第二地铁PSAM卡归属站点数据;
应用本发明实施例所提供的装置,获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;第一地铁PSAM卡归属站点真实数据为真实数据;利用第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据创建特征用户表;获取第二时段内的第二PSAM交易数据并对第二PSAM交易数据进行分割,获得每一条交易流水数据;查询特征用户表对交易流水数据进行投票,获得与各个交易流水数据匹配的第二地铁PSAM卡归属站点数据。
获取一段时间内真实可靠的地铁PSAM卡归属站点数据以及对应匹配的PSAM交易数据,便可获得特征用户表。然后便可基于该特征用户表对第二时段内的第二PSAM交易数据进行处理,预估得到第二地铁PSAM卡归属站点数据,站点匹配过程中无需直接获取真实的PSAM交易数据即可完成站点匹配。即,该装置在拥有一段时期内正确的PSAM卡归属站点数据之后,能够准确快速的推算PSAM卡归属站点,为一卡通交易数据进行维度的扩展,让一卡通公司拥有更多数据储备,并为客流时空特征分析、站点优化分析、用户出行特征分析、用户OD分析、用户画像等之类的一卡通数据的挖掘研究提供数据支持与基础。
在本发明的一种具体实施方式中,特征用户表获取模块102,具体用于对第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据的进站数据和出站数据分别进行统计,获得第一进站特征用户子表和第一出站特征用户子表。
在本发明的一种具体实施方式中,地铁站点匹配模块104,具体用于在第一进站特征用户子表中查询交易流水数据对应的进站站点投票得分;在第一出站特征用户子表中查询交易流水数据对应的出站站点投票得分;对进站站点投票得分和出站站点投票得分进行统计,获得第二地铁PSAM卡归属站点数据。
在本发明的一种具体实施方式中,地铁站点匹配模块104,具体用于结合特征用户表并利用站点得分模型对交易流水数据进行投票,获得PSAM卡对应的推导站点;将推导站点确定为地铁PSAM卡归属站点;
其中,站点得分模型为:
Figure BDA0002136594770000131
为目标PID对应目标用户进站刷卡的时间段,n为目标PID当天交易数据的条数,F(x)为评分函数;tij为特征用户表中j时段目标用户在目标站点刷卡次数,α、β为参数值。
在本发明的一种具体实施方式中,地铁站点匹配模块104,具体用于判断目标PID对应的推导站点是否为1个;其中,地铁PSAM卡具有一个对应的PID;
如果是,则将推导站点确定为地铁PSAM卡归属站点;
如果否,则选取特征用户刷卡次数最多站点作为地铁PSAM卡归属站点。
在本发明的一种具体实施方式中,PSAM交易数据处理模块103,具体用于获取第二时段内地铁一卡通交易数据,并将地铁一卡通交易数据作为第二PSAM交易数据;其中,地铁一卡通交易数据包括:***、进站刷卡时间、进站刷卡闸机终端对应的PID、出站刷卡时间、出站刷卡闸机终端对应的PID、交易金额、原始票价和余额。
在本发明的一种具体实施方式中,还包括:
特征用户表更新模块,用于利用第二地铁PSAM卡归属站点数据和第二PSAM交易数据对特征用户表进行更新;
数据分析挖掘模块,用于在利用第二地铁PSAM卡归属站点数据和第二PSAM交易数据对特征用户表进行更新之后,利用特征用户表进行公共交通搭乘质量效率的评估分析,客流时空特征分析,站点优化分析,用户出行特征分析,用户OD分析和用户画像中的至少一种分析处理,获得相应分析结果。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种归属站点识别设备,下文描述的一种归属站点识别设备与上文描述的一种归属站点识别方法可相互对应参照。
参见图4所示,该归属站点识别设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的归属站点识别方法的步骤。
具体的,请参考图5,图5为本实施例提供的一种归属站点识别设备的具体结构示意图,该归属站点识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在归属站点识别设备301上执行存储介质330中的一系列指令操作。
归属站点识别设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作***341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的归属站点识别方法中的步骤可以由归属站点识别设备的结构实现。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种归属站点识别方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的归属站点识别方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (10)

1.一种归属站点识别方法,其特征在于,包括:
获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;
利用所述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据创建特征用户表;其中,所述特征用户表为用户刷卡站点和时间的统计结果的统计表;
获取第二时段内的第二PSAM交易数据并对所述第二PSAM交易数据进行分割,获得每一条交易流水数据;
利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据。
2.根据权利要求1所述的归属站点识别方法,其特征在于,利用所述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据创建特征用户表,包括:
对所述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据的进站数据和出站数据分别进行统计,获得第一进站特征用户子表和第一出站特征用户子表。
3.根据权利要求2所述的归属站点识别方法,其特征在于,利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据,包括:
在所述第一进站特征用户子表中查询所述交易流水数据对应的进站站点投票得分;
在所述第一出站特征用户子表中查询所述交易流水数据对应的出站站点投票得分;
对所述进站站点投票得分和所述出站站点投票得分进行统计,获得所述第二地铁PSAM卡归属站点数据。
4.根据权利要求1所述的归属站点识别方法,其特征在于,利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据,包括:
结合所述特征用户表并利用站点得分模型对所述交易流水数据进行投票,获得PSAM卡对应的推导站点;
将所述推导站点确定为地铁PSAM卡归属站点;
其中,所述站点得分模型为:
Figure FDA0003542509520000021
x为目标PID对应目标用户进站刷卡的时间段,n为所述目标PID当天交易数据的条数,F(x)为评分函数;tij为所述特征用户表中j时段目标用户在目标站点刷卡次数,α、β为参数值;所述PID为PSAM卡的ID。
5.根据权利要求4所述的归属站点识别方法,其特征在于,将所述推导站点确定为地铁PSAM卡归属站点,包括:
判断所述目标PID对应的推导站点是否为1个;其中,所述地铁PSAM卡具有一个对应的PID;
如果是,则将所述推导站点确定为所述地铁PSAM卡归属站点;
如果否,则选取特征用户刷卡次数最多站点作为所述地铁PSAM卡归属站点。
6.根据权利要求1所述的归属站点识别方法,其特征在于,所述获取第二时段内的第二PSAM交易数据,包括:
获取所述第二时段内地铁一卡通交易数据,并将所述地铁一卡通交易数据作为所述第二PSAM交易数据;其中,所述地铁一卡通交易数据包括:***、进站刷卡时间、进站刷卡闸机终端对应的PID、出站刷卡时间、出站刷卡闸机终端对应的PID、交易金额、原始票价和余额;其中,所述PID为PSAM卡的ID。
7.根据权利要求1至6任一项所述的归属站点识别方法,其特征在于,还包括:
利用所述第二地铁PSAM卡归属站点数据和第二PSAM交易数据对所述特征用户表进行更新;
利用更新后的所述特征用户表进行公共交通搭乘质量效率的评估分析,客流时空特征分析,站点优化分析,用户出行特征分析,用户OD分析和用户画像中的至少一种分析处理,获得相应分析结果。
8.一种归属站点识别装置,其特征在于,包括:
数据获取模块,用于获取第一时段内具有匹配关系的第一地铁PSAM卡归属站点真实数据和第一PSAM交易数据;
特征用户表获取模块,用于对利用述第一地铁PSAM卡归属站点真实数据和所述第一PSAM交易数据创建特征用户表;其中,所述特征用户表为用户刷卡站点和时间的统计结果的统计表;
PSAM交易数据处理模块,用于获取第二时段内的第二PSAM交易数据并对所述第二PSAM交易数据进行分割,获得每一条交易流水数据;
地铁站点匹配模块,用于利用所述特征用户表对所述交易流水数据进行投票,获得与各个所述交易流水数据匹配的第二地铁PSAM卡归属站点数据。
9.一种归属站点识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述归属站点识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述归属站点识别方法的步骤。
CN201910655000.8A 2019-07-19 2019-07-19 一种归属站点识别方法、装置、设备及可读存储介质 Active CN110363591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655000.8A CN110363591B (zh) 2019-07-19 2019-07-19 一种归属站点识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655000.8A CN110363591B (zh) 2019-07-19 2019-07-19 一种归属站点识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110363591A CN110363591A (zh) 2019-10-22
CN110363591B true CN110363591B (zh) 2022-05-10

Family

ID=68220376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655000.8A Active CN110363591B (zh) 2019-07-19 2019-07-19 一种归属站点识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110363591B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463364A (zh) * 2014-12-04 2015-03-25 中国科学院深圳先进技术研究院 一种地铁乘客实时分布和地铁实时密度预测方法及***
JP2015219716A (ja) * 2014-05-16 2015-12-07 日本電信電話株式会社 降車駅予測方法、降車駅予測装置および降車駅予測プログラム
CN109409563A (zh) * 2018-09-07 2019-03-01 北明软件有限公司 一种公交运营车辆实时人数的分析方法、***和存储介质
CN109410568A (zh) * 2018-09-18 2019-03-01 广东中标数据科技股份有限公司 基于用户画像和换乘规律的下车站点推测方法及***
CN109636458A (zh) * 2018-12-07 2019-04-16 北京恒泰实达科技股份有限公司 一种轨道交通用户画像生成方法
CN109903555A (zh) * 2019-02-22 2019-06-18 北京理工新源信息科技有限公司 一种基于大数据的公交乘客下车数据预测方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219716A (ja) * 2014-05-16 2015-12-07 日本電信電話株式会社 降車駅予測方法、降車駅予測装置および降車駅予測プログラム
CN104463364A (zh) * 2014-12-04 2015-03-25 中国科学院深圳先进技术研究院 一种地铁乘客实时分布和地铁实时密度预测方法及***
CN109409563A (zh) * 2018-09-07 2019-03-01 北明软件有限公司 一种公交运营车辆实时人数的分析方法、***和存储介质
CN109410568A (zh) * 2018-09-18 2019-03-01 广东中标数据科技股份有限公司 基于用户画像和换乘规律的下车站点推测方法及***
CN109636458A (zh) * 2018-12-07 2019-04-16 北京恒泰实达科技股份有限公司 一种轨道交通用户画像生成方法
CN109903555A (zh) * 2019-02-22 2019-06-18 北京理工新源信息科技有限公司 一种基于大数据的公交乘客下车数据预测方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A study on bus passenger travel origin and destination based on spatio-temporal data fusion analysis;S.W. LI 等;《Advances in Transportation Studies》;20170131;第31-38页 *
基于一卡通数据的公交站点识别方法分析与研究;谢振东 等;《广东工业大学学》;20190131;第36卷(第1期);第23-28页 *
基于公交IC卡和GPS数据的公交OD量推算研究;邓红星 等;《重庆理工大学学报(自然科学)》;20190630;第33卷(第6期);第220-226页 *

Also Published As

Publication number Publication date
CN110363591A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN108566618B (zh) 获取用户驻留规律的方法、装置、设备及存储介质
CN110276977B (zh) 一种公交站点匹配方法、装置、设备及可读存储介质
US20050240465A1 (en) System and method for workforce requirements management
CN110400215B (zh) 面向企业家族的小微企业信用评估模型构建方法及***
CN109784970B (zh) 一种基于afc乘客乘车数据的服务推荐方法及装置
CN110751828A (zh) 一种路段拥堵测量方法、装置、计算机设备及存储介质
CN109522190B (zh) 异常用户行为识别方法及装置、电子设备、存储介质
Tavassoli et al. Modelling passenger waiting time using large-scale automatic fare collection data: An Australian case study
CN108446795A (zh) 电力***负荷波动分析方法、装置及可读存储介质
CN108733774B (zh) 一种基于大数据的失业人口动态监测方法
CN103970752A (zh) 独立访问者数量估算方法和***
CN111598333A (zh) 客流数据的预测方法及装置
CN107657357B (zh) 数据的处理方法及装置
CN110889092A (zh) 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法
CN111414719A (zh) 地铁站周边特征提取、交通需求估计方法及装置
CN110363591B (zh) 一种归属站点识别方法、装置、设备及可读存储介质
CN110446161B (zh) 一种用户身份识别方法、装置、设备及存储介质
CN113190795A (zh) 统计实际管理人口数据的方法、装置、介质及设备
CN112699955A (zh) 一种用户分类方法、装置、设备及存储介质
Zhang et al. Dynamic time warp-based clustering: Application of machine learning algorithms to simulation input modelling
CN113516302B (zh) 业务风险分析方法、装置、设备及存储介质
CN113486933B (zh) 模型训练方法、用户身份信息预测方法及装置
CN112084408B (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN114219630A (zh) 服务风险预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant