CN113742605A - 时空关联关系的确定方法、装置、设备和存储介质 - Google Patents

时空关联关系的确定方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113742605A
CN113742605A CN202010474555.5A CN202010474555A CN113742605A CN 113742605 A CN113742605 A CN 113742605A CN 202010474555 A CN202010474555 A CN 202010474555A CN 113742605 A CN113742605 A CN 113742605A
Authority
CN
China
Prior art keywords
information
users
user
behavior
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010474555.5A
Other languages
English (en)
Inventor
陈国春
郑宇�
张钧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong City Beijing Digital Technology Co Ltd
Original Assignee
Jingdong City Beijing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong City Beijing Digital Technology Co Ltd filed Critical Jingdong City Beijing Digital Technology Co Ltd
Priority to CN202010474555.5A priority Critical patent/CN113742605A/zh
Publication of CN113742605A publication Critical patent/CN113742605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种时空关联关系的确定方法、装置、设备和存储介质。该方法包括:获取多个第一用户的行为数据,所述行为数据包括行为发生的时间信息和位置信息;确定多个第一用户的行为数据的特征信息;根据多个第一用户的行为数据的特征信息,通过预设模型确定多个第一用户之间的时空关联关系。本申请实施例实现了对多个用户的时空关联关系的确定。

Description

时空关联关系的确定方法、装置、设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种时空关联关系的确定方法、装置、设备和存储介质。
背景技术
人群的时空关联是指:对人群在具有时空性质的真实物理环境下发生的各类不同程度、不同类型的接触关联关系的抽象表述。
人群的时空关联是一类人与人之间的重要关系,描述了人与人间不同类型的、不同亲疏程度的、不同时长的接触关系或共处情况。例如,人群时空关联可以包括:同一个家庭的人的时空关联较为密切,或者,同一班次的乘客在同一密集空间具有时空关联,或者,在同一时间段就餐于同一餐馆的不同顾客之间,或者拼车的不同乘客之间发生有短暂的时空关联。人群时空关联关系在公共安全管控、社会治理、打击犯罪等方面均有潜在的应用价值。比如:在重大公共疫情事件中,挖掘出人员的时空关联和物理接触能够为追溯疫情的传播规律、追寻患者密切接触人员、社区疫情管控等多种难题的解决方案提供重要的关键线索。因此,对于本领域人员来说,如何确定人群时空关联关系是需要解决的问题。
发明内容
本申请提供一种时空关联关系的确定方法、装置、设备和存储介质,以实现确定人群时空关联关系。
第一方面,本申请提供一种时空关联关系的确定方法,包括:
获取多个第一用户的行为数据,所述行为数据包括行为发生的时间信息和位置信息;
确定所述多个第一用户的行为数据的特征信息;
根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系。
第二方面,本申请提供一种时空关联关系的确定装置,包括:
获取模块,用于获取多个第一用户的行为数据,所述行为数据包括行为发生的时间信息和位置信息;
确定模块,用于确定所述多个第一用户的行为数据的特征信息;
处理模块,用于根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。
第四方面,本申请实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。
本申请实施例提供的时空关联关系的确定方法、装置、设备和存储介质,获取多个第一用户的行为数据,其中行为数据包括行为发生的时间信息和位置信息;进而对行为数据进行统一处理,确定所述多个第一用户的行为数据的特征信息;最终根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系,实现了对多个用户的时空关联性的确定,而且准确度较高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的应用场景示意图;
图2是本申请提供的时空关联关系的确定方法一实施例的流程示意图;
图3是本申请提供的时空关联关系的确定方法另一实施例的流程示意图;
图4是本申请提供的方法一实施例的原理示意图;
图5是本申请提供的方法另一实施例的原理示意图;
图6是本申请提供的一实施例的时空关联关系分类的原理示意图;
图7是本申请提供的时空关联关系的确定装置一实施例的结构示意图;
图8是本申请提供的电子设备实施例的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例的应用场景进行介绍。
图1为本申请实施例提供的应用场景示意图。如图1所示,本申请实施例的应用场景中可以包括但不限于:电子设备11、服务器12和用户设备13。电子设备例如包括计算机、手机、平板电脑等。用户设备例如包括用户的终端设备,例如手机、平板电脑、电视等等。
其中,电子设备11和服务器12之间可以通过网络连接,服务器12和用户设备13之间也可以通过网络连接。
其中,服务器12可以为一个或多个,用户设备13可以为一个或多个,本申请实施例对此并不限定。
本申请实施例提供的方法可由一个电子设备如处理器执行相应的软件代码实现,也可由一个电子设备在执行相应的软件代码的同时,通过和服务器进行数据交互来实现。
在其他场景中,本申请实施例的方法也可以通过服务器执行,从其他一个或多个服务器中获取用户的业务数据。
大数据时代里各行各业积累了海量的业务数据,这些数据直接记录了业务相关的生产、消费和交易等行为和关系。当前,数据的价值已受到普遍的重视,除了业务价值,这些数据往往也蕴藏中业务之外许多价值,比如对业务涉及的人群的时空关联关系进行分析和规律挖掘。例如,人群时空关联可以包括如下几种情况:1)多个互为亲属的人居住于同一个住址,在家庭生活中发生较为亲近的接触,因此这是一类较密切的人群时空关联。2)多个互不相识的年轻人合租下一套房子,合租人员虽分享一部分的生活空间,但可能没有过多的密切接触,这种时空关联也可认为是一种群租关系。3)同一飞机航班的乘客,在机场候机室或飞机飞行过程中共处于同一密集空间内,尽管过程可能无直接交流,但分享同一空间的物理资源,并有可能有间接的接触。4)在同一时间段就餐于同一餐馆的不同顾客之间,或者拼车的不同乘客之间,都发生有短暂的时空关联。
人群时空关联关系在公共安全管控、社会治理、打击犯罪等方面均有潜在的应用价值。比如:在重大公共疫情事件中,挖掘出人员的时空关联和物理接触能够为追溯疫情的传播规律、追寻患者密切接触人员、社区疫情管控等多种难题的解决方案提供重要的关键线索;或者,在城市治理中,通过挖掘人群的时空关联关系和物理接触情况,能够更精准地了解城市人口的群租情况或其他类型的人员同住关系,为政府的人口管理政策、消防配置决策提供有用的线索。因此,对于本领域人员来说,如何确定人群时空关联关系是需要解决的问题。
在大多数应用场景下,时空关联关系挖掘的目的主要在于获知人群在某些高频、典型的稳定地址下是否存在关联性。
比如,面向驻点地址的人群关联关系挖掘。驻点地址是指人员存留超过一定时长或以高于一定频率出现过的稳定地址,常见的驻点地址主要包括三类:住址、办公场所、公共场所(包括消费场所),此三类关联关系包含了大多数用户在日常中最主要的时空关联。对应于上述三类驻点地址,在多数典型应用场景中,大部分的人群时空关联关系归纳为同住址人员的长时间密切关联、同办公场所的长时间共处关联和公共场所下短暂的共处关联。
本申请实施例的方法,通过对多个用户的包含时间信息和位置信息的行为数据进行处理,利用处理得到的特征信息通过预设模型,得到多个用户之间的时空关联关系,例如各个用户之间是否存在时空关联关系,若存在时空关联关系,则存在的时空关联关系的类型是哪种类型。
下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2是本申请提供的时空关联关系的确定方法一实施例的流程示意图。如图2所示,本实施例提供的方法,包括:
步骤101、获取多个第一用户的行为数据,行为数据包括行为发生的时间信息和位置信息。
具体的,可以从不同的业务服务器中获取多个第一用户的用户数据,例如电商平台的服务器、实体商户的服务器、通信网络服务器等。
一般地,用户数据往往带有时间戳,因此,对用户数据的主要考虑在于数据能否抽取出带有空间属性的信息,即位置信息。每种带有位置信息的数据源,往往是伴随着一定的用户行为而产生的。比如,通过网购或O2O消费服务而产生带有收货地址或线下消费地址的数据;用户通过电子支付而产生带有消费场所信息的数据;用户在终端设备登陆账号后进行各类操作时会产生一系列带有地址信息的报点定位数据;通过终端设备与基站连接会产生带有地理位置的通信数据;设备连接无线网络或有线网络会产生带有网络地址的联网数据等。
从大量的用户数据中获取到包括时间信息和位置信息的行为数据。
步骤102、确定多个第一用户的行为数据的特征信息。
具体的,由于不同的行为数据可能是不同来源的数据,多样化行为数据间可能呈现出异质化、特征缺失和非对齐等问题。因此,需要对行为数据进行整合,确定出行为数据的特征信息,便于后续的时空关联关系的分析。
步骤103、根据多个第一用户的行为数据的特征信息,通过预设模型确定多个第一用户之间的时空关联关系。
本步骤中,利用确定出的行为数据的特征信息,输入到预设模型,即可以确定出多个第一用户之间的时空关联关系。
其中,预设模型可以是根据采集的训练数据,对预先建立的机器学习模型进行训练得到的。
训练数据包括多个用户的多源用户数据,例如包括行为发生的时间信息和位置信息的行为数据。
在一实施例中,根据是否具有带标签的训练数据可分为基于专家***的模型和基于有监督机器学习算法的模型。在没有带标签训练数据情况下,根据具体应用场景制定专家规则策略,利用训练数据训练得到预设模型。在拥有带标签的训练数据的情况下,可以使用多种典型的有监督分类算法,比如:Logistic回归、贝叶斯分类、决策数以及集成树、神经网络分类模型等。对于不同用户、不同时间、不同地点、不同行为等行为数据,训练数据的样本特征可能存在缺失的情况,可以采用如XGBoost等可自动处理特征缺失值的方法进行建模。
例如,张某某2020年2月10日13点10分在XX路的xx饭店通过电子支付付账,李某某2020年2月10日13点00分在XX路的xx饭店通过电子支付付账,上述行为数据中包括了时间信息和位置信息,位置信息相同,时间信息相差较小说明两人之间存在时空关联关系。
本实施例的方法,获取多个第一用户的行为数据,其中行为数据包括行为发生的时间信息和位置信息;进而对行为数据进行统一处理,确定所述多个第一用户的行为数据的特征信息;最终根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系,实现了对多个用户的时空关联性的确定,而且准确度较高。
在上述实施例的基础上,步骤103可以通过如下方式实现:
根据各个所述第一用户的行为数据的特征信息,确定存在时空关联的多个第二用户;
根据所述多个第二用户的行为数据的特征信息,利用所述预设模型确定所述多个第二用户的时空关联关系的类型。
具体的,为了提高时空关联关系分析的准确度和效率,如图3所示,可以先从多个第一用户中确定存在时空关联的多个第二用户,例如在一预设时间段内某些用户的行为数据的特征信息中均具有相同的位置信息,则可以确定该些用户存在时空关联。
进而,将存在时空关联的用户的时空关联关系分类,例如将该些存在时空关联的用户的行为数据的特征信息,输入到预设模型中,确定出该些用户的时空关联关系的类型,即最终得到存在时空关联的人群及具体的时空关联关系类型。
例如,同住址人员的长时间密切关联、同办公场所的长时间共处关联或公共场所下短暂的共处关联。
上述实施方式中,先从多个第一用户中确定存在时空关联关系的第二用户,可以过滤掉冗余的特征信息,而且输入预设模型中的特征信息,具有存在时空关联关系的先验信息,可以更加快速准确的确定出时空关联关系的类型。
在一实施例中,如图3、图4所示,获取各个所述第一用户的多源数据;
对各个所述第一用户的多源数据进行分类处理,得到各个所述第一用户的分类数据,所述分类数据包括:所述行为数据;
所述确定各个所述第一用户的行为数据的特征信息,包括:
针对任一所述第一用户,对所述行为发生的时间信息和位置信息进行特征提取,得到特征信息。
常见的用户数据例如包含以下至少一项:用户的基本信息(性别、年龄、手机号等)、由用户基本信息和用户行为推理出的用户画像信息(职业类型、经济收入、消费水平等)、账号与账号的关联信息(泛社交关联和金融关联等)、账号与设备的登录关系、用户设备的网络连接(有线或无线网络)、用户设备的操作数据(例如包含报点定位数据)、用户设备与基站的通信连接、电商订单信息(下单用户与收货人、收货地址、商品信息和类别)、O2O服务订单信息(消费地址、服务商品类型)、电子支付信息(时间、地点)。
进行时空关联关系分析时,需要用到具有时空属性的行为数据,因此从多源和异质的用户数据中,进行分类处理,提炼出包含时间信息和位置信息的行为数据。进而将行为数据中的时间信息和位置信息进行特征提取得到特征信息,如位置特征信息和/或用户行为特征信息。
在其他实施例中,进一步对多源用户数据进行分类处理还可以得到以下至少一种信息:用户自身属性信息和用户关联信息,其中,用户关联信息可以是非时空属性的关联信息,即不具有时间信息和位置信息,从而将复杂的多源用户数据整合成人群时空关联关系分析需要的数据结构。
其中,行为数据包括以下至少一项:电商订单信息、线上到线下O2O服务订单信息、电子支付信息、用户设备的操作数据、用户设备的网络连接信息。
其中,包括行为发生的时间信息和位置信息的行为数据是分析人群时空关联的主要数据;用户自身属性信息和无时空属性的用户关联信息可以作为辅助数据,能从一定程度上反映出人群之间存在时空关联。
在一实施例中,如图5所示,以上分类数据的特征信息,例如包括以下至少一种特征信息:
用户自身属性信息的特征信息fpin、无直接时空属性的用户关联信息的特征信息fnst、行为数据的特征信息fst
在一实施例中,通过整合用户的基本信息和用户画像信息,可得到描述用户自身属性信息的特征信息,例如通过特征向量fpin表征。特征向量的维度取决于具体应用场景,一般地,可构建如下形式的特征向量:
fpin=[g,a,j,w,e]
其中,g,a,j和w分别表示用户的性别类型、年龄段、职业类型、经济收入等级,各特征维度带有一定程度的正交性;而e表示具体场景下拓展的用户属性特征。例如,乘坐飞机航班场景下,e可以表示飞机班次。在其他实施例中还可以增加或减少特征数量,本申请实施例对此并不限定。
在一实施例中,所述用户关联信息包括以下至少一项:不同用户账号之间的关联关系、不同用户账号与设备的登录关联信息。
表1数据示例
Figure BDA0002515443500000081
Figure BDA0002515443500000091
其中,表1中账号之间的关联关系通过{<pini,pinj,rij>}表示,pini表示用户i的属性信息,pinj表示用户j的属性信息,rij表示用户i和用户j的关联关系。
账号与设备的登录关联信息通过<pini,pinj,Deviceo>表示,pini表示用户i的属性信息,pinj表示用户j的属性信息,Deviceo表示用户i和用户j登录的设备的标识信息。
在一实施例中,用户关联信息的特征信息fnst可以通过{<pini,pinj,ri>},和/或,<pini,pinj,Deviceo>表征。
表1中,终端设备的报点数据地点Pi(loni,lati),loni表示经度,lati表示纬度。账号与连接的wifi网络,<pini,pinj,WIFIo>中WIFIo表示用户i和用户j连接的wifi网络的标识信息。
上述实施方式中,由于采用多源用户数据,因此信息来源更全面使得时空关联关系分析更准确,后续对数据进行分类处理,便于时空关联关系分析。
在一实施例中,如图5所示,行为数据的特征信息fst=[f1∪f2],其中,f1用于判断不同用户间是否存在时空关联,f2用于判断存在何种时空关联关系。
在一实施例中,行为数据的特征信息还可以通过位置特征信息faddr和/或用户行为特征信息faction表征。
在一实施例中,对包括行为发生的时间信息和位置信息的行为数据进行特征提取,可以通过如下至少一种方式实现:
一种方式:
提取行为数据中的位置信息,得到位置特征信息。
在一实施例中,位置特征信息包括以下至少一项:地理位置特征信息、位置的文本信息的语义特征、网络地址;
若位置信息包括位置的文本信息,则对所述行为发生的时间信息和位置信息进行特征提取,包括:
提取所述位置的文本信息的语义特征。
例如利用自然语言处理算法提取所述位置的文本信息的语义特征。
一般情况下,单源的数据难以提供全面的地址线索,确定的人群时空关联关系可能不够全面和准确,因此,融合多源用户数据的地址信息是提高时空关联关系挖掘的全面性和准确性的重要途径。
用户的网购订单信息、O2O服务交易信息、终端设备的报点数据、电子支付信息等等多种数据源记录了用户发生不同行为时所处的位置信息。因此,可以通过提取行为数据中的位置信息,得到位置特征信息。
在一实施例中,对于包含离散地点的行为数据,例如电商订单、O2O服务订单或电子支付信息,可以直接提取行为数据中的位置信息,得到位置特征信息。例如从电商订单、O2O服务订单或电子支付信息中抽取驻点地址。此类数据源中包含的地址信息一般是数量较少的离散地点,可以直接提取出位置信息。电商收货地址或O2O服务地址等一般包括地理位置信息(如经纬度)和位置的文本信息。因此,位置特征信息可以由经度、纬度和文本的语义特征拼接起来得到,如采用特征向量faddr=[fgeo,fsem]表示,其中,fgeo表示由经纬度组成的地理位置特征,fsem表示通过自然语言处理方法获得的关于地址文本的语义特征。
在另一实施例中,所述行为数据包括:用户设备的操作数据,可通过如下方式确定行为数据的特征信息:
根据所述用户设备的操作数据,获取所述第一用户对应的多个时间信息和对应的位置信息;
对多个所述位置信息按照至少一个第一预设时间窗口进行聚类,确定各个所述第一预设时间窗口对应的位置信息;
根据各个所述第一预设时间窗口对应的位置信息进行特征提取,得到所述第一用户的位置特征信息。
具体的,用户设备的操作数据例如包括用户的终端设备的报点数据。通常,终端设备的报点数据包含用户在终端设备进行各项操作时所记录的时间戳和经纬度。报点数据在时间维度的分布并非均匀的,一般呈现团簇分布特性,即,在用户进行相关操作的时间窗口内,报点数据收集得往往非常显著的密集;当用户不进行操作时,不会产生报点数据或只产生非常稀疏的报点数据。为了获得从杂乱的报点数据中抽取出用户的稳定驻点地址,可以通过对报点数据进行聚类获取驻点地址,并对驻点地址进行特征提取。例如可以对报点数据按一定时间窗口(如第一预设时间窗口)进行经纬度聚合,并将聚合后的经纬度按最近地理距离原则关联到最近的地理兴趣点(Point ofInterest,POI);然后将所关联的POI的经纬度赋值于聚合后的驻点地址的经纬度,由此获得基于报点数据的驻点地址。可以对收集的报点数据划分为多个第一预设时间窗口,对各个第一预设时间窗口的报点数据的位置信息分别聚类,得到各个第一预设时间窗口对应的位置信息,即驻点地址,进而提取特征信息,得到位置特征信息,该位置特征信息可以通过经纬度、地址文本信息的语义特征进行表示,即faddr=[fgeo,fsem],其中,fgeo表示由经纬度组成的地理位置特征,fsem表示通过自然语言处理方法获得的关于地址文本的语义特征。
另一种方式:
对行为数据中的行为进行统计,得到用户行为特征信息。
具体的,各类用户行为,如网购、终端设备登录账号后的各类操作、连接wifi、电子支付等)往往是异质的,需要进行特征统一处理,便于后续时空关联关系分析。本实施例中将各类异质的行为数据抽取出相同维度的特征信息用以表征用户的行为。
在一实施例中,根据所述行为发生的时间信息和位置信息,统计各个行为的发生时间、次数以及所属的行为类型;
根据各个行为的发生时间、次数,确定至少一个第二预设时间窗口内的行为频率;
根据各个所述第二预设时间窗口内的行为频率,以及各个行为所属的行为类型,得到所述行为数据的用户行为特征信息。
例如通过用户行为特征信息faction表示:
faction=[fre,τ,cl]
其中,fre表示行为频率,τ表示行为发生的时间段(即第二预设时间窗口),例如分为早、中、晚和夜间四类,或6-11点,11点-6点,6点-1点,1点-6点等时间段,cl表示行为类型(常见的具有时空属性的行为主要有网购、O2O订单服务、终端设备操作、电子支付和连接网络等行为类型)。用户行为特征信息不仅能够刻画出不同行为的差异,还能对行为数据中蕴含的地址类型有指示意义。例如,当一个用户行为特征信息为τ=夜间’,fre>>100,cl=’终端设备操作’时,对应的驻点地址很可能是住址,其中>>表示远大于。
上述实施方式中,对于不同的用户数据采用不同的方式提取特征,统一化的特征便于时空关联关系分析。
在一实施例中,步骤“确定存在时空关联的多个第二用户”可通过如下方式实现:
根据各个所述第一用户的位置特征信息,确定在第三预设时间窗口内地址相同的多个第二用户;
若存在地址相同的多个第二用户,则确定所述多个第二用户为存在时空关联的第二用户。
具体的,判断用户之间是否存在时空关联,可以通过确定在一定第三预设时间窗口内,不同用户是否在一个空间内共处,即是否在相同的地址。
根据实际应用场景,选定合适的第三预设时间窗口T,在第三预设时间窗口T内,判断不同用户的驻点地址addrt(t∈T)是否为相同的地址。如经纬度是否相同或差异较小,或文本描述相同,或文本的语义特征相同,或具有相同的网络地址等。
不同数据源或者同一数据源中不同用户,对同一地址可能有不一致的文本表述;同时,用户数据记录的地址的经纬度也可能存在一定程度的数值误差。因此,判断两个地址是否为相同地址不能仅依赖于经纬度或地址文本。在一实施例中,对各个所述第一用户的位置特征信息进行相似度计算;
若存在多个第二用户的位置特征信息的相似度大于预设阈值,则确定所述多个第二用户的地址为相同的地址。
具体的,本实施例中对位置特征信息f(addrt|t∈T)=[fgeo,fsem]进行相似度计算,对于相似度超过一定阈值的地址认定为相同地址,进而确认不同用户间是否存在时空关联性。
在一实施例中,若所述位置特征信息包括:网络地址,则确定存在时空关联的多个第二用户,包括:
若多个第二用户在第三预设时间窗口内处于同一网络地址,则确定所述多个第二用户为存在时空关联的多个第二用户。
具体的,对于某些由于不存在经纬度和文本信息的抽象地址(比如,设备连接的wifi等网络地址指代着某个真实地点),不存在形如faddr=[fgeo,fsem]的特征表达,可根据其实际数值形式进行相同地址判断。比如,如果两个用户在一定的时间窗口内连接于同一个wifi网络或小范围的局域网,可以确定用户存在时空关联性。
在一实施例中,为了提高准确度,若多个第二用户在第三预设时间窗口内处于同一网络地址的频次大于预设阈值,则确定所述多个第二用户为存在时空关联的多个第二用户。
例如,如果两个用户在一定的时间窗口内高于一定的频次连接于同一个wifi网络或小范围的局域网,则可以认定用户存在时空关联性。如一个家庭内的多个成员在一天之内多次连接于同一个wifi网络,可以确定该些成员存在时空关联性。
在一实施例中,若所述用户关联信息包括:不同用户账号与设备的登录关联信息;所述确定存在时空关联的多个第二用户,包括:
若多个第二用户的用户账号在第四预设时间窗口内登录于同一设备,则确定所述多个第二用户为存在时空关联的多个第二用户。
具体的,对于不存在时空属性的用户关联信息,也可以判断用户间是否存在时空关联性,若多个用户在预设时间窗口内登录于同一设备,则确定该多个用户存在时空关联。例如在某些家庭聚会中,客人使用主人的电脑,登录某游戏账号等。
本实施例中,通过确定是否有相同的地址进而确定是否存在时空关联性,准确度较高。
在一实施例中,步骤“通过所述预设模型得到所述多个第二用户的时空关联关系的类型”可以通过如下方式实现:
根据所述多个第二用户的用户自身属性信息的特征信息、位置特征信息以及用户间关联行为特征信息,通过所述预设模型得到所述多个第二用户的时空关联关系的类型;所述用户间关联行为特征信息包括:用户行为特征信息和所述用户关联信息的特征信息。
具体的,对于已确定存在关联的两个或多个用户,时空关联关系分析可以看作一种关系分类任务。
根据具体应用场景下定义适当的时空关联关系。例如,可以将时空关联关系定义为三种类别:同住址人员的长时间密切关联、同办公场所的长时间共处关联和公共场所下短暂的共处关联。
如图6所示,预设模型输入的特征集合,主要包括:相同地址的用户自身属性信息的特征集合{fpini}、位置特征信息faddr,以及用户间的关联行为特征{fij}。其中,fij可以包括用户行为特征信息faction和用户关联信息的特征信息fnst
预设模型的输出是时空关联关系类型为y,即求解目标为P(y|faddr,{fpini},{fij})
上述实施方式中,输入预设模型中的特征信息,为存在时空关联关系的用户的特征信息,具有存在时空关联关系的先验信息,可以更加快速准确的确定出时空关联关系的类型。
在上述实施例的基础上,进一步的,确定出多个第一用户的时空关联关系,即存在时空关联的多个第二用户,以及多个第二用户的时空关联关系的类型后,可以应用于疫情追踪等,如追寻患者密切接触人员、社区疫情管控等等。
图7为本申请提供的时空关联关系的确定装置一实施例的结构图,如图7所示,本实施例的时空关联关系的确定装置700,包括:
获取模块701,用于获取多个第一用户的行为数据,所述行为数据包括行为发生的时间信息和位置信息;
确定模块702,用于确定所述多个第一用户的行为数据的特征信息;
处理模块703,用于根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系。
在一种可能的实现方式中,处理模块703,具体用于:
根据各个所述第一用户的行为数据的特征信息,确定存在时空关联的多个第二用户;
根据所述多个第二用户的行为数据的特征信息,通过所述预设模型确定所述多个第二用户的时空关联关系的类型。
在一种可能的实现方式中,获取模块701,具体用于:
获取各个所述第一用户的多源用户数据;
对各个所述第一用户的多源用户数据进行分类处理,得到各个所述第一用户的分类数据,所述分类数据包括:所述行为数据;
确定模块702,具体用于:
针对任一所述第一用户,对所述行为发生的时间信息和位置信息进行特征提取,得到特征信息;所述特征信息包括位置特征信息和/或用户行为特征信息。
在一种可能的实现方式中,所述行为数据包括以下至少一项:电商订单信息、线上到线下O2O服务订单信息、电子支付信息、用户设备的操作数据、用户设备的网络连接信息。
在一种可能的实现方式中,所述位置特征信息包括以下至少一项:地理位置特征信息、位置的文本信息的语义特征、网络地址;
若所述位置信息包括位置的文本信息,则确定模块702,具体用于:
提取所述位置的文本信息的语义特征。
在一种可能的实现方式中,若所述行为数据包括:用户设备的操作数据,所述确定模块702,具体用于:
根据所述用户设备的操作数据,获取所述第一用户对应的多个时间信息和对应的位置信息;
对多个所述位置信息按照至少一个第一预设时间窗口进行聚类,确定各个所述第一预设时间窗口对应的位置信息;
根据各个所述第一预设时间窗口对应的位置信息进行特征提取,得到所述第一用户的位置特征信息。
在一种可能的实现方式中,确定模块702,具体用于:
根据所述行为发生的时间信息和位置信息,统计各个行为的发生时间、次数以及所属的行为类型;
根据各个行为的发生时间、次数,确定至少一个第二预设时间窗口内的行为频率;
根据各个所述第二预设时间窗口内的行为频率,以及各个行为所属的行为类型,得到所述行为数据的用户行为特征信息。
在一种可能的实现方式中,处理模块703,具体用于:
根据各个所述第一用户的位置特征信息,确定在第三预设时间窗口内地址相同的多个第二用户;
若存在地址相同的多个第二用户,则确定所述多个第二用户为存在时空关联的第二用户。
在一种可能的实现方式中,处理模块703,具体用于:
对各个所述第一用户的位置特征信息进行相似度计算;
若存在多个第二用户的位置特征信息的相似度大于预设阈值,则确定所述多个第二用户的地址为相同的地址。
在一种可能的实现方式中,若所述位置特征信息包括:网络地址,则处理模块703,具体用于:
若多个第二用户在第三预设时间窗口内处于同一网络地址,则确定所述多个第二用户为存在时空关联的多个第二用户。
在一种可能的实现方式中,处理模块703,具体用于:
若多个第二用户在第三预设时间窗口内处于同一网络地址的频次大于预设阈值,则确定所述多个第二用户为存在时空关联的多个第二用户。
在一种可能的实现方式中,所述分类数据还包括以下至少一项:用户自身属性信息、用户关联信息。
在一种可能的实现方式中,所述用户自身属性信息包括以下至少一项:性别类型、年龄段、职业类型、经济收入等级;
所述用户关联信息包括以下至少一项:不同用户账号之间的关联关系、不同用户账号与设备的登录关联信息。
在一种可能的实现方式中,若所述用户关联信息包括:不同用户账号与设备的登录关联信息;处理模块703,具体用于:
若多个第二用户的用户账号在第四预设时间窗口内登录于同一设备,则确定所述多个第二用户为存在时空关联的多个第二用户。
在一种可能的实现方式中,处理模块703,具体用于:
根据所述多个第二用户的用户自身属性信息的特征信息、位置特征信息以及用户间关联行为特征信息,通过所述预设模型得到所述多个第二用户的时空关联关系的类型;所述用户间关联行为特征信息包括:用户行为特征信息和所述用户关联信息的特征信息。
在一种可能的实现方式中,处理模块703,还用于:
利用训练数据,对预先建立的机器学习模型进行训练,得到所述预设模型;所述训练数据包括:多个用户的多源用户数据。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本申请提供的电子设备实施例的结构图,如图8所示,该电子设备包括:
处理器801,以及,用于存储处理器801的可执行指令的存储器802。
可选的,还可以包括:通信接口803,用于实现与其他设备的通信。
上述部件可以通过一条或多条总线进行通信。
其中,处理器801配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法,其具体实施过程可以参见前述方法实施例,此处不再赘述。
本申请实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法实施例中对应的方法,其具体实施过程可以参见前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (19)

1.一种时空关联关系的确定方法,其特征在于,包括:
获取多个第一用户的行为数据,所述行为数据包括行为发生的时间信息和位置信息;
确定所述多个第一用户的行为数据的特征信息;
根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系。
2.根据权利要求1所述的方法,其特征在于,根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系,包括:
根据各个所述第一用户的行为数据的特征信息,确定存在时空关联的多个第二用户;
根据所述多个第二用户的行为数据的特征信息,通过所述预设模型确定所述多个第二用户的时空关联关系的类型。
3.根据权利要求1或2所述的方法,其特征在于,所述获取多个第一用户的行为数据,包括:
获取各个所述第一用户的多源用户数据;
对各个所述第一用户的多源用户数据进行分类处理,得到各个所述第一用户的分类数据,所述分类数据包括:所述行为数据;
所述确定所述多个第一用户的行为数据的特征信息,包括:
针对任一所述第一用户,对所述行为发生的时间信息和位置信息进行特征提取,得到特征信息;所述特征信息包括位置特征信息和/或用户行为特征信息。
4.根据权利要求3所述的方法,其特征在于,所述行为数据包括以下至少一项:电商订单信息、线上到线下O2O服务订单信息、电子支付信息、用户设备的操作数据、用户设备的网络连接信息。
5.根据权利要求3所述的方法,其特征在于,所述位置特征信息包括以下至少一项:地理位置特征信息、位置的文本信息的语义特征、网络地址;
若所述位置信息包括位置的文本信息,则对所述行为发生的时间信息和位置信息进行特征提取,包括:
提取所述位置的文本信息的语义特征。
6.根据权利要求4所述的方法,其特征在于,若所述行为数据包括:用户设备的操作数据,所述对所述行为发生的时间信息和位置信息进行特征提取,得到特征信息,包括:
根据所述用户设备的操作数据,获取所述第一用户对应的多个时间信息和对应的位置信息;
对多个所述位置信息按照至少一个第一预设时间窗口进行聚类,确定各个所述第一预设时间窗口对应的位置信息;
根据各个所述第一预设时间窗口对应的位置信息进行特征提取,得到所述第一用户的位置特征信息。
7.根据权利要求3所述的方法,其特征在于,所述确定各个所述第一用户的行为数据的特征信息,包括:
根据所述行为发生的时间信息和位置信息,统计各个行为的发生时间、次数以及所属的行为类型;
根据各个行为的发生时间、次数,确定至少一个第二预设时间窗口内的行为频率;
根据各个所述第二预设时间窗口内的行为频率,以及各个行为所属的行为类型,得到所述行为数据的用户行为特征信息。
8.根据权利要求3所述的方法,其特征在于,所述确定存在时空关联的多个第二用户,包括:
根据各个所述第一用户的位置特征信息,确定在第三预设时间窗口内地址相同的多个第二用户;
若存在地址相同的多个第二用户,则确定所述多个第二用户为存在时空关联的第二用户。
9.根据权利要求8所述的方法,其特征在于,所述确定在第三预设时间窗口内地址相同的多个第二用户之前,还包括:
对各个所述第一用户的位置特征信息进行相似度计算;
若存在多个第二用户的位置特征信息的相似度大于预设阈值,则确定所述多个第二用户的地址为相同的地址。
10.根据权利要求5所述的方法,其特征在于,若所述位置特征信息包括:网络地址,则确定存在时空关联的多个第二用户,包括:
若多个第二用户在第三预设时间窗口内处于同一网络地址,则确定所述多个第二用户为存在时空关联的多个第二用户。
11.根据权利要求10所述的方法,其特征在于,所述确定所述多个第二用户为存在时空关联的多个第二用户,包括:
若多个第二用户在第三预设时间窗口内处于同一网络地址的频次大于预设阈值,则确定所述多个第二用户为存在时空关联的多个第二用户。
12.根据权利要求3所述的方法,其特征在于,
所述分类数据还包括以下至少一项:用户自身属性信息、用户关联信息。
13.根据权利要求12所述的方法,其特征在于,
所述用户自身属性信息包括以下至少一项:性别类型、年龄段、职业类型、经济收入等级;
所述用户关联信息包括以下至少一项:不同用户账号之间的关联关系、不同用户账号与设备的登录关联信息。
14.根据权利要求13所述的方法,其特征在于,若所述用户关联信息包括:不同用户账号与设备的登录关联信息;所述确定存在时空关联的多个第二用户,包括:
若多个第二用户的用户账号在第四预设时间窗口内登录于同一设备,则确定所述多个第二用户为存在时空关联的多个第二用户。
15.根据权利要求13所述的方法,其特征在于,所述根据所述多个第二用户的行为数据的特征信息,通过所述预设模型确定所述多个第二用户的时空关联关系的类型,包括:
根据所述多个第二用户的用户自身属性信息的特征信息、位置特征信息以及用户间关联行为特征信息,通过所述预设模型得到所述多个第二用户的时空关联关系的类型;所述用户间关联行为特征信息包括:用户行为特征信息和所述用户关联信息的特征信息。
16.根据权利要求1或2所述的方法,其特征在于,所述通过预设模型确定存在时空关联的多个第二用户的时空关联关系的类型之前,还包括:
利用训练数据,对预先建立的机器学习模型进行训练,得到所述预设模型;所述训练数据包括:多个用户的多源用户数据。
17.一种时空关联关系的确定装置,其特征在于,包括:
获取模块,用于获取多个第一用户的行为数据,所述行为数据包括行为发生的时间信息和位置信息;
确定模块,用于确定所述多个第一用户的行为数据的特征信息;
处理模块,用于根据所述多个第一用户的行为数据的特征信息,通过预设模型确定所述多个第一用户之间的时空关联关系。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-16任一项所述的方法。
19.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-16任一项所述的方法。
CN202010474555.5A 2020-05-29 2020-05-29 时空关联关系的确定方法、装置、设备和存储介质 Pending CN113742605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010474555.5A CN113742605A (zh) 2020-05-29 2020-05-29 时空关联关系的确定方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010474555.5A CN113742605A (zh) 2020-05-29 2020-05-29 时空关联关系的确定方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113742605A true CN113742605A (zh) 2021-12-03

Family

ID=78724566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010474555.5A Pending CN113742605A (zh) 2020-05-29 2020-05-29 时空关联关系的确定方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113742605A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446186A (zh) * 2018-09-27 2019-03-08 江苏大学 一种基于移动轨迹的社会关系判断方法
CN109522342A (zh) * 2018-11-30 2019-03-26 北京百度网讯科技有限公司 公安警务管理方法、装置、设备和存储介质
CN109753541A (zh) * 2018-12-10 2019-05-14 北京明略软件***有限公司 一种关系网络构建方法和装置、计算机可读存储介质
CN110837582A (zh) * 2019-11-28 2020-02-25 重庆紫光华山智安科技有限公司 数据关联方法、装置、电子设备和计算机可读存储介质
CN111192153A (zh) * 2019-12-19 2020-05-22 浙江大搜车软件技术有限公司 人群关系网络构建方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446186A (zh) * 2018-09-27 2019-03-08 江苏大学 一种基于移动轨迹的社会关系判断方法
CN109522342A (zh) * 2018-11-30 2019-03-26 北京百度网讯科技有限公司 公安警务管理方法、装置、设备和存储介质
CN109753541A (zh) * 2018-12-10 2019-05-14 北京明略软件***有限公司 一种关系网络构建方法和装置、计算机可读存储介质
CN110837582A (zh) * 2019-11-28 2020-02-25 重庆紫光华山智安科技有限公司 数据关联方法、装置、电子设备和计算机可读存储介质
CN111192153A (zh) * 2019-12-19 2020-05-22 浙江大搜车软件技术有限公司 人群关系网络构建方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US20190180358A1 (en) Machine learning classification and prediction system
CN102930025B (zh) 用于处理大数据的属性和区间的***和方法
WO2017202006A1 (zh) 数据处理方法和装置、计算机存储介质
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
CN107086922B (zh) 一种用户行为识别方法和装置
JP6911603B2 (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
JP6276106B2 (ja) 意思決定支援システムおよび意思決定支援方法
CN110135978B (zh) 用户金融风险评估方法、装置、电子设备和可读介质
CN112269805A (zh) 数据处理方法、装置、设备及介质
US9635507B2 (en) Mobile device analytics
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
Xu et al. Sume: Semantic-enhanced urban mobility network embedding for user demographic inference
Anand et al. Clustering of big data in cloud environments for smart applications
WO2018223271A1 (en) Systems and methods for providing recommendations based on seeded supervised learning
CN109829593B (zh) 目标对象的信用度确定方法、装置、存储介质及电子装置
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
CN107948312B (zh) 一种以位置点作为信息出入口的信息归类发布方法及***
US20170109670A1 (en) Crowd-Based Patterns for Identifying Executions of Business Processes
JP2021177284A (ja) 複数の投稿時系列データを用いた異常・変化推定方法、プログラム及び装置
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及***
Sinnott et al. Urban traffic analysis using social media data on the cloud
CN113742605A (zh) 时空关联关系的确定方法、装置、设备和存储介质
Wei et al. SP-Loc: A crowdsourcing fingerprint based shop-level indoor localization algorithm integrating shop popularity without the indoor map
CN113076308A (zh) 一种时空大数据服务***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination