CN107807997A - 基于大数据的用户画像构造方法、装置及计算设备 - Google Patents

基于大数据的用户画像构造方法、装置及计算设备 Download PDF

Info

Publication number
CN107807997A
CN107807997A CN201711092706.5A CN201711092706A CN107807997A CN 107807997 A CN107807997 A CN 107807997A CN 201711092706 A CN201711092706 A CN 201711092706A CN 107807997 A CN107807997 A CN 107807997A
Authority
CN
China
Prior art keywords
user
portrait
information
characteristic vector
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711092706.5A
Other languages
English (en)
Inventor
董健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201711092706.5A priority Critical patent/CN107807997A/zh
Publication of CN107807997A publication Critical patent/CN107807997A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的用户画像构造方法、装置、计算设备及计算机存储介质。其中方法包括:获取用户地理位置信息和用户操作应用程序的行为信息;根据用户地理位置信息生成位置点序列;利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量;利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量;基于用户地理位置特征向量和用户行为特征向量构造用户画像。本发明提供的技术方案,基于大数据构造的用户画像能够充分反映用户的特征,从而能够方便地根据用户画像为用户提供更精细化服务,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低的缺陷。

Description

基于大数据的用户画像构造方法、装置及计算设备
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据的用户画像构造方法、装置、计算设备及计算机存储介质。
背景技术
随着网络和信息技术的不断发展,各类平台应用而生,为了改善平台的各项功能,以方便平台为用户提供更好的服务,以及保护平台的利益,需要了解、分析用户的各项信息。目前,常通过构建用户画像的方式来了解用户的信息。
现有的用户画像构建方法,主要是根据用户的一元数据,例如,性别、年龄、职业、星座、身高、体重、购物类型、品牌偏好和/或收入等来构造用户画像,并未充分利用因互联网而产生的大数据,虽然利用一元数据所构造的用户画像能够对平台予以指导,但是并不能充分体现用户的特征,从而使得平台无法为用户提供精细化的服务,也无法在用户存在欺诈等行为时对保护平台利益。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于大数据的用户画像构造方法、装置、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种基于大数据的用户画像构造方法,包括:
获取用户地理位置信息和用户操作应用程序的行为信息;
根据用户地理位置信息生成位置点序列;
利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量;
利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量;
基于用户地理位置特征向量和用户行为特征向量构造用户画像。
可选地,根据用户地理位置信息生成位置点序列进一步包括:
将地理位置信息进行组合处理,生成位置信息轨迹;
基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列;
利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量进一步包括:
利用经过训练的时间递归神经网络对位置点序列进行序列学习,得到用户对应的用户地理位置特征向量。
可选地,利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量进一步包括:
根据行为信息得到用户操作应用程序的行为轨迹;
根据用户操作应用程序的行为轨迹,生成行为序列;
利用经过训练的时间递归神经网络对行为序列进行序列学习,得到用户行为特征向量。
可选地,方法还包括:根据用户地理位置信息生成位置一致性特征向量;
基于用户地理位置特征向量和用户行为特征向量构造用户画像进一步包括:
根据位置一致性特征向量对用户地理位置特征向量进行校验处理;
根据经过校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。
可选地,在构造用户画像之后,方法还包括:基于用户画像样本训练用户兴趣爱好模型;
将待分析用户的用户画像输入至用户兴趣爱好模型进行分析,得到该用户的兴趣爱好。
可选地,在构造用户画像之后,方法还包括:基于用户画像分析用户是否具有异常行为。
可选地,用户地理位置信息包括:IP信息、WIFI信息、基站信息和/或GPS信息。
可选地,行为信息包括:用户对应用程序的操作以及在应用程序的页面停留时间。
根据本发明的另一方面,提供了一种基于大数据的用户画像构造装置,包括:
获取模块,适于获取用户地理位置信息和用户操作应用程序的行为信息;
第一生成模块,适于根据用户地理位置信息生成位置点序列;
第一学习模块,适于利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量;
第二学习模块,适于利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量;
用户画像构造模块,适于基于用户地理位置特征向量和用户行为特征向量构造用户画像。
可选地,第一生成模块进一步包括:
组合处理单元,适于将地理位置信息进行组合处理,生成位置信息轨迹;
第一生成单元,适于基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列;
第一学习模块进一步适于:利用经过训练的时间递归神经网络对位置点序列进行序列学习,得到用户对应的用户地理位置特征向量。
可选地,第二学习模块进一步包括:
行为轨迹生成单元,适于根据行为信息得到用户操作应用程序的行为轨迹;
行为序列生成单元,适于根据用户操作应用程序的行为轨迹,生成行为序列;
第二学习单元,适于利用经过训练的时间递归神经网络对行为序列进行序列学习,得到用户行为特征向量。
可选地,装置还包括:第二生成模块,适于根据用户地理位置信息生成位置一致性特征向量;
用户画像构造模块进一步包括:
校验处理单元,适于根据位置一致性特征向量对用户地理位置特征向量进行校验处理;
用户画像构造单元,适于根据经过校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。
可选地,装置还包括:训练模块,适于基于用户画像样本训练用户兴趣爱好模型;
兴趣爱好分析模块,适于将待分析用户的用户画像输入至用户兴趣爱好模型进行分析,得到该用户的兴趣爱好。
可选地,装置还包括:异常行为分析模块,适于基于用户画像分析用户是否具有异常行为。
可选地,用户地理位置信息包括:IP信息、WIFI信息、基站信息和/或GPS信息。
可选地,行为信息包括:用户对应用程序的操作以及在应用程序的页面停留时间。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于大数据的用户画像构造方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于大数据的用户画像构造方法对应的操作。
根据本发明提供的方案,获取用户地理位置信息和用户操作应用程序的行为信息,根据用户地理位置信息生成位置点序列,利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量,利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量,基于用户地理位置特征向量和用户行为特征向量构造用户画像。本发明提供的技术方案,基于大数据构造的用户画像能够充分反映用户的特征,从而能够方便地根据用户画像为用户提供更精细化服务,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低的缺陷。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于大数据的用户画像构造方法的流程示意图;
图2示出了根据本发明另一个实施例的基于大数据的用户画像构造方法的流程示意图;
图3示出了根据本发明一个实施例的基于大数据的用户画像构造装置的结构程示意图;
图4示出了根据本发明另一个实施例的基于大数据的用户画像构造装置的结构程示意图;
图5示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于大数据的用户画像构造方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S100,获取用户地理位置信息和用户操作应用程序的行为信息。
其中,用户地理位置信息可以为用户终端上报的,可选地,本实施例中的用户地理位置信息可以包括以下信息中的一种或多种:IP信息、WIFI信息、基站信息、GPS信息,基于上述信息可以确定用户当前的地理位置,例如,基于IP地址可以确定出用户所在城市,基于基站信息可以确定出用户所在国家,基于GPS信息可以确定出街道信息等,举例说明,获取到某IP地址为118.119.85.36,根据所获取到的IP地址查询IP查询表,可以确定具体地地理位置为四川省资阳市,这里仅是举例说明不具有任何限定作用。根据上述四种信息都可以得到用户的地理位置,这里不再一一举例说明。
用户操作应用程序的行为信息指用户对应用程序进行操作时所产生的行为信息,这里的行为信息不仅包含具体的操作还包括在应用程序的页面所停留时间,根据用户操作应用程序的行为信息可以分析用户的行为是否友好,以及分析用户所关注的信息。
步骤S101,根据用户地理位置信息生成位置点序列。
在获取到用户地理位置信息后,可以根据该所获取的用户地理位置信息来生成位置点序列,在该位置点序列中,位置点的顺序尤为重要,是依据时间先后顺序而进行的排序,举例说明,通过获取一天中用户地理位置信息所生成的位置点序列为:北京→上海→三亚→北京,当然这里仅是举例说明不具有任何限定作用。
步骤S102,利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量。
在根据步骤S101得到位置点序列之后,可以利用第一深度学习算法对位置点序列进行学习,这里对位置点序列进行学习主要是为了得到用户地理位置特征向量,以通过向量形式表示用户地理位置信息,便于后续构造用户画像。
步骤S103,利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量。
在根据步骤S100得到用户操作应用程序的行为信息之后,可以利用第二深度学习算法对行为信息进行学习,这里对行为信息进行学习主要是为了得到用户行为特征向量,以通过向量形式表示用户操作应用程序的行为信息,便于后续构造用户画像。
步骤S104,基于用户地理位置特征向量和用户行为特征向量构造用户画像。
在根据步骤S102和步骤S103得到用户地理位置特征向量和用户行为特征向量之后,可以根据所得到的用户地理位置特征向量和用户行为特征向量来构造用户画像,该用户画像能够充分反映用户的特征,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低,无法为用户提供更精细化服务的缺陷。
根据本发明上述实施例提供的方法,获取用户地理位置信息和用户操作应用程序的行为信息,根据用户地理位置信息生成位置点序列,利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量,利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量,基于用户地理位置特征向量和用户行为特征向量构造用户画像。本发明提供的技术方案,基于大数据构造的用户画像能够充分反映用户的特征,从而能够方便地根据用户画像为用户提供更精细化服务,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低的缺陷。
图2示出了根据本发明另一个实施例的基于大数据的用户画像构造方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤S200,获取用户地理位置信息和用户操作应用程序的行为信息。
步骤S201,将地理位置信息进行组合处理,生成位置信息轨迹。
用户地理位置信息可以直观地反映用户位置变化情况,是分析用户行为的一种手段,分析单个的用户地理位置信息可能并不能发现任何异常,而若多个用户地理位置信息组合在一起分析,则很容易发现异常,例如,xx年xx月xx日,用户A的用户地理位置信息上午时为北京,中午时为上海,下午时为三亚,晚上时又变为北京,对于正常的情况,一用户不大可能在一天时间内穿梭于四个城市,对于这类情况,如果仅是根据单个用户地理位置信息是不能发现出问题的,而形成位置信息轨迹,则很容易发现问题,因此,基于位置信息轨迹构造用户画像能够提升用户画像的准确性。
具体地,在获取到地理位置信息后,根据地理位置信息确定用户所处的地理位置,每个地理位置被视为一个位置点,按照时间先后顺序将位置点用直线连接起来,形成位置信息轨迹。
步骤S202,基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列。
位置信息轨迹是由位置点组成的,根据位置信息轨迹上的位置点查询该位置点周围的信息,并获取位置点周围信息,例如机场信息、公司信息、商场信息等,根据位置点周围信息和地理位置信息生成位置点序列。
步骤S203,利用经过训练的时间递归神经网络对位置点序列进行序列学习,得到用户对应的用户地理位置特征向量。
本发明实施例中所用到的时间递归神经网络(LSTM)是基于大量的样本进行训练得到的,将所生成的位置点序列输入至时间递归神经网络,该时间递归神经网络对所获取到的位置点序列进行学习,生成用户地理位置特征向量。
步骤S204,根据行为信息得到用户操作应用程序的行为轨迹。
用户操作应用程序的行为信息可以直观地反映用户使用应用程序的情况,根据行为信息能够分析用户对应用程序的关注点,或者根据行为信息能够分析用户所进行的操作是否是一种友好的行为。
举例说明,一般的应用程序都要求用户注册账号后再使用应用程序提供的服务,而在用户注册之前,会向注册用户展示相应的免责声明,一般情况下,友好用户会阅读相应的免责声明,获知相应的注意事项,同时也能充分了解用户权益,然而对于一些非友好用户,其并不关注免责声明中都有哪些条款,而是希望快速完成注册,进入到应用程序内部的页面,进行操作,例如借款等。
很多情况下,分析单个的用户行为信息可能并不能发现任何异常,而若多个用户行为信息组合在一起分析,则很容易发现异常,因此,基于行为轨迹构造用户画像能够提升用户画像的准确性。
具体地,在获取到行为信息后,按照时间先后顺序将行为信息用直线连接起来,形成用户操作应用程序的行为轨迹。
步骤S205,根据用户操作应用程序的行为轨迹,生成行为序列。
行为轨迹是按照时间先后顺序将行为信息用直线连接起来的,因此,可以根据用户操作应用程序的行为轨迹,生成行为序列。
步骤S206,利用经过训练的时间递归神经网络对行为序列进行序列学习,得到用户行为特征向量。
本发明实施例中所用到的时间递归神经网络(LSTM)是基于大量的样本进行训练得到的,将所生成的行为序列输入至时间递归神经网络,该时间递归神经网络对所获取到的行为序列进行学习,生成用户行为特征向量。
步骤S207,根据用户地理位置信息生成位置一致性特征向量。
本实施例中的用户地理位置信息可以包括以下信息中的一种或多种:IP信息、WIFI信息、基站信息、GPS信息,但是有些信息用户是可以伪造的,例如,IP信息,用户可以伪造IP地址,如此根据IP信息所确定的用户地理位置就会不准确,所确定的用户地理位置不准确就会导致最终所构造的用户画像不准确,从而影响利用用户画像向用户提供服务的平台所提供的服务,因此,在获取到用户地理位置信息后,还需要根据用户地理位置信息生成位置一致性特征向量,一致性特征向量用于表示各地理位置的一致性,可以用于对用户地理位置特征向量进行校验。
本发明对步骤S201-步骤S203、步骤S204-步骤S206、步骤S207的执行顺序不做限定,步骤S201-步骤S203可以在步骤S204-步骤S206、步骤S207之前或之后执行,也可以同时执行步骤S201、步骤S204、步骤S207。
步骤S208,根据位置一致性特征向量对用户地理位置特征向量进行校验处理,得到校验处理后的用户地理位置特征向量。
具体地,可以根据位置一致性特征向量对用户地理位置特征向量进行校验,校验后的用户地理位置特征向量反映了真实的用户地理位置。
步骤S209,根据校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。
利用本发明提供的用户画像构建方法所构造的用户画像,可以被应用于各种平台,可以使平台更好的了解用户,从而为用户提供更精细化的服务,以提高用户的体验度,例如,可以应用于游戏平台,可以使游戏平台获知用户所感兴趣的游戏,从而有针对性地向用户推送游戏广告;还可应用于信贷公司,使得该信贷公司根据用户画像了解用户是否存在异常行为,了解用户征信记录,根据征信记录对用户提供相应的服务,例如,不向其放贷,或者根据记录确定放贷金额等。这里仅是举例说明,不具有任何限定作用。
在本发明可选实施方式中,在构造用户画像之后,方法还包括:基于用户画像样本训练用户兴趣爱好模型,将待分析用户的用户画像输入至用户兴趣爱好模型进行分析,得到该用户的兴趣爱好。
具体地,将利用本发明所提供的用户画像构造方法所构造的用户画像作为样本进行训练,得到输入为用户画像,输出为用户兴趣爱好的用户兴趣爱好模型,当需要分析某用户的兴趣爱好,利用本发明提供的用户画像构造方法构造该用户的用户画像,然后将所构造的用户画像输入至训练的用户兴趣爱好模型,利用该用户兴趣爱好模型分析得到该用户的兴趣爱好。在分析出用户的兴趣爱好之后,可以根据用户的兴趣爱好向用户推送相应的信息,例如,视频消息、游戏消息等,这里不再一一列举说明。
在本发明可选实施方式中,在构造用户画像之后,方法还包括:基于用户画像分析用户是否具有异常行为。
举例说明,随着网络技术的发展,目前推出了很多关于借贷的应用程序,例如,xx借条,用户可以在应用程序进行借款操作,再向用户放贷之前,应用程序所属公司需要进行风险评估,评估该用户的信用等,现有技术中,都是基于第三方提供的征信记录进行评判,然而,很多时候基于第三方数据的风控面临很多问题:1、第三方数据的数据覆盖率有限,很多目标用户无法覆盖;2、征信成本比较高,而且查第三方数据往往需要用户授权,用户体验差。利用本发明实施例提供的用户画像构造方法是基于大数据来构造用户画像,充分利用用户地理位置信息和用户操作应用程序的行为信息,避免用户伪造信息,所构造的用户画像更为真实地反映了用户信息,基于用户画像分析用户是否具有异常行为,能够对信贷公司予以指导。
根据本发明上述实施例提供的方法,获取用户地理位置信息和用户操作应用程序的行为信息,将地理位置信息进行组合处理,生成位置信息轨迹,基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列,利用经过训练的时间递归神经网络对位置点序列进行序列学习,得到用户对应的用户地理位置特征向量,根据行为信息得到用户操作应用程序的行为轨迹,根据用户操作应用程序的行为轨迹,生成行为序列,利用经过训练的时间递归神经网络对行为序列进行序列学习,得到用户行为特征向量,根据用户地理位置信息生成位置一致性特征向量,根据位置一致性特征向量对用户地理位置特征向量进行校验处理,根据经过校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。本发明提供的技术方案,基于大数据构造的用户画像能够充分反映用户的特征,从而能够方便地根据用户画像为用户提供更精细化服务,以及根据用户画像确定用户是否存在异常行为等,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低的缺陷。
图3示出了根据本发明一个实施例的基于大数据的用户画像构造装置的结构程示意图。如图3所示,该装置包括:获取模块300、第一生成模块310、第一学习模块320、第二学习模块330、用户画像构造模块340。
获取模块300,适于获取用户地理位置信息和用户操作应用程序的行为信息。
第一生成模块310,适于根据用户地理位置信息生成位置点序列。
第一学习模块320,适于利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量。
第二学习模块330,适于利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量。
用户画像构造模块340,适于基于用户地理位置特征向量和用户行为特征向量构造用户画像。
根据本发明上述实施例提供的装置,获取用户地理位置信息和用户操作应用程序的行为信息,根据用户地理位置信息生成位置点序列,利用第一深度学习算法对位置点序列进行学习,得到用户对应的用户地理位置特征向量,利用第二深度学习算法对行为信息进行学习,得到用户行为特征向量,基于用户地理位置特征向量和用户行为特征向量构造用户画像。本发明提供的技术方案,基于大数据构造的用户画像能够充分反映用户的特征,从而能够方便地根据用户画像为用户提供更精细化服务,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低的缺陷。
图4示出了根据本发明另一个实施例的基于大数据的用户画像构造装置的结构程示意图。如图4所示,该装置包括:获取模块400、第一生成模块410、第一学习模块420、第二学习模块430、第二生成模块440、用户画像构造模块450。
获取模块400,适于获取用户地理位置信息和用户操作应用程序的行为信息。
其中,用户地理位置信息包括:IP信息、WIFI信息、基站信息和/或GPS信息。行为信息包括:用户对应用程序的操作以及在应用程序的页面停留时间。
第一生成模块410进一步包括:组合处理单元411,适于将地理位置信息进行组合处理,生成位置信息轨迹.
第一生成单元412,适于基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列;
第一学习模块420进一步适于:利用经过训练的时间递归神经网络对位置点序列进行序列学习,得到用户对应的用户地理位置特征向量。
第二学习模块430进一步包括:行为轨迹生成单元431,适于根据行为信息得到用户操作应用程序的行为轨迹。
行为序列生成单元432,适于根据用户操作应用程序的行为轨迹,生成行为序列。
第二学习单元433,适于利用经过训练的时间递归神经网络对行为序列进行序列学习,得到用户行为特征向量。
第二生成模块440,适于根据用户地理位置信息生成位置一致性特征向量。
用户画像构造模块450进一步包括:校验处理单元451,适于根据位置一致性特征向量对用户地理位置特征向量进行校验处理;
用户画像构造单元452,适于根据经过校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。
在本发明一种可选实施方式中,装置还包括:训练模块460,适于基于用户画像样本训练用户兴趣爱好模型;
兴趣爱好分析模块470,适于将待分析用户的用户画像输入至用户兴趣爱好模型进行分析,得到该用户的兴趣爱好。
在本发明一种可选实施方式中,装置还包括:异常行为分析模块480,适于基于用户画像分析用户是否具有异常行为。
根据本发明上述实施例提供的装置,获取用户地理位置信息和用户操作应用程序的行为信息,将地理位置信息进行组合处理,生成位置信息轨迹,基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列,利用经过训练的时间递归神经网络对位置点序列进行序列学习,得到用户对应的用户地理位置特征向量,根据行为信息得到用户操作应用程序的行为轨迹,根据用户操作应用程序的行为轨迹,生成行为序列,利用经过训练的时间递归神经网络对行为序列进行序列学习,得到用户行为特征向量,根据用户地理位置信息生成位置一致性特征向量,根据位置一致性特征向量对用户地理位置特征向量进行校验处理,根据经过校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。本发明提供的技术方案,基于大数据构造的用户画像能够充分反映用户的特征,从而能够方便地根据用户画像为用户提供更精细化服务,以及根据用户画像确定用户是否存在异常行为等,克服了现有技术中仅依赖用户的一元数据,例如,年龄、性别、收入等构造用户画像而导致的用户画像质量低的缺陷。
本申请实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于大数据的用户画像构造方法。
图5示出了根据本发明一个实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述基于大数据的用户画像构造方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行上述任意方法实施例中的基于大数据的用户画像构造方法。程序510中各步骤的具体实现可以参见上述基于大数据的用户画像构造实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于大数据的用户画像构造设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于大数据的用户画像构造方法,包括:
获取用户地理位置信息和用户操作应用程序的行为信息;
根据所述用户地理位置信息生成位置点序列;
利用第一深度学习算法对所述位置点序列进行学习,得到用户对应的用户地理位置特征向量;
利用第二深度学习算法对所述行为信息进行学习,得到用户行为特征向量;
基于所述用户地理位置特征向量和所述用户行为特征向量构造用户画像。
2.根据权利要求1所述的方法,其中,所述根据用户地理位置信息生成位置点序列进一步包括:
将所述地理位置信息进行组合处理,生成位置信息轨迹;
基于位置信息轨迹上的位置点获取位置点周围信息,生成位置点序列;
所述利用第一深度学习算法对所述位置点序列进行学习,得到用户对应的用户地理位置特征向量进一步包括:
利用经过训练的时间递归神经网络对所述位置点序列进行序列学习,得到用户对应的用户地理位置特征向量。
3.根据权利要求1或2所述的方法,其中,所述利用第二深度学习算法对所述行为信息进行学习,得到用户行为特征向量进一步包括:
根据所述行为信息得到用户操作应用程序的行为轨迹;
根据用户操作应用程序的行为轨迹,生成行为序列;
利用经过训练的时间递归神经网络对所述行为序列进行序列学习,得到用户行为特征向量。
4.根据权利要求1-3任一项所述的方法,其中,所述方法还包括:根据所述用户地理位置信息生成位置一致性特征向量;
所述基于用户地理位置特征向量和用户行为特征向量构造用户画像进一步包括:
根据所述位置一致性特征向量对用户地理位置特征向量进行校验处理;
根据经过校验处理后的用户地理位置特征向量和用户行为特征向量构造用户画像。
5.根据权利要求1-4任一项所述的方法,其中,在构造用户画像之后,所述方法还包括:基于所述用户画像样本训练用户兴趣爱好模型;
将待分析用户的用户画像输入至用户兴趣爱好模型进行分析,得到该用户的兴趣爱好。
6.根据权利要求1-4任一项所述的方法,其中,在构造用户画像之后,所述方法还包括:基于所述用户画像分析用户是否具有异常行为。
7.根据权利要求1-6任一项所述的方法,其中,所述用户地理位置信息包括:IP信息、WIFI信息、基站信息和/或GPS信息。
8.一种基于大数据的用户画像构造装置,包括:
获取模块,适于获取用户地理位置信息和用户操作应用程序的行为信息;
第一生成模块,适于根据所述用户地理位置信息生成位置点序列;
第一学习模块,适于利用第一深度学习算法对所述位置点序列进行学习,得到用户对应的用户地理位置特征向量;
第二学习模块,适于利用第二深度学习算法对所述行为信息进行学习,得到用户行为特征向量;
用户画像构造模块,适于基于所述用户地理位置特征向量和所述用户行为特征向量构造用户画像。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于大数据的用户画像构造方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于大数据的用户画像构造方法对应的操作。
CN201711092706.5A 2017-11-08 2017-11-08 基于大数据的用户画像构造方法、装置及计算设备 Pending CN107807997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711092706.5A CN107807997A (zh) 2017-11-08 2017-11-08 基于大数据的用户画像构造方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711092706.5A CN107807997A (zh) 2017-11-08 2017-11-08 基于大数据的用户画像构造方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN107807997A true CN107807997A (zh) 2018-03-16

Family

ID=61591841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711092706.5A Pending CN107807997A (zh) 2017-11-08 2017-11-08 基于大数据的用户画像构造方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN107807997A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897801A (zh) * 2018-06-14 2018-11-27 青岛海信移动通信技术股份有限公司 用户行为确定方法及装置
CN109086377A (zh) * 2018-07-24 2018-12-25 江苏通付盾科技有限公司 设备画像的生成方法、装置及计算设备
CN110334936A (zh) * 2019-06-28 2019-10-15 阿里巴巴集团控股有限公司 一种信贷资质评分模型的构建方法、装置和设备
CN111079023A (zh) * 2019-12-30 2020-04-28 Oppo广东移动通信有限公司 目标帐户的识别方法、装置、终端及存储介质
CN111447465A (zh) * 2018-12-29 2020-07-24 北京奇虎科技有限公司 业务流状态可视化处理方法、装置及计算设备
CN111488899A (zh) * 2019-01-29 2020-08-04 杭州海康威视数字技术股份有限公司 特征提取方法、装置、设备及可读存储介质
CN112182434A (zh) * 2020-09-28 2021-01-05 北京红山信息科技研究院有限公司 一种用户画像的生成方法、***、设备和存储介质
CN112465565A (zh) * 2020-12-11 2021-03-09 加和(北京)信息科技有限公司 一种基于机器学习的用户画像预测的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1589560A (zh) * 2001-11-19 2005-03-02 意大利电信股份公司 检查内容传送网络的功能性的方法、相关***和计算机产品
CN104635281A (zh) * 2015-02-17 2015-05-20 南京信息工程大学 基于强天气过程校正的自动气象站数据质量控制方法
WO2016010835A1 (en) * 2014-07-15 2016-01-21 Microsoft Technology Licensing, Llc Prioritizing media based on social data and user behavior
CN105376752A (zh) * 2015-11-11 2016-03-02 中国联合网络通信集团有限公司 影响移动网络发展关键因素的确定方法和装置
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN107291841A (zh) * 2017-06-01 2017-10-24 广州衡昊数据科技有限公司 一种基于位置和用户画像智能匹配社交目标的方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1589560A (zh) * 2001-11-19 2005-03-02 意大利电信股份公司 检查内容传送网络的功能性的方法、相关***和计算机产品
WO2016010835A1 (en) * 2014-07-15 2016-01-21 Microsoft Technology Licensing, Llc Prioritizing media based on social data and user behavior
CN104635281A (zh) * 2015-02-17 2015-05-20 南京信息工程大学 基于强天气过程校正的自动气象站数据质量控制方法
CN105376752A (zh) * 2015-11-11 2016-03-02 中国联合网络通信集团有限公司 影响移动网络发展关键因素的确定方法和装置
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN107291841A (zh) * 2017-06-01 2017-10-24 广州衡昊数据科技有限公司 一种基于位置和用户画像智能匹配社交目标的方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
原娟娟等: "基于"用户画像"的农产品电商平台精准营销模式设计", 《电子商务》 *
黄文彬等: "数据驱动的移动用户行为研究框架与方法分析", 《情报科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897801A (zh) * 2018-06-14 2018-11-27 青岛海信移动通信技术股份有限公司 用户行为确定方法及装置
CN109086377A (zh) * 2018-07-24 2018-12-25 江苏通付盾科技有限公司 设备画像的生成方法、装置及计算设备
CN109086377B (zh) * 2018-07-24 2021-02-02 江苏通付盾科技有限公司 设备画像的生成方法、装置及计算设备
CN111447465A (zh) * 2018-12-29 2020-07-24 北京奇虎科技有限公司 业务流状态可视化处理方法、装置及计算设备
CN111488899A (zh) * 2019-01-29 2020-08-04 杭州海康威视数字技术股份有限公司 特征提取方法、装置、设备及可读存储介质
CN111488899B (zh) * 2019-01-29 2024-02-23 杭州海康威视数字技术股份有限公司 特征提取方法、装置、设备及可读存储介质
CN110334936A (zh) * 2019-06-28 2019-10-15 阿里巴巴集团控股有限公司 一种信贷资质评分模型的构建方法、装置和设备
CN110334936B (zh) * 2019-06-28 2023-09-29 创新先进技术有限公司 一种信贷资质评分模型的构建方法、装置和设备
CN111079023A (zh) * 2019-12-30 2020-04-28 Oppo广东移动通信有限公司 目标帐户的识别方法、装置、终端及存储介质
CN112182434A (zh) * 2020-09-28 2021-01-05 北京红山信息科技研究院有限公司 一种用户画像的生成方法、***、设备和存储介质
CN112465565A (zh) * 2020-12-11 2021-03-09 加和(北京)信息科技有限公司 一种基于机器学习的用户画像预测的方法及装置
CN112465565B (zh) * 2020-12-11 2023-09-26 加和(北京)信息科技有限公司 一种基于机器学习的用户画像预测的方法及装置

Similar Documents

Publication Publication Date Title
CN107807997A (zh) 基于大数据的用户画像构造方法、装置及计算设备
Bianchi et al. Industrial policy for the manufacturing revolution: Perspectives on digital globalisation
Mahajan et al. Diffusion of new products: Empirical generalizations and managerial uses
CN107862053A (zh) 基于用户关系的用户画像构造方法、装置及计算设备
CN107729560A (zh) 基于大数据的用户画像构造方法、装置及计算设备
Hawaldar et al. The study on digital marketing influences on sales for B2B start-ups in South Asia
CN105630946B (zh) 一种基于大数据的领域交叉推荐方法及装置
Mustafa et al. An integrated model of UTAUT2 to understand consumers' 5G technology acceptance using SEM-ANN approach
CN107798118A (zh) 基于大数据的用户画像构造方法、装置及计算设备
Liu et al. Simulating the conversion of rural settlements to town land based on multi-agent systems and cellular automata
CN113139140B (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
CN104718547A (zh) 顾客数据解析***
CN106909560B (zh) 兴趣点排序方法
CN109325845A (zh) 一种金融产品智能推荐方法及***
CN110942338A (zh) 一种营销赋能策略的推荐方法、装置和电子设备
Lee et al. Social preferences for small-scale solar photovoltaic power plants in South Korea: A choice experiment study
CN112070542B (zh) 信息转化率预测方法、装置、设备及可读存储介质
Caprioli et al. Supporting policy design for the diffusion of cleaner technologies: A spatial empirical agent-based model
Ahkamiraad et al. An agent-based model for zip-code level diffusion of electric vehicles and electricity consumption in New York City
CN115345530A (zh) 商场地址推荐方法、装置、设备及计算机可读存储介质
CN107077455A (zh) 釆用基于事件的流量评分确定流量质量
Becerra-Rozas et al. Embedded learning approaches in the whale optimizer to solve coverage combinatorial problems
CN113034168A (zh) 内容项投放方法、装置、计算机设备及存储介质
CN110335061A (zh) 交易模式画像建立方法、装置、介质及电子设备
Quan et al. An optimized task assignment framework based on crowdsourcing knowledge graph and prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180316

RJ01 Rejection of invention patent application after publication