CN111538751A - 物联网数据的标签化用户画像生成***及方法 - Google Patents

物联网数据的标签化用户画像生成***及方法 Download PDF

Info

Publication number
CN111538751A
CN111538751A CN202010209582.XA CN202010209582A CN111538751A CN 111538751 A CN111538751 A CN 111538751A CN 202010209582 A CN202010209582 A CN 202010209582A CN 111538751 A CN111538751 A CN 111538751A
Authority
CN
China
Prior art keywords
user
category
users
target
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010209582.XA
Other languages
English (en)
Other versions
CN111538751B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Terminus Technology Co Ltd
Original Assignee
Chongqing Terminus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Terminus Technology Co Ltd filed Critical Chongqing Terminus Technology Co Ltd
Priority to CN202010209582.XA priority Critical patent/CN111538751B/zh
Publication of CN111538751A publication Critical patent/CN111538751A/zh
Application granted granted Critical
Publication of CN111538751B publication Critical patent/CN111538751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了物联网数据的标签化用户画像生成***,其中,用户组生成模块用于基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组,初始标签建立模块用于建立对象和对象联系的结构化体系,并向对象和对象联系填充物联网数据,从而为该用户组建立初始标签,初始标签泛化模块用于对初始标签进行泛化得到泛化标签,用户组画像生成模块用于基于泛化标签生成用户组画像,进而得到目标用户画像。该***通过进行用户关系扩展,将包括目标用户在内的具有相似属性、场景、行为的多个用户聚集为一个用户组,并以用户组的画像来作为目标用户的画像,扩大了物联网数据的数据量级,增高了频次。

Description

物联网数据的标签化用户画像生成***及方法
技术领域
本申请涉及用户画像构建技术领域,特别涉及物联网数据的标签化用户画像生成***及方法。
背景技术
用户画像是一个独立的描述用户需求、偏好和兴趣的用户模型,是从海量的***数据中提取个人数据的信息集合。建立用户画像的过程中,建立标签是不和或缺的一个步骤。标签是对用户在某个维度下的特征,进行分类性、概况性的描述,标签化的用户画像是用一系列的、多个维度下的标签实现对用户描述的数据体系。
目前,标签的提取以及用户画像的生成,主要是通过互联网平台收集的与用户相关的互联网大数据来实现的,例如用户的消费购买记录、对新闻、文章、广告的浏览记录、多媒体观看记录乃至输入法的输入词汇记录、在搜索引擎的检索关键词记录等。在大数据基础上,针对各个维度通过提取、统计和挖掘,获得标签。用户画像可以用于适配该用户的产品、广告推荐、个性化内容推送等。
而随着物联网的普及,在智能写字楼、智慧家庭、智能汽车等现实的物联网空间中的各类传感器、摄像头、智能化设备等不断采集、生成物联网数据,这些物联网数据也与用户直接关联。利用物联网数据生成标签化的用户画像,可以实现适配该用户的室内环境调控、设备工作模式设置、附加功能推送等。
但是,对于在物联网数据的基础上实现标签化用户画像来说,首先物联网数据的数据量级和累积速率明显更低,用户在物联网空间的行为、场景的频度也低很多,另外物联网数据的变化可能性空间没有互联网平台的数据那么大,因此用户的潜在属性和兴趣偏好不容易分析,因此难以通过现有的特征提取和规律挖掘手段来获得准确描述用户特征的标签。
发明内容
(一)申请目的
基于此,为了针对整个用户组的物联网数据,进行标签化用户画像的生成,解决物联网数据的数据量级小、发生频次低的问题,从而通过标签化的用户画像实现对物联网空间内的用户特征的描述,本申请公开了以下技术方案。
(二)技术方案
一方面,提供了一种物联网数据的标签化用户画像生成***,包括:
用户组生成模块,用于基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组;
初始标签建立模块,用于建立对象和对象联系的结构化体系,并向所述对象和对象联系填充所述物联网数据,从而为该用户组建立初始标签;
初始标签泛化模块,用于对所述初始标签进行泛化得到泛化标签;
用户组画像生成模块,用于基于所述泛化标签生成用户组画像,进而得到目标用户画像;其中,
所述特征包括属性特征、行为特征、场景特征中的至少一项。
在一种可能的实施方式中,所述用户组生成模块包括:
关键词提取单元,用于提取用户产生的物联网数据的特征类别,得到类别关键词;
向量生成单元,用于对所述类别关键词进行频次统计,得到用户的特征类别向量;
相似度计算单元,用于对目标用户和非目标用户的所述特征类别向量进行相似度计算,将相似度满足要求的非目标用户作为与目标用户的特征相似的其他用户。
在一种可能的实施方式中,所述相似度计算单元通过以下公式进行所述相似度计算:
Figure BDA0002422350840000031
其中,u1和u2分别为目标用户和非目标用户,
u1=(n11,n12,…,n1m),u2=(n21,n22,…,n2m),nij为第i个用户的第j类类别关键词的词频,m为类别关键词的种类数量。
在一种可能的实施方式中,该***还包括:
用户画像更新模块,用于更新目标用户的特征类别向量,基于更新后的目标用户特征类别计算目标用户对各类别关键词的历史兴趣度,并基于历史兴趣度通过以下公式对用户画像进行更新:
newinst=(oldinst)×exp(-cool×Texist)
其中,newinst为当前兴趣度,oldinst为历史兴趣度,cool为冷却系数,Texist为发生类别关键词指代的特征所发生后距当前时刻的时长。
在一种可能的实施方式中,该***还包括:
行为分析模块,用于获取用户组内各用户进行所述特征类别活动的近度、频度和强度,基于所述近度、频度和强度对用户组内的各用户进行聚类分析,得到用户类别,并针对不同用户类别预测用户流失率,基于所述用户流失率对不同用户类别的用户实施相应配合用户进行特征类别活动的策略。
另一方面,还提供了一种物联网数据的标签化用户画像生成方法,包括:
基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组;
建立对象和对象联系的结构化体系,并向所述对象和对象联系填充所述物联网数据,从而为该用户组建立初始标签;
对所述初始标签进行泛化得到泛化标签;
基于所述泛化标签生成用户组画像,进而得到目标用户画像;其中,
所述特征包括属性特征、行为特征、场景特征中的至少一项。
在一种可能的实施方式中,所述基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,包括:
获取用户产生的物联网数据的特征类别,得到类别关键词;
对所述类别关键词进行频次统计,得到用户的特征类别向量;
对目标用户和非目标用户的所述特征类别向量进行相似度计算,将相似度满足要求的非目标用户作为与目标用户的特征相似的其他用户。
在一种可能的实施方式中,通过以下公式进行所述相似度计算:
Figure BDA0002422350840000041
其中,u1和u2分别为目标用户和非目标用户,
u1=(n11,n12,…,n1m),u2=(n21,n22,…,n2m),nij为第i个用户的第j类类别关键词的词频,m为类别关键词的种类数量。
在一种可能的实施方式中,该方法还包括:
更新目标用户的特征类别向量,基于更新后的目标用户特征类别计算目标用户对各类别关键词的历史兴趣度,并基于历史兴趣度通过以下公式对用户画像进行更新:
newinst=(oldinst)×exp(-cool×Texist)
其中,newinst为当前兴趣度,oldinst为历史兴趣度,cool为冷却系数,Texist为发生类别关键词指代的特征所发生后距当前时刻的时长。
在一种可能的实施方式中,该方法还包括:
获取用户组内各用户进行所述特征类别活动的近度、频度和强度,基于所述近度、频度和强度对用户组内的各用户进行聚类分析,得到用户类别,并针对不同用户类别预测用户流失率,基于所述用户流失率对不同用户类别的用户实施相应配合用户进行特征类别活动的策略。
(三)有益效果
本申请公开的物联网数据的标签化用户画像生成***及方法,通过进行用户关系扩展,将包括目标用户在内的具有相似属性、场景、行为的多个用户聚集为一个用户组,并以用户组的画像来作为目标用户的画像,扩大了物联网数据的数据量级,增高了频次,解决了在基于物联网数据对单一目标用户构建画像时由于物联网数据的产生速率低、发生频率低、数据分析困难等原因而难以有足够的数据量来生成单一目标用户画像的缺陷。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本申请,而不能理解为对本申请的保护范围的限制。
图1是本申请公开的标签化用户画像生成***实施例的结构框图。
图2是本申请公开的标签化用户画像生成方法实施例的流程示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。
下面参考图1详细描述本申请公开的物联网数据的标签化用户画像生成***实施例。如图1所示,本实施例公开的***主要包括有:用户组生成模块、初始标签建立模块、初始标签泛化模块和用户组画像生成模块。
用户组生成模块用于基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组。
用户产生的物联网数据可以包括通过ETC、RFID、GPS、各种传感器寄智能设备获取到的用户组内各用户的日常生活及工作数据,例如对智慧家庭的各家电设备的远程控制产生的数据、可穿戴设备实时反馈的数据、远程抄表数据等。
目标用户是待生成标签化用户画像的用户,首先从目标用户的特征入手,获取到目标用户的物联网数据,以及物联网数据库中储备的若干其他用户的物联网数据。
特征能够从物联网数据中反映出用户的特质,特征可以包括属性特征、行为特征和场景特征。由于特征在本质上就是物联网数据,因此物联网数据包含了这些特征的数据源。
属性特征是能够反映出用户自然属性的特征,可以是利用物联网空间中的传感器、摄像头、智能化设备采集的用户的人脸图像、指纹等表明用户身份的信息,进而可以获得用户的性别、年龄等进一步的信息。
行为特征可以是用户在物联网空间的移动时空轨迹、对环境参数和智能化设备功能的主动调节等信息。
场景特征可以是用户日常出入的物联网空间的空间位置、空间类型(办公室、会议室、客厅)及利用传感器感知的关于物联网空间的环境参数(温度、亮度)和智能化设备工作模式参数等信息。
针对目标用户的个人属性、日常行为、活动场景等特征,确定出一定数量的与目标用户具有“相似属性”、“相似行为”、“相似场景”等关系的其他用户,并将这些确定出的用户进行汇聚形成关于目标用户的用户组,用户组内的用户均为与目标用户特征相似的用户。
初始标签建立模块用于建立对象和对象联系的结构化体系,并向对象和对象联系填充物联网数据获取模块获取的物联网数据,从而为该用户组建立初始标签。
具体的,初始标签建立模块从对象和对象联系的角度来组织、挖掘用户组的物联网数据中在个人属性、日常行为、活动场景的特征,对于用户特征从对象和对象联系的角度进行投射,形成对用户组有效的对象和对象联系,从而基于对目标用户所属的用户组有效的对象和对象联系建立初始标签。
用户组生成模块是依据物联网数据中的用户特征划分出用户组,这些用户特征数据可以就是建立标签时所基于的数据,例如初始标签的类型按照描述用户的维度可以分为“属性标签”、“行为标签”、“场景标签”等,分别描述用户的个人属性、日常行为、活动场景等方面的特征。
在用户组生成模块生成用户组时所依据的特征可以完全对应于初始标签建立模块建立的初始标签,也就是说,初始标签建立模块建立的初始标签可以是与上述属性特征、行为特征、场景特征等用户组生成模块所选用的特征相对应的标签,因此“属性标签”、“行为标签”、“场景标签”也分别对应于前述属性特征、行为特征、场景特征。
属性标签可以包括“黑头发”、“黄头发”、“白种人”、“黄种人”、“男性”、“女性”、“青年”、“老年”等。行为标签可以包括“写字楼办公”、“超市购物”、“上传步数”、“开闭百叶窗”、“调节温度”、“查看住所监控视频”等。场景标签可以包括“26度恒温”、“暗光线”、“安静环境”等。
建立标签时,可以通过机器学习算法抽取用户特征,例如决策树、逻辑回归、支持向量机、贝叶斯网络、K均值算法、主题模型等算法。
初始标签按照生成过程可以分为基础标签和知识标签。基础标签是通过直接获取或者简单的统计获取的用户标签,例如用户的性别、年龄、职业等可以从用户的注册信息中直接获取,用户的购买次数、活跃天数等可以通过数据收集和概率统计而直接获得。知识标签是利用机器学习、自然语言理解等技术,对于用户相关的大数据进行分类、聚类、回归分析等特征提取与规律挖掘所获得的标签,是比基础标签更为深层次的标签。
初始标签泛化模块用于对初始标签进行泛化得到泛化标签。
标签泛化能够将多个标签归纳为一个更为概括的标签,以解决标签粒度过细、类型过杂的问题,将标签体系简化,有利于后续对用户画像的应用。
用户组画像生成模块用于基于泛化标签生成用户组画像,将多个维度、不同层级的标签结合起来得到目标用户画像。
通过进行用户关系扩展,将包括目标用户在内的具有相似属性、场景、行为的多个用户聚集为一个用户组,并以用户组的画像来作为目标用户的画像,扩大了物联网数据的数据量级,增高了频次,解决了在基于物联网数据对单一目标用户构建画像时由于物联网数据的产生速率低、发生频率低、数据分析困难等原因而难以有足够的数据量来生成单一目标用户画像的缺陷。
在一种实施方式中,用户组生成模块包括:关键词提取单元、向量生成单元和相似度计算单元。
关键词提取单元用于提取用户产生的物联网数据的特征类别,得到类别关键词。
类别关键词将物联网数据进行进一步细分。以行为特征为例,关键词提取单元能够识别出产生特征数据的相应行为动作,例如识别出工作日早上8点至9点期间去往某一栋写字楼为“上班”行为,工作日晚上6点之后去往某几个特定区域为“购物”行为,晚上9点之后去往某几个特定区域为“散步”行为,控制空调吹冷风为“降温”行为,遥控电视转到某几个体育频道为“看体育比赛”行为。其中,“上班”、“购物”、“散步”、“降温”、“看体育比赛”为类别关键词。
关键词提取单元将用户产生的关于行为特征的物联网数据进行详细划分,而这些类别关键词则代表了用户的在行为上的偏好。
向量生成单元用于对类别关键词进行频次统计,得到用户的特征类别向量。
在关键词提取单元为物联网数据进行了归类划分之后,每个物联网数据均有了自己的类属,继续以行为特征为例,同一类属的物联网数据的数量就代表了用户进行该行为的频次,而向量生成单元对各种类属进行词频统计,例如某用户产生了100个“上班”行为的物联网数据,则该100个物联网数据均被关键词提取单元判断为属于“上班”类别关键词,向量生成单元则统计出存在100个属于“上班”类别关键词的物联网数据。
特征类别向量是记录有用户的所有特征类别的发生频次的向量,例如用户的类别A的频次为100,类别B的频次为50,则只包含类别A和类别B的该用户的向量={100,50}。
相似度计算单元用于对目标用户和非目标用户的特征类别向量进行相似度计算,将相似度满足要求的非目标用户作为与目标用户的特征相似的其他用户。
在判断两个用户的相似度时,基于这两个用户的特征类别向量来进行相似度计算,得到一个相似度值,若该值满足要求,则说明这两个用户的特征(属性特征、行为特征、场景特征)是相似的,这两个用户是相似用户,可以归入同一用户组。
相似度计算单元可以通过以下公式进行相似度计算:
Figure BDA0002422350840000101
其中,u1和u2分别为目标用户和非目标用户,
u1={n11,n12,…,n1m},u2={n21,n22,…,n2m},nij为第i个用户的第j类类别关键词的词频,m为类别关键词的种类数量。
例如物联网数据库中包括目标用户的行为特征数据和场景特征数据,则基于行为特征和场景特征对数据库内其他用户进行与目标用户之间的相似度计算,其中关键词提取单元识别出目标用户的行为特征数据有3类,场景特征数据有4类,则目标用户u1={n11,n12,…,n17},其与其中一个非目标用户u2={n21,n22,…,n27}之间的相似度计算即通过上述公式进行,算出相似度值sim(u1,u2)。
在目标用户与P个非目标用户的相似度计算后,得到P个计算结果。在形成目标用户的用户组时,可以设定一个相似度区间,只有算出的相似度值落入相似度区间内的非目标用户才被视为目标用户的相似用户;或者可以将相似度值按照进行排序,将与目标用户最相似的前a个非目标用户作为目标用户的相似用户。
可以理解的是,相似度计算单元也可以采用多维标度法等其他方式来进行相似度计算和判断。
在一种实施方式中,该***还包括:用户画像更新模块,用于更新目标用户的特征类别向量,基于更新后的目标用户特征类别计算目标用户对各类别关键词的历史兴趣度,并基于历史兴趣度通过以下公式对用户画像进行更新:
newinst=(oldinst)×exp(-cool×Texist)
其中,newinst为当前兴趣度,能够用于更新画像。oldinst为历史兴趣度,历史兴趣度是指目标用户之前对类别关键词所指代的行为特征/场景特征的关注度。cool为冷却系数,其随时间流逝而逐渐冷却,系数值为***设定值,系数值不同则冷却速度也不同,使得用户对相应行为特征/场景特征的兴趣度逐渐降低。Texist为发生类别关键词指代的特征所发生后距当前时刻的时长,可以以小时、天数等作为衡量标准进行计算。
通过对目标用户的所有类别关键词进行兴趣度更新,使得用户标签能够体现出目标用户当前的兴趣度和热度的所在,进而实现用户画像的动态更新。
在一种实施方式中,该***还包括:行为分析模块,用于获取用户组内各用户进行特征类别活动的近度、频度和强度。
近度为用户最近一次进行特征类别活动时间距当前时刻的时长,以用户通过随身佩戴的记步设备在跑步时记录里程、步数、心跳、跑步时间等各项数据为例,近度为最近一次上传跑步里程的时间距离当前时刻的时间跨度。频度为用户在观测时间内进行特征类别活动的频度,例如用户在最近一段时间内跑步并上传跑步里程的次数。强度为用户在观测时间内的进行所述特征类别活动的总时长与总天数之比,例如用户在最近一段时间内跑步的时长与该段时间的总天数之比。
之后,行为分析模块基于近度、频度和强度对用户组内的各用户进行聚类分析,得到用户类别。聚类分析可以使用K-means聚类算法,在某一行为特征/场景特征方面将用户分为多个类别。例如,用户类别A:几乎每天都短距离跑步并上传步数的用户;用户类别B:之前一段时间内每天都跑步并上传步数但最近一段时间没有跑步并上传步数的用户;用户类别C:每次跑步时间很长但相邻两次跑步之间会间隔几天的用户等。可以理解的是,聚类时使用的近度、频度和强度数据是经过标准化以后的数值,以消除量纲的影响,并且将近度标准化后的值进行取反运算,以使近度、频度和强度数据同向变化。
然后,行为分析模块针对不同用户类别预测用户的未来流失率。对于用户类别A会被判定为流失率较低,对于用户类别B会被判定为流失率较高,对于用户类别C会被判定为流失率中等。
最后,行为分析模块针基于用户流失率对不同用户类别的用户实施相应配合用户进行特征类别活动的策略。在上述跑步的举例中,用户在跑步时记录步数、跑步时间等参数并进行上传的活动就是用户进行特征类别活动,而实施相应配合用户进行活动的策略则可以是向用户提供跑步建议,例如对用户类别A的用户告知用户短跑的注意事项;对用户类别B的用户告知用户长跑的注意事项以及加强频次的短跑相对于每隔几天一次的长跑有何优势,以促进用户增加对设备的使用频次;对用户类别C的用户则定期发送跑步锻炼的益处及注意事项。
下面参考图2详细描述本申请公开的物联网数据的标签化用户画像生成方法实施例。本实施例用于实施前述的标签化用户画像生成***实施例。如图2所示,本实施例公开的方法包括如下步骤:
步骤100,基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组;
步骤200,建立对象和对象联系的结构化体系,并向对象和对象联系填充物联网数据,从而为该用户组建立初始标签;
步骤300,对初始标签进行泛化得到泛化标签;
步骤400,基于泛化标签生成用户组画像,进而得到目标用户画像;其中,特征包括属性特征、行为特征、场景特征中的至少一项。
在一种实施方式中,基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,包括:
获取用户产生的物联网数据的特征类别,得到类别关键词;
对类别关键词进行频次统计,得到用户的特征类别向量;
对目标用户和非目标用户的特征类别向量进行相似度计算,将相似度满足要求的非目标用户作为与目标用户的特征相似的其他用户。
在一种实施方式中,通过以下公式进行相似度计算:
Figure BDA0002422350840000131
其中,u1和u2分别为目标用户和非目标用户,
u1=(n11,n12,…,n1m),u2=(n21,n22,…,n2m),nij为第i个用户的第j类类别关键词的词频,m为类别关键词的种类数量。
在一种实施方式中,该方法还包括:
更新目标用户的特征类别向量,基于更新后的目标用户特征类别计算目标用户对各类别关键词的历史兴趣度,并基于历史兴趣度通过以下公式对用户画像进行更新:
newinst=(oldinst)×exp(-cool×Texist)
其中,newinst为当前兴趣度,oldinst为历史兴趣度,cool为冷却系数,Texist为发生类别关键词指代的特征所发生后距当前时刻的时长。
在一种实施方式中,该方法还包括:
获取用户组内各用户进行特征类别活动的近度、频度和强度,基于近度、频度和强度对用户组内的各用户进行聚类分析,得到用户类别,并针对不同用户类别预测用户流失率,基于用户流失率对不同用户类别的用户实施相应配合用户进行特征类别活动的策略。
本文中的模块、单元的划分仅仅是一种逻辑功能的划分,在实际实现时可以有其他的划分方式,例如多个模块和/或单元可以结合或集成于另一个***中。作为分离部件说明的模块、单元在物理上可以是分开的,也可以是不分开的。作为单元显示的部件可以是物理单元,也可以不是物理单元,即可以位于一个具体地方,也可以分布到网格单元中。因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种物联网数据的标签化用户画像生成***,其特征在于,包括:
用户组生成模块,用于基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组;
初始标签建立模块,用于建立对象和对象联系的结构化体系,并向所述对象和对象联系填充所述物联网数据,从而为该用户组建立初始标签;
初始标签泛化模块,用于对所述初始标签进行泛化得到泛化标签;
用户组画像生成模块,用于基于所述泛化标签生成用户组画像,进而得到目标用户画像;其中,
所述特征包括属性特征、行为特征、场景特征中的至少一项。
2.如权利要求1所述的***,其特征在于,所述用户组生成模块包括:
关键词提取单元,用于提取用户产生的物联网数据的特征类别,得到类别关键词;
向量生成单元,用于对所述类别关键词进行频次统计,得到用户的特征类别向量;
相似度计算单元,用于对目标用户和非目标用户的所述特征类别向量进行相似度计算,将相似度满足要求的非目标用户作为与目标用户的特征相似的其他用户。
3.如权利要求2所述的***,其特征在于,所述相似度计算单元通过以下公式进行所述相似度计算:
Figure FDA0002422350830000011
其中,u1和u2分别为目标用户和非目标用户,
u1=(n11,n12,...,n1m),u2=(n21,n22,...,n2m),nij为第i个用户的第j类类别关键词的词频,m为类别关键词的种类数量。
4.如权利要求2或3所述的***,其特征在于,该***还包括:
用户画像更新模块,用于更新目标用户的特征类别向量,基于更新后的目标用户特征类别计算目标用户对各类别关键词的历史兴趣度,并基于历史兴趣度通过以下公式对用户画像进行更新:
newinst=(oldinst)×exp(-cool×Texist)
其中,newinst为当前兴趣度,oldinst为历史兴趣度,cool为冷却系数,Texist为发生类别关键词指代的特征所发生后距当前时刻的时长。
5.如权利要求1-3中任一项所述的***,其特征在于,该***还包括:
行为分析模块,用于获取用户组内各用户进行所述特征类别活动的近度、频度和强度,基于所述近度、频度和强度对用户组内的各用户进行聚类分析,得到用户类别,并针对不同用户类别预测用户流失率,基于所述用户流失率对不同用户类别的用户实施相应配合用户进行特征类别活动的策略。
6.一种物联网数据的标签化用户画像生成方法,其特征在于,包括:
基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,形成目标用户的用户组;
建立对象和对象联系的结构化体系,并向所述对象和对象联系填充所述物联网数据,从而为该用户组建立初始标签;
对所述初始标签进行泛化得到泛化标签;
基于所述泛化标签生成用户组画像,进而得到目标用户画像;其中,
所述特征包括属性特征、行为特征、场景特征中的至少一项。
7.如权利要求6所述的方法,其特征在于,所述基于用户产生的物联网数据确定出具有的特征与目标用户的特征相似的其他用户,包括:
获取用户产生的物联网数据的特征类别,得到类别关键词;
对所述类别关键词进行频次统计,得到用户的特征类别向量;
对目标用户和非目标用户的所述特征类别向量进行相似度计算,将相似度满足要求的非目标用户作为与目标用户的特征相似的其他用户。
8.如权利要求7所述的方法,其特征在于,通过以下公式进行所述相似度计算:
Figure FDA0002422350830000031
其中,u1和u2分别为目标用户和非目标用户,
u1=(n11,n12,...,n1m),u2=(n21,n22,...,n2m),nij为第i个用户的第j类类别关键词的词频,m为类别关键词的种类数量。
9.如权利要求7或8所述的方法,其特征在于,该方法还包括:
更新目标用户的特征类别向量,基于更新后的目标用户特征类别计算目标用户对各类别关键词的历史兴趣度,并基于历史兴趣度通过以下公式对用户画像进行更新:
newinst=(oldinst)×exp(-cool×Texist)
其中,newinst为当前兴趣度,oldinst为历史兴趣度,cool为冷却系数,Texist为发生类别关键词指代的特征所发生后距当前时刻的时长。
10.如权利要求6-8中任一项所述的方法,其特征在于,该方法还包括:
获取用户组内各用户进行所述特征类别活动的近度、频度和强度,基于所述近度、频度和强度对用户组内的各用户进行聚类分析,得到用户类别,并针对不同用户类别预测用户流失率,基于所述用户流失率对不同用户类别的用户实施相应配合用户进行特征类别活动的策略。
CN202010209582.XA 2020-03-23 2020-03-23 物联网数据的标签化用户画像生成***及方法 Active CN111538751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010209582.XA CN111538751B (zh) 2020-03-23 2020-03-23 物联网数据的标签化用户画像生成***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010209582.XA CN111538751B (zh) 2020-03-23 2020-03-23 物联网数据的标签化用户画像生成***及方法

Publications (2)

Publication Number Publication Date
CN111538751A true CN111538751A (zh) 2020-08-14
CN111538751B CN111538751B (zh) 2021-05-04

Family

ID=71978690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010209582.XA Active CN111538751B (zh) 2020-03-23 2020-03-23 物联网数据的标签化用户画像生成***及方法

Country Status (1)

Country Link
CN (1) CN111538751B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737588A (zh) * 2020-08-24 2020-10-02 南京国睿信维软件有限公司 用户画像知识相似度计算方法
CN112818249A (zh) * 2021-03-04 2021-05-18 中南大学 一种特定倾向性人群的多维画像构建方法和***
CN113298145A (zh) * 2021-05-24 2021-08-24 中国邮政储蓄银行股份有限公司 标签填充方法及装置
CN114610921A (zh) * 2021-11-30 2022-06-10 腾讯科技(深圳)有限公司 对象集群画像确定方法、装置、计算机设备和存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机***有限公司 构建用户实时画像的方法及装置
CN105574730A (zh) * 2014-10-10 2016-05-11 中兴通讯股份有限公司 基于物联网大数据平台的智能用户画像方法及装置
CN107315810A (zh) * 2017-06-27 2017-11-03 济南浪潮高新科技投资发展有限公司 一种物联网设备行为画像方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及***
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108153867A (zh) * 2017-12-25 2018-06-12 山东大学 基于时间规律性的用户轨迹预测方法和装置
CN108764958A (zh) * 2018-04-11 2018-11-06 口碑(上海)信息技术有限公司 基于用户特征标签的推荐方法以及装置
CN108768702A (zh) * 2018-05-15 2018-11-06 华为技术有限公司 网络分析方法及设备
US10158978B1 (en) * 2017-10-16 2018-12-18 Blackberry Limited Updating a device position according to heading and movement
CN109522467A (zh) * 2018-11-14 2019-03-26 江苏中威科技软件***有限公司 一种基于大数据平台的标签时间的分析方法及装置
CN109543734A (zh) * 2018-11-14 2019-03-29 中国联合网络通信集团有限公司 用户画像方法及装置、存储介质
CN109753994A (zh) * 2018-12-11 2019-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109784367A (zh) * 2018-12-11 2019-05-21 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN110019916A (zh) * 2018-08-17 2019-07-16 平安普惠企业管理有限公司 基于用户画像的事件处理方法、装置、设备和存储介质
CN110162698A (zh) * 2019-04-18 2019-08-23 腾讯科技(深圳)有限公司 一种用户画像数据处理方法、装置及存储介质
CN110555753A (zh) * 2019-08-14 2019-12-10 中国平安人寿保险股份有限公司 基于推荐的排序控制方法、装置、计算机设备及存储介质
CN110580278A (zh) * 2019-07-30 2019-12-17 平安科技(深圳)有限公司 根据用户画像的个性化搜索方法、***、设备及存储介质
CN110610182A (zh) * 2018-06-15 2019-12-24 武汉安天信息技术有限责任公司 用户轨迹相似度判断方法和相关装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机***有限公司 构建用户实时画像的方法及装置
CN105574730A (zh) * 2014-10-10 2016-05-11 中兴通讯股份有限公司 基于物联网大数据平台的智能用户画像方法及装置
CN107315810A (zh) * 2017-06-27 2017-11-03 济南浪潮高新科技投资发展有限公司 一种物联网设备行为画像方法
US10158978B1 (en) * 2017-10-16 2018-12-18 Blackberry Limited Updating a device position according to heading and movement
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及***
CN108062375A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108153867A (zh) * 2017-12-25 2018-06-12 山东大学 基于时间规律性的用户轨迹预测方法和装置
CN108764958A (zh) * 2018-04-11 2018-11-06 口碑(上海)信息技术有限公司 基于用户特征标签的推荐方法以及装置
CN108768702A (zh) * 2018-05-15 2018-11-06 华为技术有限公司 网络分析方法及设备
CN110610182A (zh) * 2018-06-15 2019-12-24 武汉安天信息技术有限责任公司 用户轨迹相似度判断方法和相关装置
CN110019916A (zh) * 2018-08-17 2019-07-16 平安普惠企业管理有限公司 基于用户画像的事件处理方法、装置、设备和存储介质
CN109522467A (zh) * 2018-11-14 2019-03-26 江苏中威科技软件***有限公司 一种基于大数据平台的标签时间的分析方法及装置
CN109543734A (zh) * 2018-11-14 2019-03-29 中国联合网络通信集团有限公司 用户画像方法及装置、存储介质
CN109753994A (zh) * 2018-12-11 2019-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109784367A (zh) * 2018-12-11 2019-05-21 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN110162698A (zh) * 2019-04-18 2019-08-23 腾讯科技(深圳)有限公司 一种用户画像数据处理方法、装置及存储介质
CN110580278A (zh) * 2019-07-30 2019-12-17 平安科技(深圳)有限公司 根据用户画像的个性化搜索方法、***、设备及存储介质
CN110555753A (zh) * 2019-08-14 2019-12-10 中国平安人寿保险股份有限公司 基于推荐的排序控制方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737588A (zh) * 2020-08-24 2020-10-02 南京国睿信维软件有限公司 用户画像知识相似度计算方法
CN112818249A (zh) * 2021-03-04 2021-05-18 中南大学 一种特定倾向性人群的多维画像构建方法和***
CN113298145A (zh) * 2021-05-24 2021-08-24 中国邮政储蓄银行股份有限公司 标签填充方法及装置
CN114610921A (zh) * 2021-11-30 2022-06-10 腾讯科技(深圳)有限公司 对象集群画像确定方法、装置、计算机设备和存储介质
CN114610921B (zh) * 2021-11-30 2023-02-28 腾讯科技(深圳)有限公司 对象集群画像确定方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111538751B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN111538751B (zh) 物联网数据的标签化用户画像生成***及方法
US10025950B1 (en) Systems and methods for image recognition
US9922271B2 (en) Object detection and classification
CN113158023B (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
US7684651B2 (en) Image-based face search
Yu et al. Distance learning for similarity estimation
US20160239711A1 (en) Visual Data Mining
Su et al. Attributes driven tracklet-to-tracklet person re-identification using latent prototypes space mapping
CN113159826B (zh) 基于深度学习的服装流行元素预测的***及方法
CN103971265A (zh) 用户终端以及用于提供广告的方法和***
CN113139141B (zh) 用户标签扩展标注方法、装置、设备及存储介质
KR101835333B1 (ko) 얼굴 인식 서비스 제공 방법
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN116762089A (zh) 基于多模态时装知识图谱的产品推荐***及方法
CN113435335A (zh) 微观表情识别方法、装置、电子设备及存储介质
CN112685596B (zh) 视频推荐方法及装置、终端、存储介质
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN107622071B (zh) 通过间接相关反馈在无查源下的衣服图像检索***及方法
CN113194297B (zh) 一种智能监控***及方法
Oliveira-Barra et al. Leveraging activity indexing for egocentric image retrieval
Pandit et al. A review on clothes matching and recommendation systems based on user attributes
Daschiel et al. Design and evaluation of human-machine communication for image information mining
Zhang et al. M4L: Maximum margin Multi-instance Multi-cluster Learning for scene modeling
AT&T bare_conf_ATT.dvi
Forke et al. Feature engineering techniques and spatio-temporal data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant