CN112258250A - 基于网络热点的目标用户识别方法、装置和计算机设备 - Google Patents

基于网络热点的目标用户识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN112258250A
CN112258250A CN202011279957.6A CN202011279957A CN112258250A CN 112258250 A CN112258250 A CN 112258250A CN 202011279957 A CN202011279957 A CN 202011279957A CN 112258250 A CN112258250 A CN 112258250A
Authority
CN
China
Prior art keywords
user
node
nodes
neighbor
attribute characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011279957.6A
Other languages
English (en)
Inventor
陈毅臻
鲁梦平
吴汉杰
戴云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011279957.6A priority Critical patent/CN112258250A/zh
Publication of CN112258250A publication Critical patent/CN112258250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/02Processing of mobility data, e.g. registration information at HLR [Home Location Register] or VLR [Visitor Location Register]; Transfer of mobility data, e.g. between HLR, VLR or external networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术领域,特别是涉及一种基于网络热点的目标用户识别方法、装置和计算机设备。所述方法包括:基于网络热点连接数据生成用户关系图;获取所述用户关系图中各用户节点对应的用户属性特征;针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样;将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征;基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户。采用本方法能够提高用户扩散的准确性。

Description

基于网络热点的目标用户识别方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于网络热点连接数据的目标用户识别方法、装置和计算机设备。
背景技术
随着无线网络的不断发展,针对无线网络的网络热点数量也越来越多,连接网络热点的用户也越来越多,用户在利用终端连接网络热点的过程中将会产生网络热点连接数据,而这些海量的网络热点连接数据中蕴含了大量与用户有关的信息。因此,相关专业人员利用这些网络热点连接数据来扩散出相似的目标用户,以进行相应的操作。
传统的用户扩散方案中,通常是基于距离度量公式对网络热点连接数据中的连接频次、连接时段和位置信息进行距离计算,得出用户之间的相似度,从而找到目标用户。然而,采用上述用户扩散方案,可能会出现所查找的目标用户并不是实际所需的用户,例如公共热点区域,即便连接频次、连接时段和位置信息相似,也无法准确地反映出用户之间的相似性,从而降低了用户扩散的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户扩散的准确性的基于网络热点的目标用户识别方法、装置和计算机设备。
一种基于网络热点的目标用户识别方法,所述方法包括:
基于网络热点连接数据生成用户关系图;所述用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取所述用户关系图中各用户节点对应的用户属性特征;
针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样;
将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征;
基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户。
一种基于网络热点的目标用户识别装置,所述装置包括:
生成模块,用于基于网络热点连接数据生成用户关系图;所述用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取模块,用于获取所述用户关系图中各用户节点对应的用户属性特征;
采样模块,用于针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样;
聚合模块,用于将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征;
扩散模块,用于基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户。
在其中的一个实施例中,所述用户关系图是基于所述用户节点形成的用于反映用户关系的同构图;所述生成模块,还用于从所述网络热点连接数据中提取网络热点标识、用户标识和网络连接关系;生成以所述网络热点标识为网络节点且以所述用户标识为所述用户节点、且所述网络节点与所述用户节点之间按照所述网络连接关系连接的二分图;将所述二分图中连接相同网络热点的用户节点进行连接,并将所述网络节点从连接所述用户节点的二分图中滤除,得到所述同构图。
在其中的一个实施例中,所述聚合模块,还用于获取所述针对的用户节点与采样后的各邻居用户节点之间的边权重;根据获取的边权重分别对采样后的各邻居用户节点对应的用户属性特征进行加权,得到加权后的邻居用户属性特征;将所述针对的用户节点对应的用户属性特征与加权后的邻居用户属性特征进行求和,并对求和后的结果进行归一化得到所述邻居聚合属性特征。
在其中的一个实施例中,所述边权重是通过边权重计算步骤所得;所述装置还包括:
第一计算模块,用于对于所述针对的用户节点对应的用户,确定所述用户在预设时段内连接网络热点的频次;将连接相同网络热点的用户所对应的各所述频次进行求和,得到和值;将所述和值作为连接相同网络热点的用户所对应的用户节点之间的边权重。
在其中的一个实施例中,所述用户关系图是基于所述用户节点形成的用于反映用户关系的同构图;所述生成模块,还用于从所述网络热点连接数据中提取用户标识;以提取的用户标识为所述用户节点,并在所有的所述用户节点中将连接相同网络热点的目标用户节点进行连接,从而形成所述同构图。
在其中的一个实施例中,所述用户属性特征包括数值型属性特征和非数值型属性特征;所述装置还包括:
处理模块,用于对所述数值型属性特征进行分箱处理,得到离散化的数值型属性特征;
编码模块,用于分别对所述离散化的数值型属性特征和所述非数值型属性特征进行编码,并将编码所得的结果组合成特征矩阵;
所述聚合模块,还用于将采样后的邻居用户节点对应的特征矩阵与所述针对的用户节点对应的特征矩阵进行聚合。
在其中的一个实施例中,所述聚合模块,还用于获取所述针对的用户节点的注意力参数,以及所述针对的用户节点与采样后的邻居用户节点之间的注意力参数;计算所述针对的用户节点对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第一积值;以及,计算采样后的且与所述针对的用户节点相连的邻居用户节点所对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第二积值;对所述针对的用户节点所对应的所述第一积值与对应的所述第二积值进行求和,并将求和的结果进行归一化处理,得到邻居聚合属性特征。
在其中的一个实施例中,所述注意力参数是基于注意力参数计算步骤所得,所述装置还包括:
第二计算模块,用于计算所述参数矩阵与所述针对的用户节点对应的用户属性特征的乘积,得到第一加权用户属性特征;计算所述参数矩阵与采样后的邻居用户节点对应的用户属性特征的乘积,得到第二加权用户属性特征;通过注意力参数网络对所述第一加权用户属性特征和所述第二加权用户属性特征进行非线性变换;将非线性变换的结果进行归一化,得到所述注意力参数。
在其中的一个实施例中,所述扩散模块,还用于通过分类模型对所述邻居聚合属性特征进行分类处理;根据分类处理后的结果对所述针对的用户节点相应的用户进行评分,并按照评分所得的分值对针对的用户节点相应的用户排序;将排序名次达到预设名次的用户作为扩散用户。
在其中的一个实施例中,所述分类模型是对初始分类模型进行处理所得;所述装置还可以包括:
训练模块,用于基于网络热点连接数据样本生成样本用户关系图;所述样本用户关系图中相连的样本用户节点表示相应用户所连接的网络热点相同;所述样本用户节点包括种子用户节点和随机用户节点;根据所述样本用户关系图中的各所述样本用户节点获取属性特征训练集;从所述属性特征训练集中,将各所述样本用户节点与相应邻居用户节点分别对应的属性特征训练数据进行聚合,得到训练聚合属性特征;通过所述训练聚合属性特征对所述初始分类模型进行训练,当所述初始分类模型预测出的扩散用户与所述种子用户之间的特征相似度达到相似阈值时,停止训练。
在其中的一个实施例中,所述训练模块,还用于从所述种子用户中取出部分用户;将取出所述部分用户后的种子用户作为正样本,以及将取出的所述部分用户与所述随机用户作为负样本;通过所述初始分类模型对所述部分用户对应的训练聚合属性特征进行预测处理,并根据所得的预测值确定分类阈值;以及,通过所述初始分类模型对所述随机用户的训练聚合属性特征进行预测处理,得到目标负样本;通过所述正样本和所述目标负样本对应的训练聚合属性特征,对经过预测处理后的初始分类模型进行训练。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于网络热点连接数据生成用户关系图;所述用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取所述用户关系图中各用户节点对应的用户属性特征;
针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点进行采样;
将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行聚合,得到邻居聚合属性特征;
基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行分类,以确定扩散用户。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
基于网络热点连接数据生成用户关系图;所述用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取所述用户关系图中各用户节点对应的用户属性特征;
针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点进行采样;
将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行聚合,得到邻居聚合属性特征;
基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行分类,以确定扩散用户。
上述基于网络热点的目标用户识别方法、装置、计算机设备和存储介质,将用户连接网络热点所形成的网络热点连接数据以图的方式进行组织,得到用户关系图,通过用户关系图各用户节点之间是否存在连接来表达用户之间的关联关系,从而避免了人工干预的方式来构造特征信息,可以有利于快速获得用户之间的关联关系。此外,将邻居用户节点对应的用户属性特征与相应用户节点对应的用户属性特征进行聚合,从而可以得到同时表征网络拓扑结构与用户节点特征相似性的邻居聚合属性特征,基于邻居聚合属性特征对用户节点相应的用户进行评分,从而可以有效地确定扩散用户,提高用户定向扩散的准确性和用户覆盖率。而且,在进行聚合之前,还对每个用户节点相连的邻居用户节点进行采样,然后利用采样后的邻居用户节点对应的用户属性特征与相应用户节点对应的用户属性特征进行聚合,从而可以快速地获得表征网络拓扑结构与用户节点特征相似性的邻居聚合属性特征,进而可以快速、且准确地确定出扩散用户。
附图说明
图1为一个实施例中基于网络热点的目标用户识别方法的应用环境图;
图2为一个实施例中基于网络热点的目标用户识别方法的流程示意图;
图3为一个实施例中以网络热点标识和用户标识为节点的二分图的结构示意图;
图4为一个实施例中以用户标识为节点的同构图的结构示意图;
图5为一个实施例中用于生成注意力参数的注意力参数网络的结构示意图;
图6为一个实施例中以用户连接WiFi热点的应用场景描述基于网络热点的目标用户识别方法的流程示意图;
图7为一个实施例中对初始分类模型进行处理得到分类模型的流程示意图;
图8为另一个实施例中基于网络热点的目标用户识别方法的流程示意图;
图9为一个实施例中统计WiFi连接数据的示意图;
图10为一个实施例中基于网络热点的目标用户识别装置的结构示意图;
图11为另一个实施例中基于网络热点的目标用户识别装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像分割、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习和度量学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉技术和机器学习等技术,具体通过如下实施例进行说明:
本申请提供的基于网络热点的目标用户识别方法,可以应用于如图1所示的应用环境中。在该应用环境中,包括终端102、服务器104和网络热点106。其中,终端102和网络热点106之间可以通过无线网络连接;终端102与服务器104,以及服务器104和网络热点106之间可以通过无线网络或数据线连接。终端102在通过网络热点106发出的热点网络进行连接,并在连接过程中产生网络热点连接数据,如连接网络热点106的连接时间、位置、网络热点标识和用户标识等。服务器104在获取到网络热点连接数据之后,可以基于网络热点连接数据生成用户关系图;用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;获取用户关系图中各用户节点对应的用户属性特征;针对用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点进行采样;将采样后的邻居用户节点对应的用户属性特征与针对的用户节点对应的用户属性特征进行聚合,得到邻居聚合属性特征;基于邻居聚合属性特征对针对的用户节点相应的用户进行分类,以确定扩散用户。
其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
网络热点106可以指提供无线局域网接入互联网(Internet)服务的网络设备,如无线路由器或无线交换机。
在一个实施例中,如图2所示,提供了一种基于网络热点的目标用户识别方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S202,基于网络热点连接数据生成用户关系图;用户关系图中相连的用户节点表示相应用户所连接的网络热点相同。
其中,网络热点可以指能够提供无线局域网以接入互联网(Internet)服务的网络设备。网络热点连接数据可以指用户通过终端连接网络热点时所形成的数据,该网络热点连接数据可以包括:与网络热点进行连接时的连接时间、位置信息、网络热点标识、用户标识以及网络连接关系等。其中,连接时间可以包括连接网络热点的开始时间和结束时间。网络热点标识可以用来区分网络热点或网络热点所发出的无线局域网,例如SSID(ServiceSet Identifier,服务集标识符),可用来区分不同的无线局域网。用户标识可以是用于标识用户的标签,如用户名、用户通信号(如手机号、网络社交账号等),此外还可以是用户连接网络热点时所采用终端的终端标识。
用户关系图可以指以用户标识为节点、并将连接过相同网络热点的用户所对应的用户标识连接起来的图形。其中,该用户关系图中的节点称为用户节点。
终端在连接网络热点时,网络热点会记录连接时间、该终端对应的用户标识以及终端所在位置的位置信息,此外还记录网络热点本身的网络热点标识,将连接该网络热点的终端所对应的用户标识与网络热点标识建立关联关系(该关联关系即网络连接关系),从而得到网络热点连接数据。在完成信息记录后,然后将网络热点连接数据保存于本地或保存于服务器。
在一个实施例中,服务器可以从网络热点获取网络热点连接数据,或从服务器本地获取网络热点连接数据,从而服务器可以根据网络热点连接数据中的网络连接关系,确定用户标识所对应的终端连接了哪个网络热点。其中,获取的网络热点连接数据可以是预设时段内所形成的数据,例如可以是最近一周之内的网络热点连接数据。
具体地,服务器可以向网络热点发送数据获取请求,以使该网络热点根据接收的数据获取请求获取对应的网络热点连接数据,然后返回该网络热点连接数据至服务器。
对于用户关系图的构建,可以由以下两种方式来构建:
方式1,基于以网络热点连接数据形成的二分图构建用户关系图。
在一个实施例中,该用户关系图是基于用户节点形成的用于反映用户关系的同构图;S202具体可以包括:服务器从网络热点连接数据中提取网络热点标识、用户标识和网络连接关系;生成以网络热点标识为网络节点且以用户标识为用户节点、且网络节点与用户节点之间按照网络连接关系连接的二分图;将二分图中连接相同网络热点的用户节点进行连接,并将网络节点从连接用户节点的二分图中滤除,得到同构图。
其中,该用户关系可以用来反映不同用户之间通过各自的终端连接了相同的网络热点。连接相同网络热点的用户,在一定程度上存在某种相似性。例如,共同连接同一个家庭网络热点的用户有可能是家人,而连接同一个公司网络热点的用户可能是同事,可以利用这种用户关系挖掘出关于用户有价值的信息。
同构图可以指图中的所有节点均属于同一种类别(即所有的节点均属于用户类型)的图形,也即同构图中只包含用户节点,不包含其它类型的节点。
二分图可以指图中包含有用户节点和网络节点这两种类别的节点。该二分图可以转换成同构图。
需要指出的是,在二分图中,每个用户节点可以代表对应的用户或该用户的终端,每个网络节点代表对应的网络热点。对应地,在同构图,每个用户节点可以代表对应的用户或该用户的终端。在后续实施例中,若出现用户节点连接网络热点或连接网络节点,即表示该用户节点对应的用户通过终端连接该网络节点对应的网络热点。
具体地,服务器从网络热点连接数据中提取网络热点标识、用户标识和网络连接关系之后,可以以网络热点标识为网络节点、以用户标识为用户节点,然后根据网络连接关系确定用户的终端所连接的网络热点,然后将该用户对一个的用户节点和该网络热点对应的网络节点相连,从而得到二分图。通过该二分图可以获知用户在某个时间段通过终端连接了哪些网络热点,以及在某个时间段连接了某网络热点的用户有哪些。
例如,图3为基于根据网络连接关系连接网络节点和用户节点所得的二分图,该二分图中的图标只是一个示例,可以采用其它图标进行表示,如圆点或小圆圈等。在该图中,可以看出哪些用户连接了哪些网络热点,如用户节点1对应的用户通过电脑连接了网络节点1对应的网络热点,同理用户节点2对应的用户通过平板电脑连接了网络节点1对应的网络热点,依此类推。此外,通过该图也可以看出,同一个用户在不同时间连接了不同的网络热点,如用户节点5对应的用户通过平板电脑连接了网络节点1对应的网络热点,以及连接了网络节点2对应的网络热点。
在一个实施例中,在该二分图中,服务器可以将连接相同网络热点的至少两个用户节点用边进行连接,从而将该至少两个用户节点关联起来;此外,将所有连接相同网络热点的至少两个用户节点用边进行连接之后,可以将网络节点从二分图中滤除,从而得到关于用户节点的同构图。需要指出的是,将网络节点从二分图中滤除,对应的边也会从二分图中删除。
例如,图4为在二分图中将连接相同网络热点的用户节点连接、并滤除网络节点所得的同构图。该图4是将图3的二分图中连接相同网络热点的用户节点连接起来,并且将网络节点进行滤除所得的同构图,例如,在图3中,将连接网络节点1的所有用户节点1-5均用边连接起来,即用户节点1-5两两之间彼此连接,然后将网络节点1从二分图中滤除,以及对应的边也从该二分图中滤除,依此类推,直至将所有连接相同网络热点的用户节点均连接起来,且网络热点和对应的边均删除掉之后,可以得到如图4的同构图。在该图4中,对于具有连接关系的至少两个用户节点,其用户节点对应的用户通过终端连接过相同的网络热点,如用户节点1与用户节点2-5均连接过相同的网络热点,即网络节点1对应的网络热点,依此类推。
方式2,直接基于网络热点连接数据构建用户关系图。
在一个实施例中,该用户关系图是基于用户节点形成的用于反映用户关系的同构图;S202具体可以包括:服务器从网络热点连接数据中提取用户标识;以提取的用户标识为用户节点,并在所有的用户节点中将连接相同网络热点的目标用户节点进行连接,从而形成同构图。
例如,如图4所示,服务器从网络热点连接数据中提取所有的用户标识,然后以提取的用户标识作为用户节点1~23,生成包含用户节点1~23、且连接相同网络热点的用户节点1~23之间采用边进行连接,从而得到图4所示的同构图。
S204,获取用户关系图中各用户节点对应的用户属性特征。
其中,用户属性特征可以指用于描述用户的各种属性特征,包括但不限于用户的性别、年龄、学历、职业、兴趣爱好、兴趣点(即感兴趣的地方)、资产、终端和籍贯等画像数据。
在一个实施例中,S204具体可以包括:服务器可以根据各用户节点对应的用户标识,从本地获取对应的用户属性特征;或者,向社交服务器发送携带用户标识的属性特征获取请求,当获得用户的授权时,社交服务器根据携带的用户标识获取用户属性特征,然后向该服务器反馈获取的用户属性特征。
用户在注册社交应用的账户或使用社交应用的过程中,通常会上传自己的用户属性特征,社交服务器将会保存用户上传的用户属性特征;当获得用户的授权时,可以将该用户属性特征发送至服务器,从而该服务器可以根据用户标识从本地获取对应的用户属性特征。
在一个实施例中,服务器在获得各用户节点对应的用户属性特征之后,计算用户关系图中各相连用户节点之间的边权重,以便根据边权重对相应用户节点的、经过编码后的用户属性特征进行加权,然后执行S206和S208。其中,边权重可以指相连用户节点之间的边的权重。
对于边权重的计算,其边权重计算步骤可以包括:对于针对的用户节点对应的用户,服务器确定用户在预设时段内连接网络热点的频次;将连接相同网络热点的用户所对应的各频次进行求和,得到和值;将和值作为连接相同网络热点的用户所对应的用户节点之间的边权重。
其中,频次可以是用户通过终端在预设时段内连接某个网络热点的次数。
例如,如图3所示,对于用户节点1~23对应的所有用户,即用户1~23,服务器确定用户1~23每个人连接网络热点的频次,若用户1使用其终端1在一周之内连接网络节点1对应的网络热点的次数cntA=7次,用户2使用其终端2在一周之内连接网络节点1对应的网络热点的次数cntB=2次,则用户节点1与用户节点2之间的边权重即为logt(cntA)+logt(cntB)=logt7+logt2,其中,t为2、e或10,e为自然常数,约为2.718281828459045。即在图4中的同构图中,用户节点1与用户节点2之间的边权重为logt7+logt2。同理,可以计算出图4中各用户节点之间的边权重。
在一个实施例中,用户属性特征包括数值型属性特征和非数值型属性特征;该方法还包括:服务器对数值型属性特征进行分箱处理,得到离散化的数值型属性特征;分别对离散化的数值型属性特征和非数值型属性特征进行编码,并将编码所得的结果(即编码后的用户属性特征)组合成特征矩阵。
其中,数值型属性特征表示用户的属性特征与数值相关,如用户的年龄。分箱处理即把一段连续的数值型属性特征切分成若干段,每一段的数值型属性特征看成一个分类。例如,把用户的年龄分成不同的年龄段,0-6为一段,6-12为一段,12-18为一段,18-24为一段,依此类推,从而得到不同的年龄段。
在一个实施例中,服务器获得离散化的数值型属性特征之后,采用one-hot编码方式对离散化的数值型属性特征和非数值型属性特征进行编码,然后利用上述的边权重对编码所得的结果进行加权,将加权后的结果组合成特征矩阵,从而该特征矩阵为经过加权处理后的特征矩阵。
S206,针对用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样。
其中,节点关联性可以指用户关系图中各用户节点之间的关联度或亲密度,关联度或亲密度越大,表示节点关联性越强。在进行采样时,按照节点关联性的强弱对所针对的用户节点相连的邻居用户节点进行采样,即节点关联性越强的邻居用户节点越容易被采样到,同理节点关联性越弱的邻居用户节点越难以被采样到。节点关联性的强弱可以受节点之间的边数、权重或用户节点对应的用户连接网络热点的频次影响,即边数、权重或频次越高,对应的节点关联性越强,反之亦然。邻居用户节点指的是与某个用户节点相连的用户节点,如图4所示,对于用户节点1,其邻居用户节点为用户节点2~5。
在一个实施例中,在用户关系图中,服务器对每个用户节点的邻居用户节点进行采样。例如,如图4所示,针对用户关系图中的用户节点1~23,可以按照节点序号从小到大的顺序依次对用户节点的邻居用户节点进行采样,如对用户节点1的邻居用户节点2~5进行采样,可以得到采样后的邻居用户节点3、5;此外,对用户节点2的邻居用户节点1、3~5进行采样,可以得到采样后的邻居用户节点1、5,依此类推。
在进行采样的过程中,可以按照边权重的大小进行采样,即边权重大的用户节点被采样到的概率越大,相应地,边权重小的用户节点被采样到的概率越小。此外,在进行采样的过程中,也可以按照用户节点的边数进行采样,即边数越多的用户节点被采样到的概率越大;相应地,边数越少的用户节点被采样到的概率越小。如图4所示,在对用户节点1的邻居用户节点进行采样时,由于用户节点5的边数最多,被采样到的概率越大。其中,边数是用户关系图中各用户节点之间连接边的数量,如两个用户共同连接过相同的两个无线热点,那么对应的两个用户节点之间的边数为2。
S208,将采样后的邻居用户节点对应的用户属性特征与针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征。
上述S208为特征聚合的过程,在进行特征聚合时,可以基于权重的方式进行聚合,也可以采用基于注意力的方式进行聚合。因此,可以通过这两种方式对用户属性特征进行聚合,具体的过程如下所述:
方式1,基于权重的方式进行聚合。
在一个实施例中,服务器获取针对的用户节点与采样后的各邻居用户节点之间的边权重;根据获取的边权重分别对采样后的各邻居用户节点对应的用户属性特征进行加权,得到加权后的邻居用户属性特征;将针对的用户节点对应的用户属性特征与加权后的邻居用户属性特征进行求和,并对求和后的结果进行归一化邻居聚合属性特征。其中,在进行聚合之前,也可以采用边权重对针对的用户节点对应的用户属性特征进行加权,然后进行聚合的操作。
在一个实施例中,当用户属性特征未进行编码时,服务器可以采用one-hot编码方式对采样后的邻居用户节点对应的用户属性特征进行编码,然后利用相应的边权重对邻居用户节点对应的、且经过编码后的用户属性特征进行加权;此外,服务器也会采用one-hot编码方式对用户节点对应的用户属性特征进行编码,然后利用相应的边权重对用户节点对应的、且经过编码后的用户属性特征进行加权。最后,服务器将采样后的邻居用户节点对应的、且经过加权后的邻居用户属性特征与针对的用户节点对应的、且经过加权后的用户属性特征进行聚合,得到邻居聚合属性特征。
在另一个实施例中,在对离散化的数值型属性特征和非数值型属性特征进行编码得到特征矩阵并进行存储的情况下,S208具体可以包括:服务器从存储的特征矩阵中,获取采样后的邻居用户节点对应的特征矩阵与针对的用户节点对应的特征矩阵,然后将采样后的邻居用户节点对应的特征矩阵与针对的用户节点对应的特征矩阵进行聚合。
方式2,基于注意力的方式进行聚合。
在一个实施例中,S208具体可以包括:服务器获取针对的用户节点的注意力参数,以及针对的用户节点与采样后的邻居用户节点之间的注意力参数;计算针对的用户节点对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第一积值;以及,计算采样后的且与针对的用户节点相连的邻居用户节点所对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第二积值;对针对的用户节点所对应的第一积值与对应的第二积值进行求和,并将求和的结果进行归一化处理,得到邻居聚合属性特征。
对于上述的计算过程,可参考如下聚合函数进行计算得到邻居聚合属性特征。具体地,服务器采样后的邻居用户节点对应的用户属性特征与针对的用户节点对应的用户属性特征输入聚合函数,通过该聚合函数计算第一积值、第二积值、对第一积值和第二积值进行求和,以及对求和的结果进行归一化得到邻居聚合属性特征;其中,该聚合函数为:
Figure BDA0002780429780000151
i表示针对的用户节点,j表示采样后的邻居用户节点,Ni表示用户关系图中用户节点的总数量;aij表示针对的用户节点与采样后的邻居用户节点之间的注意力参数,W为参数矩阵;当j≠i时,
Figure BDA0002780429780000152
表示第i个用户节点的第j个邻居用户节点对应的用户属性特征;当j=i时,
Figure BDA0002780429780000153
表示第i个用户节点对应的用户属性特征。σ(.)可以是sigmoid函数,也可以是softplus或softmax函数等,用来对求和的结果进行归一化。
在进行聚合之前服务器可以采用one-hot编码方式对采样后的邻居用户节点对应的用户属性特征进行编码,以及对用户节点对应的用户属性特征进行编码,然后再进行聚合。
注意力参数是基于注意力参数计算步骤所得。在一个实施例中,注意力参数计算步骤具体可以包括:服务器计算参数矩阵与针对的用户节点对应的用户属性特征的乘积,得到第一加权用户属性特征;计算参数矩阵与采样后的邻居用户节点对应的用户属性特征的乘积,得到第二加权用户属性特征;通过注意力参数网络对第一加权用户属性特征和第二加权用户属性特征进行非线性变换;将非线性变换的结果进行归一化,得到注意力参数。
例如,如图5所示,第一加权用户属性特征
Figure BDA0002780429780000161
和第二加权用户属性特征
Figure BDA0002780429780000162
分别输入注意力参数网络,通过注意力参数网络的非线性变换层对第一加权用户属性特征和第二加权用户属性特征进行非线性变换,然后通过softmax函数对非线性变换的结果进行归一化,得到注意力参数aij
S210,基于邻居聚合属性特征对针对的用户节点相应的用户进行评分,并评分将所得的分值达到分值条件时所对应的用户作为扩散用户。
其中,扩散用户可以指从用户关系图中用户节点对应的用户中识别出来的、用来进行消息推荐的目标用户。
在一个实施例中,S210具体可以包括:服务器通过分类模型对邻居聚合属性特征进行分类处理;根据分类处理后的结果对针对的用户节点相应的用户进行评分,并按照评分所得的分值对针对的用户节点相应的用户排序;将排序名次达到预设名次的用户作为扩散用户。其中,分类模型是利用种子用户和未知用户的用户属性特征对初始分类模型进行训练所得的。
在一个实施例中,服务器确定出的扩散用户与种子用户具有相似的属性特征,因此扩散用户与种子用户的兴趣爱好以及对物品的喜好具有相似性,从而可以获取与种子用户兴趣爱好或喜爱物品有关的推荐信息,将该推荐信息向扩散用户进行推荐。
在一个实施例中,服务器还可以通过图神经网络或其它图嵌入网络对二分图中的各节点进行向量化,得到网络隐向量;此外,通过图神经网络或其它图嵌入网络对同构图中各用户节点的用户属性特征进行向量化,得到用户隐向量;将该网络隐向量和用户隐向量输入二分类模型,从而二分类模型基于网络隐向量和用户隐向量对同构图中各用户节点对应的用户进行分类,以确定出扩散用户。
为了更清楚地了解上述基于网络热点的目标用户识别方法,结合图6对上述基于网络热点的目标用户识别方法进行描述,如图6所示,本实施例提供了一种以用户连接WiFi热点的应用场景,结合该应用场景的基于网络热点的目标用户识别方法包括以下内容:
(1)获取WiFi热点连接数据。
其中,该WiFi热点连接数据是用户通过终端连接WiFi热点时形成的数据。
(2)根据该网络热点连接数据构建WiFi用户二分图。
其中,该WiFi用户二分图是以用户和WiFi热点的标识为节点的二分图。
(3)将该WiFi用户二分图转换成以用户标识为节点的同构图。
在同构图中,相连的用户节点表示相应用户所连接的网络热点相同。
(4)收集同构图中各用户节点对应的用户属性特征。
(5)对同构图中各用户节点进行邻居用户节点的采样,并对用户节点与相应邻居用户节点的用户属性特征进行聚合。
(6)将邻居聚合属性特征输入二分类模型进行用户分类处理,以确定出扩散用户。
(7)向扩散用户推送推荐信息。
其中,该推荐信息可以是用户感兴趣产品的介绍信息或购买链接。
WiFi热点连接数据中蕴含了大量与用户有关的信息,采用本申请的方案,可以利用共同连接WiFi热点的用户扩散出目标用户人群,然后向扩散出来的用户进行信息推送,从而可以实现精准覆盖,以及提高用户的定向覆盖率。
上述实施例中,将用户连接网络热点所形成的网络热点连接数据以图的方式进行组织,得到用户关系图,通过用户关系图各用户节点之间是否存在连接来表达用户之间的关联关系,从而避免了人工干预的方式来构造特征信息,可以有利于快速获得用户之间的关联关系。此外,将邻居用户节点对应的用户属性特征与相应用户节点对应的用户属性特征进行聚合,从而可以得到同时表征网络拓扑结构与用户节点特征相似性的邻居聚合属性特征,基于邻居聚合属性特征对用户节点相应的用户进行评分,从而可以有效地确定扩散用户,提高用户定向扩散的准确性和用户覆盖率。而且,在进行聚合之前,还对每个用户节点相连的邻居用户节点进行采样,然后利用采样后的邻居用户节点对应的用户属性特征与相应用户节点对应的用户属性特征进行聚合,从而可以快速地获得表征网络拓扑结构与用户节点特征相似性的邻居聚合属性特征,进而可以快速、且准确地确定出扩散用户。
在一个实施例中,分类模型是对初始分类模型进行处理所得;如图7所示,对初始分类模型进行处理的步骤,具体可以包括:
S702,基于网络热点连接数据样本生成样本用户关系图;样本用户关系图中相连的样本用户节点表示相应用户所连接的网络热点相同;样本用户节点包括种子用户节点和随机用户节点。
其中,上述S702中生成样本用户关系图的具体过程,可参考上述实施例中的S202。
S704,根据样本用户关系图中的各样本用户节点获取属性特征训练集。
其中,属性特征训练集中包含各样本用户节点所对应用户的用户属性特征。用户属性特征的具体获取过程可以参考上述实施例中的S204。
S706,从属性特征训练集中,将各样本用户节点与相应邻居用户节点分别对应的属性特征训练数据进行聚合,得到训练聚合属性特征。
其中,在聚合之前,还可以对相应邻居用户节点进行采样,然后将各样本用户节点与采样后的相应邻居用户节点分别对应的属性特征训练数据进行聚合。上述采样过程和聚合过程可以参考上述实施例中的S206和S208。
S708,通过训练聚合属性特征对初始分类模型进行训练,当初始分类模型预测出的扩散用户与种子用户之间的特征相似度达到相似阈值时,停止训练。
在一个实施例中,服务器从种子用户中取出部分用户;将取出部分用户后的种子用户作为正样本,以及将取出的部分用户与随机用户作为负样本;通过初始分类模型对部分用户对应的训练聚合属性特征进行预测处理,并根据所得的预测值确定分类阈值;以及,通过初始分类模型对随机用户的训练聚合属性特征进行预测处理,得到目标负样本;S708具体可以包括:服务器通过正样本和目标负样本对应的训练聚合属性特征,对经过预测处理后的初始分类模型进行训练。
例如,首先,从种子用户P中随机采样部分用户S,将该采样的部分用户加入到未知类型的随机用户U中,P'=P-S作为正样本,N=U+S作为负样本。
其次,根据正样本P'和负样本N对应的训练聚合属性特征对二分类模型M进行初步训练。鉴于正样本P'数量远小于负样本N,二分类模型M可以采用随机森林算法(RandomForest),无需对正样本P'和负样本N的用户属性特征进行归一化处理。
此外,在初步训练过程中,根据二分类模型M对用户S对应的训练聚合属性特征进行预测所得的预测值确定分类阈值t,根据二分类模型M对随机用户U对应的训练聚合属性特征预测所得的预测值确定可靠的目标负样本N’。
最后,根据正样本p'和目标负样本N’对应的训练聚合属性特征训练二分类模型,从而得到训练后的二分类模型,并将该二分类模型作为最终的预测模型。
上述实施例中,通过属性特征训练集中各样本用户节点与相应邻居用户节点分别对应的属性特征训练数据进行聚合,从而得到与种子用户和随机用户相互聚合的训练聚合属性特征,然后利用训练聚合属性特征对初始分类模型进行训练,从而得出的分类模型可以分类出与种子用户的特性相似的扩散用户,利用该分类模型可以快速、且准确地确定出扩散用户。
作为一个示例,如图8所示,该基于网络热点的目标用户识别方法可以包括:
(1)获取WiFi连接数据,根据该WiFi连接数据构造WiFi用户二分图。
通过WiFi管家后台上报的方式收集用户的WiFi连接数据,相比用户扫描WiFi数据而言,通过WIFI管家后台上报的方式收集的WIFI连接数据更加能够反映用户与WiFi热点之间的紧密联系。
此外,筛选出在一定时间段(如一周)内的数据,构造用户与WiFi热点之间的二分图,即WiFi用户二分图,如图3所示。在该WiFi用户二分图中,将一个WiFi热点或用户的标识作为一个节点,用户通过终端与WiFi热点有过连接记录,则对应的用户节点与网络节点之间连一条边。统计某个时间段内用户连接WiFi热点的频次,以该频次作为WiFi用户二分图中相应边的权重,频次越高,用户与WiFi热点之间的关系越紧密。
如图9所示,短于一周的时间段统计出的图往往较为稀疏,用户之间的边较少,包含的信息不足。而长于一周的图边较多,可能会包含一定噪声。因为,这里选取一周的连接数据作为一个特定的时间段,所得图的稠密程度与其他社交网络类似,而且一周的时长也能比较好地覆盖用户的连接行为。
(2)将WiFi用户二分图投影成以用户标识为节点的同构图。
当两个用户通过各自地终端连接过同一个WIFI热点时,则在WiFi用户二分图中将这两个对应的用户节点之间连一条边,得到如图4所示的同构图。
对于同构图中边的权重计算方法如下:
如用户A与用户B都与某个WiFi热点1建立过连接,且连接频次分别为cntA和cntB,则与用户A与用户B相应的两个用户节点(即用户节点A和用户节点B)之间有边,且这两个用户节点之间边的权重为wwifi-1=log(cntA)+log(cntB)。
统计用户A与用户B之间共同连接过的所有WiFi热点,将它们的权重相加,则可得到用户节点A和用户节点B之间边的权重wAB=wwifi-1+···+wwifi-n
(3)收集同构图中各用户节点对应的用户属性特征。
用户的属性包括性别(男/女)、年龄(如0-6,6-12,12-18,18-24,24-30,30-35,35-45,45-70,70-100)、学历(如小学,初中,高中,本科大专,硕士,博士)、职业(如教师,IT工程师等)、资产、兴趣爱好、感兴趣点(POI)、经常使用的应用程序(APP)、使用的智能设备、收入和籍贯等画像数据。
其中,当这些用户属性特征为数值类型的特征时,需要对这些数值类型的用户属性特征进行分箱处理,以进行离散化。然后,将所有用户属性特征进行one-hot编码并储存为特征矩阵。
(4)对同构图中各用户节点进行邻居用户节点的采样。
由于WiFi热点连接数据中,连接相同WiFi热点的用户很多,即同构图中存在较多的用户节点拥有上千个邻居用户节点(如某些公共WiFi热点的连接人数较多)。在这里为了平衡速度和效果,先对同构图中每个用户节点的邻居用户节点进行随机采样,将采样的结果作为下一步特征聚合的对象。
(5)通过注意力的方式对各用户节点和邻居用户节点分别对应的用户属性特征进行聚合。
将各节点的邻居特征根据以下公式进行聚合,其中W为待学习的参数矩阵,hj为邻居节点特征,hi为原节点特征,hi’为聚合后特征,σ为sigmoid函数。
Figure BDA0002780429780000211
其中,aij为用户节点i与邻居用户节点j的注意力参数,该aij的计算方法如图5所示,图5是一个注意力参数网络,即用于计算注意力参数的神经网络,其输入是用户节点i和邻居用户节点j的用户属性特征,输入的用户属性特征经过非线性变换,然后将经过非线性变换的结果通过一个softmax层归一化,得到最终的aij,其中,∑jαij=1。
可选的,为了考虑高阶邻居的属性,会进行多次的上述聚合操作,其中每一次聚合时所输入的特征都是上一轮迭代中聚合后的聚合属性特征,从而得到高阶邻居的属性特征。
(6)通过PU-Learning训练二分类模型。
针对每个种子包,以种子用户为正样本,随机用户为未知样本,学习二分类模型。具体步骤如下:
从种子用户P中随机采样部分正样本S,加入到未知类型的样本U,P’=P-S作为正样本,N=U+S作为负样本。
根据样本P’和N训练二分类模型M。鉴于样本P’数量远小于样本N,二分类模型可以采用随机森林算法(Random Forest),无需对特征进行归一化处理。
根据二分类模型M对样本S的预测值确定阈值t,根据二分类模型M对样本U的预测值确定可靠负样本N’。
根据样本P’和N’训练二分类模型M’,将训练后的二分类模型M’作为最终的WiFi推荐模型。
(7)通过训练后的二分类模型对邻居聚合属性特征进行分类,以确定出扩散用户。
通过第(6)步中产出的二分类模型对同构图中各用户节点对应的用户进行打分排序,这里排序出来的头部候选用户,会与种子用户具有相似属性和连接WiFi行为的近似性,从而达到扩散用户的目的。
通过上述实施例的方案,可以具有以下有益效果:
本发明应用在腾讯WiFi管家产品,准确地计算用户之间的相似度,能够帮助我们更加有效地进行人群扩散和召回,提高人群定向的用户覆盖率和精准度,提升广告投放效果。
此外,通过将得到的用户隐向量和WiFi隐向量作为二分类模型的输入,克服推荐***面临的高维度和数据稀疏问题,有利于提升推荐效果。
应该理解的是,虽然图2、7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种基于网络热点的目标用户识别装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:生成模块1002、获取模块1004、采样模块1006、聚合模块1008和扩散模块1010,其中:
生成模块1002,用于基于网络热点连接数据生成用户关系图;用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取模块1004,用于获取用户关系图中各用户节点对应的用户属性特征;
采样模块1006,用于针对用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样;
聚合模块1008,用于将采样后的邻居用户节点对应的用户属性特征与针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征;
扩散模块1010,用于基于邻居聚合属性特征对针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户。
在一个实施例中,用户关系图是基于用户节点形成的用于反映用户关系的同构图;生成模块1002,还用于从网络热点连接数据中提取网络热点标识、用户标识和网络连接关系;生成以网络热点标识为网络节点且以用户标识为用户节点、且网络节点与用户节点之间按照网络连接关系连接的二分图;将二分图中连接相同网络热点的用户节点进行连接,并将网络节点从连接用户节点的二分图中滤除,得到同构图。
在一个实施例中,聚合模块1008,还用于获取针对的用户节点与采样后的各邻居用户节点之间的边权重;根据获取的边权重分别对采样后的各邻居用户节点对应的用户属性特征进行加权,得到加权后的邻居用户属性特征;将针对的用户节点对应的用户属性特征与加权后的邻居用户属性特征进行求和,并对求和后的结果进行归一化得到邻居聚合属性特征。
在一个实施例中,边权重是通过边权重计算步骤所得;如图11所示,该装置还包括:
第一计算模块1012,用于对于针对的用户节点对应的用户,确定用户在预设时段内连接网络热点的频次;将连接相同网络热点的用户所对应的各频次进行求和,得到和值;将和值作为连接相同网络热点的用户所对应的用户节点之间的边权重。
在一个实施例中,用户关系图是基于用户节点形成的用于反映用户关系的同构图;生成模块1002,还用于从网络热点连接数据中提取用户标识;以提取的用户标识为用户节点,并在所有的用户节点中将连接相同网络热点的目标用户节点进行连接,从而形成同构图。
在一个实施例中,用户属性特征包括数值型属性特征和非数值型属性特征;如图11所示,该装置还包括:
处理模块1014,用于对数值型属性特征进行分箱处理,得到离散化的数值型属性特征;
编码模块1016,用于分别对离散化的数值型属性特征和非数值型属性特征进行编码,并将编码所得的结果组合成特征矩阵;
聚合模块1008,还用于将采样后的邻居用户节点对应的特征矩阵与针对的用户节点对应的特征矩阵进行聚合。
在一个实施例中,聚合模块1008,还用于获取针对的用户节点的注意力参数,以及针对的用户节点与采样后的邻居用户节点之间的注意力参数;计算针对的用户节点对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第一积值;以及,计算采样后的且与针对的用户节点相连的邻居用户节点所对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第二积值;对针对的用户节点所对应的第一积值与对应的第二积值进行求和,并将求和的结果进行归一化处理,得到邻居聚合属性特征。
在一个实施例中,注意力参数是基于注意力参数计算步骤所得;如图11所示,该装置还包括:
第二计算模块1018,用于计算参数矩阵与针对的用户节点对应的用户属性特征的乘积,得到第一加权用户属性特征;计算参数矩阵与采样后的邻居用户节点对应的用户属性特征的乘积,得到第二加权用户属性特征;通过注意力参数网络对第一加权用户属性特征和第二加权用户属性特征进行非线性变换;将非线性变换的结果进行归一化,得到注意力参数。
在一个实施例中,扩散模块1010,还用于通过分类模型对邻居聚合属性特征进行分类处理;根据分类处理后的结果对针对的用户节点相应的用户进行评分,并按照评分所得的分值对针对的用户节点相应的用户排序;将排序名次达到预设名次的用户作为扩散用户。
上述实施例中,将用户连接网络热点所形成的网络热点连接数据以图的方式进行组织,得到用户关系图,通过用户关系图各用户节点之间是否存在连接来表达用户之间的关联关系,从而避免了人工干预的方式来构造特征信息,可以有利于快速获得用户之间的关联关系。此外,将邻居用户节点对应的用户属性特征与相应用户节点对应的用户属性特征进行聚合,从而可以得到同时表征网络拓扑结构与用户节点特征相似性的邻居聚合属性特征,基于邻居聚合属性特征对用户节点相应的用户进行评分,从而可以有效地确定扩散用户,提高用户定向扩散的准确性和用户覆盖率。而且,在进行聚合之前,还对每个用户节点相连的邻居用户节点进行采样,然后利用采样后的邻居用户节点对应的用户属性特征与相应用户节点对应的用户属性特征进行聚合,从而可以快速地获得表征网络拓扑结构与用户节点特征相似性的邻居聚合属性特征,进而可以快速、且准确地确定出扩散用户。
在一个实施例中,分类模型是对初始分类模型进行处理所得;如图11所示,该装置还可以包括:
训练模块1020,用于基于网络热点连接数据样本生成样本用户关系图;样本用户关系图中相连的样本用户节点表示相应用户所连接的网络热点相同;样本用户节点包括种子用户节点和随机用户节点;根据样本用户关系图中的各样本用户节点获取属性特征训练集;从属性特征训练集中,将各样本用户节点与相应邻居用户节点分别对应的属性特征训练数据进行聚合,得到训练聚合属性特征;通过训练聚合属性特征对初始分类模型进行训练,当初始分类模型预测出的扩散用户与种子用户之间的特征相似度达到相似阈值时,停止训练。
在一个实施例中,训练模块,还用于从种子用户中取出部分用户;将取出部分用户后的种子用户作为正样本,以及将取出的部分用户与随机用户作为负样本;通过初始分类模型对部分用户对应的训练聚合属性特征进行预测处理,并根据所得的预测值确定分类阈值;以及,通过初始分类模型对随机用户的训练聚合属性特征进行预测处理,得到目标负样本;通过正样本和目标负样本对应的训练聚合属性特征,对经过预测处理后的初始分类模型进行训练。
上述实施例中,通过属性特征训练集中各样本用户节点与相应邻居用户节点分别对应的属性特征训练数据进行聚合,从而得到与种子用户和随机用户相互聚合的训练聚合属性特征,然后利用训练聚合属性特征对初始分类模型进行训练,从而得出的分类模型可以分类出与种子用户的特性相似的扩散用户,利用该分类模型可以快速、且准确地确定出扩散用户。
关于基于网络热点的目标用户识别装置的具体限定可以参见上文中对于基于网络热点的目标用户识别方法的限定,在此不再赘述。上述基于网络热点的目标用户识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户属性特征。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于网络热点的目标用户识别方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种基于网络热点的目标用户识别方法,其特征在于,所述方法包括:
基于网络热点连接数据生成用户关系图;所述用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取所述用户关系图中各用户节点对应的用户属性特征;
针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样;
将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征;
基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户。
2.根据权利要求1所述的方法,其特征在于,所述用户关系图是基于所述用户节点形成的用于反映用户关系的同构图;所述基于网络热点连接数据生成用户关系图包括:
从所述网络热点连接数据中提取网络热点标识、用户标识和网络连接关系;
生成以所述网络热点标识为网络节点且以所述用户标识为所述用户节点、且所述网络节点与所述用户节点之间按照所述网络连接关系连接的二分图;
将所述二分图中连接相同网络热点的用户节点进行连接,并将所述网络节点从连接所述用户节点的二分图中滤除,得到所述同构图。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征包括:
获取所述针对的用户节点与采样后的各邻居用户节点之间的边权重;
根据获取的边权重分别对采样后的各邻居用户节点对应的用户属性特征进行加权,得到加权后的邻居用户属性特征;
将所述针对的用户节点对应的用户属性特征与加权后的邻居用户属性特征进行求和,并对求和后的结果进行归一化得到所述邻居聚合属性特征。
4.根据权利要求3所述的方法,其特征在于,所述边权重是通过边权重计算步骤所得,所述边权重计算步骤包括:
对于所述针对的用户节点对应的用户,确定所述用户在预设时段内连接网络热点的频次;
将连接相同网络热点的用户所对应的各所述频次进行求和,得到和值;
将所述和值作为连接相同网络热点的用户所对应的用户节点之间的边权重。
5.根据权利要求1所述的方法,其特征在于,所述用户关系图是基于所述用户节点形成的用于反映用户关系的同构图;所述基于网络热点连接数据生成用户关系图包括:
从所述网络热点连接数据中提取用户标识;
以提取的用户标识为所述用户节点,并在所有的所述用户节点中将连接相同网络热点的目标用户节点进行连接,从而形成所述同构图。
6.根据权利要求1所述的方法,其特征在于,所述用户属性特征包括数值型属性特征和非数值型属性特征;所述方法还包括:
对所述数值型属性特征进行分箱处理,得到离散化的数值型属性特征;
分别对所述离散化的数值型属性特征和所述非数值型属性特征进行编码,并将编码所得的结果组合成特征矩阵;
所述将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行聚合包括:
将采样后的邻居用户节点对应的特征矩阵与所述针对的用户节点对应的特征矩阵进行聚合。
7.根据权利要求1所述的方法,其特征在于,所述将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征包括:
获取所述针对的用户节点的注意力参数,以及所述针对的用户节点与采样后的邻居用户节点之间的注意力参数;
计算所述针对的用户节点对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第一积值;以及,计算采样后的且与所述针对的用户节点相连的邻居用户节点所对应的用户属性特征、相应的注意力参数和预设的参数矩阵之间的第二积值;
对所述针对的用户节点所对应的所述第一积值与对应的所述第二积值进行求和,并将求和的结果进行归一化处理,得到邻居聚合属性特征。
8.根据权利要求7所述的方法,其特征在于,所述注意力参数是基于注意力参数计算步骤所得,所述注意力参数计算步骤包括:
计算所述参数矩阵与所述针对的用户节点对应的用户属性特征的乘积,得到第一加权用户属性特征;
计算所述参数矩阵与采样后的邻居用户节点对应的用户属性特征的乘积,得到第二加权用户属性特征;
通过注意力参数网络对所述第一加权用户属性特征和所述第二加权用户属性特征进行非线性变换;
将非线性变换的结果进行归一化,得到所述注意力参数。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户包括:
通过分类模型对所述邻居聚合属性特征进行分类处理;
根据分类处理后的结果对所述针对的用户节点相应的用户进行评分,并按照评分所得的分值对所述针对的用户节点相应的用户排序;
将排序名次达到预设名次的用户作为扩散用户。
10.根据权利要求9所述的方法,其特征在于,所述分类模型是对初始分类模型进行处理所得;所述对初始分类模型进行处理包括:
基于网络热点连接数据样本生成样本用户关系图;所述样本用户关系图中相连的样本用户节点表示相应用户所连接的网络热点相同;所述样本用户节点包括种子用户节点和随机用户节点;
根据所述样本用户关系图中的各所述样本用户节点获取属性特征训练集;
从所述属性特征训练集中,将各所述样本用户节点与相应邻居用户节点分别对应的属性特征训练数据进行聚合,得到训练聚合属性特征;
通过所述训练聚合属性特征对所述初始分类模型进行训练,当所述初始分类模型预测出的扩散用户与所述种子用户之间的特征相似度达到相似阈值时,停止训练。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
从所述种子用户中取出部分用户;
将取出所述部分用户后的种子用户作为正样本,以及将取出的所述部分用户与所述随机用户作为负样本;
将所述正样本和所述负样本分别对应的训练聚合属性特征输入所述初始分类模型进行初步训练,以通过所述初始分类模型对所述部分用户对应的训练聚合属性特征进行预测处理,并根据所得的预测值确定分类阈值;以及,通过所述初始分类模型对所述随机用户的训练聚合属性特征进行预测处理,得到目标负样本;
所述通过所述训练聚合属性特征对所述初始分类模型进行训练包括:
通过所述正样本和所述目标负样本对应的训练聚合属性特征,对经过预测处理后的初始分类模型进行训练。
12.一种基于网络热点的目标用户识别装置,其特征在于,所述装置包括:
生成模块,用于基于网络热点连接数据生成用户关系图;所述用户关系图中相连的用户节点表示相应用户所连接的网络热点相同;
获取模块,用于获取所述用户关系图中各用户节点对应的用户属性特征;
采样模块,用于针对所述用户关系图中的每个用户节点,对与所针对的用户节点相连的邻居用户节点按照节点关联性优先采样;
聚合模块,用于将采样后的邻居用户节点对应的用户属性特征与所述针对的用户节点对应的用户属性特征进行加权并求和,将加权并求和后的结果归一化得到邻居聚合属性特征;
扩散模块,用于基于所述邻居聚合属性特征对所述针对的用户节点相应的用户进行评分,并将评分所得的分值达到分值条件时所对应的用户作为扩散用户。
13.根据权利要求12所述的装置,其特征在于,所述用户关系图是基于所述用户节点形成的用于反映用户关系的同构图;所述生成模块,还用于从所述网络热点连接数据中提取网络热点标识、用户标识和网络连接关系;生成以所述网络热点标识为网络节点且以所述用户标识为所述用户节点、且所述网络节点与所述用户节点之间按照所述网络连接关系连接的二分图;将所述二分图中连接相同网络热点的用户节点进行连接,并将所述网络节点从连接所述用户节点的二分图中滤除,得到所述同构图。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202011279957.6A 2020-11-16 2020-11-16 基于网络热点的目标用户识别方法、装置和计算机设备 Pending CN112258250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011279957.6A CN112258250A (zh) 2020-11-16 2020-11-16 基于网络热点的目标用户识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011279957.6A CN112258250A (zh) 2020-11-16 2020-11-16 基于网络热点的目标用户识别方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN112258250A true CN112258250A (zh) 2021-01-22

Family

ID=74266148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011279957.6A Pending CN112258250A (zh) 2020-11-16 2020-11-16 基于网络热点的目标用户识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112258250A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268782A (zh) * 2021-04-23 2021-08-17 中国电子科技集团公司电子科学研究院 一种基于图神经网络的机器账号识别及伪装对抗方法
CN113627253A (zh) * 2021-07-07 2021-11-09 上海交通大学 一种目标重识别方法及装置
CN115081024A (zh) * 2022-08-16 2022-09-20 杭州金智塔科技有限公司 基于隐私保护的去中心化业务模型训练方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268782A (zh) * 2021-04-23 2021-08-17 中国电子科技集团公司电子科学研究院 一种基于图神经网络的机器账号识别及伪装对抗方法
CN113268782B (zh) * 2021-04-23 2022-08-16 中国电子科技集团公司电子科学研究院 一种基于图神经网络的机器账号识别及伪装对抗方法
CN113627253A (zh) * 2021-07-07 2021-11-09 上海交通大学 一种目标重识别方法及装置
CN113627253B (zh) * 2021-07-07 2023-10-27 上海交通大学 一种目标重识别方法及装置
CN115081024A (zh) * 2022-08-16 2022-09-20 杭州金智塔科技有限公司 基于隐私保护的去中心化业务模型训练方法及装置

Similar Documents

Publication Publication Date Title
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
WO2021203854A1 (zh) 用户分类方法、装置、计算机设备和存储介质
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及***
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN110737730B (zh) 基于无监督学习的用户分类方法、装置、设备及存储介质
CN112560829B (zh) 人群数量确定方法、装置、设备及存储介质
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
CN111275492A (zh) 用户画像生成方法、装置、存储介质及设备
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和***
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN116805039B (zh) 特征筛选方法、装置、计算机设备和数据扰动方法
CN116452241B (zh) 一种基于多模态融合神经网络的用户流失概率计算方法
CN116703682A (zh) 一种基于深度学***台
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
CN116306969A (zh) 基于自监督学习的联邦学习方法和***
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN113010772A (zh) 一种数据处理方法、相关设备及计算机可读存储介质
CN110163761B (zh) 基于图像处理的可疑项目成员识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037787

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination