CN112052399B - 一种数据处理方法、装置和计算机可读存储介质 - Google Patents

一种数据处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN112052399B
CN112052399B CN202010806921.2A CN202010806921A CN112052399B CN 112052399 B CN112052399 B CN 112052399B CN 202010806921 A CN202010806921 A CN 202010806921A CN 112052399 B CN112052399 B CN 112052399B
Authority
CN
China
Prior art keywords
data
user
identified
identity
social
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010806921.2A
Other languages
English (en)
Other versions
CN112052399A (zh
Inventor
陈昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010806921.2A priority Critical patent/CN112052399B/zh
Publication of CN112052399A publication Critical patent/CN112052399A/zh
Application granted granted Critical
Publication of CN112052399B publication Critical patent/CN112052399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置和计算机可读存储介质;本发明实施例在获取用户数据集合后,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息;该方案可以大大提升数据处理的准确率。

Description

一种数据处理方法、装置和计算机可读存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,越来越多的应用程序应用在我们生活中,对于一些特定的应用程序,比如,游戏或者其他需要限制特定用户身份的应用程序,用户在使用该应用程序时,就需要对用户数据进行处理,以识别当前使用的用户的身份信息。现有的数据处理方法通常采用实名认证、人脸识别或实名与人脸联合识别等。
在对现有技术的研究和实践过程中,本发明的发明人发现对于现有的身份识别方法都存在采用他人的身份信息来冒充当前使用的用户的身份信息等漏洞,从而导致数据处理的准确率较低。
发明内容
本发明实施例提供一种数据处理方法、装置和计算机可读存储介质,可以提高数据处理的准确率。
一种数据处理方法,包括:
获取用户数据集合,所述用户数据集合包括已识别用户的身份信息、以及所述已识别用户和待识别用户之间的社交行为数据;
根据所述社交行为数据,将所述已识别用户和待识别用户作为数据节点构建社交网络图;
基于所述已识别用户的身份信息,在所述社交网络图的数据节点上添加身份标签,所述身份标签包括初始标签值;
根据预设传播策略,将所述身份标签在所述数据节点之间传播,以更新所述数据节点的初始标签值;
基于更新后的标签值,对所述待识别用户的身份进行识别,得到所述待识别用户的身份信息。
相应的,本发明实施例提供一种数据处理装置,包括:
获取单元,用于获取用户数据集合,所述用户数据集合包括已识别用户的身份信息、以及所述已识别用户和待识别用户之间的社交行为数据;
构建单元,用于根据所述社交行为数据,将所述已识别用户和待识别用户作为数据节点构建社交网络图;
添加单元,用于基于所述已识别用户的身份信息,在所述社交网络图的数据节点上添加身份标识,所述身份标签包括初始标签值;
传播单元,用于根据预设传播策略,将所述身份标签在所述数据节点之间传播,以更新所述数据节点的初始标签值;
识别单元,用于基于更新后的标签值,对所述待识别用户的身份进行识别,得到所述待识别用户的身份信息。
可选的,在一些实施例中,所述添加单元,具体可以用于根据所述已识别用户的身份信息,确定所述数据节点对应的初始标签值;在预设身份标签集合中筛选出所述初始标签值对应的身份标签;将所述身份标签添加至所述社交网络图的数据节点。
可选的,在一些实施例中,所述添加单元,具体可以用于在预设标签值集合中筛选出所述已识别用户的身份信息对应的标签值对,所述标签值对包括基础标签值和候选标签值;在所述社交网络图中识别出所述已识别用户对应的数据节点,得到基础数据节点,将所述基础标签值作为所述基础数据节点的初始标签值;在所述社交网络图中识别出所述待识别用户对应的数据节点,得到候选数据节点,将所述候选标签值作为所述候选数据节点的初始标签值。
可选的,在一些实施例中,所述传播单元,具体可以用于在所述社交网络图中确定出所述基础数据节点与候选数据节点之间的传播关系;根据所述传播关系,构建所述基础数据节点与候选数据节点之间的传播关系数据;基于所述预设传播策略和传播关系数据,将所述基础身份标签传播至所述候选数据节点,以更新所述候选数据节点的候选身份标签的候选标签值。
可选的,在一些实施例中,所述传播单元,具体可以用于对所述传播关系数据进行标准化处理,得到目标传播关系数据;根据所述传播关系,将所述基础身份标签传播至所述候选数据节点;基于所述预设传播策略、目标传播关系数据和基础身份标签,对所述候选数据节点的候选身份标签的候选标签值进行更新。
可选的,在一些实施例中,所述传播单元,具体可以用于获取所述候选数据节点的候选身份标签的留存权重;根据所述留存权重,对所述候选数据节点上的基础标签值和候选标签值进行加权;根据所述预设传播策略,将所述目标传播关系数据、加权后的基础标签值和加权后的候选标签值进行融合,得到所述候选数据节点更新后的标签值。
可选的,在一些实施例中,所述识别单元,具体可以用于获取用于识别所述待识别用户的身份的标签阈值;将所述标签阈值与所述候选数据节点更新后的标签值进行对比;当所述标签值超过所述标签阈值时,确定所述候选数据节点对应的待识别用户的身份信息与所述已识别用户的身份信息相同。
可选的,在一些实施例中,所述构建单元,具体可以用于在所述社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据;根据所述社交关系数据,将所述已识别用户和待识别用户作为数据节点构建社交网络图。
可选的,在一些实施例中,所述构建单元,具体可以用于根据社交行为的类型,对所述社交行为数据进行分类,并在分类后的社交行为数据中筛选出目标社交行为对应的数据,得到目标社交行为数据;在所述目标社交行为数据中统计出所述目标社交行为的社交次数和社交对象;根据所述社交次数和社交对象,确定所述已识别用户与待识别用户之间的社交关系数据。
可选的,在一些实施例中,所述构建单元,具体可以用于对所述已识别用户和待识别用户之间的社交次数进行归一化;根据归一化的社交次数,确定所述已识别用户和待识别用户之间的社交行为权重;将所述社交对象和社交行为权重进行融合,得到所述已识别用户和待识别用户之间的社交关系数据。
可选的,在一些实施例中,所述构建单元,具体可以用于将所述已识别用户和待识别用户作为所述社交网络图的数据节点;根据所述社交关系数据,确定所述数据节点的位置信息;基于所述位置信息,构建所述已识别用户和待识别用户之间的社交网络图。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的数据处理方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种数据处理方法中的步骤。
本发明实施例在获取用户数据集合后,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,然后,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息;由于该方案利用部分已知身份信息的已识别用户、以及已识别用户和待识别用户之间的社交行为数据来构建社交网络图,在社交网络图中添加已识别用户和待识别用户的身份标签,基于预设传播策略,将身份标签在社交网络图中的数据节点之间传播,来更新待识别用户的身份标签,可以快速准确对已识别用户和待识别用户进行聚类,进而识别出待识别用户的身份信息,因此,可以大大提升数据处理的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据处理方法的场景示意图;
图2是本发明实施例提供的数据处理方法的流程示意图;
图3是本发明实施例提供的社交网络图的示意图;
图4是本发明实施例提供的社交网络图的局部示意图;
图5是本发明实施例提供的社交网络图中的社区结构示意图;
图6是本发明实施例提供的数据处理方法的另一流程示意图;
图7是本发明实施例提供的社交网络图中的成年人与未成年人对应的社区结构示意图;
图8是本发明实施例提供的数据处理装置的结构示意图;
图9是本发明实施例提供的数据处理装置的传播单元的结构示意图;
图10是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据处理方法、装置和计算机可读存储介质。其中,该数据处理装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以数据处理装置集成在电子设备中为例,电子设备获取用户数据集合,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,然后,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息。
其中,身份信息可以为描述用户身份的信息,比如,在一些应用程序中,需要限制部分用户的使用时间,将法定年龄低于18周岁的用户称为未成年用户,未成年用户此时就可以为用户的身份信息。还比如,用户在学校上学,需要使用一些校园类的应用程序,此时,该用户在校园内的应用程序中的身份信息就可以为XX学校或XX学院的学生。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以识别身份信息的智能设备等设备。
一种数据处理方法,包括:
获取用户数据集合,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息。
如图2所示,该数据处理方法的具体流程如下:
101、获取用户数据集合。
其中,用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据。
所谓社交行为数据可以包括已识别用户和待识别用户之间进行社交行为的数据,比如,已识别用户和待识别用户之间组队的数据、添加对方为好友的数据或者互相发送社交信息的数据等,社交行为数据中可以包括已识别用户和待识别用户的用户集合。
例如,可以直接获取用户数据集合,比如,可以直接从应用程序的数据库中获取用户数据集合。又比如,可以通过数据采集服务器来接收用户或者应用程序的运营商上传的用户数据,得到用户数据集合。当用户数据集合中的数据内存过大时,还可以间接获取用户数据集合,比如,用户或者应用程序的运营商将用户数据上传至第三方数据库,然后,将存储地址发送至数据处理装置,数据处理装置根据存储地址,在第三方数据库中将用户数据集合下载下来。还可以直接从网络上爬取各个应用程序的用户数据,得到用户数据集合。获取的用户数据集合可以为一个时间段内的历史用户数据,也可以为应用程序的实时用户数据。用户数据集合的获取的方式可以为周期性获取,周期性获取的条件可以为设定一个时间段或者一个数据内存大小,比如,可以设定为每周获取一次,或者设定为当需要获取的用户数据集合的数据内存达到一个预设的内存阈值时,再进行获取,甚至还可以为待识别用户的数量达到一个阈值时,再进行获取。当然,获取方式也可以为非周期性的单次或多次获取等。
102、根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图。
其中,社交网络图可以为表示已识别用户和待识别用户的社交关系的图数据,该图数据的各个数据节点表示的是已识别用户和待识别用户,可以如图3所示。
例如,可以在社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据,根据社交关系数据,将已识别用户和待识别用户作为数据节点构建社交网络图,具体可以如下:
S1、在社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据。
其中,社交关系数据可以为已识别用户和待识别用户对应的数据节点之间的社交对象信息和社交行为权重信息等。
例如,根据社交行为的类型,对社交行为数据进行分类,并在分类后的社交行为数据中筛选出目标社交行为对应的数据,得到目标社交行为数据,在目标社交行为数据中统计出目标社交行为的社交次数和社交对象,根据社交次数和社交对象,确定已识别用户与待识别用户之间的社交关系数据,具体可以如下:
(1)根据社交行为的类型,对社交行为数据进行分类,并在分类后的社交行为数据中筛选出目标社交行为对应的数据,得到目标社交行为数据。
其中,社交行为可以包括已识别用户和待识别用户之间的组队行为、发送社交信息或互相添加好友等行为。
例如,根据设计行为的类型,对社交行为数据进行分类,比如,将组队行为的数据分为一类、将发送社交信息的数据分为一类或将互相添加好友等行为分为一类。在分类后的社交行为数据筛选出目标社交行为数据对应的数据,比如,可以在分类后的社交行为数据中筛选出已识别用户和待识别用户组队行为的数据,比如,与组队行为相关的数据,譬如,可以为组队次数、组队时间、组队对象或组队频率等数据,将这些数据作为目标社交行为数据。
(2)在目标社交行为数据中统计出目标社交行为的社交次数和社交对象。
其中,社交对象可以为已识别用户和待识别用户在社交过程中的对象,该对象可以为进行目标社交行为的已识别用户和待识别用户双方。
例如,可以在目标社交行为中统计出目标社交行为的社交次数和社交对象,比如,在组队行为相关的社交行为数据中统计出哪些已识别用户和待识别用户作为组队对象进行组队以及它们组队的次数,得到组队行为的社交对象和社交次数。
(3)根据社交次数和社交对象,确定已识别用户与待识别用户之间的社交关系数据。
其中,社交关系数据可以为评价已识别用户和待识别用户之间社交程度或者社交关系亲密度的关系数据。
例如,对已识别用户和待识别用户之间的社交次数进行归一化,根据归一化的社交次数,确定已识别用户和待识别用户之间的社交行为权重,比如,当社交行为为组队行为时,已识别用户A和待识别用户B的组队次数为k次,当k大于0时,则已识别用户A和待识别用户之间的组队行为权重可以为lg(K+1),当k等于0是,则已识别用户A和待识别用户B之间的组队行为权重为0。将社交对象和社交行为权重进行融合,得到已识别用户和待识别用户之间的社交关系数据。比如,通过计算已识别用户和待识别用户之间的组队行为权重,将社交对象和组队行为权重进行融合,就可以得到每一对社交行为对象之间的社交行为权重,也就是说可以得到每一个已识别用户与待识别用户之间的社交行为权重,将全部的已识别用户与待识别用户之间的社交行为权重作为用户社交关系数据,该社交关系数据包括社交对象和社交对象对应的社交行为权重。
S2、根据社交关系数据,将已识别用户和待识别用户作为数据节点构建社交网络图。
例如,将已识别用户和待识别用户作为社交网络图的数据节点,根据社交关系数据,确定数据节点的位置信息,比如,根据在社交关系数据中筛选出每个数据节点对应的社交对象,根据社交对象对应的社交行为权重,确定数据节点之间的空间距离,将已识别用户对应的数据节点作为基础数据节点,根据基础数据节点的预设位置,进一步就可以确定剩下的数据节点的位置信息。基于位置信息,构建已识别用户和待识别用户之间的社交网络图,比如,按照基础数据节点的预设位置和其他数据节点的位置信息,就可以构建已识别用户和待识别用户之间的社交网络图,如图3所示。
103、基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标签。
其中,身份标签可以包括初始标签值,比如,可以为特征值为标签值的标签矩阵。
例如,根据已识别用户的身份信息,确定数据节点对应的初始标签值。比如,在预设标签值集合中筛选出已识别用户的身份信息对应的标签值对,该标签值对包括基础标签和候选标签值,譬如,标签值对可以为(+1,-1),+1为基础标签值,-1为候选标签值。在社交网络图中识别出已识别用户对应的数据节点,得到基础数据节点,将基础标签值作为基础数据节点的初始标签值,在社交网络图中识别出待识别用户对应的数据节点,得到候选数据节点,将候选数据标签作为候选数据节点的初始标签值。在预设身份标签集合中筛选出初始标签值对应的身份标签,比如,可以在预设身份标签集合中筛选出基础标签值对应的基础身份标签和候选标签值对应的候选身份标签,譬如,以+1为基础标签值,-1为候选标签值为例,基础身份标签就可以为特征值为+1的标签矩阵,候选身份标签就可以为特征值为-1的标签矩阵。将身份标签添加至社交网络图的数据节点,比如,可以在社交网络图的全部数据节点上添加空白身份标签,然后,根据数据节点对应的身份标签,将空白身份标签进行初始化,譬如,将基础数据节点的空白身份标签初始化为基础身份标签,将候选数据节点的空白身份标签初始为候选身份标签,因此,可以得到添加身份标签的社交网络图中的社交网络G=(A,X),其中,A为已识别用户和待识别用户之间的关联矩阵,X为已识别用户和待识别用户对应的各个数据节点的初始身份标签。
104、根据预设传播策略,将身份标签在所述数据节点之间传播,以更新数据节点的初始标签值。
例如,可以在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系,根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据,基于预设传播策略和传播关系数据,将基础身份标签传播至候选数据节点,以更新候选数据节点的候选身份标签的候选标签值,具体可以如下:
C1、在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系。
例如,传播关系可以为已识别用户的身份标签向待识别用户的进行传播的传播顺序或传播路径等关系。比如,以社交网络图局部如图4所示,已识别用户为数据节点1,待识别用户为数据节点2、数据节点3和数据节点4为例,数据节点1的身份标签向待识别用户进行传播,直接可以传播的数据节点为数据节点2和3,然后,通过数据节点3间接传播至数据节点4,因此,传播顺序或者传播路径就可以为数据节点1传播至数据节点2和数据节点3,数据节点3更新完自己的身份标签之后,将数据节点3更新后的身份标签传播至数据节点4。
C2、根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据。
例如,根据确定出的基础数据节点与候选数据节点之间的传播关系,可以构建出基础数据节点与候选数据节点之间的传播关系数据,比如,该传播关系数据可以为与基础数据节点存在直接或间接传播关系的候选数据节点和基础数据节点之间的传播矩阵。全部的基础数据节点与候选数据节点之间的传播矩阵与社交网络图中的用户关联矩阵相同。
C3、基于预设传播策略和传播关系数据,将基础身份标签传播至候选数据节点,以更新候选数据节点的候选身份标签的候选标签值。
例如,可以对传播关系数据进行标准化处理,得到目标传播关系数据,根据传播关系,将基础身份标签传播至候选数据节点,基于预设传播策略、目标传播关系数据和基础身份标签,对候选数据节点的候选身份标签的候选标签值进行更新,具体如下:
(1)对传播关系数据进行标准化处理,得到目标传播关系数据。
例如,对传播关系数据进行标准化处理,得到目标传播关系数据,比如,可以采用拉普拉斯矩阵对基础数据节点的传播矩阵进行标准化处理,具体公式如下:
其中,为目标传播关系数据,I为单位矩阵,D为拉普拉斯矩阵,D中只有对角元素非零,D中对角线元素按如下公式计算:
Dii=1+∑jAij
其中,Dii为D矩阵中第i行第i列的对角元素,Aij为传播关系数据对应的传播矩阵的第i行第j列的元素。
(2)根据传播关系,将基础身份标签传播至候选数据节点。
例如,根据传播关系,将基础身份标签从基础数据节点向候选数据节点进行传播,传播的方式可以包括直接传播和间接传播,比如,直接传播就可以为从基础数据节点将基础身份标签直接传播到候选数据节点,间接传播就可以为基础数据节点先将基础身份标签传播给第一候选数据节点,第一候选数据节点再将基础身份标签和第一候选数据节点自身的第一候选身份标签传播给第二候选数据节点,直到传播到最后一个候选数据节点,传播的次数可以为一次或多次,传播直至收敛后,停止传播,此时,候选数据节点接收的身份标签可以包括基础身份标签、上一个候选数据节点传播的候选身份标签以及自身的候选身份标签。
(3)基于预设传播策略、目标传播关系数据和基础身份标签,对候选数据节点的候选身份标签的候选标签值进行更新。
例如,获取候选数据节点的候选身份标签的留存权重,留存权重为用于留存自身的候选身份标签的权重系数。比如,可以在预设留存权重集合中筛选出候选身份标签对应的留存权重。根据留存权重,对候选数据节点上的基础标签值和候选标签值进行加权,比如,以留存权重为α为例,则上一个数据节点的身份标签的权重就可以为(1-α),根据留存权重,对基础标签值和候选标签值进行加权。根据预设传播策略,将目标传播关系数据、加权后的基础身份标签和加权后的候选标签值进行融合,得到候选数据节点更新后的标签值,比如,以预设传播策略为如下公式为例:
其中,H为未经过传播的候选数据节点的候选身份标签的候选标签值,为目标传播关系数据,α为候选身份标签的留存权重。Hl+1为传播后的候选数据节点更新后的标签值,Hl为接收的上一个候选数据节点传播的候选标签值或者基础数据节点传播的基础标签值。
当Hl+1为直接接收基础数据节点传播基础身份标签的候选数据节点的候选标签值时,Hl就可以为基础数据节点的基础标签值,当Hl+1为间接接收基础数据节点传播的身份标签的候选数据节点的候选标签值时,则Hl就可以为发送的上一个传播的候选数据节点的候选标签值。将H0进行初始化,就可以认为H0=X,X为数据节点的初始标签值。当将基础身份标签在社交网络图中的候选数据节点之间传播直至收敛后,可以通过求极限的方法,直接可以计算出来每个候选数据节点更新后的候选身份标签的候选标签值,具体计算公式如下:
其中,H为候选数据节点更新后的标签值,α为留存权重,I为单位矩阵,为目标传播关系数据,X为候选数据节点的初始标签值。
105、基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息。
例如,获取用于识别待识别用户的身份的标签阈值,比如,该标签阈值可以为0、0.5或者任意数值。将标签阈值与候选数据节点更新后的标签值进行对比,当标签值超过标签阈值时,确定候选数据节点对应的待识别用户的身份信息与已识别用户的身份信息相同,比如,以标签阈值为0为例,当数据节点更新后的标签值为0.5,则可以确定该数据节点对应的待识别用户的身份信息与已识别用户的身份信息相同,譬如,已识别用户的身份信息为未成年人,则可以确定该数据节点对应的待识别用户的身份信息也为未成年,反之,当数据节点更新后的标签值未超过标签阈值时,可以确定候选数据节点对应的待识别用户的身份信息与已识别用户的身份信息不相同。比如,以标签阈值为0,已识别用户的身份信息为未成年人为例,当数据节点更新后的标签值为-0.3,可以确定数据节点对应的待识别用户的身份信息为成年人。
可选的,在确定完社交网络图中候选数据节点对应的全部待识别用户的身份信息之后,还可以根据确定的身份信息,将社交网络图中的节点进行分类,构成社交网络图中的社区结构,如图5所示。
由以上可知,本发明实施例在获取用户数据集合后,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,然后,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息;由于该方案利用部分已知身份信息的已识别用户、以及已识别用户和待识别用户之间的社交行为数据来构建社交网络图,在社交网络图中添加已识别用户和待识别用户的身份标签,基于预设传播策略,将身份标签在社交网络图中的数据节点之间传播,来更新待识别用户的身份标签,可以快速准确对已识别用户和待识别用户进行聚类,进而识别出待识别用户的身份信息,因此,可以大大提升数据处理的准确率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该数据处理装置具体集成在电子设备,电子设备为服务器,用户数据集合为游戏应用程序的用户数据,已识别用户的身份信息为未成年玩家为例进行说明。
如图6所示,一种数据处理方法,具体流程如下:
201、服务器获取用户数据集合。
其中,用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据
例如,服务器直接从游戏应用程序的数据库中获取用户数据集合,或者可以接收游戏应用程序上传的用户数据,得到用户数据集合。当用户数据内存较大时,直接发送或者采集速度较慢时,可以通过第三方数据库进行中转,比如,游戏应用程序的运营商定时将全部用户数据或者部分新增用户数据存储至第三方数据库,然后,将存储地址发送至服务器,服务器接收到存储地址之后,在特定时间,比如闲时或者其他时间,根据存储地址,在第三方数据库中将用户数据下载下来,得到用户数据集合。服务器还可以在互联网上爬取该游戏应用程序的用户数据,得到用户数据集合。对于获取用户数据集合的时间,可以为周期性获取,周期性获取的条件可以为设定一个时间段或者一个数据内存大小,比如,可以设定为每周获取一次,或者设定为当需要获取的用户数据集合的数据内存达到一个预设的内存阈值时,再进行获取,甚至还可以为待识别用户的数量达到一个阈值时,再进行获取。当然,获取方式也可以为非周期性的单次或多次获取等。
202、服务器在社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据。
例如,服务器根据社交行为的类型,对社交行为数据进行分类,并在分类后的社交行为数据中筛选出组队游戏行为为对应的数据,得到组队游戏行为数据,在组队游戏行为数据中统计出组队游戏行为的组队游戏次数和组队游戏对象,根据组队游戏次数和组队游戏对象,确定已识别用户与待识别用户之间的社交关系数据,具体可以如下:
(1)服务器根据社交行为的类型,对社交行为数据进行分类,并在分类后的社交行为数据中筛选出组队游戏行为为对应的数据,得到组队游戏行为数据。
例如,服务器可以将组队游戏行为的数据分为一类、将发送社交信息的数据分为一类或将互相添加好友等行为分为一类。在分类后的社交行为数据中筛选出已识别用户和待识别用户组队游戏行为的数据,该组队游戏行为的数据可以包括组队游戏次数、组队游戏时间、组队游戏的对象和组队频率等,得到组队游戏行为数据。
(2)服务器在组队游戏行为数据中统计出组队游戏行为的组队游戏次数和组队游戏对象。
例如,服务器在组队游戏行为数据中统计出哪些已识别用户和待识别用户作为组队游戏对象进行组队以及它们组队的次数,得到组队游戏行为的组队游戏次数和组队游戏对象。
(3)服务器根据组队游戏次数和组队游戏对象,确定已识别用户与待识别用户之间的社交关系数据。
例如,服务器对已识别用户和待识别用户之间的组队游戏次数进行归一化,以已识别用户A和待识别用户B的组队游戏次数为k次为例,当k大于0时,则已识别用户A和待识别用户之间的组队游戏的组队行为权重可以为lg(K+1),当k等于0是,则已识别用户A和待识别用户B之间的组队行为权重为0。通过计算已识别用户和待识别用户之间的组队行为权重,将组队游戏对象和组队行为权重进行融合,就可以得到每一对组队游戏对象之间的社交行为权重,也就是说可以得到每一个已识别用户与待识别用户之间的组队行为权重,将全部的已识别用户与待识别用户之间的组队行为权重作为用户社交关系数据,该社交关系数据包括社交对象和社交对象对应的组队行为权重。
203、服务器根据社交关系数据,将已识别用户和待识别用户作为数据节点构建社交网络图。
例如,服务器根据在社交关系数据中筛选出每个数据节点对应的组队游戏对象,根据组队游戏对象对应的组队行为权重,确定数据节点之间的空间距离,将已识别用户对应的数据节点作为基础数据节点,根据基础数据节点的预设位置,进一步就可以确定剩下的数据节点的位置信息。按照基础数据节点的预设位置和其他数据节点的位置信息,就可以构建已识别用户和待识别用户之间的社交网络图。
204、服务器基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标签。
例如,服务器在预设标签值集合中筛选出已识别用户的未成年玩家身份对应的标签值对,该标签值对包括基础标签和候选标签值,比如,标签值对可以为(+1,-1),+1为基础标签值,-1为候选标签值。在社交网络图中识别出已识别用户对应的数据节点,得到基础数据节点,将基础标签值作为基础数据节点的初始标签值,在社交网络图中识别出待识别用户对应的数据节点,得到候选数据节点,将候选数据标签作为候选数据节点的初始标签值。以+1为基础标签值,-1为候选标签值为例,基础身份标签就可以为特征值为+1的标签矩阵,候选身份标签就可以为特征值为-1的标签矩阵。在社交网络图的全部数据节点上添加空白身份标签,然后,根据数据节点对应的身份标签,将空白身份标签进行初始化,譬如,将基础数据节点的空白身份标签初始化为基础身份标签,将候选数据节点的空白身份标签初始为候选身份标签,因此,可以得到添加身份标签的社交网络图中的社交网络G=(A,X),其中,A为已识别用户和待识别用户之间的关联矩阵,X为已识别用户和待识别用户对应的各个数据节点的初始身份标签。
205、服务器在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系。
例如,以社交网络图局部如图4所示,已识别用户为数据节点1,待识别用户为数据节点2、数据节点3和数据节点4为例,服务器将数据节点1的身份标签向待识别用户进行传播,直接可以传播的数据节点为数据节点2和3,然后,通过数据节点3间接传播至数据节点4,因此,传播顺序或者传播路径就可以为数据节点1传播至数据节点2和数据节点3,数据节点3更新完自己的身份标签之后,将数据节点3更新后的身份标签传播至数据节点4。
206、服务器根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据。
例如,服务器根据确定出的基础数据节点与候选数据节点之间的传播关系,可以构建与基础数据节点存在直接或间接传播关系的候选数据节点和基础数据节点之间的传播矩阵。全部的基础数据节点与候选数据节点之间的传播矩阵与社交网络图中的用户关联矩阵相同。
207、服务器基于预设传播策略和传播关系数据,将基础身份标签传播至候选数据节点,以更新候选数据节点的候选身份标签的候选标签值。
例如,服务器可以对传播关系数据进行标准化处理,得到目标传播关系数据,根据传播关系,将基础身份标签传播至候选数据节点,基于预设传播策略、目标传播关系数据和基础身份标签,对候选数据节点的候选身份标签的候选标签值进行更新,具体如下:
(1)服务器对传播关系数据进行标准化处理,得到目标传播关系数据。
例如,服务器可以采用拉普拉斯矩阵对基础数据节点的传播矩阵进行标准化处理,具体公式如下:
其中,为目标传播关系数据,I为单位矩阵,D为拉普拉斯矩阵,D中只有对角元素非零,D中对角线元素按如下公式计算:
Dii=1+∑jAij
其中,Dii为D矩阵中第i行第i列的对角元素,Aij为传播关系数据对应的传播矩阵的第i行第j列的元素。
(2)服务器根据传播关系,将基础身份标签传播至候选数据节点。
例如,服务器根据传播关系,将基础身份标签从基础数据节点向候选数据节点进行传播,传播的方式可以包括直接传播和间接传播,比如,直接传播就可以为从基础数据节点将基础身份标签直接传播到候选数据节点,间接传播就可以为基础数据节点先将基础身份标签传播给第一候选数据节点,第一候选数据节点再将基础身份标签和第一候选数据节点自身的第一候选身份标签传播给第二候选数据节点,直到传播到最后一个候选数据节点,传播的次数可以为一次或多次,传播直至收敛后,停止传播,此时,候选数据节点接收的身份标签可以包括基础身份标签、上一个候选数据节点传播的候选身份标签以及自身的候选身份标签。
(3)服务器基于预设传播策略、目标传播关系数据和基础身份标签,对候选数据节点的候选身份标签的候选标签值进行更新。
例如,服务器可以在预设留存权重集合中筛选出候选身份标签对应的留存权重。根据留存权重,对候选数据节点上的基础标签值和候选标签值进行加权,比如,以留存权重为α为例,则上一个数据节点的身份标签的权重就可以为(1--α),根据留存权重,对基础标签值和候选标签值进行加权。根据预设传播策略,将目标传播关系数据、加权后的基础身份标签和加权后的候选标签值进行融合,预设传播策略可以为如下公式:
其中,H为未经过传播的候选数据节点的候选身份标签的候选标签值,为目标传播关系数据,α为候选身份标签的留存权重。Hl+1为传播后的候选数据节点更新后的标签值,Hl为接收的上一个候选数据节点传播的候选标签值或者基础数据节点传播的基础标签值。
当Hl+1为直接接收基础数据节点传播基础身份标签的候选数据节点的候选标签值时,Hl就可以为基础数据节点的基础标签值,当Hl+1为间接接收基础数据节点传播的身份标签的候选数据节点的候选标签值时,则Hl就可以为发送的上一个传播的候选数据节点的候选标签值。将H0进行初始化,就可以认为H0=X,X为数据节点的初始标签值。当将基础身份标签在社交网络图中的候选数据节点之间传播直至收敛后,可以通过求极限的方法,直接可以计算出来每个候选数据节点更新后的候选身份标签的候选标签值,具体计算公式如下:
其中,H为候选数据节点更新后的标签值,α为留存权重,I为单位矩阵,为目标传播关系数据,X为候选数据节点的初始标签值。
208、服务器基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息。
例如,服务器获取用于识别待识别用户的身份的标签阈值,该标签阈值可以为0、0.5或者任意数值。将标签阈值与候选数据节点更新后的标签值进行对比,当标签值超过标签阈值时,以标签阈值为0为例,当数据节点更新后的标签值为0.5为例,此时可以确定数据节点对应的待识别用户的身份信息为未成年玩家,与已识别用户的身份信息相同。反之,当数据节点更新后的标签值未超过标签阈值时,以标签阈值为0为例,当数据节点更新后的标签值为-0.5为例,此时,可以确定数据节点对应的待识别用户的身份信息为成年玩家,与已识别用户的身份信息不相同。
可选的,在确定完社交网络图中候选数据节点对应的全部待识别用户的身份信息之后,还可以根据确定的身份信息,将社交网络图中的节点进行分类,构成社交网络图中的社区结构,可以分为未成年对应的社区结构和成年人对应的社区结构,如图7所示。
由以上可知,本实施例服务器在获取用户数据集合后,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,然后,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息;由于该方案利用部分已知身份信息的已识别用户、以及已识别用户和待识别用户之间的社交行为数据来构建社交网络图,在社交网络图中添加已识别用户和待识别用户的身份标签,基于预设传播策略,将身份标签在社交网络图中的数据节点之间传播,来更新待识别用户的身份标签,可以快速准确对已识别用户和待识别用户进行聚类,进而识别出待识别用户的身份信息,因此,可以大大提升数据处理的准确率。
为了更好地实施以上方法,本发明实施例还提供一种数据处理装置,该数据处理装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图8所示,该数据处理装置可以包括获取单元301、构建单元302、添加单元303、传播单元304和识别单元305,如下:
(1)获取单元301;
获取单元301,用于获取用户数据集合,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据。
例如,获取单元301,具体可以用于直接从应用程序的数据库中获取用户数据集合,还可以通过数据采集服务器来接收用户或者应用程序的运营商上传的用户数据,得到用户数据集合。
(2)构建单元302;
构建单元302,用于根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图。
例如,构建单元302,具体可以用于在社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据,根据社交关系数据,将已识别用户和待识别用户作为数据节点构建社交网络图。
(3)添加单元303;
添加单元303,用于基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值。
例如,添加单元303,具体可以用于根据已识别用户的身份信息,确定数据节点对应的初始标签值,在预设身份标签集合中筛选出初始标签值对应的身份标签,将身份标签添加至社交网络图的数据节点。
(4)传播单元304;
传播单元304,用于根据预设传播策略,将身份标签在所述数据节点之间传播,以更新数据节点的初始标签值。
其中,传播单元304可以包括确定子单元3041、构建子单元3042和传播子单元3043,如图9所示,具体如下:
确定子单元3041,用于在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系;
构建子单元3042,用于根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据;
传播子单元3043,用于基于预设传播策略和传播关系数据,将基础身份标签传播至候选数据节点,以更新候选数据节点的候选身份标签的候选标签值。
例如,确定子单元3041在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系,构建子单元3042根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据,传播子单元3043根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据。
(5)识别单元305;
识别单元305,用于基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息。
例如,识别单元305,具体可以用于获取用于识别所述待识别用户的身份的标签阈值,将标签阈值与候选数据节点更新后的标签值进行对比,当标签值超过标签阈值时,确定候选数据节点对应的待识别用户的身份信息与已识别用户的身份信息相同。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取用户数据集合后,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,构建单元302根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,添加单元303基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,然后,传播单元304根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,识别单元305基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息;由于该方案利用部分已知身份信息的已识别用户、以及已识别用户和待识别用户之间的社交行为数据来构建社交网络图,在社交网络图中添加已识别用户和待识别用户的身份标签,基于预设传播策略,将身份标签在社交网络图中的数据节点之间传播,来更新待识别用户的身份标签,可以快速准确对已识别用户和待识别用户进行聚类,进而识别出待识别用户的身份信息,因此,可以大大提升数据处理的准确率。
本发明实施例还提供一种电子设备,如图10所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体检测。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取用户数据集合,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息。
例如,电子设备可以直接从应用程序的数据库中获取用户数据集合,还可以通过数据采集服务器来接收用户或者应用程序的运营商上传的用户数据,得到用户数据集合。在社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据,根据社交关系数据,将已识别用户和待识别用户作为数据节点构建社交网络图。根据已识别用户的身份信息,确定数据节点对应的初始标签值,在预设身份标签集合中筛选出初始标签值对应的身份标签,将身份标签添加至社交网络图的数据节点。在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系,根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据,基于预设传播策略和传播关系数据,将基础身份标签传播至候选数据节点,以更新候选数据节点的候选身份标签的候选标签值。获取用于识别所述待识别用户的身份的标签阈值,将标签阈值与候选数据节点更新后的标签值进行对比,当标签值超过标签阈值时,确定候选数据节点对应的待识别用户的身份信息与已识别用户的身份信息相同。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取用户数据集合后,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,然后,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息;由于该方案利用部分已知身份信息的已识别用户、以及已识别用户和待识别用户之间的社交行为数据来构建社交网络图,在社交网络图中添加已识别用户和待识别用户的身份标签,基于预设传播策略,将身份标签在社交网络图中的数据节点之间传播,来更新待识别用户的身份标签,可以快速准确对已识别用户和待识别用户进行聚类,进而识别出待识别用户的身份信息,因此,可以大大提升数据处理的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种数据处理方法中的步骤。例如,该指令可以执行如下步骤:
获取用户数据集合,该用户数据集合包括已识别用户的身份信息、以及已识别用户和待识别用户之间的社交行为数据,根据社交行为数据,将已识别用户和待识别用户作为数据节点构建社交网络图,基于已识别用户的身份信息,在社交网络图的数据节点上添加身份标识,该身份标签包括初始标签值,根据预设传播策略,将身份标签在数据节点之间传播,以更新数据节点的初始标签值,基于更新后的标签值,对待识别用户的身份进行识别,得到待识别用户的身份信息
例如,电子设备可以直接从应用程序的数据库中获取用户数据集合,还可以通过数据采集服务器来接收用户或者应用程序的运营商上传的用户数据,得到用户数据集合。在社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据,根据社交关系数据,将已识别用户和待识别用户作为数据节点构建社交网络图。根据已识别用户的身份信息,确定数据节点对应的初始标签值,在预设身份标签集合中筛选出初始标签值对应的身份标签,将身份标签添加至社交网络图的数据节点。在社交网络图中确定出基础数据节点与候选数据节点之间的传播关系,根据传播关系,构建基础数据节点与候选数据节点之间的传播关系数据,基于预设传播策略和传播关系数据,将基础身份标签传播至候选数据节点,以更新候选数据节点的候选身份标签的候选标签值。获取用于识别所述待识别用户的身份的标签阈值,将标签阈值与候选数据节点更新后的标签值进行对比,当标签值超过标签阈值时,确定候选数据节点对应的待识别用户的身份信息与已识别用户的身份信息相同。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方面或的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种数据处理方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种数据处理方法,其特征在于,包括:
获取用户数据集合,所述用户数据集合包括已识别用户的身份信息、以及所述已识别用户和待识别用户之间的社交行为数据;
在所述社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据;
根据所述社交关系数据,将所述已识别用户和待识别用户作为数据节点构建社交网络图;
基于所述已识别用户的身份信息,在所述社交网络图的数据节点上添加身份标签,所述身份标签包括初始标签值;
根据预设传播策略,将所述身份标签在所述数据节点之间传播,以更新所述数据节点的初始标签值;
基于更新后的标签值,对所述待识别用户的身份进行识别,得到所述待识别用户的身份信息。
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述已识别用户的身份信息,在所述社交网络图的数据节点上添加身份标签,包括:
根据所述已识别用户的身份信息,确定所述数据节点对应的初始标签值;
在预设身份标签集合中筛选出所述初始标签值对应的身份标签;
将所述身份标签添加至所述社交网络图的数据节点。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述已识别用户的身份信息,确定所述数据节点对应的初始标签值,包括:
在预设标签值集合中筛选出所述已识别用户的身份信息对应的标签值对,所述标签值对包括基础标签值和候选标签值;
在所述社交网络图中识别出所述已识别用户对应的数据节点,得到基础数据节点,将所述基础标签值作为所述基础数据节点的初始标签值;
在所述社交网络图中识别出所述待识别用户对应的数据节点,得到候选数据节点,将所述候选标签值作为所述候选数据节点的初始标签值。
4.根据权利要求3所述的数据处理方法,其特征在于,所述身份标签包括所述基础标签值对应的基础身份标签和所述候选标签值对应的候选身份标签,所述根据预设传播策略,将所述身份标签在所述数据节点之间传播,以更新所述数据节点的初始标签值,包括:
在所述社交网络图中确定出所述基础数据节点与候选数据节点之间的传播关系;
根据所述传播关系,构建所述基础数据节点与候选数据节点之间的传播关系数据;
基于所述预设传播策略和传播关系数据,将所述基础身份标签传播至所述候选数据节点,以更新所述候选数据节点的候选身份标签的候选标签值。
5.根据权利要求4所述的数据处理方法,其特征在于,所述基于所述预设传播策略和传播关系数据,将所述基础身份标签传播至所述候选数据节点,以更新所述候选数据节点的候选身份标签的候选标签值,包括:
对所述传播关系数据进行标准化处理,得到目标传播关系数据;
根据所述传播关系,将所述基础身份标签传播至所述候选数据节点;
基于所述预设传播策略、目标传播关系数据和基础身份标签,对所述候选数据节点的候选身份标签的候选标签值进行更新。
6.根据权利要求5所述的数据处理方法,其特征在于,所述基于所述预设传播策略、目标传播关系数据和基础身份标签,对所述候选数据节点的候选身份标签的候选标签值进行更新,包括:
获取所述候选数据节点的候选身份标签的留存权重;
根据所述留存权重,对所述候选数据节点上的基础标签值和候选标签值进行加权;
根据所述预设传播策略,将所述目标传播关系数据、加权后的基础标签值和加权后的候选标签值进行融合,得到所述候选数据节点更新后的标签值。
7.根据权利要求3至6任一项所述的数据处理方法,其特征在于,所述基于更新后的标签值,对所述待识别用户的身份进行识别,得到所述待识别用户的身份信息,包括:
获取用于识别所述待识别用户的身份的标签阈值;
将所述标签阈值与所述候选数据节点更新后的标签值进行对比;
当所述标签值超过所述标签阈值时,确定所述候选数据节点对应的待识别用户的身份信息与所述已识别用户的身份信息相同。
8.根据权利要求1所述的数据处理方法,其特征在于,所述在所述社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据,包括:
根据社交行为的类型,对所述社交行为数据进行分类,并在分类后的社交行为数据中筛选出目标社交行为对应的数据,得到目标社交行为数据;
在所述目标社交行为数据中统计出所述目标社交行为的社交次数和社交对象;
根据所述社交次数和社交对象,确定所述已识别用户与待识别用户之间的社交关系数据。
9.根据权利要求8所述的数据处理方法,其特征在于,所述根据所述社交次数和社交对象,确定所述已识别用户与待识别用户之间的社交关系数据,包括:
对所述已识别用户和待识别用户之间的社交次数进行归一化;
根据归一化的社交次数,确定所述已识别用户和待识别用户之间的社交行为权重;
将所述社交对象和社交行为权重进行融合,得到所述已识别用户和待识别用户之间的社交关系数据。
10.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述社交关系数据,将所述已识别用户和待识别用户作为数据节点构建社交网络图,包括:
将所述已识别用户和待识别用户作为所述社交网络图的数据节点;
根据所述社交关系数据,确定所述数据节点的位置信息;
基于所述位置信息,构建所述已识别用户和待识别用户之间的社交网络图。
11.一种数据处理装置,其特征在于,包括:
获取单元,用于获取用户数据集合,所述用户数据集合包括已识别用户的身份信息、以及所述已识别用户和待识别用户之间的社交行为数据;
构建单元,用于在所述社交行为数据中提取出已识别用户与待识别用户之间的社交关系数据;根据所述社交关系数据,将所述已识别用户和待识别用户作为数据节点构建社交网络图;
添加单元,用于基于所述已识别用户的身份信息,在所述社交网络图的数据节点上添加身份标签,所述身份标签包括初始标签值;
传播单元,用于根据预设传播策略,将所述身份标签在所述数据节点之间传播,以更新所述数据节点的初始标签值;
识别单元,用于基于更新后的标签值,对所述待识别用户的身份进行识别,得到所述待识别用户的身份信息。
12.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现如权利要求1至10任一项所述的数据处理方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10任一项所述的数据处理方法中的步骤。
CN202010806921.2A 2020-08-12 2020-08-12 一种数据处理方法、装置和计算机可读存储介质 Active CN112052399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010806921.2A CN112052399B (zh) 2020-08-12 2020-08-12 一种数据处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010806921.2A CN112052399B (zh) 2020-08-12 2020-08-12 一种数据处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112052399A CN112052399A (zh) 2020-12-08
CN112052399B true CN112052399B (zh) 2023-10-31

Family

ID=73602610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010806921.2A Active CN112052399B (zh) 2020-08-12 2020-08-12 一种数据处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112052399B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111114A (zh) * 2021-04-21 2021-07-13 北京易数科技有限公司 基于社交网络的数据处理方法、装置、介质、电子设备
CN114615090B (zh) * 2022-05-10 2022-08-23 富算科技(上海)有限公司 基于跨域标签传播的数据处理方法及***、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893381A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于半监督标签传播的微博用户群体划分方法
US20180316665A1 (en) * 2017-04-27 2018-11-01 Idm Global, Inc. Systems and Methods to Authenticate Users and/or Control Access Made by Users based on Enhanced Digital Identity Verification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893381A (zh) * 2014-12-23 2016-08-24 天津科技大学 一种基于半监督标签传播的微博用户群体划分方法
US20180316665A1 (en) * 2017-04-27 2018-11-01 Idm Global, Inc. Systems and Methods to Authenticate Users and/or Control Access Made by Users based on Enhanced Digital Identity Verification

Also Published As

Publication number Publication date
CN112052399A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
US8566262B2 (en) Techniques to filter media content based on entity reputation
CN112084422B (zh) 一种账号数据智能处理方法和装置
WO2020207249A1 (zh) 通知消息的推送方法、装置、存储介质及电子设备
CN109471978B (zh) 一种电子资源推荐方法及装置
CN112104642B (zh) 一种异常账号确定方法和相关装置
CN112052399B (zh) 一种数据处理方法、装置和计算机可读存储介质
CN107807940B (zh) 信息推荐方法和装置
CN110196805B (zh) 数据处理方法、装置、存储介质和电子装置
CN111538859A (zh) 一种动态更新视频标签的方法、装置及电子设备
WO2020202327A1 (ja) 学習システム、学習方法、及びプログラム
CN114300082B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN110215703A (zh) 游戏应用的选择方法、装置及***
CN116070017A (zh) 一种数据推荐方法、装置及电子设备
CN116307078A (zh) 账户标签预测方法、装置、存储介质及电子设备
CN113098974B (zh) 一种确定人口数量的方法、服务器及存储介质
WO2022143505A1 (zh) 群组类型识别方法、装置、计算机设备及介质
CN107403352B (zh) 对根据产品评估确定的感兴趣主题进行优先级排序
CN112396151B (zh) 谣言事件的分析方法、装置、设备及计算机可读存储介质
CN115329214A (zh) 一种用户推荐方法、装置、电子设备及存储介质
CN116415624A (zh) 模型训练方法及装置、内容推荐方法及装置
CN118051782B (zh) 一种模型训练的方法、业务处理的方法以及相关装置
CN112116441B (zh) 金融风险分类模型的训练方法、分类方法、装置及设备
CN113807403B (zh) 模型训练的方法、装置、计算机设备及存储介质
CN113076450B (zh) 一种目标推荐列表的确定方法和装置
KR102562282B1 (ko) 성향 기반 매칭 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant