CN112084422A - 一种账号数据智能处理方法和装置 - Google Patents

一种账号数据智能处理方法和装置 Download PDF

Info

Publication number
CN112084422A
CN112084422A CN202010896462.1A CN202010896462A CN112084422A CN 112084422 A CN112084422 A CN 112084422A CN 202010896462 A CN202010896462 A CN 202010896462A CN 112084422 A CN112084422 A CN 112084422A
Authority
CN
China
Prior art keywords
account
information
community
account information
subgroup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010896462.1A
Other languages
English (en)
Other versions
CN112084422B (zh
Inventor
赖茂立
吴翰昌
陈龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010896462.1A priority Critical patent/CN112084422B/zh
Publication of CN112084422A publication Critical patent/CN112084422A/zh
Application granted granted Critical
Publication of CN112084422B publication Critical patent/CN112084422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种账号数据智能处理方法和装置,所述方法包括:获取用户的账号信息和登录设备信息间的第一关系网络图,将第一关系网络图转换为账号信息之间的第二关系网络图,确定第二关系网络图中两两账号信息间的连接权重。基于连接权重,对第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合。根据用户画像信息,对目标账号社群集合中每个目标账号社群进行聚类分析,得到账号聚类子群,对账号聚类子群进行合理性验证,当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。所述方法通过图计算和信息熵结合的方式,提高了识别同一用户下的账号信息的准确性,并减小了识别结果的误差。

Description

一种账号数据智能处理方法和装置
技术领域
本申请涉及账号数据处理领域,尤其涉及一种账号数据智能处理方法和装置。
背景技术
用户在进行游戏活动、购物活动、网络社交活动时,由于网络存在的虚拟性和匿名性,用户可能会存在多个账号,并在不同的设备上进行登录。且为了保护用户的隐私,运营商会将与用户隐私相关的用户设备信息进行匿名化处理,因此通常无法采集到完整的用户设备信息。
在现有技术中,采用设备信息作为用户的唯一标识信息,根据设备信息确定登录的账号归属同一用户,再根据设备信息和对应的用户,识别异常用户。由于无法采集到完整的设备信息,且用户存在借用同学或者同事、朋友手机登录应用软件等行为,导致获取的用户账号与设备的对应信息比较分散,难以归属于同一用户,导致对用户账号的管理难度较大。
发明内容
本申请提供了一种账号数据智能处理方法和装置,可以提高识别同一用户下的账号信息的准确性,减小识别结果的误差,并提高用户管理的有效性。
一方面,本申请提供了一种账号数据智能处理方法,所述方法包括:
获取用户的账号信息和登录设备信息间的第一关系网络图;
将所述第一关系网络图转换为账号信息之间的第二关系网络图;
确定所述第二关系网络图中两两账号信息间的连接权重;
基于所述连接权重,对所述第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合;
获取所述第二关系网络图中账号信息对应的用户画像信息;
根据所述用户画像信息,对所述目标账号社群集合中每个目标账号社群进行聚类分析,得到至少一个账号聚类子群;
获取所述至少一个账号聚类子群中各个账号信息对应的属性标签;
基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证;
当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。
另一方面提供了一种账号数据智能处理装置,所述装置包括:第一关系网络生成模块、第二关系网络获取模块、连接权重确定模块、账号社群获取模块、用户画像获取模块、账号聚类子群获取模块、属性标签获取模块、账号聚类子群验证模块和用户标识生成模块;
所述第一关系网络生成模块用于获取用户的账号信息和登录设备信息间的第一关系网络图;
所述第二关系网络获取模块用于将所述第一关系网络图转换为账号信息之间的第二关系网络图;
所述连接权重确定模块用于确定所述第二关系网络图中两两账号信息间的连接权重;
所述账号社群获取模块用于基于所述连接权重,对所述第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合;
所述用户画像获取模块用于获取所述第二关系网络图中账号信息对应的用户画像信息;
所述账号聚类子群获取模块用于根据所述用户画像信息,对所述目标账号社群集合中每个账号社群进行聚类分析,得到至少一个账号聚类子群;
所述属性标签获取模块用于获取所述至少一个账号聚类子群中各个账号信息对应的属性标签;
所述账号聚类子群验证模块用于基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证;
所述用户标识生成模块用于当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。
另一方面提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述所述的一种账号数据智能处理方法。
另一方面提供了一种计算机可读存储介质,所述存储介质包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述所述的一种账号数据智能处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,是的该计算机设备执行上述账号数据处理或者用户管理的各种可选实现方式中提供的方法。
本申请提供的一种账号数据智能处理方法和装置,所述方法包括:获取用户的账号信息和登录设备信息,构建账号信息和登录设备信息之间的第一关系网络图,并将第一关系网络图转换为账号信息之间的第二关系网络图。对第二关系网络图中账号信息之间的连接关系增加连接权重,基于连接权重,对第二关系网络图的账号信息进行社群划分,得到账号社群集合。对账号社群集合进行聚类,得到至少一个账号聚类子群。通过信息熵的方式对账号聚类子群的合理性进行验证,对通过验证的账号聚类子群生成对应的用户标识信息。通过图计算和信息熵结合的方式,提高了识别同一用户下的账号信息的准确性,并减小了识别结果的误差。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种账号数据智能处理方法的应用场景示意图;
图2为本申请实施例提供的一种账号数据智能处理方法的流程图;
图3为本申请实施例提供的一种账号数据智能处理方法中账号信息与登录设备信息构成的第一关系网络图的结构示意图;
图4为本申请实施例提供的一种账号数据智能处理方法中第一关系网络图转换为第二关系网络图的方法流程图;
图5为本申请实施例提供的一种账号数据智能处理方法中账号与设备间的距离的示意图;
图6为本申请实施例提供的一种账号数据智能处理方法中账号信息之间构成的第二关系网络图的结构示意图;
图7为本申请实施例一种账号数据智能处理方法中确定连接权重的方法流程图;
图8为本申请实施例提供的一种账号数据智能处理方法中进行剪枝操作的方法流程图;
图9为本申请实施例提供的一种账号数据智能处理方法中获取目标账号社群集合的方法流程图;
图10为本申请实施例提供的一种账号数据智能处理方法中对账号聚类子群进行合理性验证的方法流程图;
图11为本申请实施例提供的一种账号数据智能处理方法中对账号聚类子群的一致性程度进行验证的方法流程图;
图12为本申请实施例提供的一种账号数据智能处理方法中对账号聚类子群的可信性程度进行验证的方法流程图;
图13为本申请实施例提供的一种账号数据智能处理方法中的根据用户标识信息管理账号的方法流程图;
图14为本申请实施例提供的一种账号数据智能处理方法应用于游戏场景下的数据处理流程图;
图15为本申请实施例提供的一种账号数据智能处理装置的结构示意图;
图16为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且,术语“第一”、“第二”等适用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
请参见图1,其显示了本申请实施例提供的一种账号数据智能处理方法的应用场景示意图,所述应用场景可以包括用户端110和服务器120,服务器120获取用户端110对应的用户的账号信息和登录设备信息,构建账号信息和登录设备信息的第一关系网络图,并转换为账号信息之间的第二关系网络图。服务器120在第二关系网络图中加入连接权重后进行社群划分,得到目标账号社群的集合。服务器120根据用户画像信息,对目标账号社群的集合中的目标账号社群进行聚类,得到账号聚类子群。服务器120通过信息熵验证账号聚类子群的合理性,对通过验证的账号聚类子群生成用户标识信息。服务器120基于用户标识信息和用户行为信息,对相应的账号聚类子群中的账号信息进行分析。
在本申请实施例中,所述用户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中实体设备上运行的操作***可以包括但不限于安卓***、IOS***、linux、Unix、windows等。用户端110包括UI(User Interface,用户界面)层,所述用户端110通过所述UI层对外进行用户数据的采集,另外,基于API(ApplicationProgramming Interface,应用程序接口)将数据分析所需的数据发送给服务器120。
在本申请实施例中,所述服务器120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器120可以用于基于用户端发送的用户数据,进行数据分析处理、社群划分、聚类和合理性验证等操作,得到账号聚类子群并生成账号聚类子群对应的用户标识信息,所述服务器120还可以用于基于用户行为信息和用户标识信息,对账号聚类子群中的账号信息进行管理。
在本申请实施例中,所述账号数据处理可以通过机器学习的方式进行构建,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
请参见图2,其显示了一种账号数据智能处理方法,可应用于服务器侧,所述方法包括:
S210.获取用户的账号信息和登录设备信息间的第一关系网络图;
具体地,如图3所示,获取用户的账号信息和登录设备信息,将全部的账号信息和登录设备信息相连接,构成账号信息和登录设备信息之间的异构图,即第一关系网络图。可以通过业务平台、客户端、后台以及第三方的数据,获取账号信息和登录设备信息。在一个具体的实施例中,业务平台可以是游戏推荐平台。在一个具体的实施例中,账号信息可以是游戏账号信息、社交账号信息或购物账号信息等,登录设备信息可以为登录游戏账号信息、社交账号信息或购物账号信息时的登录设备,游戏账号信息可以包括用户名称、分配账号标识信息、应用标识等,登录设备信息可以包括国际移动设备识别码(InternationalMobile Equipment Identity,IMEI)、谷歌广告标识信息(Google Advertising ID)、国家工信部推出的匿名设备标识符,ios***或安卓***对应的设备标识等。
在获取账号信息和登录设备信息后,可以对账号信息和登录设备信息进行预处理。通过信息摘要算法(Message-Digest Algorithm,md5)和哈希算法对账号信息和登录设备信息进行编码,得到编码后的账号信息和登录设备信息,再基于编码后的账号信息和登录设备信息,构成第一关系网络图。在一个具体的实施例中,将账号信息和登录设备信息转换为字符串数据,得到哈希后的二进制字符串。
处理算法为hash(col)*10000000+hash(md5(col))%10000000,其中,col列作为账号信息和登录设备信息的数据,hash(col)*10000000为直接对账号信息和登录设备信息的数据进行哈希后的处理结果,hash(md5(col))%10000000为对账号信息和登录设备信息的数据进行md5后再哈希的处理结果,将这两个处理结果组合得到编码处理结果。
对账号信息和登录设备信息进行编码处理,可以对账号信息和登录设备信息的标识格式进行统一,从而便于管理账号信和登录设备信息,以构建第一关系网络图。
S220.将所述第一关系网络图转换为账号信息之间的第二关系网络图;
进一步地,请参见图4,所述将所述第一关系网络图转换为账号信息之间的第二关系网络图包括:
S410.确定所述第一关系网络图中的非直接相连账号和直接相连账号,所述非直接相连账号表征所述第一关系网络图中基于相同登录设备信息相连的两个账号信息,所述直接相连账号表征所述第一关系网络图中直接相连的两个账号信息;
S420.获取所述非直接相连账号间的账号距离;
S430.当所述非直接相连账号间的账号距离等于预设账号距离时,将账号距离等于预设账号距离的非直接相连账号作为间接相连账号;
S440.根据所述直接相连账号和所述间接相连账号,构建所述账号信息之间的第二关系网络图。
具体地,在本说明书实施例中,非直接相连账号之间可能通过至少一个登录设备连接在一起的。非直接相连账号之间具有连接距离,在一个具体的实施例中,非直接相连账号间的连接距离可以为两个账号信息联通路径中的最少登录设备数。根据预设的连接距离,将与预设的连接距离匹配的两个账号信息确定为间接相连账号。将每一组间接相连账号连接在一起,去除掉它们中间相连的登录设备。连接距离可以设置为1,在一个具体的实施例中,如图5所示,空心圆圈表示登录设备信息,实心圆点表示账号信息,a账号信息和b账号信息为非直接相连账号,它们的连通路径有两条,两条连通路径中都只有一个登录设备,因此a账号信息和b账号信息的连接距离为1,则可以将a账号信息和b账号信息之间建立连接。
在第一关系网络图中确定直接相连账号和间接相连账号之后,将其他的登录设备信息的节点和其他账号信息的节点剔除,并删除对应的连接关系,则可以得到账号信息与账号信息之间的同构关系图,如图6所示,实心圆点表示账号信息,该同构关系图即为第二网络关系图,此时的第二网络关系图为同权网络。
根据图计算的方式将第一关系网络图转换为第二关系网络图,可以确定账号信息之间的连接关系,对账号信息之间的关系进行抽象的描述,便于进行后续的社群划分等步骤。
S230.确定所述第二关系网络图中两两账号信息间的连接权重;
进一步地,请参见图7,所述确定所述第二关系网络图中两两账号信息间的连接权重包括:
S710.获取所述第二关系网络图中账号信息对应的登录信息和/或用户画像信息;
S720.基于所述登录信息和/或所述用户画像信息,确定所述第二关系网络图中两两账号信息间的相似度;
S730.根据所述两两账号信息间的相似度,确定所述第二关系网络图中两两账号信息间的连接权重。
具体地,对第二网络关系图中的连接关系进行加权时,可以通过第二关系网络图中的账号信息对应的登录信息或者用户画像信息,或者用户画像信息和登录信息进行连接权重的计算。登录信息可以包括最近半年在该登录设备机型活跃天数总和,以及两个账号信息之间登录过的登录设备的数量。用户画像信息可以包括用户的年龄信息、偏好信息、登录设备的类型信息等。根据上述信息,计算第二关系网络图中两两账号信息之间的相似度。根据该相似度,确定第二关系网络图中两两账号信息之间的连接权重。当两两账号信息之间的相似度越大时,说明这两个账号信息越有可能属于同一用户,因此连接权重也就越大。计算相似度并进一步计算连接权重时,可以建立权重计算模型,输入登录信息或用户画像信息,或者用户画像信息和登录信息后输出连接权重,或者根据预设的计算方式计算连接权重。在一个具体的实施例中,若通过登录信息计算连接权重,则可以将最近半年在该登录设备机型活跃天数总和除以预设的误差修正值后,与两个账号信息之间登录过的登录设备信息的数量相加,得到连接权重。该误差修正值可以为30或是其他数值。以图5中的a账号信息和b账号信息为例,最近半年在该登录设备机型活跃天数总和即a、b两个账号信息在两个登录设备上的累计活跃天数,两个账号信息之间登录过的登录设备的数量为a账号信息和b账号信息之间的共同的登录设备个数,如图5所示为2。则可以根据上述数值计算a账号信息与b账号信息的连接关系对应的连接权重。
引入连接权重可以表示出各个账号信息之间的关联程度,根据账号信息之间的关联程度,可以更好地进行社群划分,提高社群划分的准确性。
进一步地,请参见图8,所述确定所述第二关系网络图中两两账号信息间的连接权重之后,还包括:
S810.遍历所述第二关系网络图中的每一账号信息,当遍历到每一账号信息时,执行下述步骤:
S820.确定所述第二关系网络图中与当前遍历到的账号信息相连的账号信息;
S830.将所述相连的账号信息按照所述相连的账号信息与所述当前遍历到的账号信息之间的连接权重的数值大小由大到小进行排序,得到相连账号信息序列;
S840.确定相连账号信息序列中前预设数量个账号信息;
S850.基于所述前预设数量个账号信息更新所述第二关系网络图。
在一些实施例中,在确定连接权重后,可以根据连接权重进行剪枝操作,断开连接权重较低的网络。对第二关系网络图中的每个账号信息均进行剪枝操作,对第二关系网络图中的账号信息进行遍历,获取与当前遍历到的账号信息相连的账号信息。将当前遍历到的账号信息和相连的账号信息之间的连接关系上的连接权重的数值大小从大到小进行排序,得到相连账号信息序列。在相连账号信息序列中获取前预设数目的账号信息,例如选取序列中的连接权重排列在前100位的账号信息,将100位之外的相连账号信息与对应的账号信息之间的连接关系断开,即完成一次剪枝操作。
对第二关系网络图中的每个账号信息均进行上述的剪枝处理,基于每一次相连账号信息序列中获取前预设数目的账号信息,更新第二关系网络图。
通过剪枝处理,可以降低第二关系网络图的中账号信息的密度,降低处理的复杂度。
S240.基于所述连接权重,对所述第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合;
进一步地,请参见图9,所述基于所述连接权重,对所述第二关系网络图中的目标账号信息进行社群划分,得到目标账号社群集合包括:
S910.创建账号社群集合,所述账号社群集合中每一账号社群包括一个账号信息;
S920.从所述账号社群集合中选取一个账号社群为目标账号社群;
S930.基于所述目标账号社群中的账号信息与相连的账号信息之间的连接权重和所述目标账号社群中的账号信息之间的连接权重,计算所述目标账号社群的第一模块度;
S940.将所述目标账号社群中的目标账号信息加入到与所述目标账号信息相连的账号信息对应的账号社群中,得到相邻账号社群;
S950.基于所述相邻账号社群中的账号信息与相连的账号信息之间的连接权重和所述相邻账号社群中的账号信息之间的连接权重,计算所述相邻账号社群的第二模块度;
S960.获取所述第二模块度和所述第一模块度之间的差值;
S970.根据所述差值,更新所述账号社群集合;
S980.从更新后的账号社群集合中选取一个账号社群为目标账号社群,重复上述更新账号社群集合的步骤,至当前更新后的账号社群集合中任一目标账号社群对应的相邻账号社群的第二模块度与对应的第一模块度的差值均满足预设条件;
S990.将差值均满足预设条件时的当前账号社群集合作为所述目标账号社群集合。
具体地,对加入连接权重的第二关系网络图进行社群划分,可以采用例如fastunfolding算法等,得到目标账号社群集合。
在进行社群划分时,可以通过模块度来确定本次划分是否合理。模块度指的是网络中连接社群结构内部两个节点的边所占第二关系网络图中各个边对应的连接权重比例,减去在同样的社群结构下任意连接这两个节点的边所占第二关系网络图中各个边对应的连接权重比例的期望值。模块度的计算公式如下:
Figure BDA0002658612410000091
其中,
Figure BDA0002658612410000092
表示的是网络中的所有的连接权重,Ai,j表示的是节点i和节点j之间的连接权重,ki=∑jAi,j表示的是与节点i连接的边的连接权重,ci表示的是节点i被分配到的社群,δ(ci,cj)用于判断节点i和节点j是否被划分在同一个社区中,若是,则返回1,若否,则返回0。
上述模块度的计算可以简化为如下公式:
Figure BDA0002658612410000093
其中,∑in表示的是社群c内部的连接权重,∑tot表示的是与社群c内部的点连接的边的连接权重,包括社群内部的边以及社群外部的边。
fast unfolding算法是一种迭代算法。对第二关系网络中的每个目标账号信息均创建一个对应的账号社群。先选取一个账号社群作为目标账号社群,目标账号社群中的账号信息作为本次待划分的对象。
根据该目标账号社群中的账号信息与相连的账号信息之间的连接权重,该目标账号社群内以及该目标账号社群外的相连的账号信息,以及包含该目标账号社群中的账号信息之间的连接权重,计算目标账号社群对应的第一模块度,即划分目标账号信息之前的第一模块度。若该账号社群中只有一个目标账号信息,则该账号社群内的连接关系为该目标账号信息与自己进行连接,也就是两个相连的目标账号信息为同一账号信息时的连接权重。
将待划分的目标账号信息划分到任意一个与该目标账号信息相连的账号信息对应的账号社群中,得到相邻账号社群。根据该相邻账号社群中的账号信息对应的连接权重,包括该相邻账号社群内以及该相邻账号社群外的相连的账号信息,以及该相邻账号社群中的账号信息之间的连接权重,计算相邻账号社群对应的第二模块度,在计算相邻账号社群对应的第二模块度时,相邻账号社群中已经包含了目标账号信息。
比较第二模块度和第一模块度之间的差值,若差值为正,则说明本次划分后模块度增加,那么本次划分是合理的,将划分后的结果作为新的账号社群的分布结果,即将目标账号社群中的目标账号信息划分到相邻的账号社群中。若差值为负,则说明本次划分后模块度减少,那么本次划分不合理,维持原本的目标账号社群与相邻账号社群之间的关系。
重复上述步骤,直到选择任一账号社群作为目标账号社群时,划分后对应的第二模块度与划分前对应的第一模块度之间的差值均为负,说明无论怎么进行划分都无法再在网络中增加模块度,此时网络中的模块度达到最大值,将此时的账号社群作为目标账号社群的集合。
通过社群划分算法和连接权重进行社群划分,提高社群划分结果的准确性,可以将关联度高的账号信息归入到同一账号社群中,提高同一用户识别的准确性。
S250.获取所述第二关系网络图中账号信息对应的用户画像信息;
S260.根据所述用户画像信息,对所述目标账号社群集合中每个目标账号社群进行聚类分析,得到至少一个账号聚类子群;
具体地,对目标账号社群的集合中的每个账号信息引入使用者的用户画像信息。用户画像信息的内容可以包括用户的省份、城市、偏好等信息。
若某几个账号信息是同一个用户使用,那么这些账号信息对应的使用者画像应该一致。则可以基于用户画像信息,通过聚类算法分别对每个目标账号社群进行聚类,将目标账号社群中与用户画像信息匹配的所有账号信息划分为账号聚类子群。一个目标账号社群中至少存在一个账号聚类子群。账号聚类子群其实也可以理解为某个自然人下的账号体系群,在账号聚类子群中的各个账号信息对应的用户画像信息是一致的。
通过聚类的方式,可以初步得到同一用户所属的账号信息,提高同一用户识别的准确性。
S270.获取所述至少一个账号聚类子群中各个账号信息对应的属性标签;
S280.基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证;
进一步地,请参见图10,所述基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证包括:
S1010.根据所述属性标签,计算所述至少一个账号聚类子群的信息熵;
S1020.根据所述信息熵,确定所述至少一个账号聚类子群中账号信息的一致性程度;
S1030.根据不同属性标签对应的账号信息数目,确定所述至少一个账号聚类子群的可信性程度;
S1040.根据所述一致性程度和所述可信性程度,对所述至少一个账号聚类子群进行合理性验证。
具体地,基于信息熵,可以对账号聚类子群的分类是否准确进行验证。账号聚类子群的属性标签可以包括账号聚类子群中各个账号信息对应的城市,或者根据第三方的调研数据得到的各个账号信息归属于的账号聚类子群。通过不同账号信息对应的属性标签,可以计算在这些账号信息所属的账号聚类子群中的信息熵。信息熵为某种特性信息出现的概率,可以描述数据的混乱程度,当账号聚类子群的账号信息越一致时,账号聚类子群的信息熵值越低。
信息熵的计算公式如下:
Figure BDA0002658612410000111
其中,pi表示不同的属性标签下对应的账号信息,占总的账号聚类子群中的账号信息的比例。
根据信息熵,验证账号聚类子群中账号信息的一致性程度,一致性程度可以通过R1来表示。同时根据不同属性标签下对应的账号信息数目,以及该账号子群中总的账号信息数目,可以确定该账号子群的可信性程度,可信性程度可以通过R2来表示。
进行验证时,可以通过一致性程度R1和可信性程度R2的乘积,计算账号聚类子群的合理性验证度量值,即R=R1*R2。
其中,R是合理性验证度量值,R>0说明聚类子群合理,R<=0说明聚类子群可能有问题,需要重新调整。
通过信息熵对账号聚类子群进行验证,提高识别到同一用户的准确性,减少识别结果的误差。
进一步地,请参见图11,所述根据所述信息熵,确定所述至少一个账号聚类子群中账号信息的一致性程度包括:
S1110.根据所述属性标签的种类信息,确定第一惩罚系数;
S1120.根据所述信息熵和所述第一惩罚系数,确定所述至少一个账号聚类子群中的账号信息的一致性程度。
具体地,R1作为一致性程度度量,可以通过R1=H(Q)/B–A1计算得到。
其中,H(Q)是指该账号聚类子群的信息熵。B为一致性度量的惩罚系数,惩罚系数是为了降低信息熵计算中,所选取的属性标签的种类过多造成的干扰,在一个具体的实施例中,惩罚系数可以为属性标签的种类数。A1为一致性度量的拒绝阈值,一致性度量的拒绝阈值是一个超参数,可以根据大量实际经验总结得到,优选的,这个值取到0.4。
进一步地,请参见图12,所述根据不同属性标签对应的账号信息数目,确定所述至少一个账号聚类子群的可信性程度包括:
S1210.获取所述至少一个账号聚类子群的账号信息数目;
S1220.获取所述至少一个账号聚类子群中与不同属性标签匹配的账号信息数目;
S1230.确定所述与不同属性标签匹配的账号信息数目中的最大值;
S1240.根据所述最大值与所述至少一个账号聚类子群的账号信息数目的比值,确定所述至少一个账号聚类子群的可信性程度。
具体地,R2作为可信程度度量,可以通过R2=MAX(X1,X2,···Xn)-A2。
其中,计算所选取的不同种类的属性标签对应的账号信息数目各自占总的账号信息数目的比例,其中最大值即为MAX(X1,X2,···Xn)。A2为可信程度度量的拒绝阈值,可信程度度量的拒绝阈值是一个超参数,可以根据大量实际经验总结得到,优选的,这个值取到0.6。
在一个具体的实施例中,若某一账号聚类子群的属性标签为城市信息,该账号聚类子群中共计3个账号信息,其中两个账号信息的城市信息为上海市,另一个账号信息的城市信息为空。根据信息熵的计算公式,H(Q)=-(P(上海_上海)*log2(P(上海_上海))+P(null_null)*log2(P(null_null))),因为只存在上海和空集null两种取值,则惩罚系数为2。在该账号聚类子群中,两个账号信息的城市信息为上海,则MAX(上海,null)=2/3,最终可以通过E(Q),惩罚系数B和MAX(上海,null)计算得到R1和R2,并最终得到R>0,则说明账号信息的划分是可行的。
在一个具体的实施例中,若某一账号聚类子群的属性标签为第三方数据,在该账号聚类子群中一共有3个账号信息,而在第三方数据中,这3个账号信息中有两个账号信息在同一账号聚类子群中,有一个账号信息在另一个账号聚类子群中。根据信息熵公式,H(Q)=-(P(C)*log2(P(C))+P(D)*log2(P(D)))*log2(P(null_null))),其中C表示第三方数据中在同一账号聚类子群中的两个账号信息对应的账号聚类子群,D表示在另一个账号聚类子群中的账号信息对应的账号聚类子群,因此P(C)=2/3,P(D)=1/3。由于在第三方数据中,对这三个账号信息而言只有两个不同的账号聚类子群,则惩罚系数B为2,相应的,在第三方数据中账号信息分布最多的是C,包括了两个账号信息,则MAX(C1,C2)=2/3。最终可以通过账号聚类子群的信息熵H(Q),惩罚系数B和MAX(C1,C2)计算得到R1和R2,并最终得到R>0,则说明账号信息的划分是可行的。
通过信息熵对账号聚类子群进行验证,提高识别到同一用户的准确性,减少识别结果的误差。
S290.当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。
具体地,可以通过账号聚类子群标识信息+账号社群标识信息来获得一个唯一主键去指代这个账号聚类子群所对应的自然人。
比如某个账号社群的标识信息为82392382923823828,这个账号社群下的一个账号聚类子群是class1,那么对应的自然人可以编号为class1|82392382923823828。
将验证合理的账号聚类子群的标识信息作为用户标识信息,也可以将验证合理的账号聚类子群的标识信息从0开始重新进行编号,将重编号后的标识信息确定为用户标识信息。该用户标识信息对应的账号信息属于同一自然人。
在本申请的一个具体的实施例中,也可以对账号聚类子群中的账号信息以及对应的登录设备信息进行编号,得到账号信息的列表和登录设备信息的列表,便于进行账号管理。
进一步地,请参见图13,所述方法还包括:
S1310.获取与所述账号信息对应的用户行为数据;
S1320.确定与所述账号信息对应的用户标识信息;
S1330.基于所述用户行为数据,对与所述用户标识信息对应的账号聚类子群进行管理。
具体地,获取与用户标识信息对应的账号聚类子群中的登录设备信息对应的新增账号信息,或者与用户标识信息对应的账号聚类子群中的账号信息对应的新增设备信息,更新账号聚类子群中的账号信息和对应的登录设备信息,以及获取该新增账号信息和新增设备信息在登录时对应的登录地点信息,例如省份信息或城市信息,若该登录地点信息与历史登录地点信息相比存在变化,同样更新相应的登录地点信息。
根据账号聚类子群中的账号信息的行为数据,还可以进行大小号的分析、登录设备使用频率的分析和异常节点分析等,若应用于游戏场景中,则可以根据分析结果,在游戏运营中进行策略性的干预,若应用于其他场景中,例如购物场景,则可以对用户的各个账号信息进行适应性的推送等。
确定用户的大号和小号时,可以根据用户标识信息对应的账号聚类子群中各个账号信息在应用软件中的活跃程度以及消费金额等,对各个账号信息进行排序,得到基于用户标识信息的大小号的序号。活跃程度高和消费金额高的账号信息说明是用户的大号,活跃程度低和消费金额低的账号信息说明是用户的小号。
确定登录设备的使用频率时,可以获取用户标识信息对应的账号聚类子群中各个账号信息在登录时使用的登录设备类型,登录设备类型可以包括手机、电脑、ipad等,以及各种手机的类型。对用户标识信息对应的在账号聚类子群中的账号信息登录过的所有登录设备进行统计,将登录设备根据账号信息登录次数进行排序,确定账号登录次数最多的登录设备为常用设备,账号信息登录次数最少的登录设备为非常用设备。
进行异常账号信息或异常登录设备信息的识别时,可以将在剪枝操作中过滤掉的用户通过join关联操作,归并到通过fast-unfolding算法输出的账号社群中,重新构建账号聚类子群。根据新构建的账号聚类子群中各个账号信息的用户行为进行分析,确定是否存在异常账号信息或异常登录设备信息。
对标识为同一用户的各个账号信息进行统一的管理,可以有针对性地对同一用户所属的账号信息进行干预,提高了数据分析的准确性和用户管理的有效性。
在一个具体的实施例中,本申请实施例所述的一种账号数据智能处理方法可以应用在游戏场景中。请参见图14,通过游戏推荐平台、游戏客户端、游戏后台以及其他第三方数据,进行用户数据的收集,包括用户的账号信息、登录设备信息、用户画像信息和用户行为信息等。对用户的账号信息和登录设备信息进行编码处理,根据账号信息和对应的登录设备信息,构建异构关系图,将异构关系图转换为账号信息和账号信息之间的同构关系图,并对该同构图引入连接权重。根据连接权重对同构图进行剪枝操作,降低连接密度,之后根据连接权重,通过fast-unfolding算法对同构图中的账号信息进行社群划分,获取同构图中的模块度最大时的账号社群的集合,将此时的账号社群的集合作为目标账号社群的集合。根据用户画面信息,如用户所在的省份、城市、游戏偏好、机型品牌偏好等,对目标账号社群的集合中的目标账号社群进行聚类,得到账号聚类子群。并根据信息熵,验证账号聚类子群中的账号信息是否属于同一用户。对验证通过的账号聚类子群生成统一的账号表和账号标识信息,并生成账号聚类子群中的子账号标识信息的集合和子设备标识信息的集合。根据用户行为信息,对账号聚类子群中用户的游戏账号进行分析,根据付费金额和活跃度确定用户的大小号,根据设备使用频率确定用户的常用设备,通过异常节点分析确定异常账号信息或者异常登录设备信息。并可以根据线上游戏应用中的实际情况对账号聚类子群以及其分析结果进行验证,并更新账号聚类子群中的账号信息或者分析结果。
本申请实施例提供了一种账号数据智能处理方法,所述方法包括:获取用户的账号信息和登录设备信息,构建账号信息和登录设备信息之间的第一关系网络图,并将第一关系网络图转换为账号信息之间的第二关系网络图。对第二关系网络图中账号信息之间的连接关系增加连接权重,基于连接权重,对第二关系网络图的账号信息进行社群划分,得到账号社群集合。对账号社群集合进行聚类,得到至少一个账号聚类子群。通过信息熵的方式对账号聚类子群的合理性进行验证,对通过验证的账号聚类子群生成对应的用户标识信息。所述方法通过图计算和信息熵结合的方式,提高了识别同一用户下的账号信息的准确性,并减小了识别结果的误差。所述方法对标识为同一用户的各个账号信息进行统一的管理,可以有针对性地对同一用户所属的账号信息进行干预,提高了数据分析的准确性和用户管理的有效性。
本申请实施例还提供了一种账号数据智能处理装置,请参见图15,所述装置包括:第一关系网络生成模块1510、第二关系网络获取模块1520、连接权重确定模块1530、账号社群获取模块1540、用户画像获取模块1550、账号聚类子群获取模块1560、属性标签获取模块1570、账号聚类子群验证模块1580和用户标识生成模块1590;
所述第一关系网络生成模块1510用于获取用户的账号信息和登录设备信息间的第一关系网络图;
所述第二关系网络获取模块1520用于将所述第一关系网络图转换为账号信息之间的第二关系网络图;
所述连接权重确定模块1530用于确定所述第二关系网络图中两两账号信息间的连接权重;
所述账号社群获取模块1540用于基于所述连接权重,对所述第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合;
所述用户画像获取模块1550用于获取所述第二关系网络图中账号信息对应的用户画像信息;
所述账号聚类子群获取模块1560用于根据所述用户画像信息,对所述目标账号社群集合中每个账号社群进行聚类分析,得到至少一个账号聚类子群;
所述属性标签获取模块1570用于获取所述至少一个账号聚类子群中各个账号信息对应的属性标签;
所述账号聚类子群验证模块1580用于基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证;
所述用户标识生成模块1590用于当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。
进一步地,所述装置还包括:用户行为获取模块和用户管理模块;
所述用户行为获取模块用于获取与所述合理性验证通过的账号信息对应的用户行为数据;
所述用户管理模块用于基于所述用户行为数据,对与所述用户标识信息对应的账号聚类子群进行管理。
进一步地,所述第二关系网络获取模块1520包括账号类型确定单元、账号距离获取单元、间接相连账号确定单元和第二关系网络构建单元:
所述账号类型确定单元用于确定所述第一关系网络图中的非直接相连账号和直接相连账号,所述非直接相连账号表征所述第一关系网络图中基于相同登录设备信息相连的两个账号信息,所述直接相连账号表征所述第一关系网络图中直接相连的两个账号信息;
所述账号距离获取单元用于获取所述非直接相连账号间的账号距离;
所述间接相连账号确定单元用于当所述非直接相连账号间的账号距离等于预设账号距离时,将账号距离等于预设账号距离的非直接相连账号作为间接相连账号;
所述第二关系网络构建单元用于根据所述直接相连账号和所述间接相连账号,构建所述账号信息之间的第二关系网络图。
进一步地,所述连接权重确定模块1530包括:相似度信息获取单元、相似度确定单元和连接权重确定单元;
所述相似度信息获取单元用于获取所述第二关系网络图中账号信息对应的登录信息和/或用户画像信息;
所述相似度确定单元用于基于所述登录信息和/或所述用户画像信息,确定所述第二关系网络图中两两账号信息间的相似度;
所述连接权重确定单元用于根据所述两两账号信息间的相似度,确定所述第二关系网络图中两两账号信息间的连接权重。
在一些具体的实施例中,所述装置还包括:剪枝模块,所述剪枝模块包括相连信息确定单元、账号信息排序单元、账号信息筛选单元和更新单元;
遍历所述第二关系网络图中的每一账号信息,当遍历到每一账号信息时,执行下述步骤:
所述相连信息确定单元用于确定所述第二关系网络图中与当前遍历到的账号信息相连的账号信息;
所述账号信息排序单元用于将所述相连的账号信息按照所述相连的账号信息与所述当前遍历到的账号信息之间的连接权重的数值大小由大到小进行排序,得到相连账号信息序列;
所述账号信息筛选单元用于确定相连账号信息序列中前预设数量个账号信息;
所述更新单元用于基于所述前预设数量个账号信息更新所述第二关系网络图。
进一步地,所述账号社群获取模块1540包括:初始账号社群创建单元、目标账号社群选择单元、第一模块度计算单元、社群划分单元、第二模块度计算单元、差值计算单元和账号社群更新单元;
所述初始账号社群创建单元用于创建账号社群集合,所述账号社群集合中每一账号社群包括一个账号信息;
所述目标账号社群选择单元用于从所述账号社群集合中选取一个账号社群为目标账号社群;
所述第一模块度计算单元用于基于所述目标账号社群中的账号信息与相连的账号信息之间的连接权重和所述目标账号社群中的账号信息之间的连接权重,计算所述目标账号社群的第一模块度;
所述社群划分单元用于将所述目标账号社群中的目标账号信息加入到与所述目标账号信息相连的账号信息对应的账号社群中,得到相邻账号社群;
所述第二模块度计算单元用于基于所述相邻账号社群中的账号信息与相连的账号信息之间的连接权重和所述相邻账号社群中的账号信息之间的连接权重,计算所述相邻账号社群的第二模块度;
所述差值计算单元用于获取所述第二模块度和所述第一模块度之间的差值;
所述账号社群更新单元用于根据所述差值,更新所述账号社群集合;
从更新后的账号社群集合中选取一个账号社群为目标账号社群,重复上述更新账号社群集合的步骤,至当前更新后的账号社群集合中任一目标账号社群对应的相邻账号社群的第二模块度与对应的第一模块度的差值均满足预设条件;
将差值均满足预设条件时的当前账号社群集合作为所述目标账号社群集合。
进一步地,所述账号聚类子群验证模块1580包括信息熵计算单元、一致性程度确定单元、可信性程度确定单元和合理性验证单元;
所述信息熵计算单元用于根据所述属性标签,计算所述至少一个账号聚类子群的信息熵;
所述一致性程度确定单元用于根据所述信息熵,确定所述至少一个账号聚类子群中账号信息的一致性程度;
所述可信性程度确定单元用于根据不同属性标签对应的账号信息数目,确定所述至少一个账号聚类子群的可信性程度;
所述合理性验证单元根据所述一致性程度和所述可信性程度,对所述至少一个账号聚类子群进行合理性验证。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的一种账号数据智能处理方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令由处理器加载并执行本实施例上述的一种账号数据智能处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,是的该计算机设备执行上述账号数据处理或者用户管理的各种可选实现方式中提供的方法。
本实施例还提供了一种设备,所述设备包括处理器和存储器,其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行本实施例上述的一种账号数据智能处理方法。
所述设备可以为计算机终端、移动终端或服务器,所述设备还可以参与构成本申请实施例所提供的装置或***。如图16所示,服务器16(或计算机终端16或移动终端16)可以包括一个或多个(图中采用1602a、1602b,……,1602n来示出)处理器1602(处理器1602可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1604、以及用于通信功能的传输装置1606。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图16所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器16还可包括比图16中所示更多或者更少的组件,或者具有与图16所示不同的配置。
应当注意到的是上述一个或多个处理器1602和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到服务器16(或计算机终端)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1604可用于存储应用软件的软件程序以及模块,如本申请实施例中所述的方法对应的程序指令/数据存储装置,处理器1602通过运行存储在存储器1604内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器1604可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1604可进一步包括相对于处理器1602远程设置的存储器,这些远程存储器可以通过网络连接至服务器16。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器16的通信供应商提供的无线网络。在一个实例中,传输装置1606包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置1606可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与服务器16(或计算机终端)的用户界面进行交互。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种账号数据智能处理方法,其特征在于,所述方法包括:
获取用户的账号信息和登录设备信息间的第一关系网络图;
将所述第一关系网络图转换为账号信息之间的第二关系网络图;
确定所述第二关系网络图中两两账号信息间的连接权重;
基于所述连接权重,对所述第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合;
获取所述第二关系网络图中账号信息对应的用户画像信息;
根据所述用户画像信息,对所述目标账号社群集合中每个目标账号社群进行聚类分析,得到至少一个账号聚类子群;
获取所述至少一个账号聚类子群中各个账号信息对应的属性标签;
基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证;
当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。
2.根据权利要求1所述的一种账号数据智能处理方法,其特征在于,所述方法还包括:
获取与所述合理性验证通过的账号信息对应的用户行为数据;
基于所述用户行为数据,对与所述用户标识信息对应的账号聚类子群进行管理。
3.根据权利要求1所述的一种账号数据智能处理方法,其特征在于,所述将所述第一关系网络图转换为账号信息之间的第二关系网络图包括:
确定所述第一关系网络图中的非直接相连账号和直接相连账号,所述非直接相连账号表征所述第一关系网络图中基于相同登录设备信息相连的两个账号信息,所述直接相连账号表征所述第一关系网络图中直接相连的两个账号信息;
获取所述非直接相连账号间的账号距离;
当所述非直接相连账号间的账号距离等于预设账号距离时,将账号距离等于预设账号距离的非直接相连账号作为间接相连账号;
根据所述直接相连账号和所述间接相连账号,构建所述账号信息之间的第二关系网络图。
4.根据权利要求1所述的一种账号数据智能处理方法,其特征在于,所述确定所述第二关系网络图中两两账号信息间的连接权重包括:
获取所述第二关系网络图中账号信息对应的登录信息和/或用户画像信息;
基于所述登录信息和/或所述用户画像信息,确定所述第二关系网络图中两两账号信息间的相似度;
根据所述两两账号信息间的相似度,确定所述第二关系网络图中两两账号信息间的连接权重。
5.根据权利要求1所述的一种账号数据智能处理方法,其特征在于,所述确定所述第二关系网络图中两两账号信息间的连接权重之后,还包括:
遍历所述第二关系网络图中的每一账号信息,当遍历到每一账号信息时,执行下述步骤:
确定所述第二关系网络图中与当前遍历到的账号信息相连的账号信息;将所述相连的账号信息按照所述相连的账号信息与所述当前遍历到的账号信息之间的连接权重的数值大小由大到小进行排序,得到相连账号信息序列;
确定相连账号信息序列中前预设数量个账号信息;
基于所述前预设数量个账号信息更新所述第二关系网络图。
6.根据权利要求1所述的一种账号数据智能处理方法,其特征在于,所述基于所述连接权重,对所述第二关系网络图中的目标账号信息进行社群划分,得到目标账号社群集合包括:
创建账号社群集合,所述账号社群集合中每一账号社群包括一个账号信息;
从所述账号社群集合中选取一个账号社群为目标账号社群;
基于所述目标账号社群中的账号信息与相连的账号信息之间的连接权重和所述目标账号社群中的账号信息之间的连接权重,计算所述目标账号社群的第一模块度;
将所述目标账号社群中的目标账号信息加入到与所述目标账号信息相连的账号信息对应的账号社群中,得到相邻账号社群;
基于所述相邻账号社群中的账号信息与相连的账号信息之间的连接权重和所述相邻账号社群中的账号信息之间的连接权重,计算所述相邻账号社群的第二模块度;
获取所述第二模块度和所述第一模块度之间的差值;
根据所述差值,更新所述账号社群集合;
从更新后的账号社群集合中选取一个账号社群为目标账号社群,重复上述更新账号社群集合的步骤,至当前更新后的账号社群集合中任一目标账号社群对应的相邻账号社群的第二模块度与对应的第一模块度的差值均满足预设条件;
将差值均满足预设条件时的当前账号社群集合作为所述目标账号社群集合。
7.根据权利要求1所述的一种账号数据智能处理方法,其特征在于,所述基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证包括:
根据所述属性标签,计算所述至少一个账号聚类子群的信息熵;
根据所述信息熵,确定所述至少一个账号聚类子群中账号信息的一致性程度;
根据不同属性标签对应的账号信息数目,确定所述至少一个账号聚类子群的可信性程度;
根据所述一致性程度和所述可信性程度,对所述至少一个账号聚类子群进行合理性验证。
8.根据权利要求7所述的一种账号数据智能处理方法,其特征在于,所述根据所述信息熵,确定所述至少一个账号聚类子群中账号信息的一致性程度包括:
根据所述属性标签的种类信息,确定第一惩罚系数;
根据所述信息熵和所述第一惩罚系数,确定所述至少一个账号聚类子群中的账号信息的一致性程度。
9.根据权利要求7所述的一种账号数据智能处理方法,其特征在于,所述根据不同属性标签对应的账号信息数目,确定所述至少一个账号聚类子群的可信性程度包括:
获取所述至少一个账号聚类子群的账号信息数目;
获取所述至少一个账号聚类子群中与不同属性标签匹配的账号信息数目;
确定所述与不同属性标签匹配的账号信息数目中的最大值;
根据所述最大值与所述至少一个账号聚类子群的账号信息数目的比值,确定所述至少一个账号聚类子群的可信性程度。
10.一种账号数据智能处理装置,其特征在于,所述装置包括:第一关系网络生成模块、第二关系网络获取模块、连接权重确定模块、账号社群获取模块、用户画像获取模块、账号聚类子群获取模块、属性标签获取模块、账号聚类子群验证模块和用户标识生成模块;
所述第一关系网络生成模块用于获取用户的账号信息和登录设备信息间的第一关系网络图;
所述第二关系网络获取模块用于将所述第一关系网络图转换为账号信息之间的第二关系网络图;
所述连接权重确定模块用于确定所述第二关系网络图中两两账号信息间的连接权重;
所述账号社群获取模块用于基于所述连接权重,对所述第二关系网络图中的账号信息进行社群划分,得到目标账号社群集合;
所述用户画像获取模块用于获取所述第二关系网络图中账号信息对应的用户画像信息;
所述账号聚类子群获取模块用于根据所述用户画像信息,对所述目标账号社群集合中每个账号社群进行聚类分析,得到至少一个账号聚类子群;
所述属性标签获取模块用于获取所述至少一个账号聚类子群中各个账号信息对应的属性标签;
所述账号聚类子群验证模块用于基于所述至少一个账号聚类子群中各个账号信息对应的属性标签,对所述至少一个账号聚类子群进行合理性验证;
所述用户标识生成模块用于当任一账号聚类子群合理性验证通过时,生成合理性验证通过的账号聚类子群的用户标识信息。
CN202010896462.1A 2020-08-31 2020-08-31 一种账号数据智能处理方法和装置 Active CN112084422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010896462.1A CN112084422B (zh) 2020-08-31 2020-08-31 一种账号数据智能处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010896462.1A CN112084422B (zh) 2020-08-31 2020-08-31 一种账号数据智能处理方法和装置

Publications (2)

Publication Number Publication Date
CN112084422A true CN112084422A (zh) 2020-12-15
CN112084422B CN112084422B (zh) 2024-05-10

Family

ID=73731385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010896462.1A Active CN112084422B (zh) 2020-08-31 2020-08-31 一种账号数据智能处理方法和装置

Country Status (1)

Country Link
CN (1) CN112084422B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861967A (zh) * 2021-02-07 2021-05-28 中国电子科技集团公司电子科学研究院 基于异构图神经网络的社交网络异常用户检测方法及设备
CN112948673A (zh) * 2021-02-22 2021-06-11 网易(杭州)网络有限公司 游戏内容推送方法、装置、电子设备及存储介质
CN113191912A (zh) * 2021-05-20 2021-07-30 公安部第三研究所 基于共群关系实现社交群体关系紧密性计算处理的方法、***、装置、处理器及其存储介质
CN113271315A (zh) * 2021-06-08 2021-08-17 工银科技有限公司 虚拟专用网络异常使用检测方法、装置和电子设备
CN113326064A (zh) * 2021-06-10 2021-08-31 深圳前海微众银行股份有限公司 划分业务逻辑模块的方法、电子设备及存储介质
CN113709092A (zh) * 2021-03-03 2021-11-26 腾讯科技(深圳)有限公司 数据检测方法、装置、计算机设备以及存储介质
CN113763193A (zh) * 2021-01-25 2021-12-07 北京沃东天骏信息技术有限公司 群体检测方法、装置、电子设备和计算机存储介质
CN113987087A (zh) * 2021-10-27 2022-01-28 北京达佳互联信息技术有限公司 帐户处理方法、装置、电子设备及存储介质
CN114663158A (zh) * 2022-03-31 2022-06-24 京东科技信息技术有限公司 确定目标对象的方法及标识关联图的构建方法、装置
CN114742479A (zh) * 2022-06-10 2022-07-12 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质
CN117235654A (zh) * 2023-11-15 2023-12-15 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及***
CN118194205A (zh) * 2024-05-14 2024-06-14 北京芯盾时代科技有限公司 一种异常行为的检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136303A (zh) * 2011-11-24 2013-06-05 北京千橡网景科技发展有限公司 在社交网络服务网站中划分用户群组的方法和设备
CN103365893A (zh) * 2012-03-31 2013-10-23 百度在线网络技术(北京)有限公司 一种用于实现搜索用户的个体信息的方法和设备
US20140143407A1 (en) * 2012-11-21 2014-05-22 Telefonaktiebolaget L M Ericsson (Publ) Multi-objective server placement determination
CN108734479A (zh) * 2018-04-12 2018-11-02 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN109063966A (zh) * 2018-07-03 2018-12-21 阿里巴巴集团控股有限公司 风险账户的识别方法和装置
CN111046300A (zh) * 2019-12-17 2020-04-21 智者四海(北京)技术有限公司 确定用户的人群属性的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136303A (zh) * 2011-11-24 2013-06-05 北京千橡网景科技发展有限公司 在社交网络服务网站中划分用户群组的方法和设备
CN103365893A (zh) * 2012-03-31 2013-10-23 百度在线网络技术(北京)有限公司 一种用于实现搜索用户的个体信息的方法和设备
US20140143407A1 (en) * 2012-11-21 2014-05-22 Telefonaktiebolaget L M Ericsson (Publ) Multi-objective server placement determination
CN108734479A (zh) * 2018-04-12 2018-11-02 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN109063966A (zh) * 2018-07-03 2018-12-21 阿里巴巴集团控股有限公司 风险账户的识别方法和装置
CN111046300A (zh) * 2019-12-17 2020-04-21 智者四海(北京)技术有限公司 确定用户的人群属性的方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763193A (zh) * 2021-01-25 2021-12-07 北京沃东天骏信息技术有限公司 群体检测方法、装置、电子设备和计算机存储介质
CN112861967A (zh) * 2021-02-07 2021-05-28 中国电子科技集团公司电子科学研究院 基于异构图神经网络的社交网络异常用户检测方法及设备
CN112948673A (zh) * 2021-02-22 2021-06-11 网易(杭州)网络有限公司 游戏内容推送方法、装置、电子设备及存储介质
CN113709092A (zh) * 2021-03-03 2021-11-26 腾讯科技(深圳)有限公司 数据检测方法、装置、计算机设备以及存储介质
CN113191912B (zh) * 2021-05-20 2024-07-16 公安部第三研究所 基于共群关系实现社交群体关系紧密性计算处理的方法、***、装置、处理器及其存储介质
CN113191912A (zh) * 2021-05-20 2021-07-30 公安部第三研究所 基于共群关系实现社交群体关系紧密性计算处理的方法、***、装置、处理器及其存储介质
CN113271315A (zh) * 2021-06-08 2021-08-17 工银科技有限公司 虚拟专用网络异常使用检测方法、装置和电子设备
CN113326064A (zh) * 2021-06-10 2021-08-31 深圳前海微众银行股份有限公司 划分业务逻辑模块的方法、电子设备及存储介质
CN113987087A (zh) * 2021-10-27 2022-01-28 北京达佳互联信息技术有限公司 帐户处理方法、装置、电子设备及存储介质
CN114663158A (zh) * 2022-03-31 2022-06-24 京东科技信息技术有限公司 确定目标对象的方法及标识关联图的构建方法、装置
WO2023184831A1 (zh) * 2022-03-31 2023-10-05 京东科技信息技术有限公司 确定目标对象的方法及标识关联图的构建方法、装置
CN114663158B (zh) * 2022-03-31 2024-07-16 京东科技信息技术有限公司 确定目标对象的方法及标识关联图的构建方法、装置
CN114742479B (zh) * 2022-06-10 2022-09-06 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质
CN114742479A (zh) * 2022-06-10 2022-07-12 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质
CN117235654A (zh) * 2023-11-15 2023-12-15 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及***
CN117235654B (zh) * 2023-11-15 2024-03-22 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及***
CN118194205A (zh) * 2024-05-14 2024-06-14 北京芯盾时代科技有限公司 一种异常行为的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112084422B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112084422B (zh) 一种账号数据智能处理方法和装置
CN110543586B (zh) 多重用户身份融合方法、装置、设备及存储介质
CN112235384B (zh) 分布式***中的数据传输方法、装置、设备及存储介质
TWI705341B (zh) 特徵關係推薦方法及裝置、計算設備及儲存媒體
Wang et al. App-net: A hybrid neural network for encrypted mobile traffic classification
CN110851706B (zh) 用户点击模型的训练方法、装置、电子设备及存储介质
Chopade et al. A framework for community detection in large networks using game-theoretic modeling
CN112221159B (zh) 一种虚拟道具推荐方法、装置及计算机可读存储介质
Qi et al. Model aggregation techniques in federated learning: A comprehensive survey
CN110046297B (zh) 运维违规操作的识别方法、装置和存储介质
Liu et al. Keep your data locally: Federated-learning-based data privacy preservation in edge computing
CN108985954B (zh) 一种建立各标识的关联关系的方法以及相关设备
CN112566093B (zh) 一种终端关系识别方法、装置、计算机设备及存储介质
CN113259972A (zh) 基于无线通信网络数据仓库构建方法、***、设备及介质
CN110224859B (zh) 用于识别团伙的方法和***
CN111932386A (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
CN110119477A (zh) 一种信息推送方法、装置和存储介质
CN108536471A (zh) 一种基于复杂网络的软件结构重要模块识别方法
CN109815406A (zh) 一种数据处理、信息推荐方法及装置
CN113779423A (zh) 一种模型参数调整方法、装置、电子设备和存储介质
CN110457387B (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN112667869B (zh) 数据处理方法、设备、***及存储介质
CN114329127B (zh) 特征分箱方法、装置及存储介质
Gamage et al. Common randomized shortest paths (C-RSP): A simple yet effective framework for multi-view graph embedding
Yuan et al. A Multi‐Granularity Backbone Network Extraction Method Based on the Topology Potential

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant