CN116974894A - 数据处理方法、装置、存储介质及计算机设备 - Google Patents

数据处理方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN116974894A
CN116974894A CN202211474993.7A CN202211474993A CN116974894A CN 116974894 A CN116974894 A CN 116974894A CN 202211474993 A CN202211474993 A CN 202211474993A CN 116974894 A CN116974894 A CN 116974894A
Authority
CN
China
Prior art keywords
user
group
users
test data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211474993.7A
Other languages
English (en)
Inventor
邓路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211474993.7A priority Critical patent/CN116974894A/zh
Publication of CN116974894A publication Critical patent/CN116974894A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、存储介质及计算机设备,其中,本申请实施例确定待测试业务场景的投放用户群,并获取投放用户群的用户关系网络,根据该用户关系网络确定出每一用户对应的关联用户,在将投放用户群的用户分配到实验组和对照组之后,从投放用户群中确定出分配到实验组且对应关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应关联用户分配到实验组的比例小于第二预设阈值的第二类用户,最后根据第一类用户执行实验策略的第一类测试数据,以及第二类用户执行对照策略的第二类测试数据,确定实验策略与对照策略之间的差异信息。本申请实施例提高了网络实验的策略差异估计的准确度。

Description

数据处理方法、装置、存储介质及计算机设备
技术领域
本申请涉及通讯技术领域,具体涉及一种数据处理方法、装置、存储介质及计算机设备。
背景技术
在互联网行业,一般通过收集和分析用户的反馈数据对产品进行优化,例如,通过AB测试来收集用户的反馈数据。AB测试随机将用户引导到A组或者B组,对A组和B组的用户采用不同的策略,然后根据A组和B组的测试数据来比较两种策略的差异。
而随着互联网行业的发展,越来越多的产品为用户提供了社交功能,使得不同用户之间可能存在网络传播效应,某个用户的行为可能影响到其好友的测试数据,这种网络传播效应导致按照传统AB测试会错误地估计策略之间的差异,降低了AB测试的可信度。
发明内容
本申请实施例提供一种数据处理方法、装置、存储介质及计算机设备,能够提高网络实验的策略差异估计的准确度。
本申请实施例提供一种数据处理方法,包括:
确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,并根据所述用户关系网络确定所述投放用户群中每一用户对应的关联用户;
将所述投放用户群中的用户分配到实验组和对照组,并对所述实验组的用户执行实验策略,对所述对照组的用户执行对照策略;
从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户;
获取所述第一类用户执行所述实验策略得到的第一类测试数据,以及所述第二类用户执行所述对照策略得到的第二类测试数据;
根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息。
相应地,本申请实施例还提供一种数据处理装置,包括:
第一确定单元,用于确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,并根据所述用户关系网络确定所述投放用户群中每一用户对应的关联用户;
分配单元,用于将所述投放用户群中的用户分配到实验组和对照组,并对所述实验组的用户执行实验策略,对所述对照组的用户执行对照策略;
分组单元,用于从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户;
获取单元,获取所述第一类用户执行所述实验策略得到的第一类测试数据,以及所述第二类用户执行所述对照策略得到的第二类测试数据;
第二确定单元,用于根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息。
在一些实施例中,第一确定单元具体可以用于:从所述待测试业务场景的用户群中确定预设数量的用户构成投放用户群;获取所述投放用户群中用户的好友关系,根据所述好友关系生成所述投放用户群对应的用户关系网络。
在一些实施例中,第二确定单元具体可以用于:根据每一所述第一类用户的所述第一类测试数据,得到所述实验策略对应的第一测试数据均值,并根据每一所述第二类用户的所述第二类测试数据,得到所述对照策略对应的第二测试数据均值;根据所述第一测试数据均值和所述第二测试数据均值,计算得到所述实验策略与所述对照策略之间的差异信息。
在一些实施例中,分组单元具体可以用于:确定所述投放用户群中每一用户的关联用户的数量;根据所述关联用户的数量,将所述投放用户群中的用户划分为多个用户集合;对于每一所述用户集合,从所述用户集合中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,并从所述用户集合中确定出分配到对照组且对应的关联用户分配到对照组的比例大于第二预设阈值的第二类用户。
在一些实施例中,分组单元具体可以用于:将所述投放用户群中将具有相同的关联用户的数量的用户分配到同一用户集合中,得到多个用户集合。
在一些实施例中,第二确定单元具体可以用于:对于每一所述用户集合,根据所述用户集合中的每一所述第一类用户的所述第一类测试数据,得到所述实验策略在所述用户集合中的第一测试数据均值分量,并根据所述用户集合中的每一所述第二类用户的所述第二类测试数据,得到所述对照策略在所述用户集合中的第二测试数据均值分量;根据所述第一测试数据均值分量和所述第二测试数据均值分量,计算所述实验策略和所述对照策略在每一用户集合中的差异信息分量;确定每一所述用户集合的权重值;根据每一所述用户集合对应的差异信息分量和所述权重值,计算所述实验策略与所述对照策略之间的差异信息。
在一些实施例中,第二确定单元具体可以用于:对于每一所述用户集合,计算所述用户集合中的用户数量占所述投放用户群中的用户数量的比例,将所述比例作为所述用户集合的权重值。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的数据处理方法。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的数据处理方法。
本申请实施例提供的技术方案,确定待测试业务场景的投放用户群,并获取投放用户群的用户关系网络,并根据该用户关系网络确定出每一个用户对应的关联用户,在将投放用户群的用户分配到实验组和对照组之后,从投放用户群中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户,最后根据第一类用户执行实验策略得到的第一类测试数据,以及第二类用户执行对照策略得到的第二类测试数据,确定实验策略与对照策略之间的差异信息。本申请实施例的方案可以根据用户关系网络从全部的投放用户群中选择符合特定条件的用户,以减小用户之间的网络传播效应给测试数据来带的影响,进而提高网络实验的策略差异估计的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的应用场景示意图。
图2为本申请实施例提供的数据处理方法的一种流程示意图。
图3为本申请实施例提供的数据处理装置的一种结构示意图。
图4为本申请实施例提供的计算机设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种数据处理方法、装置、计算机设备和计算机可读存储介质。其中,该数据处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer),但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能等。
例如,参见图1,以本申请实施例提供的数据处理方法集成在计算机设备中为例,计算机设备在对目标业务场景进行对照测试时,可以先确定待测试业务场景的投放用户群,并获取投放用户群的用户关系网络,并根据该用户关系网络确定出每一个用户对应的关联用户。然后,将用户分配到实验组和对照组,并分别执行对应的策略。在将投放用户群的用户分配到实验组和对照组之后,选择出符合条件的第一类用户和第二类用户,例如,从待投放用户群中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应的关联用户分配到实验组的比例小于第二预设阈值的第二类用户,最后根据第一类用户执行实验策略得到的第一类测试数据,以及第二类用户执行对照策略得到的第二类测试数据,确定实验策略与对照策略之间的差异信息。
其中,目标业务场景可以是用户在使用产品的某个特定环节中向用户提供的需要的或者关联的服务。例如,产品为即时通讯软件,目标业务场景可以是该即时通讯软件中的某个功能或者某个界面等,例如改变会话窗口的用户界面的显示内容。在对目标业务场景进行AB测试时,可以设置两种策略,分别为实验策略和对照策略。
其中,AB测试,或者称为对照测试,是一种通过收集和分析用户反馈数据进行产品优化的方法。首先设定A和B两种策略,这两种策略在某个需要优化的参数上有差异,例如,A组的产品图标颜色是绿色,B组的图标颜色是红色,产品的用户被分配到A组或者B组,用户使用该目标业务场景产生的数据被记录下来并进行相应的分析,根据分析的结果来判断A组和B组中哪个组所使用的策略更好,从而达到优化产品的目的。例如,产品的技术人员在开发产品时,可能对产品的优化有一个以上的设计或者策略,需要一些数据来验证哪一个策略是更好的策略,这就需要采用对照测试来采集测试数据进行验证。
其中,投放用户群为测试对象,测试人员可以根据测试的需要选择产品的部分或者全部用户作为投放用户群。
其中,投放用户群的用户关系网络是根据该投放用户群中的用户相互之间的网络效应传播关系构建的用户关系网络。网络效应传播关系可以是根据用户的在该产品中的好友关系等确定的。
其中,用户的关联用户是指与该用户之间存在网络效应传播关系的用户。
其中,策略是指针对目标业务场景的测试对象,可以是目标业务场景的某个参数等信息。可以将两个策略中的一个作为实验策略,另一个作为对照策略,最终得到实验策略与对照策略之间的差异信息。其中,分配实验策略的用户构成实验组,分配对照策略的用户构成对照组。在一些实施例中,对照测试时,可以只有一组实验组用户和一组与实验组用户对应的对照组用户。或者,也可以有多组实验组用户以及和多组实验组用户对应的对照组用户。或者,也可以有多组实验组用户和一组与实验组对应的对照组用户。或者,还可以在对照测试中采用相互对照的方案,即实验组和对照组的设置是相对的,也可以互换。
其中,第一类用户是指投放用户群中满足以下条件的用户:分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值。
其中,第二类用户是指投放用户群中满足以下条件的用户:分配到对照组且对应的关联用户分配到对照组的比例大于第二预设阈值。
其中,第一类测试数据是第一类用户在使用基于实验策略的目标业务场景时产生的测试数据,第二类测试数据是第二类用户在使用基于对照策略的目标业务场景时产生的测试数据。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例将会从计算机设备的角度来描述该数据处理方法的具体过程。
请参阅图2,图2为本申请实施例提供的数据处理方法的一种流程示意图。本申请实施例提供的数据处理方法的具体流程可以如下:
101、确定待测试业务场景的投放用户群,获取投放用户群对应的用户关系网络,并根据用户关系网络确定投放用户群中每一用户对应的关联用户。
如前文,投放用户群的用户关系网络是该投放用户群中的用户之间的网络效应传播关系构成的用户关系网络。
例如,在一实施例中,确定待测试业务场景的投放用户群,获取投放用户群对应的用户关系网络,包括:从待测试业务场景的用户群中确定预设数量的用户构成投放用户群;获取投放用户群中用户的好友关系,根据好友关系生成投放用户群对应的用户关系网络。
该实施例中,从待测试业务场景的用户群中选择一定数量的用户构成投放用户群。例如按照预设数量从全部用户中进行随机抽样,从而抽样出投放用户群,其中,预设数量可以是测试人员根据测试需要预先设置的。如果产品的全部用户都会使用到该待测试业务场景,则该产品的全部用户为该待测试业务场景的用户群。如果该产品只有部分的用户会使用到该待测试业务场景,则这部分用户为待测试业务场景的用户群。
确定投放用户群之后,获取投放用户群中每一个用户的好友关系。接下来,基于投放用户群中的全部用户的好友关系后,基于这些好友关系构建投放用户群对应的用户关系网络。对于每一用户,根据其好友关系从全部好友中确定出同样存在与该投放用户群的目标好友,根据每一用户与目标好友之间的关系构建该投放用户群的用户关系网络。
在一实施例中,用无向图G=(V,E)来表示该用户关系网络,其中,无向图中的一个节点对应于一个用户,全部节点对应于投放用户群中的全部用户。其中,V={1,2,...,n}是n个节点的集合,E={(i,j)}是边的集合,即如果(i,j)∈E,那么就表明在节点i和节点j之间存在一条边,这一条边表示节点i对应的用户和节点j对应的用户之间存在网络效应传播关系。
102、将投放用户群中的用户分配到实验组和对照组,并对实验组的用户执行实验策略,对对照组的用户执行对照策略。
接下来,将投放用户群中的用户分配到实验组和对照组中。例如,在一实施例中,随机地并且基本等量地将投放用户群中的用户分配到实验组和对照组中。比如,投放用户群中有50万个用户,随机地将其中的25万个用户分配到实验组,将另外25万个用户分配到对照组。
对于实验组的用户执行实验策略,对于对照组的用户执行对照策略。例如,目标业务场景为在产品的某个用户界面上新增一个功能控件,实验策略是第一种形态显示该功能控件,而对照策略以第二种形态显示该功能控件,第一种形态不同于第一种形态,其中,形态包括该功能控件的形状、大小和显示位置等信息。实验组的用户在其产品的用户界面上看到的该功能控件以第一种形态显示,对照组的用户在其产品的用户界面上看到的该功能控件以第二种形态显示。
103、从投放用户群中确定分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应的关联用户分配到实验组的比例小于第二预设阈值的第二类用户。
在分配实验组和对照组之后,如果直接根据实验组和对照组的用户的测试数据来衡量两种策略的差异,会导致出现错误估计。因为这种直接估计方法依赖于一个假设,即SUTVA假设(Stable Unit Treatment Value Assumption,稳定单位处理效果假设),按照该假设,一个用户的行为表现只跟他使用哪个策略有关,跟其他用使用哪个策略没有关系。但是,通常在一个社交场景中,这个假设是不满足的,一个用户很有可能受到他的社交邻居(比如亲朋好友)的行为的影响。以微信的视频号产品作为例子,如果一个实验策略可以让用户更多地转发视频给他的好友,那么他的好友即便在对照组,也会因为接收了更多的从好友转发过来的视频,点击进去观看,从而间接地受到实验策略的影响,也会更多地转发视频给好友的好友,此时SUTVA假设不再成立。这种现象一般叫做网络效应(networkeffect)。在SUTVA假设不成立的情况下,直接根据实验组和对照组的用户的测试数据来衡量两种策略的差异会存在较大的误差。
为了解决这一问题,本申请实施例根据待投放用户群中的用户之间的网络效应传播关系构建投放用户群对应的用户关系网络,再根据该用户关系网络确定出投放用户群中每一用户对应的关联用户。在将投放用户群中的用户分配到的实验组和对照组之后,分别从分配到实验组的用户中选择出满足一定条件的第一类用户,并且从分配到对照组的用户中选择出满足一定条件的第二类用户。其中,第一类用户是本身被分配到实验组,并且其关联用户中同样被分配到实验组的用户占总的关联用户的比例大于第一预设阈值的用户。
例如,给定一个阈值θ∈[0,1],定义和/>
其中,为用户i的被分配到实验组的关联用户的个数占他的总的关联用户的个数的比例。
使用对称矩阵A=(Aij)1≤i,j≤n来表示上文中的无向图G,其中,矩阵的每一个元素Aij∈{0,1},其中对角上的元素Aii=0,非对角上的元素满足:
记Ni={j:Aij=1}是节点i的关联用户,di=|Ni|是节点i的关联用户个数。记Wi∈{0,1}代表节点i被分配的策略,即Wi=1表示第i个节点被分配到实验组,Wi=0表示第i个节点被分配到对照组。
由此可以看出,即为第一类用户的集合,/>即为第二类用户的集合。其中,θ为第一预设阈值,1-θ为第二预设阈值。
当选择一个靠近1的θ值时,则满足的用户的表现基本上很接近当所有关联用户都处于实验组的状态,满足/>的用户的表现基本上很接近当所有关联用户都处于对照组的状态。因此,θ越接近于1,则最终计算得到的实验策略与对照策略之间的差异信息的准确度越高。测试人员在进行对照测试时,可以根据需要设置θ的值。
基于上述原理,按照该方式选择出的第一类用户和第二类用户受到网络效应的影响较小,能够提高实验策略与对照策略之间的差异信息的准确度。
104、获取第一类用户执行实验策略得到的第一类测试数据,以及第二类用户执行对照策略得到的第二类测试数据。
在确定出第一类用户和第二类用户之后,对第一类用户和第二类用户使用该业务场景时的相关信息进行记录,分别生成对应于第一类用户的第一类测试数据和第二类用户的第二类测试数据。其中测试数据体现用户对该业务场景的使用情况,包括但不限于用户的点击量、使用时长等。
105、根据第一类测试数据和第二类测试数据,确定实验策略与对照策略之间的差异信息。
接下来,根据第一类测试数据和第二类测试数据,来确定实验策略与对照策略之间的差异。
例如,在一些实施例中,根据第一类测试数据和第二类测试数据,确定实验策略与对照策略之间的差异信息,包括:根据每一第一类用户的第一类测试数据,得到实验策略对应的第一测试数据均值,并根据每一第二类用户的第二类测试数据,得到对照策略对应的第二测试数据均值;根据第一测试数据均值和第二测试数据均值,计算得到实验策略与对照策略之间的差异信息。
该实施例中,根据每一第一类用户的第一类测试数据,计算全部的第一类用户的第一类测试数据的平均值,记为第一测试数据均值。根据每一第二类用户的第二类测试数据,计算全部第二类用户的第二类测试数据的平均值,记为第二测试数据均值。
将第一测试数据均值与第二测试数据均值相减处理,得到第一测试数据均值与第二测试数据均值之间的差值,该差值可以为正数,也可以为负数。将该差值作为实验策略与对照策略之间的差异信息。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的数据处理方法,确定待测试业务场景的投放用户群,并获取投放用户群的用户关系网络,并根据该用户关系网络确定出每一个用户对应的关联用户,在将投放用户群的用户分配到实验组和对照组之后,从投放用户群中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应的关联用户分配到实验组的比例小于第二预设阈值的第二类用户,最后根据第一类用户执行实验策略得到的第一类测试数据,以及第二类用户执行对照策略得到的第二类测试数据,确定实验策略与对照策略之间的差异信息。本申请实施例的方案可以根据用户关系网络从全部的投放用户群中选择符合特定条件的用户,以减小用户之间的网络传播效应给测试数据来带的影响,进而提高网络实验的策略差异估计的准确度。
在一些实施例中,从投放用户群中确定分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应的关联用户分配到实验组的比例小于第二预设阈值的第二类用户,包括:确定投放用户群中每一用户的关联用户的数量;根据关联用户的数量,将投放用户群中的用户划分为多个用户集合;对于每一用户集合,从用户集合中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应的关联用户分配到实验组的比例小于第二预设阈值的第二类用户。
该实施例中,获取投放用户群中每一用户的关联用户的数量,根据该数量将投放用户群中的用户划分为多个用户集合。根据数量的划分方式可以有多种,例如,在一实施例中,统计投放用户群中每一用户的关联用户的数量,得到多个数量,按照预设数量区间将投放用户群中的用户划分为多个用户集合。比如,将关联用户的数量为1-10的用户划分为一个用户集合,将关联用户的数量为11-20的用户划分为一个用户集合,等等。
或者,在另一实施例中,根据关联用户的数量,将投放用户群中的用户划分为多个用户集合,包括:将投放用户群中将具有相同的关联用户的数量的用户分配到同一用户集合中,得到多个用户集合。首先按照di由小到大的顺序排序,然后把有相同di值的用户分在同一个用户集合内,即满足di=1的用户分在一个集合,满足di=2的用户分在一个集合,以此类推。假设一共把所有用户分成了K个集合,第k个集合内有sk个用户,并且:
s1+s2+…+sK=n。
其中,n为待投放用户群中的用户的总数量。
接下来,对于每一个用户集合,都可以按照上文中的方式从该用户集合中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到对照组且对应的关联用户分配到实验组的比例小于第二预设阈值的第二类用户。具体实现过程请参照上文实施例,再次不再赘述。
在一些实施例中,根据第一类测试数据和第二类测试数据,确定实验策略与对照策略之间的差异信息,包括:对于每一用户集合,根据用户集合中的每一第一类用户的第一类测试数据,得到实验策略在用户集合中的第一测试数据均值分量,并根据用户集合中的每一第二类用户的第二类测试数据,得到对照策略在用户集合中的第二测试数据均值分量;根据第一测试数据均值分量和第二测试数据均值分量,计算实验策略和对照策略在每一用户集合中的差异信息分量;确定每一用户集合的权重值;根据每一用户集合对应的差异信息分量和权重值,计算实验策略与对照策略之间的差异信息。
按照上文中和/>的定义,在第k个集合内,找出那些满足/>的第一类用户和满足/>的第二类用户,然后根据每一第一类用户的第一类测试数据,计算该用户集合中的全部的第一类用户的第一类测试数据的平均值,即第一测试数据均值。根据每一第二类用户的第二类测试数据,计算该用户集合中的全部第二类用户的第二类测试数据的平均值,即第二测试数据均值。将第一测试数据均值与第二测试数据均值相减处理,得到第一测试数据均值与第二测试数据均值之间的差值,将该差值作为实验策略和对照策略在每一用户集合中的差异信息分量/>
使用公式表示如下:
其中,Yi为用户i的测试数据。
由于关联用户数量的不同,对最终的差异信息的计算结果的影响程度可能不同,因此,可以确定每一用户集合的权重值,全部用户集合的权重值之和为1。例如,在一实施例中,对于每一用户集合,计算用户集合中的用户数量占投放用户群中的用户数量的比例,将比例作为用户集合的权重值。
在每一用户集合对应的差异信息分量之后,根据每一用户集合对应的差异信息分量和权重值,计算实验策略与对照策略之间的差异信息。
实验策略与对照策略之间的差异信息表示如下:
通过上述实施例的方案,可以有效减少实验策略与对照策略之间的差异信息的误差,提高其精准度。因为只选取了满足条件的用户去估计,而当选择一个比较靠近1的θ时,比如0.8,满足的用户的表现基本上很接近当所有关联用户都处于实验组的状态,满足的用户的表现基本上很接近当所有关联用户都处于对照组的状态。另外,本申请实施例通过利用关联用户个数di对待投放用户群进行划分,可以有效降低不同用户因为邻居个数不同而造成的策略效应的异质性,从而使差异信息的误差更小。
下面通过数值实验来说明本申请实施例的优点。由于在实验阶段没有实际的测试数据,可以考虑下面三种生成模拟测试数据的方式:
模型一:Yi=β01·Wi2·σi
模型二:Yi=β01·Wi2·∑jAijWj
模型一:Yi=β01·di2·Wi3·σi
其中,β0、β1、β2、β3为常数。
分别在三种数据生成模型下,生成模拟测试数据,然后随机去做实验,最后分别用和/>去估计策略的提升。下面是模拟结果。
表1对照试验中实验策略与对照策略之间的差异信息的模拟结果
其中,为传统的差异信息估算方法。传统的估算方法中,通过某个算法将图G划分成M个互不重叠的cluster(簇),nj是第j个cluster的大小,即包含的用户个数。记Ci∈{1,2,...M}是用户i属于的cluster的标签。在cluster随机化的方案下,随机地把一半的cluster分到实验组,一半的cluster分到对照组。被分到实验组的cluster内部的用户都接受实验策略;被分到对照组的cluster内部的用户都接受对照策略。记Dj∈{0,1}代表第j个cluster被分配的策略,即Dj=1表示第j个cluster被分配到实验组,Dj=0表示第j个cluster被分配到对照组。记Yi代表用户i的测试数据。那么,可以用/>来估计实验策略相较于对照策略的差异。
可以看到,在三种不同的数据生成模型下,本发明提出的估计量都比传统的/>估计量更加接近真实的策略差异提升,误差更小。
为了更好地实施以上方法,本申请实施例还提供一种数据处理装置。该数据处理装置可以集成在计算机设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
如图3所示,该数据处理装置可以包括第一确定单元301、分配单元302、分组单元303、获取单元304以及第二确定单元305。具体如下:
(1)第一确定单元301;
第一确定单元301,可以用于确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,并根据所述用户关系网络确定所述投放用户群中每一用户对应的关联用户。
在一些实施例中,第一确定单元301,具体可以用于从所述待测试业务场景的用户群中确定预设数量的用户构成投放用户群;获取所述投放用户群中用户的好友关系,根据所述好友关系生成所述投放用户群对应的用户关系网络。
(2)分配单元302;
分配单元302,可以用于将所述投放用户群中的用户分配到实验组和对照组,并对所述实验组的用户执行实验策略,对所述对照组的用户执行对照策略。
(3)分组单元303;
分组单元303,可以用于从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户。
在一些实施例中,分组单元303具体可以用于:确定所述投放用户群中每一用户的关联用户的数量;根据所述关联用户的数量,将所述投放用户群中的用户划分为多个用户集合;对于每一所述用户集合,从所述用户集合中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,并从所述用户集合中确定出分配到对照组且对应的关联用户分配到对照组的比例大于第二预设阈值的第二类用户。
在一些实施例中,分组单元303具体可以用于:将所述投放用户群中将具有相同的关联用户的数量的用户分配到同一用户集合中,得到多个用户集合。
(4)获取单元304;
获取单元304,可以用于获取所述第一类用户执行所述实验策略得到的第一类测试数据,以及所述第二类用户执行所述对照策略得到的第二类测试数据。
(5)第二确定单元305;
第二确定单元305,可以用于根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息。
在一些实施例中,第二确定单元305具体可以用于:根据每一所述第一类用户的所述第一类测试数据,得到所述实验策略对应的第一测试数据均值,并根据每一所述第二类用户的所述第二类测试数据,得到所述对照策略对应的第二测试数据均值;根据所述第一测试数据均值和所述第二测试数据均值,计算得到所述实验策略与所述对照策略之间的差异信息
在一些实施例中,第二确定单元305具体可以用于:对于每一所述用户集合,根据所述用户集合中的每一所述第一类用户的所述第一类测试数据,得到所述实验策略在所述用户集合中的第一测试数据均值分量,并根据所述用户集合中的每一所述第二类用户的所述第二类测试数据,得到所述对照策略在所述用户集合中的第二测试数据均值分量;根据所述第一测试数据均值分量和所述第二测试数据均值分量,计算所述实验策略和所述对照策略在每一用户集合中的差异信息分量;确定每一所述用户集合的权重值;根据每一所述用户集合对应的差异信息分量和所述权重值,计算所述实验策略与所述对照策略之间的差异信息。
在一些实施例中,第二确定单元305具体可以用于:对于每一所述用户集合,计算所述用户集合中的用户数量占所述投放用户群中的用户数量的比例,将所述比例作为所述用户集合的权重值。
应当说明的是,本申请实施例提供的数据处理装置与上文实施例中的数据处理方法属于同一构思,通过该数据处理装置可以实现数据处理方法实施例中提供的任一方法,其具体实现过程详见数据处理方法实施例,此处不再赘述。
由上可知,本申请实施例提出的数据处理装置,确定待测试业务场景的投放用户群,并获取投放用户群的用户关系网络,并根据该用户关系网络确定出每一个用户对应的关联用户,在将投放用户群的用户分配到实验组和对照组之后,从投放用户群中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户,最后根据第一类用户执行实验策略得到的第一类测试数据,以及第二类用户执行对照策略得到的第二类测试数据,确定实验策略与对照策略之间的差异信息。本申请实施例的方案可以根据用户关系网络从全部的投放用户群中选择符合特定条件的用户,以减小用户之间的网络传播效应给测试数据来带的影响,进而提高网络实验的策略差异估计的准确度。
本申请实施例还提供一种计算机设备,如图4所示,其示出了本申请实施例所涉及的计算机设备的一种结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息通讯,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,并根据所述用户关系网络确定所述投放用户群中每一用户对应的关联用户;
将所述投放用户群中的用户分配到实验组和对照组,并对所述实验组的用户执行实验策略,对所述对照组的用户执行对照策略;
从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户;
获取所述第一类用户执行所述实验策略得到的第一类测试数据,以及所述第二类用户执行所述对照策略得到的第二类测试数据;
根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任意一种数据处理方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括但不限于:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据处理中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理所能实现的有益效果,详见前面的实施例,在此不再赘述。
此外,本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上对本申请实施例所提供的数据处理方法、装置、存储介质及计算机设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,并根据所述用户关系网络确定所述投放用户群中每一用户对应的关联用户;
将所述投放用户群中的用户分配到实验组和对照组,并对所述实验组的用户执行实验策略,对所述对照组的用户执行对照策略;
从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户;
获取所述第一类用户执行所述实验策略得到的第一类测试数据,以及所述第二类用户执行所述对照策略得到的第二类测试数据;
根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息。
2.如权利要求1所述的方法,其特征在于,所述确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,包括:
从所述待测试业务场景的用户群中确定预设数量的用户构成投放用户群;
获取所述投放用户群中用户的好友关系,根据所述好友关系生成所述投放用户群对应的用户关系网络。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息,包括:
根据每一所述第一类用户的所述第一类测试数据,得到所述实验策略对应的第一测试数据均值,并根据每一所述第二类用户的所述第二类测试数据,得到所述对照策略对应的第二测试数据均值;
根据所述第一测试数据均值和所述第二测试数据均值,计算得到所述实验策略与所述对照策略之间的差异信息。
4.如权利要求2所述的方法,其特征在于,所述从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户,包括:
确定所述投放用户群中每一用户的关联用户的数量;
根据所述关联用户的数量,将所述投放用户群中的用户划分为多个用户集合;
对于每一所述用户集合,从所述用户集合中确定出分配到实验组且对应的关联用户分配到实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户。
5.如权利要求4所述的方法,其特征在于,所述根据所述关联用户的数量,将所述投放用户群中的用户划分为多个用户集合,包括:
将所述投放用户群中将具有相同的关联用户的数量的用户分配到同一用户集合中,得到多个用户集合。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息,包括:
对于每一所述用户集合,根据所述用户集合中的每一所述第一类用户的所述第一类测试数据,得到所述实验策略在所述用户集合中的第一测试数据均值分量,并根据所述用户集合中的每一所述第二类用户的所述第二类测试数据,得到所述对照策略在所述用户集合中的第二测试数据均值分量;
根据所述第一测试数据均值分量和所述第二测试数据均值分量,计算所述实验策略和所述对照策略在每一用户集合中的差异信息分量;
确定每一所述用户集合的权重值;
根据每一所述用户集合对应的差异信息分量和所述权重值,计算所述实验策略与所述对照策略之间的差异信息。
7.如权利要求6所述的方法,其特征在于,所述确定每一所述用户集合的权重值,包括:
对于每一所述用户集合,计算所述用户集合中的用户数量占所述投放用户群中的用户数量的比例,将所述比例作为所述用户集合的权重值。
8.一种数据处理装置,其特征在于,包括:
第一确定单元,用于确定待测试业务场景的投放用户群,获取所述投放用户群对应的用户关系网络,并根据所述用户关系网络确定所述投放用户群中每一用户对应的关联用户;
分配单元,用于将所述投放用户群中的用户分配到实验组和对照组,并对所述实验组的用户执行实验策略,对所述对照组的用户执行对照策略;
分组单元,用于从所述投放用户群中确定分配到所述实验组且对应的关联用户分配到所述实验组的比例大于第一预设阈值的第一类用户,以及分配到所述对照组且对应的关联用户分配到所述实验组的比例小于第二预设阈值的第二类用户;
获取单元,用于获取所述第一类用户执行所述实验策略得到的第一类测试数据,以及所述第二类用户执行所述对照策略得到的第二类测试数据;
第二确定单元,用于根据所述第一类测试数据和所述第二类测试数据,确定所述实验策略与所述对照策略之间的差异信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的数据处理方法。
10.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的数据处理方法。
CN202211474993.7A 2022-11-23 2022-11-23 数据处理方法、装置、存储介质及计算机设备 Pending CN116974894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211474993.7A CN116974894A (zh) 2022-11-23 2022-11-23 数据处理方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211474993.7A CN116974894A (zh) 2022-11-23 2022-11-23 数据处理方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN116974894A true CN116974894A (zh) 2023-10-31

Family

ID=88475447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211474993.7A Pending CN116974894A (zh) 2022-11-23 2022-11-23 数据处理方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN116974894A (zh)

Similar Documents

Publication Publication Date Title
CN104834731B (zh) 一种自媒体信息的推荐方法及装置
CN105869022B (zh) 一种应用流行度预测方法和装置
CN104809132A (zh) 一种获取网络主体社交关系类型的方法及装置
CN109542757A (zh) 接口测试环境确定方法、装置、电子设备及存储介质
Yang et al. Finding the “liberos”: Discover organizational models with overlaps
CN111382793B (zh) 一种特征提取方法、装置和存储介质
CN112052399B (zh) 一种数据处理方法、装置和计算机可读存储介质
CN114882986B (zh) 一种信息分流处理方法、装置和计算机可读存储介质
CN114267440B (zh) 医疗订单信息处理方法、装置和计算机可读存储介质
CN116974894A (zh) 数据处理方法、装置、存储介质及计算机设备
CN112818241B (zh) 一种内容推广方法、装置、计算机设备和存储介质
CN114300082B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN116977271A (zh) 缺陷检测方法、模型训练方法、装置及电子设备
CN115712571A (zh) 一种交互服务测试、装置、计算机设备及存储介质
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN109828902A (zh) 接口参数确定方法、装置、电子设备及存储介质
CN117097789A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114648119A (zh) 异质性因果效应的确定方法、装置、电子设备及存储介质
CN115221663A (zh) 数据处理方法、装置、设备及计算机可读存储介质
Zhu et al. Sky Computing: Accelerating Geo-distributed Computing in Federated Learning
CN113821443A (zh) 应用程序的功能检测方法、装置、设备及存储介质
CN112308099A (zh) 样本特征重要性的确定方法、分类模型的训练方法及装置
CN117056239B (zh) 测试功能使用特征的确定方法、装置、设备及存储介质
CN115730126A (zh) 数据处理方法、装置、计算机可读存储介质及计算机设备
CN115130906A (zh) 基于人工智能的业务方案选择方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication