CN115130003A - 模型处理方法、装置、设备及存储介质 - Google Patents

模型处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115130003A
CN115130003A CN202210875373.8A CN202210875373A CN115130003A CN 115130003 A CN115130003 A CN 115130003A CN 202210875373 A CN202210875373 A CN 202210875373A CN 115130003 A CN115130003 A CN 115130003A
Authority
CN
China
Prior art keywords
target
information
behavior
sample pair
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210875373.8A
Other languages
English (en)
Inventor
杨诏
佟建锋
张蔚
石兮若
陈琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN202210875373.8A priority Critical patent/CN115130003A/zh
Publication of CN115130003A publication Critical patent/CN115130003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0263Targeted advertisements based upon Internet or website rating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开一种模型处理方法、装置、设备及存储介质,其相关实施例可应用于人工智能等场景。该方法包括:获取候选样本对以及相应的样本标注标签;候选样本对包括候选对象集中的两个对象标识;调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息;采用位置预测函数根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果;根据样本标注标签和目标位置预测结果,更新目标模型的模型参数,以得到目标资讯信息对应的更新后的目标模型;可以提升模型的收敛速度,减少模型的训练时长,提高模型的训练效率。

Description

模型处理方法、装置、设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种模型处理方法、装置、设备及存储介质。
背景技术
在广告信息、活动信息等资讯信息的推送场景中,通常可以通过训练一个神经网络模型来预测对象的行为参数,进而通过行为参数的高低判断是否将该资讯信息推送至该对象,行为参数可用于衡量对象在接收到推送的资讯信息后,对该资讯信息执行的某一种反馈行为的重要度。目前,通常是通过对比对样本对象标注得到的行为参数,和神经网络模型针对样本对象预测得到的行为参数之间的差异,来对神经网络模型进行训练的;但由于存在行为参数的样本对象少,这样会导致神经网络模型的训练样本少,而较少的训练样本容易使得神经网络模型在训练过程中无法快速达到收敛,导致模型训练时长较长,从而使得模型训练效率较低。
发明内容
本申请实施例提供一种模型处理方法、装置、设备、存储介质,可以提升模型的收敛速度,减少模型的训练时长,提高模型的训练效率。
一方面,本申请实施例提供了一种模型处理方法,包括:
获取候选样本对以及相应的样本标注标签;所述候选样本对包括候选对象集中的两个对象标识,所述样本标注标签是基于所述候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,所述样本标注标签用于标记所述候选样本对中的两个对象标识在所述候选对象集中的位置关系;
调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果;
根据所述样本标注标签和所述目标位置预测结果,更新所述目标模型的模型参数,以得到所述目标资讯信息对应的更新后的目标模型;其中,所述目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将所述目标资讯信息推送给相应对象。
一方面,本申请实施例提供了一种模型处理装置,包括:
获取用于更新初始模型的原始对象集;所述原始对象集包括:历史接收到所述目标资讯信息的多个对象的对象标识;
从所述原始对象集中选取两个对象标识构建原始样本对,获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签;任一行为标签指示相应对象是否对所述目标资讯信息执行过反馈行为;所述原始标注标签指示所述原始样本对中的两个对象标识在所述原始对象集中的位置关系;
调用所述初始模型根据所述原始样本对中各个对象标识对应的对象特征,分别对相应对象的行为执行情况进行预测,得到相应的行为预测结果;任一行为预测结果用于指示:相应对象对所述目标资讯信息执行反馈行为的概率;
采用所述位置预测函数根据得到的各个行为预测结果,对所述原始样本对中的两个对象标识在所述原始对象集中的位置关系进行预测,得到所述原始样本对所对应的位置预测结果;
基于所述原始标注标签和所述原始样本对所对应的位置预测结果更新所述初始模型,以得到待更新的目标模型。
一方面,本申请实施例提供了一种电子设备,其特征在于,所述电子设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述模型处理方法。
一方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述模型处理方法。
一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;电子设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得电子设备执行上述模型处理方法。
本申请实施例可构建目标模型,以用于预测对象的对象标识在目标行为类型下的行为参数的描述信息,在采用候选对象集对目标模型进行训练的过程中,可以获取包括了候选对象集中的两个对象标识的候选样本对,以及相应的用于标记候选样本对中的两个对象标识在候选对象集中的位置关系的样本标注标签,其中,样本标注标签是基于候选样本对中各个对象标识的目标行为参数确定的。然后利用排序学习的思想,调用目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息,并根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果,从而基于样本标注标签和目标位置预测结果来更新目标模型的模型参数。可见,本申请实施例通过利用排序学习的思想,使得可通过对候选对象集中的各个对象标识进行两两组合的方式来进行训练样本的扩充,在一定程度上提升目标模型的训练样本(一个训练样本为一个样本对)的数量,这样不仅可解决因训练样本少带来的模型过拟合问题,还可使得目标模型在训练过程中可以通过较为丰富的训练样本来学习到更多的知识,从而可以提升目标模型的收敛速度,减少目标模型的训练时长,提高目标模型的训练效率,并进一步提升目标模型的模型训练效果,使得更新后的目标模型可具有表现力好、鲁棒性高等优势,进而使得更新后的目标模型可以较为准确地预测出任一对象的对象标识在目标行为类型下的行为参数的描述信息,以根据描述信息准确决策出是否将目标资讯信息推送给相应对象,提高资讯信息的推送效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种由终端设备和服务器共同执行模型处理方案的示意图;
图1b是本申请实施例提供的另一种由终端设备和服务器共同执行模型处理方案的示意图;
图2是本申请实施例提供的一种模型处理方法的流程示意图;
图3是本申请实施例提供的另一种模型处理方法的流程示意图;
图4是本申请实施例提供的一种目标模型的结构示意图;
图5是本申请实施例提供的一种通过权重学习层对中间特征进行处理的示意图;
图6是本申请实施例提供的一种向目标对象推送目标资讯信息的示意图;
图7是本申请实施例提供的一种向多个对象推送目标资讯信息的示意图;
图8是本申请实施例提供的另一种模型处理方法的流程示意图;
图9是本申请实施例提供的一种得到待更新的目标模型的示意图;
图10是本申请实施例提供的一种期望向目标对象推送多个资讯信息的示意图;
图11是本申请实施例提供的一种模型处理装置的结构示意图;
图12是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习(Deep Learning,DL)等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习、有监督学习等技术。
本申请实施例基于人工智能领域中的机器学习技术提供了一种模型处理方案,该模型处理方案的大致原理如下:首先,可构建目标模型,以用于预测对象的对象标识在目标行为类型下的行为参数的描述信息,并获取多个样本对以及相应的标注标签,其中,任一样本对包括候选对象集中的两个对象标识,候选对象集中包含历史对目标资讯信息执行过目标行为类型下的反馈行为的对象的对象标识,任一样本对的标注标签是基于该样本对中各个对象标识的目标行为参数确定的,用于标记该样本对中的两个对象标识在候选对象集中的位置关系。然后,可利用排序学习的思想,调用目标模型根据各个样本对中的各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息,并根据预测出的各个描述信息,对各个样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到各个样本对对应的位置预测结果,从而基于各个样本对对应的位置预测结果和相应的标注标签之间的差异,来更新目标模型的模型参数,以使得后续可基于更新后的目标模型来预测任一对象的对象标识在目标行为类型下的行为参数的描述信息,从而基于预测的描述信息来决策是否将目标资讯信息推送给相应对象。
其中,上述提及的目标资讯信息可以为用于推送给对象的任一信息,例如其可以为广告信息、游戏活动信息等。上述所提及的目标行为类型可以是根据具体需求设定的任一行为类型,一个行为类型下可存在一个或多个反馈行为;所谓的反馈行为又可称为转化行为,其具体可以是指对象在接收到资讯信息后所执行的行为,如点击行为、注册行为、付费行为等等;相应的,目标行为类型可以是指:点击行为类型、注册行为类型或者付费行为类型,等等。另外,上述所提及的对象标识的目标行为参数是指该对象标识在目标行为类型下的行为参数,用于指示该对象标识所指示的对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,通常来说,任一行为类型下存在一种或多种根据具体需求进行设定的反馈行为,每种反馈行为具有不同的重要度,任一种反馈行为的重要度可以是由指定对象(例如目标资讯信息的投放者)对该反馈行为的认可程度来确定的,指定对象对该反馈行为的认可程度越高,则表明对象执行该反馈行为所产生的价值越大,则该反馈行为的重要度越高。
在具体实现中,本申请实施例提出的模型处理方案可以通过电子设备执行,其中,该电子设备可以为终端设备,该终端设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、智能可穿戴设备等;或者,该电子设备也可以为服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
或者,本申请实施例提出的模型处理方案也可以由终端设备和服务器共同执行。例如参见图1a所示,可由终端设备负责获取多个样本对以及相应的标注标签;然后,将各个样本对以及相应的标注标签发送给服务器,由服务器利用排序学习的思想根据各个样本对和相应的标注标签,来执行相应的各个步骤以更新目标模型的模型参数,并将更新后的目标模型应用到目标资讯信息的推送场景中。又如参见图1b所示,可由服务器负责获取多个样本对以及相应的标注标签,从而利用排序学习的思想根据各个样本对和相应的标注标签,来执行相应的各个步骤来更新目标模型的模型参数,然后将更新后的目标模型下发给终端设备,使得终端设备可根据更新后的目标模型预测任一对象的对象标识的描述信息,并基于预测的描述信息决策是否将目标资讯信息推送给相应对象,以实现将更新后的目标模型运用在目标资讯信息的推送场景中。应理解的是,图1a和图1b均只是示例性地表征了终端设备和服务器共同执行模型处理方案的两种示意图,并不对此进行限定。
特别需要说明的是,在本申请的具体实施方式中,涉及到对象相关的数据,例如对象特征,当本申请实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守当地法律法规和标准。
基于上述模型处理方案,本申请实施例提供了一种模型处理方法。参见图2,为本申请实施例提供的一种模型处理方法的流程示意图。图2所示的模型处理方法可由电子设备执行,也可以由任意有计算力的其他设备执行,本申请实施例以电子设备进行阐述。图2所示的模型处理方法可包括如下步骤:
S201,获取候选样本对以及相应的样本标注标签。
其中,候选样本对包括候选对象集中的两个对象标识,样本标注标签是基于候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,样本标注标签用于标记候选样本对中的两个对象标识在候选对象集中的位置关系。
在一个实施例中,候选对象集中包括:对历史接收到的目标资讯信息执行了目标行为类型下的反馈行为的对象的对象标识,也就是说,可以从历史推送了目标资讯信息的对象中(即历史接收到目标资讯信息的对象),将对目标资讯信息执行了目标行为类型下的反馈行为的对象的对象标识添加至候选对象集中;进一步的,可以从候选对象集中选取两个对象标识构建一个样本对作为候选样本对。具体的,可以从候选对象集中随机选取两个对象标识构建候选样本对,即此方式下被选取的两个对象标识可以为候选对象集中的任意两个对象标识;举例来说,若从候选对象集中选取的两个对象标识分别为对象A和对象B,且基于对象A和对象B构建的一个样本对可以为<对象A,对象B>,则该样本对被作为候选样本对,其中对象A可以称为该候选样本对中的第一个对象标识,对象B可以称为该候选样本对中的第二个对象标识;若基于对象A和对象B构建的另一个样本对为<对象B,对象A>,此时,该样本对被作为候选样本对,且该候选样本对中的第一个对象标识为对象B,该候选样本对中的第二个对象标识为对象A。可选的,可以按照预设的对象标识选取策略从候选对象集中选取两个对象标识构建候选样本对,即此方式下被选取的两个对象标识需满足该对象标识选取策略;例如,若对象标识选取策略指示:分别按照目标行为参数从高到低的顺序进行对象标识选取,也就是说,可以按照目标行为参数从高到低的顺序先选取一个对象标识,并在一个对象标识被选取出的情况下,按照目标行为参数从高到低的顺序选取另一个对象标识,举例来说,若候选对象集中包括的各个对象标识按照目标行为参数从高到低排列时分别为:对象A、对象B、对象C以及对象D,若按照目标行为参数从高到低的顺序选取的第一个对象标识为对象A,那么在选取出对象A的情况下,可以先后选取出对象B、对象C以及对象D作为对象A所对应的另一个对象标识。
在一个实施例中,样本标注标签可以用于标记候选样本对中的两个对象标识在候选对象集中的位置关系,样本标注标签可以是基于候选样本对中各个对象标识的目标行为参数确定的;其中,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,可选的,目标行为参数可以是对执行的反馈行为进行重要度判断得到的;通常来说,当对象在接收到目标资讯信息后,对目标资讯信息执行的目标行为类型下的反馈行为的重要度越大时,目标行为参数越大;进一步的,对象标识的目标行为参数可以是由指定对象(例如目标资讯信息的投放对象)设定的,也可以是由电子设备根据指定对象所设定的目标行为参数设定策略所确定的;举例来说,当目标资讯信息为广告信息时,目标资讯信息的投放对象即为广告主,例如,目标行为参数设定策略可以被设定为:当目标行为类型为付费行为类型时,可以将产生了付费行为、且付费额度在不同额度范围内的目标行为参数设定为不同分值,例如,可以将产生了付费行为,且付费额度在(0,200]时的目标行为参数的分值设定为1,将产生了付费行为,且付费额度在(200,500]时的目标行为参数的分值设定为2,将产生了付费行为,且付费额度在(500,1000]时的目标行为参数的分值设定为3,将产生了付费行为,且付费额度在(1000,2000]时的目标行为参数的分值设定为4,将产生了付费行为,且付费额度在(2000,∞]时的目标行为参数的分值设定为5。进一步可选的,电子设备对于对象标识的目标行为参数的获取,可以通过输出至指定对象的终端设备中的交互界面直接获取指定对象回传的对象标识的目标行为参数,也可以获取指定对象回传的目标行为参数设定策略,进而由电子设备基于目标行为参数设定策略,以及对象执行的目标行为类型下的反馈行为,生成相应对象标识的目标行为参数。通常来说,对象标识在候选样本集中的排列位置与对象标识的目标行为参数的高低有关,目标行为参数高的对象标识在候选对象集中的排列位置,位于目标行为参数低的对象标识之前。
进一步的,用于确定样本标注标签的,候选样本对中任一对象标识的目标行为参数,应该为对该对象标识历史产生的目标行为参数,基于对象标识*资讯信息粒度去重之后的目标行为参数,也就是说,若对象标识历史产生多个目标行为参数,则用于确定样本标注标签的应该为该多个目标行为参数中的最大值,应当注意的是,本申请实施例中所提及的对象标识的目标行为参数都应该为该对象标识历史产生的目标行为参数的最大值;举例来说,若该对象标识所指示的对象在接收到目标资讯信息之后,对目标资讯信息执行了第一行为类型的多种反馈行为,对应产生的行为参数的分值分别为:1、2、3,对目标资讯信息执行了第二行为类型的多种反馈行为,对应产生的行为参数的分值分别为:3、4、5,则当目标行为类型为第一行为类型时,该对象的对象标识历史产生的目标行为参数的分值分别为:1、2、3,则用于确定样本标注标签的,该对象标识的目标行为参数的分值为3,当目标行为类型为第二行为类型时,该对象的对象标识历史产生的目标行为参数的分值分别为:4、5、6,则用于确定样本标注标签的,该对象标识的目标行为参数的分值为6。
S202,调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息。
在一个实施例中,待更新的目标模型可以是任意可实现预测对象的对象标识在目标行为类型下的行为参数的描述信息等相关功能的神经网络模型,可以根据具体需求进行选取或设计,例如可以采用排序学习(Learning to rank,LTR)领域中常用的排序学习模型(即LTR模型),如ranknet模型。在一个实施例中,任一描述信息可以包括:一个用于描述目标行为类型下的行为参数的预测分值,也就是说,调用待更新的目标模型根据对象标识对应的对象特征,可以预测得到一个分值,该分值可以用于衡量该对象标识的目标行为参数,进一步的,该分值也可以用于衡量该对象标识所指示的对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度。
在一个实施例中,对象特征可以包括至少一个与对象相关的属性特征,可以根据具体需求对属性特征的特征项进行设定,本申请实施例不对对象特征进行限定,例如,可以设定对象特征包括了:与对象年龄、对象性别、对象常住城市、对象持有的终端设备等信息相关的属性特征。
S203,采用位置预测函数根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果。
在一个实施例中,当任一描述信息包括一个用于描述目标行为类型下的行为参数的预测分值时,电子设备采用位置预测函数根据预测出的各个描述信息,预测得到的目标位置预测结果,与候选样本对中各个对象标识在目标行为类型下的预测分值的高低有关,在目标行为类型下的预测分值高的对象标识在候选对象集中的排列位置,位于在目标行为类型下的预测分值低的对象标识之前;其中,位置预测函数可以为任意能实现根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测的相关功能的函数,本申请实施例不做限制。
S204,根据样本标注标签和目标位置预测结果,更新目标模型的模型参数,以得到目标资讯信息对应的更新后的目标模型。
其中,目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将目标资讯信息推送给相应对象。
在一个实施例中,电子设备可以朝着减小样本标注标签和目标位置预测结果之间的差异的方向,通过更新目标模型中的模型参数来更新目标模型,以得到目标资讯信息对应的更新后的目标模型。
本申请实施例可构建目标模型,以用于预测对象的对象标识在目标行为类型下的行为参数的描述信息,在采用候选对象集对目标模型进行训练的过程中,可以获取包括了候选对象集中的两个对象标识的候选样本对,以及相应的用于标记候选样本对中的两个对象标识在候选对象集中的位置关系的样本标注标签,其中,样本标注标签是基于候选样本对中各个对象标识的目标行为参数确定的。然后利用排序学习的思想,调用目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息,并根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果,从而基于样本标注标签和目标位置预测结果来更新目标模型的模型参数。可见,本申请实施例通过利用排序学习的思想,使得可通过对候选对象集中的各个对象标识进行两两组合的方式来进行训练样本的扩充,在一定程度上提升目标模型的训练样本(一个训练样本为一个样本对)的数量,这样不仅可解决因训练样本少带来的模型过拟合问题,还可使得目标模型在训练过程中可以通过较为丰富的训练样本来学习到更多的知识,从而可以提升目标模型的收敛速度,减少目标模型的训练时长,提高目标模型的训练效率,并进一步提升目标模型的模型训练效果,使得更新后的目标模型可具有表现力好、鲁棒性高等优势,进而使得更新后的目标模型可以较为准确地预测出任一对象的对象标识在目标行为类型下的行为参数的描述信息,以根据描述信息准确决策出是否将目标资讯信息推送给相应对象,提高资讯信息的推送效果。
基于上述模型处理方法的相关实施例,本申请实施例提供了另一种模型处理方法。参见图3,为本申请实施例提供的另一种模型处理方法的流程示意图。图3所示的模型处理方法可由电子设备执行,也可以由任意有计算力的其他设备执行,本申请实施例以电子设备进行阐述。图3所示的模型处理方法可包括如下步骤:
S301,获取候选样本对以及相应的样本标注标签。
其中,候选样本对包括候选对象集中的两个对象标识,样本标注标签是基于候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,样本标注标签用于标记候选样本对中的两个对象标识在候选对象集中的位置关系。
具体实现中,候选样本对中的第一个对象标识在候选对象集中的排列位置可以称为第一排列位置,候选样本对中的第二个对象标识在候选对象集中的排列位置可以称为第二排列位置;电子设备获取候选样本对以及相应的样本标注标签,可以包括:获取候选样本对,以及候选样本对中各个对象标识的目标行为参数;若候选样本对中的第一个对象标识的目标行为参数,大于候选样本对中的第二个对象标识的目标行为参数,则将第一标签确定为样本标注标签,第一标签用于指示:第一排列位置位于第二排列位置之前;若候选样本对中的第一个对象标识的目标行为参数,等于候选样本对中的第二个对象标识的目标行为参数,则将第二标签确定为样本标注标签,第二标签用于指示:第一排列位置和第二排列位置为同一位置;若候选样本对中的第一个对象标识的目标行为参数,小于候选样本对中的第二个对象标识的目标行为参数,则将第三标签确定为样本标注标签,第三标签用于指示:第一排列位置位于第二排列位置之后;其中,第一标签、第二标签以及第三标签可以是根据具体需求进行设定的数值,且第一标签、第二标签以及第三标签应当满足:第一标签大于第二标签,第二标签大于第三标签,且第二标签到第一标签的距离,应当和第二标签到第三标签的距离相等,也就是说,第二标签应当为第一标签和第三标签的均值;可选的,可以将第一标签设定为1、第二标签设定为0、第三标签设定为-1,还可以将第一标签设定为1、第二标签设定为0.5、第三标签设定为0,则样本标注标签满足以下公式1:
Figure BDA0003761185970000121
其中,y表示样本标注标签,weight1表示候选样本对中的第一个对象标识的目标行为参数,weight2表示候选样本对中的第二个对象标识的目标行为参数。
S302,调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息。
在一个实施例中,若对象特征包括的属性特征的数量为N,即任一对象特征包括N个属性特征,N为正整数,则电子设备调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息,可以包括:调用待更新的目标模型,分别对候选样本对中的第i个对象标识对应的对象特征中的各个属性特征进行特征降维处理,得到N个中间特征;i∈[1,2];获取N个中间特征中每个中间特征的特征权重;任一特征权重用于指示相应的中间特征的重要度;根据每个中间特征以及相应的特征权重,预测第i个对象标识在目标行为类型下的行为参数的描述信息;其中,任一中间特征是一个多维向量。
具体实现中,电子设备调用待更新的目标模型,分别对候选样本对中的第i个对象标识对应的对象特征中的各个属性特征进行特征降维处理,得到N个中间特征时,可以通过分别对各个属性特征进行特征嵌入处理实现。进一步的,电子设备获取N个中间特征中每个中间特征的特征权重,可以包括:分别对N个中间特征中每个中间特征进行特征挤压处理,得到N个特征挤压值,其中,任一特征挤压值为一维数值;根据N个中间特征中第n个中间特征对应的特征挤压值与各个特征挤压值之间的相关性,确定第n个中间特征的特征权重,n∈[1,N]。更进一步的,电子设备根据每个中间特征以及相应的特征权重,预测第i个对象标识在目标行为类型下的行为参数的描述信息,可以包括:分别将每个中间特征以及相应的特征权重进行加权处理,得到N个加权后的特征;将N个加权后的特征进行拼接处理,得到拼接后的特征,进而基于拼接后的特征预测第i个对象标识在目标行为类型下的行为参数的描述信息。
参见图4,为本申请实施例提供的一种目标模型的结构示意图,该目标模型可以包括嵌入层(即EmbeddingLayer)、权重学习层(可以为Squeeze-and-ExcitationNetworksLayer,即SENET Layer)、拼接层(即Concat Layer)以及全连接层(即DenseLayer)。其中,嵌入层主要用于分别对候选样本对中的第i个对象标识对应的对象特征中的各个属性特征进行特征嵌入处理,以实现分别对各个属性特征的特征降维处理,得到N个中间特征;其中,嵌入层的维度可以根据具体需求进行设定,例如,可以将嵌入层的维度设定为20、10等,本申请实施例不做限定,通过嵌入层可以实现对各个属性特征的降维,可以减少目标模型后续的处理数据,节约计算资源,加快处理速度。
进一步的,权重学习层可以用于学习N个中间特征中每个中间特征的特征权重,并分别将每个中间特征以及相应的特征权重进行加权处理,得到N个加权后的特征,由于任一特征权重用于指示相应的中间特征的重要度,所以权重学习层的引入可以基于中间特征的重要度实现对中间特征的筛选,使得目标模型可以着重学习重要度高的(即特征权重高)中间特征,进而可以提高更新后的目标模型的表现力。参见图5,为本申请实施例提供的一种通过权重学习层对中间特征进行处理的示意图,如501标记所示为N个中间特征,每个中间特征均为多维向量,如502标记所示为得到的N个特征挤压值,每个特征挤压值均为一维数值,如503标记所示为得到的N个特征权重,如504标记所示为得到的N个加权后的特征;其中,通过权重学习层,分别对N个中间特征中每个中间特征进行特征挤压处理,得到N个特征挤压值可以被称为Squeeze操作,该操作可以通过引入相关的特征挤压函数实现;通过权重学习层根据N个中间特征中第n个中间特征对应的特征挤压值与各个特征挤压值之间的相关性,确定第n个中间特征的特征权重可以被称为Excitation操作,该操作可以通过引入相关的特征权重确定函数实现;通过权重学习层分别将每个中间特征以及相应的特征权重进行加权处理,得到N个加权后的特征可以被称为Reweight操作,该操作可以通过引入相关的加权函数实现。
更进一步的,拼接层主要用于将N个加权后的特征进行拼接处理,得到拼接后的特征;基于拼接后的特征预测第i个对象标识在目标行为类型下的行为参数的描述信息可以通过至少一个全连接层实现,可以实现将拼接后的特征映射为一个分值,该分值可以为用于描述目标行为类型下的行为参数的预测分值,此时并不期望目标模型能实现对该对象标识的目标行为参数的直接预测,只是预测出一个分值,该分值能够衡量该对象标识的目标行为参数即可,进而该预测分值被作为描述信息,可选的,该分值可以为预测行为参数,也就是说,此时期望目标模型能实现对该对象标识的目标行为参数的直接预测,进而该预测行为参数被作为描述信息。其中,全连接层的数量以及各个全连接层的维度可以根据具体需求进行,例如,可以设定包括3个全连接层,三个全连接层的维度分别为128维、64维以及32维
在另一种可行的实施方式中,电子设备根据N个中间特征中第n个中间特征对应的特征挤压值与各个特征挤压值之间的相关性,确定第n个中间特征的特征权重时,还可以对N个中间特征中,与第n个中间特征存在相关性的中间特征对应的特征挤压值进行求和处理,得到第n个中间特征对应的特征相关值,并基于N个中间特征对应的特征相关值与第n个中间特征对应的特征相关值,确定该第n个中间特征的特征权重。可选的,电子设备基于N个中间特征对应的特征相关值与第n个中间特征对应的特征相关值,确定该第n个中间特征的特征权重时,可以将对第n个中间特征对应的特征相关值进行归一化处理之后的结果作为该第n个中间特征的特征权重,还可以将第n个中间特征对应的特征相关值,在N个中间特征对应的特征相关值所构成的相关值总值中的占比作为该第n个中间特征的特征权重。
S303,采用位置预测函数根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果。
在一个实施例中,电子设备采用位置预测函数根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果,包括:采用位置预测函数根据预测出的各个描述信息,对第一排列位置位于第二排列位置之前的概率进行预测,得到预测概率;以及,将预测概率作为目标位置预测结果;其中,当预测概率大于基准概率时,指示预测出的位置关系为:第一排列位置位于第二排列位置之前;当预测概率等于基准概率时,指示预测出的位置关系为:第一排列位置和第二排列位置为同一位置;当预测概率小于基准概率时,指示预测出的位置关系为:第一排列位置位于第二排列位置之后;其中,该基准概率为指示第一排列位置和第二排列位置为同一位置的第二标签,若样本标注标签为基于上述公式1确定出的,则基准概率为0.5。
在一个实施例中,当任一描述信息包括一个用于描述目标行为类型下的行为参数的预测分值时,电子设备采用位置预测函数根据预测出的各个描述信息,对第一排列位置位于第二排列位置之前的概率进行预测,得到预测概率,可以包括:采用位置预测函数对候选样本对中的第一个对象标识在目标行为类型下的预测分值与第二个对象标识在目标行为类型下的预测分值进行差值运算,得到差值运算结果;将差值运算结果映射至预设数值区间中,得到预测概率;其中,该预设数值区间为用于确定样本标注标签的数值所处的预设数值区间,即为用于确定样本标注标签的第一标签、第二标签以及第三标签所处的预设数值区间,更具体的,该预设数值区间为第一标签、第二标签以及第三标签所构成的数值区间,当第一标签为1、第二标签为0.5、第三标签为0时,该预设数值区间应该为[0,1],即电子设备可以将差值运算结果向预设数值区间进行映射,以得到预测概率。
具体实现中,由于设定样本标注标签时,在候选样本对中第一个对象标识的目标行为参数大于第二对象标识的目标行为参数的情况下,将第一标签确定为样本标注标签,在候选样本对中第一个对象标识的目标行为参数小于第二对象标识的目标行为参数的情况下,将第三标签确定为样本标注标签,所以,将差值运算结果映射至预设数值区间中,得到预测概率时,可以将差值运算结果进行正比例映射;进一步可选的,由于差值运算结果可以遍布(-∞,+∞)区间,所以位置预测函数可以采用能实现将(-∞,+∞)区间内的实数正比例映射到预设数值区间内的激活函数实现,在预设数值区间为[0,1]的情况下,该激活函数可以选用sigmoid激活函数,具体可以由以下公式2示出:
p=Sigmoid(p1-p2) (2)
其中,p表示预测概率,即第一排列位置位于第二排列位置之前的概率,p1表示候选样本对中第一个对象标识在目标行为类型下的行为参数的描述信息,即候选样本对中第一个对象标识在目标行为类型下的预测分值,p2表示候选样本对中第二个对象标识在目标行为类型下的行为参数的描述信息,即候选样本对中第二个对象标识在目标行为类型下的预测分值。
在一个实施例中,当任一描述信息包括一个通过目标模型预测得到的,目标行为类型下的预测行为参数时,电子设备采用位置预测函数根据预测出的各个描述信息,对第一排列位置位于第二排列位置之前的概率进行预测,得到预测概率,可以包括:在候选样本对中第一个对象标识在目标行为类型下的预测行为参数大于第二个对象标识在目标行为类型下的预测行为参数的情况下,将第一预测概率值确定为预测概率;在候选样本对中第一个对象标识在目标行为类型下的预测行为参数等于第二个对象标识在目标行为类型下的预测行为参数的情况下,将第二预测概率值确定为预测概率;在候选样本对中第一个对象标识在目标行为类型下的预测行为参数小于第二个对象标识在目标行为类型下的预测行为参数的情况下,将第三预测概率值确定为预测概率;其中,第二预测概率值与用于确定样本标注标签的第二标签相等,第一预测概率值以及第三预测概率值可以是根据具体需求进行设定的,且第一预测概率值、第二预测概率值以及第三预测概率值应当满足:第一预测概率值大于第二预测概率值,第二预测概率值大于第三预测概率值;可选的,当选取第一标签作为第一预测概率值,选取第三标签作为第二预测概率值时,对目标模型的训练更加准确。
S304,根据样本标注标签和目标位置预测结果,更新目标模型的模型参数,以得到目标资讯信息对应的更新后的目标模型。
其中,目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将目标资讯信息推送给相应对象。
在一个实施例中,电子设备可以朝着减小样本标注标签和目标位置预测结果之间的差异的方向,通过更新目标模型中的模型参数来更新目标模型,以得到目标资讯信息对应的更新后的目标模型。当采用基于候选对象集构建的多个样本对来对目标模型进行更新时,电子设备可以朝着减小各个样本对所对应的标注标签和相应位置预测结果之间的差异的方向,对目标模型中的模型参数进行更新,当达到模型收敛条件时,得到目标资讯信息对应的更新后的目标模型;其中,各个样本对所对应的标注标签和相应位置预测结果之间的差异可以通过目标损失值表征,该目标损失值可以是通过目标损失函数得到的,该目标损失函数可以根据具体需求进行选择或设计,可选的,该目标损失函数可以为交叉熵损失函数,具体可以如以下公式3示出:
Figure BDA0003761185970000161
其中,H为基于候选对象集构建的多个样本对的数量,h为自变量,yh为H个样本对中第h个样本对所对应的标注标签,ph为第h个样本对所对应的位置预测结果,即第h个样本对中第一个对象标识在候选对象集中的排列位置,位于第二个对象标识在候选对象集中的排列位置之前的概率,此时电子设备可以朝着减小目标损失值的方向,更新目标模型。进一步可选的,对于候选对象集中的各个对象标识,若在候选对象集中的各个对象标识以任意排列顺序进行排列时,可以通过该排列顺序所指示的每相邻两个对象标识构建的样本对的预测概率,计算得到基于候选对象集中任意两个对象标识构建的样本对的预测概率;所以在预测基于候选对象集中的对象所构建的所有样本对的预测概率时,可以只通过目标模型预测每相邻两个对象标识构建的样本对的预测概率,而其他样本对的预测概率通过计算得到,可以减小计算量、节约计算资源、提高模型训练速度。
在一个实施例中,可以使用随机梯度下降算法(即SGD)或自适应随机更新算法(即Adam)等更新算法,基于候选对象集对目标模型进行多轮更新,以实现对目标模型的模型参数的迭代更新,其中,对目标模型进行更新的过程中所使用的相关更新参数可以根据具体需求进行设定,例如可以根据具体需求对更新轮数(即epoch)、初始学习率、分批次更新时每批次样本的数量(即每批次样本对的数量,即batch size)、更新算法所需的超参,等等;例如,在一种可选的实施方式中,可以使用自适应随机更新算法,设定初始学习率为0.001,epoch=1000,batch size=512,更新算法所需的超参中的一阶矩估计的指数衰减率为0.975(即beta1=0.975),二阶矩估计的指数衰减率为0.999(即beta2=0.999),每100轮按照0.9衰减学习率来对目标模型进行更新,并且可以引入在模型训练过程中常用的神经元丢弃操作(即dropout)和早停操作(即early stoppping)来防止目标模型过拟合,神经元丢弃操作中的神经元丢弃概率可以设置为0.5,即dropout rate=0.5。
在对目标模型进行更新的过程中,通过将表征了候选样本对中第一个对象标识在候选对象集中的排列位置,位于第二个对象标识在候选对象集中的排列位置之前的概率,作为候选样本对的目标位置预测结果,进而通过对比样本标注标签和目标位置预测结果之间的差异对目标模型进行训练,可以将对候选样本对中第一个对象标识与第二个对象标识在目标样本集中的位置关系的预测,转换为对候选样本对中第一个对象标识在候选对象集中的排列位置,位于第二个对象标识在候选对象集中的排列位置之前的概率的预测,能够在排序学习思想的基础上引入有关对的方法(即Pair-wise),进而能够在排序学习思想的基础上实现从概率的角度解决排序问题,进而可以从概率损失的角度对更新目标模型所使用的损失函数进行设计,即可以基于概率损失的角度对目标模型(即排序学习中的排序函数(Ranking Function)所对应的模型)进行训练,可以提高目标模型的模型训练效果,使目标资讯信息对应的更新后的目标模型的表现力更好。在此基础上,本申请提出朝着减小样本标注标签和目标位置预测结果之间的差异的方向,也即朝着减小目标损失函数值的方向对目标模型进行训练,是由于在基于候选对象集构建的多个样本对训练目标模型的过程中,可以朝着减少预测错误的样本对的数量对目标模型进行训练,其中预测错误的样本对是指:该样本对的位置预测结果所指示的位置关系,与该样本对的标注标签所指示位置关系不同。
S305,当欲向目标对象推送目标资讯信息,且期望目标对象对目标资讯信息执行目标行为类型下的反馈行为时,获取目标对象的对象特征。
在一个实施例中,目标对象的对象特征中的各个属性特征的特征项,应该与目标样本集中的对象标识对应的对象特征中的各个属性特征的特征项相同,再此不再赘述。
S306,调用目标资讯信息对应的更新后的目标模型,根据目标对象的对象特征,预测目标对象的对象标识在目标行为类型下的行为参数的描述信息,得到目标描述信息。
在一个实施例中,目标描述信息包括一个分值,电子设备调用目标资讯信息对应的更新后的目标模型,根据目标对象的对象特征,预测目标对象的对象标识在目标行为类型下的行为参数的描述信息,得到目标描述信息的相关过程,与调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息的相关过程类似,在此不再赘述。
S307,获取目标资讯信息对应的分值阈值,并在目标描述信息大于目标资讯信息对应的分值阈值的情况下,将目标资讯信息推送至目标对象。
在一个实施例中,在任一描述信息包括一个用于描述目标行为类型下的行为参数的预测分值,或任一描述信息包括一个通过目标模型预测得到的,目标行为类型下的预测行为参数的情况下,目标描述信息为一个分值,那么此时电子设备可以获取目标资讯信息对应的分值阈值,并在目标描述信息大于目标资讯信息对应的分值阈值的情况下,将目标资讯信息推送至目标对象;其中,该目标资讯信息对应的分值阈值可以是基于具体需求进行设定的。
在一种可行的实施方式中,目标资讯信息对应的分值阈值的计算方式,可以包括:从候选对象集和原始对象集中,选取一个对象集作为测试对象集;调用目标资讯信息对应的更新后的目标模型,分别根据测试对象集中各个对象标识对应的对象特征,预测相应对象标识在目标行为类型下的行为参数的描述信息;基于测试对象集中各个对象标识在目标行为类型下的行为参数的描述信息,计算目标资讯信息对应的分值阈值。其中,候选对象集中的各个对象标识可以是从原始对象集中选取出的,原始对象集中包括历史接收到目标资讯信息的多个对象的对象标识;电子设备调用目标资讯信息对应的更新后的目标模型,分别根据测试对象集中各个对象标识对应的对象特征,预测相应对象标识在目标行为类型下的行为参数的描述信息的相关过程,与调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息的相关过程类似,在此不再赘述。进一步的,电子设备基于测试对象集中各个对象标识在目标行为类型下的行为参数的描述信息,计算目标资讯信息对应的分值阈值时,可以对测试对象集中各个对象标识在目标行为类型下的行为参数的描述信息进行平均处理,并将平均处理的结果作为目标资讯信息对应的分值阈值,也就是说,当任一描述信息包括一个用于描述目标行为类型下的行为参数的预测分值时,目标资讯信息对应的分值阈值可以为,测试对象集中各个对象标识在目标行为类型下的预测分值的均值。
参见图6,为本申请实施例提供的一种向目标对象推送目标资讯信息的示意图;以电子设备为服务器为例,电子设备可以从目标对象的终端设备中获取目标对象的对象特征,并调用目标资讯信息对应的更新后的目标模型,根据目标对象的对象特征,预测目标对象的对象标识在目标行为类型下的行为参数的描述信息,得到目标描述信息,进一步可以获取目标资讯信息对应的分值阈值,并在目标描述信息大于目标资讯信息对应的分值阈值的情况下,将目标资讯信息推送至目标对象,具体可推送至目标对象的终端设备中。
在一个实施例中,当欲向多个对象推送目标资讯信息,且期望该多个对象中每个对象对目标资讯信息执行目标行为类型下的反馈行为时,可以获取每个对象的对象特征,依次调用目标资讯信息对应的更新后的目标模型,分别根据每个对象的对象特征,预测相应对象的对象标识在目标行为类型下的行为参数的描述信息;进一步可以基于每个对象在目标行为类型下的行为参数的描述信息,对该多个对象的对象标识进行降序排列,得到预测对象序列,并将目标资讯信息推送至该预测对象序列中处于预设序列位置的对象;其中,该预设序列位置可以为根据具体需求进行设定的。参见图7,为本申请实施例提供的一种向多个对象推送目标资讯信息的示意图;以电子设备为服务器为例,若存在对象a所指示的对象、对象b所指示的对象、对象c所指示的对象以及对象d所指示的对象,则可以从每个对象的终端设备中获取相应对象的对象特征,依次调用目标资讯信息对应的更新后的目标模型,分别根据每个对象的对象特征,预测相应对象的对象标识在目标行为类型下的行为参数的描述信息;进一步可以基于每个对象在目标行为类型下的行为参数的描述信息,对该多个对象的对象标识进行降序排列,得到预测对象序列,若得到的预测对象序列为对象b、对象c、对象a以及对象d,且预设序列位置为第一个位置和第二个位置,则电子设备将目标资讯信息推送至对象b所指示的对象和对象c所指示的对象的终端设备中。
本申请实施例中,通过引入排序学***衡的情况下带来的目标模型建模难度大且训练效果差的问题。并且,进一步通过将表征了候选样本对中第一个对象标识在候选对象集中的排列位置,位于第二个对象标识在候选对象集中的排列位置之前的概率,作为候选样本对的目标位置预测结果,进而通过对比样本标注标签和目标位置预测结果之间的差异对目标模型进行训练,可以将对候选样本对中第一个对象标识与第二个对象标识在目标样本集中的位置关系的预测,转换为对候选样本对中第一个对象标识在候选对象集中的排列位置,位于第二个对象标识在候选对象集中的排列位置之前的概率的预测,能够在排序学习思想的基础上实现从概率的角度解决排序问题,进而可以从概率损失的角度对更新目标模型所使用的损失函数进行设计,即可以基于概率损失的角度对目标模型进行训练,可以进一步提高目标模型的模型训练效果,使更新后的目标模型的表现力更好。
基于上述模型处理方法的相关实施例,本申请实施例提供了另一种模型处理方法。参见图8,为本申请实施例提供的另一种模型处理方法的流程示意图。图8所示的模型处理方法可由电子设备执行,也可以由任意有计算力的其他设备执行,本申请实施例以电子设备进行阐述。图8所示的模型处理方法可包括如下步骤:
S801,获取用于更新初始模型的原始对象集。
其中,原始对象集可以包括:历史接收到目标资讯信息的多个对象的对象标识;初始模型与待更新的目标模型的模型结构相同,但模型参数不同,可以通过对初始模型的更新,以得到待更新的目标模型。
S802,从原始对象集中选取两个对象标识构建原始样本对,并获取基于原始样本对中各个对象标识的行为标签所得到的原始标注标签。
其中,任一行为标签指示相应对象是否对目标资讯信息执行过反馈行为;原始标注标签指示原始样本对中的两个对象标识在原始对象集中的位置关系。可选的,对象对目标资讯信息执行过反馈行为时的行为标签可以表示为1,对象对目标资讯信息未执行过反馈行为时的行为标签可以表示为0;进一步可选的,可以用反馈行为参数来表征对象是否对目标资讯信息执行过反馈行为的重要度,当对象对目标资讯信息执行过反馈行为时,可以认定该对象的对象标识的反馈行为参数为1,表征该对象对目标资讯信息产生了价值,当对象对目标资讯信息未执行过反馈行为时,可以认定该对象的对象标识的反馈行为参数为0,表征该对象对目标资讯信息未产生价值。
在一个实施例中,原始样本对中的第一个对象标识在原始对象集中的排列位置称为目标排列位置,原始样本对中的第二个对象标识在原始对象集中的排列位置称为参考排列位置;电子设备获取基于原始样本对中各个对象标识的行为标签所得到的原始标注标签,可以包括:若根据原始样本对中各个对象标识的行为标签,确定出原始样本对中的第一个对象标识所指示的对象执行过反馈行为且第二个对象标识所指示的对象未执行过反馈行为,则将第一数值确定为原始标注标签,第一数值用于指示:目标排列位置位于参考排列位置之前;若原始样本对中各个对象标识的行为标签相同,则将第二数值确定为原始标注标签,第二数值用于指示:目标排列位置和参考排列位置为同一位置;若根据原始样本对中各个对象标识的行为标签,确定出原始样本对中的第一个对象标识所指示的对象未执行过反馈行为且第二个对象标识所指示的对象执行过反馈行为,则将第三数值确定为原始标注标签,第三数值用于指示:目标排列位置位于参考排列位置之后。其中,第一数值、第二数值以及第三数值可以是根据具体需求进行设定的,且第一数值、第二数值以及第三数值应当满足:第一数值大于第二数值,第二数值大于第三数值,且第二数值到第一数值的距离,应当和第二数值到第三数值的距离相等,也就是说,第二数值应当为第一数值和第三数值的均值;可选的,可以将第一数值设定为1、第二数值设定为0、第三数值设定为-1,还可以将第一数值设定为1、第二数值设定为0.5、第三数值设定为0;当第一数值与第一标签相等、第二数值与第二标签相等、且第三数值与第三标签相等时,原始标注标签所满足的条件也可以如上述公式1所示,此时,y表示原始标注标签,weight1表示原始样本对中的第一个对象标识的行为标签或反馈行为参数,weight2表示原始样本对中的第二个对象标识的行为标签或反馈行为参数。
S803,调用初始模型根据原始样本对中各个对象标识对应的对象特征,分别对相应对象的行为执行情况进行预测,得到相应的行为预测结果。
在一个实施例中,电子设备调用初始模型根据原始样本对中各个对象标识对应的对象特征,分别对相应对象的行为执行情况进行预测,得到相应的行为预测结果的相关过程,与上述电子设备调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息的相关过程类似,在此不再赘述;也就是说,通过初始模型对对象特征进行处理,会得到的一个分值,可以将该得到的分值作为相应对象标识的行为预测结果,以用于指示相应对象对目标资讯信息执行反馈行为的概率,也就是说,任一行为预测结果用于指示:相应对象对所述目标资讯信息执行反馈行为的概率;当引入反馈行为参数的概念时,该得到的分值也可以用于衡量相应对象标识的反馈行为参数。
S804,采用位置预测函数根据得到的各个行为预测结果,对原始样本对中的两个对象标识在原始对象集中的位置关系进行预测,得到原始样本对所对应的位置预测结果。
在一个实施例中,电子设备采用位置预测函数根据得到的各个行为预测结果,对原始样本对中的两个对象标识在原始对象集中的位置关系进行预测,得到原始样本对所对应的位置预测结果的相关过程,与电子设备采用位置预测函数根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果的相关过程类似,在此不再赘述。
S805,基于原始标注标签和原始样本对所对应的位置预测结果更新初始模型,以得到待更新的目标模型。
在一个实施例中,可以将基于原始样本集更新得到的,达到收敛条件时的更新后的初始模型直接作为待更新的目标模型;可选的,也可以从更新后的初始模型中选取部分模型参数,对待更新的目标模型的相应的模型参数进行初始化,例如,可以将更新后的初始模型中嵌入层的模型参数,初始化为待更新的目标模型的嵌入层中的模型参数,还可以将更新后的初始模型中嵌入层以及权重学习层的模型参数,初始化为待更新的目标模型的嵌入层以及权重学习层的模型参数,等等,此种情况下,本申请实施例提供了一种得到待更新的目标模型的示意图,具体可以参见图9。
在一个实施例中,基于原始对象集中的对象标识所构建的原始样本对所对应的原始标注标签,和相应的位置预测结果更新初始模型的相关过程,与上述基于候选对象集中的对象标识所构建的候选样本对所对应的样本标注标签,和相应的目标位置预测结果更新目标模型的相关过程类似,在此不再赘述;但可选的,对初始模型进行更新的过程中所使用的相关更新参数可以根据具体需求进行设定,例如,可以设定对初始模型进行更新时所使用的更新参数中的batchsize为2048,其余更新参数与对目标模型更新时所使用的更新参数的设定相同。
S806,获取候选样本对以及相应的样本标注标签。
其中,候选样本对包括候选对象集中的两个对象标识,样本标注标签是基于候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,样本标注标签用于标记候选样本对中的两个对象标识在候选对象集中的位置关系。
S807,调用待更新的目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息。
S808,采用位置预测函数根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果。
S809,根据样本标注标签和目标位置预测结果,更新目标模型的模型参数,以得到目标资讯信息对应的更新后的目标模型。
其中,目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将目标资讯信息推送给相应对象;步骤S806至步骤S809的相关过程与上述步骤S201至步骤S204、以及步骤S301至步骤S304的相关过程类似,在此不再赘述。
在一个实施例中,可以使用排序学习领域中常用的评价指标对更新后的初始模型以及更新后的目标模型进行评价,例如,可以采用AUC指标、累计增益(CG)、累计折损增益(DCG)、以及归一化累计折损增益(NDCG)等评价指标,可选的,由于对初始模型进行更新时所使用原始对象集中包括历史接收到目标资讯信息的对象的对象标识,只包括正负样本对象,即包括对目标资讯信息执行过反馈行为的对象的对象标识、或对目标资讯信息未执行过反馈行为的对象的对象标识,因此AUC指标更适合对更新后的初始模型进行评价;而NDCG可以对排序位置进行加权,能够区分不同目标行为参数的对象标识之间的排序差异,因此NDCG相较于AUC指标更加适合对更新后的目标模型进行评价;本申请后续以使用AUC指标对更新后的初始模型进行评价、以及使用NDCG对更新后的目标模型进行评价为例进行阐述。
其中,AUC是指受试者工作特征曲线(receiver operating characteristiccurve,ROC)下的面积,用于表征正例分数排在反例分数前的概率,其计算方式可以由以下公式4.1示出:
Figure BDA0003761185970000241
若采用第一评价对象集对更新后的初始模型进行评价,G为第一评价对象集中正样本对象的数量,即行为标签指示对目标资讯信息执行过反馈行为的对象的对象标识的数量,K为第一评价对象集中负样本对象的数量,即行为标签指示对目标资讯信息未执行过反馈行为的对象的对象标识的数量;positiveClass表示第一评价对象集中正样本对象所构成的集合,g为自变量;rankg为第g个正样本对象的rank值,其中,记基于初始模型得到的行为预测结果(即初始模型输出的分值)对第一评价对象集中的各个对象标识进行降序排列时的序列为目标评价序列,若目标评价序列的长度为L,则目标评价序列中第1个位置的对象的rank值为L,第2个位置的对象的rank值为L-1,第L个位置的对象的rank值为1,依次类推,得到每个对象的rank值,其中,rankg表示第g个正样本对象所对应的rank值。
若采用第二评价对象集对更新后的目标模型进行评价,基于目标行为参数对第二评价对象集中的各个对象标识进行降序排列,得到参考评价序列,基于更新后的目标模型预测得到的评价对象集中各个对象标识在目标行为类型下的行为参数的描述信息所确定出的对象标识的排列序列可以被称为预测评价序列,基于参考评价序列以及预测评价序列可以实现对累计增益、累计折损增益、以及归一化累计折损增益的计算;其中,累计增益只考虑对象相关性(即对象标识的目标行为参数),不考虑对象标识在参考评价序列中所处的位置,则累计增益的计算方式可以由以下公式4.2示出:
Figure BDA0003761185970000251
其中,p可以表示预测评价序列中的第p个位置,j为自变量,relj表示预测评价序列中第j个对象标识的相关性,即第j个对象标识的目标行为参数。
进一步的,累计折损增益在累计增益的基础上增加了对于对象标识在参考评价序列中所处的位置的考虑,累计折损增益的计算方式可以由以下公式4.3示出:
Figure BDA0003761185970000252
进一步的,归一化累计折损增益是对DCG在理想排序情况下的最佳DCG值(即IDCG)中的归一化,对于对象标识在参考评价序列中所处的位置进行了加权,使目标行为参数高的对象标识比目标行为参数低的对象标识在评价时赋予更大的权重,具体可通过以下公式4.4示出:
Figure BDA0003761185970000261
其中,对理想排序情况下的最佳DCG值进行确定时,可以将第二评价对象集中的各个对象标识按照对象标识相关性(即对象标识的目标行为参数)进行降序排列,并选取相关性最高的p个对象标识的目标行为参数,计算出DCG,即选取参考评价序列中前p个对象标识计算出DCG,此时的DCG即为理想排序情况下的最佳DCG值,具体可以由以下公式4.5示出:
Figure BDA0003761185970000262
其中,|REL|表示参考评价序列中前p个对象标识,具体可以将p设定为评价对象集中的对象标识数量,对于一个完美的排序算法,DCGp会等于IDCGp,这样计算出来的nDCG值为1,所有的nDCG值落在[0,1]区间内。
在一个实施例中,当存在欲推送的包括了M个资讯信息的资讯信息集,M为大于1的整数时,电子设备可以依次将M个资讯信息中每个资讯信息作为目标资讯信息,进而可以为每个资讯信息更新得到一个相应的更新后的目标模型,用于预测对象针对相应资讯信息时,其对象标识在目标行为类型下的行为参数的描述信息;进一步的,电子设备可以基于采用不同资讯信息对应的更新后的目标模型,预测得到的该对象针对不同资讯信息时,其对象标识在目标行为类型下的行为参数的描述信息,判断将M个资讯信息中的哪些资讯信息推送至该对象。具体实现中,当欲向目标对象推送资讯信息集中的M个资讯信息,且期望目标对象对接收到的资讯信息执行目标行为类型下的反馈行为时,获取M个资讯信息中每个资讯信息对应的更新后的目标模型;M为大于1的整数;分别调用每个资讯信息对应的更新后的目标模型,根据目标对象的对象特征,预测目标对象的对象标识在目标行为类型下的行为参数的描述信息,得到M个描述信息;一个描述信息包括一个分值;基于每个资讯信息对应的分值阈值以及相应的描述信息,确定每个资讯信息的扰动因子;扰动因子用于扰动M个资讯信息的推送顺序;基于每个资讯信息的扰动因子,从M个资讯信息中选取待推送的资讯信息,并将选取的资讯信息推送给目标对象。其中,电子设备别调用每个资讯信息对应的更新后的目标模型,根据目标对象的对象特征,预测目标对象的对象标识在目标行为类型下的行为参数的描述信息,得到M个描述信息的相关过程,与上述步骤S306所示的过程类似,在此不再赘述;每个资讯信息对应的分值阈值的计算方式与上述步骤S307中所示的目标资讯信息对应的分值阈值的计算方式类似,在此不再赘述。
具体实现中,基于每个资讯信息对应的分值阈值以及相应的描述信息,确定每个资讯信息的扰动因子,可以包括:针对M个资讯信息中的第m个资讯信息,计算第m个资讯信息对应的描述信息与第m个资讯信息对应的分值阈值之间的比值;将计算得到的比值,确定为第m个资讯信息的扰动因子,m∈[1,M]。由于第m个资讯信息对应的描述信息与第m个资讯信息对应的分值阈值之间的比值,表征了第m个资讯信息对应的描述信息与第m个资讯信息对应的分值阈值之间的相对大小,所以即使在M个资讯信息中不同的资讯信息对应的描述信息不可比的情况下,基于描述信息与相应分值阈值之间的比值确定出的扰动因子仍然具有可比性。
进一步的,基于每个资讯信息的扰动因子,从M个资讯信息中选取待推送的资讯信息时,可以基于每个资讯信息的扰动因子,对M个资讯信息的推送顺序进行扰动,得到扰动后的资讯信息排序队列,并将扰动后的资讯信息排序队列中处于目标队列位置的资讯信息确定为待推送的资讯信息,其中,目标队列位置可以根据具体需求进行设定。在一种可行的实施方式中,可以按照每个资讯信息的扰动因子从大到小的顺序对M个资讯信息进行排序,得到扰动后的资讯信息排序队列,当目标队列位置被设定为第一个队列位置时,则将扰动后的资讯信息排序队列中处于第一个队列位置的资讯信息确定为待推送的资讯信息。在另一种可行的实施方式中,还可以基于每个资讯信息的扰动因子,对相应的推送收益进行调整,得到调整后的推送收益,并按照每个资讯信息对应的调整后的推送收益从大到小的顺序,对M个资讯信息进行排序,得到扰动后的资讯信息排序队列;其中,任一资讯信息的推送收益(即effective cost per mille,ECPM)指的是:相应资讯信息每一千次展示所获得的收益。
举例来说,参见图10,为本申请实施例提供的一种期望向目标对象推送多个资讯信息的示意图,若资讯信息集中包括的4个资讯信息,该4个资讯信息按照原本具有的推送顺序进行排列时分别为:资讯信息1、资讯信息2、资讯信息3以及资讯信息4;电子设备可以从目标对象的终端设备中获取目标对象的对象特征,并分别调用每个资讯信息对应的更新后的目标模型,根据目标对象的对象特征,预测目标对象的对象标识在目标行为类型下的行为参数的描述信息,得到4个描述信息,分别为:描述信息1、描述信息2、描述信息3以及描述信息4;基于每个资讯信息对应的分值阈值以及相应的描述信息,确定每个资讯信息的扰动因子,分别为:扰动因子1、扰动因子2、扰动因子3、扰动因子4,基于每个资讯信息的扰动因子,对4个资讯信息的推送顺序进行扰动,得到扰动后的资讯信息排序队列,并将扰动后的资讯信息排序队列中处于目标队列位置的资讯信息确定为待推送的资讯信息,进而将选取的资讯信息推送至目标对象的终端设备;若扰动后的资讯信息排序队列为:资讯信息4、资讯信息2、资讯信息3以及资讯信息1,且目标队列位置为第一个位置,则电子设备将资讯信息4推送至目标对象的终端设备。
本申请实施例中,可以采用基于原始对象集中的对象标识构建得到的原始样本对,来对初始模型进行更新,以得到待更新的目标模型,进而可以采用基于候选对象集中的对象标识构建得到的样本对,对待更新的目标模型进行进一步更新,即对待更新的目标模型进行微调;可以基于迁移学习思想,充分利用在原始对象集中所学到的知识,进一步实现了对训练样本的扩充,可进一步解决因训练样本少带来的模型过拟合问题,进一步提升目标模型的模型训练效果,使得更新后的目标模型表现力更好、鲁棒性更高。
基于上述模型处理方法实施例,本申请实施例提供了一种模型处理装置。参见图11,为本申请实施例提供的一种模型处理装置的结构示意图,该模型处理装置可包括获取单元1101以及处理单元1102。图11所示的模型处理装置可运行如下单元:
获取单元1101,用于获取候选样本对以及相应的样本标注标签;所述候选样本对包括候选对象集中的两个对象标识,所述样本标注标签是基于所述候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,所述样本标注标签用于标记所述候选样本对中的两个对象标识在所述候选对象集中的位置关系;
处理单元1102,用于调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
所述处理单元1102,还用于采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果;
所述处理单元1102,还用于根据所述样本标注标签和所述目标位置预测结果,更新所述目标模型的模型参数,以得到所述目标资讯信息对应的更新后的目标模型;其中,所述目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将所述目标资讯信息推送给相应对象。
在一个实施例中,所述候选样本对中的第一个对象标识在所述候选对象集中的排列位置称为第一排列位置,所述候选样本对中的第二个对象标识在所述候选对象集中的排列位置称为第二排列位置;
所述获取单元1101获取候选样本对以及相应的样本标注标签时,具体执行如下操作:
获取所述候选样本对,以及所述候选样本对中各个对象标识的目标行为参数;
若所述候选样本对中的第一个对象标识的目标行为参数,大于所述候选样本对中的第二个对象标识的目标行为参数,则将第一标签确定为所述样本标注标签,所述第一标签用于指示:所述第一排列位置位于所述第二排列位置之前;
若所述候选样本对中的第一个对象标识的目标行为参数,等于所述候选样本对中的第二个对象标识的目标行为参数,则将第二标签确定为所述样本标注标签,所述第二标签用于指示:所述第一排列位置和所述第二排列位置为同一位置;
若所述候选样本对中的第一个对象标识的目标行为参数,小于所述候选样本对中的第二个对象标识的目标行为参数,则将第三标签确定为所述样本标注标签,所述第三标签用于指示:所述第一排列位置位于所述第二排列位置之后。
在一个实施例中,任一对象特征包括N个属性特征,N为正整数;
所述处理单元1102调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息时,具体执行如下操作:
调用所述待更新的目标模型,分别对所述候选样本对中的第i个对象标识对应的对象特征中的各个属性特征进行特征降维处理,得到N个中间特征;i∈[1,2];
获取所述N个中间特征中每个中间特征的特征权重;任一特征权重用于指示相应的中间特征的重要度;
根据所述每个中间特征以及相应的特征权重,预测所述第i个对象标识在所述目标行为类型下的行为参数的描述信息。
在一个实施例中,任一中间特征是一个多维向量;
所述处理单元1102获取所述N个中间特征中每个中间特征的特征权重时,具体执行如下操作:
分别对所述N个中间特征中每个中间特征进行特征挤压处理,得到N个特征挤压值;任一特征挤压值为一维数值;
根据所述N个中间特征中第n个中间特征对应的特征挤压值与各个特征挤压值之间的相关性,确定所述第n个中间特征的特征权重,n∈[1,N]。
在一个实施例中,所述候选样本对中的第一个对象标识在所述候选对象集中的排列位置称为第一排列位置,所述候选样本对中的第二个对象标识在所述候选对象集中的排列位置称为第二排列位置;
所述处理单元1102采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果时,具体执行如下操作:
采用所述位置预测函数根据所述预测出的各个描述信息,对所述第一排列位置位于所述第二排列位置之前的概率进行预测,得到预测概率;以及,将所述预测概率作为所述目标位置预测结果;
其中,当所述预测概率大于基准概率时,指示预测出的位置关系为:所述第一排列位置位于所述第二排列位置之前;当所述预测概率等于所述基准概率时,指示预测出的位置关系为:所述第一排列位置和所述第二排列位置为同一位置;当所述预测概率小于所述基准概率时,指示预测出的位置关系为:所述第一排列位置位于所述第二排列位置之后。
在一个实施例中,所述样本标注标签包括数值,且所述数值处于预设数值区间内;任一描述信息包括:一个用于描述目标行为类型下的行为参数的预测分值;
所述处理单元1102采用所述位置预测函数根据所述预测出的各个描述信息,对所述第一排列位置位于所述第二排列位置之前的概率进行预测,得到预测概率时,具体执行如下操作:
采用所述位置预测函数对所述候选样本对中的第一个对象标识在所述目标行为类型下的预测分值与第二个对象标识在所述目标行为类型下的预测分值进行差值运算,得到差值运算结果;
将所述差值运算结果映射至所述预设数值区间中,得到所述预测概率。
在一个实施例中,所述获取单元1101,还用于获取用于更新初始模型的原始对象集;所述原始对象集包括:历史接收到所述目标资讯信息的多个对象的对象标识;
所述获取单元1101,还用于从所述原始对象集中选取两个对象标识构建原始样本对,并获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签;任一行为标签指示相应对象是否对所述目标资讯信息执行过反馈行为;所述原始标注标签指示所述原始样本对中的两个对象标识在所述原始对象集中的位置关系;
所述处理单元1102,还用于调用所述初始模型根据所述原始样本对中各个对象标识对应的对象特征,分别对相应对象的行为执行情况进行预测,得到相应的行为预测结果;任一行为预测结果用于指示:相应对象对所述目标资讯信息执行反馈行为的概率;
所述处理单元1102,还用于采用所述位置预测函数根据得到的各个行为预测结果,对所述原始样本对中的两个对象标识在所述原始对象集中的位置关系进行预测,得到所述原始样本对所对应的位置预测结果;
所述处理单元1102,还用于基于所述原始标注标签和所述原始样本对所对应的位置预测结果更新所述初始模型,以得到待更新的目标模型。
在一个实施例中,所述原始样本对中的第一个对象标识在所述原始对象集中的排列位置称为目标排列位置,所述原始样本对中的第二个对象标识在所述原始对象集中的排列位置称为参考排列位置;
所述获取单元1101获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签时,具体执行如下操作:
若根据所述原始样本对中各个对象标识的行为标签,确定出所述原始样本对中的第一个对象标识所指示的对象执行过反馈行为且第二个对象标识所指示的对象未执行过反馈行为,则将第一数值确定为所述原始标注标签,所述第一数值用于指示:所述目标排列位置位于所述参考排列位置之前;
若所述原始样本对中各个对象标识的行为标签相同,则将第二数值确定为所述原始标注标签,所述第二数值用于指示:所述目标排列位置和所述参考排列位置为同一位置;
若根据所述原始样本对中各个对象标识的行为标签,确定出所述原始样本对中的第一个对象标识所指示的对象未执行过反馈行为且第二个对象标识所指示的对象执行过反馈行为,则将第三数值确定为所述原始标注标签,所述第三数值用于指示:所述目标排列位置位于所述参考排列位置之后。
在一个实施例中,所述获取单元1101,还用于当欲向目标对象推送所述目标资讯信息,且期望所述目标对象对所述目标资讯信息执行所述目标行为类型下的反馈行为时,获取所述目标对象的对象特征;
所述处理单元1102,还用于调用所述目标资讯信息对应的更新后的目标模型,根据所述目标对象的对象特征,预测所述目标对象的对象标识在所述目标行为类型下的行为参数的描述信息,得到目标描述信息,所述目标描述信息包括一个分值;
所述处理单元1101,还用于获取所述目标资讯信息对应的分值阈值,并在所述目标描述信息大于所述目标资讯信息对应的分值阈值的情况下,将所述目标资讯信息推送至所述目标对象。
在一个实施例中,所述候选对象集中的各个对象标识是从原始对象集中选取出的;所述处理单元1102用于计算所述目标资讯信息对应的分值阈值时,具体执行如下操作:
从所述候选对象集和所述原始对象集中,选取一个对象集作为测试对象集;
调用所述目标资讯信息对应的更新后的目标模型,分别根据所述测试对象集中各个对象标识对应的对象特征,预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
基于所述测试对象集中各个对象标识在所述目标行为类型下的行为参数的描述信息,计算所述目标资讯信息对应的分值阈值。
在一个实施例中,所述目标资讯信息是资讯信息集中的一个资讯信息,且所述资讯信息集中的任一资讯信息均具有相应的更新后的目标模型;
所述获取单元1101,还用于当欲向目标对象推送所述资讯信息集中的M个资讯信息,且期望所述目标对象对接收到的资讯信息执行所述目标行为类型下的反馈行为时,获取所述M个资讯信息中每个资讯信息对应的更新后的目标模型;M为大于1的整数;
所述处理单元1102,还用于分别调用所述每个资讯信息对应的更新后的目标模型,根据所述目标对象的对象特征,预测所述目标对象的对象标识在所述目标行为类型下的行为参数的描述信息,得到M个描述信息;一个描述信息包括一个分值;
所述处理单元1102,还用于基于所述每个资讯信息对应的分值阈值以及相应的描述信息,确定所述每个资讯信息的扰动因子;扰动因子用于扰动所述M个资讯信息的推送顺序;
所述处理单元1102,还用于基于所述每个资讯信息的扰动因子,从所述M个资讯信息中选取待推送的资讯信息,并将选取的资讯信息推送给所述目标对象。
在一个实施例中,所述处理单元1102基于所述每个资讯信息对应的分值阈值以及相应的描述信息,确定所述每个资讯信息的扰动因子时,具体执行如下操作:
针对所述M个资讯信息中的第m个资讯信息,计算所述第m个资讯信息对应的描述信息与所述第m个资讯信息对应的分值阈值之间的比值;
将计算得到的比值,确定为所述第m个资讯信息的扰动因子,m∈[1,M]。
根据本申请的一个实施例,图2、图3以及图8所示的模型处理方法所涉及的各个步骤可以是由图11所示的模型处理装置中的各个单元来执行的。例如,图2所示的步骤S201可由图11所示的模型处理装置中的获取单元1101来执行;图2所示的步骤S202至步骤S204可由图11所示的模型处理装置中的处理单元1102来执行。
根据本申请的另一个实施例,图11所示的模型处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于逻辑功能划分的模型处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图3以及图8所示所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的模型处理装置,以及来实现本申请实施例模型处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例可构建目标模型,以用于预测对象的对象标识在目标行为类型下的行为参数的描述信息,在采用候选对象集对目标模型进行训练的过程中,可以获取包括了候选对象集中的两个对象标识的候选样本对,以及相应的用于标记候选样本对中的两个对象标识在候选对象集中的位置关系的样本标注标签,其中,样本标注标签是基于候选样本对中各个对象标识的目标行为参数确定的。然后利用排序学习的思想,调用目标模型根据候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在目标行为类型下的行为参数的描述信息,并根据预测出的各个描述信息,对候选样本对中的两个对象标识在候选对象集中的位置关系进行预测,得到目标位置预测结果,从而基于样本标注标签和目标位置预测结果来更新目标模型的模型参数。可见,本申请实施例通过利用排序学习的思想,使得可通过对候选对象集中的各个对象标识进行两两组合的方式来进行训练样本的扩充,在一定程度上提升目标模型的训练样本(一个训练样本为一个样本对)的数量,这样不仅可解决因训练样本少带来的模型过拟合问题,还可使得目标模型在训练过程中可以通过较为丰富的训练样本来学习到更多的知识,从而可以提升目标模型的收敛速度,减少目标模型的训练时长,提高目标模型的训练效率,并进一步提升目标模型的模型训练效果,使得更新后的目标模型可具有表现力好、鲁棒性高等优势,进而使得更新后的目标模型可以较为准确地预测出任一对象的对象标识在目标行为类型下的行为参数的描述信息,以根据描述信息准确决策出是否将目标资讯信息推送给相应对象,提高资讯信息的推送效果。
基于上述的模型处理方法实施例以及模型处理装置实施例,本申请还提供了一种电子设备。参见图12,为本申请实施例提供的一种电子设备的结构示意图。图12所示的电子设备可至少包括处理器1201、输入接口1202、输出接口1203以及计算机存储介质1204。其中,处理器1201、输入接口1202、输出接口1203以及计算机存储介质1204可通过总线或其他方式连接。
计算机存储介质1204可以存储在电子设备的存储器中,计算机存储介质1204用于存储计算机程序,计算机程序包括程序指令,处理器1201用于执行计算机存储介质1204存储的程序指令。处理器1201(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现上述模型处理方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速随机存取存储器(random access memory,RAM)存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器1201加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2、图3以及图8的模型处理方法实施例中的方法的相应步骤,所述处理器1201具体用于执行:
获取候选样本对以及相应的样本标注标签;所述候选样本对包括候选对象集中的两个对象标识,所述样本标注标签是基于所述候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,所述样本标注标签用于标记所述候选样本对中的两个对象标识在所述候选对象集中的位置关系;
调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果;
根据所述样本标注标签和所述目标位置预测结果,更新所述目标模型的模型参数,以得到所述目标资讯信息对应的更新后的目标模型;其中,所述目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将所述目标资讯信息推送给相应对象。
在一个实施例中,所述候选样本对中的第一个对象标识在所述候选对象集中的排列位置称为第一排列位置,所述候选样本对中的第二个对象标识在所述候选对象集中的排列位置称为第二排列位置;
所述处理器1201获取候选样本对以及相应的样本标注标签时,具体执行如下操作:
获取所述候选样本对,以及所述候选样本对中各个对象标识的目标行为参数;
若所述候选样本对中的第一个对象标识的目标行为参数,大于所述候选样本对中的第二个对象标识的目标行为参数,则将第一标签确定为所述样本标注标签,所述第一标签用于指示:所述第一排列位置位于所述第二排列位置之前;
若所述候选样本对中的第一个对象标识的目标行为参数,等于所述候选样本对中的第二个对象标识的目标行为参数,则将第二标签确定为所述样本标注标签,所述第二标签用于指示:所述第一排列位置和所述第二排列位置为同一位置;
若所述候选样本对中的第一个对象标识的目标行为参数,小于所述候选样本对中的第二个对象标识的目标行为参数,则将第三标签确定为所述样本标注标签,所述第三标签用于指示:所述第一排列位置位于所述第二排列位置之后。
在一个实施例中,任一对象特征包括N个属性特征,N为正整数;
所述处理器1201调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息时,具体执行如下操作:
调用所述待更新的目标模型,分别对所述候选样本对中的第i个对象标识对应的对象特征中的各个属性特征进行特征降维处理,得到N个中间特征;i∈[1,2];
获取所述N个中间特征中每个中间特征的特征权重;任一特征权重用于指示相应的中间特征的重要度;
根据所述每个中间特征以及相应的特征权重,预测所述第i个对象标识在所述目标行为类型下的行为参数的描述信息。
在一个实施例中,任一中间特征是一个多维向量;
所述处理器1201获取所述N个中间特征中每个中间特征的特征权重时,具体执行如下操作:
分别对所述N个中间特征中每个中间特征进行特征挤压处理,得到N个特征挤压值;任一特征挤压值为一维数值;
根据所述N个中间特征中第n个中间特征对应的特征挤压值与各个特征挤压值之间的相关性,确定所述第n个中间特征的特征权重,n∈[1,N]。
在一个实施例中,所述候选样本对中的第一个对象标识在所述候选对象集中的排列位置称为第一排列位置,所述候选样本对中的第二个对象标识在所述候选对象集中的排列位置称为第二排列位置;
所述处理器1201采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果时,具体执行如下操作:
采用所述位置预测函数根据所述预测出的各个描述信息,对所述第一排列位置位于所述第二排列位置之前的概率进行预测,得到预测概率;以及,将所述预测概率作为所述目标位置预测结果;
其中,当所述预测概率大于基准概率时,指示预测出的位置关系为:所述第一排列位置位于所述第二排列位置之前;当所述预测概率等于所述基准概率时,指示预测出的位置关系为:所述第一排列位置和所述第二排列位置为同一位置;当所述预测概率小于所述基准概率时,指示预测出的位置关系为:所述第一排列位置位于所述第二排列位置之后。
在一个实施例中,所述样本标注标签包括数值,且所述数值处于预设数值区间内;任一描述信息包括:一个用于描述目标行为类型下的行为参数的预测分值;
所述处理器1201采用所述位置预测函数根据所述预测出的各个描述信息,对所述第一排列位置位于所述第二排列位置之前的概率进行预测,得到预测概率时,具体执行如下操作:
采用所述位置预测函数对所述候选样本对中的第一个对象标识在所述目标行为类型下的预测分值与第二个对象标识在所述目标行为类型下的预测分值进行差值运算,得到差值运算结果;
将所述差值运算结果映射至所述预设数值区间中,得到所述预测概率。
在一个实施例中,所述处理器1201,还用于:
获取用于更新初始模型的原始对象集;所述原始对象集包括:历史接收到所述目标资讯信息的多个对象的对象标识;
从所述原始对象集中选取两个对象标识构建原始样本对,并获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签;任一行为标签指示相应对象是否对所述目标资讯信息执行过反馈行为;所述原始标注标签指示所述原始样本对中的两个对象标识在所述原始对象集中的位置关系;
调用所述初始模型根据所述原始样本对中各个对象标识对应的对象特征,分别对相应对象的行为执行情况进行预测,得到相应的行为预测结果;任一行为预测结果用于指示:相应对象对所述目标资讯信息执行反馈行为的概率;
采用所述位置预测函数根据得到的各个行为预测结果,对所述原始样本对中的两个对象标识在所述原始对象集中的位置关系进行预测,得到所述原始样本对所对应的位置预测结果;
基于所述原始标注标签和所述原始样本对所对应的位置预测结果更新所述初始模型,以得到待更新的目标模型。
在一个实施例中,所述原始样本对中的第一个对象标识在所述原始对象集中的排列位置称为目标排列位置,所述原始样本对中的第二个对象标识在所述原始对象集中的排列位置称为参考排列位置;
所述处理器1201获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签时,具体执行如下操作:
若根据所述原始样本对中各个对象标识的行为标签,确定出所述原始样本对中的第一个对象标识所指示的对象执行过反馈行为且第二个对象标识所指示的对象未执行过反馈行为,则将第一数值确定为所述原始标注标签,所述第一数值用于指示:所述目标排列位置位于所述参考排列位置之前;
若所述原始样本对中各个对象标识的行为标签相同,则将第二数值确定为所述原始标注标签,所述第二数值用于指示:所述目标排列位置和所述参考排列位置为同一位置;
若根据所述原始样本对中各个对象标识的行为标签,确定出所述原始样本对中的第一个对象标识所指示的对象未执行过反馈行为且第二个对象标识所指示的对象执行过反馈行为,则将第三数值确定为所述原始标注标签,所述第三数值用于指示:所述目标排列位置位于所述参考排列位置之后。
在一个实施例中,所述处理器1201,还用于:
当欲向目标对象推送所述目标资讯信息,且期望所述目标对象对所述目标资讯信息执行所述目标行为类型下的反馈行为时,获取所述目标对象的对象特征;
调用所述目标资讯信息对应的更新后的目标模型,根据所述目标对象的对象特征,预测所述目标对象的对象标识在所述目标行为类型下的行为参数的描述信息,得到目标描述信息,所述目标描述信息包括一个分值;
获取所述目标资讯信息对应的分值阈值,并在所述目标描述信息大于所述目标资讯信息对应的分值阈值的情况下,将所述目标资讯信息推送至所述目标对象。
在一个实施例中,所述候选对象集中的各个对象标识是从原始对象集中选取出的;
所述处理器1201用于计算目标资讯信息对应的分值阈值时,具体执行如下操作:
从所述候选对象集和所述原始对象集中,选取一个对象集作为测试对象集;
调用所述目标资讯信息对应的更新后的目标模型,分别根据所述测试对象集中各个对象标识对应的对象特征,预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
基于所述测试对象集中各个对象标识在所述目标行为类型下的行为参数的描述信息,计算所述目标资讯信息对应的分值阈值。
在一个实施例中,所述目标资讯信息是资讯信息集中的一个资讯信息,且所述资讯信息集中的任一资讯信息均具有相应的更新后的目标模型;
所述处理器1201,还用于:
当欲向目标对象推送所述资讯信息集中的M个资讯信息,且期望所述目标对象对接收到的资讯信息执行所述目标行为类型下的反馈行为时,获取所述M个资讯信息中每个资讯信息对应的更新后的目标模型;M为大于1的整数;
分别调用所述每个资讯信息对应的更新后的目标模型,根据所述目标对象的对象特征,预测所述目标对象的对象标识在所述目标行为类型下的行为参数的描述信息,得到M个描述信息;一个描述信息包括一个分值;
基于所述每个资讯信息对应的分值阈值以及相应的描述信息,确定所述每个资讯信息的扰动因子;扰动因子用于扰动所述M个资讯信息的推送顺序;
基于所述每个资讯信息的扰动因子,从所述M个资讯信息中选取待推送的资讯信息,并将选取的资讯信息推送给所述目标对象。
在一个实施例中,所述处理器1201基于所述每个资讯信息对应的分值阈值以及相应的描述信息,确定所述每个资讯信息的扰动因子时,具体执行如下操作:
针对所述M个资讯信息中的第m个资讯信息,计算所述第m个资讯信息对应的描述信息与所述第m个资讯信息对应的分值阈值之间的比值;
将计算得到的比值,确定为所述第m个资讯信息的扰动因子,m∈[1,M]。
本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;电子设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得电子设备执行上述如图2、图3以及图8所示的方法实施例。其中,计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种模型处理方法,其特征在于,包括:
获取候选样本对以及相应的样本标注标签;所述候选样本对包括候选对象集中的两个对象标识,所述样本标注标签是基于所述候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,所述样本标注标签用于标记所述候选样本对中的两个对象标识在所述候选对象集中的位置关系;
调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果;
根据所述样本标注标签和所述目标位置预测结果,更新所述目标模型的模型参数,以得到所述目标资讯信息对应的更新后的目标模型;其中,所述目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将所述目标资讯信息推送给相应对象。
2.如权利要求1所述的方法,其特征在于,所述候选样本对中的第一个对象标识在所述候选对象集中的排列位置称为第一排列位置,所述候选样本对中的第二个对象标识在所述候选对象集中的排列位置称为第二排列位置;
所述获取候选样本对以及相应的样本标注标签,包括:
获取所述候选样本对,以及所述候选样本对中各个对象标识的目标行为参数;
若所述候选样本对中的第一个对象标识的目标行为参数,大于所述候选样本对中的第二个对象标识的目标行为参数,则将第一标签确定为所述样本标注标签,所述第一标签用于指示:所述第一排列位置位于所述第二排列位置之前;
若所述候选样本对中的第一个对象标识的目标行为参数,等于所述候选样本对中的第二个对象标识的目标行为参数,则将第二标签确定为所述样本标注标签,所述第二标签用于指示:所述第一排列位置和所述第二排列位置为同一位置;
若所述候选样本对中的第一个对象标识的目标行为参数,小于所述候选样本对中的第二个对象标识的目标行为参数,则将第三标签确定为所述样本标注标签,所述第三标签用于指示:所述第一排列位置位于所述第二排列位置之后。
3.如权利要求1或2所述的方法,其特征在于,任一对象特征包括N个属性特征,N为正整数;所述调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息,包括:
调用所述待更新的目标模型,分别对所述候选样本对中的第i个对象标识对应的对象特征中的各个属性特征进行特征降维处理,得到N个中间特征;i∈[1,2];
获取所述N个中间特征中每个中间特征的特征权重;任一特征权重用于指示相应的中间特征的重要度;
根据所述每个中间特征以及相应的特征权重,预测所述第i个对象标识在所述目标行为类型下的行为参数的描述信息。
4.如权利要求3所述的方法,其特征在于,任一中间特征是一个多维向量;
所述获取所述N个中间特征中每个中间特征的特征权重,包括:
分别对所述N个中间特征中每个中间特征进行特征挤压处理,得到N个特征挤压值;任一特征挤压值为一维数值;
根据所述N个中间特征中第n个中间特征对应的特征挤压值与各个特征挤压值之间的相关性,确定所述第n个中间特征的特征权重,n∈[1,N]。
5.如权利要求1所述的方法,其特征在于,所述候选样本对中的第一个对象标识在所述候选对象集中的排列位置称为第一排列位置,所述候选样本对中的第二个对象标识在所述候选对象集中的排列位置称为第二排列位置;
所述采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果,包括:
采用所述位置预测函数根据所述预测出的各个描述信息,对所述第一排列位置位于所述第二排列位置之前的概率进行预测,得到预测概率;以及,将所述预测概率作为所述目标位置预测结果;
其中,当所述预测概率大于基准概率时,指示预测出的位置关系为:所述第一排列位置位于所述第二排列位置之前;当所述预测概率等于所述基准概率时,指示预测出的位置关系为:所述第一排列位置和所述第二排列位置为同一位置;当所述预测概率小于所述基准概率时,指示预测出的位置关系为:所述第一排列位置位于所述第二排列位置之后。
6.如权利要求5所述的方法,其特征在于,所述样本标注标签包括数值,且所述数值处于预设数值区间内;任一描述信息包括:一个用于描述目标行为类型下的行为参数的预测分值;
所述采用所述位置预测函数根据所述预测出的各个描述信息,对所述第一排列位置位于所述第二排列位置之前的概率进行预测,得到预测概率,包括:
采用所述位置预测函数对所述候选样本对中的第一个对象标识在所述目标行为类型下的预测分值与第二个对象标识在所述目标行为类型下的预测分值进行差值运算,得到差值运算结果;
将所述差值运算结果映射至所述预设数值区间中,得到所述预测概率。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于更新初始模型的原始对象集;所述原始对象集包括:历史接收到所述目标资讯信息的多个对象的对象标识;
从所述原始对象集中选取两个对象标识构建原始样本对,并获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签;任一行为标签指示相应对象是否对所述目标资讯信息执行过反馈行为;所述原始标注标签指示所述原始样本对中的两个对象标识在所述原始对象集中的位置关系;
调用所述初始模型根据所述原始样本对中各个对象标识对应的对象特征,分别对相应对象的行为执行情况进行预测,得到相应的行为预测结果;任一行为预测结果用于指示:相应对象对所述目标资讯信息执行反馈行为的概率;
采用所述位置预测函数根据得到的各个行为预测结果,对所述原始样本对中的两个对象标识在所述原始对象集中的位置关系进行预测,得到所述原始样本对所对应的位置预测结果;
基于所述原始标注标签和所述原始样本对所对应的位置预测结果更新所述初始模型,以得到待更新的目标模型。
8.如权利要求7所述的方法,其特征在于,所述原始样本对中的第一个对象标识在所述原始对象集中的排列位置称为目标排列位置,所述原始样本对中的第二个对象标识在所述原始对象集中的排列位置称为参考排列位置;
所述获取基于所述原始样本对中各个对象标识的行为标签所得到的原始标注标签,包括:
若根据所述原始样本对中各个对象标识的行为标签,确定出所述原始样本对中的第一个对象标识所指示的对象执行过反馈行为且第二个对象标识所指示的对象未执行过反馈行为,则将第一数值确定为所述原始标注标签,所述第一数值用于指示:所述目标排列位置位于所述参考排列位置之前;
若所述原始样本对中各个对象标识的行为标签相同,则将第二数值确定为所述原始标注标签,所述第二数值用于指示:所述目标排列位置和所述参考排列位置为同一位置;
若根据所述原始样本对中各个对象标识的行为标签,确定出所述原始样本对中的第一个对象标识所指示的对象未执行过反馈行为且第二个对象标识所指示的对象执行过反馈行为,则将第三数值确定为所述原始标注标签,所述第三数值用于指示:所述目标排列位置位于所述参考排列位置之后。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
当欲向目标对象推送所述目标资讯信息,且期望所述目标对象对所述目标资讯信息执行所述目标行为类型下的反馈行为时,获取所述目标对象的对象特征;
调用所述目标资讯信息对应的更新后的目标模型,根据所述目标对象的对象特征,预测所述目标对象的对象标识在所述目标行为类型下的行为参数的描述信息,得到目标描述信息,所述目标描述信息包括一个分值;
获取所述目标资讯信息对应的分值阈值,并在所述目标描述信息大于所述目标资讯信息对应的分值阈值的情况下,将所述目标资讯信息推送至所述目标对象。
10.如权利要求9所述的方法,其特征在于,所述候选对象集中的各个对象标识是从原始对象集中选取出的;所述目标资讯信息对应的分值阈值的计算方式,包括:
从所述候选对象集和所述原始对象集中,选取一个对象集作为测试对象集;
调用所述目标资讯信息对应的更新后的目标模型,分别根据所述测试对象集中各个对象标识对应的对象特征,预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
基于所述测试对象集中各个对象标识在所述目标行为类型下的行为参数的描述信息,计算所述目标资讯信息对应的分值阈值。
11.如权利要求1所述的方法,其特征在于,所述目标资讯信息是资讯信息集中的一个资讯信息,且所述资讯信息集中的任一资讯信息均具有相应的更新后的目标模型;
所述方法还包括:
当欲向目标对象推送所述资讯信息集中的M个资讯信息,且期望所述目标对象对接收到的资讯信息执行所述目标行为类型下的反馈行为时,获取所述M个资讯信息中每个资讯信息对应的更新后的目标模型;M为大于1的整数;
分别调用所述每个资讯信息对应的更新后的目标模型,根据所述目标对象的对象特征,预测所述目标对象的对象标识在所述目标行为类型下的行为参数的描述信息,得到M个描述信息;一个描述信息包括一个分值;
基于所述每个资讯信息对应的分值阈值以及相应的描述信息,确定所述每个资讯信息的扰动因子;扰动因子用于扰动所述M个资讯信息的推送顺序;
基于所述每个资讯信息的扰动因子,从所述M个资讯信息中选取待推送的资讯信息,并将选取的资讯信息推送给所述目标对象。
12.如权利要求11所述的方法,其特征在于,所述基于所述每个资讯信息对应的分值阈值以及相应的描述信息,确定所述每个资讯信息的扰动因子,包括:
针对所述M个资讯信息中的第m个资讯信息,计算所述第m个资讯信息对应的描述信息与所述第m个资讯信息对应的分值阈值之间的比值;
将计算得到的比值,确定为所述第m个资讯信息的扰动因子,m∈[1,M]。
13.一种模型处理装置,其特征在于,包括:
获取单元,用于获取候选样本对以及相应的样本标注标签;所述候选样本对包括候选对象集中的两个对象标识,所述样本标注标签是基于所述候选样本对中各个对象标识的目标行为参数确定的,任一目标行为参数指示相应对象对目标资讯信息执行的目标行为类型下的反馈行为的重要度,所述样本标注标签用于标记所述候选样本对中的两个对象标识在所述候选对象集中的位置关系;
处理单元,用于调用待更新的目标模型根据所述候选样本对中各个对象标识对应的对象特征,分别预测相应对象标识在所述目标行为类型下的行为参数的描述信息;
所述处理单元,还用于采用位置预测函数根据预测出的各个描述信息,对所述候选样本对中的两个对象标识在所述候选对象集中的位置关系进行预测,得到目标位置预测结果;
所述处理单元,还用于根据所述样本标注标签和所述目标位置预测结果,更新所述目标模型的模型参数,以得到所述目标资讯信息对应的更新后的目标模型;其中,所述目标资讯信息对应的更新后的目标模型所预测出的描述信息,用于决策是否将所述目标资讯信息推送给相应对象。
14.一种电子设备,其特征在于,所述电子设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-12任一项所述的模型处理方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-12任一项所述的模型处理方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时,用于加载并执行如权利要求1-12任一项所述的模型处理方法。
CN202210875373.8A 2022-07-22 2022-07-22 模型处理方法、装置、设备及存储介质 Pending CN115130003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210875373.8A CN115130003A (zh) 2022-07-22 2022-07-22 模型处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210875373.8A CN115130003A (zh) 2022-07-22 2022-07-22 模型处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115130003A true CN115130003A (zh) 2022-09-30

Family

ID=83386387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210875373.8A Pending CN115130003A (zh) 2022-07-22 2022-07-22 模型处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115130003A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226678A (zh) * 2023-05-10 2023-06-06 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226678A (zh) * 2023-05-10 2023-06-06 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质
CN116226678B (zh) * 2023-05-10 2023-07-21 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
WO2019144892A1 (zh) 数据处理方法、装置、存储介质和电子装置
CN111695415B (zh) 图像识别方法及相关设备
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN111275492A (zh) 用户画像生成方法、装置、存储介质及设备
CN114781611A (zh) 自然语言处理方法、语言模型训练方法及其相关设备
CN115130003A (zh) 模型处理方法、装置、设备及存储介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN117312979A (zh) 对象分类方法、分类模型训练方法及电子设备
CN115935265B (zh) 训练风险识别模型的方法、风险识别方法及对应装置
CN116362894A (zh) 多目标学习方法、装置、电子设备及计算机可读存储介质
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN114528994A (zh) 一种识别模型的确定方法和相关装置
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN114742644A (zh) 训练多场景风控***、预测业务对象风险的方法和装置
CN111860870A (zh) 交互行为确定模型的训练方法、装置、设备及介质
CN116089722B (zh) 基于图产出标签的实现方法、装置、计算设备和存储介质
CN117540791B (zh) 一种对抗训练的方法及装置
CN116610783B (zh) 基于人工智能决策的服务优化方法及数字化在线页面***
US20240185090A1 (en) Assessment of artificial intelligence errors using machine learning
CN116541586A (zh) 资源推送方法、装置、设备、存储介质及计算机程序产品
CN115115036A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN116821667A (zh) 一种模型训练方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination