CN111859114A - 推荐***的优化方法、装置、设备和计算机存储介质 - Google Patents

推荐***的优化方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN111859114A
CN111859114A CN202010561785.5A CN202010561785A CN111859114A CN 111859114 A CN111859114 A CN 111859114A CN 202010561785 A CN202010561785 A CN 202010561785A CN 111859114 A CN111859114 A CN 111859114A
Authority
CN
China
Prior art keywords
recommendation system
user
optimized
parameters
taking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010561785.5A
Other languages
English (en)
Inventor
刘荔行
方晓敏
王凡
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010561785.5A priority Critical patent/CN111859114A/zh
Priority to US17/083,704 priority patent/US11836222B2/en
Publication of CN111859114A publication Critical patent/CN111859114A/zh
Priority to EP21163211.2A priority patent/EP3926554A1/en
Priority to KR1020210076843A priority patent/KR20210157337A/ko
Priority to JP2021100020A priority patent/JP7224395B2/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0221Re-usable coupons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0225Avoiding frauds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Medical Informatics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)

Abstract

本申请公开了一种推荐***的优化方法、装置、设备和计算机存储介质,涉及人工智能中的深度学习和智能搜索技术领域。具体实现方案为:将所述推荐***作为决策体,将用户作为环境,将所述推荐***每一次的推荐内容作为所述决策体的动作,将用户的长期行为收益作为所述环境的奖励;采用强化学习的方式对所述推荐***中待优化的参数进行优化,以最大化所述环境的奖励。通过本申请能够针对用户长期收益行为进行有效优化。

Description

推荐***的优化方法、装置、设备和计算机存储介质
技术领域
本申请涉及计算机应用技术领域,特别涉及人工智能中的深度学习和智能搜索技术领域。
背景技术
推荐***已经广泛地应用于各个领域,例如搜索平台、资讯平台、购物平台、音乐平台等。对于平台服务而言,如何给用户推荐符合其偏好的内容对于用户体验和用户留存而言都至关重要。
无论是对于用户还是对于服务提供者(即平台)而言,用户使用服务的总时长、用户在平台的总点击数、用户在平台的推广转化率等用户长期行为收益都非常重要,但目前的推荐***无法针对用户长期行为收益进行有效优化。
发明内容
有鉴于此,本申请提供了一种针对用户长期行为收益的推荐***的优化方法、装置、设备和计算机存储介质。
第一方面,本申请提供了一种推荐***的优化方法,包括:
将所述推荐***作为决策体,将用户作为环境,将所述推荐***每一次的推荐内容作为所述决策体的动作,将用户的长期行为收益作为所述环境的奖励;
采用强化学习的方式对所述推荐***中待优化的参数进行优化,以最大化所述环境的奖励。
第二方面,本申请还提供了一种推荐***的优化装置,包括:
建模单元,用于将所述推荐***作为决策体,将用户作为环境,将所述推荐***每一次的推荐内容作为所述决策体的动作,将用户的长期行为收益作为所述环境的奖励;
优化单元,用于采用强化学习的方式对所述推荐***中待优化的参数进行优化,以最大化所述环境的奖励。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
第四方面,本申请还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。
由以上技术方案可以看出,本申请通过强化学习的方式,能够针对用户长期收益行为进行有效优化。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为典型的强化学习***的示意图;
图2为本申请实施例提供的推荐***的优化方法流程图;
图3为本申请实施例提供的进化学习过程中迭代更新的方法流程图;
图4为本申请实施例提供的推荐***的优化装置结构图;
图5是用来实现本申请实施例的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
传统的推荐***普遍采用监督算法,或者采用监督算法和人工规则相结合的方式。
通过监督算法训练后,推荐***能够很好地预测和最大化用户的当前收益。例如推荐用户喜欢的内容,从而提高用户对当前推荐内容的点赞率、点击率、浏览时长等。但监督算法会贪婪地推荐用户喜欢的内容,容易导致推荐内容单一,用户很容易产生厌烦,不利用提高用户长期行为收益。
而人工规则用以覆盖监督算法无法直接优化的目标或者弥补算法的不足,人工规则更加可控。例如人工规则中会加入不同类别的内容比例来保证推荐内容的多样性。与此同时,人工规则也不需要训练,可以更加快速地上线。同时,在推荐场景中,通常存在百万千万级别的内容,人工规则运行速度更快。然而,人工规则是片面和低效的,一方面随着推荐***的升级,人工规则会越来越负责,越来越难分析;另一方面,人工规则需要不断地借助线上的A/B测试来选取超参,这种代价是巨大的,且可能会随着用户或***更新而过期,也无法自动更新。
有鉴于此,本申请的核心思想在于,利用强化学习的方式对推荐***中的参数进行优化,以最大化用户长期行为收益。
图1为典型的强化学习***的示意图,如图1所示,一般地,强化学习***包括决策体(Agent)和环境(Environment),决策体通过与环境的交互和反馈,不断进行学习,优化其策略。具体而言,决策体观察并获得环境的状态(state),根据一定策略,针对当前环境的状态确定要采取的动作(action)。这样的行为作用于环境,会改变环境的状态,同时产生一个反馈给决策体,该反馈又称为奖励(reward)。决策体根据获得的奖励来判断之前的动作是否正确,策略是否需要调整,进而更新其策略。通过反复不断地确定动作、收到奖励,使得决策体可以不断更新策略,最终目标是能够学习到一个策略,使得获得的奖励累积最大化。
图2为本申请实施例提供的推荐***的优化方法流程图,该方法的执行主体可以为推荐***的优化装置,该装置可以为维护服务器端的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于具有较强计算能力的计算机终端,本发明实施例对此不进行特别限定。如图2中所示,该方法可以包括以下步骤:
在201中,针对推荐***场景进行强化学习的建模。
具体包括:将推荐***作为决策体(Agent),将用户作为环境(Environment),将推荐***每一次的推荐内容作为决策体的动作(Action),将用户的长期行为收益作为环境的奖励(Rewoard)。
在本申请实施例中,用户的长期行为收益体现的是用户的长期偏好,可以包括但不限于以下几种:
第一种:用户使用推荐***所属服务的总时长。例如对于视频服务平台,通过推荐***向用户推荐视频,那么用户使用视频服务的总时长就能够体现用户的长期行为收益。
第二种:用户对推荐***所推荐内容的总点击次数或总点击率。例如,对于资讯类服务平台,通过推荐***向用户推荐咨询,那么用户对推荐的咨询的点击次数和点击率就能够体现用户的长期行为收益。
第三种:用户在推荐***的推广转化率。例如,对于视频服务平台,通过推荐***向用户推荐视频,在视频推荐过程中会***一些推广内容(例如广告等),如果点击该推广内容而跳转到相应的推广页面则产生推广转化,基于此产生的推广转化率很大程度上也体现了用户的长期行为收益。
第四种:推荐***所属服务的用户留存率。例如,对于视频服务平台,在上一时段使用该视频服务平台的用户为1万人,而这1万人中在当前时段也使用该视频服务平台的用户只剩了5千人,那么留存率就为0.5。其中,时段的长度可以是天级别、周级别、月级别等。用户留存率也能够体现用户的长期行为收益。
本申请中并不限于待优化的推荐***所采用的模型类型,大多数推荐***都采用监督学习方式训练得到的排序模型,基于排序模型对各候选内容的排序得分确定向用户推荐的内容。或者,也可以是采用监督学习方式训练并结合人工规则的排序模型。基于此类方式训练得到的推荐***,再进一步利用强化学习进行优化,使得推荐***不必承受冷启动的代价,也减少了对用户体验的损害。
在202中,采用强化学习的方式对推荐***中待优化的参数进行优化,以最大化环境的奖励。
在本申请实施例中,可以对推荐***中所有的模型参数和/或超参数进行优化。由于推荐***中包含多层结构,例如召回层、排序层等,还可能是更细粒度的层次。有些层的参数对推荐***的结果能够产生较大影响,有些影响较小。也可以按照重要程度对其中部分模型参数和/或超参数进行优化,例如选择对推荐***的结果产生较大影响的部分模型参数和/或超参数进行优化,从而在保证优化效果的前提下,也能够降低优化过程中的计算量。
本申请中强化学习的方式可以采用但不限于:进化学习、DQN(DeepQ-learning,深度Q学习)、策略梯度(Policy Gradient)等。
其中进化学习属于黑盒优化(Black BoX Optimizaion)中的一种技术,属于强化学习的一个分支。在此以进化学习为例对本步骤的实现方式进行详细描述。在进化学习的过程中会循环执行一轮以上的迭代更新,即多轮迭代更新。如图3中所示,每一轮的迭代更新可以包括以下步骤:
在301中,针对各用户分别生成一组随机扰动。
如果存在m个用户,那么就生成m组随机扰动,每一组随机扰动对应一个用户。第i个用户的随机扰动表示为
Figure BDA0002546411400000061
是一组向量。其中随机扰动可以是例如高斯噪声等。
在302中,将生成的一组随机扰动增加至待优化的参数。
如果推荐***中待优化的参数集合表示为
Figure BDA0002546411400000062
参数集合中每个参数增加一个扰动,增加的随机扰动与待优化的参数的维度相同。例如某个待优化的参数为n维,那么增加的随机扰动也是n维。
在303中,统计基于增加随机扰动后的推荐***向用户推荐内容后各用户的长期行为收益。
上述迭代更新实际上是线上的“试错”过程,基于增加随机扰动后的推荐***在线上向用户推荐内容,基于用户状态所产生的奖励来确定如何优化参数。因此,在增加随机扰动后,会收集各用户,例如m个用户的长期行为收益以及针对该m个用户生成的随机扰动。假设第i个用户的长期行为收益表示为ri
在304中,依据统计得到的各用户的长期行为收益从各组随机扰动中确定待优化的参数的进化方向,并基于确定出的进化方向更新待优化的参数。然后转至执行301,以此循环迭代。
本步骤实际上是通过尝试各种方向的扰动来确定最优的进化方向以最大化用户的长期行为收益。
例如按照如下公式更新待优化的参数:
Figure BDA0002546411400000071
其中,α表示更新步长。该步长值可以采用预设值,例如试验值或经验值等。
上述迭代更新可以循环执行,该循环执行可以是持续的过程。也就是说,随着推荐***在线上向用户推荐内容的过程,不断地进行迭代优化。但因为不断迭代优化后,参数实际上逐渐优化,可优化的程度已经较低。仅仅是因为一些用户状态、社会状态等发生变化,导致需要进行参数持续优化,因此可以调低进化学习的学习率。其中学习率的具体取值可以采用试验值或经验值。
也可以是迭代更新到一定程度后停止迭代更新,在下次启动迭代更新时再循环执行迭代更新,直至达到一定程度。其中所述一定程度可以是推荐***满足收敛条件,例如用户的长期行为收益逐渐收敛;也可以是替代轮数达到预设轮数阈值。
通过上述实施例所提供的方式,具备以下优点:
1)通过强化学习的方式能够针对用户的长期行为收益进行推荐***的优化,也就是说,直接以用户的长期行为收益作为优化目标,保证推荐***沿着用户长期行为收益增长的方向不断进化。
2)相比较监督学习需要成熟的深度学习框架来训练的方式,强化学习的学习成本低,只需要简单的数据处理和数学计算。
3)强化学习不需要知道推荐***内部的具体模型结构,而是把推荐***当做“黑盒”来处理,极大地降低了上线难度。
4)进化学习每次探索当前参数周围的参数空间,并基于此进行进化方向的选择,不会对用户体验造成太大影响。
5)目前推荐***大多采用监督学习模型和人工规则相结合的方式,基于强化学习,不需要将原来的监督学习模型结构替换成其他模型结构,而是直接保留原来的模型结构,将其中的参数加入强化学习的优化参数中,慢慢地从一个重视短期收益的推荐***进化为一个重视长期收益的推荐***。
以上是对本申请所提供方法进行的详细描述。下面结合实施例对本申请提供的装置进行详细描述。
图4为本申请实施例提供的推荐***的优化装置结构图,如图4中所示,该装置可以包括:建模单元00和优化单元10。其中各组成单元的主要功能如下:
建模单元00,用于将推荐***作为决策体,将用户作为环境,将推荐***每一次的推荐内容作为决策体的动作,将用户的长期行为收益作为环境的奖励。
其中,用户的长期行为收益可以包括但不限于:用户使用推荐***所属服务的总时长、用户对推荐***所推荐内容的总点击次数或总点击率、用户在推荐***的推广转化率或者推荐***所属服务的用户留存率。
优化单元10,用于采用强化学习的方式对推荐***中待优化的参数进行优化,以最大化环境的奖励。
在本申请实施例中,可以对推荐***中所有的模型参数和/或超参数进行优化。由于推荐***中包含多层结构,例如召回层、排序层等,还可能是更细粒度的层次。有些层的参数对推荐***的结果能够产生较大影响,有些影响较小。也可以按照重要程度对其中部分模型参数和/或超参数进行优化,例如选择对推荐***的结果产生较大影响的部分模型参数和/或超参数进行优化,从而在保证优化效果的前提下,也能够降低优化过程中的计算量。
本申请中强化学习的方式可以采用但不限于:进化学习、DQN(Deep Q-learning,深度Q学习)、策略梯度(Policy Gradient)等。
若强化学习的方式采用进化学习,则优化单元10可以具体包括扰动生成子单元11、扰动增加子单元12、收益统计子单元13和参数进化子单元14,以执行一轮以上的迭代更新。
在每一轮迭代更新中,扰动生成子单元11,用于针对各用户分别生成一组随机扰动。
扰动增加子单元12,用于将一组随机扰动增加至待优化的参数,增加的随机扰动与待优化的参数的维度相同。
收益统计子单元13,用于统计基于增加随机扰动后的推荐***向用户推荐内容后各用户的长期行为收益。
参数进化子单元14,用于依据收益统计子单元统计得到的各用户的长期行为收益,从各组随机扰动中确定待优化的参数的进化方向,并基于确定出的进化方向更新待优化的参数。实际上是通过尝试各种方向的扰动来确定最优的进化方向以最大化用户的长期行为收益。
上述迭代更新可以循环执行,该循环执行可以是持续的过程。也就是说,随着推荐***在线上向用户推荐内容的过程,不断地进行迭代优化。但因为不断迭代优化后,参数实际上逐渐优化,可优化的程度已经较低。仅仅是因为一些用户状态、社会状态等发生变化,导致需要进行参数持续优化,因此可以调低进化学习的学习率。其中学习率的具体取值可以采用试验值或经验值。
也可以是迭代更新到一定程度后停止迭代更新,在下次启动迭代更新时再循环执行迭代更新,直至达到一定程度。其中所述一定程度可以是推荐***满足收敛条件,例如用户的长期行为收益逐渐收敛;也可以是替代轮数达到预设轮数阈值。
其中,上述推荐***可以为采用监督学习方式或者采用监督学习和人工规则相结合的方式预先得到的推荐***。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的推荐***的优化方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的推荐***的优化方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的推荐***的优化方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的推荐***的优化方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的推荐***的优化方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据该电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
该电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与该电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (13)

1.一种推荐***的优化方法,包括:
将所述推荐***作为决策体,将用户作为环境,将所述推荐***每一次的推荐内容作为所述决策体的动作,将用户的长期行为收益作为所述环境的奖励;
采用强化学习的方式对所述推荐***中待优化的参数进行优化,以最大化所述环境的奖励。
2.根据权利要求1所述的方法,其中,所述待优化的参数包括:所述推荐***中至少部分模型参数和/或超参数。
3.根据权利要求1所述的方法,其中,所述强化学习的方式包括进化学习;
对所述推荐***中待优化的参数进行优化包括一轮以上的迭代更新;其中,每一轮迭代更新包括:
针对各用户分别生成一组随机扰动;
将所述一组随机扰动增加至所述待优化的参数,增加的随机扰动与待优化的参数的维度相同;
统计基于增加随机扰动后的推荐***向用户推荐内容后各用户的长期行为收益;
依据统计得到的各用户的长期行为收益从各组随机扰动中确定所述待优化的参数的进化方向,并基于确定出的进化方向更新所述待优化的参数。
4.根据权利要求3所述的方法,其中,所述迭代更新循环执行;或者,
所述迭代更新执行至所述推荐***满足收敛条件;或者,
所述迭代更新执行至迭代轮数达到预设轮数阈值。
5.根据权利要求1所述的方法,其中,所述推荐***为采用监督学习方式或者采用监督学习和人工规则相结合的方式预先得到的推荐***。
6.根据权利要求1至5中任一项所述的方法,其中,所述用户的长期行为收益包括:
用户使用所述推荐***所属服务的总时长、用户对所述推荐***所推荐内容的总点击次数或总点击率、用户在所述推荐***的推广转化率或者所述推荐***所属服务的用户留存率。
7.一种推荐***的优化装置,包括:
建模单元,用于将所述推荐***作为决策体,将用户作为环境,将所述推荐***每一次的推荐内容作为所述决策体的动作,将用户的长期行为收益作为所述环境的奖励;
优化单元,用于采用强化学习的方式对所述推荐***中待优化的参数进行优化,以最大化所述环境的奖励。
8.根据权利要求7所述的装置,其中,所述待优化的参数包括:所述推荐***中至少部分模型参数和/或超参数。
9.根据权利要求7所述的装置,其中,所述强化学习的方式包括:进化学习;
所述优化单元具体包括以下各子单元,以执行一轮以上的迭代更新:
扰动生成子单元,用于针对各用户分别生成一组随机扰动;
扰动增加子单元,用于将所述一组随机扰动增加至所述待优化的参数,增加的随机扰动与待优化的参数的维度相同;
收益统计子单元,用于统计基于增加随机扰动后的推荐***向用户推荐内容后各用户的长期行为收益;
参数进化子单元,用于依据所述收益统计子单元统计得到的各用户的长期行为收益,从各组随机扰动中确定所述待优化的参数的进化方向,并基于确定出的进化方向更新所述待优化的参数。
10.根据权利要求7所述的装置,其中,所述推荐***为采用监督学习方式或者采用监督学习和人工规则相结合的方式预先得到的推荐***。
11.根据权利要求7至10中任一项所述的装置,其中,所述用户的长期行为收益包括:
用户使用所述推荐***所属服务的总时长、用户对所述推荐***所推荐内容的总点击次数或总点击率、用户在所述推荐***的推广转化率或者所述推荐***所属服务的用户留存率。
12.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN202010561785.5A 2020-06-18 2020-06-18 推荐***的优化方法、装置、设备和计算机存储介质 Pending CN111859114A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010561785.5A CN111859114A (zh) 2020-06-18 2020-06-18 推荐***的优化方法、装置、设备和计算机存储介质
US17/083,704 US11836222B2 (en) 2020-06-18 2020-10-29 Method and apparatus for optimizing recommendation system, device and computer storage medium
EP21163211.2A EP3926554A1 (en) 2020-06-18 2021-03-17 Method and apparatus for optimizing recommendation system, device and computer storage medium
KR1020210076843A KR20210157337A (ko) 2020-06-18 2021-06-14 추천 시스템 최적화 방법, 장치, 기기 및 컴퓨터 기록 매체
JP2021100020A JP7224395B2 (ja) 2020-06-18 2021-06-16 推薦システムの最適化方法、装置、デバイス及びコンピュータ記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010561785.5A CN111859114A (zh) 2020-06-18 2020-06-18 推荐***的优化方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN111859114A true CN111859114A (zh) 2020-10-30

Family

ID=72986806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010561785.5A Pending CN111859114A (zh) 2020-06-18 2020-06-18 推荐***的优化方法、装置、设备和计算机存储介质

Country Status (5)

Country Link
US (1) US11836222B2 (zh)
EP (1) EP3926554A1 (zh)
JP (1) JP7224395B2 (zh)
KR (1) KR20210157337A (zh)
CN (1) CN111859114A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597391A (zh) * 2020-12-25 2021-04-02 厦门大学 一种基于动态递归机制的分层强化学习的推荐***
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022033309A (ja) * 2018-02-15 2022-02-28 株式会社三洋物産 遊技機
JP2022033308A (ja) * 2018-02-15 2022-02-28 株式会社三洋物産 遊技機
JP2022033311A (ja) * 2018-02-15 2022-02-28 株式会社三洋物産 遊技機
JP2022033310A (ja) * 2018-02-15 2022-02-28 株式会社三洋物産 遊技機
KR102518825B1 (ko) * 2022-11-25 2023-04-06 이정수 자기 개발을 위한 강화 학습 시스템
KR102679131B1 (ko) * 2022-12-26 2024-06-27 쿠팡 주식회사 콘텐츠 추천 방법 및 그 시스템
CN116703529B (zh) * 2023-08-02 2023-10-20 山东省人工智能研究院 基于特征空间语义增强的对比学习推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009805A (ja) * 2006-06-30 2008-01-17 Eqs Kk アフィリエイト管理方法およびアフィリエイト管理システム
CN108829846A (zh) * 2018-06-20 2018-11-16 中国联合网络通信集团有限公司 一种基于用户特征的业务推荐平台数据聚类优化***及方法
JP2019028899A (ja) * 2017-08-03 2019-02-21 株式会社アスコン 販売促進システム、機械学習装置、機械学習用データ提供装置およびプログラム
US20190295004A1 (en) * 2018-03-23 2019-09-26 Adobe Inc. Recommending sequences of content with bootstrapped reinforcement learning
JP2020027517A (ja) * 2018-08-15 2020-02-20 株式会社Nttドコモ 行動データ識別システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010053991A1 (en) * 2000-03-08 2001-12-20 Bonabeau Eric W. Methods and systems for generating business models
US20170061286A1 (en) * 2015-08-27 2017-03-02 Skytree, Inc. Supervised Learning Based Recommendation System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009805A (ja) * 2006-06-30 2008-01-17 Eqs Kk アフィリエイト管理方法およびアフィリエイト管理システム
JP2019028899A (ja) * 2017-08-03 2019-02-21 株式会社アスコン 販売促進システム、機械学習装置、機械学習用データ提供装置およびプログラム
US20190295004A1 (en) * 2018-03-23 2019-09-26 Adobe Inc. Recommending sequences of content with bootstrapped reinforcement learning
CN108829846A (zh) * 2018-06-20 2018-11-16 中国联合网络通信集团有限公司 一种基于用户特征的业务推荐平台数据聚类优化***及方法
JP2020027517A (ja) * 2018-08-15 2020-02-20 株式会社Nttドコモ 行動データ識別システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINMIN CHEN等: "Top-K Off-Policy Correction for a REINFORCE Recommender System", WEB SEARCH AND DATA MINING, 30 January 2019 (2019-01-30), pages 456 - 464, XP058705838, DOI: 10.1145/3289600.3290999 *
胡桂武等: "混合智能算法研究及应用", 31 December 2018, 华南理工大学出版社, pages: 84 - 85 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法
CN112597391A (zh) * 2020-12-25 2021-04-02 厦门大学 一种基于动态递归机制的分层强化学习的推荐***
CN112597391B (zh) * 2020-12-25 2022-08-12 厦门大学 一种基于动态递归机制的分层强化学习的推荐***

Also Published As

Publication number Publication date
JP2022000755A (ja) 2022-01-04
KR20210157337A (ko) 2021-12-28
US11836222B2 (en) 2023-12-05
JP7224395B2 (ja) 2023-02-17
US20210397901A1 (en) 2021-12-23
EP3926554A1 (en) 2021-12-22

Similar Documents

Publication Publication Date Title
CN111859114A (zh) 推荐***的优化方法、装置、设备和计算机存储介质
KR102644700B1 (ko) 콘텐츠 추천 방법, 장치, 기기 및 매체
US20180285759A1 (en) Online hyperparameter tuning in distributed machine learning
KR102476056B1 (ko) 아이템 추천방법, 시스템, 전자기기 및 기록매체
CN111738414B (zh) 推荐模型的生成、内容推荐方法、装置、设备和介质
CN110851706B (zh) 用户点击模型的训练方法、装置、电子设备及存储介质
CN107463701B (zh) 基于人工智能推送信息流的方法和装置
CN111311321B (zh) 用户消费行为预测模型训练方法、装置、设备及存储介质
CN113301442B (zh) 确定直播资源的方法、设备、介质及程序产品
CN111737995A (zh) 基于多种词向量训练语言模型的方法、装置、设备及介质
JP2021096886A (ja) 融合関係ネットワークに基づく情報推薦方法、装置、デバイス、媒体及びプログラム
CN109471978B (zh) 一种电子资源推荐方法及装置
JP7498248B2 (ja) コンテンツ推薦とソートモデルトレーニング方法、装置、機器、記憶媒体及びコンピュータプログラム
JP2022063224A (ja) リソース推奨およびパラメータ確定方法、装置、機器、並びに媒体
CN112632403A (zh) 推荐模型的训练方法、推荐方法、装置、设备和介质
CN110598120A (zh) 基于行为数据的理财推荐方法及装置、设备
CN111598616B (zh) 对象集合筛选的实现方法、装置、设备以及存储介质
CN114417194A (zh) 推荐***排序方法、参数预测模型训练方法及装置
CN111563198A (zh) 一种物料召回方法、装置、设备及存储介质
Nie et al. Knowledge-enhanced causal reinforcement learning model for interactive recommendation
CN111539220A (zh) 语义相似度模型的训练方法、装置、电子设备及存储介质
CN113869377A (zh) 训练方法、装置及电子设备
CN112580723B (zh) 多模型融合方法、装置、电子设备和存储介质
CN111160552B (zh) 新闻信息的推荐处理方法、装置、设备和计算机存储介质
CN112541145B (zh) 一种页面展现方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination