CN112215362A

CN112215362A - 用于转换数据和优化数据转换的双重机器学习管道

Info

Publication number: CN112215362A
Application number: CN202010649979.0A
Authority: CN
Inventors: S-P.卡拉斯科
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment America LLC; Sony Interactive Entertainment LLC
Priority date: 2019-07-10
Filing date: 2020-07-08
Publication date: 2021-01-12
Also published as: TW202117610A; US20210012236A1; WO2021007006A1; US11983609B2; TWI785346B

Abstract

一种端到端基于云的机器学***台提供转换后的数据的生命周期并将其与用户交互的生命周期进行比较。通过将两个生命周期进行比较，可返回有关哪些模型相关和哪些模型不相关的推荐。

Description

用于转换数据和优化数据转换的双重机器学习管道

技术领域

本申请总体上涉及技术上有创造性的非常规解决方案，这些解决方案必须植根于计算机技术并产生具体的技术改进。具体地，本申请涉及提供个性化游戏玩家预测的端到端基于云的机器学习平台。

背景技术

机器学习能够分为不同的任务，诸如监督式学习、无监督学习、深度学习、强化学习和推荐***，所述不同的任务能够用于多种计算机应用程序，诸如在线个性化推荐、计算机视觉、语音辨识、互联网搜索引擎、个人助理和自动驾驶汽车。

如本文所理解的，机器学习***抵制来自形式方法的分析。由于机器学习***的复杂性，验证技术(诸如模型检验或定理证明)无法应用于机器学习***。因此，必须通过受控实验凭经验确定机器学习模型的行为，以支持、反驳或验证市场假说。

验证市场假说在诸如计算机游戏之类的计算机模拟领域的重要性因以下事实而变得复杂：游戏开发者通过重新想象人们如何玩游戏而不断创新，而游戏玩家在他们交互、消费和购买游戏方面的行为却不断变化。这意味着必须在相对短的生命周期内开发和验证许多机器学习个性化模型。

发明内容

如本文所理解的，机器学习是一个序列化过程，其涉及识别、获得和准备原始数据集，将原始数据转换为机器学习模型的特征的特征工程和生成提取、转换和加载(ETL)服务，以及自行设计和开发机器学习模型。必须在计算密集型任务中“训练”模型，因此计算密集型任务涉及在大量中央处理单元(CPU)、图形处理单元(GPU)上运行的分布式计算架构以及用于运行诸如深度学习之类的特定算法的新兴的优化芯片。然后，必须评估模型的性能和延迟。在训练模型之后，需要评估其预测质量以及该模型提供该预测所花费的时间。然后，可将“良好”模型部署在生产环境中以在在线服务(诸如网络商店，用户新闻源、游戏内的活动或技巧***)中提供推断，以帮助游戏用户更好地玩游戏。

如本文中还理解的，为了使数据科学家免于构建他们自己的建模工具来使这些工作流自动化，可使用机器学习管道来使上述工作流从头到尾自动化。这种端到端管道将原始数据转换为特征，然后将特征转换为经过训练的模型，并部署到生产中以生成推断。机器学习管道确保可靠、统一和可重复的数据转换，以用于生成特征ETL，训练模型并提供生产模型推断。

本原理进一步理解机器学习管道可具有两种不同类型的数据处理基础架构。第一种是支持高数据吞吐量的基础架构。必须使用计算极度密集型算法，诸如具体地说批量梯度下降来训练机器学习模型。梯度下降的目的是使训练集的标签数据与模型预测之间的成本或损失函数最小化。找到成本函数的最小值需要进行大量的计算迭代，尤其是对于训练深度学习***。因此，管道的训练服务通常在大量CPU、GPU和用于运行诸如深度学习之类的特定算法的新兴的优化芯片上运行，并且该训练能够均匀地分布在大量集群上。尽管对于某些使用情况必须在线训练某些模型，但是该训练服务主要是离线管道。

第二种类型的数据处理基础架构必须支持低数据延迟。当训练模型时，模型会针对大量请求以在几毫秒的范围内的非常低的延迟提供其预测。推断服务通常是在线的，因为模型预测是按需要提供给应用程序的，但也可以是离线的，因为模型预测被安排为每周、每天或每小时运行。

本原理解决了本文认识到的从最初的模型创建中去除人为决策的技术需要，该人为决策是要训练哪个模型和何时训练它，哪个模型可部署在生产中和模型可部署在生产中的原因，以及哪个模型在实验中成功以及模型在实验中成功的原因的决策。进一步地，本原理允许非数据科学家通过具体地自动化模型超参数的搜索以及选择已知与开源数据集一起工作的算法来训练模型。

因此，本原理涉及机器学习管道如何转换数据。原始用户交互数据和原始项目数据被转换为生成特征。模型利用这些特征学习如何提供个性化软件体验，诸如向给定用户推荐计算机游戏，向用户推荐更好地玩游戏的技巧，向用户推荐游戏活动等。模型预测用于评估有关这些推荐的各种实验。每个实验具有多个变量。

因此，一种设备包括至少一个处理器和至少一个计算机存储器，所述至少一个计算机存储器不是瞬时信号并且包括能够由所述处理器执行以接收表示由多个模拟玩家对计算机模拟进行的输入的数据的指令。所述指令可执行以将所述数据输入到模型生成计算机化服务的第一管道的训练服务以训练多个个性化的用户体验模型，并使用所述第一管道的推断服务来生成对那些个性化的用户体验的预测。所述指令还可执行以将来自所述推断服务的那些模型预测提供到所述第一管道的实验服务以测试所述推荐的个性化的用户体验。更进一步地，所述指令可执行以提供通过使用所述实验服务生成的输出来使用模型生成计算机化服务的第二管道的训练服务来训练新模型以使用至少一个关键绩效指标(KPI)从所述第一管道中选择所述个性化的用户体验模型的子集。所述指令可执行以将在所述第二管道的所述训练服务中训练的这个新模型提供到所述第二管道的推断服务，以递送对将在所述第一管道的所述训练服务中训练的新的个性化的用户体验模型的推荐。

在示例中，所述指令可以是可执行的，以学习如何使用所述第二管道的所述训练服务来对从所述第一管道中选择的所述模型进行分类，并且将那些分类提供给所述第二管道。在这样的示例中，所述指令可以是可执行的以执行所述第二管道的强化学习模型(RL)，以至少部分地通过最大化针对来自所述第一管道的第一模型预测的奖励来将至少所述第一模型识别为“良好”模型。所述最大化可至少部分通过以下操作来执行：使与时间“t”相关联的推荐等同于与所述时间“t”相关联的奖励加上折扣因子和与时间t+1相关联的推荐的乘积。

在某些实现方式中，所述指令可以是可执行的以执行演化策略模型(ES)，所述演化策略模型可使用在所述第二管道中分类的所述所选择的模型来识别将由所述第一管道训练的未来模型。所述指令可以是可执行的以执行所述ES以基于所述分类来学习模型元数据，并至少部分地基于它们的元数据来生成所述未来模型。

在另一方面，一种***包括：第一多个计算机，所述第一多个计算机实现用于训练模型和推断那些模型的第一管道；第二多个计算机，所述第二多个计算机实现第二管道，所述第二管道用于从所述第一管道接收所述模型、将来自所述第一管道的所述模型中的至少第一模型识别为良好模型，并且将新模型反馈给所述第一管道以使得所述第一管道能够生成新模型。

在另一方面，一种方法包括：使用第一计算机化管道进行模型训练和模型推断；使用第二计算机化管道从部署在所述第一管道的推断服务中的模型中识别至少一个最佳模型；以及将与所述最佳模型相关联的信息反馈给所述第一管道。所述方法包括使用来自提供计算机模拟推荐的所述第一管道的模型中的至少最佳模型来输出模型推荐。

本申请的关于其结构和操作两者的细节可参考附图得到最好的理解，在附图中相同的附图标记指代相同的部分，并且在附图中：

附图说明

图1是符合本原理的基于云的机器学习平台的网络架构的框图；

图1A是符合本原理的数据中心架构的框图；

图2是示出双重机器学习管道的自动化工作流的示意图；

图3是示出在两个管道上运行的数据转换的示意图；

图4是示出第一管道P1的存储在特征存储器中的特征元数据和存储在模型存储器中的模型元数据的示意图；

图5是示出使用RL、CL和ES模型的两个管道之间的通信流程的示意图；

图6是与RL模型算法有关的示例性逻辑的流程图；

图7是示出第二管道P2的RL模型架构的示意图；

图8是示出RL深度Q网络的示意图；

图9是示出由第二管道P2中的模型CL所提供的模型的分类的示意图；

图10是示出第二管道P2的ES模型架构的示意图；并且

图11是示出ES深度学习***的示意图。

具体实施方式

本公开总体上涉及计算机生态***，其包括消费者电子(CE)装置网络的各方面，消费者电子装置网络诸如但不限于：分布式计算机游戏网络、增强现实(AR)网络、虚拟现实(VR)网络、视频广播、内容递送网络、虚拟机、机器学习和人工神经网络应用。

本文的***可包括服务器和客户端部件，所述服务器和客户端部件通过网络连接使得可在客户端与服务器部件之间交换数据。客户端部件可包括一个或多个计算装置，所述一个或多个计算装置包括AR耳机、VR耳机、游戏控制台(诸如Sony

)和相关母板、游戏控制器、便携式电视(例如智能TV、支持互联网的TV)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文所论述的额外实例)。这些客户端装置可以多种操作环境操作。例如，客户端计算机中的一些可采用例如Orbis或Linux操作***、来自Microsoft的操作***，或Unix操作***，或由Apple公司或Google生产的操作***。这些操作环境可用于执行一个或多个程序/应用程序，诸如由Microsoft或Google或Mozilla制作的浏览器，或可访问由下文所论述的互联网服务器托管的网站的其他浏览器程序。此外，根据本原理的操作环境可用于执行一个或多个计算机游戏程序/应用程序和采用本原理的其他程序/应用程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置为通过诸如互联网的网络接收和传输数据。另外地或替代地，客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台和/或其一个或多个母板(诸如Sony

)、个人计算机等实例化。

可通过网络在客户端与服务器之间交换信息。为此并且为了安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储器和代理，以及用于可靠性和安全性的其他网络基础架构。一个或多个服务器可形成实现根据本原理向网络用户提供诸如在线社交网站或视频游戏网站的安全社区以众包地通信的方法的设备。

如本文所使用，指令是指用于在***中处理信息的计算机实现的步骤。指令可在软件、固件或硬件中实现，并且包括由***的部件承担的任何类型的已编程步骤。

处理器可以是能够借助于诸如地址线、数据线和控制线的各种线以及寄存器和移位寄存器执行逻辑的任何常规的通用单芯片处理器或多芯片处理器。

通过本文的流程图和用户界面描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下，被陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

如上文所指示，本文所述的本原理可实现为硬件、软件、固件或它们的组合；因此，依据说明性部件、框、模块、电路和步骤的功能性对它们进行阐述。

除上文已经提到的内容之外，下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或被设计来执行本文所述功能的其他可编程逻辑装置(诸如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或它们的任何组合)来实现或执行。处理器可由控制器或状态机或计算装置的组合实现。

以下描述的功能和方法可在硬件电路或软件电路中实现。当在软件中实现时，所述功能和方法可以诸如但不限于Python、Scala、Java、C#或C++的适当语言编写，并且可存储在计算机可读存储介质上或通过计算机可读存储介质传输，诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、压缩光盘只读存储器(CD-ROM)或其他光盘存储器(诸如数字通用光盘(DVD))、磁盘存储器或包括可移除拇指驱动器的其他磁性存储装置等。连接可建立计算机可读介质。此类连接可包括例如硬连线电缆，包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可包括无线通信连接，包括红外线和无线电。

一个实施方案中所包括的部件可以任何适当的组合用于其他实施方案中。例如，可将本文所述和/或附图中所描绘的各种部件中的任一者组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的***”(类似地，“具有A、B或C中的至少一者的***”和“具有A、B、C中的至少一者的***”)包括仅具有A、仅具有B、仅具有C、同时具有A和B、同时具有A和C、同时具有B和C，和/或同时具有A、B和C的***等。

现在参考图1，示出了示例性***，所述***可包括根据本原理的本文提到的用于执行本文献中描述的技术的示例性装置中的一个或多个装置。如图所示，***可包括一个或多个区域数据中心10，所述一个或多个区域数据中心10中的每一者包括具有伴随处理器以及固态存储器和磁盘存储器的一个或多个服务器。所述服务器建立用于执行其中在多个数据中心上执行机器学***台的基于云的***。区域数据中心经由有线链路和/或无线链路16与一个或多个计算机化前端装置18(诸如执行网络浏览器的计算机(膝上型计算机、PC等)，在移动装置上执行的移动应用程序或计算机模拟控制台(诸如游戏控制台))通信。

因此，如图1所示，从“云”提供双重机器学习管道。机器学习管道在由区域数据中心10托管的云后端中的大量计算机集群上执行。所有模型训练和模型推断都发生在后端。将模型预测提供到前端应用程序，诸如在包括网络浏览器、游戏控制台或移动应用程序的装置18上运行的前端应用程序中的任一者。所有前端应用程序都通过互联网网络16与云后端通信。每个集群可能包括物理上位于一个或多个服务器场中的大量计算机服务器，这些服务器场位于一个或多个地理上分散的数据中心中。

典型的架构可包括分布在全球的大量区域数据中心，其中一个或多个区域数据中心位于北美、欧洲中东和非洲、日本以及世界上其他地区。

如图1A所示，每个数据中心可包括用以管理从前端应用程序18到多个服务器场23的网络请求的一个或多个负载平衡器20，以及保护服务器25免受外部安全威胁的一个或多个威胁检测和防火墙工具22。尽管大多数数据是移动的且被生成并且可以可易于由服务器场中的集群访问和操纵的各种数据格式(诸如Apache Parquet)存储在大型文件***(诸如Apache Hadoop分布式文件***(HDFS))中，但是一些数据可能为静止的，并且物理地存储在数据中心中的网络附加存储装置(NAS)24上。

本原理使机器学***的，例如，管道使从模型训练到模型推断以及从模型推断到模型实验的工作流程自动化，而且自动化是竖直的，例如，无需由数据科学家团队来决定要训练哪个模型，要将哪个模型部署在生产中以及要对哪个模型进行实验。

如附图所示并在下面更全面地描述，机器学习模型的开发包括许多工作流程，包括获取和准备数据、特征工程和ETL、设计模型、训练位于提供机器学习云服务的数据中心中的大型服务器集群上的模型、评估模型性能和延迟，以及将模型作为服务部署在生产中。

为此，如图2至图5所示，两个机器学习管道(称为P1和P2)在没有人工干预的情况下提供模型训练和模型推断。第一管道P1生成用于个性化游戏玩家体验的模型。

如图2所示，第一管道P1包括可在线或离线的训练服务200。在一些实施方案中，训练服务200包括布置在分布式计算机架构中的多个计算机，所述分布式计算机架构使用大型数据集提供对计算密集型训练的并行处理。如图3中的300所示，第一管道P1的训练服务200采用一个或多个执行机器学习算法的计算机来学习如何针对个性化游戏体验提供推荐。训练服务200提供特征生成ETL服务和模型训练服务，所述模型训练服务利用分布式计算架构来并行化具有大型数据集的计算密集型训练工作。

第一管道P1还包括在线或离线推断服务202。推断服务202包括以高性能架构布置的多个计算机，以确保模型预测的最低确定性延迟。换句话说，推断服务202快速处理来自训练服务200的已训练模型，如下面进一步详述的。如图3中的302所示，推断服务202提供模型预测。

将推断服务202的模型预测发送到第一管道P1中的实验服务204，以如图3中的304所示对那些预测进行实验。实验服务204包括具有输出装置的计算机，所述输出装置提供用户界面以定义实验假说并输入实验的关键绩效指标(KPI)和度量。

将第一管道P1的输出发送到如图2所示的第二P2管道中的离线或在线训练服务206，第一管道P1的输出包括关于处于训练和推断中的模型的元数据，以及关于从ETL生成的特征的元数据。如下面进一步描述的，强化学习模型(RL)在P2管道的训练服务206中学习如何从P1管道中选择“最佳”模型进行实验，如图3中的306所示。

如下面进一步解释的，在状态307处学习分类，将其输出发送到P2管道中的在线或离线推断服务208，推断服务208采用执行将由下文进一步描述的各种模型使用的机器学习算法的一个或多个计算机来学习要训练和提供哪些模型，如图3中的308所示，将308的指示反馈给P1管道的训练服务200。

因此，P2管道同时具有训练服务和推断服务。这两种服务由将简短描述的三个P2模型使用，即RL模型加上CL模型和ES模型。每个模型使用训练服务和推断服务，以便接受训练并且以便提供其预测。例如，RL模型选择最佳模型，CL模型对RL模型选择的模型进行分类，并且ES模型将模型推荐给第一管道P1以进行训练。因此，RL模型将其预测提供给CL模型，所述CL模型进而将其预测提供给ES模型。ES模型将其预测提供给第一管道P1。

因此，可以了解，第二管道P2生成有助于P1生成更好的模型的模型。

考虑到以上几点，可进一步了解，第一管道P1中的数据转换可被认为是包括管道P1和P2两者的整个机器学***面，而优化来自第一管道P1的数据转换的第二管道P2可被认为是整个机器学***面。实际上，第二管道P2是对第一管道P1的叠加。

如下面进一步说明的，利用推荐的***技术来训练来自第一管道P1的模型，以提供个性化用户体验，诸如逻辑回归、矩阵分解、分解机器、深度学习和强化学习。利用强化学习、聚类和演化策略技术来训练来自第二管道P2的模型。

关于第一管道P1的实验服务204，使大量模型经受实验以测试针对不同用户段的多个个性化推荐，以评估用户对那些各种类型的推荐的响应。该***能够同时或按顺序提供大量实验。每个实验还会具有多个变量。每个实验通常着重于测试特定假说，诸如用户细分、游戏特征、推荐背景或推荐环境。如果需要，这些变量可同时运行。可为每个变量提出多个模型，每个模型提供个性化推荐。给定实验的所有模型都应在给定时间间隔内输出其推荐。还期望***很好地放大以同时在线提供具有多个变量的多个实验，并且能够针对所述变量提出多个模型。应注意，对比例的要求可在任何时间根据实验数据的量和速度而变化。

成功的实验假说可通过关键绩效指标(KPI)进行定量测量。一般来说，选择是相关的长期业务目标的一个主要的KPI。该主要KPI可具有多个次要度量来捕获实验的整个范围，以便分析确实发生了什么以及它为什么发生。次要度量通常可由实验产品分析师使用来将有关实验的进一步分析提供给市场分析师。图4提供了与特征和模型元数据有关的上述管道的额外细节。第一管道P1生成模型并将模型部署在生产中且用于实验，并且使端到端机器学***地”自动化。如图4所示，第一管道的训练服务200在特征数据存储器400中生成特征元数据，并且训练服务200和推断服务202在模型数据存储器402中生成模型元数据。原始数据(诸如用户数据、游戏数据)和用户交互(诸如用户-游戏交互(玩、购买、查看、停留、喜欢、评论、转发等)和用户-用户交互(朋友、关注、分享等))用于生成特征ETL。

第一管道P1的特征可从数据存储器中的数据离线生成，也可在从发布和订阅源流式传输数据时在线生成。

如上所述，第一管道P1的训练服务200生成用于去往推断服务202的个性化游戏体验模型的特征ETL。训练服务200在线或离线训练那些个性化游戏体验模型，并将它们部署在推断服务202中的生产环境中。

在训练服务200中训练模型之后，第一管道P1的推断服务202提供个性化游戏体验模型的推断，之后那些模型准备好在实验服务204中进行实验。应注意，当在线应用程序实时地或离线地请求预测时，第一管道P1能够在线提供模型预测，并且使那些预测在离线应用程序的数据存储器中可用。

第一管道P1生成模型和特征元数据。在管道中生成每个ETL之后生成特征元数据。在训练服务200中训练模型之后，并在所述模型在推断服务202中提供其预测之后生成模型元数据。

上文提到的模型元数据可包括模型算法、模型架构(尤其是用于深度学***均数)。

此外，模型元数据可包括通过在诸如以引用的方式并入本文中的本受让人的美国专利申请序列号16/424,193中阐述的“WPAE”度量之类的度量所测量的对推荐的预测的相关性。

另一方面，特征元数据可包括标准统计度量(平均数、平均值、最大值、最小值和标准偏差)以及特征与其他特征和模型的关系。

如上所述，第二管道P2通过帮助P1生成更好的模型使端到端机器学习工作流程“竖直地”自动化来帮助第一管道P1产生更好的模型。通常，第二管道P2通过强化学习来学习如何从实验KPI中选择最佳模型进行实验。按照实验对模型进行分类。第二管道P2还学习如何通过经由演化策略推荐模型元数据来推荐第一管道P1应该训练哪个模型，以及如何经由强化学习从实验KPI中选择最佳模型进行实验。

图5进一步进行说明。第二管道P2的训练服务206和推断服务208可由提供第一数据转换的在线或离线强化模型(RL)502使用。此外，第二数据转换(上面的307处的分类)由聚类模型CL504提供，而第三数据转换由演化策略模型ES 506提供，并且这两种数据转换都在上述训练服务206和推断服务208中提供。

RL502在来自第一管道P1的生产中的模型中分析出性能最好的模型来进行实验。在示例性非限制性实施方案中，强化学习可如在由Mnih等人在www.arXiv.org中以以下编号1312.5602发布的“Playing Atari with Deep Reinforcement Learning”中所描述来实现，其在即时文件历史中公开并以引用的方式并入本文中。

第一管道P1与第二管道P2的RL502共享在其产品环境中部署的所有其模型以进行推断。并且，对于每个模型，RL502能够访问模型元数据。第一管道P1还与第二管道P2的RL502共享在其实验服务上运行的每个实验，尤其是实验KPI和变量的数量。

RL502在来自第一管道P1的生产中的模型中分析出性能最好的模型来进行实验。在一个实施方案中，RL502使用由以下参数定义的马尔可夫决策过程(MDP)：

RL的环境是实验，RL的动作是为实验变量选择模型，RL的状态是它针对实验的模型选择的状态，RL的奖励是通过增大实验的KPI来测量，RL的策略是推荐针对实验生成最高KPI的模型，并且RL的Q值是来自于为给定实验的每个变量选择模型的预期累积奖励。

第二管道P2的RL 502的模型选择使从时间点t开始的折扣的未来奖励最大化，该折扣的未来奖励表示为：

R_t＝r_t+r_t+1+…+r_t+i+…+r_t+n

假设γ是被选择为在探索(例如，立即采取次优行动来收集额外的实验信息)和开发(例如，最大化未来奖励)之间找到合适平衡的折扣因子，则折扣的未来奖励可表示为：

R_t＝r_t+γR_t+1

简要地参考图6来解释RL 502，在框600处，假设RL的代理处于状态“s”。移动到框602，在该状态下执行动作“a”。进行到框604，从其动作a观察到奖励r_t，在框606处将RL移动到新状态“s’”，该新状态在框608处生成新动作“a’”，以在框610处获得新的Q值，新的Q值在一种实现方式中是根据等式：

Q(s,a)＝r_t+γmax_a’Q(s’,a’)

因此，Q学习算法可陈述为：

任意初始化Q(s,a)，观察初始状态s，重复、选择并执行动作a，观察奖励r和新状态的Q(s,a)＝Q(s,a)+α(r_t+γmaxa’Q(s’,a’)–Q(s,a)),s＝s'直到终止。

在上述等式中，“α”表示学习率，其控制先前的Q值与新提出的Q值之间的差中有多少别列入考虑中。可利用实现深度Q学习算法的函数逼近器来估计RL 502的Q值。函数逼近器可以是例如深度Q网络，诸如具有参数θ的深度学习***使得：

Q(s,a；θ)～Q(s,a)。

深度Q网络可以是具有三个隐藏层和十个特征的深度神经网络。神经网络的特征可以是如先前定义的模型元数据，即模型算法、模型架构、模型参数、模型超参数、模型特征、模型学习率、模型依赖性、推断状态、模型度量、模型WPAE。神经网络的输出是Q值：Q(s,a)。

应当理解，用于网络训练的损失函数可由下式给出：

ο其中

是期望值

ο并且其中

并且对网络的训练参数θ_i的梯度更新是：

·

网络参数θ_I可随机地初始化。

可利用存储所有转变(s,a,r,s’)的经验回放来训练深度Q网络。当训练网络时，使用回放存储器中的随机样本来代替最近的转变。

通过经验回放，Q网络算法变成：

初始化回放存储器M；

用随机权重初始化Q值函数；

观察初始状态“s”；

重复；

通过选择概率为e的随机动作来选择动作“a”，否则

选择a＝arg maxa’Q(s,a’)；

执行动作“a”；

观察奖励r和新状态s'；

将经验(s,a,r,s’)存储在回放存储器M中；

从回放存储器M中对随机转变(ss,aa,rr,ss’)采样；

计算每个小批量转变的目标；

如果ss'是终端状态，则uu＝rr，否则uu＝rr+γmaxa’Q(ss’,aa’)；

使用(uu-Q(ss,aa))²作为损失来训练Q网络；

s＝s’

直到终止。

深度Q网络为给定实验从第一管道P1中选择最佳模型。如果实验产品分析师需要多个变量，则在从第一管道P1中的生产中可用的模型中选择一个模型之后，深度Q网络从剩余模型中选择最佳模型。

变量的数量可由实验产品分析师在第一管道P1的实验服务204的用户界面中输入。

图7示出了RL 502架构示例的细节。如图所示，RL代理(深度Q网络)700从第一管道P1中为实验的特定变量704选择模型702。代理选择该模型702以最大化变量704的增大的KPI的奖励708。因此，RL代理700利用新模型选择706移动到新状态。

图8示意性地示出了图7的深度Q网络700。如上所述，模型算法800、模型架构802、模型参数804、模型超参数806、模型特征808、模型学习率810、模型依赖性812、推断状态814、模型度量816和模型WPAE 818被提供给网络700，以供深度学习层820如上所述进行处理。

第二管道P2的RL 502通过用于按照实验对模型元数据进行分类的分类模型(CL)504链接到第二管道P2的演化策略模型(ES)506。如图9所示，CL 504将由RL 502选择的性能最佳的模型按照实验900的类型从最低到最高KPI聚类，如图9中的y轴所示。分类可由诸如K均值或层次聚类的聚类算法执行。

ES 506进而学习如何通过经由演化策略推荐模型元数据来推荐要训练哪个模型。ES模型506从由CL 504按照实验分类的模型中学习如何向第一管道P1的训练服务200推荐要训练哪些新模型。为此，ES 506对由CL 504分类的模型群体进行采样，并允许性能最佳的模型指示第一管道P1应当训练的模型的未来几代的分布。

ES 506学习如何从RL 502选择进行实验的每个模型元数据生成新模型，尤其是如何推荐模型特征，推荐模型算法，推荐尤其是针对深度学习模型的模型架构，推荐模型参数、超参数和学习率，推荐模型对其他模型的依赖性，以及推荐模型推断是离线还是在线。

演化策略技术与强化学习技术不同，因为它们不计算Q值来找到将生成最高奖励的策略，并且演化策略深度学习***受训练而没有反向传播。在示例中，演化测量可使用在Salimans等人的在www.arXiv.org中用以下编号1703.03864发布的“EvolutionStrategies as a Scalable Alternative to Reinforcement Learning”中的原理来实现，其在即时文件历史中公开并以引用的方式并入本文中。

图10和图11示出了ES 506的示例性实现方式的细节。ES 506从CL 504针对给定实验分类的每个模型的模型元数据中学习如何生成新的模型元数据。这形成了可由深度学习***实现的ES代理1002的初始策略1000的基础。在获取该初始策略后，ES 506生成由其新的元数据定义的新模型，这些新的元数据可提供相同或更好的实验KPI。

更具体地并且如图10所示，ES深度学习***可以是代理1002，其动作1004将为基于策略1000而向第一管道P1推荐模型。如果策略成功地增加了由实验KPI定义的奖励，则如1006所指示，对代理1002进行奖励。该策略由评估模块1008评估，评估模块1008更新1010策略，并将该信息反馈给代理1002。

如前所述，RL 502通过以下方式起作用：利用其深度Q网络以通过经由探索和开发计算Q值来找到将最大化实验KPI的策略。相反，在给定初始策略的情况下，ES 506通过将随机扰动应用于其深度学习网络的权重来生成新策略群体。然后，它会评估所有这些新策略，计算出随机梯度估计值，以探讨哪种策略看起来更有希望生成最高奖励。

相应地转到图11，可利用具有四个隐藏层的深度学习***1100来对ES 506建模。ES 506的输入可包括由CL 504针对每个实验分类的每个模型的元数据1102。ES 506输出第一管道P1的训练服务200然后训练的新模型的元数据。

表示为π₀的ES策略将模型元数据推荐给第一管道P1的训练服务200。利用该模型元数据，第一管道P1的训练服务200训练从该元数据生成的新模型。

假设F为目标函数，π_θ为ES策略，θ_i为ES深度学习***的参数，ε样本为从策略π_θ抽出的样本，标准差为σ，我们得到：

其中使用随机梯度上升利用以下得分函数估计器来优化θ_i：

因此，ES算法包括输入，所述输入包括初始ES策略参数θ_i、目标函数F、策略样本ε_i、群体大小n、标准偏差σ和ES学习率α。该算法可陈述为：

对于t＝0,1，2，…进行

对策略采样；

样本ε₁,...ε_n～N(0,I)

评估策略；

计算返回值F_i＝F(θ_t+σε_i)其中i＝1,...,n

更新策略

设置

直到收敛

ES 506与第一管道P1共享所有推荐的模型元数据。进而，第一管道P1利用该模型元数据来基于该元数据自动生成新模型的训练。第一管道P1的训练服务200是自动化的，使得可利用定义的模型特征、定义的模型算法、定义的模型架构、定义的模型参数、超参数和学习率、模型对其他模型的定义的依赖性和定义为离线或在线的模型推断状态来训练新模型。

因此，第二管道P2与第一管道P1协作以产生更好的模型进行实验。在每个周期，RL502从第一管道P1中选择具有更好的个性化推荐的新模型进行实验。然后，ES 506学习如何定义将胜过RL 502从第一管道P1选择的先前模型的新模型元数据，并与第一管道P1共享将最大化任何实验KPI的模型的元数据。然后，第一管道P1训练新模型，所述新模型由它们的如通过ES 506推荐的元数据定义。通过大量实验，RL 502在学习如何选择性能最佳的模型方面变得更好，而ES 506在学习如何向P1的管道推荐要训练的模型方面变得更好。有利结果是，第一管道P1可在第二管道P2的帮助下训练模型并提供模型推断，而无需人工干预。

应了解，虽然已经参考一些示例性实施方案描述了本原理，但这些实施方案并不意图为限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种设备，所述设备包括：

至少一个处理器；以及

至少一个计算机存储器，所述至少一个计算机存储器不是瞬时信号并且包括指令，所述指令能够由所述至少一个处理器执行以：

接收表示由多个模拟玩家对计算机模拟进行的输入的数据；

将所述数据输入到模型生成计算机化服务的第一管道的训练服务以训练多个推荐模型；

使用所述第一管道的推断服务以基于使用所述第一管道中的所述训练服务训练的模型来生成推荐；

将所述推断服务的输出提供到所述第一管道的实验服务以测试所述推荐以便使用至少一个关键绩效指标(KPI)来选择所述模型的子集；

使用第二管道的训练服务和推断服务来提供对要训练的模型的推荐；以及

将由所述第二管道生成的对要训练的模型的推荐提供到所述第一管道的所述训练服务。

2.如权利要求1所述的设备，其中所述指令能够执行以：

在所述第二管道中对模型进行分类以生成分类。

3.如权利要求2所述的设备，其中所述指令能够执行以：

执行强化学习模型(RL)以使用所述第二管道的所述训练服务和推断服务来至少部分地通过最大化针对来自所述第一管道的第一模型预测的奖励来将至少所述第一模型识别为良好模型。

4.如权利要求3所述的设备，其中所述最大化是至少部分通过以下操作来执行：使与时间“t”相关联的推荐等同于与所述时间“t”相关联的奖励加上折扣因子和与时间t+1相关联的推荐的乘积。

5.如权利要求3所述的设备，其中所述指令能够执行以：

执行演化策略模型(ES)以使用所述第二管道的所述训练服务和推断服务以使用由所述第二管道的所述训练服务识别的至少所述第一模型来识别将由所述第一管道训练的未来模型。

6.如权利要求5所述的设备，其中所述指令是能够执行的以执行所述ES以基于所述分类来学习模型元数据；并且

至少部分地基于所述元数据来生成所述未来模型。

7.如权利要求1所述的设备，其中所述指令是能够执行的以执行所述模型中的至少一个模型，以提供对新的计算机模拟的推荐以便提供给模拟玩家。

8.一种***，所述***包括：

第一多个计算机，所述第一多个计算机实现用于训练模型并提供模型预测的第一管道；以及

第二多个计算机，所述第二多个计算机实现第二管道，所述第二管道用于从所述第一管道接收所述模型、将来自所述第一管道的所述模型中的至少第一模型识别为良好模型并且将所述第一模型反馈给所述第一管道以使得所述第一管道能够生成新模型。

9.如权利要求8所述的***，其中所述第一多个计算机访问指令以：

接收表示由多个模拟玩家对计算机模拟进行的输入的数据；

将所述数据输入到所述第一管道的训练服务以训练多个推荐模型；

使用所述第一管道的推断服务以基于在所述第一管道的所述训练服务中训练的模型来生成推荐；

向实验服务提供所述推荐以测试所述推荐；以及

将所述实验服务的输出提供到所述第二管道以使用至少一个关键绩效指标(KPI)来选择至少所述第一模型。

10.如权利要求9所述的***，其中所述第二多个计算机访问指令以：

将来自使用所述第二管道的训练服务的输出提供到使用所述第二管道的训练服务和推断服务来提供对要训练的模型的推荐的模型；以及

将对要训练的模型的所述推荐提供到所述第一管道。

11.如权利要求10所述的***，其中所述指令能够由所述第二多个计算机执行以：

对通过使用所述第二管道的所述训练服务学习到的模型进行分类以生成分类；以及

将所述分类提供到采用所述第二管道的推断服务的模型。

12.如权利要求11所述的***，其中所述指令能够由所述第二多个计算机执行以：

在所述第二管道中执行强化学习模型(RL)以至少部分地通过最大化针对来自所述第一管道的所述第一模型预测的奖励来将至少所述第一模型识别为良好模型。

13.如权利要求12所述的***，其中所述最大化是至少部分通过以下操作来执行：使与时间“t”相关联的推荐等同于与所述时间“t”相关联的奖励加上折扣因子和与时间t+1相关联的推荐的乘积。

14.如权利要求12所述的***，其中所述指令能够由所述第二多个计算机执行以：

在所述第二管道中执行演化策略模型(ES)以使用通过使用所述第二管道的所述训练服务和推断服务识别的至少所述第一模型来识别将由所述第一管道训练的未来模型。

15.如权利要求14所述的***，其中所述指令能够由所述第二多个计算机执行以执行所述ES以基于所述分类来学习模型元数据；并且

至少部分地基于所述元数据来生成所述未来模型。

16.如权利要求10所述的***，其中所述指令能够由所述第二多个计算机执行以执行所述模型中的至少一个模型，以提供对新的计算机模拟的推荐以便提供给模拟玩家。

17.一种方法，所述方法包括：

使用第一管道来训练预测模型，所述第一管道是计算机化的；

使用第二管道来从所述第一管道的所述预测模型中识别至少一个最佳模型，所述第二管道是计算机化的；

将与所述最佳模型相关联的信息反馈给所述第一管道；以及

使用所述预测模型中的至少最佳模型来输出推荐，所述推荐包括计算机模拟推荐。

18.如权利要求17所述的方法，所述方法包括在所述第二管道中执行强化学习模型(RL)以至少部分地通过最大化针对第一模型预测的奖励来识别至少所述最佳模型。

19.如权利要求18所述的方法，其中所述最大化是至少部分通过以下操作来执行：使与时间“t”相关联的推荐等同于与所述时间“t”相关联的奖励加上折扣因子和与时间t+1相关联的推荐的乘积。

20.如权利要求18所述的方法，所述方法包括在所述第二管道中执行演化策略模型(ES)以使用至少所述最佳模型来识别将由所述第一管道训练的未来模型。