CN112232515A

CN112232515A - 用于转换后的数据的自修复机器学习***

Info

Publication number: CN112232515A
Application number: CN202010673308.8A
Authority: CN
Inventors: S-P.卡拉斯科; 赵岑
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment America LLC; Sony Interactive Entertainment LLC
Priority date: 2019-07-15
Filing date: 2020-07-14
Publication date: 2021-01-15
Also published as: WO2021011154A1; TWI755778B; US11250322B2; US20210019612A1; TW202105183A

Abstract

提供个性化的游戏玩家体验的端到端基于云的机器学***台管道将转换后的数据的生命周期提供给自修复***，所述自修复***将所述生命周期与用户交互的生命周期进行比较。通过比较两个生命周期，自修复***能够自动提供诊断，并且如果模型预测的性能已随时间发生变化，自修复***还能够自动提供措施。

Description

用于转换后的数据的自修复机器学习***

技术领域

本申请总体上涉及技术上有创造性的非常规解决方案，这些解决方案必须植根于计算机技术并产生具体的技术改进。具体地，本申请涉及提供个性化的游戏玩家预测的端到端基于云的机器学习平台。

发明背景

机器学习能够分为不同的任务，诸如监督学习、无监督学习、深度学习、强化学习和推荐***，所述不同的任务能够用于各种各样的计算机应用，诸如在线个性化推荐、计算机视觉、语音辨识、互联网搜索引擎、个人助理和自动驾驶汽车。

如本文中所理解的，机器学习尤其适合于诸如计算机游戏之类的计算机模拟的情景，其中游戏开发者通过“重新想象”人们如何玩游戏而不断创新，而游戏玩家在他们交互、消费和购买游戏方面的行为却不断变化。

发明内容

本原理涉及对可能促成机器学习模型的离线或在线预测(特别是在做出与诸如计算机游戏的计算机模拟中的个性化体验有关的预测时)的改变的根本原因的检测和补救。本文在示例性实施方案中描述的模型学习如何提供个性化的游戏体验，诸如向给定用户推荐游戏，向用户推荐更好地玩游戏的提示或向用户推荐游戏活动。机器学习管道为特征和模型生成数据沿袭。游戏玩家的行为可能随时改变。这可能导致模型预测的性能发生变化。下文描述的“自修复”***检测那些变化并提供对那些变化的补救，使得即使玩家的行为发生了变化，玩家的体验仍然是个性化的。

本原理解决了上述挑战中的一个或多个挑战。

因此，一方面，一种设备包括：至少一个处理器；以及至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬时信号并且反过来包括指令，所述指令能够由所述处理器执行以执行有权访问历史原始数据、模型特征、特征元数据和模型元数据的决策树模型或序列模型，以识别计算机游戏的用户行为的变化和模型预测的变化从而向用户做出推荐。所述决策树模型至少部分通过以下操作来这么做：针对至少第一预测模型，确定变化是否与和所述第一预测模型相关联的模型质量度量相关联。响应于确定变化与和所述第一预测模型相关联的所述模型质量度量相关联，所述指令能够执行以用于生成致使所述决策树模型使用特征分布统计信息来深入研究所述变化的原因的信号。另一方面，响应于确定变化不与和所述第一预测模型相关联的所述模型质量度量相关联，所述指令能够执行以用于生成确定特征按重要性的排名是否已改变的信号。

此外，所述指令能够执行以用于致使所述决策树模型响应于确定所述特征按重要性的排名已改变，确定关于特征分布的统计信息是否已改变，以及响应于确定关于特征分布的统计信息已改变，生成指示用户行为可能已改变的信号。相反，响应于确定关于特征分布的统计信息未改变，指示健康的***。另外，响应于确定所述特征按重要性的排名未改变，指示健康的***。

在示例性实施方案中，所述指令可能够执行以识别用于生成模型特征标记(indicia of model feature)的数据集的属性已改变，并且作为响应，自动将数据回填到所述模型特征标记中以补偿机器学习管道的处理延迟。所述指令可能够执行以识别用于生成所述模型特征标记的数据集的属性未改变，并且作为响应，重新训练所述第一预测模型。

在一些实现方式中，上面提到的所述序列模型可包括：深度学习***；用于输入到所述深度学习***的原始数据分布统计信息；用于输入到所述深度学习***的特征数据，所述特征数据包括特征数据分布统计信息、所述模型中的相应特征的重要性和特征部署的状态；用于输入到所述深度学习***的监测数据，所述监测数据包括计算机部件使用、已处理的请求和机器学习作业的时间特性。而且，所述序列模型可包括用于输入到所述深度学习***的模型数据，所述模型数据包括模型性能度量测度和模型元数据度量。所述深度学习***输出针对机器学习管道的自修复措施的推荐。

在示例性实施方案中，所述序列模型的所述深度学习***包括至少第一层长短期记忆(LSTM)单元，所述第一层LSTM单元用于监测来自数据沿袭基础设施的原始数据、特征数据和管道数据。所述序列模型还可包括：至少第二层LSTM单元，所述第二层LSTM单元用于监测模型数据；以及至少第三层LSTM单元，所述第三层LSTM单元用于为注意力层监测前两层。所述注意力层使得所述深度学习***能够学习将“注意力”放在哪里，并且能够学习如何通过调整它指派给各种输入的权重来这么做。softmax分类器从所述注意力层接收输入并输出多个措施的相应概率。

在非限制性示例中，所述概率中的至少第一概率由下式给出：

并且假设α^<t,t’>是分类器的输入y_i ^<t>在时间t应给予先前的LSTM监测层的激活a^<t’>和c^<t>的注意力的量，如由下式确定：

c^<t>＝

我们有

其中∑_t′α^＜t,t’＞＝1

所述序列模型可离线地执行，在这种情况下，所述序列模型的输入可包括每日模型性能度量、模型元数据度量、每日特征分布统计信息、每日原始数据分布和管道监测数据。当离线时，所述序列模型可输出以下各项中的一项或多项的由所述softmax分类器生成的最高概率：无措施；自动重新训练至少一个模型；开发至少一个新模型；创建至少一个新特征；添加数据；以及指示用户行为的变化。

此外，所述序列模型可在线地执行，在这种情况下，所述序列模型的输入可包括以下各项中的一项或多项：每小时模型性能度量、在线模型元数据度量、指示所有特征均可用于所述模型的特征部署状态，以及在线特征元数据度量。当在线时，所述序列模型可输出以下各项中的一项或多项的由softmax分类器生成的最高概率：无措施；重新部署默认模型；请求对模型特征的变化；以及指示用户行为的变化。

在另一方面，一种计算机***被配置为执行包括深度学习***的计算机化的序列模型。可将原始数据分布统计信息与用于输入到所述深度学习***的特征数据一起输入到所述深度学习***，所述特征数据包括特征数据分布统计信息、所述模型中的相应特征的重要性和特征部署的状态。而且，可将包括计算机部件使用、已处理的请求和机器学习作业的时间特性的监测数据输入到所述深度学习***。此外，可将包括模型性能度量测度和模型元数据度量的模型数据输入到所述深度学习***。所述深度学习***输出针对机器学习管道的自修复措施的推荐。

在另一方面，一种设备包括：至少一个处理器；以及至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬时信号并且反过来包括指令，所述指令能够由所述处理器执行以用至少一种计算机模拟来跟踪用户交互以生成特征。所述指令能够被执行以跟踪所述特征和版本、时间上下文、度量以及与所述特征的模型的关系；跟踪负责生成所述特征的至少一条祖先线；以及使用跟踪用户交互、特征和祖先线的输出，将用户特征和用户交互的生命周期进行组合以输出针对机器学习管道的自修复措施的至少一个推荐。

本申请的关于其结构和操作两者的细节可参考附图得到最好的理解，在附图中相同的附图标记指代相同的部分，并且在附图中：

附图说明

图1是自修复***的示例性体系结构的框图，该自修复***包括其模型性能监测***、其数据沿袭基础设施、其决策树模型以及其序列模型；

图2是示出使用提供离线或在线服务的管道来从用户交互和游戏数据生成特征ETL并将特征元数据存储在特征存储区中的特征的数据转换的示意图，其中特征能够从存储在数据湖中的数据离线地生成或在从发布或订阅馈送流式传输数据时在线地生成；

图3是模型的数据转换的示意图，其中管道提供用以训练模型的训练服务，以及用于使模型提供其预测的推断服务，并且其中模型元数据存储在模型存储区中；

图4是示出与项目的示例性非限制性用户交互以及与其他用户的用户交互的屏幕截图；

图5示出了图1的决策树模型的示例，该模型用于在各种情景中通过自修复***对决策进行分类；

图6是图1的序列模型的示例性体系结构的框图，该序列模型包括具有其特征的深度学习***以及提供补救措施的深度学习***的输出；

图7是可由图6的序列模型实现的长短期记忆(LSTM)单元的体系结构的示意图；

图8是序列模型深度学习***的更详细体系结构的示意图，其示出了原始数据、特征数据、管道数据和模型数据的***的特征、三个LSTM层网络以及相关的注意力层；

图9是图8所示的注意力层的示例性体系结构的示意图，其包括向注意力层提供输入的注意力向量、注意力层的LSTM网络以及用以对补救措施进行分类的softmax分类器；

图10是符合本原理的基于云的机器学习平台的网络体系结构的框图；并且

图11是符合本原理的数据中心体系结构的框图。

具体实施方式

本公开总体上涉及计算机生态***，其包括消费型电子器件(CE)装置网络的各方面，所述CE装置网络诸如但不限于：分布式计算机游戏网络、增强现实(AR)网络、虚拟现实(VR)网络、视频广播、内容递送网络、虚拟机、机器学习和人工神经网络应用。

本文的***可包括服务器和客户端部件，所述服务器和客户端部件通过网络连接使得可在客户端与服务器部件之间交换数据。客户端部件可包括一个或多个计算装置，所述一个或多个计算装置包括AR耳机、VR耳机、游戏控制台(诸如Sony

)和相关母板、游戏控制器、便携式电视(例如智能TV、支持互联网的TV)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文所论述的额外实例)。这些客户端装置可以多种操作环境操作。例如，客户端计算机中的一些可采用例如Orbis或Linux操作***、来自Microsoft的操作***，或Unix操作***，或由Apple公司或Google生产的操作***。这些操作环境可用于执行一个或多个程序/应用程序，诸如由Microsoft或Google或Mozilla制作的浏览器，或可访问由下文所论述的互联网服务器托管的网站的其他浏览器程序。此外，根据本原理的操作环境可用于执行一个或多个计算机游戏程序/应用程序和采用本原理的其他程序/应用程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置为通过诸如互联网的网络接收和传输数据。另外地或替代地，客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台和/或其一个或多个母板(诸如Sony

)、个人计算机等实例化。

可通过网络在客户端与服务器之间交换信息。为此并且为了安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储装置和代理，以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成实现根据本原理向网络用户提供诸如在线社交网站或视频游戏网站的安全社区以众包地通信的方法的设备。

如本文所使用，指令是指用于在***中处理信息的计算机实现的步骤。指令可在软件、固件或硬件中实现，并且包括由***的部件实施的任何类型的已编程步骤。

处理器可以是能够借助于诸如地址线、数据线和控制线的各种线以及寄存器和移位寄存器执行逻辑的任何常规的通用单芯片处理器或多芯片处理器。

通过本文的流程图和用户界面描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下，被陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

如上文所指示，本文所述的本原理可实现为硬件、软件、固件或它们的组合；因此，依据说明性部件、框、模块、电路和步骤的功能性对它们进行阐述。

除上文已经提到的内容之外，下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或被设计来执行本文所述功能的其他可编程逻辑装置(诸如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或它们的任何组合)来实现或执行。处理器可由控制器或状态机或计算装置的组合实现。

以下描述的功能和方法可在硬件电路或软件电路中实现。当在软件中实现时，所述功能和方法可以诸如但不限于Python、Scala、Java、C#或C++的适当语言编写，并且可存储在计算机可读存储介质上或通过计算机可读存储介质传输，诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、压缩光盘只读存储器(CD-ROM)或其他光盘存储装置(诸如数字通用光盘(DVD))、磁盘存储装置或包括可移除拇指驱动器的其他磁性存储装置等。连接可建立计算机可读介质。此类连接可包括例如硬连线电缆，包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可包括无线通信连接，包括红外线和无线电。

一个实施方案中所包括的部件可以任何适当的组合用于其他实施方案中。例如，可将本文所述和/或附图中所描绘的各种部件中的任一者组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的***”(类似地，“具有A、B或C中的至少一者的***”和“具有A、B、C中的至少一者的***”)包括以下***：仅具有A；仅具有B；仅具有C；同时具有A和B；同时具有A和C；同时具有B和C；和/或同时具有A、B和C等。

一般来说，本原理理解机器学习模型的开发需要多个工作流程。首先需要训练机器学习模型，以便将其预测提供给应用程序。模型训练涉及模型特征的选择和机器学习算法。

特征是通过ETL(提取、转换和加载)服务生成的。ETL的目标是从初始原始数据集中提取相关数据。在监督学习(诸如数据集的回归和分类)中，模型训练需要通过找到训练集的标签数据或输出数据与模型预测之间的差异的最小值来定位模型参数或权重。该差异称为成本或损失函数，而找到所述最小值的算法称为梯度下降。可使用梯度下降算法，诸如批量梯度下降、随机梯度下降和小批量梯度下降。

另一方面，在无监督学习(诸如数据集的聚类)中，没有标签数据。模型的训练旨在发现数据中的模式。虽然模型参数是由算法生成的，但是模型训练需要许多需要由建模者进行调谐的超参数。“模型参数”通常是通过学习算法(诸如梯度下降)优化的内部变量、系数或权重。模型参数的示例包括线性回归、逻辑回归和支持向量机中的权重向量系数、决策树中的***点。相反，“超参数”通常由建模者设置或经由算法方法进行调谐以优化模型的性能。超参数的示例包括k近邻算法中的近邻的数量k、决策树中的树的深度、神经网络中的学习率，或在卷积神经网络中的给定卷积层中学习的过滤器的数量。

当模型已经被训练，例如已经找到模型参数，并且模型已经被验证，例如已经调谐模型超参数时，可对模型进行测试。测试模型需要理解模型在它之前从未见过的实例上表现如何以便避免过拟合或欠拟合。如果模型过拟合，则该模型在训练数据上的表现很好，但是不能很好地泛化。如果模型欠适合，则该模型过于简单而未习得数据集的基础结构。

如本文所理解的，机器学习管道可用于通过利用大规模数据处理基础设施来使机器学习工作流程从头到尾自动化，以便以自动化方式促进从原始数据生成特征ETL、特征到模型预测的数据转换以及在生产环境中部署经过训练的模型以进行推断。数据管道使建模者能够更快地从生成特征ETL移动到监测其在生产环境中的模型预测。当模型已被训练、验证和测试时，可将所述模型部署在生产环境中以向应用程序提供推荐。

在生产中，必须监测模型性能。对于标准算法(诸如回归或分类)，可使用标准度量来监测模型性能，诸如回归的均方根误差或分类的精确率、召回率和F1得分。

在用于提供个性化的玩家体验的机器学习模型的情景中，本原理涉及以下认知。当游戏开发者通过重新想象人们如何玩游戏而进行创新时，诸如数字游戏、数字内容、游戏移动应用程序、游戏视频之类的游戏项目时常发生变化。并且，游戏玩家在交互、消费和购买游戏方面的行为不断变化。如本文所理解的，在那种情景下，即使已经适当地训练、验证和测试了模型，用于使游戏体验个性化的模型性能也可能随时改变。建模者没有任何方法来阐明模型表现的原因。因此，需要为游戏用户和游戏项目生成新特征ETL，并且需要对个性化模型进行重新训练、验证和测试。

当前，在没有本文提出的原理的情况下，尚未解决该挑战。通常，选择正确的特征对模型预测的质量的影响比模型算法本身更大。尽管不同类型的算法可能产生略好的模型预测，但对于特征却并非如此，并且在没有将用于生成特征ETL的原始数据输入的变化、用于生成模型特征和训练模型的数据转换的变化与随时发生变化的模型性能本身关联起来的机制的情况下，在本原理之前没有任何方法来评估推断的模型性能变化的根本原因。如本文所理解的，必须监测一个以上参数。例如，仅监测特征或模型需要很长时间才能发现表现不好的模型的根本原因，而仅监测数据管道无法预见原始游戏玩家和/或游戏项目数据的变化。因此，本原理有助于调试和提高端到端模型性能。

本文描述了一种用以监测模型预测、识别不健康的数据转换的可能的根本原因并提出补救措施的自修复***。自修复***将所有类型的数据转换中涉及的所有转换后的数据的生命周期关联起来。一起分析用于生成特征的原始数据、用于生成模型的特征、模型预测以及数据管道。利用该历史数据，检测模型性能变化的可能的根本原因，并通过自修复***的模型提出解决问题的适当措施。

如图1所示，符合本原理的***具有四个组成部分。模型性能和监测***100跟踪模型预测的质量的任何变化。模型性能和监测***100可决定采用下面描述的决策树模型还是下面描述的序列模型。如果***所具有的历史数据量少于阈值，例如少于18个月，则自修复***请求决策树模型。另一方面，如果***所具有的历史数据量多于阈值，则自修复***请求序列模型。

用于特征和模型的数据沿袭基础设施102将转换后的数据(例如，生成的特征和模型预测)的生命周期与游戏玩家和游戏项目交互的生命周期进行比较。监测***100和数据沿袭基础设施102两者都向在相对较小的历史数据集上进行操作的决策树模型104提供输入，以为离线模型预测确定补救措施的过程。此外，监测***100和数据沿袭基础结构102两者都针对相对较大的历史数据集向序列模型106提供输入，序列模型106使用为离线和在线模型预测两者确定补救措施的过程的注意力机制。

监测***100持续地跟踪模型质量度量(在本文称为模型WPAE)的任何显著变化，所述模型质量度量通过阈值进行测量并由自修复***的管理员建立。“WPAE”度量的细节在本受让人的以引用的方式并入本文中的美国专利申请序列号16/424,193中进行了阐述。相反，数据沿袭基础设施102持续地跟踪数据、它们的版本、时间上下文以及与在机器学习管道中发生的任何数据转换相关联的度量。数据沿袭基础设施102还持续地跟踪游戏玩家与游戏项目以及游戏玩家与其他游戏玩家的交互变化。通过分析来自数据沿袭基础设施的数据，决策树模型104能够诊断离线模型预测何时已改变以及产生该改变的原因。因此，它能够针对正确的原因预测正确的措施，诸如生成新的特征ETL、重新训练模型、重新设计模型或警示游戏玩家行为变化。

类似地，通过分析来自数据沿袭基础设施102的数据，序列模型106能够诊断离线或在线模型预测何时已改变以及产生该改变的原因。因此，它能够针对正确的原因预测正确的措施，诸如生成新的特征ETL、重新训练模型、重新设计模型或警示游戏玩家行为变化。

图1还示出了数据沿袭基础结构102访问含有游戏数据和历史用户交互数据的一个或多个数据存储区108(在图1中称为“湖”)。另一方面，数据沿袭基础设施102可从一个或多个发布和订阅馈送源110访问实时用户交互数据。此外，数据沿袭基础设施102访问下面描述的机器学习管道的特征存储区和模型存储区数据结构112。图1(以及其他附图)中的每个框可由一个或多个处理器和一个或多个计算机存储装置的相应组合来实现，本文揭露所述处理器和计算机存储装置的非限制性示例。

本文公开的***监测部署在生产环境中的每个模型的预测的性能。数据沿袭基础设施102跟踪数据转换的所有阶段，从原始数据到模型特征，从模型特征到经过训练的模型，以及从经过训练的模型到部署在生产中的模型。自修复***还关联转换后的数据的生命周期。原始数据、特征数据、模型数据和数据管道数据都彼此相互关联。利用该历史知识，自修复***检测任何模型性能变化的可能的根本原因，并且提出适当的措施来解决任何检测到的问题。

转到图2，示出了使得建模者能够生成特征ETL的机器学***均数、平均值、最大值、最小值和标准差，特征与其他特征的关系以及特征与模型的关系。

如图3所示，管道还使得建模者能够大规模地开发、训练和部署机器学习模型。将特征输入到可离线或在线的模型训练服务300，并且在被训练之后，模型可在推断服务302中提供其预测。训练服务300和推断服务302两者都能够生成一个或多个数据结构304，数据结构304含有针对多个模型从两个服务生成的模型元数据306。

管道可以是多租户的，并且能够同时训练大量模型。在训练之后，模型能够同时向许多在线或离线应用程序提供其预测。对于模型训练，管道提供许多现成的标准机器学习库，这些库实现多种类型的算法。对于模型推断，管道的模型推断服务302将模型部署提供给多种类型的生产环境。

图2和图3所示的管道生成模型和特征元数据。模型元数据是在训练模型时或在模型在推断中提供其预测时生成的。特征元数据可于在管道中生成每个ETL之后生成。

模型元数据306针对每个模型可包括模型算法、模型体系结构(尤其是针对深度学***均数)。元数据306还可包括用于推荐的模型预测的相关性，如通过例如本文讨论的WPAE度量所测量。

管道模型向游戏玩家提供个性化的游戏体验。那些预测的示例包括但不限于仅在游戏玩家的主页上向他推荐一系列游戏。预测还可包括通过推荐提示(诸如观看视频)以学习如何在游戏的特定时刻玩得更好来帮助游戏玩家提高他的玩法。此外，预测可包括在玩家新闻馈送中推荐有关游戏的故事，并向游戏玩家推荐游戏活动，诸如特定事件或锦标赛。

图4使用第一屏幕截图400和第二屏幕截图402通过示出与项目的示例性非限制性用户交互以及与其他用户的用户交互来示出图1所示的数据沿袭基础设施102。如屏幕截图400所示，跟踪用户与游戏数据的交互，包括用户购买游戏和游戏中提供的项目、用户玩游戏、用户观看游戏、用户评论游戏、用户与其他用户共享游戏，以及用户在游戏中的停留时间。当用户观看显示器406上的游戏时，基于通过例如游戏控制器404进行的用户输入来记录这些交互，其中用户输入被记录并与软件中的游戏事件相关联以知晓控制器404上的用户输入在交互类型方面确切地表示什么内容。

另一方面，屏幕截图402示出了用户与用户的交互，包括用户与其他用户加好友、关注其他用户，以及再分享最初由共享用户提供的计算机模拟共享。下文进一步描述的自修复***的决策树模型和序列模型利用数据沿袭基础设施102。

鉴于上述情况，可了解，数据沿袭基础设施102持续地跟踪直接的原始游戏数据和游戏玩家交互数据，并且特别跟踪包括游戏发布日期、玩游戏的年龄限制、游戏类型、游戏关键词/元数据、地域和游戏语言的游戏数据。还跟踪包括用户的地域、用户的语言、用户的年龄、用户的会员类型以及用户的电子钱包余额的用户数据。跟踪用户与游戏的交互，包括玩游戏命令、购买订单、用户观看游戏、用户花在游戏广告上的停留时间、与游戏相关的用户喜好指示、用户对游戏的评论以及用户对游戏的再分享。此外，数据沿袭管道102跟踪用户与用户的交互，包括加好友、关注和再分享。

例如通过用户游戏控制台/游戏控制器将输入传达给互联网上的一个或多个服务器并存储在如上面讨论的图1的框108所指示的“数据湖”或通常托管在互联网上的存储装置上的数据存储库中来收集以上信息。数据用于生成离线特征ETL。注意，还可如关于图1的框110所描述的那样通过发布和订阅馈送实时地传输用户交互。在那种情况下，特征ETL是从那些流式传输的交互在线生成的。

数据沿袭基础设施102持续地跟踪负责生成在训练模型时直接涉及的特征ETL的祖先线。它跟踪ETL本身生成的特征、它们的版本、它们的时间上下文、特征数据分布统计信息、它们与其他ETL的依赖关系以及它们与模型的关系。历史特征元数据被存储在特征存储区中，如关于图1的框112所描述。数据沿袭基础设施102还在对基线模型的训练与推断期间持续地跟踪模型性能度量。它跟踪每个特征对于每个模型的重要性，以及一个模型何时与其他模型具有依赖关系。历史模型元数据被存储在模型存储区中，如关于图1的框112所描述。

对问题的检测和对该问题的补救是通过两个机器学习模型完成的：图1所示的决策树模型104和图1所示的序列模型106，这两者都通过访问来自数据沿袭基础设施102的信息来完成。

图5示出了决策树模型104的更多细节。通常，通过利用来自数据湖、特征存储区和模型存储区的历史数据，***可将用于生成特征ETL、训练模型和部署模型的转换后的数据的生命周期与用户与游戏的交互和用户与用户的交互的生命周期进行比较。通过将特征和模型的生命周期与用户与游戏或其他用户的交互的生命周期进行组合，自修复***能够发现用户行为的转变以及模型预测的转变。

决策树模型104的树可利用基尼不纯度测度进行训练：

其中p_i,k是第i个节点中的训练实例中的类别k的比率。

训练算法可使用分类和回归树(CART)算法，该算法将以下成本函数最小化：

其中G_左/右测量左/右子集的不纯度，而M_左/右是左/右子集中的实例的数量。

决策树模型104的目标是对自修复***在某些条件下采取的各种措施进行分类。

鉴于上述情况，如框500所示，确定模型质量度量(例如，上面讨论的WPAE)的改变是否达到数据管道管理员定义的给定阈值，诸如百分之五(5％)。如果是，则模型移动到框502以确定特征分布统计信息是否已改变。因此，在框502处，决策树模型分析关于特征分布的统计信息。但是，如下面还将进一步解释的那样，即使模型WPAE未改变，自修复***仍请求模型每天或每周调查***是否从头到尾为健康的。

如果在框504处确定用于生成特征ETL的原始数据集的大小已改变，并且在框506处确定存在管道延迟，则逻辑移动到状态508以自动将原始数据回填到特征ETL中以补偿管道作业处理延迟。

另一方面，如果在框506处确定在如框504处所确定的数据集大小改变存在的情况下不存在管道延迟，则逻辑移动到状态510以向为与本文的原理一致的数据收集开发网络客户端的模型工程团队生成听觉或视觉警示。客户端遥测数据可能丢失，在这种情况下，可向客户端工程团队请求票证，以使该团队调查丢失数据的问题。

相反，如果在框504处确定用于生成特征ETL的原始数据集的大小未改变，则逻辑移动到状态512以触发模型自动进行重新训练。

类似地，如果在框502处确定特征分布统计信息的改变尚未达到阈值量，则模型的逻辑可移动到状态514，以在框500处确定的WPAE变化存在的情况下触发模型自动进行重新训练。注意，状态508、510、512、514和520处的措施是“自修复推荐”的示例。

然而，即使如在框500处所确定，模型WPAE未改变，模型逻辑也可移动到框516以确定即使当WPAE没有改变时特征重要性排名是否已转变。可以这样做来每天或每周调查***是否从头到尾为健康的。因此，在框516处，可确定特征按重要性的排名是否已经改变。自修复***可触发模型自动进行重新训练。另外地或可选地，如果如框516处所确定，模型的特征的重要性排名已经转变，则模型逻辑可在框518处确定关于特征分布的统计信息是否已改变。如果特征分布统计信息已改变，则逻辑可移动到状态520，以向建模者发送调查原始数据分布中的任何变化并警示营销部门用户行为可能已改变的听觉或视觉请求。

另一方面，如果在框518处确定特征分布统计信息尚未改变，则逻辑可移动到状态522以指示整个***是健康的。同样，如果在框516处确定特征按重要性的排名尚未改变，则逻辑可移动到状态524以指示整个***是健康的。

图6示出了序列模型106的示例性体系结构。当已经获取足够的历史数据集时，序列模型106可由自修复***用于离线和在线模型预测。这可能需要长达18个月的原始数据。

如图6所示，序列模型106可用深度学习***600来实现。输入到深度学习***600的特征可包括原始数据分布统计信息602。这些统计信息可包括游戏数据和用户数据分布统计信息以及从数据沿袭基础设施102的数据湖得到的用户与游戏和用户与用户的交互分布统计信息。深度学习***600还可访问特征数据604，特征数据604包括特征数据分布统计信息、模型中的相应特征的重要性和特征部署的状态。

此外，深度学习***600还可访问管道监测数据606，管道监测数据606包括机器学习管道对CPU/存储器/实例的使用、管道处理的请求和管道中的机器学习的时间/持续时间/等待时间。管道监测数据606还可包括记录原始数据时的误差/警告和正在执行的机器学习作业的数量。

深度学习***600还可访问模型数据608。模型数据可包括依模型WPAE的模型性能度量测度和模型元数据度量。

深度学习***600的输出包括自修复***的推荐的补救措施610。

序列模型106的深度学习***600可利用称为长短期记忆(LSTM)网络的递归神经网络(RNN)的变型来实现。RNN是提供有效且可扩展的模型以用于基于序列数据进行预测的一类神经网络。RNN将来自当前时刻的输入以及来自记忆层的输入进行组合来提供决策。

然而，如本文所理解的，当被训练时，RNN可能遭受梯度消失和梯度***。发生这种情况的原因在于，RNN由于相对于部署在RNN网络中的若干个层可能呈指数形式递减或递增的乘性梯度而无法捕获长期依赖性。

理解自修复***的目标是从大的历史数据集中学习做出相关预测，LSTM网络通过利用特定门来解决RNN的梯度消失和梯度***的问题。LSTM在捕获特征数据的长期时间依赖性方面非常有效。

实际上，现在参考图7，示出了LSTM单元700，它使用四种类型的门，如下表所描述：

门的类型	门的作用
		更新门(702)Γ<sub>u</sub>	过去对于现在有多重要？
相关门(704)Γ<sub>r</sub>	丢弃以前的信息？
		遗忘门(706)Γ<sub>f</sub>	是否擦除胞元？
输出门(708)Γ<sub>o</sub>	揭示胞元多少内容？

图7示出了这四个门如何集成到LSTM单元中，其中：

x^<t>710是单元的输入向量，a^<t-1>712是先前胞元输出，c^<t-1>714是先前胞元记忆，a^<t>716是当前胞元输出，并且c^<t>718是当前胞元记忆。

当前胞元输出716可利用以下公式计算，其中符号*表示两个向量之间的逐元素相乘：

a^<t>＝Γ_o*c^<t>

当前胞元记忆718可利用以下公式计算：

其中

可通过以下表达式计算：

其中W_c是权重并且b_c是偏置。

鉴于LSTM的上述结构，现在请注意图8，该图示出在一个示例中，序列模型106的深度学习***600包括三层LSTM单元。前两层800、802是监测层，所述监测层监测原始数据、特征数据、管道数据804和模型数据806。

第三LSTM层808为注意力层810提供整体监测。注意力层810使得序列模型106的深度学习***600能够学习将“注意力”放在哪里，并且能够学习如何通过调整它指派给来自整体监测层808的各种输入的权重来这么做。

如图8所示，注意力层810对整体监测层808中的不同的LSTM胞元的输出进行加权，并将其计算出的输出输入到softmax分类器812，softmax分类器812输出每种可能措施的概率，由下式给出：

关于上文，假设α^<t,t’>是分类器的输入y_i ^<t>在时间t(其中t如所示沿着x轴从左向右前进)应给予先前的LSTM监测层的激活a^<t’>和c^<t>(即上下文)的注意力的量，如由下式确定：

c^<t>＝∑_t′α^＜t,t’>a^＜t’>

我们有

其中∑_t′α^＜t,t’＞＝1

图9示出了注意力层810的LSTM单元利用注意力向量900并向如上文描述的softmax分类器812提供输入，softmax分类器812输出补救措施902。对于离线模型，序列模型的输入可包括每日模型WPAE和模型元数据度量、每日特征分布统计信息、每日原始数据分布和管道监测数据。由离线序列模型106输出的补救措施902可包括以下措施中的一种或多种的由序列模型的softmax分类器812生成的最高概率：

健康的***-自修复***无措施；

重新训练模型–自修复***将自动重新训练模型；

开发新模型–自修复***警示建模者可能需要新模型；

创建新特征–自修复***警示建模者需要为模型生成新特征；

在丢失的数据上回填作业数据–自修复***自动将原始数据回填到特征ETL中；以及

用户事件检测-自修复***请求调查原始数据分布的任何变化，并警示营销部门用户行为可能已改变。

另一方面，对于在线序列模型106，序列模型的输入可包括每小时模型性能(诸如点击项目的次数或游戏玩家的购买次数)、在线模型元数据度量、指示所有特征均可用于模型以使模型返回其预测的特征部署状态以及在线特征元数据度量。在线序列模型106的输出(补救措施902)可包括以下措施中的一种或多种的由序列模型的softmax分类器812生成的最高概率：

健康的***-自修复***无措施；

还原已部署的模型–自修复***在生产中重新部署默认模型；更新在线特征-自修复***请求建模者改变模型中的特征；以及

现在参考图10，示出了示例性***，所述***可包括根据本原理的本文提到的用于执行本文献中描述的技术的示例性装置中的一个或多个装置。如图所示，***可包括一个或多个区域数据中心10，所述一个或多个区域数据中心中的每个区域数据中心包括具有伴随处理器以及固态存储器和磁盘存储器的一个或多个服务器。所述服务器建立用于执行其中在多个数据中心上执行机器学***台的基于云的***。区域数据中心经由有线链路和/或无线链路16与一个或多个计算机化前端装置18(诸如执行网络浏览器的计算机(膝上型计算机、PC等)、在移动装置上执行的移动应用程序或诸如游戏控制台的计算机模拟控制台)通信。

因此，如图10所示，从“云”提供用于使游戏体验个性化的机器学习管道。机器学习管道通过由区域数据中心10托管的云后端中的大量计算机集群执行。所有模型训练和模型推断都发生在后端。将模型预测提供到前端应用程序，诸如在包括网络浏览器的装置18上运行的前端应用程序、游戏控制台或移动应用程序中的任一者。所有前端应用程序都通过互联网网络16与云后端通信。每个集群可能包括物理上位于一个或多个服务器场中的大量计算机服务器，所述服务器场位于一个或多个地理上分散的数据中心中。

典型的体系结构可包括分布在全球的大量区域数据中心，其中一个或多个区域数据中心位于北美、欧洲中东和非洲、日本以及世界上其他地区。

如图11所示，每个数据中心可包括用以管理从前端应用程序18到多个服务器场23的网络请求的一个或多个负载平衡器20，以及保护服务器25免受外部安全威胁的一个或多个威胁检测和防火墙工具22。尽管大多数数据是移动的且被生成并且可以可易于由服务器场中的集群访问和操纵的各种数据格式(诸如Apache Parquet)存储在大型文件***(诸如Apache Hadoop分布式文件***(HDFS))中，但是一些数据可能为静止的，并且物理地存储在数据中心中的网络附接存储装置(NAS)24上。

计算机化的前端装置18可包括一个或多个显示器、用于根据本原理输出音频的一个或多个扬声器、一个或多个输入装置、一个或多个网络接口、一个或多个输入端口(诸如以物理方式(例如，使用有线连接)连接到另一个CE装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或连接耳机的耳机端口)、一个或多个计算机存储器(例如基于磁盘的存储装置或固态存储装置)、位置或定位接收器、一个或多个相机等。

应了解，虽然已经参考一些示例性实施方案描述了本原理，但这些实施方案并不意图为限制性的，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种设备，所述设备包括：

至少一个处理器；以及

至少一个计算机存储装置，所述至少一个计算机存储装置不是瞬时信号并且包括指令，所述指令能够由所述至少一个处理器执行以：

执行有权访问历史数据、模型特征和模型元数据的决策树模型，以至少部分通过以下操作来识别计算机模拟的用户行为的变化和模型预测的变化以向用户做出推荐：

针对至少第一预测模型，确定变化是否与和所述第一预测模型相关联的模型质量度量相关联；

响应于确定变化与和所述第一预测模型相关联的所述模型质量度量相关联，生成致使所述决策树模型或序列模型使用特征分布统计信息来深入研究所述变化的原因的信号；

响应于确定变化不与和所述第一预测模型相关联的所述模型质量度量相关联，生成起始***健康检查的信号，所述***健康检查包括确定特征按重要性的排名是否已改变；

响应于确定所述特征按重要性的排名已改变，确定关于特征分布的统计信息是否已改变；

响应于确定关于特征分布的统计信息已改变，生成指示用户行为可能已改变的信号；

响应于确定关于特征分布的统计信息未改变，指示健康的***；以及

响应于确定所述特征按重要性的排名未改变，指示健康的***。

2.如权利要求1所述的设备，其中所述指令能够执行以：

识别用于生成模型特征标记的数据集的属性已改变，并且作为响应，自动将数据回填到所述模型特征标记中以补偿处理延迟；

识别用于生成所述模型特征标记的数据集的属性未改变，并且作为响应，重新训练所述第一预测模型。

3.如权利要求1所述的设备，其中所述序列模型包括：

深度学习***；

用于输入到所述深度学习***的原始数据分布统计信息；

用于输入到所述深度学习***的特征数据，所述特征数据包括特征数据分布统计信息、所述模型中的相应特征的重要性和特征部署的状态；

用于输入到所述深度学习***的监测数据，所述监测数据包括计算机部件使用、已处理的请求和机器学习的时间特性；以及

用于输入到所述深度学习***的模型数据，所述模型数据包括模型性能度量测度和模型元数据度量；

所述深度学习***输出针对机器学习管道的补救措施的推荐。

4.如权利要求3所述的设备，其中所述深度学习***包括：

至少第一层长短期记忆(LSTM)单元，所述第一层LSTM单元用于监测来自数据沿袭基础设施的原始数据、特征数据和管道数据；

至少第二层LSTM，所述第二层LSTM用于监测模型数据；

至少第三层LSTM，所述第三层LSTM用于将对前两层的整体监测提供给注意力层；

所述注意力层，所述注意力层调整指派给来自先前的整体监测的输入的权重；以及

softmax分类器，所述softmax分类器用于从所述注意力层接收输入并输出多个措施的相应概率。

5.如权利要求4所述的设备，其中所述概率中的至少第一概率由下式给出：

其中α^<t,t’>是分类器的输入y_i ^<t>在时间t应给予先前的监测层的激活a^<t’>和c^<t>的注意力的量，如由下式确定：

c^<t>＝∑_t′α^<t,t’>a^<t’>

然后

其中∑_t′α^<t,t’＞＝1。

6.如权利要求4所述的设备，其中所述序列模型是离线的，并且所述序列模型的输入包括每日模型有效性度量、模型元数据度量、每日特征分布统计信息、每日原始数据分布和管道监测数据。

7.如权利要求6所述的设备，其中所述序列模型被配置为输出以下各项中的一项或多项的由所述softmax分类器生成的最高概率：无措施；自动重新训练至少一个模型；开发至少一个新模型；创建至少一个新特征；添加数据；以及指示用户行为的变化。

8.如权利要求4所述的设备，其中所述序列模型是在线的，并且所述序列模型的输入包括以下各项中的一项或多项：每小时模型性能、在线模型元数据度量、指示所有特征均可用于所述模型的特征部署状态，以及在线特征元数据度量。

9.如权利要求8所述的设备，其中所述序列模型被配置为输出以下各项中的一项或多项的由所述softmax分类器生成的最高概率：无措施；重新部署默认模型；请求对模型特征的变化；以及指示用户行为的变化。

10.一种计算机***，所述计算机***被配置为执行计算机化的序列模型，所述计算机化的序列模型包括：

深度学习***；

用于输入到所述深度学习***的原始数据分布统计信息；

所述深度学习***输出针对机器学习管道的补救措施的推荐。

11.如权利要求10所述的***，其中所述深度学习***包括：

至少第二层LSTM，所述第二层LSTM用于监测模型数据；

12.如权利要求11所述的***，其中所述概率中的至少第一概率由下式给出：

c^<t>＝∑_t′a^＜t,t’>a^＜t’>

然后

其中∑_t′α^＜t,t’＞＝1。

13.如权利要求10所述的***，其中所述序列模型是离线的，并且所述序列模型的输入包括每日模型有效性度量、模型元数据度量、每日特征分布统计信息、每日原始数据分布和管道监测数据。

14.如权利要求13所述的***，其中所述序列模型被配置为输出以下各项中的一项或多项的由softmax分类器生成的最高概率：无措施；自动重新训练至少一个模型；开发至少一个新模型；创建至少一个新特征；添加数据；以及指示用户行为的变化。

15.如权利要求10所述的***，其中所述序列模型是在线的，并且所述序列模型的输入包括以下各项中的一项或多项：每小时模型性能、在线模型元数据度量、指示所有特征均可用于所述模型的特征部署状态，以及在线特征元数据度量。

16.如权利要求15所述的***，其中所述序列模型被配置为输出以下各项中的一项或多项的由softmax分类器生成的最高概率：无措施；重新部署默认模型；请求对模型特征的变化；以及指示用户行为的变化。

17.一种设备，所述设备包括：

至少一个处理器；以及

用至少一种计算机模拟来跟踪用户交互以生成特征；

跟踪所述特征和版本、时间上下文、度量以及与所述特征的模型的关系；

跟踪负责生成所述特征的至少一条祖先线；

使用跟踪用户交互、特征和祖先线的输出，将用户特征和用户交互的生命周期进行组合以输出针对机器学习管道的补救措施的至少一个推荐。

18.如权利要求17所述的设备，其中所述指令能够执行以：

比较模型的生命周期与模拟用户交互的生命周期；以及

基于比较模型的生命周期与模拟用户交互的生命周期，将用户特征和用户交互的生命周期进行组合以输出针对所述机器学习管道的补救措施的至少一个推荐。

19.如权利要求17所述的设备，其中所述计算机模拟包括计算机游戏。

20.如权利要求19所述的设备，其中所述指令能够执行以：

至少部分通过识别用户在预定时间段内花费在购买计算机游戏上的金钱来识别包括用户购买所述计算机游戏的倾向的支出特征；

至少部分通过识别所述用户在预定时间跨度内花费在玩计算机游戏上的时间量来识别玩游戏特征。