CN111104959A

CN111104959A - 用于机器学习分类器产生的方法和装置

Info

Publication number: CN111104959A
Application number: CN201911026204.1A
Authority: CN
Inventors: T·巴塞尔; K·古利克森
Original assignee: Inspire Cognition Co Ltd
Current assignee: Inspire Cognition Co Ltd
Priority date: 2018-10-25
Filing date: 2019-10-25
Publication date: 2020-05-05
Also published as: US20200134510A1; US10810513B2

Abstract

本申请涉及用于机器学习分类器产生的方法和装置。一种方法包含执行第一聚类操作以将第一数据集中的成员分组到第一簇群组中并将所述第一簇群组中的每个簇与第一标记群组中的对应标记相关联。所述方法包含执行第二聚类操作以将组合数据集中的成员分组到第二簇群组中。所述组合数据集包含第二数据集和所述第一数据集的至少一部分。所述方法包含将所述第二簇群组中的一或多个簇与所述第一标记群组中的对应标记相关联并基于第二标记群组和所述组合数据集产生训练数据。所述方法包含基于所述训练数据训练机器学习分类器以将标记提供给第三数据集。

Description

用于机器学习分类器产生的方法和装置

技术领域

本申请大体上涉及机器学习。

背景技术

分类任务是一种可以使用机器学习执行的任务类型。在分类任务中，数据集中的每一成员被指派给数个不同群组或类别中的一个。一些分类任务可以使用监督学习来执行，其它分类任务可以使用无监督学习来执行。监督学习在事先已知划分每一数据的群组或类别时是有用的。例如，监督学习可用于产生机器学习分类器，以评估实时数据流并将数据流中的每一数据点指派给数个预定类别中的一个。使用监督学习技术产生机器学习分类器依赖于使用其中事先已知群组成员资格的一组训练数据。在监督学习的上下文中，训练数据通常被称为经标记训练数据或受监督训练数据。

无监督学习可以在事先不知晓数据被分组到的一组群组或类别时使用。相比于监督学习，无监督学习并不依赖于对经标记训练数据的存取。确切地说，无监督学习技术可用于使用未标记数据集基于数据集中的相似度或模式来确定数据点的分组。无监督环境的一个实例是一种被称为“聚类”的机器学习类型。

发明内容

本公开描述合作性地使用无监督学习和监督学习来产生和更新机器学习分类器的***和方法。在特定实施方案中，使用聚类操作分析一组未标记数据以识别簇，其中每一簇对应于在数据中表示的特定状态或条件。基于簇标记数据以产生经标记训练数据。在一些情况下，基于人为输入和专门知识标记数据。为了说明，可以咨询专家以识别由每一簇中的数据点表示的状态或条件，并且被专家指派给簇的标记与簇中的每一数据点相关联。因此，如果专家指示第一簇包含表示装置的第一正常操作状态(或在装置的第一正常操作状态期间搜集)的数据，那么，第一簇中的每一数据点标记为“第一正常操作状态”。由簇和标记操作产生的经标记数据用作受监督训练数据以产生机器学习分类器。

在训练机器学习分类器之后，机器学习分类器可用于对随后接收或分析的数据(即，不同于原始无监督训练数据的数据)进行分类。为了说明，在第一时间周期期间可能已经收集原始无监督训练数据，并且机器学习分类器可用于对在第一时间周期之后的第二时间周期期间收集的数据进行分类。

在一些情况下，原始无监督训练数据可能不包含对应于已产生数据的***的每个可能状态或条件。为了说明，如果数据包含通过监测机器产生的传感器数据，那么机器在期间搜集原始无监督训练数据的时间周期中可能没有经历全部正常操作状态和故障状态。作为另一说明性实例，由于机械磨损、正常传感器漂移等等，表示机器的正常操作状态的数据可随时间推移而漂移。在此实例中，不表示期间搜集原始无监督训练数据的时间周期中的特定正常操作状态的数据可在之后表示所述特定正常操作状态。因此，在此实例中，为了随时间推移对机器的操作状态进行精确分类，应该偶尔更新机器学习分类器。

更新机器学习分类器可能极其昂贵、费时且劳动密集。例如，按照上述步骤，需要专家在每次更新机器学习分类器时标记每个簇，因为用于更新机器学习分类器的受监督训练数据是从专家标记的簇导出的。本文中所描述的簇和标记映射技术可用于减少更新机器学习分类器所涉及的时间、支出和劳动。

在特定实施方案中，本文中所描述的簇和标记映射技术将基于第一聚类操作指派的标记映射到在第二聚类操作期间产生的簇。第一聚类操作和第二聚类操作是对不同(但可能重叠的)数据集执行的。例如，第一聚类操作可以在第一时间周期期间使用表示***或机器的第一数据集来执行，且第二聚类操作可以在第一时间周期之后的第二时间周期期间使用表示所述***或机器的第二数据集来执行。第二数据集可包含比第一数据集多的数据、比第一数据集少的数据。在一些实施方案中，第二数据集包含整个第一数据集。在其它实施方案中，第二数据集包含第一数据集的子集或部分。

因为数据集包含不同数据，所以第一聚类操作和第二聚类操作可以识别不同簇(或不同簇边界)。此外，许多聚类技术使用随机化操作，例如，以选择初始数目个簇中心或标示初始簇中心，这还可能会产生由第一聚类操作识别的簇和由第二聚类操作识别的簇之间的差异。本文中所描述的簇和标记映射技术识别来自第一聚类操作的簇和来自第二聚类操作的簇之间的共同性，以便将基于第一聚类操作指派的标记映射到来自第二聚类操作的对应簇。所识别的共同性可包含例如共同数据点、簇空间中的类似相对位置或其它类似特征，如下文进一步描述。因此，本文中所描述的簇和标记映射技术通过跨聚类操作保留信息而简化了更新机器学习分类器的过程。

附图说明

图1A和1B示出可用于执行多个聚类操作和产生机器学习分类器的***的特定实施方案；

图2示出根据本文中所公开的一或多个方面的特定聚类操作；

图3示出根据本文中所公开的一或多个方面的时间序列数据的聚类；

图4示出用于产生机器学习分类器的过程；以及

图5是说明在图1的***处操作的方法的特定实施例的流程图。

具体实施方式

参考图1A和1B，示出***100的特定说明性实例。***100或其部分可以使用一或多个计算装置来实施(例如，通过一或多个计算装置执行)，例如笔记本电脑、台式电脑、移动装置、服务器和物联网装置，以及利用嵌入式处理器和固件或操作***等的其它装置。在所示出的实例中，***100包含一或多个传感器102、计算装置110、显示装置108和装置150。

应理解，本文中描述为由各种指令或由机器学习分类器执行的操作可由执行指令或机器学习分类器的装置执行。在一些实施方案中，聚类操作和分类器产生操作在不同于机器学习分类器的装置、处理器(例如，中央处理器单元(CPU)、图形处理单元(GPU)或其它类型的处理器)、处理器核心和/或线程(例如，硬件或软件线程)上执行。此外，与聚类操作、分类器产生操作、图形用户接口(GUI)产生操作或经训练分类器相关联的特定操作可以并行执行，如本文进一步描述。

***100可用于基于输入数据迭代地产生和训练(或重新训练)机器学习分类器。图1A对应于训练第一机器学习分类器并使用第一机器学习分类器监测和控制装置150的***100的实例，图1B对应于训练(或重新训练)第二机器学习分类器并使用第二机器学习分类器监测和控制装置150的***100的实例。

传感器102配置成产生时间序列传感器数据。在一些实施方案中，传感器102耦合到装置(例如，机器)且配置成产生与装置150相关联的传感器读数(例如，测量值)。作为特定实例，传感器102包含配置成产生振动测量值的一或多个振动传感器。作为另一特定实例，传感器102包含配置成产生压力测量值的一或多个压力传感器。作为又一特定实例，传感器102包含配置成产生温度测量值的一或多个温度传感器。作为另一实例，传感器102包含配置成产生多种类型的测量值的混合传感器(例如，温度和压力传感器)。此类实例仅用于说明，并且在其它实施方案中，传感器102包含其它类型的传感器。装置150包含涡轮、压缩机、引擎、电机、发电机、另一类型的机器或装置，或其组合。尽管被描述为单个装置，但是在其它实施方案中，装置150包含多个装置。例如，装置150可以是处理***中的一件设备，例如采油或炼油工艺。

在特定实施方案中，计算装置110配置成从传感器102接收时间序列数据(例如，传感器数据)的第一数据集104。例如，时间序列数据可以从传感器102实时或近实时地接收，且第一数据集104包含对应于第一时间周期的数据。如本文中所使用，实时或近实时地接收的传感器数据是指在装置(例如，受传感器102监测的装置)的操作期间产生且在执行任何处理之后从传感器接收的传感器数据。例如，传感器102产生传感器数据，并将传感器数据传递(或处理并传递)到计算装置110。

计算装置110包含输入接口112、处理器114和存储器120。在一些实施方案中，输入接口112和存储器120耦合到处理器114，例如通过总线。输入接口112配置成从一或多个用户接收用户输入。例如，输入接口112可包含键盘、触摸屏、鼠标、语音命令接口、手势命令接口或其组合。处理器114可以是单个处理器，或者可包含一或多个处理器、一或多个中央处理单元(CPU)、一或多个图形处理单元(GPU)、一或多个控制器或其组合，这些装置配置成执行存储在存储器120处的指令以执行本文中所描述的操作。

存储器120配置成存储使得处理器114能够执行本文中的操作的指令和数据。存储器120可包含随机存取存储器(RAM)、只读存储器(ROM)、计算机可读存储装置、企业存储装置、任何其它类型的存储器或其组合。在所示出的实例中，存储器120配置成存储聚类指令122、分类器产生指令124、图形用户接口(GUI)产生指令126、第一训练数据128、第一簇群组130(例如，指示第一簇群组130的数据)、第一标记群组132和第一机器学习分类器134(例如，指示第一机器学习分类器134的数据)。

聚类指令122配置成使用输入数据(例如，第一数据集104)执行聚类操作，如本文进一步描述。例如，聚类指令122可以将第一数据集104中的成员(在本文中也被称为数据点)分组到第一簇群组130中。聚类指令122还将簇与对应标记相关联。例如，第一簇群组130与第一标记群组132相关联，如本文进一步描述。

在一些实施方案中，若干传感器102与装置150相关联，使得在每一时间周期内，第一数据集104包含多个传感器数据点。为了说明，传感器102可包含温度传感器和转速计，其中的每一个周期性地或偶尔产生对应的感测值，以产生包含每一时间周期内的温度值和转/分钟(RPM)值的时间序列数据。在此类实施方案中，时间序列数据可以分组到向量中，其中每一向量包含特定时间周期内的多个感测数据值。为了说明，在以上实例中，第一数据集104可包含第一数据向量，所述第一数据向量包含第一时间周期内的第一温度值和第一RPM值，且第一数据集104可包含第二数据向量，所述第二数据向量包含第二时间周期内的第二温度值和第二RPM值。尽管在此实例中使用两个传感器102，但是在其它实施方案中，每一向量可包含超过两个感测数据值。此外，因为传感器102可以不同速率产生数据并且一些感测数据值可能会丢失、损坏或不可靠，所以可以执行数据预处理操作来填补一些值，以便将数据值指派给时间周期，或执行其它操作以产生每一时间周期内的数据向量。

分类器产生指令124配置成基于训练数据产生机器学习分类器，例如第一机器学习分类器134，所述训练数据例如第一训练数据128，如本文进一步描述。如本文中所使用，产生机器学习分类器可包含基于训练数据训练机器学习分类器以及例如在存储器120处存储指示机器学习分类器的数据。

GUI产生指令126配置成产生GUI 109以供向用户显示，如本文进一步描述。例如，GUI 109可显示指示输入数据到簇的分组的信息、对用户向一或多个簇提供标记的提示、装置的操作状态的识别、其它信息或其组合，如本文进一步描述。

计算装置110还耦合到显示装置108。显示装置108包含能够向用户显示信息的任何装置，例如监视器、液晶显示器(LCD)屏幕、触摸屏、另一类型的显示装置或其组合。尽管示出为独立组件，但是在其它实施方案中，显示装置108包含在或集成在计算装置110内。显示装置108配置成显示GUI 109，如本文进一步描述。

在操作期间，传感器102执行装置150的测量以产生时间序列数据(例如，传感器数据)。装置150可包含或对应于工业机器，例如涡轮、压缩机、引擎、另一类型的机器，或另一类型的装置。时间序列数据(例如，传感器数据)可包含振动测量值、压力测量值、温度测量值、其它测量值或其组合。此外，时间序列数据可包含每一时间段内的多个测量值(或感测值)，例如时间序列的每一分钟内的温度测量值和压力测量值。

计算装置110从传感器102或从(例如，通过网络、通过直接传输等)耦合到传感器102的另一计算装置接收时间序列数据(例如，传感器数据)的第一数据集104。第一数据集104对应于在第一时间周期期间记录或产生的数据。聚类指令122接收第一数据集104作为输入，并对第一数据集104执行第一聚类操作以将第一数据集104中的成员分组到第一簇群组130中。第一聚类操作可以是任何类型的聚类操作，包含质心聚类操作(例如K均值聚类)、分层聚类操作、均值偏移聚类操作、连接性聚类操作、密度聚类操作(例如基于密度的带噪声空间聚类应用(DBSCAN))、分布聚类操作、使用高斯混合模型(GMM)的期望最大化(EM)聚类，或其它类型的聚类操作或算法。

作为K均值聚类的实例，第一数据集104中的每一成员可以映射到特征空间中。特征空间包含多个维度，其中每一维度对应于输入数据的特定特征。例如，时间序列数据可包含在每一样本周期期间的多种类型的传感器读数，且每种类型的传感器读数可对应于特征空间中的维度。在一些实施方案中，特征空间可以是二维的，其中一个维度对应于特定测量值(例如，压力测量值、振动测量值、温度测量值等)，且另一维度对应于时间。

聚类指令122配置成基于以下概念将第一数据集104中的成员(例如，第一数据集104中的数据点)分组成簇：特征空间中的两个点之间的距离大体上指示第一数据集104中的两个成员之间的相似度。要开始K均值聚类操作，选择特征空间中的特定数目个初始位置(例如，簇中心)。确定成员(例如，数据点)和特定簇中心之间的距离。作为非限制性实例，特定数据点和簇中心(或另一数据点)之间的距离可以确定为欧几里得距离。基于数据点和每一簇中心(其在簇不包含任何数据点的情况下可以是初始位置)之间的距离，将数据点添加到最近的簇中。在一些实施方案中，如果数据点远离每个簇(例如，数据点和每一簇中心之间的距离大于阈值距离，那么数据点被识别为异常并且不被指派给任何簇。在数据点添加到簇中之后，确定新的簇中心作为指派给所述簇的每一数据点的中心。第一数据集104中的每一额外数据点以类似方式指派给第一簇群组130中的对应一个。在其它实施方案中，聚类可以基于不同属性来执行，例如连接性、密度、分布等，并且在一些实施方案中，簇的初始条件在执行聚类操作之前不设置。

在实例中，计算装置110配置成使用无监督学习识别第一簇群组，以便将第一数据集104中的成员指派给第一簇群组130。基于时间序列数据内的关系或模式而确定簇。在确定第一数据集104中的成员到第一簇群组130的指派之后，聚类指令122配置成将第一簇群组130中的每个簇与第一标记群组132中的对应标记相关联。

在特定实施方案中，第一标记群组132一开始包含***产生的标记。例如，可存在N个簇，并且第一标记群组132包含“簇A”、“簇B”、“簇C”和“簇N”。在产生初始簇标记之后，计算装置110配置成向用户显示关于簇的信息，使得用户能够定义第一标记群组132。例如，显示装置108可配置成(例如，通过GUI 109)显示对应于第一标记群组132的一或多个用户定义标记的提示，且输入接口112可配置成接收指示一或多个用户定义标记的用户输入106。为进一步说明，GUI产生指令126配置成产生GUI 109，其中GUI 109显示在第一簇中的至少一些数据点的识别和对用户输入第一簇的标记的提示。GUI 109以类似方式针对其它簇中的每一个显示信息和提示，使得用户能够标记每一个簇。在特定实施方案中，用户用装置150的操作状态标记簇，例如“操作状态1”、“操作状态2”、“操作状态3”和“操作状态N”。因此，第一标记群组132可对应于装置150的操作状态。

在将第一数据集104中的成员指派给第一簇群组130并使第一簇群组130与第一标记群组132相关联之后，处理器114可执行分类器产生指令124，以便产生并训练第一机器学习分类器134。第一机器学习分类器134包含任何类型的经训练分类器，例如神经网络分类器、决策树分类器、支持向量机分类器、回归分类器、朴素贝叶斯分类器、感知分类器或另一类型的分类器。为了产生第一机器学习分类器134，分类器产生指令124配置成产生包含第一数据集104和第一标记群组132的第一训练数据128。例如，第一数据集104中的每一数据点与第一标记群组132中的对应标记(例如，数据点所属的簇的簇标记)相关联，并且将此标记数据用作第一训练数据128。

分类器产生指令124进一步配置成基于第一训练数据128训练第一机器学习分类器134。在训练第一机器学习分类器134之后，第一机器学习分类器134配置成基于未标记输入数据提供标记。例如，可以实时地将来自传感器102的时间序列数据提供给第一机器学习分类器134，并且第一机器学习分类器134可输出与实时时间序列数据相关联的一或多个标记。由第一机器学习分类器134产生的标记可用于确定由另一机器学习分类器(或重新训练的机器学习分类器)指派的标记，如本文进一步描述。

在特定实施方案中，训练第一机器学习分类器134包含训练第一机器学习分类器134以基于实时时间序列数据检测装置150的操作状态。在此实施方案中，第一机器学习分类器134进一步配置成产生指示描述操作状态的用户定义标记的输出。例如，第一机器学习分类器134基于实时时间序列数据输出一或多个标记。操作状态可由用户标记或描述，例如通过指示簇的一或多个用户定义标记的用户输入106。在一些实施方案中，或在替代方案中，第一机器学习分类器134还可标记可与紧急故障条件相关联的操作状态。例如，如果在搜集第一数据集104时装置150进入故障条件，那么用户能够将一些数据点标记为与故障状态相关联或指示故障状态。在此实例中，第一训练数据128可包含足以训练第一机器学习分类器134以基于实时时间序列数据预测装置150将很快进入故障状态的信息。

在特定实施方案中，第一机器学习分类器134由计算装置110执行，且第一机器学习分类器134的输出作为GUI产生指令126的输入提供。GUI产生指令126配置成产生GUI 109以供在显示装置108处显示。GUI 109可基于实时时间序列数据指示由第一机器学习分类器134输出的标记。例如，GUI 109可显示针对多个时间周期中的每一个的装置150的操作状态(例如，对应于实时时间序列数据的取样时间)。

另外，可以基于实时时间序列数据的标记来控制装置150。为了说明，处理器114可产生使装置150基于由第一机器学习分类器134输出的标记而执行操作的第一控制命令152。例如，如果第一机器学习分类器134输出(例如，是故障状态的前兆的操作状态的)特定标记，那么处理器114产生使装置改变操作状态(例如，变成不大可能在故障状态之前的操作状态)或改变装置150的配置的第一控制命令152。因此，第一机器学习分类器134可配置成输出将用于控制装置150的操作状态的标记。

移动到图1B，在特定时间，计算装置110产生新的机器学***均起来不同于与第一数据集104相关联的第一时间周期期间。为了补偿装置150或传感器102的这些改变，计算装置110产生新机器学习分类器。新机器学习分类器基于先前传感器数据以及新传感器数据。

为了说明，计算装置110接收时间序列数据的第二数据集105。第二数据集105对应于在与第一数据集104相关联的第一时间周期之后的第二时间周期。除了用于产生新机器学习分类器之外，第二数据集105还可以由图1A的第一机器学习分类器134实时收集和分析，以便向用户提供装置150的状态的指示。

出于产生新机器学习分类器的目的，计算装置110组合第二数据集105与第一数据集104的至少一部分以产生组合数据集。在特定实施方案中，组合数据集包含第二数据集105和整个第一数据集104。在另一实施方案中，组合数据集中仅包含第一数据集104的一部分。例如，可以使用滑动窗来确定第一数据集104中将包含在组合数据集中的部分。在另一特定实施方案中，组合数据集中包含与特定簇相关联的数据。在其它实施方案中，组合数据集中包含第一数据集104的其它部分。

聚类指令122配置成对组合数据集执行第二聚类操作，以便将组合数据集中的成员(例如，数据点)分组到第二簇群组142中。例如，组合数据集(例如，第二数据集105和第一数据集104的一部分)中的成员被分组到特征空间中的各个簇中，类似于用于将第一数据集104分组到第一簇群组130中的聚类操作。在一些实施方案中，第二簇群组142包含对应于第一簇群组130中的簇的一或多个簇。例如，第一簇群组130和第二簇群组142均可包含具有相同特性的一或多个簇。可替代地，第二簇群组142可包含具有与第一簇群组130不同的特性的簇。

在执行第二聚类操作之后，第二簇群组142与第二标记群组144相关联。例如，聚类指令122配置成将第二簇群组142中的每个簇与第二标记群组144中的对应标记相关联。

第二标记群组144包含第一标记群组132中的一或多个标记，使得第二簇群组142中的一或多个簇与第一标记群组132中的对应标记相关联。例如，在第一簇群组130中，可存在对应于标记“操作状态A”的第一簇，且聚类指令122可确定第二簇群组142中的第二簇也对应于标记“操作状态A”。因此，第一簇群组130中的第一簇和第二簇群组142中的第二簇均可与第一标记群组132中的第一标记相关联，即使第一簇的一或多个特性不同于第二簇的一或多个特性也如此。

聚类指令122基于第一簇和第二簇的特性而确定第一簇和第二簇对应于相同标记。例如，聚类指令122可基于第一簇和第二簇包含相同的一或多个数据点(例如，第一数据集104中的成员)而确定第一簇和第二簇对应于相同标记。作为另一实例，聚类指令122可基于第一簇的特性(例如，中心位置、成员数量、分布或另一特性)在第二簇的特性的对应阈值内而确定第一簇和第二簇对应于相同标记。第一簇和第二簇的其它特性可以不同。参考图2进一步描述确定两个簇对应于相同标记。

基于历史数据(例如，第一数据集104)从第一标记群组132向第二簇群组142指派标记使得***100能够保留对装置150的了解。为了说明，可继续识别过往操作状态，即使输入数据已经改变到足以使一或多个簇改变特性也如此。保留(例如，对先前操作状态的)过往了解使得***100即使在输入数据改变之后也能够继续识别相同操作状态，而不是在输入数据已改变时产生最新标记的操作状态。例如，基于第一聚类操作，第一簇群组130中的第一簇可以标记为“操作状态A”。第一簇包含数据点1、数据点2和数据点3，以及其它数据点。在第二聚类操作期间，识别第二簇群组142中的第二簇。第二簇包含数据点1、数据点2和数据点3，以及其它数据点。然而，第二簇具有至少一个不同于第一簇的特性。例如，第二簇的簇中心的位置可不同于第一簇的簇中心的位置，与第二簇相关联的分布可不同于与第一簇相关联的分布，包含在第二簇中的数据点的数目可不同于包含在第一簇中的数据点的数目，或另一特性可以是不同的。因为第一簇和第二簇各自包含数据点1、数据点2和数据点3，所以聚类指令122确定第二簇对应于第一簇(不管其它不同特性如何)，且聚类指令122使第二簇和与第一簇相关联的标记(例如，“操作状态A”)相关联。因此，具有不同特性的簇可以被识别为对应于先前识别的簇，从而使得***100能够保留关于簇的信息，因为机器学习分类器是迭代产生(或更新)的。基于用户定义标记来标记第二簇群组142中的其余簇。例如，GUI 109可包含对用户标记不与来自第一标记群组132的标记相关联的任一个簇的提示，因为这些可以表示装置150的新操作状态。

在使第二簇群组142与第二标记群组144相关联之后，产生第二训练数据140。例如，分类器产生指令124配置成产生包含第二标记群组144和组合数据集(例如，第二数据集105和第一数据集104的部分的组合)的第二训练数据140。分类器产生指令124使用第二训练数据140来产生和训练第二机器学习分类器146。例如，第二训练数据140可以在第二机器学习分类器146的训练过程中提供给第二机器学习分类器146。尽管被描述为产生第二机器学习分类器146，但是在其它实施方案中，第一机器学习分类器134可以重新训练以产生第二机器学习分类器146。

第二机器学习分类器146配置成向与在第二时间周期之后的第三时间周期相关联的时间序列数据(例如，传感器数据)的第三数据集107提供标记。例如，在训练第二机器学习分类器146之后，第二机器学习分类器146基于实时时间序列数据而输出标记。标记来自第二标记群组144(其包含第一标记群组132中的一或多个标记)。在特定实施方案中，第二机器学习分类器146配置成基于实时时间序列数据而检测装置150的操作状态。操作状态通过由第二机器学习分类器146输出的标记识别。

GUI产生指令126配置成产生GUI 109以供在显示装置108处显示。GUI 109可包含对包含在第二簇群组142中的新簇的标记的提示。例如，显示装置108可配置成显示对应于第二标记群组144的一或多个用户定义标记的提示。一或多个用户定义标记可以由用户输入106指示。例如，输入接口112配置成接收指示一或多个用户定义标记的用户输入106。

另外或替代地，第二机器学习分类器146的输出通过GUI 109输出。例如，GUI 109可显示对应于第三数据集107的标记，所述标记通过执行第二机器学习分类器146来输出。在特定实施方案中，标记包含指示装置150的操作状态的标记。可替代地，第二机器学习分类器146可以在不同装置处执行，或者由第二机器学习分类器146产生的输出可以在不同装置的显示装置处显示。例如，计算装置110可以是由以通信方式耦合(例如，通过网络，例如因特网)到云计算装置的第二装置访问的云计算装置，且第二机器学习分类器146的输出可以在第二计算装置的显示装置上显示。

在一些实施方案中，可以基于实时时间序列数据(例如，第三数据集107)的标记来控制装置150。为了说明，处理器114可产生使装置150基于由第二机器学习分类器146输出的标记而执行操作的第二控制命令154。例如，如果第二机器学习分类器146输出(例如，是故障状态的前兆的操作状态的)特定标记，那么处理器114产生使装置改变操作状态(例如，变成不大可能在故障状态之前的操作状态)或改变装置150的配置的第二控制命令154。因此，第二机器学习分类器146可配置成输出将用于控制装置150的操作状态的标记。

通过产生第二机器学习分类器146，***100能够用于演进装置，同时仍然保留从历史数据习得的信息。例如，装置150可以随时间推移(例如，由于维护、部件改变、磨损或装置150的其它改变)而展现新操作特性。另外或替代地，传感器读数可以由于传感器漂移随时间推移而改变。由于传感器读数的新特性或改变，特定机器学习分类器可变得过时，并且可以开始以增加的频率识别异常(例如，无法足够确定地被指派标记的数据点)。此类识别是误报，且增加的误报率使特定机器学习分类器的实用性降低。然而，因为***100周期性地产生新机器学习分类器，所以解决了新特性和传感器漂移。另外，新机器学习分类器识别至少一些与先前分类器相同的操作状态，从而保留现有历史数据和最新接收的数据之间的对应，并且减少与用户标记数据相关联的时间和支出。以此方式，***100周期性地产生减小误报率同时保留从历史数据习得的信息的机器学习分类器。此类机器学习分类器的实用性比过时(例如，不考虑装置的改变并且因此具有较高的误报率)或不保留从历史数据习得的信息的其它机器学习分类器更高。另外，由***100产生的机器学习分类器可用于控制装置150，以免出现意外操作状态或是故障状态的前兆的操作状态，从而减少维修装置150的停机时间量。

参考图2，示出聚类操作的特定说明性实例。在图2中，x和y轴表示时间序列数据变换到其中的特征空间的两个维度。在其它实施方案中，特征空间超过两个维度。例如，特征空间可以是n维度，其中n是所聚类的不同类型的时间序列数据的数目。在特定实施方案中，对图1A的第一数据集104执行第一聚类操作200，并且对组合数据集(例如，图1B的第二数据集105和第一数据集104的至少一部分)执行第二聚类操作220。

对第一数据集104执行第一聚类操作200以便将数据点(例如，第一数据集104中的成员)分组到各个簇中。例如，第一数据集104中的数据点分组到第一簇群组130中。在图2中示出的实例中，第一簇群组130包含四个簇。在其它实例中，第一簇群组130包含少于四个或超过四个簇。

在特定实施方案中，使用K均值聚类操作确定簇202-208。为了说明，确定簇的数目，并且在一开始设置每一个簇的簇中心。在特定实施方案中，基于装置(例如，图1A和1B的装置150)的操作状态的数目而确定簇的数目。在初始化特征空间中的每一个簇中心之后，将数据点添加到各个簇中，并修改簇中心的位置。例如，响应于确定特定数据点A1相比于任何其它簇204-208的中心更接近第一簇202的中心，所以将特定数据点A1添加到第一簇202中，并且将第一簇202的中心的位置修改(例如，更新)为在初始簇中心的位置和特定数据点A1的位置之间。可以以类似方式将额外点添加到簇202-208中。例如，可以基于另一特定数据点相比于任何其它簇202、206、208的中心更接近第二簇204的簇中心而将所述另一特定数据点添加到第二簇204中，并且第二簇204的簇中心的位置可以基于所述另一特定数据点的位置来更新。在一些实施方案中，如果数据点在簇中心的阈值距离内，那么只将数据点添加到簇中，否则数据点保持为离群点。在特定实施方案中，离群点被识别为异常(例如，不表示操作状态的数据点)或被识别为对应于故障状态。在其它实施方案中，对应于簇202-208的一或多个操作状态可对应于故障状态或故障状态的前兆。第一聚类操作200一直继续到(例如，第一数据集104中的)所有数据点都被指派给对应簇或被识别为离群点为止，并且基于指派而更新簇中心的每一个位置。例如，在执行第一聚类操作200之后，数据点分组到簇202-208中，如图2中所示出。尽管已经描述K均值聚类操作，但是在其它实施方案中，第一聚类操作200包含其它类型的聚类操作或算法，例如分层聚类、均值偏移聚类、连接性聚类操作、密度聚类操作(例如DBSCAN)、分布聚类操作、使用GMM进行的EM聚类或其它类型的聚类操作或算法。

每个簇与标记相关联。例如，第一簇202与标记“操作状态A”相关联，第二簇204与标记“操作状态B”相关联，第三簇206与标记“操作状态C”相关联，第四簇208与标记“操作状态D”相关联。在一些实施方案中，离群点还可由标记识别，例如“异常”或“故障状态”。在一些实施方案中，“操作状态A”、“操作状态B”、“操作状态C”或“操作状态D”中的一或多个可对应于故障状态。在图2中示出的实例中，这四个标记组成图1A的第一标记群组132。在一些实施方案中，标记由计算装置110确定。可替代地，一或多个标记可以是用户定义的。例如，图1A和1B的用户输入106可指示用于簇202-208的标记的名称。

基于包含对应于簇202-208的标记和第一数据集104的受监督训练数据来训练机器学习分类器，例如图1A的第一机器学习分类器134。例如，第一数据集104和对应标记(例如，第一数据集104中的每一数据点的簇标记)可以作为第一训练数据128提供，如参考图1A所描述的。此机器学习分类器配置成接收输入数据并基于输入数据而输出标记，如“操作状态A”、“操作状态B”、“操作状态C”、“操作状态D”或“异常”中的一个。在此上下文中，异常是指足够可信地与机器学习分类器经训练以识别的类别或标记不对应的数据点。在稍后时间，由于装置150的改变或传感器漂移，输入数据的数据点可开始落到簇202-208外部，使得异常数据的识别增加。许多这些异常数据识别可能是误报，因此第一机器学习分类器134的有效性可能随着时间推移而劣化。例如，由于传感器漂移，在正常操作条件(例如，操作状态A)期间搜集的传感器值可能足够偏离与正常操作条件相关联的其它数据点，使得机器学习分类器无法将传感器值可靠地标记为指示任何所辨识操作条件。在此情形下，传感器值指示正常操作条件，但是由于传感器漂移，机器学习分类器无法恰当地标记传感器数据。

为了补偿装置150或传感器数据的改变，执行第二聚类操作220。第二聚类操作220作为产生新机器学习分类器(例如第二机器学习分类器146(也被称作更新第一机器学习分类器134))的过程的部分而执行。如参考图1B所描述，对组合数据集(例如，第二数据集105和第一数据集104的至少一部分的组合)执行第二聚类操作220。在图2中示出的实例中，组合数据集包含整个第一数据集104。在其它实施方案中，组合数据集包含不到全部第一数据集104。

执行第二聚类操作220，以对组合数据集中的数据点分组到图1B的第二簇群组142中。在图2中示出的实例中，第二簇群组142包含第五簇222、第六簇224、第七簇226、第八簇228、第九簇230和第十簇232。另外，在图2中，特定数据点250被识别为离群点。例如，如果第二聚类操作220包含K均值聚类操作，那么基于不存在位于特征空间中的特定数据点250的位置的阈值距离内的簇中心，将特定数据点250识别为离群点。在其它实施方案中，可以使用其它类型的聚类操作。

簇222-232中的每一个与标记相关联。与簇222-232相关联的标记组成第二标记群组144。簇222-232的至少一些标记与簇202-208的标记相同(例如，第二标记群组144包含第一标记群组132中的至少一些标记)。第一簇群组130中的簇可具有与第二簇群组142中的簇相同的标记，即使簇的一或多个特性不同也如此。为了说明，第一簇202与第一标记(例如，“操作状态A”)相关联，第五簇222与第一标记相关联，且第一簇202的特性不同于第五簇222的特性。例如，第一簇202的簇中心的位置、成员数量、分布或另一特性可不同于第五簇222。

基于簇之间的对应关系而执行簇与先前簇的标记的关联。例如，第一簇202和第五簇222的特定特性(例如，共同特性)可相同，因此这两个簇与相同标记相关联。在特定实施方案中，共同特性是包含特定一组数据点。为了说明，第一标记(“操作状态A”)与第一簇202相关联，且第一簇202包含数据点A1、A2和A3。在此实施方案中，基于第五簇222包含数据点A1、A2、A3，第一标记还与第五簇222相关联。因此，即使第五簇222的其它特性不同于第一簇202的那些特性，这两个簇也彼此对应，因此与相同标记相关联。例如，即使第一簇202的簇中心210的位置不同于第五簇222的簇中心240的位置，且包含在第一簇202中的数据点的数量不同于包含在第五簇222中的数据点的数量，所以第一簇202和第五簇222均与标记“操作状态A”相关联。

另外或替代地，如果一个簇的至少一个特性(例如，共同特性)类似于另一簇的特性，那么两个簇可以与相同标记相关联。例如，如果第二簇的特性在第一簇的特性的阈值相似度内，那么第二簇与和第一簇相同的标记相关联。在特定实施方案中，特性包含簇中心的位置。为了说明，第一标记(“操作状态A”)与第一簇202相关联，且第一簇202具有位于特征空间中的第一位置(例如，中心位置)处的簇中心210。在此实施方案中，基于第五簇222的簇中心240在特征空间中的位置在第一簇202的簇中心210的位置的阈值距离内，第一标记还与第五簇222相关联。作为非限制性实例，此实施方案可用于质心聚类操作。

在另一特定实施方案中，特性包含成员(例如，数据点)数量。为了说明，第一标记与第一簇202相关联，且第一簇202包含第一数量的成员(例如，包含在第一簇202中的总数目个数据点)。在此实施方案中，基于第一数量和包含在第五簇222中的成员的第二数量之间的差满足阈值(例如，小于或等于阈值)，第一标记还与第五簇222相关联。

在另一特定实施方案中，特性包含簇分布。为了说明，第一标记与第一簇202相关联，且第一簇202与第一分布相关联。在此实施方案中，基于第一分布和与第五簇222相关联的第二分布之间的差满足阈值(例如，小于或等于阈值)，第一标记还与第五簇222相关联。例如，与第五簇222相关联的均值或标准偏差可在与第一簇202相关联的均值或标准偏差的阈值内。作为非限制性实例，此实施方案可用于分布聚类操作。

在另一特定实施方案中，特性包含簇密度。为了说明，第一标记与第一簇202相关联，且第一簇202具有第一密度。在此实施方案中，基于第一密度和与第五簇222相关联的第二密度之间的差满足阈值(例如，小于或等于阈值)，第一标记还与第五簇222相关联。作为非限制性实例，此实施方案可用于密度聚类操作，例如DBSCAN。

基于簇222-232和簇202-208之间的相似度，簇222-232中的至少一些与簇202-208的标记相关联。在图2中示出的实例中，基于第五簇222包含同样包含在第一簇202中的一组成员(例如，数据点)，第五簇222与第一标记(例如，“操作状态A”)相关联。为了说明，第一簇202和第五簇222均包含数据点A1、A2和A3。所述一组数据点可以是特定选择的(例如，数据点是特定代表性数据点或其它选定数据点)，或所述一组数据点可以是随机或伪随机地选择的。基于与第二簇204的多个相似度(例如，包含一组数据点、簇中心的位置、簇边界等)，第六簇224与第二标记(例如，“操作状态B”)相关联。基于与第三簇206的多个相似度(例如，包含数据集、簇中心的位置、簇边界等)，第七簇226与第三标记(例如，“操作状态C”)相关联。基于第八簇228包含同样包含在第四簇208中的一组数据点，第八簇228与第四标记(例如，“操作状态D”)相关联。因为第九簇230和第十簇232并不与簇202-208中的任一个足够相似，所以第九簇230与第五标记(例如，“操作状态E”)相关联，且第十簇与第六标记(例如，“操作状态F”)相关联。新标记(例如，第五标记和第六标记)可对应于与和第二数据集105相关联的时间周期相关联的新操作状态，或者可对应于故障状态。另外，在识别出离群点的实施方案中，特定数据点250被识别为异常(其可对应于故障状态)。

因为第二簇群组(例如，簇222-232)中的至少一些与同样与第一簇群组(例如，簇202-208)相关联的标记相关联，所以在产生新机器学习分类器(例如，第二机器学习分类器146)时维持与先前时间周期相关联的信息(例如，经标记操作状态)。通过使至少一些新簇与先前簇的标记相关联，不断改变的复杂资产的表现模式可被机器学习分类器习得，同时保留了从历史数据习得的信息(例如，指示操作状态)。这通过随着时间推移减少离群点(例如，故障状态)的误报而提高了机器学习分类器的实用性。

参考图3，示出了对时间序列数据进行聚类的特定说明性实例。图形300示出时间序列数据的第一数据集，例如图1A和1B的第一数据集104。第一数据集包含第一数据点302和第二数据点304。对第一数据点302和第二数据点304执行聚类操作，以便将数据点分组到第一簇群组中，如参考图2所描述的。例如，基于第一数据点302的相似度(例如，特征空间中的相似度)，第一数据点302分组在第一簇中。另外，基于第二数据点304的相似度，第二数据点304分组在第二簇中。

每一个簇与标记相关联，如参考图2所描述的。例如，第一簇与第一标记相关联，第二簇与第二标记相关联。标记可对应于所监测的装置的操作状态，并且可以是计算机产生或用户定义的。标记、簇和第一数据集用于训练机器学习分类器，例如图1A的第一机器学习分类器134。

在稍后时间，接收第二数据集，例如图1B的第二数据集105。图形310示出组合数据集(例如，第一数据集和第二数据集)。如图3中所示出，整个第一数据集可以与第二数据集组合以形成组合数据集。可替代地，不到全部第一数据集可以与第二数据集组合以形成组合数据集。组合数据集包含第一数据点302、第二数据点304、第三数据点312、第四数据点314和特定数据点316。对数据点302-304和312-316执行聚类操作，以便将数据点分组到第二簇群组中，如参考图2所描述的。例如，基于第一数据点302和第三数据点312的相似度，第一数据点302和第三数据点312被分组到第三簇中。另外，基于第二数据点304和第四数据点314的相似度，第二数据点304和第四数据点314被分组到第四簇中。特定数据点316可以被识别为离群点。例如，特定数据点316的位置可以在每一簇中心的位置的阈值范围之外。

每一个簇与标记相关联，如参考图2所描述的。至少一些标记与先前指派的标记相同。例如，基于第三簇包含第一数据点302(或其子集)，第三簇与第一标记相关联。另外，基于第四簇包含第二数据点304(或其子集)，第四簇与第二标记相关联。特定数据点316与第三标记相关联。在特定实施方案中，第三标记是故障状态标记。标记、簇和组合数据集用于训练机器学习分类器，例如图1B的第二机器学习分类器146。

因为第二簇群组中的至少一些与同样与第一簇群组相关联的标记相关联，所以在产生新机器学习分类器(例如，第二机器学习分类器146)时维持与先前时间周期相关联的信息(例如，经标记操作状态)。通过使至少一些新簇与先前簇的标记相关联，不断改变的复杂资产的表现模式可被机器学习分类器习得，同时保留了从历史数据习得的信息(例如，指示操作状态)。这通过随着时间推移减少异常数据的误报而提高了机器学习分类器的实用性。

参考图4，示出产生机器学习分类器的过程400。过程400可由计算装置110执行，例如由处理器114执行存储在存储器120处的指令。

过程400开始于接收传感器数据402。传感器数据402可包含第一数据集104或组合数据集(例如，第二数据集105和第一数据集104的至少一部分的组合)。在特定实施方案中，传感器数据402包含基于对装置的监测而产生的振动数据、压力数据、温度数据或其组合，所述装置例如是工业机器，包含涡轮、压缩机或引擎。如本文进一步描述，传感器数据402包含在不同时间的传感器数据(例如，所取样的传感器数据)。

传感器数据402被提供给聚类指令122，以将传感器数据402划分成簇群组。聚类指令122配置成基于传感器数据402的特定元件之间的关系而将传感器数据402划分成簇，如参考图2进一步描述。聚类指令122可配置成执行质心聚类操作(例如K均值聚类)、分层聚类操作、均值偏移聚类操作、连接性聚类操作、密度聚类操作(例如DBSCAN)、分布聚类操作、使用GMM进行的EM聚类，或其它类型的聚类操作或算法。

聚类指令122还配置成将簇与对应标记相关联。标记可以是用户定义的。在标记簇之后，传感器数据402的每一数据点与对应簇标记相关联以产生标记数据410。标记数据410指示与传感器数据402的每一元素相关联的标记，且所述标记是基于元素被指派到的簇。为了说明，传感器数据402可包含在第一时间的传感器数据404、在第二时间的传感器数据406和在第M时间的传感器数据408。标记数据410指示与在第一时间的传感器数据404相关联的第一标记412、与在第二时间的传感器数据406相关联的第二标记414，和与在第M时间的传感器数据408相关联的第M标记416。每一标记对应于传感器数据402的元素被指派到的簇。例如，在第一时间的传感器数据404可以由聚类指令122指派给特定簇，且第一标记412是与所述特定簇相关联的标记。

在执行聚类操作和标记之后，传感器数据402和标记数据410被用作受监督训练数据420。受监督训练数据420被提供给分类器产生指令124。分类器产生指令124基于受监督训练数据420产生机器学习分类器422，例如第一机器学习分类器134或第二机器学习分类器146。例如，分类器产生指令124可产生神经网络分类器、决策树分类器、支持向量机分类器、回归分类器、朴素贝叶斯分类器、感知分类器或另一类型的分类器。受监督训练数据420可用于训练机器学习分类器以基于由机器学习分类器422接收的输入数据(例如，时间序列数据)输出标记。例如，如果机器学习分类器422是神经网络分类器，那么可使用反向传播或另一训练技术执行训练。机器学习分类器422可以存储在存储器120处以供计算装置110执行或用于发送到另一计算装置。

在特定实施方案中，分类器产生指令124配置成使用受监督训练数据420的第一部分来训练初始机器学习分类器，并且在训练之后使用受监督训练数据420的第二部分来测试初始机器学习分类器的性能。例如，分类器产生指令124可以确定初始机器学习分类器中的每一个的一个性能度量或多个性能度量。一或多个性能指标可以指示性能度量的值。另外或替代地，一或多个性能指标可以识别初始机器学习分类器中性能最佳的初始机器学习分类器。性能最佳的机器学习分类器可以基于分类精确性、处理时间、复杂性或其它因素而选择。

在特定实施方案中，分类器产生指令124通过将性能最佳的机器学习分类器指定为机器学习分类器422而产生机器学习分类器422。在另一特定实施方案中，分类器产生指令确定与性能最佳的初始机器学习分类器相关联的分类器产生设置以产生新分类器，所述新分类器被指定为机器学习分类器422。在此实施方案中，初始机器学习分类器用于通过将受监督训练数据420划分成训练部分和测试部分来识别对于特定输入数据来说，哪种类型的机器学习分类器和哪种分类器产生设置的功效最佳。在识别对于所述特定输入数据来说功效最佳的分类器参数(例如，分类器的类型和分类器产生设置)之后，分类器产生指令124使用分类器参数和整个一组受监督训练数据420产生机器学习分类器422。因此，机器学习分类器422可以使用较大的一组受监督训练数据进行训练，预计这样可以改进由机器学习分类器422指派的分类的精确性。

参看图5，示出***100的操作的方法500的特定实例。方法500包含在502处，由处理器接收时间序列数据的第一数据集。例如，处理器114接收第一数据集104。

方法500包含在504处，由处理器对第一数据集执行第一聚类操作以将第一数据集的成员分组到第一簇群组中。例如，处理器114对第一数据集104执行第一聚类操作以将第一数据集104的成员分组到第一簇群组130中。

方法500包含在506处，在处理器处将第一簇群组的每一簇与第一标记群组中的对应标记相关联。例如，处理器114将第一簇群组130的每一簇与第一标记群组132中的对应标记相关联。

方法500包含在508处，在执行第一聚类操作之后，由处理器接收时间序列数据的第二集。例如，处理器114接收第二数据集105。

方法500包含在510处，在处理器处组合第二数据集与第一数据集的至少一部分以产生组合数据集。例如，处理器114组合第二数据集105与第一数据集104的至少一部分以产生组合数据集。

方法500包含在512处，由处理器对组合数据集执行第二聚类操作以将组合数据集的成员分组到第二簇群组中。例如，处理器114对组合数据集(例如，第二数据集105和第一数据集104的至少一部分)执行第二聚类操作，以将组合数据集的成员分组到第二簇群组142中。

方法500包含在514处，在处理器处将第二簇群组的一或多个簇与第一标记群组中的对应标记相关联。例如，处理器114将第二簇群组142的一或多个簇与第一标记群组132中的对应标记相关联。作为进一步说明，第二标记群组包含第一标记群组132中的一或多个。

方法500包含在516处，在处理器处基于对应于第二簇群组的第二标记群组和组合数据集产生训练数据。例如，处理器114产生基于组合数据集、第二簇群组142和第二标记群组144的第二训练数据140。

方法500另外包含在518处，在处理器处基于训练数据训练机器学习分类器以将标记提供给时间序列数据的第三数据集。例如，处理器114基于第二训练数据140训练第二机器学习分类器146以将标记提供给时间序列数据的第三数据集。

在特定实施方案中，第一标记群组包含一或多个用户定义的标记，所述标记描述与时间序列数据相关联的操作状态。例如，第一标记群组132描述传感器102正在测量的装置的操作状态，所述装置例如是机器。另外或替代地，方法500另外包含开始显示新簇的标记的提示，且第二簇群组包含新簇。例如，显示装置108可显示(例如，通过GUI109)包含在第二簇群组142中的新簇的标记的提示，且标记可以由用户输入106指示。

在特定实施方案中，训练机器学习分类器包含训练机器学习分类器以基于实时时间序列数据检测装置的操作状态，且产生输出，所述输出指示描述操作状态的用户定义的标记，所述用户定义的标记包含簇标记。为了说明，在特定实施方案中，传感器102耦合到装置且产生实时时间序列数据。在此实施方案中，第二机器学习分类器146配置成产生与实时时间序列数据的成员相关联的标记。所述标记可包含由用户输入106指示的用户定义的标记。

在特定实施方案中，方法500包含基于第一数据集和第一标记群组训练第一机器学习分类器以将标记提供给输入数据。例如，处理器114基于第一训练数据128训练第一机器学习分类器134。在一些实施方案中，方法500另外包含将第二数据集提供给第一机器学习分类器以产生与第二数据集相关联的一或多个标记。例如，将第二数据集105提供给第一机器学习分类器134以产生与第二数据集105相关联的一或多个标记。一或多个标记还可以包含在第二标记群组144中，如参考图1B进一步描述。

在特定实施方案中，第一数据集和第二数据集包含由一或多个压力传感器产生的压力测量值、由一或多个振动传感器产生的振动测量值、由一或多个温度传感器产生的温度测量值，或其组合。例如，传感器102可包含压力传感器、振动传感器、温度传感器，或其组合。

在特定实施方案中，第一簇群组的第一簇与第一标记群组的第一标记相关联，第二簇群组的第二簇与第一标记相关联，且第一簇的特性不同于第二簇的对应特性。例如，如参考图2所描述，尽管第五簇222的特定特性(例如，簇中心的位置、成员数量、簇边界等)不同于第一簇202的对应特性，但是第一簇202和第五簇222与相同标记(例如，“操作状态A”)相关联。

在特定实施方案中，第一标记群组的第一标记与第一簇群组的第一簇相关联，第一簇具有在特征空间中的第一中心位置，且基于第二簇的特征空间中的中心位置在第一簇的中心位置的阈值距离内，第一标记与第二簇群组的第二簇相关联。例如，基于第五簇222的簇中心240的位置在第一簇202的簇中心210的位置的阈值距离内，第一簇202和第五簇222可以与相同标记(例如，“操作状态A”)相关联。

在特定实施方案中，第一标记群组的第一标记与第一簇群组的第一簇相关联，第一簇包含第一数据集的一或多个特定成员，且基于第二簇群组的第二簇包含一或多个特定成员，第一标记与第二簇相关联。例如，基于第一簇202和第五簇222均包含数据点A1、A2和A3，第一簇202和第五簇222可以与相同标记(例如，“操作状态A”)相关联。

在特定实施方案中，第一标记群组中的第一标记与第一簇群组中的第一簇相关联，第一簇包含第一数量的成员，并且基于第一数量和包含在第二簇中的成员的第二数量之间的差满足阈值，第一标记与第二簇群组中的第二簇相关联。例如，基于第一簇202的数据点(例如，成员)的总数和第五簇222的数据点的总数之间的差小于或等于阈值，第一簇202和第五簇222可与相同标记(例如，“操作状态A”)相关联。

在特定实施方案中，第一标记群组中的第一标记与第一簇群组中的第一簇相关联，第一簇与第一分布相关联，并且基于第一分布和与第二簇相关联的第二分布之间的差满足阈值，第一标记与第二簇群组中的第二簇相关联。例如，基于与第一簇202相关联的第一分布和与第五簇222相关联的第二分布之间的差小于或等于阈值，第一簇202和第五簇222可与相同标记(例如，“操作状态A”)相关联。

方法500实现了机器学习分类器的产生和训练，所述机器学习分类器在考虑到所监测的装置的改变的同时保持了与先前数据(例如，第一数据集)相关联的信息。这通过随着时间推移减少异常数据的误报而提高了机器学习分类器的实用性。

应理解，在图5的流程图中所示的本文中所描述的步骤的划分和排序仅出于说明性目的，并且不被视为具有限制性。在替代实施方案中，可以组合特定步骤，并且可以将其它步骤细分成多个步骤。此外，步骤的排序可以改变。

结合所描述的方面，一种计算装置包含处理器和存储指令的存储器，所述指令可由所述处理器执行以执行包含接收时间序列数据的第一数据集的操作。所述操作包含对第一数据集执行第一聚类操作以便将第一数据集中的成员分组到第一簇群组中。所述操作包含将第一簇群组中的每个簇与第一标记群组中的对应标记相关联。所述操作包含在执行第一聚类操作之后接收时间序列数据的第二数据集。所述操作包含组合第二数据集和第一数据集的至少一部分以产生组合数据集。所述操作包含对组合数据集执行第二聚类操作以便将组合数据集中的成员分组到第二簇群组中。所述操作包含将第二簇群组中的一或多个簇与第一标记群组中的对应标记相关联。所述操作包含基于对应于第二簇群组的第二标记群组和组合数据集产生训练数据。所述操作进一步包含基于训练数据训练机器学习分类器以将标记提供给时间序列数据的第三数据集。

在特定实施方案中，第一簇群组中的第一簇与第一标记群组中的第一标记相关联，第二簇群组中的第二簇与第一标记相关联，并且第一簇的特性不同于第二簇的对应特性。例如，第一簇在特征空间中的质心、包含在第一簇中的成员的数目或与第一簇相关联的分布可分别不同于第二簇在特征空间中的质心、包含在第二簇中的成员的数目或与第二簇相关联的分布。另外或替代地，计算装置可进一步包含配置成显示对应于第二标记群组的一或多个用户定义标记的提示的显示装置。在一些实施方案中，机器学习分类器配置成基于实时时间序列数据检测装置的操作状态并产生指示描述操作状态的一或多个用户定义标记的输出。显示装置进一步配置成显示输出。另外或替代地，计算装置进一步包含配置成接收指示一或多个用户定义标记的用户输入的输入接口。

结合所描述的方面，一种方法包含由处理器接收时间序列数据的第一数据集。所述方法包含由处理器对第一数据集执行第一聚类操作以便将第一数据集中的成员分组到第一簇群组中。所述方法包含在处理器处将第一簇群组中的每个簇与第一标记群组中的对应标记相关联。所述方法包含在执行第一聚类操作之后由处理器接收时间序列数据的第二数据集。所述方法包含在处理器处组合第二数据集和第一数据集的至少一部分以产生组合数据集。所述方法包含由处理器对组合数据集执行第二聚类操作以便将组合数据集中的成员分组到第二簇群组中。所述方法包含在处理器处将第二簇群组中的一或多个簇与第一标记群组中的对应标记相关联。所述方法包含在处理器处基于对应于第二簇群组的第二标记群组和组合数据集产生训练数据。所述方法进一步包含在处理器处基于训练数据训练机器学习分类器以将标记提供给时间序列数据的第三数据集。

结合所描述的方面，一种计算机可读存储装置存储指令，所述指令在执行时使计算机执行包含接收时间序列数据的第一数据集的操作。所述操作包含对第一数据集执行第一聚类操作以便将第一数据集中的成员分组到第一簇群组中。所述操作包含将第一簇群组中的每个簇与第一标记群组中的对应标记相关联。所述操作包含在执行第一聚类操作之后接收时间序列数据的第二数据集。所述操作包含组合第一数据集和第二数据集以产生组合数据集。所述操作包含对组合数据集执行第二聚类操作以便将组合数据集中的成员分组到第二簇群组中。所述操作包含将第二簇群组中的一或多个簇与第一标记群组中的对应标记相关联。所述操作包含基于对应于第二簇群组的第二标记群组和组合数据集产生训练数据。所述操作进一步包含基于训练数据训练机器学习分类器以将标记提供给时间序列数据的第三数据集。

在特定实施方案中，第一数据集和第二数据集包括由一或多个压力传感器产生的压力测量值、由一或多个振动传感器产生的振动测量值、由一或多个温度传感器产生的温度测量值，或其组合。在某一实施方案中，第一数据集和第二数据集由耦合到一或多个涡轮、一或多个压缩机、一或多个石油钻塔或其组合的传感器产生。

本文中示出的***和方法可以在功能块组件、屏幕截图、可选选择和各种处理步骤方面进行描述。应了解，此类功能块可以由配置成执行指定功能的任何数目的硬件和/或软件组件实现。例如，***可以采用可以在一或多个微处理器或其它控制装置的控制下实行各种功能的各种集成电路组件，例如，存储器元件、处理元件、逻辑元件、查找表等等。类似地，***的软件元件可以例如C、C++、C#、Java、JavaScript、VBScript、Macromedia冷聚变、COBOL、微软动态服务器网页、汇编、PERL、PHP、AWK、Python、Visual Basic、SQL存储过程、PL/SQL、任何UNIX shell脚本和可扩展标记语言(XML)等任何编程或脚本语言予以实施，其中各种算法是以数据结构、对象、进程、例程或其它编程要素的任何组合予以实施。此外，应注意，***可以采用任何数量的技术来进行数据传送、传信、数据处理、网络控制等等。

本公开的***和方法可以体现为现有***、附加产品、执行升级软件的处理设备、独立***、分布式***、方法、数据处理***、用于数据处理的装置和/或计算机程序产品的定制。因此，***或模块的任何部分可以采用以下形式：处理设备执行代码、基于因特网(例如，云计算)的实施例、完全硬件实施例，或将因特网、软件和硬件的各个方面组合的实施例。此外，***可以采用以下形式：计算机可读存储媒体上的计算机程序产品，或具有体现或存储于存储媒体或装置中的计算机可读程序代码(例如，指令)的装置。可以利用任何合适的计算机可读存储媒体或装置，包含硬盘、CD-ROM、光学存储装置、磁性存储装置，和/或其它存储媒体。因此，***100可以使用包含一或多个处理器的一或多个计算机硬件装置(所述计算机硬件装置可以通过局域网和/或广域网而通信耦合)来实施，这在图1中同样并未示出，其中处理器执行对应于图1的各种组件的软件指令。可替代地，图1的组件中的一或多个可以使用例如现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)装置等硬件装置来实施。如本文中所使用，“计算机可读存储媒体”或“计算机可读存储装置”不是一种信号。

本文中可以参考根据各种方面的方法、设备(例如，***)和计算机媒体的屏幕截图、框图和流程图图示来描述***和方法。应理解，框图和流程图图示的每一功能块和框图和流程图图示中的功能块的组合分别可以由计算机程序指令实施。

计算机程序指令可以加载到计算机或其它可编程数据处理设备上以产生机器，使得执行于计算机或其它可编程数据处理设备上的指令创建用于实施在一或多个流程图框中指定的功能的构件。这些计算机程序指令还可以存储在计算机可读存储器或装置中，所述计算机可读存储器或装置可以指示计算机或其它可编程数据处理设备以一种特定方式起作用，使得存储在计算机可读存储器中的指令产生一种制品，所述制品包含实施在一或多个流程图框中指定的功能的指令构件。计算机程序指令还可以加载到计算机或其它可编程数据处理设备上，以使得一系列操作步骤在计算机或其它可编程设备上得以执行，从而产生计算机实施过程，使得执行于计算机或其它可编程设备上的指令提供用于实施在一或多个流程图框中指定的功能的步骤。

因此，框图和流程图图示的功能块支持用于执行指定功能的构件的组合、用于执行指定功能的步骤的组合，和用于执行指定功能的程序指令构件。还将理解，框图和流程图图示的每一功能块和框图和流程图图示中的功能块的组合可以由基于硬件的专用计算机***或专用硬件和计算机指令的适当组合来实施，所述基于硬件的专用计算机***执行指定功能或步骤。

尽管本公开可包含一种方法，但设想它可以体现为有形的计算机可读媒体上的计算机程序指令，所述有形的计算机可读媒体例如是磁性或光学存储器或磁盘/碟或光盘/碟。所属领域的技术人员已知的上述示例性实施例的元件的所有结构、化学和功能等效物以引用的方式明确地并入本文中，且意图包含在本权利要求书内。此外，装置或方法不必解决本公开所寻求解决的每一个问题，因为它将包含在本权利要求书内。此外，在本公开中的元件、组件或方法步骤皆不意图献给公众使用，无论所述元件、组件或方法步骤是否在权利要求书中明确地列举出来。如本文中所使用，术语“包括(comprises、comprising)”或其任何其它变体意图涵盖非排他性的包含，使得包括元件列表的过程、方法、制品或设备不仅仅包含那些元件，而是可以包含此类过程、方法、制品或设备中未明确列举的或其中所固有的其它元件。

可以对所公开实施例作出改变和修改，而不脱离本公开的范围。这些和其它改变或修改意图包含于本公开的范围内，如所附权利要求书所述。

Claims

1.一种机器学习分类器产生方法，所述方法包括：

由处理器接收时间序列数据的第一数据集；

由所述处理器对所述第一数据集执行第一聚类操作，以便将所述第一数据集中的成员分组到第一簇群组中；

在所述处理器处将所述第一簇群组中的每个簇与第一标记群组中的对应标记相关联；

在执行所述第一聚类操作之后，由所述处理器接收所述时间序列数据的第二数据集；

在所述处理器处组合所述第二数据集和所述第一数据集的至少一部分以产生组合数据集；

由所述处理器对所述组合数据集执行第二聚类操作，以便将所述组合数据集中的成员分组到第二簇群组中；

在所述处理器处将所述第二簇群组中的一或多个簇与所述第一标记群组中的对应标记相关联；

在所述处理器处，基于对应于所述第二簇群组的第二标记群组和所述组合数据集产生训练数据；以及

在所述处理器处，基于所述训练数据训练机器学习分类器，以便将标记提供给所述时间序列数据的第三数据集。

2.根据权利要求1所述的方法，其中所述第一标记群组包含描述与所述时间序列数据相关联的操作状态的一或多个用户定义标记。

3.根据权利要求1所述的方法，其进一步包括发起对新簇的标记的提示的显示，其中所述第二簇群组包含所述新簇。

4.根据权利要求1所述的方法，其中训练所述机器学习分类器包括训练所述机器学习分类器以基于实时时间序列数据检测装置的操作状态并产生指示描述所述操作状态的用户定义标记的输出，并且其中所述用户定义标记包括簇标记。

5.根据权利要求1所述的方法，其进一步包括基于所述第一数据集和所述第一标记群组训练第一机器学习分类器以将标记提供给输入数据，其中所述机器学习分类器包括第二机器学习分类器。

6.根据权利要求5所述的方法，其进一步包括将所述第二数据集提供给所述第一机器学习分类器以产生与所述第二数据集相关联的一或多个标记。

7.根据权利要求1所述的方法，其中所述第一数据集和所述第二数据集包括由一或多个压力传感器产生的压力测量值、由一或多个振动传感器产生的振动测量值、由一或多个温度传感器产生的温度测量值，或其组合。

8.根据权利要求1所述的方法，其中所述第一簇群组中的第一簇与所述第一标记群组中的第一标记相关联，其中所述第二簇群组中的第二簇与所述第一标记相关联，并且其中所述第一簇的特性不同于所述第二簇的对应特性。

9.根据权利要求1所述的方法，其中所述第一标记群组中的第一标记与所述第一簇群组中的第一簇相关联，其中所述第一簇在特征空间中具有第一中心位置，并且其中基于所述第二簇群组中的第二簇在所述特征空间中的中心位置在所述第一簇的所述中心位置的阈值距离内，所述第一标记与所述第二簇相关联。

10.根据权利要求1所述的方法，其中所述第一标记群组中的第一标记与所述第一簇群组中的第一簇相关联，其中所述第一簇包含所述第一数据集中的一或多个特定成员，并且其中基于所述第二簇群组中的第二簇包含所述一或多个特定成员，所述第一标记与所述第二簇相关联。

11.根据权利要求1所述的方法，其中所述第一标记群组中的第一标记与所述第一簇群组中的第一簇相关联，其中所述第一簇包含第一数量的成员，并且其中基于所述第一数量与包含在所述第二簇群组中的第二簇中的成员的第二数量之间的差满足阈值，所述第一标记与所述第二簇相关联。

12.根据权利要求1所述的方法，其中所述第一标记群组中的第一标记与所述第一簇群组中的第一簇相关联，其中所述第一簇与第一分布相关联，并且其中基于所述第一分布和与所述第二簇群组中的第二簇相关联的第二分布之间的差满足阈值，所述第一标记与所述第二簇相关联。

13.一种计算装置，其包括：

处理器；以及

耦合到所述处理器并存储指令的存储器，所述指令可由所述处理器执行以执行包括以下各项的操作：

接收时间序列数据的第一数据集；

对所述第一数据集执行第一聚类操作，以便将所述第一数据集中的成员分组到第一簇群组中；

将所述第一簇群组中的每个簇与第一标记群组中的对应标记相关联；

在执行所述第一聚类操作之后，接收所述时间序列数据的第二数据集；

组合所述第二数据集和所述第一数据集的至少一部分以产生组合数据集；

对所述组合数据集执行第二聚类操作，以便将所述组合数据集中的成员分组到第二簇群组中；

将所述第二簇群组中的一或多个簇与所述第一标记群组中的对应标记相关联；

基于对应于所述第二簇群组的第二标记群组和所述组合数据集产生训练数据；以及

基于所述训练数据训练机器学习分类器，以便将标记提供给所述时间序列数据的第三数据集。

14.根据权利要求13所述的计算装置，其中所述第一簇群组中的第一簇与所述第一标记群组中的第一标记相关联，其中所述第二簇群组中的第二簇与所述第一标记相关联，并且其中所述第一簇的特性不同于所述第二簇的对应特性。

15.根据权利要求13所述的计算装置，其进一步包括配置成显示对应于所述第二标记群组的一或多个用户定义标记的提示的显示装置。

16.根据权利要求15所述的计算装置，其中所述机器学习分类器配置成基于实时时间序列数据检测装置的操作状态并产生指示描述所述操作状态的所述一或多个用户定义标记的输出，并且其中所述显示装置进一步配置成显示所述输出。

17.根据权利要求15所述的计算装置，其进一步包括配置成接收指示所述一或多个用户定义标记的用户输入的输入接口。

18.一种存储指令的计算机可读存储装置，所述指令在由处理器执行时使所述处理器执行包括以下各项的操作：

接收时间序列数据的第一数据集；

在执行所述第一聚类操作之后，接收时间序列数据的第二数据集；

组合所述第一数据集和所述第二数据集以产生组合数据集；

19.根据权利要求18所述的计算机可读存储装置，其中所述第一数据集和所述第二数据集包括由一或多个压力传感器产生的压力测量值、由一或多个振动传感器产生的振动测量值、由一或多个温度传感器产生的温度测量值，或其组合。

20.根据权利要求19所述的计算机可读存储装置，其中所述第一数据集和所述第二数据集由耦合到一或多个涡轮、一或多个压缩机、一或多个石油钻塔或其组合的传感器产生。