CN114938337A

CN114938337A - 一种模型训练方法、装置及电子设备

Info

Publication number: CN114938337A
Application number: CN202210380734.1A
Authority: CN
Inventors: 田光见; 饶思维; 叶强; 段艳杰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-23
Anticipated expiration: 2042-04-12

Abstract

本申请提供了一种模型训练方法、装置及电子设备。该方法包括确定N种类型的样本数据，样本数据包括在通信网络中由网络设备产生的数据，N≥1；基于样本数据，对第一目标模型进行自监督训练，第一目标模型中包括第一子模型，第一子模型包括第一网络和第二网络，第一网络中包括N种第一子网络，每种第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，第二网络中包括N种第二子网络，每种第二子网络均用于基于N个第一特征对一种类型的样本数据进行预测。由此实现了对多种不同类型的现网数据进行统一建模，从而有效地建模不同数据之间的业务关联关系，降低了网络运维的难度。

Description

一种模型训练方法、装置及电子设备

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种模型训练方法、装置及电子设备。

背景技术

随着通信技术的发展，全球通信网络中的物理站点数、逻辑站点数和频谱等也逐渐增多，进而造成了大规模的异构网(比如：长期演进(long term evolution，LTE)、通用移动通信***(universal mobile telecommunications system，UMTS)、无线局域网(wireless local area networks，WLAN)等)并存。在大规模的异构网并存时，网络环境会变的越来越复杂，使得网络运维的难度剧增。

发明内容

本申请提供了一种模型训练方法、装置、电子设备、计算机存储介质、计算机产品及芯片，能够实现对多种不同类型的现网数据进行统一建模，从而可以有效地建模不同数据之间的业务关联关系，降低了网络运维的难度。

第一方面，本申请提供一种模型训练方法，该方法可以包括：确定N种类型的样本数据，样本数据包括在通信网络中由网络设备产生的数据，N≥1；基于样本数据，对第一目标模型进行自监督训练，其中，第一目标模型中包括第一子模型，第一子模型包括第一网络和第二网络，第一网络中包括N种第一子网络，每种第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，第二网络中包括N种第二子网络，每种第二子网络均用于基于N个第一特征，对一种类型的样本数据进行预测。示例性的，样本数据可以为下文所描述的现网数据，第一子模型可以为下文所描述的子模型二。

这样，可以实现对多种不同类型的现网数据进行统一建模，从而可以有效地建模不同数据之间的业务关联关系，降低了网络运维的难度。同时，针对不同类型的样本数据设计不同类型的用于进行特征提取的网络和用于进行数据预测的网络，可以有效的针对不同类型的数据的特点进行建模，从而实现更好地建模不同数据的内在结构特点，提升模型预测的准确度。

在一种可能的实现方式中，N种类型的样本数据包括：离散Token序列数据、高维连续型时间序列数据和事件序列数据，第一网络为编码器，第二网络为解码器；离散Token序列数据对应的第一子网络为基于Transformer进行编码的网络，离散Token序列数据对应的第二子网络为基于Transformer进行解码的网络；高维连续型时间序列数据和事件序列数据对应的第一子网络均为基于循环神经网络RNN进行编码的网络，高维连续型时间序列数据和事件序列数据对应的第二子网络均为基于RNN进行解码的网络。

在一种可能的实现方式中，第一目标模型中还包括第二子模型，第二子模型基于与通信领域相关的知识训练得到，第二子模型用于生成N种类型的样本数据中蕴含的通信领域相关的知识的表示，以得到第二特征；其中，每种第二子网络均用于基于第二特征和N个第一特征，对一种类型的样本数据进行预测。这样通过第二子模型引入通信原理知识，解决了以往运维分析只针对单一数据进行建模无法反映业务事实的缺陷，从而解决了数据异常不等于业务异常的问题；同时，与规则引入通信原理知识的方法相比，也减少了人工总结规则的工作量，提高了技术方案的泛化能力与扩展性。示例性的，第二子模型可以为下文所描述的子模型一，通信领域相关的知识可以为下文所描述的通信原理知识。

在一种可能的实现方式中，当样本数据为离散Token序列数据和/或事件序列数据时，通过第二子模型获取样本数据的语义表征，以得到第二特征；当样本数据为高维连续型时间序列数据时，通过第二子模型获取预设时间内的样本数据的语义表征，以得到第二特征。

在一种可能的实现方式中，在基于样本数据，对第一目标模型进行自监督训练之后，方法还包括：确定目标任务对应的目标神经网络；将目标神经网络添加至第一目标模型中，以得到第二目标模型，其中，目标神经网络的输入为第一子模型中第一网络的输出；基于目标任务对应的具有标注的样本数据，对第二目标模型进行训练。这样，利用预训练好的第一目标模型，在此基础之上叠加适配目标任务的网络层，对新的网络结构使用特定的标注数据进行少量轮数的迭代训练，从而对整个网络进行微小调整即可以适应特定的目标任务，减少了第二目标模型的训练量与标注样本需求量，提升了模型训练效率。示例性的，该过程可以理解为是下文所描述的“下游任务微调”的过程。

第二方面，本申请提供一种模型训练装置，装置包括：确定单元和训练单元。确定单元用于确定N种类型的样本数据，样本数据包括在通信网络中由网络设备产生的数据，N≥1。训练单元用于基于样本数据，对第一目标模型进行自监督训练，其中，第一目标模型中包括第一子模型，第一子模型包括第一网络和第二网络，第一网络中包括N种第一子网络，每种第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，第二网络中包括N种第二子网络，每种第二子网络均用于基于N个第一特征，对一种类型的样本数据进行预测。

在一种可能的实现方式中，第一目标模型中还包括第二子模型，第二子模型基于与通信领域相关的知识训练得到，第二子模型用于生成N种类型的样本数据中蕴含的通信领域相关的知识的表示，以得到第二特征；其中，每种第二子网络均用于基于第二特征和N个第一特征，对一种类型的样本数据进行预测。

在一种可能的实现方式中，该装置还包括：应用单元，用于在训练得到第一目标模型后，确定目标任务对应的目标神经网络，以及，将目标神经网络添加至第一目标模型中，以得到第二目标模型，其中，目标神经网络的输入为第一子模型中第一网络的输出；应用单元还用于：基于目标任务对应的具有标注的样本数据，对第二目标模型进行训练。

第三方面，本申请提供一种电子设备，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序；其中，当存储器存储的程序被执行时，处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第五方面，本申请提供一种计算机程序产品，其特征在于，当计算机程序产品在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第六方面，本申请提供一种芯片，其特征在于，包括至少一个处理器和接口；至少一个处理器通过接口获取程序指令或者数据；至少一个处理器用于执行程序行指令，以实现第一方面或第一方面的任一种可能的实现方式所描述的方法。

可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1是本申请实施例提供的一种网络运维模型的应用场景示意图；

图2是本申请实施例提供的一种网络运维模型的架构示意图；

图3是本申请实施例提供的一种使用BERT的神经网络架构进行子模型一的预训练的过程；

图4是本申请实施例提供的一种通过一个条件变分自动编码器CVAE的神经网络实现编码-解码器的框架的示意图；

图5是本申请实施例提供的一种在现网数据中注入通信原理知识的过程示意图；

图6是本申请实施例提供的一种模型训练方法的流程示意图；

图7是本申请实施例提供的一种模型训练装置的结构示意图；

图8是本申请实施例提供的一种芯片的结构示意图。

具体实施方式

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一响应消息和第二响应消息等是用于区别不同的响应消息，而不是用于描述响应消息的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个处理单元是指两个或者两个以上的处理单元等；多个元件是指两个或者两个以上的元件等。

首先，对本申请中涉及的技术术语进行介绍。

(1)预训练

在机器学习中某种特殊的任务只存在非常少量的标注的相关训练数据，以至于模型不能从中学习总结到有用的规律；然而，无标注的资源是丰富的，通过使用尽可能多的无标注训练数据，从中提取出尽可能多的共性特征，预先训练出一个大模型，基于该大模型可以实现特定任务，使得其学习负担变轻。其中，预训练得到的大模型是通过自监督学习方式得到的一个包含有较多层数和参数的模型，其可以为后续特定任务的待训练的模型的样本，提供更好的特征表示。

(2)下游任务微调

利用预训练好的神经网络结构和参数(即大模型)，在此基础之上叠加适配特定任务的网络层，对新的网络结构使用特定的标注数据(即下游任务)进行少量轮数的迭代训练，从而对整个网络进行微小调整以适应特定的下游任务。示例性的，当下游任务为分类任务时，可以在预训练得到的大模型中叠加用于分类的网络层。其中，由于预训练的大模型已经可以很好的表征数据中共性的特征，所以在后续通过微小的调整大模型中的参数，就可以得到针对特定任务的网络模型，从而可以对特定的任务进行处理等。

接着，对本申请涉及的技术方案进行介绍。

目前网络运维面临的问题可以归纳为：

1、数据类型多，结构复杂，互相关联。网络运维所需要处理的现网数据包含呼叫记录***(call history record，CHR)、关键性能指标(key performance indicator，KPI)、告警等多种类型的数据，这些数据间存在一定的关联关系，人工进行业务分析时往往需要同时分析多种数据。

2、数据≠业务。现网数据异常不等于业务异常，数据不能完全反映业务事实，没有网络通信协议知识的支撑，导致数据驱动的模型误报率高。

3、异常数据量少难采集。正常运行状态下产生的正常数据是海量的，异常数据则是偶然的，面向异常数据构建模型困难较大。

一般的，在对通信网络的现网数据进行建模时，仅分析单一数据，或分析多种数据时进行融合的方法过于简单，因此其无法有效地处理复杂的业务问题，更不能捕捉不同数据间的业务关联关系。另外，在现网数据分析过程中引入通信原理知识都是通过人工总结规则的方法，这使得泛化能力有限，可扩展性差。

鉴于此，本申请提出了一种融合通信原理与现网数据的网络运维模型，通过一个编码器-解码器的框架将网络运维处理的现网数据统一建模到一个框架中，并针对现网数据的结构特点，在编码器-解码器的统一框架下又对不同类型的现网数据设计了不同的神经网络结构，有效地对不同数据类型的特点进行了建模。同时，以领域预训练语言模型的方式引入通信原理知识，一方面提供了更好的可计算的知识模型，另一方减少了人工总结规则的工作量，提高了技术方案的泛化能力与扩展性。其中，该网络运维模型，可以采取预训练的模式，在正常运行的网络设备上可以较容易的收集到海量的正常现网数据，并通过自监督预测的方式进行预训练；预训练后的模型可用于支撑多种下游任务进行微调。

本申请实施例中，网络运维模型可以包括两个子模型。子模型一是基于领域相关文本(包括但不局限于技术文档、产品说明、通信协议、案例等)预训练的语言模型；子模型二是一种多模态的编码-解码器，实现对现网多种形式的序列数据(包括离散Token序列，如信令、CHR等；高维连续型时间序列，如KPI；事件序列，如告警、日志等)的统一建模。子模型二可以基于大规模的正常现网数据进行预训练，其间子模型一用于生成通信原理的表征并与现网数据融合，同时可以优化子模型一的参数。其中，预训练所得的子模型一、子模型二均可用于支撑多种网络运维的下游任务。

示例性的，图1示出了一种网络运维模型的应用场景示意图。如图1所示，预训练得到网络运维模型的过程可以描述为：包括使用领域文本预训练的子模型一，和，使用现网数据预训练的子模型二。在预训练期间，子模型一用以提供通信原理知识融合到子模型二中。预训练所得子模型一、子模型二构成最终的网络运维模型。

下游任务微调的过程可以描述为：预训练好的子模型一、二是特定的神经网络，当用于下游任务微调时，可以在它们的基础上叠加下游任务特定的神经网络，即将子模型一、二作为下游任务的神经网络框架的输入。子模型一可以用于文本数据的下游任务，子模型二可以用于现网数据的下游任务。所谓的微调，是将预训练模型叠加下游任务后总的神经网络框架在下游任务的数据上再进行少数几轮的迭代训练，得到最终的面向下游任务的模型。

示例性的，图2示出了一种网络运维模型的架构示意图。如图2所示，该网络运维模型可以包括两个子模型。子模型一可以是一个预训练的语言模型，即图中所示的通信领域预训练的语言模型；子模型二可以是一个编码器(encoder)-解码器(decoder)框架。

其中，子模型一可以用于为子模型二提供通信原理知识的注入与融合，即将通信原理融合到现网数据中，其可以是基于领域相关文本预训练的语言模型。通信原理知识可以是领域相关文本，比如技术文档、产品说明、通信协议、案例等，这些知识都是以自然语言的形式记录存储的。其中，子模型一可以但不限于是利用通信原理知识对BERT(bidirectional encoder representation from transformers)、生成式预训练Transformer(generative pre-trained transformer，GPT)等模型进行训练得到。举例来说，如图3所示，该图示出的是使用BERT的神经网络架构进行子模型一的预训练的过程。在图3中，以输入的领域相关文本长度为5个词为例，将其中一个词掩盖，即图中的w₄被掩盖，然后通过tansformer编码器对所有词进行特征编码，最后将编码的特征输入到全连接层对w₄进行预测，将预测出的w_4与真实的w₄进行比对实现自监督的训练。

子模型二可以是一种多模态的编码-解码器。其中，大多数的现网运维数据(即现网数据)都是序列数据，根据其形式的差异可以分为：离散Token序列数据(如CHR)、高维连续型时间序列数据(如KPI)、事件序列数据(如告警)，因此，可以通过一个多模态的编码-解码器框架实现对上述三类序列数据的统一建模，并且基于正常状态下网络设备产生的数据进行模型的预训练。示例性的，如图4所示，可以但不限于通过一个条件变分自动编码器(conditional autoencoder，CVAE)的神经网络实现上述的编码-解码器的框架。继续参阅图4，对于离散token序列可以但不限于使用Transformer作为其编码-解码的网络；对于高维连续型时间序列、事件序列，可以但不限于使用递归神经网络(recurrent neuralnetwork,RNN)作为其编码-解码的网络。在图4中，为处理各序列数据所选的神经网络，在编码阶段可以生成各序列数据对应的隐变量；在解码阶段，对于离散token序列，可以直接通过解码网络生成预测结果；对于高维连续型时间序列可以通过网络预测其数值对应的分布，再由分布的采样获得具体的数值；对于事件序列，由于事件发生的时间点是不规则的，因此可以但不限于先通过神经网络常微分方程拟合出一个连续变化的轨迹，再通过采样获得事件的预测。在一些实施例中，在预训练过程中，对现网正常运行设备上收集的上述三类数据经时间轴对齐后，可以使用前一个时间窗口内的数据输入编码器进行编码，在解码器中获得对下一时间窗口数据的预测，通过与真实的下一时间窗口数据的比对实现自监督的训练。

继续参阅图2，在对网络运维模型进行预训练时，可以先基于通信原理知识训练得到通信领域预训练的语言模型(即“子模型一”)。然后，再将现网数据，比如离散Token序列(如CHR)、高维连续型时间序列(如KPI)、事件序列(如告警)等输入到“子模型二”中的编码器分别进行编码。在编码过程中，可以将不同阶段编码得到的语言特征输入到子模型一中，其中，语言特征可以包含现网数据的名称、定义、形态的文字描述等，以将通信原理知识融合到现网数据中。其中，经过编码器编码后，可以得到每种类型的现网数据对应的隐变量，经过子模型一处理后，可以得到另一个隐变量，这些隐变量可以组成一个新的特征，该特征中融合了通信原理知识。最后，将可以将这个新的特征输入到解码器进行解码，从而完成对下一时刻或时间段内的现网数据的预测，以及基于预测到的数据和真实数据实现自监督的训练，进而得到预训练的网络运维模型。示例性的，在进行预训练的过程中，可以同时对子模型一中参数进行优化，以实现对其的二次训练。示例性的，也可以直接将现网数据输入至子模型一中进行处理，处理后的结果与子模型二中处理的结果合并即可以得到前述的由隐变量组成的新的特征。

在一些实施例中，在将现网数据中融入通信原理知识(该通信原理知识可以是上述的不同现网数据中包含的语言特征)时，对于离散token序列数据，如CHR，其token就是一个语义单位(即一个单词)，可以通过子模型一直接获得其语义表征；对于高维连续型时间序列数据，如KPI，可以通过将KPI的名称与滑动窗口中的形态描述组合成一段自然语言的文本，再通过子模型一获得其语义表征；对于事件序列数据，如告警，其告警的定义天然就是自然语言，也可以通过子模型一获得其语义表征。整体上，编码器输入窗口内各类数据的语义表征，可以转换为一个向量并最终与现网数据值的编码向量融合，以这种方式实现将通信原理知识注入到现网数据。举例来说，以KPI和告警为例，如图5所示，由滑动窗口51可以得到一个KPI的描述文本，由滑动窗口52可以得到一个KPI的描述文本，滑动窗口53可以得到一个KPI的描述文本，每个告警均由其自身的描述文本，将3个KPI的描述文本和2个告警的描述文本输入到子模型一(即图中的“Pre-trained Language Model”)，可以得到相应的语义表征。

可以理解的是，对网络运维现网数据的分析，如异常检测、预测预防、根因分类等，其本质都是基于机器学习的相关任务，如回归、分类、生成等实现的。而影响分析效果的一方面是上述的需要引入业务知识，即通信原理；另一方面则是现网数据转换成的可计算向量的质量。基于为了生成高质量的现网数据的表征的出发点，结合网络运维中正常现网数据是海量的，而异常现网数据获取困难的特点，本申请实施例中可以基于正常现网数据进行预训练的模式来构建高质量的数据表征模型。因此，可以通过一个编码器-解码器的框架用来对现网数据建模，在编码器部分对现网数据进行特征化编码，在解码器部分进行自监督的预测，从而实现预训练。

另外，网络运维分析的现网数据大致可以划分为离散Token序列(如信令、CHR等)、高维连续型时间序列(如KPI)、事件序列(如告警、日志等)，这些数据有不同的特点，离散token序列其每个时间戳上的值是一系列token的集合，连续型时间序列每个时间戳上是一个实数值，时间序列是一个在时间戳上不确定分布的离散值。因此，可以在编码器-解码器的框架内设计了不同的神经网络来对三种类型的数据进行建模，有效地适配各类数据的特点，实现对各类现网数据高质量的融合表征。此外，本申请实施例中，子模型一、二均采用预训练的方式进行构建，都可以用来支撑多种网络运维的下游任务，其中子模型一可用来支撑文本类型的下游任务，比如机器问答、文本分类等；子模型二可用来支撑现网数据的分析任务，如异常检测、预测预防等。

此外，在本申请实施例中，通过一个编码器-解码器的框架将网络运维处理的现网数据统一建模到一个框架中，实现了对多种不同类型的现网数据进行统一建模，从而可以有效地建模不同数据之间的业务关联关系。同时，针对现网数据的结构特点，在编码器-解码器的统一框架下又对不同类型的现网数据设计了不同的神经网络结构，有效地对不同数据类型的特点进行了建模。另外，以领域预训练语言模型作为通信原理知识的基座，使用现网数据的名称、token和形态描述获取其对应的文本形式数据，经预训练语言模型转换得到稠密向量与现网数据本身的向量表征进行融合，从而实现将通信原理融合到现网数据中，解决了以往运维分析只针对单一数据进行建模无法反映业务事实的缺陷，从而解决了数据异常不等于业务异常的问题；同时，与规则引入通信原理知识的方法相比，也减少了人工总结规则的工作量，提高了技术方案的泛化能力与扩展性。

在一些实施例中，在进行下游任务微调时，可以在前述的子模型一和/或子模型二的基础上叠加下游任务特定的神经网络，即将子模型一、二作为下游任务的神经网络框架的输入。其中，所谓的微调是将叠加了下游任务的神经网络后的总体框架，在下游任务的数据上再进行少量几轮迭代训练，得到最终的面向下游任务的模型。

在进行下游任务微调时，对于文本类型的网络运维数据，包括但不局限于咨询问题、故障描述等，可以通过子模型一生成其对应的语义向量表征，用于其相关的下游任务，包括但不局限于机器问答、文本分类等。

对于离散Token序列(如CHR)、高维连续型时间序列(如KPI)、事件序列(如告警)的现网数据，可以通过子模型一与子模型二生成其对应的向量表征(即融合了通信原理与数据的数值特征)，用于其相关的下游任务，包括但不局限于异常检测、预测预防等。

可以理解的是，本申请实施例中的网络运维模型，与现有的对网络运维的单一序列数据建模相比，其可以在一个编码器-解码器的框架内，实现对多种类型的现网数据的统一建模，可以有效地建模不同数据之间的业务关联关系。同时，可以针对多种类型的网络运维序列数据的特点，设计不同的网络结构，从而更好地建模不同数据的内在结构特点。另外，通过预训练领域语言模型作为通信原理知识的底座，一方面可以提供更好的可计算的知识模型，另一方面可以减少人工总结规则的工作量，提高了网络运维模型的泛化能力与扩展性。

在一些实施例中，上文所描述的网络运维模型中的子模型一可以适应性选取，此处并不做强制要求。例如，网络运维模型可以仅有子模型二组成，也可以由子模型一和子模型二组成。

接下来，基于上文所描述的内容，对本申请实施例提供的一种模型训练方法进行介绍。可以理解的是，该方法是基于上文所描述的内容提出，该方法中的部分或全部内容可以参见上文中的描述。

请参阅图6，图6是本申请实施例提供的一种模型训练方法的流程示意图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图6所示，该模型训练方法包括：

在S601，确定N种类型的样本数据，样本数据包括在通信网络中由网络设备产生的数据，N≥1。其中，样本数据可以是从网络中收集到的由网络设备产生的现网数据，比如CHR、KPI、告警等数据。示例性的，N种类型的样本数据可以包括：离散Token序列数据、高维连续型时间序列数据和事件序列数据。

在S602，基于样本数据，对第一目标模型进行自监督训练，其中，第一目标模型中包括第一子模型，第一子模型包括第一网络和第二网络，第一网络中包括N种第一子网络，每种第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，第二网络中包括N种第二子网络，每种第二子网络均用于基于N个第一特征，对一种类型的样本数据进行预测。

本实施例中，确定出样本数据后，可以基于该样本数据，对预先建立的第一目标模型进行自监督训练，以得到与样本数据适配的模型。其中，该第一目标模型中可以包括第一子模型，第一子模型包括第一网络和第二网络，第一网络中包括N种第一子网络，每种第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，第二网络中包括N种第二子网络，每种第二子网络均用于基于N个第一特征，对一种类型的样本数据进行预测。示例性的，第一子模型可以为图2中所描述的子模型二，第一网络可以为图2中的编码器，第二网络可以为图2中的解码器。

示例性的，离散Token序列数据对应的第一子网络为基于Transformer进行编码的网络，离散Token序列数据对应的第二子网络为基于Transformer进行解码的网络；高维连续型时间序列数据和事件序列数据对应的第一子网络均为基于循环神经网络RNN进行编码的网络，高维连续型时间序列数据和事件序列数据对应的第二子网络均为基于RNN进行解码的网络。

由此，通过对多种不同类型的现网数据进行统一建模，从而可以有效地建模不同数据之间的业务关联关系，降低了网络运维的难度。同时，针对不同类型的样本数据设计不同类型的用于进行特征提取的网络和用于进行数据预测的网络，可以有效的针对不同类型的数据的特点进行建模，从而实现更好地建模不同数据的内在结构特点，提升模型预测的准确度。

在一些实施例中，第一目标模型中还可以包括第二子模型，第二子模型基于与通信领域相关的知识训练得到，第二子模型用于生成N种类型的样本数据中蕴含的通信领域相关的知识的表示，以得到第二特征；其中，每种第二子网络均用于基于第二特征和N个第一特征，对一种类型的样本数据进行预测。这样，通过第二子模型引入通信原理知识，解决了以往运维分析只针对单一数据进行建模无法反映业务事实的缺陷，从而解决了数据异常不等于业务异常的问题；同时，与规则引入通信原理知识的方法相比，也减少了人工总结规则的工作量，提高了技术方案的泛化能力与扩展性。示例性的，第二子模型可以为图2中所描述的子模型一，通信领域相关的知识可以为上文所描述的通信原理知识。示例性的，第二特征和N个第一特征可以组合成图2中所示的隐变量。

在一些实施例中，当样本数据为离散Token序列数据和/或事件序列数据时，通过第二子模型获取样本数据的语义表征，以得到第二特征；当样本数据为高维连续型时间序列数据时，通过第二子模型获取预设时间内的样本数据的语义表征，以得到第二特征。

在一些实施例中，在基于样本数据，对第一目标模型进行自监督训练之后，该方法还可以包括：确定目标任务对应的目标神经网络；将目标神经网络添加至第一目标模型中，以得到第二目标模型，其中，目标神经网络的输入为第一子模型中第一网络的输出；基于目标任务对应的样本数据，对第二目标模型进行训练。这样，利用预训练好的第一目标模型，在此基础之上叠加适配目标任务的网络层，对新的网络结构使用特定的标注数据进行少量轮数的迭代训练，从而对整个网络进行微小调整即可以适应特定的目标任务，减少了第二目标模型的训练量与标注样本需求量，提升了模型训练效率。示例性的，该过程可以理解为是下文所描述的“下游任务微调”的过程。

基于上述实施例中的方法，本申请实施例提供了一种模型训练装置。请参阅图7，图7是本申请实施例提供的一种模型训练装置的结构示意图。如图7所示，该模型训练装置700包括：确定单元710和训练单元720。确定单元710用于确定N种类型的样本数据，样本数据包括在通信网络中由网络设备产生的数据，N≥1。训练单元720用于基于样本数据，对第一目标模型进行自监督训练，其中，第一目标模型中包括第一子模型，第一子模型包括第一网络和第二网络，第一网络中包括N种第一子网络，每种第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，第二网络中包括N种第二子网络，每种第二子网络均用于基于N个第一特征，对一种类型的样本数据进行预测。

在一些实施例中，N种类型的样本数据包括：离散Token序列数据、高维连续型时间序列数据和事件序列数据，第一网络为编码器，第二网络为解码器；离散Token序列数据对应的第一子网络为基于Transformer进行编码的网络，离散Token序列数据对应的第二子网络为基于Transformer进行解码的网络；高维连续型时间序列数据和事件序列数据对应的第一子网络均为基于循环神经网络RNN进行编码的网络，高维连续型时间序列数据和事件序列数据对应的第二子网络均为基于RNN进行解码的网络。

在一些实施例中，第一目标模型中还包括第二子模型，第二子模型基于与通信领域相关的知识训练得到，第二子模型用于生成N种类型的样本数据中蕴含的通信领域相关的知识的表示，以得到第二特征；其中，每种第二子网络均用于基于第二特征和N个第一特征，对一种类型的样本数据进行预测。

在一些实施例中，该装置还包括：应用单元(图中未示出)，用于在训练得到第一目标模型后，确定目标任务对应的目标神经网络，以及，将目标神经网络添加至第一目标模型中，以得到第二目标模型，其中，目标神经网络的输入为第一子模型的输出；应用单元还用于：基于目标任务对应的样本数据，对第二目标模型进行训练。

应当理解的是，上述装置用于执行上述实施例中的方法，装置中相应的程序模块，其实现原理和技术效果与上述方法中的描述类似，该装置的工作过程可参考上述方法中的对应过程，此处不再赘述。

基于上述实施例中的方法，本申请实施例提供了一种电子设备。该电子设备可以包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序；其中，当存储器存储的程序被执行时，处理器用于执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例提供了一种计算机程序产品，其特征在于，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例还提供了一种芯片。请参阅图8，图8为本申请实施例提供的一种芯片的结构示意图。如图8所示，芯片800包括一个或多个处理器801以及接口电路802。可选的，芯片800还可以包含总线803。其中：

处理器801可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

接口电路802可以用于数据、指令或者信息的发送或者接收，处理器801可以利用接口电路802接收的数据、指令或者其它信息，进行加工，可以将加工完成信息通过接口电路802发送出去。

可选的，芯片800还包括存储器，存储器可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。

可选的，存储器存储了可执行软件模块或者数据结构，处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作***中)，执行相应的操作。

可选的，接口电路802可用于输出处理器801的执行结果。

需要说明的，处理器801、接口电路802各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

应理解，上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况选择性执行，可以部分执行，也可以全部执行，此处不做限定。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

确定N种类型的样本数据，所述样本数据包括在通信网络中由网络设备产生的数据，N≥1；

基于所述样本数据，对第一目标模型进行自监督训练，其中，所述第一目标模型中包括第一子模型，所述第一子模型包括第一网络和第二网络，所述第一网络中包括N种第一子网络，每种所述第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，所述第二网络中包括N种第二子网络，每种所述第二子网络均用于基于N个所述第一特征，对一种类型的样本数据进行预测。

2.根据权利要求1所述的方法，其特征在于，N种类型的样本数据包括：离散Token序列数据、高维连续型时间序列数据和事件序列数据，所述第一网络为编码器，所述第二网络为解码器；

所述离散Token序列数据对应的第一子网络为基于Transformer进行编码的网络，所述离散Token序列数据对应的第二子网络为基于Transformer进行解码的网络；

所述高维连续型时间序列数据和所述事件序列数据对应的第一子网络均为基于循环神经网络RNN进行编码的网络，所述高维连续型时间序列数据和所述事件序列数据对应的第二子网络均为基于RNN进行解码的网络。

3.根据权利要求1或2所述的方法，其特征在于，所述第一目标模型中还包括第二子模型，所述第二子模型基于与通信领域相关的知识训练得到，所述第二子模型用于生成所述N种类型的样本数据中蕴含的通信领域相关的知识的表示，以得到第二特征；

其中，每种所述第二子网络均用于基于所述第二特征和N个所述第一特征，对一种类型的样本数据进行预测。

4.根据权利要求3所述的方法，其特征在于，当所述样本数据为离散Token序列数据和/或事件序列数据时，通过所述第二子模型获取所述样本数据的语义表征，以得到所述第二特征；

当所述样本数据为高维连续型时间序列数据时，通过所述第二子模型获取预设时间内的所述样本数据的语义表征，以得到所述第二特征。

5.根据权利要求1-4任一所述的方法，其特征在于，在基于所述样本数据，对第一目标模型进行自监督训练之后，所述方法还包括：

确定目标任务对应的目标神经网络；

将所述目标神经网络添加至所述第一目标模型中，以得到第二目标模型，其中，所述目标神经网络的输入为所述第一子模型中第一网络的输出；

基于所述目标任务对应的具有标注的样本数据，对所述第二目标模型进行训练。

6.一种模型训练装置，其特征在于，所述装置包括：

确定单元，用于确定N种类型的样本数据，所述样本数据包括在通信网络中由网络设备产生的数据，N≥1；

训练单元，用于基于所述样本数据，对第一目标模型进行自监督训练，其中，所述第一目标模型中包括第一子模型，所述第一子模型包括第一网络和第二网络，所述第一网络中包括N种第一子网络，每种所述第一子网络均用于对一种类型的样本数据进行特征提取，以得到N个第一特征，所述第二网络中包括N种第二子网络，每种所述第二子网络均用于基于N个所述第一特征，对一种类型的样本数据进行预测。

7.根据权利要求6所述的装置，其特征在于，N种类型的样本数据包括：离散Token序列数据、高维连续型时间序列数据和事件序列数据，所述第一网络为编码器，所述第二网络为解码器；

8.根据权利要求6或7所述的装置，其特征在于，所述第一目标模型中还包括第二子模型，所述第二子模型基于与通信领域相关的知识训练得到，所述第二子模型用于生成所述N种类型的样本数据中蕴含的通信领域相关的知识的表示，以得到第二特征；

9.根据权利要求8所述的装置，其特征在于，当所述样本数据为离散Token序列数据和/或事件序列数据时，通过所述第二子模型获取所述样本数据的语义表征，以得到所述第二特征；

10.根据权利要求6-9任一所述的装置，其特征在于，所述装置还包括：

应用单元，用于在训练得到所述第一目标模型后，确定目标任务对应的目标神经网络，以及，将所述目标神经网络添加至所述第一目标模型中，以得到第二目标模型，其中，所述目标神经网络的输入为所述第一子模型中第一网络的输出；

所述应用单元，还用于：基于所述目标任务对应的具有标注的样本数据，对所述第二目标模型进行训练。

11.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序；

其中，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-5任一所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1-5任一所述的方法。

13.一种计算机程序产品，其特征在于，当所述计算机程序产品在处理器上运行时，使得所述处理器执行如权利要求1-5任一所述的方法。

14.一种芯片，其特征在于，包括至少一个处理器和接口；

所述至少一个处理器通过所述接口获取程序指令或者数据；

所述至少一个处理器用于执行所述程序行指令，以实现如权利要求1-5任一所述的方法。