WO2021169294A1

WO2021169294A1 - 更新应用识别模型的方法、装置及存储介质

Info

Publication number: WO2021169294A1
Application number: PCT/CN2020/118993
Authority: WO
Inventors: 司晓云; 胡新宇; 薛莉; 吴俊�; 张亮
Original assignee: 华为技术有限公司
Priority date: 2020-02-29
Filing date: 2020-09-29
Publication date: 2021-09-02
Also published as: CN113326946A; EP4095768A1; EP4095768A4; US20220414487A1

Abstract

一种更新应用识别模型的方法、装置及存储介质。客户端设备可以根据多条数据流量的识别结果来确定多个训练样本，进而通过该训练样本来训练应用识别模型，之后，客户端设备可以将训练得到的应用识别模型的模型数据上传至服务器，由服务器根据多个客户端设备上传的模型数据进行联合更新。之后，客户端设备可以根据服务器下发的联合更新后的模型数据来获取联合更新后的应用识别模型。由此可见，联合更新后的应用识别模型相当于是根据多个客户端设备收集到的实时数据流量的特征更新得到的，这样，即使应用更新或出现了其他新兴应用，也可以更好的保证应用识别模型的识别准确率。

Description

更新应用识别模型的方法、装置及存储介质

本申请要求于2020年2月29日提交的申请号为202010132251.0、申请名称为“更新应用识别模型的方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，特别涉及一种更新应用识别模型的方法、装置及存储介质。

背景技术

当前，各个应用在运行时会与对应的应用服务器进行数据通信，从而产生多条数据流量。客户端设备可以通过应用识别模型识别数据流量，以确定出该数据流量所属的应用类别，进而根据该应用类别来合理安排该数据流量。目前，用于进行应用识别的应用识别模型是采用训练样本离线训练好之后部署在客户端设备中的。但是，由于应用经常会进行更新，并且，新兴应用层出不穷，因此，通过离线训练好的应用识别模型得到的应用识别结果的准确率不高。

发明内容

本申请提供了一种更新应用识别模型的方法、装置及存储介质，可以用于提高应用识别模型识别新兴应用的能力以及提高应用识别模型识别升级应用的准确率。所述技术方案如下：

第一方面，提供了一种更新应用识别模型的方法，所述方法包括：根据多条数据流量中每条数据流量的应用识别结果，确定多个训练样本，所述应用识别结果是通过应用识别模型对相应数据流量进行识别得到；根据所述多个训练样本对所述应用识别模型进行训练；向服务器发送训练后的应用识别模型的模型数据，以使所述服务器根据接收到的多个客户端设备发送的模型数据获取联合更新后的模型数据；接收所述服务器发送的联合更新后的模型数据；根据所述联合更新后的模型参数获取联合更新后的应用识别模型。

在本申请实施例中，客户端设备可以根据多条数据流量的识别结果来确定多个训练样本，进而通过该训练样本来训练应用识别模型，之后，客户端设备可以将训练得到的应用识别模型的模型数据上传至服务器，由服务器根据多个客户端设备上传的模型数据进行联合更新。之后，客户端设备可以根据服务器下发的联合更新后的模型数据来获取联合更新的应用识别模型。由此可见，联合更新后的应用识别模型的模型数据相当于是由多个客户端设备根据实时数据流量动态更新得到的，这样，即使应用更新或出现了其他新兴应用，由于应用识别模型的模型数据也根据数据流量进行了动态更新，因此，可以更好的保证应用识别模型的识别准确率。

可选地，根据多条数据流量中的每条数据流量的应用识别结果，确定多个训练样本的实现方式可以有三种。其中，第一种实现方式，可以根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于未知应用的未知数据流量，根据未知数据流量生成多个训练样本。第二种实现方式，可以根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于目标应用类别的目标数据流量，根据目标数据流量生成多个训练样本，其中，所述目标应用类别是指在指定时间段内对应的数据流量的流量特征发生特征漂移的应用类别。第三种实现方式，将上述第一种实现方式和第二种实现方式结合，从多条数据流量中获取属于未知应用的未知数据流量以及属于目标应用类别的目标数据流量，根据该未知数据流量和目标数据流量生成多个训练样本。

在本申请实施例中，客户端设备可以获取多条数据流量中属于未知应用的未知数据流量，进而根据该未知数据流量生成训练样本来对应用识别模型进行训练，这样，通过更新后的应用识别模型可以更好的识别新兴应用，增强了应用识别模型对新兴应用的识别能力。

除此之外，对于已知应用的数据流量，客户端设备可以通过检测数据流量的流量特征是否发生漂移来识别更新升级的应用，进而根据更新升级的应用的数据流量生成训练样本来对应用识别模型进行重新训练，这样，最终更新后的应用识别模型可以更好的对更新升级后的应用进行识别，提高了应用识别的准确性。

可选地，在上述生成训练样本的第一种实现方式中，根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于未知应用的未知数据流量的实现过程可以为：从所述多条数据流量中获取应用识别结果符合未知应用条件的数据流量，将获取的数据流量作为属于未知应用的未知数据流量，所述未知应用条件是指应用识别结果中各个应用类别对应的置信度均小于参考阈值，或者，所述未知应用条件是指应用识别结果不属于多个指定聚类簇，所述多个指定聚类簇是对所述应用识别模型的原始训练样本集中的各个应用类别的数据流量的流量特征进行聚类得到。

本申请实施例中可以通过检测数据流量的识别结果是否符合未知应用条件来判断该数据流量是否属于未知应用，以此来确定未知数据流量，进而根据该未知数据流量生成训练样本对应用识别模型进行训练。

可选地，在上述生成训练样本的第一种实现方式中，根据未知数据流量生成训练样本的实现过程可以为：获取所述未知数据流量的流量特征；根据所述未知数据流量的流量特征，从所述服务器中获取所述未知数据流量所属的应用的应用信息；将所述未知数据流量的流量特征作为第一训练样本中的训练数据，将所述未知数据流量所属的应用的应用信息作为所述第一训练样本中的标签数据，所述第一训练样本为所述多个训练样本中的一个训练样本。

可选地，在上述生成训练样本的第二种实现方式中，根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于目标应用类别的目标数据流量的实现过程可以为：根据每条数据流量的应用识别结果，从所述多条数据流量中确定所述指定时间段内不属于未知应用的多条已知数据流量；根据所述多条已知数据流量的应用识别结果、所述指定时间段和所述客户端设备的标识，从所述服务器中获取所述多条已知数据流量的应用识别结果所包括的多种应用类别分别对应的特征漂移标志，所述特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；根据每种应用类别对应的特征漂移标志，从所述多种应用类别中确定数据流量的流量特征发生漂移的目标应用类别；从所述多条已知数据流量中获取属于所述目标应用类别的目标数据流量。

可选地，上述生成训练样本的第二种实现方式中，根据目标数据流量生成训练样本的实现方式可以为：将所述目标数据流量的流量特征作为第二训练样本中的训练数据，将所述目标数据流量的应用识别结果所指示的所述目标数据流量所属的应用类别作为所述第二训练样本中的标签数据，所述第二训练样本为所述多个训练样本中的一个训练样本。

可选地，所述训练后的应用识别模型的模型数据包括所述训练后的应用识别模型的模型参数，或者，所述训练后的应用识别模型的模型数据包括所述训练后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。

可选地，所述联合更新后的模型数据包括所述联合更新后的应用识别模型的模型参数，或者，所述联合更新后的模型数据包括所述联合更新后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。

第二方面，提供了一种更新应用识别模型的方法，所述方法包括：接收多个客户端设备发送的训练后的应用识别模型的模型数据，所述训练后的应用识别模型由相应客户端设备根据多个训练样本对所述应用识别模型训练得到，所述多个训练样本是由相应客户端设备根据多条数据流量中每条数据流量的应用识别结果确定得到；根据接收到的多个模型数据获取联合更新后的模型数据；向所述多个客户端设备发送所述联合更新后的模型数据，以使所述多个客户端设备根据所述联合更新后的模型数据获取联合更新后的应用识别模型。

在本申请实施例中，服务器可以根据接收到的多个客户端设备发送的训练后的模型数据来获取联合更新后的模型数据。由于客户端设备发送的训练后的模型数据是根据实时数据流量动态更新得到的，联合更新后的模型数据相当于是由各个客户端设备根据实时数据流量动态更新得到。这样，即使应用更新或出现了其他新兴应用，由于应用识别模型的模型数据也根据各个客户端设备对应的数据流量进行了动态更新，因此，可以更好的保证应用识别模型的识别准确率。

可选地，在接收多个客户端设备发送的训练后的应用识别模型的模型数据之前，还可以接收第一客户端设备发送的未知数据流量的流量特征，所述未知数据流量是所述第一客户端设备从多条数据流量中确定的属于未知应用的数据流量；根据所述未知数据流量的流量特征，获取所述未知数据流量所属的应用的应用信息；向所述第一客户端设备发送所述未知数据流量所属的应用的应用信息，以使所述第一客户端设备根据所述未知数据流量所属的应用的应用信息生成训练样本。

在本申请实施例中，服务器可以根据客户端设备发送的未知数据流量的流量特征来获取对应的应用信息，进而向客户端设备反馈该应用信息。这样，客户端设备就可以根据该未知数据流量生成训练样本来对应用识别模型进行训练，这样，通过更新后的应用识别模型可以更好的识别新兴应用，增强了应用识别模型对新兴应用的识别能力。

可选地，在接收多个客户端设备发送的训练后的应用识别模型的模型数据之前，还可以接收第一客户端设备发送的多条已知数据流量的应用识别结果、指定时间段和所述第一客户端设备的标识，所述多条已知数据流量是指从所述多条数据流量中确定的指定时间段内不属于未知应用的数据流量；根据所述多条已知数据流量的应用识别结果中包括的每个应用类别和每个应用类别对应的置信度，确定相应应用类别的当前画像；根据所述第一客户端设备的标识，获取最近一次确定的与所述指定时间段对应的每个应用类别的画像；根据每个应用类别的当前画像和获取的最近一次确定的相应应用类别的画像，确定相应应用类别对应的特征漂移标志，所述特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；向所述第一客户端设备发送每个应用类别对应的特征漂移标志，以使所述第一客户端设备根据每个应用类别对应的特征漂移标志获取属于目标应用类别的数据流量，并根据属于目标应用类别的数据流量生成训练样本，所述目标应用类别为数据流量的流量特征发生漂移的应用类别。

在本申请实施例中，对于已知应用的数据流量，服务器可以通过确定每个应用类别的画像来检测相应应用类别的数据流量的流量特征是否发生漂移，进而向客户端设备反馈用于指示特征是否发生漂移的特征漂移标志。客户端设备可以根据该特征漂移标志来识别更新升级的应用，进而根据更新升级的应用的数据流量生成训练样本来对应用识别模型进行重新训练，这样，最终更新后的应用识别模型可以更好的对更新升级后的应用进行识别，提高了应用识别的准确性。

第三方面，提供了一种更新应用识别模型的装置，所述更新应用识别模型的装置具有实现上述第一方面或第二方面中更新应用识别模型的方法行为的功能。所述更新应用识别模型的装置包括至少一个模块，该至少一个模块用于实现上述第一方面或第二方面所提供的更新应用识别模型的方法。

第四方面，提供了一种更新应用识别模型的装置，所述更新应用识别模型的装置的结构中包括处理器和存储器，所述存储器用于存储支持更新应用识别模型的装置执行上述第一方面或第二方面所提供的更新应用识别模型的方法的程序，以及存储用于实现上述第一方面或第二方面所提供的更新应用识别模型的方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述存储设备的操作装置还可以包括通信总线，该通信总线用于建立该处理器与存储器之间的通信连接。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的更新应用识别模型的方法。

第六方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的更新应用识别模型的方法。

上述第三方面、第四方面、第五方面和第六方面所获得的技术效果与第一方面或第二方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

本申请提供的技术方案带来的有益效果至少包括：

在本申请实施例中，客户端设备可以根据多条数据流量的识别结果来确定多个训练样本，进而通过该训练样本来训练应用识别模型，之后，客户端设备可以将训练得到的应用识别模型的模型数据上传至服务器，由服务器根据多个客户端设备上传的模型数据进行联合更新。之后，客户端设备可以根据服务器下发的联合更新后的模型数据来获取联合更新的应用识别模型。由此可见，联合更新后的应用识别模型相当于是根据多个客户端设备收集到的数据流量的特征动态更新得到的，这样，即使应用更新或出现了其他新兴应用，由于应用识别模型也根据各个客户端设备收集的数据流量的特征进行了动态更新，因此，可以更好的保证应用识别模型的识别准确率。

附图说明

图1是本申请实施例提供的更新应用识别模型的方法所涉及的一种***架构图；

图2是本申请实施例提供的更新应用识别模型的方法所涉及的另一种***架构图；

图3是本申请实施例提供的用于更新应用识别模型的计算机设备的结构示意图；

图4是本申请实施例提供的更新应用识别模型的方法流程图；

图5是本申请实施例提供的一种更新应用识别模型的装置结构示意图；

图6是本申请实施例提供的用于生成多个训练样本的确定模块的结构示意图；

图7是本申请实施例提供的另一种更新应用识别模型的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的应用场景予以介绍。

应用识别是指对客户端设备的数据流量进行识别以确定数据流量所属的应用类别。通过识别数据流量所属的应用类别，客户端设备可以另作他用，例如更为合理地安排各个数据流量，即可以根据数据流量所属的应用类别，来配置数据流量的收发优先级。

目前，可以采用离线训练好的AI模型来对数据流量进行识别。其中，AI模型的识别准确度依赖于离线训练时的训练样本集是否有效刻画了现实中可能的流量分布。然而，随着应用版本的更新迭代以及新兴应用的不断出现，原本训练得到AI模型的训练样本集将慢慢变得无法表征当前流量的分布情况，此时，该AI模型的识别准确度将会下降。本申请实施例提供的更新应用识别模型的方法即可以用于上述场景中，由客户端设备根据收集到的数据流量的流量特征来对AI模型进行重新训练后，将重新训练的AI模型的模型数据上传至服务器，由服务器根据多个客户端设备上传的模型数据来进行联合更新，以此来实现对AI模型的更新。

接下来对本申请实施例提供的更新应用识别模型的方法所涉及的***架构进行介绍。

图1是本申请实施例提供的更新应用识别模型的方法所涉及的***架构图。如图1中所示，该***中包括多个客户端设备101和服务器102。多个客户端设备101均可以与服务器102进行通信。

其中，每个客户端设备101上均部署有应用识别模型。并且，客户端设备101上可以安装有多个应用，或者，客户端设备101对应的终端上可以安装有多个应用。当应用运行时，可以与应用对应的应用服务器进行数据通信，从而产生数据流量，这些数据流量将经过客户端设备。各个客户端设备可以通过自身的应用识别模型来对数据流量进行识别，从而得到应用识别结果。在对数据流量进行识别的过程中，各个客户端设备101可以采用本申请实施例提供的方法，根据数据流量的应用识别结果来收集训练样本，进而根据收集的训练样本对应用识别模型进行重新训练。之后，各个客户端设备101可以将重新训练得到的应用识别模型的模型数据上传至服务器102。

服务器102可以接收各个客户端设备上传的模型数据，并根据各个客户端设备上传的模型数据获取联合更新后的模型数据。之后服务器可以向各个客户端设备101下发联合更新后的模型数据。

各个客户端设备101在接收到服务器102下发的联合更新后的模型数据之后，可以根据该联合更新后的模型数据来获取联合更新的应用识别模型。如果联合更新后的应用识别模型符合收敛条件，则客户端设备101后续可以利用该联合更新后的应用识别模型对数据流量进行识别。当然，如果联合更新后的应用识别模型不符合收敛条件，则客户端设备101可以继续对应用识别模型进行训练，然后继续上传训练后的模型数据至服务器，服务器也可以继续进行联合更新，直至联合更新后的应用识别模型符合收敛条件为止。也即，在本申请实施例中，客户端设备和服务器可以对该应用识别模型进行单轮更新，也可以进行多轮更新，本申请实施例对此不作限定。

需要说明的是，客户端设备101可以为支持本地训练的设备，示例性地，客户端设备101可以为手机、平板电脑、台式电脑、笔记本电脑、交换机、光线路终端(optical line terminal，OLT)、光网络终端(optical network terminal，ONT)、路由器、交换机等。本申请实施例对此不作限定。

服务器102可以为支持联合学***台。本申请实施例对此不作限定。

可选地，图2是本申请实施例示出的另一种***架构的示意图。参见图2，该***中可以包括多个客户端设备201、多个网络设备202和服务器203。其中，每个客户端设备201可以对应一个或多个网络设备202，且每个客户端设备201对应的一个或多个网络设备202为一个局点内的网络设备。

在该种实现方式中，客户端设备201也可以称为局点分析设备(也称局点分析平台)，可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。在该应用场景中，模型更新方法所涉及的***包括多个局点网络，局点网络可以为核心网，也可以为边缘网络，每个局点网络的用户可以为运营商或企业客户。不同局点网络可以是按照相应维度划分的不同网络，如，可以是不同地域的网络、不同运营商的网络、不同业务网络、不同网络域等。每个局点网络内包括一个或多个网络设备，多个客户端设备201与多个局点网络可以一一对应，每个客户端设备201用于为对应的局点网络提供数据分析服务，也即，每个客户端设备201可以对应一个局点网络内的一个或多个网络设备202，以为其提供数据分析等服务。每个客户端设备201可以位于对应的局点分析网络内，也可以位于对应的局点分析网络外。每个客户端设备201与服务器203之间通过有线网络或无线网络连接。本申请实施例中所涉及的通信网络是第二代(2-Generation，2G)通信网络、第三代(3rd Generation，3G)通信网络、长期演进(Long Term Evolution，LTE)通信网络或第五代(5rd Generation，5G)通信网络等。

另外，服务器203可以为云端分析设备(也称云分析平台)，其可以是一台计算机，或者一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心，其部署在服务网络的后端。

其中，网络设备202可以手机、平板电脑、台式电脑、笔记本电脑、交换机、光线路终端(optical line terminal，OLT)、光网络终端(optical network terminal，ONT)、路由器、交换机等。本申请实施例对此不作限定。

图3是本申请实施例提供的一种计算机设备的结构示意图。图1或2中的客户端设备或服务器均可以通过图3所示的计算机设备来实现。参见图3，该计算机设备包括至少一个处理器301，通信总线302，存储器303以及至少一个通信接口304。

处理器301可以是一个通用中央处理器(Central Processing Unit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或其任意组合。处理器301可以包括一个或多个芯片，处理器301可以包括AI加速器，例如：神经网络处理器(neural processing unit，NPU)。

通信总线302可包括一通路，在上述组件之间传送信息。

存储器303可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器303可以是独立存在，通过通信总线302与处理器301相连接。存储器303也可以和处理器301集成在一起。存储器303可以存储计算机指令，当存储器303中存储的计算机指令被处理器301执行时，可以实现本申请的更新应用识别模型的方法。另外，存储器303中还可以存储有处理器在执行上述方法的过程中所产生的中间数据和/或结果数据。

通信接口304，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

在具体实现中，作为一种实施例，处理器301可以包括一个或多个CPU。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

接下来对本申请实施例提供的更新应用识别模型的方法进行详细的解释说明。

图4是本申请实施例提供的一种更新应用识别模型的方法流程图。该方法可以应用于图1或图2所示的***中，参见图4，该方法包括：

步骤401：客户端设备根据多条数据流量中每条数据流量的应用识别结果，确定多个训练样本，该应用识别结果是通过应用识别模型对相应数据流量进行识别得到。

在本申请实施例中，客户端设备上部署有应用识别模型。该应用识别模型可以是离线训练好的AI模型，也可以是经过多次更新后的AI模型。其中，该客户端设备可以为图1或图2所示的***中的客户端设备。

在一种可能的实现方式中，当该客户端设备为图1中的客户端设备，客户端设备在运行某个应用时，或者是客户端设备对应的终端在运行某个应用时，可以与该应用的应用服务器进行数据通信，从而产生经过该该客户端设备的数据流量。例如，客户端设备可能会向应用服务器发送数据请求，应用服务器可以向客户端设备返回应用数据等。客户端设备向应用服务器发送的数据以及应用服务器返回至终端的数据均可以称为经过该客户端设备的数据流量。本步骤中的多条数据流量即可以指这些经过客户端设备的数据流量。

可选地，在另一种可能的实现方式中，对于图2中的客户端设备，客户端设备可以对应一个局点网络内的一个或多个网络设备。在这种情况下，当有数据流量经过该一个或多个网络设备时，该一个或多个网络设备可以将经过自身的数据流量的流量特征上报至客户端设备。此时，本步骤中的多条数据流量即可以是指经过客户端设备所对应的局点网络内的一个或多个网络设备的数据流量。

也就是说，在本申请实施例中，多条数据流量可以是指经过该客户端设备的数据流量，也可以是指未经过该客户端设备但是经过该客户端设备所服务的局点网络内的一个或多个网络设备的数据流量。

对于多条数据流量中的每条数据流量，客户端设备可以获取该数据流量的流量特征，将该流量特征输入至应用识别模型，从而通过该应用识别模型识别得到该数据流量的应用识别结果。

其中，应用识别结果可以包括该数据流量可能属于的应用类别和各个应用类别对应的置信度。需要说明的是，应用类别可以为具体的应用名称，例如，A应用、B应用等。或者，应用类别也可以为应用的类型，例如，可以为视频类应用、游戏类应用、语音类应用等。也就是说，本申请实施例中，应用识别结果可以是用于指示该数据流量属于哪个应用，也可以是用于指示该数据流量属于哪种类型的应用，本申请实施例对此不作限定。对于每条数据流量，客户端设备均可以通过应用识别模型得到各条数据流量的应用识别结果。

需要说明的是，在本申请实施例中，多条数据流量可能是属于未知应用的数据流量，也可能是已知应用的数据流量。其中，根据属于未知应用的数据流量，客户端设备可以生成第一训练样本，根据已知应用的数据流量中流量特征变化较大的数据流量，客户端设备可以生成第二训练样本。

接下来，分别对上述两种情况所对应的实现方式进行介绍。

(一)第一种实现方式

客户端设备在通过应用识别模型获得数据流量的应用识别结果之后，该客户端设备可以根据每条数据流量的应用识别结果，来判断相应数据流量是否为属于未知应用的未知数据流量，从而从多条数据流量中获取得到一条或多条属于未知应用的未知数据流量。

示例性地，以多条数据流量中的任一条数据流量为例，为了方便叙述，将其称为第一数据流量。客户端设备可以根据第一数据流量的应用识别结果，检测第一数据流量是否符合未知应用条件，如果第一数据流量符合未知应用条件，则说明第一数据流量为属于未知应用的未知数据流量。

其中，示例性地，未知应用条件可以为应用识别结果中各个应用类别的置信度均小于指定阈值。也就是说，如果第一数据流量的应用识别结果中包括的各种应用类别的置信度均小于指定阈值，则可以确定第一数据流量符合未知应用条件，也即，第一数据流量为属于未知应用的未知数据流量。否则，则可以确定第一数据流量不符合未知应用条件，其为不属于未知应用的已知数据流量。

可选地，未知应用条件也可以是指应用识别结果不属于多个指定聚类簇，其中，该多个指定聚类簇是对应用识别模型的原始训练样本集中的各个应用类别的数据流量的流量特征进行聚类得到。也即，在本申请实施例中，客户端设备可以对在离线训练时所采用的原始训练样本集中的各个应用类别的训练样本进行聚类，得到多个聚类簇，该多个聚类簇即为前述的多个指定聚类簇。这样，在通过该应用识别模型对第一数据流量的流量特征进行识别之后，客户端设备可以将该识别结果与各个应用类别对应的聚类簇的聚类中心以及置信半径作比较，如果该识别结果不属于任一聚类中心的置信半径簇内，也即，不属于该多个聚类簇中的任一聚类簇中，则可以确定第一数据流量符合未知应用条件，也即，第一数据流量为属于未知应用的未知数据流量。否则，则可以确定第一数据流量不符合未知应用条件，其为不属于未知应用的已知数据流量。

在通过前述方法确定出一条或多条未知数据流量之后，由于未知数据流量可能属于未知应用，而应用识别模型之前的训练样本中可能并没有包含该未知应用的相关样本，因此，客户端设备可以根据每条未知数据流量生成一个对应的第一训练样本。

示例性地，以任一条未知数据流量为例，客户端设备可以获取该未知数据流量的流量特征；根据该未知数据流量的流量特征，从服务器中获取未知数据流量所属的应用的应用信息；将未知数据流量的流量特征作为第一训练样本中的训练数据，将未知数据流量所属的应用的应用信息作为第一训练样本中的标签数据。

其中，该未知数据流量的流量特征可以包括该未知数据流量包括的多个数据包的收发包时间、收发包五元组、域名***(domain name system，DNS)地址、收发包长度和收发包个数、统一资源定位符(uniform resource locator，URL)等。

客户端设备在获取到未知数据流量的流量特征之后，可以根据未知数据流量的流量特征中包含的DNS地址或者是收发包五元组或者是URL等流量关键信息，从服务器中获取未知数据流量所属的应用的应用信息。

在一种可能的实现方式中，客户端设备可以将未知数据流量的流量特征中包含的流量关键信息发送至服务器。服务器可以根据该流量关键信息获取该未知数据流量所属的应用的应用信息。

需要说明的是，服务器中可以存储有流量关键信息与应用信息之间的映射关系。其中，如果服务器中存储的URL与应用信息之间的映射关系，也即，如果服务器中存储的流量关键信息为URL，则客户端设备可以将该未知数据流量的流量特征中包含的URL发送至服务器，服务器在接收到该URL之后，可以从存储的上述映射关系中获取该URL对应的应用信息发送至客户端设备。客户端设备在接收到该应用信息之后，可以将该应用信息作为该未知数据流量所属的应用的应用信息。其中，该应用信息可以包括应用名称、应用类型等信息。

可选地，如果服务器中存储的映射关系中的流量关键信息为IP地址，则客户端设备可以将收发包五元组发送至服务器，服务器可以从中获取IP地址，并从存储的映射关系中获取该IP地址对应的应用信息，将获取的应用信息发送至客户端设备。客户端设备在接收到该应用应用信息之后，可以将该应用信息作为该未知数据流量所属的应用的应用信息。

可选地，如果服务器中存储的映射关系中的流量关键信息为DNS地址，则客户端设备可以将该未知数据流量的关键特征中包含的DNS地址发送至服务器，服务器可以从存储的映射关系中获取该DNS地址对应的应用信息，并将该应用信息返回至客户端设备。客户端设备在接收到该应用应用信息之后，可以将该应用信息作为该未知数据流量所属的应用的应用信息。

可选地，服务器中存储的映射关系也可以是IP地址、DNS地址、URL和应用信息之间的映射关系，在这种情况下，客户端设备可以将该未知数据流量的流量特征中的收发包五元组、DNS地址和URL中的任意一个或多个发送至服务器，以获取对应的应用信息，本申请实施例在此不再赘述。

在另一种可能的实现方式中，客户端设备可以直接将未知数据流量的流量特征发送至服务器，服务器可以根据该流量特征中包含的流量关键信息来获取该未知数据流量所属的应用的应用信息。在这种情况下，服务器可以根据自身存储映射关系中流量关键信息的种类，从流量特征中获取对应种类的流量关键信息，进而根据获取到的流量关键信息从该映射关系中获取对应的应用信息。例如，假设服务器中存储的是URL与应用信息的映射关系，则服务器可以从接收到的流量特征中获取URL，进而根据获取的URL获取对应的应用信息。

值得注意的是，在一些可能的情况中，服务器根据客户端设备上报的流量关键信息从映射关系中未能找到对应的应用信息，此时，服务器可以显示该流量关键信息，由技术人员查看后，接收技术人员输入的该流量关键信息对应的应用信息。之后，服务器可以将该应用信息返回至客户端设备。与此同时，服务器还需将该流量关键信息和技术人员输入的应用信息对应存储至前述的映射关系表中，以便后续查询使用。

客户端设备在接收到服务器返回的该未知数据流量所属的应用的应用信息之后，可以将前述获取到的该未知数据流量的流量特征作为训练数据，将接收到的该未知数据流量所属的应用的应用信息作为该训练数据对应的标签数据。由该训练数据和标签数据组成该未知数据流量对应的第一训练样本。将该第一训练样本存储至客户端设备的训练数据存储区。

对于检测到的每条符合未知应用条件的未知数据流量，客户端设备均可以采用上述方法对该数据流量进行处理，从而得到对应的一个第一训练样本。

(二)第二种实现方式

上述介绍了对于符合未知应用条件的数据流量的处理方式。可选地，多条数据流量中可能还存在不属于未知应用的已知数据流量。基于此，客户端设备还可以根据每条数据流量的应用识别结果，从多条数据流量中确定属于目标应用类别的目标数据流量，其中，目标应用类别是指在指定时间段内对应的数据流量的流量特征发生特征漂移的应用类别。之后，可以根据属于目标应用类别的目标数据流量，生成第二训练样本。

示例性地，首先，客户端设备可以根据每条数据流量的应用识别结果，从多条数据流量中确定指定时间段内不属于未知应用的多条已知数据流量；之后，可以根据多条已知数据流量的应用识别结果、指定时间段和客户端设备的标识，从服务器中获取所述多条已知数据流量的应用识别结果所包括的多种应用类别分别对应的特征漂移值；从多种应用类别中确定特征漂移值等于参考漂移值的目标应用类别；从多条已知数据流量中获取属于目标应用类别的数据流量。

需要说明的是，客户端设备上每接收或发送一条数据流量，客户端设备即可以检测该数据流量的应用识别结果是否符合未知应用条件，如果数据流量的应用识别结果不符合未知应用条件，则可以将该数据流量确定为不属于未知应用的已知数据流量。其中，检测数据流量的应用识别结果是否符合未知应用条件的实现方式可以参考前文中的相关介绍，本申请实施例在此不再赘述。

另外，在本申请实施例中，客户端设备中可以按照不同的时间段来存储数据流量的应用识别结果。基于此，当确定一条数据流量为已知数据流量时，客户端设备可以根据该已知数据流量的接收或发送时间，将该已知数据流量的应用识别结果添加至包含有相应接收或发送时间的指定时间段的识别结果集合中。这样，客户端设备可以获取得到指定时间段内的多条已知数据量。

例如，多条数据流量中的一条数据流量为已知数据流量，该数据流量的接收或发送时间为19:30，客户端设备上存储有19:00-21:00这一时间段的识别结果集合，则客户端设备可以将该已知数据流量的识别结果添加至这一时间段的识别结果集合中。这样，客户端设备即可以确定出这一时间段内所有的已知数据流量，进而获取到这一时间段内的已知数据流量的应用识别结果。

对于每一时间段，客户端设备均可以通过上述方法确定得到相应时间段内的已知数据流量。

在获取到指定时间段内的多条已知数据流量的应用识别结果之后，客户端设备可以逐条或逐批或一次性将指定时间段内已知数据流量的应用识别结果、该指定时间段和客户端设备的标识发送至服务器。

其中，客户端设备的标识可以为客户端设备的地理位置，或者是客户端设备的设备标识等，本申请实施例对此不作限定。

服务器在接收到客户端设备发送的指定时间段内的多条已知数据流量的应用识别结果、指定时间段和客户端设备的标识之后，可以根据该指定时间段内的多条已知数据流量的应用识别结果中的每个应用类别和每个应用类别对应的置信度，确定相应应用类别的当前画像。之后，服务器可以根据客户端设备的标识，获取最近一次确定的与该指定时间段对应的每个应用类别的画像。根据每个应用类别的当前画像和获取的最近一次确定的相应应用类别的画像，确定相应应用类别对应的特征漂移标志，该特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；向客户端设备发送每个应用类别对应的特征漂移标志。

其中，对于任一条已知数据流量的应用识别结果，服务器可以将该应用识别结果包括的应用类别中对应的置信度最大的应用类别作为该已知数据流量的最终应用类别。按照每条已知数据流量的最终应用类别，将多个应用识别结果进行分类。之后，服务器可以按照每个最终应用类别所对应的应用识别结果的个数以及应用识别结果中该最终应用类别的置信度来确定相应应用类别的画像。

另外，最近一次确定的与该时间段对应的每个应用类别的画像可以是指最近一次确定的上一周期中该客户端设备的该指定时间段内的各个应用类别的画像，或者最近数次确定的在前几个周期中该客户端设备的该指定时间段内的各个应用类别的平均画像。

在确定每个应用类别的当前画像且获取到最近一次确定的各个应用类别的画像之后，服务器可以将相同应用类别的两个画像进行比较，如果两个画像之间的差异值超过预设阈值，则可以确定这两个画像对应的应用类别的数据流量的流量特征发生了漂移，也即，该应用类别的应用可能进行了应用更新升级。此时，可以将该应用类别对应的特征漂移标志设置为第一标志。如果两个画像之间的差异值不超过预设阈值，则可以确定这两个画像对应的应用类别的数据流量的流量特征变化较小，并未发生漂移，也即，该应用类别的应用未进行应用更新升级，此时，可以将这两个画像对应的应用类别的特征漂移标志设置为与第一标志不同的第二标志。

需要说明的是，在本申请实施例中，服务器中可以按照各个应用类别的顺序维护一个特征漂移字段，该特征漂移字段可以包括多个特征漂移标志位，每个特征漂移标志位可以对应一个应用类别。多个特征漂移标志位的默认值可以为与第二标志，例如，可以为0。基于此，当通过上述方法确定出某个应用类别的数据流量的流量特征发生漂移之后，服务器可以将该特征漂移字段中该应用类别对应的特征漂移标志位设置为第一标志，其中，该参考漂移值可以为1。如果应用类别的数据流量的流量特征未发生漂移，则可以保持该应用类别对应的特征漂移标志位为默认值0。如此，可以确定出特征漂移字段中各个应用类别对应的特征漂移标志位的取值，之后，服务器可以将该特征漂移字段发送至客户端设备，以便客户端设备确定哪些应用类别的数据流量的流量特征发生了漂移。

示例性地，假设服务器接收到客户端设备上传的当天19:00-21:00之间的应用识别结果，各个应用识别结果中包括视频类、游戏类、语音类三个应用类别和每个应用类别对应的置信度。则服务器可以将各个应用识别结果中对应的置信度最大的应用类别作为相应应用识别结果所对应的最终应用类别。这样，服务器可以按照各个应用识别结果所对应的最终应用类别，将多个应用识别结果划分到不同的应用类别，从而得到视频类的应用识别结果，游戏类的应用识别结果和语音类的应用识别结果。之后，服务器可以根据各个应用类别的应用识别结果中该应用类别的置信度和包含的应用识别结果的个数来确定得到该应用类别的画像。在确定出各个应用类别的画像之后，服务器可以获取根据当天的前一天的19:00-21:00这个时间段内的应用识别结果得到的各个应用类别的画像。之后，服务器可以比较相同应用类别的画像之间的差异，以此来判断画像之间的差异是否超过了预设阈值，进而确定出该应用类别对应的特征漂移标志。

服务器在确定出每个应用类别对应的特征漂移标志之后，可以将每个应用类别对应的特征漂移标志发送至客户端设备。客户端设备在接收到每个应用类别对应的特征漂移标志之后，对于特征漂移标志为第一标志的应用类别，可以将其作为目标应用类别。之后，客户端设备可以根据之前上报服务器的指定时间段内的多条已知数据流量的应用识别结果，确定每条已知数据流量的最终应用类别，进而将其中最终应用类别为目标应用类别的数据流量作为属于目标应用类别的目标数据流量。

需要说明的是，如前所述，服务器可以向客户端设备发送包含有多个特征漂移标志位的特征漂移字段，客户端设备在接收到该特征漂移字段之后，可以从该特征漂移字段中确定取值为第一标志的特征漂移标志位所对应的应用类别，进而将确定的应用类别作为目标应用类别。

客户端设备在确定出目标数据流量之后，对于每条目标数据流量，客户端设备可以获取该目标数据流量的流量特征，将该目标数据流量的流量特征作为训练数据，将该目标数据流量的应用识别结果作为该训练数据的标签数据，从而由该训练数据和标签数据组成一个第二训练样本。

对于确定出的每条数据流量，客户端设备均可以参照该种方法来确定得到对应的一个第二训练样本。之后，客户端设备可以将得到的第二训练样本存储至客户端设备的训练数据存储区。

值得注意的是，本申请实施例中可以同时结合上述两种可能的实现方式生成多个训练样本，这样，训练数据存储区可以同时存储有根据第一种实现方式生成的第一训练样本和根据第二种实现方式生成的第二训练样本。可选地，本申请实施例也可以采用上述任一种实现方式来生成训练样本，在这种情况下，训练数据存储区可以存储有根据第一种实现方式生成的第一训练样本或根据第二实现方式生成的第二训练样本。本申请实施例对此不作限定。

步骤402：客户端设备根据多个训练样本对应用识别模型进行训练。

在本申请实施例中，客户端设备根据未知应用数据流量可以生成第一训练样本，根据已知数据流量中发生特征漂移的数据流量可以生成第二训练样本。生成的第一训练样本和第二训练样本可以存储至训练数据存储区。

其中，训练数据存储区的空间大小可以为固定的，这样，当客户端设备检测到训练数据存储区中存储的训练样本所占的空间大小达到一定阈值时，即可以触发对应用识别模型的训练。其中，一定阈值小于或等于该训练数据存储区的空间大小。

可选地，在一种可能的情况中，客户端设备也可以在检测到用户指令或者是到达指定时刻时，触发对应用识别模型的训练，本申请实施例对此不作限定。

在触发应用识别模型的训练之后，客户端设备可以从训练数据存储区中获取存储的多个训练样本，通过获取的多个训练样本对当前的应用识别模型进行训练。

其中，客户端设备可以通过获取的多个训练样本对该应用识别模型进行一轮训练，当然，也可以进行通过获取的多个训练样本进行多轮训练。本申请实施例对此不作限定。

步骤403：客户端设备向服务器发送训练后的应用识别模型的模型数据。

在本申请实施例中，客户端设备根据多个训练样本对应用识别模型进行本地训练之后，可以获取训练之后的应用识别模型的模型参数，确定训练后的应用识别模型的模型参数与训练前的应用识别模型的模型参数之间的差异数据，之后，将该差异数据作为训练后的应用识别模型的模型数据上传至服务器。

示例性地，假设训练前的应用识别模型的模型参数为[a1、b1、c1、d1…]，训练后的应用识别模型的模型参数为[a2、b2、c2、d2…]，则客户端设备可以确定得到差异数据：[a2-a1、b2-b1、c2-c1、d2-d1…]，将该差异数据上报至服务器。

可选地，在一种可能的实现方式中，客户端设备也可以将训练后的应用识别模型的模型参数作为模型数据直接上报至服务器。例如，假设训练后的应用识别模型的参数为[a2、b2、c2、d2…]，则客户端设备可以直接将[a2、b2、c2、d2…]上报至服务器。

可选地，在另一种可能的实现方式中，客户端设备也可以将训练后的应用识别模型的完整数据(包括模型参数和模型结构)上报至服务器。

步骤404：服务器接收多个客户端设备上传的训练后的应用识别模型的模型数据。

步骤405：服务器根据接收到的多个模型数据获取联合更新后的模型数据。

根据客户端设备上报的模型数据的实现方式不同，本步骤的实现方式也不同。

当客户端设备上报的模型数据为训练前后应用识别模型的模型参数的差异数据时，服务器可以对各个客户端设备上报的差异数据进行联合平均，将该联合平均结果作为联合更新后的模型数据。或者，服务器可以根据各个客户端设备上报的差异数据对服务器上当前部署的应用识别模型的模型参数进行联合更新，将联合更新后的模型参数相较于未更新前的模型参数的差异数据作为联合更新后的模型数据。或者，服务器可以根据各个客户端设备上报的差异数据对服务器上当前部署的应用识别模型的模型参数进行联合更新，将联合更新后的模型参数直接作为联合更新后的模型数据。或者，服务器可以根据各个客户端设备上报的差异数据对服务器上当前部署的应用识别模型的模型参数进行联合更新，将联合更新后的应用识别模型的完整数据(包括模型结构和模型参数)作为联合更新后的模型数据。

可选地，当客户端设备上报的模型数据为训练后应用识别模型的模型参数时，服务器可以对各个客户端设备上报的模型参数进行联合平均，直接将联合平均后的模型参数作为联合更新后的模型数据。或者，服务器可以根据各个客户端设备上报的模型参数对自身部署的应用识别模型进行联合更新，然后将联合更新后的应用识别模型的模型参数与未更新时的应用识别模型的模型参数之间的差异数据、或者是联合更新后的应用识别模型的模型参数、或者是联合更新后的应用识别模型的完整数据(包括模型结构和模型参数)作为联合更新后的模型数据。

可选地，当客户端设备上报的模型数据为训练后的应用识别模型的完整数据(包括模型参数和模型结构)，则服务器可以根据各个客户端设备上报的应用识别模型的模型参数，对应用识别模型进行联合更新，之后，服务器可以将联合更新后的应用识别模型的完整数据(包括模型结构和模型参数)或联合更新后的应用识别模型的模型参数作为联合更新后的模型数据。

需要说明的是，在上述实现方式中，如果是对客户端设备上报的模型数据直接进行联合平均，则在得到联合平均结果之后，服务器还可以根据该联合平均结果对自身部署的应用识别模型的模型参数进行更新，从而得到联合更新后的应用识别模型。

由于服务器更新后的模型数据是根据各个客户端设备上报的模型数据联合更新得到的，也即联合更新后的应用识别模型相当于是根据各个客户端设备的流量数据更新得到的，因此，该应用识别模型的模型参数可以体现更多客户端设备的流量分布情况。

步骤406：服务器向客户端设备发送联合更新后的模型数据。

服务器在获取到联合更新后的模型数据之后，可以将联合更新后的模型数据下发至上报训练后的模型数据的各个客户端设备。

步骤407：客户端设备接收服务器发送的联合更新后的模型数据。

步骤408：客户端设备根据联合更新后的模型数据获取联合更新后的应用识别模型。

客户端设备在接收到服务器下发的联合更新后的模型数据之后，可以根据该联合更新后的模型数据获取联合更新后的应用识别模型。

其中，如果联合更新后的模型数据为差异数据，则客户端设备可以根据该差异数据对该训练前的应用识别模型进行更新以得到该联合更新后的应用识别模型。

可选地，如果联合更新后的模型数据为模型参数，则客户端设备可以根据该模型参数对训练前或训练后的应用识别模型进行更新以得到该联合更新后的应用识别模型。

可选地，如果联合更新后的模型数据为联合更新后的应用识别模型的完整数据(包括模型结构和模型参数)，则客户端设备可以直接加载该模型数据以得到该联合更新后的应用识别模型。

在得到联合更新后的应用识别模型之后，客户端设备可以检测联合更新后的应用识别模型是否满足收敛条件，如果满足收敛条件，则可以将该联合更新后的应用识别模型作为最终更新得到的模型。

可选地，如果根据该联合更新后的应用识别模型不满足收敛条件，则客户端设备可以返回步骤402，继续通过多个训练样本来对更新后的应用识别模型进行继续训练，并上传继续训练后的模型数据至服务器，由服务器再次进行联合更新，直至客户端设备根据服务器下发的联合更新后的模型数据获取的联合更新后的应用识别模型满足收敛条件为止。

需要说明的是，在上述实施例中，客户端设备执行的操作可以作为一个单独的实施例来实现，服务器执行的操作也可以作为一个单独的实施例来实现，本申请实施例对此不作限定。

在本申请实施例中，客户端设备可以根据多条数据流量的识别结果来确定多个训练样本，进而通过该训练样本来训练应用识别模型，之后，客户端设备可以将训练得到的应用识别模型的模型数据上传至服务器，由服务器根据多个客户端设备上传的模型数据进行联合更新。之后，客户端设备可以根据服务器下发的联合更新后的模型数据来获取联合更新的应用识别模型。由此可见，联合更新后的应用识别模型相当于是根据多个客户端设备对应的实时数据流量动态更新得到的，这样，即使应用更新或出现了其他新兴应用，由于应用识别模型也根据各个客户端设备对应的数据流量进行了动态更新，因此，可以更好的保证应用识别模型的识别准确率。

另外，由于客户端设备可以获取数据流量中属于未知应用的未知数据流量，进而根据该未知数据流量生成训练样本来对应用识别模型进行训练，因此，通过更新后的应用识别模型可以更好的识别新兴应用，增强了应用识别模型对新兴应用的识别能力。

最后，在本申请实施例中，对于已知应用的数据流量，客户端设备可以通过检测数据流量的流量特征是否发生漂移来识别更新升级的应用，进而根据更新升级的应用的数据流量生成训练样本来对应用识别模型进行重新训练，这样，最终更新后的应用识别模型可以更好的对更新升级后的应用进行识别，提高了应用识别的准确性。

参见图5，本申请实施例提供了一种更新应用识别模型的装置500，该装置包括：

确定模块501，用于执行前述实施例中的步骤401；

训练模块502，用于执行前述实施例中的步骤402；

发送模块503，用于执行前述实施例中的步骤403；

接收模块504，用于执行前述实施例中的步骤407；

更新模块505，用于执行前述实施例中的步骤408。

可选地，参见图6，确定模块501包括：未知应用检测子模块5011和/或特征漂移检测子模块5012，该确定模块501还包括生成子模块5013；

未知应用检测模块5011，用于根据每条数据流量的应用识别结果，从多条数据流量中获取属于未知应用的未知数据流量；

特征漂移检测子模块5012，用于根据每条数据流量的应用识别结果，从多条数据流量中获取属于目标应用类别的目标数据流量，目标应用类别是指在指定时间段内对应的数据流量的流量特征发生特征漂移的应用类别；

生成子模块5013，用于根据获取的数据流量，生成多个训练样本。

可选地，未知应用检测子模块5011具体用于：

从多条数据流量中获取应用识别结果符合未知应用条件的数据流量，将获取的数据流量作为属于未知应用的未知数据流量，未知应用条件是指应用识别结果中各个应用类别对应的置信度均小于参考阈值，或者，未知应用条件是指应用识别结果不属于多个指定聚类簇，多个指定聚类簇是对应用识别模型的原始训练样本集中的各个应用类别的数据流量的流量特征进行聚类得到。

可选地，生成子模块5013具体用于：

获取未知数据流量的流量特征；

根据未知数据流量的流量特征，从服务器中获取未知数据流量所属的应用的应用信息；

将未知数据流量的流量特征作为第一训练样本中的训练数据，将未知数据流量所属的应用的应用信息作为第一训练样本中的标签数据，第一训练样本为多个训练样本中的一个训练样本。

可选地，特征漂移检测子模块5012具体用于：

根据每条数据流量的应用识别结果，从多条数据流量中确定指定时间段内不属于未知应用的多条已知数据流量；

根据多条已知数据流量的应用识别结果、指定时间段和客户端设备的标识，从服务器中获取多条已知数据流量的应用识别结果所包括的多种应用类别分别对应的特征漂移标志，该特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；

根据每种应用类别对应的特征漂移标志，从多种应用类别中确定数据流量的流量特征发生漂移的目标应用类别；

从多条已知数据流量中获取属于目标应用类别的目标数据流量。

可选地，生成子模块5013具体用于：

将目标数据流量的流量特征作为第二训练样本中的训练数据，将目标数据流量的应用识别结果所指示的目标数据流量所属的应用类别作为第二训练样本中的标签数据，第二训练样本为多个训练样本中的一个训练样本。

可选地，训练后的应用识别模型的模型数据包括训练后的应用识别模型的模型参数，或者，训练后的应用识别模型的模型数据包括训练后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。

可选地，联合更新后的模型数据包括联合更新后的应用识别模型的模型参数，或者，联合更新后的模型数据包括联合更新后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。

综上所述，在本申请实施例中，客户端设备可以根据多条数据流量的识别结果来确定多个训练样本，进而通过该训练样本来训练应用识别模型，之后，客户端设备可以将训练得到的应用识别模型的模型数据上传至服务器，由服务器根据多个客户端设备上传的模型数据进行联合更新。之后，客户端设备可以根据服务器下发的联合更新后的模型数据来获取联合更新的应用识别模型。由此可见，联合更新后的应用识别模型相当于是根据多个客户端设备收集到的实时数据流量的特征动态更新得到的，这样，即使应用更新或出现了其他新兴应用，由于应用识别模型也根据各个客户端设备收集到的数据流量的特征进行了动态更新，因此，可以更好的保证应用识别模型的识别准确率。

图7是本申请实施例提供的一种更新应用识别模型的装置700，该装置700包括：

接收模块701，用于执行前述实施例中的步骤404；

第一获取模块702，用于执行前述实施例中的步骤405；

发送模块703，用于执行前述实施例中的步骤406。

可选地，该装置还包括第二获取模块(图中未示出)；

接收模块，还用于接收第一客户端设备发送的未知数据流量的流量特征，未知数据流量是第一客户端设备从多条数据流量中确定的属于未知应用的数据流量；

第二获取模块，用于根据未知数据流量的流量特征，获取未知数据流量所属的应用的应用信息；

发送模块，还用于向第一客户端设备发送未知数据流量所属的应用的应用信息，以使第一客户端设备根据未知数据流量所属的应用的应用信息生成训练样本。

可选地，该装置还包括：第三获取模块和确定模块(图中未示出)；

接收模块，还用于接收第一客户端设备发送的多条已知数据流量的应用识别结果、指定时间段和第一客户端设备的标识，多条已知数据流量是指从多条数据流量中确定的指定时间段内不属于未知应用的数据流量；

确定模块，用于根据多条已知数据流量的应用识别结果中包括的每个应用类别和每个应用类别对应的置信度，确定相应应用类别的当前画像；

第三获取模块，用于根据第一客户端设备的标识，获取最近一次确定的与指定时间段对应的每个应用类别的画像；

确定模块，还用于根据每个应用类别的当前画像和获取的最近一次确定的相应应用类别的画像，确定相应应用类别对应的特征漂移标志，特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；

发送模块，还用于向第一客户端设备发送每个应用类别对应的特征漂移标志，以使第一客户端设备根据每个应用类别对应的特征漂移标志获取属于目标应用类别的数据流量，并根据属于目标应用类别的数据流量生成训练样本，目标应用类别为数据流量的流量特征发生漂移的应用类别。

在本申请实施例中，服务器可以根据接收到的多个客户端设备发送的训练后的模型数据来获取联合更新后的模型数据。由于客户端设备发送的训练后的模型数据是根据收集到的实时数据流量的特征动态更新得到的，联合更新后的模型数据相当于是根据各个客户端设备收集到的实时数据流量的特征动态更新得到。这样，即使应用更新或出现了其他新兴应用，由于应用识别模型的模型数据也根据各个客户端设备收集的数据流量的特征进行了动态更新，因此，可以更好的保证应用识别模型的识别准确率。

需要说明的是：上述实施例提供的更新应用识别模型的装置在更新应用识别模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的更新应用识别模型的装置与更新应用识别模型的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(Digital Versatile Disc，DVD))、或者半导体介质(例如：固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种更新应用识别模型的方法，其特征在于，应用于客户端设备，所述方法包括：

根据多条数据流量中每条数据流量的应用识别结果，确定多个训练样本，所述应用识别结果是通过应用识别模型对相应数据流量进行识别得到；

根据所述多个训练样本对所述应用识别模型进行训练；

向服务器发送训练后的应用识别模型的模型数据，以使所述服务器根据接收到的多个客户端设备发送的模型数据获取联合更新后的模型数据；

接收所述服务器发送的所述联合更新后的模型数据；

根据所述联合更新后的模型数据获取联合更新后的应用识别模型。
根据权利要求1所述的方法，其特征在于，所述根据多条数据流量中每条数据流量的应用识别结果，确定多个训练样本，包括：

根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于未知应用的未知数据流量，和/或，根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于目标应用类别的目标数据流量，所述目标应用类别是指在指定时间段内对应的数据流量的流量特征发生特征漂移的应用类别；

根据获取的数据流量，生成所述多个训练样本。
根据权利要求2所述的方法，其特征在于，所述根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于未知应用的未知数据流量，包括：

从所述多条数据流量中获取应用识别结果符合未知应用条件的数据流量，将获取的数据流量作为属于未知应用的未知数据流量，所述未知应用条件是指应用识别结果中各个应用类别对应的置信度均小于参考阈值，或者，所述未知应用条件是指应用识别结果不属于多个指定聚类簇，所述多个指定聚类簇是对所述应用识别模型的原始训练样本集中的各个应用类别的数据流量的流量特征进行聚类得到。
根据权利要求3所述的方法，其特征在于，所述根据获取的数据流量，生成多个训练样本，包括：

获取所述未知数据流量的流量特征；

根据所述未知数据流量的流量特征，从所述服务器中获取所述未知数据流量所属的应用的应用信息；

将所述未知数据流量的流量特征作为第一训练样本中的训练数据，将所述未知数据流量所属的应用的应用信息作为所述第一训练样本中的标签数据，所述第一训练样本为所述多个训练样本中的一个训练样本。
根据权利要求2所述的方法，其特征在于，所述根据每条数据流量的应用识别结果，从所述多条数据流量中确定属于目标应用类别的目标数据流量，包括：

根据每条数据流量的应用识别结果，从所述多条数据流量中确定所述指定时间段内不属于未知应用的多条已知数据流量；

根据所述多条已知数据流量的应用识别结果、所述指定时间段和所述客户端设备的标识，从所述服务器中获取所述多条已知数据流量的应用识别结果所包括的多种应用类别分别对应的特征漂移标志，所述特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；

根据每种应用类别对应的特征漂移标志，从所述多种应用类别中确定数据流量的流量特征发生漂移的目标应用类别；

从所述多条已知数据流量中获取属于所述目标应用类别的目标数据流量。
根据权利要求5所述的方法，其特征在于，所述根据获取的数据流量，生成多个训练样本，包括：

将所述目标数据流量的流量特征作为第二训练样本中的训练数据，将所述目标数据流量的应用识别结果所指示的所述目标数据流量所属的应用类别作为所述第二训练样本中的标签数据，所述第二训练样本为所述多个训练样本中的一个训练样本。
根据权利要求1-6任一所述的方法，其特征在于，所述训练后的应用识别模型的模型数据包括所述训练后的应用识别模型的模型参数，或者，所述训练后的应用识别模型的模型数据包括所述训练后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。
根据权利要求1-6任一所述的方法，其特征在于，所述联合更新后的模型数据包括联合更新后的应用识别模型的模型参数，或者，所述联合更新后的模型数据包括所述联合更新后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。
一种更新应用识别模型的方法，其特征在于，应用于服务器，所述方法包括：

接收多个客户端设备发送的训练后的应用识别模型的模型数据，所述训练后的应用识别模型由相应客户端设备根据多个训练样本对所述应用识别模型训练得到，所述多个训练样本是由相应客户端设备根据多条数据流量中每条数据流量的应用识别结果确定得到；

根据接收到的多个模型数据获取联合更新后的模型数据；

向所述多个客户端设备发送所述联合更新后的模型数据，以使所述多个客户端设备根据所述联合更新后的模型数据获取联合更新后的应用识别模型。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

接收第一客户端设备发送的未知数据流量的流量特征，所述未知数据流量是所述第一客户端设备从所述多条数据流量中确定的属于未知应用的数据流量；

根据所述未知数据流量的流量特征，获取所述未知数据流量所属的应用的应用信息；

向所述第一客户端设备发送所述未知数据流量所属的应用的应用信息，以使所述第一客户端设备根据所述未知数据流量所属的应用的应用信息生成训练样本。
根据权利要求9或10所述的方法，其特征在于，所述方法还包括：

接收第一客户端设备发送的多条已知数据流量的应用识别结果、指定时间段和所述第一客户端设备的标识，所述多条已知数据流量是指从所述多条数据流量中确定的指定时间段内不属于未知应用的数据流量；

根据所述多条已知数据流量的应用识别结果中包括的每个应用类别和每个应用类别对应的置信度，确定相应应用类别的当前画像；

根据所述第一客户端设备的标识，获取最近一次确定的与所述指定时间段对应的每个应用类别的画像；

根据每个应用类别的当前画像和获取的最近一次确定的相应应用类别的画像，确定相应应用类别对应的特征漂移标志，所述特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；

向所述第一客户端设备发送每个应用类别对应的特征漂移标志，以使所述第一客户端设备根据每个应用类别对应的特征漂移标志获取属于目标应用类别的数据流量，并根据属于目标应用类别的数据流量生成训练样本，所述目标应用类别为数据流量的流量特征发生漂移的应用类别。
一种更新应用识别模型的装置，其特征在于，所述装置包括：

确定模块，用于根据多条数据流量中每条数据流量的应用识别结果，确定多个训练样本，所述应用识别结果是通过应用识别模型对相应数据流量进行识别得到；

训练模块，用于根据所述多个训练样本对所述应用识别模型进行训练；

发送模块，用于向服务器发送训练后的应用识别模型的模型数据，以使所述服务器根据接收到的多个客户端设备发送的模型数据获取联合更新后的模型数据；

接收模块，用于接收所述服务器发送的所述联合更新后的模型数据；

更新模块，用于根据所述联合更新后的模型数据获取联合更新后的应用识别模型。
根据权利要求12所述的装置，其特征在于，所述确定模块，包括：

未知应用检测子模块和/或特征漂移检测子模块，所述未知应用检测模块用于根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于未知应用的未知数据流量，所述特征漂移检测子模块用于根据每条数据流量的应用识别结果，从所述多条数据流量中获取属于目标应用类别的目标数据流量，所述目标应用类别是指在指定时间段内对应的数据流量的流量特征发生特征漂移的应用类别；

所述确定模块还包括生成子模块，用于根据获取的数据流量，生成所述多个训练样本。
根据权利要求13所述的装置，其特征在于，所述未知应用检测子模块具体用于：

从所述多条数据流量中获取应用识别结果符合未知应用条件的数据流量，将获取的数据流量作为属于未知应用的未知数据流量，所述未知应用条件是指应用识别结果中各个应用类别对应的置信度均小于参考阈值，或者，所述未知应用条件是指应用识别结果不属于多个指定聚类簇，所述多个指定聚类簇是对所述应用识别模型的原始训练样本集中的各个应用类别的数据流量的流量特征进行聚类得到。
根据权利要求14所述的装置，其特征在于，所述生成子模块具体用于：

获取所述未知数据流量的流量特征；

根据所述未知数据流量的流量特征，从所述服务器中获取所述未知数据流量所属的应用的应用信息；

将所述未知数据流量的流量特征作为第一训练样本中的训练数据，将所述未知数据流量所属的应用的应用信息作为所述第一训练样本中的标签数据，所述第一训练样本为所述多个训练样本中的一个训练样本。
根据权利要求13所述的装置，其特征在于，所述特征漂移检测子模块具体用于：

根据每条数据流量的应用识别结果，从所述多条数据流量中确定所述指定时间段内不属于未知应用的多条已知数据流量；

根据所述多条已知数据流量的应用识别结果、所述指定时间段和所述客户端设备的标识，从所述服务器中获取所述多条已知数据流量的应用识别结果所包括的多种应用类别分别对应的特征漂移标志，所述特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；

根据每种应用类别对应的特征漂移标志，从所述多种应用类别中确定数据流量的流量特征发生漂移的目标应用类别；

从所述多条已知数据流量中获取属于所述目标应用类别的目标数据流量。
根据权利要求16所述的装置，其特征在于，所述生成子模块具体用于：

将所述目标数据流量的流量特征作为第二训练样本中的训练数据，将所述目标数据流量的应用识别结果所指示的所述目标数据流量所属的应用类别作为所述第二训练样本中的标签数据，所述第二训练样本为所述多个训练样本中的一个训练样本。
根据权利要求12-17任一所述的装置，其特征在于，所述训练后的应用识别模型的模型数据包括所述训练后的应用识别模型的模型参数，或者，所述训练后的应用识别模型的模型数据包括所述训练后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。
根据权利要求12-17任一所述的装置，其特征在于，所述联合更新后的模型数据包括联合更新后的应用识别模型的模型参数，或者，所述联合更新后的模型数据包括所述联合更新后的应用识别模型的模型参数相较于训练前的应用识别模型的模型参数的差异数据。
一种更新应用识别模型的装置，其特征在于，所述装置包括：

接收模块，用于接收多个客户端设备发送的训练后的应用识别模型的模型数据，所述训练后的应用识别模型由相应客户端设备根据多个训练样本对所述应用识别模型训练得到，所述多个训练样本是由相应客户端设备根据多条数据流量中每条数据流量的应用识别结果确定得到；

第一获取模块，用于根据接收到的多个模型数据获取联合更新后的模型数据；

发送模块，用于向所述多个客户端设备发送所述联合更新后的模型数据，以使所述多个客户端设备根据所述联合更新后的模型数据获取联合更新后的应用识别模型。
根据权利要求20所述的装置，其特征在于，所述装置还包括第二获取模块；

所述接收模块，还用于接收第一客户端设备发送的未知数据流量的流量特征，所述未知数据流量是所述第一客户端设备从所述多条数据流量中确定的属于未知应用的数据流量；

所述第二获取模块，用于根据所述未知数据流量的流量特征，获取所述未知数据流量所属的应用的应用信息；

所述发送模块，还用于向所述第一客户端设备发送所述未知数据流量所属的应用的应用信息，以使所述第一客户端设备根据所述未知数据流量所属的应用的应用信息生成训练样本。
根据权利要求20或21所述的装置，其特征在于，所述装置还包括：第三获取模块和确定模块；

所述接收模块，还用于接收第一客户端设备发送的多条已知数据流量的应用识别结果、指定时间段和所述第一客户端设备的标识，所述多条已知数据流量是指从所述多条数据流量中确定的所述指定时间段内不属于未知应用的数据流量；

所述确定模块，用于根据所述多条已知数据流量的应用识别结果中包括的每个应用类别和每个应用类别对应的置信度，确定相应应用类别的当前画像；

所述第三获取模块，用于根据所述第一客户端设备的标识，获取最近一次确定的与所述指定时间段对应的每个应用类别的画像；

所述确定模块，还用于根据每个应用类别的当前画像和获取的最近一次确定的相应应用类别的画像，确定相应应用类别对应的特征漂移标志，所述特征漂移标志用于指示对应的应用类别的数据流量的流量特征是否发生漂移；

所述发送模块，还用于向所述第一客户端设备发送每个应用类别对应的特征漂移标志，以使所述第一客户端设备根据每个应用类别对应的特征漂移标志获取属于目标应用类别的数据流量，并根据属于目标应用类别的数据流量生成训练样本，所述目标应用类别为数据流量的流量特征发生漂移的应用类别。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算机设备执行时，所述计算机设备执行上述权利要求1至8中任一项所述的方法，或者，所述计算机设备执行上述权利要求9-11中任一项所述的方法。