CN117216280A

CN117216280A - 敏感数据识别模型的增量学习方法、识别方法和装置

Info

Publication number: CN117216280A
Application number: CN202311483460.XA
Authority: CN
Inventors: 张黎; 吴洋
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2023-12-12
Anticipated expiration: 2043-11-09
Also published as: CN117216280B

Abstract

本发明提供一种敏感数据识别模型的增量学习方法、识别方法和装置，通过基于用户的模型增量学习请求确定增量学习模式和训练样本更新信息，基于训练样本更新信息确定更新样本并提取更新样本的关键词后，基于更新样本对训练文本集合进行更新，并基于增量学习模式以及更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，再基于数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型，提升了增量学习过程中隐私数据保护的程度和效率。

Description

敏感数据识别模型的增量学习方法、识别方法和装置

技术领域

本发明涉及电数据处理技术领域，尤其涉及一种敏感数据识别模型的增量学习方法、识别方法和装置。

背景技术

在当今数字化的世界中，数据隐私安全保护的意义不言而喻。随着大数据和人工智能的广泛应用，大量的个人信息被收集、存储和处理，这些信息包括但不限于个人身份、位置、健康状况、消费习惯等。如果这些数据被非法使用或者泄露，可能会对个人的生活、工作甚至人身安全造成严重的影响。因此，保护数据隐私安全，不仅是维护个人权益，也是社会稳定和发展的重要保障，而保护数据隐私安全的前提是识别出隐私数据，以确定哪些数据是敏感的、需要特别保护的。如此才能对这些数据进行特殊处理，例如加密存储、匿名化处理等，以防止隐私数据被泄露。

目前进行隐私数据识别时通常采用基于机器学习或深度学习技术实现的隐私数据识别模型，通过训练模型识别出包含隐私信息的数据。这些模型可以识别出文本、图像、声音等多种形式的隐私数据。然而，由于隐私数据的定义和形式多种多样，而且随着时间的推移，新的隐私数据形式也在不断出现，所以现有的模型往往需要不断地进行更新和优化。因此，需要对隐私数据识别模型进行增量学习方式，当新的数据加入时，模型可以在原有的基础上进行学习和更新，而不需要重新训练整个模型。然而，增量学习方式在保护隐私上存在一定的缺陷，原因在于增量学习需要处理新的数据，如果这些数据包含敏感信息，那么在处理过程中可能会泄露这些信息，其次，增量学习的过程中，模型的参数会发生变化，如果这些变化被恶意利用，可能会推断出原始的敏感数据。因此，如何在增量学习的过程中保护隐私数据，是当前的一个重要研究方向。

发明内容

本发明提供一种敏感数据识别模型的增量学习方法、识别方法和装置，用以解决现有技术中模型在进行增量学习时存在数据隐私泄漏的问题的缺陷。

本发明提供一种敏感数据识别模型的增量学习方法，包括：

接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；

基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；

基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

根据本发明提供的一种敏感数据识别模型的增量学习方法，所述基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，具体包括：

若所述增量学习模式为样本文件或敏感关键词的新增或删除，则将所述更新样本的关键词增加到所述样本文件或敏感关键词对应类别的分类关键词列表中并设置所述更新样本的关键词对应的权重，或从所述样本文件或敏感关键词对应类别的分类关键词列表中将所述更新样本的关键词删除；

若所述增量学习模式为数据类别的新增或删除，则基于所述更新样本的关键词构建所述数据类别对应的分类关键词列表并设置所述更新样本的关键词对应的权重，或删除所述数据类别对应的分类关键词列表；

若所述增量学习模式为样本文件或敏感关键词的类别修改，则从所述样本文件或敏感关键词对应原始类别的分类关键词列表中将所述更新样本的关键词删除，并将所述更新样本的关键词增加到所述样本文件或敏感关键词对应更新类别的分类关键词列表中；

若所述增量学习模式为数据类别的类别修改，则融合原始类别的分类关键词列表与更新类别的分类关键词列表。

根据本发明提供的一种敏感数据识别模型的增量学习方法，所述若所述增量学习模式为样本文件或敏感关键词的新增或删除，则将所述更新样本的关键词增加到所述样本文件或敏感关键词对应类别的分类关键词列表中并设置所述更新样本的关键词对应的权重，或从所述样本文件或敏感关键词对应类别的分类关键词列表中将所述更新样本的关键词删除，具体包括：

若所述增量学习模式为样本文件或敏感关键词的删除，则对所述更新样本的关键词进行聚类，得到多个关键词类簇，并确定所述更新样本的关键词在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重；

针对任一关键词类簇，对所述任一关键词类簇中的相似关键词按所属更新文本的类别划分，得到多个相似关键词集合后，基于每个相似关键词集合中的相似关键词数量，确定所述任一关键词类簇是否为跨类别簇；

若任一关键词类簇不为跨类别簇，或者若任一关键词类簇为跨类别簇且包含超过预设数量的相似关键词在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重大于第一预设值，则将所述任一关键词类簇中的相似关键词在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重降低；

若任一关键词类簇为跨类别簇且在所述样本文件或敏感关键词对应类别的分类关键词列表中的权重大于第一预设值的相似关键词数量小于所述预设数量，则从所述样本文件或敏感关键词对应类别的分类关键词列表中删除所述任一关键词类簇中权重小于或等于所述第一预设值的相似关键词。

根据本发明提供的一种敏感数据识别模型的增量学习方法，所述若所述增量学习模式为样本文件或敏感关键词的类别修改，则从所述样本文件或敏感关键词对应原始类别的分类关键词列表中将所述更新样本的关键词删除，并将所述更新样本的关键词增加到所述样本文件或敏感关键词对应更新类别的分类关键词列表中，具体包括：

针对所述更新样本中已存在于所述样本文件或敏感关键词对应更新类别的分类关键词列表中的重复关键词，确定所述重复关键词分别在所述样本文件或敏感关键词对应原始类别的分类关键词列表以及所述样本文件或敏感关键词对应更新类别的分类关键词列表中的权重；

若所述重复关键词分别在所述样本文件或敏感关键词对应原始类别的分类关键词列表以及样本文件或敏感关键词对应更新类别的分类关键词列表中的权重均大于第二预设值，则维持所述重复关键词在所述样本文件或敏感关键词对应更新类别的分类关键词列表中的权重；

否则，基于所述重复关键词分别在所述样本文件或敏感关键词对应原始类别的分类关键词列表以及样本文件或敏感关键词对应更新类别的分类关键词列表中的权重的平均值，更新所述重复关键词在所述样本文件或敏感关键词对应更新类别的分类关键词列表中的权重。

根据本发明提供的一种敏感数据识别模型的增量学习方法，所述基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，具体包括：

提取任一训练样本的关键词序列中各关键词对应的词嵌入向量；

基于所述数据识别模型中对应各类别的分类关键词列表以及所述任一训练样本的关键词序列中各关键词对应的词嵌入向量，确定所述任一训练样本的识别结果。

本发明还提供一种识别方法，包括：

接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；

基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；

基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；

其中，所述数据识别模型是基于如上述任一种所述敏感数据识别模型的增量学习方法学习得到的。

本发明还提供一种敏感数据识别模型的增量学习装置，包括：

学习请求接收单元，用于接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；

关键词列表更新单元，用于基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；

模型增量学习单元，用于基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

本发明还提供一种识别装置，包括：

识别请求接收单元，用于接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；

文本内容提取单元，用于基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；

敏感数据识别单元，用于基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述敏感数据识别模型的增量学习方法或识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述敏感数据识别模型的增量学习方法或识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述敏感数据识别模型的增量学习方法或识别方法。

本发明提供的敏感数据识别模型的增量学习方法、识别方法和装置，通过基于用户的模型增量学习请求确定增量学习模式和训练样本更新信息，基于训练样本更新信息确定更新样本并提取更新样本的关键词后，基于更新样本对训练文本集合进行更新，并基于增量学习模式以及更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，再基于数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型，模型在增量学习过程中无需获取训练样本的原始内容，保证了增量学习过程中的隐私不被泄露，且增量过程中参数的变化只体现在关键词的词嵌入向量的权重变化上，根据该参数变化无法反推出训练样本的敏感内容，因此提升了增量学习过程中隐私数据保护的程度，此外增量学习过程中只需处理文本中关键词的词嵌入向量，无需对大量文本进行清理、分词等重复工作，大大提升了增量学习的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的敏感数据识别模型的增量学习方法的流程示意图；

图2是本发明提供的识别方法的流程示意图；

图3是本发明提供的敏感数据识别模型的增量学习装置的结构示意图；

图4是本发明提供的识别装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的敏感数据识别模型的增量学习方法的流程示意图，如图1所示，该方法包括：

步骤110，接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；

步骤120，基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；

步骤130，基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

此处，用户需要进行增量学习的数据识别模型是已经基于训练文本集合中的训练样本进行初始训练过的模型，其中维护的分类关键词列表已经具备对文本数据进行分类的能力。其中，数据识别模型内部的分类关键词列表的数量与该数据识别模型的文本分类任务类型相关，本发明实施例对此不作具体限定。若该数据识别模型为二分类模型，则其分类关键词列表可以只有一个，用于区分一个文本是否属于特定类别，若该数据识别模型为多分类模型，则其分类关键词列表与其对应的分类类别一一对应，每个类别对应的分类关键词列表用于区分一个文本是否属于该类别。

需要说明的是，为了提升数据识别模型训练过程中的数据隐私保护程度，在数据识别模型的初始训练过程中，可以在本地对训练样本进行关键词提取，得到训练样本的关键词序列，然后利用预训练的词嵌入模型（例如Word2Vec模型或GloVe模型）获取该训练样本的关键词序列中各关键词的词嵌入向量，从而组合得到关键词序列对应的词嵌入向量序列。其中，不同关键词的词嵌入向量不同，且同义词的词嵌入向量是相似的。此外，还可以在本地提取训练样本中各关键词的特征，例如词频、TF-IDF特征等，并将各个训练样本的词嵌入向量序列（或者结合各关键词的特征）以及各个训练样本的类别标签发送至远端服务器，以在远端服务端处基于各个训练样本的词嵌入向量序列以及各个训练样本的类别标签训练数据识别模型，保证训练样本的原始数据保存在本地且对包括数据识别模型在内的其他对象是保密的。

在初始训练过程开始时，数据识别模型会基于各个训练样本的词嵌入向量序列及其类别标签构建各类别对应的分类关键词列表并对分类关键词列表进行初始化操作。此处，分类关键词列表包含每个词嵌入向量对应的权重，权重越大表明对应的词嵌入向量（或者说该词嵌入向量表示的词）对于该类别文本的区分能力越强。随着训练的进行，可以基于数据识别模型输出的训练样本的识别结果及其类别标签之间的差异对各类别的分类关键词列表进行调整，从而提升数据识别模型的文本识别能力。其中，数据识别模型针对输入的训练样本的词嵌入向量序列及各关键词的特征，可以基于各类别的分类关键词列表中该词嵌入向量序列中各个词嵌入向量的权重，确定该训练样本属于各类别的概率，得到该训练样本的识别结果。

在一些实施例中，训练样本的类别标签可以是人工标注的也可以是利用自动标注技术获取的。其中，若采用自动标注技术，可以将训练样本按其所属文件夹进行分类，并赋予相应的类别标签。可见，该方式中同属一个文件夹的训练样本对应同一类别。或者，可以根据需求设置类别数量，然后按照设置的类别数量，使用聚类算法将训练样本进行分组，使得每个样本都属于其中的一个类别，从而为各个训练样本赋予相应类别标签。还可以设置相似度分类阈值，然后根据每个训练样本之间的相似度进行分类，将相似度高的训练样本归为同一类别，从而为其赋予相应的类别标签。

虽然初始训练后得到的数据识别模型具备了识别各类别文本的能力，但随着时间的推移，隐私数据形式以及用户的隐私识别需求也在不断改变，因此需要根据用户提出的模型增量学习请求对数据识别模型进行增量学习以适应新的需求。其中，用户发起的模型增量学习请求中包含了针对数据识别模型的增量学习模型和训练样本更新信息。此处，增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改。相应地，训练样本更新信息则包含了基于该增量学习模型对训练文本集合进行更新的相关信息。例如，当增量学习模式为数据类别、样本文件以及敏感关键词的新增时，训练样本更新信息包含了新增的数据类别、样本文件以及敏感关键词对应的训练样本，以及对训练文本集合进行更新的方式是将上述训练样本新增至训练文本集合中。当增量学习模式为数据类别、样本文件以及敏感关键词的删除时，训练样本更新信息包含了新增的数据类别、样本文件以及敏感关键词对应的训练样本，以及对训练文本集合进行更新的方式是将上述训练样本从训练文本集合中删除。当增量学习模式为数据类别、样本文件以及敏感关键词的类别修改时，训练样本更新信息包含了类别修改之前的数据类别、样本文件以及敏感关键词对应的训练样本，以及对训练文本集合进行更新的方式是更新相应训练样本的类别标签。

基于上述训练样本更新信息，可以确定需要变动（新增、删除或更新类别标签）的训练样本作为更新样本，并提取各个更新样本的关键词。然后，基于训练样本更新信息和更新样本对训练文本集合进行相应更新后，基于增量学习模式以及各个更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新。其中，可以基于增量学习模式将各个更新样本的关键词的词嵌入向量新增到所属类别的分类关键词列表中、从所属类别的分类关键词列表中删除或者移动到更新类别的分类关键词列表中。通过该方式更改各类别的分类关键词列表的结构，可以使得数据识别模型能够适应新的分类需求。

在一些实施例中，若增量学习模式为样本文件或敏感关键词的新增或删除，则将各个更新样本的关键词增加到上述样本文件或敏感关键词对应类别的分类关键词列表中并设置更新样本的关键词在相应分类关键词列表中对应的权重，或者从上述样本文件或敏感关键词对应类别的分类关键词列表中将更新样本的关键词删除。其中，在增量学习模式为样本文件或敏感关键词的新增的情况下，将各个更新样本的关键词增加到上述样本文件或敏感关键词对应类别的分类关键词列表中并设置更新样本的关键词在相应分类关键词列表中对应的权重时，对于更新样本中已经存在于相应分类关键词列表中的关键词，可以维持其对应的权重不变；而对于更新样本中不存在于相应分类关键词列表中的关键词，可以在同属一个类别的训练样本的范围内计算该关键词的TF-IDF值，并基于该TF-IDF设置其对应的权重。一个关键词通过上述方式计算得到的TF-IDF值越高，表明该词对于所属的更新文本越重要，但同时该词很少出现在其他同类文本中，因此对于该类文本的特征表达能力相对较差，因此其对应的权重可以设置得越低。

若增量学习模式为数据类别的新增或删除，则可以基于更新样本的关键词构建上述数据类别对应的分类关键词列表并设置更新样本的关键词对应的权重（可以统一设置为一个预设初始值），或删除上述数据类别对应的分类关键词列表。

若增量学习模式为样本文件或敏感关键词的类别修改，则从上述样本文件或敏感关键词对应原始类别（即修改之前的类别）的分类关键词列表中将更新样本的关键词删除，并将更新样本的关键词增加到样本文件或敏感关键词对应更新类别（即修改之后的类别）的分类关键词列表中。假使增量学习模式为将样本文件或敏感关键词的类别从A修改为B，则从类别A对应的分类关键词列表中将更新样本的关键词删除，并将更新样本的关键词增加到类别B对应的分类关键词列表中。若增量学习模式为数据类别的类别修改，则融合原始类别的分类关键词列表与更新类别的分类关键词列表，具体的融合方式与增量学习模式为样本文件或敏感关键词的类别修改情形下将更新样本的关键词增加到样本文件或敏感关键词对应更新类别的分类关键词列表中的方式可以相同。

在另一些实施例中，若增量学习模式为样本文件或敏感关键词的删除，则可以通过如下方式从样本文件或敏感关键词对应类别的分类关键词列表中将更新样本的关键词删除：

对更新样本的关键词进行聚类，得到多个关键词类簇，其中可以利用各关键词的TF-IDF值作为关键词特征进行聚类。同时，可以确定更新样本的关键词在上述样本文件或敏感关键词对应类别的分类关键词列表中的权重。针对任一关键词类簇，对该关键词类簇中的相似关键词按所属更新文本的类别划分，得到多个相似关键词集合。其中，每个相似关键词集合中的相似关键词所属的更新文本的类别是相同的。随后，基于每个相似关键词集合中的相似关键词数量，确定该关键词类簇是否为跨类别簇。此处，可以计算各个相似关键词集合中的相似关键词数量的方差，根据该方差确定该关键词类簇是否为跨类别簇，若方差小于预设方差阈值，则确定该关键词类簇为跨类别簇。

若任一关键词类簇不为跨类别簇，或者若任一关键词类簇为跨类别簇且包含超过预设数量的相似关键词在样本文件或敏感关键词对应类别的分类关键词列表中的权重大于第一预设值，表示这类词可能仅存在于特定类别，表明其对于类别划分是重要的，或者可能存在于多个类别的文本中，但模型认为其对于类别划分相对重要，因此可以将该关键词类簇中的相似关键词在样本文件或敏感关键词对应类别的分类关键词列表中的权重降低但不删除。若任一关键词类簇为跨类别簇且在样本文件或敏感关键词对应类别的分类关键词列表中的权重大于第一预设值的相似关键词数量小于上述预设数量，表示这类词对于类别划分相对不重要，因此从样本文件或敏感关键词对应类别的分类关键词列表中删除该关键词类簇中权重小于或等于第一预设值的相似关键词，同时可以降低该关键词类簇中权重大于第一预设值的相似关键词的权重。

此外，若增量学***均值，更新该重复关键词在样本文件或敏感关键词对应更新类别的分类关键词列表中的权重。

基于增量学习模式以及更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新之后，可以基于数据识别模型对上述更新后的训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果。其中，可以提取各个训练样本的关键词序列中各关键词对应的词嵌入向量，并将各训练样本的关键词序列对应的词嵌入向量序列传输至数据识别模型以供识别，而训练样本的识别结果的获取方式同上述实施例中描述的初始训练过程中识别结果的获取方式一致。在一些实施例中，可以基于数据识别模型中对应各类别的分类关键词列表以及任一训练样本的关键词序列中各关键词对应的词嵌入向量，确定该训练样本的识别结果。在另一些实施例中，可以基于数据识别模型中对应各类别的分类关键词列表，结合任一训练样本的关键词序列中各关键词对应的词嵌入向量以及各关键词的特征（如词频和TF-IDF等），确定该训练样本的识别结果。随后，基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，可以得到能够适应用户新需求的增量学习后的数据识别模型。

综上所述，本发明实施例提供的方法，通过基于用户的模型增量学习请求确定增量学习模式和训练样本更新信息，基于训练样本更新信息确定更新样本并提取更新样本的关键词后，基于更新样本对训练文本集合进行更新，并基于增量学习模式以及更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，再基于数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型，模型在增量学习过程中无需获取训练样本的原始内容，保证了增量学习过程中的隐私不被泄露，且增量过程中参数的变化只体现在关键词的词嵌入向量的权重变化上，根据该参数变化无法反推出训练样本的敏感内容，因此提升了增量学习过程中隐私数据保护的程度，此外增量学习过程中只需处理文本中关键词的词嵌入向量，无需对大量文本进行清理、分词等重复工作，大大提升了增量学习的效率。

基于上述任一实施例，图2是本发明提供的识别方法的流程示意图，如图2所示，该方法包括：

步骤210，接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；

步骤220，基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；

步骤230，基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；

其中，所述数据识别模型是基于如上述任一实施例提供的敏感数据识别模型的增量学习方法进行增量学习得到的。

下面对本发明提供的敏感数据识别模型的增量学习装置进行描述，下文描述的敏感数据识别模型的增量学习装置与上文描述的敏感数据识别模型的增量学习方法可相互对应参照。

基于上述任一实施例，图3是本发明提供的敏感数据识别模型的增量学习装置的结构示意图，如图3所示，该装置包括：

学习请求接收单元310，用于接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；

关键词列表更新单元320，用于基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；

模型增量学习单元330，用于基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

本发明实施例提供的装置，通过基于用户的模型增量学习请求确定增量学习模式和训练样本更新信息，基于训练样本更新信息确定更新样本并提取更新样本的关键词后，基于更新样本对训练文本集合进行更新，并基于增量学习模式以及更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，再基于数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型，模型在增量学习过程中无需获取训练样本的原始内容，保证了增量学习过程中的隐私不被泄露，且增量过程中参数的变化只体现在关键词的词嵌入向量的权重变化上，根据该参数变化无法反推出训练样本的敏感内容，因此提升了增量学习过程中隐私数据保护的程度，此外增量学习过程中只需处理文本中关键词的词嵌入向量，无需对大量文本进行清理、分词等重复工作，大大提升了增量学习的效率。

基于上述任一实施例，所述基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，具体包括：

基于上述任一实施例，所述若所述增量学习模式为样本文件或敏感关键词的新增或删除，则将所述更新样本的关键词增加到所述样本文件或敏感关键词对应类别的分类关键词列表中并设置所述更新样本的关键词对应的权重，或从所述样本文件或敏感关键词对应类别的分类关键词列表中将所述更新样本的关键词删除，具体包括：

基于上述任一实施例，所述若所述增量学习模式为样本文件或敏感关键词的类别修改，则从所述样本文件或敏感关键词对应原始类别的分类关键词列表中将所述更新样本的关键词删除，并将所述更新样本的关键词增加到所述样本文件或敏感关键词对应更新类别的分类关键词列表中，具体包括：

基于上述任一实施例，所述基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，具体包括：

下面对本发明提供的识别装置进行描述，下文描述的识别装置与上文描述的识别方法可相互对应参照。

基于上述任一实施例，图4是本发明提供的识别装置的结构示意图，如图4所示，该装置包括：

识别请求接收单元410，用于接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；

文本内容提取单元420，用于基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；

敏感数据识别单元430，用于基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；

其中，所述数据识别模型是基于如上述任一实施例提供的敏感数据识别模型的增量学习方法学习得到的。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540，其中，处理器510，存储器520，通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令，以执行敏感数据识别模型的增量学习方法，该方法包括：接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

处理器510还可以调用存储器520中的逻辑指令，以执行识别方法，该方法包括：接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；其中，所述数据识别模型是基于如上述任一实施例提供的敏感数据识别模型的增量学习方法学习得到的。

此外，上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的敏感数据识别模型的增量学习方法，该方法包括：接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

当所述程序指令被计算机执行时，计算机还能够执行上述各方法所提供的识别方法，该方法包括：接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；其中，所述数据识别模型是基于如上述任一实施例提供的敏感数据识别模型的增量学习方法学习得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的敏感数据识别模型的增量学习方法，该方法包括：接收用户发起的模型增量学习请求，并基于所述模型增量学习请求确定增量学习模式和训练样本更新信息；其中，所述增量学习模式包括数据类别、样本文件以及敏感关键词的新增、删除和类别修改；基于所述训练样本更新信息确定更新样本并提取所述更新样本的关键词后，基于所述更新样本对训练文本集合进行更新，并基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新；基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，并基于各训练样本的类别标签和识别结果之间的差异对相应类别的分类关键词列表进行更新，得到增量学习后的数据识别模型。

该计算机程序被处理器执行时还可以实现以执行上述各提供的识别方法，该方法包括：接收用户提交的文件识别请求；所述文件识别请求中携带了待识别文件的路径和文件名；基于所述待识别文件的路径和文件名获取所述待识别文件，提取所述待识别文件中的文本内容，并提取所述文本内容的关键词序列；基于数据识别模型对所述文本内容的关键词序列进行敏感数据识别，得到所述待识别文件的识别结果；其中，所述数据识别模型是基于如上述任一实施例提供的敏感数据识别模型的增量学习方法学习得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种敏感数据识别模型的增量学习方法，其特征在于，包括：

2.根据权利要求1所述的敏感数据识别模型的增量学习方法，其特征在于，所述基于所述增量学习模式以及所述更新样本的关键词对数据识别模型中相应类别的分类关键词列表进行更新，具体包括：

3.根据权利要求2所述的敏感数据识别模型的增量学习方法，其特征在于，所述若所述增量学习模式为样本文件或敏感关键词的新增或删除，则将所述更新样本的关键词增加到所述样本文件或敏感关键词对应类别的分类关键词列表中并设置所述更新样本的关键词对应的权重，或从所述样本文件或敏感关键词对应类别的分类关键词列表中将所述更新样本的关键词删除，具体包括：

4.根据权利要求2所述的敏感数据识别模型的增量学习方法，其特征在于，所述若所述增量学习模式为样本文件或敏感关键词的类别修改，则从所述样本文件或敏感关键词对应原始类别的分类关键词列表中将所述更新样本的关键词删除，并将所述更新样本的关键词增加到所述样本文件或敏感关键词对应更新类别的分类关键词列表中，具体包括：

5.根据权利要求1所述的敏感数据识别模型的增量学习方法，其特征在于，所述基于所述数据识别模型对训练文本集合中各训练样本的关键词序列进行敏感数据识别，得到各训练样本的识别结果，具体包括：

6.一种识别方法，其特征在于，包括：

其中，所述数据识别模型是基于如权利要求1至5任一项所述敏感数据识别模型的增量学习方法学习得到的。

7.一种敏感数据识别模型的增量学习装置，其特征在于，包括：

8.一种识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述敏感数据识别模型的增量学习方法或如权利要求6所述识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述敏感数据识别模型的增量学习方法或如权利要求6所述识别方法。