CN112598039A

CN112598039A - 获取nlp分类领域阳性样本方法及相关设备

Info

Publication number: CN112598039A
Application number: CN202011480250.1A
Authority: CN
Inventors: 魏万顺
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Heliang Technology Shanghai Co ltd; Shenzhen Lian Intellectual Property Service Center
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-02
Anticipated expiration: 2040-12-15
Also published as: CN112598039B

Abstract

本申请实施例属于人工智能技术领域，涉及一种获取NLP分类领域阳性样本方法及相关设备。该方法包括：获取公开数据预训练模型和专有数据预训练模型；拼接公开数据预训练模型和专有数据预训练模型的编码层，得到向量编码模型；获取种子样本和专有文本数据中的待识别文本，将待识别文本输入向量编码模型中进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引；基于种子向量在专有数据集中进行相似向量搜索，并通过向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本。此外，本申请还涉及区块链技术，阳性样本可存储于区块链中。可以筛选出多种现有技术中无法匹配的阳性样本，模型具有较高的召回率。

Description

获取NLP分类领域阳性样本方法及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种获取NLP分类领域阳性样本方法及相关设备。

背景技术

近年，随着人工智能技术的发展，自然语言处理(NLP)技术从众多人工智能领域中脱颖而出，成为一个重要的方向。与基于模板的传统语言生成技术相比，NLP具有很多优点，其生成技术最小化了人工的参与程度，可以自动从数据中学习输入到输出的映射。在NLP分类数据标注过程中，需要对阳性样本和阴性样本进行标注，通常不具有业务属性的阴性样本相比具有业务属性的阳性样本来说，阴性样本的数量比阳性样本的数量大很多，因此，这样的样本分布会导致时间大量浪费在阴性样本的标注过程中。

现有的主要解决方案是通过提升阳性样本的密度，来提升标注效率，主要的技术方案有三种：正则筛选，基于字典的关键词过滤，基于BM25的全文检索，但是，上述方案在面对一些文本内容超出规则范围，但语义为阳性的样本时，无法检出此类阳性样本，依赖此类数据所建的模型，模型召回率较低。

发明内容

本申请实施例的目的在于提出一种获取NLP分类领域阳性样本方法、装置、计算机设备及存储介质，解决面对一些文本内容超出规则范围，但语义为阳性的样本时，无法检出此类阳性样本的技术问题。

为了解决上述技术问题，本申请实施例提供一种获取NLP分类领域阳性样本方法，采用了如下所述的技术方案：

一种获取NLP分类领域阳性样本方法，包括下述步骤：

获取公开数据预训练模型和专有数据预训练模型；

拼接公开数据预训练模型和专有数据预训练模型的编码层，得到向量编码模型；

获取种子样本集和专有数据集中的待识别文本，对种子样本和专有文本数据进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引，所述种子样本集由阳性样本构成；

基于所述种子向量在专有数据集中进行相似向量搜索，并通过所述向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本。

进一步地，所述获取种子样本和专有文本数据中的待识别文本，对种子样本和专有文本数据进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引的步骤具体包括：

获取种子样本和专有文本数据中的待识别文本，将待识别文本输入向量编码模型中进行编码，获取种子向量和专有文本向量；

对专有文本向量建立向量索引，并存储专有文本向量与所述专有文本对应关系。

进一步地，所述基于所述种子向量在专有数据集中进行相似向量搜索，并通过所述向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本的步骤具体包括：

步骤A：在专有数据集中，以种子向量搜索相似向量对应的专有文本，并将搜索到的专有文本作为阳性样本进行标注；

步骤B：将标注后的阳性样本合并到所述种子样本集，作为新的种子样本集；

重复步骤A至步骤B，直到所述新的种子样本集中的阳性样本达到预设数量。

进一步地，所述在专有数据集中，以种子向量搜索相似向量对应的专有文本的步骤具体包括：

依次比对目标向量与所述专有数据集中各个聚类中心的距离，选择出与目标向量最为接近的若干个聚类中心；

获取所述聚类中心所对应聚类中的所有向量，依次计算各向量与目标向量的距离，选择出距离最为接近的若干个相似向量；

通过所述专有文本向量与所述专有文本对应关系，确定所述相似向量对应的专有文本。

进一步地，所述获取种子样本和专有文本数据中的待识别文本，对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量的步骤具体包括：

获取种子样本和专有文本数据中的待识别文本，确定所述待识别文本对应的多个编码种类；

识别待识别文本中的文字，确定所述待识别文本使用的语言；

根据预设的各种语言和编码种类的对应关系，确定所述待识别文本对应的所属编码种类。

进一步地，所述获取公开数据预训练模型和专有数据预训练模型的步骤具体包括：

采用公开数据集对预训练模型进行预训练，获取公开数据预训练模型；

从预设数据库中提取专有场景下的专有数据集，对预训练模型进行预训练，获取专有数据预训练模型。

进一步地，所述采用公开数据集对预训练模型进行预训练，获取公开数据预训练模型或采用专有数据集对预训练模型进行预训练，获取专有数据预训练模型的步骤具体包括：

获取初始训练模型、初始去噪自编码模型和初始序列模型，其中，所述初始去噪自编码模型和初始序列到序列模型分别与所述初始训练模型的输出端连接；

获取公开数据集和专有数据集作为训练样本集，所述训练样本集包括样本数据、原始文本中的遮蔽字词和原始文本音韵信息；

将公开数据集或专有数据集中的样本数据输入到所述初始训练模型，通过所述初始去噪自编码模型预测输入文本中进行随机修改的字词，通过所述初始序列模型预测包含输入文本的输出文本数据；

将原始文本中的遮蔽字词作为所述初始去噪自编码模型的期望输出，并将原始文本音韵信息作为所述初始序列模型的期望输出，分别计算初始去噪自编码模型和初始序列到序列模型的损失值，并进行加权求平均，直到加权求平均后的值满足预设的收敛条件后，得到训练后的公开数据预训练模型或专有数据预训练模型。

为了解决上述技术问题，本申请实施例还提供一种获取NLP分类领域阳性样本装置，采用了如下所述的技术方案：

一种获取NLP分类领域阳性样本装置，包括：

获取模块，用于获取公开数据预训练模型和专有数据预训练模型；

拼接模块，用于接公开数据预训练模型和专有数据预训练模型的编码层，得到向量编码模型；

构建模块，获取种子样本集和专有数据集中的待识别文本，将待识别文本输入向量编码模型中进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引，所述种子样本集由阳性样本构成；

搜索模块，用于基于所述种子向量在专有数据集中进行相似向量搜索，并通过所述向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括至少一个存储器和至少一个处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的获取NLP分类领域阳性样本方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的获取NLP分类领域阳性样本方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

获取公开预训练模型和专有数据预训练模型，对公开预训练模型和专有数据预训练模型进行拼接，得到向量编码模型；对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量，对文本向量构建索引，进行向量搜索，获取预期数量的阳性样本；可以筛选出现有技术中无法匹配的多种阳性样本，避免在面对一些文本数据超出规则范围但语义为阳性的样本时，无法检出此类阳性样本，模型具有更高的召回率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请的获取NLP分类领域阳性样本方法的一个实施例的流程图；

图2是根据本申请的获取NLP分类领域阳性样本装置的一个实施例的结构示意图；

图3是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：2、获取NLP分类领域阳性样本装置；201、获取模块；202、拼接模块；203、构建模块；204、搜索模块；3、计算机设备；301、存储器；302、处理器；303、网络接口。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

***架构可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备通过网络与服务器交互，以接收或发送消息等。终端设备上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器可以是提供各种服务的服务器，例如对终端设备上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的获取NLP分类领域阳性样本方法一般由服务器/终端设备执行，相应地，获取NLP分类领域阳性样本装置一般设置于服务器/终端设备中。应该理解，根据实现需要，可以具有任意数目的终端设备、网络和服务器。

参考图1，示出了根据本申请的获取NLP分类领域阳性样本方法的一个实施例的流程图。所述的获取NLP分类领域阳性样本方法，包括以下步骤：

步骤S1，获取公开数据预训练模型和专有数据预训练模型。

具体的，根据实际机器性能选择向量尺寸尽可能大的预训练模型，其中，模型选择范围可在transformer-base系列的模型中进行试验，需要同时考虑到模型能力和机器能力的上限，过于庞大的模型，如T5或者gpt2则不建议使用。

在一些可选的实现方式中，所述S1步骤具体包括：

采用专有数据集对预训练模型进行预训练，获取专有数据预训练模型。

采用专有数据集进行预训练，获取专有数据预训练模型，可采用Musklanguagemodel(掩码语言模型)进行预训练，专有数据集为预设数据库中提取专有场景下的专有文本数据集，如各公司内部数据库中的文本数据集。其中，文本数据需保证以下两点：保持文本数据的原貌，同一条文本数据需要和生产环境中一致，不得人为进行任何预处理；保持文本数据的随机性，保证文本数据是从真实环境中随机采样的结果。公开数据集可以为公开场合能够收集的文本数据集，如微博等数据库中的文本数据。公开数据集和专有数据集均是由阳性样本和阴性样本组成。在NLP文本分类中，阳性样本可以为特定的文本，例如辱骂文本，则其他非辱骂文本属于阴性样本，阳性样本也可为其他的敏感词文本。

给定一句话或是一个段落作为输入，首先将输入序列中各个词转换为其对应的词向量，同时加上每一个词的位置向量，体现词在序列的位置；将词向量输入到多层Transformer网络中，学习词与词之间的关系，编码其上下文信息，再通过前馈网络经过非线性变化，输出综合了上下文特征的各个词的向量表示，每一层Transformer网络主要由Multi-head self-attention层(多头自注意力机制)和前馈网络层两个子层构成，Multi-head self-attention会并行地执行多个不同参数的self-attention，并将各个self-attention的结果拼接作为后续网络的输入；得到蕴含当前上下文信息的各个词的表示，将其输入到前馈网络层以计算非线性层次的特征。

本申请的一些实施例中，所述采用公开数据集对预训练模型进行预训练，获取公开数据预训练模型，或采用专有数据集对预训练模型进行预训练，获取专有数据预训练模型的步骤包括：

获取初始训练模型和训练初始训练模型的训练样本集，对初始训练模型进行预训练，获取预训练模型。

所述获取初始训练模型和训练初始训练模型的训练样本集，对初始训练模型进行预训练，获取预训练模型的步骤具体包括：

其中，初始训练模型用于确定输入到初始语言模型的文本数据中包含的字之间的关联关系，初始训练模型的输出端分别与初始去噪自编码模型和初始序列到序列模型连接。初始训练模型是根据神经网络算法构建的神经网络语言模型。在一些可选的方式中，初始语言模型包括：字符编码器和基于BERT机制构建的语言模型。

字符编码器用于将输入到初始语言模型的文本数据中的每个字转换成对应的字向量，并将字向量、每个字所在的句子向量以及每个字的位置向量进行相加，得到基于BERT机制构建的语言模型的输入向量。基于BERT机制构建的初始语言模型，采用了Transformer的编码器，即Transformer Encoder，作为主体模型结构。Transformer Encoder用于将输入向量经过多头自注意力层，得到向量矩阵；将向量矩阵乘上系数矩阵之后进行压缩，以得到第一特征矩阵，将特征矩阵和输入向量依次进行残差连接和归一化，得到第二特征矩阵，将第二特征矩阵输入到一个全连接的前馈神经网络，然后再依次进行残差连接和归一化，以得到预训练好的语义向量。

其中，上述将输入向量经过多头自注意力层，得到向量矩阵，具体可以包括：将所述输入向量经过多头自注意力层，每个注意力层里对输入向量均进行线性变化，以得到查询向量、键向量以及值向量，这里，线性变化包括将输入向量乘以第一权值矩阵以得到查询向量、将所述输入向量乘以第二权值矩阵以得到键向量，以及将输入向量乘以第三权值矩阵以得到值向量。通过待编码字的查询向量和其它字的键向量得到其它字对待编码字的注意力的权重，将注意力权重和每个值向量相乘后的值进行累加得到每个字的self-attention输出，将所有注意力层里的self-attention输出进行拼接得到多头注意力层的向量矩阵。

获取训练初始训练模型的训练样本集，即公开数据集的训练样本集和专有数据集的训练样本集，所述训练样本集中的训练样本包括样本数据、第一信息和第二信息。

对初始训练模型、初始去噪自编码模型和初始序列到序列模型进行预训练，直到初始去噪自编码模型和初始序列到序列模型满足预设的条件，如损失值满足预设的条件或者达到最大迭代次数；例如，分别计算初始去噪自编码模型和初始序列到序列模型的损失值，然后进行加权求平均，若加权求平均后的值满足预设的收敛条件后，则得到训练后的预训练模型。

其中，训练样本的样本数据包括遮蔽后的原始文本和原始文本音韵信息，音韵信息可包含音子信息和音调信息或仅包含音子信息，例如“我要上语文课”，音韵信息为“wo3yao4shang4yu3wen2ke4”,字母表示原始文本的音子信息，数字表示原始文本的音调信息，训练样本的第一信息为原始文本中的遮蔽字词，训练样本的第二信息为原始文本音韵信息；其中，原始文本音韵信息既是样本数据，又是第二信息。去噪自编码模型主要用于预测输入文本中进行随机修改的字词，如替换、遮蔽或删除的字词，序列到序列模型用于根据输入的文本数据，预测包含输入文本数据信息的输出文本数据。例如样本数据为“我要上##课woyaoshangyuwenke”，其对应的原始文本为“我要上语文课”，故被遮蔽的词为“语文”，相应地，第一信息为“语文”，第二信息即原始文本音韵信息为“woyaoshangyuwenke”。将样本数据作为输入，将第一信息例如“语文”，作为与初始训练模型的输出端连接的初始去噪自编码模型的期望输出，将第二信息例如“woyaoshangyuwenke”，作为与初始训练模型的输出端连接的初始序列到序列模型的期望输出。分别计算初始去噪自编码模型和初始序列到序列模型的损失值，并进行加权求平均，若去噪自编码模型和序列到序列模型满足预设的收敛条件，直到加权求平均后的值满足预设的收敛条件后，得到训练后的公开数据预训练模型或专有数据预训练模型。

步骤S2，拼接公开数据预训练模型和专有数据预训练模型的编码层，将待识别文本输入向量编码模型中进行编码，得到向量编码模型。

本申请实施例中，同时加载公开预训练模型和专有数据预训练模型，即同时加载公开预训练模型和专有数据预训练模型的编码层(encoder)的权重，拼接公开数据预训练模型和专有数据预训练模型，得到拼接后的模型为向量编码模型，从而向量编码模型的输出端可以同时输出公开预训练模型和专有数据预训练模型的编码层所输出的数据。自动编码器中通过编码层实现编码，transformer base中NLP语言预训练模型都可以视为自动编码器，预训练模型中前6-12层为编码层，具体根据预训练模型而定。同时加载公开预训练模型和专有数据预训练模型的编码层的权重后，将两个模型编码层输出拼接后可以作为向量编码模型，向量编码模型可作为实现文本编码的文本编码器，从而可以通过向量编码模型对输入的文本进行编码。

步骤S3，获取种子样本集和专有数据集中的待识别文本，对种子样本和专有文本数据进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引，所述种子样本集由阳性样本构成。

本申请实施例中，种子样本集由阳性样本构成，即种子样本集中仅包含阳性样本，通过人工搜集到的各场景尽可能全面的阳性样本构成种子样本集，在NLP文本分类中，阳性样本可以为特定的文本，例如辱骂文本，则其他非辱骂文本属于阴性样本，阳性样本也可为其他的敏感词文本。

获取种子样本集和专有数据集中的待识别文本，将待识别文本输入向量编码模型进行编码，得到待识别文本编码后对应的文本向量，即对种子样本集中的种子样本和专有数据集中的专有文本数据进行编码，获得种子向量和专有文本向量，然后对专有文本向量构建向量索引。

所述S3步骤具体包括：

本申请实施例中，获取种子样本和专有文本数据中的待识别文本，将待识别文本输入向量编码模型中进行编码，通过向量编码模型编码层编码后输出，获得对应的种子向量和专有文本向量。

对专有文本向量构建向量索引，并保留向量与文本对应关系。通过聚类的方法构建向量索引，对向量集合中的向量进行划分，可通过k-means等聚类方法将专有文本向量集合划分为多个聚类，满足同一聚类中的向量相似度较高，不同聚类中的向量相似度较低，并记录各个聚类的中心点的坐标，根据聚类的结果作为建立向量索引的依据。

所述获取种子样本和专有文本数据中的待识别文本，对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量的步骤具体包括：

识别待识别文本中的文字获取所述待识别文本使用的语言；

本申请实施例中，获取种子样本和专有文本数据中的待识别文本，确定待识别文本对应的多个编码种类；其中，待识别文本指的是任意语言及任意编码种类的文字组成的文本，在对其进行识别之前，无法得知该文本采用采用何种编码；在获取待识别文本后，通过识别文本中的文字可以得知该文本使用的语言；再通过预先设定的各种语言和编码种类的对应关系，从而确定该待识别文本对应的所属编码种类。如果识别到待识别文本包括3种语言，则可以确定3种编码种类。

从待识别文本中提取字符串，根据多个编码种类分别对字符串进行编码，生成与每个编码种类对应的向量编码结果；其中，从待识别文本中提取字符串可采用多种方式，包括但是不限于提取预设数量的字符串、提取预设百分比的字符串、提取***界面中输入数量的字符串或提取***界面中输入百分比的字符串。在具体的提取方式上，也可选择顺序提取、倒序提取或随机抽取等方式。例如待识别文本中包括3种语言，则可根据每种语言文字占文本总文字数的比例，按比例提取每种语言的字符串。编码指的是信息从一种形式或格式转换为另一种形式的过程。一个文本存在一个或多个可正确识别文本的编码种类，通过该正确的编码种类对待识别文本进行编码可生成正确的编码结果。编码结果指的就是种子向量和专有文本向量。

步骤S4，基于所述种子向量在专有数据集中进行相似向量搜索，并通过所述向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本。

本申请实施例中，基于种子向量在专有数据集中进行相似向量搜索，通过向量索引获取对应的专有文本，将所述专有文本作为阳性样本，加入到种子样本集中，直到获得预期数量的阳性样本，本实施方式中，直到阳性样本达到阴性样本的10/100，例如，专有数据集有10000专有文本数据，最终通过在专有数据集中进行相似向量搜索所获得的阳性样本为300，则阴性样本为9700，则阳性样本达到阴性样本的3/100，从而阳性样本未达到预期数量。向量编码模型经过多次迭代后，最终通过在专有数据集中进行相似向量搜索所获得的阳性样本为1000，则阴性样本为9000，阳性样本达到阴性样本的11/100，则阳性样本达到了阴性样本的10/100，从而得到了预期数量的阳性样本。

本申请提供的获取NLP分类领域阳性样本方法，获取公开预训练模型和专有数据预训练模型，对公开预训练模型和专有数据预训练模型进行拼接，得到向量编码模型；对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量，对文本向量构建索引，进行向量搜索，获取预期数量的阳性样本；可以筛选出多种现有技术中无法匹配的阳性样本，避免在面对一些文本数据超出规则范围但语义为阳性的样本时，无法检出此类阳性样本，模型具有更高的召回率。

所述S4步骤具体包括：

本申请实施例中，以种子向量在专有文本向量索引空间即专有数据集，进行向量搜索获得相似向量对应的文本，即阳性样本，并将搜索到的阳性样本进行标注。

所述在专有数据集中，以种子向量搜索相似向量对应的专有文本的步骤包括：

本申请实施例中，在向量搜索时，首先依次比对目标向量与各个聚类中心的距离，选择出与目标向量最为接近的若干个聚类中心。接下来获取这些聚类中心所对应聚类中的所有向量，依次计算各向量与目标向量的距离，选择出距离最为接近的若干个向量。该方法采用聚类的方法将数据集合划分，从而在搜索过程中排除掉与目标向量相似度较低的向量。

将标注后的阳性样本合并到所述种子样本集，作为新的种子样本集，再以新的种子样本集中的种子向量在专有数据集中进行向量搜索，获得相似向量对应的阳性文本，直到新的种子样本集中的阳性样本达到预设数量。

需要强调的是，为进一步保证上述阳性样本的私密和安全性，上述阳性样本还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例提供的获取NLP分类领域阳性样本方法，获取公开预训练模型和专有数据预训练模型，对公开预训练模型和专有数据预训练模型进行拼接，得到向量编码模型；对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量，对文本向量构建索引，进行向量搜索，获取预期数量的阳性样本；可以筛选出多种现有技术中无法匹配的阳性样本，避免在面对一些文本数据超出规则范围但语义为阳性的样本时，无法检出此类阳性样本，模型具有更高的召回率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图2，作为对上述图1所示方法的实现，本申请提供了一种获取NLP分类领域阳性样本装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种计算机设备中。

如图2所示，本实施例所述的获取NLP分类领域阳性样本装置2包括：

获取模块201、拼接模块202、构建模块203和搜索模块204。

所述获取模块201用于获取公开数据预训练模型和专有数据预训练模型。

所述获取模块201包括第一获取子模块和第二获取子模块。

所述第一获取子模块用于采用公开数据集对预训练模型进行预训练，获取公开数据预训练模型；

所述第二获取子模块用于采用专有数据集对预训练模型进行预训练，获取专有数据预训练模型。

采用专有数据集进行预训练，获取专有数据预训练模型，可采用Musklanguagemodel进行预训练，专有数据集为预设数据库中提取专有场景下的专有文本数据集，如各公司内部数据库中的文本数据。

公开数据集可以为公开场合能够收集的文本数据集，如微博等数据库中的文本数据。公开数据集和专有数据集均是由阳性样本和阴性样本组成。在NLP文本分类中，阳性样本可以为特定的文本，例如辱骂文本，则其他非辱骂文本属于阴性样本，阳性样本也可为其他的敏感词文本。

所述拼接模块用于接公开数据预训练模型和专有数据预训练模型的编码层，得到向量编码模型。

本申请实施例中，同时加载公开预训练模型和专有数据预训练模型，即同时加载公开预训练模型和专有数据预训练模型的编码层(encoder)的权重，拼接公开数据预训练模型和专有数据预训练模型，得到拼接后的模型为向量编码模型，从而向量编码模型的输出端可以同时输出公开预训练模型和专有数据预训练模型的编码层所输出的数据。

所述构建模块203用于获取种子样本集和专有数据集中的待识别文本，对种子样本和专有文本数据进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引，所述种子样本集由阳性样本构成。

所述构建模块203包括编码模块和建立模块。

所述编码模块用于获取种子样本和专有文本数据中的待识别文本，将待识别文本输入向量编码模型中进行编码，获取种子向量和专有文本向量；

所述建立模块204用于对专有文本向量建立向量索引，并存储专有文本向量与所述专有文本对应关系。

本申请实施例中，对专有文本向量构建向量索引，并保留向量与文本对应关系。通过聚类的方法构建向量索引，对向量集合中的向量进行划分，可通过k-means等聚类方法将专有文本向量集合划分为多个聚类，满足同一聚类中的向量相似度较高，不同聚类中的向量相似度较低，并记录各个聚类的中心点的坐标，根据聚类的结果作为建立向量索引的依据。

所述搜索模块204用于基于所述种子向量在专有数据集中进行相似向量搜索，并通过所述向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本。

本申请实施例中，基于种子向量在专有数据集中进行相似向量搜索，通过向量索引获取对应的专有文本，将所述专有文本作为阳性样本，加入到种子样本集中，直到获得预期数量的阳性样本，本实施方式中，直到阳性样本达到阴性样本的10/100。

所述搜索模块204包括标注模块、合并模块和重复模块。

所述标注模块用于在专有数据集中，以种子向量搜索相似向量对应的专有文本，并将搜索到的专有文本作为阳性样本进行标注；

所述合并模块用于将标注后的阳性样本合并到所述种子样本集，作为新的种子样本集；

所述重复模块用于重复在专有数据集中，以种子向量搜索相似向量对应的专有文本，并将搜索到的专有文本作为阳性样本进行标注的步骤至所述合并模块用于将标注后的阳性样本合并到所述种子样本集，作为新的种子样本集的步骤，获取预期数量的阳性样本。

本申请实施例中，以种子向量在专有文本向量索引空间即专有数据集，进行向量搜索获得相似向量对应的文本，即阳性样本，并将搜索到的阳性样本进行标注。在向量搜索时，首先依次比对目标向量与各个聚类中心的距离，选择出与目标向量最为接近的若干个聚类中心。接下来获取这些聚类中心所对应聚类中的所有向量，依次计算各向量与目标向量的距离，选择出距离最为接近的若干个向量。该方法采用聚类的方法将数据集合划分，从而在搜索过程中排除掉与目标向量相似度较低的向量。

本申请实施例提供的获取NLP分类领域阳性样本装置，获取公开预训练模型和专有数据预训练模型，对公开预训练模型和专有数据预训练模型进行拼接，得到向量编码模型；对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量，对文本向量构建索引，进行向量搜索，获取预期数量的阳性样本；可以筛选出多种现有技术中无法匹配的阳性样本，避免在面对一些文本数据超出规则范围但语义为阳性的样本时，无法检出此类阳性样本，模型具有更高的召回率。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图3，图3为本实施例计算机设备基本结构框图。

所述计算机设备3包括通过***总线相互通信连接存储器301、处理器302和网络接口303，所述存储器301中存储有计算机可读指令，所述处理器302执行所述计算机可读指令时实现如上所述的获取NLP分类领域阳性样本方法的步骤。需要指出的是，图中仅示出了具有组件301-303的计算机设备3，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(DigitalSignal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是手机、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器301至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器301可以是所述电子设备3的内部存储单元，例如该计算机设备3的硬盘或内存。在另一些实施例中，所述存储器301也可以是所述计算机设备3的外部存储设备，例如该计算机设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器301还可以既包括所述计算机设备3的内部存储单元也包括其外部存储设备。本实施例中，所述存储器301通常用于存储安装于所述计算机设备3的操作***和各类应用软件，例如获取NLP分类领域阳性样本方法的可读指令代码等。此外，所述存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器302在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制所述计算机设备3的总体操作。本实施例中，所述处理器302用于运行所述存储器301中存储的可读指令代码或者处理数据，例如运行所述获取NLP分类领域阳性样本方法的可读指令代码。

所述网络接口303可包括无线网络接口或有线网络接口，该网络接口303通常用于在所述计算机设备3与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有获取NLP分类领域阳性样本可读指令，所述获取NLP分类领域阳性样本可读指令可被至少一个处理器302执行，以使所述至少一个处理器302执行如上述的获取NLP分类领域阳性样本方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种获取NLP分类领域阳性样本方法，其特征在于，包括下述步骤：

获取公开数据预训练模型和专有数据预训练模型；

获取种子样本集和专有数据集中的待识别文本，将待识别文本输入向量编码模型中进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引，所述种子样本集由阳性样本构成；

2.根据权利要求1所述的获取NLP分类领域阳性样本方法，其特征在于，所述获取种子样本和专有文本数据中的待识别文本，对种子样本和专有文本数据进行编码，确定种子向量和专有文本向量，并对专有文本向量构建索引的步骤具体包括：

3.根据权利要求2所述的获取NLP分类领域阳性样本方法，其特征在于，所述基于所述种子向量在专有数据集中进行相似向量搜索，并通过所述向量索引获取对应的专有文本，以更新所述种子样本集，得到预期数量的阳性样本的步骤具体包括：

4.根据权利要求3所述的获取NLP分类领域阳性样本方法，其特征在于，所述在专有数据集中，以种子向量搜索相似向量对应的专有文本的步骤具体包括：

5.根据权利要求2所述的获取NLP分类领域阳性样本方法，其特征在于，所述获取种子样本和专有文本数据中的待识别文本，对种子样本和专有文本数据进行编码，获取种子向量和专有文本向量的步骤具体包括：

6.根据权利要求1所述的获取NLP分类领域阳性样本方法，其特征在于，所述获取公开数据预训练模型和专有数据预训练模型的步骤具体包括：

7.根据权利要求6所述的获取NLP分类领域阳性样本方法，其特征在于，所述采用公开数据集对预训练模型进行预训练，获取公开数据预训练模型或采用专有数据集对预训练模型进行预训练，获取专有数据预训练模型的步骤具体包括：

8.一种获取NLP分类领域阳性样本装置，其特征在于，包括：

拼接模块，用于接公开数据预训练模型和专有数据预训练模型，得到向量编码模型；

构建模块，用于获取种子样本和专有文本数据中的待识别文本，确定种子向量和专有文本向量，并对专有文本向量构建索引；

搜索模块，用于基于种子向量在专有数据集中进行向量搜索，并通过所述向量索引获取对应的专有文本，得到预期数量的阳性样本。

9.一种计算机设备，其特征在于，包括至少一个存储器和至少一个处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7任一项所述的获取NLP分类领域阳性样本方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的获取NLP分类领域阳性样本方法的步骤。