CN112417147A

CN112417147A - 训练样本的选取方法与装置

Info

Publication number: CN112417147A
Application number: CN202011225075.1A
Authority: CN
Inventors: 石磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-26

Abstract

本申请实施例提供一种训练样本的选取方法与装置，通过获取种子文本和N篇备选文本，并确定该种子文本与每篇备选文本之间的相似度；接着，根据种子文本与每篇备选文本之间的相似度，首先从N篇备选文本中选取M篇第一备选文本，并确定每篇第一备选文本与种子文本之间的编辑距离，再根据每篇第一备选文本与种子文本之间的编辑距离，从M篇第一备选文本中选取对应的编辑距离在第一预设范围内的K篇第一备选文本作为模型的训练样本数据，进而在保证了训练样本多样性的基础上，降低了重复样本的数量，这样使用该训练样本对模型进行训练时，可以提高模型的训练速度。

Description

训练样本的选取方法与装置

技术领域

本申请实施例涉及机器学习技术领域，尤其涉及一种训练样本的选取方法与装置。

背景技术

随着人工智能技术的快速发展，各种网络模型应用而生，在使用网络模型进行预测之前，首先需要对网络模型进行训练。

在网络模型的训练过程中，训练样本数据的选取直接关系着模型训练的准确性以及模型训练的效率。因此，训练样本数据不仅要满足多样性，以实现对模型的准确训练，且每种类型的样本数据不易过多，避免模型训练时间过长。

以文本分类模型为例，在对该文本分类模型进行训练时，所选取的训练样本数据中存在大量的相同样本，进而导致模型的训练时间过长。

发明内容

本申请实施例提供一种训练样本的选取方法与装置，用以准确获取训练样本，以实现模型的快速训练。

第一方面，本申请实施例提供一种训练样本的选取方法，包括：

获取种子文本和N篇备选文本，并确定所述种子文本与每篇所述备选文本之间的相似度，所述备选文本为未作标注的待选样本，所述种子文本为已作标注的样本；

根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取M篇第一备选文本；

确定每篇第一备选文本与所述种子文本之间的编辑距离；

根据每篇所述第一备选文本与所述种子文本之间的编辑距离，从所述M篇第一备选文本中选取编辑距离在第一预设范围内的K篇第一备选文本作为训练样本；

其中，所述N、M、K均为大于或等于1的正整数。

第二方面，本申请实施例提供一种训练样本的选取装置，包括：

获取单元，用于获取种子文本和N篇备选文本；

第一确定单元，用于确定所述种子文本与每篇所述备选文本之间的相似度，所述备选文本为未作标注的待选样本，所述种子文本为已作标注的样本；

第一选取单元，用于根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取M篇第一备选文本；

第二确定单元，用于确定每篇第一备选文本与所述种子文本之间的编辑距离；

第二选取单元，用于根据每篇所述第一备选文本与所述种子文本之间的编辑距离，从所述M篇第一备选文本中选取编辑距离在第一预设范围内的K篇第一备选文本作为训练样本；

其中，所述N、M、K均为大于或等于1的正整数。

第二方面的一种可能的实现方式中，上述第一选取单元，具体用于根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取相似度最大的前M篇备选文本作为所述M篇第一备选文本。

第二方面的一种可能的实现方式中，上述第一选取单元，具体用于根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取相似度位于第二预设范围内的备选文本作为所述M篇第一备选文本。

第二方面的一种可能的实现方式中，上述第一确定单元，具体用于确定所述种子文本的标题的特征向量和正文的特征向量，以及每篇所述备选文本的标题的特征向量和正文的特征向量；并根据所述种子文本的标题的特征向量和正文的特征向量，确定所述种子文本的特征向量；以及根据每篇所述备选文本的标题的特征向量和正文的特征向量，确定每篇所述备选文本的特征向量；针对每篇所述备选文本，根据所述种子文本的特征向量与所述备选文本的特征向量，确定所述种子文本与所述备选文本之间的相似度。

第二方面的一种可能的实现方式中，上述第一确定单元，具体用于从预设的词集中查找目标文本的标题中每个单词的特征向量，以及所述目标文本的正文中每个单词的特征向量，所述目标文本为所述种子文本或所述备选文本，所述词集包括多个单词所对应的特征向量；根据所述目标文本的标题中每个单词的特征向量，确定所述目标文本的标题的特征向量；根据所述目标文本的正文中每个单词的特征向量，确定所述目标文本的正文的特征向量。

第二方面的一种可能的实现方式中，上述第一确定单元，具体用于将所述目标文本的标题中每个单词的特征向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为所述目标文本的标题的特性向量。

第二方面的一种可能的实现方式中，上述第一确定单元，具体用于将所述目标文本的正文中每个单词的特性向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为所述目标文本的正文的特性向量。

第二方面的一种可能的实现方式中，上述第一确定单元，具体用于将所述种子文本的标题的特征向量和所述种子文本的正文的特征向量进行拼接，将拼接后的特征向量作为所述种子文本的特征向量。

第二方面的一种可能的实现方式中，上述第一确定单元，具体用于针对每篇所述备选文本，将所述备选文本的标题的特征向量和所述备选文本的正文的特征向量进行拼接，将拼接后的特征向量作为所述备选文本的特征向量。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现上述第一方面所述的训练样本的选取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质包括计算机指令，当所述指令被计算机执行时，使得所述计算机实现如第一方面所述的训练样本的选取方法。

第五方面，本申请实施例提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得计算机实施第一方面所述的训练样本的选取方法。

本申请实施例提供的训练样本的选取方法与装置，通过获取种子文本和N篇备选文本，并确定该种子文本与每篇备选文本之间的相似度；接着，根据种子文本与每篇备选文本之间的相似度，首先从N篇备选文本中选取M篇第一备选文本，并确定每篇第一备选文本与种子文本之间的编辑距离，再根据每篇第一备选文本与种子文本之间的编辑距离，从M篇第一备选文本中选取对应的编辑距离在第一预设范围内的K篇第一备选文本作为模型的训练样本数据，进而在保证了训练样本多样性的基础上，降低了重复样本的数量，这样使用该训练样本对模型进行训练时，可以提高模型的训练速度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例涉及的一种应用场景示意图；

图2为本申请一实施例提供的训练样本的选取方法的流程示意图；

图3为本申请另一实施例提供的训练样本的选取方法的流程示意图；

图4为本申请实施例涉及的训练样本的选取方法的一种示意图；

图5为本申请另一实施例提供的训练样本的选取方法的流程示意图；

图6为本申请实施例提供的训练样本的选取装置的一种结构示意图；

图7为本申请实施例涉及的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应理解，在本发明实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

本申请实施例应用于机器学习技术领域，用于获取准确的训练样本，以实现模型的快速训练。

为了便于理解本申请的实施例，首先对本申请实施例涉及到的相关概念进行如下简单介绍：

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

监督训练，就是通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的)，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。

无监督训练(或者叫非监督训练)，其与监督训练的不同之处，在于事先没有训练样本，而是直接对数据进行建模。无监督训练里典型的例子为聚类。本申请实施例只对少数的种子文本进行了标注，其他的备选文本没有标注，因此，本申请实施例涉及的模型训练可以理解为无监督训练。

word2vec(word to vector，词向量)，即一个词用一个向量来表示。word2vec工具主要包含两个模型：跳字模型(skip-gram)和连续词袋模型(continuous bag of words，简称CBOW)，以及两种高效训练的方法：负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec词向量可以较好地表达不同词之间的相似和类比关系。word2vec是一个自然语言处理(Natural Language Processing，NLP)工具，它可以将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。

图1为本申请实施例涉及的一种应用场景示意图，包括：用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。

其中，用户设备101用于接收用户对种子样本的标注操作，并对标注好的种子文本发送至数据库105。

数据采集设备102用于根据本申请实施例的方法，从内容库106中选取满足要求的备选文本，并将选取的备选文本存入数据量。其中，数据库105中的训练样本包括第一样本集和第二样本集，其中第一样本集中包括不同类型中每个类型对应的多张种子文本，每个种子文本为已作了标注的文本。第二样本集为从数据采集设备102从内容库106中获取的多个备选文本。

训练设备103基于数据库105中维护的训练样本，对文本分类模型进行训练，使得训练后的文本分类模型可以识别出文本的类别。训练设备103得到的文本分类模型中可以应用不同的***或设备中。

在附图1中，执行设备104配置有I/O接口107，与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待分类的文本。执行设备104中的计算模块109使用文本分类模型对输入的待分类文本进行处理，具体是将待待分类文本输入到文本分类模型中进行分类，以得到待分类文本对应的类型，并通过I/O接口将待分类文本对应的类型发送至用户设备101。

值得注意的，附图1仅是本申请实施例提供的一种应用场景的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上，上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。

本申请实施例的方法可以应用于各种文本分类模型的训练过程中，该文本分类模型可以应用于信息流平台(例如阅读平台1、阅读平台2等)，用于对信息流平台上的文本进行分类。目前在文本分类模型的训练过程中，所选取的训练样本中存在大量的相同样本，进而导致模型的训练时间过长。

为了解决上述技术问题，本申请实施例提供一种训练样本的选取方法，通过获取种子文本和N篇备选文本，并确定该种子文本与每篇备选文本之间的相似度；接着，根据种子文本与每篇备选文本之间的相似度，首先从N篇备选文本中选取M篇第一备选文本，并确定每篇第一备选文本与种子文本之间的编辑距离，再根据每篇第一备选文本与种子文本之间的编辑距离，从M篇第一备选文本中选取编辑距离在第一预设范围内的K篇第一备选文本作为模型的训练样本，进而在保证训练样本多样性的基础上，降低了重复样本的数量，这样使用该训练样本对模型进行训练时，可以提高模型的训练速度。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请一实施例提供的训练样本的选取方法的流程示意图。本申请实施例的执行主体为具有选取模型的训练样本功能的装置，例如训练样本的选取装置，以下简称选取装置。在一些实施例中，该选取装置为图1所示的数据采集设备。在一些实施例中，上述选取装置为数据采集设备中具有数据处理功能的单元，例如为数据处理设备中的处理器。如图2所示，本申请实施例的方法包括：

S201、获取种子文本和N篇备选文本，并确定种子文本与每篇备选文本之间的相似度。

上述N为大于或等于1的正整数。

上述种子文本为已作标注的样本。以上述模型为文本分类模型为例，该文本分类模型可以对信息流平台(例如阅读平台1、阅读平台2等)上的文本进行分类，确定出信息流平台上的文本的类型是体育类、文娱类还是军事类等。上述种子文本的类型用户已作了标注。需要说明的是，若上述文本分类模型可以识别出P种类型的文本，这样在训练的过程中，可以获取每一种类型的多个种子文本，针对每篇种子文本，使用本申请实施例的方法，从内容库中获取该种子文本对应的K篇第一备选文本。由于选取每一篇种子文本对应的K篇第一备选文本的过程一致，因此，本申请实施例以选取一个种子文本对应的K篇第一备选文本为例进行说明。需要说明的是，本申请实施例的方法除了应用于文本分类模型外，还可以应用于其他的文本处理模型，例如应用于文本推荐模型中。

上述备选文本为未作标注的待选样本，具体的，如图1所示，备选文本为内容库中的文本，其中内容库中包括各种类型的文本。

本申请实施例中，上述种子文本可以为用户输入的，上述备选文本存储在内容库中，因此选取装置可以从内容库中获取备选文本。

选取装置获取种子文本和N篇备选文本之后，可以使用已有的方式，例如空间向量法、余弦距离法或局部Hash(哈希)函数等方法，确定出种子文本与每一篇备选文本之间的相似度。其中，使用空间向量法判断文本相似度的过程是，对文本进行分词，计算每个单词的词频-逆文档频度(Term Frequency-Inverse Document Frequency，TF-IDF)值，其中TF为词频，即单词在文本中出现的次数与该文本所包括的总单词数的比值。IDF为逆向文本频率，具体可以根据文本的总数以及出现该单词的文本数确定。这样可以获得文本中每个单词的TF-IDF值，将文本中每个单词的TF-IDF值组成一个空间向量，作为该文本的空间向量。进而可以通过确定两个文本的空间向量之间的空间距离，来确定两个文本之间的相似度，空间距离越小表示两个文本越相似。其中，使用余弦距离法判断文本相似度的方法是，使用上述空间向量法得到的两个文本的空间向量的余弦距离来确定两个文本之后的相似度。其中，使用局部Hash函数法判断文本相似度的方法是，使用哈希函数将上述文本的空间向量转换为N维空间中的一个点，这样根据两个文本对应的点之间的距离，确定两个文本之间的相似度。上述任意一种确定文本相似度的方法的具体实现过程可以参照已有技术的具体描述，在此不再赘述。

在一些实施例中，还可以参照下面图3所示的方法确定出种子文本与每篇备选文本之间的相似度，具体参照图3所示实施例的描述。

S202、根据种子文本与每篇备选文本之间的相似度，从N篇备选文本中选取M篇第一备选文本。

本申请实施例中，根据种子文本与每篇备选文本之间的相似度，从N篇备选文本中选取M篇第一备选文本的方式包括但不限于如下几种：

方式一，根据种子文本与每篇备选文本之间的相似度，从N篇备选文本中选取相似度最大的前M篇备选文本作为M篇第一备选文本。

在一种示例中，根据上述S201的方法获得种子文本与每篇备选文本的相似度后，根据相似度的大小从大到小对相似度进行排序，如表1所示：

表1

需要说明的是，表1示出了根据种子文本与备选文本之间的相似度的大小，对相似度从大到小进行排序，可选的，还可以根据相似度的大小，对相似度从小到大进行排序。

参照表1，从N篇备选文本中，选取相似度最大的前M篇备选文本作为M篇第一备选文本。

方式二，根据种子文本与每篇备选文本之间的相似度，从N篇备选文本中选取相似度位于第二预设范围内的备选文本作为M篇第一备选文本。

上述第二预设范围可以根据实际需要进行设定，本申请实施例对此不作具体限制。

继续参照表1，从N篇备选文本中选取相似度位于第二预设范围内的备选文本作为M篇第一备选文本。假设，表1中各相似度从大到小排序形成集合1为：{0.99，0.98，0.96，0.95，……，0.7，0.6}，假设第二预设范围为0.96至0.65，这样从集合1中选择位于第二预设范围的各相似度，得到集合2：{0.96，0.95，……，0.7}，将集合2中各相似度对应的备选文本作为第一备选文本。

S203、确定每篇第一备选文本与种子文本之间的编辑距离。

M篇第一备选文本中，每篇第一备选文本与种子文本之间的编辑距离的确定方式一致，在此以一篇第一备选文本为例。

由上述可知，编辑距离，是指将一个字符串转化为另一个字符串所需的最少操作数。其中操作包含以下3种：增加一个字符；删除一个字符和修改一个字符。

具体是，将第一备选文本作为字符串A，其长度为LA，将种子文本作为字符串B，其长度LB。采用已有计算两个字符串之间的编辑距离的方式，确定字符串A和字符串B之间的编辑距离，进而获得种子文本与第一备选文本之间的编辑距离。

在一种示例中，可以参照如下的动态公式(1)，获得字符串A和字符串B之间的编辑距离：

if i＝＝0且j＝＝0，edit(i,j)＝0；

if i＝＝0且j>0，edit(i,j)＝j；

if i>0且j＝＝0，edit(i,j)＝1；

if 0<i≤1且0<j≤1，edit(i,j)＝＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)}，

其中，edit(i,j)表示第一个字符串A的长度为i的子串到第二个字符串B的长度为j的子串的编辑距离，当第一个字符串的第i个字符不等于第二个字符串的第j个字符时，f(i,j)＝1；否则，f(i,j)＝0。

其中编辑距离越小表示两个文本的相似度越高。这样，可以获得每篇第一备选文本与种子文本之间的编辑距离，根据编辑距离从大到小排序如表2所示：

表2

需要说明的是，表2示出了根据种子文本与第一备选文本之间的编辑距离的大小，对编辑距离从大到小进行排序，可选的，还可以编辑距离的大小，对编辑距离从小到大进行排序。

S204、根据每篇第一备选文本与种子文本之间的编辑距离，从M篇第一备选文本中选取编辑距离在第一预设范围内的K篇第一备选文本作为模型的训练样本数据。

上述第一预设范围可以根据实际需要进行确定，本申请实施例对此不做限制。

具体的，参照上述表2所示，根据编辑距离的大小，从M篇第一备选文本中选取编辑距离在第一预设范围内的K篇第一备选文本，将这K篇第一备选文本作为模型的训练样本，这样可以剔除掉M篇第一备选文件中与种子文本基本相同的第一备选文件，将剩下的与种子文本的编辑距离满足第一预设范围内的K篇第一备选文件作为模型的训练样本，可以减小训练样本中重复样本，进而提高了模型的训练速度。

可选的，上述第一预设范围大于30，即从M篇第一备选文本中选取与种子文本的编辑距离大于30的第一备选文本，作为模型的训练样本。

本申请实施例提供一种训练样本的选取方法，通过获取种子文本和N篇备选文本，并确定该种子文本与每篇备选文本之间的相似度；接着，根据种子文本与每篇备选文本之间的相似度，首先从N篇备选文本中选取M篇第一备选文本，并确定每篇第一备选文本与种子文本之间的编辑距离，再根据每篇第一备选文本与种子文本之间的编辑距离，从M篇第一备选文本中选取对应的编辑距离在第一预设范围内的K篇第一备选文本作为模型的训练样本数据，进而在保证了训练样本多样性的基础上，降低了重复样本的数量，这样使用该训练样本对模型进行训练时，可以提高模型的训练速度。

在上述实施例的基础上，下面结合图3和图4对上述S201中确定种子文本与每篇备选文本之间的相似度的具体过程进行详细介绍。

如图4所示，文本包括标题和正文，可以通过获取标题的特征向量以及正文的特征向量，根据标题的特性向量和正文的特征向量，最终获得文本的特征向量，其具体的实现过程参照图3所示的实施例。

图3为本申请另一实施例提供的训练样本的选取方法的流程示意图，如图3所示，上述S201可以包括：

S301、确定种子文本的标题的特征向量和正文的特征向量，以及每篇备选文本的标题的特征向量和正文的特征向量。

具体的，针对种子文本，使用分词工具对种子文本的标题进行分词，同时对种子文本的正文进行分词。使用文本特征向量化方式，例如TF-IDF编码或毒热(one-hot)编码等方法，获得种子文本的标题的特征向量以及种子文本的特征向量。

在一些实施例中，本申请实施例还可以采用如图5所示的方式确定种子文本的标题的特征向量和正文的特征向量，以及每篇备选文本的标题的特征向量和正文的特征向量，即上述S301包括：

S3011、从预设的词集中查找目标文本的标题中每个单词的特征向量，以及目标文本的正文中每个单词的特征向量。

上述的目标文本为种子文本或备选文本，词集包括多个单词所对应的特征向量。

需要说明的是，该预设的词集是事先训练好的，里面包括多个单词所对应的特征向量，假设该预设的词集的规模为200万，维度为100。也就是说，该预设的词集包括200万个单词，每个单词用一个100维的向量表示，这样可以理解该预测的词集为一个200万行100列的矩阵，矩阵的每一行表示一个单词的特征向量。

可选的，上述预设的词集可以为word2vec词集，也就是说该词集中的每个单词的特征向量是word2vec向量。

S3012、根据目标文本的标题中每个单词的特征向量，确定目标文本的标题的特征向量。

当目标文本为种子文本时，可以通过如下几种方式确定种子文本的标题的特征向量：

方式一，将种子文本的标题中每个单词的特征向量进行累加，将累加后的特征向量A作为种子文本的标题的特征向量。举例说明，假设种子文本包括10个单词，每个单词的特征向量为100维，将这10个100维的特征向量进行累加，具体是，将标题的每个单词的特征向量的第一位相加，作为特征向量A的第一位，将标题的每个单词的特征向量的第二位进行相加，作为特征向量A的第二位，依次类推，将标题的每个单词的特征向量第100位相加，作为特征向量A的第100位，进而获得一个100维的特征向量A，将该特征向量A作为种子文本的标题的特征向量。

方式二、将种子文本的标题中每个单词的特征向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为种子文本的标题的特性向量。

举例说明，假设种子文本包括2个单词，分别为第一单词和第二单词，假设第一单词的特征向量为{a1，a2，a3，……,a100}，第二单词的特征向量为{b1，b2，b3，……，b100}。将这2个100维的特征向量进行累加，得到的特征向量为{a1+b1，a2+b2，a3+b3，……,a100+b100}。接着，对特征向量{a1+b1，a2+b2，a3+b3，……,a100+b100}进行归一化处理，具体是遍历该特征向量{a1+b1，a2+b2，a3+b3，……,a100+b100}，获得该特征向量中的最大值(假设为a3+b3)和最小值(假设为a1+b1)，将最大值设定为1，将最小值设定为0，基于如下公式(2)，对该特征向量中的其他数值进行归一化处理：

其中，xi为特征向量中的第i个数值，Max为特征向量中的最大值，Min为特征向量中的最小值，xin为数值xi归一化后的值。需要说明的是，上述公式(2)只是一种具体归一化的示例，本申请实施例的归一化的方式包括但不限于上述公式(2)。

同理，当目标文本为备选文本时，可以通过如下几种方式确定备选文本的标题的特征向量：

方式一，将备选文本的标题中每个单词的特征向量进行累加，将累加后的特征向量B作为备选文本的标题的特征向量。举例说明，假设备选文本包括15个单词，每个单词的特征向量为100维，将这15个100维的特征向量进行累加，具体是，将标题的每个单词的特征向量的第一位相加，作为特征向量B的第一位，将标题的每个单词的特征向量的第二位进行相加，作为特征向量B的第二位，依次类推，将标题的每个单词的特征向量第100位相加，作为特征向量B的第100位，进而获得一个100维的特征向量B，将该特征向量B作为备选文本的标题的特征向量。

方式二、将备选文本的标题中每个单词的特征向量进行累加，并对累加后的特征向量B进行归一化处理，将归一化处理后的特征向量B1作为备选文本的标题的特性向量。继续参照方式一中的例子，假设备选文本的标题包括15个单词，每个单词的特征向量为100维，将这15个100维的特征向量进行累加，得到特征向量B。接着，参照上述公式(2)，对100维的特征向量B进行归一化处理，得到特征向量B1，将归一化处理后的特征向量B1作为备选文本的标题的特征向量。

S3013、根据目标文本的正文中每个单词的特征向量，确定目标文本的正文的特征向量。

当目标文本为种子文本时，确定种子文本的正文的特征向量的方式包括但不限于如下几种：

方式一，将种子文本的正文中每个单词的特征向量进行累加，获得累加后的特征向量D，将累加后的特征向量D作为种子文本的正文的特征向量。举例说明，假设种子文本包括1000个单词，每个单词的特征向量为100维，将这1000个100维的特征向量进行累加，具体是，将正文的每个单词的特征向量的第一位相加，作为特征向量D的第一位，将正文的每个单词的特征向量的第二位进行相加，作为特征向量D的第二位，依次类推，将正文的每个单词的特征向量第100位相加，作为特征向量D的第100位，进而获得一个100维的特征向量D，将该特征向量D作为种子文本的正文的特征向量。

方式二，将种子文本的正文中每个单词的特性向量进行累加，并对累加后的特征向量D进行归一化处理，将归一化处理后的特征向量D1作为种子文本的正文的特性向量。继续参照方式一中的例子，假设种子文本的正文包括1000个单词，每个单词的特征向量为100维，将这1000个100维的特征向量进行累加，得到特征向量D。接着，参照上述公式(2)，对100维的特征向量D进行归一化处理，得到特征向量D1，将归一化处理后的特征向量D1作为备选文本的标题的特征向量。

同理，当目标文本为备选文本时，确定备选文本的正文的特征向量的方式包括但不限于如下几种：

方式一，将备选文本的正文中每个单词的特征向量进行累加，获得累加后的特征向量E，将累加后的特征向量E作为备选文本的正文的特征向量。举例说明，假设备选文本包括1500个单词，每个单词的特征向量为100维，将这1500个100维的特征向量进行累加，具体是，将正文的每个单词的特征向量的第一位相加，作为特征向量E的第一位，将正文的每个单词的特征向量的第二位进行相加，作为特征向量E的第二位，依次类推，将正文的每个单词的特征向量第100位相加，作为特征向量E的第100位，进而获得一个100维的特征向量E，将该特征向量E作为备选文本的正文的特征向量。

方式二，将备选文本的正文中每个单词的特性向量进行累加，并对累加后的特征向量E进行归一化处理，将归一化处理后的特征向量E1作为备选文本的正文的特性向量。继续参照方式一中的例子，假设备选文本的正文包括1500个单词，每个单词的特征向量为100维，将这1500个100维的特征向量进行累加，得到特征向量E。接着，参照上述公式(2)，对100维的特征向量E进行归一化处理，得到特征向量E1，将归一化处理后的特征向量E1作为备选文本的标题的特征向量。

S302、根据种子文本的标题的特征向量和正文的特征向量，确定种子文本的特征向量。

本申请实施例，参照上述S301的方式，可以确定出种子文本的标题的特征向量和种子文本的正文的特征向量。接着，可以根据种子文本的标题的特征向量和种子文本的正文的特征向量，确定出该种子文本的特征向量。

在一些实施例中，将种子文本的标题的特征向量与正文的特征向量进行累加，将累加后的特征向量作为种子文本的特征向量。例如，参照上述S301中的例子，假设种子文本的标题的特征向量为100维的特征向量A，种子文本的正文的特征向量为100维的特征向量D。将特征向量A与特征向量D进行累加，得到100维特征向量F，将该特征向量F作为该种子文本的特征向量。

在一些实施例中，将种子文本的标题的特征向量和种子文本的正文的特征向量进行拼接，将拼接后的特征向量作为种子文本的特征向量。继续参照上述S301中的例子，假设种子文本的标题的特征向量为100维的特征向量A，种子文本的正文的特征向量为100维的特征向量D，将100维的特征向量A与100维的特征向量D进行拼接，得到200维的特征向量F1，将该特征向量F1作为该种子文本的特征向量。需要说明的是，在进行拼接时，特征向量A可以位于特征向量D的前面，或者，特征向量A可以位于特征向量D的后面，本申请实施例对此不做限制。

S303、根据每篇备选文本的标题的特征向量和正文的特征向量，确定每篇备选文本的特征向量。

本申请实施例中确定每篇备选文本的特征向量的过程基本一致，为了便于阐述，在此以确定一篇备选文本为例进行说明。

本申请实施例中，确定备选文本的特征向量的过程与确定种子文本的特征向量的过程相似。参照上述S302中确定种子文本的特征向量的方法，该步骤中确定备选文本的方式也可以至少包括如下几种：

方式一，将备选文本的标题的特征向量与正文的特征向量进行累加，将累加后的特征向量作为备选文本的特征向量。例如，参照上述S301中的例子，假设备选文本的标题的特征向量为100维的特征向量B，备选文本的正文的特征向量为100维的特征向量E。将特征向量B与特征向量E进行累加，得到100维特征向量G，将该特征向量G作为该备选文本的特征向量。

在一些实施例中，将备选文本的标题的特征向量和备选文本的正文的特征向量进行拼接，将拼接后的特征向量作为备选文本的特征向量。继续参照上述S301中的例子，假设备选文本的标题的特征向量为100维的特征向量B，备选文本的正文的特征向量为100维的特征向量E，将100维的特征向量B与100维的特征向量E进行拼接，得到200维的特征向量G1，将该特征向量G1作为该备选文本的特征向量。需要说明的是，在进行拼接时，特征向量B可以位于特征向量E的前面，或者，特征向量B可以位于特征向量E的后面，本申请实施例对此不做限制。

S304、针对每篇备选文本，根据种子文本的特征向量与备选文本的特征向量，确定种子文本与备选文本之间的相似度。

具体的，根据上述S303的步骤，确定出了种子文本的特征向量，以及每篇备选文本的特征向量，针对每篇备选文本，根据种子文本的特征向量与备选文本的特征向量，确定种子文本与每篇备选文本之间的相似度。

其中，根据种子文本的特征向量与备选文本的特征向量，确定种子文本与备选文本之间的相似度的方式包括但不限于如下几种：

方式一，计算种子文本的特征向量与备选文本的特征向量之间的使用欧式距离，将该欧式距离作为种子文本与备选文本之间的相似度。其中欧式距离越小，表示种子文本与该备选文本越相似。

方式二，计算种子文本的特征向量与备选文本的特征向量之间的余弦距离，将该余弦距离作为种子文本与备选文本之间的相似度。其中余弦距离越接近1，表示种子文本与该备选文本越相似。

本申请实施例的方法，通过确定种子文本的标题的特征向量和正文的特征向量，以及每篇备选文本的标题的特征向量和正文的特征向量；根据种子文本的标题的特征向量和正文的特征向量，确定种子文本的特征向量；以及根据每篇备选文本的标题的特征向量和正文的特征向量，确定每篇备选文本的特征向量；针对每篇备选文本，根据种子文本的特征向量与备选文本的特征向量，进而准确确定出种子文本与备选文本之间的相似度，这样基于准确确定的种子文本与备选文本之间的相似度，对备选文件进行筛选时，可以提高备选文件的筛选准确性。

图6为本申请实施例提供的训练样本的选取装置的一种结构示意图。该选取装置可以是电子设备，也可以是电子设备的部件(例如，集成电路，芯片等等)，该电子设备可以为图1所示的数据采集设备。如图6所示，该选取装置300可以包括：获取单元310、第一确定单元320、第二确定单元330、第一选取单元340和第二选取单元350。

获取单元310，用于获取种子文本和N篇备选文本；

第一确定单元320，用于确定所述种子文本与每篇所述备选文本之间的相似度，所述备选文本为未作标注的待选样本，所述种子文本为已作标注的样本；

第一选取单元340，用于根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取M篇第一备选文本；

第二确定单元330，用于确定每篇第一备选文本与所述种子文本之间的编辑距离；

第二选取单元350，用于根据每篇所述第一备选文本与所述种子文本之间的编辑距离，从所述M篇第一备选文本中选取编辑距离在第一预设范围内的K篇第一备选文本作为训练样本；

其中，所述N、M、K均为大于或等于1的正整数。

在一种可能的实现方式中，上述第一选取单元340，具体用于根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取相似度最大的前M篇备选文本作为所述M篇第一备选文本。

在一种可能的实现方式中，上述第一选取单元340，具体用于根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取相似度位于第二预设范围内的备选文本作为所述M篇第一备选文本。

在一种可能的实现方式中，上述第一确定单元320，具体用于确定所述种子文本的标题的特征向量和正文的特征向量，以及每篇所述备选文本的标题的特征向量和正文的特征向量；并根据所述种子文本的标题的特征向量和正文的特征向量，确定所述种子文本的特征向量；以及根据每篇所述备选文本的标题的特征向量和正文的特征向量，确定每篇所述备选文本的特征向量；针对每篇所述备选文本，根据所述种子文本的特征向量与所述备选文本的特征向量，确定所述种子文本与所述备选文本之间的相似度。

在一种可能的实现方式中，上述第一确定单元320，具体用于从预设的词集中查找目标文本的标题中每个单词的特征向量，以及所述目标文本的正文中每个单词的特征向量，所述目标文本为所述种子文本或所述备选文本，所述词集包括多个单词所对应的特征向量；根据所述目标文本的标题中每个单词的特征向量，确定所述目标文本的标题的特征向量；根据所述目标文本的正文中每个单词的特征向量，确定所述目标文本的正文的特征向量。

在一种可能的实现方式中，上述第一确定单元320，具体用于将所述目标文本的标题中每个单词的特征向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为所述目标文本的标题的特性向量。

在一种可能的实现方式中，上述第一确定单元320，具体用于将所述目标文本的正文中每个单词的特性向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为所述目标文本的正文的特性向量。

在一种可能的实现方式中，上述第一确定单元320，具体用于将所述种子文本的标题的特征向量和所述种子文本的正文的特征向量进行拼接，将拼接后的特征向量作为所述种子文本的特征向量。

在一种可能的实现方式中，上述第一确定单元320，具体用于针对每篇所述备选文本，将所述备选文本的标题的特征向量和所述备选文本的正文的特征向量进行拼接，将拼接后的特征向量作为所述备选文本的特征向量。

本申请实施例的训练样本的选取装置，可以用于执行上述各方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本申请实施例涉及的电子设备的框图，该设备可以是图1所示的数据采集设备，用于执行上述实施例所述的训练样本的选取方法，具体参见上述方法实施例中的说明。

图7所示的电子设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如，存储器201、处理器202、通信接口203之间可以采用网络连接的方式，实现通信连接。或者，上述电子设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图7是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的电子设备200。

存储器201可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器201可以存储程序，当存储器201中存储的程序被处理器202执行时，处理器202和通信接口203用于执行上述选取方法。

处理器202可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路。

处理器202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的选取方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器202读取存储器201中的信息，结合其硬件完成本申请实施例的选取方法。

通信接口203使用例如但不限于收发器一类的收发模块，来实现电子设备200与其他设备或通信网络之间的通信。例如，可以通过通信接口203获取数据集。

当上述电子设备200包括总线204时，总线204可包括在电子设备200各个部件(例如，存储器201、处理器202、通信接口203)之间传送信息的通路。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。另外，各个方法实施例之间、各个装置实施例之间也可以互相参考，在不同实施例中的相同或对应内容可以互相引用，不做赘述。

Claims

1.一种训练样本的选取方法，其特征在于，包括：

确定每篇第一备选文本与所述种子文本之间的编辑距离；

其中，所述N、M、K均为大于或等于1的正整数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取M篇第一备选文本，包括：

根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取相似度最大的前M篇备选文本作为所述M篇第一备选文本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取M篇第一备选文本，包括：

根据所述种子文本与每篇所述备选文本之间的相似度，从所述N篇备选文本中选取相似度位于第二预设范围内的备选文本作为所述M篇第一备选文本。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述确定所述种子文本与每篇所述备选文本之间的相似度，包括：

确定所述种子文本的标题的特征向量和正文的特征向量，以及每篇所述备选文本的标题的特征向量和正文的特征向量；

根据所述种子文本的标题的特征向量和正文的特征向量，确定所述种子文本的特征向量；

根据每篇所述备选文本的标题的特征向量和正文的特征向量，确定每篇所述备选文本的特征向量；

针对每篇所述备选文本，根据所述种子文本的特征向量与所述备选文本的特征向量，确定所述种子文本与所述备选文本之间的相似度。

5.根据权利要求4所述的方法，其特征在于，所述确定所述种子文本的标题的特征向量和正文的特征向量，以及每篇所述备选文本的标题的特征向量和正文的特征向量，包括：

从预设的词集中查找目标文本的标题中每个单词的特征向量以及所述目标文本的正文中每个单词的特征向量，所述目标文本为所述种子文本或所述备选文本，所述词集包括多个单词所对应的特征向量；

根据所述目标文本的标题中每个单词的特征向量，确定所述目标文本的标题的特征向量；

根据所述目标文本的正文中每个单词的特征向量，确定所述目标文本的正文的特征向量。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标文本的标题中每个单词的特征向量，确定所述目标文本的标题的特征向量，包括：

将所述目标文本的标题中每个单词的特征向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为所述目标文本的标题的特性向量。

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标文本的正文中每个单词的特征向量，确定所述目标文本的正文的特征向量，包括：

将所述目标文本的正文中每个单词的特性向量进行累加，并对累加后的特征向量进行归一化处理，将归一化处理后的特征向量作为所述目标文本的正文的特性向量。

8.根据权利要求5-7任一项所述的方法，其特征在于，所述根据所述种子文本的标题的特征向量和正文的特征向量，确定所述种子文本的特征向量，包括：

将所述种子文本的标题的特征向量和所述种子文本的正文的特征向量进行拼接，将拼接后的特征向量作为所述种子文本的特征向量。

9.根据权利要求5-7任一项所述的方法，其特征在于，所述根据每篇所述备选文本的标题的特征向量和正文的特征向量，确定每篇所述备选文本的特征向量，包括：

针对每篇所述备选文本，将所述备选文本的标题的特征向量和所述备选文本的正文的特征向量进行拼接，将拼接后的特征向量作为所述备选文本的特征向量。

10.一种训练样本的选取装置，其特征在于，包括：

获取单元，用于获取种子文本和N篇备选文本；

其中，所述N、M、K均为大于或等于1的正整数。