CN109344862A

CN109344862A - 正样本的获取方法、装置、计算机设备和存储介质

Info

Publication number: CN109344862A
Application number: CN201810956661.XA
Authority: CN
Inventors: 黄移军
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2019-02-15
Anticipated expiration: 2038-08-21
Also published as: CN109344862B

Abstract

本申请涉及处理大量数据领域，提出一种正样本的获取方法、装置、计算机设备和存储介质，其中方法包括：将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；将所述样本集中剩余的样本输入到所述第一初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；根据所述第一概率值判断所述样本是否为第二正样本；若是，则依据第一预设规则对所述第二正样本进行真实度测试；若验证所述第二正样本为真实的正样本，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本，这样通过大数据分析处理逐渐扩大正样本的规模，减少收集正样本的人力及物力成本。

Description

正样本的获取方法、装置、计算机设备和存储介质

技术领域

本发明涉及到处理大数据的技术领域，特别是涉及到一种正样本的获取方法、装置、计算机设备和存储介质。

背景技术

有监督算法训练模型时，需要明确的正负样本去训练模型，但是有些情景很难获得足够多的正样本，或者需要大量的人力物力来获取正样本，以注册场景为例：黑产为了获利需要大量的帐号，比如薅羊毛，一般限定一个帐号只能薅一次，要想获取更多利益，就需要尽可能多的帐号，相应就产生大量的恶意注册需求。如果在注册时要通过模型准确识别出恶意注册和正常注册，则需要尽可能多的恶意注册样本来训练模型，而这种样本标签一般比较难获取到，常规的方法是花大量的人力物力对已注册的帐号一个个分析调查清楚后，再确定样本正负标签，这样导致成本较高。

发明内容

本发明的主要目的为提供一种减少获取样本成本的正样本的获取方法、装置、计算机设备和存储介质。

本发明提出一种正样本的获取方法，包括：将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；

将所述样本集中剩余的样本输入到所述第一初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；

根据所述第一概率值判断所述样本是否为第二正样本；

若是，则依据第一预设规则对所述第二正样本进行真实度测试；

若验证所述第二正样本为真实的正样本，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本。

进一步地，所述根据所述第一概率值判断所述样本是否为第二正样本的步骤，包括：

判断所述第一概率值是否超过预设概率值；

若是，则判定所述样本为所述第二正样本，若否，则判定所述样本为第二负样本。

进一步地，所述将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型的步骤之前，包括：

根据第二预设规则获取若干样本以形成所述样本集；

获取所述样本集中的部分第一正样本，形成所述第一正样本集；

依据所述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第一正样本数量的第一负样本，形成所述第一负样本集。

进一步地，所述第二正样本为恶意注册账号，所述依据第一预设规则对所述第二正样本进行真实度测试的步骤包括：

对所述第二正样本进行封号；

若在封号后获取到用户对所述第二正样本进行解封的响应，则判定所述第二正样本不是真实的正样本；若在封号后未获取到用户响应，则判定所述第二正样本为真实的正样本。

进一步地，所述将所述第二正样本的标签默认为正样本的步骤之后，包括：

将所述第二正样本加入所述第一正样本集，形成第二正样本集；

依据所述第二正样本集里第二正样本的数量以及所述第二正样本集与第二负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第二正样本数量的第二负样本，形成所述第二负样本集；

将所述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型。

进一步地，所述将所述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型的步骤之后，包括：

将测试样本输入所述第二初始模型进行计算得到第二概率值；

判断所述第二概率值与预设的第三概率值的差值是否超过预设阀值，其中所述第三概率值根据所述测试样本的业务人员的经验判断所得；

若否，则将所述第二初始模型默认为需要建立的结果模型。

进一步地，所述依据第一预设规则对所述第二正样本进行真实度测试的步骤之前，包括：

根据超过所述预设概率值的范围将所述第二正样本划分等级；

依据所述第二正样本的等级分别调用对应所述等级的真实度测试。

本发明还提供一种正样本的获取装置，包括：

训练模块，用于将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；

计算模块，用于将所述样本集中剩余的样本输入所述初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；

判断模块，用于根据所述第一概率值判断所述样本是否为第二正样本；

测试模块，用于判定所述样本为第二正样本时，依据第一预设规则对所述第二正样本进行真实度测试；

修正模块，用于验证所述第二正样本为真实的正样本时，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的有益效果为：通过使用少量的正样本，结合模型循环迭代及灰度测试，逐渐扩大正样本的规模，减少收集正样本的人力及物力成本，这样扩大用于训练模型的样本集，从而提升模型计算的准确性。

附图说明

图1为本发明一实施例中正样本的获取方法的步骤示意图；

图2为本发明一实施例中正样本的获取装置的结构示意框图；

图3为本发明一实施例中判断模块的结构示意框图；

图4为本发明一实施例中测试模块的结构示意框图；

图5为本发明另一实施例中正样本的获取装置的结构示意框图；

图6为本发明另一实施例中正样本的获取装置的结构示意框图；

图7为本发明另一实施例中正样本的获取装置的结构示意框图；

图8为本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

建立有监督算法的模型时，用来训练该模型的数据包括正样本以及负样本，本发明提供的正样本的获取方法主要用在正样本比较难获取情况，例如以恶意注册账号为正样本时，获取恶意注册账号需要通过该账号登录网站的痕迹、用户反馈等信息一个一个去分辨采集出来，需要耗费大量的人力物力，有鉴于此，本发明提供一种节省成本的正样本的获取方法。

参照图1，本实施例中的正样本的获取方法，包括：

步骤S1：将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；

步骤S2：将所述样本集中剩余的样本输入所述第一初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；

步骤S3：根据所述第一概率值判断所述样本是否为第二正样本；

步骤S4：若是，则依据第一预设规则对所述第二正样本进行真实度测试；

步骤S5：若验证所述第二正样本为真实的正样本，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本。

在步骤S1中，上述样本集可以选取一个时间段内的或者一个范围内的所有样本，如一个月或一个区域的样本，该样本集中包括用于训练模型的正样本以及负样本，其中，样本集中的正样本的数量远远少于负样本。上述第一正样本集是由样本集中的部分正样本构成的集合，第一负样本集取自样本集中除却上述部分正样本的其余样本，即便样本集的其余样本包括正样本，但由于负样本远比正样本多，故而选取出的第一负样本集包含的正样本比例很少，对训练模型影响微乎其微。确定第一正样本集以及第一负样本集后，将上述两者输入到预设的模型中进行训练，得到第一初始模型，这里预设的模型为有监督算法的模型。

在步骤S2中，得到第一初始模型之后，可以将样本集中剩余的样本输入该第一初始模型进行计算得到计算结果，具体的说，该第一初始模型可以用来初步识别样本的标签，输入数据为一个样本，输出数据为该样本是正样本的概率值，为了扩大正样本的规模，可以通过第一初始模型来识别出样本集中剩下样本的正样本，如将样本集中的其中一个剩余样本输入第一初始模型，那么第一初始模型经过计算得到该剩余样本为正样本的第一概率值，如此直至将上述样本集中剩余的每个样本输入第一初始模型进行计算分别得到这些剩余样本为正样本的第一概率值。采用不同的算法，第一初始模型的计算过程也不一样，举例地，如需要建立一个用于测试注册账号是否为恶意注册账号的模型，可以采用逻辑回归算法，其中逻辑回归算法中的概率值计算方式是根据极大似然估计，求出相应参数再得到概率值。

在步骤S3中，根据上述第一初始模型输出的第一概率值，可以判断输入该第一初始模型的剩余样本是否为正样本，为了便于与上述第一样本集中的第一正样本区别，将上述正样本命为第二正样本。

进一步地，上述根据所述第一概率值判断所述样本是否为第二正样本的步骤S3，包括：

步骤S30：判断所述第一概率值是否超过预设概率值；

步骤S31：若是，则判定所述样本为所述第二正样本，若否，则判定所述样本为负样本。

由于第一初始模型输出数据为正样本的概率值，若该概率值超过某一数值，则说明输入样本为正样本的概率比较高，这时可以判断该输入样本为正样本，所以，在判断之前先预设一个作为判断标准的概率值，一般来说，该预设概率值为0.5，步骤S31中，当第一初始模型输出的第一概率值大于0.5，即判定上述输入第一初始模型的样本为第二正样本；若第一初始模型输出的第一概率值小于0.5，即可以判定上述输入第一初始模型的样本为负样本。

在步骤S4中，若判定输入上述第一初始模型的样本为第二正样本，则依据第一预设规则对上述第二正样本进行真实度测试；由于训练该第一初始模型的样本只是样本集中的少量样本，故而这个初始模型不稳定，其计算结果也不够准确，存在误判的风险，所以即便判断出输入上述第一初始模型的样本为第二正样本，也需要对该第二正样本进行真实度测试，验证该正样本是否为真实的正样本，上述第一预设规则根据样本性质来设置，不同的样本，其真实度测试方式也不同，即第一预设规则也不同。

在一个具体实施例中，上述第二正样本为恶意注册账号，所述依据第一预设规则对所述第二正样本进行真实度测试的步骤S4，包括：

步骤S40：对所述第二正样本进行封号；

步骤S41：若在封号后获取到用户对所述第二正样本进行解封的响应，则判定所述第二正样本不是真实的正样本；若在封号后未获取到用户响应，则判定所述第二正样本为真实的正样本。

本实施例中，当需要建立一个初始的用于测试注册账号是否为恶意注册账号的模型时，其正样本为恶意注册账号，负样本为正常注册账号，第一预设规则为对注册账号进行封号测试，当上述第一初始模型识别出注册账号为恶意注册账号时，上述依据第一预设规则对所述第二正样本进行真实度测试，即是对该恶意账号进行封号测试，若在封号后获取到用户对该第二正样本进行解封的响应，该响应可以为接收到用户申请对账号进行解封的信息，则判定该第二正样本不是真实的正样本；若在封号后未获取到用户响应，则判定第二正样本为真实的正样本，因为解封需要成本，所以恶意注册账号用户一般不会有任何反应。

在另一实施例中，需要建立判断账号是否为撞库账号的模型时，正样本为撞库账号，在本步骤中，同样可以采取封号的方式对该正样本进行真实度测试。

在步骤S5中，通过上述测试，得到的测试结果可以判断该样本是否为真实正样本，即验证了上述第二正样本是否为真实的正样本，若是，则将上述第二正样本的标签默认为正样本，无需修改样本标签；若否，则需要修正样本标签，即将第二正样本的标签从正样本修改成负样本。

在一个实施例中，所述将样本集中的第一正样本集以及第一负样集本输入到预设的模型中进行训练，得到第一初始模型的步骤S1之前，包括：

步骤S01’：根据第二预设规则获取若干样本以形成所述样本集；

步骤S02’：获取所述样本集中的部分第一正样本，形成所述第一正样本集；

步骤S03’：依据所述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第一正样本数量的第一负样本，形成所述第一负样本集。

在步骤S1之前，需要有确定的样本集，上述样本集为未知标签样本的集合，具体的说，根据第二预设规则获取若干样本形成上述样本集，如第二预设规则设定可以取自一个时间段内的若干样本，如一个月内的样本，或者设定获取一个区域内的若干样本，这些样本形成上述样本集。如上述例子中，建立一个用于测试注册账号是否为恶意注册账号的模型，其中恶意注册账号为正样本，正常注册账号为负样本，获取一段时间内的注册账号为样本集，如确认一个月内注册账号有十万个，则这十万个注册账号组成上述样本集。

在步骤S02’中，由于样本集里的样本的数量比较大，且样本集里的样本标签未知，所以需要确定用于训练模型的正样本以及负样本，而用于训练模型需要数量庞大的正样本以及负样本，通过一个个地采集正样本会耗费大量的人力物力，故而可以首先采集其中部分正样本来形成上述第一正样本集。

在步骤S03’中，依据上述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在样本集剩余的样本中选取对应第一正样本数量的第一负样本，这些对应第一正样本数量的第一负样本形成第一负样本集；具体的说，由于样本集中的负样本远比正样本多，所以获取了样本集中的第一正样本之后，样本集剩下的样本中大部分为负样本，对应上述收集出来的正样本，在该样本集剩下的样本中按预设比例取出部分样本，这些部分样本默认为负样本，形成上述第一负样本集，由于样本集中的负样本远比正样本多，所以即使取出来的默认负样本包括正样本，对训练模型的影响也微乎其微，上述预设比例可以根据实际情况而设置，如正样本与负样本的比例为2:8或3:7，这样使得用于训练第一初始模型的样本更多，准确率更高。

进一步地，所述将所述第二正样本的标签默认为正样本的步骤S5之后，包括：

步骤S6：将所述第二正样本加入所述第一正样本集，形成第二正样本集；

步骤S7：依据所述第二正样本集里第二正样本的数量以及所述第二正样本集与第二负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第二正样本数量的第二负样本，形成所述第二负样本集；

步骤S8：将所述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型。

在步骤S6-S8中，当将第二正样本的标签默认为正样本之后，即是确定第二正样本为真实的正样本之后，为了扩大训练模型的样本规模，将上述第二正样本加入上述第一正样本集，形成第二正样本集，然后依据该第二正样本集里的正样本数量，以及上述第二正样本集与第二负样本集的样本数量的预设比例，该预设比例可参照上述步骤S03’中的预设比例，在样本集除却上述第二正样本集的剩余样本中，选取对应上述第二正样本数量的第二负样本，如上述第一正样本与第一负样本的数量的预设比例为3:7，那么按照该预设比例，在知道第二正样本的数量的情况下，可以确定第二负样本的数量，即可在样本集剩余的样本中将这些第二负样本选出，这些第二负样本形成第二负样本集，由于经过第一正样本集以及第一负样本集训练的模型不稳定，需要更多的样本去训练，故而将第二正样本以及第二负样本输入到预设的模型中进行训练，得到第二初始模型。

再进一步地，所述将所述第二正样本集以及所述第二负样本集输入到预设的模型中进行训练，得到第二初始模型的步骤S8之后，包括：

步骤S9：将测试样本输入所述第二初始模型进行计算得到第二概率值；

步骤S10：判断所述第二概率值与预设的第三概率值的差值是否超过预设阀值，其中所述第三概率值根据所述测试样本的业务人员的经验判断所得；

步骤S11：若否，则将所述第二初始模型默认为需要建立的结果模型。

为了得到稳定的、输出结果正确的模型，在将模型使用之前需要对训练出来的模型进行测试，上述步骤S9中，将测试样本输入上述第二初始模型进行计算，并得到第二概率值，其中测试样本为已知的样本，用于测试该第二初始模型是否稳定准确，上述预设的第三概率值根据熟悉测试样本的业务人员的经验判断所得，在上述步骤S10中，得到第二概率值之后，将第二概率值与上述预设的第三概率值进行比较，得到两者的差值，然后判断该差值是否超过预设阀值，该预设阀值用于判断上述第二概率值以及第三概率值是否一致，如预设阀值设置为0.01，即判断上述差值是否超过0.01，在步骤S11中，若上述差值没有超过预设阀值，则默认第二概率值以及第三概率值没有差别，表明两者一致，由于第三概率值是由熟悉该测试样本的业务人员的经验判断得出的，而上述业务人员的经验是由多次经历累积总结得出，具有准确性以及稳定性，所以当上述差值没有超过预设阀值，即第二概率值以及第三概率值一致，这时说明第二初始模型计算输出的结果准确，该第二初始模型训练成功，可以投入使用，即可以将第二初始模型默认为需要建立的结果模型；若上述差值超过预设阀值，则说明由第二初始模型计算输出的第二概率值与预设的第三概率值相差较大，即结果不稳定，数据不准确，这时需要更多的正样本以及负样本来训练模型，所以可以重复上述步骤S3-S5，将得到的真实正样本再次加入上述第二正样本集中，形成第三正样本集，然后按上述步骤S6-S8在样本集中取得第三负样本集，进一步扩大用于训练模型的样本规模，将上述第三正样本集以及对应的负样本集训练模型得到第三初始模型，然后再按上述步骤S9-S11对上述第三初始模型进行测试，判断该第三初始模型是否稳定准确，若判定第三模型不稳定，则按上述步骤周而复始循环，直至判断出模型计算得到的概率值与预设的概率值一致，即模型稳定，这样通过上述方法无需耗费大量人力物力去收集样本，即可得到输出结果稳定，数据准确的结果模型。

在一个实施例中，在所述依据第一预设规则对所述第二正样本进行真实度测试的步骤S4之前，包括：

步骤S40’：根据超过所述预设概率值的范围将所述第二正样本划分等级；

步骤S41’：依据所述第二正样本的等级分别调用对应所述等级的真实度测试。

为了进一步降低获取正样本的成本，步骤S40’中，在依据第一预设规则对第二正样本进行真实度测试之前，可以根据超过所述预设概率值的范围将第二正样本划分等级，由于超过预设概率值即判断剩余样本为第二正样本，这样，可以根据概率值范围设置等级，如由于概率大于或等于0.5即认为判断为正样本，所以上述经模型判断出的正样本可以分三个等级，概率0.85以上的为一级，概率0.65-0.85为二级，概率0.5-0.65为三级，对应的，真实度测试分三个等级，且从一级到三级每个等级根据上述概率依次设置不同程度的测试，真实度测试的方式从一级至三级的严重程度依次递减，当进行真实度测试时，对应正样本的等级，调用对应的真实度测试，如概率最高的一级正样本，对应的为最严重的一级测试，即采用成本最高的测试，以此依次类推，概率为0.65-0.85的二级正样本，对应的为严重程度也相对中等的二级测试，概率为0.5-0.65的三级正样本，对应的测试最轻，即采用成本最少的测试。这样可以节省对模型识别出的正样本的现实测试的成本。

举例地，对于不同等级正样本，其真实度测试也对应不同，上述例子中，对不同等级的恶意注册账号，可以进行不同程度的测试，即可以进行不同程度的封号，如一级封号需要账号的用户申诉才能解封，二级封号需要账号的用户上行短信才能解封，即用户需自主发出解封短信才能对账号进行解封，三级封号需要账号的用户下行短信才能解封，这里的下行短信是指业务对应的公司下发给用户的，需要用户填写一个可接受短信的手机号码，公司会把验证码发送到对应的手机号码上，用户需填写该验证码才能解锁，或者采用常见的数字、字符等验证码替换上述验证码，用户填写该数字或字符才能解锁；对于一级正样本的测试方式为成本最高的一级封号，需要用户申诉才能解封，对于二级样本的测试方式为二级封号，需要用户上行短信才能解封，对于三级样本的测试方式为三级封号，需要用户下行短信才能解封，这样分等级的测试方式，可以相对减少测试的成本，如从一级封号到三级封号的成本依次减少，从而进一步降低获取正样本的成本。

参照图2，本实施例中正样本的获取装置，包括：

训练模块100，用于将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；

计算模块200，用于将所述样本集中剩余的样本输入所述第一初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；

判断模块300，用于根据所述第一概率值判断所述样本是否为第二正样本；

测试模块400，用于判定所述样本为第二正样本时，依据第一预设规则对所述第二正样本进行真实度测试；

修正模块500，用于验证所述第二正样本为真实的正样本时，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本。

上述样本集可以选取一个时间段内的或者一个范围内的所有样本，如一个月或一个区域的样本，该样本集中包括用于训练模型的正样本以及负样本，其中，样本集中的正样本的数量远远少于负样本。上述第一正样本集是由样本集中的部分正样本构成的集合，第一负样本集取自样本集中除却上述部分正样本的其余样本，即便样本集的其余样本包括正样本，但由于负样本远比正样本多，故而选取出的第一负样本集包含的正样本比例很少，对训练模型影响微乎其微。确定第一正样本集以及第一负样本集后，训练模块100将上述两者输入到预设的模型中进行训练，得到第一初始模型，这里预设的模型为有监督算法的模型。

在得到第一初始模型之后，可以将样本集中剩余的样本输入该第一初始模型进行计算得到计算结果，具体的说，该第一初始模型可以用来初步识别样本的标签，输入数据为一个样本，输出数据为该样本是正样本的概率值，为了扩大正样本的规模，可以通过第一初始模型来识别出样本集中剩下样本的正样本，如将样本集中的其中一个剩余样本输入第一初始模型，计算模块200经过计算得到该剩余样本为正样本的第一概率值，如此直至将上述样本集中剩余的每个样本输入第一初始模型进行计算分别得到这些剩余样本为正样本的第一概率值。采用不同的算法，计算模块200的计算过程也不一样，举例地，如需要建立一个用于测试注册账号是否为恶意注册账号的模型，可以采用逻辑回归算法，其中逻辑回归算法中的概率值计算方式是根据极大似然估计，求出相应参数再得到概率值。

根据上述第一初始模型输出的第一概率值，判断模块300可以判断输入该第一初始模型的剩余样本是否为正样本，为了便于与上述第一样本集中的第一正样本区别，将上述正样本命为第二正样本。

其中，参照图3，上述判断模块300包括：

判断子模块310，用于判断所述第一概率值是否超过预设概率值；

判定子模块320，用于判定所述第一概率值超过预设概率值时，判定所述样本为所述第二正样本；判定所述第一概率值不超过预设概率值时，判定所述样本为负样本。

由于第一初始模型输出数据为正样本的概率值，若该概率值超过某一数值，则说明输入样本为正样本的概率比较高，这时可以判断该输入样本为正样本，所以，在判断之前先预设一个作为判断标准的概率值，一般来说，该预设概率值为0.5，当判断子模块310判断第一初始模型输出的第一概率值大于0.5，即判定子模块320判定上述输入第一初始模型的样本为第二正样本；若第一初始模型输出的第一概率值小于0.5，即判定子模块320可以判定上述输入第一初始模型的样本为负样本。

若判断模块300判定输入上述第一初始模型的样本为第二正样本，则测试模块400依据第一预设规则对上述第二正样本进行真实度测试；由于训练该第一初始模型的样本只是样本集中的少量样本，故而这个初始模型不稳定，其计算结果也不够准确，存在误判的风险，所以即便判断出输入上述第一初始模型的样本为第二正样本，也需要对该第二正样本进行真实度测试，验证该正样本是否为真实的正样本，上述第一预设规则根据样本性质来设置，不同的样本，其真实度测试方式也不同，即第一预设规则也不同。

在一个具体实施例中，参照图4，上述第二正样本为恶意注册账号，上述测试模块400，包括：

封号子模块410，用于对所述第二正样本进行封号；

响应子模块420，用于在封号后获取到用户对所述第二正样本进行解封的响应时，判定所述第二正样本不是真实的正样本；在封号后未获取到用户响应时，判定所述第二正样本为真实的正样本。

本实施例中，建立一个初始的用于测试注册账号是否为恶意注册账号的模型，其正样本为恶意注册账号，负样本为正常注册账号，第一预设规则为对注册账号进行封号测试，那么当上述第一初始模型识别出注册账号为恶意注册账号时，封号子模块410对该恶意账号进行封号测试，若在封号后响应子模块420获取到用户对该第二正样本进行解封的响应，该响应可以为接收到用户申请对账号进行解封的信息，则判定该第二正样本不是真实的正样本；若在封号后响应子模块420未获取到用户响应，则判定第二正样本为真实的正样本，因为解封均需要成本，所以恶意注册账号用户一般不会有任何反应，

在另一实施例中，需要建立判断账号是否为撞库账号的模型时，正样本为撞库账号，同样可以采取封号的方式对该正样本进行真实度测试。

通过上述测试，得到的测试结果可以判断该样本是否为真实正样本，即验证了上述第二正样本是否为真实的正样本，若是，则修正模块500将上述第二正样本的标签默认为正样本，无需修改样本标签；若否，则需要修正样本标签，即修正模块500将第二正样本的标签从正样本修改成负样本。

在一个实施例中，参照图5，上述正样本的获取装置，还包括：

第一形成模块001，用于根据第二预设规则获取若干样本以形成所述样本集；

第一获取模块002，用于获取所述样本集中的部分第一正样本，形成所述第一正样本集；

第一选取模块003，用于依据所述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第一正样本数量的第一负样本，形成所述第一负样本集。

第一形成模块001根据第二预设规则获取若干样本形成上述样本集，如第二预设规则设定可以取自一个时间段内的若干样本，如一个月内的样本，或者设定获取一个区域内的若干样本，这些样本形成上述样本集。如上述例子中，建立一个用于测试注册账号是否为恶意注册账号的模型，其中恶意注册账号为正样本，正常注册账号为负样本，获取一段时间内的注册账号为样本集，如确认一个月内注册账号有十万个，则这十万个注册账号组成上述样本集。

由于样本集里的样本的数量比较大，且样本集里的样本标签未知，所以需要确定用于训练模型的正样本以及负样本，而用于训练模型需要数量庞大的正样本以及负样本，通过一个个地采集正样本会耗费大量的人力物力，故而第一获取模块002可以首先获取其中部分正样本来形成上述第一正样本集。

第一选取模块003依据上述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在样本集剩余的样本中选取对应第一正样本数量的第一负样本，这些对应第一正样本数量的第一负样本形成第一负样本集；具体的说，由于样本集中的负样本远比正样本多，所以获取了样本集中的第一正样本之后，样本集剩下的样本中大部分为负样本，对应上述收集出来的正样本，在该样本集剩下的样本中按预设比例取出部分样本，这些部分样本默认为负样本，形成上述第一负样本集，由于样本集中的负样本远比正样本多，所以即使取出来的默认负样本包括正样本，对训练模型的影响也微乎其微，上述预设比例可以根据实际情况而设置，如正样本与负样本的比例为2:8或3:7，这样使得用于训练第一初始模型的样本更多，准确率更高。

进一步地，参照图6，上述正样本的获取装置，还包括：

第二形成模块600，用于将所述第二正样本加入所述第一正样本集，形成第二正样本集；

第二选取模块700，用于依据所述第二正样本集里第二正样本的数量以及所述第二正样本集与第二负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第二正样本数量的第二负样本，形成所述第二负样本集；

第二训练模块800，用于将所述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型。

当将第二正样本的标签默认为正样本之后，即是确定第二正样本为真实的正样本之后，为了扩大训练模型的样本规模，第二形成模块600将上述第二正样本加入上述第一正样本集，形成第二正样本集，然后第二选取模块700依据该第二正样本集里的正样本数量，以及上述第二正样本集与第二负样本集的样本数量的预设比例，该预设比例可参照上述第一选取模块003中的预设比例，在样本集除却上述第二正样本集的剩余样本中，选取对应上述第二正样本数量的第二负样本，如上述第一正样本与第一负样本的数量的预设比例为3:7，那么按照该预设比例，在知道第二正样本的数量的情况下，可以确定第二负样本的数量，即可在样本集剩余的样本中将这些第二负样本选出，这些第二负样本形成第二负样本集，由于经过第一正样本集以及第一负样本集训练的模型不稳定，需要更多的样本去训练，故而第二训练模块800将第二正样本以及第二负样本输入到预设的模型中进行训练，得到第二初始模型。

再进一步地，参照图6，上述正样本的获取装置，还包括：

第二计算模块900，用于将测试样本输入所述第二初始模型进行计算得到第二概率值；

第二判断模块1000，用于判断所述第二概率值与预设的第三概率值的差值是否超过预设阀值，其中所述第三概率值根据所述测试样本的业务人员的经验判断所得；

默认模块1100，用于判定所述第二概率值与预设的第三概率值的差值不超过预设阀值时，将所述第二初始模型默认为需要建立的结果模型。

为了得到稳定的、输出结果正确的模型，在将模型使用之前需要对训练出来的模型进行测试，第二计算模块900将测试样本输入上述第二初始模型进行计算，并得到第二概率值，其中测试样本为已知的样本，用于测试该第二初始模型是否稳定准确，上述预设的第三概率值根据熟悉测试样本的业务人员的经验判断所得，得到第二概率值之后，第二判断模块1000将第二概率值与上述预设的第三概率值进行比较，得到两者的差值，然后判断该差值是否超过预设阀值，该预设阀值用于判断上述第二概率值以及第三概率值是否一致，如预设阀值设置为0.01，即判断上述差值是否超过0.01，若上述差值没有超过预设阀值，则默认模块1100默认第二概率值以及第三概率值没有差别，表明两者一致，由于第三概率值是由熟悉该测试样本的业务人员的经验判断得出的，而上述业务人员的经验是由多次经历累积总结得出，具有准确性以及稳定性，所以当上述差值没有超过预设阀值，即第二概率值以及第三概率值一致，这时说明第二初始模型计算输出的结果准确，该第二初始模型训练成功，可以投入使用，即可以将第二初始模型默认为需要建立的结果模型；若上述差值超过预设阀值，则说明由第二初始模型计算输出的第二概率值与预设的第三概率值相差较大，即结果不稳定，数据不准确，这时需要更多的正样本以及负样本来训练模型，所以可以将得到的真实正样本再次加入上述第二正样本集中，形成第三正样本集，然后在样本集中取得第三负样本集，进一步扩大用于训练模型的样本规模，将上述第三正样本集以及对应的负样本集训练模型得到第三初始模型，然后再对上述第三初始模型进行测试，判断该第三初始模型是否稳定准确，若判定第三模型不稳定，则按上述步骤周而复始循环，直至判断出模型计算得到的概率值与预设的概率值一致，即模型稳定，这样通过上述方法无需耗费大量人力物力去收集样本，即可得到输出结果稳定，数据准确的结果模型。

在一个实施例中，参照图7，上述正样本的获取装置，还包括：

划分模块410，用于根据超过所述预设概率值的范围将所述第二正样本划分等级；

调用模块420，用于依据所述第二正样本的等级分别调用对应所述等级的真实度测试。

为了进一步降低获取正样本的成本，在依据第一预设规则对第二正样本进行真实度测试之前，划分模块410根据超过所述预设概率值的范围将第二正样本划分等级，由于超过预设概率值即判断剩余样本为第二正样本，这样，可以根据概率值范围设置等级，如由于概率大于或等于0.5即认为判断为正样本，所以上述经模型判断出的正样本可以分三个等级，概率0.85以上的为一级，概率0.65-0.85为二级，概率0.5-0.65为三级，对应的，真实度测试分三个等级，且从一级到三级每个等级根据上述概率依次设置不同程度的测试，真实度测试的方式从一级至三级的严重程度依次递减，当进行真实度测试时，对应正样本的等级，调用模块420调用对应的真实度测试，如概率最高的一级正样本，对应的为最严重的一级测试，即采用成本最高的测试，以此依次类推，概率为0.65-0.85的二级正样本，对应的为严重程度也相对中等的二级测试，概率为0.5-0.65的三级正样本，对应的测试最轻，即采用成本最少的测试。这样可以节省对模型识别出的正样本的现实测试的成本。

参照图8，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储正样本的获取方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种正样本的获取方法。

上述处理器执行上述正样本的获取方法的步骤：将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；将所述样本集中剩余的样本输入到所述第一初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；根据所述第一概率值判断所述样本是否为第二正样本；若是，则依据第一预设规则对所述第二正样本进行真实度测试；若验证所述第二正样本为真实的正样本，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本。

上述计算机设备，根据所述第一概率值判断所述样本是否为第二正样本的步骤，包括：判断所述第一概率值是否超过预设概率值；若是，则判定所述样本为所述第二正样本，若否，则判定所述样本为第二负样本。

在一个实施例中，上述将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型的步骤之前，包括：根据第二预设规则获取若干样本以形成所述样本集；获取所述样本集中的部分第一正样本，形成所述第一正样本集；依据所述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第一正样本数量的第一负样本，形成所述第一负样本集。

在一个实施例中，上述第二正样本为恶意注册账号，所述依据第一预设规则对所述第二正样本进行真实度测试的步骤包括：对所述第二正样本进行封号；若在封号后获取到用户对所述第二正样本进行解封的响应，则判定所述第二正样本不是真实的正样本；若在封号后未获取到用户响应，则判定所述第二正样本为真实的正样本。

在一个实施例中，上述将所述第二正样本的标签默认为正样本的步骤之后，包括：将所述第二正样本加入所述第一正样本集，形成第二正样本集；依据所述第二正样本集里第二正样本的数量以及所述第二正样本集与第二负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第二正样本数量的第二负样本，形成所述第二负样本集；将所述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型。

在一个实施例中，上述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型的步骤之后，包括：将测试样本输入所述第二初始模型进行计算得到第二概率值；判断所述第二概率值与预设的第三概率值的差值是否超过预设阀值，其中所述第三概率值根据所述测试样本的业务人员的经验判断所得；若否，则将所述第二初始模型默认为需要建立的结果模型。

在一个实施例中，上述依据第一预设规则对所述第二正样本进行真实度测试的步骤之前，包括：根据超过所述预设概率值的范围将所述第二正样本划分等级；依据所述第二正样本的等级分别调用对应所述等级的真实度测试。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种正样本的获取方法，具体为：将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；将所述样本集中剩余的样本输入到所述第一初始模型进行计算得到所述样本集中剩余的每个样本为正样本的第一概率值；根据所述第一概率值判断所述样本是否为第二正样本；若是，则依据第一预设规则对所述第二正样本进行真实度测试；若验证所述第二正样本为真实的正样本，则将所述第二正样本的标签默认为正样本，否则将所述第二正样本的标签修改成负样本。

上述计算机可读存储介质，根据所述第一概率值判断所述样本是否为第二正样本的步骤，包括：判断所述第一概率值是否超过预设概率值；若是，则判定所述样本为所述第二正样本，若否，则判定所述样本为第二负样本。

在一个实施例中，在一个实施例中，上述将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型的步骤之前，包括：根据第二预设规则获取若干样本以形成所述样本集；获取所述样本集中的部分第一正样本，形成所述第一正样本集；依据所述第一正样本集里第一正样本的数量以及所述第一正样本集与所述第一负样本集的样本数量的预设比例，在所述样本集剩余的样本中选取对应所述第一正样本数量的第一负样本，形成所述第一负样本集。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种正样本的获取方法，其特征在于，包括：

将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型；

根据所述第一概率值判断所述样本是否为第二正样本；

2.根据权利要求1所述的正样本的获取方法，其特征在于，所述根据所述第一概率值判断所述样本是否为第二正样本的步骤，包括：

判断所述第一概率值是否超过预设概率值；

3.根据权利要求1所述的正样本的获取方法，其特征在于，所述将样本集中的第一正样本集以及第一负样本集输入到预设的模型中进行训练，得到第一初始模型的步骤之前，包括：

根据第二预设规则获取若干样本以形成所述样本集；

4.根据权利要求1所述的正样本的获取方法，其特征在于，所述第二正样本为恶意注册账号，所述依据第一预设规则对所述第二正样本进行真实度测试的步骤包括：

对所述第二正样本进行封号；

5.根据权利要求1所述的正样本的获取方法，其特征在于，所述将所述第二正样本的标签默认为正样本的步骤之后，包括：

6.根据权利要求5所述的正样本的获取方法，其特征在于，所述将所述第二正样本集以及所述第二负样本集输入到所述预设的模型中进行训练，得到第二初始模型的步骤之后，包括：

若否，则将所述第二初始模型默认为需要建立的结果模型。

7.根据权利要求2所述的正样本的获取方法，其特征在于，所述依据第一预设规则对所述第二正样本进行真实度测试的步骤之前，包括：

8.一种正样本的获取装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。