CN110334262A

CN110334262A - 一种模型训练方法、装置及电子设备

Info

Publication number: CN110334262A
Application number: CN201910489819.1A
Authority: CN
Inventors: 崔阳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-15
Anticipated expiration: 2039-06-06
Also published as: CN110334262B

Abstract

本申请实施例提供一种模型训练方法、装置及电子设备。其中，模型训练方法包括：获取打标网站集合，所述打标网站集合中的网站对应有打标标签；基于所述打标网站集合中网站的特征样本数据和对应的打标标签，对网站识别模型进行迭代训练，所述网站识别模型用于识别网站是否属于指定网站类型；以及，基于至少部分迭代轮次的训练结果，对所述打标网站集合中的网站和/或对应的打标标签进行调整。

Description

一种模型训练方法、装置及电子设备

技术领域

本申请实施例涉及互联网金融技术领域，尤其涉及一种模型训练方法、装置及电子设备。

背景技术

互联网充斥着大量的点对点贷款(P2P，Peer To Peer Lending)服务，在这些提供P2P服务的企业中，很多不具有资质，导致网络借贷引起的问题屡见不鲜。为此，有必要加强对P2P网站的监管。现有技术是通过人工方式，对P2P网站进行识别，这种方式效率低且存在误差，导致P2P网站的监管因缺乏数据支持，而无法有效展开。

当然，除了P2P网站，互联网中的赌博网站、钓鱼网站、传销完成的存在上述无法有效识别的问题。为此，如何智能、高效地识别网站是否为指定网站类型，是当前亟待解决的技术问题。

发明内容

本申请实施例目的是提供一种模型训练方法、装置及电子设备，能够智能、高效地识别网站是否属于指定网站类型，例如P2P网站类型。

为了实现上述目的，本申请实施例是这样实现的：

第一方面，提供一种模型训练方法，包括：

获取打标网站集合，所述打标网站集合中的网站对应有打标标签；

基于所述打标网站集合中网站的特征样本数据和对应的打标标签，对网站识别模型进行迭代训练，所述网站识别模型用于识别网站是否属于指定网站类型；以及，

基于至少部分迭代轮次的训练结果，对所述打标网站集合中的网站和/或对应的打标标签进行调整。

第二方面，提供一种模型训练装置，包括：

获取模块，获取打标网站集合，所述打标网站集合中的网站对应有打标标签；

训练模块，基于所述打标网站集合中网站的特征样本数据和对应的打标标签，对网站识别模型进行迭代训练，所述网站识别模型用于识别网站类型是否属于指定网站类型；以及，

调整模块，基于至少部分迭代轮次的训练结果，对所述打标网站集合中的网站和/或对应的打标标签进行调整。

第三方面，提供一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：

第四方面，提供一种算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

本申请实施例的方案通过打标网站集合的特征样本数据迭代训练模型识别网站是否属于指定网站类型的能力，并在迭代训练过程中，进一步对打标网站集合的网站和/或对应的打标标签进行优化，以提高训练效率和训练效果。显然训练后的模型对指定网站类型下的网站具有更高的识别效率和识别准确率，因此，特别适用于从互联网海量的企业网站中筛选出P2P网站，能够为监管P2P网站提供数据支持。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的流程示意图。

图2为本申请实施例提供的模型训练装置的结构示意图。

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如前所述，目前互联网充斥着很多不具有资质的提供P2P服务的企业，引起的网络借贷问题屡见不鲜，对社会稳定性造成了很大的负面影响。因此，有必要通过科学严谨的方式对P2P网站进行监管。据统计，全国存在超过5千万个企业，仅通过人工的方式从这些企业的网站中筛选出P2P网站，不仅费时费力，且存在很大的误差。有鉴于此，本申请旨在提供一种通过深度学习模型，机械识别指定网站类型的技术方案，在实际应用中可以用于识别P2P网站。

一方面，本申请实施例提供一种模型训练方法，用于训练可识别指定网站类型的模型。图1是模型训练方法的流程图。图1所示的方法可以由下文相对应的装置执行，包括：

步骤S102，获取打标网站集合，打标网站集合中的网站对应有打标标签。

其中，打标网站集合可以包括白样本和黑样本。白样本是指非指定网站类型的网站，对应的打标标签表征网站属于白样本。黑样本是指定网站类型的网站，对应的打标标签表征网站属于黑样本。

步骤S104，基于打标网站集合中网站的特征样本数据和对应的打标标签，对网站识别模型进行迭代训练，网站识别模型用于识别网站是否属于指定网站类型。

网站识别模型的具体实现方式并不唯一，本申请实施例对此不作具体限定。作为示例性介绍，识别模型可以是迭代决策树模型、逻辑回归模型、随机森林模型、朴素贝叶斯型和支持向量机模型等具有分类作用的模型，可用于将网站分类为指定网站类型或指定网站类型，从而达到识别目的。

在训练过程中，打标网站集合中网站的特征样本数据作为网站识别模型的输入，打标网站集合中网站对应的打标标签作为网站识别模型的输出，网站识别模型会判断打标网站集合中的网站是否属于指定网站类型，该判断结果即训练结果。本步骤可以基于最大似然估计，推导出网站识别模型的损失函数，并基于该损失函数，计算训练结果与打标标签之间的损失(误差)。之后，以降低损失为目的，对网站识别模型进行优化，从而达到训练效果。

步骤S106，基于至少部分迭代轮次的训练结果，对打标网站集合中的网站和/或对应的打标标签进行调整。

其中，调整可以具体包括：对打标网站集合中已有网站进行删除、向打标网站集合中添加新的网站以及修改打标网站集合中网站对应的打标标签等。

基于图1所示的模型训练方法可以知道：本申请实施例的方案通过打标网站集合的特征样本数据迭代训练模型识别网站是否属于指定网站类型的能力，并在迭代训练过程中，进一步对打标网站集合的网站和/或对应的打标标签进行优化，以提高训练效率和训练效果。显然训练后的模型对指定网站类型下的网站具有更高的识别效率和识别准确率，因此，特别适用于从互联网海量的企业网站中筛选出P2P网站，能够为监管P2P网站提供数据支持。

下面对本申请实施例的方法进行详细介绍。

本申请实施例的方法对网站识别模型进行迭代训练。在迭代训练中，利用少部分打标网站集合中网站的特征样本数据，初步训练网站识别模型识别指定网站类型的能力，并利用初步训练的网站识别模型对未打标网站集合中的网站进行分析、打标，以扩展打标网站集合中的网站，从而实现在打标网站稀少的情况下也能够对网站识别模型进行有效训练的目的。同时，根据至少部分迭代轮次的训练训练结果，对打标网站集合的网站和/或对应的打标标签进行修正，从而优化训练效果。

下面以训练模型识别P2P网站为例，进行介绍。本申请实施例的模型训练方法的主要流程包括：

步骤一，选取样本网站，构建打标网站集合。

在本步骤中，选取已知的P2P网站和非P2P网站，以构建打标网站集合。其中，P2P网站作为黑样本网站，非P2P网站作为白样本网站。为达到较好的训练目的，黑样本网站的数量与白样本网站的数量之比以小于或等于1:9且大于或等于1:20为宜。

之后，根据实际的已知信息，为样本网站配置指示该样本网站是否为P2P网站的打标标签，并基于已被打标的样本网站构建打标网站集合。

步骤二，构建网站识别模型的训练数据。

在本步骤中，通过网络爬虫工具从网络中爬取打标网站集合中网站的数据。之后，对爬取内容数据进行结构化处理。

其中，上述结构化处理可以但不限于是以下至少一种方式：

(1)非需求数据清洗，删除爬取内容数据中不需要的部分。

(2)格式错误数据清洗，对爬取内容数据中不符合格式要求的部分进行纠正或删除。

(3)逻辑错误数据清洗，对爬取内容数据去重、删除或修正存在矛盾的部分。

(4)必要数据补充，合理填充爬取内容数据中缺失的必要部分。

在结构化处理完成后，基于语义分析方法从爬取内容数据提取特征样本数据。其中，特征样本数据可以包括：数值型数据和非数值型数据。以黑样本网站为例，数值型数据可以是出借人数、成交金额、成交笔数等。非数值型数据可以是网站名称、公司简介中存在的也P2P服务相关的字眼，如“投资”、“借贷”等。

之后，基于打标网站集合中网站的特征样本数据和对应的打标标签，构建网站识别模型的训练数据。

其中，作为一种可行的实现方式：一个样本网站对应有一个训练数据，训练数据包含有对应样本网站的网特征样本数据征和打标标签。

此外，本步骤中，可以选取打标网站集合中部分网站的特征样本数据和对应的打标标签，构建训练数据。选取打标网站集合中另一部分网站的特征样本数据和对应的打标标签，构建测试数据。其中，测试数据用于在网站识别模型迭代训练完成后，测试识别模型的准确率，后续可以根据测试结果来进一步对网站识别模型进行优化。

步骤四，基于训练数据，对网站识别模型进行迭代训练。

其中，在每轮迭代训练完成后，可以对网站识别模型的训练结果进行评估。具体地，可以将上述测试数据输入至本轮训练后的网站识别模型，得到网站识别模型的测试结果。之后，根据实际结果与测试结果进行比对，以评估本轮网站识别模型的训练效果。或者，还可以在每轮迭代训练完成后，直接将网站识别模型输出的训练结果与实际结果进行比对，从而评估本轮网站识别模型的训练效果。

之后，根据确定的评估结果，选择执行以下任意操作：

1)向打标网站集合中添加网站，以构建新的训练数据。对应流程包括：

将未打标网站集合中网站的特征样本数据输入至网站识别模型，得到未打标网站集合中网站的识别结果。按照未打标网站集合中网站的识别结果，对未打标网站集合中的网站进行打标，并添加至打标网站集合中。

作为示例性介绍：

可以通过网络爬虫工具从网络中爬取未打标网站集合中网站的数据，并对未打标网站集合中网站的爬取内容数据进行结构化处理，得到未打标网站集合中网站的特征样本数据。

之后，将未打标网站集合中网站的特征样本数据输入至本轮训练后的网站识别模型，由网站识别模型识别未打标网站集合中的网站是否为P2P网站。

如果识别结果指示未打标网站集合中的网站为P2P网站，则对该未打标网站集合中的网站标注表征P2P网站的标签。同理，如果识别结果指示未打标网站集合中的网站为非P2P网站，则对该未打标网站集合中的网站标注表征非P2P网站的标签。

之后，将本轮未打标网站集合中获得打标标签的网站添加至打标网站集合中，并基于新添加的网站的特征样本数据和对应的打标标签，构建新的训练数据。其中，新的训练数据在之后轮迭代中，用于训练网站识别模型。

本过程的意义是当样本网站较为稀少时，可以通过训练过程中的网站识别模型在全网中挑选出一些未知企业的网站进行分析、打标，以扩展训练数据。

2)删除打标网站集合中的网站，以减少训练数据。对应流程包括：

从打标网站集合中删除训练结果与网站识别模型的识别边界之间的数学距离未达到第一预设阈值的网站，其中被删除的网站所对应的训练数据不再用于训练网站识别模型。

应理解，上述数据距离的计算方式属于现有技术，本申请实施例不作具体限定。作为示例性介绍，数据距离可以但不限于是欧几里得距离、曼哈顿距离、余弦距离等。

本过程的意义是删除掉迭代训练过程中训练结果在多伦迭代中反复出现摇摆的训练数据，从而提高识别模型的训练效率和训练效果。

3)修正打标网站集合中网站对应的打标标签。对应流程包括：

将打标网站集合中训练结果与网站识别模型的识别边界之间的数学距离未达到第二预设阈值的网站确定为待修正网站。之后，将待修正网站对应的打标标签向该待修正网站对应的训练结果进行统一。

如前所述，某一样本网站的训练结果与网站识别模型的识别边界之间的数学距离小于一定程度时，会导致该样本网站的训练结果在多轮迭代过程中会出现反复摇摆的情况。针对这类样本网站，则统一按照训练结果，重新进行泛化打标。比如，待修正网站对应的打标标签指示待修正网站为P2P网站，但本轮训练后，训练结果指示待修正网站为非P2P网站，则将待修正网站对应的打标标签修改为指示待修正网站为非P2P网站。

本过程的意义是对迭代训练过程中训练结果指向不明确的网站重新泛化达标，从而提高识别模型的训练效率和训练效果。

显然，通过上述步骤可以知道：在反复迭代训练过程中，头几轮训练是通过已知的样本网站的训练数据对网站识别模型进行训练，初步建立网站识别模型识别P2P网站的能力。对于训练结果不明确的网站(训练结果过于接近网站识别模型中针对P2P网站的识别边界)，重新进行泛化打标，或者从打标网站集合中剔除，以提高训练效率。在后续轮次训练中，如果打标网站集合中的网站不不充足时(即缺少足够的训练数据训练网站识别模型)，可以利用当前的网站识别模型，对全网未知网站进行分析、打标，以扩展打标网站集合，从而保证训练过程有效执行下去。若打标网站集合中新添加的网站的训练数据未起到良好的训中效果时，还可以继续剔除，并再次对打标网站集合补充。在网站识别模型收敛到预定条件，或者，迭代轮次满足预设次数，即可结束迭代训练。

应理解，在网站识别模型迭代训练完成后，即可用于识别网络中的P2P网站。

作为网站识别模型的应用介绍：可以网络爬虫工具获取待识别的目标网站的数据，之后，从待目标网站的爬取内容数据提取出目标网站的特征数据，并将特征数据输入至网站识别模型，使网站识别模型以该特征数据作为参考因子，判断目标网站是否为P2P网站。

以上是对本申请实施例的方法的原理介绍。在不脱离本文上述原理基础之上，还可以进行适当的变化，这些变化也应视为本申请实施例的保护范围。比如，网站识别模型所能识别的指定网站类型并不限于是P2P网站，除了P2P网站外，还可以是赌博网站、传销网站等。

与上述模型训练方法相对应地，如图2所示，本申请实施例还提供一种模型训练装置200，包括：

获取模块210，获取打标网站集合，所述打标网站集合中的网站对应有打标标签；

训练模块220，基于所述打标网站集合中网站的特征样本数据和对应的打标标签，对网站识别模型进行迭代训练，所述网站识别模型用于识别网站类型是否属于指定网站类型；以及，

调整模块230，基于至少部分迭代轮次的训练结果，对所述打标网站集合中的网站和/或对应的打标标签进行调整。

基于图2所示的模型训练装置可以知道：本申请实施例的方案通过打标网站集合的特征样本数据迭代训练模型识别网站是否属于指定网站类型的能力，并在迭代训练过程中，进一步对打标网站集合的网站和/或对应的打标标签进行优化，以提高训练效率和训练效果。显然训练后的模型对指定网站类型下的网站具有更高的识别效率和识别准确率，因此，特别适用于从互联网海量的企业网站中筛选出P2P网站，能够为监管P2P网站提供数据支持。

可选地，调整模块230在执行时，具体将未打标网站集合中网站的特征样本数据输入至所述网站识别模型，得到所述未打标网站集合中网站的识别结果。之后，基于所述未打标网站集合中网站的识别结果，对所述未打标网站集合中的网站进行打标，并将所述未打标网站集合中获得打标标签的网站添加至所述打标网站集合中。

可选地，调整模块230在执行时，具体从所述打标网站集合中删除训练结果与所述网站识别模型的识别边界之间的数学距离未达到第一预设阈值的网站。

可选地，调整模块230在执行时，具体将所述打标网站集合中训练结果与所述识别模型的识别边界之间的数学距离未达到第二预设阈值的网站确定为待修正网站。之后，将所述待修正网站对应的打标标签向该待修正网站对应的训练结果进行统一。

可选地，所述指定网站类型包括：点对点贷款网站、赌博网站和传销网站中的任意一者。

可选地，本申请实施例的装置还包括：

结构化处理模块，在对网站识别模型进行多轮迭代训练前，基于打标网站集合中网站的爬取内容数据进行结构化处理，得到网站对应的特征样本数据。其中，结构化处理可以但不限于是以下至少一种方式：

(1)非需求数据清洗，删除爬取内容数据中不需要的部分。

可选地，若所述网站识别模型收敛到预定条件，或者，迭代轮次满足预设次数，则结束迭代训练。

显然，本申请实施例的模型训练装置可以作为上述图1所示的模型训练方法的执行主体，因此所述模型训练装置能够实现所述模型训练方法在图1中的功能。由于原理相同，本文不再赘述。

图5是本申请的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponentInterconnect，外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上文所述的模型训练装置。

其中，处理器，执行存储器所存放的程序，并具体用于执行以下操作：

基于图3所示的电子设备可以知道：本申请实施例的方案通过打标网站集合的特征样本数据迭代训练模型识别网站是否属于指定网站类型的能力，并在迭代训练过程中，进一步对打标网站集合的网站和/或对应的打标标签进行优化，以提高训练效率和训练效果。显然训练后的模型对指定网站类型下的网站具有更高的识别效率和识别准确率，因此，特别适用于从互联网海量的企业网站中筛选出P2P网站，能够为监管P2P网站提供数据支持。

上述如本申请图1所示实施例揭示的模型训练方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

应理解，本申请实施例的电子设备可以实现上述模型训练装置在图1所示的实施例的功能。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

此外，本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令。

其中，所述指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的模型训练方法，并具体用于执行以下方法：

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练方法，包括：

2.根据权利要求1所述的方法，

对所述打标网站集合中的网站进行调整，包括：

将未打标网站集合中网站的特征样本数据输入至所述网站识别模型，得到所述未打标网站集合中网站的识别结果；

基于所述未打标网站集合中网站的识别结果，对所述未打标网站集合中的网站进行打标，并将所述未打标网站集合中获得打标标签的网站添加至所述打标网站集合中。

3.根据权利要求1所述的方法，

对所述打标网站集合中的网站进行调整，包括：

从所述打标网站集合中删除训练结果与所述网站识别模型的识别边界之间的数学距离未达到第一预设阈值的网站。

4.根据权利要求1所述的方法，

对所述打标网站集合中网站对应的打标标签进行调整，包括：

将所述打标网站集合中训练结果与所述识别模型的识别边界之间的数学距离未达到第二预设阈值的网站确定为待修正网站；

将所述待修正网站对应的打标标签向该待修正网站对应的训练结果进行统一。

5.根据权利要求1-4任一项所述的方法，

所述指定网站类型包括：点对点贷款网站、赌博网站、传销网站中的任意一者。

6.根据权利要求1-4任一项所述的方法，

在对网站识别模型进行多轮迭代训练前，还包括：

基于打标网站集合中网站的爬取内容数据进行结构化处理，得到网站对应的特征样本数据。

7.根据权利要求1-4任一项所述的方法，

若所述网站识别模型收敛到预定条件，或者，迭代轮次满足预设次数，则结束迭代训练。

8.一种模型训练装置，包括：

9.一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：

基于所述打标网站集合中网站的特征样本数据和对应的打标标签，对网站识别模型进行迭代训练，所述网站识别模型用于识别网站类型是否属于指定网站类型；以及，

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：