CN107403198B

CN107403198B - 一种基于级联分类器的官网识别方法

Info

Publication number: CN107403198B
Application number: CN201710642225.0A
Authority: CN
Inventors: 陈开冉; 莫碧云
Original assignee: Guangzhou Tungee Technology Co ltd
Current assignee: Guangzhou Tungee Technology Co ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2020-12-22
Anticipated expiration: 2037-07-31
Also published as: CN107403198A

Abstract

本发明公开了一种基于级联分类器的官网识别方法，该方法的创新点在于建立一多层级的级联分类器，该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集，根据带标签数据集提取官网特征，训练第一级分类器；将待预测样本集中样本代入第一级分类器，得到预测可信样本和未识别样本，从未识别样本中选取一部分进行人工打标签，根据人工打出标签的样本训练第二级分类器；依次类推，直到最后待预测样本评估准则满足预定的要求。与传统的由多个弱分类器加权组合而成的强分类器相比，级联分类器中每个子分类器以前面分类器的筛选结果作为输入，在每一层级获得的都是强分类器，能达到提高模型训练效率和逐步提高模型整体准确率的效果。

Description

一种基于级联分类器的官网识别方法

技术领域

本发明涉及官网识别研究领域，更具体地，涉及一种基于级联分类器的官网识别方法。

背景技术

官网是公开团体主办者体现其意志想法，团体信息公开，并带有专用、权威、公开性质的一种网站，在当前互联网时代，官网往往是其品牌形象的第一站，也是主办者进行信息传播的最及时的途径。因此，对于普通民众来说，准确识别和进入官网是获得相关信息的首要一步。但由于第三方挂靠网站、娱乐网站等等的影响，如何从网页样本集中准确识别出官网样本是一个技术难点。

现有技术中，一般将官网识别问题看作是一个二元分类问题，传统的强分类器能够解决单个复杂分类器训练效率低下的问题，但是，各个子分类器之间在输入和训练上没有直接的关联，仅仅是由多个弱的子分类器加权组合而成。当训练数据不够全面时，例如已有训练集没有覆盖非官网样本的所有特征，训练得到强模型的泛化能力不高。当标签数据增多时，为了学习新增的样本，需要在整个数据集上重新训练强分类器，计算复杂度大，效率不高。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于级联分类器的官网识别方法，该方法分类效果好，可扩展性强。

本发明的目的通过以下的技术方案实现：一种基于级联分类器的官网识别方法，建立一多层级的级联分类器，该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集，根据带标签数据集提取官网特征，训练第一级分类器；将待预测样本集中样本代入第一级分类器，得到预测可信样本和未识别样本，从未识别样本中选取一部分进行人工打标签，根据人工打出标签的样本训练第二级分类器；依次类推，直到最后待预测样本上的准确率或召回率等评估准则满足预定的要求。

本发明中，第二、三……N分类器都是以前面分类器的筛选结果作为输入，在每一层级获得的都是强分类器，能达到提高模型训练效率和逐步提高模型整体准确率的效果。

具体的，包括以下步骤：

S1：收集海量文本数据，构建样本集，将样本集划分为带标签数据集和待预测样本集，带标签数据集中的样本均已确定是否为官网，根据带标签数据集提取官网特征；

S2：对样本集进行预处理，通过官网特征列表将输入样本从文本形式的输入空间映射到向量形式的特征空间；

S3：根据带标签数据集训练第一级分类器；

S4：应用当前级分类器对待预测样本集中未识别样本进行分类，得到预测可信样本和未识别样本；

S5：从未识别样本中选取一部分进行人工打标签，即人工判断样本是否为官网，记为新标签样本；

S6：根据新标签样本，结合步骤S1提取的官网特征，训练得出下一级分类器；

S7：重复步骤S4、S5、S6，以此类推训练获得多层级的级联分类器；

S8：在实际要进行官网识别时，提取待识别网站的官网特征，将特征依次代入到上述级联分类器，如果最终仍认为不可识别，则判定该待识别网站不是官网。

优选的，所述步骤S1中，官网特征包括：样本中图片数量、超链接数量、官网关键词是否存在等。

优选的，在步骤S1提取官网特征后，执行特征筛选步骤：通过梯度提升决策树模型获取特征重要性权重，并剔除重要性值低于一定阈值的特征，确定最后的特征列表。这里所述特征列表的每一个特征对应于特征空间的某一维度，因此特征列表的长度与特征空间的维度相等。

优选的，所述步骤S3中，采用梯度提升决策树算法训练第一级分类器。

优选的，所述步骤S6中，根据新标签样本，结合步骤S1提取的官网特征，训练出下一级分类器的方法采用梯度提升决策树算法。

本发明与现有技术相比，具有如下优点和有益效果：

与传统的由多个弱分类器加权组合而成的强分类器相比，本发明级联分类器中每个子分类器以前面分类器的筛选结果作为输入，在每一层级获得的都是强分类器，能达到提高模型训练效率和逐步提高模型整体准确率的效果。

附图说明

图1为本发明方法流程图。

图2是本发明方法中训练得到分类器的过程。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1、2所示，本实施例一种基于级联分类器的官网识别方法，包括步骤：

S1：收集海量文本数据，构建样本集，将样本集划分为带标签数据集和待预测样本集。其中带标签数据集中的样本均已确定是否为官网，若样本为官网，则标签为1，否则为0。待预测样本集是用于后续构建分类器。

根据带标签数据集中的样本提取官网特征，官网特征包括但不限于获取图片数量、超链接数量、官网关键词是否存在等特征，所有特征构成一特征列表。

对于不同类型的官网，其每个特征的重要性可能各不相同，为了体现这一差别，可以在提取上述各个官网特征后，进行特征筛选，具体是：利用梯度提升决策树模型获取特征重要性权重，然后提出重要性不高的一些特征，最终确定特征列表。

S2：对样本集进行预处理，通过官网特征列表将输入样本从文本形式的输入空间映射到向量形式的特征空间。这里是指将文本形式表示的样本按照官网特征列表进行映射，得到便于后面进行分类的向量形式。

S3：根据带标签数据集训练第一级分类器。

这里训练方法可采用多种方式实现，考虑到梯度提升决策树算法在计算速度和准确率上的优势，本实施例采用该算法作为训练分类器的方法。

S4：应用第一级分类器对待预测样本集中的样本进行分类，得到预测可信样本和未识别样本。预测可信样本即为识别出了是否为官网的样本。未识别样本没有被识别出有多种原因，最主要是模型的精度不够。为此，本实施例创新地提出执行下面步骤S5、S6。

S5：从未识别样本中选取一部分进行人工打标签，即人工判断样本是否为官网，记为新标签样本。

S6：根据新标签样本，结合步骤S1提取的官网特征，依然采用梯度提升决策树算法训练得出第二级分类器。然后用第二级分类器对上述未识别样本进行再次分类，分类结果再次得到预测可信样本和未识别样本。

S7：重复步骤S5、S6，以此类推训练获得第三、第四、第N等多层级的级联分类器。保存上述所有分类器。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于级联分类器的官网识别方法，其特征在于，包括以下步骤：

S1：收集海量文本数据，构建样本集，将样本集划分为带标签数据集和待预测样本集，其中带标签数据集中的样本均已确定是否为官网，根据带标签数据集中的样本提取官网特征，在提取官网特征后，执行特征筛选步骤：通过梯度提升决策树模型获取特征重要性权重，并剔除重要性值低于一定阈值的特征，确定最后的特征列表；

S3：根据带标签数据集训练第一级分类器；

S4：应用第一级分类器对待预测样本集中的样本进行分类，得到预测可信样本和未识别样本；

S6：根据新标签样本，结合步骤S1提取的官网特征，采用梯度提升决策树算法训练得出第二级分类器，然后用第二级分类器对未识别样本进行再次分类，分类结果再次得到预测可信样本和未识别样本；

S7：重复步骤S5、S6，以此类推训练获得第三、第四、第N的多层级的级联分类器；

2.根据权利要求1所述的基于级联分类器的官网识别方法，其特征在于，所述步骤S1中，官网特征包括：样本中图片数量、超链接数量、官网关键词是否存在。