CN107403198B - 一种基于级联分类器的官网识别方法 - Google Patents

一种基于级联分类器的官网识别方法 Download PDF

Info

Publication number
CN107403198B
CN107403198B CN201710642225.0A CN201710642225A CN107403198B CN 107403198 B CN107403198 B CN 107403198B CN 201710642225 A CN201710642225 A CN 201710642225A CN 107403198 B CN107403198 B CN 107403198B
Authority
CN
China
Prior art keywords
sample
classifier
official
official website
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710642225.0A
Other languages
English (en)
Other versions
CN107403198A (zh
Inventor
陈开冉
莫碧云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tungee Technology Co ltd
Original Assignee
Guangzhou Tungee Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tungee Technology Co ltd filed Critical Guangzhou Tungee Technology Co ltd
Priority to CN201710642225.0A priority Critical patent/CN107403198B/zh
Publication of CN107403198A publication Critical patent/CN107403198A/zh
Application granted granted Critical
Publication of CN107403198B publication Critical patent/CN107403198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于级联分类器的官网识别方法,该方法的创新点在于建立一多层级的级联分类器,该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集,根据带标签数据集提取官网特征,训练第一级分类器;将待预测样本集中样本代入第一级分类器,得到预测可信样本和未识别样本,从未识别样本中选取一部分进行人工打标签,根据人工打出标签的样本训练第二级分类器;依次类推,直到最后待预测样本评估准则满足预定的要求。与传统的由多个弱分类器加权组合而成的强分类器相比,级联分类器中每个子分类器以前面分类器的筛选结果作为输入,在每一层级获得的都是强分类器,能达到提高模型训练效率和逐步提高模型整体准确率的效果。

Description

一种基于级联分类器的官网识别方法
技术领域
本发明涉及官网识别研究领域,更具体地,涉及一种基于级联分类器的官网识别方法。
背景技术
官网是公开团体主办者体现其意志想法,团体信息公开,并带有专用、权威、公开性质的一种网站,在当前互联网时代,官网往往是其品牌形象的第一站,也是主办者进行信息传播的最及时的途径。因此,对于普通民众来说,准确识别和进入官网是获得相关信息的首要一步。但由于第三方挂靠网站、娱乐网站等等的影响,如何从网页样本集中准确识别出官网样本是一个技术难点。
现有技术中,一般将官网识别问题看作是一个二元分类问题,传统的强分类器能够解决单个复杂分类器训练效率低下的问题,但是,各个子分类器之间在输入和训练上没有直接的关联,仅仅是由多个弱的子分类器加权组合而成。当训练数据不够全面时,例如已有训练集没有覆盖非官网样本的所有特征,训练得到强模型的泛化能力不高。当标签数据增多时,为了学习新增的样本,需要在整个数据集上重新训练强分类器,计算复杂度大,效率不高。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于级联分类器的官网识别方法,该方法分类效果好,可扩展性强。
本发明的目的通过以下的技术方案实现:一种基于级联分类器的官网识别方法,建立一多层级的级联分类器,该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集,根据带标签数据集提取官网特征,训练第一级分类器;将待预测样本集中样本代入第一级分类器,得到预测可信样本和未识别样本,从未识别样本中选取一部分进行人工打标签,根据人工打出标签的样本训练第二级分类器;依次类推,直到最后待预测样本上的准确率或召回率等评估准则满足预定的要求。
本发明中,第二、三……N分类器都是以前面分类器的筛选结果作为输入,在每一层级获得的都是强分类器,能达到提高模型训练效率和逐步提高模型整体准确率的效果。
具体的,包括以下步骤:
S1:收集海量文本数据,构建样本集,将样本集划分为带标签数据集和待预测样本集,带标签数据集中的样本均已确定是否为官网,根据带标签数据集提取官网特征;
S2:对样本集进行预处理,通过官网特征列表将输入样本从文本形式的输入空间映射到向量形式的特征空间;
S3:根据带标签数据集训练第一级分类器;
S4:应用当前级分类器对待预测样本集中未识别样本进行分类,得到预测可信样本和未识别样本;
S5:从未识别样本中选取一部分进行人工打标签,即人工判断样本是否为官网,记为新标签样本;
S6:根据新标签样本,结合步骤S1提取的官网特征,训练得出下一级分类器;
S7:重复步骤S4、S5、S6,以此类推训练获得多层级的级联分类器;
S8:在实际要进行官网识别时,提取待识别网站的官网特征,将特征依次代入到上述级联分类器,如果最终仍认为不可识别,则判定该待识别网站不是官网。
优选的,所述步骤S1中,官网特征包括:样本中图片数量、超链接数量、官网关键词是否存在等。
优选的,在步骤S1提取官网特征后,执行特征筛选步骤:通过梯度提升决策树模型获取特征重要性权重,并剔除重要性值低于一定阈值的特征,确定最后的特征列表。这里所述特征列表的每一个特征对应于特征空间的某一维度,因此特征列表的长度与特征空间的维度相等。
优选的,所述步骤S3中,采用梯度提升决策树算法训练第一级分类器。
优选的,所述步骤S6中,根据新标签样本,结合步骤S1提取的官网特征,训练出下一级分类器的方法采用梯度提升决策树算法。
本发明与现有技术相比,具有如下优点和有益效果:
与传统的由多个弱分类器加权组合而成的强分类器相比,本发明级联分类器中每个子分类器以前面分类器的筛选结果作为输入,在每一层级获得的都是强分类器,能达到提高模型训练效率和逐步提高模型整体准确率的效果。
附图说明
图1为本发明方法流程图。
图2是本发明方法中训练得到分类器的过程。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1、2所示,本实施例一种基于级联分类器的官网识别方法,包括步骤:
S1:收集海量文本数据,构建样本集,将样本集划分为带标签数据集和待预测样本集。其中带标签数据集中的样本均已确定是否为官网,若样本为官网,则标签为1,否则为0。待预测样本集是用于后续构建分类器。
根据带标签数据集中的样本提取官网特征,官网特征包括但不限于获取图片数量、超链接数量、官网关键词是否存在等特征,所有特征构成一特征列表。
对于不同类型的官网,其每个特征的重要性可能各不相同,为了体现这一差别,可以在提取上述各个官网特征后,进行特征筛选,具体是:利用梯度提升决策树模型获取特征重要性权重,然后提出重要性不高的一些特征,最终确定特征列表。
S2:对样本集进行预处理,通过官网特征列表将输入样本从文本形式的输入空间映射到向量形式的特征空间。这里是指将文本形式表示的样本按照官网特征列表进行映射,得到便于后面进行分类的向量形式。
S3:根据带标签数据集训练第一级分类器。
这里训练方法可采用多种方式实现,考虑到梯度提升决策树算法在计算速度和准确率上的优势,本实施例采用该算法作为训练分类器的方法。
S4:应用第一级分类器对待预测样本集中的样本进行分类,得到预测可信样本和未识别样本。预测可信样本即为识别出了是否为官网的样本。未识别样本没有被识别出有多种原因,最主要是模型的精度不够。为此,本实施例创新地提出执行下面步骤S5、S6。
S5:从未识别样本中选取一部分进行人工打标签,即人工判断样本是否为官网,记为新标签样本。
S6:根据新标签样本,结合步骤S1提取的官网特征,依然采用梯度提升决策树算法训练得出第二级分类器。然后用第二级分类器对上述未识别样本进行再次分类,分类结果再次得到预测可信样本和未识别样本。
S7:重复步骤S5、S6,以此类推训练获得第三、第四、第N等多层级的级联分类器。保存上述所有分类器。
S8:在实际要进行官网识别时,提取待识别网站的官网特征,将特征依次代入到上述级联分类器,如果最终仍认为不可识别,则判定该待识别网站不是官网。
可通过各种手段实施本发明描述的技术。举例来说,这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案,处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。
对于固件和/或软件实施方案,可用执行本文描述的功能的模块(例如,过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种基于级联分类器的官网识别方法,其特征在于,包括以下步骤:
S1:收集海量文本数据,构建样本集,将样本集划分为带标签数据集和待预测样本集,其中带标签数据集中的样本均已确定是否为官网,根据带标签数据集中的样本提取官网特征,在提取官网特征后,执行特征筛选步骤:通过梯度提升决策树模型获取特征重要性权重,并剔除重要性值低于一定阈值的特征,确定最后的特征列表;
S2:对样本集进行预处理,通过官网特征列表将输入样本从文本形式的输入空间映射到向量形式的特征空间;
S3:根据带标签数据集训练第一级分类器;
S4:应用第一级分类器对待预测样本集中的样本进行分类,得到预测可信样本和未识别样本;
S5:从未识别样本中选取一部分进行人工打标签,即人工判断样本是否为官网,记为新标签样本;
S6:根据新标签样本,结合步骤S1提取的官网特征,采用梯度提升决策树算法训练得出第二级分类器,然后用第二级分类器对未识别样本进行再次分类,分类结果再次得到预测可信样本和未识别样本;
S7:重复步骤S5、S6,以此类推训练获得第三、第四、第N的多层级的级联分类器;
S8:在实际要进行官网识别时,提取待识别网站的官网特征,将特征依次代入到上述级联分类器,如果最终仍认为不可识别,则判定该待识别网站不是官网。
2.根据权利要求1所述的基于级联分类器的官网识别方法,其特征在于,所述步骤S1中,官网特征包括:样本中图片数量、超链接数量、官网关键词是否存在。
CN201710642225.0A 2017-07-31 2017-07-31 一种基于级联分类器的官网识别方法 Active CN107403198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710642225.0A CN107403198B (zh) 2017-07-31 2017-07-31 一种基于级联分类器的官网识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710642225.0A CN107403198B (zh) 2017-07-31 2017-07-31 一种基于级联分类器的官网识别方法

Publications (2)

Publication Number Publication Date
CN107403198A CN107403198A (zh) 2017-11-28
CN107403198B true CN107403198B (zh) 2020-12-22

Family

ID=60401758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710642225.0A Active CN107403198B (zh) 2017-07-31 2017-07-31 一种基于级联分类器的官网识别方法

Country Status (1)

Country Link
CN (1) CN107403198B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12017255B2 (en) 2022-03-16 2024-06-25 Sortera Technologies, Inc. Sorting based on chemical composition

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11964304B2 (en) 2015-07-16 2024-04-23 Sortera Technologies, Inc. Sorting between metal alloys
US11278937B2 (en) 2015-07-16 2022-03-22 Sortera Alloys, Inc. Multiple stage sorting
US11969764B2 (en) 2016-07-18 2024-04-30 Sortera Technologies, Inc. Sorting of plastics
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和***
WO2019209428A1 (en) * 2018-04-26 2019-10-31 UHV Technologies, Inc. Recycling coins from scrap
CN111125550B (zh) * 2018-11-01 2023-11-24 百度在线网络技术(北京)有限公司 兴趣点分类方法、装置、设备及存储介质
CN109583501B (zh) * 2018-11-30 2021-05-07 广州市百果园信息技术有限公司 图片分类、分类识别模型的生成方法、装置、设备及介质
CN110046636A (zh) * 2018-12-11 2019-07-23 阿里巴巴集团控股有限公司 分类预测方法及装置、预测模型训练方法及装置
CN110399933B (zh) * 2019-07-31 2021-05-07 北京字节跳动网络技术有限公司 数据标注修正方法、装置、计算机可读介质及电子设备
CN112990520A (zh) * 2019-12-13 2021-06-18 顺丰科技有限公司 网点接驳件量预测方法、装置、计算机设备和存储介质
CN112365943A (zh) * 2020-10-22 2021-02-12 杭州未名信科科技有限公司 患者住院时长的预测方法、装置、电子设备及存储介质
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN112487295A (zh) * 2020-12-04 2021-03-12 ***通信集团江苏有限公司 5g套餐推送方法、装置、电子设备及计算机存储介质
CN112818888A (zh) * 2021-02-09 2021-05-18 广州市百果园信息技术有限公司 视频审核模型训练方法、视频审核方法及相关装置
CN113298352A (zh) * 2021-04-28 2021-08-24 北京网核精策科技管理中心(有限合伙) 企业行业信息处理方法、装置、电子设备及可读存储介质
CN112990147A (zh) * 2021-05-06 2021-06-18 北京远鉴信息技术有限公司 一种涉政图像的识别方法、装置、电子设备及存储介质
CN113963225B (zh) * 2021-12-23 2022-04-26 季华实验室 目标类别判定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964059A (zh) * 2009-07-24 2011-02-02 富士通株式会社 构建级联分类器的方法、识别对象的方法及装置
CN103077399A (zh) * 2012-11-29 2013-05-01 西交利物浦大学 基于集成级联架构的生物显微图像分类方法
CN106778603A (zh) * 2016-12-13 2017-05-31 中国科学院信息工程研究所 一种基于梯度式级联svm分类器的行人识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194705A (ja) * 2011-03-15 2012-10-11 Omron Corp 画像処理装置、画像処理方法および画像処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964059A (zh) * 2009-07-24 2011-02-02 富士通株式会社 构建级联分类器的方法、识别对象的方法及装置
CN103077399A (zh) * 2012-11-29 2013-05-01 西交利物浦大学 基于集成级联架构的生物显微图像分类方法
CN106778603A (zh) * 2016-12-13 2017-05-31 中国科学院信息工程研究所 一种基于梯度式级联svm分类器的行人识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12017255B2 (en) 2022-03-16 2024-06-25 Sortera Technologies, Inc. Sorting based on chemical composition

Also Published As

Publication number Publication date
CN107403198A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
CN107403198B (zh) 一种基于级联分类器的官网识别方法
JP6866495B2 (ja) 画像品質の評価方法及び画像品質の評価システム
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
EP3227836B1 (en) Active machine learning
US10936906B2 (en) Training data acquisition method and device, server and storage medium
CN110377727B (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN109189767A (zh) 数据处理方法、装置、电子设备及存储介质
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN112559885B (zh) 地图兴趣点的训练模型确定方法、装置及电子设备
CN111914159A (zh) 一种信息推荐方法及终端
CN113328994A (zh) 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN113901924A (zh) 一种文档表格的检测方法及装置
CN113468323A (zh) 争议焦点类别及相似判断方法及***及装置及推荐方法
CN111724810B (zh) 一种音频分类方法和装置
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN115438658A (zh) 一种实体识别方法、识别模型的训练方法和相关装置
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN112307209B (zh) 一种基于字符向量的短文本分类方法及***
CN114443878A (zh) 图像分类方法、装置、设备及存储介质
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN113988059A (zh) 一种会话数据类型识别方法、***、设备及存储介质
CN112597776A (zh) 关键词提取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant