CN108875060B - 一种网站识别方法及识别*** - Google Patents
一种网站识别方法及识别*** Download PDFInfo
- Publication number
- CN108875060B CN108875060B CN201810696532.1A CN201810696532A CN108875060B CN 108875060 B CN108875060 B CN 108875060B CN 201810696532 A CN201810696532 A CN 201810696532A CN 108875060 B CN108875060 B CN 108875060B
- Authority
- CN
- China
- Prior art keywords
- website
- type
- target
- identified
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007637 random forest analysis Methods 0.000 claims abstract description 102
- 238000012549 training Methods 0.000 claims description 104
- 238000003066 decision tree Methods 0.000 claims description 86
- 238000012795 verification Methods 0.000 claims description 40
- 238000010276 construction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种网站识别方法及识别***,该方法包括:采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;还包括:获取待识别网站网址;利用所述随机森林模型确定所述待识别网站网址的网站类型。本方案能提高识别网站类型的准确度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种网站识别方法及识别***。
背景技术
随着计算机技术的发展,各种电商平台迅速发展,为人们的生活提供了极大的便利。随之而来的,如何对多种电商平台进行有效的管理也成为人们关注的重要问题。
对电商平台进行有效管理的前提是,从互联中众多的网站中筛选出电商平台对应的网址。目前,主要通过关键词匹配的方式筛选电商网址,即将电商平台的名称作为其对应的关键词,从众多网站中筛选电商网址。然而,许多电商网址中并未包括该电商平台的名称,或者仅采用了名称中的某些字母,因此,上述电商网址的筛选方式的匹配精确度较差。
发明内容
本发明实施例提供了一种网站识别方法及识别***,能提高识别网站网址的准确度。
第一方面,本发明实施例提供了一种网站识别方法,包括:
采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
还包括:
获取待识别网站网址;
利用所述随机森林模型确定所述待识别网站网址的网站类型。
可选地,
所述根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型,包括:
从所述至少三个样本网址中提取至少两个训练网址;
A1:循环执行至少两次A2至A5,构建至少两棵决策树;
A2:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;
A3:从所述至少两个特征类型中确定至少一个目标特征类型;
A4:针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;
A5:根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
根据构建出的各个所述决策树,构建所述随机森林模型。
可选地,
当所述目标特征类型的数量为至少两个时,
所述A5,包括:
确定各个所述目标特征类型的排列顺序;
将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:
确定所述当前特征类型对应的标准特征值;
将包括每一个所述目标训练网址的集合作为根节点;
将所述根节点作为当前节点,循环执行B1至B3,直至各个所述目标特征类型均被选择:
B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;
B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;
B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
将所述根节点以及所述根节点对应的子节点组合成所述决策树。
可选地,
所述根据构建出的各个所述决策树,构建所述随机森林模型,包括:
将各个所述决策树组合成随机森林分类器;
将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;
利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;
根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;
当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型;
可选地,
所述利用所述随机森林模型确定所述待识别网站网址的网站类型,包括:
确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;
根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;
根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型;
可选地,
在所述利用所述随机森林模型确定所述待识别网站网址的网站类型之后,进一步包括:
确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,执行A1。
可选地,
应用于电商网站类型的识别;
所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
所述利用所述随机森林模型确定所述待识别网站网址的网站类型,包括:
确定所述待识别网站网址的网站类型为电商类或非电商类。
第二方面,本发明实施例提供了一种网站识别***,包括:样本采集模块、特征解析模块、模型构建模块和识别模块;其中,
所述样本采集模块,用于采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
所述特征解析模块,用于根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
所述模型构建模块,用于根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
所述识别模块,用于获取待识别网站网址,并利用所述随机森林模型确定所述待识别网站网址的网站类型。
可选地,
所述模型构建模块包括:训练网址提取单元、决策树构建单元和森林模型构建单元;其中,
所述训练网址提取单元,用于从所述至少三个样本网址中提取至少两个训练网址;
所述决策树构建单元,用于循环执行至少两次以下步骤,构建至少两棵决策树:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;从所述至少两个特征类型中确定至少一个目标特征类型;针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
所述森林模型构建单元,用于根据构建出的各个所述决策树,构建所述随机森林模型。
可选地,
所述决策树构建单元包括:处理子单元、子节点确定子单元和决策树构建子单元;其中,
所述处理子单元,用于当确定出的所述目标特征类型的数量为至少两个时,确定各个所述目标特征类型的排列顺序;将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:确定所述当前特征类型对应的标准特征值;将包括每一个所述目标训练网址的集合作为根节点,并将所述根节点作为当前节点;
所述子节点确定子单元,用于循环执行B1至B3,直至各个所述目标特征类型均被选择;B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
所述决策树构建子单元,用于将所述根节点以及所述根节点对应的子节点组合成所述决策树;
可选地,
所述森林模型构建单元,用于将各个所述决策树组合成随机森林分类器;将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型;
可选地,
所述识别模块,用于确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型;
可选地,
进一步包括:更新模块;其中,
所述更新模块,用于确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,并触发所述决策树构建单元。
可选地,
应用于电商网站类型的识别;
所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
所述识别模块,用于确定所述待识别网站网址的网站类型为电商类或非电商类。
本发明实施例提供了一种网站识别方法及识别***,通过对采集到的样本网页对应的样本源代码进行解析,从样本源代码中解析出预设特征类型的特征值。然后根据解析出的特征值构建各个样本网页对应的样本网址的随机森林模型。之后利用随机森林模型对待识别网站网址进行识别,确定待识别网站网址的类型。利用源代码中的特征为基础构建出的随机样本森林模型,对待识别网站网址进行识别,提高了识别网站类型的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种网站识别方法的流程图;
图2是本发明一个实施例提供的一种决策树的结构示意图;
图3是本发明一个实施例提供的一种网站识别***的结构示意图;
图4是本发明另一个实施例提供的一种网站识别***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种网站识别方法,该方法可以包括以下步骤:
步骤101:采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
步骤102:根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
步骤103:根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
步骤104:获取待识别网站网址;
步骤105:利用所述随机森林模型确定所述待识别网站网址的网站类型。
上述实施例中,通过对采集到的样本网页对应的样本源代码进行解析,从样本源代码中解析出预设特征类型的特征值。然后根据解析出的特征值构建各个样本网页对应的样本网址的随机森林模型。之后利用随机森林模型对待识别网站网址进行识别,确定待识别网站网址的类型。利用源代码中的特征为基础构建出的随机样本森林模型,对待识别网站网址进行识别,提高了识别网站类型的准确度。
本发明一个实施例中,该方法可应用于电商网站类型的识别,此时所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
则步骤105的具体实施方式可以包括:确定所述待识别网站网址的网站类型为电商类或非电商类。
在这里,选择参与随机森林模型训练的特征类型通用性很强,并且都是电商类网站的强特征,非电商类网站的弱特征,例如,价格符号对应的特征值大于预设标准值时,则表示该特征为电商类网站的强特征,当价格符号的特征值小于预设标准值时,则表示该特征为电商类网站的弱特征。由此能够过滤网站与预设特征类型匹配度不高导致的结果不够精确的问题,即有利于提高识别电商网站类型的准确度。
具体地,本发明一个实施例中,步骤103的具体实施方式,可以包括:
从所述至少三个样本网址中提取至少两个训练网址;
A1:循环执行至少两次A2至A5,构建至少两棵决策树;
A2:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;
A3:从所述至少两个特征类型中确定至少一个目标特征类型;
A4:针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;
A5:根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
根据构建出的各个所述决策树,构建所述随机森林模型。
例如,通过爬虫软件采集门户网站、网络媒体和导航网站等一系列网站提供的电商类网站和非电商类网站的网址作为样本网址,在这里以采集的样本网址为100个为例。从采集的100个样本网址中提取75个作为训练网址。然后每次从75个训练网址中抽取30个目标训练网址形成新的目标训练集。在每个决策树的构建过程中,首先制定目标特征类型的数量,该数量不大于特征类型的总数量。当特征类型包括价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量这九种时,每次指定的目标特征类型的数量k≤9。在此,以从这9个特征类型中选取价格符号、原价字符和已售字符这三个目标特征类型为例,对构建决策树的过程进行说明。
构建决策树时,确定选取出的30个目标训练网址中对应于每一个目标特征类型的目标特征值,例如,对于目标特征类型价格符号数来说,30个目标训练网址中有10个训练网址A1-A10的目标特征值为8,即A1-A10的价格符号数为8,5个训练网址A11-A15的目标特征值为5,15个训练网址A16-A30的目标特征值为13。然后可根据确定出的各个目标特征值,构建这30个目标训练网址对应的决策树。
其中,根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树的具体过程,可以通过以下步骤实现:
确定各个所述目标特征类型的排列顺序;
将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:
确定所述当前特征类型对应的标准特征值;
将包括每一个所述目标训练网址的集合作为根节点;
将所述根节点作为当前节点,循环执行B1至B3,直至各个所述目标特征类型均被选择:
B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;
B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;
B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
将所述根节点以及所述根节点对应的子节点组合成所述决策树。
例如,选取的三个目标特征类型的排列顺序为价格符号-原价字符-已售字符,则首先将价格符号作为当前特征类型,并确定价格符号对应的标准特征值为10。然后,将包含30个目标训练网址的集合作为根节点M,将目标特征值大于价格符号数对应的标准特征值的目标训练网址作为根节点的第一子节点,即A16-A30组成的集合为根节点的第一子节点M1,相应的,A1-A15组成的集合为根节点的第二子节点M2。然后,将原价字符作为当前特征类型,根据上述步骤继续分别确定M1和M2的下一级子节点,例如,A16-A21组成的集合为M1的下一级第一子节点M11,A22-A30组成的集合为M1的下一级第二子节点M12,A1-A10组成的集合为M2的下一级第一子节点M21,A10-A15组成的集合为M2的下一级第二子节点M22。之后再将已售字符作为当前特征类型,分别确定M11、M12、M21和M22的下一级子节点M111、M112、M121、M122、M211、M212、M221和M222。将根节点和各级子节点进行组合即形成这30个目标训练网址对应的决策树T,形成的决策树T可如图2所示。
值得一提的是,决策树的生成过程完全自由,不会因为某些分枝节点随机到的样本网址数量过少而放弃,以保证构建出的随机森林不容易陷入过拟合,从而具有很好的抗噪能力,例如对缺省值不会太敏感。
另外,将选取出的这30个目标训练网址放回训练网址集合中,再重新从75个训练网址中随机选取30个目标训练网址,利用重新选取的目标训练网址构建另一棵决策树。这样做使得每棵决策树对应的目标训练网址不尽相同,从而降低各棵决策树之间的相似程度。
为了保证随机森林模型的准确度,所述根据构建出的各个所述决策树,构建所述随机森林模型,包括:
将各个所述决策树组合成随机森林分类器;
将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;
利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;
根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;
当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型。
在对各个样本网页的样本源代码进行解析之后,根据每个样本源代码解析出的特征值,为相应的样本网址构建维向量。例如,特征类型为价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量这9种时,每一个特征类型对应的特征值对应一维向量,再用一维向量标识每个样本网址是否为电商类网址,则每一个样本网址可以用一个10维向量标识。例如,样本网址N对应的10维向量为[1,18,28,0,0,17,36,25,25,3]。其中第一位1表征该样本网址N为电商类网址,若第一位为0,则表征样本网址为非电商类网址,其余位数分别表示样本源代码中的价格符号数为18、原价字符数为28、已售字符数为0、价格类标签数为0、价格ID标签数为17、产品类标签数为36、产品ID标签数为25、价格等级为25和品类数量为3。
在构建出各棵决策树之后,将各个决策树组合成随机森林分类器,然后利用验证网址对随机森林分类器的准确性进行验证。例如,将100个样本网址中未被提取为训练网址的25个样本网址作为验证网址。验证时将每一个验证网址输入随机森林分类器,则随机森林分类器中的每一棵决策树单独工作,对该验证网址进行分类,例如,验证网址1对应于决策树T的子节点M111,而M111表征电商类网址,则决策树T将验证网址1分类为电商类网址。以此类推,随机森林分类器中的每一棵决策树都分别对验证网址1进行分类,最终根据各棵决策树的投票,确定该验证网址1的网站类型。例如,随机森林分类器中有15棵决策树,其中10棵将验证网址1分类为电商类网址,5棵将验证网址1分类为非电商类网址,则随机森林分类器确定验证网址1的当前网站类型为电商类网址。若验证网址1的10维向量中第一位为1,则说明验证网址1的标准网站类型也为电商类网址,即随机森林分类器对验证网址1的预测结果是准确的。
由此类推,随机森林分类器可根据上述过程确定25个验证网址中每一个验证网址的当前网站类型,再根据每一个验证网址的标准网站类型,确定随机森林分类器的精确度。例如,随机森林分类器对20个验证网址的预测结果是准确的,对5个验证网址的预测结果是错误的,则随机森林分类器的精确度为80%,若预设精确度阈值为60%,则说明该随机森林分类器满足精确度要求,可将其作为随机森林模型对待识别网站网址进行识别。在实际应用过程中,发现电商网站的识别成功率较高,多批次测试达90%以上。
若验证出随机森林分类器的精确度不符合精确度要求,则可返回调整构建决策树的条件,例如调整目标训练网址的数量和目标特征类型的排列顺序等条件,以保证随机森林分类器的精确度。
本发明一个实施例中,步骤105的具体实施方式,可以包括:确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;
根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;
根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型。
在确定待识别网站网址的网站类型时,与利用随机森林分类器确定验证网址的网站类型的过程相同,即每一棵决策树单独工作,确定待识别网站网址的待测网站类型,而待识别网站网址是否为电商类网址的最终分类结果由每棵决策树的投票决定,由此有利于提高待识别网站网址的网站类型的识别准确性。
本发明一个实施例中,在步骤105之后,可以进一步包括:
确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,执行A1。
在利用随机森林模型确定出待识别网站网址的网址类型后,可利用该待识别网站网址的标准网站类型对识别结果进行验证,以确定识别结果是否准备。例如,随机森林模型识别出待识别网站网址的网站类型为非电商类,而实际验证出该待识别网站网址的标准网站类型为电商类,则说明识别结果不准确。此时将该待识别网站网址放入训练网址集中,以根据该待识别网站网址对应的特征值,重新构建决策树,以对随机森林模型进行更新。由此,在识别每一批次的数据后,可调整异常数据对随机森林模型的影响,并进行重新训练,提升随机森林模型的识别能力。
如图3、图4所示,本发明实施例提供了一种网站识别***。***实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的网站识别***所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中***所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的***,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种网站识别***,包括:样本采集模块401、特征解析模块402、模型构建模块403和识别模块404;其中,
所述样本采集模块401,用于采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
所述特征解析模块402,用于根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
所述模型构建模块403,用于根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
所述识别模块404,用于获取待识别网站网址,并利用所述随机森林模型确定所述待识别网站网址的网站类型。
本发明一个实施例中,所述模型构建模块包括:训练网址提取单元、决策树构建单元和森林模型构建单元;其中,
所述训练网址提取单元,用于从所述至少三个样本网址中提取至少两个训练网址;
所述决策树构建单元,用于循环执行至少两次以下步骤,构建至少两棵决策树:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;从所述至少两个特征类型中确定至少一个目标特征类型;针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
所述森林模型构建单元,用于根据构建出的各个所述决策树,构建所述随机森林模型。
本发明一个实施例中,所述决策树构建单元包括:处理子单元、子节点确定子单元和决策树构建子单元;其中,
所述处理子单元,用于当确定出的所述目标特征类型的数量为至少两个时,确定各个所述目标特征类型的排列顺序;将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:确定所述当前特征类型对应的标准特征值;将包括每一个所述目标训练网址的集合作为根节点,并将所述根节点作为当前节点;
所述子节点确定子单元,用于循环执行B1至B3,直至各个所述目标特征类型均被选择;B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
所述决策树构建子单元,用于将所述根节点以及所述根节点对应的子节点组合成所述决策树;
本发明一个实施例中,所述森林模型构建单元,用于将各个所述决策树组合成随机森林分类器;将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型;
本发明一个实施例中,所述识别模块,用于确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型;
本发明一个实施例中,进一步包括:更新模块;其中,
所述更新模块,用于确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,并触发所述决策树构建单元。
本发明一个实施例中,该***可应用于电商网站类型的识别;
所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
所述识别模块,用于确定所述待识别网站网址的网站类型为电商类或非电商类。
上述***内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,通过对采集到的样本网页对应的样本源代码进行解析,从样本源代码中解析出预设特征类型的特征值。然后根据解析出的特征值构建各个样本网页对应的样本网址的随机森林模型。之后利用随机森林模型对待识别网站网址进行识别,确定待识别网站网址的类型。利用源代码中的特征为基础构建出的随机样本森林模型,对待识别网站网址进行识别,提高了识别网站类型的准确度。
2、在本发明实施例中,选择参与随机森林模型训练的特征类型通用性很强,并且都是电商类网站的强特征,非电商类网站的弱特征,由此能够过滤网站与预设特征类型匹配度不高导致的结果不够精确的问题,从而有利于提高识别电商网站类型的准确度。
3、在本发明实施例中,决策树的生成过程完全自由,不会因为某些分枝节点随机到的样本网址数量过少而放弃,以保证构建出的随机森林不容易陷入过拟合,从而具有很好的抗噪能力。
4、在本发明实施例中,在构建出各棵决策树之后,将各个决策树组合成随机森林分类器,然后利用验证网址对随机森林分类器的准确性进行验证,以保证随机森林分类器的精确度,从而有利于提高网站类型的识别准确度。
5、在本发明实施例中,在利用随机森林模型确定出待识别网站网址的网址类型后,利用该待识别网站网址的标准网站类型对识别结果进行验证,以调整异常数据对随机森林模型的影响,并进行重新训练,提升随机森林模型的识别能力。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.一种网站识别方法,其特征在于,包括:
采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
还包括:
获取待识别网站网址;
利用所述随机森林模型确定所述待识别网站网址的网站类型;
其中,所述根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型,包括:
从所述至少三个样本网址中提取至少两个训练网址;
A1:循环执行至少两次A2至A5,构建至少两棵决策树;
A2:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;
A3:从所述至少两个特征类型中确定至少一个目标特征类型;
A4:针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;
A5:根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
根据构建出的各个所述决策树,构建所述随机森林模型;
而且,当所述目标特征类型的数量为至少两个时,
所述A5,包括:
确定各个所述目标特征类型的排列顺序;
将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:
确定所述当前特征类型对应的标准特征值;
将包括每一个所述目标训练网址的集合作为根节点;
将所述根节点作为当前节点,循环执行B1至B3,直至各个所述目标特征类型均被选择;
B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;
B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;
B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
将所述根节点以及所述根节点对应的子节点组合成所述决策树。
2.根据权利要求1所述的方法,其特征在于,
所述根据构建出的各个所述决策树,构建所述随机森林模型,包括:
将各个所述决策树组合成随机森林分类器;
将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;
利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;
根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;
当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型;
和/或,
所述利用所述随机森林模型确定所述待识别网站网址的网站类型,包括:
确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;
根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;
根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型。
3.根据权利要求1所述的方法,其特征在于,
在所述利用所述随机森林模型确定所述待识别网站网址的网站类型之后,进一步包括:
确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,执行A1。
4.根据权利要求1至3任一所述的方法,其特征在于,
应用于电商网站类型的识别;
所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
所述利用所述随机森林模型确定所述待识别网站网址的网站类型,包括:
确定所述待识别网站网址的网站类型为电商类或非电商类。
5.一种网站识别***,其特征在于,包括:样本采集模块、特征解析模块、模型构建模块和识别模块;其中,
所述样本采集模块,用于采集至少三个样本网页分别对应的至少三个样本网址和至少三个样本源代码;
所述特征解析模块,用于根据预设的至少两个特征类型,从每一个所述样本源代码中解析出每一个所述特征类型对应的特征值;
所述模型构建模块,用于根据解析出的每一个所述样本源代码对应的各个所述特征值,构建所述至少三个样本网址对应的随机森林模型;
所述识别模块,用于获取待识别网站网址,并利用所述随机森林模型确定所述待识别网站网址的网站类型;
其中,所述模型构建模块包括:训练网址提取单元、决策树构建单元和森林模型构建单元;其中,
所述训练网址提取单元,用于从所述至少三个样本网址中提取至少两个训练网址;
所述决策树构建单元,用于循环执行至少两次以下步骤,构建至少两棵决策树:从所述至少两个训练网址中随机抽取出至少一个目标训练网址;从所述至少两个特征类型中确定至少一个目标特征类型;针对每一个所述目标特征类型,均执行:确定每一个所述目标训练网址对应的目标特征值;根据确定出的每一个所述目标训练网址对应的各个所述目标特征值,构建所述目标训练网址对应的所述决策树;
所述森林模型构建单元,用于根据构建出的各个所述决策树,构建所述随机森林模型;
而且,所述决策树构建单元包括:处理子单元、子节点确定子单元和决策树构建子单元;其中,
所述处理子单元,用于当确定出的所述目标特征类型的数量为至少两个时,确定各个所述目标特征类型的排列顺序;将所述排列顺序中排在第一位的目标特征类型作为当前特征类型,执行:确定所述当前特征类型对应的标准特征值;将包括每一个所述目标训练网址的集合作为根节点,并将所述根节点作为当前节点;
所述子节点确定子单元,用于循环执行B1至B3,直至各个所述目标特征类型均被选择;B1:根据各个所述目标训练网址对应于所述当前特征类型的目标特征值,将所述目标特征值大于所述标准特征值的目标训练网址作为所述当前节点的第一子节点,将所述目标特征值不大于所述标准特征值的目标训练网址作为所述当前节点的第二子节点;B2:将所述排列顺序中位于所述当前特征类型下一位的目标特征类型选择为当前特征类型;B3:依次将所述第一子节点和所述第二子节点作为所述当前节点,执行B1;
所述决策树构建子单元,用于将所述根节点以及所述根节点对应的子节点组合成所述决策树;
和/或,
所述森林模型构建单元,用于将各个所述决策树组合成随机森林分类器;将所述至少三个样本网址中未被提取为所述训练网址的样本网址作为验证网址;利用所述随机森林分类器确定各个所述验证网址分别对应的当前网站类型;根据每一个所述验证网址对应的当前网站类型以及预设的标准网站类型,确定所述随机森林分类器的精确度;当所述精确度大于预设阈值时,将所述随机森林分类器作为所述随机森林模型;
和/或,
所述识别模块,用于确定所述待识别网站网址对应于每一个所述特征类型的待识别特征值;根据所述待识别特征值,利用每一个所述决策树确定所述待识别网站网址的待测网站类型;根据确定出的各个所述待测网站类型,确定所述待识别网站网址的网站类型;
和/或,
进一步包括:更新模块;其中,
所述更新模块,用于确定所述网站类型是否与预设的所述待识别网站网址的标准网站类型相同,如果否,将所述待识别网站网址作为所述训练网址,并触发所述决策树构建单元。
6.根据权利要求5所述的***,其特征在于,
应用于电商网站类型的识别;
所述特征类型包括:价格符号、原价字符、已售字符、价格类标签、价格ID标签、产品类标签、产品ID标签、价格等级和品类数量中的任意两种或多种;
所述识别模块,用于确定所述待识别网站网址的网站类型为电商类或非电商类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810696532.1A CN108875060B (zh) | 2018-06-29 | 2018-06-29 | 一种网站识别方法及识别*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810696532.1A CN108875060B (zh) | 2018-06-29 | 2018-06-29 | 一种网站识别方法及识别*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875060A CN108875060A (zh) | 2018-11-23 |
CN108875060B true CN108875060B (zh) | 2021-02-26 |
Family
ID=64297093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810696532.1A Active CN108875060B (zh) | 2018-06-29 | 2018-06-29 | 一种网站识别方法及识别*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875060B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008347A (zh) * | 2019-11-25 | 2020-04-14 | 杭州安恒信息技术股份有限公司 | 一种网站识别方法、装置、***及计算机可读存储介质 |
CN111224892B (zh) * | 2019-12-26 | 2023-08-01 | 中国人民解放军国防科技大学 | 一种基于fpga随机森林模型的流量分类方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6546389B1 (en) * | 2000-01-19 | 2003-04-08 | International Business Machines Corporation | Method and system for building a decision-tree classifier from privacy-preserving data |
CN103049483A (zh) * | 2012-11-30 | 2013-04-17 | 北京奇虎科技有限公司 | 网页危险性的识别*** |
CN103294781A (zh) * | 2013-05-14 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理页面数据的方法与设备 |
CN107436890A (zh) * | 2016-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种网站类型的检测方法及装置 |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11503070B2 (en) * | 2016-11-02 | 2022-11-15 | Microsoft Technology Licensing, Llc | Techniques for classifying a web page based upon functions used to render the web page |
-
2018
- 2018-06-29 CN CN201810696532.1A patent/CN108875060B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6546389B1 (en) * | 2000-01-19 | 2003-04-08 | International Business Machines Corporation | Method and system for building a decision-tree classifier from privacy-preserving data |
CN103049483A (zh) * | 2012-11-30 | 2013-04-17 | 北京奇虎科技有限公司 | 网页危险性的识别*** |
CN103294781A (zh) * | 2013-05-14 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理页面数据的方法与设备 |
CN107436890A (zh) * | 2016-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种网站类型的检测方法及装置 |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、*** |
Non-Patent Citations (4)
Title |
---|
Multilayer classification of web pages using Random Forest and semi-supervised Latent Dirichlet Allocation;Karim Sayadi et al;《2015 15th International Conference on Innovations for Community Services (I4CS)》;20151012;第1-7页 * |
Random forest classifier for multi-category classification of web pages;Win Thanda Aung et al;《2009 IEEE Asia-Pacific Services Computing Conference (APSCC)》;20100122;第372-376页 * |
基于关键资源的网站分类研究;丛帅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110515;第2011年卷(第05期);第I139-240页 * |
基于关键资源的网站自动分类***;付德宇 等;《哈尔滨工业大学学报》;20060131;第38卷(第1期);第19-21,70页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108875060A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN110188194B (zh) | 一种基于多任务学习模型的假新闻检测方法及*** | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN110009430B (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
CN108229156A (zh) | Url攻击检测方法、装置以及电子设备 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及*** | |
US20060161531A1 (en) | Method and system for information extraction | |
CN111259219B (zh) | 恶意网页识别模型建立方法、识别方法及*** | |
CN106815198A (zh) | 模型训练方法及装置和语句业务类型的识别方法及装置 | |
CN102291392A (zh) | 一种基于Bagging算法的复合式入侵检测方法 | |
CN109684441A (zh) | 对职位和简历进行匹配的方法、***、设备和介质 | |
JP2007157058A (ja) | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム | |
CN108875060B (zh) | 一种网站识别方法及识别*** | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及*** | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN112395401A (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN111488452A (zh) | 一种网页篡改检测方法、检测***及相关设备 | |
CN114023380A (zh) | 有毒生物的鉴定方法、装置及服务器 | |
CN115964478A (zh) | 网络攻击检测方法、模型训练方法及装置、设备及介质 | |
CN110990353B (zh) | 日志提取方法、日志提取装置及存储介质 | |
Butcher | Contract Information Extraction Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 3406, 34 / F, building 2, No. 666, middle section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan 610041 Patentee after: Chengdu Yingchao Technology Co.,Ltd. Address before: No.12, 33F, building 2, No.88, Jitai fifth road, high tech Zone, Chengdu, Sichuan 610041 Patentee before: CHENGDU YINCHAO TECHNOLOGY Co.,Ltd. |