WO2016180270A1

WO2016180270A1 - 网页分类方法和装置、计算设备以及机器可读存储介质

Info

Publication number: WO2016180270A1
Application number: PCT/CN2016/081139
Authority: WO
Inventors: 梁捷; 郑海洪; 邹红才
Original assignee: 广州市动景计算机科技有限公司
Priority date: 2015-05-08
Filing date: 2016-05-05
Publication date: 2016-11-17
Also published as: CN106202124B; CN106202124A; US10997256B2; US20180218241A1

Abstract

一种网页分类方法和装置、计算设备以及机器可读存储介质，其通过词语转向量工具word2vec将语料库中的各个语料词转换为向量，从而将语料词之间的比较、相似度分析等处理过程，转换为向量的运算，更便于计算机自动化的实现，提高网页分类效率；同时，根据预设的分类种子词筛选对应的语料词，可以剔除与网页类型无关的语料词，提高网页分类的准确率。

Description

网页分类方法和装置、计算设备以及机器可读存储介质

技术领域

本申请涉及网页处理技术领域，尤其涉及一种网页分类方法和装置、计算设备以及机器可读存储介质。

背景技术

随着互联网的高速发展，来自网络的信息也越来越丰富。根据网页中所展示的信息进行网页分类，既可以在网络应用方面，便于用户快速便捷的找到偏好的信息，还可以在网络相关产品开发的需求分析阶段，根据用户浏览的网页的类型确定不同用户的偏好信息。

相关技术中，网页分类一般需要对海量网页进行解析，从网页的统一资源定位符(Uniform Resource Locator，URL)和标头(header)中提取特征数据作为训练数据，并通过该训练数据对基于分类算法(如)建立的分类模型进行训练，得到网页分类器，从而在对目标网页进行分类时，首先提取该目标网页的目标特征数据，然后根据上述网页分类器对目标特征数据进行分析，就可以得知该目标网页的类型。其中，常用的分类算法包括决策树分类法，朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(Support Vector Machine，SVM)的分类算法，神经网络法，k-最近邻法(k-nearest neighbor，kNN)，模糊分类法等。

可见，基于上述方法实现网页分类，特征数据中包含大量短句或词语，数据处理量大，特别是对于中文网页，其特征数据多为中文词语，处理复杂度更高，相应的网页分类效率较低。

发明内容

为克服相关技术中存在的问题，本申请提供一种网页分类方法和装置、计算设备以及非暂时性机器可读存储介质。

本申请实施例的第一方面，提供一种网页分类方法，包括：

通过词语转向量工具，例如word2vec，对语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件，其中所述语料库中的语料词与网页的标头中的标题和关键词相关联；

根据所述分类模型文件确定与预设的每个网页类别对应的每个分类种子词相对应的向量，计算同一网页类别对应的所有分类种子词的向量和；

在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件；

在所述评分模型文件中查找与目标网页的标头中的所述目标标题和目标关键词相对应的目标语料词；

根据所述评分模型文件确定与各个目标语料词相对应的目标相似度和目标网页类别；

根据所确定的的目标相似度，选择至少一个目标网页类别作为所述目标网页的分类结果。

结合第一方面，在第一方面第一个可行的实施例中，所述根据所述评分模型文件确定各个目标语料词对应的目标相似度，包括：

分别设置所述目标标题和目标关键词对应的权重系数；

对于所述目标标题对应的第一目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积，得到所述第一目标语料词对应的目标相似度；

对于所述目标关键词对应的第二目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积，得到所述第二目标语料词对应的目标相似度。

结合第一方面，或者第一方面第一个可行的实施例，在第一方面第二个可行的实施例中，所述网页分类方法还包括：

将同一域名下的各个网页分别作为所述目标网页，确定其分类结果；

响应于判定所述同一域名下的各个网页的分类结果及其对应的相似度满足预设阈值条件，将对应的域名作为垂直域名记录于垂直域名列表。

结合第一方面第二个可行的实施例，在第一方面第三个可行的实施例中，所述网页分类方法还包括：

在无法获取所述目标标题或目标关键词的情况下，则判断所述域名垂直列表中是否存在所述目标网页对应的目标域名；

响应于判定所述域名垂直列表中存在所述目标域名，根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。

结合第一方面第三个可行的实施例，在第一方面第四个可行的实施例中，所述网页分类方法还包括：

响应于判定所述域名垂直列表中不存在所述目标域名，根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。

本申请实施例的第二方面，提供一种网页装置，包括：

语料训练单元，用于通过词语转向量工具word2vec对语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件，其中所述语料库中的语料词与网页的标头中的标题和关键词相关联；

语料筛选单元，用于根据所述分类模型文件确定与预设的每个网页类别对应的每个分类种子词相对应的向量，计算同一网页类别对应的所有分类种子词的向量和，在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件；

目标网页处理单元，用于在所述评分模型文件中查找与目标网页的标头中的目标标题和目标关键词相对应的目标语料词，根据所述评分模型文件确定与各个目标语料词相对应的目标相似度和目标网页类别；以及

网页类别确定单元，用于根据所确定的目标相似度，选择至少一个目标网页类别作为所述目标网页的分类结果。

结合第二方面，在第二方面第一种可行的实施方式中，所述目标网页处理单元包括：

权重系数设置单元，用于分别设置所述目标标题和目标关键词对应的权重系数；

目标相似度计算单元，用于对于所述目标标题对应的第一目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积，得到所述第一目标语料词对应的目标相似度；对于所述目标关键词对应的第二目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积，得到所述第二目标语料词对应的目标相似度。

结合第二方面，或者第二方面第一种可行的实施方式，在第二方面第二种可行的实施方式中，所述网页分类装置还包括：

垂直域名判断单元，用于将同一域名下的各个网页分别作为所述目标网页，确定其分类结果，并响应于判定所述同一域名下的各个网页的分类结果及其对应的相似度满足预设阈值条件，将对应的域名作为垂直域名记录于垂直域名列表。

结合第二方面第二种可行的实施方式，在第二方面第三种可行的实施方式中，所述网页分类装置还包括：

目标域名处理单元，用于在无法获取所述目标标题或目标关键词的情况下，判断所述域名垂直列表中是否存在所述目标网页对应的目标域名，响应于判定所述域名垂直列表中存在所述目标域名，根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。

结合第二方面第三种可行的实施方式，在第二方面第四种可行的实施方式中，所述网页分类装置还包括：

URL处理单元，用于响应于判定在所述域名垂直列表中不存在所述目标域名，根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。

本申请实施例的第三方面，提供一种计算设备，包括：

存储器，该存储器中存储有与网页相关的信息；和

处理器，该处理器从所述存储器读取与网页相关的信息，并执行以下操作：

通过词语转向量工具word2vec对语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件，其中所述语料库中的语料词与网页的标头中的标题和关键词相关联；

在所述评分模型文件中查找与目标网页的标头中的目标标题和目标关键词相对应的目标语料词；

根据所述评分模型文件确定与各个目标语料词相对应的目标相似度和目标网页类别；以及

根据所确定的目标相似度，选择至少一个目标网页类别作为所述目标网页的分类结果。

本申请实施例的第四方面，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行根据本申请实施例的第一方面所述的方法。

本申请实施例的第五方面，还提供了一种计算设备，该计算设备包括处理器和非暂时性机器可读存储介质。该非暂时性机器可读存储介质上存储有可执行代码。当该可执行代码被该处理器执行时，使该处理器执行根据本申请实施例的第一方面所述的方法。

由以上技术方案可知，本申请实施例将语料库中的各个语料词转换为向量，从而将语料词之间的比较、相似度分析等处理过程，转换为向量的运算，更便于计算机自动化的实现，从而提高网页分类效率；同时，本申请实施例根据多个预设的分类种子词对应筛选语料词，可以剔除与网页类型无关的语料词，提高网页分类的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种网页分类方法的流程图。

图2是根据一示例性实施例示出的另一种网页分类方法的流程图。

图3是根据一示例性实施例示出的一种网页分类装置的功能框图。

图4是根据一示例性实施例示出的另一种网页分类装置的功能框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种网页分类方法的流程图，如图1所示，该方法包括以下步骤。

S11、获取各个网页的标头中的标题和关键词，并将获取到的标题和关键词作为语料词记录于语料库。即，语料库中的语料词与网页的标头中的标题和关键词相关联。

本申请实施例中，用于构建语料库的海量网页可以来源于用户的浏览记录。各个网页的标头(header)中一般均包含标题(title)和关键词(keyword)两个字段，故可以将这两个字段中的词汇作为语料词记录于语料库。需要指出的是，本申请实施例还可以应用于已有的与网页标头相关的语料库。例如，在定期进行网页分类的情况下，可以采用上一次网页分类时构建的语料库。

另外，由于标题一般为句子或短语形式，而不是单个词语，故需要通过分词工具对标题进行分词；关键词本身即为单个词语，不需对其执行分词操作。

S12、通过词语转向量工具word2vec对所述语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件。

上述word2vec为一种文本处理工具，其通过分析海量词语之间的相似度，为每个词语分配唯一的向量；应用于本申请实施例，即通过分析语料库中语料词之间的相似度，确定每个语料词对应的向量；为了便于表示词语之间复杂的相似关系，该向量为多维度向量，如：[0.792,-0.177,-0.107,0.109,-0.542,...]。其中，两个语料词之间的相似度越高，其对应的向量差越小(该向量差可以为两个向量之间夹角的余弦值)。本实施例中，分类模型文件具体可以采用BIN格式的二进制文件，如该分类模型文件可以命名为word.bin，其记录有各个语料词及其对应的向量。

S13、根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量，计算同一网页类别对应的所有分类种子词的向量和。

本申请实施例中，针对每种网页类别，如小说、体育、科技等，预先设定多个可能出现在网页中的相关词语，作为分类种子词；例如与小说相关的分类种子词可以包括：网络小说、小说、小说书库、经典小说、精品小说、小说在线、小说全集、小说集、系列小说、原创小说、txt全集、言情小说、爱情小说、玄幻小说、奇幻小说、科幻小说、武侠小说、仙侠小说、都市异能、同人耿美、同人小说、灵异小说、穿越小说、修真小说、悬疑小说、恐怖小说、侦探推理、侦探小说、推理小说、青春校园等。

针对每个分类种子词，首先确定其对应的向量，具体方法为：在分类模型文件中搜索与分类种子词最相似的语料词，从而将该语料词对应的向量记为该分类种子词对应的向量。进一步，由于word2vec转换得到的向量可以执行加法运算，故将同一网页类别对应的各个分类种子词对应的向量相加，得到的该网页类别对应的向量和。例如，将上述小说相关的各个分类种子词对应的向量相加，得到“小说”类别对应的向量和。

S14、在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件。

遍历上述分类模型文件，分别计算分类模型文件中记录的各个向量与上述向量和之间的相似度，筛选出相似度在预设范围内的向量，并将与其对应的语料词对应记录于评分模型文件中。

上述步骤S13和S14通过对向量的处理计算，将描述网页类型的语料词从分类模型文件中筛选出来，并统一记录于评分模型文件中。

在本申请一个可行的实施例中，向量之间的相似度具体可以表示为向量之间夹角的余弦值，即取值范围为0～1。

在本申请另一个可行的实施例中，还可以以百分制分值表示向量之间的相似度；即在上述余弦值的基础上乘以100，得到对应的分值。

另外，上述评分模型文件可以采用TXT格式的文本文件，例如可以命名为word.txt，其存储格式为“根据向量和查找到的语料词：该向量和对应的网页类别：相似度”，其中，该向量和对应的网页类别也即查找到的语料词对应的网页类别；例如，根据上述“小说”类别对应的向量和查找到语料词A和B，其相似度分别为95和80，则可以在评分模型文件中分别记录为“A：小说：95”、“B：小说：80”。

S15、获取目标网页的标头中的目标标题和目标关键词，在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词。

与步骤S11类似的，对于目标标题，需要执行分词操作，将其由短语或句子划分为多个词语。分词完成后，从评分模型文件中选择与目标标题分词后得到的各个词语以及各个目标关键词对应的语料词作为目标语料词。

S16、根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别。

S17、计算同一目标网页类别对应的目标相似度之和，选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。

例如，根据评分模型文件查找到的目标语料词包括A、B和C，且A和B对应的目标网页类别均为“小说”，目标相似度分别为90和85，C对应的目标网页类别为“体育”，目标相似度为80，故将A和B对应的目标相似度相加，即“小说”对应的目标相似度之和为175；由于175>80，故优先选择“小说”作为目标网页的分类结果。

由以上技术方案可知，本申请实施例将语料库中的各个语料词转换为向量，从而将语料词之间的比较、相似度分析等处理过程，转换为向量的运算，更便于计算机自动化的实现，从而提高网页分类效率；同时，本申请实施例根据预设的分类种子词筛选对应的语料词，可以剔除与网页类型无关的语料词，提高网页分类的准确率。

本实施例中，可以仅选择目标相似度最大的一个目标语料词对应的网页类别作为目标网页的分类结果；也可以按目标相似度由大到小的规则对目标语料词排序，选择前N个目标语料词对应的网页类别作为目标网页的分类结果；还可以选择目标相似度大于预设阈值的所有目标语料词对应的网页类别均作为目标网页的分类结果。其中，N和预设阈值均可根据实际应用需求设定，如N＝10，预设阈值为80(以分值表示相似度)或者0.8(以余弦值表示相似度)。需要指出的是，本领域技术人员在以上示例的教习下，完全可以构想出其他根据目标相似度确定目标网页类别的实施方式。综上所述，可以根据所确定的目标相似度，选择至少一个目标网页类别作为目标网页的分类结果。

在本申请一个可行的实施例中，上述步骤S16中，可以直接将评分模型文件中记录的目标语料词对应的相似度作为目标相似度；在本申请另一个可行的实施例中，还可以通过如下方法确定目标相似度：

分别设置所述目标标题和目标关键词对应的权重系数；

对于所述目标标题对应的第一目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述第一权重系数的乘积，得到所述第一目标语料词对应的目标相似度；

对于所述目标关键词对应的第二目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述第二权重系数的乘积，得到所述第二目标语料词对应的目标相似度。

由于一般情况下标题比关键字更能准确体现网页的类型，故所述目标标题对应的第一权重系数大于所述目标关键词对应的第二权重系数。例如，可以设置第一权重系数为1，第二权重系数为0.8，则第一目标语料词对应的目标相似度为其基准相似度与1的乘积，第二目标语料词对应的目标相似度为其基准相似度与0.8的乘积。

上述实施例中，通过设置权重系数，提高目标标题对应的目标语料词被确定为目标网页的分类结果的概率，提高网页分类的准确性。

参照图2，本申请另一个实施方式提供的网页分类方法可以包括如下步骤：

S201、获取各个网页的标头中的标题和关键词，并将获取到的标题和关键词作为语料词记录于语料库。

S202、通过词语转向量工具word2vec对所述语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件。

S203、根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量，计算同一网页类别对应的所有分类种子词的向量和。

S204、在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件。

S205、针对同一域名下的各个网页，分别确定其分类结果。

参照图1所示实施例，确定同一域名下的各个网页的分类结果，具体步骤如下：针对每个网页，分别在评分模型文件中查找其标题和关键词对应的目标语料词，并确定查找到的目标语料词对应的目标相似度和目标网页类别，计算同一目标网页类别对应的目标相似度之和，选择目标相似度之和最大的至少一个目标网页类别作为对应网页的分类结果。

S206、判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件，如果满足，则将对应的域名作为垂直域名记录于垂直域名列表。

由于一个域名下存在多个网页，一个网页的分类结果中存在多个网页类别，故一个域名也对应多个网页类别；判断某个域名是否为垂直域名的预设阈值条件至少包括如下三项：

1)该域名下的每个网页，作为其分类结果的网页类别对应的多个语料词的相似度之和在该网页对应的所有语料词的相似度之和中的占比高于第一比值。

例如，某个网页的分类结果中包括“小说”和“体育”两种网页类别，其中“小说”对应的语料词包括A和B，以分值表示的相似度分别为90和85，“体育”对应的语料词为C，对应的相似度为80，则“小说”对应的相似度占比计算式为(90+85)/(90+85+80)。

2)存在至少一个公共网页类别，该域名下分类结果中存在该公共网页类别的网页个数大于预设数值；

每个网页的分类结果中可以包括多种网页类别(即每个网页可以对应多种网页类别)，不同网页的分类结果也可以存在同一网页类别(即不同网页对应的网页类别可以部分或全部相同)，如果该域名下分类结果中存在网页类别D的网页个数大于预设数值，则D可以称为这些网页的公共网页类别。

3)存在至少一个公共网页类别，该域名下分类结果中存在该公共网页类别的网页个数与该域名下所有网页个数之间的比值大于第二比值。

上述第一比值、预设数值和第二比值都可以根据实际应用情况设定，本申请不作具体限定。如果某个域名对应的汇总结果同时满足上述三个条件，则可以判定该域名为垂直域名，即该域名对应的所有网页的类型相同。

另外，在判定某个域名为垂直域名时，本实施例还可以将满足上述条件2)和3)的公共网页类别作为该域名对应的网页类别(即该域名下的各个网页的类别均为公共网页类别)，并对应记录其相似度。在一个可行的实施例中，可以在存储判断出的垂直域名的同时，存储其网页类别及对应的相似度，如可以将垂直域名对应的网页类别和相似度也记录于上述垂直域名列表中，以便于后续步骤查询使用(如下文步骤S210)。

S207、获取目标网页的标头中的目标标题和目标关键词，如果获取成功，则执行步骤S208，否则执行步骤S209。

S208、在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词，根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别，并执行步骤S212。

S209、在所述目标标题或目标关键词缺失的情况下，判断所述域名垂直列表中是否存在所述目标网页对应的目标域名，如果存在，则执行步骤S210，否则执行步骤S211。

S210、根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度，并执行步骤S212。

根据垂直域名规则，垂直域名对应的所有网页的网页类别相同，可以直接将目标域名对应的网页类别及相似度相应作为目标网页的目标网页类别和目标相似度。

在本申请一个可行的实施例中，可以在步骤S206的判断过程得到的公共网页类别及对应的相似度记录为相应垂直域名的网页类别和相似度，从而在步骤S210中直接在记录结果中读取目标域名。

在本申请另一个可行的实施例中，还可以直接设置各个垂直域名对应的网页类别及其相似度，例如，可以设置域名“sports.sina.com.cn”对应的网页类别为“体育”，相似度为90。

S211、根据所述目标网页对应的URL确定所述目标网页对应的目标网页类别和目标相似度，并执行步骤S212。

本申请实施例中，可以针对常见域名及常见特性的URL预设并存储相应的网页类别和相似度；例如，可以预设满足如下特性“xxx.com/sport”的URL对应的网页类别为“体育”，相似度为80。

S212、计算同一目标网页类别对应的目标相似度之和，选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。

上述步骤中，S209至S211作为目标网页的标头数据缺失(包括缺少标题、关键词等)时的补充步骤，即由于标头数据缺失，无法通过步骤S208确定目标网页的目标网页类别和目标相似度，通过执行步骤S209至S211可以根据目标网页对应的目标域名或URL特性确定其目标网页类别及目标相似度，从而保证分类结果的准确性。其中，虽然对于任意目标网页，均可根据其URL特性确定其目标网页类别及目标相似度，但由于上述垂直域名规则为强规则，URL特性为弱规则，即在两种方法都可行的前提下，前者准确度更高，故在目标域名为垂直域名的情况下，优先根据该目标域名确定目标网页的目标网页类别及目标相似度，在目标域名不是垂直域名的情况下(目标域名不符合垂直域名规则，不能根据目标域名确定目标网页类别及目标相似度)，才根据目标网页的URL特性确定其目标网页类别及目标相似度。

由上述技术方案可知，本申请实施例预先根据评分模型文件分析涉及到的域名是否为垂直域名，从而在目标网页的标头数据缺失(包括缺少标题、关键词等)时，根据目标网页的目标域名或URL确定其目标网页类别和目标相似度，保证分类成功且分类准确，其中，如果目标域名为垂直域名，则优先根据目标域名确定目标网页类型和目标相似度，如果目标域名不是垂直域名，则根据目标网页的URL特性确定目标网页类型和目标相似度。可见，本申请实施例提供的基于域名和URL的补充步骤，可以避免因标头缺失导致对目标网页分类精度不够甚至分类失败的问题，且简单易实现，不会影响网页分类效率。

图3是根据一示例性实施例示出的一种网页分类装置的功能框图。网页分类装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图3中所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

参照图3，该装置包括：语料提取单元100、语料训练单元200、语料筛选单元300、目标网页处理单元400和网页类别确定单元500。

该语料提取单元100被配置为，用于获取各个网页的标头中的标题和关键词，并将获取到的标题和关键词作为语料词记录于语料库。如前所述，在本申请另选实施例中，可以利用已有语料库进行网页分类处理，由此省略语料提取单元100。

该语料训练单元200被配置为，通过词语转向量工具word2vec对所述语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件。

该语料筛选单元300被配置为，根据所述分类模型文件确定预设的每个网页类别对应的每个分类种子词对应的向量，计算同一网页类别对应的所有分类种子词的向量和，在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件。

该目标网页处理单元400被配置为，获取目标网页的标头中的目标标题和目标关键词，在所述评分模型文件中查找所述目标标题和目标关键词对应的目标语料词，根据所述评分模型文件确定各个目标语料词对应的目标相似度和目标网页类别。

该网页类别确定单元500被配置为，计算同一目标网页类别对应的目标相似度之和，选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。如前所述，本领域技术人员还可以将网页类别确定单元配置为根据所确定的目标相似度，选择至少一个目标网页类别作为目标网页的分类结果。例如，将网页类别确定单元配置为仅选择目标相似度最大的一个目标语料词对应的网页类别作为目标网页的分类结果；也可以按目标相似度由大到小的规则对目标语料词排序，选择前N个目标语料词对应的网页类别作为目标网页的分类结果；还可以选择目标相似度大于预设阈值的所有目标语料词对应的网页类别均作为目标网页的分类结果。

在本申请一个可行的实施例中，为确定各个目标语料词对应的目标相似度，上述目标网页处理单元400可以包括：权重系数设置单元和目标相似度计算单元。

其中，该权重系数设置单元被配置为，分别设置所述目标标题和目标关键词对应的权重系数；

该目标相似度计算单元被配置为，对于所述目标标题对应的第一目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积，得到所述第一目标语料词对应的目标相似度；对于所述目标关键词对应的第二目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积，得到所述第二目标语料词对应的目标相似度。

参见图4，本申请其他可行的实施例提供的网页分类装置还可以包括垂直域名判断单元600。

该垂直域名判断单元600被配置为，将同一域名下的各个网页分别作为所述目标网页，确定其分类结果，并判断所述同一域名下的各个网页的分类结果及其对应的相似度是否满足预设阈值条件，如果满足，则将对应的域名作为垂直域名记录于垂直域名列表。

另外，基于垂直域名判断单元600，本实施例提供的网页分类装置还可以包括目标域名处理单元700。

该目标域名处理单元700被配置为，在所述目标标题或目标关键词获取失败时，判断所述域名垂直列表中是否存在所述目标网页对应的目标域名，如果所述域名垂直列表中存在所述目标域名，则根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。

进一步的，本实施例提供的网页分类装置还可以包括URL处理单元800；该URL处理单元800被配置为，在目标域名处理单元700判断所述域名垂直列表中不存在所述目标域名时，根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

另外，本申请实施例还提供了一种非暂时性计算机存储介质，例如可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等；该计算机存储介质中存储有程序，当所述存储介质中的程序由相关设备的处理器执行时，使得该设备能够执行上述方法实施例中记载的网页分类方法的部分或全部步骤。

此外，本申请实施例还提供了一种计算设备，该计算设备包括存储器和处理器。该存储器中存储有与网页相关的信息，该处理器从该存储器读取与网页相关的信息，并执行上述方法实施例中记载的网页分类方法的部分或全部步骤。该计算设备例如可以是个人计算机、服务器、诸如手机的移动终端，或者网络设备。

本发明的上述技术构思还可以被实施为一种计算设备，该计算设备包括处理器和非暂时性机器可读存储介质。该非暂时性机器可读存储介质上存储有可执行代码。当该可执行代码被该处理器执行时，使该处理器执行上述方法实施例中记载的网页分类方法的部分或全部步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种网页分类方法，包括：

通过词语转向量工具对语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件，其中所述语料库中的语料词与网页的标头中的标题和关键词相关联；

根据所述分类模型文件确定与预设的每个网页类别对应的每个分类种子词相对应的向量，计算同一网页类别对应的所有分类种子词的向量和；

在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件；

在所述评分模型文件中查找与目标网页的标头中的目标标题和目标关键词相对应的目标语料词；

根据所述评分模型文件确定与各个目标语料词相对应的目标相似度和目标网页类别；以及

根据所确定的目标相似度，选择至少一个目标网页类别作为所述目标网页的分类结果。
根据权利要求1所述的网页分类方法，其中，所述根据所确定的目标相似度选择至少一个目标网页类别作为所述目标网页的分类结果，包括：

计算同一目标网页类别对应的目标相似度之和，选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果。
根据权利要求1所述的网页分类方法，其中，所述根据所述评分模型文件确定各个目标语料词对应的目标相似度，包括：

分别设置所述目标标题和目标关键词对应的权重系数；

对于所述目标标题对应的第一目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积，得到所述第一目标语料词对应的目标相似度；

对于所述目标关键词对应的第二目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积，得到所述第二目标语料词对应的目标相似度。
根据权利要求1至3中任一项所述的网页分类方法，还包括：

将同一域名下的各个网页分别作为所述目标网页，确定其分类结果；

响应于判定所述同一域名下的各个网页的分类结果及其对应的相似度满足预设阈值条件，将对应的域名作为垂直域名记录于垂直域名列表。
根据权利要求4所述的网页分类方法，还包括：

在无法获取所述目标标题或目标关键词的情况下，判断所述域名垂直列表中是否存在所述目标网页对应的目标域名；

响应于判定所述域名垂直列表中存在所述目标域名，根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
根据权利要求5所述的网页分类方法，还包括：

响应于判定所述域名垂直列表中不存在所述目标域名，根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
一种网页分类装置，包括：

语料训练单元，用于通过词语转向量工具对语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件，其中所述语料库中的语料词与网页的标头中的标题和关键词相关联；

语料筛选单元，用于根据所述分类模型文件确定与预设的每个网页类别对应的每个分类种子词相对应的向量，计算同一网页类别对应的所有分类种子词的向量和，在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件；

目标网页处理单元，用于在所述评分模型文件中查找与目标网页的标头中的目标标题和目标关键词相对应的目标语料词，根据所述评分模型文件确定与各个目标语料词相对应的目标相似度和目标网页类别；以及

网页类别确定单元，用于根据所确定的目标相似度，选择至少一个目标网页类别作为所述目标网页的分类结果。
根据权利要求7所述的网页分类装置，其中，所述网页类别确定单元包括以下单元：

用于计算同一目标网页类别对应的目标相似度之和，并选择目标相似度之和最大的至少一个目标网页类别作为所述目标网页的分类结果的单元。
根据权利要求8所述的网页分类装置，其中，所述目标网页处理单元包括：

权重系数设置单元，用于分别设置所述目标标题和目标关键词对应的权重系数；

目标相似度计算单元，用于对于所述目标标题对应的第一目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标标题对应的第一权重系数的乘积，得到所述第一目标语料词对应的目标相似度；对于所述目标关键词对应的第二目标语料词，计算其在所述评分模型文件中对应的基准相似度与所述目标关键词对应的第二权重系数的乘积，得到所述第二目标语料词对应的目标相似度。
根据权利要求7至9中任一项所述的网页分类装置，还包括：

垂直域名判断单元，用于将同一域名下的各个网页分别作为所述目标网页，确定其分类结果，并响应于判定所述同一域名下的各个网页的分类结果及其对应的相似度满足预设阈值条件，将对应的域名作为垂直域名记录于垂直域名列表。
根据权利要求10所述的网页分类装置，还包括：

目标域名处理单元，用于在无法获取所述目标标题或目标关键词的情况下，判断所述域名垂直列表中是否存在所述目标网页对应的目标域名，响应于判定所述域名垂直列表中存在所述目标域名，根据所述目标域名确定所述目标网页对应的目标网页类别和目标相似度。
根据权利要求11所述的网页分类装置，还包括：

URL处理单元，用于响应于判定所述域名垂直列表中不存在所述目标域名，根据所述目标网页对应的统一资源定位符URL确定所述目标网页对应的目标网页类别和目标相似度。
一种计算设备，包括：

存储器，该存储器中存储有与网页相关的信息；和

处理器，该处理器从所述存储器读取与网页相关的信息，并执行以下操作：

通过词语转向量工具对语料库进行训练，得到所述语料库中的各个语料词对应的向量，并将各个语料词及对应的向量记录于分类模型文件，其中所述语料库中的语料词与网页的标头中的标题和关键词相关联；

根据所述分类模型文件确定与预设的每个网页类别对应的每个分类种子词相对应的向量，计算同一网页类别对应的所有分类种子词的向量和；

在所述分类模型文件中查找与所述向量和的相似度在预设范围内的向量对应的语料词，并将查找到的语料词、对应的相似度，以及所述向量和对应的网页类别记录于评分模型文件；

在所述评分模型文件中查找与目标网页的标头中的目标标题和目标关键词相对应的目标语料词；

根据所述评分模型文件确定与各个目标语料词相对应的目标相似度和目标网页类别；以及

根据所确定的目标相似度，选择至少一个目标网页类别作为所述目标网页的分类结果。
一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行根据权利要求1至6中任一项所述的网页分类方法。