发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页分类的方法和网页分类的装置。
依据本发明的一个方面,提供了一种网页分类的方法,其中,包括:
从待预测网页中解析多个网页元素;
根据各个网页元素分别预测所述待预测网页所属的候选网页分类;
通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类。
可选地,在所述从待预测网页中解析多个网页元素之前,所述方法还包括:
针对各个网页元素,分别创建基于所述网页元素预测所述网页分类的预测模型;
所述根据各个网页元素分别预测所述待预测网页所属的候选网页分类包括:
根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类。
可选地,所述针对各个网页元素,分别创建基于所述网页元素预测所述网页分类的预测模型包括:
基于搜索日志挖掘多个网页分类以及属于所述网页分类的查询词;
针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型。
可选地,所述基于搜索日志挖掘多个网页分类以及属于所述网页分类的查询词包括:
统计所述搜索日志中各个查询词的查询频度;
提取查询频度高于预设阀值或是预设比例的查询词作为网页分类;
提取与所述网页分类触发同一网页的查询词添加至所述网页分类。
可选地,当所述网页元素包括根域名时,所述预测模型包括根据所述根域名预测所述网页分类的第一预测模型,所述针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包括:
提取所述搜索日志对应访问的历史网页的根域名;
根据所述搜索日志访问的多个历史网页以及触发所述历史网页的查询词,统计各个根域名对应的查询词;
根据所述查询词所属的网页分类,计算所述根域名属于各个网页分类的第一概率值,并根据所述第一概率值创建包括所述根域名属于各个网页分类的判断条件的第一预测模型;
所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类包括:
提取所述目标网页的根域名输入所述第一预测模型;
所述第一预测模型判断所述根域名属于所述某个网页分类的第一概率值大于第一目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型,所述针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包括:
根据所述网页分类以及属于所述网页分类的查询词,生成根据所述查询词检索所述网页分类的第一倒排索引,创建包括所述第一倒排索引的第二预测模型;
所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类包括:
提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
所述第二预测模型按照所述第一倒排索引查找所述查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型时,所述针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包括:
依据所述网页分类下的查询词,对各个网页分类添加预先搜集的查询词,生成根据添加的查询词检索所述网页分类的第二倒排索引,创建包括所述第二倒排索引的第二预测模型;
所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类包括:
提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
所述第二预测模型按照所述第二倒排索引查找提取的查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题的分词预测所述网页分类的第三预测模型,所述针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包括:
对所述查询词进行分词,统计各个分词所属的网页分类;
计算各个分词属于各个网页分类的第二概率值,并根据所述第二概率值创建包括所述分词属于各个网页分类的判断条件的第三预测模型;
所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类包括:
对所述目标网页的网页标题进行分词并输入所述第三预测模型;
针对各个分词,所述第三预测模型判断所述分词属于所述某个网页分类的第二概率值大于第二目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
可选地,所述通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类包括:
提取与所述待预测网页的文本相似度符合预设条件的候选网页分类作为所述待预测网页所属的最终网页分类。
可选地,在所述提取与所述目标网页的文本相似度符合预设条件的候选网页分类作为所述目标网页所属的最终网页分类之前,所述方法还包括:
对所述网页分类下的各个查询词进行分词,并按照所述分词的词频以及逆向文件频率提取部分分词构建所述网页分类的词向量。
可选地,所述提取与所述目标网页的文本相似度符合预设条件的候选网页分类作为所述目标网页所属的最终网页分类包括:
对所述目标网页的网页标题和正文进行分词,并构建所述目标网页的词向量;
计算所述候选网页分类的词向量与所述目标网页的词向量的余弦相似度,提取所述余弦相似度符合预设范围的候选网页分类作为所述目标网页所属的最终网页分类。
可选地,在所述根据各个网页元素分别预测所述待预测网页所属的候选网页分类之前,所述方法还包括:
对所述网页元素进行归一化处理。
根据本发明的另一个方面,提供了一种网页分类的装置,其中,包括:
元素解析模块,用于从待预测网页中解析多个网页元素;
候选预测模块,用于根据各个网页元素分别预测所述待预测网页所属的候选网页分类;
分类确定模块,用于通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类。
可选地,所述装置还包括:
模型创建模块,用于在所述从待预测网页中解析多个网页元素之前,针对各个网页元素,分别创建基于所述网页元素预测所述网页分类的预测模型;
所述候选预测模块,具体用于根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类。
可选地,所述模型创建模块包括:
查询词挖掘子模块,用于基于搜索日志挖掘多个网页分类以及属于所述网页分类的查询词;
模型生成子模块,用于针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型。
可选地,所述查询词挖掘子模块包括:
频度统计子单元,用于统计所述搜索日志中各个查询词的查询频度;
分类提取子单元,用于提取查询频度高于预设阀值或是预设比例的查询词作为网页分类;
分类添加子单元,用于提取与所述网页分类触发同一网页的查询词添加至所述网页分类。
可选地,当所述网页元素包括根域名时,所述预测模型包括根据所述根域名预测所述网页分类的第一预测模型,所述模型生成子模块包括:
根域名提取子单元,用于提取所述搜索日志对应访问的历史网页的根域名;
查询词统计子单元,用于根据所述搜索日志访问的多个历史网页以及触发所述历史网页的查询词,统计各个根域名对应的查询词;
第一概率值计算子单元,用于根据所述查询词所属的网页分类,计算所述根域名属于各个网页分类的第一概率值;
第一预测模型创建子单元,用于根据所述第一概率值创建包括所述根域名属于各个网页分类的判断条件的第一预测模型;
所述候选预测模块包括:
第一输入子模块,用于提取所述目标网页的根域名输入所述第一预测模型;
第一预测子模块,用于所述第一预测模型判断所述根域名属于所述某个网页分类的第一概率值大于第一目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型,所述模型生成子模块包括:
第二预测模型创建子单元,用于根据所述网页分类以及属于所述网页分类的查询词,生成根据所述查询词检索所述网页分类的第一倒排索引,创建包括所述第一倒排索引的第二预测模型;
所述候选预测模块包括:
第二输入子模块,用于提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
第二预测子模块,用于所述第二预测模型按照所述第一倒排索引查找所述查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型时,所述模型生成子模块包括:
第三模型创建子模块,用于依据所述网页分类下的查询词,对各个网页分类添加预先搜集的查询词,生成根据添加的查询词检索所述网页分类的第二倒排索引,创建包括所述第二倒排索引的第二预测模型;
所述候选预测模块包括:
第三输入子模块,用于提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
第三预测子模块,用于所述第二预测模型按照所述第二倒排索引查找提取的查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题的分词预测所述网页分类的第三预测模型,所述模型生成子模块包括:
分类统计子单元,用于对所述查询词进行分词,统计各个分词所属的网页分类;
第三模块性创建子单元,计算各个分词属于各个网页分类的第二概率值,并根据所述第二概率值创建包括所述分词属于各个网页分类的判断条件的第三预测模型;
所述候选预测模块包括:
第四输入子模块,用于对所述目标网页的网页标题进行分词并输入所述第三预测模型;
第四预测子模块,用于针对各个分词,所述第三预测模型判断所述分词属于所述某个网页分类的第二概率值大于第二目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
可选地,所述分类确定模块,具体用于提取与所述待预测网页的文本相似度符合预设条件的候选网页分类作为所述待预测网页所属的最终网页分类。
可选地,所述装置还包括:
网页分类词向量构建模块,用于在所述提取与所述目标网页的文本相似度符合预设条件的候选网页分类作为所述目标网页所属的最终网页分类之前,对所述网页分类下的各个查询词进行分词,并按照所述分词的词频以及逆向文件频率提取部分分词构建所述网页分类的词向量。
可选地,所述分类确定模块包括:
网页词向量构建子模块,用于对所述目标网页的网页标题和正文进行分词,并构建所述目标网页的词向量;
相似度计算子模块,用于计算所述候选网页分类的词向量与所述目标网页的词向量的余弦相似度;
最终分类提取子模块,用于提取所述余弦相似度符合预设范围的候选网页分类作为所述目标网页所属的最终网页分类。
可选地,所述装置还包括:
归一化处理模块,用于在所述根据各个网页元素分别预测所述待预测网页所属的候选网页分类之前,对所述网页元素进行归一化处理。
依据本发明实施例,提取待预测网页的多种网页元素,并以此为依据从多维度预测该网页的网页分类,进一步通过比较各种网页元素对应预测的网页分类,确定所述待预测网页的最终网页分类,实现了完全自动化的分类过程,不需要人工参与,极大地提高了网页分类的效率,尤其是针对全网海量的网页和互联网上新产生的网页,能够实现快速有效地分类,保证网页分类的时效性。
进一步,本发明的网页分类可以通过挖掘历史搜索日志生成,一方面对历史搜索数据进行了更充分的利用,另一方面可以克服人工定义网页分类扩展性较差的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了本发明实施例1中的一种网页分类的方法的步骤流程图。
步骤101,从待预测网页中解析多个网页元素。
本发明实施例基于网页元素进行网页分类的预测,网页元素可以为待预测网页的一部分,例如可以包括网页的根域名、网页标题、网页正文和网页URL之中的任意多个;网页元素也可以是待预测网页的某种属性,例如,网页支持的网络传输协议、网页大小、网页连接加密方式和网页创建时间等。在具体实现中可以采用任意适用的种类,本发明对此并不做限制。
步骤102,根据各个网页元素分别预测所述待预测网页所属的候选网页分类。
从待预测网页中解析得到了多个网页元素,针对每个网页元素,分别根据该网页元素预测待预测网页所属的网页分类,作为候选网页分类。
基于各个网页元素进行网页分类的预测,可以预先通过对大量样本网页的分析建立网页元素与网页分类的映射关系,进一步根据网页元素可以查找该网页对应的网页分类;也可以预先通过对大量样本网页的分析建立根据网页元素预测网页分类的预测模型,进一步将网页元素输入对应的预测模型,预测模型输出的结果即为该网页对应的网页分类;还可以采用任意适用的方式根据网页元素预测网页分类,本发明对此并不做限制。
步骤103,通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类。
通过对各个网页元素预测得到的候选网页分类进行比对,从中选取更准确描述待预测网页的最终网页分类。具体可以根据各个候选网页分类与待预测网页的文本相似度进行筛选,待预测的网页文本相似度排序靠前或是超过一定阈值的候选网页分类可作为最终网页分类;或是,对预设的各个网页元素与待预测网页的表征权重进行比较,将与待预测网页的表征权重靠前的候选网页分类作为最终网页分类;还可以统计各个候选网页分类被作为最终网页分类的次数,将次数排序靠前的候选网页分类作为最终网页分类;还可以采用任意适用的方式从候选网页分类中确定最终网页分类,最终网页分类的个数可以是一个或多个,本发明对此均不做限制。
依据本发明实施例,提取待预测网页的多种网页元素,并以此为依据从多维度预测该网页的网页分类,进一步通过比较各种网页元素对应预测的网页分类,确定所述待预测网页的最终网页分类,实现了完全自动化的分类过程,不需要人工参与,极大地提高了网页分类的效率,尤其是针对全网海量的网页和互联网上新产生的网页,能够实现快速有效地分类,保证网页分类的时效性。
参照图2,示出了本发明实施例2中的一种网页分类的方法的步骤流程图。
步骤201,针对各个网页元素,分别创建基于所述网页元素预测所述网页分类的预测模型。
相比于上个实施例,本实施例具体采用预测模型来预测网页分类。因此,在解析待预测网页的网页元素之前,针对各个网页元素创建基于该网页元素预测所述网页分类的预测模型。通过预先收集大量的网页及其对应的网页分类,解析该网页的网页元素,进一步建立基于网页元素预测网页分类的预测模型,预测模型可以是任意适用的类型,例如可以是贝叶斯模型、KNN(k-NearestNeighbor,K最近邻)模型等。
步骤202,从待预测网页中解析多个网页元素。
步骤203,对所述网页元素进行归一化处理。
相比于上个实施例,本实施例在提取网页元素之后,还进一步对网页元素进行归一化处理,例如去除特殊字符,进行大小写转换,格式转换等,处理后的网页元素便于进一步的分析处理。
步骤204,根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类。
步骤205,提取与所述待预测网页的文本相似度符合预设条件的候选网页分类作为所述待预测网页所属的最终网页分类。
本实施例中,具体以文本相似度为依据从候选网页分类中筛选最终网页分类,计算各个候选网页分类与待预测网页的文本相似度,按照文本相似度是否符合筛选条件来选取最终网页分类,例如,选取按照大小排序后选择排序靠前的候选网页分类,或是选取文本相似度符合预设范围的候选网页分类,或是选取文本相似度符合多个不同的预设区间的候选网页分类。具体的选取方式可以根据实际应用和需求设置。
依据本发明实施例,提取待预测网页的多种网页元素,并以此为依据从多维度预测该网页的网页分类,进一步通过比较各种网页元素对应预测的网页分类,确定所述待预测网页的最终网页分类,实现了完全自动化的分类过程,不需要人工参与,极大地提高了网页分类的效率,尤其是针对全网海量的网页和互联网上新产生的网页,能够实现快速有效地分类,保证网页分类的时效性。
本发明实施例中,优选地,所述步骤201可以包括:
子步骤S1,基于搜索日志挖掘多个网页分类以及属于所述网页分类的查询词;
子步骤S2,针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型。
本发明实施例的网页分类可以通过挖掘历史搜索日志生成,一方面对历史搜索数据进行了更充分的利用,另一方面可以克服人工定义网页分类扩展性较差的问题。
搜索日志记录终端与服务器之间的历史搜索行为,可以包括输入查询关键词、基于查询关键词反馈搜索结果、对搜索结果的点击、翻页或重新输入搜索结果等各种搜索行为,可以由终端记录,也可以由服务器端记录。
具体可以通过解析搜索日志获取用户输入的查询词,统计查询词并按照预置的规则提取符合要求的查询词作为网页分类,将与符合要求的查询词关联的其他查询词作为属于该网页分类的查询词。针对可以作为网页分类的查询词,由于搜索日志中记录了根据查询词触发展示或访问的目标网页,因此,可以将对应的查询词作为该目标网页的网页分类,进一步对目标网页进行解析,根据解析得到的网页元素与网页分类的对应关系,创建根据网页元素预测网页分类的预测模块。
进一步优选地,所述子步骤S1可以包括:
子步骤S11,统计所述搜索日志中各个查询词的查询频度;
子步骤S12,提取查询频度高于预设阀值或是预设比例的查询词作为网页分类;
子步骤S13,提取与所述网页分类触发同一网页的查询词添加至所述网页分类。
本发明实施例中,将查询频度较高的热门查询词作为网页分类,从搜索日志中提取对应的查询词,根据各个查询词被查询的次数统计对应的查询频度,提取查询频度高于预设阀值或预设比例的词作为网页分类,在确定网页分类之前,可以对多个相似的查询词进行合并,例如,北京大学和北大可以合并为一个查询词。
针对各网页分类进一步设置触发该类网页被查询的查询词,本发明实施例中,由于作为网页分类的查询词在搜索日志中触发网页作为查询结果,因此,可以将与网页分类触发同一网页的查询词添加到该网页分类中,作为触发该网页分类下的网页被触发为查询结果的查询词。
本发明实施例中,优选地,网页元素可以包括网页的根域名或网页标题,相应的,从待预测网页中解析多个网页元素的步骤为,解析所述待预测网页,提取所述待预测网页的根域名和/或网页标题。
本发明实施例中,优选地,当所述网页元素包括根域名时,所述预测模型包括根据所述根域名预测所述网页分类的第一预测模型,所述子步骤S2可以包括:
子步骤S21,提取所述搜索日志对应访问的历史网页的根域名;
子步骤S22,根据所述搜索日志访问的多个历史网页以及触发所述历史网页的查询词,统计各个根域名对应的查询词;
子步骤S23,根据所述查询词所属的网页分类,计算所述根域名属于各个网页分类的第一概率值,并根据所述第一概率值创建包括所述根域名属于各个网页分类的判断条件的第一预测模型。
针对搜索日志对应访问的历史网页,从各个历史网页URL中提取网页根域名(host),不同历史网页可能对应同一个根域名,因此,一个根域名对应一个或多个历史网页。进一步,针对各个历史网页,统计所述搜索日志中记录的触发该历史网页作为查询结果的查询词,由此可以得到各个根域名对应的一个或多个查询词。例如,对应触发根域名sports.sina.com.cn的查询词包括“中超”、“孙可”、“NBA”等。
各个查询词有对应归属的网页分类,针对各个根域名对应的查询词所属网页分类,统计该根域名属于各个网页分类的概率值,记为第一概率值,如上例,查询词“中超”和“孙可”对应的网页分类为“足球”、查询词“NBA”对应的网页分类为“篮球”,则根域名sports.sina.com.cn对应的两个查询词所属网页分类为“足球”,一个查询词所属网页分类为“篮球”,则该根域名属于网页分类“足球”的概率可以为2/3,属于网页分类“篮球”的概率可以为1/3。此处计算概率值的方法仅为举例,具体实现中可以采用其他任意适用的方法。
进一步,根据各个根域名对应某种网页分类的第一概率值,可以创建基于根域名预测网页分类的预测模型。相应的,所述步骤204可以包括:
子步骤S3,提取所述目标网页的根域名输入所述第一预测模型;
子步骤S4,所述第一预测模型判断所述根域名属于所述某个网页分类的第一概率值大于第一目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
目标网页的根域名输入第一预测模型,第一预测模型查找该根域名属于各个网页分类的第一概率值,当确定某个第一概率值大于预设的第一目标概率值时,可以将该第一概率值对应的网页分类作为输出结果,即为预测的候选网页分类,输出的候选网页分类可以包括一个或多个。
本发明实施例中,优选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型,所述子步骤S2可以包括:
子步骤S24,根据所述网页分类以及属于所述网页分类的查询词,生成根据所述查询词检索所述网页分类的第一倒排索引,创建包括所述第一倒排索引的第二预测模型。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。通过前述步骤获得了网页分类以及数与各网页分类的查询词,若需要根据查询词查找对应的网页分类,则需要逐个去各个网页分类下查找该查询词,若查找到,则将该网页分类作为该查询词对应的网页分类,步骤繁琐且耗时长,本发明实施例针对各个查询词,查找与之对应的网页分类,并建立查询词与一个或多个网页分类的对应关系,在根据查询词查找对应网页分类时,可以根据查询词直接提取对应的至少一个网页分类,节约了查询时间。
根据查询词与网页分类的第一倒排索引可以创建根据查询词预测网页分类的第二预测模型。此处训练的第二预测模型优选为KNN模型,其基本原理在于,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象,该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN模型虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN模型主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,KNN模型尤其适合类域的交叉或重叠较多的待分样本集。在具体实现中第二预测模型还可以是任意适用的其他模型。
相应的,所述步骤204可以包括:
子步骤S5,提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
子步骤S6,所述第二预测模型按照所述第一倒排索引查找所述查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
第二预测模型是根据查询词进行预测,而目标网页的网页标题可能由多个词构成,因此可以按照查询词对网页标题进行分词,将分词得到的至少一个查询词输入第二预测模型,第二预测模型根据查询词与网页分类的对应关系,查找并输入根据网页标题预测的候选网页分类。
本发明实施例中,优选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型时,所述子步骤S2包括:
子步骤S25,依据所述网页分类下的查询词,对各个网页分类添加预先搜集的查询词,生成根据添加的查询词检索所述网页分类的第二倒排索引,创建包括所述第二倒排索引的第二预测模型。
与子步骤S24不同的是,此处根据预先搜集的查询词建立倒排索引,此处创建的第二预测模型也可以为KNN模型。
相应的,所述步骤204包括:
子步骤S7,提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
子步骤S8,所述第二预测模型按照所述第二倒排索引查找提取的查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
按照预先搜集的查询词从目标网页的网页标题中提取查询词,并将提取的查询词输入第二预测模型,第二预测模型根据第二倒排索引查找对应的候选网页分类。
本发明实施例中,优选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题的分词预测所述网页分类的第三预测模型,所述子步骤S2包括:
子步骤S26,对所述查询词进行分词,统计各个分词所属的网页分类;
子步骤S27,计算各个分词属于各个网页分类的第二概率值,并根据所述第二概率值创建包括所述分词属于各个网页分类的判断条件的第三预测模型。
根据查询词的分词以及查询词对应的网页分类,可以统计各个分词所属的一个或多个网页分类,根据分词与网页分类的对应关系,可以计算各个分词属于各个网页分类的第二概率值,例如,分词“中超”对应的网页分类包括“体育”和“足球”,则该分词属于各个网页分类的概率值分别为1/2,此处计算概率值的方法仅为举例,具体实现中可以采用其他任意适用的方法。
根据分词属于各个网页分类的第二概率值可以创建分词预测网页分类的第三预测模型。此处创建的第三预测模型可以为朴素贝叶斯模型,相比于其他类模型,朴素贝叶斯模型在创建时基于一个简单的假定,即给定目标值时属性之间相互条件独立,通过将连续的特征分布离散化,然后在朴素贝叶斯假设下,简单计算离散值的概率,然后把复杂的分布特征转化为简单的朴素贝叶斯模型。
相应的,所述步骤204包括:
子步骤S9,对所述目标网页的网页标题进行分词并输入所述第三预测模型;
子步骤S10,针对各个分词,所述第三预测模型判断所述分词属于所述某个网页分类的第二概率值大于第二目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
此处依据网页标题预测网页分类时,首先需要对网页标题进行分词,将分词输入第三预测模型,第三预测模型判断该分词属于各个网页分类的第二概率值,当确定某个第二概率值大于预设的第二目标概率值时,可以将该第二概率值对应的网页分类作为输出结果,即为预测的候选网页分类,输出的候选网页分类可以包括一个或多个。
本实施例根据候选网页分类与目标网页的文本相似度确定最终网页分类,优选地,在所述步骤205之前,所述方法还包括:
对所述网页分类下的各个查询词进行分词,并按照所述分词的词频以及逆向文件频率提取部分分词构建所述网页分类的词向量。
词频(Term Frequency,TF)以及逆向文件频率(Inverse Document Frequency,IDF)用以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
针对各网页分类,对其查询词进行分词,不同的查询词可能会存在相同的分词,例如,查询词CBA直播对应的分词为CBA和直播,查询词CBA爱奇艺对应的分词为CBA和爱奇艺,共同的分词为CBA。本实施例中分词的词频指的是某一个给定的词语在该文件中出现的频率,可以通过统计在其所属网页分类中出现的次数得到,出现的次数越多,则对应的词频越高。分词的逆向文件频率可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,若某个分词仅仅出现在一个网页类别中,其逆向文件频率则高,若某个分词仅仅出现在多个网页类别中,其逆向文件频率则较低。
按照词频以及逆向文件频率筛选部分分词用于构建词向量,例如,可以设定某个数值范围,筛选词频以及逆向文件频率的乘积符合该数值范围的分词,还可以通过其他任意可实现的筛选方式根据词频以及逆向文件频率筛选分词。
针对各个网页类别,根据查询词的分词以及各个分词的词频以及逆向文件频率可以构建该网页类别的词向量。
相应的,所述步骤205可以包括:
子步骤S11,对所述目标网页的网页标题和正文进行分词,并构建所述目标网页的词向量;
子步骤S12,计算所述候选网页分类的词向量与所述目标网页的词向量的余弦相似度,提取所述余弦相似度符合预设范围的候选网页分类作为所述目标网页所属的最终网页分类。
本发明实施例中,将与目标网页的文本相似度较高的候选网页分类作为更准确描述该目标网页的网页分类。候选网页分类与目标网页的文本相似度通过各个候选网页分类的词向量和目标网页的词向量的相似度来表征。
在构建各个候选网页分类的词向量和目标网页的词向量后,计算词向量之间的相似度,余弦相似性是一种可以用来比较文档的相似性的度量,在具体实现中,还可以采用其他适用的计算方法,例如,计算候选网页分类与目标网页的相关熵、平均互信息等来计算两者之间的相似度。
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。
为使本领域技术人员更好地理解本发明,以下通过具体的示例对本发明实施例的一种网页分类方案进行说明。
如图3所示,给出了本发明实施例的一个示例中网页分类方法的流程图。
第一,网页类别的挖掘。基于搜索的热门查询词(query),多相似的query进行合并之后,将这些热门query作为网页需要分到的网页分类。利用搜索的点击日志,为每一个网页分类聚集一批相似的query,作为后续模型训练的基础数据。
第二,训练基于根域名(host)的预测模型。基于搜索的点击日志以及第一步挖掘出的基础数据,统计出每个host可能属于的分类,及其相应的概率。
第三,训练KNN的预测模型。在第一步获得的基础数据中,将所有类别下聚出的相似query视为一个个的文档,建立query到类别的第一倒排索引,以便于通过网页的title找到其包含的query,进而找到该query所属的类别。
第四,训练朴素贝叶斯模型。在第一步获得的基础数据中,对每个类别下聚出的query进行分词,在词级别统计出模型需要的所有概率值。
第五,为每个类别标注常见查询词。参考每个类别下的query数据,为每个类别标注预先搜集的一批查询词,作为网页分类时重要的语料数据,并建立query到类别的第一倒排索引。
第六,为每个类别生成一个词向量。在第一步获得的基础数据中,对每个类别下聚出的query进行分词,通过技术类别下每个词的TF-IDF,为每个类别生成一个词向量。
第七,对网页进行分类。
首先对输入的网页内容进行归一化处理,比如去除特殊字符,大小写转换等。
其次,从网页的URL中提取网页的host,基于host的预测模型,预测该网页可能属于的类别及概率,如果属于某个类的概率大于指定阈值,则将网页分到该类。
然后,提取网页中的title,用模糊匹配的方式,找出title中包含的所有query,基于训练好的基于query的KNN模型,预测出网页最有可能属于的类别。
接着,对title进行分词,基于训练好的朴素贝叶斯模型,预测网页可能属于的分类。
此外,基于前期人工为每个类别标注的query建立的包含第二倒排索引的模型,对网页的分类进行预测,即如果title中包含某个关键词,即认为该网页有可能属于该关键词所属的分类。
最后,为了提升前述各个模型的分类准确率,需要计算每个可能的分类与当前网页的文本相似性,对网页的titile和正文分词之后,与类别的词向量计算余玄相似度,只有相似度大于一定阈值的分类才作为最终网页分类。
需要说明的是,上述根据各个模型预测的先后顺序可以根据实际需求任意设定,本发明对此并不做限制。
下面以网页http://www.taiwan.cn/ty/list/201411/t20141107_7939115.htm为例,详细介绍本发明实施例的网页分类过程。
第一步,在类别挖掘阶段,基于搜索点击数据,会挖掘出“中超”这个类别,并会计算出一批与其相似的query,如下:
类别 |
Query |
中超 |
马卡巴,中超乐视,中超足协杯,中超射手,孙可,任航,舜天 |
第二步,基于第一步的数据训练分类模型。
第三步,对待分类网页进行关键信息抽取及归一化,如下:
第四步,将上述结构化数据输入分类模块进行分类,如下:
Step |
算法或步骤 |
分类 |
1 |
基于host的预测模型 |
无 |
2 |
基于query的KNN模型 |
中超 |
3 |
基于贝叶斯模型 |
无 |
4 |
基于标注query |
无 |
第五步,对上述算法给出的可能分类进行校验。通过计算网页词向量与“中超”类别的词向量的余玄相似度,可得相似度为0.7,大于预定的阈值0.3,故认为将该网页分到“中超”类别是可靠的。
参照图4,示出了本发明实施例1中的一种网页分类的装置的结构框图。
元素解析模块301,用于从待预测网页中解析多个网页元素;
候选预测模块302,用于根据各个网页元素分别预测所述待预测网页所属的候选网页分类;
分类确定模块303,用于通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类。
依据本发明实施例,提取待预测网页的多种网页元素,并以此为依据从多维度预测该网页的网页分类,进一步通过比较各种网页元素对应预测的网页分类,确定所述待预测网页的最终网页分类,实现了完全自动化的分类过程,不需要人工参与,极大地提高了网页分类的效率,尤其是针对全网海量的网页和互联网上新产生的网页,能够实现快速有效地分类,保证网页分类的时效性。
参照图5,示出了本发明实施例2中的一种网页分类的装置的结构框图。
模型创建模块401,用于针对各个网页元素,分别创建基于所述网页元素预测所述网页分类的预测模型。
元素解析模块402,用于从待预测网页中解析多个网页元素;
归一化处理模块403,用于对所述网页元素进行归一化处理。
候选预测模块404,用于根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分类。
网页分类词向量构建模块405,用于对所述网页分类下的各个查询词进行分词,并按照所述分词的词频以及逆向文件频率提取部分分词构建所述网页分类的词向量。
分类确定模块406,用于提取与所述待预测网页的文本相似度符合预设条件的候选网页分类作为所述待预测网页所属的最终网页分类。
所述分类确定模块406包括:
网页词向量构建子模块4061,用于对所述目标网页的网页标题和正文进行分词,并构建所述目标网页的词向量;
相似度计算子模块4062,用于计算所述候选网页分类的词向量与所述目标网页的词向量的余弦相似度;
最终分类提取子模块4063,用于提取所述余弦相似度符合预设范围的候选网页分类作为所述目标网页所属的最终网页分类。
本发明实施例中,优选地,所述模型创建模块包括:
查询词挖掘子模块,用于基于搜索日志挖掘多个网页分类以及属于所述网页分类的查询词;
模型生成子模块,用于针对各个网页元素,分别根据所述搜索日志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型。
本发明实施例中,优选地,所述查询词挖掘子模块包括:
频度统计子单元,用于统计所述搜索日志中各个查询词的查询频度;
分类提取子单元,用于提取查询频度高于预设阀值或是预设比例的查询词作为网页分类;
分类添加子单元,用于提取与所述网页分类触发同一网页的查询词添加至所述网页分类。
本发明实施例中,优选地,当所述网页元素包括根域名时,所述预测模型包括根据所述根域名预测所述网页分类的第一预测模型,所述模型生成子模块包括:
根域名提取子单元,用于提取所述搜索日志对应访问的历史网页的根域名;
查询词统计子单元,用于根据所述搜索日志访问的多个历史网页以及触发所述历史网页的查询词,统计各个根域名对应的查询词;
第一概率值计算子单元,用于根据所述查询词所属的网页分类,计算所述根域名属于各个网页分类的第一概率值;
第一预测模型创建子单元,用于根据所述第一概率值创建包括所述根域名属于各个网页分类的判断条件的第一预测模型;
所述候选预测模块包括:
第一输入子模块,用于提取所述目标网页的根域名输入所述第一预测模型;
第一预测子模块,用于所述第一预测模型判断所述根域名属于所述某个网页分类的第一概率值大于第一目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
本发明实施例中,优选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型,所述模型生成子模块包括:
第二预测模型创建子单元,用于根据所述网页分类以及属于所述网页分类的查询词,生成根据所述查询词检索所述网页分类的第一倒排索引,创建包括所述第一倒排索引的第二预测模型;
所述候选预测模块包括:
第二输入子模块,用于提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
第二预测子模块,用于所述第二预测模型按照所述第一倒排索引查找所述查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
本发明实施例中,优选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题预测所述网页分类的第二预测模型时,所述模型生成子模块包括:
第三模型创建子模块,用于依据所述网页分类下的查询词,对各个网页分类添加预先搜集的查询词,生成根据添加的查询词检索所述网页分类的第二倒排索引,创建包括所述第二倒排索引的第二预测模型;
所述候选预测模块包括:
第三输入子模块,用于提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型;
第三预测子模块,用于所述第二预测模型按照所述第二倒排索引查找提取的查询词对应的网页分类,并将查找的网页分类作为所述目标网页所属的候选网页分类。
本发明实施例中,优选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题的分词预测所述网页分类的第三预测模型,所述模型生成子模块包括:
分类统计子单元,用于对所述查询词进行分词,统计各个分词所属的网页分类;
第三模块性创建子单元,计算各个分词属于各个网页分类的第二概率值,并根据所述第二概率值创建包括所述分词属于各个网页分类的判断条件的第三预测模型;
所述候选预测模块包括:
第四输入子模块,用于对所述目标网页的网页标题进行分词并输入所述第三预测模型;
第四预测子模块,用于针对各个分词,所述第三预测模型判断所述分词属于所述某个网页分类的第二概率值大于第二目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。
依据本发明实施例,提取待预测网页的多种网页元素,并以此为依据从多维度预测该网页的网页分类,进一步通过比较各种网页元素对应预测的网页分类,确定所述待预测网页的最终网页分类,实现了完全自动化的分类过程,不需要人工参与,极大地提高了网页分类的效率,尤其是针对全网海量的网页和互联网上新产生的网页,能够实现快速有效地分类,保证网页分类的时效性。
进一步,本发明的网页分类可以通过挖掘历史搜索日志生成,一方面对历史搜索数据进行了更充分的利用,另一方面可以克服人工定义网页分类扩展性较差的问题。
对于上述网页分类的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的基于移动终端的电话举报方案不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页分类的方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。