一种基于分类器实现的导购类网页的信息分类方法
技术领域
本发明属于信息分类方式,具体讲涉及一种基于分类器实现的导购类网页的信息分类方法。
背景技术
随着社会的日益发展,不论是物质上还是精神上人们的生活内容都变得越来越丰富,相较而言,每天可利用的时间就显得非常短暂,而互联网的高速发展,也使得越来越多的消费者更愿意在网上直接进行商品挑选,而不是浪费时间在漫长的户外旅途中,更因此,许多传统企业也不得已开始转向电子商务方向,一时间,网络购物成为一个新的流行词汇,充斥着各大网站、论坛,而随之而来的,就是各大电商的比价比量比实惠。
但是由于电商数量太多、商品型号/种类繁杂、网购产品的质量又参差不齐,导致消费者可能会由于可选范围太大反而浪费了大量时间,于是就出现了各种导购网站、比价网站、甚至是导购攻略,旨在帮助消费者快速筛选、或者快速了解一款产品,从而节省大量选购时间。
要想做好一个导购网站,导购类网页是必不可少的,但是网络上的导购类文章数量很多,如何在短暂的时间内满足用户的需求就成了一个问题。
通过对导购类网页进行信息分类来实现筛选是可行方案之一,而传统的人工进行手动分类的方法,消耗的人力、时间都很多,机器化分类的需求就不得不提上日程。由于绝大多数的导购类网页都有一个最主要的表达意图,通过阅读是可以直接对该网页进行分类的,而且不会因为网站的不同存在标签、格式能方面的差异。
发明内容
针对现有技术的不足,本发明提供一种基于分类器实现的导购类网页的信息分类方法,通过高效简单的方法,代替人工分类,通过程序实现针对导购类网页的信息自动分类。
本发明的目的是采用下述技术方案实现的:
一种基于分类器实现的导购类网页的信息分类方法,其改进之处在于,所述方法包括:
(1)处理导购类网页数据,生成权重向量词表;
(2)训练导购类网页,得到该词表在每个分类下的权重向量;
(3)通过权重向量进行计算,实现导购类网页的自动分类。
优选的,所述步骤(1)包括
(1.1)采集两批导购类网页并提取出标题部分;
(1.2)对一批采集结果中提取出的标题进行切词;
(1.3)通过信息增益计算生成词表统计个数后并排序;
(1.4)对另一批采集结果中提取出的标题进行切词;
(1.5)通过生成词表中进行查找判断后生成切词向量。
优选的,所述步骤(2)包括将权重向量随机初始化并进行训练从而得到新的权重向量。
优选的,所述步骤(2)包括训练次数超过指定最大值或者错误率小于指定阈值的时候则停止训练,此时将得到每个表示词在每个分类中的权重,将此训练结果向量保留。
优选的,所述步骤(2)包括将所有表示价格信息的词统一替换成<PRICE>进行处理。
优选的,所述步骤(3)包括
(3.1)采集的导购类网页中包含分类信息,直接使用该分类,否则使用程序自动分类;
(3.2)提取出标题部分并进行切词,将切词去步骤(1)中进行查找,得到标题的切词向量;
(3.3)提取出正文部分并进行切词,将切词去步骤(1)中进行查找,得到标题的切词向量;
(3.4)将标题与正文两个切词向量相加,得到一个总的切词向量;
(3.5)将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于阈值,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
优选的,所述步骤(3)包括分别提取标题部分、正文部分进行切词,赋予不同的权重进行计算。
与现有技术比,本发明的有益效果为:
(1)从数据源上进行过滤,只针对导购类型的网页进行训练及分类,得到的权重词更为可信。
(2)在人工分类的基础上进行数据训练,得到的权重值更为准确。
(3)正式流程中,极大的减少了人工参与,甚至可以直接使用自动分类结果而不需要人工审核。
(4)分类的正确率可以达到80%以上。
附图说明
图1为本发明提供的一种基于分类器实现的导购类网页的信息分类方法示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
1.导购类网页训练:
(1)采集两批导购类网页,提取出标题部分,通过人工分类或者采集的时候采用定向采集即指定分类采集的方法,来进行标准信息分类。
(2)对第一批采集结果中提取出的标题进行切词,统计出每个词在所有分类下出现过的文章数,分别算出来条件概率、互信息、卡方、信息增益,并按结果排序。经过四种算法的结果情况来看,信息增益的效果最好,所以本发明采用信息增益的排序结果进行后面的训练。取信息增益结果的前N个词作为后面需要用到的权重向量表示词即可。
针对每一个分类的四种指标:
dAB:该词在所有分类中出现的总次数
dA:该词在该分类的出现次数
dB:dAB-dA
dC:该分类下的文章数-dA
dD:文章总数-该分类下的文章数-dB
dCD:文章总数–dA–dB
dIG1Tmp:该分类下的文章数/文章总数;
dIG2Tmp:dA/dAB;
dIG3Tmp:dC/dCD;
dIG1:所有分类的(dIG1Tmp*log(dIG1Tmp))求和
dIG2:所有分类的(dIG2Tmp*log(dIG2Tmp))求和
dIG3:所有分类的(dIG3Tmp*log(dIG3Tmp))求和
条件概率:dA/dAB
互信息:(dA*文章总数)/(dAB*该分类下的文章数)
卡方:(pow(dA*dD–dB*dC,2)/(dAB*dCD))
信息增益:dIG1+(dAB/文章总数)*dIG2+(dCD/文章总数)*dIG3
(3)对第二批采集结果中提取出的标题进行切词,在上一步骤中产生的权重向量表示词中进行查找,如果存在则标记为1,不存在则标记为0,从而生成切词向量。
(4)将所有权重向量随机初始化,并进行训练:将切词向量和每个分类下对应的此次权重向量分别进行点乘并相加,如果总数大于“大阈值”,但人工标记的分类不是该分类,则fConstB=0.9,如果总数小于等于“大阈值”,但是人工标记的分类是该分类,则fConstB=1.1,令权重向量=权重向量*fConstB,从而得到新的权重向量。
(5)当训练次数超过指定最大值或者错误率小于指定阈值的时候则停止训练,此时将得到每个表示词在每个分类中的权重,将此训练结果向量保留,供后面使用。
(6)由于导购类网页中,价格信息一般是很有用的,多数会在打折促销、行情等分类中,而价格的表现形式又是多样化的,所以在上面的处理过程中,还需要将所有表示价格信息的词统一替换成<PRICE>进行处理。
2.导购类网页分类:
(1)如果采集到的导购类网页中已经包含了分类信息,则直接使用该分类,否则的话再使用程序自动分类。
(2)从需要自动分类的导购类网页数据提取出标题部分并进行切词,同样将所有表示价格信息的词统一替换成<PRICE>。将切词出来的每个词去训练流程得到的词表中进行查找,得到一个标题的切词向量。
(3)提取出正文部分并进行切词,与标题的处理流程相同,不过权重比标题的低,将两个切词向量相加,得到一个总的切词向量。
(4)将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于“小阈值”,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
实施例
针对3C数码这一类的导购数据,设置子分类包括:
“资讯、新品、评测、导购、行情、知识、使用体验”,整个过程包括:
(1)首先通过信息增益计算过程,得到一批可用来进行计算的权重词;
(2)然后对这批权重词和训练数据进行训练,得到权重词在每个分类下的权重值,即每个分类都得到一个权重向量;
(3)最后在正式流程中,对权重向量进行点乘,得到最终分类。
假设已经完成第(1)步,得到了一批权重词(见后面的表格第一列),在第(2)步中进行设置:
大阈值为:2
小阈值为:0.8
训练停止条件为:
(1)训练次数超过100次;
(2)连续4次发生此种情况:两次训练结果中,自动分类错误次数的差值/文章总数<0.001;
将所有权重向量随机初始化,并进行训练:将切词向量和每个分类下对应的此次权重向量分别进行点乘并相加,如果总数大于“大阈值”,但人工标记的分类不是该分类,则fConstB=0.9,如果总数小于等于“大阈值”,但是人工标记的分类是该分类,则fConstB=1.1,令权重向量=权重向量*fConstB,从而得到新的权重向量。
训练结束之后,得到每个权重词在各个分类中的权重值,比如:
|
资讯 |
新品 |
评测 |
导购 |
行情 |
知识 |
使用体验 |
行情 |
0.000338 |
0.000118 |
0.012158 |
0.055509 |
0.083996 |
0.038742 |
0.028243 |
资讯 |
0.100000 |
0.100000 |
0.121000 |
0.100000 |
0.072900 |
0.100000 |
0.100000 |
评测 |
0.000000 |
0.000000 |
0.207446 |
0.000000 |
0.000000 |
0.000016 |
0.000000 |
导购 |
0.000000 |
0.000786 |
0.000000 |
0.090058 |
0.000000 |
0.015756 |
0.000131 |
<PRICE> |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
0.851132 |
0.000000 |
0.000000 |
新品 |
0.019722 |
0.018288 |
0.020887 |
0.015963 |
0.014166 |
0.004005 |
0.000001 |
知识 |
0.113728 |
0.059049 |
0.047351 |
0.072900 |
0.072900 |
0.065610 |
0.147641 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
|
第(3)步正式流程中,对需要进行自动分类的3C数码数据进行计算,设置大阈值为:2、小阈值为:0.8,将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于“小阈值”,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。