CN103544310A - 一种基于分类器实现的导购类网页的信息分类方法 - Google Patents

一种基于分类器实现的导购类网页的信息分类方法 Download PDF

Info

Publication number
CN103544310A
CN103544310A CN201310538100.5A CN201310538100A CN103544310A CN 103544310 A CN103544310 A CN 103544310A CN 201310538100 A CN201310538100 A CN 201310538100A CN 103544310 A CN103544310 A CN 103544310A
Authority
CN
China
Prior art keywords
shopping guide
classification
word
cut
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310538100.5A
Other languages
English (en)
Other versions
CN103544310B (zh
Inventor
杨佳
吴尉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou Cloud Business Network Technology Co ltd
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201310538100.5A priority Critical patent/CN103544310B/zh
Publication of CN103544310A publication Critical patent/CN103544310A/zh
Application granted granted Critical
Publication of CN103544310B publication Critical patent/CN103544310B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分类器实现的导购类网页的信息分类方法,所述方法包括:(1)处理导购类网页数据,生成权重向量词表;(2)训练导购类网页,得到该词表在每个分类下的权重向量;(3)通过权重向量进行计算,实现导购类网页的自动分类。本发明为一种高效简单的方法,代替人工分类,通过程序实现针对导购类网页的信息自动分类。从数据源上进行过滤,只针对导购类型的网页进行训练及分类,得到的权重词更为可信。正式流程中,极大的减少了人工参与,甚至可以直接使用自动分类结果而不需要人工审核。分类的正确率可以达到80%以上。

Description

一种基于分类器实现的导购类网页的信息分类方法
技术领域
本发明属于信息分类方式,具体讲涉及一种基于分类器实现的导购类网页的信息分类方法。
背景技术
随着社会的日益发展,不论是物质上还是精神上人们的生活内容都变得越来越丰富,相较而言,每天可利用的时间就显得非常短暂,而互联网的高速发展,也使得越来越多的消费者更愿意在网上直接进行商品挑选,而不是浪费时间在漫长的户外旅途中,更因此,许多传统企业也不得已开始转向电子商务方向,一时间,网络购物成为一个新的流行词汇,充斥着各大网站、论坛,而随之而来的,就是各大电商的比价比量比实惠。
但是由于电商数量太多、商品型号/种类繁杂、网购产品的质量又参差不齐,导致消费者可能会由于可选范围太大反而浪费了大量时间,于是就出现了各种导购网站、比价网站、甚至是导购攻略,旨在帮助消费者快速筛选、或者快速了解一款产品,从而节省大量选购时间。
要想做好一个导购网站,导购类网页是必不可少的,但是网络上的导购类文章数量很多,如何在短暂的时间内满足用户的需求就成了一个问题。
通过对导购类网页进行信息分类来实现筛选是可行方案之一,而传统的人工进行手动分类的方法,消耗的人力、时间都很多,机器化分类的需求就不得不提上日程。由于绝大多数的导购类网页都有一个最主要的表达意图,通过阅读是可以直接对该网页进行分类的,而且不会因为网站的不同存在标签、格式能方面的差异。
发明内容
针对现有技术的不足,本发明提供一种基于分类器实现的导购类网页的信息分类方法,通过高效简单的方法,代替人工分类,通过程序实现针对导购类网页的信息自动分类。
本发明的目的是采用下述技术方案实现的:
一种基于分类器实现的导购类网页的信息分类方法,其改进之处在于,所述方法包括:
(1)处理导购类网页数据,生成权重向量词表;
(2)训练导购类网页,得到该词表在每个分类下的权重向量;
(3)通过权重向量进行计算,实现导购类网页的自动分类。
优选的,所述步骤(1)包括
(1.1)采集两批导购类网页并提取出标题部分;
(1.2)对一批采集结果中提取出的标题进行切词;
(1.3)通过信息增益计算生成词表统计个数后并排序;
(1.4)对另一批采集结果中提取出的标题进行切词;
(1.5)通过生成词表中进行查找判断后生成切词向量。
优选的,所述步骤(2)包括将权重向量随机初始化并进行训练从而得到新的权重向量。
优选的,所述步骤(2)包括训练次数超过指定最大值或者错误率小于指定阈值的时候则停止训练,此时将得到每个表示词在每个分类中的权重,将此训练结果向量保留。
优选的,所述步骤(2)包括将所有表示价格信息的词统一替换成<PRICE>进行处理。
优选的,所述步骤(3)包括
(3.1)采集的导购类网页中包含分类信息,直接使用该分类,否则使用程序自动分类;
(3.2)提取出标题部分并进行切词,将切词去步骤(1)中进行查找,得到标题的切词向量;
(3.3)提取出正文部分并进行切词,将切词去步骤(1)中进行查找,得到标题的切词向量;
(3.4)将标题与正文两个切词向量相加,得到一个总的切词向量;
(3.5)将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于阈值,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
优选的,所述步骤(3)包括分别提取标题部分、正文部分进行切词,赋予不同的权重进行计算。
与现有技术比,本发明的有益效果为:
(1)从数据源上进行过滤,只针对导购类型的网页进行训练及分类,得到的权重词更为可信。
(2)在人工分类的基础上进行数据训练,得到的权重值更为准确。
(3)正式流程中,极大的减少了人工参与,甚至可以直接使用自动分类结果而不需要人工审核。
(4)分类的正确率可以达到80%以上。
附图说明
图1为本发明提供的一种基于分类器实现的导购类网页的信息分类方法示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
1.导购类网页训练:
(1)采集两批导购类网页,提取出标题部分,通过人工分类或者采集的时候采用定向采集即指定分类采集的方法,来进行标准信息分类。
(2)对第一批采集结果中提取出的标题进行切词,统计出每个词在所有分类下出现过的文章数,分别算出来条件概率、互信息、卡方、信息增益,并按结果排序。经过四种算法的结果情况来看,信息增益的效果最好,所以本发明采用信息增益的排序结果进行后面的训练。取信息增益结果的前N个词作为后面需要用到的权重向量表示词即可。
针对每一个分类的四种指标:
dAB:该词在所有分类中出现的总次数
dA:该词在该分类的出现次数
dB:dAB-dA
dC:该分类下的文章数-dA
dD:文章总数-该分类下的文章数-dB
dCD:文章总数–dA–dB
dIG1Tmp:该分类下的文章数/文章总数;
dIG2Tmp:dA/dAB;
dIG3Tmp:dC/dCD;
dIG1:所有分类的(dIG1Tmp*log(dIG1Tmp))求和
dIG2:所有分类的(dIG2Tmp*log(dIG2Tmp))求和
dIG3:所有分类的(dIG3Tmp*log(dIG3Tmp))求和
条件概率:dA/dAB
互信息:(dA*文章总数)/(dAB*该分类下的文章数)
卡方:(pow(dA*dD–dB*dC,2)/(dAB*dCD))
信息增益:dIG1+(dAB/文章总数)*dIG2+(dCD/文章总数)*dIG3
(3)对第二批采集结果中提取出的标题进行切词,在上一步骤中产生的权重向量表示词中进行查找,如果存在则标记为1,不存在则标记为0,从而生成切词向量。
(4)将所有权重向量随机初始化,并进行训练:将切词向量和每个分类下对应的此次权重向量分别进行点乘并相加,如果总数大于“大阈值”,但人工标记的分类不是该分类,则fConstB=0.9,如果总数小于等于“大阈值”,但是人工标记的分类是该分类,则fConstB=1.1,令权重向量=权重向量*fConstB,从而得到新的权重向量。
(5)当训练次数超过指定最大值或者错误率小于指定阈值的时候则停止训练,此时将得到每个表示词在每个分类中的权重,将此训练结果向量保留,供后面使用。
(6)由于导购类网页中,价格信息一般是很有用的,多数会在打折促销、行情等分类中,而价格的表现形式又是多样化的,所以在上面的处理过程中,还需要将所有表示价格信息的词统一替换成<PRICE>进行处理。
2.导购类网页分类:
(1)如果采集到的导购类网页中已经包含了分类信息,则直接使用该分类,否则的话再使用程序自动分类。
(2)从需要自动分类的导购类网页数据提取出标题部分并进行切词,同样将所有表示价格信息的词统一替换成<PRICE>。将切词出来的每个词去训练流程得到的词表中进行查找,得到一个标题的切词向量。
(3)提取出正文部分并进行切词,与标题的处理流程相同,不过权重比标题的低,将两个切词向量相加,得到一个总的切词向量。
(4)将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于“小阈值”,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
实施例
针对3C数码这一类的导购数据,设置子分类包括:
“资讯、新品、评测、导购、行情、知识、使用体验”,整个过程包括:
(1)首先通过信息增益计算过程,得到一批可用来进行计算的权重词;
(2)然后对这批权重词和训练数据进行训练,得到权重词在每个分类下的权重值,即每个分类都得到一个权重向量;
(3)最后在正式流程中,对权重向量进行点乘,得到最终分类。
假设已经完成第(1)步,得到了一批权重词(见后面的表格第一列),在第(2)步中进行设置:
大阈值为:2
小阈值为:0.8
训练停止条件为:
(1)训练次数超过100次;
(2)连续4次发生此种情况:两次训练结果中,自动分类错误次数的差值/文章总数<0.001;
将所有权重向量随机初始化,并进行训练:将切词向量和每个分类下对应的此次权重向量分别进行点乘并相加,如果总数大于“大阈值”,但人工标记的分类不是该分类,则fConstB=0.9,如果总数小于等于“大阈值”,但是人工标记的分类是该分类,则fConstB=1.1,令权重向量=权重向量*fConstB,从而得到新的权重向量。
训练结束之后,得到每个权重词在各个分类中的权重值,比如:
资讯 新品 评测 导购 行情 知识 使用体验
行情 0.000338 0.000118 0.012158 0.055509 0.083996 0.038742 0.028243
资讯 0.100000 0.100000 0.121000 0.100000 0.072900 0.100000 0.100000
评测 0.000000 0.000000 0.207446 0.000000 0.000000 0.000016 0.000000
导购 0.000000 0.000786 0.000000 0.090058 0.000000 0.015756 0.000131
<PRICE> 0.000000 0.000000 0.000000 0.000000 0.851132 0.000000 0.000000
新品 0.019722 0.018288 0.020887 0.015963 0.014166 0.004005 0.000001
知识 0.113728 0.059049 0.047351 0.072900 0.072900 0.065610 0.147641
…… …… …… …… …… …… ……
第(3)步正式流程中,对需要进行自动分类的3C数码数据进行计算,设置大阈值为:2、小阈值为:0.8,将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于“小阈值”,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述方法包括:
(1)处理导购类网页数据,生成权重向量词表;
(2)训练导购类网页,得到该词表在每个分类下的权重向量;
(3)通过权重向量进行计算,实现导购类网页的自动分类。
2.如权利要求1所述的一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述步骤(1)包括
(1.1)采集两批导购类网页并提取出标题部分;
(1.2)对一批采集结果中提取出的标题进行切词;
(1.3)通过信息增益计算生成词表统计个数后并排序;
(1.4)对另一批采集结果中提取出的标题进行切词;
(1.5)通过生成词表中进行查找判断后生成切词向量。
3.如权利要求1所述的一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述步骤(2)包括将权重向量随机初始化并进行训练。
4.如权利要求1所述的一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述步骤(2)包括训练次数超过指定最大值或者错误率小于指定阈值的时候则停止训练,此时将得到每个表示词在每个分类中的权重,将此训练结果向量保留。
5.如权利要求1所述的一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述步骤(2)包括将所有表示价格信息的词统一替换成<PRICE>进行处理。
6.如权利要求1所述的一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述步骤(3)包括
(3.1)采集的导购类网页中包含分类信息,直接使用该分类,否则使用程序自动分类;
(3.2)提取出标题部分并进行切词,将切词去步骤(1)中进行查找,得到标题的切词向量;
(3.3)提取出正文部分并进行切词,将切词去步骤(1)中进行查找,得到标题的切词向量;
(3.4)将标题与正文两个切词向量相加,得到一个总的切词向量;
(3.5)将切词向量和每个分类的权重向量分别进行点乘,找出最大的一项,如果大于阈值,则将此导购文章划分到最大值所在的分类,否则的话,划分到默认分类中。
7.如权利要求1所述的一种基于分类器实现的导购类网页的信息分类方法,其特征在于,所述步骤(3)包括分别提取标题部分、正文部分进行切词,赋予不同的权重进行计算。
CN201310538100.5A 2013-11-04 2013-11-04 一种基于分类器实现的导购类网页的信息分类方法 Expired - Fee Related CN103544310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310538100.5A CN103544310B (zh) 2013-11-04 2013-11-04 一种基于分类器实现的导购类网页的信息分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310538100.5A CN103544310B (zh) 2013-11-04 2013-11-04 一种基于分类器实现的导购类网页的信息分类方法

Publications (2)

Publication Number Publication Date
CN103544310A true CN103544310A (zh) 2014-01-29
CN103544310B CN103544310B (zh) 2017-08-08

Family

ID=49967762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310538100.5A Expired - Fee Related CN103544310B (zh) 2013-11-04 2013-11-04 一种基于分类器实现的导购类网页的信息分类方法

Country Status (1)

Country Link
CN (1) CN103544310B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
US20110022465A1 (en) * 2009-07-24 2011-01-27 Prasannakumar Jobigenahally Malleshaiah System and Method for Managing Online Experiences Based on User Sentiment Characteristics and Publisher Targeting Goals
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和***
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
US20110022465A1 (en) * 2009-07-24 2011-01-27 Prasannakumar Jobigenahally Malleshaiah System and Method for Managing Online Experiences Based on User Sentiment Characteristics and Publisher Targeting Goals
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和***
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和***
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备

Also Published As

Publication number Publication date
CN103544310B (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN101984437B (zh) 音乐资源个性化推荐方法及***
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN104035968B (zh) 基于社交网络的训练语料集的构建方法和装置
CN108335137A (zh) 排序方法及装置、电子设备、计算机可读介质
CN105868185A (zh) 一种购物评论情感分析中基于词性标注的词典构建方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN102298646B (zh) 一种主观文本和客观文本分类方法及装置
CN110110335A (zh) 一种基于层叠模型的命名实体识别方法
CN106548255A (zh) 一种基于海量用户行为的商品推荐方法
CN104391835A (zh) 文本中特征词选择方法及装置
CN104391883B (zh) 一种基于迁移学习的在线广告受众排序方法
CN106168953A (zh) 面向弱关系社交网络的博文推荐方法
CN108733748A (zh) 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN109241297B (zh) 一种内容分类聚合方法、电子设备、存储介质及引擎
CN104834651A (zh) 一种提供高频问题回答的方法和装置
CN105956883A (zh) 电子商务数据处理***
CN108932648A (zh) 一种预测商品属性数据及训练其模型的方法和装置
AU2018101531A4 (en) Stock forecast model based on text news by random forest
CN111309864A (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN107194739B (zh) 一种基于大数据的智能推荐***
CN113360647A (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN108491390A (zh) 一种干线物流货物名称自动识别分类方法
CN115017320A (zh) 结合词袋模型和深度学习模型的电商文本聚类方法及***
CN103268346A (zh) 半监督分类方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170427

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170808

Termination date: 20211104