CN103294798A - 基于二元切词和支持向量机的商品自动分类方法 - Google Patents
基于二元切词和支持向量机的商品自动分类方法 Download PDFInfo
- Publication number
- CN103294798A CN103294798A CN2013102013228A CN201310201322A CN103294798A CN 103294798 A CN103294798 A CN 103294798A CN 2013102013228 A CN2013102013228 A CN 2013102013228A CN 201310201322 A CN201310201322 A CN 201310201322A CN 103294798 A CN103294798 A CN 103294798A
- Authority
- CN
- China
- Prior art keywords
- commodity
- word
- classification
- binary
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于二元切词和支持向量机的商品自动分类方法,该方法主要包括:对于训练集合中的所有商品标题进行二元切词处理构造特征词库;构造商品分类集合,同时根据所述特征词库将商品标题表示为特定向量,由该特定向量和商品所属分类生成训练数据,针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量;计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,挑选最大内积结果对应的分类作为该商品所属的分类。本发明以解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。
Description
技术领域
本发明涉及数据挖掘领域,具体地说,是涉及一种基于二元切词和支持向量机(Support Vector Machine,SVM,一种自动学习型分类算法)的商品自动分类方法。
背景技术
数据挖掘(Data mining),一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。分类,则是数据挖掘中的一个重要环节。
随着电子信息技术的飞速发展,数据挖掘已经深入到各个领域,尤其对于电子商务领域,高效的商品自动分类方法对管理电子商务中海量的商品信息至关重要。目前,有多种商品自动分类方法,如:基于逻辑规则的决策树方法、基于统计关联的朴素贝叶斯或贝叶斯网络方法、基于感知器的神经网络方法、基于实例学习的k近邻方法以及基于向量空间的支持向量机方法等,据文献报道,上述常用方法的分类准确率在80%左右。
在现有技术中,由于支持向量机方法具有分类速度快、结果准确度高的优点而被广泛运用。
但是,该方法在实际应用中的效果主要取决于特征空间的构造,如果特征空间太小以至数据线性不可分,就必须采用非线性核函数,这会导致训练时间长,效果不理想等问题。
同时,商品的中文标题包含了多方面的特征信息(如厂家品牌、商品名称、规格型号以及价格),它们与商品分类的相关性大小不同,理论上作区别处理会有利于提高商品分类的准确率。但由于信息量巨大,要构建和维护这样一个产品特征信息库的成本很高,计算量巨大,实际操作性差。
因此,如何解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想,便成为亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于二元切词和支持向量机的商品自动分类方法,以解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。
为解决上述技术问题,本发明提供了一种基于二元切词和支持向量机的商品自动分类方法,其特征在于,包括:
对于训练集合中的所有商品标题进行二元切词处理构造特征词库;
构造商品分类集合,同时根据所述特征词库将商品标题表示为特定向量,由该特定向量和商品所属分类生成训练数据,针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量;
计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,挑选最大内积结果对应的分类作为该商品所属的分类。
优选地,其中,所述对商品标题进行二元切词处理构造特征词库,进一步为:对训练集合中的所有商品标题进行二元切词后统计词频,挑选频率较高的词构造特征词库。
优选地,其中,所述训练集合,进一步包含某一电子商务网站中所有的商品标题;所述特征词库,进一步包含经过二元切词处理后所得到的反映商品信息的特征词。
优选地,其中,所述根据所述特征词库将商品标题表示为特定向量,进一步为:将训练集中任一商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量。
优选地,其中,所述计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,进一步为:将待分类商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量,计算该n维向量与所述最佳分类向量的内积。
与现有技术相比,本发明所述的一种基于二元切词和支持向量机的商品自动分类方法,达到了如下效果:
1)本发明对商品标题进行二元切词处理,极大提升了特征信息库构建的便易性。
2)本发明运用特征词将商品标题表示为特征空间中的特定向量,极大提升了商品的可区分性,从而有效解决了由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的基于二元切词和支持向量机的商品自动分类方法的流程示意框图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
如图1所示,是本发明实施例所述的一种基于二元切词和支持向量机的商品自动分类方法流程。
步骤101,对于训练集合中的所有商品标题进行二元切词处理构造特征词库;
其中,所述训练集合也可以称作商品标题集合,集合中包含某一电子商务网站中所有的商品标题;所述特征词库也可以称作特征信息库,其内包含有经过二元切词处理后所得到的反映商品信息的特征词。
进一步地,对商品标题进行二元切词处理构造特征信息库,具体为:对训练集合中的所有商品标题进行二元切词后统计词频,挑选频率较高的词构造特征词库。
进一步地,步骤101具体为:
首先,在此假设商品标题为L,具体格式为:由C1C2C3…Ck-1Ck构成,其中Ci为一个汉字或英文单词,k为标题字符长度;
之后,对标题L进行二元切词,得到词语集合{C1C2,C2C3,...,Ck-1Ck},在该词语集合中,将CiCi+1视为一个词,并用W表示;
之后,遍历训练集中所有的商品标题,统计每个词W出现的次数Count(W)
然后,设定一个阈值CT,如果Count(W)≥CT(即,词W出现的次数大于设定的阀值CT),则W为特征词;
从而,得到的所有特征词W构成特征词库{W1,W2,…,Wn}。
步骤102,构造商品分类集合,同时根据所述特征词库将商品标题表示为特定向量,由该特定向量和商品所属分类生成训练数据,针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量。
进一步地,根据所述特征词库将商品标题表示为特定向量,具体为:将训练集中任一商品标题Li进行二元切词后所得到的特征词W的次数组合表示为n维向量。
进一步地,步骤102具体为:
对所有商品分类编号(商品的具体分类可以是:衣服、裤子、鞋、食品或日常用品等等),设m为总分类数,则可将分类集合表示为:{Y1,Y2,...,Ym};
将训练集中任一商品标题Li表示为n维向量Xi=(xi,1,xi,2,....,xi,n),其中xi,j为对Li二元切词后所得到特征词Wj的次数;
查询该商品所属分类Yi,Yi∈{1,2,...,m},得到训练数据{Xi,Yi};
对所述训练数据{Xi,Yi}进行序贯对偶方法优化得到最佳分类向量Vk,其中,Vk可表示为(Vk,1,Vk,2,...,Vk,n),k=1,2,...,n。
步骤103,计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,挑选最大内积结果对应的分类作为该商品所属的分类。
进一步地,将待分类商品标题L进行二元切词后所得到的特征词W的次数组合表示为n维向量X,计算该n维向量X与所述最佳分类向量的内积,并将内积最大的分类作为该商品所属的分类。
进一步地,所述步骤103具体为:
将待分类商品的标题L表示为n维向量X=(x1,x2,....,xn),其中xi为对L二元切词后得到特征词Wm的次数;
计算X与所有最佳分类向量的内积:
取内积最大者为预测分类,即如果
则该商品属于分类Yk。
上述分类方法对商品标题进行二元切词,剔除出现频率低于一定阈值的罕见词,构造特征词库,其特征词的数量约为7万个,每个商品标题根据其包含特征词的数量被表示为高维特征空间中的一个稀疏向量;这种商品特征提取与表示方法不仅操作简便,而且使得不同类的商品具有很好的可区分性。采用线性核函数,对支持向量机进行训练,取得了很好的分类结果:用京东所有商品,一半做训练,一半做测试,准确率为94%。
与现有技术相比,本发明所述的一种基于二元切词和支持向量机的商品自动分类方法,达到了如下效果:
1)本发明对商品标题进行二元切词处理,极大提升了特征信息库构建的便易性。
2)本发明运用特征词将商品标题表示为特征空间中的特定向量,极大提升了商品的可区分性,从而有效解决了由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (5)
1.一种基于二元切词和支持向量机的商品自动分类方法,其特征在于,包括:
对于训练集合中的所有商品标题进行二元切词处理构造特征词库;
构造商品分类集合,同时根据所述特征词库将商品标题表示为特定向量,由该特定向量和商品所属分类生成训练数据,针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量;
计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,挑选最大内积结果对应的分类作为该商品所属的分类。
2.如权利要求1所述的基于二元切词和支持向量机的商品自动分类方法,其特征在于,所述对商品标题进行二元切词处理构造特征词库,进一步为:对训练集合中的所有商品标题进行二元切词后统计词频,挑选频率较高的词构造特征词库。
3.如权利要求2所述的基于二元切词和支持向量机的商品自动分类方法,其特征在于,所述训练集合,进一步包含某一电子商务网站中所有的商品标题;所述特征词库,进一步包含经过二元切词处理后所得到的反映商品信息的特征词。
4.如权利要求1所述的基于二元切词和支持向量机的商品自动分类方法,其特征在于,所述根据所述特征词库将商品标题表示为特定向量,进一步为:将训练集中任一商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量。
5.如权利要求1所述的基于二元切词和支持向量机的商品自动分类方法,其特征在于,所述计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,进一步为:将待分类商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量,计算该n维向量与所述最佳分类向量的内积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310201322.8A CN103294798B (zh) | 2013-05-27 | 2013-05-27 | 基于二元切词和支持向量机的商品自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310201322.8A CN103294798B (zh) | 2013-05-27 | 2013-05-27 | 基于二元切词和支持向量机的商品自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103294798A true CN103294798A (zh) | 2013-09-11 |
CN103294798B CN103294798B (zh) | 2016-08-31 |
Family
ID=49095660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310201322.8A Active CN103294798B (zh) | 2013-05-27 | 2013-05-27 | 基于二元切词和支持向量机的商品自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294798B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605815A (zh) * | 2013-12-11 | 2014-02-26 | 焦点科技股份有限公司 | 一种适用于b2b电子商务平台的商品信息自动分类推荐方法 |
CN103778205A (zh) * | 2014-01-13 | 2014-05-07 | 北京奇虎科技有限公司 | 一种基于互信息的商品分类方法和*** |
CN104063428A (zh) * | 2014-06-09 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种中文微博突发热点话题检测方法 |
CN104268134A (zh) * | 2014-09-28 | 2015-01-07 | 苏州大学 | 一种主客观分类器构建方法和*** |
CN110245800A (zh) * | 2019-06-19 | 2019-09-17 | 南京大学金陵学院 | 一种基于优化向量空间模型定制商品信息分类标识的方法 |
CN110334306A (zh) * | 2019-06-21 | 2019-10-15 | 无线生活(北京)信息技术有限公司 | 标签处理方法及装置 |
WO2019205319A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘***及方法 |
CN102193936A (zh) * | 2010-03-09 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
-
2013
- 2013-05-27 CN CN201310201322.8A patent/CN103294798B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193936A (zh) * | 2010-03-09 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘***及方法 |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605815A (zh) * | 2013-12-11 | 2014-02-26 | 焦点科技股份有限公司 | 一种适用于b2b电子商务平台的商品信息自动分类推荐方法 |
CN103605815B (zh) * | 2013-12-11 | 2016-08-31 | 焦点科技股份有限公司 | 一种适用于b2b电子商务平台的商品信息自动分类推荐方法 |
CN103778205A (zh) * | 2014-01-13 | 2014-05-07 | 北京奇虎科技有限公司 | 一种基于互信息的商品分类方法和*** |
CN103778205B (zh) * | 2014-01-13 | 2018-07-06 | 北京奇虎科技有限公司 | 一种基于互信息的商品分类方法和*** |
CN104063428A (zh) * | 2014-06-09 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种中文微博突发热点话题检测方法 |
CN104268134A (zh) * | 2014-09-28 | 2015-01-07 | 苏州大学 | 一种主客观分类器构建方法和*** |
WO2019205319A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
CN110245800A (zh) * | 2019-06-19 | 2019-09-17 | 南京大学金陵学院 | 一种基于优化向量空间模型定制商品信息分类标识的方法 |
CN110334306A (zh) * | 2019-06-21 | 2019-10-15 | 无线生活(北京)信息技术有限公司 | 标签处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103294798B (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jain et al. | Application of machine learning techniques to sentiment analysis | |
Rathi et al. | Sentiment analysis of tweets using machine learning approach | |
US11100283B2 (en) | Method for detecting deceptive e-commerce reviews based on sentiment-topic joint probability | |
CN103294798A (zh) | 基于二元切词和支持向量机的商品自动分类方法 | |
CN107862046B (zh) | 一种基于短文本相似度的税务商品编码分类方法及*** | |
Patra et al. | A survey report on text classification with different term weighing methods and comparison between classification algorithms | |
Bayot et al. | Multilingual author profiling using word embedding averages and svms | |
US20180293294A1 (en) | Similar Term Aggregation Method and Apparatus | |
KR20160121382A (ko) | 텍스트 마이닝 시스템 및 툴 | |
CN105224648A (zh) | 一种实体链接方法与*** | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
CN103778205A (zh) | 一种基于互信息的商品分类方法和*** | |
CN106407195B (zh) | 用于网页消重的方法和*** | |
CN109408802A (zh) | 一种提升句向量语义的方法、***及存储介质 | |
US9256669B2 (en) | Stochastic document clustering using rare features | |
CN108536665A (zh) | 一种确定语句一致性的方法及装置 | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Rekha et al. | Sentiment analysis on Indian government schemes using Twitter data | |
US20120076416A1 (en) | Determining correlations between slow stream and fast stream information | |
CN113919424A (zh) | 文本处理模型的训练、文本处理方法、装置、设备和介质 | |
Diwakar et al. | Proposed machine learning classifier algorithm for sentiment analysis | |
US20190384812A1 (en) | Portfolio-based text analytics tool | |
Prayoga et al. | Unsupervised Twitter Sentiment Analysis on The Revision of Indonesian Code Law and the Anti-Corruption Law using Combination Method of Lexicon Based and Agglomerative Hierarchical Clustering | |
Sawarn et al. | Comparative analysis of bagging and boosting algorithms for sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190925 Address after: 100088 Beijing Haidian District Garden Road No. 13 Courtyard 7 Floor 12, 1203-1 Patentee after: Lele Kaihang (Beijing) Education Technology Co., Ltd. Address before: 100085, room 2, building 5, building 1, No. 516, ten Street, Haidian District, Beijing Patentee before: Beijing Shangyou Tongda Information Technology Co., Ltd. |