CN103294798A

CN103294798A - 基于二元切词和支持向量机的商品自动分类方法

Info

Publication number: CN103294798A
Application number: CN2013102013228A
Authority: CN
Inventors: 许大伦; 毛颖; 张立群
Original assignee: BEIJING SHANGYOU TONGDA INFORMATION TECHNOLOGY Co Ltd
Current assignee: Lele Kaihang (Beijing) Education Technology Co., Ltd.
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2013-09-11
Anticipated expiration: 2033-05-27
Also published as: CN103294798B

Abstract

本发明公开了一种基于二元切词和支持向量机的商品自动分类方法，该方法主要包括：对于训练集合中的所有商品标题进行二元切词处理构造特征词库；构造商品分类集合，同时根据所述特征词库将商品标题表示为特定向量，由该特定向量和商品所属分类生成训练数据，针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量；计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积，挑选最大内积结果对应的分类作为该商品所属的分类。本发明以解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。

Description

基于二元切词和支持向量机的商品自动分类方法

技术领域

本发明涉及数据挖掘领域，具体地说，是涉及一种基于二元切词和支持向量机（Support Vector Machine，SVM，一种自动学习型分类算法）的商品自动分类方法。

背景技术

数据挖掘（Data mining），一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。分类，则是数据挖掘中的一个重要环节。

随着电子信息技术的飞速发展，数据挖掘已经深入到各个领域，尤其对于电子商务领域，高效的商品自动分类方法对管理电子商务中海量的商品信息至关重要。目前，有多种商品自动分类方法，如：基于逻辑规则的决策树方法、基于统计关联的朴素贝叶斯或贝叶斯网络方法、基于感知器的神经网络方法、基于实例学习的k近邻方法以及基于向量空间的支持向量机方法等，据文献报道，上述常用方法的分类准确率在80%左右。

在现有技术中，由于支持向量机方法具有分类速度快、结果准确度高的优点而被广泛运用。

但是，该方法在实际应用中的效果主要取决于特征空间的构造，如果特征空间太小以至数据线性不可分，就必须采用非线性核函数，这会导致训练时间长，效果不理想等问题。

同时，商品的中文标题包含了多方面的特征信息（如厂家品牌、商品名称、规格型号以及价格），它们与商品分类的相关性大小不同，理论上作区别处理会有利于提高商品分类的准确率。但由于信息量巨大，要构建和维护这样一个产品特征信息库的成本很高，计算量巨大，实际操作性差。

因此，如何解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想，便成为亟待解决的技术问题。

发明内容

本发明所要解决的技术问题是提供一种基于二元切词和支持向量机的商品自动分类方法，以解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。

为解决上述技术问题，本发明提供了一种基于二元切词和支持向量机的商品自动分类方法，其特征在于，包括：

对于训练集合中的所有商品标题进行二元切词处理构造特征词库；

构造商品分类集合，同时根据所述特征词库将商品标题表示为特定向量，由该特定向量和商品所属分类生成训练数据，针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量；

计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积，挑选最大内积结果对应的分类作为该商品所属的分类。

优选地，其中，所述对商品标题进行二元切词处理构造特征词库，进一步为：对训练集合中的所有商品标题进行二元切词后统计词频，挑选频率较高的词构造特征词库。

优选地，其中，所述训练集合，进一步包含某一电子商务网站中所有的商品标题；所述特征词库，进一步包含经过二元切词处理后所得到的反映商品信息的特征词。

优选地，其中，所述根据所述特征词库将商品标题表示为特定向量，进一步为：将训练集中任一商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量。

优选地，其中，所述计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积，进一步为：将待分类商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量，计算该n维向量与所述最佳分类向量的内积。

与现有技术相比，本发明所述的一种基于二元切词和支持向量机的商品自动分类方法，达到了如下效果：

1）本发明对商品标题进行二元切词处理，极大提升了特征信息库构建的便易性。

2）本发明运用特征词将商品标题表示为特征空间中的特定向量，极大提升了商品的可区分性，从而有效解决了由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的基于二元切词和支持向量机的商品自动分类方法的流程示意框图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

如图1所示，是本发明实施例所述的一种基于二元切词和支持向量机的商品自动分类方法流程。

步骤101，对于训练集合中的所有商品标题进行二元切词处理构造特征词库；

其中，所述训练集合也可以称作商品标题集合，集合中包含某一电子商务网站中所有的商品标题；所述特征词库也可以称作特征信息库，其内包含有经过二元切词处理后所得到的反映商品信息的特征词。

进一步地，对商品标题进行二元切词处理构造特征信息库，具体为：对训练集合中的所有商品标题进行二元切词后统计词频，挑选频率较高的词构造特征词库。

进一步地，步骤101具体为：

首先，在此假设商品标题为L，具体格式为：由C₁C₂C₃…C_k-1C_k构成，其中C_i为一个汉字或英文单词，k为标题字符长度；

之后，对标题L进行二元切词，得到词语集合{C₁C₂,C₂C₃,...,C_k-1C_k}，在该词语集合中，将C_iC_i+1视为一个词，并用W表示；

之后，遍历训练集中所有的商品标题，统计每个词W出现的次数Count(W)

然后，设定一个阈值C_T，如果Count(W)≥C_T（即，词W出现的次数大于设定的阀值C_T），则W为特征词；

从而，得到的所有特征词W构成特征词库{W₁,W₂,…,W_n}。

步骤102，构造商品分类集合，同时根据所述特征词库将商品标题表示为特定向量，由该特定向量和商品所属分类生成训练数据，针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量。

进一步地，根据所述特征词库将商品标题表示为特定向量，具体为：将训练集中任一商品标题L_i进行二元切词后所得到的特征词W的次数组合表示为n维向量。

进一步地，步骤102具体为：

对所有商品分类编号（商品的具体分类可以是：衣服、裤子、鞋、食品或日常用品等等），设m为总分类数，则可将分类集合表示为：{Y₁,Y₂,...,Y_m}；

将训练集中任一商品标题L_i表示为n维向量X_i=(x_i,1,x_i,2,....,x_i,n),其中x_i,j为对Li二元切词后所得到特征词Wj的次数;

查询该商品所属分类Y_i,Y_i∈{1,2,...,m}，得到训练数据{X_i,Y_i};

对所述训练数据{X_i,Y_i}进行序贯对偶方法优化得到最佳分类向量V_k，其中，V_k可表示为（V_k,1,V_k,2,...,V_k,n），k=1,2,...,n。

步骤103，计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积，挑选最大内积结果对应的分类作为该商品所属的分类。

进一步地，将待分类商品标题L进行二元切词后所得到的特征词W的次数组合表示为n维向量X，计算该n维向量X与所述最佳分类向量的内积，并将内积最大的分类作为该商品所属的分类。

进一步地，所述步骤103具体为：

将待分类商品的标题L表示为n维向量X=(x₁,x₂,....,x_n),其中x_i为对L二元切词后得到特征词W_m的次数；

计算X与所有最佳分类向量的内积：

S_{k} = Σ_{i = 1}^{n} V_{k, i} X_{i}

取内积最大者为预测分类，即如果

S_{k^{*}} = Max {S_{1}, S_{2}, . . ., S_{m}}

则该商品属于分类Y_k。

上述分类方法对商品标题进行二元切词，剔除出现频率低于一定阈值的罕见词，构造特征词库，其特征词的数量约为7万个，每个商品标题根据其包含特征词的数量被表示为高维特征空间中的一个稀疏向量；这种商品特征提取与表示方法不仅操作简便，而且使得不同类的商品具有很好的可区分性。采用线性核函数，对支持向量机进行训练，取得了很好的分类结果：用京东所有商品，一半做训练，一半做测试，准确率为94%。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于二元切词和支持向量机的商品自动分类方法，其特征在于，包括：

2.如权利要求1所述的基于二元切词和支持向量机的商品自动分类方法，其特征在于，所述对商品标题进行二元切词处理构造特征词库，进一步为：对训练集合中的所有商品标题进行二元切词后统计词频，挑选频率较高的词构造特征词库。

3.如权利要求2所述的基于二元切词和支持向量机的商品自动分类方法，其特征在于，所述训练集合，进一步包含某一电子商务网站中所有的商品标题；所述特征词库，进一步包含经过二元切词处理后所得到的反映商品信息的特征词。

4.如权利要求1所述的基于二元切词和支持向量机的商品自动分类方法，其特征在于，所述根据所述特征词库将商品标题表示为特定向量，进一步为：将训练集中任一商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量。

5.如权利要求1所述的基于二元切词和支持向量机的商品自动分类方法，其特征在于，所述计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积，进一步为：将待分类商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量，计算该n维向量与所述最佳分类向量的内积。