CN107066553B

CN107066553B - 一种基于卷积神经网络与随机森林的短文本分类方法

Info

Publication number: CN107066553B
Application number: CN201710181062.0A
Authority: CN
Inventors: 刘泽锦; 王洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2021-01-01
Anticipated expiration: 2037-03-24
Also published as: CN107066553A

Abstract

本发明公开了一种基于卷积神经网络与随机森林的短文本分类方法，属于文本分类与深度学习领域。针对采用Softmax作为卷积神经网络分类器导致泛化能力不足的问题，提出了一种结合卷积神经网络与随机森林的短文本分类算法(CNN‑RF)。本方法首先提出一种双重词向量卷积神经网络用来充分提取短文本高阶特征，然后采用随机森林作为高阶特征分类器，从而提高短文本分类效果。在三个公开实验数据集上的结果表明，与其他算法相比CNN‑RF在多个评价指标上均有明显优势。

Description

一种基于卷积神经网络与随机森林的短文本分类方法

技术领域

本发明属于文本分类与深度学习领域，涉及一种基于积神经网络与随机森林的短文本分类方法，可用于针对微博，短信息，用户Query等海量短文本数据的分类或者情感分类等任务。且能够为搜索引擎、信息检索等***服务使用。

背景技术

随着近年来互联网的飞速发展，各种信息交互平台会产生大量的短文本(ShortText)，这些短文本涉及到人们生活的各个领域，逐渐成为人们使用频繁且公认的沟通方式。比如电子商务评论、网页信息检索、智能问答***等均是海量短文本的产生源。如何从海量短文本中挖掘有效信息，是近年来诸多学者广泛研究的课题。文本分类是一种文本挖掘的有效方法，但由于短文本长度短、词项特征稀疏等特点，致使传统的长文本分类方法变得不再适用。短文本分类技术(Short Text Classification)在一定程度上可以解决上述短文本应用中面临的挑战，该技术是近年来国内外众多学者的研究热点之一，也是自然语言处理(NLP)领域中一项至关重要的任务。现如今，文本分类方法主要是基于统计学习方法或者机器学习的方法，采用统计或机器学习的方法在经过人工标注的语料库上进行训练得到分类器，随后对待分类数据集进行分类。其中比较主流的机器学习方法有朴素贝叶斯(Naive Bayes，NB)、支持向量机(Support Vector Machine，SVM)、逻辑回归(LogisticRegression，LR)多类逻辑回归(Softmax Regression，SR)、随机森林(Random Forest，RF)、深度神经网络(Deep Neural Network，DNN)等。在文本分类领域中取得较成功的长文本分类方法难以直接应用到短文本分类中，因此，针对短文本的分类算法已经成为目前研究者亟待解决的一个研究难题，短文本分类面临的挑战主要为：

1)短文本关键词特征稀疏，与一般词项丰富的长文本相比，短文本往往仅有几个有效关键字，且使用向量空间模型表示文本时，难以充分挖掘特征之间的关联性；

2)在开放领域(比如微博，搜索引擎)中，信息更新快，单篇短文本信息量小，但总体文本信息量极大，信息之间的交叉部分少；

3)新词、新用语、口语化的大量出现，这些词语对于己有分类***来说通常是很难难处理的。

国内外学者已经针对短文本分类问题进行了一些有意义的研究与探索，第一类是基于短文本特征扩展的方法：Bouaziz等人利用潜在狄利克雷分配(Latent DirichletAllocation，LDA)模型学习***数据上的主题及词语在主题上的分布，然后用同主题下的高频词语来扩展短文本，再使用随机语义森林对扩展词语进行特征选择，然后进行分类；还有一些学者通过关联规则挖掘(FP-Growth)得到词语共现模式集合，将其作为文本特征扩展的依据，而词语关系置信度作为持征扩展时的权重来完成短文本的特征扩展与分类；XH Phan等人通过抓取互联网海量数据来构建全局语料库，之后使用LDA主题模型的方法得到全局语料库的主题模型，最后使用全局的LDA主题模型对待分类的短文本语料库进行主题推断(Model Estimation)，得到待分类短文本的主题分布，使用该主题分布对短文本进行特征扩展，最后进行分类。第一类方法在做短文本扩展特征时会不可避免的引入噪音，造成分类效果差。

第二类是基于深度学习的方法：Socher等人采用递归神经网络模型(RecursiveNeural Network，RNN)，用于句子级别的情感分析任务，在SST等多个数据集的分类任务中均取得了一定的效果提升；Kalchbrenner等人^[8]利用卷积神经网络(ConvolutionalNeural Network，CNN)来处理语句级别的短文本分类任务，并提出动态卷积网络模型(Dynimic Convolutional Neural Network，DCNN)，该模型在多个数据集上都取得很好的效果，进一步验证了卷积神经网络在短文本分类研究中的潜力。基于神经网络方法的输入通常采用随机初始化或者使用预训练词向量。通常词向量的训练方式多种多样，语料、模型、预处理不同会产生不同含义的词向量，不同的词向量从不同的方面(角度)来刻画词语语义。由于短文本特征稀疏，为了充分提取特征，可以考虑利用结合多种词向量来充分提取特征，提高卷积神经网络的特征提取能力；此外Softmax做为卷积网络分类器时，一般采用BP算法进行训练，该过程只考虑极小化训练误差，由于局部极小值以及梯度消失、过拟合等现象的存在难以使神经网络达到最佳的泛化能力。随机森林是一种基于BoostrapAggregation(Bagging)的集成学习方法，通过组合多棵决策树使得模型对异常值和噪声具有很强的容忍性与鲁棒性，能克服单个决策树泛化能力不足的问题。随机森林有许多优点，比如：

1)需要较少的参数调整，训练速度快；

2)训练过程中基本不会产生过拟合问题；

3)对噪音扰动的鲁棒性高。

发明内容

本发明的目的在于提出了一种结合双重词向量卷积神经网络与随机森林的短文本分类算法(CNN-RF)，双重词向量卷积神经网络使用两种预训练词向量作为输入，可充分提取短文本特征，克服短文本特征稀疏的不足；之后采用随机森林进行分类，增强模型的泛化能力。CNN-RF模型的训练分为两个阶段：1)预训练阶段：使用Softmax作为分类器的双重词向量卷积网络训练，保存模型参数；2)分类器训练阶段：保持预训练阶段模型参数不变，将全连接层接入随机森林，使用高阶特征训练随机森林，保存参数。实验过程中发现，仅需要很少的epoch来进行预训练，便能使分类器训练阶段的模型收敛，且能达到较好的分类效果。

为实现上述目的，本发明采用的计数方案为一种基于卷积神经网络与随机森林的短文本分类方法，该方法包括以下步骤：

步骤1：对待分类语料库中所有中文文本进行分词，分别使用word2vec和glove词向量训练工具得到语料库的两组词向量，将文本表示为两个维度相等的矩阵；分别对两个矩阵进行二维卷积操作，得到两个卷基层特征图。

步骤2：卷积操作之后，分别对两个卷基层特征图进行池化操作，得到两个池化层特征矩阵；对该池化层特征矩阵进行非线性sigmod变换，得到两个池化层特征图。

步骤3：对步骤2的得到的两个池化层特征图进行卷积操作，得到最终的单个全连接层特征图。

步骤4：将步骤3得到的全连接特征图作为随机森林层的输入数据集，对该集合进行Boostrap采样，Bootstrap采样是一种统计学上的抽样方法，对于有m个样本的数据集D，进行m次有放回采样得到新数据集D′，明显D与D′大小相同，而且放回采样使得D′中有重复出现的样本，也有样本没有出现。

步骤5：对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART，Gini系数用于特征选择，用该特征将特征空间进行划分，划分之后从特征集合中去除此特征，对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件。此外为防止决策树过拟合现象的发生，本方法采用预剪枝操作。将多个决策树组合起来，共同为样本的类别进行决策，通常采用投票法。

与现有技术相比，本发明具有如下的有益效果。

采用随机森林(Random Forest)来取代卷积神经网络的全连接Softmax层，增强了整体分类方法得鲁棒性，减小了模型的过拟合，增强了模型泛化能力；采用双重词向量卷积神经网络，可以提取更为丰富的特征；不依赖于复杂的句法分析树，只需要通过卷积与最大值池化(Max Pooling Over Time)进行特征提取，将得到的高层抽象结构特征送入随机森林层进行分类，从偏差-方差(bias-variance)角度来看，集成多个模型会降低分类模型的方差，提高模型的稳定性。本方法也无需复杂的特征扩展过程，特征扩展算法通常会引入噪音，且费时费力，该方法充分利用短文本自身信息，较之于传统的单通道词向量输入卷积网络，充分的缓解了短文本数据的稀疏性，可以充分提取特征。max-pooling-over-time操作也解决了可变长度的短文本输入问题，可见基于双重预训练词向量卷积网络也可有效的提高短文本分类的准确度。实验过程中发现，仅需要很少的epoch来进行预训练，便能使本方法达到很好的效果。

附图说明

图1为预训练词向量生成模型，skip-gram模型示意图

图2为卷积神经网络与随机森林相结合的分类模型

图3为在三个数据集上分别与NB CART RF CNN在精确率(ACC)上的对比

图4为在Fudan数据集上分别与NB CART RF CNN在准确率(Pr)、召回率(Re)、F1值得对比

图5为在MR数据集上分别与NB CART RF CNN在准确率(Pr)、召回率(Re)、F1值得对比

图6为在Weibo数据集上分别与NB CART RF CNN在准确率(Pr)、召回率(Re)、F1值得对比

图7.1RF算法在Fudan数据集上随着决策树的变化三个评价指标的变化

图7.2本方法在Fudan数据集上随着决策树的变化三个评价指标的变化

具体实施方式

为了使本发明的目的、技术方案和特点更加清楚明白，以下结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。

本发明采用随机森林(Random Forest)来取代卷积神经网络的全连接Softmax层，增强了整体分类方法得鲁棒性，防止模型过拟合，增强了模型泛华能力；进一步采用双重词向量卷积神经网络，适用于提取更丰富的高阶特征。本发明具体的的改进可以归纳为以下几个方面：1)使用两组预训练词向量代替随机初始化的词向量，该方法相对于以往方法或者词袋模型，会减小特征维度，提取充分特征；2)随机初始化词向量还需对词向量矩阵进行参数更新，本方法则无需这种操作，提高了模型的效率；3)无需特征扩展，或者引入句法分析树等复杂操作，避免为模型后续的特征提取与分类引入噪音；4)首先类似于传统的神经网络，使用卷积-池化-softmax层来提取特征，经过一定的epoch之后，全连接层的输出特征变为高阶结构特征；5)使用随机森林代替softmax来做分类，随机森林可以有效提高模型的泛化能力，防止模型的过拟合，增强分类效果。实验证明，本发明所提出的方法在三个公开实验数据集(Fudan，Weibo，MR)上的结果表明，与其他方法相比CNN-RF在多个评价指标上均有明显优势。

图1为本发明采用的word2vec词向量模型中的skip-gram，图2为基于卷积神经网络与随机森林的短文本分类方法采用的结构，对两组预训练词向量，首先将语料库中的短文本分别构造为两个词向量矩阵，进行2维卷积运算与max-pooling-over-time运算，然后使用卷积操作结合两个通道的特征，进行预训练，最后使用随机森林构建分类模型，具体的实施过程分为以预训练阶段与分类器训练阶段：

一：预训练阶段

步骤1：得到两组词向量后，对于语料库D，用x表示一篇文本，则

代表文本中第i个词语的词向量，一个长度为n的句子表示成如下形式：

这里

变为向量拼接操作，n为训练语料中最长的句子的长度。对于长度不足n的文本则用特殊符号<PAD>进行补齐，使用(-0.25,0.25)之间的均匀分布生成的向量表示<PAD>。假设词向量长度为k，则现在每篇文本x均以表示为两个

的单通道(Channel)二维矩阵，即为两个输入层。

步骤2：分别对两个输入层进行卷积操作，使用

的过滤器作用于词向量序列x_i：i+h-1＝{x_i，x_i+1，…，x_i+h-1}上：

C_i＝f(W·x_i：i+h-1+b)

其中h即为过滤器在词语窗口上的尺寸，

为一个偏置项，f为非线性激活函数。过滤器W会作用于整个词向量序列{x_1：h，x_2：h+1，…，x_n-h+1：n}上，来产生卷积层特征图

C_conv＝[C_conv，1，C_conv，2，…，C_conv，n-h+1]

为充分提取特征，训练过程中设置不同跨度的过滤器m个，用{W₁，W₂，…W_m}表示，每种过滤器分别设置

个，通常令

即会产生m×s个特征图，之后便使用最大值池化(Max-pooling-over-time)操作作用于单个特征图C_conv之上，来得到特征图中最重要的特征

步骤3：步骤2将会产生m×s个池化层特征，将其拼接起来便得到池化层特征

其中l＝1，2分别代表两组词向量的池化层特征。

步骤4：对两个池化层特征进行卷积操作，得到最终的全连接层特征C_final，C_final，i代表C_final的分量：

步骤5：全连接层特征之后接入Softmax分类器，整个预训练阶段的模型使用Adam批量梯度下降(Mini-batch Gradient Descent)算法训练即可，用BP算法对各层参数调整，待收敛后记录下整个CNN的参数θ。训练时采用Dropout与L2正则防止过拟合。

二：分类器训练阶段

步骤6：读取步骤5中的参数θ，采用随机森林模型替换Softmax模型，将全连接层特征C_final送入随机森林进行训练。首先设置森林中决策树N的大小，进行Bootstrap抽样得到N个数据集，接下来学习N颗树中每颗树的参数θ_n，由于森林中各个树之间的训练过程相互没有影响，因此试验中采用并行训练的方式来加快速度。

步骤7：单个决策树训练完成后，最后以投票的方法得到CNN-RF模型的输出：

T_i(x)是树i对样本x的分类结果，即投票法，c^*即为样本对应最终类别，N为随机森林中决策树的数目。由于随机森林的全连接层特征C_final通常维度不大，一般数据集种均有m×s＜10³，所以建立随机森林的开销非常小。

本方法结合了CNN的特征提取能力与随机森林的泛化能力，泛化能力可以从以下三个方面分析：1)从统计角度来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等水准的性能，此时若使用单一决策树可能因为误选而导致泛化能力不佳；2)从特征提取角度分析，双重词向量分别从两个角度刻画词语的含义，丰富了短文本信息，相对于单一词向量来说扩充了特征信息；3)从表示方面来看，某些学习任务的真实假设可能不在当前决策树算法所处的假设空间之内，此时若使用单一分类方法，会导致搜索不到既定的假设空间，并且随机森林采用Bootstrap抽样，可以降低机器学习模型对数据的依赖能力，降低模型的的方差，使得模型拥有更好的泛化能力。

实验设备与所需环境

Win7 32位操作***，Intel Xeon E5处理器，CPU主频3.30Ghz，内存16G。实验代码采用python，深度学习环境为tensorflow结合Scikit learn框架。

实验结果与说明

本方法分别在Fudan中文数据集、NLPIR提供的Weibo数据集和MR评论情感分类数据集上进行实验。Fudan中文数据集中包含训练语料9804篇文档，测试语料共9833篇文档，共计20个类别，本发明使用Fudan中文数据集中的新闻标题作为短文本分类语料，且只选取了其中的5个类别分别为C3-Art、C32-Agriculture、C34-Economy、C7-History、C38-Politics，共计7120篇标题文档；WeiBo数据集中共计21个类别，本发明使用除“人文艺术”、“广告公共”、“校园”之外的所有类别，共计18个类别36412篇微博文本。对于没有划分训练集与测试集的WeiBo与MR数据集在实验中进行了10折交叉验证，实验结果有较强的说服力。

预处理及参数设置

实验中，采用两组词向量，第一组由word2vec中的skip-gram训练得到，第二组由glove模型得到，训练词向量的语料均采用各数据集自身训练得到，只对于复旦数据集，采用新闻内容和新闻标题共同作为词向量的训练语料。预处理过程中对中文采用Hanlp进行分词，去除停用词操作。两组词向量的维度都设置为100，卷积神经网络中过滤器尺寸分别为2，3，4，每种过滤器均设置100个，Dropout参数设置为0.5，L2正则参数为0.001。由于预处理方式和词向量语料与方法选择的差异，导致不同作者的实验结果在相同数据集上存在一定偏差。本文为了验证CNN-RF的分类性能，需要在相同预处理机制上，自行实现多种分类模型与本文的分类方法进行分类性能的比较实验。

实验设置与评价指标

本发明分别与朴素贝叶斯(NB)、分类与回归树(CART)、随机森林(RF)和Kim提出的CNN网络四种算法进行对比。其中NB、CART、RF中用做分类的特征向量均为其文本对应的词向量相加的形式。试验采取了精确率(accuracy)、准确率(precision)、召回率(recall)、F1值(F1-measure)作为评价标准，计算如下：

1)精确率(accuracy)：

2)准确率(precision)：

3)召回率(recall)：

4)F1值(F1-measure)：

其中TP表示正样本预测为正样本数目，TN表示负样本预测为负样本数量，FN表示正样本预测为负样本的数量，FP表示负数据预测为正样本的数量，N表示样本总数。之后实验分析了随着决策树个数的增加对RF与CNN-RF方法的影响，最后对比了CNN-RF方法与CNN算法的收敛速度分析对比。

实验结果分析

首先，对五种算法在3个数据集上进行精确率对比分析。由图3可见，本发明所提出的CNN-RF方法在3个数据集上精确率均为最高的，在Fudan数据集上相对于CNN提升了1.7％，在Weibo数据集上相对于CNN提升了1.6％，在MR数据集上提升了0.8％。基于深度学习的CNN方法得到的结果仅次于CNN-RF，且好于其他三种方法，NB、CART的精确率均低于集成学习方法RF，从实验结果分析可得，集成学习方法组合多个模型泛化能力较单模型有所提升，但弱于深度学习CNN方法。CNN通过提取抽象结构特征，所以会得到较优的精确率。CNN-RF结合了两者优势，所以取得较好结果。

五种算法在Fudan中文数据集上的结果如图4所示。由实验数据可见RF算法在准确率，召回率，F1值三个指标均超过CART与NB算法，可见基于集成学习的方法的确增加了对噪音的扰动能力，增强了分类器的泛化能力。且在准确率方面，RF算法比CNN高1.0％，但是在召回率上，CNN比RF算法高出6.1％，因此综合起来，在F1值上，CNN超过RF了2.5％，并且CNN在几种方法中达到了最优的召回率92.8％，比CNN-RF算法高出0.6％。除了在召回率不足CNN之外，CNN-RF算法进一步增强了模型泛化能力，准确率较之CNN提高了4.1％，F1值提高了1.9％，CNN-RF算法在精确率与F1值上取得了最优的结果。

五种算法在MR数据集上的结果如图5所示，MR数据集为二分类情感数据集。CNN-RF在三个评价指标上均是最高的，在F1测度上比CNN高出1.2％左右，比RF高出4.4％，且不同与其他两个数据集，CNN-RF在MR数据集上准确率、召回率、F1值均超过CNN，分别超过了1.5％，1.1％与1.3％。

五种算法在Weibo数据集上的结果如图6所示，由数据可见，RF的召回率仍表现不佳，但准确率比CNN算法高7.6％，相对来说CNN算法取得了最高的召回率，分别高出RF和CNN-RF算法15.6％与9.2％，导致RF的F1值比CNN算法低5.1％。但CNN由于准确率表现不佳，所以其F1值低于CNN-RF。CNN-RF在准确率与F1值上均得到了最佳的结果，在准确率上CNN-RF比CNN高出了11％，达到了最优的F1值，分别比RF与CNN高出6％与0.9％。

综上可知，CNN-RF方法对短文本数据集长度不敏感，双重词向量卷积神经网络可以充分提取特征，且模型泛化能力均好于其他四种算法。相比之下，CART算法与NB算法的效果最差，使用RF这种集成学习方式使得泛化能力有一定提升，但由于仅仅使用初始的word2vec提取的词向量并将词向量特征相加，导致分类效果差于CNN-RF。CNN-RF方法首先利用了双重词向量CNN提取的抽象高阶特征，而且组合多颗决策树增强了模型的泛化能力，在几个数据集上综合表现要好于CNN与RF。相对于CNN，在3个数据集上F1值分别提高了1.9％，0.9％与1.3％，实验结果验证了本发明方法的有效性。

关于随机森林中决策树数目参数的影响问题，在Fudan中文数据集上做了实验，结果见图7.1与图7.2，图中决策树数目的数量分别以10为增量由10增加到200，共20次。图7.1代表了RF算法，图7.2代表本文方法。可见初始时随着决策树数目n的增加，CNN-RF与RF的三个评价指标均在上升，在RF中当决策树数目达到80后，三个评测指标的结果便趋于稳定。而在CNN-RF中，数目达到50后，三个评测指标基本趋于稳定。

Claims

1.一种基于卷积神经网络与随机森林的短文本分类方法，其特征在于：该方法包括以下步骤：

步骤1：对待分类语料库中所有中文文本进行分词，分别使用word2vec和glove词向量训练工具得到语料库的两组词向量，将文本表示为两个维度相等的矩阵；分别对两个矩阵进行二维卷积操作，得到两个卷基层特征图；

步骤2：卷积操作之后，分别对两个卷基层特征图进行池化操作，得到两个池化层特征矩阵；对该池化层特征矩阵进行非线性sigmoid变换，得到两个池化层特征图；

步骤3：对步骤2得到的两个池化层特征图进行卷积操作，得到最终的单个全连接层特征图；

步骤4：将步骤3得到的全连接特征图作为随机森林层的输入数据集，对该数据集进行Boostrap采样，对于有m个样本的数据集D，进行m次有放回采样得到新数据集D′，明显D与D′大小相同，而且放回采样使得D′中有重复出现的样本，也有样本没有出现；

步骤5：对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART，Gini系数用于特征选择，用该特征将特征空间进行划分，划分之后从特征集合中去除此特征，对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件；此外为防止决策树过拟合现象的发生，采用预剪枝操作；将多个决策树组合起来，共同为样本的类别进行决策，采用投票法。

2.根据权利要求1所述的一种基于卷积神经网络与随机森林的短文本分类方法，其特征在于：

该方法的具体实施过程分为以预训练阶段与分类器训练阶段：

一：预训练阶段

步骤1：得到两组词向量后，对于数据集D，用x表示一篇文本，则

这里

变为向量拼接操作，n为训练语料中最长的句子的长度；对于长度不足n的文本则用特殊符号<PAD>进行补齐，使用(-0.25,0.25)之间的均匀分布生成的向量表示<PAD>；对于维度为k的词向量，每篇文本x表示为两个

的单通道(Channel)二维矩阵，即为两个输入层；

步骤2：分别对两个输入层进行卷积操作，使用

的过滤器作用于词向量序列x_i：i+h-1＝{x_i，x_i+1，...，x_i+h-1}上：

c_i＝f(W·x_i：i+h-1+b)

其中h即为过滤器在词语窗口上的尺寸，

为一个偏置项，f为非线性激活函数；过滤器W会作用于整个词向量序列{x_1：h，x_2：h+1，...，x_n-h+1：n}上，来产生卷积层特征图

C_conv＝[C_conv，1，C_conv，2，...，C_conv，n-h+1]

为充分提取特征，训练过程中设置不同跨度的过滤器m个，用{W₁，W₂，...W_m}表示，每种过滤器分别设置

个，令

其中l＝1，2分别代表两组词向量的池化层特征；

步骤5：全连接层特征之后接入Softmax分类器，整个预训练阶段的模型使用Adam批量梯度下降算法训练即可，用BP算法对各层参数调整，待收敛后记录下整个CNN的参数θ；训练时采用Dropout与L2正则防止过拟合；

二：分类器训练阶段

步骤6：读取步骤5中的参数θ，采用随机森林模型替换Softmax模型，将全连接层特征C_final送入随机森林进行训练；首先设置森林中决策树N的大小，进行Bootstrap抽样得到N个数据集，接下来学习N颗树中每颗树的参数θ₀，由于森林中各个树之间的训练过程相互没有影响，因此试验中采用并行训练的方式来加快速度；

T_i(x)是树i对样本x的分类结果，即投票法，c^*即为样本对应最终类别，N为随机森林中决策树的数目；由于随机森林的全连接层特征C_final维度不大，数据集中均有m×s＜10³，所以建立随机森林的开销非常小。