CN107704892B

CN107704892B - 一种基于贝叶斯模型的商品编码分类方法以及***

Info

Publication number: CN107704892B
Application number: CN201711086209.4A
Authority: CN
Inventors: 庞胜民; 王涛; 孙科武; 林文辉; 高哲; 张�浩
Original assignee: NINGBO AISINO Co Ltd; Aisino Corp
Current assignee: Ningbo Aisino Co., Ltd.; Aisino Corp
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2019-05-17
Anticipated expiration: 2037-11-07
Also published as: CN107704892A

Abstract

本发明提供了一种基于贝叶斯模型的商品编码分类方法以及***。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题，本申请对分词后的稀疏性词语采用同义词扩展技术，通过外部搜索引擎技术增加其词语同义度；进而，本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率，从而得到其贝叶斯编码分类模型，并以训练好的模型为输入的商品名提供商品编码类目的预测。

Description

一种基于贝叶斯模型的商品编码分类方法以及***

技术领域

本发明属于文本信息分析处理领域，更具体来说，涉及一种基于贝叶斯模型的商品编码分类方法以及***。

背景技术

在税控机、具有***开具功能的计算机软件等设备和应用当中，一般要根据商品的商品名，为其检索和赋予一个与商品名对应的税务商品编码。通用的税务商品编码结构由大类、子类等构成，具体到最详细一级的类目达4300多种，且商品编码分类规则中，主要规定了商品的品种，而对商品的品牌或其他属性未做详细说明。在开票过程中如果依赖人工进行商品分类，需要根据商品名判断属于该通用税务商品编码中的哪个类目，人工从这4300多个底层类目当中选择其中之一作为商品的税务商品编码，不但耗时耗力，并且准确性不高。

当前，商品种类多样化、形式多样化，且新商品每天都在以一定的速度增加，那么在商品编码分类这项工作具体实施过程中，如何快速地根据商品名来检索和赋码，也即是通过数据库查询匹配的手段，为商品名映射一个正确的税务商品编码类目，是在相关软硬件研发当中一个重要的内容。

依赖于数据库的模糊查询和关键词查询可以解决一部分商品名的赋码问题，但是因为商品名千差万别，且由于汉字的异构性导致这种方法的准确率不高。此外商品名呈现短文本特征，上下文语义缺失导致其存在语义稀疏性和语义敏感性，无法应用传统的统计模型。

因此，如何挖掘和建立商品名信息与商品编码规则信息之间的对应关系是当前亟待解决的问题。

发明内容

针对现有技术中的上述需要，本申请运用机器学习和数据挖掘技术，提供了一种基于贝叶斯模型的商品编码分类方法以及***。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题，本申请对分词后的稀疏性词语采用同义词扩展技术，通过外部搜索引擎技术增加其词语同义度；进而，本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率，从而得到其贝叶斯编码分类模型，并以训练好的模型为输入的商品名提供商品编码类目的预测。

本发明提供了一种基于贝叶斯模型的商品编码分类方法，其特征在于，包括以下步骤：

样本集构建步骤，从历史数据当中，获得包含商品名信息与对应商品编码类目的样本数据，汇合为样本集；

分词处理步骤，对样本集当中原始商品名信息基于语法树分词，并参照停用词表去除商品名信息当中的停用词，形成词序列；

同义词扩展步骤，对于所述词序列中的词，根据互联网语料库的搜索扩展其同义词；并且对扩展后的词序列通过序列标注法确定中心词，为词序列中的词赋予不同的权重，获得具有权重的词序列；

贝叶斯模型训练步骤，基于贝叶斯公式，计算商品名归属于各个编码类目的条件概率，建立贝叶斯编码分类模型；

分类预测步骤，对于待预测编码类目的商品名，执行分词、去除停用词和同义词扩展处理，调用上述贝叶斯编码分类模型，查询与该商品名对应的各个类目出现的条件概率，取最大概率的类目作为对商品名分类的预测结果。

优选的是，所述同义词扩展步骤中，计算相似度值t：

其中，p_i,p_j为任意两个商品的商品名，t_k,t_l，t_i,t_j为商品名p_i,p_j经过分词后的特征词，f(t_k)和f(t_l)是用特征词t_k,t_l在互联网语料库内进行检索得到的结果个数，f(t_k,t_l)是用词t_k,t_l共同检索网页得到的结果个数；G是全网络所有信息的个数；并且，设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。

优选的是，同义词扩展步骤中，对中心词分配的权重占比为80％，其他词平均分配剩余的20％权重占比，从而为词序列当中的每个词确定权重。

优选的是，贝叶斯模型训练步骤包括：

(1)统计样本集数据中的每个类目的频率，即类c_i占总类别C的比重：

(2)计算在样本集数据当中商品名词序列W出现的概率p(W)：

其中，M是样本中的总词数，和分别是词w_i和t_i出现的次数；

(3)计算条件概率，编码类目c中出现词序列W概率p(W|c_i)：

其中，M_c是样本集的类目c中的总词数，和是类目c中词w_i和t_i出现的次数；

(4)根据贝叶斯公式计算出现某个商品名W时，其归属于类目c的条件概率p(c_i|W)：

经过以上步骤得到的条件概率p(c_i|W)存入字典库。

进一步优选的是，步骤(4)中根据贝叶斯公式计算时，还结合商品名所属的行业信息，计算出现某个商品名W时其归属于类目c的条件概率p(c_i|W，D)：

其中，

其中D是行业描述语义信息；绝对值表示的是D的集合的值，d是对行业语义信息进行分词后的词序列集合。

本发明进而提供了一种基于贝叶斯模型的商品编码分类***，其特征在于，包括：

样本集模块，用于从历史数据当中，获得包含商品名信息与对应商品编码类目的样本数据，汇合为样本集；对样本集当中原始商品名信息基于语法树分词，并参照停用词表去除商品名信息当中的停用词，形成词序列；对于所述词序列中的词，根据互联网语料库的搜索扩展其同义词；并且对扩展后的词序列通过序列标注法确定中心词，为词序列中的词赋予不同的权重，获得具有权重的词序列；

贝叶斯模型训练模块，用于基于贝叶斯公式，计算商品名归属于各个编码类目的条件概率，建立贝叶斯编码分类模型；

分类预测模块，用于对于待预测编码类目的商品名，执行分词、去除停用词和同义词扩展处理，调用上述贝叶斯编码分类模型，查询与该商品名对应的各个类目出现的条件概率，取最大概率的类目作为对商品名分类的预测结果。

优选的是，样本集模块如下执行同义词扩展：

计算相似度值t：

其中，p_i,p_j为任意两个商品的商品名，t_k,t_l，t_i,t_j为商品名p_i,p_j经过分词后的特征词，f(t_k)和f(t_l)是用特征词t_k,t_l在互联网语料库内进行检索网页得到的结果个数，f(t_k,t_l)是用词t_k,t_l共同检索网页得到的结果个数；并且，设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。

优选的是，样本集模块执行同义词扩展过程中，对中心词分配的权重占比为80％，其他词平均分配剩余的20％权重占比，从而为词序列当中的每个词确定权重。

优选的是，贝叶斯模型训练模块如下执行贝叶斯模型训练：

(2)计算在样本集数据当中商品名词序列W出现的概率p(W)：

其中，M是样本中的总词数，和分别是词w_i和t_i出现的次数；

(3)计算条件概率，编码类目c中出现词序列W概率p(W|c_i)：

其中，M_c是样本集的类目c的总词数，和是类目c中词w_i和t_i出现的次数；

经过以上步骤得到的条件概率p(c_i|W)存入字典库。

进一步优选的是，贝叶斯模型训练模块在根据贝叶斯公式计算条件概率时，还结合商品名所属的行业信息，计算出现某个商品名W时其归属于类目c的条件概率p(c_i|W，D)：

其中，

D是行业描述语义信息，绝对值表示的是D的集合的值，d是对行业语义信息进行分词后的词序列集合。

本发明的有益效果在于：与现有的短文本分类模型相比，对短文本的语义进行扩展，利用预训练的词表示集合，引入大量外部信息，利用外部搜索引擎进行短文本的语义扩展，有效的解决了短文本上下文语义信息稀疏性的问题。本发明使用句法分析树对短语进行分词和词性标注，并通过序列关系确定了中心词，并采用先验知识确定其中心词在分词模型中所占的比重。在此基础上本专利改进了贝叶斯模型，引入行业信息，在此先验知识的基础上，使用贝叶斯分类模型对商品名信息进行分类。与已有方法相比，此模型最大限度的利用了商品名信息，并缓解了预分类词的稀疏性和语义敏感性问题，充分利用了词语之间的序列信息，使得贝叶斯分类效果有了较大提高，有效解决了商品编码分类问题。

附图说明

图1是本发明所述商品编码分类***架构示意图；

图2是本发明当中特征词序列生成过程示意图；

图3是本发明分词、同义词扩展及建立贝叶斯编码分类模型的实施流程图。

具体实施方式

下面结合实施例对本发明的技术方案作进一步的说明，应理解，以下实施例只用于对本发明进行进一步说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本申请主要研究基于贝叶斯模型，实现商品名与税务商品编码类目之间的预测建模，构造商品名信息与编码类目之间的概率模型。在由历史***信息所产生的历史数据当中，存在大量的包含商品名与对应编码类目的样本信息，此外还有通用的商品编码分类标准作为规则数据，利用样本信息和规则数据，可以获得有效的样本集，样本数据可供用于挖掘潜在的商品名和编码类目之间的关系模型，利用关系模型进行商品编码类目预测。基于贝叶斯理论，首先对样本数据中存在的商品名信息进行自然语言处理，包括分词、去除停用词和扩展同义词等操作，丰富其由于短文本带来的语义稀疏性等问题，生成特征词。对于所生成的特征词，采用贝叶斯模型计算特征词与编码类目之间的条件概率，从而得到其贝叶斯编码分类模型，并将训练好的模型离线存储。对于待预测类目的商品名，经过分词、去除停用词处理后，调用贝叶斯编码分类模型，预测其编码类目的分类结果，根据需要制定结果结构。

图1是本申请基于贝叶斯模型的商品编码分类***结构图。在图1可见，本发明的***架构分成两大框架：离线部分和在线部分。

离线部分是通过处理和扩展样本库并结合规则集，通过训练生成贝叶斯编码分类模型的部分，主要包括：样本集模块、贝叶斯模型训练模块。在线部分是分类预测模块，对于待预测编码类目的商品名，经过分词、去除停用词和同义词扩展的处理之后，调用上述离线部分建立的贝叶斯编码分类模型，预测其分类结果，根据需要制定结果结构。

样本集模块从由历史***信息所产生的历史数据当中，获得大量的包含商品名信息与对应编码类目的样本数据，汇合为样本集。在原始的样本数据当中，商品名呈现短文本特征，短文本由于受其长度的影响，所包含的词语共现和上下文信息不足。因此，本申请的样本集模块对样本数据执行分词处理、去除停用词处理和同义词扩充，从而，采用词语相似度计算扩展其同义词，丰富样本集。

如图2所示，该样本集模块在上述扩展同义词、丰富样本集过程中，利用结构化的历史信息以及非结构化的互联网语料库，对于样本数据进行处理，包括语义挖掘、知识库学习和中心词学习三个方面。在语义挖掘方面，首先对历史信息中获得样本数据进行分词；并且，在分词处理之后再进行去除停用词的处理。然后，在知识库学习方面，对于分词后的词语采用Google Distance技术扩充同义词，即对单个词语根据外部语料库丰富其同义词的过程。以上过程中，还可以通过中心词学习，根据词性和词语序列基于不同位置赋给不同的词不同的权重。

样本集模块在基于语义挖掘而进行的分词处理当中，从样本数据当中提取有效数据，充实待分类信息。分词处理就是将一句话或者一个短语按照语义特性分成若干个词语的过程，分词策略采用JieBa工具，对于原始的商品名信息，基于Trie语法树结构，生成所有汉字组合构成的有向无环图(DAG)，采用动态规划查找最大概率路径，找到基于词频的最大切分组合；对于未登录词，采用基于汉字成词能力的HMM模型，将商品名的词序列视作一个序列标注问题，句子为观测序列，分词结果为状态序列。首先通过语料训练出HMM相关的模型，然后利用Viterbi算法进行求解，最终得到最优的状态序列，然后再根据状态序列，输出分词的结果W。样本集模块还执行去除停用词处理，利用停用词表去除商品名信息中出现的停用词。对于短文本商品名信息W，经过分词和去除停用词处理后的词序列为W＝{w₁，…，w_m}。

样本集模块基于知识库学习而对W进行同义词扩展，通过对互联网语料库(例如***等网站)的学习，扩充同义词。具体来说，如下计算相似度值t：

其中，p_i,p_j为任意两个商品的商品名，t_k,t_l，t_i,t_j为商品名p_i,p_j经过分词后的特征词，f(t_k)和f(t_l)分别表示用特征词t_k,t_l在互联网语料库内进行检索网页得到的结果个数，f(t_k,t_l)是用词t_k,t_l共同检索网页得到的结果个数，G是全网络所有信息的个数，根据*** distance技术，G指的是通过Google搜索引擎，不适用关键字的搜索结果的信息条数；全网络是指通过搜索引擎能够获得的信息的条数，G作为计算其相似度的一个分母。设置相似度阈值ξ,如果相似度值t大于ξ则说明两个词相似度接近，可以视为同义词，该ξ采用经验值0.8。使用以上方法对W进行扩展，扩展后的W＝{w₁，w₂，…w_m，t₁，…t_h}，其中t₁，…，t_h表示在扩展W过程中被纳入的特征词，这些特征词t₁，…，t_h通过上述相似度值计算被判定属于w₁，w₂，…w_m的同义词。

样本集模块基于中心词学***均分配剩余的20％权重占比，从而为词序列当中的每个词确定权重。经过中心词学习后的词序列θ和表示权重值。

贝叶斯模型训练模块根据待分类的商品名确定其与之对应的商品编码类目。因而，贝叶斯模型训练模块基于样本集的数据，计算当某个商品名出现的条件下各个编码类目出现的概率，取最大概率的商品编码类目作为所预测的分类结果，从而建立了贝叶斯编码分类模型。

下面具体介绍该贝叶斯模型训练模块执行的训练步骤：

1.统计样本集数据中的每个类目的频率，即类c_i占总类别C的比重

2.计算在样本集数据当中商品名词序列W出现的概率p(W)

其中，M是样本中的总词数，和分别是词w_i和t_i出现的次数。

3.计算条件概率，编码类目c中出现词序列W概率p(W|c_i)

其中，M_c是样本集的类目C中的总词数，和是类目c中词w_i和t_i出现的次数。

4.根据贝叶斯公式计算出现某个商品名W时，其归属于类目c的条件概率p(c_i|W)。

经过以上步骤得到的条件概率p(c_i|W)存入字典库，在进行实施分类时直接调用字典库进行分类。在以上过程中，通过同义词扩展等技术弥补了商品名称的短文本特征带来的不足，使得语义信息更加丰富和全面。

或者，作为一种优选的方案，本申请还提出在此模型的基础上加入商品名所属的行业信息D，从而步骤4中的公式4变为公式5。

其中，

D是行业描述语义信息，公式6里面绝对值表示的是D的集合的值，d是对行业语义信息进行分词后的词序列集合。

通过以上步骤,贝叶斯模型训练模块完成了确定商品名-编码类目的条件概率的训练，建立了编码分类模型。本***离线部分通过样本集模块和贝叶斯模型训练模块对样本数据所执行的分词、去除停用词、同义词扩展等处理以及基于贝叶斯模型建立编码类目－商品名之间概率的过程，也可以参见图3所示的实施流程图。

进而，如图1所示，在线部分是对于待预测编码类目的商品名，同样执行上述分词处理、去除停用词处理和同义词扩展处理，之后调用上述离线部分建立的贝叶斯编码分类模型，查询与该商品名对应的各个类目出现的条件概率，取最大概率的类目作为对商品名分类的预测结果。

可见，本发明的创新点在于：提出根据Google Distance利用外部搜索引擎的语料计算词语相似度，扩展同义词；并且提出基于词性标注确定词权重的方法；以及提出基于贝叶斯模型进行短文本分类的基本框架。

利用本发明提供的基于贝叶斯模型的商品编码分类方法以及***，具有如下优点：与现有的短文本分类模型相比，对短文本的语义进行扩展，利用预训练的词表示集合，引入大量外部信息，利用外部搜索引擎进行短文本的语义扩展，有效的解决了短文本上下文语义信息稀疏性的问题。本发明使用句法分析树对短语进行分词和词性标注，并通过序列关系确定了中心词，并采用先验知识确定其中心词在分词模型中所占的比重。在此基础上本专利改进了贝叶斯模型，引入行业信息，在此先验知识的基础上，使用贝叶斯分类模型对商品名信息进行分类。与已有方法相比，此模型最大限度的利用了商品名信息，并缓解了预分类词的稀疏性和语义敏感性问题，充分利用了词语之间的序列信息，使得贝叶斯分类效果有了较大提高，有效解决了商品编码分类问题。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于贝叶斯模型的商品编码分类方法，其特征在于，包括以下步骤：

分类预测步骤，对于待预测编码类目的商品名，执行分词、去除停用词和同义词扩展处理，调用上述贝叶斯编码分类模型，查询与该商品名对应的各个类目出现的条件概率，取最大概率的类目作为对商品名分类的预测结果；

其中，贝叶斯模型训练步骤包括：

(2)计算在样本集数据当中商品名词序列W出现的概率p(W)：

其中，M是样本中的总词数，词w_i为词序列中的词，t_i为同义词扩展过程中扩展的同义词，和分别是词w_i和t_i出现的次数；θ_i和分别表示词w_i和t_i各自对应的权重值；

(3)计算条件概率，编码类目c中出现词序列W概率p(W|c_i)：

(4)结合商品名所属的行业信息，计算出现某个商品名W时其归属于类目c的条件概率p(c_i|W，D)：

其中，

2.根据权利要求1所述的商品编码分类方法，其特征在于，同义词扩展步骤中，对中心词分配的权重占比为80％，其他词平均分配剩余的20％权重占比，从而为词序列当中的每个词确定权重。

3.一种基于贝叶斯模型的商品编码分类***，其特征在于，包括：

分类预测模块，用于对于待预测编码类目的商品名，执行分词、去除停用词和同义词扩展处理，调用上述贝叶斯编码分类模型，查询与该商品名对应的各个类目出现的条件概率，取最大概率的类目作为对商品名分类的预测结果；

其中，贝叶斯模型训练模块如下执行贝叶斯模型训练：

(2)计算在样本集数据当中商品名词序列W出现的概率p(W)：

(3)计算条件概率，编码类目c中出现词序列W概率p(W|c_i)：

其中，

4.根据权利要求3所述的商品编码分类***，其特征在于，样本集模块执行同义词扩展过程中，对中心词分配的权重占比为80％，其他词平均分配剩余的20％权重占比，从而为词序列当中的每个词确定权重。