CN107704892B - 一种基于贝叶斯模型的商品编码分类方法以及*** - Google Patents

一种基于贝叶斯模型的商品编码分类方法以及*** Download PDF

Info

Publication number
CN107704892B
CN107704892B CN201711086209.4A CN201711086209A CN107704892B CN 107704892 B CN107704892 B CN 107704892B CN 201711086209 A CN201711086209 A CN 201711086209A CN 107704892 B CN107704892 B CN 107704892B
Authority
CN
China
Prior art keywords
word
classification
trade name
sequence
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711086209.4A
Other languages
English (en)
Other versions
CN107704892A (zh
Inventor
庞胜民
王涛
孙科武
林文辉
高哲
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Aisino Co., Ltd.
Aisino Corp
Original Assignee
NINGBO AISINO Co Ltd
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO AISINO Co Ltd, Aisino Corp filed Critical NINGBO AISINO Co Ltd
Priority to CN201711086209.4A priority Critical patent/CN107704892B/zh
Publication of CN107704892A publication Critical patent/CN107704892A/zh
Application granted granted Critical
Publication of CN107704892B publication Critical patent/CN107704892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于贝叶斯模型的商品编码分类方法以及***。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题,本申请对分词后的稀疏性词语采用同义词扩展技术,通过外部搜索引擎技术增加其词语同义度;进而,本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率,从而得到其贝叶斯编码分类模型,并以训练好的模型为输入的商品名提供商品编码类目的预测。

Description

一种基于贝叶斯模型的商品编码分类方法以及***
技术领域
本发明属于文本信息分析处理领域,更具体来说,涉及一种基于贝叶斯模型的商品编码分类方法以及***。
背景技术
在税控机、具有***开具功能的计算机软件等设备和应用当中,一般要根据商品的商品名,为其检索和赋予一个与商品名对应的税务商品编码。通用的税务商品编码结构由大类、子类等构成,具体到最详细一级的类目达4300多种,且商品编码分类规则中,主要规定了商品的品种,而对商品的品牌或其他属性未做详细说明。在开票过程中如果依赖人工进行商品分类,需要根据商品名判断属于该通用税务商品编码中的哪个类目,人工从这4300多个底层类目当中选择其中之一作为商品的税务商品编码,不但耗时耗力,并且准确性不高。
当前,商品种类多样化、形式多样化,且新商品每天都在以一定的速度增加,那么在商品编码分类这项工作具体实施过程中,如何快速地根据商品名来检索和赋码,也即是通过数据库查询匹配的手段,为商品名映射一个正确的税务商品编码类目,是在相关软硬件研发当中一个重要的内容。
依赖于数据库的模糊查询和关键词查询可以解决一部分商品名的赋码问题,但是因为商品名千差万别,且由于汉字的异构性导致这种方法的准确率不高。此外商品名呈现短文本特征,上下文语义缺失导致其存在语义稀疏性和语义敏感性,无法应用传统的统计模型。
因此,如何挖掘和建立商品名信息与商品编码规则信息之间的对应关系是当前亟待解决的问题。
发明内容
针对现有技术中的上述需要,本申请运用机器学习和数据挖掘技术,提供了一种基于贝叶斯模型的商品编码分类方法以及***。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题,本申请对分词后的稀疏性词语采用同义词扩展技术,通过外部搜索引擎技术增加其词语同义度;进而,本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率,从而得到其贝叶斯编码分类模型,并以训练好的模型为输入的商品名提供商品编码类目的预测。
本发明提供了一种基于贝叶斯模型的商品编码分类方法,其特征在于,包括以下步骤:
样本集构建步骤,从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;
分词处理步骤,对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;
同义词扩展步骤,对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;
贝叶斯模型训练步骤,基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;
分类预测步骤,对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。
优选的是,所述同义词扩展步骤中,计算相似度值t:
其中,pi,pj为任意两个商品的商品名,tk,tl,ti,tj为商品名pi,pj经过分词后的特征词,f(tk)和f(tl)是用特征词tk,tl在互联网语料库内进行检索得到的结果个数,f(tk,tl)是用词tk,tl共同检索网页得到的结果个数;G是全网络所有信息的个数;并且,设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。
优选的是,同义词扩展步骤中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。
优选的是,贝叶斯模型训练步骤包括:
(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:
(2)计算在样本集数据当中商品名词序列W出现的概率p(W):
其中,M是样本中的总词数,分别是词wi和ti出现的次数;
(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):
其中,Mc是样本集的类目c中的总词数,是类目c中词wi和ti出现的次数;
(4)根据贝叶斯公式计算出现某个商品名W时,其归属于类目c的条件概率p(ci|W):
经过以上步骤得到的条件概率p(ci|W)存入字典库。
进一步优选的是,步骤(4)中根据贝叶斯公式计算时,还结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):
其中,
其中D是行业描述语义信息;绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。
本发明进而提供了一种基于贝叶斯模型的商品编码分类***,其特征在于,包括:
样本集模块,用于从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;
贝叶斯模型训练模块,用于基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;
分类预测模块,用于对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。
优选的是,样本集模块如下执行同义词扩展:
计算相似度值t:
其中,pi,pj为任意两个商品的商品名,tk,tl,ti,tj为商品名pi,pj经过分词后的特征词,f(tk)和f(tl)是用特征词tk,tl在互联网语料库内进行检索网页得到的结果个数,f(tk,tl)是用词tk,tl共同检索网页得到的结果个数;并且,设置相似度阈值ξ,如果相似度值t大于ξ则视为同义词。
优选的是,样本集模块执行同义词扩展过程中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。
优选的是,贝叶斯模型训练模块如下执行贝叶斯模型训练:
(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:
(2)计算在样本集数据当中商品名词序列W出现的概率p(W):
其中,M是样本中的总词数,分别是词wi和ti出现的次数;
(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):
其中,Mc是样本集的类目c的总词数,是类目c中词wi和ti出现的次数;
(4)根据贝叶斯公式计算出现某个商品名W时,其归属于类目c的条件概率p(ci|W):
经过以上步骤得到的条件概率p(ci|W)存入字典库。
进一步优选的是,贝叶斯模型训练模块在根据贝叶斯公式计算条件概率时,还结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):
其中,
D是行业描述语义信息,绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。
本发明的有益效果在于:与现有的短文本分类模型相比,对短文本的语义进行扩展,利用预训练的词表示集合,引入大量外部信息,利用外部搜索引擎进行短文本的语义扩展,有效的解决了短文本上下文语义信息稀疏性的问题。本发明使用句法分析树对短语进行分词和词性标注,并通过序列关系确定了中心词,并采用先验知识确定其中心词在分词模型中所占的比重。在此基础上本专利改进了贝叶斯模型,引入行业信息,在此先验知识的基础上,使用贝叶斯分类模型对商品名信息进行分类。与已有方法相比,此模型最大限度的利用了商品名信息,并缓解了预分类词的稀疏性和语义敏感性问题,充分利用了词语之间的序列信息,使得贝叶斯分类效果有了较大提高,有效解决了商品编码分类问题。
附图说明
图1是本发明所述商品编码分类***架构示意图;
图2是本发明当中特征词序列生成过程示意图;
图3是本发明分词、同义词扩展及建立贝叶斯编码分类模型的实施流程图。
具体实施方式
下面结合实施例对本发明的技术方案作进一步的说明,应理解,以下实施例只用于对本发明进行进一步说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本申请主要研究基于贝叶斯模型,实现商品名与税务商品编码类目之间的预测建模,构造商品名信息与编码类目之间的概率模型。在由历史***信息所产生的历史数据当中,存在大量的包含商品名与对应编码类目的样本信息,此外还有通用的商品编码分类标准作为规则数据,利用样本信息和规则数据,可以获得有效的样本集,样本数据可供用于挖掘潜在的商品名和编码类目之间的关系模型,利用关系模型进行商品编码类目预测。基于贝叶斯理论,首先对样本数据中存在的商品名信息进行自然语言处理,包括分词、去除停用词和扩展同义词等操作,丰富其由于短文本带来的语义稀疏性等问题,生成特征词。对于所生成的特征词,采用贝叶斯模型计算特征词与编码类目之间的条件概率,从而得到其贝叶斯编码分类模型,并将训练好的模型离线存储。对于待预测类目的商品名,经过分词、去除停用词处理后,调用贝叶斯编码分类模型,预测其编码类目的分类结果,根据需要制定结果结构。
图1是本申请基于贝叶斯模型的商品编码分类***结构图。在图1可见,本发明的***架构分成两大框架:离线部分和在线部分。
离线部分是通过处理和扩展样本库并结合规则集,通过训练生成贝叶斯编码分类模型的部分,主要包括:样本集模块、贝叶斯模型训练模块。在线部分是分类预测模块,对于待预测编码类目的商品名,经过分词、去除停用词和同义词扩展的处理之后,调用上述离线部分建立的贝叶斯编码分类模型,预测其分类结果,根据需要制定结果结构。
样本集模块从由历史***信息所产生的历史数据当中,获得大量的包含商品名信息与对应编码类目的样本数据,汇合为样本集。在原始的样本数据当中,商品名呈现短文本特征,短文本由于受其长度的影响,所包含的词语共现和上下文信息不足。因此,本申请的样本集模块对样本数据执行分词处理、去除停用词处理和同义词扩充,从而,采用词语相似度计算扩展其同义词,丰富样本集。
如图2所示,该样本集模块在上述扩展同义词、丰富样本集过程中,利用结构化的历史信息以及非结构化的互联网语料库,对于样本数据进行处理,包括语义挖掘、知识库学习和中心词学习三个方面。在语义挖掘方面,首先对历史信息中获得样本数据进行分词;并且,在分词处理之后再进行去除停用词的处理。然后,在知识库学习方面,对于分词后的词语采用Google Distance技术扩充同义词,即对单个词语根据外部语料库丰富其同义词的过程。以上过程中,还可以通过中心词学习,根据词性和词语序列基于不同位置赋给不同的词不同的权重。
样本集模块在基于语义挖掘而进行的分词处理当中,从样本数据当中提取有效数据,充实待分类信息。分词处理就是将一句话或者一个短语按照语义特性分成若干个词语的过程,分词策略采用JieBa工具,对于原始的商品名信息,基于Trie语法树结构,生成所有汉字组合构成的有向无环图(DAG),采用动态规划查找最大概率路径,找到基于词频的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型,将商品名的词序列视作一个序列标注问题,句子为观测序列,分词结果为状态序列。首先通过语料训练出HMM相关的模型,然后利用Viterbi算法进行求解,最终得到最优的状态序列,然后再根据状态序列,输出分词的结果W。样本集模块还执行去除停用词处理,利用停用词表去除商品名信息中出现的停用词。对于短文本商品名信息W,经过分词和去除停用词处理后的词序列为W={w1,…,wm}。
样本集模块基于知识库学习而对W进行同义词扩展,通过对互联网语料库(例如***等网站)的学习,扩充同义词。具体来说,如下计算相似度值t:
其中,pi,pj为任意两个商品的商品名,tk,tl,ti,tj为商品名pi,pj经过分词后的特征词,f(tk)和f(tl)分别表示用特征词tk,tl在互联网语料库内进行检索网页得到的结果个数,f(tk,tl)是用词tk,tl共同检索网页得到的结果个数,G是全网络所有信息的个数,根据*** distance技术,G指的是通过Google搜索引擎,不适用关键字的搜索结果的信息条数;全网络是指通过搜索引擎能够获得的信息的条数,G作为计算其相似度的一个分母。设置相似度阈值ξ,如果相似度值t大于ξ则说明两个词相似度接近,可以视为同义词,该ξ采用经验值0.8。使用以上方法对W进行扩展,扩展后的W={w1,w2,…wm,t1,…th},其中t1,…,th表示在扩展W过程中被纳入的特征词,这些特征词t1,…,th通过上述相似度值计算被判定属于w1,w2,…wm的同义词。
样本集模块基于中心词学***均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。经过中心词学习后的词序列θ和表示权重值。
贝叶斯模型训练模块根据待分类的商品名确定其与之对应的商品编码类目。因而,贝叶斯模型训练模块基于样本集的数据,计算当某个商品名出现的条件下各个编码类目出现的概率,取最大概率的商品编码类目作为所预测的分类结果,从而建立了贝叶斯编码分类模型。
下面具体介绍该贝叶斯模型训练模块执行的训练步骤:
1.统计样本集数据中的每个类目的频率,即类ci占总类别C的比重
2.计算在样本集数据当中商品名词序列W出现的概率p(W)
其中,M是样本中的总词数,分别是词wi和ti出现的次数。
3.计算条件概率,编码类目c中出现词序列W概率p(W|ci)
其中,Mc是样本集的类目C中的总词数,是类目c中词wi和ti出现的次数。
4.根据贝叶斯公式计算出现某个商品名W时,其归属于类目c的条件概率p(ci|W)。
经过以上步骤得到的条件概率p(ci|W)存入字典库,在进行实施分类时直接调用字典库进行分类。在以上过程中,通过同义词扩展等技术弥补了商品名称的短文本特征带来的不足,使得语义信息更加丰富和全面。
或者,作为一种优选的方案,本申请还提出在此模型的基础上加入商品名所属的行业信息D,从而步骤4中的公式4变为公式5。
其中,
D是行业描述语义信息,公式6里面绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。
通过以上步骤,贝叶斯模型训练模块完成了确定商品名-编码类目的条件概率的训练,建立了编码分类模型。本***离线部分通过样本集模块和贝叶斯模型训练模块对样本数据所执行的分词、去除停用词、同义词扩展等处理以及基于贝叶斯模型建立编码类目-商品名之间概率的过程,也可以参见图3所示的实施流程图。
进而,如图1所示,在线部分是对于待预测编码类目的商品名,同样执行上述分词处理、去除停用词处理和同义词扩展处理,之后调用上述离线部分建立的贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果。
可见,本发明的创新点在于:提出根据Google Distance利用外部搜索引擎的语料计算词语相似度,扩展同义词;并且提出基于词性标注确定词权重的方法;以及提出基于贝叶斯模型进行短文本分类的基本框架。
利用本发明提供的基于贝叶斯模型的商品编码分类方法以及***,具有如下优点:与现有的短文本分类模型相比,对短文本的语义进行扩展,利用预训练的词表示集合,引入大量外部信息,利用外部搜索引擎进行短文本的语义扩展,有效的解决了短文本上下文语义信息稀疏性的问题。本发明使用句法分析树对短语进行分词和词性标注,并通过序列关系确定了中心词,并采用先验知识确定其中心词在分词模型中所占的比重。在此基础上本专利改进了贝叶斯模型,引入行业信息,在此先验知识的基础上,使用贝叶斯分类模型对商品名信息进行分类。与已有方法相比,此模型最大限度的利用了商品名信息,并缓解了预分类词的稀疏性和语义敏感性问题,充分利用了词语之间的序列信息,使得贝叶斯分类效果有了较大提高,有效解决了商品编码分类问题。
以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于贝叶斯模型的商品编码分类方法,其特征在于,包括以下步骤:
样本集构建步骤,从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;
分词处理步骤,对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;
同义词扩展步骤,对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;
贝叶斯模型训练步骤,基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;
分类预测步骤,对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果;
其中,贝叶斯模型训练步骤包括:
(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:
(2)计算在样本集数据当中商品名词序列W出现的概率p(W):
其中,M是样本中的总词数,词wi为词序列中的词,ti为同义词扩展过程中扩展的同义词,分别是词wi和ti出现的次数;θi分别表示词wi和ti各自对应的权重值;
(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):
其中,Mc是样本集的类目c中的总词数,是类目c中词wi和ti出现的次数;
(4)结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):
其中,
其中D是行业描述语义信息;绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。
2.根据权利要求1所述的商品编码分类方法,其特征在于,同义词扩展步骤中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。
3.一种基于贝叶斯模型的商品编码分类***,其特征在于,包括:
样本集模块,用于从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;
贝叶斯模型训练模块,用于基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;
分类预测模块,用于对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果;
其中,贝叶斯模型训练模块如下执行贝叶斯模型训练:
(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:
(2)计算在样本集数据当中商品名词序列W出现的概率p(W):
其中,M是样本中的总词数,词wi为词序列中的词,ti为同义词扩展过程中扩展的同义词,分别是词wi和ti出现的次数;θi分别表示词wi和ti各自对应的权重值;
(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):
其中,Mc是样本集的类目c的总词数,是类目c中词wi和ti出现的次数;
(4)结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):
其中,
D是行业描述语义信息,绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。
4.根据权利要求3所述的商品编码分类***,其特征在于,样本集模块执行同义词扩展过程中,对中心词分配的权重占比为80%,其他词平均分配剩余的20%权重占比,从而为词序列当中的每个词确定权重。
CN201711086209.4A 2017-11-07 2017-11-07 一种基于贝叶斯模型的商品编码分类方法以及*** Active CN107704892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711086209.4A CN107704892B (zh) 2017-11-07 2017-11-07 一种基于贝叶斯模型的商品编码分类方法以及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711086209.4A CN107704892B (zh) 2017-11-07 2017-11-07 一种基于贝叶斯模型的商品编码分类方法以及***

Publications (2)

Publication Number Publication Date
CN107704892A CN107704892A (zh) 2018-02-16
CN107704892B true CN107704892B (zh) 2019-05-17

Family

ID=61178686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711086209.4A Active CN107704892B (zh) 2017-11-07 2017-11-07 一种基于贝叶斯模型的商品编码分类方法以及***

Country Status (1)

Country Link
CN (1) CN107704892B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491390A (zh) * 2018-03-28 2018-09-04 江苏满运软件科技有限公司 一种干线物流货物名称自动识别分类方法
CN108985465A (zh) * 2018-05-21 2018-12-11 许继电气股份有限公司 一种换流站故障分类方法及***
CN110851587B (zh) * 2018-07-25 2024-04-05 阿里巴巴集团控股有限公司 商品编码预测模型生成和确定商品编码方法、装置及设备
CN110874407A (zh) * 2018-08-14 2020-03-10 中国软件与技术服务股份有限公司 一种增值税***商品和服务税收分类编码识别及纠错方法
CN110858219A (zh) * 2018-08-17 2020-03-03 菜鸟智能物流控股有限公司 物流对象信息处理方法、装置及计算机***
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和***
CN110968685B (zh) * 2018-09-26 2023-06-20 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN109582788A (zh) * 2018-11-09 2019-04-05 北京京东金融科技控股有限公司 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN109766440B (zh) * 2018-12-17 2023-09-01 航天信息股份有限公司 一种用于为对象文本描述确定默认分类信息的方法及***
CN111353838A (zh) * 2018-12-21 2020-06-30 北京京东尚科信息技术有限公司 自动化校验商品类目的方法和装置
CN109871861B (zh) * 2018-12-27 2023-05-23 航天信息股份有限公司 一种用于为目标数据提供编码的***及方法
CN111444335B (zh) * 2019-01-17 2023-04-07 阿里巴巴集团控股有限公司 中心词的提取方法及装置
CN111597296A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 商品数据的处理方法、装置和***
CN110222190A (zh) * 2019-06-20 2019-09-10 网易(杭州)网络有限公司 数据增强方法、***、设备及计算机可读存储介质
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、***及设备
CN110347801A (zh) * 2019-07-17 2019-10-18 安徽航天信息有限公司 一种商品分类编码匹配方法及***
CN110597995B (zh) * 2019-09-20 2022-03-11 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN111159552A (zh) * 2019-12-30 2020-05-15 北京每日优鲜电子商务有限公司 商品搜索方法、装置、服务器和存储介质
CN111651512B (zh) * 2020-05-27 2022-06-10 福建博思软件股份有限公司 基于半监督学习的多源异构商品特征权重求解方法和装置
CN111881265B (zh) * 2020-09-28 2020-12-29 成都数联铭品科技有限公司 报关单商品信息的处理方法及***、存储介质及电子设备
CN112767081A (zh) * 2021-01-19 2021-05-07 广州新丝路信息科技有限公司 一种跨境保税仓商品分类方法及装置
CN112925958A (zh) * 2021-02-05 2021-06-08 深圳力维智联技术有限公司 多源异构数据适配方法、装置、设备及可读存储介质
CN113704469B (zh) * 2021-08-18 2022-04-15 百融至信(北京)征信有限公司 一种基于贝叶斯定理的短文本分类数据集矫正方法及***
CN116166805B (zh) * 2023-02-24 2023-09-22 北京青萌数海科技有限公司 一种预测商品编码的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与***
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其***
CN104699772B (zh) * 2015-03-05 2018-03-23 内蒙古科技大学 一种基于云计算的大数据文本分类方法
CN105868969A (zh) * 2016-04-01 2016-08-17 东芝泰格有限公司 信息处理装置及其控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与***
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 Hadoop 的电商商品文本分类研究与实现;蒋伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20150415(第04期);正文第13页章节2.2,第28页第2段,第40页章节4.3.4,第46页第3段,图4-14,第52页第2段

Also Published As

Publication number Publication date
CN107704892A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107704892B (zh) 一种基于贝叶斯模型的商品编码分类方法以及***
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
WO2022100045A1 (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN104933183B (zh) 一种融合词向量模型和朴素贝叶斯的查询词改写方法
US8280719B2 (en) Methods and systems relating to information extraction
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
Kuyumcu et al. An automated new approach in fast text classification (fastText) A case study for Turkish text classification without pre-processing
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
WO2020063071A1 (zh) 基于卡方检验的句向量计算方法、文本分类方法及***
CN116737967B (zh) 一种基于自然语言的知识图谱构建和完善***及方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN105404674A (zh) 一种知识依赖的网页信息抽取方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
CN114997288A (zh) 一种设计资源关联方法
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
Shahina et al. A sequential labelling approach for the named entity recognition in Arabic language using deep learning algorithms
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN111581984A (zh) 一种基于任务贡献度的语句表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180724

Address after: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang

Applicant after: Ningbo Aisino Co., Ltd.

Applicant after: Hangtian Information Co., Ltd.

Address before: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang

Applicant before: Ningbo Aisino Co., Ltd.

GR01 Patent grant
GR01 Patent grant