CN106095759A - 一种基于启发式规则的***货物归类方法 - Google Patents

一种基于启发式规则的***货物归类方法 Download PDF

Info

Publication number
CN106095759A
CN106095759A CN201610446072.8A CN201610446072A CN106095759A CN 106095759 A CN106095759 A CN 106095759A CN 201610446072 A CN201610446072 A CN 201610446072A CN 106095759 A CN106095759 A CN 106095759A
Authority
CN
China
Prior art keywords
customs
invoice
name
goods name
invoice goods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610446072.8A
Other languages
English (en)
Other versions
CN106095759B (zh
Inventor
郑庆华
蔚文达
阮建飞
董博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201610446072.8A priority Critical patent/CN106095759B/zh
Publication of CN106095759A publication Critical patent/CN106095759A/zh
Application granted granted Critical
Publication of CN106095759B publication Critical patent/CN106095759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于启发式规则的***货物归类方法,将***上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接反映***出具企业的经营信息。一方面,与企业注册时的行业代码比对,可以判断所开***是否合法;另一方面,为企业的纳税风险监控提供了更直观的信息和更细致的监控粒度。通过基于海关历史记录的实例匹配将***货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到***的国民经济行业分类代码。从而解决分类实例匮乏情况下从海量未规范化的***货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础。

Description

一种基于启发式规则的***货物归类方法
技术领域
本发明属于一种***货物归类方法,特别涉及一种基于启发式规则的***货物归类方法。
背景技术
税务分析的一个重要数据来源是企业的增值税***,其货物名称的填写主要包括品牌、名称和规格型号三项,但是目前***货物名的填写尚未实现规范化,导致***货物数据的质量参差不齐,甚至存在格式不合标准、蓄意错开的现象,严重掩盖了***所能反映的企业经营信息,为偷漏税提供了温床,同时也影响了税务分析的准确性。对海量的***货物名进行归类,已成为税务分析和风险监控亟待解决的难题。
目前尚未有从***货物到国民经济行业分类的归类方法,但***货物名与电子商务的商品名类似,一般均为10字以下的短文本,因此针对商品名的自动分类方法,对于解决***货物的归类问题具有参考价值。以下3篇专利文献提供了商品名自动分类的不同的技术解决方案:
1.一种数据分类的方法及装置(ZL201010122141.2);
2.一种基于领域知识的短文本分类方法及文本分类***(201110172434.6);
3.一种适用于B2B电子商务平台的商品信息自动分类(201310674950.8)。
文献1提供一种由商品标题分词得到核心词和属性词的分词序列,合并分词序列相同的商品标题,实现商品分类的方法。文献2通过爬取训练知识库,特征提取,建立分类器模型的方式实现对短文本的分类。文献3公开了一种基于已分类商品实例构建分类知识库来实现商品自动分类的方法。
***货物的归类问题要求分类类别为税务部门真正关心的国民经济行业分类,然后目前缺少可用的已分类***货物实例。故以上文献所述方法运用在***货物的分类时存在以下问题:文献1分类方法的分类类别是自组织的,且难以控制类别总数和涵盖层次;文献2和文献3的分类方法需要依赖大量的已分类实例。
发明内容
本发明的目的在于提供一种基于启发式规则的***货物归类方法,通过基于海关历史记录的实例匹配将***货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到***的国民经济行业分类代码。从而解决分类实例匮乏情况下从海量未规范化的***货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础。
为了达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于启发式规则的***货物归类方法,包括下述步骤:
(1)***货物名预处理
***货物名的填写尚未实现规范化,其中的不规范元素:异常字符、分隔符和规格型号,都会对归类结果造成影响。为了消除***货物名中的不规范元素对归类的影响,进行以下预处理:
a.将***货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;
b.删除***货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;
c.将数字加量词作为规格型号从***货物名中删除;
(2)基于搜索引擎知识库构建***货物名的自定义词典
***货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建***货物名的自定义词典。
所述基于搜索引擎知识库构建***货物名的自定义词典,其特征在于将预处理后的***货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类***货物名进行分词。
(3)基于海关历史记录实例匹配获得***货物名的海关编码
基于海关历史记录实例匹配获得***货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的***货物名对应的海关编码。
所述基于海关历史记录实例匹配获得***货物名的海关编码的具体步骤为:
Step1.考虑到某些品类的***货物名特征显著,首先进行特殊品类的匹配。包括化学药品类、医学药品类、服务类和非进出口商品类;
Step2.若没有匹配到任何特殊品类,再进行全文精确匹配,即搜索海关商品名称与待归类***货物名完全相同的海关历史记录;
Step3.若没有找到完全相同的海关历史记录,全文精确匹配失败,再进行全文模糊匹配,即搜索海关商品名称与待归类***货物名加权余弦相似度高于阈值的海关历史记录;
Step4.若加权余弦相似度均低于阈值,全文模糊匹配失败,再进行分词精确匹配,即首先基于自定义词典对待归类***货物名进行分词,然后按右向最大匹配原则进行分词精确匹配;
Step5.若右向最大匹配过程中从未精确匹配成功,则分词精确匹配失败,再进行离线知识库匹配。即首先利用Lucene工具为程序运行过程中积累的已分类***货物实例建立索引,然后检索出与待归类***货物名相似度最高的***货物名的海关编码,作为待归类***货物名的海关编码。
所述海关历史记录具体包括:
a.商品编码
我国海关编码采用10位数编码,商品编码的第一、二位数码代表-章,第三、四位数码代表-目,第五、六位数码代表-子目,最后四位数码是根据我国进出口商品的实际情况延伸出的编码。
b.商品名称
与***上的商品名类似,85%的海关商品名称均由2-9个汉字组成。
所述加权余弦相似度,其计算步骤如下:
Step1.使用开源分词工具HanLP基于***货物名的自定义词典进行分词。得到海关商品名称的分词序列,记为List1;得到待归类***货物名的分词序列,记为List2;
Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;
Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;
Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;
Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类***货物名的加权余弦相似度。
所述右向最大匹配原则,其特征是对于待归类***货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配。若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败。取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。
(4)人工建立海关编码到国民经济行业分类代码的映射关系
人工建立从海关编码到国民经济行业分类代码的映射关系。海关编码较国民经济行业分类对商品的划分粒度更细,因此映射关系是多对一的。所述海关编码到国民经济行业分类代码的映射关系,格式如下:
海关编码(10位数码) 国民经济行业分类代码(4位数码)
(5)根据映射关系确定***货物的国民经济行业分类代码
对***货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到***货物名的国民经济行业分类代码。完成将***货物归类到国民经济行业分类的任务。
本发明一种基于启发式规则的***货物归类方法,将***上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接反映***出具企业的经营信息。一方面,与企业注册时的行业代码比对,可以判断所开***是否合法;另一方面,为企业的纳税风险监控提供了更直观的信息和更细致的监控粒度。与现有技术相比,本发明方法的优点是:
a.人力投入少。除需要人工建立海关编码到国民经济行业分类代码的映射关系外,其余过程均借助计算机程序实现,归类速度快,可应对不断产生的规模巨大的***数据。
b.学习能力好。海关历史记录可供实例匹配的知识库完备,分类依据严谨。基于海关历史记录实例匹配的***货物归类准确率已超过60%,且运行过程中能够积累已分类***货物实例和***货物自定义词典,确保了归类方法能够适应每天海量新增的***货物名。
c.可迁移性好。使用海关编码到国民经济行业分类代码的映射关系进行分类体系转化,使得归类方法不局限于某一种分类体系,方便了本归类方法迁移到新的归类需求上。
附图说明
图1是本发明方法的整体流程示意图。
图2是基于搜索引擎知识库构建***货物名自定义词典的流程图。
图3是基于海关历史记录实例匹配的流程图。
图4是右向最大匹配的流程图。
具体实施方式
以下参照附图,结合具体实施例对本发明基于启发式规则的***货物归类方法作进一步说明。
如图1所示,本申请实施例中,对***货物归类的过程包括:
对***货物名进行预处理,预处理包括以下步骤:删除***货物名中的特殊符号,将***货物名中的分隔符规范化,将***货物名中的数字加量词作为规格型号从***货物名中删除。
本实施例中,一张增值税***上的货物名为“汇源沁霖纯净水550ml”,经过预处理后,550ml作为数字加量词被检测出后从货物名中删除,故经预处理后,货物名变为“汇源沁霖纯净水”。
基于搜索引擎知识库构建***货物名的自定义词典。
所述基于搜索引擎知识库构建***货物名的自定义词典,其特征在于将预处理后的***货物名在主流的搜索引擎中检索一次,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类***货物名进行分词。
如图2所示,本实施例中,使用货物名“莎妮雅贝因美复合油二段ARMRO-02BY(190kg)”举例说明基于搜索引擎知识库构建***货物名的自定义词典的过程。***货物名经预处理后变为“莎妮雅贝因美复合油”,在主流搜索引擎,如https://www.***.com,直接搜索“莎妮雅贝因美复合油”,利用html解析工具解析搜索结果,得到标红短语“莎妮雅”、“贝因美”和“复合油”,将所有标红短语加入到本实施例使用的HanLP分词工具的自定义词典中,最后利用HanLP进行分词。
基于海关历史记录实例匹配获得***货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的***货物名对应的海关编码。
如图3所示,基于海关历史记录实例匹配获得***货物名的海关编码的步骤如下:
进行特殊品类的匹配。对***货物名特征显著的化学药品类和服务类,以及商品名存在权威名录的医学药品类和非进出口商品类进行逐一试探匹配。
本实施例中,货物名“汇源沁霖纯净水”中没有出现化学药品类货物名中特有的汉字,如“烃”、“烷”等;也没有出现服务类***特有的“维修”、“服务”等字样;也没有出现在中国药典和非进出口商品名录中。因此特殊品类匹配失败,进入下一步。
进行全文精确匹配,搜索海关商品名称与待归类***货物名完全相同的海关历史记录。
本实施例中,使用爬虫工具从各大重要的海关编码查询网站,如http://www.hsbianma.com,爬取与货物名“汇源沁霖纯净水”完全相同的海关历史记录的海关编码,并存入本地知识库中。此例的爬取结果为空,全文精确匹配失败,进入下一步。
进行全文模糊匹配。搜索海关商品名称与待归类***货物名加权余弦相似度高于阈值的海关历史记录。
所述加权余弦相似度,其计算步骤如下:
Step1.使用开源分词工具HanLP基于***货物名的自定义词典进行分词。得到海关商品名称的分词序列,记为List1;得到待归类***货物名的分词序列,记为List2;
Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;
Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;
Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;
Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类***货物名的加权余弦相似度。
本实施例中,待归类***货物名“汇源沁霖纯净水”分词产生的权值向量为(汇源:10,沁霖:0,纯净水:10),与之比对的海关商品名称,如“饮用纯净水”,产生的权值向量为(饮用:1,纯净水:10),由余弦公式得二者的加权余弦相似度为0.707,高于本实施例选取的阈值0.6。所以“饮用纯净水”的海关编码被搜索返回,并作为“汇源沁霖纯净水”的海关编码。
进行分词精确匹配。基于自定义词典对待归类***货物名进行分词,然后按右向最大匹配原则进行分词精确匹配。
所述右向最大匹配原则,其特征是对于待归类***货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配。若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败。取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。
如图4所示,本实施例中,待归类***货物名“莎妮雅贝因美复合油”分词得到的分词序列为(莎妮雅,贝因美,复合油),首先选取最右侧的单词“复合油”作为待匹配项,进行精确匹配,得到海关历史记录(复合油,1507900000),精确匹配成功故向左侧连接一个单词,待匹配项变为“贝因美复合油”,再次精确匹配时匹配失败,返回最近一次匹配成功的匹配项,最终匹配到的海关编码为1507900000。
进行离线知识库匹配。首先利用Lucene工具为程序运行过程中积累的已分类***货物实例建立索引,然后检索出与待归类***货物名相似度最高的***货物名的海关编码,作为待归类***货物名的海关编码。
人工建立海关编码到国民经济行业分类代码的映射关系。
本实施例中,人工建立的海关编码到国民经济行业分类代码的映射关系中存在如下记录:
1507900000 1231
根据映射关系确定***货物的国民经济行业分类代码.
本实施例中,根据海关编码到国民经济行业分类代码的映射关系得到货物名“莎妮雅贝因美复合油二段ARMRO-02BY(190kg)”的***的国民经济行业分类代码为1231,即类别名称为“食用植物油加工”的国民经济行业分类。
本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于启发式规则的***货物归类方法,其特征在于,包括下述步骤:
(1)***货物名预处理
a.将***货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;
b.删除***货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;
c.将数字加量词作为规格型号从***货物名中删除;
(2)基于搜索引擎知识库构建***货物名的自定义词典
***货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建***货物名的自定义词典;
所述基于搜索引擎知识库构建***货物名的自定义词典,将预处理后的***货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类***货物名进行分词;
(3)基于海关历史记录实例匹配获得***货物名的海关编码
基于海关历史记录实例匹配获得***货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的***货物名对应的海关编码;
(4)人工建立海关编码到国民经济行业分类代码的映射关系
所述海关编码到国民经济行业分类代码的映射关系,格式如下:
海关编码(10位数码) 国民经济行业分类代码(4位数码)
(5)根据映射关系确定***货物的国民经济行业分类代码
对***货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到***货物名的国民经济行业分类代码,完成将***货物归类到国民经济行业分类的任务。
2.根据权利要求1所述的一种基于启发式规则的***货物归类方法,其特征在于,所述基于海关历史记录实例匹配获得***货物名的海关编码的具体步骤为:
Step1.考虑到某些品类的***货物名特征显著,首先进行特殊品类的匹配,包括化学药品类、医学药品类、服务类和非进出口商品类;
Step2.若没有匹配到任何特殊品类,再进行全文精确匹配,即搜索海关商品名称与待归类***货物名完全相同的海关历史记录;
Step3.若没有找到完全相同的海关历史记录,全文精确匹配失败,再进行全文模糊匹配,即搜索海关商品名称与待归类***货物名加权余弦相似度高于阈值的海关历史记录;
Step4.若加权余弦相似度均低于阈值,全文模糊匹配失败,再进行分词精确匹配,即首先基于自定义词典对待归类***货物名进行分词,然后按右向最大匹配原则进行分词精确匹配;
Step5.若右向最大匹配过程中从未精确匹配成功,则分词精确匹配失败,再进行离线知识库匹配,即首先利用Lucene工具为程序运行过程中积累的已分类***货物实例建立索引,然后检索出与待归类***货物名相似度最高的***货物名的海关编码,作为待归类***货物名的海关编码。
3.根据权利要求1所述的一种基于启发式规则的***货物归类方法,其特征在于,所述海关历史记录具体包括:
a.商品编码
我国海关编码采用10位数编码,商品编码的第一、二位数码代表-章,第三、四位数码代表-目,第五、六位数码代表-子目,最后四位数码是根据我国进出口商品的实际情况延伸出的编码;
b.商品名称
与***上的商品名类似,85%的海关商品名称均由2-9个汉字组成。
4.根据权利要求2所述的一种基于启发式规则的***货物归类方法,其特征在于,所述加权余弦相似度,其计算步骤如下:
Step1.使用开源分词工具HanLP基于***货物名的自定义词典进行分词,得到海关商品名称的分词序列,记为List1;得到待归类***货物名的分词序列,记为List2;
Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;
Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;
Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;
Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类***货物名的加权余弦相似度。
5.根据权利要求2所述的一种基于启发式规则的***货物归类方法,其特征在于,所述右向最大匹配原则,对于待归类***货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配,若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败,取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。
CN201610446072.8A 2016-06-20 2016-06-20 一种基于启发式规则的***货物归类方法 Active CN106095759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610446072.8A CN106095759B (zh) 2016-06-20 2016-06-20 一种基于启发式规则的***货物归类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610446072.8A CN106095759B (zh) 2016-06-20 2016-06-20 一种基于启发式规则的***货物归类方法

Publications (2)

Publication Number Publication Date
CN106095759A true CN106095759A (zh) 2016-11-09
CN106095759B CN106095759B (zh) 2019-05-24

Family

ID=57237078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610446072.8A Active CN106095759B (zh) 2016-06-20 2016-06-20 一种基于启发式规则的***货物归类方法

Country Status (1)

Country Link
CN (1) CN106095759B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766395A (zh) * 2017-03-03 2018-03-06 平安医疗健康管理股份有限公司 数据匹配方法和装置
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及***
CN108268456A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种建立***数据库的方法与查询数据库内***的方法
CN108710610A (zh) * 2018-05-17 2018-10-26 北京东港瑞宏科技有限公司 一种基于电子***的数据挖掘方法
CN109598517A (zh) * 2017-09-29 2019-04-09 阿里巴巴集团控股有限公司 商品通关处理、对象的处理及其类别预测方法和装置
CN109801118A (zh) * 2018-12-24 2019-05-24 航天信息股份有限公司 识别指定行业的制造业企业的方法、装置、介质和设备
CN110019807A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种商品分类方法及装置
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、***及设备
CN110348346A (zh) * 2019-06-28 2019-10-18 苏宁云计算有限公司 一种票据分类识别方法及***
WO2019227576A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 ***校验方法、装置、计算机设备及存储介质
CN110597995A (zh) * 2019-09-20 2019-12-20 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN111427888A (zh) * 2020-03-18 2020-07-17 西安交通大学 一种自动零售机拣货方法
CN112529676A (zh) * 2020-12-22 2021-03-19 畅捷通信息技术股份有限公司 一种基于社会级词向量进行税收编码末级分类的方法
CN114722819A (zh) * 2022-02-16 2022-07-08 平安科技(深圳)有限公司 一种实体类型分类识别方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103838883A (zh) * 2014-03-31 2014-06-04 上海久科信息技术有限公司 智能sku匹配方法
US8868554B1 (en) * 2004-02-26 2014-10-21 Yahoo! Inc. Associating product offerings with product abstractions
CN104134128A (zh) * 2014-08-11 2014-11-05 税友软件集团股份有限公司 一种***的处理方法及***
CN105354194A (zh) * 2014-08-19 2016-02-24 上海中怡通信息科技有限公司 商品智能归类方法和***
CN105550369A (zh) * 2016-01-26 2016-05-04 上海晶赞科技发展有限公司 一种搜索目标商品集的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868554B1 (en) * 2004-02-26 2014-10-21 Yahoo! Inc. Associating product offerings with product abstractions
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103838883A (zh) * 2014-03-31 2014-06-04 上海久科信息技术有限公司 智能sku匹配方法
CN104134128A (zh) * 2014-08-11 2014-11-05 税友软件集团股份有限公司 一种***的处理方法及***
CN105354194A (zh) * 2014-08-19 2016-02-24 上海中怡通信息科技有限公司 商品智能归类方法和***
CN105550369A (zh) * 2016-01-26 2016-05-04 上海晶赞科技发展有限公司 一种搜索目标商品集的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VISHRAWAS 等: "Matching Product Titles using Web-based Enrichment", 《PROCEEDINGS OF THE 21ST ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及***
CN108268456A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种建立***数据库的方法与查询数据库内***的方法
CN108268456B (zh) * 2016-12-30 2022-03-04 航天信息股份有限公司 一种建立***数据库的方法与查询数据库内***的方法
CN107766395A (zh) * 2017-03-03 2018-03-06 平安医疗健康管理股份有限公司 数据匹配方法和装置
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN109598517A (zh) * 2017-09-29 2019-04-09 阿里巴巴集团控股有限公司 商品通关处理、对象的处理及其类别预测方法和装置
CN110019807B (zh) * 2017-12-27 2020-11-13 航天信息股份有限公司 一种商品分类方法及装置
CN110019807A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种商品分类方法及装置
CN108710610A (zh) * 2018-05-17 2018-10-26 北京东港瑞宏科技有限公司 一种基于电子***的数据挖掘方法
WO2019227576A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 ***校验方法、装置、计算机设备及存储介质
CN109801118A (zh) * 2018-12-24 2019-05-24 航天信息股份有限公司 识别指定行业的制造业企业的方法、装置、介质和设备
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、***及设备
CN110348346A (zh) * 2019-06-28 2019-10-18 苏宁云计算有限公司 一种票据分类识别方法及***
CN110597995A (zh) * 2019-09-20 2019-12-20 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN111427888A (zh) * 2020-03-18 2020-07-17 西安交通大学 一种自动零售机拣货方法
CN111427888B (zh) * 2020-03-18 2022-10-25 西安交通大学 一种自动零售机拣货方法
CN112529676A (zh) * 2020-12-22 2021-03-19 畅捷通信息技术股份有限公司 一种基于社会级词向量进行税收编码末级分类的方法
CN114722819A (zh) * 2022-02-16 2022-07-08 平安科技(深圳)有限公司 一种实体类型分类识别方法、装置、设备和介质
CN114722819B (zh) * 2022-02-16 2024-01-19 平安科技(深圳)有限公司 一种实体类型分类识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN106095759B (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN106095759B (zh) 一种基于启发式规则的***货物归类方法
US11714831B2 (en) Data processing and classification
US10089581B2 (en) Data driven classification and data quality checking system
US20220237230A1 (en) System and method for automated file reporting
CN110222160A (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和***
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN102411563A (zh) 一种识别目标词的方法、装置及***
CN109902179A (zh) 基于自然语言处理的筛选电商垃圾评论的方法
CN110765889B (zh) 法律文书的特征提取方法、相关装置及存储介质
CN112818093A (zh) 基于语义匹配的证据文档检索方法、***及存储介质
CN110689371B (zh) 一种基于ai和大数据的智能营销云服务平台
CN103577462A (zh) 一种文档分类方法及装置
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
TWI743623B (zh) 基於人工智慧的商務智慧系統及其分析方法
CN108027814A (zh) 停用词识别方法与装置
CN114462556B (zh) 企业关联产业链分类方法、训练方法、装置、设备和介质
CN101101599A (zh) 一种从网页中提取广告主信息的方法
CN110209659A (zh) 一种简历过滤方法、***和计算机可读存储介质
KR20190061984A (ko) 딥러닝을 이용한 분류코드 추천 시스템
CN115827871A (zh) 互联网企业分类的方法、装置和***
CN112784040B (zh) 基于语料库的垂直行业文本分类方法
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant