CN110019798B - 一种用于对进销项商品种类差异进行度量的方法及*** - Google Patents

一种用于对进销项商品种类差异进行度量的方法及*** Download PDF

Info

Publication number
CN110019798B
CN110019798B CN201711157256.3A CN201711157256A CN110019798B CN 110019798 B CN110019798 B CN 110019798B CN 201711157256 A CN201711157256 A CN 201711157256A CN 110019798 B CN110019798 B CN 110019798B
Authority
CN
China
Prior art keywords
commodity
goods
service classification
service
classification codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711157256.3A
Other languages
English (en)
Other versions
CN110019798A (zh
Inventor
舒南飞
林文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201711157256.3A priority Critical patent/CN110019798B/zh
Publication of CN110019798A publication Critical patent/CN110019798A/zh
Application granted granted Critical
Publication of CN110019798B publication Critical patent/CN110019798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于对进销项商品种类差异进行度量的方法,所述方法包括:根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类的更新列表;根据进销项差异度量公式,按照更新的商品和服务分类的粗细分类程度计算企业的进销项商品的种类差异。本发明能够准确地反应企业的进货和出货商品和服务类别,从而识别出有异常经营行为的企业。同时,通过更正后的商品和服务分类编码对企业进项和销项进行分析,提高了分类的准确度并减小了计算的工作量。

Description

一种用于对进销项商品种类差异进行度量的方法及***
技术领域
本发明涉及税务风险管理技术领域,并且更具体地,涉及一种用于对进销项商品种类差异进行度量的方法及***。
背景技术
2016年2月15日国家税务总局发布了《关于开展商品和服务税收分类与编码试点工作的通知》,并公布了《商品和服务税收分类与编码(试行)》的分类与编码标准文件,并要求在增值税******升级版中增加了编码相关功能。在过去一年多商品和服务税收分类与编码的使用过程中,企业开票端在对所销售物品开具***时,需要从4000余种分类编码中选择一种相应的编码。由于不同的开票企业,对商品和服务分类编码的理解不同,对同一名称的商品和服务,所选择的分类编码可能会不一致。而且,分类编码存在大类和小类之分,这也是造成分类编码不一致的一个因素,比如,企业开票员对最细的商品和服务分类编码拿不准,可能就会选择较准确,范围较宽的上一级商品和服务分类编码。除此之外,企业开票者,无论出于操作不便和开票随意的原因,也会出现随意选择分类编码的情况。这些不准确的分类编码的数据的产生,与国家税务总局开展商品和服务税收分类与编码试点工作的初衷不符,也不利用使用这些数据开展税务数据分析工作。
由于企业在进货和销货时所开具的***信息上的商品和服务名称存在不完全一致的情况,通过名称文本进行完全匹配的方式来度量差异,存在物品名称间差异度量不准确,比如:苹果笔记本和苹果笔记本电脑的一致程度度量;以及计算费时等情况,在海量***数据,千万级企业规模的情况下,计算代价大。
鉴于目前的含分类编码的***数据的开具显示情况以及商品和服务名称在开票时无法做到名称文本描述完全一致的情况,不能准确地反应企业的进货商品和服务类别,出货商品服务和类别,识别出有异常经营行为的企业的情况,需要一种用于对进销项商品种类差异进行度量的方法。
发明内容
本发明提供了一种用于对进销项商品种类差异进行度量的方法及***,以解决不能准确地确定企业的进货和出货的商品和服务类别,从而识别有异常经营行为的商贸型企业的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种用于对进销项商品种类差异进行度量的方法,其特征在于,所述方法包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;
根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;
根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
优选地,其中所述方法还包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
对历史***数据进行处理,去除非商品和服务名称文字描述的历史***数据以及停用商品的历史***数据。
优选地,其中所述根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
利用历史***数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
优选地,其中所述进销项差异度量公式为:
Figure BDA0001474630460000031
其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
优选地,其中所述按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
根据本发明的另一个方面,提供了一种用于对进销项商品种类差异进行度量的***,其特征在于,所述***包括:
商品和服务分类编码的分析识别模型建立单元,用于根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;
商品和服务分类编码更新单元,用于根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;
进销项商品的种类差异计算单元,用于根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
优选地,其中所述***还包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
对历史***数据进行处理,去除非商品和服务名称文字描述的历史***数据以及停用商品的历史***数据。
优选地,其中所述商品和服务分类编码的分析识别模型建立单元,根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
利用历史***数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
优选地,其中所述进销项差异度量公式为:
Figure BDA0001474630460000051
其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
优选地,其中所述进销项商品的种类差异计算单元,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
本发明提供了一种用于对进销项商品种类差异进行度量的方法及***,利用含商品和服务分类编码的***历史数据,以特定信息-商品和服务分类编码的频次为基础,建立商品和服务分类编码的分析识别模型;然后通过所建立的商品和服务分类编码的分析识别模型,对已开具***数据中的商品和服务分类编码进行更新;按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。本发明利用建立的商品和服务分类编码的分类识别模型对历史开票数据中的分类编码进行更正,然后利用更新后的分类的商品和服务分类编码来度量进销项商品的种类差异,能够准确地反应商贸型企业的进货和出货商品和服务类别,从而识别出有异常经营行为的企业。同时,通过更正后的分类商品和服务分类编码对企业进项和销项进行分析,相比直接使用进项和销项物品名称来分析比较,提高了分类的准确度并减小了计算的工作量。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的用于对进销项商品种类差异进行度量的方法100的流程图;
图2为根据本发明实施方式的对进销项商品的种类差异进行度量的方法200的流程图;以及
图3为根据本发明实施方式的用于对进销项商品种类差异进行度量的***300的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的用于对进销项商品种类差异进行度量的方法100的流程图。本发明实施方式的用于对进销项商品种类差异进行度量的方法利用含商品和服务分类编码的***历史数据,以特定信息-商品和服务分类编码的频次为基础,建立商品和服务分类编码的分析识别模型;然后通过所建立的商品和服务分类编码的分析识别模型,对已开具***数据中的商品和服务分类编码进行更新;按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。本发明主要针对商贸型企业进货物品和销售物品的差异程度,来识别商贸型企业的购进和销售物品种类不同的异常经营行为。而这种购进和卖出不一致的经营行为的相关企业,往往伴随着偷逃税。本发明能为税务执法部门抓获逃税企业提供决策支持同时,通过分类商品和服务分类编码对企业进项和销项进行分析,相比直接使用进项和销项物品名称来分析比较,提高了分类的准确度并减小了计算的工作量。本发明实施方式的用于对进销项商品种类差异进行度量的方法100从步骤101处开始,在步骤101根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据。
优选地,其中所述方法还包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
对历史***数据进行处理,去除非商品和服务名称文字描述的历史***数据以及停用商品的历史***数据。
优选地,其中所述根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
利用历史***数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
在本发明的实施方式中,通过国家税务局的信息***获取积累的海量的增值税***商品和服务的***明细数据,其中主要字段为商品和服务的名称、规格型号、单价、企业的经营范围、企业的行业信息、***开具时开票人选择的商品和服务分类编码,开票日期等。经对含商品和服务名称以及商品和服务分类编码的历史***数据进行分析后,在全量数据中发现在单张商品和服务的明细***中商品和服务名称到商品和服务分类编码对应关系约有50%可以认为是正确的,也就是说有大约一半的***数据中,企业开票员为商品和服务选择商品和服务分类编码时,选择了相对正确的商品和服务分类编码。另外,通过税务数据分析人员的业务员经验指定的商品和服务名称的规则,经数据清洗,删除历史***数据中不进入模型训练的数据。比如,非常规物品和服务的名称有:仅由数字和字母组成的商品名称;没有实际意义的商品名称,比如,“详见销货清单”这类名称等。通过在模型中加入商品和服务的规格型号,商品和服务的单价,企业的经营范围等特征,能增加判定商品和服务的名称描述到特定分类编码的准确性。
国家税务局在《商品和服务税收分类与编码(试行)》实施后,对分类编码和标准做了轻微的调整,也需要对历史数据中分类编码进行更正和补充。本发明实施方式的基于增值税***商品和服务的***明细历史数据所建立的商品和服务名称到商品和服务分类编码的分类识别模型,是建立在大数据基本思想下,所针对的商品和服务的开票几乎涵盖了所有的物品以及相信大多数企业开票员都是在开票时尽可能对相应物品选择较准确的商品和服务分类编码的前提下;其次,《商品和服务税收分类与编码(试行)》其中分类规则也是模型训练的重要输入,对历史数据中未出现的物品的分类做出补充。
本发明的实施方式所提出的基于增值税***商品和服务的***明细历史数据所建立的商品和服务名称到商品和服务分类编码的分类识别模型,随着***数据的不断增加,模型识别的准确性会不断提升。为了增加分类编码识别模型的鲁棒性,对某一商品和服务名称返回概率由大到小的多个商品和服务分类编码,降低返回单一商品和服务分类编码错分的可能性。
优选地,在步骤102根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表。
在本发明的实施方式中,根据建立的商品和服务名称到商品和服务分类编码的分类识别模型,对待分析时间段的***数据中商品和服务分类编码进行更新。预设周期,基于正常情况下,进的货物,会在周期时间一年内销售。在更新时,只需将商品和服务的名称,商品和服务的规格型号,商品的单价信息,开票企业的经营范围,开票企业的行业信息等作为输入,传递给分类识别模型,得出含概率大小的商品和服务分类编码列表。
优选地,在步骤103根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
优选地,其中所述进销项差异度量公式为:
Figure BDA0001474630460000091
其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
优选地,其中所述按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
图2为根据本发明实施方式的对进销项商品的种类差异进行度量的方法200的流程图。如图2所示,在步骤201通过开票日期,选取特定经营周期内的***数据。
在步骤202,利用商品和服务分类编码分析识别模型,获取更新后的商品和服务分类编码列表。
在步骤203,对是否使用细粒度的商品和服务分类编码进行判断;其中
若使用细粒度的商品和服务分类编码,则进入步骤204按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码分别计算企业的进销项商品的编码集,然后进入步骤206;
若不使用细粒度的商品和服务分类编码,则进入步骤205按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码分别计算企业的进销项商品的编码集,然后进入步骤206。
在步骤206,根据计算的企业的进销项商品的编码集利用进销项差异度量公式计算企业的进销项商品的种类差异。
在本发明的实施方式中,更正的物品分类编码为物品分类编码列表,为方便设定宽严程度不一的企业进销项种类差异度,在对企业进销项物品差异度进行度量时,计算一定的经营周期(通常时间跨度为1年以上,按月往前推算一定的时间周期)内购进物品的物品分类编码种类和销售物品的物品分类编码种类的差异。进销项差异度量公式为:
Figure BDA0001474630460000101
其中,Set(Buy)和Set(Sell)分别为购进和销售物品分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数,用于避免|Set(Buy)∪Set(Sell)|为0时,分母的除0操作。商品和服务分类编码分类表为根据物品分类编码的特点层级划分,从粗类到细类进行划分。如表1所示,为商品和服务分类编码的从粗类到细类的编码情况。
表1物品分类编码列表
Figure BDA0001474630460000111
在判断企业进项和销项差异度较为严格时,使用更正后物品分类编码概率最大的种类作为物品分类编码;在判断企业进项和销项差异度较宽泛时,使用编码规则的“篇+类+章+节”来作为较粗粒度的商品和服务分类编码规则,在所返回的商品和服务分类编码列表中找出出现概率和最大的粗粒度商品和服务分类编码规则(由“篇+类+章+节”组成的编码规则)作为衡量物品差异度时的商品和服务分类编码。细粒度的商品和服务分类编码是最小的类,最低级别的类。不适用细粒度的商品和服务分类编码,指的将同一类大类的商品和服务分类编码推荐的概率求和,概率和的最大值为最终设定的商品和服务分类编码,然后再计算物品种类差异度。企业进项和销项差异度使用宽泛的,粗粒度的商品和服务分类编码规则时,实际情形是在这种宽泛标准下,计算出的企业进销项的差异度较大的企业,在同等数值下,要比使用细粒度的商品和服务分类编码规则的进项销项差异度来度量的企业的异常行为严重。本发明提出的两种物品差异度度量方法,可以同时使用,也可以根据业务需求,侧重于观察某种度量方法,用于商贸型企业的进销项种类差异这种异常经营行为的识别。
图3为根据本发明实施方式的用于对进销项商品种类差异进行度量的***300的结构示意图。如图3所示,本发明实施方式的用于对进销项商品种类差异进行度量的***300包括:商品和服务分类编码的分析识别模型建立单元301、进销项商品的种类差异计算单元302和进销项商品的种类差异计算单元303。优选地,在商品和服务分类编码的分析识别模型建立单元301,根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据。优选地,其中所述***还包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
对历史***数据进行处理,去除非商品和服务名称文字描述的历史***数据以及停用商品的历史***数据。
优选地,其中所述商品和服务分类编码的分析识别模型建立单元301,根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
利用历史***数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
优选地,在商品和服务分类编码更新单元302,根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表。
优选地,在进销项商品的种类差异计算单元303,根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
优选地,其中所述进销项差异度量公式为:
Figure BDA0001474630460000121
其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
优选地,其中所述进销项商品的种类差异计算单元303,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
本发明的实施例的用于对进销项商品种类差异进行度量的方法100与本发明的另一个实施例的用于对进销项商品种类差异进行度量的***300相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (10)

1.一种用于对进销项商品种类差异进行度量的方法,其特征在于,所述方法包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;
根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;
根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异;
其中,所述根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
利用历史***数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
对历史***数据进行处理,去除非商品和服务名称文字描述的历史***数据以及停用商品的历史***数据。
3.根据权利要求1所述的方法,其特征在于,所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
4.根据权利要求1所述的方法,其特征在于,所述进销项差异度量公式为:
Figure FDA0002715391070000021
其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
5.根据权利要求1所述的方法,其特征在于,所述按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
6.一种用于对进销项商品种类差异进行度量的***,其特征在于,所述***包括:
商品和服务分类编码的分析识别模型建立单元,用于根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;
商品和服务分类编码更新单元,用于根据预设周期内的商品的***数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;
进销项商品的种类差异计算单元,用于根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异;
其中,所述商品和服务分类编码的分析识别模型建立单元,根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
利用历史***数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
7.根据权利要求6所述的***,其特征在于,所述***还包括:
根据包含商品和服务明细的历史***数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
对历史***数据进行处理,去除非商品和服务名称文字描述的历史***数据以及停用商品的历史***数据。
8.根据权利要求6所述的***,其特征在于,所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
9.根据权利要求6所述的***,其特征在于,所述进销项差异度量公式为:
Figure FDA0002715391070000031
其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
10.根据权利要求6所述的***,其特征在于,所述进销项商品的种类差异计算单元,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
CN201711157256.3A 2017-11-20 2017-11-20 一种用于对进销项商品种类差异进行度量的方法及*** Active CN110019798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711157256.3A CN110019798B (zh) 2017-11-20 2017-11-20 一种用于对进销项商品种类差异进行度量的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711157256.3A CN110019798B (zh) 2017-11-20 2017-11-20 一种用于对进销项商品种类差异进行度量的方法及***

Publications (2)

Publication Number Publication Date
CN110019798A CN110019798A (zh) 2019-07-16
CN110019798B true CN110019798B (zh) 2021-02-05

Family

ID=67185976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711157256.3A Active CN110019798B (zh) 2017-11-20 2017-11-20 一种用于对进销项商品种类差异进行度量的方法及***

Country Status (1)

Country Link
CN (1) CN110019798B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179044B (zh) * 2019-12-23 2023-08-29 望海康信(北京)科技股份公司 票据报销方法及装置
CN111192122A (zh) * 2019-12-25 2020-05-22 航天信息股份有限公司 一种基于协同过滤的进销项差异度计算的方法及***
CN112529664A (zh) * 2020-12-15 2021-03-19 航天信息股份有限公司 进销商品比对方法、装置、存储介质及电子设备
CN115809887B (zh) * 2022-12-09 2023-10-10 蔷薇大树科技有限公司 一种基于***数据确定企业主要经营范围的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103839172A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 商品推荐方法及***
CN103902545A (zh) * 2012-12-25 2014-07-02 北京京东尚科信息技术有限公司 一种类目路径识别方法及***
CN104424613A (zh) * 2013-09-04 2015-03-18 航天信息股份有限公司 一种增值税***的监控方法及其***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818093B1 (en) * 2012-06-14 2017-11-14 Amazon Technologies, Inc. Third party check-in associations with cloud wallet
CN104537561A (zh) * 2015-01-20 2015-04-22 全国组织机构代码管理中心 一种组织机构代码中经济行业自动分类的装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839172A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 商品推荐方法及***
CN103902545A (zh) * 2012-12-25 2014-07-02 北京京东尚科信息技术有限公司 一种类目路径识别方法及***
CN104424613A (zh) * 2013-09-04 2015-03-18 航天信息股份有限公司 一种增值税***的监控方法及其***
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深化数据应用筑起税收风险新防线;孙正密 等;《中国税务》;20160801(第08期);第64页 *

Also Published As

Publication number Publication date
CN110019798A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019798B (zh) 一种用于对进销项商品种类差异进行度量的方法及***
US20080208780A1 (en) System and method for evaluating documents
US20200074486A1 (en) Information processing system, information processing device, prediction model extraction method, and prediction model extraction program
US20050283337A1 (en) System and method for correlation of time-series data
CN108921398B (zh) 店铺质量评价方法及装置
US20210224868A1 (en) Product valuation system and method
US20200341954A1 (en) System, Method, and Computer Program Product for Monitoring and Improving Data Quality
CN110728422A (zh) 用于施工项目的建筑信息模型、方法、装置和结算***
CN116629998A (zh) 一种自动计息方法、装置、电子设备及可读存储介质
CN113240353B (zh) 一种面向跨境电商的出口工厂分类方法及装置
CN113298291A (zh) 快递件量预测方法、装置、设备及存储介质
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质
CN115187387B (zh) 一种风险商家的识别方法及设备
US20230136956A1 (en) Machine Learning System and Methods for Price List Determination From Free Text Data
CN117708183B (zh) 一种基于用户消费习惯的***挖掘方法及***
CN117436936B (zh) 基于销量预测与bom成品加工***及方法
CN116757709B (zh) 一种基于知识图谱的铜精矿进口风险分析方法及***
CN115145990B (zh) 一种用于海关电子申报的数据处理方法及相关设备
US20240078566A1 (en) Methods, systems, articles of manufacture, and apparatus to detect promotion events
CN117787759A (zh) 企业评分的确定方法、装置、存储介质及电子装置
CN115775094A (zh) 一种用于构建进销项异常商品库的方法及装置
CN115775093A (zh) 一种用于构建进销项敏感商品库的方法及装置
CN111667290B (zh) 业务展示方法和装置、计算机可读存储介质
CN117333309A (zh) 一种基于大数据分析的采购异常风险分析方法及***
CN117252176A (zh) 调查报告智能生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant