CN110851587A - 商品编码预测模型生成和确定商品编码方法、装置及设备 - Google Patents

商品编码预测模型生成和确定商品编码方法、装置及设备 Download PDF

Info

Publication number
CN110851587A
CN110851587A CN201810825197.0A CN201810825197A CN110851587A CN 110851587 A CN110851587 A CN 110851587A CN 201810825197 A CN201810825197 A CN 201810825197A CN 110851587 A CN110851587 A CN 110851587A
Authority
CN
China
Prior art keywords
commodity
code
description information
name
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810825197.0A
Other languages
English (en)
Other versions
CN110851587B (zh
Inventor
夏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810825197.0A priority Critical patent/CN110851587B/zh
Publication of CN110851587A publication Critical patent/CN110851587A/zh
Application granted granted Critical
Publication of CN110851587B publication Critical patent/CN110851587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种商品编码预测模型的生成方法,包括:确定第一商品描述信息样本集和第二商品描述信息样本集;根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。采用上述方法,以满足根据商品名称快速确定其对应的正确的商品编码的需求。

Description

商品编码预测模型生成和确定商品编码方法、装置及设备
技术领域
本申请涉及人工智能领域,具体涉及一种商品编码预测模型的生成方法、装置、电子设备及存储设备。本申请同时涉及一种确定商品编码的方法、装置、电子设备及存储设备;本申请同时涉及另一种商品编码预测模型的生成方法、装置、电子设备及存储设备。
背景技术
目前,有很多领域需要商家或工作人员填写商品名称和商品名称对应的商品编码。
但是在填写商品名称对应的商品编码时,通常商家根据经验进行商品编码的填写,经常出现商品编码填写错误的情况,一旦出现错误,很可能带来不必要的损失。例如,2016年2月,国税总局在北京、上海、广东、江苏试点推出商品和服务税收分类编码;2018年1月,全国开始推行商品编码,商品编码的简称需要显示在开具的***上,商品编码不正确的***属于不合规***,轻则罚钱,重则以虚开论处。税收商品编码有4000多个,对纳税人来说选择起来不太容易,对税务局来说工作人员需要判断纳税人选择的商品编码是否准确。
因此,如何快速根据商品名称确定与其对应的正确的商品编码是需要解决的问题。
发明内容
本申请提供一种商品编码预测模型的生成方法、装置、电子设备及存储设备,以及一种确定商品编码的方法、装置、电子设备及存储设备,以解决快速根据商品名称确定与其对应的正确的商品编码的问题。
本申请提供一种商品编码预测模型的生成方法,包括:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
可选的,包括:
所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码。
可选的,还包括:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;
所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
可选的,所述第一商品编码预测模型和所述第二商品编码预测模型为fasttext模型。
可选的,还包括:
通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述商品描述信息样本为增加数据信息的商品描述信息。
可选的,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品***上的商品名称和商品编码。
可选的,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
本申请还提供一种商品编码预测模型的生成方法,包括:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
可选的,还包括:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述商品描述信息样本为所述去噪和/或消歧后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
本申请还提供一种确定商品编码的方法,包括:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
可选的,所述根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码,包括:
判断预测的所述商品编码集合中的商品编码包含的章节编码与预测的章节编码是否一致,若是,将预测的所述商品编码作为所述商品名称对应的商品编码。
本申请还提供一种商品编码预测模型的生成装置,包括:
样本集确定单元,用于确定第一商品描述信息样本集和第二商品描述信息样本集;
模型训练单元,用于根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储商品编码预测模型的生成方法的程序,该设备通电并通过所述处理器运行该商品编码预测模型的生成方法的程序后,执行下述步骤:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
本申请还提供一种存储设备,
存储有商品编码预测模型的生成方法的程序,该程序被处理器运行,执行下述步骤:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
本申请还提供一种确定商品编码的装置,包括:
商品名称确定单元,用于确定待确定商品编码的商品名称;
章节编码预测单元,用于根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
商品编码集合预测单元,用于根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
商品编码预测单元,用于根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储确定商品编码的方法的程序,该设备通电并通过所述处理器运行该确定商品编码的方法的程序后,执行下述步骤:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
本申请还提供一种存储设备,
存储有确定商品编码的方法的程序,该程序被处理器运行,执行下述步骤:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
本申请还提供一种商品编码预测模型的生成装置,包括:
样本集确定单元,用于确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
模型训练单元,用于根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储商品编码预测模型的生成方法的程序,该设备通电并通过所述处理器运行该商品编码预测模型的生成方法的程序后,执行下述步骤:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
本申请还提供一种存储设备,
存储有商品编码预测模型的生成方法的程序,该程序被处理器运行,执行下述步骤:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
与现有技术相比,本申请具有以下优点:
本申请提供另一种商品编码预测模型的生成方法,根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型,采用训练出的第一商品编码预测模型和第二商品编码预测模型,以满足根据商品名称快速确定其对应的正确的商品编码的需求。
本申请提供另一种商品编码预测模型的生成方法,根据包括商品名称和商品编码的商品描述信息样本集,训练商品编码预测模型,采用训练出的商品编码预测模型,以满足根据商品名称快速确定其对应的正确的商品编码的需求。
本申请提供一种确定商品编码的方法,根据预先训练的用于预测商品编码的商品编码预测模型,确定所述商品名称对应的商品编码,能够根据商品名称迅速确定正确的商品编码,从而解决了快速根据商品名称确定与其对应的正确的商品编码的问题。
附图说明
图1是本申请第一实施例提供的一种商品编码预测模型的生成方法的流程图。
图2是本申请第一实施例提供的一种商品编码预测模型的生成方法的一个实例的流程图。
图3是本申请第二实施例提供的一种商品编码预测模型的生成方法的流程图。
图4是本申请第三实施例提供的一种确定商品编码的方法的流程图。
图5是本申请第四实施例提供的一种商品编码预测模型的生成装置的示意图。
图6是本申请第五实施例提供的一种电子设备的示意图。
图7是本申请第七实施例提供的一种确定商品编码的装置的示意图。
图8是本申请第八实施例提供的一种电子设备的示意图。
图9是本申请第十实施例提供的一种商品编码预测模型的生成装置的示意图。
图10是本申请第十一实施例提供的一种电子设备的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
本申请第一实施例提供了一种商品编码预测模型的生成方法。以下结合图1、图2进行详细说明。
如图1所示,在步骤S101中,确定第一商品描述信息样本集和第二商品描述信息样本集。
所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码;其中,商品名称可以包括商品的名称,还可以包括商品的品牌、商品规格、商品重量等信息。所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
例如,当商品描述信息样本的来源为纳税人开具的商品***时,表征商品名称和商品编码对应关系的标准商品编码表,可以指税务局发布的“商品和服务税收分类编码表”,章节编码为7位,商品编码(也可称作细目编码)为19位,如“小麦”对应的章节编码为“1010101”,则商品名称“小麦”及其对应的章节编码“1010101”可以作为第一商品描述信息样本,“小麦”对应的商品编码为“10101010200000000”,则商品名称“小麦”及其对应的商品编码“1010101020000000000”可以作为第二商品描述信息样本。
第一商品描述信息样本和第二商品描述信息样本的来源可以是纳税人开具的商品***,所述商品名称和所述商品编码可以为纳税人开具的商品***上的商品名称和商品编码。例如,如果商品***上的商品名称为“YT461好友加粗L46衣架”,商品编码为“1070601000000000000”,则商品描述信息样本可以包括:商品名称:“YT461好友加粗L46衣架”,商品编码:“1070601000000000000”。第一商品描述信息样本和第二商品描述信息样本的来源也可以是其他需要根据商品名称确定商品编码的场合。
优选的,对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
由于并不是每个包括商品名称和商品编码的商品原始描述信息都适合用于生成第一商品描述信息样本或第二商品描述信息样本,因此可以先对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;将去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息作为第一商品描述信息样本;将去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息作为第二商品描述信息样本。
例如,当第二商品描述信息样本的来源为纳税人开具的商品***时,由于纳税人开具的商品***都是商家填写的,并不是每个商品***上的信息都可以用作第二商品描述信息样本,因此可以先对商品描述信息进行去噪处理或消歧处理。
所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
例如:某纳税人在2017年填写商品名称“YT461好友加粗L46衣架”的商品编码时选择的是1080417000000000000,“家具、建筑用金属附件及架座;金属制建筑装饰及其零件”。到了2018年同样商品该纳税人填写的商品编码是1070601000000000000,所属商品编码名称是“塑料制品”。衣架的材质不同,确实应该被分到不同的类别中,套塑衣架应该是“塑料制品”,铝合金衣架应该是“家具、建筑用金属附件及架座;金属制建筑装饰及其零件”,木质衣架应该是“木制餐具,相关木制品”。“YT461好友加粗L46衣架”实际是一种套塑衣架,该纳税人在长期商品和服务税收分类知识的积累下,逐步纠正了以往错误的分类。因此可以采用同一个纳税人填写同一个商品名称的最新商品编码,即最后一次提交的商品编码“1070601000000000000”,作为本例中“YT461好友加粗L46衣架”的商品编码。即将商品原始描述信息中商品名称“YT461好友加粗L46衣架”对应的的商品编码都修改为“1070601000000000000”。
所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。需要说明的是,商品编码熵值大于熵值阈值是混乱的不可用数据(混乱),商品编码熵值小于等于熵值阈值的是相对清晰的可用数据。
例如:商品名称为“长康辣椒油”的***,有82%的***填写的商品编码是1030206040000000000、上述商品编码为“复合调味品”的编码,有18%的***填写的1030105010400000000,上述商品编码为“其他食用植物油”的编码。设置熵值阈值0.5,本例中熵值0.47(熵值的计算公式为:-0.82*log(0.82)-0.18*log(0.18)),小于0.5,将“长康辣椒油”的商品编码统一设置成1030206040000000000。
所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。所述对所述多次提交的商品原始描述信息进行降权处理,指减少同一个提交人针对同一个商品名称提交的商品原始描述信息作为样本的数量。对同一个提交人针对同一个商品名称提交的多次商品原始描述信息进行降权处理,避免了单一提交人的提交的多次商品原始描述信息对样本集影响太大。具体的,可以将同一个提交人提交的针对同一个商品名称的n次商品原始描述信息按照log(n)进行降权处理,只保留log(n)个针对同一个商品名称的商品原始描述信息作为去噪后的商品描述信息。
通过对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,可以获得更加干净的商品描述信息,将经过去噪处理和/或消歧处理后的商品描述信息作为商品描述信息样本(包括第一商品描述信息样本和第二商品描述信息样本),能够使训练出的商品编码预测模型更加准确地预测商品名称对应的商品编码。
为了提高商品编码预测模型预测商品编码的准确度,商品描述信息中的商品名称和商品编码的来源,还可以包括:根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
例如,当商品描述信息样本的来源为纳税人开具的商品***时,可以基于税务局发布的“商品和服务税收分类编码表”和“尼斯商品分类表”对商品原始描述信息进行扩充处理。“商品和服务税收分类编码表”包括商品大类和商品编码,“尼斯商品分类表”包括明细商品数据。例如,“商品和服务税收分类编码表”中的大类“谷物”中有关于谷物的明确说明“包括稻谷、小麦、玉米、谷子、高粱、大麦、燕麦、黑麦、荞麦、其他谷物”;“尼斯商品分类表”中的“稻谷”、“大麦”、“小麦”有对应的真实商品名称。通过关联,可以得到谷物的真实商品名称,这些商品名称就是谷物这个行业的行业知识。这其中关联,我们会采用相似度算法和人工将其做准确的关联。
如图1所示,在步骤S102中,根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型。
所述第一商品编码预测模型和第二商品编码预测模型通过建立下述关系形成一个完整的商品编码预测模型:将所述第一商品编码预测模型预测出的章节编码和所述第二商品编码预测模型预测出的商品编码进行比对,根据比对结果确定商品名称对应的商品编码。
通过训练第一商品编码预测模型和第二商品编码预测模型,获得第一商品编码预测模型和第二商品编码预测模型,采用上述两个预测模型预测商品名称对应的商品编码时,可以将预测出的章节编码与商品编码结合,获得更加准确的商品编码。
优选的,第一商品编码预测模型和第二商品编码预测模型采用fasttext模型。
由于第一商品描述信息样本和第二商品描述信息样本中的商品名称对应的描述数据基本为较短的文本,因此通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;所述第一商品描述信息样本和第二商品描述信息样本为增加数据信息的商品描述信息。例如:“豪华加粗实木衣架”通过2-gram生成“豪华加粗实木衣架豪华加粗加粗实木实木衣架”序列,样本中更多的信息对分类效果起到提升。
采用层次softmax很好的解决多分类和类别样本数不均衡问题。层次softmax结构在fasttext模型的输出层构建霍夫曼树,霍夫曼树的算法原理就是层次softmax。霍夫曼树是带权路径长度最短的树,权值较大的结点离根较近。本申请中不同的商品编码(类)样本数不同,有些商品编码的样本量很大,而有些商品编码的样本量则比较小。在构建霍夫曼树中离根节点比较近的是样本量大的商品编码,在分类时商品名称被分到该类的可能性比较大,另外被分到样本量小的商品编码的可能性比较小。不用层次softmax结构的霍夫曼树,处理样本不均衡的分类效果通常会不理想。
下面以图2为例本申请第一实施例商品编码预测模型的生成方法的过程。
如图2所示,在步骤S201中,建模,确定包括商品名称和商品编码的商品原始描述信息21;在步骤S202中,对包括商品名称和商品编码的商品原始描述信息21进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;在步骤S203中,对去噪和/或消歧后的商品描述信息进行扩充,得到扩充后的商品描述信息;之后,由扩充后的商品描述信息生成章节粒度样本集22(第一商品描述信息样本集)和细目粒度样本集23(第二商品描述信息样本集);最后,根据章节粒度样本集22训练用于预测商品名称对应的章节编码的第一商品编码预测模型(fasttext模型24);以及根据述细目粒度样本集23训练用于预测商品编码的第二商品编码预测模型(fasttext模型25)。
本申请第二实施例提供了一种商品编码预测模型的生成方法。以下结合图3、图2进行详细说明。
如图3所示,在步骤S301中,确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码。
所述商品描述信息样本包括商品名称和商品编码,其中,商品名称可以包括商品的名称,还可以包括商品的品牌、商品规格、商品重量等信息。
商品描述信息样本的来源可以是纳税人开具的商品***,所述商品名称和所述商品编码可以为纳税人开具的商品***上的商品名称和商品编码。例如,如果商品***上的商品名称为“YT461好友加粗L46衣架”,商品编码为“1070601000000000000”,则商品描述信息样本可以包括:商品名称:“YT461好友加粗L46衣架”,商品编码:“1070601000000000000”。商品描述信息样本的来源也可以是其他需要根据商品名称确定商品编码的场合。
优选的,对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;所述商品描述信息样本为所述去噪和/或消歧后的商品描述信息。
由于并不是每个包括商品名称和商品编码的商品原始描述信息都适合用作商品描述信息样本,因此可以先对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;将去噪和/或消歧后的商品描述信息作为商品描述信息样本。
例如,当商品描述信息样本的来源为纳税人开具的商品***时,由于纳税人开具的商品***都是商家填写的,并不是每个商品***上的信息都可以用作商品描述信息样本,因此可以先对商品描述信息进行去噪处理或消歧处理。
所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
例如:某纳税人在2017年填写商品名称“YT461好友加粗L46衣架”的商品编码时选择的是1080417000000000000,“家具、建筑用金属附件及架座;金属制建筑装饰及其零件”。到了2018年同样商品该纳税人填写的商品编码是1070601000000000000,所属商品编码名称是“塑料制品”。衣架的材质不同,确实应该被分到不同的类别中,套塑衣架应该是“塑料制品”,铝合金衣架应该是“家具、建筑用金属附件及架座;金属制建筑装饰及其零件”,木质衣架应该是“木制餐具,相关木制品”。“YT461好友加粗L46衣架”实际是一种套塑衣架,该纳税人在长期商品和服务税收分类知识的积累下,逐步纠正了以往错误的分类。因此可以采用同一个纳税人填写同一个商品名称的最新商品编码,即最后一次提交的商品编码“1070601000000000000”,作为本例中“YT461好友加粗L46衣架”的商品编码。即将商品原始描述信息中商品名称“YT461好友加粗L46衣架”对应的的商品编码都修改为“1070601000000000000”。
所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。需要说明的是,商品编码熵值大于熵值阈值是混乱的不可用数据(混乱),商品编码熵值小于等于熵值阈值的是相对清晰的可用数据。
例如:商品名称为“长康辣椒油”的***,有82%的***填写的商品编码是1030206040000000000、上述商品编码为“复合调味品”的编码,有18%的***填写的1030105010400000000,上述商品编码为“其他食用植物油”的编码。设置熵值阈值0.5,本例中熵值0.47(熵值的计算公式为:-0.82*log(0.82)-0.18*log(0.18)),小于0.5,将“长康辣椒油”的商品编码统一设置成1030206040000000000。
所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。所述对所述多次提交的商品原始描述信息进行降权处理,指减少同一个提交人针对同一个商品名称提交的商品原始描述信息作为样本的数量。对同一个提交人针对同一个商品名称提交的多次商品原始描述信息进行降权处理,避免了单一提交人的提交的多次商品原始描述信息对样本集影响太大。具体的,可以将同一个提交人提交的针对同一个商品名称的n次商品原始描述信息按照log(n)进行降权处理,只保留log(n)个针对同一个商品名称的商品原始描述信息作为去噪后的商品描述信息。
通过对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,可以获得更加干净的商品描述信息,将经过去噪处理和/或消歧处理后的商品描述信息作为商品描述信息样本,能够使训练出的商品编码预测模型更加准确地预测商品名称对应的商品编码。
为了提高商品编码预测模型预测商品编码的准确度,商品描述信息中的商品名称和商品编码的来源,还可以包括:根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
例如,当商品描述信息样本的来源为纳税人开具的商品***时,可以基于税务局发布的“商品和服务税收分类编码表”和“尼斯商品分类表”对商品原始描述信息进行扩充处理。“商品和服务税收分类编码表”包括商品大类和商品编码,“尼斯商品分类表”包括明细商品数据。例如,“商品和服务税收分类编码表”中的大类“谷物”中有关于谷物的明确说明“包括稻谷、小麦、玉米、谷子、高粱、大麦、燕麦、黑麦、荞麦、其他谷物”;“尼斯商品分类表”中的“稻谷”、“大麦”、“小麦”有对应的真实商品名称。通过关联,可以得到谷物的真实商品名称,这些商品名称就是谷物这个行业的行业知识。这其中关联,我们会采用相似度算法和人工将其做准确的关联。
由于预测商品名称对应的章节编码的准确率比预测商品编码准确率高,为了提高预测的商品编码的准确性,商品描述信息样本集可以包括第一商品描述信息样本集和第二商品描述信息样本集,所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码;所述章节编码为基于表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
例如,当商品描述信息样本的来源为纳税人开具的商品***时,表征商品名称和商品编码对应关系的标准商品编码表,可以指税务局发布的“商品和服务税收分类编码表”,章节编码为7位,商品编码(也可称作细目编码)为19位,如“小麦”对应的章节编码为“1010101”,则商品名称“小麦”及其对应的章节编码“1010101”可以作为第一商品描述信息样本,“小麦”对应的商品编码为“10101010200000000”,则商品名称“小麦”及其对应的商品编码“1010101020000000000”可以作为第二商品描述信息样本。
如图3所示,在步骤S302中,根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
当商品描述信息样本集包括第一商品描述信息样本集和第二商品描述信息样本集时,所述根据所述商品描述信息样本集,训练商品编码预测模型,包括:
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型。
通过训练第一商品编码预测模型和第二商品编码预测模型,获得第一商品编码预测模型和第二商品编码预测模型,采用上述两个预测模型预测商品名称对应的商品编码时,可以将预测出的章节编码与商品编码结合,获得更加准确的商品编码。
优选的,商品编码预测模型采用fasttext模型。
由于商品描述信息样本中的商品名称对应的描述数据基本为较短的文本,因此通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;所述商品描述信息样本为增加数据信息的商品描述信息。例如:“豪华加粗实木衣架”通过2-gram生成“豪华加粗实木衣架豪华加粗加粗实木实木衣架”序列,样本中更多的信息对分类效果起到提升。
采用层次softmax很好的解决多分类和类别样本数不均衡问题。层次softmax结构在fasttext模型的输出层构建霍夫曼树,霍夫曼树的算法原理就是层次softmax。霍夫曼树是带权路径长度最短的树,权值较大的结点离根较近。本申请中不同的商品编码(类)样本数不同,有些商品编码的样本量很大,而有些商品编码的样本量则比较小。在构建霍夫曼树中离根节点比较近的是样本量大的商品编码,在分类时商品名称被分到该类的可能性比较大,另外被分到样本量小的商品编码的可能性比较小。不用层次softmax结构的霍夫曼树,处理样本不均衡的分类效果通常会不理想。
下面以图2为例本申请第二实施例商品编码预测模型的生成方法的过程。
如图2所示,在步骤S201中,建模,确定包括商品名称和商品编码的商品原始描述信息21;在步骤S202中,对包括商品名称和商品编码的商品原始描述信息21进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;在步骤S203中,对去噪和/或消歧后的商品描述信息进行扩充,得到扩充后的商品描述信息;之后,由扩充后的商品描述信息生成章节粒度样本集22(第一商品描述信息样本集)和细目粒度样本集23(第二商品描述信息样本集);最后,根据章节粒度样本集22训练用于预测商品名称对应的章节编码的第一商品编码预测模型(fasttext模型24);以及根据述细目粒度样本集23训练用于预测商品编码的第二商品编码预测模型(fasttext模型25)。
本申请第三实施例提供了一种确定商品编码的方法。以下结合图2、图4进行详细说明。
如图4所示,在步骤S401中,确定待确定商品编码的商品名称。
例如,当确定商品编码的商品为“小麦”时,商品名称为“小麦”。
如图4所示,在步骤S402中,根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码。
如图4所示,在步骤S403中,根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合。
如图4所示,在步骤S404中,根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
具体的,根据预测的章节编码和商品名称对应的商品编码,确定所述商品名称对应的商品编码,包括:
判断预测的所述商品编码集合中的商品编码包含的章节编码与预测的章节编码是否一致,若是,将预测的所述商品编码作为所述商品名称对应的商品编码。
由于预测的章节编码比预测的商品名称对应的商品编码更加准确,因此根据预测的章节编码和商品名称对应的商品编码,确定所述商品名称对应的商品编码,比仅采用第二商品编码预测模型预测出的商品编码更为准确。
商品编码集合中可以包含预测的商品编码中的前面几个商品编码,例如前5个商品编码或前3个商品编码。
如果当商品描述信息样本的来源为纳税人开具的商品***时,表征商品名称和商品编码对应关系的标准商品编码表,可以指税务局发布的“商品和服务税收分类编码表”,章节编码为7位,商品编码(也可称作细目编码)为19位,商品编码的前7位为章节编码。如“小麦”对应的章节编码为“1010101”,“小麦”对应的商品编码为“10101010200000000”。
例如,如果第一商品编码预测模型预测出的章节编码为“1010101”,第二商品编码预测模型预测出的商品编码集合包括预测出的前三个编码,分别为“10101010200000000”、“10101020200000000”、“10101030200000000”,则可以将前七位与预测出的章节编码相同的商品编码“10101010200000000”作为商品名称对应的商品编码。
如图2所示,将商品名称26输入用于预测商品名称对应的章节编码的第一商品编码预测模型(fasttext模型24);以及用于预测商品编码的第二商品编码预测模型(fasttext模型25);在步骤S204中,预测商品编码章节(商品编码包含的章节编码);在步骤S205中,预测top n商品编码细目(商品编码集合);在步骤S206中,输出预测章节内的商品编码集合。
与本申请第一实施例提供的一种商品编码预测模型的生成方法相对应的,本申请第四实施例还提供了一种商品编码预测模型的生成装置。
样本集确定单元501,用于确定第一商品描述信息样本集和第二商品描述信息样本集;
模型训练单元502,用于根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
可选的,所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码。
可选的,还包括:
去燥处理和/或消歧处理单元,用于对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;
所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
可选的,所述去燥处理单元,具体用于:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述去燥处理单元,具体用于:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
所述消歧处理单元,具体用于:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
可选的,所述第一商品编码预测模型和所述第二商品编码预测模型为fasttext模型。
可选的,还包括:
信息增加单元,用于通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述第一商品描述信息样本和/或第二商品描述信息样本为增加数据信息的商品描述信息。
可选的,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品***上的商品名称和商品编码。
可选的,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
需要说明的是,对于本申请第四实施例提供的商品编码预测模型的生成装置的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与上述提供的一种商品编码预测模型的生成方法相对应的,本申请第五实施例还提供了一种电子设备。
如图6所示,电子设备,包括:
处理器601;以及
存储器602,用于存储商品编码预测模型的生成方法的程序,该设备通电并通过所述处理器运行该商品编码预测模型的生成方法的程序后,执行下述步骤:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
可选的,所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码。
可选的,所述电子设备还执行下述步骤:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;
所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
可选的,所述第一商品编码预测模型和所述第二商品编码预测模型为fasttext模型。
可选的,所述电子设备还执行下述步骤:
通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述第一商品描述信息样本和/或第二商品描述信息样本为增加数据信息的商品描述信息。
可选的,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品***上的商品名称和商品编码。
可选的,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
需要说明的是,对于本申请第五实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与上述提供的一种商品编码预测模型的生成方法相对应的,本申请第六实施例还提供了一种存储设备。
存储有商品编码预测模型的生成方法的程序,该程序被处理器运行,执行下述步骤:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
需要说明的是,对于本申请第六实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与上述提供的一种确定商品编码的方法相对应的,本申请第七实施例还提供了一种确定商品编码的装置,所述装置包括:商品名称确定单元701、章节编码预测单元702、商品编码集合预测单元703、商品编码预测单元704。
商品名称确定单元701,用于确定待确定商品编码的商品名称;
章节编码预测单元702,用于根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
商品编码集合预测单元703,用于根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
商品编码预测单元704,用于根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
可选的,所述商品编码预测单元,具体用于:
判断预测的所述商品编码集合中的商品编码包含的章节编码与预测的章节编码是否一致,若是,将预测的所述商品编码作为所述商品名称对应的商品编码。
需要说明的是,对于本申请第七实施例提供的确定商品编码的装置的详细描述可以参考对本申请第三实施例的相关描述,这里不再赘述。
与上述提供的一种确定商品编码的方法相对应的,本申请第八实施例还提供了一种电子设备。
如图8所示,电子设备包括:
处理器801;以及
存储器802,用于存储确定商品编码的方法的程序,该设备通电并通过所述处理器运行该确定商品编码的方法的程序后,执行下述步骤:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
可选的,所述根据预测的所述章节编码和所述商品名称对应的商品编码,确定所述商品名称对应的商品编码,包括:
判断预测的所述商品编码集合中的商品编码包含的章节编码与预测的章节编码是否一致,若是,将预测的所述商品编码作为所述商品名称对应的商品编码。
需要说明的是,对于本申请第八实施例提供的电子设备的详细描述可以参考对本申请第二实施例的相关描述,这里不再赘述。
与上述提供的一种确定商品编码的方法相对应的,本申请第九实施例还提供了一种存储设备,
存储有确定商品编码的方法的程序,该程序被处理器运行,执行下述步骤:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
需要说明的是,对于本申请第九实施例提供的存储设备的详细描述可以参考对本申请第二实施例的相关描述,这里不再赘述。
与本申请第二实施例提供的一种商品编码预测模型的生成方法相对应的,本申请第十实施例还提供了一种商品编码预测模型的生成装置。
如图9所示,商品编码预测模型的生成装置包括:
样本集确定单元901,用于确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
模型训练单元902,用于根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
可选的,还包括:
去燥处理和/或消歧处理单元,用于对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述商品描述信息样本为所述去噪和/或消歧后的商品描述信息。
可选的,所述去燥处理单元,具体用于:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述去燥处理单元,具体用于:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
所述消歧处理单元,具体用于:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
可选的,所述商品描述信息样本集包括第一商品描述信息样本集和第二商品描述信息样本集,所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
可选的,所述模型训练单元,具体用于:
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型。
可选的,所述商品编码预测模型为fasttext模型。
可选的,还包括:
信息增加单元,用于通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述商品描述信息样本为增加数据信息的商品描述信息。
可选的,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品***上的商品名称和商品编码。
可选的,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
需要说明的是,对于本申请第十实施例提供的商品编码预测模型的生成装置的详细描述可以参考对本申请第二实施例的相关描述,这里不再赘述。
与上述提供的一种商品编码预测模型的生成方法相对应的,本申请第十一实施例还提供了一种电子设备。
如图10所示,电子设备,包括:
处理器1001;以及
存储器1002,用于存储商品编码预测模型的生成方法的程序,该设备通电并通过所述处理器运行该商品编码预测模型的生成方法的程序后,执行下述步骤:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
可选的,所述电子设备还执行下述步骤:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述商品描述信息样本为所述去噪和/或消歧后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
可选的,所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
可选的,所述商品描述信息样本集包括第一商品描述信息样本集和第二商品描述信息样本集,所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
可选的,所述根据所述商品描述信息样本集,训练商品编码预测模型,包括:
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型。
可选的,所述商品编码预测模型为fasttext模型。
可选的,所述电子设备还执行下述步骤:
通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述商品描述信息样本为增加数据信息的商品描述信息。
可选的,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品***上的商品名称和商品编码。
可选的,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
需要说明的是,对于本申请第十一实施例提供的电子设备的详细描述可以参考对本申请第二实施例的相关描述,这里不再赘述。
与上述提供的一种商品编码预测模型的生成方法相对应的,本申请第十二实施例还提供了一种存储设备。
存储有商品编码预测模型的生成方法的程序,该程序被处理器运行,执行下述步骤:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本发明权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (25)

1.一种商品编码预测模型的生成方法,其特征在于,包括:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
2.根据权利要求1所述的方法,其特征在于,包括:
所述第一商品描述信息样本集包括至少一个第一商品描述信息样本,所述第一商品描述信息样本包括商品名称和所述商品名称对应的章节编码;所述第二商品描述信息样本集包括至少一个第二商品描述信息样本,所述第二商品描述信息样本包括商品名称和所述商品名称对应的商品编码。
3.根据权利要求2所述的方法,其特征在于,还包括:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述第一商品描述信息样本为去噪和/或消歧后的包含商品名称和所述商品名称对应的章节编码的商品描述信息;
所述第二商品描述信息样本为所述去噪和/或消歧后的包含商品名称和所述商品名称对应的商品编码的商品描述信息。
4.根据权利要求3所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
5.根据权利要求3所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
6.根据权利要求3所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行消歧处理,包括:
当同一个提交人针对同一个商品名称提交的商品编码为多个时,将所述提交人针对所述同一个商品名称最后一次提交的商品编码作为所述同一个商品名称对应的商品编码。
7.根据权利要求1所述的方法,其特征在于,所述第一商品编码预测模型和所述第二商品编码预测模型为fasttext模型。
8.根据权利要求7所述的方法,其特征在于,还包括:
通过n-gram的方式增加商品描述信息中商品名称对应的数据信息,获得增加数据信息的商品名称;
所述第一商品描述信息样本和/或第二商品描述信息样本为增加数据信息的商品描述信息。
9.根据权利要求2所述的方法,其特征在于,商品描述信息中的商品名称和商品编码的来源,包括:纳税人开具的商品***上的商品名称和商品编码。
10.根据权利要求9所述的方法,其特征在于,商品描述信息中的商品名称和商品编码的来源,还包括:
根据表征商品名称和商品编码对应关系的标准商品编码表确定的商品名称和商品编码。
11.一种商品编码预测模型的生成方法,其特征在于,包括:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
12.根据权利要求11所述的方法,其特征在于,还包括:对包括商品名称和商品编码的商品原始描述信息进行去噪处理和/或消歧处理,得到去噪和/或消歧后的商品描述信息;
所述商品描述信息样本为所述去噪和/或消歧后的商品描述信息。
13.根据权利要求12所述的方法,其特征在于,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
针对商品原始描述信息,计算同一个商品名称的商品编码熵值,所述商品编码熵值用于表征所述同一个商品名称对应的商品编码的离散程度;
删除商品编码熵值大于熵值阈值的商品原始描述信息,将保留的商品原始描述信息作为去噪后的商品描述信息。
14.根据权利要求12所述的方法,所述对包括商品名称和商品编码的商品原始描述信息进行去噪处理,得到去噪后的商品描述信息,包括:
当同一个提交人针对同一个商品名称多次提交商品原始描述信息时,对所述多次提交的商品原始描述信息进行降权处理,将降权处理后的商品原始描述信息作为去噪后的商品描述信息。
15.一种确定商品编码的方法,其特征在于,包括:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
16.根据权利要求15所述的方法,其特征在于,所述根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码,包括:
判断预测的所述商品编码集合中的商品编码包含的章节编码与预测的章节编码是否一致,若是,将预测的所述商品编码作为所述商品名称对应的商品编码。
17.一种商品编码预测模型的生成装置,其特征在于,包括:
样本集确定单元,用于确定第一商品描述信息样本集和第二商品描述信息样本集;
模型训练单元,用于根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
18.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储商品编码预测模型的生成方法的程序,该设备通电并通过所述处理器运行该商品编码预测模型的生成方法的程序后,执行下述步骤:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
19.一种存储设备,其特征在于,
存储有商品编码预测模型的生成方法的程序,该程序被处理器运行,执行下述步骤:
确定第一商品描述信息样本集和第二商品描述信息样本集;
根据所述第一商品描述信息样本集,训练用于预测商品名称对应的章节编码的第一商品编码预测模型;以及根据所述第二商品描述信息样本集训练用于预测商品编码的第二商品编码预测模型;所述章节编码为表征商品名称和商品编码对应关系的标准商品编码表中的章节编码。
20.一种确定商品编码的装置,其特征在于,包括:
商品名称确定单元,用于确定待确定商品编码的商品名称;
章节编码预测单元,用于根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
商品编码集合预测单元,用于根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
商品编码预测单元,用于根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
21.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储确定商品编码的方法的程序,该设备通电并通过所述处理器运行该确定商品编码的方法的程序后,执行下述步骤:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
22.一种存储设备,其特征在于,
存储有确定商品编码的方法的程序,该程序被处理器运行,执行下述步骤:
确定待确定商品编码的商品名称;
根据所述商品名称以及预先训练的用于预测商品名称对应的章节编码的第一商品编码预测模型,预测所述商品名称对应的章节编码;
根据所述商品名称以及预先训练的用于预测商品编码的第二商品编码预测模型,预测所述商品名称对应的商品编码集合;
根据预测的所述章节编码和所述商品名称对应的商品编码集合,确定所述商品名称对应的商品编码。
23.一种商品编码预测模型的生成装置,其特征在于,包括:
样本集确定单元,用于确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
模型训练单元,用于根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
24.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储商品编码预测模型的生成方法的程序,该设备通电并通过所述处理器运行该商品编码预测模型的生成方法的程序后,执行下述步骤:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
25.一种存储设备,其特征在于,
存储有商品编码预测模型的生成方法的程序,该程序被处理器运行,执行下述步骤:
确定商品描述信息样本集;所述商品描述信息样本集包括至少一个商品描述信息样本,所述商品描述信息样本包括商品名称和商品编码;
根据所述商品描述信息样本集,训练商品编码预测模型;所述商品编码预测模型用于预测商品名称对应的商品编码。
CN201810825197.0A 2018-07-25 2018-07-25 商品编码预测模型生成和确定商品编码方法、装置及设备 Active CN110851587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810825197.0A CN110851587B (zh) 2018-07-25 2018-07-25 商品编码预测模型生成和确定商品编码方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810825197.0A CN110851587B (zh) 2018-07-25 2018-07-25 商品编码预测模型生成和确定商品编码方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110851587A true CN110851587A (zh) 2020-02-28
CN110851587B CN110851587B (zh) 2024-04-05

Family

ID=69594392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810825197.0A Active CN110851587B (zh) 2018-07-25 2018-07-25 商品编码预测模型生成和确定商品编码方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110851587B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法
CN113779933A (zh) * 2021-09-03 2021-12-10 深圳市朗华供应链服务有限公司 商品的编码方法、电子设备及计算机可读存储介质
CN114548041A (zh) * 2020-11-27 2022-05-27 华晨宝马汽车有限公司 为货品推荐hs编码的方法、电子设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101193321A (zh) * 2006-11-27 2008-06-04 汤姆森许可贸易公司 编码设备、解码设备、记录设备、音频/视频数据传送***
CN103488655A (zh) * 2012-06-13 2014-01-01 阿里巴巴集团控股有限公司 复合模型数据处理方法及***
CN104134128A (zh) * 2014-08-11 2014-11-05 税友软件集团股份有限公司 一种***的处理方法及***
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN107067293A (zh) * 2017-03-07 2017-08-18 北京三快在线科技有限公司 商家分类方法、装置及电子设备
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及***
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及***
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 ***商品名分类方法、***、设备及计算机可读存储介质
CN108052668A (zh) * 2017-12-29 2018-05-18 北京百旺金赋科技有限公司 基于商品编码的智能赋码方法及***
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101193321A (zh) * 2006-11-27 2008-06-04 汤姆森许可贸易公司 编码设备、解码设备、记录设备、音频/视频数据传送***
CN103488655A (zh) * 2012-06-13 2014-01-01 阿里巴巴集团控股有限公司 复合模型数据处理方法及***
CN104134128A (zh) * 2014-08-11 2014-11-05 税友软件集团股份有限公司 一种***的处理方法及***
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及***
CN107067293A (zh) * 2017-03-07 2017-08-18 北京三快在线科技有限公司 商家分类方法、装置及电子设备
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及***
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及***
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 ***商品名分类方法、***、设备及计算机可读存储介质
CN108052668A (zh) * 2017-12-29 2018-05-18 北京百旺金赋科技有限公司 基于商品编码的智能赋码方法及***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法
CN114548041A (zh) * 2020-11-27 2022-05-27 华晨宝马汽车有限公司 为货品推荐hs编码的方法、电子设备及介质
CN113779933A (zh) * 2021-09-03 2021-12-10 深圳市朗华供应链服务有限公司 商品的编码方法、电子设备及计算机可读存储介质
CN113779933B (zh) * 2021-09-03 2024-07-09 深圳市朗华供应链服务有限公司 商品的编码方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110851587B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110851587B (zh) 商品编码预测模型生成和确定商品编码方法、装置及设备
WO2019174422A1 (zh) 实体关联关系的分析方法及相关装置
CN110287477B (zh) 实体情感分析方法及相关装置
CN106920147B (zh) 一种基于词向量数据驱动的商品智能推荐方法
US11144817B2 (en) Device and method for determining convolutional neural network model for database
Burke et al. Grammatical evolution of local search heuristics
Luciani Forecasting with approximate dynamic factor models: the role of non-pervasive shocks
US20090248657A1 (en) web searching
CN108052979A (zh) 对模型预测值进行融合的方法、装置和设备
US10346752B2 (en) Correcting existing predictive model outputs with social media features over multiple time scales
JP2015087973A (ja) 生成装置、生成方法、およびプログラム
CN109649916B (zh) 一种智能货柜货物识别方法和装置
KR101982674B1 (ko) 밀도 수정에 기초한 대체 트레이닝 분포
JP7041348B2 (ja) 学習プログラム及び学習方法
CN105608113B (zh) 判断文本中poi数据的方法及装置
CN105373853A (zh) 股票舆情指数预测方法以及装置
CN111612581A (zh) 一种物品推荐的方法、装置、设备及存储介质
Gutierrez Bootstrapping asset price bubbles
CN110096652A (zh) 舆情风向标指数计算方法及装置、可读存储介质
CN111881058B (zh) 一种软件工程质量预测方法
CN111695024A (zh) 对象评估值的预测方法及***、推荐方法及***
CN111242318A (zh) 基于异构特征库的业务模型训练方法及装置
CN105809379A (zh) 一种对物流网点的评价方法、装置以及电子设备
CN109460474B (zh) 用户偏好趋势挖掘方法
CN106897198B (zh) 一种日志数据的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant