CN112348604A - ***商品编码赋值方法、***、装置及可读存储介质 - Google Patents

***商品编码赋值方法、***、装置及可读存储介质 Download PDF

Info

Publication number
CN112348604A
CN112348604A CN202011346801.5A CN202011346801A CN112348604A CN 112348604 A CN112348604 A CN 112348604A CN 202011346801 A CN202011346801 A CN 202011346801A CN 112348604 A CN112348604 A CN 112348604A
Authority
CN
China
Prior art keywords
word
matching
result
goods
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011346801.5A
Other languages
English (en)
Other versions
CN112348604B (zh
Inventor
陈鹏飞
张镇潮
施建生
涂昶
钱力扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Servyou Software Group Co ltd
Original Assignee
Servyou Software Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Servyou Software Group Co ltd filed Critical Servyou Software Group Co ltd
Priority to CN202011346801.5A priority Critical patent/CN112348604B/zh
Publication of CN112348604A publication Critical patent/CN112348604A/zh
Application granted granted Critical
Publication of CN112348604B publication Critical patent/CN112348604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种***商品编码赋值方法、***、装置及计算机可读存储介质,包括:接收货物名称;利用结巴分词和预设的核心词库对所述货物名称进行分词,得到全模式分词结果和精确模式分词结果;利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果;利用预先设定的加权占比和所述核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;输出置信度最高的匹配结果。本申请利用多种复合算法提取核心词,进行匹配提高了匹配的命中率,得到多种匹配结果,最后利用置信度从中挑选出置信度最高的匹配结果,确保了最终结果的精准度。

Description

***商品编码赋值方法、***、装置及可读存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种***商品编码赋值方法、***、装置及计算机可读存储介质。
背景技术
企业在开具***时,根据国家税务总局的税收分类编码表,商品和服务可以分到4000多个类别中。对税收分类编码表不够熟悉的用户,通常根据经验进行填写,经常出现商品编码填写错误的情况,一旦出现错误,很可能带来不必要的损失。因此需要设计一种算法,能够将用户填写的货品名称,通过一系列的计算,分类到最适合的商品编码中。
现有技术中的算法,需要用户准确的输入货品名称,才能够在预先构建的货品名称库中找到相应的商品编码,但是由于不同开票人开具习惯不同,有的能在库里找到,有的就很难找到。比如“农夫山泉矿泉水”,有的企业开具的就是【农夫山泉矿泉水】,但是有的企业可能会开具成【农夫山泉矿泉水500ml】、【1.5L农夫山泉矿泉水】等,利用商品库可能找到前面的【农夫山泉矿泉水】,但是找不到后面两种
为此,需要一种更为灵活高效的***商品编码赋值方法。
发明内容
有鉴于此,本发明的目的在于提供一种***商品编码赋值方法、***、装置及计算机可读存储介质,更为灵活高效。其具体方案如下:
一种***商品编码赋值方法,包括:
接收货物名称;
利用结巴分词和预设的核心词库对所述货物名称进行分词,得到全模式分词结果和精确模式分词结果;
利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果;其中,所述匹配结果包括货品名称、商品编码及货物商品编码开具公司数量占比,所述复合核心词提取算法中包括多种核心词提取算法;
利用预先设定的加权占比和所述核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
输出置信度最高的匹配结果;
其中,所述核心词库为预先创建的包括多种货物名称、货物的商品编码和各货物的货物商品编码开具公司数量占比的数据库。
可选的,所述接收货物名称的过程,包括:
接收原始货物名称;
对所述原始货物名称进行清洗,利用预设的无用词库去除无用词,得到所述货物名称。
可选的,所述利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果的过程,包括:
利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果。
可选的,还包括:
接收商品编码简称;
所述利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果的过程,包括:
利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果;
利用简称词算法、所述商品编码简称、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到简称词匹配结果。
本发明还公开了一种***商品编码赋值***,包括:
货物名称接收模块,用于接收货物名称;
结巴分词模块,用于利用结巴分词和预设的核心词库对所述货物名称进行分词,得到全模式分词结果和精确模式分词结果;
核心词提取模块,用于利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果;其中,所述匹配结果包括货品名称、商品编码及货物商品编码开具公司数量占比,所述复合核心词提取算法中包括多种核心词提取算法;
置信度计算模块,用于利用预先设定的加权占比和所述核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
结果输出模块,用于输出置信度最高的匹配结果;
其中,所述核心词库为预先创建的包括多种货物名称、货物的商品编码和各货物的货物商品编码开具公司数量占比的数据库。
可选的,所述货物名称接收模块,包括:
原始名称接收单元,用于接收原始货物名称;
原始名称清洗单元,用于对所述原始货物名称进行清洗,利用预设的无用词库去除无用词,得到所述货物名称。
可选的,所述核心词提取模块,包括:
结尾词计算单元,用于利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
唯一词计算单元,用于利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果。
可选的,还包括:
编码简称接收模块,用于接收商品编码简称;
所述核心词提取模块,包括:
结尾词计算单元,用于利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
唯一词计算单元,用于利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果;
简称词计算单元,用于利用简称词算法、所述商品编码简称、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到简称词匹配结果。
本发明还公开了一种***商品编码赋值方法,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如前述的***商品编码赋值。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的***商品编码赋值。
本发明中,***商品编码赋值方法,包括:接收货物名称;利用结巴分词和预设的核心词库对所述货物名称进行分词,得到全模式分词结果和精确模式分词结果;利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果;其中,所述匹配结果包括货品名称、商品编码及货物商品编码开具公司数量占比,所述复合核心词提取算法中包括多种核心词提取算法;利用预先设定的加权占比和所述核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;输出置信度最高的匹配结果;其中,所述核心词库为预先创建的包括多种货物名称、货物的商品编码和各货物的货物商品编码开具公司数量占比的数据库。
本发明利用多种复合算法提取核心词,进行匹配提高了匹配的命中率,得到多种匹配结果,最后利用置信度从中挑选出置信度最高的匹配结果,确保了最终结果的精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种docker容器镜像存储方法流程示意图;
图2为本发明实施例公开的另一种docker容器镜像存储方法流程示意图;
图3为本发明实施例公开的docker容器镜像定向拉取方法流程示意图;
图4为本发明实施例公开的另一种docker容器镜像定向拉取流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种***商品编码赋值方法,参见图1所示,该方法包括:
S11:接收货物名称;
S12:利用结巴分词和预设的核心词库对货物名称进行分词,得到全模式分词结果和精确模式分词结果。
具体的,接收用户输入的货物名称后,利用结巴分词和预设的核心词库对货物名称进行分词,得到全模式分词结果和精确模式分词结果,例如,全模式分词结果和精确模式分词结果分别记为cut_all_result和cut_result,假设用户输入的货物名称为“农夫山泉纯净水”,核心词库中记载了“农夫山泉纯净水”、“农夫山泉”和“纯净水”三种核心词,因此,通过对货物名称“农夫山泉纯净水”进行分词,可以得到三种结果即“农夫山泉纯净水”、“农夫山泉”和“纯净水”,其中,“农夫山泉纯净水”与货物名称完全一样记为精确模式分词结果,“农夫山泉”和“纯净水”为部分货物名称记为全模式分词结果,便得到cut_all_result:['农夫山泉','纯净水']和cut_result:['农夫山泉纯净水']两种结果。
具体的,若结巴分词在核心词库中查找不到货物名称的分词结果,其原因可能是用户输入的货物名称错误或核心词库中未记载相关货物名称的信息,则最后输出的全模式分词结果和精确模式分词结果均为空,可以终止后续匹配过程。
可以理解的是,若是核心词库中未记载相关货物名称的信息后续可以根据实际应用需求进行添加。
S13:利用复合核心词提取算法、全模式分词结果和精确模式分词结果在核心词库中匹配,得到多个匹配结果。
具体的,复合核心词提取算法中包括多种核心词提取算法,例如,结尾词算法、唯一词算法和简称词算法等等,利用多种核心词提取算法在之前结巴算法得到的全模式分词结果和精确模式分词结果的基础上继续在核心词库中匹配核心词,能够得到多种核心词提取算法输出的匹配结果,每种核心词提取算法可以输出多个匹配结果,也可以仅输出一个匹配结果,当然,基于用户输入的货物名称的准确性,部分核心词提取算法可能无法输出有效的匹配结果,即输出的匹配结果为空,但不影响其它核心词提取算法,也不影响最终输出的匹配结果。
可以理解的是,若全部核心词提取算法均输出为空,则最后的匹配结果为空,其原因可能是用户输入的货物名称错误或核心词库中未记载相关货物名称的信息。若是核心词库中未记载相关货物名称的信息后续可以根据实际应用需求进行添加。
S14:利用预先设定的加权占比和核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度。
具体的,因为采用了复合核心词提取算法,得到了多个匹配结果,为了输出唯一并且准确的与货物名称对应的商品编码,预先为复合核心词提取算法中每种核心词提取算法设置相应的加权占比,使每个匹配结果都对应有相应的加权占比。
最后,利用每个匹配结果中的货物商品编码开具公司数量占比和预先设定的加权占比,便可计算出每个匹配结果的置信度,例如,有三种算法的匹配结果分别为{‘纯净水-1030307040000000000’:90}、{‘农夫山泉纯净水-1030307040000000000’:60}和{‘纯净水-1030307040000000000’:90},其中,文字部分如“纯净水”为货物名称,数字编号部分如“1030307040000000000”为商品编码,数字如“90”为货物商品编码开具公司数量占比,此时利用加权占比计算得到结果可以为:{‘纯净水-1030307040000000000’:90}*0.2+{‘农夫山泉纯净水-1030307040000000000’:60}*0.3+{‘纯净水-1030307040000000000’:90}*0.5={‘纯净水-1030307040000000000’:63,'农夫山泉纯净水-1030307040000000000':18},其中,数字如“0.2”、“0.5”为每种算法的加权占比,上例中,最后计算出货物名称为“纯净水”,商品编号为“1030307040000000000”的置信度为63,货物名称为“农夫山泉纯净水”,商品编号为“1030307040000000000”的置信度为18。
需要说明的是,核心词库中预先构建了货物名称与商品编码的对应关系,因此,在核心词库中匹配到结果后,便可以得到相应的商品编码及货物商品编码开具公司数量占比,参见表1所示的核心词库。
表1
Figure BDA0002800180730000071
S15:输出置信度最高的匹配结果。
具体的,计算出置信度后,便可以输出置信度最高的匹配结果,便可以得到用户初始输入的货物名称所对应的商品编码。
可见,本发明实施例利用多种复合算法提取核心词,进行匹配提高了匹配的命中率,得到多种匹配结果,最后利用置信度从中挑选出置信度最高的匹配结果,确保了最终结果的精准度。
具体的,核心词库在创建时,同样要对输入其中的货物名称进行清洗,去除停用词,确保货物名称的精准度,减少干扰信息,提高后续核心提取算法提取核心词时的效率,同时,可以将货物商品开具公司数量低于一定阈值的货物名称去除,减少核心词量,以便提高后续提取速度,例如,可以将开具公司数量小于5的数据去除,例如,表1中的“双氧水”,其开具公司数量仅为1,可以去除,此外,还可以选择货物商品编码开具公司数量占比大于0.1%的货物名称,因此,表1中的“双氧水”虽然开具公司数量低,但由于开具公司总量低,货物商品编码开具公司数量占比满足要求,依旧可以存放在核心词库中。
本发明实施例公开了一种具体的***商品编码赋值方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。参见图2所示,具体的:
S21:接收原始货物名称;
S22:对原始货物名称进行清洗,利用预设的无用词库去除无用词,得到货物名称。
具体的,由于用户输入的原始货物名称存在不精准的问题,因此,可以对用户输入的原始货物名称进行清洗,通过预设的无用词库和相应的清洗算法,从原始货物名称中去除无用词,进而得到货物名称。
例如,原始货物名称为“特价农夫山泉纯净水500ml”,则清洗后得到的货物名称为“农夫山泉纯净水”,去除了其中“特价”和“500ml”这两个无用词,以便提高后续分词精度和后续匹配效率。
S23:利用结巴分词和预设的核心词库对货物名称进行分词,得到全模式分词结果和精确模式分词结果;
S24:利用结尾词算法、全模式分词结果和/或精确模式分词结果在核心词库中匹配,得到结尾词匹配结果。
具体的,复合核心词提取算法可以包括结尾词算法,结尾词算法首先判断货物名称是否以全模式分词结果中的某些词结尾,如果是,则输出全模式分词结果中作为结尾词的词作为结尾词匹配结果,例如,货物名称为“农夫山泉纯净水”,全模式分词结果为“农夫山泉”和“纯净水”则“纯净水”为结尾词,结尾词匹配结果便为“纯净水”,如果否,则判断精确模式分词结果中的词的数量是否大于1,如果大于1,则继续判断精确模式分词结果中最后的一个词是否以全模式分词结果中的某些词结尾,如果有输出作为结尾的词作为结尾词匹配结果,如果无,则结尾词匹配结果为空。
S25:利用唯一词算法和精确模式分词结果在核心词库中匹配,得到唯一词匹配结果。
具体的,利用唯一词算法判断精确模式分词结果中的词是否唯一,若唯一则将该词作为唯一词匹配结果,如果不唯一,则输出结果为空。
S26:利用预先设定的加权占比和核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
S27:输出置信度最高的匹配结果。
进一步的,本发明实施例还公开了一种***商品编码赋值方法,参见图3所示,该方法包括:
S31:接收原始货物名称和商品编码简称;
S32:对原始货物名称进行清洗,利用预设的无用词库去除无用词,得到货物名称;
S33:利用结巴分词和预设的核心词库对货物名称进行分词,得到全模式分词结果和精确模式分词结果;
S34:利用结尾词算法、全模式分词结果和/或精确模式分词结果在核心词库中匹配,得到结尾词匹配结果;
S35:利用唯一词算法和精确模式分词结果在核心词库中匹配,得到唯一词匹配结果;
S36:利用简称词算法、商品编码简称、全模式分词结果和/或精确模式分词结果在核心词库中匹配,得到简称词匹配结果。
具体的,用户在初始时,还可以输入商品编码简称,例如,*软饮料*农夫山泉纯净水500ml,其中,“软饮料”为商品编码简称,“农夫山泉纯净水500ml”为原始货物名称。
具体的,利用简称词算法判断精确模式分词结果是否为空,如果为空,输出结果为空。否则判断商品编码简称是否在预设的核心词库中,如果为空,则结果输出为空。如果不为空,根据商品编码简称找到其对应的核心词子库,并匹配全模式分词结果在商品编码简称核心词子库中的核心词开具公司数量占比,如果匹配到则选占比最大的核心词作为输出结果,否则输出结果为空。
例如,在核心词库中查找到商品编码简称为“软饮料”,则尽在该商品编码简称下的货物品名称中匹配全模式分词结果,再从中选取开具公司数量占比最大的匹配结果。
S37:利用预先设定的加权占比和核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
S38:输出置信度最高的匹配结果。
相应的,本发明实施例公开了一种具体的***商品编码赋值方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。参见图4所示,具体的:
货物名称接收模块11,用于接收货物名称;
结巴分词模块12,用于利用结巴分词和预设的核心词库对货物名称进行分词,得到全模式分词结果和精确模式分词结果;
核心词提取模块13,用于利用复合核心词提取算法、全模式分词结果和精确模式分词结果在核心词库中匹配,得到多个匹配结果;其中,匹配结果包括货品名称、商品编码及货物商品编码开具公司数量占比,复合核心词提取算法中包括多种核心词提取算法;
置信度计算模块14,用于利用预先设定的加权占比和核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
结果输出模块15,用于输出置信度最高的匹配结果;
其中,核心词库为预先创建的包括多种货物名称、货物的商品编码和各货物的货物商品编码开具公司数量占比的数据库。
可见,本发明实施例利用多种复合算法提取核心词,进行匹配提高了匹配的命中率,得到多种匹配结果,最后利用置信度从中挑选出置信度最高的匹配结果,确保了最终结果的精准度。
具体的,货物名称接收模块11,可以包括原始名称接收单元和原始名称清洗单元;其中,
原始名称接收单元,用于接收原始货物名称;
原始名称清洗单元,用于对原始货物名称进行清洗,利用预设的无用词库去除无用词,得到货物名称。
具体的,核心词提取模块13,可以包括结尾词计算单元和唯一词计算单元;其中
结尾词计算单元,用于利用结尾词算法、全模式分词结果和/或精确模式分词结果在核心词库中匹配,得到结尾词匹配结果;
唯一词计算单元,用于利用唯一词算法和精确模式分词结果在核心词库中匹配,得到唯一词匹配结果。
具体的,还可以包括编码简称接收模块;其中,
编码简称接收模块,用于接收商品编码简称;
核心词提取模块13,可以包括结尾词计算单元、唯一词计算单元和;其中,
结尾词计算单元,用于利用结尾词算法、全模式分词结果和/或精确模式分词结果在核心词库中匹配,得到结尾词匹配结果;
唯一词计算单元,用于利用唯一词算法和精确模式分词结果在核心词库中匹配,得到唯一词匹配结果;
简称词计算单元,用于利用简称词算法、商品编码简称、全模式分词结果和/或精确模式分词结果在核心词库中匹配,得到简称词匹配结果。
此外,本发明实施例还公开了一种***商品编码赋值方法,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如前述的***商品编码赋值。
另外,本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述的***商品编码赋值。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本发明所提供的技术内容进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种***商品编码赋值方法,其特征在于,包括:
接收货物名称;
利用结巴分词和预设的核心词库对所述货物名称进行分词,得到全模式分词结果和精确模式分词结果;
利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果;其中,所述匹配结果包括货品名称、商品编码及货物商品编码开具公司数量占比,所述复合核心词提取算法中包括多种核心词提取算法;
利用预先设定的加权占比和所述核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
输出置信度最高的匹配结果;
其中,所述核心词库为预先创建的包括多种货物名称、货物的商品编码和各货物的货物商品编码开具公司数量占比的数据库。
2.根据权利要求1所述的***商品编码赋值方法,其特征在于,所述接收货物名称的过程,包括:
接收原始货物名称;
对所述原始货物名称进行清洗,利用预设的无用词库去除无用词,得到所述货物名称。
3.根据权利要求2所述的***商品编码赋值方法,其特征在于,所述利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果的过程,包括:
利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果。
4.根据权利要求2所述的***商品编码赋值方法,其特征在于,还包括:
接收商品编码简称;
所述利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果的过程,包括:
利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果;
利用简称词算法、所述商品编码简称、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到简称词匹配结果。
5.一种***商品编码赋值***,其特征在于,包括:
货物名称接收模块,用于接收货物名称;
结巴分词模块,用于利用结巴分词和预设的核心词库对所述货物名称进行分词,得到全模式分词结果和精确模式分词结果;
核心词提取模块,用于利用复合核心词提取算法、所述全模式分词结果和所述精确模式分词结果在所述核心词库中匹配,得到多个匹配结果;其中,所述匹配结果包括货品名称、商品编码及货物商品编码开具公司数量占比,所述复合核心词提取算法中包括多种核心词提取算法;
置信度计算模块,用于利用预先设定的加权占比和所述核心词库中记载的每个匹配结果中的货物商品编码开具公司数量占比,计算出每个匹配结果的置信度;
结果输出模块,用于输出置信度最高的匹配结果;
其中,所述核心词库为预先创建的包括多种货物名称、货物的商品编码和各货物的货物商品编码开具公司数量占比的数据库。
6.根据权利要求5所述的***商品编码赋值***,其特征在于,所述货物名称接收模块,包括:
原始名称接收单元,用于接收原始货物名称;
原始名称清洗单元,用于对所述原始货物名称进行清洗,利用预设的无用词库去除无用词,得到所述货物名称。
7.根据权利要求6所述的***商品编码赋值***,其特征在于,所述核心词提取模块,包括:
结尾词计算单元,用于利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
唯一词计算单元,用于利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果。
8.根据权利要求6所述的***商品编码赋值***,其特征在于,还包括:
编码简称接收模块,用于接收商品编码简称;
所述核心词提取模块,包括:
结尾词计算单元,用于利用结尾词算法、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到结尾词匹配结果;
唯一词计算单元,用于利用唯一词算法和所述精确模式分词结果在所述核心词库中匹配,得到唯一词匹配结果;
简称词计算单元,用于利用简称词算法、所述商品编码简称、所述全模式分词结果和/或所述精确模式分词结果在所述核心词库中匹配,得到简称词匹配结果。
9.一种***商品编码赋值方法,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至4任一项所述的***商品编码赋值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的***商品编码赋值。
CN202011346801.5A 2020-11-26 2020-11-26 ***商品编码赋值方法、***、装置及可读存储介质 Active CN112348604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011346801.5A CN112348604B (zh) 2020-11-26 2020-11-26 ***商品编码赋值方法、***、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011346801.5A CN112348604B (zh) 2020-11-26 2020-11-26 ***商品编码赋值方法、***、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN112348604A true CN112348604A (zh) 2021-02-09
CN112348604B CN112348604B (zh) 2023-11-17

Family

ID=74365936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011346801.5A Active CN112348604B (zh) 2020-11-26 2020-11-26 ***商品编码赋值方法、***、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN112348604B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219038A (zh) * 2021-12-17 2022-03-22 税友信息技术有限公司 一种***商品名称分类方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276360A (zh) * 2007-03-30 2008-10-01 建准电机工业股份有限公司 专利检索资料的可信度验证方法
CN106844651A (zh) * 2017-01-20 2017-06-13 上海傲硕信息科技有限公司 指令结果比对筛选装置
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 ***商品名分类方法、***、设备及计算机可读存储介质
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及***
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和***
CN109918480A (zh) * 2019-03-01 2019-06-21 陈包容 一种从文本抽取地址的方法
CN110347801A (zh) * 2019-07-17 2019-10-18 安徽航天信息有限公司 一种商品分类编码匹配方法及***
CN110597995A (zh) * 2019-09-20 2019-12-20 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN110688851A (zh) * 2019-09-26 2020-01-14 税友软件集团股份有限公司 一种提取地址文本的关键信息的方法、装置及介质
CN110852815A (zh) * 2018-07-25 2020-02-28 阿里巴巴集团控股有限公司 数据处理方法、装置和机器可读介质
CN111368539A (zh) * 2020-03-02 2020-07-03 贵州电网有限责任公司 一种热点分析建模方法
CN111832318A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN111985211A (zh) * 2020-09-01 2020-11-24 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质
CN113191146A (zh) * 2021-05-26 2021-07-30 平安国际智慧城市科技股份有限公司 诉求数据的分配方法、装置、计算机设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276360A (zh) * 2007-03-30 2008-10-01 建准电机工业股份有限公司 专利检索资料的可信度验证方法
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及***
CN106844651A (zh) * 2017-01-20 2017-06-13 上海傲硕信息科技有限公司 指令结果比对筛选装置
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 ***商品名分类方法、***、设备及计算机可读存储介质
CN110852815A (zh) * 2018-07-25 2020-02-28 阿里巴巴集团控股有限公司 数据处理方法、装置和机器可读介质
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和***
CN109918480A (zh) * 2019-03-01 2019-06-21 陈包容 一种从文本抽取地址的方法
CN110347801A (zh) * 2019-07-17 2019-10-18 安徽航天信息有限公司 一种商品分类编码匹配方法及***
CN110597995A (zh) * 2019-09-20 2019-12-20 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN110688851A (zh) * 2019-09-26 2020-01-14 税友软件集团股份有限公司 一种提取地址文本的关键信息的方法、装置及介质
CN111368539A (zh) * 2020-03-02 2020-07-03 贵州电网有限责任公司 一种热点分析建模方法
CN111832318A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN111985211A (zh) * 2020-09-01 2020-11-24 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质
CN113191146A (zh) * 2021-05-26 2021-07-30 平安国际智慧城市科技股份有限公司 诉求数据的分配方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张毓;陈军清;: "基于深度特征语义学习模型的垃圾短信文本聚类研究", 现代计算机(专业版), no. 07, pages 17 - 21 *
陈江涛;张金隆;张亚军;: "在线商品评论有用性影响因素研究:基于文本语义视角", 图书情报工作, no. 10, pages 121 - 125 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219038A (zh) * 2021-12-17 2022-03-22 税友信息技术有限公司 一种***商品名称分类方法及装置

Also Published As

Publication number Publication date
CN112348604B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN102193939B (zh) 信息导航的实现方法、信息导航服务器和信息处理***
CN109255564B (zh) 一种取件点地址推荐方法及装置
CN109087163B (zh) 信用评估的方法及装置
CN110580335A (zh) 用户意图的确定方法及装置
CN106407420B (zh) 一种多媒体资源的推荐方法及***
CN109816134B (zh) 收货地址预测方法、装置以及存储介质
CN110597995B (zh) 一种商品名称分类方法、装置、设备及可读存储介质
CN110019418B (zh) 对象描述方法及装置、标识体系、电子设备和存储介质
CN110019650B (zh) 提供搜索联想词的方法、装置、存储介质及电子设备
CN107247728B (zh) 文本处理方法、装置及计算机存储介质
CN110674621A (zh) 一种属性信息填充方法和装置
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN112348604A (zh) ***商品编码赋值方法、***、装置及可读存储介质
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
CN112559877A (zh) 基于跨平台异构数据及行为上下文的ctr预估方法及***
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及***
CN111797622A (zh) 用于生成属性信息的方法和装置
CN110781365A (zh) 商品搜索方法、装置、***及电子设备
CN114358736A (zh) 客服工单生成方法、装置、存储介质和电子设备
CN113571198A (zh) 转化率预测方法、装置、设备及存储介质
CN112541357A (zh) 实体识别方法、装置及智能设备
CN112328709B (zh) 一种实体标注方法及装置、服务器、存储介质
CN116738973B (zh) 一种搜索意图识别方法、构建预测模型的方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant